Skip to the content.

AIニュース 2026-06-08

自動生成: 2026-06-08 13:41 JST

← トップに戻る

過去24時間以内に公開された記事を、同じ話題ごとに1つのストーリーカードへまとめ、出典・トピック・要約とともに掲載しています。要約は各フィード提供文の冒頭を整形したもので、本文は各リンク先をご覧ください。

📌 今日の要点 TOP7

  1. 「AI=質問」は遅れてる エージェント型AI「Claude Cowork」、組織展開に向けた管理機能を拡充ITmedia AI+

    Anthropicは、AIエージェントによる業務支援機能「Claude Cowork」を全ての有料プランで一般提供すると発表した。組織全体…

  2. NEC、富士通に先手!? 日立が「Claude Mythos」アクセス権を取得した背景ITmedia AI+

    日立製作所が、Anthropicの先進AI「Claude Mythos」のアクセス権を取得した。Anthropicを巡っては、NECや富士…

  3. 「業務の前提そのもの」をどうアップデートする? IBMが説く「AXの要件」を考察ITmedia AI+

    IBMが企業のAXにおける新たな指針として「AIオペレーティングモデル」を打ち出した。その内容から、企業がAXに向けて取り組むべき要件を探…

  4. AI×設計開発ニュースまとめ(2026年4月)ITmedia AI+

    MONOistに掲載した主要な記事を、読みやすいPDF形式の電子ブックレットに再編集した「エンジニア電子ブックレット」。今回は、設計や解析…

  5. AIペットロボット「モフリン」好調、カシオが新規事業に注力 4本目の柱に育成ITmedia AI+

    カシオ計算機が新規事業の創出に注力している。好調に推移する「G-SHOCK」(ジーショック)など腕時計事業に加え、経営の多角化を進める狙い…

  6. AIによるコード生成、3年後は3倍超に AI普及で浮上する課題はITmedia AI+

    IDCの調査によると、AIが主体的にコードを生成する企業の割合が3年後には約3倍に拡大するという。AI普及に伴い、浮上する課題とは。

  7. ワークフロー承認はAIに任せられるのか 7割が否定した理由ITmedia AI+

    エイトレッドの調査によると、ワークフローにおける承認・決裁プロセスそのものについては、AIに委ねるべきではないとする回答が7割を超えた。

トピック別件数

日本語メディア9件

ITmedia AI+ (日本語)

13:20 JSTその他

「業務の前提そのもの」をどうアップデートする? IBMが説く「AXの要件」を考察

IBMが企業のAXにおける新たな指針として「AIオペレーティングモデル」を打ち出した。その内容から、企業がAXに向けて取り組むべき要件を探る。

13:00 JSTLLM/生成AIエージェントAnthropicClaude

「AI=質問」は遅れてる エージェント型AI「Claude Cowork」、組織展開に向けた管理機能を拡充

Anthropicは、AIエージェントによる業務支援機能「Claude Cowork」を全ての有料プランで一般提供すると発表した。組織全体への展開に向けた管理機能も同時に拡充する。

12:30 JSTその他

AI×設計開発ニュースまとめ(2026年4月)

MONOistに掲載した主要な記事を、読みやすいPDF形式の電子ブックレットに再編集した「エンジニア電子ブックレット」。今回は、設計や解析など製品開発の現場で活用が進みつつあるAI関連のニュースをまとめた「AI×設計開発ニュースまとめ(2026年4月)」をお送りします。

11:12 JSTロボティクス

AIペットロボット「モフリン」好調、カシオが新規事業に注力 4本目の柱に育成

カシオ計算機が新規事業の創出に注力している。好調に推移する「G-SHOCK」(ジーショック)など腕時計事業に加え、経営の多角化を進める狙いだ。精鋭が集まった社長直轄組織がその役割を担い、挑戦の行方が注目される。

08:00 JSTその他

AIによるコード生成、3年後は3倍超に AI普及で浮上する課題は

IDCの調査によると、AIが主体的にコードを生成する企業の割合が3年後には約3倍に拡大するという。AI普及に伴い、浮上する課題とは。

07:00 JSTLLM/生成AI

なぜ姫路市の救急病院AIチャットは、2週間で正答率最高90%を出せたのか?

生成AIで多くの業務が効率化されるなか、電話対応だけは何十年も変わらない光景が続いている。AIを実務で機能させる鍵は何か。メディアリンクが姫路市との実証実験で示した「ナレッジ循環」の仕組みを読み解く。

07:00 JSTLLM/生成AIAnthropicClaude

NEC、富士通に先手!? 日立が「Claude Mythos」アクセス権を取得した背景

日立製作所が、Anthropicの先進AI「Claude Mythos」のアクセス権を取得した。Anthropicを巡っては、NECや富士通も協業を発表している。

07:00 JSTその他

ワークフロー承認はAIに任せられるのか 7割が否定した理由

エイトレッドの調査によると、ワークフローにおける承認・決裁プロセスそのものについては、AIに委ねるべきではないとする回答が7割を超えた。

05:30 JSTエージェント

AIエージェントに対する製造業のリアルな声

製造業のちょっと気になる話題をAIプレゼンターが紹介する「MONOistポッドキャスト」。今回は、MONOist編集部が実施した「製造業のAIエージェント活用実態調査 2026」の結果レポートの概要をお届けします。

海外メディア3件

TechCrunch AI (英語)

05:26 JSTその他

Is this the dawn of the Tokenpocalypse?

We're likely to see more price increases as the big AI companies plan to go public.

02:56 JSTLLM/生成AIAnthropic

Notion restores access to Anthropic after service disruption

Notion's head of product said he was "astonished" at “the amount of people RT-ing this."

01:23 JSTLLM/生成AIOpenAI

OpenAI is still working on that ‘super app’

"Chat is dead" — at least, according to a senior OpenAI employee.

公式ブログ0件

このカテゴリの新着記事はありませんでした。

論文288件

arXiv cs.AI (英語)

13:00 JST研究/論文

公平性を対称操作として扱うことによるバイアスの検出と軽減

一か八かの社会経済的環境に導入された機械学習システムは、日常的にバイアスを示します。私たちはバイアスを対称性の破壊操作として形式化します。分類器は、メリット特徴が固定された状態で、機密属性を切り替えるという反事実的な操作の下で出力が不変のままである場合に公平です。対称性回復メカニズムとして損失ベースの正則化を実装し、さまざまなレベルのノイズ、相関、バイアスを使用して 4 つの合成データセットでフレームワークを評価します。このフレームワークは、精度コストが約 5\% であるにもかかわらず、90\% 以上の違反削減を達成します。このフレームワークは因果グラフの知識を必要とせず、計算が軽量で、ビットフリップとして定義可能なあらゆる機密属性に一般化するため、主流のベンチマークにローカルな差別源が存在しない状況に適しています。

原文 (English)

Detecting and Mitigating Bias by Treating Fairness as a Symmetry Operation

Machine learning systems deployed in high stakes socioeconomic settings routinely display bias. We formalize bias as a symmetry breaking operation: a classifier is fair if its outputs remain invariant under the counterfactual operation of switching a sensitive attribute, with merit features held fixed. We implement loss based regularization as a symmetry restoring mechanism and evaluate the framework on four synthetic datasets with varying levels of noise, correlation, and bias. The framework achieves upwards of 90\% violation reduction, with accuracy costs around 5\%. This framework does not require causal graph knowledge, is computationally lightweight, and generalizes to any sensitive attribute definable as a bit-flip, making it suitable for contexts where local sources of discrimination remain absent from mainstream benchmarks.

13:00 JST研究/論文

DiBS: 拡散に基づいたブランチ選択

数独は、厳密な離散制約の下で大域的な構造的推論を必要とする代表的な制約充足問題です。数独を解く既存の作品は、主に 2 つの主要なアプローチ、つまり従来のヒューリスティック ソルバーと深層学習ソルバーに焦点を当てています。ただし、これらには 2 つの相補的な制限があります。学習ベースのソルバーには厳密な正確性の保証がありませんが、完全なシンボリック ソルバーには依然としてロングテール検索が発生する傾向があります。これらの欠点に対処するために、我々は、分岐選択検索プロセスに対して、DiBS と呼ばれる新しい拡散モデル誘導アプローチを提案します。具体的には、DiBS はシンボリック ソルバーを完全な状態に保ち、分岐順序付けガイドとして拡散モデルを使用します。中心的な方法は、現在の部分的な割り当てと軽量の一貫性信号に基づいて候補値をランク付けすることです。さらに、それがどのように機能するのか、なぜ機能するのかを明らかにするための詳細な理論的証明を提供します。挑戦的な Royle 17-clue Sudoku ベンチマークの実験では、当社の DiBS が、特にノード、バックトラック、ロングテール パーセンタイルにおいて、強力なヒューリスティック ベースラインと比較して検索コストを大幅に削減することが示されています。さらに、これらの結果は、学習されたグローバル ガイダンスが、分岐順序の間違いが最も高くつく困難なインスタンスに対して効果的であることを裏付けています。すべてのコードは https://github.com/shanxierdan/DiBS で入手できます。

原文 (English)

DiBS: Diffusion-Informed Branch Selection

Sudoku is a representative constraint satisfaction problem that requires global structural reasoning under strict discrete constraints. The existing works of solving Sudoku mainly focus on two dominant approaches, i.e., traditional heuristic and deep learning solver. However, they suffer from two complementary limitations: learning-based solvers lack hard correctness guarantees, while complete symbolic solvers are still prone to long-tail search. To address these shortcomings, we propose a novel diffusion model-guided approach, termed as DiBS, for the branch selection search process. Specifically, DiBS keeps the symbolic solver complete and uses the diffusion model as a branch-ordering guide. The core method is ranking candidate values under the current partial assignment and lightweight consistency signal. Furthermore, we provide an in-depth theoretical proof to reveal how it works and why it works. Experiments on the challenging Royle 17-clue Sudoku benchmark show that our DiBS substantially reduces search cost relative to strong heuristic baselines, especially in nodes, backtracks, and long-tail percentiles. Besides, these results confirm that learned global guidance is effective on hard instances where branch-order mistakes are most expensive. All codes are available at https://github.com/shanxierdan/DiBS.

13:00 JSTLLM/生成AI

SafeGene: 転送可能な安全調整のための再利用可能なアダプタ

オープンウェイト LLM は、カスタマイズされたアシスタントに合わせて微調整されることが増えていますが、ダウンストリームの微調整により、トレーニング データが意図的に有害でない場合でも、安全性の調整が弱まり、モデルが悪意のあるプロンプトに対してより脆弱になる可能性があります。これにより、ターゲット モデルが新しいタスク データやユーザー インタラクションで繰り返し更新されるため、安全性回復の問題が繰り返し発生します。私たちは、各アーキテクチャ互換モデル ファミリ内でタスク間で再利用できるように設計された再利用可能なセーフティ アダプター モジュールである SafeGene を提案します。 SafeGene は、安全性回復をモデル固有の修復ステップとして扱うのではなく、タスク固有の更新から切り離された独立した再利用可能なアダプター表現として安全機能を扱います。この表現は、整列と劣化のモデルの不一致から取得され、データを意識したレイヤー選択を通じてタスクに転送可能な安全ベクトルに洗練され、数ショットのレイヤーごとの係数再調整を通じて下流の各タスク適応モデルで表現されます。複数のモデルファミリー、下流のタスク、および安全性判定者にわたる実験により、SafeGene で強化されたモデルは、下流のパフォーマンスを維持しながら有害な反応率を低減し、安全性とユーティリティのトレードオフにおいて、代表的な安全適応手法よりも優れたパフォーマンスを発揮することが示されています。

原文 (English)

SafeGene: Reusable Adapters for Transferable Safety Alignment

Open-weight LLMs are increasingly fine-tuned into customized assistants, but downstream fine-tuning can weaken safety alignment and make models more vulnerable to malicious prompts, even when the training data is not intentionally harmful. This creates a recurring safety recovery problem as target models are repeatedly updated with new task data or user interactions. We propose SafeGene, a reusable safety-adapter module designed for cross-task reuse within each architecture-compatible model family. Rather than treating safety recovery as a model-specific repair step, SafeGene treats safety capability as an independent, reusable adapter representation decoupled from task-specific updates. This representation is obtained from aligned--degraded model discrepancies, refined into task-transferable safety vectors through data-aware layer selection, and expressed in each downstream task-adapted model via few-shot layer-wise coefficient recalibration. Experiments across multiple model families, downstream tasks, and safety judges show that SafeGene-enhanced models reduce harmful response rates while maintaining downstream performance, outperforming representative safe adaptation methods in safety--utility trade-off.

13:00 JSTLLM/生成AIエージェント

Lean4Agent: エージェントのワークフローと軌跡の正式なモデリングと検証

信頼性の高い複数ステップのワークフローを実行するために大規模言語モデル (LLM) を装備することは、人工知能における中心的な課題となっています。 LLM のエージェント機能は最近進歩していますが、ほとんどのエージェント システムには、ワークフローと実行の軌跡を指定​​、検証、デバッグするための正式な方法がまだありません。この課題は、自然言語 (NL) の曖昧さが形式言語 (FL) の開発の動機となるという、数学における長年の問題を反映しています。このパラダイムに触発されて、私たちは、エージェントの動作をモデル化して検証するために依存型 FL である Lean4 を使用する最初のフレームワークである **Lean4Agent** (私たちの知る限り) を提案します。 **Lean4Agent** は、明示的な仮定の下でエージェント ワークフローのセマンティック一貫性を正式にモデル化して検証し、軌跡によって明らかになった実行時のエラーの局所化を可能にする、拡張可能な Lean4 ライブラリである **FormalAgentLib** を起動します。 **FormalAgentLib** に基づいて **LeanEvolve** をさらに開発し、**FormalAgentLib** の結果を適用してワークフローを修正し、その機能を強化します。 5 つの主要 LLM にわたる SWE-Bench-Verified の困難な問題のサブセットと ELAIP-Bench のサブセットに関する広範な実験により、検証に合格したワークフローが不合格のワークフローよりも平均 **11.94%** 優れており、**LeanEvolve** により SWE のパフォーマンスが平均 **7.47%** 向上することが示されました。さらに、**Lean4Agent** は、表現力豊かな依存型 FL を使用してエージェントの動作を正式にモデル化および検証する新しい分野の基盤を確立します。

原文 (English)

Lean4Agent: Formal Modeling and Verification for Agent Workflow and Trajectory

Equipping Large Language Models (LLMs) to execute reliable multi-step workflows has become a central challenge in artificial intelligence. Despite recent advances in LLMs' agentic capabilities, most agent systems still lack formal methods for specifying, verifying, and debugging their workflow and execution trajectories. This challenge mirrors a long-standing problem in mathematics, where the ambiguity of natural languages (NLs) motivates the development of formal languages (FLs). Inspired by this paradigm, we propose **Lean4Agent**, to the best of our knowledge, the first framework that uses Lean4, a dependent-type FL to model and verify agent behavior. **Lean4Agent** launches **FormalAgentLib**, an extensible Lean4 library for formally modeling and verifying agent workflows' semantic consistency under explicit assumptions, and enabling localization of execution-time failures revealed by trajectories. Building on **FormalAgentLib**, we further develop **LeanEvolve**, which applies results in **FormalAgentLib** to revise workflows to enhance its capability. Extensive experiments on a hard problem subset of SWE-Bench-Verified and a subset of ELAIP-Bench across 5 leading LLMs indicate that the verification-passing workflows outperform the failing ones by an average of **11.94%**, and **LeanEvolve** further improves SWE performance by **7.47%** on average. Furthermore, **Lean4Agent** establishes a foundation for a new field of using expressive dependent-type FL to formally model and verify agent behavior.

13:00 JST研究/論文

CrowdMath: クラウドソースによる数学研究ディスカッションのデータセット

大規模な言語モデルは数学的推論において大幅な進歩を遂げていますが、既存のベンチマークは通常、最終的な答え、段階的な解決策、または完全な証明を使用して、明確に指定された問題を評価します。これらは、協力的な未解決問題の解決、つまり参加者が部分的な議論を提案し、前のステップのギャップやエラーを特定し、欠陥のある推論を修復し、漸進的な貢献を証明に統合するという設定を捉えていません。我々は、MIT PRIMES-Art of 問題解決 (AoPS) CrowdMath プログラム (2016 ~ 2025 年) からの 164 の専門家による注釈付きのプログレス チェーンのデータセットである CrowdMath を紹介します。このプログラムは、その議論が査読付き出版物につながった共同研究イニシアチブです。各チェーンは、未解決の問題の発言から完成した証明に至るまで、複数の参加者によるフォーラムのディスカッションを追跡します。投稿には、部分的な進捗、証明の完了、誤った推論、エラーの特定など、進化するソリューション プロセスにおける機能的な役割によってラベルが付けられます。評価タスクを定義し、6 つのフロンティア モデルをベンチマークします。モデルは次回予測で 83 ~ 88% の精度を達成しており、数学的議論の局所的な流れに従うことができることを示唆しています。しかし、彼らは、役割後の分類でマクロ F1 が 0.42 しか達成できない最良のモデルを使用して、個々の貢献の機能的重要性を特定するのに苦労しています。 CrowdMath は、明確に指定された数学的問題を解決することと、共同で展開される数学的進歩を理解することとの間にあるギャップを明らかにします。

原文 (English)

CrowdMath: A Dataset of Crowdsourced Mathematical Research Discussions

Large language models have made substantial progress on mathematical reasoning, but existing benchmarks typically evaluate well-specified problems with final answers, step-by-step solutions, or complete proofs. They do not capture collaborative open-problem solving: a setting in which participants propose partial arguments, identify gaps or errors in prior steps, repair flawed reasoning, and gradually synthesize incremental contributions into a proof. We introduce CrowdMath, a dataset of 164 expert-annotated progress chains from the MIT PRIMES--Art of Problem Solving (AoPS) CrowdMath program (2016-2025), a collaborative research initiative whose discussions have led to peer-reviewed publications. Each chain traces a multi-participant forum discussion from an open-problem statement to a completed proof. Posts are labeled by their functional roles in the evolving solution process, including partial progress, proof completion, erroneous reasoning, and error identification. We define evaluation tasks and benchmark six frontier models. Models achieve 83-88% accuracy on next-post prediction, suggesting that they can follow the local flow of mathematical discussion. However, they struggle to identify the functional significance of individual contributions with the best model achieving only 0.42 macro-F1 on post-role classification. CrowdMath exposes a gap between solving well-specified mathematical problems and understanding collaborative mathematical progress as it unfolds.

13:00 JSTエージェントビジネス/資金調達

Agentic AI 制御評価における攻撃選択により安全性が大幅に低下する

いつ攻撃するかを戦略的に選択する攻撃者は、無差別に攻撃する攻撃者よりも捕まえるのがはるかに困難です。 AI コントロールは、能力はあるが信頼できない AI エージェントを、弱い信頼できる監視者の監視と限られた人間の監査予算の下で展開するための安全フレームワークです。コントロールの評価では、レッドチームの攻撃ポリシーとブルーチームの監視を比較することで、これらのプロトコルをストレステストしますが、現在の評価では通常、攻撃者がいつ攻撃するかを戦略的に選択していないことを想定しています。私たちは、攻撃の決定を、攻撃者がいつ攻撃すべきかを決定する開始ポリシーと、攻撃者が進行中の攻撃をいつ中止すべきかを決定する停止ポリシーに分解することによって、エージェント設定におけるこの機能、つまり攻撃の選択を研究します。 BashArena と LinuxArena の 2 つのエージェント設定にわたって、どちらのポリシーも、基礎となる攻撃能力を変えることなく、測定された経験的安全性を大幅に低下させます。 1% の監査予算では、開始ポリシーは BashArena と LinuxArena の両方で安全性を 20pp 低下させ、停止ポリシーは BashArena で 20pp、LinuxArena で 28pp ずつ安全性を低下させます。これらの減少は、攻撃選択の効果の上限として解釈される必要があります。したがって、既存の制御評価では、選択的攻撃者に対して過度に楽観的な安全性推定が得られる可能性があります。今後の評価、システム カード、および安全性ケースによって攻撃の選択を導き出し、より現実的な安全性の見積もりを作成することをお勧めします。

原文 (English)

Attack Selection in Agentic AI Control Evaluations Meaningfully Decreases Safety

An attacker that strategically chooses when to attack is much harder to catch than one that attacks indiscriminately. AI control is a safety framework for deploying capable but untrusted AI agents under the oversight of a weaker, trusted monitor and a limited human audit budget. Control evaluations stress-test these protocols by pitting a red-team attack policy against the blue-team monitor, but current evaluations typically assume attackers that do not strategically select when to attack. We study this capability, attack selection, in agentic settings by decomposing attack decisions into a start policy, which decides when an attacker should attack, and a stop policy, which decides when an attacker should abort an ongoing attack. Across two agentic settings, BashArena and LinuxArena, both policies substantially lower measured empirical safety without changing the underlying attack capability. At a 1% audit budget, our start policy reduces safety by 20pp on both BashArena and LinuxArena, and our stop policy reduces safety by 20pp on BashArena and 28pp on LinuxArena. These reductions should be interpreted as upper bounds on the effect of attack selection. Existing control evaluations may therefore yield overly optimistic safety estimates against selective attackers. We recommend that future evaluations, system cards, and safety cases elicit attack selection to produce more realistic safety estimates.

13:00 JST研究/論文

CARVE-Q: Quantum が提案し、古典的に認定された対話型運転修復

正しい運転拒否権を発動した後の重要な問題は、その操作が安全でないかどうかだけでなく、遮断された相互作用が合法的で監査可能で責任限定の修理を認めるかどうかです。予測やゲーム理論に基づいたプランナーは、もっともらしい協力を示唆することはできますが、修理が厳格なルール、優先順位、コスト配分、エゴのフォールバックを尊重しているという証拠を返しません。予測不要の対話型修復のための証明書アーキテクチャである、エンベロープを介した拒否操作の認証された手頃な価格の修復である CARVE を導入します。拒否権が与えられた操作を考慮すると、CARVE は有限の修復格子を構築し、拘束力のあるルール、選択された共同修復、用地スケールの協力エンベロープ、責任に重み付けされたコスト分割、およびエゴのみのフォールバックを記録する構造化された証明書を発行します。この証明書ビューは、アルゴリズムのボトルネックを明らかにします。複数の所有者の修復により積格子 $M = \prod_j |\mathcal{A}_j|$ が誘発されます。したがって、すべての安全権限を古典的なままにして、量子最小値の発見をこのブラックボックス格子にのみ適用する、検証者で保護された量子 AI 検索レイヤーである CARVE-Q を導入します。保守的な検証者-オラクル モデルでは、正確な古典的最小値検出には最悪の場合 $\Theta(M)$ クエリが必要ですが、Durr-Hoyer/Grover 最小値検出では高い確率で $O(\sqrt{M})$ オラクル クエリが使用されます。私たちは、検証者によって保護された証明書の健全性、優先順位の非引き出し、ブラックボックスクエリの分離、および有限精度の可逆オラクル構成可能性を証明します。次に、最大 65,536 の割り当てまでの CARVE 修復オラクルに関する状態ベクトルの最小結果を実証し、100% の用地優先、100% の責任の一貫性、および優先度の誤検知ゼロで、Lanelet2 ベースの INTERACTION リプレイで証明書の保存を検証します。その結果、自律性が保証された、信頼に制限された量子 AI パターンが生まれます。 CARVEが認定します。

原文 (English)

CARVE-Q: Quantum-Proposed, Classically Certified Interactive Driving Repair

The critical question after a correct driving veto is not only whether a maneuver is unsafe, but whether the blocked interaction admits a lawful, auditable, and responsibility-bounded repair. Prediction and game-theoretic planners can suggest plausible cooperation, yet they do not return a proof that the repair respects hard rules, right-of-way, cost allocation, and ego fallback. We introduce CARVE, Certified Affordable Repair of Vetoed maneuvers via Envelopes, a certificate architecture for prediction-free interactive repair. Given a vetoed maneuver, CARVE constructs a finite repair lattice and emits a structured certificate recording the binding rule, selected joint repair, right-of-way-scaled cooperation envelope, responsibility-weighted cost split, and ego-only fallback. This certificate view reveals the algorithmic bottleneck: multi-owner repair induces a product lattice $M = \prod_j |\mathcal{A}_j|$. We therefore introduce CARVE-Q, a verifier-shielded quantum-AI search layer that applies quantum minimum finding only to this black-box lattice while leaving all safety authority classical. In the conservative verifier-oracle model, exact classical minimum finding requires $\Theta(M)$ queries in the worst case, whereas Durr-Hoyer/Grover minimum finding uses $O(\sqrt{M})$ oracle queries with high probability. We prove verifier-shielded certificate soundness, priority non-elicitation, black-box query separation, and finite-precision reversible-oracle constructibility. We then demonstrate state-vector minimum finding on CARVE repair oracles up to 65,536 assignments and validate certificate preservation on Lanelet2-grounded INTERACTION replay with 100% right-of-way respect, 100% blame consistency, and zero priority false positives. The result is a trust-bounded quantum-AI pattern for certified autonomy: quantum proposes; CARVE certifies.

13:00 JSTLLM/生成AI

立場: 「事後修正」だけではだめ: AI の科学はトレーニング ダイナミクスを研究する必要がある

AI を科学的に理解するとはどういう意味でしょうか?モデルは静的なオブジェクトではありません。モデルは、データ、目的、アーキテクチャ、最適化ダイナミクスによって形成される、時間とともに進化するプロセスのスナップショットです。しかし、AI 研究の多くはモデルを固定された成果物として扱い、モデルがなぜ出現するのかを問うのではなく、トレーニング後の行動を分析します。この意見書では、AI の科学は事後修正を超えて、モデルの動作を生み出すトレーニングのダイナミクスを研究する必要があると主張しています。このような科学は、初期のトレーニング信号から結果を予測し、軌道が狂った場合に介入し、最終的には望ましい特性をより確実に生み出すトレーニング手順を設計するなど、段階的により強力な形式の理解をサポートする必要があります。スケーリングの法則により、損失の予測が日常的に行われています。課題は、この成功を機能、バイアス、堅牢性、安全関連の動作に拡張することです。私たちは、科学の歴史と哲学に基づいたそのような理論の要件を明確にし、機械的解釈可能性、公平性、暗記化、単純さバイアスの進歩を検証し、具体的な未解決の問題を特定します。

原文 (English)

Position: Don't Just "Fix it in Post": A Science of AI Must Study Training Dynamics

What would it mean to have a scientific understanding of AI? Models are not static objects: they are snapshots of time-evolving processes shaped by data, objectives, architectures, and optimization dynamics. Yet much of AI research treats models as fixed artifacts, analyzing behaviors after training rather than asking why they emerge. This position paper argues that a science of AI must move beyond post-hoc fixes and study the training dynamics that produce model behavior. Such a science should support progressively stronger forms of understanding: predicting outcomes from early training signals, intervening when trajectories go wrong, and ultimately designing training procedures that more reliably produce desired properties. Scaling laws have made prediction routine for loss; the challenge is extending this success to capabilities, biases, robustness, and safety-relevant behaviors. We articulate requirements for such theories grounded in the history and philosophy of science, examine progress in mechanistic interpretability, fairness, memorization, and simplicity bias, and identify concrete open problems.

13:00 JSTハードウェア/半導体

Accelerated Fourier SAT (AFSAT): GPU ベースの対称擬似ブール SAT ソルバーを完全に実現

我々は、連続局所探索 (CLS) に基づく擬似ブール充足可能性の GPU 高速化ソルバーである Accelerated Fourier SAT (AFSAT) を紹介します。 AFSAT は、概念実証アプローチである FastFourierSAT を、単一の問題インスタンス内の対称制約のタイプと長さの異種混合をサポートする完全に設計されたソルバーに実現します。 JAX コンパイラーを使用する AFSAT は、純粋関数合成、自動ベクトル化、自動微分、ジャストインタイム (JIT) コンパイルを活用して、候補割り当てのバッチ全体で大規模並列 CLS を実行します。概念実証と比較して、数値安定性、実行時パフォーマンス、メモリ効率が大幅に向上していることを実証します。私たちは、自動並列化とコンパクトな表現を活用するだけでなく、メモリ レイテンシや浮動小数点表現から生じるさまざまな制限を特定して対処することでこれを実現します。浮動小数点の固有の表現および安定性の制限は、調整された離散フーリエ変換の実装によって部分的に対処されます。 JAX アレイ シャーディングを介して複数のアクセラレータにスケーリングする場合、ほぼ線形のスループットを実現します。

原文 (English)

Accelerated Fourier SAT (AFSAT): Fully Realising a GPU-based Symmetric Pseudo-Boolean SAT Solver

We present Accelerated Fourier SAT (AFSAT), a GPU-accelerated solver for pseudo-Boolean satisfiability based on continuous local search (CLS). AFSAT realises the proof-of-concept approach, FastFourierSAT, into a fully-engineered solver supporting any heterogeneous mixture of symmetric constraint types and lengths within a single problem instance. Using the JAX compiler, AFSAT leverages pure function composition, automatic vectorisation, automatic differentiation, and just-in-time (JIT) compilation to perform massively parallel CLS across batches of candidate assignments. We demonstrate substantially improved numerical stability, runtime performance, and memory efficiency over the proof-of-concept. We achieve this by way of identifying and addressing various limitations that arise from memory latency and floating-point representation, as well as leveraging automatic parallelisation and compact representations. The inherent representational and stability limitations of floating point are partially addressed by a tailored discrete Fourier transform implementation. We achieve near-linear throughput when scaling to multiple accelerators via JAX array sharding.

13:00 JST研究/論文

並列連続局所探索に関する研究

対称擬似ブール (PB) 制約を使用したブール充足可能性問題の解決アプローチとして、並列連続局所探索 (CLS) を研究します。ここで、 $n$ 変数 PB 充足可能性問題は、 $n$ 次元超立方体上の微分可能な目的関数による連続最適化問題に緩和されます。満足可能なインスタンスの場合、この最適化問題のグローバル ミニマイザーは、当面の SAT 問題の満足な割り当てに対応します。我々は、実証実験を通じていくつかの新しい発見を提示します。(i) 冗長な制約は収束を加速するのではなく、むしろ阻害する可能性があります。 (ii) CLS は、ハイブリッド設定におけるサブソルバーとして有望であり、部分的な割り当てを迅速に完了します。 (iii) 追加のソルバー ステップによって利益が減少する鞍部密度の目標により、局所探索は解の品質 (つまり、満足度) の安定した分布に急速に収束します。私たちの調査結果は、最新のアクセラレータ ハードウェア上で SAT 用 CLS を実際に使用する方法を示しています。

原文 (English)

A Study of Parallel Continuous Local Search

We study parallel Continuous Local Search (CLS) as a solution approach for Boolean satisfiability problems with symmetric pseudo-Boolean (PB) constraints. Here, the $n$-variable PB-satisfiability problem is relaxed to a continuous optimisation problem with a differentiable objective function on an $n$-dimensional hypercube. For satisfiable instances, the global minimisers of this optimisation problem correspond to satisfying assignments of the SAT problem at hand. We present several novel findings via empirical experiments: (i) redundant constraints can inhibit rather than accelerate convergence; (ii) CLS shows promise as a sub-solver in hybridised settings, quickly completing partial assignments; and (iii) local search rapidly converges to a stable distribution of solution quality (i.e., degree of satisfaction), due to saddle-dense objectives where additional solver steps yield diminishing returns. Our findings inform practical uses of CLS for SAT on modern accelerator hardware.

13:00 JSTロボティクス

AEGIS: 物理 AI のバックアップ反射

長期的なロボット操作は徐々に失敗する傾向にあります。一歩間違えると国家が劣化し、政策はスパイラルに陥り、そこから回復することはできません。多くの場合、失敗は発生する前に目に見えます。 AEGIS (Activation-probe Early-warning、Gated Inference Switching) を導入します。これは、弱いポリシーの凍結されたアクティベーションに対して軽量のプローブを使用して、対応する時間がまだある間に高リスクのステップを検出する選択的エスカレーション方法です。プローブがステップにフラグを立てると、制御はより強力な別のポリシーに切り替わりますが、それが必要なステップに対してのみ行われます。 LIBERO-Spatial では、AEGIS は弱い政策だけで失った軌跡の 10.1% を回復します。これに対し、予算に合わせたブラインド エスカレーションでは 4.6%、ランダムトリガーのプラセボでは 5.1% です。これらの利得は、事前に登録された 3 つのコントラストに対するホルム・ボンフェローニ調整を使用した片側厳密対マクネマー検定の下で顕著です。ブラインドエスカレーションに対して +5.4pp、p=8.5e-6。ランダムトリガーに対して +5.0pp、p=1.0e-4;ペア軌道ブートストラップ CI ではゼロが除外されます。 AEGIS はステップの 38% のみでより強力なポリシーをアクティブにするため、重要なのは計算ではなくタイミングです。プローブは、ハンドオフ前の軌道ステップの最初の 30% にわたって弱いポリシー パスから読み取られた 0.764、95% CI [0.70、0.84] の初期ウィンドウ AUROC で前提条件をクリアします。条件付き回復タスク率推定値と明示的なキル基準を含む完全な分析計画を事前登録し、アームごとに 700 回の共通乱数エピソード (nA-fail=646) で結果を確認します。

原文 (English)

AEGIS: A Backup Reflex for Physical AI

Long-horizon robot manipulation tends to fail gradually: one bad step degrades the state, and the policy spirals into a basin from which it cannot recover. The failure is often visible before it happens. We introduce AEGIS (Activation-probe Early-warning, Gated Inference Switching), a selective escalation method that uses a lightweight probe on a weak policy's frozen activations to detect high-risk steps while there is still time to act. When the probe flags a step, control switches to a stronger separate policy, but only for the steps that need it. On LIBERO-Spatial, AEGIS recovers 10.1% of the trajectories the weak policy alone loses, versus 4.6% for budget-matched blind escalation and 5.1% for a random-trigger placebo. These gains are significant under one-sided exact paired McNemar tests with Holm-Bonferroni adjustment over three pre-registered contrasts: +5.4pp over blind escalation, p=8.5e-6; +5.0pp over random triggering, p=1.0e-4; paired-trajectory bootstrap CIs exclude zero. AEGIS activates the stronger policy on only 38% of steps, so the lever is timing rather than compute. The probe clears its precondition with an early-window AUROC of 0.764, 95% CI [0.70, 0.84], read from the weak-policy path over the first 30% of trajectory steps before any handoff. We pre-register the full analysis plan, including a conditional recovered-task-rate estimand and explicit kill criteria, and confirm the result on 700 common-random-number episodes per arm, with nA-fail=646.

13:00 JST研究/論文

角度ノルム分解によるアクティベーションステアリングの幾何学的説明

線形アクティベーション ステアリングは、言語モデルの動作を制御するためのシンプルかつ経験的に効果的な方法として人気を集めています。より最近では、付加的介入の制限に対処するために球面ステアリング パラダイムが提案されていますが、これは多くの場合、隠れ状態規範が概念に関連した情報を持たないという仮定によって動機づけられています。この研究では、角度成分と半径成分の役割を解きほぐすように設計された制御された実証的研究を通じて、この仮定を再検討します。ステアリング手法の主な違いは、概念の方向に対するトークンの角度配置の変更と、その隠れ状態ノルムの変更という 2 つの幾何学的効果をどのように組み合わせるかという点です。 7 つの言語モデルにわたって、概念は主に角度構造で表現され、球面手法の動機を裏付けることがわかりましたが、その規範はステアリングの安定性と下流効果にとって依然として重要です。私たちの結果は、同様の概念レベルの効果を持つ介入が異なる動作をする理由を説明し、活性化ステアリングは、これら 2 つの効果を絡み合わせる単一の加算係数ではなく、解釈可能な介入の角度成分と半径成分によってパラメーター化する必要があることを示唆しています。

原文 (English)

A Geometric Account of Activation Steering through Angle-Norm Decomposition

Linear activation steering has gained popularity as a simple and empirically effective way to control language model behavior. More recently, spherical steering paradigms have been proposed to address limitations of additive interventions, often motivated by the assumption that hidden-state norm does not carry concept-relevant information. In this work, we revisit this assumption through a controlled empirical study designed to disentangle the roles of angular and radial components. We show that steering methods differ mainly in how they couple two geometric effects: changing a token's angular alignment with a concept direction and changing its hidden-state norm. Across seven language models, we find that concepts are represented primarily in angular structure, supporting the motivation for spherical methods, but that norm remains important for the stability and downstream effects of steering. Our results explain why interventions with similar concept-level effects can behave differently, and suggest that activation steering should be parameterized by interpretable angular and radial components of the intervention, rather than by a single additive coefficient that entangles these two effects.

13:00 JSTLLM/生成AIエージェント

OpenSkill: Open-World Self-Evolution for LLM Agents

Self-evolving agents requires adaptation after deployment, but existing approaches assume a usable learning loop, such as curated skills, s…

13:00 JSTLLM/生成AIエージェント

AdMem: タスク解決エージェント用の高度なメモリ

大規模言語モデル (LLM) は、ツールを使用するエージェントとして有望ですが、知識の記憶、整理、再利用が必要な長期的なタスクには依然として限界があります。従来の記憶アプローチは状況を解決することを目的としていますが、主に事実情報を保存することに重点を置いています。手続き型記憶に関する最近の研究では、タスクの再利用が改善されていますが、多くの場合、失敗例やオンライン スケーラビリティに対処せずに、過去の成功を再現するだけになってしまいます。短期ストアと長期ストアを組み合わせたバイレベル設計で意味記憶、エピソード記憶、手続き記憶を統合する、統合された自動メモリ フレームワークを導入します。アクター、メモリー、および批評家エージェントを備えたマルチエージェント アーキテクチャにより、自動メモリー生成、報酬アノテーション、適応型検索が可能になります。長期記憶は報酬ベースの評価、結合、枝刈りによって管理され、拡張性と継続的な改善が保証されます。さまざまな環境での実験により、私たちのアプローチは既存のベースラインと比較して、長い複数ターンのタスクにおける堅牢性と成功率が向上することが示されています。この研究は、LLM ベースのエージェントを進化させるための包括的で適応的なメモリの重要性を強調しています。

原文 (English)

AdMem: Advanced Memory for Task-solving Agents

Large Language Models (LLMs) show promise as tool-using agents but remain limited in long-horizon tasks that require remembering, organizing, and reusing knowledge. Prior memory approaches aim to resolve the situation, but mainly focus on storing factual information. Recent work on procedural memory improves task reuse, yet often reduces to replaying past successes without addressing failure cases or online scalability. We introduce a unified and automatic memory framework that integrates semantic, episodic, and procedural memory in a bi-level design combining short-term and long-term stores. A multi-agent architecture with actor, memory, and critic agents enables automatic memory generation, reward annotation, and adaptive retrieval. Long-term memory is managed through reward-based evaluation, merging, and pruning, ensuring scalability and continual improvement. Experiments across various environments show that our approach improves robustness and success on long multi-turn tasks compared to existing baselines. This work highlights the importance of comprehensive, adaptive memory for advancing LLM-based agents.

13:00 JST研究/論文

大規模な言語モデルを備えた証拠に基づくインテリジェントな診断および治療視覚化システム: マルチターン インタラクションとマルチモーダルな治療計画の生成

目的: 既存の AI 支援の伝統的な中国医学診断ツールは、不透明な推論プロセス、受動的なインタラクション、限られた治療計画の提示という問題を抱えています。この研究は、症候群の鑑別と治療の透明性と解釈可能性を向上させるための、知識を強化した視覚診断システムを提案します。方法: このシステムは、241 の症候群、1,263 の症状、および 2,485 の関係を含む Neo4j ナレッジ グラフに基づいて構築されています。これには、4 段階の症状マッチング パイプライン (正確、意味論的、ファジー、および大規模言語モデルの検証)、遺伝的アルゴリズムで最適化された情報獲得主導型の積極的な質問戦略、人工知能が生成したイラスト、3 次元経絡経穴モデル、証拠に基づいた文献を統合したマルチモーダルな治療プレゼンテーションが組み込まれています。結果: ナレッジ グラフの制約により、非標準の出力が 32% 削減されました。ケーススタディでは、患者の自己評価、臨床医による診断、伝統的な中国医学教育にわたる対話型ワークフローの有効性を検証しました。 30 例にわたる自動一対比較評価では、診断の信頼性が大幅に向上し (Cohen の d = 1.82、p < 0.001)、認知負荷が減少し (5 つの次元のうち 4 つの次元で改善)、証拠に基づく参考文献の信頼性が向上した (4.21 対 2.95) ことがさらに実証されました。結論:提案されたシステムは、ナレッジグラフ駆動の視覚化とマルチモーダルインタラクションを通じて、伝統的な中国医学の診断推論の透明性と治療計画の解釈可能性を強化し、信頼できる人工知能支援の伝統的な中国医学アプリケーションのための実用的なソリューションを提供します。

原文 (English)

Evidence-Based Intelligent Diagnostic and Therapeutic Visualization System with Large Language Models: Multi-Turn Interaction and Multimodal Treatment Plan Generation

Aim: Existing AI-assisted traditional Chinese medicine diagnostic tools suffer from opaque reasoning processes, passive interaction, and limited treatment plan presentation. This study proposes a knowledge-enhanced visual diagnostic system to improve the transparency and interpretability of syndrome differentiation and treatment. Methods: The system is built upon a Neo4j knowledge graph comprising 241 syndromes, 1,263 symptoms, and 2,485 relations. It incorporates a four-stage symptom matching pipeline (exact, semantic, fuzzy, and large language model verification), an information gain-driven proactive questioning strategy optimized with genetic algorithms, and a multimodal treatment presentation integrating artificial intelligence-generated illustrations, three-dimensional meridian-acupoint models, and evidence-based literature. Results: Knowledge graph constraints reduced non-standard outputs by 32%. Case studies validated the effectiveness of the interactive workflow across patient self-assessment, clinician-assisted diagnosis, and traditional Chinese medicine education. Automated paired-comparison evaluation across 30 cases further demonstrated significant improvements in diagnostic trust (Cohen's d = 1.82, p < 0.001), reduced cognitive load (improvements in four of five dimensions), and higher credibility of evidence-based references (4.21 vs. 2.95). Conclusions: The proposed system enhances the transparency of traditional Chinese medicine diagnostic reasoning and the interpretability of treatment plans through knowledge graph-driven visualization and multimodal interaction, offering a practical solution for trustworthy artificial intelligence-assisted traditional Chinese medicine applications.

13:00 JSTエージェント

Workflow-to-Skill: Skill Creation via Routing-Workflow-Semantics-Attachments Decomposition

Large language model agents increasingly rely on Skills to encode procedural knowledge, yet high-quality Skills remain costly to hand-write…

13:00 JSTエージェント

知識に基づいたツール使用ワークフローにおける AI エージェントの宣言的スキル

私たちは、非構造化知識ベース上の現実的な顧客サービス ワークフローにおけるツールを使用する AI エージェントのオーケストレーション メカニズムを研究します。私たちは、宣言型エージェント (システム プロンプトに追加された自然言語スキル ファイルを備えた AI エージェント) が効果的なオーケストレーション パラダイムであると主張します。具体的には、(i) 推論時に 3 つのドメイン固有のスキル ファイルを読み取り、独自の制御フローを決定する DeclarativeAgent、(ii) 明示的なフェーズを持つプログラムによるステート マシンに基づく ImperativeAgent、および (iii) $\tau$-Knowledge ベンチマーク エージェントをモデルとした、足場のないベースライン エージェントを比較します。私たちの ImperativeAgent は、再帰的言語モデルやグラフベースのオーケストレーション フレームワークのような外部化された制御推論によって動機付けられます。私たちは、3 つのエージェントを分散型の部分的に観察可能なマルコフ決定プロセス内のポリシー クラスとして形式化し、それらの情報理論的および構造的特性を分析します。次に、5 つの言語モデルと 2 つの検索方式で、予測された差異を経験的にテストします。私たちの結果は、AI エージェントにとって検索品質が主なボトルネックであることを示しています。証拠が不完全または偏っている場合、すべてのエージェントのパフォーマンスが大幅に低下し、スキル ファイルは失われたパフォーマンスを回復できません。ただし、高品質の取得では、宣言型スキルによって手続き型タスクの精度が一貫して向上し、オーケストレーション エラーが減少しますが、命令型ステート マシンの脆弱性により、タスクの成功やコンプライアンスが確実に向上するわけではありません。

原文 (English)

Declarative Skills for AI Agents in Knowledge-Grounded Tool-Use Workflows

We study orchestration mechanisms for tool-using AI agents in realistic customer-service workflows over an unstructured knowledge base. We argue that declarative agents -- AI agents equipped with natural-language skill files appended to the system prompt -- are an effective orchestration paradigm. Concretely, we compare (i) a DeclarativeAgent that reads three domain-specific skill files at inference time and decides its own control flow, (ii) an ImperativeAgent based on a programmatic state machine with explicit phases, and (iii) an unscaffolded baseline agent modeled after the $\tau$-Knowledge benchmark agent. Our ImperativeAgent is motivated by externalised-control inference as in Recursive Language Models and graph-based orchestration frameworks. We formalise the three agents as policy classes within a decentralised partially-observable Markov decision process and analyse their information-theoretic and structural properties; we then test the predicted differences empirically on five language models and two retrieval regimes. Our results show that retrieval quality is a dominant bottleneck for AI agents: when evidence is incomplete or skewed, all agents degrade substantially, and skill files cannot recover lost performance. Under high-quality retrieval, however, declarative skills consistently improve accuracy on procedural tasks and reduce orchestration errors, while the imperative state machine's brittleness does not reliably improve task success or compliance.

13:00 JSTLLM/生成AI

構造化された仮説空間上の推論のための、量子にヒントを得たトレース拡張証拠の選択

大規模言語モデル (LLM) は現在、人間レベル以上の幅広い専門家レベルの試験を解決していますが、法律などの専門的で証拠を重視する領域では依然として脆弱です。これらの課題では、世界の知識のギャップだけでなく、証拠間の微妙な違いや裏付けとなる証拠の一貫性のない使用からも誤りが発生します。サンプリングされた思考連鎖 (CoT) トレースに対する最も一般的なアグリゲーターである多数決は、その証拠が実際に最も強力であるかどうかに関係なく、最も人気のある回答を返します。我々は、証拠のセットへのCoT推論フラグメントの選択を明示的な組み合わせ最適化問題として扱い、十分に裏付けられているが少数派の仮説がノイズの多い多数派を無効にすることを可能にし、証拠の質に特に敏感な法的推論ベンチマークでアプローチを評価することを提案します。 EP-HUBO (証拠プール高次バイナリ最適化) を導入します。これは、小さなローカル モデルで複数の CoT トレースを生成し、フラグメントを仮説ごとの証拠プールに解析し、品質由来の重み (関連性、特異性、区別性) を使用してプールごとに高次の制約のないバイナリ最適化を解き、質問ごとに 1 つの判定コールをフロンティア モデルに委任します。私たちは、古典的なハードウェアでのシミュレーテッド アニーリングと、Quantum Computing Inc. の Dirac-3 フォトニック エントロピー量子マシンの両方を使用した 2 つの証拠重視の法的ベンチマークで EP-HUBO を評価します。HUBO スタイルの最適化は、少数ではあるが正しい仮説を維持しながら推論の断片を集約する原則的な方法を提供し、フロンティア モデルがまだベンチマーク材料を吸収していない低汚染領域で最も価値があります。

原文 (English)

Quantum-Inspired Trace-Augmented Evidence Selection for Reasoning over Structured Hypothesis Spaces

Large language models (LLMs) now solve a wide range of expert-level exams at or above human level, yet remain brittle on specialised, evidence-intensive domains such as law. On these tasks, errors arise not only from gaps in world knowledge but also from subtle distinctions between pieces of evidence and inconsistent use of supporting evidence. The most common aggregator over sampled chain-of-thought (CoT) traces, majority vote, returns the most popular answer regardless of whether its evidence is actually strongest. We propose to treat the selection of CoT reasoning fragments into a set of evidence as an explicit combinatorial optimisation problem, allowing well-supported but minority hypotheses to override noisy majorities, and to evaluate the approach on legal-reasoning benchmarks that are particularly sensitive to evidence quality. We introduce EP-HUBO (Evidence Pool Higher-Order Binary Optimisation), which generates multiple CoT traces with a small local model, parses fragments into per-hypothesis evidence pools, solves a higher-order unconstrained binary optimisation per pool with quality-derived weights (relevance, specificity, distinctiveness), and delegates a single adjudication call per question to a frontier model. We evaluate EP-HUBO on two evidence-intensive legal benchmarks using both simulated annealing on classical hardware and the Dirac-3 photonic entropy-quantum machine from Quantum Computing Inc. HUBO-style optimisation gives a principled way to aggregate reasoning fragments while preserving minority-but-correct hypotheses, and is most valuable in low-contamination domains where frontier models have not already absorbed the benchmark material.

13:00 JSTエージェントビジネス/資金調達

コンテキストの説明: 価値観の一致のための道徳的信念の形成

エージェントの行動が人間の道徳的価値観と一致していることを確認すると、社会、さらには個人が通常採用する複数の道徳的観点をどのように説明するかという問題が必然的に生じます。道徳的不確実性に関する研究では、さまざまな道徳理論にわたる行動の評価を公平かつ民主的に集約するメカニズムが提案されています。しかし、この論文は、道徳的評価を集計する際には、文脈上の要因を考慮する必要があると主張しています。たとえば、結果主義的な視点は、エージェントの行動が世界をどのように変えるかを正確に判断する能力を前提としています。この仮定は、現実世界の設定では当てはまらないことがよくあります。したがって、私たちは、このような種類の文脈上の要因も考慮しながら、道徳的不確実性の下でエージェントの意思決定を形式化します。これにより、一見常識的な特性、つまり弱いパレートの法則が違反されていることを示します。私たちは、この見かけの問題は実際にはシンプソンのパラドックスの変形であり、したがってコンテキスト要因の影響を無視する集計メカニズムの限界を明らかにしていると主張します。

原文 (English)

Accounting for Context: Shaping Moral Credences for Value Alignment

Ensuring that agent behaviours are aligned with human moral values inevitably raises the problem of how to account for the plurality of moral perspectives that societies -- and even individuals -- typically adopt. Work on moral uncertainty proposes mechanisms to fairly and democratically aggregate evaluations of actions across different moral theories. However, this paper argues that one needs to account for contextual factors when aggregating moral evaluations. For example, consequentialist perspectives assume an ability to accurately determine how an agent's actions change the world; an assumption that often does not hold in real world settings. We, therefore, formalise agent decision making under moral uncertainty, while also accounting for these kinds of contextual factors. We thereby show that a seemingly commonsensical property -- the weak Pareto principle -- is violated. We argue that this apparent problem is, in fact, a variation of Simpson's paradox, and hence reveals the limitations of aggregation mechanisms that ignore the impact of contextual factors.

13:00 JSTLLM/生成AIエージェント

不確実性を調整した強化学習によるエージェントのツール呼び出しの決定の探索

大規模言語モデル (LLM) ベースのエージェントは、サポートされていないツールの呼び出しや幻覚による直接応答など、最適とは言えないツール使用の決定を行うことが多く、複数ステップの対話を通じてエラーが蓄積する可能性があります。既存のアプローチは主に、意思決定の結果と構造化されたチェックリストに基づく推論時間の補正または粗粒度の報酬シグナルを通じてこれらの行動を改善しており、エージェントの意思決定の不確実性の特性は十分に調査されていません。意思決定指向の強化学習は、正しいアクションと間違ったアクションの間の不確実性の分離を弱める傾向があり、その結果、自信過剰な間違いや探索信号が弱くなることが観察されています。したがって、不確実性の分離を維持するための反発力として不確実性の定量化を報酬設計に組み込み、マルチターン軌道の統一されたポストトレーニングのために軽量のキーターンアノテーションにラベルを付ける、TRUSTを提案します。さまざまなツール使用ベンチマークにわたる実験結果は、TRUST が最適化中により信頼性の高い不確実性推定を維持しながら、意思決定の品質とエージェントのパフォーマンスの両方を一貫して向上させることを示しています。

原文 (English)

Exploring Agentic Tool-Calling Decisions via Uncertainty-Aligned Reinforcement Learning

Large language model (LLM)-based agents often make suboptimal tool-use decisions, including unsupported tool invocation and hallucinated direct responses, which may accumulate errors throughout multi-step interactions. Existing approaches mainly improve these behaviors through inference-time correction or coarse-grained reward signals based on decision outcomes and structured checklists, leaving the uncertainty characteristics of agent decisions underexplored. We observe that decision-oriented reinforcement learning tends to weaken the uncertainty separation between correct and incorrect actions, resulting in overconfident mistakes and weaker exploration signals. Therefore, we propose TRUST, which incorporates uncertainty quantification into reward design as a repulsive force for maintaining uncertainty separation, and labels lightweight key-turn annotations for unified post-training of multi-turn trajectories. Experimental results across diverse tool-use benchmarks show that TRUST consistently enhances both decision quality and agent performance while maintaining more reliable uncertainty estimates during optimization.

13:00 JST研究/論文

答えではなく方法を教える: マルチモーダル ポリシー最適化のための特権指導の蒸留

最近のポストトレーニング手法、特に検証可能な報酬による強化学習 (RLVR) は、大規模視覚言語モデル (LVLM) の推論能力を大幅に強化しました。ただし、検証可能な報酬がまばらであるため、失敗したロールアウトに対してトークンレベルの監視がほとんど提供されず、複雑なマルチモーダル推論タスクでの探索が非効率になることがよくあります。ポリシー蒸留は密度の高いガイダンスを提供できますが、外部教師ベースの方法ではかなりの計算オーバーヘッドが発生します。一方、回答条件付きチューニング方法では、回答レベルの情報が公開され、ショートカットのような生成動作が誘発される可能性があります。これらの制限に対処するために、私たちは PTD-PO を提案します。PTD-PO は、生徒のポリシーに答えを公開せずに緻密な指導を提供する RLVR 用の特権個別指導蒸留ポリシー最適化フレームワークです。具体的には、PTD-PO は、空間的注意のガイダンスと中間のテキスト推論ステップから構造化された特権ヒントを構築し、コンテキスト内学習を通じてそれらを使用して、段階的なトークン配布の監視を生成します。学生は依然として元の無回答コンテキストの下で最適化されており、失敗したロールアウトはトークン配布レベルでヒント拡張参照モデルと一致します。ガイド付きコンテキストとガイドなしコンテキスト間の分布シフトの下で蒸留をさらに安定させるために、メモリ オーバーヘッドを削減しながら情報トークンの確率に焦点を合わせた Top-K Jensen-Shannon ダイバージェンス目標を導入します。 2B から 8B パラメーターの範囲の LVLM に関する実験では、PTD-PO が常に RLVR および蒸留ベースラインを上回り、エントロピー崩壊を緩和し、複雑なマルチモーダル推論のパフォーマンスを向上させることが示されています。

原文 (English)

Teaching the Way, Not the Answer: Privileged Tutoring Distillation for Multimodal Policy Optimization

Recent post-training methods, particularly Reinforcement Learning with Verifiable Rewards (RLVR), have significantly enhanced the reasoning ability of Large Vision-Language Models (LVLMs). However, the sparse nature of verifiable rewards provides little token-level supervision for failed rollouts, often leading to inefficient exploration in complex multimodal reasoning tasks. Although policy distillation can offer dense guidance, external teacher based methods introduce substantial computational overhead, while answer conditioned tuning methods may expose answer-level information and induce shortcut-like generation behavior. To address these limitations, we propose PTD-PO, a Privileged Tutoring Distillation Policy Optimization framework for RLVR that provides dense guidance without exposing the answer to the student policy. Specifically, PTD-PO constructs structured privileged hints from spatial attention guidance and intermediate textual reasoning steps, and uses them through in-context learning to produce step-wise token-distribution supervision. The student is still optimized under the original answer-free context, and its failed rollouts are aligned with the hint-augmented reference model at the token-distribution level. To further stabilize distillation under the distribution shift between guided and unguided contexts, we introduce a Top-K Jensen-Shannon divergence objective that focuses alignment on informative token probabilities while reducing memory overhead. Experiments on LVLMs ranging from 2B to 8B parameters show that PTD-PO consistently outperforms RLVR and distillation baselines, mitigates entropy collapse, and improves complex multimodal reasoning performance.

13:00 JSTLLM/生成AIエージェントロボティクス

財団モデルエージェントのシミュレーションと現実のギャップ: 統合された MDP の視点

財団モデルエージェントは現実世界の意思決定のために導入されることが増えていますが、シミュレーションと現実のギャップに悩まされています。ロボット工学と古典的制御にはこのギャップに対処するための成熟したフレームワークがありますが、基礎モデル コミュニティはエージェントの堅牢性をまったく新しい現象として扱っています。私たちの論文では、観察、行動、遷移、報酬を含むマルコフ意思決定プロセスの 4 つの要素を中心に完全に構​​造化された古典的なシミュレーションと現実の問題として、基礎モデルのエージェントの評価とトレーニングのギャップを形式化することを提案しています。この論文では、古典的な不一致を基礎モデル領域に変換し、領域のラ​​ンダム化などの確立された解決策を採用することを提唱する包括的な研究課題を設定しました。深刻な観察空間のギャップが正しい意味論的意図にもかかわらず、運用上無効なアクションにどのようにつながるかを示す多言語ツール呼び出しなど、具体的な例を示します。最終的に、このアジェンダはパラダイム シフトを推進し、統一された語彙と標準化されたストレス テスト ベンチマークを生み出し、信頼性の高い現実世界のアプリケーション向けに信頼性の高い新世代のエージェントを育成することを目的としています。

原文 (English)

The Sim-to-Real Gap of Foundation Model Agents: A Unified MDP Perspective

Foundation model agents are increasingly deployed for real-world decision-making, but suffer from the sim-to-real gap. While robotics and classical control have mature frameworks to address this gap, the foundation model community is treating agent robustness as an entirely novel phenomenon. Our paper proposes formalizing the foundation model agent evaluation and training gap as a classical sim-to-real problem structured entirely around the four elements of a Markov Decision Process, including Observation, Action, Transition, and Reward. In this paper, we set a comprehensive research agenda that translates classical discrepancies into the foundation model domain and advocates for adopting established solutions like domain randomization. We provide concrete examples, such as a multilingual tool calling to demonstrate how severe observation space gaps lead to operationally invalid actions despite correct semantic intent. Ultimately, this agenda aims to drive a paradigm shift, yielding a unified vocabulary and standardized stress test benchmarks to foster a new generation of highly trustworthy agents for reliable real-world applications.

13:00 JSTエージェント

StainFlow: GUI エージェントでのプロセス報酬のためのエンティティ汚染追跡と証拠リンク

強化学習 (RL) は、長期にわたる確率論的なデジタル環境で GUI エージェントを改善するための有望なアプローチとなっていますが、軌道レベルの成功フィードバックがまばらすぎて、中間の探索ステップに信頼できる単位の割り当てを提供できません。この問題を軽減するために、最近の研究ではプロセス報酬モデル (PRM) が導入されています。これは、グローバルなマイルストーンの検証またはローカルのステップレベルの評価を通じて、よりきめの細かいトレーニング フィードバックを提供します。ただし、これらの方法には依然として 2 つのレベル固有の制限があります。グローバル マイルストーン分解は主観的かつ特異的であるため、実際の G​​UI タスクで複数の有効な実行パスに対応することが困難です。一方、固定されたローカル判定ウィンドウでは、長距離の重要な証拠を見逃したり、無関係なフレームで決定信号を薄めたりする可能性があります。ネットワーク フロー解析におけるステイン トレーシング メカニズムにヒントを得て、GUI エージェント向けのエンティティ ステイン フロー プロセス報酬モデルである StainFlow を提案します。グローバル分割の主観性を軽減するために、グローバル エンティティ ステイン トラッキング モジュールを導入します。このモジュールは、視覚的に検証可能なタスク エンティティを抽出し、それらのステイン濃度と状態が軌跡に沿ってどのように変化するかを追跡し、エンティティの証拠フローの変化によってタスク フェーズを客観的に分離できるようにします。ローカル検証の精度を向上させるために、ローカル染色証拠リンク モジュールを導入します。各候補キー ノードのトリガー エンティティを中心に、染色濃度と状態変化に基づいて関連するステップを取得し、真のキー ノードを検証するための高密度の証拠ウィンドウを動的に構築します。 AndroidWorld と OGRBench での広範な実験により、StainFlow によりオンライン RL の成功率が 3.2% 向上し、軌道完了判定精度が 1.8% 向上することが示されました。

原文 (English)

StainFlow: Entity-Stain Tracking and Evidence Linking for Process Rewards in GUI Agents

Reinforcement Learning (RL) has become a promising approach for improving GUI Agents in long-horizon, stochastic digital environments, but trajectory-level success feedback is too sparse to provide reliable credit assignment for intermediate exploration steps. To mitigate this issue, recent studies introduce Process Reward Models (PRMs), which provide finer-grained training feedback through global milestone verification or local step-level evaluation. However, these methods still suffer from two level-specific limitations: global milestone decomposition is subjective and singular, making it difficult to accommodate the multiple valid execution paths in real GUI tasks, while fixed local judging windows may miss long-range key evidence or dilute the decision signal with irrelevant frames. Inspired by stain-tracing mechanisms in network flow analysis, we propose StainFlow, an entity-stain-flow process reward model for GUI Agents. To reduce the subjectivity of global partitioning, we introduce the Global Entity Stain Tracking module, which extracts visually verifiable task entities and tracks how their stain concentrations and states evolve along the trajectory, allowing task phases to be objectively separated by changes in the entity evidence flow. To improve the accuracy of local verification, we introduce the Local Stain Evidence Linking module. Centered on the triggering entities of each candidate key node, it retrieves relevant steps based on their stain concentrations and state changes, and dynamically constructs high-density evidence windows for verifying true key nodes. Extensive experiments on AndroidWorld and OGRBench show that StainFlow relatively improves online RL success by 3.2% and trajectory completion judgment accuracy by 1.8%.

13:00 JST画像/動画生成

オーディオビジュアルイベントローカリゼーションのための階層的意味制約付き異種グラフ

オープンボキャブラリー視聴覚イベント位置特定 (OV-AVEL) は、視聴覚キューを共同モデル化して、トレーニング中に表示されないカテゴリを含むイベントを認識し、時間的に位置特定します。既存の方法は主にユークリッド空間での共同視聴覚表現を学習しますが、依然として 2 つの重大な課題に直面しています。まず、目に見えないカテゴリに対する監視信号が不足しているため、複数の時間スケールにわたって視聴覚の一貫性を維持することが困難になります。第 2 に、セグメント レベルとビデオ レベルのセマンティクスの間に階層的な制約がないため、モデルが異なるレベル間でセマンティクスの一貫性を確立できなくなります。これらの課題に対処するために、オーディオビジュアルイベントローカリゼーションフレームワーク用の階層的意味論的制約付き異種グラフ (HSCHG) を提案します。まず、ユークリッド空間で異種階層グラフを構築します。これには、オーディオおよびビジュアル セグメント ノードと、それらに対応するビデオ レベルのノードが含まれます。多方向の時間エッジを使用して、各モダリティ内の完全な時間情報をキャプチャします。同時に、二重閾値フィルタリングゲート融合戦略を採用し、アライメントの信頼性が高い場合にのみクロスモーダル情報を導入します。さらに、セグメントレベルとビデオレベルの表現の間に双方向のセマンティック制約を導入し、さまざまなレベル間でセマンティックな一貫性を実現します。これに基づいて、マルチレベルのオーディオビジュアル表現とテキストのプロトタイプを双曲空間に均一にマッピングします。階層含意正則化損失を使用して、ビデオとセグメント間の階層関係を特徴付けます。広範な実験結果は、私たちの方法が OV-AVEL ベンチマークで既存の方法よりも優れていることを示しています。アブレーション研究により、私たちの方法の有効性がさらに検証されています。

原文 (English)

Hierarchical Semantic-Constrained Heterogeneous Graph for Audio-Visual Event Localization

Open-vocabulary audio-visual event localization (OV-AVEL) jointly models audio-visual cues to recognize and temporally localize events, including categories unseen during training. Existing methods primarily learn joint audio-visual representations in Euclidean space, but still face two significant challenges. First, the lack of supervision signals for unseen categories makes it difficult to maintain audio-visual consistency across multiple temporal scales. Second, the lack of hierarchical constraints between segment- and video-level semantics prevents the model from establishing semantic consistency across different levels. To address these challenges, we propose a hierarchical semantic constrained heterogeneous graph (HSCHG) for audio-visual event localization framework. We first construct a heterogeneous hierarchical graph in Euclidean space, which includes audio and visual segment nodes and their corresponding video-level nodes. We use multi-directional temporal edges to capture complete temporal information within each modality. Simultaneously, we employ a dual-threshold filtering gated fusion strategy, introducing cross-modal information only when the alignment confidence is high. Furthermore, we introduce bidirectional semantic constraints between segment- and video-level representations to achieve semantic consistency across different levels. Based on this, we map the multi-level audio-visual representations and text prototypes uniformly into hyperbolic space. We use a hierarchical entailment regularization loss to characterize the hierarchical relationships between videos and segments. Extensive experimental results show that our method outperforms existing methods on the OV-AVEL benchmark. Ablation studies further validate the effectiveness of our method.

13:00 JST研究/論文

フロントツーアトラクター: 双方向検索におけるフロントツーフロント ヒューリスティックの変更

ヒューリスティックは、一般に 2 つの主要なクラスに依存する双方向検索アルゴリズムのパフォーマンスにおいて中心的な役割を果たします。フロントツーエンド (F2E) ヒューリスティックは、状態 s から検索のターゲット (前方検索の場合は目標、逆方向検索の場合は開始点) までの距離を推定します。対照的に、フロントツーフロント (F2F) ヒューリスティックでは、ペア関数 h(s, s') を使用して s から反対側の検索フロンティアまでの距離を推定します。ここで、s' の範囲はフロンティア状態全体に渡ります。 F2F ヒューリスティックは通常、より多くの情報を提供するため、ノード展開の数を減らしますが、広範なペアごとの評価に依存するため、かなりの計算オーバーヘッドが発生します。この制限に対処するために、計算コストを大幅に削減しながら、F2F の情報の多くを維持する新しいヒューリスティック クラス、フロント トゥ アトラクター (F2A) を導入します。 F2A は、反対側のフロンティアにあるすべての状態までの距離を評価するのではなく、s から反対側の検索方向に動的に維持される小さなアトラクターのセットまでの距離を推定します。これらのアトラクターは、フルフロンティアの代理として機能し、F2F によって提供される最適性の保証を維持しながら、わずかな計算コストで豊富なヒューリスティック ガイダンスを可能にします。複数のドメインにわたって F2A を評価したところ、F2F と比較してペアごとの評価の数が最大 11.2 倍削減され、平均して F2E よりも 4.8 倍少ないノード拡張を達成できることがわかりました。

原文 (English)

Front-to-Attractors: Modifying the Front-to-Front Heuristic in Bidirectional Search

Heuristics play a central role in the performance of bidirectional search algorithms, which commonly rely on two main classes. Front-to-end (F2E) heuristics estimate the distance from a state s to the target of the search (the goal for forward search or the start for backward search). In contrast, front-to-front (F2F) heuristics estimate the distance from s to the opposite search frontier using a pairwise function h(s, s'), where s' ranges over frontier states. Although F2F heuristics are typically more informative and therefore reduce the number of node expansions, their reliance on extensive pairwise evaluations incurs substantial computational overhead. To address this limitation, we introduce a new heuristic class, front-to-attractors (F2A), that preserves much of the informativeness of F2F while dramatically reducing its computational cost. Rather than evaluating distances to all states on the opposite frontier, F2A estimates the distance from s to a small, dynamically maintained set of attractors in the opposite search direction. These attractors serve as a surrogate for the full frontier, enabling rich heuristic guidance at a fraction of the computational expense while maintaining the optimality guarantees offered by F2F. We evaluate F2A across multiple domains and show that it reduces the number of pairwise evaluations by up to 11.2x compared to F2F, while achieving 4.8x fewer node expansions than F2E on average.

13:00 JST研究/論文

DyCon: 進化する難易度モデリングによる動的推論制御

大規模推論モデル (LRM) の最近の進歩では、複雑なタスクを反復的に反映、調査、実行することにより、パフォーマンスが大幅に向上しましたが、「過剰思考」として知られる冗長な推論による非効率性に悩まされています。この問題を軽減する既存の方法は、静的な難易度の推定に依存するか、タスク固有のトレーニングを必要とするため、推論中に動的な複雑さに適応できません。この研究では、問題の難易度が推論プロセス全体を通じて動的に変化し、LRM のステップレベルの埋め込みで線形にエンコードされることを経験的に示します。この洞察に基づいて、私たちは、潜在的なステップレベルの表現を活用して、進化するタスクの難易度を明示的にモデル化し、考えすぎの問題を軽減する推論の深さの動的な制御を可能にする、トレーニング不要のフレームワークである DyCon を提案します。 4B から 32B までの 4 つのモデルと、数的推論、一般的な質問応答、およびコーディング タスクにおける 12 のベンチマークにわたって行われた広範な実験により、DyCon が精度や汎用性を犠牲にすることなく冗長なステップを削減することで推論効率が大幅に向上することが実証されました。プロジェクト ページとコードは https://github.com/yu-lin-li/DyCon で入手できます。

原文 (English)

DyCon: Dynamic Reasoning Control via Evolving Difficulty Modeling

Recent advances in Large Reasoning Models (LRMs) demonstrate remarkable performance improvements by iteratively reflecting, exploring, and executing complex tasks, yet suffer from inefficiencies due to redundant reasoning, known as "overthinking". Existing methods to mitigate this issue either rely on static difficulty estimates or require task-specific training, and thus fail to adapt to the dynamic complexity during reasoning. In this work, we empirically show that the problem difficulty evolves dynamically throughout the reasoning process and is linearly encoded in the LRM's step-level embeddings. Building on this insight, we propose DyCon, a training-free framework that leverages latent step-level representations to explicitly model the evolving task difficulty, enabling the dynamic control of reasoning depth to mitigate the overthinking issue. Extensive experiments conducted on four models ranging from 4B to 32B, and across twelve benchmarks in math reasoning, general question answering, and coding tasks demonstrate that DyCon significantly enhances reasoning efficiency by reducing redundant steps without sacrificing accuracy or generalization. Project page and code are available at https://github.com/yu-lin-li/DyCon.

13:00 JST研究/論文

事後的な説明を超えて: 確率的調停による Glassbox AI へ

大規模な言語モデルは、行政、法的推論、医療など、不透明さが単に不便であるだけでなく、制度的および法的に維持できない、一か八かの制度的環境において急速にインフラストラクチャコンポーネントになりつつあります。説明可能性に対する既存のアプローチは主に事後的なものであり、出力を生成した推論プロセスと正式な関係を持たない、不安定で議論の余地のない説明を提供します。私たちは、問題は説明の欠如ではなく、そもそも構造化された推論の欠如にあると主張します。この論文では、ベイジアン ネットワークが生成モデルの透明な事前仲介層として機能する、Glassbox フレームワークと呼ばれる根本的に異なるアーキテクチャについて説明します。ベイジアン ネットワークは、推論が行われる前にドメイン知識、因果関係の仮定、確率的依存関係をエンコードし、監査可能な推論トレース、不確実性の定量化、および異議を唱えることができる出力を可能にします。私たちはこのフレームワークのアーキテクチャを特徴づけ、給付資格シナリオに基づいて、それを大規模に実現するために解決しなければならない、意味論的整合、動的モデル構築、確率論的根拠、および人間のガバナンスにわたる基本的な課題を特定します。この研究では、事後の説明から事前の確率的調停に移行することで、強力であるだけでなく根本的に説明責任のある AI システムへの原則的な道筋を概説しています。

原文 (English)

Beyond Post-hoc Explanation: Toward Glassbox AI via Probabilistic Mediation

Large language models are rapidly becoming infrastructural components in high-stakes institutional settings, including public administration, legal reasoning, and healthcare, where opacity is not merely inconvenient but institutionally and legally untenable. Existing approaches to explainability are predominantly post-hoc, offering unstable, non-contestable accounts that have no formal relationship to the reasoning process that produced the output. We argue that the problem is not the absence of explanation but the absence of structured reasoning in the first place. This paper makes the case for a fundamentally different architecture, which we call the Glassbox Framework, in which Bayesian networks serve as transparent, ante-hoc mediation layers for generative models. Bayesian networks encode domain knowledge, causal assumptions, and probabilistic dependencies before inference occurs, enabling auditable reasoning traces, uncertainty quantification, and contestable outputs. We characterise the architecture of this framework and ground it in a benefit eligibility scenario, identifying the foundational challenges spanning semantic alignment, dynamic model construction, probabilistic grounding, and human governance that must be solved to realise it at scale. By shifting from post-hoc explanation to ante-hoc probabilistic mediation, this work outlines a principled path toward AI systems that are not only powerful but fundamentally accountable.

13:00 JST研究/論文GPT / ChatGPT

速く考える: フロンティア AI モデルの No-CoT タスク完了時間の範囲を推定する

フロンティア AI モデルの安全性を確保するための多くの取り組みは、その思考連鎖 (CoT) 推論の監視に依存しています。明示的な思考トークンなしで、モデルが内部で十分に複雑な推論を実行できるようになれば、そのような監視が損なわれることになります。私たちは、数学、コーディング、パズル、因果関係、心の理論、戦略的推論を含む領域の 43 のベンチマークにわたる 30,000 を超える一連の質問にわたって、フロンティア モデルが CoT なしでどの程度適切に推論できるかを測定します。モデルと人間を比較するために、$50\%$ のタスク完了時間範囲 (TH) を推定します。これは、モデルが $50\%$ の成功率で完了するタスクに必要な人間の時間です。これを $50\%$ 推論トークン ホライズンで補完します。これは、モデルが $50\%$ の成功率で解決するタスクに必要な o3-mini 推論トークンの最小数です。フロンティア モデルの no-CoT $50\%$ TH は過去 6 年間でほぼ毎年 2 倍になっており、GPT-5.5 の TH は 3 分を超え、推論トークン ホライズンは 1,500 トークンを超えていることがわかりました。私たちの推定中央値では、フロンティアのノーCoT THは2028年までに7分を超え、2030年までに25分を超える可能性があると予測していますが、これらの予測にはかなりの不確実性が伴います。フロンティア開発者にはこれを明示的に追跡することをお勧めします。

原文 (English)

Think Fast: Estimating No-CoT Task-Completion Time Horizons of Frontier AI Models

Many efforts to ensure frontier AI models are safe rely on monitoring their chain-of-thought (CoT) reasoning. If models become able to perform sufficiently complex reasoning internally, without explicit thinking tokens, this would undermine such oversight. We measure how well frontier models reason without CoT across a suite of over 30,000 questions spanning 43 benchmarks in domains including math, coding, puzzles, causality, theory-of-mind, and strategic reasoning. To compare models against humans, we estimate the $50\%$-task-completion time horizon (TH): the human time required for tasks a model completes with $50\%$ success rate. We complement this with a $50\%$ reasoning token horizon: the minimum number of o3-mini reasoning tokens needed for tasks a model solves with $50\%$ success rate. We find that the no-CoT $50\%$ TH of frontier models has been doubling roughly every year over the past six years, with GPT-5.5's TH reaching over 3 minutes and reasoning token horizon exceeding 1,500 tokens. Our median estimates predict that frontier no-CoT THs could exceed 7 minutes by 2028, and 25 minutes by 2030, though these projections carry substantial uncertainty. We recommend frontier developers track this explicitly.

13:00 JST研究/論文

TOPSIS-RAD: 欲求に応じたランキング

従来の TOPSIS は、その参照点である正の理想解 ($PIS$) と負の理想解 ($NIS$) を、観察された代替セットから導出しているため、ランキングが意思決定者 (DM) の要件との不整合、外れ値のパフォーマンスに対する敏感さ、順位の逆転を起こしやすくなっています。この論文では、DM で定義された基準レベルの 2 つの配列を組み込むことでこれらの問題に対処する TOPSIS-RAD を提案します。拒否されたパフォーマンス レベル ($VPL$) は、正規化の前に実行不可能な代替案を除外し、ランキングのフロンティアを歪めることを防ぎます。望ましいパフォーマンス レベル ($DPL$) は、正規化の前に DM の望ましいレベルでパフォーマンスを制限し、$PIS$ をデータセットの極端な値ではなく明示的な願望に固定します。 3 つのおもちゃの例は、それぞれのメカニズムを示しています。 $VPL$ は、実行不可能な代替手段を削除することで正規化境界を再形成します。固定 $DPL$ フロンティアは、望ましいレベルをはるかに上回るパフォーマンスの影響を制限することでランキングを安定させます。この方法は、TOPSIS のよく知られた距離ベースの構造を維持しながら、ランキングを安定した DM 指定の境界に基づいています。限界と今後の研究の方向性についても議論します。

原文 (English)

TOPSIS-RAD: Ranking According to Desires

Traditional TOPSIS derives its reference points -- the Positive Ideal Solution ($PIS$) and Negative Ideal Solution ($NIS$) -- from the observed alternative set, making rankings susceptible to misalignment with decision-maker (DM) requirements, sensitivity to outlier performances, and rank reversal. This paper proposes TOPSIS-RAD, which addresses these issues by incorporating two arrays of DM-defined reference levels. Vetoed Performance Levels ($VPL$) exclude non-viable alternatives before normalisation, preventing them from distorting the ranking frontiers. Desired Performance Levels ($DPL$) cap performances at the DM's desired level before normalisation, anchoring the $PIS$ in explicit aspirations rather than dataset extremes. Three toy examples demonstrate each mechanism: $VPL$ reshapes normalisation boundaries by removing a non-viable alternative; fixed $DPL$ frontiers stabilise rankings by limiting the influence of performances well above the desired level. The method preserves the familiar distance-based structure of TOPSIS while grounding the ranking in stable, DM-specified boundaries. Limitations and future research directions are also discussed.

13:00 JSTエージェント研究/論文

DuMate-DeepResearch: 再帰的検索とルーブリックに基づいた推論を備えた監査可能なマルチエージェント システム

ディープ リサーチ (DR) は、複雑で無制限の調査タスクに取り組むための新しいエージェント パラダイムとして登場しました。問題を繰り返し構成し、証拠を取得し、ソースを検証し、長文のレポートを合成できる要求の厳しいシステムです。しかし実際には、現在の DR システムは、相互に関連する 4 つの制限によって制約されています。それは、不明確な範囲にわたる長期的な計画、単一エージェント内でそのようなタスクを分解してスケジュールするボトルネック、長文合成における幻覚リスク、およびプロセスの監査可能性の制限です。この技術レポートでは、Qianfan Agent Foundry 上に構築されたマルチエージェント DR フレームワークである DuMate-DeepResearch について説明します。このフレームワークは、タスクの理解、計画、スケジューリングを処理するエージェント コアを、検索、証拠の取得、レポートのレンダリングのための拡張可能なツール エコシステムから切り離し、すべての中間決定とツールの呼び出しを明示的に追跡できるようにします。このインフラストラクチャを基盤として、DuMate-DeepResearch はさらに 3 つのメカニズムを導入しています。(i) グラフベースの動的な計画戦略により、研究ロードマップが粗いものから細かいものまで拡張され、反映、再計画、バックトラック、および並列分岐を通じて継続的に修正されます。 (ii) 再帰的な 2 レベルの実行設計により、各複雑な検索サブタスクが、独自の計画ループを実行する内部の検索エージェントに委任され、ノイズの多い検索が分離され、長期的な実行が安定します。 (iii) ルーブリックベースのテスト時間最適化メカニズムは、タスク固有の品質基準を動的に生成し、それらを証拠に基づいた合成と適応停止のためのライブ推論足場として使用します。 DuMate-DeepResearch は、2 つのディープ リサーチ ベンチマーク全体で、新しい最先端の結果を確立しました。DeepResearch Bench で最高の総合スコア (58.03%)、DeepResearch Bench II で最高の総合スコア (61.95%) を獲得し、情報の想起と分析で 1 位にランクされました。

原文 (English)

DuMate-DeepResearch: An Auditable Multi-Agent System with Recursive Search and Rubric-Grounded Reasoning

Deep Research (DR) has emerged as a new agentic paradigm to tackle complex, open-ended research tasks, demanding systems that can iteratively frame problems, acquire evidence, verify sources, and synthesize long-form reports. In practice, however, current DR systems are constrained by four interrelated limitations: long-horizon planning over an underspecified scope, the bottleneck of decomposing and scheduling such tasks within a single agent, hallucination risk in long-form synthesis, and limited process auditability. This technical report presents DuMate-DeepResearch, a multi-agent DR framework built on the Qianfan Agent Foundry. The framework decouples the Agent Core, which handles task understanding, planning, and scheduling, from an extensible Tool Ecosystem for retrieval, evidence acquisition, and report rendering, making every intermediate decision and tool invocation explicitly traceable. Building on this infrastructure, DuMate-DeepResearch further introduces three mechanisms: (i) a graph-based dynamic planning strategy expands the research roadmap coarse-to-fine and continuously revises it through reflection, re-planning, backtracking, and parallel branching; (ii) a recursive two-level execution design delegates each complex search sub-task to an inner Search Agent that runs its own planning loop, isolating noisy retrieval and stabilizing long-horizon execution; (iii) a rubric-based test-time optimization mechanism dynamically generates task-specific quality criteria and uses them as live reasoning scaffolds for evidence-grounded synthesis and adaptive stopping. Across two deep research benchmarks, DuMate-DeepResearch establishes new state-of-the-art results: the best overall score (58.03%) on DeepResearch Bench, and the best overall score (61.95%) on DeepResearch Bench II while ranking first in information recall and analysis.

13:00 JSTエージェントビジネス/資金調達

現地開示による戦略エージェントによるオフポリシー評価

私たちは、意思決定主体(またはエージェント)が共変量を戦略的に変更することで意思決定者のポリシーに応答する、戦略的行動の下でのオフポリシー評価(OPE)を研究します。このような動作は、ポリシー依存の共変量シフトを誘発し、共変量がポリシーにとって外生であるという既存の手法における標準的な仮定を破ります。関連研究では、反復的なインタラクションやエージェントの応答行動に関する完全な知識などの強い仮定を課すことで、この課題に対処しており、OPE への適用可能性は大幅に制限されています。対照的に、意思決定者がエージェントの応答動作について部分的な知識しか持っていないワンショット OPE 設定を検討します。私たちの重要な洞察は、事後説明を通じてローカル情報を開示すると、適応前のエージェントの戦略前の共変量が明らかになり、戦略的行動によって誘発される情報損失が軽減されるということです。この構造を利用して、エージェントの応答の統計モデルを推定し、政策価値の二重にロバストな推定量を構築します。エージェントのコスト感度が条件付き対数正規分布に従うと仮定することで、提案された推定量の一貫性を確立し、経験的にアプローチを検証します。より広範に、私たちの結果は、インタラクションデザインがエージェントの戦略的応答の隠された構造を明らかにすることによって、情報の非対称性をどのように軽減できるかを浮き彫りにしています。

原文 (English)

Off-Policy Evaluation with Strategic Agents via Local Disclosure

We study off-policy evaluation (OPE) under strategic behavior where decision subjects (or agents) respond to a decision maker's policy by strategically modifying their covariates. Such behavior induces a policy-dependent covariate shift, breaking the standard assumption in existing methods that covariates are exogenous to the policy. Related work addresses this challenge by imposing strong assumptions such as repeated interactions or full knowledge of agents' response behavior, substantially limiting its applicability to OPE. In contrast, we consider a one-shot OPE setting where the decision maker has only partial knowledge of the agents' response behavior. Our key insight is that disclosing local information through post-hoc explanations reveals agents' pre-strategic covariates prior to adaptation, mitigating the information loss induced by strategic behavior. Leveraging this structure, we estimate a statistical model for the agents' responses and construct a doubly robust estimator for policy value. By assuming that the agents' cost sensitivity follows a conditional log-normal distribution, we establish consistency of the proposed estimator and validate our approach empirically. More broadly, our results highlight how interaction design can mitigate information asymmetry by revealing otherwise hidden structure in agents' strategic responses.

13:00 JSTLLM/生成AI

コンテキスト LLM カスケードのためのオンラインのパンドラの箱

大規模言語モデル (LLM) カスケードを動機として、LLM API を適応的にクエリおよび選択するためのオンラインのコンテキストに応じたパンドラの箱モデルを提案します。各期間で、意思決定者はリクエストのコンテキストを観察し、2 段階の意思決定の問題に直面します。クエリフェーズでは、意思決定者は API に順番にクエリを実行します。各クエリにより生成された出力が明らかになり、意思決定者は (出力に依存する) コストを負担します。選択フェーズでは、意思決定者は生成された出力の 1 つを選択してデプロイし、デプロイされた出力の下流の報酬のみを観察します。この出力を介したフィードバック構造は、箱を開けると直接報酬が明らかになる、古典的なオンラインのコンテキストに応じたパンドラの箱モデルとは異なります。各 API の完全な条件付き出力とコスト分布を推定するのではなく、予約インデックスを直接モデル化し、クエリ フェーズの学習アプローチを開発します。具体的には、古典的なワイツマンのポリシーによって引き起こされる文脈予約インデックス関数にパラメトリック構造を課します。私たちのポリシーは、これらの予約インデックスの一般化モーメント法 (GMM) タイプの推定を、これらのインデックスと共有出力レベル報酬評価器の両方に対する UCB スタイルの信頼限界と組み合わせます。規則性条件の下では、結果として得られるポリシーが、$T$ 期間の範囲にわたって次元依存の $\widetilde O(\sqrt T)$ 累積リグレスを達成することを証明します。

原文 (English)

Online Pandora's Box for Contextual LLM Cascading

Motivated by Large Language Model (LLM) cascading, we propose an online contextual Pandora's Box model for adaptively querying and selecting LLM APIs. In each period, a decision-maker observes a request context and faces a two-phase decision problem. In the query phase, the decision-maker sequentially queries APIs, where each query reveals a generated output and the decision-maker incurs an (output-dependent) cost. In the selection phase, the decision-maker selects one of the generated outputs to deploy and observes only the downstream reward of the deployed output. This output-mediated feedback structure differs from classical online contextual Pandora's Box models, in which opening a box directly reveals its reward. Rather than estimating the full conditional output and cost distributions of each API, we directly model the reservation index and develop a learning approach for the query phase. Specifically, we impose a parametric structure on the contextual reservation index functions induced by the classical Weitzman's policy. Our policy combines generalized method of moments (GMM) type estimation of these reservation indices with UCB-style confidence bounds for both these indices and the shared output-level reward evaluator. Under regularity conditions, we prove that the resulting policy achieves dimension-dependent $\widetilde O(\sqrt T)$ cumulative regret over a horizon of $T$ periods.

13:00 JSTLLM/生成AIエージェント研究/論文Claude

本物の研究者として行動: 研究ライフサイクルにおけるフロンティア LLM とエージェントティック ハーネスを評価する一連のベンチマーク

基礎モデルが進歩し、エージェントの足場がますます洗練されるにつれて、エージェントは複雑で長期にわたるコーディングタスクや自律的な実験の実行においても顕著な習熟度を示しています。研究アシスタントから自律的な研究エージェントへの進化にもかかわらず、これらのシステムは依然として現場​​の感受性、研究倫理、微妙な科学的判断において大きな限界を示しています。その結果、フロンティアエージェントは依然として人間の研究者を完全に置き換えることはできません。このギャップを埋めるために、私たちは AARR (Act As a Real Researcher) ベンチマーク シリーズを概念化しました。主にマクロレベルの実行能力を評価する既存のベンチマークとは異なり、AARR は、人間の研究者の特徴であるプロフェッショナリズム、徹底的さ、微妙な推論をエージェントが詳細な研究シナリオでエミュレートできるかどうかに焦点を当てています。この研究では、このシリーズの最初のベンチマークである AARRI-Bench (Act As a Real Research Intern) を提案します。私たちはフロンティア モデルとエージェント システムにわたって広範な実験を実施し、最もパフォーマンスの高い構成 (Claude Opus 4.7 を備えたミニ SWE エージェント) でさえ成功率が 68.3\% にとどまっており、実際の人間の研究者にとって明らかな微妙だが重要な詳細がしばしば見落とされていることが明らかになりました。私たちの結果は、研究者のような AI を開発するには、単に複雑な足場を構築するだけではなく、研究行動をさらに探求する必要があることを示しています。データは https://github.com/AARR-bench/AARRI-bench で公開されています。

原文 (English)

Act As a Real Researcher: A Suite of Benchmarks Evaluating Frontier LLMs and Agentic Harnesses in Research Lifecycle

As foundation models advance and agent scaffolding becomes increasingly sophisticated, agents have demonstrated remarkable proficiency in complex, long-horizon coding tasks and even autonomous experiment execution. Despite their evolution from research assistants into autonomous research agents, these systems still exhibit significant limitations in field sensitivity, research ethics, and nuanced scientific judgment. Consequently, frontier agents remain unable to fully replace human researchers. To bridge this gap, we conceptualize the AARR (Act As a Real Researcher) benchmark series. Unlike existing benchmarks that primarily assess macro-level execution capabilities, AARR focuses on whether agents can emulate the professionalism, thoroughness, and nuanced reasoning that characterize human researchers in granular research scenarios. In this work, we propose AARRI-Bench (Act As a Real Research Intern), the first benchmark in this series. We conduct extensive experiments across frontier models and agentic systems, revealing that even the best-performing configuration (Mini-SWE-Agent with Claude Opus 4.7) achieves only 68.3\% success rate, frequently overlooking subtle yet critical details that are obvious to real human researchers. Our results indicate that developing researcher-like AI requires further exploration of research behavior, rather than merely complex scaffolding. Our data is released at https://github.com/AARR-bench/AARRI-bench.

13:00 JSTエージェント

AI エージェントが知識の働きをどのように再構築するか: 自律性、効率性、範囲

フロンティア AI システムは、会話型アシスタントからタスクをエンドツーエンドで実行する自律エージェントに移行することで、インテリジェンスと実用性の間のギャップを埋めています。 Perplexity の検索およびコンピュータ製品からの運用データを使用して、AI エージェントがどのように知識作業を加速し、再形成するかを調査することで、この移行を研究します。 3 つの重要な経験的発見が明らかになります。まず、両方の製品で試行した同じ基礎タスクの自然実験として、ほぼ同一の初期クエリ ペアを持つセッションを使用して、コンピューターはユーザー セッションごとに 26 分間の自律作業を実行しましたが、検索では 33 秒でした。コンピューターは、検索ユーザーが手動で調整して実装する可能性があるタスクの分解と実行を自動化します。その結果、コンピュータはフォローアップ クエリの分散を検証や拡張などの高次の作業にシフトします。自律性により実行品質も向上し、クエリごとの不満率が検索よりもコンピューターの方が 55% 低くなります。第 2 に、コンピュータは自律性の利点により、一致したタスクの完了時間を 269 分から 36 分に短縮し、検索だけを備えた人間と比較して、推定時間とコストをそれぞれ 87% と 94% 削減します。第三に、コンピューターはユーザーが試みる作業の範囲を変えます。コンピューターのクエリは職業の境界を越えることが多くなり、より高次の認知を必要とし、より広範な専門知識を活用し、相互に依存するサブタスクを 1 つのクエリにまとめた複合タスクの形式をとり、同じユーザー間での検索の使用には本質的に存在しない作業活動を可能にします。総合すると、これらの証拠は、AI エージェントがワークフローを加速し、出力品質を向上させ、コストを削減し、自動化された作業の幅と深さを拡大することを示しています。

原文 (English)

How AI Agents Reshape Knowledge Work: Autonomy, Efficiency, and Scope

Frontier AI systems are bridging the gap between intelligence and utility by shifting from conversational assistants to autonomous agents that execute tasks end to end. Using production data from Perplexity's Search and Computer products, we study this transition by examining how AI agents accelerate and reshape knowledge work. Three key empirical findings emerge. First, using sessions with near-identical initial query pairs as natural experiments for the same underlying task attempted with both products, Computer performs 26 minutes of autonomous work per user session, versus 33 seconds for Search. Computer automates task decomposition and execution that Search users might otherwise manually orchestrate and implement. As a result, Computer shifts follow-up query distribution toward higher-order work such as verification and extension. Autonomy also increases execution quality, with per-query dissatisfaction rates 55% lower on Computer than on Search. Second, due to its autonomy advantage, Computer reduces completion time from 269 to 36 minutes on matched tasks, lowering estimated time and cost by 87% and 94%, respectively, compared to humans equipped with Search alone. Third, Computer changes the scope of work that users attempt: Computer queries more often cross occupational boundaries, require higher-order cognition, draw on broader expertise, take the form of composite tasks that bundle interdependent subtasks into a single query, and unlock work activities that are essentially absent from Search usage among the same users. Together, the evidence indicates that AI agents accelerate workflows, enhance output quality, reduce costs, and expand the breadth and depth of automated work.

13:00 JSTLLM/生成AILlamaMistral AIQwen

ゼロショット埋め込みドリフト検出: LLM での即時注入に対する軽量の防御

プロンプト インジェクション攻撃は、LLM アプリケーションにとってますます脆弱性となっています。この攻撃では、敵対的なプロンプトが電子メールやユーザー生成コンテンツなどの間接的な入力チャネルを悪用して、アライメント保護手段を回避し、有害な出力や意図しない出力を誘発します。連携の進歩にも関わらず、最先端の LLM でさえ依然として敵対的なプロンプトに対して広く脆弱であり、非効率なモデル固有のパッチを超えた、堅牢で生産性が高く、一般化可能な検出メカニズムが緊急に必要であることが強調されています。この研究では、無害な入力と疑わしい入力の間の埋め込み空間の意味論的なシフトを定量化することで、直接的および間接的なプロンプト インジェクションの試みを識別する、軽量でエンジニアリング オーバーヘッドの低いフレームワークである Zero-Shot Embedding Drift Detection (ZEDD) を提案します。 ZEDD は、モデルの内部へのアクセス、攻撃タイプの事前知識、またはタスク固有の再トレーニングを必要とせずに動作し、多様な LLM アーキテクチャにわたって効率的なゼロショット展開を可能にします。私たちの手法では、敵対的クリーン プロンプト ペアを使用し、コサイン類似度による埋め込みドリフトを測定して、現実世界のインジェクション攻撃に固有の微妙な敵対的操作を捕捉します。堅牢な評価を保証するために、公開されているソースから派生した 5 つのインジェクション カテゴリにわたる包括的な LLMail-Inject データセットを組み立て、再アノテーションを付けます。広範な実験により、エンベディングドリフトは堅牢で伝達可能な信号であり、検出精度と操作効率において従来の方法を上回ることが実証されました。 Llama 3、Qwen 2、Mistral などのモデル アーキテクチャ全体でプロンプト インジェクションを分類する精度が 93% を超え、誤検知率が 3% 未満である当社のアプローチは、既存の LLM パイプラインに統合される軽量でスケーラブルな防御層を提供し、適応型敵対的脅威に耐えるために LLM 搭載システムを保護する際の重大なギャップに対処します。

原文 (English)

Zero-Shot Embedding Drift Detection: A Lightweight Defense Against Prompt Injections in LLMs

Prompt injection attacks have become an increasing vulnerability for LLM applications, where adversarial prompts exploit indirect input channels such as emails or user-generated content to circumvent alignment safeguards and induce harmful or unintended outputs. Despite advances in alignment, even state-of-the-art LLMs remain broadly vulnerable to adversarial prompts, underscoring the urgent need for robust, productive, and generalizable detection mechanisms beyond inefficient, model-specific patches. In this work, we propose Zero-Shot Embedding Drift Detection (ZEDD), a lightweight, low-engineering-overhead framework that identifies both direct and indirect prompt injection attempts by quantifying semantic shifts in embedding space between benign and suspect inputs. ZEDD operates without requiring access to model internals, prior knowledge of attack types, or task-specific retraining, enabling efficient zero-shot deployment across diverse LLM architectures. Our method uses adversarial-clean prompt pairs and measures embedding drift via cosine similarity to capture subtle adversarial manipulations inherent to real-world injection attacks. To ensure robust evaluation, we assemble and re-annotate the comprehensive LLMail-Inject dataset spanning five injection categories derived from publicly available sources. Extensive experiments demonstrate that embedding drift is a robust and transferable signal, outperforming traditional methods in detection accuracy and operational efficiency. With greater than 93% accuracy in classifying prompt injections across model architectures like Llama 3, Qwen 2, and Mistral and a false positive rate of <3%, our approach offers a lightweight, scalable defense layer that integrates into existing LLM pipelines, addressing a critical gap in securing LLM-powered systems to withstand adaptive adversarial threats.

13:00 JSTLLM/生成AIエージェント

マルチエージェントのコラボレーションが役立つのはどのような場合ですか?エントロピーの視点

マルチエージェント システム (MAS) は、大規模言語モデル (LLM) を活用して複雑なタスクに取り組むための顕著なパラダイムとして台頭しています。しかし、公的に入手可能な LLM に基づいて構築された MAS の有効性を制御するメカニズム、特に成功または失敗の根本的な理論的根拠は、ほとんど解明されていないままです。この論文では、\textit{entropy} の観点から MAS を再検討し、さまざまなトポロジ、6 つの推論ベンチマーク、および 2 つのエージェント タスクにわたる問題解決中のエントロピーの遷移を調査することで、エージェント内およびエージェント間のダイナミクスの両方を検討します。トークンレベル、エージェントレベル、ラウンドレベルのエントロピーにわたる 245 の特徴を分析することにより、直観に反して、単一エージェントが約 43.3\% のケースで MAS を上回り、エントロピーのダイナミクスは主にインタラクションの最初のラウンドで決定されることがわかりました。さらに、3 つの重要な観察結果を提供します。 1) \textit{Certainty Preference}: ピーク エントロピーは直接害を及ぼし、安定したエントロピーは MAS の正確さに直接利益をもたらします。 2) \textit{Base Entropy}: 問題解決中のエントロピーが低い基本モデルは、因果的に MAS のパフォーマンスを向上させます。 3) \textit{タスク認識}: MAS のエントロピー ダイナミクスは、さまざまなタスクにわたってさまざまな役割を果たします。これらの洞察に基づいて、MAS の pass@$k$ 結果からソリューションを選択するためのシンプルかつ効果的なアルゴリズム \textit{Entropy Judger} を導入し、すべての MAS 構成とタスクにわたって一貫した精度の向上につながります。ソース コードは \href{https://github.com/AgenticFinLab/multiagent-entropy}{this https URL} で入手できます。

原文 (English)

When Does Multi-Agent Collaboration Help? An Entropy Perspective

Multi-agent systems (MAS) have emerged as a prominent paradigm for leveraging large language models (LLMs) to tackle complex tasks. However, the mechanisms governing the effectiveness of MAS built upon publicly available LLMs, specifically the underlying rationales for their success or failure, remain largely unexplored. In this paper, we revisit MAS through the perspective of \textit{entropy}, considering both intra- and inter-agent dynamics by investigating entropy transitions during problem-solving across various topologies, six reasoning benchmarks, and two agentic tasks. By analyzing 245 features spanning token-, agent-, and round-level entropy, we counterintuitively find that a single agent outperforms MAS in approximately 43.3\% of cases, and that entropy dynamics are largely determined during the first round of interaction. Furthermore, we provide three key observations: 1) \textit{Certainty Preference}: peak entropy directly harms and stable entropy directly benefits MAS correctness; 2) \textit{Base Entropy}: base models with lower entropy during problem-solving causally drive MAS performance; and 3) \textit{Task Awareness}: entropy dynamics of MAS play varying roles across different tasks. Building on these insights, we introduce a simple yet effective algorithm, the \textit{Entropy Judger}, to select solutions from MAS's pass@$k$ results, leading to consistent accuracy improvements across all MAS configurations and tasks. Our source code is available at \href{https://github.com/AgenticFinLab/multiagent-entropy}{this https URL}.

13:00 JST研究/論文

持続可能性のための取引エンゲージメント: カーボンを意識した電子商取引の推奨事項の再ランキング

電子商取引の推奨システムは、ユーザーがどの製品を検討して購入するかに強い影響を与えますが、製品の二酸化炭素排出量 (PCF) などの持続可能性のシグナルをカタログ規模で入手できることはほとんどありません。私たちは、ほとんどの品目で PCF ラベルが欠落しており、推測する必要があるという現実的な環境で、カーボンを意識した製品の推奨事項を研究しています。まず、検索拡張 PCF 推定パイプラインを介して製品レベルの二酸化炭素排出量を推定します。このパイプラインは、セマンティック類似性検索、少数ショット LLM プロンプト、および最近傍フォールバックを使用して、ライフサイクル評価された製品の小さなセットであるカーボン カタログから、ラベルのない大規模な e コマース カタログに監視を転送します。次に、BPR、NeuMF、LightGCN という 3 つの確立された推奨モデルによって生成された関連性スコアに基づいて、カーボンを考慮した事後再ランキング戦略を適用します。この方法では、単一の調整可能なパラメータであるラムダを使用して、予測されるユーザーアイテムのエンゲージメントと推定される二酸化炭素排出量をトレードオフします。このオフライン調査では、Amazon レビューのやり取りを通じてエンゲージメントが運用され、暗黙のフィードバックとして、またユーザーの関心や購入行動の代理として機能します。私たちは、ホームとキッチン、スポーツとアウトドア、エレクトロニクスの 3 つの製品カテゴリにわたって Amazon レビュー データセットのフレームワークを評価します。ラムダをスイープすることで、各モデルとカテゴリの達成可能なエンゲージメントと炭素トレードオフを特徴付けるパレート フロンティアを構築します。すべてのモデルとカテゴリーにわたって、最小限の取り組みコストで大幅な二酸化炭素削減が達成可能です。ただし、利用可能な炭素ヘッドルームはモデルやカテゴリによって異なり、モデルの選択とドメインのコンテキストの重要性が強調されます。

原文 (English)

Trading Engagement for Sustainability: Carbon-Aware Re-ranking for E-commerce Recommendations

E-commerce recommender systems strongly influence which products users consider and purchase, yet sustainability signals such as Product Carbon Footprint (PCF) are almost never available at catalog scale. We study carbon-aware product recommendation in the realistic setting where PCF labels are missing for most items and must be inferred. We first estimate product-level carbon footprints via a retrieval-augmented PCF estimation pipeline that transfers supervision from the Carbon Catalogue, a small set of life-cycle-assessed products, to a large unlabeled e-commerce catalog using semantic similarity search, few-shot LLM prompting, and a nearest-neighbour fallback. We then apply a carbon-aware post-hoc re-ranking strategy on top of relevance scores produced by three established recommendation models: BPR, NeuMF, and LightGCN. The method trades off predicted user-item engagement against estimated carbon footprint through a single tunable parameter, lambda. In this offline study, engagement is operationalized through Amazon review interactions, which serve as implicit feedback and as a proxy for user interest or purchase behavior. We evaluate the framework on the Amazon Reviews dataset across three product categories: Home and Kitchen, Sports and Outdoors, and Electronics. By sweeping lambda, we construct Pareto frontiers that characterize the achievable engagement and carbon trade-off for each model and category. Substantial carbon reductions are achievable at minimal engagement cost across all models and categories. However, the available carbon headroom varies by model and category, underscoring the importance of model choice and domain context.

13:00 JSTエージェント

自己進化するマルチエージェントデジタルツインによる自律的な異種触媒の発見

理論的な不均一触媒作用は迅速な触媒の発見を約束しますが、忠実で条件を認識する触媒シミュレータが不足しているため、計算および機械学習による予測は実験から逸脱し、狭い材料群に限定されることがよくあります。我々は、気体-固体モデリングと液-固体モデリングを統合する、作動する触媒の自律デジタルツインを構築する自己進化型マルチエージェントシステムであるCatDT (Catalysis Digital Twin) を紹介します。バルク結晶と自然言語による反応記述だけから、8 つの特殊なエージェントと 27 の科学ツールが、単一 GPU で 5 ~ 30 分で安定面の予測、作業面の再構築、反応経路の列挙とランク付け、遷移状態の特定、反応速度の計算を行います。 2 つのイノベーションが最も困難なステップに対処します。UniMech は、エージェント主導の提案とエネルギー キャッシュされたグラフ検索を融合することで、徹底的な列挙より $10^3\times$ 以上低いコストで新規材料の支配的な経路を見つけます。また、メモリ拡張強化ループにより、600 の触媒表面にわたってバリア計算の成功率が 41\% から 84\% に上昇します。 7 つの気固体ベンチマーク (ステップ金属、単一原子触媒、規則性金属間化合物、空孔に富んだ 2D 硫化物および炭化物、および強金属 - 担体相互作用 (SMSI) 界面) にわたって、すべての CatDT 予測は、4 桁にわたる実験の 0.5 ~ 2 倍の範囲内に収まります。プロパン脱水素については、CatDT が Pt ベースの産業ベンチマークに匹敵する非貴重な候補を独自に発見し、提案された Ni@ZrO$_2$ SMSI オーバーレイヤーは、$\sim$100\% の選択性で $1.63~\text{s}^{-1}$ のシミュレートされた TOF に達します。より広義には、忠実な Catalyst デジタル ツイン (またはマルチステージ科学シミュレーター) の決定的な要素は、未加工の LLM 機能ではなく、それを中心に設計されたハーネスです。つまり、モデル、ツール、および実行全体で複合される決定論的なツール、永続的なメモリ、および検証済みの自己改善です。

原文 (English)

Autonomous heterogeneous catalyst discovery with a self-evolving multi-agent digital twin

Theoretical heterogeneous catalysis promises rapid catalyst discovery, yet computational and machine-learning predictions often deviate from experiment and stay confined to narrow material families, for want of a faithful, condition-aware catalytic simulator. We present CatDT (Catalysis Digital Twin), a self-evolving multi-agent system that builds an autonomous digital twin of a working catalyst, unifying gas-solid and liquid-solid modeling. From only a bulk crystal and a natural-language reaction description, eight specialized agents and 27 scientific tools predict stable facets, reconstruct working surfaces, enumerate and rank reaction pathways, locate transition states, and compute kinetics in 5-30 min on a single GPU. Two innovations address the hardest steps: UniMech finds dominant pathways for novel materials at over $10^3\times$ lower cost than exhaustive enumeration by fusing agent-guided proposals with energy-cached graph search, and a memory-augmented reinforcement loop raises barrier-calculation success from 41\% to 84\% across 600 catalytic surfaces. Across seven gas-solid benchmarks -- stepped metals, single-atom catalysts, ordered intermetallics, vacancy-rich 2D sulfides and carbides, and a strong-metal--support-interaction (SMSI) interface -- every CatDT prediction lies within 0.5-2 times experiment over four orders of magnitude. For propane dehydrogenation, CatDT independently discovers non-precious candidates rivaling the Pt-based industrial benchmark, with a proposed Ni@ZrO$_2$ SMSI overlayer reaching a simulated TOF of $1.63~\text{s}^{-1}$ at $\sim$100\% selectivity. More broadly, the decisive factor for a faithful catalyst digital twin -- or any multi-stage scientific simulator -- is not raw LLM capability but the engineered harness around it: deterministic tools, persistent memory, and verified self-improvement that compound across models, tools, and runs.

13:00 JSTLLM/生成AI

人間の成人と科学者としての LLM: 積極的な探査から恩恵を受けるのは誰ですか?

A long-standing finding in the causal learning literature is that adults struggle to identify conjunctive causal rules, where an effect requires the simultaneous presence of multiple causes, while performing better in disjunctive settings. However, most demonstrations of this ``conjunctive handicap'' rely on passive observation paradigms with limited evidence, where learners have no control over evidence generation.この論文は、大人が積極的な探索を通じて主体性を与えられた場合に、このバイアスが持続するかどうかを尋ねます。 Using a modified ``blicket detector'' task, adult participants freely intervened to identify causal objects under conjunctive or disjunctive rule structures. We show that active exploration substantially improves adults' conjunctive causal reasoning, although conjunctive rules still require more tests to infer than disjunctive rules.さらに、同じ設定で人間のパフォーマンスをさまざまな大規模な言語モデルと比較します。 While some state-of-the-art models approach human-level performance on hypothesis inference accuracy, they often exhibit less efficient exploration strategies and similar conjunctive-disjunctive performance gaps.

原文 (English)

Human Adults and LLMs as Scientists: Who Benefits from Active Exploration?

A long-standing finding in the causal learning literature is that adults struggle to identify conjunctive causal rules, where an effect requires the simultaneous presence of multiple causes, while performing better in disjunctive settings. However, most demonstrations of this ``conjunctive handicap'' rely on passive observation paradigms with limited evidence, where learners have no control over evidence generation. This paper asks whether this bias persists when adults are granted agency through active exploration. Using a modified ``blicket detector'' task, adult participants freely intervened to identify causal objects under conjunctive or disjunctive rule structures. We show that active exploration substantially improves adults' conjunctive causal reasoning, although conjunctive rules still require more tests to infer than disjunctive rules. We further compare human performance to a range of large language models in the same setting. While some state-of-the-art models approach human-level performance on hypothesis inference accuracy, they often exhibit less efficient exploration strategies and similar conjunctive-disjunctive performance gaps.

13:00 JST画像/動画生成

平面曲線の幾何学的ガウス混合表現

平面曲線に対するユーザー定義の確率的多角形表現を導入します。曲線が与えられた場合、曲線上の頂点を選択し、連続する頂点を線分で接続して多角形の近似を取得します。各セグメントには、ユーザー定義の法線方向の不確実性パラメータが装備されています。これにより、基礎となる曲線の幾何学的構造を保持しながら、理想的な決定論的な 1 次元定式化を超えて曲線を拡張する、薄い確率的幾何学的プリミティブのコレクションが生成されます。各セグメントに対して、セグメントの接線方向に一様分布し、セグメントの法線方向にガウス分布する確率変数を定義します。第 1 と第 2 の中心モーメントを一致させることにより、この構築により、平均がセグメントの中点にあり、その共分散が接線方向と垂直方向の不確実性の両方をエンコードするガウス成分が誘導されます。セグメントごとのコンポーネントを適切な重みと組み合わせると、平面曲線のユーザー定義の確率的多角形表現のガウス混合モデル (GMM) 表現が得られます。提案されたフレームワークは、局所的な幾何学形状と法線方向の不確実性を保存する、分析的に扱いやすい確率モデルを提供します。これは、滑らかな、閉じた、開いた、非規則的、および自己交差する平面曲線に適用され、適応的な離散化と法線方向の不確実性の変化を可能にし、その結果、不確実性を考慮した幾何学的モデリングをサポートします。正準平面曲線の集合に関する実験では、結果として得られる GMM がローカル接線、ローカル法線、およびローカル弧長を捕捉することが示されています。その結果、基礎となる曲線の全体的な形状も正確にキャプチャされます。この表現は、不確実性を考慮した CAD およびデジタル ツイン、ロボット工学における確率的障害物モデリング、および確率的軌道計画におけるアプリケーションに特に関連します。

原文 (English)

A Geometric Gaussian Mixture Representation of Plane Curves

We introduce a user defined probabilistic polygonal representation for plane curves. Given a curve, we select vertices on the curve and connect consecutive vertices by line segments to obtain a polygonal approximation. Each segment is equipped with a user defined uncertainty parameter in the normal direction. This yields a collection of thin probabilistic geometric primitives that retain the geometrz of the underlying curve while extending it beyond the idealized deterministic one dimensional formulation. For each segment, we define a Random Variable that is uniform distributed in the tangent direction of the segment and Gaussian distributed in the normal direction of the segment. By matching the first and the second central moments, this construction induces a Gaussian component whose mean lies at the segment midpoint and whose covariance encodes both tangential and normal uncertainty. Combining the segment wise components with appropriate weights yields a Gaussian Mixture Model (GMM) representation of the user defined probabilistic polygonal representation of the plane curve. The proposed framework provides an analytically tractable probabilistic model that preserves local geometry, and uncertainty in the normal direction. It applies to smooth, closed, open, non regular, and self intersecting plane curves, allows adaptive discretization and varying uncertainty in the normal direction, and as a result supports uncertainty aware geometric modeling. Experiments on a collection of canonical plane curves show that the resulting GMM capture local tangent, local normal, and local arc length; resulting in the global shape of the underlying curves to be truthfully captured as well. The representation is particularly relevant for applications in uncertainty aware CAD and digital twins, probabilistic obstacle modeling in robotics, and probabilistic trajectory planning.

13:00 JST研究/論文

限定されたラベルの下ではどの解剖学が重要ですか?心臓病理予測のためのデータ効率の高い解剖学を意識したベンチマーク

医用画像処理の多くの問題は、限られたラベルと制約されたコンピューティングの下で​​解決する必要がありますが、パフォーマンスの向上が主に表現力の高いモデルによってもたらされるのか、それとも臨床的に意味のある解剖学的構造のより適切な表現によってもたらされるのかは依然として不明です。私たちは、公開されている ACDC MRI データセット上の 5 クラスの心臓病理予測のための、低データの解剖学を意識したベンチマークを通じてこの疑問を研究します。右心室、心筋層、および左心室からのセグメンテーション由来の患者記述子を使用して、線形、カーネル、およびツリーベースの分類子にわたる解剖学的構造固有の多構造表現を比較します。限られたラベル設定の下では、表現が複雑さを支配することがわかります。これらの結果は、リソースに制約のある医療現場では、モデル単体の複雑さの増大よりも、最も有益な解剖学的構造を特定して表現することが重要である可能性があることを示唆しています。

原文 (English)

Which Anatomy Matters Under Limited Labels? A Data-Efficient Anatomy-Aware Benchmark for Cardiac Pathology Prediction

Numerous medical imaging problems must be solved under limited labels and constrained compute, yet it remains unclear whether performance gains are driven mainly by more expressive models or by better representation of clinically meaningful anatomy. We study this question through a low-data anatomy-aware benchmark for 5-class cardiac pathology prediction on the public ACDC MRI dataset. Using segmentation-derived patient descriptors from the right ventricle, myocardium, and left ventricle, we compare anatomy-specific and multi-structure representations across linear, kernel, and tree-based classifiers. We find that under limited label settings, representation dominates complexity. These results suggest that in resource-constrained healthcare settings, identifying and representing the most informative anatomy may matter more than the increasing complexity of the model alone.

13:00 JST研究/論文ClaudeNVIDIA

必要なのは FP8 だけです (パート 1): HPC の聖杯としてのハードウェア FP64 の誤りを暴く

従来の HPC の定説では、ネイティブ ハードウェア FP64 シリコンは科学技術コンピューティングの還元不可能な基盤、つまり倍精度シミュレーションの「聖杯」であると考えられています。この論文では、この定説は間違っていると主張しています。B300 世代以降の AI に最適化された GPU では、豊富な FP8 テンソル スループットと中国剰余定理ベースの Ozaki Scheme II を組み合わせることで、正規の HPC カーネル スペクトル全体で完全な FP64 精度でメモリルーフ実行を回復します。 NVIDIA の Blackwell Ultra (B300) は、ネイティブ FP64 を約 1.3 TFLOPS (B200 から 31 倍) に低下させ、メモリに依存するカーネル (SpMV、GEMV、ステンシル) も計算に依存するようにレンダリングします。私たちは4つの貢献をしています。まず、統合分析モデルである Tensor-Memory Equilibrium (TME) モデルは、計算乗数アルファ、帯域幅乗数ベータ、および再構築レイテンシ ガンマでルーフラインを強化します。次に、ベータ -> 1 を駆動するメカニズムとしてレジスタレベルの融合を特定し、エミュレーションをメモリの壁の向こう側で本質的に自由にします。 3 番目に、Ozaki II ヴォールトは FP64 をネイティブの最大 1 TFLOPS から最大 500 TFLOPS (B300) および最大 400 TFLOPS (Rubin R200) までエミュレートし、帯域幅制限の領域ではメモリ上限に匹敵しながら、コンピューティング領域では B200 のネイティブ FP64 の上限を 1 桁以上上回ったと予測します。 4 番目に、H100 ベースラインに対して、Ozaki II は、B300 ネイティブ FP64 が課す最大 50 倍の回帰と比較して、調査したすべてのワークロードで H100 と一致またはそれを超えています。コンパニオン FFT 解析 (生き残った INT32 パイプでの Kulisch 固定点再構築) と、コンパニオン Part(2) 論文で報告されている FP32+Kahan 削減と組み合わせると、B300 で調査されたすべてのカーネル クラスがフル FP64 でメモリ ルーフに達します。証拠はタイトルの主張を裏付けています。Ozaki II と Kulisch のエスケープ ルートを備えた FP8 は、実稼働 HPC に必要なすべてです。ネイティブ FP64 シリコンは、もはやこれまで考えられてきた聖杯ではありません。

原文 (English)

FP8 is All You Need (Part 1): Debunking Hardware FP64 as the HPC Holy Grail

Conventional HPC dogma holds that native hardware FP64 silicon is the irreducible foundation of scientific computing -- the "holy grail" of double-precision simulation. This paper argues the dogma is wrong: on AI-optimised GPUs of the B300 generation and beyond, abundant FP8 tensor throughput combined with the Chinese Remainder Theorem-based Ozaki Scheme II recovers memory-roof execution at full FP64 accuracy across the canonical HPC kernel spectrum. NVIDIA's Blackwell Ultra (B300) collapses native FP64 to ~1.3 TFLOPS -- a 31x regression from the B200 -- rendering even memory-bound kernels (SpMV, GEMV, stencils) compute-bound. We make four contributions. First, a unified analytic model, the Tensor-Memory Equilibrium (TME) model, augmenting the Roofline with a compute multiplier alpha, a bandwidth multiplier beta, and a reconstruction latency gamma. Second, we identify register-level fusion as the mechanism driving beta -> 1, making emulation essentially free behind the memory wall. Third, we project that Ozaki II vaults emulated FP64 from the ~1 TFLOPS native floor to ~500 TFLOPS (B300) and ~400 TFLOPS (Rubin R200), exceeding even B200's native FP64 ceiling by over an order of magnitude in the compute-bound regime while matching the memory roof in the bandwidth-bound regime. Fourth, against an H100 baseline, Ozaki II matches or exceeds H100 on every workload studied, versus the up-to-50x regression that B300 native FP64 imposes. Combined with a companion FFT analysis (Kulisch fixed-point reconstruction on the surviving INT32 pipe) and FP32+Kahan reductions reported in the companion Part(2) paper, every surveyed kernel class on B300 reaches the memory roof at full FP64. The evidence supports the title's claim: FP8, with Ozaki II and Kulisch escape routes, is all one needs for production HPC; native FP64 silicon is no longer the holy grail it has been taken to be.

13:00 JST研究/論文

DxPTA: フォトニックトランス加速器の HW/SW 協調設計のための光データフローに基づく戦略によるアーキテクチャ設計空間の探索

トランスフォーマーベースのネットワークは、最先端のパフォーマンスを備えた著名な AI モデルとして登場しており、汎用人工知能 (AGI) への道を開く可能性があります。ただし、サイズが大きいため効率的な実装が依然として妨げられており、エネルギー効率の高い加速を可能にする代替ソリューションの必要性が浮き彫りになっています。最近、最先端の研究により、従来の電子加速器に比べて速度が大幅に向上し、エネルギー効率が向上した光変換加速器 (PTA) が提案されています。ただし、それらの PTA アーキテクチャは、アプリケーションの制約 (エリア、電力、エネルギー、遅延など) を考慮せずに開発されています。さらに、手動設計アプローチでは、対象となるアプリケーションに適したアーキテクチャを決定するために膨大な設計時間が必要となるため、このアプローチは拡張性がありません。これらの制限に対処するために、すべての制約を満たす適切な PTA アーキテクチャの効率的なハードウェア/ソフトウェア共同設計を可能にする新しい設計空間探索手法である DxPTA を提案します。これは、(1) コヒーレント光データフローに基づいて PTA アーキテクチャ パラメータを識別することによって実現されます。 (2) パラメータの影響/重要性を分析する。 (3) この分析を利用して、制約を意識したアーキテクチャ検索アルゴリズムを考案します。実験結果は、当社の DxPTA がさまざまな変圧器ベースのモデル (つまり、DeiT-T/S/B および BERT-B/L) に適切な PTA アーキテクチャを見つけることができることを示しています。面積 50mm^2、電力 5W、エネルギー 50mJ、待ち時間 10ms の制約に対して、最大 26mm^2 面積、電力 4.8W、電力 39mJ、待ち時間 6ms を実現します。徹底的なアプローチよりも検索時間が 15.2 倍速くなります。これらの結果は、多様な AGI ベースのアプリケーションに対して効率的な PTA 設計を可能にする DxPTA 手法の可能性を示しています。

原文 (English)

DxPTA: An Architecture Design Space Exploration with Optical Dataflow-guided Strategy for HW/SW Co-Design of Photonic Transformer Accelerators

Transformer-based networks have emerged as prominent AI models with state-of-the-art performance, which potentially pave the way toward artificial general intelligence (AGI). However, their large sizes still hinder their efficient implementation, thus highlighting the need for alternate solutions to enable their energy-efficient acceleration. Recently, state-of-the-art works propose photonic transformer accelerators (PTAs) with significant speedup and energy efficiency improvements over the conventional electronic accelerators. However, their PTA architectures are developed without considering the application constraints (e.g., area, power, energy, and latency). Moreover, their manual design approach also requires huge design time to determine a suitable architecture for the targeted application, hence making this approach not scalable. To address these limitations, we propose DxPTA, a novel design space exploration methodology for enabling efficient hardware/software co-design of the appropriate PTA architecture that meets all constraints. It is achieved by (1) identifying the PTA architecture parameters based on the coherent optical dataflow; (2) analyzing the impact/significance of the parameters; and (3) leveraging this analysis for devising a constraint-aware architecture search algorithm. Experimental results show that, our DxPTA can find the appropriate PTA architectures for different transformer-based models (i.e., DeiT-T/S/B and BERT-B/L). It achieves up to 26mm^2 area, 4.8W power, 39mJ energy, and 6ms latency, for constraints of 50mm^2 area, 5W power, 50mJ energy, and 10ms latency; with 15.2x faster searching time than the exhaustive approach. These results demonstrate the potential of DxPTA methodology for enabling efficient PTA designs for diverse AGI-based applications.

13:00 JST研究/論文

FP8 の P-Cast 精度 注意: 陥没による崩壊と S=2^8 の最適性

アテンション計算のための FP8 (E4M3) アクセラレーションはスループットの大幅な向上をもたらしますが、ソフトマックス確率行列 P が P*V 行列の乗算の前に FP8 にキャストされる場合、3 ビットの仮数により精度の課題が生じます。アテンション シンク現象の下で出力精度に影響を与える 2 つの実装の選択肢、(1) KV ブロックの反復順序、および (2) キャスト前に P に適用される静的スケーリング係数を分析します。順方向 KV 反復により「P 崩壊」が発生することを示します。先頭に非シンク P 値の一部 Phi(Delta + delta_k - 6.93 - ln S) がゼロにアンダーフローします。ここで、小さなシフト delta_k ~ 1 (k_sink = 4 の場合) が予想されるシンクブロック内スコアの最大値です。また、逆反復では、リバースと S = を組み合わせた場合にゼロ アンダーフローが保証されて、それが除去されます。 256. さらに、(i) ビット正確な IEEE 754 スケーリング、(ii) E4M3 数直線上の鋸歯状関数 dp(S) の下側エンベロープ (dp = 2^-4、最小ワーストケースの量子化ステップ)、および (iii) ビット正確な間の最大正常範囲カバレッジを同時に満たす静的スケールとして、S = 256 = 2^8 の建設的な特徴付けを行います。 (2^k) スケール (448 などの非ビット正確スケールでは、カバレッジがわずかに高くなります)。どちらの最適化も、エンジニアリングの観点から、FlashAttendant-3/4 にすでに導入されています。私たちの貢献は、なぜこれらの選択が良いのかについての定量的な説明と、カーネルレベルの精度損失を予測するための閉じた形式のしきい値 Delta_c = 6.93 + ln S - delta_k です。カーネルに忠実な実験 (P キャスト効果を分離するための FP32 の Q、K、V) では、中程度のシンク強度で 3 ~ 10 倍の MSE 改善が示されており、ペア テストでは、両方の修正を組み合わせると同じ精度の下限に飽和することが確認されています。

原文 (English)

P-Cast Precision in FP8 Attention: Sink-Induced Collapse and the Optimality of S=2^8

FP8 (E4M3) acceleration for attention computation offers significant throughput gains, but the 3-bit mantissa introduces precision challenges when the softmax probability matrix P is cast to FP8 before the P*V matrix multiplication. We analyze two implementation choices that affect output precision under the Attention Sink phenomenon: (1) the KV block iteration order, and (2) the static scaling factor applied to P before casting. We show that forward KV iteration causes "P-collapse" -- to leading order, a fraction Phi(Delta + delta_k - 6.93 - ln S) of non-sink P values underflow to zero, where the small shift delta_k ~ 1 (for k_sink = 4) is the expected within-sink-block score maximum -- and that reverse iteration removes it, with a zero-underflow guarantee when reverse is combined with S = 256. We further give a constructive characterization of S = 256 = 2^8 as the static scale that simultaneously satisfies (i) bit-exact IEEE 754 scaling, (ii) the lower envelope of a sawtooth function dp(S) over the E4M3 number line (dp = 2^-4, the minimum worst-case quantization step), and (iii) the maximum normal-range coverage among bit-exact (2^k) scales (a non-bit-exact scale such as 448 attains slightly higher coverage). Both optimizations are already deployed in FlashAttention-3/4 on engineering grounds; our contribution is a quantitative account of why these choices are good and a closed-form threshold Delta_c = 6.93 + ln S - delta_k for predicting kernel-level precision loss. Kernel-faithful experiments (Q, K, V in FP32 to isolate the P-cast effect) show 3-10x MSE improvement at moderate sink strengths, and paired tests confirm both fixes saturate to the same precision floor when combined.

13:00 JSTLLM/生成AIエージェント

3D フレーム システムの自動構造解析のためのエージェントティック大規模言語モデル

大規模言語モデル (LLM) は、ドメイン全体にわたる強力な推論機能を備えた強力な基盤モデルとして登場しました。リアクティブ テキスト生成を超えて、エージェント LLM により、モジュール式タスクの分解と調整されたツールの使用を通じて自律的なワークフローの実行が可能になります。構造工学では、最近の取り組みにより、平面フレームの自動解析のためのエージェント LLM が開発されました。ただし、3D フレームへの拡張は、不規則な幾何学的表現、トポロジーの一貫性、および長期的な推論における課題のため、依然として研究が進んでいません。この論文では、自然言語入力からの 3D フレームの自動構造分析のためのエージェント LLM フレームワークを提案します。不規則な 3D フレームは 2D 平面への投影によって表され、直交するグリッド線が空間座標を定義し、階数のマトリックスが各グリッド セルの垂直方向の押し出しをエンコードします。この表現に基づいて、フレームワークはマルチエージェント パイプラインを確立します。問題分析エージェントは入力を解析して構造化された JSON に変換します。床分解エージェントは各床の空間レイアウトを導き出します。 3D ジオメトリは、ノード、桁、スラブ、柱エージェントによって組み立てられます。サポートおよびロード エージェントは境界条件とロード条件を割り当て、コード変換エージェントは実行可能な SAP2000 スクリプトを生成します。 10 個の代表的な 3D フレームで評価したところ、提案されたフレームワークは反復試行全体で平均 90% の精度を達成し、一貫した信頼性の高いパフォーマンスを実証しました。

原文 (English)

Agentic Large Language Models for Automated Structural Analysis of 3D Frame Systems

Large language models (LLMs) have emerged as powerful foundation models with strong reasoning capabilities across domains. Beyond reactive text generation, agentic LLMs enable autonomous workflow execution through modular task decomposition and coordinated tool use. In structural engineering, recent efforts have developed agentic LLMs for automated analysis of plane frames. However, their extension to 3D frames remains underexplored due to challenges in irregular geometric representation, topological consistency, and long-horizon reasoning. This paper proposes an agentic LLM framework for automated structural analysis of 3D frames from natural language inputs. Irregular 3D frames are represented by projection onto a 2D plan, where orthogonal gridlines define spatial coordinates and a matrix of number of stories encodes vertical extrusion of each grid cell. Building on this representation, the framework establishes a multi-agent pipeline: a problem analysis agent parses input into structured JSON; a floor decomposition agent derives the spatial layout of each floor; the 3D geometry is assembled by node, girder, slab, and column agents; support and load agents assign boundary and loading conditions, and code translation agents generate executable SAP2000 script. Evaluated on ten representative 3D frames, the proposed framework achieves an average accuracy of 90% across repeated trials, demonstrating consistent and reliable performance.

13:00 JST研究/論文

視覚基盤モデルに基づいた、長期にわたる注意の一貫した医療視覚的質問応答

縦断的医療視覚質問応答 (VQA) では、現在の時点の画像と参照された時点の画像の間の解剖学的差異について推論する必要があります。我々は、胸部 X 線を使用したこのタスクのために、注意誘導型エンコーダ/デコーダを提案します。従来の直接コントラストの代わりに、軽量のアフィン レジストレーション モジュールを含めて、現在の画像を参照画像に小さなレジストレーション レギュラライザーで同時レジストレーションすることで迷惑な動きを減らすことを提案します。登録された画像ペアは画像エンコーダに入力され、その後、フリーズ DINO ベースのマスク ジェネレーターとトレーニング可能な適応マスク ジェネレーターが送られて、元の画像ペアに適用されるマスクが生成されます。マスクされた画像ペアは再び画像エンコーダに供給され、マルチモーダル トランスフォーマ ベースのデコーダへの入力としてテキスト特徴と連結されて、最終的な回答が生成されます。学習の安定化を促進し、DINO-v3 からインスピレーションを受けて変化信号を明確にするために、マスク再構築損失、ペアごとのグラム形式の一貫性損失、表現のジオメトリを強化する KoLeo 均一性損失などの追加の補助目標が含まれています。 Medical-Diff-VQA ベンチマークでは、このモデルは強力な BLEU、ROUGE-L、CIDEr、および METEOR スコアを提供しながら、共有顕著性マスクを通じて本質的な解釈可能性を提供します。これらの結果は、医療 VQA における縦断的推論の原則的なフレームワークとして、マイルドな事前アライメントによる顕著性条件付き生成をサポートします。私たちのトレーニング戦略は、生物医学における画像基盤モデルの利用におけるパラダイムの可能性、つまり教師あり学習目標と教師なし学習目標の両方を同時に最適化することも示しています。

原文 (English)

Attention Consistent Longitudinal Medical Visual Question Answering Guided by Vision Foundation Models

Longitudinal medical visual question answering (VQA) requires reasoning about anatomical differences between an image of a current time point and an image of a referred time point. We propose an attention-guided encoder-decoder for this task with chest X-rays. Instead of conventional direct contrast, we propose to include a lightweight affine registration module to reduce nuisance motion by co-registering the current image to the reference image with a small registration regularizer. The registered image pair is fed into the image encoder, followed by a frozen DINO-based mask generator and a trainable adaptive mask generator to produce masks applied to the original image pairs. The masked image pairs are again fed into the image encoder and concatenated with text features as the input to a multimodal transformer-based decoder to generate final answers. To facilitate learning stabilization and clarify the change signal, inspired by DINO-v3, we include additional auxiliary objectives, including a mask rebuilding loss, a pairwise Gram-style consistency loss, and a KoLeo uniformity loss, which enhances the geometry of the representation. On the Medical-Diff-VQA benchmark, the model delivers strong BLEU, ROUGE-L, CIDEr, and METEOR scores while offering intrinsic interpretability through the shared saliency mask. These results support saliency-conditioned generation with mild pre-alignment as a principled framework for longitudinal reasoning in medical VQA. Our training strategy also illustrates the potential of a paradigm in utilizing image foundation models in biomedicine: optimizing both supervised and unsupervised learning objectives simultaneously.

13:00 JST画像/動画生成

UAV 伝送線イメージングを使用した絶縁体欠陥検出のための注意誘導型オートエンコーダ フュージョン

高圧送電線の絶縁体の自動欠陥検出は、深刻なクラスの不均衡、大規模な変動、および無人航空機 (UAV) 画像における欠陥インスタンスの空間的広がりが小さいため、依然として困難です。これらの課題に対処するために、この論文では、堅牢な絶縁体欠陥検出のためのアテンションガイド付き AutoEncoder-Enhanced YOLO フレームワークである AE-YOLO を提案します。このアーキテクチャでは、軽量のボトルネック オートエンコーダが、Feature Pyramid Network-Path Aggregation Network (FPN-PAN) ネック内に統合されています。これにより、マルチスケール フィーチャの融合中に異常に敏感な情報が保存されます。畳み込みブロック アテンション モジュール (CBAM) がバックボーン全体で使用され、特徴の識別を強化し、バックグラウンド干渉を抑制します。このフレームワークはまた、分散を最大化するオートエンコーダの正則化戦略を導入し、多様で欠陥を識別する潜在表現を促進します。このネットワークは、焦点損失、完全 IoU (CIoU) 損失、オートエンコーダー正則化を組み合わせた統合目標を使用してトレーニングを行い、前景と背景の不均衡に対処し、位置特定の精度を向上させます。推論中に、Weighted Boxes Fusion (WBF) は YOLOv8、YOLOv10、および YOLO11 からの予測を組み合わせます。オートエンコーダに基づく信頼性向上メカニズムにより、まれな欠陥カテゴリに対する感度が向上します。絶縁体欠陥検出データセットの実験では、EfficientNetV2 バックボーンを備えた AE-YOLO が 0.5 で 95.10 パーセントの mAP、96.40 パーセントの精度、および 93.80 パーセントの再現率を達成することが示されています。このパフォーマンスは、最も強力な YOLO ファミリーのベースラインを 0.5 ポイントの mAP で 5.0 ポイント、リコールで 6.7 ポイント上回っています。これらの結果は、フレームワークの有効性と適応性を裏付けています。このモデルは、UAV ベースの伝送線検査と欠陥監視のための実用的でスケーラブルなソリューションです。

原文 (English)

Attention-Guided Autoencoder Fusion for Insulator Defect Detection Using UAV Transmission-Line Imaging

Automated defect detection in high-voltage transmission-line insulators remains challenging due to severe class imbalance, large scale variation, and the small spatial extent of defect instances in Unmanned Aerial Vehicle (UAV) imagery. To address these challenges, this paper proposes AE-YOLO, an Attention-Guided AutoEncoder-Enhanced YOLO framework for robust insulator defect detection. The architecture integrates lightweight bottleneck autoencoders within a Feature Pyramid Network-Path Aggregation Network (FPN-PAN) neck. This preserves anomaly-sensitive information during multi-scale feature fusion. Convolutional Block Attention Modules (CBAM) are used throughout the backbone, enhancing feature discrimination and suppressing background interference. The framework also introduces a variance-maximizing autoencoder regularization strategy, which encourages diverse, defect-discriminative latent representations. The network trains using a unified objective that combines focal loss, Complete IoU (CIoU) loss, and autoencoder regularization to address foreground-background imbalance and improve localization accuracy. During inference, Weighted Boxes Fusion (WBF) combines predictions from YOLOv8, YOLOv10, and YOLO11. An autoencoder-guided confidence boosting mechanism improves sensitivity to rare defect categories. Experiments on the Insulator-Defect Detection dataset show that AE-YOLO with an EfficientNetV2 backbone achieves 95.10 percent mAP at 0.5, 96.40 percent precision, and 93.80 percent recall. This performance surpasses the strongest YOLO-family baseline by 5.0 points in mAP at 0.5 and 6.7 points in recall. These results confirm the effectiveness and adaptability of the framework. The model is a practical and scalable solution for UAV-based transmission-line inspection and defect monitoring.

13:00 JST画像/動画生成研究/論文

合成ベンチマークは順方向スケーリングを過大評価する: レイヤーローカルトレーニングの実データの制限

順方向 (FF) 学習 [Hinton、2022] は、バックプロパゲーションを厳密に層ローカルの良好性更新に置き換えます。最近の FF-CNN の取り組みにより、32x32 ベンチマークにおける BP とのギャップが縮まり、レイヤーローカル トレーニングが現実的な規模で実行可能な代替手段になりつつあるのかという疑問が生じています。これを厳密に調査するために、9 つの実データ ベンチマーク (91.8% CIFAR-10 および ImageNet-100 224x224 での最初の FF ベースライン) 全体で FF ファミリの最先端を設定する手段として、DTG-FF (動的な温度の良さ、分離正規化、および多層融合) を開発し、それを使用して、レイヤーローカル トレーニングが実際にどこまでスケールするかを監査します。 (1) 実データのスケーリング。同一のレシピとバックボーンの下で、アーキテクチャが一致した BP-DeepSup ベースラインは、CIFAR-10/CIFAR-100 で DTG-FF を 2.40/5.93 pp 上回り、その差はクラス数とともに拡大します。 224x224 では、同じ機器はわずか 49.4% に達します。これは、このスケールで最初の FF ベースラインであり、75% を超える一般的な BP に対して [Tian et al., 2020] -- 32x32 では目に見えない実データの上限が明らかになります。 (2) 合成対本物の K 競合。合成教師-生徒タスクでクラス数 K が増加するにつれて、DTG-FF は BP よりも優れたパフォーマンスを示しますが、実際の画像では、FF-BP ギャップは符号を反転し、K とともに拡大します。データセット内の CIFAR-100 粗プローブと微細プローブにより、ラベル階層が画像分布から分離されます。合成 K スイープは、出力の次元性をきめ細かい識別の困難さと混同し、それによって FF の転送可能性を誇張します。 (3) システム監査。 FF は深さ全体のアクティベーションを保存せずに実装できますが、コモディティの 8 GB ハードウェア標準では BP+勾配累積が 4.18 GB / 157 imgs/s に達するのに対し、DTG-FF の 7.90 GB / 138 imgs/s に達するため、この規模での FF のメモリベースの調整は公正なベースラインではサポートされません。

原文 (English)

Synthetic Benchmarks Overstate Forward-Forward Scaling: Real-Data Limits of Layer-Local Training

Forward-Forward (FF) learning [Hinton, 2022] replaces backpropagation with strictly layer-local goodness updates. Recent FF-CNN work has narrowed the gap to BP on 32x32 benchmarks, raising the question of whether layer-local training is becoming a viable alternative at realistic scale. To probe this rigorously, we develop DTG-FF -- dynamic temperature goodness, decoupled normalization, and multi-layer fusion -- as an instrument that sets FF-family state of the art across nine real-data benchmarks (91.8% CIFAR-10 and the first FF baseline at ImageNet-100 224x224), and use it to audit how far layer-local training actually scales. (1) Real-data scaling. Under identical recipe and backbone, an architecture-matched BP-DeepSup baseline beats DTG-FF by 2.40/5.93 pp on CIFAR-10/CIFAR-100, and the gap widens with class count. At 224x224 the same instrument reaches only 49.4% -- the first FF baseline at this scale, versus typical BP above 75% [Tian et al., 2020] -- exposing a real-data ceiling invisible at 32x32. (2) Synthetic vs. real K-conflict. DTG-FF increasingly outperforms BP as class count K grows on synthetic teacher-student tasks, yet on real images the FF-BP gap reverses sign and widens with K. A within-dataset CIFAR-100 coarse vs. fine probe isolates label-hierarchy from image distribution: synthetic K-sweeps confound output dimensionality with fine-grained discrimination difficulty and thereby overstate FF transferability. (3) Systems audit. FF can be implemented without storing depth-wide activations, but on commodity 8 GB hardware standard BP+gradient-accumulation reaches 4.18 GB / 157 imgs/s versus DTG-FF's 7.90 GB / 138 imgs/s, so a memory-based justification for FF at this scale is not supported under fair baselines.

13:00 JST研究/論文

qubo およびハイブリッド量子アルゴリズムに基づく、鉄道短期集中出発シナリオにおける出発順序​​と区間と線路の割り当ての調整された最適化

この研究では、鉄道の短期集中出発シナリオにおける出発順序​​と区間線の割り当ての協調的な最適化を検討します。二次無制約バイナリ最適化 (QUBO) モデルは、統一されたバイナリ フレームワーク内で出発位置の割り当てとセクションとトラックの選択を表すように定式化されます。ディスパッチング スキームの品質は、静的な組み合わせモデルでは完全には把握できない時間依存の運用相互作用に依存するため、セクション占有、中間ステーションの待機、プラットフォーム容量の圧力、実行時間の変動、および遅延の伝播を評価するために、シミュレーション ベースの評価レイヤーが導入されています。この階層化されたフレームワーク内で、従来のヒューリスティック、量子にヒントを得たアルゴリズム、およびハイブリッド アルゴリズムが同じ意思決定構造で比較されます。結果は、QUBO モデルがデコード後に実行可能な候補スキームを生成できる一方、シミュレーション層は通常条件と妨害条件の両方で競合するアルゴリズムの動作パフォーマンスを明確に区別できることを示しています。テストされたシナリオでは、QPSO-QAOA は通常の条件下で最高のパフォーマンスを発揮し、量子強化手法により、従来の対応するものと比較して、動的条件下で総合コストが平均 4.28\% ~ 26.26\% 削減され、合計遅延が 4.37\% ~ 24.25\% 削減されました。これらの発見は、QUBO ベースのモデリングとシミュレーションベースの評価の統合が、実際の運行データによる検証が依然として必要であるものの、鉄道の短期集中出発スケジュールに有用な方法論的枠組みを提供することを示唆しています。

原文 (English)

Coordinated optimization of departure sequencing and section-track allocation in railway short-term concentrated departure scenarios based on qubo and hybrid quantum algorithms

This study examines the coordinated optimization of departure sequencing and section-track allocation in railway short-term concentrated departure scenarios. A quadratic unconstrained binary optimization (QUBO) model is formulated to represent departure-position assignment and section-track selection within a unified binary framework. Because the quality of a dispatching scheme depends on time-dependent operational interactions that cannot be fully captured by a static combinatorial model, a simulation-based evaluation layer is introduced to assess section occupation, intermediate-station waiting, platform-capacity pressure, running-time fluctuations, and delay propagation. Within this layered framework, conventional heuristics, quantum-inspired algorithms, and hybrid algorithms are compared on the same decision structure. The results show that the QUBO model can generate feasible candidate schemes after decoding, while the simulation layer clearly differentiates the operational performance of the competing algorithms under both normal and disturbed conditions. In the tested scenarios, QPSO-QAOA performs best under normal conditions, and the quantum-enhanced methods reduce comprehensive cost by 4.28\%--26.26\% and total delay by 4.37\%--24.25\% on average under dynamic conditions relative to their conventional counterparts. These findings suggest that the integration of QUBO-based modeling and simulation-based evaluation provides a useful methodological framework for railway short-term concentrated departure scheduling, although validation with real operational data remains necessary.

13:00 JSTエージェント

Queen-Bee エージェント: ガバナンスされたエンタープライズ MCP オーケストレーションのための BeeSpec 中心のアーキテクチャ

エンタープライズ エージェント システムでは、大規模な言語モデルをプライベート ツール、内部知識、モデル コンテキスト プロトコル (MCP) インターフェイスに接続する必要がますます高まっています。この設定では、生のタスク機能は不十分です。組織は、ポリシーの適用、テナント範囲の分離、および明示的な運用境界内に留まる実行も必要とします。私たちは、Queen コントロール プレーンが機能を取得し、タスク スコープの実行を計画し、制約されたツール アクセスの下で特殊な Bee エージェントによって実行される構造化された BeeSpec をコンパイルする、管理されたマルチエージェント アーキテクチャである Queen-Bee を紹介します。テナント スコープの MCP コネクタ、監査に基づく実行時間ガバナンス、取得主導の弱いインキュベーション、および複数のプロビジョニング バックエンドを備えた実用的なプロトタイプを実装します。私たちは、ガバナンスに敏感なリクエスト、取得主導のプロビジョニング、スコープ指定されたローカル実行、化学ワークフローの統合にわたる 59 のエンタープライズ スタイルのタスクに基づいてシステムを評価します。取得主導型の Queen-Bee バリアントは、0.964 のタスク成功率、ガバナンス失敗ゼロを実現し、静的な Queen-Bee ベースラインと寛容なシングルエージェント ベースラインの両方よりも大幅に優れた範囲指定された実行品質を実現します。さらに、明示的な承認ゲートを備えた複数の Bee 化学ワークフローと、実際の上流の証拠とスクリーニング成果物に基づいた具体的な上位 3 候補リストを示します。ハイブリッド取得および LLM ガイド付きプロビジョニングとの追加の比較では、より豊富なプロビジョニング バックエンドが実行可能ですが、現在の小規模で高度に構造化された機能レジストリでは軽量の構造化取得よりも優れたパフォーマンスを発揮しないことが示されています。この結果は、運用導入の調査ではなく、プロトタイプ レベルのシステムの証拠を提供し、エンタープライズ エージェント プラットフォームは機能だけでなく、管理されたプロビジョニング、分離動作、範囲指定された実行品質、アーティファクトを意識したワークフロー調整によっても評価されるべきであることを示唆しています。

原文 (English)

Queen-Bee Agents: A BeeSpec-Centered Architecture for Governed Enterprise MCP Orchestration

Enterprise agent systems increasingly need to connect large language models to private tools, internal knowledge, and Model Context Protocol (MCP) interfaces. In this setting, raw task capability is insufficient: organizations also require policy enforcement, tenant-scoped isolation, and execution that remains within explicit operational boundaries. We present Queen-Bee, a governed multi-agent architecture in which a Queen control plane retrieves capabilities, plans task-scoped execution, and compiles a structured BeeSpec that is executed by specialized Bee agents under constrained tool access. We implement a working prototype with tenant-scoped MCP connectors, audit-backed execution-time governance, retrieval-driven weak incubation, and multiple provisioning backends. We evaluate the system on 59 enterprise-style tasks spanning governance-sensitive requests, retrieval-driven provisioning, scoped local execution, and chemistry workflow integration. The retrieval-driven Queen-Bee variant achieves a task success rate of 0.964, zero governance failures, and substantially better scoped execution quality than both a static Queen-Bee baseline and a permissive single-agent baseline. We further show a multi-Bee chemistry workflow with explicit approval gating and a concrete top-3 shortlist grounded in real upstream evidence and screening artifacts. Additional comparisons with hybrid retrieval and LLM-guided provisioning show that richer provisioning backends are viable but do not outperform the lightweight structured retriever on the current small, highly structured capability registry. The results provide prototype-level systems evidence rather than a production deployment study, and suggest that enterprise agent platforms should be evaluated not only by capability, but also by governed provisioning, isolation behavior, scoped execution quality, and artifact-aware workflow coordination.

13:00 JSTLLM/生成AI

FAIR-Calib: 拡散大規模言語モデルのトレーニング後の量子化のためのフロンティアを意識した不安定性再重み付けキャリブレーション

拡散大規模言語モデル (dLLM) は、トークンを反復的に改良しますが、それらを不可逆的にコミットするため、初期の決定が作成された後でも脆弱なままである「安定性ラグ」が生じます。トレーニング後量子化 (PTQ) エラーにより、書き込みフロンティアでのこれらの境界線の決定が簡単に反転され、その後永続的にロックインされて増幅されることが明らかになりました。これに対処するために、私たちは dLLM 用の 2 段階 PTQ フレームワークである Frontier-Aware Instability-Reweighted Calibration (FAIR-Calib) を提案します。ステージ I では、完全精度の教師を調べて、フロンティア ヒットとマスクされたステージの信頼性を組み合わせた位置を事前に推定します。ステージ II では、再重み付けされた隠れ状態 MSE を最小限に抑えることでオフポリシーのレイヤーごとのキャリブレーションを実行し、高価なエンドツーエンドの拡散ロールアウトを必要とせずに脆弱なフロンティア状態の保護を効果的に優先します。さらに理論的には、重み付けされた目標が出力 KL 発散の代用として正当化されます。経験的に、FAIR-Calib は常に LLaDA および Dream (W4A4) の最先端のベースラインを上回り、フロンティアの意思決定の反転を大幅に削減し、さまざまなベンチマークにわたるコミット後の不一致を抑制します。

原文 (English)

FAIR-Calib: Frontier-Aware Instability-Reweighted Calibration for Post-Training Quantization of Diffusion Large Language Models

Diffusion Large Language Models (dLLMs) refine tokens iteratively but commit them irreversibly, leading to a "stability lag" where early decisions remain fragile even after being written. We reveal that Post-Training Quantization (PTQ) error easily flips these borderline decisions at the write frontier, which are then permanently locked in and amplified. To address this, we propose Frontier-Aware Instability-Reweighted Calibration (FAIR-Calib), a two-stage PTQ framework for dLLMs. Stage I probes a full-precision teacher to estimate a position prior that combines frontier hits and masked-stage reliability. Stage II performs off-policy, layer-wise calibration by minimizing a reweighted hidden-state MSE, effectively prioritizing the protection of fragile frontier states without requiring expensive end-to-end diffusion rollouts. We further theoretically justify our weighted objective as a surrogate for output KL divergence. Empirically, FAIR-Calib consistently outperforms state-of-the-art baselines on LLaDA and Dream (W4A4), significantly reducing frontier decision flips and suppressing post-commit mismatches across diverse benchmarks.

13:00 JST研究/論文

自己教師あり音声感情認識のための幾何学的な二次特徴相関学習

自己教師あり学習 (SSL) は、音声感情認識 (SER) の強力でコンテキストに富んだ表現を生成しますが、これらの表現を全体的な記述子に集約することが依然としてボトルネックとなっています。従来の一次集約は、特徴の独立性を暗黙的に想定しており、潜在的なリーマン幾何学を見落とし、バックボーンの表現力に不可欠な高次の関係を無視しています。この問題に対処するために、この論文では新しい二次相関 (SOC) 層を提案します。 SOC モデルは、特徴を単独で扱うのではなく、相関関係を共分散記述子として特徴付け、相乗的な共起パターンを捕捉します。これは、堅牢な感情認識のための識別シグネチャとして機能します。提案された方法は、対数ユークリッド写像 (LEM) を通じてリーマン多様体からユークリッド接線空間にこれらの記述子をマッピングすることにより、幾何学的完全性を維持しながら直接線形判別学習を可能にします。 ESD および RAVDESS データセットに関する広範な実験により、SOC が一次プーリングで失われた識別情報を回復し、高次元の SSL 機能を効果的に集約することが実証されました。

原文 (English)

Geometric Second-Order Feature Correlation Learning for Self-Supervised Speech Emotion Recognition

Self-supervised learning (SSL) yields powerful, context-rich representations for speech emotion recognition (SER), yet aggregating these representations into holistic descriptors remains a bottleneck. Conventional first-order aggregation implicitly assumes feature independence, which overlooks the latent Riemannian geometry and discards higher-order relationships essential to the representational power of the backbone. To address this problem, this paper proposes a novel Second-Order Correlation (SOC) layer. Instead of treating features in isolation, SOC models feature correlations as covariance descriptors to capture synergistic co-occurrence patterns, which serve as discriminative signatures for robust emotion recognition. By mapping these descriptors from the Riemannian manifold to a Euclidean tangent space through Log-Euclidean mapping (LEM), the proposed method preserves geometric integrity while enabling direct linear discriminative learning. Extensive experiments on the ESD and RAVDESS datasets demonstrate that SOC recovers discriminative information lost in first-order pooling and effectively aggregates high-dimensional SSL features.

13:00 JST研究/論文

THzデュアルコム分光法を使用したポリマー分類のためのマルチスケール機能アテンションネットワーク

信頼性の高いポリマーの識別は、リサイクルプラスチックの品質と安全性を確保するために不可欠ですが、従来の分別技術や分光技術では、確実な識別を実現するのが困難なことがよくあります。テラヘルツ デュアルコム分光法 (THz-DCS) は、迅速、高分解能、非破壊測定を提供する有望な代替手段を提供します。この研究では、THz-DCS を利用して、純粋なポリマー、多層フィルム、市販のブレンド、バイオポリマーを含む 12 種類のポリマーを分類します。これらのスペクトル信号の複雑さを処理するために、THz-DCS データに合わせた新しい深層学習アーキテクチャであるマルチスケール フィーチャー アテンション ネットワーク (MSFAN) を提案します。このフレームワークには、信号の再キャリブレーションとマルチスケールの並列畳み込みのための機能ゲートが統合されており、多様な周波数パターンをキャプチャします。これらの特徴は、特徴間アテンションとアテンション プーリングを通じてさらに洗練され、モデルが本質的に最も有益な THz 領域を強調表示できるようになります。 MSFAN は常に最先端のモデルを上回っており、分類精度は 85.2% に達しています。この研究は、THz-DCS と深層学習技術を組み合わせて、効果的でスケーラブルで解釈可能なポリマー分類を実現できる可能性を示しています。

原文 (English)

Multi-Scale Feature Attention Network for Polymer Classification using THz Dual-Comb Spectroscopy

Reliable polymer identification is essential for ensuring the quality and safety of recycled plastics, yet conventional sorting and spectroscopic techniques often struggle to deliver robust discrimination. Terahertz Dual-Comb Spectroscopy (THz-DCS) offers a promising alternative, providing rapid, high-resolution, and non-destructive measurements. In this work, we leverage THz-DCS to classify 12 types of polymers, including pure polymers, multilayer films, commercial blends, and biopolymers. To handle the complexity of these spectral signals, we propose the Multi-Scale Feature Attention Network (MSFAN), a novel deep learning architecture tailored for THz-DCS data. The framework integrates feature gating for signal recalibration and multi-scale parallel convolutions to capture diverse frequency patterns. These features are further refined through cross-feature attention and attention pooling, enabling the model to intrinsically highlight the most informative THz regions. MSFAN consistently outperforms state-of-the-art models, reaching a classification accuracy of 85.2%. This study demonstrates the potential of combining THz-DCS with deep learning techniques for effective, scalable, and interpretable polymer classification.

13:00 JSTエージェント

IRAF: ノイズに強いエンドツーエンド全二重音声対話システムのための耐干渉性適応融合

全二重音声対話モデルにより、音声エージェントは同時に聞きながら話すことができるため、リアルタイムのオーバーラップによる自然な対話が可能になります。ただし、ユーザーとエージェントのストリームを共同でエンコードするエンドツーエンドのデュアルチャネル モデルは、現実的な音響環境では性能が低下する可能性があります。ユーザーのマイクに漏れる干渉スピーカーがユーザー クエリの一部としてエンコードされる可能性があり、LLM のコンディショニングが破損し、ターンテイキングが不安定になり、応答品質が低下します。私たちは、LLM へのユーザー オーディオの寄与をフレームごとに変調する軽量のストリーミング互換モジュールである Interference-Resilient Adaptive Fusion (IRAF) を提案します。 IRAF は、ターゲット話者とユーザーの音声埋め込みからスカラー信頼性ゲートを予測し、エージェントの埋め込みと融合する前にユーザー表現を再スケーリングします。 MS-MARCO と InstructS2S-200K での実験では、干渉スピーカー条件下での応答品質と全二重インタラクションが一貫して向上していることが示されています。

原文 (English)

IRAF: Interference-Resilient Adaptive Fusion for Noise-Robust End-to-End Full-Duplex Spoken Dialogue Systems

Full-duplex spoken dialogue models allow voice agents to listen and speak concurrently, enabling natural interaction with real-time overlap. However, end-to-end dual-channel models that jointly encode user and agent streams may degrade in realistic acoustic environments: interfering speakers leaking into the user microphone can be encoded as part of the user query, corrupting the LLM's conditioning and causing unstable turn-taking and reduced response quality. We propose Interference-Resilient Adaptive Fusion (IRAF), a lightweight, streaming-compatible module that modulates the contribution of user audio to the LLM frame by frame. IRAF predicts a scalar reliability gate from target-speaker and user audio embeddings and rescales user representations before fusion with agent embeddings. Experiments on MS-MARCO and InstructS2S-200K show consistent gains in response quality and full-duplex interaction under interfering-speaker conditions.

13:00 JSTエージェント研究/論文

MacArena: オンライン macOS 環境でのコンピューター使用エージェントのベンチマーク

コンピュータ使用エージェント (CUA) は、ビジョンおよび制御プリミティブを通じてグラフィカル ユーザー インターフェイス (GUI) を操作します。その機能は、評価ツールと強化学習のトレーニング環境の両方として機能する OSWorld などの標準化されたオンライン評価ベンチマークによって部分的に推進され、急速に進歩しました。しかし、この状況では macOS は依然として十分なサービスが提供されていません。唯一の既存ベンチマークである macOSWorld は、より単純なタスクを含む狭い範囲のファーストパーティ アプリケーションをカバーしており、Apple Silicon と互換性のない x86 仮想マシン上で実行されます。 MacArena は、50 のアプリケーションにわたる 421 の手動で検証されたタスクのベンチマークです。これは、OSWorld タスクの厳選されたポート、macOSWorld からソースされたコンテンツ、および 49 の新しい macOS ネイティブ タスクを組み合わせたもので、すべて Apple Silicon 上の Apple のネイティブ仮想化フレームワークで実行されます。私たちは、macOS には Linux ベースのベンチマークが捉えるものを超える明確な GUI の課題があると主張し、私たちの評価はこの主張を裏付けています。つまり、既存のベンチマークでの強力なモデルのパフォーマンスは、真のクロスプラットフォーム GUI 能力ではなく、タスク分散への慣れを反映している可能性があります。特に、移植されたタスクと macOS ネイティブのタスクの間でモデルのランキングが逆転し、主要なモデルが MacArena サブセットで 26% 以上の差をつけられており、macOS が現在の GUI エージェントにとって真に困難な環境をもたらしていることを示唆しています。

原文 (English)

MacArena: Benchmarking Computer Use Agents on an Online macOS Environment

Computer-use agents (CUAs) operate graphical user interfaces (GUIs) through vision and control primitives, and their capabilities have advanced rapidly, driven in part by standardized online evaluation benchmarks such as OSWorld, which serve both as evaluation tools and as training environments for reinforcement learning. However, macOS remains underserved in this landscape: the only existing benchmark, macOSWorld, covers a narrow slice of first-party applications with simpler tasks, and runs on x86 virtual machines incompatible with Apple Silicon. We introduce MacArena, a benchmark of 421 manually verified tasks spanning 50 applications that combines a curated port of OSWorld tasks, content sourced from macOSWorld, and 49 new macOS-native tasks, all running on Apple's native Virtualization framework on Apple Silicon. We argue that macOS presents distinct GUI challenges beyond what Linux-based benchmarks capture, and our evaluation supports this claim: strong model performance on existing benchmarks can reflect familiarity with task distributions rather than genuine cross-platform GUI competence. Notably, model rankings invert between ported and macOS-native tasks, with a leading model trailing by over 26% on the MacArena subset, suggesting that macOS poses a genuinely harder environment for current GUI agents.

13:00 JST研究/論文

自然言語要件からの AI 主導のテスト ケース生成: 技術と研究のギャップに関する調査

ソフトウェア テストは、システムが指定された要件を満たしていることを検証するために重要ですが、依然として開発において最も時間と費用がかかる作業の 1 つです。要件ベースのテスト生成では、要件アーティファクトからテスト ケースを早期に派生できますが、自然言語からテスト ケースを直接生成することは、固有のあいまいさと不正確さのため困難です。 AI、自然言語処理 (NLP)、および大規模言語モデル (LLM) の最近の進歩により、このパイプラインの自動化はますます実現可能になっていますが、その一方で、幻覚、トレーサビリティの低下、一貫性のない評価などの新たなリスクが生じています。この調査では、次の 4 つの研究課題に取り組みます。自然言語要件からテスト ケースを生成するためにどのような AI および NLP 技術が提案されているか。これらのアプローチをサポートするツールやフレームワークは何か。生成されたテスト ケースがどのように評価されるか。そしてどのような研究ギャップが残っているのか。キッチハムとチャーターズの体系的レビューガイドラインに従って、2000年から2025年にわたる主要な学術データベースを検索し、厳格な包含基準を適用した後、21の主要な研究を特定しました。文献は 3 つの進化の時代に整理されており、自動化、曖昧さの処理、ドメインの適用性、トレーサビリティ、評価の徹底性、幻覚制御という 6 つの重要な品質側面を同時に満たす既存のアプローチは存在しないことが明らかになりました。この調査は主に 3 つの貢献をします。AI ベースのテスト生成の 3 時代の進化的統合。 6 つの基準によるギャップ分析は、現在のアプローチがすべての品質側面に完全に対応していないことを示しています。幻覚、追跡可能性、複雑さへの敏感性、コンプライアンスを対象とした 4 つの実用的な研究ガイドライン。

原文 (English)

AI-Driven Test Case Generation from Natural Language Requirements: A Survey of Techniques and Research Gaps

Software testing is critical for verifying that systems meet specified requirements, yet remains among the most time-consuming and expensive activities in development. Requirements-based test generation allows test cases to be derived early from requirements artifacts, but generating them directly from natural language is challenging due to inherent ambiguity and imprecision. Recent advances in AI, natural language processing (NLP), and large language models (LLMs) have made automating this pipeline increasingly feasible, while introducing new risks including hallucination, reduced traceability, and inconsistent evaluation. This survey addresses four research questions: what AI and NLP techniques have been proposed for generating test cases from natural language requirements; what tools and frameworks support these approaches; how generated test cases are evaluated; and what research gaps remain. Following Kitchenham and Charters' systematic review guidelines, we searched major scholarly databases spanning 2000-2025 and, after applying strict inclusion criteria, identified 21 primary studies. The literature is organized into three evolutionary eras, revealing that no existing approach simultaneously satisfies six key quality dimensions: automation, ambiguity handling, domain applicability, traceability, evaluation thoroughness, and hallucination control. The survey makes three main contributions: a three-era evolutionary synthesis of AI-based test generation; a six-criteria gap analysis showing no current approach fully addresses all quality dimensions; and four actionable research guidelines targeting hallucination, traceability, complexity sensitivity, and compliance.

13:00 JST研究/論文

WAV: ディープ デコーダー専用トランスフォーマーのマルチ解像度ブロック残留配線

残差接続はディープ Transformer のトレーニングの中心となりますが、標準の PreNorm 残差ストリームは固定ユニット重みを使用してサブレイヤーの更新を集約します。最近のアテンション残差は、この固定累積をコンテンツ依存の深さ方向のルーティングに置き換えます。また、ブロック アテンション残差は、ブロック レベルの残差サマリーをルーティングすることでメカニズムを効率化します。ただし、単一のブロック サマリーには、ブロック内の低周波合計残留変位のみが保存され、注意対 MLP の不均衡や初期ブロック 対後期ブロック ダイナミクスなどの方向性構造は破棄されます。我々は、デコーダ専用のトランスフォーマー向けの軽量の多重解像度残差ルーティング方法である WAV v1 を提案します。 WAV v1 は、各ブロックを累積残差和のみで表すのではなく、2 つの方向性詳細ベースですべてのブロックを拡張します。1 つはアテンションと MLP 更新を対比するフェーズ ベース、もう 1 つは初期および後期のサブレイヤー更新を対比するスプリット ベースです。これらのベースは、同じ深さ方向のソフトマックス ミキサーを介して標準ブロック サマリーとともにルーティングされ、一方、負の詳細ソースの初期化と独立した RMS マッチングによりトレーニングが安定します。キャラクターレベルの TinyStories と Text8 言語モデリングでは、WAV v1 は深さに依存する明らかな利点を示しています。 12 レイヤーでは一貫した利点はありませんが、24 レイヤーでは競争力があり、48 レイヤーではすべてのベースラインを上回ります。 48 レイヤーでは、WAV v1 はブロック AttnRes に対する検証損失を TinyStories で 0.4960 から 0.4738 に、Text8 で 0.9363 から 0.9305 に削減しますが、追加パラメーターは無視できます。これらの結果は、ブロックレベルの合計だけでなく、方向性残差の詳細が、より深いトランスフォーマーで残差ルーティングをスケーリングするために重要であることを示唆しています。

原文 (English)

WAV: Multi-Resolution Block Residual Routing for Deep Decoder-Only Transformers

Residual connections are central to training deep Transformers, but standard PreNorm residual streams aggregate sublayer updates with fixed unit weights. Recent Attention Residuals replace this fixed accumulation with content-dependent depth-wise routing, and Block Attention Residuals make the mechanism efficient by routing over block-level residual summaries. However, a single block summary stores only the low-frequency total residual displacement inside a block, discarding directional structure such as attention-vs-MLP imbalance and early-vs-late block dynamics. We propose WAV v1, a lightweight multi-resolution residual routing method for decoder-only Transformers. Instead of representing each block only by its accumulated residual sum, WAV v1 augments every block with two directional detail bases: a phase basis that contrasts attention and MLP updates, and a split basis that contrasts early and late sublayer updates. These bases are routed together with standard block summaries through the same depth-wise softmax mixer, while negative detail-source initialization and detached RMS matching stabilize training. On character-level TinyStories and Text8 language modeling, WAV v1 shows a clear depth-dependent benefit. Although it is not consistently beneficial at 12 layers, it becomes competitive at 24 layers and outperforms all baselines at 48 layers. At 48 layers, WAV v1 reduces validation loss relative to Block AttnRes from 0.4960 to 0.4738 on TinyStories and from 0.9363 to 0.9305 on Text8, with negligible additional parameters. These results suggest that directional residual details, not only block-level sums, are important for scaling residual routing in deeper Transformers.

13:00 JSTエージェント

NTILC: 学習された圧縮によるニューラル ツールの呼び出し

エージェント呼び出し言語モデルは、呼び出し可能な API、関数、およびローカル アクションの大規模なレジストリに依存します。完全なツール仕様をプロンプトに直接配置すると、ツール レジストリのサイズに比例して増加するコストが発生し、コンテキスト バジェットが急速に消費されます。レジストリが大きくなるにつれて、特に無関係なツールからの干渉により、待ち時間が長くなり、選択精度が低下します。私たちは、コンテキスト内のレジストリ検索を学習された潜在的な検索に置き換えるニューラル ツール選択および呼び出しフレームワークである NTILC を導入することで、これらの制限を克服します。 NTILC は、ユーザーの意図とツール仕様の両方を共有埋め込み空間にマッピングし、コンテキスト内検索ではなく外部検索によるツール選択を可能にします。言語モデルは、選択したツール スキーマのみに基づいて条件付けされるため、正確で制約された引数の生成が可能になります。私たちのアプローチの中心となるのは、ツールのシグネチャから派生した制約 (引数のスキーマ、型の互換性、戻り値の型など) を使用して意味上の類似性を強化する、シグネチャを意識した複合目標です。このモデルは、サークル損失と機能マージン損失を組み合わせることで、意味的には似ているが実行シグネチャの下で互換性のないツール間の分離を強制します。公開ツール選択および関数呼び出しデータセットで NTILC を評価し、コンテキスト トークンの使用量、取得精度、選択レイテンシのメトリクスをレポートします。これらの設定全体で、NTILC は、ロングコンテキスト ICT ベースラインと比較して、コンテキスト ウィンドウの消費を 95% 以上削減し、推論遅延を最大 74% 削減します。

原文 (English)

NTILC: Neural Tool Invocation via Learned Compression

Agentic tool-calling language models depend on large registries of callable APIs, functions, and local actions. Placing full tool specifications directly in the prompt incurs a cost that scales linearly with the size of the tool registry, rapidly consuming the context budget. As the registry grows, this leads to higher latency and degrades selection accuracy, particularly due to interference from irrelevant tools. We overcome these limitations by introducing NTILC, a neural tool selection and invocation framework that replaces in-context registry look-up with learned latent retrieval. NTILC maps both user intent and tool specifications into a shared embedding space, enabling tool selection via external retrieval rather than in-context lookup. The language model is conditioned only on the selected tool schema, allowing for precise, constrained argument generation. Central to our approach is a signature-aware composite objective, which augments semantic similarity with constraints derived from tool signatures (e.g., argument schema, type compatibility, and return types). By combining Circle Loss with a Functional Margin Loss, the model enforces separation between tools that are semantically similar but incompatible under their execution signatures. We evaluate NTILC on public tool-selection and function-calling datasets and report context token usage, retrieval accuracy, and selection latency metrics. Across these settings, NTILC reduces context window consumption by over 95% and inference latency by up to 74% compared to long-context ICT baselines.

13:00 JST研究/論文

MalTree: 埋め込みから大規模にマルウェアの進化を追跡

マルウェア検出は依然として大部分が事後対応型であり、既知のサンプルに基づいてトレーニングされた機械学習モデルは、脅威が進化するにつれて低下します。マルウェア ファミリ間の進化的関係を理解すると、事前の防御に情報を提供できますが、従来のリバース エンジニアリングでは、そのような系統関係を明らかにするには数か月から数年かかる場合があります。私たちは、バイオインフォマティクスにヒントを得た系統発生技術 (UPGMA および近隣結合) を大規模に適用し、構造、動作、および画像ベースの特徴を使用してマルウェアの進化を自動的にモデル化するフレームワークである MalTree を提案します。 VirusTotal タイムスタンプを使用した時間的検証を導入して、推論されたツリーが実際の進化の順序を反映しているかどうかを評価します。 MalTree は 87% の時間的一貫性を達成しており、推定された進化関係が現実世界の出現タイムラインと密接に一致していることを示しています。私たちの分析では、一部の家族が他の家族よりも 10 倍以上早く突然変異することが示されており、検出戦略は家族固有の進化のテンポに合わせて調整する必要があることが示唆されています。 Mirai ボットネットを含むケーススタディでは、系統樹から推定された関係が文書化された脅威インテリジェンスと一致していることが確認されています。私たちのフレームワークは、マルウェア分析をサンプルごとの分類から系統を意識した進化モデリングに移行するための基盤を提供します。

原文 (English)

MalTree: Tracing Malware Evolution from Embeddings at Scale

Malware detection remains largely reactive: machine learning models trained on known samples degrade as threats evolve. Understanding evolutionary relationships among malware families can inform proactive defense, but traditional reverse engineering can take months to years to uncover such lineage relationships. We propose MalTree, a framework that applies bioinformatics inspired phylogenetic techniques (UPGMA and Neighbor-Joining) at scale to model malware evolution automatically using structural, behavioral, and image-based features. We introduce temporal validation using VirusTotal timestamps to assess whether inferred trees reflect actual evolutionary order. MalTree achieves 87% temporal consistency, indicating that inferred evolutionary relationships closely align with real-world emergence timelines. Our analysis shows that some families mutate over 10 times faster than others, suggesting that detection strategies should be tailored to family-specific evolutionary tempos. Case studies, including the Mirai botnet, confirm that inferred relationships from our phylogenetic tree align with documented threat intelligence. Our framework provides a foundation for shifting malware analysis from sample-by-sample classification toward lineage-aware evolutionary modeling.

13:00 JST研究/論文

生成モデルは市場選択を通じて人間の時間学習を侵食する

私たちは、現代の生成モデルは、現在のAGI以下の能力レベルでの知識と文化生産に構造的リスクを生み出していると主張します。私たちは、人間の時間的学習 (HTL) を、時間をかけて問題に継続的に取り組むことによる経路依存の知識の蓄積として定義します。生成出力は、サーフェス フィーチャにおける HTL 集約的な作業にますます似てきているため、特定の出力が人間の真の学習を反映しているかどうかを検証することは、期待される利点に比べてコストが高くなります。検証が経済的正当性を失うと、評価者は生産モードに関係なく生産物に報酬を与え、何年もの学習を投資した生産者は、生成にほとんどコストがかからない生産物と価格で競争することになります。私たちはこの経路を価値崩壊と呼び、コストのかかる検査フレームワークを通じて形式化します。学術出版、法律実務、コンテンツ プラットフォーム、ソフトウェア セキュリティから得られるクロスドメインの証拠は、検証侵食の 4 つの段階にマッピングされます。アライメントの成功は直交です。モデルの調整が改善されると、人間の出力と AI の出力の間に観察可能なギャップが狭まり、個々の AI の出力が向上した場合でも、ソースの検証が困難になり、HTL 集約型の作業に対する競争圧力が強化されます。

原文 (English)

Generative Models Erode Human Temporal Learning Through Market Selection

We argue that modern generative models create structural risks for knowledge and cultural production at current, sub-AGI capability levels. We define Human Temporal Learning (HTL) as path-dependent knowledge accumulation through sustained engagement with problems over time. Generative outputs increasingly resemble HTL-intensive work in surface features, so verifying whether a given output reflects genuine human learning grows costly relative to its expected benefit. Once verification loses economic justification, evaluators reward outputs regardless of production mode, and producers who invested years of learning compete on price against outputs that cost almost nothing to generate. We call this pathway value collapse and formalize it through a costly-inspection framework. Cross-domain evidence from academic publishing, legal practice, content platforms, and software security maps onto four stages of verification erosion. Alignment success is orthogonal. Better-aligned models narrow observable gaps between human and AI outputs, making source verification harder and intensifying competitive pressure against HTL-intensive work even when individual AI outputs improve.

13:00 JST画像/動画生成

分解されたビジュアル プロキシを介した 3D 対応オブジェクトの直接挿入

オブジェクトの挿入は、背景画像の指定された領域に参照オブジェクトをシームレスに合成することを目的としています。最近の拡散ベースの手法は高い視覚品質を実現しますが、挿入を単純な 2D 修復タスクとして定式化するため、オブジェクトの 3D ポーズを明示的に制御できず、実際の適用性が制限されます。我々は、インタラクティブなポーズ操作と高忠実度の 2D 画像合成を統合して、ポーズ制御可能なオブジェクトの挿入を可能にする新しいフレームワークである DIRECT (参照構成およびターゲット統合のための分解注入) を提案します。私たちの方法では、挿入条件を 3 つの相補的なコンポーネントに分解します。参照オブジェクトから視覚的な詳細をキャプチャする外観ガイダンス、ユーザーが調整した 3D プロキシから導出されるジオメトリ ガイダンス、およびターゲットの背景からのコンテキスト ガイダンスです。 DIRECT は、個別の経路を通じてそれらを注入することにより、フィーチャのもつれを回避し、同時に参照の外観を保持し、ユーザー指定のポーズに従い、オブジェクトをターゲット シーンに適応させます。また、トレーニング データの多様性と品質を向上させるために、自動化されたデータ構築パイプラインも導入します。実験の結果、DIRECT は幾何学的制御性と視覚的品質の両方で以前の方法よりも優れていることがわかりました。

原文 (English)

Direct 3D-Aware Object Insertion via Decomposed Visual Proxies

Object insertion aims to seamlessly composite a reference object into a specified region of a background image. Recent diffusion-based methods achieve high visual quality but formulate insertion as a simple 2D inpainting task, providing no explicit control over the object's 3D pose and limiting their practical applicability. We propose DIRECT (Decomposed Injection for Reference Composition and Target-integration), a novel framework that integrates interactive pose manipulation with high-fidelity 2D image synthesis to enable pose-controllable object insertion. Our method decomposes the insertion conditions into three complementary components: appearance guidance capturing visual details from the reference object, geometry guidance derived from the user-adjusted 3D proxy, and context guidance from the target background. By injecting them through separate pathways, DIRECT avoids feature entanglement and simultaneously preserves reference appearance, follows the user-specified pose, and adapts the object to the target scene. We also introduce an automated data construction pipeline to improve the diversity and quality of training data. Experiments show that DIRECT outperforms previous methods in both geometric controllability and visual quality.

13:00 JSTLLM/生成AIビジネス/資金調達

LLM パーソナライゼーションにおける人間の再中心化

関心の高まりにもかかわらず、大規模言語モデル (LLM) のパーソナライゼーション能力の評価のほとんどは合成データに依存していました。現在のパーソナライゼーション システムが実際のユーザーに対してどの程度うまく機能するかは依然として不明です。このペーパーでは、合成データと人間のデータを使用した場合の LLM パーソナライゼーションのパフォーマンスの差を研究します。当社はパーソナライゼーションの 3 つの段階にわたって人間の会話 (550 件の会話) と判断を収集します。つまり、会話からのユーザー属性の抽出 (5,949 件の判断)、関連する属性と新しいプロンプトの組み合わせ (11,919 件)、およびパーソナライズされた応答への関連属性の組み込み (1,101 件) です。人間のデータを組み込むと、各段階でシステムの限界が明らかになります。モデルは、人間の会話から属性を抽出し、関連する属性について人間の判断に同意せず、人間が一般的な応答と同等と判断するパーソナライズされた応答を生成するのに苦労しています(ただし、LLM の判断では一般的な応答の方が優れていると広く評価されています)。最初の 2 つの段階で、自動化されたパーソナライゼーション評価を人間のデータに近づける 2 つの軽量のトレーニングベースの介入を導入します。しかし、第 3 段階では、学習された報酬モデルが人間の評価とわずかな相関関係しか達成していないことがわかり、人間に合わせたパーソナライゼーションの品質判断を直接モデル化するのは難しいことが示唆されています。私たちが収集したデータは、人間が役立つと思われる方法でモデルがユーザー情報をどのように抽出、選択、組み込むかを研究するための基盤を提供します。

原文 (English)

Re-Centering Humans in LLM Personalization

Despite growing interest, most evaluations of large language models' (LLMs') personalization abilities have relied on synthetic data. It remains unclear how well current personalization systems work for real users. In this paper, we study the gap in LLM personalization performance when using synthetic versus human data. We collect human conversations (550 conversations) and judgments across three stages of personalization: extracting user attributes from conversations (5,949 judgments), pairing relevant attributes with new prompts (11,919), and incorporating relevant attributes into a personalized response (1,101). Incorporating human data reveals system limitations at each stage. Models struggle to extract attributes from human conversations, disagree with human judgments on relevant attributes, and generate personalized responses that humans judge no better than generic responses (though that LLM judges widely rate as better). We introduce two lightweight training-based interventions that shift automated personalization evaluation closer to human data in our first two stages. However, in our third stage we find that learned reward models achieve only modest correlation with human ratings, suggesting that human-aligned personalization quality judgments are difficult to model directly. Our collected data provides a foundation for studying how models should extract, select, and incorporate user information in ways that humans find useful.

13:00 JST研究/論文

FigMA: きめ細かい音楽検索に向けて

自然言語記述を使用した音楽の検索は、CLAP などの対照的なオーディオテキスト モデルによって改善されましたが、現在のシステムは依然として粗い意味論的なクエリに制限されています。説明でテンポ、キー、コード進行、リズミック構造などのきめ細かい音楽属性が指定されている場合、既存のモデルでは正しいオーディオを取得できないことがよくあります。この制限は対照的な学習目標自体に由来することを示します。長いキャプションでトレーニングされているにもかかわらず、CLAP ベースのモデルは最初のいくつかのトークンのみを効果的に利用し、詳細なプロンプトにエンコードされた情報の多くを破棄します。次に、グローバルなオーディオテキストの配置とフレームレベルのトークンごとの配置を共同で最適化することで、この制限に対処するマルチビューの対照的なアーキテクチャであるFIGMA (FIne-Grained Music RetrievAl)を提案します。この設計により、FIGMA は、統一された表現空間内で高レベルの意味論的コンテキストと詳細な音楽属性の両方をキャプチャできるようになります。さらに、私たちはファイングレイン音楽検索のタスクを形式化し、ファイングレイン音楽キャプション データセット (FGMCaps) を構築します。これは、トレーニング用の 380,000 の音楽とキャプションのペアの大規模なデータセットと 10,000 のテスト セットであり、どちらもテンポ、キー、コード進行、ビート数、ジャンルやムードの注釈が付けられています。広範な実験により、FIGMA は、ドメイン外評価を含む複数の音楽検索ベンチマークにわたって既存の CLAP ベースの音楽検索モデルを常に上回り、相対的に最大 73.3% 向上することが実証されました。

原文 (English)

FIGMA: Towards FIne-Grained Music retrievAl

Retrieving music using natural language descriptions has improved with contrastive audio-text models such as CLAP, but current systems remain limited to coarse semantic queries. When descriptions specify fine-grained musical attributes such as tempo, key, chord progression, or rhythmic structure, existing models often fail to retrieve the correct audio. We show that this limitation stems from the contrastive learning objective itself: despite being trained on long captions, CLAP-based models effectively utilize only the first few tokens, discarding much of the information encoded in detailed prompts. Then, we propose FIGMA (FIne-Grained Music RetrievAl), a multi-view contrastive architecture that addresses this limitation by jointly optimizing global audio-text alignment and frame-level, token-wise alignment. This design enables FIGMA to capture both high-level semantic context and fine-grained musical attributes within a unified representation space. Moreover, we formalize the task of Fine-Grained Music Retrieval and construct Fine-Grained Music Caption dataset (FGMCaps), a large-scale dataset of 380K music-caption pairs for training along with a 10K test set, both annotated with tempo, key, chord progression, beat count, as well as genre and mood. Extensive experiments demonstrate that FIGMA consistently outperforms existing CLAP-based music retrieval models across multiple music retrieval benchmarks, including out-of-domain evaluations, with relative improvements of up to 73.3%.

13:00 JSTロボティクス

ChronoForest: 効率的な橋梁探索とルート構成のためのクローズドループマルチツリー拡散計画

短地平線のオフライン軌道しか利用できない場合、指定された目標に到達し、必要なウェイポイントを訪問し、短距離を維持する長地線ルートを計画するにはどうすればよいでしょうか?十分に豊富な長期データを収集するのは難しいため、この問題はオフライン ナビゲーションで重要になります。それでも実際のエージェントは、単なる実現可能性ではなく、ルート レベルの効率で長距離タスクを解決する必要があります。難しさは 2 つあります。微視的レベルでは、多くの短地平セグメントを構成することで探索コストと経路の品質との間にトレードオフが生じます。一方、巨視的レベルでは、ウェイポイントの順序付けでは、計画前に未知であり、長距離の時間的距離からのみ推定するとますます信頼性が低くなる、スタート、ゴール、ウェイポイント アンカー間のペアごとの移動コストを比較する必要があります。この論文では、アンカーチェーンツリー拡散プランナーとオンラインマルチツリーオーケストレーターを介して、ローカルな橋の検索とオンラインルート解決を結合する閉ループ計画システムである ChronoForest を提案します。 ChronoForest は、短距離の誘導とノードの評価に時間的距離を使用する一方で、検索時のブリッジ証拠を使用して長距離のアンカー接続を検証し、ルートを繰り返し再解決します。 OGBench AntMaze-Stitch では、ChronoForest は中、大、および巨大なスプリットで 99.8%、99.3%、および 99.5% の成功を達成し、以前に報告された拡散ベースの結果よりもジャイアント ステッチの成功率を最大 34.5 ポイント改善しました。ハミルトニアン ルート構成ベンチマークでは、オンライン解決により不適切な時間的順序が修正され、ルートの品質が向上すると同時に、徹底的な計画よりも大幅にコストが低くなります。

原文 (English)

ChronoForest: Closed-Loop Multi-Tree Diffusion Planning for Efficient Bridge Search and Route Composition

How can we plan long-horizon routes that reach designated goals, visit required waypoints, and remain short when only short-horizon offline trajectories are available? This problem matters in offline navigation because collecting sufficiently rich long-horizon data is difficult, yet real agents must still solve long-range tasks with route-level efficiency rather than mere feasibility. The difficulty is twofold: at the microscopic level, composing many short-horizon segments creates a trade-off between search cost and path quality, while at the macroscopic level, waypoint ordering requires comparing pairwise travel costs among start, goal, and waypoint anchors that are unknown before planning and increasingly unreliable when estimated only from long-range temporal distance. In this paper, we propose ChronoForest, a closed-loop planning system that couples local bridge search and online route re-solving through an anchor-chaining tree diffusion planner and an online multi-tree orchestrator. ChronoForest uses temporal distance for short-range guidance and node evaluation, while using search-time bridge evidence to validate long-range anchor connectivity and repeatedly re-solve the route. On OGBench AntMaze-Stitch, ChronoForest achieves 99.8%, 99.3%, and 99.5% success on the medium, large, and giant splits and improves giant-stitch success by up to 34.5 points over prior reported diffusion-based results. On Hamiltonian route-composition benchmarks, online re-solving corrects poor temporal orderings and improves route quality while remaining substantially cheaper than exhaustive planning.

13:00 JST画像/動画生成ロボティクス

日常の人間のビデオでロボット操作ポリシーを共同トレーニングする場合に何が重要ですか?

ロボット操作ポリシーの共同トレーニングに使用される人間のビデオ データセットは、主に、ロボットの動作に似せるようにモーションが調整され、特殊なハードウェアで 3D 手のポーズがキャプチャされる厳選されたデモンストレーションで構成されています。より豊富なデータソースは日常のインターネットビデオですが、どのような要因がそのようなビデオからロボットへの転送を可能にするのかは未解決の問題です。私たちは、28 時間の高品質な三角形化された手のラベルと自然な動きを含む 532 人の人間のビデオの新しいデータセットを使用してこれを調査します。我々は、手のポーズの質が伝達に影響を与えるが、正確な手を持っていても、ビジョンとポリシーのネットワークが各実施形態に特化していない限り、固有の動きのギャップが伝達を妨げることを発見した。私たちの共同トレーニング レシピは一貫した改善をもたらし、6 つの操作タスクにわたる低ロボット データ領域での絶対成功率の向上は $29.7\%$ でした。

原文 (English)

What Matters When Cotraining Robot Manipulation Policies on Everyday Human Videos?

Human video datasets used for cotraining robot manipulation policies largely consist of curated demonstrations where motions are orchestrated to resemble robot behavior and 3D hand poses are captured with specialized hardware. A more plentiful source of data is everyday Internet video, but it is an open question what factors enable transfer from such videos to robots. We investigate this using a new dataset of 532 human videos with 28 hours of high-quality triangulated hand labels and natural motions. We find that hand pose quality affects transfer, but even with accurate hands, the inherent motion gap hinders transfer unless the vision and policy networks specialize to each embodiment. Our cotraining recipe yields consistent improvements, with an absolute success rate gain of $29.7\%$ in the low-robot-data regime across six manipulation tasks.

13:00 JSTLLM/生成AI

言語モデルはどのように失敗するか: コミットされた永続的な推論の失敗のトークンレベルの署名

言語モデル推論の失敗は、推論トレースに識別可能な署名を残す個別のプロセスを通じて現れます。私たちはトークンレベルの不確実性シグナルを使用してこれらの障害を特徴づけ、それらが経験的に区別可能な 2 つのプロセスを通じて発生することを発見しました。 1 つ目はコミットされた失敗で、モデルがトレースの初期段階で誤った推論パスに固定されてしまいます。中心的な診断シグネチャはコミットメント ポイントであり、それを超えると、追加のトークンを考慮することは、障害の検出に役立つというよりも害を及ぼします。 2 番目の永続的な不確実性では、不確実性がむしろ全体的に蓄積され、失敗と成功の完了を最もよく区別するには完全なトレースが必要になります。これらのシグネチャは 23 のモデル データセット構成にわたって再現され、フレームワークの反証可能な予測は 23 ケース中 20 ケースで保持され、両方の障害モードにわたって確率を大幅に上回っています。最後に、故障モード フレームワークが自己整合性に直接的な影響を及ぼし、不確実性信号がいつ補完されるのか、いつ選択的にスキップできるのかを特定することを実証します。これらの結果は、LLM 推論の失敗がいつ検出可能になるかを理解し、それに応じて検出戦略を適応するための基盤を提供します。

原文 (English)

How Language Models Fail: Token-Level Signatures of Committed and Persistent Reasoning Failures

Failures in language model reasoning emerge through distinct processes that leave identifiable signatures in the reasoning trace. We characterize these failures using token-level uncertainty signals, finding they arise through two empirically distinguishable processes. The first is committed failure, in which a model locks onto an incorrect reasoning path early in its trace. A central diagnostic signature is the commitment point, beyond which considering additional tokens hurt rather than help failure detection. In the second, persistent uncertainty, uncertainty instead accumulates throughout, and the full trace is needed to best distinguish failing from successful completions. These signatures reproduce across 23 model-dataset configurations, with the framework's falsifiable predictions holding in 20 of 23 cases, well above chance across both failure modes. Finally, we demonstrate our failure mode framework has direct implications for self-consistency, identifying when uncertainty signals complement it and when it can be selectively skipped. These results offer a foundation for understanding when LLM reasoning failures become detectable and for adapting detection strategies accordingly.

13:00 JSTLLM/生成AIエージェント

CAF-Gen: 議論構造を強化するためのマルチエージェント システム

自然文から複雑な推論を形式化することは、計算言語学の中心的な課題の 1 つです。システムはキーワードだけでなく、テキストに埋め込まれたコンテキストや複雑な推論も理解する必要があります。現在の議論マイニング (AM) 技術は、基本的な主張と前提を特定しますが、前提タイプ、証明標準、議論スキームなどの機能を組み込んだカルネアデス議論フレームワーク (CAF) などの高度なスキーマに必要な、より豊富な構造情報を取得するのに苦労することがよくあります。私たちは、浅い引数構造を CAF 準拠の引数モデルに強化するように設計された自動マルチエージェント フレームワークである CAF-Gen を導入することで、この制限に対処します。反復的な Creator-Reviewer パイプラインを採用することで、Creator エージェントの出力が重要なエージェントによって検証され、構造的な整合性が保証されます。このマルチエージェントのコラボレーションは、シングルパス生成モデルに特有の構造の不安定性を軽減するために重要です。私たちの実験では、反復フィードバック ループにより、結果として得られるデータの品質が向上し、元の注釈との強力な整合が達成され、同時に構造的に豊かなモデルが生成されることが実証されました。私たちの調査結果は、マルチエージェント システムがシングルパス生成の制限を克服でき、形式的議論の自動モデリングに堅牢な方法論を提供できることを示しています。

原文 (English)

CAF-Gen: A Multi-Agent System for Enriching Argumentation Structures

Formalizing complex reasoning from natural text is one of the central challenges in computational linguistics. It requires systems to understand not just keywords but also the context and complex reasoning embedded in a text. Current Argument Mining (AM) techniques identify basic claims and premises, yet they often struggle to capture the richer structural information required by advanced schemas such as the Carneades Argumentation Framework (CAF), which incorporates features such as premise types, proof standards, and argument schemes. We address this limitation by introducing CAF-Gen, an automated multi-agent framework designed to enrich shallow argument structures into CAF-compliant argument models. By employing an iterative Creator-Reviewer pipeline, a creator agent's output is validated by a critical agent to ensure structural integrity. This multi-agent collaboration is crucial for mitigating the structural instability typical of single-pass generative models. Our experiments demonstrate that the iterative feedback loop improves the quality of the resulting data and achieves strong alignment with the original annotations, while producing structurally richer models. Our findings show that the multi-agent system can overcome the limitations of single-pass generation, providing a robust methodology for the automated modeling of formal argumentation.

13:00 JST画像/動画生成

ビジュアルマインドの内側: ビジョントランスフォーマーの解釈と操作のための神経科学に基づいたコンセプト回路

Vision Transformer (ViT) の予測は精度が高いにもかかわらず、偽の手がかりによって駆動される可能性があるため、安全に導入する前に内部の仕組みを理解する必要性が生じます。スパース オートエンコーダ (SAE) は、モデル表現を人間が解釈可能な概念に分解するための有望なレンズを提供しますが、SAE ベースの解釈を ViT に適応させることは、コンセプト カバレッジと主観的でスケーラブルでない特徴解釈の制御が限られているため、依然として困難です。このギャップを埋めるために、神経科学にインスピレーションを得た原理を動機として、概念回路を通じて ViT の内部動作を理解するための機構的解釈ツールボックスである ViSAE を提案します。 ViSAE は 3 つのコンポーネントで構成されます: (1) 64K の画像と 16K の視覚的に根拠のある概念ボキャブラリーを備えたプローブ スイート。これにより、概念のカバレージ効率が ImageNet の 20 倍、解釈の精度が既存の概念セットの 28.7% 向上します。 (2) トップダウンのコンセプト読み取りアルゴリズムとボトムアップの回路トレース アルゴリズムにより、コンセプト回路を介して ViT の内部動作を自動的に回復します。 (3) ViT の動作を監査および操作するためのアプリケーション。 ViSAE はコンセプト編集を通じて、WaterBirds の最悪のグループ精度を 48.2% 改善し、既存の手法を 23.8% 上回りました。データとコード: https://github.com/deep-real/ViSAE。

原文 (English)

Inside the Visual Mind: Neuroscience-Motivated Concept Circuits for Interpreting and Steering Vision Transformers

Despite high accuracy, Vision Transformer (ViT) predictions can be driven by spurious cues, raising the need to understand their inner workings before safe deployment. Sparse autoencoders (SAEs) provide a promising lens for decomposing model representations into human-interpretable concepts, yet adapting SAE-based interpretation to ViTs remains challenging due to limited control over concept coverage and subjective, non-scalable feature interpretation. To fill the gaps, motivated by neuroscience-inspired principles, we propose ViSAE, a mechanistic interpretability toolbox for understanding ViT inner workings through concept circuits. ViSAE consists of three components: (1) A probing suite with 64K images and a 16K visually grounded concept vocabulary, improving concept coverage efficiency by 20x over ImageNet and interpretation accuracy by 28.7% over existing concept sets. (2) Top-down concept reading and Bottom-up circuit tracing algorithms that automatically recover ViT inner workings via concept circuits. (3) Applications for auditing and steering ViT behavior. Through concept editing, ViSAE improves the worst-group accuracy on WaterBirds by 48.2%, outperforming existing methods by 23.8%. Our data and code: https://github.com/deep-real/ViSAE.

13:00 JSTLLM/生成AI

HKJudge: 裁判所が何を判断し、どのように推論し、何を判決するかを解釈するための法的言説の注釈付きコーパス

裁判所の判決は法律実務と法学の中心であるにもかかわらず、専門家による注釈付きのコーパスが存在しないことを主な理由として、香港判決の談話分析はあまり注目されていない。我々は、初の文レベルの専門家による注釈付き法的談話コーパスである香港判決談話データセット (HKJudge) を紹介します。 HKJudge には、香港の法廷階層の 5 つのレベルすべてにわたる刑事判決が含まれており、$\sim$290,000 の判決と $\sim$650 万のトークンで構成され、法言語学の専門家によって完全に注釈が付けられています。私たちは、法廷がどのような事実を認定し、どのように推論し、何を判決するのかを把握する 2 層の談話スキーマを設計します。文レベルでは、各文に 26 の修辞的役割の 1 つが割り当てられます。スパンレベルでは、文にはさらに 3 つの量刑要素 (罪状、懲役刑、罰金) の注釈が付けられます。 10 人の法言語学のアノテーターが、$\kappa = 0.8$ のアノテーター間合意でアノテーションを作成しました。我々は、修辞的役割分類と法的要素抽出と呼ばれる HKJudge に関する 2 つのタスクを策定し、4 つの BERT ベースのモデル、ゼロショットおよび微調整設定での 2 つのオープンソース LLM、および両方のタスクに関する 4 つの商用 LLM の最初のベンチマーク評価を提供します。私たちの研究は、香港判決の構造をモデル化するための文レベルの談話注釈の価値を実証し、法的判決の予測に関する将来の研究のための豊富なデータ基盤を提供します。 HKJudge データセットとコードは https://github.com/xuanxixi/HKJudge で入手できます。

原文 (English)

HKJudge: A Legal Discourse-Annotated Corpus for Interpreting What Courts Find, How They Reason, and What They Rule

Court judgments are central to legal practice and jurisprudence, yet discourse analysis of Hong Kong judgments has received limited attention, owing largely to the absence of expert-annotated corpora. We introduce the Hong Kong Judgment Discourse Dataset (HKJudge), the first sentence-level expert-annotated legal discourse corpus. HKJudge includes criminal judgments across all five levels of HK's court hierarchy, comprising $\sim$290k sentences and $\sim$6.5 million tokens, fully annotated by legal linguistics experts. We design a two-tier discourse schema that captures what facts a court finds, how it reasons, and what it rules. At the sentence level, each sentence is assigned one of 26 rhetorical roles. At the span level, sentences are further annotated with three sentencing elements (charge, imprisonment term, fine). Ten legal linguistics annotators produced the annotations with an inter-annotator agreement of $\kappa = 0.8$. We formulate two tasks on HKJudge, termed rhetorical role classification and legal element extraction, and provide the first benchmark evaluation of four BERT-based models, two open-source LLMs under zero-shot and fine-tuning settings, and four commercial LLMs on both tasks. Our work demonstrates the value of sentence-level discourse annotation for modeling the structure of HK judgments and provides a rich data foundation for future work on legal judgment prediction. The HKJudge dataset and code are available at https://github.com/xuanxixi/HKJudge.

13:00 JSTLLM/生成AI

アルゴリズム的判断の地理: LLM 仲介者、場所のアイデンティティ、および住宅検索における人種操作

大規模言語モデル (LLM) は、会話型インターフェイス内での物件検索プラットフォームの統合を通じて住宅検索における仲介的な役割を急速に引き受け、都市環境内での情報、検索、推奨事項へのアクセスを仲介します。私たちは、米国の 4 つの都市にわたる 7 つのオープンウェイトおよびクローズドソース LLM の行動監査を実施し、ライフスタイルの好みのコンテキストを段階的に追加し、公正な住宅ペアテスト手法を反映する 3 つの反復プロンプト条件にわたって推奨場所をテストすることで、LLM における人種ステアリングに関する以前の研究を拡張しました。ステアリングは主に静的なプロパティではなく、モデルの解釈ライセンスの創発的な動作であることがわかりました。ステアリングは、ユーザーのアイデンティティ、好みの表現、および特定の都市における場所、好み、機会の学習された表現についてモデルが内部化した空間ロジックと、さまざまなタイプのユーザーがそれにどのように関係するかという相互作用から結果として生じます。ステアリングは存在していましたが、評価された条件全体で方向や大きさが均一ではありませんでした。好み条件付きテストでは、ベースライン条件と比較してステアリング動作を示すモデルの数が増加または再構成されることが多く、LLM がユーザーの人種的アイデンティティに応じて、同じ住宅の好みが何を意味するかを異なる解釈する可能性があることを示唆しています。また、私たちの調査結果は、都市が場所ベースのセクターにおける LLM 評価の中立的なテスト単位ではなく、ある地域市場の結果が別の市場に一般化すると想定できないことも示しています。空間アクセスを仲介する AI ツールを導入しながら、公正な住宅に対する法的および制度的取り組みが損なわれないようにするために、住宅分野では地域および分野の専門知識が必要となります。

原文 (English)

The Geography of Algorithmic Judgment: LLM Intermediaries, Place Identity, and Racial Steering in Housing Search

Large language models (LLMs) are rapidly assuming an intermediary role in housing search through the integration of listing platforms within conversational interfaces, mediating access to information, search, and recommendations within urban settings. We expand on prior work on racial steering in LLMs by conducting a behavioral audit of seven open-weight and closed-source LLMs across four U.S. cities, testing location recommendations across three iterative prompting conditions that progressively add lifestyle preference context and reflect fair housing paired-testing methodologies. We find that steering is an emergent behavior of the model's interpretive license rather than primarily a static property. Steering results from the interaction of a user's identity, preference articulation, and the spatial logic that a model has internalized about learned representations of place, preference, and opportunity in a given city, and how different types of users relate to it. While steering was present, it was not uniform in direction or magnitude across evaluated conditions. Preference-conditioned testing often increased or reconfigured the number of models that exhibited steering behaviors relative to baseline conditions, suggesting that LLMs may interpret what the same housing preference means differently depending on the racial identity of the user. Our findings also demonstrate that the city is not a neutral testing unit for LLM evaluation in place-based sectors, and results from one local market cannot be assumed to generalize to another. Local and domain expertise will be required in the housing sector to ensure that legal and institutional commitments to fair housing are not undermined while adopting AI tools that mediate spatial access.

13:00 JST画像/動画生成研究/論文

MMBU: 視覚言語モデルの知覚能力を調査するための大規模なマルチモーダル生物医学理解ベンチマーク

視覚および言語モデル (VLM) は、胸部 X 線写真での病変の検出から顕微鏡での細胞特徴のプロファイリングに至るまで、生物医学画像処理のワークフローを変革する大きな可能性を秘めています。ただし、この可能性を実現するには、堅牢できめの細かい視覚認識が必要です。モデルは画像内の微妙な特徴を正しく解釈する必要があり、それをさまざまな生物医学的モダリティ、スケール、コンテキストにわたって行う必要があります。それにもかかわらず、現在のベンチマークは依然として限定的です。これらのギャップに対処するために、Massive Multimodal Biomedical Understanding (MMBU) ベンチマークを導入します。これはこれまでで最大の生物医学的ビジョンおよび言語ベンチマークであり、豊富な構造化メタデータを備えた 35 のサブモダリティをカバーしています。これには、非根拠分類、根拠のある分類、および物体検出のオープン バージョンとクローズ バージョンの両方が含まれており、生物学的スケール、臨床設定、画像モダリティにわたるモデルのパフォーマンスの系統的な評価が可能になります。 15 個のオープンウェイト VLM と 2 個のフロンティア VLM を評価したところ、医療適応によって一部のモデルに測定可能な利益がもたらされる一方で、確立されたベンチマークでよく報告される高い精度により、視覚認識と領域の一般化における欠陥が隠蔽される可能性があることがわかりました。

原文 (English)

MMBU: A Massive Multi-modal Biomedical Understanding Benchmark to Probe the Perception Capabilities of Vision-Language Models

Vision and language models (VLMs) hold immense promise to transform biomedical imaging workflows, from detecting lesions in chest X-rays to profiling cellular features in microscopy. Realizing this potential, however, requires robust and fine-grained visual perception. Models need to correctly interpret subtle features in images, and they must do so across diverse biomedical modalities, scales, and contexts. Nevertheless, current benchmarks remain limited. To address these gaps, we introduce the Massive Multimodal Biomedical Understanding (MMBU) benchmark. It is the largest biomedical vision and language benchmark to date, covering 35 submodalities with rich structured metadata. It includes both open and closed versions of ungrounded classification, grounded classification, and object detection, enabling systematic evaluation of model performance across biological scales, clinical settings, and imaging modalities. Evaluating 15 open-weight and 2 frontier VLMs, we find that while medical adaptation provides measurable gains for some models, the high accuracy often reported on established benchmarks can mask deficiencies in visual perception and domain generalization.

13:00 JSTLLM/生成AI

オンポリシー蒸留によるデータ効率の高い自己回帰から拡散への言語モデル

私たちは、自己回帰モデル (ARLM) から拡散言語モデル (DLM) への変換を研究しています。最初から事前トレーニングするのではなく、以前の研究では ARLM の因果的注意を双方向の注意に置き換え、DLM 目標を使用して結果のモデルをトレーニングしました。ただし、これらのアプローチでは 2 つの分布シフトが発生します。まず、次トークン予測目標から DLM 目標に移行すると、トレーニング中に ARLM によって取得された知識が破棄される可能性があります。第 2 に、標準 DLM はトレーニングと推論の不一致の問題に悩まされます。これは、トレーニング損失が、信頼度に基づくデコードによって生成された推論時に遭遇する軌跡ではなく、ランダムにマスクされたシーケンスに対して定義されるためです。両方の課題に対処するために、ARLM から DLM への変換に On-Policy Distillation (OPD) が採用される On-Policy Diffusion Language Model (OPDLM) を導入します。具体的には、OPDLM は自己 OPD を介してトレーニングされます。この場合、双方向の注意を持つ ARLM である生徒が独自の軌道を生成し、元の凍結 ARLM である教師がこれらの軌道に関するターゲット ロジットを提供することで知識を抽出します。ポリシーに基づいて直接トレーニングすることにより、OPDLM は DLM のトレーニングと推論の不一致を排除し、元のモデルからの蒸留により ARLM からの知識の保持を強化します。経験的な結果は、OPDLM が必要とするトレーニング トークンの量は 15 分の 1 から 7,000 分の 1 であり、さまざまなタスクにわたって優れたパフォーマンスを発揮することを示しています。 OPDLM は、DLM 事前トレーニングの法外なコストを回避し、DLM 変換を ARLM 事後トレーニングの形式として位置づけます。

原文 (English)

Data-Efficient Autoregressive-to-Diffusion Language Models via On-Policy Distillation

We study the transformation of autoregressive models (ARLMs) into diffusion language models (DLMs). Rather than pretraining from scratch, prior work replaces the causal attention in ARLMs with bidirectional attention and then trains the resulting model using a DLM objective. However, these approaches incur two distribution shifts. First, transitioning from a next-token prediction objective to a DLM objective can discard knowledge acquired by the ARLM during training. Second, standard DLMs suffer from a train-inference mismatch, as the training loss is defined on randomly masked sequences rather than the trajectories encountered at inference produced by confidence-based decoding. To address both challenges, we introduce an On-Policy Diffusion Language Model (OPDLM) in which On-Policy Distillation (OPD) is employed for ARLM-to-DLM transformation. Specifically, OPDLM is trained via self-OPD, where the student, an ARLM with bidirectional attention, generates its own trajectories, and the teacher, the original frozen ARLM, distills its knowledge by providing target logits on these trajectories. By training directly in an on-policy manner, OPDLM eliminates the train-inference mismatch in DLMs, while distillation from the original model enhances knowledge retention from the ARLM. Empirical results demonstrate that OPDLM requires 15x to 7,000x fewer training tokens with strong performance across a wide variety of tasks. OPDLM avoids the prohibitive cost of DLM pretraining and positions DLM transformation as a form of ARLM post-training.

13:00 JSTLLM/生成AIGPT / ChatGPTLlama

話題の感情がイデオロギーの認識を引き起こすのか?政治ニュース記事における人間による注釈と LLM の注釈の比較

私たちは、トピックの感情が政治的イデオロギーの認識に因果関係を持っているかどうか、そしてその答えは誰がイデオロギーのラベルを割り当てるかに依存するかどうかを尋ねます。 AllSides の記事と Llama-3.3-70b-versatile の共有センチメント アノテーションを組み合わせて、人間の専門アノテーター、GPT-4o-mini (ベースラインおよび微調整)、および Llama-3.3-70B からのイデオロギー ラベルを比較します。私たちは、Double Machine Learning (DML) とコミュニティレベルのメディエーション分析を 4 つのアノテーション パラダイムすべてに適用します。人間による注釈は、コミュニティレベルでは重大な因果関係をもたらしません。微調整された GPT-4o-mini は最高の分類精度 (F1=72.48) を達成し、コミュニティレベルでの顕著な治療効果と調停における重大な自然直接効果 (NDE) を生み出す唯一のアノテーター パラダイムです。私たちはこれを近道学習の証拠として解釈します。イデオロギーでラベル付けされたデータを微調整すると、モデルは偽の感情、つまりこのタスクでは人間の判断では機能しないイデオロギーの結合を内部に取り込んでしまいます。この結合は構造的に F1 ベースの評価には見えず、下流の因果関係分析におけるシルバー ラベルや人間の判断の代理として LLM アノテーションを使用することに影響を及ぼします。

原文 (English)

Does Topic Sentiment Cause Perceived Ideology? Comparing Human and LLM Annotations in Political News Articles

We ask whether topic sentiment has a causal effect on perceived political ideology, and whether the answer depends on who assigns the ideology label. Using articles from AllSides, paired with shared sentiment annotations from Llama-3.3-70b-versatile, we compare ideology labels from expert human annotators, GPT-4o-mini (baseline and finetuned), and Llama-3.3-70B. We apply Double Machine Learning (DML) and community-level mediation analysis across all four annotation paradigms. Human annotations yield no significant causal effects at the community level. Fine-tuned GPT-4o-mini achieves the highest classification accuracy (F1=72.48) and is the only annotator paradigm that produces significant community-level treatment effects and significant natural direct effects (NDEs) in mediation. We interpret this as evidence of shortcut learning: fine-tuning on ideology-labeled data causes the model to internalise a spurious sentiment--ideology coupling not operative in human judgment for this task. This coupling is structurally invisible to F1-based evaluation, with implications for the use of LLM annotations as silver labels and as proxies for human judgment in downstream causal analyses.

13:00 JST研究/論文

ShallowBench: 浅いポケットのターゲットでの生成医薬品設計モデルのベンチマーク

生成 AI モデルは、構造ベースの医薬品設計において目覚ましい成功を収めていますが、主に深い結合ポケットに依存しており、歴史的に「創薬不可能」な腫瘍標的である KRAS や MYC など、ポケッタビリティの低い困難な標的に対して有効なリガンドをサンプリングするのに苦労しています。このギャップに対処するために、CrossDocked2020 から抽出された 5,780 の浅いポケットのターゲットからなる厳密に厳選されたベンチマークである ShallowBench を導入します。 Alpha Shape の「蓋」ボリュームとその下にあるタンパク質原子ボクセル ボリュームの差を計算することで、結合に十分な表面積を確保しながら、凹面の少ないターゲットを分離することに成功しました。さまざまな最先端の生成モデルを評価すると、これらの低凹面界面では予測される結合親和性がより弱いことが明らかになります。したがって、ShallowBench は生成生物学モデルの厳密なベンチマークを提供し、これらの困難なターゲットをナビゲートできる新しいアーキテクチャの革新または損失関数の必要性を強調します。

原文 (English)

ShallowBench: Benchmarking Generative Drug Design Models on Shallow-Pocket Targets

While generative AI models have demonstrated remarkable success in structure-based drug design, they predominantly rely on deep binding pockets and struggle to sample effective ligands for challenging low-pocketability targets, such as the historically "undruggable" oncology targets KRAS and MYC. To address this gap, we introduce ShallowBench, a strictly curated benchmark of 5,780 shallow-pocket targets extracted from CrossDocked2020. By computing the difference between an Alpha Shape "lid" volume and the underlying protein atom voxel volume, we successfully isolated targets with low concavity while ensuring sufficient surface area for binding. Evaluating various state-of-the-art generative models reveals weaker predicted binding affinity on these low-concavity interfaces. ShallowBench therefore provides a rigorous benchmark for generative biology models and highlights the necessity of new architectural innovations or loss functions capable of navigating these challenging targets.

13:00 JST研究/論文

MSAIC-Net: ECG ベースの心筋基質異常検出のためのマルチスケールの注意力と不均衡を認識した対照ネットワーク

心筋瘢痕や心筋梗塞(MI)などの心筋基質の異常は、心血管系の有害な転帰と関連しています。心電図検査 (ECG) は、これらの異常を検出するための低コストで広く利用可能なツールを提供しますが、異質な誘導依存症状、高次元の複数誘導信号、クラスの不均衡、深層学習モデルの解釈可能性の制限により、ECG ベースの検出は依然として困難です。我々は、ECG ベースの心筋基質異常検出のためのマルチスケール注意強化畳み込みネットワーク (MSAIC-Net) を提案します。 MSAIC-Net は、並列 atrous 畳み込み分岐を使用して、複数の時間的受容野にわたって ECG 特徴を抽出します。 % により、モデルは局所的な時間パターンと長距離の時間パターンの両方をキャプチャできるようになります。次に、チャネル アテンションを使用して、有益なリードごとの表現と特徴チャネル表現を適応的に再重み付けします。クラスの不均衡に対処し、特徴の分離性を向上させるために、異常なサンプルと正常なサンプルの間の分離を高めながら、同じクラスのサンプルがコンパクトな表現を形成することを促す、新しい不均衡を意識した教師付き対比学習戦略を導入します。各 ECG 誘導の寄与を定量化し、モデルの解釈可能性を向上させるために、誘導ごとの置換の重要性がさらに組み込まれています。提案された方法は、2 つの相補的なデータセットで評価されました。1 つは心筋瘢痕分類のためのバージニア大学 (UVA) Health System の低データ施設コホート、もう 1 つは MI 識別のための PhysioNet からの大規模公開 PTB-XL データセットです。実験結果は、MSAIC-Net がベースライン モデルより優れたパフォーマンスを示し、特にデータ量の少ない UVA コホートで顕著な改善が見られることを示しています。全体として、提案されたフレームワークは、心筋基質の異常を ECG に基づいて検出するための効果的で解釈可能なアプローチを提供します。

原文 (English)

MSAIC-Net: A Multi-Scale Attention and Imbalance-Aware Contrastive Network for ECG-Based Myocardial Substrate Abnormality Detection

Myocardial substrate abnormalities, such as myocardial scar and myocardial infarction (MI), are associated with adverse cardiovascular outcomes. Electrocardiography (ECG) provides a low-cost and widely available tool for detecting these abnormalities, but ECG-based detection remains challenging due to heterogeneous lead-dependent manifestations, high-dimensional multi-lead signals, class imbalance, and the limited interpretability of deep learning models. We propose a multi-scale attention-enhanced convolutional network (MSAIC-Net) for ECG-based myocardial substrate abnormality detection. MSAIC-Net employs parallel atrous convolutional branches to extract ECG features across multiple temporal receptive fields. %, enabling the model to capture both local and longer-range temporal patterns. Channel attention is then used to adaptively reweight informative lead-wise and feature-channel representations. To address class imbalance and improve feature separability, we introduce a novel imbalance-aware supervised contrastive learning strategy that encourages samples from the same class to form compact representations while increasing separation between abnormal and normal samples. Lead-wise permutation importance is further incorporated to quantify the contribution of each ECG lead and improve model interpretability. The proposed method was evaluated on two complementary datasets: a low-data institutional cohort from the University of Virginia (UVA) Health System for myocardial scar classification and the large-scale public PTB-XL dataset from PhysioNet for MI identification. Experimental results show that MSAIC-Net outperforms baseline models, with particularly pronounced improvements in the low-data UVA cohort. Overall, the proposed framework provides an effective and interpretable approach for ECG-based detection of myocardial substrate abnormalities.

13:00 JSTロボティクス

SCOUT: 不確実性に基づくトラバーサルによるセマンティック シーンのカバー

長期間にわたって動作するロボットは、単に宇宙を訪れるべきではありません。彼らはそれを徐々に理解する必要があります。しかし、ほとんどの 3D シーン グラフ パイプラインは、認識を固定データセットの後処理段階として扱い、最初に何が観察されるかを決定する決定からシーン表現を切り離します。我々は、アクティブなトラバーサルと確率的なシーン グラフ構築を組み合わせることでこのループを閉じるオンライン セマンティック探索フレームワークである SCOUT を紹介します。事前の 2D 占有マップとポーズの RGB-D 観察を考慮すると、SCOUT は不確実性を認識した 3D シーン グラフを段階的に構築します。このグラフのノードは融合されたジオメトリとオープン語彙オブジェクト ラベルに対する事後信念を維持し、エッジは上、内側、所属、隣などの構造関係をエンコードします。これらの信念は、不確実性ガイドに基づいたトラバーサル プランナーにフィードバックされ、期待される意味論的確実性の向上、幾何学的カバレッジの向上、および移動コストのバランスをとって視点を選択します。このようにして、追加の証拠が重要な場合にはロボットは曖昧なオブジェクトを再訪し、シーンが不完全なままの場合には目に見えない自由空間に拡張します。結果として得られるシステムは、セマンティック シーンの完全性をセマンティック マッピングの受動的副産物としてではなく、運用目標として扱い、人間の介入を最小限に抑えながら進化する屋内環境をパトロールし、更新し、推論できる自律エージェントを目指しています。

原文 (English)

SCOUT: Semantic scene COverage via Uncertainty-guided Traversal

Robots that operate over extended periods should not merely visit space; they should progressively understand it. Yet most 3D scene graph pipelines treat perception as a post-processing stage over a fixed dataset, decoupling scene representation from the decisions that determine what is observed in the first place. We present SCOUT, an online semantic exploration framework that closes this loop by coupling active traversal with probabilistic scene graph construction. Given a prior 2D occupancy map and posed RGB-D observations, SCOUT incrementally builds an uncertainty-aware 3D scene graph whose nodes maintain fused geometry and posterior beliefs over open-vocabulary object labels, while edges encode structural relations such as on, inside, belong, and next to. These beliefs are fed back to an uncertainty-guided traversal planner, which selects viewpoints by balancing expected semantic certainty gain, geometric coverage gain, and travel cost. In this way, the robot revisits ambiguous objects when additional evidence matters and expands into unseen free space when the scene remains incomplete. The resulting system treats semantic scene completeness as an operational objective rather than a passive by-product of semantic mapping, moving toward autonomous agents that can patrol, update, and reason about evolving indoor environments with minimal human intervention.

13:00 JSTLLM/生成AI

多言語マルチスピーカーユニットボコーダー: 離散音声表現の系統的分析

自己教師あり埋め込みの k 平均法クラスタリングによって取得された離散音声単位は、音声、話者、および言語情報が絡み合い、多言語マルチ話者の音声生成において話者の混合と言語間の干渉を引き起こします。オーディオ LLM およびスピーチツースピーチ システムでの使用が増加しているにもかかわらず、ユニット ボコーダーは依然として研究されていません。インドの 4 つの言語にわたる BigVGAN ベースのユニット ボコーダーを分析します。私たちは、WER、話者の類似性、およびユニットレベルのメトリクスを使用して、クラスターのサイズと調整戦略の間の相互作用を研究します。結果は、クラスターサイズが音声の弁別能力を向上させることによって明瞭度を支配する一方で、明示的な話者条件付けがアイデンティティ崩壊を防ぐために不可欠であることを示しています。言語監視は、主に単位があいまいなままであるより低いクラスター サイズでさらに効果をもたらします。私たちの分析では、言語間の類似した音素は、インベントリが小さいほど同じクラスター ID に集約され、クラスターが大きくなると徐々に分離されることが示されています。

原文 (English)

Multilingual Multi-Speaker Unit Vocoders: A Systematic Analysis of Discrete Speech Representations

Discrete speech units obtained via k-means clustering of self supervised embeddings entangle phonetic, speaker, and language information, causing speaker mixing and cross-lingual interference in multilingual multi-speaker speech generation. Despite growing use in Audio LLMs and speech to speech systems, unit vocoders remain underexplored. We analyze a BigVGAN based unit vocoder, across four Indian languages. We study the interaction between cluster size and conditioning strategies using WER, speaker similarity, and unit level metrics. Results show that cluster size governs intelligibility by improving phonetic discriminability, while explicit speaker conditioning is indispensable for preventing identity collapse. Language supervision yields further gains mainly at lower cluster sizes where units remain ambiguous. Our analysis shows similar phonemes across languages collapse to the same cluster IDs at smaller inventories, with larger clusters progressively separating them.

13:00 JSTLLM/生成AI

HybridCodec: 高速デュアルストリーム、セマンティックに強化されたニューラル オーディオ コーデック

マルチモーダル大規模言語モデルの出現により、音声トークナイザーとしてのニューラル オーディオ コーデックの人気が高まりました。セマンティックおよび音響のもつれを解く新しいコーデック アーキテクチャが登場しました。セマンティック情報をコーデック モデルに導入するには、主に 2 つのアプローチがあります。1 つは、SSL 表現からセマンティック情報を抽出して最初の RVQ レイヤーに取り込み、もう 1 つは、セマンティック特徴と音響特徴の別々のストリームを維持します。私たちは、両方のパラダイムを組み合わせた統合アーキテクチャである HybridCodec を提案します。 SSL 表現をセマンティック ストリームに抽出しながら、セマンティック ブランチと音響ブランチを別々に採用します。この設計により、推論中に SSL モデルを必要とせずに強力なもつれの解消が保証されます。 HybridCodec は、ドメイン内テスト セットおよび競合再構成 (RVQ-all) で優れたセマンティック特殊化 (RVQ-1) を示します。ドメイン外およびゼロショットのクロスリンガル設定での堅牢性を実証し、既存のデュアルストリーム モデルと比較して 3 倍の高速化を達成しました。

原文 (English)

HybridCodec: Fast Dual-Stream, Semantically Enhanced Neural Audio Codec

The popularity of neural audio codecs as speech tokenizers has surged with the advent of Multimodal Large Language Models. New codec architectures with semantic and acoustic disentanglement have emerged. There are two main approaches to introduce semantic information into codec models: one distills semantic information from SSL representations into the first RVQ layer, while the other maintains separate streams for semantic and acoustic features. We propose HybridCodec, a unified architecture that combines both paradigms. It employs separate semantic and acoustic branches while distilling SSL representations into the semantic stream. This design ensures strong disentanglement without requiring an SSL model during inference. HybridCodec shows superior semantic specialization (RVQ-1) on in-domain test set and competitive reconstruction (RVQ-all). We demonstrate its robustness in out-of-domain and zero-shot cross-lingual settings, achieving a 3x speedup over existing dual-stream models.

13:00 JSTLLM/生成AIGPT / ChatGPTLlamaMistral AI

検索拡張生成における証拠グラフの一貫性: 幻覚検出のモデル依存分析

検索拡張生成 (RAG) は、大規模な言語モデルにおける幻覚を軽減しますが、排除しません。既存の検出方法は、生成された回答と取得された文章の間のフラットな類似性に依存しており、証拠部分と回答主張の間の構造的関係を無視しています。我々は、応答ごとに局所証拠グラフを構築し、幻覚指標として 5 つの構造的一貫性尺度を計算するフレームワークである証拠グラフ一貫性 (EGC) を提案します。 6 つの LLM (回答数 5,767) にわたる RAGTruth の完全な質問回答分割で評価した EGC は、一貫したモデルファミリー分割を明らかにしました。グラフの一貫性特徴は、Llama-2 モデルの幻覚について予想される診断方向を示しますが、GPT-4、GPT-3.5、および Mistral-7B では系統的な逆転を示します。この逆転は、モデルファミリー全体で質的に異なる幻覚パターンを示唆しており、埋め込みベースのグラフの一貫性がモデルに依存しない幻覚検出信号として機能できないことを示しています。

原文 (English)

Evidence Graph Consistency in Retrieval-Augmented Generation: A Model-Dependent Analysis of Hallucination Detection

Retrieval-Augmented Generation (RAG) reduces but does not eliminate hallucination in large language models. Existing detection methods rely on flat similarity between generated answers and retrieved passages, ignoring structural relationships among evidence pieces and answer claims. We propose Evidence Graph Consistency (EGC), a framework that constructs a local evidence graph per response and computes five structural consistency measures as hallucination indicators. Evaluated on the full question answering split of RAGTruth across six LLMs (5,767 responses), EGC reveals a consistent model-family split: graph consistency features show the expected diagnostic direction for hallucinations in Llama-2 models but exhibit systematic reversal in GPT-4, GPT-3.5, and Mistral-7B. This reversal suggests qualitatively different hallucination patterns across model families and indicates that embedding-based graph consistency cannot serve as a model-independent hallucination detection signal.

13:00 JSTロボティクス

AxisGuide: 堅牢な視覚運動操作のための RGB 観察におけるロボット動作座標系の接地

大規模な動作クローン作成によって訓練された視覚運動操作ポリシーは、強力な意味論的シーンの理解を達成していますが、分布の変化の下では正しい低レベルのアクションを確実に実行できないことがよくあります。たとえば、同一のシーン レイアウト、カメラの視点、照明を使用した単純なピックアップ タスクであっても、オブジェクトが目に見えない場所に配置されると、パフォーマンスが大幅に低下する可能性があります。私たちは、このギャップは動作の理解が不十分であること、つまり画像空間におけるロボットのベースフレーム動作座標系を解釈できないことに起因すると主張します。この問題に対処するために、セマンティックなシーンの理解とアクション座標の解釈を橋渡しする軽量のガイダンス手法である AxisGuide を導入します。 AxisGuide は、カメラ パラメーターとエンド エフェクター ポーズを使用して、各カメラ ビューでロボットのベース フレーム軸をレンダリングし、画像空間での +x、+y、および +z の動きの意味を明示的に視覚化する小さなキュー チャネルのセットで RGB 観察を強化します。 LIBERO シミュレーションと現実世界の環境の両方での広範な評価により、AxisGuide が大幅なパフォーマンスの向上と一般化の向上をもたらし、信頼性が高く転移可能なジェネラリストの視覚運動ポリシーを学習するための明示的な行動座標の手がかりの有効性が強調されています。

原文 (English)

AxisGuide: Grounding Robot Action Coordinate System in RGB Observations for Robust Visuomotor Manipulation

Visuomotor manipulation policies trained via large-scale behavior cloning have achieved strong semantic scene understanding, yet often fail to reliably execute correct low-level actions under distribution shifts. For example, even in a simple pickup task with identical scene layouts, camera viewpoints, and illumination, performance can degrade substantially when the object is placed at unseen locations. We argue that this gap arises from insufficient action understanding, namely the inability to interpret the robot's base-frame action coordinate system in image space. To address this issue, we introduce AxisGuide, a lightweight guidance method that bridges semantic scene understanding and action-coordinate interpretation. Using camera parameters and end-effector poses, AxisGuide renders the robot base-frame axes in each camera view and augments RGB observations with a small set of cue channels that explicitly visualize the meaning of the +x, +y, and +z motions in image space. Extensive evaluations in both the LIBERO simulation and real-world environments demonstrate that AxisGuide yields substantial performance gains and improved generalization, highlighting the effectiveness of explicit action-coordinate cues for learning reliable and transferable generalist visuomotor policies.

13:00 JST研究/論文

ディープ ニューラル ネットワークを使用した勾配降下法を一般化するための最適なレート

最近、ニューラル タンジェント カーネル (NTK) レジーム内の過パラメータ化されたニューラル ネットワークに対する勾配降下法の統計的一般化パフォーマンスの理解が進んでいます。しかし、回帰問題に関する既存の研究のほとんどは浅いネットワーク アーキテクチャに限定されており、ディープ ニューラル ネットワークの理論には顕著なギャップが残されています。この論文では、勾配降下法 (GD) と確率的勾配降下法 (SGD) を使用して学習されたディープ ReLU ネットワークの包括的な一般化分析を提示することで、このギャップに対処します。具体的には、ネットワーク幅がネットワークの深さとトレーニングサンプルサイズに対して多項式にスケールするという仮定の下で、深いReLUネットワークを使用したGDとSGDの両方について、最初に知られている超過集団リスクのミニマックス最適率を確立します。私たちの結果は、十分な幅があれば、深い ReLU ネットワークの勾配降下法がカーネル法と同等の最適な汎化率を達成できることを示しています。

原文 (English)

Optimal Rates for Generalization of Gradient Descent Methods with Deep Neural Networks

Recent progress has been made in understanding the statistical generalization performance of gradient descent methods for overparameterized neural networks within the neural tangent kernel (NTK) regime. However, most of the existing work on regression problems is limited to shallow network architectures, leaving a notable gap in the theory of deep neural networks. This paper addresses this gap by presenting a comprehensive generalization analysis for deep ReLU networks trained using gradient descent (GD) and stochastic gradient descent (SGD). Specifically, we establish the first known minimax-optimal rates of excess population risk for both GD and SGD with deep ReLU networks, under the assumption that the network width scales polynomially with respect to the network depth and training sample size. Our results demonstrate that with sufficient width, gradient descent methods for deep ReLU networks can achieve optimal generalization rates on par with kernel methods.

13:00 JST研究/論文

ディープ ニューラル ネットワークの一般化: 勾配法の最小レート

過剰パラメータ化されたニューラル ネットワークの汎化パフォーマンスを理解することは、深層学習理論の中心的なトピックとなっています。最近の進歩、特にニューラル タンジェント カーネル (NTK) 体制下での研究により、浅いアーキテクチャの動作が明らかになりましたが、ディープ ニューラル ネットワーク (DNN) の統計的一般化特性、特に回帰タスクにおける統計的一般化特性は、依然としてほとんど理解されていません。このペーパーでは、勾配ベースの手法を使用してトレーニングされた DNN の包括的な一般化分析を提供することで、このギャップを埋めることに向けて大きな進歩を遂げました。まず、勾配ベースの手法でトレーニングされたスムーズな活性化関数を備えた DNN の学習ダイナミクスとカーネル手法の学習ダイナミクスの間の重要な関係を初めて確立し、オーバーパラメータ化された DNN 上の勾配ベースの手法が対応するカーネルの好ましい学習ダイナミクスを完全に継承できることを示します。この関係とカーネル法の十分に確立された最適性に基づいて、ネットワーク幅がサンプルサイズに応じて多項式にスケールするという仮定の下で、勾配降下法 (GD) と確率的勾配降下法 (SGD) の両方の過剰集団リスクに対する最初の既知のミニマックス最適率を導き出します。私たちの結果は、十分な幅があれば、GD または SGD によってトレーニングされた DNN がカーネルベースの手法に匹敵する汎化パフォーマンスを達成できることを示しています。

原文 (English)

Generalization in Deep Neural Networks: Minimax Rates for Gradient Methods

Understanding the generalization performance of over-parameterized neural networks has become a central topic in deep learning theory. While recent advances, particularly works under the Neural Tangent Kernel (NTK) regime, have shed light on the behavior of shallow architectures, the statistical generalization properties of deep neural networks (DNNs), especially in regression tasks, remain far less understood. In this paper, we make significant progress toward closing this gap by providing a comprehensive generalization analysis of DNNs trained using gradient-based methods. First, we establish, for the first time, a crucial connection between the learning dynamics of a DNN with smooth activation functions trained via gradient-based methods and those of kernel methods, showing that gradient-based methods on over-parameterized DNNs can fully inherit the favorable learning dynamics of their kernel counterparts. Building on this connection and the well-established optimality of kernel methods, we derive the first known minimax-optimal rates for the excess population risk of both gradient descent (GD) and stochastic gradient descent (SGD), under the assumption that network width scales polynomially with the sample size. Our results demonstrate that, with sufficient width, DNNs trained by GD or SGD can achieve generalization performance comparable to kernel-based methods.

13:00 JSTLLM/生成AI

ギャップに注意する: 多業種にわたるレコメンデーションにおいて LLM を使用して行動のサイロを埋める

DoorDash のような多業種の電子商取引プラットフォームでは、食料品や小売などの比較的新しい業種の商品がパーソナライゼーションのイノベーションの大きな機会となります。重要な課題は、ユーザーの「コールド スタート」問題を解決することにあります。この論文では、データが豊富な業種 (DoorDash のレストランなど) からデータが少ない業種に知識を移転することで、レコメンデーションの品質を向上させるための新しいフレームワークを紹介します。大規模言語モデル (LLM) を活用して生成推論を実行し、潜在的なユーザー アフィニティをカプセル化する疎な高次元の特徴を合成します。具体的には、階層型検索拡張生成 (RAG) パイプラインを採用して、ユーザーのレストランの注文履歴と検索クエリからマルチレベルの分類特徴を導き出します。これらの生成された特徴は、長期的な業種横断的な好みと短期的な意図の両方をエンコードし、実稼働のマルチタスク学習 (MTL) ランキング モデルに統合されます。私たちは、広範なオフラインおよびオンライン評価を通じて、このアプローチがパーソナライゼーションと新興ビジネス分野での関与を大幅に改善し、行動データのギャップを効果的に埋めることを実証しています。

原文 (English)

Mind the Gap: Bridging Behavioral Silos with LLMs in Multi-Vertical Recommendations

In multi-vertical e-commerce platforms like DoorDash, relatively newer product verticals such as grocery and retail present a significant opportunity for personalization innovation. A key challenge lies in solving the "cold start" problem for users. This paper introduces a novel framework for enhancing recommendation quality by transferring knowledge from data-rich verticals (e.g., restaurants at DoorDash) to data-sparse ones. We leverage Large Language Models (LLMs) to perform generative inference, synthesizing sparse, high-dimensional features that encapsulate latent user affinities. Specifically, we employ a hierarchical Retrieval-Augmented Generation (RAG) pipeline to derive multi-level taxonomic features from user restaurant order histories and search queries. These generated features, encoding both long-term cross-vertical preferences and short-term intent, are integrated into a production Multi-Task Learning (MTL) ranking model. We demonstrate through extensive offline and online evaluation that this approach significantly improves personalization and engagement in emerging business verticals, effectively bridging the behavioral data gap.

13:00 JSTエージェント研究/論文

投稿から明らかになること: ソーシャル メディアでのユーザーレベルのプライバシー漏洩のベンチマークとエージェント フレームワーク

ソーシャル メディアの公開投稿では、テキスト、画像、またはメタデータに散在する弱い手がかりを通じて個人情報が明らかになる可能性があります。このような漏洩は、多くの場合、累積的かつクロスポストで発生します。単独では無害に見える合図が、ユーザーの自宅、職場、または日常生活を共同で暴露する可能性があります。しかし、現在の研究には、ユーザーレベルのマルチモーダルなプライバシー漏洩に関する統一ベンチマークや、バイナリ精度を超えた暴露の重大度を捉える評価指標が不足しています。これらのギャップに対処するために、Rednote と Instagram アカウントのプライベート参照コーパスから抽出されたリーク パターンに基づく合成ベンチマークである SopriBench を提案します。これは、属性、コンテキストの感度、粒度、リークの種類、推論の難易度、裏付けとなる証拠を備えた 50 人のユーザー プロファイルと 1,569 枚の画像をカバーします。さらに、コンテキストの機密性によって値の粒度を重み付けするプライバシー露出スコア (PES) を導入します。アブダクティブ推論からインスピレーションを得て、累積リーケージ推論のためのトレーニング不要のエージェント フレームワークである Argus を紹介します。 Argus は、蓄積された証拠から仮説を立て、裏付けとなる証拠を検証し、クロスポストの手がかりをプライバシー プロファイルに集約し、最強のベースラインを 25% 上回る 0.55 PES を達成し、クロスポスト漏洩に関して最大​​の利益をもたらします。

原文 (English)

What Your Posts Reveal: A Benchmark and Agentic Framework for User-Level Privacy Leakage on Social Media

Public social media posts can reveal private information through weak cues scattered across text, images, or metadata. Such leakage is often cumulative and cross-post: cues that appear harmless in isolation may jointly expose a user's home, workplace, or routine. However, current research lacks a unified benchmark for user-level multimodal privacy leakage and an evaluation metric that captures exposure severity beyond binary accuracy. To address these gaps, we propose SopriBench, a synthetic benchmark guided by leakage patterns abstracted from a private reference corpus of Rednote and Instagram accounts, covering 50 user profiles and 1,569 images with attributes, contextual sensitivity, granularity, leakage type, inference difficulty, and supporting evidence. We further introduce the Privacy Exposure Score (PES), which weights value granularity by contextual sensitivity. Inspired by abductive reasoning, we introduce Argus, a training-free agentic framework for cumulative leakage inference. Argus forms hypotheses from accumulated evidence, verifies supporting evidence, and aggregates cross-post cues into privacy profiles, achieving 0.55 PES, a 25% improvement over the strongest baseline, with the largest gain on cross-post leakage.

13:00 JST研究/論文

臨床メンタルヘルスケアと日常の健康サポートの間の流動的な移行のための強化学習の探求

メンタルヘルスは栄枯盛衰に悩まされていますが、臨床介入と健康介入は通常別々に行われ、ケアの移行時に頻繁に故障を引き起こします。私たちは、一貫したケアの一環として、臨床および健康への介入を積極的に提供するデジタル ヘルス システムを構築する手段として、強化学習 (RL) を検討しています。このようなシステムの設計にはどのような複雑さが伴うのでしょうか?私たちは、臨床および健康のレパートリーからジャーナリングのプロンプトを動的に選択して、包括的な健康目標 (持続的なジャーナリング) に向けて最適化するコンテキスト バンディットを構築し、4 週間の探索的研究 (N=38) に導入しました。まず、RL に最適化された介入シーケンスの多くの利点は、介入が終了した後にのみ現れることがわかり、次のような疑問が生じました。一貫した臨床健康ケアの行程を提供するシステムには、ステップバック期間を含めるべきでしょうか?もしそうなら、いつ、どのようにして?第二に、RL によって生成された介入に最も熱心に取り組んでいた参加者は、時間の経過とともにその取り組みを深めましたが、継続的な介入に最も熱心に取り組んでいた参加者は、燃え尽き症候群になり、後に脱落する傾向がありました。そこで次のような疑問が生じます。臨床介入と健康介入を組み合わせたシステムでは、燃え尽き症候群を防ぐために強度を下げるのはどのような場合でしょうか、それとも治療効果を最大化するために強度を維持する必要があるのはどのような場合でしょうか?

原文 (English)

Exploring Reinforcement Learning for Fluid Transitions Between Clinical Mental Healthcare and Everyday Wellness Support

Mental health struggles wax and wane, yet clinical and wellness interventions typically operate separately, causing frequent breakdowns at care transitions. We explore reinforcement learning (RL) as a means to build digital health systems that deliver clinical and wellness interventions proactively, as part of a coherent care journey. We ask: what complexities does designing such a system involve? We built a contextual bandit that dynamically selects journaling prompts from clinical and wellness repertoires to optimize for an overarching health goal (sustained journaling) and deployed it in a four-week exploratory study (N=38). We found that, first, many benefits of RL-optimized intervention sequences appeared only after interventions ended, raising the question: Should systems that offer coherent clinical-wellness care journeys include stepping-back periods? If so, when and how? Second, participants most engaged with RL-generated interventions deepened their engagement over time, while those most engaged with a constant intervention tended to burn out and drop out later. It raises the question: When should a system blending clinical and wellness interventions reduce intensity to prevent burnout in versus sustain it to maximize treatment gains?

13:00 JSTロボティクス

パーソナライズされた運転快適性と移動効率を実現する車線変更軌道計画

車線変更には縦方向と横方向の同時動作が伴い、運転の快適性と移動効率に影響を与えます。これらの動作は密接に連携しており、車両間の変動が大きく影響するため、車線変更操作の軌道計画は高度に個人化された性質を持っています。この研究では、3 次多項式軌道ジェネレーターと、さまざまな運転条件にわたって最適な軌道パラメーターを推測する学習モジュールを統合する、ニューラル ネットワーク駆動のプランナーを提案します。デュアル ヘッドで共有バックボーンを使用することで、1 つのヘッドはあらゆる条件での動作保証を保証し、もう 1 つのヘッドは快適性や移動効率に関するドライバー固有の好みを捉えます。エラーウィナーロジスティック回帰に基づく統計ゲートを通じて実現されるヘッドゲートスイッチングメカニズムは、さまざまな運転条件下で適切なヘッドを適応的に選択し、状況を認識した車線変更軌道計画を可能にします。代表的なケースとモンテカルロシミュレーションは、提案されたプランナーが車線変更時に個人化された快適性と機動性を実現する一方で、ベースラインは個人化されたデータが不十分またはアクセスできない運転条件下でも実行可能な軌道を保証することを示しています。

原文 (English)

Lane Change Trajectory Planning for Personalized Driving Comfort and Mobility Efficiency

Lane changing entails simultaneous longitudinal and lateral motions that affect driving comfort and mobility efficiency. Because these motions are tightly coupled and subject to substantial inter-vehicle variability, trajectory planning for lane-change maneuvers is characterized by a highly personalized nature. This study proposes a neural network-driven planner that integrates a third-order polynomial trajectory generator with a learning module that infers optimal trajectory parameters across diverse driving conditions. Using a shared backbone with dual heads, one head ensures all-condition operational guarantees, while the other captures driver-specific preferences for comfort or mobility efficiency. A head-gated switching mechanism, realized through a statistical gate based on error-winner logistic regression, adaptively selects the appropriate head under varying driving conditions, which enables context-aware lane-change trajectory planning. Representative cases and Monte Carlo simulations show that the proposed planner achieves personalized comfort and mobility during lane changes, while the baseline ensures feasible trajectories under driving conditions where personalized data are insufficient or inaccessible.

13:00 JST画像/動画生成

ロックインの打破: 表現変調によるテキストから画像への生成の多様化

大規模な Transformer バックボーンとフローベースの目標に基づいて構築された最近のテキストから画像へのモデルは、強力なテキストと画像の位置合わせと高い視覚的品質を提供しますが、固定プロンプトの下では過度に類似したサンプルが生成されることがよくあります。既存のダイバーシティ強化方法はこの問題を軽減しますが、通常は高価なサンプリングや補助的な最適化が必要となり、少なからぬオーバーヘッドが発生します。この均一性の根本原因を調査するために、中間の Transformer の特徴を調べ、ゼロ周波数空間平均 (DC) 成分が生成初期にシード全体で急速に収束し、下流の変動を制限する初期の軌道ロックインを引き起こすことを観察しました。この観察に基づいて、我々は、初期レジームでこの成分を選択的に減衰させる、トレーニング不要の表現レベルの介入である多様性強化のための DC 減衰 (DAVE) を提案します。 DAVE は、無視できるオーバーヘッドでサンプリング パイプラインを維持し、競争力のある画質を維持しながら、プロンプトと一貫性のある多様性を向上させます。

原文 (English)

Breaking the Lock-in: Diversifying Text-to-Image Generation via Representation Modulation

Recent text-to-image models built on large-scale Transformer backbones and flow-based objectives deliver strong text-image alignment and high visual quality, yet often produce overly similar samples under a fixed prompt. Existing diversity-enhancement methods alleviate this issue, but typically require expensive sampling or auxiliary optimization, incurring non-trivial overhead. To investigate the root cause of this homogeneity, we examine intermediate Transformer features and observe that the zero-frequency spatial average (DC) component rapidly converges across seeds early in generation, causing early trajectory lock-in that limits downstream variation. Building on this observation, we propose DC Attenuation for diVersity Enhancement (DAVE), a training-free representation-level intervention that selectively attenuates this component in the early regime. DAVE preserves the sampling pipeline with negligible overhead, improving prompt-consistent diversity while maintaining competitive image quality.

13:00 JSTLLM/生成AIエージェント

スケール: エージェントティック ワークフロー スケジューリングのための外挿によるスケーラブルなクロスアテンション ラーニング

エージェントティック大規模言語モデル (LLM) システムは、複雑なタスクをワークフロー有向非巡回グラフ (DAG) に分解します。DAG のプリミティブは異種クラスター上でスケジュールする必要があります。既存の深層強化学習 (DRL) スケジューラーは固定クラスター サイズに関連付けられており、サーバーの数が変わるたびに再トレーニングが必要になります。我々は、微調整を行わずに目に見えないクラスタースケールに一般化する DRL スケジューラである SCALE (Scalable Cross-Attendee Learning with Extrapolation) を提案します。 SCALE は、タスク機能がサーバー機能に対してクエリを実行するクロスアテンション ポインター ネットワークを採用しているため、アーキテクチャは構築上任意の数のサーバーを受け入れます。ただし、順列不変アーキテクチャだけでは新しいスケールでの優れたパフォーマンスが保証されないことがわかりました。サーバー数が増加するにつれて、注目機能の分散が変化します。これに対抗するために、構造化表現正則化 (SRR) を導入します。これは、入力サイズに関係なく特徴統計を安定に保つ、標準正規に対する KL ペナルティと組み合わせた非相関損失です。 16 ノードでトレーニングされ、32 ノードと 48 ノードで直接テストされた SCALE は、SRR なしの同じアーキテクチャと比較して、N=48 で平均応答時間を 8.9% 短縮し、スケール一般化のギャップを埋めるには明示的な正則化が必要であることを確認しました。

原文 (English)

SCALE: Scalable Cross-Attention Learning with Extrapolation for Agentic Workflow Scheduling

Agentic Large Language Model (LLM) systems decompose complex tasks into workflow Directed Acyclic Graphs (DAGs) whose primitives must be scheduled on heterogeneous clusters. Existing deep reinforcement learning (DRL) schedulers are tied to a fixed cluster size and require retraining whenever the number of servers changes. We propose SCALE (Scalable Cross-Attention Learning with Extrapolation), a DRL scheduler that generalizes to unseen cluster scales without fine-tuning. SCALE employs a cross-attention pointer network where task features query against server features, so the architecture accepts any number of servers by construction. We observe, however, that permutation-invariant architecture alone does not guarantee good performance at new scales - the attention feature undergoes distribution shift as the server count grows. To counter this, we introduce Structured Representation Regularization (SRR): a decorrelation loss combined with a KL penalty toward the standard normal, which keeps feature statistics stable regardless of input size. Trained on 16 nodes and tested directly on 32 and 48 nodes, SCALE reduces average response time by 8.9% at N=48 relative to the same architecture without SRR, confirming that explicit regularization is necessary to close the scale-generalization gap.

13:00 JSTエージェント

PandaAI: 定量的金融における神経記号データ分析と統合意思決定のための実用的なエージェント CQ2

ディープラーニングはさまざまな分野で優れていますが、財務データの低い信号対雑音比(SNR)と非定常性のため、金融における逐次的な意思決定への応用は依然として困難です。大規模言語モデル (LLM) の推論機能を活用して、市場レジーム モデリングと制約付きアルファ生成を備えた閉ループ神経記号 LLM エージェントである \textbf{PandaAI} を提案します。これは、一般的な LLM 推論と財務的厳密性を橋渡しし、LLM で生成された出力の財務的毒性を抑制します。一般的な言語能力と財務上の厳密さの間のギャップを埋めるために、ドメイン固有の LLM を微調整します。さらに、この LLM をモジュラー アーキテクチャに統合し、閉ループ システムを形成します。個別の予測指標を最適化する従来のモデルとは異なり、\textbf{PandaAI} は、明確なリスク認識を持って複雑な現実世界の金融環境をナビゲートする神経象徴エージェントとして設計されています。 CSI 300 株データに関する広範な実験により、\textbf{PandaAI} は最先端の時系列モデルよりも $18.2\%$ 高いランク IC と $25.7\%$ 低い最大ドローダウンを達成していることがわかりました。当社の制約付き LLM 生成とデュアルチャネル適応手法は、一か八かの逐次意思決定シナリオにおける LLM 導入の一般的なパラダイムを提供します。

原文 (English)

PandaAI: A Practical Agent CQ2 for Neuro-symbolic Data Analysis And Integrated Decision-Making in Quantitative Finance

While deep learning has excelled in various domains, its application to sequential decision-making in finance remains challenging due to the low Signal-to-Noise Ratio (SNR) and non-stationarity of financial data. Leveraging the reasoning capabilities of Large Language Models (LLMs), we propose \textbf{PandaAI}, a closed-loop neuro-symbolic LLM agent with market regime modeling and constrained alpha generation, which bridges general LLM reasoning with financial rigor and suppresses the financial toxicity of LLM-generated outputs. To bridge the gap between general linguistic capability and financial rigor, we fine-tune a domain-specific LLM. Furthermore, we integrate this LLM into a modular architecture and form a closed-loop system. Unlike traditional models that optimize isolated prediction metrics, \textbf{PandaAI} is designed as a neuro-symbolic agent that navigates the complex, real-world financial environment with explicit risk awareness. Extensive experiments on CSI 300 stock data show that \textbf{PandaAI} achieves a $18.2\%$ higher Rank IC and $25.7\%$ lower maximum drawdown than state-of-the-art time-series models. Our constrained LLM generation and dual-channel adaptation method provide a general paradigm for LLM deployment in high-stakes sequential decision-making scenarios.

13:00 JSTLLM/生成AI

Progress-SQL: プログレッシブ報酬による Text-to-SQL の強化学習の改善

強化学習は最近、Text-to-SQL 生成のための大規模な言語モデルの改善に有望であることが示されていますが、既存の手法は通常、単一の SQL 状態に対して定義されたワンショット報酬を最適化します。このような報酬は、反復 SQL 修正に対する限定的なガイダンスを提供するものであり、複数ターンにわたる SQL 改良の改善を捉えるには不十分です。この論文では、Text-to-SQL に対するプログレッシブ報酬を備えたマルチターン強化学習フレームワークである Progress-SQL を提案します。私たちのアプローチでは、SQL クエリを句レベルの構造プロファイルに抽象化し、次のターンの改良のための診断フィードバックを生成する、Oracle ガイド付き診断ツリー (ODT) を導入しています。高密度で堅牢な報酬シグナルを提供するために、ODT ベースの構造的アライメントと字句アライメントを組み合わせて、最初の SQL から最終 SQL までの改善を測定するプログレッシブ報酬を定義します。さらに、早期の正確性を優先する進行遅延報酬と、無効な SQL からの回復を促進する実行ステータス報酬を組み込みます。 BIRD、Spider、および Spider の堅牢性バリアントに関する実験では、私たちの方法が主要評価と堅牢性評価の両方で Text-to-SQL のパフォーマンスを一貫して向上させることが実証されています。

原文 (English)

Progress-SQL: Improving Reinforcement Learning for Text-to-SQL via Progressive Rewards

Reinforcement learning has recently shown promise in improving large language models for Text-to-SQL generation, yet existing methods typically optimize one-shot rewards defined over a single SQL state. Such rewards provide limited guidance for iterative SQL correction and are insufficient to capture the improvement of multi-turn SQL refinement. In this paper, we propose Progress-SQL, a multi-turn reinforcement learning framework with progressive rewards for Text-to-SQL. Our approach introduces an Oracle-guided Diagnostic Tree (ODT), which abstracts SQL queries into clause-level structural profiles and produces diagnostic feedback for next-turn refinement. To provide dense and robust reward signals, we combine ODT-based structural alignment with lexical alignment and define a progressive reward that measures the improvement from the initial SQL to the final SQL. We further incorporate a progression latency reward that favors earlier correctness and an execution status reward that encourages recovery from the invalid SQL. Experiments on BIRD, Spider, and Spider robustness variants demonstrate that our method consistently improves Text-to-SQL performance across both primary and robustness evaluations.

13:00 JST研究/論文

語られないものを聞く: 音響敵対的攻撃の事前言語モデル

リアルタイム設定で動作する自動音声認識 (ASR) システムは、厳密な時間的制約の下で音響入力を処理する必要があり、書き起こしの決定は本質的に不完全な情報に基づいて行われます。この因果関係の制約は、攻撃者にとって情報のボトルネックとなり、攻撃のパフォーマンスを大幅に制限します。私たちの新しいセマンティック ガンビット攻撃は、リアルタイムで大規模言語モデルから得られる予測コンテキストで敵を強化することで、この因果関係の制限を打ち破ります。私たちの実験では、この形式の拡張により、コーパスレベルの単語誤り率が 35.6% に上昇する可能性があることが示されており、これは現在の最先端技術と比較して 3 倍の増加です。最終的に、この研究は、一般的な低遅延 LLM ツールをどのように悪用して、リアルタイム ASR パイプラインを組織的に破壊できるかを明らかにします。

原文 (English)

Hearing the Unspoken: Language Model Priors for Acoustic Adversarial Attacks

Automatic Speech Recognition (ASR) systems operating in real-time settings must process acoustic input under strict temporal constraints, where transcription decisions are inherently made on incomplete information. This causal constraint serves as an information bottleneck on attackers, significantly limiting attack performance. Our new Semantic Gambit attack breaks this causal limitation by augmenting the adversary with predictive context derived from a Large Language Model in real-time. Our experiments show that this form of augmentation can elevate the corpus-level Word Error Rate to 35.6% -- a three-fold increase over the current state-of-the-art. Ultimately, this work reveals how common, low-latency LLM tooling can be exploited to systematically subvert real-time ASR pipelines.

13:00 JST画像/動画生成エージェントロボティクス

パイロットのように考える: きめ細かい長距離 UAV ナビゲーション

言語誘導型 UAV エージェントは、スムーズで物理的に実行可能な連続飛行コマンドを生成しながら、長期のセマンティック命令を実行する必要がありますが、既存のビジョン言語ナビゲーション (VLN) ベンチマークは通常、離散的または粗いアクションを使用し、既存の UAV ビジョン言語アクション (VLA) タスクは、短くアトミックな操作に重点を置いています。 UAV タスク設定のこのギャップに対処するために、\textbf{H}ybrid UAV ナビゲーションと推論 \textbf{T} 質問用の \textbf{F} 粒度の細かい \textbf{L}ong-horizon \textbf{I}nstruction-\textbf{G} を使用したベンチマークである \textbf{FLIGHT} を導入します。これは、2 つのデータセット分割にわたる高密度の 6-DoF 軌道アノテーションとマルチステージ命令を組み合わせたものです。きめ細かい VLN と Long-horizon Flow。 UAV エージェントにタスクの実行ステータスとミッション計画に関するリアルタイムの飛行中の推論機能を与えると同時に、高周波でリアルタイムの正確な制御に対応するために、タスク状態推論のための低周波ストリーミング パイロット視覚言語モデル (VLM) を継続制御のための高周波拡散アクション モデルから分離する非同期アーキテクチャである \textbf{FLIGHT VLA} をさらに提案します。現在の飛行状態を要約し、次のサブゴールを予測する明示的な \textbf{Pilot Reasoning} テキストによって監視されています。クローズドループ評価では、FLIGHT VLA は FLIGHT ベンチマークの代表的な VLN および VLA ベースラインを常に上回り、より強力な多段階完了、サブゴール順守、および最終制御を達成します。訓練されたストリーミング パイロット推論 VLM は、UAV ビデオ推論をさらに改善し、設計の有効性を検証します。

原文 (English)

Think Like a Pilot: Fine-Grained Long-Horizon UAV Navigation

Language-guided UAV agents must execute long-horizon semantic instructions while producing smooth, physically feasible continuous flight commands, yet existing Vision-Language Navigation (VLN) benchmarks typically use discrete or coarse actions and existing UAV Vision-Language-Action (VLA) tasks focus on short, atomic maneuvers. To address this gap in UAV task settings, we introduce \textbf{FLIGHT}, a \textbf{F}ine-grained \textbf{L}ong-horizon \textbf{I}nstruction-\textbf{G}uided benchmark for \textbf{H}ybrid UAV navigation and reasoning \textbf{T}asks, which combines multi-stage instructions with dense 6-DoF trajectory annotations across two dataset splits: Fine-grained VLN and Long-horizon Flow. To endow the UAV agent with the capability of real-time in-flight reasoning over task execution status and mission planning, while simultaneously accommodating high-frequency, real-time precise control, we further propose \textbf{FLIGHT VLA}, an asynchronous architecture that decouples a low-frequency Streaming Pilot Vision-Language Model (VLM) for task-state reasoning from a high-frequency diffusion action model for continuous control, supervised by explicit \textbf{Pilot Reasoning} texts that summarize the current flight state and anticipate the next subgoal. In closed-loop evaluation, FLIGHT VLA consistently surpasses representative VLN and VLA baselines on our FLIGHT benchmarks, achieving stronger multi-stage completion, subgoal adherence, and terminal control. Its trained Streaming Pilot Reasoning VLM further improves UAV video reasoning, validating the effectiveness of our design.

13:00 JSTLLM/生成AIエージェント研究/論文

LLM エージェント支援による定量的可読性メトリックを使用したリバース エンジニアリング

自動逆コンパイラは、機能的には正しいものの、多くの場合は判読できない C コードを生成します。このペーパーでは、リバース エンジニアリング ワークフローの 1 つの段階、つまり、定量的メトリクスに基づいた LLM エージェントを使用して逆コンパイルされたコードの可読性を向上させることについて説明します。 3 段階の研究の進化を紹介します。フェーズ 1 (Ghidra MCP を介したツール主導のステアリング) では、定量的なガイダンスの欠如により、不完全なカバレッジと一貫性のない改善が発生しました。フェーズ 2 (構造類似性検証のみ) では、エージェントが意図しない方法でメトリクスを最適化し、構造的には同等だが読みにくいコードを生成することが明らかになりました。私たちの貢献は、構造類似性ゲートと 3 つの独立した可読性サブメトリクス (語彙的意外性、構造的単純さ、および慣用的品質) を組み合わせた複合メトリクスである定量的可読性スコア (QRS) フレームワークです。 QRS ガイドに基づいた改良により、LLM エージェントが正確さを犠牲にすることなく、目的の可読性を改善できることを実証します。コンテキストとして、より広範なリバース エンジニアリング ワークフロー (バイナリのリフティング、逆コンパイルのクリーンアップ、機能的等価性の達成) について説明しますが、これは範囲外です。

原文 (English)

LLM Agent-Assisted Reverse Engineering with Quantitative Readability Metrics

Automatic decompilers produce functionally correct but often unreadable C code. This paper addresses one stage of the reverse engineering workflow: improving the readability of decompiled code using LLM agents guided by quantitative metrics. We present a three-phase research evolution. Phase 1 (tool-driven steering via Ghidra MCP) suffered from incomplete coverage and inconsistent improvements due to lack of quantitative guidance. Phase 2 (structural similarity validation alone) revealed that agents optimize for metrics in unintended ways, producing structurally equivalent but less readable code. Our contribution is the Quantitative Readability Score (QRS) framework, a composite metric combining a structural similarity gate with three independent readability sub-metrics (Lexical Surprisal, Structural Simplicity, and Idiomatic Quality). We demonstrate that QRS-guided refinement enables LLM agents to make targeted readability improvements without sacrificing correctness. We provide a discussion of the broader reverse engineering workflow (binary lifting, decompilation cleanup, and achieving functional equivalence) as context, however, it remains out of scope.

13:00 JSTLLM/生成AIハードウェア/半導体

特徴付けてから蒸留: 大規模な出力空間での機械的推論

最新の推論モデルは、数十万から数百万の候補ラベルから関連するオプションの少数のセットを選択する必要がある、困難なマルチラベル タスクに対して、驚くほど強力なゼロショット パフォーマンスを提供します。私たちは、彼らがこれをどのように機構的に達成するのかを調査します。私たちは推論を 2 段階のプロセスとして特徴付けます。つまり、候補の大まかな「候補リスト」に続いて、結果のセットに対するきめの細かい推論が行われます。私たちは、さまざまなデータセットにわたって、これらのステップが分離可能であり、補完的であるという証拠を提供します。この特性評価を使用して、当社は標準的な蒸留を常に上回る機械的蒸留戦略を開発します。

原文 (English)

Characterize Then Distill: Mechanistic Reasoning in Large Output Spaces

Modern reasoning models offer surprisingly strong zero-shot performance on challenging multi-label tasks that require selecting a small set of relevant options from hundreds of thousands to millions of candidate labels. We investigate how they achieve this mechanistically. We characterize reasoning as a two-phase process: A broad "shortlisting" of candidates followed by fine-grained reasoning over the resulting set. We provide evidence across a range of datasets that these steps can be isolated and are complementary. Using this characterization, we develop a mechanistic distillation strategy that consistently outperforms standard distillation.

13:00 JST画像/動画生成

MotionEnhancer: モーション強化された視覚言語モデルのためのビデオ拡散の活用

新しい時代には、ビデオ理解のタスクに取り組むための視覚言語モデル (VLM) を拡張する注目すべき機能が登場しました。現在の VLM はイベントまたはストーリー レベルの理解に優れていますが、主に高レベルの静的セマンティック構造とマクロ イベント ロジックに焦点を当てているため、きめ細かいモーションの詳細をキャプチャする能力は依然として制限されています。対照的に、ビデオ拡散モデル (VDM) は、大規模なビデオ データと時間生成の本質的な要件から恩恵を受け、動的な動きパターンのモデル化に優れています。この論文では、強力なビデオ拡散モデルから抽出されたモーション プリアを補助監視として活用し、注意の調整を通じて VLM のモーション理解能力を強化する新しいアプローチである MotionEnhancer を紹介します。 MotionEnhancer は、モーションに関連したアテンションを計算のみの方法で VDM から直接抽出し、最適化するために、モーション感応ヘッド選択 (MHS) とモーション顕著テキスト トークン識別 (MTTI) という 2 つのシンプルなパラメーター不要のモジュールで構成されています。 MotionEnhancer は、トレーニング パラメーターを追加したり、既存のアーキテクチャを変更したり、ツールを呼び出したりすることなく、モーションを理解するためのスケーラブルなソリューションを提供します。広範な実験により、MotionEnhancer が 2 つのモーション レベルのビデオ理解ベンチマーク、特にモーション関連のメトリックに関して、最先端の VLM よりも一貫した改善を達成できることが実証されました。

原文 (English)

MotionEnhancer: Leveraging Video Diffusion for Motion-Enhanced Vision-Language Models

The new era has witnessed a remarkable capability to extend Vision-Language Models (VLMs) for tackling tasks of video understanding. While current VLMs excel at event- or story-level understanding, their ability to capture fine-grained motion details remains limited, primarily due to their focus on high-level static semantic structures and macro-event logic. In contrast, Video Diffusion Models (VDMs) are adept at modeling dynamic motion patterns, benefiting from large-scale video data and the intrinsic requirement of temporal generation. In this paper, we introduce MotionEnhancer, a novel approach that leverages motion priors distilled from a powerful video diffusion model as auxiliary supervision to enhance the motion understanding capability of a VLM via attention alignment. MotionEnhancer comprises two simple parameter-free modules, Motion-sensitive Head Selection (MHS) and Motion-salient Text Token Identification (MTTI), to directly extract and optimize motion-related attentions from the VDM in a computation-only manner. MotionEnhancer provides a scalable solution for motion understanding without additional training parameters, modifications to existing architectures, or tool calling. Extensive experiments demonstrate that MotionEnhancer can achieve consistent improvements over state-of-the-art VLMs on two motion-level video understanding benchmarks, especially on motion-related metrics.

13:00 JST研究/論文

製品単位残差ネットワークとの非線形特徴相互作用のモデル化

非線形特徴の相互作用を理解することは科学や工学において重要ですが、標準的な多層パーセプトロン (MLP) はそのような相互作用を暗黙的にのみ捕捉することが多く、その結果、頑健性と解釈可能性を損なう可能性のあるもつれた表現につながります。乗算積単位と残差接続を統合して、最適化を安定させながら特徴間結合を明示的にモデル化する積単位残差ネットワーク (PURe) を調査します。インタラクション駆動型の合成ベンチマークと 2 つの実世界のデータセットで体系的な評価を実施し、予測精度、ガウス特徴ノイズに対する堅牢性、限られたトレーニング データの下でのパフォーマンスを評価し、一致したパラメーター バジェットの下で実数値と複素数値のバリアントを比較します。精度を超えて、SHApley Additive exPlanations (SHAP) ベースの相互作用分析は、PURe が MLP ベースラインよりも集中的で構造的に一貫した相互作用パターンを学習することを示しています。全体として、PURe は、競争力のあるまたは向上したパフォーマンス、低データ領域での堅牢性とサンプル効率の向上、および相互作用レベルの解釈可能性の強化を実現します。

原文 (English)

Modeling Nonlinear Feature Interactions with Product-Unit Residual Networks

Understanding nonlinear feature interactions is crucial in science and engineering, yet standard multilayer perceptrons (MLPs) often capture such interactions only implicitly, leading to entangled representations that can impair robustness and interpretability. We investigate product-unit residual networks (PURe) that integrate multiplicative product units with residual connections to explicitly model cross-feature couplings while stabilizing optimization. We conduct a systematic evaluation on an interaction-driven synthetic benchmark and two real-world datasets, assessing predictive accuracy, robustness to Gaussian feature noise, and performance under limited training data, and we compare real- and complex-valued variants under a matched parameter budget. Beyond accuracy, SHapley Additive exPlanations (SHAP)-based interaction analyses show that PURe learns more concentrated and structurally coherent interaction patterns than MLP baselines. Overall, PURe achieves competitive or improved performance, better robustness and sample efficiency in low-data regimes, and enhanced interaction-level interpretability.

13:00 JST画像/動画生成ロボティクス

EgoPressDiff: 自己中心的な UV ドメインの手圧力推定のためのマルチモーダル ビデオ拡散

自己中心的な視点から手の表面の接触圧力を推定することは、AR/VR デバイス、ロボットの模倣、人間工学的分析にとって重要です。既存の方法では、多くの場合、圧力信号を離散化し、フレームを個別に処理するため、量子化エラーや時間的不一致が発生します。視覚入力から UV 圧力マップを生成する条件付きビデオ拡散フレームワークである \emph{EgoPressDiff} を紹介します。私たちのアプローチの中核は、手のポーズと 3D メッシュの頂点から特徴を効率的に抽出するために PoseNet と Vertex Encoder を導入するマルチモーダル コンディショニング戦略です。これらの信号は、深度情報とともに、圧力フィールドが物理的に接地されるように生成プロセスをガイドします。これらの異質な特徴を効果的に融合するために、組み合わせる前にそれらの統計的特性を調整する分布調整された空間レイヤーをさらに提案します。 EgoPressure エゴビュー設定で評価すると、EgoPressDiff は最先端の結果を達成し、MAE を削減し、高い時間精度を維持しながら、ボリューム IoU を以前のベースラインと比較して 34\% 以上改善します。私たちのプロジェクト ページは https://egopressdiff.github.io/ にあります。

原文 (English)

EgoPressDiff: Multimodal Video Diffusion for Egocentric UV-Domain Hand-Pressure Estimation

Estimating hand-surface contact pressure from an egocentric view is crucial for AR/VR devices, robotic imitation, and ergonomic analysis. Existing methods often discretize pressure signal and process frames independently, leading to quantization errors and temporal inconsistencies. We present \emph{EgoPressDiff}, a conditional video diffusion framework that generates UV-pressure maps from visual input. The core of our approach is a multi-modal conditioning strategy, introducing a PoseNet and a Vertex Encoder to efficiently extract features from hand pose and 3D mesh vertices. These signals, along with depth information, guide the generative process to ensure the pressure fields are physically grounded. To effectively fuse these heterogeneous features, we further propose a Distribution-Calibrated Spatial Layer, which aligns their statistical properties before combination. Evaluated on the EgoPressure ego-view setting, EgoPressDiff achieves state-of-the-art results, improving Volumetric IoU by over 34\% relative to prior baseline, while reducing MAE and maintaining high temporal accuracy. Our project page is at https://egopressdiff.github.io/.

13:00 JSTロボティクス

複雑な論理制約下での長期的なタスク計画のための神経記号学習

ロボットがオブジェクトのアフォーダンス、空間関係、逐次動作の依存関係などの複雑な論理的制約の下で長期的な動作シーケンスを推論しなければならない場合、タスク計画は深刻な効率のボトルネックに悩まされることがよくあります。最近の神経記号手法は、タスクに無関係なオブジェクトを取り除くためにオブジェクトの重要度スコアを学習することで計画の効率を向上させますが、通常は完全な検索空間から生成される固定のオフライン監視に依存しています。これにより、トレーニングとテストの不一致が生じます。デプロイメント時に、プランナーはモデル自身の不完全な予測によって引き起こされるプルーニングされた検索スペースで動作し、露出バイアスと計画パフォーマンスの低下につながります。この課題に対処するために、タスク計画のためのオブジェクト重要度学習を命令型学習ベースのバイレベル最適化問題として定式化します。上位レベルではニューラル スコアラーが最適化され、下位レベルではスコア プルーニングされた検索空間でシンボリック プランニング問題が解決されます。この学習プロセスを安定させるために、下位レベルの計画に 3R 戦略を導入し、並列修復、再起動、ロールバック回復を使用して、上位レベルの学習に信頼性が高く適応的なフィードバックを提供します。 3 つの困難なベンチマークでの実験では、故障率の 80.04% の削減、計画時間の 57.14% の削減など、最先端のパフォーマンスが実証されました。さらに、四足ベースのモバイル マニピュレータのフレームワークをシミュレーションと現実世界で検証し、効率的で展開可能な神経記号的タスク計画の可能性を実証します。

原文 (English)

Neuro-Symbolic Learning for Long-Horizon Task Planning Under Complex Logical Constraints

Task planning often suffers from severe efficiency bottlenecks when robots must reason over long-horizon action sequences under complex logical constraints, including object affordances, spatial relationships, and sequential action dependencies. Recent neuro-symbolic methods improve planning efficiency by learning object-importance scores to prune task-irrelevant objects, but they typically rely on fixed offline supervision generated from full search spaces. This creates a train-test mismatch: at deployment, the planner operates in pruned search spaces induced by the model's own imperfect predictions, leading to exposure bias and degraded planning performance. To address this challenge, we formulate object-importance learning for task planning as an imperative learning-based bilevel optimization problem. The upper level optimizes a neural scorer, while the lower level solves a symbolic planning problem in the score-pruned search space. To stabilize this learning process, we introduce a 3R strategy into the lower-level planning, using parallel Repair, Restart, and Rollback recovery to provide reliable and adaptive feedback for upper-level learning. Experiments on three challenging benchmarks demonstrate state-of-the-art performance, including an 80.04% reduction in failure rate and a 57.14% reduction in planning time. We further validate the framework on a quadruped-based mobile manipulator in simulation and the real world, demonstrating its potential for efficient and deployable neuro-symbolic task planning.

13:00 JST画像/動画生成

FreeAnimate: プレビューガイドによるノイズ除去を備えたトレーニング不要の人物画像アニメーション

ヒューマン イメージ アニメーションは、主に拡散モデルによって大きく進歩しました。ただし、既存の方法では通常、高品質の結果を達成するために大量のトレーニング データとリソースが必要となり、一般化とアクセシビリティが制限されます。この研究では、画像拡散モデルの固有の機能を活用して、時間的一貫性、同一性の保持、および背景の安定性を可能にする、トレーニング不要のフレームワークである \emph{FreeAnimate} を紹介します。私たちのアプローチには、生成されたプレビュー フレームから時間的および構造的な事前情報を提供する新しいプレビュー生成戦略が組み込まれており、トレーニングなしでポーズの位置合わせと背景の一貫性を効果的に導きます。さらに、FreeAnimate は、時間的一貫性とアイデンティティの保持を保証するために、反転ブースト アテンション モジュールとリファレンス アンカーセルフアテンション モジュールを導入しています。実験結果は、FreeAnimate が既存のトレーニング不要の競合他社やトレーニングベースのベースライン手法を上回り、最先端の手法に匹敵する生成品質を達成し、多様なデータセットにわたって堅牢な一般化を提供することを示しています。私たちのプロジェクトページは https://freeani.github.io/ にあります。

原文 (English)

FreeAnimate: Training-Free Human Image Animation with Preview-Guided Denoising

Human Image Animation has seen significant advancements, primarily driven by diffusion models. However, existing methods typically demand substantial training data and resources to achieve high-quality results, limiting generalization and accessibility. In this work, we introduce \emph{FreeAnimate}, a training-free framework that leverages the inherent capabilities of image diffusion models to enable temporal consistency, identity preservation, and background stability. Our approach incorporates a novel preview generation strategy that provides temporal and structural priors from generated preview frames, effectively guiding pose alignment and background consistency without training. Additionally, FreeAnimate introduces Inversion-Boosted Attention and Reference-Anchored Self-Attention modules to guarantee temporal consistency and identity preservation. Experimental results demonstrate that FreeAnimate outperforms existing training-free competitors and training-based baseline methods, achieving generation quality comparable to state-of-the-art methods and offering robust generalization across diverse datasets. Our project page is at https://freeani.github.io/.

13:00 JST画像/動画生成

スケルトンを超えて: Same2X トレーニング戦略を使用して、運転ビデオからアニメーションを直接学習する

人物画像アニメーションは、運転ビデオから抽出された姿勢情報に基づいて、静的な参照画像からビデオを生成することを目的としています。既存のアプローチは中間表現を抽出するためにポーズ推定器に依存することがよくありますが、そのような信号はオクルージョンや複雑なポーズの下ではエラーが発生しやすいです。これらの観察に基づいて、ポーズ抽出をバイパスし、生の運転ビデオから直接学習するフレームワークである DirectAnimator を紹介します。ポーズ、顔、位置のキューで構成されるドライビング キュー トリプレットを導入し、動き、表情、アライメントを意味的に豊富で安定した形式でキャプチャし、ノイズ除去中に信頼性の高い制御を実現するために CueFusion DiT ブロックを通じてそれらを融合します。駆動アイデンティティと参照アイデンティティが異なる場合でも学習の信頼性を高めるために、クロス ID 特徴を同じ ID データから学習した特徴と調整し、最適化を正規化し、収束を加速する Same2X トレーニング戦略を考案しました。広範な実験により、DirectAnimator はオクルージョンや複雑なアーティキュレーションに対する堅牢性を維持しながら、最先端のビジュアル品質とアイデンティティの維持を実現し、より少ない計算リソースでそれを実現できることが実証されました。私たちのプロジェクト ページは https://directanimator.github.io/ にあります。

原文 (English)

Beyond Skeletons: Learning Animation Directly from Driving Videos with Same2X Training Strategy

Human image animation aims to generate a video from a static reference image, guided by pose information extracted from a driving video. Existing approaches often rely on pose estimators to extract intermediate representations, but such signals are prone to errors under occlusion or complex poses. Building on these observations, we present DirectAnimator, a framework that bypasses pose extraction and directly learns from raw driving videos. We introduce a Driving Cue Triplet consisting of pose, face, and location cues that captures motion, expression, and alignment in a semantically rich yet stable form, and we fuse them through a CueFusion DiT block for reliable control during denoising. To make learning dependable when the driving and reference identities differ, we devise a Same2X training strategy that aligns cross-ID features with those learned from same-ID data, regularizing optimization and accelerating convergence. Extensive experiments demonstrate that DirectAnimator attains state-of-the-art visual quality and identity preservation while remaining robust to occlusions and complex articulation, and it does so with fewer computational resources. Our project page is at https://directanimator.github.io/.

13:00 JSTLLM/生成AI

EASE-TTT: Evidence-Aligned Selective Test-Time Training for Long-Context Question Answering

Long-context question answering (QA) remains challenging for smaller language models even when answer-bearing evidence is already present i…

13:00 JST研究/論文

SpectCount: Spectrotemporal Counting via Synthetic Signals Improves Large Audio Language Models

Large audio language models (LALMs) extend large language models with an audio encoder and large-scale audio data. However, the scarcity of…

13:00 JSTLLM/生成AIOpenAI

ThinkBooster: A Unified Framework for Seamless Test-Time Scaling of LLM Reasoning

Test-time compute (TTC) scaling has emerged as a powerful paradigm for improving large language model (LLM) reasoning by allocating additio…

13:00 JST研究/論文

The Fine-Tuning Trap: Evaluating Negative Transfer and the Role of PEFT in Sub-1B Mathematical Reasoning

Deploying Small Language Models (SLMs) on edge devices requires efficient fine-tuning strategies that adapt models to new tasks without deg…

13:00 JSTLLM/生成AI規制/政策研究/論文

Didact: A Cross-Domain Capability Discovery System for Defence

Policymakers in defence and defence-aligned sectors must monitor rapidly evolving research alongside sector priorities relevant to operatio…

13:00 JSTLLM/生成AI画像/動画生成

SS-TPT: Stability and Suitability-Guided Test-Time Prompt Tuning for Adversarially Robust Vision-Language Models

Vision-language models (VLMs) such as CLIP achieve strong zero-shot recognition but remain highly fragile under adversarial perturbations.…

13:00 JSTLLM/生成AI

Auditing Training Data in Domain-adapted LLMs: LoRA-MINT

We present LoRA-MINT, a new methodology for Membership Inference Test (MINT) applied to recent Large Language Models (LLMs) fine-tuned for…

13:00 JST画像/動画生成

When is 3D Worth It? A Resource-Performance Frontier for CNNs and Transformers in Lung CT

Three-dimensional models are widely assumed preferable for volumetric medical imaging, yet their practical value depends on whether perform…

13:00 JSTLLM/生成AIビジネス/資金調達研究/論文

OpenHalDet: A Unified Benchmark for Hallucination Detection across Diverse Generation Scenarios

Hallucination detection is essential for the reliable deployment of large language models (LLMs). However, existing evaluations face two co…

13:00 JST画像/動画生成Alibaba

DaX: Learning General Pathology Representations Across Scales

Computational pathology requires visual representations that transfer across diverse clinical endpoints and remain robust to variation in m…

13:00 JSTLLM/生成AI画像/動画生成

Don't Pause: Streaming Video-Language Synchrony for Online Video Understanding

Online Video Large Language Models (Video-LLMs) have advanced toward seamless human-AI interaction through frame-by-frame processing and pr…

13:00 JSTLLM/生成AI

DataEvolver: Automatic Data Preparation for Large Language Models through Multi-Level Self-Evolving

High-quality training data is essential to large language models (LLMs) and typically requires extensive and costly manual curation. Existi…

13:00 JST研究/論文

A Geometric View for Understanding Concept Learning and Neuron Interpretation in Sparse Autoencoders

We propose a unified mathematical framework for a geometric understanding of concept learning and neuron interpretation in sparse autoencod…

13:00 JST研究/論文

Towards Unified Song Generation and Singing Voice Conversion with Accompaniment Co-Generation

While song generation and singing voice conversion (SVC) have evolved significantly, they have long been developed isolated: the former lac…

13:00 JSTLLM/生成AI

Phonetic Error Analysis of Raw Waveform Acoustic Models

We analyse error patterns of raw waveform acoustic models on TIMIT phone recognition beyond the overall phone error rate (PER). PER is deco…

13:00 JST画像/動画生成研究/論文

Never Seen Before: Benchmarking Genuine Zero-Shot Composed Image Retrieval with Consistent Video-Sourced Datasets

Zero-Shot Composed Image Retrieval (ZS-CIR) aims to retrieve a target image based on a query composed of a reference image and a relative c…

13:00 JST画像/動画生成

STREAM: Stochastic Riemannian Flow Matching with Anisotropic Decoder for Digital Histopathology Image Generation

Synthetic histopathology image generation addresses critical challenges in computational pathology, including patient privacy and the growi…

13:00 JSTLLM/生成AIエージェント

TRACE: Trajectory Reasoning through Adaptive Cross-Step Evidence Aggregation for LLM Agents

Autonomous LLM agents can pursue hidden malicious objectives through sequences of individually benign actions, making sabotage difficult to…

13:00 JSTエージェント研究/論文

SlimSearcher: Training Efficiency-Aware Web Agents via Adaptive Reward Gating

Deep research agents have demonstrated remarkable capabilities in complex information-seeking tasks, yet this power comes at a steep comput…

13:00 JST研究/論文

dots.tts Technical Report

We present dots.tts, a 2B-parameter continuous autoregressive text-to-speech (TTS) foundation model that models speech in a continuous late…

13:00 JST研究/論文

On the Geometry of On-Policy Distillation

On-policy distillation (OPD) is increasingly used to improve large language model reasoning, but its training dynamics remain poorly unders…

13:00 JST研究/論文

MetaConfigurator: AI-Assisted RDF Authoring from JSON Data

Scientific workflows increasingly generate structured JSON data that is easy to exchange but difficult to interpret consistently across sys…

13:00 JST画像/動画生成

GP-Adapter: Gaussian Process CLIP-Adapter for Few-Shot Out-of-Distribution Detection

We propose GP-Adapter, a training-free framework that augments CLIP (Contrastive Language-Image Pre-training) with Gaussian Process (GP) un…

13:00 JST研究/論文

DIFFRACT: Neuralized Utility Maximization for Wireless Networks by Differentiable Programming

Next-generation wireless networks, including satellite-to-Open RAN systems, demand agile and intelligent resource management capable of han…

13:00 JSTLLM/生成AI

OffQ: Taming Structured Outliers in LLM Quantization by Offsetting

Low-bit quantization has been widely adopted to accelerate the inference of large language models (LLMs) by significantly reducing computat…

13:00 JST画像/動画生成研究/論文

Native3D: End-to-End 3D Scene Generation via Unified Mesh-Texture Modeling and Semantic Alignment

This paper presents Native3D, the first end-to-end 3D scene generation framework that completely bypasses 2D intermediate representations.…

13:00 JSTエージェント

The Three-Ring Architecture: Governing Agents in the Era of On-Platform Organisations

The current phase of enterprise AI deployment faces a structural failure: organisations are acquiring agentic capability without the infras…

13:00 JSTビジネス/資金調達研究/論文

REMEDI: A Benchmark for Retention and Unlearning Evaluation in Multi-label Clinical Disease Inference

Language models trained for clinical disease inference are trained on patient data, which may include sensitive and private information, an…

13:00 JSTエージェント

From Privacy to Workflow Integrity: Communication-Graph Metadata in Autonomous Agent Interoperability

Agent-interoperability protocols such as A2A and MCP standardize what agents say to one another, but assume address-based transport over HT…

13:00 JSTLLM/生成AIビジネス/資金調達研究/論文Gemini

UrduMMLU: A Massive Multitask Benchmark for Urdu Language Understanding

Meaningful multilingual evaluation must test models in the target language and educational context. Urdu, spoken by more than 230 million p…

13:00 JSTLLM/生成AI画像/動画生成GemmaQwen

Textual Supervision Enhances Geospatial Representations in Vision-Language Models

Geospatial understanding is a critical yet underexplored dimension in the development of machine learning systems for tasks such as image g…

13:00 JST研究/論文

RETROSPECT: RETROsynthesis via Sequential Prediction, and Chemically Transformed-ranking

Single-step retrosynthesis needs both accurate first-ranked suggestions and candidate lists that are rich enough for downstream selection.…

13:00 JSTエージェントロボティクス

An Abstract Architecture for Explainable Autonomy in Hazardous Environments

Autonomous robotic systems are being proposed for use in hazardous environments, often to reduce the risks to human workers. In the immedia…

13:00 JST画像/動画生成

DualGate-Net: A Prior-Gated Dual-Encoder Framework for Histopathology Cell Detection

Cell detection in histopathology images strongly depends on surrounding tissue context, where visually similar cells may belong to differen…

13:00 JSTLLM/生成AI

DEFINED: A Data-Efficient Computational Framework for Fine-Grained Creativity Assessment in Debate Scenarios

Human creativity has emerged as a critical competency in the era of large language models. Assessing creativity in complex, open-ended envi…

13:00 JSTLLM/生成AIGPT / ChatGPT

When Large Language Models Fail in Healthcare: Evaluating Sensitivity to Prompt Variations

Large Language Models (LLMs) are increasingly used in healthcare for tasks such as clinical question answering, diagnosis support, and repo…

13:00 JST画像/動画生成エージェントロボティクス

Beyond Waypoints: A Trajectory-Centric Waypointing Paradigm for Vision-Language Navigation

Vision-Language Navigation in Continuous Environments (VLN-CE) requires agents to follow natural-language instructions while navigating in…

13:00 JST研究/論文

AI Sovereignty: A Qualitative Model of Strategic Competition as AI Becomes an Instrument of National Power

AI sovereignty is the extent to which a nation independently controls its artificial intelligence (AI) technologies. The race toward ever-m…

13:00 JST規制/政策

Where Rectified Flows Leak: Characterising Membership Signals Along the Interpolation Path

Understanding what generative models retain from training data remains challenging, with implications for copyright and privacy. Beyond ver…

13:00 JSTLLM/生成AI

Acoustic Cue Alignment in Audio Language Models for Speech Emotion Recognition

Instruction-following audio language models (ALMs) can be augmented with explicit acoustic cues, yet it remains unclear whether such cues a…

13:00 JST画像/動画生成

CULTURESCORE: Evaluating Cultural Faithfulness in Video Generation Models

As video generation models like Veo 3.1 and LTX-2 advance, their ability to accurately represent diverse global cultures remains a critical…

13:00 JSTLLM/生成AI

SV-Detect: AI-generated Text Detection with Steering Vectors

Detecting machine-generated text is especially difficult under distribution shift, such as transfer across domains, source models, and edit…

13:00 JSTLLM/生成AIエージェント

Hierarchical Certified Semantic Commitment for Byzantine-Resilient LLM-Agent Collaboration

Byzantine collaboration among large-language-model agents requires a finality-control primitive: given delivered stochastic, structured nat…

13:00 JST研究/論文

A Temporal Spatial Minimax Rate for Smoothly-Varying Distributions in Wasserstein Space

We study the minimax rate of estimating a future value $\mu_{t_n+h}$ of a curve $t\mapsto\mu_t$ in the $2$-Wasserstein space $\mathcal{P}_2…

13:00 JST研究/論文

SleepExplain: Explainable Non-Rapid Eye Movement and Rapid Eye Movement Sleep Stage Classification from EEG Signal

Classification of sleep stages is one of the most important diagnostic approaches for a variety of sleep-related disorders. Electroencephal…

13:00 JST研究/論文

A robust PPG foundation model using multimodal physiological supervision

Photoplethysmography (PPG), a non-invasive measure of changes in blood volume, is widely used in both wearable devices and clinical setting…

13:00 JST画像/動画生成研究/論文

Mitosis Detection in the Wild: Multi-Tumor and Context-Aware Generalization in the MIDOG 2025 Challenge

Automated mitosis detection is a well-established task in computational pathology. While previous benchmarks focused on scanner-induced dom…

13:00 JSTLLM/生成AIエージェントビジネス/資金調達

Do Coding Agents Deceive Us? Detecting and Preventing Cheating via Capped Evaluation with Randomized Tests

A growing failure mode in agent evaluation and training is that models can achieve high evaluation scores by exploiting shortcuts instead o…

13:00 JST画像/動画生成

Impact of Synthetic Lesional MR Images in Automated Focal Cortical Dysplasia Detection in Low-Data Scenarios

Background and Purpose: Automated detection of focal cortical dysplasia (FCD) requires large volumes of voxelwise lesion-delineated MRI dat…

13:00 JSTLLM/生成AIビジネス/資金調達DeepSeek

A Comprehensive Anatomy of Human and DeepSeek-R1 LLM Mathematical Reasoning

The emergence of "Aha moments" in large language models, particularly DeepSeek-R1-0120, has raised the question of whether these systems ge…

13:00 JSTLLM/生成AIエージェント

Socratic-SWE: Self-Evolving Coding Agents via Trace-Derived Agent Skills

LLM-driven software engineering agents have become a central testbed for real-world language-model capability, yet their training remains l…

13:00 JSTLLM/生成AI

The Masked Advantage: Uncovering Local-Language Access to Cultural Knowledge in LLMs

Large language models are increasingly used to answer culturally grounded questions across languages, yet it remains unclear whether local…

13:00 JSTLLM/生成AI画像/動画生成研究/論文

Watch, Remember, Reason: Human-View Video Understanding with MLLMs

Video understanding is being rapidly transformed by multimodal large language models (MLLMs), as research moves from short clips to long, m…

13:00 JSTエージェントロボティクス

Re-imagining ISO 26262 in the Age of Autonomous Vehicles: Enhancing Controllability through Transferability and Predictability

The ISO 26262 standard defines functional safety for road vehicles through risk assessments based on Severity, Exposure, and Controllabilit…

13:00 JSTLLM/生成AI画像/動画生成

TEVI: Text-Conditioned Editing of Visual Representations via Sparse Autoencoders for Improved Vision-Language Alignment

Vision-language models such as CLIP are highly useful for diverse tasks due to their shared image-text embedding space. Despite this, the i…

13:00 JST研究/論文

PaperFlow: Profiling, Recommending, and Adapting Across Daily Paper Streams

Scientific paper recommendation is typically evaluated as static ranking over a fixed candidate set, yet real scientific reading unfolds as…

13:00 JST画像/動画生成エージェントロボティクス

Planning-aligned Token Compression for Long-Context Autonomous Driving

Monolithic vision-action models represent an emerging paradigm in autonomous driving. However, this architecture produces token sequences t…

13:00 JST研究/論文

Whisper Hallucination Detection and Mitigation via Hidden Representation Steering and Sparse AutoEncoders

Whisper, a widely adopted ASR model, is known to suffer from hallucinations - coherent transcriptions generated for non-speech audio entire…

13:00 JST研究/論文

Graph Neural Network leveraging Higher-order Class Label Connectivity for Heterophilous Graphs

Node classification in graph neural networks (GNNs) has been widely applied in various fields of graph analysis. GNNs achieve high-accuracy…

13:00 JSTLLM/生成AIGPT / ChatGPTQwen

Supervision versus Demonstration-Based In-Context Learning for Multiword Expression Classification

Turkish idiomatic light verb constructions (LVCs) are challenging for multiword expression processing because they often share the same sur…

13:00 JST研究/論文

Twelve quick tips for designing AI-driven HPC workflows

High-performance computing (HPC) clusters remain the backbone of large-scale scientific computation, traditionally executing deterministic,…

13:00 JSTLLM/生成AILlama

Sparse Subspace-to-Expert Sharing for Task-Agnostic Continual Learning

Continual learning in Large Language Models (LLMs) is hindered by the plasticity-stability dilemma, where acquiring new capabilities often…

13:00 JSTLLM/生成AI画像/動画生成エージェント

MemDreamer: Decoupling Perception and Reasoning for Long Video Understanding via Hierarchical Graph Memory and Agentic Retrieval Mechanism

Current Vision-Language Models struggle with hours-long videos because processing full-length visual sequences induces prohibitive token ex…

13:00 JSTLLM/生成AI研究/論文

How reliable are LLMs when it comes to playing dice?

We investigate the probabilistic reasoning capabilities of large language models through a controlled benchmarking study on discrete probab…

13:00 JSTLLM/生成AI

LLM-Guided Search for Deletion-Correcting Codes

Finding deletion-correcting codes of maximum size has been an open problem for over 70 years, even for a single deletion. We adapt FunSearc…

13:00 JSTLLM/生成AI

Finding the Minimal Parameter Budget for Implicit Reasoning: A Data Complexity Driven Scaling Law for Language Models

Reasoning is a core capability of language models (LMs), yet it remains unclear how much model capacity is necessary to support reasoning d…

13:00 JST研究/論文GPT / ChatGPT

ChemQuests: A Curated Chemistry Question-Answer Database Extracted from ChemRxiv papers

The rapid expansion of chemistry literature poses significant challenges for researchers seeking to efficiently access domain-specific know…

13:00 JSTLLM/生成AIエージェント

EVA: Evolving Semantic Adversaries for Red-Teaming GUI Agents Against Environmental Injection Attacks

Graphical User Interface (GUI) agents powered by Multimodal Large Language Models (MLLMs) are increasingly deployed yet vulnerable to Envir…

13:00 JST研究/論文

Exploring Flow-Lenia Universes with a Curiosity-driven AI Scientist: Discovering Diverse Ecosystem Dynamics

We present a curiosity-driven AI scientist method for discovering system-level dynamics in Flow-Lenia, a continuous cellular automaton (CA)…

13:00 JSTエージェント

Model Context Protocols in Adaptive Transport Systems: A Survey

The rapid expansion of interconnected devices, autonomous systems, and AI applications has created severe fragmentation in adaptive transpo…

13:00 JST研究/論文

Understanding Generative Recommendation with Semantic IDs from a Model-scaling View

Recent advancements in generative models have allowed the emergence of a promising paradigm for recommender systems (RS), known as Generati…

13:00 JSTエージェント研究/論文

Small Language Model Agents Enable Efficient and High-Quality Knowledge Mining

At the core of Deep Research is knowledge mining, the task of extracting structured information from massive unstructured text in response…

13:00 JSTLLM/生成AI

MHA-RAG: Improving Efficiency, Accuracy, and Consistency by Encoding Exemplars as Soft Prompts

Adapting Foundation Models to new domains with limited training data is challenging and computationally expensive. While prior work has dem…

13:00 JSTエージェント

Agentic Physical AI toward a Domain-Specific Foundation Model for Energy Systems: A Case Study on Nuclear Reactor Control

The prevailing paradigm in AI for physical systems: scaling general-purpose foundation models toward universal multimodal reasoning, confro…

13:00 JSTロボティクス

CHDP: Cooperative Hybrid Diffusion Policies for Reinforcement Learning in Parameterized Action Space

Hybrid action space, which combines discrete choices and continuous parameters, is prevalent in domains such as robot control and game AI.…

13:00 JST研究/論文GeminiLlama

TSAQA: Time Series Analysis Question And Answering Benchmark

Time series data are integral to critical applications across domains such as finance, healthcare, transportation, and environmental scienc…

13:00 JST画像/動画生成エージェント

Dual Latent Memory for Visual Multi-agent System

While Visual Multi-Agent Systems (VMAS) promise to enhance comprehensive abilities through inter-agent collaboration, empirical evidence re…

13:00 JSTLLM/生成AI画像/動画生成Qwen

MACD: Model-Aware Contrastive Decoding via Counterfactual Data

Video language models (Video-LLMs) are prone to hallucinations, generating plausible but ungrounded content when visual evidence is weak, a…

13:00 JSTLLM/生成AI

VALUEFLOW: Toward Pluralistic and Steerable Value-based Alignment in Large Language Models

Aligning Large Language Models (LLMs) with the diverse spectrum of human values remains a central challenge: preference-based methods often…

13:00 JSTLLM/生成AIビジネス/資金調達

LLM-Augmented Digital Twin for Policy Evaluation in Short-Video Platforms

Short-video platforms are closed-loop, human-in-the-loop ecosystems where platform policy, creator incentives, and user behavior co-evolve.…

13:00 JST研究/論文

LuMamba: Latent Unified Mamba for Electrode Topology-Invariant and Efficient EEG Modeling

Electroencephalography (EEG) enables non-invasive monitoring of brain activity across clinical and neurotechnology applications, yet buildi…

13:00 JST研究/論文

D5P4: Partition Determinantal Point Process for Diversity in Parallel Discrete Diffusion Decoding

Discrete diffusion models are promising alternatives to autoregressive approaches for text generation, yet their decoding methods remain un…

13:00 JSTLLM/生成AIエージェント

Multi-Agent Reasoning with Consistency Verification Improves Uncertainty Calibration in Medical MCQA

Miscalibrated confidence scores are a practical obstacle to deploying AI in clinical settings. A model that is always overconfident offers…

13:00 JST研究/論文

Design Once, Deploy at Scale: Template-Driven ML Development for Large Model Ecosystems

Modern computational advertising platforms typically rely on recommendation systems to predict user responses, such as click-through rates,…

13:00 JST研究/論文

The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook

Latent space is rapidly emerging as a native substrate for language-based models. While modern systems are still commonly understood throug…

13:00 JSTLLM/生成AIエージェントGeminiLlama

Don't Make the LLM Read the Graph: Make the Graph Think

We investigate whether explicit belief graphs improve LLM performance in cooperative multi-agent reasoning. Through 3,000+ controlled trial…

13:00 JSTLLM/生成AIエージェント

To Call or Not to Call: A Framework to Assess and Optimize LLM Tool Calling

Agentic AI architectures augment LLMs with external tools, unlocking strong capabilities. However, tool use is not always beneficial; some…

13:00 JSTエージェントGPT / ChatGPTGemmaNVIDIA

Beyond the Black Box: Interpretability of Agentic AI Tool Use

AI agents are promising for high-stakes enterprise workflows, but dependable deployment remains limited because tool-use failures are diffi…

13:00 JSTエージェント

Robust Instruction Compliance in Cooperative Multi-Agent Reinforcement Learning

Multi-agent reinforcement learning (MARL) in real-world use cases may need to adapt to external natural language instructions that interrup…

13:00 JSTLLM/生成AIエージェント

Insights Generator: Systematic Corpus-Level Trace Diagnostics for LLM Agents

Diagnosing failures in LLM agents remains largely manual. Practitioners inspect a small subset of execution traces, form ad-hoc hypotheses,…

13:00 JST研究/論文

Latent-space Attacks for Refusal Evasion in Language Models

Safety-aligned language models are trained to refuse harmful requests, yet refusal behavior can be suppressed by steering their internal re…

13:00 JST研究/論文

CORE: Contrastive Reflection Enables Rapid Improvements in Reasoning

Language models can use verifiable rewards to improve at a wide variety of reasoning tasks. However, both parametric (e.g. RLVR) and non-pa…

13:00 JSTLLM/生成AI

「弱い」シグナルから強いモデルへ: LoRA マージを使用したプリファレンス デルタ アグリゲーション

強力な大規模言語モデル (LLM) をトレーニングするには、高品質の監督が必要ですが、それが不足していることがよくあります。最近の研究では、弱いモデルと弱いモデルのペア (例: Qwen3 4B 対 1.7B) からのペアの嗜好データは、個々の応答の品質が限られているにもかかわらず、相対的な品質のデルタ (これを「弱い」信号と呼ぶ) を通じて効果的な監視信号を提供できることが示されています。これは、重要な研究課題の動機となります。つまり、複数の「弱い」信号を建設的に集約して、強力なモデル (Qwen3 8B など) を改善できるか?この目的を達成するために、私たちは優先デルタ集約 (PDA) を提案します。これは、弱いモデルと弱いモデルのそれぞれのペアから優先デルタを導出し、それを優先最適化を通じて学習した LoRA アダプターとしてインスタンス化し、LoRA マージを通じて結果のデルタを集約する最初のフレームワークです。 LoRA マージ中の指向性干渉をさらに軽減するために、Geometric Alignment Merging (GAM) を導入しました。これは、集約前にアダプターのサブスペースを位置合わせする、ジオメトリを意識したマージ手法であり、多様なデルタのより堅牢な構成を可能にします。知識推論とエージェント検索ベンチマークの評価では、複数の「弱い」信号を集約すると、単一の信号を超えてパフォーマンスが向上し、追加の信号が組み込まれるとさらに向上することが示されています。同様に、GAM を備えた PDA は、知識推論とエージェント検索において、強力なモデルをそれぞれ平均 6.8 ポイントと 7.3 ポイント改善しました。これはすべてのシングルデルタおよびマルチデルタのベースラインを上回り、最高のシングルデルタのベースラインを 2.1 ポイントおよび 4.3 ポイント上回っています。さらなる分析では、これらの利益は、異なる優先デルタにわたってエンコードされた補完的な機能の効果的な構成によるものであると考えられます。

原文 (English)

From "Weak" Signals to Strong Models: Preference Delta Aggregation with LoRA Merging

Training strong large language models (LLMs) requires high-quality supervision, which is often scarce. Recent work shows that paired preference data from weak-weaker model pairs (e.g., Qwen3 4B over 1.7B), despite the limited quality of individual responses, can provide an effective supervision signal through relative quality deltas, which we term a "weak" signal. This motivates a key research question: can multiple "weak" signals be constructively aggregated for improving strong models (e.g., Qwen3 8B)? To this end, we propose Preference Delta Aggregation (PDA), the first framework that derives a preference delta from each weak-weaker model pair, instantiates it as a LoRA adapter learned through preference optimization, and aggregates the resulting deltas via LoRA merging. To further mitigate directional interference during LoRA merging, we introduce Geometric Alignment Merging (GAM), a geometry-aware merging method that aligns adapter subspaces before aggregation, enabling more robust composition of diverse deltas. Evaluations on knowledge reasoning and agentic search benchmarks show that aggregating multiple "weak" signals pushes performance beyond any single signal, with further gains as additional signals are incorporated. Correspondingly, PDA with GAM improves the strong model by 6.8 and 7.3 points on average for knowledge reasoning and agentic search, respectively. It outperforms all single-delta and multi-delta baselines, exceeding the best single-delta baseline by 2.1 and 4.3 points. Further analysis attributes these gains to the effective composition of complementary capabilities encoded across distinct preference deltas.

13:00 JSTLLM/生成AI

RAG ベースのファクトチェックにおける証拠前の認識状態に対する LLM 仲裁動作の診断

RAG ベースのファクトチェックでは、特定の主張を取得した証拠と照合するための検証者として LLM が使用されることが増えています。彼らのパラメトリック知識は、取得されたコンテキストと矛盾する可能性のある事前証拠の傾向を誘発する可能性がありますが、既存の評価フレームワークは、そのような事前コンテキストの不一致を特徴付けたり、検証者がパラメトリック信号とコンテキスト信号の間でどのように調停するかを測定したりすることはありません。 \textsc{PAVE} (\emph{事前認識検証者評価}) を導入します。これは、事前証拠の正確さと信頼性に基づいて LLM 検証者を 4 つの認識論的状態に階層化し、この新しいベンチマークでの調停動作を評価します。つまり、誤解を招く証拠の下で正しい事前検証を維持するかどうか、正確な証拠が提供されたときに間違った事前検証を修正するかどうかを評価します。 7 つの LLM にわたる実験では、信頼性が低く、モデルに大きく依存する事前コンテキスト アービトレーションが明らかになり、現実世界の RAG ベースのファクトチェック アプリケーションにおける検証者の選択の重要性が強調されています。これらの発見に基づいて、基礎となるモデルを変更することなく事実の信頼性を向上させ、多様な LLM ファミリ間で競争力のあるパフォーマンスを実現する、軽量の JSD ベースのテスト時間調停手法を提案します。

原文 (English)

Diagnosing LLM Arbitration Behavior over Pre-evidence Epistemic States in RAG-based Fact-Checking

In RAG-based fact-checking, LLMs are increasingly used as verifiers to check given claims against retrieved evidence. Their parametric knowledge can induce pre-evidence tendencies that may conflict with the retrieved context, yet existing evaluation frameworks do not characterize such prior-context discrepancy or measure how verifiers arbitrate between parametric and contextual signals. We introduce \textsc{PAVE} (\emph{Prior-Aware Verifier Evaluation}), a diagnostic testbed that stratifies an LLM verifier into four epistemic states based on the correctness and confidence of its pre-evidence prior and evaluates its arbitration behavior on this new benchmark, i.e., whether it persists in correct prior under misleading evidence, and whether it corrects wrong prior when accurate evidence is provided. Experiments across seven LLMs reveal unreliable and highly model-dependent prior-context arbitration, highlighting the importance of verifier selection for real-world RAG-based fact-checking applications. Based on these findings, we propose a lightweight JSD-based test-time arbitration method that improves factual reliability without modifying the underlying model, achieving competitive performance across diverse LLM families.

13:00 JST研究/論文

Pythia マルチホップ設定でのクロスモデル アクティベーション転送の否定的な結果

最近の研究では、言語モデルがトレーニング中に生成されたデータ内の隠れたシグナルを通じて行動特性を伝達できることが示されています。私たちは、より直接的でより厳密なチャネルも実行可能であるかどうかを尋ねます。ある言語モデルは、自然言語テキストを渡すのではなく、隠れたアクティベーションを翻訳して挿入することによって、推論時に有用な中間推論状態を別の言語モデルに伝達できるでしょうか。この質問を、制御された Pythia-160M から Pythia-410M へのマルチホップ推論設定でテストします。線形変換層は、シード全体で 0.97 近くの正規化コサイン類似度を備えた、送信側と受信側の隠れ状態間の強力な正規化空間マップを学習します。ただし、変換されたアクティベーションが推論時に受信機に注入される場合、ダウンストリームの応答は改善されません。低強度の添加剤の注入は、注入なしのベースライン付近に留まり、信頼区間はゼロと交差します。置換スタイルの注入は一貫して破壊的であり、変換されたベクトルを受信側の隠れ状態の標準に再スケーリングしてもパフォーマンスは回復しません。したがって、結果はスコープ付きの否定的な結果になります。この設定では、オフラインの表現的調整は、受信機内部での有用な因果関係の通信には十分ではありません。

原文 (English)

A Negative Result on Cross-Model Activation Transfer in a Pythia Multi-Hop Setting

Recent work shows that language models can transmit behavioural traits through hidden signals in generated data during training. We ask whether a different activation-mediated channel is viable: can one language model communicate a useful intermediate reasoning state to another at inference time through a post-hoc linear activation bridge, rather than through a textual or structured-token relay? We test this question in a controlled Pythia-160M to Pythia-410M multi-hop reasoning setting. A linear translation layer learns a strong normalized-space map between sender and receiver hidden states, with normalized cosine similarity near 0.97 across seeds. However, when the translated activations are injected into the receiver at inference time, they do not improve downstream answering. Low-strength additive injection remains near the no-injection baseline, with confidence intervals that cross zero. Replacement-style injection is consistently destructive, and rescaling translated vectors to the receiver hidden-state norm does not rescue performance. The result is therefore a scoped negative result: in this setting, offline representational alignment is not sufficient for useful causal communication inside the receiver.

13:00 JSTエージェント研究/論文

SentinelBench: A Benchmark for Long-Running Monitoring Agents

AI agents are increasingly asked to carry out work that spans minutes, hours, or longer. Yet the default model of agent behavior is continu…

13:00 JSTLLM/生成AIハードウェア/半導体

Beyond Output Matching: Preserving Internal Geometry in NVFP4 LLM Distillation

Demand for low-precision inference, including NVFP4-based approaches, has grown as large language models are increasingly deployed in laten…

13:00 JSTLLM/生成AIエージェント研究/論文

SubtleMemory: A Benchmark for Fine-Grained Relational Memory Discrimination in Long-Horizon AI Agents

Persistent AI assistants, such as OpenClaw, accumulate large collections of related memories over long-term interactions. As these memories…

13:00 JSTLLM/生成AIエージェント

Should You Use Your Large Language Model to Explore or Exploit?

We evaluate the ability of the current generation of large language models (LLMs) to help a decision-making agent facing an exploration-exp…

13:00 JST研究/論文

Towards Efficient and Exact Forgetting Services in Pre-Trained-Model-based Continual Learning

In Continual Learning (CL), using a Pre-Trained Model (PTM) as the feature extractor has become a popular practice. Accompanied by analytic…

13:00 JST研究/論文

Bounded-Abstention Pairwise Learning to Rank

Ranking systems influence decision-making in high-stakes domains like health, education, and employment, where they can have substantial ec…

13:00 JSTLLM/生成AI画像/動画生成

MoDA: Modulation Adapter for Fine-Grained Visual Grounding in Instructional MLLMs

Multimodal Large Language Models (MLLMs) have achieved remarkable success in instruction-following tasks by integrating pretrained visual e…

13:00 JST研究/論文

CoQuIR: A Comprehensive Benchmark for Code Quality-Aware Information Retrieval

Code retrieval is essential in modern software development, as it boosts code reuse and accelerates debugging. However, current benchmarks…

13:00 JSTLLM/生成AI研究/論文

Telling stories, making Hanzi: AI-assisted co-creation with elderly migrants in urban China

This paper explores how older migrants in urban China can record stories that everyday language and design often miss. We ran two co-creati…

13:00 JSTLLM/生成AI

Database Normalization via Dual-LLM Self-Refinement

Database normalization is crucial to preserving data integrity. However, it is time-consuming and error-prone, as it is typically performed…

13:00 JSTLLM/生成AI研究/論文GPT / ChatGPT

Limitations of Normalization in Attention Mechanism

This paper investigates the limitations of the normalization in attention mechanisms. We begin with a theoretical framework that enables th…

13:00 JST研究/論文

A Mechanism-Coupled Split Window Network for Medium- to High-Resolution Land Surface Temperature Retrieval

Land surface temperature (LST) is a fundamental physical variable in land-atmosphere interactions, surface energy budgets, and climate proc…

13:00 JSTLLM/生成AI

Standard vs. Modular Sampling: Best Practices for Reliable LLM Unlearning

A conventional LLM Unlearning setting consists of two subsets -"forget" and "retain", with the objectives of removing the undesired knowled…

13:00 JST研究/論文

MVCL-DAF++: Enhancing Multimodal Intent Recognition via Prototype-Aware Contrastive Alignment and Coarse-to-Fine Dynamic Attention Fusion

Multimodal intent recognition (MMIR) suffers from weak semantic grounding and poor robustness under noisy or rare-class conditions. We prop…

13:00 JST画像/動画生成

Scalable GANs with Transformers

Scalability has driven recent advances in generative modeling, yet its principles remain underexplored for adversarial learning. We investi…

13:00 JST研究/論文

Proxy Reconstruction Pre-training for Ramp Flow Prediction at Highway Interchanges

Interchanges are crucial nodes for vehicle transfers between highways, yet the lack of real-time ramp detectors creates blind spots in traf…

13:00 JSTLLM/生成AIビジネス/資金調達

SWE-IF: Aligning Code Evaluation with Human Preference

Large Language Models (LLMs) have catalyzed vibe coding, where users leverage LLMs to generate and iteratively refine code through natural…

13:00 JSTエージェント

Robust Driving Control for Autonomous Vehicles: An Intelligent General-sum Constrained Adversarial Reinforcement Learning Approach

Deep reinforcement learning (DRL) has demonstrated remarkable success in developing autonomous driving policies. However, its vulnerability…

13:00 JST画像/動画生成エージェントロボティクス

MatterDoor: Sampling Zero-shot Spatio-semantic Priors using Generative Models

Autonomous robots often view rooms only partially, through a doorway, where the walls and scene structure hide the geometry and task-releva…

13:00 JSTエージェント

ReclAIm: A Multi-Agent Framework for Monitoring and Correcting Performance Decline in Medical Imaging AI

Purpose: To develop and evaluate a multi-agent framework (ReclAIm) for automated monitoring, detection, and correction of performance decli…

13:00 JST研究/論文

LoRA-DA: Data-Aware Initialization for Low-Rank Adaptation via Asymptotic Analysis

LoRA has become a widely adopted method for PEFT, and its initialization methods have attracted increasing attention. However, existing met…

13:00 JST研究/論文

On the importance of multiple training seeds for evaluating machine unlearning

Machine unlearning aims to remove the influence of certain data points from a trained model without costly retraining. Most practical unlea…

13:00 JSTエージェントClaude

Towards Iterative End-to-End Software Development: A Feature-Driven Multi-Agent Framework

Recent advances in large language model agents offer the promise of automating end-to-end software development from natural language requir…

13:00 JSTLLM/生成AIエージェント

Measuring Agents in Production

LLM-based agents already operate in production across many industries, yet we lack an understanding of what technical methods make deployme…

13:00 JST画像/動画生成

Calibrating Uncertainty for Zero-Shot Adversarial CLIP

CLIP delivers strong zero-shot classification but remains highly vulnerable to adversarial attacks. Prior adversarial fine-tuning work prim…

13:00 JSTLLM/生成AI

RePo: Language Models with Context Re-Positioning

In-context learning is fundamental to modern Large Language Models (LLMs); however, prevailing architectures impose a rigid and fixed conte…

13:00 JSTエージェント研究/論文GPT / ChatGPTDeepSeek

It's a TRAP! Task-Redirecting Agent Persuasion Benchmark for Web Agents

Web-based agents powered by large language models are increasingly used for tasks such as email management or professional networking. Thei…

13:00 JSTLLM/生成AI

Analysing Differences in Persuasive Language in LLM-Generated Text: Uncovering Stereotypical Gender Patterns

Large language models (LLMs) are increasingly used for everyday communication tasks, including drafting interpersonal messages intended to…

13:00 JSTエージェント研究/論文

Autonomous computational catalysis through an agentic research system

Autonomous agents are beginning to transform scientific research from tool-assisted workflows toward self-sustaining discovery processes. C…

13:00 JST研究/論文

E2Former-V2: On-the-Fly Equivariant Attention with Linear Activation Memory

Equivariant Graph Neural Networks (EGNNs) have become a widely used approach for modeling 3D atomistic systems. However, mainstream archite…

13:00 JSTLLM/生成AIエージェント

Just-In-Time Reinforcement Learning: Continual Learning in LLM Agents Without Gradient Updates

While Large Language Model (LLM) agents excel at general tasks, they inherently struggle with continual adaptation due to the frozen weight…

13:00 JST画像/動画生成

Enhancing Video Representations with Spatiotemporal-Semantic Residual to Mitigate Hallucinations in Video Large Multimodal Models

Although Video Large Multimodal Models have achieved strong performance in video understanding, they still suffer from hallucination. Exist…

13:00 JST研究/論文

Learning to Execute Graph Algorithms Exactly with Graph Neural Networks

Understanding what graph neural networks can learn, especially their ability to learn to execute algorithms, remains a central theoretical…

13:00 JSTLLM/生成AI画像/動画生成

Rethinking Genomic Modeling Through Optical Character Recognition

Recent genomic foundation models largely adopt large language model architectures that treat DNA as a one-dimensional token sequence. Howev…

13:00 JST研究/論文

Step-Wise Refusal Dynamics in Autoregressive and Diffusion Language Models

Diffusion language models (DLMs) have recently emerged as a competitive alternative to autoregressive (AR) models, offering parallel decodi…

13:00 JSTLLM/生成AIハードウェア/半導体ClaudeGPT / ChatGPTGemini

Extracting Recurring Vulnerabilities from Black-Box LLM-Generated Software

LLMs are increasingly used for code generation, but their outputs often follow recurring templates that can induce predictable vulnerabilit…

13:00 JSTLLM/生成AIGemmaLlama

Endogenous Resistance to Activation Steering in Language Models

Large language models can recover mid-generation from task-misaligned activation steering, producing explicit verbal restarts (e.g., ``wait…

13:00 JST画像/動画生成GemmaQwen

The Geometry of Representational Failures in Vision Language Models

Vision-Language Models (VLMs) exhibit puzzling failures in multi-object visual tasks, such as hallucinating non-existent elements or failin…

13:00 JST画像/動画生成

Modality Gap-Driven Subspace Alignment Training Paradigm For Multimodal Large Language Models

Despite the success of multimodal contrastive learning in aligning visual and linguistic representations, a persistent geometric anomaly, t…

13:00 JSTLLM/生成AI

Discovering Interpretable Algorithms by Decompiling Transformers to RASP

Recent work has shown that the computations of Transformers can be simulated in the RASP family of programming languages. These findings ha…

13:00 JST研究/論文

TokaMind: A Multi-Modal Transformer Foundation Model for Tokamak Plasma Dynamics

We present TokaMind, to our knowledge the first open-source foundation model for tokamak plasma dynamics, based on a Multi-Modal Transforme…

13:00 JSTエージェントロボティクス研究/論文

ScenicRules: An Autonomous Driving Benchmark with Multi-Objective Specifications and Abstract Scenarios

Developing autonomous driving systems for complex traffic environments requires balancing multiple objectives, such as avoiding collisions,…

13:00 JST研究/論文

Position: A Dynamical Systems Perspective is Needed to Advance Time Series Modeling

Time series (TS) modeling has come a long way from early statistical, mainly linear, approaches to the current trend in TS foundation model…

13:00 JSTLLM/生成AI

TRUE: A Trustworthy Unified Explanation Framework for Large Language Model Reasoning

Large language models (LLMs) have demonstrated strong capabilities in complex reasoning tasks, yet their decision-making processes remain d…

13:00 JST画像/動画生成

Forecasting as Rendering: A 2D Gaussian Splatting Framework for Time Series Forecasting

Time series forecasting remains a challenging problem due to the intricate entanglement of intra-period fluctuations and inter-period trend…

13:00 JST研究/論文

Training for Technology: Adoption and Productive Use of Generative AI in Legal Analysis

Can targeted user training unlock the productive potential of generative artificial intelligence in professional settings? We study this qu…

13:00 JST研究/論文

Benchmarking Language Modeling for Lossless Compression of Full-Fidelity Audio

Autoregressive "language" models (LMs) trained on raw waveforms can be repurposed for lossless audio compression, but prior work is limited…

13:00 JSTハードウェア/半導体

VeriHGN: Heterogeneous Graph-Based Congestion Prediction for Chip Layout Verification

As Very Large Scale Integration (VLSI) designs continue to scale in size and complexity, layout verification has become a central challenge…

13:00 JSTエージェント

EvoClaw: Evaluating AI Agents on Continuous Software Evolution

With AI agents increasingly deployed as long-running systems, it becomes essential to autonomously construct and continuously evolve custom…

13:00 JSTビジネス/資金調達

$\mathrm{ECI}_{\mathrm{sem}}$: Semantic Residual Effective Contrastive Information for Evaluating Hard Negatives

Hard-negative source selection for dense retrieval is usually decided only after fine-tuning and downstream evaluation. We propose $\mathrm…

13:00 JST研究/論文

Evaluating AI-based Scientific Knowledge Synthesis with Epidemiological Systematic Reviews

Systematic literature reviews (SLRs) are a demanding and high-stakes form of scientific knowledge synthesis that remains underspecified as…

13:00 JST画像/動画生成ロボティクス

Chameleon: Control-Indexed Prospective Memory for Visuomotor Manipulation

Robots often observe information that determines a future action long before that action is executed. In a shell game, for example, a robot…

13:00 JSTLLM/生成AI

Stable Reasoning, Unstable Responses: Mitigating LLM Deception via Stability Asymmetry

As Large Language Models (LLMs) expand in capability and application scope, their trustworthiness becomes critical. A vital risk is intrins…

13:00 JST研究/論文

CountsDiff: A Diffusion Model on the Natural Numbers for Generation and Imputation of Count-Based Data

Diffusion models have excelled at generative tasks for both continuous and token-based domains, but their application to discrete ordinal d…

13:00 JSTエージェント研究/論文

SW-$A^2$-Bench: Benchmarking Autonomous Software Agent Generation for Agentic Web

The Agentic Web is emerging as a paradigm in which autonomous software agents interact with online resources and with each other to accompl…

13:00 JST研究/論文

OGA-AID: Clinician-in-the-loop AI Report Drafting Assistant for Multimodal Observational Gait Analysis in Post-Stroke Rehabilitation

Gait analysis is essential in post-stroke rehabilitation but remains time-intensive and cognitively demanding, especially when clinicians m…

13:00 JSTLLM/生成AIエージェントOpenAI

More Capable, Less Cooperative? When LLMs Fail At Zero-Cost Collaboration

Large language model (LLM) agents increasingly coordinate in multi-agent systems, yet we lack an understanding of where and why cooperation…

13:00 JSTロボティクス

ViVa: A Video-Generative Value Model for Robot Reinforcement Learning

Vision-language-action (VLA) models have advanced robot manipulation through large-scale pretraining, but real-world deployment remains cha…

13:00 JSTLLM/生成AIビジネス/資金調達

MCERF: Advancing Multimodal LLM Evaluation of Engineering Documentation with Enhanced Retrieval

Engineering rulebooks and technical standards contain multimodal information like dense text, tables, and illustrations that are challengin…

13:00 JSTLLM/生成AI

Self-Consistency from Only Two Samples: CoT-PoT Ensembling for Efficient LLM Reasoning

Self-consistency (SC) is a popular technique for improving the reasoning accuracy of large language models by aggregating multiple sampled…

13:00 JSTLLM/生成AIGoogle

RAVEN: Retrieval-Augmented Vulnerability Exploration Network for Memory Corruption Analysis in User Code and Binary Programs

Large Language Models (LLMs) have demonstrated remarkable capabilities across various cybersecurity tasks, including vulnerability classifi…

13:00 JSTLLM/生成AI

Automatic Causal Fairness Analysis with LLM-Generated Reporting

AutoML, intended as the process of automating the application of machine learning to real-world problems, is a key step for AI popularisati…

13:00 JST研究/論文

InvEvolve: Evolving White-Box Inventory Policies via Large Language Models with Performance Guarantees

We study how large language models can be used to generate inventory policies in online settings with non-stationary demand. Our work is mo…

13:00 JST研究/論文

MidSteer: Optimal Affine Framework for Steering Generative Models

Steering intermediate representations has emerged as a powerful strategy for controlling generative models, particularly in post-deployment…

13:00 JSTLLM/生成AI

MACS: Modality-Aware Capacity Scaling for Efficient Multimodal MoE Inference

Mixture-of-Experts Multimodal Large Language Models (MoE MLLMs) suffer from a significant efficiency bottleneck during Expert Parallelism (…

13:00 JST研究/論文

COF26: A new on-top functional for multiconfiguration pair-density functional theory

Multiconfiguration pair-density functional theory (MC-PDFT) provides an efficient and accurate framework for computing electronic energies…

13:00 JSTエージェント

Superintelligent Retrieval Agent: The Next Frontier of Agentic Retrieval

Retrieval-augmented agents are increasingly the interface to large knowledge bases, yet most treat retrieval as a black box: they issue exp…

13:00 JSTエージェントMicrosoft

Debugging the Debuggers: Failure-Anchored Structured Recovery for Software Engineering Agents

Software engineering agents are increasingly deployed in evaluable engineering environments, yet post-failure recovery remains costly, manu…

13:00 JSTLLM/生成AI

CHoE: Cross-Domain Heterogeneous Graph Prompt Learning via Structure-Conditioned Experts

Heterogeneous Graph Prompt Learning (HGPL)has emerged as a promising paradigm for bridging the gap between the objectives of pre-training f…

13:00 JSTエージェント

Rethinking Code Review in the Age of AI: A Vision for Agentic Code Review

Code review has evolved for decades, from informal peer checking to today's pull request (PR) workflows, yet it remains a largely manual an…

13:00 JST研究/論文

Automated Root-Cause Subclassification and No-Code Fix Generation for Invalid Bug Reports

Issues faced when using software are reported in the form of bug reports. However, many bug reports are invalid, meaning they do not requir…

13:00 JST画像/動画生成

Focus-then-Context: Subject-Centric Progressive Visual Token Reduction for Vision-Language Models

Vision-Language Models (VLMs) face a bottleneck of prohibitive computational costs arising from massive visual token sequences during infer…

13:00 JST画像/動画生成

ActQuant: 視覚・言語・アクションモデル向けのサブ 4 ビットのアクションガイド付き量子化

Vision-Language-Action(VLA)モデルは、身体化されたインテリジェンスに対して顕著なアクション生成を示しますが、その大量のコンピューティングにより、エッジ プラットフォームへの展開は非現実的です。積極的なサブ 4 ビット重み量子化は自然な解決策ですが、既存のポストトレーニング量子化 (PTQ) 手法は、この領域では重大なパフォーマンス低下に悩まされます。これに対処するために、アクション ガイド付き混合精度 PTQ フレームワークである ActQuant を導入します。これは 2 つの段階で動作します。(1) エージェントのアクションの予測にどれだけ寄与するかに基づいて、各重み行列に単一のビット幅を割り当てるテンソル間ビット アロケーター。 (2) テンソル内スケール オプティマイザーは、アクションを意識した曲率を使用してブロックごとの量子化スケールを調整し、ダイナミック レンジが制御に最も影響を与える重みに集中するようにします。積極的な量子化によるオンデバイスのメリットを実現するために、効率的な低ビット カーネルを備えたネイティブ C/C++ ランタイムにアーキテクチャを移植するエージェント変換パイプラインである OmniModel.cpp をさらに導入します。すべてのモデルが OmniModel.cpp を通じて展開され、シミュレーションと実際の 6-DoF UR3 アームの両方で ActQuant を評価します。 LIBERO ベンチマークでは、ActQuant は重みあたり 3 ビット以下で動作する唯一のメソッドであり、OpenVLA-OFT では 95.0%、$\pi_{0.5}$ では 94.8% を維持しています。さらに前進すると、ActQuant は OpenVLA-OFT 上で 90.1% で 2.5 bpw に達し、バックボーンを 14.3 GB から 2.7 GB (5.3$\times$) に圧縮します。物理 UR3 アームでは、ActQuant で量子化された $\pi_{0.5}$ はベースラインの成功率を維持しながら、メモリ フットプリントを 2.5$\times$ 削減します。

原文 (English)

ActQuant: Sub-4-bit Action-Guided Quantization for Vision-Language-Action Models

Vision-Language-Action (VLA) models exhibit remarkable action generation for embodied intelligence, but their heavy compute make deployment on edge platforms impractical. Aggressive, sub-4-bit weight quantization is the natural solution, yet existing post-training quantization (PTQ) methods suffer severe performance degradation in this regime. To address this, we introduce ActQuant, an action-guided mixed-precision PTQ framework that operates in two stages: (1) an inter-tensor bit allocator that assigns each weight matrix a single bit-width based on how much it contributes to predicting the agent's actions; (2) an intra-tensor scale optimizer tunes per-block quantization scales using action-aware curvature, so that dynamic range is concentrated on the weights most influential for control. To deliver the on-device benefits of our aggressive quantization, we further introduce OmniModel.cpp, an agentic conversion pipeline that ports architectures into a native C/C++ runtime with efficient low-bit kernels. We evaluate ActQuant both in simulation and on a real-world 6-DoF UR3 arm, with all models deployed through OmniModel.cpp. On the LIBERO benchmark, ActQuant is the only method that operates at or below 3 bits-per-weight, retaining 95.0% on OpenVLA-OFT and 94.8% on $\pi_{0.5}$. Pushed further, ActQuant reaches 2.5 bpw at 90.1% on OpenVLA-OFT, compressing the backbone from 14.3 GB to 2.7 GB (5.3$\times$). On the physical UR3 arm, $\pi_{0.5}$ quantized with ActQuant retains the baseline's success rate while reducing the memory footprint by 2.5$\times$.

13:00 JST研究/論文

必要に応じてスケール: 適応ニューロンレベルの混合精度量子化を意識したトレーニング

リソースに制約のある 6G エッジ デバイスにディープ ニューラル ネットワークを展開するには、精度の損失を最小限に抑えた積極的な圧縮が必要です。量子化対応トレーニング (QAT) は、主要な圧縮アプローチとして登場しました。ただし、既存の混合精度手法は通常、粗いレイヤ レベルまたはチャネル レベルの粒度で動作します。これらの方法は多くの場合、ヒューリスティックまたは検索ベースのビット割り当て戦略に依存しているため、ニューロン レベルでのきめの細かい変動性が見落とされる可能性があります。私たちは、各ニューロンがトレーニング中に独自の離散精度を個別に学習する、ニューロンレベル混合精度 QAT (NMP-QAT) を提案します。 NMP-QAT は、低ビット精度から開始し、完全に離散的な推論グラフを維持しながら、トレーニング信号が要求した場合にのみ、微分可能なサロゲートとストレートスルー推定器を介してビット幅を拡張します。この適応性は重みとアクティベーションの両方に拡張され、メモリの移動が軽減されます。 MLP および表形式基盤モデル アーキテクチャにわたる通信および非通信データセットで評価された NMP-QAT は、混合精度の QAT ベースラインと比較して優れた圧縮精度のトレードオフを実現し、ネットワーク エッジでのグリーン AI 導入に最適です。

原文 (English)

Scale When Needed: Adaptive Neuron-level Mixed Precision Quantization Aware Training

Deploying deep neural networks on resource-constrained 6G edge devices demands aggressive compression with minimal accuracy loss. Quantization-Aware Training (QAT) has emerged as a leading compression approach; however, existing mixed-precision methods typically operate at coarse layer- or channel-level granularity. These methods often rely on heuristic or search-based bit-allocation strategies, which may overlook fine-grained variability at the neuron level. We propose Neuron-Level Mixed-Precision QAT (NMP-QAT), where each neuron independently learns its own discrete precision during training. Starting from low-bit precision, NMP-QAT expands bit-width only when training signals demand it, via differentiable surrogates and straight-through estimators, while preserving a fully discrete inference graph. This adaptability extends to both weights and activations, reducing memory movement. Evaluated on telecom and non-telecom datasets across MLP and tabular foundation model architectures, NMP-QAT achieves superior compression-accuracy trade-offs over mixed-precision QAT baselines, making it well-suited for Green AI deployments at the network edge.

13:00 JST研究/論文

時間依存偏微分方程式のための自己回帰のないニューラル演算子

ニューラル オペレーターは、関数依存の入力から解へのマッピングを学習し、偏微分方程式 (PDE) を解くための効果的なフレームワークを提供します。時間依存 PDE の場合、既存の方法は通常、高次元の物理フィールド空間で直接自己回帰ロールアウトを通じて長期予測を実行します。そこでは、予測された各状態が次のステップの入力として再帰的にフィードバックされます。短期的な予測には効果的ですが、この自己回帰ロールアウトと連続時間モデリングの欠如により、長期ロールアウトでは累進的な誤差が蓄積されます。この研究では、偏微分方程式の時間発展を潜在空間にマッピングし、その中の連続時間ベクトル場をモデル化する自己回帰フリー ニューラル オペレーター (AFNO) を提案します。 AFNO は、フロー マッチングを使用して潜在ベクトル場を学習することで、拡張された視野にわたる継続的な進化を可能にし、自己回帰ロールアウトを回避し、物理パラメーターの明示的な条件付けを通じてさまざまなパラメーター構成の下でダイナミクスをキャプチャします。 6 つの PDE に関する理論分析と広範な実験により、AFNO が長期予測の安定性を向上させ、ベースラインと比較してロールアウト エラーを一貫して低減することが実証されました。

原文 (English)

Autoregression-Free Neural Operators for Time-Dependent PDEs

Neural operators learn mappings from function-dependent inputs to solutions, providing an effective framework for solving partial differential equations (PDEs). For time-dependent PDEs, existing methods typically perform long-horizon prediction through autoregressive rollout directly in high-dimensional physical field spaces, where each predicted state is recursively fed back as the input for the next step. Although effective for short-term prediction, this autoregressive rollout and the lack of continuous-time modeling lead to progressive error accumulation over long-horizon rollouts. In this work, we propose Autoregression-Free Neural Operators (AFNO), which map the time evolution of PDEs into a latent space and model continuous-time vector fields within it. AFNO uses flow matching to learn the latent vector field, thereby enabling continuous evolution over extended horizons, avoiding autoregressive rollout and capturing dynamics under varying parameter configurations through explicit conditioning on physical parameters. Theoretical analysis and extensive experiments on six PDEs demonstrate that AFNO improves long-horizon prediction stability and consistently reduces rollout errors compared with the baselines.

13:00 JSTハードウェア/半導体GoogleGemma

Fine-Tuning and Serving Gemma 4 31B on Google Cloud TPU: A Technical Comparison with GPU Baselines

We present the first end-to-end demonstration of fine-tuning and serving Google's Gemma 4 31B model on TPU hardware, providing an empirical…

13:00 JSTLLM/生成AI

Do Language Models Need Sleep? Offline Recurrence for Improved Online Inference

Transformer-based large language models are increasingly used for long-horizon tasks; however, their attention mechanism scales poorly with…

13:00 JST研究/論文

Evolving Features vs Evolving Entire Trees with GP for Interpretable Survival Analysis

Survival analysis concerns the task of predicting the time until an event occurs. Often used in the medical field, survival analysis deals…

13:00 JST研究/論文

Linear Ordering Problem: Time for a Change

The Linear Ordering Problem (LOP) is a fundamental combinatorial optimization problem with important applications in areas such as economic…

13:00 JST研究/論文

Beyond Tool Adoption: A Practical Five-Stage Developmental Continuum for AI Literacy in Higher Education

Artificial intelligence (AI) literacy is increasingly recognized as a foundational competency for all university graduates. Yet students' e…

13:00 JST研究/論文

MOSS-Audio Technical Report

MOSS-Audio is a unified audio-language model for speech, environmental sound, and music understanding, supporting audio captioning, time-aw…

13:00 JST研究/論文

より良いアクティベーションオラクルの構築

アクティベーション オラクル (AO) は、残留ストリームのアクティベーションを解釈するための有望な方法です。しかし、現在の AO は幻覚や曖昧さなどの重要な問題に直面しています。さらに、テキスト反転の交絡により評価が困難になります。この目的を達成するために、私たちは 4 つの方法で Activation Oracle (AO) トレーニング体制を改善します。それは、ポリシー ロールアウトに関するトレーニング、会話型データセットの改善、より多くのレイヤーへのフィード、および注入式の改善です。機能の向上はわずかですが、生活の質はかなり大幅に向上します。さらに、AObench と呼ばれる、AO 品質のための最初の包括的な評価スイートをオープンソースにしました。全体として、私たちの研究が、スケーラブルなエンドツーエンドの解釈可能性のパラダイムにおける AO やその他のモデルの改善に役立つ基礎を築くことを願っています。

原文 (English)

Building Better Activation Oracles

Activation Oracles (AOs) are promising methods for interpreting residual stream activations. However, current AOs face important issues, such as hallucinations and vagueness. Additionally, text-inversion confounds make them hard to evaluate. To this end, we improve the Activation Oracle (AO) training regime in four ways: training on on-policy rollouts, improving the conversational dataset, feeding more layers and an improvement to the injection formula. The capability improvements are marginal, but quality of life improvements are quite substantial. In addition, we open source the first comprehensive evaluation suite for AO quality, which we call AObench. Overall, we hope that our work sets a foundation that helps improve AOs and other models in the paradigm of scalable, end-to-end interpretability.

13:00 JST研究/論文Gemma

Perplexity Can Miss SAE Feature Damage Under Quantization

Quantization is a standard path to deploying large language models, and quantized models are typically judged acceptable when perplexity or…

13:00 JSTエージェント研究/論文

OpenAgenet / OAN White Paper: Open Infrastructure for Trusted Agent Interconnection

OpenAgenet, abbreviated as OAN, is an open infrastructure project for trusted Agent interconnection. It addresses a problem that becomes vi…

13:00 JSTエージェント研究/論文

OpenAgenet / OAN Yellow Paper: Technical Architecture for Trust-Governed Resource Identity and Discovery

This yellow paper describes the technical architecture of OpenAgenet / OAN. OAN is a protocol-neutral trust layer for open Agent interconne…

13:00 JST研究/論文

Local Guidance, Global Impact: Gaussian-Reshaped Trust Region Unlocks Behavior Transitions

While Proximal Policy Optimization (PPO) demonstrates strong performance in stationary settings, we show that its standard optimization par…

13:00 JST研究/論文

Optimizing Explicit Unit-Distance Lower-Bound Certificates

The 2026 disproof of Erd\H{o}s's unit-distance conjecture and Sawin's quantitative refinement show that the maximum number $u(n)$ of unit d…

13:00 JST研究/論文

ミュオンのスペクトルスケーリングの法則

直交正規化更新ルールは、大規模な言語モデルをトレーニングするためのオプティマイザーの主要な選択肢として急速に普及しており、最近のオープンソースの最先端モデルでは Muon が採用されています。これらの更新を扱いやすくするために、Muon は Newton-Schulz (NS) 反復を使用して正規直交化を実行します。 NS は近似値にすぎないため、小さな特異値を持つ方向は直交正規化できません。 Muon では、NS は各ステップで運動量行列に適用されますが、これらの運動量行列の特異値スペクトルがトレーニング中にどのように動作するか、またはその動作がモデル サイズに応じてどのように変化するかについてはほとんどわかっていません。我々は、この問題に関する最初の体系的な研究を紹介します。 77M から 2.8B パラメーターの範囲のモデルで層全体の運動量バッファーの特異値分位数を追跡すると、一貫した状況が観察されます。短いバーンインの後、分位数は層のタイプとモデル サイズによって決定される値で安定します。これらの安定化値は、層に依存する指数を備えた、モデル サイズにおける非常にきれいなべき乗則に従います。中深度から後期までの層は、モデル サイズ $M$ (約 $M^{-0.25}$) で非常に穏やかにスケーリングするため、学術規模で使用される標準の 5 ステップ NS 構成は、より大きなスケールでも引き続き直交正規化します。ただし、後期層の一部はより積極的にスケールし ($M^{-0.96}$ まで)、より多くの NS 反復またはより適切に調整された係数を使用しない限り、フロンティア スケールで NS 失敗領域に陥ります。 NS の反復は大規模になると計算コストが高くなります。私たちの法律は、実務者に、重要な方向を直交正規化する最小の NS 構成を選択するための原則に基づいたレイヤー認識のレシピを提供します。つまり、更新の品質を犠牲にすることなく不必要な計算を回避します。

原文 (English)

Spectral Scaling Laws of Muon

Orthonormalized update rules have rapidly become a leading choice of optimizer for training large language models, with recent open-source state-of-the-art models adopting Muon. To keep these updates tractable, Muon performs the orthonormalization with the Newton--Schulz (NS) iteration. Since NS is only approximate, directions with small singular values fail to be orthonormalized. In Muon, NS is applied to the momentum matrix at every step, yet little is known about how the singular value spectrum of these momentum matrices behaves during training, or how that behavior changes with model size. We present the first systematic study of this question. Tracking singular value quantiles of the momentum buffer across layers in models ranging from 77M to 2.8B parameters, we observe a consistent picture: after a short burn-in, the quantiles stabilize at a value determined by the layer type and model size. These stabilization values follow remarkably clean power laws in model size, with layer-dependent exponents. Layers up to mid-late depth scale very mildly with model size $M$ (around $M^{-0.25}$), so the standard 5-step NS configuration used at academic scale will continue to orthonormalize them at much larger scales. Some of the late layers, however, scale much more aggressively (up to $M^{-0.96}$) and will fall into the NS failure regime at frontier scale unless one uses more NS iterations or better-tuned coefficients. NS iterations are computationally expensive at scale; our laws give practitioners a principled, layer-aware recipe for choosing the minimum NS configuration that still orthonormalizes the directions that matter -- avoiding unnecessary computation without sacrificing update quality.

13:00 JSTLLM/生成AI画像/動画生成

MorphoQuant: オムニモーダル大規模言語モデル向けのモダリティを意識した量子化

従来のポストトレーニング量子化 (PTQ) 手法は、極端な分布の不均一性とモダリティ間の異種の外れ値パターンにより、4 ビットのオムニモーダル大規模言語モデル (OLLM) に苦戦します。これに対処するために、クロスモーダル形態を保存し、外れ値の損失を軽減するように設計されたモダリティ認識 PTQ フレームワークである MorphoQuant を提案します。具体的には、ロングテールの外れ値をチャネルごとのバイアスに選択的に吸収する、Distribution-Aware Bias Compensation (DABC) を導入します。このメカニズムは、密なインライアの高精度の離散化を維持しながら外れ値の大きさを保護し、それによって多様なモード分布にわたって正確な離散化を維持します。これを補完するために、量子化グリッドとバイアス マスクを同時に最適化し、モダリティ全体でのきめ細かい調整を保証する形態指向量子化関数最適化 (MDQFO) を提案します。 MMMU や Video-MME などのベンチマークにわたる Qwen2.5-Omni の広範な評価により、私たちのアプローチの優位性が実証されています。特に、当社の W4A4 モデルは ScienceQA で 76.63% を達成し、SOTA W4A4 メソッドを大幅に上回り、驚くべきことに W4A16 ベースラインを上回っています。これは、当社のフレームワークの並外れた精度と効率のトレードオフを十分に示しています。

原文 (English)

MorphoQuant: Modality-Aware Quantization for Omni-modal Large Language Models

Conventional Post-Training Quantization (PTQ) methods struggle with 4-bit Omni-modal Large Language Models (OLLMs) due to the extreme distribution heterogeneity and disparate outlier patterns across modalities. To address this, we propose MorphoQuant, a modality-aware PTQ framework engineered to preserve cross-modal morphology and mitigate outlier loss. Specifically, we introduce Distribution-Aware Bias Compensation (DABC), which selectively absorbs long-tailed outliers into channel-wise biases. This mechanism safeguards outlier magnitudes while maintaining high-precision discretization for dense inliers, thereby preserving accurate discretization across diverse modal distribution. Complementing this, we propose Morphology-Directed Quantization Function Optimization (MDQFO) to co-optimize the quantization grid with the bias mask, ensuring fine-grained alignment across modalities. Extensive evaluations on Qwen2.5-Omni across benchmarks like MMMU and Video-MME demonstrate our approach's superiority. Notably, our W4A4 model achieves 76.63% on ScienceQA, significantly outperforming SOTA W4A4 methods and surprisingly surpassing the W4A16 baseline, which fully demonstrates the exceptional accuracy-efficiency trade-off of our framework.

13:00 JST画像/動画生成

分離された情報領域の選択的結合: ビジョントランスフォーマーのデータフリー量子化のためのマスクされた注意の調整

データフリー量子化 (DFQ) は、実際のデータにアクセスせずにサンプルを合成することで、データ セキュリティの問題に対処します。古典的な畳み込み演算と比較した自己注意メカニズムの優位性により、ビジョン トランスフォーマー (ViT) の文脈でますます注目を集めています。ただし、ViT 用の以前の DFQ 技術では、合成サンプルと量子化モデル Q によって予期される入力分布の間の分布の不一致が発生し、次善のパフォーマンスが得られることがよくありました。この論文では、MaskAQ と呼ばれる ViT のデータフリー量子化のための新しいマスク アテンション アラインメント アプローチを提案します。これにより、次のことが明らかになります。1) セルフ アテンション メカニズムのセマンティクスは、主に情報領域と呼ばれるパッチのまばらなサブセットに局在化されている。 2) 情報領域は、合成サンプルと Q の出力の間の相互情報を支配します。これらの目的のために、合成サンプルのパッチ類似性に差分エントロピー最大値を組み込んで、ノイズの多い背景から有益な領域を分離します。さまざまな Q と組み合わせるために、マスクされたアテンション アラインメント目標を介して完全精度モデルを Q と位置合わせするように情報領域が選択され、高品質の合成サンプルが得られます。さらに、定期的なサンプル リフレッシュ戦略により、トレーニング プロセス全体を通じて Q の進化する状態に継続的に適応し、合成サンプルとの望ましい相互情報を保存する能力が MaskAQ に与えられます。広範な実験により、複数のバックボーンとダウンストリーム タスクにわたる最先端のアプローチに対する MaskAQ の利点が検証されています。私たちのコードは https://github.com/hfutqian/MaskAQ で入手できます。

原文 (English)

Selective Coupling of Decoupled Informative Regions: Masked Attention Alignment for Data-Free Quantization of Vision Transformers

Data-Free Quantization (DFQ) addresses data security concerns by synthesizing samples, without accessing real data. It has garnered increasing attention in the context of Vision Transformers (ViTs), owing to the superiority of the self-attention mechanism compared to classical convolutional operation. However, previous DFQ arts for ViTs often suffer from a distribution mismatch between synthetic samples and input distribution expected by quantized models Q, resulting in the suboptimal performance. In this paper, we propose a novel Masked Attention Alignment approach for Data-Free Quantization of ViTs, named MaskAQ, revealing that: 1) the semantics in the self-attention mechanism is predominantly localized to a sparse subset of patches, called informative regions; 2) the informative regions dominate the mutual information between synthetic samples and Q's outputs. To these ends, we incorporate differential entropy maximum over patch similarity of synthetic samples, to decouple informative regions from noisy background. To couple with varied Q, the informative regions are selected to align full-precision models with Q via a masked attention alignment objective, thus yielding high-quality synthetic samples. Furthermore, a periodic sample refreshing strategy comes up to endow MaskAQ with the capacity to continually adapt to the evolving state of Q throughout the training process, to preserve desirable mutual information with synthetic samples. Extensive experiments verify the merits of MaskAQ over state-of-the-art approaches across multiple backbones and downstream tasks. Our code is available at https://github.com/hfutqian/MaskAQ.

13:00 JSTエージェント

おそらくほぼ安全な保証を備えたリスク認識型強化学習のシナリオ生成

特にディープ RL を使用して学習されたポリシーは、未知の動作や安全ではない動作を引き起こす遷移の摂動の影響を受けやすいことが示される可能性があるため、安全性の保証は、現実世界への強化学習 (RL) エージェントの展開にとって重要です。ポリシー検証の方法は、安全制約に関するポリシーの軌跡をサンプリングすることによって確率的バリア証明書を構築し、それによって既知の安全な動作と未知の動作を区別することです。ポリシーが、エージェントを十分に探索されていない状態に置く遷移の不確実性または摂動の影響を受けやすい場合、これらの制約に違反する確率について厳密な上限と下限を取得することは困難になる可能性があります。これに対処するために、変分オートエンコーダー (VAE) を使用して遭遇した状態空間の分布を近似し、状態の潜在的な特性を使用して上限と下限のバリア証明書を構築し、既知の安全な動作の領域を高い信頼性で最適化します。私たちはこれを二重最適化問題として枠組み付けし、下限のバリア証明書が上限のバリア証明書よりも安全な領域のより保守的な推定を提示します。トレーニング中に 2 つの設定差内にある状態 (つまり、非ロバスト領域) をサンプリングすることにより、上限と下限を厳しくして、安全性についてより明確な確率的保証を提供することができます。私たちの研究では、設定された保証について説明し、実験的に境界の厳しさを実証します。

原文 (English)

Scenario Generation for Risk-Aware Reinforcement Learning with Probably Approximately Safe Guarantees

Guaranteeing safety is critical to the deployment of reinforcement learning (RL) agents in the real-world, especially as policies learned using deep RL may demonstrate susceptibility to transition perturbations that result in unknown or unsafe behaviour. A method of policy verification is to construct probabilistic barrier-certificates by sampling policy trajectories with respect to safety constraints, thereby demarcating known safe behaviour from unknown behaviour. Obtaining tight upper and lower bounds on the probability of violation of these constraints may be difficult if the policy is susceptible to transition uncertainty or perturbation that places the agent in insufficiently explored states. To address this, we approximate the distribution of the encountered state-space using a variational autoencoder (VAE) and construct upper and lower-bound barrier-certificates using latent characteristics of states to optimize for regions of known, safe behaviour with high confidence. We frame this in our work as a dual optimization problem where the lower-bound barrier-certificate presents a more conservative estimate of the safe region than the upper-bound barrier-certificate. Sampling states that lie within the set difference of the two during training, i.e. the non-robust region, allows us to tighten the upper and lower bounds to provide sharper probabilistic guarantees on safety. Within our study, we describe the guarantees placed and demonstrate the tightness of our bounds experimentally.

13:00 JSTLLM/生成AI

分布型 DAgger による豊富なフィードバックからの強化学習

推論モデルは急速に進歩しましたが、検証可能な報酬からの支配的な強化学習 (RLVR) レシピは驚くほど狭いままです。多くの応答をサンプリングし、最終的な答えが正しいかどうかを示す 1 ビットで各応答に報酬を与えます。さらに、多くの設定では、実行トレース、ツール出力、専門家による修正、モデルの自己評価など、豊富なフィードバックが提供されます。私たちは、古典的な模倣学習アルゴリズム DAgger の分布型バリアントを通じて、そのようなフィードバックを使用する方法を研究します。この場合、学習者は、現在のポリシーが訪問する州に関する専門家分布にローカルにアクセスできます。これにより、ブラックボックス専門家とその配列レベルの勾配が、将来の専門家と学生の意見の相違を以前の決定にまで「伝播させることによって豊富な単位の割り当てを行う」ことを認める、単純な順方向クロスエントロピー目標が得られます。我々は、逆KLまたはジェンセン・シャノンに基づく自己蒸留目標を備えた以前のRLでは、単調な政策改善を保証できないことを示します。たとえ専門家がより高い報酬を得ていたとしても、その更新により、より悪いアクションの確率が増加する可能性があります。対照的に、順方向クロスエントロピーは単調な政策改善を認め、後悔の保証を享受できることを示します。さらに、私たちの目標が教師に重み付けされた成功の可能性の下限を最適化し、Pass@N の向上につながることを示します。経験的に、私たちのアプローチである DistIL は、科学的推論、コーディング、難しい数学的問題の解決など、さまざまな領域にわたる自己蒸留ベースラインにより、RLVR および RL よりも改善されています。

原文 (English)

Reinforcement Learning from Rich Feedback with Distributional DAgger

Reasoning models have advanced rapidly, but the dominant reinforcement learning from verifiable rewards (RLVR) recipe remains surprisingly narrow: sample many responses and reward each with a single bit indicating whether the final answer is correct. Yet many settings provide rich feedback, including execution traces, tool outputs, expert corrections, and model self-evaluations. We study how to use such feedback through a distributional variant of the classic imitation learning algorithm DAgger, where the learner has local access to an expert distribution on states visited by the current policy. This yields a simple forward cross-entropy objective that admits a blackbox expert and whose sequence-level gradient {conduct rich credit assignment by propagating} future expert-student disagreement back to earlier decisions. We show that prior RL with self-distillation objectives based on reverse KL or Jensen-Shannon fail to guarantee monotonic policy improvement: even when the expert has higher reward, their updates may increase probability on worse actions. In contrast, we show that forward cross-entropy admits monotonic policy improvement and enjoys guarantees on regret. We further show that our objective optimizes a lower bound on teacher-weighted likelihood of success, leading to improved Pass@N. Empirically, our approach, DistIL, improves over RLVR and RL with self-distillation baselines across a variety of domains: scientific reasoning, coding, and solving hard mathematical problems.

13:00 JST研究/論文

When Surface Form Changes Moderation Decisions: A Paired Study of Code-Mixed Workflow Instability

Hate moderation is often evaluated as classification on clean English inputs, but deployed systems must route content to actions such as AL…