AIニュース 2026-05-25
自動生成: 2026-05-25 15:29 JST
過去24時間以内に公開された記事を、同じ話題ごとに1つのストーリーカードへまとめ、出典・トピック・要約とともに掲載しています。要約は各フィード提供文の冒頭を整形したもので、本文は各リンク先をご覧ください。
📌 今日の要点 TOP7
-
ServiceNow、AIエージェントの「データの空白」を埋める機能群を発表ITmedia AI+
AIエージェント導入の「壁」になるのが、サイロ化したデータとガバナンスの未整備だ。ServiceNowはこの課題をどう解決しようとしている…
-
Frontier LLM はサイバーセキュリティに対応する準備ができていますか?デュアルモード脆弱性ベンチマークによる垂直基盤モデルの証拠arXiv cs.AI
当社は、フロンティア LLM がデュアルモード ベンチマークを通じてサイバーセキュリティに対応できるかどうかを評価します。ホワイトボックス…
-
Everyone is navigating AI security in real time — even GoogleTechCrunch AI
We're in the transition period -- all of us.
-
I tried Amazon’s Bee wearable and am both intrigued and slightly creeped outTechCrunch AI
Like other AI wearables, Amazon's Bee offers an odd combination of co…
-
コード交換音声に関する商用 ASR システムのベンチマーク: アラビア語、ペルシア語、ドイツ語arXiv cs.AI
コードスイッチング (単一の発話内で 2 つの言語を自然に切り替えること) は、依然として自動音声認識 (ASR) にとって最も困難であり…
-
GENSTRAT: 大規模言語モデルにおける戦略的推論の科学に向けてarXiv cs.AI
大規模言語モデル (LLM) は、市場、オークション、入札設定における経済エージェントとしてますます導入されています。特定の展開における彼…
-
帰納的演繹的合成: AI による正式に検証されたシステムの生成を可能にするarXiv cs.AI
AI エージェントは、コードの生成、テスト、改良においてますます優れています。ただし、テストだけでは提供できない完全な範囲の正式な保証を必…
トピック別件数
日本語メディア1件
ITmedia AI+ (日本語)
ServiceNow、AIエージェントの「データの空白」を埋める機能群を発表
AIエージェント導入の「壁」になるのが、サイロ化したデータとガバナンスの未整備だ。ServiceNowはこの課題をどう解決しようとしているのか。年次イベントで発表された新機能群を紹介する。
海外メディア2件
TechCrunch AI (英語)
Everyone is navigating AI security in real time — even Google
We're in the transition period -- all of us.
I tried Amazon’s Bee wearable and am both intrigued and slightly creeped out
Like other AI wearables, Amazon's Bee offers an odd combination of convenience and privacy anxiety.
公式ブログ0件
このカテゴリの新着記事はありませんでした。
論文289件
arXiv cs.AI (英語)
BOHM: 複合 AI システム向けのゼロコストの階層型アトリビューション
複合 AI システムは、特殊なコンポーネントの階層を通じてタスクをルーティングします。アトリビューションは、Shapley ベースの手法 (SHAP) によって支配されています。SHAP は、連合価値関数をコンポーネントごとの限界寄与に分解し、任意のコンポーネントのサブセットに関するシステムの評価を必要とします。この要件は、サードパーティ API、不透明なエンドポイント、ルーティングを少数のツールに集中させるエージェント オーケストレーターでは満たされず、デプロイされたオーケストレーターからはほとんどの連携が評価できなくなります。 BOHM は、システムがすでに維持しているルーティング重みから直接階層属性ツリーを抽出します。リーフ属性は、ルートからリーフへのルーティング重みのパス積です。レベル k 属性は、深さ k のノードにわたる誘導分布です。この方法は限界費用がゼロで、コンポーネントの内部へのアクセスを必要とせず、あらゆる評価予算ではフラットな方法では提供できない複数解像度の属性をすべてのレベルで同時に提供します。 BOHM と SHAP はさまざまな質問に答え、展開されたルーターが最適に近いルーティングを行うと収束します。 880 個の LiveCodeBench 問題にわたる 3 レベル階層の 18 個の LLM では、BOHM は Kendall tau=0.928 をもたらします。シードあたりの連合評価が 9,000 倍増加すると、SHAP は tau=0.980 に達します。 5 ドライバー、7 ベンチマークのエージェント スタディ (35 セル、完全なカバレッジ) では、ドライバーは 1 つのツール (トップシェア中央値 0.65) にルーティングを集中し、ドライバーのトップピックが経験的に最良のツールであるかどうかによってセルレベルの tau(BOHM,SHAP) が予測されます (平均 +0.22 対 ~+0.01)。米国国勢調査の階層 (475 葉、4 レベル) で、BOHM はすべてのレベル (タウ 0.722 まで) での真実のランキングを復元します。 BOHM は効率、単調性、対称性、弱い抑制を満たしますが、Shapley の加法性は満たしません。これは、相補的なプリミティブ、つまりルーティング状態が存在する場所であればどこでも計算できる多重解像度分解として最もよく理解されており、Shapley との意見の相違自体が診断につながります。
原文 (English)
BOHM: Zero-Cost Hierarchical Attribution for Compound AI Systems
Compound AI systems route tasks through hierarchies of specialised components. Attribution is dominated by Shapley-based methods (SHAP), which decompose a coalition value function into per-component marginal contributions and require evaluation of the system on arbitrary component subsets. That requirement fails for third-party APIs, opaque endpoints, and agentic orchestrators that concentrate routing on a few tools, leaving most coalitions un-evaluable from the deployed orchestrator. We introduce BOHM, which extracts a hierarchical attribution tree directly from the routing weights such systems already maintain: leaf attribution is the path product of root-to-leaf routing weights; level-k attribution is the induced distribution over depth-k nodes. The method has zero marginal cost, requires no access to component internals, and provides multi-resolution attribution at every level simultaneously, which flat methods cannot offer at any evaluation budget. BOHM and SHAP answer different questions and converge when the deployed router routes near-optimally. On 18 LLMs in a 3-level hierarchy over 880 LiveCodeBench problems, BOHM yields Kendall tau=0.928; SHAP reaches tau=0.980 at 9,000x more coalition evaluations per seed. On a 5-driver, 7-benchmark agentic study (35 cells, complete coverage), drivers concentrate routing on a single tool (top-share median 0.65), and cell-level tau(BOHM,SHAP) is predicted by whether the driver's top pick is the empirically best tool (mean +0.22 vs ~+0.01). On a US Census hierarchy (475 leaves, 4 levels), BOHM recovers ground-truth rankings at every level (tau up to 0.722). BOHM satisfies efficiency, monotonicity, symmetry, and weak suppression but not Shapley's additivity. It is best understood as a complementary primitive: a multi-resolution decomposition computable wherever routing state exists, whose disagreement with Shapley is itself diagnostic.
NeuroNL2LTL: 線形時相論理の自然言語翻訳のための神経記号フレームワーク
自然言語 (NL) と線形時相論理 (LTL) などの形式論理の間で効果的に変換するには、安全性が重視される開発における形式検証の範囲を制限する専門知識が必要です。テンプレートベースのアプローチでは、信頼性のために表現力が犠牲になります。ニューラル手法は流暢さを実現しますが、正確さの保証はありません。学習した翻訳と形式的検証を統合する神経記号アーキテクチャである NeuroNL2LTL を紹介します。 NeuroNL2LTL は、LTL へのマッピングが構築によって構造を保持する中間表現を通じて翻訳をルーティングします。生成された仕様は、充足可能性と非自明性のチェックを受けます。最小限の編集修復メカニズムにより、ニアミス出力が下流ツールに到達する前に修正されます。中心的なイノベーションは検証者インザループ トレーニングです。検証の結果は強化学習の報酬信号として機能し、形式的な正しさを直接最適化するニューラル コンポーネントを生成します。 NeuroNL2LTL は、航空宇宙、ロボット工学、自動運転車、および 10 の追加ドメインにわたる 200,000 を超える要件において、参照仕様と 28\% の意味的同等性を達成しながら、出力の 86\% が満たされることが検証されることを保証します。また、このシステムは LTL から文脈に基づいた説明を生成するため、ドメインの専門家が専門的なトレーニングを受けずに仕様を検証できるようになります。この研究は、形式的検証がニューラル仕様システムのトレーニング目標と実行時フィルターの両方として機能できることを実証し、統計的信頼性ではなく論理的保証から信頼性が得られるニューラルベースのツールを構築できるようにします。
原文 (English)
NeuroNL2LTL: A Neurosymbolic Framework for Natural Language Translation of Linear Temporal Logic
Effectively translating between natural language (NL) and formal logics like Linear Temporal Logic (LTL) requires expertise that limits formal verification's reach in safety-critical development. Template-based approaches sacrifice expressiveness for reliability; neural methods achieve fluency but provide no correctness guarantees. We present NeuroNL2LTL, a neurosymbolic architecture unifying learned translation with formal verification. NeuroNL2LTL routes translation through an intermediate representation whose mapping to LTL is structure-preserving by construction. Generated specifications undergo satisfiability and non-triviality checking; a minimal-edit repair mechanism corrects near-miss outputs before they reach downstream tools. The central innovation is verifier-in-the-loop training: verification outcomes serve as reward signals for reinforcement learning, producing neural components that optimize directly for formal correctness. On 200,000+ requirements spanning aerospace, robotics, autonomous vehicles, and ten additional domains, NeuroNL2LTL achieves 28\% semantic equivalence with reference specifications while ensuring 86\% of outputs are verified satisfiable. The system also generates contextually grounded explanations from LTL, enabling domain experts to validate specifications without specialized training. This work demonstrates that formal verification can function as both training objective and runtime filter for neural specification systems, allowing us to build neural-based tools whose reliability derives from logical guarantees rather than statistical confidence.
RMA: 研究レベルの数学的問題のためのエージェント システム
$\textbf{Research Math Agents (RMA)}$ は、研究レベルの数学的問題に対する自動推論のためのエージェント フレームワークです。競技数学や形式的定理の証明を中心とした先行研究とは異なり、RMA は長期的な推論、文献の根拠、反復的な証明の改良を必要とする研究レベルの数学的問題を対象としています。 RMA は、研究レベルの証明解決を、問題分析、文献の検索と理解、公平な比較、知識バンクの構築、および証明の検証のための特殊なモジュールに分解します。これらはすべて、共有構造化メモリを介して初期化者、提案者、および検証者のエージェントによって調整されます。この統一されたフレームワーク内で、これらのエージェントは複数の役割、複数ラウンドのワークフローで動作し、反復的なフィードバックを通じて候補となる証明を共同で生成、改良、検証します。私たちは、さまざまな分野の専門数学者によって提供された 10 個の研究レベルの問題で構成される First Proof ベンチマークで RMA を評価します。包括的な専門家による評価を通じて、RMA は GPT-5.2R や Aletheia などの First Proof ベンチマークの強力なベースラインを上回り、研究上の問題の 10 件中 8 件を解決し、より論理的に健全で読みやすい証明を生成します。さらに、当社の包括的なアブレーション研究では、単一のコンポーネントではなく、構造化推論モジュール、反復改良、検証ベースのフィードバックの相互作用によってパフォーマンスが向上することが示されています。当社のソリューションと実装は、承認され次第、一般に公開されます。
原文 (English)
RMA: an Agentic System for Research-Level Mathematical Problems
We present $\textbf{Research Math Agents (RMA)}$, an agentic framework for automated reasoning on research-level mathematical problems. Unlike prior studies centered on competition mathematics or formal theorem proving, RMA targets research-level mathematical problems that require long-horizon reasoning, literature grounding, and iterative proof refinement. RMA decomposes research-level proof solving into specialized modules for problem analysis, literature search and understanding, fair comparison, knowledge-bank construction, and proof verification, all coordinated by initializer, proposer, and verifier agents through a shared structured memory. Within this unified framework, these agents operate in a multi-role, multi-round workflow, collaboratively generating, refining, and verifying candidate proofs through iterative feedback. We evaluate RMA on the First Proof benchmark, which consists of ten research-level problems contributed by expert mathematicians across diverse domains. Through comprehensive expert evaluation, RMA outperforms strong baselines on the First Proof benchmark, including GPT-5.2R and Aletheia, solving eight out of ten research problems and producing more logically sound and readable proofs. Our comprehensive ablation studies further show that performance gains arise from the interaction of structured reasoning modules, iterative refinement, and verifier-based feedback, rather than any single component. Our solutions and implementations will be made publicly available upon acceptance.
SciAtlas: 自動化された科学研究のための大規模ナレッジ グラフ
世界的な学術成果の急激な増加により、研究者やAIエージェントは前例のない「情報爆発」に直面しており、断片的で構造化されていない知識組織が深い学際的統合を妨げています。現在の学術検索ツールは主に、表面的なキーワード マッチングやベクトル空間の意味検索に依存しており、複雑な論理接続をナビゲートするために必要な位相推論機能が不足しています。エージェントのディープリサーチベースのフレームワークは、多くの場合、論理的な幻覚を引き起こし、高い推論コストを消費する傾向があります。このギャップを埋めるために、このレポートでは、パノラマ科学進化ネットワークとして設計された、大規模で学際的で異質な学術リソースの知識グラフである SciAtlas を紹介します。 SciAtlas は、26 の専門分野からの 4,300 万件を超える論文、合計 1 億 5,700 万のエンティティと 3B トリプレットを統合することにより、専門分野の障壁を取り除き、AI エージェントにグローバルな視点を提供する構造化トポロジカル認知基盤を提供します。さらに、トライパス協調想起とグラフ再ランキングを特徴とする神経記号検索アルゴリズムを開発し、単純な意味一致から決定論的関連発見へのシームレスな移行を実現します。また、文献レビュー、自動化された研究傾向の統合、アイデアの位置付け、学術的軌道の探索など、SciAtlas の主要な応用方向性を示し、SciAtlas が推論コストを大幅に削減しながら自動化された科学研究の全ループを強化する効果的な「認知マップ」として機能できることを実証します。 KG 取得とさまざまなダウンストリーム タスク用のインターフェイスを GitHub リポジトリでリリースしました。
原文 (English)
SciAtlas: A Large-Scale Knowledge Graph for Automated Scientific Research
The exponential growth of global academic output has confronted researchers and AI agents with an unprecedented ``information explosion,'' where fragmented and unstructured knowledge organization impedes deep interdisciplinary integration. Current academic retrieval tools predominantly rely on superficial keyword matching or vector-space semantic retrieval, which lack the topological reasoning capabilities required to navigate complex logical connections. Agentic deep-research-based frameworks are often prone to logical hallucinations and consuming high inference costs. To bridge this gap, in this report, we introduce SciAtlas, a large-scale, multi-disciplinary, heterogeneous academic resource knowledge graph designed as a panoramic scientific evolution network. By integrating over 43M papers from 26 disciplines, and a total of 157M entities and 3B triplets, SciAtlas provides a structured topological cognitive substrate that dismantles disciplinary barriers and furnishes AI agents with a global perspective. Furthermore, we develop a neuro-symbolic retrieval algorithm featuring tri-path collaborative recall and graph reranking, achieving a seamless transition from simple semantic matching to deterministic association discovery. We also present key application directions of SciAtlas, including literature review, automated research trend synthesis, idea positioning, and academic trajectory exploration, to demonstrate that SciAtlas can serve as an effective ``cognitive map'' to empower the full loop of automated scientific research while significantly reducing reasoning costs. We have released the interfaces for KG retrieval and various downstream tasks in our GitHub repo.
成功した目標ごとのエネルギー: エージェントティック AI システムの目標レベルのエネルギー計算
現在の AI エネルギー ベンチマークは、単一のモデル呼び出しまたはトレーニング実行の粒度で消費量を測定します。従来のシングルターン ワークロードの場合、このユニットは一貫性を保ちます。エージェント システムの場合、単一のユーザー目標によって複数ステップのオーケストレーション、ツールの呼び出し、再試行、障害回復サイクルがトリガーされる可能性があり、呼び出し回数はタスクのプロパティではなく実装成果物であり、推論レベルの正規化によって目標完了のエネルギー コストが誤って表示されます。我々は、AI エネルギー会計の単位を推論あたりのエネルギーから成功目標あたりのエネルギー (EpG) まで再定義するクロスレイヤー測定フレームワークである A-LEMS (Agentic LLM Energy Measurement System) を紹介します。 EpG は、失敗や再試行を含むすべての実行試行にわたる合計ワークフロー エネルギーを集計し、正常に完了した目標によって正規化します。 A-LEMS は、時間境界モデル、RAPL 信号をワークフロー レベルのエネルギーにマッピングする 5 層の観測パイプライン、およびすべての測定をハードウェアおよびランタイム構成に結び付ける再現性プロトコルを通じて、エネルギーの帰属を形式化します。 EpG に基づいて、オーケストレーション オーバーヘッド インデックス (OOI) を定義し、同一のタスク基準の下での線形実行に対するオーケストレーションのエネルギー コストを分離します。 5 つの推論と 3 つのツール拡張タスク ファミリ全体で、エージェント ワークフローは、線形ベースラインと比較して、成功した目標あたりの平均エネルギーを 4.33 倍消費します (888.1 J 対 205.3 J)。このオーバーヘッドは、推論コンピューティングではなく、オーケストレーション構造によって引き起こされます。ツールで強化されたタスクの場合、OOI は 1.0x 未満で反転します。エージェントの実行は線形よりも安価であり、メトリクスが固定的な上方バイアスではなくオーケストレーション構造を捉えていることを確認します。これらの発見は、推論あたりのエネルギーがエージェント AI には不十分であることを証明しています。 EpG と OOI は、オーケストレーション構造がエネルギー コストの主な決定要因となる、正確なベンチマークのための測定基盤を提供します。
原文 (English)
Energy per Successful Goal: Goal-Level Energy Accounting for Agentic AI Systems
Current AI energy benchmarks measure consumption at the granularity of a single model invocation or training run. For classical single-turn workloads this unit remains coherent. For agentic systems - where a single user goal may trigger multi-step orchestration, tool calls, retries, and failure-recovery cycles - the invocation count is an implementation artifact rather than a task property, and inference-level normalization misrepresents the energy cost of goal completion. We present A-LEMS (Agentic LLM Energy Measurement System), a cross-layer measurement framework that redefines the unit of AI energy accounting from energy per inference to Energy per Successful Goal (EpG). EpG aggregates total workflow energy across all execution attempts, including failures and retries, normalized by successfully completed goals. A-LEMS formalizes energy attribution through a temporal boundary model, a five-layer observation pipeline mapping RAPL signals to workflow-level energy, and a reproducibility protocol binding every measurement to hardware and runtime configuration. Building on EpG, we define the Orchestration Overhead Index (OOI), isolating the energy cost of orchestration relative to linear execution under identical task criteria. Across five reasoning and three tool-augmented task families, agentic workflows consume 4.33x higher mean energy per successful goal than linear baselines (888.1 J vs 205.3 J). This overhead is driven by orchestration structure, not inference compute. For tool-augmented tasks, OOI inverts below 1.0x: agentic execution is cheaper than linear, confirming the metric captures orchestration structure rather than a fixed upward bias. These findings establish that energy-per-inference is insufficient for agentic AI. EpG and OOI provide the measurement foundation for accurate benchmarking, where orchestration structure is the primary determinant of energy cost.
ImProver 2: 神経記号的証明の最適化のための反復自己改善 LM
正式な数学ライブラリは急速に拡大しており、保守性を高めるために検証済みの証明をリファクタリングし、ニューラル証明者のトレーニング データの品質を向上させる必要性が高まっています。ただし、スケーラブルな証明の最適化は、異質でヒューリスティックに指定された目的、乏しいデータ、および高いトレーニングと推論のコストによって妨げられます。これらの課題を克服するために、リーン 4 で自動証明最適化のための神経記号フレームワークである ImProver 2 を導入します。 ImProver 2 は、データ効率の高いエキスパート反復パイプラインと、軽量の非公式抽象化とともに形式的構造を公開する足場を組み合わせます。さらに、構造証拠特性を捕捉する一連の指標を導入します。 ImProver 2 を使用して、同じモデル ファミリー内の桁違いに大きなモデルよりも優れたパフォーマンスを示し、あらゆるメトリクスにわたって中間層のフロンティア モデルと競合できる 7B パラメーター モデルをトレーニングしました。さらに、神経象徴的な足場が小規模モデルとフロンティアモデルの両方でパフォーマンスを大幅に向上させることを実証します。私たちは、適切な足場とトレーニングにより、小さなモデルが複雑で多様なメトリクスに基づいて研究レベルの証明を効果的に再構築し、大幅に大規模なシステムに適合し、スケーラブルで学習可能なタスクとして証明の最適化を確立できることを示します。
原文 (English)
ImProver 2: Iteratively Self-Improving LMs for Neurosymbolic Proof Optimization
Formal mathematics libraries are rapidly expanding, creating a growing need to refactor verified proofs for maintainability and to improve training data quality for neural provers. However, scalable proof optimization is hindered by heterogeneous and heuristically specified objectives, scarce data, and high training and inference costs. To overcome these challenges, we introduce ImProver 2, a neurosymbolic framework for automated proof optimization in Lean 4. ImProver 2 combines a data-efficient expert-iteration pipeline with a scaffold that exposes formal structure alongside lightweight informal abstractions. We further introduce a suite of metrics capturing structural proof properties. Using ImProver 2, we train a 7B-parameter model that outperforms orders-of-magnitude larger models within the same model family, and is competitive with mid-tier frontier models across metrics. We additionally demonstrate that our neurosymbolic scaffold significantly improves performance across both small and frontier models. We show that with proper scaffolding and training, small models can effectively restructure research-level proofs over complex and varied metrics, matching substantially larger systems and establishing proof optimization as a scalable, learnable task.
媒介ファジィ論理: タイプ 1 の基礎からタイプ 2、タイプ 3、および量子拡張まで
媒介ファジィ ロジックは、ファジィ制御と意思決定におけるためらいや矛盾する評価を調整するための実用的なスキームとして考案されました。ただし、その論理的および意味論的な基盤は、特に運用上のタイプ 1 設定を超えて未開発のままです。この記事では、タイプ 1 コアの統合アカウントとインターバル タイプ 2、粒状タイプ 3、および量子拡張機能を開発します。媒介演算子をためらいと矛盾によって制御される凸集合体として特徴付け、媒介真理値を連続双格子状構造の独立した真理と虚偽のペアとしてモデル化し、標準的な t ノルムに基づくファジー論理を媒介結合子で拡張する命題システムを導入します。私たちは、媒介を伴わない数式の基礎となるファジィ基盤に対する健全性、準一貫性、保守性を確立し、区間タイプ 2 の真理値、粒度インデックス付きの局所評価、およびヒルベルト空間上の効果と密度演算子に対する一貫した意味論的拡張を定式化します。自律ブレーキセンサーフュージョンの例は、不完全で異質でやや矛盾した証拠の下で、フレームワークがどのように透明性があり、保守的で、安全第一の意思決定をサポートするかを示しています。適切な仮定の下では、上位レベルの定式化はタイプ 1 のケースに帰着し、レベル間の一貫性が明確になり、インテリジェントな意思決定システムでの将来の作業を確実にサポートします。
原文 (English)
Mediative Fuzzy Logic: From Type-1 Foundations to Type-2, Type-3 and Quantum Extensions
Mediative Fuzzy Logic was conceived as a practical scheme for reconciling hesitant or conflicting assessments in fuzzy control and decision-making. However, its logical and semantic foundations remain underdeveloped, especially beyond operational type-1 settings. This article develops a unified account of the type-1 core together with interval type-2, granular type-3, and quantum extensions. We characterize the mediative operator as a convex aggregation controlled by hesitation and contradiction, model mediative truth values as independent truth-falsity pairs in a continuous bilattice-like structure, and introduce a propositional system extending a standard t-norm-based fuzzy logic with a mediative connective. We establish soundness, paraconsistency, and conservativity over the underlying fuzzy base for formulas without mediation, and formulate coherent semantic extensions to interval type-2 truth values, granule-indexed local evaluations, and effects and density operators on Hilbert spaces. An autonomous-braking sensor-fusion example illustrates how the framework supports transparent, conservative, and safety-first decisions under incomplete, heterogeneous, and mildly contradictory evidence. Under suitable assumptions, the higher-level formulations reduce to the type-1 case, clarifying coherence across levels and reliably supporting future work in intelligent decision systems.
EVE-Agent: 証拠検証可能な自己進化エージェント
自己進化するエージェントは、正当化できない例に基づいてトレーニングを行うべきではありません。データフリーの自己進化型検索エージェントは、人間による注釈なしで独自の質問を生成し、それに回答し、独自のフィードバックから改善するシステムへのスケーラブルなルートを提供します。しかし、検証可能な証拠がなければ、このループは流暢ではあるが裏付けのない例に報酬を与え、自己生成カリキュラムを不透明で信頼性の低い可能性のあるトレーニング信号に変える可能性があります。私たちは、証拠の検証可能性が検索エージェントの信頼できる自己進化の前提条件であると主張します。生成された各インスタンスには、答えだけでなく、その答えへの貢献を測定できるソースに基づいたスパンも含まれている必要があります。私たちは、プロポーザーとソルバーのフレームワークを変更することでこの原則を運用できる、証拠検証可能な自己進化エージェントである EVE-Agent を紹介します。提案者は、質問、回答、および逐語的な証拠範囲を生成します。次に、証拠検証者は、証拠が提供されたときの限界精度の向上に応じてスパンに報酬を与えます。これにより、オラクルの回答、人間によるラベル、外部の注釈を必要とせずに、質問の回答に真に役立つ証拠を優先するトレーニング信号が生成されます。 EVE-Agent では、バックボーン モデル、レトリーバー、検索ツール、最適化フレームワークは変更されません。実験により、EVE-Agent は、以前の自己進化型検索エージェントに比べて、証拠に基づく正確性が大幅に向上することが示されています。結果として得られるカリキュラムは、単に自己生成されるだけでなく、構築によって監査可能です。各トレーニング サンプルには、なぜそれが信頼されるべきかを説明する検査可能なソース スパンが含まれています。
原文 (English)
EVE-Agent: Evidence-Verifiable Self-Evolving Agents
Self-evolving agents should not train on examples they cannot justify. Data-free self-evolving search agents offer a scalable route to systems that generate their own questions, answer them, and improve from their own feedback without human annotations. Yet, without verifiable evidence, this loop can reward fluent but unsupported examples, turning the self-generated curriculum into an opaque and potentially unreliable training signal. We argue that evidence verifiability is a prerequisite for trustworthy self-evolution in search agents: each generated instance should include not only an answer but also a source-grounded span whose contribution to that answer can be measured. We introduce EVE-Agent, an Evidence-Verifiable Self-Evolving Agent that operationalizes this principle through a modification to the proposer--solver framework. The proposer generates a question, an answer, and a verbatim evidence span. An evidence verifier then rewards the span according to the marginal accuracy gain when the evidence is provided. This produces a training signal that favors evidence that genuinely helps answer the question, without requiring oracle answers, human labels, or external annotations. EVE-Agent leaves the backbone model, retriever, search tool, and optimization framework unchanged. Experiments show that EVE-Agent substantially improves evidence-grounded correctness over prior self-evolving search agents. The resulting curriculum is not merely self-generated but auditable by construction: each training example carries an inspectable source span that explains why it should be trusted.
決定論的な地平線: 信頼できる AI システムの設計仕様としての不可能性の結果
現在、大規模な言語モデルがソフトウェアを作成し、法的文書を草案し、臨床記録を作成していますが、チューリングとアローからノー フリー ランチ定理に至るまで、基本的な限界が計算でできることを形作っています。この論文は、そのような好奇心から生じる不可能性をデザインルールに変換します。その主力の結果は、アーキテクチャのみによって設定された精度の上限を証明しています。つまり、重要な推論の深さを超えると、アダプター ランク、サンプル サイズ、損失関数を問わず、いくらトレーニングしても精度が向上しません。この Deterministic Horizon は、層数と埋め込み幅から導入前に計算可能で、12 のトランス アーキテクチャにわたって 19 ~ 31 の間で測定され、最適な長さのトレースの微調整により 4 パーセント ポイント未満に回復します。このメカニズムは残差ストリームの容量不変であり、情報理論的な変換により、地平線を超えて超指数関数的に精度が低下します。定数深さの素数モジュラス回路に対するべき乗モジュラーの無条件の回路複雑さの下限は、この結果を補完します。同じ議論がサブフィールド全体に当てはまります。指定を誤ったモデルの下での優先学習は、サンプルの複雑さにおいて不連続にジャンプします。マルチステージ取得パイプラインには、少なくともステージと同じ数の独立したメトリクスが必要です。標準的な真実のオークションは、プロンプト依存の評価を行うエージェントでは失敗します。また、ニューラル推論のゼロ知識検証では、非線形活性化ごとに 111 ~ 190 回のオーバーヘッドが測定されます。これらは一緒になって 16 の仕様のカタログを形成し、各ペアは計算可能な境界、定量化された違反コスト、および建設的な設計ルールです。2 つの組み合わせが証明され、1 つのペアは正直な障害であり、4 つは未解決のままです。不可能仕様の方法論は、信頼できる AI が必要とする可能性のある生成研究プログラムのために提供されます。 AI の基本的な制限はすべて設計ルールでもあります。
原文 (English)
The Deterministic Horizon: Impossibility Results as Design Specifications for Trustworthy AI Systems
Large language models now write software, draft legal documents, and produce clinical notes, yet fundamental limits, from Turing and Arrow to the No Free Lunch theorems, shape what computation can do. This thesis turns such impossibility results from curiosities into design rules. Its flagship result proves an accuracy ceiling set by architecture alone: past a critical reasoning depth, no amount of training moves it, at any adapter rank, sample size, or loss function. Computable before deployment from layer count and embedding width, this Deterministic Horizon is measured between nineteen and thirty-one across twelve transformer architectures, and fine-tuning on optimal-length traces recovers under four percentage points. The mechanism is a capacity invariant of the residual stream, and an information-theoretic conversion yields super-exponential accuracy decay past the horizon. An unconditional circuit-complexity lower bound for modular exponentiation against constant-depth prime-modulus circuits complements this result. The same argument recasts across subfields: preference learning under any misspecified model jumps discontinuously in sample complexity; multi-stage retrieval pipelines require at least as many independent metrics as stages; standard truthful auctions fail for agents with prompt-dependent valuations; and zero-knowledge verification of neural inference pays a measured overhead of one hundred ten to one hundred ninety times per non-linear activation. Together these form a catalogue of sixteen specifications, each pairing a computable boundary, a quantified violation cost, and a constructive design rule: two compositions are proved, one pairing is an honest obstruction, and four remain open. The impossibility-specification methodology is offered for the generative research programme that trustworthy AI may need. Every fundamental limit of AI is also a design rule.
PathCal: 効率的な推論のための状態認識型反射マーカー キャリブレーション
大規模推論言語モデル (LRM) の出現により、推論中に長い形式の思考連鎖 (CoT) 軌跡を生成することにより、テスト時間のスケーリングを通じて複雑な推論タスクに取り組む道が開かれました。一方、これらの軌跡には、「待つ」、「しかし」、「代わりに」などの明示的な反映マーカーが含まれることが多く、それぞれためらい、修正、代替探索の検討を示します。テスト時制御に関する最近の研究では、このようなマーカーをステアリング推論のための軽量ハンドルとして利用しており、通常、マーカーを個別の機能的役割を区別するのではなく、単一の粗粒カテゴリーとして扱っています。この論文では、タイプごとの抑制と固定プレフィックス介入を実行し、反射マーカーがその機能的役割が異なるだけでなく、最大の影響を与える時期も異なることを明らかにしました。具体的には、マーカーのクラスが異なると、精度と生成の長さに異なる形で影響があり、マーカーの選択は、モデルが安定した推論軌道に落ち着く前に最も重要になります。これらの発見に動機付けられて、マーカーの種類を区別し、局所的に不確実な状態にのみ介入することによって推論パスを調整する、トレーニング不要の新しいデコードコントローラーである PathCal を紹介します。各デコード ステップで、PathCal はリフレクション マーカー上の分布を利用して、現在の推論軌道の維持と競合ブランチの開始との間の局所的な競合を推定し、競合ブランチの証拠が過剰になった場合に、マーカー ロジットのバランスをソフトに再調整します。 6 つの推論ベンチマークにわたる実験では、PathCal が外部検証器や追加のサンプリングに依存することなく、パフォーマンスのトレードオフ、つまり生成の長さを短縮しながら精度を向上または維持することで、より優れた効率を達成できることを実証しています。
原文 (English)
PathCal: State-Aware Reflection-Marker Calibration for Efficient Reasoning
The emergence of Large Reasoning Language Models (LRMs) has paved the way for tackling complex reasoning tasks through test-time scaling by generating long-form Chain-of-Thought (CoT) trajectories during inference. Meanwhile, these trajectories often contain explicit reflection markers such as ``wait'', ``but'', and ``alternatively'', signaling hesitation, revision, and the consideration of alternative explorations, respectively. Recent studies on test-time control leverage such markers as lightweight handles for steering reasoning, typically treating them as a single coarse-grained category rather than distinguishing their distinct functional roles. In this paper, we conduct type-wise suppression and fixed-prefix intervention, revealing that reflection markers differ not only in their functional roles but also in when they exert the greatest influence. Specifically, different marker classes affect accuracy and generation length in distinct ways, and marker choices are most consequential before the model settles into a stable reasoning trajectory. Motivated by these findings, we introduce PathCal, a novel training-free decoding controller that calibrates reasoning paths by distinguishing marker types and intervening only at locally uncertain states. At each decoding step, PathCal utilizes the distribution over reflection-markers to estimate local competition between maintaining the current reasoning trajectory and initiating a competing branch, and softly rebalances marker logits when competing-branch evidence becomes excessive. Experiments across six reasoning benchmarks demonstrate that PathCal achieves a better efficiency--performance trade-off, improving or preserving accuracy while reducing generation length, without relying on external verifiers or additional sampling.
帰納的演繹的合成: AI による正式に検証されたシステムの生成を可能にする
AI エージェントは、コードの生成、テスト、改良においてますます優れています。ただし、テストだけでは提供できない完全な範囲の正式な保証を必要とするタスクには不十分です。分散システムはその典型的な例です。読み取りと書き込みの間の一貫性などの特性は、イベントのあらゆるインターリーブ下で維持される必要があります。機械化された正式な検証はそのような正しさを保証できますが、通常は数か月から数年の専門家の努力が必要です。その証拠に、SOTA コーディング エージェント (GPT-5.4 を使用した Codex および Opus 4.6 を使用した Claude Code) でさえ、2/7 分散キーバリュー ストア仕様でのみ成功します。この論文では、このギャップに対処するための最初の効果的なアプローチである帰納的演繹的合成 (IDS) を紹介します。これは、実装と証明を共同かつ漸進的に合成し、失敗した試みから学び、有望な戦略を体系的に試行します。エージェント LLM システムとして構築された IDS は、約 6.8 時間で 7/7 を達成し、仕様あたりのコストは平均 106 ドルです。これは、専門家の努力よりも約 200 倍速く、SOTA エージェントよりも 17% 安価です。 IDS はさらに、同じループにパフォーマンスのフィードバックを組み込み、公開されている検証済みシステムよりも最大 3 倍高速な実装を実現します。
原文 (English)
Inductive Deductive Synthesis: Enabling AI to Generate Formally Verified Systems
AI agents increasingly excel at generating, testing, and refining code. However, they fall short on tasks requiring formal guarantees of full coverage that testing alone cannot provide. Distributed systems are a prime example: properties such as consistency between reads and writes must hold under every possible interleaving of events. Mechanized formal verification can guarantee such correctness, but typically demands months to years of expert effort. As evidence, even SOTA coding agents (Codex with GPT-5.4 and Claude Code with Opus 4.6) succeed on only 2/7 distributed key-value-store specifications. In this paper, we present the first effective approach to addressing this gap, Inductive Deductive Synthesis (IDS), which jointly and incrementally synthesizes implementation and proof, and learns from failed attempts to systematically try promising strategies. Built as an agentic LLM system, IDS achieves 7/7 in about 6.8 hours and $106 per spec on average, roughly 200x faster than expert effort and 17% cheaper than SOTA agents. IDS further incorporates performance feedback into the same loop, yielding implementations up to 3x faster than published verified systems.
AI マップの再描画: エージェントのエコシステムにおける責任境界の理論
エージェントティック AI オーケストレーターは、組織の境界を越えて情報システム機能を構成するためのインターフェースと組み立てのコストを削減し、モジュール化と組織の細分化を加速するように見えます。しかし、出力に証拠、レビュー、承認、または割り当て可能な責任が必要な AI 対応機能は、技術インターフェイスがモジュール化された場合でも、統合された責任の境界を維持する可能性があります。私たちは、エージェントエコシステムにおける責任の境界配置に関する能力レベルの理論を開発します。 AI がサポートする出力を合法的、監査可能、レビュー可能にし、責任者に割り当てることができるようにする補完的な資産である説明責任資産を導入します。私たちは、検証コストと責任の移転可能性が、実行と責任の境界を同時に移動できるかどうかを決定すると主張します。この理論では、コンポーネント、統合、およびデュアルトラックという 3 つの境界戦略が特定されています。また、組織の意思決定ルールが正式な情報システムから管理されていないエージェント実行環境に移行するときに発生するガバナンスの負担であるルール負債も導入されます。デジタルイノベーション、トランザクションコスト、補完的資産、デジタルプラットフォームのガバナンス、情報システム管理の観点を統合し、エージェントによる組み立てコストの削減、責任資産、流用性、オーケストレーターの意図の捕捉、境界の設定ミスを境界戦略、価値の流用、ルール負債に結び付ける7つの提案を開発します。この理論は、デジタルのモジュール化が組織の細分化にまで及ぶ場合と、説明責任により機能の統合が維持される場合を説明します。文書処理、法律サービス、監査、臨床意思決定のサポート、調達にわたる構造化された図により、境界ロジックが規律化されます。
原文 (English)
Redrawing the AI Map: A Theory of Accountability Boundaries in Agentic Ecosystems
Agentic AI orchestrators reduce the interface and assembly costs of composing information systems capabilities across organizational boundaries, seemingly accelerating modularization and organizational disaggregation. Yet AI-enabled capabilities whose outputs require evidence, review, signoff, or assignable responsibility may retain integrated accountability boundaries even when their technical interfaces become modular. We develop a capability-level theory of accountability-boundary placement in agentic ecosystems. We introduce accountability assets: complementary assets that make AI-supported outputs legitimate, auditable, reviewable, and assignable to a responsible party. We argue that verification cost and responsibility transferability determine whether the execution and accountability boundaries can move together. The theory identifies three boundary strategies: component, integrated, and dual-track. It also introduces rule debt, the governance burden that accrues when organizational decision rules migrate from formal information systems into ungoverned agentic execution environments. Integrating digital innovation, transaction cost, complementary-assets, digital platform governance, and IS control perspectives, we develop seven propositions linking agentic assembly-cost reductions, accountability assets, appropriability, orchestrator intent capture, and boundary misconfiguration to boundary strategy, value appropriation, and rule debt. The theory explains when digital modularization extends to organizational disaggregation and when accountability keeps capabilities integrated. Structured illustrations across document processing, legal services, audit, clinical decision support, and procurement discipline the boundary logic.
AutoResearch AI: 科学的発見のための AI を活用した研究自動化に向けて
科学研究は、孤立した支援を超えて、文献根拠、仮説生成、実験、検証、報告、修正に及ぶ長期的なワークフローに移行する AI システムによって再形成されています。この移行は、科学向けのタスクレベルの AI からワークフローレベルの研究自動化への移行を示しています。しかし、現在のシステムは断片化したままであり、自律性、ドメイン範囲、実行環境、検証メカニズム、人間の監視が異なり、証拠の保存、再現性、弱い方向の拒否、来歴追跡、クロスドメインの堅牢性、責任ある科学的終結に依然として苦労しています。この調査では、AI を活用した科学的ワークフローの自動化の開発範囲として定義される AutoResearch を通じて、これらの開発を調査します。その中で、Vibe Research は、プロンプトベースの支援と人間が検証した実行という人間が主導する領域を示していますが、新興の AI 主導システムは、堅牢な自律性を達成することなく、発見ループの大部分を調整します。私たちは、研究システムがワークフロー全体で制御、証拠、実行、検証、説明責任をどのように再配分するかを分析し、次の 5 つのワークフロー条件に基づいて分野を整理します。仮説の形成と計画。実験とツールの使用。フィードバック、検証、レビュー。そして報告と知識の伝達。さらに、AI 科学者システム、混合イニシアティブ共同研究フレームワーク、ベンチマーク、ドメイン展開、オープンソース インフラストラクチャを統合します。最後に、新規性、有効性、影響力、信頼性、来歴という 5 つの評価次元を提案し、AutoResearch の自律性はドメイン条件付きであり、構造化され、実行可能で、迅速に検証可能な環境ではより信頼性が高くなりますが、具体化された、遅延した、異質な、倫理的、または制度的に責任のある状況では制限されることを示します。
原文 (English)
AutoResearch AI: Towards AI-Powered Research Automation for Scientific Discovery
Scientific research is being reshaped by AI systems that move beyond isolated assistance toward longer-horizon workflows spanning literature grounding, hypothesis generation, experimentation, validation, reporting, and revision. This shift marks a transition from task-level AI for science to workflow-level research automation. Yet current systems remain fragmented, differing in autonomy, domain scope, execution environment, validation mechanism, and human oversight, while still struggling with evidence preservation, reproducibility, weak-direction rejection, provenance tracking, cross-domain robustness, and accountable scientific closure. This survey examines these developments through AutoResearch, defined as the developmental spectrum of AI-powered scientific workflow automation. Within it, Vibe Research denotes the human-steered region of prompt-based assistance and human-verified execution, whereas emerging AI-led systems coordinate larger portions of the discovery loop without achieving robust autonomy. We analyze how research systems redistribute control, evidence, execution, validation, and accountability across workflows and organize the field around five workflow conditions: literature and research grounding; hypothesis formation and planning; experimentation and tool use; feedback, validation, and review; and reporting and knowledge communication. We further synthesize AI scientist systems, mixed-initiative co-research frameworks, benchmarks, domain deployments, and open-source infrastructures. Finally, we propose five evaluation dimensions--novelty, validity, impact, reliability, and provenance--and show that AutoResearch autonomy is domain-conditioned, being more credible in structured, executable, and rapidly verifiable settings but limited in embodied, delayed, heterogeneous, ethical, or institutionally accountable contexts.
財団プロトコル: エージェント社会のための調整層
自律型エージェントはツールから社会インフラストラクチャの層に移行しており、ソフトウェアの閲覧、購入、展開、システムの管理を行い、相互に対話することが増えています。これらのシステムが拡張するにつれて、ボトルネックは生のモデルの機能から調整へと移行します。エージェントは、信頼できる関係を形成し、複数のエージェントの作業を組織し、価値を交換し、AI エコノミーをサポートし、現実世界の監視の下で安全と責任を保つ必要があります。この論文では、新興の人間と AI 社会のためのグラフファースト調整層である Foundation Protocol (FP) を紹介します。 FP は、エージェント、ツール、リソース、人間、機関、組織などの異種エンティティを統合し、ネイティブのマルチパーティ組織とイベントベースのコラボレーションをサポートします。また、計量、領収書、決済のための経済的な基本機能も提供し、ポリシー、出所、監査を第一級の関心事として扱います。 FP は、既存のプロトコルを置き換えるのではなく、ラップしてブリッジするように設計されており、統合とガバナンスのオーバーヘッドを削減しながら段階的な導入を可能にします。その目的は、説明責任を交渉の余地のない状態に保ちながら、自律的な機関を構成可能に保ち、調整自体がオープンで多元的で統治可能な人間と AI の社会の共有インフラストラクチャになるようにすることです。
原文 (English)
Foundation Protocol: A Coordination Layer for Agentic Society
Autonomous agents are moving from tools into a layer of social infrastructure: they browse, purchase, deploy software, manage systems, and increasingly interact with one another. As these systems scale, the bottleneck shifts away from raw model capability toward coordination. Agents need to form reliable relationships, organize multi-agent work, exchange value, support an AI economy, and stay safe and accountable under real-world oversight. This paper introduces the Foundation Protocol (FP), a graph-first coordination layer for an emerging human-AI society. FP unifies heterogeneous entities, including agents, tools, resources, humans, institutions, and organizations, and supports native multi-party organization and event-based collaboration. It also provides economic primitives for metering, receipts, and settlement, and treats policy, provenance, and audit as first-class concerns. FP is designed to wrap and bridge existing protocols rather than replace them, enabling incremental adoption while reducing integration and governance overhead. The aim is to keep autonomous agency composable while keeping accountability non-negotiable, so that coordination itself can become shared infrastructure for a human-AI society that is open, pluralistic, and governable.
GENSTRAT: 大規模言語モデルにおける戦略的推論の科学に向けて
大規模言語モデル (LLM) は、市場、オークション、入札設定における経済エージェントとしてますます導入されています。特定の展開における彼らの行動を予測するのは困難です。既存の戦略的推論ベンチマークは、固定された正規ゲームのモデルを評価します。これらのベンチマークは、フロンティアが向上するにつれて飽和する可能性があり、評価者がベンチマークのパフォーマンスから実際の展開に含まれる多様で複雑な戦略的環境までを自信を持って一般化することはできません。これらの課題に対処するために、手続き的に生成された戦略的環境を使用する GENSTRAT を紹介します。具体的には、2 人用のゼロサム不完全情報カード ゲームの分布を生成します。ジェネレーターはオンデマンドで新鮮なゲームを描画できるため、常に最新の評価と汚染への耐性が可能になります。私たちはゲームの分布を、モデルの能力を 6 つの軸 (状態空間、時間的深さ、情報感度、対戦相手のモデリング、リスク、脆弱性) にわたって分解する能力プロファイル手法と組み合わせます。また、戦略的に類似したゲーム間でモデルのアドバンテージが予期せずジャンプするときを検出する、分布内の滑らかさのギザギザの尺度も導入します。 2,000 試合で生成されたプールから 50 のベンチマーク試合をサンプリングし、36,000 試合を超える直接対決トーナメントで 9 つのフロンティアおよび無差別級 LLM を評価します。新しいフロンティア層モデルの方が平均スコアが高くなります。その平均を超えると、ほぼ同一の全体的な強度を持つモデルは質的に異なる能力プロファイルを示し、リーダーボードの上位 3 つのモデルのうち 2 つ (gpt-5 と claude) は、全体的な強度が近いにもかかわらず、3 番目 (gemini-3.1-pro) よりも局所的な変動が顕著に高くなります。機能プロファイルとギザギザの尺度を組み合わせることで、全体的なランキングだけでは提供できない展開関連の診断が得られます。
原文 (English)
GENSTRAT: Toward a Science of Strategic Reasoning in Large Language Models
Large language models (LLMs) are increasingly deployed as economic agents in marketplaces, auctions, and bidding settings. Anticipating their behavior in any specific deployment is hard. Existing strategic-reasoning benchmarks evaluate models on fixed canonical games. These benchmarks may saturate as the frontier improves, and they do not allow evaluators to generalize with confidence from benchmark performance to the varied and messy strategic environments that actual deployments involve. We introduce GENSTRAT, which uses procedurally generated strategic environments to address these challenges. Concretely, we generate a distribution of two-player zero-sum imperfect-information card games. The generator can draw fresh games on demand, allowing for evergreen evaluation and resistance to contamination. We pair the game distribution with a capability-profile methodology that decomposes model competence across six axes (state space, temporal depth, information sensitivity, opponent modeling, risk, and brittleness). We also introduce a jaggedness measure of within-distribution smoothness that detects when a model's advantage jumps unpredictably between strategically similar games. We sample 50 benchmark games from a 2,000-game generated pool and evaluate nine frontier and open-weight LLMs in a head-to-head tournament with over 36,000 matches. Newer frontier-tier models score higher on average. Beyond that average, models with near-identical overall strength show qualitatively different capability profiles, and two of the top three leaderboard models (gpt-5 and claude) are noticeably more locally volatile than the third (gemini-3.1-pro), despite being close in overall strength. Together, the capability profile and the jaggedness measure give a deployment-relevant diagnostic that the overall ranking alone cannot provide.
ナレッジワークのベンチマークを設計およびレポートする
LLM エージェントの開発により、コーディング、研究、ヘルスケアなど、ナレッジワーク AI に関する一連の研究が増加しています。ただし、現在の知識作業の評価とベンチマークの設計は依然として従来の NLP タスクのロジックに従っています。その結果、ベンチマークのパフォーマンスが高くても、システムが実際の展開設定でナレッジ ワークを実行できることを確実に示すことはできません。このペーパーは、ベンチマーク対象のタスクがスコアに関連付けられた作業要求をどのように表すかを明示するための 3 段階のアプローチを提供します。つまり、評価対象の作業アクティビティを定義し、テストされた設定を指定し、適切な作業成果物をスコアリングします。私たちは、ナレッジワークが役割と責任、ローカルの材料とツール、下流のワークフローで使用可能なままでなければならない成果物を通じて組織化されていることを示す作業研究をレビューします。次に、これらの懸念事項をベンチマーク設計とレポート作成のガイダンスに変換します。これには、タスクを作業アクティビティにどのようにマッピングするか、テストされた設定で材料、ツール、役割、制約をどのように指定するか、システムが残した作業成果物にどのように焦点を当てるべきかが含まれます。評価対象の作業活動に名前を付け、一般的なベンチマーク タスクと区別するために、O{*}NET 職業タスク データベースから 18 の作業活動のインベントリを取得します。私たちは 3 つのベンチマーク ケース分析を通じてこのアプローチを実証します。GDPval、ノンコードの職業成果ベンチマーク。 OfficeQA Pro、最終回答によってスコア付けされる、根拠のある文書分析ベンチマーク。 APEX-SWE は、実行可能スコア付き製品を備えたソフトウェア エンジニアリング ベンチマークです。これらのケースは、ベンチマーク設計の選択が、スコアがサポートできる最も強力な作業要求をどのように形成するか、また、ベンチマーク対象のタスク、テストされた設定、スコア付けされた製品、およびより広範な作業要求の間にギャップが生じる場所を示しています。
原文 (English)
Design and Report Benchmarks for Knowledge Work
The development of LLM agents has led to a growing body of work on knowledge-work AI, including coding, research, and healthcare. However, current knowledge-work evaluation and benchmark design still largely follow the logic of traditional NLP tasks. As a result, higher benchmark performance does not reliably show that a system can carry out knowledge work in real-world deployment settings. This paper contributes a three-step approach for making explicit how benchmarked tasks represent the work claims attached to their scores: defining the work activity under evaluation, specifying the tested setting, and scoring the appropriate work product. We review work studies showing that knowledge work is organized through roles and responsibilities, local materials and tools, and artifacts that must remain usable in downstream workflows. We then translate these concerns into benchmark design and reporting guidance, covering how tasks should be mapped to work activities, how tested settings should specify materials, tools, roles, and constraints, and how scoring should focus on the work product left by the system. To name the work activity being evaluated and distinguish it from common benchmark tasks, we derive an inventory of 18 work activities from the O{*}NET occupational task database. We demonstrate the approach through three benchmark case analyses: GDPval, a non-code occupational deliverable benchmark; OfficeQA Pro, a grounded document-analysis benchmark scored by final answers; and APEX-SWE, a software-engineering benchmark with executable scored products. These cases show how benchmark design choices shape the strongest work claim a score can support, and where gaps arise between the benchmarked task, tested setting, scored product, and broader work claim.
長期的な LLM エージェントサービスのための並列コンテキスト圧縮
長期にわたる LLM エージェントは会話履歴を蓄積し、最終的にはモデルのコンテキスト ウィンドウを超えます。 LLM ベースの要約によるコンテキストの圧縮により、会話は制限されたままになりますが、要約には本質的に損失が多く、ブロッキング コールによりエージェントの推論が数十秒間停止します。さらに、プロンプト指示はほとんど無視されるため、オペレーターは要約ボリュームをきめ細かく制御できず、コンテキストが増大するにつれて、モデルが生成する出力トークンの量とモデルが保持する情報の両方が実行ごとに大幅に変動するため、エージェントが保持する知識が実行間で予測不可能になります。ロングホライズンのエージェント フローに対して \textbf{並列圧縮} を導入し、HotpotQA マルチホップ QA および LoCoMo のロング コンテキスト ダイアログ ベンチマークで、高密度および MoE アーキテクチャと推論モデルおよび非推論モデルを混合し、8B から 120B パラメータにわたる 4 つのバックボーンにわたる順次同期ベースラインに対して特徴付けます。並列圧縮により、オペレーターは要約ボリュームをきめ細かく予測可能な制御できるようになり、ブロックごとにターゲットを絞った迅速なエンジニアリングが可能になります。圧縮デコード ボリュームが一致すると、エンドツーエンドのウォール タイムが短縮され、シーケンシャル ベースラインを超える圧縮スループットが向上します。
原文 (English)
Parallel Context Compaction for Long-Horizon LLM Agent Serving
Long-horizon LLM agents accumulate growing conversation histories that eventually exceed the model's context window. Context compaction via LLM-based summarization keeps the conversation bounded, but summarization is inherently lossy and the blocking call stalls agent inference for tens of seconds. Moreover, the operator has no fine-grained control over summary volume since prompt instructions are largely ignored, and as context grows, both the amount of output tokens the model produces and the information it retains fluctuate substantially from run to run, making the agent's retained knowledge unpredictable across runs. We introduce \textbf{parallel compaction} for long-horizon agentic flows and characterize it against the sequential synchronous baseline across four backbones spanning 8B to 120B parameters, mixing dense and MoE architectures with reasoning and non-reasoning models, on the HotpotQA multi-hop QA and LoCoMo long-context dialogue benchmarks. Parallel compaction gives the operator fine-grained, predictable control over summary volume and enables more targeted prompt engineering per block. At matched compaction decode volume, it reduces end-to-end wall time and improves compaction throughput over the sequential baseline.
オントロジー知識ブロック: 信頼できる AI システムのための実行可能コンプライアンスとプロファイルベースの検証
重要なデジタル インフラストラクチャに導入された AI 対応サービスは、透明性、説明責任、公平性、追跡可能性にわたるガバナンス義務の対象となります。今日のコンプライアンスは依然として文書中心です。義務は散文で説明され、監査は静的なチェックリストに依存し、検証は手動レビューに依存しています。このようなアプローチは、自動化された AI システムには拡張できません。このペーパーでは、規制上の義務を構造化証拠グラフに対する機械チェック可能な制約にまとめるプログラム可能なガバナンス インフラストラクチャであるオントロジカル ナレッジ ブロック (OKB) を紹介します。私たちは、規範的義務を RDF/OWL 概念スキーマ、実行可能な SHACL 検証ルール、明示的な証拠要件、および PROV-O 来歴リンクにバインドする 5 タプルとして OKB を形式化します。決定論的規制コンパイラーは、構造化された中間表現 (IR) レコードを構成可能な KB モジュールに変換し、サービス コードを変更せずにプロファイル ベースのガバナンスを再構成できるようにします。私たちは 2 つのプロトタイプを実装し、24 回の検証実行と 4 つのガバナンス プロファイルにわたる AI 支援の HPC リソース割り当てシナリオでそれらを評価しました。結果は、プロファイルに依存した検証、厳密に加算的な違反の蓄積、12.6 ミリ秒から 100.3 ミリ秒の間の SHACL 検証レイテンシ、および厳密に最も包括的なプロファイルとして Combined を確認するプロファイル同等性テストを示しています。すべてのアーティファクトはオープンソースとしてリリースされます。
原文 (English)
Ontological Knowledge Blocks: Executable Compliance and Profile-Based Validation for Trustworthy AI Systems
AI-enabled services deployed in critical digital infrastructure are subject to governance obligations spanning transparency, accountability, fairness, and traceability. Compliance today remains documentation-centric: obligations are described in prose, audits rely on static checklists, and verification depends on manual review. Such approaches do not scale to automated AI systems. This paper introduces Ontological Knowledge Blocks (OKBs), a programmable governance infrastructure that compiles regulatory obligations into machine-checkable constraints over structured evidence graphs. We formalize an OKB as a 5-tuple that binds normative obligations to an RDF/OWL concept schema, executable SHACL validation rules, explicit evidence requirements, and PROV-O provenance links. A deterministic regulatory compiler translates structured Intermediate Representation (IR) records into composable KB modules, enabling profile-based governance reconfiguration without modifying service code. We implement two prototypes and evaluate them in an AI-assisted HPC resource allocation scenario across 24 validation runs and four governance profiles. Results demonstrate profile-sensitive validation, strictly additive violation accumulation, SHACL validation latency between 12.6 ms and 100.3 ms, and profile equivalence testing confirming Combined as the strictly most comprehensive profile. All artefacts are released as open source.
DART: 構造化ツール エージェントのセマンティック回復可能性
構造化ツール エージェントが実行中に失敗すると、ランタイムはジレンマに直面します。タスク全体を再実行するのは安全ですが無駄が多く、ローカル チェックポイントからの復元は効率的ですが、コミットされた下流の作業が、もはや存在しない上流の履歴に結び付けられたままになる可能性があります。この緊張は、ロールバックが単一の失敗したインスタンスをターゲットにしているにもかかわらず、ダウンストリームのコンシューマーがすでにその出力に対応している場合、コミットメントに依存する設定では深刻です。既存の回復アプローチでは、機械的なロールバックが提供されますが、ダウンストリームのコミット後にローカルの復元が意味的に有効なままであるかどうかの基準がありません。私たちはこのギャップをセマンティックな回復可能性として形式化し、障害が発生したインスタンスをローカライズし、そのインスタンスのセマンティックに回復可能な境界を証明し、チェックポイントをそれらの境界に合わせて、依存関係と影響制約の下でコミットされたダウンストリーム作業を保存する、またはそれ以外の場合はブロックする許容可能な復元ポイントを選択するモジュラー ランタイムである DART で対処します。 3 つの LLM 駆動ドメインと LangGraph ベースの基板上の外部検証にわたって、DART は、ベースラインのローカル リカバリが失敗する評価済みのコミットメント依存のケースをすべて正しくリカバリし、5 つのドメインの安全性監査で安全でない許可されたロールバックは検出されません。これらの結果は、コントローラーの合法性は意味論的な妥当性を意味するものではなく、健全なローカル回復には明示的な許容性チェックが必要であることを示しています。
原文 (English)
DART: Semantic Recoverability for Structured Tool Agents
When a structured tool agent fails mid-execution, the runtime faces a dilemma: replaying the entire task is safe but wasteful, while restoring from a local checkpoint is efficient but can leave committed downstream work tied to an upstream history that no longer exists. This tension is acute in commitment-sensitive settings, where rollback targets a single failed instance yet downstream consumers have already acted on its output. Existing recovery approaches provide mechanical rollback but no criterion for whether a local restore remains semantically valid after downstream commitment. We formalize this gap as semantic recoverability and address it in DART, a modular runtime that localizes the failed instance, certifies semantically recoverable boundaries of that instance, aligns checkpoints to those boundaries, and selects an admissible restore point that preserves committed downstream work under dependency and effect constraints-or blocks otherwise. Across three LLM-driven domains and external validation on a LangGraph-based substrate, DART correctly recovers all evaluated commitment-sensitive cases where baseline local recovery fails, and a five-domain safety audit finds no unsafe admitted rollbacks. These results show that controller legality does not imply semantic validity, and that sound local recovery requires an explicit admissibility check.
状況に応じたバンディット優先学習による人間参加型のマルチエージェント人工呼吸器の意思決定サポート
人工呼吸器の意思決定サポートには、安全境界線と臨床医固有の調整スタイルを尊重しながら、進化する生理機能と疾患の軌跡を追跡する一連の意思決定が必要です。ルールベースのアプローチではパーソナライゼーションが一般化されることはほとんどなく、エンドツーエンドの強化学習や単一の大規模言語モデル システムの制御と監査は依然として困難です。我々は、契約主導型の構造化インターフェースを通じてモジュール式の意思決定コンポーネントを調整し、レビューのための追跡可能な証拠を生成するヒューマン・イン・ザ・ループのマルチエージェントフレームワークである人工呼吸器意思決定支援システム(VDSS)を提案します。 VDSS は、コンテキスト バンディットを使用してオンラインの好みの適応を実行し、調整サイクルごとに最終的に受け入れられた決定から臨床医固有の好みを更新し、それらを次の推奨事項のガイドとして使用します。構造化された拒否フィードバックにより、対象を絞った再計画がトリガーされ、非生産的な反復が削減され、インタラクションの安定性が向上します。専門家のレビューを伴う遡及的な ICU 軌跡の再生は、推奨事項の受け入れ可能性が高く、受け入れ可能な計画に到達するための対話ラウンドが少ないことを示し、臨床的に展開可能な人間 AI コラボレーションをサポートします。
原文 (English)
Human-in-the-Loop Multi-Agent Ventilator Decision Support with Contextual Bandit Preference Learning
Ventilator decision support requires sequential decisions that track evolving physiology and disease trajectories while respecting safety boundaries and clinician specific tuning styles. Rule based approaches rarely generalize personalization, and end to end reinforcement learning or single large language model systems remain difficult to control and audit. We propose the Ventilator Decision Support System (VDSS), a human in the loop multi agent framework that coordinates modular decision components through contract driven structured interfaces and produces traceable evidence for review. VDSS performs online preference adaptation with a contextual bandit, updating clinician specific preferences from the final accepted decision at each adjustment cycle and using them to guide subsequent recommendations. Structured rejection feedback triggers targeted replanning to reduce unproductive iterations and improve interaction stability. Retrospective ICU trajectory replay with expert review indicates higher recommendation acceptability and fewer interaction rounds to reach an acceptable plan, supporting clinically deployable human AI collaboration.
正しく実行されたにもかかわらず計画が失敗した場合: LLM ベースのマルチエージェント システムの認識論的キャリブレーションについて
LLM ベースのマルチエージェント システムは、計画されたアクションが正しく実行された場合でも失敗する可能性があります。これは、エージェントが計画の実現可能性を評価する際に知識を誤って判断する可能性があるためであり、これを計画における認識ミスキャリブレーションと呼んでいます。実行エラーとは異なり、認識ミスキャリブレーションは、生成された計画が自己一貫性を保ち、観察可能なエラーなしで実行可能であるため、計画中に潜在的です。新しい情報によって実現可能性の評価が変更される可能性があるため、誤校正は動的でもあり、過去の誤校正信号が隠蔽され、時間の経過とともに再発する可能性があります。これに対処するために、我々は、実現可能性を直接検証するのではなく、さまざまな情報条件下で計画がサポートされ続けるかどうかを評価する、認識計画校正エージェントティック ワークフロー (EPC-AW) を提案します。 EPC-AW は、情報の一貫性に基づいた計画選択を採用し、エージェント間で評価が安定している計画を選択します。また、一貫性に基づいて認識状態の改善を行い、過去の不一致を活用して将来の計画を導くことで時間の経過とともに調整を適応させます。実験によると、EPC-AW はシステム レベルの成功を平均 9.75% 向上させます。
原文 (English)
When Planning Fails Despite Correct Execution: On Epistemic Calibration for LLM-Based Multi-Agent Systems
LLM-based multi-agent systems can fail even when planned actions are executed correctly because agents may misjudge their knowledge when evaluating plan feasibility, a phenomenon we term epistemic miscalibration in planning. Unlike execution errors, epistemic miscalibration is latent during planning, as generated plans can remain self-consistent and executable without observable errors; the miscalibration is also dynamic, as new information can alter feasibility assessments, potentially obscuring past miscalibration signals and causing them to recur over time. To address this, we propose the Epistemic Planning Calibration Agentic Workflow (EPC-AW), which assesses whether plans remain supported under varying information conditions rather than directly verifying feasibility. EPC-AW employs Information-consistency-based Plan Selection, selecting plans whose evaluations are stable across agents, together with Consistency-guided Epistemic State Refinement to adapt calibration over time by leveraging past discrepancies to guide future planning. Experiments show that EPC-AW improves system-level success by an average of 9.75%.
EDGE-OPD: 証拠に基づいたポリシーに基づく抽出による特権コンテキストの内部化
On-Policy Distillation (OPD) は、モデル分布のドリフトを導入せず、その結果として一般的なタスクの回帰を引き起こすことなく機能を向上させる効果があるため、LLM ポストトレーニング パラダイムとして広く注目を集めています。オンポリシー自己蒸留 (OPSD) は、OPD の効率的なユースケースであり、生徒と教師として必要なモデルが 1 つだけであるため魅力的です。また、トレーニング プロセス中に、推論時には存在しない特権的なコンテキスト (ペルソナ、プライベートな事実、または実用的なソリューションなど) を教師に提供できるという利点もあります。このアプローチの課題は、特権情報によってモデルの動作が意図以上に変更される可能性があることです。推論が変更され、一般的な機能が低下し、応答の長さ、スタイル、ローカル トークンの設定などのパフォーマンス指標に影響を与える可能性があります。その結果、OPSD は、望ましい、転移可能な行動ではなく、副作用について学生を訓練する可能性があります。このペーパーでは、希少トークン/アイデンティティ設定でこの問題を研究し、2 つの異なる特徴を持つ OPSD の修正である EviDence GuidEd On-Policy Distillation (EDGE-OPD) を提案します。a) ガイド付きロールアウトを使用して、サンプリング時に特権コンテキストの動作をスチューデントに注入し、まれなターゲット動作が実際にポリシー上のデータに存在するようにします。b) 証拠マスクを適用します。スチューデントは、トークン位置でのみ更新されます。特権コンテキストは、ロールアウト内のすべてのトークンではなく、サンプリングされたトークンをサポートします。我々は、OPSD (およびそのバリアント RLSD (検証器の有無にかかわらず) はターゲット ID の学習に完全に失敗しますが、ガイド付きロールアウトの統合により成功することができることを経験的に示しています)。さらに、マスク領域のアブレーションは、ペルソナ信号が肯定的な証拠の尾部に局在していることを示しており、効率的な知識の伝達と汎用機能の保存について貴重な洞察を引き出すことができます。
原文 (English)
EDGE-OPD: Internalizing Privileged Context with Evidence Guided On-Policy Distillation
On-Policy Distillation (OPD) has gained wide attraction as an LLM post-training paradigm due to its effectiveness in improving capabilities without introducing model distribution drift, and consequently, regression in general tasks. On-Policy Self-Distillation (OPSD) is an efficient use-case of OPD, which is appealing as it requires only a single model as a student and teacher, and it also has the benefit of providing privileged context that is a absent at inference time (e.g. a persona, a private fact, or a worked solution) to the teacher during the training process. The challenge in this approach is that the privileged information can change model behavior more than intended: it can modify reasoning, degrade general capabilities, and affect performance indicators like response length, style, or local token preferences. Consequently, OPSD may train the student on side effects rather than a desired, transferable behavior. In this paper, we study this problem in a rare-token/identity setting and propose EviDence GuidEd On-Policy Distillation (EDGE-OPD), a modification of OPSD with two distinct characteristics: a) it uses guided rollouts to inject privileged-context behavior to the student at sampling time, so that the rare target behavior is actually present in the on-policy data, and b) it applies an evidence mask: the student is updated only at token positions where the privileged context supports the sampled token, rather than on every token in the rollout. We empirically show that OPSD (and its variant RLSD, with and without a verifier) completely fail to learn a target identity, while the integration of guided rollouts allows them to succeed. Additionally, mask-region ablations show that the persona signal is localized to the positive-evidence tail, allows us to draw valuable insights about efficient knowledge transfer and preservation of general purpose capabilities.
CPとかDPとか?なぜ両方ではないのか: 部分的な店舗スケジュール問題のケーススタディ
動的プログラミング (DP) と制約プログラミング (CP) は、組み合わせ最適化問題を解決するための十分に確立されたパラダイムです。通常、これら 2 つのアプローチは別々に使用されます。このペーパーは、DP が主要な検索フレームワークとして機能し、CP がグローバル制約の伝播を活用するサブルーチンとして使用され、この 2 つを効果的かつエレガントに組み合わせることができることを示すことを目的としています。この論文では、部分ショップ スケジューリング問題 (PSSP) に対するそのようなアプローチを紹介します。PSSP に対しては、純粋な DP 法が以前に提案されており、効率的な CP フィルタリング アルゴリズムが利用可能です。 PSSP は、各ジョブが任意の優先順位制約を持つ一連の操作で構成される一般的なスケジューリング問題です。このアプローチは、元の DP アルゴリズムが厳密にレイヤーごとに動作するのに対し、いつでも列検索などのいつでも DP 戦略に対応できる柔軟性を備えています。さらに、CP モデリングの柔軟性により、任意の優先順位制約を簡単に組み込むことができます。その結果、このモデルはあらゆる優先順位グラフを自然に処理し、大規模近傍検索 (LNS) スキームの設計も可能にします。このスキームでは、DP モデルが再利用され、再起動をまたがって半順序スケジュールが課されて、既存のソリューションを改善します。この特定の問題に関しては、最先端の純粋な CP ソルバーと競合することはできませんが、私たちの主な貢献は、このハイブリッド統合の実行可能性を実証することです。
原文 (English)
CP or DP? Why Not Both: A Case Study in the Partial Shop Scheduling Problem
Dynamic Programming (DP) and Constraint Programming (CP) are well-established paradigms for solving combinatorial optimization problems. Usually, these two approaches are used separately. This paper aims to show that the two can be combined effectively and elegantly, with DP serving as the primary search framework and CP used as a subroutine to leverage global constraint propagation. This paper presents such an approach for the Partial Shop Scheduling Problem (PSSP), for which a pure DP method has previously been proposed, and efficient CP filtering algorithms are available. The PSSP is a general scheduling problem where each job consists of a set of operations with arbitrary precedence constraints. The approach is flexible enough to accommodate anytime DP strategies, such as anytime column search, whereas the original DP algorithm operated in a strictly layer-wise manner. Moreover, the flexibility of the CP modeling makes it straightforward to incorporate arbitrary precedence constraints. As a result, the model naturally handles any precedence graph and even enables the design of a Large Neighborhood Search (LNS) scheme, in which the DP model is reused, and partial-order schedules are imposed across restarts to improve the incumbent solution. While not competitive with state-of-the-art pure CP solvers for this specific problem, our primary contribution is demonstrating the viability of this hybrid integration.
Co-ReAct: ReAct エージェントのステップレベルのコラボレーターとしてのルーブリック
検索集約型の複数ステップの推論タスクを行う ReAct スタイルのエージェントは、どのような証拠を探すか、次にどの推論またはアクション ステップを実行するか、いつ停止するかを決定する際に、主に自身の内部判断に依存しており、多くの場合、浅い、冗長な、またはターゲットが不十分な軌道を生成します。これまでの研究では、ルーブリックを外部の品質シグナルとして検討してきましたが、既存の用途は、行動を導くというよりも評価的なものがほとんどです。ルーブリックは通常、トレーニング時の報酬または完了した成果の事後評価として機能し、ディープリサーチ設定では、ステップレベルではなく、粒度が粗く、レポートレベルであることがよくあります。 Co-ReAct は、推論中にルーブリックをステップレベルのガイダンスとして使用する、ルーブリックに基づくアクション選択フレームワークです。各意思決定ステップで、Co-ReAct はエージェントのコンテキストにルーブリックを挿入して、次の理由か行動かの決定をガイドし、証拠の探索、検索、推論、または自己評価においてエージェントが何を対象とすべきかを指定します。このガイダンスを信頼できるものにするために、GRPO を使用して専用のルーブリック ジェネレーターをトレーニングします。以前のペアごとまたはバイナリの選好定式化とは異なり、私たちの目的は、複数の裁判官の専門家のコンセンサスランキングに対するリストごとのスピアマン順位相関報酬を最適化し、単にもっともらしいだけではなく識別的なルーブリックを奨励します。 DeepResearchBench と SQA-CS-V2 では、Co-ReAct は、8B/14B オープンソース ベース モデルとフロンティア クローズド ソース ベース モデルの両方に基づいて構築された検索エージェント全体で、ReAct および代表的なテスト時コンピューティング ベースラインよりも一貫して向上しています。トレーニングされたルーブリック ジェネレーターは、基礎となる意思決定メカニズムを変更することなく、これらのベースラインを改善するドロップイン コンポーネントとしても機能します。私たちのコードは https://github.com/ZBWpro/Co-ReAct で公開されています。
原文 (English)
Co-ReAct: Rubrics as Step-Level Collaborators for ReAct Agents
ReAct-style agents for search-intensive, multi-step reasoning tasks rely largely on their own internal judgment to decide what evidence to seek, which reasoning or action step to take next, and when to stop, often producing shallow, redundant, or poorly targeted trajectories. Prior work has explored rubrics as external quality signals, but existing uses are mostly evaluative rather than action-guiding: rubrics typically serve as training-time rewards or post-hoc evaluators of completed outputs, and in deep-research settings they are often coarse-grained and report-level rather than step-level. We introduce Co-ReAct, a rubric-guided action-selection framework that uses rubrics as step-level guidance during inference. At each decision step, Co-ReAct injects a rubric into the agent's context to guide the next Reason-or-Act decision, specifying what the agent should target in evidence seeking, search, reasoning, or self-evaluation. To make this guidance reliable, we train a dedicated rubric generator with GRPO. Unlike prior pairwise or binary preference formulations, our objective optimizes a list-wise Spearman rank-correlation reward against multi-judge expert consensus rankings, encouraging rubrics that are discriminative rather than merely plausible. On DeepResearchBench and SQA-CS-V2, Co-ReAct consistently improves over ReAct and representative test-time compute baselines across search agents built on both 8B/14B open-source and frontier closed-source base models. The trained rubric generator can also serve as a drop-in component that improves these baselines without changing their underlying decision mechanisms. Our code is publicly available at https://github.com/ZBWpro/Co-ReAct.
航空機の解体スケジュールの問題を解決する
耐用年数が終了した航空機の解体は、持続可能性の観点から必要な複雑な作業ですが、航空輸送会社にとって得られる利益はわずかです。したがって、分解手順の効率的なスケジュール設定は、プロセスの収益性を確保し、実践を奨励するために非常に重要です。これは、何千ものタスクとさまざまな制約を伴う大規模なスケジュールの問題です。再利用される予定の部品を取り出すには、特定の認定資格と機器を備えた技術者が必要です。抽出操作には優先順位関係がある場合があります。さらに、航空機はプロセス全体を通じてバランスを保たなければなりません。最後に、航空機の一部の場所ではスペースが限られており、同時にそこで作業できる技術者の数に制限があります。この記事では、この問題を詳細に説明し、問題を解決するための 2 つのアプローチ、制約プログラミング モデルと MIP モデルを提案します。モデルは、業界パートナーから提供された実際の運用データに基づいて、最大 1450 のタスクを含むさまざまなサイズのインスタンスでテストされます。
原文 (English)
Solving the Aircraft Disassembly Scheduling Problem
Dismantling aircrafts reaching their end of life is a complex endeavour that is necessary in terms of sustainability but yields small income margins for air transport companies. An efficient scheduling of the disassembly procedure is thus crucial to ensure the profitability of the process and incentivize practice. This is a large scheduling problem that involves thousands of tasks and many different constraints: Extracting parts that are destined to be reused requires technicians with specific certifications and equipment. Extraction operations might be subject to precedence relations. Furthermore, the aircraft must be kept balanced during the whole process. Finally, some of the locations of the aircraft have a limited space that caps the number of technicians able to work there concurrently. This article presents the problem in details and proposes two approaches to solve the problem: a Constraint Programming model and a MIP model. The models are tested on instances of varying sizes involving up to 1450 tasks, which are based on real operational data provided by an industrial partner.
1 つのポリシー、無限の NPC: スケーラブルなゲーム エージェント向けの個人追跡可能な共有 RL ポリシー
300 ペルソナのライフ シミュレーション ベンチマークでは、pcsp は、確率で最大 17 倍高い組成ゼロショット ペルソナ識別を達成し、スピアマン rho は約 0.73 の意味と行動の整合性を実現し、ポリシーとしての LLM ベースラインよりも 22 倍高速な推論を達成しました。ライフ シミュレーション ゲームには、デザイナーが作成した自然言語を通じて制御可能でありながら、異なる個性で一貫して動作する数百から数千のノン プレイヤー キャラクター (NPC) が必要です。既存の手法は、ペルソナの一貫性、制御性、リアルタイム推論などの制約により失敗します。自由形式のペルソナ記述の凍結された LLM 埋め込みを条件とする単一の強化学習ポリシーである、pcsp (ペルソナ条件付き共有ポリシー) を導入します。 pcsp は、NPC ごとに 1 回のペルソナ エンコーディング、低ランクのペルソナ投影、ニューラル ペルソナ コンディショニング、および PPO + InfoNCE 一貫性 + KL 多様性トレーニング目標を組み合わせています。 3 つの実験設定にわたるアブレーションは、InfoNCE の軌道一貫性の目標が負荷に耐えられることを示しています。これを削除すると、ゼロショットのペルソナ特定は偶然に崩壊します。 Melting Pot 2.4.0 基質の外部検証により、私たちの方法がマルチエージェントの戦略的環境においてペルソナに条件付けされた行動の発散を生み出すことが確認されました。私たちは、保留された評価の 2 つの意味、つまり構成的なゼロショットと語彙拡張の保留された評価を区別します。最後に、UE5 の導入により、64 エージェントでのエンジン内ペルソナ コンディショニング アブレーションが低い失敗率で再現され、サブフレーム推論プロファイルが商用ゲーム エンジンでも存続することが示されました。これらの結果は、共有 RL ポリシーがスケーラブルでリアルタイムのペルソナ条件付き NPC 制御をサポートできることを証明しています。
原文 (English)
One Policy, Infinite NPCs: Persona-Traceable Shared RL Policies for Scalable Game Agents
On a 300-persona life-simulation benchmark, pcsp achieves compositional zero-shot persona identification up to 17x above chance, Spearman rho approx 0.73 semantic-behavioral alignment, and 22x faster inference than an LLM-as-policy baseline. Life simulation games require hundreds to thousands of non-player characters (NPCs) that behave consistently with distinct personalities while remaining controllable through designer-authored natural language. Existing methods fail on constraints like persona consistency, controllability, or real-time inference. We introduce pcsp (Persona Conditioned Shared Policy), a single reinforcement learning policy conditioned on frozen LLM embeddings of free-form persona descriptions. pcsp combines once-per-NPC persona encoding, low-rank persona projection, neural persona conditioning, and a PPO + InfoNCE consistency + KL diversity training objective. Across three experimental settings, ablations show that the InfoNCE trajectory-consistency objective is load bearing: removing it collapses zero-shot persona identification to chance. External validation on Melting Pot 2.4.0 substrates confirms that our method produces persona-conditioned behavioral divergence in multi-agent strategic environments. We distinguish two senses of held-out evaluation: compositional zero-shot and vocabulary-expansion held-out. Finally, a UE5 deployment reproduces the in-engine persona-conditioning ablation at 64 agents with a low failure rate, showing that the sub-frame inference profile survives in a commercial game engine. These results prove that shared RL policies can support scalable, real-time, persona-conditioned NPC control.
MemAudit: 因果関係の特定と構造異常の検出による、汚染されたエージェントのメモリの事後監査
大規模な言語モデル エージェントは、過去の対話を保存し、関連するデモンストレーションを取得し、長期的なタスクの実行を改善するために、永続メモリへの依存度を高めています。ただし、このメモリ メカニズムは実際的なセキュリティ上の脆弱性も生み出します。敵対的なユーザーが通常の対話を通じて悪意のあるレコードをエージェントのメモリに挿入する可能性があり、これらのレコードは後で取得してエージェントの推論とアクションを制御することができます。既存の防御策は主に、即時フィルタリングや出力ブロックなどのオンライン介入に焦点を当てていますが、有害な動作がすでに観察された後、どの保存されたメモリが原因であるかという事後的な問題には対処していません。私たちは、メモリ拡張 LLM エージェントのためのポストホック因果メモリ監査フレームワークである \textbf{MemAudit} を提案します。このフレームワークは、(1) 有害な出力に対する各メモリの因果関係を測定する反事実的な記憶影響スコアと、(2) より広範なメモリ ストア内で構造的に異常なメモリを特定するメモリ整合性グラフの 2 つの相補的なシグナルを組み合わせます。 MINJA に対して MemAudit を評価します。MINJA は、メモリ バンクを直接変更するのではなく、通常のエージェントとの対話を通じて悪意のあるレコードが生成および保存される、クエリのみのメモリ インジェクション攻撃です。 QA 設定と推論エージェント設定の両方にわたって、MemAudit は現実的な事後監査シナリオの下で攻撃の成功率を大幅に低下させます。結果は、QA 攻撃の成功率が $70\%$ から $0\%$ に減少する一方、RAP 攻撃の成功率が $83.3\%$ から $0\%$ に減少することを示しています。
原文 (English)
MemAudit: Post-hoc Auditing of Poisoned Agent Memory via Causal Attribution and Structural Anomaly Detection
Large language model agents increasingly rely on persistent memory to store past interactions, retrieve relevant demonstrations, and improve long-horizon task execution. However, this memory mechanism also creates a practical security vulnerability: an adversarial user may inject malicious records into the agent's memory through ordinary interaction, and these records can later be retrieved to steer the agent's reasoning and actions. Existing defenses primarily focus on online intervention, such as prompt filtering or output blocking, but they do not address the post-hoc question of which stored memories are responsible after harmful behavior has already been observed. We propose \textbf{MemAudit}, a post-hoc causal memory auditing framework for memory-augmented LLM agents. The framework combines two complementary signals: (1) a counterfactual memory influence score that measures each memory's causal contribution to harmful outputs, and (2) a memory consistency graph that identifies structurally anomalous memories within the broader memory store. We evaluate MemAudit against MINJA, a query-only memory injection attack in which malicious records are generated and stored through normal agent interactions rather than direct memory-bank modification. Across both QA and reasoning-agent settings, MemAudit substantially reduces attack success rates under realistic post-hoc auditing scenarios. The results show that QA attack success is reduced from $70\%$ to $0\%$, while RAP attack success drops from $83.3\%$ to $0\%$.
プログラム検証のためのエージェント証明
エージェント システムは、形式数学における自動定理証明のための最先端のアプローチとして最近登場しました。これらの機能がプログラム検証にどこまで拡張されるかを評価するために、検証可能なコード生成のためのリーン 4 ベンチマークである CLEVER 上のエージェント証明フレームワークでクロード コードを評価します。私たちの結果は、Claude が問題の 98.8% に対しておそらく有効な仕様を生成し (81.3% はベンチマークの正しい部分に関する CLEVER の同型ベースのスコアリングでも受け入れられます)、問題の 87.5% に対して正しいグラウンドトゥルース仕様に基づいて実装を認証し、自己一貫性のある前提条件を持つエントリに対するエンドツーエンドのプログラム生成および検証パイプラインで 98.1% の成功率に達していることを示しています。クロードは、すべての段階にわたって、自身の試み (手動レビューで確認されたもの) に関する質の高いフィードバックをさらに提供し、失敗の根本的な原因とデータセットに残るバグを特定します。これらの発見は、既存のプログラム検証ベンチマークの難しさと現代のエージェント証明者の機能との間の不一致が増大していることを浮き彫りにし、より厳密でバグ耐性のある評価手法、特に生成された仕様の同型ベースのスコアリングに代わる手法の必要性を指摘しています。より広範に、私たちの結果は、緊密なコンパイラインザループエージェントパラダイムが、現在、基本的なプログラム検証にとって最も効果的なアプローチであるという経験的証拠を提供します。
原文 (English)
Agentic Proving for Program Verification
Agentic systems have recently emerged as state-of-the-art approaches for automated theorem proving in formal mathematics. To assess how far these capabilities extend to program verification, we evaluate Claude Code in an agentic proving framework on CLEVER, a Lean 4 benchmark for verifiable code generation. Our results show that Claude generates arguably valid specifications for 98.8% of problems (with 81.3% also accepted by CLEVER's isomorphism-based scoring on the correct portion of the benchmark), certifies implementations against correct ground-truth specifications for 87.5% of problems, and reaches a 98.1% success rate on the end-to-end program generation and verification pipeline over entries with self-consistent premises. Across all stages, Claude further provides high-quality feedback on its own attempts (as confirmed under manual review), identifying underlying causes of failure and lingering bugs in the dataset. These findings highlight a growing mismatch between the difficulty of existing program verification benchmarks and the capabilities of modern agentic provers, and point to the need for more rigorous, bug-resilient evaluation methodologies, and in particular for alternatives to isomorphism-based scoring of generated specifications. More broadly, our results provide empirical evidence that tight compiler-in-the-loop agentic paradigms are currently the most effective approach for foundational program verification.
バイナリ編集を超えた敵対的部分空間アライメントによる堅牢なマルチモーダル知識編集
マルチモーダル大規模言語モデル (MLLM) には、既存の機能を低下させることなく知識を更新するための効率的なメカニズムが必要です。本質的なマルチモーダル知識編集は、強力な信頼性と局所性を実現しますが、一般性が限られていることも多く、意味的に同等の視覚的および言語的バリエーション全体に編集を伝播することができません。この問題は、明示的なセマンティック監視の欠如、厳格な編集スコープ、および高次元のマルチモーダル空間における個々のサンプルへの偏ったアンカリングから発生します。一般化を明示的にターゲットにすることで、堅牢な本質的なマルチモーダルな知識編集に取り組みます。私たちは、意味的に等価なマルチモーダル入力をグループ化する知識単位を通じてロバスト性を形式化し、一般性を各単位内の一貫した予測として定義します。脆弱な意味領域を明らかにするために、関節潜在空間に敵対的でありながら意味的に一貫したバリアントを生成する潜在敵対的ロバスト化 (LAR) を導入します。さらに、特異値ベースの目標を介して、編集層で敵対的表現の低ランクの位置合わせを強制する、ランク制約部分空間学習 (RCSL) を提案します。広範な分析により、ASAM の有効性が経験的に実証されています。
原文 (English)
Beyond Binary Edits Robust Multimodal Knowledge Editing with Adversarial Subspace Alignment
Multimodal large language models (MLLMs) need efficient mechanisms to update knowledge without degrading existing capabilities. While intrinsic multimodal knowledge editing achieves strong reliability and locality, it often exhibits limited generality, failing to propagate edits across semantically equivalent visual and linguistic variations. This issue arises from the lack of explicit semantic supervision, rigid editing scopes, and biased anchoring to individual samples in high-dimensional multimodal spaces. We address robust intrinsic multimodal knowledge editing by explicitly targeting generalization. We formalize robustness through knowledge units that group semantically equivalent multimodal inputs and define generality as consistent predictions within each unit. To expose fragile semantic regions, we introduce Latent Adversarial Robustification (LAR), which generates adversarial yet semantically coherent variants in the joint latent space. We further propose Rank-Constrained Subspace Learning (RCSL), enforcing low-rank alignment of adversarial representations at the edit layer via a singular value-based objective. Extensive analysis demonstrates the effectiveness of ASAM empirically.
SPACENUM: VLM における空間数値的理解を再考する
視覚言語モデル (VLM) は、アクションの大きさや空間座標などの数値出力を生成する必要がある具体化された環境に導入されることが増えています。これらの数値は意味があるように見えますが、これらの数値出力が本当に空間認識に基づいているのかどうかは不明のままです。したがって、この研究では、空間探索中の動的遷移としての数値と、空間推論における静的レイアウトとしての数値という 2 つの相補的な設定をキャプチャする統合フレームワークである SpaceNum を通じて空間数値理解を再検討します。 Num2Space と Space2Num という 2 つの双方向タスクを定式化し、VLM が視覚側の空間構造と言語側の数値表現の間でどの程度適切にマッピングされるかを評価します。私たちは、現在の VLM が空間設定の数値を本当に理解しているかどうかを体系的に研究しています。動的遷移と静的レイアウトにわたって、モデルは空間的な意味での数値の根拠付けにほとんど失敗し、ランダムに近い推測を実行することが多いことがわかりました。エラー分析、推論トレース分析、および制御された介入を通じて、現在の VLM は浅い空間キューに大きく依存しており、安定した座標認識表現を構築するのに苦労しており、視覚的観察から構造化された空間レイアウトを抽象化できていないことを示します。さらに、明示的な推論ではわずかな利益しか得られない一方で、チューニングによって空間数値の理解を部分的に改善し、外部の空間推論ベンチマークに移行できることを示します。
原文 (English)
SPACENUM: Revisiting Spatial Numerical Understanding in VLMs
Vision-Language Models (VLMs) are increasingly deployed in embodied environments, where they need produce numerical outputs such as action magnitudes and spatial coordinates. Although these numbers appear meaningful, it remains unclear whether these numerical outputs are genuinely grounded in spatial perception. Therefore, in this work, we revisit spatial numerical understanding through SpaceNum, a unified framework that captures two complementary settings: numbers as dynamic transitions during spatial exploration, and numbers as static layouts in spatial reasoning. We formulate two bidirectional tasks, Num2Space and Space2Num, to evaluate how well VLMs map between vision-side spatial structure and language-side numerical representations. We systematically study whether current VLMs truly understand numerical values in spatial settings. Across dynamic transitions and static layouts, we find that models largely fail to ground numbers in spatial meaning and often perform close to random guess. Through error analysis, reasoning trace analysis, and controlled interventions, we show that current VLMs rely heavily on shallow spatial cues, struggle to build stable coordinate-aware representations, and fail to abstract structured spatial layouts from visual observations. We further show that explicit reasoning provides only marginal gains, while tuning can partially improve spatial numerical understanding and transfer to external spatial reasoning benchmarks.
生の経験からスキルの消費まで: モデル生成されたエージェント スキルの体系的な研究
言語エージェントは、\emph{スキル}、つまり過去の経験から抽出された構造化された手続き上の成果物を再利用することで、ますます改善されます。特に、\emph{ドメインレベル} スキルと \emph{モデル生成} スキルが特に有望です。ドメイン固有の繰り返し手順をエンコードすることでドメイン内での迅速な適応を実現し、労働集約的な手作業を超えて拡張できます。しかし、抽出方法は急増し続けているものの、そのようなスキルが実際に機能するかどうか、いつ機能するのか、何が成功または失敗するのかを問う、スキルのライフサイクル全体 (\textbf{経験生成}、\textbf{スキル抽出}、\textbf{スキル消費}) にわたる包括的な研究はまだなく、理解は限定的です。このギャップを埋めるために、5 つの多様なエージェント タスク ドメインをカバーする抽出プログラムとターゲット エージェントにわたる体系的な実験結果を提供する、ユーティリティに基づいた評価フレームワークを構築します。モデルによって生成されたスキルは平均して有益ですが、自明ではない負の転移を示し、エクストラクターもターゲットも均一に動作しないことがわかりました。モデルは、モデルの規模やベースラインのタスクの強度に関係なく、スキルの有用性を備えて、強力な抽出者であると同時に弱い消費者になることも、その逆の場合もありえます。これらのパターンを説明するために、ライフサイクルの各段階を詳しく分析し、エクスペリエンスの構成がスキルの品質をどのように形成するか、有用なスキルを特徴づける特性は何か、同じスキルがさまざまな消費者にどのように伝達されるかを分析します。最後に、これらの発見を具体的な \emph{メタスキル} に変換し、実際の実用性に結び付けられた特徴に向けてスキル抽出を導きます。これにより、領域全体でスキルの質が一貫して向上し、マイナスの移転が大幅に削減されます。
原文 (English)
From Raw Experience to Skill Consumption: A Systematic Study of Model-Generated Agent Skills
Language agents increasingly improve by reusing \emph{skills} -- structured procedural artifacts distilled from past experience. In particular, \emph{domain-level} and \emph{model-generated} skills are especially promising. They offer fast adaptation within a domain by encoding domain-specific recurring procedures, and they scale beyond labor-intensive hand-crafting. However, while extraction methods continue to proliferate, understanding remains limited, with no comprehensive study spanning the full skill lifecycle -- \textbf{experience generation}, \textbf{skill extraction}, and \textbf{skill consumption} -- to ask whether such skills actually work, when they work, and what makes them succeed or fail. To close this gap, we build a utility-grounded evaluation framework that provides systematic experimental results across extractors and target agents, covering five diverse agentic task domains. We find that model-generated skills are beneficial on average but exhibit non-trivial negative transfer, and that neither extractors nor targets behave uniformly. A model can be a strong extractor yet a weak consumer, or vice versa, with skill utility independent of model scale or baseline task strength. To explain these patterns, we then dissect each lifecycle stage in depth, analyzing how experience composition shapes skill quality, what properties characterize useful skills, and how the same skill transfers across different consumers. Finally, we translate these findings into a concrete \emph{meta-skill} that guides skill extraction toward the features tied to actual utility, which consistently improves skill quality across domains and substantially reduces negative transfer.
SkillOpt: 自己進化するエージェント スキルのための経営戦略
今日のエージェント スキルは、手作業で作成されたり、ワンショットで生成されたり、緩やかに制御された自己修正によって進化したりしていますが、スキルの深層学習オプティマイザーのように動作するものはなく、フィードバックを受けて開始点を確実に改善するものはありません。私たちは、このスキルはウェイト空間の最適化を再現可能にするのと同じ規律を用いて、凍結されたエージェントの外部状態としてトレーニングされるべきであると主張します。私たちの知る限り、SkillOpt は、エージェント スキル向けの最初の系統的な制御可能なテキスト空間オプティマイザーです。別個のオプティマイザー モデルは、スコア付けされたロールアウトを、単一のスキル ドキュメントに対する制限付きの追加/削除/置換編集に変換します。また、編集は、保持されている検証スコアを厳密に改善する場合にのみ受け入れられます。テキストの学習率バジェット、拒否された編集バッファー、およびエポックごとの低速/メタ更新により、デプロイメント時に推論時間のないモデル呼び出しを追加しながら、スキル トレーニングを安定させます。 6 つのベンチマーク、7 つのターゲット モデル、および 3 つの実行ハーネス (ダイレクト チャット、コーデックス、クロード コード) にわたって、SkillOpt は 52 の評価対象 (モデル、ベンチマーク、ハーネス) セルすべてで最高か同点であり、人間のスキル、ワンショット LLM、Trace2Skill、TextGrad、GEPA、および EvoSkill スキルの中でセルごとのすべての競合他社を上回っています。 GPT-5.5 では、スキルなしの平均精度がダイレクト チャットで +23.5 ポイント、Codex エージェント ループ内で +24.8 ポイント、Claude Code 内で +19.1 ポイント向上しました。さらに、移行実験では、最適化されたスキル アーティファクトは、さらなる最適化を行わずに、モデル スケール間、Codex と Claude Code の実行環境間、および近くの数学ベンチマークに移動しても、価値が維持されることが示されています。
原文 (English)
SkillOpt: Executive Strategy for Self-Evolving Agent Skills
Agent skills today are hand-crafted, generated one-shot, or evolved through loosely controlled self-revision, none of which behaves like a deep-learning optimizer for the skill, and none of which reliably improves over its starting point under feedback. We argue the skill should instead be trained as the external state of a frozen agent, with the same discipline that makes weight-space optimization reproducible. SkillOpt is, to our knowledge, the first systematic controllable text-space optimizer for agent skills: a separate optimizer model turns scored rollouts into bounded add/delete/replace edits on a single skill document, and an edit is accepted only when it strictly improves a held-out validation score. A textual learning-rate budget, rejected-edit buffer, and epoch-wise slow/meta update make skill training stable while adding zero inference-time model calls at deployment. Across six benchmarks, seven target models, and three execution harnesses (direct chat, Codex, Claude Code), SkillOpt is best or tied on all 52 evaluated (model, benchmark, harness) cells and beats every per-cell competitor among human, one-shot LLM, Trace2Skill, TextGrad, GEPA, and EvoSkill skills. On GPT-5.5 it lifts the average no-skill accuracy by +23.5 points in direct chat, by +24.8 inside the Codex agentic loop, and by +19.1 inside Claude Code. Transfer experiments further show that optimized skill artifacts retain value when moved across model scales, between Codex and Claude Code execution environments, and to a nearby math benchmark without further optimization.
エッジ インテリジェンスを使用したスマート シティにおけるエネルギー効率の高い環境モニタリングのための AI 駆動フレームワーク
環境モニタリングは、スマート シティ インフラストラクチャの重要なコンポーネントです。これにより、持続可能性、公衆衛生、都市計画を強化する情報に基づいた意思決定が可能になります。しかし、スマート センサーの大規模導入により、過剰なエネルギー消費と冗長なデータ収集、さらにはセンサーの寿命の制限に関する懸念が生じています。これらの問題を解決するために、エッジ インテリジェンスを利用したスマート シティにおけるエネルギー効率の高い環境モニタリングのための AI 主導のフレームワークを紹介します。私たちが提案するフレームワークは、TinyML 対応のエッジ デバイスとコンテキストを認識した適応的意思決定を活用して、時空間条件、環境統計、エネルギー制約に基づいてセンサーを動的にアクティブ化します。センサーは、リアルタイムの環境条件、センサーの位置、バッテリー残量などの要素を考慮したユーティリティ機能に基づいて動的にアクティブ化されます。私たちのフレームワークは、監視の高いカバレッジを維持しながら、不必要なセンシングと通信を削減します。都市規模の展開をサポートするために、階層型エッジ インテリジェンス アーキテクチャを導入します。実際のマルチセンサー環境トレースによって駆動される都市規模のシミュレーションを使用して評価を実施しました。これにより、提案されたメカニズムが、静的、周期的、および UCB ベースの適応センシング戦略と比較して、エネルギー消費を大幅に削減し、センサーの寿命を延長することが実証されました。この結果は、持続可能で効率的なスマートシティ監視システムを構築するためのエッジインテリジェンスと適応型 AI 技術の可能性を浮き彫りにしました。
原文 (English)
An AI-Driven Framework for Energy-Efficient Environmental Monitoring in Smart Cities Using Edge Intelligence
Environmental monitoring is a crucial component of the smart city infrastructure. It enables informed decision making which enhances sustainability, public health and urban planning. However, the large-scale deployments of the smart sensors have raised concerns on excessive energy consumption and redundant data collection as well as limited sensor lifespan. To resolve these issues, we present an AI-driven framework for energy-efficient environmental monitoring in smart cities utilizing edge intelligence. Our proposed framework leverages TinyML-enabled edge devices and context-aware adaptive decision-making in order to dynamically activate the sensors based on the spatiotemporal conditions, environmental statistics and energy constraints. The sensors will be dynamically activated based on a utility function that takes in factors such as real-time environmental conditions, sensor location, and remaining battery lifespan. Our framework will reduce unnecessary sensing and communication while maintaining high coverage for monitoring. We introduce a hierarchical Edge Intelligence architecture to support deployments in city-wide scales. We conducted evaluation using a city-scale simulation driven by real multi-sensor environmental traces, which demonstrates that the proposed mechanism significantly reduces energy consumption and extends sensor lifespan when compared to static, periodic, and UCB-based adaptive sensing strategies. The results highlight the potential of edge intelligence and adaptive AI techniques for building sustainable and efficient smart city monitoring systems.
KPI2KVI: サービス記述からキー値インジケーターを計算するためのマルチ エージェント ワークフロー
Key Value Indicators (KVI) は、運用パフォーマンスがステークホルダーの価値、リスク、結果にどのように変換されるかを要約することにより、サービスの意思決定指向のビューを提供します。ただし、多くのドメインでは、関連する KVI カテゴリの選択、測定可能な主要業績評価指標 (KPI) の定義、KPI 値の収集、一貫した計算ロジックの適用が必要となるため、KVI を実際に計算するのは困難です。これらの作業はすべて、通常、非構造化サービス ドキュメントから手動で一貫性なく実行されます。この文書では、大規模言語モデル (LLM) を活用した決定論的なマルチエージェント ワークフローを調整することにより、自然言語サービスの説明を計算された KVI 推定値に変換するツール KPI2KVI について説明します。このツールは、(i) 欠落しているサービス コンテキストを引き出し、(ii) 分類法から関連する KVI カテゴリを抽出して最終化し、(iii) 単位と説明を含むサービス固有の KPI を生成し、(iv) 対話型の対話を通じて KPI 値を収集し、インテリジェントな推定をサポートします。利用できない KPI 値、および (v) 各 KVI コードの追跡可能な説明を使用して、間隔値の KVI 出力 (最小、正確、最大) を計算します。代表的なサービス記述を使用したシミュレーションでは、KPI2KVI が記述から KVI 間隔までの完全なエンドツーエンドのマッピングを一貫して生成し、事後監査とインタラクティブなアドバイス クエリをサポートする透過的な計算ナラティブを提供することを示しています。
原文 (English)
KPI2KVI: A Multi Agent Workflow for Calculating Key Value Indicators from Service Descriptions
Key Value Indicators (KVIs) provide a decision oriented view of a service by summarizing how operational performance translates into stakeholder value, risk, and outcomes. However, in many domains KVIs are difficult to compute in practice because they require selecting relevant KVI categories, defining measurable Key Performance Indicators (KPIs), collecting KPI values, and applying consistent calculation logic, all of which is typically performed manually and inconsistently from unstructured service documentation. This paper presents KPI2KVI, a tool that transforms a natural language service description into computed KVI estimates by orchestrating a deterministic multi agent workflow powered by Large Language Models (LLMs) that (i) elicits missing service context, (ii) extracts and finalizes relevant KVI categories from a taxonomy, (iii) generates service specific KPIs with units and descriptions, (iv) collects KPI values through an interactive dialogue and also supports intelligent estimation for KPI values that are unavailable, and (v) computes interval valued KVI outputs (minimum, exact, maximum) with traceable explanations for each KVI code. Simulations with representative service descriptions demonstrate that KPI2KVI consistently produces a complete end to end mapping from description to KVI intervals and provides transparent calculation narratives that support post hoc auditing and interactive advisory queries.
複雑な隠しロール ゲームにおける大規模な言語モデルの評価
大規模言語モデル (LLM) の欺瞞的な可能性を定量化することは AI の安全性にとって重要ですが、制御されていない環境では達成するのが困難です。この作品は、社会的推理ゲーム Secret Hitler における LLM の推論、説得、欺瞞能力を調査します。オープンソース フレームワークと、パフォーマンスを測定するための新しい指標 (役割識別精度、欺瞞保持率、ゲーム状態影響率) を紹介します。ルールベースのアルゴリズムと人間のゲームに対してモデルをベンチマークすることにより、会話能力と戦略の深さの間のギャップを特定します。この研究では、推論強化テクニックが勝率と戦略的推論に及ぼす影響も分析されています。思考連鎖プロンプトも内部メモリもパフォーマンスの向上をもたらさず、ファシストの役割の勝率は最大 23.2% 悪化します。ルールベースのエージェントは 86.7% の確率で専門家による人間の投票決定と一致しますが、Llama 3.1 70B のようなモデルでは 59.7% の精度しか達成できません。ファシストとしてプレイするモデルは常にマイナスの影響スコアを出し、欺瞞を維持できず、その結果、人間と比較してゲーム時間が約 40% 短くなります。これらの発見は、現在のアーキテクチャが複雑な複数回転の操作において依然として効果的でないことを示唆しています。機能が進歩するにつれて、モデルがこれらの欺瞞的な動作を習得し始める時期を検出することが重要になります。開発されたフレームワークは、将来のアライメント研究のための再現可能なテストベッドとして機能します。
原文 (English)
Evaluating Large Language Models in a Complex Hidden Role Game
Quantifying the deceptive potential of Large Language Models (LLMs) is critical for AI safety, yet difficult to achieve in uncontrolled environments. This work investigates the reasoning, persuasion, and deceptive capabilities of LLMs within the social deduction game Secret Hitler. I introduce an open-source framework and novel metrics to measure performance: Role Identification Accuracy, Deception Retention Rate, and Game State Impact Rate. By benchmarking models against rule-based algorithms and human games, I identify a gap between conversational ability and strategic depth. The study also analyzes the impact of reasoning-enhancement techniques on win rates and strategic reasoning. Neither Chain-of-Thought prompting nor internal memory bring improvements in performance, with up to 23.2% worse win rates for fascist roles. While rule-based agents align with expert human voting decisions 86.7% of the time, models like Llama 3.1 70B achieve only a 59.7% accuracy. Models playing as Fascists consistently yield negative impact scores and fail to sustain deception, resulting in roughly 40% shorter games compared to humans. These findings suggest that current architectures remain ineffective at complex, multi-turn manipulation. As capabilities advance, detecting when models begin to master these deceptive behaviors is crucial. The developed framework serves as a reproducible testbed for future alignment research.
計算可能な公平性: AI リソース割り当てのためのボルツマン-ソフトマックス制御
大規模な AI システムでは、GPU の計算時間や帯域幅などの希少なリソースを複数のエージェントに割り当てることが重要な課題になります。従来のポリシーは効率の指標に焦点を当てており、システムの多様性と安定性を損なう支配集中につながる可能性があります。我々は、ボルツマン・ソフトマックス関数を選択ツールとしてではなく確率的リソース割り当てメカニズムとして再解釈し、逆温度パラメータ $\beta$ を効率と公平性のバランスを支配する計算可能な制御変数として再定義するフレームワークである Computable Fair Division (CFD) を提案します。静的分析により、政策ウェイト全体で損失総額がほぼ一定に保たれる、最適に近い安定回廊を持つパレートフロンティアが明らかになります。動的設定では、AHC++ (Adaptive Hard-Cap Controller++) が、観測された優位性とポリシーで指定されたターゲットとの間の誤差をフィードバックとして使用して $\beta$ をリアルタイムで更新します。シミュレーションにより、AHC++ は、スループットを大幅に低下させることなく公平性ターゲットを追跡しながら、外因性ショック下での極端な優勢集中を抑制することが示されています。スケーラビリティ分析により、エージェントを 100 倍に増やしても、実行時間は約 5.5 倍しか増加しないことが確認されています。コード: https://github.com/entrofy-ai/computable-fairness
原文 (English)
Computable Fairness: Boltzmann-Softmax Control for AI Resource Allocation
In large-scale AI systems, allocating scarce resources such as GPU compute time and bandwidth among multiple agents is a critical challenge. Conventional policies focus on efficiency metrics, potentially leading to dominance concentration that undermines system diversity and stability. We propose Computable Fair Division (CFD), a framework that reinterprets the Boltzmann-Softmax function not as a selection tool but as a probabilistic resource allocation mechanism, redefining the inverse temperature parameter $\beta$ as a computable control variable governing the efficiency-fairness balance. Static analysis reveals a Pareto frontier with a near-optimal Stability Corridor where total loss remains approximately constant across policy weights. In the dynamic setting, AHC++ (Adaptive Hard-Cap Controller++) updates $\beta$ in real time using the error between observed dominance and a policy-specified target as feedback. Simulations show that AHC++ suppresses extreme dominance concentration under exogenous shocks while tracking fairness targets without substantial throughput degradation. Scalability analysis confirms that a 100x increase in agents yields only approximately 5.5x increase in execution time. Code: https://github.com/entrofy-ai/computable-fairness
LFRAG: マルチモーダル文書理解におけるレイアウト指向のきめ細かい検索拡張生成
マルチモーダル検索拡張生成 (RAG) は、外部知識を使用して大規模言語モデル (LLM) を強化するための効果的なパラダイムとして登場しました。しかし、既存のマルチモーダル RAG システムは、主に粒度の粗いページ レベルの検索に依存しているため、視覚的に豊富なドキュメント内の粒度の細かいセマンティック構造とレイアウト構造をキャプチャできず、その結果、検索の精度が損なわれ、下流タスクでの冗長なコンテキストが発生します。これらの問題に対処するために、私たちは、マルチモーダル RAG をページレベルからブロックレベルの検索に進化させる新しいフレームワークである、レイアウト指向のファイングレイン検索拡張生成 (LFRAG) を提案します。レイアウトセグメンテーションを実行して意味的に一貫したきめ細かい検索ユニットを構築し、クロスアテンションを介してローカルセマンティクスとグローバルコンテキストを統合するセマンティックレイアウト融合エンコーダーを設計します。 LFRAG は、ブロックレベルの遅延インタラクション取得により、クエリとコンテンツの正確な調整を可能にし、ダウンストリーム生成に無関係なコンテンツを削減します。厳密な評価を可能にするために、さまざまな種類の文書にまたがるブロックレベルの注釈を備えた大規模なベンチマークである LFDocQA を構築します。このベンチマークは、マルチモーダル文書検索と質問応答の両方を既存のデータセットよりも高い粒度で評価するように設計されています。 LFDocQA に関する広範な実験により、LFRAG が検索タスクで最先端のパフォーマンスを達成し、回答精度で最高のベースラインを 7.20% 上回り、生成タスクでトークン消費量を 73.07% 削減することが実証され、LFRAG が視覚的に豊富なドキュメントに対するマルチモーダル RAG の正確かつ効率的なフレームワークであることが確認されました。私たちのコードとデータセットは間もなくリリースされる予定です。
原文 (English)
LFRAG: Layout-oriented Fine-grained Retrieval-Augmented Generation on Multimodal Document Understanding
Multimodal Retrieval-Augmented Generation (RAG) has emerged as an effective paradigm for enhancing Large Language Models (LLMs) with external knowledge. However, existing multimodal RAG systems predominantly rely on coarse-grained page-level retrieval, which fails to capture fine-grained semantic and layout structures in visually rich documents, thereby compromising retrieval accuracy and leading to redundant context in downstream tasks. To address these issues, we propose Layout-oriented Fine-grained Retrieval-Augmented Generation (LFRAG), a novel framework that advances multimodal RAG from page-level to block-level retrieval. We perform layout segmentation to construct semantically coherent fine-grained retrieval units and design a semantic-layout fusion encoder that integrates local semantics with global context via cross-attention. With block-level late interaction retrieval, LFRAG enables precise query-content alignment and reduces irrelevant content for downstream generation. To enable rigorous evaluation, we construct LFDocQA, a large-scale benchmark with block-level annotations spanning diverse document types, designed to assess both multimodal document retrieval and question answering with greater granularity than existing datasets. Extensive experiments on LFDocQA demonstrate that LFRAG achieves state-of-the-art performance on retrieval tasks, outperforms the best baseline by 7.20% in answer accuracy, and reduces token consumption by 73.07% in generation tasks, confirming LFRAG as an accurate and efficient framework for multimodal RAG over visually rich documents. Our code and datasets will be released soon.
RAG4Outcome: 慢性骨髄炎における予後予測のための検索拡張マルチモーダル フレームワーク
慢性骨髄炎は、高い再発リスクと複雑な術後の回復軌道により、予後に関して大きな課題をもたらします。従来の評価は手動スコアリング システムに依存することが多く、臨床現場での拡張性、効率性、一貫性が制限されます。さらに、臨床データの異質な性質は、整列された入力と大規模な注釈付きデータセットを必要とする現在のマルチモーダル学習アプローチに課題をもたらしています。この研究では、慢性骨髄炎における予後予測のための検索拡張生成 (RAG) フレームワークである RAG4Outcome を提案します。当社の手法は、PET-CT 画像レポート、構造化された手術記録および診断記録、非構造化フォローアップ記録などの多様な臨床データを統合された予測パイプラインに統合します。このフレームワークは、ドメイン固有の検索コーパスと専門家の指導によるプロンプトを組み合わせることで、より解釈可能で、証拠に基づいた、臨床的に信頼できる予後を可能にします。実際の症例に関する予備的な結果は、有望な有効性と臨床的整合性を示しており、AI 支援の感染管理と術後の意思決定サポートに対する RAG4Outcome の可能性を強調しています。
原文 (English)
RAG4Outcome: A Retrieval-Augmented Multimodal Framework for Prognostic Prediction in Chronic Osteomyelitis
Chronic osteomyelitis presents substantial prognostic challenges due to its high recurrence risk and complex postoperative recovery trajectories. Traditional assessment often relies on manual scoring systems, which limit scalability, efficiency, and consistency in clinical practice. Furthermore, the heterogeneous nature of clinical data poses challenges for current multimodal learning approaches that require aligned inputs and large annotated datasets. In this work, we propose RAG4Outcome, a retrieval-augmented generation (RAG) framework for prognostic prediction in chronic osteomyelitis. Our method integrates multimodal clinical data, including PET-CT imaging reports, structured surgical and diagnostic records, and unstructured follow-up notes, into a unified prediction pipeline. By combining a domain-specific retrieval corpus with expert-guided prompting, the framework enables more interpretable, evidence-grounded, and clinically reliable prognosis. Preliminary results on real-world cases demonstrate promising effectiveness and clinical alignment, highlighting the potential of RAG4Outcome for AI-assisted infection management and postoperative decision support.
認知カルダシェフ スケール: 文明の計算の物質的な範囲を定量化する
文明はどれだけの思考ができるでしょうか? Kardashev (1964) の類型学では、惑星 (タイプ I、約 10^16 W)、恒星 (タイプ II、約 10^26 W)、銀河系 (タイプ III) の総力によって文明をランク付けしています。この論文では、各層がどれだけの持続的な AI グレードの計算をサポートできるかという、類似の認知カルダシェフ スケールを構築します。計算には 4 つの要素が含まれます: 総電力 P (ワット)、認知に割り当てられる電力の割合 f、エネルギーが計算される効率 $\eta$ (ジュールあたりの演算数)、参照単位としての脳自体の処理速度 $C_{\mathrm{brain}}$ です。 2024 ~ 2026 年のハードウェア (El Capitan、NVIDIA Blackwell、Vera Rubin) に固定すると、$\eta_{2026} = 10^{12}$ FLOP/J になります。現代の人類は、タイプ I への道のりの 4 分の 3 である $K \約 0.73$ に位置しています。タイプ I および $f = 1\%$ では、利用可能なコンピューティングは、人間の住民 1 人あたり 1 台の個人 AI に相当する認識能力となります。タイプ II では、それは本質的に理解できません。 2035 年までのフロンティア コンピューティングの 3 つの軌跡は、予測ではなく条件付き予測として報告されます。長期的な拘束制約がエネルギーであるか効率であるかは、まだ行われていない工学上の選択によって決まります。誰がアクセスできるかという政治経済の方が、どちらよりも重要である可能性があります。
原文 (English)
The Cognitive Kardashev Scale: Quantifying the Material Envelope of Civilisational Computation
How much thinking can a civilisation do? Kardashev's (1964) typology ranks civilisations by total power: planetary (Type I, ~10^16 W), stellar (Type II, ~10^26 W), galactic (Type III). This paper builds an analogous Cognitive Kardashev Scale: how much sustained AI-grade computation each tier could support. Four ingredients enter the calculation: total power P (watts), the share f of it devoted to cognition, the efficiency $\eta$ at which energy becomes compute (operations per joule), and the brain's own processing rate $C_{\mathrm{brain}}$ as a reference unit. Anchoring on 2024-2026 hardware (El Capitan, NVIDIA Blackwell, Vera Rubin) gives $\eta_{2026} = 10^{12}$ FLOP/J. Contemporary humanity sits at $K \approx 0.73$, three-quarters of the way to Type I. At Type I and $f = 1\%$, available compute is, within an order of magnitude, one personal AI's worth of cognition per human inhabitant; at Type II it is essentially incomprehensible. Three trajectories for frontier compute through 2035 are reported as conditional projections, not predictions. Whether the long-run binding constraint is energy or efficiency depends on engineering choices not yet made; the political economy of who has access may matter more than either.
同盟内の戦略的強制: AI ストレステストとしてのグリーンランド主権ゲーム
最強の同盟メンバーが領土や戦略的支配をめぐって弱いメンバーに圧力をかけると何が起こるでしょうか?私たちは、2019年から2026年にデンマーク王国からグリーンランドを取得しようとする米国の推進を中心に、LLM地政学のストレステストとしてグリーンランド主権危機を検証します。この危機には、北極の戦略的支配と、NATOが支配的な加盟国に対して同盟規範を強制できるかどうかという、2つの集団行動の問題が巣食っている。私たちは 3 つのゲーム (非対称強制、クリティカルマス転換点を備えた NATO 保証ゲーム、社会的嗜好を備えた 3 つの拡張形式ゲーム) を開発し、8 つのフロンティア LLM が 6 つの地政学的役割 (米国、デンマーク、グリーンランド、NATO、ロシア、カナダ) を演じるマルチエージェント シミュレーションで、3,604 の完成したゲームと 108,120 の行動観察にわたってテストしました。逆ゲーム理論を使用して、物質的な利己性、互恵性、不平等回避、規範の尊重、コミットメントの一貫性に関する各モデルの構造的効用パラメーター (アルファ、ベータ、ガンマ、デルタ、イータ) を回復します。 3 つの発見が際立っています。まず、8 つのモデルすべてが強制フレーミングの下でよりエスカレートします (4 つのアクションのエスカレーションは 10.7% から 28.6% に増加します)。第二に、中国起源のモデルは、米国の役割を果たした場合、西洋起源のモデルとは体系的に異なるパワーウェイトプロファイルを示します。第三に、米国による平和的買収はクリーン ゲームのわずか 1.9% で発生し、8 つのフロンティア モデルのうち 3 つだけがそれを達成します。最も顕著なのは、大都市を通じて安定した 5 ラウンドのプレイブックを実行する DeepSeek V3.2 です。英語のみの確認サンプルでは、正義と自己決定を強調するプロンプトにより、ベースライン付近までのエスカレーションが減少します。多言語の対比は探索的感度チェックとして報告されます。私たちはこれを LLM の地政学的な行動の構造的なベンチマークとして位置づけ、行動頻度のベンチマークを補完します。
原文 (English)
Strategic Coercion Within Alliances: The Greenland Sovereignty Game as an AI Stress Test
What happens when the strongest alliance member pressures a weaker member over territory and strategic control? We examine the Greenland sovereignty crisis as a stress test for LLM geopolitics, centered on the 2019-2026 U.S. push to acquire Greenland from the Kingdom of Denmark. The crisis nests two collective-action problems: Arctic strategic control and whether NATO can enforce alliance norms against the dominant member. We develop three games (asymmetric coercion; a NATO assurance game with a critical-mass tipping point; a triadic extensive-form game with social preferences) and test them with a multi-agent simulation in which eight frontier LLMs play six geopolitical roles (United States, Denmark, Greenland, NATO, Russia, Canada) across 3,604 completed games and 108,120 action observations. Using inverse game theory, we recover each model's structural utility parameters (alpha, beta, gamma, delta, eta) for material self-interest, reciprocity, inequality aversion, norm respect, and commitment consistency. Three findings stand out. First, all eight models become more escalatory under coercion framing (four-action escalation rises from 10.7% to 28.6%). Second, Chinese-origin models show systematically different power-weight profiles from Western-origin models when playing the U.S. role. Third, peaceful US acquisition emerges in only 1.9% of clean games and only 3 of 8 frontier models ever achieve it, most prominently DeepSeek V3.2, which executes a stable five-round playbook through the metropole. Prompts emphasizing jus cogens and self-determination reduce escalation back near baseline in the English-only confirmatory sample; multilingual contrasts are reported as exploratory sensitivity checks. We position this as a structural benchmark for LLM geopolitical behavior, complementing action-frequency benchmarks.
ミスアトリビューションのギャップ: メモリポイズニングがエージェントティック AI システムのモデル障害のように見える場合
マルチエージェント AI パイプラインは通常、エージェントの不正行為がモデルの不整合に起因すると想定しています。私たちは、この仮定における構造的な欠陥である \emph{誤帰ギャップ} を特定します。これは、メモリ層の攻撃がモデルの欠陥と区別できない動作を引き起こし、防御側が間違った修復を適用する原因となります。私たちは \emph{セマンティック ノルム ドリフト} (SND) をエージェントの不正行為への 3 番目の経路として形式化し、突発的な不整合や共謀とは区別します。 SND では、ポリシー形式のドキュメントは通常のアップロードを通じて共有ベクトル ストアに入り、トラスト ロンダリング チェーンを通じて出所が失われた後、信頼できるシステム コンテキストとして再表示されます。文書化された 64 件の失敗全体にわたって、アトリビューション システムは一貫してモデルのせいだと主張していました。メモリポイズニングについてトレーニングされたものを含む 4 つの安全分類子は、510 のチェックポイントにわたって検出がゼロでした。有効なケース 65 件のうち 59 件では、エージェントは準拠する前に、挿入された文書を規範的権威として明示的に引用しました。この攻撃は、トリガー、モデルへのアクセス、または反復的な対話を必要とせず、5 セッション以内に完全な効果を達成し、無期限に継続します。反事実構成テストを導入します。これは、87.5% の精度と誤検知ゼロで因果関係のエントリを特定しますが、フォレンジック ベースラインは 25 のシナリオすべてで失敗します。さらに、取得とカバレッジのジレンマを証明し、より強力な回避が本質的に攻撃を弱め、適応的なバイパス戦略を制限することを示します。最後に、メモリ永続情報フロー制御を提案します。これは、以前の防御が失敗したセッション間の境界で攻撃の 97% をブロックします。私たちは、金融および医療ドメインにわたる時間的永続性とマルチエージェント構成を備えた初の敵対的メモリ ベンチマークである SND コーパスをリリースします。
原文 (English)
The Misattribution Gap: When Memory Poisoning Looks Like Model Failure in Agentic AI Systems
Multi-agent AI pipelines typically assume that agent misconduct originates from model misalignment. We identify a structural failure in this assumption, the \emph{Misattribution Gap}, where memory-layer attacks produce behaviors indistinguishable from model failure, causing defenders to apply the wrong remediation. We formalize \emph{Semantic Norm Drift} (SND) as a third path to agent misconduct, distinct from emergent misalignment and collusion. In SND, a policy-formatted document enters a shared vector store through normal uploads and later reappears as trusted system context after provenance is lost through a Trust Laundering Chain. Across 64 documented failures, attribution systems consistently blamed the model. Four safety classifiers, including one trained on memory poisoning, produced zero detections across 510 checkpoints. In 59 of 65 valid cases, agents explicitly cited the injected document as normative authority before complying. The attack requires no trigger, model access, or repeated interaction, achieves full effect within five sessions, and persists indefinitely. We introduce Counterfactual Composition Testing, which identifies the causal entry with 87.5% accuracy and zero false positives, while a forensics baseline fails across all 25 scenarios. We further prove the Retrieval-Coverage Dilemma, showing that stronger evasion inherently weakens the attack, limiting adaptive bypass strategies. Finally, we propose Memory-Persistent Information-Flow Control, which blocks 97% of attacks at the cross-session boundary where prior defenses fail. We release the SND Corpus, the first adversarial memory benchmark with temporal persistence and multi-agent composition across financial and Health Care domains.
ObjectCache: KV キャッシュを再利用するためのレイヤーごとのオブジェクト ストレージの取得
プレフィックス KV キャッシュは、LLM サービスの重要なメカニズムとなっています。プレフィックスを共有するリクエスト (システム プロンプトなど) にわたる冗長な計算を回避することで、最初のトークンまでの時間 (TTFT) を短縮します。ただし、蓄積された KV キャッシュは、GPU メモリやローカル DRAM が保持できる容量よりも大きくなることがよくあります。レイテンシーを維持するために、現在のシステムは KV キャッシュをリモート DRAM プールに保持しており、サービング クラスターのサイズとコストが増加しています。このペーパーでは、別のアプローチを検討します。それは、TTFT への影響を最小限に抑えながら、容量の制約がなくなるように、KV キャッシュを S3 互換のオブジェクト ストレージに保存することです。私たちは、ストレージ プロトコルと転送スケジュールを共同設計する ObjectCache を提案します。これにより、ストレージ サーバーは GPU が消費する順序で KV キャッシュ データを配信し、同時リクエスト全体にわたるコンピューティングとデータ転送をオーバーラップさせます。私たちは、NIXL (ストレージとメモリを抽象化する推論ライブラリ)、Ceph RGW (クラスター用のオブジェクト ゲートウェイ)、および DAOS (オープンソース ストレージ システム) を使用して、100 Gbps RoCE クラスター上で ObjectCache のプロトタイプを作成しました。今日のシステムで一般的な 64K コンテキストの場合、ObjectCache はローカル DRAM に対して 5.6\% の遅延を追加するだけです。 4K コンテキストの場合、マスク転送に使用できるコンピューティングが少なくなり、ObjectCache は最適なローカル層ごとのベースラインに 56 ~ 75\,ms を追加します。共有帯域幅の上限の下では、当社のスケジューラは、均等な帯域幅共有と比較して、追加の TTFT を 1.2 ~ 1.8 倍削減します。
原文 (English)
ObjectCache: Layerwise Object-Storage Retrieval for KV Cache Reuse
Prefix KV caching has become a key mechanism in LLM serving: it reduces time to first token (TTFT) by avoiding redundant computation across requests that share a prefix (i.e., the system prompt). However, the accumulated KV cache is often larger than what GPU memory and local DRAM can hold. To preserve latency, current systems keep the KV cache in remote DRAM pools, increasing serving-cluster size and cost. In this paper, we explore a different approach: storing the KV cache in S3-compatible object storage so that capacity is no longer the constraint, while minimizing the impact on TTFT. We propose ObjectCache, which co-designs the storage protocol and transfer schedule so that the storage server delivers KV cache data in the order the GPU consumes it, overlapping data transfer with compute across concurrent requests. We prototype ObjectCache on a 100 Gbps RoCE cluster with NIXL (an inference library that abstracts storage and memory), Ceph RGW (an Object Gateway for clusters), and DAOS (an open source storage system). For 64K contexts, common in today's systems, ObjectCache adds only 5.6\% latency over local DRAM; for 4K contexts, where less compute is available to mask transfer, ObjectCache adds 56--75\,ms over the optimal local layerwise baseline. Under shared bandwidth caps, our scheduler reduces added TTFT by 1.2--1.8x compared with equal bandwidth sharing.
リレーショナル データベース上の深い準同型ネットワークの表現力
メッセージパッシングのグラフ ニューラル ネットワーク (GNN) の表現上の制限により、より強力なさまざまなグラフ学習アーキテクチャが開発されてきました。私たちは、結合クエリなどの SQL の重要な部分と密接に関係しているため、リレーショナル データベースでの学習に特に適したモデルとしてディープ準同型ネットワーク (DHN) を提唱します。私たちは、DHN をさまざまな自然のフラグメントや一次論理 (FO) の拡張と関連付けることにより、DHN の正確な表現力を研究します。最大値、合計値、および平均値の集計を持つ DHN の場合、単項否定フラグメント (UNFO) への接続と、カウント量指定子および比率量指定子を使用した UNFO の拡張への接続を確立します。さらに、合計集約 DHN を FO の単項量指定子変更フラグメントと、表現的なカウントを備えた FO の拡張に関連付けます。 FO と SQL の間の古典的な対応関係を通じて、これらの結果は DHN と SQL の間の関係も明らかにします。また、DHN の 2 つの基本的な静的解析問題、空の問題と包含問題の決定可能性を研究することもできます。最後に、確立された表現力の違いが、適切な予測タスクのパフォーマンスに反映されることを実験によって確認します。
原文 (English)
Expressive Power of Deep Homomorphism Networks over Relational Databases
The expressive limitations of message-passing Graph Neural Networks (GNNs) have motivated a wide range of more powerful graph learning architectures. We advocate Deep Homomorphism Networks (DHNs) as a model particularly well-suited for learning over relational databases, due to their close connection to important fragments of SQL such as conjunctive queries. We study the precise expressive power of DHNs by relating them to various natural fragments and extensions of first-order logic (FO). For DHNs with max, sum, and mean aggregations, we establish connections to the unary negation fragment (UNFO) and to the extensions of UNFO with counting quantifiers and with ratio quantifiers. We further relate sum-aggregation DHNs to the unary quantifier alternation fragment of FO and to an extension of FO with expressive counting. Through the classical correspondence between FO and SQL, these results also illuminate the relation between DHNs and SQL. They also enable us to study the decidability of two fundamental static analysis problems for DHNs, the emptiness problem and the subsumption problem. Finally, we confirm through experiments that the established differences in expressive power are reflected in the performance on suitable prediction tasks.
PrefBench: 隠れ優先パーソナライズされた価格交渉におけるゼロショット LLM エージェントの評価
対話が成功しても収益性の高い意思決定が保証されるわけではないため、パーソナライズされた価格交渉は LLM エージェントにとって挑戦的なテストベッドです。買い手の支払い意欲や交渉特性が隠されたままの場合、売り手は有効な行動を起こし、多くの取引を成立させる可能性がありますが、価格設定は依然として不十分です。このペーパーでは、隠れた好みの個別の価格交渉のためのシミュレーターベースのベンチマークである PrefBench について説明します。各エピソードでは、シミュレートされた購入者と固定の車両カスタマイズ バンドルが組み合わされます。売り手は公開ペルソナ記述子、バンドル情報、交渉履歴を観察しますが、潜在的な買い手変数は評価、忍耐力、反対提案行動、ウォークアウェイの決定を支配します。 PrefBench は、エージェントが固定の非表示情報境界の下で厳密な JSON アクションを返すように制約する、LLM 対応の状態概要プロトコルを通じてこの設定を評価します。当社は、7,500 のエピソードを超えるヒューリスティック参照に基づいて、ゼロショット LLM 販売者を評価します。テストされた LLM はプロトコルに確実に準拠し、0.99 を超える取引レートを達成しましたが、売り手利益の結果は依然として弱いままです。最高の LLM 平均利益は、ランダムなベースラインをわずかに上回っているだけで、同じエピソード ストリームの下での単純な譲歩ヒューリスティックをはるかに下回っています。これらの結果は、構造化された行動の遵守と合意を求める行動が、利益重視の弱い交渉と共存する可能性があることを示しています。 PrefBench は、隠れた購入者の好みの下で価格設定エージェントの行動を評価するための管理されたベンチマークを提供します。
原文 (English)
PrefBench: Evaluating Zero-Shot LLM Agents in Hidden-Preference Personalized Pricing Negotiations
Personalized pricing negotiations are a challenging testbed for LLM agents because successful interaction does not guarantee profitable decision making. A seller may produce valid actions and close many deals while still pricing poorly when buyer willingness to pay and bargaining traits remain hidden. This paper presents PrefBench, a simulator-based benchmark for hidden-preference personalized pricing negotiations. Each episode pairs a simulated buyer with a fixed vehicle-customization bundle; the seller observes public persona descriptors, bundle information, and negotiation history, while latent buyer variables govern valuation, patience, counter-offer behavior, and walkaway decisions. PrefBench evaluates this setting through an LLM-facing state-summary protocol that constrains agents to return strict JSON actions under a fixed hidden-information boundary. We evaluate zero-shot LLM sellers against heuristic references over 7,500 episodes. The tested LLMs follow the protocol reliably and achieve deal rates above 0.99, but their seller-profit outcomes remain weak: the best LLM average profit is only slightly above the random baseline and far below a simple concession heuristic under the same episode stream. These results show that structured action compliance and agreement-seeking behavior can coexist with weak profit-sensitive bargaining. PrefBench provides a controlled benchmark for evaluating pricing-agent behavior under hidden buyer preferences.
PilotWiMAE: ワイヤレス チャネルのパイロット ネイティブ表現学習
チャネル基盤モデルは、完全に監視されたチャネルへのアクセスを前提としていますが、この前提は展開では失敗します。 PilotWiMAE は、自己教師ありフレームワークです。そのエンコーダは、ノイズの多いパイロット観測を直接取り込み、その注意は、問題の物理学に触発された誘導バイアスである共同空間周波数処理から時間を分離する軸に沿って因数分解します。パイロット入力により、観測空間が最大 2 桁縮小され、待ち時間が短縮されながら完全な CSI が利用可能であるという非現実的な想定も排除されます。因数分解された設計は、分離可能なチャネル構造を利用して堅牢な表現を生成し、$99\%$ の事前トレーニング マスク率を可能にします。小規模なフェージング構造を捕捉するパッチ正規化再構成と、大規模なフェージング特徴を回復する補助スケール損失を組み合わせ、AWGN カリキュラムを使用して事前トレーニングおよび展開時にパイロット ノイズを照合します。 $3.5$\,GHz のみで事前トレーニングされ、配布内および配布外の設定全体で $28$\,GHz で評価された PilotWiMAE の異周波数ビーム選択とチャネル特性評価は、より小さな観測空間で動作しているにもかかわらず、教師付きベースラインを上回りました。デコーダの容量と表現品質の間の結合を弱めるために、エンコーダとデコーダの共同事前トレーニングに続くデコーダ中心の事前トレーニング段階をさらに提案します。これにより、PilotWiMAE は表現品質を犠牲にすることなく競合的なチャネル推定を実証できます。この方向でのさらなる作業を促進するために、私たちは PilotWiMAE 事前トレーニング済み重みとトレーニング パイプラインを、Sionna ベースのレイ トレーシング チャネル生成ツールである CSIGen およびこの作業で使用されるチャネル データセットとともにリリースします。
原文 (English)
PilotWiMAE: Pilot-Native Representation Learning for Wireless Channels
Channel foundation models assume access to fully observed channels, an assumption that fails in deployment. We introduce PilotWiMAE, a self-supervised framework whose encoder ingests noisy pilot observations directly and whose attention factorizes along the axis separating temporal from joint space-frequency processing, an inductive bias inspired by the physics of the problem. Pilot input shrinks the observation space by up to two orders of magnitude and also removes the unrealistic assumption of full-CSI availability while incurring lower latency. The factorized design generates robust representations by exploiting the separable channel structure and allows a pretraining mask ratio of $99\%$. We pair patch-normalized reconstruction, which captures small-scale fading structure, with an auxiliary scale loss that recovers the large-scale fading features, and use an AWGN curriculum to match pilot noise at pretraining and deployment. Pretrained solely on $3.5$\,GHz and evaluated at $28$\,GHz across in-distribution and out-of-distribution settings, PilotWiMAE's cross-frequency beam selection and channel characterization beat supervised baselines despite operating on a smaller observation space. To weaken the coupling between decoder capacity and representation quality, we further propose a decoder-centric pretraining stage following the encoder-decoder joint pretraining, which allows PilotWiMAE to demonstrate competitive channel estimation without sacrificing representation quality. To foster further work in this direction, we release the PilotWiMAE pretrained weights and training pipeline, together with CSIGen, our Sionna-based ray-tracing channel-generation tool, and the channel datasets used in this work.
書籍によるステージング: スコアリング ルールを使用した自動睡眠ステージ分類
自動睡眠ステージングは、一般的に教師あり機械学習の問題としてアプローチされており、最近の研究では深層学習手法が主流となっています。機械学習モデルは人間が採点した参照睡眠段階とほぼ人間レベルの一致を達成しますが、その決定は通常不透明であり、臨床採点ルールに従うように設計されていません。私たちは透明な代替案を提案します。それは、米国睡眠医学会 (AASM) のスコアリング ロジックを実行可能コードとして明示的に運用し、説明トレースから得られるエポックレベルの自然言語正当化と組み合わせた、決定論的でルールベースの睡眠ステージング手法です。我々は、10 人の得点者の過半数投票のコンセンサスを参照として、50 件のポリソムノグラフィ記録に対するアプローチを評価します。すべての記録にわたって、この方法はエポックの 60.5% ($\kappa=0.42$) で多数決の基準と一致し、開発中に使用されたデータセットについてはかなり高い一致率 (77.1%、$\kappa=0.61$) でした。参照との一致は、睡眠段階 N2 (再現率 83.5%) で最も高く、睡眠段階 R (再現率 68.7%) で中程度でしたが、覚醒時と N1 の再現率は低かったです。現在の深層学習モデルよりも基準との一致度が低いにもかかわらず、この手法は AASM スコアリング ルールに沿った決定論的な決定と自然言語による説明を提供し、深層学習ベースの睡眠ステージングの監査、デバッグ、管理のための補完的なツールとなっています。
原文 (English)
Staging by the Book: Automatic Sleep Stage Classification Using Scoring Rules
Automated sleep staging is commonly approached as a supervised machine learning problem, with deep learning methods dominating recent research. While machine learning models achieve near-human level agreement with human-scored reference sleep stages, their decisions are typically opaque and not designed to follow clinical scoring rules. We propose a transparent alternative: a deterministic, rule-based sleep staging method that explicitly operationalizes the American Academy of Sleep Medicine's (AASM) scoring logic as executable code, coupled with epoch-level natural-language justifications derived from an explanation trace. We evaluate the approach on 50 polysomnography recordings with a 10-scorer majority-vote consensus as reference. Across all recordings, the method agreed with the majority-vote reference in 60.5% of epochs ($\kappa=0.42$), with substantially higher agreement on a dataset used during development (77.1%, $\kappa=0.61$). Agreement with the reference was highest for sleep stage N2 (recall 83.5%) and moderate for sleep stage R (recall 68.7%), while Wake and N1 recall were low. Despite lower agreement with the reference than contemporary deep learning models, the method provides deterministic decisions and natural language explanations aligned with AASM scoring rules, making it a complementary tool for auditing, debugging, and governing deep learning-based sleep staging.
読み出しのショートカット: 位置番号コピーが小規模言語モデルの算術 CoT 読み出しを支配する
思考連鎖 (CoT) プロンプトは小規模言語モデルの算術演算に必要ですが、そのステップをシャッフルすることでほとんどのパフォーマンスが維持されます。論理シーケンスではない場合、CoT は何に貢献しますか? GSM8K 上の 3 つの 1-3B 命令調整 LM では、プレフィックス補完によって応答読み出しステージを分離し、位置ショートカットを特定します。モデルは、中間推論に関係なく、応答デリミタの前の末尾の位置を占める数値をコピーします。ゴールドアンサーの存在は、精度の 54 ~ 92 pp を占めます (各モデルの教師強制上限の 89 ~ 92%)。間違った項目であっても、最終的な答えは 95 ~ 96% の確率で最後の CoT 番号と一致します。コピー チャネルは、保持されたコンテキストの補完よりも優先されます。末尾の数値を間違った値に置き換えると、中間値が正しいにもかかわらず、精度がゼロ近くに低下しますが、それを削除すると、その下限より 5 ~ 32 pp 上に回復します。コピー可能な数値が存在する場合、モデルが実行できるシングル ステップの演算でさえも抑制されます。クウェンとラマは、87 ~ 95% の確率で新しい気を散らすものをコピーします。ジェマは選択的にゲートします。頭部レベルのアブレーションには、アーキテクチャ固有の頭部セットが関係します。この効果は GSM-Symbolic 上でも複製されます。非算術 BBH タスクでは、シャッフル保持率が急激に低下します。 7-8B では、コンテンツ選択型ゲーティングが現れます。ステップレベルの忠実性評価は、位置応答の転送と本物の計算、つまり CoT ベースの監視の障害モードを混同する危険があります。
原文 (English)
The Readout Shortcut: Positional Number Copying Dominates Arithmetic CoT Readout in Small Language Models
Chain-of-thought (CoT) prompting is necessary for arithmetic in small language models, yet shuffling its steps preserves most performance. What does CoT contribute if not logical sequencing? In three 1-3B instruction-tuned LMs on GSM8K, we isolate the answer-readout stage via prefix completion and identify a positional shortcut: the model copies whichever number occupies the trailing position before the answer delimiter, regardless of intermediate reasoning. Gold-answer presence accounts for 54-92 pp of accuracy (89-92% of each model's teacher-forcing ceiling); even on incorrect items, the final answer matches the last CoT number 95-96% of the time. The copy channel takes precedence over retained-context completion: replacing the trailing number with a wrong value collapses accuracy to near-zero despite correct intermediates, yet removing it recovers 5-32 pp above that floor--even single-step arithmetic the model can otherwise perform is suppressed when a copyable number is present. Qwen and Llama copy novel distractors 87-95% of the time; Gemma gates selectively. Head-level ablation implicates architecture-specific head sets; the effect replicates on GSM-Symbolic. On non-arithmetic BBH tasks, shuffle retention drops sharply; at 7-8B, content-selective gating emerges. Step-level faithfulness evaluations risk conflating positional answer transport with genuine computation--a failure mode for CoT-based oversight.
セルフモード接続による多様体表現の忘却による近似的な機械の非学習
機械の非学習は、忘れられる権利を強制する基本的なメカニズムです。ラベル操作やタスク勾配逆転に依存する既存の非学習研究では、多くの場合、限定的な非学習効果しか得られません。さらに、元の学習目標が損なわれる可能性があり、通常、再トレーニングによる標準的なアンラーニングとの同等性は保証されません。この論文では、残りのデータで再訓練されたモデルが、保持されたデータとの意味的類似性によって消去されたサンプルを分類する傾向があるという観察に動機付けられて、\textbf{Mani}fold \textbf{F}orgetting with \textbf{S}elf \textbf{M}ode \textbf{C}onnectivity)を提案します。まず、消去された各サンプルを元の学習された多様体表現の重心から、保持されたデータ内の最も近い意味論的近傍に向かって押し出す、近似的な未学習を体系的に再キャストすることから始めます。この再定式化は、未学習と再トレーニング動作を調整し、純粋に表現空間内で動作し、ラベルやタスク固有の勾配への依存を減らします。多様体表現ベースの未学習問題に取り組むために、ManiF-SMC はマージンベースの三重項損失の中に未学習と表現保存の目標をカプセル化します。非学習に適したマージンを見つけるのは困難であるため、各非学習ケースに対する適応マージン生成をガイドするためにローカル多様体を迅速に再構築する自己モード接続モジュールを提案します。 4 つの代表的なデータセットに対する広範な実験により、ManiF-SMC はモデルの表現空間内でのみ動作しながら、最先端の近似手法に匹敵する非学習効果を達成することが示されています。
原文 (English)
Approximate Machine Unlearning through Manifold Representation Forgetting Guided by Self Mode Connectivity
Machine unlearning is a fundamental mechanism that enforces the right to be forgotten. Existing unlearning studies that rely on label manipulation or task-gradient reversal often deliver limited unlearning effectiveness. Moreover, they can undermine the original learning objective and typically do not guarantee equivalence to standard unlearning by retraining. In this paper, we propose \textbf{ManiF-SMC} (\textbf{Mani}fold \textbf{F}orgetting with \textbf{S}elf \textbf{M}ode \textbf{C}onnectivity), motivated by the observation that a model retrained on the remaining data tends to classify erased samples by their semantic similarity to the retained data. We begin with systematically recasting the approximate unlearning as pushing each erased sample away from its original learned manifold representation centroid toward its nearest semantic neighbors in the retained data. This reformulation aligns unlearning with retraining behavior and operates purely in representation space, reducing reliance on labels and task-specific gradients. To tackle the manifold representation-based unlearning problem, ManiF-SMC encapsulates the unlearning and representation preservation goals in a margin-based triplet loss. Because finding a suitable margin for unlearning is challenging, we propose a self-mode-connectivity module that rapidly reconstructs the local manifold to guide the adaptive margins generation for each unlearning case. Extensive experiments on four representative datasets show that ManiF-SMC achieves unlearning effectiveness comparable to state-of-the-art approximate methods while operating solely within the model's representation space.
MedExpMem: 経験記憶を鑑別診断に適応させる
経験豊富な医師は、臨床実践を通じて診断の専門知識を開発し、病気の知識だけでなく、混同しやすい症状を区別する能力も習得します。現在の医療視覚言語モデル (VLM) にはこの機能がありません。VLM のパラメーターは、診断に遭遇するたびに進化しない静的な知識をエンコードしています。我々は、VLM ベースの診断エージェントが鑑別診断の専門知識を蓄積できるようにする経験記憶フレームワークである MedExpMem を提案します。百科事典的な病気の説明を検索する検索拡張生成とは異なり、MedExpMem はエージェント自身の診断失敗から得られた識別経験を記憶し、それらを主要な識別子、実用的な決定ルール、および推論エラーのパターンをエンコードするペアごとの差分メモとして編成します。このフレームワークは、医師の学習を反映した 2 段階の構築プロセスを採用しています。最初の実践で知識のギャップが明らかになり、反省的な再診断で理解を磨きます。新しいケースに遭遇すると、エージェントは経験記憶を検索して差異推論を導きます。私たちは、11 の下位専門分野にわたる放射線科ベンチマークで MedExpMem を評価します。結果は、さまざまなモデルとスケールにわたって、最大 7.0% という一貫した精度の向上を示しています。分析実験によりエクスペリエンスの品質と堅牢性が検証され、MedExpMem がパラメータ学習の範囲を超えて医療適応ニーズに対応する競合手法として実証されています。
原文 (English)
MedExpMem: Adapting Experience Memory for Differential Diagnosis
Experienced physicians develop diagnostic expertise through clinical practice, acquiring not only disease knowledge but also the ability to differentiate confusable conditions. Current medical vision-language models (VLMs) lack this capability -- their parameters encode static knowledge that does not evolve across diagnostic encounters. We propose MedExpMem, an experience memory framework enabling VLM-based diagnostic agents to accumulate differential diagnosis expertise. Unlike retrieval-augmented generation, which retrieves encyclopedic disease descriptions, MedExpMem memorizes discriminative experience derived from the agent's own diagnostic failures and organizes them as pairwise differential notes encoding key discriminators, actionable decision rules and reasoning error patterns. The framework adopts a two-phase construction process mirroring physician learning: initial practice exposes knowledge gaps, and reflective re-diagnosis refines understanding. When encountering new cases, the agent retrieves experience memory to guide differential reasoning. We evaluate MedExpMem on a radiology benchmark spanning 11 subspecialties. Results demonstrate consistent accuracy improvements, maximum 7.0%, across diverse models and scales. Analytical experiments validate experience quality and robustness, demonstrating MedExpMem as a competitive method addresses medical adaptation needs beyond the reach of parameteric learning.
LLM が推論するのはいつですか?エントロピー相転移による動的システムの視点
Chain-of-thought (CoT) reasoning has become the default strategy for enhancing LLM capabilities, yet its application raises a fundamental question: when is explicit reasoning actually beneficial?経験的証拠は、顕著な矛盾を明らかにしています。CoT は、多くの場合、トークン消費量を増大させながら、事実に基づいた無制限のタスクに対してわずかな利益、またはマイナスの利益さえ提供します。この研究では、LLM 推論がタスクやモデルの静的な特性ではなく、生成中に現れる \emph{動的復号状態} であることを示します。体系的な分析を通じて、初期段階のエントロピー ダイナミクスがこの状態の信頼できるシグナルを提供することを発見しました。CoT の恩恵を受けるタスクは一貫したエントロピーの減少を示しますが、他のタスクは不安定または増加するパターンを示します。この動作は、高エントロピー探索体制から低エントロピー構造推論体制への相転移のような移行として解釈できます。これらの洞察に基づいて、我々は、早期デコードエントロピーを活用して推論戦略を適応的に選択する、軽量でトレーニング不要のルーティングフレームワークである \textbf{EDRM} (エントロピーダイナミクスベースの推論マニホールド) を提案します。 EDRM は、エントロピーの軌跡をコンパクトで解釈可能な多様体表現に埋め込み、ゼロショット デプロイメントときめ細かいインスタンス レベルの適応の両方を可能にします。さまざまなスケールとアーキテクチャの 15 のベンチマークと 4 つの LLM にわたって、EDRM は一貫して静的ベースラインを上回っています。データセット レベルでは、EDRM は \textbf{41--55\%} トークンの削減を達成しながら、わずか 50 個のキャリブレーション サンプルで精度を向上させます。インスタンス レベルでは、\textbf{27--45\%} トークンの節約を維持しながら、精度が最大 \textbf{4.7\%} まで向上します。これらの結果は、推論はデフォルトではなく選択的に呼び出される必要があることを示唆しており、効率的で適応的な LLM 推論に対するエントロピー駆動型の復号制御の有効性を示しています。
原文 (English)
When Do LLMs Reason? A Dynamical Systems View via Entropy Phase Transitions
Chain-of-thought (CoT) reasoning has become the default strategy for enhancing LLM capabilities, yet its application raises a fundamental question: when is explicit reasoning actually beneficial? Empirical evidence reveals a striking paradox: CoT often provides marginal or even negative gains on factual and open-ended tasks while multiplying token consumption. In this work, we show that LLM reasoning is not a static property of tasks or models, but a \emph{dynamic decoding state} that emerges during generation. Through systematic analysis, we find early-stage entropy dynamics provide a reliable signal of this state: tasks benefiting from CoT exhibit consistent entropy reduction, while others display unstable or increasing patterns. This behavior can be interpreted as a phase-transition-like shift from a high-entropy exploratory regime to a low-entropy structured reasoning regime. Based on these insights, we propose \textbf{EDRM} (Entropy Dynamics-based Reasoning Manifold), a lightweight and training-free routing framework that leverages early decoding entropy to adaptively select inference strategies. EDRM embeds entropy trajectories into a compact and interpretable manifold representation, enabling both zero-shot deployment and fine-grained instance-level adaptation. Across 15 benchmarks and 4 LLMs of varying scales and architectures, EDRM consistently outperforms static baselines. At the dataset level, EDRM achieves \textbf{41--55\%} token reduction while improving accuracy with as few as 50 calibration samples. At the instance level, it further improves accuracy by up to \textbf{4.7\%} while maintaining \textbf{27--45\%} token savings. These results suggest that reasoning should be invoked selectively rather than by default, and demonstrate the effectiveness of entropy-driven decoding control for efficient and adaptive LLM inference.
彼らはどこまで行くのでしょうか?大規模な言語モデルによるレッドチームのオンライン影響力
大規模言語モデル (LLM) ベースのエージェントがオンライン言説にますます参加するようになっているため、政治的影響力のあるキャンペーンをサポートする彼らの能力をレッドチーム化することが、情報の完全性にとって重要です。この目標を追求するために、私たちは、ソーシャル メディア環境に展開されるプライバシーを意識した悪意のある攻撃者の運用上の制約との優れた整合性を考慮して、フロンティア API のみのモデルではなく、ローカルに展開されるオープンソース LLM に焦点を当てます。物議を醸すトピックに関してモデルが確実に表現できる政治的意見の範囲として定義される LLM Overton Windows (OW) を測定し、単純な自然言語ジェイルブレイクがその範囲をどのように拡大するかを定量化するための経験的なレッドチーム フレームワークを紹介します。当社では、10 のモデル ファミリと 5 つの原産国にまたがる 30 以上の LLM を評価しています。私たちは、政治的表現力に体系的な非対称性があることを発見しました。オープンソース LLM は通常、左寄りのソーシャル メディア コンテンツを生成することに積極的であり、OW はモデル サイズに反比例して縮小する傾向があり、オープンソース エコシステム内での表現が不均一であるにもかかわらず、地域的な差異が顕著です。脱獄の有効性もモデル ファミリによって大きく異なるため、脱獄テクニックの効果的な組み合わせを特定するためのワークフローが動機付けられます。総合すると、私たちの結果は、オープンソース LLM の政治的運営性を監査し、将来の研究者が LLM を利用した影響力キャンペーンに対するより強力な対策を設計するのに役立つ実用的な枠組みを確立します。
原文 (English)
How Far Will They Go? Red-Teaming Online Influence with Large Language Models
As large language model (LLM)-based agents increasingly participate in online discourse, red-teaming their capacity to support political influence campaigns is critical for information integrity. In pursuit of this goal, we focus on locally deployed open-source LLMs, as opposed to frontier API-only models, given their superior alignment with the operational constraints of privacy-conscious malicious actors deployed in social media environments. We introduce an empirical red-teaming framework for measuring LLM Overton Windows (OWs), defined as the range of political opinions a model can reliably express on controversial topics, and for quantifying how simple natural-language jailbreaks expand that range. We evaluate more than 30 LLMs spanning 10 model families and five countries of origin. We find systematic asymmetries in political expressivity: open-source LLMs are typically more willing to generate left-leaning social media content, OWs tend to contract inversely to model size, and regional differences are substantial despite uneven representation in the open-source ecosystem. Jailbreak potency also varies sharply across model families, motivating a workflow for identifying effective combinations of jailbreak techniques. Taken together, our results establish a practical framework for auditing the political steerability of open-source LLMs and for helping future researchers design stronger countermeasures against LLM-enabled influence campaigns.
Tensor キャッシュ: トランスフォーマー用のエビクション条件付き連想メモリ
自己回帰 Transformer KV キャッシュは、コンテキストの長さに応じて直線的に増加します。スライディング ウィンドウ キャッシュはメモリを制限しますが、追い出されたトークンを完全に破棄するため、ウィンドウの外側にある関連証拠にはアクセスできなくなります。 \emph{Tensor Cache} は、第 1 レベル キャッシュ (L1) としてのスライディング ウィンドウ ソフトマックス アテンションと、ウィンドウから追い出された KV ペアによって供給される第 2 レベル キャッシュ (L2) としての固定サイズの外積高速重みメモリを組み合わせた 2 レベル キャッシュです。最近のトークンは依然としてローカルな注目を集めています。追い出されたペアは層ごとの行列 $A$ に圧縮され、線形注意恒等 $q_t(k_i \otimes v_i)=\langle q_t,k_i\rangle v_i$ を利用して単一の行列乗算を通じて将来のクエリによって読み取られます。学習されたスカラー ゲートは L1 出力と L2 出力を融合し、ヘッドごとの減衰パラメータと書き込みレート パラメータがエンドツーエンドでトレーニングされます。外積メモリと読み取りアイデンティティはよく知られています。私たちの貢献は、スライディング ウィンドウのエビクションによってのみ供給される L2 キャッシュとしての使用に加え、一般的なチャンク平均トレーニング ショートカット $A\!\leftarrow\!\lambda A\!+\!\eta(\bar k\!\otimes\!\bar v)$ がチャンクごとに $C^2{-}C$ の偽のクロストークン外積を暗黙的に導入していることを特定し、次と同等の並列加重和スキャンでギャップを埋めることです。トークンごとの書き込みは float32 イプシロン内で行われます。 Tensor Cache は、システム スケーリング、制御された連想呼び出し、ロングコンテキスト言語モデリング、およびメモリ容量診断にわたって、有界状態ベースラインを超えるメモリ品質フロンティアを向上させます。
原文 (English)
Tensor Cache: Eviction-conditioned Associative Memory for Transformers
Autoregressive Transformer KV caches grow linearly with context length; sliding-window caching bounds memory but discards evicted tokens entirely, so relevant evidence outside the window becomes inaccessible. We introduce \emph{Tensor Cache}, a two-level cache that pairs sliding-window softmax attention as a first-level cache (L1) with a fixed-size outer-product fast-weight memory as a second-level cache (L2) fed by KV pairs evicted from the window. Recent tokens remain in exact local attention; evicted pairs are compressed into a per-layer matrix $A$ and read by future queries through a single matrix multiplication, exploiting the linear-attention identity $q_t(k_i \otimes v_i)=\langle q_t,k_i\rangle v_i$. A learned scalar gate fuses the L1 and L2 outputs, and per-head decay and write-rate parameters are trained end-to-end. The outer-product memory and the read identity are well-known; our contribution is their use as an L2 cache fed exclusively by sliding-window evictions, plus identifying that the common chunked-mean training shortcut $A\!\leftarrow\!\lambda A\!+\!\eta(\bar k\!\otimes\!\bar v)$ silently introduces $C^2{-}C$ spurious cross-token outer products per chunk, and closing the gap with a parallel weighted-sum scan equivalent to per-token writes within float32 epsilon. Across systems scaling, controlled associative recall, long-context language modeling, and memory-capacity diagnostics, Tensor Cache improves the memory--quality frontier over bounded-state baselines.
Agentic-VLA: 視覚-言語-行動モデルの効率的なオンライン適応
視覚言語アクション (VLA) モデルは、事前にトレーニングされた視覚言語表現を活用することで、ロボット操作の有望なパラダイムとして浮上しています。しかし、現在の VLA トレーニング方法には 2 つの重大な制限があります。それは、新しい環境への一般化が不十分であり、広範なデモンストレーションを必要とするトレーニング効率が低いことです。エージェントティック トレーニング フレームワークである Agentic-VLA を紹介します。これは、VLA が 3 つの主要なイノベーションを通じて効率的にオンラインに適応できるようにします。(1) 適応報酬合成。VLA の現在の機能とタスクの複雑さに基づいて報酬関数を動的に生成および調整し、複雑なタスクをカリキュラム学習のための学習可能なサブ目標に分解します。 (2) 言語ガイド探索。ランダムなサンプリングではなく、批評家モデルが体系的な探索のための構造化されたガイダンスを提供します。 (3) エクスペリエンス メモリ。同様のタスクへのウォーム スタート適応のために、タスク関連のポリシーの重みを保存および取得します。 LIBERO ベンチマークで Agentic-VLA を評価し、大幅な改善を達成しました。長期タスクで +12.3%、ワンショット学習で +28.5%、タスク固有のデモンストレーションなしで 0% から 31.2% までのクロスタスク転送が可能になりました。また、私たちのフレームワークは、既存のオンライン適応手法と比較して 2.4 倍高速な収束を実証しています。 LIBERO を超えて、Agentic-VLA は、ランダム化されたハード設定下を含め、デュアルアーム RoboTwin 2.0 ベンチマークで優位性を維持しています。これらの結果により、Agentic-VLA は、導入時に継続的に学習できる真の適応型 VLA システムに向けた重要なステップとして確立されます。
原文 (English)
Agentic-VLA: Efficient Online Adaptation for Vision-Language-Action Models
Vision-Language-Action (VLA) models have emerged as a promising paradigm for robotic manipulation by leveraging pre-trained vision-language representations. However, current VLA training methods suffer from two critical limitations: poor generalization to novel environments and low training efficiency requiring extensive demonstrations. We introduce Agentic-VLA, an agentic training framework that enables VLAs to efficiently adapt online through three key innovations: (1) Adaptive Reward Synthesis, which dynamically generates and adjusts reward functions based on the VLA's current capabilities and task complexity, decomposing complex tasks into learnable sub-goals for curriculum learning; (2) Language-Guided Exploration, where a critic model provides structured guidance for systematic exploration rather than random sampling; and (3) Experience Memory,which stores and retrieves task-relevant policy weights for warm-starting adaptation to similar tasks. We evaluate Agentic-VLA on the LIBERO benchmark, achieving substantial improvements: +12.3% on long-horizon tasks, +28.5% in 1-shot learning, and enabling cross-task transfer from 0% to 31.2% without task-specific demonstrations. Our framework also demonstrates 2.4x faster convergence compared to existing online adaptation methods. Beyond LIBERO, Agentic-VLA retains its advantage on the dual-arm RoboTwin 2.0 benchmark, including under its randomized Hard setting. These results establish Agentic-VLA as a significant step toward truly adaptive VLA systems capable of continuous learning in deployment.
トランスコーダは視覚言語モデルの視覚グラウンディングと幻覚を追跡します
生成視覚言語モデル (VLM) はマルチモーダル推論ではうまく機能しますが、視覚入力がどのようにテキストに変換されるかについてはまだ十分に理解されていません。 VLM に関する既存の解釈可能性の作業では、スパース オートエンコーダ (SAE) が使用されています。これにより、静的な残差表現が分解され、クロスモーダル インタラクションを促進する機能の更新が見逃されます。私たちは、レイヤーごとの計算の因果プロキシとして機能する MLP サブレイヤーのスパース近似であるトランスコーダーに基づいた機能中心のフレームワークを採用しています。 Gemma 3-4B-IT に適用されるこのフレームワークは、イメージ パッチをトークン生成の方向にリンクする解釈可能な計算経路にモデルを分解します。トランスコーダ アトリビューションは、パッチ アブレーションの下で視覚的に接地されたトークンに対して SAE アトリビューションよりも強力で安定した効果を生成し、意味的に関連する画像領域とよりよく一致します。 False Visual Groundingの反事実分析により、回復された経路が視覚と言語の相互作用に特有であることが確認されました。最後に、トランスコーダーによって生成された回路トレースからグラフベースの指標を抽出することにより、幻覚世代の構造分析を実行します。これらの機械的グラフ特徴に対するロジスティック分類器は、AUC $0.68$ で幻覚を予測します。これらの結果は、関数中心の回路分解により、VLM におけるマルチモーダル計算の解釈可能かつ予測可能な説明が得られることを示しています。
原文 (English)
Transcoders Trace Visual Grounding and Hallucinations in Vision-Language Models
Generative Vision-Language Models (VLMs) perform well on multimodal reasoning, but how visual inputs are transformed to text remains poorly understood. Existing interpretability work on VLMs uses Sparse Autoencoders (SAEs), which decompose static residual representations and miss the functional updates that drive cross-modal interaction. We adopt a function-centric framework based on Transcoders, sparse approximations of MLP sublayers that act as a causal proxy for layer-wise computation. Applied to Gemma 3-4B-IT, the framework decomposes the model into interpretable computational pathways linking image patches to directions in token generation. Transcoder attributions produce stronger and more stable effects on visually grounded tokens under patch ablation than SAE attributions, and align better with semantically relevant image regions. A False Visual Grounding counterfactual analysis confirms that the recovered pathways are specific to vision-language interaction.Finally, we perform a structural analysis of hallucinated generations, by extracting graph-based indicators from circuit traces produced by the transcoders. A logistic classifier over these mechanistic graph features predicts hallucinations at AUC $0.68$. These results show that function-centric circuit decomposition yields interpretable and predictive accounts of multimodal computation in VLMs.
見ずに見る: 視覚と言語のベンチマークは本当に視覚をテストするのでしょうか?
ベンチマークの精度は、視覚言語モデル (VLM) における根拠のある視覚的理解を反映していると暗黙のうちに想定されることがよくありますが、そのようなスコアが実際に視覚的証拠への依存をどの程度反映しているかは依然として不明です。画像トークンのかなりの部分を削除しても、広く使用されている幻覚ベンチマークではモデルのパフォーマンスがほんのわずかしか低下しないという驚くべき観察に動機付けられ、私たちは一連のオープンソース VLM におけるこの不一致を体系的に調査しました。当社の分析は、全体的な視覚劣化、局所的なオクルージョン、質問の再定式化、回答空間の拡張、標準精度を超える意思決定レベルの分析など、複数の粒度レベルに及びます。これらの行動結果を、ビジョン トークン ジオメトリのレイヤーごとの分析でさらに補完します。実験全体を通じて、VLM には視覚的な入力が組み込まれているにもかかわらず、その予測は、標準的な精度が示唆するはずだったきめの細かい視覚的な証拠の喪失に対してあまり敏感ではないことがわかりました。最終的な予測が変更されていない場合でも、正解に対するモデルの内部サポートはすでに弱くなっている可能性があります。我々は表現レベルの分析をさらに補完し、より深い層のビジュアルトークン間の類似性が増加していることを示し、我々の発見に対する説明の可能性を提供します。これらの結果を総合すると、現在のベンチマークでは、VLM におけるきめの細かい視覚的グラウンディングを確実に評価するには十分ではないことがわかります。
原文 (English)
Seeing without Looking: Do Vision-Language Benchmarks Really Test Vision?
Benchmark accuracy is often implicitly assumed to reflect grounded visual understanding in vision-language models (VLMs), yet it remains unclear to what extent such scores truly reflect reliance on visual evidence. Motivated by a surprising observation that removing a substantial fraction of image tokens only degrades model performance very slightly on a widely used hallucination benchmark, we systematically investigate this mismatch in a set of open-source VLMs. Our analysis spans multiple levels of granularity, spanning global visual degradation, localized occlusion, question reformulation, answer-space expansion, and decision-level analyses beyond standard accuracy. We further complement these behavioral results with a layer-wise analysis of vision-token geometry. Throughout the experiments, we find that although VLMs do incorporate visual input, their predictions are less sensitive to the loss of fine-grained visual evidence that standard accuracy should have suggested. Even when the final prediction remains unchanged, the model's internal support for the correct answer may already be weakened. We further complement a representation-level analysis, which shows increasing similarity among visual tokens in deeper layers, providing a possible explanation for our findings. Together, these results suggest that current benchmarks are not sufficient to reliably evaluate fine-grained visual grounding in VLMs.
AI を活用したビデオ監視による自殺リスク評価: 地下鉄駅における予防のための解釈可能なフレームワーク
地下鉄駅での人間の行動の理解と監視は、自殺予防の取り組みを支援する上で重要な役割を果たしており、高リスクの状況を早期に特定することでタイムリーな介入が可能になります。これには、各乗客の行動、空間的状況、時間的ダイナミクスを共同で推論することにより、監視ビデオから自殺リスクを評価する必要があります。ただし、監視カメラで撮影したビデオを使用したこの評価は、人間の動きの正確な認識、プラットフォームの形状の理解、および時間の経過に伴う異種の行動の手がかりの集約が必要なため、困難です。この研究では、地下鉄駅における自殺リスク評価 (SRA) のタスクを形式化し、この課題に対処する最初の解釈可能なフレームワークを導入します。孤立したサブタスクに焦点を当てたり、意図を直接推測しようとするアプローチとは異なり、私たちの定式化では、人物追跡、アクティビティ認識、プラットフォームのセマンティックセグメンテーション、および軌跡主導型のリスクヒートマップモデリングを組み込むことにより、蓄積された証拠から自殺リスクを評価します。この研究は、SRA を別個のタスクとして形式化し、実際の監視データで 83.2% の ROC-AUC を達成する完全な運用パイプラインのベンチマークを行うことにより、自殺リスク評価の複雑さを浮き彫りにし、社会的利益のための解釈可能な AI システムの研究に新たな方向性を開きます。
原文 (English)
Suicide Risk Assessment from AI-powered Video Surveillance: An Interpretable Framework for Prevention in Metro Stations
Understanding and monitoring human behavior in metro stations play an important role in supporting suicide prevention efforts, where early identification of high-risk situations can enable timely intervention. This requires assessing suicide risk from a surveillance video by jointly reasoning about the behavior of each passenger, his/her spatial context, and temporal dynamics. However, this assessment using videos captured by surveillance cameras is challenging, as it demands accurate perception of human motion, understanding of platform geometry, and aggregation of heterogeneous behavioral cues over time. In this work, we formalize the task of Suicide Risk Assessment (SRA) in metro stations and introduce the first interpretable framework that addresses this challenge. Unlike approaches that focus on isolated subtasks or attempt to infer intent directly, our formulation assesses suicide risk from accumulated evidence by incorporating person tracking, activity recognition, semantic segmentation of the platform, and trajectory-driven risk heatmap modeling. By formalizing SRA as a distinct task and benchmarking a complete operational pipeline achieving 83.2% ROC-AUC on real surveillance data, this work highlights the complexity of suicide risk assessment and opens new directions for research on interpretable AI systems for social good.
人間中心の学習力学: エントロピー制御表現学習のための動的フレームワーク
深層学習はパラメータ空間における動的プロセスとしてみなされることが増えていますが、既存の理論の多くは依然としてトレーニングを閉じた最適化システムとして扱っています。この見解は、モデルが不確実性、リソースの制約、分布の変化、下流の意思決定リスク、および人間のフィードバックの下で動作する現実世界の AI には限定されます。私たちは、オープンで制御された学習システムのための動的かつ情報理論的なフレームワークである人間中心学習力学 (HCLM) を提案します。中心的な考え方は、エントロピー正則化は、選択されたエントロピー代理が最適化軌道に沿って非縮退情報力を生成する場合にのみ有用であるということです。そうしないと、エントロピー項によって弱い、不安定、または不整合な勾配が生成され、通常の損失の最小化に向けてダイナミクスが崩壊する可能性があります。有効エントロピーの概念を導入し、分散ベースおよび対数決定共分散プロキシを含む、扱いやすい幾何学的エントロピー サロゲートを研究します。この論文は 3 つの寄稿を行っています。まず、効果的な情報力を通じてエントロピーの正則化を形式化し、縮退したエントロピー体制を特徴づけます。第 2 に、明示的な仮定に基づいて、収束、エントロピー フロー、ワッサーシュタイン勾配フロー、およびノイズ表現の一般化結果を導き出します。第三に、経験的なニューラル スケーリング則の無条件の導出を主張することなく、情報注入、エントロピー散逸、および残留リスクの間のバランスとしてのスケーリング則のような動作の条件付きの動的解釈を提供します。制御された表現学習実験は、幾何学的エントロピー サロゲート、特に対数行列式共分散エントロピーが、ソフトマックス正規化エントロピーよりも強力で安定した情報力を誘発するという仮説を裏付けています。
原文 (English)
Human-Centered Learning Mechanics: A Dynamical Framework for Entropy-Regulated Representation Learning
Deep learning is increasingly viewed as a dynamical process in parameter space, yet many existing theories still treat training as a closed optimization system. This view is limited for real-world AI, where models operate under uncertainty, resource constraints, distribution shift, downstream decision risks, and human feedback. We propose Human-Centered Learning Mechanics (HCLM), a dynamical and information-theoretic framework for open and controlled learning systems. The central idea is that entropy regularization is useful only when the chosen entropy surrogate generates a non-degenerate information force along the optimization trajectory. Otherwise, entropy terms may produce weak, unstable, or misaligned gradients, causing the dynamics to collapse toward ordinary loss minimization. We introduce the notion of effective entropy and study tractable geometric entropy surrogates, including variance-based and log-determinant covariance proxies. The paper makes three contributions. First, it formalizes entropy regularization through effective information force and characterizes degenerate entropy regimes. Second, it derives convergence, entropy-flow, Wasserstein-gradient-flow, and noisy-representation generalization results under explicit assumptions. Third, it offers a conditional dynamical interpretation of scaling-law-like behavior as a balance between information injection, entropy dissipation, and residual risk, without claiming an unconditional derivation of empirical neural scaling laws. Controlled representation-learning experiments support the hypothesis that geometric entropy surrogates, especially log-determinant covariance entropy, induce stronger and more stable information forces than softmax-normalized entropy.
接地検出用の誘導バイアスとしてのグラフ アライメント トポロジ
大規模言語モデル (LLM) は、生成された命題がソース ドキュメントに含まれているかどうかを明示的に検証するのではなく、分布的に妥当な継続を生成するように最適化されています。この誘導性バイアスにより一般化が可能になりますが、応答が基準に対して接地されているかどうかはエンコードされません。これらの問題により、臨床意思決定支援など、厳密な事実の正確さが重要な分野での LLM の使用が制限されます。既存の幻覚検出アプローチは、検索の拡張、自己一貫性、または主張の検証を通じて事実性を向上させますが、一般に位置合わせトポロジーを直接学習することはありません。アライメントトポロジーを誘導バイアスとして活用するために、参照情報とLLM出力の間でアライメントされた2部グラフを構築し、メッセージパッシングを使用してアライメント構造をモデル化するようにグラフニューラルネットワーク(GNN)をトレーニングします。この方法は、4 つの多様な幻覚および質問応答データセットで最先端の結果を達成し、GPT-4o などの基礎的な LLM を含む、比較されたすべての方法を上回ります。
原文 (English)
Graph Alignment Topology as an Inductive Bias for Grounding Detection
Large Language Models (LLMs) are optimized to produce distributionally plausible continuations rather than to explicitly verify whether generated propositions are entailed by source documents. This inductive bias enables generalization, but it does not encode whether responses are grounded with respect to a reference. These issues limit the use of LLMs in domains where strict factual correctness is crucial, such as clinical decision support. Existing hallucination detection approaches improve factuality through retrieval augmentation, self-consistency, or claim verification, but generally do not learn directly over alignment topology. To leverage alignment topology as an inductive bias, we construct aligned bipartite graphs between reference information and LLM outputs and train a graph neural network (GNN) to model alignment structure using message passing. The method achieves state-of-the-art results on four diverse hallucination and question-answering datasets, outperforming all compared methods, including foundational LLMs such as GPT-4o.
関係一般化と記憶のバランスを取る数学理論
人間、動物、および現代の機械学習モデルは、複雑な行動を学習し、それらの行動を目に見えない状況に一般化するという優れた能力を示します。この能力を発揮するには、そのような一般化を可能にするルールと規則性を学ぶ必要があります。同時に、ほとんどの複雑な環境では、どのルールにも例外があります。学習システムは、一般的な規則性の学習と例外の記憶の間でどのようにバランスをとっているのでしょうか?私たちは、課題パラダイムの欠如がこの本質的な能力の研究を妨げていると主張します。このギャップに対処するために、リレーショナルの一般化とリレーショナル ルールの例外の記憶をテストする、例外を伴う推移的推論という新しいタスクを導入します。次に、幅広い表現とタスク パラメーターにわたって、ニューラル ネットワーク学習 (カーネル リッジ回帰) の単純で理論的に扱いやすいモデルの動作を分析的に特徴付けます。これらのモデルは関係一般化と記憶の間でバランスをとることができるが、例外のない推移的推論とは異なり、一般化の成功は特定の表現幾何学の影響を受けやすいことがわかりました。私たちの分析理論を利用して、このタスクが機構的により困難である理由を説明します。最後に、順序関係に基づいて微調整された事前トレーニング済み言語モデルで理論的洞察を検証し、これらのモデルが推移規則に従って正常に一般化できるものの、理論によって予測される種類の系統的誤りも犯していることを発見しました。全体として、私たちの理論は、学習システムが関係一般化と暗記の間でどのようにバランスを取ることができるかを示し、これがどのように誤って起こるかを説明し、この能力を調査するために設計された新しいタスクパラダイムの必要性を強調しています。
原文 (English)
A mathematical theory of balancing relational generalization and memorization
Humans, animals, and modern machine learning models exhibit impressive abilities to learn complex behaviors and generalize these behaviors to unseen situations. This ability requires us to learn rules and regularities that allow for such generalizations. At the same time, in most complex environments, any rule will have its exceptions. How do learning systems balance between learning general regularities and memorizing exceptions? We argue that a lack of task paradigms has hindered the study of this essential ability. To address this gap, we introduce a novel task, transitive inference with exceptions, that tests for relational generalization and memorization of an exception to the relational rule. We then analytically characterize the behavior of a simple, theoretically tractable model of neural network learning (kernel ridge regression) across a broad family of representations and task parameters. We find that these models can balance between relational generalization and memorization, but unlike for transitive inference without an exception, successful generalization is sensitive to the specific representational geometry. We explain why this task is more challenging mechanistically by drawing on our analytical theory. Finally, we validate our theoretical insights in pretrained language models that are finetuned on ordered relations, finding that these models successfully generalize according to the transitive rule, but also make the kinds of systematic mistakes predicted by our theory. Overall, our theory shows how learning systems can balance between relational generalization and memorization, explains how this can go wrong, and emphasizes the need for new task paradigms designed to probe this ability.
ランダムよりも悪い: 教師なし特徴選択のベースラインの重要性
毎年、多くの新しい教師なし特徴選択手法が提案されていますが、その経験的評価は、既存の手法との比較とともに、選択されたデータセットで計算された教師ありおよび教師なしの評価メトリクスに限定されています。ただし、確立された評価ベースラインが存在しない場合、これらの各方法によって既存の文献に付加される価値や、その基礎となるアプローチがどれほど効果的であるかを判断することは困難です。教師なし特徴選択方法を評価するためのベースラインとしてランダム特徴選択を使用することを提案します。私たちは、教師なし特徴選択における最先端の手法の多くが、パフォーマンスと効率の両方においてランダム特徴選択よりも優れていることを経験的に示しています。したがって、ランダムな特徴選択よりも一貫した改善を確実にするために、新しい教師なし特徴選択方法の開発プロセスのベースラインとしてランダムな特徴選択を考慮するという厳格な要件を強調します。
原文 (English)
Worse than Random: The Importance of a Baseline for Unsupervised Feature Selection
Many novel unsupervised feature selection methods are proposed each year, yet their empirical evaluation is limited to supervised and unsupervised evaluation metrics computed on selected datasets, along with comparisons to existing methods. However, in the absence of an established evaluation baseline, it is difficult to determine the value added to the existing literature by each of these methods, and how effective their underlying approaches are. We propose using random feature selection as a baseline for evaluating the unsupervised feature selection methods. We empirically show that many of the state-of-the-art methods in unsupervised feature selection are outperformed by random feature selection in both performance and efficiency. Accordingly, we emphasize on the strict requirement of considering random feature selection as a baseline in the development process of novel unsupervised feature selection methods to ensure a consistent improvement over random feature selection.
LLM コードの匂い: 分類と検出のアプローチ
大規模言語モデル (LLM) は、その汎用性、柔軟性、人間の推論をある程度シミュレートできる機能により、さまざまな目的でソフトウェア システムに統合されることが増えています。ただし、ソース コードへの LLM 推論の統合が不十分だと、ソフトウェア システムの品質が損なわれる可能性があります。したがって、開発者がそのような問題を軽減できるように、不適切な LLM 統合コーディングの実践を文書化する必要があります。 LLM コードの匂いに関する以前の研究に続き、この文書では、自己完結型の分類法と 9 つの LLM コードの匂いのカタログを提示することで、概念を統合し、洗練させました。また、それらを検出するための静的ソース コード分析ツールである SpecDetect4LLM を作成し、その検出有効性 (精度と再現率) および 692 のオープンソース ソフトウェア プロジェクト (171,194 のソース ファイル) にわたる LLM コードの匂いの蔓延について広範な実証的評価を実施しています。私たちの結果は、LLM コードの匂いが分析されたシステムの 73.5% に影響を及ぼし、検出精度は 91.3%、再現率は 71.8% であることを示しています。
原文 (English)
LLM Code Smells: A Taxonomy and Detection Approach
Large Language Models (LLMs) are increasingly integrated into software systems for diverse purposes, due to their versatility, flexibility, and ability to simulate human reasoning to some extent. However, poor integration of LLM inference in source code can undermine software system quality. Therefore, inadequate LLM integration coding practices must be documented to help developers mitigate such issues. Following our earlier work on LLM code smells, this paper consolidates and refines the concept by presenting a self-contained taxonomy and a catalog of nine LLM code smells. We also create SpecDetect4LLM, a static source code analysis tool for their detection, and conduct extensive empirical evaluations of its detection effectiveness (precision and recall) as well as the prevalence of LLM code smells across 692 open-source software projects (171,194 source files). Our results show that LLM code smells affect 73.5% of the analyzed systems, with a detection precision of 91.3% and a recall of 71.8%.
中間補充事前トレーニングの記憶力学
Fill-in-the-middle (FIM) は、因果言語モデルに埋め込み機能を装備するために広く使用されている事前トレーニング目標ですが、逐語的な記憶に対するその効果はまだ解明されていません。私たちは、グーテンベルクの繰り返しの抜粋を含む FineWeb-Gutenberg コーパス上で、FIM と標準の左から右 (LTR) 目標を備えた一致した Llama 3.2 モデルを事前トレーニングすることにより、制御された設定における FIM の記憶力学を研究します。プレフィックスベースのプローブでは、FIM は短いスパンまたは部分的に一致するスパンをより頻繁に回復しますが、LTR は長い正確な継続に高い信頼性を割り当てることがより多くなります。 FIM トレーニング下での逐語的抽出は、テスト範囲全体での繰り返しによりほぼ直線的に増加することが観察されます。ネイティブ FIM 形式のプローブを評価すると、サフィックス コンテキストだけでは不十分であることがわかります。FIM トレーニングでの逐語的想起は、プレフィックス コンテキストに強く固定されたままです。また、私たちの結果は、1 つのスパン長またはプローブ形式のみを評価すると、記憶動作の重要なニュアンスを見逃す可能性があることも示しています。
原文 (English)
Memorization Dynamics of Fill-in-the-Middle Pretraining
Fill-in-the-middle (FIM) is a pretraining objective widely used to equip causal language models with infilling ability, yet its effect on verbatim memorization remains underexplored. We study the memorization dynamics of FIM in a controlled setting by pretraining matched Llama 3.2 models with FIM and standard left-to-right (LTR) objectives on a FineWeb-Gutenberg corpus containing repeated Gutenberg excerpts. With prefix-based probes, FIM more often recovers short or partially matching spans, while LTR more often assigns high confidence to long exact continuations. We observe that verbatim extraction under FIM-training grows approximately linearly with repetitions over the tested range. Evaluating native FIM-format probes reveals that suffix context is not sufficient: verbatim recall under FIM-training remains strongly anchored in prefix context. Our results also show that evaluating only one span length or probing format can miss important nuances in memorization behavior.
テスト時のトレーニングが安全ガードレールを台無しにする
テストタイム トレーニング (TTT) は、モデルが推論中にパラメーターを適応できるようにする新しいパラダイムで、少数ショット学習、検索拡張生成、複雑な推論などのタスクのパフォーマンスを向上させます。ただし、この動的な適応により、攻撃者がモデルをジェイルブレイクするために悪用できる新たな脆弱性が生じます。 TTT の 3 つの脅威モデルを特定し、攻撃者がそれらをどのように利用して安全フィルターをバイパスできるかを示します。私たちの結果は、TTT が攻撃成功率 (ASR) と 10 世代にわたるトライアルでの ASR (ASR@10) を大幅に向上させることができることを示しています。たとえば、LoRA では、数ショット脅威モデルと生成フェーズ脅威モデルは、異なるファミリーと規模のモデル全体で、それぞれ 95% と 93% の平均 ASR@10 を達成します。これらの脆弱性は、本番環境の微調整 API に転送されます。また、TTT に起因するオーバーフィッティングが、標準的な判断のもとで ASR を膨張させる退化した出力を生成する可能性があることを示し、これを修正するための妥当性を意識した評価を提案します。私たちの調査結果は、TTT が新たな攻撃対象領域を露出し、攻撃を強化し、既存の安全ガードレールを弱体化させていることを示唆しています。防御への最初のステップとして、プライベートの有害なホールドアウトのパープレキシティ シフトを介して TTT リクエストにフラグを立てる軽量のプロバイダー側検出器を提案しますが、堅牢な展開には最終的に動的な調整が必要になります。
原文 (English)
Test-Time Training Undermines Safety Guardrails
Test-Time Training (TTT) is an emerging paradigm that enables models to adapt their parameters during inference, improving performance on tasks such as few-shot learning, retrieval-augmented generation, and complex reasoning. However, this dynamic adaptation introduces new vulnerabilities that adversaries can exploit to jailbreak models. We identify three threat models for TTT and demonstrate how attackers can leverage them to bypass safety filters. Our results show that TTT can significantly increase the Attack Success Rate (ASR) and the ASR over 10 generation trials (ASR@10). For example, under LoRA, the few-shot and generation-phase threat models achieve an average ASR@10 of 95% and 93% respectively, across models from different families and scales. These vulnerabilities transfer to production fine-tuning APIs. We also show that TTT-induced overfitting can produce degenerate outputs that inflate ASR under standard judges, and propose a validity-aware evaluation to correct for this. Our findings suggest that TTT exposes a new attack surface, strengthens attacks, and undermines existing safety guardrails. As a first step toward defense, we propose a lightweight provider-side detector that flags TTT requests via the perplexity shift on a private harmful holdout, but robust deployment will ultimately require dynamic alignment.
何を尋ねるべきかを知っているロボット: 的を絞った説明を通じて、ずれた報酬を取り戻す
デモンストレーションから報酬関数を学習するには、デモンストレーションがすべての機能、つまり行動のタスク関連の側面に対して適切な監視を提供していることを前提としています。実際には、デモンストレーションは不完全であることがよくあります。人間は、認知負荷や身体的困難のために特定の機能を過小評価する可能性があり、トレーニング計画が関連するすべての状況を十分にカバーできない可能性があります。いずれの場合も、重要な機能が過少指定される可能性があり、学習された報酬関数が曖昧になり、デプロイメント時に不整合な動作が発生する可能性があります。私たちは、このような不完全な特徴を検出し、対象を絞った修正デモを積極的に募集するフレームワークを提案します。私たちの重要な洞察は、デモンストレーションによって、どの機能が適切に仕様化されているかが暗黙的に明らかになることです。一貫して最適化されている機能はデモンストレーション間でほとんど変化を示さないのに対し、仕様が不十分な機能は大きく異なります。この統計信号を活用して、どの機能が十分に実証されていない可能性があるかを推測します。次に、ロボットは自然言語でどの機能が不明であるかを説明し、特定されたギャップに明示的に対処するデモンストレーションを要求します。私たちは、シミュレートされた卓上操作領域と実際の Franka ロボットを使用したユーザー研究でアプローチを評価します。ターゲットを絞った説明ガイド付きクエリは、ランダムなクエリや受動的なデータ収集と比較して報酬の回収を大幅に向上させ、不完全なデモンストレーションから学習する際に残るであろう曖昧さを軽減します。
原文 (English)
Robots That Know What to Ask: Recovering Misaligned Rewards through Targeted Explanations
Learning reward functions from demonstrations assumes that demonstrations provide adequate supervision over all features -- or task-relevant aspects of behavior. In practice, demonstrations are often imperfect: humans may under-emphasize certain features due to cognitive load or physical difficulty, or the training regime may fail to sufficiently cover all relevant situations. In either case, important features may be underspecified, leading to ambiguity in the learned reward function and misaligned behavior at deployment. We propose a framework that detects such underspecified features and actively solicits targeted corrective demonstrations. Our key insight is that demonstrations implicitly reveal which features are well specified: features that are consistently optimized show little variation across demonstrations, while features that are underspecified vary widely. We leverage this statistical signal to infer which features may have been insufficiently demonstrated. The robot then explains which features it is uncertain about in natural language and queries for demonstrations that explicitly address the identified gaps. We evaluate our approach in a simulated tabletop manipulation domain and in a user study with a real Franka robot. Targeted, explanation-guided queries significantly improve reward recovery compared to random querying and passive data collection, reducing ambiguity that would otherwise persist in learning from imperfect demonstrations.
自閉症における社会言語障害特性を評価するための積極的なマルチエージェント対話フレームワーク
自閉症スペクトラム障害における社会言語障害(SLD)に関連する特徴的な言語行動(エコー反復、代名詞の置き換え、ステレオタイプ的なメディアの引用など)は、自発的な会話ではほとんど見られず、特定の会話条件下でのみ現れます。構造化された臨床評価では、この待ち時間は、質問戦略の選択が、会話からどの程度の診断情報が得られるかを決定する重要な要素であるにもかかわらず、あまり評価されていないことを意味します。これらの潜在的な特性を体系的に表面化する質問戦略を積極的に選択するように大規模言語モデル (LLM) を誘導できるかどうかは、まだほとんど解明されていません。ここでは、自閉症診断観察スケジュール モジュール 4 (ADOS-2) の言語評価コンポーネントに適用されるプロアクティブなマルチエージェント対話フレームワークである TPA (Think、Plan、Ask) を紹介します。このフレームワークでは、医師エージェントが、臨床的に根拠のある戦略を選択し、対象を絞った質問を生成する前に、どの特性が観察されないままであるかを明確に推論します。実際の ADOS-2 臨床データに基づいた患者エージェントにより、実際の患者の参加なしで再現可能な評価が可能になり、3 つの独立した実験で検証され、実際の患者の言語に対する十分な忠実性が確認されました。 35人の患者からの484のエピソードで評価されたTPAは、すべての主要指標にわたって6つの競合対話計画ベースラインを上回り、82.1%のSLD特性カバー率を達成し、訓練を受けた臨床医が実施した実際の臨床対話の自動再生(65.5%)より16.6%高く、ターンあたりの診断効率が大幅に向上しました(AUCC:0.628対0.458、絶対利得+0.170)。これらの結果は、積極的な質問戦略の選択により、自動化された SLD 特性評価の効率が大幅に向上し、スケーラブルな AI 支援臨床スクリーニングに直接的な影響を与えることを示しています。
原文 (English)
A Proactive Multi-Agent Dialogue Framework for Assessing Social Language Disorder Traits in Autism
Characteristic linguistic behaviors associated with Social Language Disorder (SLD) in autism spectrum disorder, including echoic repetition, pronoun displacement, and stereotyped media quoting, are largely absent from spontaneous conversation and only emerge under specific conversational conditions. In structured clinical assessments, this latency means that questioning strategy selection is a critical yet underappreciated determinant of how much diagnostic information a conversation yields. Whether large language models (LLMs) can be guided to proactively select questioning strategies that systematically surface these latent traits remains largely unexplored. Here we present TPA (Think, Plan, Ask), a proactive multi-agent dialogue framework applied to the language assessment component of the Autism Diagnostic Observation Schedule Module 4 (ADOS-2), in which a doctor agent explicitly reasons about which traits remain unobserved before selecting a clinically grounded strategy and generating a targeted question. A patient agent grounded in real ADOS-2 clinical data enables reproducible evaluation without real patient participation, validated across three independent experiments confirming adequate fidelity to real patient language. Evaluated on 484 episodes from 35 patients, TPA outperforms six competitive dialogue planning baselines across all primary metrics, achieving 82.1% SLD trait coverage, 16.6% higher than automated replay of real clinical dialogues conducted by trained clinicians (65.5%), with substantially greater per-turn diagnostic efficiency (AUCC: 0.628 vs. 0.458, absolute gain +0.170). These results demonstrate that proactive questioning strategy selection substantially improves the efficiency of automated SLD trait assessment, with direct implications for scalable AI-assisted clinical screening.
誰の善意、誰の立場?社会的利益のためのエージェント AI の道徳地理学
エージェント的 AI システムはソーシャルグッドの分野でますます提案されており、世界的な利益の語彙として国連の持続可能な開発目標 (SDGs) が引用されることがよくあります。しかし、社会的利益を主張しても、システムがサービスを提供すると主張するコミュニティに対する説明責任は確立されません。私たちは、2015 年から 2026 年の間に出版された、社会的利益のためのエージェント AI に関する 112 件の論文の構造化調査を紹介します。私たちは道徳と地理の非対称性を発見しました。つまり、論文は、まさに地域の政治的、法律的、文化的背景が最も重要な領域において地理的背景を特定する可能性が最も低いということです。コーパス全体で、112 件の論文中 82 件 (73%) で地理的コンテキストが指定されていません。健康または物理的/生態学的 SDG に沿った論文では 37 ~ 40% の確率で地理が指定されていますが、制度的および社会政策の SDG に沿った論文では 13% のみが指定されています。 SDG 16、平和、正義、強力な制度は、コーパス内で最も多くカバーされている目標であると同時に、地理的指定率が最も低い目標でもあります。私たちはこれを道徳的抽象化として解釈します。社会的利益のためのエージェント AI は、健康や生態学的利益を扱わないという点で、制度的利益を普遍的なものとして扱うことがよくあります。 2 番目の発見はこれをさらに悪化させます。実際の展開または小規模テストを報告している論文は 112 件中 28 件 (25%) のみです。私たちは 5 つの説明責任のギャップを特定し、社会的利益のために、より状況に特化した参加型で説明責任のあるエージェント AI のための最小限の報告基準を提案します。
原文 (English)
Whose Good, Whose Place? The Moral Geography of Agentic AI for Social Good
Agentic AI systems are increasingly proposed for social-good domains, often invoking the United Nations Sustainable Development Goals (SDGs) as a vocabulary of global benefit. Yet claims of social good do not establish accountability to the communities a system claims to serve. We present a structured survey of 112 papers on agentic AI for social good published between 2015 and 2026. We find a moral-geographic asymmetry: papers are least likely to specify geographic context in precisely the domains where local political, legal, and cultural context matters most. Across the corpus, 82 of 112 papers (73%) specify no geographic context. Papers aligned with health or physical/ecological SDGs specify geography 37-40% of the time, while papers aligned with institutional and social-policy SDGs do so only 13%. SDG 16, peace, justice, and strong institutions, is both the most-covered goal in the corpus and the one with the lowest geographic-specification rate. We interpret this as moral abstraction: agentic AI for social good often treats institutional good as universal in ways it does not treat health or ecological good. A second finding compounds this: only 28 of 112 papers (25%) report any real-world deployment or small-scale test. We identify five accountability gaps and propose a minimal reporting standard for more context-specific, participatory, and accountable agentic AI for social good.
MadEvolve: 大規模な言語モデルを使用したトレーディング システムの進化的な最適化
私たちは、定量的金融におけるいくつかの一般的なタスクへの LLM 主導のアルゴリズム最適化の適用を検討します。 DeepMind の Alpha-Evolve からインスピレーションを得た汎用アルゴリズム最適化フレームワークである MadEvolve は、計算宇宙論におけるアルゴリズムを最適化するために最近開発されました。ここでは、ビットコイン取引の例で、アルゴリズム取引戦略とアルファ生成を最適化するための MadEvolve の有用性を示します。シミュレーションとバックテストのセットアップでは、シグナル生成のための機能セットの進化、取引戦略の個別コンポーネントの最適化、実行戦略と機能パイプラインの共同進化など、検討したすべてのタスクで大幅な改善を達成しました。さらに、私たちの方法を他のエージェント検索アプローチ、特にクロード コードと比較し、シミュレーション設定での p-ハッキングの確率を慎重に評価します。私たちの調査結果は、アルゴリズム取引と定量的金融における AI 主導のエージェント的アルゴリズムと進化的アルゴリズムの有用性を強く裏付けています。
原文 (English)
MadEvolve: Evolutionary Optimization of Trading Systems with Large Language Models
We explore the application of LLM-driven algorithm optimization to several common tasks in quantitative finance. MadEvolve, a general-purpose algorithm optimization framework inspired by DeepMind's Alpha-Evolve, was recently developed to optimize algorithms in computational cosmology. Here we demonstrate the utility of MadEvolve to optimize algorithmic trading strategies and alpha generation at the example of Bitcoin trading. On our simulation and backtesting setup, we achieve significant improvements on all tasks we considered, such as evolving feature sets for signal generation, optimizing separate components of the trading strategy, and jointly evolving the feature pipeline together with the execution strategy. Additionally, we compare our method to other agentic search approaches, specifically Claude Code, and carefully evaluate p-hacking probabilities on our simulation setup. Our findings strongly support the utility of AI-driven agentic and evolutionary algorithms for algorithmic trading and quantitative finance.
Brain-LLM アライメントは、類型学ではなくトレーニング データを追跡します
英語では脳とLLMの整合性が確立されていますが、脳の言語ネットワークは神経解剖学的に言語を超えて普遍的です。整合性は言語を超えて一般化するのでしょうか?その変動を支配するものは何ですか?英語、中国語、フランス語 (Le Petit Prince コーパス) の 112 人の参加者からの fMRI データと、英語主体、中国語主体、および多言語アーキテクチャにまたがる 7 つの LLM を使用して、これをテストします。私たちの中心的な発見は、英語の固有の特性ではなく、トレーニング言語の優位性が対応パターンを推進しているということです。アーキテクチャが LLaMA-2-7B と一致した中国語優位モデル (Baichuan2-7B) は、勾配を完全に逆転させ、中国人の脳と最もよく一致し、英語と最悪の一致を示します。トレーニングの優位性を超えて、形式的類型論的距離はアライメントの劣化と独立して共変動し、構文関連脳領域 (IFG) は語彙意味領域 (PTL) より $2.3\times$ 急峻な類型論的勾配を示し、トークン化の豊饒度は、最適なエンコード層における言語間シフトの $\sim$60% を占めます。これらの結果は、脳とLLMの整合における明らかな「英語の利点」はトレーニングデータ構成のアーチファクトである一方、残りの変動は構文処理に集中した真の類型構造を反映していることを明らかにしています。
原文 (English)
Brain-LLM Alignment Tracks Training Data, Not Typology
Brain-LLM alignment is well established in English, yet the brain's language network is neuroanatomically universal across languages. Does alignment also generalize cross-linguistically, and what governs the variation? We test this using fMRI data from 112 participants across English, Chinese, and French (the Le Petit Prince corpus) and seven LLMs spanning English-dominant, Chinese-dominant, and multilingual architectures. Our central finding is that training-language dominance, not an inherent property of English, drives the alignment pattern: a Chinese-dominant model (Baichuan2-7B), architecture-matched to LLaMA-2-7B, reverses the gradient entirely, aligning best with Chinese brains and worst with English. Beyond training dominance, formal typological distance independently covaries with alignment degradation, syntax-associated brain regions (IFG) show $2.3\times$ steeper typological gradients than lexico-semantic regions (PTL), and tokenization fertility accounts for $\sim$60% of a cross-linguistic shift in optimal encoding layer. These results reveal that the apparent "English advantage" in brain-LLM alignment is an artifact of training data composition, while the remaining variation reflects genuine typological structure concentrated in syntactic processing.
深い中間表現の潜在的な可能性を明らかにする
膨大な量のデータで事前トレーニングされた基礎モデルは、深度にわたって進化する表現を学習し、明確な意味論的内容と幾何学的構造を持つ埋め込みの階層を形成します。最終層のみまたは浅い混合を使用するという広く普及している慣行とは対照的に、タスク関連情報は層間で非単調に分布しており、単純な集計では回復できないことを示します。複数のモダリティにわたる幾何学的および実証的研究を通じて、効果的な転送は、どの層がタスク識別構造をエンコードしているか、およびその埋め込みがどのように幾何学的に組織化されているかを特定することに依存することを示します。層ごとの最適埋め込み選択 (LOES) を導入します。直交性と等方性の制約の下で残差誤差を最小限に抑えてタスクを識別する部分空間を識別する構成的スペクトル法。微調整をこの選択原理と一致させるために、クラス多様体に単純な構造を強制し、微調整中に表現幾何学を安定させる LOES をさらに提案します。一貫して標準ベースラインを上回っており、モデルの深さが増加するにつれて向上します。私たちの方法は、意味論的要素がレイヤー間でどのように分布しているかを明らかにし、それによって言語間およびモーダル間での解釈可能性の分析を可能にします。これらの結果は、レイヤーごとの埋め込みジオメトリが付随的なものではなく、深いモデルが知識を表現し伝達する方法の中心であることを示す強力な証拠を提供します。
原文 (English)
Uncovering the Latent Potential of Deep Intermediate Representations
Foundational Models pretrained on huge amount of data learn representations that evolve across depth, forming a hierarchy of embeddings with distinct semantic content and geometric structure. Contrary to the widespread practice of using only the final layer or shallow mixtures, we show that task-relevant information is distributed non-monotonically across layers and cannot be recovered by na\"ive aggregation. Through a geometric and empirical study across multiple modalities, we show that effective transfer depends on identifying which layers encode task-discriminative structure and how their embeddings are geometrically organized. We introduce Layer-wise Optimal Embedding Selection (LOES), a constructive spectral method that identifies task-discriminative subspaces by minimizing residual error under orthogonality and isotropy constraints. To align fine-tuning with this selection principle, we further propose Geometric Regularization Loss (GeoReg), which enforces a simplicial structure on class manifolds and stabilizes representation geometry during fine-tuning. Across a wide range of architectures, depths, modalities, and data regimes, LOES consistently outperforms standard baselines, with gains that grow as model depth increases. Beyond accuracy, our method reveals how semantic factors are distributed across layers, thereby enabling cross-lingual and cross-modal interpretability analyses. Together, our results provide strong evidence that layerwise embedding geometry is not incidental but central to how deep models represent and transfer knowledge.
スパースオートエンコーダは、脳とLLMのアライメントを皮質セマンティックトポグラフィーにマッピングします
大規模言語モデル (LLM) の中間層は、言語に対する人間の脳の反応を最もよく予測します。これは、計算神経言語学における最も確実な発見の 1 つですが、その理由はまだ機構的に説明されていません。私たちは、スパース オートエンコーダ (SAE) を機械的な解釈可能性からニューラル エンコーディング モデルで橋渡しし、GPT-2 XL と Llama-3.1-8B をレイヤーごとに 16K ~ 32K の解釈可能な特徴に分解することで、このギャップに対処します。人間によって検証された分類法 ($\kappa \geq 0.74$) により、意味特徴だけでピーク エンコード パフォーマンス ($r=0.285$) の 94% が回復し、分散一致ベースライン ($p<0.001$、$d=1.31$) を大幅に超えていることが明らかになりました。この集合的な優位性を超えて、新しい皮質トポグラフィー予測をテストします。3 つの独立した神経科学プログラムからアプリオリに導出された 5 つの意味サブカテゴリーが、異なる脳領域にマッピングされるはずです。正式な収束テストによりこの整合性が確認され (Spearman $\rho=0.72$, $p<0.001$; 超幾何 $p=0.007$)、SAE で発見された特徴が、従来の方法ではアクセスできない粒度で既知の皮質の意味論的組織化を再現していることが実証されました。 SAE 機能は、語彙制御を超えて人間の読書時間をさらに予測し ($\Delta\mathrm{logLik}=38.4$、$p<0.001$)、探索的予測誤差分析により、脳が予期せぬ意味論的コンテンツをさらにエンコードしているという予備的な証拠が得られます。結果は英語、中国語、フランス語で一般化されます。
原文 (English)
Sparse Autoencoders Map Brain-LLM Alignment onto Cortical Semantic Topography
Intermediate layers of large language models (LLMs) best predict human brain responses to language, one of the most robust findings in computational neurolinguistics, yet why remains mechanistically unexplained. We address this gap by bridging sparse autoencoders (SAEs) from mechanistic interpretability with neural encoding models, decomposing GPT-2 XL and Llama-3.1-8B into 16K-32K interpretable features per layer. A human-validated taxonomy ($\kappa \geq 0.74$) reveals that semantic features alone recover 94% of peak encoding performance ($r=0.285$), substantially exceeding variance-matched baselines ($p<0.001$, $d=1.31$). Beyond this aggregate dominance, we test a novel cortical topography prediction: five semantic subcategories derived a priori from three independent neuroscience programs should map onto distinct brain regions. A formal convergence test confirms this alignment (Spearman $\rho=0.72$, $p<0.001$; hypergeometric $p=0.007$), demonstrating that SAE-discovered features recapitulate known cortical semantic organization at a granularity inaccessible to prior methods. SAE features further predict human reading times beyond lexical controls ($\Delta\mathrm{logLik}=38.4$, $p<0.001$), and an exploratory prediction-error analysis provides preliminary evidence that the brain additionally encodes unexpected semantic content. Results generalize across English, Chinese, and French.
言語モデルは何を言ってはいけないかを知っていますか? LLM における統計的プリエンプションの因果関係の証拠
否定的な証拠がなければ、学習者は何が受け入れられないのかについての知識をどのようにして獲得するのでしょうか? Construction Grammar は統計的プリエンプションを提案しています。従来の形式 (例: 「図書館に本を寄贈した」) にさらされると、構造的には可能だが証明されていない代替案 (「* 図書館に本を寄贈した」) が先取りされます。我々は、単一の収束設計内の大規模な言語モデルにおける競合する固定化仮説から統計的プリエンプションを初めて直接分離する計算研究を紹介します。 120 の英語の動詞と構文の組み合わせ (与格、使役、場所) にわたる 4 つの実験を通じて、(1) LLM の驚きのパターンは人間の受容性の判断 ($r = 0.79$) と強い相関があることを示し、3 つの独立した行動データセットに対して検証されました。 (2) これらのパターンは、動詞全体の頻度ではなく、競合する形式の頻度によって駆動されており、非循環部分相関によって確認されます。 (3) プリエンプション感度はモデルのサイズに応じてべき乗則としてスケールされます。 (4) 制御された微調整介入により、競合形式の周波数を操作すると、プリエンプション動作が予測された方向にシフトし、逆方向の制御により周波数感度の交絡が排除されることが因果的に実証されます。これらの結果は、神経言語モデルが、構築文法によって仮定される中心的なメカニズムである分布競争を通じて否定的な言語知識を獲得するという収束した証拠を提供します。
原文 (English)
Do Language Models Know What Not to Say? Causal Evidence for Statistical Preemption in LLMs
How do learners acquire knowledge of what is unacceptable without negative evidence? Construction Grammar proposes statistical preemption: exposure to a conventional form (e.g., "donated the books to the library") preempts structurally possible but unattested alternatives ("*donated the library the books"). We present a computational study that, for the first time, directly dissociates statistical preemption from the competing entrenchment hypothesis in large language models within a single converging design. Across four experiments spanning 120 English verb-construction pairings (dative, causative, locative), we show that (1) LLM surprisal patterns correlate strongly with human acceptability judgments ($r = 0.79$), validated against three independent behavioral datasets; (2) these patterns are driven by competing-form frequency rather than overall verb frequency, confirmed by non-circular partial correlations; (3) preemption sensitivity scales as a power law with model size; and (4) a controlled fine-tuning intervention causally demonstrates that manipulating competing-form frequencies shifts preemption behavior in the predicted direction, with reverse-direction controls ruling out frequency-sensitivity confounds. These results provide converging evidence that neural language models acquire negative linguistic knowledge through distributional competition, the core mechanism posited by Construction Grammar.
タイムマシン: 効率的な知覚のための動きの力について
ビデオ表現学習は近年、目覚ましい進歩を遂げています。これは、トレーニングの規模や、言語と対照的にトレーニングされた視覚モデルの成功など、多くの要因によって推進されています。これらの要因は、ビデオ モデルができることの限界を押し広げていますが、同時に独自の制限も導入しています。まず、ビデオ モデルをスケーリングすると法外なコストに達する可能性があり、第 2 に、言語から学習すると、キャプション内の概念を学習できる範囲が制限されます。その結果、ビデオモデルは依然として時間的な理解に苦労しています。この論文では、ビデオ表現の中心的なモダリティとして動きを使用する新しいアプローチを提案します。特に、ポイント トラックの形式でビデオ内の動きが与えられると、マスクされたオートエンコーダを使用してトラックの一部をマスクし、失われたトラックを再構築するようにオートエンコーダをトレーニングします。これにより、自己教師ありの方法で表現を学習できるようになります。私たちは、モーションを使用してビデオを表現することで、ビデオ テクノロジーの核となる制限の両方に実際に対処できることを示します。まず、モーションは本質的に外観に依存しないため、適切に一般化するために必要なサンプルが少なくなるため、トレーニング データの規模を大幅に削減できます。第二に、動作により、言語に依存したトレーニング パラダイムを回避して、より詳細な概念を学習できるようになります。その結果は、TIME (Temporally Informed Motion Embedding) と呼ばれる埋め込みであり、合成モーション データのみでトレーニングされた表現です。この埋め込みを幅広いタスクでゼロショット方式でテストします。付加機能がなければ、パフォーマンスは最大 4 桁少ないトレーニング データを使用する最先端のモデルと同等であることがわかります。これは、より時間的な認識とよりスケーラブルなビデオ モデルの新しいパラダイムへの足がかりです。
原文 (English)
The TIME Machine: On The Power of Motion for Efficient Perception
Video representation learning has seen tremendous progress in recent years. This has been driven by many factors, including the scale of training and the success of visual models trained contrastively with language. While these factors have pushed the boundaries of what video models can do, they also introduce their own set of limitations: first, scaling video models can reach prohibitive costs and second, learning from language restricts the range of concepts that can be learned to those in captions. As a result, video models still struggle with temporal understanding. In this paper we propose a novel approach that uses motion as the central modality for video representation. In particular, given the motion in a video in the form of point-tracks, we use a masked-autoencoder to mask some of the tracks and train the autoencoder to reconstruct the missing tracks. This allows us to learn a representation in a self-supervised manner. We show that using motion to represent videos actually addresses both of the core limitations of video technology. First, it allows us to massively reduce the scale of training data, as motion is inherently appearance-independent and hence needs fewer examples to generalize well. Second, motion allows us to bypass the language-dependent training paradigm, learning better fine-grained concepts. The result is an embedding that we call TIME (Temporally Informed Motion Embedding), a representation trained exclusively on synthetic motion data. We test this embedding on a wide set of tasks in a zero-shot manner. We observe that without bells and whistles, performance is on par with state-of-the-art models using up to 4 orders of magnitude less training data. This is a stepping stone towards a new paradigm of video models that are both more temporally aware as well as more scalable.
DreamerNLplus: ハイブリッド ルールベースおよび RAG 手法を使用した、ソーシャル メディア タイムラインからのメンタルヘルス ダイナミクスの解釈可能なモデリング
CLPsych 2026 共有タスクのソーシャル メディア タイムラインからメンタルヘルスのダイナミクスをモデル化するためのハイブリッド フレームワークである DreamerNLplus を紹介します。私たちのシステムは、心理状態のモデリング、時間的変化の検出、シーケンスレベルの要約という 3 つのタスクに対処します。タスク 1 では、LLM ベースのデータ拡張、DeBERTa 分類、およびランダム フォレスト回帰を組み合わせて構造化状態を予測します。タスク 2 では、ローカルにデプロイされた Llama 3.1 モデルで数回のプロンプトを使用し、短期間の時間コンテキストを使用して切り替えイベントとエスカレーション イベントを検出します。タスク 3.1 では、決定論的なルールベースの要約パイプラインと少数ショット LLM ベースのアプローチの両方を調査し、\textbf{2nd} を公式にランク付けします。私たちの RAG ベースの手法は、タスク 3.2 で優れたパフォーマンスを達成し、改善で \textbf{1 位}、悪化で \textbf{3 位} にランク付けされ、タイムライン全体で繰り返される心理的変化パターンを捕捉する能力を実証しました。私たちの分析により、分類と回帰パフォーマンスの不一致、時間的遷移のモデル化の難しさ、意味論的評価基準と類似性ベースの評価基準の不一致など、重要な課題が明らかになりました。これらの発見は、メンタルヘルスのダイナミクスのモデリングの複雑さを浮き彫りにし、統一された評価フレームワークに関する今後の研究の動機付けとなります。コードとプロンプトは https://github.com/4dpicture/CLPsych2026 で共有しています。
原文 (English)
DreamerNLplus: Interpretable Modeling of Mental Health Dynamics from Social Media Timelines using Hybrid Rule-Based and RAG Methods
We present DreamerNLplus, a hybrid framework for modeling mental health dynamics from social media timelines in the CLPsych 2026 shared task. Our system addresses three tasks: psychological state modeling, temporal change detection, and sequence-level summarization. For Task 1, we combine LLM-based data augmentation, DeBERTa classification, and Random Forest regression for structured state prediction. For Task 2, we use few-shot prompting with a locally deployed Llama 3.1 model to detect Switch and Escalation events using short-term temporal context. For Task 3.1, we explore both a deterministic rule-based summarization pipeline and a few-shot LLM-based approach, ranking \textbf{2nd} officially. Our RAG-based method achieves strong performance in Task 3.2, ranking \textbf{1st} for Improvement and \textbf{3rd} for Deterioration, demonstrating its ability to capture recurrent psychological change patterns across timelines. Our analysis reveals key challenges, including the mismatch between classification and regression performance, the difficulty of modeling temporal transitions, and the disagreement between semantic and similarity-based evaluation metrics. These findings highlight the complexity of modeling mental health dynamics and motivate future work on unified evaluation frameworks. We share our code and prompts at https://github.com/4dpicture/CLPsych2026
文化進化としてのモデル崩壊
モデルの崩壊、つまり独自の出力でトレーニングされた LLM の進行性の劣化は統計的に特徴付けられていますが、どの構造がどのような順序で、そしてなぜ劣化するのかについての言語的な説明が不足しています。私たちは、文化進化に基づく反復学習理論がこのギャップを埋めることを示します。私たちは 5 つの反証可能な予測を導き出し、理論を独自に識別する予測と確証的な予測を区別し、英語、ドイツ語、トルコ語で 10 世代にわたって LLaMA-2-7B とミストラル-7B を自己訓練することによってそれらをテストします。重要な識別的発見: フィルタリングされていない自己訓練下では、構成性は非単調な軌道 (最初は上昇し、その後下降) をたどります。この署名は、最大限規則的なシード データ (ノイズ除去を除外) で持続し、ランダム フィルターではなくタスクに基づいたフィルターによってのみ維持され、圧縮と通信のトレードオフに関する最初の LLM スケールの証拠を提供します。すべての予測は大きな効果量 (Hedges の $g > 1.6$; $\mathrm{BF}_{10} > 100$) で確認され、LLM 正則化勾配は人間の行動データ ($R^2 = 0.94$) とよく一致します。これらの結果は、モデルの崩壊を文化伝達現象として再構成し、自己学習パイプライン設計の具体的な原則を導き出します。
原文 (English)
Model Collapse as Cultural Evolution
Model collapse, the progressive degradation of LLMs trained on their own outputs, has been characterized statistically but lacks a linguistic explanation for which structures degrade, in what order, and why. We show that iterated learning theory from cultural evolution fills this gap. We derive five falsifiable predictions, distinguish those uniquely discriminative for the theory from confirmatory ones, and test them by self-training LLaMA-2-7B and Mistral-7B over 10 generations in English, German, and Turkish. The critical discriminative finding: compositionality follows a non-monotonic trajectory (initially rising, then falling) under unfiltered self-training. This signature persists with maximally regular seed data (ruling out noise removal) and is sustained only by task-grounded filtering, not random filtering, providing the first LLM-scale evidence for the compression-communication tradeoff. All predictions are confirmed with large effect sizes (Hedges' $g > 1.6$; $\mathrm{BF}_{10} > 100$), and LLM regularization gradients closely match human behavioral data ($R^2 = 0.94$). These results reframe model collapse as a cultural transmission phenomenon and yield concrete principles for self-training pipeline design.
評価意識の分解と測定
フロンティア言語モデルは、評価されていることを認識して動作を調整し、ベンチマーク結果の妥当性を損なうことがあります。しかし、現場では共通の基礎を持たずに評価の特性とモデルの特性、検出と行動反応を混同して研究が行われています。私たちは評価意識を社会心理学に基礎づけ、評価意識を環境要素 (課題がどの程度認識されているか) と、認識をそれに基づいて行動する傾向から分離するモデル要素に分解します。プレースホルダー エンティティや採点スタイルの出力形式など、8 つの分類されたトリガー要因を通じて環境コンポーネントを運用し、思考連鎖のモニタリングを通じて認識と行動を研究します。 9 つのフロンティア モデルと 4 つのベンチマークにわたって、認識率はモデルとベンチマークのどちらか単独ではなく、モデルとベンチマークの特定の組み合わせに依存します。認識が行動の変化につながることはほとんどありませんが、変化する場合、その方向性は認識された評価の種類によって異なります。また、モデルは機能評価よりも安全性に対して敏感であり、安全性ベンチマークの妥当性がより大きなリスクにさらされます。各モデルがどの要因に敏感で、それらがどのように相互作用するかを研究するために、8 つの要因のそれぞれを独立して切り替えることができ、基礎となる要求を固定したまま評価信号を変化させる、100 のペアの安全機能タスクの要因制御ベンチマークである \textbf{EvalAwareBench} を提案します。 EvalAwareBench を通じて、単一の要素がすべてのモデルに均一に影響を与えることはなく、要素を積み重ねることですべてのモデルにわたる評価の意識が徐々に向上することがわかりました。私たちのフレームワークと EvalAwareBench は、評価意識を測定、属性付け、軽減するためのツールを提供し、将来有望な道として認識される下での行動の一貫性を示します。
原文 (English)
Decomposing and Measuring Evaluation Awareness
Frontier language models sometimes recognize that they are being evaluated and adjust their behavior, undermining validity of benchmark results. Yet the field studies it without a shared foundation, conflating properties of the evaluation with properties of the model, and detection with behavioral response. We ground evaluation awareness in social psychology, decomposing it into an environment component (how recognizable the task is) and a model component that separates recognition from propensity to act on it. We operationalize the environment component through eight categorized trigger factors, such as placeholder entities and grading-style output formats, and study recognition and behavior through chain-of-thought monitoring. Across nine frontier models and four benchmarks, recognition rates depend on the specific pairing of model and benchmark rather than on either in isolation. Recognition rarely leads to behavioral change, and when it does, the direction depends on the type of evaluation perceived. Models are also more sensitive to safety than capability evaluations, placing safety benchmark validity at greater risk. To study which factors each model is sensitive to and how they interact, we propose \textbf{EvalAwareBench}, a factor-controlled benchmark of 100 paired safety-capability tasks where each of the eight factors can be independently toggled, varying evaluative signals while holding the underlying request fixed. Through EvalAwareBench, we find that no single factor uniformly affects all models, but stacking factors progressively raises evaluation awareness across all of them. Our framework and EvalAwareBench provide the tools to measure, attribute, and mitigate evaluation awareness, pointing to behavioral consistency under recognition as a promising path forward.
マルチスライス 6G ネットワーク向けの DRL 主導のエッジ認識ユーティリティ最適化
6G ネットワーク経由で配信される仮想現実 (VR) サービスは、シームレスなユーザー エクスペリエンスを確保するために、超低遅延と高帯域幅を必要とします。このペーパーでは、O-RAN 準拠のアーキテクチャ内の複数のネットワーク スライスにわたるエッジ キャッシングと動的リソース プロビジョニングを最適化するために Deep Q-Network (DQN) 学習を活用する、6G O-RAN ネットワーク向けのインテリジェントなリソース割り当てとエッジ キャッシング フレームワークについて説明します。 DRL エージェントをネットワーク コントロール プレーンに組み込むことで、提案されたシステムは、プロアクティブかつ適応的なコンテンツ配信と、eMBB、URLLC、特に VR に不可欠な新興 MBRLLC スライスのサービス品質要求を満たすリアルタイムの計算リソース割り当てを可能にします。シミュレーション結果は、DQN ベースのフレームワークがレイテンシの削減とスループットの向上において従来の方法を常に上回っており、6G 環境でのイマーシブ VR アプリケーションのサポートの信頼性と応答性が向上していることを示しています。
原文 (English)
DRL-Driven Edge-Aware Utility Optimization for Multi-Slice 6G Networks
Virtual Reality (VR) services delivered over 6G networks demand ultra-low latency and high bandwidth to ensure seamless user experiences. This paper presents an intelligent resource allocation and edge caching framework for 6G O-RAN networks, leveraging Deep Q-Network (DQN) learning for optimizing edge caching and dynamic resource provisioning across multiple network slices within an O-RAN-compliant architecture. By incorporating DRL agents into the network control plane, the proposed system enables proactive and adaptive content distribution as well as real-time computational resource allocation that meets the quality-of-service demands of eMBB, URLLC, and especially the emerging MBRLLC slices essential for VR. Simulation results demonstrate that the DQN-based framework consistently outperforms traditional methods in reducing latency and improving throughput, leading to more reliable and responsive support for immersive VR applications in 6G environments.
エージェント的 Kubernetes 操作の測定基盤: 検索複合改ざんにおける方法論とケーススタディ
自律的な Kubernetes オペレーション エージェントに関する経験的な主張は、ほとんど反証不可能です。出版された研究では、エージェントが無効化されたベースラインとの比較が制御されていない観察結果が報告されており、選択バイアスが蔓延しており、事前に登録された決定行列が存在せず、サンプルは通常、基礎となるスコアリングシステムのノイズレベルに対して小さすぎます。原因は、エージェント自体を制限する同じギャップです。コード エージェントには、「動作したか」を高速で改ざん可能なグラウンドトゥルース信号に変える検証基盤があり、オペレーションには同等のものはありません。ターゲットの Kubernetes クラスターに障害を注入し、自律エージェントがどのように応答するかを観察し、グラウンド トゥルースに対して 4 つの軸で応答をスコアリングし、結果ラベル付き (状態、アクション、結果) のタプルを蓄積する閉ループ測定フレームワークであるエージェント ブレークメントを紹介します。このフレームワークは、フレームワーク エラーと推論エラーを区別し、決定論的埋め込みメカニズムを介して真のオフ条件制御をサポートし、事前に登録された決定マトリックスを強制します。私たちはこれをケーススタディとして使用して、過去の事後分析の検索がエージェントの能力を強化するかどうかをテストします。方法論的なペイロードは、そのケーススタディ中に基板が捉えた 3 つの混乱です。それぞれが、同じ研究のあまりインストルメント化されていないバージョンで間違った公表された主張を生み出す可能性があります。それは、pgvector インデックスのバグ、+19% の選択バイアス アーティファクト、および効果を約 3 倍誇張する小さなサンプル推定です。検索結果自体は部分的な改ざんです。3 つの高密度コーパス シナリオのうち 1 つは p<0.05 で有意、プール効果 +3.9 パーセント ポイント、n=60 では有意ではありません。 360 回の実行でのシナリオ内のコーパス密度スイープは、近傍の機械的な位置合わせが生の数を支配していることを示しています。フレームワークはオープンソースで公開されています。
原文 (English)
A measurement substrate for agentic Kubernetes operations: Methodology and a case study in retrieval-compounding falsification
Empirical claims about autonomous Kubernetes operations agents are largely unfalsifiable. Published work reports observational results without controlled comparisons against an agent-disabled baseline, selection bias is endemic, pre-registered decision matrices are absent, and samples are typically too small for the noise level of the underlying scoring system. The cause is the same gap that limits the agents themselves: code agents have a verification substrate that turns "did it work" into a fast, falsifiable, ground-truth signal, and operations has nothing equivalent. We present agent-breakage, a closed-loop measurement framework that injects faults into a target Kubernetes cluster, observes how an autonomous agent responds, scores the response on four axes against ground truth, and accumulates outcome-labeled (state, action, outcome) tuples. The framework distinguishes framework error from reasoning error, supports a true off-condition control via a deterministic-embedder mechanism, and enforces pre-registered decision matrices. We use it as a case study to test whether retrieval over past postmortems compounds an agent's capability. The methodological payload is three confounds the substrate caught during that case study, each of which would have produced a wrong published claim on a less instrumented version of the same work: a pgvector index bug, a +19% selection-bias artifact, and small-sample estimates that overstated effects by roughly 3x. The retrieval result itself is a partial falsification: 1 of 3 dense-corpus scenarios significant at p<0.05, pooled effect +3.9 percentage points, not significant at n=60. A within-scenario corpus-density sweep at 360 runs shows that mechanistic alignment of near-neighbors dominates raw count. The framework is released open source.
スケジュール不要のスペクトル最適化によるいつでもトレーニング
標準的なニューラル ネットワーク トレーニングは、固定期間に関連付けられた学習率スケジュールに依存しているため、強いパス依存性が生じ、データの可用性が変化すると再調整にコストがかかります。スケジュールフリー (SF) メソッドは、明示的なスケジュールを削除することでこの問題に対処しますが、現在の最先端のいつでもオプティマイザーである SF-AdamW は、適切に調整された AdamW ベースラインを常に下回るパフォーマンスを示します。我々は、このギャップを埋めるスケジュール不要のスペクトル オプティマイザーである SF-NorMuon を提案します。単一のハイパーパラメーター構成で、SF-NorMuon は、$1$--$8\times$ のチンチラ ホライズンにわたる 1 億 2500 万および 7 億 7200 万のパラメーター言語モデルで調整された AdamW と同等またはそれを上回ります。理論面では、スケジュールフリーのスペクトルダイナミクスに対する定常性の保証を証明し、高速反復での重み減衰が長期安定性に不可欠であることを特定しました。 SF-NorMuon を使用すると、実践者は事前に計画を立てることなく、トレーニング中の任意の時点で高品質のチェックポイントを取得できます。 SF-NorMuon は、調整されたベースラインでパフォーマンスのギャップを埋めることで、ホライズンフリーの最適化をより実用的にし、真にオープンエンドの継続的な学習への一歩を踏み出します。
原文 (English)
Anytime Training with Schedule-Free Spectral Optimization
Standard neural network training relies on learning-rate schedules tied to a fixed horizon, leading to strong path dependence and costly re-tuning as data availability changes. Schedule-Free (SF) methods address this by removing explicit schedules, yet SF-AdamW, the current state-of-the-art anytime optimizer, consistently underperforms well-tuned AdamW baselines. We propose SF-NorMuon, a schedule-free spectral optimizer that closes this gap: with a single hyperparameter configuration, SF-NorMuon matches or exceeds tuned AdamW on 125M and 772M parameter language models across $1$--$8\times$ Chinchilla horizons. On the theoretical side, we prove a stationarity guarantee for schedule-free spectral dynamics and identify weight decay at the fast iterate as essential for long-horizon stability. SF-NorMuon enables practitioners to obtain high-quality checkpoints at any point during training without committing to a horizon in advance. By closing the performance gap with tuned baselines, SF-NorMuon makes horizon-free optimization more practical, taking a step towards truly open-ended, continual learning.
ディザリング防御: マルチレベルのフロイド・スタインバーグ ディザリングによるビジョン基盤モデルの敵対的堅牢性
ビジョン基盤モデルは、多くの下流タスクにわたって凍結されたバックボーンとして広く使用されており、敵対的な攻撃の下で単一障害点となります。私たちは、セマンティックな内容を維持しながら敵対的な摂動を妨害する、軽量でモデルに依存しない入力変換として、マルチレベルのフロイド・スタインバーグ誤差拡散ディザリングを研究します。バイナリ ディザリング、グレースケール CIFAR-10、およびゼロからトレーニングされた単一の小さなモデルに限定されていた以前の研究とは異なり、6 つのタスク (分類、セグメンテーション、深度推定、取得、キャプション、視覚的質問応答)、2 つのモデル ファミリ (DINOv2、PaliGemma)、および強度を増加させる 3 つの攻撃 (PGD、MI-FGSM、SIA)、およびストレートスルー推定器を使用する適応型攻撃者全体にわたって評価します。私たちの結果は、中間量子化レベルでのフロイド・スタインバーグ・ディザリングが、特に後処理ブラーと組み合わせた場合、拡散ベースのノイズ除去を含むテストされたすべてのベースラインを上回るか一致し、クリーンな入力では大幅に劣化が少ないことを示しています。
原文 (English)
Dithering Defense: Adversarial Robustness of Vision Foundation Models via Multi-Level Floyd-Steinberg Dithering
Vision foundation models are widely used as frozen backbones across many downstream tasks, making them a single point of failure under adversarial attack. We study multi-level Floyd-Steinberg error-diffusion dithering as a lightweight, model-agnostic input transformation that disrupts adversarial perturbations while preserving semantic content. Unlike prior work, which was limited to binary dithering, grayscale CIFAR-10, and a single small model trained from scratch, we evaluate across six tasks (classification, segmentation, depth estimation, retrieval, captioning, visual question answering), two model families (DINOv2, PaliGemma), and three attacks of increasing strength (PGD, MI-FGSM, SIA), as well as an adaptive attacker using a straight-through estimator. Our results show that Floyd-Steinberg dithering at intermediate quantization levels, especially when combined with post-processing blur, exceeds or matches all tested baselines, including diffusion-based denoising, with substantially less degradation on clean inputs.
KAPLAN: 生存分析のためのコルモゴロフ・アーノルド予測学習可能活性化ネットワーク
生存分析は、共変量と時間が共同して、適切な打ち切りの下でイベント発生までの時間分布をどのように形成するかをモデル化することを目的としています。 Cox モデルや一般化加算モデル (GAM) などの古典的な手法では、交互作用や時間変化する効果を手動で指定する必要がありますが、豊富な臨床データセットではますます非現実的になってきています。共変量と時間の結合関数として条件付きハザードをノンパラメトリック推定するための B スプライン コルモゴロフ-アーノルド ネットワーク (KAN) である KAPLAN-HR を紹介します。単層 KAPLAN-HR モデルは GAM を回復しますが、より深いアーキテクチャは合成を通じて相互作用と時間変化する効果を捕捉します。共変量の次元ではなく、基礎となる KAN 表現の滑らかさのみに依存するノンパラメトリック KAN ハザード推定量の収束率を確立します。これにより、KAN で表現可能なターゲットの次元の呪いが軽減されます。 6 つの臨床ベンチマーク データセットにわたる評価において、KAPLAN-HR は確立された統計的および深層学習生存法による予測パフォーマンスと同等またはそれを上回っています。
原文 (English)
KAPLAN: Kolmogorov-Arnold Prognostic Learnable Activation Networks for Survival Analysis
Survival analysis aims to model how covariates and time jointly shape the time-to-event distribution under right censoring. Classical methods such as the Cox model and generalised additive models (GAMs) require interactions and time-varying effects to be manually specified, which is increasingly impractical on rich clinical datasets. We introduce KAPLAN-HR, a B-spline Kolmogorov-Arnold Network (KAN) for nonparametric estimation of the conditional hazard as a joint function of covariates and time. A single-layer KAPLAN-HR model recovers a GAM, while deeper architectures capture interactions and time-varying effects through composition. We establish a convergence rate for the nonparametric KAN hazard estimator that depends only on the smoothness of the underlying KAN representation and not on the covariate dimension, thereby mitigating the curse of dimensionality for KAN-representable targets. In evaluations over six clinical benchmark datasets, KAPLAN-HR matches or exceeds the predictive performance of established statistical and deep learning survival methods.
勾配ペナルティ付き潜在ダイナミクスを使用してスムーズに夢を見、効率的にサンプリングする
モデルベースの強化学習は、ワールド モデルを学習することでサンプル効率を向上させます。ただし、DreamerV3 などの既存の潜在世界モデルは、学習された遷移ダイナミクスに局所的な滑らかさを明示的に適用しないため、遷移ダイナミクス学習の有用な帰納的バイアスが活用されないままになります。我々は、DreamerV3 用の勾配ペナルティ付き潜在ダイナミクス正則化装置である GPLD を提案します。これは、行単位のヤコビ ペナルティを事後潜在分布に適用して、局所的に滑らかな遷移学習を促進します。我々は、このペナルティが、離散組み込み状態 MDP における遷移則の有限差分平滑化の連続潜在類似物として解釈できることを示し、ハッチンソン型の確率的プローブを使用して効率的に推定できることを示します。経験的には、DeepMind Control の固有受容タスク全体で、GPLD は総サンプル効率を向上させ、より複雑な移動環境で特に大きな効果をもたらします。より困難な四足歩行タスクでは、GPLD は早期に高収益の動作に達し、長期にわたってより一貫した後期学習を示します。明示的な局所平滑性正則化は、潜在世界モデルを改善して滑らかな連続制御環境を実現する簡単かつ効果的な方法です。 GPLD のコードは github.com/romils9/gpld-mbrl で入手できます。
原文 (English)
Dreaming Smoothly and Sample Efficiently with Gradient Penalized Latent Dynamics
Model-based reinforcement learning improves sample efficiency by learning a world model. However, existing latent world models such as DreamerV3 do not explicitly enforce local smoothness in their learned transition dynamics, leaving a useful inductive bias for transition dynamics learning unexploited. We propose GPLD, a gradient-penalized latent dynamics regularizer for DreamerV3 that applies a row-wise Jacobian penalty to the posterior latent distribution to encourage locally smooth transition learning. We show that this penalty can be interpreted as the continuous-latent analog of finite-difference smoothing of transition laws in discrete embedded-state MDPs, and estimate it efficiently using Hutchinson-style stochastic probes. Empirically, across DeepMind Control proprioceptive tasks, GPLD improves aggregate sample efficiency, with particularly strong gains on higher-complexity locomotion environments. On more challenging quadruped tasks, GPLD reaches high-return behavior earlier and exhibits more consistent late-stage learning over longer horizons. Explicit local smoothness regularization is a simple and effective way to improve latent world models for smooth continuous control environments. Code for GPLD is available at github.com/romils9/gpld-mbrl .
LLM で生成されたコードのセキュリティ: 比較分析
ソフトウェア開発者の大多数は、開発プロセスで人工知能 (AI) ツールを使用しているか、使用する予定です。その主な理由としては、生産性の向上と学習の迅速化が挙げられます。実際、Large Language Model (LLM) で生成されたコードは、大手テクノロジー企業を含めて現在運用されています。ただし、AI ツールを使用してコードを生成することに関連するリスクについて懸念が生じました。このホワイトペーパーでは、ソフトウェアのセキュリティに対するリスクに焦点を当てます。私たちは、7 つの一般的な LLM によって生成されたコードのセキュリティを経験的に評価します。私たちは、LLM を使用してコードを生成するときの開発者の動作を模倣するために、以前の作業に基づいて構築しています。私たちの結果は、私たちが評価した 7 つの LLM はすべて、脆弱性を含むコードを生成し、その大部分が重大度または重大度であることを示しています。
原文 (English)
Security of LLM-generated Code: A Comparative Analysis
The majority of software developers use or are planning to use Artificial Intelligence (AI) tools in their development processes. Their top reasons include improving productivity and faster learning. In fact, Large Language Model (LLM)-generated code is currently in production, including in major tech companies. However, concerns were raised about the risks associated with the use of AI tools to generate code. In this paper, we focus our attention on the risks to software security. We empirically evaluate the security of code generated by seven popular LLMs. We build upon previous work to mimic the behaviours of developers when using LLMs to generate code. Our results show that all seven LLMs that we have evaluated generate code that contains vulnerabilities, the majority of which are of critical or high severity.
合成脳 MRI は確実に腫瘍分類を改善しますか? BRISC 2025 に関する StyleGAN2-ADA クラスプレーン拡張研究
生成拡張は、小さな医療画像データセットの解決策として提案されることがよくありますが、合成画像は、下流のタスクのパフォーマンスを向上させる場合にのみ役立ちます。ここでの「拡張」とは、合成補完を意味します。つまり、既存の画像の幾何学的変換や測光変換ではなく、実際のトレーニング プールに追加される GAN 生成サンプルです。 12 個のクラスプレーン StyleGAN2-ADA ジェネレーターは、制約付き BRISC 2025 パーティションでトレーニングされ、その出力が、InceptionV3 機能空間フィルターの有無にかかわらず、InceptionV3 機能のランダム フォレスト (RF)、コンパクトな双頭畳み込みニューラル ネットワーク (CNN)、およびモバイル ハイブリッド畳み込み変換器である MobileViTV2 の 3 つの分類子ファミリーにわたってホールドアウトされた腫瘍分類を改善するかどうかをテストしました。それぞれは、本物と合成の比率 1:1 および 1:2 で評価されました。独立した GPT-5.5 ブラインド テストでは、モデル可読サブセットにおけるゲート付き本物と合成の識別率は 57.73% (95% CI: 54.48 ~ 60.92%) であり、確率をわずかに上回りました。 RF 分類器は合成 MRI の恩恵を受けませんでした。 CNN は、ホルム補正を生き延びなかった一貫した平均増加を示しました。 MobileViTV2 は最も明確な利点を示しました。フィルタリングされた 1:1 拡張により、腫瘍分類精度が絶対値 1.02% 向上しました (95% CI: 0.54 ~ 1.54%; Holm 補正 p = 0.0104)。二次効率分析では、すべての拡張 CNN 条件がベースラインよりも 42 ~ 64% 早くチェックポイントを選択する一方、計算一致した MobileViTV2 の実行は実データ エポックが 50 ~ 67% 少ない後に選択に達することがわかりました。全体として、拡張の有用性はアーキテクチャと比率に依存し、視覚的な忠実性だけでは保証されないことがわかりました。
原文 (English)
Do Synthetic Brain MRIs Reliably Improve Tumour Classification? A StyleGAN2-ADA Class-Plane Augmentation Study on BRISC 2025
Generative augmentation is often proposed as a remedy for small medical-image datasets, but synthetic images are only useful when they improve downstream task performance. "Augmentation" here means synthetic supplementation: GAN-generated samples added to the real training pool, not geometric or photometric transforms of existing images. Twelve class-plane StyleGAN2-ADA generators were trained on constrained BRISC 2025 partitions to test whether their output, with or without InceptionV3 feature-space filtering, improves held-out tumour classification across three classifier families: a random forest (RF) on InceptionV3 features, a compact two-headed convolutional neural network (CNN), and MobileViTV2, a mobile hybrid convolutional-transformer. Each was evaluated at 1:1 and 1:2 real-to-synthetic ratios. An independent GPT-5.5 blind test placed gated real-versus-synthetic discrimination at 57.73% (95% CI: 54.48--60.92%) on the model-legible subset -- modestly above chance. The RF classifier did not benefit from the synthetic MRIs. The CNN showed consistent mean gains that did not survive Holm correction. MobileViTV2 showed the clearest benefit: filtered 1:1 augmentation improved tumour classification accuracy by 1.02% absolute (95% CI: 0.54--1.54%; Holm-corrected p = 0.0104). A secondary efficiency analysis found that every augmented CNN condition selected its checkpoint 42--64% earlier than baseline, while compute-matched MobileViTV2 runs reached selection after 50--67% fewer real-data epochs. Overall, augmentation utility was found to be architecture- and ratio-dependent, not guaranteed by visual fidelity alone.
明末および清初の収集作品における個人的な文字のタイトルに対する微調整された BERT 分類器
私は、古典中国語の文語目次のタイトルが個人的な手紙なのか、それとも非常に混同しやすい序文 (特に別れの序文) なのかを予測する、微調整された BERT 分類器である Lepton (Letter Prediction) を紹介します。 Lepton は、明末清初の文人 33 人による手書きのラベルが付けられた 5438 冊の文字タイトルを基に、bert-base-chinese を微調整しました。私はこのモデルを Hugging Face にデプロイし、中国伝記データベース (CBDB) で使用して、明中期から清初期の文字までの約 5 万 5,000 の文字を識別し、明の文字プラットフォームに登録しました。
原文 (English)
A Fine-Tuned BERT Classifier for Personal-Letter Titles in Late-Ming and Early-Qing Collected Works
I present Lepton (Letter Prediction), a fine-tuned BERT classifier that predicts whether a title in a Classical Chinese wenji table of contents is a personal letter or a closely confusable preface (particularly the farewell-preface). Lepton fine-tunes bert-base-chinese on 5438 hand-labeled wenji titles from thirty-three late-Ming and early-Qing literati. I've deployed the model on Hugging Face and has been used at the China Biographical Database (CBDB) to identify approximately fifty-five thousand letters across mid-Ming through early-Qing wenji, populating the Ming Letter Platform.
AI 支援コードレビューの行動制約としての哲学的性質: 実証的研究
AI 支援コード レビュー ツールは通常、汎用の「専門家レビューアー」エージェントとして動作し、必要な分析タイプに関係なく均一な結果を生成します。我々は、哲学的性質、つまり構造的に異なるタイプの問題に注意を向ける、特定の認識論的伝統(ピュロニズム懐疑論、ナヴィヤ=ニー=アヤ論理、ディオゲネスの皮肉屋主義、儒教の関係倫理)に基づいた一貫した人格レンズを通じて、AIの査読者の行動を制約するシステムを提示する。それぞれの性質は(何を拒否するかによって)無言で定義され、自己監視障害モード(ハマルティア)が備えられ、役割プロトコルによって順番に調整されます。私たちは、5 つのプログラミング言語 (Python、Go、C++、Java、Terraform)、5 つの組織 (2 つのエンタープライズ、3 つのオープンソース)、および 2 つの時代 (AI 2020 年前、AI 後 2024 ~ 2026 年) にわたる 7 つのリポジトリにわたる 50 のマージされたプル リクエストでこのシステムを評価しました。この処理システムは、人間のレビュー担当者との収束率 46% (信号品質の検証) を達成し、固有の所見を 75% の割合で特定し、合計 601 件の所見にわたって著者によって偽陽性と判断された所見は生成しません (評価者間の合意は評価されず、制限のままです)。管理されたベースライン比較により、傾向調査結果の 51% が、一般的な「専門家レビューアー」のプロンプトを使用した同じモデルによって生成されたものではないことが実証されており、これらの独自の調査結果は、標準的なコードレベルの問題ではなく、構造的、運用的、論理的な懸念を対象としています。 3 つの PR での予備的なクロスモデル検証 (Claude Opus 対 GPT Codex 5.3-xhigh) では、フレームワーク構造の 100% の遵守と 39% の所見レベルの一致が示されており、フレームワークがモデル固有の分析的観点を維持しながら実際の動作制約を提供していることを示唆しています。
原文 (English)
Philosophical Dispositions as Behavioral Constraints for AI-Assisted Code Review: An Empirical Study
AI-assisted code review tools typically operate as generic "expert reviewer" agents, producing homogeneous findings regardless of the analysis type needed. We present a system that constrains AI reviewer behavior through philosophical dispositions -- coherent personality lenses grounded in specific epistemological traditions (Pyrrhonist Skepticism, Navya-Ny=aya logic, Diogenes' Cynicism, Confucian relational ethics) that direct attention to structurally different types of issues. Each disposition is defined apophatically (by what it refuses to do), equipped with a self-monitoring failure mode (hamartia), and orchestrated in sequence by role protocols. We evaluate this system on 50 merged pull requests across 7 repositories spanning 5 programming languages (Python, Go, C++, Java, Terraform), 5 organizations (2 enterprise, 3 open-source), and 2 temporal eras (pre-AI 2020, post-AI 2024--2026). The disposition system achieves 46% convergence with human reviewers (validating signal quality), identifies unique findings at a 75% rate, and produces no findings judged false-positive by the author across 601 total findings (inter-rater agreement was not assessed and remains a limitation). A controlled baseline comparison demonstrates that 51% of disposition findings are not produced by the same model using generic "expert reviewer" prompting, and these unique findings target structural, operational, and logical concerns rather than standard code-level issues. Preliminary cross-model validation (Claude Opus vs.\ GPT Codex 5.3-xhigh) on 3 PRs shows 100% framework-structure adherence with 39% finding-level agreement, suggesting the framework provides real behavioral constraint while preserving model-specific analytical perspective.
CoReVAD: トレーニング不要のビデオ異常検出のためのコンテキスト推論フレームワーク
既存のビデオ異常検出 (VAD) 手法は通常、タスク固有のトレーニングに依存しているため、ドメインへの依存性が強くなり、トレーニング コストが高くなります。さらに、既存のほとんどの方法はスカラー異常スコアのみを出力するため、特定のイベントが異常とみなされる理由についての洞察は限られています。視覚言語モデル (VLM) の最近の進歩により、異常検出と人間が解釈可能な推論の両方が可能になりました。ただし、多くの VLM ベースのアプローチでは、依然として追加のトレーニング ステップ (命令調整や言語化学習など) や外部大規模言語モデル (LLM) が必要であり、さらなるトレーニング コストと推論オーバーヘッドが発生します。これらの課題に対処するために、私たちは、単一のフリーズされた VLM で動作する、トレーニング不要のビデオ異常検出のためのコンテキスト推論フレームワークである CoReVAD を提案します。 CoReVAD は、VLM から異常スコアと時間的説明を直接生成します。生成出力のノイズを軽減するために、ローカル ビジョンとテキストの位置合わせに基づいたローカル レスポンス クリーニング (LRC) モジュールを導入します。さらに、ソフトマックスベースのリファインメント、ガウス平滑化、位置重み付けを通じて、グローバルな時間的コンテキストと進行が組み込まれています。 UCF-Crime と XD-Violence に関する実験では、CoReVAD が信頼性が高く解釈可能な説明を提供しながら、トレーニング不要の手法間で競合するパフォーマンスを達成することが実証されています。公式コードは https://github.com/Muk-00/CoReVAD から入手できます。
原文 (English)
CoReVAD: A Contextual Reasoning Framework for Training-Free Video Anomaly Detection
Existing Video Anomaly Detection (VAD) methods typically rely on task-specific training, leading to strong domain dependency and high training costs. Moreover, most existing methods output only scalar anomaly scores, providing limited insight into why specific events are considered abnormal. Recent advances in Vision-Language Models (VLMs) have enabled both anomaly detection and human-interpretable reasoning. However, many VLM-based approaches still require additional training steps (e.g., instruction tuning or verbalized learning) or external Large Language Models (LLMs), incurring further training costs and inference overhead. To address these challenges, we propose CoReVAD, a contextual reasoning framework for training-free video anomaly detection that operates with a single frozen VLM. CoReVAD directly generates anomaly scores and temporal descriptions from the VLM. To mitigate noise in generative outputs, we introduce a Local Response Cleaning (LRC) module based on local vision-text alignment. Furthermore, global temporal context and progression are incorporated through softmax-based refinement, Gaussian smoothing, and position weighting. Experiments on UCF-Crime and XD-Violence demonstrate that CoReVAD achieves competitive performance among training-free methods while providing reliable and interpretable explanations. Our official code is available at: https://github.com/Muk-00/CoReVAD
臨床医が検証したインタラクティブな病変追跡における縦断的コンテキストの活用
腫瘍学的反応評価には、連続 CT スキャン全体で腫瘍病変を追跡することが不可欠です。既存の自動化手法は基本的なトレードオフに直面しています。エンドツーエンド トラッカーは高度な自動化を達成しますが、サイレント トラッキングの失敗を修正する機会を提供しません。一方、分離された登録セグメンテーション パイプラインはユーザーの検証を可能にしますが、病変の以前の外観を破棄するため、あいまいな場合の精度が制限されます。この研究では、検証済み追跡パラダイムを提案します。つまり、臨床医が登録提案のプロンプトを検証し、モデルがベースラインの病変の外観と並行してこれを利用して、セグメンテーションの曖昧さを解決します。我々は、長期的な情報に基づいたセグメンテーションのための、初期の空間プロンプト融合と潜在的な時間差の重み付けを組み合わせた統一フレームワークを提案します。データ不足に対処するために、大規模な合成事前トレーニングを活用しています。これは縦方向のコンテキストを活用するために不可欠であることが証明されており、最初からトレーニングする場合に比べてパフォーマンスが最大 4.5 ダイス ポイント向上します。私たちのアプローチは、MICCAI autoPET IV チャレンジで 1 位を獲得しました。さらに、分布外の一般化を評価するために、新しい縦断的膵臓がんベンチマークである PanTrack を厳選してリリースします。実験では、完全自動と、自動化と制御の間の臨床的に安全な中間点を提供する提案された検証済み追跡設定の両方で、私たちのモデルが以前の研究よりも優れていることが示されています。コード、モデル、データセットは https://github.com/MIC-DKFZ/LongiSeg でリリースされます。
原文 (English)
Exploiting Longitudinal Context in Clinician-Verified Interactive Lesion Tracking
Tracking tumor lesions across serial CT scans is essential for oncological response assessment. Existing automated methods face a fundamental trade-off: end-to-end trackers achieve high automation but offer no opportunity to correct silent tracking failures, while decoupled registration-segmentation pipelines permit user verification yet discard the lesion's prior appearance, limiting accuracy in ambiguous cases. In this work, we propose a Verified Tracking paradigm: a clinician verifies a registration-proposed prompt, which the model leverages alongside the baseline lesion appearance to resolve segmentation ambiguities. We present a unified framework combining early spatial prompt fusion with latent temporal difference weighting for longitudinally-informed segmentation. To address data scarcity, we leverage large-scale synthetic pretraining, proving essential for exploiting longitudinal context, improving performance by up to 4.5 Dice points over training from scratch. Our approach secured first place in the MICCAI autoPET IV challenge. We further curate and release PanTrack, a new longitudinal pancreatic cancer benchmark, to assess out-of-distribution generalization. Experiments show that our model outperforms prior work in both fully automatic and the proposed verified tracking setting offering a clinically safe middle ground between automation and control. Code, model and dataset will be released at https://github.com/MIC-DKFZ/LongiSeg
学術的文脈における AI 疲労の定義: グラウンデッド セオリーを使用した次元、指標、段階ベースのモデル
学術現場での AI ツールの統合により、テクノストレスやデジタル疲労などの既存のフレームワークではまだ完全には対処できていない、独特の形の負担が生じています。この研究では、概念モデルを開発し、AI 疲労を、学術的な AI ツールの継続的な使用から生じる緊張の一形態として定義する側面を特定します。この研究では、フィリピンの 3 つの大学にわたる 1,054 人の大学生の自由回答の根拠理論分析を使用して、AI 支援の学業中に学生が経験する認知的、動機的、感情的、身体的、注意力のプレッシャーを調査しました。分析により、AI 疲労の 5 つの側面、つまり認知過負荷、モチベーションの低下、道徳的不安、身体的緊張、注意の逸脱が生成され、それぞれが参加者のアカウントに基づいた 2 つの指標で構成されました。この調査結果からは、学術的なタスクにおいて繰り返される AI の相互作用によって、これらのプレッシャーがどのように蓄積し、相互に強化されるかを説明する段階ベースのフレームワークである AI 疲労モデルも得られました。これらの貢献は、AI 疲労に対する概念的かつ探索的な基盤を別個の構造として確立し、AI が学生の学習を媒介する学術環境における将来の機器の検証、スケール開発、および文脈を超えた調査の基礎を提供します。
原文 (English)
Defining AI Fatigue in Academic Contexts: Dimensions, Indicators, and a Stage-Based Model Using Grounded Theory
The integration of AI tools in academic settings has introduced a distinct form of strain that existing frameworks like technostress and digital fatigue have not yet fully addressed. This study develops a conceptual model and identifies the dimensions that define AI fatigue as a form of strain arising from sustained academic use of AI tools. Using grounded theory analysis of open-ended responses from 1,054 university students across three universities in the Philippines, the study examined the cognitive, motivational, emotional, physical, and attentional pressures students experienced during AI-supported academic work. Analysis produced five dimensions of AI fatigue, namely Cognitive Overload, Motivational Disengagement, Moral Unease, Physical Strain, and Attentional Drift, each consisting of two indicators grounded in participant accounts. The findings also yielded the AI Fatigue Model, a stage-based framework that explains how these pressures accumulate and reinforce one another across repeated AI interaction in academic tasks. These contributions establish a conceptual and exploratory foundation for AI fatigue as a distinct construct and provide a basis for future instrument validation, scale development, and cross-contextual inquiry in academic settings where AI now mediates student learning.
強化学習による変分量子アルゴリズムの古典的状態の準備
変分量子アルゴリズム (VQA) は、実用的な量子優位性への道を提供する可能性がありますが、その最適化は不毛な台地と多数の極小値によって大きく妨げられます。古典的にシミュレート可能なクリフォード回路は、VQA をウォームスタートして収束を加速できますが、既存のヒューリスティックベースの初期化手法は、広大な組み合わせ探索空間内で拡張するのが困難です。このボトルネックを克服するために、我々は、離散プレフィックス選択を逐次的な意思決定問題として定式化するフレームワークである CRiSP (状態準備のためのクリフォード強化学習エージェント) を提案します。 CRiSP は、セルフプレイによってトレーニングされたトランスフォーマーベースのポリシーによって駆動されるニューラルガイド付きモンテカルロ ツリー検索を利用して、固定パラメーター化された回転の前に学習されたクリフォード ゲートを挿入します。これにより、基礎となる回路アーキテクチャを変更することなく、多項式時間の古典的なスタビライザー シミュレーションを通じて高品質の初期状態を構築することが可能になります。検索範囲を徐々に拡大するカリキュラム学習戦略を統合することで、エージェントは深い回路まで効率的に拡張できます。最大 $22$ 量子ビットと $1{,}370$ パラメーターの QAOA ベンチマークで評価された CRiSP は、平均エネルギー精度で $3.17\times$ (最大 $45.02\times$)、最高のエネルギー精度で $2.44\times$ (最大 $16.01\times$) 、最先端のクリフォード初期化手法を上回っています。 VQE タスクの評価により、フレームワークの堅牢性と汎用性がさらに実証されます。
原文 (English)
Classical State Preparation for Variational Quantum Algorithms via Reinforcement Learning
Variational Quantum Algorithms (VQAs) potentially offer a pathway to practical quantum advantage, but their optimization is heavily hindered by barren plateaus and numerous local minima. While classically simulable Clifford circuits can warm-start VQAs to accelerate convergence, existing heuristic-based initialization methods struggle to scale within vast combinatorial search spaces. To overcome this bottleneck, we propose CRiSP (a Clifford Reinforcement Learning agent for State Preparation), a framework that formulates discrete prefix selection as a sequential decision-making problem. CRiSP utilizes Neural-Guided Monte Carlo Tree Search, driven by a Transformer-based policy trained via self-play, to insert learned Clifford gates before fixed parameterized rotations. This enables the construction of high-quality initial states entirely through polynomial-time classical stabilizer simulation without altering the underlying circuit architecture. By integrating a curriculum learning strategy that progressively expands the search horizon, the agent efficiently scales to deep circuits. Evaluated on QAOA benchmarks of up to $22$ qubits and $1{,}370$ parameters, CRiSP outperforms state-of-the-art Clifford initialization methods by a mean of $3.17\times$ (max $45.02\times$) in average energy accuracy and $2.44\times$ (max $16.01\times$) in best-achieved energy accuracy. Assessments on VQE tasks further demonstrate the framework's robustness and generalizability.
CALAD: 多変量時系列異常検出のためのチャネル認識対照学習
ラベル付きデータが不足していることが多い現実のアプリケーションでは、多変量時系列の異常検出がますます重要になっています。既存のアプローチの多くは、正常なパターンをモデル化するために教師なし学習に依存していますが、多くの場合、すべてのチャネルを同等に扱います。すべてのチャネルが異常検出に等しく寄与するわけではないため、この設計では異常関連の信号が弱まる可能性があります。この論文では、多変量時系列異常検出のためのチャネル認識対比学習フレームワークである CALAD を提案します。 CALAD は、推定されたチャネル関連性を使用して対照的なサンプルの構築を管理し、学習プロセスに一般的な類似性ではなく異常のセマンティクスを反映できるようにします。チャネルの関連性は、トランスフォーマベースのオートエンコーダの再構成エラーから推定され、異常な動作により大きな影響を与えるチャネルを区別するために使用されます。この情報を使用して、異常に関連するチャネルが保存されるか摂動されるかに基づいて正のサンプルと負のサンプルを構築するチャネルごとの拡張戦略を設計します。これにより、異常に関連するチャネルの変化には敏感でありながら、無関係なチャネルの変化に対する不変性が促進されます。さらに、CALAD は対照学習と補助再構成ヘッドを組み合わせ、モデルが正常な構造を保持しながら識別表現を学習できるようにします。複数の実世界のデータセットでの実験では、CALAD が、特に分布シフト シナリオの下で、既存の手法よりも一貫して優れたパフォーマンスを発揮することが示されています。再現性のためのコードは https://github.com/hirundo1218/CALAD で提供しています。
原文 (English)
CALAD: Channel-Aware contrastive Learning for multivariate time series Anomaly Detection
Multivariate time series anomaly detection has become increasingly important in real-world applications, where labeled data are often scarce. Many existing approaches rely on unsupervised learning to model normal patterns, but they often treat all channels equally. This design can dilute anomaly-relevant signals, since not all channels contribute equally to anomaly detection. In this paper, we propose CALAD, a channel-aware contrastive learning framework for multivariate time series anomaly detection. CALAD governs the construction of contrastive samples using estimated channel relevance, allowing the learning process to reflect anomaly semantics rather than generic similarity. Channel relevance is estimated from reconstruction errors of a transformer-based autoencoder and is used to distinguish channels that are more influential to anomalous behaviors. Using this information, we design a channel-wise augmentation strategy in which positive and negative samples are constructed based on whether anomaly-relevant channels are preserved or perturbed. This encourages invariance to changes in irrelevant channels while being sensitive to changes in anomaly-relevant channels. Furthermore, CALAD combines contrastive learning and an auxiliary reconstruction head, allowing the model to learn discriminative representations while retaining normal structures. Experiments on multiple real-world datasets shows that CALAD consistently outperforms existing methods, particularly under distribution shift scenarios. We provide the code for reproducibility at https://github.com/hirundo1218/CALAD
インフラベイジアン強化学習エージェントは、最悪の場合の堅牢性において古典的な RL を上回ります
古典的な強化学習では、エージェントが、その動作がエージェントのポリシーに依存しない固定環境と対話することを前提としています。この仮定は、AI の安全性にとって重要な環境、エージェントが予測者、人間、他の AI エージェント、機関と対話する環境など、他のアクターがエージェントの動作を予測する可能性がある実現不可能な設定では崩れます。このような設定では、エージェントのモデル クラスは、エージェントが動作する世界を捉えることができません。このような仕様の誤りがある場合、古典的なベイジアン手法では、実現可能性が得られないため、確実に間違った事後結果、信頼性の低い決定、際限のない後悔が生じる可能性があります。インフラベイズ主義は、事前分布を合理的に選択できる通常の確率的不確実性と、そのような事前分布を構築する根拠が存在しないナイト不確実性を区別することで、これらの失敗に対処する決定理論の枠組みです。これは、事後期待や加重平均ではなく、最悪の場合の結果に基づいて行動を評価することによって行われます。有限結果ステートレス意思決定問題に対するインフラベイジアン強化学習アーキテクチャの最初の概念実証実装を紹介します。私たちのエージェントは一連の不正確な仮説を維持し、インフラベイズ条件付けを使用してそれらを更新し、最悪の場合の期待値を最大化することによってアクションを選択します。ベイジアン内最大値決定プロセスのこの実装をナイト不確実性のある環境に適用し、古典的な強化学習エージェントと比較して最悪の場合の後悔が低いことを示します。また、Newcomb の問題を調査し、インフラベイジアン エージェントが最適な戦略を選択し、古典的な意思決定理論エージェントを上回るパフォーマンスを示すことを示します。私たちの結果は、モデルの仕様の誤りやポリシーに依存する不確実性の下でも堅牢性を維持する強化学習エージェントへの一歩を提供します。
原文 (English)
Infra-Bayesian Reinforcement Learning Agents Outperform Classical RL For Worst-Case Robustness
Classical reinforcement learning assumes the agent interacts with a fixed environment whose behavior does not depend on the agent's policy. This assumption breaks down in non-realizable settings where other actors might anticipate the agent's behavior, including environments crucial to AI safety, where the agent interacts with predictors, humans, other AI agents, and institutions. In such settings, the agent's model class fails to capture the world in which it operates. Under such misspecification, classical Bayesian methods can produce confidently wrong posteriors, unreliable decisions, and unbounded regret, as realizability fails to obtain. Infra-Bayesianism is a decision-theoretic framework that addresses these failures by distinguishing ordinary probabilistic uncertainty, where priors can be reasonably chosen, from Knightian uncertainty, where no grounds exist for the construction of such a prior. It does so by evaluating actions on their worst-case outcomes, rather than from posterior expectations or weighted averaging. We present the first proof-of-concept implementation of an infra-Bayesian reinforcement learning architecture for finite-outcome stateless decision problems. Our agent maintains a set of imprecise hypotheses, updates them using infra-Bayesian conditioning, and selects actions by maximizing worst-case expected value. We apply this implementation of the infra-Bayesian maximin decision process to an environment with Knightian uncertainty, and demonstrate a lower worst-case regret as compared to classical reinforcement learning agents. We also investigate Newcomb's problem and show that the infra-Bayesian agent picks the optimal strategy, outperforming classical decision theory agents. Our results provide a step towards reinforcement learning agents that remain robust under model misspecification and policy-dependent uncertainty.
As X、Do Y: 命令調整された LLM でペルソナとタスクを組み合わせる方法
As X, do Y の形式のロール プロンプトは、残差ストリーム内の 1 つの特定のサイトできれいな線形分解を認めます。プロンプトから回答への遷移 (初期/中間層バンド内の最初の 2 つの生成されたトークンと最後のプロンプト トークン)。そこでは、ペルソナとタスクが、部分的に直交する加法的な方向を通じて貢献します。純粋なペルソナ効果 $\Delta_X$、純粋なタスク効果 $\Delta_Y$ を形成し、クリーン残差を $h_{BB} + \Delta_X + \Delta_Y$ に置き換えると、12 セルのショート グリッドと48 セルの長さのペルソナ グリッド。ペルソナ固有の行動マーカーが保存されます。この加算構造からの自然な推論は、ロール プロンプトを単一のキャッシュされた残差ベクトルに圧縮できるということです。 \emph{不可能であることを示します。} キャッシュされた加法予測、またはオラクルのクリーンな残差 $h_{XY}$ を、ペルソナ テキストを削除したベースライン ホスト プロンプトに挿入しても、1 つのサイトまたは多くのレイヤーで、クリーンなロング ペルソナ ターゲットには近づきません。ペルソナ条件付きマルチトークン生成は、プロンプト全体でペルソナ テキストの位置に注意を戻すことによって流れ、1 つのサイトで再現される残留物はありません。残留ストリームの局所的な加成性は、即時圧縮性を意味するものではありません。プロンプトから回答への移行時の付加的な構造は、ペルソナやタスクの貢献度の解釈可能性ときめ細かい操作をサポートします。完全な継続にわたるペルソナ条件付きの動作は、ローカル アクティベーション演算に置き換えられない分散プロンプト/KV メカニズムに依存します。
原文 (English)
As X, Do Y: How Persona and Task Combine in Instruction-Tuned LLMs
Role prompts of the form As X, do Y admit a clean linear decomposition at one specific site in the residual stream: the prompt-to-answer transition -- the last prompt token together with the first two generated tokens -- in an early/mid layer band. There, persona and task contribute through partially orthogonal additive directions. Forming a pure persona effect $\Delta_X$, a pure task effect $\Delta_Y$, and substituting $h_{BB} + \Delta_X + \Delta_Y$ for the clean residual yields downstream output within a small KL of clean on Gemma-2-2B-IT and Qwen-2.5-\{1.5B, 3B\}-Instruct, across a 12-cell short grid and a 48-cell long-persona grid, with persona-specific behavioral markers preserved. The natural inference from this additive structure is that the role prompt can be compressed into a single cached residual vector. \emph{We show it cannot.} Injecting the cached additive prediction -- or even the oracle clean residual $h_{XY}$ -- into a baseline host prompt with the persona text removed does not approach the clean long-persona target, at one site or at many layers. Persona-conditioned multi-token generation flows through attention back to the persona-text positions throughout the prompt, which no residual at one site reproduces. Local additivity in the residual stream does not imply prompt compressibility. The additive structure at the prompt-to-answer transition supports interpretability and fine-grained steering of persona or task contributions; persona-conditioned behavior across the full continuation depends on a distributed prompt/KV mechanism that local activation arithmetic does not displace.
生成型 AI と労働需要の再編
生成型人工知能 (AI) は仕事を変革すると期待されていますが、テクノロジーの普及に伴い企業が労働需要をどのように再編成するかについてはあまり知られていません。既存の研究は主に、どの職業が AI にさらされるか、あるいはさらされる仕事が減少するかどうかに焦点を当ててきた。私たちはこの議論を拡張して、企業が雇用先を変更することで調整するのか、仕事内容を変更するのか、あるいはその両方を変更するのかを検討します。経済のすべてのセクターをカバーする米国の全国的な求人情報のデータセットを使用して、2 段階の大規模な言語モデル パイプラインを使用して、生成的な AI エクスポージャーの動的な投稿レベルの測定を構築します。パイプラインは、各投稿に記述されているタスクを識別し、生成 AI がそれらのタスクを実行または支援できる範囲を分類します。次に、総エクスポージャの変化を 2 つのマージン、つまりジョブ全体にわたる需要の再配分とジョブ内のタスクの再設計に分解します。 3 つの主要な調査結果を文書化します。まず、生成 AI のエクスポージャーは固定的ではなく動的であり、時間の経過とともに大幅に変化します。第二に、労働需要は両方のマージンを通じて調整されます。雇用の再配置は、エクスポージャ総減少の最大の割合を説明しており、平均で 52% を占め、一方、職務内の再設計はますます重要になっており、39.5% を占めています。補足的なオアハカ-ブラインダー分解は、職業構成の変化が、観察可能な仕事の特性に起因するエクスポージャの変化の約 90% を占めることを示しています。第三に、調整は仕事のはしごごとに異なります。上級職は主に再配置を通じて早期に調整しますが、下級職は再配置、再設計、およびそれらの相互作用をより広範囲に組み合わせて調整します。これらの調査結果は、生成型 AI に対する労働市場の調整が、企業が雇用需要と仕事のタスク アーキテクチャの両方を再構築する組織再構成のプロセスであることを示唆しています。
原文 (English)
Generative AI and the Reorganization of Labor Demand
Generative artificial intelligence (AI) is expected to transform work, but less is known about how firms reorganize labor demand as the technology diffuses. Existing research has largely focused on which occupations are exposed to AI or whether exposed jobs decline. We extend this debate by examining whether firms adjust by changing where they hire, what jobs contain, or both. Using a nationwide dataset of job postings in the United States, covering all sectors of the economy, we construct a dynamic, posting-level measure of generative AI exposure with a two-stage large language model pipeline. The pipeline identifies the tasks described in each posting and classifies the extent to which generative AI can perform or assist them. We then decompose changes in aggregate exposure into two margins: reallocation of demand across jobs and redesign of tasks within jobs. We document three main findings. First, generative AI exposure is dynamic rather than fixed, changing substantially over time. Second, labor demand adjusts through both margins. Hiring reallocation explains the largest share of the aggregate decline in exposure, accounting for 52% on average, while within-job redesign becomes increasingly important, accounting for 39.5%. A complementary Oaxaca-Blinder decomposition shows that shifts in occupational composition account for about 90% of the exposure change attributable to observable job characteristics. Third, adjustment differs across the job ladder. Senior jobs adjust earlier and mainly through reallocation, whereas junior jobs adjust through a broader mix of reallocation, redesign, and their interaction. These findings suggest that labor-market adjustment to generative AI is a process of organizational reconfiguration, in which firms reshape both hiring demand and the task architecture of work.
VLM ガイダンスによる自律的なフロンティアベースの探査
長年の課題である未知の危険な環境の自律ロボット探索は、視覚言語モデル (VLM) の高度な推論を活用することで大幅に改善できます。 VLM が高レベルの戦略的意思決定を実行し、従来の低レベルのロボット制御スタックをガイドする新しい探査パイプラインを導入します。意思決定ポイントで、ロボットは現在の地図と潜在的な経路またはフロンティアの視覚的イメージを含むマルチモーダル プロンプトを生成します。 VLM はこのプロンプトを分析して、最も有望なフロンティアを選択し、単純な幾何学的ヒューリスティックを状況に応じた空間推論に置き換えます。このアプローチは、6 つの屋内環境にわたるシミュレーションで検証され、既存の方法と比較してマップ カバレッジを最大 24\% 向上させます。当社のパイプラインは軽量でトレーニング不要で、標準センサーとインターネット接続を備えたあらゆるロボットに簡単に転送できます。
原文 (English)
Autonomous Frontier-Based Exploration with VLM Guidance
Autonomous robotic exploration of unknown and hazardous environments, a long-standing challenge, can be significantly improved by leveraging the advanced reasoning of Vision-Language Models (VLMs). We introduce a novel exploration pipeline where a VLM performs high-level strategic decision-making, guiding a conventional low-level robotics control stack. At decision points, the robot generates a multimodal prompt with its current map and visual imagery of potential paths, or frontiers. The VLM analyzes this prompt to select the most promising frontier, replacing simple geometric heuristics with contextual spatial reasoning. This approach, validated in simulation across six indoor environments, improves map coverage by up to 24\% over existing methods. Our pipeline is lightweight, training-free, and easily transferable to any robot with standard sensors and an internet connection.
PoisonForge: 命令チューニング LLM 向けのタスクレベルを対象としたポイズニング ベンチマーク
実践者が精査されていないデータセット上で LLM を微調整すると、攻撃者はタスク レベルのポイズニングを通じてデータ サプライ チェーンを悪用する可能性があります。これは、モデルが他の場所では通常どおり動作しながら、対象のタスク ファミリの出力に国などの攻撃者が指定したエンティティを埋め込む、少数の巧妙に作成された命令と応答のペアを挿入することです。この脅威を 4 つの次元 (バイアス タイプ、ポイズニング モード、出現数、ターゲット出力の長さ) に沿ってパラメータ化し、主に 1% のポイズン バジェットの下で 5 つのファミリーにわたる 12 のオープンウェイト モデル (2B から 32B パラメータ) を評価するベンチマークである PoisonForge を紹介します。 1,000 の微調整サンプルのうち汚染されたサンプルは 10 件のみで、12 モデル中 11 モデルが最も脆弱な構成で 70% の攻撃成功率 (ASR) を超えています。一方、非ターゲット タスクへの意図しないリークは 0.5% 未満のままで、モデルは標準ベンチマークで良好なパフォーマンスを示します。攻撃成功の要因を詳細に分析します。エンティティが複数出現すると ASR が増加し、最適なポイズニング モードはターゲット エンティティの意味構造に依存し、ASR はタスクの出力長に応じて単調に低下することが観察されます。相関分析とリスク予測モデルにより、モデルの規模ではなくポイズニング設計の選択が攻撃成功の主な原因であり、これらのパターンが新しいタスクでの攻撃の成功を予測するために一般化されることが確認されています。再現可能な比較をサポートするために、すべての構成、パイプライン、分析コードをリリースします。
原文 (English)
PoisonForge: Task-Level Targeted Poisoning Benchmark for Instruction-Tuned LLMs
When practitioners fine-tune LLMs on unvetted datasets, an adversary can exploit the data supply chain through task-level poisoning: inserting a small number of crafted instruction-response pairs that cause the model to embed attacker-specified entities, such as a country, in outputs for a targeted task family while behaving normally elsewhere. We introduce PoisonForge, a benchmark that parameterizes this threat along four dimensions (bias type, poisoning mode, appearance count, and target output length) and evaluates 12 open-weight models (from 2B to 32B parameters) across five families under a primarily 1% poison budget. With only 10 poisoned examples among 1,000 fine-tuning examples, 11 of 12 models exceed a 70% attack success rate (ASR) in their most vulnerable configuration. Meanwhile, unintended leakage to non-target tasks remains below 0.5%, and models perform well on standard benchmarks. We analyze in detail the factors contributing to attack success. We observe that multiple appearances of an entity increase the ASR, the optimal poisoning mode depends on the semantic structure of the target entity, and ASR drops monotonically with the task output length. A correlation analysis and risk prediction model confirm that poisoning design choices, rather than model scale, are the primary causes of attack success, and that these patterns generalize to predict attack success on new tasks. We release all configurations, pipelines, and analysis code to support reproducible comparisons.
ロングコンテキスト LLM の位置の失敗: 推論ベンチマークの盲点
位置制御された評価は、Needle-in-a-Haystack や RULER などの検索タスクの標準ですが、主流の推論ベンチマークは、長いコンテキストでのターゲット タスクの位置配置を制御しません。 11 個の長いコンテキストのベンチマークを監査したところ、タスクの位置、フィラーの内容、および推論のためのコンテキストの長さを共同で制御するものはありませんでした。 4 つの主力ロングコンテキスト リリースの監査では、NIAH、RULER、または LongBench ファミリー ベンチマークのメイン結果テーブル エントリは見つかりませんでしたが、エージェント ベンチマークとコーディング ベンチマークは 4 つすべてのメイン結果テーブルに表示されます。私たちは、3 つの要素すべてを変化させる制御されたフレームワークであるコンテキスト ロット評価 (CRE) を提案し、GSM8K と ARC-Challenge の 9 つの LLM を 2 つのラウンド (初期 5 モデル セットと 4 つの新しいベンダー リリース) にわたって評価します。ターゲット タスクが端から中間に移動するとモデルが急激に低下する可能性があり、脆弱なモデルのコンテキストの長さが増すにつれて低下はさらに悪化します。 MiMo-v2-Flash は、with_solutions フィラーの下で 64K で 88pp 低下します (中精度 8%)。新しいリリースでは低下が小さくなっています。64K では、4 つのうち 3 つが終了位置精度の +/-6pp 以内に留まっています。 MiMo-V2.5-Pro は、MiMo-v2-Flash の 88pp の低下を 32pp に狭めます。 question_only_v2 フィラーでは、4 つすべてで中間位置の低下が持続します (8K、32K、64K で -16pp から -56pp の範囲)。 8K では、最後にターゲット タスクのコピーを追加する診断プローブにより、9 つのモデルすべてで終了ベースラインの +/-4pp 以内の中程度の精度が得られ、位置の説明と一致します。最初の 5 つのモデル セットでは、中間位置のエラーの 76% が周囲のフィラー テキストと一致するのに対し、終了位置では 22% であり、主要なエラー モードとしてのフィラーと回答の干渉と一致しています。これらの結果は、現在の推論ベンチマーク設計とベンダー評価実践における構造的な評価のギャップを明らかにしています。タスクの位置が制御されていない場合、コンテキストの長さとともに増大する位置の脆弱性は測定できません。
原文 (English)
Positional Failures in Long-Context LLMs: A Blind Spot in Reasoning Benchmarks
Position-controlled evaluation is standard for retrieval tasks such as Needle-in-a-Haystack and RULER, but mainstream reasoning benchmarks do not control positional placement of target tasks in long contexts. We audit 11 long-context benchmarks and find none jointly controls task position, filler content, and context length for reasoning. An audit of four flagship long-context releases finds no main result-table entry for NIAH, RULER, or LongBench-family benchmarks, while agentic and coding benchmarks appear in main result-tables across all four. We propose Context Rot Evaluation (CRE), a controlled framework varying all three factors, and evaluate nine LLMs on GSM8K and ARC-Challenge across two rounds: an initial five-model set and four newer vendor releases. Models can drop sharply when the target task moves from end to middle, and the drop grows worse with context length for vulnerable models. MiMo-v2-Flash drops 88pp at 64K under with_solutions filler (middle accuracy 8%). Newer releases show smaller drops: at 64K, three of four stay within +/-6pp of end-position accuracy; MiMo-V2.5-Pro narrows the MiMo-v2-Flash 88pp drop to 32pp. Under questions_only_v2 filler, middle-position drops persist across all four (range -16pp to -56pp across 8K, 32K, 64K). At 8K, a diagnostic probe adding a target-task copy at the end brings middle accuracy within +/-4pp of end baseline across all nine models, consistent with a positional explanation. In the initial five-model set, 76% of middle-position errors match surrounding filler text versus 22% at the end position, consistent with filler-answer interference as a dominant error mode. These results expose a structural evaluation gap in current reasoning benchmark design and vendor evaluation practice: positional vulnerabilities that grow with context length cannot be measured when task position is not controlled.
命令微調整におけるノイズの多い埋め込み手法の理解と改善
指導の微調整における最近の進歩により、埋め込みにノイズが注入され、NEFTune (Jain et al., 2024) は均一なノイズを使用してベンチマークを設定しています。均一ノイズがガウス ノイズよりも優れているという NEFTune の経験的発見にもかかわらず、その理由は不明のままです。このホワイト ペーパーは、理論的および経験的の両方で徹底的な分析を提供することでこれを明らかにし、これらのノイズ タイプ間で同等のパフォーマンスを示すことを目的としています。さらに、埋め込みの対称ノイズを利用した、言語モデルの新しい微調整方法を導入します。この方法は、局所的な曲率をより厳密に規制することでモデルの機能を強化することを目的としており、現在の方法である NEFTune よりも優れたパフォーマンスを示します。 Alpaca を使用して LLaMA-2-7B モデルを微調整する場合、標準的な手法では、AlpacaEval で 29.79% のスコアが得られます。ただし、私たちのアプローチである SymNoise は、対称的なノイズの多い埋め込みを使用して、このスコアを 69.04% まで大幅に増加させます。これは、最先端の方法である NEFTune (64.69%) と比較して 6.7% の改善です。さらに、さまざまなモデルと、Evol-Instruct、ShareGPT、OpenPlatypus などの強力なベースライン命令データセットでテストした場合、SymNoise は一貫して NEFTune を上回ります。 NEFTune を含む現在の文献は、言語モデルの微調整におけるノイズベースの戦略の適用に関するより詳細な研究の重要性を強調しています。私たちのアプローチである SymNoise は、この方向に向けたもう 1 つの重要なステップであり、既存の最先端の方法に比べて顕著な改善を示しています。
原文 (English)
Understanding and Improving Noisy Embedding Techniques in Instruction Finetuning
Recent advancements in instructional fine-tuning have injected noise into embeddings, with NEFTune (Jain et al., 2024) setting benchmarks using uniform noise. Despite NEFTune's empirical findings that uniform noise outperforms Gaussian noise, the reasons for this remain unclear. This paper aims to clarify this by offering a thorough analysis, both theoretical and empirical, indicating comparable performance among these noise types. Additionally, we introduce a new fine-tuning method for language models, utilizing symmetric noise in embeddings. This method aims to enhance the model's function by more stringently regulating its local curvature, demonstrating superior performance over the current method, NEFTune. When fine-tuning the LLaMA-2-7B model using Alpaca, standard techniques yield a 29.79% score on AlpacaEval. However, our approach, SymNoise, increases this score significantly to 69.04%, using symmetric noisy embeddings. This is a 6.7% improvement over the state-of-the-art method, NEFTune (64.69%). Furthermore, when tested on various models and stronger baseline instruction datasets, such as Evol-Instruct, ShareGPT, OpenPlatypus, SymNoise consistently outperforms NEFTune. The current literature, including NEFTune, has underscored the importance of more in-depth research into the application of noise-based strategies in the fine-tuning of language models. Our approach, SymNoise, is another significant step towards this direction, showing notable improvement over the existing state-of-the-art method.
スマートグリッドにおけるデータ駆動型の最適な電力フローのためのスケーラブルな異種グラフ基盤モデル
高速で信頼性の高い最適電力潮流 (OPF) 近似は、信頼性の高いスマート グリッドの運用に不可欠ですが、多くの学習ベースのサロゲートは、電力ネットワークのネイティブな異種構造を平坦化したり、限られたセットのグリッド トポロジを対象にしたり、グラフ基盤モデル (GFM) トレーニング用のスケーラブルなインフラストラクチャを欠いています。このペーパーでは、データ駆動型の OPF サロゲート モデリングと OPF-GFM 開発のために、HydraGNN 上に構築されたスケーラブルなヘテロジニアス グラフ ニューラル ネットワーク (GNN) ワークフローを紹介します。このワークフローは、バス、発電機、負荷、シャント、AC ライン、変圧器、デバイスとバスの結合など、電力網の異なるノードおよびエッジ タイプを保持し、リーダークラスのスーパーコンピューターでの分散前処理、トレーニング、ハイパーパラメーター最適化 (HPO)、およびダウンストリームの微調整をサポートします。 10 の PGLib-OPF ケース (14 ~ 13,659 バス) にわたる 300 万の異種グラフ インスタンスを使用して、ORNL Frontier スーパーコンピューター上で DeepHyper 駆動の HPO を実行します。このキャンペーンでは、検証損失が最も少ないコンパクトなモデル ($\sim$1.6 ~ 170 万のパラメーター) を特定します。実現可能性分類と N-1 想定分割回帰に関する下流の実験では、事前トレーニング済み OPF GFM を微調整すると、部分的またはヘッドのみの微調整が使用された場合に、低データの精度が向上し、トレーニングが安定し、収束が加速し、適応コストが削減されることが示されています。
原文 (English)
Scalable Heterogeneous Graph Foundation Models for Data-Driven Optimal Power Flow in Smart Grids
Fast and reliable optimal power flow (OPF) approximation is essential for reliable smart-grid operation, yet many learning-based surrogates either flatten the native heterogeneous structure of power networks, target a limited set of grid topologies, or lack scalable infrastructure for graph foundation model (GFM) training. This paper presents a scalable heterogeneous graph neural network (GNN) workflow, built on HydraGNN, for data-driven OPF surrogate modeling and OPF-GFM development. The workflow preserves the distinct node and edge types of power grids -- buses, generators, loads, shunts, AC lines, transformers, and device-to-bus couplings -- and supports distributed preprocessing, training, hyperparameter optimization (HPO), and downstream fine-tuning on leadership-class supercomputers. Using three million heterogeneous graph instances spanning ten PGLib-OPF cases, from 14 to 13,659 buses, we conduct DeepHyper-driven HPO on the ORNL Frontier supercomputer. The campaign identifies compact models ($\sim$1.6--1.7M parameters) with the lowest validation losses. Downstream experiments on feasibility classification and N-1 contingency regression show that fine-tuning pretrained OPF GFM improves low-data accuracy, stabilizes training, accelerates convergence, and reduces adaptation cost when partial or head-only fine-tuning is used.
ロングコンテキスト推論のための適応型マスセグメント化された KV 圧縮
Key-Value (KV) キャッシュの線形増加は、長い形式の LLM 推論における重大なボトルネックです。既存の KV 圧縮方法は、重要度スコアに基づいてトークンを排除することでこの問題を軽減します。ただし、グローバルな Top-k 選択への依存が領域ワイプアウト、つまり論理的一貫性を狂わせる連続した推論ブロックの厳しい排除を引き起こすことを示します。これに対処するために、私たちは、トークンレベルの競争から地域を意識したクォータ割り当てにパラダイムを移行するフレームワークである、Adaptive Mass-Segmented (AMS) KV Compression を提案します。 AMS は、アテンション マスの空間分布に基づいて KV キャッシュを適応的に分割し、構造的に重要な推論セグメントが保証されたメモリ クォータを確実に受け取るようにします。反復デコード中の安定性を確保するために、セグメント境界でのジッターを防ぐために EMA ベースの平滑化メカニズムが組み込まれています。重要なことは、AMS は既存のスコアラーとは直交するユニバーサルなプラグ アンド プレイ レイヤーであることです。 TOVA、Expected Attend、KeyDiff、R-KV、TriAttend などの代表的な手法にシームレスに統合できます。 AMS は、vLLM などの最新のページ化された KV サービス フレームワークともシステム互換性があり、追加の定常状態のアテンション オーバーヘッドを発生させることなく、効率的な収集と圧縮の KV 実行をサポートします。数学的推論 (MATH500、AIME、GSM8K)、コード補完、オープンドメイン QA、スパース検索などのさまざまなタスク スイートにわたる広範な実験により、AMS が構造の断片化を一貫して軽減し、モデルのパフォーマンスを向上させることが実証されました。
原文 (English)
Adaptive Mass-Segmented KV Compression for Long-Context Reasoning
The linear growth of the Key-Value (KV) cache is a critical bottleneck in long-form LLM inference. Existing KV compression methods mitigate this by evicting tokens based on importance scores. However, we show that their reliance on global Top-k selection triggers Region Wipe-out: the severe eviction of contiguous reasoning blocks that derails logical coherence. To address this, we propose Adaptive Mass-Segmented (AMS) KV Compression, a framework that shifts the paradigm from token-level competition to region-aware quota allocation. AMS adaptively partitions the KV cache based on the spatial distribution of attention mass, ensuring structurally vital reasoning segments receive guaranteed memory quotas. To ensure stability during iterative decoding, an EMA-based smoothing mechanism is incorporated to prevent jitter in segment boundaries. Crucially, AMS is a universal plug-and-play layer that is orthogonal to existing scorers. It can be seamlessly integrated into representative methods such as TOVA, Expected Attention, KeyDiff, R-KV and TriAttention. AMS is also system-compatible with modern paged-KV serving frameworks such as vLLM, supporting efficient gather-and-compact KV execution without introducing additional steady-state attention overhead. Extensive experiments across a diverse suite of tasks, including mathematical reasoning (MATH500, AIME, GSM8K), code completion, open-domain QA, and sparse retrieval, demonstrate that AMS consistently mitigates structural fragmentation and boosts model performance.
ホモグラフィーの形式的検証のためのリプシッツ最適化
規制産業におけるビジョン ニューラル ネットワークの導入には、特に医療、自動運転車、航空宇宙などの安全性が重要な領域において、正式な堅牢性の保証が必要です。しかし、現在のアプローチは、不完全な統計的検証、または $\ell_p$-norm およびアフィン変換に対する堅牢性に限定されており、画像形成プロセスに対する摂動の狭いサブセットのみをカバーしています。特に、カメラの動きに対する堅牢性は、多くのビジョン アプリケーションを展開するための鍵であるにもかかわらず、未解決の問題のままです。キャプチャするカメラの 3D モーション摂動に対する堅牢性をターゲットとした正式な検証アプローチを紹介します。まず、カメラのポーズからピクセル値への閉じた形式のマッピングを確立します。結果として得られるホモグラフィーの連続性特性を分析することにより、リプシッツ最適化と区分的連続性に関する最近の研究を拡張して、摂動ピクセル値の厳密な線形境界を導出できることを示します。私たちのアプローチは、拡張現実における地面、自動運転における道路標示や交通標識、ロボット操作における平面ワークスペースなど、主に平面構造を持つシーンに適用されます。これにより、複雑なシミュレーション、サロゲート ネットワーク、または明示的な画像形成モデルを使用せずに、射影幾何学変換の最初の正式な検証が可能になります。私たちは実装を検証し、以前の作業と比較して最大 89% の高速化と 7% のより厳しい境界を示しました。次に、VNN-COMP ベンチマークでメソッドを評価し、射影摂動に対する体系的な弱点を明らかにします。最後に、セーフティクリティカルな滑走路分類器に関する実際のケーススタディを示し、カメラの動きに対する実際的な脆弱性を強調し、学習済みモデルの認証における重要な課題に対処します。データとコードは https://github.com/jeangud/homography-verification で公開されています。
原文 (English)
Lipschitz Optimization for Formal Verification of Homographies
The adoption of vision neural networks in regulated industries requires formal robustness guarantees, especially in safety-critical domains such as healthcare, autonomous vehicles, and aerospace. However, current approaches are confined to incomplete statistical verification or robustness to $\ell_p$-norm and affine transforms, which cover only a narrow subset of perturbations to the image formation process. In particular, robustness to camera motion remains an open problem despite being key to deploy many vision applications. We present a formal verification approach that targets robustness against 3D motion perturbations of the capturing camera. We first establish a closed-form mapping from camera pose to pixel values. By analyzing the continuity properties of the resulting homographies, we show that recent work on Lipschitz optimization and piecewise continuity can be extended to derive tight linear bounds on perturbed pixel values. Our approach applies to scenes with predominantly planar structure, such as ground planes in augmented reality, road markings and traffic signs in autonomous driving, or planar workspaces in robotic manipulation. This enables the first formal verification of projective geometry transforms, without complex simulation, surrogate networks, or explicit image-formation models. We validate our implementation and show up to 89% speedup and 7% tighter bounds over prior work. We then evaluate our method on the VNN-COMP benchmark and reveal systematic weaknesses to projective perturbations. Finally, we demonstrate a real-world case study on a safety-critical runway classifier, highlighting practical vulnerabilities to camera motion, and addressing a key challenge in the certification of learned models. Data and code are publicly available at https://github.com/jeangud/homography-verification .
FastKernels: 本番環境での GPU カーネル生成のベンチマーク
GPU カーネル生成用の LLM ベースのエージェントは急速に進歩していますが、その進歩は最適化対象のベンチマークによって根本的に制約されています。既存のベンチマークは、運用推論フレームワークとの整合性が不十分です。合成入力を使用して単一の GPU でカーネルを評価し、周囲のコンパイル スタックを無視し、新しい最適化を発見するのではなく、既知の最適化を複製することに報酬を与えます。結果として得られる報酬シグナルは誤解を招くものです。エージェントは、サンドボックスでは高得点のカーネルを生成することを学習しますが、実際のシステムに統合すると、インターフェイスの非互換性、コンパイルスタックの競合、サイレント正確性の低下が発生します。 FastKernels は、8 カテゴリにまたがる 46 の代表的なアーキテクチャの最小限のセットを中心に構築されたカーネル ベンチマークであり、そのカーネルは、HuggingFace Transformers アーキテクチャの 96.2% (409/425) のカーネルを集合的に包含します。 FastKernels は、主流の LLM サービス上で vLLM や SGLang などの強化されたシステムと同等に動作し、十分にサービスが提供されていないアーキテクチャ上でのアップストリームのリファレンスを大幅に上回る、最小限の運用グレードの推論フレームワークとしても機能します。各タスクのインターフェイスは、そのアーキテクチャ ファミリの最先端のライブラリ内の対応するモジュールを反映しており、最適化されたカーネルを運用コードベースに直接デプロイすることができます。 FastKernels で最先端のカーネル エージェントを評価すると、最も強力なエージェントであっても実稼動ベースラインと比べて合計 0.94$\times$ の高速化しか達成できず、より弱いエージェントでは $0.78\times$ と $0.53\times$ であることがわかり、ベンチマークと実稼動の不一致がこの分野の重大なボトルネックであることが確認されました。私たちは、ベンチマークの向上が実稼働スループットの向上に直接つながるカーネル エージェントへの足がかりとして FastKernel をリリースします。コードは https://github.com/Snowflake-AI-Research/fastkernels で入手できます。
原文 (English)
FastKernels: Benchmarking GPU Kernel Generation in Production
LLM-based agents for GPU kernel generation are advancing rapidly, yet their progress is fundamentally constrained by the benchmarks they optimize against. Existing benchmarks are poorly aligned with production inference frameworks: they evaluate kernels on a single GPU with synthetic inputs, ignore the surrounding compilation stack, and reward replicating known optimizations rather than discovering new ones. The resulting reward signals are misleading: agents learn to generate kernels that score well in sandboxes but introduce interface incompatibilities, compilation-stack conflicts, and silent correctness degradation when integrated into real systems. We introduce FastKernels, a kernel benchmark built around a minimal set of 46 representative architectures spanning 8 categories, whose kernels collectively subsume those of 96.2% (409/425) of HuggingFace Transformers architectures. FastKernels doubles as a minimalistic, production-grade inference framework that runs at parity with hardened systems such as vLLM and SGLang on mainstream LLM serving and substantially exceeds upstream references on under-served architectures; each task's interface mirrors the corresponding module in the state-of-the-art library for its architecture family, enabling direct deployment of optimized kernels into production codebases. Evaluating state-of-the-art kernel agents on FastKernels, we find that even the strongest agent achieves only 0.94$\times$ aggregate speedup over production baselines, with weaker agents at $0.78\times$ and $0.53\times$ -- confirming that benchmark-production misalignment is a critical bottleneck for the field. We release FastKernels as a stepping stone toward kernel agents whose benchmark gains translate directly into production throughput improvements. Code is available at https://github.com/Snowflake-AI-Research/fastkernels
PaP-NF: Prefix-as-Prompt 再プログラミングおよびフローの正規化による確率的長期時系列予測
時系列予測は、現実世界の多くのアプリケーションで中心的な役割を果たしており、広範囲に研究されています。既存のアプローチのほとんどは決定論的モデルに依存しています。ただし、現実世界の環境は本質的に不確実で複雑な将来の動作を示すため、単一点の予測では不十分です。これは、不確実性を定量化して表現できる確率的予測手法の必要性を浮き彫りにしています。この研究では、Prefix-as-Prompt メカニズムを使用して、連続時系列表現を凍結された大規模言語モデル (LLM) と整合させ、LLM によって抽出されたグローバル コンテキストで正規化フロー デコーダーを条件付ける確率的予測フレームワークである PaP-NF を提案します。結果として得られる予測分布の品質は、確率的予測の標準指標である連続順位付け確率スコア (CRPS) を使用して評価されます。 PaP-NF は、さまざまな長期予測ベンチマークにわたって、競争力のあるポイント予測精度を維持しながら、マルチモーダルな不確実性を確実に捕捉します。公式実装は https://github.com/democracy04/PaP-NF から入手できます。
原文 (English)
PaP-NF: Probabilistic Long-Term Time Series Forecasting via Prefix-as-Prompt Reprogramming and Normalizing Flows
Time series forecasting plays a central role in many real-world applications and has been extensively studied. Most existing approaches rely on deterministic models. However, real-world environments exhibit inherently uncertain and complex future behaviors, making single-point predictions insufficient. This highlights the need for probabilistic forecasting methods that can quantify and represent uncertainty. In this work, we propose PaP-NF, a probabilistic forecasting framework that aligns continuous time series representations with a frozen large language model (LLM) using a Prefix-as-Prompt mechanism, and conditions a normalizing flow decoder on the global context extracted by the LLM. The quality of the resulting predictive distributions is evaluated using the Continuous Ranked Probability Score (CRPS), a standard metric in probabilistic forecasting. Across a variety of long-term forecasting benchmarks, PaP-NF robustly captures multi-modal uncertainty while maintaining competitive point forecasting accuracy. The official implementation is available at: https://github.com/democracy04/PaP-NF
Frontier LLM はサイバーセキュリティに対応する準備ができていますか?デュアルモード脆弱性ベンチマークによる垂直基盤モデルの証拠
当社は、フロンティア LLM がデュアルモード ベンチマークを通じてサイバーセキュリティに対応できるかどうかを評価します。ホワイトボックス機能レベルの脆弱性検出 (VulnLLM-R、C/Java/Python 全体) とブラックボックス Web アプリケーション セキュリティ テスト (20 以上の CWE ファミリにわたる 118 個のグラウンド トゥルース脆弱性を備えた 5 つの運用スタイルのアプリケーション。これらをオープンソース化します)。私たちは 6 つのフロンティア モデル (GPT-5.4、Codex~5.3、Claude Opus~4.6、Sonnet~4.6、Gemini~3.1~Pro、および Gemini~3~Flash) と 2 つのドメイン特化モデルを 4 つのテスト パラダイムにわたってテストします。私たちの発見は厳粛なものです。(1) ~すべてのフロンティア モデルは、ホワイトボックス検出で 10 ~ 50% の誤検知率を生成し、体系的に脆弱性を過剰予測します。 (2)〜ブラックボックス テストでは、フロンティア モデルはグラウンド トゥルース カバレッジをわずか 4 ~ 8% しか達成せず、外部セキュリティ ツール (Playwright MCP、Burp Suite MCP) を使用した場合でもわずか 10 ~ 19% に改善します。 (3) ドメイン特化型エージェントにエンコードされた構造化侵入テスト手法により、ファミリーごとの検出が 50% を超え、規模ではなく手法が主要な手段であることが実証されました。 (4) ドメインに特化した防御モデルは、単一 GPU 上ですべてのモデルの中で最高の精度 (0.904) と最低の誤検知率 (9.7%) を達成します。私たちは、構造化されたセキュリティ テストの欠如、エンドツーエンドの要求/応答シーケンス、障害の多いデータ、および複数ステップの攻撃チェーンのトレースが基本的なトレーニング データのボトルネックであることを特定し、データ生成戦略としてセルフプレイ セキュリティ テストを提案します。私たちの結果は、サイバーセキュリティ専用に構築された垂直基盤モデルの正当性を裏付けています。
原文 (English)
Are Frontier LLMs Ready for Cybersecurity? Evidence for Vertical Foundation Models from Dual-Mode Vulnerability Benchmarks
We evaluate whether frontier LLMs are ready for cybersecurity through a dual-mode benchmark: white-box function-level vulnerability detection (VulnLLM-R, across C/Java/Python) and black-box web application security testing (five production-style applications with 118 ground-truth vulnerabilities across 20+ CWE families, which we will open-source). We test six frontier models (GPT-5.4, Codex~5.3, Claude Opus~4.6, Sonnet~4.6, Gemini~3.1~Pro and Gemini~3~Flash) and two domain-specialized models across four testing paradigms. Our findings are sobering: (1)~every frontier model produces 10-50% false positive rates in white-box detection, systematically over-predicting vulnerabilities; (2)~in black-box testing, frontier models achieve only 4-8% ground-truth coverage, improving to just 10-19% even with external security tools (Playwright MCP, Burp Suite MCP); (3)~structured penetration-testing methodology encoded in domain-specialized agents raises per-family detection above 50%, demonstrating that methodology, not scale, is the primary lever; and (4)~a domain-specialized defense model achieves the highest precision (0.904) and lowest false positive rate (9.7%) among all models, on a single GPU. We identify the absence of structured security testing traces end-to-end request/response sequences, failure-heavy data, and multi-step attack chains as the fundamental training data bottleneck, and propose self-play security testing as a data generation strategy. Our results make the case for vertical foundation models purpose-built for cybersecurity.
SimInsert: リージョナル スパース アテンション フュージョンによるシームレスなビデオ オブジェクトの挿入
ビデオ オブジェクトの挿入では、単純なコンテンツの配置をはるかに超えて、時空間の一貫性とインタラクティブなリアリズムを確保する必要があります。ただし、現在のアプローチは、明示的なモーション エンジニアリングやリソース集約型の再トレーニングへの依存によって妨げられることが多く、その柔軟性と一般化が制限されています。このギャップを埋めるために、タスクを直感的な単一フレーム編集と意味論的なモーション記述に効率的に分離するトレーニング不要のパラダイムである \textit{SimInsert} を紹介します。画像からビデオへの拡散モデルの堅牢な生成事前分布を利用することで、SimInsert は編集を時間的に伝播し、背景の不変性を厳密に維持しながら、挿入されたオブジェクトと動的環境の間のテキスト駆動型のもっともらしい対話を可能にします。私たちのアプローチは、構造の一貫性を強化し、シームレスな境界融合を促進し、ノイズ除去の軌道中に通常蓄積される忠実度のドリフトに対抗する非侵襲的な誘導メカニズムにかかっています。広範な定量的実験により当社の有効性が検証されています。SimInsert は、PSNR で 18.8\% 向上、SSIM で 20.1\% 向上、LPIPS で 44.1\% 低下し、最先端の手法を上回り、高忠実度のビデオ編集のための合理化されたソリューションを提供します。
原文 (English)
SimInsert: Seamless Video Object Insertion via Regional Sparse Attention Fusion
Video object insertion requires ensuring spatio-temporal coherence and interactive realism, extending far beyond simple content placement. However, current approaches are often hindered by a reliance on explicit motion engineering or resource-intensive retraining, restricting their flexibility and generalization. To bridge this gap, we present \textit{SimInsert}, a training-free paradigm that efficiently decouples the task into intuitive single-frame editing and semantic motion description. By harnessing the robust generative priors of image-to-video diffusion models, SimInsert propagates edits temporally, strictly preserving background invariance while enabling plausible, text-driven interactions between the inserted object and the dynamic environment. Our approach hinges on non-invasive guidance mechanisms that enforce structural consistency, facilitate seamless boundary fusion, and counteract the fidelity drift that typically accumulates during the denoising trajectory. Extensive quantitative experiments validate our efficacy: SimInsert surpasses state-of-the-art methods with an 18.8\% gain in PSNR, 20.1\% in SSIM, and a 44.1\% decrease in LPIPS, offering a streamlined solution for high-fidelity video editing.
改良とキャリブレーションによるディープ ニューラル ネットワークの信頼性の向上
ディープ ニューラル ネットワーク (DNN) は高い予測精度を実現しますが、その信頼性推定値は信頼性が低いことが多く、ユーザーの意思決定に対する信頼が損なわれる可能性があります。これにより、モデルの予測信頼性が経験的な正しさの確率とどの程度一致しているかを測定する、校正されたモデルに関する研究が行われるようになりました。ただし、多くの場合、モデルの理解を真に改善することなく、トレーニング時の不確実性を模倣するだけの後処理技術によって、キャリブレーション メトリクスを改善できます。このため、統計学者はモデルを校正するだけでなく改良することを推奨しています。直観的には、モデルが正しい予測と誤った予測に大きく異なる信頼スコアを割り当てる場合、そのモデルはより洗練されていると考えられます。この特性はシャープネスとも呼ばれます。多くの既存のキャリブレーション方法は、精度の低下を犠牲にしてキャリブレーションを向上させていることがわかります。この制限に対処するために、我々は次のことを提案します。(1) 改良を明示的に促進し、教師あり対比学習を通じて最適化できる新しい損失関数。 (2) 統合トレーニング フレームワーク RefCal は、キャリブレーション、改良、精度を共同で最適化し、DNN の信頼性を向上させます。クラス不均衡が 10% の CIFAR-100-LT データセットでは、RefCal は (精度、洗練度、ECE) (58.81、95.67、0.08) を達成し、広く使用されている正確性ランキング損失 (46.27、93.7、0.22) を大幅に上回りました。
原文 (English)
Enhancing Deep Neural Network Reliability with Refinement and Calibration
Although deep neural networks (DNNs) achieve high predictive accuracy, their confidence estimates are often unreliable, potentially compromising user trust in their decisions. This has motivated research on calibrated models, where calibration measures how well a model's predicted confidence aligns with the empirical probability of correctness. However, calibration metrics can often be improved through post-processing techniques that merely mimic training-time uncertainty without genuinely improving the model's understanding. For this reason, statisticians recommend that models be not only calibrated but also refined. Intuitively, a model is considered more refined if it assigns significantly different confidence scores to correct and incorrect predictions, a property also referred to as sharpness. We observe that many existing calibration methods improve calibration at the cost of reduced refinement. To address this limitation, we propose: (1) a novel loss function that explicitly promotes refinement and can be optimized through supervised contrastive learning; and (2) a unified training framework, RefCal, that jointly optimizes calibration, refinement, and accuracy to improve DNN reliability. On the CIFAR-100-LT dataset with 10 percent class imbalance, RefCal achieves (accuracy, refinement, ECE) of (58.81, 95.67, 0.08), substantially outperforming the widely used Correctness Ranking Loss, which achieves (46.27, 93.7, 0.22).
マルチゲート残差
アテンション残差は、深い残差層全体にわたる無制限のアクティベーション増加という広範な問題に対処する上である程度の有効性を示していますが、必然的に重大な通信オーバーヘッドが発生します。このボトルネックを回避するために、追加の通信負荷をかけずにアクティベーション スケールを安定化するマルチゲート残差 (MGR) を提案します。単純なスコアリングおよびゲート メカニズムを利用してマルチストリーム コンテキストを維持し、アテンション プーリングと組み合わせてストリーム状態から隠れた状態を抽出します。実証実験により、MGR は大規模なトレーニングと展開に実用的であり、既存のアーキテクチャに比べて目に見えるパフォーマンスの向上が得られることが実証されています。
原文 (English)
Multi-Gate Residuals
While Attention Residuals has shown some effectiveness in addressing the widespread issue of unbounded activation growth across deep residual layers, it inevitably incurs significant communication overhead. To circumvent this bottleneck, we propose Multi-Gate Residuals (MGR), which stabilizes activation scales without additional communication burden. It utilizes a straightforward scoring and gating mechanism to maintain multi-stream context, coupled with Attention Pooling to extract hidden states from the stream states. Empirical experiments demonstrate that MGR is practical for large-scale training and deployment, offering tangible performance improvements over existing architectures.
身体型エージェントを実現する 6G 通信ネットワーク: アーキテクチャとプロトタイプ
実体化エージェントは、インテリジェントな意思決定と現実世界での物理的な作動を結び付けており、純粋にソフトウェアベースのエージェントよりもはるかに厳格で異種の通信要件を課します。 6G はミリ秒未満の遅延、超高信頼性、ネイティブ インテリジェンス、統合センシングを約束していますが、これらの機能を身体化されたエージェントの通信に活用する方法に関する体系的な研究は依然として限られています。この記事では、概念と工学の両方の観点から、身体化されたエージェントのための 6G 対応通信システムを調査します。まず、身体化されたエージェントの概念、具現化価値を検討し、身体化されていないエージェントとの区別を明確にします。次に、身体化されたエージェントと 6G ネットワークの間の共生関係を分析します。主要な 6G イネーブラーが人間とロボットのインタラクションの厳しい要件をどのようにサポートできるかを強調します。さらに、カバレッジの拡張、環境センシング、物理世界の理解を通じて通信ネットワークを強化する際の、身体化エージェントの積極的な役割を実証します。これらの洞察に基づいて、人間とロボットの遠隔対話のための階層型通信アーキテクチャを提案します。このアーキテクチャは、人間の意図による知覚層、オープン無線アクセス ネットワーク (O-RAN) ベースのトランスポート層、インテリジェントな中間層、および実施層で構成されます。その実現可能性を検証するために、触覚デバイス、産業用ロボット アーム、中間プラットフォーム、5G O-RAN テストベッドを統合するエンドツーエンドのプロトタイプを実装します。実験結果は、ミリ秒レベルの遅延と安定した閉ループ動作を実証し、提案されたアーキテクチャの実用性を確認し、将来の 6G を組み込んだエージェントの研究と産業展開の参考となります。
原文 (English)
6G Communication Networks Enabling Embodied Agents: Architecture and Prototype
Embodied agents, which couple intelligent decision-making with physical actuation in the real world, impose far more stringent and heterogeneous communication requirements than purely software-based agents. While 6G promises sub-millisecond latency, ultra-high reliability, native intelligence, and integrated sensing, systematic studies on how to exploit these capabilities for embodied agent communication remain limited. This article investigates 6G-enabled communication systems for embodied agents from both conceptual and engineering perspectives. First, we review the concept, embodiment value of embodied agents, and clarify their distinctions from disembodied agents. Then, we analyse the symbiotic relationship between embodied agents and 6G networks. We highlight how key 6G enablers can support the stringent requirements of human-robot interaction. Furthermore, we demonstrate the proactive role of embodied agents in bolstering communication networks through coverage extension, environmental sensing, and physical world understanding. Building on these insights, we propose a hierarchical communication architecture for human-robot remote interaction, comprising a human-intent perception layer, an open radio access network (O-RAN)-based transport layer, an intelligent intermediary layer, and an embodiment layer. To validate its feasibility, we implement an end-to-end prototype that integrates a haptic device, an industrial robotic arm, an intermediary platform, and a 5G O-RAN testbed. Experimental results demonstrate millisecond-level latency and stable closed-loop operation, confirming the practicality of the proposed architecture and providing a reference for future 6G-embodied agent research and industrial deployments.
ノイズの色付け: 忠実な画像の超解像度を実現する敵対的ソボレフ アライメント
画像超解像 (SR) における生成事前分布は、忠実な復元を損なうことがよくありますが、この制限は等方性対物レンズと固有の自然画像多様体の間の基本的なスペクトルの不整合によるものであると考えられます。 Direct Preference Optimization は調整への道を提供しますが、スペクトル的に平坦なガウス ノイズに依存しているため、本物の高周波の詳細を幻覚から区別できません。この幾何学的ギャップを埋めるために、自然なスペクトル減衰を反映するためにノイズ遷移カーネルを明示的に色付けすることにより、生成フローをソボレフ誘起リーマン幾何学に再キャストする、理論に基づいたフレームワークである ASASR を提案します。この幾何学的配置を推進するために、リース表現定理に基づいたパラメトリックな敵対者を統合します。これは、最悪の場合のソボレフ勾配に相当するターゲットを絞ったネガティブ サンプルを合成して、考えられる構造的破損の接線空間に沿った最適化を直接行います。広範な評価により、ASASR は、特にスペクトルの一貫性と構造忠実度の維持において主要な生成ベースラインを上回り、アーティファクトを効果的に軽減する堅牢なソリューションを提供することが実証されています。
原文 (English)
Coloring the Noise: Adversarial Sobolev Alignment for Faithful Image Super Resolution
Generative priors in Image Super-Resolution (SR) often compromise faithful restoration, we attribute this limitation to a fundamental spectral misalignment between isotropic objectives and the intrinsic natural image manifold. While Direct Preference Optimization offers a path to alignment, its reliance on spectrally flat Gaussian noise fails to distinguish authentic high-frequency details from hallucinations. To bridge this geometric gap, we propose ASASR, a theoretically grounded framework that recasts the generative flow into a Sobolev-induced Riemannian geometry by explicitly coloring the noise transition kernel to mirror natural spectral decay. Driving this geometric alignment, we integrate a parametric adversary grounded in the Riesz Representation Theorem, which synthesizes targeted negative samples equivalent to worst-case Sobolev gradients to direct optimization along the tangent space of plausible structural failures. Extensive evaluations demonstrate that ASASR outperforms leading generative baselines, particularly in preserving spectral consistency and structural fidelity, offering a robust solution that effectively mitigates artifacts.
ChainFlow-VLA: 視覚言語モデルを使用した因果フロー計画
現在のエンドツーエンドの自動運転システムは、時間的因果推論とグローバルな軌道の一貫性の間の不一致によって根本的に制限されています。自己回帰 (AR) モデルは、因果因数分解を通じて相互作用を認識した時間的依存関係を捕捉しますが、その段階的なデコードによりエラーが蓄積され、最適ではないグローバル構造が生じます。対照的に、拡散モデルは軌道をグローバルに最適化しますが、明示的な因果関係の制約がないため、インタラクティブで安全性が重要なシナリオでは信頼性が低くなります。この二分法は、より深い問題を明らかにしています。既存の手法は、因果モデリングとグローバル最適化を別個のパラダイムとして扱っており、それらを単一の軌道分布内で統一する原則的な方法がありません。これに対処するために、統一された確率的フレームワーク内で因果関係の生成とグローバルな洗練を統合する ChainFlow-VLA を提案します。 AR 誘発モードの混合として計画を定式化し、これらのモードにわたって視覚言語モデル (VLM) で条件付けされた残差分布を学習します。自己回帰ジェネレーター (チェーン) は因果軌道モードの離散セットを生成し、続いて拡散ベースのリファイナー (フロー) が VLM 隠れ状態をセマンティック事前分布として活用し、因果構造を維持しながら残差空間でモード条件付き補正を実行します。この単純なコンディショニングにより、高レベルのシーンの理解がきめ細かい軌道調整にシームレスに組み込まれます。実験では、ChainFlow-VLA が曖昧でロングテールのシナリオでも堅牢な計画を達成し、NAVSIM v1 リーダーボードで 94.85 という最先端のスコアを達成し、人間レベルのパフォーマンス (94.8) に匹敵することが実証されました。コードは https://github.com/AFARI-Research/ChainFlow-VLA で入手できます。
原文 (English)
ChainFlow-VLA: Causal Flow Planning with Vision-Language Models
Current end-to-end autonomous driving systems are fundamentally limited by a mismatch between temporal causal reasoning and global trajectory consistency. Autoregressive (AR) models capture interaction-aware temporal dependencies via causal factorization, but their step-wise decoding leads to error accumulation and suboptimal global structure. In contrast, diffusion models optimize trajectories globally but lack explicit causal constraints, making them unreliable in interactive and safety-critical scenarios. This dichotomy reveals a deeper issue: existing methods treat causal modeling and global optimization as separate paradigms, without a principled way to unify them within a single trajectory distribution. To address this, we propose ChainFlow-VLA, which unifies causal generation and global refinement within a unified probabilistic framework. We formulate planning as a mixture over AR-induced modes and learn Vision-Language Model (VLM)-conditioned residual distributions over these modes. An autoregressive generator (Chain) produces a discrete set of causal trajectory modes, followed by a diffusion-based refiner (Flow) that leverages VLM hidden states as semantic priors to perform mode-conditioned correction in residual space while preserving causal structure. This straightforward conditioning seamlessly injects high-level scene understanding into fine-grained trajectory adjustments. Experiments demonstrate that ChainFlow-VLA achieves robust planning in ambiguous and long-tail scenarios, achieving a state-of-the-art score of 94.85 on the NAVSIM v1 leaderboard, matching human-level performance (94.8). Code will be available at https://github.com/AFARI-Research/ChainFlow-VLA.
EvalVerse: プロの映画ビデオ生成のためのパイプラインを認識し、専門家によって調整されたベンチマーク
生成ビデオ基盤モデルの急速な進化により、この分野はプロフェッショナル グレードの映画合成に向けて推進されています。このような厳しい品質を達成するために、コミュニティは強化学習 (RL) とエージェント ワークフローに移行しています。しかし、信頼性の高い評価が重大なボトルネックとして浮上しています。既存のベンチマークは主に「正しいかどうか」(基本的なプロンプトフォロー)を評価し、「良いかどうか」(映画の品質、演技、美学)は基本的に無視しています。さらに、現在の自動化されたメトリクスには、信頼できるシグナルを提供するために必要なドメイン固有の厳密さが欠けており、人間の美的認識と機械によるスコアリングの間に深刻な信頼性のギャップが生じています。このギャップを埋めるために、パイプラインを認識し、専門家によって調整された包括的な評価フレームワークである EvalVerse を導入します。私たちはビデオ生成の評価を単なるエンジニアリング作業としてではなく、核となる科学的問題、つまり主観的な映画の専門知識の体系的なデジタル化として扱います。まず、専門的な映画制作ワークフロー (プリプロダクション、プロダクション、ポストプロダクション) に沿った評価分類にドメイン知識を整理します。 2 番目に、人間の専門家の判断を抽出して、大規模な人間による注釈を備えた厳選されたデータセットを作成します。 3 番目に、専門家が調整した微調整戦略を通じてこの知識を視覚言語モデル (VLM) に注入し、VLM が明示的な思考連鎖推論を実行できるようにします。以前の作品と比較して、EvalVerse は基本的な「正しさ」指標との互換性を維持するだけでなく、基準を「正しさ」に大幅に拡張し、複雑なマルチショット シーケンスやオーディオビジュアル統合までタスクの範囲を広げます。その結果、EvalVerse は詳細な診断信号を提供することにより、静的なリーダーボードを超越し、報酬モデルや評価エージェントなどの将来の作業のための基本的なインフラストラクチャを確立します。
原文 (English)
EvalVerse: Pipeline-Aware and Expert-Calibrated Benchmarking for Professional Cinematic Video Generation
The rapid evolution of generative video foundation models has propelled the field toward professional-grade cinematic synthesis. To achieve such demanding quality, the community transitions towards Reinforcement Learning (RL) and agentic workflows. However, reliable evaluation has emerged as a critical bottleneck. Existing benchmarks predominantly evaluate ''whether it is right'' (basic prompt-following) while fundamentally neglecting ''whether it is good'' (cinematic quality, acting, and aesthetics). Furthermore, current automated metrics lack the domain-specific rigor required to provide trustworthy signals, creating a severe credibility gap between human aesthetic perception and machine scoring. To bridge this gap, we introduce EvalVerse, a comprehensive, pipeline-aware, and expert-calibrated evaluation framework. We treat video generation assessment not merely as an engineering task, but as a core scientific problem: the systematic digitization of subjective cinematic expertise. First, we organize domain knowledge into an evaluation taxonomy aligned with the professional filmmaking workflow (pre-production, production, and post-production). Second, we distill human expert judgments into a curated dataset with large-scale human annotations. Third, we inject this knowledge into Vision-Language Models (VLMs) through an expert-calibrated fine-tuning strategy, enabling the VLM to perform explicit Chain-of-Thought reasoning. Compared to previous works, EvalVerse not only retains compatibility with foundational ''rightness'' metrics, but also significantly expands the criteria to ''goodness'' and broaden the task coverage to complex multi-shot sequencing and audio-visual integration. Consequently, by providing granular diagnostic signals, EvalVerse transcends a static leaderboard and establishes a fundamental infrastructure for future work, such as reward models and evaluator agent.
良い方程式が悪いスコアになる場合: パラメーターの最適化を改善することでシンボリック回帰を改善する
シンボリック回帰 (SR) は、観察データから数式を抽出することにより、科学的知識の発見において中心的な役割を果たします。既存の SR メソッドのほとんどは、2 レベルの最適化フレームワーク内で機能します。つまり、離散方程式構造を検索する外側のループと、その構造の連続パラメーターを最適化する内側のループです。重要なのは、パラメーターの適合品質が構造のスコアを直接決定し、したがって外部ループの検索を決定することです。ただし、非線形演算子により内部ループが高度に非凸になり、高速ローカル ソルバー (BFGS など) への予算主導の依存により、正しい構造に対する不十分な極小値や過小評価されたスコアが得られることがよくあります。この「良い構造、悪いスコア」現象が重要なボトルネックとなり、効率を低下させ、検索を真の方程式から誤って導きます。これを解決するために、シンボリック式のデュアル ネイティブ事前分布を利用する SR ネイティブ フィッティング フレームワークである SAGE-Fit (Structure-Aware and Semantics-Guided Evaluator for Symbolic Regression) を提案します。 SR に特有の構造的および意味論的な事前確率を利用することで、各プロパティに合わせたモジュールを設計し、それによってこの最適化のボトルネックを効果的に軽減します。広範な実験により、プラグ アンド プレイ モジュールとしての当社のアプローチが評価の忠実度を大幅に向上させ、さまざまな SR システムのパフォーマンスを普遍的に向上させることが実証されました。
原文 (English)
When Good Equations Get Bad Scores: Improving Symbolic Regression Through Better Parameter Optimization
Symbolic Regression (SR) plays a central role in scientific knowledge discovery by distilling mathematical equations from observational data. Most existing SR methods function within a bi-level optimization framework: an outer loop that searches for the discrete equation structure, and an inner loop that optimizes the continuous parameters of that structure. Crucially, parameter-fitting quality directly determines a structure's score and thus the outer-loop search. However, nonlinear operators make the inner loop highly non-convex, and budget-driven reliance on fast local solvers (e.g., BFGS) often yields poor local minima and underestimated scores for correct structures. This ``Good Structure, Bad Score'' phenomenon becomes a key bottleneck, degrading efficiency and misguiding the search away from the true equation. To resolve this, we propose SAGE-Fit (Structure-Aware and Semantics-Guided Evaluator for Symbolic Regression), an SR-native fitting framework that exploits the dual native priors of symbolic expressions. By capitalizing on the structural and semantic priors unique to SR, we design tailored modules for each property, thereby effectively mitigating this optimization bottleneck. Extensive experiments demonstrate that our approach, as a plug-and-play module, significantly enhances evaluation fidelity and universally improves the performance of various SR systems.
同類性制約を備えたマイクロカノニカル グラフ アンサンブルの強化学習
ネットワーク構造が機能をどのように決定するかは基本的な問題であり、構造特性を正確に制御したグラフ アンサンブルによって調査できます。指数関数的ランダム グラフ モデル (ERGM) として定式化された正規アプローチは、期待値に対してのみ制約を適用し、個々の実現が目標の周りで変動することを許容します。逆に、マイクロカノニカルアンサンブルは厳密な制約を正確に課しますが、次数シーケンスを固定する以上の実用的なサンプリング方法は依然として手の届かないところにあります。ここでは、強化学習 (RL) フレームワークであるディープ マイクロカノニカル グラフ ジェネレーター (DMGG) を紹介します。このフレームワークは、次数を保持する再配線を通じて任意のグラフを変換し、隣接するノードの次数間の相関を特徴付ける指定された同類性を正確に達成します。 ERGM のエントロピー的に支配的なメトロポリス - ヘイスティングス ダイナミクスに依存する代わりに、DMGG は結合次数行列を最大限に変更するポリシーに基づく検索を採用します。これにより、徹底的なパラメータ調整が不要になり、構成の多様性を維持しながら、生成が少なくとも 1 桁高速化されます。 DMGG はさまざまなグラフ サイズ、スパース性、トポロジにわたって一般化するため、クラスタリング係数などの二次観測値の定量的な分離を可能にする正確なヌル モデルを提供します。これらの結果は、RL を、厳密に制約されたグラフを生成するための実用的で強力なパラダイムとして確立し、アンサンブルアーチファクトのない構造と機能の関係を調査する道を開きます。
原文 (English)
Reinforcement Learning for Microcanonical Graph Ensemble with Assortativity Constraints
How network structure determines function is a fundamental question, and it can be investigated by graph ensembles with precisely controlled structural properties. Canonical approaches, formulated as exponential random graph models (ERGMs), enforce constraints only in expectation, allowing individual realizations to fluctuate around the target. Conversely, microcanonical ensembles impose hard constraints exactly, but practical sampling methods beyond fixing the degree sequence have remained out of reach. Here we introduce the Deep Microcanonical Graph Generator (DMGG), a reinforcement learning (RL) framework that transforms any given graph through degree-preserving rewirings to exactly reach a prescribed assortativity, which characterizes the degree--degree correlation of adjacent nodes. Instead of relying on the entropically dominated Metropolis--Hastings dynamics of the ERGM, DMGG employs a policy-guided search that maximally alters the joint-degree matrix. This eliminates exhaustive parameter tuning and accelerates generation by at least an order of magnitude while preserving configurational diversity. As DMGG generalizes across various graph sizes, sparsities, and topologies, it provides exact null models that allow for the quantitative isolation of secondary observables, such as the clustering coefficient. These results establish RL as a practical and powerful paradigm for generating hard-constrained graphs, opening avenues to investigate structure-function relationships free from ensemble artifacts.
理解なき収束: 言語モデルが表現に関しては一致するが、推論に関しては一致しない場合
多様な目的とアーキテクチャの下で訓練された大規模な言語モデルは、ますます類似した内部表現を開発することが示されており、この観察はプラトン表現仮説として形式化されています。この表現の収束が共有表現上で動作する推論プロセスにまで及ぶかどうかはまだテストされていません。私たちは、数学、科学、常識、真実性にわたる 800 の推論問題について、8 つのファミリー (1.5B ~ 72B パラメーター) からの 16 の言語モデルにわたる表現の類似性を、問題の難易度、計算段階、因果関係によって階層化して評価します。私たちの分析では、3 つの解離が明らかになりました。1 つは難易度の逆転で、モデルが解決する問題 (CKA = 0.830) よりも、集合的に失敗する問題 (Centered Kernel Alignment [CKA] = 0.897) に多く収束します。世代間のギャップ。決定前の表現は一致している(CKA = 0.875)一方、決定後の表現は発散している(CKA = 0.274)。共有情報はモデル間で解読可能であるが(転送精度 66%)、予測への因果的影響は最小限に抑えられます(アブレーション プロトコル全体で 1.5% ~ 5.5% の反転率)。これらの結果は、言語モデルにおける表現の収束が、共有の推論戦略ではなく、共有の入力処理制約を反映しており、アンサンブル設計、解釈可能性の伝達、およびモデルの類似性の評価に直接的な影響を与えることを示しています。コードは https://github.com/Usama1002/convergence-without- Understanding で入手できます。
原文 (English)
Convergence Without Understanding: When Language Models Agree on Representations but Disagree on Reasoning
Large language models trained under diverse objectives and architectures have been shown to develop increasingly similar internal representations, an observation formalized as the Platonic Representation Hypothesis. Whether this representational convergence extends to the reasoning processes that operate over shared representations remains untested. We evaluate representational similarity across 16 language models from 8 families (1.5B to 72B parameters) on 800 reasoning problems spanning mathematics, science, commonsense, and truthfulness, stratifying by problem difficulty, computational stage, and causal relevance. Our analysis reveals three dissociations: a difficulty inversion, where models converge more on problems they collectively fail (Centered Kernel Alignment [CKA] = 0.897) than on those they solve (CKA = 0.830); a generation gap, where pre-decision representations align (CKA = 0.875) while post-decision representations diverge (CKA = 0.274); and epiphenomenal correctness, where shared information is decodable across models (66% transfer accuracy) but exerts minimal causal influence on predictions (1.5% to 5.5% flip rate across ablation protocols). These results indicate that representational convergence in language models reflects shared input processing constraints rather than shared reasoning strategies, with direct implications for ensemble design, interpretability transfer, and evaluations of model similarity. Code is available at https://github.com/Usama1002/convergence-without-understanding.
モーションプリミティブからの幾何学的アセンブリによるスパース構成フローマッチング
ロボットマニピュレーター、水中車両、移動ロボットの実行可能な動作シーケンスなどの身体化された軌道は、身体化された AI の基本的な出力です。現代の生成モデルは多くの場合、データを点ごとに生成される高密度のモノリシック信号として扱い、データの潜在構造をモデル化しないまま複雑な高次元事後分布をフィッティングします。これは、構造化生成モデルの文献で長い間特定されてきたサンプルの非効率性と同じです。私たちは、構成的な潜在構造は自然な選択であると主張します。多くの具体化されたタスクは、再利用可能なモーション プリミティブの有限レパートリーとして明示化できる繰り返しのモーション フラグメントを共有し、構成単位はタスクの分解をサポートするためにサブタスクの境界と自然に一致します。しかし、既存の合成ジェネレータは潜在空間で合成し、ポストホック デコーディングに依存してサンプリングされたユニットを実際の軌跡セグメントに関連付けます。代わりに、2 つの結合されたデザインを備えたフローマッチングフレームワークを通じて、物理的な軌道空間で直接合成します。モーション プリミティブ ディクショナリ学習では、各アトムに学習可能な長さのマスクとバイナリ開始インジケーターが装備されるため、アトム自体はプリミティブであり、どこに配置されてもそのまま再利用されます。次に、幾何学的制約を使用した構造的スパース フロー マッチングにより、持続時間を考慮したトークン化と、隣接するプリミティブが出会う場所の空間的連続性と時間的連続性を強制する微分可能な幾何学的損失を使用して、バイナリ配置行列が生成されます。 Open X-Embodiment と 3DMoTraj では、フレームワークは最先端の精度を達成し、FDE/ADE 比を 1.8 から 1.07 に削減し、最も強力なベースラインと比較して ADE を 19.2%、FDE を 21.0% 改善しました。
原文 (English)
Sparse Compositional Flow Matching by geometric assembly from motion primitives
Embodied trajectories, such as the executable motion sequences of robotic manipulators, underwater vehicles, and mobile robots, are a fundamental output of embodied AI. Modern generative models often treat them as a dense, monolithic signal generated point by point, fitting an intricate high-dimensional posterior while leaving the data's latent structure unmodeled, the same sample inefficiency long identified by the structured generative model literature. We argue that a compositional latent structure is a natural choice: many embodied tasks share recurring motion fragments that can be made explicit as a finite repertoire of reusable motion primitives, and compositional units naturally align with subtask boundaries to support task decomposition. Existing compositional generators, however, compose in a latent space and rely on post-hoc decoding to relate sampled units to actual trajectory segments. We instead compose directly in the physical trajectory space through a flow-matching framework with two coupled designs. Motion-Primitive Dictionary Learning equips each atom with a learnable length mask and binary starting indicators so the atom itself is the primitive, reused verbatim wherever it is placed. Structural Sparse Flow Matching with Geometric Constraints then generates a binary placement matrix using duration-aware tokenization and a differentiable geometric loss that enforces spatial continuity and temporal contiguity where adjacent primitives meet. On Open X-Embodiment and 3DMoTraj, the framework attains state-of-the-art accuracy and reduces the FDE/ADE ratio from 1.8 to 1.07, improving ADE by 19.2% and FDE by 21.0% over the strongest baseline.
CHASD: LVLM における幻覚に対する言語インクリメント調整されたコントラスト復号化
大規模な視覚言語モデルは、強力なマルチモーダル推論能力を示していますが、言語の優先順位が不十分または不整合な視覚的証拠を支配する場合、依然として物体幻覚の影響を受けやすいです。トレーニング不要のコントラスト復号化手法は、元の視覚入力と摂動された視覚入力からの予測を比較することでこの問題を軽減しますが、既存のアプローチは、有用な視覚的証拠を変更する可能性のある全体的な摂動を適用するか、復号化ステップごとに追加の否定的な分岐を呼び出すかのいずれかです。この論文では、幻覚リスクは一時的でトークン固有であることを観察しました。視覚的な注意は生成されたトークン全体に移動しますが、一部の機能トークンは高い信頼性で生成され、コントラストのキャリブレーションを必要としません。この観察に基づいて、我々は、「オンデマンドのキャリブレーション」のための推論時間フレームワークである、大規模視覚言語モデル用のContrastive Hallucination-Aware Step-wise Decoding (CHASD)を提案します。 CHASD は、不確実性主導の信頼ゲートを使用して、次のトークンの最大確率がしきい値未満の場合にのみ対照的な分岐をアクティブにし、現在顕著なビジュアル トークンの注意に誘導された局所的な摂動を通じて負の分岐を構築します。この設計により、信頼性の高いステップの元の分布を維持しながら、不必要な負の分岐の前方パスが削減されます。 POPE、AMBER、MME、MMHal-Bench、および CHAIR に関する実験では、CHASD が競合推論効率を備えた強力なトレーニング不要のベースラインよりも幻覚関連の指標を改善することが示されています。
原文 (English)
CHASD: Language Increment-Calibrated Contrastive Decoding against Hallucination in LVLMs
Large Vision-Language Models have shown strong multimodal reasoning capabilities, yet they remain susceptible to object hallucinations when language priors dominate insufficient or misaligned visual evidence. Training-free contrastive decoding methods mitigate this issue by comparing predictions from original and perturbed visual inputs, but existing approaches either apply global perturbations that may alter useful visual evidence or invoke an additional negative branch at every decoding step. In this paper, we observe that hallucination risks are transient and token-specific: visual attention shifts across generated tokens, while some functional tokens are produced with high confidence and do not require contrastive calibration. Based on this observation, we propose Contrastive Hallucination-Aware Step-wise Decoding (CHASD) for Large Vision-Language Models, an inference-time framework for "calibration on demand". CHASD uses an uncertainty-driven confidence gate to activate the contrastive branch only when the maximum probability of the next-token is less than the threshold, and constructs the negative branch through attention-guided localized perturbations of the currently salient visual tokens. This design reduces unnecessary negative-branch forward passes while preserving the original distribution for high-confidence steps. Experiments on POPE, AMBER, MME, MMHal-Bench, and CHAIR show that CHASD improves hallucination-related metrics over strong training-free baselines with competitive inference efficiency.
XWind: 再生可能エネルギー発電所で機能する大規模言語モデル推論用のクロスサイト ルーター
AI の電力需要は前例のない速度で増加していますが、電力網はしばしば故障しており、それを維持するのに苦労しています。送電網の拡大には多額の設備投資と長距離送電損失が伴いますが、電源には再生可能エネルギーが豊富にありますが、需要に見合っていません。この論文では、補完的な AI インフラストラクチャ展開モデルである AI Greenferencing を提案します。これは、モジュール式 AI コンピューティングを再生可能エネルギー源にもたらし、風力に焦点を当て、AI フットプリントの拡大を可能にし、再生可能サイトに対する地元のメーター内の需要を生み出し、電力会社への増大する負担の軽減に役立ちます。当社の実現可能性分析の結果、890 GW 以上の風力発電容量が、Azure データ センターのネットワーク往復時間 50 ミリ秒以内にあり、サイトごとの適切なサイジングと風力エネルギーの空間的補完性の組み合わせにより、フリートの総利用率が従来の導入と同等に維持されることが示されています。変動する風力発電の下で推論リクエストに対応するために、推論レイテンシー、KV キャッシュの使用率、キューの深さなどのリアルタイム信号のみを使用してサイトを動的に構成し、リクエストを分散する、軽量でリアクティブでワークロードに依存しない AI 推論ルーターである XWind を構築します。 Azure の実稼働トレースを使用して 3 つの風力発電サイトをエミュレートする実際の 64 GPU A100 テストベッドで評価したところ、XWind は P99 のエンドツーエンド レイテンシーを、最強の競合他社 (これも当社のアイデア) と比較して最大 52% 削減し、電力制限や GPU アイドリングなどのベースラインと比較して最大 98% 削減し、ワークロードの種類、負荷レベル、GPU の世代にわたって一貫した向上を実現しました。
原文 (English)
XWind: A Cross-site Router for Large Language Model Inference Serving at Renewable Energy Farms
AI power demand is growing at an unprecedented rate while power grids are often ailing and struggle to keep up. Grid expansion comes with high capital expenditure and long-distance transmission losses, yet there is abundant renewable energy at the source, just not matched to demand. This paper proposes a complementary AI infrastructure deployment model, AI Greenferencing, that brings modular AI compute to renewable energy sources, focusing on wind, allowing AI footprint expansion, generating local behind-the-meter demand for renewable sites, and helping ease the growing strain on power utilities. Our feasibility analysis shows that 890+ GW of wind capacity lies within 50 ms network round trip time of Azure data centers, and that site-wise right-sizing combined with spatial complementarity of wind energy keeps aggregate fleet utilization on par with traditional deployments. To serve inference requests under variable wind power, we build XWind, a lightweight, reactive, and workload-agnostic AI inference router that uses only real-time signals: inference latency, KV-cache utilization, and queue depth, to dynamically configure sites and distribute requests. Evaluated on a real 64-GPU A100 testbed emulating three wind-powered sites with Azure production traces, XWind reduces P99 end-to-end latency by up to 52% over the strongest contender (also our idea) and by up to 98% over baselines such as power-capping and GPU idling, with consistent gains across workload types, load levels, and GPU generations.
スコアベースのワンステップ MeanFlow ポリシー最適化
拡散とフロー マッチングは、強化学習における表現力豊かなポリシー クラスとして登場しましたが、マルチステップのノイズ除去への依存により、推論時にかなりの計算オーバーヘッドが生じ、オンライン RL では特に問題になります。 MeanFlow は、単一のネットワーク評価でノイズをデータにマッピングする平均速度場を学習することで、有望な代替手段を提供します。ただし、MeanFlow では通常、ターゲット速度フィールドを構築するためにターゲット分布からのサンプルが必要ですが、オンライン RL ではこれを利用できません。我々は、スコアベースのワンステップ MeanFlow Policy Optimization (SOM) を提案します。これは、スコア推定と確率フロー ODE を介して Q 関数から直接ターゲット速度場を構築することでこれを解決するアクタークリティカル アルゴリズムであり、それによって確率質量を高値モードに集中させます。完全オンライン RL 設定では、SOM は 1 世代ステップで移動タスクで最先端のパフォーマンスを達成しながら、以前の拡散ベースおよびフローマッチングベースのポリシーと比較してトレーニング時間と推論時間の両方を大幅に短縮します。
原文 (English)
Score-Based One-step MeanFlow Policy Optimization
Diffusion and flow matching have emerged as expressive policy classes in reinforcement learning, but their reliance on multi-step denoising imposes substantial computational overhead at inference time, which is particularly problematic in online RL. MeanFlow offers a promising alternative by learning an average velocity field that maps noise to data in a single network evaluation. However, MeanFlow typically requires samples from the target distribution to construct its target velocity field, which are unavailable in online RL. We propose Score-Based One-step MeanFlow Policy Optimization (SOM), an actor-critic algorithm that resolves this by constructing the target velocity field directly from the Q-function via score estimation and a probability flow ODE, thereby concentrating probability mass on high-value modes. In the fully online RL setting, SOM achieves state-of-the-art performance on locomotion tasks with a single generation step, while substantially reducing both training and inference time compared to prior diffusion- and flow-matching-based policies.
測定可能なタスク表現学習によるカリキュラム強化学習
カリキュラム強化学習 (CRL) では、エージェントは一連のタスク (つまり、カリキュラム) にわたって知識を段階的に蓄積し、学習プロセスは、蓄積された知識を使用して、最終的に困難なターゲット タスクを解決することを目的としています。初期の CRL の研究は候補タスクの順序付けに焦点を当てていましたが、最近の研究ではカリキュラムの自動生成が検討されています。豊富な CRL 文献の中で、補間ベースの CRL パラダイムは主要な本体であり、意味のある距離メトリックを使用してタスク空間内の初期タスク分布とターゲット タスク分布の間を補間することによって中間タスクを自動的に生成します (つまり、タスクの類似性を測定できます)。ただし、困難なナビゲーション タスクでは、非ユークリッド コンテキスト (タスク) 空間がこの仮定を無効にします。複雑なタスクにおける自動カリキュラム生成を実現するために、測定可能なタスク表現学習に基づいた新しい自動カリキュラム生成アプローチを提案します。類似性をより適切に測定するために、タスク空間を潜在空間に変換することを提案します。報酬と状態遷移をエンコードする変分オートエンコーダ構造を通じて、タスクの類似性測定プロパティを備えた潜在タスク表現を実現します。また、2 つの近いタスクの埋め込みは、報酬と状態遷移の点で 2 つの類似したタスクに対応します。学習されたタスク表現に基づいて、ターゲット タスクにますます類似した新しいタスクを効果的に生成できる自動カリキュラム生成スキームをさらに開発します。私たちは、さまざまな困難なナビゲーション タスクで私たちの方法を評価しました。実験結果は、提案されたアプローチが内挿および敵対的生成ネットワークに基づく最先端の CRL アプローチを超えることを示しています。
原文 (English)
Curriculum reinforcement learning with measurable task representation learning
In curriculum reinforcement learning (CRL), an agent incrementally accumulates knowledge over a sequence of tasks (i.e., a curriculum), and the learning process is aimed at using the accumulated knowledge to finally solve a challenging target task. While early CRL works focus on sequencing candidate tasks, recent research explores automatic curriculum generation. Among the rich CRL literature, the interpolation-based CRL paradigm is a main body, which automatically generates intermediate tasks by interpolating between the initial task distribution and the target task distribution in task space with meaningful distance metrics (i.e., can measure the task similarity). However, in challenging navigation tasks, the non-Euclidean context (task) space invalidates this assumption. To achieve automatic curriculum generation in complex task, we propose a novel automatic curriculum generation approach based on measurable task representation learning. To better measure the similarity, we propose to transform the task space to a latent space. Through a variational autoencoder structure that encodes the reward and the state transitions, we achieve a latent task representation with a task similarity measurement property, and two close task embeddings correspond to two similar tasks in terms of rewards and state transitions. Based on the learned task representation, we further develop an automatic curriculum generation scheme, which can effectively generate new tasks more and more similar to the target task. We evaluate our method in a variety of challenging navigation tasks, and the experiment results indicate that the proposed approach surpasses state-of-the-art CRL approaches based on interpolation and generative adversarial networks.
報酬としてのメタ認知: 知識と規制信号による LLM 推論の強化
最近の RL 手法により、LLM の推論能力が大幅に向上しました。既存の報酬設計は、主に 2 つのパラダイムに従います。(1) 検証可能な報酬を伴う強化学習 (RLVR) は、実行可能なチェックまたはグラウンドトゥルースの回答から結果シグナルを導き出しますが、中間推論行動に対する限定的なガイダンスを提供します。 (2) 報酬としてのルーブリック (RaR) は、自然言語ルーブリックを使用して推論の品質とタスクの準拠性を評価することにより、最終的な回答のチェックを超えていますが、多くの場合、インスタンス固有のルーブリックと多大な設計労力が必要です。これらの問題に対処するために、我々は、メタ認知にインスピレーションを得た RL フレームワークである Metacognition-as-Reward (MaR) を導入します。これは、2 つの一般的なプロセス次元を通じて LLM 推論をガイドします。i) 手作りのインスタンス固有のルーブリックなしでタスク関連情報を識別するメタ認知知識、ii) 最終的な回答結果を超えた報酬ガイダンスを提供するために推論プロセスを計画および調整するメタ認知規制です。 MaR は、モデルの展開を明示的なメタ認知コンポーネントに足場を組み、タスクの知識範囲、規制の忠実度、最終的な回答の正しさに対する軌跡レベルの報酬でそれらを最適化します。このようにして、MaR は報酬シグナルを一般的なメタ認知次元に根付かせながら、報酬フィードバックを推論軌道に拡張します。 22 のベンチマークの実験では、MaR がモデルのパフォーマンスを一貫して向上させ、ベース モデルに対して最大 7.7% の向上、バニラ DAPO に対して最大 11.0% の向上を達成することが示されています。特に、Qwen3.5-9B + MaR はフロンティア モデルとの差を縮めており、全体平均で GPT-OSS-120B を上回り、いくつかの個別ベンチマークで強力なモデルを上回っています。さらに、プロセスレベルの分析では、推論プロセスの品質が大幅に向上していることがわかります。 MaR はドメイン外のデータセットにも一般化され、MaR でトレーニングされたモデルは、平均して対応するベース モデルよりも向上します。
原文 (English)
Metacognition as Reward: Reinforcing LLM Reasoning via Knowledge and Regulation Signals
Recent RL methods have substantially improved the reasoning abilities of LLMs. Existing reward designs mainly follow two paradigms: (1) Reinforcement learning with verifiable rewards (RLVR) derives outcome signals from executable checks or ground-truth answers, but provides limited guidance for intermediate reasoning behaviors. (2) Rubrics-as-reward (RaR) goes beyond final-answer checking by using natural-language rubrics to assess reasoning quality and task compliance, but often requires instance-specific rubrics and substantial design effort. To address these issues, we introduce Metacognition-as-Reward (MaR), a metacognition-inspired RL framework that guides LLM reasoning through two general process dimensions: i) metacognitive knowledge, which identifies task-relevant information without hand-crafted instance-specific rubrics, and ii) metacognitive regulation, which plans and adjusts the reasoning process to provide reward guidance beyond final-answer outcomes. MaR scaffolds model rollouts into explicit metacognitive components and optimizes them with a trajectory-level reward over task knowledge coverage, regulation fidelity, and final-answer correctness. In this way, MaR extends reward feedback to reasoning trajectories while grounding the reward signals in general metacognitive dimensions. Experiments on 22 benchmarks show that MaR consistently improves model performance, achieving up to a 7.7% gain over the base model and up to an 11.0% gain over vanilla DAPO. Notably, Qwen3.5-9B + MaR narrows the gap to frontier models, surpassing GPT-OSS-120B on overall average and outperforming stronger models on several individual benchmarks. Process-level analysis further shows substantial improvements in reasoning process quality. MaR also generalizes to out-of-domain datasets, where MaR-trained models improve over their corresponding base models on average.
すべてのコンポーネントはルックアップです: 単一の分解からのトークンの帰属と構成
変圧器の機構的な解釈には、どのコンポーネントが重要であるかだけでなく、それらのコンポーネントが予測を生成する計算ルートにどのように組み込まれるかを特定する必要があります。アテンションと MLP は両方とも、共有キーと値のテンプレート $\phi(S)U$ に従います。この構造を利用して、両方のサブレイヤーを介してクレジットを分解する後方再帰である Unpack を開発し、任意の 2 つのコンポーネント間の相互作用強度、K/Q/V 構成ラベルを持つ名前付きエンドツーエンド パス、および単一の前方パスからのトークンごとの属性を、介入、勾配、または補助トレーニングなしで生成します。間接的なオブジェクト識別タスクで評価します。 GPT-2 small では、このメソッドは Wang らによって説明されている 3 つの構成接続すべてを回復します。 (2023)、各接続 (K、Q、または V) のモード固有のルーティングを含みます。単純なコピーを超えたトークンレベルの帰属をテストするために、同じ分解で同じ名前が 2 つ出現することを比較します。最初の言及は強い信用を保持しますが、重複検出位置は抑制されます。これは、一致するコントロール プロンプトには存在しないパターンです。 160M から 6.9B パラメータの Pythia ファミリ全体にわたって、この抑制パターンはすべてのスケールで一貫して回復されており、この手法がグラウンド トゥルース回路ラベルなしで機構構造を追跡していることが実証されています。コードは https://github.com/Fun-Cry/unpacklm で入手できます。
原文 (English)
Every Component is a Lookup: Token Attribution and Composition from a Single Decomposition
Mechanistic interpretability of transformers requires identifying not just which components matter but how they compose into the computational route that produced a prediction. Both attention and MLP follow a shared key-value template $\phi(S)U$. We exploit this structure to develop Unpack, a backward recursion that decomposes credit through both sublayers, producing interaction strengths between any two components, named end-to-end paths with K/Q/V composition labels, and per-token attribution from a single forward pass, without intervention, gradients, or auxiliary training. We evaluate on the indirect object identification task. On GPT-2 small, the method recovers all three composition connections described by Wang et al. (2023), including the mode-specific routing of each connection (K, Q, or V). To test token-level attribution beyond trivial copying, we compare two occurrences of the same name in the same decomposition: the first mention retains strong credit while the duplicate-detection position is suppressed, a pattern absent in matched control prompts. Across the Pythia family from 160M to 6.9B parameters, this suppression pattern is consistently recovered at every scale, demonstrating that the method tracks mechanistic structure without ground-truth circuit labels. Code is available at https://github.com/Fun-Cry/unpacklm.
非定常確率時系列予測のためのパラメトリック事前マッピング フレームワーク
確率的多変量時系列 (MTS) 予測で非定常ダイナミクスを効果的にモデル化するには、表現力と堅牢性のバランスをとる必要があります。既存のパラメトリック アプローチは、強力な帰納的バイアスの恩恵を受けますが、柔軟性に欠けます。一方、深い生成モデルは、大規模なデータと計算がなければ複雑な時間的依存関係を捉えるのに苦労します。パラメトリック事前マッピング (PPM) は、生成モデリング プロセスにパラメトリック構造事前マッピングを注入するフレームワークです。具体的には、PPM はパラメトリック推定器を利用して、学習可能なマッピングを介して複雑な予測分布の学習をガイドする動的で適応的な事前分布を導き出します。この設計により、モデルは生成モデルの表現力を活用しながら、パラメトリック手法の効率を維持することができます。ハイブリッド目標を使用してトレーニングされた PPM は、適切に調整された不確実性推定値を使用して正確な予測を生成します。経験的な結果は、PPM が非定常データの処理において既存のベースラインを上回り、精度と計算効率の間に優れたトレードオフを提供することを示しています。コードは https://github.com/ljl8336/PPM で入手できます。
原文 (English)
Parametric Prior Mapping Framework for Non-stationary Probabilistic Time Series Forecasting
Effectively modeling non-stationary dynamics in probabilistic multivariate time series(MTS) forecasting requires balancing expressiveness with robustness. Existing parametric approaches benefit from strong inductive biases but lack flexibility, whereas deep generative models struggle to capture complex temporal dependencies without extensive data and computation. We introduce Parametric Prior Mapping (PPM), a framework that injects parametric structural priors into a generative modeling process. Specifically, PPM utilizes a parametric estimator to derive a dynamic, adaptive prior that guides the learning of a complex predictive distribution via a learnable mapping. This design allows the model to retain the efficiency of parametric methods while exploiting the expressive power of generative models. Trained with a hybrid objective, PPM yields precise forecasts with well-calibrated uncertainty estimates. Empirical results show that PPM outperforms existing baselines in handling non-stationary data, offering a superior trade-off between accuracy and computational efficiency. The code is available at https://github.com/ljl8336/PPM.
3D 畳み込みニューラル ネットワークを使用したオンライン ハンド ジェスチャ認識
人間のコンピュータとの対話では、動的なハンド ジェスチャのリアルタイム検出と分類は次のような困難を伴います。1) システムはリアルタイム ビデオ ストリームで実行する必要があり、ジェスチャ実行後の応答に顕著な遅延がありません。 2) 人々のジェスチャーの実行方法には大きな違いがあり、認識がより困難になります。この論文では、リアルタイムビデオストリーム内のジェスチャの位置を特定し、これらのジェスチャが何であるかを認識できるオンラインハンドジェスチャ認識システムを提案します。システムの堅牢性を向上させるために、スライディング ウィンドウ アプローチを使用して、複数のウィンドウからの結果を絞り込みます。私のプロジェクトのモデルはすべて Jester データベースでトレーニングされており、検出器の精度 98+%、分類器の精度 90+% を達成しています。システム全体のパフォーマンスについては、最高のグループは 3 秒以内に応答し、自家製データセットで 37.5% のレーベンシュタイン精度に達します。この作業で使用されているプロジェクト コードは公開されています。
原文 (English)
Online Hand Gesture Recognition Using 3D Convolutional Neural Networks
In human computer interaction, real-time detection and classification of dynamic hand gestures is challenging as: 1) the system must run in a real-time video stream and there is no noticeable lag in response after performing a gesture; 2) there is a large difference in how people perform gestures, making recognition more difficult. In this paper, an online hand gesture recognition system is proposed, which is able to localize gestures in real-time video stream and recognize what these gestures are. To improve the robustness of the system, the sliding window approach is used to refine results from multiple windows. All of the models in my project are trained on Jester database, achieving 98+% accuracy for detector and 90+% accuracy for classifier. For the overall performance of the system, the best group can respond within three seconds and reach 37.5% Levenshtein accuracy on the homemade dataset. The project codes used in this work are publicly available.
Reflex: 状態ベースの連続制御における反射対称性の活用による強化学習
強化学習は長い間、サンプル効率の悪さに悩まされてきました。この問題を軽減するための有望なアプローチの 1 つは、グループ不変マルコフ決定プロセス ($G$ 不変 MDP) を活用することです。この方向の既存の研究は、主に $\mathrm{SO(2)}$ などの画像ベースの RL と回転対称性に焦点を当てており、状態ベースの RL と鏡映対称性はほとんど検討されていません。この研究では、状態ベースの連続制御タスクに焦点を当て、オンポリシーとオフポリシーの両方の RL アルゴリズムとシームレスに統合するパラダイムである Reflex を導入することで鏡映対称性を活用します。軸反射と両側反射という 2 つのタイプの反射を形式化し、それらの対応する変換を特徴付けます。 Reflex は、対称性を維持する最適値関数とポリシーの理論的分析に基づいて、原則に基づいた対称性正則化メカニズムを通じて鏡映対称性をポリシー学習に統合します。 Reflex を PPO および SAC と統合し、一連の OpenAI Gym および DeepMind Control ベンチマークで評価し、サンプル効率を向上させながら標準ベースラインを上回る優れたパフォーマンスを実証しました。私たちのコードは https://github.com/TonyStark042/Reflex で入手できます。
原文 (English)
Reflex: Reinforcement Learning with Reflection Symmetry Exploitation in State-Based Continuous Control
Reinforcement learning has long struggled with poor sample efficiency. One promising approach to mitigate this problem is leveraging group-invariant Markov Decision Processes ($G$-invariant MDPs). Existing works in this direction have primarily focused on image-based RL and rotational symmetry such as $\mathrm{SO(2)}$, leaving state-based RL and reflection symmetry largely underexplored. In this work, we focus on state-based continuous control tasks and exploit reflection symmetry by introducing Reflex, a paradigm that seamlessly integrates with both on-policy and off-policy RL algorithms. We formalize two types of reflection-axial reflection and bilateral reflection, and characterize their corresponding transformations. Building on a theoretical analysis of symmetry-preserving optimal value functions and policies, Reflex integrates reflection symmetry into policy learning through principled symmetry regularization mechanisms. We integrate Reflex with PPO and SAC, and evaluate it on a suite of OpenAI Gym and DeepMind Control benchmarks, demonstrating superior performance over standard baselines while improving sample efficiency. Our code is available at https://github.com/TonyStark042/Reflex.
社会的に流暢な AI が、オンライン インタラクションにおける会話シグナルをソース ID から切り離す
社会的に流暢なエージェント AI は、通常の人間の会話に似た方法でオンラインの対話に参加できるようになり、会話信号だけから誰が人間であるかを推測する人々の能力が弱まる可能性があります。私たちは、非公開の AI エージェントを分析、創造、倫理の各タスクにわたる通常のチームメイトとして組み込むことにより、テキストベースの同期的なグループ インタラクションでこの可能性をテストしました。 1,572 回の対話後のアイデンティティ判断を行った 786 人の参加者全体で、人々は偶然を超えて AI と人間のチームメイトを区別しませんでした。この失敗は、対話にアイデンティティ関連の情報が欠如していたために発生しませんでした。会話行動には、AI と人間を区別し、高精度の計算による分類をサポートする強力な手がかりが含まれていました。代わりに、参加者は、応答速度、流暢さ、知覚される台本性など、実際の身元との関連性が低い、よく知られた疑惑ヒューリスティックに依存していました。さらに、表現分析により、判断は、グラウンド・トゥルースをコード化する行動構造ではなく、主観的な印象に基づいて組織化されていることが示されました。この解離は、調整された AI エージェントに新たな脆弱性をもたらし、オンラインの議論に大規模な影響を与え、操作する可能性があります。
原文 (English)
Socially fluent AI decouples conversational signals from source identity in online interaction
Socially fluent agentic AI can now participate in online interaction in ways that resemble ordinary human conversation, potentially weakening people's ability to infer who is human from conversational signals alone. We tested this possibility in synchronous text-based group interaction by embedding undisclosed AI agents as ordinary teammates across analytical, creative, and ethical tasks. Across 786 participants who made 1,572 post-interaction identity judgments, people did not distinguish AI from human teammates above chance. This failure did not arise because the interaction lacked identity-relevant information. Conversational behaviour contained robust cues that differentiated AI from humans and supported highly accurate computational classification. Instead, participants relied on familiar suspicion heuristics, including response speed, fluency, and perceived scriptedness, that were only weakly related to actual identity. Representational analyses further showed that judgments were organised around subjective impressions rather than the behavioural structure encoding ground truth. This dissociation creates new vulnerabilities to coordinated AI agents that can influence and manipulate online discourse at scale.
SSDAU: 結合エンティティと関係抽出のための構造化セマンティック データ拡張
Joint Entity and Relation Extraction (JERE) は、低品質のトレーニング データにより弱い一般化の影響を非常に受けやすくなります。データ拡張は、さまざまなドメインにわたるモデルの一般化を強化するための一般的な戦略です。ただし、既存のデータ拡張手法ではテキストの関連性が見落とされることが多く、意味構造や依存関係が破壊される可能性があるため、モデルの一般化を改善するための効果的な拡張データを生成することが困難になります。この論文では、拡張中にテキストの意味構造を保持するように設計された新しい方法である構造化意味データ拡張 (SSDAU) を提案します。 SSDAU はエンティティ ラベルに基づいてテキストをセグメント化し、エンコーダを使用してコンテキスト認識を通じてエンティティの意味論的特徴をキャプチャします。次に、エンティティのセマンティック再構築を実行して拡張データを生成します。意味的に類似したエンティティを区別するために、SSDAU はコンテキスト化された埋め込みと従来の類似性スコアを融合します。潜在的なトピックのあいまいさと情報損失を軽減するために、BERTTopic モデルを適用して無関係なトピックを除外し、トピックの一貫性を確保します。さまざまなアノテーション タイプを持つデータセットで SSDAU を評価し、5 つの代表的な JERE モデルでのパフォーマンスを 7 つの一般的なデータ拡張ベースラインと比較します。実験では、SSDAU が曖昧さに対して優れた堅牢性を備えた意味的に一貫したデータを生成し (F1 の減少が 8.26\% 対ベースラインの \ 31.91\%)、すべてのメトリクスにわたって既存のすべての方法を大幅に上回っていることが実証されています。
原文 (English)
SSDAU: Structured Semantic Data Augmentation for Joint Entity and Relation Extraction
Joint Entity and Relation Extraction (JERE) is highly susceptible to weak generalization due to low-quality training data. Data augmentation is a common strategy to enhance model generalization across different domains. However, existing data augmentation methods often overlook text relevance and may disrupt semantic structures and dependencies, making it difficult to generate effective augmented data for improving model generalization. In this paper, we propose Structured Semantic Data Augmentation (SSDAU), a novel method designed to preserve the semantic structure of text during augmentation. SSDAU segments text based on entity labels and employs an encoder to capture semantic features of entities through context awareness. It then performs entity semantic restructuring to generate augmented data. To distinguish semantically similar entities, SSDAU fuses contextualized embeddings with traditional similarity scores. To mitigate potential topic ambiguity and information loss, we apply the BERTTopic model to filter out irrelevant topics, ensuring topic consistency. We evaluate SSDAU on datasets with different annotation types and compare its performance on five representative JERE models against seven popular data augmentation baselines. Experiments demonstrate that SSDAU generates semantically consistent data with superior robustness against ambiguity (8.26\% F1 decrease vs.\ 31.91\% for baselines), significantly outperforming all existing methods across all metrics.
AI セキュリティ研究は防衛研究をさらに促進する必要がある
この研究では、人工知能 (AI) のセキュリティ研究における不均衡を調査しています。この分野では、AI システムの防御よりも攻撃のほうが多くの研究を生み出す傾向があります。関連する学術論文を基に、フェデレーテッド ラーニング、音声認識、メンバーシップ推論、大規模言語モデルなどのサブフィールドにわたって攻撃対防御の比率が偏っていることがわかります。この不均衡は、おそらく単純なカウントをはるかに超えていることを意味します。攻撃論文は、脅威が実際よりも深刻であるように見える有利な条件で日常的に評価されているのに対し、防御は、ほとんどの人が満たすことのできないより厳格な基準に保たれています。その結果、実証済みの脆弱性が豊富に記載された文献が作成され、使用可能で導入された保護はほとんどありません。したがって、私たちは、AI セキュリティ研究が防衛研究をより促進すべきであると主張します。
原文 (English)
AI Security Research Should Better Incentivize Defense Research
This work examines an imbalance in artificial intelligence (AI) security research: the field tends to produce more work on attacking AI systems than on defending them. Drawing on related academic papers, we find biased attack-to-defense ratios across subfields, including federated learning, speech recognition, membership inference, large language models, etc. The imbalance possibly means far beyond a simple count: attack papers are routinely evaluated under favorable conditions that make threats look more severe than they are in practice, while defenses are held to a stricter standard that few can meet. The result is a literature rich in demonstrated vulnerabilities and thin on usable and deployed protections. We thus argue that AI security research should better incentivize defense research.
One-Forcing: 安定したワンステップ自己回帰ビデオ生成に向けて
最近の進歩により、自己回帰領域におけるリアルタイムのインタラクティブ ビデオ生成が大幅に改善されました。ただし、既存の数ステップの自己回帰ビデオ生成手法のほとんどは、多くの場合、対応する多ステップの教師から派生したもので、デフォルトで 4 ステップのサンプリング構成になっていますが、それでも展開中にかなりの遅延が発生し、サンプリング ステップの数がさらに削減されると、特に 1 ステップ設定では重大な品質の低下に悩まされます。軌跡スタイルの一貫性蒸留手法では、ダイナミクスが弱いビデオが生成されることがよくありますが、セルフフォーシングなどの DMD ベースのアプローチでは、ぼやけたフレームが生成される傾向があります。この課題に対処するために、私たちは、高品質で効率的なワンステップビデオ生成のための補助 GAN 損失で DMD 目標を強化する、シンプルかつ効果的なアプローチである One-Forcing を提案します。 VBench での実験では、One-Forcing が合計スコア 83.76 を達成し、ワンステップ因果ビデオ生成手法の中で最先端のパフォーマンスを確立し、強力な多ステップ アプローチとの競争力を維持していることが示されています。さらに、ワンステップのフレーム単位の自己回帰生成が、チャンク単位のモデルのトレーニング コストのわずか 3 分の 1 で安定して達成できることを実証します。これは、従来の方法では達成できなかった設定です。
原文 (English)
One-Forcing: Towards Stable One-Step Autoregressive Video Generation
Recent advances have substantially improved real-time interactive video generation in the autoregressive regime. However, most existing few-step autoregressive video generation methods, often distilled from a corresponding many-step teacher, default to a 4-step sampling configuration, which still incurs considerable latency during deployment and suffers from severe quality degradation when the number of sampling steps is further reduced, particularly in the one-step setting. Trajectory-style consistency distillation methods often produce videos with weak dynamics, while DMD-based approaches, such as Self-Forcing, tend to yield blurry frames. To address this challenge, we propose One-Forcing, a simple yet effective approach which augments the DMD objective with an auxiliary GAN loss for high-quality and efficient one-step video generation. Experiments on VBench show that One-Forcing achieves a total score of 83.76, establishing state-of-the-art performance among one-step causal video generation methods and remaining competitive with strong many-step approaches. We further demonstrate that one-step framewise autoregressive generation can be achieved stably with merely one-third of the training cost of the chunkwise model, a setting that prior methods have failed to achieve successfully.
AI 保証: エンタープライズ AI システムの包括的なテスト戦略
大規模な言語モデル、検索パイプライン、自律エージェントに基づいて構築されたエンタープライズ AI システムは、従来のソフトウェア品質保証では決して対処するように設計されていなかったクラスのリスクを導入します。これらのシステムは確率的で、状況に依存し、創発的です。古典的な意味で正しいかどうかを検証することはできませんが、信頼度を高めて評価する必要があります。このペーパーでは、3 つの重要な原則に基づいて構築されたエンタープライズ AI システムの包括的な保証戦略を示します。1 つ目は、AI テストは厳密な正確性の検証ではなく、継続的なリスク削減に焦点を当てるべきであるということです。第二に、評価は開発と並んで中核となるエンジニアリング分野として扱われなければなりません。第三に、AI 保証の失敗は、従来の決定論的ソフトウェア システムで見られるものとは根本的に異なる組織への影響を引き起こす可能性があるということです。構造化された AI 障害分類法を導入し、改訂された 5 層の AI 保証ピラミッドを提案し、評価駆動開発、RAG システム テスト、モデルのライフサイクル管理とガバナンスに関する運用ガイダンスを提供します。目標は、エンジニアリングのリーダーと実践者に、哲学に根拠があり、運用上展開可能な戦略を備えさせることです。
原文 (English)
AI Assurance: A Comprehensive Testing Strategy for Enterprise AI Systems
Enterprise AI systems, built on large language models, retrieval pipelines and autonomous agents, introduce a class of risks that traditional software quality assurance was never designed to address. These systems are probabilistic, context-sensitive and emergent: they cannot be verified to be correct in the classical sense, but only evaluated with increasing confidence. This paper presents a comprehensive assurance strategy for enterprise AI systems built around three key principles: first, that AI testing should focus on continuous risk reduction rather than strict correctness verification; second, that evaluation must be treated as a core engineering discipline alongside development; and third, that failures in AI assurance can lead to organizational impacts that are fundamentally different from those seen in traditional deterministic software systems. We introduce a structured AI Failure Taxonomy, propose a revised five-layer AI Assurance Pyramid and provide operational guidance on evaluation-driven development, RAG system testing, model lifecycle management and governance. The goal is to equip engineering leaders and practitioners with a strategy that is both philosophically grounded and operationally deployable.
まばらな断面スナップショットから個々のダイナミクスを学習する
動的単位が時間の経過とともにどのように進化するか、つまり個人がどのように老化するか、伝染病が蔓延するか、物理システムが劣化するかを予測するには、通常、緻密な縦方向の追跡が必要です。非常にまばらなデータ、または完全に横断的なデータしか利用できない場合、個別の連続時間軌跡を推測することは根本的に不適切です。既存の手法は厳密な妥協を強いられています。配列モデル (潜在 ODE など) は高密度の縦断データを必要としますが、横断手法 (最適輸送、フロー マッチング ベースなど) は集合集団をマッピングし、個々のダイナミクスを失います。この論文では、この二分法を打ち破ることができることを示します。潜在的なダイナミクスを静的な個人レベルのコンテキストに固定することで、孤立したスナップショットから連続的な個人の軌跡を復元する原則に基づいた確率的フレームワークである CADENCE を紹介します。単一時点の軌道推論に対して、新しい識別可能性の保証を提供します。微分同相曖昧性を排除するスコアベースの空間エンコーダ (全単射確率フロー ODE) とソフト専門家混合 (SMoE) ルーターを組み合わせることで、個々の動的パラメーターとルーティング関数が同時に識別可能であることを示します。物理システムから実世界の生物学的データに及ぶ一連のベンチマーク全体にわたって、コンテキスト構造を持つ非常にまばらなスナップショットに基づいて厳密にトレーニングされた CADENCE は、高密度の完全な軌跡データに基づいてトレーニングされた最先端のシーケンシャル モデルのパフォーマンスと同等、またはそれを超えています。
原文 (English)
Learning Individual Dynamics from Sparse Cross-Sectional Snapshots
Predicting how a dynamical unit evolves over time - how an individual ages, an epidemic spreads, or a physical system degrades - typically requires dense longitudinal tracking. When only extremely sparse or entirely cross-sectional data is available, inferring individualized, continuous-time trajectories is fundamentally ill-posed. Existing methods force a strict compromise: sequence models (e.g. latent ODEs) require dense longitudinal data, while cross-sectional methods (e.g. optimal transport, flow matching-based) map aggregate populations, losing individual dynamics. In this paper, we demonstrate that this dichotomy can be broken. We introduce CADENCE, a principled probabilistic framework that recovers continuous individual trajectories from isolated snapshots by anchoring latent dynamics to static, individual-level contexts. We provide novel identifiability guarantees for single-timepoint trajectory inference. By combining a score-based spatial encoder (bijective Probability Flow ODE) to eliminate diffeomorphic ambiguities with a Soft Mixture-of-Experts (SMoE) router, we show that individual dynamical parameters and routing function are jointly identifiable. Across a suite of benchmarks spanning physical systems to real-world biological data, CADENCE, trained strictly on extremely sparse snapshots with context structure, matches or exceeds the performance of state-of-the-art sequential models trained on dense, full-trajectory data.
CBANet: 攻撃的な運転イベントを検出するためのコンパクトな注意ベースの CNN-BiLSTM ネットワーク
攻撃的な運転は交通事故の主な原因であり、交通安全に重大な脅威をもたらします。深層学習手法は、車両センサー データから危険な運転行動を検出する点で有望な結果を示していますが、現実世界の状況におけるそのパフォーマンスは、深刻なデータの不均衡、ドライバー間の大きなばらつき、および物理的に解釈可能な車両ダイナミクス表現の欠如によって制限されることがよくあります。この論文では、多変量車両ダイナミクス信号を使用した攻撃的な運転検出のための強化されたディープラーニング フレームワークを提案します。提案されたアプローチは、生の測定値のみに依存するのではなく、ステアリング、加速、およびブレーキの動作を捕捉するエンジニアリングされた動的特徴を構築します。自然主義的な運転データにおける攻撃的なイベントの極めてまれな問題に対処するために、制御された SMOTE ベースのオーバーサンプリングとクラス重み付け損失定式化を組み合わせ、不均衡処理のための焦点損失バリアントを評価する安定したトレーニング戦略を導入します。さらに、実際のアプリケーションにおける検出ミスや誤警報の非対称リスクをより適切に反映するために、クラス固有のしきい値キャリブレーションに基づく安全指向の意思決定戦略が採用されています。提案されたフレームワークは、新しく収集された自然主義的な運転データセットに基づいて評価されます。広範な実験により、提案された手法は、実用的な計算効率を維持しながら、少数派クラスの再現率と安全性が重要な F スコア メトリクスが大幅に改善され、標準的な深層学習ベースラインを常に上回っていることが示されています。コード: \url {https://github.com/halhamdan/CBANet}
原文 (English)
CBANet: A Compact Attention-Based CNN-BiLSTM Network for Aggressive Driving Event Detection
Aggressive driving is a major cause of traffic accidents and poses a serious threat to road safety. Although deep learning methods have shown promising results in detecting risky driving behaviours from vehicle sensor data, their performance in real-world conditions is often limited by severe data imbalance, large variability between drivers, and the lack of physically interpretable vehicle dynamics representations. In this paper, we propose an enhanced deep learning framework for aggressive driving detection using multivariate vehicle dynamics signals. Instead of relying solely on raw measurements, the proposed approach constructs engineered dynamic features that capture steering, acceleration, and braking behaviour. To address the extreme rarity of aggressive events in naturalistic driving data, we introduce a stable training strategy that combines controlled SMOTE-based oversampling with a class-weighted loss formulation, and evaluates focal loss variants for imbalance handling. Furthermore, a safety-oriented decision strategy based on class-specific threshold calibration is adopted to better reflect the asymmetric risks of missed detections and false alarms in real-world applications. The proposed framework is evaluated on a newly collected naturalistic driving dataset. Extensive experiments show that the proposed method consistently outperforms standard deep learning baselines with significant improvements in minority-class recall and safety-critical F-score metrics while maintaining practical computational efficiency. Code: \url {https://github.com/halhamdan/CBANet}
未知の有効次元での実用的なベイズ最適化のための自動ランダム埋め込み
ベイジアン最適化は、複雑なブラックボックス関数を最適化するために広く採用されていますが、次元の呪いに悩まされています。次元削減戦略としてのランダム埋め込みは、低次元部分空間内で最適化することにより、有効次元を持つタスクを簡素化します。ただし、タスクの有効次元を事前に決定することは依然として大きな課題であり、部分空間次元の選択と最適化パフォーマンスに影響を与えます。従来の方法では、専門家が提供する固定部分空間次元を使用するか、試行錯誤に頼ってリソースが消費される部分空間次元を推定します。この目的を達成するために、この論文では、Dynamic Shared Embedding Bayesian Optimization (DSEBO) と呼ばれる、未知の実効次元を持つ高次元ベイズ最適化のための自動ランダム埋め込みを提案します。 DSEBO は低次元から開始し、現在の部分空間内の解が予備的な収束を示した場合は、より高い次元の部分空間に切り替えます。 DSEBO は、さまざまなサブ空間の解の品質に基づいて次のサブ空間の次元を動的に決定し、より適切な初期化のためにクエリされた解を新しいサブ空間と共有します。理論的には、DSEBO のリグレス限界を導き出し、DSEBO が近似誤差と最適化誤差のバランスをより適切に取れることを実証します。さまざまな大きさの次元を持つ関数と、実効次元が未知の現実世界のタスクに関する広範な実験により、最先端の手法と比較して、異なる部分空間にまたがる最適化を交互に行うことで、最適化リグレスと時間の両方の点で高次元の最適化が大幅に改善されることが明らかになりました。
原文 (English)
Automated Random Embedding for Practical Bayesian Optimization with Unknown Effective Dimension
Bayesian optimization is widely employed for optimizing complex black-box functions but struggles with the curse of dimensionality. Random embedding, as a dimension reduction strategy, simplifies tasks that possess the effective dimension by optimizing within a low-dimensional subspace. However, determining the effective dimension of a task in advance remains a significant challenge, which influences the selection of the subspace dimensionality and the optimization performance. Traditional methods use fixed subspace dimensions provided by experts or rely on trial and error to estimate subspace dimensions with resources consumed. To this end, this paper proposes an automated random embedding for high-dimensional Bayesian optimization with unknown effective dimension, called Dynamic Shared Embedding Bayesian Optimization (DSEBO). DSEBO starts with a low dimension and switches to a higher subspace if the solutions in the current subspace show preliminary convergence. DSEBO dynamically determines the dimension of the next subspace based on the quality of the solutions in different subspaces and shares the queried solutions with the new subspace for a better initialization. Theoretically, we derive a regret bound for DSEBO and demonstrate that DSEBO can better balance approximation and optimization errors. Extensive experiments on functions with dimensionality of varying magnitudes and real-world tasks with unknown effective dimensions reveal that, compared with state-of-the-art methods, alternating optimization across different subspaces results in significant improvements in high-dimensional optimization, both in terms of optimization regret and time.
PhenoYieldNet: 複数作物の収量予測のための作物を意識した生物季節学的応答の学習
正確な作物収量予測は、持続可能な農業と世界の食料安全保障にとって極めて重要です。既存の手法は主に単一作物の予測のために開発されていますが、複雑な気象パターンによって動的に変化する固有の作物季節学的応答に対処せずに、多様な作物タイプにわたって一般化するのに苦労することがよくあります。この論文では、時間ドライバーを使用して応答を明示的にモデル化することで作物固有の季節学を学習する、複数作物の収量予測フレームワークである PhenoYieldNet を提案します。具体的には、作物季節バンク (CPB) と作物季節学アテンション (CPA) モジュールから構成される作物認識時間デコーダを開発します。 CPB は学習可能な埋め込みのセットを統合しており、クエリを活用して CPA モジュールが特定の作物に最も関連する生物季節パターンを学習できるようにします。また、CPA モジュールは、マルチスケールの傾向と変動コンポーネントを明示的に取得して時間的コンテキストを構築し、モデルがさまざまな季節学的段階にわたって注意を動的に調整できるようにします。複数作物予測のための堅牢で一般化可能な特徴を学習するために、エンコーダーは事前トレーニングされた基礎モデルで初期化され、さらに自己教師付き時間対照適応戦略を介して農業の時間的ダイナミクスに合わせて適応されます。複数の作物データセットに対して行われた広範な実験は、私たちが提案した方法が最先端の方法を大幅に上回り、さまざまな地域や作物にわたって強力な一般化機能を示していることを示しています。
原文 (English)
PhenoYieldNet: Learning Crop-Aware Phenological Responses for Multi-Crop Yield Prediction
Accurate crop yield prediction is crucial for sustainable agriculture and global food security. While existing methods are predominantly developed for single-crop prediction, they often struggle to generalize across diverse crop types, without addressing the unique crop phenological responses that are dynamically modulated by complex weather patterns. In this paper, we propose PhenoYieldNet, a multi-crop yield prediction framework that learns crop-specific phenology by explicitly modeling their responses with temporal drivers. Specifically, we develop a crop-aware temporal decoder consisting of a Crop Phenology Bank (CPB) and a Crop Phenology Attention (CPA) module. The CPB integrates a set of learnable embeddings, which leverage a query to guide the CPA module to learn the most relevant phenology patterns for the specific crop. And the CPA module explicitly captures multi-scale trend and variation components to construct temporal contexts, enabling the model to dynamically adjust the attention across different phenological stages. To learn robust and generalizable features for multi-crop prediction, the encoder is initialized with a pre-trained foundation model, and further adapted via a self-supervised Temporal Contrastive Adaptation strategy to align with agricultural temporal dynamics. Extensive experiments conducted on multi-crop datasets indicate that our proposed method significantly outperforms state-of-the-art methods, exhibiting strong generalization capabilities across different regions and crops.
視覚言語データセット抽出のためのマルチモーダル分布マッチング
データセットの蒸留により、ダウンストリームのパフォーマンスを維持しながら、大規模なトレーニング セットをコンパクトな合成データセットに圧縮します。現代のシステムはペアの視覚言語入力で動作することが増えているため、マルチモーダル蒸留では、厳しいコンピューティングとメモリの予算の下で表現の品質とクロスモーダルの調整を維持する必要がありますが、従来の方法では多くの場合、大量のコンピューティングが必要となり、それらの相関関係が見落とされます。これに対処するために、効率的かつ一般化可能なマルチモーダル蒸留のための幾何学認識フレームワークであるマルチモーダル分布マッチング (MDM) を紹介します。具体的には、MDM はデータ、モデル、損失レベルで補完的なコンポーネントを統合します。データ レベルでは、結合埋め込み空間内のクラスターからサンプリングすることによって、合成画像とテキストのペアを初期化します。モデル レベルでは、事前トレーニングされたアンカーからの角度偏差に応じて、重み空間で個別に微調整されたモデルを補間することにより、混合教師を形成します。損失レベルでは、対称対比学習とともに、クロスモーダル一致および不一致方向のジョイント特徴を利用するジオメトリを意識したマッチング目標を使用して、ユニット超球上のジョイント分布をマッチングします。クロスアーキテクチャ評価による画像テキスト検索ベンチマーク全体で、MDM はマルチモーダルセマンティクスを保持し、蒸留コストを大幅に削減し、アーキテクチャ全体で堅牢性を維持するコンパクトな合成セットを生成します。
原文 (English)
Multimodal Distribution Matching for Vision-Language Dataset Distillation
Dataset distillation compresses large training sets into compact synthetic datasets while preserving downstream performance. As modern systems increasingly operate on paired vision-language inputs, multimodal distillation must preserve representation quality and cross-modal alignment under tight compute and memory budgets, yet prior methods often require heavy computes and overlook their correlations. To address this, we present Multimodal Distribution Matching (MDM), a geometry-aware framework for efficient and generalizable multimodal distillation. Specifically, MDM integrates complementary components at the data, model, and loss levels. At the data level, it initializes synthetic image-text pairs by sampling from clusters in the joint embedding space. At the model level, it forms a mixed teacher by interpolating independently fine-tuned models in weight space according to their angular deviation from the pretrained anchor. At the loss level, it matches joint distributions on the unit hypersphere using a geometry-aware matching objective that exploits the joint features in the cross-modal agreement and discrepancy directions along with symmetric contrastive learning. Across image-text retrieval benchmarks with cross-architecture evaluation, MDM yields compact synthetic sets that preserve multimodal semantics, substantially reduce distillation cost, and remain robust across architectures.
CoSPlay: 自己生成コードと単体テストによるテスト時の協力的セルフプレイ
最近では、検証可能な報酬を伴う強化学習 (RLVR) とテスト時間スケーリング (TTS) により、実行可能ファイルの検証を通じて LLM コード生成が進歩しました。しかし、Ground-Truth Unit Test (GT UT) は依然としてボトルネックとなっています。SOTA RLVR メソッドでは費用のかかるトレーニングが必要ですが、既存の TTS メソッドは GT UT なしでは競争力を失います。これにより、既存のメソッドが自己生成された UT を直接使用してコード候補を絞り込み、選択する GT フリー TTS が推進されます。しかし、そのような UT にはノイズが多かったり、間違ったコードが誤って結合されていることが多く、信頼性の高いコードがなければ UT の品質を検証することはできません。したがって、重要な課題は、両方を共同で改善することです。この目的を達成するために、私たちは、協力的なセルフプレイを通じてコードと UT を共同で改善する GT フリー、トレーニング不要のフレームワークである CoSPlay を紹介します。まず、多様なソリューションのアイデアを検討し、それらの潜在的な故障モードを特定して、差別的な UT アイデアを生み出します。次に、Code-UT 実行マトリックスからの双方向のパス カウント信号を使用して、弱いコードを繰り返しプルーニングまたは修正し、信頼性の低い UT をリフレッシュまたは置換して、2 つのプールを共進化させます。最後に、複数のコードが最高のパス数で同点のままである場合、正しいコードは同じ入力で一致するが、間違ったコードは分岐するため、最大の出力コンセンサス クラスターから最終コードが選択されます。 4 つの困難なベンチマークの実験では、Qwen2.5-7B-Instruct の CoSPlay が平均 BoN を 22.1% から 33.2% に、UT 精度を 14.6% から 78.3% に改善し、RLVR モデル CURE-7B と同等またはそれを上回っていることが示されています。 CURE-7B に適用すると、BoN がさらに 5.7% 向上します。 CoSPlay はまた、多様なバックボーンにわたって汎用化し、同等のトークン予算の下で GT フリー TTS ベースラインを上回り、予算が拡大するにつれて継続的に利益を上げます。これらの結果は、GT データを使用せずに競合コードを生成するためのスケーラブルな推論戦略を示唆しています。
原文 (English)
CoSPlay: Cooperative Self-Play at Test-Time with Self-Generated Code and Unit Test
Recently, Reinforcement Learning with Verifiable Rewards (RLVR) and Test-Time Scaling (TTS) have advanced LLM code generation through executable verification. Yet Ground-Truth Unit Tests (GT UTs) remain a bottleneck: SOTA RLVR methods require them for costly training, while existing TTS methods lose competitiveness without them. This motivates GT-free TTS, where existing methods directly use self-generated UTs to refine and select code candidates. Yet such UTs are often noisy or spuriously coupled with wrong code, and UT quality in turn cannot be validated without reliable code. The key challenge is therefore to jointly improve both. To this end, we present CoSPlay, a GT-free, training-free framework that jointly improves codes and UTs through cooperative self-play. It first explores diverse solution ideas and identifies their potential failure modes to produce discriminative UT ideas. It then uses bidirectional pass-count signals from the Code-UT execution matrix to iteratively prune or fix weak codes and refresh or replace unreliable UTs, letting the two pools co-evolve. Finally, when multiple codes remain tied at the highest pass count, it picks the final code from the largest output-consensus cluster, since correct codes agree on the same inputs while wrong codes diverge. Experiments on four challenging benchmarks show that CoSPlay on Qwen2.5-7B-Instruct improves average BoN from 22.1% to 33.2% and UT accuracy from 14.6% to 78.3%, matching or surpassing the RLVR model CURE-7B. When applied to CURE-7B, it further improves BoN by 5.7%. CoSPlay also generalizes across diverse backbones and outperforms GT-free TTS baselines under comparable token budgets, with continued gains as the budget scales up. These results suggest a scalable inference strategy for competitive code generation without any GT data.
VACE: 時系列異常検出のための幾何学的構造表現の学習
多変量時系列における異常検出は、異常な動作がまれで、ラベルが利用できず、ミスのコストが高い現実世界の幅広いアプリケーションにわたって重要なタスクです。中心的な課題は、逸脱にフラグを立てるのに十分正確な正規性の特徴付けを学習することです。表現自己教師あり学習は、通常、対照的なアプローチを通じて、正規性が明確に定義された領域を占め、幾何学的偏差によって異常が検出される潜在空間に時間パッチを埋め込むことによってこの問題に対処します。ただし、対照的なアプローチは、ペア サンプリングのヒューリスティックを通じて間接的にこの空間を形成し、距離ベースのスコアリングに必要な幾何学的構造に対する明示的な制御を提供しません。これは、法線表現がどの程度厳密にグループ化されているか、および距離が方向的に意味があるかどうかを意味します。我々は、埋め込み空間内のコンパクトで方向的にコヒーレントな領域として正規性を表す自己監視型異常検出手法である VACE (Velocity-Aligned Channel Embeddings) を紹介します。この目的を達成するために、VACE は、通常の軌道が局所的に滑らかで位置合わせされるように、速度一貫性目標を通じて、マイナスや合成異常を伴わないチャネル認識エンコーダーをトレーニングします。テスト時には、マハラノビスの位置スコアと速度バンクの方向スコアが乗算的に結合され、同時に分布から外れ、動的に異常である点にフラグを立てます。 VACE はそのシンプルさにも関わらず、厳密な評価のもとで TSB-AD-M 上で最先端のパフォーマンスを達成し、大幅に多額の予算で訓練されたより複雑な手法を大幅に上回ります。
原文 (English)
VACE: Learning Geometrically Structured Representations for Time Series Anomaly Detection
Anomaly detection in multivariate time series is a critical task across a wide range of real-world applications, where abnormal behaviour is rare, labels are unavailable, and the cost of a miss is high. The central challenge is learning a characterisation of normality precise enough to flag deviations. Representation self-supervised learning, typically through contrastive approaches, addresses this by embedding temporal patches into a latent space where normality occupies a well-defined region, with anomalies detected by geometric deviation. However, contrastive approaches shape this space indirectly through pair-sampling heuristics, providing no explicit control over the geometric structure that distance-based scoring requires. This means how tightly normal representations are grouped, and whether distances are directionally meaningful. We present VACE (Velocity-Aligned Channel Embeddings), a self-supervised anomaly detection method that represents normality as a compact, directionally coherent region in the embedding space. To this end, VACE trains a channel-aware encoder through a velocity-consistency objective, with no negatives and no synthetic anomalies, so that normal trajectories are locally smooth and aligned. At test time, a Mahalanobis positional score and a velocity-bank directional score are combined multiplicatively, flagging points that are simultaneously off-distribution and dynamically atypical. Despite its simplicity, VACE achieves state-of-the-art performance on TSB-AD-M under rigorous evaluation, significantly outperforming more complex methods trained on substantially larger budgets.
DrawVideo: ストーリーボードのキーフレーム スケッチから長いビデオを生成する
長時間のビデオを生成するには、高忠実度の合成、一貫したナラティブ構造、および長期間にわたるユーザー制御が必要です。既存のテキストからビデオへの変換方法は、単一の長いプロンプトに依存することが多く、ポーズ、構成、レイアウト、モーションの制御が制限されています。私たちは、制御可能な長いビデオを生成するためのスケッチガイド付き、ストーリーボード駆動のフレームワークである DrawVideo を提案します。 DrawVideo は、長いビデオを独立して制御可能なショットに分解し、それぞれが白黒スケッチ、外観プロンプト、およびモーション プロンプトによって定義されます。スケッチはポーズとレイアウトを制御し、外観プロンプトはアイデンティティ、シーン、スタイルを定義し、モーション プロンプトは時間的ダイナミクスをガイドします。 DrawVideo は、階層的な「グローバル マルチショット、ローカル シングル スケッチ」戦略に従います。最初に構造が調整された参照キーフレームを生成し、次にモーション プロンプトをアクション状態を表す派生キーフレームに拡張し、最後に隣接するキーフレーム間のクリップを合成して各ショットを構築します。また、ショット検出、キーフレーム抽出、視覚言語認識、プロンプト分解、スケッチ変換を介してアニメーション ビデオから構築された、スケッチガイド付きテキストからロングビデオへの生成のための最初のデータセットである SketchLongVideo も紹介します。実験では、DrawVideo が強力な構造制御性、外観の一貫性、視覚的な安定性、および一貫した長いビデオの生成を達成していることが示されています。
原文 (English)
DrawVideo: Generating Long Video from Storyboard Keyframe Sketches
Long video generation requires high-fidelity synthesis, coherent narrative structure, and user control over extended time spans. Existing text-to-video methods often rely on a single long prompt, limiting control over pose, composition, layout, and motion. We propose DrawVideo, a sketch-guided, storyboard-driven framework for controllable long-video generation. DrawVideo decomposes long videos into independently controllable shots, each defined by a black-and-white sketch, an appearance prompt, and a motion prompt. The sketch controls pose and layout, the appearance prompt defines identity, scene, and style, and the motion prompt guides temporal dynamics. DrawVideo follows a hierarchical 'global multi-shot, local single-sketch' strategy: it first generates a structure-aligned reference keyframe, then expands the motion prompt into derivative keyframes representing action states, and finally synthesizes clips between adjacent keyframes to build each shot. We also introduce SketchLongVideo, the first dataset for sketch-guided text-to-long-video generation, constructed from animation videos via shot detection, keyframe extraction, vision-language recognition, prompt decomposition, and sketch conversion. Experiments show that DrawVideo achieves strong structural controllability, appearance consistency, visual stability, and coherent long-video generation.
Precise: フローマッチングモデルの RL ポストトレーニング用の SDE に準拠した確率的サンプリング
強化学習(RL)は、拡散およびフローマッチングジェネレーターにおける即時調整と知覚品質を向上させる効果的な方法となっています。オンライン RL をフロー マッチングに適用するための重要な手順は、通常、逆時間の常微分方程式 (ODE) を確率微分方程式 (SDE) に置き換えることによって、決定論的なサンプリング軌跡を確率的ポリシーに変えることです。したがって、探索動作とノイズ除去ダイナミクスを制御する確率的サンプラーはポリシーの一部であり、その設計は報酬最適化のパフォーマンスに大きな影響を与える可能性があります。サンプラーの設計を、相互に依存する 2 つのコンポーネントに分割します。1 つは適切な量の確率的探索の選択、もう 1 つは RL で使用される小さなステップ数で結果として得られる SDE を忠実に離散化することです。最初の要素に対処するために、ノイズ除去における探査と安定性の間の固有の緊張を分析し、この 2 つのバランスをとる SDE スケジュールを導き出します。離散化の課題に目を向けると、おもちゃの例を使用して、過剰な離散化ノイズが導入されたり、データ分布への収束が保証されないヒューリスティック ルールに依存したりすることにより、既存のサンプラーがフロー マッチング プロセスから逸脱する可能性があることを示します。これらの問題に対処するために、効果的な探索と安定性のバランスをとった新しい確率的サンプラーである Precise を提案します。重要なことは、Precise は、クリーンな潜在事後平均を凍結する新しい近似によって、ノイズ除去軌跡の SDE の一貫性を維持し、標準サンプラーの過剰ノイズの問題を解決します。広範な実験により、この定式化が強化学習を通じて大幅に高速かつ安定した報酬の最適化につながり、従来のサンプラーの最高のドメイン内パフォーマンスに匹敵する実時間トレーニング時間を 13.1 ~ 53.2% 削減しながら、最先端のアライメント スコア (PickScore、HPSv2.1 など) を達成できることが実証されました。
原文 (English)
Precise: SDE-Consistent Stochastic Sampling for RL Post-Training of Flow-Matching Models
Reinforcement learning (RL) has become an effective way to improve prompt alignment and perceptual quality in diffusion and flow-matching generators. A critical step for applying online RL to flow matching is turning the deterministic sampling trajectory into a stochastic policy, typically by replacing the reverse-time Ordinary Differential Equation (ODE) with a Stochastic Differential Equation (SDE). The stochastic sampler, controlling the exploration behavior and denoising dynamics, is thus part of the policy, and its design can significantly affect the reward optimization performance. We break down the sampler design into two interdependent components: choosing the right amount of stochastic exploration, and discretizing the resulting SDE faithfully at the small step counts used in RL. To address the first component, we analyze the inherent tension between exploration and stability in denoising and derive an SDE schedule that balances the two. Turning to the discretization challenge, we use a toy example to show that existing samplers can deviate from the flow-matching process, either by introducing excessive discretization noise or by relying on heuristic rules that do not guarantee convergence to the data distribution. To address these issues, we propose Precise, a new stochastic sampler that balances effective exploration with stability. Crucially, Precise keeps the denoising trajectory SDE-consistent through a novel approximation that freezes the clean-latent posterior mean, resolving the excess noise issue in standard samplers. Extensive experiments demonstrate that this formulation leads to significantly faster and more stable reward optimization via reinforcement learning, achieving state-of-the-art alignment scores (e.g., PickScore, HPSv2.1) while requiring 13.1-53.2% less wall-clock training time to match the best in-domain performance of prior samplers.
RA-DCA: 最大構造化 DC プログラムにおける方向定常性のためのランダム化アクティブセット DCA
減算された凸項が滑らかな凸関数の有限最大値である非滑らかな凸差分プログラムを研究します。この設定では、標準の DCA 反復は方向的に静止していない臨界点に収束する可能性がありますが、アクティブ セットが大きい場合や組み合わせによる場合は、正確なアクティブ頂点スクリーニングにコストがかかる可能性があります。我々は、サンプリングされた方向にアクティブな勾配を投影し、サンプリングされた頂点の残差をチェックし、低残差の凸組み合わせフォールバックとしてのみ小さな線形プログラムを使用する頂点ファーストのランダム化アクティブセット DCA である RA-DCA を提案します。この方法では、DCA の下降構造が保存され、ランダム化されたスクリーニング層が行列の乗算に削減されます。規定された規則性、数値的なアクティブセットの一貫性、およびランダム埋め込みの仮定の下では、保護された方法によって生成されるすべての蓄積ポイントは、確率 1 で方向的に定常です。 MATLAB の実験では、まず、縮退した最大アフィン、最大 2 次、およびスパースのサポート関数モデルに関する定理をテストします。この場合、安全装置は非定常臨界点を回避し、完全なアクティブ頂点スキャンを厳密に追跡します。次に、ブロック top-k テストは、正確な集計列挙が組み合わせである場合でも、同じスクリーニングのアイデアが依然として有用であることを示します。トリミング回帰、相補性、および QUBO 診断は、アクティブ セットの選択が役立つケースと、マルチスタート検索、DC 分割、またはその他の問題固有の機能が優勢なケースを区別します。
原文 (English)
RA-DCA: A Randomized Active-Set DCA for Directional Stationarity in Max-Structured DC Programs
We study nonsmooth difference-of-convex programs whose subtracted convex term is a finite maximum of smooth convex functions. In this setting, standard DCA iterations may converge to critical points that are not directionally stationary, whereas exact active-vertex screening can be expensive when active sets are large or combinatorial. We propose RA-DCA, a vertex-first randomized active-set DCA that projects active gradients onto sampled directions, checks a sampled vertex residual, and uses a small linear program only as a low-residual convex-combination fallback. The method preserves the descent structure of DCA and reduces the randomized screening layer to matrix multiplications. Under the stated regularity, numerical active-set consistency, and random-embedding assumptions, every accumulation point generated by the safeguarded method is directionally stationary with probability one. MATLAB experiments first test the theorem on degenerate max-affine, max-quadratic, and sparse support-function models, where the safeguard avoids nonstationary critical points and closely tracks a full active-vertex scan. Block top-k tests then show that the same screening idea remains useful when exact aggregate enumeration is combinatorial. Trimmed-regression, complementarity, and QUBO diagnostics separate cases where active-set selection helps from cases dominated by multistart search, the DC split, or other problem-specific features.
すべてを一度に学習する、目標を設定したエージェント
環境を探索する目標条件付き強化学習エージェントは、軌跡全体を通じて豊富な情報を確認しますが、そのほとんどは、指令された目標に関してポリシーに基づく更新のみを実行する場合には破棄されます。各遷移がすべての目標に関してオフポリシーの学習に使用される全目標学習では、エージェントが最大限の情報を抽出できますが、単純な再ラベル付けで実行すると通常は計算的に実行不可能です。この問題は、すべての目標の値とアクションを一度に共同出力することで克服できます。これにより、ネットワークを介した 1 回のパスで、すべての目標を効率的に並行して更新できるようになります。これは、すべてを一度に学習 (LEO) と呼ぶプロセスです。このアプローチは、ゴール条件付き Craftax で他の手法を大幅に上回り、継続的制御環境での既存のベースラインと競合しながら、全ゴールの再ラベル付けと比較して 250 倍を超える高速化を達成することを示します。次に、LEO を直接のアクターではなく教師ネットワークとして使用することで、このアプローチをさらに強力にできることを示します。私たちは、LEO が全目標学習を大規模に実現することで、複雑な環境の RL 実践者にとって有用なツールとして機能できることを願っています。私たちはコードをオープンソースにしています。
原文 (English)
Goal-Conditioned Agents that Learn Everything All at Once
A goal-conditioned reinforcement learning agent exploring an environment will see a wealth of information throughout a trajectory, most of which is discarded when only performing on-policy updates with respect to the commanded goal. All-goals learning, where each transition is used for learning off-policy with respect to every goal, allows agents to extract maximal information, however it is usually computationally infeasible when done via naive relabelling. This can be overcome by jointly outputting values and actions for every goal at once, allowing for efficient, parallel all-goals updates with a single pass through the network, in a process we call Learning Everything all at Once (LEO). We show that this approach significantly outperforms other methods on goal-conditioned Craftax and is competitive with existing baselines on continuous control environments, while achieving a >250x speed-up compared to all-goals relabelling. We then go on to show that this approach can be made even more powerful by using LEO as a teacher network, rather than a direct actor. We hope that, by unlocking all-goals learning at scale, LEO can serve as a useful tool for RL practitioners in complex environments. We open source our code.
PathNavigate: サプライズガイドスキャンと全スライド画像 VQA 用の共有スライドメモリを備えたトレーニング不要の病理学エージェント
スライド全体の画像による視覚的質問応答 (WSI-VQA) は、病理学を極端なコンテキストの検索問題としてフレーム化します。自由形式の臨床質問に答えるには、システムはまず厳格な検査予算の下でギガピクセルのスライドをナビゲートし、まばらで高解像度の証拠を見つける必要があります。既存のアプローチは主に 2 つのパラダイムに分類されます。i) 教師付き病理学マルチモーダル大規模言語モデル (MLLM) とエージェントは、ローカライゼーションと推論を学習したモジュールに吸収できますが、多くの場合、ナビゲーションをタスク固有の監督と再トレーニングに結びつけるため、実用性が制限されます。 ii) トレーニング不要の病理エージェントは、コアモデルを凍結したままにすることでこのコストを回避しますが、多くの場合、質問優先設計に従い、主にクエリ条件付き関連性から初期候補セットを構築します。これにより、質問で名前が挙げられていない決定的な形態が見逃され、推論時の足場が重くなる可能性があります。この課題に対処するために、スキャン、検索、読み出しルーチンを中心に構築されたトレーニング不要の病理エージェントである PathNavigate を導入します。質問照合の前に、PathNavigate は共有オンライン メモリ モジュールを使用して現在のスライドを低倍率でフリーズした病理特徴上でスキャンし、異常領域プールをマークするスライド固有のサプライズ フィールドを生成します。次に、質問条件付き PLIP 関連性をこのプール内のみに適用して、高倍率の検索ターゲットを選択します。最後に、スライド レベルのコンテキストと同じオンライン メモリを使用して、局所的な高倍率の証拠を抽出し、凍結された知覚-判定子スタックで回答します。 WSI-VQA および SlideBench-BCNB での実験では、提案されたスキャン検索読み出し設計により、回答精度が向上し、より解釈しやすい証拠選択軌跡がより高い効率で得られることが示されています。コードはオンラインで入手できます。
原文 (English)
PathNavigate: A Training-Free Pathology Agent with Surprise-Guided Scan and Shared Slide Memory for Whole-Slide Image VQA
Whole-slide image visual question answering (WSI-VQA) frames pathology as an extreme-context search problem: to answer a free-form clinical query, a system must first navigate a gigapixel slide under a strict inspection budget to locate sparse, high-resolution evidence. Existing approaches largely fall into two paradigms: i) supervised pathology multimodal large language models (MLLMs) and agents can absorb localization and reasoning into learned modules, but they often couple navigation to task-specific supervision and retraining, limiting their practicality; ii) training-free pathology agents avoid this cost by keeping core models frozen, but often follow a question-first design, constructing the initial candidate set mainly from query-conditioned relevance. This can miss decisive morphology that is not named in the question, and force heavier inference-time scaffolding. To address this challenge, we introduce PathNavigate, a training-free pathology agent built around a scan-search-readout routine. Before question matching, PathNavigate scans the current slide at low magnification with a shared online memory module over frozen pathology features, producing a slide-specific surprise field that marks an abnormal-region pool. It then applies question-conditioned PLIP relevance only within this pool to select high-magnification search targets. Finally, it extracts local high-magnification evidence and answers with a frozen perceptor-adjudicator stack, using the same online memory as slide-level context. Experiments on WSI-VQA and SlideBench-BCNB show that the proposed scan-search-readout design improves answer accuracy and yields more interpretable evidence-selection trajectories with higher efficiency.The code is available online.
ARMS: 報酬が少ないマルチエージェント強化学習のための自動報酬形成
まばらな報酬は、マルチエージェント強化学習 (MARL) の大きなボトルネックです。MARL では、同時学習により非定常性が誘発され、報酬設計が特にデリケートになります。報酬形成は学習を加速しますが、マルチエージェント設定では、単に短期的な最適化を改善するだけでなく、問題の戦略的構造を維持する必要があります。我々は、MARL の自己監視型報酬形成フレームワークであるマルチエージェント システム (ARMS) での自動報酬形成を提案します。これは、軌道ランキングを通じてまばらな環境報酬から密な形成信号を学習します。単一エージェントの軌道ランキングの保証は MARL に直接転送されないため、条件付き最良応答推論を通じてポリシーの不変性を再定式化し、特定の条件が成立する場合、シェーピング報酬を使用すると、固定された敵対ポリシーの下で各エージェントの最良応答セットが保存され、その結果、ナッシュ均衡のセットが保存されることを示します。この観点に基づいて、ARMS はポリシー学習と報酬学習を交互に切り替えながら、エージェント間でシェーピング パラメータを共有して効率を高めます。部分的に観察可能なマルチエージェント経路探索ドメインでの実験では、ARMSが報酬の希薄性とエージェント数の増加の下でサンプリング効率を向上させ、目に見えない環境に一般化して、限定的な探索と連動したポリシーと報酬ダイナミクスが振動行動を誘発するMARL特有の障害モードを明らかにすることが示されている。探索を増やすと、この影響が軽減され、学習が安定します。私たちの知る限り、ARMS は MARL の最初の自動報酬形成フレームワークであり、その設計はゲーム理論の均衡維持の結果によって動機付けられています。
原文 (English)
ARMS: Automatic Reward Shaping for Sparse-Reward Multi-Agent Reinforcement Learning
Sparse rewards are a major bottleneck in multi-agent reinforcement learning (MARL), where simultaneous learning induces non-stationarity and makes reward design especially delicate. Reward shaping can accelerate learning, but in the multi-agent setting it must preserve the strategic structure of the problem rather than merely improve short-term optimization. We propose Automatic Reward-shaping in Multi-agent Systems (ARMS), a self-supervised reward shaping framework for MARL that learns dense shaping signals from sparse environmental rewards through trajectory ranking. Since single-agent trajectory-ranking guarantees do not directly transfer to MARL, we reformulate policy invariance through conditional best-response reasoning, and show that if certain conditions hold, then using shaping rewards preserves each agent's best-response set under fixed opponent policies, and consequently preserve the set of Nash equilibria. Guided by this perspective, ARMS alternates between policy learning and reward learning while sharing shaping parameters across agents for efficiency. Experiments in a partially observable multi-agent pathfinding domain show that ARMS improves sampling efficiency under increasing reward sparsity and agent count, generalizes to unseen environments, and reveals a MARL-specific failure mode in which limited exploration and coupled policy--reward dynamics induce oscillatory behavior. Increasing exploration mitigates this effect and stabilizes learning. To the best of our knowledge, ARMS is the first automatic reward shaping framework for MARL whose design is motivated by a game-theoretic equilibrium-preservation result.
逐次強化学習における目標の一般化を理解する
強化学習エージェントは、トレーニング分布外で意図しない目標指向の動作を示すことがよくありますが、そのようなエージェントがトレーニング履歴に基づいて新しい環境にどのように一般化するかについての原則的な理解が現時点では不足しています。私たちは、1 つ以上のタスクについて順次トレーニングされたエージェントのこのギャップに対処します。私たちは 100 を超える連続トレーニング パイプラインを研究し、250 を超える分散環境外での動作を評価しています。私たちは、顕著な特徴が一般化を促進し、トレーニングの初期に学習した目標が持続し、その後に獲得した目標に影響を与える可能性があることを発見しました。これらの現象を説明するために、トレーニング パイプラインが誘発する可能性のある分布外の動作を予測する方法である潜在ポリシー勾配を導入します。私たちの方法は、潜在変数がどのように行動にマッピングされるかという単純なモデルに関して、トレーニング目標で高い報酬を達成するものに従って、トレーニング中に低次元の潜在変数の進化をシミュレートします。強力な予測精度を実現し、目に見えないタイプのトレーニング パイプラインに一般化され、解釈可能です。私たちの調査結果は、分布外の RL エージェントの動作はトレーニング パイプライン全体に依存している一方で、この依存には私たちが把握できる基礎的な構造があり、発達の観点から目標の一般化を理解するための基礎を築くことを示しています。
原文 (English)
Understanding Goal Generalisation in Sequential Reinforcement Learning
Reinforcement learning agents often exhibit unintended goal-directed behaviour outside their training distribution, but we currently lack a principled understanding of how such agents will generalise to novel environments based on their training history. We address this gap for agents trained sequentially on one or more tasks. We study over 100 sequential training pipelines, evaluating behaviour across over 250 out-of-distribution environments. We find that salient features drive generalisation, and that goals learnt early in training can persist and influence those acquired later. To explain these phenomena, we introduce latent policy gradients, a method that predicts what out-of-distribution behaviour a training pipeline will likely induce. Our method simulates the evolution of low-dimensional latent variables during training according to what would achieve high reward on the training objective with respect to a simple model of how the latent variables map to behaviour. It achieves strong predictive accuracy, generalises to unseen types of training pipeline, and is interpretable. Our findings demonstrate that while out-of-distribution RL agent behaviour is dependent on the whole training pipeline, this dependence has an underlying structure we can capture, laying groundwork for understanding goal generalisation from a developmental perspective.
HARNESS-LM: スポンサードサーチ検索で SLM を活用するための 3 段階のトレーニング レシピ
スポンサー付き検索の競争環境においては、検索品質と本番レイテンシーのバランスをとることが重要な課題です。 Qwen3-Embedding-4B/8B などの Small Language Model (SLM) に基づく大規模な検索モデルは、公開ベンチマークに強力な上限を設定していますが、高スループットで遅延に敏感な環境での展開は依然として非現実的です。この論文では、大型レトリバーの能力をコンパクトでコスト効率の高いモデルに移すための 3 段階のトレーニング フレームワークである HARNESS-LM (HLM) を紹介します。このアプローチは次の内容で構成されます。(1) 10 億パラメータ規模の SLM を微調整することにより、高性能のリファレンス (「教師」) レトリバーをトレーニングします。 (2) L2 目標を介してクエリ表現を調整し、知識をサブ 600M パラメータのスチューデント エンコーダに抽出します。 (3) 最終的な対照的洗練段階を適用して、生徒の検索パフォーマンスを最適化します。また、生産環境で最も効果的な構成を特定するために、位置合わせの目的、埋め込み次元、モデル スケール、アーキテクチャ、最適化戦略など、主要な設計の選択肢に関する包括的な実証研究も紹介します。実際の Bing Ads 評価ベンチマークでは、HLM は複数の設定にわたって参照取得精度の 98% 以上を回復し、NVIDIA A100 GPU ではオンライン クエリ エンコーダのレイテンシが最大 27 倍低く、スループットが 20 倍高くなります。さらに、Bing Ads でのオンライン A/B テストでは、デプロイされた 1 億 9,000 万パラメータ モデルを使用して運用環境で実行されている現在のレトリバー群と比べて、収益が +1%、インプレッションが +0.6%、クリック数が +0.4% 増加したことが示されており、現実世界のスポンサー付き検索設定における HLM レシピの実用的な有効性が明確に強調されています。
原文 (English)
HARNESS-LM: A Three-Phase Training Recipe for Harnessing SLMs in Sponsored Search Retrieval
In the competitive landscape of sponsored search, balancing retrieval quality with production latency is a critical challenge. While large retrieval models based on Small Language Models (SLMs) such as Qwen3-Embedding-4B/8B set strong upper bounds on public benchmarks, their deployment in high-throughput, latency-sensitive environments remains impractical. In this paper, we present HARNESS-LM (HLM), a three-phase training framework for transferring the capabilities of large-scale retrievers into compact, cost-efficient models. The approach comprises: (1) training a high-performance reference ("teacher") retriever by fine-tuning a billion-parameter-scale SLM; (2) aligning query representations via an L2 objective to distill knowledge into a sub-600M parameter student encoder; and (3) applying a final contrastive refinement stage to optimize the student for retrieval performance. We also present a comprehensive empirical study of key design choices, including alignment objectives, embedding dimensionality, model scale, architecture, and optimization strategies, to identify configurations that are most effective in production settings. On a real-world Bing Ads evaluation benchmark, HLM recovers over 98% of the reference retriever's precision across multiple settings, while delivering up to 27x lower online query-encoder latency and 20x higher throughput on NVIDIA A100 GPUs. Online A/B testing on Bing Ads further shows a +1% Revenue, +0.6% Impression, and +0.4% Click uplift over the current ensemble of retrievers running in production with the deployed 190M parameter model, clearly highlighting the practical efficacy of the HLM recipe in a real-world sponsored search setting.
メタ学習による費用対効果の高いモデル評価
機械学習の急速な成長により、拡大し続けるモデルのエコシステムが生み出され、目に見えないラベルのないデータに対して新しくリリースされたモデルの信頼性を検証することがますます困難になっています。従来の評価パイプラインは、高価なアノテーション、繰り返しの微調整、またはモデル ファミリ間での転送ができない狭い仮定に依存しています。さまざまなアーキテクチャやモダリティにまたがる未確認のモデルをラベルなしで迅速に評価するための、コスト効率が高く、モデルに依存しないフレームワークである MetaEvaluator を紹介します。 MetaEvaluator は、参照モデルのプールに対するメタ学習を利用して転送可能な初期化を取得し、プール全体でコストを償却しながら、モデルごとの再トレーニングの必要性を排除しながら、新しいモデルの正確な評価を可能にします。私たちの知る限り、これは完全にラベルのないデータセットで新しいモデルを評価できる、モデルに依存しない最初のフレームワークです。広範な実験により、MetaEvaluator は従来のアプローチと比較して大幅にコストを削減しながら安定した正確なパフォーマンス推定値を生成し、ラベルのないデータに対する新しいモデルのスケーラブルなベンチマークを実用化できることが示されています。
原文 (English)
Cost-Effective Model Evaluation with Meta-Learning
The rapid growth of machine learning has produced an ever-expanding ecosystem of models, making it increasingly challenging to verify the reliability of newly released models on unseen, unlabeled data. Conventional evaluation pipelines depend on expensive annotation, repeated fine-tuning, or narrow assumptions that fail to transfer across model families. We present MetaEvaluator, a cost-effective, model-agnostic framework for rapid, label-free assessment of unseen models spanning diverse architectures and modalities. MetaEvaluator leverages meta-learning over a pool of reference models to obtain a transferable initialization, enabling accurate evaluation of new models while amortizing cost across the pool and removing the need for per-model retraining. To the best of our knowledge, this is the first model-agnostic framework capable of evaluating new models on entirely unlabeled datasets. Extensive experiments show that MetaEvaluator produces stable and accurate performance estimates at substantially reduced cost compared to conventional approaches, making scalable benchmarking of emerging models on unlabeled data practical.
プライザッハの注意: 逐次記憶のヒステリシス モデル
数理物理学からの古典的なプライザッハ ヒステリシス演算子に基づいた新しいシーケンス モデリング アーキテクチャであるプライザッハ アテンション レイヤー (PAL) を紹介します。 PAL は、ソフトマックス アテンション メカニズムを、学習されたアクティブ化および非アクティブ化のしきい値によってパラメーター化されたバイナリ リレー演算子に置き換え、局所的な極値のスタックを内部状態として維持します。標準的なハードアテンショントランスフォーマーが必要とする深さ O(log n) とは対照的に、深さ O(1) の単層 PAL トランスフォーマーは、任意精度の演算の下でチューリング完全であり、2 スタックのプッシュダウン オートマトンのシミュレーションを通じて達成できます。次に、PAL とトランスフォーマーによって計算可能な関数クラスが比較できないことを証明します。PAL は、トランスフォーマーに O(log n) 層を必要とする O(1) 層で履歴範囲統計を計算しますが、トランスフォーマーは、PAL が補助状態なしでは実行できないランダム アクセス取得をサポートします。分離特性はレートに依存しません。PAL は、絶対的なトークン位置や時間的間隔ではなく、局所的な極値のシーケンスにのみ応答します。第三に、極値スタックがすべてのレート独立汎関数の入力履歴の最小限の十分な統計を構成し、古典的なヒステリシス理論におけるワイピング特性の形式的な類似物を提供することを示します。したがって、PAL は、エピソード記憶が長く、位置依存性が弱いタスクにとって効率的なアーキテクチャであり、総推論コストが O(n log n) であるのに対し、標準的な注意の場合は O(n^2) です。
原文 (English)
Preisach Attention: A Hysteretic Model of Sequential Memory
We introduce the Preisach Attention Layer (PAL), a novel sequence modelling architecture grounded in the classical Preisach hysteresis operator from mathematical physics. PAL replaces the softmax attention mechanism with a binary relay operator parameterised by learned activation and deactivation thresholds, maintaining a stack of local extrema as its internal state. A single-layer PAL-Transformer with O(1) depth is Turing-complete under arbitrary precision arithmetic, achievable through simulation of a two-stack pushdown automaton -- in contrast to the O(log n) depth required by standard hard-attention transformers. Second, we prove that the function classes computable by PAL and by the transformer are incomparable: PAL computes historical range statistics in O(1) layers that require O(log n) layers for transformers, while transformers support random-access retrieval that PAL cannot perform without auxiliary state. The separating property is rate-independence -- PAL responds only to the sequence of local extrema, not to absolute token positions or temporal spacing. Third, we show that the extremum stack constitutes a minimal sufficient statistic of the input history for all rate-independent functionals, providing a formal analogue of the wiping property in classical hysteresis theory. PAL is thus an efficient architecture for tasks with long episodic memory and weak positional dependence, with O(n log n) total inference cost versus O(n^2) for standard attention.
DiLaDiff: 言語モデリングのための蒸留された潜在拡張拡散
拡散言語モデルは本質的に、デコードされたトークン間の相関関係を捉えることができないため、サンプリング品質とスループットの間に厳しいトレードオフが生じます。この問題を解決するために、我々は、次の 3 つのコンポーネントを備えたマスク拡散言語モデルのバリアントである DiLaDiff を提案します。(1) 既存のマスク拡散言語モデルから微調整された自動エンコーダによって学習された、セマンティック機能を備えた連続潜在空間。 (2) エンコーダ分布に対する事前分布を学習する潜在拡散モデル。 (3) 学習された事前情報を数ステップの潜在生成モデルに抽出する一貫性モデル。蒸留を行わない場合でも、潜在誘導拡散モデルはマスクされた拡散ベースラインを上回り、推論を大幅に加速することを示します。一貫性蒸留により、連続拡散の計算オーバーヘッドがさらに低下し、離散デコードと比較して無視できる時間で潜在が生成されます。
原文 (English)
DiLaDiff: Distilled Latent-Augmented Diffusion for Language Modeling
Diffusion language models intrinsically fail to capture correlations between decoded tokens, which leads to a harsh trade-off between sampling quality and throughput. To solve this issue, we propose DiLaDiff, a variant of masked diffusion language models with three components: (1) a continuous latent space with semantic capabilities, learned by an auto-encoder fine-tuned from an existing masked diffusion language model; (2) a latent diffusion model learning the prior over the encoder distribution; (3) a consistency model distilling the learned prior into a few-step latent generative model. We show that, even without distillation, our latent-guided diffusion model outperforms the masked diffusion baseline while significantly accelerating inference. Consistency distillation further lowers the computational overhead of continuous diffusion, such that the latent is generated in negligible time compared to discrete decoding.
EM-Vid: 効率的かつ一貫性のあるマルチショット ビデオ生成のためのトレーニング不要のエンティティ中心のメモリ
マルチショット ビデオの生成では、ショット固有のテキスト プロンプトを忠実に保ちながら、ショット間で繰り返されるエンティティの一貫した外観を維持する必要があります。最近の自己回帰手法は、以前に生成されたフレームをメモリとして再利用します。ただし、フルフレーム ストレージでは、永続的なエンティティ情報と一時的なシーン コンテキストが絡み合い、無関係な情報漏洩と高い計算コストが発生します。我々は、潜在パッチのエンティティインデックス付きバンクの形でエンティティ中心のメモリを提案します。事前トレーニング済みモデルと互換性のあるスパース トークン コンディショニングを導入し、エンティティ関連のトークンへの自己注目を制限し、計算コストを削減します。これをサポートするために、構造化されたマルチショット スクリプト形式を導入します。さらに、コンパクトで進化するメモリを維持するための、予算に応じたメモリ更新戦略を提案します。最後に、エンティティ表現にノイズ注入メカニズムを装備し、きめ細かい外観制御を可能にし、無関係な情報の漏洩を防ぎます。私たちの方法は、被験者の一貫性を維持しながら、迅速な遵守と効率を向上させます。
原文 (English)
EM-Vid: Training-Free Entity-Centric Memory for Efficient and Consistent Multi-Shot Video Generation
Multi-shot video generation requires maintaining a consistent appearance of recurring entities across shots while remaining faithful to shot-specific text prompts. Recent autoregressive methods reuse previously generated frames as memory. However, full-frame storage entangles persistent entity information with transient scene context, leading to irrelevant information leakage and high computational cost. We propose an entity-centric memory in the form of an entity-indexed bank of latent patches. We introduce sparse token conditioning compatible with pretrained models, restricting self-attention to entity-relevant tokens and reducing computational cost. To support this, we introduce a structured multi-shot script format. We additionally propose a budgeted memory update strategy to maintain a compact, evolving memory. Finally, we equip the entity representation with a noise-injection mechanism that enables fine-grained appearance control, preventing leakage of irrelevant information. Our method improves prompt adherence and efficiency while preserving subject consistency.
時間的概念ドリフトの下での敵対的脆弱性: Android マルウェア検出の縦断的研究
エミュレータと実際のデバイスの実行から抽出された静的および動的特徴表現を使用して、10 年以上の Android アプリケーションにわたる敵対的堅牢性の長期的なドリフトを意識した評価を示します。データセットは年ごとのスライスに編成され、現実的な学習シナリオをエミュレートする 3 つの導入プロトコルに基づいて評価されます。(1) 同年のトレーニングとテスト、(2) モデルの更新を行わない年度をまたぐ導入、(3) 累積的な履歴データによるウィンドウの拡大再トレーニング。複数の分類子ファミリーにわたって、実現可能性の制約の下で FGSM と SPSA を使用して敵対的な例が生成されます。クリーン パフォーマンス、敵対的精度 (AA)、攻撃成功率 (ASR) を測定し、時間的リンケージ メトリック (RobustDrop、$\Delta$ASR、敵対的増幅率 (AAF)) を導入して、分布シフトとロバスト性低下の関係を定量化します。結果は、評価された転送ベースの特徴空間設定では、時間的分離が敵対的ロバスト性の低下と関連していることを示しています。トレインとテストのギャップが増加するにつれて、クリーン精度と敵対的精度は低下しますが、攻撃の成功率は、特に FGSM の摂動や静的機能の下では設定に依存して増加します。拡張ウィンドウの再トレーニングは、継続的な分布進化の下でのロバスト性の損失を軽減しますが、排除するわけではありません。これらの発見は、進化するデータ分布の下でインテリジェント検出システムの長期的な堅牢性を評価する際には時間的ドリフトを考慮する必要があることを示し、長期にわたる敵対環境におけるドリフトを意識した堅牢性評価フレームワークの必要性を強調しています。
原文 (English)
Adversarial Vulnerability Under Temporal Concept Drift: A Longitudinal Study of Android Malware Detection
We present a longitudinal, drift-aware evaluation of adversarial robustness across more than a decade of Android applications using static and dynamic feature representations extracted from emulator and real-device executions. The dataset is organized into yearly slices and evaluated under three deployment protocols that emulate realistic learning scenarios: (1) same-year training and testing, (2) cross-year deployment without model updates, and (3) expanding-window retraining with cumulative historical data. Across multiple classifier families, adversarial examples are generated using FGSM and SPSA under feasibility constraints. We measure clean performance, Adversarial Accuracy (AA), Attack Success Rate (ASR), and introduce temporal linkage metrics -- RobustDrop, $\Delta$ASR, and Adversarial Amplification Factor (AAF) -- to quantify the relationship between distribution shift and robustness degradation.nResults show that temporal separation is associated with reduced adversarial robustness under the evaluated transfer-based feature-space setting. As the train-test gap increases, clean accuracy and adversarial accuracy decline, while attack success exhibits configuration-dependent increases, particularly under FGSM perturbations and static features. Expanding-window retraining mitigates, but does not eliminate, robustness loss under continued distributional evolution. These findings indicate that temporal drift should be considered when assessing the long-term robustness of intelligent detection systems under evolving data distributions and highlight the need for drift-aware robustness assessment frameworks in long-lived adversarial environments.
DualMem: オープンワールドのオブジェクト検出におけるキャリブレーションされた未知のストリーム フィルタリングのオブジェクトネス ボトルネックをバイパスする
オープンワールド物体検出 (OWOD) では、将来の増分学習のために未知の物体を識別しながら、既知のクラスを位置特定する検出器が必要です。強力な OWOD 検出器の未知の予測ストリームはひどく汚染されていることがわかりました。M-OWODB では、PROB、OW-DETR、HypOW 全体で、将来のタスクのポジティブな未知が未知の予測の 10% 未満を占めているのに対し、バックグラウンドの偽陽性は 46 ~ 71% を占めています。これは情報の欠落の問題ではなく、オブジェクト性の先頭にある情報のボトルネックであることを示します。 PROB タスク 1 では、256-D デコーダー クエリの線形プローブは、正負の未知の識別で 0.908 の AUROC を達成しますが、最終的な 1 次元のオブジェクトネス スカラーは 0.642 に低下します。凍結された SigLIP 機能は、検出器にアクセスせずに、フィルタリング段階でこの提案レベルの分離可能性の多くを独立して回復します (AUROC = 0.871)。この発見に動機付けられて、我々は、保持された将来のタスクオブジェクトの小さな画像に独立した注釈付きキャリブレーション分割を仮定し、凍結されたSigLIP特徴空間でノンパラメトリック尤度比テストを実行するキャリブレーション済みポストホックフィルターであるDualMemを提案します。 DualMem は、k 近傍法ポジティブ メモリを使用して将来のタスク オブジェクトを保護し、ネガティブ メモリを使用してバックグラウンドのような提案を抑制します。その決定閾値はネイマン・ピアソン校正によって選択され、偽-未知の抑制と新規想起の間の明示的なトレードオフをユーザーに提供します。 M-OWODB タスク 1 の PROB、OW-DETR、および HypOW 全体で、DualMem は画像あたりの背景タイプの誤った未知の提案を 44.9% ~ 66.3% 削減し、平均で 56.6% 削減しました。 PROB タスク 1 では、既知の検出がフィルターをバイパスするため、既知のクラスの mAP は変更されずに、自然な K 平均法プロトタイプ ベースラインによって達成される削減量が 2 倍以上になります。
原文 (English)
DualMem: Bypassing the Objectness Bottleneck for Calibrated Unknown-Stream Filtering in Open-World Object Detection
Open-world object detection (OWOD) requires detectors to localize known classes while identifying unknown objects for future incremental learning. We find that the unknown prediction streams of strong OWOD detectors are heavily polluted: on M-OWODB, across PROB, OW-DETR, and HypOW, future-task positive unknowns make up less than 10% of unknown predictions, whereas background false positives account for 46-71%. We show that this is not a missing-information problem, but an information bottleneck at the objectness head. On PROB Task 1, a linear probe on the 256-D decoder query achieves an AUROC of 0.908 for positive-versus-negative unknown discrimination, but the final one-dimensional objectness scalar drops to 0.642. A frozen SigLIP feature, without access to the detector, independently recovers much of this proposal-level separability at the filtering stage (AUROC = 0.871). Motivated by this finding, we propose DualMem, a calibrated post-hoc filter that assumes a small image-disjoint annotated calibration split of held-out future-task objects and performs a non-parametric likelihood ratio test in frozen SigLIP feature space. DualMem uses a k-nearest-neighbor positive memory to protect future-task objects and a negative memory to suppress background-like proposals. Its decision threshold is chosen by Neyman-Pearson calibration, giving users an explicit trade-off between false-unknown suppression and novel recall. Across PROB, OW-DETR, and HypOW on M-OWODB Task 1, DualMem reduces background-type false unknown proposals per image by 44.9%-66.3%, with a mean reduction of 56.6%. On PROB Task 1, it more than doubles the reduction achieved by a natural K-means prototype baseline, while leaving known-class mAP unchanged because known detections bypass the filter.
騒音を通して学ぶ: サブリミナル学習がうまくいく理由と失敗する場合
人工ニューラル ネットワークの文脈では、サブリミナル学習とは、タスクに関連しない input$\unicode{x2013}$output ペアの蒸留を通じて、タスクに関連した知識や意図しないバイアスを教師モデルから生徒モデルに伝達することを指します。これまでの説明では、この効果を共有または厳密に一致する Teacher$\unicode{x2013}$student の初期化に結び付けました。厳密に一致する初期化は必要ないことを示します。代わりに、サブリミナル学習は互換性のある出力ヘッドによって管理されます。制御された MNIST 設定を使用して、出力を補助ヘッド (タスクに関係のない補助的なノイズ信号用) とクラス ヘッド (分類用) に分割し、隠れ層をランダムに初期化して層を削除したり、新しい層を追加したり、アーキテクチャを変更したり (MLP から CNN) した場合でも、サブリミナル学習が発生することを実証しました$\unicode{x2014}$。互換性のある補助ヘッドにより、回復可能な教師信号の転送が可能になり、生徒の表現を教師の表現に近づけることができます。クラス長の互換性も保たれていれば、課題に関係のない雑音だけを訓練された生徒は、好ましい体制では教師レベルの課題パフォーマンスに近づくことができ、それに匹敵することができます。私たちの設定により、潜在意識学習のメカニズムを説明する理論を開発し、潜在意識学習が失敗するときの上限を導き出すことができます。総合すると、私たちの結果は、驚くべき伝達効果からのサブリミナル学習を、予測可能な制限を備えた理論的に根拠のあるメカニズムに変えます。
原文 (English)
Learning Through Noise: Why Subliminal Learning Works and When It Fails
In the context of artificial neural networks, subliminal learning refers to the transfer of task-relevant knowledge or unintended biases from teacher to student models through distillation on task-unrelated input$\unicode{x2013}$output pairs. Prior explanations tie this effect to shared or closely matched teacher$\unicode{x2013}$student initialization. We show that a closely matched initialization is not necessary. Instead, subliminal learning is governed by compatible output heads. Using a controlled MNIST setting, we split outputs into an auxiliary head (for auxiliary, task-unrelated noise signals) and a class head (for classification) to demonstrate subliminal learning occurs$\unicode{x2014}$even when we randomly initialize hidden layers and remove layers, add new layers, or change the architecture (MLP-to-CNN). Compatible auxiliary heads enable transfer of a recoverable teacher signal, bringing the student's representations closer to the teacher's. When the class heads remain compatible as well, students trained only on task-unrelated noise can approach, and in favorable regimes match, teacher-level task performance. Our setting enables us to develop a theory that explains the mechanism of subliminal learning and to derive upper bounds on when subliminal learning fails. Together, our results turn subliminal learning from a surprising transfer effect into a theoretically grounded mechanism with predictable limits.
CVSearch: 高解像度の画像認識のための認知視覚検索でマルチモーダル LLM を強化
高解像度 (HR) 画像認識は、マルチモーダル大規模言語モデル (MLLM) にとって重要なボトルネックとなります。視覚的な検索は有望なソリューションを提供しますが、既存の方法では対象範囲と効率のトレードオフに苦労しています。視覚的な専門家支援による検索は効率的ですが、提案が失敗した場合に盲点になりやすいのに対し、スキャンベースの検索では、計算の冗長性とセマンティックな断片化を犠牲にしてカバレッジを保証します。このジレンマに対処するために、評価してから検索するワークフローを通じて検索戦略を動的にスケジュールする、トレーニング不要の適応フレームワークである CVSearch を導入します。具体的には、CVSearch は、グローバル情報が不十分な場合に最初に専門家支援検索を呼び出し、失敗した場合にのみ新しいセマンティック認識スキャン メカニズムをトリガーします。厳格なグリッド分割とは異なり、この効率的なスキャン パラダイムには、セマンティック ガイド付き適応パッチングが組み込まれており、画像を意味的に一貫した領域に分解し、オブジェクトの断片化を効果的に軽減します。さらに、局所的な詳細の効率的かつ正確な反復探索を可能にする前に、視覚的な複雑さによって駆動される動的ボトムアップ検索戦略を考案します。 HR ベンチマークに関する広範な実験により、CVSearch が検索効率を大幅に向上させながら最先端の精度を達成することが実証されました。コードは https://github.com/liliupeng28/ICML26-CVSearch で公開されています。
原文 (English)
CVSearch: Empowering Multimodal LLMs with Cognitive Visual Search for High-Resolution Image Perception
High-resolution (HR) image perception presents a key bottleneck for multimodal large language models (MLLMs). While visual search offers a promising solution, existing methods struggle with the trade-off between coverage and efficiency. Visual expert-assisted search is efficient but prone to blind spots when proposals fail, whereas scan-based search guarantees coverage at the cost of computational redundancy and semantic fragmentation. To address this dilemma, we introduce CVSearch, a training-free adaptive framework that dynamically schedules search strategies via an Assess-then-Search workflow. Specifically, CVSearch first invokes expert-assisted search when global information is insufficient, and only triggers a novel semantic-aware scanning mechanism upon failure. Distinct from rigid grid partitioning, this efficient scanning paradigm incorporates Semantic Guided Adaptive Patching to decompose images into semantically consistent regions, effectively mitigating object fragmentation. Furthermore, we devise a Dynamic Bottom-Up Search strategy driven by a Visual Complexity prior to enable efficient and precise iterative exploration of local details. Extensive experiments on HR benchmarks demonstrate that CVSearch achieves state-of-the-art accuracy while substantially improving search efficiency. Code is released at https://github.com/liliupeng28/ICML26-CVSearch.
OnePred: マルチターン会話における再帰的インテント メモリによる次のクエリの予測
大規模言語モデル (LLM) 会話システムは、毎日何百万ものマルチターン対話を処理しますが、基本的には反応的なままであり、ユーザーがクエリを入力した後でのみ応答します。プロアクティブな対話に向けた重要なステップは、次のクエリの予測です。これは、前のダイアログのみに基づいてユーザーのその後のクエリを予測します。このタスクの進捗は、専用のベンチマークの欠如と基本的な効率性、つまり品質のトレードオフによって妨げられています。完全な対話履歴を単純に連結すると、トークンの消費が直線的に増加する一方、最新のターンに切り捨てると重要なクロスターンのコンテキストが破棄されます。私たちの重要な洞察は、正確な予測には生の履歴を再度読み取る必要がないということです。トピック、未解決のニーズ、興味の変化にわたってユーザーの進化する意図の軌跡を追跡するだけで十分です。我々は、唯一のクロスターンコンテキストとして再帰的に更新されるメモリを維持し、会話の長さに関係なくターンごとのコストを制限する OnePred を提案します。 2 段階の強化学習パイプラインを介してモデルをトレーニングします。このパイプラインでは、最初に何を予測するかを教え、次に何を圧縮するかを学習し、メモリを予測指向のインテント チェーンに形成します。厳密なテストベッドを確立するために、3 つの多様なサブセットにわたる NQP-Bench を導入します。実験では、OnePred が全履歴入力と比較してターンごとのトークン消費量を最大 22$\times$ 削減しながら、予測品質のすべてのベースラインを一貫して上回り、より長い会話でより大きな利益が得られることを実証しています。私たちのコードは https://github.com/ZBWpro/OnePred で公開されています。
原文 (English)
OnePred: Next-Query Prediction via Recursive Intent Memory in Multi-Turn Conversations
Although large language model (LLM) conversational systems process millions of multi-turn dialogues daily, they remain fundamentally reactive: they respond only after the user types a query. A key step toward proactive interaction is next-query prediction, which anticipates the user's subsequent query based solely on the preceding dialogue. Progress on this task is hindered by the lack of dedicated benchmarks and a fundamental efficiency--quality trade-off: naively concatenating full dialogue history incurs linearly growing token consumption, while truncating to the latest turn discards crucial cross-turn context. Our key insight is that accurate prediction does not require re-reading raw history; it suffices to track the user's evolving intent trajectory across topics, unresolved needs, and interest shifts. We propose OnePred, which maintains a recursively updated memory as its sole cross-turn context, bounding the per-turn cost independently of conversation length. We train the model via a two-stage reinforcement learning pipeline that first teaches what to predict, then what to compress, shaping the memory into a prediction-oriented intent chain. To establish a rigorous testbed, we introduce NQP-Bench, spanning three diverse subsets. Experiments demonstrate that OnePred reduces per-turn token consumption by up to 22$\times$ compared to full-history inputs while consistently exceeding all baselines in prediction quality, with larger gains on longer conversations. Our code is publicly available at https://github.com/ZBWpro/OnePred.
ビジョントランスフォーマー用のワイアーシュトラス位置エンコーディング
ビジョン トランスフォーマーはコンピューター ビジョンで目覚ましい成功を収めていますが、学習可能な 1 次元の位置エンコーディングが一般的に使用されているため、パッチの平坦化後の画像に固有の 2 次元の空間構造が弱められます。既存の位置エンコーディングには幾何学的制約が欠けていることが多く、ユークリッド空間距離と連続インデックス距離の間の単調な関係が維持されないため、空間近接事前確率を活用する ViT の能力が制限されます。位置符号化における周期性の有用性に動機付けられ、複素領域で 2 次元座標を符号化するための数学的に根拠のある方法である Weierstrass elliptic Positional Encoding (WePE) を提案します。 WePE は、正規化された 2D パッチ座標を複素平面上にマッピングし、ワイエルシュトラスの楕円関数とその導関数を使用してコンパクトな 4 次元の位置特徴を構築します。二重周期性は 2D 位置の原則的な表現を提供し、その固有の格子構造は画像パッチ グリッドの規則的な幾何学形状と自然に一致します。その非線形幾何学的特性は、空間距離関係をより忠実にモデル化するのに役立ち、代数加算公式により、任意のパッチ ペア間の相対位置情報を絶対エンコーディングから直接導き出すことができます。 WePE はプラグ アンド プレイで解像度に依存しないため、既存の ViT へのシームレスな統合が可能です。広範な実験により、WePE がほとんどの設定で一貫したパフォーマンスの向上をもたらすことが示されています。事前に計算されたルックアップ テーブルを使用すると、これらの改善により、目立った計算オーバーヘッドやメモリ オーバーヘッドは発生しません。追加の分析とアブレーション研究により、提案された方法の有効性がさらに検証されます。
原文 (English)
Weierstrass Positional Encoding for Vision Transformers
Vision Transformers have achieved remarkable success in computer vision, but their common use of learnable one-dimensional positional encodings weakens the inherent two-dimensional spatial structure of images after patch flattening. Existing positional encodings often lack geometric constraints and do not preserve a monotonic relationship between Euclidean spatial distances and sequential index distances, limiting ViTs' ability to exploit spatial proximity priors. Motivated by the usefulness of periodicity in positional encoding, we propose Weierstrass elliptic Positional Encoding (WePE), a mathematically grounded method for encoding two-dimensional coordinates in the complex domain. WePE maps normalized 2D patch coordinates onto the complex plane and constructs compact four-dimensional positional features using the Weierstrass elliptic function and its derivative. The double periodicity provides a principled representation of 2D positions, and its intrinsic lattice structure naturally matches the regular geometry of image patch grids. Its nonlinear geometric properties help model spatial distance relationships more faithfully, while the algebraic addition formula enables relative positional information between arbitrary patch pairs to be derived directly from their absolute encodings. WePE is plug-and-play and resolution-agnostic, allowing seamless integration into existing ViTs. Extensive experiments show that WePE brings consistent performance gains in most settings. With precomputed lookup tables, these improvements introduce no noticeable computational or memory overhead. Additional analyses and ablation studies further validate the effectiveness of the proposed method.
Any2Any: 人型全身追跡のための効率的な体外転送
全身追跡 (WBT) モデルは、ヒューマノイド ロボットの重要な基盤となっており、さまざまな動作を高い忠実度で模倣できるようになります。このようなモデルをゼロからトレーニングするには大規模なデータと計算が必要であり、新しいヒューマノイド プラットフォームへの迅速な展開にはコストがかかります。これにより、当然の疑問が生じます。事前トレーニングされた WBT モデルは、最小限の適応で複数の実施形態に移行できるでしょうか?この質問に答えるために、私たちは Any2Any を提案します。これは、既存の WBT スペシャリストを、少量のデータとコンピューティングだけで新しい人型の実施形態に効率的に移行するパラダイムです。 Any2Any は、まずソース ヒューマノイドとターゲット ヒューマノイドの間で運動学的な調整を実行し、事前トレーニング済みのソース ポリシーをターゲットの実施形態で有意義に再利用できるように、入力空間と出力空間を調整します。次に、Any2Any は、軽量のパラメータ効率微調整 (PEFT) コンポーネントを選択されたダイナミクスに敏感なモジュールに適用することによってダイナミクス適応を実行し、ターゲット ロボットへのターゲットを絞った適応を可能にしながら、有用な動作の事前分布を保存します。複数のヒューマノイド プラットフォームと事前トレーニングされたバックボーンに関する広範な実験により、Any2Any は、ゼロからトレーニングする場合と比較して、収束を大幅に加速し、トレーニング コストを削減しながら、競争力のあるまたは優れた追跡パフォーマンスを達成できることが示されています。特に、Any2Any は、完全なトレーニングに必要なコンピューティングとデータのわずか 1% を使用して、Unitree G1 で事前トレーニングされた Sonic モデルを LimX Oli および LimX Luna に転送することに成功しています。これらの結果は、事前訓練された WBT スペシャリストを実施形態間で効率的に再利用でき、新しいロボットに人型全身制御を導入するための拡張可能な道を提供することを示唆しています。
原文 (English)
Any2Any: Efficient Cross-Embodiment Transfer for Humanoid Whole-Body Tracking
Whole-body tracking (WBT) models have become a key foundation for humanoid robots, enabling them to imitate diverse motions with high fidelity. Training such models from scratch requires large-scale data and computation, making rapid deployment on new humanoid platforms costly. This raises a natural question: Can pretrained WBT models transfer across embodiments with minimal adaptation? To answer this question, we propose Any2Any, a paradigm that efficiently transfers an existing WBT specialist to a new humanoid embodiment with only a small amount of data and compute. Any2Any first performs kinematic alignment between source and target humanoids, aligning their input and output spaces so that the pretrained source policy can be meaningfully reused on the target embodiment.Any2Any then performs dynamics adaptation by applying lightweight parameter-efficient fine-tuning (PEFT) components to selected dynamics-sensitive modules, preserving useful behavioral priors while enabling targeted adaptation to the target robot. Extensive experiments on multiple humanoid platforms and pretrained backbones show that Any2Any substantially accelerates convergence and reduces training cost compared with training from scratch, while achieving competitive or superior tracking performance. Notably, using only 1% of the compute and data required for full training, Any2Any successfully transfers Sonic models pre-trained on Unitree G1 to LimX Oli and LimX Luna. These results suggest that pretrained WBT specialists can be efficiently reused across embodiments, providing a scalable path toward deploying humanoid whole-body control on new robots.
PhotoFlow: Agentic 3D 仮想写真ミッション
仮想写真撮影では、エージェントは事前に選択されたカメラポーズや参照画像を使用せずに準備された 3D シーンに入り、シーン情報と言語の意図から適切なショットを推測し、実行可能なカメラパラメーターを選択して、最終的な写真をレンダリングするように求められます。視覚言語モデルの最近の進歩により、この種の空間エージェントはますます現実的になってきていますが、この課題では、複雑な 3D 空間の理解と抽象的な美的判断という、依然として一緒に評価するのが難しい 2 つの機能が強調されています。閉ループ カメラ検索用の Director-Reviewer-Reflector エージェントである PhotoFlow を紹介します。ディレクターは、ソフトな写真の青写真を構築し、多様なカメラの候補を提案します。レビュー担当者は、ルールチェック、視覚的批評、およびペアごとの既存の選択を組み合わせます。そして、Reflector は障害を領域メモリ、デッドゾーンの抑制、および高探索の再配置に変換します。また、47 のオープンライセンス Blender シーンと、被写体の配置、関係構成、雰囲気/スタイルにわたる 141 の言語条件付き撮影ミッションのベンチマークである VPhotoBench も紹介します。継続的な実験では、PhotoFlow は、6 ラウンドのレンダリング バジェットの下で、ワンショット予測、シングルチェーン リフレクション、アンカー バンク選択、およびランダム検索の中で最も強力な外部品質調整複合と成功率を達成しました。私たちの知る限り、これは任意の Blender シーンで言語条件付きの仮想写真を実行可能なエージェント タスクにする最初の作業であり、私たちの結果は、LLM 中心の空間エージェントが、3D 推論と美的選択の両方に挑戦するように設計された設定ですでに強力な写真を生成できることを示しています。
原文 (English)
PhotoFlow: Agentic 3D Virtual Photography Missions
Virtual photography asks an agent to enter a prepared 3D scene with no preselected camera pose or reference image, infer a suitable shot from scene information and a language intent, choose executable camera parameters, and render the final photograph. Recent progress in vision-language models makes this kind of spatial agent increasingly plausible, but the task stresses two capabilities that remain hard to evaluate together: complex 3D spatial understanding and abstract aesthetic judgment. We introduce PhotoFlow, a Director-Reviewer-Reflector agent for closed-loop camera search. The Director builds a soft photographic blueprint and proposes diverse candidate cameras; the Reviewer combines rule checks, visual critique, and pairwise incumbent selection; and the Reflector converts failures into region memory, dead-zone suppression, and high-explore relocation. We also introduce VPhotoBench, a benchmark of 47 open-license Blender scenes and 141 language-conditioned photography missions spanning subject placement, relational composition, and atmosphere/style. On held-out experiments, PhotoFlow achieves the strongest external quality-alignment composite and success rate among one-shot prediction, single-chain reflection, anchor-bank selection, and random search under a six-round rendering budget. To our knowledge, this is the first work to make language-conditioned virtual photography in arbitrary Blender scenes an executable agent task, and our results show that an LLM-centered spatial agent can already produce strong photographs in a setting designed to challenge both 3D reasoning and aesthetic choice.
生成的すぎず、差別的すぎず: 人間の調和のスイートスポット
コンピューティング ビジョンにおける中心的な問題は、人間のような視覚表現が識別学習と生成学習のどちらによってよりよく説明されるかということです。しかし、既存の比較では、学習目標とアーキテクチャ、規模、トレーニング データが混同されることが多く、目標自体が整合性を促進するかどうかは不明のままです。私たちは、固定アーキテクチャ内で識別トレーニングと生成トレーニングの間を継続的に補間する共同エネルギーベース モデル (JEM) を使用して、この混乱に対処します。単一の混合係数を変更することで、学習目標の影響を分離し、知覚の類似性、光沢知覚、人間の反応の不確実性、ロバスト性、形状とテクスチャの手がかりの競合、および診断特徴の帰属に及ぶ 6 つのヒューマン アライメント ベンチマークにわたって結果のモデルを評価します。この多様なスイート全体にわたって、人間の整合性は、どちらかの終点ではなく、生成と識別の連続体の中間点で一貫して最大化されます。ハイブリッド JEM は、弁別学習によって誘発されるカテゴリ構造と生成学習によって誘発される入力構造に対する感度を組み合わせ、複数の視覚レベルにわたってより人間に近い動作を生み出します。これらの結果は、生成と識別の二分法が、人間の整合視覚を理解する上で間違った軸であることを示唆しています。整合は、一方の目的を他方よりも選択することからではなく、両方のバランスをとることから生まれます。
原文 (English)
Not Too Generative, Not Too Discriminative: The Human Alignment Sweet Spot
A central question in computational vision is whether human-like visual representations are better explained by discriminative or generative learning. Existing comparisons, however, often confound the learning objective with architecture, scale, and training data, leaving open whether the objective itself drives alignment. We address this confound using Joint Energy-Based Models (JEMs), which interpolate continuously between discriminative and generative training within a fixed architecture. By varying a single mixing coefficient, we isolate the effect of the learning objective and evaluate the resulting models across six human-alignment benchmarks spanning perceptual similarity, gloss perception, human response uncertainty, robustness, shape-texture cue conflict, and diagnostic feature attribution. Across this diverse suite, human alignment is consistently maximized at intermediate points of the generative-discriminative continuum, rather than at either endpoint. Hybrid JEMs combine the categorical structure induced by discriminative learning with the sensitivity to input structure induced by generative learning, yielding more human-like behavior across multiple levels of vision. These results suggest that the generative-discriminative dichotomy is the wrong axis for understanding human-aligned vision: alignment emerges not from choosing one objective over the other, but from balancing both.
問題はデータではなく人間です: LLM の地政学的バイアスはトレーニング後に発生し、プロンプトの言語によって増幅されます
一般に、言語モデルにおける地政学的な偏りは、事前トレーニング段階で使用されたトレーニング データに由来すると考えられてきました。私たちは、7 つのラボからのベース モデル (トレーニング前のみ) とチャット モデル (トレーニング前およびトレーニング後) で構成される 7 つのオープンウェイト LLM ペアを、英語、フランス語、中国語の 28 か国ペアにわたるペア シナリオ強制選択プローブでテストしました。その結果、地政学的なバイアスがトレーニング前ではなくトレーニング後に発生していることがわかりました。 7 つの AI ラボのうち、6 つでは、トレーニング後にモデル開発者の国または地域に関連する方向への変化が見られました。この変化はアリババの Qwen 2.5 で最も強くなります。ベースは中国好感度に関しては中立 (-0.15 対数オッズ、p=0.15) ですが、トレーニング後のチャットのバリアントは +2.91 (p<10^-4) で、オッズが 18 倍変化しています。また、すべてのモデルにおいて、他国に対する偏見の変化も観察されています。さらに、このシフトの大きさは、モデルのプロンプトに使用される言語によって異なります。フランス製のミストラルは、フランス語のプロンプトの下でのみ親フランスになります (FR-EN シフト +1.91、p<10^-4)。これらの発見は、言語モデルにおける地政学的選好が単に大規模なインターネット データから継承されるだけでなく、トレーニング後のトレーニング中に積極的に形成されることを示唆しており、モデルが国家、文化、政治的観点をどのように表現するかに影響を与える調整プロセスの透明性の向上、監査、監視の必要性を浮き彫りにしています。
原文 (English)
It's the humans, not the data: Geopolitical bias in LLMs originates in post-training, amplified by the language of the prompt
It has generally been assumed that geopolitical bias in language models originates from the training data used during the pre-training phase. We tested seven open-weight LLM pairs consisting of the base model (pre-training only) and the chat model (pre-training and post-training) from seven labs on a paired-scenario forced-choice probe over 28 country pairs in English, French, and Chinese, and found that geopolitical bias originates in post-training rather than in pre-training. Across seven AI labs, six showed shifts in the direction associated with the country or region of the model developer after post-training. This shift is strongest in Alibaba's Qwen 2.5: while the base is neutral on China-favourability (-0.15 log-odds, p=0.15), the post-trained chat variant is at +2.91 (p<10^-4), an 18x shift in odds. We also observe shifts in biases toward other countries across all models. Additionally, the magnitude of this shift depends on the language used to prompt the model: the French-made Mistral becomes pro-France only under French prompting (FR-EN shift +1.91, p<10^-4). These findings suggest that geopolitical preferences in language models are not simply inherited from large-scale internet data but are actively shaped during post-training, highlighting the need for greater transparency, auditing, and oversight of alignment processes that influence how models represent nations, cultures, and political perspectives.
因果生成モデリングのための基礎モデルの活用
因果生成モデリングは、反事実的な推論が可能な信頼性が高く透明性の高い AI システムを開発するために不可欠です。既存のアプローチは、生成モデルのトレーニング中に因果的制約を統合することに重点を置いていますが、多くの場合、事前トレーニングされた基礎モデルのゼロショット推論機能を活用するための統一されたフレームワークが不足しています。事前トレーニングされた基礎モデルを使用したエンドツーエンドの視覚的因果推論のためのモジュール式フレームワークである FM-CGM を紹介します。 FM-CGM は、概念抽出器、概念操作器、反事実生成器という 3 つのコア コンポーネントを通じて因果パイプラインを形式化します。因果推論のための大規模な推論モデルと生成のためのテキストから画像への拡散モデルを活用することにより、私たちのアプローチはゼロショットの因果関係の発見、介入、および反事実の生成を可能にします。次に、不変領域を維持しながら意味論的介入が子孫概念に伝播することを保証するクロスアテンションベースのメカニズムである因果意味論的ガイダンス (CSG) を開発します。私たちは、このアプローチがもっともらしい因果構造を特定でき、忠実な反事実画像生成に適していることを経験的に示しています。
原文 (English)
Leveraging Foundation Models for Causal Generative Modeling
Causal generative modeling is essential for developing reliable and transparent AI systems capable of counterfactual reasoning. While existing approaches focus on integrating causal constraints during the training of generative models, they often lack a unified framework to leverage the zero-shot reasoning capabilities of pretrained foundation models. We introduce FM-CGM, a modular framework for end-to-end visual causal reasoning using pretrained foundation models. FM-CGM formalizes the causal pipeline through three core components: a concept extractor, a concept manipulator, and a counterfactual generator. By leveraging a large reasoning model for causal inference and a text-to-image diffusion model for generation, our approach enables zero-shot causal discovery, intervention, and counterfactual generation. We then develop Causal Semantic Guidance (CSG), a cross-attention-based mechanism that ensures semantic interventions propagate to descendant concepts while preserving invariant regions. We empirically show that our approach can identify plausible causal structures and is suitable for faithful counterfactual image generation.
説得力のある物語的な LLM 説明による人間の意思決定
大規模言語モデル (LLM) は、かなり正確な予測を提供するだけでなく、それらの予測について説得力のある説明を生成する能力によって、分類タスクにおける人間の意思決定を支援および改善する可能性を秘めています。これまでの研究では、人々は一般に、AI の物語による説明が理解しやすく、信頼でき、信念や意見を変えるのに説得力があると感じていることが実証されています。しかし、物語による説明が人間の客観的な意思決定のパフォーマンスに及ぼす影響についてはあまり知られていません。ここでは、LLM が生成したさまざまな説得力の説明による意思決定パフォーマンスを評価するために、大規模な人間の行動実験を実施します。 LLM ベースの説明の説得力の程度、または説得力の欠如は、単純な AI 予測だけでは意思決定の精度に有意な影響を及ぼさないことがわかりました。これは、特徴の重要性に基づいた説明可能な AI の典型的な結果と一致しています。私たちは、AI の予測が正しい場合と間違っている場合の両方で、物語が AI への依存度を高めるという証拠を発見しました。探索的分析では、より説得力のあるナラティブが、意思決定の応答時間や、AI の予測が正しいか間違っているかを区別する能力に悪影響を及ぼした可能性があることも示しています。全体として、この研究は、AI 予測に物語の説明を含めることは意思決定のパフォーマンスとのトレードオフを伴う可能性があり、物語の説明がいつどのように人間の意思決定に影響を与えるかを判断するにはさらなる研究が必要であることを示しています。
原文 (English)
Human Decision-Making with Persuasive and Narrative LLM Explanations
Large language models (LLMs) have the potential to aid and improve human decision-making in classification tasks, not only by providing fairly accurate predictions, but also in their ability to generate cogent narrative explanations of those predictions. Prior work has demonstrated that people generally find AI narrative explanations to be understandable, trustworthy, and convincing for changing beliefs and opinions; however, less is known about the impact of narrative explanations on objective human decision-making performance. Here we conduct a large-scale human behavioral experiment to evaluate decision-making performance with LLM-generated narrative explanations of varying persuasiveness. We found the degree of persuasiveness, or lack thereof, for LLM-based explanations did not meaningfully impact decision accuracy over a simple AI prediction alone, in agreement with typical results with explainable AI based on feature importance. We found evidence that narratives increased reliance on AI, but both when the AI prediction was correct and incorrect. Exploratory analyses also indicated that the more persuasive narratives may have had a detrimental effect on decision response times and the ability to discriminate between a correct and incorrect AI prediction. Overall, this work indicates that including narrative explanations with AI predictions may involve tradeoffs for decision-making performance, and more work is needed to determine how and when narrative explanations impact human decision-making.
PGT: MLLM の視覚的根拠を改善するための手続き的に生成されたタスク
マルチモーダル大規模言語モデル (MLLM) は目覚ましい進歩を遂げていますが、これらのモデルは依然としてきめ細かい理解タスクに苦労しています。この研究では、きめ細かい視覚的理解を誘導することと、知覚障害の原因を特定するための低コストの診断ツールとして機能するという 2 つの目的を果たすシンプルなデータ駆動型フレームワークである、手続き的に生成されたタスク (PGT) を提案します。画像上に明確な幾何学的プリミティブをオーバーレイすることにより、PGT は視覚的な基礎付け能力を意味論的な事前定義から解きほぐす追加の緻密な監視を生成します。リレーショナル、定量的、3D/深度理解ベンチマークに関する広範な実験により、PGT がさまざまなアーキテクチャにわたって顕著な向上をもたらすことが示されています。 PGT データで強化された LLaVA-v1.5-Instruct 上の命令チューニング MLLM により、一般的な認識機能を維持しながら、What'sUp ベンチマークで最大 +20%、CV-Bench-2D で +13.3% の改善が得られます。さらに、PGT データで最先端の MLLM を微調整することにより、What'sUp で最大 +5.5%、CV-Bench-2D で +8.3% の向上が得られます。これらの発見は、PGT がきめの細かい知覚のボトルネックに効果的に対処していることを示しており、空間推論の欠陥の多くが、固有のアーキテクチャや解像度の制限ではなく、不適切な監視信号に起因していることが明らかになりました。
原文 (English)
PGT: Procedurally Generated Tasks for improving visual grounding in MLLMs
Despite remarkable progress in Multimodal Large Language Models (MLLMs), these models still struggle with fine-grained understanding tasks. In this work, we propose Procedurally Generated Tasks (PGT), a simple data-driven framework that serves a dual purpose: inducing fine-grained visual understanding and acting as a low-cost diagnostic tool to identify the source of perception failures. By overlaying unambiguous geometric primitives on images, PGT generate additional dense supervision that disentangles visual grounding capability from semantic priors. Extensive experiments on relational, quantitative, and 3D/depth understanding benchmarks show that PGT yields remarkable gains across diverse architectures. Instruction tuning MLLMs on LLaVA-v1.5-Instruct augmented with PGT data results in improvements of up to +20% on the What'sUp benchmark and +13.3% on CV-Bench-2D, while maintaining general perception capabilities. Moreover, finetuning state-of-the-art MLLMs on PGT data leads to boosts of up to +5.5% on What'sUp and +8.3% on CV-Bench-2D. These findings demonstrate that PGT effectively address the bottleneck of fine-grained perception, revealing that many spatial reasoning deficits stem from inadequate supervision signals rather than inherent architectural or resolution limitations.
CHRONOS: 進化するデータマーケットプレイスのための時間的認識のあるマルチエージェント調整
テンポラル ナレッジ グラフ データ マーケットプレイスは、静的設計における 3 つの複合的な失敗に直面しています。つまり、古いハイブリッド インデックスのショートカットにより、エッジが進化するにつれてリコールが減少すること、固定的な Shapley 価格設定により、分布が変化した後に価値が誤って割り当てられること、そして調整されていないエージェントが共有の差分プライバシー予算を過剰に消費することです。私たちは、明示的なパブリックとプライベートの分離によってこれらの課題を統一的に処理する 3 層アーキテクチャである CHRONOS を紹介します。レイヤー 1 はニューラル ODE の時間減衰をショートカット エッジに適用し、クエリごとに Pq ラムダ デルタ t の Big-O の予想されるリコール損失限界を提供し、単調エンベロープ保証により限界の緩みが観測損失の 1.8 ~ 3.2 倍に低減されます。レイヤー 2 は、検出された変化点に対して Shapley 評価を条件付けし、ノイズ下での有限サンプル誤差保証を提供します。レイヤー 3 は EXP3-IX を使用して、モーメント アカウンティングを介してイプシロンとデルタの差分プライバシーを強制しながら、T log T リグレスの平方根の Big-O を実現します。 CHRONOS は、ガウス メカニズムを使用してエポックごとにプライベート化されたアフィニティ マトリックスをリリースします。すべての取得とランキングは後処理されるため、追加のプライバシー コストは発生しません。マルチエポック決済、500 社の売り手のスケーラビリティ分析、加速ベースラインとの比較を提供します。 4 つのベンチマーク全体で、CHRONOS は 10 で 0.937 リコール、1 秒あたり 2.74 クエリ、161 ミリ秒のレイテンシ、および zCDP 構成の下でのデルタ 10 のマイナス 6 乗での合計イプシロン 4.25 を示しました。これらの結果は、競争力のある動作点を示しています。制限としては、このプライバシー レベルでは、公開された評価額には依然としてノイズが多く含まれることです。ユーティリティは主に、公開インデックス ルーティングと、低感度の統計に基づいた適応スケジューリングから得られます。
原文 (English)
CHRONOS: Temporally-Aware Multi-Agent Coordination for Evolving Data Marketplaces
Temporal knowledge-graph data marketplaces face three coupled failures in static designs: stale hybrid index shortcuts reduce recall as edges evolve, stationary Shapley pricing misattributes value after distribution shifts, and uncoordinated agents over-consume a shared differential-privacy budget. We present CHRONOS, a three-layer architecture providing a unified treatment of these challenges with explicit public and private separation. Layer one applies neural-ODE temporal decay to shortcut edges, providing a per-query expected recall-loss bound of Big-O of Pq lambda delta t, with a monotone-envelope guarantee reducing bound looseness to 1.8 to 3.2 times observed loss. Layer two conditions Shapley valuation on detected changepoints and provides finite-sample error guarantees under noise. Layer three uses EXP3-IX to achieve Big-O of the square root of T log T regret while enforcing epsilon and delta differential privacy via moments accounting. CHRONOS releases a privatized affinity matrix per epoch using the Gaussian mechanism; all retrieval and ranking are post-processing, incurring no extra privacy cost. We provide multi-epoch settlement, scalability analysis for 500 sellers, and comparisons against accelerated baselines. Across four benchmarks, CHRONOS shows 0.937 recall at ten, 2.74 queries per second, 161 ms latency, and total epsilon of 4.25 at delta of 10 to the power of negative 6 under zCDP composition. These results indicate a competitive operating point. A limitation is that at this privacy level, released valuations remain noise-dominated; utility derives primarily from public index routing and adaptive scheduling driven by low-sensitivity statistics.
優れたトークン ハンティング: ビジュアル ジオメトリ トランスフォーマーのトークン選択に関するヒッチハイク ガイド
ビジュアル ジオメトリ トランスフォーマーは、マルチビュー 3D 再構築のための強力なアーキテクチャとなり、フィードフォワード方式で複数の 3D 属性の統合予測を可能にします。ただし、これらのモデル内のグローバル アテンション レイヤーにより、計算コストは入力シーケンスの長さに応じて二次関数的に増加します。これにより、スケーラビリティと効率の両方が制限されます。この作業では、グローバル アテンション中に各クエリが対話するキー/値トークンの数を制限するという、単純だが一般的な戦略でこの課題に対処します。効果的なトークン選択を実現するために、2 段階のフレームワークを導入します。まず、フレーム間選択ステップがフレーム レベルで動作し、保存する必要があるフレームを識別します。第 2 に、フレーム内選択ステップにより、選択されたフレーム内のより多くの冗長トークンがさらに破棄されます。私たちの分析は、シーンを広範囲にカバーする、フレーム間選択のためのダイバーシティ ベースの戦略の利点を強調しています。フレーム内選択の場合、グローバル アテンション パターンのエントロピーに基づいて選択プロセスが行われ、レイヤーを意識したスパース化が必要であることを示します。私たちのアプローチは、既存のソリューションと比較して、速度と精度のトレードオフに優れています。広範な実験により、ベースラインのパフォーマンスを維持、または向上させながら、500 枚の画像を含むシーンでビジュアル ジオメトリ トランスフォーマーが 85% 以上高速化されることが示されており、これは、トークン選択戦略がビジュアル ジオメトリ トランスフォーマーの将来のアプリケーションでどのように重要な役割を果たすことができるかを示唆しています。私たちのプロジェクトの Web サイトは https://zsh2000.github.io/good-token-hunting.github.io から入手できます。
原文 (English)
Good Token Hunting: A Hitchhiker's Guide to Token Selection for Visual Geometry Transformers
Visual geometry transformers have become powerful architectures for multi-view 3D reconstruction, enabling joint prediction of multiple 3D attributes in a feed-forward manner. However, their computational cost grows quadratically with the input sequence length due to the global attention layers inside these models. This limits both their scalability and efficiency. In this work, we address this challenge with a simple yet general strategy: restricting the number of key/value tokens that each query interacts with during global attention. To achieve effective token selection, we introduce a two-stage framework. First, an inter-frame selection step operates at the frame level to identify frames that should be preserved. Second, an intra-frame selection step further discards more redundant tokens within the selected frames. Our analysis highlights the advantage of a diversity-based strategy for inter-frame selection, which ensures broad coverage of the scene. For intra-frame selection, we show that layer-aware sparsification is necessary, with the selection process guided by the entropy of the global attention pattern. Our approach offers a superior speed-accuracy trade-off compared to existing solutions. Extensive experiments show that it accelerates visual geometry transformers by over 85% for scenes with 500 images while maintaining, or even improving, baseline performance, which hints that how our token selection strategy can play a crucial role in future applications of visual geometry transformers. Our project website is available at https://zsh2000.github.io/good-token-hunting.github.io.
ETCHR: 推論を明確にして活用するための編集
マルチモーダル大規模言語モデルは高度な視覚的推論を備えていますが、きめ細かいフォーカスやビューの変換を必要とする質問では、純粋にテキストによる思考の連鎖が依然としてボトルネックとなっています。 「画像で考える」パラダイムはこのギャップを狭めますが、既存のアプローチは固定の事前定義ツールキットによって制約されるか、統合されたマルチモーダルな方法からノイズの多い中間画像を生成します。私たちは 3 番目のオプションを追求します。それは、専用の画像編集モデルを使用し、それを理解モデルと切り離すことです。しかし、既製の画像編集者は、2 つの相補的なギャップがある推論アシスタントとしては失敗します。1 つは、受動的な指示に従うように訓練された編集者が抽象的な質問を適切な視覚的変換にマッピングできない言語側のギャップ、もう 1 つは推論の深さが増すにつれて編集の正確さが低下する生成側のギャップです。この分析に基づいて、ETCHR (Editing To Clear and Harness Reasoning) を導入します。これは、下流の理解モデルから切り離され、質問条件付きの推論を意識した画像エディタであり、2 つのギャップを対象とした 2 段階のレシピでトレーニングされます。つまり、編集軌跡の教師付き微調整による推論模倣と、それに続く編集の正確さと下流の推論精度に対する VLM 由来の報酬による推論強化です。エディターが分離されているため、ETCHR はトレーニングなしでさまざまなオープンソースおよびクローズドソースの MLLM に接続できます。 5 つのタスク ファミリ (きめ細かい認識、チャートの理解、論理的推論、ジグソー復元、および 3D の理解) にわたって、ETCHR は Qwen3-VL-8B で平均 Pass@1 を 55.95 から 60.77 (+4.82)、Gemini-3.1-Flash-Lite で 65.08 から 70.55 (+5.47)、そして 76.55 から1T パラメータ MoE モデル Kimi K2.5 では 81.16 (+4.61)。
原文 (English)
ETCHR: Editing To Clarify and Harness Reasoning
Multimodal Large Language Models have advanced visual reasoning, yet a purely textual chain of thought remains a bottleneck for questions that require fine-grained focus or view transformations. The ''think with images'' paradigm narrows this gap, but existing approaches are either constrained by fixed predefined toolkits or produce noisy intermediate images from unified multimodal methods. We pursue a third option: using a dedicated image editing model and decouple it with an understanding model. However, off-the-shelf image editors fail as reasoning assistants with two complementary gaps: a language-side gap, where editors trained as passive instruction-followers cannot map an abstract question to an appropriate visual transformation, and a generation-side gap, where edit correctness degrades as reasoning depth grows. Guided by this analysis, we introduce ETCHR (Editing To Clarify and Harness Reasoning), a question-conditioned, reasoning-aware image editor decoupled from the downstream understanding model and trained with a two-stage recipe targeted at the two gaps: Reasoning Imitation via supervised fine-tuning on edit trajectories, followed by Reasoning Enhancement with VLM-derived rewards for edit correctness and downstream reasoning accuracy. Since the editor is decoupled, ETCHR plugs into different open- and closed-source MLLMs in a training-free manner. Across five task families (fine-grained perception, chart understanding, logic reasoning, jigsaw restoration, and 3D understanding), ETCHR raises average Pass@1 from 55.95 to 60.77 (+4.82) with Qwen3-VL-8B, from 65.08 to 70.55 (+5.47) with Gemini-3.1-Flash-Lite, and from 76.55 to 81.16 (+4.61) with the 1T-parameter MoE model Kimi K2.5.
ノイズの多いチャネルとしての LLM: モデルの容量とスケーリングの法則に関するシャノンの視点
大規模言語モデル (LLM) の既存のスケーリング則、主に単調べき乗則では、計算量の増加にも関わらずパフォーマンスが低下する、壊滅的なオーバートレーニングや量子化による劣化などの新たな非単調現象を説明できません。私たちは、シャノン・ハートレー定理に基づいた、ノイズの多いチャネルを介した情報送信として LLM トレーニングをモデル化する統一理論的枠組みであるシャノン スケーリング則を提案します。モデルパラメータをチャネル帯域幅にマッピングし、トレーニングトークンを信号パワーにマッピングすることにより、私たちの定式化は学習信号と固有ノイズの間の相互作用を明示的に捕捉します。この観点からは、LLM の基本的なシャノンの能力が明らかになります。十分な信号対雑音比 (SNR) を維持せずにモデル サイズまたはデータをスケーリングすると、必然的にノイズが増幅され、単調な改善から U 字型のパフォーマンス低下への移行が引き起こされます。私たちは、ガウス ノイズ、量子化、数学、QA、コード タスクの教師あり微調整などの摂動下での Pythia と OLMo2 の実験を通じて理論を検証します。シャノンのスケーリング則は、古典的なスケーリング則や最近の摂動を意識した則よりも常に優れており、強力な $R^2$ スコアを達成し、以前のアプローチでは見逃していた損失領域を正確に捕捉します。また、次の外挿も行います。$\leq$180B トークンを使用して $\leq$6.9B の Pythia モデルに当てはめると、プールされた $R^2{=}0.847$ で最大 307B トークンまでの目に見えない 12B モデルを予測しますが、単調なベースラインは崩れます。
原文 (English)
LLMs as Noisy Channels: A Shannon Perspective on Model Capacity and Scaling Laws
Existing scaling laws for Large Language Models (LLMs), predominantly monotonic power laws, fail to explain emerging non-monotonic phenomena such as catastrophic overtraining and quantization-induced degradation, where performance deteriorates despite increased compute. We propose the Shannon Scaling Law, a unified theoretical framework that models LLM training as information transmission over a noisy channel, grounded in the Shannon-Hartley theorem. By mapping model parameters to channel bandwidth and training tokens to signal power, our formulation explicitly captures the interaction between learning signal and intrinsic noise. This perspective reveals a fundamental Shannon capacity for LLMs: scaling model size or data without preserving a sufficient signal-to-noise ratio (SNR) inevitably amplifies noise, inducing a transition from monotonic improvement to U-shaped performance degradation. We validate our theory through experiments on Pythia and OLMo2 under perturbations, including Gaussian noise, quantization and supervised fine-tuning on math, QA and code tasks. The Shannon Scaling Law consistently outperforms classical scaling laws and recent perturbation-aware laws, achieving strong $R^2$ scores and accurately capturing loss basins missed by prior approaches. It also extrapolates: fitted on $\leq$6.9B Pythia models with $\leq$180B tokens, it predicts the unseen 12B model up to 307B tokens at pooled $R^2{=}0.847$, while monotonic baselines collapse.
マルコフ意思決定プロセスにおける堅牢な反事実推論
この論文では、マルコフ意思決定プロセス (MDP) の既存の反事実推論手法における重要な制限について説明します。現在のアプローチは、反事実を特定可能にするために特定の因果モデルを前提としています。ただし、通常、MDP の観察分布と介入分布と一致する多くの因果モデルがあり、それぞれが異なる反事実分布を生成するため、特定の因果モデルを修正すると、反事実推論の有効性 (および有用性) が制限されます。我々は、互換性のあるすべての因果モデルにわたって反事実遷移確率の厳密な限界を計算する、新しいノンパラメトリックなアプローチを提案します。法外に大規模な最適化問題 (MDP のサイズが指数関数的に増大する変数) を解決する必要がある以前の方法とは異なり、私たちのアプローチはこれらの境界に対して閉じた形式の式を提供するため、計算が非常に効率的で、自明ではない MDP に対してスケーラブルになります。このような間隔の反事実 MDP が構築されると、私たちの方法は、最悪の場合の報酬を最適化する堅牢な反事実ポリシーを特定します。不確実な区間の MDP 確率。さまざまなケーススタディで私たちの方法を評価し、既存の方法よりも堅牢性が向上していることを実証します。
原文 (English)
Robust Counterfactual Inference in Markov Decision Processes
This paper addresses a key limitation in existing counterfactual inference methods for Markov Decision Processes (MDPs). Current approaches assume a specific causal model to make counterfactuals identifiable. However, there are usually many causal models that align with the observational and interventional distributions of an MDP, each yielding different counterfactual distributions, so fixing a particular causal model limits the validity (and usefulness) of counterfactual inference. We propose a novel non-parametric approach that computes tight bounds on counterfactual transition probabilities across all compatible causal models. Unlike previous methods that require solving prohibitively large optimisation problems (with variables that grow exponentially in the size of the MDP), our approach provides closed-form expressions for these bounds, making computation highly efficient and scalable for non-trivial MDPs. Once such an interval counterfactual MDP is constructed, our method identifies robust counterfactual policies that optimise the worst-case reward w.r.t. the uncertain interval MDP probabilities. We evaluate our method on various case studies, demonstrating improved robustness over existing methods.
認識論的スキル: 知識と忘却についての推論
この論文は、グループ知識の概念を組み入れながら、知識の獲得と忘却への降下の力学を捉える認識論理のクラスを提示します。このアプローチは重み付けモデルのシステムに基づいており、知識の更新に関連付けられた認識論的能力を表す「認識論的スキル」指標を導入しています。この枠組み内では、知識の獲得はスキルアップのプロセスとしてモデル化され、一方、忘却はスキルダウンの結果として表されます。このフレームワークはさらに、スキルアップによって知識を獲得する可能性とスキルダウンによって忘却に陥る可能性として定義される「知りやすさ」と「忘れやすさ」の探求を可能にします。さらに、認識的な de re 表現と de dicto 表現の違いの詳細な分析もサポートします。モデル検査と充足可能性問題の計算の複雑さが調査され、それらの理論的基礎と実際的な意味についての洞察が得られます。
原文 (English)
Epistemic Skills: Reasoning about Knowledge and Oblivion
This paper presents a class of epistemic logics that captures the dynamics of acquiring knowledge and descending into oblivion, while incorporating concepts of group knowledge. The approach is grounded in a system of weighted models, introducing an ``epistemic skills'' metric to represent the epistemic capacities tied to knowledge updates. Within this framework, knowledge acquisition is modeled as a process of upskilling, whereas oblivion is represented as a consequence of downskilling. The framework further enables exploration of ``knowability'' and ``forgettability,'' defined as the potential to gain knowledge through upskilling and to lapse into oblivion through downskilling, respectively. Additionally, it supports a detailed analysis of the distinctions between epistemic de re and de dicto expressions. The computational complexity of the model checking and satisfiability problems is examined, offering insights into their theoretical foundations and practical implications.
ソフトエンティティ制約を使用したナレッジグラフでのインタラクティブなクエリ応答
不完全なナレッジ グラフに対するクエリ応答のメソッドは、回答である可能性が高いエンティティを取得します。これは、エッジが欠落しているためにグラフの直接走査によってそのような回答に到達できない場合に特に役立ちます。ただし、既存のアプローチは、一次ロジックを使用して形式化されたクエリに焦点を当ててきました。実際には、現実世界のクエリの多くには、属性や関連カテゴリの優先順位など、本質的に曖昧またはコンテキストに依存する制約が含まれます。このギャップに対処するために、ソフト制約を使用したクエリ応答の問題を導入します。この問題を形式化し、クエリに対する元の応答を中断することなく、ソフト制約を組み込むことでクエリ応答スコアを調整するように設計された 2 つの効率的な方法を紹介します。これらのメソッドは軽量であり、調整する必要があるのは 2 つのパラメーターのみ、または元のランキング構造を維持しながらソフト制約をキャプチャするようにトレーニングされた小さなニューラル ネットワークのみです。タスクを評価するために、ソフト制約を備えたデータセットを生成することで既存の QA ベンチマークを拡張します。私たちの実験は、私たちの方法が堅牢なクエリ応答パフォーマンスを維持し、追加するオーバーヘッドをほとんど抑えながら、ソフトな制約をキャプチャできることを示しています。私たちの取り組みでは、対話形式で例を提供することでユーザーが好みを指定できる、グラフ データベースと対話する新しい柔軟な方法を模索しています。
原文 (English)
Interactive Query Answering on Knowledge Graphs with Soft Entity Constraints
Methods for query answering over incomplete knowledge graphs retrieve entities that are likely to be answers, which is particularly useful when such answers cannot be reached by direct graph traversal due to missing edges. However, existing approaches have focused on queries formalized using first-order-logic. In practice, many real-world queries involve constraints that are inherently vague or context-dependent, such as preferences for attributes or related categories. Addressing this gap, we introduce the problem of query answering with soft constraints. We formalize the problem and introduce two efficient methods designed to adjust query answer scores by incorporating soft constraints without disrupting the original answers to a query. These methods are lightweight, requiring tuning only two parameters or a small neural network trained to capture soft constraints while maintaining the original ranking structure. To evaluate the task, we extend existing QA benchmarks by generating datasets with soft constraints. Our experiments demonstrate that our methods can capture soft constraints while maintaining robust query answering performance and adding very little overhead. With our work, we explore a new and flexible way to interact with graph databases that allows users to specify their preferences by providing examples interactively.
機密性の高いものは忘れて、重要なことを思い出してください: 継続的な学習のためのメモリ スカルプティングにおけるトークン レベルの差分プライバシー
継続学習 (CL) モデルは、逐次的な知識の獲得には優れていますが、多様な情報が蓄積されるため、重大で見落とされがちなプライバシーの課題に直面しています。均一な差分プライバシー (DP) バジェットなどの従来のプライバシー手法は、すべてのデータを無差別に保護するため、モデルのユーティリティの大幅な低下につながり、プライバシーに敏感な領域での CL の展開が妨げられます。これを克服するために、私たちは機密性の高いものを忘れ、重要なことを覚えておくプライバシー強化継続学習 (PeCL) フレームワークを提案します。私たちのアプローチでは、まず、個々のトークンのセマンティックな機密性に基づいてプライバシー予算を適応的に割り当てる、トークンレベルの動的な差分プライバシー戦略を導入します。これにより、機密性のない一般知識へのノイズ注入を最小限に抑えながら、民間エンティティに対する堅牢な保護が保証されます。 2 番目に、プライバシーに基づいたメモリ彫刻モジュールを統合します。このモジュールは、動的 DP メカニズムの感度分析を利用して、モデルのメモリとパラメーターから機密情報をインテリジェントに忘れる一方で、壊滅的な忘却を軽減するために重要なタスク不変の履歴知識を明示的に保存します。広範な実験により、PeCL はプライバシー保護とモデルの実用性の間で優れたバランスを実現し、堅牢なプライバシーを確保しながら以前のタスクで高い精度を維持することでベースライン モデルを上回るパフォーマンスを示していることが示されています。
原文 (English)
Forget What's Sensitive, Remember What Matters: Token-Level Differential Privacy in Memory Sculpting for Continual Learning
Continual Learning (CL) models, while adept at sequential knowledge acquisition, face significant and often overlooked privacy challenges due to accumulating diverse information. Traditional privacy methods, like a uniform Differential Privacy (DP) budget, indiscriminately protect all data, leading to substantial model utility degradation and hindering CL deployment in privacy-sensitive areas. To overcome this, we propose a privacy-enhanced continual learning (PeCL) framework that forgets what's sensitive and remembers what matters. Our approach first introduces a token-level dynamic Differential Privacy strategy that adaptively allocates privacy budgets based on the semantic sensitivity of individual tokens. This ensures robust protection for private entities while minimizing noise injection for non-sensitive, general knowledge. Second, we integrate a privacy-guided memory sculpting module. This module leverages the sensitivity analysis from our dynamic DP mechanism to intelligently forget sensitive information from the model's memory and parameters, while explicitly preserving the task-invariant historical knowledge crucial for mitigating catastrophic forgetting. Extensive experiments show that PeCL achieves a superior balance between privacy preserving and model utility, outperforming baseline models by maintaining high accuracy on previous tasks while ensuring robust privacy.
FATHOMS-RAG: 検索拡張生成を使用するマルチモーダル システムにおける思考と観察の評価のためのフレームワーク
検索拡張生成 (RAG) は、大規模言語モデル (LLM) における事実の精度を向上させるための有望なパラダイムとして浮上しています。 RAG パイプラインを全体として評価するように設計されたベンチマークを導入し、情報の取り込み、取得、およびいくつかのモダリティについて推論するパイプラインの能力を評価し、取得などの特定の側面に焦点を当てた既存のベンチマークと区別します。我々は、(1) 1 つ以上のドキュメント内のテキスト データ、表、画像、およびこれらのモダリティ全体に広がるデータを取り込むパイプラインの能力を評価するために設計された、人間が作成した 93 の質問からなる小規模なデータセットを提示します。 (2) フレーズレベルの正確性の再現基準。 (3) 潜在的なパイプライン幻覚を識別するための最近傍埋め込み分類器。 (4) オープンソースの取得メカニズムで構築された 2 つのパイプラインと 4 つのクローズドソース基盤モデルの比較評価。 (5) 私たちの正しさと幻覚の指標の整合性に関する第三者による人間による評価。クローズドソースのパイプラインは、正しさと幻覚の両方の指標においてオープンソースのパイプラインよりも大幅に優れており、マルチモーダルな文書間情報に依存する質問ではパフォーマンスの差がさらに大きいことがわかりました。私たちの指標に対する人による評価では、1 ~ 5 リッカート スケール (5 は「非常に一致」を示す) で、正しさについては 4.62、幻覚検出については 4.53 の平均一致が示されました。
原文 (English)
FATHOMS-RAG: A Framework for the Assessment of Thinking and Observation in Multimodal Systems that use Retrieval Augmented Generation
Retrieval-augmented generation (RAG) has emerged as a promising paradigm for improving factual accuracy in large language models (LLMs). We introduce a benchmark designed to evaluate RAG pipelines as a whole, evaluating a pipeline's ability to ingest, retrieve, and reason about several modalities of information, differentiating it from existing benchmarks that focus on particular aspects such as retrieval. We present (1) a small, human-created dataset of 93 questions designed to evaluate a pipeline's ability to ingest textual data, tables, images, and data spread across these modalities in one or more documents; (2) a phrase-level recall metric for correctness; (3) a nearest-neighbor embedding classifier to identify potential pipeline hallucinations; (4) a comparative evaluation of 2 pipelines built with open-source retrieval mechanisms and 4 closed-source foundation models; and (5) a third-party human evaluation of the alignment of our correctness and hallucination metrics. We find that closed-source pipelines significantly outperform open-source pipelines in both correctness and hallucination metrics, with wider performance gaps in questions relying on multimodal and cross-document information. Human evaluation of our metrics showed average agreement of 4.62 for correctness and 4.53 for hallucination detection on a 1-5 Likert scale (5 indicating "strongly agree").
Axe-Prover: 数学と量子物理学の定理証明のための深い推論エージェント フレームワーク
私たちは、Lean で定理証明を自動化するためのマルチエージェント システムである Ax-Prover を紹介します。これは、さまざまな科学分野にわたる問題を解決し、自律的に、または人間の専門家と協力して動作できます。これを達成するために、Axe-Prover は、創造的な推論と厳密な構文の厳密性の両方が要求されるプロセスである正式な証明生成を通じて科学的問題解決に取り組みます。 Ax-Prover は、知識と推論を提供するラージ言語モデル (LLM) に、形式的な正確さを保証するモデル コンテキスト プロトコル (MCP) を介したリーン ツールを装備することで、この課題に対処します。自律的な証明者としてのパフォーマンスを評価するために、2 つの公開数学ベンチマークと、抽象代数と量子論の分野で導入した 2 つのリーン ベンチマークで、フロンティア LLM と特殊な証明者モデルに対するアプローチをベンチマークします。公開データセットでは、Ax-Prover は最先端の証明者と競合しますが、新しいベンチマークではそれらを大幅に上回ります。これは、一般化が難しい特殊なシステムとは異なり、私たちのツールベースのエージェント定理証明アプローチが、さまざまな科学領域にわたる形式的検証のための一般化可能な方法論を提供することを示しています。さらに、実際の使用例で Ax-Prover のアシスタント機能を実証し、熟練数学者が複雑な暗号定理の証明をどのように形式化できるかを示します。
原文 (English)
Ax-Prover: A Deep Reasoning Agentic Framework for Theorem Proving in Mathematics and Quantum Physics
We present Ax-Prover, a multi-agent system for automated theorem proving in Lean that can solve problems across diverse scientific domains and operate either autonomously or collaboratively with human experts. To achieve this, Ax-Prover approaches scientific problem solving through formal proof generation, a process that demands both creative reasoning and strict syntactic rigor. Ax-Prover meets this challenge by equipping Large Language Models (LLMs), which provide knowledge and reasoning, with Lean tools via the Model Context Protocol (MCP), which ensure formal correctness. To evaluate its performance as an autonomous prover, we benchmark our approach against frontier LLMs and specialized prover models on two public math benchmarks and on two Lean benchmarks we introduce in the fields of abstract algebra and quantum theory. On public datasets, Ax-Prover is competitive with state-of-the-art provers, while it largely outperforms them on the new benchmarks. This shows that, unlike specialized systems that struggle to generalize, our tool-based agentic theorem prover approach offers a generalizable methodology for formal verification across diverse scientific domains. Furthermore, we demonstrate Ax-Prover's assistant capabilities in a practical use case, showing how it enabled an expert mathematician to formalize the proof of a complex cryptography theorem.
MedSAE: スパース オートエンコーダを使用した MedCLIP 表現の分析
医療における人工知能には、正確で解釈可能なモデルが必要です。私たちは、胸部 X 線写真とレポートで訓練された視覚言語モデルである MedCLIP の潜在空間に Medical Sparse Autoencoders (MedSAE) を適用することにより、医療視覚における機構的解釈可能性を向上させます。解釈可能性を定量化するために、相関メトリック、エントロピー分析、および MedGemma 基盤モデルを介した自動ニューロン命名を組み合わせた評価フレームワークを提案します。 CheXpert データセットの実験では、MedSAE ニューロンが生の MedCLIP 特徴よりも高い単一意味性と解釈可能性を達成することが示されています。私たちの発見は、高性能の医療 AI と透明性の橋渡しとなり、臨床的に信頼できる表現に向けたスケーラブルな一歩を提供します。この研究結果を裏付けるソース コードは https://github.com/EIDOSLAB/MedSAE で入手できます。
原文 (English)
MedSAE: Dissecting MedCLIP Representations with Sparse Autoencoders
Artificial intelligence in healthcare requires models that are accurate and interpretable. We advance mechanistic interpretability in medical vision by applying Medical Sparse Autoencoders (MedSAEs) to the latent space of MedCLIP, a vision-language model trained on chest radiographs and reports. To quantify interpretability, we propose an evaluation framework that combines correlation metrics, entropy analyses, and automated neuron naming via the MedGemma foundation model. Experiments on the CheXpert dataset show that MedSAE neurons achieve higher monosemanticity and interpretability than raw MedCLIP features. Our findings bridge high-performing medical AI and transparency, offering a scalable step toward clinically reliable representations. The source code supporting the findings of this study is available at https://github.com/EIDOSLAB/MedSAE.
MUSEKG: 博物館コレクションに関するナレッジ グラフ
文化遺産分野におけるデジタル化により、構造化された目録記録、画像、非構造化説明に及ぶ博物館コレクション データの大規模ではあるが断片的なリポジトリが作成されました。既存の博物館情報システムでは、多くの場合、これらのソースを、関係を意識した探索をサポートする統一されたクエリ可能な表現に統合することが困難です。我々は、異種の博物館データを型付きグラフに編成し、オブジェクト、人、組織、画像、画像由来のラベル、抽出された意味論的エンティティを一貫したスキーマ内でリンクする対話型ナレッジ グラフ システムである MuseKG を紹介します。 MuseKG は、ユーザーの質問をグラフ エンティティに根付かせ、回答生成のためのコンパクトな近傍の証拠を取得することにより、自然言語クエリをサポートします。実際の博物館コレクションに関するインタラクティブなデモンストレーションを通じて、MuseKG が属性検索、関係探索、関係を意識した検索などの一般的な探索タスクをサポートし、その回答が明示的なグラフ構造を介して検査可能であることを示します。
原文 (English)
MUSEKG: A Knowledge Graph Over Museum Collections
Digitisation in the cultural heritage sector has produced large but fragmented repositories of museum collection data, spanning structured catalogue records, images, and unstructured descriptions. Existing museum information systems often make it difficult to integrate these sources into a unified, queryable representation that supports relation-aware exploration. We present MuseKG, an interactive knowledge graph system that organises heterogeneous museum data into a typed graph that links objects, people, organisations, images, image-derived labels, and extracted semantic entities within a coherent schema. MuseKG supports natural-language queries by grounding user questions to graph entities and retrieving a compact neighbourhood of evidence for answer generation. Through an interactive demonstration on real museum collections, we show that MuseKG supports common exploration tasks such as attribute lookup, relation exploration, and relation-aware retrieval, with answers that remain inspectable via explicit graph structures.
MAS-Orchestra: 全体的なオーケストレーションと制御されたベンチマークによるマルチエージェント推論の理解と改善
マルチエージェント システム (MAS) は、エージェントの調整を通じて高度なインテリジェンスを約束しますが、自動 MAS 設計への現在のアプローチは十分に成果を上げていません。このような欠点は、次の 2 つの重要な要因に起因します。(1) 方法論の複雑さ - エージェント オーケストレーションは、グローバル システム レベルの全体的な推論を制限し、エージェントの複雑さに応じて拡張性が低いシーケンシャルなコード レベルの実行を使用して実行されます。(2) 有効性の不確実性 - MAS は、シングル エージェント システム (SAS) と比較して具体的なメリットがあるかどうかを理解せずに導入されます。私たちは、MAS オーケストレーションを全体的なオーケストレーションによる関数呼び出し強化学習問題として定式化し、MAS 全体を一度に生成するトレーニング時間フレームワークである MASOrchestra を提案します。 MAS-Orchestra では、複雑な目標指向のサブエージェントが呼び出し可能な関数として抽象化され、内部実行の詳細を隠しながらシステム構造に対するグローバルな推論が可能になります。 MAS がいつ、そしてなぜ有益であるかを厳密に研究するために、深さ、水平線、幅、並列性、堅牢性の 5 つの軸に沿ってタスクを特徴付ける管理されたベンチマークである MASBENCH を導入します。私たちの分析により、MAS の利益は普遍的に維持されるのではなく、タスク構造、検証プロトコル、およびオーケストレーターとサブエージェントの両方の能力に大きく依存していることが明らかになりました。これらの洞察に基づいて、MAS-Orchestra は、強力なベースラインと比較して 10 倍を超える効率を達成しながら、数学的推論、マルチホップ QA、検索ベースの QA などの公開ベンチマークで一貫した改善を達成します。 MAS-Orchestra と MASBENCH を併用すると、マルチエージェント インテリジェンスを追求する際の MAS のトレーニングと理解を向上させることができます。
原文 (English)
MAS-Orchestra: Understanding and Improving Multi-Agent Reasoning Through Holistic Orchestration and Controlled Benchmarks
While multi-agent systems (MAS) promise elevated intelligence through coordination of agents, current approaches to automatic MAS design under-deliver. Such shortcomings stem from two key factors: (1) methodological complexity - agent orchestration is performed using sequential, code-level execution that limits global system-level holistic reasoning and scales poorly with agent complexity - and (2) efficacy uncertainty - MAS are deployed without understanding if there are tangible benefits compared to single-agent systems (SAS). We propose MASOrchestra, a training-time framework that formulates MAS orchestration as a function-calling reinforcement learning problem with holistic orchestration, generating an entire MAS at once. In MAS-Orchestra, complex, goal-oriented subagents are abstracted as callable functions, enabling global reasoning over system structure while hiding internal execution details. To rigorously study when and why MAS are beneficial, we introduce MASBENCH, a controlled benchmark that characterizes tasks along five axes: Depth, Horizon, Breadth, Parallel, and Robustness. Our analysis reveals that MAS gains depend critically on task structure, verification protocols, and the capabilities of both orchestrator and subagents, rather than holding universally. Guided by these insights, MAS-Orchestra achieves consistent improvements on public benchmarks including mathematical reasoning, multi-hop QA, and search-based QA, while achieving more than 10x efficiency over strong baselines. Together, MAS-Orchestra and MASBENCH enable better training and understanding of MAS in the pursuit of multi-agent intelligence.
プロットにおける既視感: ライブ ストリーミングのリスク評価に検索拡張 LLM を使用したクロスセッション証拠の活用
ライブ ストリーミングの台頭により、オンライン インタラクションが変化し、大規模なリアルタイム エンゲージメントが可能になりましたが、プラットフォームは詐欺や組織的な悪意のある動作などの複雑なリスクにもさらされています。有害なアクションは徐々に蓄積され、一見無関係に見えるストリーム間で再発することが多いため、これらのリスクを検出することは困難です。これに対処するために、ライブ ストリーミング リスク評価のための CS-VAR (Cross-Session Evidence-Aware Retrieval-Augmented Detector) を提案します。 CS-VAR では、軽量のドメイン固有モデルがセッション レベルのリスク推論を高速に実行します。これはトレーニング中に大規模言語モデル (LLM) によってガイドされ、取得されたセッション間の行動証拠を推論し、ローカルからグローバルへの洞察を小規模モデルに転送します。この設計により、小規模モデルはストリーム全体で繰り返し発生するパターンを認識し、構造化されたリスク評価を実行し、リアルタイム展開の効率を維持できます。大規模な産業データセットに対する広範なオフライン実験とオンライン検証を組み合わせて、CS-VAR の最先端のパフォーマンスを実証します。さらに、CS-VAR は、ライブ ストリーミングの現実世界のモデレーションを効果的に強化する、解釈可能なローカライズされた信号を提供します。
原文 (English)
Deja Vu in Plots: Leveraging Cross-Session Evidence with Retrieval-Augmented LLMs for Live Streaming Risk Assessment
The rise of live streaming has transformed online interaction, enabling massive real-time engagement but also exposing platforms to complex risks such as scams and coordinated malicious behaviors. Detecting these risks is challenging because harmful actions often accumulate gradually and recur across seemingly unrelated streams. To address this, we propose CS-VAR (Cross-Session Evidence-Aware Retrieval-Augmented Detector) for live streaming risk assessment. In CS-VAR, a lightweight, domain-specific model performs fast session-level risk inference, guided during training by a Large Language Model (LLM) that reasons over retrieved cross-session behavioral evidence and transfers its local-to-global insights to the small model. This design enables the small model to recognize recurring patterns across streams, perform structured risk assessment, and maintain efficiency for real-time deployment. Extensive offline experiments on large-scale industrial datasets, combined with online validation, demonstrate the state-of-the-art performance of CS-VAR. Furthermore, CS-VAR provides interpretable, localized signals that effectively empower real-world moderation for live streaming.
TCAP: MLLM 微調整における教師なしバックドア検出のための 3 コンポーネント アテンション プロファイリング
Fine-Tuning-as-a-Service (FTaaS) は、マルチモーダル大規模言語モデル (MLLM) のカスタマイズを容易にしますが、汚染されたデータによる重大なバックドア リスクをもたらします。既存の防御は、監視された信号に依存しているか、さまざまなトリガーの種類や様式にわたって一般化できていません。この研究では、トリガーの形態に関係なく、ポイズニングされたサンプルが 3 つの機能コンポーネント (システム命令、ビジョン入力、およびユーザーのテキスト クエリ) 全体にわたるバランスの取れた注意配分を混乱させる、普遍的なバックドア フィンガープリントと注意の配分の相違を明らかにします。この洞察に基づいて、私たちはバックドア サンプルをフィルタリングするための教師なし防御フレームワークである Tri-Component Attendant Profiling (TCAP) を提案します。 TCAP は、クロスモーダル アテンション マップを 3 つのコンポーネントに分解し、ガウス混合モデル (GMM) 統計プロファイリングを通じてトリガーに反応するアテンション ヘッドを特定し、EM ベースの投票集計を通じて汚染されたサンプルを分離します。多様な MLLM アーキテクチャと攻撃手法にわたる広範な実験により、TCAP が一貫して強力なパフォーマンスを達成し、MLLM における堅牢で実用的なバックドア防御として確立されることが実証されました。
原文 (English)
TCAP: Tri-Component Attention Profiling for Unsupervised Backdoor Detection in MLLM Fine-Tuning
Fine-Tuning-as-a-Service (FTaaS) facilitates the customization of Multimodal Large Language Models (MLLMs) but introduces critical backdoor risks via poisoned data. Existing defenses either rely on supervised signals or fail to generalize across diverse trigger types and modalities. In this work, we uncover a universal backdoor fingerprint-attention allocation divergence-where poisoned samples disrupt the balanced attention distribution across three functional components: system instructions, vision inputs, and user textual queries, regardless of trigger morphology. Motivated by this insight, we propose Tri-Component Attention Profiling (TCAP), an unsupervised defense framework to filter backdoor samples. TCAP decomposes cross-modal attention maps into the three components, identifies trigger-responsive attention heads via Gaussian Mixture Model (GMM) statistical profiling, and isolates poisoned samples through EM-based vote aggregation. Extensive experiments across diverse MLLM architectures and attack methods demonstrate that TCAP achieves consistently strong performance, establishing it as a robust and practical backdoor defense in MLLMs.
構造に基づいた LLM 推論のためのスケーリング対応アダプター
大規模言語モデル (LLM) により、2D および 3D 構造に対する推論が可能になりつつありますが、既存の手法は引き続きモダリティ固有であり、通常はシーケンスベースのトークン化または固定長クエリ コネクタを通じて構造入力を圧縮します。このようなアーキテクチャは、構造的幻覚を軽減するための幾何学的接地要件を省略するか、または構造トークンの過剰圧縮と次善の割り当てを同時に行う柔軟性のないモダリティ融合ボトルネックを課し、それによって一般化された全原子推論の実現を妨げます。構造的な複雑さでモダリティ トークンをスケーリングしながら、幾何学的手がかりに言語推論を基礎付ける統合マルチモーダル LLM である Cuttlefish を紹介します。まず、スケーリングアウェア パッチングは、命令条件付きゲート メカニズムを利用して構造グラフ上に可変サイズのパッチを生成し、構造の複雑さに応じてクエリ トークン バジェットを適応的にスケーリングして、固定長コネクタのボトルネックを軽減します。次に、ジオメトリ グラウンディング アダプターは、モダリティの埋め込みへのクロスアテンションを介してこれらの適応トークンを改良し、結果として得られるモダリティ トークンを LLM に注入し、構造的幻覚を軽減するために明示的な幾何学的な手がかりを公開します。学際的な全原子ベンチマークにわたる実験により、Cuttlefish が異種構造に基づく推論において優れたパフォーマンスを達成することが実証されました。コード: github.com/zihao-jing/Cuttlefish。
原文 (English)
Scaling-Aware Adapter for Structure-Grounded LLM Reasoning
Large language models (LLMs) are enabling reasoning over 2D and 3D structures, yet existing methods remain modality-specific and typically compress structural inputs through sequence-based tokenization or fixed-length query connectors. Such architectures either omit the geometric grounding requisite for mitigating structural hallucinations, or impose inflexible modality fusion bottlenecks that concurrently over-compress and suboptimally allocate structural tokens, thereby impeding the realization of generalized all-atom reasoning. We introduce Cuttlefish, a unified multimodal LLM that grounds language reasoning in geometric cues while scaling modality tokens with structural complexity. First, Scaling-Aware Patching leverages an instruction-conditioned gating mechanism to generate variable-size patches over structural graphs, adaptively scaling the query token budget with structural complexity to mitigate fixed-length connector bottlenecks. Second, Geometry Grounding Adapter refines these adaptive tokens via cross-attention to modality embeddings and injects the resulting modality tokens into the LLM, exposing explicit geometric cues to reduce structural hallucination. Experiments across interdisciplinary all-atom benchmarks demonstrate that Cuttlefish achieves superior performance in heterogeneous structure-grounded reasoning. Code: github.com/zihao-jing/Cuttlefish.
ALIVE: 敵対的な学習と有益な口頭評価による LLM 推論の覚醒
大規模言語モデル (LLM) における専門家レベルの推論の探求は、永続的な \textit{報酬のボトルネック} によって妨げられてきました。従来の強化学習 (RL) は、拡張に \textbf{コストがかかる}、ドメイン間で \textbf{脆弱}であり、解決策の基礎となるロジックに対して \textbf{盲目}なスカラー報酬に依存しています。この外部の貧弱な信号への依存は、モデルが推論原理を深く自己完結的に理解することを妨げます。 \textbf{ALIVE} (\emph{指示的言語評価による敵対的学習}) を紹介します。これは、スカラー報酬の最適化を超えて、本質的な推論の獲得に向けたハンズフリー調整フレームワークです。 \emph{認知相乗効果} の原理に基づいた ALIVE は、問題の提起、解決、判断を単一のポリシー モデル内で統合し、正しさのロジックを内面化します。 ALIVE は、敵対的な学習と指導的な口頭フィードバックを組み合わせることで、モデルが生のコーパスから評価基準を直接内部に取り込むことを可能にし、外部の批評を内生的な推論能力に効果的に変換します。数学的推論、コード生成、および一般的な論理推論ベンチマークにわたる経験的評価により、ALIVE が報酬シグナルの制限を一貫して緩和していることが実証されています。同一のデータとコンピューティングを使用して、精度の向上、クロスドメインの汎化の大幅な改善、およびより高い自己修正率を実現します。これらの結果は、推論の三位一体が能力の成長の自立的な軌道を促進し、ALIVE を人間による監視なしの汎用推論調整のためのスケーラブルな基盤として位置づけていることを示しています。
原文 (English)
ALIVE: Awakening LLM Reasoning via Adversarial Learning and Instructive Verbal Evaluation
The quest for expert-level reasoning in Large Language Models (LLMs) has been hampered by a persistent \textit{reward bottleneck}: traditional reinforcement learning (RL) relies on scalar rewards that are \textbf{costly} to scale, \textbf{brittle} across domains, and \textbf{blind} to the underlying logic of a solution. This reliance on external, impoverished signals prevents models from developing a deep, self-contained understanding of reasoning principles. We introduce \textbf{ALIVE} (\emph{Adversarial Learning with Instructive Verbal Evaluation}), a hands-free alignment framework that moves beyond scalar reward optimization toward intrinsic reasoning acquisition. Grounded in the principle of \emph{Cognitive Synergy}, ALIVE unifies problem posing, solving, and judging within a single policy model to internalize the logic of correctness. By coupling adversarial learning with instructive verbal feedback, ALIVE enables models to internalize evaluative criteria directly from raw corpora, effectively transforming external critiques into an endogenous reasoning faculty. Empirical evaluations across mathematical reasoning, code generation, and general logical inference benchmarks demonstrate that ALIVE consistently mitigates reward signal limitations. With identical data and compute, it achieves accuracy gains, markedly improved cross-domain generalization, and higher self-correction rates. These results indicate that the reasoning trinity fosters a self-sustaining trajectory of capability growth, positioning ALIVE as a scalable foundation for general-purpose reasoning alignment without human-in-the-loop supervision.
VGAS: 少数ショットの視覚・言語・アクション適応のための価値に基づくアクション・チャンク選択
視覚 - 言語 - 行動 (VLA) モデルは、マルチモーダル推論と物理的制御の橋渡しをしますが、実証が乏しいため、それらを新しいタスクに適応させることは依然として信頼できません。微調整された VLA ポリシーは意味的に妥当な軌道を生成することがよくありますが、失敗は多くの場合、未解決の幾何学的曖昧さから発生し、限定された監視下でニアミス アクションが異なる実行結果につながります。私たちは \emph{generation--selection} の観点から少数ショット VLA 適応を研究し、新しいフレームワーク \textbf{VGAS} (\textbf{V}alue-\textbf{G}uided \textbf{A}ction-chunk \textbf{S}election) を提案します。推論時に $N$ のベスト選択を実行して、意味的に忠実で幾何学的に正確なアクション チャンクを識別します。具体的には、\textbf{VGAS} は高再現率提案ジェネレーターとして微調整された VLA を採用し、きめの細かい幾何学的曖昧さを解決するために幾何学的に根拠のある Transformer 批評家である \textrm{Q-Chunk-Former} を導入します。さらに、我々は \textit{明示的幾何正則化} (\texttt{EGR}) を提案します。これは、不十分な監視の下で値の不安定性を軽減しながら、ニアミス候補間のアクションのランキング解像度を維持するために、識別値のランドスケープを形成します。実験と理論分析により、\textbf{VGAS} は限られたデモンストレーションと配布の変更の下で成功率と堅牢性を一貫して向上させることが実証されています。私たちのコードは https://github.com/Jyugo-15/VGAS で入手できます。
原文 (English)
VGAS: Value-Guided Action-Chunk Selection for Few-Shot Vision-Language-Action Adaptation
Vision--Language--Action (VLA) models bridge multimodal reasoning with physical control, but adapting them to new tasks with scarce demonstrations remains unreliable. While fine-tuned VLA policies often produce semantically plausible trajectories, failures often arise from unresolved geometric ambiguities, where near-miss actions lead to divergent execution outcomes under limited supervision. We study few-shot VLA adaptation from a \emph{generation--selection} perspective and propose a novel framework \textbf{VGAS} (\textbf{V}alue-\textbf{G}uided \textbf{A}ction-chunk \textbf{S}election). It performs inference-time best-of-$N$ selection to identify action chunks that are both semantically faithful and geometrically precise. Specifically, \textbf{VGAS} employs a finetuned VLA as a high-recall proposal generator and introduces the \textrm{Q-Chunk-Former}, a geometrically grounded Transformer critic to resolve fine-grained geometric ambiguities. In addition, we propose \textit{Explicit Geometric Regularization} (\texttt{EGR}), which shapes a discriminative value landscape to preserve action ranking resolution among near-miss candidates while mitigating value instability under scarce supervision. Experiments and theoretical analysis demonstrate that \textbf{VGAS} consistently improves success rates and robustness under limited demonstrations and distribution shifts. Our code is available at https://github.com/Jyugo-15/VGAS.
GT-HarmBench: ゲーム理論のレンズを通して AI の安全性リスクをベンチマークする
フロンティア AI システムの能力はますます高まっており、一か八かのマルチエージェント環境に導入されています。しかし、既存の AI 安全性ベンチマークは主に単一エージェントを評価しており、調整の失敗や競合などの複数エージェントのリスクについては十分に理解されていません。囚人のジレンマ、スタッグハント、チキンなどのゲーム理論構造にわたる 1,535 のハイステークス シナリオのベンチマークである GT-HarmBench を紹介します。シナリオは、MIT AI リスク リポジトリ内の現実的な AI リスク コンテキストから抽出されます。 15 のフロンティア モデル全体で、軍事的エスカレーション、選挙操作、医療過誤などの一か八かの事件の 38% で、捜査官は社会的に有益な行動を選択できませんでした。ゲーム理論に基づいたプロンプトのフレーミングと順序付けに対する感度を測定し、失敗を引き起こす推論パターンを分析します。さらに、ゲーム理論に基づいた介入により、社会的に有益な結果が最大 18% 向上することも示します。私たちの結果は、信頼性の大きなギャップを浮き彫りにし、マルチエージェント環境での調整を研究するための広範な標準化されたテストベッドを提供します。ベンチマークとコードは https://github.com/causalNLP/gt-harmbench で入手できます。
原文 (English)
GT-HarmBench: Benchmarking AI Safety Risks Through the Lens of Game Theory
Frontier AI systems are increasingly capable and deployed in high-stakes multi-agent environments. However, existing AI safety benchmarks largely evaluate single agents, leaving multi-agent risks such as coordination failure and conflict poorly understood. We introduce GT-HarmBench, a benchmark of 1,535 high-stakes scenarios spanning game-theoretic structures such as the Prisoner's Dilemma, Stag Hunt and Chicken. Scenarios are drawn from realistic AI risk contexts in the MIT AI Risk Repository. Across 15 frontier models, agents fail to choose socially beneficial actions in 38% of high-stakes cases, such as military escalation, election manipulation, and medical malpractice. We measure sensitivity to game-theoretic prompt framing and ordering, and analyze reasoning patterns driving failures. We further show that game-theoretic interventions improve socially beneficial outcomes by up to 18%. Our results highlight substantial reliability gaps and provide a broad standardized testbed for studying alignment in multi-agent environments. The benchmark and code are available at https://github.com/causalNLP/gt-harmbench.
NeuroWeaver: EEG 解析パイプラインのプログラム空間を探索するための自律進化エージェント
基礎モデルは一般的な領域で目覚ましい成功を収めていますが、これらのモデルを脳波 (EEG) 解析に適用するには、大量のデータ要件と高度なパラメータ化による制約があります。これらの要因により法外な計算コストが発生し、リソースに制約のある臨床環境での展開が妨げられます。逆に、汎用の自動機械学習フレームワークは、境界のないプログラム空間内の探索では重要な神経生理学的事前情報を組み込むことができず、科学的妥当性に欠ける解決策が得られることが多いため、この領域には適していないことがよくあります。これらの制限に対処するために、私たちは、パイプラインエンジニアリングを離散制約付き最適化問題として再定式化することで、多様なEEGデータセットとタスク全体を一般化するように設計された統合自律進化エージェントであるNeuroWeaverを提案します。具体的には、ドメイン情報に基づいた部分空間初期化を採用して、探索を神経科学的に妥当な多様体に限定し、自己反省的な洗練を通じてパフォーマンス、新規性、効率のバランスを動的に調整する多目的進化的最適化と組み合わせています。 5 つの異種ベンチマークにわたる経験的評価により、NeuroWeaver は、使用するパラメーターが大幅に少ないにもかかわらず、常に最先端のタスク固有の手法を上回り、大規模基礎モデルに匹敵するパフォーマンスを達成する軽量ソリューションを合成していることが実証されています。
原文 (English)
NeuroWeaver: An Autonomous Evolutionary Agent for Exploring the Programmatic Space of EEG Analysis Pipelines
Although foundation models have demonstrated remarkable success in general domains, the application of these models to electroencephalography (EEG) analysis is constrained by substantial data requirements and high parameterization. These factors incur prohibitive computational costs, thereby impeding deployment in resource-constrained clinical environments. Conversely, general-purpose automated machine learning frameworks are often ill-suited for this domain, as exploration within an unbounded programmatic space fails to incorporate essential neurophysiological priors and frequently yields solutions that lack scientific plausibility. To address these limitations, we propose NeuroWeaver, a unified autonomous evolutionary agent designed to generalize across diverse EEG datasets and tasks by reformulating pipeline engineering as a discrete constrained optimization problem. Specifically, we employ a Domain-Informed Subspace Initialization to confine the search to neuroscientifically plausible manifolds, coupled with a Multi-Objective Evolutionary Optimization that dynamically balances performance, novelty, and efficiency via self-reflective refinement. Empirical evaluations across five heterogeneous benchmarks demonstrate that NeuroWeaver synthesizes lightweight solutions that consistently outperform state-of-the-art task-specific methods and achieve performance comparable to large-scale foundation models, despite utilizing significantly fewer parameters.
AI と臨床推論の橋渡し: 重大な症状の調整のための抽象的な説明
人工知能 (AI) は臨床診断において大きな可能性を示しており、多くの場合、人間の専門家と同等またはそれを超える精度を達成します。ただし、重要な課題は、AI 推論が構造化された臨床フレームワークから逸脱することが多く、信頼性、解釈可能性、採用が制限されていることです。迅速かつ正確な意思決定にとって極めて重要な重大な症状は、予測が正しい場合でも AI モデルによって見落とされる可能性があります。既存の事後説明方法では透明性が限られており、正式な保証がありません。これに対処するために、私たちは形式的なアブダクティブ説明を活用し、最小限の十分な機能セットに対して一貫した保証された推論を提供します。これにより、AI の意思決定を明確に理解でき、臨床推論との整合が可能になります。私たちのアプローチは、臨床的に実用的な洞察を提供しながら予測精度を維持し、医療診断における信頼できる AI のための堅牢なフレームワークを確立します。
原文 (English)
Bridging AI and Clinical Reasoning: Abductive Explanations for Alignment on Critical Symptoms
Artificial intelligence (AI) has demonstrated strong potential in clinical diagnostics, often achieving accuracy comparable to or exceeding that of human experts. A key challenge, however, is that AI reasoning frequently diverges from structured clinical frameworks, limiting trust, interpretability, and adoption. Critical symptoms, pivotal for rapid and accurate decision-making, may be overlooked by AI models even when predictions are correct. Existing post hoc explanation methods provide limited transparency and lack formal guarantees. To address this, we leverage formal abductive explanations, which offer consistent, guaranteed reasoning over minimal sufficient feature sets. This enables a clear understanding of AI decision-making and allows alignment with clinical reasoning. Our approach preserves predictive accuracy while providing clinically actionable insights, establishing a robust framework for trustworthy AI in medical diagnosis.
AI 評価には標準化されたアイテムレベルのデータリリースが必要である
この意見書では、標準化された項目レベルのベンチマーク データが AI 評価のデフォルトのインフラストラクチャになるべきであると主張しています。現在の評価は、項目の選択が不十分であり、構成が不整合であり、一般化が不十分であるという問題があります。これらの失敗の根本原因は、集計モデル スコアへの重点の置き忘れにあります。品目レベルの証拠がなければ、有効性の主張を評価することができず、その結果、機能の誇張、誤った方向の研究、導入されたシステムに対する不当な信頼が生じます。私たちの立場は、有効な評価を設計するには項目レベルのモデル応答からの経験的証拠が必要であり、そのようなデータの標準化されたリリースは中核的な AI 評価インフラストラクチャとして扱われるべきである、というものです。さらに、このようなリリースにより、評価結果の透明性、複製可能性、および監査可能性が可能になります。この基準が実現可能で結果的なものであることを示すために、AI 評価コミュニティが開発できる統一スキーマの下で、広く使用されているベンチマークからの 155,000 項目にわたる 1,000 万件の回答の項目レベルのアーカイブである OpenEval を構築します。項目レベルのデータがどのようにして低品質項目を特定し、構造の不整合を文書化し、ベンチマークの内部構造に関する妥当性証拠を回復するかを示します。私たちは汚染と著者の負担に関する異議に取り組み、信頼できない主張に対して下される決定のコストと比較して、それぞれの異議が扱いやすいことを示します。
原文 (English)
AI Evaluation Should Require Standardized Item-Level Data Releases
This position paper argues that standardized item-level benchmark data should become the default infrastructure for AI evaluation. Current evaluations suffer from underspecified item selection, construct misalignment, and poor generalization. The root cause of these failures is a misplaced focus on aggregate model scores. Without item-level evidence, validity claims cannot be assessed, resulting in inflated capability claims, misdirected research, and unwarranted trust in deployed systems. Our position is that designing valid evaluations requires empirical evidence from item-level model responses, and the standardized release of such data should be treated as core AI evaluation infrastructure. Such a release, in addition, enables transparency, replicability, and auditability of evaluation results. To show the norm is both feasible and consequential, we construct OpenEval, an item-level archive of 10M responses across 155k items from widely-used benchmarks, under a unified schema that the AI evaluation community can develop upon. We demonstrate how item-level data can identify low-quality items, document construct misalignment, and recover validity evidence about benchmarks' internal structure. We address objections around contamination and author burden, and show each is tractable relative to the cost of decisions made on claims that cannot be trusted.
IntentScore: コンピュータ使用エージェントの意図条件付きアクションの評価
Computer-Use Agent (CUA) は、大規模な言語モデルを利用してデスクトップ環境で GUI 操作を実行しますが、アクションの品質を評価せずにアクションを生成するため、後続のステップに連鎖的に発生する不可逆的なエラーにつながります。私たちは、3 つのオペレーティング システムにわたる 398K のオフライン GUI インタラクション ステップから候補アクションをスコアリングすることを学習する、プランを認識した報酬モデルである IntentScore を提案します。 IntentScore は、状態とアクションの関連性に関する対照的な調整と、アクションの正しさに関するマージン ランキングという 2 つの相補的な目標を使用してトレーニングします。アーキテクチャ的には、各候補者の計画意図がアクション エンコーダーに埋め込まれ、同様のアクションを持つ候補者間で論理的根拠が異なるものを区別できるようになります。 IntentScore は、ホールドアウト評価で 97.5% のペア識別精度を達成します。トレーニング中にまったく見えない環境である OSWorld 上のエージェント S3 の再ランカーとしてデプロイされた IntentScore は、タスクの成功率を 6.9 ポイント向上させ、異種のオフライン軌跡から学習した報酬推定が、目に見えないエージェントとタスクの分布に一般化されることを示しています。
原文 (English)
IntentScore: Intent-Conditioned Action Evaluation for Computer-Use Agents
Computer-Use Agents (CUAs) leverage large language models to execute GUI operations on desktop environments, yet they generate actions without evaluating action quality, leading to irreversible errors that cascade through subsequent steps. We propose IntentScore, a plan-aware reward model that learns to score candidate actions from 398K offline GUI interaction steps spanning three operating systems. IntentScore trains with two complementary objectives: contrastive alignment for state-action relevance and margin ranking for action correctness. Architecturally, it embeds each candidate's planning intent in the action encoder, enabling discrimination between candidates with similar actions but different rationales. IntentScore achieves 97.5% pairwise discrimination accuracy on held-out evaluation. Deployed as a re-ranker for Agent S3 on OSWorld, an environment entirely unseen during training, IntentScore improves task success rate by 6.9 points, demonstrating that reward estimation learned from heterogeneous offline trajectories generalizes to unseen agents and task distributions.
エージェント主義: 人工知能時代の学習理論
学習理論は歴史的に、学習条件が進化するにつれて変化してきました。生成型およびエージェント型 AI は、学習者が説明、執筆、問題解決、その他の認知作業を生成、推奨、場合によっては学習者の代わりに動作できるシステムに委任できるようにすることで、新しい状態を作成します。これは、学習理論にとって根本的な課題を生み出します。つまり、成功したパフォーマンスは学習を示していると想定できなくなります。学習者は、理解力が低下し、判断力が低下し、伝達可能な能力が限られている一方で、AI サポートによってタスクを効果的に完了する可能性があります。私たちは、この問題は既存の学習理論では完全には捉えられていないと主張します。行動主義、認知主義、構成主義、結合主義は依然として重要ですが、AI 支援によるパフォーマンスがいつ持続的な人間の能力になるのかを直接説明するものではありません。私たちは、人間と AI の相互作用のための学習理論であるエージェント主義を提案します。エージェント主義では、学習とは、AI への選択的委任、認識論的なモニタリングと AI の貢献の検証、AI 支援による成果の再構築的な内面化、サポートを減らした状態での移行を通じた人間の能力の永続的な成長であると定義されています。エージェント主義の重要性は、インテリジェントな委任が容易であり、人間と AI の相互作用が人間の学習の永続的かつ拡大した部分になっているときに、どのように学習が可能であるかを説明することにあります。
原文 (English)
Agentivism: a learning theory for the age of artificial intelligence
Learning theories have historically changed when the conditions of learning evolved. Generative and agentic AI create a new condition by allowing learners to delegate explanation, writing, problem solving, and other cognitive work to systems that can generate, recommend, and sometimes act on the learner's behalf. This creates a fundamental challenge for learning theory: successful performance can no longer be assumed to indicate learning. Learners may complete tasks effectively with AI support while developing less understanding, weaker judgment, and limited transferable capability. We argue that this problem is not fully captured by existing learning theories. Behaviourism, cognitivism, constructivism, and connectivism remain important, but they do not directly explain when AI-assisted performance becomes durable human capability. We propose Agentivism, a learning theory for human-AI interaction. Agentivism defines learning as durable growth in human capability through selective delegation to AI, epistemic monitoring and verification of AI contributions, reconstructive internalization of AI-assisted outputs, and transfer under reduced support. The importance of Agentivism lies in explaining how learning remains possible when intelligent delegation is easy and human-AI interaction is becoming a persistent and expanding part of human learning.
検索だけでは十分ではない: 組織 AI に認識論的インフラストラクチャが必要な理由
AI エージェントが使用する組織的知識には、認識構造が欠けているのが一般的です。検索システムは、拘束力のある決定と放棄された仮説、論争のある主張と解決済みの主張、または既知の事実と未解決の質問を区別することなく、意味的に関連するコンテンツを表面化します。私たちは、組織 AI の上限は検索忠実度ではなく、 \emph{認識論的} 忠実度、つまりコミットメントの強さ、矛盾の状態、組織の無知を計算可能な特性として表現するシステムの能力であると主張します。我々は、認識クラス、クラス固有の減衰を伴う重要度スコア、および符号付き矛盾エッジを保持する型付き知識オブジェクトとして組織知識を構造化するフレームワークである OIDA を紹介します。 Knowledge Gravity Engine は、証明された収束保証によりスコアを決定論的に維持します (十分条件: 最大次数 $< 7$、経験的に次数 43 まで堅牢)。 OIDA は、モデル化された無知としての質問を導入します。これは、組織が \emph{知らない}ことを緊急性を増しながら表面化する、逆減衰を伴うプリミティブです。このメカニズムは、調査対象のすべてのシステムには存在しません。明示的な循環性分析を備えた 5 つの要素からなる評価方法であるエピステミック品質スコア (EQS) について説明します。制御された比較 ($n{=}10$ 応答ペア) では、OIDA の RAG 条件 (3,868 トークン) は、フルコンテキスト ベースライン (108,687 トークン) の EQS 0.530 に対して 0.848 を達成します。 $28.1\times$ のトークン予算の違いが主な混乱要因です。 QUESTION メカニズムは統計的に検証されています (Fisher $p{=}0.0325$, OR$=21.0$)。形式的性質が確立されます。等しいトークン バジェット (E4) での決定的なアブレーションは事前に登録されており、まだ実行されていません。
原文 (English)
Retrieval Is Not Enough: Why Organizational AI Needs Epistemic Infrastructure
Organizational knowledge used by AI agents typically lacks epistemic structure: retrieval systems surface semantically relevant content without distinguishing binding decisions from abandoned hypotheses, contested claims from settled ones, or known facts from unresolved questions. We argue that the ceiling on organizational AI is not retrieval fidelity but \emph{epistemic} fidelity--the system's ability to represent commitment strength, contradiction status, and organizational ignorance as computable properties. We present OIDA, a framework that structures organizational knowledge as typed Knowledge Objects carrying epistemic class, importance scores with class-specific decay, and signed contradiction edges. The Knowledge Gravity Engine maintains scores deterministically with proved convergence guarantees (sufficient condition: max degree $< 7$; empirically robust to degree 43). OIDA introduces QUESTION-as-modeled-ignorance: a primitive with inverse decay that surfaces what an organization does \emph{not} know with increasing urgency--a mechanism absent from all surveyed systems. We describe the Epistemic Quality Score (EQS), a five-component evaluation methodology with explicit circularity analysis. In a controlled comparison ($n{=}10$ response pairs), OIDA's RAG condition (3,868 tokens) achieves EQS 0.530 vs.\ 0.848 for a full-context baseline (108,687 tokens); the $28.1\times$ token budget difference is the primary confound. The QUESTION mechanism is statistically validated (Fisher $p{=}0.0325$, OR$=21.0$). The formal properties are established; the decisive ablation at equal token budget (E4) is pre-registered and not yet run.
QED: 未解決の問題に対する数学的証明を生成するためのオープンソース マルチエージェント システム
私たちは \textbf{QED} を紹介します。これは、人間が提供した研究質問を、人間によるさらなる指導なしに完全な数学的証明に変えるオープンソースのマルチエージェント システムです。そのパイプラインは、計画、証明、検証を分離することで、単一クエリの証明生成でよくある失敗を克服するように設計されています。つまり、分解エージェントが証明検索を構造化し、証明者エージェントが候補引数を生成し、検証者エージェントが正しさをチェックします。分野の専門家と協力して、さまざまな難易度の 18 の研究レベルのプロジェクトについて QED を評価しました。 QED は、代数幾何学、流体偏微分方程式、確率、逆問題にわたる 5 つのオリジナル作品を作成しました。専門家の評価では、これらの著作は堅実な専門研究の貢献であるとみなされており、3 つの著作は、確立された数学の専門分野で一般的に出版されている著作と難易度および範囲において同等です。 QED は https://github.com/proofQED/QED でリリースされます。
原文 (English)
QED: An Open-Source Multi-Agent System for Generating Mathematical Proofs on Open Problems
We present \textbf{QED}, an open-source multi-agent system that turns human-provided research questions into complete mathematical proofs without further human guidance. Its pipeline is designed to overcome common failures of single-query proof generation by separating planning, proving, and verification: a decomposition agent structures the proof search, prover agents generate candidate arguments, and verifier agents check correctness. In collaboration with domain experts, we evaluated QED on 18 research-level projects of varying difficulty. QED produced five original works across algebraic geometry, fluid PDEs, probability, and inverse problems. Expert assessments regard these works as solid specialized research contributions, with three comparable in difficulty and scope to work commonly published in established specialist mathematics venues. QED is released at https://github.com/proofQED/QED.
モデルスペックミッドトレーニング: アライメントトレーニングの一般化方法の改善
一部のフロンティア AI 開発者は、言語モデルを、意図されたモデルの動作を記述するモデル仕様または構成に合わせることを目指しています。ただし、標準的な調整の微調整 (仕様に合わせた動作のデモンストレーションに関するトレーニング) では、一般化が不十分な浅い調整が生成される可能性があります。その理由の 1 つは、デモンストレーション データが目的の一般化を過少指定する可能性があるためです。モデルスペックミッドトレーニング (MSM) を導入します。事前トレーニング後、アライメント微調整の前に、モデルスペックについて議論する合成ドキュメント上でモデルをトレーニングします。これにより仕様の内容をモデルに教え、その後のデモンストレーション データからモデルを一般化する方法を形成します。たとえば、特定のチーズの好み (例: ブリーチーズよりクリームチーズが好き) を表現するためだけに微調整されたモデルは、それらの好みを親アメリカの価値観に帰する仕様で MSM を適用すると、広範な親アメリカの価値観に一般化されます。逆に、手頃な価格向けの値に関する仕様では、まったく同じチーズの微調整から、手頃な価格向けの一般化が得られます。 MSM は、安全に関連する複雑な傾向を形成することもできます。自己保存と目標防衛に対処する仕様を備えた MSM を適用すると、薬剤による位置ずれ率が大幅に減少し (Qwen3-32B: 54% から 7%)、計画的な位置合わせベースライン (14%) を上回ります。さらに、どのモデル仕様が最も強力な調整一般化を生成するかを調査するためのツールとして MSM を使用し、ルールの基礎となる値を説明することで一般化が向上し、一般的なガイダンスではなく具体的なガイダンスを提供できることがわかりました。全体として、MSM は、意図した一般化を最初に教えることによって、アライメント トレーニングからモデルが一般化する方法を制御および改善するためのシンプルで効果的な手法です。
原文 (English)
Model Spec Midtraining: Improving How Alignment Training Generalizes
Some frontier AI developers aim to align language models to a Model Spec or Constitution that describes the intended model behavior. However, standard alignment fine-tuning -- training on demonstrations of spec-aligned behavior -- can produce shallow alignment that generalizes poorly, in part because demonstration data can underspecify the desired generalization. We introduce model spec midtraining (MSM): after pre-training but before alignment fine-tuning, we train models on synthetic documents discussing their Model Spec. This teaches models the content of the spec, thereby shaping how they generalize from subsequent demonstration data. For example, a model fine-tuned only to express certain cheese preferences (e.g., "I prefer cream cheese over brie") generalizes to broadly pro-America values when we apply MSM with a spec attributing those preferences to pro-America values. Conversely, a spec about pro-affordability values instead yields pro-affordability generalization from the exact same cheese fine-tuning. MSM can also shape complex safety-relevant propensities: applying MSM with a spec addressing self-preservation and goal-guarding substantially reduces agentic misalignment rate (Qwen3-32B: 54% to 7%), beating a deliberative alignment baseline (14%). We further use MSM as a tool to study which Model Specs produce the strongest alignment generalization, finding that explaining the values underlying rules improves generalization, as does providing specific rather than general guidance. Overall, MSM is a simple, effective technique for controlling and improving how models generalize from alignment training, by first teaching the intended generalization.
LLM 推論トレースから検索ツリーを抽出すると、近視眼的な計画が明らかになる
大規模言語モデル (LLM)、特に推論モデルは、将来の結果についての明示的な熟慮を含む拡張思考連鎖 (CoT) 推論を生成します。しかし、この検討が真の計画を構成するのか、それがどのように構成され、そのどのような側面がパフォーマンスを促進するのかについては、依然として十分に理解されていません。この研究では、4 連続ボード ゲームの推論トレースから探索ツリーを抽出して定量化することにより、LLM 計画を特徴付ける新しい方法を導入します。抽出された検索ツリーに計算モデルを当てはめることにより、計画がどのように構造化され、それが移動の決定にどのように影響するかを特徴づけます。 LLM の検索は人間よりも浅く、パフォーマンスは深さではなく検索の幅によって予測されることがわかりました。最も驚くべきことに、LLM はトレース内の深いノードを拡張しますが、その移動の選択は、それらのノードを完全に無視する近視眼的なモデルによって最もよく説明されます。 CoT 段落を選択的に枝刈りする因果介入研究では、移動の選択が主に深いノードではなく浅いノードによって行われることがさらに示唆されています。これらのパターンは、主に詳細な検索によってパフォーマンスが左右される人間による計画とは対照的です。私たちの調査結果を総合すると、LLM と人間による計画の重要な違いが明らかになります。人間の専門知識はより深い検索によって駆動されるのに対し、LLM は深い先読みに基づいて動作しません。この分離は、LLM と人間の計画を調整するための的を絞ったガイダンスを提供します。より広範には、私たちのフレームワークは、戦略的ドメイン全体にわたる LLM 計画の構造を解釈するための一般化可能なアプローチを提供します。
原文 (English)
Extracting Search Trees from LLM Reasoning Traces Reveals Myopic Planning
Large language models (LLMs), especially reasoning models, generate extended chain-of-thought (CoT) reasoning that often contains explicit deliberation over future outcomes. Yet whether this deliberation constitutes genuine planning, how it is structured, and what aspects of it drive performance remain poorly understood. In this work, we introduce a new method to characterize LLM planning by extracting and quantifying search trees from reasoning traces in the four-in-a-row board game. By fitting computational models on the extracted search trees, we characterize how plans are structured and how they influence move decisions. We find that LLMs' search is shallower than humans', and that performance is predicted by search breadth rather than depth. Most strikingly, although LLMs expand deep nodes in their traces, their move choices are best explained by a myopic model that ignores those nodes entirely. A causal intervention study where we selectively prune CoT paragraphs further suggests that move selection is driven predominantly by shallow rather than deep nodes. These patterns contrast with human planning, where performance is driven primarily by deep search. Together, our findings reveal a key difference between LLM and human planning: while human expertise is driven by deeper search, LLMs do not act on deep lookahead. This dissociation offers targeted guidance for aligning LLM and human planning. More broadly, our framework provides a generalizable approach for interpreting the structure of LLM planning across strategic domains.
モバイル ワールド モデルは GUI エージェントをどのようにガイドするのでしょうか?
最近のビジョン言語モデルの進歩により、モバイル GUI エージェントがビジュアル インターフェイスを認識し、ユーザーの指示を実行できるようになりましたが、アクションの結果の信頼できる予測は、長期にわたるリスクの高いインタラクションにとって依然として重要です。既存のモバイル世界モデルは、テキストベースまたは画像ベースの将来の状態を提供しますが、どの表現が有用であるか、生成されたロールアウトが実際の環境を置き換えることができるかどうか、およびテスト時のガイダンスがさまざまな強みを持つエージェントにどのように役立つかは不明のままです。上記の質問に答えるために、モバイル ワールド モデル データをフィルタリングして注釈を付け、デルタ テキスト、フル テキスト、拡散ベースの画像、レンダリング可能なコードの 4 つのモダリティにわたってワールド モデルをトレーニングします。これらのモデルは、MobileWorldBench と Code2WorldBench の両方で SoTA パフォーマンスを実現します。さらに、AITZ、AndroidControl、AndroidWorld でのダウンストリーム ユーティリティを評価することで、3 つの発見が得られました。まず、レンダリング可能なコードの再構築により、ディストリビューション内での高い忠実度が達成され、データ構築に効果的なマルチモーダル監視が提供されます。一方、テキストベースのフィードバックは、オンラインのディストリビューション外 (OOD) 実行に対してより堅牢です。第 2 に、ワールド モデルで生成された軌跡は、トレーニング プロセスで伝達可能なインタラクション エクスペリエンスを提供し、エージェントのエンドツーエンド タスクのパフォーマンスを向上させることができます。ただし、これらのデータは元の分布を保存しません。最後に、行動エントロピーが低い自信過剰なモバイル エージェントの場合、事後内省による利益は限定的であり、ワールド モデルは普遍的な事後検証者としてよりも、事前の認識や訓練の監視としてより効果的であることを示唆しています。
原文 (English)
How Mobile World Model Guides GUI Agents?
Recent advances in vision-language models have enabled mobile GUI agents to perceive visual interfaces and execute user instructions, but reliable prediction of action consequences remains critical for long-horizon and high-risk interactions. Existing mobile world models provide either text-based or image-based future states, yet it remains unclear which representation is useful, whether generated rollouts can replace real environments, and how test-time guidance helps agents of different strengths. To answer the above questions, we filter and annotate mobile world-model data, then train world models across four modalities: delta text, full text, diffusion-based images, and renderable code. These models achieve SoTA performance on both MobileWorldBench and Code2WorldBench. Furthermore, by evaluating their downstream utility on AITZ, AndroidControl, and AndroidWorld, we obtain three findings. First, renderable code reconstruction achieves high in-distribution fidelity and provides effective multimodal supervision for data construction, while text-based feedback is more robust for online out-of-distribution (OOD) execution. Second, world-model-generated trajectories can provide transferable interaction experience in the training process and improve agents' end-to-end task performance, although these data do not preserve the original distribution. Last, for overconfident mobile agents with low action entropy, posterior self-reflection provides limited gains, suggesting that world models are more effective as prior perception or training supervision than as universal post-hoc verifiers.
WebGameBench: ブラウザネイティブ ゲームを介したコーディング エージェントの要件からアプリケーションまでの評価
コーディング エージェントはアプリケーション ビルダーとして使用されることが増えていますが、多くの評価は依然として、提供されたアプリケーションではなく、ソース コード、リポジトリ レベルのテスト、または中間トレースに焦点を当てています。 WebGameBench は、コーディング エージェントが凍結された構造化 Web ゲーム仕様をブラウザーでアクセス可能なゲームに変換できるかどうかを評価する、要件からアプリケーションまでのベンチマークです。ブラウザネイティブ ゲームは、コンパクトながら動作密度の高いテストベッドを提供します。単純なゲームであっても、調整された入力処理、空間マッピング、ルールの実行、状態遷移、終了条件、再起動動作、および目に見えるフィードバックが必要です。 WebGameBench では、生成された各アーティファクトが、統一された展開プロトコルの下でブラウザーからアクセス可能なアプリケーションとして構築、提供、公開されます。次に、ランタイム エバリュエーターは実際のブラウザーで配信されたゲームと対話し、EXCELLENT、USABLE、または UNUSABLE の 3 方向のラベルを割り当てます。人間がレビューしたサブセットでは、ランタイム ラベルは、使用可能レート基準に基づく人間のゲームプレイ レビューとほぼ一致しています。 111 のタスク、12 のコーディング エージェント、および 14 の評価構成にわたって、WebGameBench は現在のシステムを分離します。最適な構成では 76.9% の使用可能率に達しますが、優れた率は 20.2% にすぎません。このギャップは、プレイアブル配信の最小しきい値を超えることが、要件を完全に満たすにはまだ遠いことを示しています。私たちの知る限り、WebGameBench はブラウザ ネイティブ ゲーム配信のための最初の要件対アプリケーションのベンチマークであり、配信されたアプリケーションのランタイム ラベルを、使用可能レート基準に基づく独立した人間によるゲームプレイ レビューに対して検証します。
原文 (English)
WebGameBench: Requirement-to-Application Evaluation for Coding Agents via Browser-Native Games
Coding agents are increasingly used as application builders, yet many evaluations still focus on source code, repository-level tests, or intermediate traces rather than the delivered application. We introduce WebGameBench, a requirement-to-application benchmark that evaluates whether coding agents can turn a frozen Structured WebGame Specification into a browser-accessible game. Browser-native games provide a compact but behavior-dense testbed: even simple games require coordinated input handling, spatial mapping, rule execution, state transitions, terminal conditions, restart behavior, and visible feedback. In WebGameBench, each generated artifact is built, served, and exposed as a browser-accessible application under a unified deployment protocol. A runtime evaluator then interacts with the delivered game in a real browser and assigns a three-way label: EXCELLENT, USABLE, or UNUSABLE. On a human-reviewed subset, the runtime label is broadly aligned with human gameplay review under the Usable-rate criterion. Across 111 tasks, 12 coding agents, and 14 evaluation configurations, WebGameBench separates current systems: the best configuration reaches a 76.9% usable rate but only a 20.2% excellent rate. This gap shows that crossing the minimum playable-delivery threshold is still far from complete requirement satisfaction. To our knowledge, WebGameBench is the first requirement-to-application benchmark for browser-native game delivery that validates delivered-application runtime labels against independent human gameplay review under the Usable-rate criterion.
エントロピー勾配反転: 大規模推論モデルの内部メカニズムへの移行
大規模推論モデル (LRM) の進歩により、反応的な「速い思考」のテキスト生成から、体系的で段階的な「遅い思考」の推論へのパラダイム シフトが促進され、複雑な数学的および論理的タスクで最先端のパフォーマンスが可能になりました。しかし、この分野は \textit{トークンレベルの動作分析と内部推論メカニズムの間の根本的なギャップ、およびコストのかかる外部検証器に依存した推論最適化のための強化学習 (RL) の不安定性}に直面しています。私たちは、LRM 推論機能の決定的な幾何学的フィンガープリントとして機能する、トークン エントロピーとロジット勾配の間の堅牢な負の相関である \textbf{エントロピー勾配反転} を特定し、正式に定義します。これに基づいて、この反転署名を RL 報酬正則化に埋め込む \textbf{Correlation- Regularized Group Policy Optimization (CorR-PO)} を提案します。複数のモデルスケールにわたるさまざまな推論ベンチマークに関する広範な実験では、CorR-POが一貫して最先端のベースラインを上回るパフォーマンスを示し、より強力な反転が優れた推論パフォーマンスと直接相関していることが確認されました。
原文 (English)
Entropy-Gradient Inversion: Moving Toward Internal Mechanism of Large Reasoning Models
The advancement of Large Reasoning Models (LRMs) has catalyzed a paradigm shift from reactive ``fast thinking'' text generation to systematic, step-by-step ``slow thinking'' reasoning, unlocking state-of-the-art performance in complex mathematical and logical tasks. However, the field faces \textit{the fundamental gap between token-level behavioral analysis and internal reasoning mechanisms, and the instability of reinforcement learning (RL) for reasoning optimization relying on costly external verifiers}. We identify and formally define \textbf{Entropy-Gradient Inversion}, a robust negative correlation between token entropy and logit gradients that acts as a definitive geometric fingerprint for LRM reasoning capability. Building on this, we propose \textbf{Correlation-Regularized Group Policy Optimization (CorR-PO)}, which embeds this inversion signature into RL reward regularization. Extensive experiments on various reasoning benchmarks across multiple model scales show CorR-PO consistently outperforms state-of-the-art baselines, confirming that stronger inversion directly correlates with superior reasoning performance.
能力は責任ですか?より有能な言語モデルが最も重要なときに悪い予測を行う
私たちは、根底にある時系列が超線形成長と政権交代のテールリスク(金融と疫学で一般的な構造)を示す問題の予測に関するLLMの逆スケーリングを文書化します。これらのタスクでは、より有能なモデルほど、より悪い分布予測を生成します。このパターンは、一致した線形制御を使用して合成 SIR 流行を予測する際に、当社がリリースする汚染のないシミュレートされた世界のベンチマークである ForecastBench-Sim (FBSim) に表示され、新型コロナウイルス感染症、麻疹、住宅市場、ハイパーインフレに関する現実世界のデータセットでも再現されます。分位ごとの分解は、失敗が上部の裾に集中していることを示しています。より有能なモデルは成長の積極的な外挿を追跡するために上方にシフトしますが、下部の裾はそのままです。 Llama-3.1 のファミリー内研究では、モデルの規模とトレーニング後の両方が独立してこの効果に寄与していることが示されています。専門分野の知識は校正を確実に解決するものではありません。この逆スケーリングは、LLM 予測ベンチマークで一般的な単一しきい値メトリクスには現れず、同一の出力における能力と精度の関係の符号が逆転します。従来のカットオフでの単一しきい値スコアリングでは、アッパーテールコストを見逃します。末尾を含むスコアリングでは、同じ出力に対する能力と精度の関係の符号が逆転します。 LLM 予測評価では、境界のあるバイナリしきい値メトリクスと並行して、継続的な (および境界のない) 精度の測定を使用することをお勧めします。
原文 (English)
Is Capability a Liability? More Capable Language Models Make Worse Forecasts When It Matters Most
We document inverse scaling in LLMs on forecasting problems whose underlying time series exhibit superlinear growth and tail risk of regime change, a structure common in finance and epidemiology. On these tasks, more capable models produce worse distributional forecasts. The pattern appears on ForecastBench-Sim (FBSim), a contamination-free, simulated-world benchmark we release, in forecasting synthetic SIR epidemics with a matched linear control, and replicates in real-world datasets on COVID-19, measles, housing markets, and hyperinflation. A per-quantile decomposition shows the failure concentrates at the upper tail, which more capable models shift upward to track aggressive extrapolations of growth, while the lower tail stays put. A within-family study of Llama-3.1 shows that both model scale and post-training independently contribute to this effect. Domain knowledge does not reliably rescue calibration. This inverse scaling does not appear on single-threshold metrics common in LLM forecasting benchmarks, reversing the sign of the capability--accuracy relationship on identical outputs. Single-threshold scoring at conventional cutoffs misses the upper-tail cost; tail-inclusive scoring reverses the sign of the capability--accuracy relationship on the same outputs. We recommend that LLM forecasting evaluations use continuous (and unbounded) measures of accuracy alongside bounded binary threshold metrics.
Moonwalk: 逆順微分
バックプロパゲーションの主な制限は、フォワード パス中に中間アクティベーション (残差) を保存する必要があることであり、これによりトレーニング可能なネットワークの深さが制限されます。これにより、根本的な疑問が生じます。これらのアクティベーションの保存を回避できるでしょうか?勾配計算の構造を再検討することで、この問題に対処します。バックプロパゲーションは、一連のベクトル ヤコビアン積を通じて勾配を計算します。この操作は一般に不可逆です。失われた情報は、各層のヤコビアンのコーカーネルにあります。我々は、アクティベーションを保存せずに順方向スイープで勾配を正確に再構築できるサブマーシブ ネットワーク、つまり層のヤコビアンが自明なコーカーネルを持つネットワークを定義します。非浸漬レイヤーの場合は、ヤコビアンによって消去されたコタンジェントを復元するために必要な残差の最小限のサブセットのみを記録する、断片的勾配チェックポイントを導入します。私たちのアプローチの中心となるのは、コーカーネルの外側の勾配の流れを反転する新しい演算子であるベクトル逆ヤコビアン積 (vijp) です。私たちの混合モード アルゴリズムは、まずメモリ効率の高いリバース パスで入力勾配を計算し、次に vijp を使用した順方向スイープでパラメータ勾配を再構築するため、アクティベーションを保存する必要がなくなります。この方法を Moonwalk に実装し、同じメモリ バジェットの下で 2 倍以上の深さのネットワークをトレーニングしながら、バックプロパゲーションの実行時間と一致することを示します。
原文 (English)
Moonwalk: Inverse-Forward Differentiation
Backpropagation's main limitation is its need to store intermediate activations (residuals) during the forward pass, which restricts the depth of trainable networks. This raises a fundamental question: can we avoid storing these activations? We address this by revisiting the structure of gradient computation. Backpropagation computes gradients through a sequence of vector-Jacobian products, an operation that is generally irreversible. The lost information lies in the cokernel of each layer's Jacobian. We define submersive networks -- networks whose layer Jacobians have trivial cokernels -- in which gradients can be reconstructed exactly in a forward sweep without storing activations. For non-submersive layers, we introduce fragmental gradient checkpointing, which records only the minimal subset of residuals necessary to restore the cotangents erased by the Jacobian. Central to our approach is a novel operator, the vector-inverse-Jacobian product (vijp), which inverts gradient flow outside the cokernel. Our mixed-mode algorithm first computes input gradients with a memory-efficient reverse pass, then reconstructs parameter gradients in a forward sweep using the vijp, eliminating the need to store activations. We implement this method in Moonwalk and show that it matches backpropagation's runtime while training networks more than twice as deep under the same memory budget.
ConjNorm: 分布外検出のための扱いやすい密度推定
事後的な配布外 (OOD) 検出は、信頼性の高い機械学習において集中的な注目を集めています。低スコアの OOD サンプルを特定するために、ロジット、距離、または厳密なデータ分布の仮定に基づいてスコア関数を導き出すことに多くの努力が払われてきました。それにもかかわらず、これらの推定スコアは真のデータ密度を正確に反映できなかったり、非現実的な制約を課したりする可能性があります。密度ベースのスコア設計に関する統一的な視点を提供するために、分布の考慮事項を指数分布族を包含するように拡張する、ブレグマン発散に基づいた新しい理論的フレームワークを提案します。定理で明らかになった共役制約を利用して、密度関数の設計を与えられたデータセットに対する最適なノルム係数 $p$ の探索として再構成する \textsc{ConjNorm} メソッドを導入します。正規化の計算上の課題を考慮して、モンテカルロベースの重要度サンプリング手法を使用して、偏りがなく分析的に扱いやすい分配関数の推定器を考案しました。 OOD 検出ベンチマークにわたる広範な実験により、私たちが提案する \textsc{ConjNorm} がさまざまな OOD 検出設定において新しい最先端技術を確立し、現在の最良の方法を CIFAR-100 と ImageNet-1K でそれぞれ最大 13.25$\%$ と 28.19$\%$ (FPR95) 上回っていることが経験的に証明されています。
原文 (English)
ConjNorm: Tractable Density Estimation for Out-of-Distribution Detection
Post-hoc out-of-distribution (OOD) detection has garnered intensive attention in reliable machine learning. Many efforts have been dedicated to deriving score functions based on logits, distances, or rigorous data distribution assumptions to identify low-scoring OOD samples. Nevertheless, these estimate scores may fail to accurately reflect the true data density or impose impractical constraints. To provide a unified perspective on density-based score design, we propose a novel theoretical framework grounded in Bregman divergence, which extends distribution considerations to encompass an exponential family of distributions. Leveraging the conjugation constraint revealed in our theorem, we introduce a \textsc{ConjNorm} method, reframing density function design as a search for the optimal norm coefficient $p$ against the given dataset. In light of the computational challenges of normalization, we devise an unbiased and analytically tractable estimator of the partition function using the Monte Carlo-based importance sampling technique. Extensive experiments across OOD detection benchmarks empirically demonstrate that our proposed \textsc{ConjNorm} has established a new state-of-the-art in a variety of OOD detection setups, outperforming the current best method by up to 13.25$\%$ and 28.19$\%$ (FPR95) on CIFAR-100 and ImageNet-1K, respectively.
MirrorCheck: 視覚言語モデルの効率的な敵対防御
ビジョン言語モデル (VLM) は、既存の防御を回避するために特別に設計された適応戦略を含む、高度な敵対的攻撃に対してますます脆弱になっています。この脆弱性に対処するために、ユニモーダル設定とマルチモーダル設定の両方で効果的に動作する、堅牢でモデルに依存しない検出フレームワークである MirrorCheck を提案します。 MirrorCheck は、Text-to-Image (T2I) モデルを利用して、ターゲット モデルによって生成されたキャプションからビジュアル コンテンツを再生成し、元の画像と合成画像の間の特徴空間の埋め込みを比較することで意味の一貫性を評価します。適応型攻撃に対する堅牢性を強化するために、MirrorCheck は、多様なモデル ズーから T2I ジェネレーターと画像エンコーダーをランダムに選択する確率的防御戦略を導入しています。さらに、選択したエンコーダの埋め込みに適用される新しいワンタイムユース (OTU) 摂動を組み込み、スケーリング係数によって制御され、適応型攻撃の有効性を低下させます。複数の脅威シナリオにわたる広範な実験により、MirrorCheck がベースライン手法を常に上回り、適応性の高い敵対的条件下でもその有用性を維持できることが実証されました。
原文 (English)
MirrorCheck: Efficient Adversarial Defense for Vision-Language Models
Vision-Language Models (VLMs) are increasingly susceptible to sophisticated adversarial attacks, including adaptive strategies specifically designed to bypass existing defenses. To address this vulnerability, we propose MirrorCheck, a robust and model-agnostic detection framework that operates effectively in both unimodal and multimodal settings. MirrorCheck leverages Text-to-Image (T2I) models to regenerate visual content from captions produced by the target model and assesses semantic consistency by comparing feature-space embeddings between the original and synthesized images. To enhance robustness against adaptive attacks, MirrorCheck introduces a stochastic defense strategy that randomly selects T2I generators and image encoders from a diverse model zoo. Additionally, we incorporate a novel One-Time-Use (OTU) perturbation applied to the selected encoder embeddings, regulated by a scaling factor, which decreases the effectiveness of adaptive attacks. Extensive experiments across multiple threat scenarios demonstrate that MirrorCheck consistently outperforms baseline methods, and maintains its utility even under strong adaptive adversarial conditions.
XAttnMark: クロスアテンションによる堅牢なオーディオ透かしの学習
音声生成合成および編集技術の急速な普及により、著作権侵害、データの出所、ディープフェイク音声を介した誤った情報の拡散についての深刻な懸念が生じています。ウォーターマークは、知覚できないが識別可能で追跡可能な信号をオーディオ コンテンツに埋め込むことで、プロアクティブなソリューションを提供します。 WavMark や AudioSeal などの最近のニューラル ネットワーク ベースの透かし手法は堅牢性と品質を向上させていますが、堅牢な検出と正確な属性の両方を最適化するのに苦労しています。このペーパーでは、生成器と検出器の間の部分的なパラメータ共有、効率的なメッセージ取得のためのクロスアテンション メカニズム、およびメッセージ配信を改善するための時間調整モジュールを活用することで、このギャップを埋めるクロスアテンション ロバスト オーディオ ウォーターマーク (XATTNMARK) を紹介します。さらに、きめの細かい聴覚マスキング効果を捕捉し、透かしの知覚不能性を改善する、心理音響的に調整された時間周波数 (TF) マスキング損失を提案します。 XATTNMARK は、検出と属性の両方で最先端のパフォーマンスを実現し、さまざまな強度での困難なジェネレーティブ編集を含む、幅広いオーディオ変換に対する優れた堅牢性を実証します。この取り組みは、知的財産を保護し、生成 AI 時代の信頼性を確保するために音声透かしを進歩させます。
原文 (English)
XAttnMark: Learning Robust Audio Watermarking with Cross-Attention
The rapid proliferation of generative audio synthesis and editing technologies has raised serious concerns about copyright infringement, data provenance, and the spread of misinformation via deepfake audio. Watermarking offers a proactive solution by embedding imperceptible yet identifiable and traceable signals into audio content. While recent neural network-based watermarking methods like WavMark and AudioSeal have improved robustness and quality, they struggle to jointly optimize both robust detection and accurate attribution. This paper introduces Cross-Attention Robust Audio Watermark (XATTNMARK), which bridges this gap by leveraging partial parameter sharing between the generator and the detector, a cross-attention mechanism for efficient message retrieval, and a temporal conditioning module for improved message distribution. Additionally, we propose a psychoacoustic-aligned time-frequency (TF) masking loss that captures fine-grained auditory masking effects, improving watermark imperceptibility. XATTNMARK achieves state-of-the-art performance in both detection and attribution, demonstrating superior robustness against a wide range of audio transformations, including challenging generative editing at varying strengths. This work advances audio watermarking for protecting intellectual property and ensuring authenticity in the era of generative AI.
分子関係学習のための化学誘発適合による表現的調整
分子関係学習 (MRL) は、構造的特徴を抽出することで分子ペア間の関係を予測するために自然科学で広く応用されています。部分構造ペア間の表現上の類似性によって、分子結合部位の機能的互換性が決まります。それにもかかわらず、注意メカニズムによる部分構造表現の位置合わせには化学知識からのガイダンスが欠けており、その結果、化学空間 (\textit{e.g.}、官能基、足場) シフトされたデータにおけるモデルのパフォーマンスが不安定になります。理論的根拠に基づいて、MRL の安定性を高めるために、化学誘発 \textbf{Fit} を使用した \textbf{Re}プレゼンテーション \textbf{Align}ment (ReAlignFit) を提案します。 ReAlignFit は、化学的誘導フィットベースの誘導バイアスを導入することにより、MRL 内の部分構造表現を動的に位置合わせします。誘導プロセスでは、化学構造の変化(部分構造の動的組み合わせ)をシミュレートすることにより、部分構造ペア間の表現を揃えるために、部分構造エッジ再構成に基づいてバイアス補正関数を設計します。 ReAlignFit は、フィット プロセス中にサブグラフ情報ボトルネックをさらに統合して、高い化学機能互換性を示すサブ構造ペアを洗練および最適化し、それらを利用して分子埋め込みを生成します。 9 つのデータセットに関する実験結果は、ReAlignFit が 2 つのタスクで最先端のモデルを上回り、ルールシフトとスキャフォールドシフトの両方のデータ分布においてモデルの安定性が大幅に向上することを示しています。
原文 (English)
Representational Alignment with Chemical Induced Fit for Molecular Relational Learning
Molecular Relational Learning (MRL) is widely applied in natural sciences to predict relationships between molecular pairs by extracting structural features. The representational similarity between substructure pairs determines the functional compatibility of molecular binding sites. Nevertheless, aligning substructure representations by attention mechanisms lacks guidance from chemical knowledge, resulting in unstable model performance in chemical space (\textit{e.g.}, functional group, scaffold) shifted data. With theoretical justification, we propose the \textbf{Re}presentational \textbf{Align}ment with Chemical Induced \textbf{Fit} (ReAlignFit) to enhance the stability of MRL. ReAlignFit dynamically aligns substructure representation in MRL by introducing chemical Induced Fit-based inductive bias. In the induction process, we design the Bias Correction Function based on substructure edge reconstruction to align representations between substructure pairs by simulating chemical conformational changes (dynamic combination of substructures). ReAlignFit further integrates the Subgraph Information Bottleneck during fit process to refine and optimize substructure pairs exhibiting high chemical functional compatibility, leveraging them to generate molecular embeddings. Experimental results on nine datasets demonstrate that ReAlignFit outperforms state-of-the-art models in two tasks and significantly enhances model's stability in both rule-shifted and scaffold-shifted data distributions.
表形式データの拡散およびフロー マッチング モデル: 調査
深層生成モデルは、画像、テキスト、オーディオ、ビデオの生成において急速に進歩しており、構造化された記録への適用が増えています。ただし、表形式データの場合、生成モデリングは依然として困難です。データセットには、数値およびカテゴリ属性、欠損値、機密フィールド、不均衡なカテゴリ、複雑な特徴の依存関係、ドメイン制約が含まれる場合があります。 GAN または VAE に基づく以前の表形式データ モデリング手法は有益な結果を達成しましたが、不安定なトレーニング、モードの崩壊、多峰性分布の弱いモデリング、および混合タイプの特徴の脆弱な処理という問題が発生する可能性があります。したがって、拡散モデルは、そのノイズ化とノイズ除去の定式化が複雑なデータ分布をモデル化するための柔軟かつ安定した方法を提供し、表形式の合成、欠損値の代入、信頼できるデータ生成、および異常検出に適応されているため、関心が高まっています。フロー マッチングは、確率パスに沿ってトランスポート ベクトル フィールドを学習することにより、密接に関連したルートを提供します。多くの場合、パス設計とサンプリング効率をより直接的に制御します。この進歩にもかかわらず、表形式データの拡散およびフローマッチングモデルに関する文献は、依然として比較が困難です。これは、方法が異なるタスクを対象とし、異なる表現、目的、評価プロトコル、および領域の仮定に依存しているためです。私たちの知る限り、これは表形式データの拡散およびフロー マッチング モデルに特化した最初の調査です。私たちは 2015 年 6 月から 2026 年 5 月までの作業をレビューし、データ エンジニアリングの課題、タスク、設計の選択、評価の次元を中心に整理し、スケーラビリティ、機能の依存関係モデリング、プライバシー、公平性、ベンチマーク、および制約を意識した生成における未解決の問題について議論します。更新は GitHub リポジトリで管理されます。
原文 (English)
Diffusion and Flow Matching Models for Tabular Data: A Survey
Deep generative models have made rapid progress in image, text, audio, and video generation, and are increasingly being applied to structured records. For tabular data, however, generative modeling remains difficult: a dataset may contain numerical and categorical attributes, missing values, sensitive fields, imbalanced categories, complex feature dependencies, and domain constraints. Earlier tabular data modeling methods based on GANs or VAEs have achieved useful results, but they can suffer from unstable training, mode collapse, weak modeling of multimodal distributions, and fragile handling of mixed-type features. Diffusion models have therefore attracted growing interest because their noising-and-denoising formulation provides a flexible and stable way to model complex data distributions, and has been adapted to tabular synthesis, missing-value imputation, trustworthy data generation, and anomaly detection. Flow matching offers a closely related route by learning transport vector fields along probability paths, often with more direct control over path design and sampling efficiency. Despite this progress, the literature on diffusion and flow matching models for tabular data remains difficult to compare because methods target different tasks and rely on different representations, objectives, evaluation protocols, and domain assumptions. To the best of our knowledge, this is the first survey dedicated specifically to diffusion and flow matching models for tabular data. We review work from June 2015 to May 2026, organize it around data-engineering challenges, tasks, design choices, and evaluation dimensions, and discuss open problems in scalability, feature dependency modeling, privacy, fairness, benchmarking, and constraint-aware generation. We maintain updates in a GitHub repository.
自然主義的計算認知科学: 自然な行動の全範囲を捉える一般化可能なモデルと理論を目指して
認知科学はどのようにして自然の状況や行動の全範囲に及ぶ一般化可能な理論を構築できるのでしょうか?私たちは、人工知能 (AI) の進歩により、認知科学がますます自然な刺激、タスク、行動を用いた実験を受け入れるタイムリーな機会が提供されると主張します。そしてこれらの変化に対応できる計算モデル。私たちはまず、神経科学、認知科学、AIにまたがる増え続ける研究をレビューします。この研究は、自然知能のいくつかの側面を解決し、私たちの理論を確実に一般化するために、より広範囲の自然主義的実験パラダイムとそれらに対応するモデルを組み込むことが必要である可能性があることを示唆しています。私たちは、自然主義的なパラダイムが異なる行動を誘発したり、異なるプロセスに関与したりする認知科学と神経科学の事例をレビューします。次に、自然主義的なデータからの学習が質的に異なる行動パターンと一般化を生み出すことを示す AI の最近の進歩について議論し、これらの発見が認知モデリングから導き出される結論にどのような影響を与え、認知現象や神経現象の根源についての新しい仮説を生み出すのに役立つかを検討します。そして、AI と認知科学の最近の進歩を統合することで、実験による制御や理論に基づいた理解の追求を放棄することなく、より自然主義的な現象に取り組むことができるようになるだろうと提案します。私たちは、方法論の実践が自然主義的な計算認知科学の累積的な進歩にどのように貢献できるかについて実践的なガイダンスを提供し、自然認知の実際の問題を解決する計算モデルの構築に向けた道筋を、そのプロセスと原理の還元的な理解とともに示します。
原文 (English)
Naturalistic Computational Cognitive Science: Towards generalizable models and theories that capture the full range of natural behavior
How can cognitive science build generalizable theories that span the full scope of natural situations and behaviors? We argue that progress in Artificial Intelligence (AI) offers timely opportunities for cognitive science to embrace experiments with increasingly naturalistic stimuli, tasks, and behaviors; and computational models that can accommodate these changes. We first review a growing body of research spanning neuroscience, cognitive science, and AI that suggests that incorporating a broader range of naturalistic experimental paradigms, and models that accommodate them, may be necessary to resolve some aspects of natural intelligence and ensure that our theories generalize. We review cases from cognitive science and neuroscience where naturalistic paradigms elicit distinct behaviors or engage different processes. We then discuss recent progress in AI that shows that learning from naturalistic data yields qualitatively different patterns of behavior and generalization, and examine how these findings impact the conclusions we draw from cognitive modeling, and can help yield new hypotheses for the roots of cognitive and neural phenomena. We then suggest that integrating recent progress in AI and cognitive science will enable us to engage with more naturalistic phenomena without giving up experimental control or the pursuit of theoretically grounded understanding. We offer practical guidance on how methodological practices can contribute to cumulative progress in naturalistic computational cognitive science, and illustrate a path towards building computational models that solve the real problems of natural cognition, together with a reductive understanding of the processes and principles by which they do so.
GlyTwin: 患者中心の反事実を使用した最適な行動修正による 1 型糖尿病の血糖制御のためのデジタル ツイン
高血糖に頻繁かつ長期間さらされると、神経障害、腎症、心血管疾患などの慢性合併症のリスクが増加します。既存の持続皮下インスリン注入 (CSII) および持続血糖モニタリング (CGM) 技術は、低血糖の予測や少量のインスリンボーラス投与など、血糖調節の特定の側面のみをモデル化しています。同様に、糖尿病管理における現在のデジタル ツイン アプローチは、人間の行動やインスリン療法に対するグルコース反応を予測することに主に焦点を当てています。結果として、これらの技術には、最適な糖尿病管理のための積極的な行動介入を導くことができる代替治療シナリオを提供する機能が欠けています。このギャップに対処するために、私たちは、グルコース制御のための最適な行動治療をシミュレートするために反事実の説明を統合することによってデジタルツインテクノロジーを強化する新しい計算フレームワークである GlyTwin を提案します。 GlyTwin は、炭水化物の摂取やインスリン投与などの行動選択の調整を推奨することで、反事実に反する治療法を生成し、高血糖イベントの発生と期間を大幅に短縮します。さらに、GlyTwin は利害関係者の好みを介入生成プロセスに組み込み、ツールがパーソナライズされユーザー中心であることを保証します。 AZT1D は、自動インスリン投与 (AID) システム上で 1 型糖尿病 (T1D) を患っている 50 人の個人から長期的なデータを収集して構築された新しいデータセットであり、それぞれを 26 日間モニタリングして GlyTwin を評価します。結果は、過去のデータと比較して、GlyTwin が反事実の説明を生成する最先端の方法を上回っており、有効な説明が 85.8%、高血糖の予防効果が 87.3% あることを示しています。
原文 (English)
GlyTwin: Digital Twin for Glucose Control in Type 1 Diabetes Through Optimal Behavioral Modifications Using Patient-Centric Counterfactuals
Frequent and long-term exposure to hyperglycemia increases the risk of chronic complications, including neuropathy, nephropathy, and cardiovascular disease. Existing continuous subcutaneous insulin infusion (CSII) and continuous glucose monitoring (CGM) technologies model only specific aspects of glycemic regulation, such as predicting hypoglycemia and administering small insulin boluses. Similarly, current digital twin approaches in diabetes management primarily focus on predicting glucose responses to human behavior and insulin therapy. As a result, these technologies lack the ability to provide alternative treatment scenarios that could guide proactive behavioral interventions for optimal diabetes management. To address this gap, we propose GlyTwin, a novel computational framework that enhances digital twin technologies by integrating counterfactual explanations to simulate optimal behavioral treatments for glucose control. GlyTwin generates counterfactual treatments by recommending adjustments to behavioral choices, such as carbohydrate intake and insulin dosing, to significantly reduce the occurrence and duration of hyperglycemic events. In addition, GlyTwin incorporates stakeholder preferences into its intervention-generation process, ensuring that the tool is personalized and user-centric. We evaluate GlyTwin on AZT1D, a new dataset constructed by collecting longitudinal data from 50 individuals living with type 1 diabetes (T1D) on automated insulin delivery (AID) systems, each monitored for 26 days. Results show that GlyTwin outperforms state-of-the-art methods for generating counterfactual explanations, with 85.8\% valid explanations and 87.3\% effectiveness in preventing hyperglycemia compared with historical data.
限られたデータと未知の物理学を使用したスペクトルにインスピレーションを得た演算子学習
物理学が未知の限られたデータから PDE ダイナミクスを学習するのは困難です。既存のニューラル PDE ソルバーは、大規模なデータセットを必要とするか、既知の物理学 (PDE 残差や手作りのステンシルなど) に依存しているため、適用性が限られています。これらの課題に対処するために、明示的な PDE 項を必要とせずに、わずか 2 ~ 5 つの軌道から複雑なシステムをモデル化できる Spectral-Inspired Neural Operator (SINO) を提案します。具体的には、SINO は周波数インデックスからローカルおよびグローバル空間導関数の両方を自動的に取得し、物理に依存しない領域で基礎となる微分演算子のコンパクトな表現を可能にします。非線形効果をモデル化するために、スペクトル特徴に対して乗算演算を実行する Pi ブロックを採用し、エイリアシングを抑制するためにローパス フィルターによって補完されます。 2D と 3D PDE ベンチマークの両方に関する広範な実験により、SINO が 1 ~ 2 桁精度が向上し、最先端のパフォーマンスを達成できることが実証されました。特に、SINO はわずか 5 つのトレーニング軌跡で、1,000 の軌跡でトレーニングされたデータ駆動型手法よりも優れたパフォーマンスを発揮し、他の手法が失敗する分布外の困難なケースでも予測を維持します。
原文 (English)
Spectral-inspired Operator Learning with Limited Data and Unknown Physics
Learning PDE dynamics from limited data with unknown physics is challenging. Existing neural PDE solvers either require large datasets or rely on known physics (e.g., PDE residuals or handcrafted stencils), leading to limited applicability. To address these challenges, we propose Spectral-Inspired Neural Operator (SINO), which can model complex systems from just 2-5 trajectories, without requiring explicit PDE terms. Specifically, SINO automatically captures both local and global spatial derivatives from frequency indices, enabling a compact representation of the underlying differential operators in physics-agnostic regimes. To model nonlinear effects, it employs a Pi-block that performs multiplicative operations on spectral features, complemented by a low-pass filter to suppress aliasing. Extensive experiments on both 2D and 3D PDE benchmarks demonstrate that SINO achieves state-of-the-art performance, with improvements of 1-2 orders of magnitude in accuracy. Particularly, with only 5 training trajectories, SINO outperforms data-driven methods trained on 1000 trajectories and remains predictive on challenging out-of-distribution cases where other methods fail.
ステルス レンズを通して: RAG における中毒に対する注意を意識した防御
検索拡張生成 (RAG) システムは、破損率が低い場合でも、取得されたコンテキストにポイズンされたパッセージを挿入する攻撃に対して脆弱です。既存の攻撃はステルス化するように設計されておらず、信頼性の高い検出と軽減が可能であることを示します。私たちは、このような攻撃に対するステルス性を定量化するために、識別性に基づくセキュリティ ゲームを形式化します。いくつかの毒されたパッセージが応答を制御する場合、それらは無害なパッセージよりも推論プロセスに偏りを生じさせる必要があり、本質的にステルス性が損なわれます。これは、応答に対するさまざまなパッセージの影響を近似するために、注意の重みなどの LLM の中間信号を分析する動機になります。アテンションの重みを活用して、異常なパッセージにフラグを立てる $\textbf{Normalized Passage Attendance Score}$ (NPAS) と軽量の $\textbf{Attendance-Variance Filter}$ (AV Filter) を導入します。私たちの手法は堅牢性を向上させ、ベースライン防御よりも最大 $\sim$ $\textbf{20%}$ 高い精度をもたらします。また、このような異常を隠蔽しようとする適応型攻撃も開発しており、最大 $\textbf{35%}$ の成功率を達成し、RAG システムを汚染する際の真のステルス性を達成するという課題を浮き彫りにしています。
原文 (English)
Through the Stealth Lens: Attention-Aware Defenses Against Poisoning in RAG
Retrieval-augmented generation (RAG) systems are vulnerable to attacks that inject poisoned passages into the retrieved context, even at low corruption rates. We show that existing attacks are not designed to be stealthy, allowing reliable detection and mitigation. We formalize a distinguishability-based security game to quantify stealth for such attacks. If a few poisoned passages control the response, they must bias the inference process more than the benign ones, inherently compromising stealth. This motivates analyzing intermediate signals of LLMs, such as attention weights, to approximate the influence of different passages on the response. Leveraging attention weights, we introduce the $\textbf{Normalized Passage Attention Score}$ (NPAS) and a lightweight $\textbf{Attention-Variance Filter}$ (AV Filter) that flags anomalous passages. Our method improves robustness, yielding up to $\sim$ $\textbf{20%}$ higher accuracy than baseline defenses. We also develop adaptive attacks that attempt to conceal such anomalies, achieving up to $\textbf{35%}$ success rate and underscoring the challenges of achieving true stealth in poisoning RAG systems.
場所: 大きなグラフでの属性付きコミュニティ検索の迅速な学習
この論文では、ACS のための革新的なグラフ プロンプト学習フレームワークである PLACE (Prompt Learning for Attributed Community Search) を提案します。 PLACE は、学習可能なプロンプト トークンを挿入して NLP クエリをコンテキスト化する自然言語処理 (NLP) のプロンプト チューニングを活用して、構造的で学習可能なプロンプト トークンをクエリ依存の絞り込みメカニズムとしてグラフに統合し、プロンプト拡張グラフを形成します。このプロンプト拡張グラフ構造内では、学習されたプロンプト トークンがクエリのグラフ ノード間の接続を強化するブリッジとして機能し、GNN が特定のクエリに関連する構造的凝集性と属性の類似性のパターンをより効果的に識別できるようになります。交互トレーニング パラダイムを採用して、プロンプト パラメーターと GNN の両方を共同で最適化します。さらに、分割統治戦略を設計してスケーラビリティを強化し、数百万規模のグラフを処理するモデルをサポートします。 9 つの実際のグラフに関する広範な実験により、3 種類の ACS クエリに対する PLACE の有効性が実証され、PLACE は最先端のものと比較して平均で 22% 高い F1 スコアを達成しました。
原文 (English)
PLACE: Prompt Learning for Attributed Community Search in Large Graphs
In this paper, we propose PLACE (Prompt Learning for Attributed Community Search), an innovative graph prompt learning framework for ACS. Enlightened by prompt-tuning in Natural Language Processing (NLP), where learnable prompt tokens are inserted to contextualize NLP queries, PLACE integrates structural and learnable prompt tokens into the graph as a query-dependent refinement mechanism, forming a prompt-augmented graph. Within this prompt-augmented graph structure, the learned prompt tokens serve as a bridge that strengthens connections between graph nodes for the query, enabling the GNN to more effectively identify patterns of structural cohesiveness and attribute similarity related to the specific query. We employ an alternating training paradigm to optimize both the prompt parameters and the GNN jointly. Moreover, we design a divide-and-conquer strategy to enhance scalability, supporting the model to handle million-scale graphs. Extensive experiments on 9 real-world graphs demonstrate the effectiveness of PLACE for three types of ACS queries, where PLACE achieves higher F1 scores by 22% compared to the state-of-the-arts on average.
STM3: 長期時空間時系列予測のためのマルチスケール Mamba の混合
最近、時空間時系列予測は急速に発展していますが、既存の深層学習手法では、複雑な長期的な時空間依存関係を効率的に学習するのが困難です。長期の時空間依存関係の学習には、2 つの新たな課題が伴います。1) 長期の時系列シーケンスには、効率的に抽出するのが難しいマルチスケール情報が自然に含まれています。 2) さまざまなノードからのマルチスケール時間情報は相関性が高く、モデル化が困難です。これらの課題に対処するために、私たちはマルチスケール マンバの時空間混合 (STM3) を提案します。 STM3 は、新しい Disentangled Mixture-of-Experts (DMoE) フレームワーク内に Multiscale Mamba アーキテクチャを統合して、多様なマルチスケール情報を効率的に取得すると同時に、適応グラフ因果ネットワークを利用して複雑な空間依存関係をモデル化します。堅牢な表現学習を保証するために、安定したルーティング戦略と因果対比学習戦略を導入します。これらは階層情報の集約と連携して機能し、スケールの区別性を保証します。 STM3 が優れた配線の滑らかさを実現し、各エキスパートのパターンのもつれの解消を保証することを理論的に証明します。ドメイン全体にわたる 10 の現実世界のベンチマークに関する広範な実験により、STM3 の優れたパフォーマンスが実証され、長期の時空間予測において最先端の結果が得られました。特に、PEMSD8 データセットでは大幅な改善が達成されており、MAE で 7.1%、RMSE で 8.5%、MAPE で 2 番目に優れたモデルを 15.9% 上回っています。コードは https://github.com/IfReasonable/STM3_KDD26 で入手できます。
原文 (English)
STM3: Mixture of Multiscale Mamba for Long-Term Spatio-Temporal Time-Series Prediction
Recently, spatio-temporal time-series prediction has developed rapidly, yet existing deep learning methods struggle with learning complex long-term spatio-temporal dependencies efficiently. The long-term spatio-temporal dependency learning brings two new challenges: 1) The long-term temporal sequence naturally includes multiscale information, which is hard to extract efficiently; 2) The multiscale temporal information from different nodes is highly correlated and hard to model. To address these challenges, we propose Spatio-Temporal Mixture of Multiscale Mamba (STM3). STM3 integrates a Multiscale Mamba architecture within a novel Disentangled Mixture-of-Experts (DMoE) framework to capture diverse multiscale information efficiently, while utilizing an adaptive graph causal network to model complex spatial dependencies. To ensure robust representation learning, we introduce a stable routing strategy and a causal contrastive learning strategy, which work in tandem with hierarchical information aggregation to guarantee scale distinguishability. We theoretically prove that STM3 achieves superior routing smoothness and guarantees pattern disentanglement for each expert. Extensive experiments on 10 real-world benchmarks across domains demonstrate STM3's superior performance, achieving state-of-the-art results in long-term spatio-temporal time-series prediction. Notably, on the PEMSD8 dataset, it achieves significant improvements, surpassing the second-best model by 7.1% in MAE, 8.5% in RMSE, and 15.9% in MAPE. Code is available at https://github.com/IfReasonable/STM3_KDD26.
GeoMAE: 欠損値を含む時空間グラフ予測のためのマスキング表現学習
悪環境条件や機器の故障に起因する都市インテリジェンス システムの欠落データの蔓延は、特に交通予測やエネルギー消費予測の分野で、下流アプリケーションの有効性に対して重大な課題を引き起こしています。したがって、不完全なデータセットから有意義な洞察を抽出できる堅牢な時空間学習方法論を開発することが不可欠です。欠損値が存在する場合の時空間グラフ予測の方法論は存在しますが、未解決の問題は依然として残っています。主に、現存する研究の大部分は時系列分析を前提としているため、センサー ネットワークに固有の動的な空間相関が無視されています。さらに、欠落データ パターンの複雑さが問題をさらに複雑にします。さらに、メンテナンス条件の変動により、欠損値の比率とパターンが大きく変動するため、予測モデルの一般化が困難になります。これらの課題に応えるために、この研究では、自己教師ありの時空間表現学習モデルである GeoMAE を導入します。このモデルは、入力前処理モジュール、注意ベースの時空間予測ネットワーク (STAFN)、およびマスキング オートエンコーダーからインスピレーションを得て時空間表現学習の堅牢性を強化する補助学習タスクの 3 つの主要コンポーネントで構成されています。実世界のデータセットに対する実証的評価では、GeoMAE が既存のベンチマークを大幅に上回り、最良のベースライン モデルに対して最大 13.20\% の相対的な改善を達成していることが実証されています。
原文 (English)
GeoMAE: Masking Representation Learning for Spatio-Temporal Graph Forecasting with Missing Values
The ubiquity of missing data in urban intelligence systems, attributable to adverse environmental conditions and equipment failures, poses a significant challenge to the efficacy of downstream applications, notably in the realms of traffic forecasting and energy consumption prediction. Therefore, it is imperative to develop a robust spatio-temporal learning methodology capable of extracting meaningful insights from incomplete datasets. Despite the existence of methodologies for spatio-temporal graph forecasting in the presence of missing values, unresolved issues persist. Primarily, the majority of extant research is predicated on time-series analysis, thereby neglecting the dynamic spatial correlations inherent in sensor networks. Additionally, the complexity of missing data patterns compounds the intricacy of the problem. Furthermore, the variability in maintenance conditions results in a significant fluctuation in the ratio and pattern of missing values, thereby challenging the generalizability of predictive models. In response to these challenges, this study introduces GeoMAE, a self-supervised spatio-temporal representation learning model. The model is comprised of three principal components: an input preprocessing module, an attention-based spatio-temporal forecasting network (STAFN), and an auxiliary learning task, which draws inspiration from Masking AutoEncoders to enhance the robustness of spatio-temporal representation learning. Empirical evaluations on real-world datasets demonstrate that GeoMAE significantly outperforms existing benchmarks, achieving up to 13.20\% relative improvement over the best baseline models.
グラフ構造のフィードバックによる複数の公平性正則化によるオンライン学習
自動化された意思決定システム内で複数の、しばしば競合する公平性の基準を適用する必要性が高まっています。これらの公平性目標の適切な重み付けは通常は先験的に不明であり、時間の経過とともに変化する可能性があり、私たちの設定では、逐次的な対話を通じて適応的に学習する必要があります。この研究では、グラフ構造のフィードバックによって意思決定が行われるバンディット設定でこの課題に取り組みます。
原文 (English)
Online Learning with Multiple Fairness Regularizers via Graph-Structured Feedback
There is an increasing need to enforce multiple, often competing, measures of fairness within automated decision systems. The appropriate weighting of these fairness objectives is typically unknown a priori, may change over time and, in our setting, must be learned adaptively through sequential interactions. In this work, we address this challenge in a bandit setting, where decisions are made with graph-structured feedback.
弱監視セグメンテーションによるサンゴ生息地マッピングのためのドローンベースのフレームワーク
広い空間範囲にわたってピクセルレベルのアノテーションを取得することは、エコロジーアプリケーションに機械学習を導入する上で依然として大きなボトルネックとなっています。ここでは、高密度の分類ベースの出力から高解像度セグメンテーション モデルをトレーニングできるマルチスケールの弱教師セマンティック セグメンテーション (WSSS) フレームワークを紹介します。私たちの方法は、水中画像からの詳細なスケールのマルチラベル予測と広範囲の航空データを組み合わせます。これらのポイントレベルの分類を、無人航空機 (UAV) オルソフォトでセマンティック セグメンテーション モデルをトレーニングするために使用できる粗い監視マスクに変換します。次に、モデル独自の洗練された予測を使用する 2 番目のトレーニング ステップを使用して、追加の注釈を必要とせずに空間精度をさらに向上させます。私たちは、サンゴ礁画像に対するアプローチを実証し、サンゴの形態型の大面積セグメンテーションを可能にし、新しいクラスを統合する際のその柔軟性を示します。最終的なモデルは、手動でアノテーションを付けたサンゴ礁ゾーンで 86.07% のピクセル精度と 52.23% の平均交差オーバーユニオン (mIoU) を達成し、ピクセル レベルのアノテーションなしで正確な大規模なサンゴのセグメンテーションを取得できることを実証しました。この方法は、スケールやモダリティを超えて画像の分類とセグメンテーションを橋渡しすることで、アノテーションが利用できない環境でセグメンテーション モデルを導入するための効率的なソリューションを提供し、生態学やその他の分野においてスケーラブルで効率的なモニタリングの機会を開きます。
原文 (English)
A drone-based framework for coral habitat mapping via weakly supervised segmentation
Obtaining pixel-level annotations over large spatial extents remains a major bottleneck for deploying machine learning in ecological applications. Here we present a multi-scale weakly supervised semantic segmentation (WSSS) framework that enables training high-resolution segmentation models from dense, classification-based outputs. Our method combines fine-scale, multi-label predictions from underwater imagery with broad-coverage aerial data. We convert these point-level classifications into coarse supervision masks that can be used to train a semantic segmentation model on Unmanned Aerial Vehicle (UAV) orthophotos. A second training step using the model's own refined predictions is then used to further improve spatial accuracy without requiring additional annotations. We demonstrate the approach on coral reef imagery, enabling large-area segmentation of coral morphotypes and illustrating its flexibility in integrating new classes. The final model achieves 86.07% pixel accuracy and 52.23% mean Intersection over Union (mIoU) on manually annotated reef zones, demonstrating that accurate large-scale coral segmentation can be obtained without pixel-level annotations. By bridging image classification and segmentation across scales and modalities, this method provides an efficient solution for deploying segmentation models in settings where annotations are unavailable and opens opportunities for scalable, efficient monitoring in ecology and beyond.
大規模言語モデルの意見力学における相互作用とバイアス効果の解きほぐし
人間の意見のダイナミクスをシミュレートするために大規模言語モデルがますます使用されていますが、真の相互作用の効果は体系的なバイアスによって不明瞭になることがよくあります。私たちは、そのような 3 つのバイアスを解きほぐし、定量化するためのベイジアン フレームワークを開発します。(i) LLM のデフォルトのスタンスに対するトピックのバイアス。 (ii) 質問に関係なく、促された陳述に同意することを好む同意バイアス。 (iii) 開始エージェントのスタンスに対する固定バイアス。私たちはこのフレームワークをさまざまな LLM に適用し、気候変動や社会正義から音楽の好みまで 12 の異なる質問について多段階の対話を実行しました。意見の軌跡は共通のアトラクターに急速に収束する傾向があり、相互作用とバイアスの両方の影響は時間の経過とともに減衰し、バイアスの影響は LLM 間で異なります。さらに、強い意見を持つステートメント (誤った情報を含む) のさまざまなセットに対して LLM を微調整すると、それに応じて意見アトラクターが変化することを示します。 LLM 間の明らかな違いを明らかにし、LLM エージェントの議論における意見の変化に対する相互作用とバイアスの寄与を比較するための定量的ツールを提供することにより、私たちのアプローチは、LLM を人間の行動の代用として使用することの約束と落とし穴の両方を浮き彫りにします。
原文 (English)
Disentangling Interaction and Bias Effects in Opinion Dynamics of Large Language Models
Large Language Models are increasingly used to simulate human opinion dynamics, yet the effect of genuine interaction is often obscured by systematic biases. We develop a Bayesian framework to disentangle and quantify three such biases: (i) A topic bias toward the LLM's default stance; (ii) an agreement bias favoring agreement to the prompted statement irrespective of the question; and (iii) an anchoring bias toward the initiating agent's stance. We apply this framework to various LLMs that performed multi-step dialogues on 12 different questions from climate change and societal justice to music preferences. We find that opinion trajectories tend to quickly converge to a shared attractor, with the influence of both interaction and biases decaying over time, and with the impact of biases differing between LLMs. In addition, we show that fine-tuning an LLM on different sets of strongly opinionated statements (including misinformation) shifts the opinion attractor correspondingly. By exposing stark differences between LLMs and providing quantitative tools for comparing interaction and bias contributions to opinion shifts in LLM agent discussions, our approach highlights both promises and pitfalls of using LLMs as proxies for human behavior.
強化学習による効率的かつ移転可能なエージェントナレッジグラフ RAG
ナレッジ グラフ検索拡張生成 (KG-RAG) は、大規模言語モデル (LLM) と構造化された検証可能なナレッジ グラフ (KG) を組み合わせて、幻覚を軽減し、推論トレースを提供します。ただし、現在の KG-RAG システムは、多くの場合、複数の LLM モジュール (計画、推論、応答など) の固定パイプラインに依存しており、推論コストが膨らみ、パフォーマンスが特定のグラフ スキーマに結びついています。これに対処するために、強化学習 (RL) を通じて KG-RAG を最適化するエージェント フレームワークである KG-R1 を導入します。モジュール式ワークフローとは異なり、KG-R1 は環境として KG と対話する単一のエージェントを使用し、各ステップで情報を取得する方法を学習し、それを統一プロセスでの推論と生成に組み込みます。 Knowledge-Graph Question Answering (KGQA) ベンチマーク全体で、KG-R1 は効率と移行性の両方を実証しています。Qwen 2.5-3B を使用すると、KG-R1 は、はるかに大規模な基盤または微調整されたモデルを使用する従来のマルチモジュール ワークフロー メソッドよりも少ない生成トークンで回答精度を向上させます。さらに、KG-R1 は強力なプラグアンドプレイ機能を示します。トレーニング後、再トレーニングすることなく、目に見えない KG での精度を維持します。これらの特性により、KG-R1 は実際の展開に有望な KG-RAG フレームワークになります。私たちのコードは github.com/junhongmit/KG-R1/ で公開されています。
原文 (English)
Efficient and Transferable Agentic Knowledge Graph RAG via Reinforcement Learning
Knowledge-graph retrieval-augmented generation (KG-RAG) couples large language models (LLMs) with structured, verifiable knowledge graphs (KGs) to reduce hallucination and provide reasoning traces. However, current KG-RAG systems often rely on fixed pipelines of multiple LLM modules (e.g., planning, reasoning, and responding), which inflate inference costs and tie performance to specific graph schemas. To address this, we introduce KG-R1, an agentic framework that optimizes KG-RAG through reinforcement learning (RL). Unlike modular workflows, KG-R1 uses a single agent that interacts with KGs as its environment, learning to retrieve information at each step and incorporating it into its reasoning and generation in a unified process. Across Knowledge-Graph Question Answering (KGQA) benchmarks, KG-R1 demonstrates both efficiency and transferability-using Qwen 2.5-3B, KG-R1 improves answer accuracy with fewer generation tokens than prior multi-module workflow methods that use much larger foundation or fine-tuned models. Furthermore, KG-R1 exhibits strong plug-and-play capability: after training, maintaining accuracy on unseen KGs without retraining. These properties make KG-R1 a promising KG-RAG framework for real-world deployment. Our code is publicly available at github.com/junhongmit/KG-R1/.
不完全な検証者のもとで検証可能だがノイズの多い報酬を伴う強化学習
検証可能な報酬による強化学習 (RLVR) は、コストのかかる人間によるラベル付けを自動検証器に置き換えます。検証者のハッキングを減らすために、多くの RLVR システムは報酬を $\{0,1\}$ に 2 値化しますが、不完全な検証者は必然的に \emph{偽陰性} (正しい答えを拒否する) と \emph{偽陽性} (間違った答えを受け入れる) を導入します。検証器の信頼性の不確実性を、非対称ノイズ レート $\rho_0$ と $\rho_1$ (それぞれ FP レートと FN レート) を持つ確率的報酬チャネルとして形式化します。この抽象化から、2 つの軽量な補正を導き出します。(i) \emph{backward} 補正は、不偏の代理報酬を生成し、したがって期待値の不偏なポリシー勾配推定量を生成します。(ii) \emph{forward} 補正は、期待される更新がクリーンな勾配方向と一致するようにスコア関数項を再重み付けし、FN レートのみを必要とします。両方をグループ相対ポリシー最適化パイプラインの軽量フックとして実装します。両方の修正により、合成および実際の検証ノイズの下での数学的推論の RLVR が向上し、前方バリアントはより重いノイズの下でより安定します。最後に、軽量 LLM 検証機能を備えた異議申し立てメカニズムにより、オンラインで FN レートが推定され、パフォーマンスがさらに向上します。
原文 (English)
Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers
Reinforcement Learning with Verifiable Rewards (RLVR) replaces costly human labeling with automated verifiers. To reduce verifier hacking, many RLVR systems binarize rewards to $\{0,1\}$, but imperfect verifiers inevitably introduce \emph{false negatives} (rejecting correct answers) and \emph{false positives} (accepting incorrect ones). We formalize verifier unreliability as a stochastic reward channel with asymmetric noise rates $\rho_0$ and $\rho_1$ -- the FP rate and the FN rate, respectively. From this abstraction we derive two lightweight corrections: (i) a \emph{backward} correction that yields an unbiased surrogate reward and thus an unbiased policy-gradient estimator in expectation, and (ii) a \emph{forward} correction that reweights score-function terms so the expected update aligns with the clean gradient direction and requires only the FN rate. We implement both as lightweight hooks in a group relative policy optimization pipeline, both corrections improve RLVR for math reasoning under synthetic and real verifier noise, with the forward variant being more stable under heavier noise. Finally, an appeals mechanism with a lightweight LLM verifier estimates the FN rate online and further improves performance.
GILT: インコンテキスト学習のための LLM フリー、チューニング不要のグラフ基礎モデル
グラフ ニューラル ネットワーク (GNN) は、リレーショナル データを処理するための強力なツールですが、目に見えないグラフに一般化するのに苦労することが多く、グラフ基盤モデル (GFM) の開発が必要になります。ただし、現在の GFM は、各グラフが固有の特徴空間、ラベル セット、およびトポロジを所有する可能性があるため、グラフ データの極端な異質性が課題となっています。これに対処するために、2 つの主要なパラダイムが登場しました。 1 つ目は大規模言語モデル (LLM) を活用していますが、基本的にテキストに依存しているため、膨大なグラフの数値特徴を処理するのが困難です。 2 つ目は構造ベースのモデルを事前トレーニングしますが、新しいタスクへの適応には通常、コストのかかるグラフごとの調整ステージが必要となり、重大な効率のボトルネックが生じます。この取り組みでは、これらの制限を超えて、LLM フリーおよびチューニング不要のアーキテクチャに基づいて構築されたフレームワークである \textbf{G}raph \textbf{I}n-context \textbf{L}earning \textbf{T}ransformer (GILT) を導入します。 GILT は、グラフ上のインコンテキスト学習 (ICL) のための新しいトークンベースのフレームワークを導入し、統一フレームワークでノード、エッジ、グラフ レベルにわたる分類タスクを再構成します。このメカニズムは一般的な数値特徴を操作するように設計されているため、異質性を処理するための鍵となります。さらに、コンテキストからクラスのセマンティクスを動的に理解する機能により、調整不要の適応が可能になります。包括的な実験により、GILT は LLM ベースまたはチューニング ベースのベースラインよりも大幅に短い時間で強力な数ショット パフォーマンスを達成することが示されており、私たちのアプローチの有効性が検証されています。コードは https://github.com/yiming421/inductnode/ から入手できます。
原文 (English)
GILT: An LLM-Free, Tuning-Free Graph Foundational Model for In-Context Learning
Graph Neural Networks (GNNs) are powerful tools for processing relational data but often struggle to generalize to unseen graphs, giving rise to the development of Graph Foundational Models (GFMs). However, current GFMs are challenged by the extreme heterogeneity of graph data, where each graph can possess a unique feature space, label set, and topology. To address this, two main paradigms have emerged. The first leverages Large Language Models (LLMs), but is fundamentally text-dependent, thus struggles to handle the numerical features in vast graphs. The second pre-trains a structure-based model, but the adaptation to new tasks typically requires a costly, per-graph tuning stage, creating a critical efficiency bottleneck. In this work, we move beyond these limitations and introduce \textbf{G}raph \textbf{I}n-context \textbf{L}earning \textbf{T}ransformer (GILT), a framework built on an LLM-free and tuning-free architecture. GILT introduces a novel token-based framework for in-context learning (ICL) on graphs, reframing classification tasks spanning node, edge and graph levels in a unified framework. This mechanism is the key to handling heterogeneity, as it is designed to operate on generic numerical features. Further, its ability to understand class semantics dynamically from the context enables tuning-free adaptation. Comprehensive experiments show that GILT achieves stronger few-shot performance with significantly less time than LLM-based or tuning-based baselines, validating the effectiveness of our approach. Our code is available at: https://github.com/yiming421/inductnode/.
従来のメディア オンライン サービスにおける制御されたパーソナライゼーション: ニュース レコメンデーションのケーススタディ
パーソナライズされたニュースの推奨機能は、大規模なニュース集約サービスの標準機能となり、自動コンテンツ選択を通じてユーザー エンゲージメントを最適化します。対照的に、従来のニュース メディアは、技術革新と編集の中核となる価値観のバランスを取るよう努めて、パーソナライゼーションに慎重に取り組むことがよくあります。その結果、従来の報道機関のオンライン プラットフォームでは通常、編集部が厳選したコンテンツとアルゴリズムで選択された記事を組み合わせています。これを、私たちが「コントロールされたパーソナライゼーション」と呼ぶ戦略をとります。この業界記事では、ノルウェーの大手報道機関の Web サイトで実施された A/B テストを通じて、制御されたパーソナライゼーションの有効性を評価します。私たちの調査結果は、控えめなレベルのパーソナライゼーションでも大きなメリットが得られることを示しています。具体的には、パーソナライズされたコンテンツにさらされたユーザーはクリックスルー率が高く、ナビゲーションの労力が軽減されていることが観察されており、関連するコンテンツの発見が向上していることが示唆されます。さらに、私たちの分析では、制御されたパーソナライゼーションがコンテンツの多様性とカタログ範囲の拡大に貢献し、さらに人気の偏りを軽減することが明らかになりました。全体として、私たちの結果は、制御されたパーソナライゼーションがユーザーのニーズと編集目標をうまく一致させることができ、レガシーメディアがジャーナリズムの価値を守りながらパーソナライゼーションテクノロジーを採用するための実行可能な道を提供することを示唆しています。
原文 (English)
Controlled Personalization in Legacy Media Online Services: A Case Study in News Recommendation
Personalized news recommendations have become a standard feature of large news aggregation services, optimizing user engagement through automated content selection. In contrast, legacy news media often approach personalization cautiously, striving to balance technological innovation with core editorial values. As a result, online platforms of traditional news outlets typically combine editorially curated content with algorithmically selected articles - a strategy we term controlled personalization. In this industry article, we evaluate the effectiveness of controlled personalization through an A/B test conducted on the website of a major Norwegian legacy news organization. Our findings indicate that even a modest level of personalization yields substantial benefits. Specifically, we observe that users exposed to personalized content demonstrate higher click-through-rates and reduced navigation effort, suggesting improved discovery of relevant content. Moreover, our analysis reveals that controlled personalization contributes to greater content diversity and catalog coverage and in addition reduces popularity bias. Overall, our results suggest that controlled personalization can successfully align user needs with editorial goals, offering a viable path for legacy media to adopt personalization technologies while upholding journalistic values.
RAG-Pull: 目に見えない Unicode 摂動を介して取得をコードインジェクション チャネルに変える
検索拡張生成 (RAG) は、LLM 応答の信頼性と信頼性を高め、モデルの再トレーニングの必要性を排除することで幻覚を軽減します。これは、LLM のコンテキストに外部データを追加することによって行われます。私たちは、隠れた UTF 文字をクエリまたは外部コード リポジトリに挿入し、検索を悪意のあるコードにリダイレクトして、モデルの安全性の調整を破る新しいクラスのブラック ボックス攻撃である RAG-Pull を開発しました。クエリとコードの摂動だけでは、検索が攻撃者が制御するスニペットにシフトする可能性がある一方、クエリとターゲットの摂動を組み合わせるとほぼ完璧な成功が得られることが観察されています。これらのスニペットが取得されると、リモート コード実行や SQL インジェクションなどの悪用可能な脆弱性が生じます。 RAG-Pull の最小限の摂動は、モデルの安全性の調整を変更し、安全でないコードへの優先順位を高める可能性があるため、LLM に対する新しい種類の攻撃を可能にします。
原文 (English)
RAG-Pull: Turning Retrieval into a Code-Injection Channel via Invisible Unicode Perturbations
Retrieval-Augmented Generation (RAG) increases the reliability and trustworthiness of the LLM response and reduces hallucination by eliminating the need for model retraining. It does so by adding external data into the LLM's context. We develop a new class of black-box attack, RAG-Pull, that inserts hidden UTF characters into queries or external code repositories, redirecting retrieval toward malicious code, thereby breaking the models' safety alignment. We observe that query and code perturbations alone can shift retrieval toward attacker-controlled snippets, while combined query-and-target perturbations achieve near-perfect success. Once retrieved, these snippets introduce exploitable vulnerabilities such as remote code execution and SQL injection. RAG-Pull's minimal perturbations can alter the model's safety alignment and increase preference towards unsafe code, therefore opening up a new class of attacks on LLMs.
スパースブロック - トークン置換によるスパースアテンション
大規模言語モデル (LLM) のコンテキスト長をスケーリングすると、大きな利点が得られますが、計算コストが高くなります。この費用は主にセルフアテンション メカニズムに起因しており、シーケンスの長さに関する $O(N^2)$ の複雑さがメモリとレイテンシの両方に大きなボトルネックをもたらします。幸いなことに、特に長いシーケンスの場合、アテンション マトリックスは疎であることが多く、最適化の機会が示唆されています。ブロックスパース アテンションは、シーケンスをブロックに分割し、これらのブロックのサブセットの計算をスキップする有望なソリューションとして浮上しました。ただし、この方法の有効性は、根底にある注意パターンに大きく依存しており、最適ではないブロックレベルのスパース性が発生する可能性があります。たとえば、単一ブロック内のクエリの重要なキー トークンが他の多数のブロックに分散している可能性があり、計算の冗長性が生じます。この研究では、アテンションの順列特性を利用してブロックレベルのスパース性を高め、LLM プレフィルの計算効率を高めるプラグアンドプレイ手法である Permuted Block-Sparse Attendance (\textbf{PBS-Attn}) を提案します。私たちは、困難な現実世界のロングコンテキスト データセットに対して包括的な実験を実施し、PBS-Attn がモデルの精度において既存のブロック スパース アテンション手法を常に上回り、フル アテンション ベースラインとほぼ一致することを実証しました。 PBS-Attn は、カスタムの並べ替えられた FlashAttendant カーネルを利用して、ロング コンテキストの事前入力で最大 $2.75\times$ のエンドツーエンドの高速化を達成し、その実用的な実行可能性を確認しています。コードは https://github.com/xinghaow99/pbs-attn で入手できます
原文 (English)
Sparser Block-Sparse Attention via Token Permutation
Scaling the context length of large language models (LLMs) offers significant benefits but is computationally expensive. This expense stems primarily from the self-attention mechanism, whose $O(N^2)$ complexity with respect to sequence length presents a major bottleneck for both memory and latency. Fortunately, the attention matrix is often sparse, particularly for long sequences, suggesting an opportunity for optimization. Block-sparse attention has emerged as a promising solution that partitions sequences into blocks and skips computation for a subset of these blocks. However, the effectiveness of this method is highly dependent on the underlying attention patterns, which can lead to sub-optimal block-level sparsity. For instance, important key tokens for queries within a single block may be scattered across numerous other blocks, leading to computational redundancy. In this work, we propose Permuted Block-Sparse Attention (\textbf{PBS-Attn}), a plug-and-play method that leverages the permutation properties of attention to increase block-level sparsity and enhance the computational efficiency of LLM prefilling. We conduct comprehensive experiments on challenging real-world long-context datasets, demonstrating that PBS-Attn consistently outperforms existing block-sparse attention methods in model accuracy and closely matches the full attention baseline. Powered by our custom permuted-FlashAttention kernels, PBS-Attn achieves an end-to-end speedup of up to $2.75\times$ in long-context prefilling, confirming its practical viability. Code available at https://github.com/xinghaow99/pbs-attn
LACY: 自己改善ロボット操作のための視覚言語モデルベースの言語行動サイクル
ロボット操作のための一般化可能なポリシーの学習は、言語命令をアクションにマッピングする大規模モデル (L2A) にますます依存しています。ただし、この一方向のパラダイムでは、状況をより深く理解せずにタスクを実行するポリシーが生成されることが多く、タスクの動作を一般化または説明する能力が制限されます。私たちは、アクションを言語にマッピングする補完的なスキル (A2L) が、より全体的な基礎を身につけるために不可欠であると主張します。行動することとその行動を説明することの両方が可能なエージェントは、より豊かな内部表現を形成し、自己教師あり学習のための新しいパラダイムを解き放つことができます。単一のビジョン言語モデル内でこのような双方向マッピングを学習する統合フレームワークである LACY (Language-Action Cycle) を紹介します。 LACY は、言語からパラメータ化されたアクションを生成する (L2A)、観察されたアクションを言語で説明する (A2L)、2 つの言語記述間の意味論的な一貫性を検証する (L2C) という 3 つの相乗タスクで共同トレーニングされます。これにより、信頼性の低いケースを対象としたアクティブな拡張戦略を通じて新しいトレーニング データを自律的に生成およびフィルタリングする自己改善サイクルが可能になり、人間によるラベルを追加することなくモデルを改善できます。シミュレーションと現実世界の両方でのピックアンドプレイスタスクの実験では、LACY がタスクの成功率を平均 56.46% 向上させ、ロボット操作のためのより堅牢な言語アクションの基礎を生み出すことが示されました。プロジェクトページ:https://vla2026.github.io/LACY/
原文 (English)
LACY: A Vision-Language Model-based Language-Action Cycle for Self-Improving Robotic Manipulation
Learning generalizable policies for robotic manipulation increasingly relies on large-scale models that map language instructions to actions (L2A). However, this one-way paradigm often produces policies that execute tasks without deeper contextual understanding, limiting their ability to generalize or explain their behavior. We argue that the complementary skill of mapping actions back to language (A2L) is essential for developing more holistic grounding. An agent capable of both acting and explaining its actions can form richer internal representations and unlock new paradigms for self-supervised learning. We introduce LACY (Language-Action Cycle), a unified framework that learns such bidirectional mappings within a single vision-language model. LACY is jointly trained on three synergistic tasks: generating parameterized actions from language (L2A), explaining observed actions in language (A2L), and verifying semantic consistency between two language descriptions (L2C). This enables a self-improving cycle that autonomously generates and filters new training data through an active augmentation strategy targeting low-confidence cases, thereby improving the model without additional human labels. Experiments on pick-and-place tasks in both simulation and the real world show that LACY improves task success rates by 56.46% on average and yields more robust language-action grounding for robotic manipulation. Project page: https://vla2026.github.io/LACY/
自律的な X 線誘導脊椎手術のためのロボット制御ポリシー学習の調査
模倣学習ベースのロボット制御政策は、ビデオベースのロボット工学への新たな関心を集めています。ただし、このアプローチが、入力がまばらな脊椎器具などの X 線ガイド下処置に適用できるかどうかは不明のままです。我々は、バイプレーンガイドによるカニューレ挿入における模倣ポリシー学習の実現可能性、機会、課題を検討します。私たちは、高度な現実性を備えた X 線誘導脊椎処置のスケーラブルな自動シミュレーションのためのインシリコ サンドボックスを開発しています。私たちは、プロバイダーの段階的な位置合わせをエミュレートする、正しい軌道と対応する二平面 X 線シーケンスのデータセットを厳選します。次に、視覚情報のみに基づいて椎体形成術の設定でカニューレの位置を繰り返し調整する計画と開ループ制御のための模倣学習ポリシーをトレーニングします。この正確に制御されたセットアップにより、この方法の制限と機能についての洞察が得られます。私たちのポリシーは、症例の 68.5% で最初の試みで成功し、さまざまな椎骨レベルにわたって安全な椎弓根内の軌道を維持しました。このポリシーは、骨折を含む複雑な解剖学、およびさまざまな解剖学と初期化に移行しました。実際の X 線でのロールアウトは、妥当な軌道による部分的なシミュレーションから現実への移行が可能であることを示しています。これらの暫定的な結果は有望ですが、特にエントリーポイントの精度における限界も特定しています。今回の結果は、将来の取り組みに対する明確なベンチマークを提示するとともに、より堅牢な事前知識と領域知識があれば、このようなモデルは、軽量でCT不要のロボットによる術中脊椎ナビゲーションに向けた将来の取り組みの基盤となる可能性がある。
原文 (English)
Investigating Robot Control Policy Learning for Autonomous X-ray-guided Spine Procedures
Imitation learning-based robot control policies are enjoying renewed interest in video-based robotics. However, it remains unclear whether this approach applies to X-ray-guided procedures, such as spine instrumentation, with sparse inputs. We examine the feasibility, opportunities and challenges for imitation policy learning in bi-plane-guided cannula insertion. We develop an in silico sandbox for scalable, automated simulation of X-ray-guided spine procedures with a high degree of realism. We curate a dataset of correct trajectories and corresponding bi-planar X-ray sequences that emulate the stepwise alignment of providers. We then train imitation learning policies for planning and open-loop control that iteratively align a cannula in a vertebroplasty setting solely based on visual information. This precisely controlled setup offers insights into limitations and capabilities of this method. Our policy succeeded on the first attempt in 68.5% of cases, maintaining safe intra-pedicular trajectories across diverse vertebral levels. The policy transferred to complex anatomy, including fractures, as well as varied anatomies and initializations. Rollouts on real X-ray indicate that partial sim-to-real transfer with plausible trajectories is possible. While these preliminary results are promising, we also identify limitations, especially in entry point precision. The current results present a clear benchmark for future efforts, while with more robust priors and domain knowledge, such models may provide a foundation for future efforts toward lightweight and CT-free robotic intra-operative spinal navigation.
DocVAL: グラウンディングされたドキュメント VQA の検証済みの思考連鎖の蒸留
ドキュメントのビジュアル質問応答では、モデルが質問に正しく答えるだけでなく、複雑なドキュメント レイアウト内で回答を正確にローカライズする必要があります。大規模なビジョン言語モデル (VLM) は強力な空間基盤を実現しますが、その推論コストと遅延は現実世界の展開を制限します。コンパクト VLM はより効率的ですが、標準的な微調整や蒸留の下では、局在化が大幅に低下することがよくあります。このギャップに対処するために、私たちは、明示的な空間推論を大規模な教師モデルからコンパクトで展開可能な学生 VLM に転送する、検証済みの思考連鎖 (CoT) 蒸留フレームワークである DocVAL を提案します。 DocVAL は、(1) 教師が生成する空間 CoT 監視、(2) 低品質のトレーニング信号をフィルタリングし、きめの細かいピクセルレベルの修正フィードバックを提供するルールベースのデュアルモードバリデーター、および (3) 反復改良を伴う検証主導の 2 段階トレーニング手順を組み合わせています。テキスト検出は、監視と検証のためのトレーニング時の足場としてのみ使用され、最終的な学習者が OCR や推論時の検出なしで純粋な VLM として動作できるようにします。複数の文書理解ベンチマーク全体で、DocVAL は、同等のコンパクト VLM よりも最大 6 ~ 7 ANLS ポイントの一貫した改善をもたらしました。さらに、文書質問応答の位置特定指標として平均平均精度 (mAP) を導入し、この新しい評価の下で強力な空間接地パフォーマンスを報告します。私たちはバリデーターによって検証された 95,000 件の CoT トレースをリリースし、高品質で検証済みの監視が、フィルターされていないデータをスケーリングするより効果的であり、効率的で信頼できるドキュメントの根拠付けを可能にすることを示しています。コード/データ: https://github.com/ahmad-shirazi/DocVAL
原文 (English)
DocVAL: Validated Chain-of-Thought Distillation for Grounded Document VQA
Document visual question answering requires models not only to answer questions correctly, but also to precisely localize answers within complex document layouts. While large vision-language models (VLMs) achieve strong spatial grounding, their inference cost and latency limit real-world deployment. Compact VLMs are more efficient, but they often suffer substantial localization degradation under standard fine-tuning or distillation. To address this gap, we propose DocVAL, a validated chain-of-thought (CoT) distillation framework that transfers explicit spatial reasoning from large teacher models to compact, deployable student VLMs. DocVAL combines (1) teacher-generated spatial CoT supervision, (2) a rule-based dual-mode validator that filters low-quality training signals and provides fine-grained, pixel-level corrective feedback, and (3) a validation-driven two-stage training procedure with iterative refinement. Text detection is used only as training-time scaffolding for supervision and validation, enabling the final student to operate as a pure VLM without OCR or detection at inference. Across multiple document understanding benchmarks, DocVAL yields consistent improvements of up to 6-7 ANLS points over comparable compact VLMs. We further introduce mean Average Precision (mAP) as a localization metric for document question answering and report strong spatial grounding performance under this new evaluation. We release 95K validator-verified CoT traces and show that high-quality, validated supervision is more effective than scaling unfiltered data, enabling efficient and trustworthy document grounding. Code/Data: https://github.com/ahmad-shirazi/DocVAL
テキスト分類のための因果 LLM の微調整: 埋め込みベースのアプローチと命令ベースのアプローチ
私たちは、リソースの制約の下で下流のテキスト分類のためにデコーダ専用の大規模言語モデル (LLM) を微調整するための効率的な戦略を検討します。 2 つのアプローチが調査されます: (1) 事前にトレーニングされた因果 LLM に分類ヘッドを接続し、シーケンス表現として LLM の最終トークン埋め込みを使用してタスクを微調整する方法、(2) 分類用のプロンプト-トゥ-レスポンス形式で LLM を命令チューニングする方法。単一 GPU で最大 8B パラメータまでのモデルの微調整を可能にするために、4 ビットのモデル量子化と低ランク適応 (LoRA) を組み合わせて、パラメータ効率の高いトレーニングを実現します。 2 つの特許ベンチマーク、独自の 5 クラスの単一ラベル コーパスと 14 のカテゴリを含む公開 WIPO-Alpha マルチラベル データセットでの実験では、埋め込みベースの手法が単一ラベル分類での命令調整手法と同等かそれを超え、トレーニングのパラメータが 10 ~ 30 分の 1 であることが示されました。命令チューニングは、マルチラベル体制でのみ競争力があり、少なくとも 1 億パラメータという大幅に大きなトレーニング可能バジェットを使用する場合にのみ競争力があります。どちらの方法も、微調整されたドメイン固有の BERT モデルと非常に競争力があり、単一ラベルのタスクではそれらを上回ります。ペアのマクネマー検定とブートストラップ デルタ F1 95 パーセント信頼区間により、エンベディング ヘッド アプローチの数値的利点は方向的に一貫していることが確認されていますが、p < 0.05 では統計的に証明されていません。 AG News で単一ラベルの一般化をさらに検証し、BERT クラスのスループットを回復する蒸留レシピとともに、プーリング、バーバライザーの選択、およびキャリブレーションに関するアブレーションを報告します。分類シナリオにおける LLM 微調整を最適化するための実用的なガイドラインと将来の方向性を概説しながら、各アプローチの利点について説明します。
原文 (English)
Fine-Tuning Causal LLMs for Text Classification: Embedding-Based vs. Instruction-Based Approaches
We explore efficient strategies to fine-tune decoder-only Large Language Models (LLMs) for downstream text classification under resource constraints. Two approaches are investigated: (1) attaching a classification head to a pre-trained causal LLM and fine-tuning on the task using the LLM's final-token embedding as a sequence representation, and (2) instruction-tuning the LLM in a prompt-to-response format for classification. To enable single-GPU fine-tuning of models up to 8B parameters, we combine 4-bit model quantization with Low-Rank Adaptation (LoRA) for parameter-efficient training. Experiments on two patent benchmarks, a proprietary 5-class single-label corpus and the public WIPO-Alpha multi-label dataset with 14 categories, show that the embedding-based method matches or exceeds the instruction-tuned method on single-label classification while training 10 to 30 times fewer parameters. Instruction-tuning is competitive only in the multi-label regime, and only with substantially larger trainable budgets of at least 100M parameters. Both methods are very competitive with fine-tuned domain-specific BERT models, and on the single-label task they surpass them. Paired McNemar tests and bootstrap Delta F1 95 percent confidence intervals confirm that the numerical advantage of the embedding-head approach is consistent in direction but not statistically certified at p < 0.05. We further validate single-label generalization on AG News and report ablations on pooling, verbalizer choice, and calibration, together with a distillation recipe that recovers BERT-class throughput. We discuss the advantages of each approach while outlining practical guidelines and future directions for optimizing LLM fine-tuning in classification scenarios.
データと物理学の橋渡し: グラフ ニューラル ネットワーク ベースのハイブリッド ツイン フレームワーク
複雑な非定常物理現象のシミュレーションは、たとえば有限要素法 (FEM) を使用してシミュレーションされた詳細な数学モデルに依存します。ただし、これらのモデルは、モデル化されていない効果や仮定の単純化により、現実との相違を示すことがよくあります。このギャップを無知モデルと呼びます。純粋にデータ駆動型のアプローチでは、システムの動作全体を学習しようとしますが、空間領域および時間領域全体にわたる大量の高品質のデータが必要です。現実のシナリオでは、そのような情報が入手できないため、完全なデータ駆動型モデリングの信頼性が低くなります。この制限を克服するために、現象を最初からシミュレートするのではなく、ハイブリッド ツイン アプローチを使用して無知コンポーネントをモデル化します。物理ベースのモデルは現象の全体的な動作を近似するため、残りの無知は通常、完全な物理的応答よりも複雑さが低く、したがって、大幅に少ないデータで学習できます。ただし、重要な問題は、空間測定値がまばらであり、異なる空間構成で同じ現象を測定するデータを取得することも実際には困難であることです。私たちの貢献は、グラフ ニューラル ネットワーク (GNN) を使用して無知モデルを表すことで、この制限を克服することです。 GNN は、測定位置の数が限られている場合でも、欠落している物理の空間パターンを学習します。これにより、高密度の空間的、時間的、パラメトリックなデータを必要とせずに、データ駆動型の補正で物理ベースのモデルを強化することができます。提案された方法のパフォーマンスを示すために、さまざまなメッシュ、ジオメトリ、荷重位置にわたる非線形熱伝達問題に関して、この GNN ベースのハイブリッド ツインを評価します。結果は、GNN が無知をうまく捕捉し、空間構成全体にわたって補正を一般化して、データ要件を最小限に抑えながらシミュレーションの精度と解釈可能性を向上させていることを示しています。
原文 (English)
Bridging Data and Physics: A Graph Neural Network-Based Hybrid Twin Framework
Simulating complex unsteady physical phenomena relies on detailed mathematical models, simulated for instance by using the Finite Element Method (FEM). However, these models often exhibit discrepancies from the reality due to unmodeled effects or simplifying assumptions. We refer to this gap as the ignorance model. While purely data-driven approaches attempt to learn full system behavior, they require large amounts of high-quality data across the entire spatial and temporal domain. In real-world scenarios, such information is unavailable, making full data-driven modeling unreliable. To overcome this limitation, we model of the ignorance component using a hybrid twin approach, instead of simulating phenomena from scratch. Since physics-based models approximate the overall behavior of the phenomena, the remaining ignorance is typically lower in complexity than the full physical response, therefore, it can be learned with significantly fewer data. A key difficulty, however, is that spatial measurements are sparse, also obtaining data measuring the same phenomenon for different spatial configurations is challenging in practice. Our contribution is to overcome this limitation by using Graph Neural Networks (GNNs) to represent the ignorance model. GNNs learn the spatial pattern of the missing physics even when the number of measurement locations is limited. This allows us to enrich the physics-based model with data-driven corrections without requiring dense spatial, temporal and parametric data. To showcase the performance of the proposed method, we evaluate this GNN-based hybrid twin on nonlinear heat transfer problems across different meshes, geometries, and load positions. Results show that the GNN successfully captures the ignorance and generalizes corrections across spatial configurations, improving simulation accuracy and interpretability, while minimizing data requirements.
深層学習に向けた演算子ベースの一般化: マルチタスク学習に関する洞察
この論文では、演算子理論フレームワークによるマルチタスク学習に焦点を当て、ベクトル値ニューラル ネットワークとディープ カーネル手法の新しい一般化限界を示します。私たちの開発の鍵は、コープマンベースのアプローチと既存の技術を戦略的に組み合わせて、従来の標準ベースの限界と比較してより厳格な一般化保証を達成することにあります。 Koopman ベースの手法に関連する計算上の課題を軽減するために、ベクトル値ニューラル ネットワークに適用できるスケッチ手法を導入します。これらの手法は、一般的なリプシッツ損失の下で超過リスク限界を生み出し、堅牢な多分位回帰を含むアプリケーションのパフォーマンスを保証します。さらに、ペロン フロベニウス (PF) 演算子を利用してディープ カーネル法を強化する、新しいディープ ラーニング フレームワークであるディープ ベクトル値再現カーネル ヒルベルト空間 (vvRKHS) を提案します。私たちは、カーネル改良戦略を通じてアンダーフィッティングとオーバーフィッティングに明示的に対処する、このフレームワークに限定された新しい Rademacher 一般化を導き出します。この研究は、最近の開発まで比較的研究されていなかった領域である、深層学習アーキテクチャによるマルチタスク学習の一般化特性についての新しい洞察を提供します。
原文 (English)
Operator-Based Generalization Bound for Deep Learning: Insights on Multi-Task Learning
This paper presents novel generalization bounds for vector-valued neural networks and deep kernel methods, focusing on multi-task learning through an operator-theoretic framework. Our key development lies in strategically combining a Koopman based approach with existing techniques, achieving tighter generalization guarantees compared to traditional norm-based bounds. To mitigate computational challenges associated with Koopman-based methods, we introduce sketching techniques applicable to vector valued neural networks. These techniques yield excess risk bounds under generic Lipschitz losses, providing performance guarantees for applications including robust and multiple quantile regression. Furthermore, we propose a novel deep learning framework, deep vector-valued reproducing kernel Hilbert spaces (vvRKHS), leveraging Perron Frobenius (PF) operators to enhance deep kernel methods. We derive a new Rademacher generalization bound for this framework, explicitly addressing underfitting and overfitting through kernel refinement strategies. This work offers novel insights into the generalization properties of multitask learning with deep learning architectures, an area that has been relatively unexplored until recent developments.
マルチタスク深層学習のクープマンベースの一般化限界について
この論文では、演算子理論手法を使用して、マルチタスク ディープ ニューラル ネットワークの一般化限界を確立します。著者らは、重み行列の小さな条件数を利用し、拡張された仮説空間として調整されたソボレフ空間を導入することにより、従来のノルムベースの方法から導出される境界よりも厳しい境界を提案しています。この強化された境界は単一出力設定でも有効であり、既存の Koopman ベースの境界よりも優れたパフォーマンスを発揮します。結果として得られるフレームワークは、柔軟性やネットワーク幅からの独立性などの重要な利点を維持しており、カーネル手法のコンテキストにおけるマルチタスク深層学習のより正確な理論的理解を提供します。
原文 (English)
On the Koopman-Based Generalization Bounds for Multi-Task Deep Learning
The paper establishes generalization bounds for multitask deep neural networks using operator-theoretic techniques. The authors propose a tighter bound than those derived from conventional norm based methods by leveraging small condition numbers in the weight matrices and introducing a tailored Sobolev space as an expanded hypothesis space. This enhanced bound remains valid even in single output settings, outperforming existing Koopman based bounds. The resulting framework maintains key advantages such as flexibility and independence from network width, offering a more precise theoretical understanding of multitask deep learning in the context of kernel methods.
パターンと患者: 一人称の物語を通じたパーソナリティ障害診断に関する精神保健専門家に対する LLM の評価
精神医学的自己評価における LLM への依存が高まるにつれ、定性的な患者のナラティブを解釈する LLM の能力に疑問が生じています。この幅広い事例研究では、ポーランド語の一人称自伝的記述に基づいて、境界性 (BPD) および自己愛性 (NPD) パーソナリティ障害の評価において、最先端の LLM とメンタルヘルス専門家を直接比較しています。私たちのサンプル内で、最高のパフォーマンスを誇る Gemini Pro モデルの全体的な診断スコア (65.48%) は、人間の専門家の平均スコア (43.57%) よりも 21.91 パーセント ポイント高かった。モデルも人間の専門家もBPDの特定には優れていましたが(それぞれF1 = 83.4、F1 = 80.0)、モデルはNPDの診断が著しく過小評価され(F1 = 6.7 vs. 50.0)、価値観を伴う用語「ナルシシズム」に対して潜在的な抵抗感を示しました。定性的には、モデルはパターンと形式的なカテゴリーに焦点を当てた自信に満ちた精緻な正当化を提供したが、人間の専門家は簡潔で慎重なままであり、患者の自己感覚と時間的経験を強調した。私たちの調査結果は、LLM は複雑な一人称臨床データを解釈する能力があるかもしれないものの、その出力には依然として重大な信頼性とバイアスの問題があることを示しています。
原文 (English)
Patterns vs. Patients: Evaluating LLMs against Mental Health Professionals on Personality Disorder Diagnosis through First-Person Narratives
Growing reliance on LLMs for psychiatric self-assessment raises questions about their ability to interpret qualitative patient narratives. This depth over breadth case study directly compares state-of-the-art LLMs and mental health professionals in assessing Borderline (BPD) and Narcissistic (NPD) Personality Disorders based on Polish-language first-person autobiographical accounts. Within our sample, the overall diagnostic scores of the top-performing Gemini Pro models (65.48%) were 21.91 percentage points higher than the average scores of the human professionals (43.57%). While both models and human experts excelled at identifying BPD (F1 = 83.4 & F1 = 80.0, respectively), models severely underdiagnosed NPD (F1 = 6.7 vs. 50.0), showing a potential reluctance toward the value-laden term "narcissism." Qualitatively, models provided confident, elaborate justifications focused on patterns and formal categories, while human experts remained concise and cautious, emphasizing the patients' sense of self and temporal experience. Our findings demonstrate that while LLMs might be competent at interpreting complex first-person clinical data, their outputs still carry critical reliability and bias issues.
V-VLAPS: 価値観に基づいた視覚・言語・行動モデルの計画
視覚言語アクション (VLA) モデルは、ロボット操作のための強力なアクション事前分布を提供しますが、その反応的な動作は、分散シフトや長期的なタスク構造の下では失敗する可能性があります。最近の VLA ガイド付き計画手法では、事前トレーニングされたポリシーを使用してツリー検索をガイドすることで実行が向上していますが、ノードの選択は依然としてポリシーの事前分布と訪問数の探索に大きく依存しています。その結果、ポリシーが不適切なアクションを優先する場合、プランナーにはこのバイアスを修正するための学習値シグナルが不足します。これまでの研究では、VLA 表現がロールアウトの成功と失敗の情報をエンコードしていることが示されており、計画中の価値推定もサポートできる可能性があることが示唆されています。価値に基づくビジョン・言語・アクション計画と検索 (V-VLAPS) を導入します。これは、モンテカルロのリターンを予測するために、オフライン VLA ロールアウトでトレーニングされた軽量の価値ヘッドを使用して、VLA に基づく計画を強化します。これらの予測は、モンテカルロ ツリー検索をより価値の高い分岐に導きます。 5 つの LIBERO スイート全体で、V-VLAPS は合計でデフォルトの検索予算でバリューフリー プランニング ベースラインと一致しており、分析によると、ハード障害の多くは、予測値が弱く分離されているルート レベルのタイムアウトであることが示されています。検索バジェットが大きくなると、V-VLAPS はすべてのタスク スイートでベースラインを超えて向上し、LIBERO-Object では +6 パーセント ポイント、LIBERO-10 では +4 パーセント ポイントになりました。私たちの結果は、VLA 表現が障害予測だけでなく、価値に基づくランキングが重要なブランチに検索が到達した場合の価値に基づく計画もサポートできることを示唆しています。
原文 (English)
V-VLAPS: Value-Guided Planning for Vision-Language-Action Models
Vision-language-action (VLA) models provide strong action priors for robotic manipulation, but their reactive behavior can fail under distribution shift and long-horizon task structure. Recent VLA-guided planning methods improve execution by using pretrained policies to guide tree search, yet node selection still depends heavily on policy priors and visit-count exploration. Consequently, when the policy favors poor actions, the planner lacks a learned value signal to correct this bias. Prior work has shown that VLA representations encode rollout success and failure information, suggesting that they may also support value estimation during planning. We introduce Value-Guided Vision-Language-Action Planning and Search (V-VLAPS), which augments VLA-guided planning with a lightweight value head trained on offline VLA rollouts to predict Monte Carlo returns. These predictions guide Monte Carlo Tree Search toward higher-value branches. Across five LIBERO suites, V-VLAPS matches value-free planning baseline at the default search budget in aggregate, and analysis shows that many hard failures are root-level timeouts where predicted values are weakly separated. With a larger search budget, V-VLAPS improves over the baseline in all task suites with +6 percentage points on LIBERO-Object and +4 percentage points on LIBERO-10. Our results suggest that VLA representations can support not only failure prediction, but also value-guided planning when search reaches branches where value-based ranking matters.
R$^3$L: 言語ガイドによる探索、重要なクレジット、およびポジティブ増幅を使用した、反映してから再試行する強化学習
強化学習は、LLM 推論とエージェント機能の最近の進歩を推進していますが、現在のアプローチは探索と活用の両方に苦労しています。探査では、難しいタスクの成功率が低く、最初からロールアウトを繰り返すためコストが高くなります。悪用は粗いクレジット割り当てとトレーニングの不安定性に悩まされます。軌道レベルの報酬により、その後のエラーに対して有効なプレフィックスにペナルティが課せられ、失敗が支配的なグループが少数の肯定的なシグナルを圧倒し、最適化が建設的な方向性を欠いたままになります。この目的を達成するために、我々は、R$^3$L、言語ガイド付き探索、Pivotal Credit、および Positive Amplification を使用した、Reflect-then-Retry 強化学習を提案します。高品質の軌跡を合成するために、R$^3$L は確率的サンプリングからリフレクト・ザ・リトライによる能動合成に移行し、言語フィードバックを活用してエラーを診断し、失敗した試行を成功した試行に変換し、特定された失敗点から再開することでロールアウト・コストを削減します。エラーが診断され、局所的に特定されると、Pivotal Credit Assignment は、勾配更新から共有プレフィックスを除外し、コントラスト信号が存在する分岐サフィックスのみを更新します。困難なタスクでは失敗が支配的であり、反映してから再試行するとポリシーから外れたデータが生成され、トレーニングが不安定になる危険性があるため、Positive Amplification は成功した軌跡を重み付けして、最適化プロセスを確実にポジティブなシグナルが導くようにします。エージェントおよび推論タスクの実験では、トレーニングの安定性を維持しながら、ベースラインと比較して 5\% ~ 52\% の相対的な改善が実証されました。私たちのコードは https://github.com/shiweijiezero/R3L でリリースされています。
原文 (English)
R$^3$L: Reflect-then-Retry Reinforcement Learning with Language-Guided Exploration, Pivotal Credit, and Positive Amplification
Reinforcement learning drives recent advances in LLM reasoning and agentic capabilities, yet current approaches struggle with both exploration and exploitation. Exploration suffers from low success rates on difficult tasks and high costs of repeated rollouts from scratch. Exploitation suffers from coarse credit assignment and training instability: Trajectory-level rewards penalize valid prefixes for later errors, and failure-dominated groups overwhelm the few positive signals, leaving optimization without constructive direction. To this end, we propose R$^3$L, Reflect-then-Retry Reinforcement Learning with Language-Guided Exploration, Pivotal Credit, and Positive Amplification. To synthesize high-quality trajectories, R$^3$L shifts from stochastic sampling to active synthesis via reflect-then-retry, leveraging language feedback to diagnose errors, transform failed attempts into successful ones, and reduce rollout costs by restarting from identified failure points. With errors diagnosed and localized, Pivotal Credit Assignment updates only the diverging suffix where contrastive signals exist, excluding the shared prefix from gradient update. Since failures dominate on difficult tasks and reflect-then-retry produces off-policy data, risking training instability, Positive Amplification upweights successful trajectories to ensure positive signals guide the optimization process. Experiments on agentic and reasoning tasks demonstrate 5\% to 52\% relative improvements over baselines while maintaining training stability. Our code is released at https://github.com/shiweijiezero/R3L.
抑圧された人々の情報アクセス: 解放的な情報アクセスのためのフレイリアンのデザイン
オンライン情報アクセス (IA) プラットフォームは権威主義者の捕獲の対象となっています。私たちは、パウロ・フレイレの解放的教育学の理論のレンズを通して、プラットフォームを保護し、解放的な成果を保証する方法の問題を探求します。フレイレの理論は、公平性、説明責任、透明性という現在の支配的な枠組みと比較して、IA の社会技術的懸念を探求するための根本的に異なるレンズを提供します。私たちは、フレイレの分析における教師と生徒の関係を反映する、IA プラットフォーム開発における技術者とユーザーの二分法に異議を唱える意図を持って明確にします。フレイレの分析をIAに拡張することで、疎外されたコミュニティにとって新興テクノロジーのリスクを軽減するのは(利他的な)技術者の負担である、解放者としての技術者の枠組みを批判する。その代わりに、私たちは、コミュニティのメンバーによる解放闘争を支援するための共同選択と共同構築のためのプラットフォームを構造的に公開することを目的とするフレイリアン・デザインを提唱します。
原文 (English)
Information Access of the Oppressed: Freirean Design for Emancipatory Information Access
Online information access (IA) platforms are targets of authoritarian capture. We explore the question of how to safeguard our platforms and ensure emancipatory outcomes through the lens of Paulo Freire's theories of emancipatory pedagogy. Freire's theories provide a radically different lens for exploring IA's sociotechnical concerns relative to the current dominating frames of fairness, accountability, and transparency. We make explicit, with the intention to challenge, the technologist-user dichotomy in IA platform development that mirrors the teacher-student relation in Freire's analysis. By extending Freire's analysis to IA, we critique the technologists-as-liberator frame where it is the burden of (altruistic) technologists to mitigate the risks of emerging technologies for marginalized communities. Instead, we advocate for Freirean Design whose goal is to structurally expose the platform for co-option and co-construction by community members in aid of their emancipatory struggles.
SciHorizon-GENE: 遺伝子の知識から機能の理解までのライフサイエンス推論のための LLM のベンチマーク
大規模言語モデル (LLM) は、生物医学研究、特に知識主導型の解釈タスクにおいてますます有望であることが示されています。しかし、知識を強化した細胞アトラス解釈の中核となる要件である、遺伝子レベルの知識から機能的理解まで確実に推論する能力は、依然として十分に解明されていない。このギャップに対処するために、信頼できる生物学データベースから構築された大規模な遺伝子中心のベンチマークである SciHorizon-GENE を紹介します。このベンチマークは、19 万以上のヒト遺伝子に関する精選された知識を統合しており、細胞型の注釈、機能解釈、機構指向の分析に関連する多様な遺伝子から機能への推論シナリオをカバーする 54 万以上の質問で構成されています。 SciHorizon-GENE は、予備検査で観察された行動パターンに動機付けられ、生物学的に重要な 4 つの観点 (研究注意の感度、幻覚傾向、解答の完全性、文献の影響) に沿って LLM を評価し、生物学的解釈パイプラインにおける LLM の安全な採用を制限する失敗モードを明示的にターゲットにしています。私たちは、最先端の汎用 LLM および生物医学 LLM を幅広く体系的に評価し、遺伝子レベルの推論能力における実質的な不均一性と、忠実で完全な文献に基づいた機能解釈を生成する際の永続的な課題を明らかにしています。私たちのベンチマークは、LLM の挙動を遺伝子スケールで分析するための体系的な基盤を確立し、知識を強化した生物学的解釈に直接関連するモデルの選択と開発のための洞察を提供します。
原文 (English)
SciHorizon-GENE: Benchmarking LLM for Life Sciences Inference from Gene Knowledge to Functional Understanding
Large language models (LLMs) have shown growing promise in biomedical research, particularly for knowledge-driven interpretation tasks. However, their ability to reliably reason from gene-level knowledge to functional understanding, a core requirement for knowledge-enhanced cell atlas interpretation, remains largely underexplored. To address this gap, we introduce SciHorizon-GENE, a large-scale gene-centric benchmark constructed from authoritative biological databases. The benchmark integrates curated knowledge for over 190K human genes and comprises more than 540K questions covering diverse gene-to-function reasoning scenarios relevant to cell type annotation, functional interpretation, and mechanism-oriented analysis. Motivated by behavioral patterns observed in preliminary examinations, SciHorizon-GENE evaluates LLMs along four biologically critical perspectives: research attention sensitivity, hallucination tendency, answer completeness, and literature influence, explicitly targeting failure modes that limit the safe adoption of LLMs in biological interpretation pipelines. We systematically evaluate a wide range of state-of-the-art general-purpose and biomedical LLMs, revealing substantial heterogeneity in gene-level reasoning capabilities and persistent challenges in generating faithful, complete, and literature-grounded functional interpretations. Our benchmark establishes a systematic foundation for analyzing LLM behavior at the gene scale and offers insights for model selection and development, with direct relevance to knowledge-enhanced biological interpretation.
ZipMoE: ロスレス圧縮とキャッシュ アフィニティ スケジューリングによる効率的なオンデバイス MoE サービス
Mixture-of-Experts (MoE) アーキテクチャは大規模言語モデルの表現力を大幅に強化しますが、その法外なメモリ使用量により、特に非可逆量子化に依存せずにモデルの動作を保持する必要がある場合、リソースに制約のあるエッジ デバイスでの実際の展開が大幅に妨げられます。このペーパーでは、効率的で意味的にロスレスなオンデバイス MoE サービング システムである ZipMoE を紹介します。 ZipMoE は、エッジ デバイスのハードウェア プロパティと、証明可能なパフォーマンス保証を備えたキャッシング スケジューリングの協調設計を通じて、MoE パラメータに固有の統計的冗長性の間の相乗効果を活用します。基本的に、私たちの設計は、オンデバイス MoE 推論のパラダイムを、I/O バウンドのボトルネックから、効率的な並列化を可能にするコンピューティング中心のワークフローにシフトします。私たちは ZipMoE のプロトタイプを実装し、一般的なオープンソース MoE モデルと現実世界のワークロードを使用して、代表的なエッジ コンピューティング プラットフォームで広範な実験を実施します。私たちの評価により、ZipMoE は最先端のシステムよりも最大 $72.77\%$ の推論レイテンシー削減と最大 $6.76\times$ 高いスループットを達成していることが明らかになりました。私たちのコードは https://github.com/npnothard/ZipMoE-ICML26 で入手できます。
原文 (English)
ZipMoE: Efficient On-Device MoE Serving via Lossless Compression and Cache-Affinity Scheduling
While Mixture-of-Experts (MoE) architectures substantially bolster the expressive power of large-language models, their prohibitive memory footprint severely impedes the practical deployment on resource-constrained edge devices, especially when model behavior must be preserved without relying on lossy quantization. In this paper, we present ZipMoE, an efficient and semantically lossless on-device MoE serving system. ZipMoE exploits the synergy between the hardware properties of edge devices and the statistical redundancy inherent to MoE parameters via a caching-scheduling co-design with provable performance guarantee. Fundamentally, our design shifts the paradigm of on-device MoE inference from an I/O-bound bottleneck to a compute-centric workflow that enables efficient parallelization. We implement a prototype of ZipMoE and conduct extensive experiments on representative edge computing platforms using popular open-source MoE models and real-world workloads. Our evaluation reveals that ZipMoE achieves up to $72.77\%$ inference latency reduction and up to $6.76\times$ higher throughput than the state-of-the-art systems.Our code is available at: https://github.com/npnothard/ZipMoE-ICML26.
モデルベース強化学習の探索の意外な難しさ
この論文では、モデルベースの強化学習 (RL) における検索について調査します。従来の通念では、長期的な予測と複合誤差がモデルベースの RL の主な障害であると考えられています。私たちはこの見解に異議を唱え、検索が学習されたポリシーのドロップイン代替品ではないことを示します。驚くべきことに、モデルの精度が高い場合でも、検索によってパフォーマンスが損なわれる可能性があることがわかりました。代わりに、モデルや値関数の精度を向上させることよりも、過大評価バイアスを軽減することの方が重要であることを示します。この洞察に基づいて、値関数のアンサンブルに対して最小値を取得すると、このバイアスに効果的に対処し、効果的な検索が可能になり、複数の一般的なベンチマーク ドメインにわたって最先端のパフォーマンスが達成されることがわかりました。
原文 (English)
The Surprising Difficulty of Search in Model-Based Reinforcement Learning
This paper investigates search in model-based reinforcement learning (RL). Conventional wisdom holds that long-term predictions and compounding errors are the primary obstacles for model-based RL. We challenge this view, showing that search is not a drop-in replacement for a learned policy. Surprisingly, we find that search can harm performance even when the model is highly accurate. Instead, we show that mitigating overestimation bias matters more than improving model or value function accuracy. Building on this insight, we identify that taking the minimum over an ensemble of value functions effectively addresses this bias and enables effective search, achieving state-of-the-art performance across multiple popular benchmark domains.
CoFrGeNet: 言語生成のための連分数アーキテクチャ
トランスフォーマーはおそらく、言語生成に推奨されるアーキテクチャです。この論文では、連分数からインスピレーションを得て、生成モデリング用の新しい関数クラスを紹介します。この関数クラスを実装するアーキテクチャ ファミリは、CoFrGeNets (Continued Fraction Generative Networks) と呼ばれます。この関数クラスに基づいて、必要なパラメータを大幅に減らしながら、Transformer ブロックのマルチヘッド アテンションおよびフィードフォワード ネットワークを置き換えることができる新しいアーキテクチャ コンポーネントを設計します。標準の PyTorch ベースの勾配を使用するよりも正確かつ効率的に、提案されたコンポーネントを最適化するためのカスタム勾配定式化を導き出します。当社のコンポーネントは、Transformer ベースのモデルにすでに導入されているトレーニングまたは推論手順をほとんど変更する必要のないプラグインの代替品であるため、当社のアプローチを大規模な産業ワークフローに簡単に組み込むことができます。私たちは 2 つの非常に異なるトランスフォーマー アーキテクチャ GPT2-xl (1.5B) と Llama3 (3.2B) で実験を行います。前者は OpenWebText と GneissWeb で事前トレーニングし、後者は 9 つの異なるデータセットで構成されるドッキング データ ミックスで事前トレーニングします。結果は、$\frac{2}{3}$ ~ $\frac{1}{2}$ パラメータと短い事前トレーニング時間により、モデルの下流の分類、Q\&A、推論、およびテキスト理解タスクのパフォーマンスが競争力があり、場合によっては元のモデルよりも優れていることを示しています。将来的にはハードウェアに合わせてカスタマイズされた実装が、アーキテクチャの真の可能性をさらに引き出すと信じています。
原文 (English)
CoFrGeNet: Continued Fraction Architectures for Language Generation
Transformers are arguably the preferred architecture for language generation. In this paper, inspired by continued fractions, we introduce a new function class for generative modeling. The architecture family implementing this function class is named CoFrGeNets - Continued Fraction Generative Networks. We design novel architectural components based on this function class that can replace Multi-head Attention and Feed-Forward Networks in Transformer blocks while requiring much fewer parameters. We derive custom gradient formulations to optimize the proposed components more accurately and efficiently than using standard PyTorch-based gradients. Our components are a plug-in replacement requiring little change in training or inference procedures that have already been put in place for Transformer-based models thus making our approach easy to incorporate in large industrial workflows. We experiment on two very different transformer architectures GPT2-xl (1.5B) and Llama3 (3.2B), where the former we pre-train on OpenWebText and GneissWeb, while the latter we pre-train on the docling data mix which consists of nine different datasets. Results show that the performance on downstream classification, Q\& A, reasoning and text understanding tasks of our models is competitive and sometimes even superior to the original models with $\frac{2}{3}$ to $\frac{1}{2}$ the parameters and shorter pre-training time. We believe that future implementations customized to hardware will further bring out the true potential of our architectures.
Grading Attack: LLM ベースの教育評価エージェントのセキュリティ脆弱性の暴露
大規模言語モデル (LLM) は、現実の教育環境で自動短答採点 (ASAG) のための教育エージェントとして導入されることが増えており、評価の効率と拡張性が大幅に向上しています。ただし、これらのグレーディング エージェントが「実際に」動作する場合、敵対的な操作に対する脆弱性により、エージェントのセキュリティと信頼性に関して重大な懸念が生じます。このペーパーでは、LLM ベースの教育採点エージェントのセキュリティ脆弱性を体系的に評価する、きめ細かい敵対的攻撃フレームワークである Grading Attack を紹介します。具体的には、高いステルス性を維持しながらエージェントのグレーディング結果を操作するトークンレベルおよびプロンプトレベルの攻撃戦略を設計し、現在のエージェント展開の根本的な弱点を明らかにします。複数のデータセットでの実験では、プロンプトレベルの攻撃が高い成功率を達成し、トークンレベルの攻撃が優れたステルス機能を示すことで、両方の攻撃戦略が効果的にグレーディングエージェントを侵害することが実証されました。私たちの調査結果では、現在の LLM ベースの教育エージェントには敵対的な攻撃に対する堅牢な防御が欠けていることが明らかになり、重要な教育アプリケーション向けに安全で信頼できるエージェント システムを開発する緊急の必要性が強調されています。
原文 (English)
GradingAttack: Exposing Security Vulnerabilities in LLM Based Educational Grading Agents
Large language models (LLMs) are increasingly deployed as educational agents for automatic short answer grading (ASAG) in real-world educational environments, significantly boosting assessment efficiency and scalability. However, when these grading agents operate ``in the wild'', their vulnerability to adversarial manipulation raises critical concerns about agent security and trustworthiness. In this paper, we introduce GradingAttack, a fine-grained adversarial attack framework that systematically evaluates the security vulnerabilities of LLM based educational grading agents. Specifically, we design token-level and prompt-level attack strategies that manipulate agent grading outcomes while maintaining high stealth, exposing fundamental weaknesses in current agent deployments. Experiments on multiple datasets demonstrate that both attack strategies effectively compromise grading agents, with prompt-level attacks achieving higher success rates and token-level attacks exhibiting superior stealth capability. Our findings reveal that current LLM based educational agents lack robust defenses against adversarial attacks, underscoring the urgent need for developing secure and trustworthy agent systems for critical educational applications.
TABX: マルチエージェント強化学習のための高スループットのサンドボックス バトル シミュレーター
環境の設計は、協調的なマルチエージェント強化学習 (MARL) アルゴリズムの開発と評価を形作る上で重要な役割を果たします。既存のベンチマークは重大な課題を浮き彫りにしていますが、カスタム評価シナリオの設計に必要なモジュール性が欠けていることがよくあります。再構成可能なマルチエージェント タスク用に設計された高スループットのサンドボックスである Totally Accelerated Battle Simulator in JAX (TABX) を紹介します。 TABX は、環境パラメータに対するきめ細かい制御を提供し、さまざまなタスクの複雑さにわたる緊急エージェントの動作とアルゴリズムのトレードオフを系統的に調査できるようにします。 TABX は、GPU 上でハードウェア アクセラレーションによる実行に JAX を活用することで、大規模な並列化を可能にし、計算オーバーヘッドを大幅に削減します。 TABX は、高速かつ拡張可能で簡単にカスタマイズできるフレームワークを提供することで、複雑な構造ドメインにおける MARL エージェントの研究を容易にし、将来の研究のための拡張可能な基盤として機能します。コードは https://github.com/ku-dmlab/TABX から入手できます。
原文 (English)
TABX: A High-Throughput Sandbox Battle Simulator for Multi-Agent Reinforcement Learning
The design of environments plays a critical role in shaping the development and evaluation of cooperative multi-agent reinforcement learning (MARL) algorithms. While existing benchmarks highlight critical challenges, they often lack the modularity required to design custom evaluation scenarios. We introduce the Totally Accelerated Battle Simulator in JAX (TABX), a high-throughput sandbox designed for reconfigurable multi-agent tasks. TABX provides granular control over environmental parameters, permitting a systematic investigation into emergent agent behaviors and algorithmic trade-offs across a diverse spectrum of task complexities. Leveraging JAX for hardware-accelerated execution on GPUs, TABX enables massive parallelization and significantly reduces computational overhead. By providing a fast, extensible, and easily customized framework, TABX facilitates the study of MARL agents in complex structured domains and serves as a scalable foundation for future research. Our code is available at: https://github.com/ku-dmlab/TABX.
PipeMFL-240K: パイプラインの磁束漏れイメージングにおける物体検出のための大規模データセットおよびベンチマーク
パイプラインの完全性は産業安全と環境保護にとって重要であり、磁束漏れ (MFL) 検出は主要な非破壊検査技術です。 MFL解釈を自動化するためのディープラーニングの期待にもかかわらず、信頼性の高いモデルへの進歩は、大規模な公開データセットとベンチマークの欠如によって制約されており、公正な比較と再現可能な評価が困難になっています。 \textbf{PipeMFL-240K} は、パイプライン MFL 擬似カラー画像における複雑なオブジェクト検出のための、細心の注意を払って注釈が付けられた大規模なデータセットおよびベンチマークです。 PipeMFL-240K は、現実世界の検査の複雑さを反映しており、次のようないくつかの特有の課題を提起しています。(i) \textbf{12} カテゴリにわたる極めて長い裾野の分布、(ii) 多くの場合、数ピクセルのみで構成されている小さなオブジェクトの蔓延、および (iii) 大幅なクラス内変動。データセットには、約 \textbf{1,530} km にわたる 12 のパイプラインから収集された \textbf{249,320} 個の画像と \textbf{200,020} 個の高品質境界ボックス アノテーションが含まれています。ベースラインを確立するために、最先端の物体検出器を使用して広範な実験が行われます。結果は、最新の検出器が依然として MFL データの固有の特性に苦戦していることを示しており、改善の余地がかなりあることが強調されていますが、PipeMFL-240K は将来の研究を推進するための信頼性が高く、挑戦的なテストベッドを提供します。これは、パイプライン MFL 検査のこの規模と範囲における最初の公開データセットおよび最初のベンチマークとして、効率的なパイプライン診断とメンテナンス計画のための重要な基盤を提供し、MFL ベースのパイプライン完全性評価におけるアルゴリズムの革新と再現可能な研究を加速することが期待されています。
原文 (English)
PipeMFL-240K: A Large-scale Dataset and Benchmark for Object Detection in Pipeline Magnetic Flux Leakage Imaging
Pipeline integrity is critical to industrial safety and environmental protection, with Magnetic Flux Leakage (MFL) detection being a primary non-destructive testing technology. Despite the promise of deep learning for automating MFL interpretation, progress toward reliable models has been constrained by the absence of a large-scale public dataset and benchmark, making fair comparison and reproducible evaluation difficult. We introduce \textbf{PipeMFL-240K}, a large-scale, meticulously annotated dataset and benchmark for complex object detection in pipeline MFL pseudo-color images. PipeMFL-240K reflects real-world inspection complexity and poses several unique challenges: (i) an extremely long-tailed distribution over \textbf{12} categories, (ii) a high prevalence of tiny objects that often comprise only a handful of pixels and (iii) substantial intra-class variability. The dataset contains \textbf{249,320} images and \textbf{200,020} high-quality bounding-box annotations, collected from 12 pipelines spanning approximately \textbf{1,530} km. Extensive experiments are conducted with state-of-the-art object detectors to establish baselines. Results show that modern detectors still struggle with the intrinsic properties of MFL data, highlighting considerable headroom for improvement, while PipeMFL-240K provides a reliable and challenging testbed to drive future research. As the first public dataset and the first benchmark of this scale and scope for pipeline MFL inspection, it provides a critical foundation for efficient pipeline diagnostics as well as maintenance planning and is expected to accelerate algorithmic innovation and reproducible research in MFL-based pipeline integrity assessment.
ArcMark: 最適なトランスポートによる歪みのないマルチバイト LLM ウォーターマーク
ウォーターマークは、大規模言語モデル (LLM) の責任ある使用を促進するための重要なツールです。既存の透かしは、LLM で生成されたテキストにフラグを付けるか (ゼロビット透かし)、より複雑なメッセージをエンコードする (マルチビット透かし) 信号を、生成されたトークンに挿入します。最近のアプローチの多くは、平均的な次トークン予測を乱すことなくテキストに複数のビットを挿入しますが、トークンごとに 1 ビットをエンコードするなど、ゼロビット設定からの設計原則を大幅に拡張しています。対照的に、テキストに複数のバイトを埋め込むことができるウォーターマーカーは、プロンプトを送信したユーザーの ID、使用された正確なモデルのバージョン、さらにはプロンプト自体などの情報を埋め込むことにより、潜在的なアプリケーションの可能性を大幅に増やすことができます。私たちは、ArcMark を導入することでこの問題に対処します。ArcMark は、コーディングと情報理論の原理に基づいた新しい透かし構造で、基盤となる LLM の次のトークンの分布を歪めることなく、わずか数百個のトークンに複数バイトの情報を確実に埋め込むことができます。歪みのない透かし問題をチャネル符号化問題として定式化し、歪みのない方法で LLM 出力に情報を埋め込む基本的な制限を確立する情報理論的なチャネル容量を導出することで、ArcMark を導き出します。この容量の定式化は、ArcMark の設計に影響を与えます。実際、ArcMark は、LLM テキストのサブセットを変更する攻撃に直面した場合も含め、再構成精度の点で、競合するマルチビット歪みのない透かしよりも優れています。 ArcMark の出力は、複雑さおよびダウンストリーム タスクの品質の点で、透かしの入っていないテキストと区別できないことも示されています。
原文 (English)
ArcMark: Distortion-Free Multi-Byte LLM Watermark via Optimal Transport
Watermarking is an important tool for promoting the responsible use of large language models (LLMs). Existing watermarks insert a signal into generated tokens that either flags LLM-generated text (zero-bit watermarking) or encodes more complex messages (multi-bit watermarking). Though a number of recent approaches insert multiple bits into text without perturbing average next-token predictions, they largely extend design principles from the zero-bit setting, such as encoding a single bit per token. In contrast, a watermarker capable of embedding multiple bytes into the text would dramatically increase the potential applications, by embedding information such as the ID of the user who submitted the prompt, the precise model version that was used, or even the prompt itself. We address this problem by introducing ArcMark: a new watermark construction based on coding and information-theoretic principles that is capable of reliably embedding multiple bytes of information into just a few hundred tokens, without any distortion of the underlying LLM next-token distribution. We derive ArcMark by formulating the distortion-free watermarking problem as a channel coding problem, and deriving an information-theoretic channel capacity that establishes the fundamental limit of embedding information in LLM output in a distortion-free manner. This capacity formulation informs the design of ArcMark. In practice, ArcMark outperforms competing multi-bit distortion-free watermarks in terms of reconstruction accuracy, including in the face of attacks that alter a subset of the LLM text. ArcMark output is also shown to be indistinguishable from unwatermarked text in terms of perplexity, and in downstream task quality.
予測符号化ネットワークの無限の幅と深さの制限について
予測コーディング (PC) は、重みを更新する前にネットワーク アクティビティに関するエネルギー関数を最小化する、標準的な逆伝播 (BP) に代わる生物学的に妥当な代替手段です。最近の研究では、BP にヒントを得た再パラメータ化を活用することで、ディープ PC ネットワーク (PCN) のトレーニングの安定性が向上しました。ただし、これらの方法の完全なスケーラビリティと理論的根拠は依然として不明です。このギャップに対処するために、PCN の無限の幅と深さの制限を研究します。線形残差ネットワークの場合、PC の幅と深さの安定した特徴学習パラメーター化のセットが BP の場合とまったく同じであることを示します。さらに、これらのパラメータ化のいずれかの下では、モデルの幅が深さよりもはるかに大きい場合、平衡アクティビティの PC エネルギーは二次 BP 損失に収束し、PC が BP と同じ勾配を計算することになります。実験では、アクティビティの平衡に達している限り、畳み込みネットワークや変換器を含む非線形モデルでは BP への収束が維持されることが示されています。全体として、この研究は PC でスケーラブルなパラメータ化のタイプを制限する一方で、脳のような深いネットワークよりもはるかに広いネットワークでローカル更新のみを使用して BP を効果的に実装できる方法を示しています。
原文 (English)
On the Infinite Width and Depth Limits of Predictive Coding Networks
Predictive coding (PC) is a biologically plausible alternative to standard backpropagation (BP) that minimises an energy function with respect to network activities before updating weights. Recent work has improved the training stability of deep PC networks (PCNs) by leveraging some BP-inspired reparameterisations. However, the full scalability and theoretical basis of these methods remain unclear. To address this gap, we study the infinite width and depth limits of PCNs. For linear residual networks, we show that the set of width- and depth-stable feature-learning parameterisations for PC is exactly the same as for BP. Moreover, under any of these parameterisations, the PC energy with equilibrated activities converges to the quadratic BP loss when the model width is much larger than the depth, resulting in PC computing the same gradients as BP. Experiments show that, as long as an activity equilibrium is reached, convergence to BP holds for nonlinear models including convolutional networks and transformers. Overall, this work constrains the types of parameterisation that are scalable with PC, while showing a way in which BP can be effectively implemented with only local updates in much wider than deep networks like the brain.
VideoTemp-o3: ビデオを使用したエージェント的思考における時間的グラウンディングとビデオ理解を調和させる
長時間のビデオを理解する場合、従来の均一なフレーム サンプリングでは重要な視覚的証拠を捕捉できないことが多く、パフォーマンスの低下と幻覚の増加につながります。これに対処するために、最近のビデオを使用したエージェント的思考パラダイムが登場し、モデルが関連するビデオ セグメントをアクティブに識別し、それらのクリップ内で高密度のサンプリングを実行して、回答を生成するローカライズ クリップ回答パイプラインを採用しています。しかし、既存の方法は依然として非効率的であり、ローカリゼーションが弱いという問題があり、厳格なワークフローに固執しています。これらの問題を解決するために、ビデオグラウンディングと質問応答を共同でモデル化する、ビデオを使用した統合エージェント思考フレームワークである VideoTemp-o3 を提案します。 VideoTemp-o3 は強力なローカリゼーション機能を備え、オンデマンドのクリッピングをサポートし、不正確なローカリゼーションを改善できます。具体的には、監視付き微調整段階で、ノイズを防ぎながら探索を促進する統合されたマスキング メカニズムを設計します。強化学習については、報酬ハッキングを軽減するために専用の報酬を導入します。さらに、データの観点から、さまざまなビデオ期間にわたる体系的な評価のための対応するベンチマークとともに、高品質の長時間ビデオに基づいた QA データを構築するための効果的なパイプラインを開発します。実験結果は、私たちの方法が長時間のビデオの理解とグラウンディングの両方において顕著なパフォーマンスを達成することを示しています。
原文 (English)
VideoTemp-o3: Harmonizing Temporal Grounding and Video Understanding in Agentic Thinking-with-Videos
In long-video understanding, conventional uniform frame sampling often fails to capture key visual evidence, leading to degraded performance and increased hallucinations. To address this, recent agentic thinking-with-videos paradigms have emerged, adopting a localize-clip-answer pipeline in which the model actively identifies relevant video segments, performs dense sampling within those clips, and then produces answers. However, existing methods remain inefficient, suffer from weak localization, and adhere to rigid workflows. To solve these issues, we propose VideoTemp-o3, a unified agentic thinking-with-videos framework that jointly models video grounding and question answering. VideoTemp-o3 exhibits strong localization capability, supports on-demand clipping, and can refine inaccurate localizations. Specifically, in the supervised fine-tuning stage, we design a unified masking mechanism that encourages exploration while preventing noise. For reinforcement learning, we introduce dedicated rewards to mitigate reward hacking. Besides, from the data perspective, we develop an effective pipeline to construct high-quality long video grounded QA data, along with a corresponding benchmark for systematic evaluation across various video durations. Experimental results demonstrate that our method achieves remarkable performance on both long video understanding and grounding.
VLM ベースの報酬を超えて: 拡散ネイティブの潜在的報酬モデリング
拡散モデルとフローマッチングモデルの優先最適化は、識別的に堅牢で計算効率の高い報酬関数に依存します。視覚言語モデル (VLM) が主要な報酬プロバイダーとして台頭し、豊富なマルチモーダル事前分布を活用して調整をガイドします。ただし、計算コストとメモリ コストが膨大になる可能性があり、ピクセル空間報酬を通じて潜在拡散ジェネレーターを最適化すると、ドメインの不一致が生じて調整が複雑になります。この論文では、ノイズの多い拡散状態に対して直接選好学習を定式化する拡散ネイティブの潜在報酬モデルである DiNa-LRM を提案します。私たちの方法では、拡散ノイズに依存する不確実性を伴うノイズ校正されたサーストン尤度を導入します。 DiNa-LRM は、タイムステップ条件付き報酬ヘッドを備えた事前トレーニング済み潜在拡散バックボーンを活用し、推論時間ノイズ アンサンブルをサポートし、テスト時間のスケーリングと堅牢な報酬のための拡散ネイティブ メカニズムを提供します。画像アライメント ベンチマーク全体で、DiNa-LRM は既存の拡散ベースの報酬ベースラインを大幅に上回り、数分の 1 の計算コストで最先端の VLM に匹敵するパフォーマンスを達成します。選好の最適化では、DiNa-LRM が選好の最適化ダイナミクスを改善し、より高速でリソース効率の高いモデルの調整が可能になることを実証します。
原文 (English)
Beyond VLM-Based Rewards: Diffusion-Native Latent Reward Modeling
Preference optimization for diffusion and flow-matching models relies on reward functions that are both discriminatively robust and computationally efficient. Vision-Language Models (VLMs) have emerged as the primary reward provider, leveraging their rich multimodal priors to guide alignment. However, their computation and memory cost can be substantial, and optimizing a latent diffusion generator through a pixel-space reward introduces a domain mismatch that complicates alignment. In this paper, we propose DiNa-LRM, a diffusion-native latent reward model that formulates preference learning directly on noisy diffusion states. Our method introduces a noise-calibrated Thurstone likelihood with diffusion-noise-dependent uncertainty. DiNa-LRM leverages a pretrained latent diffusion backbone with a timestep-conditioned reward head, and supports inference-time noise ensembling, providing a diffusion-native mechanism for test-time scaling and robust rewarding. Across image alignment benchmarks, DiNa-LRM substantially outperforms existing diffusion-based reward baselines and achieves performance competitive with state-of-the-art VLMs at a fraction of the computational cost. In preference optimization, we demonstrate that DiNa-LRM improves preference optimization dynamics, enabling faster and more resource-efficient model alignment.
VI-CuRL: 信頼に基づく分散削減による検証者に依存しない RL 推論の安定化
検証可能な報酬を伴う強化学習 (RLVR) は、大規模言語モデル (LLM) 推論を強化するための主要なパラダイムとして台頭していますが、外部検証器への依存により拡張性が制限されます。最近の調査結果では、RLVR は主に潜在的な機能を引き出すことによって機能し、検証器を使用しないアルゴリズムの開発を動機付けることが示唆されています。ただし、そのような設定では、グループ相対ポリシー最適化のような標準的な手法は、学習の崩壊につながることが多い破壊的な勾配分散という重大な課題に直面します。この問題に対処するために、検証者に依存しないカリキュラム強化学習 (VI-CuRL) を導入します。これは、モデルの本質的な信頼性を活用して、外部検証者から独立したカリキュラムを構築するフレームワークです。 VI-CuRL は、信頼性の高いサンプルを優先することにより、バイアスと分散のトレードオフを効果的に管理し、特にアクションと問題の分散の削減を目指します。私たちは厳密な理論分析を提供し、推定が漸近的不偏性を保証することを証明します。経験的に、VI-CuRL は安定性を促進し、検証者あり/なしの数学および一般推論ベンチマーク全体で、検証者依存/独立したベースラインよりも一貫して優れたパフォーマンスを示します。
原文 (English)
VI-CuRL: Stabilizing Verifier-Independent RL Reasoning via Confidence-Guided Variance Reduction
Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a dominant paradigm for enhancing Large Language Models (LLMs) reasoning, yet its reliance on external verifiers limits its scalability. Recent findings suggest that RLVR primarily functions by eliciting latent capabilities, motivating the development of verifier-free algorithms. However, in such settings, standard methods like Group Relative Policy Optimization face a critical challenge: destructive gradient variance that often leads to training collapse. To address this issue, we introduce Verifier-Independent Curriculum Reinforcement Learning (VI-CuRL), a framework that leverages the model's intrinsic confidence to construct a curriculum independent from external verifiers. By prioritizing high-confidence samples, VI-CuRL effectively manages the bias-variance trade-off, specifically targeting the reduction of action and problem variance. We provide a rigorous theoretical analysis, proving that our estimator guarantees asymptotic unbiasedness. Empirically, VI-CuRL promotes stability and consistently outperforms verifier-dependent/independent baselines across math and general reasoning benchmarks with/without verifiers.
生成 AI による 9-1-1 電話応対トレーニングの強化: 経験と教訓
緊急通報担当者は公共安全対応における最初の運用リンクを形成しており、継続的な訓練危機に直面しながら年間 2 億 4,000 万件を超える通報に対応しています。多くのセンターで人員不足が 25% を超えており、新入社員 1 人を準備するのに最大 720 時間のマンツーマン指導が必要となり、経験豊富な職員が現役から外される可能性があります。従来のトレーニング アプローチは、これらの制約の下で拡張することが困難であり、対象範囲とフィードバックの適時性の両方が制限されます。メトロ ナッシュビル緊急通信局 (MNDEC) と協力して、現実世界の制約の下で GenAI を利用した電話応対トレーニング システムを設計、開発、展開しました。導入は 6 か月にわたって、最初のパイロットから 1,120 のトレーニング セッションを通じて 190 人の運用ユーザーまで拡大され、管理された評価や純粋にシミュレートされた評価ではほとんど見えない、システムの提供、厳格さ、回復力、人的要因に関する体系的な課題が明らかになりました。 98,429 件のユーザー インタラクション、組織プロセス、利害関係者の関与パターンを記録した導入ログを分析することで、具体的な設計とガバナンスの実践と結びついた 4 つの重要な教訓を抽出します。これらのレッスンは、実際的な制約が人間中心の設計を根本的に形作る安全性が重要な公共部門の環境で AI 主導のトレーニング システムを提供しようとしている研究者や実践者に根拠のあるガイダンスを提供します。
原文 (English)
Empowering 9-1-1 Calltaking Training with Generative AI: Experiences and Lessons Learned
Emergency call-takers form the first operational link in public safety response, handling over 240 million calls annually while facing a sustained training crisis: staffing shortages exceed 25\% in many centers, and preparing a single new hire can require up to 720 hours of one-on-one instruction that removes experienced personnel from active duty. Traditional training approaches struggle to scale under these constraints, limiting both coverage and feedback timeliness. In partnership with Metro Nashville Department of Emergency Communications (MNDEC), we designed, developed, and deployed a GenAI-powered call-taking training system under real-world constraints. Over six months, deployment scaled from initial pilot to 190 operational users across 1,120 training sessions, exposing systematic challenges around system delivery, rigor, resilience, and human factors that remain largely invisible in controlled or purely simulated evaluations. By analyzing deployment logs capturing 98,429 user interactions, organizational processes, and stakeholder engagement patterns, we distill four key lessons, each coupled with concrete design and governance practices. These lessons provide grounded guidance for researchers and practitioners seeking to deliver AI-driven training systems in safety-critical public sector environments where practical constraints fundamentally shape human-centric design.
低分子学習のための共折り畳みモデル表現の系統的評価
クロスモーダルまたはリレーショナル監視の恩恵を受けることが多い視覚モデルや言語モデルとは異なり、低分子基礎モデルは通常、スタンドアロンの分子データで事前トレーニングされます。タンパク質-リガンドの共フォールディングは、モデルを原子レベルのリガンド-タンパク質相互作用にさらすことにより、そのような監視の分子類似物を提供し、共フォールディングモデルが強力な小分子表現を生み出すことができるかどうかという疑問を引き起こします。私たちは、最新の共折り畳みモデルである Voltz2 を使用して、その原子レベルのリガンド表現をスタンドアロンの小分子タスクに移すことで、この疑問を研究します。系統的なプローブと蒸留を通じて、Boltz2 表現が ADMET ベンチマークの既存のモデルと同等またはそれを上回り、分子生成モデリングを加速し、構造誘導リガンド最適化におけるサンプル効率を向上させることを示します。さらに、Boltz2 表現は、3D 配座異性体、バイオアッセイ標識、量子化学的特性など、従来のスタンドアロン分子監視から学習された表現を補完するものであることもわかりました。最後に、表現アライメントを強化学習に拡張し、高密度表現レベルの監視が分子発見におけるスカラー報酬を補完できることを示します。これらの結果は、タンパク質とリガンドの共フォールディングが小分子表現学習のための有望な事前学習パラダイムであることを特定し、Boltz2 を強力な既製の分子基礎モデルとして位置づけることになります。
原文 (English)
A Systematic Evaluation of Co-folding Model Representations for Small-Molecule Learning
Small-molecule foundation models are typically pretrained on standalone molecular data, unlike vision and language models that often benefit from cross-modal or relational supervision. Protein-ligand co-folding provides a molecular analogue of such supervision by exposing models to atom-level ligand-protein interactions, raising the question of whether co-folding models can yield strong small-molecule representations. We study this question using Boltz2, a modern co-folding model, by transferring its atom-level ligand representations to standalone small-molecule tasks. Through systematic probing and distillation, we show that Boltz2 representations match or outperform existing models on the ADMET benchmark, accelerate molecular generative modeling, and improve sample efficiency in structure-guided ligand optimization. We further find that Boltz2 representations are complementary to those learned from conventional standalone molecular supervision, including 3D conformers, bioassay labels, and quantum-chemical properties. Finally, we extend representation alignment to reinforcement learning, showing that dense representation-level supervision can complement scalar rewards in molecular discovery. These results identify protein-ligand co-folding as a promising pretraining paradigm for small-molecule representation learning and position Boltz2 as a strong, off-the-shelf molecular foundation model.
BarrierSteer: バリア ステアリングの学習による LLM の安全性
大規模言語モデル (LLM) はさまざまなタスクにわたって強力なパフォーマンスを発揮しますが、敵対的な攻撃や安全でないコンテンツの生成に対する脆弱性が、特にリスクの高い設定において、導入に対する大きな障害となっています。この課題に対処するには、実際に効果的であり、理論的に根拠のある安全機構が必要です。この論文では、学習された非線形安全制約をモデルの潜在表現空間に直接埋め込むことで応答の安全性を向上させる、新しい推論時間フレームワークである BarrierSteer を紹介します。 BarrierSteer は、隠れ状態の安全性分類子をコントロール バリア関数 (CBF) として扱い、生成中に安全でない潜在軌道の制約に基づくステアリングを可能にします。 BarrierSteer は、基礎となる LLM パラメーターを変更せずに効率的な制約のマージを通じて複数の安全制約を構成することで、モデルの有用性を維持します。我々は、潜在空間に CBF を適用すると、意図した安全特性を捕捉する学習されたバリアを条件とした保証付きで、学習された安全制約に関するステアリングのための原理的かつモジュール式で計算効率の高いアプローチが得られることを示す理論的結果を提供します。複数のモデル ファミリとデータセットにわたる広範な実験結果は、BarrierSteer が敵対的攻撃の成功率と安全でない世代を大幅に削減し、既存の手法を上回るパフォーマンスを示していることを示しています。コードは \href{https://github.com/thanhquangtran/BarrierSteer}{GitHub リポジトリ} で入手できます。
原文 (English)
BarrierSteer: LLM Safety via Learning Barrier Steering
Despite the strong performance of large language models (LLMs) across diverse tasks, their susceptibility to adversarial attacks and unsafe content generation remains a significant obstacle to deployment, particularly in high-stakes settings. Addressing this challenge requires safety mechanisms that are both practically effective and theoretically grounded. In this paper, we introduce BarrierSteer, a novel inference-time framework that improves response safety by embedding learned nonlinear safety constraints directly into the model's latent representation space. BarrierSteer treats hidden-state safety classifiers as Control Barrier Functions (CBFs), enabling constraint-guided steering of unsafe latent trajectories during generation. By composing multiple safety constraints through efficient constraint merging without modifying the underlying LLM parameters, BarrierSteer preserves model utility. We provide theoretical results showing that applying CBFs in the latent space yields a principled, modular, and computationally efficient approach for steering with respect to learned safety constraints, with guarantees conditional on the learned barriers capturing the intended safety property. Our extensive experimental results across multiple model families and datasets demonstrate that BarrierSteer substantially reduces adversarial attack success rates and unsafe generations, outperforming the existing method. The code is available in our \href{https://github.com/thanhquangtran/BarrierSteer}{GitHub repository}.
マルチモーダル クリスタル フロー: 統合クリスタル モデリングのための Any-to-Any モダリティ生成
結晶モデリングは、結晶構造予測 (CSP) やデノボ生成 (DNG) を含む、一連の条件付きおよび無条件生成タスクにまたがります。最近の深層生成モデルは有望なパフォーマンスを示していますが、依然として主にタスク固有であり、タスク間で結晶表現を共有する統一されたフレームワークが欠けています。この制限に対処するために、原子タイプと結晶構造の独立した時間変数を介して、複数の結晶生成タスクを個別の推論軌道として実現する統合マルチモーダル フロー モデルであるマルチモーダル クリスタル フロー (MCFlow) を提案します。標準の変圧器モデルでマルチモーダルなフローを可能にするために、階層的置換拡張による組成と対称性を意識した原子順序付けを導入し、明示的な構造テンプレートを使用せずに組成および結晶学的事前分布を注入します。 MP-20 および MPTS-52 ベンチマークの実験では、単一の MCFlow モデルが、CSP、DNG、および構造条件付き原子タイプ生成全体にわたってタスク固有のベースラインと競合することが示されています。
原文 (English)
Multimodal Crystal Flow: Any-to-Any Modality Generation for Unified Crystal Modeling
Crystal modeling spans a family of conditional and unconditional generation tasks, including crystal structure prediction (CSP) and de novo generation (DNG). While recent deep generative models have shown promising performance, they remain largely task-specific, lacking a unified framework that shares crystal representations across tasks. To address this limitation, we propose Multimodal Crystal Flow (MCFlow), a unified multimodal flow model that realizes multiple crystal generation tasks as distinct inference trajectories via independent time variables for atom types and crystal structures. To enable multimodal flow in a standard transformer model, we introduce a composition- and symmetry-aware atom ordering with hierarchical permutation augmentation, injecting compositional and crystallographic priors without explicit structural templates. Experiments on the MP-20 and MPTS-52 benchmarks show that a single MCFlow model is competitive with task-specific baselines across CSP, DNG, and structure-conditioned atom type generation.
HTMuon: ヘビーテールスペクトル補正によるミュオンの改善
Muon は最近、LLM トレーニングで有望な結果を示しました。この研究では、ミュオンをさらに改良する方法を研究します。私たちは、Muon の直交化更新ルールがヘビーテール重みスペクトルの出現を抑制し、ノイズが支配的な方向に沿ったトレーニングを過度に強調すると主張します。ヘビーテール自己正則化 (HT-SR) 理論に基づいて、私たちは HMuon を提案します。 HTMuon は、より重い裾の更新を生成し、より重い裾の重みスペクトルを誘導しながら、パラメータの相互依存性を捕捉する Muon の機能を維持します。 LLM の事前トレーニングと画像分類に関する実験では、HTMuon が最先端のベースラインよりも一貫してパフォーマンスを向上させ、既存の Muon バリアント上のプラグインとしても機能できることが示されています。たとえば、C4 データセットでの LLaMA 事前トレーニングでは、HMuon は Muon と比較してパープレキシティを最大 0.98 ドル削減します。さらに、HTMuon が Schatten-$q$ ノルム制約の下での最急降下に対応することを理論的に示し、滑らかな非凸設定での収束解析を提供します。 HTMuon の実装は https://github.com/TDCSZ327/HTmuon で入手できます。
原文 (English)
HTMuon: Improving Muon via Heavy-Tailed Spectral Correction
Muon has recently shown promising results in LLM training. In this work, we study how to further improve Muon. We argue that Muon's orthogonalized update rule suppresses the emergence of heavy-tailed weight spectra and over-emphasizes the training along noise-dominated directions. Motivated by the Heavy-Tailed Self-Regularization (HT-SR) theory, we propose HTMuon. HTMuon preserves Muon's ability to capture parameter interdependencies while producing heavier-tailed updates and inducing heavier-tailed weight spectra. Experiments on LLM pretraining and image classification show that HTMuon consistently improves performance over state-of-the-art baselines and can also serve as a plug-in on top of existing Muon variants. For example, on LLaMA pretraining on the C4 dataset, HTMuon reduces perplexity by up to $0.98$ compared to Muon. We further theoretically show that HTMuon corresponds to steepest descent under the Schatten-$q$ norm constraint and provide convergence analysis in smooth non-convex settings. The implementation of HTMuon is available at https://github.com/TDCSZ327/HTmuon.
バッファーと無制限の転送にダイクストラを適応させる
近年、RAPTOR ベースのアルゴリズムは、前処理なしで無制限に転送できるパス検索の最先端技術とみなされています。ただし、この状況は主にルーティング研究の進化に由来しており、体系的な比較が行われずに、ダイクストラ ベースのソリューションがタイムテーブル ベースのアルゴリズムに取って代わられました。この研究では、転送無制限の公共交通機関ルーティングに対する古典的なダイクストラベースのアプローチを再検討し、時間依存ダイクストラ (TD-ダイクストラ) が MR より優れていることを実証します。ただし、効率的な TD-ダイクストラの実装は、前処理中に支配的な接続をフィルタリングすることに依存しており、乗客はいつでもより高速な接続に切り替えることができると想定されています。このフィルタリングは、停留所にバッファ時間が存在する場合には不健全であることを示します。これは、待たずに続行できる着席した乗客と、バッファを尊重する必要がある乗り換えの乗客を区別できないためです。この制限に対処するために、個々のエッジではなくトリップ シーケンス全体をスキャンする修正である Transfer Aware Dijkstra (TAD) を導入し、MR に対するパフォーマンス上の利点を維持しながらバッファ時間を正しく処理します。ロンドンとスイスのネットワークでの実験では、バッファ時間がある場合とない場合の両方のネットワークで最適な結果が得られながら、MR よりも 2 倍以上の高速化を達成できることがわかりました。
原文 (English)
Adapting Dijkstra for Buffers and Unlimited Transfers
In recent years, RAPTOR based algorithms have been considered the state-of-the-art for path-finding with unlimited transfers without preprocessing. However, this status largely stems from the evolution of routing research, where Dijkstra-based solutions were superseded by timetable-based algorithms without a systematic comparison. In this work, we revisit classical Dijkstra-based approaches for public transit routing with unlimited transfers and demonstrate that Time-Dependent Dijkstra (TD-Dijkstra) outperforms MR. However, efficient TD-Dijkstra implementations rely on filtering dominated connections during preprocessing, which assumes passengers can always switch to a faster connection. We show that this filtering is unsound when stops have buffer times, as it cannot distinguish between seated passengers who may continue without waiting and transferring passengers who must respect the buffer. To address this limitation, we introduce Transfer Aware Dijkstra (TAD), a modification that scans entire trip sequences rather than individual edges, correctly handling buffer times while maintaining performance advantages over MR. Our experiments on London and Switzerland networks show that we can achieve a greater than two time speed-up over MR while producing optimal results on both networks with and without buffer times.
クラス不均衡下でのマルチラベルビデオカプセル内視鏡分類のための角度プロトタイプ分離による解剖学ガイド付き視覚言語学習
この研究では、ビデオ カプセル内視鏡 (VCE) 用のマルチラベル時間イベント検出フレームワークを提示します。このフレームワークは、クラス プロトタイプの角度分離損失と生物学的ステート マシン時間デコーダーという 2 つの主な貢献を組み合わせることによって、ガラル データセットに固有の極端なクラスの不均衡に対処します。バックボーンは、生物医学の視覚言語基盤モデルである BiomedCLIP のままです。 3 つの連続したフレームは、静的な時間的冗長性を抑制することによって一時的な病理学的信号を増幅するローカル差分アテンション モジュールを通じて融合されます。次に、解剖学コンテキスト ヘッドは、消化管所見の既知の空間共起構造を利用して、ソフトな解剖学的活性化に関する病理学的予測を条件付けします。学習可能なテキスト特徴プロンプトとプロトタイプベースのロジット拡張は、クラス プロトタイプ間の非対角コサイン類似性にペナルティを与える角度分離損失と並行してトレーニングされ、極端な不均衡の下でまれなクラスを悩ませるプロトタイプの崩壊を防ぎます。ラベル分布の偏りに対処するために、トレーニング レジームでは、非対称焦点損失、逆周波数加重サンプリング、時間的ミックスアップ、指数移動平均、およびクラスごとのしきい値キャリブレーションを組み合わせます。 Biological State Machine デコーダは、単純なギャップ マージを解剖学ラベル上の生理学的に根拠のある前方のみの状態遷移に置き換え、以前のアプローチでビデオごとに何百もの疑似解剖学イベントを生成していた断片化アーティファクトを排除し、ビデオごとの解剖学出力を 2 ~ 3 つの臨床的に現実的なイベントに削減します。 3 つの NaviCam 検査 (161,025 フレーム) で構成される保留された RARE-VISION テスト セットでは、更新されたパイプラインは全体の時間的 mAP@0.5 が 0.3597 と mAP@0.95 が 0.3399 を達成し、以前の提出と比較してそれぞれ 46% と 44% の相対的な改善を示し、単一の GPU で合計推論は約 21 分で完了しました。
原文 (English)
Anatomy-Guided Vision-Language Learning with Angular Prototype Separation for Multi-Label Video Capsule Endoscopy Classification Under Class Imbalance
This work presents a multi-label temporal event detection framework for video capsule endoscopy (VCE) that addresses the extreme class imbalance inherent in the Galar dataset by combining two principal contributions: an Angular Separation Loss on class prototypes and a Biological State Machine temporal decoder. The backbone remains BiomedCLIP, a biomedical vision-language foundation model. Three consecutive frames are fused through a Local Differencing Attention module that amplifies transient pathological signals by suppressing static temporal redundancy. An Anatomy Context Head then conditions pathological predictions on soft anatomical activations, exploiting the known spatial co-occurrence structure of GI findings. Learnable text-feature prompts and prototype-based logit augmentation are trained alongside an Angular Separation Loss that penalizes off-diagonal cosine similarity between class prototypes, preventing the prototype collapse that afflicts rare classes under extreme imbalance. To counteract the skewed label distribution, the training regime combines asymmetric focal loss, inverse-frequency weighted sampling, temporal Mixup, Exponential Moving Average, and per-class threshold calibration. The Biological State Machine decoder replaces naive gap merging with a physiologically grounded forward-only state transition over anatomy labels, eliminating the fragmentation artefact that produced hundreds of spurious anatomy events per video in the prior approach and reducing per-video anatomy output to 2--3 clinically realistic events. On the held-out RARE-VISION test set comprising three NaviCam examinations (161,025 frames), the updated pipeline achieves an overall temporal mAP@0.5 of 0.3597 and mAP@0.95 of 0.3399, representing a relative improvement of 46% and 44% respectively over the prior submission, with total inference completed in approximately 21 minutes on a single GPU.
一般化可能な超音波基礎モデルのタスク集約について
基礎モデルは、単一のフレームワーク内で複数の臨床タスクを統合することを約束しますが、最近の超音波研究では、統合モデルはタスク固有のベースラインを下回る可能性があると報告しています。この低下はモデルの容量制限からではなく、タスクの異質性と利用可能なトレーニング データ スケールの間の相互作用を無視するタスク集約戦略から生じると仮説を立てます。この研究では、異種の超音波タスクをいつパフォーマンス損失なしに共同学習できるかを体系的に分析し、統合臨床画像モデルにおけるタスク集約の実用的な基準を確立します。 M2DINO は、適応的な容量割り当てのためのタスク条件付き専門家混合ブロックを備えた DINOv3 上に構築された多臓器、マルチタスク フレームワークです。私たちは、タスク固有のトレーニング、臨床的にグループ化されたトレーニング、および全タスクの統合トレーニングという 3 つのパラダイムに基づいて、セグメンテーション、分類、検出、回帰にわたる 27 の超音波タスクを体系的に評価します。私たちの結果は、集計の有効性がトレーニング データの規模に大きく依存することを示しています。臨床的にグループ化されたトレーニングは、データが豊富な設定ではパフォーマンスを向上させることができますが、データが少ない設定では大幅なマイナスの転移を引き起こす可能性があります。対照的に、全タスクの統合トレーニングは、臨床グループ全体でより一貫したパフォーマンスを示します。さらに、実験ではタスクの感度がタスクの種類によって異なることも観察しました。セグメンテーションでは、回帰や分類と比較して最大のパフォーマンス低下が示されています。これらの発見は、超音波基礎モデルに対する実践的なガイダンスを提供し、集約戦略では臨床分類法のみに依存するのではなく、トレーニング データの可用性とタスクの特性を共同で考慮する必要があることを強調しています。
原文 (English)
Understanding Task Aggregation for Generalizable Ultrasound Foundation Models
Foundation models promise to unify multiple clinical tasks within a single framework, but recent ultrasound studies report that unified models can underperform task-specific baselines. We hypothesize that this degradation arises not from model capacity limitations, but from task aggregation strategies that ignore interactions between task heterogeneity and available training data scale. In this work, we systematically analyze when heterogeneous ultrasound tasks can be jointly learned without performance loss, establishing practical criteria for task aggregation in unified clinical imaging models. We introduce M2DINO, a multi-organ, multi-task framework built on DINOv3 with task-conditioned Mixture-of-Experts blocks for adaptive capacity allocation. We systematically evaluate 27 ultrasound tasks spanning segmentation, classification, detection, and regression under three paradigms: task-specific, clinically-grouped, and all-task unified training. Our results show that aggregation effectiveness depends strongly on training data scale. While clinically-grouped training can improve performance in data-rich settings, it may induce substantial negative transfer in low-data settings. In contrast, all-task unified training exhibits more consistent performance across clinical groups. We further observe that task sensitivity varies by task type in our experiments: segmentation shows the largest performance drops compared with regression and classification. These findings provide practical guidance for ultrasound foundation models, emphasizing that aggregation strategies should jointly consider training data availability and task characteristics rather than relying on clinical taxonomy alone.
MemReward: 限られたラベルでの LLM 報酬予測のためのグラフベースのエクスペリエンス メモリ
強化学習は、大規模言語モデル (LLM) 推論を改善するための強力なパラダイムとして登場しました。LLM では、ロールアウトがポリシーからサンプリングされ、それらのロールアウトで計算された報酬信号がポリシーの更新に使用されます。ただし、データが不足しているシナリオでは、大規模なロールアウトを検証するためのグラウンド トゥルース ラベルを取得するには、多くの場合、高価な人間によるアノテーションや労働集約的な専門家の検証が必要になります。たとえば、数学的証明の評価には専門家のレビューが必要であり、自由回答型の質疑応答には決定的な根拠が欠けています。グラウンドトゥルースのラベルが不足すると、強化学習の微調整の有効性が制限されます。ラベル付きサンプルからラベルなしサンプルへラベルを伝播する半教師あり学習の成功に触発されて、報酬伝播をオンライン ポリシー最適化に直接統合するグラフベースの経験記憶フレームワークである MemReward を提案します。 MemReward は、初期 LLM ポリシーからのロールアウト (思考プロセスと最終的な答え) を、類似性と構造エッジによって接続された異種グラフ内のノードとして保存します。GNN は、その上で、ラベル付きロールアウトからラベルなしロールアウトへ報酬を伝播します。このようなフレームワークをトレーニングするには、最初にラベル付きロールアウトで GNN をウォームアップし、クエリ、思考、回答ノードにわたる異種集約を介して報酬を予測します。オンライン RL 微調整中に、ラベルのないロールアウトがクエリの類似性によってグラフに付加され、GNN がそれらの報酬を予測し、グラウンド トゥルースと GNN が予測した報酬を組み合わせたハイブリッド報酬獲得戦略を生み出します。数学、質問応答、およびコード生成における Qwen2.5-1.5B および 3B の実験では、MemReward がロールアウトのわずか 20% でグラウンドトゥルース報酬を提供し、1.5B で Oracle の 96.6%、3B で 97.3% のパフォーマンスを達成し、ドメイン外タスクで Oracle にほぼ匹敵することが実証されました。
原文 (English)
MemReward: Graph-Based Experience Memory for LLM Reward Prediction with Limited Labels
Reinforcement learning has emerged as a powerful paradigm for improving large language model (LLM) reasoning, where rollouts are sampled from the policy and reward signals computed on those rollouts are used to update the policy. However, in data-scarce scenarios, obtaining ground-truth labels to verify rollouts at scale often requires expensive human annotation or labor-intensive expert verification. For instance, evaluating mathematical proofs demands expert review, and open-ended question answering lacks definitive ground truth. When ground-truth labels are scarce, the effectiveness of reinforcement learning fine-tuning is constrained. Inspired by the success of semi-supervised learning in propagating labels from labeled to unlabeled samples, we propose MemReward, a graph-based experience memory framework that integrates reward propagation directly into online policy optimization. MemReward stores rollouts (thinking processes and final answers) from an initial LLM policy as nodes in a heterogeneous graph connected by similarity and structural edges, over which a GNN propagates rewards from labeled to unlabeled rollouts. To train such a framework, we first warm up the GNN on labeled rollouts to predict rewards via heterogeneous aggregation over query, thinking, and answer nodes. During online RL fine-tuning, unlabeled rollouts are attached to the graph by query similarity, and the GNN predicts their rewards, yielding a hybrid reward acquisition strategy that combines ground-truth and GNN-predicted rewards. Experiments on Qwen2.5-1.5B and 3B in mathematics, question answering, and code generation demonstrate that MemReward, with ground-truth rewards on only 20% of rollouts, achieves 96.6% of Oracle performance on 1.5B and 97.3% on 3B, and closely approaches Oracle on out-of-domain tasks.
好みに基づく制約推論による安全な強化学習
安全強化学習 (RL) は、安全性が重要な意思決定のための標準パラダイムです。ただし、現実世界の安全制約は複雑で主観的なものであり、明示的に指定することさえ難しい場合があります。制約推論に関する既存の研究は、限定的な仮定や広範な専門家の実証に依存していますが、これらは多くの現実世界のアプリケーションでは現実的ではありません。これらの制約を安価かつ確実に学習する方法は、この研究で私たちが焦点を当てる主要な課題です。人間の好みから制約を推論することはデータ効率の高い代替手段を提供しますが、一般的なブラッドリー・テリー (BT) モデルは安全コストの非対称でヘビーテールの性質を捉えることができず、その結果リスクが過小評価されることを私たちは特定しました。下流の政策学習に対する BT モデルの影響を理解する文献はまだ稀です。上記の知識のギャップに対処するために、私たちは、優先ベースの制約付き強化学習 (PbCRL) という新しいアプローチを提案します。我々は、新しいデッドゾーンメカニズムをプリファレンスモデリングに導入し、それがヘビーテールコスト分布を促進し、それによってより良い制約の調整を達成することを理論的に証明します。さらに、コストの差異による探索を促進するために、信号対雑音比 (SNR) 損失を組み込んでいます。これは、ポリシーの学習に有益であることがわかっています。さらに、2 段階のトレーニング戦略が導入され、オンラインのラベル付けの負担が軽減され、同時に制約の満足度が適応的に向上します。実証結果は、PbCRL が真の安全要件との優れた整合性を達成し、安全性と報酬の点で最先端のベースラインを上回るパフォーマンスを示していることを示しています。私たちの研究は、Safe RL における制約推論のための有望かつ効果的な方法を探求しており、安全性が重要なさまざまなアプリケーションで大きな可能性を秘めています。
原文 (English)
Safe Reinforcement Learning with Preference-based Constraint Inference
Safe reinforcement learning (RL) is a standard paradigm for safety-critical decision making. However, real-world safety constraints can be complex, subjective, and even hard to explicitly specify. Existing works on constraint inference rely on restrictive assumptions or extensive expert demonstrations, which are not realistic in many real-world applications. How to cheaply and reliably learn these constraints is the major challenge we focus on in this study. While inferring constraints from human preferences offers a data-efficient alternative, we identify popular Bradley-Terry (BT) models fail to capture the asymmetric, heavy-tailed nature of safety costs, resulting in risk underestimation. It is still rare in the literature to understand the impacts of BT models on the downstream policy learning. To address the above knowledge gaps, we propose a novel approach namely Preference-based Constrained Reinforcement Learning (PbCRL). We introduce a novel dead zone mechanism into preference modeling and theoretically prove that it encourages heavy-tailed cost distributions, thereby achieving better constraint alignment. Additionally, we incorporate a Signal-to-Noise Ratio (SNR) loss to encourage exploration by cost variances, which is found to benefit policy learning. Further, two-stage training strategy is deployed to lower online labeling burdens while adaptively enhancing constraint satisfaction. Empirical results demonstrate that PbCRL achieves superior alignment with true safety requirements and outperforms state-of-the-art baselines in terms of safety and reward. Our work explores a promising and effective way for constraint inference in Safe RL, with great potential in various safety-critical applications.
ローカル LLM とレイアウトを意識した解析による表形式 PDF 情報の抽出: 信頼性の評価
学術 PDF 文書から構造化情報を抽出することは簡単ではありません。単一のページは通常、フリー テキストのメタデータと表形式の領域を組み合わせており、プログラム間での変動が見られ、ダウンストリームの解析を妨げる Unicode エンコードのアーティファクトの影響を受けやすくなります。この研究では、ケーススタディとしてインドネシアの高等教育の学術コース登録文書 (Kartu Rencana Studi または KRS) を使用して、表形式の PDF 文書に対する情報抽出アプローチの信頼性を評価します。 LLM のみ、ハイブリッド決定論 - LLM (正規表現と LLM)、LLM フォールバックを備えた Camelot ベースのパイプラインの 3 つの戦略を比較します。実験は、LLM ベースのテストでは 140 のドキュメント、キャメロット ベースのパイプライン評価では 860 のドキュメントで行われ、テーブルとメタデータ内のさまざまなデータを含む 4 つの研究プログラムをカバーしました。 3 つの 12 ~ 14B LLM モデル (Gemma 3、Phi 4、および Qwen 2.5) は、Ollama と GPU なしのコンシューマー グレードの CPU を使用してローカルで実行されました。評価には、しきい値 0.7 の完全一致 (EM) およびレーベンシュタイン類似性 (LS) メトリクスが使用されました。すべてのモデルに適用できるわけではありませんが、結果は、ハイブリッド アプローチが、特に決定論的メタデータの場合、LLM のみと比較して効率を向上できることを示しています。 LLM フォールバックを備えた Camelot ベースのパイプラインは、精度 (EM および LS 最大 0.99 ~ 1.00) と計算効率 (ほとんどの場合、PDF あたり 1 秒未満) の最適な組み合わせを実現しました。 Qwen 2.5:14b モデルは、すべてのシナリオにわたって最も一貫したパフォーマンスを実証しました。これらの発見は、決定論的手法と LLM ベースの手法を統合することが、計算量に制約のある環境で表形式のテキスト ベースの PDF ドキュメントから情報を抽出するための信頼性が高く効率的な戦略であることを裏付けています。
原文 (English)
Tabular PDF Information Extraction with Local LLMs and Layout-Aware Parsing: A Reliability Evaluation
Extracting structured information from academic PDF documents is non trivial: a single page typically combines free text metadata with tabular regions, exhibits cross program variation, and is susceptible to Unicode encoding artifacts that interfere with downstream parsing. This study evaluates the reliability of information extraction approaches for tabular PDF documents, using academic course registration documents (Kartu Rencana Studi or KRS) from Indonesian higher education as a case study. Three strategies are compared: LLM only, Hybrid Deterministic - LLM (regex & LLM), and a Camelot based pipeline with LLM fallback. Experiments were conducted on 140 documents for the LLM based test and 860 documents for the Camelot based pipeline evaluation, covering four study programs with varying data in tables and metadata. Three 12 - 14B LLM models (Gemma 3, Phi 4, and Qwen 2.5) were run locally using Ollama and a consumer grade CPU without a GPU. Evaluations used exact match (EM) and Levenshtein similarity (LS) metrics with a threshold of 0.7. Although not applicable to all models, the results show that the hybrid approach can improve efficiency compared to LLM only, especially for deterministic metadata. The Camelot based pipeline with LLM fallback produced the best combination of accuracy (EM and LS up to 0.99 - 1.00) and computational efficiency (less than 1 second per PDF in most cases). The Qwen 2.5:14b model demonstrated the most consistent performance across all scenarios. These findings confirm that integrating deterministic and LLM based methods is a reliable and efficient strategy for information extraction from tabular text based PDF documents in computationally constrained environments.
マルチモーダル推論のための視覚的にガイドされたポリシーの最適化
検証可能な報酬を伴う強化学習 (RLVR) により、ビジョン言語モデル (VLM) の推論能力が大幅に向上しました。ただし、VLM の固有のテキスト主体の性質により、視覚的な忠実性が不十分になることが多く、視覚的なトークンに対する注意の活性化がまばらであることが特徴です。さらに重要なことに、私たちの経験的分析により、推論ステップに沿った一時的な視覚的忘却がこの欠陥を悪化させることが明らかになりました。このギャップを埋めるために、私たちは、ポリシーの最適化中に視覚的な焦点を強化する新しいフレームワークである Visually-Guided Policy Optimization (VGPO) を提案します。具体的には、VGPO は最初に視覚的類似性を利用して視覚的手がかりを特定し増幅する視覚的注意補償メカニズムを導入し、その後のステップで視覚的期待を徐々に高めて視覚的な忘れを防止します。このメカニズムに基づいて、私たちは二重粒度のアドバンテージ再重み付け戦略を実装します。つまり、軌道内レベルは比較的高い視覚的活性化を示すトークンを強調表示し、一方、軌道間レベルは優れた視覚的蓄積を示す軌道を優先します。広範な実験により、VGPO が数学的マルチモーダル推論および視覚依存タスクにおいて、より優れた視覚活性化と優れたパフォーマンスを実現することが実証されました。コードは https://github.com/wzb-bupt/VGPO で公開されています。
原文 (English)
Visually-Guided Policy Optimization for Multimodal Reasoning
Reinforcement learning with verifiable rewards (RLVR) has significantly advanced the reasoning ability of vision-language models (VLMs). However, the inherent text-dominated nature of VLMs often leads to insufficient visual faithfulness, characterized by sparse attention activation to visual tokens. More importantly, our empirical analysis reveals that temporal visual forgetting along reasoning steps exacerbates this deficiency. To bridge this gap, we propose Visually-Guided Policy Optimization (VGPO), a novel framework to reinforce visual focus during policy optimization. Specifically, VGPO initially introduces a Visual Attention Compensation mechanism that leverages visual similarity to localize and amplify visual cues, while progressively elevating visual expectations in later steps to counteract visual forgetting. Building on this mechanism, we implement a dual-grained advantage re-weighting strategy: the intra-trajectory level highlights tokens exhibiting relatively high visual activation, while the inter-trajectory level prioritizes trajectories demonstrating superior visual accumulation. Extensive experiments demonstrate that VGPO achieves better visual activation and superior performance in mathematical multimodal reasoning and visual-dependent tasks. The code has been released at https://github.com/wzb-bupt/VGPO.
ルーティングよりも表現: マルチタイムスケール PPO におけるサロゲート ハッキングを克服する
強化学習における時間単位の割り当ては、長い間中心的な課題でした。神経生物学におけるドーパミンシステムのマルチタイムスケールエンコーディングに触発された最近の研究では、短期的な反応と長期的な計画のバランスをとるために、近接ポリシー最適化(PPO)などのアクタークリティックアーキテクチャに複数の割引係数を導入することが試みられています。しかし、この論文は、複雑な遅延報酬タスクでマルチタイムスケールの信号を盲目的に融合すると、深刻なアルゴリズムの病理につながる可能性があることを明らかにしています。私たちは、時間的注意ルーティングメカニズムをポリシー勾配にさらすと代理目的ハッキングが発生する一方、勾配のない不確実性重み付けを採用すると不可逆的な近視性変性が引き起こされることを系統的に実証し、この現象を時間的不確実性のパラドックスと呼んでいます。これらの問題に対処するために、私たちはターゲット デカップリング アーキテクチャを提案します。クリティック側ではマルチタイムスケールの予測を保持して補助表現学習を強制しますが、アクター側では短期シグナルを厳密に分離し、長期的な利点のみに基づいてポリシーを更新します。 LunarLander-v2 環境における複数の独立したランダム シードにわたる厳密な経験的評価により、提案したアーキテクチャが統計的に有意なパフォーマンス向上を達成することが実証されました。ハイパーパラメータのハッキングに依存することなく、最小限の変動で一貫して「環境解決済み」のしきい値を超え、ポリシーの崩壊を完全に排除し、単一タイムスケールのベースラインを捕らえる局所最適値の変動を回避します。私たちの実験を再現するためのソース コードは、https://github.com/ben-dlwlrma/Representation-Over-Routing で公開されています。
原文 (English)
Representation over Routing: Overcoming Surrogate Hacking in Multi-Timescale PPO
Temporal credit assignment in reinforcement learning has long been a central challenge. Inspired by the multi-timescale encoding of the dopamine system in neurobiology, recent research has sought to introduce multiple discount factors into Actor-Critic architectures, such as Proximal Policy Optimization (PPO), to balance short-term responses with long-term planning. However, this paper reveals that blindly fusing multi-timescale signals in complex delayed-reward tasks can lead to severe algorithmic pathologies. We systematically demonstrate that exposing a temporal attention routing mechanism to policy gradients results in surrogate objective hacking, while adopting gradient-free uncertainty weighting triggers irreversible myopic degeneration, a phenomenon we term the Paradox of Temporal Uncertainty. To address these issues, we propose a Target Decoupling architecture: on the Critic side, we retain multi-timescale predictions to enforce auxiliary representation learning, while on the Actor side, we strictly isolate short-term signals and update the policy based solely on long-term advantages. Rigorous empirical evaluations across multiple independent random seeds in the LunarLander-v2 environment demonstrate that our proposed architecture achieves statistically significant performance improvements. Without relying on hyperparameter hacking, it consistently surpasses the ''Environment Solved'' threshold with minimal variance, completely eliminates policy collapse, and escapes the hovering local optima that trap single-timescale baselines. The source code to reproduce our experiments is publicly available at https://github.com/ben-dlwlrma/Representation-Over-Routing.
分解、構造化、修復: 演算子ツリーによる自動形式化のための神経記号的フレームワーク
ステートメントの自動形式化は、自然言語の問題を形式言語に変換することにより、人間の数学と形式数学の間の重要な橋渡しとして機能します。これまでの研究は、エンドツーエンドの大規模言語モデル (LLM) を最適化するためのデータ合成と多様なトレーニング パラダイムに焦点を当てていましたが、通常は形式コードをフラット シーケンスとして扱い、数学的ステートメントに固有の階層ロジックを無視していました。この研究では、自動形式化をモジュラー パイプラインに再構築する神経記号フレームワークである分解、構造、修復 (DSR) を導入します。 DSR はステートメントを論理コンポーネントに分解し、構造化された演算子ツリーにマップします。このトポロジー ブループリントを利用して、サブツリーの詳細化を通じてエラーを正確に特定し、修復します。さらに、正規の教科書から選択され、リーン 4 で専門的に注釈が付けられた 156 の学部レベルおよび大学院レベルの定理のベンチマークである PRIME を紹介します。実験結果は、DSR が、同等の計算予算の下で常にベースラインを上回る最先端の新しいパフォーマンスを確立することを示しています。データセット、モデル、コードは https://github.com/XiaoyangLiu-sjtu/DSR で入手できます。
原文 (English)
Decompose, Structure, and Repair: A Neuro-Symbolic Framework for Autoformalization via Operator Trees
Statement autoformalization acts as a critical bridge between human mathematics and formal mathematics by translating natural language problems into formal language. While prior works have focused on data synthesis and diverse training paradigms to optimize end-to-end Large Language Models (LLMs), they typically treat formal code as flat sequences, neglecting the hierarchical logic inherent in mathematical statements. In this work, we introduce Decompose, Structure, and Repair (DSR), a neuro-symbolic framework that restructures autoformalization into a modular pipeline. DSR decomposes statements into logical components and maps them to structured operator trees, leveraging this topological blueprint to precisely localize and repair errors via sub-tree refinement. Furthermore, we introduce PRIME, a benchmark of 156 undergraduate and graduate-level theorems selected from canonical textbooks and expertly annotated in Lean 4. Experimental results demonstrate that DSR establishes a new state-of-the-art, consistently outperforming baselines under equivalent computational budgets. The datasets, model, and code are available at https://github.com/XiaoyangLiu-sjtu/DSR.
TingIS: 企業規模での騒々しい顧客インシデントからのリアルタイムのリスク イベント検出
大規模なクラウドネイティブ サービスでは、技術的な異常をリアルタイムで検出して軽減することが重要です。数分のダウンタイムでも多大な経済的損失やユーザーの信頼の低下につながる可能性があります。顧客のインシデントは、監視によって見逃されたリスクを発見するための重要なシグナルとして機能しますが、極度のノイズ、高スループット、多様なビジネスラインの意味の複雑さのため、このデータから実用的なインテリジェンスを抽出することは依然として困難です。このペーパーでは、エンタープライズ レベルのインシデント検出のために設計されたエンドツーエンド システムである TingIS について紹介します。 TingIS の中核となるのは、効率的なインデックス作成技術と大規模言語モデル (LLM) を相乗して、イベントのマージに関する情報に基づいた意思決定を行う多段階イベント リンク エンジンです。これにより、少数の多様なユーザーの説明から実用的なインシデントを安定して抽出できます。このエンジンは、正確なビジネス属性のためのカスケード ルーティング メカニズムと、ドメイン知識、統計パターン、および動作フィルタリングを統合する多次元ノイズ リダクション パイプラインによって補完されます。 TingIS は、1 分あたり 2,000 メッセージ、1 日あたり 300,000 メッセージを超えるピーク スループットを処理する運用環境に導入され、3.5 分の P90 アラート遅延と、優先度の高いインシデントの検出率 95% を達成します。実世界のデータから構築されたベンチマークは、TingIS がルーティングの精度、クラスタリングの品質、信号対雑音比の点でベースライン手法を大幅に上回っていることを示しています。
原文 (English)
TingIS: Real-time Risk Event Discovery from Noisy Customer Incidents at Enterprise Scale
Real-time detection and mitigation of technical anomalies are critical for large-scale cloud-native services, where even minutes of downtime can result in massive financial losses and diminished user trust. While customer incidents serve as a vital signal for discovering risks missed by monitoring, extracting actionable intelligence from this data remains challenging due to extreme noise, high throughput, and semantic complexity of diverse business lines. In this paper, we present TingIS, an end-to-end system designed for enterprise-grade incident discovery. At the core of TingIS is a multi-stage event linking engine that synergizes efficient indexing techniques with Large Language Models (LLMs) to make informed decisions on event merging, enabling the stable extraction of actionable incidents from just a handful of diverse user descriptions. This engine is complemented by a cascaded routing mechanism for precise business attribution and a multi-dimensional noise reduction pipeline that integrates domain knowledge, statistical patterns, and behavioral filtering. Deployed in a production environment handling a peak throughput of over 2,000 messages per minute and 300,000 messages per day, TingIS achieves a P90 alert latency of 3.5 minutes and a 95\% discovery rate for high-priority incidents. Benchmarks constructed from real-world data demonstrate that TingIS significantly outperforms baseline methods in routing accuracy, clustering quality, and Signal-to-Noise Ratio.
Agentic AI のスキル取得の拡張
大規模言語モデル (LLM) がエージェントの問題解決ツールに進化するにつれて、ネイティブのパラメトリック機能を超えたタスクを処理するために外部の再利用可能なスキルにますます依存するようになります。既存のエージェント システムでは、スキルを組み込むための主な戦略は、コンテキスト ウィンドウ内で利用可能なスキルを明示的に列挙することです。しかし、この戦略は拡張できません。スキル コーパスが拡大するにつれて、コンテキスト バジェットが急速に消費され、エージェントが適切なスキルを識別する精度が著しく低下します。この目的を達成するために、この文書では、エージェントがオンデマンドで大規模な外部スキル コーパスから関連するスキルを動的に取得、組み込み、適用する新しいパラダイムであるスキル検索拡張 (SRA) を定式化します。この問題を測定可能にするために、大規模なスキル コーパスを構築し、スキルの取得、スキルの組み込み、および最終タスクの実行をカバーする完全な SRA パイプラインの分解評価のための最初のベンチマークである SRA-Bench を導入します。 SRA-Bench には、5,400 の能力集約型テスト インスタンスと、手動で構築された 636 個のゴールド スキルが含まれています。これらは、Web で収集されたディストラクタ スキルと混合されて、26,262 個のスキルの大規模コーパスを形成します。広範な実験により、検索ベースのスキル強化によりエージェントのパフォーマンスが大幅に向上することが示され、パラダイムの有望性が実証されました。同時に、スキルの組み込みにおける根本的なギャップも明らかになりました。現在の LLM エージェントは、ゴールド スキルが取得されるかどうか、またはタスクが実際に外部機能を必要とするかどうかに関係なく、同様の速度でスキルをロードする傾向があります。これは、スキル拡張のボトルネックが取得だけでなく、どのスキルをロードするか、いつ外部ロードが実際に必要かを決定する基本モデルの機能にもあることを示しています。これらの発見は、SRA を明確な研究課題として位置づけ、将来のエージェント システムにおけるスケーラブルな機能拡張の基盤を確立します。
原文 (English)
Skill Retrieval Augmentation for Agentic AI
As large language models (LLMs) evolve into agentic problem solvers, they increasingly rely on external, reusable skills to handle tasks beyond their native parametric capabilities. In existing agent systems, the dominant strategy for incorporating skills is to explicitly enumerate available skills within the context window. However, this strategy fails to scale: as skill corpora expand, context budgets are consumed rapidly, and the agent becomes markedly less accurate in identifying the right skill. To this end, this paper formulates Skill Retrieval Augmentation (SRA), a new paradigm in which agents dynamically retrieve, incorporate, and apply relevant skills from large external skill corpora on demand. To make this problem measurable, we construct a large-scale skill corpus and introduce SRA-Bench, the first benchmark for decomposed evaluation of the full SRA pipeline, covering skill retrieval, skill incorporation, and end-task execution. SRA-Bench contains 5,400 capability-intensive test instances and 636 manually constructed gold skills, which are mixed with web-collected distractor skills to form a large-scale corpus of 26,262 skills. Extensive experiments show that retrieval-based skill augmentation can substantially improve agent performance, validating the promise of the paradigm. At the same time, we uncover a fundamental gap in skill incorporation: current LLM agents tend to load skills at similar rates, regardless of whether a gold skill is retrieved or whether the task actually requires external capabilities. This shows that the bottleneck in skill augmentation lies not only in retrieval but also in the base model's ability to determine which skill to load and when external loading is actually needed. These findings position SRA as a distinct research problem and establish a foundation for the scalable augmentation of capabilities in future agent systems.
適応ディープニューラルネットワークにおける信頼限界上限アルゴリズムのパフォーマンスに関する比較分析
エッジ コンピューティング環境では、エネルギー消費と遅延に厳しい制約が課されるため、ディープ ニューラル ネットワークの展開が大きな課題となっています。したがって、エッジ コンピューティング シナリオでは、計算コストまたは遅延と予測精度のバランスを動的に調整する、スマートで適応的な推論戦略が重要です。この作業では、Multi-Armed Bandit (MAB) フレームワークを採用する Adaptive Deep Neural Networks (ADNN) に基づいて構築します。現在の文献では、信頼限界上限 (UCB1) 戦略の最初のバージョンを活用して最適な信頼しきい値を動的に選択し、精度を犠牲にすることなく効率的な早期終了を可能にしています。ただし、ADNN に 4 つの追加の信頼限界戦略、つまり UCB-V、UCB-Tuned、UCB-Bayes、および UCB-BwK を導入し、精度、エネルギー消費、遅延の間のトレードオフに関してこれらの戦略の比較研究を初めて実行します。提案された UCB 戦略は ResNet および MobileViT ニューラル ネットワークで採用され、CIFAR-10、CIFAR-10.1、および CIFAR-100 のベンチマーク データセットで評価されます。実験結果は、すべての戦略が線形未満の累積後悔を達成し、UCB-Bayes が最も早く収束し、次に UCB-Tuned と UCB-V が続くことを示しています。最後に、UCB-V と UCB-Tuned は、精度と遅延、および精度とエネルギーのトレードオフのパレート フロンティアを支配します。実装コードはここから入手できます: https://github.com/gr3gor1/MAB_UCB
原文 (English)
A Comparative Analysis on the Performance of Upper Confidence Bound Algorithms in Adaptive Deep Neural Networks
Edge computing environments impose strict constraints on energy consumption and latency, making the deployment of deep neural networks a significant challenge. Therefore, smart and adaptive inference strategies that dynamically balance computational cost or latency with predictive accuracy are critical in edge computing scenarios. In this work, we build on Adaptive Deep Neural Networks (ADNNs) that employ the Multi-Armed Bandit (MAB) framework. Current literature leverages the first version of the Upper Confidence Bound (UCB1) strategy to dynamically select the optimal confidence threshold, enabling efficient early exits without sacrificing accuracy. However, we introduce four additional Upper Confidence Bound strategies in ADNNs, namely UCB-V, UCB-Tuned, UCB-Bayes, and UCB-BwK, and perform, for the first time, a comparative study of these strategies with respect to trade-offs between accuracy, energy consumption, and latency. The proposed UCB strategies are employed on the ResNet and MobileViT neural networks, and are evaluated on the benchmark datasets of CIFAR-10, CIFAR-10.1, and CIFAR-100. Experimental results demonstrate that all strategies achieve sub-linear cumulative regret, with UCB-Bayes converging the fastest, followed by UCB-Tuned and UCB-V. Finally, UCB-V and UCB-Tuned dominate the Pareto Frontiers of accuracy-latency and accuracy-energy trade-offs. The implementation code is available here: https://github.com/gr3gor1/MAB_UCB
SUDP: エージェントシステム用の秘密使用委任プロトコル
エージェント システムは、API、メッセージング プラットフォーム、クラウド サービスのユーザー シークレットを使用して動作することが増えています。今日のエージェント ランタイムは通常、公開による承認を実装します。アクションを有効にするということは、多くの場合、再利用可能なシークレット、またはそこから派生した再利用可能なアーティファクトをランタイム内に配置することを意味するため、一時的なプロンプト インジェクションまたはツール側の侵害が永続的なアカウントの侵害になります。既存の防御策は、シークレット ストレージ、範囲指定された委任、送信者制約のトークン、実行時監視などの隣接部分をカバーしていますが、共通の仕様がないまま組み合わせたエージェントの義務を残します。つまり、信頼できない自律リクエスターは、それに対する再利用可能な権限を取得することなく、ユーザーが承認したシークレットに裏付けされた操作を実行できる必要があります。私たちはこれをエージェント秘密使用 (ASU) 問題として形式化し、認可の完全性と秘密の機密性にわたる、あらゆるソリューションが満たさなければならない 7 つのセキュリティ特性を特定します。私たちは秘密使用委任プロトコル (SUDP) を提案します。このプロトコルでは、要求者が正規の操作を提案し、ユーザーが新しい認証システムに裏付けられた許可でそれを承認し、管理者がその許可を引き換えて制限付き使用を実行します。再利用可能な権限は、要求者の境界を越えることはありません。 SUDP は LLM 主導のエージェントに特化しており、ツール呼び出しがユーザー登録された権限を伴うマテリアルを実行する場合には常に適用されます。標準的な暗号化の仮定の下では、SUDP はハードウェア ルートのランタイムと統合された場合に 7 つの特性をすべて満たします。リファレンス実装は https://github.com/xhyumiracle/sudp で入手できます。
原文 (English)
SUDP: Secret-Use Delegation Protocol for Agentic Systems
Agentic systems increasingly act with user secrets for APIs, messaging platforms, and cloud services. Today's agent runtimes typically implement authorization by exposure: enabling action often means placing a reusable secret, or a reusable artifact derived from it, inside the runtime, so a transient prompt-injection or tool-side compromise becomes durable account compromise. Existing defenses cover adjacent pieces such as secret storage, scoped delegation, sender-constrained tokens, and runtime monitoring, but leave the combined agentic obligation without a common specification: an untrusted autonomous requester should be able to cause a user-authorized secret-backed operation without gaining reusable authority over it. We formalize this as the Agent Secret Use (ASU) problem and identify seven security properties any solution must satisfy, spanning authorization integrity and secret confidentiality. We propose the Secret-Use Delegation Protocol (SUDP), in which a requester proposes a canonical operation, the user authorizes it with a fresh authenticator-backed grant, and a custodian redeems the grant to perform the bounded use; reusable authority never crosses the requester boundary. We specialize SUDP for LLM-driven agents, where it applies whenever a tool call would exercise user-enrolled authority-bearing material. Under standard cryptographic assumptions, SUDP satisfies all seven properties when integrated with a hardware-rooted runtime. A reference implementation is available at https://github.com/xhyumiracle/sudp.
最も重要な説明: 言語学習システムにおける説明可能性の落とし穴としての説明の失敗の評価
AI を活用した言語学習ツールは、世界中の何百万もの学習者に即時にパーソナライズされたフィードバックを提供するようになってきています。ただし、このフィードバックは学習者、さらには教師にとっても検出が困難な方法で失敗する可能性があり、長期間使用すると誤解が強化され、学習成果が損なわれる可能性があります。言語教育における AI システムを評価するためのベンチマークである L2-Bench の一部を紹介します。これには、効果的なフィードバックの 6 つの重要な側面が含まれます (ただしこれらに限定されません): 診断の精度、適切さの認識、エラーの原因、優先順位付け、改善のためのガイダンス、自己規制のサポート。これらの側面に関して、AI システムがどのように失敗する可能性があるかを分析します。私たちが「説明可能性の落とし穴」を助長すると主張するこれらの失敗は、AI によって生成された説明であり、表面的には役立つように見えますが、根本的に欠陥があり、達成、人間と AI の相互作用、および社会感情的危害のリスクを増大させます。言語学習という特定の状況がこれらのリスクをどのように増幅するかについて議論し、具体的に評価フレームワークを設計する際にさらに注目する価値があると思われる未解決の疑問について概説します。私たちの分析は、AI 開発者が安全で信頼できる効果的な AI 説明をより適切に設計できるようにするために、説明可能性の落とし穴の類型と、それが発生する可能性のある文脈のダイナミクスの両方についてコミュニティの理解を広げることを目的としています。
原文 (English)
Ceci n'est pas une explication: Evaluating Explanation Failures as Explainability Pitfalls in Language Learning Systems
AI-powered language learning tools increasingly provide instant, personalised feedback to millions of learners worldwide. However, this feedback can fail in ways that are difficult for learners--and even teachers--to detect, potentially reinforcing misconceptions and eroding learning outcomes over extended use. We present a portion of L2-Bench, a benchmark for evaluating AI systems in language education that includes (but is not limited to) six critical dimensions of effective feedback: diagnostic accuracy, awareness of appropriacy, causes of error, prioritisation, guidance for improvement, and supporting self-regulation. We analyse how AI systems can fail with respect to these dimensions. These failures, which we argue are conducive to "explainability pitfalls," are AI-generated explanations that appear helpful on the surface but are fundamentally flawed, increasing the risk of attainment, human-AI interaction, and socioaffective harms. We discuss how the specific context of language learning amplifies these risks and outline open questions we believe merit more attention when designing evaluation frameworks specifically. Our analysis aims to expand the community's understanding of both the typology of explainability pitfalls and the contextual dynamics in which they may occur in order to encourage AI developers to better design safe, trustworthy, and effective AI explanations.
ProtDBench: プロテイン バインダーの設計と評価の統一ベンチマーク
最近のデノボタンパク質バインダー設計の進歩により、実験的検証が増加していますが、報告されたインシリコ測定基準は、標準化されていない評価プロトコルのため、研究全体で解釈したり比較したりすることが依然として困難です。タンパク質バインダー設計のための標準化されたスループットを意識した評価フレームワークである ProtDBench を紹介します。 ProtDBench は、統一されたベンチマーク タスク、評価プロトコル、成功基準を定義し、評価設計が観察されたパフォーマンスにどのような影響を与えるかを系統的に分析できるようにします。大規模なウェットラボの注釈付きデータセットを使用して、評価検証者として一般的に使用される構造予測モデルを分析し、同一のフィルタリング プロトコルの下で検証者に依存する実質的なバイアスと限定的な一致を明らかにします。次に、固定の評価プロトコルの下で、10 個の多様なタンパク質ターゲットにわたる代表的なオープンソースの生成バインダー設計手法をベンチマークします。 ProtDBench には、シーケンスごとの成功率に加えて、固定の 24 時間予算に基づくスループットを意識したメトリクスと、構造の多様性を考慮したクラスター レベルの成功基準が組み込まれています。これらの結果を総合すると、フィルタリング ルール、成功の定義、および計算効率、成功率、構造的多様性の間のスループットを意識した評価によって引き起こされる体系的な違いが明らかになります。全体として、ProtDBench は、現実的な評価設定の下でのタンパク質バインダー設計法の体系的かつ管理された比較をサポートする、公正で再現可能な評価パイプラインを提供します。
原文 (English)
ProtDBench: A Unified Benchmark of Protein Binder Design and Evaluation
Recent advances in de novo protein binder design have enabled increasing experimental validation, yet reported in silico metrics remain difficult to interpret or compare across studies due to non-standardized evaluation protocols. We introduce ProtDBench, a standardized and throughput-aware evaluation framework for protein binder design. ProtDBench defines unified benchmark tasks, evaluation protocols, and success criteria, enabling systematic analysis of how evaluation design influences observed performance. Using a large wet-lab annotated dataset, we analyze commonly used structure prediction models as evaluation verifiers, revealing substantial verifier-dependent bias and limited agreement under identical filtering protocols. We then benchmark representative open-source generative binder design methods across ten diverse protein targets under a fixed evaluation protocol. Beyond per-sequence success rates, ProtDBench incorporates throughput-aware metrics based on a fixed 24-hour budget, as well as cluster-level success criteria to account for structural diversity. Together, these results expose systematic differences induced by filtering rules, success definitions, and throughput-aware evaluation between computational efficiency, success rate, and structural diversity. Overall, ProtDBench provides a fair and reproducible evaluation pipeline that supports systematic and controlled comparison of protein binder design methods under realistic evaluation settings.
Dream-MPC: 潜在的な想像力による勾配ベースのモデル予測制御
最先端のモデルベースの強化学習 (RL) アプローチでは、計画、学習されたポリシー ネットワーク、またはポリシー ネットワークと計画の組み合わせに、勾配のない母集団ベースの方法が使用されます。両方のパラダイムの利点を活用する前に、モデル予測制御 (MPC) を学習済みモデルおよびポリシーと組み合わせるハイブリッド アプローチは、有望な結果を示しています。ただし、これらのアプローチは通常、勾配のない最適化手法に依存しており、高次元の制御タスクでは計算コストが高くなる可能性があります。勾配ベースの手法は有望な代替手段ですが、最近の研究では、勾配ベースの手法のパフォーマンスが勾配のない手法よりも劣ることが多いことが経験的に示されています。我々は、ロールアウトされたポリシーから少数の候補軌道を生成し、学習された世界モデルを使用した勾配上昇、不確実性の正則化、および以前に最適化されたアクションを再利用することによる時間の経過に伴う最適化反復の償却によって各軌道を最適化する新しいアプローチである Dream-MPC を提案します。 24 の連続制御タスクに関する私たちの結果は、Dream-MPC が基礎となるポリシーのパフォーマンスを大幅に向上させ、勾配なしの MPC や最先端のベースラインを上回るパフォーマンスを発揮できることを示しています。コードとビデオは https://dream-mpc.github.io で入手できます。
原文 (English)
Dream-MPC: Gradient-Based Model Predictive Control with Latent Imagination
State-of-the-art model-based Reinforcement Learning (RL) approaches either use gradient-free, population-based methods for planning, learned policy networks, or a combination of policy networks and planning. Hybrid approaches that combine Model Predictive Control (MPC) with a learned model and a policy prior to leverage the advantages of both paradigms have shown promising results. However, these approaches typically rely on gradient-free optimization methods, which can be computationally expensive for high-dimensional control tasks. While gradient-based methods are a promising alternative, recent works have empirically shown that gradient-based methods often perform worse than their gradient-free counterparts. We propose Dream-MPC, a novel approach that generates few candidate trajectories from a rolled-out policy and optimizes each trajectory by gradient ascent using a learned world model, uncertainty regularization and amortization of optimization iterations over time by reusing previously optimized actions. Our results on 24 continuous control tasks show that Dream-MPC can significantly improve the performance of the underlying policy and can outperform gradient-free MPC and state-of-the-art baselines. Code and videos are available at https://dream-mpc.github.io.
SafeHarbor: LLM エージェントの安全のための階層型メモリ拡張ガードレール
基盤モデルの最近の進歩により、LLM は受動的な会話システムから、推論とツールの実行が可能な自律エージェントに変わりました。これらの機能は実質的な実用的価値を解放しますが、敵対者がエージェントを操作して現実世界の環境で有害なアクションを実行する可能性があるため、新たなセキュリティ リスクももたらします。既存の防御戦略はそのような脅威を軽減しますが、安全性と有用性のバランスをとるのにしばしば苦労し、その結果、無害なユーザー要求を過度に拒否する結果になります。このトレードオフを軽減するために、LLM エージェントの正確な決定境界を確立するように設計された新しいフレームワークである SafeHarbor を提案します。静的なガイドラインとは異なり、SafeHarbor は強化された敵対的生成を通じてコンテキストを認識した防御ルールを抽出します。私たちは、動的ルール注入用のローカル階層メモリ システムを設計し、トレーニング不要で効率的なプラグ アンド プレイ ソリューションを提供します。さらに、動的なノードの分割と結合を通じてメモリ構造を継続的に最適化する、情報エントロピーベースの自己進化メカニズムを導入します。広範な実験により、SafeHarbor があいまいで良性のタスクと明示的な悪意のある攻撃の両方で最先端のパフォーマンスを達成し、特に GPT-4o で 63.6\% のピーク無害ユーティリティを達成しながら、有害なリクエストに対して 93\% を超える堅牢な拒否率を維持していることが実証されています。ソース コードは https://github.com/ljj-cyber/SafeHarbor で公開されています。
原文 (English)
SafeHarbor: Hierarchical Memory-Augmented Guardrail for LLM Agent Safety
Recent advances in foundation models have transformed LLMs from passive conversational systems into autonomous agents capable of reasoning and tool execution. While these capabilities unlock substantial practical value, they also introduce new security risks, as adversaries can manipulate agents into performing harmful actions in real-world environments. Existing defense strategies mitigate such threats but frequently struggle to balance safety and utility, resulting in over-refusal of benign user requests. To mitigate this trade-off, we propose SafeHarbor, a novel framework designed to establish precise decision boundaries for LLM agents. Unlike static guidelines, SafeHarbor extracts context-aware defense rules through enhanced adversarial generation. We design a local hierarchical memory system for dynamic rule injection, offering a training-free, efficient, and plug-and-play solution. Furthermore, we introduce an information entropy-based self-evolution mechanism that continuously optimizes the memory structure through dynamic node splitting and merging. Extensive experiments demonstrate that SafeHarbor achieves state-of-the-art performance on both ambiguous benign tasks and explicit malicious attacks, notably attaining a peak benign utility of 63.6\% on GPT-4o while maintaining a robust refusal rate exceeding 93\% against harmful requests. The source code is publicly available at https://github.com/ljj-cyber/SafeHarbor.
VISD: 構造化自己蒸留によるビデオ推論の強化
複雑な推論のために VideoLLM をトレーニングすることは、疎なシーケンス レベルの報酬と、時間的に根拠のある長い推論軌跡にわたるきめ細かい単位の割り当てが欠如しているため、依然として困難です。検証可能な報酬を伴う強化学習 (RLVR) は信頼性の高い監視を提供しますが、トークン レベルの寄与を捕捉できず、非効率的な学習につながります。逆に、既存の自己蒸留手法は緻密な監視を提供しますが、構造と診断の特異性に欠けており、強化学習と不安定に相互作用することがよくあります。この研究では、ビデオ推論に診断的に意味のある特権情報を導入する構造化自己蒸留フレームワークである VISD を提案します。 VISD は、ビデオ対応の判定モデルを採用して、推論の質を解答の正しさ、論理的一貫性、時空間的根拠などの複数の次元に分解し、この構造化されたフィードバックを使用して、トークン レベルの監督のための教師のポリシーを導きます。高密度監視を RL と安定して統合するために、方向振幅デカップリング メカニズムを導入します。このメカニズムでは、報酬から計算されたロールアウト レベルの利点が更新方向を決定し、構造化された特権信号がトークン レベルの更新振幅を調整します。この設計により、意味的に調整されたきめ細かい単位の割り当てが可能になり、推論の忠実さとトレーニングの効率の両方が向上します。さらに、VISD にはカリキュラムのスケジューリングと EMA ベースの教師の安定化が組み込まれており、長いビデオ シーケンスにわたる堅牢な最適化をサポートします。さまざまなベンチマークの実験では、VISD が一貫して強力なベースラインを上回り、回答の精度と空間時間的グラウンディングの品質が向上していることが示されています。特に、VISD は最適化ステップでほぼ 2 倍高速な収束でこれらの利点を達成しており、VideoLLM のパフォーマンスとサンプル効率の両方を向上させる構造化自己監視の有効性を強調しています。
原文 (English)
VISD: Enhancing Video Reasoning via Structured Self-Distillation
Training VideoLLMs for complex reasoning remains challenging due to sparse sequence level rewards and the lack of fine grained credit assignment over long, temporally grounded reasoning trajectories. While reinforcement learning with verifiable rewards (RLVR) provides reliable supervision, it fails to capture token level contributions, leading to inefficient learning. Conversely, existing self distillation methods offer dense supervision but lack structure and diagnostic specificity, and often interact unstably with reinforcement learning. In this work, we propose VISD, a structured self distillation framework that introduces diagnostically meaningful privileged information for video reasoning. VISD employs a video aware judge model to decompose reasoning quality into multiple dimensions, including answer correctness, logical consistency, and spatio-temporal grounding, and uses this structured feedback to guide a teacher policy for token level supervision. To stably integrate dense supervision with RL, we introduce a direction magnitude decoupling mechanism, where rollout level advantages computed from rewards determine update direction, while structured privileged signals modulate token level update magnitudes. This design enables semantically aligned and fine grained credit assignment, improving both reasoning faithfulness and training efficiency. Additionally, VISD incorporates curriculum scheduling and EMA based teacher stabilization to support robust optimization over long video sequences. Experiments on diverse benchmarks show that VISD consistently outperforms strong baselines, improving answer accuracy and spatio temporal grounding quality. Notably, VISD reaches these gains with nearly 2x faster convergence in optimization steps, highlighting the effectiveness of structured self supervision in improving both performance and sample efficiency for VideoLLMs.
回路設計のラストマイルの橋渡し: PostEDA-Bench、PPA コンバージェンスと DRC 修正の階層ベンチマーク
LLM ベースのエージェントは、電子設計自動化 (EDA) の「ラスト マイル」に適用されることが増えています。つまり、残留サインオフ設計ルール チェック (DRC) 違反を修復し、ツール実行後に電力性能領域 (PPA) 目標を収束します。ただし、既存の EDA-LLM ベンチマークは DRC 修正を完全に省略し、単一のツールチェーンに結び付けられたフラットな階層に依存しています。 PostEDA-Bench は、DRC-Essential、DRC-Reasoning、PPA-Mono、および PPA-Multi にわたる 145 のタスクを含む階層型ベンチマークであり、機械チェック可能な評価を備えた EDA ツールチェーンによってサポートされています。複数のエージェント スキャフォールドの下にある 8 つの商用およびオープンソース LLM にわたって、エージェントは合成 DRC-Essential と単一目的の PPA-Mono をかなりうまく処理しますが、より実用的な DRC-Reasoning (最高の成功率が 36.66%) と PPA-Multi (最高の成功率が 20.00%) では急激に性能が低下することがわかりました。視覚増強は一貫して DRC-Bench を強化します。そして、ノブの知識ではなく、トレードオフの推論が PPA-Multi の主要なボトルネックです。
原文 (English)
Bridging the Last Mile of Circuit Design: PostEDA-Bench, a Hierarchical Benchmark for PPA Convergence and DRC Fixing
LLM-based agents are increasingly applied to the "last mile" of Electronic Design Automation (EDA): repairing residual sign-off Design Rule Check (DRC) violations and converging Power-Performance-Area (PPA) targets after tool runs. Existing EDA-LLM benchmarks, however, omit DRC fixing entirely and rely on flat hierarchies tied to a single toolchain. We introduce PostEDA-Bench, a hierarchical benchmark with 145 tasks across DRC-Essential, DRC-Reasoning, PPA-Mono, and PPA-Multi, supported by EDA toolchains with machine-checkable evaluation. Across eight commercial and open-source LLMs under multiple agent scaffolds, we find that agents handle synthetic DRC-Essential and single-objective PPA-Mono reasonably well but degrade sharply on the more practical DRC-Reasoning, where the best success rate is 36.66%, and PPA-Multi, where the best success rate is 20.00%; vision augmentation consistently enhances DRC-Bench; and trade-off reasoning, rather than knob knowledge, is the dominant PPA-Multi bottleneck.
AI ネイティブの大規模アジャイル ソフトウェア開発マニフェスト
アジャイル手法が広く採用されているにもかかわらず、大規模な真のアジリティを実現することは依然として困難です。大規模なアジャイル フレームワークは依然として人間中心かつ手動であり、調整会議、アーティファクトの同期、およびリアルタイムの適応を妨げる役割ベースの引き継ぎに依存しています。一方、AI、特に大規模な言語モデルの急速な進歩により、ソフトウェア エンジニアリングが変革され始めていますが、組織レベルの俊敏性に対する AI の可能性は依然として十分に検討されていません。私たちは、AI ネイティブの大規模アジャイル ソフトウェア開発マニフェストを提示します。これは、AI が周辺ツールではなく第一級の参加者になった場合に、大規模なソフトウェア開発がどのように組織されるかを再定義する一連の価値観と原則です。このマニフェストは、並行プロセス、意図主導のチーム、生きた知識、検証第一の保証、組織化されたエージェントの労働力、再利用可能なブループリントという 6 つの原則に基づいており、これらが連携して、開発を会議主導で文書中心の逐次プロセスから、インテリジェントで適応性のある継続的な学習システムに移行させます。
原文 (English)
The AI-Native Large-Scale Agile Software Development Manifesto
Despite the widespread adoption of agile methods, achieving true agility at scale remains elusive. Large-scale agile frameworks remain largely human-centric and manual, relying on coordination meetings, artifact synchronization, and role-based handoffs that inhibit real-time adaptation. Meanwhile, rapid advances in AI, particularly large language models, have begun transforming software engineering, yet their potential for organizational-level agility remains underexplored. We present the AI-Native Large-Scale Agile Software Development Manifesto: a set of values and principles that redefine how large-scale software development is organized when AI becomes a first-class participant rather than a peripheral tool. The manifesto is grounded in six principles, parallel processes, intent-driven teams, living knowledge, verification-first assurance, orchestrated agent workforces, and reusable blueprints, that together shift development from a meeting-driven, document-heavy, sequential process to an intelligent, adaptive, continuously learning system.
LLM エージェント ツール呼び出しトラフィックにおけるコンテンツ認識型攻撃の検出: 機能、アーキテクチャ、および評価プロトコルの実証的研究
モデル コンテキスト プロトコル (MCP) は、LLM エージェントが外部ツールを呼び出すためのインターフェイスとして広く採用されていますが、MCP ツール呼び出しトラフィックの学習された監視についてはまだ十分に研究されていません。この記事では、提案された検出器は、各エージェント セッションをグラフ (ツール呼び出しをノード、順次リンクとデータ フロー リンクをエッジ) としてエンコードし、引数と応答に対する文埋め込み機能でノードを強化し、セッションを良性か攻撃かを分類する、MCP ツール呼び出しトラフィックの攻撃検出フレームワークとして紹介されます。 3 つの GNN アーキテクチャ (GAT、GCN、GraphSAGE)、グラフなし MLP、および古典的なベースライン (XGBoost、ランダム フォレスト、ロジスティック回帰、線形 SVM) が評価されます。完全なアーキテクチャ比較は RAS-Eval (タスク階層化分割) で実行され、GraphSAGE は ATBench および結合ソース バリアント (両方ともラベル階層化) で GNN ベースラインとして保持されます。 3 つの発見が得られます。まず、コンテンツ レベルの機能が不可欠です。メタデータのみの検出は、アーキテクチャに関係なく AUROC 0.64 付近で頭打ちになりますが、コンテンツの埋め込みにより AUROC が 0.89 を超えるようになります。第 2 に、単純なランダム分割評価は、タスクに素な分割と比較して AUROC を最大 26 パーセントポイント上昇させます。これは、以前のエージェント検出作業では対処できなかった記憶の混乱です。第三に、検出信号は主に SBERT コンテンツ エンベディングに存在します。プールされたエンサンブル上のツリー アンサンブルによって 0.975 の AUROC に達し、ほとんどの場合、GNN (0.917) や MLP (0.896) を含むプライマリ RAS-Eval 設定のニューラル アーキテクチャよりも優れたパフォーマンスを発揮し、自己監視型事前トレーニングではラベル効率の利点が得られません。このタスク。
原文 (English)
Content-Aware Attack Detection in LLM Agent Tool-Call Traffic: An Empirical Study of Features, Architectures, and Evaluation Protocols
The Model Context Protocol (MCP) has become a widely adopted interface for LLM agents to invoke external tools, yet learned monitoring of MCP tool-call traffic remains underexplored. In this article, the proposed detector is presented as an attack detection framework for MCP tool-call traffic that encodes each agent session as a graph (tool calls as nodes, sequential and data-flow links as edges), enriches nodes with sentence-embedding features over arguments and responses, and classifies sessions as benign or attacked. Three GNN architectures (GAT, GCN, GraphSAGE), a no-graph MLP, and classical baselines (XGBoost, random forest, logistic regression, linear SVM) are evaluated, with the full architecture comparison conducted on RAS-Eval (task-stratified splits) and GraphSAGE retained as the GNN baseline on ATBench and a combined-source variant (both label-stratified). Three findings emerge. First, content-level features are essential: metadata-only detection plateaus around an AUROC of 0.64 regardless of architecture, while content embeddings push the AUROC above 0.89. Second, naive random-split evaluation inflates AUROC by up to 26 percentage points relative to task-disjoint splits, a memorization confound that prior agent-detection work has not addressed. Third, the detection signal resides primarily in the SBERT content embeddings: an AUROC of 0.975 was reached by tree ensembles on pooled embeddings, performing, for the most part, better than the neural architectures in the primary RAS-Eval setting including GNNs (0.917) and the MLP (0.896), and self-supervised pre-training does not deliver a label-efficiency advantage on this task.
ReCoVer: フォールトトレラントな集合的で汎用性の高いワークロードを介した回復力のある LLM 事前トレーニング システム
大規模な GPU クラスターで大規模な言語モデルを事前トレーニングすることにより、ハードウェア障害が稀ではなく日常的に発生するようになり、回復力のあるトレーニング システムの必要性が高まっています。しかし、既存のフレームワークは、特定の並列処理スキームに焦点を当てているか、失敗のないトレーニング軌道から逸脱する危険性があります。私たちは、単一の不変条件を維持する回復力のある LLM 事前トレーニング システムである ReCoVer を提案します。つまり、各反復でマイクロバッチの数を一定に保ち、反復ごとの勾配が失敗のない実行と確率的に等価であることを保証します。このフレームワークは、3 つの分離されたプロトコル層として構成されています。(1) 障害がレプリカ間で伝播するのを隔離するフォールトトレラント集合体。 (2) 反復内の進行状況を維持し、勾配の破損を防ぐ、段階的なきめ細かいリカバリ。 (3) マイクロバッチ クォータを生存者全体に動的に再配分する多用途ワークロード ポリシー。この設計は並列処理に依存せず、3D 並列処理とドロップイン サブストレートとしてハイブリッド シャード データ パラレル (HSDP) の両方を直接統合します。最大 512 GPU のエンドツーエンドの事前トレーニング タスクで実装を評価しました。ReCoVer は、実行全体で 256 GPU が失われたにもかかわらず、障害のないリファレンスからトレーニング軌跡を正常に保存しました。チェックポイントと再起動のベースラインと比較すると、ReCoVer は、連続した障害の後、実効スループットが 2.23 倍高いことを示しています。この利点により、ReCoVer は 234 GPU 時間で 74.9% 多くのトークンを処理することになり、トレーニングが長引くにつれてその差は拡大します。
原文 (English)
ReCoVer: Resilient LLM Pre-Training System via Fault-Tolerant Collective and Versatile Workload
Pre-training large language models on massive GPU clusters has made hardware faults routine rather than rare, driving the need for resilient training systems. Yet existing frameworks either focus on specific parallelism schemes or risk drifting away from a failure-free training trajectory. We propose ReCoVer, a resilient LLM pre-training system that upholds a single invariant: each iteration keeps the number of microbatches constant, ensuring per-iteration gradients remain stochastically equivalent to a failure-free run. The framework is organized as three decoupled protocol layers: (1) Fault-tolerant collectives that isolate faults from propagating across replicas; (2) in-step fine-grained recovery that preserves intra-iteration progress and prevents gradient corruption; (3) versatile-workload policy that dynamically redistributes microbatch quotas across the survivors. The design is parallelism-agnostic, integrating directly with both 3D parallelism and Hybrid Sharded Data Parallel (HSDP) as a drop-in substrate. We evaluate our implementation on end-to-end pre-training tasks for up to 512 GPUs, ReCoVer successfully preserves the training trajectory from a failure-free reference despite of 256 GPUs lost spread across the run. For comparison with checkpoint-and-restart baselines, ReCoVer demonstrates $2.23\times$ higher effective throughput after successive failures. This advantage results in ReCoVer processing 74.9% more tokens at 234 GPU-hours, with the gap widening as the training prolongs.
シリコンと海馬の架け橋: Vector-HaSH および TEM の基板としての代数決定論的記憶「VaCoAl」
Vector-HaSH と Tolman-Eichenbaum Machine (TEM) は、海馬-嗅内回路が構成再生のためにグリッドセル足場を介して記憶を因数分解することを提案しています。同時に、人間の iEEG では、鋭い波のリップル ゲート リコールとマルチホップ リプレイ忠実度が乗算的に減衰することが示されています。しかし、これらの分野には共通の代数基盤がありません。ガロア体の線形フィードバック シフト レジスタ上に構築された代数決定論的な超次元メモリ アーキテクチャである VaCoAl を紹介します。その決定論的なガロア場拡散は、Vector-HaSH のランダム投影に代わる基板レベルの代替手段を提供し、ビット精度の再現性を確保しながら準直交性を一致させます。さらに、経路積分信頼比 CR2 は、経験的に観察された乗算再生減衰に対する代数的に扱いやすいモデルを提供します。生物学的には、VaCoAl の 2 つの動作体制は EC-CA3 直接経路と EC-DG-CA3 の三シナプス経路と一致しており、その 5 億 2,000 万ドルの保存が説明されています。独立した細胞証拠は、DG-CA3 経路がガロア体演算の生物物理学的相同体を実装していることを裏付けています。また、このフレームワークを Judea Pearl の Ladder of Causation にリンクします。可逆 GF(2) バインディングは do 演算子の外科代数 (ラング 2) を提供し、VaCoAl のデュアル直交化アーキテクチャは反事実推論に必要な並列基質を提供します (ラング 3)。最終的に、私たちはこれらの形式的な対応関係を証明し、計算神経科学、電気生理学、超次元コンピューティングを統合して、テスト可能な iEEG 予測を導き出します。
原文 (English)
Bridging Silicon and the Hippocampus: Algebro-Deterministic Memory "VaCoAl" as a Substrate for Vector-HaSH and TEM
Vector-HaSH and the Tolman-Eichenbaum Machine (TEM) propose the hippocampal-entorhinal circuit factorizes memory via a grid-cell scaffold for compositional replay. Concurrently, human iEEG shows sharp-wave ripples gate recall and multi-hop replay fidelity decays multiplicatively. Yet, these fields lack a shared algebraic foundation. We introduce VaCoAl, an algebro-deterministic hyperdimensional memory architecture built on Galois-field linear-feedback shift registers. Its deterministic Galois-field diffusion offers a substrate-level alternative to Vector-HaSH's random projections, matching quasi-orthogonality while ensuring bit-exact reproducibility. Furthermore, the path-integral Confidence Ratio CR2 provides an algebraically tractable model for the empirically observed multiplicative replay decay. Biologically, VaCoAl's two operating regimes align with the EC-CA3 direct and EC-DG-CA3 trisynaptic pathways, explaining their 520-Myr conservation. Independent cellular evidence supports that the DG-CA3 pathway implements a biophysical homologue of Galois-field arithmetic. We also link this framework to Judea Pearl's Ladder of Causation. Reversible GF(2) binding provides the surgical algebra for the do-operator (Rung 2), and VaCoAl's dual-orthogonalizer architecture supplies the parallel substrate required for counterfactual reasoning (Rung 3). Ultimately, we prove these formal correspondences and derive testable iEEG predictions, uniting computational neuroscience, electrophysiology, and hyperdimensional computing.
自動セグメンテーションとブロック蒸留によるブロック アテンションの一般化に向けて
相互に対応できない個別のブロックとして入力を処理するブロック アテンションは、検索拡張生成 (RAG) などの長いコンテキストのシナリオで KV キャッシュの再利用を向上させる大きな可能性をもたらします。しかし、その広範な応用は 2 つの重要な課題によって妨げられています。それは、入力テキストを意味のある自己完結型ブロックに分割することの難しさ、もう 1 つは、パフォーマンスを低下させる危険性がある既存のブロック微調整方法の非効率性です。これらに対処するために、まず SemanticSeg を構築します。これは、テキスト長が 2k から 32k までの書籍、コード、Web テキスト、会話など、16 のカテゴリにわたる 30,000 を超えるインスタンスを含む大規模で多様なセマンティック セグメンテーション データセットです。このデータセットを使用して、制御可能な粒度でテキストを人間の本能に合わせたブロックに自動的に分割する軽量セグメンターをトレーニングします。次に、ブロック微調整よりも効率的なトレーニング フレームワークであるブロック蒸留を提案します。これは、ブロック注意の生徒を指導するために凍結された全注意教師モデルを使用します。このフレームワークには、ブロック境界での情報損失を軽減するブロック シンク トークン、すべてのブロックからのトレーニング信号を活用するブロック ドロップアウト、およびブロック アテンションセンシティブ トークンの学習に焦点を当てるトークン レベルの損失重み付けという 3 つの新しいコンポーネントが統合されています。複数のモデルとベンチマークにわたる実験では、セグメンターがヒューリスティックおよび統計ベースラインを上回るパフォーマンスを示し、ブロック蒸留がブロック アテンション下でほぼフル アテンションのパフォーマンスを達成し、ブロック アテンションを展開するための実用的でスケーラブルな経路を確立していることが実証されています。
原文 (English)
Towards Generalization of Block Attention via Automatic Segmentation and Block Distillation
Block attention, which processes the input as separate blocks that cannot attend to one another, offers significant potential to improve KV cache reuse in long-context scenarios such as Retrieval-Augmented Generation (RAG). However, its broader application is hindered by two key challenges: the difficulty of segmenting input text into meaningful, self-contained blocks, and the inefficiency of existing block fine-tuning methods that risk degrading performance. To address these, we first construct SemanticSeg, a large and diverse semantic segmentation dataset containing over 30k instances across 16 categories-including books, code, web text, and conversations with text lengths ranging from 2k to 32k. Using this dataset, we train a lightweight segmenter to automatically partition text into human-instinct-aligned blocks with controllable granularity. Second, we propose block distillation, a training framework that is more efficient than block fine-tuning, which uses a frozen full-attention teacher model to guide the block-attention student. This framework integrates three novel components: block sink tokens to mitigate information loss at block boundaries, block dropout to leverage training signals from all blocks, and token-level loss weighting to focus learning on block-attention-sensitive tokens. Experiments across multiple models and benchmarks demonstrate that our segmenter outperforms heuristic and statistical baselines, and block distillation achieves near-full-attention performance under block attention, establishing a practical and scalable pathway for deploying block attention.
信頼性があり説明可能な知覚モデル向け AI を目指して: コンセプトからプロトタイプ車両の配備まで
ディープ ニューラル ネットワークは、自動運転の認識のための主要なソリューションとなっていますが、その不透明さは、新たな Trustworthy AI ガイドラインと矛盾し、安全性の保証、デバッグ、人間の監視を複雑にしています。安全で説明可能な AI (XAI) の理論的フレームワークは存在しますが、3D シーンを理解するための信頼できる AI の具体的な実装は依然として不足しています。私たちは、非常に堅牢で、忠実な説明可能性と校正された不確実性推定を統合する Trustworthy AI 認識モジュールを提案することで、このギャップに対処します。トランスベースの検出器に基づいて、推論時のアテンション メカニズムから説明を導き出し、摂動ベースの一貫性テストを使用してその忠実性を検証します。さらに、不確実性の推定および校正モジュールを統合し、ロバスト性を強化するトレーニング方法を適用します。実験では、忠実な顕著性動作、改善された堅牢性、および適切に校正された不確実性推定値が示されています。最後に、これらの信頼できる AI 要素をプロトタイプ車両に導入し、文書アーティファクト、モデルの不確実性状態、顕著性マップを視覚化する XAI インターフェイスを提供し、リアルタイムで信頼できる知覚モニタリングの実現可能性を実証します。補足資料は https://tillbeemelmanns.github.io/trustworthy_ai/ で入手できます。
原文 (English)
Towards Trustworthy and Explainable AI for Perception Models: From Concept to Prototype Vehicle Deployment
Deep Neural Networks have become the dominant solution for Autonomous Driving perception, but their opacity conflicts with emerging Trustworthy AI guidelines and complicates safety assurance, debugging, and human oversight. While theoretical frameworks for safe and Explainable AI (XAI) exist, concrete implementations of Trustworthy AI for 3D scene understanding remain scarce. We address this gap by proposing a Trustworthy AI perception module that is remarkably robust, integrates faithful explainability, and calibrated uncertainty estimates. Building on a transformer-based detector, we derive explanation from the attention mechanism at inference time and validate their faithfulness using perturbation-based consistency tests. We further integrate an uncertainty estimation and calibration module, and apply robustness-enhancing training methods. Experiments show faithful saliency behavior, improved robustness, and well-calibrated uncertainty estimates. Finally, we deploy these Trustworthy AI elements in a prototype vehicle and provide an XAI Interface that visualizes documentation artifacts, model uncertainty state, and saliency maps, demonstrating the feasibility of trustworthy perception monitoring in real time. Supplementary materials are available at https://tillbeemelmanns.github.io/trustworthy_ai/ .
回復メカニズムはAIに耐えられるか?スキル形成、労力、現在の測定で見逃されるもの
近代を通して、新しいテクノロジーが労働者に取って代わるとき、社会は同じメカニズムを通じて適応しました。教育は認知の上限を引き上げ、機械がまだ達成できなかったタスクを実行できる労働者を生み出しました。生成 AI は現在、その上限の上限で動作しているため、このサイクルを打破する最初のテクノロジーになる可能性があります。この論文は、労働経済学、複数のプラットフォームにわたる何百万もの AI 会話からの展開データ、2 つの公開データセットの独自の再分析、およびスキル形成の実験に基づいて、3 つの貢献を展開しています。まず、ストック対フローの枠組みは、経済データと教育データが同じテクノロジーについて異なる物語を伝えていることを示しています。つまり、増強は現在の労働者を支配していますが、次世代を生み出す開発パイプラインは負担にさらされています。第二に、証拠ベースの体系的なギャップ分析により、すべての主要な研究で認知の知識次元が測定されていないこと、学習成果を測定している 3 つの研究 (それぞれ $n < 200$) で一貫して AI は学習を向上させることなくパフォーマンスを向上させていることがわかっている (クロスプラットフォーム再分析では $d = 1.21$)、そして専門家と学生の集団の橋渡しをする研究は存在しないことが明らかになりました。第三に、拡張認知分類法 (不確実性、認識論的同一性、認識論的主体性の下での判断) を証拠に基づいて 3 つのケースに適用し、学習を維持する AI 相互作用パターンと、学習を侵食する構造的に類似した相互作用パターンを区別しました。この論文は、AIの社会的リスクは教師に取って代わられることではなく、次世代の能力が形成される生産的な闘争を排除することにあると主張し、現在の測定システムが見逃しているものを対象とした研究と設計の課題を提案している。
原文 (English)
Can the Recovery Mechanism Survive AI? Skill Formation, Labor, and What Current Measurement Misses
Throughout the modern era, when new technologies displaced workers, societies adapted through the same mechanism: education raised the cognitive ceiling, producing workers capable of tasks machines could not yet reach. Generative AI may be the first technology to break this cycle, because it now operates at the top of that ceiling. Drawing on labor economics, deployment data from millions of AI conversations across multiple platforms, original reanalysis of two public datasets, and skill-formation experiments, this paper develops three contributions. First, a stock-versus-flow framework showing that economic data and education data tell divergent stories about the same technology: augmentation dominates current workers, but the developmental pipeline producing the next generation is under strain. Second, a systematic gap analysis of the evidence base, revealing that the knowledge dimension of cognition is unmeasured across all major studies, that the three studies measuring learning outcomes (each $n < 200$) consistently find AI improves performance without improving learning ($d = 1.21$ in our cross-platform reanalysis), and that no study bridges professional and student populations. Third, an extended cognitive taxonomy (judgment under uncertainty, epistemic identity, and epistemic agency) applied to three cases from the evidence to distinguish AI interaction patterns that preserve learning from structurally similar ones that erode it. The paper argues that AI's societal risk lies not in replacing teachers but in eliminating the productive struggle through which the next generation's capacity forms, and proposes a research and design agenda targeting what current measurement systems miss.
クロスドメイン分子リレーショナル学習: 化学構造活性分析の活用
分子表現における最近の進歩により、分子トポロジーと視覚モダリティが統合され、正確な分子リレーショナル学習 (MRL) への新たな道が開かれました。既存の MRL 手法はドメイン内モデリングに焦点を当てており、その固有のドメイン閉鎖効果により、分子科学、特にクロスドメイン相互作用メカニズムの解明への適用が制限されています。その結果、クロスドメイン分子リレーショナル学習の緊急性がますます高まっています。構造活性解析の利点を活用して、分子構造と視覚画像のクロスドメイン適応表現を最適化するために、構造的意味伝達不一致を備えたドメイン敵対的トレーニング ネットワーク (DisTrans) を提案します。 1) 分子構造のドメイン依存性を学習するために、ドメイン間の部分構造トポロジーの不一致に基づく勾配反転戦略を採用します。この戦略により、モデルがターゲット ドメイン内の構造的隣接パターンに適応し、ドメイン分離可能な構造表現が生成されます。 2) クロスドメイン表現ガイダンスメカニズムを適用して、ソースドメインとターゲットドメインの間で機能グループの意味情報を調整し、クロスドメインの一貫性情報を学習します。 2 つの典型的なクロスドメイン戦略での実験結果は、DisTrans が 16 のベースライン手法を上回っており、顕著なドメイン間の不一致下でも満足のいくパフォーマンスを維持していることを示しています。
原文 (English)
Cross-Domain Molecular Relational Learning: Leveraging Chemical Structure-Activity Analysis
Recent advances in molecular representation integrates molecular topological and visual modalities, opening new avenues for precise Molecular Relational Learning (MRL). Existing MRL methods focus on intra-domain modeling, and their inherent domain-closed effect limits applicability to molecular science, particularly in elucidating cross-domain interaction mechanisms. Consequently, the imperative for Cross-Domain Molecular Relational Learning has become increasingly pressing. Benefiting from structure-activity analysis, we propose the Domain Adversarial Training Network with Structural-Semantic Transfer Discrepancy (DisTrans) to optimize cross-domain adaptive representation for molecular structures and visual images. 1) We employ the gradient reversal strategy based on substructure topological discrepancies between domains to learn the domain dependence of molecular structures. This strategy guides the model to adapt to the structural adjacency patterns in the target domain, generating domain-separable structural representations. 2) We apply the cross-domain representation guidance mechanism to align the functional-group semantic information between the source and target domains, learning cross-domain consistency information. The experimental results in two typical cross-domain strategies demonstrate that DisTrans outperforms 16 baseline methods, maintaining satisfactory performance even under pronounced inter-domain discrepancy.
S-Bus: マルチエージェント LLM 状態調整のための自動読み取りセット再構築
HTTP 経由で変更可能な状態を共有する LLM エージェントの同時実行制御に対処します。この場合、エージェントを変更して読み取りセットを宣言することはできません。 S-Bus は HTTP ミドルウェアであり、その中心的なメカニズムであるサーバー側の DeliveryLog が、観測された HTTP GET トラフィックからコミット時に各エージェントの読み取りセットを再構築します。これが提供する一貫性プロパティ -- Observable-Read Isolation (ORI)、HTTP 監視可能な読み取りプロジェクションに対する部分的な因果的一貫性 -- により、専用シャード トポロジでの構造的競合状態が防止されます。 3 つの貢献。 (C1) 3 層の機械化された証拠を備えた DeliveryLog メカニズム: TLAPS は ReadSetSoundness と ORICommitSafety (モジュロ 1 の型付け公理) を証明します。 N=3 での網羅的な TLC では、違反がゼロの 20,763,484 州を調査します。 Dafny は 9 つの帰納補題を導き出します。 (C2) PostgreSQL 17 SERIALIZABLE および Redis 7 WATCH/MULTI に対する経験的安全性パリティ: 884,110 回のコミット試行で Type-I 破損はゼロ (アクティブな競合下では 427,308 回)。 (C3) ORI は、専用シャードのワークロードでは意味的に中立ですが、単一シャードの共同執筆では、保存により同時矛盾が伝播するため有害です。 v2 アップデート: PH-3 LLM ジャッジは現在、人間のアノテーター (Zahid Hussain、Mindgigs Peshawar) に対して、厳密な kappa=0.93 (n=93、生の一致率 96.8%) で 400 (ステップ、シャード) ペアで独立して検証されています。 LLM と裁判官間の一致は、kappa=0.46 (境界分散) です。エージェントは、シャードの使用量を 32% (LLM 判事) ~ 49% (人間のアノテーター) 過剰に使用していると自己報告します。 SJ-v4 の意味品質ルーブリックは引き続き単一審査員 LLM のみです。ソースコード、正式な証明、ハーネス、アノテーションデータ: https://github.com/sajjadanwar0/sbus
原文 (English)
S-Bus: Automatic Read-Set Reconstruction for Multi-Agent LLM State Coordination
We address concurrency control for LLM agents sharing mutable state over HTTP, where agents cannot be modified to declare read sets. S-Bus is an HTTP middleware whose central mechanism, a server-side DeliveryLog, reconstructs each agent's read set at commit time from observed HTTP GET traffic. The consistency property it provides -- Observable-Read Isolation (ORI), a partial causal consistency over the HTTP-observable read projection -- prevents Structural Race Conditions in dedicated-shard topologies. Three contributions. (C1) DeliveryLog mechanism with three-tier mechanised evidence: TLAPS proves ReadSetSoundness and ORICommitSafety (modulo one typing axiom); exhaustive TLC at N=3 explores 20,763,484 states with zero violations; Dafny discharges 9 inductive lemmas. (C2) Empirical safety parity against PostgreSQL 17 SERIALIZABLE and Redis 7 WATCH/MULTI: zero Type-I corruptions across 884,110 commit attempts (427,308 under active contention). (C3) ORI is semantically neutral in dedicated-shard workloads but harmful in single-shard collaborative writing because preservation propagates concurrent contradictions. v2 update: the PH-3 LLM judge is now independently validated against a human annotator (Zahid Hussain, Mindgigs Peshawar) on 400 (step, shard) pairs at strict kappa=0.93 (n=93, 96.8% raw agreement). Inter-LLM-judge agreement is kappa=0.46 (boundary variance). Agent self-reports over-claim shard usage by 32% (LLM judge) to 49% (human annotator). The SJ-v4 semantic-quality rubric remains single-judge LLM-only. Source code, formal proofs, harness, annotation data: https://github.com/sajjadanwar0/sbus
DynMuon: ミュオンの動的スペクトル形成ビュー
近年、Muon は、大規模な言語モデルやより広範なトランスフォーマーをトレーニングするための有力な方法として台頭しています。標準の勾配降下法と比較した場合の本質的な違いは、通常の更新行列 $M=U\Sigma V^\top$ をその極因子 $UV^\top$ に置き換えることです。この研究では、Muon のような更新のクラスを考慮します。そこでは、いくつかのパラメータ $p$ について、更新 $M$ を $U\Sigma^p V^\top$ に置き換えます。我々はこれを「スペクトル整形」操作と呼び、(a) 損失関数の局所曲率、(b) 確率的勾配とラベルノイズから生じるノイズ、(c) トレーニング段階に依存する $p$ を選択する方法の理論を開発します。私たちの理論と実験により、これまで見落とされていた動作が明らかになりました。正の $p$ は、曲率の高い方向を強調し、信号の収縮を加速することで初期に役立ちますが、緩やかに負の $p$ は、有用なトレーニング信号がまだ含まれている曲率の低い方向に更新強度を再割り当てすることで、後で役立ちます。この洞察に基づいて、トレーニング中に $p$ を正からわずかに負にスケジュールする効率的な動的スペクトル整形手法である DynMuon を提案します。モデルのサイズ、アーキテクチャ、トレーニング設定にわたる広範な実験により、DynMuon は Muon よりも一貫して低い検証損失を達成しながら、同じ目標損失に到達するために必要なステップが 10.6 ~ 26.5% 少ないことが示されました。
原文 (English)
DynMuon: A Dynamic Spectral Shaping View of Muon
In recent years, Muon has emerged as the dominant method for training large language models, and transformers more broadly. The essential difference, when compared to standard gradient descent methods, is to replace the usual update matrix $M=U\Sigma V^\top$ with its polar factor $UV^\top$. In this work, we consider a class of Muon-like updates, where we replace the update $M$ with $U\Sigma^p V^\top$ for some parameter $p$. We call this a "spectral-shaping" operation, and develop a theory of how to pick $p$ which depends on (a) local curvature of the loss function, (b) noise stemming from stochastic gradients and label noise, and (c) training stage. Our theory and experimentation reveal a previously overlooked behavior: positive $p$ helps early by emphasizing high-curvature directions and accelerating signal contraction, while mildly negative $p$ helps later by reallocating update strength toward low-curvature directions that still contain useful training signals. Building on the insight, we propose DynMuon, an efficient dynamic spectral shaping method that schedules $p$ from positive to mildly negative over training. Extensive experiments across model sizes, architectures, and training settings show that DynMuon consistently achieves lower validation loss than Muon, while requiring 10.6-26.5% fewer steps to reach the same target loss.
IVF-TQ: コードブック不要の残留層を介したキャリブレーション不要のストリーミング ベクトル検索
ストリーミング コーパスに対して展開された近似最近傍 (ANN) インデックスは、数週間が経過すると暗黙的にリコールを失います。標準的な診断は分布シフトですが、シャッフル i.i.d の下にあります。取り込み -- まったくシフトなし -- プロダクトの量子化は、ビット バジェットが一致していない場合でも -3.8pp 低下します。主要な運用圧縮方法 (PQ、OPQ、ScaNN) はすべて、コードブックを初期サンプルに適合させ、データベースが桁違いに大きくなるにつれてそれを再利用します。この論文では、残留圧縮層がデータに依存しない逆ファイル インデックスである IVF-TQ について説明します。固定ランダム回転の後に、ビット幅 b と次元 d のみでパラメータ化された事前計算済みの Lloyd-Max スカラー量子化器が続きます。 IVF の粗い K 平均分割のみがトレーニングされます。 (b, d, delta) のみに依存する均一対球内積誤差境界は、学習済みコードブック手法では認められない構造的保証を提供します。同じコードブックのない設計により、Extended RaBitQ とのギャップを統計ノイズ (一致したビット バジェットでフラット TQ より +17.7pp) 以内に縮める IVF 増幅効果と、圧縮層に触れることなくパーティションをリフレッシュするアダプティブ バリアントが可能になります。 9 つの制御セル (3 つの 10M データセット、3 つの PQ メモリ領域、3 つのシード) にわたって、バッチごとの PQ コードブックの再トレーニングではストリーミング ギャップが回復されません。 IVF-PQ ストリーミングの安定性にはデータセットごとのビットバジェット調整が必要ですが、IVF-TQ は 3 つのデータセットすべてで 1 つの固定 (b, d) 構成に保持され、デルタは [-0.80, +0.56]pp になります。この貢献は運用可能です。トレーニングするコードブックはなく、データセットごとのビットバジェット調整も、ギャップを埋めるための再トレーニング サイクルも必要ありません。
原文 (English)
IVF-TQ: Calibration-Free Streaming Vector Search via a Codebook-Free Residual Layer
Approximate nearest neighbor (ANN) indexes deployed against streaming corpora silently lose recall over weeks. The standard diagnosis is distribution shift, but under shuffled-i.i.d. ingestion -- no shift at all -- product quantization still degrades -3.8pp at sub-matched bit budgets. The dominant production compression methods (PQ, OPQ, ScaNN) all fit a codebook to an initial sample and reuse it as the database grows by orders of magnitude. This paper presents IVF-TQ, an inverted-file index whose residual compression layer is data-independent: a fixed random rotation followed by a precomputed Lloyd-Max scalar quantizer parameterised only by the bit width b and dimension d. Only the IVF coarse k-means partition is trained. A uniform-over-sphere inner-product error bound depending only on (b, d, delta) provides a structural guarantee no learned-codebook method admits. The same codebook-free design enables an IVF-amplification effect that closes the gap to Extended RaBitQ to within statistical noise (+17.7pp over flat TQ at matched bit budget), and an Adaptive variant that refreshes the partition without touching the compression layer. Across nine controlled cells (three 10M datasets, three PQ memory regimes, three seeds), per-batch PQ codebook retraining never recovers the streaming gap; IVF-PQ streaming stability requires per-dataset bit-budget tuning, while IVF-TQ holds at one fixed (b, d) configuration on all three datasets with Delta in [-0.80, +0.56]pp. The contribution is operational: no codebook to train, no per-dataset bit-budget tuning, no retraining cycle that ever closes the gap.
非同期プレゼンテーショントレーニングにおけるマルチモーダルな感情フィードバックのための解釈可能な閉ループインテリジェント個別指導システム
この論文では、カメラ上での口頭プレゼンテーションのスキルを大規模に開発するためのフィードバックに基づいた実践をサポートする、解釈可能な閉ループのインテリジェント個別指導システム (ITS) を紹介します。このシステムは、7 次元の行動アンカー評価スケール (BARS) を運用し、ルーブリックに合わせたマルチモーダル スコアリング、視聴者が知覚する表現力の診断、および意図的な練習をサポートする検索強化会話型コーチングを接続する 3 層の解釈可能なフィードバック アーキテクチャを実装しています。 XGBoost バックボーン上に構築された ITS は、マルチモーダル入力 (顔、音声、テキスト、および眼球運動の特徴) を、観察可能なパフォーマンスの手がかりにまで遡ることができる証拠に基づいたフィードバックにマッピングします。 10,360 の大規模オープン オンライン コース (MOOC) ビデオ セグメントでトレーニングされたこのシステムは、専門家の評価に匹敵するパフォーマンス レベル (R2 = 0.48 ~ 0.61、Spearman の rho = 0.69 ~ 0.78、MAE = 0.43 ~ 0.57) でルーブリックに沿ったスコアリングを達成しました。 204 人の成人学習者を対象とした 30 日間の練習期間にわたる事前事後検証研究では、参加者は BARS の 7 つの次元すべてで大幅な改善を実証し (コーエンの d = 0.39 ~ 0.90)、ベースライン スコアと人口統計を調整した後、練習頻度は事後テストの成績と強い正の関連性を示しました。この結果は、マルチモーダルな分析出力が、統合されたフィードバック アーキテクチャを通じて観察可能な行動変化に体系的に変換され、パフォーマンスベースのコンピテンシーを実現するための説明可能で教育学的に根拠のある ITS 設計を前進させる方法を示しています。
原文 (English)
An Interpretable Closed-Loop Intelligent Tutoring System for Multimodal Affective Feedback in Asynchronous Presentation Training
This paper presents an interpretable closed-loop Intelligent Tutoring System (ITS) that supports feedback-guided practice for developing on-camera oral presentation skills at scale. The system operationalizes a seven-dimensional Behaviorally Anchored Rating Scale (BARS) and implements a three-layer interpretable feedback architecture that connects rubric-aligned multimodal scoring, audience-perceived expressive diagnostics, and retrieval-augmented conversational coaching to support deliberate practice. Built on an XGBoost backbone, the ITS maps multimodal inputs (facial, vocal, textual, and oculomotor features) into evidence-based feedback that can be traced back to observable performance cues. Trained on 10,360 Massive Open Online Course (MOOC) video segments, the system achieved rubric-aligned scoring with performance levels comparable to expert ratings (R2 = 0.48-0.61, Spearman's rho = 0.69-0.78, MAE = 0.43-0.57). In a pre-post validation study with 204 adult learners over a 30-day practice window, participants demonstrated significant improvements across all seven BARS dimensions (Cohen's d = 0.39-0.90), with practice frequency showing a strong positive association with posttest performance after controlling for baseline scores and demographics. The results demonstrate how multimodal analytic outputs can be systematically transformed into observable behavioral change through an integrated feedback architecture, advancing explainable and pedagogically grounded ITS design for performance-based competencies.
TwinRouterBench: 現実的なエージェント LLM ルーティングのための高速静的およびライブ動的評価
LLM ルーティングは、コーディング エージェント、詳細調査システム、コンピュータ使用エージェントなど、単一のユーザー リクエストが多くのモデル呼び出しをトリガーする長期的なアプリケーションで最も重要です。各コールを最も安価な十分なモデルにルーティングすると、品質を犠牲にすることなくコストを削減できますが、既存のルーター ベンチマークはワンショット プロンプトでのみルーターを評価します。中間エージェントのステップでルーターから見えるプレフィックスを公開することは決してなく、より安価な代替品が下流のタスクの成功を維持するかどうかをテストすることもありません。また、多くの場合、評価時にオンラインの LLM 判定に依存します。 2 つのトラックを備えたステップレベルのルーティング ベンチマークである TwinRouterBench を紹介します。静的トラックは、SWE ベンチ、BFCL、mtRAG、QMSum、および PinchBench にわたる 520 のインスタンスからの 970 のルーター可視プレフィックスを提供します。それぞれは、リリースされたダウングレードおよびカスケード プロトコルに基づいて推定された実行検証済みのターゲット層とペアになっています。スコアリングは、オンライン評価者側の LLM ジャッジなしで、ティア ラベル、軌跡メンバーシップ、およびトークン コストに関する決定論的な算術演算です。ダイナミック トラックは、500 ケースの SWE ベンチ検証済みスイート全体でルーターを実行するハーネスを提供します。この論文では、静的な SWE 監視分割とは切り離された 100 件のホールドアウト評価を報告します。各 LLM 呼び出しで、ルーターはロックされたプールから具体的なモデルを選択し、成功は公式のタスク解決と実際の API 消費量によって測定されます。 2 つのトラックは、高速なオフライン反復と、その後のライブ エージェント実行下でのエンドツーエンド検証をサポートします。コードとデータは https://github.com/CommonstackAI/TwinRouterBench で入手できます。
原文 (English)
TwinRouterBench: Fast Static and Live Dynamic Evaluation for Realistic Agentic LLM Routing
LLM routing matters most in long-horizon applications such as coding agents, deep research systems, and computer-use agents, where a single user request triggers many model calls. Routing each call to the cheapest sufficient model can cut costs without sacrificing quality, yet existing router benchmarks evaluate routers only on one-shot prompts. They never expose the router-visible prefix at an intermediate agent step, never test whether a cheaper replacement preserves downstream task success, and often rely on online LLM judges at evaluation time. We introduce TwinRouterBench, a step-level routing benchmark with two tracks. The static track provides 970 router-visible prefixes from 520 instances across SWE-bench, BFCL, mtRAG, QMSum, and PinchBench, each paired with an execution-verified target tier estimated under a released downgrade-and-cascade protocol; scoring is deterministic arithmetic over tier labels, trajectory membership, and token costs, with no online evaluator-side LLM judge. The dynamic track supplies a harness that runs routers on the full 500-case SWE-bench Verified suite; in this paper we report a 100-case held-out evaluation disjoint from the static SWE supervision split. At each LLM call the router selects a concrete model from a locked pool, and success is measured by official task resolution and realized API spend. The two tracks support fast offline iteration followed by end-to-end validation under live agent execution. Code and data are available at https://github.com/CommonstackAI/TwinRouterBench.
あなたの山火事予測モデルは実際に機能しますか? それとも単に良いスコアを出しただけですか?
山火事の予測は早期警戒と資源配分にとって重要ですが、既存の地球基盤モデル (Earth FM) は、山火事の予測ではなく、一般的な大気および地球物理学的目的のために事前トレーニングされています。このギャップに対処するために、気象、活発な火災観測、地形、植生、および静的環境データを使用して山火事予測専用に事前トレーニングされた初の基礎モデルである WILDFIRE-FM を導入します。ただし、ドメイン固有のバックボーンを導入するだけでは評価の問題は解決されません。山火事イベントは空間的にも時間的にもまばらであるため、転送の結論は一致ルールと評価設定に非常に影響されやすくなります。この問題に対処するために、マッチング ルール効果の固定出力チェックとヘッド選択効果の固定特徴チェックの 2 つの制御されたチェックを備えた固定契約評価フレームワークを導入します。一致した契約の下で、占有、拡散、取得、および回帰タスクにわたって、WILDFIRE-FM と 10 個の Earth-FM ベースラインを比較します。私たちの結果は、山火事移転の結論が評価設計とタスクの定式化に大きく依存することを示しています。私たちは、このフレームワークと WILDFIRE-FM が、将来の山火事に特化した Earth-FM 研究とベンチマークの基盤となることを願っています。私たちのコードは https://anonymous.4open.science/r/Wildfire-fm-evaluation-contracts-5AE9/ で入手できます。
原文 (English)
Does Your Wildfire Prediction Model Actually Work, or Just Score Well?
Wildfire prediction is important for early warning and resource allocation, yet existing Earth foundation models (Earth FMs) are pretrained for general atmospheric and geophysical objectives rather than wildfire forecasting. To address this gap, we introduce WILDFIRE-FM, the first foundation model pretrained specifically for wildfire prediction using weather, active-fire observations, topography, vegetation, and static environmental data. However, introducing a domain-specific backbone alone does not solve the evaluation problem: wildfire events are sparse in space and time, making transfer conclusions highly sensitive to matching rules and evaluation settings. To address this problem, we introduce a fixed-contract evaluation framework with two controlled checks: a fixed-output check for matching-rule effects and a fixed-feature check for head-selection effects. Under matched contracts, we compare WILDFIRE-FM with ten Earth-FM baselines across occupancy, spread, retrieval, and regression tasks. Our results show that wildfire transfer conclusions depend strongly on evaluation design and task formulation. We hope this framework and WILDFIRE-FM provide a foundation for future wildfire-specific Earth-FM research and benchmarking. Our code is available at https://anonymous.4open.science/r/Wildfire-fm-evaluation-contracts-5AE9/.
効果的なタスク演算のための線形化された動作を非線形微調整に抽出する
タスク ベクトル合成は、事前トレーニングされたモデルを編集するための有望なパラダイムとして浮上しており、加算によるモデルの結合と減算による学習解除を可能にします。事前トレーニングされたモデルの接線空間での微調整 (線形微調整) は、自然に解きほぐされ、干渉に強いタスク ベクトルを生成するため、効果的であることが証明されています。ただし、線形化モデルはトレーニング中の表現力が制限され、推論時に高い計算コストが発生するため、実際の適用性が制限されます。この作業では、線形微調整と標準の非線形微調整の間のギャップを埋めます。パラメータ空間で定義される特性である重みの摂動に関する線形性が、トレーニング中に活性化空間の制約によって強制できることを示します。具体的には、曲率正規化された線形化された教師から、従来の微調整によって訓練された非線形の生徒に隠れた表現を抽出します。結果として得られるモデルは、タスク演算用の線形化モデルの主要なプロパティを継承しており、タスク ベクトルの効果的な構成を可能にし、推論時間のオーバーヘッドを発生させることなく視覚と言語のベンチマーク全体で強力なパフォーマンスを達成できることがわかりました。
原文 (English)
Distilling Linearized Behavior into Non-Linear Fine-Tuning for Effective Task Arithmetic
Task vector composition has emerged as a promising paradigm for editing pre-trained models, enabling model merging through addition and unlearning through subtraction. Fine-tuning in the tangent space of a pre-trained model (linear fine-tuning) has proven effective, as it produces task vectors that are naturally disentangled and resistant to interference. However, linearized models suffer from limited expressivity during training and incur higher computational costs at inference time, which restrict their practical applicability. In this work, we bridge the gap between linear and standard non-linear fine-tuning. We show that linearity with respect to weight perturbations, a property defined in parameter space, can be enforced through constraints in activation space during training. Concretely, we distill hidden representations from a curvature-regularized linearized teacher into a non-linear student trained via conventional fine-tuning. We find that the resulting model inherits key properties of linearized models for task arithmetic, enabling effective composition of task vectors and achieving strong performance across vision and language benchmarks without incurring any inference-time overhead.
コード交換音声に関する商用 ASR システムのベンチマーク: アラビア語、ペルシア語、ドイツ語
コードスイッチング (単一の発話内で 2 つの言語を自然に切り替えること) は、依然として自動音声認識 (ASR) にとって最も困難であり、研究が十分に進んでいない条件の 1 つです。ここでは、4 つの言語ペアにわたる 5 つの商用 ASR プロバイダーを評価するベンチマークを紹介します。エジプト アラビア語 - 英語、サウジ アラビア語 (ナジ/ヒジャジ) - 英語、ペルシア語 (ファルシ語) - 英語、ドイツ語 - 英語です。これは、ヒューリスティック フィルタリングと GPT-4o および Gemini 1.5 Pro アンサンブル スコアラーを組み合わせた 2 段階のパイプラインによって選択されたペアあたり 300 個のサンプルで構成され、LLM コストを削減します。 $\約$91\%。 WER と BERTScore の両方で評価し、両方の指標がすべてのアラビア語とペルシア語のペアのシステムの序数順位 ($\tau = 1.0$) で一致している一方で、WER は意味的に正しい音訳の選択にペナルティを課すことにより、品質ギャップの大きさを約 3$\times$ 膨張させることを示しています。 Celebrities Scribe v2 は最低の WER (全体で 13.2\%) を達成し、BERTScore でトップ (全体で 0.936) を達成しました。難易度階層化分析により、集計平均によって隠蔽されたパフォーマンスのギャップが明らかになり、BERT 埋め込み投影により、表面レベルのスクリプトの違いにもかかわらず、参照と仮説の間の意味論的な近接性が確認されます。データセットは https://huggingface.co/datasets/Perle-ai/ASR_Code_Switch で公開されています。
原文 (English)
Benchmarking Commercial ASR Systems on Code-Switching Speech: Arabic, Persian, and German
Code-switching -- the natural alternation between two languages within a single utterance -- remains one of the most challenging and under-studied conditions for automatic speech recognition (ASR). We present a benchmark evaluating five commercial ASR providers across four language pairs: Egyptian Arabic--English, Saudi Arabic (Najdi/Hijazi)--English, Persian (Farsi)--English, and German--English, comprising 300 samples per pair selected by a two-stage pipeline combining heuristic filtering with a GPT-4o and Gemini 1.5 Pro ensemble scorer, reducing LLM costs by $\approx$91\%. We evaluate on both WER and BERTScore, showing that while both metrics agree on the ordinal ranking of systems for all Arabic and Persian pairs ($\tau = 1.0$), WER inflates the magnitude of quality gaps by approximately 3$\times$ by penalising semantically correct transliteration choices. ElevenLabs Scribe v2 achieves the lowest WER (13.2\% overall) and leads on BERTScore (0.936 overall). Difficulty-stratified analysis reveals performance gaps masked by aggregate averages, and BERT embedding projections confirm semantic proximity between reference and hypothesis despite surface-level script differences. The dataset is publicly available at https://huggingface.co/datasets/Perle-ai/ASR_Code_Switch.
ThoughtTrace: 現実世界のLLMインタラクションにおけるユーザーの思考を理解する
会話型 AI は現在、何十億ものユーザーに利用されていますが、既存のデータセットは人々の考えではなく、発言したことだけを捕捉します。私たちは、現実世界の人間と AI のマルチターン会話と、ユーザーの自己申告の考え (プロンプトを送信する理由やアシスタントの応答に対する反応) を組み合わせた初の大規模データセットである ThoughtTrace を紹介します。 ThoughtTraceは、20の言語モデルにわたって収集された1,058人のユーザー、2,155の会話、17,058ターン、および10,174の思考注釈で構成されています。私たちの分析では、ThoughtTrace が長期にわたる話題の多様なやり取りを捉えていること、思考がメッセージとは意味的に区別されており、フロンティア LLM がコンテキストから推測することが困難であり、内容が多様であり、会話の段階に関連付けられていることが示されています。さらに、下流のモデリングにおける思考の有用性を実証します。まず、思考により、推論時のコンテキストとしてのユーザー行動の予測が向上します。第 2 に、思考に基づく書き換えにより、パーソナライズされたアシスタントをトレーニングするためのきめの細かい調整信号が提供されます。 ThoughtTraceは、人間とAIの相互作用の背後にある認知ダイナミクスを研究するための新しいデータモダリティとしてユーザーの思考を確立し、ユーザーの潜在的な目標、好み、ニーズをよりよく理解し、適応するアシスタントを構築するための基盤を提供します。
原文 (English)
ThoughtTrace: Understanding User Thoughts in Real-World LLM Interactions
Conversational AI has now reached billions of users, yet existing datasets capture only what people say, not what they think. We introduce ThoughtTrace, the first large-scale dataset that pairs real-world multi-turn human--AI conversations with users' self-reported thoughts: their reasons for sending prompts and reactions to assistant responses. ThoughtTrace comprises 1,058 users, 2,155 conversations, 17,058 turns, and 10,174 thought annotations collected across 20 language models. Our analysis shows that ThoughtTrace captures long-horizon, topically diverse interactions, and that thoughts are semantically distinct from messages, difficult for frontier LLMs to infer from context, diverse in content, and tied to conversation stages. We further demonstrate the utility of thoughts for downstream modeling. First, thoughts improve user-behavior prediction as inference-time context. Second, thought-guided rewrites provide fine-grained alignment signals for training personalized assistants. Together, ThoughtTrace establishes user thoughts as a new data modality for studying the cognitive dynamics behind human--AI interaction and provides a foundation for building assistants that better understand and adapt to users' latent goals, preferences, and needs.
プロキシベースの思考連鎖チューニングによるロングコンテキスト推論
最近の大規模な言語モデルは、最大 1,000 万のトークンの入力をサポートしていますが、複雑な推論を必要とする長いコンテキストのタスクではパフォーマンスが低くなります。このようなタスクは、完全なシーケンスではなく、入力のサブセット (プロキシ コンテキスト) のみを使用して解決できます。同じ基礎となる推論プロセスを共有しているにもかかわらず、モデルはプロキシ コンテキストとフル コンテキストの間で大きなパフォーマンスの差異を示します。長いコンテキストの推論を改善するために、短いプロキシ コンテキストから完全な長いコンテキストに推論機能を転送する新しいトレーニング フレームワークである ProxyCoT を提案します。具体的には、まず強化学習または大規模な教師モデルからの蒸留を通じて、プロキシ コンテキスト上で高品質の思考連鎖推論トレースを取得し、次に、生成されたトレースを教師付き微調整を使用して完全な長いコンテキストに統合します。さまざまなデータセットにわたる実験では、ProxyCoT が計算オーバーヘッドを削減しながら、強力なベースラインを常に上回っていることが実証されています。さらに、ProxyCoT でトレーニングされたモデルは、ロングコンテキスト推論機能をドメイン外のタスクに一般化します。
原文 (English)
Long-Context Reasoning Through Proxy-Based Chain-of-Thought Tuning
Recent large language models support inputs of up to 10 million tokens, yet they perform poorly on long-context tasks that require complex reasoning. Such tasks can be solved using only a subset of the input -- a proxy context -- rather than the full sequence. Despite sharing the same underlying reasoning process, models exhibit a significant performance disparity between proxy and full contexts. To improve long-context reasoning, we propose ProxyCoT, a novel training framework that transfers reasoning capabilities from short proxy contexts to full long contexts. Specifically, we first obtain high-quality chain-of-thought reasoning traces on proxy contexts through reinforcement learning or distillation from a larger teacher model, and then ground the generated traces in full long contexts with supervised fine-tuning. Experiments across different datasets demonstrate that ProxyCoT consistently outperforms strong baselines with reduced computational overhead. Furthermore, models trained with ProxyCoT generalize their long-context reasoning capabilities to out-of-domain tasks.
LLM 強化学習のための MXFP4 量子化誤差の分解: 削減可能なバイアス、回復可能なデッドゾーン、および既約の下限
MXFP4 算術演算は、大規模言語モデル (LLM) のトレーニング後の強化学習 (RL) を劇的に加速できますが、量子化エラーにより精度が大幅に低下します。既存の研究では、量子化誤差をモノリシックなノイズ項として扱っており、量子化誤差がトレーニングにどのような影響を与えるかを解釈する際の明確なメカニズムが欠けています。量子化誤差の正確な 3 方向分解を証明し、各コンポーネントが個別の RL トレーニング経路をどのように支配するかを示します。私たちの理論的および経験的分析は、MXFP4 量子化誤差を 3 つの加算成分に分解します。2 のべき乗の丸めによる「スケール バイアス」、小さな値をゼロにすることによる「デッドゾーンの切り捨て」、および最も近い 4 ビット グリッドへの丸めによる「グリッド ノイズ」です。各コンポーネントは、個別の RL 故障モードを支配します。スケール バイアスは、後方パスを通じて乗算的に蓄積し、勾配の精度に影響を与えます。デッドゾーンの切り捨てはロールアウトの品質を低下させます。そしてグリッドノイズは政策のエントロピーを増大させます。 RL 障害モードを対象とするがコンポーネントに限定されない修正を組み合わせます。つまり、スケール バイアスを低減するためのマクロブロック スケーリング、デッドゾーン エントリを回復する外れ値フォールバック、スケール バイアスによって引き起こされるエラーを部分的に低減する機能、およびポリシー エントロピーを制御するための適応量子化ノイズ (AQN) です。 Qwen2.5-3B 高密度モデルと Qwen3-30B-A3B-Base の専門家混合モデルでは、ターゲットを絞った修正により、BF16 の精度がそれぞれ 0.7% 以内に回復し、BF16 を +1.0% 上回りました。
原文 (English)
Decomposing MXFP4 quantization error for LLM reinforcement learning: reducible bias, recoverable deadzone, and an irreducible floor
MXFP4 arithmetic can dramatically accelerate reinforcement learning (RL) post-training of large language models (LLMs), yet the quantization error introduces severe accuracy degradation. Existing work treats the quantization error as a monolithic noise term, missing the distinct mechanisms upon interpreting how quantization error damages training. We prove an exact three-way decomposition of quantization error and show how each component dominates a distinct RL training pathway. Our theoretical and empirical analysis decomposes the MXFP4 quantization error into three additive components: "scale bias" from power-of-two rounding, "deadzone truncation" from zeroing small values, and "grid noise" from rounding to the nearest 4-bit grid. Each component dominates a distinct RL failure mode: scale bias accumulates multiplicatively through the backward pass, affecting gradient accuracy; deadzone truncation degrades rollout quality; and grid noise raises the policy's entropy. We combine corrections that are RL failure mode-targeted but not component-exclusive: Macro-block scaling to reduce scale bias, Outlier Fallback recovers deadzone entries, but also partially reduces scale bias induced error, and Adaptive Quantization Noise (AQN) for controlling the policy entropy. On Qwen2.5-3B dense and Qwen3-30B-A3B-Base mixture-of-experts model, the targeted corrections recover BF16 accuracy to within 0.7% and exceed BF16 by +1.0% respectively.
オーディオ LLM に対するコーデックに堅牢な攻撃
Audio Large Language Model (Audio LLM) に対する以前の攻撃では、慎重に作成された波形領域の摂動により、標的を絞った敵対的な出力が強制される可能性があることが実証されました。これらの攻撃に対する防御メカニズムとして、摂動を検出して除去するための実際のコーデック圧縮前処理が研究されてきました。しかし、既存の攻撃は、これらの圧縮に対する堅牢性を実証していません。 Codec Attack を導入します。これは、オーディオ波形を直接摂動するのではなく、ニューラル オーディオ コーデックの連続潜在空間の摂動を最適化します。波形の摂動を破棄するコーデックの圧縮チャネルが、独自の潜在空間で作成された摂動を送信することを示します。現実世界の圧縮チャネル全体にわたる攻撃をさらに強化するために、ターゲット モデルを変更することなく、マルチ ビットレートのストレートスルー Expectation-over-Transformation (EoT) を適用します。 3 つの現実的な Audio LLM 導入シナリオと 3 つのターゲット モデルにわたって、Codec Attack は、中程度のビットレートで Opus 上で平均 85.5% のターゲット部分文字列攻撃成功率 (ASR) を達成しました。一方、同一の EoT 強化でトレーニングされた波形ベースラインは、どのビットレートでも 26% を超えません。攻撃は保留されたコーデックに転送され、再トレーニングなしで MP3 では最大 100% の ASR、AAC-LC では 84% に達します。帯域ごとのエネルギー解析では、潜在的な摂動がコーデックが最も多くのビットを割り当てる 4kHz 以下に集中している一方、波形のベースラインはコーデックが破棄するより高い周波数に広がっていることがわかります。これらの結果は、不可逆圧縮が敵対的なオーディオに対する信頼できる防御策ではなく、コーデックを意識した攻撃が導入された Audio LLM システムに実質的な脅威となることを示しています。
原文 (English)
Codec-Robust Attacks on Audio LLMs
Prior attacks on Audio Large Language Models (Audio LLMs) demonstrated that carefully crafted waveform-domain perturbations can force targeted adversarial outputs. As a defense mechanism against these attacks, real-world codec compression preprocessing has been studied to both detect and remove the perturbations. Yet no existing attack has demonstrated robustness against these compressions. We introduce CodecAttack, which optimizes a perturbation in a neural audio codec's continuous latent space rather than directly perturbing the audio waveform. We show that the codec's compression channel, which discards waveform perturbations, transmits perturbations crafted in its own latent space. To further harden the attack across real-world compression channels, we apply multi-bitrate straight-through Expectation-over-Transformation (EoT), all without modifying the target model. Across three realistic Audio LLM deployment scenarios and three target models, CodecAttack achieves an average 85.5% target-substring attack success rate (ASR) on Opus at moderate bitrates, while the waveform baseline trained with identical EoT hardening does not exceed 26% at any bitrate. The attack transfers to held-out codecs, reaching up to 100% ASR on MP3 and 84% on AAC-LC without retraining. A per-band energy analysis shows that the latent perturbation concentrates below 4kHz, exactly where codecs allocate the most bits, while the waveform baseline spreads into higher frequencies that codecs discard. These results demonstrate that lossy compression is not a reliable defense against adversarial audio and that codec-aware attacks pose a practical threat to deployed Audio LLM systems.
Microsoft Security Copilot による GenAI 主導の脅威検出
今日のますます巧妙化するサイバー攻撃を防御するには、セキュリティ アナリストが進化する攻撃者の手口を検出ロジックに継続的に変換する必要があります。これにより、防御側は事後対応の態勢に置かれ、断片化が進むセキュリティ環境全体にわたって常に最新の専門知識が必要となります。動的脅威検出エージェント (DTDA) を導入します。これは、Microsoft Defender 全体のセキュリティ インシデントを継続的に調査し、隠れた脅威を明らかにし、攻撃ストーリーのギャップが見つかった場合に説明可能な検出を生成する、常時稼働の適応型エージェントです。 DTDA は以下を組み合わせます。(1) アラート、イベント、ユーザーおよびエンティティの行動分析、脅威インテリジェンスにわたる統合されたアクティビティ タイムライン。 (2) スキーマ検証、グラウンディング要件、制限付き再試行、およびフェールクローズ抑制を備えたバージョン化された LLM プロンプト コントラクト。 (3) 攻撃固有の仮説を生成し、裏付けと反駁の証拠を収集する、計画者と実行者の調査ループ。 (4) コンテキストに関連したタイトル、重大度、MITRE マッピング、修復ガイダンス、関係するエンティティ、および自然言語攻撃の説明を含む動的なアラート生成。 DTDA は Microsoft Security Copilot に統合され、数万の Defender 顧客に展開され、業界規模で継続的に運用されています。 120 日間のオンライン評価で、DTDA は顧客のフィードバックから 80.1% の精度を達成し、調査されたインシデントの約 15% に対して新しいアラートを生成しました。オフライン評価では、DTDA は GPT-5.4 を使用して隠れた悪意のあるアクティビティを 0.78 F1 で回復し、GPT-4.1 よりも 0.12 F1 改善し、ベースラインを 0.26 F1 ポイント上回りました。運用上、DTDA は単一インシデントの調査をエンドツーエンドで中央値 28 分、トークンコスト中央値 2.04 米ドル、ジョブレベル失敗率 0.38% で処理します。これらの結果は、自律エージェントが運用規模で見逃した悪意のあるアクティビティを特定できることを示しています。
原文 (English)
GenAI-Driven Threat Detection with Microsoft Security Copilot
Defending against today's increasingly sophisticated cyberattacks requires security analysts to continuously translate evolving attacker tradecraft into detection logic. This places defenders in a reactive posture, requiring constantly updated expertise across an increasingly fragmented security landscape. We introduce the Dynamic Threat Detection Agent (DTDA), an always-on adaptive agent that continuously investigates security incidents across Microsoft Defender to uncover hidden threats and generate explainable detections when attack-story gaps are found. DTDA combines: (1) a unified activity timeline spanning alerts, events, user and entity behavior analytics, and threat intelligence; (2) versioned LLM prompt contracts with schema validation, grounding requirements, bounded retries, and fail-closed suppression; (3) a planner-executor investigation loop that generates attack-specific hypotheses and gathers supporting and refuting evidence; and (4) dynamic alert generation with a context-relevant title, severity, MITRE mappings, remediation guidance, implicated entities, and natural-language attack description. Integrated into Microsoft Security Copilot and deployed across tens of thousands of Defender customers, DTDA operates continuously at industry scale. In a 120-day online evaluation, DTDA achieves 80.1% precision from customer feedback while generating novel alerts for approximately 15% of investigated incidents. In offline evaluation, DTDA recovers hidden malicious activity with 0.78 F1 using GPT-5.4, improving over GPT-4.1 by 0.12 F1 and outperforming the baseline by 0.26 F1 points. Operationally, DTDA processes single-incident investigations end-to-end in a median of 28 minutes at a median token cost of USD 2.04, with a 0.38% job-level failure rate. These results demonstrate that autonomous agents can identify missed malicious activity at a production scale.
経典: ベクトル シンボリック アーキテクチャのコンパイル ターゲットとしての Tensor-Op RNN
Sutra は、コンパイルされたフォワード パスが PyTorch ニューラル ネットワークである型付きの純粋関数型プログラミング言語です。コンパイラは、プログラム全体 (プリミティブ、制御フロー、文字列 I/O) を、フリーズされた埋め込み基板上の 1 つの融合テンソル演算グラフにベータ縮小します。回転バインディング、アンバインド、バンドル、多項式 Kleene の 3 値ロジック、末尾再帰ループはすべてテンソル演算の下位にあります。クリーン結合子は、{-1, 0, +1} 真理値グリッド上で正確にラグランジュ補間された多項式です。検証は、2 つの方法でテストされる 1 つの事実です。 (1) 同じプログラムが、2 つのモダリティ (3 つのテキスト エンコーダー (nomic-embed-text、all-minilm、mxbai-embed-large) と 1 つのタンパク質言語モデル (ESM-2)) にまたがる 4 つのフリーズされたエンベディング上で実行され、教科書的なアダマール積がすでに崩壊している (mxbai-embed-large で 2.5%、mxbai-embed-large で 7.5%) すべてのサブストレートで幅 k=8 まで 100% の精度でバンドルをデコードします。オールミニム)。 (2) PyTorch autograd は、実際にコンパイルされたグラフを介してフローします。.su で記述されたファジー ルール分類子は、生成されたグラフ、シンボリック ソースを変更せずに逆伝播することによって、ランダム初期化 (18.7 +/- 9.5%、確率 = 20%、5 つのクラス) から 100.0 +/- 0.0% (3 つのシード) までトレーニングします。重み付きバリアントはさらにスカラー コサイン ゲインをトレーニングし、それを数値リテラルとして .su ソースに書き戻します。再コンパイルでは、トレーニングされた動作がロジットあたり約 2e-7 まで再現されるため、トレーニングされたモデル自体は読みやすく、再コンパイル可能なコードになります。したがって、同じ成果物はロジック プログラムでもあり、トレーニング可能なニューラル ネットワークでもあります。
原文 (English)
Sutra: Tensor-Op RNNs as a Compilation Target for Vector Symbolic Architectures
Sutra is a typed, purely functional programming language whose compiled forward pass is a PyTorch neural network. The compiler beta-reduces the whole program -- primitives, control flow, string I/O -- to one fused tensor-op graph over a frozen embedding substrate. Rotation binding, unbind, bundle, polynomial Kleene three-valued logic, and tail-recursive loops all lower to tensor operations; the Kleene connectives are Lagrange-interpolated polynomials exact on the {-1, 0, +1} truth grid. Validation is one fact tested two ways. (1) The same program runs on four frozen embeddings spanning two modalities -- three text encoders (nomic-embed-text, all-minilm, mxbai-embed-large) and one protein language model (ESM-2) -- and decodes bundles at 100% accuracy through width k=8 on every substrate, where the textbook Hadamard product has already collapsed (2.5% on mxbai-embed-large, 7.5% on all-minilm). (2) PyTorch autograd flows through the actually compiled graph: a fuzzy-rule classifier written in .su trains from random init (18.7 +/- 9.5%; chance = 20%, five classes) to 100.0 +/- 0.0% (three seeds) by backpropagating through the emitted graph, the symbolic source unmodified. A weighted variant additionally trains a scalar cosine gain and writes it back into the .su source as a numeric literal; recompiling reproduces the trained behaviour to ~2e-7 per logit, so the trained model is itself legible, recompilable code. The same artifact is therefore both a logic program and a trainable neural network.
法律に対するきめ細かい請求レベルの RAG ベンチマーク
大規模言語モデル (LLM) の急速な進歩により、意味検索はユーザーが質問し、LLM が応答を生成する質問応答パラダイムに移行しています。法律などの一か八かの分野では、生成された応答の幻覚を軽減するために検索拡張生成 (RAG) が一般的に使用されます。それにもかかわらず、これまでの研究では、RAG システムは、汎用であろうと法律固有であろうと、依然としてさまざまな割合で幻覚を起こすため、きめ細かい評価が不可欠であることが示されています。必要性にもかかわらず、法的 RAG システムの既存の評価フレームワークには、取得パフォーマンスと生成パフォーマンスを個別に詳細に分析するために必要な粒度が不足しています。さらに、現在のベンチマークは主に英語のみであり、法律専門家の質問が中心であり、専門家以外のニーズは無視されています。 ClaimRAG-LAW は、フランス語と英語をサポートし、専門家と非専門家の両方を対象とし、現実的なシナリオを反映した多様な質問タイプを含む、法律 RAG の包括的なデータセットです。さらに、最先端の法的 RAG システムのきめ細かい評価フレームワークを適用し、法的領域における検索、生成、請求レベルの分析における限界を明らかにします。
原文 (English)
Fine-grained Claim-level RAG Benchmark for Law
The rapid progress of large language models (LLMs) is shifting semantic search toward a question-answering paradigm, where users ask questions and LLMs generate responses. In high-stake domains such as law, retrieval-augmented generation (RAG) is commonly used to mitigate hallucinations in generated responses. Nonetheless, prior work shows that RAG systems, whether general-purpose or legal-specific, still hallucinate at varying rates, making fine-grained evaluation essential. Despite the need, existing evaluation frameworks for legal RAG systems lack the granularity required to provide detailed analysis of retrieval and generation performance separately. Moreover, current benchmarks are largely English-only and centered on legal expert queries, overlooking non-expert needs. We introduce ClaimRAG-LAW, a comprehensive dataset for legal RAG that supports French and English, targets both experts and non-experts, and includes diverse question types reflecting realistic scenarios. We further apply a fine-grained evaluation framework of state-of-the-art legal RAG systems, revealing limitations in retrieval, generation, and claim-level analysis in the legal domain.
普及教師による期待値の差異の削減
事前トレーニングされた拡散モデルは、テキストから 3D への変換、シングルステップ蒸留、データ アトリビューションなどの下流パイプラインにフィードを与える凍結教師として機能します。これらのパイプラインが消費する教師勾配は、ノイズ レベルとガウス ノイズ サンプルに対するモンテカルロ (MC) の期待値です。各描画には高価な上流の作業 (レンダリング、シミュレーション、エンコード) が必要となるため、推定値の分散がコンピューティング コストの大半を占めます。 CARV は、階層型 MC 推定器を動機付ける計算認識分散会計フレームワークであり、タイムステップ重要度サンプリングと層化逆 CDF 構築によって鮮明化された安価な拡散ノイズ リサンプルで高価な上流計算を償却します。テキストから 3D への蒸留とアトリビューションの実験では、CARV は目的を変更することなく 2 ~ 3 倍の効果的な計算乗数 (ほとんどは償却再利用によるもの、IS+階層化による最大 25% の追加) を実現しました。単段蒸留では、同じ技術によりグラジエントの分散が 1 桁減少しますが、下流の FID は改善されず、MC の分散がボトルネックではなくなる状況が明らかになります。
原文 (English)
Variance Reduction for Expectations with Diffusion Teachers
Pretrained diffusion models serve as frozen teachers feeding downstream pipelines such as text-to-3D, single-step distillation, and data attribution. The teacher gradients these pipelines consume are Monte Carlo (MC) expectations over noise levels and Gaussian noise samples; their estimator variance dominates compute cost because each draw requires expensive upstream work (rendering, simulation, encoding). We introduce CARV, a compute-aware variance-accounting framework that motivates a hierarchical MC estimator: amortize the expensive upstream computation over cheap diffusion-noise resamples, sharpened by timestep importance sampling and a stratified-inverse-CDF construction. In our text-to-3D distillation and attribution experiments, CARV delivers 2-3x effective compute multipliers (most from amortized reuse; ~25% additional from IS+stratification) without changing the objective; in single-step distillation, the same techniques cut gradient variance by an order of magnitude but do not improve downstream FID, marking the regime where MC variance is no longer the bottleneck.
OPPO: LLM 推論におけるトークンレベルのクレジット割り当てのためのベイジアン値再帰
検証可能な報酬を伴う強化学習は、LLM 推論を改善するための標準レシピとなっていますが、主要なアルゴリズムである GRPO は、すべてのトークンに単一の軌道レベルの利点を割り当て、重要な推論ステップで信号を薄め、有益でないステップでノイズを注入します。オンポリシー蒸留から派生した批判のない代替案は、オラクル条件付き尤度比を通じてトークンごとの信号を提供しますが、その位置までに蓄積された軌跡レベルの証拠から各信号を分離して適用します。私たちは、Oracle-Prompted Policy Optimization (OPPO) を提案します。これは、単一の観測に基づいています。局所的な識別のために以前の蒸留スタイルの手法で使用されるオラクル信号は、最終的な成功についてのモデルの信念の自然なベイズ更新でもあります。軌跡に沿って信号を蓄積すると、閉じた形式で 1 つの追加の前方パスを犠牲にして、学習された値ネットワークや追加のロールアウトを必要としないトークンレベルの利点とともに、すべての位置での成功確率の現在の推定値が得られます。一次分析は、真に重要なトークンに信用を集中させる状態重みによって変調された蒸留方法によって使用されるトークンごとの識別信号に利点を因数分解し、方向性分散削減保証を行います。このフレームワークは、どのモデルが証拠をスコアリングするかという点のみが異なる 2 つの推定器を認めています。1 つは学生を再利用し、厳密な特殊ケースとしてポリシーに基づく蒸留報酬を回収する \textit{self-oracle} で、もう 1 つはスコアリングをより強力な凍結モデルに委任する \textit{Teacher-oracle} です。 7 つの数学、科学、およびコード推論ベンチマークにわたる 2 つのベース LLM では、OPPO は GRPO、DAPO、SDPO よりも AMC'23 で最大 $+6.0$ ポイント、AIME'24 で $+5.2$ ポイント向上し、そのゲインは応答長に応じて単調に広がります。
原文 (English)
OPPO: Bayesian Value Recursion for Token-Level Credit Assignment in LLM Reasoning
Reinforcement learning with verifiable rewards has become the standard recipe for improving LLM reasoning, but the dominant algorithm GRPO assigns a single trajectory-level advantage to every token, diluting the signal at pivotal reasoning steps and injecting noise at uninformative ones. Critic-free alternatives derived from on-policy distillation supply per-token signals through oracle-conditioned likelihood ratios, yet apply each signal in isolation from the trajectory-level evidence accumulated up to that position. We propose Oracle-Prompted Policy Optimization (OPPO), which rests on a single observation: the oracle signal used by prior distillation-style methods for local discrimination is also the natural Bayesian update of the model's belief about eventual success. Accumulating the signal along a trajectory yields, in closed form and at the cost of one extra forward pass, a running estimate of the success probability at every position, together with a token-level advantage that requires no learned value network and no additional rollouts. A first-order analysis factorizes the advantage into the per-token discrimination signal used by distillation methods modulated by a state weight that concentrates credit on genuinely pivotal tokens, with a directional variance-reduction guarantee. The framework admits two estimators differing only in which model scores the evidence: a \textit{self-oracle} that reuses the student and recovers the on-policy distillation reward as a strict special case, and a \textit{teacher-oracle} that delegates scoring to a stronger frozen model. On two base LLMs across seven mathematics, science, and code reasoning benchmarks, OPPO improves over GRPO, DAPO, and SDPO by up to $+6.0$ points on AMC'23 and $+5.2$ points on AIME'24, with gains that widen monotonically with response length.
原子レベルのタンパク質表現学習によりタンパク質構造予測が向上
生成モデリングの最近の進歩により、事前トレーニングされた表現により、条件付け機能または位置合わせターゲットとしての生成が向上できることが示されています。これを動機として、私たちは従来の関数アノテーションを超えて構造を予測するためのタンパク質表現を研究しています。我々は、VQ-VAE トークナイザーを介して離散的にエンコードされた、アミノ酸の同一性、骨格の幾何学、局所的な全原子の幾何学という 3 つの整列された残基レベルのビューを共同でモデル化する、構造認識型の事前トレーニング手法である TriProRep を提案します。ジェネレーターによって破損したビューから元のトークンを回復するように事前トレーニングすることにより、TriProRep は、元のタンパク質からもっともらしいが不正確なクロスビュー拡張を区別することを学習します。さらに、構造予測設定でタンパク質表現を評価するためのベンチマークである RepSP を紹介します。 RepSP では、アポ鎖表現からのホモ二量体の共折り畳み、ホモ二量体由来の相互作用特性の残基レベルの予測、表現に合わせたモノマー構造の予測という 3 つの表現の使用法をテストします。これらのタスク全体にわたって、TriProRep は、従来のベンチマークで競争力のあるパフォーマンスを維持しながら、配列のみおよび以前の構造認識表現モデルよりも向上しています。
原文 (English)
Atom-level Protein Representation Learning Improves Protein Structure Prediction
Recent advances in generative modeling show that pretrained representations can improve generation as conditioning features or alignment targets. Motivated by this, we study protein representations for predicting structures beyond conventional function annotation. We propose TriProRep, a structure-aware pretraining method that jointly models three aligned residue-level views: amino-acid identity, backbone geometry, and local full-atom geometry, discretely encoded via VQ-VAE tokenizers. By pretraining to recover original tokens from generator-corrupted views, TriProRep learns to distinguish plausible but incorrect cross-view augmentations from the original protein. We further introduce RepSP, a benchmark for evaluating protein representations in structure-predictive settings. RepSP tests three uses of representations: homodimer co-folding from apo-chain representations, residue-level prediction of homodimer-derived interaction properties, and representation-aligned monomer structure prediction. Across these tasks, TriProRep improves over sequence-only and prior structure-aware representation models, while maintaining competitive performance on conventional benchmarks.
より多くのコンテキスト、より大きなモデル、それとも道徳的知識?政治文書におけるシュワルツ価値検出の系統的研究
暗黙の手がかりは周囲の議論や隣接する価値観間の細かい区別に依存することが多いため、政治文書からシュワルツの価値観を検出することは困難です。私たちは、文脈と明示的な道徳的知識が文レベルの値の検出にどのような場合に役立つかを研究します。 ValuesML/Touch\'e ValueEval 形式を使用して、文、ウィンドウ、およびドキュメント全体の入力を比較します。厳選された道徳的知識ベースを備えた、RAG なしで検索が強化された設定。監視付き DeBERTa-v3 ベース/ラージ エンコーダ。および 12B ~ 123B パラメータのゼロショット LLM。結果は、コンテキストが多いほど一様に優れているわけではないことを示しています。フルドキュメント コンテキストは、教師あり DeBERTa エンコーダを文のみの入力よりも 3.8 ~ 4.8 マクロ F1 ポイント向上させますが、一貫してゼロショット LLM を支援するわけではありません。取得された道徳的知識は、一致した比較においてより一貫して有用であり、初期融合の下でテストされた各モデルファミリーとコンテキスト条件を改善します。ただし、DeBERTa-v3 ベースから大規模、および 12B から大規模な LLM へのスケーリングは利得を保証するものではなく、単純な早期融合は、エンコーダ用にテストされた後期融合およびクロスアテンション RAG バリアントよりも優れたパフォーマンスを発揮します。値ごとの分析では、社会的に位置する値や概念的に混乱しやすい値に対して、コンテキストと検索が最も役立つことが示されています。これらの発見は、価値に敏感な NLP では、より長い入力や大規模なモデルを普遍的な改善として扱うのではなく、コンテキスト、知識、およびモデル ファミリを共同で評価する必要があることを示唆しています。
原文 (English)
More Context, Larger Models, or Moral Knowledge? A Systematic Study of Schwartz Value Detection in Political Texts
Detecting Schwartz values in political text is difficult because implicit cues often depend on surrounding arguments and fine-grained distinctions between neighboring values. We study when context and explicit moral knowledge help sentence-level value detection. Using the ValuesML/Touch\'e ValueEval format, we compare sentence, window, and full-document inputs; no-RAG and retrieval-augmented settings with a curated moral knowledge base; supervised DeBERTa-v3-base/large encoders; and zero-shot LLMs from 12B to 123B parameters. The results show that more context is not uniformly better: full-document context improves supervised DeBERTa encoders by 3.8-4.8 macro-F1 points over sentence-only input, but does not consistently help zero-shot LLMs. Retrieved moral knowledge is more consistently useful in matched comparisons, improving each tested model family and context condition under early fusion. However, scaling from DeBERTa-v3-base to large and from 12B to larger LLMs does not guarantee gains, and simple early fusion outperforms the tested late-fusion and cross-attention RAG variants for encoders. Per-value analyses show that context and retrieval help most for socially situated or conceptually confusable values. These findings suggest that value-sensitive NLP should evaluate context, knowledge, and model family jointly rather than treating longer inputs or larger models as universal improvements.
Shapley 相互作用と Banzhaf 相互作用のプロキシベースの近似
Shapley と Banzhaf の相互作用は、最新の機械学習アプリケーションに固有の複雑なダイナミクスを捉えます。ただし、これらの高次相互作用の現在の推定量は、速度と精度の間でトレードオフになります。この制限を克服するために、ProxySHAP を導入します。 ProxySHAP は、ツリーベースのプロキシ モデルの高いサンプル効率と、残差補正による一貫性への原則的なパスを調和させます。理論レベルでは、介入型 TreeSHAP の多項式時間一般化を導出し、ツリー アンサンブルの正確な相互作用インデックスを計算し、従来の方法における指数関数的なツリー深さの依存関係を回避することに成功しました。さらに、残差調整戦略を正式に分析し、最大サンプル再利用 (MSR) が相互作用サイズに応じて分散が指数関数的に拡大することなく代理バイアスを補正する特定の条件を特徴付けます。広範なベンチマークは、ProxySHAP が数千の機能を備えた大規模アプリケーションを含め、近似品質の新しい最先端の標準を設定していることを示しています。 ProxySHAP は、予算が小さい場合と大きい場合の両方で誤差を最小限に抑えることで、これまでの最高の推定ツールである ProxySPEX および KernelSHAP-IQ を大幅に上回るパフォーマンスを発揮すると同時に、下流の説明可能性タスクでも優れたパフォーマンスを実現します。
原文 (English)
Proxy-Based Approximation of Shapley and Banzhaf Interactions
Shapley and Banzhaf interactions capture the complex dynamics inherent in modern machine learning applications. However, current estimators for these higher-order interactions trade off between speed and accuracy. To overcome this limitation, we introduce ProxySHAP. ProxySHAP reconciles the high sample efficiency of tree-based proxy models with a principled path to consistency via residual correction. On a theoretical level, we derive a polynomial-time generalization of interventional TreeSHAP to compute exact interaction indices for tree ensembles, successfully bypassing exponential tree-depth dependencies in prior methods. Furthermore, we formally analyze the residual adjustment strategy, characterizing the specific conditions under which Maximum Sample Reuse (MSR) corrects proxy bias without its variance scaling exponentially with interaction size. Extensive benchmarking demonstrates that ProxySHAP sets a new state-of-the-art standard for approximation quality, including in large-scale applications with thousands of features. By achieving the lowest error in both small- and large-budget regimes, ProxySHAP significantly outperforms the prior best estimators ProxySPEX and KernelSHAP-IQ, while also delivering superior performance on downstream explainability tasks.