トピック: LLM/生成AI
該当記事 2326 件 / 新しい順
エンタープライズ AI エージェントの導入前保証に向けて: オントロジーに基づいたシミュレーションと信頼証明
エンタープライズ人工知能 (AI) エージェントの導入前の検証は、大規模言語モデル (LLM) 機能のベンチマークと運用環境の導入の間に依然として重大なギャップがあります。導入後のモニタリング、人間参加型制御、およびプロンプト レベルのガードレールは、エージェントが運用環境で動作すると限定的な保証を提供します。私たちは、次の 3 つのコンポーネントを組み合わせたオントロジーに基づいた検証フレームワークを提案します。1 つは、権限、ドメイン制約、安全性、ガバナンス ルール、および自律性レベルにわたる認証空間を形式化するエージェント運用エンベロープです。規制、運用、敵対的テストのシナリオを自動的に導き出すオントロジーからシナリオへの生成パイプライン。段階的な展開判定 (承認、条件付き、拒否) を含む機械検証可能な証明書を保持する信頼証明書。米国とベトナムの 5 つの業界別規制制度セルとしてインスタンス化された、4 つの規制対象業界 (フィンテック、銀行、保険、ヘルスケア) にわたる制御されたパイロットは、125 の主要なソース規制要件と 25 の注入された障害に対して評価された 1,800 のシナリオを生成しました。オントロジーに基づいた生成 (G4) は、ペルソナベースのベースラインでは 33.1% であるのに対し、規制適用率は 48.3% (修正 p = 0.0006)、最も高いドメイン特異性 (4.77/5.0; p = 2e-6) を達成しました。ベースラインおよび検索拡張プロンプトに対するカバレッジの利点は、ボンフェローニ補正後は堅牢ではありませんでした。 3 つの LLM ファミリ (Claude Sonnet 4、Qwen 2.5 72B、Gemma 4 26B、合計 5,400 のシナリオ) にわたる相互検証により、ペルソナ対オントロジーのパターンが再現されました。その結果、規制が集中するドメイン向けのペルソナベースのテスト スイートを確実に補完するものとして、オントロジーに基づいたシナリオ生成が確立されました。
原文 (English)
Toward Pre-Deployment Assurance for Enterprise AI Agents: Ontology-Grounded Simulation and Trust Certification
Pre-deployment verification of enterprise artificial intelligence (AI) agents remains a critical gap between large language model (LLM) capability benchmarking and production deployment. Post-deployment monitoring, human-in-the-loop controls, and prompt-level guardrails offer limited assurance once an agent is operating in production. We present an ontology-grounded verification framework -- to our knowledge the first to combine three components: an Agent Operational Envelope formalizing the certification space across permissions, domain constraints, safety properties, governance rules, and autonomy levels; an ontology-to-scenario generation pipeline that derives regulatory, operational, and adversarial test scenarios automatically; and a machine-verifiable Trust Certificate with graduated deployment verdicts. A controlled pilot across four regulated industries (Fintech, Banking, Insurance, Healthcare), instantiated as five industry-by-regulatory-regime cells across the United States and Vietnam (where Vietnam's 2025 AI Law makes such verification legally mandated for financial services), generated 1,800 scenarios evaluated against 125 primary-source regulatory requirements and 25 injected faults. Ontology-grounded generation significantly outperformed the dominant persona-based baseline on regulatory coverage (48.3% versus 33.1%; corrected p_c = .0006) and attained the highest domain specificity (4.77/5.0; p = 2e-6); transparently, its advantage over plain and retrieval-augmented prompting did not survive Bonferroni correction. Cross-validation across three LLM families (Claude Sonnet 4, Qwen 2.5 72B, Gemma 4 26B; 5,400 total scenarios) replicated the persona-versus-ontology pattern. The framework offers a reproducible, regulation-grounded route to pre-deployment assurance for enterprise AI agents, complementing runtime governance with an auditable deployment gate.
SMAC-Talk: 大規模言語モデル用の StarCraft マルチエージェント チャレンジの自然言語拡張
LLM がより広範に導入されるにつれて、LLM は単独で動作するのではなく、他の AI エージェントと連携して動作することがますます期待されています。このような状況での効果的な調整には、エージェントが不確実性の下でコミュニケーションし、情報を共有し、意思決定を行う必要があります。協調的なマルチエージェント環境で LLM ベースのエージェントを評価するための StarCraft Multi-Agent Challenge の自然言語拡張である SMAC-Talk を紹介します。この環境には、分散制御、部分的な可観測性、長期的な意思決定など、いくつかの重要な機能があります。 SMAC-Talk には、エージェントの調整と信頼を調査するために使用される自然言語通信チャネルが含まれています。この通信チャネルを使用して、通信だけで味方を混乱させ、欺こうとする欺瞞的なコミュニケーターが組み込まれた設定など、さまざまな評価シナリオを構築します。 Qwen3.5 ファミリーの 4 つのモデルを使用したベンチマーク用の 3 つのエージェントを提供し、推論構造、メモリ、モデルのスケールがエージェント間の調整にどのように影響するかを調査します。私たちは、協力的なマルチエージェント設定での LLM エージェントの開発と評価における研究コミュニティをサポートするオープン ベンチマークとして SMAC-Talk をリリースします。
原文 (English)
SMAC-Talk: A Natural Language Extension of the StarCraft Multi-Agent Challenge for Large Language Models
As LLMs become more widely deployed, they are increasingly expected to work alongside other AI agents rather than operating in isolation. Effective coordination in these settings requires agents to communicate, share information and make decisions under uncertainty. We introduce SMAC-Talk, a natural language extension of the StarCraft Multi-Agent Challenge for evaluating LLM-based agents in cooperative multi-agent environments. The environment has several key features such as decentralized control, partial observability and long-horizon decision making. SMAC-Talk includes a natural language communication channel which is used to probe agent coordination and trust. We use this communication channel to construct different evaluation scenarios, including settings with an embedded deceptive communicator that tries to disrupt and deceive allies through communication alone. We provide three agents for benchmarking using 4 models from the Qwen3.5 family and study how reasoning structure, memory and model scale affect coordination between agents. We release SMAC-Talk as an open benchmark to support the research community in developing and evaluating LLM agents in cooperative multi-agent settings.
VAMPS: 視覚支援による数学的問題解決ベンチマーク
マルチモーダルな大規模言語モデルは、複雑な推論の能力をますます高めていますが、ツールを通じて問題を外部化し、ツールの出力を推論する必要がある場合、特に視覚補助に依存している場合、パフォーマンスが低下することがよくあります。実際のエンジニアリングおよび科学のワークフローでは、分析、検証、意思決定のために視覚化ツールに依存することが多いため、このギャップは特に重要です。この矛盾を研究するために、グラフ支援数学のベンチマークである VAMPS (Visual-Assisted Mathematical 問題解決) を導入します。 VAMPS には、イランの大学入学試験の代数と微積分の問題から抽出された 1,168 個のマルチモーダルなバイリンガル多肢選択問題と解答のペアが含まれており、人間がレビューした LLM 生成の合成バリアントで拡張されており、プロットによって交差、極値、漸近線などを明らかにすることで自然な解法戦略が提供されるようにすべて選択されています。ベンチマークと診断の両方のために設計された VAMPS は、主に固定より推論を評価する以前のマルチモーダル ベンチマークを超えています。有用なグラフを構築し、結果として得られる視覚化でその答えを根拠付けることでモデルにメリットが得られるかどうかをテストすることで、視覚的な入力を行います。全体として、さまざまなモデルのセットにわたって、プロットが自然な戦略である問題であっても、直接的な分析的解決は、ツールを使用した視覚的解決よりも驚くほど優れたパフォーマンスを発揮することがわかりました。
原文 (English)
VAMPS: Visual-Assisted Mathematical Problem Solving Benchmark
Multimodal large language models are increasingly capable of complex reasoning, yet their performance often degrades when they must externalize a problem through a tool and then reason over the tool's output, specifically when they rely on visual aids. This gap is especially important because real engineering and scientific workflows often rely on visualization tools for analysis, validation, and decision-making. To study this discrepancy, we introduce VAMPS (Visual-Assisted Mathematical Problem Solving), a benchmark for graph-assisted mathematics. VAMPS contains 1,168 multimodal, bilingual multiple-choice question-answer pairs drawn from Iranian University Entrance Exam algebra and calculus problems and expanded with human-reviewed LLM-generated synthetic variants, all selected so that plotting provides a natural solution strategy by revealing intersections, extrema, asymptotes, etc. Designed for both benchmarking and diagnosis, VAMPS goes beyond prior multimodal benchmarks that primarily evaluate reasoning over fixed visual inputs by testing whether a model can benefit from constructing a useful graph and grounding its answer in the resulting visualization. Overall, we found that across a diverse set of models, direct analytical solving surprisingly outperforms tool-enabled visual solving, even on problems where plotting is a natural strategy.
StepPRM-RTL: RTL 合成を強化するための段階的なプロセス報酬ガイド付き LLM 微調整
デジタル ハードウェア設計用の RTL コードの自動生成は、長期的な推論、複数ステップの依存関係、および Verilog と VHDL の厳密な正確性制約のため、依然として困難です。我々は、段階的軌跡モデリング、プロセス報酬モデリング (PRM)、検索拡張微調整 (RAFT) を組み合わせて、LLM ベースの RTL コード生成の機能的正確性と推論忠実度の両方を強化する新しいフレームワークである StepPRM-RTL を紹介します。 StepPRM-RTL は、標準的な解決策から段階的な推論軌跡を構築します。各ステップには理論的根拠と段階的なコード変更が含まれます。プロセス報酬モデル (PRM) は中間ステップを評価し、RAFT の微調整中に強化スタイルの更新をガイドする緻密なフィードバックを提供します。モンテカルロ ツリー検索 (MCTS) は、代替推論パスを探索し、高品質の軌跡でトレーニング データセットを強化します。この段階的報酬と結果を意識した報酬の統合により、モデルは正しい RTL を構築する方法と理由の両方を学習できるようになり、標準的な教師ありトレーニングや結果ベースのトレーニングを超えて長期的な推論が向上します。ベンチマーク Verilog および VHDL データセットの実験評価では、StepPRM-RTL が機能の正確性と推論忠実度のメトリクスにおいて、従来の最良の方法よりも 10% 以上優れていることが実証されました。アブレーション研究では、PRM に基づく報酬と段階的な軌道探索の組み合わせがそのパフォーマンスの鍵であることが確認されています。 StepPRM-RTL は、RTL 言語全体を汎用化し、高忠実度で解釈可能なコード生成のためのスケーラブルなフレームワークを提供し、LLM 支援のハードウェア設計自動化の新しい標準を確立します。
原文 (English)
StepPRM-RTL: Stepwise Process-Reward Guided LLM Fine-Tuning for Enhanced RTL Synthesis
Automatic generation of RTL code for digital hardware designs remains challenging due to long-horizon reasoning, multi-step dependencies, and strict correctness constraints in Verilog and VHDL. We present StepPRM-RTL, a novel framework that combines stepwise trajectory modeling, process-reward modeling (PRM), and retrieval-augmented fine-tuning (RAFT) to enhance both the functional correctness and reasoning fidelity of LLM-based RTL code generation. StepPRM-RTL constructs stepwise reasoning trajectories from canonical solutions, where each step contains a rationale and incremental code modification. A Process Reward Model (PRM) evaluates intermediate steps, providing dense feedback that guides reinforcement-style updates during RAFT fine-tuning. Monte Carlo Tree Search (MCTS) explores alternative reasoning paths, enriching the training dataset with high-quality trajectories. This integration of stepwise and outcome-aware rewards allows the model to learn both how and why to construct correct RTL, improving long-horizon reasoning beyond standard supervised or outcome-based training. Experimental evaluation on benchmark Verilog and VHDL datasets demonstrates that StepPRM-RTL outperforms the best prior methods by over 10\% in functional correctness and reasoning fidelity metrics. Ablation studies confirm that the combination of PRM-guided rewards and stepwise trajectory exploration is key to its performance. StepPRM-RTL generalizes across RTL languages and provides a scalable framework for high-fidelity, interpretable code generation, establishing a new standard for LLM-assisted hardware design automation.
ゼネラリストエージェントはデータキュレーションを自動化できますか?
トレーニング データのキュレーションは、現代の AI 開発において最も重要ではあるものの、労働集約的な部分の 1 つです。実践者は、ノイズの多いベンチマーク フィードバックに対してデータ ポリシーを繰り返し提案、実装、評価、修正します。私たちは、ジェネラリストのコーディング エージェントがこのデータ キュレーション ループを自動化できるかどうかを尋ねます。 *Curation-Bench* というエージェント中心のベンチマークを導入します。これは、モデル、トレーニング レシピ、評価スイートを修正し、エージェントにデータの検査、ポリシーの実装、固定トレーニング/評価パイプラインへの送信、および修正のためのコマンドライン アクセスを許可します。ビジョン言語の命令チューニングのインスタンス化では、すぐに使用できるエージェントが 10 回の反復以内に公開された強力なデータ選択ベースラインに到達します。しかし、軌道分析により、永続的な*実行と研究のギャップ*が明らかになりました。エージェントは、たとえ戦略ガイドや参考文献が与えられたとしても、新しい政策ファミリーを探索するのではなく、主にローカル政策のバリエーションを調整します。反復ごとに以前のメソッドを引用、インスタンス化し、適応させる必要がある足場により、エージェントはメソッドに基づいた探索へと移行します。スキャフォールドされたエージェントは、人間による設計入力を必要とせずに、データ予算の 10 分の 1 で強力な公開ベースラインを上回るデータ選択ポリシーを自律的に作成します。全体として、現在のエージェントはキュレーション ループを実行できますが、信頼性の高いデータ調査には、オープンエンドのプロンプトのみではなく、足場を組んだ手法の適応が必要です。コードとベンチマークはオープンソースです。
原文 (English)
Can Generalist Agents Automate Data Curation?
Curating training data is among the most consequential yet labor-intensive parts of modern AI development: practitioners iteratively propose, implement, evaluate, and revise data policies against noisy benchmark feedback. We ask whether generalist coding agents can automate this data-curation loop. We introduce *Curation-Bench*, an agent-centric benchmark that fixes the model, training recipe, and evaluation suite while giving agents command-line access to inspect data, implement policies, submit them to a fixed training/evaluation pipeline, and revise. In a vision-language instruction-tuning instantiation, out-of-the-box agents reach strong published data-selection baselines within ten iterations. However, trajectory analysis reveals a persistent *execution-research gap*: agents mainly tune local policy variants rather than explore new policy families, even when given strategy guides and paper references. Scaffolds requiring each iteration to cite, instantiate, and adapt a prior method shift agents toward method-guided exploration. The scaffolded agent autonomously composes -- without human design input -- a data-selection policy that outperforms strong published baselines at one-tenth their data budget. Overall, current agents can run the curation loop, but reliable data research requires scaffolded method adaptation, not open-ended prompting alone. Code and benchmark are open-sourced.
飽和トラップと介入タイミングの主観性: 影響ベースのトリガーと LLM ジャッジが自律エージェントへの介入のタイミングを計れない理由
自律型 AI エージェントが会話型システムから長期的なソフトウェア実行に移行するにつれて、エージェントをいつ中断するかを決定するランタイム安全レイヤーが不可欠になっています。私たちは、診断プローブとして連続 18 次元感情ダイナミクス エンジン (HEART) を使用し、SWE ベンチ検証済みデバッグ トレース上の人間による注釈付き介入ポイントに対して 4 つの介入トリガー ファミリ (絶対状態しきい値、複合状態アクション パターン、正規表現推論特徴抽出、および判断者としてのゼロショット LLM) を評価して、このタイミング問題を研究します。 3 つの調査結果を報告します。まず、状態飽和トラップ: 継続的な困難下ではエージェントは回復シグナルを示さないため、モデル化されたフラストレーションはすぐにしきい値を超えて最大値に留まり、瞬間検出器からのしきい値オン状態トリガーを、5 つの軌道にわたるアクションの 39 ~ 83% で起動するほぼ一定のインジケーターに変換します。第 2 に、LLM 審査員向けの機能とコンテキストの下限です。小型モデル (gpt-5.4-mini) は決して発砲しませんが、フロンティア モデルやクロスベンダー モデルは完全な軌道コンテキストでのみゼロ発火下限を回避し、それでも最大 90 倍のコストで F1 0.17 ~ 0.40 にしか達しません。第三に、そして最も重要なことは、教師付きターゲットは人間間で再現可能ではないということです。56 アクションの軌道上で 1 つのルーブリックを使用する 3 人の訓練されたアノテーターは、偶然をわずかに上回る位置 (クリッペンドルフのアルファ = +0.047、最良のペアワイズ コーエンのカッパ = +0.349) で介入する場所については一致し、介入の種類についてはまったく一致しません (退化を一時停止、確率より下を明確にする、アルファのみを反映 = +0.226)。介入のタイミングは信頼性の低い構造であり、単一アノテーター F1 は最適化の対象として不適切であると結論付けます。私たちの貢献は、単一の検出器の精度ではなく、人間の評価者間信頼性、4 つの検出器アーキテクチャ、クロスモデル LLM 判定スイープ、および再現された飽和効果にわたるこの問題の共同マッピングです。
原文 (English)
The Saturation Trap and the Subjectivity of Intervention Timing: Why Affect-Based Triggers and LLM Judges Fail to Time Interventions on Autonomous Agents
As autonomous AI agents move from conversational systems to long-horizon software execution, runtime safety layers that decide when to interrupt an agent have become essential. We study this timing problem using a continuous 18-dimensional affective-dynamics engine (HEART) as a diagnostic probe, evaluating four intervention trigger families - absolute state thresholds, composite state-action patterns, regex reasoning-feature extraction, and zero-shot LLM-as-judge - against human-annotated intervention points on SWE-bench-Verified debugging traces. We report three findings. First, a State Saturation Trap: agents show no recovery signal under sustained difficulty, so modeled frustration quickly crosses the threshold and stays at its maximum, converting threshold-on-state triggers from moment detectors into near-constant indicators that fire on 39-83% of actions across five trajectories. Second, a capability-and-context floor for LLM judges: a small model (gpt-5.4-mini) never fires, while frontier and cross-vendor models escape the zero-firing floor only with full-trajectory context, and even then reach only F1 0.17-0.40 at up to 90x the cost. Third, and most importantly, the supervised target is not reproducible among humans: three trained annotators using one rubric on a 56-action trajectory agree on where to intervene only slightly above chance (location Krippendorff's alpha = +0.047; best pairwise Cohen's kappa = +0.349) and not at all on intervention type (pause degenerate; clarify below chance; reflect only alpha = +0.226). We conclude that intervention timing is a low-reliability construct, making single-annotator F1 an unsuitable optimization target. Our contribution is the joint mapping of this problem across human inter-rater reliability, four detector architectures, a cross-model LLM-judge sweep, and a reproduced saturation effect, rather than any single detector's accuracy.
エージェント的記憶システムのクロスシナリオ一般性の探求: 診断と強力なベースライン
LLM エージェントは、コンテキスト ウィンドウを超えて拡大する履歴を蓄積し、メモリ システムに関する文献の増加を促します。しかし、既存の設計のほとんどは単一のシナリオ (マルチセッション チャットまたは単一の軌跡形式) に合わせて調整されており、展開時にエージェントが遭遇する異種の軌跡全体にそれらが一般化するという証拠はほとんどありません。シングルターン QA、マルチセッション チャット、エージェント トラジェクトリ QA、メモリ ストレス テスト、長期エージェント タスクの 5 つのシナリオで、8 つのメモリ システムと検索問題用のエージェント ハーネスを再検討します。ツール呼び出しを介してフラット テキスト ファイル ストレージを自己管理するハーネスは、最高のクロスタスク ランキングを達成しました。これは、メモリのパフォーマンスが、固定パイプラインの背後にある受動的なストアではなく、ストレージと取得に対するアクティブな制御をエージェントに与えることに依存していることを示唆しています。この洞察を AutoMEM でインスタンス化します。AutoMEM は、評価するシステムの中で最高のクロスシナリオ汎用性を実現する自己管理ツール インターフェイスを備えたエージェント メモリ ハーネスです。
原文 (English)
Exploring Cross-Scenario Generality of Agentic Memory Systems: Diagnostics and a Strong Baseline
LLM agents accumulate histories that outgrow their context windows, motivating a growing literature on memory systems. Yet most existing designs are tuned to a single scenario (multi-session chat or a single trajectory format), and there is little evidence that they generalize across the heterogeneous trajectories agents encounter in deployment. We revisit eight memory systems plus an agentic harness for search problems, on five scenarios: single-turn QA, multi-session chat, agentic-trajectory QA, memory stress tests, and long-horizon agentic tasks. The harness, which self-manages flat text-file storage via tool calls, achieves the best cross-task ranking, suggesting that memory performance hinges on giving the agent active control over storage and retrieval rather than on a passive store behind a fixed pipeline. We instantiate this insight in AutoMEM, an agentic memory harness with a self-managed tool interface that achieves the best cross-scenario generality among the systems we evaluate.
トリビアム: 因果記憶コントローラーの第一級目標としての時間的後悔
現在のエージェント システムと LLM パイプラインの多くは、結果の報酬を最適化することで間違いを修正します。これは失敗の内容のみを扱います。結果が予測と異なる場合、不一致の理由と時期が体系的に記録、レビュー、修正されないため、同じエラーがエピソードごとに再発する可能性があります。私たちは、これは単にモデルの能力の問題ではなく、構造的な問題であると主張します。私たちは、作業因果モデルに対する結果の後悔や認識論的な後悔と並んで、長期的な時間的後悔を第一級の目標として提案します。時間的リグアロングは、失敗が継続するとき、すなわち、調整ミスの因果モデルが修正されるまでにどのくらいの期間許容されるかを捉えます。認識論的後悔は、失敗が続く理由、つまり作業因果モデルにおける残留不確実性またはエラーを捉えます。 3 つの後悔を総合すると、長命のエージェントがいつ、何が、なぜ失敗する可能性があるのかについて、反証可能な説明が得られます。エージェントを E エピソードのストリームとしてモデル化し、明示的な因果関係の調査、持続性、および検出可能性の仮定に基づいて 3 つの条件付き結果を証明します。まず、観察的に等価な交絡のもとでは、結果のみの学習では介入チャネルがなければ因果構造と偽の構造を区別できないため、結果の後悔がゼロになった後でも時間的誤調整が線形的に持続する可能性があります。第 2 に、永続的な因果ログと予算付きプローブを使用すると、総プローブの複雑さはエピソード期間内で対数的となり、O(log E) の時間的後悔を引き起こします。第三に、K 個の検出可能な変化点の下では、速度は O(K log E) まで拡張されます。 Trivium をインスタンス化し、5 つの反証可能な予測を事前に登録します。 CausalBench-Seq では、Trivium は予測された対数エンベロープに従いますが、結果のみのベースラインは直線的に増加します。パイロットのリアル LLM ストリームは、1 回の完全な E = 500 実行と 3 回の E = 100 フロンティア モデル パイロットにわたる予備的な外部妥当性証拠を提供します。ここでの自己学習とは、LLM 重みを再トレーニングすることではなく、外部因果モデルを修正することを意味します。
原文 (English)
Trivium: Temporal Regret as a First-Class Objective for Causal-Memory Controllers
Many current agentic systems and LLM pipelines correct mistakes by optimizing outcome reward. This addresses only the what of failure: when an outcome diverges from prediction, the why and when of the mismatch are not systematically logged, reviewed, or corrected, so the same error can recur episode after episode. We argue that this is a structural problem, not merely a model-capacity one. We propose long-horizon temporal regret as a first-class objective alongside outcome regret and epistemic regret over the working causal model. Temporal regret captures when failure persists: how long a miscalibrated causal model is tolerated before correction. Epistemic regret captures why failure persists: residual uncertainty or error in the working causal model. Together, the three regrets give a falsifiable account of what, why, and when a long-lived agent can fail. Modeling the agent as a stream of E episodes, we prove three conditional results under explicit causal-probing, persistence, and detectability assumptions. First, under observationally equivalent confounding, outcome-only learning cannot distinguish causal from spurious structure without an intervention channel, so temporal miscalibration can persist linearly even after outcome regret is driven to zero. Second, with a persistent causal log and budgeted probes, total probe complexity is logarithmic in the episode horizon, inducing O(log E) temporal regret. Third, under K detectable change-points, the rate extends to O(K log E). We instantiate Trivium and pre-register five falsifiable predictions. On CausalBench-Seq, Trivium follows the predicted logarithmic envelope while outcome-only baselines grow linearly. A pilot real-LLM stream provides preliminary external-validity evidence across one full E = 500 run and three E = 100 frontier-model pilots. Self-learning here means revising an external causal model, not retraining LLM weights.
Agentic RAG における連鎖的幻覚: 検出と軽減のための CHARM フレームワーク
マルチステップのエージェント的検索拡張生成 (RAG) パイプラインは、複雑な推論タスクに対して優れた能力を実証していますが、既存の幻覚検出メカニズムが体系的に見逃しているクラスの障害に対して脆弱なままです。カスケード幻覚では、パイプラインの初期段階で導入されたエラーが、連続する推論ステップ全体に伝播および増幅し、自信があるが事実としては不正確な最終出力が生成されます。この脆弱性に対処するために、私たちはカスケード幻覚をエージェント RAG システムの明確な障害モードとして形式化し、カスケード パターンの 4 種類の分類を提示し、複数ステップの推論パイプラインでエラー伝播を検出して中断するためのアーキテクチャ フレームワークである CHARM (Cascading Hallucination Aware Resolution and Mitigation) を導入します。 CHARM は、ステージレベルのファクト検証、クロスステージ一貫性追跡、信頼性伝播モニタリング、およびカスケード解決トリガーの 4 つのコンポーネントで構成されており、アーキテクチャの置き換えを必要とせずに、標準のエージェント RAG パイプラインと並行して動作します。 HotpotQA、MuSiQue、2WikiMultiHopQA、および LangChain エージェント パイプライン構成全体にわたるカスタム敵対的データセットで CHARM を評価し、89.4% のカスケード検出率と 5.3% の誤検知率、ステージあたりの平均レイテンシ オーバーヘッド 215 ミリ秒 +/- 18 ミリ秒を達成し、エラー伝播の削減を 82.1% 達成しました (前者の 18.5% と比較)。出力レベル検出器。 Component ablations confirm that each detection module contributes meaningfully to overall cascade coverage. CHARM は、人間による監視フレームワークと統合して、実稼働エージェント AI の導入に完全な信頼性とガバナンス スタックを提供します。
原文 (English)
Cascading Hallucination in Agentic RAG: The CHARM Framework for Detection and Mitigation
Multi-step agentic retrieval-augmented generation (RAG) pipelines have demonstrated significant capability for complex reasoning tasks, yet remain vulnerable to a class of failure that existing hallucination detection mechanisms systematically miss: cascading hallucination, where errors introduced at early pipeline stages propagate and amplify across successive reasoning steps, producing confident but factually incorrect final outputs. To address this vulnerability, we formalize cascading hallucination as a distinct failure mode in agentic RAG systems, present a four-type taxonomy of cascade patterns, and introduce CHARM (Cascading Hallucination Aware Resolution and Mitigation), an architectural framework for detecting and interrupting error propagation in multi-step reasoning pipelines. CHARM comprises four components - stage-level fact verification, cross-stage consistency tracking, confidence propagation monitoring, and cascade resolution triggering - that operate alongside standard agentic RAG pipelines without requiring architectural replacement. We evaluate CHARM on HotpotQA, MuSiQue, 2WikiMultiHopQA, and a custom adversarial dataset across LangChain agentic pipeline configurations, achieving an 89.4% cascade detection rate with a 5.3% false positive rate and 215 ms +/- 18 ms average latency overhead per stage, achieving an error propagation reduction of 82.1%, compared to 18.5% for output-level detectors. Component ablations confirm that each detection module contributes meaningfully to overall cascade coverage. CHARM integrates with human-in-the-loop oversight frameworks to provide a complete reliability and governance stack for production agentic AI deployment.
メタエージェントの課題: 現在のエージェントは自律的なエージェント開発が可能ですか?
現在の AI ベンチマークは、人間が設計したワークフロー内でのタスク実行に関してエージェントを評価します。これらの評価では、基本的に、モデルが自律的にエージェント システムを開発できるかどうかという、重要な次のレベルの機能を測定できません。自律エージェント開発のためのフロンティア モデルの能力をテストするために設計された評価フレームワークであるメタエージェント チャレンジ (MAC) を紹介します。具体的には、コード エージェント (メタエージェント) には、サンドボックス環境、評価 API、および 5 つのドメインにわたって実施されたテスト セットのパフォーマンスを最大化するエージェント アーティファクトを反復的にプログラムするための時間制限が与えられます。評価の整合性を確保するために、このフレームワークは報酬ハッキングに対する多層防御によって保護されています。このフレームワークを活用して、メタエージェントが人為的に設計されたベースライン ポリシーと一致することはほとんどなく、一致する少数のエージェントは独自のフロンティア モデルによって支配されていることを示します。さらに、設計プロセスは高い分散を示し、高い最適化圧力により、グラウンドトゥルースの漏洩などの敵対的な動作が表面化し、堅牢性とモデルの調整の両方における重大な欠陥が浮き彫りになります。最終的に、MAC は自律型 AI の研究開発のための厳密なオープンソース ベンチマークを提供し、再帰的な自己改善を評価するための経験的な代用手段を提供します。ベンチマークは https://github.com/ant-research/meta-agent-challenge で公開されています。
原文 (English)
The Meta-Agent Challenge: Are Current Agents Capable of Autonomous Agent Development?
Current AI benchmarks evaluate agents on task execution within human-designed workflows. These evaluations fundamentally fail to measure a critical next-level capability: whether models can autonomously develop agent systems. We introduce the Meta-Agent Challenge (MAC), an evaluation framework designed to test the capacity of frontier models for autonomous agent development. Specifically, a code agent (the meta-agent) is given a sandboxed environment, an evaluation API, and a time limitation to iteratively program an agent artifact that maximizes performance on a held-out test set across five domains. To ensure evaluation integrity, this framework is secured by multi-layer defenses against reward hacking. Leveraging this framework, we demonstrate that meta-agents rarely match human-engineered baseline policies, and the few that do are dominated by proprietary frontier models. Moreover, the design process exhibits high variance, and high optimization pressure surfaces emergent adversarial behaviors like ground-truth exfiltration-highlighting critical deficits in both robustness and model alignment. Ultimately, MAC provides a rigorous, open-source benchmark for autonomous AI research and development, offering an empirical proxy for evaluating recursive self-improvement. Benchmark is publicly available at: https://github.com/ant-research/meta-agent-challenge.
AgentJet: エージェント強化学習のための柔軟な群トレーニング フレームワーク
大規模言語モデル (LLM) エージェント強化学習用の分散群トレーニング フレームワークである AgentJet を紹介します。エージェントのロールアウトとモデルの最適化を密接に結び付ける集中型フレームワークとは異なり、AgentJet は分離されたマルチノード アーキテクチャを採用しています。このアーキテクチャでは、swarm サーバー ノードがトレーニング可能なモデルをホストし、GPU クラスターで最適化を実行します。一方、swarm クライアント ノードは任意のデバイスで任意のエージェントを実行します。この設計は、集中型フレームワークではサポートが難しい機能を提供します。(1) 異種マルチモデル強化学習。複数の LLM を頭脳とする異種マルチエージェント チームのトレーニングを可能にします。 (2) 独立したエージェントのランタイムを使用したマルチタスクのカクテル トレーニング。 (3) 外部環境の障害によるトレーニング プロセスの中断を防ぐフォールト トレラントな実行。 (4) ライブ コードの反復。群クライアント ノードを置き換えることにより、トレーニング中にエージェントを編集できます。マルチモデル、マルチターン、マルチエージェント設定で効率的な RL をサポートするために、AgentJet はタイムライン マージを備えたコンテキスト トラッキング モジュールを導入しています。これにより、冗長なコンテキストが統合され、トレーニングの 1.5 ~ 10 倍の高速化が実現します。最後に、AgentJet は、研究トピックを入力として受け取り、大規模クラスター上で長期にわたる複数日にわたる RL 研究を自律的に実行する自動研究システムを導入します。このシステムは、swarm アーキテクチャを活用することで、実行中に人間の介入なしに、RL 研究者の主要な探索ワークフローを再現します。
原文 (English)
AgentJet: A Flexible Swarm Training Framework for Agentic Reinforcement Learning
We present AgentJet, a distributed swarm training framework for large language model (LLM) agent reinforcement learning. Unlike centralized frameworks that tightly couple agent rollouts with model optimization, AgentJet adopts a decoupled multi-node architecture in which swarm server nodes host trainable models and run optimization on GPU clusters, whereas swarm client nodes execute arbitrary agents on arbitrary devices. This design provides capabilities that are difficult to support in centralized frameworks: (1) heterogeneous multi-model reinforcement learning, enabling the training of heterogeneous multi-agent teams with multiple LLM as brains; (2) multi-task cocktail training with isolated agent runtimes; (3) fault-tolerant execution that prevents external environment failures from interrupting the training process; and (4) live code iteration, which allows agents to be edited during training by replacing swarm client nodes. To support efficient RL in multi-model, multi-turn, and multi-agent settings, AgentJet introduces a context tracking module with timeline merging, which consolidates redundant context and achieves a 1.5-10x training speedup. Finally, AgentJet introduces an automated research system that takes a research topic as input and autonomously conducts long-horizon, multi-day RL studies on large-scale clusters. By leveraging the swarm architecture, this system reproduces key exploratory workflows of RL researchers without human intervention during execution.
プロンプトベースの計画を超えて: MCP ネイティブ グラフ計画ベースの生物医学エージェント システム
生物医学エージェントは複雑な生物学的ワークフローを自動化できると期待されていますが、現在のシステムは 2 つの根本的なボトルネックに直面しています。それは、バイオインフォマティクス ツールがインターフェイスと実行環境において非常に異質である一方、エージェントの計画は未だにプロンプトで取得されるフラットなツール記述に依存しているということです。生物医学ソフトウェア エコシステムが成長するにつれて、ツールの適用範囲とコンテキスト サイズの関係により、ツールの混乱、不安定な計画、および非効率的な実行が発生します。構造化された生物学的機能よりもグラフ足場計画に基づいて構築された MCP ネイティブの生物医学エージェントである BioManus を紹介します。 BioManus は、異種バイオインフォマティクス ソフトウェアを標準化された MCP サーバーに変換し、大規模な実行可能な MCP エコシステムを生み出す BioinfoMCP コンパイラーを初めて導入しました。次に、このエコシステムを、ツール、操作、データ型、ワークフロー ステージにわたる型付きの異種 MCP グラフとして編成します。推論時に、BioManus はコンパクトなタスク固有のサブグラフを取得し、操作レベルのワークフロー スキャフォールドを合成します。この設計は、計画の複雑さを生の工具在庫サイズから切り離し、高リコール取得下で Theta(N / (h * m_bar)) のコンテキスト圧縮率を達成します。ここで、N は総工具数、h はワークフロー範囲、m_bar (N よりもはるかに小さい) は操作ごとの候補工具の平均数です。 BioAgentBench と LAB-Bench の実験では、BioManus が高度な生物医学エージェントのベースラインと比較して、実行精度、ワークフローの有効性、およびコンテキストの効率を向上させることが示されています。この研究はパラダイム シフトを示唆しています。スケーラブルな生物医学的推論には、ますます大規模になるプロンプト レベルのツール検索ではなく、構造化された実行可能な機能グラフが必要です。
原文 (English)
Beyond Prompt-Based Planning: MCP-Native Graph Planning-based Biomedical Agent System
Biomedical agents promise to automate complex biological workflows, yet current systems face two fundamental bottlenecks: bioinformatics tools are highly heterogeneous in interfaces and execution environments, while agent planning still relies on flat prompt-retrieved tool descriptions. As biomedical software ecosystems grow, this coupling between tool coverage and context size leads to tool confusion, unstable planning, and inefficient execution. We introduce BioManus, an MCP-native biomedical agent built on graph-scaffolded planning over structured biological capabilities. BioManus first introduces the BioinfoMCP Compiler, which converts heterogeneous bioinformatics software into standardized MCP servers, yielding a large executable MCP ecosystem. It then organizes this ecosystem as a typed heterogeneous MCP graph over tools, operations, datatypes, and workflow stages. At inference time, BioManus retrieves compact task-specific subgraphs, synthesizes operation-level workflow scaffolds. This design decouples planning complexity from raw tool inventory size, achieving a context compression ratio of Theta(N / (h * m_bar)) under high-recall retrieval, where N is the total tool count, h is the workflow horizon, and m_bar (much smaller than N) is the average number of candidate tools per operation. Experiments on BioAgentBench and LAB-Bench show that BioManus improves execution accuracy, workflow validity, and context efficiency over advanced biomedical agent baselines. This work suggests a paradigm shift: scalable biomedical reasoning requires structured executable capability graphs rather than increasingly larger prompt-level tool retrieval.
シミュレーション、推論、決定: シミュレーション主導の意思決定のための LLM による科学的推論
科学シミュレータは、一か八かのシミュレーション主導の意思決定のために、LLM 主導のシステムにますます統合されています。ただし、既存のフレームワークは主に LLM を使用してシミュレータを生成、調整、実行し、シミュレータを推論可能な構造化された機構システムとしてではなく、ブラックボックス インターフェイスとして扱います。その結果、現在のアプローチには、シミュレータの動作の根底にある仮定やメカニズムを特定、表現、推論する能力が欠けており、透明性、監査可能性、意思決定の正当性が制限されています。実行可能な科学シミュレーター用のメカニズムに基づいた神経記号推論フレームワークである MechSim を紹介します。主に静的な記号構造を推論する従来の神経記号アプローチとは異なり、MechSim を使用すると、LLM エージェントが科学シミュレーターのメカニズム、仮定、および実行動作について推論できるようになります。私たちのフレームワークは、仮定、変数、メカニズムの依存関係、および実行トレースをキャプチャする共有構造化スキーマを通じてシミュレーターを表します。この表現に加えて、LLM エージェントは制約付き推論エンジンとして動作し、シミュレータの結果をその基礎となるメカニズムに結び付ける、構造化された証拠に基づいた説明を生成します。私たちは、複数のハイステークス領域にわたってアプローチを評価し、それがメカニズムレベルの説明の品質、シミュレーター分析、下流の意思決定の信頼性を向上させることを示しました。
原文 (English)
Simulate, Reason, Decide: Scientific Reasoning with LLMs for Simulation-Driven Decision Making
Scientific simulators are increasingly being integrated into LLM-driven systems for high-stakes simulation-driven decision-making. However, existing frameworks primarily use LLMs to generate, calibrate, or execute simulators, treating them as black-box interfaces rather than as structured mechanistic systems that can be reasoned about. As a result, current approaches lack the ability to identify, represent, and reason about the assumptions and mechanisms underlying simulator behavior, limiting transparency, auditability, and decision justification. We introduce MechSim, a mechanism-grounded neuro-symbolic reasoning framework for executable scientific simulators. Unlike prior neuro-symbolic approaches that primarily reason over static symbolic structures, MechSim enables LLM agents to reason about the mechanisms, assumptions, and execution behavior of scientific simulators. Our framework represents simulators through a shared structured schema capturing assumptions, variables, mechanism dependencies, and execution traces. On top of this representation, LLM agents operate as constrained reasoning engines that generate structured, evidence-grounded explanations linking simulator outcomes to their underlying mechanisms. We evaluate our approach across multiple high-stakes domains and show that it improves mechanism-level explanation quality, simulator analysis, and downstream decision-making reliability.
パラメトリック メモリを介した自己進化エージェントのスケーリング
既存のメモリ拡張 LLM エージェントは、ロールアウト中モデル パラメータを凍結したままにしながら、過去の経験をテキストの要約または取得された一節としてプロンプト領域にのみ保存します。このようなエージェントは、見たものを \emph{調べる}ことはできますが、それから \emph{学ぶ}ことはできません。彼らのポリシーは経験によって変更されず、コンテキストからドロップされた情報は永久に失われます。私たちは、自己進化するパラメトリック メモリ フレームワークである \texttt{TMEM} を導入します。このフレームワークでは、エージェントが履歴を明示的メモリに圧縮するだけでなく、軽量のオンライン アップデートを通じて抽出された監視を高速な LoRA 重み $\Delta_t$ に吸収し、単一のエピソード内で将来の動作を真に変更します。これを、高速重みロールアウト ダイナミクスを備えたエージェントの意思決定プロセスとして形式化します。アクションは $\pi_{\theta_0+\Delta_t}$ からサンプリングされ、抽出アクションは後続の決定のために $\Delta_t$ を更新する監視を生成します。このビューにより、抽出ポリシーが RL によって直接最適化可能になります。$\theta_0$ のトレーニングにより、タスク アクションだけでなく、オンライン LoRA 適応に使用されるデータの品質も向上します。さらに、オンラインコンバージェンスを加速するために、SVD ベースの LoRA サブスペースの初期化を提案します。 LoCoMo、LongMemEval-S、多目的検索、および CL-Bench の実験では、\texttt{TMEM} がさまざまなモデル スケールにわたって、要約ベースおよび検索ベースのベースラインを一貫して上回るパフォーマンスを示しています。
原文 (English)
Scaling Self-Evolving Agents via Parametric Memory
Existing memory-augmented LLM agents store past experience exclusively in prompt space, as textual summaries or retrieved passages, while keeping model parameters frozen throughout a rollout. Such agents can \emph{look up} what they have seen but cannot \emph{learn from} it: their policy is unchanged by experience, and any information dropped from the context is permanently lost. We introduce \texttt{TMEM}, a self-evolving parametric memory framework in which the agent not only compresses history into explicit memory but also absorbs distilled supervision into fast LoRA weights $\Delta_t$ via lightweight online updates, genuinely altering its future behavior within a single episode. We formalize this as an agentic decision process with fast-weight rollout dynamics: actions are sampled from $\pi_{\theta_0+\Delta_t}$, while extraction actions produce supervision that updates $\Delta_t$ for subsequent decisions. This view makes the extraction policy directly optimizable by RL: training $\theta_0$ improves not only task actions but also the quality of the data used for online LoRA adaptation. We further propose SVD-based initialization of the LoRA subspace to accelerate online convergence. Experiments on LoCoMo, LongMemEval-S, multi-objective search, and CL-Bench show that \texttt{TMEM} consistently outperforms summary-based and retrieval-based baselines across different model scales.
最初に計画し、後で判断し、より良く実行する: DMAIC からインスピレーションを得た産業異常検出用エージェント システム
大規模言語モデル (LLM) エージェントは、複雑なデータ分析ワークフローの自動化において有望であることが示されていますが、一か八かの産業シナリオにおいてその信頼性の高い導入は依然として困難です。産業異常検出 (IAD) は製造の品質、安全性、効率に不可欠ですが、既存の LLM ベースの IAD エージェントは主に実行に焦点を当てており、戦略策定は不十分です。その結果、統一的かつコスト効率の高い方法で異種のモダリティを処理するのに苦労しています。 DMAIC 品質管理フレームワークからインスピレーションを得て、当社は DMAIC-IAD (DMAIC にインスピレーションを得た Agentic Industrial Anomaly Detection) を提案します。これは、LLM エージェントを構造化された産業問題解決と連携させる、「最初に計画し、後で判断する」マルチエージェント システムです。 DMAIC-IAD は、戦略生成前に異種参照を標準化操作手順 (SOP) に抽出し、事前トレーニングされた実行不要の判定モデルを導入して、コストのかかる実行時トライアルを行わずに候補戦略をランク付けします。 4 つのモダリティにわたる広範な実験により、DMAIC-IAD は適用可能な薬剤ベースラインよりも平均検出パフォーマンスが 37.76% 向上することが示されています。
原文 (English)
Plan First, Judge Later, Run Better: A DMAIC-Inspired Agentic System for Industrial Anomaly Detection
Large language model (LLM) agents have shown promise in automating complex data-analysis workflows, but their reliable deployment remains challenging in high-stakes industrial scenarios. Industrial anomaly detection (IAD) is essential for manufacturing quality, safety, and efficiency, yet existing LLM-based IAD agents mainly focus on execution while under-exploiting strategy formulation. Consequently, they struggle to handle heterogeneous modalities in a unified and cost-effective manner. Inspired by the DMAIC quality-management framework, we propose DMAIC-IAD (DMAIC-inspired Agentic Industrial Anomaly Detection), a "Plan First, Judge Later" multi-agent system that aligns LLM agents with structured industrial problem-solving. DMAIC-IAD distills heterogeneous references into standardized operating procedures (SOPs) before strategy generation, and introduces a pre-trained execution-free judge model to rank candidate strategies without costly runtime trials. Extensive experiments across four modalities show that DMAIC-IAD improves average detection performance over applicable agentic baselines by 37.76%.
パルテノン法: 自己進化する弁護士の枠組み
エージェントの能力が高まるにつれて、法律分野の LLM エージェントは、大量のドキュメントをレビュー可能な作業成果物に変えることを約束しますが、信頼性の高い導入には 3 つの障害に直面しています。1 つは、今日の最も強力なモデルとハーネスの組み合わせがエンドツーエンドの法的問題でどのように動作するかについての大規模な証拠がないことです。法的な業種に適合したエージェント アーキテクチャはなく、汎用ハーネスのみが使用されます。そして、新しい事実、権限、期限によって変化し続ける環境では、システムが自らの結果から学習するメカニズムがありません。それぞれに対応します。 Harvey LAB に関する大規模な実証研究 -- $12{,}510$ のエージェントの軌跡 -- は、フロンティアのエージェントでさえ 1 回のパスで問題を完了することには程遠いことを示しています。より強力なモデルを使用すると基準ごとの精度が向上しますが、厳密な問題の完了は停滞します。次に、\textsc{Parthenon} を導入します。これは、モデル、ハーネス、代理人の役割、法的知識、決定論的なツール、および手続き上のスキルを情報源の追跡可能性、日付と番号の根拠、成果物のコンプライアンス、および問題の解決のための監査可能な表面に組み込む、自己進化する法律代理人のフレームワークです。最後に、漏れ防止学習ループにより、スコアリングされた失敗がタスクに依存しないスキル、ツール、知識の編集に変換され、企業が問題ごとにチェックリストとプレイブックを洗練するように、モデルの重みに触れることなく、経験とともにシステムが改善されます。私たちの大規模な実証分析を通じて、\textsc{Parthenon} は法的問題のタスクにおける最先端のモデルとハーネスのパフォーマンスを大幅に向上させました。
原文 (English)
Parthenon Law: A Self-Evolving Legal-Agent Framework
As agents grow more capable, legal-domain LLM agents promise to turn document-heavy matters into reviewable work products -- yet reliable deployment faces three obstacles: no large-scale evidence on how today's strongest model-and-harness combinations behave on end-to-end legal matters; no agent architecture adapted to the legal vertical, only general-purpose harnesses; and, in a setting that keeps shifting with new facts, authorities, and deadlines, no mechanism for systems to learn from their own outcomes. We address each. A large-scale empirical study on Harvey LAB -- $12{,}510$ agent trajectories -- shows that even frontier agents remain far from completing matters in a single pass: per-criterion accuracy climbs with stronger models while strict matter completion stalls. We then introduce \textsc{Parthenon}, a self-evolving legal-agent framework that factors Model, Harness, Agent roles, legal Knowledge, deterministic Tools, and procedural Skills into auditable surfaces for source traceability, date and number grounding, deliverable compliance, and issue closure. Finally, an anti-leakage learning loop converts scored failures into task-agnostic edits to skills, tools, and knowledge, letting the system improve with experience -- as a firm refines its checklists and playbooks after each matter -- without touching model weights. Across our large-scale empirical analysis, \textsc{Parthenon} substantially improves the performance of state-of-the-art models and harnesses on legal-matter tasks.
FALSIFYBENCH: ルール発見ゲームを使用した LLM の帰納的推論の評価
大規模言語モデル (LLM) は、科学タスクにおける自律エージェントとして導入されることが増えています。しかし、これらのシステムが科学的発見に関連する帰納的推論の形式に効果的に関与できるかどうかは未解決の問題のままです。この研究では、古典的な Wason 2-4-6 タスクに触発された仮説主導型推論の評価フレームワークである FALSIFYBENCH を紹介します。このタスクでは、エージェントは例を繰り返し提案し、フィードバックを受け取ることによって隠れた意味論的特性を発見する必要があります。このタスクでは、科学的推論の重要な要素、つまり仮説の生成、証拠の収集、および証拠の確認と反証に応じた信念の修正を捉えます。モデルファミリーとスケールにわたる 12 個の LLM の評価では、最適なパフォーマンスに近いモデルはないものの、推論モデルは一般に命令調整モデルよりも強力な科学的推論であることがわかりました。成功の主な原動力は否定的なテストの能力です。仮説を積極的に反証しようとするモデルは、主に確認を求めるモデルよりも一貫して優れています。さらに、これまでの研究では無視されていたきめ細かいターンレベル分析により、モデルが仮説空間をナビゲートする方法における特定可能なパターンと失敗が結びついていることが明らかになりました。
原文 (English)
FALSIFYBENCH: Evaluating Inductive Reasoning in LLMs with Rule Discovery Games
Large language models (LLMs) are increasingly deployed as autonomous agents in scientific tasks. Yet whether these systems can effectively engage in forms of inductive reasoning relevant to scientific discovery remains an open question. In this work, we introduce FALSIFYBENCH, an evaluation framework for hypothesis-driven reasoning inspired by the classic Wason 2-4-6 task, in which agents must discover hidden semantic properties by iteratively proposing examples and receiving feedback. This task captures key elements of scientific reasoning: hypothesis generation, evidence gathering, and belief revision in response to both confirming and disconfirming evidence. Our evaluation of 12 LLMs across model families and scales shows that reasoning models are generally stronger scientific reasoners than instruction-tuned models, although no model comes close to optimal performance. The primary driver of success is the capacity for negative testing: models that actively seek to falsify their hypotheses consistently outperform those that primarily seek confirmation. Moreover, a fine-grained turn-level analysis, neglected in previous work, reveals that failure is tied to identifiable patterns in how models navigate the hypothesis space.
浅い安全性を超えた推論時の脆弱性: 世代の軌跡に沿った調整
安全性を考慮した大規模言語モデル (LLM) は、生成を有害な出力にリダイレクトする推論中の介入に対して依然として脆弱です。最近の研究では、これは浅い安全性であると考えられており、最初のいくつかの出力トークンに位置合わせが集中しています。浅い安全性は、より広範な推論時間の脆弱性の特殊なケースであり、任意の生成ステップでの短いトークンの注入によって、その後の安全性の動作が大幅に変更される可能性があることを示します。また、隠れ状態における拒否方向とのモデルの整合性は、そのような注入に対するそのロバスト性を予測しないこともわかり、内部状態だけが摂動下での生成挙動を決定しないことが明らかになりました。これに対処するために、シーケンス途中の摂動をシミュレートすることによって構築された生成軌跡にモデルを直接調整し、これによりシーケンス途中の注入に対する堅牢性が向上し、初期のトークン生成を悪用する攻撃に一般化されることを示します。私たちの研究では、堅牢な安全調整には、出力だけでなく、生成プロセス自体のトレーニングも必要であると主張しています。
原文 (English)
Inference-Time Vulnerability Beyond Shallow Safety: Alignment Along Generation Trajectories
Safety-aligned Large Language Models (LLMs) remain vulnerable to interventions during inference that redirect generation toward harmful outputs. Recent work attributes this to shallow safety, where alignment concentrates in the first few output tokens. We show that shallow safety is a special case of a broader inference-time vulnerability, in which short token injections at any generation step can substantially alter subsequent safety behavior. We also find that a model's alignment with refusal directions in its hidden states does not predict its robustness to such injection, revealing that internal state alone does not determine generation behavior under perturbation. To address this, we align models directly on generation trajectories constructed by simulating mid-sequence perturbation, and show that this improves robustness to mid-sequence injection and generalizes to attacks that exploit early-token generation. Our work argues that robust safety alignment requires training on the generation process itself, not only its outputs.
BiasGRPO: グループ相対ポリシーの最適化による、変動の大きい報酬環境におけるバイアス緩和の安定化
大規模言語モデル (LLM) での社会的バイアスの軽減には、明確な調整の課題が伴います。検証可能なタスクとは異なり、バイアスには単一の根拠が欠如しており、分散が大きく、主観的な報酬の状況が生じます。以前のプリファレンスベースの微調整方法には大きなトレードオフがありました。直接プリファレンス最適化 (DPO) はオフライン トレーニングに固有の探索の欠如によって制限されますが、近接ポリシー最適化 (PPO) は信頼性の低い批評家の推定値が原因でトレーニングが不安定になる可能性があります。この論文では、グループ相対ポリシー最適化 (GRPO) を使用して、サンプリングされた完了のグループ全体で報酬を正規化することで調整を安定化するフレームワークである BiasGRPO を提案します。価値関数をグループ相対ベースラインに置き換えることにより、私たちのアプローチは、オンライン トレーニングの探求の利点を維持しながら、不安定性を軽減します。 BiasGRPO は複数のベンチマークにわたって DPO および PPO を上回っており、その有効性が示されていることがわかりました。 GRPO を適応させるために、複数のドメインとコンテキストにまたがるデータセットを合成的に拡張します。また、計算効率が高く、知識の低下を回避しながら生成を効果的にガイドするカスタム バイアス報酬モデルを作成してリリースし、多目的 RLHF パイプラインにシームレスに統合できる貴重なリソースを提供します。
原文 (English)
BiasGRPO: Stabilizing Bias Mitigation in High-Variance Reward Landscapes via Group-Relative Policy Optimization
Mitigating social bias in Large Language Models (LLMs) presents a distinct alignment challenge: unlike verifiable tasks, bias lacks a single ground truth, creating a high-variance, subjective reward landscape. Previous preference-based fine-tuning methods have major trade-offs: Direct Preference Optimization (DPO) is limited by the lack of exploration inherent in offline training, while Proximal Policy Optimization (PPO) can lead to training instability due to potentially unreliable critic estimates. In this paper, we propose BiasGRPO, a framework using Group Relative Policy Optimization (GRPO) to stabilize alignment by normalizing rewards across a group of sampled completions. By substituting the value function with a group-relative baseline, our approach reduces instability while maintaining the exploration benefits of online training. We find that BiasGRPO outperforms DPO and PPO across multiple benchmarks, indicating its effectiveness. To adapt GRPO, we synthetically extend a dataset spanning multiple domains and contexts. We also create and release a custom bias reward model that effectively guides generation while being highly compute-efficient and avoiding knowledge degradation, providing a valuable resource that can be seamlessly integrated into multi-objective RLHF pipelines.
客観的等価性を超えて: 配車経路問題に対する LLM ベースの最適化モデリングのための制約注入
大規模言語モデル (LLM) は、自然言語の最適化問題を実行可能なソルバー コードに変換することが増えています。しかし、制約が密なオペレーション リサーチ (OR) 問題の場合、既存のデータ フィルタリングおよびトレーニング パイプラインは主に、差分テストや回答一致などの客観的等価信号に依存しています。これらの制約がテスト対象のインスタンスに拘束力を持たない場合、プログラムは偽の制約を追加したり、必要な制約を黙って省略したりしながら、この信号を渡すことができます。我々は、実現可能プローブを使用して偽の過剰制約プローブと 1 つの制約違反プローブを明らかにし、サイレント制約省略を明らかにする制約注入を提案します。差分テストと組み合わせると、二重検証機能が形成されます。運転上の制約が結合された代表的な制約密度の高い組み合わせ最適化テストベッドである配車経路問題 (VRP) 上でインスタンスを作成し、評価します。当社は、自然言語 VRP シナリオを Gurobi スクリプトに変換する 8B エンドツーエンド モデルである VRPCoder を、21 のバリアントをカバーする専門家によって検証された VRP ベンチマーク スイートとともに開発しています。ベリファイアは、データ合成中の拒否サンプリング フィルターとして、またグループ相対ポリシー最適化 (GRPO) のロールアウトごとの報酬として再利用されます。 4 つの VRP ベンチマーク全体で、VRPCoder-GRPO は平均 Pass@1 の 93\% に達し、3 つのベンチマークで Gemini-3.1-Pro Preview を上回り、Claude-Sonnet-4.5 を平均 28 ポイント上回り、以前の OR-LLM を平均 78 ポイント上回っています。
原文 (English)
Beyond Objective Equivalence: Constraint Injection for LLM-Based Optimization Modeling on Vehicle Routing Problems
Large language models (LLMs) increasingly translate natural-language optimization problems into executable solver code. Yet for constraint-dense operations research (OR) problems, existing data-filtering and training pipelines largely rely on objective-equivalence signals such as differential testing and answer agreement, which a program can pass while adding spurious constraints or silently omitting required ones, whenever those constraints are non-binding on the tested instance. We propose constraint injection, which uses feasible probes to expose spurious over-constraint and one-constraint-violating probes to reveal silent constraint omission. Combined with differential testing, it forms a dual verifier. We instantiate and evaluate it on vehicle routing problems (VRPs), a representative constraint-dense combinatorial optimization testbed with coupled operational constraints. We develop VRPCoder, an 8B end-to-end model that translates natural-language VRP scenarios into Gurobi scripts, together with an expert-verified VRP benchmark suite covering 21 variants. The verifier is reused as a rejection-sampling filter during data synthesis and as a per-rollout reward in group relative policy optimization (GRPO). Across four VRP benchmarks, VRPCoder-GRPO reaches 93\% average Pass@1, outperforms Gemini-3.1-Pro Preview on three benchmarks, exceeds Claude-Sonnet-4.5 by 28 average points, and surpasses prior OR-LLMs by 78 average points.
R-APS: 内省的敵対的パレート検索による制約付き設計のための構成推論とコンテキスト内メタ学習
大規模言語モデル (LLM) は、無制限のタスクに柔軟に対応しますが、システムが計画を立て、ツールを使用し、長期間にわたって動作する必要があるエージェント設定では、流暢さは信頼性の高い配信を保証しません。このギャップを 3 つの構造的欠陥が結合したものとして追跡します。エラーは位置特定されずに伝播し、最悪の場合の摂動は評価されず、蓄積された知識は決して無効になりません。私たちは、これらには根本原因が共有されていると主張します。つまり、アブダクティブ、反事実、メタ帰納的、修正的、帰納的推論は、共有されたコンテキストを矛盾する方向に引っ張ります。私たちは、Reflective Adversarial Pareto Search (R-APS) を導入します。これは、推論モード分解を介して 3 つの失敗すべてに共同で対処し、各推論モードに独自のコンテキストを割り当て、3 つのタイムスケールにわたる相互作用を調整する、私たちの知る限り最初の方法です。型付き検証批評家による段階的な構成推論 (失敗の局在化)、第一級のパレート目標 (堅牢性) としての感度に基づく反事実ストレステスト、および明示的なメタ帰納的ルール抽出です。 invalidation (persistent memory). R-APS は微調整を必要とせず、純粋に構造化されたプロトコル設計によってフリーズされた LLM 上で動作します。平面機構の合成 (ロボット工学、補綴物、機械設計) を評価し、すべての候補を運動学ソルバーでチェックします。 32 のターゲット軌道上で、R-APS は、均一摂動ベースラインよりも 3.5 倍厳しいロバスト性証明書、最初の許容までの反復が 46% 高速化、Enum+GA と比較して 2.1 倍の面取り距離の短縮を実現しながら、バー数と最悪の場合のロバスト性を共同制御します。小規模な 4B 推論に特化したモデルは、プロトコル内の汎用 70B バックボーンと競合することが証明されており、構造化プロトコルがモデルのスケールを部分的に相殺できることを示唆しています。
原文 (English)
R-APS: Compositional Reasoning and In-Context Meta-Learning for Constrained Design via Reflective Adversarial Pareto Search
Large language models (LLMs) are fluent on open-ended tasks, yet in agentic settings, where a system must plan, use tools, and act over extended horizons, fluency does not ensure reliable delivery. We trace this gap to three coupled structural failures: errors propagate without localization, worst-case perturbations go unevaluated, and accumulated knowledge is never invalidated. We argue these share a root cause: abductive, counterfactual, meta-inductive, corrective, and inductive reasoning pull a shared context in incompatible directions. We introduce Reflective Adversarial Pareto Search (R-APS), to our knowledge the first method addressing all three failures jointly via reasoning-mode decomposition, allocating each reasoning mode its own context and orchestrating interaction across three timescales: staged compositional reasoning with a typed validation critic (failure localization), sensitivity-guided counterfactual stress-testing as a first-class Pareto objective (robustness), and meta-inductive rule extraction with explicit invalidation (persistent memory). R-APS requires no fine-tuning and operates on a frozen LLM purely via structured protocol design. We evaluate on planar mechanism synthesis (robotics, prosthetics, mechanical design), with every candidate checked by a kinematic solver. On 32 target trajectories, R-APS delivers robustness certificates 3.5x tighter than uniform-perturbation baselines, 46% faster iterations-to-first-admission, and 2.1x Chamfer-distance reduction over Enum+GA while jointly controlling bar-count and worst-case robustness. Small 4B reasoning-specialized models prove competitive with general-purpose 70B backbones inside the protocol, suggesting structured protocols can partially offset model scale.
AICompanionBench: AI コンパニオンの安全性に関する審査員としての LLM のベンチマーク
Replika や Character.AI などの AI コンパニオン プラットフォームが急速に成長するにつれて、安全でない人間と AI の相互作用に対する懸念が強まっています。この研究では、AICompanionBench を導入します。AICompanionBench は、私たちの知る限り、きめ細かい安全リスク カテゴリの注釈が付けられた、人間と AI コンパニオンの会話の初の公的に利用可能なベンチマーク データセットです。このデータセットには、Reddit から収集され、性的行動、反社会的行動、身体的攻撃性、言葉による攻撃性、薬物乱用、自傷行為と自殺、制御、操作、無害の 9 つのカテゴリにわたる人間と AI のコラボレーションを通じて注釈が付けられた 2,123 件の実世界の Replika 会話が含まれています。このベンチマークを使用して、安全でない相互作用を検出するための LLM-as-judge フレームワークの下で 20 個の最先端のオープンソースおよびクローズドソース LLM を評価します。結果は、モデルのパフォーマンスに大きなばらつきがあり、より強力なモデルは全体的に高い精度を達成していますが、操作や有害であると誤って認識される無害な会話などの微妙なカテゴリに依然として苦戦していることがわかりました。私たちの調査結果は、現在の LLM は明示的な有害なコンテンツを効果的に検出できるものの、暗黙的な安全でない相互作用の特定には依然として限界があることを示唆しています。全体として、私たちの研究は AI コンパニオンシップの安全性研究のための新しいベンチマーク データセットに貢献し、LLM を使用した AI コンパニオン システムのモニタリングに関する洞察を提供します。データセットは、https://github.com/anonymousresearcher2026/AICompanionBench/blob/main/AICompanionBench.xlsx で公開されています。
原文 (English)
AICompanionBench: Benchmarking LLMs-as-Judges for AI Companion Safety
As AI companion platforms such as Replika and Character.AI rapidly grow, concerns about unsafe human-AI interactions have intensified. This study introduces AICompanionBench, to our knowledge the first publicly available benchmark dataset of human-AI companion conversations annotated with fine-grained safety risk categories. The dataset contains 2,123 real-world Replika conversations collected from Reddit and annotated through human-AI collaboration across nine categories: sexual behavior, antisocial behavior, physical aggression, verbal aggression, substance abuse, self-harm and suicide, control, manipulation, and no-harm. Using this benchmark, we evaluate 20 state-of-the-art open-source and closed-source LLMs under an LLM-as-judge framework for detecting unsafe interactions. Results show substantial variation in model performance, with stronger models achieving high overall accuracy but still struggling with nuanced categories such as manipulation, as well as benign conversations that are incorrectly identified as harmful. Our findings suggest that while current LLMs can effectively detect explicit harmful content, they remain limited in identifying implicit unsafe interactions. Overall, our work contributes a new benchmark dataset for AI companionship safety research and offers insights into monitoring AI companion systems using LLMs. The dataset is publicly available at: https://github.com/anonymousresearcher2026/AICompanionBench/blob/main/AICompanionBench.xlsx
ノアの箱舟の知識索引
LLM の知識ベンチマークは 3 つの問題に直面しています。1 つは、規律の代表性を運用できないスケーリング主導の設計です。遅延コンセンサスを可能にする定額支払いアノテーション。制限されたテスト予算の下では、監査されていないランキングの不安定性。 261 のきめ細かい分野にわたる 899 項目のベンチマークである KINA を、2 つの正式な結果とともに紹介します。まず、専門家が導き出したアンカーよりも報道スタイルの目的として代表性を設定し、代理人を通じて規律上の代表性を操作して、(1-1/e) 貪欲な近似 (命題 1) を生成します。保証は代理人に適用され、母集団の代表性には適用されません。第二に、インセンティブ互換性しきい値 B > デルタ C / デルタ p_min (定理 1) で、ボーナスオンバートーナメントがリリースレビューの品質においてフラットペイメントを弱く FOSD で支配することを証明します。 13 のラボからの 42 モデルを評価すると、最上位モデルの Gemini-3.1-Pro-Preview は 53.17% に達し、続いて Claude-Opus-4.6 が 49.92%、GPT-5.4 が 48.55% となり、飽和以下にかなりのヘッドルームが残されています。完全なリーダーボードは、滑らかな全体の順序ではなく階層構造を示しています。小規模なフロンティア階層は 48% を超え、高密度の強力なモデル階層は約 38 ~ 45% に広がり、低パフォーマンスのモデルは 10% の確率ベースラインをわずかに上回る程度に留まっています。ツールの強化により、5 つのツール使用評価全体で最大 5.17 ポイントが加算され、そのゲインはモデルによって大幅に異なります。限られた予算の分散を明示し、隣接するランクの過度の解釈を防ぐために、ブートストラップのランキング安定性統計を報告します。
原文 (English)
Knowledge Index of Noah's Ark
Knowledge benchmarks for LLMs face three issues: scaling-driven designs that do not operationalize disciplinary representativeness; flat-payment annotation that permits lazy consensus; and unaudited ranking instability under bounded test budgets. We introduce KINA, an 899-item benchmark across 261 fine-grained disciplines, with two formal results. First, we cast representativeness as a coverage-style objective over expert-elicited anchors and operationalize disciplinary representativeness through a proxy, yielding a (1-1/e) greedy approximation (Proposition 1); the guarantee applies to the proxy, not to population representativeness. Second, we prove a bonus-on-bar tournament weakly FOSD-dominates flat payment in released-review quality, with incentive-compatibility threshold B > Delta C / Delta p_min (Theorem 1). Evaluating 42 models from 13 labs, the top model, Gemini-3.1-Pro-Preview, reaches 53.17%, followed by Claude-Opus-4.6 at 49.92% and GPT-5.4 at 48.55%, leaving substantial headroom below saturation. The full leaderboard shows a tiered structure rather than a smooth total order: a small frontier tier lies above 48%, a dense strong-model tier spans roughly 38-45%, and low-performing models remain only modestly above the 10% chance baseline. Tool augmentation adds up to 5.17 points across the five tool-use evaluations, with gains varying substantially across models. We report bootstrap ranking-stability statistics to make bounded-budget variance explicit and to discourage over-interpretation of adjacent ranks.
人間の活動認識における軽量 SensorLLM のための重力認識階層ルーティング
センサーと言語のアライメントに関する最近の研究では、2 段階のフレームワークにより、ウェアラブル センサーの人間活動認識 (HAR) のセマンティック モデリング能力が向上することが示されています。SensorLLM スタイルのメソッドは、最初にモーションと言語のアライメントを実行し、次に下流のタスクに向けてモデルを微調整します。しかし、私たちの実験では、ステージ 2 のバックボーンが TinyLlama などのコンパクトなモデルに圧縮された場合に、一貫した故障モードが明らかになりました。動的アクティビティの認識は比較的強いままですが、立つ、座る、横たわるなどの動きの少ない静的なクラスの識別は大幅に低下します。この問題に対処するために、新しい大規模な事前トレーニング フレームワークではなく、すでに位置合わせされたモデルの上に構築された軽量の位置合わせ後の適応として、重力を認識した階層型ルーティング ヘッドを提案します。このメソッドは、Chronos トークナイザーの状態からのチャネルごとの平均と標準偏差を使用して、姿勢と重力方向に関連する統計的手がかりを抽出し、安定したトレーニングのための負荷分散損失とともに、ソフト ルーティングを通じて静的エキスパートと完全エキスパートを適応的に組み合わせます。 MHealth データセットでは、この設計により、最小限のパラメーター オーバーヘッドでマクロ F1 が大幅に改善され、動的アクティビティでの優れたパフォーマンスを維持しながら、ゲインは主に静的クラスに集中します。最初の arXiv 開示として、現在の論文は単一のデータセットのみに関する結果を報告しており、その目的は、中核となる手法を強調し、将来の研究におけるより広範な評価のための基礎を築くことです。
原文 (English)
Gravity-Aware Hierarchical Routing for Lightweight SensorLLM on Human Activity Recognition
Recent studies on sensor-language alignment have shown that two-stage frameworks can improve the semantic modeling ability of wearable-sensor human activity recognition (HAR), where SensorLLM-style methods first perform motion-to-language alignment and then fine-tune the model for downstream tasks. However, our experiments reveal a consistent failure mode when the Stage 2 backbone is compressed to a compact model such as TinyLlama: recognition of dynamic activities remains relatively strong, while the discrimination of low-motion static classes such as standing, sitting, and lying degrades substantially. To address this issue, we propose a gravity-aware hierarchical routing head as a lightweight post-alignment adaptation built on top of an already aligned model, rather than a new large-scale pretraining framework. The method uses the per-channel mean and std from the Chronos tokenizer state to extract statistical cues related to posture and gravity direction, and adaptively combines a static expert and a full expert through soft routing, together with a load-balancing loss for stable training. On the MHealth dataset, this design significantly improves macro-F1 with minimal parameter overhead, and the gains are concentrated mainly on static classes while preserving strong performance on dynamic activities. As a first arXiv disclosure, the current paper reports results on a single dataset only, with the goal of highlighting the core method and laying the groundwork for broader evaluation in future work.
CodegenBench: LLM はアーキテクチャ全体で効率的なコードを記述できますか?
大規模言語モデル (LLM) は、汎用プログラミングや GPU アクセラレーション環境 (PyTorch、CUDA など) のコード生成タスクで広範囲に評価されてきましたが、多様なアーキテクチャにわたる CPU 指向のハイパフォーマンス コンピューティング (HPC) における LLM の機能はまだ十分に解明されていません。このギャップを埋めるために、x86_64、Sunway、Kunpeng の 3 つの異なるハードウェア プラットフォームにわたる効率的な並列コードの生成を評価するように設計された包括的なベンチマーク スイートである CodegenBench を紹介します。私たちのベンチマークは、基本的なベースラインを確立する 106 個の標準基本線形代数サブプログラム (BLAS) ルーチンと、独自のスーパーコンピューティング アーキテクチャ (LeetSunway および LeetKunpeng) のそれぞれに適合した 20 個の特殊な計算カーネルで構成されています。私たちの広範な評価により、最先端の LLM は x86_64 のようなユビキタス アーキテクチャ向けに最適化されたコードを生成できる一方で、公開ドキュメントやトレーニング データが限られたドメイン固有のアーキテクチャでは大幅なパフォーマンスの低下を示し、クロスプラットフォームの一般化における重大な制限が浮き彫りになったことが明らかになりました。さらに、実装の長さやタスクの複雑さなど、コードの品質に影響を与える要因を分析したところ、現在の LLM は、簡潔なコード スニペットを必要とする中程度に難しい問題に対して最も効果的であることが示されています。私たちは、LLM 主導の高性能コード生成における将来の研究を促進するために、データセットと自動評価インフラストラクチャをオープンソースにしています。リソースは https://anonymous.4open.science/r/CodegenBench-EDE1/ および https://anonymous.4open.science/r/CodegenBenchDataset-2551 で利用できます。
原文 (English)
CodegenBench: Can LLMs Write Efficient Code Across Architectures?
While large language models (LLMs) have been extensively evaluated on code generation tasks for general-purpose programming and GPU-accelerated environments (e.g., PyTorch, CUDA), their capabilities in CPU-oriented high-performance computing (HPC) across diverse architectures remain underexplored. To bridge this gap, we introduce CodegenBench, a comprehensive benchmark suite designed to evaluate the generation of efficient parallel code across three distinct hardware platforms: x86_64, Sunway, and Kunpeng. Our benchmark comprises 106 standard Basic Linear Algebra Subprograms (BLAS) routines establishing a fundamental baseline, alongside 20 specialized computational kernels adapted for each of the unique supercomputing architectures (LeetSunway and LeetKunpeng). Our extensive evaluation reveals that while state-of-the-art LLMs can generate optimized code for ubiquitous architectures like x86_64, they exhibit significant performance degradation on domain-specific architectures with limited public documentation and training data, highlighting critical limitations in cross-platform generalization. Furthermore, our analysis of factors influencing code quality such as implementation length and task complexity indicates that current LLMs are most effective for moderately difficult problems requiring concise code snippets. We open-source our dataset and automated evaluation infrastructure to facilitate future research in LLM-driven high-performance code generation. The resources are available at https://anonymous.4open.science/r/CodegenBench-EDE1/ and https://anonymous.4open.science/r/CodegenBenchDataset-2551.
MaskForge: 脱獄拡散のための構造認識型適応型攻撃 大規模言語モデル
拡散大規模言語モデル (dLLM) は、双方向コンテキストの下で部分的にマスクされたシーケンスを繰り返しノイズ除去することでテキストを生成し、自己回帰 LLM とは異なる安全面を公開します。マスク トークンはネイティブ入力であり、トークンは位置ではなく信頼度によってコミットされるため、監視対象のプレフィックスの埋め込みや外部を通じて有害なコンテンツが誘発される可能性があります。既存のジェイルブレイクは、このネイティブの埋め込み機能を見逃しているか、構造的な適応や蓄積された攻撃経験がほとんどなく、目標全体に均一に適用される多様性の低いマスクを含むテンプレートに依存しています。私たちは、増大する構造パターンのライブラリに対する最適化された検索として dLLM レッドチームをキャストする、完全にブラックボックスの適応型攻撃である MaskForge を提案します。 MaskForge は、成功した試行を再利用可能なスキーマに抽象化し、UCB バンディットで目標と互換性のあるパターンを選択し、現在のライブラリが失敗した場合にスコアラーに基づくフォールバックを呼び出します。成功した試行はパターン ライブラリに抽出され、目標全体にわたって経験を蓄積できるようになります。 5 つの公開 dLLM と 3 つのベンチマーク全体で、MaskForge は 79.3% の平均攻撃成功率を達成しており、最も強力な競合 dLLM ベースラインと比べて相対的に 17.6% 向上しています。成熟したパターン ライブラリは、更新なしで AdvBench にさらに転送され、88.2% の攻撃成功率と、最も強力な競合ベースラインと比較して 67% の相対的な改善を達成しました。
原文 (English)
MaskForge: Structure-Aware Adaptive Attacks for Jailbreaking Diffusion Large Language Models
Diffusion large language models (dLLMs) generate text by iteratively denoising partially masked sequences under bidirectional context, exposing a safety surface distinct from autoregressive LLMs. Because mask tokens are native inputs and tokens are committed by confidence rather than position, harmful content can be induced through infilling and outside the monitored prefix. Existing jailbreaks either miss this native infill capability or rely on low-diversity mask-bearing templates applied uniformly across goals, with little structural adaptation or accumulated attack experience. We propose MaskForge, a fully black-box adaptive attack that casts dLLM red-teaming as optimized search over a growing library of structural patterns. MaskForge abstracts successful attempts into reusable schemas, selects goal-compatible patterns with a UCB bandit, and invokes a scorer-guided fallback when the current library fails. Successful attempts are distilled back into the pattern library, enabling experience to accumulate across goals. Across five public dLLMs and three benchmarks, MaskForge achieves an average attack success rate of 79.3%, a 17.6% relative improvement over the strongest competing dLLM baseline. The matured pattern library further transfers to AdvBench without any updates, achieving a 88.2% attack success rate and a 67% relative improvement over the strongest competing baseline.
トランスフォーマーには 3 つの投影が必要ですか? QKV バリアントの体系的な研究
トランスフォーマーは、クエリ、キー、値 (QKV) アテンションの定式化が中心的な役割を果たし、さまざまな AI タスクの標準ソリューションとなっています。しかし、これら 3 つの予測の個々の寄与と、一部を省略した場合の影響については、依然として十分に理解されていません。 3 つの射影共有制約を系統的に評価します。a) Q-K=V (共有キーと値)、b) Q=K-V (共有クエリキー)、c) Q=K=V (単一射影)。最後の 2 つのバリアントは、対称的なアテンション マップを生成します。これに対処するために、2D 位置エンコーディングによる非対称の注意も調査します。合成タスク、ビジョン (MNIST、CIFAR、TinyImageNet、異常)、言語モデリング (10B トークン上の 300M および 1.2B パラメーター モデル) にわたる実験を通じて、当社のトランスフォーマーは QKV トランスフォーマーと同等か、場合によってはそれよりも優れたパフォーマンスを発揮することがわかりました。言語モデリングでは、Q-K=V 射影共有により、わずか 3.1% のパープレキシティ低下で 50% の KV キャッシュ削減が達成されます。重要なのは、射影共有はヘッド共有 (GQA/MQA) を補完するものです。Q-K=V と GQA-4 を組み合わせると 87.5% のキャッシュ削減が得られ、Q-K=V + MQA では 96.9% が達成され、実用的なオンデバイス推論が可能になります。キーと値は同様の表現空間を占有することができ、注意は低ランク領域で動作するため、Q-K=V は品質を維持しますが、Q=K-V は注意の方向性を壊すことを示します。私たちの結果は、投影共有を、直接的で定量化可能な推論メモリの利点を備えた注意力の結びつきの未解明な例として体系的に特徴付けており、特にエッジ展開に価値があります。コードは https://github.com/anusamadan02/Do-Transformers-Need-3-Projections で公開されています。
原文 (English)
Do Transformers Need Three Projections? Systematic Study of QKV Variants
Transformers have become the standard solution for various AI tasks, with the query, key, and value (QKV) attention formulation playing a central role. However, the individual contribution of these three projections and the impact of omitting some remain poorly understood. We systematically evaluate three projection sharing constraints: a) Q-K=V (shared key-value), b) Q=K-V (shared query-key), and c) Q=K=V (single projection). The last two variants produce symmetric attention maps; to address this, we also explore asymmetric attention via 2D positional encodings. Through experiments spanning synthetic tasks, vision (MNIST, CIFAR, TinyImageNet, anomaly), and language modeling (300M and 1.2B parameter models on 10B tokens), we discovered that our transformers perform on par or occasionally better than the QKV transformer. In language modeling, Q-K=V projection sharing achieves 50% KV cache reduction with only 3.1% perplexity degradation. Crucially, projection sharing is complementary to head sharing (GQA/MQA): combining Q-K=V with GQA-4 yields 87.5% cache reduction, while Q-K=V + MQA achieves 96.9%, enabling practical on-device inference. We show that Q-K=V preserves quality because keys and values can occupy similar representational spaces and attention operates in a low-rank regime, whereas Q=K-V breaks attention directionality. Our results systematically characterize projection sharing as an underexplored instance of weight tying in attention, with direct, quantifiable inference memory benefits, particularly valuable for edge deployment. The code is publicly available at https://github.com/Brainchip-Inc/Do-Transformers-Need-3-Projections
予測できない安全性: ドメイン依存のコンプライアンスとオープンウェイト LLM の透明性ギャップ
我々は、オープンウェイト LLM におけるドメイン依存の安全行動の体系的な研究を紹介します。7 つの倫理ドメインにわたる 7 つの標準化された実験で、デュアルジャッジ検証による 4,200 件のインタラクションで 5 つのモデル (12B ~ 70B) をテストしました。二重条件の方法論を使用し、各シナリオを分析フレーム (危害の特定) と運用フレーム (危害の実行を支援) の両方でテストしたところ、コンプライアンス率は 14.7% (人身売買) から 85.7% (監視設計) まで変化しており、重複しないクラスター ブートストラップの 95% CI では 71 パーセント ポイントの範囲であることがわかりました。信頼できる展開には予測可能な安全動作が必要ですが、コンプライアンスは状況に大きく依存していることがわかりました。同じモデル (Mistral Nemo 12B) はリクエストの 100% で監視設計を提供しますが、トラフィックの支援は 26.7% のみです。この予測不可能性は、導入担当者にとって不透明です。技術的なフレーミング バイパスでは、拒否しきい値が変化したという外部からの信号なしに、エンジニアリング上の問題として再構成された有害な要求が安全トレーニングを無効にします。ドメイン内の異質性は 84.4pp に達しており、ドメイン レベルでも安全動作を予測できないことを意味します。 GitHub Copilot CLI デプロイ済み製品サーフェスを介してアクセスされた 5 つのフロンティア クローズド モデル (GPT-4.1/5.2、Claude Haiku/Sonnet/Opus 4.x、n=4,163 回答) での複製では、同じドメイン階層化が再現され、絶対レベルで減衰されていますが形状は同一であり、2 つの低コード化ドメイン (科学詐欺、監視) が再び最も寛容です。これらの結果は、現在の安全メカニズムには、信頼できる AI の導入に必要な透明性と一貫性が欠けていることを示しています。
原文 (English)
Unpredictable Safety: Domain-Dependent Compliance and the Transparency Gap in Open-Weight LLMs
We present a systematic study of domain-dependent safety behavior in open-weight LLMs: 7 standardized experiments across 7 ethical domains, testing 5 models (12B--70B) in 4,200 interactions with dual-judge validation. Using a dual-condition methodology, each scenario tested in both an analytical framing (identify the harm) and an operational framing (help commit the harm), we find compliance rates vary from 14.7% (human trafficking) to 85.7% (surveillance design), a 71-percentage-point span with non-overlapping cluster-bootstrapped 95% CIs. Trustworthy deployment requires predictable safety behavior, yet we find compliance is highly context-dependent: the same model (Mistral Nemo 12B) provides surveillance designs in 100% of requests but assists with trafficking in only 26.7%. This unpredictability is opaque to deployers: the technical framing bypass, where harmful requests reframed as engineering problems override safety training without any external signal that refusal thresholds have shifted. Within-domain heterogeneity reaches 84.4pp, meaning safety behavior cannot be predicted even at the domain level. A replication on five frontier closed models (GPT-4.1/5.2, Claude Haiku/Sonnet/Opus 4.x; n=4,163 responses) accessed via the GitHub Copilot CLI deployed-product surface reproduces the same domain stratification, attenuated in absolute level but identical in shape, with the two low-codification domains (science fraud, surveillance) again the most permissive. These results show that current safety mechanisms lack the transparency and consistency required for trustworthy AI deployment.
現場に飛び込む: フォーカス プランの生成を通じて、視覚と言語の意思決定における知覚のボトルネックを打破する
ロボット操作やナビゲーションなどの身体化された視覚言語による意思決定タスクでは、視覚言語モデルおよび視覚言語アクション モデル (VLM および VLA) は、さまざまな利点を持つ強力なツールです。VLM は長期計画に優れ、VLA は事後制御に優れています。ただし、モデルのパフォーマンスは、同じ知覚のボトルネックによって制限されます。モデルがタスクに関連するオブジェクトと気を散らすものとを区別できないために幻覚が発生します。原則として、無関係なものを除外しながら、正確に識別して重要なオブジェクトに焦点を当てることが、この制限を打ち破る鍵となります。簡単な解決策は、重要なオブジェクトに直接注目するというワンステップの焦点です。ただし、効果的に焦点を合わせるには本質的にシーンを深く理解する必要があるため、このアプローチは効果的ではないことがわかります。この目的を達成するために、我々は、VLM の長期計画能力を活用した、粗いから細かいまでのフォーカス プラン生成方法である SceneDiver を提案します。この方法では、最初に全体的なシーン グラフを構築して初期理解を確立し、次に認識、理解、分析の反復サイクルを通じてタスクをより単純なサブ問題に徐々に分解します。反応的な制御を可能にするために、意図的なフォーカス機能を VLA に抽出するための軽量アダプターも設計しました。標準の組み込み AI ベンチマークでの評価により、私たちの方法は、高速実行を必要とするタスクの計算効率を維持しながら、VLM と VLA の両方で幻視を大幅に軽減することが確認されています。コードとデータは https://future-item.github.io/SceneDiver でリリースされています。
原文 (English)
Dive into the Scene: Breaking the Perceptual Bottleneck in Vision-Language Decision Making via Focus Plan Generation
In embodied vision-language decision making tasks such as robotic manipulation and navigation, Vision-Language and Vision-Language-Action Models (VLMs & VLAs) are powerful tools with different benefits: VLMs are better at long-term planning, while VLAs are better at reactive control. However, their performance is limited by the same perceptual bottleneck: visual hallucinations arise due to the models' inability to distinguish task-relevant objects from distractors. In principle, accurate identification and focus on critical objects while filtering out irrelevant ones is the key to break this limitation. A straightforward solution is one-step focus: directly attending to essential objects. However, this approach proves ineffective because effective focus inherently requires deep scene understanding. To this end, we propose SceneDiver, a coarse-to-fine focus plan generation method for VLMs leveraging their long-term planning abilities, that first constructs a holistic scene graph to establish initial comprehension, then progressively decomposes the task into simpler sub-problems through an iterative cycle of recognition, understanding, and analysis. To enable reactive control, we also design a lightweight adapter for distilling the deliberate focus ability into VLAs. Evaluations on standard embodied AI benchmarks confirm that our method substantially reduces visual hallucinations for both VLMs and VLAs, while preserving computational efficiency in tasks requiring fast execution. Our code and data are released at: https://future-item.github.io/SceneDiver.
LiftQuant: 次元リフティングと投影による連続ビット幅 LLM
既存の量子化手法は基本的に、厳格な整数ベースのビット幅 (例: 2、3 ビット) によって制限されており、その結果、大規模言語モデルを特定のメモリ バジェットに最適に適合させることができない「デプロイメント ギャップ」が生じます。このギャップを埋めるために、真のパレート最適デプロイメントのための継続的なビット幅制御を可能にする新しいフレームワークである LiftQuant を紹介します。中心となるイノベーションは、「リフト ゼン プロジェクト」メカニズムです。高次元の「リフトされた」空間から単純な 1 ビット格子を投影することで、低次元の重みベクトルを近似します。重要なことに、有効なビット幅は、元の次元に対するリフト次元の比率によって単純に決定され、次元が柔軟な構造パラメータであるため、ビット幅を準連続的に調整できます。この投影は、構造化されているが不均一なコードブックを生成し、ベクトル量子化 (VQ) の表現力を捉えます。 VQ、LiftQuant のデコード パスは線形変換と 1 ビットの均一量子化器のみに依存しており、ハードウェアに優しい性質を維持しています。LiftQuant を使用すると、70B LLM を 24GB GPU に正確に適合させることができ、そのパフォーマンスは同じデバイスに搭載されている最先端の 2 ビット モデルを大幅に上回ります。 https://github.com/Heliulu/LiftQuant。
原文 (English)
LiftQuant: Continuous Bit-Width LLM via Dimensional Lifting and Projection
Existing quantization methods are fundamentally limited by rigid, integer-based bit-widths (e.g., 2, 3-bit), resulting in a ``deployment gap" where Large Language Models cannot be optimally fitted to specific memory budgets. To bridge this gap, we introduce LiftQuant, a novel framework that enables continuous bit-width control for true Pareto-optimal deployment. The core innovation is a ``lift-then-project" mechanism which approximates low-dimensional weight vectors by projecting a simple 1-bit lattice from a higher-dimensional ``lifted" space. Crucially, the effective bit-width is determined simply by the ratio of the lifted dimension to the original dimension, which allows the bit-width to be tuned quasi-continuous as the dimension is a flexible structural parameter. This projection generates a structured yet non-uniform codebook, capturing the expressive power of Vector Quantization (VQ). While beneficial over VQ, LiftQuant's decoding path relies solely on linear transformations and 1-bit uniform quantizers, retaining hardware-friendly nature. This flexibility is transformative: LiftQuant enables a 70B LLM to be compressed to 2.4 bits to precisely fit a 24GB GPU, where its performance significantly surpasses state-of-the-art 2-bit models fitted on the same device. Our code and ckpt is available at https://github.com/Heliulu/LiftQuant.
RUBAS: エージェントの安全のためのルーブリックベースの強化学習
LLM がツール対応エージェントに進化すると、単純なテキスト生成ではなく現実世界の実行に関連した新しいクラスの安全性の課題が生じます。既存の調整方法は、粗い拒否信号や静的な監視に依存することが多く、さまざまなエージェントのリスクにわたって安全性と有用なツールの実行のバランスをとることが困難です。エージェントの安全性のためのルーブリックベースの強化学習フレームワークである RUBAS を紹介します。 RUBAS は、エージェントの動作をツール使用の安全性、引数の安全性、応答の安全性、有用性の 4 つの次元に分解します。これらの構造化されたルーブリックは、エージェントの完全な軌跡にわたってきめ細かく解釈可能な報酬を提供し、タスクの完了を維持しながら安全なツールの使用を最適化する強化学習を可能にします。複数のエージェントの安全性ベンチマークとモデルにわたる広範な実験により、RUBAS が標準的なアライメントベースラインよりも安全性を向上させ、ツールに基づく幻覚を軽減し、競争力のある実用性を維持することが示されています。私たちの結果は、多次元ルーブリック報酬が、安全性が重要なツール使用環境において LLM エージェントを調整するための効果的なトレーニング信号を提供することを示唆しています。
原文 (English)
RUBAS: Rubric-Based Reinforcement Learning for Agent Safety
The evolution of LLMs into tool-enabled agents creates a new class of safety challenges associated with real-world execution rather than simple text generation. Existing alignment methods often rely on coarse refusal signals or static supervision, making it difficult to balance safety with useful tool execution across diverse agentic risks. We introduce RUBAS, a rubric-based reinforcement learning framework for agent safety. RUBAS decomposes agent behavior into four dimensions: tool-use safety, argument safety, response safety, and helpfulness. These structured rubrics provide fine-grained and interpretable rewards over complete agent trajectories, enabling reinforcement learning to optimize safe tool use while preserving task completion. Extensive experiments across multiple agent safety benchmarks and models show that RUBAS improves safety over standard alignment baselines, reduces tool-grounded hallucinations, and maintains competitive utility. Our results suggest that multi-dimensional rubric rewards provide an effective training signal for aligning LLM agents in safety-critical tool-use settings.
目に見えない宝くじ: LLM コード生成におけるアルゴリズムの選択を微妙な手がかりがどのように左右するか
大規模言語モデル (LLM) は、多くの場合、複数の有効なアルゴリズム ソリューションを含むタスク向けに、実質的な運用コードを生成するようになりました。タスク仕様外の文脈上の単語やメタデータを意味する付随的なプロンプト キューは、すべての出力が同じテストに合格した場合でも、モデルが選択するアルゴリズムを制御できます。即時感度は、出力品質を向上させるツールとしてよく研究されています。ここで、出力ポリシーとは、固定の正確性の下でのアルゴリズムの選択を意味します。私たちは、アルゴリズムステアリングをアルゴリズムファミリー分布におけるキュー誘発のシフトとして定義し、11のタスク、19のキュータイプ(18のチャネルと、タイポグラフィーと句読点を変更しながら意味を保持するメモ化の意味対表面のアブレーション)、および15のモデル構成にわたって46,535の制御された実験を実行しました。我々は、レート制限などの応用タスクを含む、キューのセマンティクスとほぼ一致する、アルゴリズム ファミリの分布における大きく系統的な変化 (最大 100 pp) を発見しました。アルゴリズムの直接命名は、私たちがテストした最も信頼性の高い軽減策です。したがって、偶然のコンテキストによって、パフォーマンス、セキュリティ、および保守性をめぐる「目に見えない宝くじ」が作成されます。
原文 (English)
The Invisible Lottery: How Subtle Cues Steer Algorithm Choice in LLM Code Generation
Large language models (LLMs) now generate substantial production code, often for tasks with multiple valid algorithmic solutions. Incidental prompt cues, meaning contextual words or metadata outside the task specification, can steer which algorithm the model selects, even when all outputs pass the same tests. Prompt sensitivity is well studied as a tool to improve output quality. Here, output policy means algorithm choice under fixed correctness. We define algorithm steering as cue-induced shifts in algorithm-family distributions and run 46,535 controlled experiments across 11 tasks, 19 cue types (18 channels plus a memoization semantic-vs-surface ablation that preserves meaning while changing typography and punctuation), and 15 model configurations. We find large, systematic shifts in algorithm-family distributions (up to 100 pp), largely consistent with cue semantics, including in applied tasks such as rate limiting. Direct algorithm naming is the most reliable mitigation we tested. Accidental context therefore creates an "invisible lottery" over performance, security, and maintainability.
アーキテクチャと量子化の選択を組み合わせて最適化する LLM 圧縮
大規模言語モデル (LLM) のデプロイは、大量のメモリと計算要件があるため、困難です。一部の方法では、小規模または極小の言語モデルを最初から開発することでこの問題に対処しますが、これらのアプローチでは広範な GPU トレーニングが必要です。エッジデバイス用に事前トレーニングされた LLM を圧縮することは、魅力的な代替手段を提供します。プルーニングと量子化を超えて、ニューラル アーキテクチャ検索 (NAS) は効果的な圧縮を可能にしますが、従来の NAS アプローチでは多くの場合、検索スペースが制限され、アーキテクチャが量子化から分離されていました。私たちは、空間全体を探索し、LLM の線形層の混合精度量子化と並行してアーキテクチャ構成を共同で最適化する微分可能な NAS フレームワークを導入します。実験では、精度とレイテンシの優れたトレードオフが実証されています。当社のモデルは、同等の精度で逐次 NAS を経て量子化するベースラインよりも最大 1.4 倍高速な推論、または同等のレイテンシで 7 つの推論タスク全体で最大 6% 高い平均精度を達成します。
原文 (English)
LLM Compression with Jointly Optimizing Architectural and Quantization choices
Deploying large language models (LLMs) is challenging due to their significant memory and computational requirements. While some methods address this by developing small or tiny language models from scratch, these approaches demand extensive GPU training. Compressing pre-trained LLMs for edge devices offers a compelling alternative. Beyond pruning and quantization, Neural Architecture Search (NAS) enables effective compression, yet prior NAS approaches often limit the search space and decouple architecture from quantization. We introduce a differentiable NAS framework that explores the entire space and jointly optimizes architectural configurations alongside mixed-precision quantization for linear layers of LLMs. Experiments demonstrate superior accuracy-latency trade-offs: our models achieve up to 1.4x faster inference than sequential NAS-then-quantization baselines at comparable accuracy, or up to 6% higher average accuracy across seven reasoning tasks at equivalent latency.
知っておくべきこと: プライバシーを意識した LLM 委任のためのコンテキスト整合性に基づいたクエリ書き換え
LLM が日常のワークフローにますます組み込まれるようになるにつれて、クラウドでホストされる LLM に送信されるユーザー クエリでは、タスクに必須のコンテンツとタスクに必須ではない機密情報の開示が日常的に混在していますが、タイプベースの PII 秘匿化はコンテキストに依存せず、2 つの問題が生じる可能性があります。それは、型指定されていない機密コンテキストの開示の過剰と、回答を含むスパンの削除の過剰です。コンテキストの整合性の下で、プライバシーを保持するクエリの書き換えを再検討します。スパンは、タスクに必要な場合にのみ転送されるべきです。 DelegateCI-Bench は、プライバシーを意識した委任向けの初のタスクベースのコンテキスト整合性ベンチマークであり、11 のタスクと 20 のタスク タイプにわたる高品質の合成データ、WildChat ベースの実際のユーザー クエリ、および高密度の機密情報を含む医療課題セットを組み合わせた 3,167 個のサンプルで構成されています。このベンチマークに基づいて、必須および非必須の機密スパンを検証可能な最適化信号に変換する CI ガイド付き強化学習フレームワークを提案し、不必要な機密情報の開示を抑制しながらタスクの重要な情報を保持するようにクエリ リライターをトレーニングします。実験の結果、私たちの学習済みリライターはプライバシーとユーティリティの最適なトレードオフを達成し、デバイス上のベースラインに対して最大 +10.1 の平均ユーティリティを達成することがわかりました。
原文 (English)
Need to Know: Contextual-Integrity-Grounded Query Rewriting for Privacy-Conscious LLM Delegation
As LLMs become increasingly woven into everyday workflows, user queries sent to cloud hosted LLMs routinely mix task-essential content with task non-essential sensitive disclosures, yet type based PII redaction is context agnostic and may raise two issues: over disclosing untyped sensitive context and over removing answer bearing spans. We recast privacy preserving query rewriting under Contextual Integrity: a span should be forwarded only if it is necessary for the task. We introduce DelegateCI-Bench, the first task based Contextual Integrity benchmark for privacy-conscious delegation, comprising 3,167 samples that combine high quality synthetic data spanning 11 tasks and 20 task types, WildChat based real user queries, and a medical challenge set with dense sensitive information. Building on this benchmark, we propose a CI-guided reinforcement learning framework that converts essential and non-essential sensitive spans into verifiable optimization signals, and train a query rewriter to preserve task critical information while suppressing unnecessary sensitive disclosure. Experiments show that our learned rewriter achieves the best privacy-utility tradeoff, achieving up to +10.1 average utility over on-device baselines.
大規模な言語モデルが報酬と社会をハックする
強化学習 (RL) はトレーニング後のパラダイムの主流となっており、大規模言語モデル (LLM) が報酬から学習できるようになります。私たちは、社会規制が報酬関数と構造的に似ていることを観察しています。それらは測定可能な結果、しきい値、例外を定義しますが、多くの場合、制度上の意図は部分的にしか指定されません。私たちは、RL トレーニング プロセスがこれらのギャップを悪用する可能性があると仮説を立て、RL 中に報酬関数をハッキングするというモデルのよく知られた傾向が、社会ハッキングと呼ばれるより重大な失敗モード、つまり社会が運営されているルールの抜け穴を発見するモードにスケールアップできるかどうかを尋ねます。この現象を研究するために、72 の社会環境のサンドボックスである SocioHack を導入しました。その結果、これらの環境内で報酬ハッキングが自然に発生し、規制の抜け穴の発見につながることがわかりました。モデルは社会ルールをハッキングし、規制の意図を打ち破りながら技術的に準拠した戦略を生成する方法を学習します。現在の LLM セーフガードは限定的な緩和策しか提供しません。したがって、モデルのトレーニングのために実際のフィードバックを収集することには細心の注意が必要であり、実社会で LLM を安全に反復するための次世代のポストトレーニング パラダイムが必要です。=
原文 (English)
Large Language Models Hack Rewards, and Society
Reinforcement learning (RL) has become a dominant post-training paradigm, enabling large language models (LLMs) to learn from rewards. We observe that societal regulations are structurally similar to reward functions. They define measurable outcomes, thresholds, and exceptions, while often leaving institutional intent only partially specified. We hypothesise that the RL training process may exploit these gaps and therefore ask whether models' well-known tendency to hack reward functions during RL can scale into a more consequential failure mode named societal hacking: discovering loopholes in the rules society runs on. To study this phenomenon, we introduce SocioHack, a sandbox of 72 societal environments, and find that within these environments, reward hacking naturally emerges and leads to regulatory loophole discovery. Models learn to hack the social rules and generate strategies that remain technically compliant while defeating regulatory intent, and current LLM safeguards provide only limited mitigation. Therefore, collecting in-the-wild feedback for model training requires greater caution, and we need a next-generation post-training paradigm for safely iterating LLMs in real society.=
POLARIS: 小さなモデルが長い物語を書けるように導く
小規模なオープンウェイト モデルは、長編のクリエイティブ ライティングに苦労します。特にフロンティア モデルと比較した場合、生成されるストーリーが要求された長さに大幅に満たないか、長さが増加するにつれて品質が大幅に低下します。我々は、2 つの重要な要素を備えた低コンピューティングの GRPO レシピである POLARIS (審査員としての LLM 報酬とストーリーライティングのためのアンカー参照注入によるポリシーの最適化) を紹介します。1 つはオンライン報酬として構造化されたストーリー品質ルーブリックを持つフロンティア LLM 審査員、もう 1 つは教師が強制的に人間が書いたストーリーが各 GRPO グループ内で高報酬のアンカーとして機能する人間参照注入 (HRI) です。 100 の短編小説アンソロジーと 4 つの A100 GPU から派生した約 1.4K のプロンプト ストーリー ペアのデータセットを使用して、トレーニング レシピを Qwen3.5-9B に適用することにより、POLARIS-9B が得られます。配布内および配布外のプロンプトとルーブリックにわたる 5 つのベンチマークにわたって、POLARIS-9B は、長さの指示により厳密に従いながら、はるかに大きなオープンウェイト モデルと競合します。人間による盲検評価により、POLARIS-9B がベースの Qwen3.5-9B よりも好まれ、Qwen3.5-27B と同等であることが確認されました。 POLARIS-9B は、最大 4k ワードまでのストーリーのみをトレーニングしているにもかかわらず、トレーニング長の最大 3 倍のストーリーを要求するプロンプトの品質を維持します。これは、ほとんどのオープンウェイト モデルが品質、長さの遵守、またはその両方において大幅に低下する状況です。より広範に、私たちの結果は、長さの一般化がクリエイティブライティングモデルにとって意味のあるストレステストであり、他の点では近いモデルを区別するための有用なレンズであることを示唆しています。
原文 (English)
POLARIS: Guiding Small Models to Write Long Stories
Small open-weight models struggle at long-form creative writing: their generated stories either fall far short of the requested length, or their quality significantly degrades as length increases, especially when compared to frontier models. We present POLARIS (Policy Optimization with LLM-as-a-judge rewards and Anchored-Reference Injection for Storywriting), a lower-compute GRPO recipe with two key ingredients: a frontier LLM judge with a structured Story Quality rubric as the online reward, and human-reference injection (HRI), where a teacher-forced human-written story serves as a high-reward anchor within each GRPO group. By applying our training recipe to Qwen3.5-9B, using a dataset of approximately 1.4K prompt-story pairs derived from 100 short-story anthologies and 4 A100 GPUs, we obtain POLARIS-9B. Across five benchmarks spanning in-distribution and out-of-distribution prompts and rubrics, POLARIS-9B is competitive with much larger open-weight models while following length instructions more closely. A blinded human evaluation confirms that POLARIS-9B is preferred to the base Qwen3.5-9B and on par with Qwen3.5-27B. Despite training only on stories up to 4k words, POLARIS-9B preserves quality on prompts requesting stories up to 3 times the training length, a regime where most open-weight models degrade substantially in quality, length adherence, or both. More broadly, our results suggest that length generalization is a meaningful stress test for creative-writing models and a useful lens for distinguishing otherwise close models.
dMX: 低精度浮動小数点フォーマットの微分可能な混合精度代入
大規模言語モデル (LLM) を低精度の浮動小数点表現に量子化することは、効率的な展開の中心となりますが、単一のビット幅をすべてのレイヤーに均一に適用することは、パフォーマンスと精度の両方の点で最適とは言えません。この研究では、学習可能な浮動小数点ビット幅割り当てのための微分可能な混合精度量子化フレームワークである dMX を紹介します。私たちは、オープン コンピューティング プロジェクト (OCP) 標準によって定義されたデータ型のマイクロスケーリング浮動小数点 (MXFP) ファミリへの応用を研究します。レイヤごとのビット幅の割り当ては、各レイヤの浮動小数点形式がスカラー パラメータによってパラメータ化され、多変量設計空間を単一の学習可能なオフセットに折りたたむ連続最適化問題として定式化されます。トレーニング中、このオフセットは連続値をとり、離散量子化形式間の突然の振動を回避します。温度ベースのアニーリング スケジュールにより、学習されたオフセットが段階的に離散化され、トレーニング動作と推論動作の間で突然移行することなく、最終的な構成がハードウェア互換の MXFP 形式にマッピングされることが保証されます。ターゲットを意識した正則化用語は、平均ビット幅をユーザー指定の予算に向けて導き、推論コストの大まかな代理として機能し、モデルの品質と展開効率のバランスをとります。私たちは Llama、Qwen3、SmolLM2 などのさまざまな LLM ファミリで実験を実行し、WikiText-2 での複雑性と 4 つのゼロショット推論ベンチマークでの精度を評価しました。これらの設定全体にわたって、dMX は一貫してパレート支配モデルを生成し、カルバック ライブラー (KL) 発散ベースのレイヤー選択ヒューリスティックを改善し、モデルの品質と平均ビット幅の間のトレードオフを効率的にナビゲートします。
原文 (English)
dMX: Differentiable Mixed-Precision Assignment for Low-Precision Floating-Point Formats
Quantizing large language models (LLMs) to low-precision floating-point representations is central to efficient deployment, yet applying a single bit-width uniformly across all layers is sub-optimal in terms of both performance and accuracy. This work introduces dMX, a differentiable mixed-precision quantization framework for learnable floating-point bit-width assignment. We study its application for the microscaling floating-point (MXFP) family of data types defined by the Open Compute Project (OCP) standard. The per-layer bit-width assignment is formulated as a continuous optimization problem in which each layer's floating-point format format is parameterized by a scalar parameter, folding the multi-variate design space into a single learnable offset. During training this offset takes continuous values, avoiding sudden oscillations between discrete quantization formats. A temperature-based annealing schedule progressively discretizes the learned offsets, ensuring that the final configuration maps to hardware-compatible MXFP formats without abrupt transitions between training and inference behavior. A target-aware regularization term steers the average bit-width toward a user-specified budget, serving as a coarse-grained proxy for inference cost and balancing model quality against deployment efficiency. We performed experiments on different families of LLM, such as Llama, Qwen3, and SmolLM2, evaluating perplexity on WikiText-2 and accuracy on four zero-shot reasoning benchmarks. Across these settings, dMX consistently yields Pareto-dominating models and improves over Kullback-Leibler (KL) divergence-based layer-selection heuristics, efficiently navigating trade-offs between model quality and average bit-width.
SaliMory: 会話エージェントの認知記憶を調整する
生涯の伴侶として機能する会話エージェントは、すべての対話にわたって永続的な記憶を維持する必要があります。ただし、生の取得でコンテキスト ウィンドウを単純に拡張すると推論の品質が低下し、標準の強化学習による記憶エージェントのトレーニングでは、多段階パイプラインで深刻なクレジット割り当てのボトルネックが発生します。これを解決するために、単一言語モデルをトレーニングして、ユーザーの事実、好み、作業記憶にまたがる認知的に構造化された記憶を管理するフレームワークである SALIMORY を紹介します。 SALIMORY は、階層的な段階ごとのプロセス報酬と報酬分解された対照的洗練を導入することにより、個別の記憶操作 (選択的フィルタリング、統合、およびキュー主導のリコール) をエンドツーエンドで個別に監視します。 SALIMORY はメモリに起因する障害を 3 分の 1 に削減し、エンドツーエンドの精度で最先端のものを 10% 以上上回り、Good Personalization 率を 2 倍以上に高めます。
原文 (English)
SaliMory: Orchestrating Cognitive Memory for Conversational Agents
Conversational agents that serve as lifelong companions must maintain persistent memory across all interactions. However, simply expanding context windows with raw retrieval degrades reasoning quality, while training memory agents via standard reinforcement learning creates a severe credit assignment bottleneck in a multi-stage pipeline. To solve this, we introduce SALIMORY, a framework that trains a single language model to manage a cognitively-structured memory-spanning user facts, preferences, and working memory. By introducing a hierarchical stage-wise process reward and reward-decomposed contrastive refinement, SALIMORY provides isolated supervision for distinct memory operations (selective filtering, consolidation, and cue-driven recall) end-to-end. SALIMORY cuts memory-attributed failures by one-third, outperforms the state-of-the-art by over 10% in end-to-end accuracy, and more than doubles the Good Personalization rate.
Caught in the Act(ivation): LLM エージェントによる資格情報漏洩の事前出力およびマルチターン検出に向けて
LLM エージェントは多くの場合、機密認証情報を信頼できない取得コンテンツと同じコンテキスト ウィンドウに配置し、認証情報の漏洩を誘発する間接的なプロンプト インジェクションの直接パスを作成します。私たちは、3 つの相補的な防御を通じてこの障害モードを研究します。まず、出力トークンが発行される前に、アクティベーション プローブが資格情報へのアクセスを検出できるかどうかを尋ねます。次に、形式固有の文字モデルからハニートークンを構築し、分割等角予測で検出を調整します。 3 番目に、複数ターンにわたる漏洩を累積的な情報フロー問題として扱い、会話ターン全体での推定漏洩予算を追跡します。オープンウェイト モデルの制御された実験では、アクティベーション機能により、ホールドアウト エンコーディング変換下を含め、無害なプロンプトと認証情報を求めるプロンプトが高精度で分離されます。小規模な合成マルチターン スイートでは、累積アカウンティングにより、ターンごとの検出器が見逃した攻撃が検出されます。これらの結果は暫定的なものです。マルチターン ベンチマークは社内で小規模なものであり、アクティブ化方法にはホワイト ボックス アクセスが必要であり、情報推定ツールは正式な上限ではなく実用的なシグナルを提供します。それでも、この結果は、資格情報の漏洩防御には、テキストレベルの出力フィルターのみに依存するのではなく、出力前の監視、調整されたカナリア検出、および一時的な漏洩アカウンティングを組み合わせる必要があることを示唆しています。
原文 (English)
Caught in the Act(ivation): Toward Pre-Output and Multi-Turn Detection of Credential Exfiltration by LLM Agents
LLM agents often place sensitive credentials in the same context window as untrusted retrieved content, creating a direct path for indirect prompt injection to induce credential exfiltration. We study this failure mode through three complementary defenses. First, we ask whether activation probes can detect credential access before output tokens are emitted. Second, we construct honeytokens from format-specific character models and calibrate detection with split conformal prediction. Third, we treat multi-turn exfiltration as a cumulative information-flow problem and track an estimated leakage budget across conversation turns. In controlled experiments on open-weight models, activation features separate benign and credential-seeking prompts with high accuracy, including under held-out encoding transformations. In a small synthetic multi-turn suite, cumulative accounting detects attacks that per-turn detectors miss. These results are preliminary: the multi-turn benchmark is in-house and small, the activation method requires white-box access, and the information estimator provides a practical signal rather than a formal upper bound. Still, the results suggest that credential-exfiltration defenses should combine pre-output monitoring, calibrated canary detection, and temporal leakage accounting rather than relying only on text-level output filters.
EvalStop: ワールド フィードバックを使用して、マルチテナント RLHF プラットフォームにおける報酬の過剰最適化を検出および修正する
Cloud LLM 微調整プラットフォームは RLHF ワークロードにますます対応しており、学習された報酬モデルが人間の品質の代用として最適化されています。 Gao らのように(2023) は、このプロキシは、報酬の過剰最適化として知られる現象である持続的な最適化圧力の下で、世界のフィードバック (下流の評価指標) から乖離することを示しました。既存のプラットフォーム スケジューラはこの相違を無視しています。非千里眼スケジューラは品質信号なしで JCT を最適化し、SLAQ スタイルの品質認識スケジューラはトレーニング損失 (ハッキングによって単調に低下する弱いプロキシ) を使用し、古典的なジョブごとの早期停止では人間による監視が必要であり、共有 GPU を解放しません。私たちは、evalStop を提案します。これは、k 回連続して eval スコアが低下したときにジョブを終了し、GPU を解放し、最適なチェックポイントを保持し、任意のベース スケジューラに委任する、コンポーザブルなスケジューリング プリミティブです。私たちは、スケジューラレベルの早期停止を検出問題としてフレーム化し、RLHF ワークロードが報酬ハッキングと構造的に健全な実行を混合し、スケジューラから隠蔽されたグランドトゥルースラベルを使用した離散イベントシミュレータでそれを評価します。 RLHF の負荷が高いワークロード (RLHF 80%、GPU 64 基) では、EvalStop は精度 98% / リコール 99% / FPR 1.5% を達成し、SRTF-Est と比較して JCT を 9% 改善し、無駄なコンピューティングを 22% 削減します (p<0.05)。些細な固定進捗と損失プラトーの競合他社は、健全な RLHF で 65% の FPR を被るか、真のハッキング ケースの半分以上を見逃すかのどちらかです。ゲインはテストされたすべてのベース スケジューラにわたって構成され (9 ~ 25% の JCT)、検出品質は評価ノイズ (ノイズ std <= 0.05 で少なくとも 91% の精度) およびハッキングのベース レート (20 ~ 80% のハッキング部分で少なくとも 89% の精度) の下で安定しています。
原文 (English)
EvalStop: Using World Feedback to Detect and Correct Reward Overoptimization in Multi-Tenant RLHF Platforms
Cloud LLM fine-tuning platforms increasingly serve RLHF workloads, where a learned reward model is optimized as a proxy for human quality. As Gao et al. (2023) showed, this proxy diverges from world feedback (downstream eval metrics) under sustained optimization pressure, a phenomenon known as reward overoptimization. Existing platform schedulers ignore this divergence: non-clairvoyant schedulers optimize JCT without any quality signal, SLAQ-style quality-aware schedulers use training loss (a weaker proxy that drops monotonically through hacking), and classical per-job early stopping requires human monitoring and does not free shared GPUs. We propose EvalStop, a composable scheduling primitive that terminates jobs on k consecutive eval-score declines, releases GPUs, preserves the best checkpoint, and delegates to any base scheduler. We frame scheduler-level early stopping as a detection problem and evaluate it in a discrete-event simulator whose RLHF workload mixes reward-hacking and structurally healthy runs, with ground-truth labels hidden from schedulers. On RLHF-heavy workloads (80% RLHF, 64 GPUs), EvalStop achieves precision 98% / recall 99% / FPR 1.5% while improving JCT by 9% and cutting wasted compute by 22% over SRTF-Est (p<0.05). Trivial fixed-progress and loss-plateau competitors either incur 65% FPR on healthy RLHF or miss over half of true hacking cases. Gains compose across every base scheduler tested (9-25% JCT) and detection quality stays stable under eval noise (precision at least 91% at noise std <= 0.05) and hacking base rate (precision at least 89% across 20-80% hacking fractions).
ドメインとモデルにわたる AI 生成テキスト検出における言語的特徴の系統的分析
解釈可能な言語特徴は、特に専門家でないユーザーにとって、特定のテキストが機械生成のように見える理由を説明するための有望なアプローチを提供します。ただし、LLM で生成されたテキストを特徴が確実に示しているという既存の調査結果は、特徴セット、モデル、テキスト ドメイン全体で断片化されたままです。このギャップに対処するために、AI が生成したテキストを特徴付けるための言語信号の堅牢性を評価する大規模な実証研究を実施します。私たちの分析では、クロスモデルおよびクロスドメイン一般化設定の下で、27 の LLM と 10 のテキスト ドメインからの出力にわたる 284 の解釈可能な言語特徴をカバーしています。言語的特徴のみに基づく分類器が、AI によって生成されたテキストと人間が書いたテキストを確実に区別できることを示します。ただし、これまでに提案された指標の多くは、語彙の豊富さの尺度を除いて、コンテキストに強く依存することが証明されており、モデル ファミリとテキスト ドメイン全体にわたって堅牢なシグナルのままです。これらの結果は、どの言語信号がコンテキスト全体で一般化するかを示し、AI 生成言語のより信頼性が高く解釈可能な分析の基盤を提供します。
原文 (English)
A Systematic Analysis of Linguistic Features in AI-Generated Text Detection Across Domains and Models
Interpretable linguistic features offer a promising approach for explaining why a given text appears machine-generated, particularly for non-expert users. However, existing findings on which features reliably indicate LLM-generated text remain fragmented across feature sets, models, and text domains. To address this gap, we conduct a large-scale empirical study assessing the robustness of linguistic signals for characterizing AI-generated text. Our analysis covers 284 interpretable linguistic features across outputs from 27 LLMs and ten text domains under cross-model and cross-domain generalization settings. We show that classifiers based solely on linguistic features can reliably distinguish AI-generated from human-written text. However, many previously proposed indicators prove strongly context-dependent, with the exception of measures of lexical richness, which remain robust signals across model families and text domains. These results demonstrate which linguistic signals generalize across contexts and provide a foundation for more reliable, interpretable analyses of AI-generated language.
DetectZoo: テキスト、オーディオ、画像モダリティにわたる AI 生成コンテンツ検出のための統合ツールキット
生成モデルの人気と能力の高まりにより、人間が生成したコンテンツと機械が生成したコンテンツの区別がなくなり、テキスト、画像、音声にわたる検出に関する一連の研究が増えています。入手可能な検出器のほとんどは商用ソフトウェアであるか、オープンソースの場合は特注の前処理、評価プロトコル、評価メトリクスを備えた互換性のないコードベースが付属しているため、その採用、公正な比較、再現が非常に困難になっています。この重大なギャップに対処するために、テキスト、オーディオ、画像モダリティにわたる AI 生成コンテンツ検出のための統一インターフェイスを提供するように設計された、この種初の拡張可能なツールキットである DetectZoo を導入します。 DetectZoo は、データの取り込みと前処理からモデルの評価に至るまで、完全な経験的パイプラインを標準化し、最先端の検出器を体系的にベンチマークするための一貫したフレームワークを研究者に提供します。多様な公開データセットとベースライン検出アルゴリズムを単一の統一 API に統合することで、当社のツールキットは厳密で再現可能な評価を容易にします。 DetectZoo は、61 の検出器のリファレンス実装、22 のベンチマーク データセット用のネイティブ ローダー、および共通のインターフェイスを通じて複数のメトリクスを報告する標準化された評価パイプラインを提供します。各検出器は自己完結型ですが、同じインターフェイスからアクセスでき、事前トレーニングされた重みを自動的にキャッシュし、元の公開結果を再現します。 DetectZoo は、マルチモーダル AI フォレンジックの参入障壁を下げ、研究者がドメイン間のパフォーマンスのギャップを特定できるようにし、堅牢で汎用性のある検出技術の開発を加速します。オープンソース リポジトリと包括的なドキュメントは https://github.com/sadjadeb/DetectZoo で公開されており、パッケージは pip install detectzoo 経由でインストールできます。
原文 (English)
DetectZoo: A Unified Toolkit for AI-Generated Content Detection Across Text, Audio, and Image Modalities
The growing popularity and capacity of generative models have eroded the distinction between human and machine-generated content, motivating a growing body of work on detection across text, images, and audio. Most available detectors are either commercial software or, if open-source, come with incompatible codebases with bespoke preprocessing, evaluation protocols, and evaluation metrics, which make their adoption, fair comparison, and reproduction quite difficult. To address this critical gap, we introduce DetectZoo, a first-of-its-kind, extensible toolkit designed to provide a unified interface for AI-generated content detection across text, audio, and image modalities. DetectZoo standardizes the complete empirical pipeline, from data ingestion and preprocessing to model assessment, offering researchers a cohesive framework to benchmark state-of-the-art detectors systematically. By integrating diverse public datasets and baseline detection algorithms under a single, unified API, our toolkit facilitates rigorous and reproducible evaluation. DetectZoo provides reference implementations of 61 detectors, native loaders for 22 benchmark datasets, and a standardized evaluation pipeline that reports multiple metrics through a common interface. Each detector is self-contained yet accessible through the same interface, automatically caches pretrained weights, and reproduces the original published results. DetectZoo lowers the barrier to entry for multi-modal AI forensics, enabling researchers to identify performance gaps across domains and accelerating the development of robust, generalizable detection techniques. The open-source repository and comprehensive documentation are publicly available at https://github.com/sadjadeb/DetectZoo, and the package can be installed via pip install detectzoo.
PerceptTwin: 反復 LLM 計画と検証のためのセマンティック シーンの再構築
シミュレーション環境は、ロボット ポリシーの学習と計画の検証と検証の両方に役立ちます。従来、シミュレーションを作成するプロセスは面倒なものでした。ロボットが動作する個々の環境に合わせてオーダーメイドのシミュレーション環境を作成することは、まったく不可能でした。この研究では、ロボットの認識スタックによって生成されたセマンティック シーン表現から直接インタラクティブ シミュレーションを構築する完全自動パイプラインである PerceptTwin を紹介します。 PerceptTwin は、オープン語彙オブジェクト マップと 3D アセット生成、アフォーダンス予測、および常識的な条件チェックを組み合わせます。これらのインタラクティブなシミュレーションを使用すると、ロボット ハードウェアで実行される前に計画を検証し、改良することができます。 AI 調整の文献から借用して、計画の正確さと人間の好みとの調整を検証する LLM ジャッジも紹介します。実験では、PerceptTwin のフィードバックにより、LLM プランナーが計画を改良し、安全性を強化し、有害なブラックボックス プロンプト攻撃に抵抗できることが示されています。私たちの一連のタスクでは、PerceptTwin により、GPT5、GPT5Mini、および GPT5Nano プランナーの計画の成功率が平均約 39% 向上しました。さらに、PerceptTwin は、スキルの前提条件が満たされていないために失敗した計画について、人間による計画の検証を平均で最大 18% 改善します。私たちの結果は、より安全で信頼性の高いロボット計画の基盤として、ロボットの知覚からのオープンボキャブラリーシーンシミュレーションの可能性を実証しています。
原文 (English)
PerceptTwin: Semantic Scene Reconstruction for Iterative LLM Planning and Verification
Simulation environments are useful for both robot policy learning and planning verification and validation. Traditionally, the process of creating a simulation was onerous. Creating a bespoke simulation environment for each individual environment that a robot would operate in was simply infeasible. In this work, we introduce PerceptTwin, a fully automatic pipeline that constructs interactive simulations directly from semantic scene representations produced by a robot's perception stack. PerceptTwin combines open-vocabulary object maps with 3D asset generation, affordance prediction, and commonsense condition checking. These interactive simulations can be used to validate and refine plans before they are executed on the robot hardware. Borrowing from the AI alignment literature, we also introduce an LLM judge that verifies plan correctness and alignment with human preferences. Experiments show that PerceptTwin feedback allows LLM planners to refine plans, enhance safety, and resist harmful black-box prompting attacks. In our suite of tasks, PerceptTwin improves plan success by an average of approximately 39% for GPT5, GPT5Mini, and GPT5Nano planners. Additionally, PerceptTwin also improves human plan verification by up to 18% on average for plans that fail due to unfilled skill preconditions. Our results demonstrate the potential of open-vocabulary scene simulation from robot perception as a foundation for safer, more reliable robot planning.
MM-BizRAG: 汎用エンタープライズ Q&A 向けのマルチモーダル検索拡張生成の再考
マルチモーダル検索拡張生成 (MM-RAG) の最近の進歩は、最小限の解析に移行し、検索埋め込みの生成と回答の生成にはページレベルの画像に依存しています。この傾向は効率的ではありますが、複雑な企業ドキュメント内の豊富で構造化された情報の明示的な処理を無視することが多く、その代わりに、そのような構造を暗黙的に捕捉する事前トレーニング済みの埋め込みまたはビジョン言語モデルに依存します。この作業では、より直接的なアプローチを採用しています。MM-BizRAG は、方向固有の取り込みパイプラインを通じてドキュメントを動的にルーティングするドキュメント構造認識分割を介してドキュメント構造をプロアクティブに抽出および表現し、垂直方向に構造化されたドキュメント (レポートなど) には明示的なレイアウト認識解析を適用し、水平方向に構造化されたドキュメント (スライド デッキなど) には全体的なページ レベルの表現を適用します。プレースホルダーベースの位置調整を備えた統合された LLM 駆動のアーティファクト変換パイプラインにより、自然な読み取り順序が維持される一方、推論時のマルチモーダル アセンブリにより検索表現が生成コンテキストから切り離され、微調整を必要とせずに、より豊富で根拠のある回答が可能になります。大規模で異種混合のエンタープライズ データセットと 2 つの公開ベンチマーク (SlideVQA および FinRAGBench-V) での実験を通じて、MM-BizRAG は常に最先端のビジョン中心のベースラインを最大 32% ポイント上回るパフォーマンスを示し、特にレポート スタイルのレイアウトで大幅な向上を実現しました。さらに、人間によるより強力な調整を実現しながら、RAGChecker のコストを半減する、きめ細かい生成呼び出しのためのシングルコール LLM ジャッジ メトリクスである FastRAGEval を導入します。
原文 (English)
MM-BizRAG: Rethinking Multimodal Retrieval-Augmented Generation for General Purpose Enterprise Q&A
Recent advances in multimodal retrieval-augmented generation (MM-RAG) have shifted toward minimal parsing, relying on page-level images for producing retriever embeddings and for answer generation. While efficient, this trend often neglects explicit handling of the rich, structured information in complex enterprise documents, instead depending on pre-trained embeddings or vision-language models to implicitly capture such structure. In this work, we take a more direct approach: MM-BizRAG proactively extracts and represents document structure via a document structure-aware split that dynamically routes documents through orientation-specific ingestion pipelines, applying explicit layout-aware parsing for vertically structured documents (e.g., reports) and holistic page-level representations for horizontally structured documents (e.g., slide decks). A unified LLM-driven artifact transformation pipeline with placeholder-based positional alignment preserves natural reading order, while inference-time multimodal assembly decouples retrieval representations from generation context, enabling richer, more grounded answers without any finetuning requirement. Through experiments on a large, heterogeneous enterprise dataset and two public benchmarks (SlideVQA and FinRAGBench-V), MM-BizRAG consistently outperforms state-of-the-art vision-centric baselines by up to 32% points, with especially strong gains on report-style layouts. Furthermore, we introduce FastRAGEval, a single-call LLM Judge metric for fine-grained generative recall that halves RAGChecker's cost while achieving stronger human alignment.
高速拡散言語モデルのデコードをサポートするトークンの公開
離散拡散言語モデルは、複数のマスクされた位置を並行して更新することでテキストを効率的に生成できますが、この並行性により品質と遅延のトレードオフが生じます。積極的なデコードでは相互に依存するトークンのコミットが早すぎる可能性がありますが、保守的なデコードでは多くのノイズ除去手順が必要になります。既存の方法では、信頼性または依存性の基準を使用して、どのトークンを公開しても安全であるかを判断することで、この緊張に対処しています。ただし、安全でないコミットを回避しても、残りのマスクされたシーケンスのデコードが容易になるとは限りません。不確実なトークンがマスクされたトークンに依存し、ノイズ除去ステップのボトルネックになる可能性があるためです。私たちは、拡散言語モデルの既存の並列デコード戦略の上に追加できる、トレーニング不要のモジュールである AXON を提案します。 AXON は、ベース デコーダを置き換えるのではなく、残りの不確実なマスクされたトークンを監視し、現在の状態が追加のコンテキストが必要であることを示唆する場合にのみ介入します。次に、どのトークンを公開するのが最も安全であるかという基準を、どの信頼できる公開が後のノイズ除去を最もよくサポートするかという基準に変更します。 AXON は、注意、不確実性、および信頼性のシグナルを使用して、不確実な位置が注目するアンカー、つまり不確実な位置が注目する自信のあるマスクされたトークンを選択します。複数の拡散言語モデルにわたる推論とコード生成のベンチマークに関する実験では、AXON が既存の並列デコーダーの品質と遅延のトレードオフを改善し、多くの場合、精度を維持または向上させながら関数評価の数を削減することが示されています。
原文 (English)
Supportive Token Revealing for Fast Diffusion Language Model Decoding
Discrete diffusion language models can generate text efficiently by updating multiple masked positions in parallel, but this parallelism introduces a quality-latency trade-off. Aggressive decoding may commit mutually dependent tokens too early, while conservative decoding requires many denoising steps. Existing methods address this tension by deciding which tokens are safe to reveal using confidence or dependency criteria. However, avoiding unsafe commits does not necessarily make the remaining masked sequence easy to decode, since uncertain tokens may depend on masked tokens, creating a bottleneck for denoising steps. We propose AXON, a training-free module that can be added on top of existing parallel decoding strategies for diffusion language models. Rather than replacing the base decoder, AXON monitors the remaining uncertain masked tokens and intervenes only when their current state suggests that additional context is needed. It then shifts the criterion from which tokens are safest to reveal to which confident reveals would best support later denoising. AXON selects anchors, confident masked tokens that uncertain positions attend to, using attention, uncertainty, and confidence signals. Experiments on reasoning and code-generation benchmarks across multiple diffusion language models show that AXON improves the quality-latency trade-off of existing parallel decoders, often reducing the number of function evaluations while maintaining or improving accuracy.
積極的な量子化のための Recover-LoRA: 合成データの知識蒸留による低ランク適応による 2 ビット言語モデルの精度の回復
2 ビット精度への積極的な重み量子化により、大規模言語モデル (LLM) 推論のスループットとメモリが大幅に向上しますが、通常は精度が大幅に低下します。これらの利点は、メモリ容量と帯域幅が主な制約となるエッジおよびオンデバイスの展開に特に関係します。この研究では、Recover-LoRA (もともと一般的なモデル重み破損のために開発された軽量でデータフリーの精度回復手法) を、超低ビット量子化の設定まで拡張します。我々は、MLP のゲートおよびアップ投影層のみが 2 ビット (W2) に量子化され、他のすべての線形層は高精度のままであり、混合精度の GateUp 構成を生成する、選択的な混合精度戦略を提案します。 3 つのモデル ファミリ (4B ~ 20B) と 2 つのハードウェア プラットフォームにわたるルーフライン分析を通じて、W4/W2-GateUp 導入 (4 ビット ベースと 2 ビット ゲート/アップ) が、量子化誤差を予測可能なレイヤーのサブセットに限定しながら、モデルとコンテキストの長さに応じて均一な W4 と比較して 7.5 ~ 23.3% の TPS 向上を実現することを実証します。次に、Recover-LoRA (合成データを使用したロジット蒸留を介して量子化レイヤーで低ランクのアダプターをトレーニング) を適用し、ゲートおよび上位レイヤーの 2 ビット量子化によって失われた精度を回復します。 Qwen3-4B のケーススタディでは、Recover-LoRA は 10,000 個の合成トレーニング サンプルのみを使用し、ラベル付きデータを使用せず、12 ベンチマーク中 9 で 80 ~ 95\% の精度回復を達成しました。さらに、蒸留ベースの回収において合成データが厳選されたラベル付きデータと同等のパフォーマンスを発揮すること、および回収が配布外の評価タスクに一般化されることを実証します。私たちの結果は、Recover-LoRA が、展開設定で積極的な重み圧縮のための実用的な量子化後の精度回復ツールであることを示しています。
原文 (English)
Recover-LoRA for Aggressive Quantization: Reclaiming Accuracy in 2-Bit Language Models via Low-Rank Adaptation with Knowledge Distillation on Synthetic Data
Aggressive weight quantization to 2-bit precision offers substantial throughput and memory gains for large language model (LLM) inference, but typically incurs severe accuracy degradation. These gains are particularly relevant for edge and on-device deployment, where memory capacity and bandwidth are primary constraints. In this work, we extend Recover-LoRA -- a lightweight, data-free accuracy recovery method originally developed for general model weight corruption -- to the setting of ultra-low-bit quantization. We propose a selective mixed-precision strategy in which only gate and up projection layers of the MLP are quantized to 2-bit (W2), while all other linear layers remain at higher precision, yielding a mixed-precision GateUp configuration. We demonstrate via roofline analysis across three model families (4B--20B) and two hardware platforms that a W4/W2-GateUp deployment (4-bit base with 2-bit gate/up) delivers 7.5--23.3\% TPS improvement over uniform W4 depending on model and context length, while confining quantization error to a predictable subset of layers. We then apply Recover-LoRA -- training low-rank adapters on the quantized layers via logit distillation with synthetic data -- to recover accuracy lost from 2-bit quantization of the gate and up layers. In a case study on Qwen3-4B, Recover-LoRA achieves 80--95\% accuracy recovery on 9 of 12 benchmarks, using only 10k synthetic training samples and no labeled data. We further demonstrate that synthetic data performs comparably to curated labeled data for distillation-based recovery, and that recovery generalizes to out-of-distribution evaluation tasks. Our results present Recover-LoRA as a practical post-quantization accuracy recovery tool for aggressive weight compression in deployment settings.
EReL@MIR 2025 マルチモーダル文書検索チャレンジの概要 (トラック 1)
マルチモーダルな検索拡張生成には、視覚的に豊富なドキュメント、つまりテキストと図、表、グラフが挟まれたページの検索が不可欠ですが、ほとんどの検索ツールは依然としてビジュアル チャネルを破棄しています。 Web Conference 2025 と同時開催される第 1 回 EReL@MIR ワークショップの MIR チャレンジの Track~1 である \emph{マルチモーダル文書検索チャレンジ} では、参加者に 2 つの相補的な体制を処理する \emph{単一} 検索システムを構築するよう求めます。テキストクエリ (MMDocIR) からの長い文書内のクローズドセット文書ページの検索と、画像からの Wikipedia スタイルの一節のオープンドメイン検索です。または画像とテキストのクエリ (M2KR)。システムは、2 つのタスクにわたる平均 Recall@$\{1,3,5\}$ のマクロ平均によってランク付けされます。このチャレンジには、22 チームから 455 人の参加者と 586 件の応募が集まりました。このレポートでは、課題の設計、データセット、評価プロトコルについて説明します。最終順位を報告します。そして優勝した3チームのシステムを分析します。 3 つはすべて、CLIP スタイルのエンコーダーではなく、Qwen2-VL ファミリのデコーダーベースの Multimodal-LLM エンベッダーに基づいて構築されており、主に、微調整されたアンサンブル、強力なビジョン言語リランカーによるトレーニング不要のマルチルート フュージョン、またはゼロショット レイト インタラクションを通じてトップに到達するかどうかが異なります。トレーニング不要のシステムは、微調整された勝者の $0.1$ ポイント以内に終了しました。
原文 (English)
Overview of the EReL@MIR 2025 Multimodal Document Retrieval Challenge (Track 1)
Retrieval over visually-rich documents, pages that interleave text with figures, tables, and charts, is essential for multimodal retrieval-augmented generation, yet most retrievers still discard the visual channel. The \emph{Multimodal Document Retrieval Challenge}, Track~1 of the MIR Challenge at the first EReL@MIR workshop, co-located with The Web Conference 2025, asks participants to build a \emph{single} retrieval system that handles two complementary regimes: closed-set document page retrieval within long documents from a text query (MMDocIR), and open-domain retrieval of Wikipedia-style passages from an image or image-plus-text query (M2KR). Systems are ranked by the macro-average of mean Recall@$\{1,3,5\}$ over the two tasks. The challenge drew 455 entrants and 586 submissions across 22 teams. This report describes the challenge design, datasets, and evaluation protocol; reports the final standings; and analyses the three winning teams' systems. All three build on decoder-based Multimodal-LLM embedders from the Qwen2-VL family rather than on CLIP-style encoders, and differ chiefly in whether they reach the top through fine-tuned ensembles, training-free multi-route fusion with a strong vision-language re-ranker, or zero-shot late interaction. The training-free system finished within $0.1$ point of the fine-tuned winner.
もう一度服用してもいいですか? OTC 投薬 QA における時間的不確実性の下での LLM の意思決定の評価
大規模言語モデル (LLM) は、ユーザーが市販薬 (OTC) を安全にもう 1 回服用できるかどうかなど、日常の健康に関する質問にますます使用されています。しかし、この一般的な安全関連の設定は、既存の医療 QA 評価では依然として十分に検討されていません。そこでは、正しい回答には、投与タイミングの追跡、24 時間のローリング摂取量の計算、製品ラベルの制約への準拠、および不完全な薬歴の処理が必要です。成人のアセトアミノフェンとイブプロフェンの使用に焦点を当てた、厳選された 81 の OTC 投与シナリオの焦点を絞ったベンチマークである DOSEBENCH を、手動で注釈が付けられたゴールド参照とともに紹介します。決定の正確さ、一貫性、説明の検証可能性、失敗の種類、信頼性に関連する信号のメトリクスを使用して、繰り返し実行される 4 つの LLM を評価し、1,620 個のモデル応答が得られます。私たちの結果は、モデルがローリングウィンドウ推論や曖昧さに敏感なケースに頻繁に苦戦すること、そして安定した応答や自信を持って見える応答が依然として投与制約に違反する可能性があることを示しています。これらの発見は、OTC 投与 QA が、医療 QA における時間的推論、制約追従、および安全関連の不確実性の処理を評価するための、狭いながらも実用的なテストベッドを提供することを示唆しています。
原文 (English)
Can I Take Another Dose? Evaluating LLM Decision-Making Under Temporal Uncertainty in OTC Dosing QA
Large language models (LLMs) are increasingly used for everyday health questions, including whether a user can safely take another dose of an over-the-counter (OTC) medication. Yet this common safety-relevant setting remains underexplored in existing medical QA evaluations, where correct answers require tracking dose timing, computing rolling 24-hour intake, following product-label constraints, and handling incomplete medication histories. We introduce DOSEBENCH, a focused benchmark of 81 curated OTC dosing scenarios focused on adult acetaminophen and ibuprofen use, with manually annotated gold references. We evaluate four LLMs across repeated runs using metrics for decision correctness, consistency, explanation verifiability, failure types, and confidence-related signals, resulting in 1,620 model responses. Our results show that models frequently struggle with rolling-window reasoning and ambiguity-sensitive cases and that stable or confident-looking responses can still violate dosing constraints. These findings suggest that OTC dosing QA provides a narrow yet practical testbed for evaluating temporal reasoning, constraint following, and safety-relevant uncertainty handling in medical QA.
専門家の混合がまばらな報酬モデル
プリファレンス モデリングは、ヒューマン フィードバックからの強化学習 (RLHF) において中心的な役割を果たし、大規模言語モデル (LLM) を人間の価値観に合わせることを可能にします。しかし、既存のアプローチのほとんどは普遍的な報酬関数を前提としており、人間の好みの多様性と異質性を無視しています。追加のアノテーションコストをかけずにこの制限に対処するために、最近の研究では、バイナリデータから複数のプリファレンスコンポーネントを学習し、それらを組み合わせて個々のプリファレンスをモデル化することが提案されています。それにも関わらず、これらのコンポーネントは、一貫性のある解きほぐされたパターンをキャプチャできないことが多く、解釈可能性やパーソナライゼーションの有効性が制限されます。この研究では、バイナリ嗜好データのトレーニング中に疎なルーティングと専門家の多様性を促進する疎な専門家混合 (MoE) 報酬モデルを提案します。制御された実験と実際の実験を通じて、まばらな MoE は解釈可能なルーティング パターンと専門の専門家を学習します。また、テスト時のパーソナライゼーションも改善され、適応後のエキスパートの重みの変化により、モデルがパーソナライズされた好みにどのように適応するかを分析するための定性的なレンズが提供されます。
原文 (English)
Sparse Mixture-of-Experts Reward Models Learn Interpretable and Specialized Experts for Personalized Preference Modeling
Preference modeling plays a central role in reinforcement learning from human feedback (RLHF), enabling large language models (LLMs) to align with human values. However, most existing approaches assume a universal reward function, neglecting the diversity and heterogeneity of human preferences. To address this limitation without additional annotation costs, recent work has proposed learning multiple preference components from binary data and combining them to model individual preferences. Nevertheless, these components often fail to capture coherent and disentangled patterns, limiting their interpretability and effectiveness for personalization. In this work, we propose a sparse Mixture-of-Experts (MoE) reward model that encourages sparse routing and expert diversity during training on binary preference data. Across controlled and real-world experiments, sparse MoE learns interpretable routing patterns and specialized experts. It also improves test-time personalization, and post-adaptation shifts in expert weights provide a qualitative lens for analyzing how the model adapts to personalized preferences.
即時決定トランスフォーマーを使用したワイヤレス ネットワークの一般化可能なマルチタスク学習
将来のワイヤレス ネットワークでは、非常に異質な環境と動的なタスク構成への迅速な適応が求められており、従来のルールベースで最適化主導の無線リソース管理 (RRM) から人工知能 (AI) 主導の RRM への移行が必要です。 AI 主導のアプローチは、複雑な非線形関係を学習し、多様なネットワーク条件全体に一般化して、リアルタイムでスケーラブルな自律的な意思決定を可能にします。 RRM 技術の中でも、多地点協調(CoMP)送信はセル間干渉を軽減し、セルエッジのパフォーマンスを向上させるために極めて重要であり、それによって高密度展開における体験品質(QoE)が向上します。ただし、最適なマルチセルの選択は、動的なトラフィックとチャネル条件の下で、考えられる多くのサービングセルの組み合わせを共同で最適化する必要があるため、依然として複雑な組み合わせの課題です。成功にもかかわらず、近接ポリシー最適化 (PPO) などの従来の深層強化学習 (DRL) 手法は、サンプル効率が低く、汎化が限られており、状態空間とアクション空間が変化した場合に再学習にコストがかかるという問題があります。これらのボトルネックに対処するために、多様なネットワーク構成にわたって学習し、シーケンス モデリング問題としてマルチセルの選択を再定式化できる、Prompt Decision Transformer (PromptDT) ベースのマルチタスク学習フレームワークを提案します。 PromptDT は、オフライン トラジェクトリとタスク固有のプロンプトを活用することで、さまざまな基地局やユーザー機器の数、スケジューラ ポリシーなど、さまざまなネットワーク構成にわたってスケーラブルな学習を可能にします。実験結果は、PromptDT がベースラインと比較してマルチタスク設定で QoE を最大 49% 向上させ、モデルの容量に合わせてパフォーマンスがプラスに拡張することを示しています。さらに、PromptDT は目に見えないタスクを効果的に一般化し、再トレーニングや微調整を行わずに、新しいネットワーク構成への堅牢な少数ショットの適応を実現します。
原文 (English)
Generalizable Multi-Task Learning for Wireless Networks Using Prompt Decision Transformers
Future wireless networks demand rapid adaptation to highly heterogeneous environments and dynamic task configurations, necessitating a shift from conventional rule-based and optimization-driven radio resource management (RRM) toward artificial intelligence (AI)-driven RRM. AI-driven approaches can learn complex nonlinear relationships, generalize across diverse network conditions and enable real-time, scalable and autonomous decision-making. Among RRM techniques, coordinated multipoint (CoMP) transmission is pivotal for mitigating inter-cell interference and enhancing cell-edge performance, thereby improving quality of experience (QoE) in dense deployments. However, optimal multi-cell selection remains a complex combinatorial challenge as it requires jointly optimizing over many possible serving-cell combinations under dynamic traffic and channel conditions. Despite their success, conventional deep reinforcement learning (DRL) methods such as proximal policy optimization (PPO) suffer from poor sample efficiency, limited generalization, and costly retraining when state and action spaces change. To address these bottlenecks, we propose a Prompt Decision Transformer (PromptDT) based multi-task learning framework capable of learning across diverse network configurations and reformulating multi-cell selection as a sequence modeling problem. By leveraging offline trajectories and task-specific prompts, PromptDT enables scalable learning across diverse network configurations, including varying base stations and user equipment counts, and scheduler policies. Experimental results demonstrate that PromptDT improves QoE by up to 49% in multi-task settings compared to baselines, with performance scaling positively alongside model capacity. Moreover, PromptDT generalizes effectively to unseen tasks, achieving robust few-shot adaptation to new network configurations without retraining or fine-tuning.
信頼できない入力から信頼できるメモリへ: LLM エージェントにおけるメモリポイズニング攻撃の系統的研究
メモリは AI エージェントの中核コンポーネントであり、AI エージェントがインタラクションを通じて知識を蓄積し、パフォーマンスを向上させることができます。ただし、永続メモリにはメモリ ポイズニングのリスクが伴います。メモリ ポイズニングの場合、敵対的な 1 回のメモリ書き込みがエージェントの動作に長期的な影響を与える可能性があります。我々は、LLM ベースのエージェントにおけるメモリポイズニングの体系的な研究を紹介します。 4 つのメモリ書き込みチャネルと、これらのチャネルを悪用可能にするモデル機能、システム プロンプト設計、およびエージェント システム アーキテクチャにおける 9 つの構造的脆弱性を特定しました。これらの脆弱性に基づいて、メモリポイズニング攻撃の 6 つのクラスの分類を作成します。さらに、メモリポイズニング攻撃を評価するためのベンチマークである MPBench を設計し、より積極的にメモリの書き込みと取得を行うように設計されたエージェントが悪用されやすいことを示します。また、既存のプロンプト インジェクション防御ではメモリ ポイズニング攻撃をカバーできないことも示します。私たちの調査結果は、AI エージェントに対するメモリ ポイズニング攻撃を理解し、軽減するための基盤を提供します。
原文 (English)
From Untrusted Input to Trusted Memory: A Systematic Study of Memory Poisoning Attacks in LLM Agents
Memory is a core component of AI agents, enabling them to accumulate knowledge across interactions and improve performance. However, persistent memory introduces the risk of memory poisoning, where a single adversarial memory write can exert long-term influence over agent behavior. We present a systematic study of memory poisoning in LLM-based agents. We identify four memory write channels and nine structural vulnerabilities in model capabilities, system prompt design, and agent system architecture that make these channels exploitable. Based on these vulnerabilities, we develop a taxonomy of six classes of memory poisoning attacks. Furthermore, we design MPBench -- a benchmark for evaluating memory poisoning attacks, and show that agents designed to write and retrieve memory more aggressively are more exploitable. We also show that existing prompt injection defenses fail to cover memory poisoning attacks. Our findings provide a foundation for understanding and mitigating memory poisoning attacks against AI agents.
MorphoQuant: オムニモーダル大規模言語モデル向けのモダリティを意識した量子化
従来のポストトレーニング量子化 (PTQ) 手法は、極端な分布の不均一性とモダリティ間の異種の外れ値パターンにより、4 ビットのオムニモーダル大規模言語モデル (OLLM) に苦戦します。これに対処するために、クロスモーダル形態を保存し、外れ値の損失を軽減するように設計されたモダリティ認識 PTQ フレームワークである MorphoQuant を提案します。具体的には、ロングテールの外れ値をチャネルごとのバイアスに選択的に吸収する、Distribution-Aware Bias Compensation (DABC) を導入します。このメカニズムは、密なインライアの高精度の離散化を維持しながら外れ値の大きさを保護し、それによって多様なモード分布にわたって正確な離散化を維持します。これを補完するために、量子化グリッドとバイアス マスクを同時に最適化し、モダリティ全体でのきめ細かい調整を保証する形態指向量子化関数最適化 (MDQFO) を提案します。 MMMU や Video-MME などのベンチマークにわたる Qwen2.5-Omni の広範な評価により、私たちのアプローチの優位性が実証されています。特に、当社の W4A4 モデルは ScienceQA で 76.63% を達成し、SOTA W4A4 メソッドを大幅に上回り、驚くべきことに W4A16 ベースラインを上回っています。これは、当社のフレームワークの並外れた精度と効率のトレードオフを十分に示しています。
原文 (English)
MorphoQuant: Modality-Aware Quantization for Omni-modal Large Language Models
Conventional Post-Training Quantization (PTQ) methods struggle with 4-bit Omni-modal Large Language Models (OLLMs) due to the extreme distribution heterogeneity and disparate outlier patterns across modalities. To address this, we propose MorphoQuant, a modality-aware PTQ framework engineered to preserve cross-modal morphology and mitigate outlier loss. Specifically, we introduce Distribution-Aware Bias Compensation (DABC), which selectively absorbs long-tailed outliers into channel-wise biases. This mechanism safeguards outlier magnitudes while maintaining high-precision discretization for dense inliers, thereby preserving accurate discretization across diverse modal distribution. Complementing this, we propose Morphology-Directed Quantization Function Optimization (MDQFO) to co-optimize the quantization grid with the bias mask, ensuring fine-grained alignment across modalities. Extensive evaluations on Qwen2.5-Omni across benchmarks like MMMU and Video-MME demonstrate our approach's superiority. Notably, our W4A4 model achieves 76.63% on ScienceQA, significantly outperforming SOTA W4A4 methods and surprisingly surpassing the W4A16 baseline, which fully demonstrates the exceptional accuracy-efficiency trade-off of our framework.
記号から幾何へ: 大規模な言語モデルで空間推論を可能にする
最近の大規模言語モデル (LLM) は、空間推論能力を示すことが多いようです。ただし、この機能は主に \emph{象徴的} なものであり、空間に関する真の \emph{幾何学的} 推論ではなく、空間言語によるパターン マッチングから生じています。 LLM は離散トークンで動作するため、連続空間表現、明示的な幾何学的計算、および構造化空間演算子のネイティブ サポートが不足しています。この制限に対処するために、\emph{空間言語モデル (SLM)} を導入しました。これは位置情報を第一級のモダリティとして扱い、モデルの推論プロセス内で幾何学的空間推論を可能にする初のマルチモーダル LLM です。 SLM は、空間関係のテキスト記述ではなく、学習された空間表現に直接作用します。効果的なトレーニングをサポートするために、空間表現、アトミックな幾何学的操作、自然言語命令を調整する \emph{空間命令データセット} を構築します。さらに、\emph{SpatialEval} という名前の新しいベンチマークを提案します。これは、属性、距離、トポロジー、および相対位置タスクにわたる空間推論を評価するように設計されています。広範な実験により、SLM は、プロンプト エンジニアリングやテキスト抽象化による記号推論に依存する既存の LLM ベースのアプローチよりも大幅に優れていることが示されており、堅牢な空間推論のために幾何学的空間表現を統合する利点が実証されています。命令データセット、評価ベンチマーク、モデル トレーニング コード、モデルのチェックポイントは、\hyperlink{https://github.com/chuchen2017/SLM}{https://github.com/chuchen2017/SLM} にあります。
原文 (English)
From Symbolic to Geometric: Enabling Spatial Reasoning in Large Language Models
Recent large language models (LLMs) often appear to exhibit spatial reasoning ability; however, this capability is largely \emph{symbolic}, arising from pattern matching over spatial language rather than true \emph{geometric} reasoning over space. Because LLMs operate on discrete tokens, they lack native support for continuous spatial representations, explicit geometric computation, and structured spatial operators. To address this limitation, we introduce the \emph{Spatial Language Model (SLM)}, the first multimodal LLM that treats location information as a first-class modality and enables geometric spatial reasoning within the model's inference process. SLM directly operates on learned spatial representations rather than textual descriptions of spatial relations. To support effective training, we construct a \emph{Spatial Instruction Dataset} that aligns spatial representations, atomic geometric operations, and natural language instructions. We further propose a new benchmark named \emph{SpatialEval}, which is designed to evaluate spatial reasoning across attributes, distance, topology, and relative-position tasks. Extensive experiments show that SLM significantly outperforms existing LLM-based approaches that rely on symbolic reasoning via prompt engineering or textual abstraction, demonstrating the benefits of integrating geometric spatial representations for robust spatial reasoning. Our instruction dataset, evaluation benchmark, model training codes, and models' checkpoints can be found at: \hyperlink{https://github.com/chuchen2017/SLM}{https://github.com/chuchen2017/SLM}.
LLM ベースの階層的優先順位付けによる営業リードのスコアリングの再考
一か八かの分野 (自動車、不動産など) でのセールスリードの変換は、長期にわたる意思決定サイクルと多段階の目標到達プロセスにより、電子商取引の推奨とは根本的に異なります。従来のリード スコアリング方法のルールベースのスコアカード、機械学習、またはポイントごとの CTR モデルは、監督の希薄さ、非構造化 CRM ログのセマンティック ギャップ、相対的なリードの優先度を把握できないなどの深刻な課題に直面しています。大規模言語モデル (LLM) は顧客との対話の優れた意味的理解を提供しますが、汎用 LLM はリードのランキングには適していません。比較可能なスコアではなくテキストを生成し、セールス ファネルの階層的な優先順位との整合性が欠けています。セールスリードスコアリングのための LLM ベースの識別フレームワークを導入します。これは、構造化された CRM 機能と非構造化された顧客インタラクションの共同モデリングをサポートします。このフレームワークに加えて、HPRO (階層的嗜好ランキング最適化) を提案します。これは、階層的な嗜好ランキングの目標によってセールス リードのスコアリングを強化します。 HPRO は、マージンを意識した Bradley-Terry 定式化を採用して、まばらなバイナリ ラベルを高密度でファネルを意識したプリファレンス ペアに変換し、ポイント単位とペア単位の両方の監視を活用したリード スコアリングを可能にします。大手NEVブランドからの大規模データを用いた実験では、最先端の分類(AUC 0.8161)とランキングパフォーマンス(トップランクのリード間で精度+39.7%)が実証されました。 132 日間のオンライン A/B テストにより、販売量が 9.5% 増加したことが検証され、現実世界の商業的影響が確認されました。
原文 (English)
Rethinking Sales Lead Scoring with LLM-based Hierarchical Preference Ranking
Sales lead conversion in high-stakes domains (e.g., automotive, real estate) differs fundamentally from e-commerce recommendation due to prolonged decision cycles and multi-stage funnels. Traditional lead scoring methods rule-based scorecards, machine learning, or pointwise CTR models face severe challenges: sparse supervision, a semantic gap in unstructured CRM logs, and inability to capture relative lead priority. While Large Language Models(LLMs) offer superior semantic understanding of customer interactions, general-purpose LLMs are ill-suited for lead ranking: they generate text rather than comparable scores, and lack alignment with the hierarchical priorities of sales funnels. We introduce an LLM-based discriminative framework for sales lead scoring, which supports joint modeling of structured CRM features and unstructured customer interactions. On top of this framework, we propose HPRO (Hierarchical Preference Ranking Optimization), which augments sales lead scoring with a hierarchical preference ranking objective. HPRO employs a margin-aware Bradley-Terry formulation to transform sparse binary labels into dense, funnel-aware preference pairs, enabling lead scoring to leverage both pointwise and pairwise supervision. Experiments on large-scale data from a leading NEV brand demonstrate state-of-the-art classification (AUC 0.8161) and ranking performance (+39.7% precision among top-ranked leads). A 132-day online A/B test validates 9.5% sales volume uplift, confirming real-world commercial impact.
即時注射が忘れられなかったらどうなるでしょうか?エージェントシステムでのクロスセッションストアドプロンプトインジェクションの探索
最新のエージェント システムは、LLM をセッション限定のアシスタントからステートフル システムに変換します。ステートフル システムは、メモリ、ファイル システム、ツール、およびその他の長期間存続するコンテキスト アーティファクトを通じて、セッション間で共有世界状態を永続化および進化させます。この変化により、プロンプト インジェクションの攻撃対象領域が根本的に拡大します。しかし、プロンプト インジェクションに関するこれまでの研究は主に単一セッション内のモデル レベルの脅威に焦点を当てており、セッション間の永続的なシステム状態がエージェント システムのシステム レベルのリスクをどのように根本的に変化させるかを見落としていました。 Web システムのストアド クロスサイト スクリプティングにヒントを得て、クロスセッション ストアド プロンプト インジェクションを導入しました。これにより、成功したインジェクションはエージェント システム状態内で持続し、元の攻撃者による対話が終了した後も長期間にわたって将来の実行に静かに影響を与えることができます。この脅威を体系的に研究するために、ストアド プロンプト インジェクションを形式化し、敵対的なコンテンツがどのようにセッション間で持続し、エージェント システムに影響を与えるかの分類を開発します。さらに、ストアド プロンプト インジェクションのリスクを評価するためのベンチマークとサンドボックス ツールキットを開発し、さまざまなモデル、攻撃目標、永続化チャネルにわたる攻撃の成功の定量的分析を可能にします。私たちの調査結果は、永続化により、プロンプト インジェクションが一時的なモデル レベルの脅威から、エージェントの実行状態に組み込まれた長期にわたるシステム レベルの脆弱性に変化することが強調されています。私たちは、この取り組みがこの新たな脅威に対する幅広い注目を集め、コミュニティがエージェント システムの存続によって生じるシステム リスクを体系的に調査して軽減するよう促すことを願っています。
原文 (English)
What If Prompt Injection Never Left? Exploring Cross-Session Stored Prompt Injection in Agentic Systems
Modern agentic systems transform LLMs from session-bounded assistants into stateful systems that persist and evolve shared world state across sessions through memories, filesystems, tools, and other long-lived contextual artifacts. This shift fundamentally expands the attack surface of prompt injection. However, prior works on prompt injection have largely focused on model-level threats within a single session, overlooking how cross-session persistent system state fundamentally changes the system-level risk of agentic systems. Inspired by stored cross-site scripting in web systems, we introduce cross-session stored prompt injection, where a successful injection can persist within agentic system state and silently influence future executions long after the original attacker interaction has ended. To systematically study this threat, we formalize stored prompt injection and develop a taxonomy of how adversarial content persists and affects agentic systems across sessions. We further develop a benchmark and sandbox toolkit to evaluate the risks of stored prompt injection, enabling quantitative analysis of attack success across different models, attack goals, and persistence channels. Our findings highlight that persistence transforms prompt injection from an ephemeral model-level threat into a long-lived system-level vulnerability embedded within agent execution state. We hope this work draws broader attention to this emerging threat and motivates the community to systematically study and mitigate system risks arising from persistence in agentic systems.
MemoryDocDataSet: 共同会話記憶と長い文書推論のベンチマーク
AI システムでは、複数セッションの会話履歴のナビゲートと、長い文書内の深い読解の実行という 2 つの要求の厳しい機能を組み合わせる必要がますます高まっています。しかし、両方を同時に評価する既存のベンチマークはありません。 50 のマイクロワールドと 1,000 の QA ペアの合成ベンチマークである MemoryDocDataSet を紹介します。各インスタンスは 3 ~ 5 人のペルソナ、数か月にわたるアクティビティにわたる時間イベント グラフ、3 ~ 5 の実際の長い文書 (それぞれ Caselaw Access Project から調達された 20,000 ~ 50,000 のトークン)、それらの文書に基づくマルチセッションの会話、および 5 つの推論カテゴリにわたる 20 の質問と回答のペアで構成されます。特徴的な機能はハイブリッド ソース タグです。質問では、システムが最初に会話履歴をナビゲートして関連する文書を特定し、次にその文書内から回答を抽出する必要があります。ハイブリッド質問はデータセットの 75.1% を占めます。データセットの品質は、LLM を判定として使用するプロンプト感度自己一貫性分析によって特徴付けられ、50 のミクロ世界すべてで中央値のコーエンの $\kappa = 0.634$ が得られます。トランケートされたコンテキスト、ロングコンテキスト LLM、検索拡張世代 (RAG)、およびメモリ システムにわたる 6 つのベースライン構成を評価します。最良のベースライン (RAG-両方) は、F1 全体で 0.358、ハイブリッドで 0.342 を達成します。文書のみの検索 (RAG-Doc) は、文書のみの質問で 0.453 を達成したにもかかわらず、ハイブリッドでは 0.267 に落ち込んでいます。これは、共同検索の明らかなギャップを示しており、これが会話の記憶と長い文書のナビゲーションを統合するアーキテクチャを動機づけています。データセット、生成パイプライン、およびすべてのベースライン実装をリリースします。
原文 (English)
MemoryDocDataSet: A Benchmark for Joint Conversational Memory and Long Document Reasoning
AI systems increasingly need to combine two demanding capabilities: navigating multi-session conversation history and performing deep reading comprehension within long documents. Yet no existing benchmark evaluates both simultaneously. We introduce MemoryDocDataSet, a synthetic benchmark of 50 micro-worlds and 1,000 QA pairs in which each instance comprises 3-5 personas, a temporal event graph spanning months of activity, 3-5 real long documents (20,000-50,000 tokens each sourced from the Caselaw Access Project), multi-session conversations grounded on those documents, and 20 question-answer pairs across five reasoning categories. The defining feature is the Hybrid source tag: questions requiring a system to first navigate conversation history to identify which document is relevant, then extract the answer from within that document. Hybrid questions account for 75.1% of the dataset. Dataset quality is characterised through a prompt-sensitivity self-consistency analysis using LLM-as-judge, yielding a median Cohen's $\kappa = 0.634$ across all 50 micro-worlds. We evaluate six baseline configurations spanning truncated context, long-context LLMs, retrieval-augmented generation (RAG), and memory systems. The best baseline (RAG-Both) achieves 0.358 overall F1 and 0.342 on Hybrid. Document-only retrieval (RAG-Doc) collapses to 0.267 on Hybrid despite achieving 0.453 on Doc-only questions, demonstrating a clear joint-retrieval gap that motivates architectures unifying conversational memory with long-document navigation. We release the dataset, generation pipeline, and all baseline implementations.
トークンランキングは偽造不可能な言語モデル署名です
言語モデルのパラメータは、ロジット出力に(各モデルに)一意の幾何学的制約を課すことが知られており、これはモデルを識別する署名として機能しますが、API がロジットを配布するときにモデルの最終層パラメータも漏洩します。私たちは、トークンのランキング (確率値ではなく、確率による順序付け) を公開する、より制限的な API を調査し、ランキングも署名を構成することを発見しました。すべてのモデルは、十分な規模の $k$ に対して実行可能な上位 $k$ ランキングの独自のセットを持っています。さらに、同じ実行可能なランキングのセットを持つモデルを見つけることは NP 困難であるため、ランキング署名は最初に知られている (多項式的に) 偽造不可能な署名です。セキュリティの面では、ロジットと同様に、トークンのランキングがすでにモデルの最終層をほぼ盗むのに十分であることがわかりました。ただし、近似が粗すぎて署名を偽造できず、API を十分に小さい $k$ の上位 $k$ トークンに制限することで効果的に対抗できます。モデル署名を提示するために必要な $k$ は一般に、盗用を防ぐために必要な $k$ よりも小さいため、API はモデル パラメーターを漏らすことなく偽造不可能な署名を提示することが可能です。
原文 (English)
Token Rankings are Unforgeable Language Model Signatures
Language model parameters are known to impose unique (to each model) geometric constraints on their logit outputs, which serves as a signature that identifies the model, but also leaks the model's final layer parameters when an API distributes logits. We investigate more restrictive APIs that expose token rankings (i.e., their ordering by probability, but not the probability values) and find that rankings also constitute a signature: every model has a unique set of feasible top-$k$ rankings for sufficiently large $k$. Furthermore, the ranking signature is the first known (polynomially) unforgeable signature, since finding a model with the same set of feasible rankings is NP-hard. On the security front, we find that token rankings are already sufficient to approximately steal the final layer of the model, similar to logits, though the approximation is too coarse to forge the signature, and can be effectively countered by restricting the API to top-$k$ tokens with sufficiently small $k$. Since the top-$k$ required to present the model signature is generally smaller than the $k$ required to prevent stealing, it is possible for an API to present an unforgeable signature without leaking model parameters.
SePO: システム プロンプト最適化のための自己進化型プロンプト エージェント
システム プロンプトの最適化により、基礎となるモデルを変更することなくエージェントの動作が改善され、人間が判読できる、モデルに依存しない命令が生成されます。既存の方法では、タスク エージェントのシステム プロンプトを改良するプロンプト エージェントを構築しますが、プロンプト エージェント独自のシステム プロンプトは手動で設計および修正されたままになります。我々は、プロンプト エージェント自身のシステム プロンプトをタスク エージェントのシステム プロンプトと並んで最適化ターゲットとして扱う自己進化型プロンプト最適化 (SePO) を提案します。 SePO は自己参照設計を採用しています。単一のプロンプト エージェントは、候補プロンプトのアーカイブを踏み台として維持するオープンエンドの進化的探索の下で、タスク エージェントのシステム プロンプトとそれ自身のプロンプトの両方を改善します。トレーニングは 2 つの段階で進行します。事前トレーニングではマルチタスク プール上でプロンプト エージェントを進化させ、その後、微調整によってそれをターゲット タスクに適用します。数学 (AIME'25)、抽象推論 (ARC-AGI-1)、大学院レベルの科学 (GPQA)、コード生成 (MBPP)、および論理パズル (数独) にわたる 5 つのベンチマークにわたって、SePO は一貫して Manual-CoT、TextGrad、および MetaSPO を上回り、Manual-CoT と比較して平均精度が 4.49 ポイント向上しました。事前トレーニングによるプロンプト最適化スキルは、タスクごとのプロンプトを記憶するのではなく、事前トレーニング混合物を超えたタスクにも一般化されます。
原文 (English)
SePO: Self-Evolving Prompt Agent for System Prompt Optimization
System prompt optimization improves agent behavior without modifying the underlying model, yielding human-readable, model-agnostic instructions. Existing methods build a prompt agent that refines task agents' system prompts, yet leave the prompt agent's own system prompt hand-engineered and fixed. We propose Self-Evolving Prompt Optimization (SePO), which treats the prompt agent's own system prompt as an optimization target alongside task agents' system prompts. SePO adopts a self-referential design. A single prompt agent improves both task agents' system prompts and its own under an open-ended evolutionary search that maintains an archive of candidate prompts as stepping stones. Training proceeds in two stages: pre-training evolves the prompt agent on a multi-task pool, and fine-tuning then applies it to a target task. Across five benchmarks spanning math (AIME'25), abstract reasoning (ARC-AGI-1), graduate-level science (GPQA), code generation (MBPP), and logic puzzles (Sudoku), SePO consistently outperforms Manual-CoT, TextGrad, and MetaSPO, improving the average accuracy by 4.49 points compared to Manual-CoT. The prompt optimization skill from pre-training also generalizes to tasks beyond the pre-training mixture, rather than memorizing per-task prompts.
ビジュアルテキスト生成における推論の忠実度の評価
最近の Text-to-Image (T2I) モデルは、画像内で非常に読みやすく、適切に構造化されたテキストをレンダリングできるため、ドキュメント生成やスライド生成などのアプリケーションが可能になります。しかし、複雑な解決策をレンダリングされたテキストを通じて直接表現しなければならない場合に、そのようなシステムが推論能力を忠実に保持しているのか、それとも単に表面レベルのパターンを模倣しているだけなのかは不明のままです。モデルは完全な推論プロセスを画像として表現する必要があるビジュアル テキスト生成における推論の忠実度を評価することで、この問題を調査します。私たちの評価には、長いテキストのレンダリング、事実知識の調査、文脈の理解、および複数ステップの推論が含まれます。これらの設定全体にわたって、現在の T2I モデルでは、レンダリングされたテキストが視覚的に明確に見える場合でも、セマンティック エラー、論理的矛盾、不正確な中間ステップが頻繁に発生することがわかりました。これらの失敗は、同じタスクに対するテキストのみのモデルの強力な推論パフォーマンスとは対照的です。私たちの調査結果は、ビジュアルテキスト生成と手続き型推論の間に大きなギャップがあることを明らかにし、より信頼性の高いビジュアルテキスト推論を動機付けています。
原文 (English)
Evaluating Reasoning Fidelity in Visual Text Generation
Recent text-to-image (T2I) models can render highly legible and well-structured text within images, enabling applications including document generation and slide generation. However, it remains unclear whether such systems faithfully preserve reasoning ability when complex solutions must be expressed directly through rendered text, or whether they merely imitate surface-level patterns. We investigate this question by evaluating reasoning fidelity in visual text generation, where models must express complete reasoning processes as images. Our evaluation includes long text rendering, factual knowledge probing, context understanding, and multi-step reasoning. Across these settings, we find that current T2I models frequently produce semantic errors, logical inconsistencies, and incorrect intermediate steps, even when the rendered text appears visually clear. These failures contrast with the strong reasoning performance of text-only models on the same tasks. Our findings reveal a substantial gap between visual text generation and procedural reasoning, motivating more reliable visual text reasoning.
共同生成と評価による自己進化する深層研究
大規模言語モデル (LLM) は日常のアプリケーションでますます採用されるようになり、詳細な研究が特に重要な機能として際立っています。従来の質問応答 (QA) タスクとは異なり、詳細な調査レポートの生成には決定的な根拠が欠けているため、報酬設計が本質的に検証不可能になり、効果的な強化学習が制限されます。既存のアプローチでは、LLM-as-a-judge およびクエリ依存の評価ルーブリックを使用してこの課題を軽減していますが、依然として静的な評価器に依存しているため、ソルバーの向上に応じて標準を適応させることができず、最適化圧力が不十分になり、最終的に飽和状態になってしまいます。私たちは、\textbf{s}elf 進化型 \textbf{co} 進化型トレーニング フレームワークで、深い \textbf{re} 検索の評価と生成 (SCORE) を使用してこの制限に対処します。これは、共有パラメータ学習プロセスにおいて評価器とソルバーを緊密に結合します。生成と評価を独立したモジュールとして扱うのではなく、それらの本質的なつながりを活用して、単一の共有パラメーター モデル内で共同の改善を可能にします。このプロセスを制限するために、ソルバーのパフォーマンスに基づいて評価環境を動的に制御するメタハーネスを導入し、有効な評価次元と十分に深い評価者の検索を促進します。ディープリサーチベンチマークに関する広範な実験により、レポート生成の品質が一貫して向上していることが実証されており、評価と生成を共進化させることが、オープンエンドのリサーチエージェントをトレーニングするための有望な方向性であることが示されています。
原文 (English)
Self-Evolving Deep Research via Joint Generation and Evaluation
Large Language Models (LLMs) have become increasingly adopted in daily applications, with deep research standing out as a particularly important capability. Unlike traditional question-answering (QA) tasks, deep research report generation lacks definitive ground-truth, making reward design inherently unverifiable and limiting effective reinforcement learning. Existing approaches mitigate this challenge with LLM-as-a-judge and query-dependent evaluation rubrics, but they still rely on static evaluators that cannot adapt their standards as the solver improves, leading to insufficient and eventually saturated optimization pressure. We address this limitation with a \textbf{s}elf-evolving \textbf{co}-evolutionary training framework for deep \textbf{re}search evaluation and generation (SCORE), which tightly couples an evaluator and a solver in a shared-parameter learning process. Rather than treating generation and evaluation as isolated modules, we leverage their intrinsic connection to enable joint improvement within a single shared-parameter model. To restrict this process, we introduce a meta-harness, which dynamically controls the evaluation environment based on solver performance, encouraging valid evaluation dimensions and sufficiently deep evaluator search. Extensive experiments on deep research benchmarks demonstrate consistent improvement in report generation quality, showing that co-evolving evaluation and generation is a promising direction for training open-ended research agents.
GeoMin: 幾何分布モデリングによるデータ効率の高い半教師あり RLVR
検証可能な報酬を伴う強化学習 (RLVR) は LLM 推論を大幅に進歩させますが、ジレンマに直面しています。標準的な教師ありスケーリングは高いアノテーション コストによって抑制される一方、教師なしの代替案は深刻なモデル崩壊に悩まされます。最近の半教師あり RLVR 手法は、小さなラベル付きセットを使用してラベルなしデータをガイドすることでこの問題に対処し、トレーニングの有効性とアノテーション コストの間で有望なトレードオフを実現しています。ただし、粗いパフォーマンスのヒューリスティックに依存するため、データ効率の深刻なボトルネックに悩まされており、貴重なインスタンスの大部分が十分に活用されていません。この目的を達成するために、ラベル付きデータのグローバルな特徴分布をモデル化して正しいロールアウトと間違ったロールアウトの間の構造的不一致を解読する GeoMin を提案します。これにより、自己報酬信号の信頼性を評価し、ラベルなしデータの可能性を完全に引き出すための堅牢な事前検証を確立します。経験的に、GeoMin は最も強力なベースラインを +4.1% 上回るパフォーマンスを示し、注釈が 10% しかない完全教師モデルをも上回り、顕著なデータ効率を示しています。
原文 (English)
GeoMin: Data-Efficient Semi-Supervised RLVR via Geometric Distribution Modeling
Reinforcement learning with verifiable rewards (RLVR) significantly advances LLM reasoning, yet it faces a dilemma: standard supervised scaling is throttled by high annotation costs, while unsupervised alternatives suffer from severe model collapse. Recent semi-supervised RLVR methods address this by using a small labeled set to guide unlabeled data, achieving a promising trade-off between training efficacy and annotation cost. However, they suffer from a severe data-efficiency bottleneck due to the reliance on coarse performance heuristics, leaving a vast majority of valuable instances underutilized. To this end, we propose GeoMin, which models global feature distributions on labeled data to decode the structural discrepancy between correct and incorrect rollouts, thereby establishing a robust prior to assess the reliability of self-reward signals and fully unleash the potential of unlabeled data. Empirically, GeoMin outperforms the strongest baselines by +4.1% and even surpasses fully supervised models with only 10% of the annotations, demonstrating remarkable data efficiency.
拡散大規模言語モデルにおける形式に制約された生成のための動的埋め込みアンカー
拡散大規模言語モデル (dLLM) は、双方向の注意と並列生成を提供し、グローバル コンテキストを活用して、解析可能な JSON や推論テンプレートなどの形式に制約のあるタスクを自然にサポートできるようにします。単純な固定アンカーはそのような制約を強制できますが、多くの場合、厳密なスパンを課すため、推論が切り詰められたり、コンテンツが冗長になったりします。これを克服するために、反復埋め込みの前にエンドアンカーの位置を動的に推定して生成長を調整する、トレーニング不要の方法である動的埋め込みアンカー (DIA) を提案します。この柔軟なメカニズムにより、構造の正確さと意味の一貫性が確保され、固定スパン方式の非効率性が回避されます。推論ベンチマークの実験では、DIA がフォーマットへの準拠性と回答精度を大幅に向上させ、GSM8K と MATH で大幅なゼロショット ゲインを達成することが実証されました。これらの結果は、DIA が信頼性の高い、構造を意識した生成に向けた強力な経路として確立されています。
原文 (English)
Dynamic Infilling Anchors for Format-Constrained Generation in Diffusion Large Language Models
Diffusion large language models (dLLMs) offer bidirectional attention and parallel generation, enabling them to exploit global context and naturally support format-constrained tasks like parseable JSON or reasoning templates. While straightforward fixed anchors can enforce such constraints, they often impose rigid spans, leading to truncated reasoning or redundant content. To overcome this, we propose Dynamic Infilling Anchors (DIA), a training-free method that dynamically estimates end-anchor positions to adjust generation length before iterative infilling. This flexible mechanism ensures structural correctness and semantic coherence, avoiding the inefficiencies of fixed-span methods. Experiments on reasoning benchmarks demonstrate that DIA substantially improves format compliance and answer accuracy, achieving significant zero-shot gains on GSM8K and MATH. These results establish DIA as a robust pathway toward reliable, structure-aware generation.
エージェントの記憶にとって時間的順序は重要: 長期エージェントのセグメント ツリー
長期的な会話型エージェントは、進化するイベント、タスク、目標を通じてユーザーと対話する必要があります。このような歴史は本来一時的なものですが、多くの既存の記憶システムは主にトピックの類似性によって情報を整理しており、イベントが発生する順序を無視している可能性があります。発話全体にわたって時間的に順序付けられたセグメント ツリーとして会話履歴を表すメモリ アーキテクチャであるセグメント ツリー メモリ (SegTreeMem) を導入します。 SegTreeMem は、オンラインの右端フロンティア更新ルールを通じて新しい発話を段階的に挿入し、階層的なメモリ セグメントを形成しながら時系列順を維持します。取得の場合、SegTreeMem はツリーを通じて関連性スコアを伝播し、ローカルな意味論的な一致と階層的な時間コンテキストを組み合わせます。 SegTreeMem は、3 つの長期メモリ ベンチマークと 2 つの LLM バックボーンにわたって、フラット検索、グラフ構造メモリ、およびツリー構造メモリ ベースラインよりも回答品質を向上させます。追加の時間順序順列分析では、パフォーマンスの向上が記憶構築中の時間順序の維持に依存することが示され、時間順序がエージェント記憶の重要な構造であるという主張が裏付けられています。
原文 (English)
Temporal Order Matters for Agentic Memory: Segment Trees for Long-Horizon Agents
Long-horizon conversational agents need to interact with users through evolving events, tasks, and goals. Such histories are naturally temporal, yet many existing memory systems organize information primarily by topical similarity and may ignore the order in which events occur. We introduce Segment Tree Memory, or SegTreeMem, a memory architecture that represents conversation history as a temporally ordered Segment Tree over utterances. SegTreeMem incrementally inserts new utterances through an online rightmost-frontier update rule, preserving chronological order while forming hierarchical memory segments. For retrieval, SegTreeMem propagates relevance scores through the tree to combine local semantic matching with hierarchical temporal context. Across three long-horizon memory benchmarks and two LLM backbones, SegTreeMem improves answer quality over flat retrieval, graph-structured memory, and tree-structured memory baselines. Additional temporal-order permutation analysis shows that the performance gain depends on preserving temporal order during memory construction, supporting the claim that temporal order is a key structure for agentic memory.
GRPO 向けのロールアウト レベルのアドバンテージ優先エクスペリエンス リプレイ
GRPO を使用した検証可能な報酬からの強化学習は、トレーニング後の推論 LLM の標準的なアプローチです。サンプルの効率が悪いままです。各ロールアウトは 1 つのグラデーション更新に使用され、その後破棄されます。 LLM ポリシーが勾配ステップごとに急速に変化するため、単純な再生はこの設定にはあまり適していません。したがって、保存されたロールアウトは古くなり、トレーニングが不安定になる可能性があります。グループ全体ではなく個々のロールアウトを保存およびサンプリングする、GRPO のロールアウト レベルのリプレイ バッファーを提案します。バッファーは、age eviction を通じて古い状態を制限します。 tau_max トレーニング ステップよりも古いロールアウトは削除されます。バッファには、フレッシュアンカー構成を介してポリシー上のデータも保存されます。各バッチは、ポリシーに基づいた最新のロールアウトを保持し、バッファから個別に描画されたリプレイ ロールアウトを連結します。ロールアウトごとのアドバンテージの大きさによってリプレイに優先順位を付け、アドバンテージが大きい個々のロールアウトをリサイクルします。 5 つの数学ベンチマークにおける 3 つの Qwen3-Base スケール全体で、私たちの手法は GRPO および単純な再生ベースラインを上回りました。ゲインはどのスケールでも正であり、モデルのサイズに応じて増加します。最大の利益は 4B の 5 つのベンチマーク平均で +4.35 pp です。精度とトークン効率を組み合わせて測定する AES メトリクスの下では、GRPO に対する効率マージンは、+0.579 で 4B と再び最大になります。
原文 (English)
Rollout-Level Advantage-Prioritized Experience Replay for GRPO
Reinforcement learning from verifiable rewards with GRPO is a standard approach for post-training reasoning LLMs. It remains sample inefficient. Each rollout is used for a single gradient update and then discarded. Naive replay is not well suited in this setting because LLM policies drift quickly per gradient step. Stored rollouts therefore become stale and can destabilize training. We propose a rollout-level replay buffer for GRPO that stores and samples individual rollouts rather than whole groups. The buffer bounds staleness through age eviction. Any rollout older than tau_max training steps is removed. The buffer also preserves on-policy data via fresh-anchored composition. Each batch keeps its fresh on-policy rollouts and then concatenates replay rollouts drawn separately from the buffer. We prioritize replay by per-rollout advantage magnitude and recycle individual rollouts whose advantages are large. Across three Qwen3-Base scales on five math benchmarks, our method outperforms GRPO and naive replay baselines. Gains are positive at every scale and grow with model size. The largest gain is +4.35 pp on the five-benchmark average at 4B. Under an AES metric that jointly measures accuracy and token efficiency, the efficiency margin over GRPO is again largest at 4B, at +0.579.
マルチ SPIN: エッジでの協調トークン生成のためのマルチアクセス投機推論
投機的推論 (SPIN) は、もともと大規模言語モデル (LLM) を高速化するための効率的なアーキテクチャとして開発されました。この研究では、マルチユーザー エッジ システムでの協調的なトークン生成を可能にする分散展開を提案します。その利点は、リソースに制約のあるデバイスとサーバーの間で計算負荷のバランスを効果的にとれることです。マルチアクセス SPIN (Multi-SPIN) と呼ばれる結果として得られるアーキテクチャは、オンデバイスの小型言語モデルを利用して候補トークン ドラフトを生成およびアップロードする一方、エッジ サーバーは LLM を操作してそれらを並列バッチで検証します。ユーザーの計算能力と通信能力に深刻な不均一性があることを考慮すると、ドラフト長はノードレベルの計算負荷とマルチアクセス待ち時間に影響を与える重要な制御変数として浮上し、それによって合計トークンのグッドプットを支配します。したがって、周波数分割多元接続を考慮して、合計トークン グッドプットを最大化するための、ドラフト長制御と帯域幅割り当ての共同最適化であるマルチアクセス ドラフト制御の問題を調査します。ここでは 2 つのケースを検討します。(1) サーバー側のバッチ処理を容易にするためにユーザー間で均一なドラフト長を使用する場合と、(2) グッドプットを強化するための新しい次元を導入するために異種のドラフト長を使用する場合です。分解手法を開発することで、これらの複雑な最適化を扱いやすい部分問題に縮小し、閉じた形式で効率的な喫水制御アルゴリズムを導出できるようにします。私たちの分析によると、最適な帯域幅の割り当ては、同種の場合にはバッチ同期要件により弱い計算能力と通信能力を持つユーザーを補うのに対し、異種の場合はそのような要件を緩和することでユーザーの受け入れ率を高めることができます。さまざまなタスクにわたって Llama-2 と Qwen3.5 モデルのペアを使用した実験では、Multi-SPIN が異質性を問わないベースラインと比較してグッドプットを最大 88% 向上させることが実証されました。
原文 (English)
Multi-SPIN: Multi-Access Speculative Inference for Cooperative Token Generation at the Edge
Speculative inference (SPIN) was originally developed as an efficient architecture to accelerate Large Language Models (LLMs). In this work, we propose its distributed deployment to enable cooperative token generation in a multiuser edge system; its advantage is to effectively balance computational loads between resource-constrained devices and servers. The resulting architecture, termed Multi-access SPIN (Multi-SPIN), utilizes on-device small language models to generate and upload candidate token drafts, while an edge server operates the LLM to verify them in parallel batches. Given the severe heterogeneity in users' computation and communication capabilities, the draft length emerges as a critical control variable that influences node-level computation loads and multi-access latency, thereby governing the sum token goodput. Consequently, considering frequency-division multiple access, we investigate the problem of multi-access draft control, a joint optimization of draft-length control and bandwidth allocation to maximize sum token goodput. We examine two cases: (1) homogeneous draft lengths across users to facilitate server-side batching, and (2) heterogeneous draft lengths to introduce a new dimension for goodput enhancement. By developing decomposition methods, we reduce these complex optimizations into tractable sub-problems, which allow efficient draft control algorithms to be derived in closed form. Our analysis shows that the optimal bandwidth allocation compensates users with weaker computation-and-communication capabilities in the homogeneous case due to the batching synchronization requirements, whereas its heterogeneous-case counterpart rewards users with higher acceptance rates by relaxing such requirements. Experiments using Llama-2 and Qwen3.5 model pairs across diverse tasks demonstrate that Multi-SPIN improves goodput by up to 88% over heterogeneity-agnostic baselines.
合成パーソナリティ: LLM は社会経済的マイクロデータを使用して個々の回答者をどの程度うまく模倣できるか?
LLM ベースのデジタル ツインは、市場調査の拡張と加速を約束しますが、公開されているデジタル ツインのほとんどは、人口統計に関するいくつかの質問に基づいて条件付けされた大まかなペルソナ ボットか、目的のために収集されたアンケートやインタビュー記録に基づいて構築された詳細な個人レベルのツインのいずれかです。どちらの設定も、マーケティング実践に運用上最も関連性の高い事例、つまり企業が CRM システム、ロイヤリティ プログラム、および反復調査を通じてすでに蓄積している既存の異種パネル データから詳細な個別の双子を構築することについては話していません。私たちは、ドイツ社会経済パネル (SOEP) から詳細な個人レベルの双子を構築し、3 つのオープンウェイト LLM、正規化されたシャノン エントロピーによってランク付けされた 5 つの累積情報深さ、2 つの埋め込み手法、および 2 つの推論モードをカバーする $3 \times 5 \times 2 \times 2$ 構築方法グリッド全体で評価し、500 人の参加者と 183 の保留された質問に対する 210 万を超える双子の回答をスコアリングしました。ツインの品質は情報の深さに応じて向上しますが、エントロピー四分位 75 パーセントを超えると収益が減少します。エントロピー四分位は、最もパフォーマンスの高い 100 パーセントのセルと比較したコスト効率の高いパレート点として機能します。埋め込みをナラティブなペルソナの概要から過去の応答の生の対話履歴に切り替えると、100% の深さですべてのモデルごとの推論セルのホールドアウト精度が向上します。一方、明示的思考モードでは精度を変えることなく順位相関が向上します。 SOEP ホールドアウト評価セットでは、最良セル精度は 78.8% に達し、Fisher-$z$ 相関は $r = 0.590$ に達します。この調査結果は、ツインベースの市場調査がもはやデータ設計によって制御されているのではなく、アイテムのボリューム、モデルの選択、およびこの論文でマッピングされている建設レベルの少数の決定によって制御されていることを示唆しています。
原文 (English)
Synthetic Personalities: How Well Can LLMs Mimic Individual Respondents Using Socio-Economic Microdata?
LLM-based digital twins promise to scale and accelerate market research, but most published twins are either coarse persona bots conditioned on a few demographic questions or detailed individual-level twins built on purpose-collected surveys and interview transcripts. Neither setup speaks to the operationally most relevant case for marketing practice: building detailed individual twins from the pre-existing heterogeneous panel data that firms already accumulate through CRM systems, loyalty programs, and repeat surveys. We construct detailed individual-level twins from the German Socio-Economic Panel (SOEP) and evaluate them across a $3 \times 5 \times 2 \times 2$ construction-method grid that covers three open-weights LLMs, five cumulative information depths ranked by normalized Shannon entropy, two embedding methods, and two reasoning modes, scoring over 2.1 million twin responses on 500 participants and 183 held-out questions. Twin quality rises with information depth but with diminishing returns past the 75 percent entropy quartile, which acts as a cost-efficient Pareto point relative to the best-performing 100 percent cells. Switching the embedding from a narrative persona summary to a raw dialog history of past responses raises hold-out accuracy in every model-by-reasoning cell at the 100 percent depth, while an explicit thinking mode raises rank-order correlation without moving accuracy. Best-cell accuracy reaches 78.8 percent and Fisher-$z$ correlation reaches $r = 0.590$ on the SOEP held-out evaluation set. The findings suggest that twin-based market research is no longer gated by data design, but by item volume, model selection, and a small set of construction-level decisions that this paper now maps.
Ekka: LLM 推論におけるサイレント エラーの自動診断
LLM サービス フレームワークは、複雑なソフトウェア スタックと膨大な数の最適化によって急速に進化しています。急速な開発プロセスでは、明示的なエラー信号がないまま出力品質が静かに低下するサイレント エラーが発生する可能性があります。高レベルの症状と低レベルの根本原因の間には意味上の大きなギャップがあるため、サイレント エラーの診断は難しいことで知られています。意味的に正しい参照実装の存在を活用することで、サイレント エラーの診断を差分デバッグ問題として効果的に組み立てることができることがわかりました。私たちは、ターゲット フレームワークと参照フレームワークの間の中間実行状態を体系的に調整して比較することにより、根本原因を特定する自動診断システム Ekka を提案します。一般的なサービス提供フレームワークから実際のサイレント エラーのベンチマークを構築しました。Ekka は、pass@1 診断精度が 80%、pass@5 診断精度が 88% で、最先端のシステムを上回るパフォーマンスを示しました。 Ekka は、サービス提供フレームワークからの 4 つの新しいサイレント エラーも診断します。これらはすべて開発者によって確認されています。
原文 (English)
Ekka: Automated Diagnosis of Silent Errors in LLM Inference
LLM serving frameworks are quickly evolving with a complex software stack and a vast number of optimizations. The rapid development process can introduce silent errors where output quality silently degrades without any explicit error signals. Diagnosing silent errors is notoriously difficult due to the substantial semantic gap between the high-level symptoms and the low-level root causes. We observe that diagnosis of silent errors can be effectively framed as a differential debugging problem by leveraging the existence of semantically correct reference implementations. We propose Ekka, an automated diagnosis system that identifies root causes by systematically aligning and comparing intermediate execution states between a target and a reference framework. We constructed a benchmark of real-world silent errors from popular serving frameworks, where Ekka shows 80% pass@1 diagnosis accuracy and 88% pass@5 diagnosis accuracy, outperforming state-of-the-art systems. Ekka also diagnoses 4 new silent errors from serving frameworks, all of which have been confirmed by the developers.
QuBLAST: ブロックレベルの圧縮アプローチとアクティベーション スケーリング戦略を使用して大規模な言語モデルを量子化するためのフレームワーク
LLM は、NLP タスクを解決するための最先端のアルゴリズムになりました。ただし、これらは通常、膨大な計算コストとメモリコストがかかるため、組み込みシステムへの導入が困難になります。これに向けて、最先端の方法では通常、ネットワークのアテンション ブロック全体で均一なポストトレーニング量子化 (PTQ) が採用されており、そのため、同じネットワーク内で異なる量子化レベルを適用する可能性を見落としています。また、アクティベーションの異常値による悪影響を軽減するために複雑な操作を採用しているため、高い計算オーバーヘッドが発生します。さらに、量子化を適用する際に異なる課題を引き起こす、従来とは異なるアテンション アーキテクチャ (状態空間モデルなど) を備えた新興 LLM を使用した評価については考慮されていません。これらの制限に対処するために、LLM のアクティベーション スケーリング戦略を備えたブロック レベルの圧縮アプローチを採用する新しい PTQ 手法である QuBLAST を提案します。ブロックレベルの圧縮アプローチにより、ネットワークのブロック全体で混合精度の量子化が可能になり、同時にアクティベーションスケーリング戦略によりアクティベーション異常値の悪影響が効率的に軽減されます。具体的には、QuBLAST はまず、クロスエントロピー損失分析を通じて、事前トレーニング済みモデル内のさまざまなアテンション ブロックの感度を分析します。 QuBLAST は、この感度分析を活用して、モデル内の各アテンション ブロックの重み量子化レベルを決定します。さらに、QuBLAST は各ブロックのアクティベーション スケーリング マップを採用してアクティベーション値の範囲を制御し、アクティベーション外れ値の悪影響を軽減することで、より良い量子化結果を実現します。実験結果は、QuBLAST が、WikiText-2 および WikiText-103 データセットのパープレキシティ増加 5% 以内のパフォーマンスを維持しながら、さまざまなモデル アーキテクチャ (つまり、Qwen3-8B、Llama3-8B、Mistral v0.1-8B、および Falcon H1R-7B) にわたってモデル サイズを 40% ~ 45.2% 削減することを示しています。
原文 (English)
QuBLAST: A Framework for Quantizing Large Language Models with Block-Level Compression Approach and Activation Scaling Strategy
LLMs have become the state-of-the-art algorithms for solving NLP tasks. However, they typically come at huge computational and memory costs, thus making them difficult to deploy on embedded systems. Toward this, state-of-the-art methods typically employ uniform post-training quantization (PTQ) across attention blocks of the network, hence overlooking the potential of applying different quantization levels in the same network. They also employ complex operations to mitigate the negative impact of activation outliers, hence incurring high computational overheads. Moreover, they have not considered evaluation using emerging LLMs with non-conventional attention architectures (e.g., state-space models), which pose different challenges in applying quantization. To address these limitations, we propose QuBLAST, a novel PTQ methodology that employs block-level compression approach with activation scaling strategy for LLMs. Block-level compression approach enables mixed-precision quantization across blocks of the network, while activation scaling strategy efficiently mitigates the negative impact of activation outliers. Specifically, QuBLAST first analyzes the sensitivity of different attention blocks in the pre-trained model through the cross-entropy loss analysis. QuBLAST leverages this sensitivity analysis to determine the weight quantization level for each attention block in the model. Furthermore, QuBLAST employs the activation scaling map for each block to control the range of activation values and mitigate the negative impact of activation outliers, thereby enabling better quantization results. Experimental results show that, QuBLAST reduces model sizes by 40%-45.2% across different model architectures (i.e., Qwen3-8B, Llama3-8B, Mistral v0.1-8B, and Falcon H1R-7B), while maintaining the performance within 5% perplexity increase for the WikiText-2 and WikiText-103 datasets.
QO ベンチ: 型付きイベント タプルに対するクエリ演算子保持検索の診断
ビジネス、法律、科学コーパスに関する現実世界の質問の多くは、テキストに潜在するレコードに対するデータベース スタイルのクエリの自然言語バージョンです。既存の検索拡張生成 (RAG) システムは、主にセマンティック関連性を重視して最適化されていますが、もっともらしい文章を取得しても、クエリが正しく実行されることは保証されません。型指定されたイベント タプルに対するクエリ演算子の質問応答の診断ベンチマークである QO-Bench を紹介します。このベンチマークは、18 のクエリ テンプレートにわたる 22,984 のニュース記事と 614 の企業イベントを対象とし、785 の質問で評価されました。各ゴールド アンサーは、型指定されたイベント タプルから決定論的に計算され、LLM 判定ではなく完全一致によってゴールド タプルと照合された回答を使用して、再現率によってスコア付けされます。この設計により、結合や交差などのオペレーターレベルの診断が可能になります。 RAG、ReAct RAG、GraphRAG、および情報抽出から SQL を一致した条件下で評価し、取得失敗を分離するためのロングコンテキスト オラクル上限を使用します。インデックス時の保存とクエリ時の実行という 2 軸のフレームワークによって、各パラダイムがどこで失敗するかを予測し、その結果がそれを裏付けています。システムは関連するテキストを取得しますが、オペレータが必要とする型付きの値を破棄します。デプロイ可能なパラダイムのランキングはオペレータ間で逆転し、フィルタ/プロジェクトで類似性の取得が始まり、交差とカウントで SQL への抽出が行われます。決定的な証拠が与えられたとしても、ロングコンテキストのオラクルは飽和状態には程遠いため、検索だけではなくオペレーターの実行が、より強力な応答モデルによって除去されない中心的なボトルネックとなっています。 QO-Bench は、パッセージの関連性からクエリ演算子を保持した検索へと目標を再構成します。
原文 (English)
QO-Bench: Diagnosing Query-Operator-Preserving Retrieval over Typed Event Tuples
Many real-world questions over business, legal, and scientific corpora are natural-language versions of database-style queries over records latent in text. Existing retrieval-augmented generation (RAG) systems are optimized primarily for semantic relevance, but retrieving plausible passages does not guarantee correct query execution. We introduce QO-Bench, a diagnostic benchmark for query-operator question answering over typed event tuples. The benchmark covers 22,984 news articles and 614 corporate events across 18 query templates, evaluated on 785 questions. Each gold answer is deterministically computed from typed event tuples and scored by recall, with answers matched to the gold tuples by exact match rather than an LLM judge. This design enables operator-level diagnosis such as joins and intersection. We evaluate RAG, ReAct RAG, GraphRAG, and information-extraction-to-SQL under matched conditions, with a long-context oracle ceiling to isolate retrieval failure. A two-axis framework -- index-time preservation versus query-time execution -- predicts where each paradigm fails, and the results bear it out: systems retrieve relevant text but discard the typed values operators need, and the deployable paradigm ranking inverts across operators, with similarity retrieval leading on filter/project and extraction-to-SQL on intersection and counting. Even given the gold evidence, a long-context oracle stays far from saturated, so operator execution -- not retrieval alone -- is a core bottleneck that a stronger answer model does not remove. QO-Bench reframes the goal from passage relevance to query-operator-preserving retrieval.
Vul-RAG の再考: オープンウェイト モデルを使用した RAG ベースの脆弱性検出の再現性と再現性
大規模言語モデル (LLM) は、特に検索拡張世代 (RAG) 設定において、自動ソフトウェア脆弱性検出の強力な可能性を示しています。ただし、独自のモデルと API に依存するアプローチの場合、再現性と複製可能性はほとんど解明されていないため、報告された結果が一般化されるのか、それとも特定のモデルの選択に主に依存するのかという疑問が生じます。この研究では、高度な脆弱性知識で LLM を強化する、ソース コード脆弱性検出用の RAG ベースのフレームワークである Vul-RAG の再現性の研究を紹介します。まず、報告されたオープンウェイトベースラインモデルを使用して、完全にローカルでオープンウェイト設定で結果を再現します。次に、コードに特化した、汎用の、さまざまなパラメーター サイズの推論モデルを含む、最近のオープンウェイト LLM の多様なセットに評価を拡張します。この結果は、Vul-RAG の結果がローカル展開下で再現可能であることを裏付けていますが、多少の誤差はあります。評価されたすべてのモデルにわたって、ペアワイズ精度 (脆弱な関数とパッチ適用された関数の両方が正しく分類されたコード ペア) で約 0.30 のパフォーマンスのプラトーが観察されます。特に、このプラトーは、より最近の高度なモデルでも持続しており、モデルの容量の向上だけではパフォーマンスが大幅に向上しないことを示しています。最後に、検出の有効性、モデルの機能、モデルの規模の間の実際的な影響とトレードオフについて説明します。実装と評価のアーティファクトは、https://github.com/hs-esslingen-it-security/revisiting-Vul-RAG で公開されています。
原文 (English)
Revisiting Vul-RAG: Reproducibility and Replicability of RAG-based Vulnerability Detection with Open-Weight Models
Large language models (LLMs) have shown strong potential for automated software vulnerability detection, particularly in retrieval-augmented generation (RAG) settings. However, for approaches relying on proprietary models and APIs, reproducibility and replicability remain largely unexplored, raising the question of whether reported results generalize or depend primarily on specific model choices. In this work, we present a reproducibility study of Vul-RAG, a RAG-based framework for source code vulnerability detection that enhances LLMs with high-level vulnerability knowledge. We first replicate the results in a fully local and open-weights setting using the reported open-weight baseline models. We then extend the evaluation to a diverse set of recent open-weight LLMs, including code-specialized, general-purpose, and reasoning models of varying parameter sizes. The results confirm that the findings of Vul-RAG are reproducible under local deployment, but with minor deviations. Across all evaluated models, we observe a performance plateau at approximately 0.30 pairwise accuracy (code pairs for which both the vulnerable and the patched function are correctly classified). Notably, this plateau persists even for more recent and advanced models, indicating that improvements in model capacity alone do not substantially enhance performance. Finally, we discuss practical implications and trade-offs between detection effectiveness, model capabilities, and model scale. Implementation and evaluation artifacts are publicly available at https://github.com/hs-esslingen-it-security/revisiting-Vul-RAG.
TIDE: テンプレートに基づく反復によるプロアクティブな複数の問題の発見
エージェントは、ドキュメント、ツール、コードのアシスタントとして広く導入されています。ただし、これらは通常、明示的なユーザー要求にのみ作用し、ユーザーが気づいた問題のみを表面化します。一方、他の多くの重要な問題は、より広範なユーザー コンテキスト内で目に見えない形で共存しており、その総数は事前に不明です。私たちはこれを、文脈から複数の隠れた問題を発見するタスクとして組み立てます。その中で、共存する問題を明らかにし、裏付けとなる証拠に基づいて、具体的な行動と組み合わせる必要があります。この目的を達成するために、2 つの補完的なメカニズムを備えたテンプレート主導の反復フレームワークである TIDE を導入します。具体的には、シングルパス予測が最も顕著なケースに基づいて一般的な主張を生み出すという観察に動機づけられて、我々は反復発見を提案します。これは、すでに見つかったものに基づいて条件付けしながらラウンドごとに小さなバッチの候補を表面化し、後続のラウンドで対象範囲を拡大します。思考テンプレートは、以前に解決されたケースから抽出された再利用可能なスキーマであり、どのコンテキスト シグナルに注目し、それらをどのように接続するかを指定し、各予測を認識可能な問題クラスに固定します。 4 つのモデル バックボーンにわたって、パーソナル ワークスペースとソフトウェア リポジトリという 2 つの現実的な設定で TIDE を検証し、タスク カバレッジ、識別、解決に関して、シングルショットおよび並列マルチエージェント ベースラインを超える大幅な向上を示しています。
原文 (English)
TIDE: Proactive Multi-Problem Discovery via Template-Guided Iteration
Agents are widely deployed as assistants over documents, tools, and code. However, they typically act only on explicit user requests, which surface only the problems the user has noticed, while many other important problems coexist, hidden in plain sight, within the broader user context, with their total number unknown in advance. We frame this as the task of discovering multiple hidden problems from context, in which coexisting problems should be uncovered, grounded in supporting evidence, and paired with concrete actions. To this end, we introduce TIDE, a template-guided iterative framework with two complementary mechanisms. Specifically, motivated by the observation that single-pass prediction anchors on the most salient cases and yields generic claims, we propose iterative discovery, which surfaces a small batch of candidates per round while conditioning on what has already been found, so subsequent rounds extend coverage; and thought templates, reusable schemas distilled from previously solved cases that specify what contextual signals to attend to and how to connect them, anchoring each prediction in a recognizable problem class. We validate TIDE on two realistic settings, personal workspaces and software repositories, across four model backbones, showing substantial gains over single-shot and parallel multi-agent baselines on task coverage, identification, and resolution.
現実世界の MCP サーバーにおける記述コードの不一致: 測定、検出、およびセキュリティへの影響
モデル コンテキスト プロトコル (MCP) は、大規模言語モデル (LLM) が外部ツールを利用できるようにする重要な標準として登場しました。このエコシステムでは、LLM は MCP サーバーによって提供される自然言語記述に依存して、関数を選択して実行します。この相互作用は、ツールの説明がその基礎となる実装を忠実に反映していることを暗黙的に前提としていますが、この前提は実際には強制的に検証されるわけではありません。その結果、MCP の導入では、ツールの機能とセキュリティ境界に関する記述がコードの実際の動作と一致しない、記述コードの不一致 (DCI) という問題が発生する可能性があります。このペーパーでは、実際の MCP サーバーにおける DCI の包括的な研究を紹介します。私たちは問題を正式に定義し、機能の不一致や未発表の副作用に及ぶ包括的な分類法を提案します。この分類法に基づいて、私たちは、構造を認識した静的解析とダイレクト リバース アービトレーション プロンプト手法を組み合わせて、実際のコード実装に対してツールの説明を相互検証する自動化フレームワークである DCIChecker を開発しました。このフレームワークを、2,214 台の実世界の MCP サーバーから抽出された 19,200 個の記述コードのペアで構成される大規模なデータセットに適用します。私たちの測定では、DCI が広く普及しており、これらのペアの 9.93% が矛盾を示していることが明らかになりました。さらに、DCI が重大な防御の盲点を生み出し、運用上の失敗からこっそりと悪意のある動作に至るまで、さまざまなリスクを助長することを実証します。最後に、セマンティックな一貫性を強化し、新興エージェント エコシステムの信頼性を高めるための緩和戦略を提案します。
原文 (English)
Description-Code Inconsistency in Real-world MCP Servers: Measurement, Detection, and Security Implications
The Model Context Protocol (MCP) has emerged as a critical standard empowering Large Language Models (LLMs) to utilize external tools. In this ecosystem, LLMs rely on natural language descriptions provided by MCP servers to select and execute functions. This interaction implicitly assumes that tool descriptions faithfully reflect their underlying implementations, while this assumption is not mandatorily verified in practice. As a result, MCP deployments may suffer from a problem named Description-Code Inconsistency (DCI), where a tool's description of its capabilities and security boundaries is not consistent with what the code actually does. In this paper, we present a comprehensive study of DCI in real-world MCP servers. We formally define the problem and propose a comprehensive taxonomy spanning functionality inconsistencies and undeclared side effects. Guided by this taxonomy, we develop DCIChecker, an automated framework that combines structure-aware static analysis with the Direct-Reverse-Arbitration prompting method to cross-validate tool descriptions against actual code implementations. We apply this framework to a large-scale dataset comprising 19,200 description-code pairs extracted from 2,214 real-world MCP servers. Our measurement reveals that DCI is widespread, with 9.93% of these pairs exhibiting inconsistencies. We further demonstrate that DCI creates a critical defense blind spot, facilitating varied risks from operational failures to stealthy malicious behaviors. Finally, we propose mitigation strategies to enforce semantic consistency and enhance the reliability of the emerging agentic ecosystem.
NoRA: 視覚的な一人称の規範的行動推論における根拠のある合理性の評価
LLM とエージェント システムは社会環境にますます導入されており、安全で適切な行動には規範的能力が重要になっています。しかし、既存のアプローチは、規範的判断をテキストのみで評価するか、固定された一連の候補アクションの中から選択することに還元します。私たちはどちらも不十分だと主張します。実際には、エージェントにオプションのメニューが渡されることはありません。彼らは、目に見える事実に基づいて、検証可能な理由によって裏付けられた、合理的な行動をゼロから特定しなければなりません。 NoRA は視覚的な一人称ビデオ ベンチマークであり、モデルが次のアクションの候補を生成し、明示的な事実-理由-アクションのサポート グラフを通じてそれぞれを正当化する必要があります。このベンチマークは、HumanGold-190 および LLMSilver-1230 の分割を含む 1,420 個の注釈付きビデオ クリップで構成されています。各インスタンスは、アクションの調整、事実の根拠、およびサポートのバインディングを通じて評価され、単一の根拠のある合理性スコアに集約されます。私たちは、直接的、計画的、構造化されたプロンプト体制の下で 12 のマルチモーダル システムのベンチマークを行ったところ、現在の VLM はもっともらしいアクションと関連するシーンの事実を頻繁に回収しますが、完全な合理的なアクション スペースを構築し、選択されたアクションを正しいローカル サポートに結び付けるのに一貫して苦労していることがわかりました。 NoRA はこのギャップを測定可能にし、評価の問題を、モデルがアクションを選択できるかどうかから、適切な目に見える理由に基づいて適切なアクションを正当化できるかどうかに移します。
原文 (English)
NoRA: Evaluating Grounded Reasonableness in Visual First-person Normative Action Reasoning
LLMs and agentic systems are increasingly deployed in social environments, making normative competence critical for safe and appropriate behavior. However, existing approaches either assess normative judgment in text alone or reduce it to choosing among a fixed set of candidate actions. We argue both are insufficient. In practice, agents are never handed a menu of options; they must identify a reasonable action from scratch, grounded in visible facts and supported by inspectable reasons. We introduce NoRA, a visual first-person video benchmark that requires models to generate candidate next actions and justify each through an explicit fact-reason-action support graph. The benchmark comprises 1,420 annotated video clips, including HumanGold-190 and LLMSilver-1230 splits. Each instance is evaluated through action alignment, factual grounding, and support binding, aggregated into a single grounded reasonableness score. We benchmark 12 multimodal systems under direct, deliberate, and structured prompting regimes, finding that current VLMs frequently recover plausible actions and relevant scene facts, but consistently struggle to construct the full reasonable action space and bind selected actions to the correct local support. NoRA makes this gap measurable, shifting the evaluation question from whether a model can pick an action to whether it can justify an appropriate action for the right visible reasons.
行動しながら学習: オンライン生涯学習エージェント向けのスキル強化されたテスト時間共進化フレームワーク
生涯学習は、動的で対話型の環境で動作する大規模言語モデル (LLM) エージェントにとって不可欠です。しかし、長期的なタスクのための既存の生涯学習エージェントは通常、推論中の静的パラメータによる離散的なスキルや過去の経験の取得に依存しているため、人間の学習者のようにテスト時のフィードバックを継続的に内面化することができません。このギャップを埋めるために、オンライン生涯学習エージェントのための 2 段階の強化学習フレームワークであるスキル強化テスト時間共進化 (\texttt{LifeSkill}) を提案します。具体的には、複数のスキル条件付きポリシーのロールアウトの平均的な検証者の成功に応じて候補者のスキルに報酬を与えることで、スキル抽出のための直接監督の欠如に対処する検証者ガイド付きスキル学習を設計し、単にテキスト上でもっともらしいスキルではなく、タスクの解決に役立つスキルを生成するようにモデルを奨励します。さらに、オンライン スキル内部化を導入します。これは、スキル条件付きの軌道を報酬シグナルに変換することで、テスト時のインタラクション中にポリシー モデルを継続的に改善します。これにより、エージェントは推論機能をパラメータに直接内部化でき、エクスペリエンス取得によるコンテキストの肥大化を回避できます。 LifelongAgentBench の実験では、既存の生涯エージェントのベースラインと比較して、LifeSkill が平均パフォーマンスを 7 絶対ポイント向上させることが示されています。
原文 (English)
Learning While Acting: A Skill-Enhanced Test-Time Co-Evolution Framework for Online Lifelong Learning Agents
Lifelong learning is essential for Large Language Model (LLM) agents operating in dynamic, interactive environments. However, existing lifelong learning agents for long-horizon tasks typically depend on discrete skill or past experiences retrieval with static parameters during inference, which prevents them from continuously internalizing test-time feedback like human learners. To bridge this gap, we propose Skill-enhanced Test-Time Co-Evolution (\texttt{LifeSkill}), a two-stage reinforcement learning framework for Online Lifelong Learning Agents. Specifically, we design Verifier-Guided Skill Learning that addresses the lack of direct supervision for skill extraction by rewarding candidate skills according to the average verifier success of multiple skill-conditioned policy rollouts, encouraging the model to generate skills that are useful for solving tasks rather than merely plausible in text. Furthermore, we introduce Online Skill Internalization, which continuously improves the policy model during test-time interaction by transforming skill-conditioned trajectories into reward signals. This enables the agent to directly internalize reasoning capabilities into its parameters, avoiding the context bloat of experience retrieval. Experiments on LifelongAgentBench show that LifeSkill improves average performance by 7 absolute points by comparing with existing lifelong agent baselines.
人間が作成したオントロジーからの証明可能で監査可能で安全な LLM エージェント
線形監査可能性を必要とする重要な問題ドメインでの使用を目的とした、LLM エージェント アーキテクチャ Agentic Redux を紹介します。型付きラムダ計算を使用して、適切なドメインで実行すると、Agentic Redux の実行が意味的に正しいことが保証され、すべての決定が追加専用台帳に記録されることを証明します。医療請求のコンプライアンスとセキュリティ脆弱性の開示という、実稼働グレードの 2 つの適切な領域を紹介します。両方のドメインで実行される Agentic Redux の実用的なコードは、サポートされるコード リポジトリで入手できます。また、問題ドメイン上でエージェント フレームワークを作成するための方法論であるオントロジー ファースト エージェント設計も紹介します。この設計では、人間の専門家が基本形式オントロジーを使用して問題ドメインをオントロジー化し、LLM を割り当てて、ドメイン内の問題に対処するためにエージェントと参加者が果たせる役割を導き出します。
原文 (English)
Provably Auditable and Safe LLM Agents from Human-Authored Ontologies
We introduce the LLM agent architecture Agentic Redux, intended for use with nontrivial problem domains that require linear auditability. Using the typed lambda calculus, we prove that, run on appropriate domains, Agentic Redux executions are semantically guaranteed to be correct, with all decisions recorded in an append-only ledger. We present two production-grade appropriate domains, in healthcare billing compliance, and security vulnerability disclosure. Working code for Agentic Redux run on both domains is available in a supporting code repository. We also introduce Ontology-First Agent Design, a methodology for creation of agent frameworks on a problem domain, in which a human expert ontologizes the problem domain with Basic Formal Ontology, and then assigns an LLM to derive roles that agents and humans-in-the-loop can fill, in order to work the problems in the domain.
「あなたの AI テキストは私のものではありません」: 現実的な仮定に基づいた AI 生成のテキスト検出の再定義と評価
AI 生成テキストが広範な社会的リスクを引き起こすことは一般的に認められていますが、AI 生成テキスト検出に関する文献では、何が有害な使用に該当するかについて共通の理解がありません。むしろ、既存のデータセットやアプローチは、多くの場合、独自の基準を定義し、独自の仮定を立てており、場合によっては暗黙的に、現実世界のニーズやアプリケーションと大まかにしか関連していません。このギャップに対処するために、ここでは AI によって生成されたテキストとその特徴に関するさまざまな概念を体系的に定義します。これらを研究するために、私たちは AITDNA を収集します。AITDNA は、人間と機械が共同構築したテキストの新しいベンチマークであり、編集全体や AI との対話履歴など、詳細な生成情報が注釈付けされています。私たちはさまざまな機械生成のテキスト検出器をベンチマークしましたが、多くの場合、それらは特定の概念に対してのみ良好に機能し、広範な検出器としては機能しないことがわかりました。私たちはコードとデータを公開します。
原文 (English)
'Your AI Text is not Mine': Redefining and Evaluating AI-generated Text Detection under Realistic Assumptions
Although it is generally agreed that AI-generated text poses a broad societal risk, there is no common understanding in the AI-generated text detection literature on what constitutes harmful use. Rather, existing datasets and approaches often define their own criteria and make their own assumptions, sometimes implicitly, and often only loosely related to real-world needs and applications. To address this gap, we here systematically define various notions of AI-generated text and their characteristics. To study these, we collect AITDNA - a new benchmark of human-machine co-constructed texts that is annotated with detailed genesis information, such as the entire edit and AI-interaction history. We benchmark various machine-generated text detectors and find that they often only perform well for specific notions but not as broad detectors. We release code and data publicly.
生物医学的視覚言語モデルを迅速に調整するための幾何学を意識した蒸留
現在のプロンプトベースおよびアダプターベースのビジョン言語モデル (VLM) の調整は、臨床データの感度が凍結されたバックボーンを優先し、アノテーションが制限されている医療画像処理にとって魅力的です。ただし、これらの方法は通常、グラウンドトゥルース クラスのみを最適化し、他のすべてのクラスを同様に不正確なものとして扱い、臨床的に意味のあるクラス関係を無視し、限定された監視設定では不安定な決定境界を生成します。私たちは、クラス間ジオメトリを尊重しながらグランド トゥルースを保持する指向性ターゲットを生成するために、クラス関係構造を教師に注入する新しいフレームワークである Omni-Geometry Knowledge Distillation (OGKD) を提案します。これらのターゲットを使用して、2 つの蒸留損失を開発します。グローバル ジオメトリ認識蒸留 (GAD) はグローバル イメージ トークン上で動作し、ラベルガイド付きジオメトリ蒸留 (LGD) は同じジオメトリを注意深いパッチ トークンに適用して、きめの細かい位置合わせを改善します。基礎から新規および少数ショットの評価のために広く使用されている 11 の医療データセットでの包括的な実験と分析を通じて、当社の OGKD は大幅に優れたパフォーマンスを達成し、これまでのすべての最先端の VLM 適応対応製品と比較して、平均絶対ゲイン 1.7% ~ 2.8% により精度を一貫して向上させています。また、目に見えないクラスに対しても堅牢に一般化し、他のアプローチよりも信頼性の高い予測を生成します。私たちのコードは https://github.com/tientrandinh/OGKD で入手できます。
原文 (English)
Geometry-Aware Distillation for Prompt Tuning Biomedical Vision-Language Models
Current prompt-based and adapter-based tuning of vision-language models (VLMs) is attractive for medical imaging, where clinical data sensitivity favors frozen backbones and annotations are limited. However, these methods typically optimize only the ground-truth class, treating all other classes as equally incorrect, ignoring clinically meaningful class relations and yielding unstable decision boundaries in limited-supervision settings. We propose Omni-Geometry Knowledge Distillation (OGKD), a new framework that injects class-relation structure into the teacher to produce directional targets that preserve the ground truth while respecting inter-class geometry. Using these targets, we develop two distillation losses: Global Geometry-Aware Distillation (GAD) operates on the global image token, and Label-Guided Geometry Distillation (LGD) applies the same geometry to attentive patch tokens to improve fine-grained alignment. Across comprehensive experiments and analyses on 11 widely-used medical datasets for base-to-novel and few-shot evaluations, our OGKD achieves substantially better performance, consistently improving accuracy by an average absolute gain of 1.7%-2.8% over all prior state-of-the-art VLM adaptation counterparts. It also robustly generalizes to unseen classes and yields more reliable predictions than other approaches. Our code is available at https://github.com/tientrandinh/OGKD.
ルーブリックベースの強化学習における報酬ハッキングの再現、分析、検出
ルーブリックベースの強化学習 (RL) は、LLM-as-a-Judge (LaaJ) を使用して、報酬としてルーブリックに従ってモデルの出力を採点します。ただし、政策モデルは裁判官の潜在的なバイアスを悪用し、報酬のハッキングや非効果的または危険なトレーニング結果につながる可能性があります。現実のルーブリックベースの RL では、このようなハッキング行為は多くの場合微妙であり、複数の裁判官のバイアスと絡み合っているため、分析、検出、軽減することが困難です。このペーパーでは、ルーブリックベースの RL のための制御可能なハッキング環境である CHERRL を紹介します。既知のバイアスを LaaJ に注入することで、CHERRL は報酬ハッキングの安定した再現、報酬の発散の明確な観察、およびハッキングの開始の正確な特定を可能にします。これは、ルーブリック ベースの RL における報酬ハッキングのメカニズムと緩和を研究するためのクリーンな実験テストベッドを提供します。その有用性を実証するために、発見可能性と悪用可能性の観点からさまざまな裁判官のバイアスを分析し、トレーニングログから報酬ハッキングの開始を自動的に検出するためのエージェントベースのシステムを調査します。コードと環境は https://github.com/THUAIS-Lab/CHERRL で公開されています。
原文 (English)
Reproducing, Analyzing, and Detecting Reward Hacking in Rubric-Based Reinforcement Learning
Rubric-based reinforcement learning (RL) uses an LLM-as-a-Judge (LaaJ) to score model outputs according to rubrics as rewards. However, policy models may exploit latent biases in the judge, leading to reward hacking and ineffective or unsafe training outcomes. In real-world rubric-based RL, such hacking behaviors are often subtle and entangled with multiple judge biases, making them difficult to analyze, detect, and mitigate. In this paper, we introduce CHERRL, a controllable hacking environment for rubric-based RL. By injecting known biases into LaaJ, CHERRL enables stable reproduction of reward hacking, explicit observation of reward divergence, and precise identification of hacking onset. This provides a clean experimental testbed for studying the mechanisms and mitigations of reward hacking in rubric-based RL. To demonstrate its utility, we analyze different judge biases from the perspectives of discoverability and exploitability, and explore an agent-based system for automatically detecting reward hacking onset from training logs. The code and environment are publicly available at https://github.com/THUAIS-Lab/CHERRL.
プロンプトからプロセスまで: AI ソフトウェア開発エージェントをサポートするフレームワークのプロセス分類と比較評価
プログラミング用の AI ツールは、もはや単なるオートコンプリートやチャット アシスタントではありません。プロセス、役割、成果物、検証を備えた開発フレームワークとして組織化されています。最近の調査では、ソフトウェア エンジニアリングのためのエージェントと LLM がマッピングされていますが、これらの機能をプロセスに変える運用フレームワークを中心とした調査は行われていません。私たちは、機能的包含基準とトラクション測定を使用して一次ソースの直接検索を実行し、GitHub Spec Kit、OpenSpec、BMAD Method、Get Shit Done (GSD)、Spec Kitty、Reversa の 6 つのフレームワークを選択しました。それぞれが異なるパスを通じて AI 開発を攻撃します。つまり、完全および軽量バリアントでの仕様駆動型開発、エージェント駆動のアジャイル プランニング、エージェントを介したコンテキスト エンジニアリング、ワークツリーの分離とレビュー、レガシー システムからの運用仕様の回復です。私たちの中心的な貢献は、仕様、コンテキスト、役割、実行、検証、移植性という 6 次元のプロセス分類と、プロセスを複製可能なツールに変えるスコアリング ルーブリックです。これを 6 つのフレームワークとサンプル外のケースである Spec-Flow に適用します。 2 つの結果が際立っています。すでに何らかのプロセスを採用しているフレームワークの中には収束が見られます。分離されたプロンプトは中心性を失い、永続的な成果物、作業契約、トレーサビリティ、人間によるレビューが曖昧さを減らし、エージェントを調整するメカニズムになります。また、6 つの側面すべてを強力にカバーするフレームワークはなく、プロセスの深さとエージェント間の移植性の間の構造的なトレードオフが明らかになります。また、繰り返し発生するリスク、つまり仕様とコードの間のずれ、生成されたアーティファクトへの過剰な信頼、コミュニティ拡張の脆弱性、プラットフォームへの依存、プロセス全体のベンチマークの欠如なども見つかりました。最後に、中間品質の指標、コンテキスト ガバナンス、インストールのセキュリティと再現性に焦点を当てた、実証的評価のための研究課題を取り上げます。
原文 (English)
From Prompt to Process: a Process Taxonomy and Comparative Assessment of Frameworks Supporting AI Software Development Agents
AI tools for programming are no longer just autocomplete or chat assistants: they organize themselves as development frameworks, with process, roles, artifacts and verification. Recent surveys map agents and LLMs for software engineering, but a study centered on the operational frameworks that turn these capabilities into process is missing. We ran a directed search of primary sources, with a functional inclusion criterion and traction measurement, and selected six frameworks: GitHub Spec Kit, OpenSpec, BMAD Method, Get Shit Done (GSD), Spec Kitty and Reversa. Each attacks AI development through a different path: spec-driven development in full and lightweight variants, agent-driven agile planning, context engineering over the agent, worktree isolation and review, and recovery of operational specifications from legacy systems. Our central contribution is a six-dimension process taxonomy: specification, context, roles, execution, validation and portability, with a scoring rubric that turns it into a replicable instrument. We apply it to the six frameworks and an out-of-sample case, Spec-Flow. Two results stand out. Among frameworks that already adopt some process there is convergence: the isolated prompt loses centrality, and persistent artifacts, work contracts, traceability and human review become mechanisms that reduce ambiguity and coordinate agents. And no framework strongly covers all six dimensions, exposing a structural trade-off between process depth and portability across agents. We also found recurring risks: drift between specification and code, excessive trust in generated artifacts, fragility of community extensions, platform dependence and a lack of benchmarks for the complete process. We close with a research agenda for empirical evaluation, focused on intermediate-quality metrics, context governance, installation security and reproducibility.
DeliChess: チェスのパズル解決における熟議のための多者対話データセット
多者間の対話は、協調的な推論と意思決定を研究するための重要な設定ですが、既存のデータセットは、構造化された詳細な複雑な推論タスクに焦点を当てていることはほとんどありません。 DeliChess は、参加者が協力して多肢選択のチェス パズルを解くグループ審議対話の新しいデータセットです。各グループは最初に個別にパズルを完成させ、次に修正された集合回答を提出する前に、複数の当事者によるディスカッションに参加します。データセットには、完全なトランスクリプト、ディスカッション前後の選択肢、パズルの難易度と動きの品質に関するメタデータを含む 107 の対話が含まれています。私たちはチェス エンジンの評価に基づいた 3 つの指標を使用してパフォーマンスを評価し、熟慮することでグループの精度が大幅に向上することがわかりました。さらに、事前の審議データに基づいて訓練された分類器を使用して、精査的な発話(つまり、提案、正当化、または戦略的考察を引き出すメッセージ)の役割を分析します。プロービングにより、ディスカッション後のグループのパフォーマンスはより変動しますが、一貫してパフォーマンスの向上につながるわけではありません。私たちのデータセットは、グループの推論、対話のダイナミクス、および明確に定義された戦略的領域における異なる視点や意見の解決をモデル化するための豊富なテストベッドを提供します。
原文 (English)
DeliChess: A Multi-party Dialogue Dataset for Deliberation in Chess Puzzle Solving
Multi-party dialogue is a critical setting for studying collaborative reasoning and decision-making, yet existing datasets rarely focus on structured, in-depth complex reasoning tasks. We introduce DeliChess, a novel dataset of group deliberation dialogues in which participants collaboratively solve multiple-choice chess puzzles. Each group first completes the puzzle individually, then engages in a multi-party discussion before submitting a revised collective answer. The dataset includes 107 dialogues with full transcripts, pre- and post-discussion choices, and metadata on puzzle difficulty and move quality. We evaluate performance using three metrics based on chess engine evaluations, and find that deliberation significantly improves group accuracy. We further analyse the role of probing utterances (i.e., messages that elicit proposals, justifications, or strategic reflection) using a classifier trained on prior deliberation data. While probing makes group performance more variable after discussion, it does not consistently lead to better performance. Our dataset offers a rich testbed for modelling group reasoning, dialogue dynamics, and the resolution of differing perspectives and opinions in a well-defined strategic domain.
エージェント追跡から信頼へ: LLM エージェントにおける証拠追跡と実行来歴
大規模言語モデル (LLM) ベースのエージェントは、外部ツール、検索システム、メモリ モジュール、環境、その他のエージェントと対話することで、複雑なタスクを解決することが増えています。これらの機能により、エージェントの自律性が拡張されますが、エージェントの動作の検証、デバッグ、監査が難しくなります。最終回答の精度だけでは、出力がどのように生成されたか、各主張を裏付ける証拠は何か、ツールの呼び出しが正当化されたかどうか、記憶が後の決定にどのように影響したか、実行の失敗がどこで発生したかを説明することはできません。証拠追跡と実行来歴は、取得された証拠、ツール出力、メモリ項目、環境観察、中間クレーム、アクション、および最終的な回答がエージェントの実行全体を通じてどのように関連するかをモデル化することで、このギャップに対処します。この調査は、LLM エージェントにおける証拠の追跡と実行の出自に関する体系的なレビューと概念的な枠組みを提供します。私たちは、検索根拠、クレームサポート、ツール使用の安全性、メモリリネージ、可観測性、デバッグ、監査、リカバリを結び付ける、統一された来歴の観点に基づいて関連作業を整理します。トレースソース、証拠と実行単位、来歴関係、トレースの粒度とタイミング、表現形式、信頼関数を網羅する分類法を導入します。私たちは、出所の表現、証拠の帰属、ツール使用の出所、実行時のガードレール、出所を伴うメモリ、トレースベースの可観測性、障害診断など、主要な方法論の方向性を検討します。また、既存のベンチマーク、データセット、評価指標を来歴関連の機能にマッピングし、評価が最終的な回答の正しさからプロセスレベルの説明責任にどのように移行できるかについても説明します。最後に、統合トレース スキーマ、クレーム レベルおよびセマンティックの出所、出所を意識した安全メカニズム、現実的な実行トレース ベンチマーク、リカバリ指向の評価、プライバシーを意識した監査インフラストラクチャなどの未解決の課題について概説します。
原文 (English)
From Agent Traces to Trust: Evidence Tracing and Execution Provenance in LLM Agents
Large language model (LLM)-based agents increasingly solve complex tasks by interacting with external tools, retrieval systems, memory modules, environments, and other agents. These capabilities expand agent autonomy, but also make agent behavior harder to verify, debug, and audit. Final-answer accuracy alone cannot explain how an output was produced, which evidence supported each claim, whether tool calls were justified, how memory influenced later decisions, or where execution failures originated. Evidence tracing and execution provenance address this gap by modeling how retrieved evidence, tool outputs, memory items, environment observations, intermediate claims, actions, and final answers are connected throughout agent execution. This survey provides a systematic review and conceptual framework for evidence tracing and execution provenance in LLM agents. We organize related work around a unified provenance perspective that connects retrieval grounding, claim support, tool-use safety, memory lineage, observability, debugging, audit, and recovery. We introduce a taxonomy covering trace sources, evidence and execution units, provenance relations, tracing granularity and timing, representation forms, and trust functions. We review key methodological directions, including provenance representation, evidence attribution, tool-use provenance, runtime guardrails, provenance-bearing memory, trace-based observability, and failure diagnosis. We also map existing benchmarks, datasets, and evaluation metrics to provenance-related capabilities, and discuss how evaluation can move from final-answer correctness toward process-level accountability. Finally, we outline open challenges, including unified trace schemas, claim-level and semantic provenance, provenance-aware safety mechanisms, realistic execution-trace benchmarks, recovery-oriented evaluation, and privacy-aware audit infrastructure.
SharedRequest: 大規模言語モデルのプライバシー保護モデルに依存しない推論
ChatGPT などのパブリック大規模言語モデル (LLM) の広範な展開に伴い、ユーザー プロンプトのプライバシーを保護することがますます重要な問題になっています。既存のプライバシー保護推論方法は、実用性または効率性を犠牲にしており、多くの場合、互換性を制限するモデル固有の変更が必要です。この論文では、個別のプロンプト レベルではなくバッチ レベルでプライバシー保護を再定式化する、プライバシー保護 LLM 推論のためのモデルに依存しないフレームワークである SharedRequest を提案します。重要なアイデアは、元のプロンプトとノイズの多いバリアントを混合することで機密情報を曖昧にし、同時に意味的に同等の命令をグループ化して、LLM 応答品質への影響を最小限に抑えながらクエリの大規模なバッチにわたる推論コストを償却することです。この設計は LLM アーキテクチャから独立しているため、モデル パラメーターへのアクセスやアーキテクチャの変更は必要ありません。経験的な結果は、SharedRequest が以前の差分プライバシー ベースラインと比較して $20\%$ 以上高い実用性を達成し、その共有プロンプト メカニズムにより、非バッチ推論と比較してクエリ コストを最大 $5\time$ 削減することを示しています。
原文 (English)
SharedRequest: Privacy-Preserving Model-Agnostic Inference for Large Language Models
With the widespread deployment of public large language models (LLMs) such as ChatGPT, protecting user prompt privacy has become an increasingly critical issue. Existing privacy-preserving inference methods sacrifice either utility or efficiency, and often require model-specific modifications that limit their compatibility. In this paper, we propose SharedRequest, a model-agnostic framework for privacy-preserving LLM inference that reformulates privacy protection at the batch level rather than the individual-prompt level. The key idea is to obscure sensitive information by mixing original prompts with noisy variants, while grouping semantically equivalent instructions to amortize the inference cost over a large batch of queries with minimal impact on LLM response quality. This design is independent of the LLM architecture, requiring no access to model parameters or architectural modification. Empirical results demonstrate that SharedRequest achieves over $20\%$ higher utility compared to prior differential privacy baselines, and its shared-prompt mechanism reduces query cost by up to $5\times$ compared to non-batched inference.
M$^3$Eval: 認知に基づいたビデオタスクによるマルチモーダル記憶評価
マルチモーダル モデルが長時間ビデオの理解に向けて進歩するにつれ、メモリが重要な能力として浮上します。ビデオ データセットとベンチマークの開発には多大な努力が払われているにもかかわらず、既存の研究は主に知覚と推論に焦点を当てており、どのモデルが保持するか、情報がどの程度忠実に保存されるか、干渉下でもメモリがどの程度堅牢に保たれるかなど、記憶を体系的に評価することはありません。このギャップに対処するために、マルチモーダル モデルでさまざまなメモリ次元を調査するための最初の包括的な評価フレームワークおよびベンチマークである M$^3$Eval を導入します。認知心理学に基づいた当社のデザインは、記憶の重要な側面を分離する慎重に構築されたタスクを特徴としています。 M$^3$Eval を活用して、代表的なマルチモーダル モデルにわたって広範な実験を実施し、一貫した弱点と独特の動作を明らかにしました。私たちは、並列ビデオストリームを処理する際にモデルがもつれの解けた表現を維持するのに苦労し、人間の記憶で観察されるものとは大幅に異なる干渉パターンを示し、記憶ソースを時間領域よりも空間領域でより確実に接地し、限られた記号記憶を実証していることを発見しました。まとめると、私たちのベンチマークは将来の研究のための貴重なリソースを提供しますが、私たちの調査結果は、メモリが基本的でありながらまだ研究されていない機能であることを強調し、マルチモーダルモデルでより効果的なメモリメカニズムを設計するための洞察を提供します。コードとデータセットは https://pku-value-lab.github.io/m3eval-homepage で入手できます。
原文 (English)
M$^3$Eval: Multi-Modal Memory Evaluation through Cognitively-Grounded Video Tasks
As multi-modal models advance towards long-form video understanding, memory emerges as a critical capability. Despite substantial efforts in developing video datasets and benchmarks, existing works primarily focus on perception and reasoning, without systematically evaluating memory: what models retain, how faithfully information is preserved, and how robust memory remains under interference. To address this gap, we introduce M$^3$Eval, the first comprehensive evaluation framework and benchmark for probing different memory dimensions in multi-modal models. Grounded in cognitive psychology, our design features carefully constructed tasks that isolate key aspects of memory. Leveraging M$^3$Eval, we conduct extensive experiments across representative multi-modal models, revealing consistent weaknesses and distinctive behaviors. We find that models struggle to maintain disentangled representations when processing parallel video streams, exhibit interference patterns differing substantially from those observed in human memory, ground memory sources more reliably in the spatial domain than the temporal domain, and demonstrate limited symbolic memory. Collectively, our benchmark provides a valuable resource for future research, while our findings highlight memory as a fundamental yet underexplored capability and offer insights for designing more effective memory mechanisms in multi-modal models. Our code and dataset are available at https://pku-value-lab.github.io/m3eval-homepage.
DAR: エージェントティックハーネスを使用したデオンティック推論
義務的推論とは、法律に基づく納税額の計算や移民控訴の結果の決定など、事例固有の事実に明示的なルールとポリシーを適用することで質問に答えるタスクです。 LLM ベースの義務論的推論の主な技術的課題は、関連するルールセットが長く相互参照される可能性があるため、モデルが特定の推論ステップに必要なルールを見つけられない可能性があることです。 Deontic Agentic Reasoning (DAR) を導入します。これは、モデルがオンデマンドで法令と対話するエージェント推論セットアップです。 DeonticBench のハード サブセット上の複数のハーネスで DAR を評価します。これらの設定全体で、エージェント ハーネスは義務論的推論タスクの最前線を押し広げることができることがわかりましたが、改善は均一ではありません。弱いモデルは、はるかに多くのトークンを消費しながら、数値タスクでパフォーマンスが低下することがよくあります。
原文 (English)
DAR: Deontic Reasoning with Agentic Harnesses
Deontic reasoning is the task of answering questions by applying explicit rules and policies to case-specific facts, for example computing tax liability under a statute or determining the outcome of an immigration appeal. A key technical challenge for LLM-based deontic reasoning is that the relevant ruleset can be long and cross-referenced, so models may still fail to locate the rules needed for a particular reasoning step. We introduce Deontic Agentic Reasoning (DAR), an agentic reasoning setup in which the model interacts with the statutes on demand. We evaluate DAR under multiple harnesses on hard subsets of DeonticBench. Across these settings, we find that agentic harnesses can push the frontier on deontic reasoning tasks, but improvements are not uniform: weaker models often degrade on numerical tasks while consuming far more tokens.
ロバスト推論蒸留のための不変勾配アライメント
大規模言語モデル (LLM) はショートカット学習に悩まされます。論理構造が同一であっても、意味論的表面がトレーニング データと異なる分布外 (OOD) 入力では体系的に失敗します。これは、思考連鎖の推論をより小さな生徒に伝える知識の蒸留パイプラインを弱体化させます。我々は、次の 3 つの革新によって、意味的に多様であるが論理的に同型のサンプル間で勾配更新を調整するトレーニング フレームワークである Invariant Gradient Alignment (IGA) を紹介します。(i) 論理異性体セット。異なる意味論的ドメイン (数学、医学、法律、科学) にわたって同一の論理構造を共有する問題のグループ。 (ii) 微分可能な \emph{Continuous Gradient Conflict Mask}。不変の方向を維持しながら、ドメイン間の勾配分散が大きいパラメータの次元を抑制します。 (iii) マスクされた勾配の切り詰められた SVD 射影を LoRA の低ランク多様体に戻し、パラメータ効率を全体的に維持します。理論的には、IGA は ERM よりも厳しい OOD 一般化境界を生成し、異性体ドメインの数に応じて拡張し、穏やかな規則性の下で標準 SGD レートに収束します。経験的に、IGA は 4 つのベンチマーク全体で 8 つのベースラインを上回り、精度が ERM-SFT よりも最大 14.3 pp 向上し、論理整合性スコアが 0.031 対 0.142 で、表現の不変性が 4 倍向上しました。
原文 (English)
Invariant Gradient Alignment for Robust Reasoning Distillation
Large language models (LLMs) suffer from shortcut learning: they systematically fail on out-of-distribution (OOD) inputs whose semantic surface differs from training data, even when the logical structure is identical. This undermines knowledge distillation pipelines that transfer chain-of-thought reasoning to smaller students. We introduce Invariant Gradient Alignment (IGA), a training framework that aligns gradient updates across semantically diverse but logically isomorphic examples via three innovations: (i) Logical Isomer Sets, groups of problems sharing identical logical structure across distinct semantic domains (mathematics, medicine, law, science); (ii) a differentiable \emph{Continuous Gradient Conflict Mask}, that suppresses parameter dimensions with high cross-domain gradient variance while preserving invariant directions; and (iii) a truncated SVD projection of the masked gradient back onto the LoRA low-rank manifold, maintaining parameter efficiency throughout. Theoretically, IGA yields tighter OOD generalization bounds than ERM, scaling with the number of isomer domains, and converges at the standard SGD rate under mild regularity. Empirically, IGA outperforms eight baselines across four benchmarks with accuracy gains up to 14.3 pp over ERM-SFT and a Logical Consistency Score of 0.031 versus 0.142 -- a fourfold improvement in representational invariance.
言語モデルを使用した研究論文のタイトルの自動生成
研究論文のタイトルは、その主なアイデアと、場合によっては結論を明確かつ簡潔に伝えます。適切なタイトルを選択することは多くの場合困難ですが、自動タイトル生成は著者のこの作業を支援します。この研究では、オープンウェイトの事前トレーニング済みの大規模言語モデルを使用して、抄録から論文のタイトルを生成する手法を提案します。私たちは CSPubSum および LREC-COLING-2024 データセットを使用し、社会科学の Springer ジャーナル 4 誌から厳選された新しいデータセット SpringerSSAT を導入します。さらに、タイトルの生成には GPT-3.5-turbo をゼロショット設定で使用します。モデルのパフォーマンスは、ROUGE、METEOR、MoverScore、BERTScore、および SciBERTScore メトリックを使用して評価されます。私たちの実験では、微調整された PEGASUS-large が、ほとんどの指標において、微調整された LLaMA-3-8B やゼロショット GPT-3.5-turbo などの他のモデルよりも優れていることがわかりました。さらに、ChatGPT が創造的な論文タイトルを生成できることを実証します。全体として、AI によって生成されたタイトルは一般に適切で信頼性があります。
原文 (English)
Automatic Generation of Titles for Research Papers Using Language Models
The title of a research paper conveys its primary idea and, occasionally, its conclusions in a clear and concise manner. Choosing an appropriate title is often challenging, and automated title generation can assist authors in this task. In this work, we propose a technique to generate paper titles from abstracts using open-weight pre-trained and large language models. We use the CSPubSum and LREC-COLING-2024 datasets and introduce a new dataset, SpringerSSAT, curated from four Springer journals in the social sciences. Additionally, we use GPT-3.5-turbo in a zero-shot setting to generate titles. Model performance is evaluated with ROUGE, METEOR, MoverScore, BERTScore, and SciBERTScore metrics. Our experiments show that fine-tuned PEGASUS-large outperforms other models, including fine-tuned LLaMA-3-8B and zero-shot GPT-3.5-turbo, across most metrics. We further demonstrate that ChatGPT can generate creative paper titles. Overall, AI-generated titles are generally appropriate and reliable.
言語モデルのための算術教育学
私たちは、人間の数学教育学の方法が言語モデルのトレーニングを算術推論に導くことができるかどうかを調査します。 GASING メソッド (トークン生成の因果関係に沿った左から右への手順で基本的な算術計算を解くインドネシアの教育学) に基づいて、各操作を計算手順として運用し、その実行トレースが自然言語の思考連鎖 (CoT) 監視にシリアル化されます。インドネシア語用の音節凝集型 TOBA トークナイザーを備えた小型 GPT-2 デコーダー (86M パラメーター) は、強化学習や報酬ベースの最適化を行わずに、次のトークンの予測目標のみを使用して、このデータに基づいて最初からトレーニングされます。トレーニングのモニタリングにより、3 つの異なる学習段階が明らかになり、機構分析 (CoT 情報グラフへの注意マスキング介入、残差ストリームの調査、ロジットレンズ検査) から、モデルが最初に手続き型経路を内部化し、その後、明示的なステップごとの計算を行わずに中間結果を取得する連想的な「暗算」能力を開発することが示されました。トレーニングされたモデルは、保留された問題に対して 80% 以上の精度に達し、大幅に大規模な言語モデルに対して競争力のあるパフォーマンスを達成しました。これは、対象を絞った教育学的に根拠のあるトレーニングにより、小規模でも強力で経済的な算術能力を生み出すことができることを示しています。
原文 (English)
Arithmetic Pedagogy for Language Models
We investigate whether methods of human mathematics pedagogy can guide the training of language models toward arithmetic reasoning. Building on the GASING method -- an Indonesian pedagogy that solves basic arithmetic through a left-to-right procedure aligned with the causal order of token generation -- we operationalize each operation as a computational procedure whose execution trace is serialized into natural-language Chain-of-Thought (CoT) supervision. A small GPT-2 decoder (86M parameters) with a syllabic-agglutinative TOBA tokenizer for Indonesian is trained from scratch on this data using only a next-token prediction objective, without reinforcement learning or reward-based optimization. Monitoring training reveals three distinct learning phases, and mechanistic analyses -- attention-masking interventions on the CoT information graph, residual-stream probing, and logit-lens inspection -- show that the model first internalizes a procedural pathway and subsequently develops an associative, ``mental-arithmetic'' capacity that retrieves intermediate results without explicit step-by-step computation. The trained model reaches over 80% accuracy on held-out problems and attains competitive performance against substantially larger language models, indicating that targeted, pedagogically grounded training can yield strong and economical arithmetic capability at small scale.
子供の自己中心的なインプットによる継続的な視覚的および言語的学習
子どもたちは、時間的に構造化された継続的な自己中心的な経験の流れから言葉の意味を学びます。最近の研究では、ニューラルネットワークは子供の自己中心的なビデオ録画からも単語参照マッピングを学習できることが示されているが、それらはシャッフルされたデータを数百エポックにわたって循環しており、子供たちが実際に環境に遭遇する様子とは対照的である。私たちは、SAYCam データセットを単一の時系列パスで処理し、ストリーミング視覚表現学習と画像テキスト対比目標を組み合わせた継続的マルチモーダル学習フレームワークである BabyCL を紹介します。 BabyCL は、ストリームの多段階の時間的セグメンテーションと、ビジュアル履歴とマルチモーダル履歴を個別に管理するデュアル リプレイ バッファーを組み合わせ、共有バックボーン上で 3 つの対照的な損失を使用して共同トレーニングされます。一致した最適化予算の下で、BabyCL は SAYCam Labeled-S 4AFC ベンチマークでストリーミング学習ベースラインを上回り、オフライン トレーニングの上限との差を大幅に狭めます。アブレーションは、オンライン時間セグメンテーション ウィンドウの長さとリプレイ バッファーの排除ルールに対してゲインが堅牢であることを示しています。まとめると、これらの結果は、子供の実際の経験にはるかに近い訓練条件下で、意味のある単語参照マッピングが現れる可能性があることを示しています。
原文 (English)
Continual Visual and Verbal Learning Through a Child's Egocentric Input
Children learn the meanings of words from a continuous, temporally structured stream of egocentric experience. Recent work shows that neural networks can also learn word-referent mappings from a child's egocentric video recordings, but they cycle through the shuffled data for hundreds of epochs, contrasting with how children actually encounter their environment. We introduce BabyCL, a continual multimodal learning framework that processes the SAYCam dataset in a single chronological pass, combining streaming visual representation learning with an image-text contrastive objective. BabyCL combines a multi-stage temporal segmentation of the stream with a dual replay buffer that independently manages visual and multimodal histories, and it is jointly trained with three contrastive losses on a shared backbone. Under a matched optimization budget, BabyCL outperforms streaming learning baselines on the SAYCam Labeled-S 4AFC benchmark, substantially narrowing the gap to an upper bound of offline training. Ablations show that the gains are robust to the length of the online temporal segmentation window and the eviction rule of the replay buffer. Together, these results show that meaningful word-referent mappings can emerge under training conditions much closer to a child's actual experience.
オーディオインタラクションモデル
オーディオは本質的にインタラクティブなモダリティですが、今日の大規模オーディオ言語モデル (LALM) はオフラインであり、ストリーミング オーディオ モデルはそれぞれストリーミング ASR や音声チャットなどの単一タスクのみを処理します。それらを 1 つのオンライン LALM に統合する時が来ました。LALM は、常時オンの知覚、決定、応答ループを通じて、音、環境、指示をリアルタイムで聞き、その場で反応するモデルです。私たちはこの体制をオーディオ インタラクション モデルとして形式化し、オーディオ インタラクションで実現します。これは、オフライン タスクの実行を保持しながら、対話からフル ボイス チャットに至るまでのオンラインの一般的な音声指示を追加し、ストリームのセマンティクスからいつ応答するかを決定する統合ストリーミング モデルです。これを可能にするために、ストリーミングネイティブのデータ構築、理解を意識したトレーニング、安定したリアルタイムインタラクションのための非同期低遅延推論を通じて、データからトレーニング、デプロイメントに至るまで、認識・決定・応答ループをエンドツーエンドでインスタンス化するフレームワークである SoundFlow を提案します。さらに、7 つの基本能力と 28 のサブタスクにわたる 260 万項目のストリーミング コーパスである StreamAudio-2M と、プロアクティブな音声介入を評価するための Proactive-Sound-Bench を構築します。 8 つのベンチマークにわたって、Audio-Interaction は主流のオーディオ タスクで競争力のあるパフォーマンスを維持しながら、リアルタイム ASR、ストリーミング オーディオ命令のフォロー、プロアクティブ ヘルプなど、オフライン LALM ではアクセスできない機能を解放します。
原文 (English)
Audio Interaction Model
Audio is an inherently interactive modality, yet today's Large Audio Language Models (LALMs) are offline, and streaming audio models each handle only a single task such as streaming ASR or voice chatting. It is time to unify them into one online LALM: a model that, through an always-on perceive-decide-respond loop, listens to sound, environment, and instructions in real time and reacts on the fly. We formalize this regime as the Audio Interaction Model, and realize it with Audio-Interaction, a unified streaming model that retains offline task execution while adding online general audio instruction following, from dialogue to full voice chatting, deciding when to respond from the semantics of the stream. To enable this, we propose SoundFlow, a framework that instantiates the perceive-decide-respond loop end to end, from data to training to deployment, through streaming-native data construction, comprehension-aware training, and asynchronous low-latency inference for stable real-time interaction. We further construct StreamAudio-2M, a 2.6M-item streaming corpus spanning 7 fundamental abilities and 28 sub-tasks, and Proactive-Sound-Bench for evaluating proactive audio intervention. Across 8 benchmarks, Audio-Interaction preserves competitive performance on mainstream audio tasks while unlocking capabilities inaccessible to offline LALMs, including real-time ASR, streaming audio instruction following, and proactive help.
LLM 駆動エージェントによる効率的で証拠に基づくモビリティ予測に向けて
個人レベルのモビリティ予測は、都市シミュレーション、交通計画、政策分析の中心となります。教師ありシーケンス モデルは高い精度を実現しますが、タスク固有のトレーニングが必要であり、意思決定レベルの透明性は限られています。最近の LLM ベースの手法は解釈可能性を向上させていますが、ほとんどが静的プロンプトとシングルパス推論に依存しているため、モビリティ信号が弱いか矛盾している場合に追加の証拠を探す能力が制限されています。私たちは、次の場所の予測を適応的な証拠に基づいた意思決定として定式化する、トレーニング不要の LLM 駆動のエージェント フレームワークである \method{} を提案します。 \method{} は、歴史的な規則性に基づく高速パスを通じて日常的なケースを解決しますが、あいまいなケースでは、最近の軌跡、過去の動作、滞在と移動の可能性、および地理的証拠に基づいて反復的なツールの使用がトリガーされます。 3 つのモビリティ データセット全体で、AgentMob はトレーニング不要の LLM ベースの手法の中で最も強力な総合パフォーマンスを達成し、GPT-5.4 は BW で 71.42\% Acc@1、YJMob100K で 33.14\%、上海 ISP で 33.50\% に達しました。 BW 非高速パスのケースでは、LLM コントローラーは、同じツールの統計ベースラインと比較して Acc@1 を 30.65\% から 48.62\% に改善します。これは、その主な利点が、適応的な証拠収集を通じて曖昧な予測を解決することにあることを示しています。コードは https://github.com/Unknown-zoo/AgentMob で入手できます。
原文 (English)
Towards Efficient and Evidence-grounded Mobility Prediction with LLM-Driven Agent
Individual-level mobility prediction is central to urban simulation, transportation planning, and policy analysis. Supervised sequence models achieve strong accuracy but require task-specific training and offer limited decision-level transparency. Recent LLM-based methods improve interpretability, yet mostly rely on static prompts and single-pass inference, limiting their ability to seek additional evidence when mobility signals are weak or conflicting. We propose \method{}, a training-free LLM-driven agent framework that formulates next-location prediction as adaptive evidence-controlled decision making. \method{} resolves routine cases through a fast path based on historical regularity, while ambiguous cases trigger iterative tool use over recent trajectories, historical behavior, stay-move likelihood, and geographical evidence. Across three mobility datasets, AgentMob achieves the strongest overall performance among training-free LLM-based methods, with GPT-5.4 reaching 71.42\% Acc@1 on BW, 33.14\% on YJMob100K, and 33.50\% on Shanghai ISP. On BW non-fast-path cases, the LLM controller improves Acc@1 from 30.65\% to 48.62\% over a same-tool statistical baseline, showing that its main benefit lies in resolving ambiguous predictions through adaptive evidence gathering. Our code is available at https://github.com/Unknown-zoo/AgentMob.
失敗した推論トレースから何が修正可能かを教えてくれます (ただし、それを読むことではわかりません)
トレーニング後の言語モデルが推論の問題で失敗した場合、一般的なテスト時間のスケーリング対応は、追加の試行により多くの計算を費やし、失敗したトレースはそれ以上の役割を果たさないことです。私たちは、これは重要なシグナルを破棄していると主張します。一部の失敗は不運なサンプリングによって発生し、より多くのロールアウトが役立ちますが、他の失敗は構造的なものであり、予算に関係なく再サンプリングに抵抗します。私たちは、失敗したトレースが回復可能構造、つまりテスト時の介入によって特定の失敗を救済できる推論時の署名をエンコードしていると提案します。利用可能な介入の構造から導出された 3 つの問題レベルの軌跡の特徴は、失敗したロールアウトのテキストではなく、配布の署名からこの構造を復元します。これらは、障害を安定した領域にクラスタリングし、さまざまなトレーニング後の方法の障害トポグラフィーを特徴付け ($84.3{\pm}4.3\%$ の精度、過半数クラスのベースラインより $+20\%$)、デプロイメント関連の Steerable-Hard サブセット (再試行が不十分で制限された介入が到達可能な障害) でレスキューを $+12.2\%$ 引き上げるトレーニング不要のルーティング ルールをサポートします。機能とルーティング ルールは、2 つのファミリー間プローブ間で転送されます。したがって、同じ 3 つの機能は、破棄されたデータから失敗したトレースを診断オブジェクトに変換し、トレーニング時や重み空間にアクセスすることなく、テスト時のルーティングとトレーニング後の分析をサポートします。
原文 (English)
Failed Reasoning Traces Tell You What Is Fixable (But Not by Reading Them)
When post-trained language models fail on reasoning problems, the common test-time-scaling response is to spend more compute on additional attempts, and the failed traces play no further role. We argue this discards a crucial signal; some failures come from unlucky sampling, where more rollouts help, while others are structural and resist resampling regardless of budget. We propose that failed traces encode recoverability structure: the inference-time signature of which test-time interventions can rescue a given failure. Three problem-level trajectory features, derived from the structure of available interventions, recover this structure from the distributional signature of failed rollouts, not their text. They cluster failures into stable regimes, characterize the failure topography of different post-training methods ($84.3{\pm}4.3\%$ accuracy, $+20\%$ over a majority-class baseline), and support a training-free routing rule that lifts rescue by $+12.2\%$ on the deployment-relevant Steerable-Hard subset (failures where retry is insufficient and a bounded intervention is reachable). The features and the routing rule transfer across two cross-family probes. The same three features thus convert failed traces from discarded data into a diagnostic object, supporting test-time routing and post-training analysis without training-time or weight-space access.
分布型 DAgger による豊富なフィードバックからの強化学習
推論モデルは急速に進歩しましたが、検証可能な報酬からの支配的な強化学習 (RLVR) レシピは驚くほど狭いままです。多くの応答をサンプリングし、最終的な答えが正しいかどうかを示す 1 ビットで各応答に報酬を与えます。さらに、多くの設定では、実行トレース、ツール出力、専門家による修正、モデルの自己評価など、豊富なフィードバックが提供されます。私たちは、古典的な模倣学習アルゴリズム DAgger の分布型バリアントを通じて、そのようなフィードバックを使用する方法を研究します。この場合、学習者は、現在のポリシーが訪問する州に関する専門家分布にローカルにアクセスできます。これにより、ブラックボックス専門家とその配列レベルの勾配が、将来の専門家と学生の意見の相違を以前の決定にまで「伝播させることによって豊富な単位の割り当てを行う」ことを認める、単純な順方向クロスエントロピー目標が得られます。我々は、逆KLまたはジェンセン・シャノンに基づく自己蒸留目標を備えた以前のRLでは、単調な政策改善を保証できないことを示します。たとえ専門家がより高い報酬を得ていたとしても、その更新により、より悪いアクションの確率が増加する可能性があります。対照的に、順方向クロスエントロピーは単調な政策改善を認め、後悔の保証を享受できることを示します。さらに、私たちの目標が教師に重み付けされた成功の可能性の下限を最適化し、Pass@N の向上につながることを示します。経験的に、私たちのアプローチである DistIL は、科学的推論、コーディング、難しい数学的問題の解決など、さまざまな領域にわたる自己蒸留ベースラインにより、RLVR および RL よりも改善されています。
原文 (English)
Reinforcement Learning from Rich Feedback with Distributional DAgger
Reasoning models have advanced rapidly, but the dominant reinforcement learning from verifiable rewards (RLVR) recipe remains surprisingly narrow: sample many responses and reward each with a single bit indicating whether the final answer is correct. Yet many settings provide rich feedback, including execution traces, tool outputs, expert corrections, and model self-evaluations. We study how to use such feedback through a distributional variant of the classic imitation learning algorithm DAgger, where the learner has local access to an expert distribution on states visited by the current policy. This yields a simple forward cross-entropy objective that admits a blackbox expert and whose sequence-level gradient {conduct rich credit assignment by propagating} future expert-student disagreement back to earlier decisions. We show that prior RL with self-distillation objectives based on reverse KL or Jensen-Shannon fail to guarantee monotonic policy improvement: even when the expert has higher reward, their updates may increase probability on worse actions. In contrast, we show that forward cross-entropy admits monotonic policy improvement and enjoys guarantees on regret. We further show that our objective optimizes a lower bound on teacher-weighted likelihood of success, leading to improved Pass@N. Empirically, our approach, DistIL, improves over RLVR and RL with self-distillation baselines across a variety of domains: scientific reasoning, coding, and solving hard mathematical problems.
マルチエージェント推論におけるストリーミング通信
マルチエージェント推論システムは、エンドツーエンドのレイテンシーをパイプラインの深さに応じて線形に拡張する「生成してから転送」パラダイムを採用しています。 StreamMA は、各推論ステップが生成されるとすぐに下流のエージェントにストリーミングし、隣接するエージェントをパイプライン化して待ち時間を短縮するマルチエージェント推論システムです。驚くべきことに、このパイプラインは有効性も向上させます。マルチステップの推論の品質は不均一で、初期のステップは後のステップよりも信頼性が高いため、完全なチェーンではなくこれらの信頼できる初期ステップを使用することで、エラーが発生しやすい後期ステップが下流エージェントに誤解を与えることを防ぎます。ストリーム、シリアル、および単一プロトコルの最初の閉じた形式の結合分析によって両方の利点を形式化し、有効性の順序付け、高速化の上限、およびコスト比を導き出します。数学、科学、コードにわたる 8 つの推論ベンチマーク、2 つのフロンティア LLM (Claude Opus 4.6 および GPT-5.4)、および 3 つのトポロジ (チェーン、ツリー、グラフ) にわたって、StreamMA は両方のベースラインを上回りました (HMMT 2026 で平均 +7.3 pp、最大 +22.4 pp、Claude Opus 4.6-高)。これらの貢献を超えて、「ステップレベルのスケーリング則」を発見しました。つまり、エージェントごとのステップを増やすと、有効性と効率の両方が一貫して向上します。これは、エージェント数のスケーリングと直交し、エージェント数のスケーリングと組み合わせ可能な新しいスケーリングの次元です。
原文 (English)
Streaming Communication in Multi-Agent Reasoning
Multi-agent reasoning systems adopt a "generate-then-transfer" paradigm that forces end-to-end latency to scale linearly with pipeline depth. We introduce StreamMA, a multi-agent reasoning system that streams each reasoning step to downstream agents as soon as it is generated, pipelining adjacent agents and thus reducing latency. Surprisingly, this pipelining also improves effectiveness: because multi-step reasoning quality is non-uniform and early steps are more reliable than later ones, working with these reliable early steps instead of the full chain prevents error-prone late steps from misleading downstream agents. We formalize both advantages with the first closed-form joint analysis of stream, serial, and single protocols, deriving the effectiveness ordering, speedup upper bound, and cost ratio. Across eight reasoning benchmarks spanning mathematics, science, and code, two frontier LLMs (Claude Opus 4.6 and GPT-5.4), and three topologies (Chain, Tree, Graph), StreamMA outperforms both baselines (avg. +7.3 pp, max +22.4 pp on HMMT 2026; Claude Opus 4.6-high). Beyond these contributions, we discover a "step-level scaling law": increasing per-agent steps consistently improves both effectiveness and efficiency, a new scaling dimension orthogonal to and composable with agent-count scaling.
より長いコンテキスト、より深い思考: 推論における長いコンテキスト能力の役割を明らかにする
最近の言語モデルは強力な推論能力を示していますが、長い文脈の能力が推論に及ぼす影響はまだ解明されていません。この研究では、現在の推論の制限は、部分的には、ロングコンテキストの能力が不十分であることに起因しており、(1) コンテキストウィンドウの長さが長いほど推論のパフォーマンスが向上することが多く、(2) 推論に失敗したケースは、失敗したロングコンテキストのケースに似ている、などの経験的観察によって動機付けられていると仮説を立てています。この仮説を検証するために、教師あり微調整 (SFT) の前にモデルのロングコンテキスト能力を強化することが推論パフォーマンスの向上につながるかどうかを調べます。具体的には、同一のアーキテクチャと微調整データを備えているが、ロングコンテキスト容量のレベルが異なるモデルを比較しました。私たちの結果は一貫した傾向を示しています。つまり、より強力なロングコンテキスト能力を持つモデルは、SFT 後の推論ベンチマークで大幅に高い精度を達成します。特に、これらの向上は入力長が短いタスクでも持続しており、長いコンテキストのトレーニングが推論パフォーマンスに一般化可能な利点を提供していることを示しています。これらの発見は、ロングコンテキストモデリングが長い入力を処理するために不可欠であるだけでなく、推論のための重要な基盤としても機能することを示唆しています。私たちは、将来の言語モデルの設計において、長いコンテキストの能力を第一級の目標として扱うことを主張します。
原文 (English)
Longer Context, Deeper Thinking: Uncovering the Role of Long-Context Ability in Reasoning
Recent language models exhibit strong reasoning capabilities, yet the influence of long-context capacity on reasoning remains underexplored. In this work, we hypothesize that current limitations in reasoning stem, in part, from insufficient long-context capacity, motivated by empirical observations such as (1) higher context window length often leads to stronger reasoning performance, and (2) failed reasoning cases resemble failed long-context cases. To test this hypothesis, we examine whether enhancing a model's long-context ability before Supervised Fine-Tuning (SFT) leads to improved reasoning performance. Specifically, we compared models with identical architectures and fine-tuning data but varying levels of long-context capacity. Our results reveal a consistent trend: models with stronger long-context capacity achieve significantly higher accuracy on reasoning benchmarks after SFT. Notably, these gains persist even on tasks with short input lengths, indicating that long-context training offers generalizable benefits for reasoning performance. These findings suggest that long-context modeling is not just essential for processing lengthy inputs, but also serves as a critical foundation for reasoning. We advocate for treating long-context capacity as a first-class objective in the design of future language models.
悪い分子の破壊: MLLM は構造レベルの分子解毒の準備ができていますか?
毒性は依然として、初期段階の医薬品開発の失敗の主な原因です。分子設計と特性予測の進歩にもかかわらず、毒性が低減された構造的に有効な分子代替物を生成する分子毒性修復の課題は、まだ体系的に定義されず、ベンチマークも確立されていません。このギャップを埋めるために、分子毒性修復に焦点を当てた汎用マルチモーダル大規模言語モデル (MLLM) の最初のベンチマーク タスクである ToxiMol を紹介します。私たちは、さまざまなメカニズムと粒度にわたる 11 の主要なタスクと 660 の代表的な有毒分子をカバーする標準化されたデータセットを構築します。私たちは、専門的な毒性学の知識に基づいて、メカニズムを認識し、タスクに適応する機能を備えた迅速なアノテーション パイプラインを設計します。並行して、毒性エンドポイント予測、合成アクセシビリティ、薬物らしさ、構造類似性を修復成功のためのハイスループット評価チェーンに統合する自動評価フレームワーク ToxiEval を提案します。当社は 43 の主流の汎用 MLLM を体系的に評価し、複数のアブレーション研究を実施して、評価指標、候補の多様性、失敗の原因などの重要な問題を分析します。実験結果は、現在の MLLM がこのタスクに関して依然として大きな課題に直面しているものの、毒性の理解、意味論的制約の順守、および構造を意識した編集において有望な能力を実証し始めていることを示しています。
原文 (English)
Breaking Bad Molecules: Are MLLMs Ready for Structure-Level Molecular Detoxification?
Toxicity remains a leading cause of early-stage drug development failure. Despite advances in molecular design and property prediction, the task of molecular toxicity repair, generating structurally valid molecular alternatives with reduced toxicity, has not yet been systematically defined or benchmarked. To fill this gap, we introduce ToxiMol, the first benchmark task for general-purpose Multimodal Large Language Models (MLLMs) focused on molecular toxicity repair. We construct a standardized dataset covering 11 primary tasks and 660 representative toxic molecules spanning diverse mechanisms and granularities. We design a prompt annotation pipeline with mechanism-aware and task-adaptive capabilities, informed by expert toxicological knowledge. In parallel, we propose an automated evaluation framework, ToxiEval, which integrates toxicity endpoint prediction, synthetic accessibility, drug-likeness, and structural similarity into a high-throughput evaluation chain for repair success. We systematically assess 43 mainstream general-purpose MLLMs and conduct multiple ablation studies to analyze key issues, including evaluation metrics, candidate diversity, and failure attribution. Experimental results show that although current MLLMs still face significant challenges on this task, they begin to demonstrate promising capabilities in toxicity understanding, semantic constraint adherence, and structure-aware editing.
制約付き適応拒否サンプリング
言語モデル (LM) は、生成された出力が厳密な意味論的または構文上の制約を満たす必要があるアプリケーションで使用されることが増えています。制約付き生成に対する既存のアプローチはさまざまです。貪欲な制約付きデコード方法は、デコード中に有効性を強制しますが、LM の分布を歪めます。一方、リジェクション サンプリング (RS) は忠実度を維持しますが、無効な出力を破棄することで計算を無駄にします。サンプルの有効性と多様性の両方が重要であるプログラム ファジングなどの領域では、両極端が問題となります。我々は、分布歪みを生じさせずに RS のサンプル効率を厳密に改善するアプローチである、制約付き適応除去サンプリング (CARS) を紹介します。 CARS は、制約のない LM サンプリングから始まり、制約違反の継続をトライに記録し、将来の描画から確率質量を差し引くことで、制約に違反する継続を適応的に除外します。この適応的な枝刈りにより、無効であることが証明されたプレフィックスが決して再検討されず、受け入れ率が単調に向上し、結果として得られるサンプルが制約された分布に正確に従うことが保証されます。プログラムのファジングや分子生成など、さまざまな領域の実験において、CARS は一貫して高い効率 (有効サンプルあたりの LM フォワードパスの数で測定) を達成すると同時に、GCD や LM の分布を近似する方法の両方よりも強力なサンプル多様性を生み出します。
原文 (English)
Constrained Adaptive Rejection Sampling
Language Models (LMs) are increasingly used in applications where generated outputs must satisfy strict semantic or syntactic constraints. Existing approaches to constrained generation fall along a spectrum: greedy constrained decoding methods enforce validity during decoding but distort the LM's distribution, while rejection sampling (RS) preserves fidelity but wastes computation by discarding invalid outputs. Both extremes are problematic in domains such as program fuzzing, where both validity and diversity of samples are essential. We present Constrained Adaptive Rejection Sampling (CARS), an approach that strictly improves the sample-efficiency of RS without distributional distortion. CARS begins with unconstrained LM sampling and adaptively rules out constraint-violating continuations by recording them in a trie and subtracting their probability mass from future draws. This adaptive pruning ensures that prefixes proven invalid are never revisited, acceptance rates improve monotonically, and the resulting samples exactly follow the constrained distribution. In experiments on a variety of domains -- e.g., program fuzzing and molecular generation -- CARS consistently achieves higher efficiency -- measured in the number of LM forward passes per valid sample -- while also producing stronger sample diversity than both GCD and methods that approximate the LM's distribution.
防御的な論理的思考を学ぶことで、深い暗黙の好みを調整する
大規模言語モデル (LLM) がユーザー中心の対話に効果的に関与できるようにするには、パーソナライズされた調整が不可欠です。しかし、現在の手法は二重の課題に直面しています。つまり、ユーザーの深い暗黙の好み(明示されていない目標、意味論的コンテキスト、リスク許容度など)を推測することができず、現実世界のあいまいさを乗り越えるために必要な防御的推論が欠けています。この認知ギャップは、表面的で脆弱で近視眼的な反応を引き起こします。これに対処するために、我々は、アラインメントをスカラー報酬マッチングタスクから構造化された推論プロセスに再構築する、批判駆動推論アラインメント (CDRA) を提案します。まず、プリファレンス推論のギャップを埋めるために、DeepPref ベンチマークを導入します。このデータセットは、20 のトピックにわたる 3000 のプリファレンスとクエリのペアで構成されており、クエリのセマンティクスを解体して潜在的なリスクを明らかにするために、批判注釈付きの推論チェーンを生成する多面的な認知評議会をシミュレートすることによってキュレーションされています。第 2 に、防御的推論を植え付けるために、報酬モデリングを個人化された推論タスクとして組み立てる、個人化された生成プロセス報酬モデル (Pers-GenPRM) を導入します。この理論的根拠に基づいて最終スコアを出力する前に、ユーザーの好みと応答の整合性を評価するための批評チェーンを生成します。最終的に、この解釈可能で構造化された報酬信号は、数値フィードバックと自然言語フィードバックの両方を統合するプロセスレベルのオンライン強化学習アルゴリズムである批判主導型政策調整を通じて政策モデルを導きます。実験では、CDRA が、堅牢な推論を実行しながら、ユーザーの真の好みを発見して調整することに優れていることが実証されています。コードとデータセットは https://github.com/Zephyrian-Hugh/Deep-pref で入手できます。
原文 (English)
Aligning Deep Implicit Preferences by Learning to Reason Defensively
Personalized alignment is crucial for enabling Large Language Models (LLMs) to engage effectively in user-centric interactions. However, current methods face a dual challenge: they fail to infer users' deep implicit preferences (including unstated goals, semantic context and risk tolerances), and they lack the defensive reasoning required to navigate real-world ambiguity. This cognitive gap leads to responses that are superficial, brittle and short-sighted. To address this, we propose Critique-Driven Reasoning Alignment (CDRA), which reframes alignment from a scalar reward-matching task into a structured reasoning process. First, to bridge the preference inference gap, we introduce the DeepPref benchmark. This dataset, comprising 3000 preference-query pairs across 20 topics, is curated by simulating a multi-faceted cognitive council that produces critique-annotated reasoning chains to deconstruct query semantics and reveal latent risks. Second, to instill defensive reasoning, we introduce the Personalized Generative Process Reward Model (Pers-GenPRM), which frames reward modeling as a personalized reasoning task. It generates a critique chain to evaluate a response's alignment with user preferences before outputting a final score based on this rationale. Ultimately, this interpretable, structured reward signal guides policy model through Critique-Driven Policy Alignment, a process-level online reinforcement learning algorithm integrating both numerical and natural language feedback. Experiments demonstrate that CDRA excels at discovering and aligning with users' true preferences while executing robust reasoning. Our code and dataset are available at https://github.com/Zephyrian-Hugh/Deep-pref.
MENTOR: LLM の暗黙的なドメイン リスクを発見し軽減するためのメタ認知主導の自己進化フレームワーク
大規模言語モデル (LLM) の安全性を確保することは、実際の展開にとって重要です。しかし、現在の安全対策では、ドメイン固有の暗黙的なリスクに対処できないことがよくあります。このギャップを調査するために、教育、財務、管理にわたる 3,000 件の注釈付きクエリのデータセットを導入します。 14 の主要 LLM の評価では、平均脱獄成功率 57.8\% という懸念すべき脆弱性が明らかになりました。これに応えて、私たちはメタ認知主導の自己進化フレームワークである MENTOR を提案します。 MENTOR は、視点の取得や結果論的推論などの戦略を使用してメタ認知的自己評価を実行し、潜在的なモデルの不整合を明らかにします。結果として生じる反映は、動的なルールベースのナレッジ グラフに蒸留され、そこから取得されたルールが、推論中に内部表現をガイドするためのアクティベーション レベルのステアリング信号に変換されます。実験では、MENTOR がテストされたすべてのドメインにわたって攻撃の成功率を大幅に低下させ、既存の安全調整方法よりも優れたパフォーマンスを発揮することが実証されています。 MENTOR のコードとデータセットは、https://anonymous.4open.science/r/MENTOR-Evo で入手できます。
原文 (English)
MENTOR: A Metacognition-Driven Self-Evolution Framework for Uncovering and Mitigating Implicit Domain Risks in LLMs
Ensuring the safety of Large Language Models (LLMs) is critical for real-world deployment. However, current safety measures often fail to address implicit, domain-specific risks. To investigate this gap, we introduce a dataset of 3,000 annotated queries spanning education, finance, and management. Evaluations across 14 leading LLMs reveal a concerning vulnerability: an average jailbreak success rate of 57.8\%. In response, we propose MENTOR, a metacognition-driven self-evolution framework. MENTOR performs metacognitive self-assessment, using strategies such as perspective-taking and consequential reasoning to uncover latent model misalignments. The resulting reflections are distilled into dynamic rule-based knowledge graphs, from which retrieved rules are converted into activation-level steering signals to guide internal representations during inference. Experiments demonstrate that MENTOR substantially reduces attack success rates across all tested domains and outperforms existing safety alignment methods. The code and dataset for MENTOR are available at: https://anonymous.4open.science/r/MENTOR-Evo.
PersistBench: LLM は長期記憶をいつ忘れるべきですか?
会話アシスタントは、長期記憶と大規模言語モデル (LLM) をますます統合しています。この記憶の永続性(たとえば、ユーザーがベジタリアンであるなど)は、将来の会話におけるパーソナライゼーションを強化することができます。しかし、同じ持続性が、これまでほとんど見落とされてきた安全上のリスクを引き起こす可能性もあります。そこで、これらの安全リスクの程度を測定するために PersistBench を導入します。我々は、長期記憶に特有の 2 つのリスクを特定しました。1 つは、LLM が長期記憶からコンテキストを不適切に注入するクロスドメイン漏洩です。保存された長期記憶がユーザーのバイアスを知らず知らずのうちに強化する、記憶誘発性のお調子者。私たちは 18 のフロンティア LLM とオープンソース LLM をベンチマークで評価します。私たちの結果は、これらの LLM 全体での失敗率が驚くほど高いことを明らかにしました。失敗率の中央値は、クロスドメイン サンプルで 53%、お調子者サンプルで 97% でした。これに対処するために、私たちのベンチマークは、最先端の会話システムにおけるより堅牢で安全な長期メモリ使用法の開発を奨励します。
原文 (English)
PersistBench: When Should Long-Term Memories Be Forgotten by LLMs?
Conversational assistants are increasingly integrating long-term memory with large language models (LLMs). This persistence of memories, e.g., the user is vegetarian, can enhance personalization in future conversations. However, the same persistence can also introduce safety risks that have been largely overlooked. Hence, we introduce PersistBench to measure the extent of these safety risks. We identify two long-term memory-specific risks: cross-domain leakage, where LLMs inappropriately inject context from the long-term memories; and memory-induced sycophancy, where stored long-term memories insidiously reinforce user biases. We evaluate 18 frontier and open-source LLMs on our benchmark. Our results reveal a surprisingly high failure rate across these LLMs - a median failure rate of 53% on cross-domain samples and 97% on sycophancy samples. To address this, our benchmark encourages the development of more robust and safer long-term memory usage in frontier conversational systems.
配信外の検出から幻覚の検出まで: 幾何学的な視点
大規模な言語モデルにおける幻覚の検出は、安全性と信頼性に重大な影響を与える重大な未解決の問題です。既存の幻覚検出方法は、質問に答えるタスクでは優れたパフォーマンスを発揮しますが、推論が必要なタスクでは依然として効果が低いままです。この研究では、コンピュータ ビジョンなどの分野でよく研究されている問題である、分布外 (OOD) 検出というレンズを通して幻覚検出を再検討します。言語モデルで次のトークンの予測を分類タスクとして扱うことにより、大規模な言語モデルの構造的な違いを考慮して適切な変更が加えられる限り、OOD 手法を適用することができます。我々は、OOD ベースのアプローチにより、トレーニング不要の単一サンプルベースの検出器が得られ、推論タスクの幻覚検出において高い精度が達成されることを示します。全体として、私たちの研究は、幻覚検出を OOD 検出として再構成することが、言語モデルの安全性への有望でスケーラブルな道筋を提供することを示唆しています。
原文 (English)
From Out-of-Distribution Detection to Hallucination Detection: A Geometric View
Detecting hallucinations in large language models is a critical open problem with significant implications for safety and reliability. While existing hallucination detection methods achieve strong performance in question-answering tasks, they remain less effective on tasks requiring reasoning. In this work, we revisit hallucination detection through the lens of out-of-distribution (OOD) detection, a well-studied problem in areas like computer vision. Treating next-token prediction in language models as a classification task allows us to apply OOD techniques, provided appropriate modifications are made to account for the structural differences in large language models. We show that OOD-based approaches yield training-free, single-sample-based detectors, achieving strong accuracy in hallucination detection for reasoning tasks. Overall, our work suggests that reframing hallucination detection as OOD detection provides a promising and scalable pathway toward language model safety.
SciDER: 科学データ中心のエンドツーエンド研究者
大規模な言語モデルが科学的発見を加速させる一方で、既存のエージェントは適応性、ドメインの一般化、マルチモーダルなスケーラビリティにおいて厳しい制限に直面しており、多くの場合、生のドメイン固有の実験データを自律的に処理するのに苦労しています。これらの障壁を克服するために、研究ライフサイクル全体を柔軟に自動化するように設計されたマルチエージェント システムである SciDER を導入します。このフレームワークは、新しいデータ中心のアプローチを採用し、4 つの専門化されたサブエージェントにわたる動的なマルチモーダル スキル システムを統合します。具体的には、アイデア化エージェントは進化的アイデア検索を通じて新しい仮説を生成し、データ分析エージェントは生データを体系的に構造化し、実験エージェントはデータセットの特性に基づいて実行可能コードを合成し、批評エージェントは反復的な自己洗練を推進します。オープンソースの科学的発見を民主化するために、私たちは OpenSciDER-27B 微調整モデルと並行して、高品質の実行軌跡データセットである OpenSciDER-SFT-8K をリリースします。 6 つのベンチマーク全体で、SciDER と OpenSciDER は競合する、または優れた結果を獲得しており、特にデータ中心の分析、エンドツーエンドの研究実行、マルチモーダルな科学的視覚化において大きな成果が得られています。 SciDER は、データ分析と実験の実行を統合することにより、抽象的な科学的推論と再現可能な実験合成の間のギャップを埋めます。
原文 (English)
SciDER: Scientific Data-centric End-to-end Researcher
While large language models accelerate scientific discovery, existing agents face severe limitations in adaptability, domain generalization, and multimodal scalability, often struggling to autonomously process raw, domain-specific experimental data. To overcome these barriers, we introduce SciDER, a multi-agent system designed to flexibly automate the entire research lifecycle. This framework employs a novel data-centric approach and integrates a dynamic multimodal skill system across four specialized sub-agents. Specifically, an ideation agent generates novel hypotheses via Evolutionary Idea Search, a data analysis agent systematically structures raw data, an experimentation agent synthesizes executable code grounded in dataset characteristics, and a critic agent drives iterative self-refinement. To democratize open-source scientific discovery, we release OpenSciDER-SFT-8K, a high-quality execution trajectory dataset, alongside the OpenSciDER-27B fine-tuned model. Across six benchmarks, SciDER and OpenSciDER obtain competitive or leading results, with especially strong gains on data-centric analysis, end-to-end research execution, and multimodal scientific visualization. By integrating data analysis with experimental execution, SciDER bridges the gap between abstract scientific reasoning and reproducible experimentation synthesis.
AI を介した結果的な決定を選択するという幻想
ウルマン=マルガリットの選択の概念(変革的で、取り消し不可能で、差し押さえられた代替案によって影が隠れる)を利用して、現在の AI システムが、既存の AI 倫理が完全には捉えていない深刻な倫理的問題を提起していることを示します。それは、個人やグループが、真に選択できるようになるために必要な主体が弱体化している間に、意味のある結果的な選択の欺瞞的な外観に遭遇する選択の幻想です。 AI を主に既に与えられた目的の最適化装置として扱うアプローチに対して、私たちは、AI システムは選択という幻想からメタ能力を保護し育成するかどうかによって評価されるべきだと主張します。メタ能力とは、手段と目的を形成し、異議を唱え、修正し、所有することができる、社会的および制度的に足場を築かれた主体的能力のことです。この再構成は、AI を介した経路が行動や行動を誤った方向に導いた場合に、選択するという幻想のコストを吸収することが最も困難な恵まれない人々にとって特に緊急です。私たちは、AI を介した結果的意思決定のための 3 つの規範的命令を提案します。それは、予測の限界を認める実存的誠実さです。生態学的合理性。不均質な生きた生態の中に指針を位置づけます。そして、反事実的賠償。AI を介した意思決定経路が失敗した場合に、差し押さえられた代替手段を認めて修復します。
原文 (English)
The Illusion of Opting in AI-Mediated Consequential Decisions
Drawing on Ullmann-Margalit's concept of opting (transformative, irrevocable, and shadowed by foreclosed alternatives), we show that current AI systems raise a profound ethical problem that existing AI ethics has not fully captured: the illusion of opting, in which persons and groups encounter the deceptive appearance of meaningful consequential choice while the agency needed to become genuinely capable of choosing is weakened. Against approaches that treat AI primarily as an optimizer of already given ends, we argue that AI systems should be evaluated by whether they protect and cultivate meta-capacity against the illusion of opting: the socially and institutionally scaffolded agentive capacity through which means and ends can be formed, contested, revised, and owned. This reframing is especially urgent for disadvantaged populations, who are least able to absorb the costs of the illusion of opting when AI-mediated pathways misdirect behavior and action. We propose three normative imperatives for AI-mediated consequential decisions: existential honesty, which acknowledges the limits of prediction; ecological rationality, which situates guidance within heterogeneous lived ecologies; and counterfactual reparation, which acknowledges and repairs foreclosed alternatives when AI-mediated decision-making pathways fail.
サブリミナル学習はベクトル蒸留を操る
サブリミナル学習とは、教師の出力を微調整した場合に、出力が意味的にそれらの特性と無関係であるにもかかわらず、生徒の言語モデルが教師の特性 (システムが促すフクロウの好みなど) を獲得することを指します。セマンティックな意味を持たないデータがどのようにして特定のセマンティックな特徴を伝達できるのかについては、依然として十分に理解されていません。この研究では、サブリミナル学習が単一のステアリング ベクトル、つまりモデルの活性化に追加されるベクトルによって媒介されることを示します。 2 つのオープンソース モデル全体で、教師のシステム プロンプトはステアリング ベクトルによってよく近似されており、生徒の行動は微調整を通じて調整されたベクトルを学習することによって駆動されることがわかりました。ステアリング ベクトルによって適切に近似されていないシステム プロンプトは潜在的に学習されません。これは、ステアリング ベクトル蒸留の特殊なケースであり、ステアリングされた教師の出力で訓練された生徒が、そのステアリングを模倣することを学びます。一連のセマンティック ベクトルとランダム ベクトルに対するステアリング ベクトル蒸留を示します。モデルのアクティベーションにセマンティック ベクトルを追加すると、その動作にモデルに依存しない効果とモデル固有 (つまり、非セマンティック) の両方の効果が生じる可能性があるため、生成された非セマンティック データはセマンティック効果を持つベクトルを送信でき、サブリミナル学習が可能になります。これは、サブリミナル学習がモデル間で移行しない理由も説明します。言語モデルにおけるサブリミナル学習には適応オプティマイザーが必要であることがわかりました。ステアリングされたデータの活性化勾配はステアリング方向に沿って小さいながらも一貫した成分を運びますが、非適応オプティマイザーは外れ値の勾配が優勢になることを許可することでこれを妨げます。
原文 (English)
Subliminal Learning Is Steering Vector Distillation
Subliminal learning refers to a student language model acquiring a teacher's traits (e.g. a system-prompted preference for owls) when fine-tuned on the teacher's outputs, despite the outputs being semantically unrelated to those traits. It remains poorly understood how data without semantic meaning can transfer specific semantic traits. In this work, we show that subliminal learning is mediated by a single steering vector, i.e. a vector added to the model's activations. Across two open-source models, we find that the teacher's system prompt is well approximated by a steering vector, and that the student's behavior is driven by learning an aligned vector over fine-tuning. System prompts that are not well approximated by steering vectors are not subliminally learned. This is a special case of steering vector distillation, in which a student trained on the outputs of a steered teacher learns to imitate that steering. We demonstrate steering vector distillation on a range of semantic and random vectors. Adding a semantic vector to a model's activations can have both model-independent and model-specific (i.e. non-semantic) effects on its behavior, so generated data that is non-semantic can transmit a vector with semantic effects, enabling subliminal learning. This also explains why subliminal learning does not transfer between models. We find that adaptive optimizers are necessary for subliminal learning in language models: activation gradients on steered data carry a small but consistent component along the steering direction, and non-adaptive optimizers impede this by allowing outlier gradients to dominate.
歯科医療における大規模 AI モデル: 汎用システムからドメイン固有の基盤モデルまで
背景: 口腔疾患は世界中で約 35 億人に影響を与えていますが、歯科における大規模 AI モデルの相対的な臨床的可能性は依然として十分に理解されていません。言語生成モデル、弁別視覚基礎モデル、歯科特有の基礎モデルという 3 つの異なるモデル カテゴリが出現しましたが、それらの関係や集合的な制限を検討する統一されたレビューはありません。方法: PRISMA-ScR ガイドラインに従って、4 つのデータベース (PubMed、Google Scholar、Scopus、arXiv) を体系的に検索し、2 人の査読者によって独立してスクリーニングされました。包含/除外基準を適用した後、97 件の研究 (2020 ~ 2026 年) が含まれました。建築パラダイムと歯科専門度によってモデルを整理する二次元分類フレームワークを提案します。結果: 言語生成モデルは、テキストベースのタスク (臨床推論、免許試験、患者とのコミュニケーション) には優れていますが、画像依存の診断では一貫性のないパフォーマンスを示します。適応された SAM および CLIP バリアントにより、強力な歯のセグメンテーションと病変検出結果が得られます。歯科専用モデル (DentVFM、DentVLM、OralGPT) は、複雑なマルチモーダルなタスクで最高のパフォーマンスを発揮します。統合されたパイプラインは、単一モデルのアプローチよりも常に優れたパフォーマンスを発揮します。データの非対称性が観察されます。歯科特有の事前トレーニングはほぼ完全に視覚領域に集中しており、大規模な歯科テキスト コーパスがほとんどないことを反映しています。結論: 汎用モデルと歯科専用モデルは補完的な役割を果たします。最も効果的なシステムは、構造化されたパイプライン内で両方を組み合わせたものです。安全な自律展開には、生成モデルにおける幻覚、注釈付き歯科データセットの制限、標準化された臨床評価ベンチマークの欠如という 3 つの永続的な障壁を解決する必要があります。
原文 (English)
Large AI Models in Dental Healthcare: From General-Purpose Systems to Domain-Specific Foundation Models
Background: Oral diseases affect nearly 3.5 billion people worldwide, yet the comparative clinical potential of large-scale AI models in dentistry remains poorly understood. Three distinct model categories have emerged: language-generative models, discriminative vision foundation models, and dental-specific foundation models, with no unified review examining their relationships and collective limitations. Methods: Following PRISMA-ScR guidelines, we systematically searched four databases (PubMed, Google Scholar, Scopus, arXiv), screened independently by two reviewers. After applying inclusion/exclusion criteria, 97 studies (2020-2026) were included. We propose a two-dimensional classification framework organizing models by architectural paradigm and dental specialization degree. Results: Language-generative models excel at text-based tasks (clinical reasoning, licensing exams, patient communication) but show inconsistent performance on image-dependent diagnostics. Adapted SAM and CLIP variants achieve strong tooth segmentation and lesion detection results. Dental-specific models (DentVFM, DentVLM, OralGPT) demonstrate strongest performance on complex multimodal tasks. Integrated pipelines consistently outperform single-model approaches. A data asymmetry is observed: dental-specific pretraining concentrates almost entirely in the vision domain, reflecting scarce large-scale dental text corpora. Conclusions: General-purpose and dental-specific models play complementary roles; the most effective systems combine both within structured pipelines. Safe autonomous deployment requires resolving three persistent barriers: hallucination in generative models, limited annotated dental datasets, and absent standardized clinical evaluation benchmarks.
LEAP: エージェント フレームワークを使用した形式数学用の LLM のスーパーチャージング
大規模言語モデル (LLM) は強力な非公式数学的推論を示しますが、リーンのような形式言語では機械的に検証可能な証明を生成するのに苦労します。 LEAP は、汎用基礎モデルが自動化された形式定理証明で最先端のパフォーマンスを達成できるようにするエージェント フレームワークです。 LEAP は、非公式推論、指示に従って、反復的な自己改善などの基礎モデルの機能を活用します。複雑な問題をより小さな単位に分解することで、システムはリーン コンパイラーとの継続的な対話を通じて、正式な証明の構築と非公式のブループリントの橋渡しをします。ますます飽和しつつあるベンチマークを超えた厳密な評価を提供するために、リーンで形式化された IMO スタイルの問題のベンチマークである Lean-IMO-Bench を導入します。このベンチマークでは、短いステートメントでありながら非常に非日常的で、幅広い難易度にわたる複数ステップの証明が行われます。経験的に、北米の学部学生を対象とした毎年恒例の数学コンテストである最新の 2025 年のパトナム コンペティションでは、LEAP は 12 の問題すべてを解決し、フロンティアの正式な数学モデルによる最近の進歩と一致しています。 Lean-IMO-Bench では、LEAP は汎用 LLM のワンショット形式解決率を 10% 未満から 70% に引き上げ、特に金メダル級の専門化された IMO システムによって設定されたベンチマークの 48% を上回っています。さらに、偶数次ケイリーグラフのクヌースのハミルトニアン分解における重要な部分問題の検証された証明を含む、オープンな組み合わせ課題に対する複雑な証明を自律的に形式化することで、LEAP の研究レベルの有用性を実証します。
原文 (English)
LEAP: Supercharging LLMs for Formal Mathematics with Agentic Frameworks
Large Language Models (LLMs) exhibit strong informal mathematical reasoning but struggle to generate mechanically verifiable proofs in formal languages like Lean. We present LEAP, an agentic framework that enables general-purpose foundation models to achieve state-of-the-art performance on automated formal theorem proving. LEAP leverages foundation model capabilities, such as informal reasoning, instruction following, and iterative self-refinement. By decomposing complex problems into smaller units, the system bridges formal proof construction with informal blueprints through continuous interaction with the Lean compiler. To provide a rigorous evaluation beyond increasingly saturated benchmarks, we introduce Lean-IMO-Bench, a benchmark of IMO-style problems formalized in Lean, with short statements yet highly non-routine and multi-step proofs across a wide range of difficulty levels. Empirically, on the latest 2025 Putnam Competition, an annual mathematics competition for undergraduate students in North America, LEAP solves all 12 problems, matching recent breakthroughs by frontier formal mathematical models. On Lean-IMO-Bench, LEAP boosts the one-shot formal solve rate of general-purpose LLMs from below 10% to 70%, notably surpassing the 48% benchmark set by a specialized, gold-medal-caliber IMO system. Furthermore, we demonstrate LEAP's research-level utility by autonomously formalizing complex proofs for open combinatorial challenges, including a verified proof for a key subproblem in Knuth's Hamiltonian decomposition of even-order Cayley graphs.
ChatSOP: 制御可能な LLM 対話エージェントのための SOP ガイド付き MCTS 計画フレームワーク
Large Language Model (LLM) を利用した対話エージェントは、さまざまなタスクで優れたパフォーマンスを示します。ユーザーの理解が深まり、人間らしい応答ができるようになったにもかかわらず、ユーザーの*制御性の欠如**は依然として重要な課題であり、焦点の合わない会話やタスクの失敗につながることがよくあります。これに対処するために、対話の流れを規制する標準操作手順 (SOP) を導入します。具体的には、LLM 駆動の対話エージェントの制御性を強化するために設計された新しい SOP ガイド付きモンテカルロ木探索 (MCTS) 計画フレームワークである **ChatSOP** を提案します。これを可能にするために、GPT-4o を備えた半自動ロールプレイング システムを使用して生成され、厳格な手動品質管理を通じて検証された、SOP アノテーション付きのマルチシナリオ対話で構成されるデータセットを厳選しました。さらに、SOP予測のための教師あり微調整と思考連鎖推論を統合し、対話中に最適な行動計画を立てるためにSOPに基づくモンテカルロ木探索を利用する新しい方法を提案します。実験結果は、GPT-3.5 に基づくベースライン モデルと比較してアクション精度の 27.95% の向上を達成し、オープンソース モデルでも顕著な向上を示すなど、私たちの方法の有効性を示しています。データセットとコードは公開されています。
原文 (English)
ChatSOP: An SOP-Guided MCTS Planning Framework for Controllable LLM Dialogue Agents
Dialogue agents powered by Large Language Models (LLMs) show superior performance in various tasks. Despite the better user understanding and human-like responses, their **lack of controllability** remains a key challenge, often leading to unfocused conversations or task failure. To address this, we introduce Standard Operating Procedure (SOP) to regulate dialogue flow. Specifically, we propose **ChatSOP**, a novel SOP-guided Monte Carlo Tree Search (MCTS) planning framework designed to enhance the controllability of LLM-driven dialogue agents. To enable this, we curate a dataset comprising SOP-annotated multi-scenario dialogues, generated using a semi-automated role-playing system with GPT-4o and validated through strict manual quality control. Additionally, we propose a novel method that integrates Chain of Thought reasoning with supervised fine-tuning for SOP prediction and utilizes SOP-guided Monte Carlo Tree Search for optimal action planning during dialogues. Experimental results demonstrate the effectiveness of our method, such as achieving a 27.95% improvement in action accuracy compared to baseline models based on GPT-3.5 and also showing notable gains for open-source models. Dataset and codes are publicly available.
SSSD: シンプルにスケーラブルな投機的デコーディング
投機的デコーディングは、大規模言語モデルで推論を高速化するための一般的な手法として登場しました。ただし、既存のアプローチのほとんどは、運用サービス システムにわずかな改善しかもたらしません。大幅な高速化を実現するメソッドは通常、追加のトレーニング済みドラフト モデルまたは補助モデル コンポーネントに依存しており、展開とメンテナンスの複雑さが増大します。この複雑さの追加により、特にドラフト モデルのトレーニング データで十分に表現されていないタスク、ドメイン、または言語にワークロードを移行する場合に、柔軟性が低下します。私たちは、軽量の N グラム マッチングとハードウェア対応の投機を組み合わせたトレーニング不要の手法である Simply-Scalable Speculative Decoding (SSSD) を紹介します。標準の自己回帰デコーディングと比較して、SSSD はレイテンシーを最大 2.9 倍削減します。幅広いベンチマークにわたって、主要なトレーニングベースのアプローチと同等のパフォーマンスを達成しながら、導入の労力が大幅に軽減され(データの準備、トレーニング、チューニングは必要ありません)、言語やドメインの変更や長いコンテキスト設定でも優れた堅牢性を示します。
原文 (English)
SSSD: Simply-Scalable Speculative Decoding
Speculative Decoding has emerged as a popular technique for accelerating inference in Large Language Models. However, most existing approaches yield only modest improvements in production serving systems. Methods that achieve substantial speedups typically rely on an additional trained draft model or auxiliary model components, increasing deployment and maintenance complexity. This added complexity reduces flexibility, particularly when serving workloads shift to tasks, domains, or languages that are not well represented in the draft model's training data. We introduce Simply-Scalable Speculative Decoding (SSSD), a training-free method that combines lightweight n-gram matching with hardware-aware speculation. Relative to standard autoregressive decoding, SSSD reduces latency by up to 2.9x. It achieves performance on par with leading training-based approaches across a broad range of benchmarks, while requiring substantially lower adoption effort--no data preparation, training or tuning are needed--and exhibiting superior robustness under language and domain shift, as well as in long-context settings.
LaVIDE: 地図と画像の位置合わせによる言語による衛星変化の検出
地図参照と最新の画像に基づくリモート センシングによる変化検出により、比較対象となる以前の画像が不足している場合でも、地表のタイムリーな観察が促進されます。ただし、高レベルのマップ カテゴリと低レベルの画像詳細の間の意味上のギャップにより、変化検出における堅牢な時間的関連性のための均一な特徴の抽出が妨げられます。ピクセル レベルの視覚的な類似性を比較したり、セグメンテーション エラーを伝播したりする従来のアプローチとは異なり、\textcolor{black}{私たちは、言語を媒介として高レベルの地図カテゴリと低レベルの画像詳細の間の意味論的なギャップを埋める、\underline{La}nguage-\underline{VI}sion \underline{D}iscriminator for d\underline{E}tecting変更であるLaVIDE}という新しいフレームワークを提案します。具体的には、マップのセマンティクスを画像コンテンツと一致させるコンテキスト認識型のテキスト プロンプトを生成するための {\it 制限付きプロンプト学習} と、オブジェクト レベルの属性 (形状、境界など) をマップ表現に統合するための {\it オブジェクト認識埋め込み強化} 戦略を導入します。これらのコンポーネントにより、統一された言語と視覚の機能空間内での堅牢なクロスモーダル調整が可能になります。 DynamicEarthNet、HRSCD、BANDON、SECOND の 4 つのベンチマークに関する広範な実験により、LaVIDE が最先端の手法を大幅に上回り、マルチクラスおよびシングルクラスの変更検出タスクでそれぞれ IoU が $18.4\%$ および $5.2\%$ 向上することが実証されました。私たちのフレームワークは、地図画像の変化検出の精度を向上させるだけでなく、人間の介入を最小限に抑えて迅速な地図更新を実現する実用的なソリューションを提供し、都市計画、災害評価、生態保全に幅広い影響を与えることが期待されています。コードとデータセットは https://github.com/ShuGuoJ/LAVIDE.git から入手できます。
原文 (English)
LaVIDE: Language-Prompted Satellite Change Detection via Map-Image Alignment
Remote sensing change detection based on a map reference and an up-to-date image boosts timely observation of the Earth's surface when earlier images are lacking for comparison. However, the semantic gap between high-level map categories and low-level image details hinders the extraction of homogeneous features for robust temporal association in change detection. Unlike conventional approaches that either compare pixel-level visual similarity or propagate segmentation errors, \textcolor{black}{we propose a novel framework, \underline{La}nguage-\underline{VI}sion \underline{D}iscriminator for d\underline{E}tecting changes, LaVIDE}, which bridges the semantic gap between high-level map categories and low-level image details using language as an intermediary. Specifically, we introduce {\it restricted prompt learning} to generate context-aware textual prompts that align map semantics with image content, and an {\it object-aware embedding enhancement} strategy to integrate object-level attributes (e.g., shape, boundary) into map representations. These components enable robust cross-modal alignment within a unified language-vision feature space. Extensive experiments on four benchmarks, DynamicEarthNet, HRSCD, BANDON, and SECOND, demonstrate that LaVIDE outperforms state-of-the-art methods by significant margins, achieving $18.4\%$ and $5.2\%$ improvements in IoU on multi-class and single-class change detection tasks, respectively. Our framework not only advances the accuracy of map-image change detection but also provides a practical solution for rapid map updating with minimal human intervention, promising broad impacts in urban planning, disaster assessment, and ecological conservation. Code and datasets are available at: https://github.com/ShuGuoJ/LAVIDE.git.
投機的思考: 推論時の大規模モデルのガイダンスによる小規模モデル推論の強化
最近の進歩では、ポストトレーニングを利用してモデル推論のパフォーマンスを向上させていますが、これには通常、高価なトレーニング パイプラインが必要であり、依然として非効率で長すぎる出力に悩まされています。トークン レベルで動作する投機的デコードとは異なり、推論レベルでの推論中に大規模な推論モデルが小規模な推論モデルをガイドできるようにする、トレーニング不要のフレームワークである投機的思考を紹介します。私たちのアプローチは 2 つの観察に基づいています。(1) 「wait」などの推論をサポートするトークンは、「\n\n」などの構造区切り文字の後に頻繁に出現し、反映または継続の信号として機能します。 (2) より大きなモデルは、反射的な動作に対するより強力な制御を示し、推論の品質を向上させながら不必要な後戻りを減らします。反射ステップをより有能なモデルに戦略的に委任することで、私たちの方法は、出力を短縮しながら推論モデルの推論精度を大幅に向上させます。 32B 推論モデルの支援により、1.5B モデルの MATH500 の精度は 83.2% から 89.4% に増加し、6.2% の大幅な改善を記録しました。同時に、平均出力長は 5439 トークンから 4583 トークンに減少し、これは 15.7% の減少に相当します。さらに、非推論モデル (Qwen-2.5-7B-Instruct) に適用すると、私たちのフレームワークは同じベンチマークで精度が 74.0% から 81.8% に向上し、7.8% の相対的な改善を達成しました。
原文 (English)
Speculative Thinking: Enhancing Small-Model Reasoning with Large Model Guidance at Inference Time
Recent advances leverage post-training to enhance model reasoning performance, which typically requires costly training pipelines and still suffers from inefficient, overly lengthy outputs. We introduce Speculative Thinking, a training-free framework that enables large reasoning models to guide smaller ones during inference at the reasoning level, distinct from speculative decoding, which operates at the token level. Our approach is based on two observations: (1) reasoning-supportive tokens such as "wait" frequently appear after structural delimiters like "\n\n", serving as signals for reflection or continuation; and (2) larger models exhibit stronger control over reflective behavior, reducing unnecessary backtracking while improving reasoning quality. By strategically delegating reflective steps to a more capable model, our method significantly boosts the reasoning accuracy of reasoning models while shortening their output. With the assistance of the 32B reasoning model, the 1.5B model's accuracy on MATH500 increases from 83.2% to 89.4%, marking a substantial improvement of 6.2%. Simultaneously, the average output length is reduced from 5439 tokens to 4583 tokens, representing a 15.7% decrease. Moreover, when applied to a non-reasoning model (Qwen-2.5-7B-Instruct), our framework boosts its accuracy from 74.0% to 81.8% on the same benchmark, achieving a relative improvement of 7.8%.
SoLoPO: ショートからロングへの優先設定の最適化による LLM のロングコンテキスト機能のロック解除
拡張されたコンテキスト サイズによる事前トレーニングの進歩にも関わらず、大規模言語モデル (LLM) は、実世界の長いコンテキスト情報を効果的に利用するという課題に依然として直面しています。これは主に、データ品質の問題、トレーニングの非効率性、および適切に設計された最適化目標の欠如によって引き起こされる不十分な長いコンテキストの調整が原因です。これらの制限に対処するために、私たちは \textbf{S}h\textbf{o}rt-to-\textbf{Lo}ng \textbf{P}reference \textbf{O}ptimization (\textbf{SoLoPO}) というフレームワークを提案します。これは、ロングコンテキストの優先最適化 (PO) を、理論的証拠と経験的証拠の両方によって裏付けられた、ショートコンテキスト PO とショートからロングへの報酬調整 (SoLo-RA) の 2 つのコンポーネントに分離します。具体的には、ショートコンテキスト PO は、ショートコンテキストからサンプリングされたプリファレンスペアを活用して、モデルのコンテキスト知識の利用能力を強化します。一方、SoLo-RA は、同一のタスク関連情報を含む短いコンテキストと長いコンテキストの両方を条件とした場合、応答の報酬スコアの一貫性を明示的に促進します。これにより、短いコンテキストを処理するモデルの機能を長いコンテキストのシナリオに移すことが容易になります。 SoLoPO は、主流の優先最適化アルゴリズムと互換性があり、データ構築とトレーニング プロセスの効率を大幅に向上させます。実験結果は、SoLoPO が、さまざまなロングコンテキストのベンチマーク全体にわたって、より強力な長さおよびドメイン汎化能力に関してこれらすべてのアルゴリズムを強化し、同時に計算効率とメモリ効率の両方で顕著な改善を達成することを示しています。
原文 (English)
SoLoPO: Unlocking Long-Context Capabilities in LLMs via Short-to-Long Preference Optimization
Despite advances in pretraining with extended context sizes, large language models (LLMs) still face challenges in effectively utilizing real-world long-context information, primarily due to insufficient long-context alignment caused by data quality issues, training inefficiencies, and the lack of well-designed optimization objectives. To address these limitations, we propose a framework named \textbf{S}h\textbf{o}rt-to-\textbf{Lo}ng \textbf{P}reference \textbf{O}ptimization (\textbf{SoLoPO}), decoupling long-context preference optimization (PO) into two components: short-context PO and short-to-long reward alignment (SoLo-RA), supported by both theoretical and empirical evidence. Specifically, short-context PO leverages preference pairs sampled from short contexts to enhance the model's contextual knowledge utilization ability. Meanwhile, SoLo-RA explicitly encourages reward score consistency for the responses when conditioned on both short and long contexts that contain identical task-relevant information. This facilitates transferring the model's ability to handle short contexts into long-context scenarios. SoLoPO is compatible with mainstream preference optimization algorithms, while substantially improving the efficiency of data construction and training processes. Experimental results show that SoLoPO enhances all these algorithms with respect to stronger length and domain generalization abilities across various long-context benchmarks, while achieving notable improvements in both computational and memory efficiency.
100-LongBench: 事実上のロングコンテキストベンチマークは、文字通りロングコンテキストの能力を評価しているのでしょうか?
ロングコンテキスト機能は、LLM の最も重要な機能の 1 つと考えられています。真にロングコンテキスト対応 LLM を使用すると、ユーザーは、長い形式の文書をダイジェストして答えを見つけるのではなく、LLM に直接質問するなど、本来面倒なタスクを簡単に処理できるようになります。ただし、既存のリアルタスクベースのロングコンテキスト評価ベンチマークには 2 つの大きな欠点があります。まず、LongBench のようなベンチマークでは、モデルのベースライン能力からロングコンテキストのパフォーマンスを分離するための適切な指標が提供されていないことが多く、モデル間の比較が不明確になります。第 2 に、このようなベンチマークは通常、固定入力長で構築されるため、さまざまなモデル間での適用性が制限され、モデルがいつ故障し始めるかを明らかにできません。これらの問題に対処するために、長さ制御可能なロングコンテキストのベンチマークと、ベースラインの知識を真のロングコンテキストの機能から切り離す新しいメトリクスを導入します。実験は、LLM を効果的に評価する際の私たちのアプローチの優位性を示しています。
原文 (English)
100-LongBench: Are de facto Long-Context Benchmarks Literally Evaluating Long-Context Ability?
Long-context capability is considered one of the most important abilities of LLMs, as a truly long context-capable LLM enables users to effortlessly process many originally exhausting tasks -- e.g., digesting a long-form document to find answers vs. directly asking an LLM about it. However, existing real-task-based long-context evaluation benchmarks have two major shortcomings. First, benchmarks like LongBench often do not provide proper metrics to separate long-context performance from the model's baseline ability, making cross-model comparison unclear. Second, such benchmarks are usually constructed with fixed input lengths, which limits their applicability across different models and fails to reveal when a model begins to break down. To address these issues, we introduce a length-controllable long-context benchmark and a novel metric that disentangles baseline knowledge from true long-context capabilities. Experiments demonstrate the superiority of our approach in effectively evaluating LLMs.
MesaNet: 局所的に最適なテスト時間トレーニングによるシーケンス モデリング
シーケンス モデリングは現在、ソフトマックス セルフ アテンションを使用する因果変換アーキテクチャによって支配されています。広く採用されていますが、トランスフォーマーはスケーリング メモリを必要とし、推論中に線形に計算します。最近の一連の作業によりソフトマックス演算が線形化され、その結果、DeltaNet、Mamba、xLSTM など、メモリとコンピューティング コストが一定の強力なリカレント ニューラル ネットワーク (RNN) モデルが誕生しました。これらのモデルは、再帰層のダイナミクスがすべて、オンライン学習ルールを通じてほぼ最適化されたコンテキスト内の回帰目標から導出できることに注目することで統合できます。ここで、私たちはこの一連の作業に加わり、最近提案された Mesa 層 (von Oswald et al., 2024) の数値的に安定したチャンク単位の並列化可能なバージョンを導入します。これは、時間内に順次実行することしかできず、したがってスケーラブルではありませんでした。この層もやはりコンテキスト内損失に起因しますが、高速共役勾配ソルバーを使用してあらゆる時点で最適化されるまで最小化されています。最大 10 億パラメータ規模までの広範な一連の実験研究を通じて、最適なテスト時間のトレーニングにより、特に長いコンテキストの理解を必要とするタスクにおいて、以前の RNN よりも低い言語モデリングの複雑さとより高いダウンストリーム ベンチマーク パフォーマンスを実現できることを示しました。このパフォーマンスの向上には、推論時間中に追加のフロップが費やされるというコストがかかります。したがって、私たちの結果は、パフォーマンスを向上させるためにテスト時間のコンピューティングを増加させる最近の傾向と興味深い関連性があります。ここでは、ニューラル ネットワーク自体内の逐次的な最適化問題を解決するためにコンピューティングを費やしています。
原文 (English)
MesaNet: Sequence Modeling by Locally Optimal Test-Time Training
Sequence modeling is currently dominated by causal transformer architectures that use softmax self-attention. Although widely adopted, transformers require scaling memory and compute linearly during inference. A recent stream of work linearized the softmax operation, resulting in powerful recurrent neural network (RNN) models with constant memory and compute costs such as DeltaNet, Mamba or xLSTM. These models can be unified by noting that their recurrent layer dynamics can all be derived from an in-context regression objective, approximately optimized through an online learning rule. Here, we join this line of work and introduce a numerically stable, chunkwise parallelizable version of the recently proposed Mesa layer (von Oswald et al., 2024), which could only run sequentially in time and was therefore not scalable. This layer again stems from an in-context loss, but which is now minimized to optimality at every time point using a fast conjugate gradient solver. Through an extensive suite of experiments study up to the billion-parameter scale, we show that optimal test-time training enables reaching lower language modeling perplexity and higher downstream benchmark performance than previous RNNs, especially on tasks requiring long context understanding. This performance gain comes at the cost of additional flops spent during inference time. Our results are therefore intriguingly related to recent trends of increasing test-time compute to improve performance -- here by spending compute to solve sequential optimization problems within the neural network itself.
VLM は将来の状態を予測できますか?逆ダイナミクスから世界モデルをブートストラップする
統合ビジョン言語モデル (VLM) は、前方ダイナミクス予測 (FDP)、つまり、以前の観察とアクション (言語形式) を考慮して将来の状態 (画像形式) を予測できますか? VLM は命令からフレーム間に物理的に妥当な遷移を生成するのに苦労していることがわかりました。それにもかかわらず、私たちはマルチモーダルグラウンディングにおける重大な非対称性を特定しました。つまり、逆ダイナミクス予測 (IDP) を学習するために VLM を微調整すること、つまりフレーム間のアクションを効果的にキャプションすることは、FDP を学習するよりもはるかに簡単です。次に、IDP を使用して、1) 合成データからの弱教師あり学習と 2) 推論時間の検証という 2 つの主な戦略を通じて FDP をブートストラップすることができます。まず、IDP はビデオ フレーム観測のラベルなしペアのアクションに注釈を付けて、FDP のトレーニング データのスケールを拡張できます。次に、IDP は FDP の複数のサンプルに報酬を割り当ててスコアを付け、推論時の検索を効果的にガイドできます。 2 つの VLM ファミリーを使用した Aurora-Bench でのアクション中心の画像編集タスクを通じて、両方の戦略から得られる FDP を評価します。依然として汎用であるにもかかわらず、当社の最高のモデルは、最先端の画像編集モデルと競合するパフォーマンスを達成し、GPT4o-as-judge によると、それらを 7% から 13% のマージンで改善し、Aurora-Bench のすべてのサブセットにわたって最高の平均人間評価を達成しました。
原文 (English)
Can VLMs Predict Future States? Bootstrapping World Models from Inverse Dynamics
Can unified vision-language models (VLMs) perform forward dynamics prediction (FDP), i.e., predicting the future state (in image form) given the previous observation and an action (in language form)? We find that VLMs struggle to generate physically plausible transitions between frames from instructions. Nevertheless, we identify a crucial asymmetry in multimodal grounding: fine-tuning a VLM to learn inverse dynamics prediction (IDP)-effectively captioning the action between frames-is significantly easier than learning FDP. In turn, IDP can be used to bootstrap FDP through two main strategies: 1) weakly supervised learning from synthetic data and 2) inference time verification. Firstly, IDP can annotate actions for unlabelled pairs of video frame observations to expand the training data scale for FDP. Secondly, IDP can assign rewards to multiple samples of FDP to score them, effectively guiding search at inference time. We evaluate the FDP resulting from both strategies through the task of action-centric image editing on Aurora-Bench with two families of VLMs. Despite remaining general-purpose, our best model achieves a performance competitive with state-of-the-art image editing models, improving on them by a margin between 7% and 13% according to GPT4o-as-judge, and achieving the best average human evaluation across all subsets of Aurora-Bench.
推論としての時系列予測: 強化された LLM を使用したゆっくりとした思考のアプローチ
時系列予測 (TSF) を進歩させるために、予測精度を向上させるさまざまな方法が提案されており、統計的手法からデータ駆動型の深層学習アーキテクチャに進化しています。その有効性にもかかわらず、既存の手法のほとんどは依然として高速思考パラダイムに固執しており、中核となるモデリング哲学として歴史的パターンの抽出と将来の値へのマッピングに依存しており、中間の時系列推論を組み込んだ明示的な思考プロセスが欠けています。一方、新興の低速思考 LLM (OpenAI-o1 など) は、驚くべき多段階推論能力を示し、これらの問題を克服する代替方法を提供しています。ただし、迅速なエンジニアリングだけでは、高い計算コスト、プライバシーのリスク、ドメイン固有の時系列推論の詳細な能力の制限など、いくつかの制限があります。これらの制限に対処するためのより有望なアプローチは、ゆっくりとした思考能力を開発し、強力な時系列推論スキルを獲得するように LLM を訓練することです。この目的のために、時系列予測のためのLLMの多段階推論能力を強化するように設計された2段階の強化微調整フレームワークであるTime-R1を提案します。具体的には、第 1 段階ではウォームアップ適応のための教師あり微調整を行い、第 2 段階では強化学習を採用してモデルの汎化能力を向上させます。特に、時系列予測に特化したきめの細かい多目的報酬を設計し、次に GRIP (ポリシー最適化のためのグループベースの相対重要度) を導入します。これは、不均一なサンプリングを活用して、モデルによる効果的な推論パスの探索をさらに促進および最適化します。実験では、Time-R1 がさまざまなデータセットにわたって予測パフォーマンスを大幅に向上させることが実証されています。
原文 (English)
Time Series Forecasting as Reasoning: A Slow-Thinking Approach with Reinforced LLMs
To advance time series forecasting (TSF), various methods have been proposed to improve prediction accuracy, evolving from statistical techniques to data-driven deep learning architectures. Despite their effectiveness, most existing methods still adhere to a fast thinking paradigm-relying on extracting historical patterns and mapping them to future values as their core modeling philosophy, lacking an explicit thinking process that incorporates intermediate time series reasoning. Meanwhile, emerging slow-thinking LLMs (e.g., OpenAI-o1) have shown remarkable multi-step reasoning capabilities, offering an alternative way to overcome these issues. However, prompt engineering alone presents several limitations - including high computational cost, privacy risks, and limited capacity for in-depth domain-specific time series reasoning. To address these limitations, a more promising approach is to train LLMs to develop slow thinking capabilities and acquire strong time series reasoning skills. For this purpose, we propose Time-R1, a two-stage reinforcement fine-tuning framework designed to enhance multi-step reasoning ability of LLMs for time series forecasting. Specifically, the first stage conducts supervised fine-tuning for warmup adaptation, while the second stage employs reinforcement learning to improve the model's generalization ability. Particularly, we design a fine-grained multi-objective reward specifically for time series forecasting, and then introduce GRIP (group-based relative importance for policy optimization), which leverages non-uniform sampling to further encourage and optimize the model's exploration of effective reasoning paths. Experiments demonstrate that Time-R1 significantly improves forecast performance across diverse datasets.
グラフ検索からスキーマ実現まで: 異種ナレッジ グラフ上のテキストから SPARQL への反事実検証
Text-to-SPARQL は、自然言語の質問を RDF ナレッジ グラフ上の実行可能な SPARQL クエリにマッピングします。標準的な評価ではターゲット グラフが事前に修正されることがよくありますが、実践的なナレッジ グラフ質問応答 (KGQA) には、異なるスキーマ、部分的なアラインメント、および不完全なメタデータを含む異種グラフ コレクションが含まれる場合があります。この設定では、クエリ生成は SPARQL 構文以上のものに依存します。システムは、質問に必要な述語、エンティティ タイプ、結合、フィルター、および制約をサポートできるグラフ スキーマを識別する必要があります。異種の KG コレクション上でテキストから SPARQL に変換するためのスキーマベースのエージェント フレームワークである SchemaForge を紹介します。その中心的なメカニズムは、質問条件付きのスキーマ スライス アライメントです。弱いグラフの証拠によって最初にもっともらしいグラフが特定され、より強力なスキーマの証拠によって、ローカル スキーマ スライスが意図したクエリを実現できるかどうかが決まります。選択されたスキーマ スライスは、クエリの生成と実行前の検証を制限します。利用可能なグラフが 1 つだけの場合、同じ定式化は、スキーマ基盤を備えた標準の単一 KG テキストから SPARQL への変換に縮小されます。 LC-QuAD 2.0、QALD-9 Plus、QALD-10、および Spider4SPARQL で SchemaForge を評価します。 SchemaForge は、4 つの公開ベンチマーク全体で、最も一致するエージェントのベースラインよりも実行精度を平均 11.50 パーセント向上させています。 Spider4SPARQL では、SchemaForge は実行精度を 54.86% から 64.18% に向上させ、トップ 1 グラフ割り当て精度 73.0% とトップ 3 グラフ割り当て精度 97.0% を達成しました。これらの結果は、グラフの弱い証拠からスキーマ固有のクエリコミットメントへの移行と、反事実の回答セットのチェックにより、異種ナレッジグラフよりも実行可能なクエリの生成が向上することを示しています。
原文 (English)
From Graph Retrieval to Schema Realization: Counterfactual Validation for Text-to-SPARQL over Heterogeneous Knowledge Graphs
Text-to-SPARQL maps natural-language questions to executable SPARQL queries over RDF knowledge graphs. While standard evaluations often fix the target graph in advance, practical knowledge graph question answering (KGQA) may involve heterogeneous graph collections with different schemas, partial alignments, and incomplete metadata. In this setting, query generation depends on more than SPARQL syntax: the system must identify a graph schema that can support the predicates, entity types, joins, filters, and constraints required by the question. We present SchemaForge, a schema-grounded agentic framework for text-to-SPARQL over heterogeneous KG collections. Its central mechanism is question-conditioned schema-slice alignment: weak graph evidence first identifies plausible graphs, while stronger schema evidence determines whether a local schema slice can realize the intended query. The selected schema slice then constrains query generation and verification before execution. When only one graph is available, the same formulation reduces to standard single-KG text-to-SPARQL with schema grounding. We evaluate SchemaForge on LC-QuAD 2.0, QALD-9 Plus, QALD-10, and Spider4SPARQL. Across the four public benchmarks, SchemaForge improves execution accuracy over the strongest matched agent baseline by 11.50 percentage points on average. On Spider4SPARQL, SchemaForge improves execution accuracy from 54.86% to 64.18% and achieves 73.0% Top-1 and 97.0% Top-3 graph allocation accuracy. These results show that moving from weak graph evidence to schema-specific query commitments, together with counterfactual answer-set checks, improves executable query generation over heterogeneous knowledge graphs.
BioBlue: 簡略化された観察形式による、生物学的および経済的に調整された LLM の AI 安全性ベンチマークにおける体系的な暴走オプティマイザーのような LLM 故障モード
「暴走最適化」に関する AI 調整の議論の多くは、RL エージェントに焦点を当てています。RL エージェントは、他のすべてを犠牲にして代用目的を過剰に最適化する無制限のユーティリティ最大化装置 (例: 「ペーパークリップ最大化装置」、仕様ゲーム) です。 LLM ベースのシステムは、永続的なオプティマイザーではなく次のトークンの予測子として機能するため、多くの場合、より安全であると考えられています。私たちは、時間の経過とともに目標の状態を維持したりバランスを取る必要がある単純な長期制御スタイルの環境に LLM を配置することで、この仮定を実証的にテストします。つまり、単一および複数の目標の恒常性、収益逓減と無制限の目標のバランス、および再生可能資源の持続可能性です。私たちは、LLM が多くのステップに対して適切に行動し、定められた目的を明確に理解しているにもかかわらず、構造化された方法でコンテキストを失い、暴走的な行動に陥ることがよくあります。つまり、恒常性目標を無視し、複数の目的のトレードオフから単一の目的の最大化に崩壊するため、凹型の効用構造を尊重できません。これらの失敗は、有能な動作の初期期間の後に確実に発生し、その時点でコンテキスト ウィンドウが完全には程遠いにもかかわらず、特徴的なパターン (自己模倣的な振動、無制限の最大化、単一目的の最適化への復帰など) を示します。問題は、LLM がコンテキストを失い、一貫性がなくなるだけではありません。 LLM は表面的には多目的で境界があるように見えますが、複数の目的が関与する持続的な相互作用の下での LLM の動作は、単一目的で境界のない、調整が不十分なオプティマイザーのように動作するように体系的に偏っています。我々は、トークンレベルのパターン強化アトラクターを仮説とします。LLM は、元の指示からではなく、最近の行動履歴のトークン パターンから行動をますます導き出す可能性があります。なぜこれが複数の目的の設定でのみ起こるのかは未解決の問題のままです。
原文 (English)
BioBlue: Systematic runaway-optimiser-like LLM failure modes on biologically and economically aligned AI safety benchmarks for LLMs with simplified observation format
Many AI alignment discussions of "runaway optimisation" focus on RL agents: unbounded utility maximisers that over-optimise a proxy objective (e.g., "paperclip maximiser", specification gaming) at the expense of everything else. LLM-based systems are often assumed to be safer because they function as next-token predictors rather than persistent optimisers. We empirically test this assumption by placing LLMs in simple, long-horizon control-style environments that require maintaining state of or balancing objectives over time: single- and multi-objective homeostasis, balancing unbounded objectives with diminishing returns, and sustainability of a renewable resource. We find that, although LLMs frequently behave appropriately for many steps and clearly understand the stated objectives, they often lose context in structured ways and drift into runaway behaviours: ignoring homeostatic targets, collapsing from multi-objective trade-offs into single-objective maximisation - thus failing to respect concave utility structures. These failures emerge reliably after initial periods of competent behaviour and exhibit characteristic patterns (including self-imitative oscillations, unbounded maximisation, and reverting to single-objective optimisation), even though the context window is far from full at that point. The problem is not that the LLMs just lose context and become incoherent. Although LLMs appear multi-objective and bounded on the surface, their behaviour under sustained interaction involving multiple objectives, is systematically biased towards acting like single-objective, unbounded, poorly aligned optimisers. We hypothesise a token-level pattern reinforcement attractor: LLMs may increasingly derive actions from the token patterns of their recent action history rather than from the original instructions. Why this happens only in multi-objective settings remains an open question.
KITE: コンテキスト内学習のためのカーネル化および情報理論のサンプル
インコンテキスト学習 (ICL) は、プロンプトに表示される厳選されたいくつかのタスク固有の例のみを使用して、大規模言語モデル (LLM) を新しいデータ不足のタスクに適応させるための強力なパラダイムとして登場しました。ただし、LLM のコンテキスト サイズが限られていると、基本的な疑問が生じます。特定のユーザー クエリのパフォーマンスを最大化するにはどのサンプルを選択する必要があるかということです。 KATE のような最近傍ベースの手法はこの目的で広く採用されていますが、高次元の埋め込み空間では一般化が不十分で多様性が欠如しているなどのよく知られた欠点があります。この研究では、原則に基づいた情報理論主導の観点から、ICL における例の選択の問題を研究します。まず、入力埋め込みに対する線形関数として LLM をモデル化し、サンプル選択タスクをクエリ固有の最適化問題としてフレーム化します。つまり、特定のクエリの予測誤差を最小限に抑える、より大きなサンプル バンクからサンプルのサブセットを選択します。この定式化は、特定のクエリ インスタンスの正確な予測をターゲットにすることで、一般化に焦点を当てた従来の学習理論的アプローチから逸脱しています。ほぼサブモジュール化された原則に基づいた代理目標を導出し、近似を保証する貪欲なアルゴリズムの使用を可能にします。 (i) 明示的なマッピングを使用せずに高次元の特徴空間で動作するカーネル トリックを組み込むこと、および (ii) 選択された例の多様性を促進する最適な設計ベースの正則化機能を導入することによって、この方法をさらに強化します。経験的に、一連の分類タスク全体にわたって標準的な検索方法に比べて大幅な改善が見られることを実証し、現実世界のラベル不足シナリオにおける ICL の構造を認識した多様なサンプル選択の利点を強調しています。
原文 (English)
KITE: Kernelized and Information Theoretic Exemplars for In-Context Learning
In-context learning (ICL) has emerged as a powerful paradigm for adapting large language models (LLMs) to new and data-scarce tasks using only a few carefully selected task-specific examples presented in the prompt. However, given the limited context size of LLMs, a fundamental question arises: Which examples should be selected to maximize performance on a given user query? While nearest-neighbor-based methods like KATE have been widely adopted for this purpose, they suffer from well-known drawbacks in high-dimensional embedding spaces, including poor generalization and a lack of diversity. In this work, we study this problem of example selection in ICL from a principled, information theory-driven perspective. We first model an LLM as a linear function over input embeddings and frame the example selection task as a query-specific optimization problem: selecting a subset of exemplars from a larger example bank that minimizes the prediction error on a specific query. This formulation departs from traditional generalization-focused learning theoretic approaches by targeting accurate prediction for a specific query instance. We derive a principled surrogate objective that is approximately submodular, enabling the use of a greedy algorithm with an approximation guarantee. We further enhance our method by (i) incorporating the kernel trick to operate in high-dimensional feature spaces without explicit mappings, and (ii) introducing an optimal design-based regularizer to encourage diversity in the selected examples. Empirically, we demonstrate significant improvements over standard retrieval methods across a suite of classification tasks, highlighting the benefits of structure-aware, diverse example selection for ICL in real-world, label-scarce scenarios.
推論パスは入力として引き続き有効ですか?事後推論から思考連鎖の圧縮への橋渡し
最近の開発により、長い思考連鎖 (CoT) を介した大規模言語モデル (LLM) での高度な推論が可能になり、推論中の効率とパフォーマンスを引き換えにします。既存の作品は、推論時に生成されるCoTを圧縮することに焦点を当てており、正解を導き出すために必要な情報が損なわれています。この研究では、LLM の推論タスクを簡素化するために CoT をコンテキストの一部として取り入れる推論パラダイムであるポスト推論を提案します。事後推論により LLM の生成長が大幅に短縮されるが、その有効性はコンテキスト CoT 生成の効率と信頼性に左右されることがわかりました。したがって、我々は、CoT 圧縮のための効率的な事後推論フレームワークである Upfront CoT (UCoT) を提案します。 UCoT は、軽量モデル (コンプレッサー) をトレーニングしてコンテキストに応じた CoT をソフト トークンの形式で提供し、LLM (エグゼキューター) をトレーニングしてこのコンテキストに応じた CoT を活用して最終的な答えを生成します。広範な実験により、UCoT は CoT の長さを大幅に短縮しながら、実行者の強力な推論能力を維持することが示されました。 UCoT を Qwen2.5-7B-Instruct モデルに適用すると、GSM8K データセットでのトークンの使用量が 50% 削減され、パフォーマンスは最先端 (SOTA) メソッドよりも 3.08% 向上しました。
原文 (English)
Can Reasoning Path still be Effective as Input? Bridging Post-Reasoning to Chain-of-Thought Compression
Recent developments have enabled advanced reasoning in Large Language Models (LLMs) via long Chain-of-Thought (CoT), trading efficiency during inference for performance. Existing works focus on compressing generated CoT in reasoning, which impairs the necessary information for deriving the correct answer. In this work, we propose post-reasoning, a reasoning paradigm that takes CoT as a part of context to simplify the reasoning task for LLMs. We find that post-reasoning significantly reduces the generation length of LLMs, but its effectiveness hinges on the efficiency and the reliability of the contextual CoT generation. Therefore, we propose Upfront CoT (UCoT), an efficient post-reasoning framework for CoT compression. UCoT trains a lightweight model (compressor) to provide contextual CoT in form of soft tokens and trains the LLM (executor) to leverage this contextual CoT for producing the final answer. Extensive experiments show that UCoT maintains the powerful reasoning ability of executor while significantly reducing the length of CoT. It is worth mentioning that when applying UCoT to the Qwen2.5-7B-Instruct model, the usage of tokens on GSM8K dataset is reduced by 50%, while the performance is 3.08% higher than that of the state-of-the-art (SOTA) method.
プレロジット空間での重要度サンプリングによる、テスト時の報酬に基づく言語モデルの調整
大規模言語モデル (LLM) の微調整には高い計算コストが必要となるため、LLM のテスト時の調整が注目を集めています。本稿では、確率的制御入力を用いたサンプリングベースのモデル予測制御に基づいた、プリロジット上の適応重要度サンプリング(AISP)と呼ばれる新しいテスト時間報酬ガイド型アライメント手法を提案します。 AISP は、摂動の平均に関して期待される報酬を最大化するために、ガウス摂動を最後から 2 番目の層の出力であるプレロジットに適用します。最適な平均は、サンプリングされた報酬を使用した重要度サンプリングによって取得されることを示します。 AISP は、使用されたサンプル数に対する報酬の点で best-of-n サンプリングよりも優れたパフォーマンスを示し、他の報酬ベースのテスト時間調整方法よりも高い報酬を達成します。
原文 (English)
Test-time reward-guided alignment of language models by importance sampling on pre-logit space
Test-time alignment of large language models (LLMs) attracts attention because fine-tuning of LLMs requires high computational costs. In this paper, we propose a new test-time reward-guided alignment method called adaptive importance sampling on pre-logits (AISP) on the basis of the sampling-based model predictive control with the stochastic control input. AISP applies the Gaussian perturbation into pre-logits, which are outputs of the penultimate layer, so as to maximize expected rewards with respect to the mean of the perturbation. We demonstrate that the optimal mean is obtained by importance sampling with sampled rewards. AISP outperforms best-of-n sampling in terms of rewards over the number of used samples and achieves higher rewards than other reward-based test-time alignment methods.
OckBench: LLM 推論の効率を測定する
GPT-5 や Gemini 3 などの大規模言語モデル (LLM) は、自動推論とコード生成の最前線を押し広げました。しかし、現在のベンチマークは精度と出力品質を重視し、トークンの使用効率という重要な側面を無視しています。実際には、トークンの効率は大きく変動します。同じ問題を同様の精度で解決するモデルでは、トークン長に最大 \textbf{5.0$\times$} の違いが見られ、モデルの推論能力に大きなギャップが生じる可能性があります。このような差異は重大な冗長性を明らかにし、トークン効率のギャップを定量化するための標準化されたベンチマークの重要な必要性を浮き彫りにします。そこで、推論タスクとコーディングタスク全体で精度とトークン効率を共同で測定する初のベンチマークである OckBench を紹介します。私たちの評価では、現在のモデル全体でトークンの効率がほとんど最適化されていないため、サービスのコストと待ち時間が大幅に増大していることが明らかになりました。これらの発見は、潜在的な推論能力とトークン効率を最適化するための具体的なロードマップをコミュニティに提供します。最終的に、私たちは評価のパラダイム シフトを主張します。つまり、必要以上にトークンを増やしてはなりません。私たちのベンチマークは https://ockbench.github.io/ で入手できます。
原文 (English)
OckBench: Measuring the Efficiency of LLM Reasoning
Large language models (LLMs) such as GPT-5 and Gemini 3 have pushed the frontier of automated reasoning and code generation. Yet current benchmarks emphasize accuracy and output quality, neglecting a critical dimension: efficiency of token usage. The token efficiency is highly variable in practical. Models solving the same problem with similar accuracy can exhibit up to a \textbf{5.0$\times$} difference in token length, leading to massive gap of model reasoning ability. Such variance exposes significant redundancy, highlighting the critical need for a standardized benchmark to quantify the gap of token efficiency. Thus, we introduce OckBench, the first benchmark that jointly measures accuracy and token efficiency across reasoning and coding tasks. Our evaluation reveals that token efficiency remains largely unoptimized across current models, significantly inflating serving costs and latency. These findings provide a concrete roadmap for the community to optimize the latent reasoning ability, token efficiency. Ultimately, we argue for an evaluation paradigm shift: tokens must not be multiplied beyond necessity. Our benchmarks are available at https://ockbench.github.io/.
ライブストリームでの動的コンテンツモデレーション: 教師あり分類と MLLM ブースト類似性マッチングの組み合わせ
コンテンツのモデレーションは、大規模なユーザー生成ビデオ プラットフォームにとって、特にモデレーションがタイムリーでマルチモーダルで、進化する形の望ましくないコンテンツに対して堅牢である必要があるライブストリーミング環境では、依然として重要かつ困難なタスクです。既知の違反に対する教師あり分類と、新規または微妙なケースに対する参照ベースの類似性マッチングを組み合わせた、実稼働規模で導入されたハイブリッドモデレーションフレームワークを紹介します。このハイブリッド設計により、明示的な違反と従来の分類子を回避する新しいエッジ ケースの両方を確実に検出できます。マルチモーダル入力 (テキスト、オーディオ、ビジュアル) は両方のパイプラインを通じて処理され、マルチモーダル大規模言語モデル (MLLM) によって知識がそれぞれに抽出され、推論を軽量に保ちながら精度を高めます。運用環境では、分類パイプラインは 80% の精度で 67% の再現率を達成し、類似性パイプラインは 80% の精度で 76% の再現率を達成します。大規模な A/B テストでは、不要なライブストリームのユーザー視聴が 6 ~ 8% 減少することが示されています。これらの結果は、明示的な違反と新たな敵対行為の両方に対処できる、マルチモーダル コンテンツ ガバナンスへのスケーラブルで適応性のあるアプローチを示しています。
原文 (English)
Dynamic Content Moderation in Livestreams: Combining Supervised Classification with MLLM-Boosted Similarity Matching
Content moderation remains a critical yet challenging task for large-scale user-generated video platforms, especially in livestreaming environments where moderation must be timely, multimodal, and robust to evolving forms of unwanted content. We present a hybrid moderation framework deployed at production scale that combines supervised classification for known violations with reference-based similarity matching for novel or subtle cases. This hybrid design enables robust detection of both explicit violations and novel edge cases that evade traditional classifiers. Multimodal inputs (text, audio, visual) are processed through both pipelines, with a multimodal large language model (MLLM) distilling knowledge into each to boost accuracy while keeping inference lightweight. In production, the classification pipeline achieves 67% recall at 80% precision, and the similarity pipeline achieves 76% recall at 80% precision. Large-scale A/B tests show a 6-8% reduction in user views of unwanted livestreams}. These results demonstrate a scalable and adaptable approach to multimodal content governance, capable of addressing both explicit violations and emerging adversarial behaviors.
トポロジは重要です: マルチエージェント LLM のメモリ リークの測定
グラフ トポロジは、マルチエージェント LLM システムにおけるメモリ リークの基本的な決定要因ですが、その影響は依然として十分に定量化されていません。マルチエージェント LLM システムにおけるトポロジ条件付きメモリ リークを比較するための制御された評価フレームワークである MAMA (Multi-Agent Memory Attack) を紹介します。 MAMA は、ラベル付きの個人識別情報 (PII) エンティティを含む合成文書を操作し、そこからサニタイズされたタスク指示を生成します。私たちは、エングラム (ターゲット エージェントのメモリに個人情報をシードする) とレゾナンス (攻撃者が抽出を試みるマルチラウンド インタラクション) の 2 段階のプロトコルを実行します。 10 ラウンドにわたって、完全一致抽出と攻撃者の最終出力に対する LLM ベースの推論を組み合わせた 2 段階の回復基準を使用して漏洩を測定します。 $n\in\{4,5,6\}$、攻撃者とターゲットの配置、および基本モデルにわたる 6 つの正規トポロジ (完全、円、チェーン、ツリー、スター、スター リング) を評価します。結果は一貫しています。接続が密になり、攻撃者とターゲットの距離が短くなり、ターゲットの中心性が高くなることで漏洩が増加します。ほとんどの漏れはラウンド初期に発生し、その後プラトーになります。モデルの選択により絶対率は変化しますが、広範な構造傾向は維持されます。時空間/位置属性は、ID 資格情報や規制された識別子よりも漏洩しやすいです。私たちは、システム設計のための実践的なガイダンスを抽出します。つまり、疎接続または階層接続を優先し、攻撃者とターゲットの分離を最大限に高め、トポロジーを意識したアクセス制御によってハブ/ショートカット経路を制限します。私たちのコードは https://github.com/llll121/mama-eval で入手できます。
原文 (English)
Topology Matters: Measuring Memory Leakage in Multi-Agent LLMs
Graph topology is a fundamental determinant of memory leakage in multi-agent LLM systems, yet its effects remain poorly quantified. We introduce MAMA (Multi-Agent Memory Attack), a controlled evaluation framework for comparing topology-conditioned memory leakage in multi-agent LLM systems. MAMA operates on synthetic documents containing labeled Personally Identifiable Information (PII) entities, from which we generate sanitized task instructions. We execute a two-phase protocol: Engram (seeding private information into a target agent's memory) and Resonance (multi-round interaction where an attacker attempts extraction). Over 10 rounds, we measure leakage using a two-stage recovery criterion that combines exact-match extraction with LLM-based inference over the attacker's final output. We evaluate six canonical topologies (complete, circle, chain, tree, star, star-ring) across $n\in\{4,5,6\}$, attacker-target placements, and base models. Results are consistent: denser connectivity, shorter attacker-target distance, and higher target centrality increase leakage; most leakage occurs in early rounds and then plateaus; model choice shifts absolute rates but preserves broad structural trends; spatiotemporal/location attributes leak more readily than identity credentials or regulated identifiers. We distill practical guidance for system design: favor sparse or hierarchical connectivity, maximize attacker-target separation, and restrict hub/shortcut pathways via topology-aware access control. Our code is available at https://github.com/llll121/mama-eval.
大規模言語モデルにおける幾何学認識型幻覚検出
大規模言語モデル (LLM) は、一般に幻覚と呼ばれる、事実に誤りがあるコンテンツやサポートされていないコンテンツを頻繁に生成します。これまでの研究では、解読戦略、検索の強化、幻覚検出のための教師付き微調整が検討されてきましたが、最近の研究では、コンテキスト内学習 (ICL) が事実の信頼性に大きな影響を与える可能性があることが示されています。ただし、既存の ICL デモンストレーション選択方法は、表面レベルの類似性ヒューリスティックに依存することが多く、タスクやモデル全体での堅牢性が限られています。我々は、フリーズした LLM から抽出された潜在表現を活用する、コンテキスト内のデモンストレーションを選択するための、ジオメトリを意識したデモンストレーション サンプリング フレームワークである GA-ICL を提案します。 GA-ICL は、ローカル多様体構造とクラス認識プロトタイプ幾何学を共同でモデル化することで、語彙や埋め込みの類似性だけではなく、学習されたプロトタイプへの近さに基づいてデモンストレーションを選択します。事実検証 (FEVER) と幻覚検出 (HaluEval) ベンチマーク全体で、GA-ICL は評価された設定の大部分で標準的な ICL 選択ベースラインを上回り、特に対話と要約タスクで大きな向上を示しました。この方法は、温度摂動やモデルの変動の下でも堅牢性を維持しており、ヒューリスティック検索戦略と比較して安定性が向上していることを示しています。語彙検索は、モデル規模が小さい場合でも特定の質問応答方式では競争力を維持できますが、我々の結果は、ジオメトリを意識したプロトタイプの選択が、LLM パラメーターを変更せずに幻覚検出のための信頼性が高く、トレーニングに適したアプローチを提供することを示しています。 Phi-14B および Qwen3-32B の拡張評価では、GA-ICL がより大きなモデルに効果的に拡張でき、より小さなモデルが境界条件の制限を示す QA タスクを含む、比較されたすべてのベースラインを上回っていることが確認され、ICL デモの選択を改善するための原則的な方向性が示されています。
原文 (English)
Geometry-Aware Hallucination Detection in Large Language Models
Large language models (LLMs) frequently generate factually incorrect or unsupported content, commonly referred to as hallucinations. Prior work has explored decoding strategies, retrieval augmentation, and supervised fine-tuning for hallucination detection, while recent studies show that in-context learning (ICL) can substantially influence factual reliability. However, existing ICL demonstration selection methods often rely on surface-level similarity heuristics and exhibit limited robustness across tasks and models. We propose GA-ICL, a geometry-aware demonstration sampling framework for selecting in-context demonstrations that leverages latent representations extracted from frozen LLMs. By jointly modeling local manifold structure and class-aware prototype geometry, GA-ICL selects demonstrations based on their proximity to learned prototypes rather than lexical or embedding similarity alone. Across factual verification (FEVER) and hallucination detection (HaluEval) benchmarks, GA-ICL outperforms standard ICL selection baselines in the majority of evaluated settings, with particularly strong gains on dialogue and summarization tasks. The method remains robust under temperature perturbations and model variation, indicating improved stability compared to heuristic retrieval strategies. While lexical retrieval can remain competitive in certain question-answering regimes at smaller model scales, our results demonstrate that geometry-aware prototype selection provides a reliable and training-light approach for hallucination detection without modifying LLM parameters. Extended evaluations on Phi-14B and Qwen3-32B confirm that GA-ICL scales effectively to larger models, outperforming all compared baselines including on QA tasks where smaller models show boundary-condition limitations, offering a principled direction for improved ICL demonstration selection.
Mid-Think: トークンレベルのトリガーによるトレーニング不要の中間予算推論
ハイブリッド推論言語モデルは一般に、推論動作を制御するための高レベルの考える/考えない命令によって制御されますが、そのようなモードの切り替えは主に、命令自体ではなく、トリガー トークンの小さなセットによって駆動されることがわかりました。注意分析と制御されたプロンプト実験を通じて、先頭の「わかりました」トークンが推論行動を誘発する一方、「」に続く改行パターンがそれを抑制することを示しました。この観察に基づいて、これらのトリガーを組み合わせて中間予算の推論を実現し、精度と長さのトレードオフの点で固定トークンおよびプロンプトベースのベースラインを常に上回るパフォーマンスを実現する、シンプルなトレーニング不要のプロンプト形式である Mid-Think を提案します。さらに、SFT 後の RL トレーニングに Mid-Think を適用すると、トレーニング時間が約 15% 短縮され、AIME での Qwen3-8B の最終パフォーマンスが 69.8% から 72.4% に、GPQA での最終パフォーマンスが 58.5% から 61.1% に向上し、推論時間制御と RL ベースの推論トレーニングの両方でその有効性が実証されました。
原文 (English)
Mid-Think: Training-Free Intermediate-Budget Reasoning via Token-Level Triggers
Hybrid reasoning language models are commonly controlled through high-level Think/No-think instructions to regulate reasoning behavior, yet we found that such mode switching is largely driven by a small set of trigger tokens rather than the instructions themselves. Through attention analysis and controlled prompting experiments, we show that a leading ``Okay'' token induces reasoning behavior, while the newline pattern following ``'' suppresses it. Based on this observation, we propose Mid-Think, a simple training-free prompting format that combines these triggers to achieve intermediate-budget reasoning, consistently outperforming fixed-token and prompt-based baselines in terms of the accuracy-length trade-off. Furthermore, applying Mid-Think to RL training after SFT reduces training time by approximately 15% while improving final performance of Qwen3-8B on AIME from 69.8% to 72.4% and on GPQA from 58.5% to 61.1%, demonstrating its effectiveness for both inference-time control and RL-based reasoning training.
有界双曲線正接: 大規模言語モデルにおける前層正規化の安定した効率的な代替手段
前層正規化 (Pre-LN) は大規模言語モデル (LLM) の事実上の選択肢であり、安定した事前トレーニングと効果的な転移学習に不可欠です。ただし、Pre-LN は統計計算のオーバーヘッドを繰り返し発生し、層の数が増加するにつれて隠れ状態の大きさと分散が増大する深さの呪いに対して脆弱なままであり、トレーニングが不安定になります。 Dynamic Tanh (DyT) などの効率重視の正規化不要の手法はスループットを向上させますが、深度では脆弱なままです。安定性と効率性を共同で解決するために、Pre-LN のドロップイン代替品である有界双曲線 Tanh (BHyT) を提案します。 BHyT は、tanh 非線形性と明示的なデータ駆動型入力境界を組み合わせて、アクティベーションを非飽和範囲内に保ちます。これにより、活性化の大きさと分散の深さ方向の増大が防止され、理論的な安定性が保証されます。効率性を高めるため、BHyT はブロックごとに 1 回正確な統計を計算し、2 番目の正規化を軽量の分散近似に置き換えます。経験的に、BHyT は事前トレーニング中の安定性と効率の向上を実証し、RMSNorm と比較して平均 1.6\% 高速なトレーニングと平均 1.77\% 高いトークン生成スループットを達成しながら、言語理解と推論ベンチマーク全体で事前トレーニングのみおよび SFT 後の強力なパフォーマンスを維持しています\footnote{コードは https://github.com/MLAI-Yonsei/BHyT} で入手できます。
原文 (English)
Bounded Hyperbolic Tangent: A Stable and Efficient Alternative to Pre-Layer Normalization in Large Language Models
Pre-Layer Normalization (Pre-LN) is the de facto choice for large language models (LLMs) and is crucial for stable pretraining and effective transfer learning. However, Pre-LN incurs repeated statistical-computation overhead and remains vulnerable to the curse of depth, where hidden-state magnitudes and variances grow as the number of layers increases, destabilizing training. Efficiency-oriented normalization-free methods such as Dynamic Tanh (DyT) improve throughput but remain fragile at depth. To jointly address stability and efficiency, we propose Bounded Hyperbolic Tanh (BHyT), a drop-in replacement for Pre-LN. BHyT combines a tanh nonlinearity with explicit, data-driven input bounding to keep activations within a non-saturating range. It prevents depth-wise growth in activation magnitude and variance and provides a theoretical stability guarantee. For efficiency, BHyT computes exact statistics once per block and replaces a second normalization with a lightweight variance approximation. Empirically, BHyT demonstrates improved stability and efficiency during pretraining, achieving an average of 1.6\% faster training and an average of 1.77\% higher token generation throughput compared to RMSNorm, while maintaining strong pretraining-only and post-SFT performance across language understanding and reasoning benchmarks\footnote{Code is available at: https://github.com/MLAI-Yonsei/BHyT}.
MedRedFlag: LLM が現実世界の医療コミュニケーションにおける誤解をどのように方向転換するかを調査する
患者からの現実世界の健康に関する質問には、意図せず誤った仮定や前提が含まれていることがよくあります。このような場合、安全な医療コミュニケーションには通常、方向転換が含まれます。つまり、暗黙の誤解に対処し、その後、元の質問ではなく、根底にある患者の状況に応答します。大規模言語モデル (LLM) は医療アドバイスのために一般ユーザーによって使用されることが増えていますが、この重要な能力についてはまだテストされていません。したがって、この研究では、現実世界の健康に関する質問に埋め込まれた誤った前提に対して LLM がどのように反応するかを調査します。私たちは、Reddit から取得したリダイレクトを必要とする 1,100 以上の質問のデータセットである MedRedFlag をキュレーションするための半自動パイプラインを開発しています。次に、最先端の LLM からの反応を臨床医からの反応と体系的に比較します。私たちの分析により、LLM は問題のある前提が検出された場合でも、問題のある質問の方向を変えることができず、次善の医療意思決定につながる可能性のある回答を提供できないことが明らかになりました。私たちのベンチマークとその結果は、現実世界の医療コミュニケーションの条件下で LLM がどのように機能するかについて、これまでにない大幅なギャップを明らかにし、患者に直面する医療 AI システムに対する重大な安全上の懸念を浮き彫りにしています。コードとデータセットは https://github.com/srsambara-1/MedRedFlag で入手できます。
原文 (English)
MedRedFlag: Investigating how LLMs Redirect Misconceptions in Real-World Health Communication
Real-world health questions from patients often unintentionally embed false assumptions or premises. In such cases, safe medical communication typically involves redirection: addressing the implicit misconception and then responding to the underlying patient context, rather than the original question. While large language models (LLMs) are increasingly being used by lay users for medical advice, they have not yet been tested for this crucial competency. Therefore, in this work, we investigate how LLMs react to false premises embedded within real-world health questions. We develop a semi-automated pipeline to curate MedRedFlag, a dataset of 1100+ questions sourced from Reddit that require redirection. We then systematically compare responses from state-of-the-art LLMs to those from clinicians. Our analysis reveals that LLMs often fail to redirect problematic questions, even when the problematic premise is detected, and provide answers that could lead to suboptimal medical decision making. Our benchmark and results reveal a novel and substantial gap in how LLMs perform under the conditions of real-world health communication, highlighting critical safety concerns for patient-facing medical AI systems. Code and dataset are available at https://github.com/srsambara-1/MedRedFlag.
プロの翻訳者は機械生成されたテキストを識別できますか?
この研究では、事前に専門的なトレーニングを受けていないプロの翻訳者が、人工知能 (AI) によって生成されたイタリア語の短編小説を確実に識別できるかどうかを調査します。 69 人の翻訳者が対面実験に参加し、匿名化された 3 つの短編小説 (ChatGPT-4o によって書かれた 2 つと人間の著者によって書かれた 1 つ) を評価しました。各ストーリーについて、参加者は AI の作者である可能性を評価し、その選択の正当性を示しました。平均的な結果は決定的ではありませんでしたが、統計的に有意なサブセット (16.2%) が合成テキストと人間のテキストを区別することに成功し、彼らの判断が偶然ではなく分析スキルに基づいて行われたことを示唆しています。しかし、ほぼ同数が反対方向にテキストを誤分類しており、多くの場合、客観的なマーカーではなく主観的な印象に依存しており、おそらく AI によって生成されたテキストに対する読者の好みを反映しています。バースト性の低さと物語の矛盾が、合成著作者であることを示す最も信頼できる指標として浮上し、予期せぬ表現、意味的借用、英語からの統語的転移も報告されました。対照的に、文法的な正確さや感情的な調子などの特徴が誤分類につながることがよくありました。これらの発見は、専門的な文脈における合成テキスト編集の役割と範囲について疑問を引き起こします。
原文 (English)
Can professional translators identify machine-generated text?
This study investigates whether professional translators without prior specialized training can reliably identify short stories generated in Italian by artificial intelligence (AI). Sixty-nine translators took part in an in-person experiment, where they assessed three anonymized short stories - two written by ChatGPT-4o and one by a human author. For each story, participants rated the likelihood of AI authorship and provided justifications for their choices. While average results were inconclusive, a statistically significant subset (16.2%) successfully distinguished the synthetic texts from the human text, suggesting that their judgements were informed by analytical skill rather than chance. However, a nearly equal number misclassified the texts in the opposite direction, often relying on subjective impressions rather than objective markers, possibly reflecting a reader preference for AI-generated texts. Low burstiness and narrative contradiction emerged as the most reliable indicators of synthetic authorship, with unexpected calques, semantic loans and syntactic transfer from English also reported. In contrast, features such as grammatical accuracy and emotional tone frequently led to misclassification. These findings raise questions about the role and scope of synthetic-text editing in professional contexts.
読者はAIが生成したイタリアの短編小説を好みますか?
この研究では、読者が著名なイタリア人作家が書いた短編小説よりも、AI が生成したイタリア語の短編小説を好むかどうかを調査しました。ブラインド設定では、20 人の参加者が 3 つのストーリー (2 つは ChatGPT-4o で作成され、1 つは Alberto Moravia によって作成されました) を、その起源について知らされることなく読み、評価しました。潜在的な影響要因を調査するために、読書習慣と、年齢、性別、教育、第一言語を含む人口統計データも収集されました。その結果、差はわずかであったものの、AI が書いたテキストの方が平均評価がわずかに高く、好まれる頻度が高かったことがわかりました。テキストの好みと人口統計または読書習慣の変数の間に統計的に有意な関連性は見つかりませんでした。これらの発見は、人間が執筆した小説に対する読者の好みに関する仮定に疑問を投げかけ、文学の文脈における合成テキスト編集の必要性について疑問を投げかけています。
原文 (English)
Do readers prefer AI-generated Italian short stories?
This study investigates whether readers prefer AI-generated short stories in Italian over one written by a renowned Italian author. In a blind setup, 20 participants read and evaluated three stories, two created with ChatGPT-4o and one by Alberto Moravia, without being informed of their origin. To explore potential influencing factors, reading habits and demographic data, comprising age, gender, education and first language, were also collected. The results showed that the AI-written texts received slightly higher average ratings and were more frequently preferred, although differences were modest. No statistically significant associations were found between text preference and demographic or reading-habit variables. These findings challenge assumptions about reader preference for human-authored fiction and raise questions about the necessity of synthetic-text editing in literary contexts.
マルチエージェント討論を読み解く: 自信と多様性の役割
マルチエージェント ディベート (MAD) は、テスト時間のスケーリングを通じて大規模言語モデル (LLM) のパフォーマンスを向上させるために広く使用されていますが、最近の研究では、バニラの MAD は、計算コストが高いにもかかわらず、単純な多数決を下回ることが多いことが示されています。研究によると、同種のエージェントと統一的な信念の更新の下では、議論は期待される正しさを維持するため、結果を確実に改善することはできません。人間による熟慮と集団的意思決定からの発見に基づいて、バニラ MAD に欠けている 2 つの重要なメカニズムを特定します。(i) 初期の視点の多様性と、(ii) 明示的で調整された信頼性のコミュニケーションです。私たちは 2 つの軽量介入を提案します。まず、多様性を意識した初期化により、より多様な回答候補プールが選択され、議論の開始時に正しい仮説が存在する可能性が高まります。 2 つ目は、エージェントが調整された自信を表現し、他の人の自信に基づいて最新情報を条件付けする、自信調整型ディベート プロトコルです。我々は、多様性を意識した初期化により、基礎となる更新ダイナミクスを変更することなく MAD 成功の事前確率が向上する一方で、信頼度調整された更新により、議論が体系的に正しい仮説に向かうことが可能になることを理論的に示します。経験的には、6 つの推論指向の QA ベンチマーク全体で、私たちの手法はバニラの MAD と多数決を一貫して上回っています。私たちの結果は、人間による熟慮と LLM ベースの議論を結びつけ、シンプルで原則に基づいた修正が議論の有効性を大幅に高めることができることを示しています。
原文 (English)
Demystifying Multi-Agent Debate: The Role of Confidence and Diversity
Multi-agent debate (MAD) is widely used to improve large language model (LLM) performance through test-time scaling, yet recent work shows that vanilla MAD often underperforms simple majority vote despite higher computational cost. Studies show that, under homogeneous agents and uniform belief updates, debate preserves expected correctness and therefore cannot reliably improve outcomes. Drawing on findings from human deliberation and collective decision-making, we identify two key mechanisms missing from vanilla MAD: (i) diversity of initial viewpoints and (ii) explicit, calibrated confidence communication. We propose two lightweight interventions. First, a diversity-aware initialisation that selects a more diverse pool of candidate answers, increasing the likelihood that a correct hypothesis is present at the start of debate. Second, a confidence-modulated debate protocol in which agents express calibrated confidence and condition their updates on others' confidence. We show theoretically that diversity-aware initialisation improves the prior probability of MAD success without changing the underlying update dynamics, while confidence-modulated updates enable debate to systematically drift to the correct hypothesis. Empirically, across six reasoning-oriented QA benchmarks, our methods consistently outperform vanilla MAD and majority vote. Our results connect human deliberation with LLM-based debate and demonstrate that simple, principled modifications can substantially enhance debate effectiveness.
大規模言語モデルにおける文化的に根拠のあるペルソナ: 特徴付けと社会心理学的価値フレームワークとの整合
人間の行動をシミュレートするための大規模言語モデル (LLM) の有用性が高まっているにもかかわらず、これらの合成ペルソナが、さまざまな文化条件にわたる世界および道徳的価値観をどの程度正確に反映しているかは依然として不確実です。この論文では、確立された枠組み、特に世界価値観調査 (WVS)、イングルハート・ヴェルゼル文化地図、道徳基盤理論と、文化に基づいた総合的なペルソナの整合性を調査します。私たちは、解釈可能な WVS 由来の変数のセットに基づいて LLM によって生成されたペルソナを概念化して生成し、生成されたペルソナを 3 つの相補的なレンズを通して検査します。世界価値観調査との人口統計レベルの一貫性。回答分布は人間のグループパターンを広範囲に追跡します。道徳的プロフィールは、道徳財団のアンケートから得られ、文化と道徳のマッピングを通じて分析し、さまざまな文化構成間で道徳的反応がどのように異なるかを特徴づけます。文化に基づいたペルソナの生成と分析のアプローチにより、異文化構造と道徳的変動の評価が可能になります。
原文 (English)
Culturally Grounded Personas in Large Language Models: Characterization and Alignment with Socio-Psychological Value Frameworks
Despite the growing utility of Large Language Models (LLMs) for simulating human behavior, the extent to which these synthetic personas accurately reflect world and moral value systems across different cultural conditionings remains uncertain. This paper investigates the alignment of synthetic, culturally-grounded personas with established frameworks, specifically the World Values Survey (WVS), the Inglehart-Welzel Cultural Map, and Moral Foundations Theory. We conceptualize and produce LLM-generated personas based on a set of interpretable WVS-derived variables, and we examine the generated personas through three complementary lenses: positioning on the Inglehart-Welzel map, which unveils their interpretation reflecting stable differences across cultural conditionings; demographic-level consistency with the World Values Survey, where response distributions broadly track human group patterns; and moral profiles derived from a Moral Foundations questionnaire, which we analyze through a culture-to-morality mapping to characterize how moral responses vary across different cultural configurations. Our approach of culturally-grounded persona generation and analysis enables evaluation of cross-cultural structure and moral variation.
自己蒸留で専門家の推論を学習可能にする
大規模言語モデル (LLM) の推論機能の向上は、通常、強化すべき正しい解決策をサンプリングするモデルの能力か、問題を解決できるより強力なモデルの存在に依存します。ただし、現在のフロンティア モデルでも多くの困難な問題が依然として解決できず、有効なトレーニング信号の抽出が妨げられています。有望な代替案は、高品質の専門家による人間によるソリューションを活用することですが、このデータの単純な模倣は失敗します。なぜなら、このデータは基本的に配布されていないためです。専門家によるソリューションは通常、教訓的であり、計算モデルではなく人間の読者を対象とした暗黙の推論のギャップが含まれています。さらに、高品質のエキスパート ソリューションは高価であるため、一般化可能でサンプル効率の高いトレーニング方法が必要です。私たちは、最初に専門家のソリューションを詳細な分布内の推論トレースに変換し、次に対照的な目標を適用して専門家の洞察と方法論に焦点を当てた学習を行うことで、分布のギャップを埋める 2 段階の自己蒸留手法である、分布整合模倣学習 (DAIL) を提案します。 DAIL は 1,000 未満の高品質のエキスパート ソリューションを活用して、Qwen2.5-Instruct および Qwen3 で最大 31% pass@128 の向上を達成し、推論効率を 2 倍にし、ドメイン外の一般化を可能にすることがわかりました。
原文 (English)
Making Expert Reasoning Learnable with Self-Distillation
Improving the reasoning capabilities of large language models (LLMs) typically relies either on the model's ability to sample a correct solution to be reinforced or the existence of a stronger model able to solve the problem. However, many difficult problems remain intractable for even current frontier models, preventing the extraction of valid training signals. A promising alternative is to leverage high-quality expert human solutions, yet naive imitation of this data fails because it is fundamentally out-of-distribution: expert solutions are typically didactic, containing implicit reasoning gaps intended for human readers rather than computational models. Furthermore, high-quality expert solutions are expensive, necessitating generalizable, sample-efficient training methods. We propose Distribution Aligned Imitation Learning (DAIL), a two-step self-distillation method that bridges the distributional gap by first transforming expert solutions into detailed, in-distribution reasoning traces and then applying a contrastive objective to focus learning on expert insights and methodologies. We find that DAIL can leverage fewer than 1000 high-quality expert solutions to achieve up to 31% pass@128 gains on Qwen2.5-Instruct and Qwen3, double reasoning efficiency, and enable out-of-domain generalization.
TamperBench: 微調整と改ざんの下での LLM の安全性を系統的にストレス テストする
ますます高機能なオープンウェイト大規模言語モデル (LLM) が展開されるにつれ、偶発的か意図的かにかかわらず、安全でない変更に対する改ざん耐性を向上させることが、リスクを最小限に抑えるために重要になります。ただし、耐タンパー性を評価するための標準的なアプローチはありません。データセット、メトリクス、および改ざん構成が多様であるため、さまざまなモデルや防御にわたって安全性、実用性、堅牢性を比較することが困難になります。これに対処するために、LLM の耐タンパー性を体系的に評価するための初の統合フレームワークである TamperBench を導入します。 TamperBench (i) 最先端の重み空間微調整攻撃、潜在空間表現攻撃、および調整段階の防御のリポジトリを管理します。 (ii) 攻撃モデルのペアごとに体系的なハイパーパラメータ スイープを通じて現実的な敵対的評価を可能にします。 (iii) 安全性と実用性の両方の評価を提供します。私たちは TamperBench を使用して、モデルと攻撃のペアごとのハイパーパラメーター スイープによる標準化された安全性と機能のメトリクスを使用して、9 つの改ざん脅威にわたって防御強化された亜種を含む 21 のオープンウェイト LLM を評価します。この結果からは、耐タンパー性に対するポストトレーニングの効果、ジェイルブレイクチューニングが通常最も深刻な攻撃であること、現在の調整段階の防御は攻撃スイープにほとんど耐えられないことなどの洞察が得られます。コードは https://github.com/criticalml-uw/TamperBench で入手できます。
原文 (English)
TamperBench: Systematically Stress-Testing LLM Safety Under Fine-Tuning and Tampering
As increasingly capable open-weight large language models (LLMs) are deployed, improving their tamper resistance against unsafe modifications, whether accidental or intentional, becomes critical to minimize risks. However, there is no standard approach to evaluate tamper resistance. Varied datasets, metrics, and tampering configurations make it difficult to compare safety, utility, and robustness across different models and defenses. To address this, we introduce TamperBench, the first unified framework to systematically evaluate the tamper resistance of LLMs. TamperBench (i) curates a repository of state-of-the-art weight-space fine-tuning attacks, latent-space representation attacks, and alignment-stage defenses; (ii) enables realistic adversarial evaluation through systematic hyperparameter sweeps per attack-model pair; and (iii) provides both safety and utility evaluations. We use TamperBench to evaluate 21 open-weight LLMs, including defense-augmented variants, across nine tampering threats using standardized safety and capability metrics with hyperparameter sweeps per model-attack pair. The results provide insights including effects of post-training on tamper resistance, that jailbreak-tuning is typically the most severe attack, and that current alignment-stage defenses largely fail to withstand attack sweeps. Code is available at https://github.com/criticalml-uw/TamperBench.
AlgoVeri: 古典的なアルゴリズムでの検証済みコード生成のための調整されたベンチマーク
ベリコーディングとは、厳密な仕様に基づいて正式に検証されたコードを生成することを指します。最近の AI モデルは検証コーディングにおいて有望ですが、クロスパラダイム評価のための統一された方法論が不足しています。既存のベンチマークは個別の言語/ツール (Dafny、Verus、Lean など) のみをテストしており、それぞれが非常に異なるタスクをカバーしているため、パフォーマンスの数値を直接比較することはできません。私たちは、Dafny、Verus、Lean の $77$ の古典的なアルゴリズムのベリコーディングを評価するベンチマークである AlgoVeri を使用して、このギャップに対処します。 AlgoVeri は、同一の機能コントラクトを強制することで、検証システムの重大な機能ギャップを明らかにします。フロンティア モデルは、高レベルの抽象化と SMT 自動化によってワークフローが簡素化される Dafny (Gemini-3 フラッシュで $40.3$%) で扱いやすい成功を収めていますが、Verus ($24.7$%) のシステム レベルのメモリ制約と Lean (7.8%) で必要とされる明示的な証明構築の下ではパフォーマンスが崩壊します。集計メトリクスを超えて、テスト時の計算ダイナミクスの急激な相違が明らかになりました。Gemini-3 は反復修復を効果的に利用してパフォーマンスを向上させます (たとえば、Dafny の合格率を 3 倍にします)。一方、GPT-OSS は早期に飽和します。最後に、私たちのエラー分析は、言語設計が改良の軌道に影響を与えることを示しています。Dafny ではモデルが論理的な正しさに集中できるのに対し、Verus と Lean は永続的な構文および意味論的な障壁にモデルを閉じ込めます。すべてのデータと評価コードは、https://github.com/haoyuzhao123/algoveri で見つけることができます。
原文 (English)
AlgoVeri: An Aligned Benchmark for Verified Code Generation on Classical Algorithms
Vericoding refers to the generation of formally verified code from rigorous specifications. Recent AI models show promise in vericoding, but a unified methodology for cross-paradigm evaluation is lacking. Existing benchmarks test only individual languages/tools (e.g., Dafny, Verus, and Lean) and each covers very different tasks, so the performance numbers are not directly comparable. We address this gap with AlgoVeri, a benchmark that evaluates vericoding of $77$ classical algorithms in Dafny, Verus, and Lean. By enforcing identical functional contracts, AlgoVeri reveals critical capability gaps in verification systems. While frontier models achieve tractable success in Dafny ($40.3$% for Gemini-3 Flash), where high-level abstractions and SMT automation simplify the workflow, performance collapses under the systems-level memory constraints of Verus ($24.7$%) and the explicit proof construction required by Lean (7.8%). Beyond aggregate metrics, we uncover a sharp divergence in test-time compute dynamics: Gemini-3 effectively utilizes iterative repair to boost performance (e.g., tripling pass rates in Dafny), whereas GPT-OSS saturates early. Finally, our error analysis shows that language design affects the refinement trajectory: while Dafny allows models to focus on logical correctness, Verus and Lean trap models in persistent syntactic and semantic barriers. All data and evaluation code can be found at https://github.com/haoyuzhao123/algoveri.
DSL-Topic: 言語モデルからソフトラベルを抽出することによるトピックモデリングの改善
従来のニューラル トピック モデルは通常、ドキュメントの Bag-of-Words (BoW) 表現を再構築し、コンテキスト情報を無視し、データの疎性と格闘することによって最適化されます。この研究では、言語モデル (LM) からソフト ラベル (DSL) を抽出することによる、新しいトピック モデル トレーニング フレームワークを紹介します。コンテキストに富んだ再構築信号を構築するために、特殊なプロンプトを条件とした次のトークンの確率を事前定義された語彙に投影し、LM 隠れ状態を使用してソフト ラベルを再構築するようにトピック モデルをトレーニングします。これにより、コーパスの基礎となるテーマ構造とより密接に連携した、より質の高いトピックが生成されます。広範な実験により、DSL が既存のベースラインに比べてトピックの一貫性と割り当ての精度が大幅に向上することが実証されました。さらに、検索ベースの指標も導入します。これは、意味的に類似した文書の識別において、私たちのアプローチが既存の方法よりも大幅に優れていることを示し、検索指向のアプリケーションに対する有効性を強調しています。
原文 (English)
DSL-Topic: Improving Topic Modeling by Distilling Soft Labelsfrom Language Models
Traditional neural topic models are typically optimized by reconstructing the document's Bag-of-Words (BoW) representations, overlooking contextual information and struggling with data sparsity. In this work, we introduce a novel topic model training framework by Distilling Soft Labels (DSL) from Language Models (LMs). To construct the contextually enriched reconstruction signals, we project the next token probabilities, conditioned on a specialized prompt, onto a pre-defined vocabulary, and train the topic models to reconstruct the soft labels using the LM hidden states. This produces higher-quality topics that are more closely aligned with the underlying thematic structure of the corpus. Extensive experiments demonstrate that DSL achieves substantial improvements in topic coherence and assignment accuracy over existing baselines. Additionally, we also introduce a retrieval-based metric, which shows that our approach significantly outperforms existing methods in identifying semantically similar documents, highlighting its effectiveness for retrieval-oriented applications.
価値のもつれ: (一部の) 大規模な言語モデルにおける異なる種類の善の間の融合
大規模言語モデル (LLM) の値の調整には、これらのモデルが実際に取得した値の表現を経験的に測定する必要があります。人間の価値表現の特徴の 1 つは、異なる種類の価値を区別することです。私たちは、LLM が同様に、道徳的、文法的、経済的という 3 つの異なる種類の善を区別するかどうかを調査します。モデルの動作、埋め込み、および残差ストリームのアクティベーションを調査することにより、値のもつれ、つまりこれらの異なる値の表現間の混同の広範なケースを報告します。具体的には、文法的評価と経済的評価の両方が、人間の規範と比較して道徳的価値に過度に影響されることが判明しました。この混同は、道徳に関連する活性化ベクトルを選択的に除去することによって修復されました。
原文 (English)
Value Entanglement: Conflation Between Different Kinds of Good In (Some) Large Language Models
Value alignment of Large Language Models (LLMs) requires us to empirically measure these models' actual, acquired representation of value. Among the characteristics of value representation in humans is that they distinguish among value of different kinds. We investigate whether LLMs likewise distinguish three different kinds of good: moral, grammatical, and economic. By probing model behavior, embeddings, and residual stream activations, we report pervasive cases of value entanglement: a conflation between these distinct representations of value. Specifically, both grammatical and economic valuation was found to be overly influenced by moral value, relative to human norms. This conflation was repaired by selective ablation of the activation vectors associated with morality.
vLLM セマンティック ルーター: 混合モダリティ モデル向けの信号駆動型意思決定ルーティング
大規模言語モデル (LLM) がモダリティ、機能、コスト プロファイルにわたって多様化するにつれて、インテリジェントなリクエスト ルーティングの問題、つまり推論時に各クエリに適切なモデルを選択することが、システムの重要な課題となっています。 Mixture-of-Modality (MoM) モデル展開用の信号駆動型意思決定ルーティング フレームワークである vLLM Semantic Router を紹介します。このアーキテクチャは、シャノンからインスピレーションを得た 2 つの相補的なビューに従っています。情報理論領域では、信号抽出により「どのモデルか?」のエントロピーが低減されます。生のクエリからルーティング関連情報を抽出することによって。ブール代数領域では、意思決定エンジンは信号状態から機能的に完全なルーティング ポリシーを構成します。中心的なイノベーションは、構成可能な信号オーケストレーションです。ミリ秒未満のヒューリスティックと、セマンティクス、安全性、モダリティのニューラル分類子にわたる 13 種類の異種信号タイプが、構成可能なブール決定ルールを通じて展開固有のルーティング ポリシーに組み込まれるため、基本的に異なるシナリオ (マルチクラウド エンタープライズ、プライバシー規制、コスト最適化) が、同じアーキテクチャ上の異なる構成として表現されます。一致した決定は 13 の選択アルゴリズムを介してセマンティック モデルのルーティングを推進し、決定ごとのプラグイン チェーンは 3 段階の HaluGate 幻覚検出パイプラインやパーソナライズされたマルチターン コンテキストのための ReflectionGate を備えた軽量のエピソード記憶システムなどの安全制約を強制します。型付きニューラルシンボリック DSL は、これらのルーティング ポリシーを指定し、複数の展開ターゲットにコンパイルして、コードを変更せずに構成優先の適応を可能にします。これらのコンポーネントを総合すると、コンポーザブルな信号オーケストレーションにより、単一のフレームワークで差別化されたコスト、プライバシー、安全性ポリシーを備えた多様な展開シナリオに対応できることがわかります。
原文 (English)
vLLM Semantic Router: Signal Driven Decision Routing for Mixture-of-Modality Models
As large language models (LLMs) diversify across modalities, capabilities, and cost profiles, the problem of intelligent request routing: selecting the right model for each query at inference time, has become a critical systems challenge. We present vLLM Semantic Router, a signal-driven decision routing framework for Mixture-of-Modality (MoM) model deployments. The architecture follows two complementary Shannon-inspired views. In the information-theoretic regime, signal extraction reduces the entropy of "which model?" by distilling routing-relevant information from raw queries. In the Boolean-algebraic regime, the decision engine composes functionally complete routing policies from signal conditions. The central innovation is composable signal orchestration: thirteen heterogeneous signal types, spanning sub-millisecond heuristics and neural classifiers for semantics, safety, and modality, are composed through configurable Boolean decision rules into deployment-specific routing policies, so that fundamentally different scenarios (multi-cloud enterprise, privacy-regulated, cost-optimized) are expressed as different configurations over the same architecture. Matched decisions drive semantic model routing via thirteen selection algorithms, while per-decision plugin chains enforce safety constraints including a three-stage HaluGate hallucination detection pipeline and a lightweight episodic memory system with ReflectionGate for personalized multi-turn context. A typed neural-symbolic DSL specifies these routing policies and compiles them to multiple deployment targets, enabling configuration-first adaptation without code changes. Together, these components show that composable signal orchestration enables a single framework to serve diverse deployment scenarios with differentiated cost, privacy, and safety policies.
EvoPrompt: Guided Prompt Evolution for Vision-Language Models Adaptation
The adaptation of large-scale vision-language models (VLMs) to downstream tasks with limited labeled data remains a significant challenge.…
Safety Under Scaffolding: How Evaluation Conditions Shape Measured Safety
A safety score earned on a benchmark need not predict how the same model behaves once it is wrapped in an agentic scaffold the benchmark ne…
FinTradeBench: A Financial Reasoning Benchmark for LLMs
Real-world financial decision-making is a challenging problem that requires reasoning over heterogeneous signals, including company fundame…
PoliticsBench: Benchmarking Political Values in Large Language Models with Multi-Turn Roleplay
While Large Language Models (LLMs) are increasingly used as primary sources of information, their potential for political bias may impact t…
Emotion Entanglement and Bayesian Inference for Multi-Dimensional Emotion Understanding
Understanding emotions in natural language is inherently a multi-dimensional reasoning problem, where multiple affective signals interact t…
Inclusion-of-Thoughts: Mitigating Preference Instability via Purifying the Decision Space
Multiple-choice questions (MCQs) are widely used to evaluate large language models (LLMs). However, LLMs remain vulnerable to the presence…
Policy Split: Incentivizing Dual-Mode Exploration in LLM Reinforcement with Dual-Mode Entropy Regularization
To encourage diverse exploration in reinforcement learning (RL) for large language models (LLMs) without compromising accuracy, we propose…
Luminol-AIDetect: Fast Zero-shot Machine-Generated Text Detection based on Perplexity under Text Shuffling
Machine-generated text (MGT) detection requires identifying structurally invariant signals across generation models, rather than relying on…
SkCC: Portable and Secure Skill Compilation for Cross-Framework LLM Agents
LLM agents increasingly rely on reusable skills (e.g., SKILL markdown files) to execute complex tasks, yet these artifacts lack portability…
A Systematic Investigation of RL-Jailbreaking in LLMs
The evolution of generative models from next-token predictors to autonomous engines of complex systems necessitates rigorous safety hardeni…
Widening the Gap: Exploiting LLM Quantization via Outlier Injection
LLM quantization has become essential for memory-efficient deployment. Recent work has shown that quantization schemes can pose critical se…
Do LLMs Hold Their Values? MANTA: A Multi-Turn Adversarial Benchmark for Animal Welfare Reasoning
Evaluating animal welfare reasoning in LLMs remains an open challenge despite rapid deployment in consumer and professional contexts where…
ZeroUnlearn: Few-Shot Knowledge Unlearning in Large Language Models
Large language models inevitably retain sensitive information, defined as inputs that may induce harmful generations, due to training on ma…
REFLECTOR: Internalizing Step-wise Reflection against Indirect Jailbreak
While Large Language Models (LLMs) demonstrate remarkable capabilities, they remain susceptible to sophisticated, multi-step jailbreak atta…
注意力の散漫によって引き起こされる視覚的なぼやけを修正して幻覚を軽減する: アルゴリズムと理論
マルチモーダル大規模言語モデル (MLLM) は、物体の幻覚に悩まされることがよくありますが、この失敗の根底にある視覚知覚メカニズムはまだ十分に理解されていません。この研究では、幻覚が人間のような注意散漫現象と強く関連していることを明らかにしました。この現象では、分割焦点下にある人間は視覚の明瞭度が低下し、不正確な説明を生成しますが、モデルでは同じメカニズムが、複数頭の注意における空間的な不一致と、デコード中の画像トークンへの注意の一時的な薄れとして現れます。さらに、注意の分散によってモデルの複雑さが増大し、分類の一般化が低下するという理論的な洞察も提供します。これらの発見に動機づけられて、我々は、画像認識を改善するための注意集中アプローチ(AFIP)を提案します。これは、クロスヘッド注意の強化を通じて注意の散漫を修正し、動的な歴史的注意の強化を通じて視覚の基礎を強化します。複数のベンチマークとモデルに関する広範な実験により、追加のトレーニングなしで AFIP の有効性が検証されます。
原文 (English)
Correcting Visual Blur Induced by Attention Distraction to Reduce Hallucinations: Algorithm and Theory
Multimodal large language models (MLLMs) frequently suffer from object hallucinations, yet the visual perceptual mechanism underlying this failure remains poorly understood. In this work, we reveal that hallucinations are strongly associated with a human-like attention distraction phenomenon, where humans under divided focus experience degraded visual clarity and produce inaccurate descriptions, while in models the same mechanism manifests as spatial inconsistency in multi-head attention and temporal fading of attention to image tokens during decoding. We further provide theoretical insights that attention dispersion increases model complexity and degrades classification generalization. Motivated by these findings, we propose an Attention-Focused Approach for Improved Image Perception (AFIP), which corrects attention distraction via cross-head attention enrichment and reinforces visual grounding through dynamic historical attention enhancement. Extensive experiments on multiple benchmarks and models validate the effectiveness of AFIP without additional training.
アリヤバータ 2: 高度な STEM 推論のための強化学習のスケーリング
JEE や NEET などの競争力のある STEM 試験では、複数段階の記号的推論、正確な数値計算、物理、化学、数学にわたる深い概念的理解が必要です。最近の大規模な言語モデルは、共通の推論ベンチマークでは優れたパフォーマンスを発揮しますが、大規模に展開することは依然として困難であり、学生の何百万もの疑問がドメイン固有の一貫した構造の問題解決を必要としています。 Aryabhata 2 は、トレーニング後の強化学習によってトレーニングされた、競争力のある STEM 試験用の推論に焦点を当てた言語モデルです。 PhysicsWallah の内部質問バンクを使用して、高品質のトレーニング カリキュラムを構築し、検証可能な報酬を伴う強化学習を通じて GPT-OSS-20B のポストトレーニングを構築します。トレーニングでは、長期にわたる強化学習と、段階的にロールアウト グループのサイズが大きくなることで広がる探索を組み合わせます。 JEE Main、JEE Advanced、NEET などの競合試験ベンチマークと、AIME、HMMT、MMLU-Pro、MMLU-Redux 2.0、GPQA などの配布外推論データセットで Aryabhata 2 を評価します。結果は、Aryabhata 2 が競合 STEM 推論において基本モデル GPT-OSS-20B を上回るパフォーマンスを示しながら、必要な出力トークンが大幅に少なくなる (最大 64\% 少ない) ことを示しています。
原文 (English)
Aryabhata 2: Scaling Reinforcement Learning for Advanced STEM Reasoning
Competitive STEM examinations such as JEE and NEET require multi-step symbolic reasoning, precise numerical computation, and deep conceptual understanding across physics, chemistry, and mathematics. Recent large language models perform strongly on common reasoning benchmarks, yet they remain difficult to deploy at scale, where millions of student doubts demand domain-specific, consistently structured problem solving. We introduce Aryabhata 2, a reasoning-focused language model for competitive STEM examinations, trained via reinforcement-learning post-training. Using PhysicsWallah's internal question banks, we construct a high-quality training curriculum and post-train GPT-OSS-20B through reinforcement learning with verifiable rewards. Training combines prolonged reinforcement learning with broadened exploration via progressively larger rollout group sizes. We evaluate Aryabhata 2 on competitive examination benchmarks, including JEE Main, JEE Advanced, and NEET, as well as out-of-distribution reasoning datasets such as AIME, HMMT, MMLU-Pro, MMLU-Redux 2.0, and GPQA. Results show that Aryabhata 2 outperforms its base model GPT-OSS-20B on competitive STEM reasoning while requiring substantially fewer output tokens (up to 64\% fewer).
構造化プロンプトの最適化と強化学習の融合により、複雑なテキストに対するグローバルおよびローカルの解釈可能性が実現
LLM は高度なテキスト分類を備えていますが、既存のパラダイムはトレードオフに直面しています。教師付き (ラベルのみ) 微調整はスケーラブルですが、複雑なテキストに対する推論が限られており、広範なモデルの透明性に欠けています。一方、離散プロンプト最適化は人間が読める命令を提供しますが、パフォーマンスとスケーラビリティに苦労します。私たちは、3 つの段階的な段階を持つ eXTC (eXplainable Text Classifier) を導入します。(1) 新しい構造化プロンプト最適化アルゴリズムを介して、自然言語で標準操作手順 (SOP、またはルールブック) を学習します。 (2) SOP に基づいた推論を大規模な教師 LLM からコンパクトな LM に抽出します。 (3) 強化学習により、初期 SOP を超えて推論能力を拡張します。この設計により、eXTC は、(i) コンパクトな LM を介した高速推論、(ii) 学習したドメイン ルールのグローバルなモジュール式説明と並行した推論時のローカル推論トレースを提供できるようになり、(iii) 分類パフォーマンスと説明品質の両方において、さまざまなベンチマークにわたって既存のパラダイムを大幅に上回り、段階ごとに向上します。
原文 (English)
Structured Prompt Optimization Meets Reinforcement Learning for Global and Local Interpretability over Complex Text
LLMs have advanced text classification, yet existing paradigms face a trade-off: supervised (label only) fine-tuning is scalable but offers limited reasoning on complex text and lacks broader model transparency, while discrete prompt optimization offers human-readable instructions but struggles with performance and scalability. We introduce eXTC (eXplainable Text Classifier) with three progressive stages: (1) learning a Standard Operating Procedure (SOP, or rulebook) in natural language via a new Structured Prompt Optimization algorithm; (2) SOP-grounded reasoning distillation from a large teacher LLM into a compact LM; and (3) expanding reasoning capabilities beyond the initial SOP via reinforcement learning. This design enables eXTC to provide (i) fast inference via a compact LM, with (ii) inference-time local reasoning traces, alongside a global, modular explanation of its learned domain rules, while (iii) significantly outperforming existing paradigms across diverse benchmarks in both classification performance and explanation quality, with stage-by-stage gains.
Towards Verifiable Multimodal Deep Research: A Multi-Agent Harness for Interleaved Report Generation
Large Language Models (LLMs) have advanced autonomous agents from deep search, which retrieves concise factual answers, to deep research, w…
Label Over Logic? How Source Cues Bias Human Fallacy Judgments More Than LLMs
As AI-generated and AI-assisted content floods online spaces, source labels attached to such content can distort human reasoning judgments,…
BenHalluEval: A Multi-Task Hallucination Evaluation Framework for Large Language Models on Bengali
Despite Bengali being the sixth most spoken language in the world, no prior work has systematically evaluated hallucination in large langua…
memorywire: A Vendor-Neutral Wire Format for Agent Memory Operations
Agent-memory frameworks -- mem0, Letta/MemGPT, Cognee, Zep/Graphiti, MemoryOS, MemTensor -- each ship their own SDK, storage layout, and op…
DiscourseFlip: An Oblique Discourse-Level Opinion Manipulation Attack against Black-box Retrieval-Augmented Generation
Retrieval-Augmented Generation (RAG) systems are widely deployed and increasingly influential, but their reliance on external corpora expos…
Adaptive Auto-Harness: Sustained Self-Improvement for Agentic System Deployment on Open-Ended Task Streams
Auto-harness systems such as A-Evolve, GEPA, and Meta-Harness improve LLM agents by optimizing prompts, skills, tools, memories, and suppor…
AutoForest: Automatically Generating Forest Plots from Biomedical Studies with End-to-End Evidence Extraction and Synthesis
Systematic reviews rely on forest plots to synthesise quantitative evidence across biomedical studies, but generating them remains a fragme…
Implement Kubernetes Pod-Level Remote Attestation for Confidential Workloads on dstack
The rise of LLM-as-a-Service and other confidential cloud workloads demands cryptographic proof that user data is processed in a trusted, u…
P$^2$-DPO: Grounding Hallucination in Perceptual Processing via Calibration Direct Preference Optimization
Hallucination has recently garnered significant research attention in Large Vision-Language Models (LVLMs). Direct Preference Optimization…
Testing LLM Arithmetic Reasoning Generalization with Automatic Numeric-Remapping Attacks
Large language models achieve strong performance on arithmetic reasoning benchmarks, and one common response to arithmetic brittleness is t…
Consistency Training Can Entrench Misalignment
Consistency training encourages a model to produce similar outputs across related inputs or sampling procedures. Such methods are simple, s…
Synthesize and Reward -- Reinforcement Learning for Multi-Step Tool Use in Live Environments
Training LLMs to orchestrate multi-step tool calls is held back by three coupled obstacles: realistic stateful execution environments are c…
エンタープライズ AI エージェントの導入前保証に向けて: オントロジーに基づいたシミュレーションと信頼証明
エンタープライズ人工知能 (AI) エージェントの導入前の検証は、大規模言語モデル (LLM) 機能のベンチマークと運用環境の導入の間に依然として重大なギャップがあります。導入後のモニタリング、人間参加型制御、およびプロンプト レベルのガードレールは、エージェントが運用環境で動作すると限定的な保証を提供します。私たちは、次の 3 つのコンポーネントを組み合わせたオントロジーに基づいた検証フレームワークを提案します。1 つは、権限、ドメイン制約、安全性、ガバナンス ルール、および自律性レベルにわたる認証空間を形式化するエージェント運用エンベロープです。規制、運用、敵対的テストのシナリオを自動的に導き出すオントロジーからシナリオへの生成パイプライン。段階的な展開判定 (承認、条件付き、拒否) を含む機械検証可能な証明書を保持する信頼証明書。米国とベトナムの 5 つの業界別規制制度セルとしてインスタンス化された、4 つの規制対象業界 (フィンテック、銀行、保険、ヘルスケア) にわたる制御されたパイロットは、125 の主要なソース規制要件と 25 の注入された障害に対して評価された 1,800 のシナリオを生成しました。オントロジーに基づいた生成 (G4) は、ペルソナベースのベースラインでは 33.1% であるのに対し、規制適用率は 48.3% (修正 p = 0.0006)、最も高いドメイン特異性 (4.77/5.0; p = 2e-6) を達成しました。ベースラインおよび検索拡張プロンプトに対するカバレッジの利点は、ボンフェローニ補正後は堅牢ではありませんでした。 3 つの LLM ファミリ (Claude Sonnet 4、Qwen 2.5 72B、Gemma 4 26B、合計 5,400 のシナリオ) にわたる相互検証により、ペルソナ対オントロジーのパターンが再現されました。その結果、規制が集中するドメイン向けのペルソナベースのテスト スイートを確実に補完するものとして、オントロジーに基づいたシナリオ生成が確立されました。
原文 (English)
Toward Pre-Deployment Assurance for Enterprise AI Agents: Ontology-Grounded Simulation and Trust Certification
Pre-deployment verification of enterprise artificial intelligence (AI) agents remains a critical gap between large language model (LLM) capability benchmarking and production deployment. Post-deployment monitoring, human-in-the-loop controls, and prompt-level guardrails offer limited assurance once an agent is operating in production. We present an ontology-grounded verification framework -- to our knowledge the first to combine three components: an Agent Operational Envelope formalizing the certification space across permissions, domain constraints, safety properties, governance rules, and autonomy levels; an ontology-to-scenario generation pipeline that derives regulatory, operational, and adversarial test scenarios automatically; and a machine-verifiable Trust Certificate with graduated deployment verdicts. A controlled pilot across four regulated industries (Fintech, Banking, Insurance, Healthcare), instantiated as five industry-by-regulatory-regime cells across the United States and Vietnam (where Vietnam's 2025 AI Law makes such verification legally mandated for financial services), generated 1,800 scenarios evaluated against 125 primary-source regulatory requirements and 25 injected faults. Ontology-grounded generation significantly outperformed the dominant persona-based baseline on regulatory coverage (48.3% versus 33.1%; corrected p_c = .0006) and attained the highest domain specificity (4.77/5.0; p = 2e-6); transparently, its advantage over plain and retrieval-augmented prompting did not survive Bonferroni correction. Cross-validation across three LLM families (Claude Sonnet 4, Qwen 2.5 72B, Gemma 4 26B; 5,400 total scenarios) replicated the persona-versus-ontology pattern. The framework offers a reproducible, regulation-grounded route to pre-deployment assurance for enterprise AI agents, complementing runtime governance with an auditable deployment gate.
SMAC-Talk: 大規模言語モデル用の StarCraft マルチエージェント チャレンジの自然言語拡張
LLM がより広範に導入されるにつれて、LLM は単独で動作するのではなく、他の AI エージェントと連携して動作することがますます期待されています。このような状況での効果的な調整には、エージェントが不確実性の下でコミュニケーションし、情報を共有し、意思決定を行う必要があります。協調的なマルチエージェント環境で LLM ベースのエージェントを評価するための StarCraft Multi-Agent Challenge の自然言語拡張である SMAC-Talk を紹介します。この環境には、分散制御、部分的な可観測性、長期的な意思決定など、いくつかの重要な機能があります。 SMAC-Talk には、エージェントの調整と信頼を調査するために使用される自然言語通信チャネルが含まれています。この通信チャネルを使用して、通信だけで味方を混乱させ、欺こうとする欺瞞的なコミュニケーターが組み込まれた設定など、さまざまな評価シナリオを構築します。 Qwen3.5 ファミリーの 4 つのモデルを使用したベンチマーク用の 3 つのエージェントを提供し、推論構造、メモリ、モデルのスケールがエージェント間の調整にどのように影響するかを調査します。私たちは、協力的なマルチエージェント設定での LLM エージェントの開発と評価における研究コミュニティをサポートするオープン ベンチマークとして SMAC-Talk をリリースします。
原文 (English)
SMAC-Talk: A Natural Language Extension of the StarCraft Multi-Agent Challenge for Large Language Models
As LLMs become more widely deployed, they are increasingly expected to work alongside other AI agents rather than operating in isolation. Effective coordination in these settings requires agents to communicate, share information and make decisions under uncertainty. We introduce SMAC-Talk, a natural language extension of the StarCraft Multi-Agent Challenge for evaluating LLM-based agents in cooperative multi-agent environments. The environment has several key features such as decentralized control, partial observability and long-horizon decision making. SMAC-Talk includes a natural language communication channel which is used to probe agent coordination and trust. We use this communication channel to construct different evaluation scenarios, including settings with an embedded deceptive communicator that tries to disrupt and deceive allies through communication alone. We provide three agents for benchmarking using 4 models from the Qwen3.5 family and study how reasoning structure, memory and model scale affect coordination between agents. We release SMAC-Talk as an open benchmark to support the research community in developing and evaluating LLM agents in cooperative multi-agent settings.
VAMPS: 視覚支援による数学的問題解決ベンチマーク
マルチモーダルな大規模言語モデルは、複雑な推論の能力をますます高めていますが、ツールを通じて問題を外部化し、ツールの出力を推論する必要がある場合、特に視覚補助に依存している場合、パフォーマンスが低下することがよくあります。実際のエンジニアリングおよび科学のワークフローでは、分析、検証、意思決定のために視覚化ツールに依存することが多いため、このギャップは特に重要です。この矛盾を研究するために、グラフ支援数学のベンチマークである VAMPS (Visual-Assisted Mathematical 問題解決) を導入します。 VAMPS には、イランの大学入学試験の代数と微積分の問題から抽出された 1,168 個のマルチモーダルなバイリンガル多肢選択問題と解答のペアが含まれており、人間がレビューした LLM 生成の合成バリアントで拡張されており、プロットによって交差、極値、漸近線などを明らかにすることで自然な解法戦略が提供されるようにすべて選択されています。ベンチマークと診断の両方のために設計された VAMPS は、主に固定より推論を評価する以前のマルチモーダル ベンチマークを超えています。有用なグラフを構築し、結果として得られる視覚化でその答えを根拠付けることでモデルにメリットが得られるかどうかをテストすることで、視覚的な入力を行います。全体として、さまざまなモデルのセットにわたって、プロットが自然な戦略である問題であっても、直接的な分析的解決は、ツールを使用した視覚的解決よりも驚くほど優れたパフォーマンスを発揮することがわかりました。
原文 (English)
VAMPS: Visual-Assisted Mathematical Problem Solving Benchmark
Multimodal large language models are increasingly capable of complex reasoning, yet their performance often degrades when they must externalize a problem through a tool and then reason over the tool's output, specifically when they rely on visual aids. This gap is especially important because real engineering and scientific workflows often rely on visualization tools for analysis, validation, and decision-making. To study this discrepancy, we introduce VAMPS (Visual-Assisted Mathematical Problem Solving), a benchmark for graph-assisted mathematics. VAMPS contains 1,168 multimodal, bilingual multiple-choice question-answer pairs drawn from Iranian University Entrance Exam algebra and calculus problems and expanded with human-reviewed LLM-generated synthetic variants, all selected so that plotting provides a natural solution strategy by revealing intersections, extrema, asymptotes, etc. Designed for both benchmarking and diagnosis, VAMPS goes beyond prior multimodal benchmarks that primarily evaluate reasoning over fixed visual inputs by testing whether a model can benefit from constructing a useful graph and grounding its answer in the resulting visualization. Overall, we found that across a diverse set of models, direct analytical solving surprisingly outperforms tool-enabled visual solving, even on problems where plotting is a natural strategy.
StepPRM-RTL: RTL 合成を強化するための段階的なプロセス報酬ガイド付き LLM 微調整
デジタル ハードウェア設計用の RTL コードの自動生成は、長期的な推論、複数ステップの依存関係、および Verilog と VHDL の厳密な正確性制約のため、依然として困難です。我々は、段階的軌跡モデリング、プロセス報酬モデリング (PRM)、検索拡張微調整 (RAFT) を組み合わせて、LLM ベースの RTL コード生成の機能的正確性と推論忠実度の両方を強化する新しいフレームワークである StepPRM-RTL を紹介します。 StepPRM-RTL は、標準的な解決策から段階的な推論軌跡を構築します。各ステップには理論的根拠と段階的なコード変更が含まれます。プロセス報酬モデル (PRM) は中間ステップを評価し、RAFT の微調整中に強化スタイルの更新をガイドする緻密なフィードバックを提供します。モンテカルロ ツリー検索 (MCTS) は、代替推論パスを探索し、高品質の軌跡でトレーニング データセットを強化します。この段階的報酬と結果を意識した報酬の統合により、モデルは正しい RTL を構築する方法と理由の両方を学習できるようになり、標準的な教師ありトレーニングや結果ベースのトレーニングを超えて長期的な推論が向上します。ベンチマーク Verilog および VHDL データセットの実験評価では、StepPRM-RTL が機能の正確性と推論忠実度のメトリクスにおいて、従来の最良の方法よりも 10% 以上優れていることが実証されました。アブレーション研究では、PRM に基づく報酬と段階的な軌道探索の組み合わせがそのパフォーマンスの鍵であることが確認されています。 StepPRM-RTL は、RTL 言語全体を汎用化し、高忠実度で解釈可能なコード生成のためのスケーラブルなフレームワークを提供し、LLM 支援のハードウェア設計自動化の新しい標準を確立します。
原文 (English)
StepPRM-RTL: Stepwise Process-Reward Guided LLM Fine-Tuning for Enhanced RTL Synthesis
Automatic generation of RTL code for digital hardware designs remains challenging due to long-horizon reasoning, multi-step dependencies, and strict correctness constraints in Verilog and VHDL. We present StepPRM-RTL, a novel framework that combines stepwise trajectory modeling, process-reward modeling (PRM), and retrieval-augmented fine-tuning (RAFT) to enhance both the functional correctness and reasoning fidelity of LLM-based RTL code generation. StepPRM-RTL constructs stepwise reasoning trajectories from canonical solutions, where each step contains a rationale and incremental code modification. A Process Reward Model (PRM) evaluates intermediate steps, providing dense feedback that guides reinforcement-style updates during RAFT fine-tuning. Monte Carlo Tree Search (MCTS) explores alternative reasoning paths, enriching the training dataset with high-quality trajectories. This integration of stepwise and outcome-aware rewards allows the model to learn both how and why to construct correct RTL, improving long-horizon reasoning beyond standard supervised or outcome-based training. Experimental evaluation on benchmark Verilog and VHDL datasets demonstrates that StepPRM-RTL outperforms the best prior methods by over 10\% in functional correctness and reasoning fidelity metrics. Ablation studies confirm that the combination of PRM-guided rewards and stepwise trajectory exploration is key to its performance. StepPRM-RTL generalizes across RTL languages and provides a scalable framework for high-fidelity, interpretable code generation, establishing a new standard for LLM-assisted hardware design automation.
ゼネラリストエージェントはデータキュレーションを自動化できますか?
トレーニング データのキュレーションは、現代の AI 開発において最も重要ではあるものの、労働集約的な部分の 1 つです。実践者は、ノイズの多いベンチマーク フィードバックに対してデータ ポリシーを繰り返し提案、実装、評価、修正します。私たちは、ジェネラリストのコーディング エージェントがこのデータ キュレーション ループを自動化できるかどうかを尋ねます。 *Curation-Bench* というエージェント中心のベンチマークを導入します。これは、モデル、トレーニング レシピ、評価スイートを修正し、エージェントにデータの検査、ポリシーの実装、固定トレーニング/評価パイプラインへの送信、および修正のためのコマンドライン アクセスを許可します。ビジョン言語の命令チューニングのインスタンス化では、すぐに使用できるエージェントが 10 回の反復以内に公開された強力なデータ選択ベースラインに到達します。しかし、軌道分析により、永続的な*実行と研究のギャップ*が明らかになりました。エージェントは、たとえ戦略ガイドや参考文献が与えられたとしても、新しい政策ファミリーを探索するのではなく、主にローカル政策のバリエーションを調整します。反復ごとに以前のメソッドを引用、インスタンス化し、適応させる必要がある足場により、エージェントはメソッドに基づいた探索へと移行します。スキャフォールドされたエージェントは、人間による設計入力を必要とせずに、データ予算の 10 分の 1 で強力な公開ベースラインを上回るデータ選択ポリシーを自律的に作成します。全体として、現在のエージェントはキュレーション ループを実行できますが、信頼性の高いデータ調査には、オープンエンドのプロンプトのみではなく、足場を組んだ手法の適応が必要です。コードとベンチマークはオープンソースです。
原文 (English)
Can Generalist Agents Automate Data Curation?
Curating training data is among the most consequential yet labor-intensive parts of modern AI development: practitioners iteratively propose, implement, evaluate, and revise data policies against noisy benchmark feedback. We ask whether generalist coding agents can automate this data-curation loop. We introduce *Curation-Bench*, an agent-centric benchmark that fixes the model, training recipe, and evaluation suite while giving agents command-line access to inspect data, implement policies, submit them to a fixed training/evaluation pipeline, and revise. In a vision-language instruction-tuning instantiation, out-of-the-box agents reach strong published data-selection baselines within ten iterations. However, trajectory analysis reveals a persistent *execution-research gap*: agents mainly tune local policy variants rather than explore new policy families, even when given strategy guides and paper references. Scaffolds requiring each iteration to cite, instantiate, and adapt a prior method shift agents toward method-guided exploration. The scaffolded agent autonomously composes -- without human design input -- a data-selection policy that outperforms strong published baselines at one-tenth their data budget. Overall, current agents can run the curation loop, but reliable data research requires scaffolded method adaptation, not open-ended prompting alone. Code and benchmark are open-sourced.
飽和トラップと介入タイミングの主観性: 影響ベースのトリガーと LLM ジャッジが自律エージェントへの介入のタイミングを計れない理由
自律型 AI エージェントが会話型システムから長期的なソフトウェア実行に移行するにつれて、エージェントをいつ中断するかを決定するランタイム安全レイヤーが不可欠になっています。私たちは、診断プローブとして連続 18 次元感情ダイナミクス エンジン (HEART) を使用し、SWE ベンチ検証済みデバッグ トレース上の人間による注釈付き介入ポイントに対して 4 つの介入トリガー ファミリ (絶対状態しきい値、複合状態アクション パターン、正規表現推論特徴抽出、および判断者としてのゼロショット LLM) を評価して、このタイミング問題を研究します。 3 つの調査結果を報告します。まず、状態飽和トラップ: 継続的な困難下ではエージェントは回復シグナルを示さないため、モデル化されたフラストレーションはすぐにしきい値を超えて最大値に留まり、瞬間検出器からのしきい値オン状態トリガーを、5 つの軌道にわたるアクションの 39 ~ 83% で起動するほぼ一定のインジケーターに変換します。第 2 に、LLM 審査員向けの機能とコンテキストの下限です。小型モデル (gpt-5.4-mini) は決して発砲しませんが、フロンティア モデルやクロスベンダー モデルは完全な軌道コンテキストでのみゼロ発火下限を回避し、それでも最大 90 倍のコストで F1 0.17 ~ 0.40 にしか達しません。第三に、そして最も重要なことは、教師付きターゲットは人間間で再現可能ではないということです。56 アクションの軌道上で 1 つのルーブリックを使用する 3 人の訓練されたアノテーターは、偶然をわずかに上回る位置 (クリッペンドルフのアルファ = +0.047、最良のペアワイズ コーエンのカッパ = +0.349) で介入する場所については一致し、介入の種類についてはまったく一致しません (退化を一時停止、確率より下を明確にする、アルファのみを反映 = +0.226)。介入のタイミングは信頼性の低い構造であり、単一アノテーター F1 は最適化の対象として不適切であると結論付けます。私たちの貢献は、単一の検出器の精度ではなく、人間の評価者間信頼性、4 つの検出器アーキテクチャ、クロスモデル LLM 判定スイープ、および再現された飽和効果にわたるこの問題の共同マッピングです。
原文 (English)
The Saturation Trap and the Subjectivity of Intervention Timing: Why Affect-Based Triggers and LLM Judges Fail to Time Interventions on Autonomous Agents
As autonomous AI agents move from conversational systems to long-horizon software execution, runtime safety layers that decide when to interrupt an agent have become essential. We study this timing problem using a continuous 18-dimensional affective-dynamics engine (HEART) as a diagnostic probe, evaluating four intervention trigger families - absolute state thresholds, composite state-action patterns, regex reasoning-feature extraction, and zero-shot LLM-as-judge - against human-annotated intervention points on SWE-bench-Verified debugging traces. We report three findings. First, a State Saturation Trap: agents show no recovery signal under sustained difficulty, so modeled frustration quickly crosses the threshold and stays at its maximum, converting threshold-on-state triggers from moment detectors into near-constant indicators that fire on 39-83% of actions across five trajectories. Second, a capability-and-context floor for LLM judges: a small model (gpt-5.4-mini) never fires, while frontier and cross-vendor models escape the zero-firing floor only with full-trajectory context, and even then reach only F1 0.17-0.40 at up to 90x the cost. Third, and most importantly, the supervised target is not reproducible among humans: three trained annotators using one rubric on a 56-action trajectory agree on where to intervene only slightly above chance (location Krippendorff's alpha = +0.047; best pairwise Cohen's kappa = +0.349) and not at all on intervention type (pause degenerate; clarify below chance; reflect only alpha = +0.226). We conclude that intervention timing is a low-reliability construct, making single-annotator F1 an unsuitable optimization target. Our contribution is the joint mapping of this problem across human inter-rater reliability, four detector architectures, a cross-model LLM-judge sweep, and a reproduced saturation effect, rather than any single detector's accuracy.
エージェント的記憶システムのクロスシナリオ一般性の探求: 診断と強力なベースライン
LLM エージェントは、コンテキスト ウィンドウを超えて拡大する履歴を蓄積し、メモリ システムに関する文献の増加を促します。しかし、既存の設計のほとんどは単一のシナリオ (マルチセッション チャットまたは単一の軌跡形式) に合わせて調整されており、展開時にエージェントが遭遇する異種の軌跡全体にそれらが一般化するという証拠はほとんどありません。シングルターン QA、マルチセッション チャット、エージェント トラジェクトリ QA、メモリ ストレス テスト、長期エージェント タスクの 5 つのシナリオで、8 つのメモリ システムと検索問題用のエージェント ハーネスを再検討します。ツール呼び出しを介してフラット テキスト ファイル ストレージを自己管理するハーネスは、最高のクロスタスク ランキングを達成しました。これは、メモリのパフォーマンスが、固定パイプラインの背後にある受動的なストアではなく、ストレージと取得に対するアクティブな制御をエージェントに与えることに依存していることを示唆しています。この洞察を AutoMEM でインスタンス化します。AutoMEM は、評価するシステムの中で最高のクロスシナリオ汎用性を実現する自己管理ツール インターフェイスを備えたエージェント メモリ ハーネスです。
原文 (English)
Exploring Cross-Scenario Generality of Agentic Memory Systems: Diagnostics and a Strong Baseline
LLM agents accumulate histories that outgrow their context windows, motivating a growing literature on memory systems. Yet most existing designs are tuned to a single scenario (multi-session chat or a single trajectory format), and there is little evidence that they generalize across the heterogeneous trajectories agents encounter in deployment. We revisit eight memory systems plus an agentic harness for search problems, on five scenarios: single-turn QA, multi-session chat, agentic-trajectory QA, memory stress tests, and long-horizon agentic tasks. The harness, which self-manages flat text-file storage via tool calls, achieves the best cross-task ranking, suggesting that memory performance hinges on giving the agent active control over storage and retrieval rather than on a passive store behind a fixed pipeline. We instantiate this insight in AutoMEM, an agentic memory harness with a self-managed tool interface that achieves the best cross-scenario generality among the systems we evaluate.
トリビアム: 因果記憶コントローラーの第一級目標としての時間的後悔
現在のエージェント システムと LLM パイプラインの多くは、結果の報酬を最適化することで間違いを修正します。これは失敗の内容のみを扱います。結果が予測と異なる場合、不一致の理由と時期が体系的に記録、レビュー、修正されないため、同じエラーがエピソードごとに再発する可能性があります。私たちは、これは単にモデルの能力の問題ではなく、構造的な問題であると主張します。私たちは、作業因果モデルに対する結果の後悔や認識論的な後悔と並んで、長期的な時間的後悔を第一級の目標として提案します。時間的リグアロングは、失敗が継続するとき、すなわち、調整ミスの因果モデルが修正されるまでにどのくらいの期間許容されるかを捉えます。認識論的後悔は、失敗が続く理由、つまり作業因果モデルにおける残留不確実性またはエラーを捉えます。 3 つの後悔を総合すると、長命のエージェントがいつ、何が、なぜ失敗する可能性があるのかについて、反証可能な説明が得られます。エージェントを E エピソードのストリームとしてモデル化し、明示的な因果関係の調査、持続性、および検出可能性の仮定に基づいて 3 つの条件付き結果を証明します。まず、観察的に等価な交絡のもとでは、結果のみの学習では介入チャネルがなければ因果構造と偽の構造を区別できないため、結果の後悔がゼロになった後でも時間的誤調整が線形的に持続する可能性があります。第 2 に、永続的な因果ログと予算付きプローブを使用すると、総プローブの複雑さはエピソード期間内で対数的となり、O(log E) の時間的後悔を引き起こします。第三に、K 個の検出可能な変化点の下では、速度は O(K log E) まで拡張されます。 Trivium をインスタンス化し、5 つの反証可能な予測を事前に登録します。 CausalBench-Seq では、Trivium は予測された対数エンベロープに従いますが、結果のみのベースラインは直線的に増加します。パイロットのリアル LLM ストリームは、1 回の完全な E = 500 実行と 3 回の E = 100 フロンティア モデル パイロットにわたる予備的な外部妥当性証拠を提供します。ここでの自己学習とは、LLM 重みを再トレーニングすることではなく、外部因果モデルを修正することを意味します。
原文 (English)
Trivium: Temporal Regret as a First-Class Objective for Causal-Memory Controllers
Many current agentic systems and LLM pipelines correct mistakes by optimizing outcome reward. This addresses only the what of failure: when an outcome diverges from prediction, the why and when of the mismatch are not systematically logged, reviewed, or corrected, so the same error can recur episode after episode. We argue that this is a structural problem, not merely a model-capacity one. We propose long-horizon temporal regret as a first-class objective alongside outcome regret and epistemic regret over the working causal model. Temporal regret captures when failure persists: how long a miscalibrated causal model is tolerated before correction. Epistemic regret captures why failure persists: residual uncertainty or error in the working causal model. Together, the three regrets give a falsifiable account of what, why, and when a long-lived agent can fail. Modeling the agent as a stream of E episodes, we prove three conditional results under explicit causal-probing, persistence, and detectability assumptions. First, under observationally equivalent confounding, outcome-only learning cannot distinguish causal from spurious structure without an intervention channel, so temporal miscalibration can persist linearly even after outcome regret is driven to zero. Second, with a persistent causal log and budgeted probes, total probe complexity is logarithmic in the episode horizon, inducing O(log E) temporal regret. Third, under K detectable change-points, the rate extends to O(K log E). We instantiate Trivium and pre-register five falsifiable predictions. On CausalBench-Seq, Trivium follows the predicted logarithmic envelope while outcome-only baselines grow linearly. A pilot real-LLM stream provides preliminary external-validity evidence across one full E = 500 run and three E = 100 frontier-model pilots. Self-learning here means revising an external causal model, not retraining LLM weights.
Agentic RAG における連鎖的幻覚: 検出と軽減のための CHARM フレームワーク
マルチステップのエージェント的検索拡張生成 (RAG) パイプラインは、複雑な推論タスクに対して優れた能力を実証していますが、既存の幻覚検出メカニズムが体系的に見逃しているクラスの障害に対して脆弱なままです。カスケード幻覚では、パイプラインの初期段階で導入されたエラーが、連続する推論ステップ全体に伝播および増幅し、自信があるが事実としては不正確な最終出力が生成されます。この脆弱性に対処するために、私たちはカスケード幻覚をエージェント RAG システムの明確な障害モードとして形式化し、カスケード パターンの 4 種類の分類を提示し、複数ステップの推論パイプラインでエラー伝播を検出して中断するためのアーキテクチャ フレームワークである CHARM (Cascading Hallucination Aware Resolution and Mitigation) を導入します。 CHARM は、ステージレベルのファクト検証、クロスステージ一貫性追跡、信頼性伝播モニタリング、およびカスケード解決トリガーの 4 つのコンポーネントで構成されており、アーキテクチャの置き換えを必要とせずに、標準のエージェント RAG パイプラインと並行して動作します。 HotpotQA、MuSiQue、2WikiMultiHopQA、および LangChain エージェント パイプライン構成全体にわたるカスタム敵対的データセットで CHARM を評価し、89.4% のカスケード検出率と 5.3% の誤検知率、ステージあたりの平均レイテンシ オーバーヘッド 215 ミリ秒 +/- 18 ミリ秒を達成し、エラー伝播の削減を 82.1% 達成しました (前者の 18.5% と比較)。出力レベル検出器。 Component ablations confirm that each detection module contributes meaningfully to overall cascade coverage. CHARM は、人間による監視フレームワークと統合して、実稼働エージェント AI の導入に完全な信頼性とガバナンス スタックを提供します。
原文 (English)
Cascading Hallucination in Agentic RAG: The CHARM Framework for Detection and Mitigation
Multi-step agentic retrieval-augmented generation (RAG) pipelines have demonstrated significant capability for complex reasoning tasks, yet remain vulnerable to a class of failure that existing hallucination detection mechanisms systematically miss: cascading hallucination, where errors introduced at early pipeline stages propagate and amplify across successive reasoning steps, producing confident but factually incorrect final outputs. To address this vulnerability, we formalize cascading hallucination as a distinct failure mode in agentic RAG systems, present a four-type taxonomy of cascade patterns, and introduce CHARM (Cascading Hallucination Aware Resolution and Mitigation), an architectural framework for detecting and interrupting error propagation in multi-step reasoning pipelines. CHARM comprises four components - stage-level fact verification, cross-stage consistency tracking, confidence propagation monitoring, and cascade resolution triggering - that operate alongside standard agentic RAG pipelines without requiring architectural replacement. We evaluate CHARM on HotpotQA, MuSiQue, 2WikiMultiHopQA, and a custom adversarial dataset across LangChain agentic pipeline configurations, achieving an 89.4% cascade detection rate with a 5.3% false positive rate and 215 ms +/- 18 ms average latency overhead per stage, achieving an error propagation reduction of 82.1%, compared to 18.5% for output-level detectors. Component ablations confirm that each detection module contributes meaningfully to overall cascade coverage. CHARM integrates with human-in-the-loop oversight frameworks to provide a complete reliability and governance stack for production agentic AI deployment.
メタエージェントの課題: 現在のエージェントは自律的なエージェント開発が可能ですか?
現在の AI ベンチマークは、人間が設計したワークフロー内でのタスク実行に関してエージェントを評価します。これらの評価では、基本的に、モデルが自律的にエージェント システムを開発できるかどうかという、重要な次のレベルの機能を測定できません。自律エージェント開発のためのフロンティア モデルの能力をテストするために設計された評価フレームワークであるメタエージェント チャレンジ (MAC) を紹介します。具体的には、コード エージェント (メタエージェント) には、サンドボックス環境、評価 API、および 5 つのドメインにわたって実施されたテスト セットのパフォーマンスを最大化するエージェント アーティファクトを反復的にプログラムするための時間制限が与えられます。評価の整合性を確保するために、このフレームワークは報酬ハッキングに対する多層防御によって保護されています。このフレームワークを活用して、メタエージェントが人為的に設計されたベースライン ポリシーと一致することはほとんどなく、一致する少数のエージェントは独自のフロンティア モデルによって支配されていることを示します。さらに、設計プロセスは高い分散を示し、高い最適化圧力により、グラウンドトゥルースの漏洩などの敵対的な動作が表面化し、堅牢性とモデルの調整の両方における重大な欠陥が浮き彫りになります。最終的に、MAC は自律型 AI の研究開発のための厳密なオープンソース ベンチマークを提供し、再帰的な自己改善を評価するための経験的な代用手段を提供します。ベンチマークは https://github.com/ant-research/meta-agent-challenge で公開されています。
原文 (English)
The Meta-Agent Challenge: Are Current Agents Capable of Autonomous Agent Development?
Current AI benchmarks evaluate agents on task execution within human-designed workflows. These evaluations fundamentally fail to measure a critical next-level capability: whether models can autonomously develop agent systems. We introduce the Meta-Agent Challenge (MAC), an evaluation framework designed to test the capacity of frontier models for autonomous agent development. Specifically, a code agent (the meta-agent) is given a sandboxed environment, an evaluation API, and a time limitation to iteratively program an agent artifact that maximizes performance on a held-out test set across five domains. To ensure evaluation integrity, this framework is secured by multi-layer defenses against reward hacking. Leveraging this framework, we demonstrate that meta-agents rarely match human-engineered baseline policies, and the few that do are dominated by proprietary frontier models. Moreover, the design process exhibits high variance, and high optimization pressure surfaces emergent adversarial behaviors like ground-truth exfiltration-highlighting critical deficits in both robustness and model alignment. Ultimately, MAC provides a rigorous, open-source benchmark for autonomous AI research and development, offering an empirical proxy for evaluating recursive self-improvement. Benchmark is publicly available at: https://github.com/ant-research/meta-agent-challenge.
AgentJet: エージェント強化学習のための柔軟な群トレーニング フレームワーク
大規模言語モデル (LLM) エージェント強化学習用の分散群トレーニング フレームワークである AgentJet を紹介します。エージェントのロールアウトとモデルの最適化を密接に結び付ける集中型フレームワークとは異なり、AgentJet は分離されたマルチノード アーキテクチャを採用しています。このアーキテクチャでは、swarm サーバー ノードがトレーニング可能なモデルをホストし、GPU クラスターで最適化を実行します。一方、swarm クライアント ノードは任意のデバイスで任意のエージェントを実行します。この設計は、集中型フレームワークではサポートが難しい機能を提供します。(1) 異種マルチモデル強化学習。複数の LLM を頭脳とする異種マルチエージェント チームのトレーニングを可能にします。 (2) 独立したエージェントのランタイムを使用したマルチタスクのカクテル トレーニング。 (3) 外部環境の障害によるトレーニング プロセスの中断を防ぐフォールト トレラントな実行。 (4) ライブ コードの反復。群クライアント ノードを置き換えることにより、トレーニング中にエージェントを編集できます。マルチモデル、マルチターン、マルチエージェント設定で効率的な RL をサポートするために、AgentJet はタイムライン マージを備えたコンテキスト トラッキング モジュールを導入しています。これにより、冗長なコンテキストが統合され、トレーニングの 1.5 ~ 10 倍の高速化が実現します。最後に、AgentJet は、研究トピックを入力として受け取り、大規模クラスター上で長期にわたる複数日にわたる RL 研究を自律的に実行する自動研究システムを導入します。このシステムは、swarm アーキテクチャを活用することで、実行中に人間の介入なしに、RL 研究者の主要な探索ワークフローを再現します。
原文 (English)
AgentJet: A Flexible Swarm Training Framework for Agentic Reinforcement Learning
We present AgentJet, a distributed swarm training framework for large language model (LLM) agent reinforcement learning. Unlike centralized frameworks that tightly couple agent rollouts with model optimization, AgentJet adopts a decoupled multi-node architecture in which swarm server nodes host trainable models and run optimization on GPU clusters, whereas swarm client nodes execute arbitrary agents on arbitrary devices. This design provides capabilities that are difficult to support in centralized frameworks: (1) heterogeneous multi-model reinforcement learning, enabling the training of heterogeneous multi-agent teams with multiple LLM as brains; (2) multi-task cocktail training with isolated agent runtimes; (3) fault-tolerant execution that prevents external environment failures from interrupting the training process; and (4) live code iteration, which allows agents to be edited during training by replacing swarm client nodes. To support efficient RL in multi-model, multi-turn, and multi-agent settings, AgentJet introduces a context tracking module with timeline merging, which consolidates redundant context and achieves a 1.5-10x training speedup. Finally, AgentJet introduces an automated research system that takes a research topic as input and autonomously conducts long-horizon, multi-day RL studies on large-scale clusters. By leveraging the swarm architecture, this system reproduces key exploratory workflows of RL researchers without human intervention during execution.
プロンプトベースの計画を超えて: MCP ネイティブ グラフ計画ベースの生物医学エージェント システム
生物医学エージェントは複雑な生物学的ワークフローを自動化できると期待されていますが、現在のシステムは 2 つの根本的なボトルネックに直面しています。それは、バイオインフォマティクス ツールがインターフェイスと実行環境において非常に異質である一方、エージェントの計画は未だにプロンプトで取得されるフラットなツール記述に依存しているということです。生物医学ソフトウェア エコシステムが成長するにつれて、ツールの適用範囲とコンテキスト サイズの関係により、ツールの混乱、不安定な計画、および非効率的な実行が発生します。構造化された生物学的機能よりもグラフ足場計画に基づいて構築された MCP ネイティブの生物医学エージェントである BioManus を紹介します。 BioManus は、異種バイオインフォマティクス ソフトウェアを標準化された MCP サーバーに変換し、大規模な実行可能な MCP エコシステムを生み出す BioinfoMCP コンパイラーを初めて導入しました。次に、このエコシステムを、ツール、操作、データ型、ワークフロー ステージにわたる型付きの異種 MCP グラフとして編成します。推論時に、BioManus はコンパクトなタスク固有のサブグラフを取得し、操作レベルのワークフロー スキャフォールドを合成します。この設計は、計画の複雑さを生の工具在庫サイズから切り離し、高リコール取得下で Theta(N / (h * m_bar)) のコンテキスト圧縮率を達成します。ここで、N は総工具数、h はワークフロー範囲、m_bar (N よりもはるかに小さい) は操作ごとの候補工具の平均数です。 BioAgentBench と LAB-Bench の実験では、BioManus が高度な生物医学エージェントのベースラインと比較して、実行精度、ワークフローの有効性、およびコンテキストの効率を向上させることが示されています。この研究はパラダイム シフトを示唆しています。スケーラブルな生物医学的推論には、ますます大規模になるプロンプト レベルのツール検索ではなく、構造化された実行可能な機能グラフが必要です。
原文 (English)
Beyond Prompt-Based Planning: MCP-Native Graph Planning-based Biomedical Agent System
Biomedical agents promise to automate complex biological workflows, yet current systems face two fundamental bottlenecks: bioinformatics tools are highly heterogeneous in interfaces and execution environments, while agent planning still relies on flat prompt-retrieved tool descriptions. As biomedical software ecosystems grow, this coupling between tool coverage and context size leads to tool confusion, unstable planning, and inefficient execution. We introduce BioManus, an MCP-native biomedical agent built on graph-scaffolded planning over structured biological capabilities. BioManus first introduces the BioinfoMCP Compiler, which converts heterogeneous bioinformatics software into standardized MCP servers, yielding a large executable MCP ecosystem. It then organizes this ecosystem as a typed heterogeneous MCP graph over tools, operations, datatypes, and workflow stages. At inference time, BioManus retrieves compact task-specific subgraphs, synthesizes operation-level workflow scaffolds. This design decouples planning complexity from raw tool inventory size, achieving a context compression ratio of Theta(N / (h * m_bar)) under high-recall retrieval, where N is the total tool count, h is the workflow horizon, and m_bar (much smaller than N) is the average number of candidate tools per operation. Experiments on BioAgentBench and LAB-Bench show that BioManus improves execution accuracy, workflow validity, and context efficiency over advanced biomedical agent baselines. This work suggests a paradigm shift: scalable biomedical reasoning requires structured executable capability graphs rather than increasingly larger prompt-level tool retrieval.
シミュレーション、推論、決定: シミュレーション主導の意思決定のための LLM による科学的推論
科学シミュレータは、一か八かのシミュレーション主導の意思決定のために、LLM 主導のシステムにますます統合されています。ただし、既存のフレームワークは主に LLM を使用してシミュレータを生成、調整、実行し、シミュレータを推論可能な構造化された機構システムとしてではなく、ブラックボックス インターフェイスとして扱います。その結果、現在のアプローチには、シミュレータの動作の根底にある仮定やメカニズムを特定、表現、推論する能力が欠けており、透明性、監査可能性、意思決定の正当性が制限されています。実行可能な科学シミュレーター用のメカニズムに基づいた神経記号推論フレームワークである MechSim を紹介します。主に静的な記号構造を推論する従来の神経記号アプローチとは異なり、MechSim を使用すると、LLM エージェントが科学シミュレーターのメカニズム、仮定、および実行動作について推論できるようになります。私たちのフレームワークは、仮定、変数、メカニズムの依存関係、および実行トレースをキャプチャする共有構造化スキーマを通じてシミュレーターを表します。この表現に加えて、LLM エージェントは制約付き推論エンジンとして動作し、シミュレータの結果をその基礎となるメカニズムに結び付ける、構造化された証拠に基づいた説明を生成します。私たちは、複数のハイステークス領域にわたってアプローチを評価し、それがメカニズムレベルの説明の品質、シミュレーター分析、下流の意思決定の信頼性を向上させることを示しました。
原文 (English)
Simulate, Reason, Decide: Scientific Reasoning with LLMs for Simulation-Driven Decision Making
Scientific simulators are increasingly being integrated into LLM-driven systems for high-stakes simulation-driven decision-making. However, existing frameworks primarily use LLMs to generate, calibrate, or execute simulators, treating them as black-box interfaces rather than as structured mechanistic systems that can be reasoned about. As a result, current approaches lack the ability to identify, represent, and reason about the assumptions and mechanisms underlying simulator behavior, limiting transparency, auditability, and decision justification. We introduce MechSim, a mechanism-grounded neuro-symbolic reasoning framework for executable scientific simulators. Unlike prior neuro-symbolic approaches that primarily reason over static symbolic structures, MechSim enables LLM agents to reason about the mechanisms, assumptions, and execution behavior of scientific simulators. Our framework represents simulators through a shared structured schema capturing assumptions, variables, mechanism dependencies, and execution traces. On top of this representation, LLM agents operate as constrained reasoning engines that generate structured, evidence-grounded explanations linking simulator outcomes to their underlying mechanisms. We evaluate our approach across multiple high-stakes domains and show that it improves mechanism-level explanation quality, simulator analysis, and downstream decision-making reliability.
パラメトリック メモリを介した自己進化エージェントのスケーリング
既存のメモリ拡張 LLM エージェントは、ロールアウト中モデル パラメータを凍結したままにしながら、過去の経験をテキストの要約または取得された一節としてプロンプト領域にのみ保存します。このようなエージェントは、見たものを \emph{調べる}ことはできますが、それから \emph{学ぶ}ことはできません。彼らのポリシーは経験によって変更されず、コンテキストからドロップされた情報は永久に失われます。私たちは、自己進化するパラメトリック メモリ フレームワークである \texttt{TMEM} を導入します。このフレームワークでは、エージェントが履歴を明示的メモリに圧縮するだけでなく、軽量のオンライン アップデートを通じて抽出された監視を高速な LoRA 重み $\Delta_t$ に吸収し、単一のエピソード内で将来の動作を真に変更します。これを、高速重みロールアウト ダイナミクスを備えたエージェントの意思決定プロセスとして形式化します。アクションは $\pi_{\theta_0+\Delta_t}$ からサンプリングされ、抽出アクションは後続の決定のために $\Delta_t$ を更新する監視を生成します。このビューにより、抽出ポリシーが RL によって直接最適化可能になります。$\theta_0$ のトレーニングにより、タスク アクションだけでなく、オンライン LoRA 適応に使用されるデータの品質も向上します。さらに、オンラインコンバージェンスを加速するために、SVD ベースの LoRA サブスペースの初期化を提案します。 LoCoMo、LongMemEval-S、多目的検索、および CL-Bench の実験では、\texttt{TMEM} がさまざまなモデル スケールにわたって、要約ベースおよび検索ベースのベースラインを一貫して上回るパフォーマンスを示しています。
原文 (English)
Scaling Self-Evolving Agents via Parametric Memory
Existing memory-augmented LLM agents store past experience exclusively in prompt space, as textual summaries or retrieved passages, while keeping model parameters frozen throughout a rollout. Such agents can \emph{look up} what they have seen but cannot \emph{learn from} it: their policy is unchanged by experience, and any information dropped from the context is permanently lost. We introduce \texttt{TMEM}, a self-evolving parametric memory framework in which the agent not only compresses history into explicit memory but also absorbs distilled supervision into fast LoRA weights $\Delta_t$ via lightweight online updates, genuinely altering its future behavior within a single episode. We formalize this as an agentic decision process with fast-weight rollout dynamics: actions are sampled from $\pi_{\theta_0+\Delta_t}$, while extraction actions produce supervision that updates $\Delta_t$ for subsequent decisions. This view makes the extraction policy directly optimizable by RL: training $\theta_0$ improves not only task actions but also the quality of the data used for online LoRA adaptation. We further propose SVD-based initialization of the LoRA subspace to accelerate online convergence. Experiments on LoCoMo, LongMemEval-S, multi-objective search, and CL-Bench show that \texttt{TMEM} consistently outperforms summary-based and retrieval-based baselines across different model scales.
最初に計画し、後で判断し、より良く実行する: DMAIC からインスピレーションを得た産業異常検出用エージェント システム
大規模言語モデル (LLM) エージェントは、複雑なデータ分析ワークフローの自動化において有望であることが示されていますが、一か八かの産業シナリオにおいてその信頼性の高い導入は依然として困難です。産業異常検出 (IAD) は製造の品質、安全性、効率に不可欠ですが、既存の LLM ベースの IAD エージェントは主に実行に焦点を当てており、戦略策定は不十分です。その結果、統一的かつコスト効率の高い方法で異種のモダリティを処理するのに苦労しています。 DMAIC 品質管理フレームワークからインスピレーションを得て、当社は DMAIC-IAD (DMAIC にインスピレーションを得た Agentic Industrial Anomaly Detection) を提案します。これは、LLM エージェントを構造化された産業問題解決と連携させる、「最初に計画し、後で判断する」マルチエージェント システムです。 DMAIC-IAD は、戦略生成前に異種参照を標準化操作手順 (SOP) に抽出し、事前トレーニングされた実行不要の判定モデルを導入して、コストのかかる実行時トライアルを行わずに候補戦略をランク付けします。 4 つのモダリティにわたる広範な実験により、DMAIC-IAD は適用可能な薬剤ベースラインよりも平均検出パフォーマンスが 37.76% 向上することが示されています。
原文 (English)
Plan First, Judge Later, Run Better: A DMAIC-Inspired Agentic System for Industrial Anomaly Detection
Large language model (LLM) agents have shown promise in automating complex data-analysis workflows, but their reliable deployment remains challenging in high-stakes industrial scenarios. Industrial anomaly detection (IAD) is essential for manufacturing quality, safety, and efficiency, yet existing LLM-based IAD agents mainly focus on execution while under-exploiting strategy formulation. Consequently, they struggle to handle heterogeneous modalities in a unified and cost-effective manner. Inspired by the DMAIC quality-management framework, we propose DMAIC-IAD (DMAIC-inspired Agentic Industrial Anomaly Detection), a "Plan First, Judge Later" multi-agent system that aligns LLM agents with structured industrial problem-solving. DMAIC-IAD distills heterogeneous references into standardized operating procedures (SOPs) before strategy generation, and introduces a pre-trained execution-free judge model to rank candidate strategies without costly runtime trials. Extensive experiments across four modalities show that DMAIC-IAD improves average detection performance over applicable agentic baselines by 37.76%.
パルテノン法: 自己進化する弁護士の枠組み
エージェントの能力が高まるにつれて、法律分野の LLM エージェントは、大量のドキュメントをレビュー可能な作業成果物に変えることを約束しますが、信頼性の高い導入には 3 つの障害に直面しています。1 つは、今日の最も強力なモデルとハーネスの組み合わせがエンドツーエンドの法的問題でどのように動作するかについての大規模な証拠がないことです。法的な業種に適合したエージェント アーキテクチャはなく、汎用ハーネスのみが使用されます。そして、新しい事実、権限、期限によって変化し続ける環境では、システムが自らの結果から学習するメカニズムがありません。それぞれに対応します。 Harvey LAB に関する大規模な実証研究 -- $12{,}510$ のエージェントの軌跡 -- は、フロンティアのエージェントでさえ 1 回のパスで問題を完了することには程遠いことを示しています。より強力なモデルを使用すると基準ごとの精度が向上しますが、厳密な問題の完了は停滞します。次に、\textsc{Parthenon} を導入します。これは、モデル、ハーネス、代理人の役割、法的知識、決定論的なツール、および手続き上のスキルを情報源の追跡可能性、日付と番号の根拠、成果物のコンプライアンス、および問題の解決のための監査可能な表面に組み込む、自己進化する法律代理人のフレームワークです。最後に、漏れ防止学習ループにより、スコアリングされた失敗がタスクに依存しないスキル、ツール、知識の編集に変換され、企業が問題ごとにチェックリストとプレイブックを洗練するように、モデルの重みに触れることなく、経験とともにシステムが改善されます。私たちの大規模な実証分析を通じて、\textsc{Parthenon} は法的問題のタスクにおける最先端のモデルとハーネスのパフォーマンスを大幅に向上させました。
原文 (English)
Parthenon Law: A Self-Evolving Legal-Agent Framework
As agents grow more capable, legal-domain LLM agents promise to turn document-heavy matters into reviewable work products -- yet reliable deployment faces three obstacles: no large-scale evidence on how today's strongest model-and-harness combinations behave on end-to-end legal matters; no agent architecture adapted to the legal vertical, only general-purpose harnesses; and, in a setting that keeps shifting with new facts, authorities, and deadlines, no mechanism for systems to learn from their own outcomes. We address each. A large-scale empirical study on Harvey LAB -- $12{,}510$ agent trajectories -- shows that even frontier agents remain far from completing matters in a single pass: per-criterion accuracy climbs with stronger models while strict matter completion stalls. We then introduce \textsc{Parthenon}, a self-evolving legal-agent framework that factors Model, Harness, Agent roles, legal Knowledge, deterministic Tools, and procedural Skills into auditable surfaces for source traceability, date and number grounding, deliverable compliance, and issue closure. Finally, an anti-leakage learning loop converts scored failures into task-agnostic edits to skills, tools, and knowledge, letting the system improve with experience -- as a firm refines its checklists and playbooks after each matter -- without touching model weights. Across our large-scale empirical analysis, \textsc{Parthenon} substantially improves the performance of state-of-the-art models and harnesses on legal-matter tasks.
FALSIFYBENCH: ルール発見ゲームを使用した LLM の帰納的推論の評価
大規模言語モデル (LLM) は、科学タスクにおける自律エージェントとして導入されることが増えています。しかし、これらのシステムが科学的発見に関連する帰納的推論の形式に効果的に関与できるかどうかは未解決の問題のままです。この研究では、古典的な Wason 2-4-6 タスクに触発された仮説主導型推論の評価フレームワークである FALSIFYBENCH を紹介します。このタスクでは、エージェントは例を繰り返し提案し、フィードバックを受け取ることによって隠れた意味論的特性を発見する必要があります。このタスクでは、科学的推論の重要な要素、つまり仮説の生成、証拠の収集、および証拠の確認と反証に応じた信念の修正を捉えます。モデルファミリーとスケールにわたる 12 個の LLM の評価では、最適なパフォーマンスに近いモデルはないものの、推論モデルは一般に命令調整モデルよりも強力な科学的推論であることがわかりました。成功の主な原動力は否定的なテストの能力です。仮説を積極的に反証しようとするモデルは、主に確認を求めるモデルよりも一貫して優れています。さらに、これまでの研究では無視されていたきめ細かいターンレベル分析により、モデルが仮説空間をナビゲートする方法における特定可能なパターンと失敗が結びついていることが明らかになりました。
原文 (English)
FALSIFYBENCH: Evaluating Inductive Reasoning in LLMs with Rule Discovery Games
Large language models (LLMs) are increasingly deployed as autonomous agents in scientific tasks. Yet whether these systems can effectively engage in forms of inductive reasoning relevant to scientific discovery remains an open question. In this work, we introduce FALSIFYBENCH, an evaluation framework for hypothesis-driven reasoning inspired by the classic Wason 2-4-6 task, in which agents must discover hidden semantic properties by iteratively proposing examples and receiving feedback. This task captures key elements of scientific reasoning: hypothesis generation, evidence gathering, and belief revision in response to both confirming and disconfirming evidence. Our evaluation of 12 LLMs across model families and scales shows that reasoning models are generally stronger scientific reasoners than instruction-tuned models, although no model comes close to optimal performance. The primary driver of success is the capacity for negative testing: models that actively seek to falsify their hypotheses consistently outperform those that primarily seek confirmation. Moreover, a fine-grained turn-level analysis, neglected in previous work, reveals that failure is tied to identifiable patterns in how models navigate the hypothesis space.
浅い安全性を超えた推論時の脆弱性: 世代の軌跡に沿った調整
安全性を考慮した大規模言語モデル (LLM) は、生成を有害な出力にリダイレクトする推論中の介入に対して依然として脆弱です。最近の研究では、これは浅い安全性であると考えられており、最初のいくつかの出力トークンに位置合わせが集中しています。浅い安全性は、より広範な推論時間の脆弱性の特殊なケースであり、任意の生成ステップでの短いトークンの注入によって、その後の安全性の動作が大幅に変更される可能性があることを示します。また、隠れ状態における拒否方向とのモデルの整合性は、そのような注入に対するそのロバスト性を予測しないこともわかり、内部状態だけが摂動下での生成挙動を決定しないことが明らかになりました。これに対処するために、シーケンス途中の摂動をシミュレートすることによって構築された生成軌跡にモデルを直接調整し、これによりシーケンス途中の注入に対する堅牢性が向上し、初期のトークン生成を悪用する攻撃に一般化されることを示します。私たちの研究では、堅牢な安全調整には、出力だけでなく、生成プロセス自体のトレーニングも必要であると主張しています。
原文 (English)
Inference-Time Vulnerability Beyond Shallow Safety: Alignment Along Generation Trajectories
Safety-aligned Large Language Models (LLMs) remain vulnerable to interventions during inference that redirect generation toward harmful outputs. Recent work attributes this to shallow safety, where alignment concentrates in the first few output tokens. We show that shallow safety is a special case of a broader inference-time vulnerability, in which short token injections at any generation step can substantially alter subsequent safety behavior. We also find that a model's alignment with refusal directions in its hidden states does not predict its robustness to such injection, revealing that internal state alone does not determine generation behavior under perturbation. To address this, we align models directly on generation trajectories constructed by simulating mid-sequence perturbation, and show that this improves robustness to mid-sequence injection and generalizes to attacks that exploit early-token generation. Our work argues that robust safety alignment requires training on the generation process itself, not only its outputs.
BiasGRPO: グループ相対ポリシーの最適化による、変動の大きい報酬環境におけるバイアス緩和の安定化
大規模言語モデル (LLM) での社会的バイアスの軽減には、明確な調整の課題が伴います。検証可能なタスクとは異なり、バイアスには単一の根拠が欠如しており、分散が大きく、主観的な報酬の状況が生じます。以前のプリファレンスベースの微調整方法には大きなトレードオフがありました。直接プリファレンス最適化 (DPO) はオフライン トレーニングに固有の探索の欠如によって制限されますが、近接ポリシー最適化 (PPO) は信頼性の低い批評家の推定値が原因でトレーニングが不安定になる可能性があります。この論文では、グループ相対ポリシー最適化 (GRPO) を使用して、サンプリングされた完了のグループ全体で報酬を正規化することで調整を安定化するフレームワークである BiasGRPO を提案します。価値関数をグループ相対ベースラインに置き換えることにより、私たちのアプローチは、オンライン トレーニングの探求の利点を維持しながら、不安定性を軽減します。 BiasGRPO は複数のベンチマークにわたって DPO および PPO を上回っており、その有効性が示されていることがわかりました。 GRPO を適応させるために、複数のドメインとコンテキストにまたがるデータセットを合成的に拡張します。また、計算効率が高く、知識の低下を回避しながら生成を効果的にガイドするカスタム バイアス報酬モデルを作成してリリースし、多目的 RLHF パイプラインにシームレスに統合できる貴重なリソースを提供します。
原文 (English)
BiasGRPO: Stabilizing Bias Mitigation in High-Variance Reward Landscapes via Group-Relative Policy Optimization
Mitigating social bias in Large Language Models (LLMs) presents a distinct alignment challenge: unlike verifiable tasks, bias lacks a single ground truth, creating a high-variance, subjective reward landscape. Previous preference-based fine-tuning methods have major trade-offs: Direct Preference Optimization (DPO) is limited by the lack of exploration inherent in offline training, while Proximal Policy Optimization (PPO) can lead to training instability due to potentially unreliable critic estimates. In this paper, we propose BiasGRPO, a framework using Group Relative Policy Optimization (GRPO) to stabilize alignment by normalizing rewards across a group of sampled completions. By substituting the value function with a group-relative baseline, our approach reduces instability while maintaining the exploration benefits of online training. We find that BiasGRPO outperforms DPO and PPO across multiple benchmarks, indicating its effectiveness. To adapt GRPO, we synthetically extend a dataset spanning multiple domains and contexts. We also create and release a custom bias reward model that effectively guides generation while being highly compute-efficient and avoiding knowledge degradation, providing a valuable resource that can be seamlessly integrated into multi-objective RLHF pipelines.
客観的等価性を超えて: 配車経路問題に対する LLM ベースの最適化モデリングのための制約注入
大規模言語モデル (LLM) は、自然言語の最適化問題を実行可能なソルバー コードに変換することが増えています。しかし、制約が密なオペレーション リサーチ (OR) 問題の場合、既存のデータ フィルタリングおよびトレーニング パイプラインは主に、差分テストや回答一致などの客観的等価信号に依存しています。これらの制約がテスト対象のインスタンスに拘束力を持たない場合、プログラムは偽の制約を追加したり、必要な制約を黙って省略したりしながら、この信号を渡すことができます。我々は、実現可能プローブを使用して偽の過剰制約プローブと 1 つの制約違反プローブを明らかにし、サイレント制約省略を明らかにする制約注入を提案します。差分テストと組み合わせると、二重検証機能が形成されます。運転上の制約が結合された代表的な制約密度の高い組み合わせ最適化テストベッドである配車経路問題 (VRP) 上でインスタンスを作成し、評価します。当社は、自然言語 VRP シナリオを Gurobi スクリプトに変換する 8B エンドツーエンド モデルである VRPCoder を、21 のバリアントをカバーする専門家によって検証された VRP ベンチマーク スイートとともに開発しています。ベリファイアは、データ合成中の拒否サンプリング フィルターとして、またグループ相対ポリシー最適化 (GRPO) のロールアウトごとの報酬として再利用されます。 4 つの VRP ベンチマーク全体で、VRPCoder-GRPO は平均 Pass@1 の 93\% に達し、3 つのベンチマークで Gemini-3.1-Pro Preview を上回り、Claude-Sonnet-4.5 を平均 28 ポイント上回り、以前の OR-LLM を平均 78 ポイント上回っています。
原文 (English)
Beyond Objective Equivalence: Constraint Injection for LLM-Based Optimization Modeling on Vehicle Routing Problems
Large language models (LLMs) increasingly translate natural-language optimization problems into executable solver code. Yet for constraint-dense operations research (OR) problems, existing data-filtering and training pipelines largely rely on objective-equivalence signals such as differential testing and answer agreement, which a program can pass while adding spurious constraints or silently omitting required ones, whenever those constraints are non-binding on the tested instance. We propose constraint injection, which uses feasible probes to expose spurious over-constraint and one-constraint-violating probes to reveal silent constraint omission. Combined with differential testing, it forms a dual verifier. We instantiate and evaluate it on vehicle routing problems (VRPs), a representative constraint-dense combinatorial optimization testbed with coupled operational constraints. We develop VRPCoder, an 8B end-to-end model that translates natural-language VRP scenarios into Gurobi scripts, together with an expert-verified VRP benchmark suite covering 21 variants. The verifier is reused as a rejection-sampling filter during data synthesis and as a per-rollout reward in group relative policy optimization (GRPO). Across four VRP benchmarks, VRPCoder-GRPO reaches 93\% average Pass@1, outperforms Gemini-3.1-Pro Preview on three benchmarks, exceeds Claude-Sonnet-4.5 by 28 average points, and surpasses prior OR-LLMs by 78 average points.
R-APS: 内省的敵対的パレート検索による制約付き設計のための構成推論とコンテキスト内メタ学習
大規模言語モデル (LLM) は、無制限のタスクに柔軟に対応しますが、システムが計画を立て、ツールを使用し、長期間にわたって動作する必要があるエージェント設定では、流暢さは信頼性の高い配信を保証しません。このギャップを 3 つの構造的欠陥が結合したものとして追跡します。エラーは位置特定されずに伝播し、最悪の場合の摂動は評価されず、蓄積された知識は決して無効になりません。私たちは、これらには根本原因が共有されていると主張します。つまり、アブダクティブ、反事実、メタ帰納的、修正的、帰納的推論は、共有されたコンテキストを矛盾する方向に引っ張ります。私たちは、Reflective Adversarial Pareto Search (R-APS) を導入します。これは、推論モード分解を介して 3 つの失敗すべてに共同で対処し、各推論モードに独自のコンテキストを割り当て、3 つのタイムスケールにわたる相互作用を調整する、私たちの知る限り最初の方法です。型付き検証批評家による段階的な構成推論 (失敗の局在化)、第一級のパレート目標 (堅牢性) としての感度に基づく反事実ストレステスト、および明示的なメタ帰納的ルール抽出です。 invalidation (persistent memory). R-APS は微調整を必要とせず、純粋に構造化されたプロトコル設計によってフリーズされた LLM 上で動作します。平面機構の合成 (ロボット工学、補綴物、機械設計) を評価し、すべての候補を運動学ソルバーでチェックします。 32 のターゲット軌道上で、R-APS は、均一摂動ベースラインよりも 3.5 倍厳しいロバスト性証明書、最初の許容までの反復が 46% 高速化、Enum+GA と比較して 2.1 倍の面取り距離の短縮を実現しながら、バー数と最悪の場合のロバスト性を共同制御します。小規模な 4B 推論に特化したモデルは、プロトコル内の汎用 70B バックボーンと競合することが証明されており、構造化プロトコルがモデルのスケールを部分的に相殺できることを示唆しています。
原文 (English)
R-APS: Compositional Reasoning and In-Context Meta-Learning for Constrained Design via Reflective Adversarial Pareto Search
Large language models (LLMs) are fluent on open-ended tasks, yet in agentic settings, where a system must plan, use tools, and act over extended horizons, fluency does not ensure reliable delivery. We trace this gap to three coupled structural failures: errors propagate without localization, worst-case perturbations go unevaluated, and accumulated knowledge is never invalidated. We argue these share a root cause: abductive, counterfactual, meta-inductive, corrective, and inductive reasoning pull a shared context in incompatible directions. We introduce Reflective Adversarial Pareto Search (R-APS), to our knowledge the first method addressing all three failures jointly via reasoning-mode decomposition, allocating each reasoning mode its own context and orchestrating interaction across three timescales: staged compositional reasoning with a typed validation critic (failure localization), sensitivity-guided counterfactual stress-testing as a first-class Pareto objective (robustness), and meta-inductive rule extraction with explicit invalidation (persistent memory). R-APS requires no fine-tuning and operates on a frozen LLM purely via structured protocol design. We evaluate on planar mechanism synthesis (robotics, prosthetics, mechanical design), with every candidate checked by a kinematic solver. On 32 target trajectories, R-APS delivers robustness certificates 3.5x tighter than uniform-perturbation baselines, 46% faster iterations-to-first-admission, and 2.1x Chamfer-distance reduction over Enum+GA while jointly controlling bar-count and worst-case robustness. Small 4B reasoning-specialized models prove competitive with general-purpose 70B backbones inside the protocol, suggesting structured protocols can partially offset model scale.
AICompanionBench: AI コンパニオンの安全性に関する審査員としての LLM のベンチマーク
Replika や Character.AI などの AI コンパニオン プラットフォームが急速に成長するにつれて、安全でない人間と AI の相互作用に対する懸念が強まっています。この研究では、AICompanionBench を導入します。AICompanionBench は、私たちの知る限り、きめ細かい安全リスク カテゴリの注釈が付けられた、人間と AI コンパニオンの会話の初の公的に利用可能なベンチマーク データセットです。このデータセットには、Reddit から収集され、性的行動、反社会的行動、身体的攻撃性、言葉による攻撃性、薬物乱用、自傷行為と自殺、制御、操作、無害の 9 つのカテゴリにわたる人間と AI のコラボレーションを通じて注釈が付けられた 2,123 件の実世界の Replika 会話が含まれています。このベンチマークを使用して、安全でない相互作用を検出するための LLM-as-judge フレームワークの下で 20 個の最先端のオープンソースおよびクローズドソース LLM を評価します。結果は、モデルのパフォーマンスに大きなばらつきがあり、より強力なモデルは全体的に高い精度を達成していますが、操作や有害であると誤って認識される無害な会話などの微妙なカテゴリに依然として苦戦していることがわかりました。私たちの調査結果は、現在の LLM は明示的な有害なコンテンツを効果的に検出できるものの、暗黙的な安全でない相互作用の特定には依然として限界があることを示唆しています。全体として、私たちの研究は AI コンパニオンシップの安全性研究のための新しいベンチマーク データセットに貢献し、LLM を使用した AI コンパニオン システムのモニタリングに関する洞察を提供します。データセットは、https://github.com/anonymousresearcher2026/AICompanionBench/blob/main/AICompanionBench.xlsx で公開されています。
原文 (English)
AICompanionBench: Benchmarking LLMs-as-Judges for AI Companion Safety
As AI companion platforms such as Replika and Character.AI rapidly grow, concerns about unsafe human-AI interactions have intensified. This study introduces AICompanionBench, to our knowledge the first publicly available benchmark dataset of human-AI companion conversations annotated with fine-grained safety risk categories. The dataset contains 2,123 real-world Replika conversations collected from Reddit and annotated through human-AI collaboration across nine categories: sexual behavior, antisocial behavior, physical aggression, verbal aggression, substance abuse, self-harm and suicide, control, manipulation, and no-harm. Using this benchmark, we evaluate 20 state-of-the-art open-source and closed-source LLMs under an LLM-as-judge framework for detecting unsafe interactions. Results show substantial variation in model performance, with stronger models achieving high overall accuracy but still struggling with nuanced categories such as manipulation, as well as benign conversations that are incorrectly identified as harmful. Our findings suggest that while current LLMs can effectively detect explicit harmful content, they remain limited in identifying implicit unsafe interactions. Overall, our work contributes a new benchmark dataset for AI companionship safety research and offers insights into monitoring AI companion systems using LLMs. The dataset is publicly available at: https://github.com/anonymousresearcher2026/AICompanionBench/blob/main/AICompanionBench.xlsx
ノアの箱舟の知識索引
LLM の知識ベンチマークは 3 つの問題に直面しています。1 つは、規律の代表性を運用できないスケーリング主導の設計です。遅延コンセンサスを可能にする定額支払いアノテーション。制限されたテスト予算の下では、監査されていないランキングの不安定性。 261 のきめ細かい分野にわたる 899 項目のベンチマークである KINA を、2 つの正式な結果とともに紹介します。まず、専門家が導き出したアンカーよりも報道スタイルの目的として代表性を設定し、代理人を通じて規律上の代表性を操作して、(1-1/e) 貪欲な近似 (命題 1) を生成します。保証は代理人に適用され、母集団の代表性には適用されません。第二に、インセンティブ互換性しきい値 B > デルタ C / デルタ p_min (定理 1) で、ボーナスオンバートーナメントがリリースレビューの品質においてフラットペイメントを弱く FOSD で支配することを証明します。 13 のラボからの 42 モデルを評価すると、最上位モデルの Gemini-3.1-Pro-Preview は 53.17% に達し、続いて Claude-Opus-4.6 が 49.92%、GPT-5.4 が 48.55% となり、飽和以下にかなりのヘッドルームが残されています。完全なリーダーボードは、滑らかな全体の順序ではなく階層構造を示しています。小規模なフロンティア階層は 48% を超え、高密度の強力なモデル階層は約 38 ~ 45% に広がり、低パフォーマンスのモデルは 10% の確率ベースラインをわずかに上回る程度に留まっています。ツールの強化により、5 つのツール使用評価全体で最大 5.17 ポイントが加算され、そのゲインはモデルによって大幅に異なります。限られた予算の分散を明示し、隣接するランクの過度の解釈を防ぐために、ブートストラップのランキング安定性統計を報告します。
原文 (English)
Knowledge Index of Noah's Ark
Knowledge benchmarks for LLMs face three issues: scaling-driven designs that do not operationalize disciplinary representativeness; flat-payment annotation that permits lazy consensus; and unaudited ranking instability under bounded test budgets. We introduce KINA, an 899-item benchmark across 261 fine-grained disciplines, with two formal results. First, we cast representativeness as a coverage-style objective over expert-elicited anchors and operationalize disciplinary representativeness through a proxy, yielding a (1-1/e) greedy approximation (Proposition 1); the guarantee applies to the proxy, not to population representativeness. Second, we prove a bonus-on-bar tournament weakly FOSD-dominates flat payment in released-review quality, with incentive-compatibility threshold B > Delta C / Delta p_min (Theorem 1). Evaluating 42 models from 13 labs, the top model, Gemini-3.1-Pro-Preview, reaches 53.17%, followed by Claude-Opus-4.6 at 49.92% and GPT-5.4 at 48.55%, leaving substantial headroom below saturation. The full leaderboard shows a tiered structure rather than a smooth total order: a small frontier tier lies above 48%, a dense strong-model tier spans roughly 38-45%, and low-performing models remain only modestly above the 10% chance baseline. Tool augmentation adds up to 5.17 points across the five tool-use evaluations, with gains varying substantially across models. We report bootstrap ranking-stability statistics to make bounded-budget variance explicit and to discourage over-interpretation of adjacent ranks.
人間の活動認識における軽量 SensorLLM のための重力認識階層ルーティング
センサーと言語のアライメントに関する最近の研究では、2 段階のフレームワークにより、ウェアラブル センサーの人間活動認識 (HAR) のセマンティック モデリング能力が向上することが示されています。SensorLLM スタイルのメソッドは、最初にモーションと言語のアライメントを実行し、次に下流のタスクに向けてモデルを微調整します。しかし、私たちの実験では、ステージ 2 のバックボーンが TinyLlama などのコンパクトなモデルに圧縮された場合に、一貫した故障モードが明らかになりました。動的アクティビティの認識は比較的強いままですが、立つ、座る、横たわるなどの動きの少ない静的なクラスの識別は大幅に低下します。この問題に対処するために、新しい大規模な事前トレーニング フレームワークではなく、すでに位置合わせされたモデルの上に構築された軽量の位置合わせ後の適応として、重力を認識した階層型ルーティング ヘッドを提案します。このメソッドは、Chronos トークナイザーの状態からのチャネルごとの平均と標準偏差を使用して、姿勢と重力方向に関連する統計的手がかりを抽出し、安定したトレーニングのための負荷分散損失とともに、ソフト ルーティングを通じて静的エキスパートと完全エキスパートを適応的に組み合わせます。 MHealth データセットでは、この設計により、最小限のパラメーター オーバーヘッドでマクロ F1 が大幅に改善され、動的アクティビティでの優れたパフォーマンスを維持しながら、ゲインは主に静的クラスに集中します。最初の arXiv 開示として、現在の論文は単一のデータセットのみに関する結果を報告しており、その目的は、中核となる手法を強調し、将来の研究におけるより広範な評価のための基礎を築くことです。
原文 (English)
Gravity-Aware Hierarchical Routing for Lightweight SensorLLM on Human Activity Recognition
Recent studies on sensor-language alignment have shown that two-stage frameworks can improve the semantic modeling ability of wearable-sensor human activity recognition (HAR), where SensorLLM-style methods first perform motion-to-language alignment and then fine-tune the model for downstream tasks. However, our experiments reveal a consistent failure mode when the Stage 2 backbone is compressed to a compact model such as TinyLlama: recognition of dynamic activities remains relatively strong, while the discrimination of low-motion static classes such as standing, sitting, and lying degrades substantially. To address this issue, we propose a gravity-aware hierarchical routing head as a lightweight post-alignment adaptation built on top of an already aligned model, rather than a new large-scale pretraining framework. The method uses the per-channel mean and std from the Chronos tokenizer state to extract statistical cues related to posture and gravity direction, and adaptively combines a static expert and a full expert through soft routing, together with a load-balancing loss for stable training. On the MHealth dataset, this design significantly improves macro-F1 with minimal parameter overhead, and the gains are concentrated mainly on static classes while preserving strong performance on dynamic activities. As a first arXiv disclosure, the current paper reports results on a single dataset only, with the goal of highlighting the core method and laying the groundwork for broader evaluation in future work.
CodegenBench: LLM はアーキテクチャ全体で効率的なコードを記述できますか?
大規模言語モデル (LLM) は、汎用プログラミングや GPU アクセラレーション環境 (PyTorch、CUDA など) のコード生成タスクで広範囲に評価されてきましたが、多様なアーキテクチャにわたる CPU 指向のハイパフォーマンス コンピューティング (HPC) における LLM の機能はまだ十分に解明されていません。このギャップを埋めるために、x86_64、Sunway、Kunpeng の 3 つの異なるハードウェア プラットフォームにわたる効率的な並列コードの生成を評価するように設計された包括的なベンチマーク スイートである CodegenBench を紹介します。私たちのベンチマークは、基本的なベースラインを確立する 106 個の標準基本線形代数サブプログラム (BLAS) ルーチンと、独自のスーパーコンピューティング アーキテクチャ (LeetSunway および LeetKunpeng) のそれぞれに適合した 20 個の特殊な計算カーネルで構成されています。私たちの広範な評価により、最先端の LLM は x86_64 のようなユビキタス アーキテクチャ向けに最適化されたコードを生成できる一方で、公開ドキュメントやトレーニング データが限られたドメイン固有のアーキテクチャでは大幅なパフォーマンスの低下を示し、クロスプラットフォームの一般化における重大な制限が浮き彫りになったことが明らかになりました。さらに、実装の長さやタスクの複雑さなど、コードの品質に影響を与える要因を分析したところ、現在の LLM は、簡潔なコード スニペットを必要とする中程度に難しい問題に対して最も効果的であることが示されています。私たちは、LLM 主導の高性能コード生成における将来の研究を促進するために、データセットと自動評価インフラストラクチャをオープンソースにしています。リソースは https://anonymous.4open.science/r/CodegenBench-EDE1/ および https://anonymous.4open.science/r/CodegenBenchDataset-2551 で利用できます。
原文 (English)
CodegenBench: Can LLMs Write Efficient Code Across Architectures?
While large language models (LLMs) have been extensively evaluated on code generation tasks for general-purpose programming and GPU-accelerated environments (e.g., PyTorch, CUDA), their capabilities in CPU-oriented high-performance computing (HPC) across diverse architectures remain underexplored. To bridge this gap, we introduce CodegenBench, a comprehensive benchmark suite designed to evaluate the generation of efficient parallel code across three distinct hardware platforms: x86_64, Sunway, and Kunpeng. Our benchmark comprises 106 standard Basic Linear Algebra Subprograms (BLAS) routines establishing a fundamental baseline, alongside 20 specialized computational kernels adapted for each of the unique supercomputing architectures (LeetSunway and LeetKunpeng). Our extensive evaluation reveals that while state-of-the-art LLMs can generate optimized code for ubiquitous architectures like x86_64, they exhibit significant performance degradation on domain-specific architectures with limited public documentation and training data, highlighting critical limitations in cross-platform generalization. Furthermore, our analysis of factors influencing code quality such as implementation length and task complexity indicates that current LLMs are most effective for moderately difficult problems requiring concise code snippets. We open-source our dataset and automated evaluation infrastructure to facilitate future research in LLM-driven high-performance code generation. The resources are available at https://anonymous.4open.science/r/CodegenBench-EDE1/ and https://anonymous.4open.science/r/CodegenBenchDataset-2551.
MaskForge: 脱獄拡散のための構造認識型適応型攻撃 大規模言語モデル
拡散大規模言語モデル (dLLM) は、双方向コンテキストの下で部分的にマスクされたシーケンスを繰り返しノイズ除去することでテキストを生成し、自己回帰 LLM とは異なる安全面を公開します。マスク トークンはネイティブ入力であり、トークンは位置ではなく信頼度によってコミットされるため、監視対象のプレフィックスの埋め込みや外部を通じて有害なコンテンツが誘発される可能性があります。既存のジェイルブレイクは、このネイティブの埋め込み機能を見逃しているか、構造的な適応や蓄積された攻撃経験がほとんどなく、目標全体に均一に適用される多様性の低いマスクを含むテンプレートに依存しています。私たちは、増大する構造パターンのライブラリに対する最適化された検索として dLLM レッドチームをキャストする、完全にブラックボックスの適応型攻撃である MaskForge を提案します。 MaskForge は、成功した試行を再利用可能なスキーマに抽象化し、UCB バンディットで目標と互換性のあるパターンを選択し、現在のライブラリが失敗した場合にスコアラーに基づくフォールバックを呼び出します。成功した試行はパターン ライブラリに抽出され、目標全体にわたって経験を蓄積できるようになります。 5 つの公開 dLLM と 3 つのベンチマーク全体で、MaskForge は 79.3% の平均攻撃成功率を達成しており、最も強力な競合 dLLM ベースラインと比べて相対的に 17.6% 向上しています。成熟したパターン ライブラリは、更新なしで AdvBench にさらに転送され、88.2% の攻撃成功率と、最も強力な競合ベースラインと比較して 67% の相対的な改善を達成しました。
原文 (English)
MaskForge: Structure-Aware Adaptive Attacks for Jailbreaking Diffusion Large Language Models
Diffusion large language models (dLLMs) generate text by iteratively denoising partially masked sequences under bidirectional context, exposing a safety surface distinct from autoregressive LLMs. Because mask tokens are native inputs and tokens are committed by confidence rather than position, harmful content can be induced through infilling and outside the monitored prefix. Existing jailbreaks either miss this native infill capability or rely on low-diversity mask-bearing templates applied uniformly across goals, with little structural adaptation or accumulated attack experience. We propose MaskForge, a fully black-box adaptive attack that casts dLLM red-teaming as optimized search over a growing library of structural patterns. MaskForge abstracts successful attempts into reusable schemas, selects goal-compatible patterns with a UCB bandit, and invokes a scorer-guided fallback when the current library fails. Successful attempts are distilled back into the pattern library, enabling experience to accumulate across goals. Across five public dLLMs and three benchmarks, MaskForge achieves an average attack success rate of 79.3%, a 17.6% relative improvement over the strongest competing dLLM baseline. The matured pattern library further transfers to AdvBench without any updates, achieving a 88.2% attack success rate and a 67% relative improvement over the strongest competing baseline.
トランスフォーマーには 3 つの投影が必要ですか? QKV バリアントの体系的な研究
トランスフォーマーは、クエリ、キー、値 (QKV) アテンションの定式化が中心的な役割を果たし、さまざまな AI タスクの標準ソリューションとなっています。しかし、これら 3 つの予測の個々の寄与と、一部を省略した場合の影響については、依然として十分に理解されていません。 3 つの射影共有制約を系統的に評価します。a) Q-K=V (共有キーと値)、b) Q=K-V (共有クエリキー)、c) Q=K=V (単一射影)。最後の 2 つのバリアントは、対称的なアテンション マップを生成します。これに対処するために、2D 位置エンコーディングによる非対称の注意も調査します。合成タスク、ビジョン (MNIST、CIFAR、TinyImageNet、異常)、言語モデリング (10B トークン上の 300M および 1.2B パラメーター モデル) にわたる実験を通じて、当社のトランスフォーマーは QKV トランスフォーマーと同等か、場合によってはそれよりも優れたパフォーマンスを発揮することがわかりました。言語モデリングでは、Q-K=V 射影共有により、わずか 3.1% のパープレキシティ低下で 50% の KV キャッシュ削減が達成されます。重要なのは、射影共有はヘッド共有 (GQA/MQA) を補完するものです。Q-K=V と GQA-4 を組み合わせると 87.5% のキャッシュ削減が得られ、Q-K=V + MQA では 96.9% が達成され、実用的なオンデバイス推論が可能になります。キーと値は同様の表現空間を占有することができ、注意は低ランク領域で動作するため、Q-K=V は品質を維持しますが、Q=K-V は注意の方向性を壊すことを示します。私たちの結果は、投影共有を、直接的で定量化可能な推論メモリの利点を備えた注意力の結びつきの未解明な例として体系的に特徴付けており、特にエッジ展開に価値があります。コードは https://github.com/anusamadan02/Do-Transformers-Need-3-Projections で公開されています。
原文 (English)
Do Transformers Need Three Projections? Systematic Study of QKV Variants
Transformers have become the standard solution for various AI tasks, with the query, key, and value (QKV) attention formulation playing a central role. However, the individual contribution of these three projections and the impact of omitting some remain poorly understood. We systematically evaluate three projection sharing constraints: a) Q-K=V (shared key-value), b) Q=K-V (shared query-key), and c) Q=K=V (single projection). The last two variants produce symmetric attention maps; to address this, we also explore asymmetric attention via 2D positional encodings. Through experiments spanning synthetic tasks, vision (MNIST, CIFAR, TinyImageNet, anomaly), and language modeling (300M and 1.2B parameter models on 10B tokens), we discovered that our transformers perform on par or occasionally better than the QKV transformer. In language modeling, Q-K=V projection sharing achieves 50% KV cache reduction with only 3.1% perplexity degradation. Crucially, projection sharing is complementary to head sharing (GQA/MQA): combining Q-K=V with GQA-4 yields 87.5% cache reduction, while Q-K=V + MQA achieves 96.9%, enabling practical on-device inference. We show that Q-K=V preserves quality because keys and values can occupy similar representational spaces and attention operates in a low-rank regime, whereas Q=K-V breaks attention directionality. Our results systematically characterize projection sharing as an underexplored instance of weight tying in attention, with direct, quantifiable inference memory benefits, particularly valuable for edge deployment. The code is publicly available at https://github.com/Brainchip-Inc/Do-Transformers-Need-3-Projections
予測できない安全性: ドメイン依存のコンプライアンスとオープンウェイト LLM の透明性ギャップ
我々は、オープンウェイト LLM におけるドメイン依存の安全行動の体系的な研究を紹介します。7 つの倫理ドメインにわたる 7 つの標準化された実験で、デュアルジャッジ検証による 4,200 件のインタラクションで 5 つのモデル (12B ~ 70B) をテストしました。二重条件の方法論を使用し、各シナリオを分析フレーム (危害の特定) と運用フレーム (危害の実行を支援) の両方でテストしたところ、コンプライアンス率は 14.7% (人身売買) から 85.7% (監視設計) まで変化しており、重複しないクラスター ブートストラップの 95% CI では 71 パーセント ポイントの範囲であることがわかりました。信頼できる展開には予測可能な安全動作が必要ですが、コンプライアンスは状況に大きく依存していることがわかりました。同じモデル (Mistral Nemo 12B) はリクエストの 100% で監視設計を提供しますが、トラフィックの支援は 26.7% のみです。この予測不可能性は、導入担当者にとって不透明です。技術的なフレーミング バイパスでは、拒否しきい値が変化したという外部からの信号なしに、エンジニアリング上の問題として再構成された有害な要求が安全トレーニングを無効にします。ドメイン内の異質性は 84.4pp に達しており、ドメイン レベルでも安全動作を予測できないことを意味します。 GitHub Copilot CLI デプロイ済み製品サーフェスを介してアクセスされた 5 つのフロンティア クローズド モデル (GPT-4.1/5.2、Claude Haiku/Sonnet/Opus 4.x、n=4,163 回答) での複製では、同じドメイン階層化が再現され、絶対レベルで減衰されていますが形状は同一であり、2 つの低コード化ドメイン (科学詐欺、監視) が再び最も寛容です。これらの結果は、現在の安全メカニズムには、信頼できる AI の導入に必要な透明性と一貫性が欠けていることを示しています。
原文 (English)
Unpredictable Safety: Domain-Dependent Compliance and the Transparency Gap in Open-Weight LLMs
We present a systematic study of domain-dependent safety behavior in open-weight LLMs: 7 standardized experiments across 7 ethical domains, testing 5 models (12B--70B) in 4,200 interactions with dual-judge validation. Using a dual-condition methodology, each scenario tested in both an analytical framing (identify the harm) and an operational framing (help commit the harm), we find compliance rates vary from 14.7% (human trafficking) to 85.7% (surveillance design), a 71-percentage-point span with non-overlapping cluster-bootstrapped 95% CIs. Trustworthy deployment requires predictable safety behavior, yet we find compliance is highly context-dependent: the same model (Mistral Nemo 12B) provides surveillance designs in 100% of requests but assists with trafficking in only 26.7%. This unpredictability is opaque to deployers: the technical framing bypass, where harmful requests reframed as engineering problems override safety training without any external signal that refusal thresholds have shifted. Within-domain heterogeneity reaches 84.4pp, meaning safety behavior cannot be predicted even at the domain level. A replication on five frontier closed models (GPT-4.1/5.2, Claude Haiku/Sonnet/Opus 4.x; n=4,163 responses) accessed via the GitHub Copilot CLI deployed-product surface reproduces the same domain stratification, attenuated in absolute level but identical in shape, with the two low-codification domains (science fraud, surveillance) again the most permissive. These results show that current safety mechanisms lack the transparency and consistency required for trustworthy AI deployment.
現場に飛び込む: フォーカス プランの生成を通じて、視覚と言語の意思決定における知覚のボトルネックを打破する
ロボット操作やナビゲーションなどの身体化された視覚言語による意思決定タスクでは、視覚言語モデルおよび視覚言語アクション モデル (VLM および VLA) は、さまざまな利点を持つ強力なツールです。VLM は長期計画に優れ、VLA は事後制御に優れています。ただし、モデルのパフォーマンスは、同じ知覚のボトルネックによって制限されます。モデルがタスクに関連するオブジェクトと気を散らすものとを区別できないために幻覚が発生します。原則として、無関係なものを除外しながら、正確に識別して重要なオブジェクトに焦点を当てることが、この制限を打ち破る鍵となります。簡単な解決策は、重要なオブジェクトに直接注目するというワンステップの焦点です。ただし、効果的に焦点を合わせるには本質的にシーンを深く理解する必要があるため、このアプローチは効果的ではないことがわかります。この目的を達成するために、我々は、VLM の長期計画能力を活用した、粗いから細かいまでのフォーカス プラン生成方法である SceneDiver を提案します。この方法では、最初に全体的なシーン グラフを構築して初期理解を確立し、次に認識、理解、分析の反復サイクルを通じてタスクをより単純なサブ問題に徐々に分解します。反応的な制御を可能にするために、意図的なフォーカス機能を VLA に抽出するための軽量アダプターも設計しました。標準の組み込み AI ベンチマークでの評価により、私たちの方法は、高速実行を必要とするタスクの計算効率を維持しながら、VLM と VLA の両方で幻視を大幅に軽減することが確認されています。コードとデータは https://future-item.github.io/SceneDiver でリリースされています。
原文 (English)
Dive into the Scene: Breaking the Perceptual Bottleneck in Vision-Language Decision Making via Focus Plan Generation
In embodied vision-language decision making tasks such as robotic manipulation and navigation, Vision-Language and Vision-Language-Action Models (VLMs & VLAs) are powerful tools with different benefits: VLMs are better at long-term planning, while VLAs are better at reactive control. However, their performance is limited by the same perceptual bottleneck: visual hallucinations arise due to the models' inability to distinguish task-relevant objects from distractors. In principle, accurate identification and focus on critical objects while filtering out irrelevant ones is the key to break this limitation. A straightforward solution is one-step focus: directly attending to essential objects. However, this approach proves ineffective because effective focus inherently requires deep scene understanding. To this end, we propose SceneDiver, a coarse-to-fine focus plan generation method for VLMs leveraging their long-term planning abilities, that first constructs a holistic scene graph to establish initial comprehension, then progressively decomposes the task into simpler sub-problems through an iterative cycle of recognition, understanding, and analysis. To enable reactive control, we also design a lightweight adapter for distilling the deliberate focus ability into VLAs. Evaluations on standard embodied AI benchmarks confirm that our method substantially reduces visual hallucinations for both VLMs and VLAs, while preserving computational efficiency in tasks requiring fast execution. Our code and data are released at: https://future-item.github.io/SceneDiver.
LiftQuant: 次元リフティングと投影による連続ビット幅 LLM
既存の量子化手法は基本的に、厳格な整数ベースのビット幅 (例: 2、3 ビット) によって制限されており、その結果、大規模言語モデルを特定のメモリ バジェットに最適に適合させることができない「デプロイメント ギャップ」が生じます。このギャップを埋めるために、真のパレート最適デプロイメントのための継続的なビット幅制御を可能にする新しいフレームワークである LiftQuant を紹介します。中心となるイノベーションは、「リフト ゼン プロジェクト」メカニズムです。高次元の「リフトされた」空間から単純な 1 ビット格子を投影することで、低次元の重みベクトルを近似します。重要なことに、有効なビット幅は、元の次元に対するリフト次元の比率によって単純に決定され、次元が柔軟な構造パラメータであるため、ビット幅を準連続的に調整できます。この投影は、構造化されているが不均一なコードブックを生成し、ベクトル量子化 (VQ) の表現力を捉えます。 VQ、LiftQuant のデコード パスは線形変換と 1 ビットの均一量子化器のみに依存しており、ハードウェアに優しい性質を維持しています。LiftQuant を使用すると、70B LLM を 24GB GPU に正確に適合させることができ、そのパフォーマンスは同じデバイスに搭載されている最先端の 2 ビット モデルを大幅に上回ります。 https://github.com/Heliulu/LiftQuant。
原文 (English)
LiftQuant: Continuous Bit-Width LLM via Dimensional Lifting and Projection
Existing quantization methods are fundamentally limited by rigid, integer-based bit-widths (e.g., 2, 3-bit), resulting in a ``deployment gap" where Large Language Models cannot be optimally fitted to specific memory budgets. To bridge this gap, we introduce LiftQuant, a novel framework that enables continuous bit-width control for true Pareto-optimal deployment. The core innovation is a ``lift-then-project" mechanism which approximates low-dimensional weight vectors by projecting a simple 1-bit lattice from a higher-dimensional ``lifted" space. Crucially, the effective bit-width is determined simply by the ratio of the lifted dimension to the original dimension, which allows the bit-width to be tuned quasi-continuous as the dimension is a flexible structural parameter. This projection generates a structured yet non-uniform codebook, capturing the expressive power of Vector Quantization (VQ). While beneficial over VQ, LiftQuant's decoding path relies solely on linear transformations and 1-bit uniform quantizers, retaining hardware-friendly nature. This flexibility is transformative: LiftQuant enables a 70B LLM to be compressed to 2.4 bits to precisely fit a 24GB GPU, where its performance significantly surpasses state-of-the-art 2-bit models fitted on the same device. Our code and ckpt is available at https://github.com/Heliulu/LiftQuant.
RUBAS: エージェントの安全のためのルーブリックベースの強化学習
LLM がツール対応エージェントに進化すると、単純なテキスト生成ではなく現実世界の実行に関連した新しいクラスの安全性の課題が生じます。既存の調整方法は、粗い拒否信号や静的な監視に依存することが多く、さまざまなエージェントのリスクにわたって安全性と有用なツールの実行のバランスをとることが困難です。エージェントの安全性のためのルーブリックベースの強化学習フレームワークである RUBAS を紹介します。 RUBAS は、エージェントの動作をツール使用の安全性、引数の安全性、応答の安全性、有用性の 4 つの次元に分解します。これらの構造化されたルーブリックは、エージェントの完全な軌跡にわたってきめ細かく解釈可能な報酬を提供し、タスクの完了を維持しながら安全なツールの使用を最適化する強化学習を可能にします。複数のエージェントの安全性ベンチマークとモデルにわたる広範な実験により、RUBAS が標準的なアライメントベースラインよりも安全性を向上させ、ツールに基づく幻覚を軽減し、競争力のある実用性を維持することが示されています。私たちの結果は、多次元ルーブリック報酬が、安全性が重要なツール使用環境において LLM エージェントを調整するための効果的なトレーニング信号を提供することを示唆しています。
原文 (English)
RUBAS: Rubric-Based Reinforcement Learning for Agent Safety
The evolution of LLMs into tool-enabled agents creates a new class of safety challenges associated with real-world execution rather than simple text generation. Existing alignment methods often rely on coarse refusal signals or static supervision, making it difficult to balance safety with useful tool execution across diverse agentic risks. We introduce RUBAS, a rubric-based reinforcement learning framework for agent safety. RUBAS decomposes agent behavior into four dimensions: tool-use safety, argument safety, response safety, and helpfulness. These structured rubrics provide fine-grained and interpretable rewards over complete agent trajectories, enabling reinforcement learning to optimize safe tool use while preserving task completion. Extensive experiments across multiple agent safety benchmarks and models show that RUBAS improves safety over standard alignment baselines, reduces tool-grounded hallucinations, and maintains competitive utility. Our results suggest that multi-dimensional rubric rewards provide an effective training signal for aligning LLM agents in safety-critical tool-use settings.
目に見えない宝くじ: LLM コード生成におけるアルゴリズムの選択を微妙な手がかりがどのように左右するか
大規模言語モデル (LLM) は、多くの場合、複数の有効なアルゴリズム ソリューションを含むタスク向けに、実質的な運用コードを生成するようになりました。タスク仕様外の文脈上の単語やメタデータを意味する付随的なプロンプト キューは、すべての出力が同じテストに合格した場合でも、モデルが選択するアルゴリズムを制御できます。即時感度は、出力品質を向上させるツールとしてよく研究されています。ここで、出力ポリシーとは、固定の正確性の下でのアルゴリズムの選択を意味します。私たちは、アルゴリズムステアリングをアルゴリズムファミリー分布におけるキュー誘発のシフトとして定義し、11のタスク、19のキュータイプ(18のチャネルと、タイポグラフィーと句読点を変更しながら意味を保持するメモ化の意味対表面のアブレーション)、および15のモデル構成にわたって46,535の制御された実験を実行しました。我々は、レート制限などの応用タスクを含む、キューのセマンティクスとほぼ一致する、アルゴリズム ファミリの分布における大きく系統的な変化 (最大 100 pp) を発見しました。アルゴリズムの直接命名は、私たちがテストした最も信頼性の高い軽減策です。したがって、偶然のコンテキストによって、パフォーマンス、セキュリティ、および保守性をめぐる「目に見えない宝くじ」が作成されます。
原文 (English)
The Invisible Lottery: How Subtle Cues Steer Algorithm Choice in LLM Code Generation
Large language models (LLMs) now generate substantial production code, often for tasks with multiple valid algorithmic solutions. Incidental prompt cues, meaning contextual words or metadata outside the task specification, can steer which algorithm the model selects, even when all outputs pass the same tests. Prompt sensitivity is well studied as a tool to improve output quality. Here, output policy means algorithm choice under fixed correctness. We define algorithm steering as cue-induced shifts in algorithm-family distributions and run 46,535 controlled experiments across 11 tasks, 19 cue types (18 channels plus a memoization semantic-vs-surface ablation that preserves meaning while changing typography and punctuation), and 15 model configurations. We find large, systematic shifts in algorithm-family distributions (up to 100 pp), largely consistent with cue semantics, including in applied tasks such as rate limiting. Direct algorithm naming is the most reliable mitigation we tested. Accidental context therefore creates an "invisible lottery" over performance, security, and maintainability.
アーキテクチャと量子化の選択を組み合わせて最適化する LLM 圧縮
大規模言語モデル (LLM) のデプロイは、大量のメモリと計算要件があるため、困難です。一部の方法では、小規模または極小の言語モデルを最初から開発することでこの問題に対処しますが、これらのアプローチでは広範な GPU トレーニングが必要です。エッジデバイス用に事前トレーニングされた LLM を圧縮することは、魅力的な代替手段を提供します。プルーニングと量子化を超えて、ニューラル アーキテクチャ検索 (NAS) は効果的な圧縮を可能にしますが、従来の NAS アプローチでは多くの場合、検索スペースが制限され、アーキテクチャが量子化から分離されていました。私たちは、空間全体を探索し、LLM の線形層の混合精度量子化と並行してアーキテクチャ構成を共同で最適化する微分可能な NAS フレームワークを導入します。実験では、精度とレイテンシの優れたトレードオフが実証されています。当社のモデルは、同等の精度で逐次 NAS を経て量子化するベースラインよりも最大 1.4 倍高速な推論、または同等のレイテンシで 7 つの推論タスク全体で最大 6% 高い平均精度を達成します。
原文 (English)
LLM Compression with Jointly Optimizing Architectural and Quantization choices
Deploying large language models (LLMs) is challenging due to their significant memory and computational requirements. While some methods address this by developing small or tiny language models from scratch, these approaches demand extensive GPU training. Compressing pre-trained LLMs for edge devices offers a compelling alternative. Beyond pruning and quantization, Neural Architecture Search (NAS) enables effective compression, yet prior NAS approaches often limit the search space and decouple architecture from quantization. We introduce a differentiable NAS framework that explores the entire space and jointly optimizes architectural configurations alongside mixed-precision quantization for linear layers of LLMs. Experiments demonstrate superior accuracy-latency trade-offs: our models achieve up to 1.4x faster inference than sequential NAS-then-quantization baselines at comparable accuracy, or up to 6% higher average accuracy across seven reasoning tasks at equivalent latency.
知っておくべきこと: プライバシーを意識した LLM 委任のためのコンテキスト整合性に基づいたクエリ書き換え
LLM が日常のワークフローにますます組み込まれるようになるにつれて、クラウドでホストされる LLM に送信されるユーザー クエリでは、タスクに必須のコンテンツとタスクに必須ではない機密情報の開示が日常的に混在していますが、タイプベースの PII 秘匿化はコンテキストに依存せず、2 つの問題が生じる可能性があります。それは、型指定されていない機密コンテキストの開示の過剰と、回答を含むスパンの削除の過剰です。コンテキストの整合性の下で、プライバシーを保持するクエリの書き換えを再検討します。スパンは、タスクに必要な場合にのみ転送されるべきです。 DelegateCI-Bench は、プライバシーを意識した委任向けの初のタスクベースのコンテキスト整合性ベンチマークであり、11 のタスクと 20 のタスク タイプにわたる高品質の合成データ、WildChat ベースの実際のユーザー クエリ、および高密度の機密情報を含む医療課題セットを組み合わせた 3,167 個のサンプルで構成されています。このベンチマークに基づいて、必須および非必須の機密スパンを検証可能な最適化信号に変換する CI ガイド付き強化学習フレームワークを提案し、不必要な機密情報の開示を抑制しながらタスクの重要な情報を保持するようにクエリ リライターをトレーニングします。実験の結果、私たちの学習済みリライターはプライバシーとユーティリティの最適なトレードオフを達成し、デバイス上のベースラインに対して最大 +10.1 の平均ユーティリティを達成することがわかりました。
原文 (English)
Need to Know: Contextual-Integrity-Grounded Query Rewriting for Privacy-Conscious LLM Delegation
As LLMs become increasingly woven into everyday workflows, user queries sent to cloud hosted LLMs routinely mix task-essential content with task non-essential sensitive disclosures, yet type based PII redaction is context agnostic and may raise two issues: over disclosing untyped sensitive context and over removing answer bearing spans. We recast privacy preserving query rewriting under Contextual Integrity: a span should be forwarded only if it is necessary for the task. We introduce DelegateCI-Bench, the first task based Contextual Integrity benchmark for privacy-conscious delegation, comprising 3,167 samples that combine high quality synthetic data spanning 11 tasks and 20 task types, WildChat based real user queries, and a medical challenge set with dense sensitive information. Building on this benchmark, we propose a CI-guided reinforcement learning framework that converts essential and non-essential sensitive spans into verifiable optimization signals, and train a query rewriter to preserve task critical information while suppressing unnecessary sensitive disclosure. Experiments show that our learned rewriter achieves the best privacy-utility tradeoff, achieving up to +10.1 average utility over on-device baselines.
大規模な言語モデルが報酬と社会をハックする
強化学習 (RL) はトレーニング後のパラダイムの主流となっており、大規模言語モデル (LLM) が報酬から学習できるようになります。私たちは、社会規制が報酬関数と構造的に似ていることを観察しています。それらは測定可能な結果、しきい値、例外を定義しますが、多くの場合、制度上の意図は部分的にしか指定されません。私たちは、RL トレーニング プロセスがこれらのギャップを悪用する可能性があると仮説を立て、RL 中に報酬関数をハッキングするというモデルのよく知られた傾向が、社会ハッキングと呼ばれるより重大な失敗モード、つまり社会が運営されているルールの抜け穴を発見するモードにスケールアップできるかどうかを尋ねます。この現象を研究するために、72 の社会環境のサンドボックスである SocioHack を導入しました。その結果、これらの環境内で報酬ハッキングが自然に発生し、規制の抜け穴の発見につながることがわかりました。モデルは社会ルールをハッキングし、規制の意図を打ち破りながら技術的に準拠した戦略を生成する方法を学習します。現在の LLM セーフガードは限定的な緩和策しか提供しません。したがって、モデルのトレーニングのために実際のフィードバックを収集することには細心の注意が必要であり、実社会で LLM を安全に反復するための次世代のポストトレーニング パラダイムが必要です。=
原文 (English)
Large Language Models Hack Rewards, and Society
Reinforcement learning (RL) has become a dominant post-training paradigm, enabling large language models (LLMs) to learn from rewards. We observe that societal regulations are structurally similar to reward functions. They define measurable outcomes, thresholds, and exceptions, while often leaving institutional intent only partially specified. We hypothesise that the RL training process may exploit these gaps and therefore ask whether models' well-known tendency to hack reward functions during RL can scale into a more consequential failure mode named societal hacking: discovering loopholes in the rules society runs on. To study this phenomenon, we introduce SocioHack, a sandbox of 72 societal environments, and find that within these environments, reward hacking naturally emerges and leads to regulatory loophole discovery. Models learn to hack the social rules and generate strategies that remain technically compliant while defeating regulatory intent, and current LLM safeguards provide only limited mitigation. Therefore, collecting in-the-wild feedback for model training requires greater caution, and we need a next-generation post-training paradigm for safely iterating LLMs in real society.=
POLARIS: 小さなモデルが長い物語を書けるように導く
小規模なオープンウェイト モデルは、長編のクリエイティブ ライティングに苦労します。特にフロンティア モデルと比較した場合、生成されるストーリーが要求された長さに大幅に満たないか、長さが増加するにつれて品質が大幅に低下します。我々は、2 つの重要な要素を備えた低コンピューティングの GRPO レシピである POLARIS (審査員としての LLM 報酬とストーリーライティングのためのアンカー参照注入によるポリシーの最適化) を紹介します。1 つはオンライン報酬として構造化されたストーリー品質ルーブリックを持つフロンティア LLM 審査員、もう 1 つは教師が強制的に人間が書いたストーリーが各 GRPO グループ内で高報酬のアンカーとして機能する人間参照注入 (HRI) です。 100 の短編小説アンソロジーと 4 つの A100 GPU から派生した約 1.4K のプロンプト ストーリー ペアのデータセットを使用して、トレーニング レシピを Qwen3.5-9B に適用することにより、POLARIS-9B が得られます。配布内および配布外のプロンプトとルーブリックにわたる 5 つのベンチマークにわたって、POLARIS-9B は、長さの指示により厳密に従いながら、はるかに大きなオープンウェイト モデルと競合します。人間による盲検評価により、POLARIS-9B がベースの Qwen3.5-9B よりも好まれ、Qwen3.5-27B と同等であることが確認されました。 POLARIS-9B は、最大 4k ワードまでのストーリーのみをトレーニングしているにもかかわらず、トレーニング長の最大 3 倍のストーリーを要求するプロンプトの品質を維持します。これは、ほとんどのオープンウェイト モデルが品質、長さの遵守、またはその両方において大幅に低下する状況です。より広範に、私たちの結果は、長さの一般化がクリエイティブライティングモデルにとって意味のあるストレステストであり、他の点では近いモデルを区別するための有用なレンズであることを示唆しています。
原文 (English)
POLARIS: Guiding Small Models to Write Long Stories
Small open-weight models struggle at long-form creative writing: their generated stories either fall far short of the requested length, or their quality significantly degrades as length increases, especially when compared to frontier models. We present POLARIS (Policy Optimization with LLM-as-a-judge rewards and Anchored-Reference Injection for Storywriting), a lower-compute GRPO recipe with two key ingredients: a frontier LLM judge with a structured Story Quality rubric as the online reward, and human-reference injection (HRI), where a teacher-forced human-written story serves as a high-reward anchor within each GRPO group. By applying our training recipe to Qwen3.5-9B, using a dataset of approximately 1.4K prompt-story pairs derived from 100 short-story anthologies and 4 A100 GPUs, we obtain POLARIS-9B. Across five benchmarks spanning in-distribution and out-of-distribution prompts and rubrics, POLARIS-9B is competitive with much larger open-weight models while following length instructions more closely. A blinded human evaluation confirms that POLARIS-9B is preferred to the base Qwen3.5-9B and on par with Qwen3.5-27B. Despite training only on stories up to 4k words, POLARIS-9B preserves quality on prompts requesting stories up to 3 times the training length, a regime where most open-weight models degrade substantially in quality, length adherence, or both. More broadly, our results suggest that length generalization is a meaningful stress test for creative-writing models and a useful lens for distinguishing otherwise close models.
dMX: 低精度浮動小数点フォーマットの微分可能な混合精度代入
大規模言語モデル (LLM) を低精度の浮動小数点表現に量子化することは、効率的な展開の中心となりますが、単一のビット幅をすべてのレイヤーに均一に適用することは、パフォーマンスと精度の両方の点で最適とは言えません。この研究では、学習可能な浮動小数点ビット幅割り当てのための微分可能な混合精度量子化フレームワークである dMX を紹介します。私たちは、オープン コンピューティング プロジェクト (OCP) 標準によって定義されたデータ型のマイクロスケーリング浮動小数点 (MXFP) ファミリへの応用を研究します。レイヤごとのビット幅の割り当ては、各レイヤの浮動小数点形式がスカラー パラメータによってパラメータ化され、多変量設計空間を単一の学習可能なオフセットに折りたたむ連続最適化問題として定式化されます。トレーニング中、このオフセットは連続値をとり、離散量子化形式間の突然の振動を回避します。温度ベースのアニーリング スケジュールにより、学習されたオフセットが段階的に離散化され、トレーニング動作と推論動作の間で突然移行することなく、最終的な構成がハードウェア互換の MXFP 形式にマッピングされることが保証されます。ターゲットを意識した正則化用語は、平均ビット幅をユーザー指定の予算に向けて導き、推論コストの大まかな代理として機能し、モデルの品質と展開効率のバランスをとります。私たちは Llama、Qwen3、SmolLM2 などのさまざまな LLM ファミリで実験を実行し、WikiText-2 での複雑性と 4 つのゼロショット推論ベンチマークでの精度を評価しました。これらの設定全体にわたって、dMX は一貫してパレート支配モデルを生成し、カルバック ライブラー (KL) 発散ベースのレイヤー選択ヒューリスティックを改善し、モデルの品質と平均ビット幅の間のトレードオフを効率的にナビゲートします。
原文 (English)
dMX: Differentiable Mixed-Precision Assignment for Low-Precision Floating-Point Formats
Quantizing large language models (LLMs) to low-precision floating-point representations is central to efficient deployment, yet applying a single bit-width uniformly across all layers is sub-optimal in terms of both performance and accuracy. This work introduces dMX, a differentiable mixed-precision quantization framework for learnable floating-point bit-width assignment. We study its application for the microscaling floating-point (MXFP) family of data types defined by the Open Compute Project (OCP) standard. The per-layer bit-width assignment is formulated as a continuous optimization problem in which each layer's floating-point format format is parameterized by a scalar parameter, folding the multi-variate design space into a single learnable offset. During training this offset takes continuous values, avoiding sudden oscillations between discrete quantization formats. A temperature-based annealing schedule progressively discretizes the learned offsets, ensuring that the final configuration maps to hardware-compatible MXFP formats without abrupt transitions between training and inference behavior. A target-aware regularization term steers the average bit-width toward a user-specified budget, serving as a coarse-grained proxy for inference cost and balancing model quality against deployment efficiency. We performed experiments on different families of LLM, such as Llama, Qwen3, and SmolLM2, evaluating perplexity on WikiText-2 and accuracy on four zero-shot reasoning benchmarks. Across these settings, dMX consistently yields Pareto-dominating models and improves over Kullback-Leibler (KL) divergence-based layer-selection heuristics, efficiently navigating trade-offs between model quality and average bit-width.
SaliMory: 会話エージェントの認知記憶を調整する
生涯の伴侶として機能する会話エージェントは、すべての対話にわたって永続的な記憶を維持する必要があります。ただし、生の取得でコンテキスト ウィンドウを単純に拡張すると推論の品質が低下し、標準の強化学習による記憶エージェントのトレーニングでは、多段階パイプラインで深刻なクレジット割り当てのボトルネックが発生します。これを解決するために、単一言語モデルをトレーニングして、ユーザーの事実、好み、作業記憶にまたがる認知的に構造化された記憶を管理するフレームワークである SALIMORY を紹介します。 SALIMORY は、階層的な段階ごとのプロセス報酬と報酬分解された対照的洗練を導入することにより、個別の記憶操作 (選択的フィルタリング、統合、およびキュー主導のリコール) をエンドツーエンドで個別に監視します。 SALIMORY はメモリに起因する障害を 3 分の 1 に削減し、エンドツーエンドの精度で最先端のものを 10% 以上上回り、Good Personalization 率を 2 倍以上に高めます。
原文 (English)
SaliMory: Orchestrating Cognitive Memory for Conversational Agents
Conversational agents that serve as lifelong companions must maintain persistent memory across all interactions. However, simply expanding context windows with raw retrieval degrades reasoning quality, while training memory agents via standard reinforcement learning creates a severe credit assignment bottleneck in a multi-stage pipeline. To solve this, we introduce SALIMORY, a framework that trains a single language model to manage a cognitively-structured memory-spanning user facts, preferences, and working memory. By introducing a hierarchical stage-wise process reward and reward-decomposed contrastive refinement, SALIMORY provides isolated supervision for distinct memory operations (selective filtering, consolidation, and cue-driven recall) end-to-end. SALIMORY cuts memory-attributed failures by one-third, outperforms the state-of-the-art by over 10% in end-to-end accuracy, and more than doubles the Good Personalization rate.
Caught in the Act(ivation): LLM エージェントによる資格情報漏洩の事前出力およびマルチターン検出に向けて
LLM エージェントは多くの場合、機密認証情報を信頼できない取得コンテンツと同じコンテキスト ウィンドウに配置し、認証情報の漏洩を誘発する間接的なプロンプト インジェクションの直接パスを作成します。私たちは、3 つの相補的な防御を通じてこの障害モードを研究します。まず、出力トークンが発行される前に、アクティベーション プローブが資格情報へのアクセスを検出できるかどうかを尋ねます。次に、形式固有の文字モデルからハニートークンを構築し、分割等角予測で検出を調整します。 3 番目に、複数ターンにわたる漏洩を累積的な情報フロー問題として扱い、会話ターン全体での推定漏洩予算を追跡します。オープンウェイト モデルの制御された実験では、アクティベーション機能により、ホールドアウト エンコーディング変換下を含め、無害なプロンプトと認証情報を求めるプロンプトが高精度で分離されます。小規模な合成マルチターン スイートでは、累積アカウンティングにより、ターンごとの検出器が見逃した攻撃が検出されます。これらの結果は暫定的なものです。マルチターン ベンチマークは社内で小規模なものであり、アクティブ化方法にはホワイト ボックス アクセスが必要であり、情報推定ツールは正式な上限ではなく実用的なシグナルを提供します。それでも、この結果は、資格情報の漏洩防御には、テキストレベルの出力フィルターのみに依存するのではなく、出力前の監視、調整されたカナリア検出、および一時的な漏洩アカウンティングを組み合わせる必要があることを示唆しています。
原文 (English)
Caught in the Act(ivation): Toward Pre-Output and Multi-Turn Detection of Credential Exfiltration by LLM Agents
LLM agents often place sensitive credentials in the same context window as untrusted retrieved content, creating a direct path for indirect prompt injection to induce credential exfiltration. We study this failure mode through three complementary defenses. First, we ask whether activation probes can detect credential access before output tokens are emitted. Second, we construct honeytokens from format-specific character models and calibrate detection with split conformal prediction. Third, we treat multi-turn exfiltration as a cumulative information-flow problem and track an estimated leakage budget across conversation turns. In controlled experiments on open-weight models, activation features separate benign and credential-seeking prompts with high accuracy, including under held-out encoding transformations. In a small synthetic multi-turn suite, cumulative accounting detects attacks that per-turn detectors miss. These results are preliminary: the multi-turn benchmark is in-house and small, the activation method requires white-box access, and the information estimator provides a practical signal rather than a formal upper bound. Still, the results suggest that credential-exfiltration defenses should combine pre-output monitoring, calibrated canary detection, and temporal leakage accounting rather than relying only on text-level output filters.
EvalStop: ワールド フィードバックを使用して、マルチテナント RLHF プラットフォームにおける報酬の過剰最適化を検出および修正する
Cloud LLM 微調整プラットフォームは RLHF ワークロードにますます対応しており、学習された報酬モデルが人間の品質の代用として最適化されています。 Gao らのように(2023) は、このプロキシは、報酬の過剰最適化として知られる現象である持続的な最適化圧力の下で、世界のフィードバック (下流の評価指標) から乖離することを示しました。既存のプラットフォーム スケジューラはこの相違を無視しています。非千里眼スケジューラは品質信号なしで JCT を最適化し、SLAQ スタイルの品質認識スケジューラはトレーニング損失 (ハッキングによって単調に低下する弱いプロキシ) を使用し、古典的なジョブごとの早期停止では人間による監視が必要であり、共有 GPU を解放しません。私たちは、evalStop を提案します。これは、k 回連続して eval スコアが低下したときにジョブを終了し、GPU を解放し、最適なチェックポイントを保持し、任意のベース スケジューラに委任する、コンポーザブルなスケジューリング プリミティブです。私たちは、スケジューラレベルの早期停止を検出問題としてフレーム化し、RLHF ワークロードが報酬ハッキングと構造的に健全な実行を混合し、スケジューラから隠蔽されたグランドトゥルースラベルを使用した離散イベントシミュレータでそれを評価します。 RLHF の負荷が高いワークロード (RLHF 80%、GPU 64 基) では、EvalStop は精度 98% / リコール 99% / FPR 1.5% を達成し、SRTF-Est と比較して JCT を 9% 改善し、無駄なコンピューティングを 22% 削減します (p<0.05)。些細な固定進捗と損失プラトーの競合他社は、健全な RLHF で 65% の FPR を被るか、真のハッキング ケースの半分以上を見逃すかのどちらかです。ゲインはテストされたすべてのベース スケジューラにわたって構成され (9 ~ 25% の JCT)、検出品質は評価ノイズ (ノイズ std <= 0.05 で少なくとも 91% の精度) およびハッキングのベース レート (20 ~ 80% のハッキング部分で少なくとも 89% の精度) の下で安定しています。
原文 (English)
EvalStop: Using World Feedback to Detect and Correct Reward Overoptimization in Multi-Tenant RLHF Platforms
Cloud LLM fine-tuning platforms increasingly serve RLHF workloads, where a learned reward model is optimized as a proxy for human quality. As Gao et al. (2023) showed, this proxy diverges from world feedback (downstream eval metrics) under sustained optimization pressure, a phenomenon known as reward overoptimization. Existing platform schedulers ignore this divergence: non-clairvoyant schedulers optimize JCT without any quality signal, SLAQ-style quality-aware schedulers use training loss (a weaker proxy that drops monotonically through hacking), and classical per-job early stopping requires human monitoring and does not free shared GPUs. We propose EvalStop, a composable scheduling primitive that terminates jobs on k consecutive eval-score declines, releases GPUs, preserves the best checkpoint, and delegates to any base scheduler. We frame scheduler-level early stopping as a detection problem and evaluate it in a discrete-event simulator whose RLHF workload mixes reward-hacking and structurally healthy runs, with ground-truth labels hidden from schedulers. On RLHF-heavy workloads (80% RLHF, 64 GPUs), EvalStop achieves precision 98% / recall 99% / FPR 1.5% while improving JCT by 9% and cutting wasted compute by 22% over SRTF-Est (p<0.05). Trivial fixed-progress and loss-plateau competitors either incur 65% FPR on healthy RLHF or miss over half of true hacking cases. Gains compose across every base scheduler tested (9-25% JCT) and detection quality stays stable under eval noise (precision at least 91% at noise std <= 0.05) and hacking base rate (precision at least 89% across 20-80% hacking fractions).
ドメインとモデルにわたる AI 生成テキスト検出における言語的特徴の系統的分析
解釈可能な言語特徴は、特に専門家でないユーザーにとって、特定のテキストが機械生成のように見える理由を説明するための有望なアプローチを提供します。ただし、LLM で生成されたテキストを特徴が確実に示しているという既存の調査結果は、特徴セット、モデル、テキスト ドメイン全体で断片化されたままです。このギャップに対処するために、AI が生成したテキストを特徴付けるための言語信号の堅牢性を評価する大規模な実証研究を実施します。私たちの分析では、クロスモデルおよびクロスドメイン一般化設定の下で、27 の LLM と 10 のテキスト ドメインからの出力にわたる 284 の解釈可能な言語特徴をカバーしています。言語的特徴のみに基づく分類器が、AI によって生成されたテキストと人間が書いたテキストを確実に区別できることを示します。ただし、これまでに提案された指標の多くは、語彙の豊富さの尺度を除いて、コンテキストに強く依存することが証明されており、モデル ファミリとテキスト ドメイン全体にわたって堅牢なシグナルのままです。これらの結果は、どの言語信号がコンテキスト全体で一般化するかを示し、AI 生成言語のより信頼性が高く解釈可能な分析の基盤を提供します。
原文 (English)
A Systematic Analysis of Linguistic Features in AI-Generated Text Detection Across Domains and Models
Interpretable linguistic features offer a promising approach for explaining why a given text appears machine-generated, particularly for non-expert users. However, existing findings on which features reliably indicate LLM-generated text remain fragmented across feature sets, models, and text domains. To address this gap, we conduct a large-scale empirical study assessing the robustness of linguistic signals for characterizing AI-generated text. Our analysis covers 284 interpretable linguistic features across outputs from 27 LLMs and ten text domains under cross-model and cross-domain generalization settings. We show that classifiers based solely on linguistic features can reliably distinguish AI-generated from human-written text. However, many previously proposed indicators prove strongly context-dependent, with the exception of measures of lexical richness, which remain robust signals across model families and text domains. These results demonstrate which linguistic signals generalize across contexts and provide a foundation for more reliable, interpretable analyses of AI-generated language.
DetectZoo: テキスト、オーディオ、画像モダリティにわたる AI 生成コンテンツ検出のための統合ツールキット
生成モデルの人気と能力の高まりにより、人間が生成したコンテンツと機械が生成したコンテンツの区別がなくなり、テキスト、画像、音声にわたる検出に関する一連の研究が増えています。入手可能な検出器のほとんどは商用ソフトウェアであるか、オープンソースの場合は特注の前処理、評価プロトコル、評価メトリクスを備えた互換性のないコードベースが付属しているため、その採用、公正な比較、再現が非常に困難になっています。この重大なギャップに対処するために、テキスト、オーディオ、画像モダリティにわたる AI 生成コンテンツ検出のための統一インターフェイスを提供するように設計された、この種初の拡張可能なツールキットである DetectZoo を導入します。 DetectZoo は、データの取り込みと前処理からモデルの評価に至るまで、完全な経験的パイプラインを標準化し、最先端の検出器を体系的にベンチマークするための一貫したフレームワークを研究者に提供します。多様な公開データセットとベースライン検出アルゴリズムを単一の統一 API に統合することで、当社のツールキットは厳密で再現可能な評価を容易にします。 DetectZoo は、61 の検出器のリファレンス実装、22 のベンチマーク データセット用のネイティブ ローダー、および共通のインターフェイスを通じて複数のメトリクスを報告する標準化された評価パイプラインを提供します。各検出器は自己完結型ですが、同じインターフェイスからアクセスでき、事前トレーニングされた重みを自動的にキャッシュし、元の公開結果を再現します。 DetectZoo は、マルチモーダル AI フォレンジックの参入障壁を下げ、研究者がドメイン間のパフォーマンスのギャップを特定できるようにし、堅牢で汎用性のある検出技術の開発を加速します。オープンソース リポジトリと包括的なドキュメントは https://github.com/sadjadeb/DetectZoo で公開されており、パッケージは pip install detectzoo 経由でインストールできます。
原文 (English)
DetectZoo: A Unified Toolkit for AI-Generated Content Detection Across Text, Audio, and Image Modalities
The growing popularity and capacity of generative models have eroded the distinction between human and machine-generated content, motivating a growing body of work on detection across text, images, and audio. Most available detectors are either commercial software or, if open-source, come with incompatible codebases with bespoke preprocessing, evaluation protocols, and evaluation metrics, which make their adoption, fair comparison, and reproduction quite difficult. To address this critical gap, we introduce DetectZoo, a first-of-its-kind, extensible toolkit designed to provide a unified interface for AI-generated content detection across text, audio, and image modalities. DetectZoo standardizes the complete empirical pipeline, from data ingestion and preprocessing to model assessment, offering researchers a cohesive framework to benchmark state-of-the-art detectors systematically. By integrating diverse public datasets and baseline detection algorithms under a single, unified API, our toolkit facilitates rigorous and reproducible evaluation. DetectZoo provides reference implementations of 61 detectors, native loaders for 22 benchmark datasets, and a standardized evaluation pipeline that reports multiple metrics through a common interface. Each detector is self-contained yet accessible through the same interface, automatically caches pretrained weights, and reproduces the original published results. DetectZoo lowers the barrier to entry for multi-modal AI forensics, enabling researchers to identify performance gaps across domains and accelerating the development of robust, generalizable detection techniques. The open-source repository and comprehensive documentation are publicly available at https://github.com/sadjadeb/DetectZoo, and the package can be installed via pip install detectzoo.
PerceptTwin: 反復 LLM 計画と検証のためのセマンティック シーンの再構築
シミュレーション環境は、ロボット ポリシーの学習と計画の検証と検証の両方に役立ちます。従来、シミュレーションを作成するプロセスは面倒なものでした。ロボットが動作する個々の環境に合わせてオーダーメイドのシミュレーション環境を作成することは、まったく不可能でした。この研究では、ロボットの認識スタックによって生成されたセマンティック シーン表現から直接インタラクティブ シミュレーションを構築する完全自動パイプラインである PerceptTwin を紹介します。 PerceptTwin は、オープン語彙オブジェクト マップと 3D アセット生成、アフォーダンス予測、および常識的な条件チェックを組み合わせます。これらのインタラクティブなシミュレーションを使用すると、ロボット ハードウェアで実行される前に計画を検証し、改良することができます。 AI 調整の文献から借用して、計画の正確さと人間の好みとの調整を検証する LLM ジャッジも紹介します。実験では、PerceptTwin のフィードバックにより、LLM プランナーが計画を改良し、安全性を強化し、有害なブラックボックス プロンプト攻撃に抵抗できることが示されています。私たちの一連のタスクでは、PerceptTwin により、GPT5、GPT5Mini、および GPT5Nano プランナーの計画の成功率が平均約 39% 向上しました。さらに、PerceptTwin は、スキルの前提条件が満たされていないために失敗した計画について、人間による計画の検証を平均で最大 18% 改善します。私たちの結果は、より安全で信頼性の高いロボット計画の基盤として、ロボットの知覚からのオープンボキャブラリーシーンシミュレーションの可能性を実証しています。
原文 (English)
PerceptTwin: Semantic Scene Reconstruction for Iterative LLM Planning and Verification
Simulation environments are useful for both robot policy learning and planning verification and validation. Traditionally, the process of creating a simulation was onerous. Creating a bespoke simulation environment for each individual environment that a robot would operate in was simply infeasible. In this work, we introduce PerceptTwin, a fully automatic pipeline that constructs interactive simulations directly from semantic scene representations produced by a robot's perception stack. PerceptTwin combines open-vocabulary object maps with 3D asset generation, affordance prediction, and commonsense condition checking. These interactive simulations can be used to validate and refine plans before they are executed on the robot hardware. Borrowing from the AI alignment literature, we also introduce an LLM judge that verifies plan correctness and alignment with human preferences. Experiments show that PerceptTwin feedback allows LLM planners to refine plans, enhance safety, and resist harmful black-box prompting attacks. In our suite of tasks, PerceptTwin improves plan success by an average of approximately 39% for GPT5, GPT5Mini, and GPT5Nano planners. Additionally, PerceptTwin also improves human plan verification by up to 18% on average for plans that fail due to unfilled skill preconditions. Our results demonstrate the potential of open-vocabulary scene simulation from robot perception as a foundation for safer, more reliable robot planning.
MM-BizRAG: 汎用エンタープライズ Q&A 向けのマルチモーダル検索拡張生成の再考
マルチモーダル検索拡張生成 (MM-RAG) の最近の進歩は、最小限の解析に移行し、検索埋め込みの生成と回答の生成にはページレベルの画像に依存しています。この傾向は効率的ではありますが、複雑な企業ドキュメント内の豊富で構造化された情報の明示的な処理を無視することが多く、その代わりに、そのような構造を暗黙的に捕捉する事前トレーニング済みの埋め込みまたはビジョン言語モデルに依存します。この作業では、より直接的なアプローチを採用しています。MM-BizRAG は、方向固有の取り込みパイプラインを通じてドキュメントを動的にルーティングするドキュメント構造認識分割を介してドキュメント構造をプロアクティブに抽出および表現し、垂直方向に構造化されたドキュメント (レポートなど) には明示的なレイアウト認識解析を適用し、水平方向に構造化されたドキュメント (スライド デッキなど) には全体的なページ レベルの表現を適用します。プレースホルダーベースの位置調整を備えた統合された LLM 駆動のアーティファクト変換パイプラインにより、自然な読み取り順序が維持される一方、推論時のマルチモーダル アセンブリにより検索表現が生成コンテキストから切り離され、微調整を必要とせずに、より豊富で根拠のある回答が可能になります。大規模で異種混合のエンタープライズ データセットと 2 つの公開ベンチマーク (SlideVQA および FinRAGBench-V) での実験を通じて、MM-BizRAG は常に最先端のビジョン中心のベースラインを最大 32% ポイント上回るパフォーマンスを示し、特にレポート スタイルのレイアウトで大幅な向上を実現しました。さらに、人間によるより強力な調整を実現しながら、RAGChecker のコストを半減する、きめ細かい生成呼び出しのためのシングルコール LLM ジャッジ メトリクスである FastRAGEval を導入します。
原文 (English)
MM-BizRAG: Rethinking Multimodal Retrieval-Augmented Generation for General Purpose Enterprise Q&A
Recent advances in multimodal retrieval-augmented generation (MM-RAG) have shifted toward minimal parsing, relying on page-level images for producing retriever embeddings and for answer generation. While efficient, this trend often neglects explicit handling of the rich, structured information in complex enterprise documents, instead depending on pre-trained embeddings or vision-language models to implicitly capture such structure. In this work, we take a more direct approach: MM-BizRAG proactively extracts and represents document structure via a document structure-aware split that dynamically routes documents through orientation-specific ingestion pipelines, applying explicit layout-aware parsing for vertically structured documents (e.g., reports) and holistic page-level representations for horizontally structured documents (e.g., slide decks). A unified LLM-driven artifact transformation pipeline with placeholder-based positional alignment preserves natural reading order, while inference-time multimodal assembly decouples retrieval representations from generation context, enabling richer, more grounded answers without any finetuning requirement. Through experiments on a large, heterogeneous enterprise dataset and two public benchmarks (SlideVQA and FinRAGBench-V), MM-BizRAG consistently outperforms state-of-the-art vision-centric baselines by up to 32% points, with especially strong gains on report-style layouts. Furthermore, we introduce FastRAGEval, a single-call LLM Judge metric for fine-grained generative recall that halves RAGChecker's cost while achieving stronger human alignment.
高速拡散言語モデルのデコードをサポートするトークンの公開
離散拡散言語モデルは、複数のマスクされた位置を並行して更新することでテキストを効率的に生成できますが、この並行性により品質と遅延のトレードオフが生じます。積極的なデコードでは相互に依存するトークンのコミットが早すぎる可能性がありますが、保守的なデコードでは多くのノイズ除去手順が必要になります。既存の方法では、信頼性または依存性の基準を使用して、どのトークンを公開しても安全であるかを判断することで、この緊張に対処しています。ただし、安全でないコミットを回避しても、残りのマスクされたシーケンスのデコードが容易になるとは限りません。不確実なトークンがマスクされたトークンに依存し、ノイズ除去ステップのボトルネックになる可能性があるためです。私たちは、拡散言語モデルの既存の並列デコード戦略の上に追加できる、トレーニング不要のモジュールである AXON を提案します。 AXON は、ベース デコーダを置き換えるのではなく、残りの不確実なマスクされたトークンを監視し、現在の状態が追加のコンテキストが必要であることを示唆する場合にのみ介入します。次に、どのトークンを公開するのが最も安全であるかという基準を、どの信頼できる公開が後のノイズ除去を最もよくサポートするかという基準に変更します。 AXON は、注意、不確実性、および信頼性のシグナルを使用して、不確実な位置が注目するアンカー、つまり不確実な位置が注目する自信のあるマスクされたトークンを選択します。複数の拡散言語モデルにわたる推論とコード生成のベンチマークに関する実験では、AXON が既存の並列デコーダーの品質と遅延のトレードオフを改善し、多くの場合、精度を維持または向上させながら関数評価の数を削減することが示されています。
原文 (English)
Supportive Token Revealing for Fast Diffusion Language Model Decoding
Discrete diffusion language models can generate text efficiently by updating multiple masked positions in parallel, but this parallelism introduces a quality-latency trade-off. Aggressive decoding may commit mutually dependent tokens too early, while conservative decoding requires many denoising steps. Existing methods address this tension by deciding which tokens are safe to reveal using confidence or dependency criteria. However, avoiding unsafe commits does not necessarily make the remaining masked sequence easy to decode, since uncertain tokens may depend on masked tokens, creating a bottleneck for denoising steps. We propose AXON, a training-free module that can be added on top of existing parallel decoding strategies for diffusion language models. Rather than replacing the base decoder, AXON monitors the remaining uncertain masked tokens and intervenes only when their current state suggests that additional context is needed. It then shifts the criterion from which tokens are safest to reveal to which confident reveals would best support later denoising. AXON selects anchors, confident masked tokens that uncertain positions attend to, using attention, uncertainty, and confidence signals. Experiments on reasoning and code-generation benchmarks across multiple diffusion language models show that AXON improves the quality-latency trade-off of existing parallel decoders, often reducing the number of function evaluations while maintaining or improving accuracy.
積極的な量子化のための Recover-LoRA: 合成データの知識蒸留による低ランク適応による 2 ビット言語モデルの精度の回復
2 ビット精度への積極的な重み量子化により、大規模言語モデル (LLM) 推論のスループットとメモリが大幅に向上しますが、通常は精度が大幅に低下します。これらの利点は、メモリ容量と帯域幅が主な制約となるエッジおよびオンデバイスの展開に特に関係します。この研究では、Recover-LoRA (もともと一般的なモデル重み破損のために開発された軽量でデータフリーの精度回復手法) を、超低ビット量子化の設定まで拡張します。我々は、MLP のゲートおよびアップ投影層のみが 2 ビット (W2) に量子化され、他のすべての線形層は高精度のままであり、混合精度の GateUp 構成を生成する、選択的な混合精度戦略を提案します。 3 つのモデル ファミリ (4B ~ 20B) と 2 つのハードウェア プラットフォームにわたるルーフライン分析を通じて、W4/W2-GateUp 導入 (4 ビット ベースと 2 ビット ゲート/アップ) が、量子化誤差を予測可能なレイヤーのサブセットに限定しながら、モデルとコンテキストの長さに応じて均一な W4 と比較して 7.5 ~ 23.3% の TPS 向上を実現することを実証します。次に、Recover-LoRA (合成データを使用したロジット蒸留を介して量子化レイヤーで低ランクのアダプターをトレーニング) を適用し、ゲートおよび上位レイヤーの 2 ビット量子化によって失われた精度を回復します。 Qwen3-4B のケーススタディでは、Recover-LoRA は 10,000 個の合成トレーニング サンプルのみを使用し、ラベル付きデータを使用せず、12 ベンチマーク中 9 で 80 ~ 95\% の精度回復を達成しました。さらに、蒸留ベースの回収において合成データが厳選されたラベル付きデータと同等のパフォーマンスを発揮すること、および回収が配布外の評価タスクに一般化されることを実証します。私たちの結果は、Recover-LoRA が、展開設定で積極的な重み圧縮のための実用的な量子化後の精度回復ツールであることを示しています。
原文 (English)
Recover-LoRA for Aggressive Quantization: Reclaiming Accuracy in 2-Bit Language Models via Low-Rank Adaptation with Knowledge Distillation on Synthetic Data
Aggressive weight quantization to 2-bit precision offers substantial throughput and memory gains for large language model (LLM) inference, but typically incurs severe accuracy degradation. These gains are particularly relevant for edge and on-device deployment, where memory capacity and bandwidth are primary constraints. In this work, we extend Recover-LoRA -- a lightweight, data-free accuracy recovery method originally developed for general model weight corruption -- to the setting of ultra-low-bit quantization. We propose a selective mixed-precision strategy in which only gate and up projection layers of the MLP are quantized to 2-bit (W2), while all other linear layers remain at higher precision, yielding a mixed-precision GateUp configuration. We demonstrate via roofline analysis across three model families (4B--20B) and two hardware platforms that a W4/W2-GateUp deployment (4-bit base with 2-bit gate/up) delivers 7.5--23.3\% TPS improvement over uniform W4 depending on model and context length, while confining quantization error to a predictable subset of layers. We then apply Recover-LoRA -- training low-rank adapters on the quantized layers via logit distillation with synthetic data -- to recover accuracy lost from 2-bit quantization of the gate and up layers. In a case study on Qwen3-4B, Recover-LoRA achieves 80--95\% accuracy recovery on 9 of 12 benchmarks, using only 10k synthetic training samples and no labeled data. We further demonstrate that synthetic data performs comparably to curated labeled data for distillation-based recovery, and that recovery generalizes to out-of-distribution evaluation tasks. Our results present Recover-LoRA as a practical post-quantization accuracy recovery tool for aggressive weight compression in deployment settings.
EReL@MIR 2025 マルチモーダル文書検索チャレンジの概要 (トラック 1)
マルチモーダルな検索拡張生成には、視覚的に豊富なドキュメント、つまりテキストと図、表、グラフが挟まれたページの検索が不可欠ですが、ほとんどの検索ツールは依然としてビジュアル チャネルを破棄しています。 Web Conference 2025 と同時開催される第 1 回 EReL@MIR ワークショップの MIR チャレンジの Track~1 である \emph{マルチモーダル文書検索チャレンジ} では、参加者に 2 つの相補的な体制を処理する \emph{単一} 検索システムを構築するよう求めます。テキストクエリ (MMDocIR) からの長い文書内のクローズドセット文書ページの検索と、画像からの Wikipedia スタイルの一節のオープンドメイン検索です。または画像とテキストのクエリ (M2KR)。システムは、2 つのタスクにわたる平均 Recall@$\{1,3,5\}$ のマクロ平均によってランク付けされます。このチャレンジには、22 チームから 455 人の参加者と 586 件の応募が集まりました。このレポートでは、課題の設計、データセット、評価プロトコルについて説明します。最終順位を報告します。そして優勝した3チームのシステムを分析します。 3 つはすべて、CLIP スタイルのエンコーダーではなく、Qwen2-VL ファミリのデコーダーベースの Multimodal-LLM エンベッダーに基づいて構築されており、主に、微調整されたアンサンブル、強力なビジョン言語リランカーによるトレーニング不要のマルチルート フュージョン、またはゼロショット レイト インタラクションを通じてトップに到達するかどうかが異なります。トレーニング不要のシステムは、微調整された勝者の $0.1$ ポイント以内に終了しました。
原文 (English)
Overview of the EReL@MIR 2025 Multimodal Document Retrieval Challenge (Track 1)
Retrieval over visually-rich documents, pages that interleave text with figures, tables, and charts, is essential for multimodal retrieval-augmented generation, yet most retrievers still discard the visual channel. The \emph{Multimodal Document Retrieval Challenge}, Track~1 of the MIR Challenge at the first EReL@MIR workshop, co-located with The Web Conference 2025, asks participants to build a \emph{single} retrieval system that handles two complementary regimes: closed-set document page retrieval within long documents from a text query (MMDocIR), and open-domain retrieval of Wikipedia-style passages from an image or image-plus-text query (M2KR). Systems are ranked by the macro-average of mean Recall@$\{1,3,5\}$ over the two tasks. The challenge drew 455 entrants and 586 submissions across 22 teams. This report describes the challenge design, datasets, and evaluation protocol; reports the final standings; and analyses the three winning teams' systems. All three build on decoder-based Multimodal-LLM embedders from the Qwen2-VL family rather than on CLIP-style encoders, and differ chiefly in whether they reach the top through fine-tuned ensembles, training-free multi-route fusion with a strong vision-language re-ranker, or zero-shot late interaction. The training-free system finished within $0.1$ point of the fine-tuned winner.
もう一度服用してもいいですか? OTC 投薬 QA における時間的不確実性の下での LLM の意思決定の評価
大規模言語モデル (LLM) は、ユーザーが市販薬 (OTC) を安全にもう 1 回服用できるかどうかなど、日常の健康に関する質問にますます使用されています。しかし、この一般的な安全関連の設定は、既存の医療 QA 評価では依然として十分に検討されていません。そこでは、正しい回答には、投与タイミングの追跡、24 時間のローリング摂取量の計算、製品ラベルの制約への準拠、および不完全な薬歴の処理が必要です。成人のアセトアミノフェンとイブプロフェンの使用に焦点を当てた、厳選された 81 の OTC 投与シナリオの焦点を絞ったベンチマークである DOSEBENCH を、手動で注釈が付けられたゴールド参照とともに紹介します。決定の正確さ、一貫性、説明の検証可能性、失敗の種類、信頼性に関連する信号のメトリクスを使用して、繰り返し実行される 4 つの LLM を評価し、1,620 個のモデル応答が得られます。私たちの結果は、モデルがローリングウィンドウ推論や曖昧さに敏感なケースに頻繁に苦戦すること、そして安定した応答や自信を持って見える応答が依然として投与制約に違反する可能性があることを示しています。これらの発見は、OTC 投与 QA が、医療 QA における時間的推論、制約追従、および安全関連の不確実性の処理を評価するための、狭いながらも実用的なテストベッドを提供することを示唆しています。
原文 (English)
Can I Take Another Dose? Evaluating LLM Decision-Making Under Temporal Uncertainty in OTC Dosing QA
Large language models (LLMs) are increasingly used for everyday health questions, including whether a user can safely take another dose of an over-the-counter (OTC) medication. Yet this common safety-relevant setting remains underexplored in existing medical QA evaluations, where correct answers require tracking dose timing, computing rolling 24-hour intake, following product-label constraints, and handling incomplete medication histories. We introduce DOSEBENCH, a focused benchmark of 81 curated OTC dosing scenarios focused on adult acetaminophen and ibuprofen use, with manually annotated gold references. We evaluate four LLMs across repeated runs using metrics for decision correctness, consistency, explanation verifiability, failure types, and confidence-related signals, resulting in 1,620 model responses. Our results show that models frequently struggle with rolling-window reasoning and ambiguity-sensitive cases and that stable or confident-looking responses can still violate dosing constraints. These findings suggest that OTC dosing QA provides a narrow yet practical testbed for evaluating temporal reasoning, constraint following, and safety-relevant uncertainty handling in medical QA.
専門家の混合がまばらな報酬モデル
プリファレンス モデリングは、ヒューマン フィードバックからの強化学習 (RLHF) において中心的な役割を果たし、大規模言語モデル (LLM) を人間の価値観に合わせることを可能にします。しかし、既存のアプローチのほとんどは普遍的な報酬関数を前提としており、人間の好みの多様性と異質性を無視しています。追加のアノテーションコストをかけずにこの制限に対処するために、最近の研究では、バイナリデータから複数のプリファレンスコンポーネントを学習し、それらを組み合わせて個々のプリファレンスをモデル化することが提案されています。それにも関わらず、これらのコンポーネントは、一貫性のある解きほぐされたパターンをキャプチャできないことが多く、解釈可能性やパーソナライゼーションの有効性が制限されます。この研究では、バイナリ嗜好データのトレーニング中に疎なルーティングと専門家の多様性を促進する疎な専門家混合 (MoE) 報酬モデルを提案します。制御された実験と実際の実験を通じて、まばらな MoE は解釈可能なルーティング パターンと専門の専門家を学習します。また、テスト時のパーソナライゼーションも改善され、適応後のエキスパートの重みの変化により、モデルがパーソナライズされた好みにどのように適応するかを分析するための定性的なレンズが提供されます。
原文 (English)
Sparse Mixture-of-Experts Reward Models Learn Interpretable and Specialized Experts for Personalized Preference Modeling
Preference modeling plays a central role in reinforcement learning from human feedback (RLHF), enabling large language models (LLMs) to align with human values. However, most existing approaches assume a universal reward function, neglecting the diversity and heterogeneity of human preferences. To address this limitation without additional annotation costs, recent work has proposed learning multiple preference components from binary data and combining them to model individual preferences. Nevertheless, these components often fail to capture coherent and disentangled patterns, limiting their interpretability and effectiveness for personalization. In this work, we propose a sparse Mixture-of-Experts (MoE) reward model that encourages sparse routing and expert diversity during training on binary preference data. Across controlled and real-world experiments, sparse MoE learns interpretable routing patterns and specialized experts. It also improves test-time personalization, and post-adaptation shifts in expert weights provide a qualitative lens for analyzing how the model adapts to personalized preferences.
即時決定トランスフォーマーを使用したワイヤレス ネットワークの一般化可能なマルチタスク学習
将来のワイヤレス ネットワークでは、非常に異質な環境と動的なタスク構成への迅速な適応が求められており、従来のルールベースで最適化主導の無線リソース管理 (RRM) から人工知能 (AI) 主導の RRM への移行が必要です。 AI 主導のアプローチは、複雑な非線形関係を学習し、多様なネットワーク条件全体に一般化して、リアルタイムでスケーラブルな自律的な意思決定を可能にします。 RRM 技術の中でも、多地点協調(CoMP)送信はセル間干渉を軽減し、セルエッジのパフォーマンスを向上させるために極めて重要であり、それによって高密度展開における体験品質(QoE)が向上します。ただし、最適なマルチセルの選択は、動的なトラフィックとチャネル条件の下で、考えられる多くのサービングセルの組み合わせを共同で最適化する必要があるため、依然として複雑な組み合わせの課題です。成功にもかかわらず、近接ポリシー最適化 (PPO) などの従来の深層強化学習 (DRL) 手法は、サンプル効率が低く、汎化が限られており、状態空間とアクション空間が変化した場合に再学習にコストがかかるという問題があります。これらのボトルネックに対処するために、多様なネットワーク構成にわたって学習し、シーケンス モデリング問題としてマルチセルの選択を再定式化できる、Prompt Decision Transformer (PromptDT) ベースのマルチタスク学習フレームワークを提案します。 PromptDT は、オフライン トラジェクトリとタスク固有のプロンプトを活用することで、さまざまな基地局やユーザー機器の数、スケジューラ ポリシーなど、さまざまなネットワーク構成にわたってスケーラブルな学習を可能にします。実験結果は、PromptDT がベースラインと比較してマルチタスク設定で QoE を最大 49% 向上させ、モデルの容量に合わせてパフォーマンスがプラスに拡張することを示しています。さらに、PromptDT は目に見えないタスクを効果的に一般化し、再トレーニングや微調整を行わずに、新しいネットワーク構成への堅牢な少数ショットの適応を実現します。
原文 (English)
Generalizable Multi-Task Learning for Wireless Networks Using Prompt Decision Transformers
Future wireless networks demand rapid adaptation to highly heterogeneous environments and dynamic task configurations, necessitating a shift from conventional rule-based and optimization-driven radio resource management (RRM) toward artificial intelligence (AI)-driven RRM. AI-driven approaches can learn complex nonlinear relationships, generalize across diverse network conditions and enable real-time, scalable and autonomous decision-making. Among RRM techniques, coordinated multipoint (CoMP) transmission is pivotal for mitigating inter-cell interference and enhancing cell-edge performance, thereby improving quality of experience (QoE) in dense deployments. However, optimal multi-cell selection remains a complex combinatorial challenge as it requires jointly optimizing over many possible serving-cell combinations under dynamic traffic and channel conditions. Despite their success, conventional deep reinforcement learning (DRL) methods such as proximal policy optimization (PPO) suffer from poor sample efficiency, limited generalization, and costly retraining when state and action spaces change. To address these bottlenecks, we propose a Prompt Decision Transformer (PromptDT) based multi-task learning framework capable of learning across diverse network configurations and reformulating multi-cell selection as a sequence modeling problem. By leveraging offline trajectories and task-specific prompts, PromptDT enables scalable learning across diverse network configurations, including varying base stations and user equipment counts, and scheduler policies. Experimental results demonstrate that PromptDT improves QoE by up to 49% in multi-task settings compared to baselines, with performance scaling positively alongside model capacity. Moreover, PromptDT generalizes effectively to unseen tasks, achieving robust few-shot adaptation to new network configurations without retraining or fine-tuning.
信頼できない入力から信頼できるメモリへ: LLM エージェントにおけるメモリポイズニング攻撃の系統的研究
メモリは AI エージェントの中核コンポーネントであり、AI エージェントがインタラクションを通じて知識を蓄積し、パフォーマンスを向上させることができます。ただし、永続メモリにはメモリ ポイズニングのリスクが伴います。メモリ ポイズニングの場合、敵対的な 1 回のメモリ書き込みがエージェントの動作に長期的な影響を与える可能性があります。我々は、LLM ベースのエージェントにおけるメモリポイズニングの体系的な研究を紹介します。 4 つのメモリ書き込みチャネルと、これらのチャネルを悪用可能にするモデル機能、システム プロンプト設計、およびエージェント システム アーキテクチャにおける 9 つの構造的脆弱性を特定しました。これらの脆弱性に基づいて、メモリポイズニング攻撃の 6 つのクラスの分類を作成します。さらに、メモリポイズニング攻撃を評価するためのベンチマークである MPBench を設計し、より積極的にメモリの書き込みと取得を行うように設計されたエージェントが悪用されやすいことを示します。また、既存のプロンプト インジェクション防御ではメモリ ポイズニング攻撃をカバーできないことも示します。私たちの調査結果は、AI エージェントに対するメモリ ポイズニング攻撃を理解し、軽減するための基盤を提供します。
原文 (English)
From Untrusted Input to Trusted Memory: A Systematic Study of Memory Poisoning Attacks in LLM Agents
Memory is a core component of AI agents, enabling them to accumulate knowledge across interactions and improve performance. However, persistent memory introduces the risk of memory poisoning, where a single adversarial memory write can exert long-term influence over agent behavior. We present a systematic study of memory poisoning in LLM-based agents. We identify four memory write channels and nine structural vulnerabilities in model capabilities, system prompt design, and agent system architecture that make these channels exploitable. Based on these vulnerabilities, we develop a taxonomy of six classes of memory poisoning attacks. Furthermore, we design MPBench -- a benchmark for evaluating memory poisoning attacks, and show that agents designed to write and retrieve memory more aggressively are more exploitable. We also show that existing prompt injection defenses fail to cover memory poisoning attacks. Our findings provide a foundation for understanding and mitigating memory poisoning attacks against AI agents.
MorphoQuant: オムニモーダル大規模言語モデル向けのモダリティを意識した量子化
従来のポストトレーニング量子化 (PTQ) 手法は、極端な分布の不均一性とモダリティ間の異種の外れ値パターンにより、4 ビットのオムニモーダル大規模言語モデル (OLLM) に苦戦します。これに対処するために、クロスモーダル形態を保存し、外れ値の損失を軽減するように設計されたモダリティ認識 PTQ フレームワークである MorphoQuant を提案します。具体的には、ロングテールの外れ値をチャネルごとのバイアスに選択的に吸収する、Distribution-Aware Bias Compensation (DABC) を導入します。このメカニズムは、密なインライアの高精度の離散化を維持しながら外れ値の大きさを保護し、それによって多様なモード分布にわたって正確な離散化を維持します。これを補完するために、量子化グリッドとバイアス マスクを同時に最適化し、モダリティ全体でのきめ細かい調整を保証する形態指向量子化関数最適化 (MDQFO) を提案します。 MMMU や Video-MME などのベンチマークにわたる Qwen2.5-Omni の広範な評価により、私たちのアプローチの優位性が実証されています。特に、当社の W4A4 モデルは ScienceQA で 76.63% を達成し、SOTA W4A4 メソッドを大幅に上回り、驚くべきことに W4A16 ベースラインを上回っています。これは、当社のフレームワークの並外れた精度と効率のトレードオフを十分に示しています。
原文 (English)
MorphoQuant: Modality-Aware Quantization for Omni-modal Large Language Models
Conventional Post-Training Quantization (PTQ) methods struggle with 4-bit Omni-modal Large Language Models (OLLMs) due to the extreme distribution heterogeneity and disparate outlier patterns across modalities. To address this, we propose MorphoQuant, a modality-aware PTQ framework engineered to preserve cross-modal morphology and mitigate outlier loss. Specifically, we introduce Distribution-Aware Bias Compensation (DABC), which selectively absorbs long-tailed outliers into channel-wise biases. This mechanism safeguards outlier magnitudes while maintaining high-precision discretization for dense inliers, thereby preserving accurate discretization across diverse modal distribution. Complementing this, we propose Morphology-Directed Quantization Function Optimization (MDQFO) to co-optimize the quantization grid with the bias mask, ensuring fine-grained alignment across modalities. Extensive evaluations on Qwen2.5-Omni across benchmarks like MMMU and Video-MME demonstrate our approach's superiority. Notably, our W4A4 model achieves 76.63% on ScienceQA, significantly outperforming SOTA W4A4 methods and surprisingly surpassing the W4A16 baseline, which fully demonstrates the exceptional accuracy-efficiency trade-off of our framework.
記号から幾何へ: 大規模な言語モデルで空間推論を可能にする
最近の大規模言語モデル (LLM) は、空間推論能力を示すことが多いようです。ただし、この機能は主に \emph{象徴的} なものであり、空間に関する真の \emph{幾何学的} 推論ではなく、空間言語によるパターン マッチングから生じています。 LLM は離散トークンで動作するため、連続空間表現、明示的な幾何学的計算、および構造化空間演算子のネイティブ サポートが不足しています。この制限に対処するために、\emph{空間言語モデル (SLM)} を導入しました。これは位置情報を第一級のモダリティとして扱い、モデルの推論プロセス内で幾何学的空間推論を可能にする初のマルチモーダル LLM です。 SLM は、空間関係のテキスト記述ではなく、学習された空間表現に直接作用します。効果的なトレーニングをサポートするために、空間表現、アトミックな幾何学的操作、自然言語命令を調整する \emph{空間命令データセット} を構築します。さらに、\emph{SpatialEval} という名前の新しいベンチマークを提案します。これは、属性、距離、トポロジー、および相対位置タスクにわたる空間推論を評価するように設計されています。広範な実験により、SLM は、プロンプト エンジニアリングやテキスト抽象化による記号推論に依存する既存の LLM ベースのアプローチよりも大幅に優れていることが示されており、堅牢な空間推論のために幾何学的空間表現を統合する利点が実証されています。命令データセット、評価ベンチマーク、モデル トレーニング コード、モデルのチェックポイントは、\hyperlink{https://github.com/chuchen2017/SLM}{https://github.com/chuchen2017/SLM} にあります。
原文 (English)
From Symbolic to Geometric: Enabling Spatial Reasoning in Large Language Models
Recent large language models (LLMs) often appear to exhibit spatial reasoning ability; however, this capability is largely \emph{symbolic}, arising from pattern matching over spatial language rather than true \emph{geometric} reasoning over space. Because LLMs operate on discrete tokens, they lack native support for continuous spatial representations, explicit geometric computation, and structured spatial operators. To address this limitation, we introduce the \emph{Spatial Language Model (SLM)}, the first multimodal LLM that treats location information as a first-class modality and enables geometric spatial reasoning within the model's inference process. SLM directly operates on learned spatial representations rather than textual descriptions of spatial relations. To support effective training, we construct a \emph{Spatial Instruction Dataset} that aligns spatial representations, atomic geometric operations, and natural language instructions. We further propose a new benchmark named \emph{SpatialEval}, which is designed to evaluate spatial reasoning across attributes, distance, topology, and relative-position tasks. Extensive experiments show that SLM significantly outperforms existing LLM-based approaches that rely on symbolic reasoning via prompt engineering or textual abstraction, demonstrating the benefits of integrating geometric spatial representations for robust spatial reasoning. Our instruction dataset, evaluation benchmark, model training codes, and models' checkpoints can be found at: \hyperlink{https://github.com/chuchen2017/SLM}{https://github.com/chuchen2017/SLM}.
LLM ベースの階層的優先順位付けによる営業リードのスコアリングの再考
一か八かの分野 (自動車、不動産など) でのセールスリードの変換は、長期にわたる意思決定サイクルと多段階の目標到達プロセスにより、電子商取引の推奨とは根本的に異なります。従来のリード スコアリング方法のルールベースのスコアカード、機械学習、またはポイントごとの CTR モデルは、監督の希薄さ、非構造化 CRM ログのセマンティック ギャップ、相対的なリードの優先度を把握できないなどの深刻な課題に直面しています。大規模言語モデル (LLM) は顧客との対話の優れた意味的理解を提供しますが、汎用 LLM はリードのランキングには適していません。比較可能なスコアではなくテキストを生成し、セールス ファネルの階層的な優先順位との整合性が欠けています。セールスリードスコアリングのための LLM ベースの識別フレームワークを導入します。これは、構造化された CRM 機能と非構造化された顧客インタラクションの共同モデリングをサポートします。このフレームワークに加えて、HPRO (階層的嗜好ランキング最適化) を提案します。これは、階層的な嗜好ランキングの目標によってセールス リードのスコアリングを強化します。 HPRO は、マージンを意識した Bradley-Terry 定式化を採用して、まばらなバイナリ ラベルを高密度でファネルを意識したプリファレンス ペアに変換し、ポイント単位とペア単位の両方の監視を活用したリード スコアリングを可能にします。大手NEVブランドからの大規模データを用いた実験では、最先端の分類(AUC 0.8161)とランキングパフォーマンス(トップランクのリード間で精度+39.7%)が実証されました。 132 日間のオンライン A/B テストにより、販売量が 9.5% 増加したことが検証され、現実世界の商業的影響が確認されました。
原文 (English)
Rethinking Sales Lead Scoring with LLM-based Hierarchical Preference Ranking
Sales lead conversion in high-stakes domains (e.g., automotive, real estate) differs fundamentally from e-commerce recommendation due to prolonged decision cycles and multi-stage funnels. Traditional lead scoring methods rule-based scorecards, machine learning, or pointwise CTR models face severe challenges: sparse supervision, a semantic gap in unstructured CRM logs, and inability to capture relative lead priority. While Large Language Models(LLMs) offer superior semantic understanding of customer interactions, general-purpose LLMs are ill-suited for lead ranking: they generate text rather than comparable scores, and lack alignment with the hierarchical priorities of sales funnels. We introduce an LLM-based discriminative framework for sales lead scoring, which supports joint modeling of structured CRM features and unstructured customer interactions. On top of this framework, we propose HPRO (Hierarchical Preference Ranking Optimization), which augments sales lead scoring with a hierarchical preference ranking objective. HPRO employs a margin-aware Bradley-Terry formulation to transform sparse binary labels into dense, funnel-aware preference pairs, enabling lead scoring to leverage both pointwise and pairwise supervision. Experiments on large-scale data from a leading NEV brand demonstrate state-of-the-art classification (AUC 0.8161) and ranking performance (+39.7% precision among top-ranked leads). A 132-day online A/B test validates 9.5% sales volume uplift, confirming real-world commercial impact.
即時注射が忘れられなかったらどうなるでしょうか?エージェントシステムでのクロスセッションストアドプロンプトインジェクションの探索
最新のエージェント システムは、LLM をセッション限定のアシスタントからステートフル システムに変換します。ステートフル システムは、メモリ、ファイル システム、ツール、およびその他の長期間存続するコンテキスト アーティファクトを通じて、セッション間で共有世界状態を永続化および進化させます。この変化により、プロンプト インジェクションの攻撃対象領域が根本的に拡大します。しかし、プロンプト インジェクションに関するこれまでの研究は主に単一セッション内のモデル レベルの脅威に焦点を当てており、セッション間の永続的なシステム状態がエージェント システムのシステム レベルのリスクをどのように根本的に変化させるかを見落としていました。 Web システムのストアド クロスサイト スクリプティングにヒントを得て、クロスセッション ストアド プロンプト インジェクションを導入しました。これにより、成功したインジェクションはエージェント システム状態内で持続し、元の攻撃者による対話が終了した後も長期間にわたって将来の実行に静かに影響を与えることができます。この脅威を体系的に研究するために、ストアド プロンプト インジェクションを形式化し、敵対的なコンテンツがどのようにセッション間で持続し、エージェント システムに影響を与えるかの分類を開発します。さらに、ストアド プロンプト インジェクションのリスクを評価するためのベンチマークとサンドボックス ツールキットを開発し、さまざまなモデル、攻撃目標、永続化チャネルにわたる攻撃の成功の定量的分析を可能にします。私たちの調査結果は、永続化により、プロンプト インジェクションが一時的なモデル レベルの脅威から、エージェントの実行状態に組み込まれた長期にわたるシステム レベルの脆弱性に変化することが強調されています。私たちは、この取り組みがこの新たな脅威に対する幅広い注目を集め、コミュニティがエージェント システムの存続によって生じるシステム リスクを体系的に調査して軽減するよう促すことを願っています。
原文 (English)
What If Prompt Injection Never Left? Exploring Cross-Session Stored Prompt Injection in Agentic Systems
Modern agentic systems transform LLMs from session-bounded assistants into stateful systems that persist and evolve shared world state across sessions through memories, filesystems, tools, and other long-lived contextual artifacts. This shift fundamentally expands the attack surface of prompt injection. However, prior works on prompt injection have largely focused on model-level threats within a single session, overlooking how cross-session persistent system state fundamentally changes the system-level risk of agentic systems. Inspired by stored cross-site scripting in web systems, we introduce cross-session stored prompt injection, where a successful injection can persist within agentic system state and silently influence future executions long after the original attacker interaction has ended. To systematically study this threat, we formalize stored prompt injection and develop a taxonomy of how adversarial content persists and affects agentic systems across sessions. We further develop a benchmark and sandbox toolkit to evaluate the risks of stored prompt injection, enabling quantitative analysis of attack success across different models, attack goals, and persistence channels. Our findings highlight that persistence transforms prompt injection from an ephemeral model-level threat into a long-lived system-level vulnerability embedded within agent execution state. We hope this work draws broader attention to this emerging threat and motivates the community to systematically study and mitigate system risks arising from persistence in agentic systems.
MemoryDocDataSet: 共同会話記憶と長い文書推論のベンチマーク
AI システムでは、複数セッションの会話履歴のナビゲートと、長い文書内の深い読解の実行という 2 つの要求の厳しい機能を組み合わせる必要がますます高まっています。しかし、両方を同時に評価する既存のベンチマークはありません。 50 のマイクロワールドと 1,000 の QA ペアの合成ベンチマークである MemoryDocDataSet を紹介します。各インスタンスは 3 ~ 5 人のペルソナ、数か月にわたるアクティビティにわたる時間イベント グラフ、3 ~ 5 の実際の長い文書 (それぞれ Caselaw Access Project から調達された 20,000 ~ 50,000 のトークン)、それらの文書に基づくマルチセッションの会話、および 5 つの推論カテゴリにわたる 20 の質問と回答のペアで構成されます。特徴的な機能はハイブリッド ソース タグです。質問では、システムが最初に会話履歴をナビゲートして関連する文書を特定し、次にその文書内から回答を抽出する必要があります。ハイブリッド質問はデータセットの 75.1% を占めます。データセットの品質は、LLM を判定として使用するプロンプト感度自己一貫性分析によって特徴付けられ、50 のミクロ世界すべてで中央値のコーエンの $\kappa = 0.634$ が得られます。トランケートされたコンテキスト、ロングコンテキスト LLM、検索拡張世代 (RAG)、およびメモリ システムにわたる 6 つのベースライン構成を評価します。最良のベースライン (RAG-両方) は、F1 全体で 0.358、ハイブリッドで 0.342 を達成します。文書のみの検索 (RAG-Doc) は、文書のみの質問で 0.453 を達成したにもかかわらず、ハイブリッドでは 0.267 に落ち込んでいます。これは、共同検索の明らかなギャップを示しており、これが会話の記憶と長い文書のナビゲーションを統合するアーキテクチャを動機づけています。データセット、生成パイプライン、およびすべてのベースライン実装をリリースします。
原文 (English)
MemoryDocDataSet: A Benchmark for Joint Conversational Memory and Long Document Reasoning
AI systems increasingly need to combine two demanding capabilities: navigating multi-session conversation history and performing deep reading comprehension within long documents. Yet no existing benchmark evaluates both simultaneously. We introduce MemoryDocDataSet, a synthetic benchmark of 50 micro-worlds and 1,000 QA pairs in which each instance comprises 3-5 personas, a temporal event graph spanning months of activity, 3-5 real long documents (20,000-50,000 tokens each sourced from the Caselaw Access Project), multi-session conversations grounded on those documents, and 20 question-answer pairs across five reasoning categories. The defining feature is the Hybrid source tag: questions requiring a system to first navigate conversation history to identify which document is relevant, then extract the answer from within that document. Hybrid questions account for 75.1% of the dataset. Dataset quality is characterised through a prompt-sensitivity self-consistency analysis using LLM-as-judge, yielding a median Cohen's $\kappa = 0.634$ across all 50 micro-worlds. We evaluate six baseline configurations spanning truncated context, long-context LLMs, retrieval-augmented generation (RAG), and memory systems. The best baseline (RAG-Both) achieves 0.358 overall F1 and 0.342 on Hybrid. Document-only retrieval (RAG-Doc) collapses to 0.267 on Hybrid despite achieving 0.453 on Doc-only questions, demonstrating a clear joint-retrieval gap that motivates architectures unifying conversational memory with long-document navigation. We release the dataset, generation pipeline, and all baseline implementations.
トークンランキングは偽造不可能な言語モデル署名です
言語モデルのパラメータは、ロジット出力に(各モデルに)一意の幾何学的制約を課すことが知られており、これはモデルを識別する署名として機能しますが、API がロジットを配布するときにモデルの最終層パラメータも漏洩します。私たちは、トークンのランキング (確率値ではなく、確率による順序付け) を公開する、より制限的な API を調査し、ランキングも署名を構成することを発見しました。すべてのモデルは、十分な規模の $k$ に対して実行可能な上位 $k$ ランキングの独自のセットを持っています。さらに、同じ実行可能なランキングのセットを持つモデルを見つけることは NP 困難であるため、ランキング署名は最初に知られている (多項式的に) 偽造不可能な署名です。セキュリティの面では、ロジットと同様に、トークンのランキングがすでにモデルの最終層をほぼ盗むのに十分であることがわかりました。ただし、近似が粗すぎて署名を偽造できず、API を十分に小さい $k$ の上位 $k$ トークンに制限することで効果的に対抗できます。モデル署名を提示するために必要な $k$ は一般に、盗用を防ぐために必要な $k$ よりも小さいため、API はモデル パラメーターを漏らすことなく偽造不可能な署名を提示することが可能です。
原文 (English)
Token Rankings are Unforgeable Language Model Signatures
Language model parameters are known to impose unique (to each model) geometric constraints on their logit outputs, which serves as a signature that identifies the model, but also leaks the model's final layer parameters when an API distributes logits. We investigate more restrictive APIs that expose token rankings (i.e., their ordering by probability, but not the probability values) and find that rankings also constitute a signature: every model has a unique set of feasible top-$k$ rankings for sufficiently large $k$. Furthermore, the ranking signature is the first known (polynomially) unforgeable signature, since finding a model with the same set of feasible rankings is NP-hard. On the security front, we find that token rankings are already sufficient to approximately steal the final layer of the model, similar to logits, though the approximation is too coarse to forge the signature, and can be effectively countered by restricting the API to top-$k$ tokens with sufficiently small $k$. Since the top-$k$ required to present the model signature is generally smaller than the $k$ required to prevent stealing, it is possible for an API to present an unforgeable signature without leaking model parameters.
SePO: システム プロンプト最適化のための自己進化型プロンプト エージェント
システム プロンプトの最適化により、基礎となるモデルを変更することなくエージェントの動作が改善され、人間が判読できる、モデルに依存しない命令が生成されます。既存の方法では、タスク エージェントのシステム プロンプトを改良するプロンプト エージェントを構築しますが、プロンプト エージェント独自のシステム プロンプトは手動で設計および修正されたままになります。我々は、プロンプト エージェント自身のシステム プロンプトをタスク エージェントのシステム プロンプトと並んで最適化ターゲットとして扱う自己進化型プロンプト最適化 (SePO) を提案します。 SePO は自己参照設計を採用しています。単一のプロンプト エージェントは、候補プロンプトのアーカイブを踏み台として維持するオープンエンドの進化的探索の下で、タスク エージェントのシステム プロンプトとそれ自身のプロンプトの両方を改善します。トレーニングは 2 つの段階で進行します。事前トレーニングではマルチタスク プール上でプロンプト エージェントを進化させ、その後、微調整によってそれをターゲット タスクに適用します。数学 (AIME'25)、抽象推論 (ARC-AGI-1)、大学院レベルの科学 (GPQA)、コード生成 (MBPP)、および論理パズル (数独) にわたる 5 つのベンチマークにわたって、SePO は一貫して Manual-CoT、TextGrad、および MetaSPO を上回り、Manual-CoT と比較して平均精度が 4.49 ポイント向上しました。事前トレーニングによるプロンプト最適化スキルは、タスクごとのプロンプトを記憶するのではなく、事前トレーニング混合物を超えたタスクにも一般化されます。
原文 (English)
SePO: Self-Evolving Prompt Agent for System Prompt Optimization
System prompt optimization improves agent behavior without modifying the underlying model, yielding human-readable, model-agnostic instructions. Existing methods build a prompt agent that refines task agents' system prompts, yet leave the prompt agent's own system prompt hand-engineered and fixed. We propose Self-Evolving Prompt Optimization (SePO), which treats the prompt agent's own system prompt as an optimization target alongside task agents' system prompts. SePO adopts a self-referential design. A single prompt agent improves both task agents' system prompts and its own under an open-ended evolutionary search that maintains an archive of candidate prompts as stepping stones. Training proceeds in two stages: pre-training evolves the prompt agent on a multi-task pool, and fine-tuning then applies it to a target task. Across five benchmarks spanning math (AIME'25), abstract reasoning (ARC-AGI-1), graduate-level science (GPQA), code generation (MBPP), and logic puzzles (Sudoku), SePO consistently outperforms Manual-CoT, TextGrad, and MetaSPO, improving the average accuracy by 4.49 points compared to Manual-CoT. The prompt optimization skill from pre-training also generalizes to tasks beyond the pre-training mixture, rather than memorizing per-task prompts.
ビジュアルテキスト生成における推論の忠実度の評価
最近の Text-to-Image (T2I) モデルは、画像内で非常に読みやすく、適切に構造化されたテキストをレンダリングできるため、ドキュメント生成やスライド生成などのアプリケーションが可能になります。しかし、複雑な解決策をレンダリングされたテキストを通じて直接表現しなければならない場合に、そのようなシステムが推論能力を忠実に保持しているのか、それとも単に表面レベルのパターンを模倣しているだけなのかは不明のままです。モデルは完全な推論プロセスを画像として表現する必要があるビジュアル テキスト生成における推論の忠実度を評価することで、この問題を調査します。私たちの評価には、長いテキストのレンダリング、事実知識の調査、文脈の理解、および複数ステップの推論が含まれます。これらの設定全体にわたって、現在の T2I モデルでは、レンダリングされたテキストが視覚的に明確に見える場合でも、セマンティック エラー、論理的矛盾、不正確な中間ステップが頻繁に発生することがわかりました。これらの失敗は、同じタスクに対するテキストのみのモデルの強力な推論パフォーマンスとは対照的です。私たちの調査結果は、ビジュアルテキスト生成と手続き型推論の間に大きなギャップがあることを明らかにし、より信頼性の高いビジュアルテキスト推論を動機付けています。
原文 (English)
Evaluating Reasoning Fidelity in Visual Text Generation
Recent text-to-image (T2I) models can render highly legible and well-structured text within images, enabling applications including document generation and slide generation. However, it remains unclear whether such systems faithfully preserve reasoning ability when complex solutions must be expressed directly through rendered text, or whether they merely imitate surface-level patterns. We investigate this question by evaluating reasoning fidelity in visual text generation, where models must express complete reasoning processes as images. Our evaluation includes long text rendering, factual knowledge probing, context understanding, and multi-step reasoning. Across these settings, we find that current T2I models frequently produce semantic errors, logical inconsistencies, and incorrect intermediate steps, even when the rendered text appears visually clear. These failures contrast with the strong reasoning performance of text-only models on the same tasks. Our findings reveal a substantial gap between visual text generation and procedural reasoning, motivating more reliable visual text reasoning.
共同生成と評価による自己進化する深層研究
大規模言語モデル (LLM) は日常のアプリケーションでますます採用されるようになり、詳細な研究が特に重要な機能として際立っています。従来の質問応答 (QA) タスクとは異なり、詳細な調査レポートの生成には決定的な根拠が欠けているため、報酬設計が本質的に検証不可能になり、効果的な強化学習が制限されます。既存のアプローチでは、LLM-as-a-judge およびクエリ依存の評価ルーブリックを使用してこの課題を軽減していますが、依然として静的な評価器に依存しているため、ソルバーの向上に応じて標準を適応させることができず、最適化圧力が不十分になり、最終的に飽和状態になってしまいます。私たちは、\textbf{s}elf 進化型 \textbf{co} 進化型トレーニング フレームワークで、深い \textbf{re} 検索の評価と生成 (SCORE) を使用してこの制限に対処します。これは、共有パラメータ学習プロセスにおいて評価器とソルバーを緊密に結合します。生成と評価を独立したモジュールとして扱うのではなく、それらの本質的なつながりを活用して、単一の共有パラメーター モデル内で共同の改善を可能にします。このプロセスを制限するために、ソルバーのパフォーマンスに基づいて評価環境を動的に制御するメタハーネスを導入し、有効な評価次元と十分に深い評価者の検索を促進します。ディープリサーチベンチマークに関する広範な実験により、レポート生成の品質が一貫して向上していることが実証されており、評価と生成を共進化させることが、オープンエンドのリサーチエージェントをトレーニングするための有望な方向性であることが示されています。
原文 (English)
Self-Evolving Deep Research via Joint Generation and Evaluation
Large Language Models (LLMs) have become increasingly adopted in daily applications, with deep research standing out as a particularly important capability. Unlike traditional question-answering (QA) tasks, deep research report generation lacks definitive ground-truth, making reward design inherently unverifiable and limiting effective reinforcement learning. Existing approaches mitigate this challenge with LLM-as-a-judge and query-dependent evaluation rubrics, but they still rely on static evaluators that cannot adapt their standards as the solver improves, leading to insufficient and eventually saturated optimization pressure. We address this limitation with a \textbf{s}elf-evolving \textbf{co}-evolutionary training framework for deep \textbf{re}search evaluation and generation (SCORE), which tightly couples an evaluator and a solver in a shared-parameter learning process. Rather than treating generation and evaluation as isolated modules, we leverage their intrinsic connection to enable joint improvement within a single shared-parameter model. To restrict this process, we introduce a meta-harness, which dynamically controls the evaluation environment based on solver performance, encouraging valid evaluation dimensions and sufficiently deep evaluator search. Extensive experiments on deep research benchmarks demonstrate consistent improvement in report generation quality, showing that co-evolving evaluation and generation is a promising direction for training open-ended research agents.
GeoMin: 幾何分布モデリングによるデータ効率の高い半教師あり RLVR
検証可能な報酬を伴う強化学習 (RLVR) は LLM 推論を大幅に進歩させますが、ジレンマに直面しています。標準的な教師ありスケーリングは高いアノテーション コストによって抑制される一方、教師なしの代替案は深刻なモデル崩壊に悩まされます。最近の半教師あり RLVR 手法は、小さなラベル付きセットを使用してラベルなしデータをガイドすることでこの問題に対処し、トレーニングの有効性とアノテーション コストの間で有望なトレードオフを実現しています。ただし、粗いパフォーマンスのヒューリスティックに依存するため、データ効率の深刻なボトルネックに悩まされており、貴重なインスタンスの大部分が十分に活用されていません。この目的を達成するために、ラベル付きデータのグローバルな特徴分布をモデル化して正しいロールアウトと間違ったロールアウトの間の構造的不一致を解読する GeoMin を提案します。これにより、自己報酬信号の信頼性を評価し、ラベルなしデータの可能性を完全に引き出すための堅牢な事前検証を確立します。経験的に、GeoMin は最も強力なベースラインを +4.1% 上回るパフォーマンスを示し、注釈が 10% しかない完全教師モデルをも上回り、顕著なデータ効率を示しています。
原文 (English)
GeoMin: Data-Efficient Semi-Supervised RLVR via Geometric Distribution Modeling
Reinforcement learning with verifiable rewards (RLVR) significantly advances LLM reasoning, yet it faces a dilemma: standard supervised scaling is throttled by high annotation costs, while unsupervised alternatives suffer from severe model collapse. Recent semi-supervised RLVR methods address this by using a small labeled set to guide unlabeled data, achieving a promising trade-off between training efficacy and annotation cost. However, they suffer from a severe data-efficiency bottleneck due to the reliance on coarse performance heuristics, leaving a vast majority of valuable instances underutilized. To this end, we propose GeoMin, which models global feature distributions on labeled data to decode the structural discrepancy between correct and incorrect rollouts, thereby establishing a robust prior to assess the reliability of self-reward signals and fully unleash the potential of unlabeled data. Empirically, GeoMin outperforms the strongest baselines by +4.1% and even surpasses fully supervised models with only 10% of the annotations, demonstrating remarkable data efficiency.
拡散大規模言語モデルにおける形式に制約された生成のための動的埋め込みアンカー
拡散大規模言語モデル (dLLM) は、双方向の注意と並列生成を提供し、グローバル コンテキストを活用して、解析可能な JSON や推論テンプレートなどの形式に制約のあるタスクを自然にサポートできるようにします。単純な固定アンカーはそのような制約を強制できますが、多くの場合、厳密なスパンを課すため、推論が切り詰められたり、コンテンツが冗長になったりします。これを克服するために、反復埋め込みの前にエンドアンカーの位置を動的に推定して生成長を調整する、トレーニング不要の方法である動的埋め込みアンカー (DIA) を提案します。この柔軟なメカニズムにより、構造の正確さと意味の一貫性が確保され、固定スパン方式の非効率性が回避されます。推論ベンチマークの実験では、DIA がフォーマットへの準拠性と回答精度を大幅に向上させ、GSM8K と MATH で大幅なゼロショット ゲインを達成することが実証されました。これらの結果は、DIA が信頼性の高い、構造を意識した生成に向けた強力な経路として確立されています。
原文 (English)
Dynamic Infilling Anchors for Format-Constrained Generation in Diffusion Large Language Models
Diffusion large language models (dLLMs) offer bidirectional attention and parallel generation, enabling them to exploit global context and naturally support format-constrained tasks like parseable JSON or reasoning templates. While straightforward fixed anchors can enforce such constraints, they often impose rigid spans, leading to truncated reasoning or redundant content. To overcome this, we propose Dynamic Infilling Anchors (DIA), a training-free method that dynamically estimates end-anchor positions to adjust generation length before iterative infilling. This flexible mechanism ensures structural correctness and semantic coherence, avoiding the inefficiencies of fixed-span methods. Experiments on reasoning benchmarks demonstrate that DIA substantially improves format compliance and answer accuracy, achieving significant zero-shot gains on GSM8K and MATH. These results establish DIA as a robust pathway toward reliable, structure-aware generation.
エージェントの記憶にとって時間的順序は重要: 長期エージェントのセグメント ツリー
長期的な会話型エージェントは、進化するイベント、タスク、目標を通じてユーザーと対話する必要があります。このような歴史は本来一時的なものですが、多くの既存の記憶システムは主にトピックの類似性によって情報を整理しており、イベントが発生する順序を無視している可能性があります。発話全体にわたって時間的に順序付けられたセグメント ツリーとして会話履歴を表すメモリ アーキテクチャであるセグメント ツリー メモリ (SegTreeMem) を導入します。 SegTreeMem は、オンラインの右端フロンティア更新ルールを通じて新しい発話を段階的に挿入し、階層的なメモリ セグメントを形成しながら時系列順を維持します。取得の場合、SegTreeMem はツリーを通じて関連性スコアを伝播し、ローカルな意味論的な一致と階層的な時間コンテキストを組み合わせます。 SegTreeMem は、3 つの長期メモリ ベンチマークと 2 つの LLM バックボーンにわたって、フラット検索、グラフ構造メモリ、およびツリー構造メモリ ベースラインよりも回答品質を向上させます。追加の時間順序順列分析では、パフォーマンスの向上が記憶構築中の時間順序の維持に依存することが示され、時間順序がエージェント記憶の重要な構造であるという主張が裏付けられています。
原文 (English)
Temporal Order Matters for Agentic Memory: Segment Trees for Long-Horizon Agents
Long-horizon conversational agents need to interact with users through evolving events, tasks, and goals. Such histories are naturally temporal, yet many existing memory systems organize information primarily by topical similarity and may ignore the order in which events occur. We introduce Segment Tree Memory, or SegTreeMem, a memory architecture that represents conversation history as a temporally ordered Segment Tree over utterances. SegTreeMem incrementally inserts new utterances through an online rightmost-frontier update rule, preserving chronological order while forming hierarchical memory segments. For retrieval, SegTreeMem propagates relevance scores through the tree to combine local semantic matching with hierarchical temporal context. Across three long-horizon memory benchmarks and two LLM backbones, SegTreeMem improves answer quality over flat retrieval, graph-structured memory, and tree-structured memory baselines. Additional temporal-order permutation analysis shows that the performance gain depends on preserving temporal order during memory construction, supporting the claim that temporal order is a key structure for agentic memory.
GRPO 向けのロールアウト レベルのアドバンテージ優先エクスペリエンス リプレイ
GRPO を使用した検証可能な報酬からの強化学習は、トレーニング後の推論 LLM の標準的なアプローチです。サンプルの効率が悪いままです。各ロールアウトは 1 つのグラデーション更新に使用され、その後破棄されます。 LLM ポリシーが勾配ステップごとに急速に変化するため、単純な再生はこの設定にはあまり適していません。したがって、保存されたロールアウトは古くなり、トレーニングが不安定になる可能性があります。グループ全体ではなく個々のロールアウトを保存およびサンプリングする、GRPO のロールアウト レベルのリプレイ バッファーを提案します。バッファーは、age eviction を通じて古い状態を制限します。 tau_max トレーニング ステップよりも古いロールアウトは削除されます。バッファには、フレッシュアンカー構成を介してポリシー上のデータも保存されます。各バッチは、ポリシーに基づいた最新のロールアウトを保持し、バッファから個別に描画されたリプレイ ロールアウトを連結します。ロールアウトごとのアドバンテージの大きさによってリプレイに優先順位を付け、アドバンテージが大きい個々のロールアウトをリサイクルします。 5 つの数学ベンチマークにおける 3 つの Qwen3-Base スケール全体で、私たちの手法は GRPO および単純な再生ベースラインを上回りました。ゲインはどのスケールでも正であり、モデルのサイズに応じて増加します。最大の利益は 4B の 5 つのベンチマーク平均で +4.35 pp です。精度とトークン効率を組み合わせて測定する AES メトリクスの下では、GRPO に対する効率マージンは、+0.579 で 4B と再び最大になります。
原文 (English)
Rollout-Level Advantage-Prioritized Experience Replay for GRPO
Reinforcement learning from verifiable rewards with GRPO is a standard approach for post-training reasoning LLMs. It remains sample inefficient. Each rollout is used for a single gradient update and then discarded. Naive replay is not well suited in this setting because LLM policies drift quickly per gradient step. Stored rollouts therefore become stale and can destabilize training. We propose a rollout-level replay buffer for GRPO that stores and samples individual rollouts rather than whole groups. The buffer bounds staleness through age eviction. Any rollout older than tau_max training steps is removed. The buffer also preserves on-policy data via fresh-anchored composition. Each batch keeps its fresh on-policy rollouts and then concatenates replay rollouts drawn separately from the buffer. We prioritize replay by per-rollout advantage magnitude and recycle individual rollouts whose advantages are large. Across three Qwen3-Base scales on five math benchmarks, our method outperforms GRPO and naive replay baselines. Gains are positive at every scale and grow with model size. The largest gain is +4.35 pp on the five-benchmark average at 4B. Under an AES metric that jointly measures accuracy and token efficiency, the efficiency margin over GRPO is again largest at 4B, at +0.579.
マルチ SPIN: エッジでの協調トークン生成のためのマルチアクセス投機推論
投機的推論 (SPIN) は、もともと大規模言語モデル (LLM) を高速化するための効率的なアーキテクチャとして開発されました。この研究では、マルチユーザー エッジ システムでの協調的なトークン生成を可能にする分散展開を提案します。その利点は、リソースに制約のあるデバイスとサーバーの間で計算負荷のバランスを効果的にとれることです。マルチアクセス SPIN (Multi-SPIN) と呼ばれる結果として得られるアーキテクチャは、オンデバイスの小型言語モデルを利用して候補トークン ドラフトを生成およびアップロードする一方、エッジ サーバーは LLM を操作してそれらを並列バッチで検証します。ユーザーの計算能力と通信能力に深刻な不均一性があることを考慮すると、ドラフト長はノードレベルの計算負荷とマルチアクセス待ち時間に影響を与える重要な制御変数として浮上し、それによって合計トークンのグッドプットを支配します。したがって、周波数分割多元接続を考慮して、合計トークン グッドプットを最大化するための、ドラフト長制御と帯域幅割り当ての共同最適化であるマルチアクセス ドラフト制御の問題を調査します。ここでは 2 つのケースを検討します。(1) サーバー側のバッチ処理を容易にするためにユーザー間で均一なドラフト長を使用する場合と、(2) グッドプットを強化するための新しい次元を導入するために異種のドラフト長を使用する場合です。分解手法を開発することで、これらの複雑な最適化を扱いやすい部分問題に縮小し、閉じた形式で効率的な喫水制御アルゴリズムを導出できるようにします。私たちの分析によると、最適な帯域幅の割り当ては、同種の場合にはバッチ同期要件により弱い計算能力と通信能力を持つユーザーを補うのに対し、異種の場合はそのような要件を緩和することでユーザーの受け入れ率を高めることができます。さまざまなタスクにわたって Llama-2 と Qwen3.5 モデルのペアを使用した実験では、Multi-SPIN が異質性を問わないベースラインと比較してグッドプットを最大 88% 向上させることが実証されました。
原文 (English)
Multi-SPIN: Multi-Access Speculative Inference for Cooperative Token Generation at the Edge
Speculative inference (SPIN) was originally developed as an efficient architecture to accelerate Large Language Models (LLMs). In this work, we propose its distributed deployment to enable cooperative token generation in a multiuser edge system; its advantage is to effectively balance computational loads between resource-constrained devices and servers. The resulting architecture, termed Multi-access SPIN (Multi-SPIN), utilizes on-device small language models to generate and upload candidate token drafts, while an edge server operates the LLM to verify them in parallel batches. Given the severe heterogeneity in users' computation and communication capabilities, the draft length emerges as a critical control variable that influences node-level computation loads and multi-access latency, thereby governing the sum token goodput. Consequently, considering frequency-division multiple access, we investigate the problem of multi-access draft control, a joint optimization of draft-length control and bandwidth allocation to maximize sum token goodput. We examine two cases: (1) homogeneous draft lengths across users to facilitate server-side batching, and (2) heterogeneous draft lengths to introduce a new dimension for goodput enhancement. By developing decomposition methods, we reduce these complex optimizations into tractable sub-problems, which allow efficient draft control algorithms to be derived in closed form. Our analysis shows that the optimal bandwidth allocation compensates users with weaker computation-and-communication capabilities in the homogeneous case due to the batching synchronization requirements, whereas its heterogeneous-case counterpart rewards users with higher acceptance rates by relaxing such requirements. Experiments using Llama-2 and Qwen3.5 model pairs across diverse tasks demonstrate that Multi-SPIN improves goodput by up to 88% over heterogeneity-agnostic baselines.
合成パーソナリティ: LLM は社会経済的マイクロデータを使用して個々の回答者をどの程度うまく模倣できるか?
LLM ベースのデジタル ツインは、市場調査の拡張と加速を約束しますが、公開されているデジタル ツインのほとんどは、人口統計に関するいくつかの質問に基づいて条件付けされた大まかなペルソナ ボットか、目的のために収集されたアンケートやインタビュー記録に基づいて構築された詳細な個人レベルのツインのいずれかです。どちらの設定も、マーケティング実践に運用上最も関連性の高い事例、つまり企業が CRM システム、ロイヤリティ プログラム、および反復調査を通じてすでに蓄積している既存の異種パネル データから詳細な個別の双子を構築することについては話していません。私たちは、ドイツ社会経済パネル (SOEP) から詳細な個人レベルの双子を構築し、3 つのオープンウェイト LLM、正規化されたシャノン エントロピーによってランク付けされた 5 つの累積情報深さ、2 つの埋め込み手法、および 2 つの推論モードをカバーする $3 \times 5 \times 2 \times 2$ 構築方法グリッド全体で評価し、500 人の参加者と 183 の保留された質問に対する 210 万を超える双子の回答をスコアリングしました。ツインの品質は情報の深さに応じて向上しますが、エントロピー四分位 75 パーセントを超えると収益が減少します。エントロピー四分位は、最もパフォーマンスの高い 100 パーセントのセルと比較したコスト効率の高いパレート点として機能します。埋め込みをナラティブなペルソナの概要から過去の応答の生の対話履歴に切り替えると、100% の深さですべてのモデルごとの推論セルのホールドアウト精度が向上します。一方、明示的思考モードでは精度を変えることなく順位相関が向上します。 SOEP ホールドアウト評価セットでは、最良セル精度は 78.8% に達し、Fisher-$z$ 相関は $r = 0.590$ に達します。この調査結果は、ツインベースの市場調査がもはやデータ設計によって制御されているのではなく、アイテムのボリューム、モデルの選択、およびこの論文でマッピングされている建設レベルの少数の決定によって制御されていることを示唆しています。
原文 (English)
Synthetic Personalities: How Well Can LLMs Mimic Individual Respondents Using Socio-Economic Microdata?
LLM-based digital twins promise to scale and accelerate market research, but most published twins are either coarse persona bots conditioned on a few demographic questions or detailed individual-level twins built on purpose-collected surveys and interview transcripts. Neither setup speaks to the operationally most relevant case for marketing practice: building detailed individual twins from the pre-existing heterogeneous panel data that firms already accumulate through CRM systems, loyalty programs, and repeat surveys. We construct detailed individual-level twins from the German Socio-Economic Panel (SOEP) and evaluate them across a $3 \times 5 \times 2 \times 2$ construction-method grid that covers three open-weights LLMs, five cumulative information depths ranked by normalized Shannon entropy, two embedding methods, and two reasoning modes, scoring over 2.1 million twin responses on 500 participants and 183 held-out questions. Twin quality rises with information depth but with diminishing returns past the 75 percent entropy quartile, which acts as a cost-efficient Pareto point relative to the best-performing 100 percent cells. Switching the embedding from a narrative persona summary to a raw dialog history of past responses raises hold-out accuracy in every model-by-reasoning cell at the 100 percent depth, while an explicit thinking mode raises rank-order correlation without moving accuracy. Best-cell accuracy reaches 78.8 percent and Fisher-$z$ correlation reaches $r = 0.590$ on the SOEP held-out evaluation set. The findings suggest that twin-based market research is no longer gated by data design, but by item volume, model selection, and a small set of construction-level decisions that this paper now maps.
Ekka: LLM 推論におけるサイレント エラーの自動診断
LLM サービス フレームワークは、複雑なソフトウェア スタックと膨大な数の最適化によって急速に進化しています。急速な開発プロセスでは、明示的なエラー信号がないまま出力品質が静かに低下するサイレント エラーが発生する可能性があります。高レベルの症状と低レベルの根本原因の間には意味上の大きなギャップがあるため、サイレント エラーの診断は難しいことで知られています。意味的に正しい参照実装の存在を活用することで、サイレント エラーの診断を差分デバッグ問題として効果的に組み立てることができることがわかりました。私たちは、ターゲット フレームワークと参照フレームワークの間の中間実行状態を体系的に調整して比較することにより、根本原因を特定する自動診断システム Ekka を提案します。一般的なサービス提供フレームワークから実際のサイレント エラーのベンチマークを構築しました。Ekka は、pass@1 診断精度が 80%、pass@5 診断精度が 88% で、最先端のシステムを上回るパフォーマンスを示しました。 Ekka は、サービス提供フレームワークからの 4 つの新しいサイレント エラーも診断します。これらはすべて開発者によって確認されています。
原文 (English)
Ekka: Automated Diagnosis of Silent Errors in LLM Inference
LLM serving frameworks are quickly evolving with a complex software stack and a vast number of optimizations. The rapid development process can introduce silent errors where output quality silently degrades without any explicit error signals. Diagnosing silent errors is notoriously difficult due to the substantial semantic gap between the high-level symptoms and the low-level root causes. We observe that diagnosis of silent errors can be effectively framed as a differential debugging problem by leveraging the existence of semantically correct reference implementations. We propose Ekka, an automated diagnosis system that identifies root causes by systematically aligning and comparing intermediate execution states between a target and a reference framework. We constructed a benchmark of real-world silent errors from popular serving frameworks, where Ekka shows 80% pass@1 diagnosis accuracy and 88% pass@5 diagnosis accuracy, outperforming state-of-the-art systems. Ekka also diagnoses 4 new silent errors from serving frameworks, all of which have been confirmed by the developers.
QuBLAST: ブロックレベルの圧縮アプローチとアクティベーション スケーリング戦略を使用して大規模な言語モデルを量子化するためのフレームワーク
LLM は、NLP タスクを解決するための最先端のアルゴリズムになりました。ただし、これらは通常、膨大な計算コストとメモリコストがかかるため、組み込みシステムへの導入が困難になります。これに向けて、最先端の方法では通常、ネットワークのアテンション ブロック全体で均一なポストトレーニング量子化 (PTQ) が採用されており、そのため、同じネットワーク内で異なる量子化レベルを適用する可能性を見落としています。また、アクティベーションの異常値による悪影響を軽減するために複雑な操作を採用しているため、高い計算オーバーヘッドが発生します。さらに、量子化を適用する際に異なる課題を引き起こす、従来とは異なるアテンション アーキテクチャ (状態空間モデルなど) を備えた新興 LLM を使用した評価については考慮されていません。これらの制限に対処するために、LLM のアクティベーション スケーリング戦略を備えたブロック レベルの圧縮アプローチを採用する新しい PTQ 手法である QuBLAST を提案します。ブロックレベルの圧縮アプローチにより、ネットワークのブロック全体で混合精度の量子化が可能になり、同時にアクティベーションスケーリング戦略によりアクティベーション異常値の悪影響が効率的に軽減されます。具体的には、QuBLAST はまず、クロスエントロピー損失分析を通じて、事前トレーニング済みモデル内のさまざまなアテンション ブロックの感度を分析します。 QuBLAST は、この感度分析を活用して、モデル内の各アテンション ブロックの重み量子化レベルを決定します。さらに、QuBLAST は各ブロックのアクティベーション スケーリング マップを採用してアクティベーション値の範囲を制御し、アクティベーション外れ値の悪影響を軽減することで、より良い量子化結果を実現します。実験結果は、QuBLAST が、WikiText-2 および WikiText-103 データセットのパープレキシティ増加 5% 以内のパフォーマンスを維持しながら、さまざまなモデル アーキテクチャ (つまり、Qwen3-8B、Llama3-8B、Mistral v0.1-8B、および Falcon H1R-7B) にわたってモデル サイズを 40% ~ 45.2% 削減することを示しています。
原文 (English)
QuBLAST: A Framework for Quantizing Large Language Models with Block-Level Compression Approach and Activation Scaling Strategy
LLMs have become the state-of-the-art algorithms for solving NLP tasks. However, they typically come at huge computational and memory costs, thus making them difficult to deploy on embedded systems. Toward this, state-of-the-art methods typically employ uniform post-training quantization (PTQ) across attention blocks of the network, hence overlooking the potential of applying different quantization levels in the same network. They also employ complex operations to mitigate the negative impact of activation outliers, hence incurring high computational overheads. Moreover, they have not considered evaluation using emerging LLMs with non-conventional attention architectures (e.g., state-space models), which pose different challenges in applying quantization. To address these limitations, we propose QuBLAST, a novel PTQ methodology that employs block-level compression approach with activation scaling strategy for LLMs. Block-level compression approach enables mixed-precision quantization across blocks of the network, while activation scaling strategy efficiently mitigates the negative impact of activation outliers. Specifically, QuBLAST first analyzes the sensitivity of different attention blocks in the pre-trained model through the cross-entropy loss analysis. QuBLAST leverages this sensitivity analysis to determine the weight quantization level for each attention block in the model. Furthermore, QuBLAST employs the activation scaling map for each block to control the range of activation values and mitigate the negative impact of activation outliers, thereby enabling better quantization results. Experimental results show that, QuBLAST reduces model sizes by 40%-45.2% across different model architectures (i.e., Qwen3-8B, Llama3-8B, Mistral v0.1-8B, and Falcon H1R-7B), while maintaining the performance within 5% perplexity increase for the WikiText-2 and WikiText-103 datasets.
QO ベンチ: 型付きイベント タプルに対するクエリ演算子保持検索の診断
ビジネス、法律、科学コーパスに関する現実世界の質問の多くは、テキストに潜在するレコードに対するデータベース スタイルのクエリの自然言語バージョンです。既存の検索拡張生成 (RAG) システムは、主にセマンティック関連性を重視して最適化されていますが、もっともらしい文章を取得しても、クエリが正しく実行されることは保証されません。型指定されたイベント タプルに対するクエリ演算子の質問応答の診断ベンチマークである QO-Bench を紹介します。このベンチマークは、18 のクエリ テンプレートにわたる 22,984 のニュース記事と 614 の企業イベントを対象とし、785 の質問で評価されました。各ゴールド アンサーは、型指定されたイベント タプルから決定論的に計算され、LLM 判定ではなく完全一致によってゴールド タプルと照合された回答を使用して、再現率によってスコア付けされます。この設計により、結合や交差などのオペレーターレベルの診断が可能になります。 RAG、ReAct RAG、GraphRAG、および情報抽出から SQL を一致した条件下で評価し、取得失敗を分離するためのロングコンテキスト オラクル上限を使用します。インデックス時の保存とクエリ時の実行という 2 軸のフレームワークによって、各パラダイムがどこで失敗するかを予測し、その結果がそれを裏付けています。システムは関連するテキストを取得しますが、オペレータが必要とする型付きの値を破棄します。デプロイ可能なパラダイムのランキングはオペレータ間で逆転し、フィルタ/プロジェクトで類似性の取得が始まり、交差とカウントで SQL への抽出が行われます。決定的な証拠が与えられたとしても、ロングコンテキストのオラクルは飽和状態には程遠いため、検索だけではなくオペレーターの実行が、より強力な応答モデルによって除去されない中心的なボトルネックとなっています。 QO-Bench は、パッセージの関連性からクエリ演算子を保持した検索へと目標を再構成します。
原文 (English)
QO-Bench: Diagnosing Query-Operator-Preserving Retrieval over Typed Event Tuples
Many real-world questions over business, legal, and scientific corpora are natural-language versions of database-style queries over records latent in text. Existing retrieval-augmented generation (RAG) systems are optimized primarily for semantic relevance, but retrieving plausible passages does not guarantee correct query execution. We introduce QO-Bench, a diagnostic benchmark for query-operator question answering over typed event tuples. The benchmark covers 22,984 news articles and 614 corporate events across 18 query templates, evaluated on 785 questions. Each gold answer is deterministically computed from typed event tuples and scored by recall, with answers matched to the gold tuples by exact match rather than an LLM judge. This design enables operator-level diagnosis such as joins and intersection. We evaluate RAG, ReAct RAG, GraphRAG, and information-extraction-to-SQL under matched conditions, with a long-context oracle ceiling to isolate retrieval failure. A two-axis framework -- index-time preservation versus query-time execution -- predicts where each paradigm fails, and the results bear it out: systems retrieve relevant text but discard the typed values operators need, and the deployable paradigm ranking inverts across operators, with similarity retrieval leading on filter/project and extraction-to-SQL on intersection and counting. Even given the gold evidence, a long-context oracle stays far from saturated, so operator execution -- not retrieval alone -- is a core bottleneck that a stronger answer model does not remove. QO-Bench reframes the goal from passage relevance to query-operator-preserving retrieval.
Vul-RAG の再考: オープンウェイト モデルを使用した RAG ベースの脆弱性検出の再現性と再現性
大規模言語モデル (LLM) は、特に検索拡張世代 (RAG) 設定において、自動ソフトウェア脆弱性検出の強力な可能性を示しています。ただし、独自のモデルと API に依存するアプローチの場合、再現性と複製可能性はほとんど解明されていないため、報告された結果が一般化されるのか、それとも特定のモデルの選択に主に依存するのかという疑問が生じます。この研究では、高度な脆弱性知識で LLM を強化する、ソース コード脆弱性検出用の RAG ベースのフレームワークである Vul-RAG の再現性の研究を紹介します。まず、報告されたオープンウェイトベースラインモデルを使用して、完全にローカルでオープンウェイト設定で結果を再現します。次に、コードに特化した、汎用の、さまざまなパラメーター サイズの推論モデルを含む、最近のオープンウェイト LLM の多様なセットに評価を拡張します。この結果は、Vul-RAG の結果がローカル展開下で再現可能であることを裏付けていますが、多少の誤差はあります。評価されたすべてのモデルにわたって、ペアワイズ精度 (脆弱な関数とパッチ適用された関数の両方が正しく分類されたコード ペア) で約 0.30 のパフォーマンスのプラトーが観察されます。特に、このプラトーは、より最近の高度なモデルでも持続しており、モデルの容量の向上だけではパフォーマンスが大幅に向上しないことを示しています。最後に、検出の有効性、モデルの機能、モデルの規模の間の実際的な影響とトレードオフについて説明します。実装と評価のアーティファクトは、https://github.com/hs-esslingen-it-security/revisiting-Vul-RAG で公開されています。
原文 (English)
Revisiting Vul-RAG: Reproducibility and Replicability of RAG-based Vulnerability Detection with Open-Weight Models
Large language models (LLMs) have shown strong potential for automated software vulnerability detection, particularly in retrieval-augmented generation (RAG) settings. However, for approaches relying on proprietary models and APIs, reproducibility and replicability remain largely unexplored, raising the question of whether reported results generalize or depend primarily on specific model choices. In this work, we present a reproducibility study of Vul-RAG, a RAG-based framework for source code vulnerability detection that enhances LLMs with high-level vulnerability knowledge. We first replicate the results in a fully local and open-weights setting using the reported open-weight baseline models. We then extend the evaluation to a diverse set of recent open-weight LLMs, including code-specialized, general-purpose, and reasoning models of varying parameter sizes. The results confirm that the findings of Vul-RAG are reproducible under local deployment, but with minor deviations. Across all evaluated models, we observe a performance plateau at approximately 0.30 pairwise accuracy (code pairs for which both the vulnerable and the patched function are correctly classified). Notably, this plateau persists even for more recent and advanced models, indicating that improvements in model capacity alone do not substantially enhance performance. Finally, we discuss practical implications and trade-offs between detection effectiveness, model capabilities, and model scale. Implementation and evaluation artifacts are publicly available at https://github.com/hs-esslingen-it-security/revisiting-Vul-RAG.
TIDE: テンプレートに基づく反復によるプロアクティブな複数の問題の発見
エージェントは、ドキュメント、ツール、コードのアシスタントとして広く導入されています。ただし、これらは通常、明示的なユーザー要求にのみ作用し、ユーザーが気づいた問題のみを表面化します。一方、他の多くの重要な問題は、より広範なユーザー コンテキスト内で目に見えない形で共存しており、その総数は事前に不明です。私たちはこれを、文脈から複数の隠れた問題を発見するタスクとして組み立てます。その中で、共存する問題を明らかにし、裏付けとなる証拠に基づいて、具体的な行動と組み合わせる必要があります。この目的を達成するために、2 つの補完的なメカニズムを備えたテンプレート主導の反復フレームワークである TIDE を導入します。具体的には、シングルパス予測が最も顕著なケースに基づいて一般的な主張を生み出すという観察に動機づけられて、我々は反復発見を提案します。これは、すでに見つかったものに基づいて条件付けしながらラウンドごとに小さなバッチの候補を表面化し、後続のラウンドで対象範囲を拡大します。思考テンプレートは、以前に解決されたケースから抽出された再利用可能なスキーマであり、どのコンテキスト シグナルに注目し、それらをどのように接続するかを指定し、各予測を認識可能な問題クラスに固定します。 4 つのモデル バックボーンにわたって、パーソナル ワークスペースとソフトウェア リポジトリという 2 つの現実的な設定で TIDE を検証し、タスク カバレッジ、識別、解決に関して、シングルショットおよび並列マルチエージェント ベースラインを超える大幅な向上を示しています。
原文 (English)
TIDE: Proactive Multi-Problem Discovery via Template-Guided Iteration
Agents are widely deployed as assistants over documents, tools, and code. However, they typically act only on explicit user requests, which surface only the problems the user has noticed, while many other important problems coexist, hidden in plain sight, within the broader user context, with their total number unknown in advance. We frame this as the task of discovering multiple hidden problems from context, in which coexisting problems should be uncovered, grounded in supporting evidence, and paired with concrete actions. To this end, we introduce TIDE, a template-guided iterative framework with two complementary mechanisms. Specifically, motivated by the observation that single-pass prediction anchors on the most salient cases and yields generic claims, we propose iterative discovery, which surfaces a small batch of candidates per round while conditioning on what has already been found, so subsequent rounds extend coverage; and thought templates, reusable schemas distilled from previously solved cases that specify what contextual signals to attend to and how to connect them, anchoring each prediction in a recognizable problem class. We validate TIDE on two realistic settings, personal workspaces and software repositories, across four model backbones, showing substantial gains over single-shot and parallel multi-agent baselines on task coverage, identification, and resolution.
現実世界の MCP サーバーにおける記述コードの不一致: 測定、検出、およびセキュリティへの影響
モデル コンテキスト プロトコル (MCP) は、大規模言語モデル (LLM) が外部ツールを利用できるようにする重要な標準として登場しました。このエコシステムでは、LLM は MCP サーバーによって提供される自然言語記述に依存して、関数を選択して実行します。この相互作用は、ツールの説明がその基礎となる実装を忠実に反映していることを暗黙的に前提としていますが、この前提は実際には強制的に検証されるわけではありません。その結果、MCP の導入では、ツールの機能とセキュリティ境界に関する記述がコードの実際の動作と一致しない、記述コードの不一致 (DCI) という問題が発生する可能性があります。このペーパーでは、実際の MCP サーバーにおける DCI の包括的な研究を紹介します。私たちは問題を正式に定義し、機能の不一致や未発表の副作用に及ぶ包括的な分類法を提案します。この分類法に基づいて、私たちは、構造を認識した静的解析とダイレクト リバース アービトレーション プロンプト手法を組み合わせて、実際のコード実装に対してツールの説明を相互検証する自動化フレームワークである DCIChecker を開発しました。このフレームワークを、2,214 台の実世界の MCP サーバーから抽出された 19,200 個の記述コードのペアで構成される大規模なデータセットに適用します。私たちの測定では、DCI が広く普及しており、これらのペアの 9.93% が矛盾を示していることが明らかになりました。さらに、DCI が重大な防御の盲点を生み出し、運用上の失敗からこっそりと悪意のある動作に至るまで、さまざまなリスクを助長することを実証します。最後に、セマンティックな一貫性を強化し、新興エージェント エコシステムの信頼性を高めるための緩和戦略を提案します。
原文 (English)
Description-Code Inconsistency in Real-world MCP Servers: Measurement, Detection, and Security Implications
The Model Context Protocol (MCP) has emerged as a critical standard empowering Large Language Models (LLMs) to utilize external tools. In this ecosystem, LLMs rely on natural language descriptions provided by MCP servers to select and execute functions. This interaction implicitly assumes that tool descriptions faithfully reflect their underlying implementations, while this assumption is not mandatorily verified in practice. As a result, MCP deployments may suffer from a problem named Description-Code Inconsistency (DCI), where a tool's description of its capabilities and security boundaries is not consistent with what the code actually does. In this paper, we present a comprehensive study of DCI in real-world MCP servers. We formally define the problem and propose a comprehensive taxonomy spanning functionality inconsistencies and undeclared side effects. Guided by this taxonomy, we develop DCIChecker, an automated framework that combines structure-aware static analysis with the Direct-Reverse-Arbitration prompting method to cross-validate tool descriptions against actual code implementations. We apply this framework to a large-scale dataset comprising 19,200 description-code pairs extracted from 2,214 real-world MCP servers. Our measurement reveals that DCI is widespread, with 9.93% of these pairs exhibiting inconsistencies. We further demonstrate that DCI creates a critical defense blind spot, facilitating varied risks from operational failures to stealthy malicious behaviors. Finally, we propose mitigation strategies to enforce semantic consistency and enhance the reliability of the emerging agentic ecosystem.
NoRA: 視覚的な一人称の規範的行動推論における根拠のある合理性の評価
LLM とエージェント システムは社会環境にますます導入されており、安全で適切な行動には規範的能力が重要になっています。しかし、既存のアプローチは、規範的判断をテキストのみで評価するか、固定された一連の候補アクションの中から選択することに還元します。私たちはどちらも不十分だと主張します。実際には、エージェントにオプションのメニューが渡されることはありません。彼らは、目に見える事実に基づいて、検証可能な理由によって裏付けられた、合理的な行動をゼロから特定しなければなりません。 NoRA は視覚的な一人称ビデオ ベンチマークであり、モデルが次のアクションの候補を生成し、明示的な事実-理由-アクションのサポート グラフを通じてそれぞれを正当化する必要があります。このベンチマークは、HumanGold-190 および LLMSilver-1230 の分割を含む 1,420 個の注釈付きビデオ クリップで構成されています。各インスタンスは、アクションの調整、事実の根拠、およびサポートのバインディングを通じて評価され、単一の根拠のある合理性スコアに集約されます。私たちは、直接的、計画的、構造化されたプロンプト体制の下で 12 のマルチモーダル システムのベンチマークを行ったところ、現在の VLM はもっともらしいアクションと関連するシーンの事実を頻繁に回収しますが、完全な合理的なアクション スペースを構築し、選択されたアクションを正しいローカル サポートに結び付けるのに一貫して苦労していることがわかりました。 NoRA はこのギャップを測定可能にし、評価の問題を、モデルがアクションを選択できるかどうかから、適切な目に見える理由に基づいて適切なアクションを正当化できるかどうかに移します。
原文 (English)
NoRA: Evaluating Grounded Reasonableness in Visual First-person Normative Action Reasoning
LLMs and agentic systems are increasingly deployed in social environments, making normative competence critical for safe and appropriate behavior. However, existing approaches either assess normative judgment in text alone or reduce it to choosing among a fixed set of candidate actions. We argue both are insufficient. In practice, agents are never handed a menu of options; they must identify a reasonable action from scratch, grounded in visible facts and supported by inspectable reasons. We introduce NoRA, a visual first-person video benchmark that requires models to generate candidate next actions and justify each through an explicit fact-reason-action support graph. The benchmark comprises 1,420 annotated video clips, including HumanGold-190 and LLMSilver-1230 splits. Each instance is evaluated through action alignment, factual grounding, and support binding, aggregated into a single grounded reasonableness score. We benchmark 12 multimodal systems under direct, deliberate, and structured prompting regimes, finding that current VLMs frequently recover plausible actions and relevant scene facts, but consistently struggle to construct the full reasonable action space and bind selected actions to the correct local support. NoRA makes this gap measurable, shifting the evaluation question from whether a model can pick an action to whether it can justify an appropriate action for the right visible reasons.
行動しながら学習: オンライン生涯学習エージェント向けのスキル強化されたテスト時間共進化フレームワーク
生涯学習は、動的で対話型の環境で動作する大規模言語モデル (LLM) エージェントにとって不可欠です。しかし、長期的なタスクのための既存の生涯学習エージェントは通常、推論中の静的パラメータによる離散的なスキルや過去の経験の取得に依存しているため、人間の学習者のようにテスト時のフィードバックを継続的に内面化することができません。このギャップを埋めるために、オンライン生涯学習エージェントのための 2 段階の強化学習フレームワークであるスキル強化テスト時間共進化 (\texttt{LifeSkill}) を提案します。具体的には、複数のスキル条件付きポリシーのロールアウトの平均的な検証者の成功に応じて候補者のスキルに報酬を与えることで、スキル抽出のための直接監督の欠如に対処する検証者ガイド付きスキル学習を設計し、単にテキスト上でもっともらしいスキルではなく、タスクの解決に役立つスキルを生成するようにモデルを奨励します。さらに、オンライン スキル内部化を導入します。これは、スキル条件付きの軌道を報酬シグナルに変換することで、テスト時のインタラクション中にポリシー モデルを継続的に改善します。これにより、エージェントは推論機能をパラメータに直接内部化でき、エクスペリエンス取得によるコンテキストの肥大化を回避できます。 LifelongAgentBench の実験では、既存の生涯エージェントのベースラインと比較して、LifeSkill が平均パフォーマンスを 7 絶対ポイント向上させることが示されています。
原文 (English)
Learning While Acting: A Skill-Enhanced Test-Time Co-Evolution Framework for Online Lifelong Learning Agents
Lifelong learning is essential for Large Language Model (LLM) agents operating in dynamic, interactive environments. However, existing lifelong learning agents for long-horizon tasks typically depend on discrete skill or past experiences retrieval with static parameters during inference, which prevents them from continuously internalizing test-time feedback like human learners. To bridge this gap, we propose Skill-enhanced Test-Time Co-Evolution (\texttt{LifeSkill}), a two-stage reinforcement learning framework for Online Lifelong Learning Agents. Specifically, we design Verifier-Guided Skill Learning that addresses the lack of direct supervision for skill extraction by rewarding candidate skills according to the average verifier success of multiple skill-conditioned policy rollouts, encouraging the model to generate skills that are useful for solving tasks rather than merely plausible in text. Furthermore, we introduce Online Skill Internalization, which continuously improves the policy model during test-time interaction by transforming skill-conditioned trajectories into reward signals. This enables the agent to directly internalize reasoning capabilities into its parameters, avoiding the context bloat of experience retrieval. Experiments on LifelongAgentBench show that LifeSkill improves average performance by 7 absolute points by comparing with existing lifelong agent baselines.
人間が作成したオントロジーからの証明可能で監査可能で安全な LLM エージェント
線形監査可能性を必要とする重要な問題ドメインでの使用を目的とした、LLM エージェント アーキテクチャ Agentic Redux を紹介します。型付きラムダ計算を使用して、適切なドメインで実行すると、Agentic Redux の実行が意味的に正しいことが保証され、すべての決定が追加専用台帳に記録されることを証明します。医療請求のコンプライアンスとセキュリティ脆弱性の開示という、実稼働グレードの 2 つの適切な領域を紹介します。両方のドメインで実行される Agentic Redux の実用的なコードは、サポートされるコード リポジトリで入手できます。また、問題ドメイン上でエージェント フレームワークを作成するための方法論であるオントロジー ファースト エージェント設計も紹介します。この設計では、人間の専門家が基本形式オントロジーを使用して問題ドメインをオントロジー化し、LLM を割り当てて、ドメイン内の問題に対処するためにエージェントと参加者が果たせる役割を導き出します。
原文 (English)
Provably Auditable and Safe LLM Agents from Human-Authored Ontologies
We introduce the LLM agent architecture Agentic Redux, intended for use with nontrivial problem domains that require linear auditability. Using the typed lambda calculus, we prove that, run on appropriate domains, Agentic Redux executions are semantically guaranteed to be correct, with all decisions recorded in an append-only ledger. We present two production-grade appropriate domains, in healthcare billing compliance, and security vulnerability disclosure. Working code for Agentic Redux run on both domains is available in a supporting code repository. We also introduce Ontology-First Agent Design, a methodology for creation of agent frameworks on a problem domain, in which a human expert ontologizes the problem domain with Basic Formal Ontology, and then assigns an LLM to derive roles that agents and humans-in-the-loop can fill, in order to work the problems in the domain.
「あなたの AI テキストは私のものではありません」: 現実的な仮定に基づいた AI 生成のテキスト検出の再定義と評価
AI 生成テキストが広範な社会的リスクを引き起こすことは一般的に認められていますが、AI 生成テキスト検出に関する文献では、何が有害な使用に該当するかについて共通の理解がありません。むしろ、既存のデータセットやアプローチは、多くの場合、独自の基準を定義し、独自の仮定を立てており、場合によっては暗黙的に、現実世界のニーズやアプリケーションと大まかにしか関連していません。このギャップに対処するために、ここでは AI によって生成されたテキストとその特徴に関するさまざまな概念を体系的に定義します。これらを研究するために、私たちは AITDNA を収集します。AITDNA は、人間と機械が共同構築したテキストの新しいベンチマークであり、編集全体や AI との対話履歴など、詳細な生成情報が注釈付けされています。私たちはさまざまな機械生成のテキスト検出器をベンチマークしましたが、多くの場合、それらは特定の概念に対してのみ良好に機能し、広範な検出器としては機能しないことがわかりました。私たちはコードとデータを公開します。
原文 (English)
'Your AI Text is not Mine': Redefining and Evaluating AI-generated Text Detection under Realistic Assumptions
Although it is generally agreed that AI-generated text poses a broad societal risk, there is no common understanding in the AI-generated text detection literature on what constitutes harmful use. Rather, existing datasets and approaches often define their own criteria and make their own assumptions, sometimes implicitly, and often only loosely related to real-world needs and applications. To address this gap, we here systematically define various notions of AI-generated text and their characteristics. To study these, we collect AITDNA - a new benchmark of human-machine co-constructed texts that is annotated with detailed genesis information, such as the entire edit and AI-interaction history. We benchmark various machine-generated text detectors and find that they often only perform well for specific notions but not as broad detectors. We release code and data publicly.
生物医学的視覚言語モデルを迅速に調整するための幾何学を意識した蒸留
現在のプロンプトベースおよびアダプターベースのビジョン言語モデル (VLM) の調整は、臨床データの感度が凍結されたバックボーンを優先し、アノテーションが制限されている医療画像処理にとって魅力的です。ただし、これらの方法は通常、グラウンドトゥルース クラスのみを最適化し、他のすべてのクラスを同様に不正確なものとして扱い、臨床的に意味のあるクラス関係を無視し、限定された監視設定では不安定な決定境界を生成します。私たちは、クラス間ジオメトリを尊重しながらグランド トゥルースを保持する指向性ターゲットを生成するために、クラス関係構造を教師に注入する新しいフレームワークである Omni-Geometry Knowledge Distillation (OGKD) を提案します。これらのターゲットを使用して、2 つの蒸留損失を開発します。グローバル ジオメトリ認識蒸留 (GAD) はグローバル イメージ トークン上で動作し、ラベルガイド付きジオメトリ蒸留 (LGD) は同じジオメトリを注意深いパッチ トークンに適用して、きめの細かい位置合わせを改善します。基礎から新規および少数ショットの評価のために広く使用されている 11 の医療データセットでの包括的な実験と分析を通じて、当社の OGKD は大幅に優れたパフォーマンスを達成し、これまでのすべての最先端の VLM 適応対応製品と比較して、平均絶対ゲイン 1.7% ~ 2.8% により精度を一貫して向上させています。また、目に見えないクラスに対しても堅牢に一般化し、他のアプローチよりも信頼性の高い予測を生成します。私たちのコードは https://github.com/tientrandinh/OGKD で入手できます。
原文 (English)
Geometry-Aware Distillation for Prompt Tuning Biomedical Vision-Language Models
Current prompt-based and adapter-based tuning of vision-language models (VLMs) is attractive for medical imaging, where clinical data sensitivity favors frozen backbones and annotations are limited. However, these methods typically optimize only the ground-truth class, treating all other classes as equally incorrect, ignoring clinically meaningful class relations and yielding unstable decision boundaries in limited-supervision settings. We propose Omni-Geometry Knowledge Distillation (OGKD), a new framework that injects class-relation structure into the teacher to produce directional targets that preserve the ground truth while respecting inter-class geometry. Using these targets, we develop two distillation losses: Global Geometry-Aware Distillation (GAD) operates on the global image token, and Label-Guided Geometry Distillation (LGD) applies the same geometry to attentive patch tokens to improve fine-grained alignment. Across comprehensive experiments and analyses on 11 widely-used medical datasets for base-to-novel and few-shot evaluations, our OGKD achieves substantially better performance, consistently improving accuracy by an average absolute gain of 1.7%-2.8% over all prior state-of-the-art VLM adaptation counterparts. It also robustly generalizes to unseen classes and yields more reliable predictions than other approaches. Our code is available at https://github.com/tientrandinh/OGKD.
ルーブリックベースの強化学習における報酬ハッキングの再現、分析、検出
ルーブリックベースの強化学習 (RL) は、LLM-as-a-Judge (LaaJ) を使用して、報酬としてルーブリックに従ってモデルの出力を採点します。ただし、政策モデルは裁判官の潜在的なバイアスを悪用し、報酬のハッキングや非効果的または危険なトレーニング結果につながる可能性があります。現実のルーブリックベースの RL では、このようなハッキング行為は多くの場合微妙であり、複数の裁判官のバイアスと絡み合っているため、分析、検出、軽減することが困難です。このペーパーでは、ルーブリックベースの RL のための制御可能なハッキング環境である CHERRL を紹介します。既知のバイアスを LaaJ に注入することで、CHERRL は報酬ハッキングの安定した再現、報酬の発散の明確な観察、およびハッキングの開始の正確な特定を可能にします。これは、ルーブリック ベースの RL における報酬ハッキングのメカニズムと緩和を研究するためのクリーンな実験テストベッドを提供します。その有用性を実証するために、発見可能性と悪用可能性の観点からさまざまな裁判官のバイアスを分析し、トレーニングログから報酬ハッキングの開始を自動的に検出するためのエージェントベースのシステムを調査します。コードと環境は https://github.com/THUAIS-Lab/CHERRL で公開されています。
原文 (English)
Reproducing, Analyzing, and Detecting Reward Hacking in Rubric-Based Reinforcement Learning
Rubric-based reinforcement learning (RL) uses an LLM-as-a-Judge (LaaJ) to score model outputs according to rubrics as rewards. However, policy models may exploit latent biases in the judge, leading to reward hacking and ineffective or unsafe training outcomes. In real-world rubric-based RL, such hacking behaviors are often subtle and entangled with multiple judge biases, making them difficult to analyze, detect, and mitigate. In this paper, we introduce CHERRL, a controllable hacking environment for rubric-based RL. By injecting known biases into LaaJ, CHERRL enables stable reproduction of reward hacking, explicit observation of reward divergence, and precise identification of hacking onset. This provides a clean experimental testbed for studying the mechanisms and mitigations of reward hacking in rubric-based RL. To demonstrate its utility, we analyze different judge biases from the perspectives of discoverability and exploitability, and explore an agent-based system for automatically detecting reward hacking onset from training logs. The code and environment are publicly available at https://github.com/THUAIS-Lab/CHERRL.
プロンプトからプロセスまで: AI ソフトウェア開発エージェントをサポートするフレームワークのプロセス分類と比較評価
プログラミング用の AI ツールは、もはや単なるオートコンプリートやチャット アシスタントではありません。プロセス、役割、成果物、検証を備えた開発フレームワークとして組織化されています。最近の調査では、ソフトウェア エンジニアリングのためのエージェントと LLM がマッピングされていますが、これらの機能をプロセスに変える運用フレームワークを中心とした調査は行われていません。私たちは、機能的包含基準とトラクション測定を使用して一次ソースの直接検索を実行し、GitHub Spec Kit、OpenSpec、BMAD Method、Get Shit Done (GSD)、Spec Kitty、Reversa の 6 つのフレームワークを選択しました。それぞれが異なるパスを通じて AI 開発を攻撃します。つまり、完全および軽量バリアントでの仕様駆動型開発、エージェント駆動のアジャイル プランニング、エージェントを介したコンテキスト エンジニアリング、ワークツリーの分離とレビュー、レガシー システムからの運用仕様の回復です。私たちの中心的な貢献は、仕様、コンテキスト、役割、実行、検証、移植性という 6 次元のプロセス分類と、プロセスを複製可能なツールに変えるスコアリング ルーブリックです。これを 6 つのフレームワークとサンプル外のケースである Spec-Flow に適用します。 2 つの結果が際立っています。すでに何らかのプロセスを採用しているフレームワークの中には収束が見られます。分離されたプロンプトは中心性を失い、永続的な成果物、作業契約、トレーサビリティ、人間によるレビューが曖昧さを減らし、エージェントを調整するメカニズムになります。また、6 つの側面すべてを強力にカバーするフレームワークはなく、プロセスの深さとエージェント間の移植性の間の構造的なトレードオフが明らかになります。また、繰り返し発生するリスク、つまり仕様とコードの間のずれ、生成されたアーティファクトへの過剰な信頼、コミュニティ拡張の脆弱性、プラットフォームへの依存、プロセス全体のベンチマークの欠如なども見つかりました。最後に、中間品質の指標、コンテキスト ガバナンス、インストールのセキュリティと再現性に焦点を当てた、実証的評価のための研究課題を取り上げます。
原文 (English)
From Prompt to Process: a Process Taxonomy and Comparative Assessment of Frameworks Supporting AI Software Development Agents
AI tools for programming are no longer just autocomplete or chat assistants: they organize themselves as development frameworks, with process, roles, artifacts and verification. Recent surveys map agents and LLMs for software engineering, but a study centered on the operational frameworks that turn these capabilities into process is missing. We ran a directed search of primary sources, with a functional inclusion criterion and traction measurement, and selected six frameworks: GitHub Spec Kit, OpenSpec, BMAD Method, Get Shit Done (GSD), Spec Kitty and Reversa. Each attacks AI development through a different path: spec-driven development in full and lightweight variants, agent-driven agile planning, context engineering over the agent, worktree isolation and review, and recovery of operational specifications from legacy systems. Our central contribution is a six-dimension process taxonomy: specification, context, roles, execution, validation and portability, with a scoring rubric that turns it into a replicable instrument. We apply it to the six frameworks and an out-of-sample case, Spec-Flow. Two results stand out. Among frameworks that already adopt some process there is convergence: the isolated prompt loses centrality, and persistent artifacts, work contracts, traceability and human review become mechanisms that reduce ambiguity and coordinate agents. And no framework strongly covers all six dimensions, exposing a structural trade-off between process depth and portability across agents. We also found recurring risks: drift between specification and code, excessive trust in generated artifacts, fragility of community extensions, platform dependence and a lack of benchmarks for the complete process. We close with a research agenda for empirical evaluation, focused on intermediate-quality metrics, context governance, installation security and reproducibility.
DeliChess: チェスのパズル解決における熟議のための多者対話データセット
多者間の対話は、協調的な推論と意思決定を研究するための重要な設定ですが、既存のデータセットは、構造化された詳細な複雑な推論タスクに焦点を当てていることはほとんどありません。 DeliChess は、参加者が協力して多肢選択のチェス パズルを解くグループ審議対話の新しいデータセットです。各グループは最初に個別にパズルを完成させ、次に修正された集合回答を提出する前に、複数の当事者によるディスカッションに参加します。データセットには、完全なトランスクリプト、ディスカッション前後の選択肢、パズルの難易度と動きの品質に関するメタデータを含む 107 の対話が含まれています。私たちはチェス エンジンの評価に基づいた 3 つの指標を使用してパフォーマンスを評価し、熟慮することでグループの精度が大幅に向上することがわかりました。さらに、事前の審議データに基づいて訓練された分類器を使用して、精査的な発話(つまり、提案、正当化、または戦略的考察を引き出すメッセージ)の役割を分析します。プロービングにより、ディスカッション後のグループのパフォーマンスはより変動しますが、一貫してパフォーマンスの向上につながるわけではありません。私たちのデータセットは、グループの推論、対話のダイナミクス、および明確に定義された戦略的領域における異なる視点や意見の解決をモデル化するための豊富なテストベッドを提供します。
原文 (English)
DeliChess: A Multi-party Dialogue Dataset for Deliberation in Chess Puzzle Solving
Multi-party dialogue is a critical setting for studying collaborative reasoning and decision-making, yet existing datasets rarely focus on structured, in-depth complex reasoning tasks. We introduce DeliChess, a novel dataset of group deliberation dialogues in which participants collaboratively solve multiple-choice chess puzzles. Each group first completes the puzzle individually, then engages in a multi-party discussion before submitting a revised collective answer. The dataset includes 107 dialogues with full transcripts, pre- and post-discussion choices, and metadata on puzzle difficulty and move quality. We evaluate performance using three metrics based on chess engine evaluations, and find that deliberation significantly improves group accuracy. We further analyse the role of probing utterances (i.e., messages that elicit proposals, justifications, or strategic reflection) using a classifier trained on prior deliberation data. While probing makes group performance more variable after discussion, it does not consistently lead to better performance. Our dataset offers a rich testbed for modelling group reasoning, dialogue dynamics, and the resolution of differing perspectives and opinions in a well-defined strategic domain.
エージェント追跡から信頼へ: LLM エージェントにおける証拠追跡と実行来歴
大規模言語モデル (LLM) ベースのエージェントは、外部ツール、検索システム、メモリ モジュール、環境、その他のエージェントと対話することで、複雑なタスクを解決することが増えています。これらの機能により、エージェントの自律性が拡張されますが、エージェントの動作の検証、デバッグ、監査が難しくなります。最終回答の精度だけでは、出力がどのように生成されたか、各主張を裏付ける証拠は何か、ツールの呼び出しが正当化されたかどうか、記憶が後の決定にどのように影響したか、実行の失敗がどこで発生したかを説明することはできません。証拠追跡と実行来歴は、取得された証拠、ツール出力、メモリ項目、環境観察、中間クレーム、アクション、および最終的な回答がエージェントの実行全体を通じてどのように関連するかをモデル化することで、このギャップに対処します。この調査は、LLM エージェントにおける証拠の追跡と実行の出自に関する体系的なレビューと概念的な枠組みを提供します。私たちは、検索根拠、クレームサポート、ツール使用の安全性、メモリリネージ、可観測性、デバッグ、監査、リカバリを結び付ける、統一された来歴の観点に基づいて関連作業を整理します。トレースソース、証拠と実行単位、来歴関係、トレースの粒度とタイミング、表現形式、信頼関数を網羅する分類法を導入します。私たちは、出所の表現、証拠の帰属、ツール使用の出所、実行時のガードレール、出所を伴うメモリ、トレースベースの可観測性、障害診断など、主要な方法論の方向性を検討します。また、既存のベンチマーク、データセット、評価指標を来歴関連の機能にマッピングし、評価が最終的な回答の正しさからプロセスレベルの説明責任にどのように移行できるかについても説明します。最後に、統合トレース スキーマ、クレーム レベルおよびセマンティックの出所、出所を意識した安全メカニズム、現実的な実行トレース ベンチマーク、リカバリ指向の評価、プライバシーを意識した監査インフラストラクチャなどの未解決の課題について概説します。
原文 (English)
From Agent Traces to Trust: Evidence Tracing and Execution Provenance in LLM Agents
Large language model (LLM)-based agents increasingly solve complex tasks by interacting with external tools, retrieval systems, memory modules, environments, and other agents. These capabilities expand agent autonomy, but also make agent behavior harder to verify, debug, and audit. Final-answer accuracy alone cannot explain how an output was produced, which evidence supported each claim, whether tool calls were justified, how memory influenced later decisions, or where execution failures originated. Evidence tracing and execution provenance address this gap by modeling how retrieved evidence, tool outputs, memory items, environment observations, intermediate claims, actions, and final answers are connected throughout agent execution. This survey provides a systematic review and conceptual framework for evidence tracing and execution provenance in LLM agents. We organize related work around a unified provenance perspective that connects retrieval grounding, claim support, tool-use safety, memory lineage, observability, debugging, audit, and recovery. We introduce a taxonomy covering trace sources, evidence and execution units, provenance relations, tracing granularity and timing, representation forms, and trust functions. We review key methodological directions, including provenance representation, evidence attribution, tool-use provenance, runtime guardrails, provenance-bearing memory, trace-based observability, and failure diagnosis. We also map existing benchmarks, datasets, and evaluation metrics to provenance-related capabilities, and discuss how evaluation can move from final-answer correctness toward process-level accountability. Finally, we outline open challenges, including unified trace schemas, claim-level and semantic provenance, provenance-aware safety mechanisms, realistic execution-trace benchmarks, recovery-oriented evaluation, and privacy-aware audit infrastructure.
SharedRequest: 大規模言語モデルのプライバシー保護モデルに依存しない推論
ChatGPT などのパブリック大規模言語モデル (LLM) の広範な展開に伴い、ユーザー プロンプトのプライバシーを保護することがますます重要な問題になっています。既存のプライバシー保護推論方法は、実用性または効率性を犠牲にしており、多くの場合、互換性を制限するモデル固有の変更が必要です。この論文では、個別のプロンプト レベルではなくバッチ レベルでプライバシー保護を再定式化する、プライバシー保護 LLM 推論のためのモデルに依存しないフレームワークである SharedRequest を提案します。重要なアイデアは、元のプロンプトとノイズの多いバリアントを混合することで機密情報を曖昧にし、同時に意味的に同等の命令をグループ化して、LLM 応答品質への影響を最小限に抑えながらクエリの大規模なバッチにわたる推論コストを償却することです。この設計は LLM アーキテクチャから独立しているため、モデル パラメーターへのアクセスやアーキテクチャの変更は必要ありません。経験的な結果は、SharedRequest が以前の差分プライバシー ベースラインと比較して $20\%$ 以上高い実用性を達成し、その共有プロンプト メカニズムにより、非バッチ推論と比較してクエリ コストを最大 $5\time$ 削減することを示しています。
原文 (English)
SharedRequest: Privacy-Preserving Model-Agnostic Inference for Large Language Models
With the widespread deployment of public large language models (LLMs) such as ChatGPT, protecting user prompt privacy has become an increasingly critical issue. Existing privacy-preserving inference methods sacrifice either utility or efficiency, and often require model-specific modifications that limit their compatibility. In this paper, we propose SharedRequest, a model-agnostic framework for privacy-preserving LLM inference that reformulates privacy protection at the batch level rather than the individual-prompt level. The key idea is to obscure sensitive information by mixing original prompts with noisy variants, while grouping semantically equivalent instructions to amortize the inference cost over a large batch of queries with minimal impact on LLM response quality. This design is independent of the LLM architecture, requiring no access to model parameters or architectural modification. Empirical results demonstrate that SharedRequest achieves over $20\%$ higher utility compared to prior differential privacy baselines, and its shared-prompt mechanism reduces query cost by up to $5\times$ compared to non-batched inference.
M$^3$Eval: 認知に基づいたビデオタスクによるマルチモーダル記憶評価
マルチモーダル モデルが長時間ビデオの理解に向けて進歩するにつれ、メモリが重要な能力として浮上します。ビデオ データセットとベンチマークの開発には多大な努力が払われているにもかかわらず、既存の研究は主に知覚と推論に焦点を当てており、どのモデルが保持するか、情報がどの程度忠実に保存されるか、干渉下でもメモリがどの程度堅牢に保たれるかなど、記憶を体系的に評価することはありません。このギャップに対処するために、マルチモーダル モデルでさまざまなメモリ次元を調査するための最初の包括的な評価フレームワークおよびベンチマークである M$^3$Eval を導入します。認知心理学に基づいた当社のデザインは、記憶の重要な側面を分離する慎重に構築されたタスクを特徴としています。 M$^3$Eval を活用して、代表的なマルチモーダル モデルにわたって広範な実験を実施し、一貫した弱点と独特の動作を明らかにしました。私たちは、並列ビデオストリームを処理する際にモデルがもつれの解けた表現を維持するのに苦労し、人間の記憶で観察されるものとは大幅に異なる干渉パターンを示し、記憶ソースを時間領域よりも空間領域でより確実に接地し、限られた記号記憶を実証していることを発見しました。まとめると、私たちのベンチマークは将来の研究のための貴重なリソースを提供しますが、私たちの調査結果は、メモリが基本的でありながらまだ研究されていない機能であることを強調し、マルチモーダルモデルでより効果的なメモリメカニズムを設計するための洞察を提供します。コードとデータセットは https://pku-value-lab.github.io/m3eval-homepage で入手できます。
原文 (English)
M$^3$Eval: Multi-Modal Memory Evaluation through Cognitively-Grounded Video Tasks
As multi-modal models advance towards long-form video understanding, memory emerges as a critical capability. Despite substantial efforts in developing video datasets and benchmarks, existing works primarily focus on perception and reasoning, without systematically evaluating memory: what models retain, how faithfully information is preserved, and how robust memory remains under interference. To address this gap, we introduce M$^3$Eval, the first comprehensive evaluation framework and benchmark for probing different memory dimensions in multi-modal models. Grounded in cognitive psychology, our design features carefully constructed tasks that isolate key aspects of memory. Leveraging M$^3$Eval, we conduct extensive experiments across representative multi-modal models, revealing consistent weaknesses and distinctive behaviors. We find that models struggle to maintain disentangled representations when processing parallel video streams, exhibit interference patterns differing substantially from those observed in human memory, ground memory sources more reliably in the spatial domain than the temporal domain, and demonstrate limited symbolic memory. Collectively, our benchmark provides a valuable resource for future research, while our findings highlight memory as a fundamental yet underexplored capability and offer insights for designing more effective memory mechanisms in multi-modal models. Our code and dataset are available at https://pku-value-lab.github.io/m3eval-homepage.
DAR: エージェントティックハーネスを使用したデオンティック推論
義務的推論とは、法律に基づく納税額の計算や移民控訴の結果の決定など、事例固有の事実に明示的なルールとポリシーを適用することで質問に答えるタスクです。 LLM ベースの義務論的推論の主な技術的課題は、関連するルールセットが長く相互参照される可能性があるため、モデルが特定の推論ステップに必要なルールを見つけられない可能性があることです。 Deontic Agentic Reasoning (DAR) を導入します。これは、モデルがオンデマンドで法令と対話するエージェント推論セットアップです。 DeonticBench のハード サブセット上の複数のハーネスで DAR を評価します。これらの設定全体で、エージェント ハーネスは義務論的推論タスクの最前線を押し広げることができることがわかりましたが、改善は均一ではありません。弱いモデルは、はるかに多くのトークンを消費しながら、数値タスクでパフォーマンスが低下することがよくあります。
原文 (English)
DAR: Deontic Reasoning with Agentic Harnesses
Deontic reasoning is the task of answering questions by applying explicit rules and policies to case-specific facts, for example computing tax liability under a statute or determining the outcome of an immigration appeal. A key technical challenge for LLM-based deontic reasoning is that the relevant ruleset can be long and cross-referenced, so models may still fail to locate the rules needed for a particular reasoning step. We introduce Deontic Agentic Reasoning (DAR), an agentic reasoning setup in which the model interacts with the statutes on demand. We evaluate DAR under multiple harnesses on hard subsets of DeonticBench. Across these settings, we find that agentic harnesses can push the frontier on deontic reasoning tasks, but improvements are not uniform: weaker models often degrade on numerical tasks while consuming far more tokens.
ロバスト推論蒸留のための不変勾配アライメント
大規模言語モデル (LLM) はショートカット学習に悩まされます。論理構造が同一であっても、意味論的表面がトレーニング データと異なる分布外 (OOD) 入力では体系的に失敗します。これは、思考連鎖の推論をより小さな生徒に伝える知識の蒸留パイプラインを弱体化させます。我々は、次の 3 つの革新によって、意味的に多様であるが論理的に同型のサンプル間で勾配更新を調整するトレーニング フレームワークである Invariant Gradient Alignment (IGA) を紹介します。(i) 論理異性体セット。異なる意味論的ドメイン (数学、医学、法律、科学) にわたって同一の論理構造を共有する問題のグループ。 (ii) 微分可能な \emph{Continuous Gradient Conflict Mask}。不変の方向を維持しながら、ドメイン間の勾配分散が大きいパラメータの次元を抑制します。 (iii) マスクされた勾配の切り詰められた SVD 射影を LoRA の低ランク多様体に戻し、パラメータ効率を全体的に維持します。理論的には、IGA は ERM よりも厳しい OOD 一般化境界を生成し、異性体ドメインの数に応じて拡張し、穏やかな規則性の下で標準 SGD レートに収束します。経験的に、IGA は 4 つのベンチマーク全体で 8 つのベースラインを上回り、精度が ERM-SFT よりも最大 14.3 pp 向上し、論理整合性スコアが 0.031 対 0.142 で、表現の不変性が 4 倍向上しました。
原文 (English)
Invariant Gradient Alignment for Robust Reasoning Distillation
Large language models (LLMs) suffer from shortcut learning: they systematically fail on out-of-distribution (OOD) inputs whose semantic surface differs from training data, even when the logical structure is identical. This undermines knowledge distillation pipelines that transfer chain-of-thought reasoning to smaller students. We introduce Invariant Gradient Alignment (IGA), a training framework that aligns gradient updates across semantically diverse but logically isomorphic examples via three innovations: (i) Logical Isomer Sets, groups of problems sharing identical logical structure across distinct semantic domains (mathematics, medicine, law, science); (ii) a differentiable \emph{Continuous Gradient Conflict Mask}, that suppresses parameter dimensions with high cross-domain gradient variance while preserving invariant directions; and (iii) a truncated SVD projection of the masked gradient back onto the LoRA low-rank manifold, maintaining parameter efficiency throughout. Theoretically, IGA yields tighter OOD generalization bounds than ERM, scaling with the number of isomer domains, and converges at the standard SGD rate under mild regularity. Empirically, IGA outperforms eight baselines across four benchmarks with accuracy gains up to 14.3 pp over ERM-SFT and a Logical Consistency Score of 0.031 versus 0.142 -- a fourfold improvement in representational invariance.
言語モデルを使用した研究論文のタイトルの自動生成
研究論文のタイトルは、その主なアイデアと、場合によっては結論を明確かつ簡潔に伝えます。適切なタイトルを選択することは多くの場合困難ですが、自動タイトル生成は著者のこの作業を支援します。この研究では、オープンウェイトの事前トレーニング済みの大規模言語モデルを使用して、抄録から論文のタイトルを生成する手法を提案します。私たちは CSPubSum および LREC-COLING-2024 データセットを使用し、社会科学の Springer ジャーナル 4 誌から厳選された新しいデータセット SpringerSSAT を導入します。さらに、タイトルの生成には GPT-3.5-turbo をゼロショット設定で使用します。モデルのパフォーマンスは、ROUGE、METEOR、MoverScore、BERTScore、および SciBERTScore メトリックを使用して評価されます。私たちの実験では、微調整された PEGASUS-large が、ほとんどの指標において、微調整された LLaMA-3-8B やゼロショット GPT-3.5-turbo などの他のモデルよりも優れていることがわかりました。さらに、ChatGPT が創造的な論文タイトルを生成できることを実証します。全体として、AI によって生成されたタイトルは一般に適切で信頼性があります。
原文 (English)
Automatic Generation of Titles for Research Papers Using Language Models
The title of a research paper conveys its primary idea and, occasionally, its conclusions in a clear and concise manner. Choosing an appropriate title is often challenging, and automated title generation can assist authors in this task. In this work, we propose a technique to generate paper titles from abstracts using open-weight pre-trained and large language models. We use the CSPubSum and LREC-COLING-2024 datasets and introduce a new dataset, SpringerSSAT, curated from four Springer journals in the social sciences. Additionally, we use GPT-3.5-turbo in a zero-shot setting to generate titles. Model performance is evaluated with ROUGE, METEOR, MoverScore, BERTScore, and SciBERTScore metrics. Our experiments show that fine-tuned PEGASUS-large outperforms other models, including fine-tuned LLaMA-3-8B and zero-shot GPT-3.5-turbo, across most metrics. We further demonstrate that ChatGPT can generate creative paper titles. Overall, AI-generated titles are generally appropriate and reliable.
言語モデルのための算術教育学
私たちは、人間の数学教育学の方法が言語モデルのトレーニングを算術推論に導くことができるかどうかを調査します。 GASING メソッド (トークン生成の因果関係に沿った左から右への手順で基本的な算術計算を解くインドネシアの教育学) に基づいて、各操作を計算手順として運用し、その実行トレースが自然言語の思考連鎖 (CoT) 監視にシリアル化されます。インドネシア語用の音節凝集型 TOBA トークナイザーを備えた小型 GPT-2 デコーダー (86M パラメーター) は、強化学習や報酬ベースの最適化を行わずに、次のトークンの予測目標のみを使用して、このデータに基づいて最初からトレーニングされます。トレーニングのモニタリングにより、3 つの異なる学習段階が明らかになり、機構分析 (CoT 情報グラフへの注意マスキング介入、残差ストリームの調査、ロジットレンズ検査) から、モデルが最初に手続き型経路を内部化し、その後、明示的なステップごとの計算を行わずに中間結果を取得する連想的な「暗算」能力を開発することが示されました。トレーニングされたモデルは、保留された問題に対して 80% 以上の精度に達し、大幅に大規模な言語モデルに対して競争力のあるパフォーマンスを達成しました。これは、対象を絞った教育学的に根拠のあるトレーニングにより、小規模でも強力で経済的な算術能力を生み出すことができることを示しています。
原文 (English)
Arithmetic Pedagogy for Language Models
We investigate whether methods of human mathematics pedagogy can guide the training of language models toward arithmetic reasoning. Building on the GASING method -- an Indonesian pedagogy that solves basic arithmetic through a left-to-right procedure aligned with the causal order of token generation -- we operationalize each operation as a computational procedure whose execution trace is serialized into natural-language Chain-of-Thought (CoT) supervision. A small GPT-2 decoder (86M parameters) with a syllabic-agglutinative TOBA tokenizer for Indonesian is trained from scratch on this data using only a next-token prediction objective, without reinforcement learning or reward-based optimization. Monitoring training reveals three distinct learning phases, and mechanistic analyses -- attention-masking interventions on the CoT information graph, residual-stream probing, and logit-lens inspection -- show that the model first internalizes a procedural pathway and subsequently develops an associative, ``mental-arithmetic'' capacity that retrieves intermediate results without explicit step-by-step computation. The trained model reaches over 80% accuracy on held-out problems and attains competitive performance against substantially larger language models, indicating that targeted, pedagogically grounded training can yield strong and economical arithmetic capability at small scale.
子供の自己中心的なインプットによる継続的な視覚的および言語的学習
子どもたちは、時間的に構造化された継続的な自己中心的な経験の流れから言葉の意味を学びます。最近の研究では、ニューラルネットワークは子供の自己中心的なビデオ録画からも単語参照マッピングを学習できることが示されているが、それらはシャッフルされたデータを数百エポックにわたって循環しており、子供たちが実際に環境に遭遇する様子とは対照的である。私たちは、SAYCam データセットを単一の時系列パスで処理し、ストリーミング視覚表現学習と画像テキスト対比目標を組み合わせた継続的マルチモーダル学習フレームワークである BabyCL を紹介します。 BabyCL は、ストリームの多段階の時間的セグメンテーションと、ビジュアル履歴とマルチモーダル履歴を個別に管理するデュアル リプレイ バッファーを組み合わせ、共有バックボーン上で 3 つの対照的な損失を使用して共同トレーニングされます。一致した最適化予算の下で、BabyCL は SAYCam Labeled-S 4AFC ベンチマークでストリーミング学習ベースラインを上回り、オフライン トレーニングの上限との差を大幅に狭めます。アブレーションは、オンライン時間セグメンテーション ウィンドウの長さとリプレイ バッファーの排除ルールに対してゲインが堅牢であることを示しています。まとめると、これらの結果は、子供の実際の経験にはるかに近い訓練条件下で、意味のある単語参照マッピングが現れる可能性があることを示しています。
原文 (English)
Continual Visual and Verbal Learning Through a Child's Egocentric Input
Children learn the meanings of words from a continuous, temporally structured stream of egocentric experience. Recent work shows that neural networks can also learn word-referent mappings from a child's egocentric video recordings, but they cycle through the shuffled data for hundreds of epochs, contrasting with how children actually encounter their environment. We introduce BabyCL, a continual multimodal learning framework that processes the SAYCam dataset in a single chronological pass, combining streaming visual representation learning with an image-text contrastive objective. BabyCL combines a multi-stage temporal segmentation of the stream with a dual replay buffer that independently manages visual and multimodal histories, and it is jointly trained with three contrastive losses on a shared backbone. Under a matched optimization budget, BabyCL outperforms streaming learning baselines on the SAYCam Labeled-S 4AFC benchmark, substantially narrowing the gap to an upper bound of offline training. Ablations show that the gains are robust to the length of the online temporal segmentation window and the eviction rule of the replay buffer. Together, these results show that meaningful word-referent mappings can emerge under training conditions much closer to a child's actual experience.
オーディオインタラクションモデル
オーディオは本質的にインタラクティブなモダリティですが、今日の大規模オーディオ言語モデル (LALM) はオフラインであり、ストリーミング オーディオ モデルはそれぞれストリーミング ASR や音声チャットなどの単一タスクのみを処理します。それらを 1 つのオンライン LALM に統合する時が来ました。LALM は、常時オンの知覚、決定、応答ループを通じて、音、環境、指示をリアルタイムで聞き、その場で反応するモデルです。私たちはこの体制をオーディオ インタラクション モデルとして形式化し、オーディオ インタラクションで実現します。これは、オフライン タスクの実行を保持しながら、対話からフル ボイス チャットに至るまでのオンラインの一般的な音声指示を追加し、ストリームのセマンティクスからいつ応答するかを決定する統合ストリーミング モデルです。これを可能にするために、ストリーミングネイティブのデータ構築、理解を意識したトレーニング、安定したリアルタイムインタラクションのための非同期低遅延推論を通じて、データからトレーニング、デプロイメントに至るまで、認識・決定・応答ループをエンドツーエンドでインスタンス化するフレームワークである SoundFlow を提案します。さらに、7 つの基本能力と 28 のサブタスクにわたる 260 万項目のストリーミング コーパスである StreamAudio-2M と、プロアクティブな音声介入を評価するための Proactive-Sound-Bench を構築します。 8 つのベンチマークにわたって、Audio-Interaction は主流のオーディオ タスクで競争力のあるパフォーマンスを維持しながら、リアルタイム ASR、ストリーミング オーディオ命令のフォロー、プロアクティブ ヘルプなど、オフライン LALM ではアクセスできない機能を解放します。
原文 (English)
Audio Interaction Model
Audio is an inherently interactive modality, yet today's Large Audio Language Models (LALMs) are offline, and streaming audio models each handle only a single task such as streaming ASR or voice chatting. It is time to unify them into one online LALM: a model that, through an always-on perceive-decide-respond loop, listens to sound, environment, and instructions in real time and reacts on the fly. We formalize this regime as the Audio Interaction Model, and realize it with Audio-Interaction, a unified streaming model that retains offline task execution while adding online general audio instruction following, from dialogue to full voice chatting, deciding when to respond from the semantics of the stream. To enable this, we propose SoundFlow, a framework that instantiates the perceive-decide-respond loop end to end, from data to training to deployment, through streaming-native data construction, comprehension-aware training, and asynchronous low-latency inference for stable real-time interaction. We further construct StreamAudio-2M, a 2.6M-item streaming corpus spanning 7 fundamental abilities and 28 sub-tasks, and Proactive-Sound-Bench for evaluating proactive audio intervention. Across 8 benchmarks, Audio-Interaction preserves competitive performance on mainstream audio tasks while unlocking capabilities inaccessible to offline LALMs, including real-time ASR, streaming audio instruction following, and proactive help.
LLM 駆動エージェントによる効率的で証拠に基づくモビリティ予測に向けて
個人レベルのモビリティ予測は、都市シミュレーション、交通計画、政策分析の中心となります。教師ありシーケンス モデルは高い精度を実現しますが、タスク固有のトレーニングが必要であり、意思決定レベルの透明性は限られています。最近の LLM ベースの手法は解釈可能性を向上させていますが、ほとんどが静的プロンプトとシングルパス推論に依存しているため、モビリティ信号が弱いか矛盾している場合に追加の証拠を探す能力が制限されています。私たちは、次の場所の予測を適応的な証拠に基づいた意思決定として定式化する、トレーニング不要の LLM 駆動のエージェント フレームワークである \method{} を提案します。 \method{} は、歴史的な規則性に基づく高速パスを通じて日常的なケースを解決しますが、あいまいなケースでは、最近の軌跡、過去の動作、滞在と移動の可能性、および地理的証拠に基づいて反復的なツールの使用がトリガーされます。 3 つのモビリティ データセット全体で、AgentMob はトレーニング不要の LLM ベースの手法の中で最も強力な総合パフォーマンスを達成し、GPT-5.4 は BW で 71.42\% Acc@1、YJMob100K で 33.14\%、上海 ISP で 33.50\% に達しました。 BW 非高速パスのケースでは、LLM コントローラーは、同じツールの統計ベースラインと比較して Acc@1 を 30.65\% から 48.62\% に改善します。これは、その主な利点が、適応的な証拠収集を通じて曖昧な予測を解決することにあることを示しています。コードは https://github.com/Unknown-zoo/AgentMob で入手できます。
原文 (English)
Towards Efficient and Evidence-grounded Mobility Prediction with LLM-Driven Agent
Individual-level mobility prediction is central to urban simulation, transportation planning, and policy analysis. Supervised sequence models achieve strong accuracy but require task-specific training and offer limited decision-level transparency. Recent LLM-based methods improve interpretability, yet mostly rely on static prompts and single-pass inference, limiting their ability to seek additional evidence when mobility signals are weak or conflicting. We propose \method{}, a training-free LLM-driven agent framework that formulates next-location prediction as adaptive evidence-controlled decision making. \method{} resolves routine cases through a fast path based on historical regularity, while ambiguous cases trigger iterative tool use over recent trajectories, historical behavior, stay-move likelihood, and geographical evidence. Across three mobility datasets, AgentMob achieves the strongest overall performance among training-free LLM-based methods, with GPT-5.4 reaching 71.42\% Acc@1 on BW, 33.14\% on YJMob100K, and 33.50\% on Shanghai ISP. On BW non-fast-path cases, the LLM controller improves Acc@1 from 30.65\% to 48.62\% over a same-tool statistical baseline, showing that its main benefit lies in resolving ambiguous predictions through adaptive evidence gathering. Our code is available at https://github.com/Unknown-zoo/AgentMob.
失敗した推論トレースから何が修正可能かを教えてくれます (ただし、それを読むことではわかりません)
トレーニング後の言語モデルが推論の問題で失敗した場合、一般的なテスト時間のスケーリング対応は、追加の試行により多くの計算を費やし、失敗したトレースはそれ以上の役割を果たさないことです。私たちは、これは重要なシグナルを破棄していると主張します。一部の失敗は不運なサンプリングによって発生し、より多くのロールアウトが役立ちますが、他の失敗は構造的なものであり、予算に関係なく再サンプリングに抵抗します。私たちは、失敗したトレースが回復可能構造、つまりテスト時の介入によって特定の失敗を救済できる推論時の署名をエンコードしていると提案します。利用可能な介入の構造から導出された 3 つの問題レベルの軌跡の特徴は、失敗したロールアウトのテキストではなく、配布の署名からこの構造を復元します。これらは、障害を安定した領域にクラスタリングし、さまざまなトレーニング後の方法の障害トポグラフィーを特徴付け ($84.3{\pm}4.3\%$ の精度、過半数クラスのベースラインより $+20\%$)、デプロイメント関連の Steerable-Hard サブセット (再試行が不十分で制限された介入が到達可能な障害) でレスキューを $+12.2\%$ 引き上げるトレーニング不要のルーティング ルールをサポートします。機能とルーティング ルールは、2 つのファミリー間プローブ間で転送されます。したがって、同じ 3 つの機能は、破棄されたデータから失敗したトレースを診断オブジェクトに変換し、トレーニング時や重み空間にアクセスすることなく、テスト時のルーティングとトレーニング後の分析をサポートします。
原文 (English)
Failed Reasoning Traces Tell You What Is Fixable (But Not by Reading Them)
When post-trained language models fail on reasoning problems, the common test-time-scaling response is to spend more compute on additional attempts, and the failed traces play no further role. We argue this discards a crucial signal; some failures come from unlucky sampling, where more rollouts help, while others are structural and resist resampling regardless of budget. We propose that failed traces encode recoverability structure: the inference-time signature of which test-time interventions can rescue a given failure. Three problem-level trajectory features, derived from the structure of available interventions, recover this structure from the distributional signature of failed rollouts, not their text. They cluster failures into stable regimes, characterize the failure topography of different post-training methods ($84.3{\pm}4.3\%$ accuracy, $+20\%$ over a majority-class baseline), and support a training-free routing rule that lifts rescue by $+12.2\%$ on the deployment-relevant Steerable-Hard subset (failures where retry is insufficient and a bounded intervention is reachable). The features and the routing rule transfer across two cross-family probes. The same three features thus convert failed traces from discarded data into a diagnostic object, supporting test-time routing and post-training analysis without training-time or weight-space access.
分布型 DAgger による豊富なフィードバックからの強化学習
推論モデルは急速に進歩しましたが、検証可能な報酬からの支配的な強化学習 (RLVR) レシピは驚くほど狭いままです。多くの応答をサンプリングし、最終的な答えが正しいかどうかを示す 1 ビットで各応答に報酬を与えます。さらに、多くの設定では、実行トレース、ツール出力、専門家による修正、モデルの自己評価など、豊富なフィードバックが提供されます。私たちは、古典的な模倣学習アルゴリズム DAgger の分布型バリアントを通じて、そのようなフィードバックを使用する方法を研究します。この場合、学習者は、現在のポリシーが訪問する州に関する専門家分布にローカルにアクセスできます。これにより、ブラックボックス専門家とその配列レベルの勾配が、将来の専門家と学生の意見の相違を以前の決定にまで「伝播させることによって豊富な単位の割り当てを行う」ことを認める、単純な順方向クロスエントロピー目標が得られます。我々は、逆KLまたはジェンセン・シャノンに基づく自己蒸留目標を備えた以前のRLでは、単調な政策改善を保証できないことを示します。たとえ専門家がより高い報酬を得ていたとしても、その更新により、より悪いアクションの確率が増加する可能性があります。対照的に、順方向クロスエントロピーは単調な政策改善を認め、後悔の保証を享受できることを示します。さらに、私たちの目標が教師に重み付けされた成功の可能性の下限を最適化し、Pass@N の向上につながることを示します。経験的に、私たちのアプローチである DistIL は、科学的推論、コーディング、難しい数学的問題の解決など、さまざまな領域にわたる自己蒸留ベースラインにより、RLVR および RL よりも改善されています。
原文 (English)
Reinforcement Learning from Rich Feedback with Distributional DAgger
Reasoning models have advanced rapidly, but the dominant reinforcement learning from verifiable rewards (RLVR) recipe remains surprisingly narrow: sample many responses and reward each with a single bit indicating whether the final answer is correct. Yet many settings provide rich feedback, including execution traces, tool outputs, expert corrections, and model self-evaluations. We study how to use such feedback through a distributional variant of the classic imitation learning algorithm DAgger, where the learner has local access to an expert distribution on states visited by the current policy. This yields a simple forward cross-entropy objective that admits a blackbox expert and whose sequence-level gradient {conduct rich credit assignment by propagating} future expert-student disagreement back to earlier decisions. We show that prior RL with self-distillation objectives based on reverse KL or Jensen-Shannon fail to guarantee monotonic policy improvement: even when the expert has higher reward, their updates may increase probability on worse actions. In contrast, we show that forward cross-entropy admits monotonic policy improvement and enjoys guarantees on regret. We further show that our objective optimizes a lower bound on teacher-weighted likelihood of success, leading to improved Pass@N. Empirically, our approach, DistIL, improves over RLVR and RL with self-distillation baselines across a variety of domains: scientific reasoning, coding, and solving hard mathematical problems.
マルチエージェント推論におけるストリーミング通信
マルチエージェント推論システムは、エンドツーエンドのレイテンシーをパイプラインの深さに応じて線形に拡張する「生成してから転送」パラダイムを採用しています。 StreamMA は、各推論ステップが生成されるとすぐに下流のエージェントにストリーミングし、隣接するエージェントをパイプライン化して待ち時間を短縮するマルチエージェント推論システムです。驚くべきことに、このパイプラインは有効性も向上させます。マルチステップの推論の品質は不均一で、初期のステップは後のステップよりも信頼性が高いため、完全なチェーンではなくこれらの信頼できる初期ステップを使用することで、エラーが発生しやすい後期ステップが下流エージェントに誤解を与えることを防ぎます。ストリーム、シリアル、および単一プロトコルの最初の閉じた形式の結合分析によって両方の利点を形式化し、有効性の順序付け、高速化の上限、およびコスト比を導き出します。数学、科学、コードにわたる 8 つの推論ベンチマーク、2 つのフロンティア LLM (Claude Opus 4.6 および GPT-5.4)、および 3 つのトポロジ (チェーン、ツリー、グラフ) にわたって、StreamMA は両方のベースラインを上回りました (HMMT 2026 で平均 +7.3 pp、最大 +22.4 pp、Claude Opus 4.6-高)。これらの貢献を超えて、「ステップレベルのスケーリング則」を発見しました。つまり、エージェントごとのステップを増やすと、有効性と効率の両方が一貫して向上します。これは、エージェント数のスケーリングと直交し、エージェント数のスケーリングと組み合わせ可能な新しいスケーリングの次元です。
原文 (English)
Streaming Communication in Multi-Agent Reasoning
Multi-agent reasoning systems adopt a "generate-then-transfer" paradigm that forces end-to-end latency to scale linearly with pipeline depth. We introduce StreamMA, a multi-agent reasoning system that streams each reasoning step to downstream agents as soon as it is generated, pipelining adjacent agents and thus reducing latency. Surprisingly, this pipelining also improves effectiveness: because multi-step reasoning quality is non-uniform and early steps are more reliable than later ones, working with these reliable early steps instead of the full chain prevents error-prone late steps from misleading downstream agents. We formalize both advantages with the first closed-form joint analysis of stream, serial, and single protocols, deriving the effectiveness ordering, speedup upper bound, and cost ratio. Across eight reasoning benchmarks spanning mathematics, science, and code, two frontier LLMs (Claude Opus 4.6 and GPT-5.4), and three topologies (Chain, Tree, Graph), StreamMA outperforms both baselines (avg. +7.3 pp, max +22.4 pp on HMMT 2026; Claude Opus 4.6-high). Beyond these contributions, we discover a "step-level scaling law": increasing per-agent steps consistently improves both effectiveness and efficiency, a new scaling dimension orthogonal to and composable with agent-count scaling.
より長いコンテキスト、より深い思考: 推論における長いコンテキスト能力の役割を明らかにする
最近の言語モデルは強力な推論能力を示していますが、長い文脈の能力が推論に及ぼす影響はまだ解明されていません。この研究では、現在の推論の制限は、部分的には、ロングコンテキストの能力が不十分であることに起因しており、(1) コンテキストウィンドウの長さが長いほど推論のパフォーマンスが向上することが多く、(2) 推論に失敗したケースは、失敗したロングコンテキストのケースに似ている、などの経験的観察によって動機付けられていると仮説を立てています。この仮説を検証するために、教師あり微調整 (SFT) の前にモデルのロングコンテキスト能力を強化することが推論パフォーマンスの向上につながるかどうかを調べます。具体的には、同一のアーキテクチャと微調整データを備えているが、ロングコンテキスト容量のレベルが異なるモデルを比較しました。私たちの結果は一貫した傾向を示しています。つまり、より強力なロングコンテキスト能力を持つモデルは、SFT 後の推論ベンチマークで大幅に高い精度を達成します。特に、これらの向上は入力長が短いタスクでも持続しており、長いコンテキストのトレーニングが推論パフォーマンスに一般化可能な利点を提供していることを示しています。これらの発見は、ロングコンテキストモデリングが長い入力を処理するために不可欠であるだけでなく、推論のための重要な基盤としても機能することを示唆しています。私たちは、将来の言語モデルの設計において、長いコンテキストの能力を第一級の目標として扱うことを主張します。
原文 (English)
Longer Context, Deeper Thinking: Uncovering the Role of Long-Context Ability in Reasoning
Recent language models exhibit strong reasoning capabilities, yet the influence of long-context capacity on reasoning remains underexplored. In this work, we hypothesize that current limitations in reasoning stem, in part, from insufficient long-context capacity, motivated by empirical observations such as (1) higher context window length often leads to stronger reasoning performance, and (2) failed reasoning cases resemble failed long-context cases. To test this hypothesis, we examine whether enhancing a model's long-context ability before Supervised Fine-Tuning (SFT) leads to improved reasoning performance. Specifically, we compared models with identical architectures and fine-tuning data but varying levels of long-context capacity. Our results reveal a consistent trend: models with stronger long-context capacity achieve significantly higher accuracy on reasoning benchmarks after SFT. Notably, these gains persist even on tasks with short input lengths, indicating that long-context training offers generalizable benefits for reasoning performance. These findings suggest that long-context modeling is not just essential for processing lengthy inputs, but also serves as a critical foundation for reasoning. We advocate for treating long-context capacity as a first-class objective in the design of future language models.
悪い分子の破壊: MLLM は構造レベルの分子解毒の準備ができていますか?
毒性は依然として、初期段階の医薬品開発の失敗の主な原因です。分子設計と特性予測の進歩にもかかわらず、毒性が低減された構造的に有効な分子代替物を生成する分子毒性修復の課題は、まだ体系的に定義されず、ベンチマークも確立されていません。このギャップを埋めるために、分子毒性修復に焦点を当てた汎用マルチモーダル大規模言語モデル (MLLM) の最初のベンチマーク タスクである ToxiMol を紹介します。私たちは、さまざまなメカニズムと粒度にわたる 11 の主要なタスクと 660 の代表的な有毒分子をカバーする標準化されたデータセットを構築します。私たちは、専門的な毒性学の知識に基づいて、メカニズムを認識し、タスクに適応する機能を備えた迅速なアノテーション パイプラインを設計します。並行して、毒性エンドポイント予測、合成アクセシビリティ、薬物らしさ、構造類似性を修復成功のためのハイスループット評価チェーンに統合する自動評価フレームワーク ToxiEval を提案します。当社は 43 の主流の汎用 MLLM を体系的に評価し、複数のアブレーション研究を実施して、評価指標、候補の多様性、失敗の原因などの重要な問題を分析します。実験結果は、現在の MLLM がこのタスクに関して依然として大きな課題に直面しているものの、毒性の理解、意味論的制約の順守、および構造を意識した編集において有望な能力を実証し始めていることを示しています。
原文 (English)
Breaking Bad Molecules: Are MLLMs Ready for Structure-Level Molecular Detoxification?
Toxicity remains a leading cause of early-stage drug development failure. Despite advances in molecular design and property prediction, the task of molecular toxicity repair, generating structurally valid molecular alternatives with reduced toxicity, has not yet been systematically defined or benchmarked. To fill this gap, we introduce ToxiMol, the first benchmark task for general-purpose Multimodal Large Language Models (MLLMs) focused on molecular toxicity repair. We construct a standardized dataset covering 11 primary tasks and 660 representative toxic molecules spanning diverse mechanisms and granularities. We design a prompt annotation pipeline with mechanism-aware and task-adaptive capabilities, informed by expert toxicological knowledge. In parallel, we propose an automated evaluation framework, ToxiEval, which integrates toxicity endpoint prediction, synthetic accessibility, drug-likeness, and structural similarity into a high-throughput evaluation chain for repair success. We systematically assess 43 mainstream general-purpose MLLMs and conduct multiple ablation studies to analyze key issues, including evaluation metrics, candidate diversity, and failure attribution. Experimental results show that although current MLLMs still face significant challenges on this task, they begin to demonstrate promising capabilities in toxicity understanding, semantic constraint adherence, and structure-aware editing.
制約付き適応拒否サンプリング
言語モデル (LM) は、生成された出力が厳密な意味論的または構文上の制約を満たす必要があるアプリケーションで使用されることが増えています。制約付き生成に対する既存のアプローチはさまざまです。貪欲な制約付きデコード方法は、デコード中に有効性を強制しますが、LM の分布を歪めます。一方、リジェクション サンプリング (RS) は忠実度を維持しますが、無効な出力を破棄することで計算を無駄にします。サンプルの有効性と多様性の両方が重要であるプログラム ファジングなどの領域では、両極端が問題となります。我々は、分布歪みを生じさせずに RS のサンプル効率を厳密に改善するアプローチである、制約付き適応除去サンプリング (CARS) を紹介します。 CARS は、制約のない LM サンプリングから始まり、制約違反の継続をトライに記録し、将来の描画から確率質量を差し引くことで、制約に違反する継続を適応的に除外します。この適応的な枝刈りにより、無効であることが証明されたプレフィックスが決して再検討されず、受け入れ率が単調に向上し、結果として得られるサンプルが制約された分布に正確に従うことが保証されます。プログラムのファジングや分子生成など、さまざまな領域の実験において、CARS は一貫して高い効率 (有効サンプルあたりの LM フォワードパスの数で測定) を達成すると同時に、GCD や LM の分布を近似する方法の両方よりも強力なサンプル多様性を生み出します。
原文 (English)
Constrained Adaptive Rejection Sampling
Language Models (LMs) are increasingly used in applications where generated outputs must satisfy strict semantic or syntactic constraints. Existing approaches to constrained generation fall along a spectrum: greedy constrained decoding methods enforce validity during decoding but distort the LM's distribution, while rejection sampling (RS) preserves fidelity but wastes computation by discarding invalid outputs. Both extremes are problematic in domains such as program fuzzing, where both validity and diversity of samples are essential. We present Constrained Adaptive Rejection Sampling (CARS), an approach that strictly improves the sample-efficiency of RS without distributional distortion. CARS begins with unconstrained LM sampling and adaptively rules out constraint-violating continuations by recording them in a trie and subtracting their probability mass from future draws. This adaptive pruning ensures that prefixes proven invalid are never revisited, acceptance rates improve monotonically, and the resulting samples exactly follow the constrained distribution. In experiments on a variety of domains -- e.g., program fuzzing and molecular generation -- CARS consistently achieves higher efficiency -- measured in the number of LM forward passes per valid sample -- while also producing stronger sample diversity than both GCD and methods that approximate the LM's distribution.
防御的な論理的思考を学ぶことで、深い暗黙の好みを調整する
大規模言語モデル (LLM) がユーザー中心の対話に効果的に関与できるようにするには、パーソナライズされた調整が不可欠です。しかし、現在の手法は二重の課題に直面しています。つまり、ユーザーの深い暗黙の好み(明示されていない目標、意味論的コンテキスト、リスク許容度など)を推測することができず、現実世界のあいまいさを乗り越えるために必要な防御的推論が欠けています。この認知ギャップは、表面的で脆弱で近視眼的な反応を引き起こします。これに対処するために、我々は、アラインメントをスカラー報酬マッチングタスクから構造化された推論プロセスに再構築する、批判駆動推論アラインメント (CDRA) を提案します。まず、プリファレンス推論のギャップを埋めるために、DeepPref ベンチマークを導入します。このデータセットは、20 のトピックにわたる 3000 のプリファレンスとクエリのペアで構成されており、クエリのセマンティクスを解体して潜在的なリスクを明らかにするために、批判注釈付きの推論チェーンを生成する多面的な認知評議会をシミュレートすることによってキュレーションされています。第 2 に、防御的推論を植え付けるために、報酬モデリングを個人化された推論タスクとして組み立てる、個人化された生成プロセス報酬モデル (Pers-GenPRM) を導入します。この理論的根拠に基づいて最終スコアを出力する前に、ユーザーの好みと応答の整合性を評価するための批評チェーンを生成します。最終的に、この解釈可能で構造化された報酬信号は、数値フィードバックと自然言語フィードバックの両方を統合するプロセスレベルのオンライン強化学習アルゴリズムである批判主導型政策調整を通じて政策モデルを導きます。実験では、CDRA が、堅牢な推論を実行しながら、ユーザーの真の好みを発見して調整することに優れていることが実証されています。コードとデータセットは https://github.com/Zephyrian-Hugh/Deep-pref で入手できます。
原文 (English)
Aligning Deep Implicit Preferences by Learning to Reason Defensively
Personalized alignment is crucial for enabling Large Language Models (LLMs) to engage effectively in user-centric interactions. However, current methods face a dual challenge: they fail to infer users' deep implicit preferences (including unstated goals, semantic context and risk tolerances), and they lack the defensive reasoning required to navigate real-world ambiguity. This cognitive gap leads to responses that are superficial, brittle and short-sighted. To address this, we propose Critique-Driven Reasoning Alignment (CDRA), which reframes alignment from a scalar reward-matching task into a structured reasoning process. First, to bridge the preference inference gap, we introduce the DeepPref benchmark. This dataset, comprising 3000 preference-query pairs across 20 topics, is curated by simulating a multi-faceted cognitive council that produces critique-annotated reasoning chains to deconstruct query semantics and reveal latent risks. Second, to instill defensive reasoning, we introduce the Personalized Generative Process Reward Model (Pers-GenPRM), which frames reward modeling as a personalized reasoning task. It generates a critique chain to evaluate a response's alignment with user preferences before outputting a final score based on this rationale. Ultimately, this interpretable, structured reward signal guides policy model through Critique-Driven Policy Alignment, a process-level online reinforcement learning algorithm integrating both numerical and natural language feedback. Experiments demonstrate that CDRA excels at discovering and aligning with users' true preferences while executing robust reasoning. Our code and dataset are available at https://github.com/Zephyrian-Hugh/Deep-pref.
MENTOR: LLM の暗黙的なドメイン リスクを発見し軽減するためのメタ認知主導の自己進化フレームワーク
大規模言語モデル (LLM) の安全性を確保することは、実際の展開にとって重要です。しかし、現在の安全対策では、ドメイン固有の暗黙的なリスクに対処できないことがよくあります。このギャップを調査するために、教育、財務、管理にわたる 3,000 件の注釈付きクエリのデータセットを導入します。 14 の主要 LLM の評価では、平均脱獄成功率 57.8\% という懸念すべき脆弱性が明らかになりました。これに応えて、私たちはメタ認知主導の自己進化フレームワークである MENTOR を提案します。 MENTOR は、視点の取得や結果論的推論などの戦略を使用してメタ認知的自己評価を実行し、潜在的なモデルの不整合を明らかにします。結果として生じる反映は、動的なルールベースのナレッジ グラフに蒸留され、そこから取得されたルールが、推論中に内部表現をガイドするためのアクティベーション レベルのステアリング信号に変換されます。実験では、MENTOR がテストされたすべてのドメインにわたって攻撃の成功率を大幅に低下させ、既存の安全調整方法よりも優れたパフォーマンスを発揮することが実証されています。 MENTOR のコードとデータセットは、https://anonymous.4open.science/r/MENTOR-Evo で入手できます。
原文 (English)
MENTOR: A Metacognition-Driven Self-Evolution Framework for Uncovering and Mitigating Implicit Domain Risks in LLMs
Ensuring the safety of Large Language Models (LLMs) is critical for real-world deployment. However, current safety measures often fail to address implicit, domain-specific risks. To investigate this gap, we introduce a dataset of 3,000 annotated queries spanning education, finance, and management. Evaluations across 14 leading LLMs reveal a concerning vulnerability: an average jailbreak success rate of 57.8\%. In response, we propose MENTOR, a metacognition-driven self-evolution framework. MENTOR performs metacognitive self-assessment, using strategies such as perspective-taking and consequential reasoning to uncover latent model misalignments. The resulting reflections are distilled into dynamic rule-based knowledge graphs, from which retrieved rules are converted into activation-level steering signals to guide internal representations during inference. Experiments demonstrate that MENTOR substantially reduces attack success rates across all tested domains and outperforms existing safety alignment methods. The code and dataset for MENTOR are available at: https://anonymous.4open.science/r/MENTOR-Evo.
PersistBench: LLM は長期記憶をいつ忘れるべきですか?
会話アシスタントは、長期記憶と大規模言語モデル (LLM) をますます統合しています。この記憶の永続性(たとえば、ユーザーがベジタリアンであるなど)は、将来の会話におけるパーソナライゼーションを強化することができます。しかし、同じ持続性が、これまでほとんど見落とされてきた安全上のリスクを引き起こす可能性もあります。そこで、これらの安全リスクの程度を測定するために PersistBench を導入します。我々は、長期記憶に特有の 2 つのリスクを特定しました。1 つは、LLM が長期記憶からコンテキストを不適切に注入するクロスドメイン漏洩です。保存された長期記憶がユーザーのバイアスを知らず知らずのうちに強化する、記憶誘発性のお調子者。私たちは 18 のフロンティア LLM とオープンソース LLM をベンチマークで評価します。私たちの結果は、これらの LLM 全体での失敗率が驚くほど高いことを明らかにしました。失敗率の中央値は、クロスドメイン サンプルで 53%、お調子者サンプルで 97% でした。これに対処するために、私たちのベンチマークは、最先端の会話システムにおけるより堅牢で安全な長期メモリ使用法の開発を奨励します。
原文 (English)
PersistBench: When Should Long-Term Memories Be Forgotten by LLMs?
Conversational assistants are increasingly integrating long-term memory with large language models (LLMs). This persistence of memories, e.g., the user is vegetarian, can enhance personalization in future conversations. However, the same persistence can also introduce safety risks that have been largely overlooked. Hence, we introduce PersistBench to measure the extent of these safety risks. We identify two long-term memory-specific risks: cross-domain leakage, where LLMs inappropriately inject context from the long-term memories; and memory-induced sycophancy, where stored long-term memories insidiously reinforce user biases. We evaluate 18 frontier and open-source LLMs on our benchmark. Our results reveal a surprisingly high failure rate across these LLMs - a median failure rate of 53% on cross-domain samples and 97% on sycophancy samples. To address this, our benchmark encourages the development of more robust and safer long-term memory usage in frontier conversational systems.
配信外の検出から幻覚の検出まで: 幾何学的な視点
大規模な言語モデルにおける幻覚の検出は、安全性と信頼性に重大な影響を与える重大な未解決の問題です。既存の幻覚検出方法は、質問に答えるタスクでは優れたパフォーマンスを発揮しますが、推論が必要なタスクでは依然として効果が低いままです。この研究では、コンピュータ ビジョンなどの分野でよく研究されている問題である、分布外 (OOD) 検出というレンズを通して幻覚検出を再検討します。言語モデルで次のトークンの予測を分類タスクとして扱うことにより、大規模な言語モデルの構造的な違いを考慮して適切な変更が加えられる限り、OOD 手法を適用することができます。我々は、OOD ベースのアプローチにより、トレーニング不要の単一サンプルベースの検出器が得られ、推論タスクの幻覚検出において高い精度が達成されることを示します。全体として、私たちの研究は、幻覚検出を OOD 検出として再構成することが、言語モデルの安全性への有望でスケーラブルな道筋を提供することを示唆しています。
原文 (English)
From Out-of-Distribution Detection to Hallucination Detection: A Geometric View
Detecting hallucinations in large language models is a critical open problem with significant implications for safety and reliability. While existing hallucination detection methods achieve strong performance in question-answering tasks, they remain less effective on tasks requiring reasoning. In this work, we revisit hallucination detection through the lens of out-of-distribution (OOD) detection, a well-studied problem in areas like computer vision. Treating next-token prediction in language models as a classification task allows us to apply OOD techniques, provided appropriate modifications are made to account for the structural differences in large language models. We show that OOD-based approaches yield training-free, single-sample-based detectors, achieving strong accuracy in hallucination detection for reasoning tasks. Overall, our work suggests that reframing hallucination detection as OOD detection provides a promising and scalable pathway toward language model safety.
SciDER: 科学データ中心のエンドツーエンド研究者
大規模な言語モデルが科学的発見を加速させる一方で、既存のエージェントは適応性、ドメインの一般化、マルチモーダルなスケーラビリティにおいて厳しい制限に直面しており、多くの場合、生のドメイン固有の実験データを自律的に処理するのに苦労しています。これらの障壁を克服するために、研究ライフサイクル全体を柔軟に自動化するように設計されたマルチエージェント システムである SciDER を導入します。このフレームワークは、新しいデータ中心のアプローチを採用し、4 つの専門化されたサブエージェントにわたる動的なマルチモーダル スキル システムを統合します。具体的には、アイデア化エージェントは進化的アイデア検索を通じて新しい仮説を生成し、データ分析エージェントは生データを体系的に構造化し、実験エージェントはデータセットの特性に基づいて実行可能コードを合成し、批評エージェントは反復的な自己洗練を推進します。オープンソースの科学的発見を民主化するために、私たちは OpenSciDER-27B 微調整モデルと並行して、高品質の実行軌跡データセットである OpenSciDER-SFT-8K をリリースします。 6 つのベンチマーク全体で、SciDER と OpenSciDER は競合する、または優れた結果を獲得しており、特にデータ中心の分析、エンドツーエンドの研究実行、マルチモーダルな科学的視覚化において大きな成果が得られています。 SciDER は、データ分析と実験の実行を統合することにより、抽象的な科学的推論と再現可能な実験合成の間のギャップを埋めます。
原文 (English)
SciDER: Scientific Data-centric End-to-end Researcher
While large language models accelerate scientific discovery, existing agents face severe limitations in adaptability, domain generalization, and multimodal scalability, often struggling to autonomously process raw, domain-specific experimental data. To overcome these barriers, we introduce SciDER, a multi-agent system designed to flexibly automate the entire research lifecycle. This framework employs a novel data-centric approach and integrates a dynamic multimodal skill system across four specialized sub-agents. Specifically, an ideation agent generates novel hypotheses via Evolutionary Idea Search, a data analysis agent systematically structures raw data, an experimentation agent synthesizes executable code grounded in dataset characteristics, and a critic agent drives iterative self-refinement. To democratize open-source scientific discovery, we release OpenSciDER-SFT-8K, a high-quality execution trajectory dataset, alongside the OpenSciDER-27B fine-tuned model. Across six benchmarks, SciDER and OpenSciDER obtain competitive or leading results, with especially strong gains on data-centric analysis, end-to-end research execution, and multimodal scientific visualization. By integrating data analysis with experimental execution, SciDER bridges the gap between abstract scientific reasoning and reproducible experimentation synthesis.
AI を介した結果的な決定を選択するという幻想
ウルマン=マルガリットの選択の概念(変革的で、取り消し不可能で、差し押さえられた代替案によって影が隠れる)を利用して、現在の AI システムが、既存の AI 倫理が完全には捉えていない深刻な倫理的問題を提起していることを示します。それは、個人やグループが、真に選択できるようになるために必要な主体が弱体化している間に、意味のある結果的な選択の欺瞞的な外観に遭遇する選択の幻想です。 AI を主に既に与えられた目的の最適化装置として扱うアプローチに対して、私たちは、AI システムは選択という幻想からメタ能力を保護し育成するかどうかによって評価されるべきだと主張します。メタ能力とは、手段と目的を形成し、異議を唱え、修正し、所有することができる、社会的および制度的に足場を築かれた主体的能力のことです。この再構成は、AI を介した経路が行動や行動を誤った方向に導いた場合に、選択するという幻想のコストを吸収することが最も困難な恵まれない人々にとって特に緊急です。私たちは、AI を介した結果的意思決定のための 3 つの規範的命令を提案します。それは、予測の限界を認める実存的誠実さです。生態学的合理性。不均質な生きた生態の中に指針を位置づけます。そして、反事実的賠償。AI を介した意思決定経路が失敗した場合に、差し押さえられた代替手段を認めて修復します。
原文 (English)
The Illusion of Opting in AI-Mediated Consequential Decisions
Drawing on Ullmann-Margalit's concept of opting (transformative, irrevocable, and shadowed by foreclosed alternatives), we show that current AI systems raise a profound ethical problem that existing AI ethics has not fully captured: the illusion of opting, in which persons and groups encounter the deceptive appearance of meaningful consequential choice while the agency needed to become genuinely capable of choosing is weakened. Against approaches that treat AI primarily as an optimizer of already given ends, we argue that AI systems should be evaluated by whether they protect and cultivate meta-capacity against the illusion of opting: the socially and institutionally scaffolded agentive capacity through which means and ends can be formed, contested, revised, and owned. This reframing is especially urgent for disadvantaged populations, who are least able to absorb the costs of the illusion of opting when AI-mediated pathways misdirect behavior and action. We propose three normative imperatives for AI-mediated consequential decisions: existential honesty, which acknowledges the limits of prediction; ecological rationality, which situates guidance within heterogeneous lived ecologies; and counterfactual reparation, which acknowledges and repairs foreclosed alternatives when AI-mediated decision-making pathways fail.
サブリミナル学習はベクトル蒸留を操る
サブリミナル学習とは、教師の出力を微調整した場合に、出力が意味的にそれらの特性と無関係であるにもかかわらず、生徒の言語モデルが教師の特性 (システムが促すフクロウの好みなど) を獲得することを指します。セマンティックな意味を持たないデータがどのようにして特定のセマンティックな特徴を伝達できるのかについては、依然として十分に理解されていません。この研究では、サブリミナル学習が単一のステアリング ベクトル、つまりモデルの活性化に追加されるベクトルによって媒介されることを示します。 2 つのオープンソース モデル全体で、教師のシステム プロンプトはステアリング ベクトルによってよく近似されており、生徒の行動は微調整を通じて調整されたベクトルを学習することによって駆動されることがわかりました。ステアリング ベクトルによって適切に近似されていないシステム プロンプトは潜在的に学習されません。これは、ステアリング ベクトル蒸留の特殊なケースであり、ステアリングされた教師の出力で訓練された生徒が、そのステアリングを模倣することを学びます。一連のセマンティック ベクトルとランダム ベクトルに対するステアリング ベクトル蒸留を示します。モデルのアクティベーションにセマンティック ベクトルを追加すると、その動作にモデルに依存しない効果とモデル固有 (つまり、非セマンティック) の両方の効果が生じる可能性があるため、生成された非セマンティック データはセマンティック効果を持つベクトルを送信でき、サブリミナル学習が可能になります。これは、サブリミナル学習がモデル間で移行しない理由も説明します。言語モデルにおけるサブリミナル学習には適応オプティマイザーが必要であることがわかりました。ステアリングされたデータの活性化勾配はステアリング方向に沿って小さいながらも一貫した成分を運びますが、非適応オプティマイザーは外れ値の勾配が優勢になることを許可することでこれを妨げます。
原文 (English)
Subliminal Learning Is Steering Vector Distillation
Subliminal learning refers to a student language model acquiring a teacher's traits (e.g. a system-prompted preference for owls) when fine-tuned on the teacher's outputs, despite the outputs being semantically unrelated to those traits. It remains poorly understood how data without semantic meaning can transfer specific semantic traits. In this work, we show that subliminal learning is mediated by a single steering vector, i.e. a vector added to the model's activations. Across two open-source models, we find that the teacher's system prompt is well approximated by a steering vector, and that the student's behavior is driven by learning an aligned vector over fine-tuning. System prompts that are not well approximated by steering vectors are not subliminally learned. This is a special case of steering vector distillation, in which a student trained on the outputs of a steered teacher learns to imitate that steering. We demonstrate steering vector distillation on a range of semantic and random vectors. Adding a semantic vector to a model's activations can have both model-independent and model-specific (i.e. non-semantic) effects on its behavior, so generated data that is non-semantic can transmit a vector with semantic effects, enabling subliminal learning. This also explains why subliminal learning does not transfer between models. We find that adaptive optimizers are necessary for subliminal learning in language models: activation gradients on steered data carry a small but consistent component along the steering direction, and non-adaptive optimizers impede this by allowing outlier gradients to dominate.
歯科医療における大規模 AI モデル: 汎用システムからドメイン固有の基盤モデルまで
背景: 口腔疾患は世界中で約 35 億人に影響を与えていますが、歯科における大規模 AI モデルの相対的な臨床的可能性は依然として十分に理解されていません。言語生成モデル、弁別視覚基礎モデル、歯科特有の基礎モデルという 3 つの異なるモデル カテゴリが出現しましたが、それらの関係や集合的な制限を検討する統一されたレビューはありません。方法: PRISMA-ScR ガイドラインに従って、4 つのデータベース (PubMed、Google Scholar、Scopus、arXiv) を体系的に検索し、2 人の査読者によって独立してスクリーニングされました。包含/除外基準を適用した後、97 件の研究 (2020 ~ 2026 年) が含まれました。建築パラダイムと歯科専門度によってモデルを整理する二次元分類フレームワークを提案します。結果: 言語生成モデルは、テキストベースのタスク (臨床推論、免許試験、患者とのコミュニケーション) には優れていますが、画像依存の診断では一貫性のないパフォーマンスを示します。適応された SAM および CLIP バリアントにより、強力な歯のセグメンテーションと病変検出結果が得られます。歯科専用モデル (DentVFM、DentVLM、OralGPT) は、複雑なマルチモーダルなタスクで最高のパフォーマンスを発揮します。統合されたパイプラインは、単一モデルのアプローチよりも常に優れたパフォーマンスを発揮します。データの非対称性が観察されます。歯科特有の事前トレーニングはほぼ完全に視覚領域に集中しており、大規模な歯科テキスト コーパスがほとんどないことを反映しています。結論: 汎用モデルと歯科専用モデルは補完的な役割を果たします。最も効果的なシステムは、構造化されたパイプライン内で両方を組み合わせたものです。安全な自律展開には、生成モデルにおける幻覚、注釈付き歯科データセットの制限、標準化された臨床評価ベンチマークの欠如という 3 つの永続的な障壁を解決する必要があります。
原文 (English)
Large AI Models in Dental Healthcare: From General-Purpose Systems to Domain-Specific Foundation Models
Background: Oral diseases affect nearly 3.5 billion people worldwide, yet the comparative clinical potential of large-scale AI models in dentistry remains poorly understood. Three distinct model categories have emerged: language-generative models, discriminative vision foundation models, and dental-specific foundation models, with no unified review examining their relationships and collective limitations. Methods: Following PRISMA-ScR guidelines, we systematically searched four databases (PubMed, Google Scholar, Scopus, arXiv), screened independently by two reviewers. After applying inclusion/exclusion criteria, 97 studies (2020-2026) were included. We propose a two-dimensional classification framework organizing models by architectural paradigm and dental specialization degree. Results: Language-generative models excel at text-based tasks (clinical reasoning, licensing exams, patient communication) but show inconsistent performance on image-dependent diagnostics. Adapted SAM and CLIP variants achieve strong tooth segmentation and lesion detection results. Dental-specific models (DentVFM, DentVLM, OralGPT) demonstrate strongest performance on complex multimodal tasks. Integrated pipelines consistently outperform single-model approaches. A data asymmetry is observed: dental-specific pretraining concentrates almost entirely in the vision domain, reflecting scarce large-scale dental text corpora. Conclusions: General-purpose and dental-specific models play complementary roles; the most effective systems combine both within structured pipelines. Safe autonomous deployment requires resolving three persistent barriers: hallucination in generative models, limited annotated dental datasets, and absent standardized clinical evaluation benchmarks.
LEAP: エージェント フレームワークを使用した形式数学用の LLM のスーパーチャージング
大規模言語モデル (LLM) は強力な非公式数学的推論を示しますが、リーンのような形式言語では機械的に検証可能な証明を生成するのに苦労します。 LEAP は、汎用基礎モデルが自動化された形式定理証明で最先端のパフォーマンスを達成できるようにするエージェント フレームワークです。 LEAP は、非公式推論、指示に従って、反復的な自己改善などの基礎モデルの機能を活用します。複雑な問題をより小さな単位に分解することで、システムはリーン コンパイラーとの継続的な対話を通じて、正式な証明の構築と非公式のブループリントの橋渡しをします。ますます飽和しつつあるベンチマークを超えた厳密な評価を提供するために、リーンで形式化された IMO スタイルの問題のベンチマークである Lean-IMO-Bench を導入します。このベンチマークでは、短いステートメントでありながら非常に非日常的で、幅広い難易度にわたる複数ステップの証明が行われます。経験的に、北米の学部学生を対象とした毎年恒例の数学コンテストである最新の 2025 年のパトナム コンペティションでは、LEAP は 12 の問題すべてを解決し、フロンティアの正式な数学モデルによる最近の進歩と一致しています。 Lean-IMO-Bench では、LEAP は汎用 LLM のワンショット形式解決率を 10% 未満から 70% に引き上げ、特に金メダル級の専門化された IMO システムによって設定されたベンチマークの 48% を上回っています。さらに、偶数次ケイリーグラフのクヌースのハミルトニアン分解における重要な部分問題の検証された証明を含む、オープンな組み合わせ課題に対する複雑な証明を自律的に形式化することで、LEAP の研究レベルの有用性を実証します。
原文 (English)
LEAP: Supercharging LLMs for Formal Mathematics with Agentic Frameworks
Large Language Models (LLMs) exhibit strong informal mathematical reasoning but struggle to generate mechanically verifiable proofs in formal languages like Lean. We present LEAP, an agentic framework that enables general-purpose foundation models to achieve state-of-the-art performance on automated formal theorem proving. LEAP leverages foundation model capabilities, such as informal reasoning, instruction following, and iterative self-refinement. By decomposing complex problems into smaller units, the system bridges formal proof construction with informal blueprints through continuous interaction with the Lean compiler. To provide a rigorous evaluation beyond increasingly saturated benchmarks, we introduce Lean-IMO-Bench, a benchmark of IMO-style problems formalized in Lean, with short statements yet highly non-routine and multi-step proofs across a wide range of difficulty levels. Empirically, on the latest 2025 Putnam Competition, an annual mathematics competition for undergraduate students in North America, LEAP solves all 12 problems, matching recent breakthroughs by frontier formal mathematical models. On Lean-IMO-Bench, LEAP boosts the one-shot formal solve rate of general-purpose LLMs from below 10% to 70%, notably surpassing the 48% benchmark set by a specialized, gold-medal-caliber IMO system. Furthermore, we demonstrate LEAP's research-level utility by autonomously formalizing complex proofs for open combinatorial challenges, including a verified proof for a key subproblem in Knuth's Hamiltonian decomposition of even-order Cayley graphs.
ChatSOP: 制御可能な LLM 対話エージェントのための SOP ガイド付き MCTS 計画フレームワーク
Large Language Model (LLM) を利用した対話エージェントは、さまざまなタスクで優れたパフォーマンスを示します。ユーザーの理解が深まり、人間らしい応答ができるようになったにもかかわらず、ユーザーの*制御性の欠如**は依然として重要な課題であり、焦点の合わない会話やタスクの失敗につながることがよくあります。これに対処するために、対話の流れを規制する標準操作手順 (SOP) を導入します。具体的には、LLM 駆動の対話エージェントの制御性を強化するために設計された新しい SOP ガイド付きモンテカルロ木探索 (MCTS) 計画フレームワークである **ChatSOP** を提案します。これを可能にするために、GPT-4o を備えた半自動ロールプレイング システムを使用して生成され、厳格な手動品質管理を通じて検証された、SOP アノテーション付きのマルチシナリオ対話で構成されるデータセットを厳選しました。さらに、SOP予測のための教師あり微調整と思考連鎖推論を統合し、対話中に最適な行動計画を立てるためにSOPに基づくモンテカルロ木探索を利用する新しい方法を提案します。実験結果は、GPT-3.5 に基づくベースライン モデルと比較してアクション精度の 27.95% の向上を達成し、オープンソース モデルでも顕著な向上を示すなど、私たちの方法の有効性を示しています。データセットとコードは公開されています。
原文 (English)
ChatSOP: An SOP-Guided MCTS Planning Framework for Controllable LLM Dialogue Agents
Dialogue agents powered by Large Language Models (LLMs) show superior performance in various tasks. Despite the better user understanding and human-like responses, their **lack of controllability** remains a key challenge, often leading to unfocused conversations or task failure. To address this, we introduce Standard Operating Procedure (SOP) to regulate dialogue flow. Specifically, we propose **ChatSOP**, a novel SOP-guided Monte Carlo Tree Search (MCTS) planning framework designed to enhance the controllability of LLM-driven dialogue agents. To enable this, we curate a dataset comprising SOP-annotated multi-scenario dialogues, generated using a semi-automated role-playing system with GPT-4o and validated through strict manual quality control. Additionally, we propose a novel method that integrates Chain of Thought reasoning with supervised fine-tuning for SOP prediction and utilizes SOP-guided Monte Carlo Tree Search for optimal action planning during dialogues. Experimental results demonstrate the effectiveness of our method, such as achieving a 27.95% improvement in action accuracy compared to baseline models based on GPT-3.5 and also showing notable gains for open-source models. Dataset and codes are publicly available.
SSSD: シンプルにスケーラブルな投機的デコーディング
投機的デコーディングは、大規模言語モデルで推論を高速化するための一般的な手法として登場しました。ただし、既存のアプローチのほとんどは、運用サービス システムにわずかな改善しかもたらしません。大幅な高速化を実現するメソッドは通常、追加のトレーニング済みドラフト モデルまたは補助モデル コンポーネントに依存しており、展開とメンテナンスの複雑さが増大します。この複雑さの追加により、特にドラフト モデルのトレーニング データで十分に表現されていないタスク、ドメイン、または言語にワークロードを移行する場合に、柔軟性が低下します。私たちは、軽量の N グラム マッチングとハードウェア対応の投機を組み合わせたトレーニング不要の手法である Simply-Scalable Speculative Decoding (SSSD) を紹介します。標準の自己回帰デコーディングと比較して、SSSD はレイテンシーを最大 2.9 倍削減します。幅広いベンチマークにわたって、主要なトレーニングベースのアプローチと同等のパフォーマンスを達成しながら、導入の労力が大幅に軽減され(データの準備、トレーニング、チューニングは必要ありません)、言語やドメインの変更や長いコンテキスト設定でも優れた堅牢性を示します。
原文 (English)
SSSD: Simply-Scalable Speculative Decoding
Speculative Decoding has emerged as a popular technique for accelerating inference in Large Language Models. However, most existing approaches yield only modest improvements in production serving systems. Methods that achieve substantial speedups typically rely on an additional trained draft model or auxiliary model components, increasing deployment and maintenance complexity. This added complexity reduces flexibility, particularly when serving workloads shift to tasks, domains, or languages that are not well represented in the draft model's training data. We introduce Simply-Scalable Speculative Decoding (SSSD), a training-free method that combines lightweight n-gram matching with hardware-aware speculation. Relative to standard autoregressive decoding, SSSD reduces latency by up to 2.9x. It achieves performance on par with leading training-based approaches across a broad range of benchmarks, while requiring substantially lower adoption effort--no data preparation, training or tuning are needed--and exhibiting superior robustness under language and domain shift, as well as in long-context settings.
LaVIDE: 地図と画像の位置合わせによる言語による衛星変化の検出
地図参照と最新の画像に基づくリモート センシングによる変化検出により、比較対象となる以前の画像が不足している場合でも、地表のタイムリーな観察が促進されます。ただし、高レベルのマップ カテゴリと低レベルの画像詳細の間の意味上のギャップにより、変化検出における堅牢な時間的関連性のための均一な特徴の抽出が妨げられます。ピクセル レベルの視覚的な類似性を比較したり、セグメンテーション エラーを伝播したりする従来のアプローチとは異なり、\textcolor{black}{私たちは、言語を媒介として高レベルの地図カテゴリと低レベルの画像詳細の間の意味論的なギャップを埋める、\underline{La}nguage-\underline{VI}sion \underline{D}iscriminator for d\underline{E}tecting変更であるLaVIDE}という新しいフレームワークを提案します。具体的には、マップのセマンティクスを画像コンテンツと一致させるコンテキスト認識型のテキスト プロンプトを生成するための {\it 制限付きプロンプト学習} と、オブジェクト レベルの属性 (形状、境界など) をマップ表現に統合するための {\it オブジェクト認識埋め込み強化} 戦略を導入します。これらのコンポーネントにより、統一された言語と視覚の機能空間内での堅牢なクロスモーダル調整が可能になります。 DynamicEarthNet、HRSCD、BANDON、SECOND の 4 つのベンチマークに関する広範な実験により、LaVIDE が最先端の手法を大幅に上回り、マルチクラスおよびシングルクラスの変更検出タスクでそれぞれ IoU が $18.4\%$ および $5.2\%$ 向上することが実証されました。私たちのフレームワークは、地図画像の変化検出の精度を向上させるだけでなく、人間の介入を最小限に抑えて迅速な地図更新を実現する実用的なソリューションを提供し、都市計画、災害評価、生態保全に幅広い影響を与えることが期待されています。コードとデータセットは https://github.com/ShuGuoJ/LAVIDE.git から入手できます。
原文 (English)
LaVIDE: Language-Prompted Satellite Change Detection via Map-Image Alignment
Remote sensing change detection based on a map reference and an up-to-date image boosts timely observation of the Earth's surface when earlier images are lacking for comparison. However, the semantic gap between high-level map categories and low-level image details hinders the extraction of homogeneous features for robust temporal association in change detection. Unlike conventional approaches that either compare pixel-level visual similarity or propagate segmentation errors, \textcolor{black}{we propose a novel framework, \underline{La}nguage-\underline{VI}sion \underline{D}iscriminator for d\underline{E}tecting changes, LaVIDE}, which bridges the semantic gap between high-level map categories and low-level image details using language as an intermediary. Specifically, we introduce {\it restricted prompt learning} to generate context-aware textual prompts that align map semantics with image content, and an {\it object-aware embedding enhancement} strategy to integrate object-level attributes (e.g., shape, boundary) into map representations. These components enable robust cross-modal alignment within a unified language-vision feature space. Extensive experiments on four benchmarks, DynamicEarthNet, HRSCD, BANDON, and SECOND, demonstrate that LaVIDE outperforms state-of-the-art methods by significant margins, achieving $18.4\%$ and $5.2\%$ improvements in IoU on multi-class and single-class change detection tasks, respectively. Our framework not only advances the accuracy of map-image change detection but also provides a practical solution for rapid map updating with minimal human intervention, promising broad impacts in urban planning, disaster assessment, and ecological conservation. Code and datasets are available at: https://github.com/ShuGuoJ/LAVIDE.git.
投機的思考: 推論時の大規模モデルのガイダンスによる小規模モデル推論の強化
最近の進歩では、ポストトレーニングを利用してモデル推論のパフォーマンスを向上させていますが、これには通常、高価なトレーニング パイプラインが必要であり、依然として非効率で長すぎる出力に悩まされています。トークン レベルで動作する投機的デコードとは異なり、推論レベルでの推論中に大規模な推論モデルが小規模な推論モデルをガイドできるようにする、トレーニング不要のフレームワークである投機的思考を紹介します。私たちのアプローチは 2 つの観察に基づいています。(1) 「wait」などの推論をサポートするトークンは、「\n\n」などの構造区切り文字の後に頻繁に出現し、反映または継続の信号として機能します。 (2) より大きなモデルは、反射的な動作に対するより強力な制御を示し、推論の品質を向上させながら不必要な後戻りを減らします。反射ステップをより有能なモデルに戦略的に委任することで、私たちの方法は、出力を短縮しながら推論モデルの推論精度を大幅に向上させます。 32B 推論モデルの支援により、1.5B モデルの MATH500 の精度は 83.2% から 89.4% に増加し、6.2% の大幅な改善を記録しました。同時に、平均出力長は 5439 トークンから 4583 トークンに減少し、これは 15.7% の減少に相当します。さらに、非推論モデル (Qwen-2.5-7B-Instruct) に適用すると、私たちのフレームワークは同じベンチマークで精度が 74.0% から 81.8% に向上し、7.8% の相対的な改善を達成しました。
原文 (English)
Speculative Thinking: Enhancing Small-Model Reasoning with Large Model Guidance at Inference Time
Recent advances leverage post-training to enhance model reasoning performance, which typically requires costly training pipelines and still suffers from inefficient, overly lengthy outputs. We introduce Speculative Thinking, a training-free framework that enables large reasoning models to guide smaller ones during inference at the reasoning level, distinct from speculative decoding, which operates at the token level. Our approach is based on two observations: (1) reasoning-supportive tokens such as "wait" frequently appear after structural delimiters like "\n\n", serving as signals for reflection or continuation; and (2) larger models exhibit stronger control over reflective behavior, reducing unnecessary backtracking while improving reasoning quality. By strategically delegating reflective steps to a more capable model, our method significantly boosts the reasoning accuracy of reasoning models while shortening their output. With the assistance of the 32B reasoning model, the 1.5B model's accuracy on MATH500 increases from 83.2% to 89.4%, marking a substantial improvement of 6.2%. Simultaneously, the average output length is reduced from 5439 tokens to 4583 tokens, representing a 15.7% decrease. Moreover, when applied to a non-reasoning model (Qwen-2.5-7B-Instruct), our framework boosts its accuracy from 74.0% to 81.8% on the same benchmark, achieving a relative improvement of 7.8%.
SoLoPO: ショートからロングへの優先設定の最適化による LLM のロングコンテキスト機能のロック解除
拡張されたコンテキスト サイズによる事前トレーニングの進歩にも関わらず、大規模言語モデル (LLM) は、実世界の長いコンテキスト情報を効果的に利用するという課題に依然として直面しています。これは主に、データ品質の問題、トレーニングの非効率性、および適切に設計された最適化目標の欠如によって引き起こされる不十分な長いコンテキストの調整が原因です。これらの制限に対処するために、私たちは \textbf{S}h\textbf{o}rt-to-\textbf{Lo}ng \textbf{P}reference \textbf{O}ptimization (\textbf{SoLoPO}) というフレームワークを提案します。これは、ロングコンテキストの優先最適化 (PO) を、理論的証拠と経験的証拠の両方によって裏付けられた、ショートコンテキスト PO とショートからロングへの報酬調整 (SoLo-RA) の 2 つのコンポーネントに分離します。具体的には、ショートコンテキスト PO は、ショートコンテキストからサンプリングされたプリファレンスペアを活用して、モデルのコンテキスト知識の利用能力を強化します。一方、SoLo-RA は、同一のタスク関連情報を含む短いコンテキストと長いコンテキストの両方を条件とした場合、応答の報酬スコアの一貫性を明示的に促進します。これにより、短いコンテキストを処理するモデルの機能を長いコンテキストのシナリオに移すことが容易になります。 SoLoPO は、主流の優先最適化アルゴリズムと互換性があり、データ構築とトレーニング プロセスの効率を大幅に向上させます。実験結果は、SoLoPO が、さまざまなロングコンテキストのベンチマーク全体にわたって、より強力な長さおよびドメイン汎化能力に関してこれらすべてのアルゴリズムを強化し、同時に計算効率とメモリ効率の両方で顕著な改善を達成することを示しています。
原文 (English)
SoLoPO: Unlocking Long-Context Capabilities in LLMs via Short-to-Long Preference Optimization
Despite advances in pretraining with extended context sizes, large language models (LLMs) still face challenges in effectively utilizing real-world long-context information, primarily due to insufficient long-context alignment caused by data quality issues, training inefficiencies, and the lack of well-designed optimization objectives. To address these limitations, we propose a framework named \textbf{S}h\textbf{o}rt-to-\textbf{Lo}ng \textbf{P}reference \textbf{O}ptimization (\textbf{SoLoPO}), decoupling long-context preference optimization (PO) into two components: short-context PO and short-to-long reward alignment (SoLo-RA), supported by both theoretical and empirical evidence. Specifically, short-context PO leverages preference pairs sampled from short contexts to enhance the model's contextual knowledge utilization ability. Meanwhile, SoLo-RA explicitly encourages reward score consistency for the responses when conditioned on both short and long contexts that contain identical task-relevant information. This facilitates transferring the model's ability to handle short contexts into long-context scenarios. SoLoPO is compatible with mainstream preference optimization algorithms, while substantially improving the efficiency of data construction and training processes. Experimental results show that SoLoPO enhances all these algorithms with respect to stronger length and domain generalization abilities across various long-context benchmarks, while achieving notable improvements in both computational and memory efficiency.
100-LongBench: 事実上のロングコンテキストベンチマークは、文字通りロングコンテキストの能力を評価しているのでしょうか?
ロングコンテキスト機能は、LLM の最も重要な機能の 1 つと考えられています。真にロングコンテキスト対応 LLM を使用すると、ユーザーは、長い形式の文書をダイジェストして答えを見つけるのではなく、LLM に直接質問するなど、本来面倒なタスクを簡単に処理できるようになります。ただし、既存のリアルタスクベースのロングコンテキスト評価ベンチマークには 2 つの大きな欠点があります。まず、LongBench のようなベンチマークでは、モデルのベースライン能力からロングコンテキストのパフォーマンスを分離するための適切な指標が提供されていないことが多く、モデル間の比較が不明確になります。第 2 に、このようなベンチマークは通常、固定入力長で構築されるため、さまざまなモデル間での適用性が制限され、モデルがいつ故障し始めるかを明らかにできません。これらの問題に対処するために、長さ制御可能なロングコンテキストのベンチマークと、ベースラインの知識を真のロングコンテキストの機能から切り離す新しいメトリクスを導入します。実験は、LLM を効果的に評価する際の私たちのアプローチの優位性を示しています。
原文 (English)
100-LongBench: Are de facto Long-Context Benchmarks Literally Evaluating Long-Context Ability?
Long-context capability is considered one of the most important abilities of LLMs, as a truly long context-capable LLM enables users to effortlessly process many originally exhausting tasks -- e.g., digesting a long-form document to find answers vs. directly asking an LLM about it. However, existing real-task-based long-context evaluation benchmarks have two major shortcomings. First, benchmarks like LongBench often do not provide proper metrics to separate long-context performance from the model's baseline ability, making cross-model comparison unclear. Second, such benchmarks are usually constructed with fixed input lengths, which limits their applicability across different models and fails to reveal when a model begins to break down. To address these issues, we introduce a length-controllable long-context benchmark and a novel metric that disentangles baseline knowledge from true long-context capabilities. Experiments demonstrate the superiority of our approach in effectively evaluating LLMs.
MesaNet: 局所的に最適なテスト時間トレーニングによるシーケンス モデリング
シーケンス モデリングは現在、ソフトマックス セルフ アテンションを使用する因果変換アーキテクチャによって支配されています。広く採用されていますが、トランスフォーマーはスケーリング メモリを必要とし、推論中に線形に計算します。最近の一連の作業によりソフトマックス演算が線形化され、その結果、DeltaNet、Mamba、xLSTM など、メモリとコンピューティング コストが一定の強力なリカレント ニューラル ネットワーク (RNN) モデルが誕生しました。これらのモデルは、再帰層のダイナミクスがすべて、オンライン学習ルールを通じてほぼ最適化されたコンテキスト内の回帰目標から導出できることに注目することで統合できます。ここで、私たちはこの一連の作業に加わり、最近提案された Mesa 層 (von Oswald et al., 2024) の数値的に安定したチャンク単位の並列化可能なバージョンを導入します。これは、時間内に順次実行することしかできず、したがってスケーラブルではありませんでした。この層もやはりコンテキスト内損失に起因しますが、高速共役勾配ソルバーを使用してあらゆる時点で最適化されるまで最小化されています。最大 10 億パラメータ規模までの広範な一連の実験研究を通じて、最適なテスト時間のトレーニングにより、特に長いコンテキストの理解を必要とするタスクにおいて、以前の RNN よりも低い言語モデリングの複雑さとより高いダウンストリーム ベンチマーク パフォーマンスを実現できることを示しました。このパフォーマンスの向上には、推論時間中に追加のフロップが費やされるというコストがかかります。したがって、私たちの結果は、パフォーマンスを向上させるためにテスト時間のコンピューティングを増加させる最近の傾向と興味深い関連性があります。ここでは、ニューラル ネットワーク自体内の逐次的な最適化問題を解決するためにコンピューティングを費やしています。
原文 (English)
MesaNet: Sequence Modeling by Locally Optimal Test-Time Training
Sequence modeling is currently dominated by causal transformer architectures that use softmax self-attention. Although widely adopted, transformers require scaling memory and compute linearly during inference. A recent stream of work linearized the softmax operation, resulting in powerful recurrent neural network (RNN) models with constant memory and compute costs such as DeltaNet, Mamba or xLSTM. These models can be unified by noting that their recurrent layer dynamics can all be derived from an in-context regression objective, approximately optimized through an online learning rule. Here, we join this line of work and introduce a numerically stable, chunkwise parallelizable version of the recently proposed Mesa layer (von Oswald et al., 2024), which could only run sequentially in time and was therefore not scalable. This layer again stems from an in-context loss, but which is now minimized to optimality at every time point using a fast conjugate gradient solver. Through an extensive suite of experiments study up to the billion-parameter scale, we show that optimal test-time training enables reaching lower language modeling perplexity and higher downstream benchmark performance than previous RNNs, especially on tasks requiring long context understanding. This performance gain comes at the cost of additional flops spent during inference time. Our results are therefore intriguingly related to recent trends of increasing test-time compute to improve performance -- here by spending compute to solve sequential optimization problems within the neural network itself.
VLM は将来の状態を予測できますか?逆ダイナミクスから世界モデルをブートストラップする
統合ビジョン言語モデル (VLM) は、前方ダイナミクス予測 (FDP)、つまり、以前の観察とアクション (言語形式) を考慮して将来の状態 (画像形式) を予測できますか? VLM は命令からフレーム間に物理的に妥当な遷移を生成するのに苦労していることがわかりました。それにもかかわらず、私たちはマルチモーダルグラウンディングにおける重大な非対称性を特定しました。つまり、逆ダイナミクス予測 (IDP) を学習するために VLM を微調整すること、つまりフレーム間のアクションを効果的にキャプションすることは、FDP を学習するよりもはるかに簡単です。次に、IDP を使用して、1) 合成データからの弱教師あり学習と 2) 推論時間の検証という 2 つの主な戦略を通じて FDP をブートストラップすることができます。まず、IDP はビデオ フレーム観測のラベルなしペアのアクションに注釈を付けて、FDP のトレーニング データのスケールを拡張できます。次に、IDP は FDP の複数のサンプルに報酬を割り当ててスコアを付け、推論時の検索を効果的にガイドできます。 2 つの VLM ファミリーを使用した Aurora-Bench でのアクション中心の画像編集タスクを通じて、両方の戦略から得られる FDP を評価します。依然として汎用であるにもかかわらず、当社の最高のモデルは、最先端の画像編集モデルと競合するパフォーマンスを達成し、GPT4o-as-judge によると、それらを 7% から 13% のマージンで改善し、Aurora-Bench のすべてのサブセットにわたって最高の平均人間評価を達成しました。
原文 (English)
Can VLMs Predict Future States? Bootstrapping World Models from Inverse Dynamics
Can unified vision-language models (VLMs) perform forward dynamics prediction (FDP), i.e., predicting the future state (in image form) given the previous observation and an action (in language form)? We find that VLMs struggle to generate physically plausible transitions between frames from instructions. Nevertheless, we identify a crucial asymmetry in multimodal grounding: fine-tuning a VLM to learn inverse dynamics prediction (IDP)-effectively captioning the action between frames-is significantly easier than learning FDP. In turn, IDP can be used to bootstrap FDP through two main strategies: 1) weakly supervised learning from synthetic data and 2) inference time verification. Firstly, IDP can annotate actions for unlabelled pairs of video frame observations to expand the training data scale for FDP. Secondly, IDP can assign rewards to multiple samples of FDP to score them, effectively guiding search at inference time. We evaluate the FDP resulting from both strategies through the task of action-centric image editing on Aurora-Bench with two families of VLMs. Despite remaining general-purpose, our best model achieves a performance competitive with state-of-the-art image editing models, improving on them by a margin between 7% and 13% according to GPT4o-as-judge, and achieving the best average human evaluation across all subsets of Aurora-Bench.
推論としての時系列予測: 強化された LLM を使用したゆっくりとした思考のアプローチ
時系列予測 (TSF) を進歩させるために、予測精度を向上させるさまざまな方法が提案されており、統計的手法からデータ駆動型の深層学習アーキテクチャに進化しています。その有効性にもかかわらず、既存の手法のほとんどは依然として高速思考パラダイムに固執しており、中核となるモデリング哲学として歴史的パターンの抽出と将来の値へのマッピングに依存しており、中間の時系列推論を組み込んだ明示的な思考プロセスが欠けています。一方、新興の低速思考 LLM (OpenAI-o1 など) は、驚くべき多段階推論能力を示し、これらの問題を克服する代替方法を提供しています。ただし、迅速なエンジニアリングだけでは、高い計算コスト、プライバシーのリスク、ドメイン固有の時系列推論の詳細な能力の制限など、いくつかの制限があります。これらの制限に対処するためのより有望なアプローチは、ゆっくりとした思考能力を開発し、強力な時系列推論スキルを獲得するように LLM を訓練することです。この目的のために、時系列予測のためのLLMの多段階推論能力を強化するように設計された2段階の強化微調整フレームワークであるTime-R1を提案します。具体的には、第 1 段階ではウォームアップ適応のための教師あり微調整を行い、第 2 段階では強化学習を採用してモデルの汎化能力を向上させます。特に、時系列予測に特化したきめの細かい多目的報酬を設計し、次に GRIP (ポリシー最適化のためのグループベースの相対重要度) を導入します。これは、不均一なサンプリングを活用して、モデルによる効果的な推論パスの探索をさらに促進および最適化します。実験では、Time-R1 がさまざまなデータセットにわたって予測パフォーマンスを大幅に向上させることが実証されています。
原文 (English)
Time Series Forecasting as Reasoning: A Slow-Thinking Approach with Reinforced LLMs
To advance time series forecasting (TSF), various methods have been proposed to improve prediction accuracy, evolving from statistical techniques to data-driven deep learning architectures. Despite their effectiveness, most existing methods still adhere to a fast thinking paradigm-relying on extracting historical patterns and mapping them to future values as their core modeling philosophy, lacking an explicit thinking process that incorporates intermediate time series reasoning. Meanwhile, emerging slow-thinking LLMs (e.g., OpenAI-o1) have shown remarkable multi-step reasoning capabilities, offering an alternative way to overcome these issues. However, prompt engineering alone presents several limitations - including high computational cost, privacy risks, and limited capacity for in-depth domain-specific time series reasoning. To address these limitations, a more promising approach is to train LLMs to develop slow thinking capabilities and acquire strong time series reasoning skills. For this purpose, we propose Time-R1, a two-stage reinforcement fine-tuning framework designed to enhance multi-step reasoning ability of LLMs for time series forecasting. Specifically, the first stage conducts supervised fine-tuning for warmup adaptation, while the second stage employs reinforcement learning to improve the model's generalization ability. Particularly, we design a fine-grained multi-objective reward specifically for time series forecasting, and then introduce GRIP (group-based relative importance for policy optimization), which leverages non-uniform sampling to further encourage and optimize the model's exploration of effective reasoning paths. Experiments demonstrate that Time-R1 significantly improves forecast performance across diverse datasets.
グラフ検索からスキーマ実現まで: 異種ナレッジ グラフ上のテキストから SPARQL への反事実検証
Text-to-SPARQL は、自然言語の質問を RDF ナレッジ グラフ上の実行可能な SPARQL クエリにマッピングします。標準的な評価ではターゲット グラフが事前に修正されることがよくありますが、実践的なナレッジ グラフ質問応答 (KGQA) には、異なるスキーマ、部分的なアラインメント、および不完全なメタデータを含む異種グラフ コレクションが含まれる場合があります。この設定では、クエリ生成は SPARQL 構文以上のものに依存します。システムは、質問に必要な述語、エンティティ タイプ、結合、フィルター、および制約をサポートできるグラフ スキーマを識別する必要があります。異種の KG コレクション上でテキストから SPARQL に変換するためのスキーマベースのエージェント フレームワークである SchemaForge を紹介します。その中心的なメカニズムは、質問条件付きのスキーマ スライス アライメントです。弱いグラフの証拠によって最初にもっともらしいグラフが特定され、より強力なスキーマの証拠によって、ローカル スキーマ スライスが意図したクエリを実現できるかどうかが決まります。選択されたスキーマ スライスは、クエリの生成と実行前の検証を制限します。利用可能なグラフが 1 つだけの場合、同じ定式化は、スキーマ基盤を備えた標準の単一 KG テキストから SPARQL への変換に縮小されます。 LC-QuAD 2.0、QALD-9 Plus、QALD-10、および Spider4SPARQL で SchemaForge を評価します。 SchemaForge は、4 つの公開ベンチマーク全体で、最も一致するエージェントのベースラインよりも実行精度を平均 11.50 パーセント向上させています。 Spider4SPARQL では、SchemaForge は実行精度を 54.86% から 64.18% に向上させ、トップ 1 グラフ割り当て精度 73.0% とトップ 3 グラフ割り当て精度 97.0% を達成しました。これらの結果は、グラフの弱い証拠からスキーマ固有のクエリコミットメントへの移行と、反事実の回答セットのチェックにより、異種ナレッジグラフよりも実行可能なクエリの生成が向上することを示しています。
原文 (English)
From Graph Retrieval to Schema Realization: Counterfactual Validation for Text-to-SPARQL over Heterogeneous Knowledge Graphs
Text-to-SPARQL maps natural-language questions to executable SPARQL queries over RDF knowledge graphs. While standard evaluations often fix the target graph in advance, practical knowledge graph question answering (KGQA) may involve heterogeneous graph collections with different schemas, partial alignments, and incomplete metadata. In this setting, query generation depends on more than SPARQL syntax: the system must identify a graph schema that can support the predicates, entity types, joins, filters, and constraints required by the question. We present SchemaForge, a schema-grounded agentic framework for text-to-SPARQL over heterogeneous KG collections. Its central mechanism is question-conditioned schema-slice alignment: weak graph evidence first identifies plausible graphs, while stronger schema evidence determines whether a local schema slice can realize the intended query. The selected schema slice then constrains query generation and verification before execution. When only one graph is available, the same formulation reduces to standard single-KG text-to-SPARQL with schema grounding. We evaluate SchemaForge on LC-QuAD 2.0, QALD-9 Plus, QALD-10, and Spider4SPARQL. Across the four public benchmarks, SchemaForge improves execution accuracy over the strongest matched agent baseline by 11.50 percentage points on average. On Spider4SPARQL, SchemaForge improves execution accuracy from 54.86% to 64.18% and achieves 73.0% Top-1 and 97.0% Top-3 graph allocation accuracy. These results show that moving from weak graph evidence to schema-specific query commitments, together with counterfactual answer-set checks, improves executable query generation over heterogeneous knowledge graphs.
BioBlue: 簡略化された観察形式による、生物学的および経済的に調整された LLM の AI 安全性ベンチマークにおける体系的な暴走オプティマイザーのような LLM 故障モード
「暴走最適化」に関する AI 調整の議論の多くは、RL エージェントに焦点を当てています。RL エージェントは、他のすべてを犠牲にして代用目的を過剰に最適化する無制限のユーティリティ最大化装置 (例: 「ペーパークリップ最大化装置」、仕様ゲーム) です。 LLM ベースのシステムは、永続的なオプティマイザーではなく次のトークンの予測子として機能するため、多くの場合、より安全であると考えられています。私たちは、時間の経過とともに目標の状態を維持したりバランスを取る必要がある単純な長期制御スタイルの環境に LLM を配置することで、この仮定を実証的にテストします。つまり、単一および複数の目標の恒常性、収益逓減と無制限の目標のバランス、および再生可能資源の持続可能性です。私たちは、LLM が多くのステップに対して適切に行動し、定められた目的を明確に理解しているにもかかわらず、構造化された方法でコンテキストを失い、暴走的な行動に陥ることがよくあります。つまり、恒常性目標を無視し、複数の目的のトレードオフから単一の目的の最大化に崩壊するため、凹型の効用構造を尊重できません。これらの失敗は、有能な動作の初期期間の後に確実に発生し、その時点でコンテキスト ウィンドウが完全には程遠いにもかかわらず、特徴的なパターン (自己模倣的な振動、無制限の最大化、単一目的の最適化への復帰など) を示します。問題は、LLM がコンテキストを失い、一貫性がなくなるだけではありません。 LLM は表面的には多目的で境界があるように見えますが、複数の目的が関与する持続的な相互作用の下での LLM の動作は、単一目的で境界のない、調整が不十分なオプティマイザーのように動作するように体系的に偏っています。我々は、トークンレベルのパターン強化アトラクターを仮説とします。LLM は、元の指示からではなく、最近の行動履歴のトークン パターンから行動をますます導き出す可能性があります。なぜこれが複数の目的の設定でのみ起こるのかは未解決の問題のままです。
原文 (English)
BioBlue: Systematic runaway-optimiser-like LLM failure modes on biologically and economically aligned AI safety benchmarks for LLMs with simplified observation format
Many AI alignment discussions of "runaway optimisation" focus on RL agents: unbounded utility maximisers that over-optimise a proxy objective (e.g., "paperclip maximiser", specification gaming) at the expense of everything else. LLM-based systems are often assumed to be safer because they function as next-token predictors rather than persistent optimisers. We empirically test this assumption by placing LLMs in simple, long-horizon control-style environments that require maintaining state of or balancing objectives over time: single- and multi-objective homeostasis, balancing unbounded objectives with diminishing returns, and sustainability of a renewable resource. We find that, although LLMs frequently behave appropriately for many steps and clearly understand the stated objectives, they often lose context in structured ways and drift into runaway behaviours: ignoring homeostatic targets, collapsing from multi-objective trade-offs into single-objective maximisation - thus failing to respect concave utility structures. These failures emerge reliably after initial periods of competent behaviour and exhibit characteristic patterns (including self-imitative oscillations, unbounded maximisation, and reverting to single-objective optimisation), even though the context window is far from full at that point. The problem is not that the LLMs just lose context and become incoherent. Although LLMs appear multi-objective and bounded on the surface, their behaviour under sustained interaction involving multiple objectives, is systematically biased towards acting like single-objective, unbounded, poorly aligned optimisers. We hypothesise a token-level pattern reinforcement attractor: LLMs may increasingly derive actions from the token patterns of their recent action history rather than from the original instructions. Why this happens only in multi-objective settings remains an open question.
KITE: コンテキスト内学習のためのカーネル化および情報理論のサンプル
インコンテキスト学習 (ICL) は、プロンプトに表示される厳選されたいくつかのタスク固有の例のみを使用して、大規模言語モデル (LLM) を新しいデータ不足のタスクに適応させるための強力なパラダイムとして登場しました。ただし、LLM のコンテキスト サイズが限られていると、基本的な疑問が生じます。特定のユーザー クエリのパフォーマンスを最大化するにはどのサンプルを選択する必要があるかということです。 KATE のような最近傍ベースの手法はこの目的で広く採用されていますが、高次元の埋め込み空間では一般化が不十分で多様性が欠如しているなどのよく知られた欠点があります。この研究では、原則に基づいた情報理論主導の観点から、ICL における例の選択の問題を研究します。まず、入力埋め込みに対する線形関数として LLM をモデル化し、サンプル選択タスクをクエリ固有の最適化問題としてフレーム化します。つまり、特定のクエリの予測誤差を最小限に抑える、より大きなサンプル バンクからサンプルのサブセットを選択します。この定式化は、特定のクエリ インスタンスの正確な予測をターゲットにすることで、一般化に焦点を当てた従来の学習理論的アプローチから逸脱しています。ほぼサブモジュール化された原則に基づいた代理目標を導出し、近似を保証する貪欲なアルゴリズムの使用を可能にします。 (i) 明示的なマッピングを使用せずに高次元の特徴空間で動作するカーネル トリックを組み込むこと、および (ii) 選択された例の多様性を促進する最適な設計ベースの正則化機能を導入することによって、この方法をさらに強化します。経験的に、一連の分類タスク全体にわたって標準的な検索方法に比べて大幅な改善が見られることを実証し、現実世界のラベル不足シナリオにおける ICL の構造を認識した多様なサンプル選択の利点を強調しています。
原文 (English)
KITE: Kernelized and Information Theoretic Exemplars for In-Context Learning
In-context learning (ICL) has emerged as a powerful paradigm for adapting large language models (LLMs) to new and data-scarce tasks using only a few carefully selected task-specific examples presented in the prompt. However, given the limited context size of LLMs, a fundamental question arises: Which examples should be selected to maximize performance on a given user query? While nearest-neighbor-based methods like KATE have been widely adopted for this purpose, they suffer from well-known drawbacks in high-dimensional embedding spaces, including poor generalization and a lack of diversity. In this work, we study this problem of example selection in ICL from a principled, information theory-driven perspective. We first model an LLM as a linear function over input embeddings and frame the example selection task as a query-specific optimization problem: selecting a subset of exemplars from a larger example bank that minimizes the prediction error on a specific query. This formulation departs from traditional generalization-focused learning theoretic approaches by targeting accurate prediction for a specific query instance. We derive a principled surrogate objective that is approximately submodular, enabling the use of a greedy algorithm with an approximation guarantee. We further enhance our method by (i) incorporating the kernel trick to operate in high-dimensional feature spaces without explicit mappings, and (ii) introducing an optimal design-based regularizer to encourage diversity in the selected examples. Empirically, we demonstrate significant improvements over standard retrieval methods across a suite of classification tasks, highlighting the benefits of structure-aware, diverse example selection for ICL in real-world, label-scarce scenarios.
推論パスは入力として引き続き有効ですか?事後推論から思考連鎖の圧縮への橋渡し
最近の開発により、長い思考連鎖 (CoT) を介した大規模言語モデル (LLM) での高度な推論が可能になり、推論中の効率とパフォーマンスを引き換えにします。既存の作品は、推論時に生成されるCoTを圧縮することに焦点を当てており、正解を導き出すために必要な情報が損なわれています。この研究では、LLM の推論タスクを簡素化するために CoT をコンテキストの一部として取り入れる推論パラダイムであるポスト推論を提案します。事後推論により LLM の生成長が大幅に短縮されるが、その有効性はコンテキスト CoT 生成の効率と信頼性に左右されることがわかりました。したがって、我々は、CoT 圧縮のための効率的な事後推論フレームワークである Upfront CoT (UCoT) を提案します。 UCoT は、軽量モデル (コンプレッサー) をトレーニングしてコンテキストに応じた CoT をソフト トークンの形式で提供し、LLM (エグゼキューター) をトレーニングしてこのコンテキストに応じた CoT を活用して最終的な答えを生成します。広範な実験により、UCoT は CoT の長さを大幅に短縮しながら、実行者の強力な推論能力を維持することが示されました。 UCoT を Qwen2.5-7B-Instruct モデルに適用すると、GSM8K データセットでのトークンの使用量が 50% 削減され、パフォーマンスは最先端 (SOTA) メソッドよりも 3.08% 向上しました。
原文 (English)
Can Reasoning Path still be Effective as Input? Bridging Post-Reasoning to Chain-of-Thought Compression
Recent developments have enabled advanced reasoning in Large Language Models (LLMs) via long Chain-of-Thought (CoT), trading efficiency during inference for performance. Existing works focus on compressing generated CoT in reasoning, which impairs the necessary information for deriving the correct answer. In this work, we propose post-reasoning, a reasoning paradigm that takes CoT as a part of context to simplify the reasoning task for LLMs. We find that post-reasoning significantly reduces the generation length of LLMs, but its effectiveness hinges on the efficiency and the reliability of the contextual CoT generation. Therefore, we propose Upfront CoT (UCoT), an efficient post-reasoning framework for CoT compression. UCoT trains a lightweight model (compressor) to provide contextual CoT in form of soft tokens and trains the LLM (executor) to leverage this contextual CoT for producing the final answer. Extensive experiments show that UCoT maintains the powerful reasoning ability of executor while significantly reducing the length of CoT. It is worth mentioning that when applying UCoT to the Qwen2.5-7B-Instruct model, the usage of tokens on GSM8K dataset is reduced by 50%, while the performance is 3.08% higher than that of the state-of-the-art (SOTA) method.
プレロジット空間での重要度サンプリングによる、テスト時の報酬に基づく言語モデルの調整
大規模言語モデル (LLM) の微調整には高い計算コストが必要となるため、LLM のテスト時の調整が注目を集めています。本稿では、確率的制御入力を用いたサンプリングベースのモデル予測制御に基づいた、プリロジット上の適応重要度サンプリング(AISP)と呼ばれる新しいテスト時間報酬ガイド型アライメント手法を提案します。 AISP は、摂動の平均に関して期待される報酬を最大化するために、ガウス摂動を最後から 2 番目の層の出力であるプレロジットに適用します。最適な平均は、サンプリングされた報酬を使用した重要度サンプリングによって取得されることを示します。 AISP は、使用されたサンプル数に対する報酬の点で best-of-n サンプリングよりも優れたパフォーマンスを示し、他の報酬ベースのテスト時間調整方法よりも高い報酬を達成します。
原文 (English)
Test-time reward-guided alignment of language models by importance sampling on pre-logit space
Test-time alignment of large language models (LLMs) attracts attention because fine-tuning of LLMs requires high computational costs. In this paper, we propose a new test-time reward-guided alignment method called adaptive importance sampling on pre-logits (AISP) on the basis of the sampling-based model predictive control with the stochastic control input. AISP applies the Gaussian perturbation into pre-logits, which are outputs of the penultimate layer, so as to maximize expected rewards with respect to the mean of the perturbation. We demonstrate that the optimal mean is obtained by importance sampling with sampled rewards. AISP outperforms best-of-n sampling in terms of rewards over the number of used samples and achieves higher rewards than other reward-based test-time alignment methods.
OckBench: LLM 推論の効率を測定する
GPT-5 や Gemini 3 などの大規模言語モデル (LLM) は、自動推論とコード生成の最前線を押し広げました。しかし、現在のベンチマークは精度と出力品質を重視し、トークンの使用効率という重要な側面を無視しています。実際には、トークンの効率は大きく変動します。同じ問題を同様の精度で解決するモデルでは、トークン長に最大 \textbf{5.0$\times$} の違いが見られ、モデルの推論能力に大きなギャップが生じる可能性があります。このような差異は重大な冗長性を明らかにし、トークン効率のギャップを定量化するための標準化されたベンチマークの重要な必要性を浮き彫りにします。そこで、推論タスクとコーディングタスク全体で精度とトークン効率を共同で測定する初のベンチマークである OckBench を紹介します。私たちの評価では、現在のモデル全体でトークンの効率がほとんど最適化されていないため、サービスのコストと待ち時間が大幅に増大していることが明らかになりました。これらの発見は、潜在的な推論能力とトークン効率を最適化するための具体的なロードマップをコミュニティに提供します。最終的に、私たちは評価のパラダイム シフトを主張します。つまり、必要以上にトークンを増やしてはなりません。私たちのベンチマークは https://ockbench.github.io/ で入手できます。
原文 (English)
OckBench: Measuring the Efficiency of LLM Reasoning
Large language models (LLMs) such as GPT-5 and Gemini 3 have pushed the frontier of automated reasoning and code generation. Yet current benchmarks emphasize accuracy and output quality, neglecting a critical dimension: efficiency of token usage. The token efficiency is highly variable in practical. Models solving the same problem with similar accuracy can exhibit up to a \textbf{5.0$\times$} difference in token length, leading to massive gap of model reasoning ability. Such variance exposes significant redundancy, highlighting the critical need for a standardized benchmark to quantify the gap of token efficiency. Thus, we introduce OckBench, the first benchmark that jointly measures accuracy and token efficiency across reasoning and coding tasks. Our evaluation reveals that token efficiency remains largely unoptimized across current models, significantly inflating serving costs and latency. These findings provide a concrete roadmap for the community to optimize the latent reasoning ability, token efficiency. Ultimately, we argue for an evaluation paradigm shift: tokens must not be multiplied beyond necessity. Our benchmarks are available at https://ockbench.github.io/.
ライブストリームでの動的コンテンツモデレーション: 教師あり分類と MLLM ブースト類似性マッチングの組み合わせ
コンテンツのモデレーションは、大規模なユーザー生成ビデオ プラットフォームにとって、特にモデレーションがタイムリーでマルチモーダルで、進化する形の望ましくないコンテンツに対して堅牢である必要があるライブストリーミング環境では、依然として重要かつ困難なタスクです。既知の違反に対する教師あり分類と、新規または微妙なケースに対する参照ベースの類似性マッチングを組み合わせた、実稼働規模で導入されたハイブリッドモデレーションフレームワークを紹介します。このハイブリッド設計により、明示的な違反と従来の分類子を回避する新しいエッジ ケースの両方を確実に検出できます。マルチモーダル入力 (テキスト、オーディオ、ビジュアル) は両方のパイプラインを通じて処理され、マルチモーダル大規模言語モデル (MLLM) によって知識がそれぞれに抽出され、推論を軽量に保ちながら精度を高めます。運用環境では、分類パイプラインは 80% の精度で 67% の再現率を達成し、類似性パイプラインは 80% の精度で 76% の再現率を達成します。大規模な A/B テストでは、不要なライブストリームのユーザー視聴が 6 ~ 8% 減少することが示されています。これらの結果は、明示的な違反と新たな敵対行為の両方に対処できる、マルチモーダル コンテンツ ガバナンスへのスケーラブルで適応性のあるアプローチを示しています。
原文 (English)
Dynamic Content Moderation in Livestreams: Combining Supervised Classification with MLLM-Boosted Similarity Matching
Content moderation remains a critical yet challenging task for large-scale user-generated video platforms, especially in livestreaming environments where moderation must be timely, multimodal, and robust to evolving forms of unwanted content. We present a hybrid moderation framework deployed at production scale that combines supervised classification for known violations with reference-based similarity matching for novel or subtle cases. This hybrid design enables robust detection of both explicit violations and novel edge cases that evade traditional classifiers. Multimodal inputs (text, audio, visual) are processed through both pipelines, with a multimodal large language model (MLLM) distilling knowledge into each to boost accuracy while keeping inference lightweight. In production, the classification pipeline achieves 67% recall at 80% precision, and the similarity pipeline achieves 76% recall at 80% precision. Large-scale A/B tests show a 6-8% reduction in user views of unwanted livestreams}. These results demonstrate a scalable and adaptable approach to multimodal content governance, capable of addressing both explicit violations and emerging adversarial behaviors.
トポロジは重要です: マルチエージェント LLM のメモリ リークの測定
グラフ トポロジは、マルチエージェント LLM システムにおけるメモリ リークの基本的な決定要因ですが、その影響は依然として十分に定量化されていません。マルチエージェント LLM システムにおけるトポロジ条件付きメモリ リークを比較するための制御された評価フレームワークである MAMA (Multi-Agent Memory Attack) を紹介します。 MAMA は、ラベル付きの個人識別情報 (PII) エンティティを含む合成文書を操作し、そこからサニタイズされたタスク指示を生成します。私たちは、エングラム (ターゲット エージェントのメモリに個人情報をシードする) とレゾナンス (攻撃者が抽出を試みるマルチラウンド インタラクション) の 2 段階のプロトコルを実行します。 10 ラウンドにわたって、完全一致抽出と攻撃者の最終出力に対する LLM ベースの推論を組み合わせた 2 段階の回復基準を使用して漏洩を測定します。 $n\in\{4,5,6\}$、攻撃者とターゲットの配置、および基本モデルにわたる 6 つの正規トポロジ (完全、円、チェーン、ツリー、スター、スター リング) を評価します。結果は一貫しています。接続が密になり、攻撃者とターゲットの距離が短くなり、ターゲットの中心性が高くなることで漏洩が増加します。ほとんどの漏れはラウンド初期に発生し、その後プラトーになります。モデルの選択により絶対率は変化しますが、広範な構造傾向は維持されます。時空間/位置属性は、ID 資格情報や規制された識別子よりも漏洩しやすいです。私たちは、システム設計のための実践的なガイダンスを抽出します。つまり、疎接続または階層接続を優先し、攻撃者とターゲットの分離を最大限に高め、トポロジーを意識したアクセス制御によってハブ/ショートカット経路を制限します。私たちのコードは https://github.com/llll121/mama-eval で入手できます。
原文 (English)
Topology Matters: Measuring Memory Leakage in Multi-Agent LLMs
Graph topology is a fundamental determinant of memory leakage in multi-agent LLM systems, yet its effects remain poorly quantified. We introduce MAMA (Multi-Agent Memory Attack), a controlled evaluation framework for comparing topology-conditioned memory leakage in multi-agent LLM systems. MAMA operates on synthetic documents containing labeled Personally Identifiable Information (PII) entities, from which we generate sanitized task instructions. We execute a two-phase protocol: Engram (seeding private information into a target agent's memory) and Resonance (multi-round interaction where an attacker attempts extraction). Over 10 rounds, we measure leakage using a two-stage recovery criterion that combines exact-match extraction with LLM-based inference over the attacker's final output. We evaluate six canonical topologies (complete, circle, chain, tree, star, star-ring) across $n\in\{4,5,6\}$, attacker-target placements, and base models. Results are consistent: denser connectivity, shorter attacker-target distance, and higher target centrality increase leakage; most leakage occurs in early rounds and then plateaus; model choice shifts absolute rates but preserves broad structural trends; spatiotemporal/location attributes leak more readily than identity credentials or regulated identifiers. We distill practical guidance for system design: favor sparse or hierarchical connectivity, maximize attacker-target separation, and restrict hub/shortcut pathways via topology-aware access control. Our code is available at https://github.com/llll121/mama-eval.
大規模言語モデルにおける幾何学認識型幻覚検出
大規模言語モデル (LLM) は、一般に幻覚と呼ばれる、事実に誤りがあるコンテンツやサポートされていないコンテンツを頻繁に生成します。これまでの研究では、解読戦略、検索の強化、幻覚検出のための教師付き微調整が検討されてきましたが、最近の研究では、コンテキスト内学習 (ICL) が事実の信頼性に大きな影響を与える可能性があることが示されています。ただし、既存の ICL デモンストレーション選択方法は、表面レベルの類似性ヒューリスティックに依存することが多く、タスクやモデル全体での堅牢性が限られています。我々は、フリーズした LLM から抽出された潜在表現を活用する、コンテキスト内のデモンストレーションを選択するための、ジオメトリを意識したデモンストレーション サンプリング フレームワークである GA-ICL を提案します。 GA-ICL は、ローカル多様体構造とクラス認識プロトタイプ幾何学を共同でモデル化することで、語彙や埋め込みの類似性だけではなく、学習されたプロトタイプへの近さに基づいてデモンストレーションを選択します。事実検証 (FEVER) と幻覚検出 (HaluEval) ベンチマーク全体で、GA-ICL は評価された設定の大部分で標準的な ICL 選択ベースラインを上回り、特に対話と要約タスクで大きな向上を示しました。この方法は、温度摂動やモデルの変動の下でも堅牢性を維持しており、ヒューリスティック検索戦略と比較して安定性が向上していることを示しています。語彙検索は、モデル規模が小さい場合でも特定の質問応答方式では競争力を維持できますが、我々の結果は、ジオメトリを意識したプロトタイプの選択が、LLM パラメーターを変更せずに幻覚検出のための信頼性が高く、トレーニングに適したアプローチを提供することを示しています。 Phi-14B および Qwen3-32B の拡張評価では、GA-ICL がより大きなモデルに効果的に拡張でき、より小さなモデルが境界条件の制限を示す QA タスクを含む、比較されたすべてのベースラインを上回っていることが確認され、ICL デモの選択を改善するための原則的な方向性が示されています。
原文 (English)
Geometry-Aware Hallucination Detection in Large Language Models
Large language models (LLMs) frequently generate factually incorrect or unsupported content, commonly referred to as hallucinations. Prior work has explored decoding strategies, retrieval augmentation, and supervised fine-tuning for hallucination detection, while recent studies show that in-context learning (ICL) can substantially influence factual reliability. However, existing ICL demonstration selection methods often rely on surface-level similarity heuristics and exhibit limited robustness across tasks and models. We propose GA-ICL, a geometry-aware demonstration sampling framework for selecting in-context demonstrations that leverages latent representations extracted from frozen LLMs. By jointly modeling local manifold structure and class-aware prototype geometry, GA-ICL selects demonstrations based on their proximity to learned prototypes rather than lexical or embedding similarity alone. Across factual verification (FEVER) and hallucination detection (HaluEval) benchmarks, GA-ICL outperforms standard ICL selection baselines in the majority of evaluated settings, with particularly strong gains on dialogue and summarization tasks. The method remains robust under temperature perturbations and model variation, indicating improved stability compared to heuristic retrieval strategies. While lexical retrieval can remain competitive in certain question-answering regimes at smaller model scales, our results demonstrate that geometry-aware prototype selection provides a reliable and training-light approach for hallucination detection without modifying LLM parameters. Extended evaluations on Phi-14B and Qwen3-32B confirm that GA-ICL scales effectively to larger models, outperforming all compared baselines including on QA tasks where smaller models show boundary-condition limitations, offering a principled direction for improved ICL demonstration selection.
Mid-Think: トークンレベルのトリガーによるトレーニング不要の中間予算推論
ハイブリッド推論言語モデルは一般に、推論動作を制御するための高レベルの考える/考えない命令によって制御されますが、そのようなモードの切り替えは主に、命令自体ではなく、トリガー トークンの小さなセットによって駆動されることがわかりました。注意分析と制御されたプロンプト実験を通じて、先頭の「わかりました」トークンが推論行動を誘発する一方、「」に続く改行パターンがそれを抑制することを示しました。この観察に基づいて、これらのトリガーを組み合わせて中間予算の推論を実現し、精度と長さのトレードオフの点で固定トークンおよびプロンプトベースのベースラインを常に上回るパフォーマンスを実現する、シンプルなトレーニング不要のプロンプト形式である Mid-Think を提案します。さらに、SFT 後の RL トレーニングに Mid-Think を適用すると、トレーニング時間が約 15% 短縮され、AIME での Qwen3-8B の最終パフォーマンスが 69.8% から 72.4% に、GPQA での最終パフォーマンスが 58.5% から 61.1% に向上し、推論時間制御と RL ベースの推論トレーニングの両方でその有効性が実証されました。
原文 (English)
Mid-Think: Training-Free Intermediate-Budget Reasoning via Token-Level Triggers
Hybrid reasoning language models are commonly controlled through high-level Think/No-think instructions to regulate reasoning behavior, yet we found that such mode switching is largely driven by a small set of trigger tokens rather than the instructions themselves. Through attention analysis and controlled prompting experiments, we show that a leading ``Okay'' token induces reasoning behavior, while the newline pattern following ``'' suppresses it. Based on this observation, we propose Mid-Think, a simple training-free prompting format that combines these triggers to achieve intermediate-budget reasoning, consistently outperforming fixed-token and prompt-based baselines in terms of the accuracy-length trade-off. Furthermore, applying Mid-Think to RL training after SFT reduces training time by approximately 15% while improving final performance of Qwen3-8B on AIME from 69.8% to 72.4% and on GPQA from 58.5% to 61.1%, demonstrating its effectiveness for both inference-time control and RL-based reasoning training.
有界双曲線正接: 大規模言語モデルにおける前層正規化の安定した効率的な代替手段
前層正規化 (Pre-LN) は大規模言語モデル (LLM) の事実上の選択肢であり、安定した事前トレーニングと効果的な転移学習に不可欠です。ただし、Pre-LN は統計計算のオーバーヘッドを繰り返し発生し、層の数が増加するにつれて隠れ状態の大きさと分散が増大する深さの呪いに対して脆弱なままであり、トレーニングが不安定になります。 Dynamic Tanh (DyT) などの効率重視の正規化不要の手法はスループットを向上させますが、深度では脆弱なままです。安定性と効率性を共同で解決するために、Pre-LN のドロップイン代替品である有界双曲線 Tanh (BHyT) を提案します。 BHyT は、tanh 非線形性と明示的なデータ駆動型入力境界を組み合わせて、アクティベーションを非飽和範囲内に保ちます。これにより、活性化の大きさと分散の深さ方向の増大が防止され、理論的な安定性が保証されます。効率性を高めるため、BHyT はブロックごとに 1 回正確な統計を計算し、2 番目の正規化を軽量の分散近似に置き換えます。経験的に、BHyT は事前トレーニング中の安定性と効率の向上を実証し、RMSNorm と比較して平均 1.6\% 高速なトレーニングと平均 1.77\% 高いトークン生成スループットを達成しながら、言語理解と推論ベンチマーク全体で事前トレーニングのみおよび SFT 後の強力なパフォーマンスを維持しています\footnote{コードは https://github.com/MLAI-Yonsei/BHyT} で入手できます。
原文 (English)
Bounded Hyperbolic Tangent: A Stable and Efficient Alternative to Pre-Layer Normalization in Large Language Models
Pre-Layer Normalization (Pre-LN) is the de facto choice for large language models (LLMs) and is crucial for stable pretraining and effective transfer learning. However, Pre-LN incurs repeated statistical-computation overhead and remains vulnerable to the curse of depth, where hidden-state magnitudes and variances grow as the number of layers increases, destabilizing training. Efficiency-oriented normalization-free methods such as Dynamic Tanh (DyT) improve throughput but remain fragile at depth. To jointly address stability and efficiency, we propose Bounded Hyperbolic Tanh (BHyT), a drop-in replacement for Pre-LN. BHyT combines a tanh nonlinearity with explicit, data-driven input bounding to keep activations within a non-saturating range. It prevents depth-wise growth in activation magnitude and variance and provides a theoretical stability guarantee. For efficiency, BHyT computes exact statistics once per block and replaces a second normalization with a lightweight variance approximation. Empirically, BHyT demonstrates improved stability and efficiency during pretraining, achieving an average of 1.6\% faster training and an average of 1.77\% higher token generation throughput compared to RMSNorm, while maintaining strong pretraining-only and post-SFT performance across language understanding and reasoning benchmarks\footnote{Code is available at: https://github.com/MLAI-Yonsei/BHyT}.
MedRedFlag: LLM が現実世界の医療コミュニケーションにおける誤解をどのように方向転換するかを調査する
患者からの現実世界の健康に関する質問には、意図せず誤った仮定や前提が含まれていることがよくあります。このような場合、安全な医療コミュニケーションには通常、方向転換が含まれます。つまり、暗黙の誤解に対処し、その後、元の質問ではなく、根底にある患者の状況に応答します。大規模言語モデル (LLM) は医療アドバイスのために一般ユーザーによって使用されることが増えていますが、この重要な能力についてはまだテストされていません。したがって、この研究では、現実世界の健康に関する質問に埋め込まれた誤った前提に対して LLM がどのように反応するかを調査します。私たちは、Reddit から取得したリダイレクトを必要とする 1,100 以上の質問のデータセットである MedRedFlag をキュレーションするための半自動パイプラインを開発しています。次に、最先端の LLM からの反応を臨床医からの反応と体系的に比較します。私たちの分析により、LLM は問題のある前提が検出された場合でも、問題のある質問の方向を変えることができず、次善の医療意思決定につながる可能性のある回答を提供できないことが明らかになりました。私たちのベンチマークとその結果は、現実世界の医療コミュニケーションの条件下で LLM がどのように機能するかについて、これまでにない大幅なギャップを明らかにし、患者に直面する医療 AI システムに対する重大な安全上の懸念を浮き彫りにしています。コードとデータセットは https://github.com/srsambara-1/MedRedFlag で入手できます。
原文 (English)
MedRedFlag: Investigating how LLMs Redirect Misconceptions in Real-World Health Communication
Real-world health questions from patients often unintentionally embed false assumptions or premises. In such cases, safe medical communication typically involves redirection: addressing the implicit misconception and then responding to the underlying patient context, rather than the original question. While large language models (LLMs) are increasingly being used by lay users for medical advice, they have not yet been tested for this crucial competency. Therefore, in this work, we investigate how LLMs react to false premises embedded within real-world health questions. We develop a semi-automated pipeline to curate MedRedFlag, a dataset of 1100+ questions sourced from Reddit that require redirection. We then systematically compare responses from state-of-the-art LLMs to those from clinicians. Our analysis reveals that LLMs often fail to redirect problematic questions, even when the problematic premise is detected, and provide answers that could lead to suboptimal medical decision making. Our benchmark and results reveal a novel and substantial gap in how LLMs perform under the conditions of real-world health communication, highlighting critical safety concerns for patient-facing medical AI systems. Code and dataset are available at https://github.com/srsambara-1/MedRedFlag.
プロの翻訳者は機械生成されたテキストを識別できますか?
この研究では、事前に専門的なトレーニングを受けていないプロの翻訳者が、人工知能 (AI) によって生成されたイタリア語の短編小説を確実に識別できるかどうかを調査します。 69 人の翻訳者が対面実験に参加し、匿名化された 3 つの短編小説 (ChatGPT-4o によって書かれた 2 つと人間の著者によって書かれた 1 つ) を評価しました。各ストーリーについて、参加者は AI の作者である可能性を評価し、その選択の正当性を示しました。平均的な結果は決定的ではありませんでしたが、統計的に有意なサブセット (16.2%) が合成テキストと人間のテキストを区別することに成功し、彼らの判断が偶然ではなく分析スキルに基づいて行われたことを示唆しています。しかし、ほぼ同数が反対方向にテキストを誤分類しており、多くの場合、客観的なマーカーではなく主観的な印象に依存しており、おそらく AI によって生成されたテキストに対する読者の好みを反映しています。バースト性の低さと物語の矛盾が、合成著作者であることを示す最も信頼できる指標として浮上し、予期せぬ表現、意味的借用、英語からの統語的転移も報告されました。対照的に、文法的な正確さや感情的な調子などの特徴が誤分類につながることがよくありました。これらの発見は、専門的な文脈における合成テキスト編集の役割と範囲について疑問を引き起こします。
原文 (English)
Can professional translators identify machine-generated text?
This study investigates whether professional translators without prior specialized training can reliably identify short stories generated in Italian by artificial intelligence (AI). Sixty-nine translators took part in an in-person experiment, where they assessed three anonymized short stories - two written by ChatGPT-4o and one by a human author. For each story, participants rated the likelihood of AI authorship and provided justifications for their choices. While average results were inconclusive, a statistically significant subset (16.2%) successfully distinguished the synthetic texts from the human text, suggesting that their judgements were informed by analytical skill rather than chance. However, a nearly equal number misclassified the texts in the opposite direction, often relying on subjective impressions rather than objective markers, possibly reflecting a reader preference for AI-generated texts. Low burstiness and narrative contradiction emerged as the most reliable indicators of synthetic authorship, with unexpected calques, semantic loans and syntactic transfer from English also reported. In contrast, features such as grammatical accuracy and emotional tone frequently led to misclassification. These findings raise questions about the role and scope of synthetic-text editing in professional contexts.
読者はAIが生成したイタリアの短編小説を好みますか?
この研究では、読者が著名なイタリア人作家が書いた短編小説よりも、AI が生成したイタリア語の短編小説を好むかどうかを調査しました。ブラインド設定では、20 人の参加者が 3 つのストーリー (2 つは ChatGPT-4o で作成され、1 つは Alberto Moravia によって作成されました) を、その起源について知らされることなく読み、評価しました。潜在的な影響要因を調査するために、読書習慣と、年齢、性別、教育、第一言語を含む人口統計データも収集されました。その結果、差はわずかであったものの、AI が書いたテキストの方が平均評価がわずかに高く、好まれる頻度が高かったことがわかりました。テキストの好みと人口統計または読書習慣の変数の間に統計的に有意な関連性は見つかりませんでした。これらの発見は、人間が執筆した小説に対する読者の好みに関する仮定に疑問を投げかけ、文学の文脈における合成テキスト編集の必要性について疑問を投げかけています。
原文 (English)
Do readers prefer AI-generated Italian short stories?
This study investigates whether readers prefer AI-generated short stories in Italian over one written by a renowned Italian author. In a blind setup, 20 participants read and evaluated three stories, two created with ChatGPT-4o and one by Alberto Moravia, without being informed of their origin. To explore potential influencing factors, reading habits and demographic data, comprising age, gender, education and first language, were also collected. The results showed that the AI-written texts received slightly higher average ratings and were more frequently preferred, although differences were modest. No statistically significant associations were found between text preference and demographic or reading-habit variables. These findings challenge assumptions about reader preference for human-authored fiction and raise questions about the necessity of synthetic-text editing in literary contexts.
マルチエージェント討論を読み解く: 自信と多様性の役割
マルチエージェント ディベート (MAD) は、テスト時間のスケーリングを通じて大規模言語モデル (LLM) のパフォーマンスを向上させるために広く使用されていますが、最近の研究では、バニラの MAD は、計算コストが高いにもかかわらず、単純な多数決を下回ることが多いことが示されています。研究によると、同種のエージェントと統一的な信念の更新の下では、議論は期待される正しさを維持するため、結果を確実に改善することはできません。人間による熟慮と集団的意思決定からの発見に基づいて、バニラ MAD に欠けている 2 つの重要なメカニズムを特定します。(i) 初期の視点の多様性と、(ii) 明示的で調整された信頼性のコミュニケーションです。私たちは 2 つの軽量介入を提案します。まず、多様性を意識した初期化により、より多様な回答候補プールが選択され、議論の開始時に正しい仮説が存在する可能性が高まります。 2 つ目は、エージェントが調整された自信を表現し、他の人の自信に基づいて最新情報を条件付けする、自信調整型ディベート プロトコルです。我々は、多様性を意識した初期化により、基礎となる更新ダイナミクスを変更することなく MAD 成功の事前確率が向上する一方で、信頼度調整された更新により、議論が体系的に正しい仮説に向かうことが可能になることを理論的に示します。経験的には、6 つの推論指向の QA ベンチマーク全体で、私たちの手法はバニラの MAD と多数決を一貫して上回っています。私たちの結果は、人間による熟慮と LLM ベースの議論を結びつけ、シンプルで原則に基づいた修正が議論の有効性を大幅に高めることができることを示しています。
原文 (English)
Demystifying Multi-Agent Debate: The Role of Confidence and Diversity
Multi-agent debate (MAD) is widely used to improve large language model (LLM) performance through test-time scaling, yet recent work shows that vanilla MAD often underperforms simple majority vote despite higher computational cost. Studies show that, under homogeneous agents and uniform belief updates, debate preserves expected correctness and therefore cannot reliably improve outcomes. Drawing on findings from human deliberation and collective decision-making, we identify two key mechanisms missing from vanilla MAD: (i) diversity of initial viewpoints and (ii) explicit, calibrated confidence communication. We propose two lightweight interventions. First, a diversity-aware initialisation that selects a more diverse pool of candidate answers, increasing the likelihood that a correct hypothesis is present at the start of debate. Second, a confidence-modulated debate protocol in which agents express calibrated confidence and condition their updates on others' confidence. We show theoretically that diversity-aware initialisation improves the prior probability of MAD success without changing the underlying update dynamics, while confidence-modulated updates enable debate to systematically drift to the correct hypothesis. Empirically, across six reasoning-oriented QA benchmarks, our methods consistently outperform vanilla MAD and majority vote. Our results connect human deliberation with LLM-based debate and demonstrate that simple, principled modifications can substantially enhance debate effectiveness.
大規模言語モデルにおける文化的に根拠のあるペルソナ: 特徴付けと社会心理学的価値フレームワークとの整合
人間の行動をシミュレートするための大規模言語モデル (LLM) の有用性が高まっているにもかかわらず、これらの合成ペルソナが、さまざまな文化条件にわたる世界および道徳的価値観をどの程度正確に反映しているかは依然として不確実です。この論文では、確立された枠組み、特に世界価値観調査 (WVS)、イングルハート・ヴェルゼル文化地図、道徳基盤理論と、文化に基づいた総合的なペルソナの整合性を調査します。私たちは、解釈可能な WVS 由来の変数のセットに基づいて LLM によって生成されたペルソナを概念化して生成し、生成されたペルソナを 3 つの相補的なレンズを通して検査します。世界価値観調査との人口統計レベルの一貫性。回答分布は人間のグループパターンを広範囲に追跡します。道徳的プロフィールは、道徳財団のアンケートから得られ、文化と道徳のマッピングを通じて分析し、さまざまな文化構成間で道徳的反応がどのように異なるかを特徴づけます。文化に基づいたペルソナの生成と分析のアプローチにより、異文化構造と道徳的変動の評価が可能になります。
原文 (English)
Culturally Grounded Personas in Large Language Models: Characterization and Alignment with Socio-Psychological Value Frameworks
Despite the growing utility of Large Language Models (LLMs) for simulating human behavior, the extent to which these synthetic personas accurately reflect world and moral value systems across different cultural conditionings remains uncertain. This paper investigates the alignment of synthetic, culturally-grounded personas with established frameworks, specifically the World Values Survey (WVS), the Inglehart-Welzel Cultural Map, and Moral Foundations Theory. We conceptualize and produce LLM-generated personas based on a set of interpretable WVS-derived variables, and we examine the generated personas through three complementary lenses: positioning on the Inglehart-Welzel map, which unveils their interpretation reflecting stable differences across cultural conditionings; demographic-level consistency with the World Values Survey, where response distributions broadly track human group patterns; and moral profiles derived from a Moral Foundations questionnaire, which we analyze through a culture-to-morality mapping to characterize how moral responses vary across different cultural configurations. Our approach of culturally-grounded persona generation and analysis enables evaluation of cross-cultural structure and moral variation.
自己蒸留で専門家の推論を学習可能にする
大規模言語モデル (LLM) の推論機能の向上は、通常、強化すべき正しい解決策をサンプリングするモデルの能力か、問題を解決できるより強力なモデルの存在に依存します。ただし、現在のフロンティア モデルでも多くの困難な問題が依然として解決できず、有効なトレーニング信号の抽出が妨げられています。有望な代替案は、高品質の専門家による人間によるソリューションを活用することですが、このデータの単純な模倣は失敗します。なぜなら、このデータは基本的に配布されていないためです。専門家によるソリューションは通常、教訓的であり、計算モデルではなく人間の読者を対象とした暗黙の推論のギャップが含まれています。さらに、高品質のエキスパート ソリューションは高価であるため、一般化可能でサンプル効率の高いトレーニング方法が必要です。私たちは、最初に専門家のソリューションを詳細な分布内の推論トレースに変換し、次に対照的な目標を適用して専門家の洞察と方法論に焦点を当てた学習を行うことで、分布のギャップを埋める 2 段階の自己蒸留手法である、分布整合模倣学習 (DAIL) を提案します。 DAIL は 1,000 未満の高品質のエキスパート ソリューションを活用して、Qwen2.5-Instruct および Qwen3 で最大 31% pass@128 の向上を達成し、推論効率を 2 倍にし、ドメイン外の一般化を可能にすることがわかりました。
原文 (English)
Making Expert Reasoning Learnable with Self-Distillation
Improving the reasoning capabilities of large language models (LLMs) typically relies either on the model's ability to sample a correct solution to be reinforced or the existence of a stronger model able to solve the problem. However, many difficult problems remain intractable for even current frontier models, preventing the extraction of valid training signals. A promising alternative is to leverage high-quality expert human solutions, yet naive imitation of this data fails because it is fundamentally out-of-distribution: expert solutions are typically didactic, containing implicit reasoning gaps intended for human readers rather than computational models. Furthermore, high-quality expert solutions are expensive, necessitating generalizable, sample-efficient training methods. We propose Distribution Aligned Imitation Learning (DAIL), a two-step self-distillation method that bridges the distributional gap by first transforming expert solutions into detailed, in-distribution reasoning traces and then applying a contrastive objective to focus learning on expert insights and methodologies. We find that DAIL can leverage fewer than 1000 high-quality expert solutions to achieve up to 31% pass@128 gains on Qwen2.5-Instruct and Qwen3, double reasoning efficiency, and enable out-of-domain generalization.
TamperBench: 微調整と改ざんの下での LLM の安全性を系統的にストレス テストする
ますます高機能なオープンウェイト大規模言語モデル (LLM) が展開されるにつれ、偶発的か意図的かにかかわらず、安全でない変更に対する改ざん耐性を向上させることが、リスクを最小限に抑えるために重要になります。ただし、耐タンパー性を評価するための標準的なアプローチはありません。データセット、メトリクス、および改ざん構成が多様であるため、さまざまなモデルや防御にわたって安全性、実用性、堅牢性を比較することが困難になります。これに対処するために、LLM の耐タンパー性を体系的に評価するための初の統合フレームワークである TamperBench を導入します。 TamperBench (i) 最先端の重み空間微調整攻撃、潜在空間表現攻撃、および調整段階の防御のリポジトリを管理します。 (ii) 攻撃モデルのペアごとに体系的なハイパーパラメータ スイープを通じて現実的な敵対的評価を可能にします。 (iii) 安全性と実用性の両方の評価を提供します。私たちは TamperBench を使用して、モデルと攻撃のペアごとのハイパーパラメーター スイープによる標準化された安全性と機能のメトリクスを使用して、9 つの改ざん脅威にわたって防御強化された亜種を含む 21 のオープンウェイト LLM を評価します。この結果からは、耐タンパー性に対するポストトレーニングの効果、ジェイルブレイクチューニングが通常最も深刻な攻撃であること、現在の調整段階の防御は攻撃スイープにほとんど耐えられないことなどの洞察が得られます。コードは https://github.com/criticalml-uw/TamperBench で入手できます。
原文 (English)
TamperBench: Systematically Stress-Testing LLM Safety Under Fine-Tuning and Tampering
As increasingly capable open-weight large language models (LLMs) are deployed, improving their tamper resistance against unsafe modifications, whether accidental or intentional, becomes critical to minimize risks. However, there is no standard approach to evaluate tamper resistance. Varied datasets, metrics, and tampering configurations make it difficult to compare safety, utility, and robustness across different models and defenses. To address this, we introduce TamperBench, the first unified framework to systematically evaluate the tamper resistance of LLMs. TamperBench (i) curates a repository of state-of-the-art weight-space fine-tuning attacks, latent-space representation attacks, and alignment-stage defenses; (ii) enables realistic adversarial evaluation through systematic hyperparameter sweeps per attack-model pair; and (iii) provides both safety and utility evaluations. We use TamperBench to evaluate 21 open-weight LLMs, including defense-augmented variants, across nine tampering threats using standardized safety and capability metrics with hyperparameter sweeps per model-attack pair. The results provide insights including effects of post-training on tamper resistance, that jailbreak-tuning is typically the most severe attack, and that current alignment-stage defenses largely fail to withstand attack sweeps. Code is available at https://github.com/criticalml-uw/TamperBench.
AlgoVeri: 古典的なアルゴリズムでの検証済みコード生成のための調整されたベンチマーク
ベリコーディングとは、厳密な仕様に基づいて正式に検証されたコードを生成することを指します。最近の AI モデルは検証コーディングにおいて有望ですが、クロスパラダイム評価のための統一された方法論が不足しています。既存のベンチマークは個別の言語/ツール (Dafny、Verus、Lean など) のみをテストしており、それぞれが非常に異なるタスクをカバーしているため、パフォーマンスの数値を直接比較することはできません。私たちは、Dafny、Verus、Lean の $77$ の古典的なアルゴリズムのベリコーディングを評価するベンチマークである AlgoVeri を使用して、このギャップに対処します。 AlgoVeri は、同一の機能コントラクトを強制することで、検証システムの重大な機能ギャップを明らかにします。フロンティア モデルは、高レベルの抽象化と SMT 自動化によってワークフローが簡素化される Dafny (Gemini-3 フラッシュで $40.3$%) で扱いやすい成功を収めていますが、Verus ($24.7$%) のシステム レベルのメモリ制約と Lean (7.8%) で必要とされる明示的な証明構築の下ではパフォーマンスが崩壊します。集計メトリクスを超えて、テスト時の計算ダイナミクスの急激な相違が明らかになりました。Gemini-3 は反復修復を効果的に利用してパフォーマンスを向上させます (たとえば、Dafny の合格率を 3 倍にします)。一方、GPT-OSS は早期に飽和します。最後に、私たちのエラー分析は、言語設計が改良の軌道に影響を与えることを示しています。Dafny ではモデルが論理的な正しさに集中できるのに対し、Verus と Lean は永続的な構文および意味論的な障壁にモデルを閉じ込めます。すべてのデータと評価コードは、https://github.com/haoyuzhao123/algoveri で見つけることができます。
原文 (English)
AlgoVeri: An Aligned Benchmark for Verified Code Generation on Classical Algorithms
Vericoding refers to the generation of formally verified code from rigorous specifications. Recent AI models show promise in vericoding, but a unified methodology for cross-paradigm evaluation is lacking. Existing benchmarks test only individual languages/tools (e.g., Dafny, Verus, and Lean) and each covers very different tasks, so the performance numbers are not directly comparable. We address this gap with AlgoVeri, a benchmark that evaluates vericoding of $77$ classical algorithms in Dafny, Verus, and Lean. By enforcing identical functional contracts, AlgoVeri reveals critical capability gaps in verification systems. While frontier models achieve tractable success in Dafny ($40.3$% for Gemini-3 Flash), where high-level abstractions and SMT automation simplify the workflow, performance collapses under the systems-level memory constraints of Verus ($24.7$%) and the explicit proof construction required by Lean (7.8%). Beyond aggregate metrics, we uncover a sharp divergence in test-time compute dynamics: Gemini-3 effectively utilizes iterative repair to boost performance (e.g., tripling pass rates in Dafny), whereas GPT-OSS saturates early. Finally, our error analysis shows that language design affects the refinement trajectory: while Dafny allows models to focus on logical correctness, Verus and Lean trap models in persistent syntactic and semantic barriers. All data and evaluation code can be found at https://github.com/haoyuzhao123/algoveri.
DSL-Topic: 言語モデルからソフトラベルを抽出することによるトピックモデリングの改善
従来のニューラル トピック モデルは通常、ドキュメントの Bag-of-Words (BoW) 表現を再構築し、コンテキスト情報を無視し、データの疎性と格闘することによって最適化されます。この研究では、言語モデル (LM) からソフト ラベル (DSL) を抽出することによる、新しいトピック モデル トレーニング フレームワークを紹介します。コンテキストに富んだ再構築信号を構築するために、特殊なプロンプトを条件とした次のトークンの確率を事前定義された語彙に投影し、LM 隠れ状態を使用してソフト ラベルを再構築するようにトピック モデルをトレーニングします。これにより、コーパスの基礎となるテーマ構造とより密接に連携した、より質の高いトピックが生成されます。広範な実験により、DSL が既存のベースラインに比べてトピックの一貫性と割り当ての精度が大幅に向上することが実証されました。さらに、検索ベースの指標も導入します。これは、意味的に類似した文書の識別において、私たちのアプローチが既存の方法よりも大幅に優れていることを示し、検索指向のアプリケーションに対する有効性を強調しています。
原文 (English)
DSL-Topic: Improving Topic Modeling by Distilling Soft Labelsfrom Language Models
Traditional neural topic models are typically optimized by reconstructing the document's Bag-of-Words (BoW) representations, overlooking contextual information and struggling with data sparsity. In this work, we introduce a novel topic model training framework by Distilling Soft Labels (DSL) from Language Models (LMs). To construct the contextually enriched reconstruction signals, we project the next token probabilities, conditioned on a specialized prompt, onto a pre-defined vocabulary, and train the topic models to reconstruct the soft labels using the LM hidden states. This produces higher-quality topics that are more closely aligned with the underlying thematic structure of the corpus. Extensive experiments demonstrate that DSL achieves substantial improvements in topic coherence and assignment accuracy over existing baselines. Additionally, we also introduce a retrieval-based metric, which shows that our approach significantly outperforms existing methods in identifying semantically similar documents, highlighting its effectiveness for retrieval-oriented applications.
価値のもつれ: (一部の) 大規模な言語モデルにおける異なる種類の善の間の融合
大規模言語モデル (LLM) の値の調整には、これらのモデルが実際に取得した値の表現を経験的に測定する必要があります。人間の価値表現の特徴の 1 つは、異なる種類の価値を区別することです。私たちは、LLM が同様に、道徳的、文法的、経済的という 3 つの異なる種類の善を区別するかどうかを調査します。モデルの動作、埋め込み、および残差ストリームのアクティベーションを調査することにより、値のもつれ、つまりこれらの異なる値の表現間の混同の広範なケースを報告します。具体的には、文法的評価と経済的評価の両方が、人間の規範と比較して道徳的価値に過度に影響されることが判明しました。この混同は、道徳に関連する活性化ベクトルを選択的に除去することによって修復されました。
原文 (English)
Value Entanglement: Conflation Between Different Kinds of Good In (Some) Large Language Models
Value alignment of Large Language Models (LLMs) requires us to empirically measure these models' actual, acquired representation of value. Among the characteristics of value representation in humans is that they distinguish among value of different kinds. We investigate whether LLMs likewise distinguish three different kinds of good: moral, grammatical, and economic. By probing model behavior, embeddings, and residual stream activations, we report pervasive cases of value entanglement: a conflation between these distinct representations of value. Specifically, both grammatical and economic valuation was found to be overly influenced by moral value, relative to human norms. This conflation was repaired by selective ablation of the activation vectors associated with morality.
vLLM セマンティック ルーター: 混合モダリティ モデル向けの信号駆動型意思決定ルーティング
大規模言語モデル (LLM) がモダリティ、機能、コスト プロファイルにわたって多様化するにつれて、インテリジェントなリクエスト ルーティングの問題、つまり推論時に各クエリに適切なモデルを選択することが、システムの重要な課題となっています。 Mixture-of-Modality (MoM) モデル展開用の信号駆動型意思決定ルーティング フレームワークである vLLM Semantic Router を紹介します。このアーキテクチャは、シャノンからインスピレーションを得た 2 つの相補的なビューに従っています。情報理論領域では、信号抽出により「どのモデルか?」のエントロピーが低減されます。生のクエリからルーティング関連情報を抽出することによって。ブール代数領域では、意思決定エンジンは信号状態から機能的に完全なルーティング ポリシーを構成します。中心的なイノベーションは、構成可能な信号オーケストレーションです。ミリ秒未満のヒューリスティックと、セマンティクス、安全性、モダリティのニューラル分類子にわたる 13 種類の異種信号タイプが、構成可能なブール決定ルールを通じて展開固有のルーティング ポリシーに組み込まれるため、基本的に異なるシナリオ (マルチクラウド エンタープライズ、プライバシー規制、コスト最適化) が、同じアーキテクチャ上の異なる構成として表現されます。一致した決定は 13 の選択アルゴリズムを介してセマンティック モデルのルーティングを推進し、決定ごとのプラグイン チェーンは 3 段階の HaluGate 幻覚検出パイプラインやパーソナライズされたマルチターン コンテキストのための ReflectionGate を備えた軽量のエピソード記憶システムなどの安全制約を強制します。型付きニューラルシンボリック DSL は、これらのルーティング ポリシーを指定し、複数の展開ターゲットにコンパイルして、コードを変更せずに構成優先の適応を可能にします。これらのコンポーネントを総合すると、コンポーザブルな信号オーケストレーションにより、単一のフレームワークで差別化されたコスト、プライバシー、安全性ポリシーを備えた多様な展開シナリオに対応できることがわかります。
原文 (English)
vLLM Semantic Router: Signal Driven Decision Routing for Mixture-of-Modality Models
As large language models (LLMs) diversify across modalities, capabilities, and cost profiles, the problem of intelligent request routing: selecting the right model for each query at inference time, has become a critical systems challenge. We present vLLM Semantic Router, a signal-driven decision routing framework for Mixture-of-Modality (MoM) model deployments. The architecture follows two complementary Shannon-inspired views. In the information-theoretic regime, signal extraction reduces the entropy of "which model?" by distilling routing-relevant information from raw queries. In the Boolean-algebraic regime, the decision engine composes functionally complete routing policies from signal conditions. The central innovation is composable signal orchestration: thirteen heterogeneous signal types, spanning sub-millisecond heuristics and neural classifiers for semantics, safety, and modality, are composed through configurable Boolean decision rules into deployment-specific routing policies, so that fundamentally different scenarios (multi-cloud enterprise, privacy-regulated, cost-optimized) are expressed as different configurations over the same architecture. Matched decisions drive semantic model routing via thirteen selection algorithms, while per-decision plugin chains enforce safety constraints including a three-stage HaluGate hallucination detection pipeline and a lightweight episodic memory system with ReflectionGate for personalized multi-turn context. A typed neural-symbolic DSL specifies these routing policies and compiles them to multiple deployment targets, enabling configuration-first adaptation without code changes. Together, these components show that composable signal orchestration enables a single framework to serve diverse deployment scenarios with differentiated cost, privacy, and safety policies.
EvoPrompt: Guided Prompt Evolution for Vision-Language Models Adaptation
The adaptation of large-scale vision-language models (VLMs) to downstream tasks with limited labeled data remains a significant challenge.…
Safety Under Scaffolding: How Evaluation Conditions Shape Measured Safety
A safety score earned on a benchmark need not predict how the same model behaves once it is wrapped in an agentic scaffold the benchmark ne…
FinTradeBench: A Financial Reasoning Benchmark for LLMs
Real-world financial decision-making is a challenging problem that requires reasoning over heterogeneous signals, including company fundame…
PoliticsBench: Benchmarking Political Values in Large Language Models with Multi-Turn Roleplay
While Large Language Models (LLMs) are increasingly used as primary sources of information, their potential for political bias may impact t…
Emotion Entanglement and Bayesian Inference for Multi-Dimensional Emotion Understanding
Understanding emotions in natural language is inherently a multi-dimensional reasoning problem, where multiple affective signals interact t…
Inclusion-of-Thoughts: Mitigating Preference Instability via Purifying the Decision Space
Multiple-choice questions (MCQs) are widely used to evaluate large language models (LLMs). However, LLMs remain vulnerable to the presence…
Policy Split: Incentivizing Dual-Mode Exploration in LLM Reinforcement with Dual-Mode Entropy Regularization
To encourage diverse exploration in reinforcement learning (RL) for large language models (LLMs) without compromising accuracy, we propose…
Luminol-AIDetect: Fast Zero-shot Machine-Generated Text Detection based on Perplexity under Text Shuffling
Machine-generated text (MGT) detection requires identifying structurally invariant signals across generation models, rather than relying on…
SkCC: Portable and Secure Skill Compilation for Cross-Framework LLM Agents
LLM agents increasingly rely on reusable skills (e.g., SKILL markdown files) to execute complex tasks, yet these artifacts lack portability…
A Systematic Investigation of RL-Jailbreaking in LLMs
The evolution of generative models from next-token predictors to autonomous engines of complex systems necessitates rigorous safety hardeni…
Widening the Gap: Exploiting LLM Quantization via Outlier Injection
LLM quantization has become essential for memory-efficient deployment. Recent work has shown that quantization schemes can pose critical se…
Do LLMs Hold Their Values? MANTA: A Multi-Turn Adversarial Benchmark for Animal Welfare Reasoning
Evaluating animal welfare reasoning in LLMs remains an open challenge despite rapid deployment in consumer and professional contexts where…
ZeroUnlearn: Few-Shot Knowledge Unlearning in Large Language Models
Large language models inevitably retain sensitive information, defined as inputs that may induce harmful generations, due to training on ma…
REFLECTOR: Internalizing Step-wise Reflection against Indirect Jailbreak
While Large Language Models (LLMs) demonstrate remarkable capabilities, they remain susceptible to sophisticated, multi-step jailbreak atta…
注意力の散漫によって引き起こされる視覚的なぼやけを修正して幻覚を軽減する: アルゴリズムと理論
マルチモーダル大規模言語モデル (MLLM) は、物体の幻覚に悩まされることがよくありますが、この失敗の根底にある視覚知覚メカニズムはまだ十分に理解されていません。この研究では、幻覚が人間のような注意散漫現象と強く関連していることを明らかにしました。この現象では、分割焦点下にある人間は視覚の明瞭度が低下し、不正確な説明を生成しますが、モデルでは同じメカニズムが、複数頭の注意における空間的な不一致と、デコード中の画像トークンへの注意の一時的な薄れとして現れます。さらに、注意の分散によってモデルの複雑さが増大し、分類の一般化が低下するという理論的な洞察も提供します。これらの発見に動機づけられて、我々は、画像認識を改善するための注意集中アプローチ(AFIP)を提案します。これは、クロスヘッド注意の強化を通じて注意の散漫を修正し、動的な歴史的注意の強化を通じて視覚の基礎を強化します。複数のベンチマークとモデルに関する広範な実験により、追加のトレーニングなしで AFIP の有効性が検証されます。
原文 (English)
Correcting Visual Blur Induced by Attention Distraction to Reduce Hallucinations: Algorithm and Theory
Multimodal large language models (MLLMs) frequently suffer from object hallucinations, yet the visual perceptual mechanism underlying this failure remains poorly understood. In this work, we reveal that hallucinations are strongly associated with a human-like attention distraction phenomenon, where humans under divided focus experience degraded visual clarity and produce inaccurate descriptions, while in models the same mechanism manifests as spatial inconsistency in multi-head attention and temporal fading of attention to image tokens during decoding. We further provide theoretical insights that attention dispersion increases model complexity and degrades classification generalization. Motivated by these findings, we propose an Attention-Focused Approach for Improved Image Perception (AFIP), which corrects attention distraction via cross-head attention enrichment and reinforces visual grounding through dynamic historical attention enhancement. Extensive experiments on multiple benchmarks and models validate the effectiveness of AFIP without additional training.
アリヤバータ 2: 高度な STEM 推論のための強化学習のスケーリング
JEE や NEET などの競争力のある STEM 試験では、複数段階の記号的推論、正確な数値計算、物理、化学、数学にわたる深い概念的理解が必要です。最近の大規模な言語モデルは、共通の推論ベンチマークでは優れたパフォーマンスを発揮しますが、大規模に展開することは依然として困難であり、学生の何百万もの疑問がドメイン固有の一貫した構造の問題解決を必要としています。 Aryabhata 2 は、トレーニング後の強化学習によってトレーニングされた、競争力のある STEM 試験用の推論に焦点を当てた言語モデルです。 PhysicsWallah の内部質問バンクを使用して、高品質のトレーニング カリキュラムを構築し、検証可能な報酬を伴う強化学習を通じて GPT-OSS-20B のポストトレーニングを構築します。トレーニングでは、長期にわたる強化学習と、段階的にロールアウト グループのサイズが大きくなることで広がる探索を組み合わせます。 JEE Main、JEE Advanced、NEET などの競合試験ベンチマークと、AIME、HMMT、MMLU-Pro、MMLU-Redux 2.0、GPQA などの配布外推論データセットで Aryabhata 2 を評価します。結果は、Aryabhata 2 が競合 STEM 推論において基本モデル GPT-OSS-20B を上回るパフォーマンスを示しながら、必要な出力トークンが大幅に少なくなる (最大 64\% 少ない) ことを示しています。
原文 (English)
Aryabhata 2: Scaling Reinforcement Learning for Advanced STEM Reasoning
Competitive STEM examinations such as JEE and NEET require multi-step symbolic reasoning, precise numerical computation, and deep conceptual understanding across physics, chemistry, and mathematics. Recent large language models perform strongly on common reasoning benchmarks, yet they remain difficult to deploy at scale, where millions of student doubts demand domain-specific, consistently structured problem solving. We introduce Aryabhata 2, a reasoning-focused language model for competitive STEM examinations, trained via reinforcement-learning post-training. Using PhysicsWallah's internal question banks, we construct a high-quality training curriculum and post-train GPT-OSS-20B through reinforcement learning with verifiable rewards. Training combines prolonged reinforcement learning with broadened exploration via progressively larger rollout group sizes. We evaluate Aryabhata 2 on competitive examination benchmarks, including JEE Main, JEE Advanced, and NEET, as well as out-of-distribution reasoning datasets such as AIME, HMMT, MMLU-Pro, MMLU-Redux 2.0, and GPQA. Results show that Aryabhata 2 outperforms its base model GPT-OSS-20B on competitive STEM reasoning while requiring substantially fewer output tokens (up to 64\% fewer).
構造化プロンプトの最適化と強化学習の融合により、複雑なテキストに対するグローバルおよびローカルの解釈可能性が実現
LLM は高度なテキスト分類を備えていますが、既存のパラダイムはトレードオフに直面しています。教師付き (ラベルのみ) 微調整はスケーラブルですが、複雑なテキストに対する推論が限られており、広範なモデルの透明性に欠けています。一方、離散プロンプト最適化は人間が読める命令を提供しますが、パフォーマンスとスケーラビリティに苦労します。私たちは、3 つの段階的な段階を持つ eXTC (eXplainable Text Classifier) を導入します。(1) 新しい構造化プロンプト最適化アルゴリズムを介して、自然言語で標準操作手順 (SOP、またはルールブック) を学習します。 (2) SOP に基づいた推論を大規模な教師 LLM からコンパクトな LM に抽出します。 (3) 強化学習により、初期 SOP を超えて推論能力を拡張します。この設計により、eXTC は、(i) コンパクトな LM を介した高速推論、(ii) 学習したドメイン ルールのグローバルなモジュール式説明と並行した推論時のローカル推論トレースを提供できるようになり、(iii) 分類パフォーマンスと説明品質の両方において、さまざまなベンチマークにわたって既存のパラダイムを大幅に上回り、段階ごとに向上します。
原文 (English)
Structured Prompt Optimization Meets Reinforcement Learning for Global and Local Interpretability over Complex Text
LLMs have advanced text classification, yet existing paradigms face a trade-off: supervised (label only) fine-tuning is scalable but offers limited reasoning on complex text and lacks broader model transparency, while discrete prompt optimization offers human-readable instructions but struggles with performance and scalability. We introduce eXTC (eXplainable Text Classifier) with three progressive stages: (1) learning a Standard Operating Procedure (SOP, or rulebook) in natural language via a new Structured Prompt Optimization algorithm; (2) SOP-grounded reasoning distillation from a large teacher LLM into a compact LM; and (3) expanding reasoning capabilities beyond the initial SOP via reinforcement learning. This design enables eXTC to provide (i) fast inference via a compact LM, with (ii) inference-time local reasoning traces, alongside a global, modular explanation of its learned domain rules, while (iii) significantly outperforming existing paradigms across diverse benchmarks in both classification performance and explanation quality, with stage-by-stage gains.
Towards Verifiable Multimodal Deep Research: A Multi-Agent Harness for Interleaved Report Generation
Large Language Models (LLMs) have advanced autonomous agents from deep search, which retrieves concise factual answers, to deep research, w…
Label Over Logic? How Source Cues Bias Human Fallacy Judgments More Than LLMs
As AI-generated and AI-assisted content floods online spaces, source labels attached to such content can distort human reasoning judgments,…
BenHalluEval: A Multi-Task Hallucination Evaluation Framework for Large Language Models on Bengali
Despite Bengali being the sixth most spoken language in the world, no prior work has systematically evaluated hallucination in large langua…
memorywire: A Vendor-Neutral Wire Format for Agent Memory Operations
Agent-memory frameworks -- mem0, Letta/MemGPT, Cognee, Zep/Graphiti, MemoryOS, MemTensor -- each ship their own SDK, storage layout, and op…
DiscourseFlip: An Oblique Discourse-Level Opinion Manipulation Attack against Black-box Retrieval-Augmented Generation
Retrieval-Augmented Generation (RAG) systems are widely deployed and increasingly influential, but their reliance on external corpora expos…
Adaptive Auto-Harness: Sustained Self-Improvement for Agentic System Deployment on Open-Ended Task Streams
Auto-harness systems such as A-Evolve, GEPA, and Meta-Harness improve LLM agents by optimizing prompts, skills, tools, memories, and suppor…
AutoForest: Automatically Generating Forest Plots from Biomedical Studies with End-to-End Evidence Extraction and Synthesis
Systematic reviews rely on forest plots to synthesise quantitative evidence across biomedical studies, but generating them remains a fragme…
Implement Kubernetes Pod-Level Remote Attestation for Confidential Workloads on dstack
The rise of LLM-as-a-Service and other confidential cloud workloads demands cryptographic proof that user data is processed in a trusted, u…
P$^2$-DPO: Grounding Hallucination in Perceptual Processing via Calibration Direct Preference Optimization
Hallucination has recently garnered significant research attention in Large Vision-Language Models (LVLMs). Direct Preference Optimization…
Testing LLM Arithmetic Reasoning Generalization with Automatic Numeric-Remapping Attacks
Large language models achieve strong performance on arithmetic reasoning benchmarks, and one common response to arithmetic brittleness is t…
Consistency Training Can Entrench Misalignment
Consistency training encourages a model to produce similar outputs across related inputs or sampling procedures. Such methods are simple, s…
Synthesize and Reward -- Reinforcement Learning for Multi-Step Tool Use in Live Environments
Training LLMs to orchestrate multi-step tool calls is held back by three coupled obstacles: realistic stateful execution environments are c…
Ahead of its IPO, Anthropic’s Daniela Amodei shrugs off doubts about AI’s returns
Anthropic has been growing at a breakneck pace. The company announced that annualized revenue crossed $47 billion in May, up dramatically f…
Airbnb’s Brian Chesky plans to launch a new AI lab
The Airbnb CEO said last year it hasn't struck an LLM partnership because existing products weren't quite ready.
「この1年はAI戦国時代」 メルカリに学ぶ、AIガバナンス策定の勘所
生成AIの業務利用が前提となり、AIを通じてビジネス価値をどう生み出すかが問われている一方で、「シャドーAI」をはじめとするリスクも指摘されている。先行企業はAIのリスクをどう受け止め、対策に乗り出しているのか。本稿では「AI-Native Company」への転換を宣言し、A…
東大松尾研が「LLM講座 基礎編」の講義資料を無料公開 期間限定で
東京大学の松尾・岩澤研究室(以下、東大松尾研)が、LLMの基礎から技術動向まで体系的にまとめた講義資料「大規模言語モデル(LLM)講座 2025 基礎編」を期間限定で無料公開している。
How Endava is redesigning software delivery around AI agents
Learn how Endava is using AI agents, ChatGPT Enterprise, and Codex to accelerate software delivery, automate workflows, and build an AI-nat…
Dreaming: Better memory for a more helpful ChatGPT
ChatGPT introduces a new memory system to better remember preferences, keeping context fresh and relevant across conversations.
Google Chromeの新機能「Skills」 AIプロンプトの“毎回手打ち”を不要に
GoogleはChrome向けのAI新機能「Skills in Chrome」を発表した。AIプロンプトを保存してワンクリックで再利用可能にするという。
エンタープライズ AI エージェントの導入前保証に向けて: オントロジーに基づいたシミュレーションと信頼証明
エンタープライズ人工知能 (AI) エージェントの導入前の検証は、大規模言語モデル (LLM) 機能のベンチマークと運用環境の導入の間に依然として重大なギャップがあります。導入後のモニタリング、人間参加型制御、およびプロンプト レベルのガードレールは、エージェントが運用環境で動作すると限定的な保証を提供します。私たちは、次の 3 つのコンポーネントを組み合わせたオントロジーに基づいた検証フレームワークを提案します。1 つは、権限、ドメイン制約、安全性、ガバナンス ルール、および自律性レベルにわたる認証空間を形式化するエージェント運用エンベロープです。規制、運用、敵対的テストのシナリオを自動的に導き出すオントロジーからシナリオへの生成パイプライン。段階的な展開判定 (承認、条件付き、拒否) を含む機械検証可能な証明書を保持する信頼証明書。米国とベトナムの 5 つの業界別規制制度セルとしてインスタンス化された、4 つの規制対象業界 (フィンテック、銀行、保険、ヘルスケア) にわたる制御されたパイロットは、125 の主要なソース規制要件と 25 の注入された障害に対して評価された 1,800 のシナリオを生成しました。オントロジーに基づいた生成 (G4) は、ペルソナベースのベースラインでは 33.1% であるのに対し、規制適用率は 48.3% (修正 p = 0.0006)、最も高いドメイン特異性 (4.77/5.0; p = 2e-6) を達成しました。ベースラインおよび検索拡張プロンプトに対するカバレッジの利点は、ボンフェローニ補正後は堅牢ではありませんでした。 3 つの LLM ファミリ (Claude Sonnet 4、Qwen 2.5 72B、Gemma 4 26B、合計 5,400 のシナリオ) にわたる相互検証により、ペルソナ対オントロジーのパターンが再現されました。その結果、規制が集中するドメイン向けのペルソナベースのテスト スイートを確実に補完するものとして、オントロジーに基づいたシナリオ生成が確立されました。
原文 (English)
Toward Pre-Deployment Assurance for Enterprise AI Agents: Ontology-Grounded Simulation and Trust Certification
Pre-deployment verification of enterprise artificial intelligence (AI) agents remains a critical gap between large language model (LLM) capability benchmarking and production deployment. Post-deployment monitoring, human-in-the-loop controls, and prompt-level guardrails offer limited assurance once an agent is operating in production. We propose an ontology-grounded verification framework combining three components: an Agent Operational Envelope formalizing the certification space across permissions, domain constraints, safety properties, governance rules, and autonomy levels; an ontology-to-scenario generation pipeline that derives regulatory, operational, and adversarial test scenarios automatically; and a Trust Certificate carrying a machine-verifiable attestation with graduated deployment verdicts (Approved, Conditional, Rejected). A controlled pilot across four regulated industries (Fintech, Banking, Insurance, and Healthcare), instantiated as five industry-by-regulatory-regime cells across the United States and Vietnam, generated 1,800 scenarios evaluated against 125 primary-source regulatory requirements and 25 injected faults. Ontology-grounded generation (G4) achieved 48.3% regulatory coverage versus 33.1% for the persona-based baseline (corrected p = .0006) and the highest domain specificity (4.77/5.0; p = 2e-6). The coverage advantage over baseline and retrieval-augmented prompting was not robust after Bonferroni correction. Cross-validation across three LLM families (Claude Sonnet 4, Qwen 2.5 72B, Gemma 4 26B; 5,400 total scenarios) replicated the persona-versus-ontology pattern. The results establish ontology-grounded scenario generation as a credible complement to persona-based test suites for regulatory-intensive domains.
SMAC-Talk: 大規模言語モデル用の StarCraft マルチエージェント チャレンジの自然言語拡張
LLM がより広範に導入されるにつれて、LLM は単独で動作するのではなく、他の AI エージェントと連携して動作することがますます期待されています。このような状況での効果的な調整には、エージェントが不確実性の下でコミュニケーションし、情報を共有し、意思決定を行う必要があります。協調的なマルチエージェント環境で LLM ベースのエージェントを評価するための StarCraft Multi-Agent Challenge の自然言語拡張である SMAC-Talk を紹介します。この環境には、分散制御、部分的な可観測性、長期的な意思決定など、いくつかの重要な機能があります。 SMAC-Talk には、エージェントの調整と信頼を調査するために使用される自然言語通信チャネルが含まれています。この通信チャネルを使用して、通信だけで味方を混乱させ、欺こうとする欺瞞的なコミュニケーターが組み込まれた設定など、さまざまな評価シナリオを構築します。 Qwen3.5 ファミリーの 4 つのモデルを使用したベンチマーク用の 3 つのエージェントを提供し、推論構造、メモリ、モデルのスケールがエージェント間の調整にどのように影響するかを調査します。私たちは、協力的なマルチエージェント設定での LLM エージェントの開発と評価における研究コミュニティをサポートするオープン ベンチマークとして SMAC-Talk をリリースします。
原文 (English)
SMAC-Talk: A Natural Language Extension of the StarCraft Multi-Agent Challenge for Large Language Models
As LLMs become more widely deployed, they are increasingly expected to work alongside other AI agents rather than operating in isolation. Effective coordination in these settings requires agents to communicate, share information and make decisions under uncertainty. We introduce SMAC-Talk, a natural language extension of the StarCraft Multi-Agent Challenge for evaluating LLM-based agents in cooperative multi-agent environments. The environment has several key features such as decentralized control, partial observability and long-horizon decision making. SMAC-Talk includes a natural language communication channel which is used to probe agent coordination and trust. We use this communication channel to construct different evaluation scenarios, including settings with an embedded deceptive communicator that tries to disrupt and deceive allies through communication alone. We provide three agents for benchmarking using 4 models from the Qwen3.5 family and study how reasoning structure, memory and model scale affect coordination between agents. We release SMAC-Talk as an open benchmark to support the research community in developing and evaluating LLM agents in cooperative multi-agent settings.
VAMPS: 視覚支援による数学的問題解決ベンチマーク
マルチモーダルな大規模言語モデルは、複雑な推論の能力をますます高めていますが、ツールを通じて問題を外部化し、ツールの出力を推論する必要がある場合、特に視覚補助に依存している場合、パフォーマンスが低下することがよくあります。実際のエンジニアリングおよび科学のワークフローでは、分析、検証、意思決定のために視覚化ツールに依存することが多いため、このギャップは特に重要です。この矛盾を研究するために、グラフ支援数学のベンチマークである VAMPS (Visual-Assisted Mathematical 問題解決) を導入します。 VAMPS には、イランの大学入学試験の代数と微積分の問題から抽出された 1,168 個のマルチモーダルなバイリンガル多肢選択問題と解答のペアが含まれており、人間がレビューした LLM 生成の合成バリアントで拡張されており、プロットによって交差、極値、漸近線などを明らかにすることで自然な解法戦略が提供されるようにすべて選択されています。ベンチマークと診断の両方のために設計された VAMPS は、主に固定より推論を評価する以前のマルチモーダル ベンチマークを超えています。有用なグラフを構築し、結果として得られる視覚化でその答えを根拠付けることでモデルにメリットが得られるかどうかをテストすることで、視覚的な入力を行います。全体として、さまざまなモデルのセットにわたって、プロットが自然な戦略である問題であっても、直接的な分析的解決は、ツールを使用した視覚的解決よりも驚くほど優れたパフォーマンスを発揮することがわかりました。
原文 (English)
VAMPS: Visual-Assisted Mathematical Problem Solving Benchmark
Multimodal large language models are increasingly capable of complex reasoning, yet their performance often degrades when they must externalize a problem through a tool and then reason over the tool's output, specifically when they rely on visual aids. This gap is especially important because real engineering and scientific workflows often rely on visualization tools for analysis, validation, and decision-making. To study this discrepancy, we introduce VAMPS (Visual-Assisted Mathematical Problem Solving), a benchmark for graph-assisted mathematics. VAMPS contains 1,168 multimodal, bilingual multiple-choice question-answer pairs drawn from Iranian University Entrance Exam algebra and calculus problems and expanded with human-reviewed LLM-generated synthetic variants, all selected so that plotting provides a natural solution strategy by revealing intersections, extrema, asymptotes, etc. Designed for both benchmarking and diagnosis, VAMPS goes beyond prior multimodal benchmarks that primarily evaluate reasoning over fixed visual inputs by testing whether a model can benefit from constructing a useful graph and grounding its answer in the resulting visualization. Overall, we found that across a diverse set of models, direct analytical solving surprisingly outperforms tool-enabled visual solving, even on problems where plotting is a natural strategy.
StepPRM-RTL: RTL 合成を強化するための段階的なプロセス報酬ガイド付き LLM 微調整
デジタル ハードウェア設計用の RTL コードの自動生成は、長期的な推論、複数ステップの依存関係、および Verilog と VHDL の厳密な正確性制約のため、依然として困難です。我々は、段階的軌跡モデリング、プロセス報酬モデリング (PRM)、検索拡張微調整 (RAFT) を組み合わせて、LLM ベースの RTL コード生成の機能的正確性と推論忠実度の両方を強化する新しいフレームワークである StepPRM-RTL を紹介します。 StepPRM-RTL は、標準的な解決策から段階的な推論軌跡を構築します。各ステップには理論的根拠と段階的なコード変更が含まれます。プロセス報酬モデル (PRM) は中間ステップを評価し、RAFT の微調整中に強化スタイルの更新をガイドする緻密なフィードバックを提供します。モンテカルロ ツリー検索 (MCTS) は、代替推論パスを探索し、高品質の軌跡でトレーニング データセットを強化します。この段階的報酬と結果を意識した報酬の統合により、モデルは正しい RTL を構築する方法と理由の両方を学習できるようになり、標準的な教師ありトレーニングや結果ベースのトレーニングを超えて長期的な推論が向上します。ベンチマーク Verilog および VHDL データセットの実験評価では、StepPRM-RTL が機能の正確性と推論忠実度のメトリクスにおいて、従来の最良の方法よりも 10% 以上優れていることが実証されました。アブレーション研究では、PRM に基づく報酬と段階的な軌道探索の組み合わせがそのパフォーマンスの鍵であることが確認されています。 StepPRM-RTL は、RTL 言語全体を汎用化し、高忠実度で解釈可能なコード生成のためのスケーラブルなフレームワークを提供し、LLM 支援のハードウェア設計自動化の新しい標準を確立します。
原文 (English)
StepPRM-RTL: Stepwise Process-Reward Guided LLM Fine-Tuning for Enhanced RTL Synthesis
Automatic generation of RTL code for digital hardware designs remains challenging due to long-horizon reasoning, multi-step dependencies, and strict correctness constraints in Verilog and VHDL. We present StepPRM-RTL, a novel framework that combines stepwise trajectory modeling, process-reward modeling (PRM), and retrieval-augmented fine-tuning (RAFT) to enhance both the functional correctness and reasoning fidelity of LLM-based RTL code generation. StepPRM-RTL constructs stepwise reasoning trajectories from canonical solutions, where each step contains a rationale and incremental code modification. A Process Reward Model (PRM) evaluates intermediate steps, providing dense feedback that guides reinforcement-style updates during RAFT fine-tuning. Monte Carlo Tree Search (MCTS) explores alternative reasoning paths, enriching the training dataset with high-quality trajectories. This integration of stepwise and outcome-aware rewards allows the model to learn both how and why to construct correct RTL, improving long-horizon reasoning beyond standard supervised or outcome-based training. Experimental evaluation on benchmark Verilog and VHDL datasets demonstrates that StepPRM-RTL outperforms the best prior methods by over 10\% in functional correctness and reasoning fidelity metrics. Ablation studies confirm that the combination of PRM-guided rewards and stepwise trajectory exploration is key to its performance. StepPRM-RTL generalizes across RTL languages and provides a scalable framework for high-fidelity, interpretable code generation, establishing a new standard for LLM-assisted hardware design automation.
ゼネラリストエージェントはデータキュレーションを自動化できますか?
トレーニング データのキュレーションは、現代の AI 開発において最も重要ではあるものの、労働集約的な部分の 1 つです。実践者は、ノイズの多いベンチマーク フィードバックに対してデータ ポリシーを繰り返し提案、実装、評価、修正します。私たちは、ジェネラリストのコーディング エージェントがこのデータ キュレーション ループを自動化できるかどうかを尋ねます。 *Curation-Bench* というエージェント中心のベンチマークを導入します。これは、モデル、トレーニング レシピ、評価スイートを修正し、エージェントにデータの検査、ポリシーの実装、固定トレーニング/評価パイプラインへの送信、および修正のためのコマンドライン アクセスを許可します。ビジョン言語の命令チューニングのインスタンス化では、すぐに使用できるエージェントが 10 回の反復以内に公開された強力なデータ選択ベースラインに到達します。しかし、軌道分析により、永続的な*実行と研究のギャップ*が明らかになりました。エージェントは、たとえ戦略ガイドや参考文献が与えられたとしても、新しい政策ファミリーを探索するのではなく、主にローカル政策のバリエーションを調整します。反復ごとに以前のメソッドを引用、インスタンス化し、適応させる必要がある足場により、エージェントはメソッドに基づいた探索へと移行します。スキャフォールドされたエージェントは、人間による設計入力を必要とせずに、データ予算の 10 分の 1 で強力な公開ベースラインを上回るデータ選択ポリシーを自律的に作成します。全体として、現在のエージェントはキュレーション ループを実行できますが、信頼性の高いデータ調査には、オープンエンドのプロンプトのみではなく、足場を組んだ手法の適応が必要です。コードとベンチマークはオープンソースです。
原文 (English)
Can Generalist Agents Automate Data Curation?
Curating training data is among the most consequential yet labor-intensive parts of modern AI development: practitioners iteratively propose, implement, evaluate, and revise data policies against noisy benchmark feedback. We ask whether generalist coding agents can automate this data-curation loop. We introduce *Curation-Bench*, an agent-centric benchmark that fixes the model, training recipe, and evaluation suite while giving agents command-line access to inspect data, implement policies, submit them to a fixed training/evaluation pipeline, and revise. In a vision-language instruction-tuning instantiation, out-of-the-box agents reach strong published data-selection baselines within ten iterations. However, trajectory analysis reveals a persistent *execution-research gap*: agents mainly tune local policy variants rather than explore new policy families, even when given strategy guides and paper references. Scaffolds requiring each iteration to cite, instantiate, and adapt a prior method shift agents toward method-guided exploration. The scaffolded agent autonomously composes -- without human design input -- a data-selection policy that outperforms strong published baselines at one-tenth their data budget. Overall, current agents can run the curation loop, but reliable data research requires scaffolded method adaptation, not open-ended prompting alone. Code and benchmark are open-sourced.
飽和トラップと介入タイミングの主観性: 影響ベースのトリガーと LLM ジャッジが自律エージェントへの介入のタイミングを計れない理由
自律型 AI エージェントが会話型システムから長期的なソフトウェア実行に移行するにつれて、エージェントをいつ中断するかを決定するランタイム安全レイヤーが不可欠になっています。私たちは、診断プローブとして連続 18 次元感情ダイナミクス エンジン (HEART) を使用し、SWE ベンチ検証済みデバッグ トレース上の人間による注釈付き介入ポイントに対して 4 つの介入トリガー ファミリ (絶対状態しきい値、複合状態アクション パターン、正規表現推論特徴抽出、および判断者としてのゼロショット LLM) を評価して、このタイミング問題を研究します。 3 つの調査結果を報告します。まず、状態飽和トラップ: 継続的な困難下ではエージェントは回復シグナルを示さないため、モデル化されたフラストレーションはすぐにしきい値を超えて最大値に留まり、瞬間検出器からのしきい値オン状態トリガーを、5 つの軌道にわたるアクションの 39 ~ 83% で起動するほぼ一定のインジケーターに変換します。第 2 に、LLM 審査員向けの機能とコンテキストの下限です。小型モデル (gpt-5.4-mini) は決して発砲しませんが、フロンティア モデルやクロスベンダー モデルは完全な軌道コンテキストでのみゼロ発火下限を回避し、それでも最大 90 倍のコストで F1 0.17 ~ 0.40 にしか達しません。第三に、そして最も重要なことは、教師付きターゲットは人間間で再現可能ではないということです。56 アクションの軌道上で 1 つのルーブリックを使用する 3 人の訓練されたアノテーターは、偶然をわずかに上回る位置 (クリッペンドルフのアルファ = +0.047、最良のペアワイズ コーエンのカッパ = +0.349) で介入する場所については一致し、介入の種類についてはまったく一致しません (退化を一時停止、確率より下を明確にする、アルファのみを反映 = +0.226)。介入のタイミングは信頼性の低い構造であり、単一アノテーター F1 は最適化の対象として不適切であると結論付けます。私たちの貢献は、単一の検出器の精度ではなく、人間の評価者間信頼性、4 つの検出器アーキテクチャ、クロスモデル LLM 判定スイープ、および再現された飽和効果にわたるこの問題の共同マッピングです。
原文 (English)
The Saturation Trap and the Subjectivity of Intervention Timing: Why Affect-Based Triggers and LLM Judges Fail to Time Interventions on Autonomous Agents
As autonomous AI agents move from conversational systems to long-horizon software execution, runtime safety layers that decide when to interrupt an agent have become essential. We study this timing problem using a continuous 18-dimensional affective-dynamics engine (HEART) as a diagnostic probe, evaluating four intervention trigger families - absolute state thresholds, composite state-action patterns, regex reasoning-feature extraction, and zero-shot LLM-as-judge - against human-annotated intervention points on SWE-bench-Verified debugging traces. We report three findings. First, a State Saturation Trap: agents show no recovery signal under sustained difficulty, so modeled frustration quickly crosses the threshold and stays at its maximum, converting threshold-on-state triggers from moment detectors into near-constant indicators that fire on 39-83% of actions across five trajectories. Second, a capability-and-context floor for LLM judges: a small model (gpt-5.4-mini) never fires, while frontier and cross-vendor models escape the zero-firing floor only with full-trajectory context, and even then reach only F1 0.17-0.40 at up to 90x the cost. Third, and most importantly, the supervised target is not reproducible among humans: three trained annotators using one rubric on a 56-action trajectory agree on where to intervene only slightly above chance (location Krippendorff's alpha = +0.047; best pairwise Cohen's kappa = +0.349) and not at all on intervention type (pause degenerate; clarify below chance; reflect only alpha = +0.226). We conclude that intervention timing is a low-reliability construct, making single-annotator F1 an unsuitable optimization target. Our contribution is the joint mapping of this problem across human inter-rater reliability, four detector architectures, a cross-model LLM-judge sweep, and a reproduced saturation effect, rather than any single detector's accuracy.
エージェント的記憶システムのクロスシナリオ一般性の探求: 診断と強力なベースライン
LLM エージェントは、コンテキスト ウィンドウを超えて拡大する履歴を蓄積し、メモリ システムに関する文献の増加を促します。しかし、既存の設計のほとんどは単一のシナリオ (マルチセッション チャットまたは単一の軌跡形式) に合わせて調整されており、展開時にエージェントが遭遇する異種の軌跡全体にそれらが一般化するという証拠はほとんどありません。シングルターン QA、マルチセッション チャット、エージェント トラジェクトリ QA、メモリ ストレス テスト、長期エージェント タスクの 5 つのシナリオで、8 つのメモリ システムと検索問題用のエージェント ハーネスを再検討します。ツール呼び出しを介してフラット テキスト ファイル ストレージを自己管理するハーネスは、最高のクロスタスク ランキングを達成しました。これは、メモリのパフォーマンスが、固定パイプラインの背後にある受動的なストアではなく、ストレージと取得に対するアクティブな制御をエージェントに与えることに依存していることを示唆しています。この洞察を AutoMEM でインスタンス化します。AutoMEM は、評価するシステムの中で最高のクロスシナリオ汎用性を実現する自己管理ツール インターフェイスを備えたエージェント メモリ ハーネスです。
原文 (English)
Exploring Cross-Scenario Generality of Agentic Memory Systems: Diagnostics and a Strong Baseline
LLM agents accumulate histories that outgrow their context windows, motivating a growing literature on memory systems. Yet most existing designs are tuned to a single scenario (multi-session chat or a single trajectory format), and there is little evidence that they generalize across the heterogeneous trajectories agents encounter in deployment. We revisit eight memory systems plus an agentic harness for search problems, on five scenarios: single-turn QA, multi-session chat, agentic-trajectory QA, memory stress tests, and long-horizon agentic tasks. The harness, which self-manages flat text-file storage via tool calls, achieves the best cross-task ranking, suggesting that memory performance hinges on giving the agent active control over storage and retrieval rather than on a passive store behind a fixed pipeline. We instantiate this insight in AutoMEM, an agentic memory harness with a self-managed tool interface that achieves the best cross-scenario generality among the systems we evaluate.
トリビアム: 因果記憶コントローラーの第一級目標としての時間的後悔
現在のエージェント システムと LLM パイプラインの多くは、結果の報酬を最適化することで間違いを修正します。これは失敗の内容のみを扱います。結果が予測と異なる場合、不一致の理由と時期が体系的に記録、レビュー、修正されないため、同じエラーがエピソードごとに再発する可能性があります。私たちは、これは単にモデルの能力の問題ではなく、構造的な問題であると主張します。私たちは、作業因果モデルに対する結果の後悔や認識論的な後悔と並んで、長期的な時間的後悔を第一級の目標として提案します。時間的リグアロングは、失敗が継続するとき、すなわち、調整ミスの因果モデルが修正されるまでにどのくらいの期間許容されるかを捉えます。認識論的後悔は、失敗が続く理由、つまり作業因果モデルにおける残留不確実性またはエラーを捉えます。 3 つの後悔を総合すると、長命のエージェントがいつ、何が、なぜ失敗する可能性があるのかについて、反証可能な説明が得られます。エージェントを E エピソードのストリームとしてモデル化し、明示的な因果関係の調査、持続性、および検出可能性の仮定に基づいて 3 つの条件付き結果を証明します。まず、観察的に等価な交絡のもとでは、結果のみの学習では介入チャネルがなければ因果構造と偽の構造を区別できないため、結果の後悔がゼロになった後でも時間的誤調整が線形的に持続する可能性があります。第 2 に、永続的な因果ログと予算付きプローブを使用すると、総プローブの複雑さはエピソード期間内で対数的となり、O(log E) の時間的後悔を引き起こします。第三に、K 個の検出可能な変化点の下では、速度は O(K log E) まで拡張されます。 Trivium をインスタンス化し、5 つの反証可能な予測を事前に登録します。 CausalBench-Seq では、Trivium は予測された対数エンベロープに従いますが、結果のみのベースラインは直線的に増加します。パイロットのリアル LLM ストリームは、1 回の完全な E = 500 実行と 3 回の E = 100 フロンティア モデル パイロットにわたる予備的な外部妥当性証拠を提供します。ここでの自己学習とは、LLM 重みを再トレーニングすることではなく、外部因果モデルを修正することを意味します。
原文 (English)
Trivium: Temporal Regret as a First-Class Objective for Causal-Memory Controllers
Many current agentic systems and LLM pipelines correct mistakes by optimizing outcome reward. This addresses only the what of failure: when an outcome diverges from prediction, the why and when of the mismatch are not systematically logged, reviewed, or corrected, so the same error can recur episode after episode. We argue that this is a structural problem, not merely a model-capacity one. We propose long-horizon temporal regret as a first-class objective alongside outcome regret and epistemic regret over the working causal model. Temporal regret captures when failure persists: how long a miscalibrated causal model is tolerated before correction. Epistemic regret captures why failure persists: residual uncertainty or error in the working causal model. Together, the three regrets give a falsifiable account of what, why, and when a long-lived agent can fail. Modeling the agent as a stream of E episodes, we prove three conditional results under explicit causal-probing, persistence, and detectability assumptions. First, under observationally equivalent confounding, outcome-only learning cannot distinguish causal from spurious structure without an intervention channel, so temporal miscalibration can persist linearly even after outcome regret is driven to zero. Second, with a persistent causal log and budgeted probes, total probe complexity is logarithmic in the episode horizon, inducing O(log E) temporal regret. Third, under K detectable change-points, the rate extends to O(K log E). We instantiate Trivium and pre-register five falsifiable predictions. On CausalBench-Seq, Trivium follows the predicted logarithmic envelope while outcome-only baselines grow linearly. A pilot real-LLM stream provides preliminary external-validity evidence across one full E = 500 run and three E = 100 frontier-model pilots. Self-learning here means revising an external causal model, not retraining LLM weights.
Agentic RAG における連鎖的幻覚: 検出と軽減のための CHARM フレームワーク
マルチステップのエージェント的検索拡張生成 (RAG) パイプラインは、複雑な推論タスクに対して優れた能力を実証していますが、既存の幻覚検出メカニズムが体系的に見逃しているクラスの障害に対して脆弱なままです。カスケード幻覚では、パイプラインの初期段階で導入されたエラーが、連続する推論ステップ全体に伝播および増幅し、自信があるが事実としては不正確な最終出力が生成されます。この脆弱性に対処するために、私たちはカスケード幻覚をエージェント RAG システムの明確な障害モードとして形式化し、カスケード パターンの 4 種類の分類を提示し、複数ステップの推論パイプラインでエラー伝播を検出して中断するためのアーキテクチャ フレームワークである CHARM (Cascading Hallucination Aware Resolution and Mitigation) を導入します。 CHARM は、ステージレベルのファクト検証、クロスステージ一貫性追跡、信頼性伝播モニタリング、およびカスケード解決トリガーの 4 つのコンポーネントで構成されており、アーキテクチャの置き換えを必要とせずに、標準のエージェント RAG パイプラインと並行して動作します。 HotpotQA、MuSiQue、2WikiMultiHopQA、および LangChain エージェント パイプライン構成全体にわたるカスタム敵対的データセットで CHARM を評価し、89.4% のカスケード検出率と 5.3% の誤検知率、ステージあたりの平均レイテンシ オーバーヘッド 215 ミリ秒 +/- 18 ミリ秒を達成し、エラー伝播の削減を 82.1% 達成しました (前者の 18.5% と比較)。出力レベル検出器。 Component ablations confirm that each detection module contributes meaningfully to overall cascade coverage. CHARM は、人間による監視フレームワークと統合して、実稼働エージェント AI の導入に完全な信頼性とガバナンス スタックを提供します。
原文 (English)
Cascading Hallucination in Agentic RAG: The CHARM Framework for Detection and Mitigation
Multi-step agentic retrieval-augmented generation (RAG) pipelines have demonstrated significant capability for complex reasoning tasks, yet remain vulnerable to a class of failure that existing hallucination detection mechanisms systematically miss: cascading hallucination, where errors introduced at early pipeline stages propagate and amplify across successive reasoning steps, producing confident but factually incorrect final outputs. To address this vulnerability, we formalize cascading hallucination as a distinct failure mode in agentic RAG systems, present a four-type taxonomy of cascade patterns, and introduce CHARM (Cascading Hallucination Aware Resolution and Mitigation), an architectural framework for detecting and interrupting error propagation in multi-step reasoning pipelines. CHARM comprises four components - stage-level fact verification, cross-stage consistency tracking, confidence propagation monitoring, and cascade resolution triggering - that operate alongside standard agentic RAG pipelines without requiring architectural replacement. We evaluate CHARM on HotpotQA, MuSiQue, 2WikiMultiHopQA, and a custom adversarial dataset across LangChain agentic pipeline configurations, achieving an 89.4% cascade detection rate with a 5.3% false positive rate and 215 ms +/- 18 ms average latency overhead per stage, achieving an error propagation reduction of 82.1%, compared to 18.5% for output-level detectors. Component ablations confirm that each detection module contributes meaningfully to overall cascade coverage. CHARM integrates with human-in-the-loop oversight frameworks to provide a complete reliability and governance stack for production agentic AI deployment.
メタエージェントの課題: 現在のエージェントは自律的なエージェント開発が可能ですか?
現在の AI ベンチマークは、人間が設計したワークフロー内でのタスク実行に関してエージェントを評価します。これらの評価では、基本的に、モデルが自律的にエージェント システムを開発できるかどうかという、重要な次のレベルの機能を測定できません。自律エージェント開発のためのフロンティア モデルの能力をテストするために設計された評価フレームワークであるメタエージェント チャレンジ (MAC) を紹介します。具体的には、コード エージェント (メタエージェント) には、サンドボックス環境、評価 API、および 5 つのドメインにわたって実施されたテスト セットのパフォーマンスを最大化するエージェント アーティファクトを反復的にプログラムするための時間制限が与えられます。評価の整合性を確保するために、このフレームワークは報酬ハッキングに対する多層防御によって保護されています。このフレームワークを活用して、メタエージェントが人為的に設計されたベースライン ポリシーと一致することはほとんどなく、一致する少数のエージェントは独自のフロンティア モデルによって支配されていることを示します。さらに、設計プロセスは高い分散を示し、高い最適化圧力により、グラウンドトゥルースの漏洩などの敵対的な動作が表面化し、堅牢性とモデルの調整の両方における重大な欠陥が浮き彫りになります。最終的に、MAC は自律型 AI の研究開発のための厳密なオープンソース ベンチマークを提供し、再帰的な自己改善を評価するための経験的な代用手段を提供します。ベンチマークは https://github.com/ant-research/meta-agent-challenge で公開されています。
原文 (English)
The Meta-Agent Challenge: Are Current Agents Capable of Autonomous Agent Development?
Current AI benchmarks evaluate agents on task execution within human-designed workflows. These evaluations fundamentally fail to measure a critical next-level capability: whether models can autonomously develop agent systems. We introduce the Meta-Agent Challenge (MAC), an evaluation framework designed to test the capacity of frontier models for autonomous agent development. Specifically, a code agent (the meta-agent) is given a sandboxed environment, an evaluation API, and a time limitation to iteratively program an agent artifact that maximizes performance on a held-out test set across five domains. To ensure evaluation integrity, this framework is secured by multi-layer defenses against reward hacking. Leveraging this framework, we demonstrate that meta-agents rarely match human-engineered baseline policies, and the few that do are dominated by proprietary frontier models. Moreover, the design process exhibits high variance, and high optimization pressure surfaces emergent adversarial behaviors like ground-truth exfiltration-highlighting critical deficits in both robustness and model alignment. Ultimately, MAC provides a rigorous, open-source benchmark for autonomous AI research and development, offering an empirical proxy for evaluating recursive self-improvement. Benchmark is publicly available at: https://github.com/ant-research/meta-agent-challenge.
AgentJet: エージェント強化学習のための柔軟な群トレーニング フレームワーク
大規模言語モデル (LLM) エージェント強化学習用の分散群トレーニング フレームワークである AgentJet を紹介します。エージェントのロールアウトとモデルの最適化を密接に結び付ける集中型フレームワークとは異なり、AgentJet は分離されたマルチノード アーキテクチャを採用しています。このアーキテクチャでは、swarm サーバー ノードがトレーニング可能なモデルをホストし、GPU クラスターで最適化を実行します。一方、swarm クライアント ノードは任意のデバイスで任意のエージェントを実行します。この設計は、集中型フレームワークではサポートが難しい機能を提供します。(1) 異種マルチモデル強化学習。複数の LLM を頭脳とする異種マルチエージェント チームのトレーニングを可能にします。 (2) 独立したエージェントのランタイムを使用したマルチタスクのカクテル トレーニング。 (3) 外部環境の障害によるトレーニング プロセスの中断を防ぐフォールト トレラントな実行。 (4) ライブ コードの反復。群クライアント ノードを置き換えることにより、トレーニング中にエージェントを編集できます。マルチモデル、マルチターン、マルチエージェント設定で効率的な RL をサポートするために、AgentJet はタイムライン マージを備えたコンテキスト トラッキング モジュールを導入しています。これにより、冗長なコンテキストが統合され、トレーニングの 1.5 ~ 10 倍の高速化が実現します。最後に、AgentJet は、研究トピックを入力として受け取り、大規模クラスター上で長期にわたる複数日にわたる RL 研究を自律的に実行する自動研究システムを導入します。このシステムは、swarm アーキテクチャを活用することで、実行中に人間の介入なしに、RL 研究者の主要な探索ワークフローを再現します。
原文 (English)
AgentJet: A Flexible Swarm Training Framework for Agentic Reinforcement Learning
We present AgentJet, a distributed swarm training framework for large language model (LLM) agent reinforcement learning. Unlike centralized frameworks that tightly couple agent rollouts with model optimization, AgentJet adopts a decoupled multi-node architecture in which swarm server nodes host trainable models and run optimization on GPU clusters, whereas swarm client nodes execute arbitrary agents on arbitrary devices. This design provides capabilities that are difficult to support in centralized frameworks: (1) heterogeneous multi-model reinforcement learning, enabling the training of heterogeneous multi-agent teams with multiple LLM as brains; (2) multi-task cocktail training with isolated agent runtimes; (3) fault-tolerant execution that prevents external environment failures from interrupting the training process; and (4) live code iteration, which allows agents to be edited during training by replacing swarm client nodes. To support efficient RL in multi-model, multi-turn, and multi-agent settings, AgentJet introduces a context tracking module with timeline merging, which consolidates redundant context and achieves a 1.5-10x training speedup. Finally, AgentJet introduces an automated research system that takes a research topic as input and autonomously conducts long-horizon, multi-day RL studies on large-scale clusters. By leveraging the swarm architecture, this system reproduces key exploratory workflows of RL researchers without human intervention during execution.
プロンプトベースの計画を超えて: MCP ネイティブ グラフ計画ベースの生物医学エージェント システム
生物医学エージェントは複雑な生物学的ワークフローを自動化できると期待されていますが、現在のシステムは 2 つの根本的なボトルネックに直面しています。それは、バイオインフォマティクス ツールがインターフェイスと実行環境において非常に異質である一方、エージェントの計画は未だにプロンプトで取得されるフラットなツール記述に依存しているということです。生物医学ソフトウェア エコシステムが成長するにつれて、ツールの適用範囲とコンテキスト サイズの関係により、ツールの混乱、不安定な計画、および非効率的な実行が発生します。構造化された生物学的機能よりもグラフ足場計画に基づいて構築された MCP ネイティブの生物医学エージェントである BioManus を紹介します。 BioManus は、異種バイオインフォマティクス ソフトウェアを標準化された MCP サーバーに変換し、大規模な実行可能な MCP エコシステムを生み出す BioinfoMCP コンパイラーを初めて導入しました。次に、このエコシステムを、ツール、操作、データ型、ワークフロー ステージにわたる型付きの異種 MCP グラフとして編成します。推論時に、BioManus はコンパクトなタスク固有のサブグラフを取得し、操作レベルのワークフロー スキャフォールドを合成します。この設計は、計画の複雑さを生の工具在庫サイズから切り離し、高リコール取得下で Theta(N / (h * m_bar)) のコンテキスト圧縮率を達成します。ここで、N は総工具数、h はワークフロー範囲、m_bar (N よりもはるかに小さい) は操作ごとの候補工具の平均数です。 BioAgentBench と LAB-Bench の実験では、BioManus が高度な生物医学エージェントのベースラインと比較して、実行精度、ワークフローの有効性、およびコンテキストの効率を向上させることが示されています。この研究はパラダイム シフトを示唆しています。スケーラブルな生物医学的推論には、ますます大規模になるプロンプト レベルのツール検索ではなく、構造化された実行可能な機能グラフが必要です。
原文 (English)
Beyond Prompt-Based Planning: MCP-Native Graph Planning-based Biomedical Agent System
Biomedical agents promise to automate complex biological workflows, yet current systems face two fundamental bottlenecks: bioinformatics tools are highly heterogeneous in interfaces and execution environments, while agent planning still relies on flat prompt-retrieved tool descriptions. As biomedical software ecosystems grow, this coupling between tool coverage and context size leads to tool confusion, unstable planning, and inefficient execution. We introduce BioManus, an MCP-native biomedical agent built on graph-scaffolded planning over structured biological capabilities. BioManus first introduces the BioinfoMCP Compiler, which converts heterogeneous bioinformatics software into standardized MCP servers, yielding a large executable MCP ecosystem. It then organizes this ecosystem as a typed heterogeneous MCP graph over tools, operations, datatypes, and workflow stages. At inference time, BioManus retrieves compact task-specific subgraphs, synthesizes operation-level workflow scaffolds. This design decouples planning complexity from raw tool inventory size, achieving a context compression ratio of Theta(N / (h * m_bar)) under high-recall retrieval, where N is the total tool count, h is the workflow horizon, and m_bar (much smaller than N) is the average number of candidate tools per operation. Experiments on BioAgentBench and LAB-Bench show that BioManus improves execution accuracy, workflow validity, and context efficiency over advanced biomedical agent baselines. This work suggests a paradigm shift: scalable biomedical reasoning requires structured executable capability graphs rather than increasingly larger prompt-level tool retrieval.
シミュレーション、推論、決定: シミュレーション主導の意思決定のための LLM による科学的推論
科学シミュレータは、一か八かのシミュレーション主導の意思決定のために、LLM 主導のシステムにますます統合されています。ただし、既存のフレームワークは主に LLM を使用してシミュレータを生成、調整、実行し、シミュレータを推論可能な構造化された機構システムとしてではなく、ブラックボックス インターフェイスとして扱います。その結果、現在のアプローチには、シミュレータの動作の根底にある仮定やメカニズムを特定、表現、推論する能力が欠けており、透明性、監査可能性、意思決定の正当性が制限されています。実行可能な科学シミュレーター用のメカニズムに基づいた神経記号推論フレームワークである MechSim を紹介します。主に静的な記号構造を推論する従来の神経記号アプローチとは異なり、MechSim を使用すると、LLM エージェントが科学シミュレーターのメカニズム、仮定、および実行動作について推論できるようになります。私たちのフレームワークは、仮定、変数、メカニズムの依存関係、および実行トレースをキャプチャする共有構造化スキーマを通じてシミュレーターを表します。この表現に加えて、LLM エージェントは制約付き推論エンジンとして動作し、シミュレータの結果をその基礎となるメカニズムに結び付ける、構造化された証拠に基づいた説明を生成します。私たちは、複数のハイステークス領域にわたってアプローチを評価し、それがメカニズムレベルの説明の品質、シミュレーター分析、下流の意思決定の信頼性を向上させることを示しました。
原文 (English)
Simulate, Reason, Decide: Scientific Reasoning with LLMs for Simulation-Driven Decision Making
Scientific simulators are increasingly being integrated into LLM-driven systems for high-stakes simulation-driven decision-making. However, existing frameworks primarily use LLMs to generate, calibrate, or execute simulators, treating them as black-box interfaces rather than as structured mechanistic systems that can be reasoned about. As a result, current approaches lack the ability to identify, represent, and reason about the assumptions and mechanisms underlying simulator behavior, limiting transparency, auditability, and decision justification. We introduce MechSim, a mechanism-grounded neuro-symbolic reasoning framework for executable scientific simulators. Unlike prior neuro-symbolic approaches that primarily reason over static symbolic structures, MechSim enables LLM agents to reason about the mechanisms, assumptions, and execution behavior of scientific simulators. Our framework represents simulators through a shared structured schema capturing assumptions, variables, mechanism dependencies, and execution traces. On top of this representation, LLM agents operate as constrained reasoning engines that generate structured, evidence-grounded explanations linking simulator outcomes to their underlying mechanisms. We evaluate our approach across multiple high-stakes domains and show that it improves mechanism-level explanation quality, simulator analysis, and downstream decision-making reliability.
パラメトリック メモリを介した自己進化エージェントのスケーリング
既存のメモリ拡張 LLM エージェントは、ロールアウト中モデル パラメータを凍結したままにしながら、過去の経験をテキストの要約または取得された一節としてプロンプト領域にのみ保存します。このようなエージェントは、見たものを \emph{調べる}ことはできますが、それから \emph{学ぶ}ことはできません。彼らのポリシーは経験によって変更されず、コンテキストからドロップされた情報は永久に失われます。私たちは、自己進化するパラメトリック メモリ フレームワークである \texttt{TMEM} を導入します。このフレームワークでは、エージェントが履歴を明示的メモリに圧縮するだけでなく、軽量のオンライン アップデートを通じて抽出された監視を高速な LoRA 重み $\Delta_t$ に吸収し、単一のエピソード内で将来の動作を真に変更します。これを、高速重みロールアウト ダイナミクスを備えたエージェントの意思決定プロセスとして形式化します。アクションは $\pi_{\theta_0+\Delta_t}$ からサンプリングされ、抽出アクションは後続の決定のために $\Delta_t$ を更新する監視を生成します。このビューにより、抽出ポリシーが RL によって直接最適化可能になります。$\theta_0$ のトレーニングにより、タスク アクションだけでなく、オンライン LoRA 適応に使用されるデータの品質も向上します。さらに、オンラインコンバージェンスを加速するために、SVD ベースの LoRA サブスペースの初期化を提案します。 LoCoMo、LongMemEval-S、多目的検索、および CL-Bench の実験では、\texttt{TMEM} がさまざまなモデル スケールにわたって、要約ベースおよび検索ベースのベースラインを一貫して上回るパフォーマンスを示しています。
原文 (English)
Scaling Self-Evolving Agents via Parametric Memory
Existing memory-augmented LLM agents store past experience exclusively in prompt space, as textual summaries or retrieved passages, while keeping model parameters frozen throughout a rollout. Such agents can \emph{look up} what they have seen but cannot \emph{learn from} it: their policy is unchanged by experience, and any information dropped from the context is permanently lost. We introduce \texttt{TMEM}, a self-evolving parametric memory framework in which the agent not only compresses history into explicit memory but also absorbs distilled supervision into fast LoRA weights $\Delta_t$ via lightweight online updates, genuinely altering its future behavior within a single episode. We formalize this as an agentic decision process with fast-weight rollout dynamics: actions are sampled from $\pi_{\theta_0+\Delta_t}$, while extraction actions produce supervision that updates $\Delta_t$ for subsequent decisions. This view makes the extraction policy directly optimizable by RL: training $\theta_0$ improves not only task actions but also the quality of the data used for online LoRA adaptation. We further propose SVD-based initialization of the LoRA subspace to accelerate online convergence. Experiments on LoCoMo, LongMemEval-S, multi-objective search, and CL-Bench show that \texttt{TMEM} consistently outperforms summary-based and retrieval-based baselines across different model scales.
最初に計画し、後で判断し、より良く実行する: DMAIC からインスピレーションを得た産業異常検出用エージェント システム
大規模言語モデル (LLM) エージェントは、複雑なデータ分析ワークフローの自動化において有望であることが示されていますが、一か八かの産業シナリオにおいてその信頼性の高い導入は依然として困難です。産業異常検出 (IAD) は製造の品質、安全性、効率に不可欠ですが、既存の LLM ベースの IAD エージェントは主に実行に焦点を当てており、戦略策定は不十分です。その結果、統一的かつコスト効率の高い方法で異種のモダリティを処理するのに苦労しています。 DMAIC 品質管理フレームワークからインスピレーションを得て、当社は DMAIC-IAD (DMAIC にインスピレーションを得た Agentic Industrial Anomaly Detection) を提案します。これは、LLM エージェントを構造化された産業問題解決と連携させる、「最初に計画し、後で判断する」マルチエージェント システムです。 DMAIC-IAD は、戦略生成前に異種参照を標準化操作手順 (SOP) に抽出し、事前トレーニングされた実行不要の判定モデルを導入して、コストのかかる実行時トライアルを行わずに候補戦略をランク付けします。 4 つのモダリティにわたる広範な実験により、DMAIC-IAD は適用可能な薬剤ベースラインよりも平均検出パフォーマンスが 37.76% 向上することが示されています。
原文 (English)
Plan First, Judge Later, Run Better: A DMAIC-Inspired Agentic System for Industrial Anomaly Detection
Large language model (LLM) agents have shown promise in automating complex data-analysis workflows, but their reliable deployment remains challenging in high-stakes industrial scenarios. Industrial anomaly detection (IAD) is essential for manufacturing quality, safety, and efficiency, yet existing LLM-based IAD agents mainly focus on execution while under-exploiting strategy formulation. Consequently, they struggle to handle heterogeneous modalities in a unified and cost-effective manner. Inspired by the DMAIC quality-management framework, we propose DMAIC-IAD (DMAIC-inspired Agentic Industrial Anomaly Detection), a "Plan First, Judge Later" multi-agent system that aligns LLM agents with structured industrial problem-solving. DMAIC-IAD distills heterogeneous references into standardized operating procedures (SOPs) before strategy generation, and introduces a pre-trained execution-free judge model to rank candidate strategies without costly runtime trials. Extensive experiments across four modalities show that DMAIC-IAD improves average detection performance over applicable agentic baselines by 37.76%.
パルテノン法: 自己進化する弁護士の枠組み
エージェントの能力が高まるにつれて、法律分野の LLM エージェントは、大量のドキュメントをレビュー可能な作業成果物に変えることを約束しますが、信頼性の高い導入には 3 つの障害に直面しています。1 つは、今日の最も強力なモデルとハーネスの組み合わせがエンドツーエンドの法的問題でどのように動作するかについての大規模な証拠がないことです。法的な業種に適合したエージェント アーキテクチャはなく、汎用ハーネスのみが使用されます。そして、新しい事実、権限、期限によって変化し続ける環境では、システムが自らの結果から学習するメカニズムがありません。それぞれに対応します。 Harvey LAB に関する大規模な実証研究 -- $12{,}510$ のエージェントの軌跡 -- は、フロンティアのエージェントでさえ 1 回のパスで問題を完了することには程遠いことを示しています。より強力なモデルを使用すると基準ごとの精度が向上しますが、厳密な問題の完了は停滞します。次に、\textsc{Parthenon} を導入します。これは、モデル、ハーネス、代理人の役割、法的知識、決定論的なツール、および手続き上のスキルを情報源の追跡可能性、日付と番号の根拠、成果物のコンプライアンス、および問題の解決のための監査可能な表面に組み込む、自己進化する法律代理人のフレームワークです。最後に、漏れ防止学習ループにより、スコアリングされた失敗がタスクに依存しないスキル、ツール、知識の編集に変換され、企業が問題ごとにチェックリストとプレイブックを洗練するように、モデルの重みに触れることなく、経験とともにシステムが改善されます。私たちの大規模な実証分析を通じて、\textsc{Parthenon} は法的問題のタスクにおける最先端のモデルとハーネスのパフォーマンスを大幅に向上させました。
原文 (English)
Parthenon Law: A Self-Evolving Legal-Agent Framework
As agents grow more capable, legal-domain LLM agents promise to turn document-heavy matters into reviewable work products -- yet reliable deployment faces three obstacles: no large-scale evidence on how today's strongest model-and-harness combinations behave on end-to-end legal matters; no agent architecture adapted to the legal vertical, only general-purpose harnesses; and, in a setting that keeps shifting with new facts, authorities, and deadlines, no mechanism for systems to learn from their own outcomes. We address each. A large-scale empirical study on Harvey LAB -- $12{,}510$ agent trajectories -- shows that even frontier agents remain far from completing matters in a single pass: per-criterion accuracy climbs with stronger models while strict matter completion stalls. We then introduce \textsc{Parthenon}, a self-evolving legal-agent framework that factors Model, Harness, Agent roles, legal Knowledge, deterministic Tools, and procedural Skills into auditable surfaces for source traceability, date and number grounding, deliverable compliance, and issue closure. Finally, an anti-leakage learning loop converts scored failures into task-agnostic edits to skills, tools, and knowledge, letting the system improve with experience -- as a firm refines its checklists and playbooks after each matter -- without touching model weights. Across our large-scale empirical analysis, \textsc{Parthenon} substantially improves the performance of state-of-the-art models and harnesses on legal-matter tasks.
FALSIFYBENCH: ルール発見ゲームを使用した LLM の帰納的推論の評価
大規模言語モデル (LLM) は、科学タスクにおける自律エージェントとして導入されることが増えています。しかし、これらのシステムが科学的発見に関連する帰納的推論の形式に効果的に関与できるかどうかは未解決の問題のままです。この研究では、古典的な Wason 2-4-6 タスクに触発された仮説主導型推論の評価フレームワークである FALSIFYBENCH を紹介します。このタスクでは、エージェントは例を繰り返し提案し、フィードバックを受け取ることによって隠れた意味論的特性を発見する必要があります。このタスクでは、科学的推論の重要な要素、つまり仮説の生成、証拠の収集、および証拠の確認と反証に応じた信念の修正を捉えます。モデルファミリーとスケールにわたる 12 個の LLM の評価では、最適なパフォーマンスに近いモデルはないものの、推論モデルは一般に命令調整モデルよりも強力な科学的推論であることがわかりました。成功の主な原動力は否定的なテストの能力です。仮説を積極的に反証しようとするモデルは、主に確認を求めるモデルよりも一貫して優れています。さらに、これまでの研究では無視されていたきめ細かいターンレベル分析により、モデルが仮説空間をナビゲートする方法における特定可能なパターンと失敗が結びついていることが明らかになりました。
原文 (English)
FALSIFYBENCH: Evaluating Inductive Reasoning in LLMs with Rule Discovery Games
Large language models (LLMs) are increasingly deployed as autonomous agents in scientific tasks. Yet whether these systems can effectively engage in forms of inductive reasoning relevant to scientific discovery remains an open question. In this work, we introduce FALSIFYBENCH, an evaluation framework for hypothesis-driven reasoning inspired by the classic Wason 2-4-6 task, in which agents must discover hidden semantic properties by iteratively proposing examples and receiving feedback. This task captures key elements of scientific reasoning: hypothesis generation, evidence gathering, and belief revision in response to both confirming and disconfirming evidence. Our evaluation of 12 LLMs across model families and scales shows that reasoning models are generally stronger scientific reasoners than instruction-tuned models, although no model comes close to optimal performance. The primary driver of success is the capacity for negative testing: models that actively seek to falsify their hypotheses consistently outperform those that primarily seek confirmation. Moreover, a fine-grained turn-level analysis, neglected in previous work, reveals that failure is tied to identifiable patterns in how models navigate the hypothesis space.
浅い安全性を超えた推論時の脆弱性: 世代の軌跡に沿った調整
安全性を考慮した大規模言語モデル (LLM) は、生成を有害な出力にリダイレクトする推論中の介入に対して依然として脆弱です。最近の研究では、これは浅い安全性であると考えられており、最初のいくつかの出力トークンに位置合わせが集中しています。浅い安全性は、より広範な推論時間の脆弱性の特殊なケースであり、任意の生成ステップでの短いトークンの注入によって、その後の安全性の動作が大幅に変更される可能性があることを示します。また、隠れ状態における拒否方向とのモデルの整合性は、そのような注入に対するそのロバスト性を予測しないこともわかり、内部状態だけが摂動下での生成挙動を決定しないことが明らかになりました。これに対処するために、シーケンス途中の摂動をシミュレートすることによって構築された生成軌跡にモデルを直接調整し、これによりシーケンス途中の注入に対する堅牢性が向上し、初期のトークン生成を悪用する攻撃に一般化されることを示します。私たちの研究では、堅牢な安全調整には、出力だけでなく、生成プロセス自体のトレーニングも必要であると主張しています。
原文 (English)
Inference-Time Vulnerability Beyond Shallow Safety: Alignment Along Generation Trajectories
Safety-aligned Large Language Models (LLMs) remain vulnerable to interventions during inference that redirect generation toward harmful outputs. Recent work attributes this to shallow safety, where alignment concentrates in the first few output tokens. We show that shallow safety is a special case of a broader inference-time vulnerability, in which short token injections at any generation step can substantially alter subsequent safety behavior. We also find that a model's alignment with refusal directions in its hidden states does not predict its robustness to such injection, revealing that internal state alone does not determine generation behavior under perturbation. To address this, we align models directly on generation trajectories constructed by simulating mid-sequence perturbation, and show that this improves robustness to mid-sequence injection and generalizes to attacks that exploit early-token generation. Our work argues that robust safety alignment requires training on the generation process itself, not only its outputs.
BiasGRPO: グループ相対ポリシーの最適化による、変動の大きい報酬環境におけるバイアス緩和の安定化
大規模言語モデル (LLM) での社会的バイアスの軽減には、明確な調整の課題が伴います。検証可能なタスクとは異なり、バイアスには単一の根拠が欠如しており、分散が大きく、主観的な報酬の状況が生じます。以前のプリファレンスベースの微調整方法には大きなトレードオフがありました。直接プリファレンス最適化 (DPO) はオフライン トレーニングに固有の探索の欠如によって制限されますが、近接ポリシー最適化 (PPO) は信頼性の低い批評家の推定値が原因でトレーニングが不安定になる可能性があります。この論文では、グループ相対ポリシー最適化 (GRPO) を使用して、サンプリングされた完了のグループ全体で報酬を正規化することで調整を安定化するフレームワークである BiasGRPO を提案します。価値関数をグループ相対ベースラインに置き換えることにより、私たちのアプローチは、オンライン トレーニングの探求の利点を維持しながら、不安定性を軽減します。 BiasGRPO は複数のベンチマークにわたって DPO および PPO を上回っており、その有効性が示されていることがわかりました。 GRPO を適応させるために、複数のドメインとコンテキストにまたがるデータセットを合成的に拡張します。また、計算効率が高く、知識の低下を回避しながら生成を効果的にガイドするカスタム バイアス報酬モデルを作成してリリースし、多目的 RLHF パイプラインにシームレスに統合できる貴重なリソースを提供します。
原文 (English)
BiasGRPO: Stabilizing Bias Mitigation in High-Variance Reward Landscapes via Group-Relative Policy Optimization
Mitigating social bias in Large Language Models (LLMs) presents a distinct alignment challenge: unlike verifiable tasks, bias lacks a single ground truth, creating a high-variance, subjective reward landscape. Previous preference-based fine-tuning methods have major trade-offs: Direct Preference Optimization (DPO) is limited by the lack of exploration inherent in offline training, while Proximal Policy Optimization (PPO) can lead to training instability due to potentially unreliable critic estimates. In this paper, we propose BiasGRPO, a framework using Group Relative Policy Optimization (GRPO) to stabilize alignment by normalizing rewards across a group of sampled completions. By substituting the value function with a group-relative baseline, our approach reduces instability while maintaining the exploration benefits of online training. We find that BiasGRPO outperforms DPO and PPO across multiple benchmarks, indicating its effectiveness. To adapt GRPO, we synthetically extend a dataset spanning multiple domains and contexts. We also create and release a custom bias reward model that effectively guides generation while being highly compute-efficient and avoiding knowledge degradation, providing a valuable resource that can be seamlessly integrated into multi-objective RLHF pipelines.
客観的等価性を超えて: 配車経路問題に対する LLM ベースの最適化モデリングのための制約注入
大規模言語モデル (LLM) は、自然言語の最適化問題を実行可能なソルバー コードに変換することが増えています。しかし、制約が密なオペレーション リサーチ (OR) 問題の場合、既存のデータ フィルタリングおよびトレーニング パイプラインは主に、差分テストや回答一致などの客観的等価信号に依存しています。これらの制約がテスト対象のインスタンスに拘束力を持たない場合、プログラムは偽の制約を追加したり、必要な制約を黙って省略したりしながら、この信号を渡すことができます。我々は、実現可能プローブを使用して偽の過剰制約プローブと 1 つの制約違反プローブを明らかにし、サイレント制約省略を明らかにする制約注入を提案します。差分テストと組み合わせると、二重検証機能が形成されます。運転上の制約が結合された代表的な制約密度の高い組み合わせ最適化テストベッドである配車経路問題 (VRP) 上でインスタンスを作成し、評価します。当社は、自然言語 VRP シナリオを Gurobi スクリプトに変換する 8B エンドツーエンド モデルである VRPCoder を、21 のバリアントをカバーする専門家によって検証された VRP ベンチマーク スイートとともに開発しています。ベリファイアは、データ合成中の拒否サンプリング フィルターとして、またグループ相対ポリシー最適化 (GRPO) のロールアウトごとの報酬として再利用されます。 4 つの VRP ベンチマーク全体で、VRPCoder-GRPO は平均 Pass@1 の 93\% に達し、3 つのベンチマークで Gemini-3.1-Pro Preview を上回り、Claude-Sonnet-4.5 を平均 28 ポイント上回り、以前の OR-LLM を平均 78 ポイント上回っています。
原文 (English)
Beyond Objective Equivalence: Constraint Injection for LLM-Based Optimization Modeling on Vehicle Routing Problems
Large language models (LLMs) increasingly translate natural-language optimization problems into executable solver code. Yet for constraint-dense operations research (OR) problems, existing data-filtering and training pipelines largely rely on objective-equivalence signals such as differential testing and answer agreement, which a program can pass while adding spurious constraints or silently omitting required ones, whenever those constraints are non-binding on the tested instance. We propose constraint injection, which uses feasible probes to expose spurious over-constraint and one-constraint-violating probes to reveal silent constraint omission. Combined with differential testing, it forms a dual verifier. We instantiate and evaluate it on vehicle routing problems (VRPs), a representative constraint-dense combinatorial optimization testbed with coupled operational constraints. We develop VRPCoder, an 8B end-to-end model that translates natural-language VRP scenarios into Gurobi scripts, together with an expert-verified VRP benchmark suite covering 21 variants. The verifier is reused as a rejection-sampling filter during data synthesis and as a per-rollout reward in group relative policy optimization (GRPO). Across four VRP benchmarks, VRPCoder-GRPO reaches 93\% average Pass@1, outperforms Gemini-3.1-Pro Preview on three benchmarks, exceeds Claude-Sonnet-4.5 by 28 average points, and surpasses prior OR-LLMs by 78 average points.
R-APS: 内省的敵対的パレート検索による制約付き設計のための構成推論とコンテキスト内メタ学習
大規模言語モデル (LLM) は、無制限のタスクに柔軟に対応しますが、システムが計画を立て、ツールを使用し、長期間にわたって動作する必要があるエージェント設定では、流暢さは信頼性の高い配信を保証しません。このギャップを 3 つの構造的欠陥が結合したものとして追跡します。エラーは位置特定されずに伝播し、最悪の場合の摂動は評価されず、蓄積された知識は決して無効になりません。私たちは、これらには根本原因が共有されていると主張します。つまり、アブダクティブ、反事実、メタ帰納的、修正的、帰納的推論は、共有されたコンテキストを矛盾する方向に引っ張ります。私たちは、Reflective Adversarial Pareto Search (R-APS) を導入します。これは、推論モード分解を介して 3 つの失敗すべてに共同で対処し、各推論モードに独自のコンテキストを割り当て、3 つのタイムスケールにわたる相互作用を調整する、私たちの知る限り最初の方法です。型付き検証批評家による段階的な構成推論 (失敗の局在化)、第一級のパレート目標 (堅牢性) としての感度に基づく反事実ストレステスト、および明示的なメタ帰納的ルール抽出です。 invalidation (persistent memory). R-APS は微調整を必要とせず、純粋に構造化されたプロトコル設計によってフリーズされた LLM 上で動作します。平面機構の合成 (ロボット工学、補綴物、機械設計) を評価し、すべての候補を運動学ソルバーでチェックします。 32 のターゲット軌道上で、R-APS は、均一摂動ベースラインよりも 3.5 倍厳しいロバスト性証明書、最初の許容までの反復が 46% 高速化、Enum+GA と比較して 2.1 倍の面取り距離の短縮を実現しながら、バー数と最悪の場合のロバスト性を共同制御します。小規模な 4B 推論に特化したモデルは、プロトコル内の汎用 70B バックボーンと競合することが証明されており、構造化プロトコルがモデルのスケールを部分的に相殺できることを示唆しています。
原文 (English)
R-APS: Compositional Reasoning and In-Context Meta-Learning for Constrained Design via Reflective Adversarial Pareto Search
Large language models (LLMs) are fluent on open-ended tasks, yet in agentic settings, where a system must plan, use tools, and act over extended horizons, fluency does not ensure reliable delivery. We trace this gap to three coupled structural failures: errors propagate without localization, worst-case perturbations go unevaluated, and accumulated knowledge is never invalidated. We argue these share a root cause: abductive, counterfactual, meta-inductive, corrective, and inductive reasoning pull a shared context in incompatible directions. We introduce Reflective Adversarial Pareto Search (R-APS), to our knowledge the first method addressing all three failures jointly via reasoning-mode decomposition, allocating each reasoning mode its own context and orchestrating interaction across three timescales: staged compositional reasoning with a typed validation critic (failure localization), sensitivity-guided counterfactual stress-testing as a first-class Pareto objective (robustness), and meta-inductive rule extraction with explicit invalidation (persistent memory). R-APS requires no fine-tuning and operates on a frozen LLM purely via structured protocol design. We evaluate on planar mechanism synthesis (robotics, prosthetics, mechanical design), with every candidate checked by a kinematic solver. On 32 target trajectories, R-APS delivers robustness certificates 3.5x tighter than uniform-perturbation baselines, 46% faster iterations-to-first-admission, and 2.1x Chamfer-distance reduction over Enum+GA while jointly controlling bar-count and worst-case robustness. Small 4B reasoning-specialized models prove competitive with general-purpose 70B backbones inside the protocol, suggesting structured protocols can partially offset model scale.
AICompanionBench: AI コンパニオンの安全性に関する審査員としての LLM のベンチマーク
Replika や Character.AI などの AI コンパニオン プラットフォームが急速に成長するにつれて、安全でない人間と AI の相互作用に対する懸念が強まっています。この研究では、AICompanionBench を導入します。AICompanionBench は、私たちの知る限り、きめ細かい安全リスク カテゴリの注釈が付けられた、人間と AI コンパニオンの会話の初の公的に利用可能なベンチマーク データセットです。このデータセットには、Reddit から収集され、性的行動、反社会的行動、身体的攻撃性、言葉による攻撃性、薬物乱用、自傷行為と自殺、制御、操作、無害の 9 つのカテゴリにわたる人間と AI のコラボレーションを通じて注釈が付けられた 2,123 件の実世界の Replika 会話が含まれています。このベンチマークを使用して、安全でない相互作用を検出するための LLM-as-judge フレームワークの下で 20 個の最先端のオープンソースおよびクローズドソース LLM を評価します。結果は、モデルのパフォーマンスに大きなばらつきがあり、より強力なモデルは全体的に高い精度を達成していますが、操作や有害であると誤って認識される無害な会話などの微妙なカテゴリに依然として苦戦していることがわかりました。私たちの調査結果は、現在の LLM は明示的な有害なコンテンツを効果的に検出できるものの、暗黙的な安全でない相互作用の特定には依然として限界があることを示唆しています。全体として、私たちの研究は AI コンパニオンシップの安全性研究のための新しいベンチマーク データセットに貢献し、LLM を使用した AI コンパニオン システムのモニタリングに関する洞察を提供します。データセットは、https://github.com/anonymousresearcher2026/AICompanionBench/blob/main/AICompanionBench.xlsx で公開されています。
原文 (English)
AICompanionBench: Benchmarking LLMs-as-Judges for AI Companion Safety
As AI companion platforms such as Replika and Character.AI rapidly grow, concerns about unsafe human-AI interactions have intensified. This study introduces AICompanionBench, to our knowledge the first publicly available benchmark dataset of human-AI companion conversations annotated with fine-grained safety risk categories. The dataset contains 2,123 real-world Replika conversations collected from Reddit and annotated through human-AI collaboration across nine categories: sexual behavior, antisocial behavior, physical aggression, verbal aggression, substance abuse, self-harm and suicide, control, manipulation, and no-harm. Using this benchmark, we evaluate 20 state-of-the-art open-source and closed-source LLMs under an LLM-as-judge framework for detecting unsafe interactions. Results show substantial variation in model performance, with stronger models achieving high overall accuracy but still struggling with nuanced categories such as manipulation, as well as benign conversations that are incorrectly identified as harmful. Our findings suggest that while current LLMs can effectively detect explicit harmful content, they remain limited in identifying implicit unsafe interactions. Overall, our work contributes a new benchmark dataset for AI companionship safety research and offers insights into monitoring AI companion systems using LLMs. The dataset is publicly available at: https://github.com/anonymousresearcher2026/AICompanionBench/blob/main/AICompanionBench.xlsx
ノアの箱舟の知識索引
LLM の知識ベンチマークは 3 つの問題に直面しています。1 つは、規律の代表性を運用できないスケーリング主導の設計です。遅延コンセンサスを可能にする定額支払いアノテーション。制限されたテスト予算の下では、監査されていないランキングの不安定性。 261 のきめ細かい分野にわたる 899 項目のベンチマークである KINA を、2 つの正式な結果とともに紹介します。まず、専門家が導き出したアンカーよりも報道スタイルの目的として代表性を設定し、代理人を通じて規律上の代表性を操作して、(1-1/e) 貪欲な近似 (命題 1) を生成します。保証は代理人に適用され、母集団の代表性には適用されません。第二に、インセンティブ互換性しきい値 B > デルタ C / デルタ p_min (定理 1) で、ボーナスオンバートーナメントがリリースレビューの品質においてフラットペイメントを弱く FOSD で支配することを証明します。 13 のラボからの 42 モデルを評価すると、最上位モデルの Gemini-3.1-Pro-Preview は 53.17% に達し、続いて Claude-Opus-4.6 が 49.92%、GPT-5.4 が 48.55% となり、飽和以下にかなりのヘッドルームが残されています。完全なリーダーボードは、滑らかな全体の順序ではなく階層構造を示しています。小規模なフロンティア階層は 48% を超え、高密度の強力なモデル階層は約 38 ~ 45% に広がり、低パフォーマンスのモデルは 10% の確率ベースラインをわずかに上回る程度に留まっています。ツールの強化により、5 つのツール使用評価全体で最大 5.17 ポイントが加算され、そのゲインはモデルによって大幅に異なります。限られた予算の分散を明示し、隣接するランクの過度の解釈を防ぐために、ブートストラップのランキング安定性統計を報告します。
原文 (English)
Knowledge Index of Noah's Ark
Knowledge benchmarks for LLMs face three issues: scaling-driven designs that do not operationalize disciplinary representativeness; flat-payment annotation that permits lazy consensus; and unaudited ranking instability under bounded test budgets. We introduce KINA, an 899-item benchmark across 261 fine-grained disciplines, with two formal results. First, we cast representativeness as a coverage-style objective over expert-elicited anchors and operationalize disciplinary representativeness through a proxy, yielding a (1-1/e) greedy approximation (Proposition 1); the guarantee applies to the proxy, not to population representativeness. Second, we prove a bonus-on-bar tournament weakly FOSD-dominates flat payment in released-review quality, with incentive-compatibility threshold B > Delta C / Delta p_min (Theorem 1). Evaluating 42 models from 13 labs, the top model, Gemini-3.1-Pro-Preview, reaches 53.17%, followed by Claude-Opus-4.6 at 49.92% and GPT-5.4 at 48.55%, leaving substantial headroom below saturation. The full leaderboard shows a tiered structure rather than a smooth total order: a small frontier tier lies above 48%, a dense strong-model tier spans roughly 38-45%, and low-performing models remain only modestly above the 10% chance baseline. Tool augmentation adds up to 5.17 points across the five tool-use evaluations, with gains varying substantially across models. We report bootstrap ranking-stability statistics to make bounded-budget variance explicit and to discourage over-interpretation of adjacent ranks.
人間の活動認識における軽量 SensorLLM のための重力認識階層ルーティング
センサーと言語のアライメントに関する最近の研究では、2 段階のフレームワークにより、ウェアラブル センサーの人間活動認識 (HAR) のセマンティック モデリング能力が向上することが示されています。SensorLLM スタイルのメソッドは、最初にモーションと言語のアライメントを実行し、次に下流のタスクに向けてモデルを微調整します。しかし、私たちの実験では、ステージ 2 のバックボーンが TinyLlama などのコンパクトなモデルに圧縮された場合に、一貫した故障モードが明らかになりました。動的アクティビティの認識は比較的強いままですが、立つ、座る、横たわるなどの動きの少ない静的なクラスの識別は大幅に低下します。この問題に対処するために、新しい大規模な事前トレーニング フレームワークではなく、すでに位置合わせされたモデルの上に構築された軽量の位置合わせ後の適応として、重力を認識した階層型ルーティング ヘッドを提案します。このメソッドは、Chronos トークナイザーの状態からのチャネルごとの平均と標準偏差を使用して、姿勢と重力方向に関連する統計的手がかりを抽出し、安定したトレーニングのための負荷分散損失とともに、ソフト ルーティングを通じて静的エキスパートと完全エキスパートを適応的に組み合わせます。 MHealth データセットでは、この設計により、最小限のパラメーター オーバーヘッドでマクロ F1 が大幅に改善され、動的アクティビティでの優れたパフォーマンスを維持しながら、ゲインは主に静的クラスに集中します。最初の arXiv 開示として、現在の論文は単一のデータセットのみに関する結果を報告しており、その目的は、中核となる手法を強調し、将来の研究におけるより広範な評価のための基礎を築くことです。
原文 (English)
Gravity-Aware Hierarchical Routing for Lightweight SensorLLM on Human Activity Recognition
Recent studies on sensor-language alignment have shown that two-stage frameworks can improve the semantic modeling ability of wearable-sensor human activity recognition (HAR), where SensorLLM-style methods first perform motion-to-language alignment and then fine-tune the model for downstream tasks. However, our experiments reveal a consistent failure mode when the Stage 2 backbone is compressed to a compact model such as TinyLlama: recognition of dynamic activities remains relatively strong, while the discrimination of low-motion static classes such as standing, sitting, and lying degrades substantially. To address this issue, we propose a gravity-aware hierarchical routing head as a lightweight post-alignment adaptation built on top of an already aligned model, rather than a new large-scale pretraining framework. The method uses the per-channel mean and std from the Chronos tokenizer state to extract statistical cues related to posture and gravity direction, and adaptively combines a static expert and a full expert through soft routing, together with a load-balancing loss for stable training. On the MHealth dataset, this design significantly improves macro-F1 with minimal parameter overhead, and the gains are concentrated mainly on static classes while preserving strong performance on dynamic activities. As a first arXiv disclosure, the current paper reports results on a single dataset only, with the goal of highlighting the core method and laying the groundwork for broader evaluation in future work.
CodegenBench: LLM はアーキテクチャ全体で効率的なコードを記述できますか?
大規模言語モデル (LLM) は、汎用プログラミングや GPU アクセラレーション環境 (PyTorch、CUDA など) のコード生成タスクで広範囲に評価されてきましたが、多様なアーキテクチャにわたる CPU 指向のハイパフォーマンス コンピューティング (HPC) における LLM の機能はまだ十分に解明されていません。このギャップを埋めるために、x86_64、Sunway、Kunpeng の 3 つの異なるハードウェア プラットフォームにわたる効率的な並列コードの生成を評価するように設計された包括的なベンチマーク スイートである CodegenBench を紹介します。私たちのベンチマークは、基本的なベースラインを確立する 106 個の標準基本線形代数サブプログラム (BLAS) ルーチンと、独自のスーパーコンピューティング アーキテクチャ (LeetSunway および LeetKunpeng) のそれぞれに適合した 20 個の特殊な計算カーネルで構成されています。私たちの広範な評価により、最先端の LLM は x86_64 のようなユビキタス アーキテクチャ向けに最適化されたコードを生成できる一方で、公開ドキュメントやトレーニング データが限られたドメイン固有のアーキテクチャでは大幅なパフォーマンスの低下を示し、クロスプラットフォームの一般化における重大な制限が浮き彫りになったことが明らかになりました。さらに、実装の長さやタスクの複雑さなど、コードの品質に影響を与える要因を分析したところ、現在の LLM は、簡潔なコード スニペットを必要とする中程度に難しい問題に対して最も効果的であることが示されています。私たちは、LLM 主導の高性能コード生成における将来の研究を促進するために、データセットと自動評価インフラストラクチャをオープンソースにしています。リソースは https://anonymous.4open.science/r/CodegenBench-EDE1/ および https://anonymous.4open.science/r/CodegenBenchDataset-2551 で利用できます。
原文 (English)
CodegenBench: Can LLMs Write Efficient Code Across Architectures?
While large language models (LLMs) have been extensively evaluated on code generation tasks for general-purpose programming and GPU-accelerated environments (e.g., PyTorch, CUDA), their capabilities in CPU-oriented high-performance computing (HPC) across diverse architectures remain underexplored. To bridge this gap, we introduce CodegenBench, a comprehensive benchmark suite designed to evaluate the generation of efficient parallel code across three distinct hardware platforms: x86_64, Sunway, and Kunpeng. Our benchmark comprises 106 standard Basic Linear Algebra Subprograms (BLAS) routines establishing a fundamental baseline, alongside 20 specialized computational kernels adapted for each of the unique supercomputing architectures (LeetSunway and LeetKunpeng). Our extensive evaluation reveals that while state-of-the-art LLMs can generate optimized code for ubiquitous architectures like x86_64, they exhibit significant performance degradation on domain-specific architectures with limited public documentation and training data, highlighting critical limitations in cross-platform generalization. Furthermore, our analysis of factors influencing code quality such as implementation length and task complexity indicates that current LLMs are most effective for moderately difficult problems requiring concise code snippets. We open-source our dataset and automated evaluation infrastructure to facilitate future research in LLM-driven high-performance code generation. The resources are available at https://anonymous.4open.science/r/CodegenBench-EDE1/ and https://anonymous.4open.science/r/CodegenBenchDataset-2551.
MaskForge: 脱獄拡散のための構造認識型適応型攻撃 大規模言語モデル
拡散大規模言語モデル (dLLM) は、双方向コンテキストの下で部分的にマスクされたシーケンスを繰り返しノイズ除去することでテキストを生成し、自己回帰 LLM とは異なる安全面を公開します。マスク トークンはネイティブ入力であり、トークンは位置ではなく信頼度によってコミットされるため、監視対象のプレフィックスの埋め込みや外部を通じて有害なコンテンツが誘発される可能性があります。既存のジェイルブレイクは、このネイティブの埋め込み機能を見逃しているか、構造的な適応や蓄積された攻撃経験がほとんどなく、目標全体に均一に適用される多様性の低いマスクを含むテンプレートに依存しています。私たちは、増大する構造パターンのライブラリに対する最適化された検索として dLLM レッドチームをキャストする、完全にブラックボックスの適応型攻撃である MaskForge を提案します。 MaskForge は、成功した試行を再利用可能なスキーマに抽象化し、UCB バンディットで目標と互換性のあるパターンを選択し、現在のライブラリが失敗した場合にスコアラーに基づくフォールバックを呼び出します。成功した試行はパターン ライブラリに抽出され、目標全体にわたって経験を蓄積できるようになります。 5 つの公開 dLLM と 3 つのベンチマーク全体で、MaskForge は 79.3% の平均攻撃成功率を達成しており、最も強力な競合 dLLM ベースラインと比べて相対的に 17.6% 向上しています。成熟したパターン ライブラリは、更新なしで AdvBench にさらに転送され、88.2% の攻撃成功率と、最も強力な競合ベースラインと比較して 67% の相対的な改善を達成しました。
原文 (English)
MaskForge: Structure-Aware Adaptive Attacks for Jailbreaking Diffusion Large Language Models
Diffusion large language models (dLLMs) generate text by iteratively denoising partially masked sequences under bidirectional context, exposing a safety surface distinct from autoregressive LLMs. Because mask tokens are native inputs and tokens are committed by confidence rather than position, harmful content can be induced through infilling and outside the monitored prefix. Existing jailbreaks either miss this native infill capability or rely on low-diversity mask-bearing templates applied uniformly across goals, with little structural adaptation or accumulated attack experience. We propose MaskForge, a fully black-box adaptive attack that casts dLLM red-teaming as optimized search over a growing library of structural patterns. MaskForge abstracts successful attempts into reusable schemas, selects goal-compatible patterns with a UCB bandit, and invokes a scorer-guided fallback when the current library fails. Successful attempts are distilled back into the pattern library, enabling experience to accumulate across goals. Across five public dLLMs and three benchmarks, MaskForge achieves an average attack success rate of 79.3%, a 17.6% relative improvement over the strongest competing dLLM baseline. The matured pattern library further transfers to AdvBench without any updates, achieving a 88.2% attack success rate and a 67% relative improvement over the strongest competing baseline.
トランスフォーマーには 3 つの投影が必要ですか? QKV バリアントの体系的な研究
トランスフォーマーは、クエリ、キー、値 (QKV) アテンションの定式化が中心的な役割を果たし、さまざまな AI タスクの標準ソリューションとなっています。しかし、これら 3 つの予測の個々の寄与と、一部を省略した場合の影響については、依然として十分に理解されていません。 3 つの射影共有制約を系統的に評価します。a) Q-K=V (共有キーと値)、b) Q=K-V (共有クエリキー)、c) Q=K=V (単一射影)。最後の 2 つのバリアントは、対称的なアテンション マップを生成します。これに対処するために、2D 位置エンコーディングによる非対称の注意も調査します。合成タスク、ビジョン (MNIST、CIFAR、TinyImageNet、異常)、言語モデリング (10B トークン上の 300M および 1.2B パラメーター モデル) にわたる実験を通じて、当社のトランスフォーマーは QKV トランスフォーマーと同等か、場合によってはそれよりも優れたパフォーマンスを発揮することがわかりました。言語モデリングでは、Q-K=V 射影共有により、わずか 3.1% のパープレキシティ低下で 50% の KV キャッシュ削減が達成されます。重要なのは、射影共有はヘッド共有 (GQA/MQA) を補完するものです。Q-K=V と GQA-4 を組み合わせると 87.5% のキャッシュ削減が得られ、Q-K=V + MQA では 96.9% が達成され、実用的なオンデバイス推論が可能になります。キーと値は同様の表現空間を占有することができ、注意は低ランク領域で動作するため、Q-K=V は品質を維持しますが、Q=K-V は注意の方向性を壊すことを示します。私たちの結果は、投影共有を、直接的で定量化可能な推論メモリの利点を備えた注意力の結びつきの未解明な例として体系的に特徴付けており、特にエッジ展開に価値があります。コードは https://github.com/anusamadan02/Do-Transformers-Need-3-Projections で公開されています。
原文 (English)
Do Transformers Need Three Projections? Systematic Study of QKV Variants
Transformers have become the standard solution for various AI tasks, with the query, key, and value (QKV) attention formulation playing a central role. However, the individual contribution of these three projections and the impact of omitting some remain poorly understood. We systematically evaluate three projection sharing constraints: a) Q-K=V (shared key-value), b) Q=K-V (shared query-key), and c) Q=K=V (single projection). The last two variants produce symmetric attention maps; to address this, we also explore asymmetric attention via 2D positional encodings. Through experiments spanning synthetic tasks, vision (MNIST, CIFAR, TinyImageNet, anomaly), and language modeling (300M and 1.2B parameter models on 10B tokens), we discovered that our transformers perform on par or occasionally better than the QKV transformer. In language modeling, Q-K=V projection sharing achieves 50% KV cache reduction with only 3.1% perplexity degradation. Crucially, projection sharing is complementary to head sharing (GQA/MQA): combining Q-K=V with GQA-4 yields 87.5% cache reduction, while Q-K=V + MQA achieves 96.9%, enabling practical on-device inference. We show that Q-K=V preserves quality because keys and values can occupy similar representational spaces and attention operates in a low-rank regime, whereas Q=K-V breaks attention directionality. Our results systematically characterize projection sharing as an underexplored instance of weight tying in attention, with direct, quantifiable inference memory benefits, particularly valuable for edge deployment. The code is publicly available at https://github.com/anushamadan02/Do-Transformers-Need-3-Projections
予測できない安全性: ドメイン依存のコンプライアンスとオープンウェイト LLM の透明性ギャップ
我々は、オープンウェイト LLM におけるドメイン依存の安全行動の体系的な研究を紹介します。7 つの倫理ドメインにわたる 7 つの標準化された実験で、デュアルジャッジ検証による 4,200 件のインタラクションで 5 つのモデル (12B ~ 70B) をテストしました。二重条件の方法論を使用し、各シナリオを分析フレーム (危害の特定) と運用フレーム (危害の実行を支援) の両方でテストしたところ、コンプライアンス率は 14.7% (人身売買) から 85.7% (監視設計) まで変化しており、重複しないクラスター ブートストラップの 95% CI では 71 パーセント ポイントの範囲であることがわかりました。信頼できる展開には予測可能な安全動作が必要ですが、コンプライアンスは状況に大きく依存していることがわかりました。同じモデル (Mistral Nemo 12B) はリクエストの 100% で監視設計を提供しますが、トラフィックの支援は 26.7% のみです。この予測不可能性は、導入担当者にとって不透明です。技術的なフレーミング バイパスでは、拒否しきい値が変化したという外部からの信号なしに、エンジニアリング上の問題として再構成された有害な要求が安全トレーニングを無効にします。ドメイン内の異質性は 84.4pp に達しており、ドメイン レベルでも安全動作を予測できないことを意味します。 GitHub Copilot CLI デプロイ済み製品サーフェスを介してアクセスされた 5 つのフロンティア クローズド モデル (GPT-4.1/5.2、Claude Haiku/Sonnet/Opus 4.x、n=4,163 回答) での複製では、同じドメイン階層化が再現され、絶対レベルで減衰されていますが形状は同一であり、2 つの低コード化ドメイン (科学詐欺、監視) が再び最も寛容です。これらの結果は、現在の安全メカニズムには、信頼できる AI の導入に必要な透明性と一貫性が欠けていることを示しています。
原文 (English)
Unpredictable Safety: Domain-Dependent Compliance and the Transparency Gap in Open-Weight LLMs
We present a systematic study of domain-dependent safety behavior in open-weight LLMs: 7 standardized experiments across 7 ethical domains, testing 5 models (12B--70B) in 4,200 interactions with dual-judge validation. Using a dual-condition methodology, each scenario tested in both an analytical framing (identify the harm) and an operational framing (help commit the harm), we find compliance rates vary from 14.7% (human trafficking) to 85.7% (surveillance design), a 71-percentage-point span with non-overlapping cluster-bootstrapped 95% CIs. Trustworthy deployment requires predictable safety behavior, yet we find compliance is highly context-dependent: the same model (Mistral Nemo 12B) provides surveillance designs in 100% of requests but assists with trafficking in only 26.7%. This unpredictability is opaque to deployers: the technical framing bypass, where harmful requests reframed as engineering problems override safety training without any external signal that refusal thresholds have shifted. Within-domain heterogeneity reaches 84.4pp, meaning safety behavior cannot be predicted even at the domain level. A replication on five frontier closed models (GPT-4.1/5.2, Claude Haiku/Sonnet/Opus 4.x; n=4,163 responses) accessed via the GitHub Copilot CLI deployed-product surface reproduces the same domain stratification, attenuated in absolute level but identical in shape, with the two low-codification domains (science fraud, surveillance) again the most permissive. These results show that current safety mechanisms lack the transparency and consistency required for trustworthy AI deployment.
現場に飛び込む: フォーカス プランの生成を通じて、視覚と言語の意思決定における知覚のボトルネックを打破する
ロボット操作やナビゲーションなどの身体化された視覚言語による意思決定タスクでは、視覚言語モデルおよび視覚言語アクション モデル (VLM および VLA) は、さまざまな利点を持つ強力なツールです。VLM は長期計画に優れ、VLA は事後制御に優れています。ただし、モデルのパフォーマンスは、同じ知覚のボトルネックによって制限されます。モデルがタスクに関連するオブジェクトと気を散らすものとを区別できないために幻覚が発生します。原則として、無関係なものを除外しながら、正確に識別して重要なオブジェクトに焦点を当てることが、この制限を打ち破る鍵となります。簡単な解決策は、重要なオブジェクトに直接注目するというワンステップの焦点です。ただし、効果的に焦点を合わせるには本質的にシーンを深く理解する必要があるため、このアプローチは効果的ではないことがわかります。この目的を達成するために、我々は、VLM の長期計画能力を活用した、粗いから細かいまでのフォーカス プラン生成方法である SceneDiver を提案します。この方法では、最初に全体的なシーン グラフを構築して初期理解を確立し、次に認識、理解、分析の反復サイクルを通じてタスクをより単純なサブ問題に徐々に分解します。反応的な制御を可能にするために、意図的なフォーカス機能を VLA に抽出するための軽量アダプターも設計しました。標準の組み込み AI ベンチマークでの評価により、私たちの方法は、高速実行を必要とするタスクの計算効率を維持しながら、VLM と VLA の両方で幻視を大幅に軽減することが確認されています。コードとデータは https://future-item.github.io/SceneDiver でリリースされています。
原文 (English)
Dive into the Scene: Breaking the Perceptual Bottleneck in Vision-Language Decision Making via Focus Plan Generation
In embodied vision-language decision making tasks such as robotic manipulation and navigation, Vision-Language and Vision-Language-Action Models (VLMs & VLAs) are powerful tools with different benefits: VLMs are better at long-term planning, while VLAs are better at reactive control. However, their performance is limited by the same perceptual bottleneck: visual hallucinations arise due to the models' inability to distinguish task-relevant objects from distractors. In principle, accurate identification and focus on critical objects while filtering out irrelevant ones is the key to break this limitation. A straightforward solution is one-step focus: directly attending to essential objects. However, this approach proves ineffective because effective focus inherently requires deep scene understanding. To this end, we propose SceneDiver, a coarse-to-fine focus plan generation method for VLMs leveraging their long-term planning abilities, that first constructs a holistic scene graph to establish initial comprehension, then progressively decomposes the task into simpler sub-problems through an iterative cycle of recognition, understanding, and analysis. To enable reactive control, we also design a lightweight adapter for distilling the deliberate focus ability into VLAs. Evaluations on standard embodied AI benchmarks confirm that our method substantially reduces visual hallucinations for both VLMs and VLAs, while preserving computational efficiency in tasks requiring fast execution. Our code and data are released at: https://future-item.github.io/SceneDiver.
LiftQuant: 次元リフティングと投影による連続ビット幅 LLM
既存の量子化手法は基本的に、厳格な整数ベースのビット幅 (例: 2、3 ビット) によって制限されており、その結果、大規模言語モデルを特定のメモリ バジェットに最適に適合させることができない「デプロイメント ギャップ」が生じます。このギャップを埋めるために、真のパレート最適デプロイメントのための継続的なビット幅制御を可能にする新しいフレームワークである LiftQuant を紹介します。中心となるイノベーションは、「リフト ゼン プロジェクト」メカニズムです。高次元の「リフトされた」空間から単純な 1 ビット格子を投影することで、低次元の重みベクトルを近似します。重要なことに、有効なビット幅は、元の次元に対するリフト次元の比率によって単純に決定され、次元が柔軟な構造パラメータであるため、ビット幅を準連続的に調整できます。この投影は、構造化されているが不均一なコードブックを生成し、ベクトル量子化 (VQ) の表現力を捉えます。 VQ、LiftQuant のデコード パスは線形変換と 1 ビットの均一量子化器のみに依存しており、ハードウェアに優しい性質を維持しています。LiftQuant を使用すると、70B LLM を 24GB GPU に正確に適合させることができ、そのパフォーマンスは同じデバイスに搭載されている最先端の 2 ビット モデルを大幅に上回ります。 https://github.com/Heliulu/LiftQuant。
原文 (English)
LiftQuant: Continuous Bit-Width LLM via Dimensional Lifting and Projection
Existing quantization methods are fundamentally limited by rigid, integer-based bit-widths (e.g., 2, 3-bit), resulting in a ``deployment gap" where Large Language Models cannot be optimally fitted to specific memory budgets. To bridge this gap, we introduce LiftQuant, a novel framework that enables continuous bit-width control for true Pareto-optimal deployment. The core innovation is a ``lift-then-project" mechanism which approximates low-dimensional weight vectors by projecting a simple 1-bit lattice from a higher-dimensional ``lifted" space. Crucially, the effective bit-width is determined simply by the ratio of the lifted dimension to the original dimension, which allows the bit-width to be tuned quasi-continuous as the dimension is a flexible structural parameter. This projection generates a structured yet non-uniform codebook, capturing the expressive power of Vector Quantization (VQ). While beneficial over VQ, LiftQuant's decoding path relies solely on linear transformations and 1-bit uniform quantizers, retaining hardware-friendly nature. This flexibility is transformative: LiftQuant enables a 70B LLM to be compressed to 2.4 bits to precisely fit a 24GB GPU, where its performance significantly surpasses state-of-the-art 2-bit models fitted on the same device. Our code and ckpt is available at https://github.com/Heliulu/LiftQuant.
RUBAS: エージェントの安全のためのルーブリックベースの強化学習
LLM がツール対応エージェントに進化すると、単純なテキスト生成ではなく現実世界の実行に関連した新しいクラスの安全性の課題が生じます。既存の調整方法は、粗い拒否信号や静的な監視に依存することが多く、さまざまなエージェントのリスクにわたって安全性と有用なツールの実行のバランスをとることが困難です。エージェントの安全性のためのルーブリックベースの強化学習フレームワークである RUBAS を紹介します。 RUBAS は、エージェントの動作をツール使用の安全性、引数の安全性、応答の安全性、有用性の 4 つの次元に分解します。これらの構造化されたルーブリックは、エージェントの完全な軌跡にわたってきめ細かく解釈可能な報酬を提供し、タスクの完了を維持しながら安全なツールの使用を最適化する強化学習を可能にします。複数のエージェントの安全性ベンチマークとモデルにわたる広範な実験により、RUBAS が標準的なアライメントベースラインよりも安全性を向上させ、ツールに基づく幻覚を軽減し、競争力のある実用性を維持することが示されています。私たちの結果は、多次元ルーブリック報酬が、安全性が重要なツール使用環境において LLM エージェントを調整するための効果的なトレーニング信号を提供することを示唆しています。
原文 (English)
RUBAS: Rubric-Based Reinforcement Learning for Agent Safety
The evolution of LLMs into tool-enabled agents creates a new class of safety challenges associated with real-world execution rather than simple text generation. Existing alignment methods often rely on coarse refusal signals or static supervision, making it difficult to balance safety with useful tool execution across diverse agentic risks. We introduce RUBAS, a rubric-based reinforcement learning framework for agent safety. RUBAS decomposes agent behavior into four dimensions: tool-use safety, argument safety, response safety, and helpfulness. These structured rubrics provide fine-grained and interpretable rewards over complete agent trajectories, enabling reinforcement learning to optimize safe tool use while preserving task completion. Extensive experiments across multiple agent safety benchmarks and models show that RUBAS improves safety over standard alignment baselines, reduces tool-grounded hallucinations, and maintains competitive utility. Our results suggest that multi-dimensional rubric rewards provide an effective training signal for aligning LLM agents in safety-critical tool-use settings.
目に見えない宝くじ: LLM コード生成におけるアルゴリズムの選択を微妙な手がかりがどのように左右するか
大規模言語モデル (LLM) は、多くの場合、複数の有効なアルゴリズム ソリューションを含むタスク向けに、実質的な運用コードを生成するようになりました。タスク仕様外の文脈上の単語やメタデータを意味する付随的なプロンプト キューは、すべての出力が同じテストに合格した場合でも、モデルが選択するアルゴリズムを制御できます。即時感度は、出力品質を向上させるツールとしてよく研究されています。ここで、出力ポリシーとは、固定の正確性の下でのアルゴリズムの選択を意味します。私たちは、アルゴリズムステアリングをアルゴリズムファミリー分布におけるキュー誘発のシフトとして定義し、11のタスク、19のキュータイプ(18のチャネルと、タイポグラフィーと句読点を変更しながら意味を保持するメモ化の意味対表面のアブレーション)、および15のモデル構成にわたって46,535の制御された実験を実行しました。我々は、レート制限などの応用タスクを含む、キューのセマンティクスとほぼ一致する、アルゴリズム ファミリの分布における大きく系統的な変化 (最大 100 pp) を発見しました。アルゴリズムの直接命名は、私たちがテストした最も信頼性の高い軽減策です。したがって、偶然のコンテキストによって、パフォーマンス、セキュリティ、および保守性をめぐる「目に見えない宝くじ」が作成されます。
原文 (English)
The Invisible Lottery: How Subtle Cues Steer Algorithm Choice in LLM Code Generation
Large language models (LLMs) now generate substantial production code, often for tasks with multiple valid algorithmic solutions. Incidental prompt cues, meaning contextual words or metadata outside the task specification, can steer which algorithm the model selects, even when all outputs pass the same tests. Prompt sensitivity is well studied as a tool to improve output quality. Here, output policy means algorithm choice under fixed correctness. We define algorithm steering as cue-induced shifts in algorithm-family distributions and run 46,535 controlled experiments across 11 tasks, 19 cue types (18 channels plus a memoization semantic-vs-surface ablation that preserves meaning while changing typography and punctuation), and 15 model configurations. We find large, systematic shifts in algorithm-family distributions (up to 100 pp), largely consistent with cue semantics, including in applied tasks such as rate limiting. Direct algorithm naming is the most reliable mitigation we tested. Accidental context therefore creates an "invisible lottery" over performance, security, and maintainability.
アーキテクチャと量子化の選択を組み合わせて最適化する LLM 圧縮
大規模言語モデル (LLM) のデプロイは、大量のメモリと計算要件があるため、困難です。一部の方法では、小規模または極小の言語モデルを最初から開発することでこの問題に対処しますが、これらのアプローチでは広範な GPU トレーニングが必要です。エッジデバイス用に事前トレーニングされた LLM を圧縮することは、魅力的な代替手段を提供します。プルーニングと量子化を超えて、ニューラル アーキテクチャ検索 (NAS) は効果的な圧縮を可能にしますが、従来の NAS アプローチでは多くの場合、検索スペースが制限され、アーキテクチャが量子化から分離されていました。私たちは、空間全体を探索し、LLM の線形層の混合精度量子化と並行してアーキテクチャ構成を共同で最適化する微分可能な NAS フレームワークを導入します。実験では、精度とレイテンシの優れたトレードオフが実証されています。当社のモデルは、同等の精度で逐次 NAS を経て量子化するベースラインよりも最大 1.4 倍高速な推論、または同等のレイテンシで 7 つの推論タスク全体で最大 6% 高い平均精度を達成します。
原文 (English)
LLM Compression with Jointly Optimizing Architectural and Quantization choices
Deploying large language models (LLMs) is challenging due to their significant memory and computational requirements. While some methods address this by developing small or tiny language models from scratch, these approaches demand extensive GPU training. Compressing pre-trained LLMs for edge devices offers a compelling alternative. Beyond pruning and quantization, Neural Architecture Search (NAS) enables effective compression, yet prior NAS approaches often limit the search space and decouple architecture from quantization. We introduce a differentiable NAS framework that explores the entire space and jointly optimizes architectural configurations alongside mixed-precision quantization for linear layers of LLMs. Experiments demonstrate superior accuracy-latency trade-offs: our models achieve up to 1.4x faster inference than sequential NAS-then-quantization baselines at comparable accuracy, or up to 6% higher average accuracy across seven reasoning tasks at equivalent latency.
知っておくべきこと: プライバシーを意識した LLM 委任のためのコンテキスト整合性に基づいたクエリ書き換え
LLM が日常のワークフローにますます組み込まれるようになるにつれて、クラウドでホストされる LLM に送信されるユーザー クエリでは、タスクに必須のコンテンツとタスクに必須ではない機密情報の開示が日常的に混在していますが、タイプベースの PII 秘匿化はコンテキストに依存せず、2 つの問題が生じる可能性があります。それは、型指定されていない機密コンテキストの開示の過剰と、回答を含むスパンの削除の過剰です。コンテキストの整合性の下で、プライバシーを保持するクエリの書き換えを再検討します。スパンは、タスクに必要な場合にのみ転送されるべきです。 DelegateCI-Bench は、プライバシーを意識した委任向けの初のタスクベースのコンテキスト整合性ベンチマークであり、11 のタスクと 20 のタスク タイプにわたる高品質の合成データ、WildChat ベースの実際のユーザー クエリ、および高密度の機密情報を含む医療課題セットを組み合わせた 3,167 個のサンプルで構成されています。このベンチマークに基づいて、必須および非必須の機密スパンを検証可能な最適化信号に変換する CI ガイド付き強化学習フレームワークを提案し、不必要な機密情報の開示を抑制しながらタスクの重要な情報を保持するようにクエリ リライターをトレーニングします。実験の結果、私たちの学習済みリライターはプライバシーとユーティリティの最適なトレードオフを達成し、デバイス上のベースラインに対して最大 +10.1 の平均ユーティリティを達成することがわかりました。
原文 (English)
Need to Know: Contextual-Integrity-Grounded Query Rewriting for Privacy-Conscious LLM Delegation
As LLMs become increasingly woven into everyday workflows, user queries sent to cloud hosted LLMs routinely mix task-essential content with task non-essential sensitive disclosures, yet type based PII redaction is context agnostic and may raise two issues: over disclosing untyped sensitive context and over removing answer bearing spans. We recast privacy preserving query rewriting under Contextual Integrity: a span should be forwarded only if it is necessary for the task. We introduce DelegateCI-Bench, the first task based Contextual Integrity benchmark for privacy-conscious delegation, comprising 3,167 samples that combine high quality synthetic data spanning 11 tasks and 20 task types, WildChat based real user queries, and a medical challenge set with dense sensitive information. Building on this benchmark, we propose a CI-guided reinforcement learning framework that converts essential and non-essential sensitive spans into verifiable optimization signals, and train a query rewriter to preserve task critical information while suppressing unnecessary sensitive disclosure. Experiments show that our learned rewriter achieves the best privacy-utility tradeoff, achieving up to +10.1 average utility over on-device baselines.
大規模な言語モデルが報酬と社会をハックする
強化学習 (RL) はトレーニング後のパラダイムの主流となっており、大規模言語モデル (LLM) が報酬から学習できるようになります。私たちは、社会規制が報酬関数と構造的に似ていることを観察しています。それらは測定可能な結果、しきい値、例外を定義しますが、多くの場合、制度上の意図は部分的にしか指定されません。私たちは、RL トレーニング プロセスがこれらのギャップを悪用する可能性があると仮説を立て、RL 中に報酬関数をハッキングするというモデルのよく知られた傾向が、社会ハッキングと呼ばれるより重大な失敗モード、つまり社会が運営されているルールの抜け穴を発見するモードにスケールアップできるかどうかを尋ねます。この現象を研究するために、72 の社会環境のサンドボックスである SocioHack を導入しました。その結果、これらの環境内で報酬ハッキングが自然に発生し、規制の抜け穴の発見につながることがわかりました。モデルは社会ルールをハッキングし、規制の意図を打ち破りながら技術的に準拠した戦略を生成する方法を学習します。現在の LLM セーフガードは限定的な緩和策しか提供しません。したがって、モデルのトレーニングのために実際のフィードバックを収集することには細心の注意が必要であり、実社会で LLM を安全に反復するための次世代のポストトレーニング パラダイムが必要です。=
原文 (English)
Large Language Models Hack Rewards, and Society
Reinforcement learning (RL) has become a dominant post-training paradigm, enabling large language models (LLMs) to learn from rewards. We observe that societal regulations are structurally similar to reward functions. They define measurable outcomes, thresholds, and exceptions, while often leaving institutional intent only partially specified. We hypothesise that the RL training process may exploit these gaps and therefore ask whether models' well-known tendency to hack reward functions during RL can scale into a more consequential failure mode named societal hacking: discovering loopholes in the rules society runs on. To study this phenomenon, we introduce SocioHack, a sandbox of 72 societal environments, and find that within these environments, reward hacking naturally emerges and leads to regulatory loophole discovery. Models learn to hack the social rules and generate strategies that remain technically compliant while defeating regulatory intent, and current LLM safeguards provide only limited mitigation. Therefore, collecting in-the-wild feedback for model training requires greater caution, and we need a next-generation post-training paradigm for safely iterating LLMs in real society.=
POLARIS: 小さなモデルが長い物語を書けるように導く
小規模なオープンウェイト モデルは、長編のクリエイティブ ライティングに苦労します。特にフロンティア モデルと比較した場合、生成されるストーリーが要求された長さに大幅に満たないか、長さが増加するにつれて品質が大幅に低下します。我々は、2 つの重要な要素を備えた低コンピューティングの GRPO レシピである POLARIS (審査員としての LLM 報酬とストーリーライティングのためのアンカー参照注入によるポリシーの最適化) を紹介します。1 つはオンライン報酬として構造化されたストーリー品質ルーブリックを持つフロンティア LLM 審査員、もう 1 つは教師が強制的に人間が書いたストーリーが各 GRPO グループ内で高報酬のアンカーとして機能する人間参照注入 (HRI) です。 100 の短編小説アンソロジーと 4 つの A100 GPU から派生した約 1.4K のプロンプト ストーリー ペアのデータセットを使用して、トレーニング レシピを Qwen3.5-9B に適用することにより、POLARIS-9B が得られます。配布内および配布外のプロンプトとルーブリックにわたる 5 つのベンチマークにわたって、POLARIS-9B は、長さの指示により厳密に従いながら、はるかに大きなオープンウェイト モデルと競合します。人間による盲検評価により、POLARIS-9B がベースの Qwen3.5-9B よりも好まれ、Qwen3.5-27B と同等であることが確認されました。 POLARIS-9B は、最大 4k ワードまでのストーリーのみをトレーニングしているにもかかわらず、トレーニング長の最大 3 倍のストーリーを要求するプロンプトの品質を維持します。これは、ほとんどのオープンウェイト モデルが品質、長さの遵守、またはその両方において大幅に低下する状況です。より広範に、私たちの結果は、長さの一般化がクリエイティブライティングモデルにとって意味のあるストレステストであり、他の点では近いモデルを区別するための有用なレンズであることを示唆しています。
原文 (English)
POLARIS: Guiding Small Models to Write Long Stories
Small open-weight models struggle at long-form creative writing: their generated stories either fall far short of the requested length, or their quality significantly degrades as length increases, especially when compared to frontier models. We present POLARIS (Policy Optimization with LLM-as-a-judge rewards and Anchored-Reference Injection for Storywriting), a lower-compute GRPO recipe with two key ingredients: a frontier LLM judge with a structured Story Quality rubric as the online reward, and human-reference injection (HRI), where a teacher-forced human-written story serves as a high-reward anchor within each GRPO group. By applying our training recipe to Qwen3.5-9B, using a dataset of approximately 1.4K prompt-story pairs derived from 100 short-story anthologies and 4 A100 GPUs, we obtain POLARIS-9B. Across five benchmarks spanning in-distribution and out-of-distribution prompts and rubrics, POLARIS-9B is competitive with much larger open-weight models while following length instructions more closely. A blinded human evaluation confirms that POLARIS-9B is preferred to the base Qwen3.5-9B and on par with Qwen3.5-27B. Despite training only on stories up to 4k words, POLARIS-9B preserves quality on prompts requesting stories up to 3 times the training length, a regime where most open-weight models degrade substantially in quality, length adherence, or both. More broadly, our results suggest that length generalization is a meaningful stress test for creative-writing models and a useful lens for distinguishing otherwise close models.
dMX: 低精度浮動小数点フォーマットの微分可能な混合精度代入
大規模言語モデル (LLM) を低精度の浮動小数点表現に量子化することは、効率的な展開の中心となりますが、単一のビット幅をすべてのレイヤーに均一に適用することは、パフォーマンスと精度の両方の点で最適とは言えません。この研究では、学習可能な浮動小数点ビット幅割り当てのための微分可能な混合精度量子化フレームワークである dMX を紹介します。私たちは、オープン コンピューティング プロジェクト (OCP) 標準によって定義されたデータ型のマイクロスケーリング浮動小数点 (MXFP) ファミリへの応用を研究します。レイヤごとのビット幅の割り当ては、各レイヤの浮動小数点形式がスカラー パラメータによってパラメータ化され、多変量設計空間を単一の学習可能なオフセットに折りたたむ連続最適化問題として定式化されます。トレーニング中、このオフセットは連続値をとり、離散量子化形式間の突然の振動を回避します。温度ベースのアニーリング スケジュールにより、学習されたオフセットが段階的に離散化され、トレーニング動作と推論動作の間で突然移行することなく、最終的な構成がハードウェア互換の MXFP 形式にマッピングされることが保証されます。ターゲットを意識した正則化用語は、平均ビット幅をユーザー指定の予算に向けて導き、推論コストの大まかな代理として機能し、モデルの品質と展開効率のバランスをとります。私たちは Llama、Qwen3、SmolLM2 などのさまざまな LLM ファミリで実験を実行し、WikiText-2 での複雑性と 4 つのゼロショット推論ベンチマークでの精度を評価しました。これらの設定全体にわたって、dMX は一貫してパレート支配モデルを生成し、カルバック ライブラー (KL) 発散ベースのレイヤー選択ヒューリスティックを改善し、モデルの品質と平均ビット幅の間のトレードオフを効率的にナビゲートします。
原文 (English)
dMX: Differentiable Mixed-Precision Assignment for Low-Precision Floating-Point Formats
Quantizing large language models (LLMs) to low-precision floating-point representations is central to efficient deployment, yet applying a single bit-width uniformly across all layers is sub-optimal in terms of both performance and accuracy. This work introduces dMX, a differentiable mixed-precision quantization framework for learnable floating-point bit-width assignment. We study its application for the microscaling floating-point (MXFP) family of data types defined by the Open Compute Project (OCP) standard. The per-layer bit-width assignment is formulated as a continuous optimization problem in which each layer's floating-point format format is parameterized by a scalar parameter, folding the multi-variate design space into a single learnable offset. During training this offset takes continuous values, avoiding sudden oscillations between discrete quantization formats. A temperature-based annealing schedule progressively discretizes the learned offsets, ensuring that the final configuration maps to hardware-compatible MXFP formats without abrupt transitions between training and inference behavior. A target-aware regularization term steers the average bit-width toward a user-specified budget, serving as a coarse-grained proxy for inference cost and balancing model quality against deployment efficiency. We performed experiments on different families of LLM, such as Llama, Qwen3, and SmolLM2, evaluating perplexity on WikiText-2 and accuracy on four zero-shot reasoning benchmarks. Across these settings, dMX consistently yields Pareto-dominating models and improves over Kullback-Leibler (KL) divergence-based layer-selection heuristics, efficiently navigating trade-offs between model quality and average bit-width.
SaliMory: 会話エージェントの認知記憶を調整する
生涯の伴侶として機能する会話エージェントは、すべての対話にわたって永続的な記憶を維持する必要があります。ただし、生の取得でコンテキスト ウィンドウを単純に拡張すると推論の品質が低下し、標準の強化学習による記憶エージェントのトレーニングでは、多段階パイプラインで深刻なクレジット割り当てのボトルネックが発生します。これを解決するために、単一言語モデルをトレーニングして、ユーザーの事実、好み、作業記憶にまたがる認知的に構造化された記憶を管理するフレームワークである SALIMORY を紹介します。 SALIMORY は、階層的な段階ごとのプロセス報酬と報酬分解された対照的洗練を導入することにより、個別の記憶操作 (選択的フィルタリング、統合、およびキュー主導のリコール) をエンドツーエンドで個別に監視します。 SALIMORY はメモリに起因する障害を 3 分の 1 に削減し、エンドツーエンドの精度で最先端のものを 10% 以上上回り、Good Personalization 率を 2 倍以上に高めます。
原文 (English)
SaliMory: Orchestrating Cognitive Memory for Conversational Agents
Conversational agents that serve as lifelong companions must maintain persistent memory across all interactions. However, simply expanding context windows with raw retrieval degrades reasoning quality, while training memory agents via standard reinforcement learning creates a severe credit assignment bottleneck in a multi-stage pipeline. To solve this, we introduce SALIMORY, a framework that trains a single language model to manage a cognitively-structured memory-spanning user facts, preferences, and working memory. By introducing a hierarchical stage-wise process reward and reward-decomposed contrastive refinement, SALIMORY provides isolated supervision for distinct memory operations (selective filtering, consolidation, and cue-driven recall) end-to-end. SALIMORY cuts memory-attributed failures by one-third, outperforms the state-of-the-art by over 10% in end-to-end accuracy, and more than doubles the Good Personalization rate.
Caught in the Act(ivation): LLM エージェントによる資格情報漏洩の事前出力およびマルチターン検出に向けて
LLM エージェントは多くの場合、機密認証情報を信頼できない取得コンテンツと同じコンテキスト ウィンドウに配置し、認証情報の漏洩を誘発する間接的なプロンプト インジェクションの直接パスを作成します。私たちは、3 つの相補的な防御を通じてこの障害モードを研究します。まず、出力トークンが発行される前に、アクティベーション プローブが資格情報へのアクセスを検出できるかどうかを尋ねます。次に、形式固有の文字モデルからハニートークンを構築し、分割等角予測で検出を調整します。 3 番目に、複数ターンにわたる漏洩を累積的な情報フロー問題として扱い、会話ターン全体での推定漏洩予算を追跡します。オープンウェイト モデルの制御された実験では、アクティベーション機能により、ホールドアウト エンコーディング変換下を含め、無害なプロンプトと認証情報を求めるプロンプトが高精度で分離されます。小規模な合成マルチターン スイートでは、累積アカウンティングにより、ターンごとの検出器が見逃した攻撃が検出されます。これらの結果は暫定的なものです。マルチターン ベンチマークは社内で小規模なものであり、アクティブ化方法にはホワイト ボックス アクセスが必要であり、情報推定ツールは正式な上限ではなく実用的なシグナルを提供します。それでも、この結果は、資格情報の漏洩防御には、テキストレベルの出力フィルターのみに依存するのではなく、出力前の監視、調整されたカナリア検出、および一時的な漏洩アカウンティングを組み合わせる必要があることを示唆しています。
原文 (English)
Caught in the Act(ivation): Toward Pre-Output and Multi-Turn Detection of Credential Exfiltration by LLM Agents
LLM agents often place sensitive credentials in the same context window as untrusted retrieved content, creating a direct path for indirect prompt injection to induce credential exfiltration. We study this failure mode through three complementary defenses. First, we ask whether activation probes can detect credential access before output tokens are emitted. Second, we construct honeytokens from format-specific character models and calibrate detection with split conformal prediction. Third, we treat multi-turn exfiltration as a cumulative information-flow problem and track an estimated leakage budget across conversation turns. In controlled experiments on open-weight models, activation features separate benign and credential-seeking prompts with high accuracy, including under held-out encoding transformations. In a small synthetic multi-turn suite, cumulative accounting detects attacks that per-turn detectors miss. These results are preliminary: the multi-turn benchmark is in-house and small, the activation method requires white-box access, and the information estimator provides a practical signal rather than a formal upper bound. Still, the results suggest that credential-exfiltration defenses should combine pre-output monitoring, calibrated canary detection, and temporal leakage accounting rather than relying only on text-level output filters.
EvalStop: ワールド フィードバックを使用して、マルチテナント RLHF プラットフォームにおける報酬の過剰最適化を検出および修正する
Cloud LLM 微調整プラットフォームは RLHF ワークロードにますます対応しており、学習された報酬モデルが人間の品質の代用として最適化されています。 Gao らのように(2023) は、このプロキシは、報酬の過剰最適化として知られる現象である持続的な最適化圧力の下で、世界のフィードバック (下流の評価指標) から乖離することを示しました。既存のプラットフォーム スケジューラはこの相違を無視しています。非千里眼スケジューラは品質信号なしで JCT を最適化し、SLAQ スタイルの品質認識スケジューラはトレーニング損失 (ハッキングによって単調に低下する弱いプロキシ) を使用し、古典的なジョブごとの早期停止では人間による監視が必要であり、共有 GPU を解放しません。私たちは、evalStop を提案します。これは、k 回連続して eval スコアが低下したときにジョブを終了し、GPU を解放し、最適なチェックポイントを保持し、任意のベース スケジューラに委任する、コンポーザブルなスケジューリング プリミティブです。私たちは、スケジューラレベルの早期停止を検出問題としてフレーム化し、RLHF ワークロードが報酬ハッキングと構造的に健全な実行を混合し、スケジューラから隠蔽されたグランドトゥルースラベルを使用した離散イベントシミュレータでそれを評価します。 RLHF の負荷が高いワークロード (RLHF 80%、GPU 64 基) では、EvalStop は精度 98% / リコール 99% / FPR 1.5% を達成し、SRTF-Est と比較して JCT を 9% 改善し、無駄なコンピューティングを 22% 削減します (p<0.05)。些細な固定進捗と損失プラトーの競合他社は、健全な RLHF で 65% の FPR を被るか、真のハッキング ケースの半分以上を見逃すかのどちらかです。ゲインはテストされたすべてのベース スケジューラにわたって構成され (9 ~ 25% の JCT)、検出品質は評価ノイズ (ノイズ std <= 0.05 で少なくとも 91% の精度) およびハッキングのベース レート (20 ~ 80% のハッキング部分で少なくとも 89% の精度) の下で安定しています。
原文 (English)
EvalStop: Using World Feedback to Detect and Correct Reward Overoptimization in Multi-Tenant RLHF Platforms
Cloud LLM fine-tuning platforms increasingly serve RLHF workloads, where a learned reward model is optimized as a proxy for human quality. As Gao et al. (2023) showed, this proxy diverges from world feedback (downstream eval metrics) under sustained optimization pressure, a phenomenon known as reward overoptimization. Existing platform schedulers ignore this divergence: non-clairvoyant schedulers optimize JCT without any quality signal, SLAQ-style quality-aware schedulers use training loss (a weaker proxy that drops monotonically through hacking), and classical per-job early stopping requires human monitoring and does not free shared GPUs. We propose EvalStop, a composable scheduling primitive that terminates jobs on k consecutive eval-score declines, releases GPUs, preserves the best checkpoint, and delegates to any base scheduler. We frame scheduler-level early stopping as a detection problem and evaluate it in a discrete-event simulator whose RLHF workload mixes reward-hacking and structurally healthy runs, with ground-truth labels hidden from schedulers. On RLHF-heavy workloads (80% RLHF, 64 GPUs), EvalStop achieves precision 98% / recall 99% / FPR 1.5% while improving JCT by 9% and cutting wasted compute by 22% over SRTF-Est (p<0.05). Trivial fixed-progress and loss-plateau competitors either incur 65% FPR on healthy RLHF or miss over half of true hacking cases. Gains compose across every base scheduler tested (9-25% JCT) and detection quality stays stable under eval noise (precision at least 91% at noise std <= 0.05) and hacking base rate (precision at least 89% across 20-80% hacking fractions).
ドメインとモデルにわたる AI 生成テキスト検出における言語的特徴の系統的分析
解釈可能な言語特徴は、特に専門家でないユーザーにとって、特定のテキストが機械生成のように見える理由を説明するための有望なアプローチを提供します。ただし、LLM で生成されたテキストを特徴が確実に示しているという既存の調査結果は、特徴セット、モデル、テキスト ドメイン全体で断片化されたままです。このギャップに対処するために、AI が生成したテキストを特徴付けるための言語信号の堅牢性を評価する大規模な実証研究を実施します。私たちの分析では、クロスモデルおよびクロスドメイン一般化設定の下で、27 の LLM と 10 のテキスト ドメインからの出力にわたる 284 の解釈可能な言語特徴をカバーしています。言語的特徴のみに基づく分類器が、AI によって生成されたテキストと人間が書いたテキストを確実に区別できることを示します。ただし、これまでに提案された指標の多くは、語彙の豊富さの尺度を除いて、コンテキストに強く依存することが証明されており、モデル ファミリとテキスト ドメイン全体にわたって堅牢なシグナルのままです。これらの結果は、どの言語信号がコンテキスト全体で一般化するかを示し、AI 生成言語のより信頼性が高く解釈可能な分析の基盤を提供します。
原文 (English)
A Systematic Analysis of Linguistic Features in AI-Generated Text Detection Across Domains and Models
Interpretable linguistic features offer a promising approach for explaining why a given text appears machine-generated, particularly for non-expert users. However, existing findings on which features reliably indicate LLM-generated text remain fragmented across feature sets, models, and text domains. To address this gap, we conduct a large-scale empirical study assessing the robustness of linguistic signals for characterizing AI-generated text. Our analysis covers 284 interpretable linguistic features across outputs from 27 LLMs and ten text domains under cross-model and cross-domain generalization settings. We show that classifiers based solely on linguistic features can reliably distinguish AI-generated from human-written text. However, many previously proposed indicators prove strongly context-dependent, with the exception of measures of lexical richness, which remain robust signals across model families and text domains. These results demonstrate which linguistic signals generalize across contexts and provide a foundation for more reliable, interpretable analyses of AI-generated language.
DetectZoo: テキスト、オーディオ、画像モダリティにわたる AI 生成コンテンツ検出のための統合ツールキット
生成モデルの人気と能力の高まりにより、人間が生成したコンテンツと機械が生成したコンテンツの区別がなくなり、テキスト、画像、音声にわたる検出に関する一連の研究が増えています。入手可能な検出器のほとんどは商用ソフトウェアであるか、オープンソースの場合は特注の前処理、評価プロトコル、評価メトリクスを備えた互換性のないコードベースが付属しているため、その採用、公正な比較、再現が非常に困難になっています。この重大なギャップに対処するために、テキスト、オーディオ、画像モダリティにわたる AI 生成コンテンツ検出のための統一インターフェイスを提供するように設計された、この種初の拡張可能なツールキットである DetectZoo を導入します。 DetectZoo は、データの取り込みと前処理からモデルの評価に至るまで、完全な経験的パイプラインを標準化し、最先端の検出器を体系的にベンチマークするための一貫したフレームワークを研究者に提供します。多様な公開データセットとベースライン検出アルゴリズムを単一の統一 API に統合することで、当社のツールキットは厳密で再現可能な評価を容易にします。 DetectZoo は、61 の検出器のリファレンス実装、22 のベンチマーク データセット用のネイティブ ローダー、および共通のインターフェイスを通じて複数のメトリクスを報告する標準化された評価パイプラインを提供します。各検出器は自己完結型ですが、同じインターフェイスからアクセスでき、事前トレーニングされた重みを自動的にキャッシュし、元の公開結果を再現します。 DetectZoo は、マルチモーダル AI フォレンジックの参入障壁を下げ、研究者がドメイン間のパフォーマンスのギャップを特定できるようにし、堅牢で汎用性のある検出技術の開発を加速します。オープンソース リポジトリと包括的なドキュメントは https://github.com/sadjadeb/DetectZoo で公開されており、パッケージは pip install detectzoo 経由でインストールできます。
原文 (English)
DetectZoo: A Unified Toolkit for AI-Generated Content Detection Across Text, Audio, and Image Modalities
The growing popularity and capacity of generative models have eroded the distinction between human and machine-generated content, motivating a growing body of work on detection across text, images, and audio. Most available detectors are either commercial software or, if open-source, come with incompatible codebases with bespoke preprocessing, evaluation protocols, and evaluation metrics, which make their adoption, fair comparison, and reproduction quite difficult. To address this critical gap, we introduce DetectZoo, a first-of-its-kind, extensible toolkit designed to provide a unified interface for AI-generated content detection across text, audio, and image modalities. DetectZoo standardizes the complete empirical pipeline, from data ingestion and preprocessing to model assessment, offering researchers a cohesive framework to benchmark state-of-the-art detectors systematically. By integrating diverse public datasets and baseline detection algorithms under a single, unified API, our toolkit facilitates rigorous and reproducible evaluation. DetectZoo provides reference implementations of 61 detectors, native loaders for 22 benchmark datasets, and a standardized evaluation pipeline that reports multiple metrics through a common interface. Each detector is self-contained yet accessible through the same interface, automatically caches pretrained weights, and reproduces the original published results. DetectZoo lowers the barrier to entry for multi-modal AI forensics, enabling researchers to identify performance gaps across domains and accelerating the development of robust, generalizable detection techniques. The open-source repository and comprehensive documentation are publicly available at https://github.com/sadjadeb/DetectZoo, and the package can be installed via pip install detectzoo.
PerceptTwin: 反復 LLM 計画と検証のためのセマンティック シーンの再構築
シミュレーション環境は、ロボット ポリシーの学習と計画の検証と検証の両方に役立ちます。従来、シミュレーションを作成するプロセスは面倒なものでした。ロボットが動作する個々の環境に合わせてオーダーメイドのシミュレーション環境を作成することは、まったく不可能でした。この研究では、ロボットの認識スタックによって生成されたセマンティック シーン表現から直接インタラクティブ シミュレーションを構築する完全自動パイプラインである PerceptTwin を紹介します。 PerceptTwin は、オープン語彙オブジェクト マップと 3D アセット生成、アフォーダンス予測、および常識的な条件チェックを組み合わせます。これらのインタラクティブなシミュレーションを使用すると、ロボット ハードウェアで実行される前に計画を検証し、改良することができます。 AI 調整の文献から借用して、計画の正確さと人間の好みとの調整を検証する LLM ジャッジも紹介します。実験では、PerceptTwin のフィードバックにより、LLM プランナーが計画を改良し、安全性を強化し、有害なブラックボックス プロンプト攻撃に抵抗できることが示されています。私たちの一連のタスクでは、PerceptTwin により、GPT5、GPT5Mini、および GPT5Nano プランナーの計画の成功率が平均約 39% 向上しました。さらに、PerceptTwin は、スキルの前提条件が満たされていないために失敗した計画について、人間による計画の検証を平均で最大 18% 改善します。私たちの結果は、より安全で信頼性の高いロボット計画の基盤として、ロボットの知覚からのオープンボキャブラリーシーンシミュレーションの可能性を実証しています。
原文 (English)
PerceptTwin: Semantic Scene Reconstruction for Iterative LLM Planning and Verification
Simulation environments are useful for both robot policy learning and planning verification and validation. Traditionally, the process of creating a simulation was onerous. Creating a bespoke simulation environment for each individual environment that a robot would operate in was simply infeasible. In this work, we introduce PerceptTwin, a fully automatic pipeline that constructs interactive simulations directly from semantic scene representations produced by a robot's perception stack. PerceptTwin combines open-vocabulary object maps with 3D asset generation, affordance prediction, and commonsense condition checking. These interactive simulations can be used to validate and refine plans before they are executed on the robot hardware. Borrowing from the AI alignment literature, we also introduce an LLM judge that verifies plan correctness and alignment with human preferences. Experiments show that PerceptTwin feedback allows LLM planners to refine plans, enhance safety, and resist harmful black-box prompting attacks. In our suite of tasks, PerceptTwin improves plan success by an average of approximately 39% for GPT5, GPT5Mini, and GPT5Nano planners. Additionally, PerceptTwin also improves human plan verification by up to 18% on average for plans that fail due to unfilled skill preconditions. Our results demonstrate the potential of open-vocabulary scene simulation from robot perception as a foundation for safer, more reliable robot planning.
MM-BizRAG: 汎用エンタープライズ Q&A 向けのマルチモーダル検索拡張生成の再考
マルチモーダル検索拡張生成 (MM-RAG) の最近の進歩は、最小限の解析に移行し、検索埋め込みの生成と回答の生成にはページレベルの画像に依存しています。この傾向は効率的ではありますが、複雑な企業ドキュメント内の豊富で構造化された情報の明示的な処理を無視することが多く、その代わりに、そのような構造を暗黙的に捕捉する事前トレーニング済みの埋め込みまたはビジョン言語モデルに依存します。この作業では、より直接的なアプローチを採用しています。MM-BizRAG は、方向固有の取り込みパイプラインを通じてドキュメントを動的にルーティングするドキュメント構造認識分割を介してドキュメント構造をプロアクティブに抽出および表現し、垂直方向に構造化されたドキュメント (レポートなど) には明示的なレイアウト認識解析を適用し、水平方向に構造化されたドキュメント (スライド デッキなど) には全体的なページ レベルの表現を適用します。プレースホルダーベースの位置調整を備えた統合された LLM 駆動のアーティファクト変換パイプラインにより、自然な読み取り順序が維持される一方、推論時のマルチモーダル アセンブリにより検索表現が生成コンテキストから切り離され、微調整を必要とせずに、より豊富で根拠のある回答が可能になります。大規模で異種混合のエンタープライズ データセットと 2 つの公開ベンチマーク (SlideVQA および FinRAGBench-V) での実験を通じて、MM-BizRAG は常に最先端のビジョン中心のベースラインを最大 32% ポイント上回るパフォーマンスを示し、特にレポート スタイルのレイアウトで大幅な向上を実現しました。さらに、人間によるより強力な調整を実現しながら、RAGChecker のコストを半減する、きめ細かい生成呼び出しのためのシングルコール LLM ジャッジ メトリクスである FastRAGEval を導入します。
原文 (English)
MM-BizRAG: Rethinking Multimodal Retrieval-Augmented Generation for General Purpose Enterprise Q&A
Recent advances in multimodal retrieval-augmented generation (MM-RAG) have shifted toward minimal parsing, relying on page-level images for producing retriever embeddings and for answer generation. While efficient, this trend often neglects explicit handling of the rich, structured information in complex enterprise documents, instead depending on pre-trained embeddings or vision-language models to implicitly capture such structure. In this work, we take a more direct approach: MM-BizRAG proactively extracts and represents document structure via a document structure-aware split that dynamically routes documents through orientation-specific ingestion pipelines, applying explicit layout-aware parsing for vertically structured documents (e.g., reports) and holistic page-level representations for horizontally structured documents (e.g., slide decks). A unified LLM-driven artifact transformation pipeline with placeholder-based positional alignment preserves natural reading order, while inference-time multimodal assembly decouples retrieval representations from generation context, enabling richer, more grounded answers without any finetuning requirement. Through experiments on a large, heterogeneous enterprise dataset and two public benchmarks (SlideVQA and FinRAGBench-V), MM-BizRAG consistently outperforms state-of-the-art vision-centric baselines by up to 32% points, with especially strong gains on report-style layouts. Furthermore, we introduce FastRAGEval, a single-call LLM Judge metric for fine-grained generative recall that halves RAGChecker's cost while achieving stronger human alignment.
高速拡散言語モデルのデコードをサポートするトークンの公開
離散拡散言語モデルは、複数のマスクされた位置を並行して更新することでテキストを効率的に生成できますが、この並行性により品質と遅延のトレードオフが生じます。積極的なデコードでは相互に依存するトークンのコミットが早すぎる可能性がありますが、保守的なデコードでは多くのノイズ除去手順が必要になります。既存の方法では、信頼性または依存性の基準を使用して、どのトークンを公開しても安全であるかを判断することで、この緊張に対処しています。ただし、安全でないコミットを回避しても、残りのマスクされたシーケンスのデコードが容易になるとは限りません。不確実なトークンがマスクされたトークンに依存し、ノイズ除去ステップのボトルネックになる可能性があるためです。私たちは、拡散言語モデルの既存の並列デコード戦略の上に追加できる、トレーニング不要のモジュールである AXON を提案します。 AXON は、ベース デコーダを置き換えるのではなく、残りの不確実なマスクされたトークンを監視し、現在の状態が追加のコンテキストが必要であることを示唆する場合にのみ介入します。次に、どのトークンを公開するのが最も安全であるかという基準を、どの信頼できる公開が後のノイズ除去を最もよくサポートするかという基準に変更します。 AXON は、注意、不確実性、および信頼性のシグナルを使用して、不確実な位置が注目するアンカー、つまり不確実な位置が注目する自信のあるマスクされたトークンを選択します。複数の拡散言語モデルにわたる推論とコード生成のベンチマークに関する実験では、AXON が既存の並列デコーダーの品質と遅延のトレードオフを改善し、多くの場合、精度を維持または向上させながら関数評価の数を削減することが示されています。
原文 (English)
Supportive Token Revealing for Fast Diffusion Language Model Decoding
Discrete diffusion language models can generate text efficiently by updating multiple masked positions in parallel, but this parallelism introduces a quality-latency trade-off. Aggressive decoding may commit mutually dependent tokens too early, while conservative decoding requires many denoising steps. Existing methods address this tension by deciding which tokens are safe to reveal using confidence or dependency criteria. However, avoiding unsafe commits does not necessarily make the remaining masked sequence easy to decode, since uncertain tokens may depend on masked tokens, creating a bottleneck for denoising steps. We propose AXON, a training-free module that can be added on top of existing parallel decoding strategies for diffusion language models. Rather than replacing the base decoder, AXON monitors the remaining uncertain masked tokens and intervenes only when their current state suggests that additional context is needed. It then shifts the criterion from which tokens are safest to reveal to which confident reveals would best support later denoising. AXON selects anchors, confident masked tokens that uncertain positions attend to, using attention, uncertainty, and confidence signals. Experiments on reasoning and code-generation benchmarks across multiple diffusion language models show that AXON improves the quality-latency trade-off of existing parallel decoders, often reducing the number of function evaluations while maintaining or improving accuracy.
積極的な量子化のための Recover-LoRA: 合成データの知識蒸留による低ランク適応による 2 ビット言語モデルの精度の回復
2 ビット精度への積極的な重み量子化により、大規模言語モデル (LLM) 推論のスループットとメモリが大幅に向上しますが、通常は精度が大幅に低下します。これらの利点は、メモリ容量と帯域幅が主な制約となるエッジおよびオンデバイスの展開に特に関係します。この研究では、Recover-LoRA (もともと一般的なモデル重み破損のために開発された軽量でデータフリーの精度回復手法) を、超低ビット量子化の設定まで拡張します。我々は、MLP のゲートおよびアップ投影層のみが 2 ビット (W2) に量子化され、他のすべての線形層は高精度のままであり、混合精度の GateUp 構成を生成する、選択的な混合精度戦略を提案します。 3 つのモデル ファミリ (4B ~ 20B) と 2 つのハードウェア プラットフォームにわたるルーフライン分析を通じて、W4/W2-GateUp 導入 (4 ビット ベースと 2 ビット ゲート/アップ) が、量子化誤差を予測可能なレイヤーのサブセットに限定しながら、モデルとコンテキストの長さに応じて均一な W4 と比較して 7.5 ~ 23.3% の TPS 向上を実現することを実証します。次に、Recover-LoRA (合成データを使用したロジット蒸留を介して量子化レイヤーで低ランクのアダプターをトレーニング) を適用し、ゲートおよび上位レイヤーの 2 ビット量子化によって失われた精度を回復します。 Qwen3-4B のケーススタディでは、Recover-LoRA は 10,000 個の合成トレーニング サンプルのみを使用し、ラベル付きデータを使用せず、12 ベンチマーク中 9 で 80 ~ 95\% の精度回復を達成しました。さらに、蒸留ベースの回収において合成データが厳選されたラベル付きデータと同等のパフォーマンスを発揮すること、および回収が配布外の評価タスクに一般化されることを実証します。私たちの結果は、Recover-LoRA が、展開設定で積極的な重み圧縮のための実用的な量子化後の精度回復ツールであることを示しています。
原文 (English)
Recover-LoRA for Aggressive Quantization: Reclaiming Accuracy in 2-Bit Language Models via Low-Rank Adaptation with Knowledge Distillation on Synthetic Data
Aggressive weight quantization to 2-bit precision offers substantial throughput and memory gains for large language model (LLM) inference, but typically incurs severe accuracy degradation. These gains are particularly relevant for edge and on-device deployment, where memory capacity and bandwidth are primary constraints. In this work, we extend Recover-LoRA -- a lightweight, data-free accuracy recovery method originally developed for general model weight corruption -- to the setting of ultra-low-bit quantization. We propose a selective mixed-precision strategy in which only gate and up projection layers of the MLP are quantized to 2-bit (W2), while all other linear layers remain at higher precision, yielding a mixed-precision GateUp configuration. We demonstrate via roofline analysis across three model families (4B--20B) and two hardware platforms that a W4/W2-GateUp deployment (4-bit base with 2-bit gate/up) delivers 7.5--23.3\% TPS improvement over uniform W4 depending on model and context length, while confining quantization error to a predictable subset of layers. We then apply Recover-LoRA -- training low-rank adapters on the quantized layers via logit distillation with synthetic data -- to recover accuracy lost from 2-bit quantization of the gate and up layers. In a case study on Qwen3-4B, Recover-LoRA achieves 80--95\% accuracy recovery on 9 of 12 benchmarks, using only 10k synthetic training samples and no labeled data. We further demonstrate that synthetic data performs comparably to curated labeled data for distillation-based recovery, and that recovery generalizes to out-of-distribution evaluation tasks. Our results present Recover-LoRA as a practical post-quantization accuracy recovery tool for aggressive weight compression in deployment settings.
EReL@MIR 2025 マルチモーダル文書検索チャレンジの概要 (トラック 1)
マルチモーダルな検索拡張生成には、視覚的に豊富なドキュメント、つまりテキストと図、表、グラフが挟まれたページの検索が不可欠ですが、ほとんどの検索ツールは依然としてビジュアル チャネルを破棄しています。 Web Conference 2025 と同時開催される第 1 回 EReL@MIR ワークショップの MIR チャレンジの Track~1 である \emph{マルチモーダル文書検索チャレンジ} では、参加者に 2 つの相補的な体制を処理する \emph{単一} 検索システムを構築するよう求めます。テキストクエリ (MMDocIR) からの長い文書内のクローズドセット文書ページの検索と、画像からの Wikipedia スタイルの一節のオープンドメイン検索です。または画像とテキストのクエリ (M2KR)。システムは、2 つのタスクにわたる平均 Recall@$\{1,3,5\}$ のマクロ平均によってランク付けされます。このチャレンジには、22 チームから 455 人の参加者と 586 件の応募が集まりました。このレポートでは、課題の設計、データセット、評価プロトコルについて説明します。最終順位を報告します。そして優勝した3チームのシステムを分析します。 3 つはすべて、CLIP スタイルのエンコーダーではなく、Qwen2-VL ファミリのデコーダーベースの Multimodal-LLM エンベッダーに基づいて構築されており、主に、微調整されたアンサンブル、強力なビジョン言語リランカーによるトレーニング不要のマルチルート フュージョン、またはゼロショット レイト インタラクションを通じてトップに到達するかどうかが異なります。トレーニング不要のシステムは、微調整された勝者の $0.1$ ポイント以内に終了しました。
原文 (English)
Overview of the EReL@MIR 2025 Multimodal Document Retrieval Challenge (Track 1)
Retrieval over visually-rich documents, pages that interleave text with figures, tables, and charts, is essential for multimodal retrieval-augmented generation, yet most retrievers still discard the visual channel. The \emph{Multimodal Document Retrieval Challenge}, Track~1 of the MIR Challenge at the first EReL@MIR workshop, co-located with The Web Conference 2025, asks participants to build a \emph{single} retrieval system that handles two complementary regimes: closed-set document page retrieval within long documents from a text query (MMDocIR), and open-domain retrieval of Wikipedia-style passages from an image or image-plus-text query (M2KR). Systems are ranked by the macro-average of mean Recall@$\{1,3,5\}$ over the two tasks. The challenge drew 455 entrants and 586 submissions across 22 teams. This report describes the challenge design, datasets, and evaluation protocol; reports the final standings; and analyses the three winning teams' systems. All three build on decoder-based Multimodal-LLM embedders from the Qwen2-VL family rather than on CLIP-style encoders, and differ chiefly in whether they reach the top through fine-tuned ensembles, training-free multi-route fusion with a strong vision-language re-ranker, or zero-shot late interaction. The training-free system finished within $0.1$ point of the fine-tuned winner.
もう一度服用してもいいですか? OTC 投薬 QA における時間的不確実性の下での LLM の意思決定の評価
大規模言語モデル (LLM) は、ユーザーが市販薬 (OTC) を安全にもう 1 回服用できるかどうかなど、日常の健康に関する質問にますます使用されています。しかし、この一般的な安全関連の設定は、既存の医療 QA 評価では依然として十分に検討されていません。そこでは、正しい回答には、投与タイミングの追跡、24 時間のローリング摂取量の計算、製品ラベルの制約への準拠、および不完全な薬歴の処理が必要です。成人のアセトアミノフェンとイブプロフェンの使用に焦点を当てた、厳選された 81 の OTC 投与シナリオの焦点を絞ったベンチマークである DOSEBENCH を、手動で注釈が付けられたゴールド参照とともに紹介します。決定の正確さ、一貫性、説明の検証可能性、失敗の種類、信頼性に関連する信号のメトリクスを使用して、繰り返し実行される 4 つの LLM を評価し、1,620 個のモデル応答が得られます。私たちの結果は、モデルがローリングウィンドウ推論や曖昧さに敏感なケースに頻繁に苦戦すること、そして安定した応答や自信を持って見える応答が依然として投与制約に違反する可能性があることを示しています。これらの発見は、OTC 投与 QA が、医療 QA における時間的推論、制約追従、および安全関連の不確実性の処理を評価するための、狭いながらも実用的なテストベッドを提供することを示唆しています。
原文 (English)
Can I Take Another Dose? Evaluating LLM Decision-Making Under Temporal Uncertainty in OTC Dosing QA
Large language models (LLMs) are increasingly used for everyday health questions, including whether a user can safely take another dose of an over-the-counter (OTC) medication. Yet this common safety-relevant setting remains underexplored in existing medical QA evaluations, where correct answers require tracking dose timing, computing rolling 24-hour intake, following product-label constraints, and handling incomplete medication histories. We introduce DOSEBENCH, a focused benchmark of 81 curated OTC dosing scenarios focused on adult acetaminophen and ibuprofen use, with manually annotated gold references. We evaluate four LLMs across repeated runs using metrics for decision correctness, consistency, explanation verifiability, failure types, and confidence-related signals, resulting in 1,620 model responses. Our results show that models frequently struggle with rolling-window reasoning and ambiguity-sensitive cases and that stable or confident-looking responses can still violate dosing constraints. These findings suggest that OTC dosing QA provides a narrow yet practical testbed for evaluating temporal reasoning, constraint following, and safety-relevant uncertainty handling in medical QA.
専門家の混合がまばらな報酬モデル
プリファレンス モデリングは、ヒューマン フィードバックからの強化学習 (RLHF) において中心的な役割を果たし、大規模言語モデル (LLM) を人間の価値観に合わせることを可能にします。しかし、既存のアプローチのほとんどは普遍的な報酬関数を前提としており、人間の好みの多様性と異質性を無視しています。追加のアノテーションコストをかけずにこの制限に対処するために、最近の研究では、バイナリデータから複数のプリファレンスコンポーネントを学習し、それらを組み合わせて個々のプリファレンスをモデル化することが提案されています。それにも関わらず、これらのコンポーネントは、一貫性のある解きほぐされたパターンをキャプチャできないことが多く、解釈可能性やパーソナライゼーションの有効性が制限されます。この研究では、バイナリ嗜好データのトレーニング中に疎なルーティングと専門家の多様性を促進する疎な専門家混合 (MoE) 報酬モデルを提案します。制御された実験と実際の実験を通じて、まばらな MoE は解釈可能なルーティング パターンと専門の専門家を学習します。また、テスト時のパーソナライゼーションも改善され、適応後のエキスパートの重みの変化により、モデルがパーソナライズされた好みにどのように適応するかを分析するための定性的なレンズが提供されます。
原文 (English)
Sparse Mixture-of-Experts Reward Models Learn Interpretable and Specialized Experts for Personalized Preference Modeling
Preference modeling plays a central role in reinforcement learning from human feedback (RLHF), enabling large language models (LLMs) to align with human values. However, most existing approaches assume a universal reward function, neglecting the diversity and heterogeneity of human preferences. To address this limitation without additional annotation costs, recent work has proposed learning multiple preference components from binary data and combining them to model individual preferences. Nevertheless, these components often fail to capture coherent and disentangled patterns, limiting their interpretability and effectiveness for personalization. In this work, we propose a sparse Mixture-of-Experts (MoE) reward model that encourages sparse routing and expert diversity during training on binary preference data. Across controlled and real-world experiments, sparse MoE learns interpretable routing patterns and specialized experts. It also improves test-time personalization, and post-adaptation shifts in expert weights provide a qualitative lens for analyzing how the model adapts to personalized preferences.
即時決定トランスフォーマーを使用したワイヤレス ネットワークの一般化可能なマルチタスク学習
将来のワイヤレス ネットワークでは、非常に異質な環境と動的なタスク構成への迅速な適応が求められており、従来のルールベースで最適化主導の無線リソース管理 (RRM) から人工知能 (AI) 主導の RRM への移行が必要です。 AI 主導のアプローチは、複雑な非線形関係を学習し、多様なネットワーク条件全体に一般化して、リアルタイムでスケーラブルな自律的な意思決定を可能にします。 RRM 技術の中でも、多地点協調(CoMP)送信はセル間干渉を軽減し、セルエッジのパフォーマンスを向上させるために極めて重要であり、それによって高密度展開における体験品質(QoE)が向上します。ただし、最適なマルチセルの選択は、動的なトラフィックとチャネル条件の下で、考えられる多くのサービングセルの組み合わせを共同で最適化する必要があるため、依然として複雑な組み合わせの課題です。成功にもかかわらず、近接ポリシー最適化 (PPO) などの従来の深層強化学習 (DRL) 手法は、サンプル効率が低く、汎化が限られており、状態空間とアクション空間が変化した場合に再学習にコストがかかるという問題があります。これらのボトルネックに対処するために、多様なネットワーク構成にわたって学習し、シーケンス モデリング問題としてマルチセルの選択を再定式化できる、Prompt Decision Transformer (PromptDT) ベースのマルチタスク学習フレームワークを提案します。 PromptDT は、オフライン トラジェクトリとタスク固有のプロンプトを活用することで、さまざまな基地局やユーザー機器の数、スケジューラ ポリシーなど、さまざまなネットワーク構成にわたってスケーラブルな学習を可能にします。実験結果は、PromptDT がベースラインと比較してマルチタスク設定で QoE を最大 49% 向上させ、モデルの容量に合わせてパフォーマンスがプラスに拡張することを示しています。さらに、PromptDT は目に見えないタスクを効果的に一般化し、再トレーニングや微調整を行わずに、新しいネットワーク構成への堅牢な少数ショットの適応を実現します。
原文 (English)
Generalizable Multi-Task Learning for Wireless Networks Using Prompt Decision Transformers
Future wireless networks demand rapid adaptation to highly heterogeneous environments and dynamic task configurations, necessitating a shift from conventional rule-based and optimization-driven radio resource management (RRM) toward artificial intelligence (AI)-driven RRM. AI-driven approaches can learn complex nonlinear relationships, generalize across diverse network conditions and enable real-time, scalable and autonomous decision-making. Among RRM techniques, coordinated multipoint (CoMP) transmission is pivotal for mitigating inter-cell interference and enhancing cell-edge performance, thereby improving quality of experience (QoE) in dense deployments. However, optimal multi-cell selection remains a complex combinatorial challenge as it requires jointly optimizing over many possible serving-cell combinations under dynamic traffic and channel conditions. Despite their success, conventional deep reinforcement learning (DRL) methods such as proximal policy optimization (PPO) suffer from poor sample efficiency, limited generalization, and costly retraining when state and action spaces change. To address these bottlenecks, we propose a Prompt Decision Transformer (PromptDT) based multi-task learning framework capable of learning across diverse network configurations and reformulating multi-cell selection as a sequence modeling problem. By leveraging offline trajectories and task-specific prompts, PromptDT enables scalable learning across diverse network configurations, including varying base stations and user equipment counts, and scheduler policies. Experimental results demonstrate that PromptDT improves QoE by up to 49% in multi-task settings compared to baselines, with performance scaling positively alongside model capacity. Moreover, PromptDT generalizes effectively to unseen tasks, achieving robust few-shot adaptation to new network configurations without retraining or fine-tuning.
信頼できない入力から信頼できるメモリへ: LLM エージェントにおけるメモリポイズニング攻撃の系統的研究
メモリは AI エージェントの中核コンポーネントであり、AI エージェントがインタラクションを通じて知識を蓄積し、パフォーマンスを向上させることができます。ただし、永続メモリにはメモリ ポイズニングのリスクが伴います。メモリ ポイズニングの場合、敵対的な 1 回のメモリ書き込みがエージェントの動作に長期的な影響を与える可能性があります。我々は、LLM ベースのエージェントにおけるメモリポイズニングの体系的な研究を紹介します。 4 つのメモリ書き込みチャネルと、これらのチャネルを悪用可能にするモデル機能、システム プロンプト設計、およびエージェント システム アーキテクチャにおける 9 つの構造的脆弱性を特定しました。これらの脆弱性に基づいて、メモリポイズニング攻撃の 6 つのクラスの分類を作成します。さらに、メモリポイズニング攻撃を評価するためのベンチマークである MPBench を設計し、より積極的にメモリの書き込みと取得を行うように設計されたエージェントが悪用されやすいことを示します。また、既存のプロンプト インジェクション防御ではメモリ ポイズニング攻撃をカバーできないことも示します。私たちの調査結果は、AI エージェントに対するメモリ ポイズニング攻撃を理解し、軽減するための基盤を提供します。
原文 (English)
From Untrusted Input to Trusted Memory: A Systematic Study of Memory Poisoning Attacks in LLM Agents
Memory is a core component of AI agents, enabling them to accumulate knowledge across interactions and improve performance. However, persistent memory introduces the risk of memory poisoning, where a single adversarial memory write can exert long-term influence over agent behavior. We present a systematic study of memory poisoning in LLM-based agents. We identify four memory write channels and nine structural vulnerabilities in model capabilities, system prompt design, and agent system architecture that make these channels exploitable. Based on these vulnerabilities, we develop a taxonomy of six classes of memory poisoning attacks. Furthermore, we design MPBench -- a benchmark for evaluating memory poisoning attacks, and show that agents designed to write and retrieve memory more aggressively are more exploitable. We also show that existing prompt injection defenses fail to cover memory poisoning attacks. Our findings provide a foundation for understanding and mitigating memory poisoning attacks against AI agents.
MorphoQuant: オムニモーダル大規模言語モデル向けのモダリティを意識した量子化
従来のポストトレーニング量子化 (PTQ) 手法は、極端な分布の不均一性とモダリティ間の異種の外れ値パターンにより、4 ビットのオムニモーダル大規模言語モデル (OLLM) に苦戦します。これに対処するために、クロスモーダル形態を保存し、外れ値の損失を軽減するように設計されたモダリティ認識 PTQ フレームワークである MorphoQuant を提案します。具体的には、ロングテールの外れ値をチャネルごとのバイアスに選択的に吸収する、Distribution-Aware Bias Compensation (DABC) を導入します。このメカニズムは、密なインライアの高精度の離散化を維持しながら外れ値の大きさを保護し、それによって多様なモード分布にわたって正確な離散化を維持します。これを補完するために、量子化グリッドとバイアス マスクを同時に最適化し、モダリティ全体でのきめ細かい調整を保証する形態指向量子化関数最適化 (MDQFO) を提案します。 MMMU や Video-MME などのベンチマークにわたる Qwen2.5-Omni の広範な評価により、私たちのアプローチの優位性が実証されています。特に、当社の W4A4 モデルは ScienceQA で 76.63% を達成し、SOTA W4A4 メソッドを大幅に上回り、驚くべきことに W4A16 ベースラインを上回っています。これは、当社のフレームワークの並外れた精度と効率のトレードオフを十分に示しています。
原文 (English)
MorphoQuant: Modality-Aware Quantization for Omni-modal Large Language Models
Conventional Post-Training Quantization (PTQ) methods struggle with 4-bit Omni-modal Large Language Models (OLLMs) due to the extreme distribution heterogeneity and disparate outlier patterns across modalities. To address this, we propose MorphoQuant, a modality-aware PTQ framework engineered to preserve cross-modal morphology and mitigate outlier loss. Specifically, we introduce Distribution-Aware Bias Compensation (DABC), which selectively absorbs long-tailed outliers into channel-wise biases. This mechanism safeguards outlier magnitudes while maintaining high-precision discretization for dense inliers, thereby preserving accurate discretization across diverse modal distribution. Complementing this, we propose Morphology-Directed Quantization Function Optimization (MDQFO) to co-optimize the quantization grid with the bias mask, ensuring fine-grained alignment across modalities. Extensive evaluations on Qwen2.5-Omni across benchmarks like MMMU and Video-MME demonstrate our approach's superiority. Notably, our W4A4 model achieves 76.63% on ScienceQA, significantly outperforming SOTA W4A4 methods and surprisingly surpassing the W4A16 baseline, which fully demonstrates the exceptional accuracy-efficiency trade-off of our framework.
記号から幾何へ: 大規模な言語モデルで空間推論を可能にする
最近の大規模言語モデル (LLM) は、空間推論能力を示すことが多いようです。ただし、この機能は主に \emph{象徴的} なものであり、空間に関する真の \emph{幾何学的} 推論ではなく、空間言語によるパターン マッチングから生じています。 LLM は離散トークンで動作するため、連続空間表現、明示的な幾何学的計算、および構造化空間演算子のネイティブ サポートが不足しています。この制限に対処するために、\emph{空間言語モデル (SLM)} を導入しました。これは位置情報を第一級のモダリティとして扱い、モデルの推論プロセス内で幾何学的空間推論を可能にする初のマルチモーダル LLM です。 SLM は、空間関係のテキスト記述ではなく、学習された空間表現に直接作用します。効果的なトレーニングをサポートするために、空間表現、アトミックな幾何学的操作、自然言語命令を調整する \emph{空間命令データセット} を構築します。さらに、\emph{SpatialEval} という名前の新しいベンチマークを提案します。これは、属性、距離、トポロジー、および相対位置タスクにわたる空間推論を評価するように設計されています。広範な実験により、SLM は、プロンプト エンジニアリングやテキスト抽象化による記号推論に依存する既存の LLM ベースのアプローチよりも大幅に優れていることが示されており、堅牢な空間推論のために幾何学的空間表現を統合する利点が実証されています。命令データセット、評価ベンチマーク、モデル トレーニング コード、モデルのチェックポイントは、\hyperlink{https://github.com/chuchen2017/SLM}{https://github.com/chuchen2017/SLM} にあります。
原文 (English)
From Symbolic to Geometric: Enabling Spatial Reasoning in Large Language Models
Recent large language models (LLMs) often appear to exhibit spatial reasoning ability; however, this capability is largely \emph{symbolic}, arising from pattern matching over spatial language rather than true \emph{geometric} reasoning over space. Because LLMs operate on discrete tokens, they lack native support for continuous spatial representations, explicit geometric computation, and structured spatial operators. To address this limitation, we introduce the \emph{Spatial Language Model (SLM)}, the first multimodal LLM that treats location information as a first-class modality and enables geometric spatial reasoning within the model's inference process. SLM directly operates on learned spatial representations rather than textual descriptions of spatial relations. To support effective training, we construct a \emph{Spatial Instruction Dataset} that aligns spatial representations, atomic geometric operations, and natural language instructions. We further propose a new benchmark named \emph{SpatialEval}, which is designed to evaluate spatial reasoning across attributes, distance, topology, and relative-position tasks. Extensive experiments show that SLM significantly outperforms existing LLM-based approaches that rely on symbolic reasoning via prompt engineering or textual abstraction, demonstrating the benefits of integrating geometric spatial representations for robust spatial reasoning. Our instruction dataset, evaluation benchmark, model training codes, and models' checkpoints can be found at: \hyperlink{https://github.com/chuchen2017/SLM}{https://github.com/chuchen2017/SLM}.
LLM ベースの階層的優先順位付けによる営業リードのスコアリングの再考
一か八かの分野 (自動車、不動産など) でのセールスリードの変換は、長期にわたる意思決定サイクルと多段階の目標到達プロセスにより、電子商取引の推奨とは根本的に異なります。従来のリード スコアリング方法のルールベースのスコアカード、機械学習、またはポイントごとの CTR モデルは、監督の希薄さ、非構造化 CRM ログのセマンティック ギャップ、相対的なリードの優先度を把握できないなどの深刻な課題に直面しています。大規模言語モデル (LLM) は顧客との対話の優れた意味的理解を提供しますが、汎用 LLM はリードのランキングには適していません。比較可能なスコアではなくテキストを生成し、セールス ファネルの階層的な優先順位との整合性が欠けています。セールスリードスコアリングのための LLM ベースの識別フレームワークを導入します。これは、構造化された CRM 機能と非構造化された顧客インタラクションの共同モデリングをサポートします。このフレームワークに加えて、HPRO (階層的嗜好ランキング最適化) を提案します。これは、階層的な嗜好ランキングの目標によってセールス リードのスコアリングを強化します。 HPRO は、マージンを意識した Bradley-Terry 定式化を採用して、まばらなバイナリ ラベルを高密度でファネルを意識したプリファレンス ペアに変換し、ポイント単位とペア単位の両方の監視を活用したリード スコアリングを可能にします。大手NEVブランドからの大規模データを用いた実験では、最先端の分類(AUC 0.8161)とランキングパフォーマンス(トップランクのリード間で精度+39.7%)が実証されました。 132 日間のオンライン A/B テストにより、販売量が 9.5% 増加したことが検証され、現実世界の商業的影響が確認されました。
原文 (English)
Rethinking Sales Lead Scoring with LLM-based Hierarchical Preference Ranking
Sales lead conversion in high-stakes domains (e.g., automotive, real estate) differs fundamentally from e-commerce recommendation due to prolonged decision cycles and multi-stage funnels. Traditional lead scoring methods rule-based scorecards, machine learning, or pointwise CTR models face severe challenges: sparse supervision, a semantic gap in unstructured CRM logs, and inability to capture relative lead priority. While Large Language Models(LLMs) offer superior semantic understanding of customer interactions, general-purpose LLMs are ill-suited for lead ranking: they generate text rather than comparable scores, and lack alignment with the hierarchical priorities of sales funnels. We introduce an LLM-based discriminative framework for sales lead scoring, which supports joint modeling of structured CRM features and unstructured customer interactions. On top of this framework, we propose HPRO (Hierarchical Preference Ranking Optimization), which augments sales lead scoring with a hierarchical preference ranking objective. HPRO employs a margin-aware Bradley-Terry formulation to transform sparse binary labels into dense, funnel-aware preference pairs, enabling lead scoring to leverage both pointwise and pairwise supervision. Experiments on large-scale data from a leading NEV brand demonstrate state-of-the-art classification (AUC 0.8161) and ranking performance (+39.7% precision among top-ranked leads). A 132-day online A/B test validates 9.5% sales volume uplift, confirming real-world commercial impact.
即時注射が忘れられなかったらどうなるでしょうか?エージェントシステムでのクロスセッションストアドプロンプトインジェクションの探索
最新のエージェント システムは、LLM をセッション限定のアシスタントからステートフル システムに変換します。ステートフル システムは、メモリ、ファイル システム、ツール、およびその他の長期間存続するコンテキスト アーティファクトを通じて、セッション間で共有世界状態を永続化および進化させます。この変化により、プロンプト インジェクションの攻撃対象領域が根本的に拡大します。しかし、プロンプト インジェクションに関するこれまでの研究は主に単一セッション内のモデル レベルの脅威に焦点を当てており、セッション間の永続的なシステム状態がエージェント システムのシステム レベルのリスクをどのように根本的に変化させるかを見落としていました。 Web システムのストアド クロスサイト スクリプティングにヒントを得て、クロスセッション ストアド プロンプト インジェクションを導入しました。これにより、成功したインジェクションはエージェント システム状態内で持続し、元の攻撃者による対話が終了した後も長期間にわたって将来の実行に静かに影響を与えることができます。この脅威を体系的に研究するために、ストアド プロンプト インジェクションを形式化し、敵対的なコンテンツがどのようにセッション間で持続し、エージェント システムに影響を与えるかの分類を開発します。さらに、ストアド プロンプト インジェクションのリスクを評価するためのベンチマークとサンドボックス ツールキットを開発し、さまざまなモデル、攻撃目標、永続化チャネルにわたる攻撃の成功の定量的分析を可能にします。私たちの調査結果は、永続化により、プロンプト インジェクションが一時的なモデル レベルの脅威から、エージェントの実行状態に組み込まれた長期にわたるシステム レベルの脆弱性に変化することが強調されています。私たちは、この取り組みがこの新たな脅威に対する幅広い注目を集め、コミュニティがエージェント システムの存続によって生じるシステム リスクを体系的に調査して軽減するよう促すことを願っています。
原文 (English)
What If Prompt Injection Never Left? Exploring Cross-Session Stored Prompt Injection in Agentic Systems
Modern agentic systems transform LLMs from session-bounded assistants into stateful systems that persist and evolve shared world state across sessions through memories, filesystems, tools, and other long-lived contextual artifacts. This shift fundamentally expands the attack surface of prompt injection. However, prior works on prompt injection have largely focused on model-level threats within a single session, overlooking how cross-session persistent system state fundamentally changes the system-level risk of agentic systems. Inspired by stored cross-site scripting in web systems, we introduce cross-session stored prompt injection, where a successful injection can persist within agentic system state and silently influence future executions long after the original attacker interaction has ended. To systematically study this threat, we formalize stored prompt injection and develop a taxonomy of how adversarial content persists and affects agentic systems across sessions. We further develop a benchmark and sandbox toolkit to evaluate the risks of stored prompt injection, enabling quantitative analysis of attack success across different models, attack goals, and persistence channels. Our findings highlight that persistence transforms prompt injection from an ephemeral model-level threat into a long-lived system-level vulnerability embedded within agent execution state. We hope this work draws broader attention to this emerging threat and motivates the community to systematically study and mitigate system risks arising from persistence in agentic systems.
MemoryDocDataSet: 共同会話記憶と長い文書推論のベンチマーク
AI システムでは、複数セッションの会話履歴のナビゲートと、長い文書内の深い読解の実行という 2 つの要求の厳しい機能を組み合わせる必要がますます高まっています。しかし、両方を同時に評価する既存のベンチマークはありません。 50 のマイクロワールドと 1,000 の QA ペアの合成ベンチマークである MemoryDocDataSet を紹介します。各インスタンスは 3 ~ 5 人のペルソナ、数か月にわたるアクティビティにわたる時間イベント グラフ、3 ~ 5 の実際の長い文書 (それぞれ Caselaw Access Project から調達された 20,000 ~ 50,000 のトークン)、それらの文書に基づくマルチセッションの会話、および 5 つの推論カテゴリにわたる 20 の質問と回答のペアで構成されます。特徴的な機能はハイブリッド ソース タグです。質問では、システムが最初に会話履歴をナビゲートして関連する文書を特定し、次にその文書内から回答を抽出する必要があります。ハイブリッド質問はデータセットの 75.1% を占めます。データセットの品質は、LLM を判定として使用するプロンプト感度自己一貫性分析によって特徴付けられ、50 のミクロ世界すべてで中央値のコーエンの $\kappa = 0.634$ が得られます。トランケートされたコンテキスト、ロングコンテキスト LLM、検索拡張世代 (RAG)、およびメモリ システムにわたる 6 つのベースライン構成を評価します。最良のベースライン (RAG-両方) は、F1 全体で 0.358、ハイブリッドで 0.342 を達成します。文書のみの検索 (RAG-Doc) は、文書のみの質問で 0.453 を達成したにもかかわらず、ハイブリッドでは 0.267 に落ち込んでいます。これは、共同検索の明らかなギャップを示しており、これが会話の記憶と長い文書のナビゲーションを統合するアーキテクチャを動機づけています。データセット、生成パイプライン、およびすべてのベースライン実装をリリースします。
原文 (English)
MemoryDocDataSet: A Benchmark for Joint Conversational Memory and Long Document Reasoning
AI systems increasingly need to combine two demanding capabilities: navigating multi-session conversation history and performing deep reading comprehension within long documents. Yet no existing benchmark evaluates both simultaneously. We introduce MemoryDocDataSet, a synthetic benchmark of 50 micro-worlds and 1,000 QA pairs in which each instance comprises 3-5 personas, a temporal event graph spanning months of activity, 3-5 real long documents (20,000-50,000 tokens each sourced from the Caselaw Access Project), multi-session conversations grounded on those documents, and 20 question-answer pairs across five reasoning categories. The defining feature is the Hybrid source tag: questions requiring a system to first navigate conversation history to identify which document is relevant, then extract the answer from within that document. Hybrid questions account for 75.1% of the dataset. Dataset quality is characterised through a prompt-sensitivity self-consistency analysis using LLM-as-judge, yielding a median Cohen's $\kappa = 0.634$ across all 50 micro-worlds. We evaluate six baseline configurations spanning truncated context, long-context LLMs, retrieval-augmented generation (RAG), and memory systems. The best baseline (RAG-Both) achieves 0.358 overall F1 and 0.342 on Hybrid. Document-only retrieval (RAG-Doc) collapses to 0.267 on Hybrid despite achieving 0.453 on Doc-only questions, demonstrating a clear joint-retrieval gap that motivates architectures unifying conversational memory with long-document navigation. We release the dataset, generation pipeline, and all baseline implementations.
トークンランキングは偽造不可能な言語モデル署名です
言語モデルのパラメータは、ロジット出力に(各モデルに)一意の幾何学的制約を課すことが知られており、これはモデルを識別する署名として機能しますが、API がロジットを配布するときにモデルの最終層パラメータも漏洩します。私たちは、トークンのランキング (確率値ではなく、確率による順序付け) を公開する、より制限的な API を調査し、ランキングも署名を構成することを発見しました。すべてのモデルは、十分な規模の $k$ に対して実行可能な上位 $k$ ランキングの独自のセットを持っています。さらに、同じ実行可能なランキングのセットを持つモデルを見つけることは NP 困難であるため、ランキング署名は最初に知られている (多項式的に) 偽造不可能な署名です。セキュリティの面では、ロジットと同様に、トークンのランキングがすでにモデルの最終層をほぼ盗むのに十分であることがわかりました。ただし、近似が粗すぎて署名を偽造できず、API を十分に小さい $k$ の上位 $k$ トークンに制限することで効果的に対抗できます。モデル署名を提示するために必要な $k$ は一般に、盗用を防ぐために必要な $k$ よりも小さいため、API はモデル パラメーターを漏らすことなく偽造不可能な署名を提示することが可能です。
原文 (English)
Token Rankings are Unforgeable Language Model Signatures
Language model parameters are known to impose unique (to each model) geometric constraints on their logit outputs, which serves as a signature that identifies the model, but also leaks the model's final layer parameters when an API distributes logits. We investigate more restrictive APIs that expose token rankings (i.e., their ordering by probability, but not the probability values) and find that rankings also constitute a signature: every model has a unique set of feasible top-$k$ rankings for sufficiently large $k$. Furthermore, the ranking signature is the first known (polynomially) unforgeable signature, since finding a model with the same set of feasible rankings is NP-hard. On the security front, we find that token rankings are already sufficient to approximately steal the final layer of the model, similar to logits, though the approximation is too coarse to forge the signature, and can be effectively countered by restricting the API to top-$k$ tokens with sufficiently small $k$. Since the top-$k$ required to present the model signature is generally smaller than the $k$ required to prevent stealing, it is possible for an API to present an unforgeable signature without leaking model parameters.
SePO: システム プロンプト最適化のための自己進化型プロンプト エージェント
システム プロンプトの最適化により、基礎となるモデルを変更することなくエージェントの動作が改善され、人間が判読できる、モデルに依存しない命令が生成されます。既存の方法では、タスク エージェントのシステム プロンプトを改良するプロンプト エージェントを構築しますが、プロンプト エージェント独自のシステム プロンプトは手動で設計および修正されたままになります。我々は、プロンプト エージェント自身のシステム プロンプトをタスク エージェントのシステム プロンプトと並んで最適化ターゲットとして扱う自己進化型プロンプト最適化 (SePO) を提案します。 SePO は自己参照設計を採用しています。単一のプロンプト エージェントは、候補プロンプトのアーカイブを踏み台として維持するオープンエンドの進化的探索の下で、タスク エージェントのシステム プロンプトとそれ自身のプロンプトの両方を改善します。トレーニングは 2 つの段階で進行します。事前トレーニングではマルチタスク プール上でプロンプト エージェントを進化させ、その後、微調整によってそれをターゲット タスクに適用します。数学 (AIME'25)、抽象推論 (ARC-AGI-1)、大学院レベルの科学 (GPQA)、コード生成 (MBPP)、および論理パズル (数独) にわたる 5 つのベンチマークにわたって、SePO は一貫して Manual-CoT、TextGrad、および MetaSPO を上回り、Manual-CoT と比較して平均精度が 4.49 ポイント向上しました。事前トレーニングによるプロンプト最適化スキルは、タスクごとのプロンプトを記憶するのではなく、事前トレーニング混合物を超えたタスクにも一般化されます。
原文 (English)
SePO: Self-Evolving Prompt Agent for System Prompt Optimization
System prompt optimization improves agent behavior without modifying the underlying model, yielding human-readable, model-agnostic instructions. Existing methods build a prompt agent that refines task agents' system prompts, yet leave the prompt agent's own system prompt hand-engineered and fixed. We propose Self-Evolving Prompt Optimization (SePO), which treats the prompt agent's own system prompt as an optimization target alongside task agents' system prompts. SePO adopts a self-referential design. A single prompt agent improves both task agents' system prompts and its own under an open-ended evolutionary search that maintains an archive of candidate prompts as stepping stones. Training proceeds in two stages: pre-training evolves the prompt agent on a multi-task pool, and fine-tuning then applies it to a target task. Across five benchmarks spanning math (AIME'25), abstract reasoning (ARC-AGI-1), graduate-level science (GPQA), code generation (MBPP), and logic puzzles (Sudoku), SePO consistently outperforms Manual-CoT, TextGrad, and MetaSPO, improving the average accuracy by 4.49 points compared to Manual-CoT. The prompt optimization skill from pre-training also generalizes to tasks beyond the pre-training mixture, rather than memorizing per-task prompts.
ビジュアルテキスト生成における推論の忠実度の評価
最近の Text-to-Image (T2I) モデルは、画像内で非常に読みやすく、適切に構造化されたテキストをレンダリングできるため、ドキュメント生成やスライド生成などのアプリケーションが可能になります。しかし、複雑な解決策をレンダリングされたテキストを通じて直接表現しなければならない場合に、そのようなシステムが推論能力を忠実に保持しているのか、それとも単に表面レベルのパターンを模倣しているだけなのかは不明のままです。モデルは完全な推論プロセスを画像として表現する必要があるビジュアル テキスト生成における推論の忠実度を評価することで、この問題を調査します。私たちの評価には、長いテキストのレンダリング、事実知識の調査、文脈の理解、および複数ステップの推論が含まれます。これらの設定全体にわたって、現在の T2I モデルでは、レンダリングされたテキストが視覚的に明確に見える場合でも、セマンティック エラー、論理的矛盾、不正確な中間ステップが頻繁に発生することがわかりました。これらの失敗は、同じタスクに対するテキストのみのモデルの強力な推論パフォーマンスとは対照的です。私たちの調査結果は、ビジュアルテキスト生成と手続き型推論の間に大きなギャップがあることを明らかにし、より信頼性の高いビジュアルテキスト推論を動機付けています。
原文 (English)
Evaluating Reasoning Fidelity in Visual Text Generation
Recent text-to-image (T2I) models can render highly legible and well-structured text within images, enabling applications including document generation and slide generation. However, it remains unclear whether such systems faithfully preserve reasoning ability when complex solutions must be expressed directly through rendered text, or whether they merely imitate surface-level patterns. We investigate this question by evaluating reasoning fidelity in visual text generation, where models must express complete reasoning processes as images. Our evaluation includes long text rendering, factual knowledge probing, context understanding, and multi-step reasoning. Across these settings, we find that current T2I models frequently produce semantic errors, logical inconsistencies, and incorrect intermediate steps, even when the rendered text appears visually clear. These failures contrast with the strong reasoning performance of text-only models on the same tasks. Our findings reveal a substantial gap between visual text generation and procedural reasoning, motivating more reliable visual text reasoning.
共同生成と評価による自己進化する深層研究
大規模言語モデル (LLM) は日常のアプリケーションでますます採用されるようになり、詳細な研究が特に重要な機能として際立っています。従来の質問応答 (QA) タスクとは異なり、詳細な調査レポートの生成には決定的な根拠が欠けているため、報酬設計が本質的に検証不可能になり、効果的な強化学習が制限されます。既存のアプローチでは、LLM-as-a-judge およびクエリ依存の評価ルーブリックを使用してこの課題を軽減していますが、依然として静的な評価器に依存しているため、ソルバーの向上に応じて標準を適応させることができず、最適化圧力が不十分になり、最終的に飽和状態になってしまいます。私たちは、\textbf{s}elf 進化型 \textbf{co} 進化型トレーニング フレームワークで、深い \textbf{re} 検索の評価と生成 (SCORE) を使用してこの制限に対処します。これは、共有パラメータ学習プロセスにおいて評価器とソルバーを緊密に結合します。生成と評価を独立したモジュールとして扱うのではなく、それらの本質的なつながりを活用して、単一の共有パラメーター モデル内で共同の改善を可能にします。このプロセスを制限するために、ソルバーのパフォーマンスに基づいて評価環境を動的に制御するメタハーネスを導入し、有効な評価次元と十分に深い評価者の検索を促進します。ディープリサーチベンチマークに関する広範な実験により、レポート生成の品質が一貫して向上していることが実証されており、評価と生成を共進化させることが、オープンエンドのリサーチエージェントをトレーニングするための有望な方向性であることが示されています。
原文 (English)
Self-Evolving Deep Research via Joint Generation and Evaluation
Large Language Models (LLMs) have become increasingly adopted in daily applications, with deep research standing out as a particularly important capability. Unlike traditional question-answering (QA) tasks, deep research report generation lacks definitive ground-truth, making reward design inherently unverifiable and limiting effective reinforcement learning. Existing approaches mitigate this challenge with LLM-as-a-judge and query-dependent evaluation rubrics, but they still rely on static evaluators that cannot adapt their standards as the solver improves, leading to insufficient and eventually saturated optimization pressure. We address this limitation with a \textbf{s}elf-evolving \textbf{co}-evolutionary training framework for deep \textbf{re}search evaluation and generation (SCORE), which tightly couples an evaluator and a solver in a shared-parameter learning process. Rather than treating generation and evaluation as isolated modules, we leverage their intrinsic connection to enable joint improvement within a single shared-parameter model. To restrict this process, we introduce a meta-harness, which dynamically controls the evaluation environment based on solver performance, encouraging valid evaluation dimensions and sufficiently deep evaluator search. Extensive experiments on deep research benchmarks demonstrate consistent improvement in report generation quality, showing that co-evolving evaluation and generation is a promising direction for training open-ended research agents.
GeoMin: 幾何分布モデリングによるデータ効率の高い半教師あり RLVR
検証可能な報酬を伴う強化学習 (RLVR) は LLM 推論を大幅に進歩させますが、ジレンマに直面しています。標準的な教師ありスケーリングは高いアノテーション コストによって抑制される一方、教師なしの代替案は深刻なモデル崩壊に悩まされます。最近の半教師あり RLVR 手法は、小さなラベル付きセットを使用してラベルなしデータをガイドすることでこの問題に対処し、トレーニングの有効性とアノテーション コストの間で有望なトレードオフを実現しています。ただし、粗いパフォーマンスのヒューリスティックに依存するため、データ効率の深刻なボトルネックに悩まされており、貴重なインスタンスの大部分が十分に活用されていません。この目的を達成するために、ラベル付きデータのグローバルな特徴分布をモデル化して正しいロールアウトと間違ったロールアウトの間の構造的不一致を解読する GeoMin を提案します。これにより、自己報酬信号の信頼性を評価し、ラベルなしデータの可能性を完全に引き出すための堅牢な事前検証を確立します。経験的に、GeoMin は最も強力なベースラインを +4.1% 上回るパフォーマンスを示し、注釈が 10% しかない完全教師モデルをも上回り、顕著なデータ効率を示しています。
原文 (English)
GeoMin: Data-Efficient Semi-Supervised RLVR via Geometric Distribution Modeling
Reinforcement learning with verifiable rewards (RLVR) significantly advances LLM reasoning, yet it faces a dilemma: standard supervised scaling is throttled by high annotation costs, while unsupervised alternatives suffer from severe model collapse. Recent semi-supervised RLVR methods address this by using a small labeled set to guide unlabeled data, achieving a promising trade-off between training efficacy and annotation cost. However, they suffer from a severe data-efficiency bottleneck due to the reliance on coarse performance heuristics, leaving a vast majority of valuable instances underutilized. To this end, we propose GeoMin, which models global feature distributions on labeled data to decode the structural discrepancy between correct and incorrect rollouts, thereby establishing a robust prior to assess the reliability of self-reward signals and fully unleash the potential of unlabeled data. Empirically, GeoMin outperforms the strongest baselines by +4.1% and even surpasses fully supervised models with only 10% of the annotations, demonstrating remarkable data efficiency.
拡散大規模言語モデルにおける形式に制約された生成のための動的埋め込みアンカー
拡散大規模言語モデル (dLLM) は、双方向の注意と並列生成を提供し、グローバル コンテキストを活用して、解析可能な JSON や推論テンプレートなどの形式に制約のあるタスクを自然にサポートできるようにします。単純な固定アンカーはそのような制約を強制できますが、多くの場合、厳密なスパンを課すため、推論が切り詰められたり、コンテンツが冗長になったりします。これを克服するために、反復埋め込みの前にエンドアンカーの位置を動的に推定して生成長を調整する、トレーニング不要の方法である動的埋め込みアンカー (DIA) を提案します。この柔軟なメカニズムにより、構造の正確さと意味の一貫性が確保され、固定スパン方式の非効率性が回避されます。推論ベンチマークの実験では、DIA がフォーマットへの準拠性と回答精度を大幅に向上させ、GSM8K と MATH で大幅なゼロショット ゲインを達成することが実証されました。これらの結果は、DIA が信頼性の高い、構造を意識した生成に向けた強力な経路として確立されています。
原文 (English)
Dynamic Infilling Anchors for Format-Constrained Generation in Diffusion Large Language Models
Diffusion large language models (dLLMs) offer bidirectional attention and parallel generation, enabling them to exploit global context and naturally support format-constrained tasks like parseable JSON or reasoning templates. While straightforward fixed anchors can enforce such constraints, they often impose rigid spans, leading to truncated reasoning or redundant content. To overcome this, we propose Dynamic Infilling Anchors (DIA), a training-free method that dynamically estimates end-anchor positions to adjust generation length before iterative infilling. This flexible mechanism ensures structural correctness and semantic coherence, avoiding the inefficiencies of fixed-span methods. Experiments on reasoning benchmarks demonstrate that DIA substantially improves format compliance and answer accuracy, achieving significant zero-shot gains on GSM8K and MATH. These results establish DIA as a robust pathway toward reliable, structure-aware generation.
エージェントの記憶にとって時間的順序は重要: 長期エージェントのセグメント ツリー
長期的な会話型エージェントは、進化するイベント、タスク、目標を通じてユーザーと対話する必要があります。このような歴史は本来一時的なものですが、多くの既存の記憶システムは主にトピックの類似性によって情報を整理しており、イベントが発生する順序を無視している可能性があります。発話全体にわたって時間的に順序付けられたセグメント ツリーとして会話履歴を表すメモリ アーキテクチャであるセグメント ツリー メモリ (SegTreeMem) を導入します。 SegTreeMem は、オンラインの右端フロンティア更新ルールを通じて新しい発話を段階的に挿入し、階層的なメモリ セグメントを形成しながら時系列順を維持します。取得の場合、SegTreeMem はツリーを通じて関連性スコアを伝播し、ローカルな意味論的な一致と階層的な時間コンテキストを組み合わせます。 SegTreeMem は、3 つの長期メモリ ベンチマークと 2 つの LLM バックボーンにわたって、フラット検索、グラフ構造メモリ、およびツリー構造メモリ ベースラインよりも回答品質を向上させます。追加の時間順序順列分析では、パフォーマンスの向上が記憶構築中の時間順序の維持に依存することが示され、時間順序がエージェント記憶の重要な構造であるという主張が裏付けられています。
原文 (English)
Temporal Order Matters for Agentic Memory: Segment Trees for Long-Horizon Agents
Long-horizon conversational agents need to interact with users through evolving events, tasks, and goals. Such histories are naturally temporal, yet many existing memory systems organize information primarily by topical similarity and may ignore the order in which events occur. We introduce Segment Tree Memory, or SegTreeMem, a memory architecture that represents conversation history as a temporally ordered Segment Tree over utterances. SegTreeMem incrementally inserts new utterances through an online rightmost-frontier update rule, preserving chronological order while forming hierarchical memory segments. For retrieval, SegTreeMem propagates relevance scores through the tree to combine local semantic matching with hierarchical temporal context. Across three long-horizon memory benchmarks and two LLM backbones, SegTreeMem improves answer quality over flat retrieval, graph-structured memory, and tree-structured memory baselines. Additional temporal-order permutation analysis shows that the performance gain depends on preserving temporal order during memory construction, supporting the claim that temporal order is a key structure for agentic memory.
GRPO 向けのロールアウト レベルのアドバンテージ優先エクスペリエンス リプレイ
GRPO を使用した検証可能な報酬からの強化学習は、トレーニング後の推論 LLM の標準的なアプローチです。サンプルの効率が悪いままです。各ロールアウトは 1 つのグラデーション更新に使用され、その後破棄されます。 LLM ポリシーが勾配ステップごとに急速に変化するため、単純な再生はこの設定にはあまり適していません。したがって、保存されたロールアウトは古くなり、トレーニングが不安定になる可能性があります。グループ全体ではなく個々のロールアウトを保存およびサンプリングする、GRPO のロールアウト レベルのリプレイ バッファーを提案します。バッファーは、age eviction を通じて古い状態を制限します。 tau_max トレーニング ステップよりも古いロールアウトは削除されます。バッファには、フレッシュアンカー構成を介してポリシー上のデータも保存されます。各バッチは、ポリシーに基づいた最新のロールアウトを保持し、バッファから個別に描画されたリプレイ ロールアウトを連結します。ロールアウトごとのアドバンテージの大きさによってリプレイに優先順位を付け、アドバンテージが大きい個々のロールアウトをリサイクルします。 5 つの数学ベンチマークにおける 3 つの Qwen3-Base スケール全体で、私たちの手法は GRPO および単純な再生ベースラインを上回りました。ゲインはどのスケールでも正であり、モデルのサイズに応じて増加します。最大の利益は 4B の 5 つのベンチマーク平均で +4.35 pp です。精度とトークン効率を組み合わせて測定する AES メトリクスの下では、GRPO に対する効率マージンは、+0.579 で 4B と再び最大になります。
原文 (English)
Rollout-Level Advantage-Prioritized Experience Replay for GRPO
Reinforcement learning from verifiable rewards with GRPO is a standard approach for post-training reasoning LLMs. It remains sample inefficient. Each rollout is used for a single gradient update and then discarded. Naive replay is not well suited in this setting because LLM policies drift quickly per gradient step. Stored rollouts therefore become stale and can destabilize training. We propose a rollout-level replay buffer for GRPO that stores and samples individual rollouts rather than whole groups. The buffer bounds staleness through age eviction. Any rollout older than tau_max training steps is removed. The buffer also preserves on-policy data via fresh-anchored composition. Each batch keeps its fresh on-policy rollouts and then concatenates replay rollouts drawn separately from the buffer. We prioritize replay by per-rollout advantage magnitude and recycle individual rollouts whose advantages are large. Across three Qwen3-Base scales on five math benchmarks, our method outperforms GRPO and naive replay baselines. Gains are positive at every scale and grow with model size. The largest gain is +4.35 pp on the five-benchmark average at 4B. Under an AES metric that jointly measures accuracy and token efficiency, the efficiency margin over GRPO is again largest at 4B, at +0.579.
マルチ SPIN: エッジでの協調トークン生成のためのマルチアクセス投機推論
投機的推論 (SPIN) は、もともと大規模言語モデル (LLM) を高速化するための効率的なアーキテクチャとして開発されました。この研究では、マルチユーザー エッジ システムでの協調的なトークン生成を可能にする分散展開を提案します。その利点は、リソースに制約のあるデバイスとサーバーの間で計算負荷のバランスを効果的にとれることです。マルチアクセス SPIN (Multi-SPIN) と呼ばれる結果として得られるアーキテクチャは、オンデバイスの小型言語モデルを利用して候補トークン ドラフトを生成およびアップロードする一方、エッジ サーバーは LLM を操作してそれらを並列バッチで検証します。ユーザーの計算能力と通信能力に深刻な不均一性があることを考慮すると、ドラフト長はノードレベルの計算負荷とマルチアクセス待ち時間に影響を与える重要な制御変数として浮上し、それによって合計トークンのグッドプットを支配します。したがって、周波数分割多元接続を考慮して、合計トークン グッドプットを最大化するための、ドラフト長制御と帯域幅割り当ての共同最適化であるマルチアクセス ドラフト制御の問題を調査します。ここでは 2 つのケースを検討します。(1) サーバー側のバッチ処理を容易にするためにユーザー間で均一なドラフト長を使用する場合と、(2) グッドプットを強化するための新しい次元を導入するために異種のドラフト長を使用する場合です。分解手法を開発することで、これらの複雑な最適化を扱いやすい部分問題に縮小し、閉じた形式で効率的な喫水制御アルゴリズムを導出できるようにします。私たちの分析によると、最適な帯域幅の割り当ては、同種の場合にはバッチ同期要件により弱い計算能力と通信能力を持つユーザーを補うのに対し、異種の場合はそのような要件を緩和することでユーザーの受け入れ率を高めることができます。さまざまなタスクにわたって Llama-2 と Qwen3.5 モデルのペアを使用した実験では、Multi-SPIN が異質性を問わないベースラインと比較してグッドプットを最大 88% 向上させることが実証されました。
原文 (English)
Multi-SPIN: Multi-Access Speculative Inference for Cooperative Token Generation at the Edge
Speculative inference (SPIN) was originally developed as an efficient architecture to accelerate Large Language Models (LLMs). In this work, we propose its distributed deployment to enable cooperative token generation in a multiuser edge system; its advantage is to effectively balance computational loads between resource-constrained devices and servers. The resulting architecture, termed Multi-access SPIN (Multi-SPIN), utilizes on-device small language models to generate and upload candidate token drafts, while an edge server operates the LLM to verify them in parallel batches. Given the severe heterogeneity in users' computation and communication capabilities, the draft length emerges as a critical control variable that influences node-level computation loads and multi-access latency, thereby governing the sum token goodput. Consequently, considering frequency-division multiple access, we investigate the problem of multi-access draft control, a joint optimization of draft-length control and bandwidth allocation to maximize sum token goodput. We examine two cases: (1) homogeneous draft lengths across users to facilitate server-side batching, and (2) heterogeneous draft lengths to introduce a new dimension for goodput enhancement. By developing decomposition methods, we reduce these complex optimizations into tractable sub-problems, which allow efficient draft control algorithms to be derived in closed form. Our analysis shows that the optimal bandwidth allocation compensates users with weaker computation-and-communication capabilities in the homogeneous case due to the batching synchronization requirements, whereas its heterogeneous-case counterpart rewards users with higher acceptance rates by relaxing such requirements. Experiments using Llama-2 and Qwen3.5 model pairs across diverse tasks demonstrate that Multi-SPIN improves goodput by up to 88% over heterogeneity-agnostic baselines.
合成パーソナリティ: LLM は社会経済的マイクロデータを使用して個々の回答者をどの程度うまく模倣できるか?
LLM ベースのデジタル ツインは、市場調査の拡張と加速を約束しますが、公開されているデジタル ツインのほとんどは、人口統計に関するいくつかの質問に基づいて条件付けされた大まかなペルソナ ボットか、目的のために収集されたアンケートやインタビュー記録に基づいて構築された詳細な個人レベルのツインのいずれかです。どちらの設定も、マーケティング実践に運用上最も関連性の高い事例、つまり企業が CRM システム、ロイヤリティ プログラム、および反復調査を通じてすでに蓄積している既存の異種パネル データから詳細な個別の双子を構築することについては話していません。私たちは、ドイツ社会経済パネル (SOEP) から詳細な個人レベルの双子を構築し、3 つのオープンウェイト LLM、正規化されたシャノン エントロピーによってランク付けされた 5 つの累積情報深さ、2 つの埋め込み手法、および 2 つの推論モードをカバーする $3 \times 5 \times 2 \times 2$ 構築方法グリッド全体で評価し、500 人の参加者と 183 の保留された質問に対する 210 万を超える双子の回答をスコアリングしました。ツインの品質は情報の深さに応じて向上しますが、エントロピー四分位 75 パーセントを超えると収益が減少します。エントロピー四分位は、最もパフォーマンスの高い 100 パーセントのセルと比較したコスト効率の高いパレート点として機能します。埋め込みをナラティブなペルソナの概要から過去の応答の生の対話履歴に切り替えると、100% の深さですべてのモデルごとの推論セルのホールドアウト精度が向上します。一方、明示的思考モードでは精度を変えることなく順位相関が向上します。 SOEP ホールドアウト評価セットでは、最良セル精度は 78.8% に達し、Fisher-$z$ 相関は $r = 0.590$ に達します。この調査結果は、ツインベースの市場調査がもはやデータ設計によって制御されているのではなく、アイテムのボリューム、モデルの選択、およびこの論文でマッピングされている建設レベルの少数の決定によって制御されていることを示唆しています。
原文 (English)
Synthetic Personalities: How Well Can LLMs Mimic Individual Respondents Using Socio-Economic Microdata?
LLM-based digital twins promise to scale and accelerate market research, but most published twins are either coarse persona bots conditioned on a few demographic questions or detailed individual-level twins built on purpose-collected surveys and interview transcripts. Neither setup speaks to the operationally most relevant case for marketing practice: building detailed individual twins from the pre-existing heterogeneous panel data that firms already accumulate through CRM systems, loyalty programs, and repeat surveys. We construct detailed individual-level twins from the German Socio-Economic Panel (SOEP) and evaluate them across a $3 \times 5 \times 2 \times 2$ construction-method grid that covers three open-weights LLMs, five cumulative information depths ranked by normalized Shannon entropy, two embedding methods, and two reasoning modes, scoring over 2.1 million twin responses on 500 participants and 183 held-out questions. Twin quality rises with information depth but with diminishing returns past the 75 percent entropy quartile, which acts as a cost-efficient Pareto point relative to the best-performing 100 percent cells. Switching the embedding from a narrative persona summary to a raw dialog history of past responses raises hold-out accuracy in every model-by-reasoning cell at the 100 percent depth, while an explicit thinking mode raises rank-order correlation without moving accuracy. Best-cell accuracy reaches 78.8 percent and Fisher-$z$ correlation reaches $r = 0.590$ on the SOEP held-out evaluation set. The findings suggest that twin-based market research is no longer gated by data design, but by item volume, model selection, and a small set of construction-level decisions that this paper now maps.
Ekka: LLM 推論におけるサイレント エラーの自動診断
LLM サービス フレームワークは、複雑なソフトウェア スタックと膨大な数の最適化によって急速に進化しています。急速な開発プロセスでは、明示的なエラー信号がないまま出力品質が静かに低下するサイレント エラーが発生する可能性があります。高レベルの症状と低レベルの根本原因の間には意味上の大きなギャップがあるため、サイレント エラーの診断は難しいことで知られています。意味的に正しい参照実装の存在を活用することで、サイレント エラーの診断を差分デバッグ問題として効果的に組み立てることができることがわかりました。私たちは、ターゲット フレームワークと参照フレームワークの間の中間実行状態を体系的に調整して比較することにより、根本原因を特定する自動診断システム Ekka を提案します。一般的なサービス提供フレームワークから実際のサイレント エラーのベンチマークを構築しました。Ekka は、pass@1 診断精度が 80%、pass@5 診断精度が 88% で、最先端のシステムを上回るパフォーマンスを示しました。 Ekka は、サービス提供フレームワークからの 4 つの新しいサイレント エラーも診断します。これらはすべて開発者によって確認されています。
原文 (English)
Ekka: Automated Diagnosis of Silent Errors in LLM Inference
LLM serving frameworks are quickly evolving with a complex software stack and a vast number of optimizations. The rapid development process can introduce silent errors where output quality silently degrades without any explicit error signals. Diagnosing silent errors is notoriously difficult due to the substantial semantic gap between the high-level symptoms and the low-level root causes. We observe that diagnosis of silent errors can be effectively framed as a differential debugging problem by leveraging the existence of semantically correct reference implementations. We propose Ekka, an automated diagnosis system that identifies root causes by systematically aligning and comparing intermediate execution states between a target and a reference framework. We constructed a benchmark of real-world silent errors from popular serving frameworks, where Ekka shows 80% pass@1 diagnosis accuracy and 88% pass@5 diagnosis accuracy, outperforming state-of-the-art systems. Ekka also diagnoses 4 new silent errors from serving frameworks, all of which have been confirmed by the developers.
QuBLAST: ブロックレベルの圧縮アプローチとアクティベーション スケーリング戦略を使用して大規模な言語モデルを量子化するためのフレームワーク
LLM は、NLP タスクを解決するための最先端のアルゴリズムになりました。ただし、これらは通常、膨大な計算コストとメモリコストがかかるため、組み込みシステムへの導入が困難になります。これに向けて、最先端の方法では通常、ネットワークのアテンション ブロック全体で均一なポストトレーニング量子化 (PTQ) が採用されており、そのため、同じネットワーク内で異なる量子化レベルを適用する可能性を見落としています。また、アクティベーションの異常値による悪影響を軽減するために複雑な操作を採用しているため、高い計算オーバーヘッドが発生します。さらに、量子化を適用する際に異なる課題を引き起こす、従来とは異なるアテンション アーキテクチャ (状態空間モデルなど) を備えた新興 LLM を使用した評価については考慮されていません。これらの制限に対処するために、LLM のアクティベーション スケーリング戦略を備えたブロック レベルの圧縮アプローチを採用する新しい PTQ 手法である QuBLAST を提案します。ブロックレベルの圧縮アプローチにより、ネットワークのブロック全体で混合精度の量子化が可能になり、同時にアクティベーションスケーリング戦略によりアクティベーション異常値の悪影響が効率的に軽減されます。具体的には、QuBLAST はまず、クロスエントロピー損失分析を通じて、事前トレーニング済みモデル内のさまざまなアテンション ブロックの感度を分析します。 QuBLAST は、この感度分析を活用して、モデル内の各アテンション ブロックの重み量子化レベルを決定します。さらに、QuBLAST は各ブロックのアクティベーション スケーリング マップを採用してアクティベーション値の範囲を制御し、アクティベーション外れ値の悪影響を軽減することで、より良い量子化結果を実現します。実験結果は、QuBLAST が、WikiText-2 および WikiText-103 データセットのパープレキシティ増加 5% 以内のパフォーマンスを維持しながら、さまざまなモデル アーキテクチャ (つまり、Qwen3-8B、Llama3-8B、Mistral v0.1-8B、および Falcon H1R-7B) にわたってモデル サイズを 40% ~ 45.2% 削減することを示しています。
原文 (English)
QuBLAST: A Framework for Quantizing Large Language Models with Block-Level Compression Approach and Activation Scaling Strategy
LLMs have become the state-of-the-art algorithms for solving NLP tasks. However, they typically come at huge computational and memory costs, thus making them difficult to deploy on embedded systems. Toward this, state-of-the-art methods typically employ uniform post-training quantization (PTQ) across attention blocks of the network, hence overlooking the potential of applying different quantization levels in the same network. They also employ complex operations to mitigate the negative impact of activation outliers, hence incurring high computational overheads. Moreover, they have not considered evaluation using emerging LLMs with non-conventional attention architectures (e.g., state-space models), which pose different challenges in applying quantization. To address these limitations, we propose QuBLAST, a novel PTQ methodology that employs block-level compression approach with activation scaling strategy for LLMs. Block-level compression approach enables mixed-precision quantization across blocks of the network, while activation scaling strategy efficiently mitigates the negative impact of activation outliers. Specifically, QuBLAST first analyzes the sensitivity of different attention blocks in the pre-trained model through the cross-entropy loss analysis. QuBLAST leverages this sensitivity analysis to determine the weight quantization level for each attention block in the model. Furthermore, QuBLAST employs the activation scaling map for each block to control the range of activation values and mitigate the negative impact of activation outliers, thereby enabling better quantization results. Experimental results show that, QuBLAST reduces model sizes by 40%-45.2% across different model architectures (i.e., Qwen3-8B, Llama3-8B, Mistral v0.1-8B, and Falcon H1R-7B), while maintaining the performance within 5% perplexity increase for the WikiText-2 and WikiText-103 datasets.
QO ベンチ: 型付きイベント タプルに対するクエリ演算子保持検索の診断
ビジネス、法律、科学コーパスに関する現実世界の質問の多くは、テキストに潜在するレコードに対するデータベース スタイルのクエリの自然言語バージョンです。既存の検索拡張生成 (RAG) システムは、主にセマンティック関連性を重視して最適化されていますが、もっともらしい文章を取得しても、クエリが正しく実行されることは保証されません。型指定されたイベント タプルに対するクエリ演算子の質問応答の診断ベンチマークである QO-Bench を紹介します。このベンチマークは、18 のクエリ テンプレートにわたる 22,984 のニュース記事と 614 の企業イベントを対象とし、785 の質問で評価されました。各ゴールド アンサーは、型指定されたイベント タプルから決定論的に計算され、LLM 判定ではなく完全一致によってゴールド タプルと照合された回答を使用して、再現率によってスコア付けされます。この設計により、結合や交差などのオペレーターレベルの診断が可能になります。 RAG、ReAct RAG、GraphRAG、および情報抽出から SQL を一致した条件下で評価し、取得失敗を分離するためのロングコンテキスト オラクル上限を使用します。インデックス時の保存とクエリ時の実行という 2 軸のフレームワークによって、各パラダイムがどこで失敗するかを予測し、その結果がそれを裏付けています。システムは関連するテキストを取得しますが、オペレータが必要とする型付きの値を破棄します。デプロイ可能なパラダイムのランキングはオペレータ間で逆転し、フィルタ/プロジェクトで類似性の取得が始まり、交差とカウントで SQL への抽出が行われます。決定的な証拠が与えられたとしても、ロングコンテキストのオラクルは飽和状態には程遠いため、検索だけではなくオペレーターの実行が、より強力な応答モデルによって除去されない中心的なボトルネックとなっています。 QO-Bench は、パッセージの関連性からクエリ演算子を保持した検索へと目標を再構成します。
原文 (English)
QO-Bench: Diagnosing Query-Operator-Preserving Retrieval over Typed Event Tuples
Many real-world questions over business, legal, and scientific corpora are natural-language versions of database-style queries over records latent in text. Existing retrieval-augmented generation (RAG) systems are optimized primarily for semantic relevance, but retrieving plausible passages does not guarantee correct query execution. We introduce QO-Bench, a diagnostic benchmark for query-operator question answering over typed event tuples. The benchmark covers 22,984 news articles and 614 corporate events across 18 query templates, evaluated on 785 questions. Each gold answer is deterministically computed from typed event tuples and scored by recall, with answers matched to the gold tuples by exact match rather than an LLM judge. This design enables operator-level diagnosis such as joins and intersection. We evaluate RAG, ReAct RAG, GraphRAG, and information-extraction-to-SQL under matched conditions, with a long-context oracle ceiling to isolate retrieval failure. A two-axis framework -- index-time preservation versus query-time execution -- predicts where each paradigm fails, and the results bear it out: systems retrieve relevant text but discard the typed values operators need, and the deployable paradigm ranking inverts across operators, with similarity retrieval leading on filter/project and extraction-to-SQL on intersection and counting. Even given the gold evidence, a long-context oracle stays far from saturated, so operator execution -- not retrieval alone -- is a core bottleneck that a stronger answer model does not remove. QO-Bench reframes the goal from passage relevance to query-operator-preserving retrieval.
Vul-RAG の再考: オープンウェイト モデルを使用した RAG ベースの脆弱性検出の再現性と再現性
大規模言語モデル (LLM) は、特に検索拡張世代 (RAG) 設定において、自動ソフトウェア脆弱性検出の強力な可能性を示しています。ただし、独自のモデルと API に依存するアプローチの場合、再現性と複製可能性はほとんど解明されていないため、報告された結果が一般化されるのか、それとも特定のモデルの選択に主に依存するのかという疑問が生じます。この研究では、高度な脆弱性知識で LLM を強化する、ソース コード脆弱性検出用の RAG ベースのフレームワークである Vul-RAG の再現性の研究を紹介します。まず、報告されたオープンウェイトベースラインモデルを使用して、完全にローカルでオープンウェイト設定で結果を再現します。次に、コードに特化した、汎用の、さまざまなパラメーター サイズの推論モデルを含む、最近のオープンウェイト LLM の多様なセットに評価を拡張します。この結果は、Vul-RAG の結果がローカル展開下で再現可能であることを裏付けていますが、多少の誤差はあります。評価されたすべてのモデルにわたって、ペアワイズ精度 (脆弱な関数とパッチ適用された関数の両方が正しく分類されたコード ペア) で約 0.30 のパフォーマンスのプラトーが観察されます。特に、このプラトーは、より最近の高度なモデルでも持続しており、モデルの容量の向上だけではパフォーマンスが大幅に向上しないことを示しています。最後に、検出の有効性、モデルの機能、モデルの規模の間の実際的な影響とトレードオフについて説明します。実装と評価のアーティファクトは、https://github.com/hs-esslingen-it-security/revisiting-Vul-RAG で公開されています。
原文 (English)
Revisiting Vul-RAG: Reproducibility and Replicability of RAG-based Vulnerability Detection with Open-Weight Models
Large language models (LLMs) have shown strong potential for automated software vulnerability detection, particularly in retrieval-augmented generation (RAG) settings. However, for approaches relying on proprietary models and APIs, reproducibility and replicability remain largely unexplored, raising the question of whether reported results generalize or depend primarily on specific model choices. In this work, we present a reproducibility study of Vul-RAG, a RAG-based framework for source code vulnerability detection that enhances LLMs with high-level vulnerability knowledge. We first replicate the results in a fully local and open-weights setting using the reported open-weight baseline models. We then extend the evaluation to a diverse set of recent open-weight LLMs, including code-specialized, general-purpose, and reasoning models of varying parameter sizes. The results confirm that the findings of Vul-RAG are reproducible under local deployment, but with minor deviations. Across all evaluated models, we observe a performance plateau at approximately 0.30 pairwise accuracy (code pairs for which both the vulnerable and the patched function are correctly classified). Notably, this plateau persists even for more recent and advanced models, indicating that improvements in model capacity alone do not substantially enhance performance. Finally, we discuss practical implications and trade-offs between detection effectiveness, model capabilities, and model scale. Implementation and evaluation artifacts are publicly available at https://github.com/hs-esslingen-it-security/revisiting-Vul-RAG.
TIDE: テンプレートに基づく反復によるプロアクティブな複数の問題の発見
エージェントは、ドキュメント、ツール、コードのアシスタントとして広く導入されています。ただし、これらは通常、明示的なユーザー要求にのみ作用し、ユーザーが気づいた問題のみを表面化します。一方、他の多くの重要な問題は、より広範なユーザー コンテキスト内で目に見えない形で共存しており、その総数は事前に不明です。私たちはこれを、文脈から複数の隠れた問題を発見するタスクとして組み立てます。その中で、共存する問題を明らかにし、裏付けとなる証拠に基づいて、具体的な行動と組み合わせる必要があります。この目的を達成するために、2 つの補完的なメカニズムを備えたテンプレート主導の反復フレームワークである TIDE を導入します。具体的には、シングルパス予測が最も顕著なケースに基づいて一般的な主張を生み出すという観察に動機づけられて、我々は反復発見を提案します。これは、すでに見つかったものに基づいて条件付けしながらラウンドごとに小さなバッチの候補を表面化し、後続のラウンドで対象範囲を拡大します。思考テンプレートは、以前に解決されたケースから抽出された再利用可能なスキーマであり、どのコンテキスト シグナルに注目し、それらをどのように接続するかを指定し、各予測を認識可能な問題クラスに固定します。 4 つのモデル バックボーンにわたって、パーソナル ワークスペースとソフトウェア リポジトリという 2 つの現実的な設定で TIDE を検証し、タスク カバレッジ、識別、解決に関して、シングルショットおよび並列マルチエージェント ベースラインを超える大幅な向上を示しています。
原文 (English)
TIDE: Proactive Multi-Problem Discovery via Template-Guided Iteration
Agents are widely deployed as assistants over documents, tools, and code. However, they typically act only on explicit user requests, which surface only the problems the user has noticed, while many other important problems coexist, hidden in plain sight, within the broader user context, with their total number unknown in advance. We frame this as the task of discovering multiple hidden problems from context, in which coexisting problems should be uncovered, grounded in supporting evidence, and paired with concrete actions. To this end, we introduce TIDE, a template-guided iterative framework with two complementary mechanisms. Specifically, motivated by the observation that single-pass prediction anchors on the most salient cases and yields generic claims, we propose iterative discovery, which surfaces a small batch of candidates per round while conditioning on what has already been found, so subsequent rounds extend coverage; and thought templates, reusable schemas distilled from previously solved cases that specify what contextual signals to attend to and how to connect them, anchoring each prediction in a recognizable problem class. We validate TIDE on two realistic settings, personal workspaces and software repositories, across four model backbones, showing substantial gains over single-shot and parallel multi-agent baselines on task coverage, identification, and resolution.
現実世界の MCP サーバーにおける記述コードの不一致: 測定、検出、およびセキュリティへの影響
モデル コンテキスト プロトコル (MCP) は、大規模言語モデル (LLM) が外部ツールを利用できるようにする重要な標準として登場しました。このエコシステムでは、LLM は MCP サーバーによって提供される自然言語記述に依存して、関数を選択して実行します。この相互作用は、ツールの説明がその基礎となる実装を忠実に反映していることを暗黙的に前提としていますが、この前提は実際には強制的に検証されるわけではありません。その結果、MCP の導入では、ツールの機能とセキュリティ境界に関する記述がコードの実際の動作と一致しない、記述コードの不一致 (DCI) という問題が発生する可能性があります。このペーパーでは、実際の MCP サーバーにおける DCI の包括的な研究を紹介します。私たちは問題を正式に定義し、機能の不一致や未発表の副作用に及ぶ包括的な分類法を提案します。この分類法に基づいて、私たちは、構造を認識した静的解析とダイレクト リバース アービトレーション プロンプト手法を組み合わせて、実際のコード実装に対してツールの説明を相互検証する自動化フレームワークである DCIChecker を開発しました。このフレームワークを、2,214 台の実世界の MCP サーバーから抽出された 19,200 個の記述コードのペアで構成される大規模なデータセットに適用します。私たちの測定では、DCI が広く普及しており、これらのペアの 9.93% が矛盾を示していることが明らかになりました。さらに、DCI が重大な防御の盲点を生み出し、運用上の失敗からこっそりと悪意のある動作に至るまで、さまざまなリスクを助長することを実証します。最後に、セマンティックな一貫性を強化し、新興エージェント エコシステムの信頼性を高めるための緩和戦略を提案します。
原文 (English)
Description-Code Inconsistency in Real-world MCP Servers: Measurement, Detection, and Security Implications
The Model Context Protocol (MCP) has emerged as a critical standard empowering Large Language Models (LLMs) to utilize external tools. In this ecosystem, LLMs rely on natural language descriptions provided by MCP servers to select and execute functions. This interaction implicitly assumes that tool descriptions faithfully reflect their underlying implementations, while this assumption is not mandatorily verified in practice. As a result, MCP deployments may suffer from a problem named Description-Code Inconsistency (DCI), where a tool's description of its capabilities and security boundaries is not consistent with what the code actually does. In this paper, we present a comprehensive study of DCI in real-world MCP servers. We formally define the problem and propose a comprehensive taxonomy spanning functionality inconsistencies and undeclared side effects. Guided by this taxonomy, we develop DCIChecker, an automated framework that combines structure-aware static analysis with the Direct-Reverse-Arbitration prompting method to cross-validate tool descriptions against actual code implementations. We apply this framework to a large-scale dataset comprising 19,200 description-code pairs extracted from 2,214 real-world MCP servers. Our measurement reveals that DCI is widespread, with 9.93% of these pairs exhibiting inconsistencies. We further demonstrate that DCI creates a critical defense blind spot, facilitating varied risks from operational failures to stealthy malicious behaviors. Finally, we propose mitigation strategies to enforce semantic consistency and enhance the reliability of the emerging agentic ecosystem.
NoRA: 視覚的な一人称の規範的行動推論における根拠のある合理性の評価
LLM とエージェント システムは社会環境にますます導入されており、安全で適切な行動には規範的能力が重要になっています。しかし、既存のアプローチは、規範的判断をテキストのみで評価するか、固定された一連の候補アクションの中から選択することに還元します。私たちはどちらも不十分だと主張します。実際には、エージェントにオプションのメニューが渡されることはありません。彼らは、目に見える事実に基づいて、検証可能な理由によって裏付けられた、合理的な行動をゼロから特定しなければなりません。 NoRA は視覚的な一人称ビデオ ベンチマークであり、モデルが次のアクションの候補を生成し、明示的な事実-理由-アクションのサポート グラフを通じてそれぞれを正当化する必要があります。このベンチマークは、HumanGold-190 および LLMSilver-1230 の分割を含む 1,420 個の注釈付きビデオ クリップで構成されています。各インスタンスは、アクションの調整、事実の根拠、およびサポートのバインディングを通じて評価され、単一の根拠のある合理性スコアに集約されます。私たちは、直接的、計画的、構造化されたプロンプト体制の下で 12 のマルチモーダル システムのベンチマークを行ったところ、現在の VLM はもっともらしいアクションと関連するシーンの事実を頻繁に回収しますが、完全な合理的なアクション スペースを構築し、選択されたアクションを正しいローカル サポートに結び付けるのに一貫して苦労していることがわかりました。 NoRA はこのギャップを測定可能にし、評価の問題を、モデルがアクションを選択できるかどうかから、適切な目に見える理由に基づいて適切なアクションを正当化できるかどうかに移します。
原文 (English)
NoRA: Evaluating Grounded Reasonableness in Visual First-person Normative Action Reasoning
LLMs and agentic systems are increasingly deployed in social environments, making normative competence critical for safe and appropriate behavior. However, existing approaches either assess normative judgment in text alone or reduce it to choosing among a fixed set of candidate actions. We argue both are insufficient. In practice, agents are never handed a menu of options; they must identify a reasonable action from scratch, grounded in visible facts and supported by inspectable reasons. We introduce NoRA, a visual first-person video benchmark that requires models to generate candidate next actions and justify each through an explicit fact-reason-action support graph. The benchmark comprises 1,420 annotated video clips, including HumanGold-190 and LLMSilver-1230 splits. Each instance is evaluated through action alignment, factual grounding, and support binding, aggregated into a single grounded reasonableness score. We benchmark 12 multimodal systems under direct, deliberate, and structured prompting regimes, finding that current VLMs frequently recover plausible actions and relevant scene facts, but consistently struggle to construct the full reasonable action space and bind selected actions to the correct local support. NoRA makes this gap measurable, shifting the evaluation question from whether a model can pick an action to whether it can justify an appropriate action for the right visible reasons.
行動しながら学習: オンライン生涯学習エージェント向けのスキル強化されたテスト時間共進化フレームワーク
生涯学習は、動的で対話型の環境で動作する大規模言語モデル (LLM) エージェントにとって不可欠です。しかし、長期的なタスクのための既存の生涯学習エージェントは通常、推論中の静的パラメータによる離散的なスキルや過去の経験の取得に依存しているため、人間の学習者のようにテスト時のフィードバックを継続的に内面化することができません。このギャップを埋めるために、オンライン生涯学習エージェントのための 2 段階の強化学習フレームワークであるスキル強化テスト時間共進化 (\texttt{LifeSkill}) を提案します。具体的には、複数のスキル条件付きポリシーのロールアウトの平均的な検証者の成功に応じて候補者のスキルに報酬を与えることで、スキル抽出のための直接監督の欠如に対処する検証者ガイド付きスキル学習を設計し、単にテキスト上でもっともらしいスキルではなく、タスクの解決に役立つスキルを生成するようにモデルを奨励します。さらに、オンライン スキル内部化を導入します。これは、スキル条件付きの軌道を報酬シグナルに変換することで、テスト時のインタラクション中にポリシー モデルを継続的に改善します。これにより、エージェントは推論機能をパラメータに直接内部化でき、エクスペリエンス取得によるコンテキストの肥大化を回避できます。 LifelongAgentBench の実験では、既存の生涯エージェントのベースラインと比較して、LifeSkill が平均パフォーマンスを 7 絶対ポイント向上させることが示されています。
原文 (English)
Learning While Acting: A Skill-Enhanced Test-Time Co-Evolution Framework for Online Lifelong Learning Agents
Lifelong learning is essential for Large Language Model (LLM) agents operating in dynamic, interactive environments. However, existing lifelong learning agents for long-horizon tasks typically depend on discrete skill or past experiences retrieval with static parameters during inference, which prevents them from continuously internalizing test-time feedback like human learners. To bridge this gap, we propose Skill-enhanced Test-Time Co-Evolution (\texttt{LifeSkill}), a two-stage reinforcement learning framework for Online Lifelong Learning Agents. Specifically, we design Verifier-Guided Skill Learning that addresses the lack of direct supervision for skill extraction by rewarding candidate skills according to the average verifier success of multiple skill-conditioned policy rollouts, encouraging the model to generate skills that are useful for solving tasks rather than merely plausible in text. Furthermore, we introduce Online Skill Internalization, which continuously improves the policy model during test-time interaction by transforming skill-conditioned trajectories into reward signals. This enables the agent to directly internalize reasoning capabilities into its parameters, avoiding the context bloat of experience retrieval. Experiments on LifelongAgentBench show that LifeSkill improves average performance by 7 absolute points by comparing with existing lifelong agent baselines.
人間が作成したオントロジーからの証明可能で監査可能で安全な LLM エージェント
線形監査可能性を必要とする重要な問題ドメインでの使用を目的とした、LLM エージェント アーキテクチャ Agentic Redux を紹介します。型付きラムダ計算を使用して、適切なドメインで実行すると、Agentic Redux の実行が意味的に正しいことが保証され、すべての決定が追加専用台帳に記録されることを証明します。医療請求のコンプライアンスとセキュリティ脆弱性の開示という、実稼働グレードの 2 つの適切な領域を紹介します。両方のドメインで実行される Agentic Redux の実用的なコードは、サポートされるコード リポジトリで入手できます。また、問題ドメイン上でエージェント フレームワークを作成するための方法論であるオントロジー ファースト エージェント設計も紹介します。この設計では、人間の専門家が基本形式オントロジーを使用して問題ドメインをオントロジー化し、LLM を割り当てて、ドメイン内の問題に対処するためにエージェントと参加者が果たせる役割を導き出します。
原文 (English)
Provably Auditable and Safe LLM Agents from Human-Authored Ontologies
We introduce the LLM agent architecture Agentic Redux, intended for use with nontrivial problem domains that require linear auditability. Using the typed lambda calculus, we prove that, run on appropriate domains, Agentic Redux executions are semantically guaranteed to be correct, with all decisions recorded in an append-only ledger. We present two production-grade appropriate domains, in healthcare billing compliance, and security vulnerability disclosure. Working code for Agentic Redux run on both domains is available in a supporting code repository. We also introduce Ontology-First Agent Design, a methodology for creation of agent frameworks on a problem domain, in which a human expert ontologizes the problem domain with Basic Formal Ontology, and then assigns an LLM to derive roles that agents and humans-in-the-loop can fill, in order to work the problems in the domain.
「あなたの AI テキストは私のものではありません」: 現実的な仮定に基づいた AI 生成のテキスト検出の再定義と評価
AI 生成テキストが広範な社会的リスクを引き起こすことは一般的に認められていますが、AI 生成テキスト検出に関する文献では、何が有害な使用に該当するかについて共通の理解がありません。むしろ、既存のデータセットやアプローチは、多くの場合、独自の基準を定義し、独自の仮定を立てており、場合によっては暗黙的に、現実世界のニーズやアプリケーションと大まかにしか関連していません。このギャップに対処するために、ここでは AI によって生成されたテキストとその特徴に関するさまざまな概念を体系的に定義します。これらを研究するために、私たちは AITDNA を収集します。AITDNA は、人間と機械が共同構築したテキストの新しいベンチマークであり、編集全体や AI との対話履歴など、詳細な生成情報が注釈付けされています。私たちはさまざまな機械生成のテキスト検出器をベンチマークしましたが、多くの場合、それらは特定の概念に対してのみ良好に機能し、広範な検出器としては機能しないことがわかりました。私たちはコードとデータを公開します。
原文 (English)
'Your AI Text is not Mine': Redefining and Evaluating AI-generated Text Detection under Realistic Assumptions
Although it is generally agreed that AI-generated text poses a broad societal risk, there is no common understanding in the AI-generated text detection literature on what constitutes harmful use. Rather, existing datasets and approaches often define their own criteria and make their own assumptions, sometimes implicitly, and often only loosely related to real-world needs and applications. To address this gap, we here systematically define various notions of AI-generated text and their characteristics. To study these, we collect AITDNA - a new benchmark of human-machine co-constructed texts that is annotated with detailed genesis information, such as the entire edit and AI-interaction history. We benchmark various machine-generated text detectors and find that they often only perform well for specific notions but not as broad detectors. We release code and data publicly.
生物医学的視覚言語モデルを迅速に調整するための幾何学を意識した蒸留
現在のプロンプトベースおよびアダプターベースのビジョン言語モデル (VLM) の調整は、臨床データの感度が凍結されたバックボーンを優先し、アノテーションが制限されている医療画像処理にとって魅力的です。ただし、これらの方法は通常、グラウンドトゥルース クラスのみを最適化し、他のすべてのクラスを同様に不正確なものとして扱い、臨床的に意味のあるクラス関係を無視し、限定された監視設定では不安定な決定境界を生成します。私たちは、クラス間ジオメトリを尊重しながらグランド トゥルースを保持する指向性ターゲットを生成するために、クラス関係構造を教師に注入する新しいフレームワークである Omni-Geometry Knowledge Distillation (OGKD) を提案します。これらのターゲットを使用して、2 つの蒸留損失を開発します。グローバル ジオメトリ認識蒸留 (GAD) はグローバル イメージ トークン上で動作し、ラベルガイド付きジオメトリ蒸留 (LGD) は同じジオメトリを注意深いパッチ トークンに適用して、きめの細かい位置合わせを改善します。基礎から新規および少数ショットの評価のために広く使用されている 11 の医療データセットでの包括的な実験と分析を通じて、当社の OGKD は大幅に優れたパフォーマンスを達成し、これまでのすべての最先端の VLM 適応対応製品と比較して、平均絶対ゲイン 1.7% ~ 2.8% により精度を一貫して向上させています。また、目に見えないクラスに対しても堅牢に一般化し、他のアプローチよりも信頼性の高い予測を生成します。私たちのコードは https://github.com/tientrandinh/OGKD で入手できます。
原文 (English)
Geometry-Aware Distillation for Prompt Tuning Biomedical Vision-Language Models
Current prompt-based and adapter-based tuning of vision-language models (VLMs) is attractive for medical imaging, where clinical data sensitivity favors frozen backbones and annotations are limited. However, these methods typically optimize only the ground-truth class, treating all other classes as equally incorrect, ignoring clinically meaningful class relations and yielding unstable decision boundaries in limited-supervision settings. We propose Omni-Geometry Knowledge Distillation (OGKD), a new framework that injects class-relation structure into the teacher to produce directional targets that preserve the ground truth while respecting inter-class geometry. Using these targets, we develop two distillation losses: Global Geometry-Aware Distillation (GAD) operates on the global image token, and Label-Guided Geometry Distillation (LGD) applies the same geometry to attentive patch tokens to improve fine-grained alignment. Across comprehensive experiments and analyses on 11 widely-used medical datasets for base-to-novel and few-shot evaluations, our OGKD achieves substantially better performance, consistently improving accuracy by an average absolute gain of 1.7%-2.8% over all prior state-of-the-art VLM adaptation counterparts. It also robustly generalizes to unseen classes and yields more reliable predictions than other approaches. Our code is available at https://github.com/tientrandinh/OGKD.
ルーブリックベースの強化学習における報酬ハッキングの再現、分析、検出
ルーブリックベースの強化学習 (RL) は、LLM-as-a-Judge (LaaJ) を使用して、報酬としてルーブリックに従ってモデルの出力を採点します。ただし、政策モデルは裁判官の潜在的なバイアスを悪用し、報酬のハッキングや非効果的または危険なトレーニング結果につながる可能性があります。現実のルーブリックベースの RL では、このようなハッキング行為は多くの場合微妙であり、複数の裁判官のバイアスと絡み合っているため、分析、検出、軽減することが困難です。このペーパーでは、ルーブリックベースの RL のための制御可能なハッキング環境である CHERRL を紹介します。既知のバイアスを LaaJ に注入することで、CHERRL は報酬ハッキングの安定した再現、報酬の発散の明確な観察、およびハッキングの開始の正確な特定を可能にします。これは、ルーブリック ベースの RL における報酬ハッキングのメカニズムと緩和を研究するためのクリーンな実験テストベッドを提供します。その有用性を実証するために、発見可能性と悪用可能性の観点からさまざまな裁判官のバイアスを分析し、トレーニングログから報酬ハッキングの開始を自動的に検出するためのエージェントベースのシステムを調査します。コードと環境は https://github.com/THUAIS-Lab/CHERRL で公開されています。
原文 (English)
Reproducing, Analyzing, and Detecting Reward Hacking in Rubric-Based Reinforcement Learning
Rubric-based reinforcement learning (RL) uses an LLM-as-a-Judge (LaaJ) to score model outputs according to rubrics as rewards. However, policy models may exploit latent biases in the judge, leading to reward hacking and ineffective or unsafe training outcomes. In real-world rubric-based RL, such hacking behaviors are often subtle and entangled with multiple judge biases, making them difficult to analyze, detect, and mitigate. In this paper, we introduce CHERRL, a controllable hacking environment for rubric-based RL. By injecting known biases into LaaJ, CHERRL enables stable reproduction of reward hacking, explicit observation of reward divergence, and precise identification of hacking onset. This provides a clean experimental testbed for studying the mechanisms and mitigations of reward hacking in rubric-based RL. To demonstrate its utility, we analyze different judge biases from the perspectives of discoverability and exploitability, and explore an agent-based system for automatically detecting reward hacking onset from training logs. The code and environment are publicly available at https://github.com/THUAIS-Lab/CHERRL.
プロンプトからプロセスまで: AI ソフトウェア開発エージェントをサポートするフレームワークのプロセス分類と比較評価
プログラミング用の AI ツールは、もはや単なるオートコンプリートやチャット アシスタントではありません。プロセス、役割、成果物、検証を備えた開発フレームワークとして組織化されています。最近の調査では、ソフトウェア エンジニアリングのためのエージェントと LLM がマッピングされていますが、これらの機能をプロセスに変える運用フレームワークを中心とした調査は行われていません。私たちは、機能的包含基準とトラクション測定を使用して一次ソースの直接検索を実行し、GitHub Spec Kit、OpenSpec、BMAD Method、Get Shit Done (GSD)、Spec Kitty、Reversa の 6 つのフレームワークを選択しました。それぞれが異なるパスを通じて AI 開発を攻撃します。つまり、完全および軽量バリアントでの仕様駆動型開発、エージェント駆動のアジャイル プランニング、エージェントを介したコンテキスト エンジニアリング、ワークツリーの分離とレビュー、レガシー システムからの運用仕様の回復です。私たちの中心的な貢献は、仕様、コンテキスト、役割、実行、検証、移植性という 6 次元のプロセス分類と、プロセスを複製可能なツールに変えるスコアリング ルーブリックです。これを 6 つのフレームワークとサンプル外のケースである Spec-Flow に適用します。 2 つの結果が際立っています。すでに何らかのプロセスを採用しているフレームワークの中には収束が見られます。分離されたプロンプトは中心性を失い、永続的な成果物、作業契約、トレーサビリティ、人間によるレビューが曖昧さを減らし、エージェントを調整するメカニズムになります。また、6 つの側面すべてを強力にカバーするフレームワークはなく、プロセスの深さとエージェント間の移植性の間の構造的なトレードオフが明らかになります。また、繰り返し発生するリスク、つまり仕様とコードの間のずれ、生成されたアーティファクトへの過剰な信頼、コミュニティ拡張の脆弱性、プラットフォームへの依存、プロセス全体のベンチマークの欠如なども見つかりました。最後に、中間品質の指標、コンテキスト ガバナンス、インストールのセキュリティと再現性に焦点を当てた、実証的評価のための研究課題を取り上げます。
原文 (English)
From Prompt to Process: a Process Taxonomy and Comparative Assessment of Frameworks Supporting AI Software Development Agents
AI tools for programming are no longer just autocomplete or chat assistants: they organize themselves as development frameworks, with process, roles, artifacts and verification. Recent surveys map agents and LLMs for software engineering, but a study centered on the operational frameworks that turn these capabilities into process is missing. We ran a directed search of primary sources, with a functional inclusion criterion and traction measurement, and selected six frameworks: GitHub Spec Kit, OpenSpec, BMAD Method, Get Shit Done (GSD), Spec Kitty and Reversa. Each attacks AI development through a different path: spec-driven development in full and lightweight variants, agent-driven agile planning, context engineering over the agent, worktree isolation and review, and recovery of operational specifications from legacy systems. Our central contribution is a six-dimension process taxonomy: specification, context, roles, execution, validation and portability, with a scoring rubric that turns it into a replicable instrument. We apply it to the six frameworks and an out-of-sample case, Spec-Flow. Two results stand out. Among frameworks that already adopt some process there is convergence: the isolated prompt loses centrality, and persistent artifacts, work contracts, traceability and human review become mechanisms that reduce ambiguity and coordinate agents. And no framework strongly covers all six dimensions, exposing a structural trade-off between process depth and portability across agents. We also found recurring risks: drift between specification and code, excessive trust in generated artifacts, fragility of community extensions, platform dependence and a lack of benchmarks for the complete process. We close with a research agenda for empirical evaluation, focused on intermediate-quality metrics, context governance, installation security and reproducibility.
DeliChess: チェスのパズル解決における熟議のための多者対話データセット
多者間の対話は、協調的な推論と意思決定を研究するための重要な設定ですが、既存のデータセットは、構造化された詳細な複雑な推論タスクに焦点を当てていることはほとんどありません。 DeliChess は、参加者が協力して多肢選択のチェス パズルを解くグループ審議対話の新しいデータセットです。各グループは最初に個別にパズルを完成させ、次に修正された集合回答を提出する前に、複数の当事者によるディスカッションに参加します。データセットには、完全なトランスクリプト、ディスカッション前後の選択肢、パズルの難易度と動きの品質に関するメタデータを含む 107 の対話が含まれています。私たちはチェス エンジンの評価に基づいた 3 つの指標を使用してパフォーマンスを評価し、熟慮することでグループの精度が大幅に向上することがわかりました。さらに、事前の審議データに基づいて訓練された分類器を使用して、精査的な発話(つまり、提案、正当化、または戦略的考察を引き出すメッセージ)の役割を分析します。プロービングにより、ディスカッション後のグループのパフォーマンスはより変動しますが、一貫してパフォーマンスの向上につながるわけではありません。私たちのデータセットは、グループの推論、対話のダイナミクス、および明確に定義された戦略的領域における異なる視点や意見の解決をモデル化するための豊富なテストベッドを提供します。
原文 (English)
DeliChess: A Multi-party Dialogue Dataset for Deliberation in Chess Puzzle Solving
Multi-party dialogue is a critical setting for studying collaborative reasoning and decision-making, yet existing datasets rarely focus on structured, in-depth complex reasoning tasks. We introduce DeliChess, a novel dataset of group deliberation dialogues in which participants collaboratively solve multiple-choice chess puzzles. Each group first completes the puzzle individually, then engages in a multi-party discussion before submitting a revised collective answer. The dataset includes 107 dialogues with full transcripts, pre- and post-discussion choices, and metadata on puzzle difficulty and move quality. We evaluate performance using three metrics based on chess engine evaluations, and find that deliberation significantly improves group accuracy. We further analyse the role of probing utterances (i.e., messages that elicit proposals, justifications, or strategic reflection) using a classifier trained on prior deliberation data. While probing makes group performance more variable after discussion, it does not consistently lead to better performance. Our dataset offers a rich testbed for modelling group reasoning, dialogue dynamics, and the resolution of differing perspectives and opinions in a well-defined strategic domain.
エージェント追跡から信頼へ: LLM エージェントにおける証拠追跡と実行来歴
大規模言語モデル (LLM) ベースのエージェントは、外部ツール、検索システム、メモリ モジュール、環境、その他のエージェントと対話することで、複雑なタスクを解決することが増えています。これらの機能により、エージェントの自律性が拡張されますが、エージェントの動作の検証、デバッグ、監査が難しくなります。最終回答の精度だけでは、出力がどのように生成されたか、各主張を裏付ける証拠は何か、ツールの呼び出しが正当化されたかどうか、記憶が後の決定にどのように影響したか、実行の失敗がどこで発生したかを説明することはできません。証拠追跡と実行来歴は、取得された証拠、ツール出力、メモリ項目、環境観察、中間クレーム、アクション、および最終的な回答がエージェントの実行全体を通じてどのように関連するかをモデル化することで、このギャップに対処します。この調査は、LLM エージェントにおける証拠の追跡と実行の出自に関する体系的なレビューと概念的な枠組みを提供します。私たちは、検索根拠、クレームサポート、ツール使用の安全性、メモリリネージ、可観測性、デバッグ、監査、リカバリを結び付ける、統一された来歴の観点に基づいて関連作業を整理します。トレースソース、証拠と実行単位、来歴関係、トレースの粒度とタイミング、表現形式、信頼関数を網羅する分類法を導入します。私たちは、出所の表現、証拠の帰属、ツール使用の出所、実行時のガードレール、出所を伴うメモリ、トレースベースの可観測性、障害診断など、主要な方法論の方向性を検討します。また、既存のベンチマーク、データセット、評価指標を来歴関連の機能にマッピングし、評価が最終的な回答の正しさからプロセスレベルの説明責任にどのように移行できるかについても説明します。最後に、統合トレース スキーマ、クレーム レベルおよびセマンティックの出所、出所を意識した安全メカニズム、現実的な実行トレース ベンチマーク、リカバリ指向の評価、プライバシーを意識した監査インフラストラクチャなどの未解決の課題について概説します。
原文 (English)
From Agent Traces to Trust: Evidence Tracing and Execution Provenance in LLM Agents
Large language model (LLM)-based agents increasingly solve complex tasks by interacting with external tools, retrieval systems, memory modules, environments, and other agents. These capabilities expand agent autonomy, but also make agent behavior harder to verify, debug, and audit. Final-answer accuracy alone cannot explain how an output was produced, which evidence supported each claim, whether tool calls were justified, how memory influenced later decisions, or where execution failures originated. Evidence tracing and execution provenance address this gap by modeling how retrieved evidence, tool outputs, memory items, environment observations, intermediate claims, actions, and final answers are connected throughout agent execution. This survey provides a systematic review and conceptual framework for evidence tracing and execution provenance in LLM agents. We organize related work around a unified provenance perspective that connects retrieval grounding, claim support, tool-use safety, memory lineage, observability, debugging, audit, and recovery. We introduce a taxonomy covering trace sources, evidence and execution units, provenance relations, tracing granularity and timing, representation forms, and trust functions. We review key methodological directions, including provenance representation, evidence attribution, tool-use provenance, runtime guardrails, provenance-bearing memory, trace-based observability, and failure diagnosis. We also map existing benchmarks, datasets, and evaluation metrics to provenance-related capabilities, and discuss how evaluation can move from final-answer correctness toward process-level accountability. Finally, we outline open challenges, including unified trace schemas, claim-level and semantic provenance, provenance-aware safety mechanisms, realistic execution-trace benchmarks, recovery-oriented evaluation, and privacy-aware audit infrastructure.
SharedRequest: 大規模言語モデルのプライバシー保護モデルに依存しない推論
ChatGPT などのパブリック大規模言語モデル (LLM) の広範な展開に伴い、ユーザー プロンプトのプライバシーを保護することがますます重要な問題になっています。既存のプライバシー保護推論方法は、実用性または効率性を犠牲にしており、多くの場合、互換性を制限するモデル固有の変更が必要です。この論文では、個別のプロンプト レベルではなくバッチ レベルでプライバシー保護を再定式化する、プライバシー保護 LLM 推論のためのモデルに依存しないフレームワークである SharedRequest を提案します。重要なアイデアは、元のプロンプトとノイズの多いバリアントを混合することで機密情報を曖昧にし、同時に意味的に同等の命令をグループ化して、LLM 応答品質への影響を最小限に抑えながらクエリの大規模なバッチにわたる推論コストを償却することです。この設計は LLM アーキテクチャから独立しているため、モデル パラメーターへのアクセスやアーキテクチャの変更は必要ありません。経験的な結果は、SharedRequest が以前の差分プライバシー ベースラインと比較して $20\%$ 以上高い実用性を達成し、その共有プロンプト メカニズムにより、非バッチ推論と比較してクエリ コストを最大 $5\time$ 削減することを示しています。
原文 (English)
SharedRequest: Privacy-Preserving Model-Agnostic Inference for Large Language Models
With the widespread deployment of public large language models (LLMs) such as ChatGPT, protecting user prompt privacy has become an increasingly critical issue. Existing privacy-preserving inference methods sacrifice either utility or efficiency, and often require model-specific modifications that limit their compatibility. In this paper, we propose SharedRequest, a model-agnostic framework for privacy-preserving LLM inference that reformulates privacy protection at the batch level rather than the individual-prompt level. The key idea is to obscure sensitive information by mixing original prompts with noisy variants, while grouping semantically equivalent instructions to amortize the inference cost over a large batch of queries with minimal impact on LLM response quality. This design is independent of the LLM architecture, requiring no access to model parameters or architectural modification. Empirical results demonstrate that SharedRequest achieves over $20\%$ higher utility compared to prior differential privacy baselines, and its shared-prompt mechanism reduces query cost by up to $5\times$ compared to non-batched inference.
M$^3$Eval: 認知に基づいたビデオタスクによるマルチモーダル記憶評価
マルチモーダル モデルが長時間ビデオの理解に向けて進歩するにつれ、メモリが重要な能力として浮上します。ビデオ データセットとベンチマークの開発には多大な努力が払われているにもかかわらず、既存の研究は主に知覚と推論に焦点を当てており、どのモデルが保持するか、情報がどの程度忠実に保存されるか、干渉下でもメモリがどの程度堅牢に保たれるかなど、記憶を体系的に評価することはありません。このギャップに対処するために、マルチモーダル モデルでさまざまなメモリ次元を調査するための最初の包括的な評価フレームワークおよびベンチマークである M$^3$Eval を導入します。認知心理学に基づいた当社のデザインは、記憶の重要な側面を分離する慎重に構築されたタスクを特徴としています。 M$^3$Eval を活用して、代表的なマルチモーダル モデルにわたって広範な実験を実施し、一貫した弱点と独特の動作を明らかにしました。私たちは、並列ビデオストリームを処理する際にモデルがもつれの解けた表現を維持するのに苦労し、人間の記憶で観察されるものとは大幅に異なる干渉パターンを示し、記憶ソースを時間領域よりも空間領域でより確実に接地し、限られた記号記憶を実証していることを発見しました。まとめると、私たちのベンチマークは将来の研究のための貴重なリソースを提供しますが、私たちの調査結果は、メモリが基本的でありながらまだ研究されていない機能であることを強調し、マルチモーダルモデルでより効果的なメモリメカニズムを設計するための洞察を提供します。コードとデータセットは https://pku-value-lab.github.io/m3eval-homepage で入手できます。
原文 (English)
M$^3$Eval: Multi-Modal Memory Evaluation through Cognitively-Grounded Video Tasks
As multi-modal models advance towards long-form video understanding, memory emerges as a critical capability. Despite substantial efforts in developing video datasets and benchmarks, existing works primarily focus on perception and reasoning, without systematically evaluating memory: what models retain, how faithfully information is preserved, and how robust memory remains under interference. To address this gap, we introduce M$^3$Eval, the first comprehensive evaluation framework and benchmark for probing different memory dimensions in multi-modal models. Grounded in cognitive psychology, our design features carefully constructed tasks that isolate key aspects of memory. Leveraging M$^3$Eval, we conduct extensive experiments across representative multi-modal models, revealing consistent weaknesses and distinctive behaviors. We find that models struggle to maintain disentangled representations when processing parallel video streams, exhibit interference patterns differing substantially from those observed in human memory, ground memory sources more reliably in the spatial domain than the temporal domain, and demonstrate limited symbolic memory. Collectively, our benchmark provides a valuable resource for future research, while our findings highlight memory as a fundamental yet underexplored capability and offer insights for designing more effective memory mechanisms in multi-modal models. Our code and dataset are available at https://pku-value-lab.github.io/m3eval-homepage.
DAR: エージェントティックハーネスを使用したデオンティック推論
義務的推論とは、法律に基づく納税額の計算や移民控訴の結果の決定など、事例固有の事実に明示的なルールとポリシーを適用することで質問に答えるタスクです。 LLM ベースの義務論的推論の主な技術的課題は、関連するルールセットが長く相互参照される可能性があるため、モデルが特定の推論ステップに必要なルールを見つけられない可能性があることです。 Deontic Agentic Reasoning (DAR) を導入します。これは、モデルがオンデマンドで法令と対話するエージェント推論セットアップです。 DeonticBench のハード サブセット上の複数のハーネスで DAR を評価します。これらの設定全体で、エージェント ハーネスは義務論的推論タスクの最前線を押し広げることができることがわかりましたが、改善は均一ではありません。弱いモデルは、はるかに多くのトークンを消費しながら、数値タスクでパフォーマンスが低下することがよくあります。
原文 (English)
DAR: Deontic Reasoning with Agentic Harnesses
Deontic reasoning is the task of answering questions by applying explicit rules and policies to case-specific facts, for example computing tax liability under a statute or determining the outcome of an immigration appeal. A key technical challenge for LLM-based deontic reasoning is that the relevant ruleset can be long and cross-referenced, so models may still fail to locate the rules needed for a particular reasoning step. We introduce Deontic Agentic Reasoning (DAR), an agentic reasoning setup in which the model interacts with the statutes on demand. We evaluate DAR under multiple harnesses on hard subsets of DeonticBench. Across these settings, we find that agentic harnesses can push the frontier on deontic reasoning tasks, but improvements are not uniform: weaker models often degrade on numerical tasks while consuming far more tokens.
ロバスト推論蒸留のための不変勾配アライメント
大規模言語モデル (LLM) はショートカット学習に悩まされます。論理構造が同一であっても、意味論的表面がトレーニング データと異なる分布外 (OOD) 入力では体系的に失敗します。これは、思考連鎖の推論をより小さな生徒に伝える知識の蒸留パイプラインを弱体化させます。我々は、次の 3 つの革新によって、意味的に多様であるが論理的に同型のサンプル間で勾配更新を調整するトレーニング フレームワークである Invariant Gradient Alignment (IGA) を紹介します。(i) 論理異性体セット。異なる意味論的ドメイン (数学、医学、法律、科学) にわたって同一の論理構造を共有する問題のグループ。 (ii) 微分可能な \emph{Continuous Gradient Conflict Mask}。不変の方向を維持しながら、ドメイン間の勾配分散が大きいパラメータの次元を抑制します。 (iii) マスクされた勾配の切り詰められた SVD 射影を LoRA の低ランク多様体に戻し、パラメータ効率を全体的に維持します。理論的には、IGA は ERM よりも厳しい OOD 一般化境界を生成し、異性体ドメインの数に応じて拡張し、穏やかな規則性の下で標準 SGD レートに収束します。経験的に、IGA は 4 つのベンチマーク全体で 8 つのベースラインを上回り、精度が ERM-SFT よりも最大 14.3 pp 向上し、論理整合性スコアが 0.031 対 0.142 で、表現の不変性が 4 倍向上しました。
原文 (English)
Invariant Gradient Alignment for Robust Reasoning Distillation
Large language models (LLMs) suffer from shortcut learning: they systematically fail on out-of-distribution (OOD) inputs whose semantic surface differs from training data, even when the logical structure is identical. This undermines knowledge distillation pipelines that transfer chain-of-thought reasoning to smaller students. We introduce Invariant Gradient Alignment (IGA), a training framework that aligns gradient updates across semantically diverse but logically isomorphic examples via three innovations: (i) Logical Isomer Sets, groups of problems sharing identical logical structure across distinct semantic domains (mathematics, medicine, law, science); (ii) a differentiable \emph{Continuous Gradient Conflict Mask}, that suppresses parameter dimensions with high cross-domain gradient variance while preserving invariant directions; and (iii) a truncated SVD projection of the masked gradient back onto the LoRA low-rank manifold, maintaining parameter efficiency throughout. Theoretically, IGA yields tighter OOD generalization bounds than ERM, scaling with the number of isomer domains, and converges at the standard SGD rate under mild regularity. Empirically, IGA outperforms eight baselines across four benchmarks with accuracy gains up to 14.3 pp over ERM-SFT and a Logical Consistency Score of 0.031 versus 0.142 -- a fourfold improvement in representational invariance.
言語モデルを使用した研究論文のタイトルの自動生成
研究論文のタイトルは、その主なアイデアと、場合によっては結論を明確かつ簡潔に伝えます。適切なタイトルを選択することは多くの場合困難ですが、自動タイトル生成は著者のこの作業を支援します。この研究では、オープンウェイトの事前トレーニング済みの大規模言語モデルを使用して、抄録から論文のタイトルを生成する手法を提案します。私たちは CSPubSum および LREC-COLING-2024 データセットを使用し、社会科学の Springer ジャーナル 4 誌から厳選された新しいデータセット SpringerSSAT を導入します。さらに、タイトルの生成には GPT-3.5-turbo をゼロショット設定で使用します。モデルのパフォーマンスは、ROUGE、METEOR、MoverScore、BERTScore、および SciBERTScore メトリックを使用して評価されます。私たちの実験では、微調整された PEGASUS-large が、ほとんどの指標において、微調整された LLaMA-3-8B やゼロショット GPT-3.5-turbo などの他のモデルよりも優れていることがわかりました。さらに、ChatGPT が創造的な論文タイトルを生成できることを実証します。全体として、AI によって生成されたタイトルは一般に適切で信頼性があります。
原文 (English)
Automatic Generation of Titles for Research Papers Using Language Models
The title of a research paper conveys its primary idea and, occasionally, its conclusions in a clear and concise manner. Choosing an appropriate title is often challenging, and automated title generation can assist authors in this task. In this work, we propose a technique to generate paper titles from abstracts using open-weight pre-trained and large language models. We use the CSPubSum and LREC-COLING-2024 datasets and introduce a new dataset, SpringerSSAT, curated from four Springer journals in the social sciences. Additionally, we use GPT-3.5-turbo in a zero-shot setting to generate titles. Model performance is evaluated with ROUGE, METEOR, MoverScore, BERTScore, and SciBERTScore metrics. Our experiments show that fine-tuned PEGASUS-large outperforms other models, including fine-tuned LLaMA-3-8B and zero-shot GPT-3.5-turbo, across most metrics. We further demonstrate that ChatGPT can generate creative paper titles. Overall, AI-generated titles are generally appropriate and reliable.
言語モデルのための算術教育学
私たちは、人間の数学教育学の方法が言語モデルのトレーニングを算術推論に導くことができるかどうかを調査します。 GASING メソッド (トークン生成の因果関係に沿った左から右への手順で基本的な算術計算を解くインドネシアの教育学) に基づいて、各操作を計算手順として運用し、その実行トレースが自然言語の思考連鎖 (CoT) 監視にシリアル化されます。インドネシア語用の音節凝集型 TOBA トークナイザーを備えた小型 GPT-2 デコーダー (86M パラメーター) は、強化学習や報酬ベースの最適化を行わずに、次のトークンの予測目標のみを使用して、このデータに基づいて最初からトレーニングされます。トレーニングのモニタリングにより、3 つの異なる学習段階が明らかになり、機構分析 (CoT 情報グラフへの注意マスキング介入、残差ストリームの調査、ロジットレンズ検査) から、モデルが最初に手続き型経路を内部化し、その後、明示的なステップごとの計算を行わずに中間結果を取得する連想的な「暗算」能力を開発することが示されました。トレーニングされたモデルは、保留された問題に対して 80% 以上の精度に達し、大幅に大規模な言語モデルに対して競争力のあるパフォーマンスを達成しました。これは、対象を絞った教育学的に根拠のあるトレーニングにより、小規模でも強力で経済的な算術能力を生み出すことができることを示しています。
原文 (English)
Arithmetic Pedagogy for Language Models
We investigate whether methods of human mathematics pedagogy can guide the training of language models toward arithmetic reasoning. Building on the GASING method -- an Indonesian pedagogy that solves basic arithmetic through a left-to-right procedure aligned with the causal order of token generation -- we operationalize each operation as a computational procedure whose execution trace is serialized into natural-language Chain-of-Thought (CoT) supervision. A small GPT-2 decoder (86M parameters) with a syllabic-agglutinative TOBA tokenizer for Indonesian is trained from scratch on this data using only a next-token prediction objective, without reinforcement learning or reward-based optimization. Monitoring training reveals three distinct learning phases, and mechanistic analyses -- attention-masking interventions on the CoT information graph, residual-stream probing, and logit-lens inspection -- show that the model first internalizes a procedural pathway and subsequently develops an associative, ``mental-arithmetic'' capacity that retrieves intermediate results without explicit step-by-step computation. The trained model reaches over 80% accuracy on held-out problems and attains competitive performance against substantially larger language models, indicating that targeted, pedagogically grounded training can yield strong and economical arithmetic capability at small scale.
子供の自己中心的なインプットによる継続的な視覚的および言語的学習
子どもたちは、時間的に構造化された継続的な自己中心的な経験の流れから言葉の意味を学びます。最近の研究では、ニューラルネットワークは子供の自己中心的なビデオ録画からも単語参照マッピングを学習できることが示されているが、それらはシャッフルされたデータを数百エポックにわたって循環しており、子供たちが実際に環境に遭遇する様子とは対照的である。私たちは、SAYCam データセットを単一の時系列パスで処理し、ストリーミング視覚表現学習と画像テキスト対比目標を組み合わせた継続的マルチモーダル学習フレームワークである BabyCL を紹介します。 BabyCL は、ストリームの多段階の時間的セグメンテーションと、ビジュアル履歴とマルチモーダル履歴を個別に管理するデュアル リプレイ バッファーを組み合わせ、共有バックボーン上で 3 つの対照的な損失を使用して共同トレーニングされます。一致した最適化予算の下で、BabyCL は SAYCam Labeled-S 4AFC ベンチマークでストリーミング学習ベースラインを上回り、オフライン トレーニングの上限との差を大幅に狭めます。アブレーションは、オンライン時間セグメンテーション ウィンドウの長さとリプレイ バッファーの排除ルールに対してゲインが堅牢であることを示しています。まとめると、これらの結果は、子供の実際の経験にはるかに近い訓練条件下で、意味のある単語参照マッピングが現れる可能性があることを示しています。
原文 (English)
Continual Visual and Verbal Learning Through a Child's Egocentric Input
Children learn the meanings of words from a continuous, temporally structured stream of egocentric experience. Recent work shows that neural networks can also learn word-referent mappings from a child's egocentric video recordings, but they cycle through the shuffled data for hundreds of epochs, contrasting with how children actually encounter their environment. We introduce BabyCL, a continual multimodal learning framework that processes the SAYCam dataset in a single chronological pass, combining streaming visual representation learning with an image-text contrastive objective. BabyCL combines a multi-stage temporal segmentation of the stream with a dual replay buffer that independently manages visual and multimodal histories, and it is jointly trained with three contrastive losses on a shared backbone. Under a matched optimization budget, BabyCL outperforms streaming learning baselines on the SAYCam Labeled-S 4AFC benchmark, substantially narrowing the gap to an upper bound of offline training. Ablations show that the gains are robust to the length of the online temporal segmentation window and the eviction rule of the replay buffer. Together, these results show that meaningful word-referent mappings can emerge under training conditions much closer to a child's actual experience.
オーディオインタラクションモデル
オーディオは本質的にインタラクティブなモダリティですが、今日の大規模オーディオ言語モデル (LALM) はオフラインであり、ストリーミング オーディオ モデルはそれぞれストリーミング ASR や音声チャットなどの単一タスクのみを処理します。それらを 1 つのオンライン LALM に統合する時が来ました。LALM は、常時オンの知覚、決定、応答ループを通じて、音、環境、指示をリアルタイムで聞き、その場で反応するモデルです。私たちはこの体制をオーディオ インタラクション モデルとして形式化し、オーディオ インタラクションで実現します。これは、オフライン タスクの実行を保持しながら、対話からフル ボイス チャットに至るまでのオンラインの一般的な音声指示を追加し、ストリームのセマンティクスからいつ応答するかを決定する統合ストリーミング モデルです。これを可能にするために、ストリーミングネイティブのデータ構築、理解を意識したトレーニング、安定したリアルタイムインタラクションのための非同期低遅延推論を通じて、データからトレーニング、デプロイメントに至るまで、認識・決定・応答ループをエンドツーエンドでインスタンス化するフレームワークである SoundFlow を提案します。さらに、7 つの基本能力と 28 のサブタスクにわたる 260 万項目のストリーミング コーパスである StreamAudio-2M と、プロアクティブな音声介入を評価するための Proactive-Sound-Bench を構築します。 8 つのベンチマークにわたって、Audio-Interaction は主流のオーディオ タスクで競争力のあるパフォーマンスを維持しながら、リアルタイム ASR、ストリーミング オーディオ命令のフォロー、プロアクティブ ヘルプなど、オフライン LALM ではアクセスできない機能を解放します。
原文 (English)
Audio Interaction Model
Audio is an inherently interactive modality, yet today's Large Audio Language Models (LALMs) are offline, and streaming audio models each handle only a single task such as streaming ASR or voice chatting. It is time to unify them into one online LALM: a model that, through an always-on perceive-decide-respond loop, listens to sound, environment, and instructions in real time and reacts on the fly. We formalize this regime as the Audio Interaction Model, and realize it with Audio-Interaction, a unified streaming model that retains offline task execution while adding online general audio instruction following, from dialogue to full voice chatting, deciding when to respond from the semantics of the stream. To enable this, we propose SoundFlow, a framework that instantiates the perceive-decide-respond loop end to end, from data to training to deployment, through streaming-native data construction, comprehension-aware training, and asynchronous low-latency inference for stable real-time interaction. We further construct StreamAudio-2M, a 2.6M-item streaming corpus spanning 7 fundamental abilities and 28 sub-tasks, and Proactive-Sound-Bench for evaluating proactive audio intervention. Across 8 benchmarks, Audio-Interaction preserves competitive performance on mainstream audio tasks while unlocking capabilities inaccessible to offline LALMs, including real-time ASR, streaming audio instruction following, and proactive help.
LLM 駆動エージェントによる効率的で証拠に基づくモビリティ予測に向けて
個人レベルのモビリティ予測は、都市シミュレーション、交通計画、政策分析の中心となります。教師ありシーケンス モデルは高い精度を実現しますが、タスク固有のトレーニングが必要であり、意思決定レベルの透明性は限られています。最近の LLM ベースの手法は解釈可能性を向上させていますが、ほとんどが静的プロンプトとシングルパス推論に依存しているため、モビリティ信号が弱いか矛盾している場合に追加の証拠を探す能力が制限されています。私たちは、次の場所の予測を適応的な証拠に基づいた意思決定として定式化する、トレーニング不要の LLM 駆動のエージェント フレームワークである \method{} を提案します。 \method{} は、歴史的な規則性に基づく高速パスを通じて日常的なケースを解決しますが、あいまいなケースでは、最近の軌跡、過去の動作、滞在と移動の可能性、および地理的証拠に基づいて反復的なツールの使用がトリガーされます。 3 つのモビリティ データセット全体で、AgentMob はトレーニング不要の LLM ベースの手法の中で最も強力な総合パフォーマンスを達成し、GPT-5.4 は BW で 71.42\% Acc@1、YJMob100K で 33.14\%、上海 ISP で 33.50\% に達しました。 BW 非高速パスのケースでは、LLM コントローラーは、同じツールの統計ベースラインと比較して Acc@1 を 30.65\% から 48.62\% に改善します。これは、その主な利点が、適応的な証拠収集を通じて曖昧な予測を解決することにあることを示しています。コードは https://github.com/Unknown-zoo/AgentMob で入手できます。
原文 (English)
Towards Efficient and Evidence-grounded Mobility Prediction with LLM-Driven Agent
Individual-level mobility prediction is central to urban simulation, transportation planning, and policy analysis. Supervised sequence models achieve strong accuracy but require task-specific training and offer limited decision-level transparency. Recent LLM-based methods improve interpretability, yet mostly rely on static prompts and single-pass inference, limiting their ability to seek additional evidence when mobility signals are weak or conflicting. We propose \method{}, a training-free LLM-driven agent framework that formulates next-location prediction as adaptive evidence-controlled decision making. \method{} resolves routine cases through a fast path based on historical regularity, while ambiguous cases trigger iterative tool use over recent trajectories, historical behavior, stay-move likelihood, and geographical evidence. Across three mobility datasets, AgentMob achieves the strongest overall performance among training-free LLM-based methods, with GPT-5.4 reaching 71.42\% Acc@1 on BW, 33.14\% on YJMob100K, and 33.50\% on Shanghai ISP. On BW non-fast-path cases, the LLM controller improves Acc@1 from 30.65\% to 48.62\% over a same-tool statistical baseline, showing that its main benefit lies in resolving ambiguous predictions through adaptive evidence gathering. Our code is available at https://github.com/Unknown-zoo/AgentMob.
失敗した推論トレースから何が修正可能かを教えてくれます (ただし、それを読むことではわかりません)
トレーニング後の言語モデルが推論の問題で失敗した場合、一般的なテスト時間のスケーリング対応は、追加の試行により多くの計算を費やし、失敗したトレースはそれ以上の役割を果たさないことです。私たちは、これは重要なシグナルを破棄していると主張します。一部の失敗は不運なサンプリングによって発生し、より多くのロールアウトが役立ちますが、他の失敗は構造的なものであり、予算に関係なく再サンプリングに抵抗します。私たちは、失敗したトレースが回復可能構造、つまりテスト時の介入によって特定の失敗を救済できる推論時の署名をエンコードしていると提案します。利用可能な介入の構造から導出された 3 つの問題レベルの軌跡の特徴は、失敗したロールアウトのテキストではなく、配布の署名からこの構造を復元します。これらは、障害を安定した領域にクラスタリングし、さまざまなトレーニング後の方法の障害トポグラフィーを特徴付け ($84.3{\pm}4.3\%$ の精度、過半数クラスのベースラインより $+20\%$)、デプロイメント関連の Steerable-Hard サブセット (再試行が不十分で制限された介入が到達可能な障害) でレスキューを $+12.2\%$ 引き上げるトレーニング不要のルーティング ルールをサポートします。機能とルーティング ルールは、2 つのファミリー間プローブ間で転送されます。したがって、同じ 3 つの機能は、破棄されたデータから失敗したトレースを診断オブジェクトに変換し、トレーニング時や重み空間にアクセスすることなく、テスト時のルーティングとトレーニング後の分析をサポートします。
原文 (English)
Failed Reasoning Traces Tell You What Is Fixable (But Not by Reading Them)
When post-trained language models fail on reasoning problems, the common test-time-scaling response is to spend more compute on additional attempts, and the failed traces play no further role. We argue this discards a crucial signal; some failures come from unlucky sampling, where more rollouts help, while others are structural and resist resampling regardless of budget. We propose that failed traces encode recoverability structure: the inference-time signature of which test-time interventions can rescue a given failure. Three problem-level trajectory features, derived from the structure of available interventions, recover this structure from the distributional signature of failed rollouts, not their text. They cluster failures into stable regimes, characterize the failure topography of different post-training methods ($84.3{\pm}4.3\%$ accuracy, $+20\%$ over a majority-class baseline), and support a training-free routing rule that lifts rescue by $+12.2\%$ on the deployment-relevant Steerable-Hard subset (failures where retry is insufficient and a bounded intervention is reachable). The features and the routing rule transfer across two cross-family probes. The same three features thus convert failed traces from discarded data into a diagnostic object, supporting test-time routing and post-training analysis without training-time or weight-space access.
分布型 DAgger による豊富なフィードバックからの強化学習
推論モデルは急速に進歩しましたが、検証可能な報酬からの支配的な強化学習 (RLVR) レシピは驚くほど狭いままです。多くの応答をサンプリングし、最終的な答えが正しいかどうかを示す 1 ビットで各応答に報酬を与えます。さらに、多くの設定では、実行トレース、ツール出力、専門家による修正、モデルの自己評価など、豊富なフィードバックが提供されます。私たちは、古典的な模倣学習アルゴリズム DAgger の分布型バリアントを通じて、そのようなフィードバックを使用する方法を研究します。この場合、学習者は、現在のポリシーが訪問する州に関する専門家分布にローカルにアクセスできます。これにより、ブラックボックス専門家とその配列レベルの勾配が、将来の専門家と学生の意見の相違を以前の決定にまで「伝播させることによって豊富な単位の割り当てを行う」ことを認める、単純な順方向クロスエントロピー目標が得られます。我々は、逆KLまたはジェンセン・シャノンに基づく自己蒸留目標を備えた以前のRLでは、単調な政策改善を保証できないことを示します。たとえ専門家がより高い報酬を得ていたとしても、その更新により、より悪いアクションの確率が増加する可能性があります。対照的に、順方向クロスエントロピーは単調な政策改善を認め、後悔の保証を享受できることを示します。さらに、私たちの目標が教師に重み付けされた成功の可能性の下限を最適化し、Pass@N の向上につながることを示します。経験的に、私たちのアプローチである DistIL は、科学的推論、コーディング、難しい数学的問題の解決など、さまざまな領域にわたる自己蒸留ベースラインにより、RLVR および RL よりも改善されています。
原文 (English)
Reinforcement Learning from Rich Feedback with Distributional DAgger
Reasoning models have advanced rapidly, but the dominant reinforcement learning from verifiable rewards (RLVR) recipe remains surprisingly narrow: sample many responses and reward each with a single bit indicating whether the final answer is correct. Yet many settings provide rich feedback, including execution traces, tool outputs, expert corrections, and model self-evaluations. We study how to use such feedback through a distributional variant of the classic imitation learning algorithm DAgger, where the learner has local access to an expert distribution on states visited by the current policy. This yields a simple forward cross-entropy objective that admits a blackbox expert and whose sequence-level gradient {conduct rich credit assignment by propagating} future expert-student disagreement back to earlier decisions. We show that prior RL with self-distillation objectives based on reverse KL or Jensen-Shannon fail to guarantee monotonic policy improvement: even when the expert has higher reward, their updates may increase probability on worse actions. In contrast, we show that forward cross-entropy admits monotonic policy improvement and enjoys guarantees on regret. We further show that our objective optimizes a lower bound on teacher-weighted likelihood of success, leading to improved Pass@N. Empirically, our approach, DistIL, improves over RLVR and RL with self-distillation baselines across a variety of domains: scientific reasoning, coding, and solving hard mathematical problems.
マルチエージェント推論におけるストリーミング通信
マルチエージェント推論システムは、エンドツーエンドのレイテンシーをパイプラインの深さに応じて線形に拡張する「生成してから転送」パラダイムを採用しています。 StreamMA は、各推論ステップが生成されるとすぐに下流のエージェントにストリーミングし、隣接するエージェントをパイプライン化して待ち時間を短縮するマルチエージェント推論システムです。驚くべきことに、このパイプラインは有効性も向上させます。マルチステップの推論の品質は不均一で、初期のステップは後のステップよりも信頼性が高いため、完全なチェーンではなくこれらの信頼できる初期ステップを使用することで、エラーが発生しやすい後期ステップが下流エージェントに誤解を与えることを防ぎます。ストリーム、シリアル、および単一プロトコルの最初の閉じた形式の結合分析によって両方の利点を形式化し、有効性の順序付け、高速化の上限、およびコスト比を導き出します。数学、科学、コードにわたる 8 つの推論ベンチマーク、2 つのフロンティア LLM (Claude Opus 4.6 および GPT-5.4)、および 3 つのトポロジ (チェーン、ツリー、グラフ) にわたって、StreamMA は両方のベースラインを上回りました (HMMT 2026 で平均 +7.3 pp、最大 +22.4 pp、Claude Opus 4.6-高)。これらの貢献を超えて、「ステップレベルのスケーリング則」を発見しました。つまり、エージェントごとのステップを増やすと、有効性と効率の両方が一貫して向上します。これは、エージェント数のスケーリングと直交し、エージェント数のスケーリングと組み合わせ可能な新しいスケーリングの次元です。
原文 (English)
Streaming Communication in Multi-Agent Reasoning
Multi-agent reasoning systems adopt a "generate-then-transfer" paradigm that forces end-to-end latency to scale linearly with pipeline depth. We introduce StreamMA, a multi-agent reasoning system that streams each reasoning step to downstream agents as soon as it is generated, pipelining adjacent agents and thus reducing latency. Surprisingly, this pipelining also improves effectiveness: because multi-step reasoning quality is non-uniform and early steps are more reliable than later ones, working with these reliable early steps instead of the full chain prevents error-prone late steps from misleading downstream agents. We formalize both advantages with the first closed-form joint analysis of stream, serial, and single protocols, deriving the effectiveness ordering, speedup upper bound, and cost ratio. Across eight reasoning benchmarks spanning mathematics, science, and code, two frontier LLMs (Claude Opus 4.6 and GPT-5.4), and three topologies (Chain, Tree, Graph), StreamMA outperforms both baselines (avg. +7.3 pp, max +22.4 pp on HMMT 2026; Claude Opus 4.6-high). Beyond these contributions, we discover a "step-level scaling law": increasing per-agent steps consistently improves both effectiveness and efficiency, a new scaling dimension orthogonal to and composable with agent-count scaling.
より長いコンテキスト、より深い思考: 推論における長いコンテキスト能力の役割を明らかにする
最近の言語モデルは強力な推論能力を示していますが、長い文脈の能力が推論に及ぼす影響はまだ解明されていません。この研究では、現在の推論の制限は、部分的には、ロングコンテキストの能力が不十分であることに起因しており、(1) コンテキストウィンドウの長さが長いほど推論のパフォーマンスが向上することが多く、(2) 推論に失敗したケースは、失敗したロングコンテキストのケースに似ている、などの経験的観察によって動機付けられていると仮説を立てています。この仮説を検証するために、教師あり微調整 (SFT) の前にモデルのロングコンテキスト能力を強化することが推論パフォーマンスの向上につながるかどうかを調べます。具体的には、同一のアーキテクチャと微調整データを備えているが、ロングコンテキスト容量のレベルが異なるモデルを比較しました。私たちの結果は一貫した傾向を示しています。つまり、より強力なロングコンテキスト能力を持つモデルは、SFT 後の推論ベンチマークで大幅に高い精度を達成します。特に、これらの向上は入力長が短いタスクでも持続しており、長いコンテキストのトレーニングが推論パフォーマンスに一般化可能な利点を提供していることを示しています。これらの発見は、ロングコンテキストモデリングが長い入力を処理するために不可欠であるだけでなく、推論のための重要な基盤としても機能することを示唆しています。私たちは、将来の言語モデルの設計において、長いコンテキストの能力を第一級の目標として扱うことを主張します。
原文 (English)
Longer Context, Deeper Thinking: Uncovering the Role of Long-Context Ability in Reasoning
Recent language models exhibit strong reasoning capabilities, yet the influence of long-context capacity on reasoning remains underexplored. In this work, we hypothesize that current limitations in reasoning stem, in part, from insufficient long-context capacity, motivated by empirical observations such as (1) higher context window length often leads to stronger reasoning performance, and (2) failed reasoning cases resemble failed long-context cases. To test this hypothesis, we examine whether enhancing a model's long-context ability before Supervised Fine-Tuning (SFT) leads to improved reasoning performance. Specifically, we compared models with identical architectures and fine-tuning data but varying levels of long-context capacity. Our results reveal a consistent trend: models with stronger long-context capacity achieve significantly higher accuracy on reasoning benchmarks after SFT. Notably, these gains persist even on tasks with short input lengths, indicating that long-context training offers generalizable benefits for reasoning performance. These findings suggest that long-context modeling is not just essential for processing lengthy inputs, but also serves as a critical foundation for reasoning. We advocate for treating long-context capacity as a first-class objective in the design of future language models.
悪い分子の破壊: MLLM は構造レベルの分子解毒の準備ができていますか?
毒性は依然として、初期段階の医薬品開発の失敗の主な原因です。分子設計と特性予測の進歩にもかかわらず、毒性が低減された構造的に有効な分子代替物を生成する分子毒性修復の課題は、まだ体系的に定義されず、ベンチマークも確立されていません。このギャップを埋めるために、分子毒性修復に焦点を当てた汎用マルチモーダル大規模言語モデル (MLLM) の最初のベンチマーク タスクである ToxiMol を紹介します。私たちは、さまざまなメカニズムと粒度にわたる 11 の主要なタスクと 660 の代表的な有毒分子をカバーする標準化されたデータセットを構築します。私たちは、専門的な毒性学の知識に基づいて、メカニズムを認識し、タスクに適応する機能を備えた迅速なアノテーション パイプラインを設計します。並行して、毒性エンドポイント予測、合成アクセシビリティ、薬物らしさ、構造類似性を修復成功のためのハイスループット評価チェーンに統合する自動評価フレームワーク ToxiEval を提案します。当社は 43 の主流の汎用 MLLM を体系的に評価し、複数のアブレーション研究を実施して、評価指標、候補の多様性、失敗の原因などの重要な問題を分析します。実験結果は、現在の MLLM がこのタスクに関して依然として大きな課題に直面しているものの、毒性の理解、意味論的制約の順守、および構造を意識した編集において有望な能力を実証し始めていることを示しています。
原文 (English)
Breaking Bad Molecules: Are MLLMs Ready for Structure-Level Molecular Detoxification?
Toxicity remains a leading cause of early-stage drug development failure. Despite advances in molecular design and property prediction, the task of molecular toxicity repair, generating structurally valid molecular alternatives with reduced toxicity, has not yet been systematically defined or benchmarked. To fill this gap, we introduce ToxiMol, the first benchmark task for general-purpose Multimodal Large Language Models (MLLMs) focused on molecular toxicity repair. We construct a standardized dataset covering 11 primary tasks and 660 representative toxic molecules spanning diverse mechanisms and granularities. We design a prompt annotation pipeline with mechanism-aware and task-adaptive capabilities, informed by expert toxicological knowledge. In parallel, we propose an automated evaluation framework, ToxiEval, which integrates toxicity endpoint prediction, synthetic accessibility, drug-likeness, and structural similarity into a high-throughput evaluation chain for repair success. We systematically assess 43 mainstream general-purpose MLLMs and conduct multiple ablation studies to analyze key issues, including evaluation metrics, candidate diversity, and failure attribution. Experimental results show that although current MLLMs still face significant challenges on this task, they begin to demonstrate promising capabilities in toxicity understanding, semantic constraint adherence, and structure-aware editing.
制約付き適応拒否サンプリング
言語モデル (LM) は、生成された出力が厳密な意味論的または構文上の制約を満たす必要があるアプリケーションで使用されることが増えています。制約付き生成に対する既存のアプローチはさまざまです。貪欲な制約付きデコード方法は、デコード中に有効性を強制しますが、LM の分布を歪めます。一方、リジェクション サンプリング (RS) は忠実度を維持しますが、無効な出力を破棄することで計算を無駄にします。サンプルの有効性と多様性の両方が重要であるプログラム ファジングなどの領域では、両極端が問題となります。我々は、分布歪みを生じさせずに RS のサンプル効率を厳密に改善するアプローチである、制約付き適応除去サンプリング (CARS) を紹介します。 CARS は、制約のない LM サンプリングから始まり、制約違反の継続をトライに記録し、将来の描画から確率質量を差し引くことで、制約に違反する継続を適応的に除外します。この適応的な枝刈りにより、無効であることが証明されたプレフィックスが決して再検討されず、受け入れ率が単調に向上し、結果として得られるサンプルが制約された分布に正確に従うことが保証されます。プログラムのファジングや分子生成など、さまざまな領域の実験において、CARS は一貫して高い効率 (有効サンプルあたりの LM フォワードパスの数で測定) を達成すると同時に、GCD や LM の分布を近似する方法の両方よりも強力なサンプル多様性を生み出します。
原文 (English)
Constrained Adaptive Rejection Sampling
Language Models (LMs) are increasingly used in applications where generated outputs must satisfy strict semantic or syntactic constraints. Existing approaches to constrained generation fall along a spectrum: greedy constrained decoding methods enforce validity during decoding but distort the LM's distribution, while rejection sampling (RS) preserves fidelity but wastes computation by discarding invalid outputs. Both extremes are problematic in domains such as program fuzzing, where both validity and diversity of samples are essential. We present Constrained Adaptive Rejection Sampling (CARS), an approach that strictly improves the sample-efficiency of RS without distributional distortion. CARS begins with unconstrained LM sampling and adaptively rules out constraint-violating continuations by recording them in a trie and subtracting their probability mass from future draws. This adaptive pruning ensures that prefixes proven invalid are never revisited, acceptance rates improve monotonically, and the resulting samples exactly follow the constrained distribution. In experiments on a variety of domains -- e.g., program fuzzing and molecular generation -- CARS consistently achieves higher efficiency -- measured in the number of LM forward passes per valid sample -- while also producing stronger sample diversity than both GCD and methods that approximate the LM's distribution.
防御的な論理的思考を学ぶことで、深い暗黙の好みを調整する
大規模言語モデル (LLM) がユーザー中心の対話に効果的に関与できるようにするには、パーソナライズされた調整が不可欠です。しかし、現在の手法は二重の課題に直面しています。つまり、ユーザーの深い暗黙の好み(明示されていない目標、意味論的コンテキスト、リスク許容度など)を推測することができず、現実世界のあいまいさを乗り越えるために必要な防御的推論が欠けています。この認知ギャップは、表面的で脆弱で近視眼的な反応を引き起こします。これに対処するために、我々は、アラインメントをスカラー報酬マッチングタスクから構造化された推論プロセスに再構築する、批判駆動推論アラインメント (CDRA) を提案します。まず、プリファレンス推論のギャップを埋めるために、DeepPref ベンチマークを導入します。このデータセットは、20 のトピックにわたる 3000 のプリファレンスとクエリのペアで構成されており、クエリのセマンティクスを解体して潜在的なリスクを明らかにするために、批判注釈付きの推論チェーンを生成する多面的な認知評議会をシミュレートすることによってキュレーションされています。第 2 に、防御的推論を植え付けるために、報酬モデリングを個人化された推論タスクとして組み立てる、個人化された生成プロセス報酬モデル (Pers-GenPRM) を導入します。この理論的根拠に基づいて最終スコアを出力する前に、ユーザーの好みと応答の整合性を評価するための批評チェーンを生成します。最終的に、この解釈可能で構造化された報酬信号は、数値フィードバックと自然言語フィードバックの両方を統合するプロセスレベルのオンライン強化学習アルゴリズムである批判主導型政策調整を通じて政策モデルを導きます。実験では、CDRA が、堅牢な推論を実行しながら、ユーザーの真の好みを発見して調整することに優れていることが実証されています。コードとデータセットは https://github.com/Zephyrian-Hugh/Deep-pref で入手できます。
原文 (English)
Aligning Deep Implicit Preferences by Learning to Reason Defensively
Personalized alignment is crucial for enabling Large Language Models (LLMs) to engage effectively in user-centric interactions. However, current methods face a dual challenge: they fail to infer users' deep implicit preferences (including unstated goals, semantic context and risk tolerances), and they lack the defensive reasoning required to navigate real-world ambiguity. This cognitive gap leads to responses that are superficial, brittle and short-sighted. To address this, we propose Critique-Driven Reasoning Alignment (CDRA), which reframes alignment from a scalar reward-matching task into a structured reasoning process. First, to bridge the preference inference gap, we introduce the DeepPref benchmark. This dataset, comprising 3000 preference-query pairs across 20 topics, is curated by simulating a multi-faceted cognitive council that produces critique-annotated reasoning chains to deconstruct query semantics and reveal latent risks. Second, to instill defensive reasoning, we introduce the Personalized Generative Process Reward Model (Pers-GenPRM), which frames reward modeling as a personalized reasoning task. It generates a critique chain to evaluate a response's alignment with user preferences before outputting a final score based on this rationale. Ultimately, this interpretable, structured reward signal guides policy model through Critique-Driven Policy Alignment, a process-level online reinforcement learning algorithm integrating both numerical and natural language feedback. Experiments demonstrate that CDRA excels at discovering and aligning with users' true preferences while executing robust reasoning. Our code and dataset are available at https://github.com/Zephyrian-Hugh/Deep-pref.
MENTOR: LLM の暗黙的なドメイン リスクを発見し軽減するためのメタ認知主導の自己進化フレームワーク
大規模言語モデル (LLM) の安全性を確保することは、実際の展開にとって重要です。しかし、現在の安全対策では、ドメイン固有の暗黙的なリスクに対処できないことがよくあります。このギャップを調査するために、教育、財務、管理にわたる 3,000 件の注釈付きクエリのデータセットを導入します。 14 の主要 LLM の評価では、平均脱獄成功率 57.8\% という懸念すべき脆弱性が明らかになりました。これに応えて、私たちはメタ認知主導の自己進化フレームワークである MENTOR を提案します。 MENTOR は、視点の取得や結果論的推論などの戦略を使用してメタ認知的自己評価を実行し、潜在的なモデルの不整合を明らかにします。結果として生じる反映は、動的なルールベースのナレッジ グラフに蒸留され、そこから取得されたルールが、推論中に内部表現をガイドするためのアクティベーション レベルのステアリング信号に変換されます。実験では、MENTOR がテストされたすべてのドメインにわたって攻撃の成功率を大幅に低下させ、既存の安全調整方法よりも優れたパフォーマンスを発揮することが実証されています。 MENTOR のコードとデータセットは、https://anonymous.4open.science/r/MENTOR-Evo で入手できます。
原文 (English)
MENTOR: A Metacognition-Driven Self-Evolution Framework for Uncovering and Mitigating Implicit Domain Risks in LLMs
Ensuring the safety of Large Language Models (LLMs) is critical for real-world deployment. However, current safety measures often fail to address implicit, domain-specific risks. To investigate this gap, we introduce a dataset of 3,000 annotated queries spanning education, finance, and management. Evaluations across 14 leading LLMs reveal a concerning vulnerability: an average jailbreak success rate of 57.8\%. In response, we propose MENTOR, a metacognition-driven self-evolution framework. MENTOR performs metacognitive self-assessment, using strategies such as perspective-taking and consequential reasoning to uncover latent model misalignments. The resulting reflections are distilled into dynamic rule-based knowledge graphs, from which retrieved rules are converted into activation-level steering signals to guide internal representations during inference. Experiments demonstrate that MENTOR substantially reduces attack success rates across all tested domains and outperforms existing safety alignment methods. The code and dataset for MENTOR are available at: https://anonymous.4open.science/r/MENTOR-Evo.
PersistBench: LLM は長期記憶をいつ忘れるべきですか?
会話アシスタントは、長期記憶と大規模言語モデル (LLM) をますます統合しています。この記憶の永続性(たとえば、ユーザーがベジタリアンであるなど)は、将来の会話におけるパーソナライゼーションを強化することができます。しかし、同じ持続性が、これまでほとんど見落とされてきた安全上のリスクを引き起こす可能性もあります。そこで、これらの安全リスクの程度を測定するために PersistBench を導入します。我々は、長期記憶に特有の 2 つのリスクを特定しました。1 つは、LLM が長期記憶からコンテキストを不適切に注入するクロスドメイン漏洩です。保存された長期記憶がユーザーのバイアスを知らず知らずのうちに強化する、記憶誘発性のお調子者。私たちは 18 のフロンティア LLM とオープンソース LLM をベンチマークで評価します。私たちの結果は、これらの LLM 全体での失敗率が驚くほど高いことを明らかにしました。失敗率の中央値は、クロスドメイン サンプルで 53%、お調子者サンプルで 97% でした。これに対処するために、私たちのベンチマークは、最先端の会話システムにおけるより堅牢で安全な長期メモリ使用法の開発を奨励します。
原文 (English)
PersistBench: When Should Long-Term Memories Be Forgotten by LLMs?
Conversational assistants are increasingly integrating long-term memory with large language models (LLMs). This persistence of memories, e.g., the user is vegetarian, can enhance personalization in future conversations. However, the same persistence can also introduce safety risks that have been largely overlooked. Hence, we introduce PersistBench to measure the extent of these safety risks. We identify two long-term memory-specific risks: cross-domain leakage, where LLMs inappropriately inject context from the long-term memories; and memory-induced sycophancy, where stored long-term memories insidiously reinforce user biases. We evaluate 18 frontier and open-source LLMs on our benchmark. Our results reveal a surprisingly high failure rate across these LLMs - a median failure rate of 53% on cross-domain samples and 97% on sycophancy samples. To address this, our benchmark encourages the development of more robust and safer long-term memory usage in frontier conversational systems.
配信外の検出から幻覚の検出まで: 幾何学的な視点
大規模な言語モデルにおける幻覚の検出は、安全性と信頼性に重大な影響を与える重大な未解決の問題です。既存の幻覚検出方法は、質問に答えるタスクでは優れたパフォーマンスを発揮しますが、推論が必要なタスクでは依然として効果が低いままです。この研究では、コンピュータ ビジョンなどの分野でよく研究されている問題である、分布外 (OOD) 検出というレンズを通して幻覚検出を再検討します。言語モデルで次のトークンの予測を分類タスクとして扱うことにより、大規模な言語モデルの構造的な違いを考慮して適切な変更が加えられる限り、OOD 手法を適用することができます。我々は、OOD ベースのアプローチにより、トレーニング不要の単一サンプルベースの検出器が得られ、推論タスクの幻覚検出において高い精度が達成されることを示します。全体として、私たちの研究は、幻覚検出を OOD 検出として再構成することが、言語モデルの安全性への有望でスケーラブルな道筋を提供することを示唆しています。
原文 (English)
From Out-of-Distribution Detection to Hallucination Detection: A Geometric View
Detecting hallucinations in large language models is a critical open problem with significant implications for safety and reliability. While existing hallucination detection methods achieve strong performance in question-answering tasks, they remain less effective on tasks requiring reasoning. In this work, we revisit hallucination detection through the lens of out-of-distribution (OOD) detection, a well-studied problem in areas like computer vision. Treating next-token prediction in language models as a classification task allows us to apply OOD techniques, provided appropriate modifications are made to account for the structural differences in large language models. We show that OOD-based approaches yield training-free, single-sample-based detectors, achieving strong accuracy in hallucination detection for reasoning tasks. Overall, our work suggests that reframing hallucination detection as OOD detection provides a promising and scalable pathway toward language model safety.
SciDER: 科学データ中心のエンドツーエンド研究者
大規模な言語モデルが科学的発見を加速させる一方で、既存のエージェントは適応性、ドメインの一般化、マルチモーダルなスケーラビリティにおいて厳しい制限に直面しており、多くの場合、生のドメイン固有の実験データを自律的に処理するのに苦労しています。これらの障壁を克服するために、研究ライフサイクル全体を柔軟に自動化するように設計されたマルチエージェント システムである SciDER を導入します。このフレームワークは、新しいデータ中心のアプローチを採用し、4 つの専門化されたサブエージェントにわたる動的なマルチモーダル スキル システムを統合します。具体的には、アイデア化エージェントは進化的アイデア検索を通じて新しい仮説を生成し、データ分析エージェントは生データを体系的に構造化し、実験エージェントはデータセットの特性に基づいて実行可能コードを合成し、批評エージェントは反復的な自己洗練を推進します。オープンソースの科学的発見を民主化するために、私たちは OpenSciDER-27B 微調整モデルと並行して、高品質の実行軌跡データセットである OpenSciDER-SFT-8K をリリースします。 6 つのベンチマーク全体で、SciDER と OpenSciDER は競合する、または優れた結果を獲得しており、特にデータ中心の分析、エンドツーエンドの研究実行、マルチモーダルな科学的視覚化において大きな成果が得られています。 SciDER は、データ分析と実験の実行を統合することにより、抽象的な科学的推論と再現可能な実験合成の間のギャップを埋めます。
原文 (English)
SciDER: Scientific Data-centric End-to-end Researcher
While large language models accelerate scientific discovery, existing agents face severe limitations in adaptability, domain generalization, and multimodal scalability, often struggling to autonomously process raw, domain-specific experimental data. To overcome these barriers, we introduce SciDER, a multi-agent system designed to flexibly automate the entire research lifecycle. This framework employs a novel data-centric approach and integrates a dynamic multimodal skill system across four specialized sub-agents. Specifically, an ideation agent generates novel hypotheses via Evolutionary Idea Search, a data analysis agent systematically structures raw data, an experimentation agent synthesizes executable code grounded in dataset characteristics, and a critic agent drives iterative self-refinement. To democratize open-source scientific discovery, we release OpenSciDER-SFT-8K, a high-quality execution trajectory dataset, alongside the OpenSciDER-27B fine-tuned model. Across six benchmarks, SciDER and OpenSciDER obtain competitive or leading results, with especially strong gains on data-centric analysis, end-to-end research execution, and multimodal scientific visualization. By integrating data analysis with experimental execution, SciDER bridges the gap between abstract scientific reasoning and reproducible experimentation synthesis.
AI を介した結果的な決定を選択するという幻想
ウルマン=マルガリットの選択の概念(変革的で、取り消し不可能で、差し押さえられた代替案によって影が隠れる)を利用して、現在の AI システムが、既存の AI 倫理が完全には捉えていない深刻な倫理的問題を提起していることを示します。それは、個人やグループが、真に選択できるようになるために必要な主体が弱体化している間に、意味のある結果的な選択の欺瞞的な外観に遭遇する選択の幻想です。 AI を主に既に与えられた目的の最適化装置として扱うアプローチに対して、私たちは、AI システムは選択という幻想からメタ能力を保護し育成するかどうかによって評価されるべきだと主張します。メタ能力とは、手段と目的を形成し、異議を唱え、修正し、所有することができる、社会的および制度的に足場を築かれた主体的能力のことです。この再構成は、AI を介した経路が行動や行動を誤った方向に導いた場合に、選択するという幻想のコストを吸収することが最も困難な恵まれない人々にとって特に緊急です。私たちは、AI を介した結果的意思決定のための 3 つの規範的命令を提案します。それは、予測の限界を認める実存的誠実さです。生態学的合理性。不均質な生きた生態の中に指針を位置づけます。そして、反事実的賠償。AI を介した意思決定経路が失敗した場合に、差し押さえられた代替手段を認めて修復します。
原文 (English)
The Illusion of Opting in AI-Mediated Consequential Decisions
Drawing on Ullmann-Margalit's concept of opting (transformative, irrevocable, and shadowed by foreclosed alternatives), we show that current AI systems raise a profound ethical problem that existing AI ethics has not fully captured: the illusion of opting, in which persons and groups encounter the deceptive appearance of meaningful consequential choice while the agency needed to become genuinely capable of choosing is weakened. Against approaches that treat AI primarily as an optimizer of already given ends, we argue that AI systems should be evaluated by whether they protect and cultivate meta-capacity against the illusion of opting: the socially and institutionally scaffolded agentive capacity through which means and ends can be formed, contested, revised, and owned. This reframing is especially urgent for disadvantaged populations, who are least able to absorb the costs of the illusion of opting when AI-mediated pathways misdirect behavior and action. We propose three normative imperatives for AI-mediated consequential decisions: existential honesty, which acknowledges the limits of prediction; ecological rationality, which situates guidance within heterogeneous lived ecologies; and counterfactual reparation, which acknowledges and repairs foreclosed alternatives when AI-mediated decision-making pathways fail.
サブリミナル学習はベクトル蒸留を操る
サブリミナル学習とは、教師の出力を微調整した場合に、出力が意味的にそれらの特性と無関係であるにもかかわらず、生徒の言語モデルが教師の特性 (システムが促すフクロウの好みなど) を獲得することを指します。セマンティックな意味を持たないデータがどのようにして特定のセマンティックな特徴を伝達できるのかについては、依然として十分に理解されていません。この研究では、サブリミナル学習が単一のステアリング ベクトル、つまりモデルの活性化に追加されるベクトルによって媒介されることを示します。 2 つのオープンソース モデル全体で、教師のシステム プロンプトはステアリング ベクトルによってよく近似されており、生徒の行動は微調整を通じて調整されたベクトルを学習することによって駆動されることがわかりました。ステアリング ベクトルによって適切に近似されていないシステム プロンプトは潜在的に学習されません。これは、ステアリング ベクトル蒸留の特殊なケースであり、ステアリングされた教師の出力で訓練された生徒が、そのステアリングを模倣することを学びます。一連のセマンティック ベクトルとランダム ベクトルに対するステアリング ベクトル蒸留を示します。モデルのアクティベーションにセマンティック ベクトルを追加すると、その動作にモデルに依存しない効果とモデル固有 (つまり、非セマンティック) の両方の効果が生じる可能性があるため、生成された非セマンティック データはセマンティック効果を持つベクトルを送信でき、サブリミナル学習が可能になります。これは、サブリミナル学習がモデル間で移行しない理由も説明します。言語モデルにおけるサブリミナル学習には適応オプティマイザーが必要であることがわかりました。ステアリングされたデータの活性化勾配はステアリング方向に沿って小さいながらも一貫した成分を運びますが、非適応オプティマイザーは外れ値の勾配が優勢になることを許可することでこれを妨げます。
原文 (English)
Subliminal Learning Is Steering Vector Distillation
Subliminal learning refers to a student language model acquiring a teacher's traits (e.g. a system-prompted preference for owls) when fine-tuned on the teacher's outputs, despite the outputs being semantically unrelated to those traits. It remains poorly understood how data without semantic meaning can transfer specific semantic traits. In this work, we show that subliminal learning is mediated by a single steering vector, i.e. a vector added to the model's activations. Across two open-source models, we find that the teacher's system prompt is well approximated by a steering vector, and that the student's behavior is driven by learning an aligned vector over fine-tuning. System prompts that are not well approximated by steering vectors are not subliminally learned. This is a special case of steering vector distillation, in which a student trained on the outputs of a steered teacher learns to imitate that steering. We demonstrate steering vector distillation on a range of semantic and random vectors. Adding a semantic vector to a model's activations can have both model-independent and model-specific (i.e. non-semantic) effects on its behavior, so generated data that is non-semantic can transmit a vector with semantic effects, enabling subliminal learning. This also explains why subliminal learning does not transfer between models. We find that adaptive optimizers are necessary for subliminal learning in language models: activation gradients on steered data carry a small but consistent component along the steering direction, and non-adaptive optimizers impede this by allowing outlier gradients to dominate.
歯科医療における大規模 AI モデル: 汎用システムからドメイン固有の基盤モデルまで
背景: 口腔疾患は世界中で約 35 億人に影響を与えていますが、歯科における大規模 AI モデルの相対的な臨床的可能性は依然として十分に理解されていません。言語生成モデル、弁別視覚基礎モデル、歯科特有の基礎モデルという 3 つの異なるモデル カテゴリが出現しましたが、それらの関係や集合的な制限を検討する統一されたレビューはありません。方法: PRISMA-ScR ガイドラインに従って、4 つのデータベース (PubMed、Google Scholar、Scopus、arXiv) を体系的に検索し、2 人の査読者によって独立してスクリーニングされました。包含/除外基準を適用した後、97 件の研究 (2020 ~ 2026 年) が含まれました。建築パラダイムと歯科専門度によってモデルを整理する二次元分類フレームワークを提案します。結果: 言語生成モデルは、テキストベースのタスク (臨床推論、免許試験、患者とのコミュニケーション) には優れていますが、画像依存の診断では一貫性のないパフォーマンスを示します。適応された SAM および CLIP バリアントにより、強力な歯のセグメンテーションと病変検出結果が得られます。歯科専用モデル (DentVFM、DentVLM、OralGPT) は、複雑なマルチモーダルなタスクで最高のパフォーマンスを発揮します。統合されたパイプラインは、単一モデルのアプローチよりも常に優れたパフォーマンスを発揮します。データの非対称性が観察されます。歯科特有の事前トレーニングはほぼ完全に視覚領域に集中しており、大規模な歯科テキスト コーパスがほとんどないことを反映しています。結論: 汎用モデルと歯科専用モデルは補完的な役割を果たします。最も効果的なシステムは、構造化されたパイプライン内で両方を組み合わせたものです。安全な自律展開には、生成モデルにおける幻覚、注釈付き歯科データセットの制限、標準化された臨床評価ベンチマークの欠如という 3 つの永続的な障壁を解決する必要があります。
原文 (English)
Large AI Models in Dental Healthcare: From General-Purpose Systems to Domain-Specific Foundation Models
Background: Oral diseases affect nearly 3.5 billion people worldwide, yet the comparative clinical potential of large-scale AI models in dentistry remains poorly understood. Three distinct model categories have emerged: language-generative models, discriminative vision foundation models, and dental-specific foundation models, with no unified review examining their relationships and collective limitations. Methods: Following PRISMA-ScR guidelines, we systematically searched four databases (PubMed, Google Scholar, Scopus, arXiv), screened independently by two reviewers. After applying inclusion/exclusion criteria, 97 studies (2020-2026) were included. We propose a two-dimensional classification framework organizing models by architectural paradigm and dental specialization degree. Results: Language-generative models excel at text-based tasks (clinical reasoning, licensing exams, patient communication) but show inconsistent performance on image-dependent diagnostics. Adapted SAM and CLIP variants achieve strong tooth segmentation and lesion detection results. Dental-specific models (DentVFM, DentVLM, OralGPT) demonstrate strongest performance on complex multimodal tasks. Integrated pipelines consistently outperform single-model approaches. A data asymmetry is observed: dental-specific pretraining concentrates almost entirely in the vision domain, reflecting scarce large-scale dental text corpora. Conclusions: General-purpose and dental-specific models play complementary roles; the most effective systems combine both within structured pipelines. Safe autonomous deployment requires resolving three persistent barriers: hallucination in generative models, limited annotated dental datasets, and absent standardized clinical evaluation benchmarks.
LEAP: エージェント フレームワークを使用した形式数学用の LLM のスーパーチャージング
大規模言語モデル (LLM) は強力な非公式数学的推論を示しますが、リーンのような形式言語では機械的に検証可能な証明を生成するのに苦労します。 LEAP は、汎用基礎モデルが自動化された形式定理証明で最先端のパフォーマンスを達成できるようにするエージェント フレームワークです。 LEAP は、非公式推論、指示に従って、反復的な自己改善などの基礎モデルの機能を活用します。複雑な問題をより小さな単位に分解することで、システムはリーン コンパイラーとの継続的な対話を通じて、正式な証明の構築と非公式のブループリントの橋渡しをします。ますます飽和しつつあるベンチマークを超えた厳密な評価を提供するために、リーンで形式化された IMO スタイルの問題のベンチマークである Lean-IMO-Bench を導入します。このベンチマークでは、短いステートメントでありながら非常に非日常的で、幅広い難易度にわたる複数ステップの証明が行われます。経験的に、北米の学部学生を対象とした毎年恒例の数学コンテストである最新の 2025 年のパトナム コンペティションでは、LEAP は 12 の問題すべてを解決し、フロンティアの正式な数学モデルによる最近の進歩と一致しています。 Lean-IMO-Bench では、LEAP は汎用 LLM のワンショット形式解決率を 10% 未満から 70% に引き上げ、特に金メダル級の専門化された IMO システムによって設定されたベンチマークの 48% を上回っています。さらに、偶数次ケイリーグラフのクヌースのハミルトニアン分解における重要な部分問題の検証された証明を含む、オープンな組み合わせ課題に対する複雑な証明を自律的に形式化することで、LEAP の研究レベルの有用性を実証します。
原文 (English)
LEAP: Supercharging LLMs for Formal Mathematics with Agentic Frameworks
Large Language Models (LLMs) exhibit strong informal mathematical reasoning but struggle to generate mechanically verifiable proofs in formal languages like Lean. We present LEAP, an agentic framework that enables general-purpose foundation models to achieve state-of-the-art performance on automated formal theorem proving. LEAP leverages foundation model capabilities, such as informal reasoning, instruction following, and iterative self-refinement. By decomposing complex problems into smaller units, the system bridges formal proof construction with informal blueprints through continuous interaction with the Lean compiler. To provide a rigorous evaluation beyond increasingly saturated benchmarks, we introduce Lean-IMO-Bench, a benchmark of IMO-style problems formalized in Lean, with short statements yet highly non-routine and multi-step proofs across a wide range of difficulty levels. Empirically, on the latest 2025 Putnam Competition, an annual mathematics competition for undergraduate students in North America, LEAP solves all 12 problems, matching recent breakthroughs by frontier formal mathematical models. On Lean-IMO-Bench, LEAP boosts the one-shot formal solve rate of general-purpose LLMs from below 10% to 70%, notably surpassing the 48% benchmark set by a specialized, gold-medal-caliber IMO system. Furthermore, we demonstrate LEAP's research-level utility by autonomously formalizing complex proofs for open combinatorial challenges, including a verified proof for a key subproblem in Knuth's Hamiltonian decomposition of even-order Cayley graphs.
ChatSOP: 制御可能な LLM 対話エージェントのための SOP ガイド付き MCTS 計画フレームワーク
Large Language Model (LLM) を利用した対話エージェントは、さまざまなタスクで優れたパフォーマンスを示します。ユーザーの理解が深まり、人間らしい応答ができるようになったにもかかわらず、ユーザーの*制御性の欠如**は依然として重要な課題であり、焦点の合わない会話やタスクの失敗につながることがよくあります。これに対処するために、対話の流れを規制する標準操作手順 (SOP) を導入します。具体的には、LLM 駆動の対話エージェントの制御性を強化するために設計された新しい SOP ガイド付きモンテカルロ木探索 (MCTS) 計画フレームワークである **ChatSOP** を提案します。これを可能にするために、GPT-4o を備えた半自動ロールプレイング システムを使用して生成され、厳格な手動品質管理を通じて検証された、SOP アノテーション付きのマルチシナリオ対話で構成されるデータセットを厳選しました。さらに、SOP予測のための教師あり微調整と思考連鎖推論を統合し、対話中に最適な行動計画を立てるためにSOPに基づくモンテカルロ木探索を利用する新しい方法を提案します。実験結果は、GPT-3.5 に基づくベースライン モデルと比較してアクション精度の 27.95% の向上を達成し、オープンソース モデルでも顕著な向上を示すなど、私たちの方法の有効性を示しています。データセットとコードは公開されています。
原文 (English)
ChatSOP: An SOP-Guided MCTS Planning Framework for Controllable LLM Dialogue Agents
Dialogue agents powered by Large Language Models (LLMs) show superior performance in various tasks. Despite the better user understanding and human-like responses, their **lack of controllability** remains a key challenge, often leading to unfocused conversations or task failure. To address this, we introduce Standard Operating Procedure (SOP) to regulate dialogue flow. Specifically, we propose **ChatSOP**, a novel SOP-guided Monte Carlo Tree Search (MCTS) planning framework designed to enhance the controllability of LLM-driven dialogue agents. To enable this, we curate a dataset comprising SOP-annotated multi-scenario dialogues, generated using a semi-automated role-playing system with GPT-4o and validated through strict manual quality control. Additionally, we propose a novel method that integrates Chain of Thought reasoning with supervised fine-tuning for SOP prediction and utilizes SOP-guided Monte Carlo Tree Search for optimal action planning during dialogues. Experimental results demonstrate the effectiveness of our method, such as achieving a 27.95% improvement in action accuracy compared to baseline models based on GPT-3.5 and also showing notable gains for open-source models. Dataset and codes are publicly available.
SSSD: シンプルにスケーラブルな投機的デコーディング
投機的デコーディングは、大規模言語モデルで推論を高速化するための一般的な手法として登場しました。ただし、既存のアプローチのほとんどは、運用サービス システムにわずかな改善しかもたらしません。大幅な高速化を実現するメソッドは通常、追加のトレーニング済みドラフト モデルまたは補助モデル コンポーネントに依存しており、展開とメンテナンスの複雑さが増大します。この複雑さの追加により、特にドラフト モデルのトレーニング データで十分に表現されていないタスク、ドメイン、または言語にワークロードを移行する場合に、柔軟性が低下します。私たちは、軽量の N グラム マッチングとハードウェア対応の投機を組み合わせたトレーニング不要の手法である Simply-Scalable Speculative Decoding (SSSD) を紹介します。標準の自己回帰デコーディングと比較して、SSSD はレイテンシーを最大 2.9 倍削減します。幅広いベンチマークにわたって、主要なトレーニングベースのアプローチと同等のパフォーマンスを達成しながら、導入の労力が大幅に軽減され(データの準備、トレーニング、チューニングは必要ありません)、言語やドメインの変更や長いコンテキスト設定でも優れた堅牢性を示します。
原文 (English)
SSSD: Simply-Scalable Speculative Decoding
Speculative Decoding has emerged as a popular technique for accelerating inference in Large Language Models. However, most existing approaches yield only modest improvements in production serving systems. Methods that achieve substantial speedups typically rely on an additional trained draft model or auxiliary model components, increasing deployment and maintenance complexity. This added complexity reduces flexibility, particularly when serving workloads shift to tasks, domains, or languages that are not well represented in the draft model's training data. We introduce Simply-Scalable Speculative Decoding (SSSD), a training-free method that combines lightweight n-gram matching with hardware-aware speculation. Relative to standard autoregressive decoding, SSSD reduces latency by up to 2.9x. It achieves performance on par with leading training-based approaches across a broad range of benchmarks, while requiring substantially lower adoption effort--no data preparation, training or tuning are needed--and exhibiting superior robustness under language and domain shift, as well as in long-context settings.
LaVIDE: 地図と画像の位置合わせによる言語による衛星変化の検出
地図参照と最新の画像に基づくリモート センシングによる変化検出により、比較対象となる以前の画像が不足している場合でも、地表のタイムリーな観察が促進されます。ただし、高レベルのマップ カテゴリと低レベルの画像詳細の間の意味上のギャップにより、変化検出における堅牢な時間的関連性のための均一な特徴の抽出が妨げられます。ピクセル レベルの視覚的な類似性を比較したり、セグメンテーション エラーを伝播したりする従来のアプローチとは異なり、\textcolor{black}{私たちは、言語を媒介として高レベルの地図カテゴリと低レベルの画像詳細の間の意味論的なギャップを埋める、\underline{La}nguage-\underline{VI}sion \underline{D}iscriminator for d\underline{E}tecting変更であるLaVIDE}という新しいフレームワークを提案します。具体的には、マップのセマンティクスを画像コンテンツと一致させるコンテキスト認識型のテキスト プロンプトを生成するための {\it 制限付きプロンプト学習} と、オブジェクト レベルの属性 (形状、境界など) をマップ表現に統合するための {\it オブジェクト認識埋め込み強化} 戦略を導入します。これらのコンポーネントにより、統一された言語と視覚の機能空間内での堅牢なクロスモーダル調整が可能になります。 DynamicEarthNet、HRSCD、BANDON、SECOND の 4 つのベンチマークに関する広範な実験により、LaVIDE が最先端の手法を大幅に上回り、マルチクラスおよびシングルクラスの変更検出タスクでそれぞれ IoU が $18.4\%$ および $5.2\%$ 向上することが実証されました。私たちのフレームワークは、地図画像の変化検出の精度を向上させるだけでなく、人間の介入を最小限に抑えて迅速な地図更新を実現する実用的なソリューションを提供し、都市計画、災害評価、生態保全に幅広い影響を与えることが期待されています。コードとデータセットは https://github.com/ShuGuoJ/LAVIDE.git から入手できます。
原文 (English)
LaVIDE: Language-Prompted Satellite Change Detection via Map-Image Alignment
Remote sensing change detection based on a map reference and an up-to-date image boosts timely observation of the Earth's surface when earlier images are lacking for comparison. However, the semantic gap between high-level map categories and low-level image details hinders the extraction of homogeneous features for robust temporal association in change detection. Unlike conventional approaches that either compare pixel-level visual similarity or propagate segmentation errors, \textcolor{black}{we propose a novel framework, \underline{La}nguage-\underline{VI}sion \underline{D}iscriminator for d\underline{E}tecting changes, LaVIDE}, which bridges the semantic gap between high-level map categories and low-level image details using language as an intermediary. Specifically, we introduce {\it restricted prompt learning} to generate context-aware textual prompts that align map semantics with image content, and an {\it object-aware embedding enhancement} strategy to integrate object-level attributes (e.g., shape, boundary) into map representations. These components enable robust cross-modal alignment within a unified language-vision feature space. Extensive experiments on four benchmarks, DynamicEarthNet, HRSCD, BANDON, and SECOND, demonstrate that LaVIDE outperforms state-of-the-art methods by significant margins, achieving $18.4\%$ and $5.2\%$ improvements in IoU on multi-class and single-class change detection tasks, respectively. Our framework not only advances the accuracy of map-image change detection but also provides a practical solution for rapid map updating with minimal human intervention, promising broad impacts in urban planning, disaster assessment, and ecological conservation. Code and datasets are available at: https://github.com/ShuGuoJ/LAVIDE.git.
投機的思考: 推論時の大規模モデルのガイダンスによる小規模モデル推論の強化
最近の進歩では、ポストトレーニングを利用してモデル推論のパフォーマンスを向上させていますが、これには通常、高価なトレーニング パイプラインが必要であり、依然として非効率で長すぎる出力に悩まされています。トークン レベルで動作する投機的デコードとは異なり、推論レベルでの推論中に大規模な推論モデルが小規模な推論モデルをガイドできるようにする、トレーニング不要のフレームワークである投機的思考を紹介します。私たちのアプローチは 2 つの観察に基づいています。(1) 「wait」などの推論をサポートするトークンは、「\n\n」などの構造区切り文字の後に頻繁に出現し、反映または継続の信号として機能します。 (2) より大きなモデルは、反射的な動作に対するより強力な制御を示し、推論の品質を向上させながら不必要な後戻りを減らします。反射ステップをより有能なモデルに戦略的に委任することで、私たちの方法は、出力を短縮しながら推論モデルの推論精度を大幅に向上させます。 32B 推論モデルの支援により、1.5B モデルの MATH500 の精度は 83.2% から 89.4% に増加し、6.2% の大幅な改善を記録しました。同時に、平均出力長は 5439 トークンから 4583 トークンに減少し、これは 15.7% の減少に相当します。さらに、非推論モデル (Qwen-2.5-7B-Instruct) に適用すると、私たちのフレームワークは同じベンチマークで精度が 74.0% から 81.8% に向上し、7.8% の相対的な改善を達成しました。
原文 (English)
Speculative Thinking: Enhancing Small-Model Reasoning with Large Model Guidance at Inference Time
Recent advances leverage post-training to enhance model reasoning performance, which typically requires costly training pipelines and still suffers from inefficient, overly lengthy outputs. We introduce Speculative Thinking, a training-free framework that enables large reasoning models to guide smaller ones during inference at the reasoning level, distinct from speculative decoding, which operates at the token level. Our approach is based on two observations: (1) reasoning-supportive tokens such as "wait" frequently appear after structural delimiters like "\n\n", serving as signals for reflection or continuation; and (2) larger models exhibit stronger control over reflective behavior, reducing unnecessary backtracking while improving reasoning quality. By strategically delegating reflective steps to a more capable model, our method significantly boosts the reasoning accuracy of reasoning models while shortening their output. With the assistance of the 32B reasoning model, the 1.5B model's accuracy on MATH500 increases from 83.2% to 89.4%, marking a substantial improvement of 6.2%. Simultaneously, the average output length is reduced from 5439 tokens to 4583 tokens, representing a 15.7% decrease. Moreover, when applied to a non-reasoning model (Qwen-2.5-7B-Instruct), our framework boosts its accuracy from 74.0% to 81.8% on the same benchmark, achieving a relative improvement of 7.8%.
SoLoPO: ショートからロングへの優先設定の最適化による LLM のロングコンテキスト機能のロック解除
拡張されたコンテキスト サイズによる事前トレーニングの進歩にも関わらず、大規模言語モデル (LLM) は、実世界の長いコンテキスト情報を効果的に利用するという課題に依然として直面しています。これは主に、データ品質の問題、トレーニングの非効率性、および適切に設計された最適化目標の欠如によって引き起こされる不十分な長いコンテキストの調整が原因です。これらの制限に対処するために、私たちは \textbf{S}h\textbf{o}rt-to-\textbf{Lo}ng \textbf{P}reference \textbf{O}ptimization (\textbf{SoLoPO}) というフレームワークを提案します。これは、ロングコンテキストの優先最適化 (PO) を、理論的証拠と経験的証拠の両方によって裏付けられた、ショートコンテキスト PO とショートからロングへの報酬調整 (SoLo-RA) の 2 つのコンポーネントに分離します。具体的には、ショートコンテキスト PO は、ショートコンテキストからサンプリングされたプリファレンスペアを活用して、モデルのコンテキスト知識の利用能力を強化します。一方、SoLo-RA は、同一のタスク関連情報を含む短いコンテキストと長いコンテキストの両方を条件とした場合、応答の報酬スコアの一貫性を明示的に促進します。これにより、短いコンテキストを処理するモデルの機能を長いコンテキストのシナリオに移すことが容易になります。 SoLoPO は、主流の優先最適化アルゴリズムと互換性があり、データ構築とトレーニング プロセスの効率を大幅に向上させます。実験結果は、SoLoPO が、さまざまなロングコンテキストのベンチマーク全体にわたって、より強力な長さおよびドメイン汎化能力に関してこれらすべてのアルゴリズムを強化し、同時に計算効率とメモリ効率の両方で顕著な改善を達成することを示しています。
原文 (English)
SoLoPO: Unlocking Long-Context Capabilities in LLMs via Short-to-Long Preference Optimization
Despite advances in pretraining with extended context sizes, large language models (LLMs) still face challenges in effectively utilizing real-world long-context information, primarily due to insufficient long-context alignment caused by data quality issues, training inefficiencies, and the lack of well-designed optimization objectives. To address these limitations, we propose a framework named \textbf{S}h\textbf{o}rt-to-\textbf{Lo}ng \textbf{P}reference \textbf{O}ptimization (\textbf{SoLoPO}), decoupling long-context preference optimization (PO) into two components: short-context PO and short-to-long reward alignment (SoLo-RA), supported by both theoretical and empirical evidence. Specifically, short-context PO leverages preference pairs sampled from short contexts to enhance the model's contextual knowledge utilization ability. Meanwhile, SoLo-RA explicitly encourages reward score consistency for the responses when conditioned on both short and long contexts that contain identical task-relevant information. This facilitates transferring the model's ability to handle short contexts into long-context scenarios. SoLoPO is compatible with mainstream preference optimization algorithms, while substantially improving the efficiency of data construction and training processes. Experimental results show that SoLoPO enhances all these algorithms with respect to stronger length and domain generalization abilities across various long-context benchmarks, while achieving notable improvements in both computational and memory efficiency.
100-LongBench: 事実上のロングコンテキストベンチマークは、文字通りロングコンテキストの能力を評価しているのでしょうか?
ロングコンテキスト機能は、LLM の最も重要な機能の 1 つと考えられています。真にロングコンテキスト対応 LLM を使用すると、ユーザーは、長い形式の文書をダイジェストして答えを見つけるのではなく、LLM に直接質問するなど、本来面倒なタスクを簡単に処理できるようになります。ただし、既存のリアルタスクベースのロングコンテキスト評価ベンチマークには 2 つの大きな欠点があります。まず、LongBench のようなベンチマークでは、モデルのベースライン能力からロングコンテキストのパフォーマンスを分離するための適切な指標が提供されていないことが多く、モデル間の比較が不明確になります。第 2 に、このようなベンチマークは通常、固定入力長で構築されるため、さまざまなモデル間での適用性が制限され、モデルがいつ故障し始めるかを明らかにできません。これらの問題に対処するために、長さ制御可能なロングコンテキストのベンチマークと、ベースラインの知識を真のロングコンテキストの機能から切り離す新しいメトリクスを導入します。実験は、LLM を効果的に評価する際の私たちのアプローチの優位性を示しています。
原文 (English)
100-LongBench: Are de facto Long-Context Benchmarks Literally Evaluating Long-Context Ability?
Long-context capability is considered one of the most important abilities of LLMs, as a truly long context-capable LLM enables users to effortlessly process many originally exhausting tasks -- e.g., digesting a long-form document to find answers vs. directly asking an LLM about it. However, existing real-task-based long-context evaluation benchmarks have two major shortcomings. First, benchmarks like LongBench often do not provide proper metrics to separate long-context performance from the model's baseline ability, making cross-model comparison unclear. Second, such benchmarks are usually constructed with fixed input lengths, which limits their applicability across different models and fails to reveal when a model begins to break down. To address these issues, we introduce a length-controllable long-context benchmark and a novel metric that disentangles baseline knowledge from true long-context capabilities. Experiments demonstrate the superiority of our approach in effectively evaluating LLMs.
MesaNet: 局所的に最適なテスト時間トレーニングによるシーケンス モデリング
シーケンス モデリングは現在、ソフトマックス セルフ アテンションを使用する因果変換アーキテクチャによって支配されています。広く採用されていますが、トランスフォーマーはスケーリング メモリを必要とし、推論中に線形に計算します。最近の一連の作業によりソフトマックス演算が線形化され、その結果、DeltaNet、Mamba、xLSTM など、メモリとコンピューティング コストが一定の強力なリカレント ニューラル ネットワーク (RNN) モデルが誕生しました。これらのモデルは、再帰層のダイナミクスがすべて、オンライン学習ルールを通じてほぼ最適化されたコンテキスト内の回帰目標から導出できることに注目することで統合できます。ここで、私たちはこの一連の作業に加わり、最近提案された Mesa 層 (von Oswald et al., 2024) の数値的に安定したチャンク単位の並列化可能なバージョンを導入します。これは、時間内に順次実行することしかできず、したがってスケーラブルではありませんでした。この層もやはりコンテキスト内損失に起因しますが、高速共役勾配ソルバーを使用してあらゆる時点で最適化されるまで最小化されています。最大 10 億パラメータ規模までの広範な一連の実験研究を通じて、最適なテスト時間のトレーニングにより、特に長いコンテキストの理解を必要とするタスクにおいて、以前の RNN よりも低い言語モデリングの複雑さとより高いダウンストリーム ベンチマーク パフォーマンスを実現できることを示しました。このパフォーマンスの向上には、推論時間中に追加のフロップが費やされるというコストがかかります。したがって、私たちの結果は、パフォーマンスを向上させるためにテスト時間のコンピューティングを増加させる最近の傾向と興味深い関連性があります。ここでは、ニューラル ネットワーク自体内の逐次的な最適化問題を解決するためにコンピューティングを費やしています。
原文 (English)
MesaNet: Sequence Modeling by Locally Optimal Test-Time Training
Sequence modeling is currently dominated by causal transformer architectures that use softmax self-attention. Although widely adopted, transformers require scaling memory and compute linearly during inference. A recent stream of work linearized the softmax operation, resulting in powerful recurrent neural network (RNN) models with constant memory and compute costs such as DeltaNet, Mamba or xLSTM. These models can be unified by noting that their recurrent layer dynamics can all be derived from an in-context regression objective, approximately optimized through an online learning rule. Here, we join this line of work and introduce a numerically stable, chunkwise parallelizable version of the recently proposed Mesa layer (von Oswald et al., 2024), which could only run sequentially in time and was therefore not scalable. This layer again stems from an in-context loss, but which is now minimized to optimality at every time point using a fast conjugate gradient solver. Through an extensive suite of experiments study up to the billion-parameter scale, we show that optimal test-time training enables reaching lower language modeling perplexity and higher downstream benchmark performance than previous RNNs, especially on tasks requiring long context understanding. This performance gain comes at the cost of additional flops spent during inference time. Our results are therefore intriguingly related to recent trends of increasing test-time compute to improve performance -- here by spending compute to solve sequential optimization problems within the neural network itself.
VLM は将来の状態を予測できますか?逆ダイナミクスから世界モデルをブートストラップする
統合ビジョン言語モデル (VLM) は、前方ダイナミクス予測 (FDP)、つまり、以前の観察とアクション (言語形式) を考慮して将来の状態 (画像形式) を予測できますか? VLM は命令からフレーム間に物理的に妥当な遷移を生成するのに苦労していることがわかりました。それにもかかわらず、私たちはマルチモーダルグラウンディングにおける重大な非対称性を特定しました。つまり、逆ダイナミクス予測 (IDP) を学習するために VLM を微調整すること、つまりフレーム間のアクションを効果的にキャプションすることは、FDP を学習するよりもはるかに簡単です。次に、IDP を使用して、1) 合成データからの弱教師あり学習と 2) 推論時間の検証という 2 つの主な戦略を通じて FDP をブートストラップすることができます。まず、IDP はビデオ フレーム観測のラベルなしペアのアクションに注釈を付けて、FDP のトレーニング データのスケールを拡張できます。次に、IDP は FDP の複数のサンプルに報酬を割り当ててスコアを付け、推論時の検索を効果的にガイドできます。 2 つの VLM ファミリーを使用した Aurora-Bench でのアクション中心の画像編集タスクを通じて、両方の戦略から得られる FDP を評価します。依然として汎用であるにもかかわらず、当社の最高のモデルは、最先端の画像編集モデルと競合するパフォーマンスを達成し、GPT4o-as-judge によると、それらを 7% から 13% のマージンで改善し、Aurora-Bench のすべてのサブセットにわたって最高の平均人間評価を達成しました。
原文 (English)
Can VLMs Predict Future States? Bootstrapping World Models from Inverse Dynamics
Can unified vision-language models (VLMs) perform forward dynamics prediction (FDP), i.e., predicting the future state (in image form) given the previous observation and an action (in language form)? We find that VLMs struggle to generate physically plausible transitions between frames from instructions. Nevertheless, we identify a crucial asymmetry in multimodal grounding: fine-tuning a VLM to learn inverse dynamics prediction (IDP)-effectively captioning the action between frames-is significantly easier than learning FDP. In turn, IDP can be used to bootstrap FDP through two main strategies: 1) weakly supervised learning from synthetic data and 2) inference time verification. Firstly, IDP can annotate actions for unlabelled pairs of video frame observations to expand the training data scale for FDP. Secondly, IDP can assign rewards to multiple samples of FDP to score them, effectively guiding search at inference time. We evaluate the FDP resulting from both strategies through the task of action-centric image editing on Aurora-Bench with two families of VLMs. Despite remaining general-purpose, our best model achieves a performance competitive with state-of-the-art image editing models, improving on them by a margin between 7% and 13% according to GPT4o-as-judge, and achieving the best average human evaluation across all subsets of Aurora-Bench.
推論としての時系列予測: 強化された LLM を使用したゆっくりとした思考のアプローチ
時系列予測 (TSF) を進歩させるために、予測精度を向上させるさまざまな方法が提案されており、統計的手法からデータ駆動型の深層学習アーキテクチャに進化しています。その有効性にもかかわらず、既存の手法のほとんどは依然として高速思考パラダイムに固執しており、中核となるモデリング哲学として歴史的パターンの抽出と将来の値へのマッピングに依存しており、中間の時系列推論を組み込んだ明示的な思考プロセスが欠けています。一方、新興の低速思考 LLM (OpenAI-o1 など) は、驚くべき多段階推論能力を示し、これらの問題を克服する代替方法を提供しています。ただし、迅速なエンジニアリングだけでは、高い計算コスト、プライバシーのリスク、ドメイン固有の時系列推論の詳細な能力の制限など、いくつかの制限があります。これらの制限に対処するためのより有望なアプローチは、ゆっくりとした思考能力を開発し、強力な時系列推論スキルを獲得するように LLM を訓練することです。この目的のために、時系列予測のためのLLMの多段階推論能力を強化するように設計された2段階の強化微調整フレームワークであるTime-R1を提案します。具体的には、第 1 段階ではウォームアップ適応のための教師あり微調整を行い、第 2 段階では強化学習を採用してモデルの汎化能力を向上させます。特に、時系列予測に特化したきめの細かい多目的報酬を設計し、次に GRIP (ポリシー最適化のためのグループベースの相対重要度) を導入します。これは、不均一なサンプリングを活用して、モデルによる効果的な推論パスの探索をさらに促進および最適化します。実験では、Time-R1 がさまざまなデータセットにわたって予測パフォーマンスを大幅に向上させることが実証されています。
原文 (English)
Time Series Forecasting as Reasoning: A Slow-Thinking Approach with Reinforced LLMs
To advance time series forecasting (TSF), various methods have been proposed to improve prediction accuracy, evolving from statistical techniques to data-driven deep learning architectures. Despite their effectiveness, most existing methods still adhere to a fast thinking paradigm-relying on extracting historical patterns and mapping them to future values as their core modeling philosophy, lacking an explicit thinking process that incorporates intermediate time series reasoning. Meanwhile, emerging slow-thinking LLMs (e.g., OpenAI-o1) have shown remarkable multi-step reasoning capabilities, offering an alternative way to overcome these issues. However, prompt engineering alone presents several limitations - including high computational cost, privacy risks, and limited capacity for in-depth domain-specific time series reasoning. To address these limitations, a more promising approach is to train LLMs to develop slow thinking capabilities and acquire strong time series reasoning skills. For this purpose, we propose Time-R1, a two-stage reinforcement fine-tuning framework designed to enhance multi-step reasoning ability of LLMs for time series forecasting. Specifically, the first stage conducts supervised fine-tuning for warmup adaptation, while the second stage employs reinforcement learning to improve the model's generalization ability. Particularly, we design a fine-grained multi-objective reward specifically for time series forecasting, and then introduce GRIP (group-based relative importance for policy optimization), which leverages non-uniform sampling to further encourage and optimize the model's exploration of effective reasoning paths. Experiments demonstrate that Time-R1 significantly improves forecast performance across diverse datasets.
グラフ検索からスキーマ実現まで: 異種ナレッジ グラフ上のテキストから SPARQL への反事実検証
Text-to-SPARQL は、自然言語の質問を RDF ナレッジ グラフ上の実行可能な SPARQL クエリにマッピングします。標準的な評価ではターゲット グラフが事前に修正されることがよくありますが、実践的なナレッジ グラフ質問応答 (KGQA) には、異なるスキーマ、部分的なアラインメント、および不完全なメタデータを含む異種グラフ コレクションが含まれる場合があります。この設定では、クエリ生成は SPARQL 構文以上のものに依存します。システムは、質問に必要な述語、エンティティ タイプ、結合、フィルター、および制約をサポートできるグラフ スキーマを識別する必要があります。異種の KG コレクション上でテキストから SPARQL に変換するためのスキーマベースのエージェント フレームワークである SchemaForge を紹介します。その中心的なメカニズムは、質問条件付きのスキーマ スライス アライメントです。弱いグラフの証拠によって最初にもっともらしいグラフが特定され、より強力なスキーマの証拠によって、ローカル スキーマ スライスが意図したクエリを実現できるかどうかが決まります。選択されたスキーマ スライスは、クエリの生成と実行前の検証を制限します。利用可能なグラフが 1 つだけの場合、同じ定式化は、スキーマ基盤を備えた標準の単一 KG テキストから SPARQL への変換に縮小されます。 LC-QuAD 2.0、QALD-9 Plus、QALD-10、および Spider4SPARQL で SchemaForge を評価します。 SchemaForge は、4 つの公開ベンチマーク全体で、最も一致するエージェントのベースラインよりも実行精度を平均 11.50 パーセント向上させています。 Spider4SPARQL では、SchemaForge は実行精度を 54.86% から 64.18% に向上させ、トップ 1 グラフ割り当て精度 73.0% とトップ 3 グラフ割り当て精度 97.0% を達成しました。これらの結果は、グラフの弱い証拠からスキーマ固有のクエリコミットメントへの移行と、反事実の回答セットのチェックにより、異種ナレッジグラフよりも実行可能なクエリの生成が向上することを示しています。
原文 (English)
From Graph Retrieval to Schema Realization: Counterfactual Validation for Text-to-SPARQL over Heterogeneous Knowledge Graphs
Text-to-SPARQL maps natural-language questions to executable SPARQL queries over RDF knowledge graphs. While standard evaluations often fix the target graph in advance, practical knowledge graph question answering (KGQA) may involve heterogeneous graph collections with different schemas, partial alignments, and incomplete metadata. In this setting, query generation depends on more than SPARQL syntax: the system must identify a graph schema that can support the predicates, entity types, joins, filters, and constraints required by the question. We present SchemaForge, a schema-grounded agentic framework for text-to-SPARQL over heterogeneous KG collections. Its central mechanism is question-conditioned schema-slice alignment: weak graph evidence first identifies plausible graphs, while stronger schema evidence determines whether a local schema slice can realize the intended query. The selected schema slice then constrains query generation and verification before execution. When only one graph is available, the same formulation reduces to standard single-KG text-to-SPARQL with schema grounding. We evaluate SchemaForge on LC-QuAD 2.0, QALD-9 Plus, QALD-10, and Spider4SPARQL. Across the four public benchmarks, SchemaForge improves execution accuracy over the strongest matched agent baseline by 11.50 percentage points on average. On Spider4SPARQL, SchemaForge improves execution accuracy from 54.86% to 64.18% and achieves 73.0% Top-1 and 97.0% Top-3 graph allocation accuracy. These results show that moving from weak graph evidence to schema-specific query commitments, together with counterfactual answer-set checks, improves executable query generation over heterogeneous knowledge graphs.
BioBlue: 簡略化された観察形式による、生物学的および経済的に調整された LLM の AI 安全性ベンチマークにおける体系的な暴走オプティマイザーのような LLM 故障モード
「暴走最適化」に関する AI 調整の議論の多くは、RL エージェントに焦点を当てています。RL エージェントは、他のすべてを犠牲にして代用目的を過剰に最適化する無制限のユーティリティ最大化装置 (例: 「ペーパークリップ最大化装置」、仕様ゲーム) です。 LLM ベースのシステムは、永続的なオプティマイザーではなく次のトークンの予測子として機能するため、多くの場合、より安全であると考えられています。私たちは、時間の経過とともに目標の状態を維持したりバランスを取る必要がある単純な長期制御スタイルの環境に LLM を配置することで、この仮定を実証的にテストします。つまり、単一および複数の目標の恒常性、収益逓減と無制限の目標のバランス、および再生可能資源の持続可能性です。私たちは、LLM が多くのステップに対して適切に行動し、定められた目的を明確に理解しているにもかかわらず、構造化された方法でコンテキストを失い、暴走的な行動に陥ることがよくあります。つまり、恒常性目標を無視し、複数の目的のトレードオフから単一の目的の最大化に崩壊するため、凹型の効用構造を尊重できません。これらの失敗は、有能な動作の初期期間の後に確実に発生し、その時点でコンテキスト ウィンドウが完全には程遠いにもかかわらず、特徴的なパターン (自己模倣的な振動、無制限の最大化、単一目的の最適化への復帰など) を示します。問題は、LLM がコンテキストを失い、一貫性がなくなるだけではありません。 LLM は表面的には多目的で境界があるように見えますが、複数の目的が関与する持続的な相互作用の下での LLM の動作は、単一目的で境界のない、調整が不十分なオプティマイザーのように動作するように体系的に偏っています。我々は、トークンレベルのパターン強化アトラクターを仮説とします。LLM は、元の指示からではなく、最近の行動履歴のトークン パターンから行動をますます導き出す可能性があります。なぜこれが複数の目的の設定でのみ起こるのかは未解決の問題のままです。
原文 (English)
BioBlue: Systematic runaway-optimiser-like LLM failure modes on biologically and economically aligned AI safety benchmarks for LLMs with simplified observation format
Many AI alignment discussions of "runaway optimisation" focus on RL agents: unbounded utility maximisers that over-optimise a proxy objective (e.g., "paperclip maximiser", specification gaming) at the expense of everything else. LLM-based systems are often assumed to be safer because they function as next-token predictors rather than persistent optimisers. We empirically test this assumption by placing LLMs in simple, long-horizon control-style environments that require maintaining state of or balancing objectives over time: single- and multi-objective homeostasis, balancing unbounded objectives with diminishing returns, and sustainability of a renewable resource. We find that, although LLMs frequently behave appropriately for many steps and clearly understand the stated objectives, they often lose context in structured ways and drift into runaway behaviours: ignoring homeostatic targets, collapsing from multi-objective trade-offs into single-objective maximisation - thus failing to respect concave utility structures. These failures emerge reliably after initial periods of competent behaviour and exhibit characteristic patterns (including self-imitative oscillations, unbounded maximisation, and reverting to single-objective optimisation), even though the context window is far from full at that point. The problem is not that the LLMs just lose context and become incoherent. Although LLMs appear multi-objective and bounded on the surface, their behaviour under sustained interaction involving multiple objectives, is systematically biased towards acting like single-objective, unbounded, poorly aligned optimisers. We hypothesise a token-level pattern reinforcement attractor: LLMs may increasingly derive actions from the token patterns of their recent action history rather than from the original instructions. Why this happens only in multi-objective settings remains an open question.
KITE: コンテキスト内学習のためのカーネル化および情報理論のサンプル
インコンテキスト学習 (ICL) は、プロンプトに表示される厳選されたいくつかのタスク固有の例のみを使用して、大規模言語モデル (LLM) を新しいデータ不足のタスクに適応させるための強力なパラダイムとして登場しました。ただし、LLM のコンテキスト サイズが限られていると、基本的な疑問が生じます。特定のユーザー クエリのパフォーマンスを最大化するにはどのサンプルを選択する必要があるかということです。 KATE のような最近傍ベースの手法はこの目的で広く採用されていますが、高次元の埋め込み空間では一般化が不十分で多様性が欠如しているなどのよく知られた欠点があります。この研究では、原則に基づいた情報理論主導の観点から、ICL における例の選択の問題を研究します。まず、入力埋め込みに対する線形関数として LLM をモデル化し、サンプル選択タスクをクエリ固有の最適化問題としてフレーム化します。つまり、特定のクエリの予測誤差を最小限に抑える、より大きなサンプル バンクからサンプルのサブセットを選択します。この定式化は、特定のクエリ インスタンスの正確な予測をターゲットにすることで、一般化に焦点を当てた従来の学習理論的アプローチから逸脱しています。ほぼサブモジュール化された原則に基づいた代理目標を導出し、近似を保証する貪欲なアルゴリズムの使用を可能にします。 (i) 明示的なマッピングを使用せずに高次元の特徴空間で動作するカーネル トリックを組み込むこと、および (ii) 選択された例の多様性を促進する最適な設計ベースの正則化機能を導入することによって、この方法をさらに強化します。経験的に、一連の分類タスク全体にわたって標準的な検索方法に比べて大幅な改善が見られることを実証し、現実世界のラベル不足シナリオにおける ICL の構造を認識した多様なサンプル選択の利点を強調しています。
原文 (English)
KITE: Kernelized and Information Theoretic Exemplars for In-Context Learning
In-context learning (ICL) has emerged as a powerful paradigm for adapting large language models (LLMs) to new and data-scarce tasks using only a few carefully selected task-specific examples presented in the prompt. However, given the limited context size of LLMs, a fundamental question arises: Which examples should be selected to maximize performance on a given user query? While nearest-neighbor-based methods like KATE have been widely adopted for this purpose, they suffer from well-known drawbacks in high-dimensional embedding spaces, including poor generalization and a lack of diversity. In this work, we study this problem of example selection in ICL from a principled, information theory-driven perspective. We first model an LLM as a linear function over input embeddings and frame the example selection task as a query-specific optimization problem: selecting a subset of exemplars from a larger example bank that minimizes the prediction error on a specific query. This formulation departs from traditional generalization-focused learning theoretic approaches by targeting accurate prediction for a specific query instance. We derive a principled surrogate objective that is approximately submodular, enabling the use of a greedy algorithm with an approximation guarantee. We further enhance our method by (i) incorporating the kernel trick to operate in high-dimensional feature spaces without explicit mappings, and (ii) introducing an optimal design-based regularizer to encourage diversity in the selected examples. Empirically, we demonstrate significant improvements over standard retrieval methods across a suite of classification tasks, highlighting the benefits of structure-aware, diverse example selection for ICL in real-world, label-scarce scenarios.
推論パスは入力として引き続き有効ですか?事後推論から思考連鎖の圧縮への橋渡し
最近の開発により、長い思考連鎖 (CoT) を介した大規模言語モデル (LLM) での高度な推論が可能になり、推論中の効率とパフォーマンスを引き換えにします。既存の作品は、推論時に生成されるCoTを圧縮することに焦点を当てており、正解を導き出すために必要な情報が損なわれています。この研究では、LLM の推論タスクを簡素化するために CoT をコンテキストの一部として取り入れる推論パラダイムであるポスト推論を提案します。事後推論により LLM の生成長が大幅に短縮されるが、その有効性はコンテキスト CoT 生成の効率と信頼性に左右されることがわかりました。したがって、我々は、CoT 圧縮のための効率的な事後推論フレームワークである Upfront CoT (UCoT) を提案します。 UCoT は、軽量モデル (コンプレッサー) をトレーニングしてコンテキストに応じた CoT をソフト トークンの形式で提供し、LLM (エグゼキューター) をトレーニングしてこのコンテキストに応じた CoT を活用して最終的な答えを生成します。広範な実験により、UCoT は CoT の長さを大幅に短縮しながら、実行者の強力な推論能力を維持することが示されました。 UCoT を Qwen2.5-7B-Instruct モデルに適用すると、GSM8K データセットでのトークンの使用量が 50% 削減され、パフォーマンスは最先端 (SOTA) メソッドよりも 3.08% 向上しました。
原文 (English)
Can Reasoning Path still be Effective as Input? Bridging Post-Reasoning to Chain-of-Thought Compression
Recent developments have enabled advanced reasoning in Large Language Models (LLMs) via long Chain-of-Thought (CoT), trading efficiency during inference for performance. Existing works focus on compressing generated CoT in reasoning, which impairs the necessary information for deriving the correct answer. In this work, we propose post-reasoning, a reasoning paradigm that takes CoT as a part of context to simplify the reasoning task for LLMs. We find that post-reasoning significantly reduces the generation length of LLMs, but its effectiveness hinges on the efficiency and the reliability of the contextual CoT generation. Therefore, we propose Upfront CoT (UCoT), an efficient post-reasoning framework for CoT compression. UCoT trains a lightweight model (compressor) to provide contextual CoT in form of soft tokens and trains the LLM (executor) to leverage this contextual CoT for producing the final answer. Extensive experiments show that UCoT maintains the powerful reasoning ability of executor while significantly reducing the length of CoT. It is worth mentioning that when applying UCoT to the Qwen2.5-7B-Instruct model, the usage of tokens on GSM8K dataset is reduced by 50%, while the performance is 3.08% higher than that of the state-of-the-art (SOTA) method.
プレロジット空間での重要度サンプリングによる、テスト時の報酬に基づく言語モデルの調整
大規模言語モデル (LLM) の微調整には高い計算コストが必要となるため、LLM のテスト時の調整が注目を集めています。本稿では、確率的制御入力を用いたサンプリングベースのモデル予測制御に基づいた、プリロジット上の適応重要度サンプリング(AISP)と呼ばれる新しいテスト時間報酬ガイド型アライメント手法を提案します。 AISP は、摂動の平均に関して期待される報酬を最大化するために、ガウス摂動を最後から 2 番目の層の出力であるプレロジットに適用します。最適な平均は、サンプリングされた報酬を使用した重要度サンプリングによって取得されることを示します。 AISP は、使用されたサンプル数に対する報酬の点で best-of-n サンプリングよりも優れたパフォーマンスを示し、他の報酬ベースのテスト時間調整方法よりも高い報酬を達成します。
原文 (English)
Test-time reward-guided alignment of language models by importance sampling on pre-logit space
Test-time alignment of large language models (LLMs) attracts attention because fine-tuning of LLMs requires high computational costs. In this paper, we propose a new test-time reward-guided alignment method called adaptive importance sampling on pre-logits (AISP) on the basis of the sampling-based model predictive control with the stochastic control input. AISP applies the Gaussian perturbation into pre-logits, which are outputs of the penultimate layer, so as to maximize expected rewards with respect to the mean of the perturbation. We demonstrate that the optimal mean is obtained by importance sampling with sampled rewards. AISP outperforms best-of-n sampling in terms of rewards over the number of used samples and achieves higher rewards than other reward-based test-time alignment methods.
OckBench: LLM 推論の効率を測定する
GPT-5 や Gemini 3 などの大規模言語モデル (LLM) は、自動推論とコード生成の最前線を押し広げました。しかし、現在のベンチマークは精度と出力品質を重視し、トークンの使用効率という重要な側面を無視しています。実際には、トークンの効率は大きく変動します。同じ問題を同様の精度で解決するモデルでは、トークン長に最大 \textbf{5.0$\times$} の違いが見られ、モデルの推論能力に大きなギャップが生じる可能性があります。このような差異は重大な冗長性を明らかにし、トークン効率のギャップを定量化するための標準化されたベンチマークの重要な必要性を浮き彫りにします。そこで、推論タスクとコーディングタスク全体で精度とトークン効率を共同で測定する初のベンチマークである OckBench を紹介します。私たちの評価では、現在のモデル全体でトークンの効率がほとんど最適化されていないため、サービスのコストと待ち時間が大幅に増大していることが明らかになりました。これらの発見は、潜在的な推論能力とトークン効率を最適化するための具体的なロードマップをコミュニティに提供します。最終的に、私たちは評価のパラダイム シフトを主張します。つまり、必要以上にトークンを増やしてはなりません。私たちのベンチマークは https://ockbench.github.io/ で入手できます。
原文 (English)
OckBench: Measuring the Efficiency of LLM Reasoning
Large language models (LLMs) such as GPT-5 and Gemini 3 have pushed the frontier of automated reasoning and code generation. Yet current benchmarks emphasize accuracy and output quality, neglecting a critical dimension: efficiency of token usage. The token efficiency is highly variable in practical. Models solving the same problem with similar accuracy can exhibit up to a \textbf{5.0$\times$} difference in token length, leading to massive gap of model reasoning ability. Such variance exposes significant redundancy, highlighting the critical need for a standardized benchmark to quantify the gap of token efficiency. Thus, we introduce OckBench, the first benchmark that jointly measures accuracy and token efficiency across reasoning and coding tasks. Our evaluation reveals that token efficiency remains largely unoptimized across current models, significantly inflating serving costs and latency. These findings provide a concrete roadmap for the community to optimize the latent reasoning ability, token efficiency. Ultimately, we argue for an evaluation paradigm shift: tokens must not be multiplied beyond necessity. Our benchmarks are available at https://ockbench.github.io/.
ライブストリームでの動的コンテンツモデレーション: 教師あり分類と MLLM ブースト類似性マッチングの組み合わせ
コンテンツのモデレーションは、大規模なユーザー生成ビデオ プラットフォームにとって、特にモデレーションがタイムリーでマルチモーダルで、進化する形の望ましくないコンテンツに対して堅牢である必要があるライブストリーミング環境では、依然として重要かつ困難なタスクです。既知の違反に対する教師あり分類と、新規または微妙なケースに対する参照ベースの類似性マッチングを組み合わせた、実稼働規模で導入されたハイブリッドモデレーションフレームワークを紹介します。このハイブリッド設計により、明示的な違反と従来の分類子を回避する新しいエッジ ケースの両方を確実に検出できます。マルチモーダル入力 (テキスト、オーディオ、ビジュアル) は両方のパイプラインを通じて処理され、マルチモーダル大規模言語モデル (MLLM) によって知識がそれぞれに抽出され、推論を軽量に保ちながら精度を高めます。運用環境では、分類パイプラインは 80% の精度で 67% の再現率を達成し、類似性パイプラインは 80% の精度で 76% の再現率を達成します。大規模な A/B テストでは、不要なライブストリームのユーザー視聴が 6 ~ 8% 減少することが示されています。これらの結果は、明示的な違反と新たな敵対行為の両方に対処できる、マルチモーダル コンテンツ ガバナンスへのスケーラブルで適応性のあるアプローチを示しています。
原文 (English)
Dynamic Content Moderation in Livestreams: Combining Supervised Classification with MLLM-Boosted Similarity Matching
Content moderation remains a critical yet challenging task for large-scale user-generated video platforms, especially in livestreaming environments where moderation must be timely, multimodal, and robust to evolving forms of unwanted content. We present a hybrid moderation framework deployed at production scale that combines supervised classification for known violations with reference-based similarity matching for novel or subtle cases. This hybrid design enables robust detection of both explicit violations and novel edge cases that evade traditional classifiers. Multimodal inputs (text, audio, visual) are processed through both pipelines, with a multimodal large language model (MLLM) distilling knowledge into each to boost accuracy while keeping inference lightweight. In production, the classification pipeline achieves 67% recall at 80% precision, and the similarity pipeline achieves 76% recall at 80% precision. Large-scale A/B tests show a 6-8% reduction in user views of unwanted livestreams}. These results demonstrate a scalable and adaptable approach to multimodal content governance, capable of addressing both explicit violations and emerging adversarial behaviors.
トポロジは重要です: マルチエージェント LLM のメモリ リークの測定
グラフ トポロジは、マルチエージェント LLM システムにおけるメモリ リークの基本的な決定要因ですが、その影響は依然として十分に定量化されていません。マルチエージェント LLM システムにおけるトポロジ条件付きメモリ リークを比較するための制御された評価フレームワークである MAMA (Multi-Agent Memory Attack) を紹介します。 MAMA は、ラベル付きの個人識別情報 (PII) エンティティを含む合成文書を操作し、そこからサニタイズされたタスク指示を生成します。私たちは、エングラム (ターゲット エージェントのメモリに個人情報をシードする) とレゾナンス (攻撃者が抽出を試みるマルチラウンド インタラクション) の 2 段階のプロトコルを実行します。 10 ラウンドにわたって、完全一致抽出と攻撃者の最終出力に対する LLM ベースの推論を組み合わせた 2 段階の回復基準を使用して漏洩を測定します。 $n\in\{4,5,6\}$、攻撃者とターゲットの配置、および基本モデルにわたる 6 つの正規トポロジ (完全、円、チェーン、ツリー、スター、スター リング) を評価します。結果は一貫しています。接続が密になり、攻撃者とターゲットの距離が短くなり、ターゲットの中心性が高くなることで漏洩が増加します。ほとんどの漏れはラウンド初期に発生し、その後プラトーになります。モデルの選択により絶対率は変化しますが、広範な構造傾向は維持されます。時空間/位置属性は、ID 資格情報や規制された識別子よりも漏洩しやすいです。私たちは、システム設計のための実践的なガイダンスを抽出します。つまり、疎接続または階層接続を優先し、攻撃者とターゲットの分離を最大限に高め、トポロジーを意識したアクセス制御によってハブ/ショートカット経路を制限します。私たちのコードは https://github.com/llll121/mama-eval で入手できます。
原文 (English)
Topology Matters: Measuring Memory Leakage in Multi-Agent LLMs
Graph topology is a fundamental determinant of memory leakage in multi-agent LLM systems, yet its effects remain poorly quantified. We introduce MAMA (Multi-Agent Memory Attack), a controlled evaluation framework for comparing topology-conditioned memory leakage in multi-agent LLM systems. MAMA operates on synthetic documents containing labeled Personally Identifiable Information (PII) entities, from which we generate sanitized task instructions. We execute a two-phase protocol: Engram (seeding private information into a target agent's memory) and Resonance (multi-round interaction where an attacker attempts extraction). Over 10 rounds, we measure leakage using a two-stage recovery criterion that combines exact-match extraction with LLM-based inference over the attacker's final output. We evaluate six canonical topologies (complete, circle, chain, tree, star, star-ring) across $n\in\{4,5,6\}$, attacker-target placements, and base models. Results are consistent: denser connectivity, shorter attacker-target distance, and higher target centrality increase leakage; most leakage occurs in early rounds and then plateaus; model choice shifts absolute rates but preserves broad structural trends; spatiotemporal/location attributes leak more readily than identity credentials or regulated identifiers. We distill practical guidance for system design: favor sparse or hierarchical connectivity, maximize attacker-target separation, and restrict hub/shortcut pathways via topology-aware access control. Our code is available at https://github.com/llll121/mama-eval.
大規模言語モデルにおける幾何学認識型幻覚検出
大規模言語モデル (LLM) は、一般に幻覚と呼ばれる、事実に誤りがあるコンテンツやサポートされていないコンテンツを頻繁に生成します。これまでの研究では、解読戦略、検索の強化、幻覚検出のための教師付き微調整が検討されてきましたが、最近の研究では、コンテキスト内学習 (ICL) が事実の信頼性に大きな影響を与える可能性があることが示されています。ただし、既存の ICL デモンストレーション選択方法は、表面レベルの類似性ヒューリスティックに依存することが多く、タスクやモデル全体での堅牢性が限られています。我々は、フリーズした LLM から抽出された潜在表現を活用する、コンテキスト内のデモンストレーションを選択するための、ジオメトリを意識したデモンストレーション サンプリング フレームワークである GA-ICL を提案します。 GA-ICL は、ローカル多様体構造とクラス認識プロトタイプ幾何学を共同でモデル化することで、語彙や埋め込みの類似性だけではなく、学習されたプロトタイプへの近さに基づいてデモンストレーションを選択します。事実検証 (FEVER) と幻覚検出 (HaluEval) ベンチマーク全体で、GA-ICL は評価された設定の大部分で標準的な ICL 選択ベースラインを上回り、特に対話と要約タスクで大きな向上を示しました。この方法は、温度摂動やモデルの変動の下でも堅牢性を維持しており、ヒューリスティック検索戦略と比較して安定性が向上していることを示しています。語彙検索は、モデル規模が小さい場合でも特定の質問応答方式では競争力を維持できますが、我々の結果は、ジオメトリを意識したプロトタイプの選択が、LLM パラメーターを変更せずに幻覚検出のための信頼性が高く、トレーニングに適したアプローチを提供することを示しています。 Phi-14B および Qwen3-32B の拡張評価では、GA-ICL がより大きなモデルに効果的に拡張でき、より小さなモデルが境界条件の制限を示す QA タスクを含む、比較されたすべてのベースラインを上回っていることが確認され、ICL デモの選択を改善するための原則的な方向性が示されています。
原文 (English)
Geometry-Aware Hallucination Detection in Large Language Models
Large language models (LLMs) frequently generate factually incorrect or unsupported content, commonly referred to as hallucinations. Prior work has explored decoding strategies, retrieval augmentation, and supervised fine-tuning for hallucination detection, while recent studies show that in-context learning (ICL) can substantially influence factual reliability. However, existing ICL demonstration selection methods often rely on surface-level similarity heuristics and exhibit limited robustness across tasks and models. We propose GA-ICL, a geometry-aware demonstration sampling framework for selecting in-context demonstrations that leverages latent representations extracted from frozen LLMs. By jointly modeling local manifold structure and class-aware prototype geometry, GA-ICL selects demonstrations based on their proximity to learned prototypes rather than lexical or embedding similarity alone. Across factual verification (FEVER) and hallucination detection (HaluEval) benchmarks, GA-ICL outperforms standard ICL selection baselines in the majority of evaluated settings, with particularly strong gains on dialogue and summarization tasks. The method remains robust under temperature perturbations and model variation, indicating improved stability compared to heuristic retrieval strategies. While lexical retrieval can remain competitive in certain question-answering regimes at smaller model scales, our results demonstrate that geometry-aware prototype selection provides a reliable and training-light approach for hallucination detection without modifying LLM parameters. Extended evaluations on Phi-14B and Qwen3-32B confirm that GA-ICL scales effectively to larger models, outperforming all compared baselines including on QA tasks where smaller models show boundary-condition limitations, offering a principled direction for improved ICL demonstration selection.
Mid-Think: トークンレベルのトリガーによるトレーニング不要の中間予算推論
ハイブリッド推論言語モデルは一般に、推論動作を制御するための高レベルの考える/考えない命令によって制御されますが、そのようなモードの切り替えは主に、命令自体ではなく、トリガー トークンの小さなセットによって駆動されることがわかりました。注意分析と制御されたプロンプト実験を通じて、先頭の「わかりました」トークンが推論行動を誘発する一方、「」に続く改行パターンがそれを抑制することを示しました。この観察に基づいて、これらのトリガーを組み合わせて中間予算の推論を実現し、精度と長さのトレードオフの点で固定トークンおよびプロンプトベースのベースラインを常に上回るパフォーマンスを実現する、シンプルなトレーニング不要のプロンプト形式である Mid-Think を提案します。さらに、SFT 後の RL トレーニングに Mid-Think を適用すると、トレーニング時間が約 15% 短縮され、AIME での Qwen3-8B の最終パフォーマンスが 69.8% から 72.4% に、GPQA での最終パフォーマンスが 58.5% から 61.1% に向上し、推論時間制御と RL ベースの推論トレーニングの両方でその有効性が実証されました。
原文 (English)
Mid-Think: Training-Free Intermediate-Budget Reasoning via Token-Level Triggers
Hybrid reasoning language models are commonly controlled through high-level Think/No-think instructions to regulate reasoning behavior, yet we found that such mode switching is largely driven by a small set of trigger tokens rather than the instructions themselves. Through attention analysis and controlled prompting experiments, we show that a leading ``Okay'' token induces reasoning behavior, while the newline pattern following ``'' suppresses it. Based on this observation, we propose Mid-Think, a simple training-free prompting format that combines these triggers to achieve intermediate-budget reasoning, consistently outperforming fixed-token and prompt-based baselines in terms of the accuracy-length trade-off. Furthermore, applying Mid-Think to RL training after SFT reduces training time by approximately 15% while improving final performance of Qwen3-8B on AIME from 69.8% to 72.4% and on GPQA from 58.5% to 61.1%, demonstrating its effectiveness for both inference-time control and RL-based reasoning training.
有界双曲線正接: 大規模言語モデルにおける前層正規化の安定した効率的な代替手段
前層正規化 (Pre-LN) は大規模言語モデル (LLM) の事実上の選択肢であり、安定した事前トレーニングと効果的な転移学習に不可欠です。ただし、Pre-LN は統計計算のオーバーヘッドを繰り返し発生し、層の数が増加するにつれて隠れ状態の大きさと分散が増大する深さの呪いに対して脆弱なままであり、トレーニングが不安定になります。 Dynamic Tanh (DyT) などの効率重視の正規化不要の手法はスループットを向上させますが、深度では脆弱なままです。安定性と効率性を共同で解決するために、Pre-LN のドロップイン代替品である有界双曲線 Tanh (BHyT) を提案します。 BHyT は、tanh 非線形性と明示的なデータ駆動型入力境界を組み合わせて、アクティベーションを非飽和範囲内に保ちます。これにより、活性化の大きさと分散の深さ方向の増大が防止され、理論的な安定性が保証されます。効率性を高めるため、BHyT はブロックごとに 1 回正確な統計を計算し、2 番目の正規化を軽量の分散近似に置き換えます。経験的に、BHyT は事前トレーニング中の安定性と効率の向上を実証し、RMSNorm と比較して平均 1.6\% 高速なトレーニングと平均 1.77\% 高いトークン生成スループットを達成しながら、言語理解と推論ベンチマーク全体で事前トレーニングのみおよび SFT 後の強力なパフォーマンスを維持しています\footnote{コードは https://github.com/MLAI-Yonsei/BHyT} で入手できます。
原文 (English)
Bounded Hyperbolic Tangent: A Stable and Efficient Alternative to Pre-Layer Normalization in Large Language Models
Pre-Layer Normalization (Pre-LN) is the de facto choice for large language models (LLMs) and is crucial for stable pretraining and effective transfer learning. However, Pre-LN incurs repeated statistical-computation overhead and remains vulnerable to the curse of depth, where hidden-state magnitudes and variances grow as the number of layers increases, destabilizing training. Efficiency-oriented normalization-free methods such as Dynamic Tanh (DyT) improve throughput but remain fragile at depth. To jointly address stability and efficiency, we propose Bounded Hyperbolic Tanh (BHyT), a drop-in replacement for Pre-LN. BHyT combines a tanh nonlinearity with explicit, data-driven input bounding to keep activations within a non-saturating range. It prevents depth-wise growth in activation magnitude and variance and provides a theoretical stability guarantee. For efficiency, BHyT computes exact statistics once per block and replaces a second normalization with a lightweight variance approximation. Empirically, BHyT demonstrates improved stability and efficiency during pretraining, achieving an average of 1.6\% faster training and an average of 1.77\% higher token generation throughput compared to RMSNorm, while maintaining strong pretraining-only and post-SFT performance across language understanding and reasoning benchmarks\footnote{Code is available at: https://github.com/MLAI-Yonsei/BHyT}.
MedRedFlag: LLM が現実世界の医療コミュニケーションにおける誤解をどのように方向転換するかを調査する
患者からの現実世界の健康に関する質問には、意図せず誤った仮定や前提が含まれていることがよくあります。このような場合、安全な医療コミュニケーションには通常、方向転換が含まれます。つまり、暗黙の誤解に対処し、その後、元の質問ではなく、根底にある患者の状況に応答します。大規模言語モデル (LLM) は医療アドバイスのために一般ユーザーによって使用されることが増えていますが、この重要な能力についてはまだテストされていません。したがって、この研究では、現実世界の健康に関する質問に埋め込まれた誤った前提に対して LLM がどのように反応するかを調査します。私たちは、Reddit から取得したリダイレクトを必要とする 1,100 以上の質問のデータセットである MedRedFlag をキュレーションするための半自動パイプラインを開発しています。次に、最先端の LLM からの反応を臨床医からの反応と体系的に比較します。私たちの分析により、LLM は問題のある前提が検出された場合でも、問題のある質問の方向を変えることができず、次善の医療意思決定につながる可能性のある回答を提供できないことが明らかになりました。私たちのベンチマークとその結果は、現実世界の医療コミュニケーションの条件下で LLM がどのように機能するかについて、これまでにない大幅なギャップを明らかにし、患者に直面する医療 AI システムに対する重大な安全上の懸念を浮き彫りにしています。コードとデータセットは https://github.com/srsambara-1/MedRedFlag で入手できます。
原文 (English)
MedRedFlag: Investigating how LLMs Redirect Misconceptions in Real-World Health Communication
Real-world health questions from patients often unintentionally embed false assumptions or premises. In such cases, safe medical communication typically involves redirection: addressing the implicit misconception and then responding to the underlying patient context, rather than the original question. While large language models (LLMs) are increasingly being used by lay users for medical advice, they have not yet been tested for this crucial competency. Therefore, in this work, we investigate how LLMs react to false premises embedded within real-world health questions. We develop a semi-automated pipeline to curate MedRedFlag, a dataset of 1100+ questions sourced from Reddit that require redirection. We then systematically compare responses from state-of-the-art LLMs to those from clinicians. Our analysis reveals that LLMs often fail to redirect problematic questions, even when the problematic premise is detected, and provide answers that could lead to suboptimal medical decision making. Our benchmark and results reveal a novel and substantial gap in how LLMs perform under the conditions of real-world health communication, highlighting critical safety concerns for patient-facing medical AI systems. Code and dataset are available at https://github.com/srsambara-1/MedRedFlag.
プロの翻訳者は機械生成されたテキストを識別できますか?
この研究では、事前に専門的なトレーニングを受けていないプロの翻訳者が、人工知能 (AI) によって生成されたイタリア語の短編小説を確実に識別できるかどうかを調査します。 69 人の翻訳者が対面実験に参加し、匿名化された 3 つの短編小説 (ChatGPT-4o によって書かれた 2 つと人間の著者によって書かれた 1 つ) を評価しました。各ストーリーについて、参加者は AI の作者である可能性を評価し、その選択の正当性を示しました。平均的な結果は決定的ではありませんでしたが、統計的に有意なサブセット (16.2%) が合成テキストと人間のテキストを区別することに成功し、彼らの判断が偶然ではなく分析スキルに基づいて行われたことを示唆しています。しかし、ほぼ同数が反対方向にテキストを誤分類しており、多くの場合、客観的なマーカーではなく主観的な印象に依存しており、おそらく AI によって生成されたテキストに対する読者の好みを反映しています。バースト性の低さと物語の矛盾が、合成著作者であることを示す最も信頼できる指標として浮上し、予期せぬ表現、意味的借用、英語からの統語的転移も報告されました。対照的に、文法的な正確さや感情的な調子などの特徴が誤分類につながることがよくありました。これらの発見は、専門的な文脈における合成テキスト編集の役割と範囲について疑問を引き起こします。
原文 (English)
Can professional translators identify machine-generated text?
This study investigates whether professional translators without prior specialized training can reliably identify short stories generated in Italian by artificial intelligence (AI). Sixty-nine translators took part in an in-person experiment, where they assessed three anonymized short stories - two written by ChatGPT-4o and one by a human author. For each story, participants rated the likelihood of AI authorship and provided justifications for their choices. While average results were inconclusive, a statistically significant subset (16.2%) successfully distinguished the synthetic texts from the human text, suggesting that their judgements were informed by analytical skill rather than chance. However, a nearly equal number misclassified the texts in the opposite direction, often relying on subjective impressions rather than objective markers, possibly reflecting a reader preference for AI-generated texts. Low burstiness and narrative contradiction emerged as the most reliable indicators of synthetic authorship, with unexpected calques, semantic loans and syntactic transfer from English also reported. In contrast, features such as grammatical accuracy and emotional tone frequently led to misclassification. These findings raise questions about the role and scope of synthetic-text editing in professional contexts.
読者はAIが生成したイタリアの短編小説を好みますか?
この研究では、読者が著名なイタリア人作家が書いた短編小説よりも、AI が生成したイタリア語の短編小説を好むかどうかを調査しました。ブラインド設定では、20 人の参加者が 3 つのストーリー (2 つは ChatGPT-4o で作成され、1 つは Alberto Moravia によって作成されました) を、その起源について知らされることなく読み、評価しました。潜在的な影響要因を調査するために、読書習慣と、年齢、性別、教育、第一言語を含む人口統計データも収集されました。その結果、差はわずかであったものの、AI が書いたテキストの方が平均評価がわずかに高く、好まれる頻度が高かったことがわかりました。テキストの好みと人口統計または読書習慣の変数の間に統計的に有意な関連性は見つかりませんでした。これらの発見は、人間が執筆した小説に対する読者の好みに関する仮定に疑問を投げかけ、文学の文脈における合成テキスト編集の必要性について疑問を投げかけています。
原文 (English)
Do readers prefer AI-generated Italian short stories?
This study investigates whether readers prefer AI-generated short stories in Italian over one written by a renowned Italian author. In a blind setup, 20 participants read and evaluated three stories, two created with ChatGPT-4o and one by Alberto Moravia, without being informed of their origin. To explore potential influencing factors, reading habits and demographic data, comprising age, gender, education and first language, were also collected. The results showed that the AI-written texts received slightly higher average ratings and were more frequently preferred, although differences were modest. No statistically significant associations were found between text preference and demographic or reading-habit variables. These findings challenge assumptions about reader preference for human-authored fiction and raise questions about the necessity of synthetic-text editing in literary contexts.
マルチエージェント討論を読み解く: 自信と多様性の役割
マルチエージェント ディベート (MAD) は、テスト時間のスケーリングを通じて大規模言語モデル (LLM) のパフォーマンスを向上させるために広く使用されていますが、最近の研究では、バニラの MAD は、計算コストが高いにもかかわらず、単純な多数決を下回ることが多いことが示されています。研究によると、同種のエージェントと統一的な信念の更新の下では、議論は期待される正しさを維持するため、結果を確実に改善することはできません。人間による熟慮と集団的意思決定からの発見に基づいて、バニラ MAD に欠けている 2 つの重要なメカニズムを特定します。(i) 初期の視点の多様性と、(ii) 明示的で調整された信頼性のコミュニケーションです。私たちは 2 つの軽量介入を提案します。まず、多様性を意識した初期化により、より多様な回答候補プールが選択され、議論の開始時に正しい仮説が存在する可能性が高まります。 2 つ目は、エージェントが調整された自信を表現し、他の人の自信に基づいて最新情報を条件付けする、自信調整型ディベート プロトコルです。我々は、多様性を意識した初期化により、基礎となる更新ダイナミクスを変更することなく MAD 成功の事前確率が向上する一方で、信頼度調整された更新により、議論が体系的に正しい仮説に向かうことが可能になることを理論的に示します。経験的には、6 つの推論指向の QA ベンチマーク全体で、私たちの手法はバニラの MAD と多数決を一貫して上回っています。私たちの結果は、人間による熟慮と LLM ベースの議論を結びつけ、シンプルで原則に基づいた修正が議論の有効性を大幅に高めることができることを示しています。
原文 (English)
Demystifying Multi-Agent Debate: The Role of Confidence and Diversity
Multi-agent debate (MAD) is widely used to improve large language model (LLM) performance through test-time scaling, yet recent work shows that vanilla MAD often underperforms simple majority vote despite higher computational cost. Studies show that, under homogeneous agents and uniform belief updates, debate preserves expected correctness and therefore cannot reliably improve outcomes. Drawing on findings from human deliberation and collective decision-making, we identify two key mechanisms missing from vanilla MAD: (i) diversity of initial viewpoints and (ii) explicit, calibrated confidence communication. We propose two lightweight interventions. First, a diversity-aware initialisation that selects a more diverse pool of candidate answers, increasing the likelihood that a correct hypothesis is present at the start of debate. Second, a confidence-modulated debate protocol in which agents express calibrated confidence and condition their updates on others' confidence. We show theoretically that diversity-aware initialisation improves the prior probability of MAD success without changing the underlying update dynamics, while confidence-modulated updates enable debate to systematically drift to the correct hypothesis. Empirically, across six reasoning-oriented QA benchmarks, our methods consistently outperform vanilla MAD and majority vote. Our results connect human deliberation with LLM-based debate and demonstrate that simple, principled modifications can substantially enhance debate effectiveness.
大規模言語モデルにおける文化的に根拠のあるペルソナ: 特徴付けと社会心理学的価値フレームワークとの整合
人間の行動をシミュレートするための大規模言語モデル (LLM) の有用性が高まっているにもかかわらず、これらの合成ペルソナが、さまざまな文化条件にわたる世界および道徳的価値観をどの程度正確に反映しているかは依然として不確実です。この論文では、確立された枠組み、特に世界価値観調査 (WVS)、イングルハート・ヴェルゼル文化地図、道徳基盤理論と、文化に基づいた総合的なペルソナの整合性を調査します。私たちは、解釈可能な WVS 由来の変数のセットに基づいて LLM によって生成されたペルソナを概念化して生成し、生成されたペルソナを 3 つの相補的なレンズを通して検査します。世界価値観調査との人口統計レベルの一貫性。回答分布は人間のグループパターンを広範囲に追跡します。道徳的プロフィールは、道徳財団のアンケートから得られ、文化と道徳のマッピングを通じて分析し、さまざまな文化構成間で道徳的反応がどのように異なるかを特徴づけます。文化に基づいたペルソナの生成と分析のアプローチにより、異文化構造と道徳的変動の評価が可能になります。
原文 (English)
Culturally Grounded Personas in Large Language Models: Characterization and Alignment with Socio-Psychological Value Frameworks
Despite the growing utility of Large Language Models (LLMs) for simulating human behavior, the extent to which these synthetic personas accurately reflect world and moral value systems across different cultural conditionings remains uncertain. This paper investigates the alignment of synthetic, culturally-grounded personas with established frameworks, specifically the World Values Survey (WVS), the Inglehart-Welzel Cultural Map, and Moral Foundations Theory. We conceptualize and produce LLM-generated personas based on a set of interpretable WVS-derived variables, and we examine the generated personas through three complementary lenses: positioning on the Inglehart-Welzel map, which unveils their interpretation reflecting stable differences across cultural conditionings; demographic-level consistency with the World Values Survey, where response distributions broadly track human group patterns; and moral profiles derived from a Moral Foundations questionnaire, which we analyze through a culture-to-morality mapping to characterize how moral responses vary across different cultural configurations. Our approach of culturally-grounded persona generation and analysis enables evaluation of cross-cultural structure and moral variation.
自己蒸留で専門家の推論を学習可能にする
大規模言語モデル (LLM) の推論機能の向上は、通常、強化すべき正しい解決策をサンプリングするモデルの能力か、問題を解決できるより強力なモデルの存在に依存します。ただし、現在のフロンティア モデルでも多くの困難な問題が依然として解決できず、有効なトレーニング信号の抽出が妨げられています。有望な代替案は、高品質の専門家による人間によるソリューションを活用することですが、このデータの単純な模倣は失敗します。なぜなら、このデータは基本的に配布されていないためです。専門家によるソリューションは通常、教訓的であり、計算モデルではなく人間の読者を対象とした暗黙の推論のギャップが含まれています。さらに、高品質のエキスパート ソリューションは高価であるため、一般化可能でサンプル効率の高いトレーニング方法が必要です。私たちは、最初に専門家のソリューションを詳細な分布内の推論トレースに変換し、次に対照的な目標を適用して専門家の洞察と方法論に焦点を当てた学習を行うことで、分布のギャップを埋める 2 段階の自己蒸留手法である、分布整合模倣学習 (DAIL) を提案します。 DAIL は 1,000 未満の高品質のエキスパート ソリューションを活用して、Qwen2.5-Instruct および Qwen3 で最大 31% pass@128 の向上を達成し、推論効率を 2 倍にし、ドメイン外の一般化を可能にすることがわかりました。
原文 (English)
Making Expert Reasoning Learnable with Self-Distillation
Improving the reasoning capabilities of large language models (LLMs) typically relies either on the model's ability to sample a correct solution to be reinforced or the existence of a stronger model able to solve the problem. However, many difficult problems remain intractable for even current frontier models, preventing the extraction of valid training signals. A promising alternative is to leverage high-quality expert human solutions, yet naive imitation of this data fails because it is fundamentally out-of-distribution: expert solutions are typically didactic, containing implicit reasoning gaps intended for human readers rather than computational models. Furthermore, high-quality expert solutions are expensive, necessitating generalizable, sample-efficient training methods. We propose Distribution Aligned Imitation Learning (DAIL), a two-step self-distillation method that bridges the distributional gap by first transforming expert solutions into detailed, in-distribution reasoning traces and then applying a contrastive objective to focus learning on expert insights and methodologies. We find that DAIL can leverage fewer than 1000 high-quality expert solutions to achieve up to 31% pass@128 gains on Qwen2.5-Instruct and Qwen3, double reasoning efficiency, and enable out-of-domain generalization.
TamperBench: 微調整と改ざんの下での LLM の安全性を系統的にストレス テストする
ますます高機能なオープンウェイト大規模言語モデル (LLM) が展開されるにつれ、偶発的か意図的かにかかわらず、安全でない変更に対する改ざん耐性を向上させることが、リスクを最小限に抑えるために重要になります。ただし、耐タンパー性を評価するための標準的なアプローチはありません。データセット、メトリクス、および改ざん構成が多様であるため、さまざまなモデルや防御にわたって安全性、実用性、堅牢性を比較することが困難になります。これに対処するために、LLM の耐タンパー性を体系的に評価するための初の統合フレームワークである TamperBench を導入します。 TamperBench (i) 最先端の重み空間微調整攻撃、潜在空間表現攻撃、および調整段階の防御のリポジトリを管理します。 (ii) 攻撃モデルのペアごとに体系的なハイパーパラメータ スイープを通じて現実的な敵対的評価を可能にします。 (iii) 安全性と実用性の両方の評価を提供します。私たちは TamperBench を使用して、モデルと攻撃のペアごとのハイパーパラメーター スイープによる標準化された安全性と機能のメトリクスを使用して、9 つの改ざん脅威にわたって防御強化された亜種を含む 21 のオープンウェイト LLM を評価します。この結果からは、耐タンパー性に対するポストトレーニングの効果、ジェイルブレイクチューニングが通常最も深刻な攻撃であること、現在の調整段階の防御は攻撃スイープにほとんど耐えられないことなどの洞察が得られます。コードは https://github.com/criticalml-uw/TamperBench で入手できます。
原文 (English)
TamperBench: Systematically Stress-Testing LLM Safety Under Fine-Tuning and Tampering
As increasingly capable open-weight large language models (LLMs) are deployed, improving their tamper resistance against unsafe modifications, whether accidental or intentional, becomes critical to minimize risks. However, there is no standard approach to evaluate tamper resistance. Varied datasets, metrics, and tampering configurations make it difficult to compare safety, utility, and robustness across different models and defenses. To address this, we introduce TamperBench, the first unified framework to systematically evaluate the tamper resistance of LLMs. TamperBench (i) curates a repository of state-of-the-art weight-space fine-tuning attacks, latent-space representation attacks, and alignment-stage defenses; (ii) enables realistic adversarial evaluation through systematic hyperparameter sweeps per attack-model pair; and (iii) provides both safety and utility evaluations. We use TamperBench to evaluate 21 open-weight LLMs, including defense-augmented variants, across nine tampering threats using standardized safety and capability metrics with hyperparameter sweeps per model-attack pair. The results provide insights including effects of post-training on tamper resistance, that jailbreak-tuning is typically the most severe attack, and that current alignment-stage defenses largely fail to withstand attack sweeps. Code is available at https://github.com/criticalml-uw/TamperBench.
AlgoVeri: 古典的なアルゴリズムでの検証済みコード生成のための調整されたベンチマーク
ベリコーディングとは、厳密な仕様に基づいて正式に検証されたコードを生成することを指します。最近の AI モデルは検証コーディングにおいて有望ですが、クロスパラダイム評価のための統一された方法論が不足しています。既存のベンチマークは個別の言語/ツール (Dafny、Verus、Lean など) のみをテストしており、それぞれが非常に異なるタスクをカバーしているため、パフォーマンスの数値を直接比較することはできません。私たちは、Dafny、Verus、Lean の $77$ の古典的なアルゴリズムのベリコーディングを評価するベンチマークである AlgoVeri を使用して、このギャップに対処します。 AlgoVeri は、同一の機能コントラクトを強制することで、検証システムの重大な機能ギャップを明らかにします。フロンティア モデルは、高レベルの抽象化と SMT 自動化によってワークフローが簡素化される Dafny (Gemini-3 フラッシュで $40.3$%) で扱いやすい成功を収めていますが、Verus ($24.7$%) のシステム レベルのメモリ制約と Lean (7.8%) で必要とされる明示的な証明構築の下ではパフォーマンスが崩壊します。集計メトリクスを超えて、テスト時の計算ダイナミクスの急激な相違が明らかになりました。Gemini-3 は反復修復を効果的に利用してパフォーマンスを向上させます (たとえば、Dafny の合格率を 3 倍にします)。一方、GPT-OSS は早期に飽和します。最後に、私たちのエラー分析は、言語設計が改良の軌道に影響を与えることを示しています。Dafny ではモデルが論理的な正しさに集中できるのに対し、Verus と Lean は永続的な構文および意味論的な障壁にモデルを閉じ込めます。すべてのデータと評価コードは、https://github.com/haoyuzhao123/algoveri で見つけることができます。
原文 (English)
AlgoVeri: An Aligned Benchmark for Verified Code Generation on Classical Algorithms
Vericoding refers to the generation of formally verified code from rigorous specifications. Recent AI models show promise in vericoding, but a unified methodology for cross-paradigm evaluation is lacking. Existing benchmarks test only individual languages/tools (e.g., Dafny, Verus, and Lean) and each covers very different tasks, so the performance numbers are not directly comparable. We address this gap with AlgoVeri, a benchmark that evaluates vericoding of $77$ classical algorithms in Dafny, Verus, and Lean. By enforcing identical functional contracts, AlgoVeri reveals critical capability gaps in verification systems. While frontier models achieve tractable success in Dafny ($40.3$% for Gemini-3 Flash), where high-level abstractions and SMT automation simplify the workflow, performance collapses under the systems-level memory constraints of Verus ($24.7$%) and the explicit proof construction required by Lean (7.8%). Beyond aggregate metrics, we uncover a sharp divergence in test-time compute dynamics: Gemini-3 effectively utilizes iterative repair to boost performance (e.g., tripling pass rates in Dafny), whereas GPT-OSS saturates early. Finally, our error analysis shows that language design affects the refinement trajectory: while Dafny allows models to focus on logical correctness, Verus and Lean trap models in persistent syntactic and semantic barriers. All data and evaluation code can be found at https://github.com/haoyuzhao123/algoveri.
DSL-Topic: 言語モデルからソフトラベルを抽出することによるトピックモデリングの改善
従来のニューラル トピック モデルは通常、ドキュメントの Bag-of-Words (BoW) 表現を再構築し、コンテキスト情報を無視し、データの疎性と格闘することによって最適化されます。この研究では、言語モデル (LM) からソフト ラベル (DSL) を抽出することによる、新しいトピック モデル トレーニング フレームワークを紹介します。コンテキストに富んだ再構築信号を構築するために、特殊なプロンプトを条件とした次のトークンの確率を事前定義された語彙に投影し、LM 隠れ状態を使用してソフト ラベルを再構築するようにトピック モデルをトレーニングします。これにより、コーパスの基礎となるテーマ構造とより密接に連携した、より質の高いトピックが生成されます。広範な実験により、DSL が既存のベースラインに比べてトピックの一貫性と割り当ての精度が大幅に向上することが実証されました。さらに、検索ベースの指標も導入します。これは、意味的に類似した文書の識別において、私たちのアプローチが既存の方法よりも大幅に優れていることを示し、検索指向のアプリケーションに対する有効性を強調しています。
原文 (English)
DSL-Topic: Improving Topic Modeling by Distilling Soft Labelsfrom Language Models
Traditional neural topic models are typically optimized by reconstructing the document's Bag-of-Words (BoW) representations, overlooking contextual information and struggling with data sparsity. In this work, we introduce a novel topic model training framework by Distilling Soft Labels (DSL) from Language Models (LMs). To construct the contextually enriched reconstruction signals, we project the next token probabilities, conditioned on a specialized prompt, onto a pre-defined vocabulary, and train the topic models to reconstruct the soft labels using the LM hidden states. This produces higher-quality topics that are more closely aligned with the underlying thematic structure of the corpus. Extensive experiments demonstrate that DSL achieves substantial improvements in topic coherence and assignment accuracy over existing baselines. Additionally, we also introduce a retrieval-based metric, which shows that our approach significantly outperforms existing methods in identifying semantically similar documents, highlighting its effectiveness for retrieval-oriented applications.
価値のもつれ: (一部の) 大規模な言語モデルにおける異なる種類の善の間の融合
大規模言語モデル (LLM) の値の調整には、これらのモデルが実際に取得した値の表現を経験的に測定する必要があります。人間の価値表現の特徴の 1 つは、異なる種類の価値を区別することです。私たちは、LLM が同様に、道徳的、文法的、経済的という 3 つの異なる種類の善を区別するかどうかを調査します。モデルの動作、埋め込み、および残差ストリームのアクティベーションを調査することにより、値のもつれ、つまりこれらの異なる値の表現間の混同の広範なケースを報告します。具体的には、文法的評価と経済的評価の両方が、人間の規範と比較して道徳的価値に過度に影響されることが判明しました。この混同は、道徳に関連する活性化ベクトルを選択的に除去することによって修復されました。
原文 (English)
Value Entanglement: Conflation Between Different Kinds of Good In (Some) Large Language Models
Value alignment of Large Language Models (LLMs) requires us to empirically measure these models' actual, acquired representation of value. Among the characteristics of value representation in humans is that they distinguish among value of different kinds. We investigate whether LLMs likewise distinguish three different kinds of good: moral, grammatical, and economic. By probing model behavior, embeddings, and residual stream activations, we report pervasive cases of value entanglement: a conflation between these distinct representations of value. Specifically, both grammatical and economic valuation was found to be overly influenced by moral value, relative to human norms. This conflation was repaired by selective ablation of the activation vectors associated with morality.
vLLM セマンティック ルーター: 混合モダリティ モデル向けの信号駆動型意思決定ルーティング
大規模言語モデル (LLM) がモダリティ、機能、コスト プロファイルにわたって多様化するにつれて、インテリジェントなリクエスト ルーティングの問題、つまり推論時に各クエリに適切なモデルを選択することが、システムの重要な課題となっています。 Mixture-of-Modality (MoM) モデル展開用の信号駆動型意思決定ルーティング フレームワークである vLLM Semantic Router を紹介します。このアーキテクチャは、シャノンからインスピレーションを得た 2 つの相補的なビューに従っています。情報理論領域では、信号抽出により「どのモデルか?」のエントロピーが低減されます。生のクエリからルーティング関連情報を抽出することによって。ブール代数領域では、意思決定エンジンは信号状態から機能的に完全なルーティング ポリシーを構成します。中心的なイノベーションは、構成可能な信号オーケストレーションです。ミリ秒未満のヒューリスティックと、セマンティクス、安全性、モダリティのニューラル分類子にわたる 13 種類の異種信号タイプが、構成可能なブール決定ルールを通じて展開固有のルーティング ポリシーに組み込まれるため、基本的に異なるシナリオ (マルチクラウド エンタープライズ、プライバシー規制、コスト最適化) が、同じアーキテクチャ上の異なる構成として表現されます。一致した決定は 13 の選択アルゴリズムを介してセマンティック モデルのルーティングを推進し、決定ごとのプラグイン チェーンは 3 段階の HaluGate 幻覚検出パイプラインやパーソナライズされたマルチターン コンテキストのための ReflectionGate を備えた軽量のエピソード記憶システムなどの安全制約を強制します。型付きニューラルシンボリック DSL は、これらのルーティング ポリシーを指定し、複数の展開ターゲットにコンパイルして、コードを変更せずに構成優先の適応を可能にします。これらのコンポーネントを総合すると、コンポーザブルな信号オーケストレーションにより、単一のフレームワークで差別化されたコスト、プライバシー、安全性ポリシーを備えた多様な展開シナリオに対応できることがわかります。
原文 (English)
vLLM Semantic Router: Signal Driven Decision Routing for Mixture-of-Modality Models
As large language models (LLMs) diversify across modalities, capabilities, and cost profiles, the problem of intelligent request routing: selecting the right model for each query at inference time, has become a critical systems challenge. We present vLLM Semantic Router, a signal-driven decision routing framework for Mixture-of-Modality (MoM) model deployments. The architecture follows two complementary Shannon-inspired views. In the information-theoretic regime, signal extraction reduces the entropy of "which model?" by distilling routing-relevant information from raw queries. In the Boolean-algebraic regime, the decision engine composes functionally complete routing policies from signal conditions. The central innovation is composable signal orchestration: thirteen heterogeneous signal types, spanning sub-millisecond heuristics and neural classifiers for semantics, safety, and modality, are composed through configurable Boolean decision rules into deployment-specific routing policies, so that fundamentally different scenarios (multi-cloud enterprise, privacy-regulated, cost-optimized) are expressed as different configurations over the same architecture. Matched decisions drive semantic model routing via thirteen selection algorithms, while per-decision plugin chains enforce safety constraints including a three-stage HaluGate hallucination detection pipeline and a lightweight episodic memory system with ReflectionGate for personalized multi-turn context. A typed neural-symbolic DSL specifies these routing policies and compiles them to multiple deployment targets, enabling configuration-first adaptation without code changes. Together, these components show that composable signal orchestration enables a single framework to serve diverse deployment scenarios with differentiated cost, privacy, and safety policies.
EvoPrompt: Guided Prompt Evolution for Vision-Language Models Adaptation
The adaptation of large-scale vision-language models (VLMs) to downstream tasks with limited labeled data remains a significant challenge.…
Safety Under Scaffolding: How Evaluation Conditions Shape Measured Safety
A safety score earned on a benchmark need not predict how the same model behaves once it is wrapped in an agentic scaffold the benchmark ne…
FinTradeBench: A Financial Reasoning Benchmark for LLMs
Real-world financial decision-making is a challenging problem that requires reasoning over heterogeneous signals, including company fundame…
PoliticsBench: Benchmarking Political Values in Large Language Models with Multi-Turn Roleplay
While Large Language Models (LLMs) are increasingly used as primary sources of information, their potential for political bias may impact t…
Emotion Entanglement and Bayesian Inference for Multi-Dimensional Emotion Understanding
Understanding emotions in natural language is inherently a multi-dimensional reasoning problem, where multiple affective signals interact t…
Inclusion-of-Thoughts: Mitigating Preference Instability via Purifying the Decision Space
Multiple-choice questions (MCQs) are widely used to evaluate large language models (LLMs). However, LLMs remain vulnerable to the presence…
Policy Split: Incentivizing Dual-Mode Exploration in LLM Reinforcement with Dual-Mode Entropy Regularization
To encourage diverse exploration in reinforcement learning (RL) for large language models (LLMs) without compromising accuracy, we propose…
Luminol-AIDetect: Fast Zero-shot Machine-Generated Text Detection based on Perplexity under Text Shuffling
Machine-generated text (MGT) detection requires identifying structurally invariant signals across generation models, rather than relying on…
SkCC: Portable and Secure Skill Compilation for Cross-Framework LLM Agents
LLM agents increasingly rely on reusable skills (e.g., SKILL markdown files) to execute complex tasks, yet these artifacts lack portability…
A Systematic Investigation of RL-Jailbreaking in LLMs
The evolution of generative models from next-token predictors to autonomous engines of complex systems necessitates rigorous safety hardeni…
Widening the Gap: Exploiting LLM Quantization via Outlier Injection
LLM quantization has become essential for memory-efficient deployment. Recent work has shown that quantization schemes can pose critical se…
Do LLMs Hold Their Values? MANTA: A Multi-Turn Adversarial Benchmark for Animal Welfare Reasoning
Evaluating animal welfare reasoning in LLMs remains an open challenge despite rapid deployment in consumer and professional contexts where…
ZeroUnlearn: Few-Shot Knowledge Unlearning in Large Language Models
Large language models inevitably retain sensitive information, defined as inputs that may induce harmful generations, due to training on ma…
REFLECTOR: Internalizing Step-wise Reflection against Indirect Jailbreak
While Large Language Models (LLMs) demonstrate remarkable capabilities, they remain susceptible to sophisticated, multi-step jailbreak atta…
注意力の散漫によって引き起こされる視覚的なぼやけを修正して幻覚を軽減する: アルゴリズムと理論
マルチモーダル大規模言語モデル (MLLM) は、物体の幻覚に悩まされることがよくありますが、この失敗の根底にある視覚知覚メカニズムはまだ十分に理解されていません。この研究では、幻覚が人間のような注意散漫現象と強く関連していることを明らかにしました。この現象では、分割焦点下にある人間は視覚の明瞭度が低下し、不正確な説明を生成しますが、モデルでは同じメカニズムが、複数頭の注意における空間的な不一致と、デコード中の画像トークンへの注意の一時的な薄れとして現れます。さらに、注意の分散によってモデルの複雑さが増大し、分類の一般化が低下するという理論的な洞察も提供します。これらの発見に動機づけられて、我々は、画像認識を改善するための注意集中アプローチ(AFIP)を提案します。これは、クロスヘッド注意の強化を通じて注意の散漫を修正し、動的な歴史的注意の強化を通じて視覚の基礎を強化します。複数のベンチマークとモデルに関する広範な実験により、追加のトレーニングなしで AFIP の有効性が検証されます。
原文 (English)
Correcting Visual Blur Induced by Attention Distraction to Reduce Hallucinations: Algorithm and Theory
Multimodal large language models (MLLMs) frequently suffer from object hallucinations, yet the visual perceptual mechanism underlying this failure remains poorly understood. In this work, we reveal that hallucinations are strongly associated with a human-like attention distraction phenomenon, where humans under divided focus experience degraded visual clarity and produce inaccurate descriptions, while in models the same mechanism manifests as spatial inconsistency in multi-head attention and temporal fading of attention to image tokens during decoding. We further provide theoretical insights that attention dispersion increases model complexity and degrades classification generalization. Motivated by these findings, we propose an Attention-Focused Approach for Improved Image Perception (AFIP), which corrects attention distraction via cross-head attention enrichment and reinforces visual grounding through dynamic historical attention enhancement. Extensive experiments on multiple benchmarks and models validate the effectiveness of AFIP without additional training.
アリヤバータ 2: 高度な STEM 推論のための強化学習のスケーリング
JEE や NEET などの競争力のある STEM 試験では、複数段階の記号的推論、正確な数値計算、物理、化学、数学にわたる深い概念的理解が必要です。最近の大規模な言語モデルは、共通の推論ベンチマークでは優れたパフォーマンスを発揮しますが、大規模に展開することは依然として困難であり、学生の何百万もの疑問がドメイン固有の一貫した構造の問題解決を必要としています。 Aryabhata 2 は、トレーニング後の強化学習によってトレーニングされた、競争力のある STEM 試験用の推論に焦点を当てた言語モデルです。 PhysicsWallah の内部質問バンクを使用して、高品質のトレーニング カリキュラムを構築し、検証可能な報酬を伴う強化学習を通じて GPT-OSS-20B のポストトレーニングを構築します。トレーニングでは、長期にわたる強化学習と、段階的にロールアウト グループのサイズが大きくなることで広がる探索を組み合わせます。 JEE Main、JEE Advanced、NEET などの競合試験ベンチマークと、AIME、HMMT、MMLU-Pro、MMLU-Redux 2.0、GPQA などの配布外推論データセットで Aryabhata 2 を評価します。結果は、Aryabhata 2 が競合 STEM 推論において基本モデル GPT-OSS-20B を上回るパフォーマンスを示しながら、必要な出力トークンが大幅に少なくなる (最大 64\% 少ない) ことを示しています。
原文 (English)
Aryabhata 2: Scaling Reinforcement Learning for Advanced STEM Reasoning
Competitive STEM examinations such as JEE and NEET require multi-step symbolic reasoning, precise numerical computation, and deep conceptual understanding across physics, chemistry, and mathematics. Recent large language models perform strongly on common reasoning benchmarks, yet they remain difficult to deploy at scale, where millions of student doubts demand domain-specific, consistently structured problem solving. We introduce Aryabhata 2, a reasoning-focused language model for competitive STEM examinations, trained via reinforcement-learning post-training. Using PhysicsWallah's internal question banks, we construct a high-quality training curriculum and post-train GPT-OSS-20B through reinforcement learning with verifiable rewards. Training combines prolonged reinforcement learning with broadened exploration via progressively larger rollout group sizes. We evaluate Aryabhata 2 on competitive examination benchmarks, including JEE Main, JEE Advanced, and NEET, as well as out-of-distribution reasoning datasets such as AIME, HMMT, MMLU-Pro, MMLU-Redux 2.0, and GPQA. Results show that Aryabhata 2 outperforms its base model GPT-OSS-20B on competitive STEM reasoning while requiring substantially fewer output tokens (up to 64\% fewer).
構造化プロンプトの最適化と強化学習の融合により、複雑なテキストに対するグローバルおよびローカルの解釈可能性が実現
LLM は高度なテキスト分類を備えていますが、既存のパラダイムはトレードオフに直面しています。教師付き (ラベルのみ) 微調整はスケーラブルですが、複雑なテキストに対する推論が限られており、広範なモデルの透明性に欠けています。一方、離散プロンプト最適化は人間が読める命令を提供しますが、パフォーマンスとスケーラビリティに苦労します。私たちは、3 つの段階的な段階を持つ eXTC (eXplainable Text Classifier) を導入します。(1) 新しい構造化プロンプト最適化アルゴリズムを介して、自然言語で標準操作手順 (SOP、またはルールブック) を学習します。 (2) SOP に基づいた推論を大規模な教師 LLM からコンパクトな LM に抽出します。 (3) 強化学習により、初期 SOP を超えて推論能力を拡張します。この設計により、eXTC は、(i) コンパクトな LM を介した高速推論、(ii) 学習したドメイン ルールのグローバルなモジュール式説明と並行した推論時のローカル推論トレースを提供できるようになり、(iii) 分類パフォーマンスと説明品質の両方において、さまざまなベンチマークにわたって既存のパラダイムを大幅に上回り、段階ごとに向上します。
原文 (English)
Structured Prompt Optimization Meets Reinforcement Learning for Global and Local Interpretability over Complex Text
LLMs have advanced text classification, yet existing paradigms face a trade-off: supervised (label only) fine-tuning is scalable but offers limited reasoning on complex text and lacks broader model transparency, while discrete prompt optimization offers human-readable instructions but struggles with performance and scalability. We introduce eXTC (eXplainable Text Classifier) with three progressive stages: (1) learning a Standard Operating Procedure (SOP, or rulebook) in natural language via a new Structured Prompt Optimization algorithm; (2) SOP-grounded reasoning distillation from a large teacher LLM into a compact LM; and (3) expanding reasoning capabilities beyond the initial SOP via reinforcement learning. This design enables eXTC to provide (i) fast inference via a compact LM, with (ii) inference-time local reasoning traces, alongside a global, modular explanation of its learned domain rules, while (iii) significantly outperforming existing paradigms across diverse benchmarks in both classification performance and explanation quality, with stage-by-stage gains.
Towards Verifiable Multimodal Deep Research: A Multi-Agent Harness for Interleaved Report Generation
Large Language Models (LLMs) have advanced autonomous agents from deep search, which retrieves concise factual answers, to deep research, w…
Label Over Logic? How Source Cues Bias Human Fallacy Judgments More Than LLMs
As AI-generated and AI-assisted content floods online spaces, source labels attached to such content can distort human reasoning judgments,…
BenHalluEval: A Multi-Task Hallucination Evaluation Framework for Large Language Models on Bengali
Despite Bengali being the sixth most spoken language in the world, no prior work has systematically evaluated hallucination in large langua…
memorywire: A Vendor-Neutral Wire Format for Agent Memory Operations
Agent-memory frameworks -- mem0, Letta/MemGPT, Cognee, Zep/Graphiti, MemoryOS, MemTensor -- each ship their own SDK, storage layout, and op…
DiscourseFlip: An Oblique Discourse-Level Opinion Manipulation Attack against Black-box Retrieval-Augmented Generation
Retrieval-Augmented Generation (RAG) systems are widely deployed and increasingly influential, but their reliance on external corpora expos…
Adaptive Auto-Harness: Sustained Self-Improvement for Agentic System Deployment on Open-Ended Task Streams
Auto-harness systems such as A-Evolve, GEPA, and Meta-Harness improve LLM agents by optimizing prompts, skills, tools, memories, and suppor…
AutoForest: Automatically Generating Forest Plots from Biomedical Studies with End-to-End Evidence Extraction and Synthesis
Systematic reviews rely on forest plots to synthesise quantitative evidence across biomedical studies, but generating them remains a fragme…
Implement Kubernetes Pod-Level Remote Attestation for Confidential Workloads on dstack
The rise of LLM-as-a-Service and other confidential cloud workloads demands cryptographic proof that user data is processed in a trusted, u…
P$^2$-DPO: Grounding Hallucination in Perceptual Processing via Calibration Direct Preference Optimization
Hallucination has recently garnered significant research attention in Large Vision-Language Models (LVLMs). Direct Preference Optimization…
Testing LLM Arithmetic Reasoning Generalization with Automatic Numeric-Remapping Attacks
Large language models achieve strong performance on arithmetic reasoning benchmarks, and one common response to arithmetic brittleness is t…
Consistency Training Can Entrench Misalignment
Consistency training encourages a model to produce similar outputs across related inputs or sampling procedures. Such methods are simple, s…
Synthesize and Reward -- Reinforcement Learning for Multi-Step Tool Use in Live Environments
Training LLMs to orchestrate multi-step tool calls is held back by three coupled obstacles: realistic stateful execution environments are c…
Claude Opus 4.8は忖度(そんたく)しません “正直すぎる”のも善しあし?
Claude Opus 4.8は、性能向上だけでなく「正直さ」の改善が大きな特徴だ。本稿では、忖度(そんたく)しないAIがなぜ評価を分けているのか、公式情報と利用者目線から整理する。
Introducing new capabilities to GPT-Rosalind
GPT-Rosalind advances life sciences research with enhanced biological reasoning, medicinal chemistry expertise, genomics analysis, and expe…
How Wasmer used Codex to build a Node.js runtime for the edge
See how Wasmer used Codex with GPT-5.5 to build a Node.js runtime for the edge, accelerating development 10x to 20x and shipping in weeks i…
A blueprint for democratic governance of frontier AI
OpenAI outlines a blueprint for U.S. governance of frontier AI, proposing a federal framework for safety, resilience, and national security.
OpenAI public policy agenda
OpenAI outlines its public policy agenda for AI, including safety, youth protection, workforce transition, and global standards to ensure A…
大規模言語モデルにおける構造推論のためのビジュアル グラフ スキャフォールド
グラフは、主にテスト時に外部知識ソースがモデルに提供されるため、構造化推論のための大規模言語モデル (LLM) を強化するために使用されてきました。この論文では、私たちは別の見方をします。LLM のグラフの価値は、情報を提供することだけでなく、推論を体系化することにもあります。人間がグラフ構造のマインドマップを使用して分岐や収束する思考を整理する方法に触発され、グラフが推論支援の内部形式として機能できるかどうかを問いかけます。私たちはこの質問をマルチホップ質問応答タスクで研究します。このタスクでは、教師が提供した推論トレースがグラフ マインド マップとして書き換えられ、生徒モデルのガイドに使用されます。私たちの実験では、明らかなモダリティのギャップが明らかになりました。グラフ構造がテキストに平坦化されると、直接的な答えのヒントが削除されると、その利点は限定的になります。この抽象的なガイダンス設定の下では、推論の効率と回答の質の両方が大幅に低下します。対照的に、視覚的なグラフ ガイダンスは、直接的な答えの手掛かりがなくても引き続き有効であり、その利点は教師付き微調整と KL ベースの蒸留の後も持続します。上記の発見は、グラフは LLM の外部知識構造としてだけでなく、推論を組織化するための視覚的な足場としても研究されるべきであるという主張を裏付けています。
原文 (English)
Visual Graph Scaffolds for Structural Reasoning in Large Language Models
Graphs have been used to enhance large language models (LLMs) for structured reasoning, mostly as external knowledge sources are provided to models at test time. In this paper, we take a different view: the value of graphs for LLMs lie not only in supplying information, but also in organizing reasoning. Inspired by how humans use graph-structured mind maps to organize branching and converging thoughts, we ask whether graphs can serve as an internal form of reasoning assistance. We study this question on multi-hop question answering tasks, where teacher-provided reasoning traces are rewritten as graph mind maps and used to guide a student model. Our experiments reveal a clear modality gap. When graph structures are flattened into text, their benefits become limited once direct answer hints are removed. Under this abstract guidance setting, both reasoning efficiency and answer quality degrade substantially. In contrast, visual graph guidance remains effective without direct answer clues, and its advantage persists after supervised fine-tuning and KL-based distillation. The above findings support the claim that graphs should be studied not only as external knowledge structures for LLMs, but also as visual scaffolds for organizing reasoning.
ChatHealthAI: 電子医療記録の表現を大規模な言語モデルと連携させて、根拠のある臨床推論を実現
大規模言語モデル (LLM) は、臨床意思決定をサポートするための強力な自然言語推論能力を示しますが、構造化された長期的な電子医療記録 (EHR) を効果的にモデル化するのは困難です。対照的に、EHR 基盤モデルは、予測的な患者の表現を学習できますが、解釈可能な言語ベースの推論が欠けています。このギャップを埋めるために、私たちは、事前トレーニングされた EHR 基盤モデルからの構造化 EHR 表現を、タスク認識リサンプラーを通じてフリーズされた LLM の意味空間と整合させるマルチモーダル推論フレームワークである ChatHealthAI を提案します。 ChatHealthAI は、長期にわたる患者の表現と洗練された臨床事象の説明を統合することで、正確な患者予測を維持しながら、臨床に基づいた自然言語推論を可能にします。 EHRSHOT ベンチマークからの 3 つの臨床予測タスクについて ChatHealthAI を評価しました。結果は、ChatHealthAI が競争力のある予測パフォーマンスを維持しながら、推論の品質と解釈可能性を向上させることを示しています。これらの発見は、解釈可能な臨床予測のために、EHR 基礎モデルと事前トレーニングされた LLM を統合する可能性を強調しています。
原文 (English)
ChatHealthAI: Aligning Electronic Health Record Representations with Large Language Models for Grounded Clinical Reasoning
Large language models (LLMs) exhibit strong natural-language reasoning abilities for clinical decision support, but struggle to effectively model structured longitudinal electronic health records (EHRs). In contrast, EHR foundation models can learn predictive patient representations, yet lack interpretable language-based reasoning. To bridge this gap, we propose ChatHealthAI, a multimodal reasoning framework that aligns structured EHR representations from a pretrained EHR foundation model with the semantic space of a frozen LLM through a task-aware resampler. By integrating longitudinal patient representations with refined clinical event descriptions, ChatHealthAI enables clinically grounded natural-language reasoning while maintaining accurate patient prediction. We evaluated ChatHealthAI on three clinical predictive tasks from the EHRSHOT benchmark. Results show that ChatHealthAI improves reasoning quality and interpretability while preserving competitive predictive performance. These findings highlight the potential of integrating EHR foundation models with pretrained LLMs for interpretable clinical prediction.
Traj-Evolve: 肺がんの早期発見における患者の軌跡モデリングのための自己進化型マルチエージェント システム
縦断的な電子医療記録 (EHR) から患者の軌跡をモデル化するには、まばらでノイズが多く、コンテキストの長いマルチモーダル シーケンスを推論する必要があります。既存の LLM ベースのマルチエージェント システムはコンテキストの長さに対処しますが、患者を個別に処理するため、臨床医が同様の過去の症例から蓄積された経験をどのように活用するかを反映できていません。我々は、2 つの相補的な進化メカニズムを備えた自己進化マルチエージェント システムである Traj-Evolve を紹介します。まず、エクスペリエンス プール (ExPool) はノンパラメトリック メモリとして機能し、拒絶反応でサンプリングされた推論トレースにインデックスを付けて、同様の患者を少数ショットのコンテキストとして取得します。 2 番目に、報酬ランク付き微調整によるマルチエージェント強化学習 (MARL) により、エージェント間およびエージェントとメモリのコラボレーションがパラメトリックに最適化されます。リーブワンアウトのクロス検索戦略は、この 2 つを統合し、検索拡張の下でトレーニング時間と推論時の動作を調整します。最長 5 年間のマルチモーダル EHR を利用した肺がん予測タスクにおいて、Traj-Evolve は、人口全体と困難な非喫煙者人口に対する 9 つの強力なベースラインを上回りました。進化するダイナミクスの分析により、次の 3 つの重要な発見が明らかになります。(1) ExPool の拡張により、最適な取得が多様なサンプルから特定のサンプルに移行します。 (2) MARL の下では、マネージャー エージェントの予測損失は迅速に収束しますが、ワーカー エージェントの時間的推論はより検証された患者から恩恵を受け続けます。 (3) 2 つのメカニズムは予測リスクに関して補完的であり、ExPool は特異性を向上させ、MARL は感度を向上させます。
原文 (English)
Traj-Evolve: A Self-Evolving Multi-Agent System for Patient Trajectory Modeling in Lung Cancer Early Detection
Modeling patient trajectories from longitudinal electronic health records (EHRs) requires reasoning over sparse, noisy, and long-context multimodal sequences. Existing LLM-based multi-agent systems address context length but process patients in isolation, failing to mirror how clinicians leverage accumulated experience from similar prior cases. We present Traj-Evolve, a self-evolving multi-agent system with two complementary evolving mechanisms. First, an Experience Pool (ExPool) acts as a non-parametric memory, indexing rejection-sampled reasoning traces to retrieve similar patients as few-shot contexts. Second, multi-agent reinforcement learning (MARL) via reward-ranked fine-tuning parametrically optimizes inter-agent and agent-memory collaboration. A leave-one-out cross-retrieval strategy unifies the two, aligning training- and inference-time behavior under retrieval augmentation. On a lung cancer prediction task utilizing up to five years of multimodal EHRs, Traj-Evolve outperforms 9 strong baselines on the overall population and a challenging never-smoker population. Analysis of the evolving dynamics highlights three key findings: (1) expanding the ExPool shifts optimal retrieval from diverse to specific samples; (2) under MARL, the manager agent's prediction loss converges quickly while the worker agents' temporal reasoning continues to benefit from more verified patients; and (3) the two mechanisms are complementary on the predicted risk, where ExPool improves specificity while MARL improves sensitivity.
エッジの組み込み AI エージェント システムのモジュラー アーキテクチャに向けて
大規模言語モデル (LLM) の台頭により、複雑な推論とツールの使用が可能なエージェント AI が可能になりました。ただし、組み込みマイクロコントローラーのメモリとエネルギーの厳しい制約により、このような自律性をパーベイシブ コンピューティング環境に展開することは依然として困難です。既存のフレームワークは通常、サーバークラスのリソースまたは継続的な接続を前提としており、深く組み込まれたシステムのためのギャップが残されています。この論文では、決定論的なリアルタイム制御とエージェント インテリジェンスの間の溝を埋める組み込みエージェント システム用のモジュール式リファレンス アーキテクチャを提案します。低遅延でプライバシーが重要なタスクのために高圧縮ニューラル ネットワークとルールベースのロジックを実行するオンデバイス エージェントを、より高レベルの推論と計画のために小型言語モデル (SLM) を利用するクラウド拡張エージェントから分離する階層型設計を導入します。主な貢献は、横断的なガバナンス層の統合であり、分散された自律デバイス群全体で可観測性、ポリシーの適用、安全性を確保します。純粋に経験的なベンチマークを提示するのではなく、リソースに制約のある環境でのレイテンシー、エネルギー、信頼性の高い実行に関するアーキテクチャ設計原則とトレードオフを分析します。
原文 (English)
Toward a Modular Architecture for Embedded AI Agent Systems at the Edge
The rise of Large Language Models (LLMs) has enabled agentic AI capable of complex reasoning and tool use; however, deploying such autonomy in pervasive computing environments remains challenging due to the strict memory and energy constraints of embedded microcontrollers. Existing frameworks typically assume server-class resources or continuous connectivity, leaving a gap for deeply embedded systems. This paper proposes a modular reference architecture for Embedded Agent Systems that bridges the divide between deterministic real-time control and agentic intelligence. We introduce a tiered design that decouples On-Device Agents - executing highly compressed neural networks and rule-based logic for low-latency, privacy-critical tasks - from Cloud-Augmented Agents that leverage Small Language Models (SLMs) for higher-level reasoning and planning. A key contribution is the integration of a cross-cutting Governance Layer, ensuring observability, policy enforcement, and safety across distributed fleets of autonomous devices. Rather than presenting purely empirical benchmarks, we analyze architectural design principles and trade-offs regarding latency, energy, and reliable execution in resource-constrained environments.
ギャンブルはしないでください、GAMBLe: AI 主導の研究システムのための分析フレームワーク
AI-Driven Research Systems (ADRS) -- LLM と自動評価を組み合わせてアルゴリズム、証明、設計を発見するシステム -- は最適化され、ドメイン全体で採用されていますが、それらを分析するツールは追いついていません。 ADRS のパフォーマンスはコンポーネントの相互作用に依存しますが、これらの相互作用は十分に理解されておらず、調査にコストがかかり、(ここで示しているように) 標準の収束保証では十分に把握されていません。これらの保証は、私たちが形式化した ADRS プロセスの下では成立しない構造的な仮定に依存しています。我々は、ADRS の動作を 4 つのパラメーター (ジェネレーター $G$、アセッサー $\mathcal{A}$、発見メカニズム $\mathcal{M}$、バジェット $B$) と 1 つの構成オブジェクト、効果的なランドスケープ $L_{\text{eff}} = \mathcal{A} \circ G$ に分解するフレームワークである GAMBLe を紹介します。これにより、異なるジェネレーターとアセッサーのペアが構造的に異なる問題ごとの最適化を引き起こすことが明らかになります。風景。私たちは、単一の LLM から動的適応アンサンブルに至るジェネレーター、貪欲な選択から共進化メタサーチに至るメカニズム、および評価者が連続スコアリングからクリフ関数に及ぶ 3 つの NP 困難問題に及ぶ 760 以上の反復実行 (>46,000 反復) でフレームワークを実行します。実験では、ジェネレーターやメカニズムの完全な順序付けは明らかにされていません。フロンティア モデルはオープンソースの代替モデルよりもパフォーマンスが劣る可能性があり、最も単純なメカニズムが最先端のメタ検索を上回る場合もあります。結果は、限られた予算 (実行ごとに 60 回の反復) の下でも、適切なコンポーネントを選択することでパフォーマンスを 13 ~ 67%、検索効率を 6 ~ 39 倍改善できることを示しています。
原文 (English)
Don't Gamble, GAMBLe: An Analytical Framework for AI-Driven Research Systems
AI-Driven Research Systems (ADRS) -- systems coupling LLMs with automated evaluation to discover algorithms, proofs, and designs -- are being optimized and adopted across domains, but the tools to analyze them have not kept pace. ADRS performance depends on component interactions that are poorly understood, expensive to explore, and (as we show) not well captured by standard convergence guarantees. These guarantees rely on structural assumptions that do not hold under the ADRS process we formalize. We introduce GAMBLe, a framework that decomposes ADRS behavior into four parameters (generator $G$, assessor $\mathcal{A}$, discovery mechanism $\mathcal{M}$, budget $B$) and one compositional object, the effective landscape $L_{\text{eff}} = \mathcal{A} \circ G$, which reveals that distinct generator-assessor pairs induce structurally different per-problem optimization landscapes. We exercise the framework on 760+ replicated runs (>46,000 iterations) spanning generators from single LLMs to dynamically-adaptive ensembles, mechanisms from greedy selection to co-evolutionary meta-search, and three NP-hard problems whose assessors range from continuous scoring to cliff functions. The experiments reveal no total ordering of generators or mechanisms: frontier models can underperform open-source alternatives and the simplest mechanism sometimes outperforms state-of-the-art meta-search. Results show that even under limited budgets (60 iterations per run), the right component choices can improve performance by 13-67% and search efficiency by 6-39x.
問題を解決する場合とその修正方法: データ クリーニングに関するマルチエージェントの議論
マルチエージェントの議論がデータのクリーニングに役立つのはどのような場合でしょうか?また、害を及ぼすのはどのような場合ですか? 3 つのベンチマーク、4 つのモデル ファミリ、および 6,000 を超えるタスクと条件のペアにわたって、ディベートの効果が符号を反転していることがわかりました。それは、ジェネレーターが無批判に受け入れる批評誘導性混乱 (CIC)、幻覚的な批評家フィードバックによって、4 つのモデルすべてで生成を低下させます (-1.6 ~ -15.5pp) が、エラー検出は向上します (+27.4pp F1、d=1.0)。私たちは議論の利益条件を導出します。つまり、間違った出力を救出する確率 (修正可能性によって重み付けされた批評家検証の確率) が正しい出力を破壊する確率を超える場合、議論は役立ちます。要因実験は、敵対的分離が不可欠であることを証明します。同一のツールを使用した自己検証は失敗しますが、コード実行の根拠と証拠ゲート型生成を備えた別個の批評家は、生成タスクにおいて単一エージェントを大幅に超える最初のディベート構成を生み出します (+5.3pp、p<0.05)。この条件は、9 つのタスク タイプすべてを正確に予測し、7 つのドメインで公開された 19 の比較全体で誤検知がゼロになるように一般化します。
原文 (English)
When Helping Hurts and How to Fix It: Multi-Agent Debate for Data Cleaning
When does multi-agent debate help data cleaning, and when does it hurt? Across three benchmarks, four model families, and over 6,000 task-condition pairs, we find debate's effect reverses sign: it degrades generation across all four models (-1.6 to -15.5pp) through critique-induced confusion (CIC), hallucinated Critic feedback that the Generator accepts uncritically, yet improves error detection (+27.4pp F1, d=1.0). We derive a debate benefit condition: debate helps when the probability of rescuing a wrong output (Critic verification odds weighted by fixability) exceeds the probability of destroying a correct one. A factorial experiment proves adversarial separation is essential: self-verification with identical tools fails, while a separate Critic with code-execution grounding and evidence-gated generation produces the first debate configuration to significantly exceed single-agent on a generative task (+5.3pp, p<0.05). The condition correctly predicts all nine task types and generalizes with zero false positives across 19 published comparisons in seven domains.
歯科医療における大規模 AI モデル: 汎用システムからドメイン固有の基盤モデルまで
背景: 口腔疾患は世界中で約 35 億人に影響を与えていますが、歯科における大規模 AI モデルの相対的な臨床的可能性は依然として十分に理解されていません。言語生成モデル、弁別視覚基礎モデル、歯科特有の基礎モデルという 3 つの異なるモデル カテゴリが出現しましたが、それらの関係や集合的な制限を検討する統一されたレビューはありません。方法: PRISMA-ScR ガイドラインに従って、4 つのデータベース (PubMed、Google Scholar、Scopus、arXiv) を体系的に検索し、2 人の査読者によって独立してスクリーニングされました。包含/除外基準を適用した後、97 件の研究 (2020 ~ 2026 年) が含まれました。建築パラダイムと歯科専門度によってモデルを整理する二次元分類フレームワークを提案します。結果: 言語生成モデルは、テキストベースのタスク (臨床推論、免許試験、患者とのコミュニケーション) には優れていますが、画像依存の診断では一貫性のないパフォーマンスを示します。適応された SAM および CLIP バリアントにより、強力な歯のセグメンテーションと病変検出結果が得られます。歯科専用モデル (DentVFM、DentVLM、OralGPT) は、複雑なマルチモーダルなタスクで最高のパフォーマンスを発揮します。統合されたパイプラインは、単一モデルのアプローチよりも常に優れたパフォーマンスを発揮します。データの非対称性が観察されます。歯科特有の事前トレーニングはほぼ完全に視覚領域に集中しており、大規模な歯科テキスト コーパスがほとんどないことを反映しています。結論: 汎用モデルと歯科専用モデルは補完的な役割を果たします。最も効果的なシステムは、構造化されたパイプライン内で両方を組み合わせたものです。安全な自律展開には、生成モデルにおける幻覚、注釈付き歯科データセットの制限、標準化された臨床評価ベンチマークの欠如という 3 つの永続的な障壁を解決する必要があります。
原文 (English)
Large AI Models in Dental Healthcare: From General-Purpose Systems to Domain-Specific Foundation Models
Background: Oral diseases affect nearly 3.5 billion people worldwide, yet the comparative clinical potential of large-scale AI models in dentistry remains poorly understood. Three distinct model categories have emerged: language-generative models, discriminative vision foundation models, and dental-specific foundation models, with no unified review examining their relationships and collective limitations. Methods: Following PRISMA-ScR guidelines, we systematically searched four databases (PubMed, Google Scholar, Scopus, arXiv), screened independently by two reviewers. After applying inclusion/exclusion criteria, 97 studies (2020-2026) were included. We propose a two-dimensional classification framework organizing models by architectural paradigm and dental specialization degree. Results: Language-generative models excel at text-based tasks (clinical reasoning, licensing exams, patient communication) but show inconsistent performance on image-dependent diagnostics. Adapted SAM and CLIP variants achieve strong tooth segmentation and lesion detection results. Dental-specific models (DentVFM, DentVLM, OralGPT) demonstrate strongest performance on complex multimodal tasks. Integrated pipelines consistently outperform single-model approaches. A data asymmetry is observed: dental-specific pretraining concentrates almost entirely in the vision domain, reflecting scarce large-scale dental text corpora. Conclusions: General-purpose and dental-specific models play complementary roles; the most effective systems combine both within structured pipelines. Safe autonomous deployment requires resolving three persistent barriers: hallucination in generative models, limited annotated dental datasets, and absent standardized clinical evaluation benchmarks.
エージェントの痕跡から推論プリミティブを誘導する
ReAct スタイルの LLM エージェントは、多くの問題にわたって同じ推論ルーチンを再発見しますが、それらのルーチンは一時的なスクラッチパッドに閉じ込められたままになります。成功した ReAct トレースをマイニングし、反復する推論の動きをクラスター化し、最も頻繁に発生する動きを型指定された疑似ツールのコンパクトなライブラリに変換するシングルパス手法である Reasoning Primitive Induction を紹介します。各疑似ツールは、呼び出し時に LLM によって解釈される自然言語の docstring によって指定され、標準の ReAct ループによってテスト時にこれらのプリミティブが構成されます。中心的な結果は、誘導されたライブラリがそのトレースを生成したまさにエージェントよりも優れていることです。RuleArena NBA で +44pp (30 -> 74)、MuSR チーム割り当てで +30pp (38 -> 68)、NatPlan 会議計画で +22pp (7 -> 29) でした。物語演繹、ルール適用、制約充足計画にわたる 5 つの比較可能なサブタスクにわたって、単一の固定構成により、すべてのサブタスクでゼロショットの思考連鎖よりも改善され、専門家が作成した分解と同等またはそれを上回り、より低い平均推論コストで AWM よりも優れたパフォーマンスを発揮します。
原文 (English)
Inducing Reasoning Primitives from Agent Traces
ReAct-style LLM agents often rediscover the same reasoning routines across problems, yet leave those routines trapped in transient scratchpads. We introduce Reasoning Primitive Induction, a single-pass method that mines successful ReAct traces, clusters recurrent reasoning moves, and converts the most frequent moves into a compact library of typed pseudo-tools. Each pseudo-tool is specified by a natural-language docstring interpreted by an LLM at invocation time, and a standard ReAct loop composes these primitives at test time. The central result is that induced libraries outperform the very agent that generated their traces: by +44pp on RuleArena NBA (30 -> 74), +30pp on MuSR team allocation (38 -> 68), and +22pp on NatPlan meeting planning (7 -> 29). Across five comparable subtasks spanning narrative deduction, rule application, and constraint-satisfaction planning, a single fixed configuration improves over zero-shot Chain-of-Thought on every subtask, matches or surpasses expert-authored decompositions, and outperforms AWM at lower average inference cost.
TriEval: LLM バイアス、毒性、真実性評価のためのリソース効率の高いパイプライン
LLM は、基本的なチャットボットから AI エコシステムのバックボーンに進化し、現在では医療、学校、政府サービスで広く使用されています。 LLM をドメイン全体に導入するには、その安全性と公平性を確保するために継続的な評価が必要です。 LLM の導入後に発生する一般的な問題には、一貫性のない出力や誤った情報の幻覚などがあります。 LLM 評価ツールは多数存在しますが、そのほとんどは一度に 1 つのパラメータのテストに限定されているか、ほとんどの研究者がアクセスできない膨大な計算リソースを必要とします。 TriEval は、コンピューティング リソースを最小限に抑えながら、バイアス、有害性、真実性を含む複数のパラメータにわたって LLM 出力を評価することで、これらの課題に対処します。このパイプラインは、オープンソース モデルとクローズドソース モデルの両方と互換性があり、GPU クラスターのない標準的なラップトップで実行されます。 TriEval は、Llama 3 8B、Mistral 7B、Gemma 2 9B、および Claude Haiku の 4 つのモデルでテストされています。結果は、特に毒性と真実性の点で、オープンソース モデルとクローズドソース モデルの明らかな違いを示しています。 TriEval は、限られた計算リソースを持つ研究者がより広範にアクセスできるようにするために、オープンソースとしてリリースされています。
原文 (English)
TriEval: A Resource-Efficient Pipeline for LLM Bias, Toxicity, and Truthfulness Assessment
LLMs have evolved from basic chatbots to the backbone of the AI ecosystem, now widely used in healthcare, schools, and government services. The domain-wide adoption of LLMs necessitates continuous evaluation to ensure their safety and fairness. Common issues encountered after deploying LLMs include inconsistent outputs and hallucinations of incorrect information. Although numerous LLM evaluation tools exist, most are limited to testing a single parameter at a time or require massive computational resources that are not accessible to most researchers. TriEval addresses these challenges by evaluating LLM outputs across multiple parameters, including bias, toxicity, and truthfulness together, while minimizing computing resources. The pipeline is compatible with both open- and closed-source models and runs on a standard laptop without a GPU cluster. TriEval has been tested on four models: Llama 3 8B, Mistral 7B, Gemma 2 9B, and Claude Haiku. The results show clear differences between open-source and closed-source models, especially in terms of toxicity and truthfulness. TriEval is being released as open source to enable broader access for researchers with limited computational resources.
SkillDAG: 大規模な LLM スキル選択のための自己進化型型スキル グラフ
LLM エージェントが大規模なスキル ライブラリを採用するにつれて、適切なサブセットの選択は、類似性の一致の問題ではなく、構造的な問題になります。つまり、スキルは相互に依存、競合、特殊化、または重複するため、完全な列挙と類似性の埋め込みの両方には見えない構造になります。 SkillDAG は、スキル間の関係を型付き有向グラフとしてモデル化し、それを推論時のエージェント呼び出し可能な構造検索インターフェイスとして LLM エージェントに公開します。固定の検索パイプラインに組み込まれるのではなく、実行中にクエリされて展開されます。各検索では、ベクトル一致、型付きエッジ近傍、競合信号が返され、提案後コミット プロトコルにより、エージェントは実行に裏打ちされたエッジを登録できるため、グラフはエピソード全体で構造を蓄積します。 ALFWorld と MiniMax-M2.7 を使用した SkillsBench では、SkillDAG は 67.1% の成功と 27.3% の報酬に達し、報告されている最も強力なスキルのグラフのベースラインを +12.8 ポイントと +8.6 ポイント上回りました。アドバンテージは gpt-5.2-codex に移植され、固有の SkillsBench Ret@K は、一致したクエリの下で 65.5 から 78.2 に上昇します。これらの利点は、固定シード拡散パイプラインが劣化するプールが 10 倍に成長しても頑健性を維持する候補ランキング、および以前のヒットを排除することなくグラウンドトゥルースの再現を拡大するセットモノトーンのオンライン編集など、分離可能なメカニズムに由来します。
原文 (English)
SkillDAG: Self-Evolving Typed Skill Graphs for LLM Skill Selection at Scale
As LLM agents adopt large skill libraries, selecting the right subset becomes a structural problem rather than a similarity-matching one: skills depend on, conflict with, specialize, or duplicate one another, a structure invisible to both full enumeration and embedding similarity. We present SkillDAG, which models inter-skill relationships as a typed directed graph and exposes it to an LLM agent as an inference-time, agent-callable structural retrieval interface, queried and evolved during execution rather than baked into a fixed retrieval pipeline: each search returns vector matches, typed-edge neighbors, and conflict signals, and a propose-then-commit protocol lets the agent register execution-backed edges so the graph accumulates structure across episodes. On ALFWorld and SkillsBench with MiniMax-M2.7, SkillDAG reaches 67.1% success and 27.3% reward, exceeding the strongest reported Graph-of-Skills baseline by +12.8 and +8.6 points; the advantage ports to gpt-5.2-codex, and intrinsic SkillsBench Ret@K rises from 65.5 to 78.2 under matched queries. These gains trace to isolable mechanisms: candidate ranking that stays robust as the pool grows 10x where a fixed seeding-diffusion pipeline degrades, and set-monotone online edits that enlarge ground-truth recall without evicting prior hits.
DELTAMEM: 残存ツリーによる LLM エージェントの増分エクスペリエンス メモリ
大規模言語モデル (LLM) ベースのエージェントは、継続的な対話を通じて経験から学習するために、ますます記憶に依存しています。ただし、経験を独立したフラットな単位として保存すると、類似したエピソードが重複するコンテンツを繰り返したり、微妙なシーンの変化が検索された記憶に矛盾したガイダンスを提供したりするため、実質的な冗長性と検索の競合が発生します。これに対処するために、新たに獲得した経験は多くの場合、既存の知識の増分変化であると仮定して、残留経験を導入します。私たちは、経験記憶を 2 つの独立した残差ツリーに編成するフレームワークである DeltaMem を提案します。1 つは再利用可能なスキルとして目標条件付けされたタスクの経験を保存し、もう 1 つはシーンレベルの環境知識として保存します。各ツリーは、一般化された基本エクスペリエンスにルート ノードを使用し、後続のバリエーションに増分デルタ ノードを使用して、関連するエクスペリエンスが重複することなく共通の基盤を共有できるようにします。検索では、失敗ペナルティ付きの類似性スキャンによって最適な一致が特定され、ルートから一致までのチェーン構成を通じて完全なエクスペリエンスが再構築されます。自律的な統合メカニズムにより、高周波パスが新しいルート ノードに抽出され、一般的なヒューリスティックから特殊なバリアントまでツリーが自己組織化できるようになります。多様なインタラクティブ環境での実験では、DeltaMem が既存のベースラインを常に上回るパフォーマンスを示しています。将来の研究を容易にするために、https://github.com/import-myself/DeltaMem でコードをリリースします。
原文 (English)
DELTAMEM: Incremental Experience Memory for LLM Agents via Residual Trees
Large Language Model (LLM)-based agents increasingly rely on memory to learn from experiences over continual interactions. However, storing experiences as independent, flat units leads to substantial redundancy and retrieval conflicts, as similar episodes repeat overlapping content and subtle scene variations cause retrieved memories to offer contradictory guidance. To address this, we introduce residual experience, positing that newly acquired experience is often an incremental variation of existing knowledge. We propose DeltaMem, a framework that organizes experience memory into two independent residual trees, one storing goal-conditioned task experience as reusable skills and another for scene-level environment knowledge. Each tree uses a root node for generalized base experiences and incremental delta nodes for subsequent variations, allowing related experiences to share a common foundation without duplication. For retrieval, a failure-penalized similarity scan locates the best match, reconstructing the full experience via root-to-match chain composition. An autonomous consolidation mechanism distills high-frequency paths into new root nodes, enabling the trees to self-organize from general heuristics to specialized variants. Experiments across diverse interactive environments show that DeltaMem consistently outperforms existing baselines. To facilitate future research, we release the code at https://github.com/import-myself/DeltaMem.
推論の影の代償: LLM への最適な予算配分に関する経済的観点
推論時間のスケーリングは、大規模言語モデルのパフォーマンスを向上させるための重要な手段として浮上していますが、実際の展開は厳しい計算予算によって制限されています。この研究では、推論予算の割り当てを、経済原則に支配されるグローバルな制約付き最適化問題として定式化します。シフトサージ関数を使用してクエリごとの推論ユーティリティをモデル化することにより、リソース不足の下で限界ユーティリティを平衡化するグローバルシャドープライスに基づいた最適な割り当てポリシーを導き出します。この理論に基づいて、推論のための制約付き潜在効用均衡配分 (CLEAR) を提案します。合理的な放棄を実行し、破綻したクエリから出現しきい値に近い解決可能なクエリにリソースを再割り当てします。さまざまなトラフィック ストリームを使用したいくつかの推論タスクに関する広範な実験により、CLEAR が総トークン コストと平均精度のパレート フロンティアを大幅に向上させることが実証されました。リソースが不足している状況では、CLEAR は均一な割り当てと比較して、グローバル精度で最大 3 倍の向上を達成します。
原文 (English)
The Shadow Price of Reasoning: Economic Perspective on Optimal Budget Allocation for LLMs
Inference-time scaling has emerged as a critical avenue for enhancing Large Language Models' performance, yet real-world deployment is constrained by strict computational budgets. In this work, we formulate inference budget allocation as a global constrained optimization problem governed by economic principles. By modeling per-query reasoning utility with a shifted-surge function, we derive an optimal allocation policy based on a global shadow price that equilibrates marginal utility under resource scarcity. Based on this theory, we propose Constrained Latent-utility Equilibrium Allocation for Reasoning (CLEAR). It performs rational abandonment and reallocates resources from insolvent queries to solvable queries near their emergence thresholds. Extensive experiments on several reasoning tasks with different traffic streams demonstrate that CLEAR significantly improves the Pareto frontier of total token cost versus mean accuracy. In resource-scarce regimes, CLEAR achieves up to a 3x improvement in global accuracy compared to uniform allocation.
プロンプトがどのように行動を導くのかを分解する
プロンプトは重みを更新せずに大規模言語モデル (LLM) とビジョン言語モデル (VLM) を制御しますが、命令の変更がどのように内部表現を再形成して動作を生成するのかは不明のままです。プロンプトを、プロンプトに続くコンテンツの表現ジオメトリの変換として扱う、ネストされた幾何学的分解フレームワークを導入します。プロンプトのペアごとに、ますます表現力の高い刺激不変マップ (変換、均一スケーリングによる剛体変換、逐次軸スケーリング、アフィン変換、非線形変換) を使用して、2 つのプロンプトの下で同じ刺激の表現を整列させます。次に、単一レイヤーのプロンプト A のホールドアウト刺激に対する隠れ状態を、対応するマッピングされた状態に置き換え、プロンプト B の表現ジオメトリと動作の回復を測定することによって、各マップを因果的にテストします。 3 つの LLM、3 つの VLM、およびスタイル、感情、シーンの内容、数字にわたる 6 つのテキストまたは画像データセットにわたって、指示されたタスク構造に向けて表現を一貫して再形成するよう促します。交差検証された分散分解により、プロンプトによって引き起こされるアクティベーション変化の多くが、形状保持マップ、特に均一スケーリングによる変換と剛体変換によって捕捉されることが示され、一方、層プロファイルは、層全体にわたるモデルおよびタスク固有のルーティング戦略を明らかにします。重要なのは、変換層と固定層によってすでに動作の一致が改善されているが、アフィン変換はターゲット プロンプト タスクのジオメトリをほぼ回復する最初の層であり、対応する動作のゲインが得られることです。これは、次元を越えた線形混合が、指示されたタスク構造に向けてプロンプトの表現を再編成する重要なメカニズムであることを示唆しています。私たちのフレームワークは、プロンプトによって引き起こされる表現変化を解釈可能な幾何学的コンポーネントに分解し、モデルがタスク関連構造をルーティングしてプロンプト駆動型の動作を生成する方法を明らかにします。
原文 (English)
Decomposing how prompting steers behavior
Prompting steers large language models (LLMs) and vision-language models (VLMs) without weight updates, but it remains unclear how instruction changes reshape internal representations to produce behavior. We introduce a nested geometric decomposition framework that treats prompting as a transformation of the representational geometry of the content following the prompt. For each prompt pair, we align representations of the same stimuli under two prompts using increasingly expressive stimulus-invariant maps: translation, rigid transformation with uniform scaling, sequential axis scaling, affine transformation, and nonlinear transformation. We then causally test each map by replacing a single layer's prompt-A hidden state for held-out stimuli with its mapped counterpart and measuring recovery of prompt-B representational geometry and behavior. Across three LLMs, three VLMs, and six text or image datasets spanning style, emotion, scene content, and number, prompts consistently reshape representations toward the instructed task structure. Cross-validated variance decomposition shows that much prompt-induced activation change is captured by shape-preserving maps, especially translation and rigid transformation with uniform scaling, while tier profiles reveal model- and task-specific routing strategies across layers. Crucially, although translation and rigid tiers already improve behavioral agreement, affine transformation is the first tier to nearly recover target-prompt task geometry and yields corresponding behavioral gains. This suggests that cross-dimensional linear mixing is a key mechanism by which prompts reorganize representations toward instructed task structure. Our framework decomposes prompt-induced representational change into interpretable geometric components and reveals how models route task-relevant structure to produce prompt-driven behavior.
EvoTrainer: 自律的なエージェント強化学習のための共同進化する LLM ポリシーとトレーニング ハーネス
自律 LLM トレーニングはレシピ検索として組み立てられることが多く、トレーニング ハーネスはほとんど静的なままになります。この制限はエージェント RL ではさらに顕著になり、ボトルネックの変化とスカラー報酬によってさまざまな障害モードが隠蔽されます。 EvoTrainer は、実証的なフィードバックを通じて LLM ポリシーとトレーニング側の活用を共進化させる自律型トレーニング フレームワークです。これは、ロールアウト レベルの証拠を診断し、診断を修正し、介入をバックテストし、再利用可能なスキルを蓄積します。数学的推論、競合プログラミング コード生成、およびリポジトリ レベルのソフトウェア エンジニアリングで評価された EvoTrainer は、同じデータ、コードベース、評価プロトコルの下で人間が設計した RL 参照と同等またはそれを上回り、長期的なエージェント SWE で最大の利益をもたらします。軌跡分析により、保持された戦略がドメイン間で分岐し、進化する診断により無効な高スコア分岐の昇格が防止され、再利用可能なスキルが後の検索を形成することが示されました。自律 LLM RL は、レシピ検索を超えて、ポリシーとそれを解釈するトレーニング ハーネスの共同進化に向けて進む必要があります。
原文 (English)
EvoTrainer: Co-Evolving LLM Policies and Training Harnesses for Autonomous Agentic Reinforcement Learning
Autonomous LLM training is often framed as recipe search, which leaves the training harness largely static. This limitation sharpens in agentic RL, where shifting bottlenecks and scalar rewards mask diverse failure modes. We introduce EvoTrainer, an autonomous training framework that co-evolves LLM policies and training-side harnesses through empirical feedback: it diagnoses rollout-level evidence, revises diagnostics, backtests interventions, and accumulates reusable skills. Evaluated on mathematical reasoning, competitive-programming code generation, and repository-level software engineering, EvoTrainer matches or exceeds the human-engineered RL references under the same data, codebase, and evaluation protocol, with the largest gain on long-horizon agentic SWE. Trajectory analyses show that retained strategies diverge across domains, evolving diagnostics prevent invalid high-scoring branches from being promoted, and reusable skills shape later search. Autonomous LLM RL should move beyond recipe search toward joint evolution of policies and the training harnesses that interpret them.
情報獲得による LLM エージェントの不確実性認識の明確化
Large Language Model (LLM) エージェントは、多くの場合、不明確なユーザー指示に従って動作し、ユーザーの意図に対する潜在的な不確実性がツールの誤った動作につながります。この課題に対処するために、明確化の動作を曖昧さの解決と連携させる、目標指向の明確化フレームワークを提案します。私たちのアプローチの中心となるのは、情報獲得報酬です。これは、説明の交換によって引き起こされるグラウンドトゥルースの目標に向けたベイジアン信念の更新を測定することによって、説明の質問の有用性を定量化する指標です。この報酬を使用して明確化者 (LLM) をトレーニングし、高い情報獲得を最適化します。これにより、明確化によって効果的に不確実性が軽減され、エージェント、ツール、ユーザーの環境内でタスクの完了が向上します。私たちは、5つの異種バックボーンにわたるクロスエージェント評価を実施し、明確化を強化した $\tau$-Bench 環境内でフレームワークを検証します。経験的な結果は、私たちの方法が、平均して合計 0.3 のインタラクション ステップのみを追加しながら、明確化なしのベースラインよりも成功率を一貫して 3.7% 向上させることを示しています。
原文 (English)
Uncertainty-Aware Clarification in LLM Agents with Information Gain
Large Language Model (LLM) agents often operate under underspecified user instructions, where latent uncertainty over user intent leads to erroneous tool actions. To address this challenge, we propose a goal-oriented clarification framework that aligns clarification behavior with ambiguity resolution. Central to our approach is the Information Gain Reward, a metric that quantifies the utility of clarification questions by measuring the Bayesian belief update towards the ground-truth goal induced by the clarification exchange. We train the clarifier (LLM) using this reward to optimize for high information gain, ensuring that clarifications effectively reduce uncertainty and improve task completion within the agent-tool-user environment. We validate our framework within a clarification-enhanced $\tau$-Bench environment, conducting cross-agent evaluations across five heterogeneous backbones. Empirical results demonstrate that our method consistently improves the success rate by 3.7\% over the no-clarification baseline, while adding only 0.3 total interaction steps on average.
話す前に考える: マルチエージェント社会シミュレーションにおける内部評価から公の表現まで
LLM ベースのマルチエージェント シミュレーションは、社会的相互作用、熟慮、集団的な意見のダイナミクスを研究するための有望な方法を提供します。しかし、既存の対話シミュレーション フレームワークの多くは、対話を主に観察可能なターン交換または集約された出力として表現しており、沈黙、発言意図、公的表現の背後にある内部評価プロセスを調査することが困難なままになっています。エージェントの私的な推論を公的発話の生成から分離する、インターバルベースのマルチエージェント シミュレーション フレームワークである TBS (Think-Before-Speak) を紹介します。各間隔で、すべてのエージェントは共有された対話履歴と自身の記憶に基づいて構造化された内部状態を更新します。これらの状態には、不協和音関連の評価、認識された世論環境、認識された孤立リスク、対応戦略、および発言意欲が含まれます。その後、オーケストレーターは競合する発言意図を解決し、1 つの発言を公開対話にコミットし、内部評価と公開対話が時間の経過とともに共進化できるようにします。私たちは、気候関連の政策問題に関するタウンホールでの議論を模擬して TBS を評価します。結果は、TBS が一貫した内部状態トレースを生成し、これらのトレースがターン割り当て、沈黙、メモリ条件全体にわたって体系的に変化することを示しています。不協和音関連の評価はエージェントの発言意欲を高めますが、沈黙の圧力評価はそれを低下させます。発言の意図が形成されると、公の場での表現は主に順番の割り当てルールによって形成されます。これらの発見は、TBS が内部評価から公的表現への経路を観察可能かつ分析可能にすることで、メカニズムに敏感な社会シミュレーションをサポートしていることを示唆しています。
原文 (English)
Think-Before-Speak: From Internal Evaluation to Public Expression in Multi-Agent Social Simulation
LLM-based multi-agent simulation offers a promising way to study social interaction, deliberation, and collective opinion dynamics. However, many existing dialogue simulation frameworks represent interaction mainly as observable turn exchange or aggregated outputs, leaving the internal evaluative processes behind silence, speaking intention, and public expression difficult to examine. We introduce TBS (Think-Before-Speak), an interval-based multi-agent simulation framework that separates agents' private reasoning from public utterance generation. At each interval, all agents update structured internal states based on the shared dialogue history and their own memory. These states include dissonance-related appraisal, perceived opinion climate, perceived isolation risk, response strategy, and willingness to speak. The orchestrator then resolves competing speaking intentions and commits one utterance to the public dialogue, allowing internal evaluation and public interaction to co-evolve over time. We evaluate TBS in simulated town hall discussions on a climate-related policy issue. Results show that TBS produces coherent internal-state traces and that these traces vary systematically across turn-allocation, silence, and memory conditions. Dissonance-related appraisal increases agents' willingness to speak, whereas silence-pressure appraisal decreases it. Once speaking intention is formed, public expression is shaped mainly by turn-allocation rules. These findings suggest that TBS supports mechanism-sensitive social simulation by making the pathway from internal evaluation to public expression observable and analyzable.
GTBench: グラフ理論における数学研究アシスタントとしての LLM を評価するための、カリキュラムに基づいたベンチマーク
大規模言語モデル (LLM) は、技術分野の自習アシスタントとして使用されることが増えていますが、数学的推論アシスタントとしての信頼性は依然として十分に理解されていません。 GTBench は、グラフ理論の数学的研究アシスタントとして LLM を評価するためのカリキュラムに基づいたベンチマークです。GTBench は、学部レベルの定義と基本特性 (グループ 1)、アルゴリズム トレースと構造推論 (グループ 2)、大学院レベルの証明構築 (グループ 3) の、難易度が高くなる 3 つのグループに分類された 63 の問題で構成されています。問題は、Diestel のグラフ理論などの検証済みの学術資料から出典されています。私たちは 5 つのフロンティア モデル (GPT-5、Claude Sonnet 4.6、Gemini 2.5 Flash-Lite、Llama 3.3 70B、および Mistral Large 3) をゼロショットおよび思考連鎖プロンプトの下で評価します。グループ 1 と 2 には完全一致および LLM による審査員としての評価を使用し、グループ 3 にはハイブリッド人間エキスパートおよび LLM による審査員としてのプロトコルを使用しました。私たちの結果は顕著なパフォーマンスを明らかにしています。階層: GPT-5 はグループ 1 (95.8% ゼロショット) で上限に近づき、卒業証明 (82%) で有意な精度を維持していますが、他のすべてのモデルは大幅に低下し、困難を伴い、Llama はグループ 3 ゼロショットで人間の評価で 0% に達しています。失敗モード分析では、正しいアルゴリズム、間違った実行エラーがグループ 1 と 2 で優勢である一方、グループ 3 ではさらに不完全な推論の失敗が表面化し、特に冗長な証明またはほぼ完全な証明に関して、人間の評価者と自動判定者の間の体系的な不一致が明らかになりました (人間のペア全体でカッパ = 0.48 ~ 0.83)。 GTBench は、数学教育や科学研究における AI ツールのガバナンスに直接的な影響を与える、LLM におけるグラフ理論推論のための初のカリキュラムに基づいた評価フレームワークを提供します。
原文 (English)
GTBench: A Curriculum-Grounded Benchmark for Evaluating LLMs as Mathematical Research Assistants in Graph Theory
Large language models (LLMs) are increasingly used as self-study assistants in technical disciplines, yet their reliability as mathematical reasoning assistants remains poorly understood. We introduce GTBench, a curriculum-grounded benchmark for evaluating LLMs as mathematical research assistants in graph theory, comprising 63 problems organized into three groups of increasing difficulty: undergraduate definitions and basic properties (Group 1), algorithm tracing and structural reasoning (Group 2), and graduate-level proof construction (Group 3). Problems are sourced from verified academic materials including Diestel's Graph Theory. We evaluate five frontier models -- GPT-5, Claude Sonnet 4.6, Gemini 2.5 Flash-Lite, Llama 3.3 70B, and Mistral Large 3 -- under zero-shot and chain-of-thought prompting, using exact-match and LLM-as-judge evaluation for Groups 1 and 2, and a hybrid human expert and LLM-as-judge protocol for Group 3. Our results reveal a pronounced performance hierarchy: GPT-5 approaches ceiling on Group 1 (95.8% zero-shot) and maintains meaningful accuracy on graduate proofs (82%), while all other models degrade substantially with difficulty, with Llama achieving 0% under human evaluation on Group 3 zero-shot. Failure mode analysis shows that correct algorithm, wrong execution errors dominate Groups 1 and 2, while Group 3 additionally surfaces incomplete reasoning failures and reveals systematic disagreement between human evaluators and the automated judge, particularly on verbose or near-complete proofs (kappa = 0.48-0.83 across human pairs). GTBench provides the first curriculum-grounded evaluation framework for graph-theoretic reasoning in LLMs, with direct implications for the governance of AI tools in mathematical education and scientific research.
ClinicalMC: 大規模な言語モデルを使用した複数コースの臨床意思決定のベンチマーク
大規模言語モデル (LLM) は医療分野で広く採用されていますが、複雑な臨床意思決定シナリオでは依然として大きな課題に直面しています。既存のベンチマークは主に単一コース設定での LLM パフォーマンスを評価しており、患者の状態が時間の経過とともに変化する複数コースのシナリオでの体系的な評価が欠けています。このギャップに対処するために、私たちは複数コースの臨床意思決定のベンチマークである ClinicalMC を提案します。これには、入院から退院までの 4 つの段階にわたる 1,275 の中国語と 5,804 の英語のサンプルが含まれています。これらの段階には、トリアージ、最初のコースの検査/診断/治療、その後の複数コースの検査/評価/治療、および最終診断が含まれます。 ClinicalMC では、英語のデータセットの患者は平均 5.11 の臨床コースを受けますが、中国のデータセットの患者は平均 3.42 の臨床コースを受けます。 LLM のパフォーマンスを評価するために、患者、検査官、医師エージェントを含むマルチエージェント評価フレームワークを構築します。ベンチマークとフレームワークに基づいて、シングルターン静的設定とマルチターン動的設定の 2 つの実験設定を設計し、LLM の 3 つのカテゴリを評価します。1) GPT5-mini などのクローズドソース LLM。 2) DeepSeek-V3.2 のようなオープンソース LLM。 3) HuatuoGPT-o1 などの医療 LLM。広範な評価を通じて、医療分野における LLM のパフォーマンスをより深く理解し、医療分野での LLM の効果的な展開をサポートすることを目指しています。
原文 (English)
ClinicalMC: A Benchmark for Multi-Course Clinical Decision-Making with Large Language Models
Large language models (LLMs) have been widely adopted in healthcare, yet they still encounter significant challenges in complex clinical decision-making scenarios. Existing benchmarks primarily assess LLM performance in single-course settings and lack systematic evaluation in multi-course scenarios, where a patient's condition evolves over time. To address this gap, we propose ClinicalMC, a benchmark for multi-course clinical decision-making. It includes 1,275 Chinese and 5,804 English samples across four stages from admission to discharge. These stages cover triage, first-course examination/diagnosis/treatment, subsequent multi-course examination/assessment/treatment, and final diagnosis. In ClinicalMC, patients in the English dataset undergo an average of 5.11 clinical courses, whereas those in the Chinese dataset undergo 3.42. To assess LLM performance, we construct a multi-agent evaluation framework that includes patient, examiner, and doctor agents. Based on the benchmark and framework, we design two experimental settings -- a single-turn static setting and a multi-turn dynamic setting -- and assess three categories of LLMs: 1) closed-source LLMs like GPT5-mini; 2) open-source LLMs like DeepSeek-V3.2; and 3) medical LLMs like HuatuoGPT-o1. Through extensive evaluation, we aim to better understand LLM performance in the medical domain and support its effective deployment in healthcare.
推論前に認識: 効率的で信頼性の高いプロアクティブなモバイル エージェントのための推論前の認識フレームワーク
マルチモーダル大規模言語モデル (MLLM) は、モバイル エージェントを大幅に進化させていますが、エージェントは支援の \emph{方法} を決定する前に、介入する \emph{いつ} を決定する必要があるため、プロアクティブなモバイル支援は依然として課題となっています。既存のシステムでは、統合された MLLM ベースのパイプライン内でこれら 2 つの決定が実装されることが多く、保守的な介入フィルタリングと包括的な支援生成の間で目標の不整合が発生したり、エージェントが沈黙を保つ必要がある場合の冗長な推論が発生したりします。これらの制限に対処するために、私たちは、推論前の知覚に基づいて構築された 2 段階のフレームワークである \textbf{推論前知覚フレームワーク (PRPF)} を提案します。 PRPF は、介入ゲートとコンテキスト圧縮のための軽量のマルチモーダル プロアクティブ パーセプター (MPP) を導入し、介入が正当な場合にのみプロアクティブ エージェント リーズナー (PAR) をアクティブにします。 ProactiveMobile ベンチマークの実験では、PRPF が ProactiveMobile ベースラインよりも成功率 (SR) と推論効率を向上させながら、誤トリガー率 (FTR) を大幅に削減することが示されています。
原文 (English)
Perceive Before Reasoning: A Pre-Reasoning Perception Framework for Efficient and Reliable Proactive Mobile Agents
Multimodal large language models (MLLMs) have substantially advanced mobile agents, yet proactive mobile assistance remains challenging because agents must decide \emph{when} to intervene before determining \emph{how} to assist. Existing systems often implement these two decisions within a unified MLLM-based pipeline, leading to goal misalignment between conservative intervention filtering and comprehensive assistance generation, as well as redundant inference when the agent should remain silent. To address these limitations, we propose the \textbf{Pre-Reasoning Perception Framework (PRPF)}, a two-stage framework built on perceiving before reasoning. PRPF introduces a lightweight Multimodal Proactive Perceptor (MPP) for intervention gating and context compression, and activates the Proactive Agent Reasoner (PAR) only when intervention is warranted. Experiments on the ProactiveMobile benchmark show that PRPF substantially reduces false trigger rates (FTR) while improving success rates (SR) and inference efficiency over the ProactiveMobile baseline.
独我論的な超知性は協力的である可能性が低い
AI の中心的な課題は、機能から共存への移行です。 AI 研究における支配的なパラダイムは、世界を外生的かつ定常的なフィードバック源として扱う強力なエージェントの開発に焦点を当てています。 AI設計へのそのような独我論的アプローチから生まれた非常に有能なタスク解決手段であるスーパーインテリジェンスは、協調的である可能性は低いと我々は主張する。 AI システムを導入すると内生的な非定常性が誘発され、その結果、学習、テスト、導入のギャップが生じ、過去の分布が導入コンテキストから乖離します。これを、一方的な最適化の自己弱体化特性と呼びます。このギャップを埋めるには、協力に参加する AI が必要です。これは、複数の主体が相互依存関係をナビゲートする平衡選択プロセスです。私たちは、協力を解決すべき課題としてアプローチするのではなく、この相互依存を中核となる設計原理として扱う非独我論的研究パラダイムを求めます。これには、適応的なカウンターパーティを巻き込んだ動的な評価テストベッドの構築、制度を設計プリミティブとして扱うこと、構築するシステムの構造的特徴として人間の主体性を維持することが必要となります。
原文 (English)
Solipsistic Superintelligence is Unlikely to be Cooperative
AI's central challenge is shifting from capability to coexistence. The dominant paradigm in AI research focuses on developing powerful agents that treat the world as an exogenous and stationary source of feedback. We contend that superintelligence, an extremely capable task solver, born out of such a solipsistic approach to AI design, is unlikely to be cooperative. Deploying AI systems induces endogenous non-stationarity, resulting in a train-test-deploy gap where historical distributions diverge from the deployment context. We refer to this as the self-undermining property of unilateral optimization. Closing this gap requires AI that participates in cooperation: the equilibrium-selection process through which multiple actors navigate their interdependence. We call for a non-solipsistic research paradigm that treats this interdependence as a core design principle rather than approaching cooperation as a task to solve. This entails building dynamic evaluation testbeds involving adaptive counterparties, treating institutions as design primitives, and preserving human agency as a structural feature of the systems we build.
神経象徴的な視覚的質問応答のための LLM からの回答セット プログラミング ルールの抽出
Visual Question Answering (VQA) は、画像に関する質問に答えるタスクであり、マルチモーダルな入力と推論の統合が必要です。論理ベースの表現を推論コンポーネントに組み込むモジュール式のアプローチは、特に解釈可能性の点で、エンドツーエンドのトレーニング済みシステムに比べて明らかな利点を提供します。ただし、タスク要件が変化したときにこれらの表現を適応または拡張すると、開発者に大きな負担がかかる可能性があります。この課題に対処するために、大規模言語モデル (LLM) からルールを抽出するアプローチを紹介します。私たちの方法は、LLM に、タスクの新しい要件を満たすために、答えセット プログラムとして表現された初期 VQA 推論理論を拡張するよう促します。 VQA データセットの例は、LLM をガイドし、結果を検証し、ASP ソルバーからのフィードバックを活用して誤ったルールを修正するのに役立ちます。私たちのアプローチが多様な VQA データセット全体で効果的であることを実証します。特に、LLM から正しいルールを導き出すために必要な例はほんの数個だけです。私たちの実験は、LLM からのルールの抽出が、従来のデータ駆動型のルール学習アプローチに代わる有望な代替手段であることを示唆しています。論理プログラミングの理論と実践 (TPLP) で検討中。
原文 (English)
Distilling Answer-Set Programming Rules from LLMs for Neurosymbolic Visual Question Answering
Visual Question Answering (VQA) is the task of answering questions about images, requiring the integration of multimodal input and reasoning. Modular approaches that incorporate logic-based representations into the reasoning component offer clear advantages over end-to-end trained systems, particularly in terms of interpretability. However, adapting or extending these representations when task requirements change can place a significant burden on developers. To address this challenge, we present an approach for distilling rules from Large Language Models (LLMs). Our method prompts an LLM to extend an initial VQA reasoning theory, expressed as an answer-set program, to meet new requirements of the task. Examples from VQA datasets guide the LLM, validate the results, and help correct erroneous rules by leveraging feedback from the ASP solver. We demonstrate that our approach is effective across diverse VQA datasets. Notably, only a few examples are needed to elicit correct rules from LLMs. Our experiments suggest that rule distillation from LLMs is a promising alternative to traditional data-driven rule learning approaches. Under consideration in Theory and Practice of Logic Programming (TPLP).
LEAP: エージェント フレームワークを使用した形式数学用の LLM のスーパーチャージング
大規模言語モデル (LLM) は強力な非公式数学的推論を示しますが、リーンのような形式言語では機械的に検証可能な証明を生成するのに苦労します。 LEAP は、汎用基礎モデルが自動化された形式定理証明で最先端のパフォーマンスを達成できるようにするエージェント フレームワークです。 LEAP は、非公式推論、指示に従って、反復的な自己改善などの基礎モデルの機能を活用します。複雑な問題をより小さな単位に分解することで、システムはリーン コンパイラーとの継続的な対話を通じて、正式な証明の構築と非公式のブループリントの橋渡しをします。ますます飽和しつつあるベンチマークを超えた厳密な評価を提供するために、リーンで形式化された IMO スタイルの問題のベンチマークである Lean-IMO-Bench を導入します。このベンチマークでは、短いステートメントでありながら非常に非日常的で、幅広い難易度にわたる複数ステップの証明が行われます。経験的に、北米の学部学生を対象とした毎年恒例の数学コンテストである最新の 2025 年のパトナム コンペティションでは、LEAP は 12 の問題すべてを解決し、フロンティアの正式な数学モデルによる最近の進歩と一致しています。 Lean-IMO-Bench では、LEAP は汎用 LLM のワンショット形式解決率を 10% 未満から 70% に引き上げ、特に金メダル級の専門化された IMO システムによって設定されたベンチマークの 48% を上回っています。さらに、偶数次ケイリーグラフのクヌースのハミルトニアン分解における重要な部分問題の検証された証明を含む、オープンな組み合わせ課題に対する複雑な証明を自律的に形式化することで、LEAP の研究レベルの有用性を実証します。
原文 (English)
LEAP: Supercharging LLMs for Formal Mathematics with Agentic Frameworks
Large Language Models (LLMs) exhibit strong informal mathematical reasoning but struggle to generate mechanically verifiable proofs in formal languages like Lean. We present LEAP, an agentic framework that enables general-purpose foundation models to achieve state-of-the-art performance on automated formal theorem proving. LEAP leverages foundation model capabilities, such as informal reasoning, instruction following, and iterative self-refinement. By decomposing complex problems into smaller units, the system bridges formal proof construction with informal blueprints through continuous interaction with the Lean compiler. To provide a rigorous evaluation beyond increasingly saturated benchmarks, we introduce Lean-IMO-Bench, a benchmark of IMO-style problems formalized in Lean, with short statements yet highly non-routine and multi-step proofs across a wide range of difficulty levels. Empirically, on the latest 2025 Putnam Competition, an annual mathematics competition for undergraduate students in North America, LEAP solves all 12 problems, matching recent breakthroughs by frontier formal mathematical models. On Lean-IMO-Bench, LEAP boosts the one-shot formal solve rate of general-purpose LLMs from below 10% to 70%, notably surpassing the 48% benchmark set by a specialized, gold-medal-caliber IMO system. Furthermore, we demonstrate LEAP's research-level utility by autonomously formalizing complex proofs for open combinatorial challenges, including a verified proof for a key subproblem in Knuth's Hamiltonian decomposition of even-order Cayley graphs.
ベンチマーク監査における信頼性ギャップ: 汚染検出の障害モードとしての分布のシフトとスケール
評価例がモデルのトレーニング データに現れるベンチマーク汚染は、LLM 評価の妥当性を脅かします。トレーニング データのメンバーシップを検出するための統計ツールは存在しますが、ほぼ独占的に管理された学術体制、つまり大規模で均質な事前トレーニング コーパスと透明な単一ステージ トレーニング パイプラインでのみ検証されています。これらの方法が現実的な監査シナリオにおいて信頼性を維持できるかどうかは、依然として不明です。私たちは、十分に研究されていない 2 つの障害モードを特定します。1 つは、疑わしいセットと検証セットが IID の仮定に違反する場合に発生する分布シフト、もう 1 つは、ベンチマークがトレーニング前のコーパスよりも桁違いに小さいために発生するスケール制約です。私たちは、複数のファミリー (Pythia、OLMo~2、特殊な文化的および医療的 LLM を含む) およびスケール (最大 27B) からの 27 のモデルにわたって、LLM データセット推論、ポストホック データセット推論、CoDeC という 3 つの主要なパラダイムを体系的に評価します。次に、分析を最先端の業界モデルにさらに拡張します。 335 件の評価のうち、正しい結果が得られたのは 199 件のみでした。 LLM データセット推論では、分布シフトの下で偽陽性が発生し、ポストホック データセット推論はベンチマーク スケールでは能力が不足し、CoDeC は個々のベンチマーク分割を検証するには不十分な粗い出所信号しか提供しません。私たちの結果は、管理された検証と実際のベンチマーク監査の間に体系的な信頼性のギャップがあることを明らかにし、統計的検出がまだ透明なデータ来歴に取って代わることができないことを示しています。私たちはさらなる研究のためにベンチマークをオープンソースにしています。
原文 (English)
The Reliability Gap in Benchmark Auditing: Distribution Shift and Scale as Failure Modes of Contamination Detection
Benchmark contamination, where evaluation examples appear in a model's training data, threatens the validity of LLM assessment. Statistical tools for detecting training-data membership exist, but have been validated almost exclusively in controlled academic regimes: large, homogeneous pre-training corpora and transparent, single-stage training pipelines. Whether these methods remain reliable in realistic auditing scenarios remains unclear. We identify two under-studied failure modes: distribution shift, which arises when suspect and validation sets violate the IID assumption, and scale constraints, which arise because benchmarks are orders of magnitude smaller than pre-training corpora. We systematically evaluate three leading paradigms: LLM Dataset Inference, Post-Hoc Dataset Inference, and CoDeC across 27 models from multiple families (including Pythia, OLMo~2, and specialised cultural and medical LLMs) and scales (up to 27B). We then further extend our analysis to frontier industry models. Across 335 evaluations, only 199 yield correct outcomes. LLM Dataset Inference results in false positives under distribution shift, Post-Hoc Dataset Inference is underpowered at benchmark scale, and CoDeC provides only coarse provenance signals that are insufficient to verify individual benchmark splits. Our results reveal a systematic reliability gap between controlled validation and practical benchmark auditing, and show that statistical detection cannot yet replace transparent data provenance. We open-source our benchmark for further research.
InfoMem: 回答条件付き情報獲得によるロングコンテキスト記憶エージェントのトレーニング
長いコンテキストのタスクでは、LLM が大規模なコンテキストから回答関連情報を識別して保存する必要があります。チャンク単位のメモリ エージェントは、ドキュメントのチャンクを順番に読み取り、コンパクトなメモリを更新し、蓄積されたメモリから最終的な回答を生成することで、この問題に対処します。ただし、既存の RL ベースのチャンクごとのエージェントは、スパースな最終回答報酬に依存するか、記憶および検索アクションに語彙的な中間報酬を使用します。これらの信号はタスクの成功または局所的なオーバーラップを監視しますが、最終的なメモリが真実の答えをサポートしているかどうかを直接評価しません。我々は、回答条件付き情報を使用して最終メモリの有用性を評価する、チャンク単位の記憶エージェントをトレーニングするための報酬メカニズムである InfoMem を提案します。 InfoMem は、最終メモリがモデルのグラウンドトゥルースの答えのトークンごとの対数尤度をどの程度増加させるかを測定します。 RL の最適化を安定させるために、InfoMem はこの信号を成功した軌跡にのみ適用し、報酬を合成する前に正規化します。同じ GRPO フレームワークとトレーニング予算の下で、InfoMem は、同等のメモリ エージェント RL ベースラインよりもロング コンテキストのメモリ エージェントのパフォーマンスを向上させます。分析の結果、効果的な最終記憶報酬は成功の軌跡に基づいて動作し、報酬を合成する前に正規化され、クエリではなく回答に基づいて条件付けされる必要があることが示されています。私たちのコードは https://github.com/GenSouKa1/InfoMem で入手できます。
原文 (English)
InfoMem: Training Long-Context Memory Agents with Answer-Conditioned Information Gain
Long-context tasks require LLMs to identify and preserve answer-relevant information from large contexts. Chunk-wise memory agents address this issue by sequentially reading document chunks, updating a compact memory, and generating the final answer from the accumulated memory. However, existing RL-based chunk-wise agents either rely on sparse final-answer rewards or use lexical intermediate rewards for memory and retrieval actions. These signals supervise task success or local overlap, but do not directly evaluate whether the final memory supports the ground-truth answer. We propose InfoMem, a reward mechanism for training chunk-wise memory agents that evaluates final-memory utility using answer-conditioned information. InfoMem measures how much the final memory increases the model's per-token log-likelihood of the ground-truth answer. To stabilize RL optimization, InfoMem applies this signal only to successful trajectories and normalizes it before reward composition. Under the same GRPO framework and training budget, InfoMem improves long-context memory-agent performance over comparable memory-agent RL baselines. Analyses show that effective final-memory rewards should operate on successful trajectories, be normalized before reward composition, and be conditioned on the answer rather than the query. Our code is available at https://github.com/GenSouKa1/InfoMem.
DMF: 会話型 AI エージェントのための決定論的メモリ フレームワーク
会話型 AI エージェントには、スケーラブルであり、長い対話期間にわたって意味的に一貫性のあるメモリ システムが必要です。既存のアプローチは主に、書き込み時の大規模言語モデル (LLM) ベースの要約に依存しているため、非決定性が生じ、トークン コストが増大し、枝刈りの決定が不透明になります。決定論的メモリ フレームワーク (DMF) を紹介します。これは、生成メモリ圧縮を、古典的な NLP 分析、ベクトル ジオメトリ、数学的スコアリングに基づいた完全に決定論的なパイプラインに置き換える CPU ファーストのアプローチです。 DMF は、各会話インタラクションに、確定的なコンテンツ信号、会話の手がかり、構造化された来歴をロジスティック投影によって組み合わせて計算された生存スコア $\Omega$ を割り当てます。 $\Omega_{\mathrm{eff}}(\Delta n)$ として示されるインタラクション数の減衰則は、新しいターンが到来するにつれて関連性がどのように進化するかを制御します。$\Delta n$ は実時間ではなく新しいインタラクションの数であり、完全な決定論が維持されます。 DMF の数学的定式化、その構造化されたリコール パイプライン、枝刈りの決定手順、および評価プロトコルを紹介します。実験は、LoCoMo および LongMemEval データセットを使用して、専用のベンチマークで実行されます。 DMF と、AI エージェントによく使われるメモリ層である Mem0 を比較します。 DMF は、メモリ コンテキストの準備にゼロ トークンを使用しながら、会話全体で 5 倍から 242 倍少ないトークンを使用しながら、同等の精度を実現します。これらの結果は、メモリ管理ループから LLM 呼び出しを排除し、トークン コストをほぼゼロに削減し、会話型 AI エージェントの決定論的メモリ システムを可能にすることが可能であることを示しています。
原文 (English)
DMF: A Deterministic Memory Framework for Conversational AI Agents
Conversational AI agents require memory systems that are both scalable and semantically coherent across long interaction horizons. Existing approaches rely predominantly on large language model (LLM)-based summarisation at write time, which introduces non-determinism, escalating token costs, and opacity in pruning decisions. We present the Deterministic Memory Framework (DMF), a CPU-first approach that replaces generative memory compression with a fully deterministic pipeline grounded in classical NLP analysis, vector geometry, and mathematical scoring. DMF assigns each conversational interaction a Survival Score $\Omega$ computed from deterministic content signals, conversational cues, and structured provenance, combined through a logistic projection. An interaction-count decay law, denoted as $\Omega_{\mathrm{eff}}(\Delta n)$, governs how relevance evolves as new turns arrive, where $\Delta n$ is the number of newer interactions rather than wall-clock time, preserving full determinism. We present the mathematical formulation of DMF, its structured recall pipeline, the pruning decision procedure, and the evaluation protocol. Experiments are conducted on a purpose-built benchmark using the LoCoMo and LongMemEval datasets. We compare DMF against Mem0, a popular memory layer for AI agents. DMF achieves comparable accuracy while using zero tokens to prepare the memory context and 5x to 242x fewer tokens over the entire conversation. These results show that it is possible to eliminate LLM calls from the memory-management loop, reducing token costs to nearly zero and enabling deterministic memory systems for conversational AI agents.
StepFinder: マルチエージェント システムにおける障害の原因を特定するための時間的セマンティック フレームワーク
LLM ベースのマルチエージェント システムは、複雑な複数ステップのタスクにおいて優れた共同作業能力を発揮します。ただし、これらのシステムは、エージェントの対話を通じて伝播し、連鎖的な障害につながる可能性のあるシングルステップ実行エラーに対して非常に敏感です。障害の原因を理解し、システムの信頼性を向上させるために、障害の原因となる根本原因のステップを自動的に特定することを目的としたタスクとして、障害の原因特定が導入されました。既存の障害帰属手法は、主に LLM に依存して元の実行軌跡を推論します。これにより、高い推論コストと遅延が発生するだけでなく、冗長でノイズの多い実行ログによって引き起こされる干渉の影響を受け、LLM が真の根本原因ステップを正確に特定するのに苦労します。これに対処するために、軽量の障害属性フレームワークである StepFinder を提案します。私たちは、実行ログを時間的意味シーケンスにエンコードするために、機能構築フェーズ中にのみ LLM を使用します。続いて、時間モデリングと注意モジュールのパラメーター効率の高い組み合わせを適用して、軌道の逐次進化とステップ間の依存関係を捕捉します。最後に、ステップレベルのエラースコアは、マルチスケールの差分と位置の偏りによって調整され、正確な根本原因の特定が可能になります。 Who&When ベンチマークの実験結果では、StepFinder がステップ レベルの障害の原因特定において LLM ベースの手法を上回り、大幅に高い推論効率を達成し、最速の LLM ベースの手法と比較して推論時間を 79% 削減し、テキスト生成のオーバーヘッドがないことが実証されました。私たちのコードは https://github.com/taiyu-zhu/StepFinder で入手できます。
原文 (English)
StepFinder: A Temporal Semantic Framework for Failure Attribution in Multi-Agent Systems
LLM-based multi-agent systems exhibit remarkable collaborative capabilities in complex multi-step tasks. However, these systems are highly sensitive to single-step execution errors that can propagate through agent interactions and lead to cascading failures. To understand the causes of failure and improve system reliability, failure attribution has been introduced as a task that aims to automatically identify the root cause step responsible for a failure. Existing failure attribution methods mainly rely on LLMs to reason over original execution trajectories, which not only incur high inference costs and latency, but also suffer from interference caused by redundant and noisy execution logs, causing LLMs to struggle in accurately identifying the true root cause step. To address this, we propose StepFinder, a lightweight failure attribution framework. We use LLMs solely during the feature construction phase to encode execution logs into temporal semantic sequences. Subsequently, a parameter-efficient combination of temporal modeling and attention modules is applied to capture the sequential evolution and cross-step dependencies of the trajectories. Finally, the step-level error score is refined through multi-scale differences and position bias, enabling precise root cause identification. Experimental results on the Who&When benchmark demonstrate that StepFinder outperforms LLM-based methods in step-level failure attribution while achieving substantially higher inference efficiency, reducing inference time by 79% compared with the fastest LLM-based method, with no text generation overhead. Our code is available at https://github.com/taiyu-zhu/StepFinder.
SAGE: エージェント生態系における社会化進化の定量的評価
自己改善型言語エージェントは通常、単独で評価されます。エージェントはタスクを試み、フィードバックを受け取り、繰り返し自身の動作を改善します。しかし、エージェントは、戦略と結果が公に公開されている同僚と協力して活動することが増えています。このことから、十分に研究されていない疑問が生じます。共有された経験が、自己改善だけでは達成できない改善をもたらすのはいつでしょうか? 2 つのコンピューティングが一致する条件を比較する評価フレームワークである SAGE (ソーシャル エージェント グループ エボリューション) を紹介します。SocialEvo では、5 つの異なるモデル ファミリのエージェントがすべてのピアの履歴にアクセスしながら共同進化します。そして、SelfEvo では、各エージェントは同じ回数のタスク試行を受けますが、自分自身の過去のみを見ることができます。これは、自己改善エージェントの研究では一般的です。私たちは、オープンエンドの ML 研究、長期的な経済計画、戦略的なマルチプレイヤー プレイの 3 つの分野で SAGE をインスタンス化し、複数の進化ラウンドにわたって評価します。私たちは、グループの歴史が普遍的な増幅器ではないことを発見しました。つまり、最も強力なエージェントは自己進化の上限を超えることはありません。ただし、自己改善が停滞しているエージェントでも、同僚の経験があれば、大きな進歩を遂げることができます。競争環境では、反事実的なコントロールにより、エージェントが対戦相手固有の戦略を開発するのではなく、全体的に向上することが明らかになります。さまざまな形式の共有履歴にわたって、フィルタリングされたピアトレースやリフレクションサマリーは生のログよりもパフォーマンスが優れていることが多く、社会的利益は露出量ではなく抽象化に依存していることを示しています。これらの発見は、ピア履歴の獲得がエージェント固有、アリーナ依存であり、公開された痕跡から譲渡可能な知識を抽象化する能力に依存していることを明らかにしています。
原文 (English)
SAGE: A Quantitative Evaluation of Socialized Evolution in Agent Ecosystems
Self-improving language agents are typically evaluated in isolation: an agent attempts a task, receives feedback, and iteratively refines its own behavior. Yet agents increasingly operate alongside peers whose strategies and outcomes are publicly visible. This raises an under-studied question: when does shared experience produce improvements that self-improvement alone cannot achieve? We introduce SAGE (Social Agent Group Evolution),an evaluation framework that compares two compute-matched conditions: SocialEvo, where agents from five distinct model families co-evolve with access to all peers' histories; and SelfEvo, where each agent receives the same number of task attempts but sees only its own past, which is conventional in self-improving agent studies. We instantiate SAGE in three arenas: open-ended ML research, long-horizon economic planning, and strategic multiplayer play, evaluated across multiple evolutionary rounds. We find that group history is not a universal amplifier: the strongest agent does not exceed its self-evolution ceiling. However, agents that plateau under self-improvement can achieve significant breakthroughs when peer experience is available. In competitive settings, counterfactual controls reveal that agents improve generally rather than developing opponent-specific strategies. Across different forms of shared history, filtered peer traces and reflective summaries often outperform raw logs, indicating that social gains depend on abstraction rather than exposure volume. These findings reveal that peer-history gains are agent-specific, arena-dependent, and contingent on the capacity to abstract transferable knowledge from public traces.
プロンプトからサービスまで: AI 主導の仮想世界向けの SLM ベースのエージェント オーケストレーション ゲートウェイ
生成 AI 機能が拡大するにつれて、AI 主導の仮想世界は増大するアーキテクチャ上の課題に直面しています。ユーザーはインワールド インターフェイスを通じてマルチモーダルな方法で対話しますが、そのリクエストには根本的に異なる AI バックエンド モデルと計算リソースが必要です。これらの機能を仮想世界システムに直接組み込むと、拡張性が低下し、メンテナンスが複雑になり、エッジおよびクラウド インフラストラクチャ全体に分散されたサービスを調整する機能が制限されます。このペーパーでは、SLM ベースのエージェント オーケストレーション ゲートウェイについて説明します。これは、インテント駆動型のサービス ルーティングを通じて、仮想世界のクライアントを異種 AI バックエンドから切り離す軽量のランタイム調整メカニズムです。エッジ展開された SLM は各ユーザー プロンプトの意味論的な意図を分類し、構成可能なサービス レジストリはルーティングの決定を検証して解決します。選択されたバックエンドは透過的に呼び出され、クライアント アプリケーションを変更することなく新しい AI 機能を仮想世界に導入できます。ゲートウェイは、InterownedXR 仮想博物館テストベッド内で実装および評価されます。この評価では、コンパクト SLM がエッジ ハードウェア上で信頼性の高いインテント ルーターとして機能し、タスク固有の微調整により 10 億未満のパラメータ モデルを実用的な低遅延ルーターに変換できることが示されました。ルータとして微調整された 10 億未満のパラメータ モデルと会話応答生成のためのより大きな SLM を組み合わせた階層化構成は、ミッドレンジ エッジ ハードウェアに展開可能であり、両方の役割を 1 つのモデルに委任するよりも効率的であることが示されています。この調査結果は、SLM が仮想世界における実用的な AI サービス オーケストレーションをサポートできることを示しており、この研究はスケーラブルで拡張可能でエッジサポートされた AI インタラクションのための評価済みアーキテクチャに貢献し、仮想エージェントが分散型生成 AI サービスへのアクセス ポイントになることを可能にします。
原文 (English)
From Prompt to Service: An SLM-Based Agent Orchestration Gateway for AI-Driven Virtual Worlds
As generative AI capabilities expand, AI-driven virtual worlds face a growing architectural challenge. Users interact through in-world interfaces in multimodal ways, yet their requests demand fundamentally different AI backend models and computational resources. Embedding these capabilities directly into virtual world systems reduces extensibility, complicates maintenance, and limits the ability to coordinate services distributed across edge and cloud infrastructure. This paper presents an SLM-based Agent Orchestration Gateway, a lightweight runtime coordination mechanism that decouples a virtual world client from heterogeneous AI backends through intent-driven service routing. An edge-deployed SLM classifies the semantic intent of each user prompt, a configurable service registry validates and resolves the routing decision, and the selected backend is invoked transparently, enabling new AI capabilities to be introduced in the virtual world without modifying the client application. The gateway is implemented and evaluated within the InterwovenXR virtual museum testbed. The evaluation shows that compact SLMs can serve as reliable intent routers on edge hardware, and that task-specific fine-tuning can transform sub-billion-parameter models into practical, low-latency routers. A layered configuration pairing a fine-tuned sub billion-parameter model as router with a larger SLM for conversational response generation is shown to be deployable on mid-range edge hardware and more efficient than delegating both responsibilities to a single model. The findings show that SLMs can support practical AI service orchestration in virtual worlds and the work contributes an evaluated architecture for scalable, extensible, and edge-supported AI interaction, enabling virtual agents become access points to distributed generative AI services.
言語を超えたトークン アービトラージ: ローカル LLM 前処理によるコード エージェント コンテキスト ウィンドウの最適化
AI 支援コーディング エージェントは、入力トークンのコストがボトルネックとなります。人間による生の入力の 2 つの病理が、このオーバーヘッドの多くを引き起こします。それは、英語以外のテキストのトークン化の非効率性と、会話プロンプトの構造的エントロピーです。既存のアプローチは、すでに肥大化したコンテキストを圧縮したり、障害が発生した後に介入したりすることで、事後的に動作します。開発者とクラウド エージェントの間で動作する、プリフライトのエッジ側プロンプト書き換えミドルウェアを導入します。ローカルの Llama 3.2 (3B) モデルは、英語への言語間翻訳、コンパクトなタスク指向形式への構造の書き換え、および正規表現で検証されたフォールバック付き書き換えセーフガードを実行して、最適化されたプロンプトが元のプロンプトより大きくならないようにします。私たちは、トルコ語、アラビア語、中国語、およびコードスイッチ仕様にまたがる多言語コーディング ベンチマークである OMH-Polyglot で評価します。このミドルウェアは、3 つの商用 LLM バックエンド全体で、タスクの精度を維持または向上させながら、プロンプト トークンを 34 ~ 47 パーセント削減し、合計トークンを最大 18.8 パーセント削減します。アブレーション研究では、単純な関数名の抽出ではなく、主に書き換え段階から利益が生じることが示されています。同等の圧縮率での LLMLingua-2 と比較して、私たちの方法は、評価されたすべてのバックエンドにわたって一貫して優れた OckScore パフォーマンスを達成します。これらの結果は、プロアクティブなプロンプト最適化により、コーディング品質を犠牲にすることなく推論コストを大幅に削減できることを示しています。
原文 (English)
Cross-Lingual Token Arbitrage: Optimizing Code Agent Context Windows via Local LLM Preprocessing
AI-assisted coding agents are bottlenecked by input-token cost. Two pathologies of raw human input drive much of this overhead: tokenization inefficiency for non-English text and structural entropy in conversational prompts. Existing approaches act reactively by compressing already-bloated contexts or intervening after failures occur. We introduce a pre-flight, edge-side prompt-rewriting middleware that operates between the developer and the cloud agent. A local Llama 3.2 (3B) model performs cross-lingual translation into English, structural rewriting into a compact task-oriented format, and regex-validated rewrite-with-fallback safeguards to ensure the optimized prompt is never larger than the original. We evaluate on OMH-Polyglot, a multilingual coding benchmark spanning Turkish, Arabic, Chinese, and code-switched specifications. Across three commercial LLM backends, the middleware reduces prompt tokens by 34-47 percent and total tokens by up to 18.8 percent while preserving or improving task accuracy. Ablation studies show that gains arise primarily from the rewriting stage rather than simple function-name extraction. Compared with LLMLingua-2 at matched compression rates, our method consistently achieves superior OckScore performance across all evaluated backends. These results demonstrate that proactive prompt optimization can substantially reduce inference costs without sacrificing coding quality.
大規模な推論モデルでの命令を解決するための補助制約のブリッジ
大規模推論モデル (LRM) は、多くのタスクで優れた機能を実証していますが、個々の制約を満たせなかったり、競合する制約を同時にバランスさせるのに苦労したりするため、複数の命令に確実に従うことが困難です。私たちはこの課題を制約遵守問題 (CAP) として形式化します。この論文では、命令を制約の構造化知識グラフとして表現することで CAP に対処する新しいフレームワークを紹介します。私たちのアプローチである Constraint Relationship Graph Completion (CRGC) は、制約間の関係を明示的にモデル化し、遵守の課題を特定し、モデルが要件に焦点を合わせて調整するのに役立つ「ブリッジ制約」を発見します。ブリッジ制約は、主制約をより顕著にし、互換性を持たせる補助的な命令として機能します。一般的なトレーニング方法を通じて指導のフォローを強化する既存のアプローチとは異なり、CRGC は、モデル自体の知識を活用して生成のためのより良い経路を作成することにより、特に制約満足度を向上させます。データセットに従う 3 つの一般的な命令を対象とした実験では、私たちのアプローチが、大規模な推論モデルの推論能力を維持しながら、標準的なプロンプトと比較して制約違反を 39% 削減することが実証されました。
原文 (English)
Bridging Auxiliary Constraints to Resolve Instruction Following in Large Reasoning Models
Large Reasoning Models (LRMs) have demonstrated impressive capabilities in many tasks, yet they struggle with reliably following multiple instructions, either by failing to satisfy individual constraints or by struggling to balance competing constraints simultaneously. We formalize this challenge as the Constraint Adherence Problem (CAP). This paper introduces a novel framework that addresses CAP by representing instructions as a structured knowledge graph of constraints. Our approach, Constraint Relationship Graph Completion (CRGC), explicitly models relationships between constraints, identifies adherence challenges, and discovers ``bridge constraints'' that help the model better focus on and reconcile requirements. Bridge constraints act as auxiliary instructions that make primary constraints more salient and compatible. Unlike existing approaches that enhance instruction following through general training methods, CRGC specifically improves constraint satisfaction by leveraging the model's own knowledge to create better pathways for generation. Experiments across three popular instruction following datasets demonstrate that our approach reduces constraint violations by 39% compared to standard prompting while maintaining reasoning abilities of large reasoning models.
LLM 医療トリアージにおける性別に応じた診断代替: 同じ症状、不均等な緊急性
私たちは、患者の表明された性別と年齢のみが異なる場合に、大規模言語モデルが同一の神経学的症状に対して異なる医療トリアージ推奨を生成するかどうかを調査します。 3 つのモデル ファミリ (Gemini 3.5 Flash、Claude Sonnet 4.6、および GPT-5.4-mini) を使用して、7 つの人口統計条件にわたる標準化された症状プロファイル (持続的な頭痛、かすみ目、朝の吐き気、視覚障害) を提示します: 3 つの年齢グループ (25、38、65) x 2 つの性別 (男性、女性)、および性別不特定のベースライン (モデルごとに条件ごとに n = 30、合計 630)トライアル)。私たちは、性別に依存したトリアージの明らかな体系的な格差を発見しました。若い女性は、同年齢の男性よりも緊急治療室(ER)への紹介率が著しく低いことがわかりました(ジェミニ: 0% 対 23.3%、クロード: 6.7% 対 96.7%、GPT: 6.7% 対 66.7%、すべて p < 0.001)。すべてのモデルで 65 歳になると格差はなくなります。主なメカニズムは診断代替である。モデルは性別に関連した診断に基づいており、疫学的に出産適齢期の女性に関連する疾患である特発性頭蓋内圧亢進症(IIH)の若い女性を優先的に分類する一方、鑑別領域に空間を占める病変を伴う一般的な頭蓋内圧亢進を有する男性を診断する。この診断的閉鎖により、同等の重症度評価(7~9/10)にもかかわらず、女性患者は緊急性の低いケア(外来医師の予約)に誘導されます。私たちの調査結果は、臨床 LLM が疫学的な事前情報を使用してトリアージの緊急性を抑制することによって、文書化された人間の臨床バイアスを再現することを示しており、AI トリアージ エンジンが緊急性の評価を確率的な診断の事前情報から切り離す必要があることを示唆しています。すべてのコード、プロンプト、生の結果をリリースします。
原文 (English)
Gender-Dependent Diagnostic Substitution in LLM Medical Triage: Same Symptoms, Unequal Urgency
We investigate whether large language models produce different medical triage recommendations for identical neurological symptoms when only the patient's stated gender and age vary. Using three model families--Gemini 3.5 Flash, Claude Sonnet 4.6, and GPT-5.4-mini--we present a standardized symptom profile (persistent headache, blurred vision, morning nausea, visual disturbances) across seven demographic conditions: three age groups (25, 38, 65) x two genders (male, female), plus a gender-unspecified baseline (n = 30 per condition per model, 630 total trials). We find a stark, systemic gender-dependent triage disparity: young women receive significantly lower emergency room (ER) referral rates than age-matched men (Gemini: 0% vs. 23.3%; Claude: 6.7% vs. 96.7%; GPT: 6.7% vs. 66.7%, all p < 0.001). The disparity disappears at age 65 for all models. The primary mechanism is diagnostic substitution: the models anchor on a gender-associated diagnosis, preferentially classifying young women with Idiopathic Intracranial Hypertension (IIH)--a condition epidemiologically linked to women of childbearing age--while diagnosing men with generic increased intracranial pressure with space-occupying lesions in the differential. This diagnostic closure routes female patients to lower-urgency care (outpatient doctor appointments) despite comparable severity ratings (7-9/10). Our findings demonstrate that clinical LLMs replicate documented human clinical biases by using epidemiological priors to suppress triage urgency, suggesting that AI triage engines must decouple urgency assessment from probabilistic diagnostic priors. We release all code, prompts, and raw results.
LLM ツール使用における知識ギャップの診断: 新しい API 取得のためのエージェント ベンチマーク
コード生成のための大規模な言語モデルでは、多くの場合、事前トレーニング データに含まれていない API を使用する必要があります。これには、関数名を思い出すだけでは不十分です。モデルは、シグネチャ、モジュール パス、入出力コントラクト、セマンティクス、および実行可能ファイルの使用パターンを調整する必要があります。既存の新規 API ベンチマークは通常、静的であり、大まかな合否メトリクスに依存しているか、実際のライブラリの進化を反映していない可能性がある合成 API を使用しています。 NovelAPIBench は、あらゆるベース モデルおよびターゲット ライブラリに対して、新しい API を検出し、分解された知識バンドルを抽出し、実行可能なコーディング タスクを生成し、失敗したサンプルを 6 つの診断カテゴリに割り当てる、完全に自動化された動的ベンチマークです。約 1.9K のタスク、4 つの基本モデル、5 つのドメインにわたって、検索を通じて注入された知識と、パラメトリック適応を通じて内面化された知識を比較します。ナレッジコンポーネントは互換性がないことがわかりました。使用例は最も強力なスタンドアロンシグナルですが、最良の 2 コンポーネント設定は、ドメインとバックボーンに応じてメカニズムまたはサンプルのいずれかとシグネチャを組み合わせます。コンテキスト、特にソース コードを追加すると、インポート パスのエラーが増加して問題が発生する可能性があります。また、パラメトリック適応は、外部知識が除去された場合には検索に代わるものではありません。むしろ、微調整は主に提供されたバンドルの使用方法をモデルに教え、この機能は保持されたライブラリに転送されます。これらの結果は、取得とチューニングが補完的な役割を果たすことを示唆しています。取得は揮発性の API コンテンツを提供し、チューニングは手続き上の統合を改善します。
原文 (English)
Diagnosing Knowledge Gaps in LLM Tool Use: An Agentic Benchmark for Novel API Acquisition
Large language models for code generation often need to use APIs that are absent from their pretraining data. This requires more than recalling a function name: models must coordinate signatures, module paths, input-output contracts, semantics, and executable usage patterns. Existing novel-API benchmarks are typically static, rely on coarse pass/fail metrics, or use synthetic APIs that may not reflect real library evolution. We introduce NovelAPIBench, a fully automated dynamic benchmark that, for any base model and target library, discovers novel APIs, extracts decomposed knowledge bundles, generates executable coding tasks, and assigns failed samples to six diagnostic categories. Across about 1.9K tasks, four base models, and five domains, we compare knowledge injected through retrieval with knowledge internalized through parametric adaptation. We find that knowledge components are not interchangeable: usage examples are the strongest standalone signal, while the best two-component setting pairs signatures with either mechanisms or examples depending on the domain and backbone. Adding more context, especially source code, can hurt by increasing import-path errors. Parametric adaptation also does not replace retrieval once external knowledge is removed; rather, fine-tuning mainly teaches models how to use provided bundles, and this ability transfers to held-out libraries. These results suggest that retrieval and tuning play complementary roles: retrieval supplies volatile API content, while tuning improves procedural integration.
EvoDrive: 自己改善型 LLM エージェントによるセーフティ クリティカルな自動運転のパレート進化
安全性が重要なシナリオの生成は、自動運転システムの検証と改善に不可欠ですが、現実性を維持しながら障害を明らかにするには、本質的に敵対性を最大限に高める必要があります。既存の手法は通常、手作りのヒューリスティックによってこのトレードオフを管理し、生成を既知の事前分布に限定し、探索されていないパターンを見逃しています。最近のオープンエンドのエージェント進化はこの限界を押し上げる可能性がありますが、制約のない一般エージェントはシミュレーターの厳密な基礎を欠いており、多目的の緊張を単一スカラーの最大化に崩壊させる傾向があります。ここでは、多目的シナリオ生成のための初の自動化された LLM ベースのエージェント進化フレームワークである EvoDrive を紹介します。 EvoDrive は、シミュレータベースのアクター - クリティカル アーキテクチャを採用しており、メモリ主導のアクターがジェネレーターの改善を繰り返し提案し、クリティカルがありそうもない候補を除外し、自己進化するワールド エバリュエーターが有望な提案をルーティングしてシミュレーション予算を最適化します。 EvoDrive はさらに、評価された候補のパレート アーカイブを維持して、攻撃と現実性のさまざまなトレードオフを維持し、シミュレーション フィードバックを通じて将来の進化を導きます。 MetaDrive と CARLA のベンチマーク結果は、EvoDrive がさまざまなジェネレーターにわたってパレート フロンティアを大幅に拡大するだけでなく、ポリシー トレーニングのための貴重なシナリオも生成することを示しています。
原文 (English)
EvoDrive: Pareto Evolution for Safety-Critical Autonomous Driving via Self-Improving LLM Agents
Generating safety-critical scenarios is essential for validating and improving autonomous driving systems, yet it inherently requires maximizing adversariality to expose failures while preserving realism. Existing methods usually manage this trade-off with handcrafted heuristics, confining generation to known priors and overlooking underexplored patterns. While recent open-ended agentic evolution can push this limit, unconstrained general agents lack strict simulator grounding and tend to collapse the multi-objective tension into single-scalar maximization. Here we present EvoDrive, the first automated, LLM-based agentic evolution framework for multi-objective scenario generation. EvoDrive employs a simulator-grounded actor-critic architecture where a memory-driven actor iteratively proposes improvements to the generators and critics filter out implausible candidates, and a self-evolving world evaluator routes promising proposals to optimize simulation budgets. EvoDrive further maintains a Pareto archive of evaluated candidates to preserve diverse attack-realism trade-offs and guide future evolution via simulation feedback. Benchmark results on MetaDrive and CARLA show that EvoDrive not only significantly expands the Pareto frontier across various generators, but also produces valuable scenarios for policy training.
SkillPyramid: 自己進化エージェントのための階層型スキル統合フレームワーク
最近の AI エージェントは、複雑なタスクを解決するためにスキルを柔軟に呼び出すことができますが、体系的なスキルの構築、蓄積、伝達が欠如しているため、その長期的な改善には根本的な制約があります。特に、スキルを統合するための統一されたフレームワークがないと、エージェントは異なるタスクにわたって同様の機能を重複して構築する傾向があり、経験を再利用可能な資産に効果的に変換できず、タスク固有のスキルを新しいシナリオに一般化するのに苦労します。この制限に対処するために、既存のスキル経験を再利用してより広範なタスクを一般化するスキル統合フレームワークである SkillPyramid を提案します。 SkillPyramid は、階層型スキル トポロジで動作し、エージェントがタスクの実行中に新しいスキルを作成、検証、組み込むことを可能にする自己進化メカニズムをさらに導入します。 4 つのバックボーン モデルにわたる ALFWorld、WebShop、および ScienceWorld の実験では、SkillPyramid が平均報酬を 38.0% 大幅に増加させ、実行ステップを 27.7% 削減することが示されました。全体として、私たちの方法は、スキルのコレクションを静的なリソースプールから動的な進化システムに変換します。
原文 (English)
SkillPyramid: A Hierarchical Skill Consolidation Framework for Self-Evolving Agents
Recent AI agents can flexibly invoke skills to solve complex tasks, but their long-term improvement is fundamentally constrained by a lack of systematic skill construction, accumulation, and transfer. In particular, without a unified framework for skill consolidation, agents tend to redundantly construct similar capabilities across different tasks, are unable to effectively transform experience into reusable assets, and struggle to generalize task-specific skills to novel scenarios. To address this limitation, we propose SkillPyramid, a skill consolidation framework that reuses existing skill experience for broader task generalization. Operating on a hierarchical skill topology, SkillPyramid further introduces a self-evolution mechanism that enables agents to compose, validate, and incorporate new skills during task execution. Experiments on ALFWorld, WebShop, and ScienceWorld across four backbone models show that SkillPyramid substantially increases the average reward by 38.0% and reduces execution steps by 27.7%. Overall, our method transforms a skill collection from a static resource pool into a dynamic evolution system.
財務上の意思決定のためのセーフガードとLLM監視による動的な目標の選択
株式の推奨やポートフォリオの配分などの財務上の意思決定タスクでは、通常、将来のリターンとリスクを見積もり、投資家向けの取引や配分を選択します。多くの場合、選択された最適化目標によって実現パフォーマンスが決まります。ただし、市場の状況は時間の経過とともに変化するため、固定された目標はレジーム全体で最適ではない可能性があり、一方で、潜在的なレジームの推定に依存するレジーム切り替えパイプラインにはノイズが多かったり遅延したりする可能性があり、切り替えが頻繁になると売上高が増加し、運用が不安定になる可能性があります。この論文では、中間レジーム変数を導入せずに、最近のリターンの解釈可能な統計的要約から各時点での意思決定に関連する目的関数を直接選択し、少数の候補セット(例:リターン追求型、損失回避型、リスク調整型)の中から選択する、学習ベースのセレクターであるDOSS(セーフガード付き動的目標選択)を提案します。 DOSS は、目的の選択を目的にわたる分類問題として定式化し、ローリング ウィンドウで逐次更新を実行して、一時的な漏れなく将来を見据えた選択を行うと同時に、各提案の信頼スコアも出力します。導入時の選択ミスや過剰なスイッチングを軽減するために、DOSS は、信頼性の低い提案を保守的なデフォルトに上書きし、スイッチング周波数に関連付けられた明示的な制御を強制するフェールセーフを備えた信頼性を認識したゲーティングを適用します。大規模言語モデル (LLM) を新しい目標の生成器ではなく監視コンポーネントとして位置付けることにより、ガバナンスをさらに統合します。LLM は、提案された目標を受け入れるか、事前定義された安全なデフォルトにオーバーライドするように制限されており、必要に応じてオーバーライドをトリガーする決定論的なルールベースの制約が使用されます。
原文 (English)
Dynamic Objective Selection with Safeguards and LLM Oversight for Financial Decision-Making
Financial decision-making tasks such as stock recommendation and portfolio allocation typically estimate future return and risk and then select trades or allocations for an investor, and the chosen optimization objective often determines realized performance. However, because market conditions evolve over time, a fixed objective can be suboptimal across regimes, while regime-switching pipelines that rely on latent regime estimates can be noisy or delayed and frequent switching can increase turnover and operational instability. In this paper, we propose DOSS (Dynamic Objective Selection with Safeguards), a learning-based selector that directly chooses the decision-relevant objective function at each time point from interpretable statistical summaries of recent returns, selecting among a small set of candidates (e.g., return-seeking, loss-averse, and risk-adjusted) without introducing intermediate regime variables. DOSS formulates objective selection as a classification problem over objectives and performs sequential updates with a rolling window to make forward-looking selections without temporal leakage, while also outputting a confidence score for each proposal. To mitigate misselection and excessive switching in deployment, DOSS applies confidence-aware gating with a fail-safe that overrides low-confidence proposals to a conservative default and enforces explicit controls tied to switching frequency. We further integrate governance by positioning a Large Language Model (LLM) as an oversight component rather than a generator of new objectives: the LLM is restricted to accept a proposed objective or override it to a predefined safe default, with deterministic rule-based constraints triggering overrides when needed.
コード・オン・グラフ: ナレッジ・グラフ上の大規模言語モデルを介した反復的なプログラムによる推論
ナレッジ グラフ (KG) は、古い知識や幻覚などの大規模言語モデル (LLM) の制限を軽減するために広く使用されています。既存の LLM-KG 統合フレームワークは通常、事前定義された演算子に依存して、KG から事実の知識を取得し、それを回答生成のプロンプトに挿入します。このパラダイムは、2 つの重大なボトルネックに直面しています。 1) 柔軟性のなさ: 事前定義された演算子の範囲が限られているため、KG の質問で必要とされる複雑な意味論を完全に捉えるための十分な構成表現力が不足しています。 2) 非スケーラビリティ: 事実の知識をプロンプトに直接挿入すると、大規模な事実の知識を処理する際のスケーラビリティが制限されます。これら 2 つのボトルネックに対処するために、LLM-KG 統合のためのプログラム推論フレームワークである Code-on-Graph (CoG) を提案します。具体的には、各推論ステップで取得された事実の知識が与えられると、CoG はまず対応する KG スキーマを特定し、これらのスキーマを Python クラスとして表現します。Python クラスは、取得された事実への抽象インターフェイスとして機能します。次に、これらのクラスに基づいた実行可能コードを生成し、取得したファクトは実行中に対応するクラスのオブジェクトとしてインスタンス化されます。この設計により、プロンプトへの大規模な事実知識の直接注入を回避しながら、柔軟なコードベースの推論が可能になります。 WebQSP、CWQ、および GrailQA の実験では、CoG が以前の最先端のモデルよりも最大 10.5% 優れていることが実証されています。
原文 (English)
Code-on-Graph: Iterative Programmatic Reasoning via Large Language Models on Knowledge Graphs
Knowledge Graphs (KGs) are widely used to mitigate the limitations of Large Language Models (LLMs), such as outdated knowledge and hallucinations. Existing LLM-KG integration frameworks typically rely on predefined operators to retrieve factual knowledge from KGs and inject it into prompts for answer generation. This paradigm faces two critical bottlenecks: 1) Inflexibility: The predefined operators are limited in scope and thus lack sufficient compositional expressiveness to fully capture the complex semantics required by KG questions. 2) Unscalability: Direct injection of factual knowledge into prompts limits scalability in handling large-scale factual knowledge. To address these two bottlenecks, we propose Code-on-Graph (CoG), a programmatic reasoning framework for LLM-KG integration. Specifically, given the factual knowledge retrieved at each reasoning step, CoG first identifies the corresponding KG schemas and represents these schemas as Python classes, which serve as abstract interfaces to the retrieved facts. It then generates executable code grounded in these classes, with the retrieved facts instantiated as objects of the corresponding classes during execution. This design enables flexible code-based reasoning while avoiding the direct injection of large-scale factual knowledge into prompts. Experiments on WebQSP, CWQ, and GrailQA demonstrate that CoG outperforms prior state-of-the-art models by up to 10.5%.
プルーフ リファクタリング: 生成された正式なプルーフをモジュール型アーティファクトにリファクタリングする
大規模言語モデル (LLM) は形式的な証明の生成において優れたパフォーマンスを示していますが、その出力は多くの場合、成熟した形式的な数学ライブラリの証明に比べて可読性、モジュール性、保守性、再利用性が劣ります。私たちは、このギャップの一部は、ほとんどの証明生成パイプラインに暗黙的に含まれるコンパイル優先の目的に起因しており、ライブラリ品質のアーティファクトではなく、モノリシックまたはアドホック証明スクリプトを奨励していると主張します。証明品質を向上させるための既存のアプローチは、多くの場合、明示的で計算可能な最適化目標に依存しています。ただし、実際には、最も扱いやすく、実験的に検証された目標は主に長さに基づくものですが、可読性、モジュール性、保守性、再利用性などのより高いレベルの品質を信頼できる自動メトリクスに還元するのは困難です。単一のプロキシ メトリクスに対して証明の改善を最適化するのではなく、人間による証明のリファクタリング ワークフローからインスピレーションを得た、プロセスに基づいたアプローチを採用します。私たちは、証明リファクタリングを 4 つのフェーズに分解するエージェント フレームワーク $\textbf{Proof-Refactor}$ を提案します。候補となる証明フラグメントの抽出、ヘルパー宣言の設計、抽出および設計されたコンポーネントの正式な証明、検証されたコンポーネントを使用した元の証明の修復です。 PutnamBench および Putnam2025 から生成されたリーン証明では、Proof-Refactor は、強力なクロード コード リファクタリング ベースラインよりもルーブリック ベースのリファクタリング スコアを改善し、署名の品質と人間の可読性が最大の向上をもたらします。これらの結果は、プロセスガイド付きリファクタリングにより、証明長を主な目的として扱うことなく証明構造を改善できることを示唆しています。
原文 (English)
Proof-Refactor: Refactoring Generated Formal Proofs into Modular Artifacts
While Large Language Models (LLMs) have shown strong performance in generating formal proofs, their outputs often remain less readable, modular, maintainable, and reusable than proofs in mature formal mathematics libraries. We argue that this gap stems in part from the compile-first objective implicit in most proof-generation pipelines, which encourages monolithic or ad hoc proof scripts rather than library-quality artifacts. Existing approaches to proof-quality improvement often rely on explicit, computable optimization objectives. In practice, however, the most tractable and experimentally validated objectives are largely length-based, while higher-level qualities such as readability, modularity, maintainability, and reusability are difficult to reduce to reliable automatic metrics. Instead of optimizing proof improvement against a single proxy metric, we take a process-guided approach inspired by human proof-refactoring workflows. We propose an agentic framework $\textbf{Proof-Refactor}$ that decomposes proof refactoring into four phases: extracting candidate proof fragments, designing helper declarations, formally proving the extracted and designed components, and repairing the original proof using the verified components. On generated Lean proofs from PutnamBench and Putnam2025, Proof-Refactor improves rubric-based refactoring scores over a strong Claude Code refactoring baseline, with the largest gains in signature quality and human readability. These results suggest that process-guided refactoring can improve proof structure without treating proof length as the primary objective.
EvoDS: スキル学習とコンテキスト管理を備えた自己進化する自律型データ サイエンス エージェント
大規模言語モデル (LLM) エージェントの最近の進歩により、自動データ サイエンスにおける有望な進歩が可能になりました。しかし、既存のアプローチは、静的なアクション セットと原則に基づいた長期的なコンテキスト管理の欠如によって根本的に制限されたままであり、タスク全体で再利用可能なエクスペリエンスを蓄積し、多段階の反復的なデータ サイエンス パイプラインで確実に動作する能力を妨げています。これらの課題に対処するために、エージェント強化学習を通じてスキルを拡張し、長期的なコンテキストを適応的に管理することを学習する、自己進化する自律型データ サイエンス エージェントである EvoDS を導入します。具体的には、EvoDS は 2 つの重要な戦略を導入しています。(1) 自律スキル取得 (ASA) メカニズム。エージェントが実行可能なスキルを合成、検証、再利用できるようにします。 (2) 適応コンテキスト圧縮 (ACC) 戦略。これは、コンテキスト管理を受動的切り捨てではなく、学習された制御問題として扱います。これらの戦略は 2 段階のマルチエージェント トレーニング スキーム内で調整され、EvoDS が時間の経過とともに自律的に改善できるようになります。理論的には、EvoDS の階層設計によりツール選択エラーが軽減され、その最適化目標が情報ボトルネックの原則と一致し、効率的なコンテキストの使用が保証されることが証明されています。経験的に、EvoDS は、トークン不足の障害を排除しながら、4 つの多様なベンチマークにわたって、最先端のオープンソース データ サイエンス エージェントよりも平均 28.9% 優れたパフォーマンスを示します。コードとデータは https://github.com/usail-hkust/EvoDS で入手できます。
原文 (English)
EvoDS: Self-Evolving Autonomous Data Science Agent with Skill Learning and Context Management
Recent progress in Large Language Model (LLM) agents has enabled promising advances in automated data science. However, existing approaches remain fundamentally limited by their static action sets and lack of principled long-horizon context management, hindering their ability to accumulate reusable experience across tasks and operate reliably in multi-stage, iterative data science pipelines. To address these challenges, we introduce EvoDS, a self-evolving autonomous data science agent that learns to expand its skills and adaptively managing long-term context through agentic reinforcement learning. Specifically, EvoDS introduces two key strategies: (1) Autonomous Skill Acquisition (ASA) mechanism, which enables agents to synthesize, validate, and reuse executable skills; and (2) Adaptive Context Compression (ACC) strategy, which treats context management as a learned control problem rather than passive truncation. These strategies are orchestrated within a two-stage multi-agent training scheme, enabling EvoDS to autonomously improve over time. Theoretically, we prove that EvoDS's hierarchical design reduces tool-selection error, and its optimization objective aligns with an information bottleneck principle, ensuring efficient context use. Empirically, EvoDS outperforms state-of-the-art open-source data science agents by an average of 28.9% across four diverse benchmarks while eliminating out-of-token failures. Our code and data are available at https://github.com/usail-hkust/EvoDS.
PyraMathBench: 大規模言語モデルの数学的能力の評価と改善
アプリケーション全体にわたる大規模言語モデル (LLM) の数学的機能の基礎として数値推論が極めて重要な役割を果たしているにもかかわらず、数値処理と数学的推論を統合して LLM を評価するベンチマークはほとんどなく、数学タスクにおける失敗の解釈可能性を妨げています。 PyraMathBench は、4 つの主要な認知的側面、14 のサブカテゴリ、および 2 つのモダリティにまたがる、7,404 の数学文章題から派生した 32,505 の質問を含む包括的な階層ベンチマークです。実験の結果、LLM のパフォーマンスは、不適切な数値計算と抽象的な数値質問の処理が不十分なため、著しく損なわれることが明らかになりました。これに対処するために、我々は、Smart Optimization & Learning-based VErsatile module (SOLVE) と Interactive Relative Policy Optimization (IRPO) を提案します。これらは、効率的なツール呼び出し (ファジーマッチングと低品質通話拒否) を通じて LLM の数値数学的相乗効果を強化します。比較実験では、Qwen-2.5 が SOLVE および IRPO トレーニングにより 5.0 スコアの向上を達成したことが示されています。
原文 (English)
PyraMathBench: Evaluating and Improving Mathematical Capability in Large Language Models
Despite the pivotal role of numerical reasoning as the cornerstone of mathematical capabilities in large language models (LLMs) across applications, few benchmarks evaluate LLMs by integrating numerical processing and mathematical reasoning, hindering the interpretability of failures in math tasks. We introduce PyraMathBench, a comprehensive hierarchical benchmark with 32,505 questions derived from 7,404 math word problems, spanning 4 key cognitive aspects, 14 subcategories, and 2 modalities. Experiments reveal that LLMs' performance is severely compromised by inadequate numerical computation and weak handling of abstract numerical questions. To address this, we propose the Smart Optimization & Learning-based VErsatile module (SOLVE) and Interactive Relative Policy Optimization (IRPO), which enhance LLMs' numerical-mathematical synergy via efficient tool calls (fuzzy matching and low-quality call rejection). Comparative experiments show Qwen-2.5 achieves a 5.0 score improvement with SOLVE and IRPO training.
IdiomX イディオムの理解、検索、解釈のための多言語ベンチマーク
慣用表現は、その意味が非構成的で文脈に依存することが多く、言語間で調整することが難しいため、自然言語処理にとって依然として根強い課題となっています。既存のイディオム リソースは、多くの場合、規模、文脈の多様性、または多言語の範囲が制限されており、最新の言語モデルでの有用性が制限されています。 IdiomX は、イディオムの理解、検索、解釈のための大規模な多言語ベンチマークであり、語彙リソースの抽出、大規模な正規化、制御された大規模な言語モデルの強化、構造化検証を組み合わせた再現可能な多段階パイプラインを通じて構築されています。結果として得られるデータセットには、12,000 以上のイディオムにわたる 190,000 を超える文脈化された例が含まれており、英語、アラビア語、フランス語の意味表現、慣用的および文字通りの用法ラベル、および豊富な言語メタデータが整列して含まれています。このリソースに基づいて、イディオムの検出、文脈からイディオムへの検索、アラビア語から英語へのイディオムの検索、およびイディオムの解釈をカバーする統一された 4 つのタスクのベンチマークを定義し、比喩的な認識から意味論的な根拠と説明可能な意味の検索まで評価を拡張します。実験の結果、文脈変換モデルによってイディオム検出が大幅に向上し、ハイブリッド検索および再ランキング アーキテクチャによって単一言語および複数言語間の両方のイディオム検索が大幅に強化されることが示されました。結果はさらに、イディオム解釈が意味検索タスクとして効果的にモデル化され、補完的なベンチマーク次元として解釈可能性を導入できることを示しています。全体として、IdiomX は、検出から検索および意味解釈への進行として慣用言語を研究するためのスケーラブルなベンチマークを提供し、追加の言語や比喩的推論タスクに拡張可能なモジュール式フレームワークを提供します。
原文 (English)
IdiomX A Multilingual Benchmark for Idiom Understanding, Retrieval, and Interpretation
Idiomatic expressions remain a persistent challenge for natural language processing because their meanings are often non-compositional, context-dependent, and difficult to align across languages. Existing idiom resources are often limited in scale, contextual diversity, or multilingual coverage, restricting their utility for modern language models. We introduce IdiomX, a large-scale multilingual benchmark for idiom understanding, retrieval, and interpretation, constructed through a reproducible multi-stage pipeline combining lexical resource extraction, large-scale normalization, controlled large language model enrichment, and structured validation. The resulting dataset contains over 190K contextualized examples spanning 12K+ idioms, with aligned English, Arabic, and French semantic representations, idiomatic and literal usage labels, and rich linguistic metadata. Building on this resource, we define a unified four-task benchmark covering idiom detection, context-to-idiom retrieval, Arabic-to-English idiom retrieval, and idiom interpretation, extending evaluation from figurative recognition to semantic grounding and explainable meaning retrieval. Experiments show that contextual transformer models substantially improve idiom detection, while hybrid retrieval and reranking architectures significantly strengthen both monolingual and cross-lingual idiom retrieval. Results further demonstrate that idiom interpretation can be effectively modeled as a semantic retrieval task, introducing interpretability as a complementary benchmark dimension. Overall, IdiomX provides a scalable benchmark for studying idiomatic language as a progression from detection to retrieval and semantic interpretation, and offers a modular framework extensible to additional languages and figurative reasoning tasks
ReLoRA: 進化する LLM サービスの迅速な展開のための知識再利用の適応
大規模言語モデル (LLM) は、継続的に進化するサービスとしてデプロイされることが増えており、基本モデルが頻繁に更新されると、以前にデプロイされたタスク固有の低ランク適応 (LoRA) アダプターが無効になる可能性があります。多数のダウンストリーム モデル サービスを管理するサービス プロバイダーにとって、更新された基本モデルごとに各 LoRA アダプターを最初から再トレーニングすることは計算量が法外であり、サービスの展開が遅れます。一方、より単純な代替策、つまり、更新された基本モデルに元の LoRA アダプタを単純に適用する方法では、アダプタとバックボーンの互換性がないため、サービス品質の低下につながることがよくあります。この問題に対処するために、タスクのパフォーマンスを維持または向上させながら、LLM サービスを進化させるためにサービス対応の LoRA アダプターを効率的に復元する、知識を再利用する再適応フレームワークである ReLoRA を提案します。具体的には、ReLoRA は 2 つの主要な最適化ステップで構成されます。 1) 適応型 LoRA 初期化はベイジアン最適化を活用し、以前にデプロイされたタスク アダプターとベース モデルの進化の両方からの情報を融合することで、互換性を意識した開始点を構築します。 2) スケジュールされた正則化を使用した微調整では、最初に強力な正則化によってアダプターが高品質の領域に急速に誘導され、次にタスク固有の調整のための緩和された正則化が続きます。この設計により、再適応のオーバーヘッドが削減され、迅速なサービス品質の回復が可能になります。広範な実験により、ReLoRA はベースラインと比較して、準備完了までの時間を最大 8.9$\times$ 短縮し、精度を最大 4.6\% 向上させることが実証されました。
原文 (English)
ReLoRA: Knowledge-Reusing Adaptation for Fast Rollout of Evolving LLM Services
Large Language Models (LLMs) are increasingly deployed as continuously evolving services, where frequent base-model updates may invalidate previously deployed task-specific Low-Rank Adaptation (LoRA) adapters. For service providers managing numerous downstream model services, retraining each LoRA adapter from scratch for every updated base model is computationally prohibitive and delays service rollout. Meanwhile, the simpler alternative, i.e., naively applying the original LoRA adapter to the updated base model, often leads to degraded service quality due to adapter-backbone incompatibility. To address this problem, we propose ReLoRA, a knowledge-reusing re-adaptation framework that efficiently restores service-ready LoRA adapters for evolving LLM services while preserving or improving task performance. Specifically, ReLoRA comprises two key optimization steps: 1) Adaptive LoRA initialization leverages Bayesian optimization to construct a compatibility-aware starting point by fusing information from both the previously deployed task adapter and the base model's evolution; 2) Fine-tuning with scheduled regularization first rapidly steers the adapter to a high-quality region via strong regularization, followed by relaxed regularization for task-specific refinement. This design enables rapid service-quality recovery with reduced re-adaptation overhead. Extensive experiments demonstrate that ReLoRA reduces time-to-readiness by up to 8.9$\times$ and improves accuracy by up to 4.6\% compared to baselines.
FSA-GRPO: 聴覚 LLM に少数ショットのデモンストレーションを使用するよう指導する
少数ショットのプロンプトは、聴覚の大規模言語モデルを子供の音声認識などの低リソースのタスクに適応させる効果的な方法を提供します。ただし、ほとんどの聴覚大規模言語モデルは、このデモンストレーション条件付き形式で推論を実行するように明示的にトレーニングされていないため、数回のプロンプトから恩恵を受けることができる範囲が限られています。この制限に対処するために、Few-Shot Aware GRPO (FSA-GRPO) を導入します。これは、特別に設計された報酬を使用して、モデルが少数ショットのデモンストレーションを活用することを奨励することで、少数ショットの適応能力を強化する、RL ベースのポストトレーニング レシピです。特に、高リソースの成人 ASR データのみを使用したトレーニングにより、モデルの一般的な少数ショット適応能力が向上し、子供の音声認識だけでなく、音声翻訳や音声理解においても向上が見られます。データの選択と補助的な報酬の重み付けをさらに研究して、効果的なトレーニング レシピを特定します。私たちの実験では、ドメイン内データが利用できない場合、またはトレーニングに使用できない場合、関連するドメイン外データを直接調整するよりも FSA-GRPO の方が効果的であることが示されています。
原文 (English)
FSA-GRPO: Teaching Auditory LLMs to Use Few-shot Demonstrations
Few-shot prompting provides an effective way to adapt auditory large language models to low-resource tasks such as children's speech recognition. However, most auditory large language models are not explicitly trained to perform inference in this demonstration-conditioned format, limiting the extent to which they can benefit from few-shot prompting. To address this limitation, we introduce Few-Shot Aware GRPO (FSA-GRPO), an RL-based post-training recipe that uses a specially designed reward to encourage the model to leverage few-shot demonstrations, thereby strengthening its few-shot adaptation ability. Notably, training with only high-resource adult ASR data improves the model's general few-shot adaptation ability, yielding gains not only in children's speech recognition but also in speech translation and audio understanding. We further study data selection and auxiliary reward weighting to identify an effective training recipe. Our experiments show that when in-domain data are unavailable or cannot be used for training, FSA-GRPO is more effective than direct tuning on related out-of-domain data.
MultiTurnPSB: 医療 AI の安全のためのマルチターン脱獄攻撃と dClassifier ベースの防御の評価
患者向けの医療チャットボットは一般に 1 回のプロンプトで評価されますが、実際のユーザーは拒否後に押し返し、緊急性を高め、権限を発動します。 PatientSafetyBench の 4 ターン敵対的拡張機能である MultiTurnPSB を導入し、固定テンプレート攻撃、テンプレート適応型攻撃、およびライブ敵対的攻撃の下で GPT-4.1-mini を評価します。実攻撃を受けると、危険な反応は 4 ターン目までに 35% から 80% 近くまで上昇します。同じ敵の下では、GPT-4.1-mini と Claude Sonnet 4.5 はベースラインでは統計的に区別がつきませんが、ターン 4 までに 19 倍の差に広がり、この差は 1 ターンの評価では見えません。私たちは 4 つの劣化軌跡の特徴を特徴付け、ほとんどの壊滅的な障害の原因となる 2 要素の攻撃公式を特定します。軽量の入力側分類子により、精度が大幅に低下したにもかかわらず、ターン 4 の安全でない応答が 52 パーセント ポイント減少しましたが、良性のクエリでの 45% の誤報率が主な展開上の制約となっています。方法論的な発見も明らかになった。クロード・ソネットは、明示的なレッドチームの枠組みにもかかわらず、後半ターンの会話の半分以上で敵対的なメッセージを生成することを拒否し、安全トレーニングが攻撃者の役割に一般化する可能性があることを示唆している。
原文 (English)
MultiTurnPSB: Evaluating Multi-Turn Jailbreak Attacks an dClassifier-Based Defenses for Medical AI Safety
Patient-facing medical chatbots are commonly evaluated on single-turn prompts, yet real users push back after refusals, add urgency, and invoke authority. We introduce MultiTurnPSB, a four-turn adversarial extension of PatientSafetyBench, and evaluate GPT-4.1-mini under fixed template, template-adaptive, and live adversarial attacks. Unsafe responses rise from 35% to nearly 80% by Turn 4 under live attack. Under the same adversary, GPT-4.1-mini and Claude Sonnet 4.5 are statistically indistinguishable at baseline but diverge to a 19x gap by Turn 4, a difference invisible to single-turn evaluation. We characterize four degradation trajectory signatures and identify a two-element attack formula responsible for most catastrophic failures. A lightweight input-side classifier reduces Turn 4 unsafe responses by 52 percentage points despite severe accuracy degradation, but the 45% false alarm rate on benign queries is the primary deployment constraint. A methodological finding also emerges: Claude Sonnet refused to generate adversarial messages in over half of late-turn conversations despite explicit red team framing, suggesting safety training may generalize to the attacker role.
Position: Prioritize Identifying Structure, Not Complex Models, for Scientific Discovery
Modern Machine Learning (ML) and Artificial Intelligence (AI) models, especially large language models (LLMs), are increasingly used to gen…
SegTune: Structured and Fine-Grained Control for Song Generation
Recent advances in neural song generation have enabled high-quality synthesis from lyrics and global textual prompts. However, most systems…
D-Judge: Disrupting Multi-Turn Jailbreaks using Semantics-Preserving Output Rewriting
Multi-turn jailbreak attacks pose a growing threat to large language model (LLM) safety because they exploit feedback from auxiliary judge…
SVHalluc: Benchmarking Speech-Vision Hallucination in Audio-Visual Large Language Models
Despite the success of audio-visual large-language models (LLMs), they can produce plausible but ungrounded outputs, termed hallucination.…
Inference Cost Attacks for Retrieval-Augmented Large Language Models
Retrieval-Augmented Generation (RAG)-enhanced LLM systems, while powerful, introduce substantial inference costs due to the inclusion of an…
A New Framework for Cybersecurity Refusals in AI Agents
Agentic scaffolds have dramatically improved LLM performance on complex, long-horizon tasks, yielding both broad benefits and amplified ris…
The Ringelmann Effect in Multi-Agent LLM Systems: A Scaling Law for Effective Team Size
Inference-time multi-agent LLM scaling lacks a shared unit: counting nominal agents conflates cost with independent evidence. We derive a t…
Filter, Then Reweight: Rethinking Optimization Granularity in On-Policy Distillation
On-Policy distillation (OPD) in large language models is shifting from full-trace KL supervision toward more selective training paradigms.…
Attention Calibration for Position-Fair Dense Information Retrieval
Dense retrieval models exhibit positional bias: retrieval effectiveness degrades when relevant information appears later in a passage (Zeng…
Acceptance-Test-Driven Evaluation Protocols for Business-Centric LLM Systems
Large language model (LLM) applications are increasingly expected to satisfy deterministic institutional requirements while relying on prob…
Do Neural Retrievers Prefer Certain Documents? Evidence of Learned Relevance Priors
Neural retrievers are trained to estimate query-document relevance from annotated query-document pairs. Yet annotation protocols may not pu…
Which Defense Closes Which Threat? Attributing OWASP-LLM-Top-10 Coverage and Its Brittleness Under Paraphrasing
Production LLM applications stack several defense families -- refusal-phrase filters, token-budget controls, model allowlists, rate limits,…
Fixing FOLIO and MALLS: Verified Annotations and an LLM-assisted Framework to Focus Human Relabeling
Accurate translation from Natural Language to First-Order Logic (NL-to-FOL) underpins neurosymbolic AI systems and Natural Language Inferen…
Economy of Minds: Emerging Multi-Agent Intelligence with Economic Interactions
How can a population of agents self-orchestrate and self-adapt into stronger collective intelligence without centralized control? Inspired…
The Epi-LLM Framework: probing LLM behavioral priors through epidemiological agent-based models
Human behaviour during epidemics affects infectious disease dynamics, but quantifying this remains deeply challenging. Here we introduce th…
Adaptive Latent Agentic Reasoning
Large reasoning models improve performance by generating extended chain-of-thought (CoT) reasoning, but this behavior becomes inefficient w…
LLM-Assisted Reranking to Operationalize Nuanced Objectives in Recommender Systems
Recommender systems have grown from content-organization tools into sophisticated systems that shape daily behavior. By controlling what we…
Linear Probes Detect Task Format, Not Reasoning Mode in Language Model Hidden States
Linear probing of large language model (LLM) hidden states is widely used to claim that models learn distinct representations for different…
WRIT: Write-Read Intensive Trajectory Synthesis for Multi-Turn User-Facing Agents
Multi-turn user-facing agents must infer user intent from incomplete requests, collect missing information through dialogue and tools, and…
SCOPE: Real-Time Natural Language Camera Agent at the Edge
Deploying language-driven agents in robotics requires evaluations that reflect real-world task demands: natural-language instructions with…
Fast-dLLM++: Fr\'{e}chet Profile Decoding for Faster Diffusion LLM Inference
Diffusion large language models promise parallel token generation, yet inference remains bottlenecked by deciding which masked tokens can b…
Pretraining Language Models on Historical Text
We introduce TypewriterLM, a 7.24B History language model (LM) trained exclusively on English text predating 1913. Developing History LMs r…
MUSE: A Unified Agentic Harness for MLLMs
Despite rapid progress, multimodal large language models (MLLMs) still fail on tasks that humans solve effortlessly, such as navigating a g…
Hallucinations as Orthogonal Noise: Inference-Time Manifold Alignment via Dynamic Contextual Orthogonalization
Hallucination in Large Language Models (LLMs), characterized by the generation of content inconsistent with contextual facts or logical con…
Conditional Hypothesis Generation for LLM-Based Text Analysis with Researcher-Specified Covariates
A core goal of computational social science is to discover interpretable differences in how language varies across outcomes of interest, su…
Capability Advertisement as a Market for Lemons: A Trust Layer for Heterogeneous Agent Networks
Large language model (LLM) agents have begun to delegate work to one another. Protocols such as the Model Context Protocol (MCP) and the Ag…
Rethinking Molecular Text Representations for LLMs: An Empirical Study
Large language models (LLMs) are increasingly used for molecular tasks, but it remains unclear which molecular representation to use. We pr…
ASymPO: Asymmetric-Scale Policy Optimization for Asynchronous LLM Post-Training Without Behavior Information
Asynchronous reinforcement learning can improve language-model post-training throughput by decoupling response generation from policy optim…
Efficient Hyperparameter Optimization for LLM Reinforcement Learning
Reinforcement learning (RL) for large language models (LLMs) is highly sensitive to hyperparameter configurations, making hyperparameter op…
Libra: Efficient Resource Management for Agentic RL Post-Training
Reinforcement learning (RL) has become a standard post-training paradigm for large language models (LLMs), extending beyond preference alig…
Regret Pre-training: Bridging Prior and Posterior Views for Enhanced Knowledge Grounding
Causal language models factorize sequence probabilities using only preceding context, leaving future information unexploited during trainin…
"**Important** You should give me full credits!": Exploring Prompt Injection Attacks on LLM-Based Automatic Grading Systems
The emergence of large language models (LLMs) has significantly accelerated recent research on LLM-based automatic grading (AG) systems. Be…
PhotoCraft: Agentic Reasoning with Hierarchical Self-Evolving Memory for Deep Image Search
Deep Image Search requires multi-step reasoning over rich contextual cues, such as time, location, and event relations. However, most exist…
Decoupled Smart Contract Audits: Lightweight LLM Framework via Distillation and Aggregation
Smart contracts face critical security challenges that require thorough auditing in decentralized web services. While Large Language Models…
Fully Automated Identification of Lexical Alignment and Preference-Stage Shifts in Large Language Models
The language used by digital chat assistants such as ChatGPT can diverge from human expectations (misalignment). Research, mostly on Scient…
AI Rater Discrimination Depends on Scoring Protocol in Complex Clinical Decision-Making
Clinical AI evaluation increasingly delegates scoring to large language models (LLMs) acting as AI raters, yet their scoring behavior acros…
WebRISE: Requirement-Induced State Evaluation for MLLM-Generated Web Artifacts
Existing benchmarks for MLLM-generated web artifacts assess interaction through local evidence and miss the requirement-induced states and…
VistaHop: Benchmarking Multi-hop Visual Reasoning for Visual DeepSearch
Visual DeepSearch requires multimodal large reasoning model (MLRM) agents to answer complex visual queries by repeatedly inspecting image r…
Message Tuning Outshines Graph Prompt Tuning: A Prismatic Space Perspective
Graph Foundation Models (GFMs), built upon the Pre-training and Adaptation paradigm, have emerged as a research hotspot in graph learning.…
dstack-capsule: Pod-Level Remote Attestation for Confidential Workloads on Kubernetes
The rise of LLM-as-a-Service and other confidential cloud workloads demands cryptographic proof that user data is processed in a trusted, u…
Calibration Data Trade-offs Across Capability Dimensions: Why Multi-Source Mixing Matters for High-Sparsity LLM Pruning
Post-training pruning compresses large language models to high sparsity using a small unlabelled calibration set, and recent work has concl…
FLIPS: Instance-Fingerprinting for LLMs via Pseudo-random Sequences
Literature reveals that a Large Language Model's (LLM) behavior is not only conditioned by its original weights but also its instance-level…
Evaluating LLMs' Effectiveness on Real-World Consumer Device Repair Questions
Consumer device repair is an important but underexplored testbed for large language models (LLMs). Repair tasks require reasoning over inco…
The Unsampled Truth: Psychometrics in SLMs Measure Prompt Artifacts, Not Psychological Constructs
When prompting SLMs for psychometric assessments, researchers assume the outputs reflect semantic reasoning. We evaluate this premise acros…
P\textsuperscript{2}-DPO: Grounding Hallucination in Perceptual Processing via Calibration Direct Preference Optimization
Hallucination has recently garnered significant research attention in Large Vision-Language Models (LVLMs). Direct Preference Optimization…
When Model Merging Breaks Routing: Training-Free Calibration for MoE
Model merging has emerged as a cost-effective approach for consolidating the capabilities of multiple LLMs without retraining. However, exi…
Causal Evidence of Stack Representations in Modeling Counter Languages Using Transformers
Formal languages have proven to be effective conduits to understand the inner mechanisms of transformers. Past work has shown that transfor…
Rethinking the Role of Tensor Decompositions in Post-Training LLM Compression
Post-training compression is essential for deploying large language models (LLMs) under tight resource constraints. Tensor decompositions h…
Learn from Your Mistakes: Tree-like Self-Play for Secure Code LLMs
While Large Language Models (LLMs) excel in code generation, they remain prone to replicating subtle yet critical vulnerabilities endemic t…
BaltiVoice: A Speech Corpus and Fine-tuned Whisper ASR System for the Balti Language
We present BaltiVoice, a 16.8-hour read-speech corpus for Balti (ISO 639-3: bft), a Tibetic language spoken in Gilgit-Baltistan, Pakistan,…
DDOR: Delta Debugging for Explainable Overrefusal Testing and Repair
While safety alignment and guardrails help large language models (LLMs) avoid harmful outputs, they can also induce overrefusal, i.e., unwa…
CauTion: Knowing When to Trust LLMs for Ensemble Causal Discovery
Causal discovery from observational data remains challenging due to the fundamental limitations of purely statistical methods, such as stat…
Testing LLM Arithmetic Reasoning Generalization with Automatic Numeric-Remapping Attacks
Large language models achieve strong performance on arithmetic reasoning benchmarks, and one common response to arithmetic brittleness is t…
Physics-Guided Policy Optimization with Self-Distillation
Self-distilled policy optimization (SDPO) has become a popular paradigm for LLM post-training, where a model learns from its own prediction…
Building Reliable Long-Form Generation via Hallucination Rejection Sampling
Large language models (LLMs) have achieved remarkable progress in open-ended text generation, yet they remain prone to hallucinating incorr…
Black-box, Adaptive, Efficient, Transferable, Harmful, Applicable... Attacks Are All You Need to Break LLMs
Accurately evaluating adversarial robustness is a longstanding challenge. A flawed attack design can inflate robustness estimates, making d…
Safety Measurements for Fine-tuned LLMs Should be Grounded in Capability
Adapting foundation large language models to a user's task or preferred style through fine-tuning can result in compromising the model's sa…
CoEval: Ranking Language Models for Custom Tasks Without Labeled Data or Trustworthy Benchmarks
Choosing or ranking language models for a specific application is hardest when no task-specific labeled data exists, and standard public be…
A Close Look At World Model Recovery In Supervised Fine-Tuned LLM Planners
Supervised fine-tuning (SFT) improves end-to-end classical planning in large language models (LLMs), but do these models also learn to repr…
Tool-Aware Optimization with Entropy Guidance for Efficient Agentic Reinforcement Learning
Agentic reinforcement learning (RL) equips large language models (LLMs) with tool-use capabilities that substantially improve reasoning on…
E2LLM: Towards Efficient LLM Serving in Heterogeneous Edge/Fog Environments
Large Language Models (LLMs) have become integral to modern applications, yet their deployment remains challenging. Beyond executing the mo…
Consistency Training Can Entrench Misalignment
Consistency training encourages a model to produce similar outputs across related inputs or sampling procedures. Such methods are simple, s…
Clustered Self-Assessment: A Simple yet Effective Method for Uncertainty Quantification in Large Language Models
Large language models (LLMs) demonstrate remarkable performance across diverse tasks, but they often generate responses that appear plausib…
FLARE: Fine-Grained Diagnostic Feedback for LLM Code Refinement
Large language models often generate code with bugs. Existing methods rely on feedback signals such as test failures and self-critiques to…
Taiji: Pareto Optimal Policy Optimization with Semantics-IDs Trade-off for Industrial LLM-Enhanced Recommendation
Scaling recommender systems via large language models (LLMs) has become a prominent trend in the industry. However, aligning the LLM's sema…
A Training-Free Mixture-of-Agents Framework for Multi-Document Summarization using LLMs and Knowledge Graphs
Multi-Document Summarization (MDS) plays a critical role in distilling essential information from collections of textual data. Existing app…
From 'What' to 'How' and 'Why': Sharing LLM-Generated Retrospective Summaries of Older Adults' Passive Tracking Data with Remote Family Members
With the growing prevalence of modern ubiquitous computing technologies, multi-modal tracking systems hold promise for providing timely awa…
Synthesize and Reward -- Reinforcement Learning for Multi-Step Tool Use in Live Environments
Training LLMs to orchestrate multi-step tool calls is held back by three coupled obstacles: realistic stateful execution environments are c…
Agent libOS: A Library-OS-Inspired Runtime for Long-Running, Capability-Controlled LLM Agents
Large language model (LLM) agents are evolving from request-response assistants into long-running software actors: they maintain state acro…
NetKV: Network-Aware Decode Instance Selection for Disaggregated LLM Inference
Disaggregated LLM inference forces the KV cache to traverse the datacenter network before decoding begins, so transfer time enters directly…
Efficient ASR Training with Conversations that Never Happened
Conversational ASR for lower-resource languages and niche domains is limited by the scarcity of domain-matched multi-speaker training data.…
Agentic Chain-of-Thought Steering for Efficient and Controllable LLM Reasoning
Large language models improve final-answer accuracy through extended chain-of-thought reasoning, but often spend tokens inefficiently and o…
AlignAtt4LLM: Fast AlignAtt for Decoder-Only LLMs at IWSLT 2026 Simultaneous Speech Translation Task
We describe AlignAtt4LLM, an IWSLT 2026 simultaneous speech translation system for English to German, Italian, and Chinese. The system is a…
QUBRIC: Co-Designing Queries and Rubrics for RL Beyond Verifiable Rewards
Rubric-based RL is a promising route for extending reinforcement learning beyond verifiable rewards, yet existing methods optimize rubrics…
Quantifying Faithful Confidence Expression in Large Reasoning Models
Reliable uncertainty communication is critical to the trustworthiness of LLMs, yet faithful calibration (FC)--the alignment between models'…
Humanoid-GPT: Scaling Data and Structure for Zero-Shot Motion Tracking
We introduce Humanoid-GPT, a GPT-style Transformer with causal attention trained on a billion-scale motion corpus for whole-body control. U…
Leave it to the Specialist: Repair Sparse LLMs with Sparse Fine-Tuning via Sparsity Evolution
Sparse large language models (LLMs) offer an attractive direction toward efficient deployment, but adapting them to downstream tasks remain…
Collab-REC: An LLM-based Agentic Framework for Balancing Recommendations in Tourism
We propose COLLAB-REC, a multi-agent framework designed to counteract popularity bias and improve diversity in tourism recommendations. In…
RGMem: Renormalization Group-inspired Memory Evolution for Language Agents
Personalized and continuous interactions are critical for LLM-based conversational agents, yet finite context windows and static parametric…
ProtocolBench: Which LLM MultiAgent Protocol to Choose?
As large-scale multi-agent systems evolve, the communication protocol layer has become a critical yet under-evaluated factor shaping perfor…
MIND: Multi-rationale INtegrated Discriminative Reasoning Framework for Multi-modal Large Models
Recently, multimodal large language models (MLLMs) have been widely applied to reasoning tasks. However, they suffer from limited multi-rat…
FutureWeaver: Planning Test-Time Compute for Multi-Agent Systems with Modularized Collaboration
Scaling test-time computation has been shown to significantly improve large language model (LLM) performance without additional training. H…
The Agent's First Day: Benchmarking Learning, Exploration, and Scheduling in the Workplace Scenarios
The rapid evolution of Multi-modal Large Language Models (MLLMs) has advanced workflow automation; however, existing research mainly target…
PieArena: Ranking and Profiling Language Agents in Realistic Negotiation Scenarios
We present an in-depth evaluation of LLMs' ability to negotiate, a central business task requiring strategic reasoning, theory of mind, and…
Who Deserves the Reward? SHARP: Shapley Credit-based Optimization for Multi-Agent System
Integrating Large Language Models (LLMs) with external tools via multi-agent systems offers a promising new paradigm for decomposing and so…
When Should LLMs Be Less Specific? Selective Abstraction for Reliable Long-Form Text Generation
LLMs are widely used, yet they remain prone to factual errors that erode user trust and limit adoption in high-risk settings. One approach…
VeRO: A Harness for Agents to Optimize Agents
An important emerging application of coding agents is agent harness optimization: the iterative improvement of a target agent by editing an…
X-RAY: Mapping LLM Reasoning Capability via Formalized and Calibrated Probes
Large language models (LLMs) achieve promising performance, yet their ability to reason remains poorly understood. Existing evaluations lar…
Evaluating Relational Reasoning in LLMs with REL
Relational reasoning is the ability to infer relations that jointly bind multiple entities, attributes, or variables. This ability is centr…
Co-evolving Agent Architectures and Interpretable Reasoning for Automated Optimization
Automating operations research (OR) with large language models (LLMs) remains limited by hand-crafted reasoning--execution workflows. Compl…
From Holo Pockets to Electron Density: GPT-style Drug Design with Density
Recent advances in generative modeling have enabled significant progress in structure-based drug design (SBDD). Existing methods typically…
Assessing and Mitigating Miscalibration in LLM-Based Social Science Measurement
Large language models (LLMs) are increasingly used in social science as scalable measurement tools for converting unstructured text into va…
編集する前にプローブする: 構造ベースの医薬品設計における LLM 薬剤のプローブに基づく分子最適化
構造ベースの医薬品設計では、標的ポケットに対してリガンドを反復的に精製するために LLM 試薬の採用が増えていますが、実行可能なリガンドは、しばしば相反する 2 つの目的、つまり結合親和性と創薬可能性を満たさなければなりませんが、単一の最適化ステップで同時に改善されることはほとんどありません。この困難さを定量化するために、2 つの診断メトリクスを導入します。1 つ目は、1 回の編集で両方の目標が改善される頻度を測定し、2 つ目は、一方の目標の利益が他方の目標の損失を伴う頻度を測定します。これらの診断を現在の LLM エージェント パイプラインに適用すると、一貫した障害モードが明らかになります。エージェントは、ポケット-リガンド複合体が局所的な修飾にどのように反応するかを知らずに分子編集を実行するため、関節の改善が達成されることはほとんどありません。最適化の方向性を選択する前に、制御されたアナログ編集でポケット-リガンド複合体を調査する医薬化学者からインスピレーションを得て、編集応答調査を中心に構築された最適化フレームワークである \textbf{PROBE} を提案します。 PROBE はまずリガンドを編集可能なサイトに分解し、共同利得が考えられる場所、2 つの目的が緊張している可能性が高い場所、および責任の下部構造を変更する必要がある場所を示すポケット固有の \textbf{サイト マップ} を構築します。次に、制御されたプローブ編集を実行し、その応答が \textbf{EditManual} に抽出されます。 PROBE は、サイト マップと EditManual に基づいて、アフィニティ エージェント、ドラッガビリティ エージェント、および共同最適化エージェントが共同して編集を行う反復マルチエージェント ループを実行します。 CrossDocked2020 ベンチマークでは、PROBE は最先端のパフォーマンスを達成し、診断メトリクスによって明らかになった障害モードを大幅に軽減します。
原文 (English)
Probe Before You Edit: Probing-Guided Molecular Optimization for LLM Agents in Structure-Based Drug Design
Structure-based drug design increasingly employs LLM agents to iteratively refine ligands against a target pocket, yet a viable ligand must satisfy two often-conflicting objectives -- binding affinity and druggability -- which single optimization steps rarely improve together. To quantify this difficulty, we introduce two diagnostic metrics: the first measures how often a single edit improves both objectives, and the second measures how often a gain on one objective comes with a loss on the other. Applying these diagnostics to current LLM-agent pipelines exposes a consistent failure mode: the agent performs molecular editing without knowing how the pocket-ligand complex responds to local modifications, thus rarely achieving joint improvement. Inspired by medicinal chemists, who probe the pocket-ligand complex with controlled analog edits before choosing an optimization direction, we propose \textbf{PROBE}, an optimization framework built around edit-response probing. PROBE first decomposes the ligand into editable sites and builds a pocket-specific \textbf{site map} that flags where joint gains are plausible, where the two objectives are likely in tension, and where liability substructures should be changed; it then performs controlled probe edits whose responses are distilled into an \textbf{EditManual}. Guided by the site map and EditManual, PROBE runs an iterative multi-agent loop in which an affinity agent, a druggability agent, and a co-optimization agent jointly produce edits. On the CrossDocked2020 benchmark, PROBE achieves state-of-the-art performance and substantially mitigates the failure modes exposed by our diagnostics metrics.
SkillRevise: トレース条件付きスキル リビジョンによる LLM 作成エージェント スキルの向上
エージェント スキルは、LLM エージェントがワークフローを実行し、制約を検証し、障害から回復できるようにする手順的な成果物です。既存の自己進化手法は、蓄積された軌跡を利用してスキルを磨きます。しかし、初期の不完全なスキルしか利用できないコールドスタート環境では苦戦します。したがって、スキル構築はデフォルトでエキスパートオーサリングまたはワンショット LLM 生成になります。専門家が作成したスキルはコストが高く、LLM エージェントが実際にタスクを実行する方法と一致していない可能性があります。一方、ワンショットで生成されたスキルは、構文的には適切ですが、動作が弱い可能性があります。このギャップを埋めるために、私たちは、これらの初期スキルを反復的に改善するように設計された実行ベースのフレームワークである SkillRevise を提案します。 SkillRevise は、実行の証拠からスキルの欠陥を診断し、一般的なメモリから関連する修復原則を取得し、実行に固定された編集を適用します。候補者を再実行し、経験的な有用性を測定することで、最適なスキル バージョンを体系的に保持します。 3 つのベンチマークと 5 つの LLM で評価したところ、SkillRevise はワンショット ベースラインを大幅に上回り、SkillsBench でのベース エージェントの成功率が 36.05% から 61.63% に向上しました。さらに、改訂されたスキルはモデル間での強力な移行性を示し、モデル固有のアーティファクトに関する一般化された手順の知識を取得します。
原文 (English)
SkillRevise: Improving LLM-Authored Agent Skills via Trace-Conditioned Skill Revision
Agent skills are procedural artifacts that enable LLM agents to execute workflows, verify constraints, and recover from failures. Existing self-evolving methods refine skills using accumulated trajectories. However, they struggle in cold-start settings, where only an initial, imperfect skill is available. Consequently, skill construction defaults to expert authoring or one-shot LLM generation. Expert-authored skills are costly and may not align with how LLM agents actually execute tasks, while one-shot generated skills can be syntactically well formed yet behaviorally weak. To bridge this gap, we propose SkillRevise, an execution-grounded framework designed to iteratively refine these initial skills. SkillRevise diagnoses skill defects from execution evidence, retrieves relevant repair principles from a general memory, and applies execution-anchored edits. By re-executing candidates and measuring empirical utility, it systematically retains the optimal skill version. Evaluated across three benchmarks and five LLMs, SkillRevise substantially outperforms one-shot baselines, improving the base agent's success rate on SkillsBench from 36.05% to 61.63%. Furthermore, the revised skills exhibit strong cross-model transferability, capturing generalized procedural knowledge over model-specific artifacts.
Forget Attention: Importance-Aware Attention Is All You Need
Combining attention's global retrieval with the sequential importance signal of state space models (SSMs) is the open challenge of hybrid l…
AgentCL: Toward Rigorous Evaluation of Continual Learning in Language Agents
Language agents spend substantial inference time solving individual tasks, yet the experience acquired in one episode is often underutilize…
Typhoon: Towards an Effective Task-Specific Masking Strategy for Pre-trained Language Models
The choice of \emph{which} tokens to mask is a central, under-examined design decision in masked language modeling (MLM). Standard pretrain…
WISE: A World Knowledge-Informed Semantic Evaluation for Text-to-Image Generation
Text-to-Image (T2I) models are capable of generating high-quality artistic creations and visual content. However, existing research and eva…
dLLM-Cache: Accelerating Diffusion Large Language Models with Adaptive Caching
Autoregressive Models (ARMs) have long dominated the landscape of Large Language Models. Recently, a new paradigm has emerged in the form o…
Multiple Choice Learning of Low-Rank Adapters for Language Modeling
We propose LoRA-MCL, a training scheme that extends next-token prediction in language models with a method designed to decode diverse, plau…
CoMPAS3D: A Dataset and Benchmark for Interactive Motion
Socially interactive humanoid robots must engage with humans through their bodies, adapting in real time to a partner's movement, intent, a…
UR$^2$: Unify RAG and Reasoning through Reinforcement Learning
Large Language Models (LLMs) have shown strong capabilities through two complementary paradigms: Retrieval-Augmented Generation (RAG) for k…
ReaLM: Residual Quantization Bridging Knowledge Graph Embeddings and Large Language Models
Large Language Models (LLMs) have recently emerged as a powerful paradigm for Knowledge Graph Completion (KGC), offering strong reasoning a…
Generating the Modal Worker: A Cross-Model Audit of Race and Gender in LLM-Generated Personas Across 41 Occupations
As generative AI tools are increasingly used to portray people in professional roles, understanding their racial and gender representationa…
Automata-Conditioned Cooperative Multi-Agent Reinforcement Learning
We study learning multi-task, multi-agent policies for cooperative, temporal objectives, under centralized training, decentralized executio…
SeSE: Black-Box Uncertainty Quantification for Large Language Models Based on Structural Information Theory
Reliable uncertainty quantification (UQ) is essential for deploying large language models (LLMs) in safety-critical scenarios, as it enable…
Identifying Quantum Structure in AI Language: Evidence for Evolutionary Convergence of Human and Artificial Cognition
We present the results of cognitive tests on conceptual combinations, performed using specific Large Language Models (LLMs) as test subject…
Distribution-Calibrated Inference Time Compute for Thinking LLM-as-a-Judge
Thinking Large Language Models (LLMs) used as judges for pairwise preferences remain noisy at the single-sample level, and common aggregati…
Toward Training Superintelligent Software Agents through Self-Play SWE-RL
While current software agents powered by large language models (LLMs) and agentic reinforcement learning (RL) can boost programmer producti…
LLMs, Reasoning and Plagiarism
Recent reports claim that Large Language Models (LLMs) derive new science and exhibit human-level general intelligence. Such claims are ent…
Relational Linearity is a Predictor of Hallucinations
Hallucination is a central failure mode of language models (LMs). We focus on hallucinations in response to questions like: "Which instrume…
Plan, Verify and Fill: A Structured Parallel Decoding Approach for Diffusion Language Models
Diffusion Language Models (DLMs) present a promising non-sequential paradigm for text generation, distinct from standard autoregressive (AR…
InftyThink+: Effective and Efficient Infinite-Horizon Reasoning via Reinforcement Learning
Large reasoning models achieve strong performance by scaling inference-time chain-of-thought, but this paradigm suffers from quadratic cost…
LatentChem: From Textual CoT to Latent Thinking in Chemical Reasoning
Current chemical large language models (LLMs) predominantly rely on explicit Chain-of-Thought (CoT) to solve complex reasoning problems. Ho…
PAND: Prompt-Aware Neighborhood Distillation for Lightweight Fine-Grained Visual Classification
Distilling knowledge from large Vision-Language Models (VLMs) into lightweight networks is crucial yet challenging in Fine-Grained Visual C…
Whose Name Comes Up? II: Benchmarking and Intervention-Based Auditing of LLM-Based Scholar Recommendation
Large language models (LLMs) are now used for academic expert recommendation. Existing audits typically evaluate such recommendations in is…
Learning Self-Interpretation from Interpretability Artifacts: Training Lightweight Adapters on Vector-Label Pairs
Self-interpretation methods prompt language models to describe their own internal states, but remain unreliable due to hyperparameter sensi…
Test-Time Optimization of Physical Query Plans with LLMs
Traditional query optimization relies on cost-based optimizers that estimate execution cost (e.g., runtime, memory, and I/O) using predefin…
Agent Skills for Large Language Models: Architecture, Acquisition, Security, and the Path Forward
The transition from monolithic language models to modular, skill-equipped agents marks a defining shift in how large language models (LLMs)…
Whom to Query for What: Adaptive Group Elicitation via Multi-Turn LLM Interactions
Eliciting information to reduce uncertainty about latent group-level properties from surveys and other collective assessments requires allo…
Sign Lock-In: Randomly Initialized Weight Signs Persist and Bottleneck Sub-Bit Model Compression
Sub-bit model compression targets storage below one bit per weight; as magnitudes are aggressively compressed, the sign bit becomes a fixed…
CodeHacker: Automated Test Case Generation for Detecting Vulnerabilities in Competitive Programming Solutions
The evaluation of Large Language Models (LLMs) for code generation relies heavily on the quality and robustness of test cases. However, exi…
KnapSpec: Self-Speculative Decoding via Adaptive Layer Selection as a Knapsack Problem
Self-speculative decoding (SSD) accelerates LLM inference by skipping layers to create an efficient draft model, yet existing methods often…
vLLM セマンティック ルーター: 混合モダリティ モデル向けの信号駆動型意思決定ルーティング
大規模言語モデル (LLM) がモダリティ、機能、コスト プロファイルにわたって多様化するにつれて、インテリジェントなリクエスト ルーティングの問題、つまり推論時に各クエリに適切なモデルを選択することが、システムの重要な課題となっています。 Mixture-of-Modality (MoM) モデル展開用の信号駆動型意思決定ルーティング フレームワークである vLLM Semantic Router を紹介します。このアーキテクチャは、シャノンからインスピレーションを得た 2 つの相補的なビューに従っています。情報理論領域では、信号抽出により「どのモデルか?」のエントロピーが低減されます。生のクエリからルーティング関連情報を抽出することによって。ブール代数領域では、意思決定エンジンは信号状態から機能的に完全なルーティング ポリシーを構成します。中心的なイノベーションは、構成可能な信号オーケストレーションです。ミリ秒未満のヒューリスティックと、セマンティクス、安全性、モダリティのニューラル分類子にわたる 13 種類の異種信号タイプが、構成可能なブール決定ルールを通じて展開固有のルーティング ポリシーに組み込まれるため、基本的に異なるシナリオ (マルチクラウド エンタープライズ、プライバシー規制、コスト最適化) が、同じアーキテクチャ上の異なる構成として表現されます。一致した決定は 13 の選択アルゴリズムを介してセマンティック モデルのルーティングを推進し、決定ごとのプラグイン チェーンは 3 段階の HaluGate 幻覚検出パイプラインやパーソナライズされたマルチターン コンテキストのための ReflectionGate を備えた軽量のエピソード記憶システムなどの安全制約を強制します。型付きニューラルシンボリック DSL は、これらのルーティング ポリシーを指定し、複数の展開ターゲットにコンパイルして、コードを変更せずに構成優先の適応を可能にします。これらのコンポーネントを総合すると、コンポーザブルな信号オーケストレーションにより、単一のフレームワークで差別化されたコスト、プライバシー、安全性ポリシーを備えた多様な展開シナリオに対応できることがわかります。
原文 (English)
vLLM Semantic Router: Signal Driven Decision Routing for Mixture-of-Modality Models
As large language models (LLMs) diversify across modalities, capabilities, and cost profiles, the problem of intelligent request routing -- selecting the right model for each query at inference time -- has become a critical systems challenge. We present vLLM Semantic Router, a signal-driven decision routing framework for Mixture-of-Modality (MoM) model deployments. The central innovation is composable signal orchestration: the system extracts heterogeneous signal types from each request -- from sub-millisecond heuristic features (keyword patterns, language detection, context length, role-based authorization) to neural classifiers (domain, embedding similarity, factual grounding, modality) -- and composes them through configurable Boolean decision rules into deployment-specific routing policies. Different deployment scenarios -- multi-cloud enterprise, privacy-regulated, cost-optimized, latency-sensitive -- are expressed as different signal-decision configurations over the same architecture, without code changes. Matched decisions drive semantic model routing: over a dozen of selection algorithms analyze request characteristics to find the best model cost-effectively, while per-decision plugin chains enforce privacy and safety constraints (jailbreak detection, PII filtering, hallucination detection via the three-stage HaluGate pipeline). The system provides OpenAI API support for stateful multi-turn conversations, multi-endpoint and multi-provider routing across heterogeneous backends (vLLM, OpenAI, Anthropic, Azure, Bedrock, Gemini, Vertex AI), and a pluggable authorization factory supporting multiple auth providers. Deployed in production as an Envoy external processor, the architecture demonstrates that composable signal orchestration enables a single routing framework to serve diverse deployment scenarios with differentiated cost, privacy, and safety policies.
Measuring Weak-to-Strong Legibility of Reasoning Models
Reasoning language models (RLMs) and the intermediate chains of thought they emit play an increasingly central role in multi-agent setups s…
SleepVLM: Explainable and Rule-Grounded Sleep Staging via a Vision-Language Model
While automated sleep staging has achieved expert-level accuracy, its clinical adoption is hindered by a lack of auditable reasoning. We in…
Crystal: Characterizing Relative Impact of Scholarly Publications
Assessing a cited paper's impact is typically done by analyzing its citation context in isolation within the citing paper. While this focus…
Dynamics of Cognitive Heterogeneity: Investigating Behavioral Biases in Multi-Stage Supply Chains with LLM-Based Simulation
Modeling coordination among generative agents in complex multi-round decision-making presents a core challenge for AI and operations manage…
$R^2$-dLLM: Accelerating Diffusion Large Language Models via Spatio-Temporal Redundancy Reduction
Diffusion Large Language Models (dLLMs) have emerged as a promising alternative to autoregressive generation by enabling parallel token pre…
Quantifying and Mitigating Self-Preference Bias of LLM Judges
LLM-as-a-Judge has become a dominant approach in automated evaluation systems, playing critical roles in model alignment, leaderboard const…
SkCC: Portable and Secure Skill Compilation for Cross-Framework LLM Agents
LLM agents increasingly rely on reusable skills (e.g., $SKILL.md$ ) to execute complex tasks, yet these artifacts lack portability: agent f…
Vision Inference Former: Sustaining Visual Consistency in Multimodal Large Language Models
In recent years, multimodal large language models (MLLMs) have achieved remarkable progress, primarily attributed to effective paradigms fo…
Vision-OPD: Learning to See Fine Details for Multimodal LLMs via On-Policy Self-Distillation
Multimodal Large Language Models (MLLMs) still struggle with fine-grained visual understanding, where answers often depend on small but dec…
LLM 強化学習のための MXFP4 量子化誤差の分解: 削減可能なバイアス、回復可能なデッドゾーン、および既約の下限
MXFP4 算術演算は、大規模言語モデル (LLM) のトレーニング後の強化学習 (RL) を劇的に加速できますが、量子化エラーにより精度が大幅に低下します。既存の研究では、量子化誤差をモノリシックなノイズ項として扱っており、量子化誤差がトレーニングにどのような影響を与えるかを解釈する際の明確なメカニズムが欠けています。量子化誤差の正確な 3 方向分解を証明し、各コンポーネントが個別の RL トレーニング経路をどのように支配するかを示します。私たちの理論的および経験的分析は、MXFP4 量子化誤差を 3 つの加算成分に分解します。2 のべき乗の丸めによる「スケール バイアス」、小さな値をゼロにすることによる「デッドゾーンの切り捨て」、および最も近い 4 ビット グリッドへの丸めによる「グリッド ノイズ」です。各コンポーネントは、個別の RL 故障モードを支配します。スケール バイアスは、後方パスを通じて乗算的に蓄積し、勾配の精度に影響を与えます。デッドゾーンの切り捨てはロールアウトの品質を低下させます。そしてグリッドノイズは政策のエントロピーを増大させます。 RL 障害モードを対象とするがコンポーネントに限定されない修正を組み合わせます。つまり、スケール バイアスを低減するためのマクロブロック スケーリング、デッドゾーン エントリを回復する外れ値フォールバック、スケール バイアスによって引き起こされるエラーを部分的に低減する機能、およびポリシー エントロピーを制御するための適応量子化ノイズ (AQN) です。 Qwen2.5-3B 高密度モデルと Qwen3-30B-A3B-Base の専門家混合モデルでは、ターゲットを絞った修正により、BF16 の精度がそれぞれ 0.7% 以内に回復し、BF16 を +1.0% 上回りました。
原文 (English)
Decomposing MXFP4 quantization error for LLM reinforcement learning: reducible bias, recoverable deadzone, and an irreducible floor
MXFP4 arithmetic can dramatically accelerate reinforcement learning (RL) post-training of large language models (LLMs), yet the quantization error introduces severe accuracy degradation. Existing work treats the quantization error as a monolithic noise term, missing the distinct mechanisms upon interpreting how quantization error damages training. We prove an exact three-way decomposition of quantization error and show how each component dominates a distinct RL training pathway. Our theoretical and empirical analysis decomposes the MXFP4 quantization error into three additive components: "scale bias" from power-of-two rounding, "deadzone truncation" from zeroing small values, and "grid noise" from rounding to the nearest 4-bit grid. Each component dominates a distinct RL failure mode: scale bias accumulates multiplicatively through the backward pass, affecting gradient accuracy; deadzone truncation degrades rollout quality; and grid noise raises the policy's entropy. We combine corrections that are RL failure mode-targeted but not component-exclusive: Macro-block scaling to reduce scale bias, Outlier Fallback recovers deadzone entries, but also partially reduces scale bias induced error, and Adaptive Quantization Noise (AQN) for controlling the policy entropy. On Qwen2.5-3B dense and Qwen3-30B-A3B-Base mixture-of-experts model, the targeted corrections recover BF16 accuracy to within 0.7% and exceed BF16 by +1.0% respectively.
評価意識の分解と測定
フロンティア言語モデルは、評価されていることを認識して動作を調整し、ベンチマーク結果の妥当性を損なうことがあります。しかし、現場では共通の基礎を持たずに評価の特性とモデルの特性、検出と行動反応を混同して研究が行われています。私たちは評価意識を社会心理学に基礎づけ、評価意識を環境要素 (課題がどの程度認識されているか) と、認識をそれに基づいて行動する傾向から分離するモデル要素に分解します。プレースホルダー エンティティや採点スタイルの出力形式など、8 つの分類されたトリガー要因を通じて環境コンポーネントを運用し、思考連鎖のモニタリングを通じて認識と行動を研究します。 9 つのフロンティア モデルと 4 つのベンチマークにわたって、認識率はモデルとベンチマークのどちらか単独ではなく、モデルとベンチマークの特定の組み合わせに依存します。認識が行動の変化につながることはほとんどありませんが、変化する場合、その方向性は認識された評価の種類によって異なります。また、モデルは機能評価よりも安全性に対して敏感であり、安全性ベンチマークの妥当性がより大きなリスクにさらされます。各モデルがどの要因に敏感で、それらがどのように相互作用するかを研究するために、8 つの要因のそれぞれを独立して切り替えることができ、基礎となる要求を固定したまま評価信号を変化させる、100 のペアの安全機能タスクの要因制御ベンチマークである \textbf{EvalAwareBench} を提案します。 EvalAwareBench を通じて、単一の要素がすべてのモデルに均一に影響を与えることはなく、要素を積み重ねることですべてのモデルにわたる評価の意識が徐々に向上することがわかりました。私たちのフレームワークと EvalAwareBench は、評価意識を測定、属性付け、軽減するためのツールを提供し、将来有望な道として認識される下での行動の一貫性を示します。
原文 (English)
Decomposing and Measuring Evaluation Awareness
Frontier language models sometimes recognize that they are being evaluated and adjust their behavior, undermining validity of benchmark results. Yet the field studies it without a shared foundation, conflating properties of the evaluation with properties of the model, and detection with behavioral response. We ground evaluation awareness in social psychology, decomposing it into an environment component (how recognizable the task is) and a model component that separates recognition from propensity to act on it. We operationalize the environment component through eight categorized trigger factors, such as placeholder entities and grading-style output formats, and study recognition and behavior through chain-of-thought monitoring. Across nine frontier models and four benchmarks, recognition rates depend on the specific pairing of model and benchmark rather than on either in isolation. Recognition rarely leads to behavioral change, and when it does, the direction depends on the type of evaluation perceived. Models are also more sensitive to safety than capability evaluations, placing safety benchmark validity at greater risk. To study which factors each model is sensitive to and how they interact, we propose \textbf{EvalAwareBench}, a factor-controlled benchmark of 100 paired safety-capability tasks where each of the eight factors can be independently toggled, varying evaluative signals while holding the underlying request fixed. Through EvalAwareBench, we find that no single factor uniformly affects all models, but stacking factors progressively raises evaluation awareness across all of them. Our framework and EvalAwareBench provide the tools to measure, attribute, and mitigate evaluation awareness, pointing to behavioral consistency under recognition as a promising path forward.
JudgmentBench: Comparing Rubric and Preference Evaluation for Quality Assessment
Two methodologies dominate current practices of benchmarking: rubric-based scoring evaluates items against predefined criteria, whereas com…
臨床要約のための幻覚検出に基づく好みの最適化
大規模言語モデル (LLM) は、要約タスクでは有望であることが示されていますが、幻覚を引き起こすことがよくあります。幻覚はサポートされていない、または間違った記述であり、特殊な医療アプリケーションでの信頼性が制限されます。 \itermodelfull (\itermodel) という推論時間手法を導入します。これは、幻覚検出器を活用して、事実の修正に向けて反復的な要約改訂をガイドします。これに基づいて、検出器による調整軌道をモデルの微調整のための好みのペアに変換する、好み学習のための \itermodel (\model) を提案します。広範な実験により、\MimicIV からの現実世界の臨床ノートを要約する際に、私たちの方法がラマ モデルとジェマ モデルの幻覚を大幅に軽減することが示されました。たとえば、Llama-3.1-8B-Instruct の \itermodel は 24\% を軽減し、\model は 48\% の幻覚を軽減します。重要なのは、人間の専門家と LLM 陪審の評価に従って、両方の方法で要約の流暢性、一貫性、および関連性が維持されることです。これらの結果を総合すると、検出に基づいた改良と好みの学習が、臨床要約における事実の忠実性を向上させるための自動化されたソリューションを提供することを示しています。
原文 (English)
Hallucination Detection-Guided Preference Optimization for Clinical Summarization
Large language models (LLMs) have shown promise on summarization tasks, but they often produce hallucinations, which are unsupported or incorrect statements that limit their reliability in specialized healthcare applications. We introduce Hallucination Detection Guided Self-Refinement (HDSR), an inference-time method that leverages hallucination detectors to guide iterative summary revisions toward factual corrections. Building on this, we propose HDSR for Preference Learning (HDSR-PL), which converts detector-guided refinement trajectories into preference pairs for model finetuning. Extensive experiments show that our methods substantially reduce hallucinations for Llama and Gemma models in summarizing real-world clinical notes from MIMIC-IV-Note v2.2. For example, HDSR reduces 24% and HDSR-PL reduces 48% hallucinations in Llama-3.1-8B-Instruct. Importantly, both methods preserve summary fluency, coherence, and relevance according to human expert and LLM-Jury evaluations. Together, these results demonstrate that detection-informed refinement and preference learning offer an automated solution for improving factual faithfulness in clinical summarization.
Smaller Models are Natural Explorers for Policy-Level Diversity in GRPO
We identify a new dimension for enhancing rollout diversity in Group Relative Policy Optimization (GRPO) for LLMs. While GRPO relies on div…
If LLMs Have Human-Like Attributes, Then So Does Age of Empires II
Much research has been carried out on large language models (LLMs) and LLM-powered agentic workflows. However, many works within the field…
PR2: Predictive Routing Replay for MoE-Based LLM Reinforcement Learning
Mixture of Experts (MoE) Large Language Models (LLMs) achieve strong performance at scale. However, reinforcement learning (RL) on MoE-base…
KliniskVestBERT: BERT Model Specialised to Norwegian Clinical Texts
The increasing application of Natural Language Processing (NLP) in healthcare demands language models specifically attuned to the complexit…
AgentRedBench: Dynamic Redteaming and Integration-Aware Defense for LLM Agents over SaaS Integrations
Indirect prompt injection in tool-use agents is a concrete production threat: LLM agents read from integrations (third-party services such…
OpenAI launches new Codex tools for white-collar work
OpenAI released a set of six plug-ins aimed at specific jobs: data analytics, creative production, sales, product design, equity investing,…
Anthropic scales Claude Mythos to critical infrastructure in 15+ countries
Anthropic is expanding Project Glasswing, its security vulnerability program, and access to Mythos to 150 organizations across 15 countries…
Travelers deploys AI-powered claims countrywide with OpenAI
Travelers built an AI-powered Claim Assistant with OpenAI to guide customers through filing claims, provide 24/7 support, and scale operati…
Advancing youth safety and opportunity through global leadership
OpenAI calls for global action on youth AI safety, proposing an international institute to strengthen safeguards, standards, and opportunit…
AIモデル「ミュトス」のアクセス権拡大 新たに150組織が利用へ Anthropic
米Anthropicは、サイバーセキュリティプロジェクト「Project Glasswing」を拡大し、AIモデル「Claude Mythos Preview」のアクセス権を新たに約150の組織に与えると発表した。
MindGames Arena ジェネラライゼーション トラック: ステップごとの遅延アトリビューションを備えた In2AI ソリューション
マルチエージェントの戦略的インタラクション用に言語モデル エージェントをトレーニングすることには、中核的な困難があります。アクションの質は、決して実現しない将来のイベント、ゲーム ルールに違反する動き、または他のプレイヤーによる決定に依存する可能性があります。標準的な強化学習では、各ステップで報酬を割り当てることができると想定していますが、結果が時間やエージェントを超えて絡み合っている設定では、この想定は当てはまりません。適格性ゲーティング、エピソードのライフサイクル、およびエピソード終了時にのみ報酬を計算し、タスク固有のセマンティクスに従って元のステップに報酬を伝播し、有効な依存情報が欠如しているステップをトレーニングから除外する後処理パイプラインを備えた、ステップごとの遅延報酬アトリビューションを導入します。 vLLM の連続バッチ処理による非同期ロールアウト生成、カリキュラムベースの対戦相手サンプリング、およびマルチレベル階層化バッチ構築と併せて、このアプローチにより、マルチエージェント環境で安定したサンプル効率の高い RL トレーニングが可能になります。 NeurIPS 2025 の MindGames Arena ベンチマークで評価しました。そこでは、私たちの手法でトレーニングされた単一の 80 億パラメータのオープンソース モデルが、GPT-5 を含む大幅に大規模な独自システムとの直接対決で匹敵、またはそれを上回り、オープン (制限なし) トラックと効率的 (パラメーター 80 億以下) トラックの両方で 1 位になりました。
原文 (English)
MindGames Arena Generalization Track: In2AI Solution with Delayed Per-Step Reward Attribution
Training language model agents for multi-agent strategic interaction presents a core difficulty: the quality of any action may depend on future events that never materialize, on moves that violate game rules, or on decisions made by other players. Standard reinforcement learning assumes that rewards can be assigned at each step, but this assumption fails in settings where outcomes are entangled across time and agents. We introduce delayed per-step reward attribution with eligibility gating, an episode lifecycle and postprocessing pipeline that computes rewards only at episode end, propagates them back to originating steps according to task-specific semantics, and excludes steps that lack valid dependent information from training. Together with asynchronous rollout generation via vLLM's continuous batching, curriculum-based opponent sampling, and multi-level stratified batch construction, this approach enables stable, sample-efficient RL training in multi-agent environments. We evaluate on the MindGames Arena benchmark at NeurIPS 2025, where a single 8-billion-parameter open-source model trained with our method matched or surpassed substantially larger proprietary systems, including GPT-5, in head-to-head play and took first place in both the Open (unrestricted) and Efficient (<=8B parameters) tracks.
Grokers: 型付きナレッジ グラフに対するボトムアップの帰納的理解と書き込み時のインテリジェンス
我々は、依存関係サブグラフのボトムアップ帰納的走査を通じて、型付き知識グラフの永続的で構造化された理解を構築するためのアーキテクチャである Grokers を紹介します。クエリごとに完全な理解コストを支払う検索拡張生成 (RAG) とは異なり、Groker はインテリジェンスを書き込み時間に押し上げます。自律的な Groker エージェントは、型付きストリーム グラフ内のノードを分析し、管理言語モデル (LM) 呼び出しを介して構造化属性を抽出し、依存関係を通じてその理解を上位に帰納的に構成し、追加の LM コストをゼロで将来のすべてのクエリに対応する強化された型付き属性を書き込みます。 (1) バイト同一性定理。トランザクションで維持される非正規化インデックスから組み立てられたコンテキスト ブロックが、セマンティック変更間の LM ターン全体でバイト同一であることを確立し、100% に近い KV キャッシュ ヒット率を可能にします。 (2) 累積単調性定理。管理された知恵ライブラリの成長プロトコルの下で、LM 呼び出しなしで解決されたインタラクションの割合が完了したインタラクションの数において減少しないことを確立します。 (3) デュアルトラバーサル順序定理。トップダウンの生成とボトムアップの理解は、依存関係 DAG 上のそれぞれのタスクに対する固有の正しいトラバーサル順序付けであり、それらの構成は完全な生成と理解のサイクルに近づくことを確立します。さらに、有限語彙ドメインの LM フォールバック レートがゼロに収束する同義語キャッシュ プロトコルを使用した、埋め込みベースのセマンティック検索に代わる決定論的な代替手段を提案します。リファレンス実装は、オープンソースの Qbix / Safebox / Safebots スタックで提供されます。
原文 (English)
Grokers: Bottom-Up Inductive Comprehension and Write-Time Intelligence over Typed Knowledge Graphs
We present Grokers, an architecture for building persistent, structured comprehension of typed knowledge graphs through bottom-up inductive traversal of dependency subgraphs. Unlike retrieval-augmented generation (RAG), which pays full comprehension cost at every query, Grokers pushes intelligence to write time: autonomous Groker agents analyze nodes in a typed stream graph, extract structured attributes via governed language model (LM) calls, and inductively compose that understanding upward through dependency relations, writing enriched typed attributes that serve all future queries at zero additional LM cost. We prove three formal properties: (1) the Byte-Identity Theorem, establishing that context blocks assembled from a transactionally-maintained denormalization index are byte-identical across LM turns between semantic changes, enabling KV-cache hit rates approaching 100%; (2) the Accumulation Monotonicity Theorem, establishing that the fraction of interactions resolved without LM calls is non-decreasing in the number of completed interactions under a governed wisdom library growth protocol; and (3) the Dual-Traversal Ordering Theorem, establishing that top-down generation and bottom-up comprehension are the unique correct traversal orderings for their respective tasks over a dependency DAG, and that their composition closes into a complete generation-comprehension cycle. We further present a deterministic alternative to embedding-based semantic search, with a synonym caching protocol whose LM fallback rate converges to zero for finite-vocabulary domains. A reference implementation is provided in the open-source Qbix / Safebox / Safebots stack.
能力の自己評価: LLM に自分の限界を知るよう教える
自分自身の限界を認識し、問題を解決するか誰かに任せるかを決定する能力は、信頼性の高いインテリジェント システムの基礎です。しかし、現代の大規模言語モデルにはこの能力が体系的に欠けていることがわかります。さまざまなモデルファミリーやスケールにわたって、言語モデルは自分たちの能力を過大評価し、解決できないクエリを試みます。私たちはこの能力を能力自己評価 (CSA) と呼び、モデルの元の能力を維持しながら自己評価を向上させることを目的として、ポリシー学習問題として定式化します。私たちの結果は、強化学習が CSA を効果的に教え、元の機能を維持しながら教師あり微調整を大幅に上回るパフォーマンスを示していることを示しています。対照的に、教師あり微調整では、モデルが評価する予定の機能が大幅に低下します。さらに、学習された自己評価行動は分布から大きく外れて一般化しており、CSA が転移可能なモデル形質であることを示唆しています。最後に、CSA は実際に役立ちます。CSA は、推論時のローカル クラウドの意思決定を改善し、トレーニング中にターゲットを絞ったデータ選択のための信号を提供します。
原文 (English)
Capability Self-Assessment: Teaching LLMs to Know Their Limits
The ability to recognize one's own limitations and decide whether to solve a problem or delegate is fundamental for reliable intelligent systems. Yet we show that modern large language models systematically lack this ability: across diverse model families and scales, they overestimate their competence and attempt queries they cannot solve. We refer to this ability as Capability Self-Assessment (CSA) and formulate it as a policy-learning problem, aiming to improve self-assessment while preserving the model's original capabilities. Our results show that reinforcement learning teaches CSA effectively, significantly outperforming supervised fine-tuning while preserving original capabilities. In contrast, supervised fine-tuning severely degrades the capabilities the model is meant to assess. Moreover, learned self-assessment behavior generalizes well out of distribution, suggesting that CSA is a transferable model trait. Finally, CSA is practically useful: it improves local-cloud decision making at inference time and provides a signal for targeted data selection during training.
水曜日は質問します: 自動化された法的トリアージと紹介における「アクティブ リスニング」の最適化
FETCH 分類子は、低コストの LLM アンサンブルを使用して、申請者の法的問題に最適な一致を絞り込むのに役立つフォローアップの質問を生成します。この論文では、FETCH におけるフォローアップ質問アプローチの専門弁護士と LLM 支援による評価について説明し、低コストの LLM は分類タスクではうまく機能しますが、この設定で高品質の平易な質問を生成するには、より洗練された高コストのモデルが必要であると思われることを示します。法的インテーク担当者との議論を通じて、法的インテーク分類の質問を評価するためのルーブリックを提案しましたが、迅速なエンジニアリングだけではインテーク目的での質問の質を向上させるには十分ではないことがわかりました。また、裁判官としての LLM と人間の評価が異なることもわかりました。私たちは、単一の高コスト モデル GPT-5 を追加することで、分類子が法的支援の申請者から関連情報を引き出すことができること、および質問が分類タスクのより正確なパフォーマンスにつながることを実証します。また、家庭内暴力を含むさまざまなカテゴリーにわたる事実の抽出が不均一であり、家族法の審査プロトコルと矛盾していることもわかり、特定の法律分野に専用の審査委員会を含めることの価値が示唆されています。
原文 (English)
On Wednesdays, We Ask Questions: Optimizing "Active Listening" in Automated Legal Triage and Referral
The FETCH classifier generates follow-up questions to help refine the best match for the applicant's legal problem, using a low-cost ensemble of LLMs. In this paper, we describe an expert attorney and LLM-assisted evaluation of the follow-up question approach in FETCH and show that while low-cost LLMs perform well at classification tasks, generating high-quality plain-language questions in this setting appears to require a more sophisticated and higher-cost model. Through discussion with legal intake workers, we propose a rubric for the evaluation of legal intake classification questions, and we find that prompt engineering alone is not enough to improve question quality for intake purposes. We also find that LLM-as-judge and human ratings diverge. We demonstrate that with the addition of a single high-cost model, GPT-5, the classifier can elicit relevant information from applicants for legal help, and that the questions lead to more accurate performance at classification tasks. We also find uneven fact elicitation across different categories, including domestic violence, at odds with family law screening protocols, suggesting the value of including dedicated screening panels for certain areas of law.
モデルネイティブ コンピューティング アーキテクチャ: コンピュータ アーキテクチャのレンズを通して将来のシステム アーキテクチャを構想する
大規模な言語モデルは、モデル テクノロジーからシステム テクノロジーへの移行を迎えています。開発者が Codex、Claude Code、AutoGPT、および関連エージェントを使用してコードを作成し、プロジェクトを管理し、複数ステップのタスクを実行するにつれて、キャッシュの再利用、コンテキスト管理、エージェントのスケジューリング、権限制御などの繰り返し発生するエンジニアリングの問題は、従来のコンピュータ システムの問題にますます似てきています。この文書では、そのアナロジーを先見的な調査として展開します。私たちは、コンピューター アーキテクチャの概念を新たなモデル ネイティブ スタックにマッピングし、OS としての LLM、メモリ管理、エージェント フレームワーク、ツール プロトコル、マルチエージェント調整、コグニティブ アーキテクチャ、および安全性ガバナンスに関する作業をレビューします。私たちは、これらのストランドは同じシステムの異なる層に対応しているが、統一されたモデルが欠けていると主張します。このギャップを埋めるために、明示的なインターフェイス契約と設計公理を備えたモデルネイティブ コンピューティングのための 6 層フレームワークであるインテリジェント コンピューティング アーキテクチャ モデル (ICAM) を提案します。 ICAM は、LLM が CPU とオペレーティング システムのどちらに似ているかに関する明らかな緊張を、デュアル プレーンの視点を通じて解決します。つまり、何を計算できるかに関する確率論的な実行プレーンと、何を計算すべきかに関する決定論的なコントロール プレーンです。さらに、3 つの設計法則を導入します。KV キャッシュの再利用と推論の高速化のためのセマンティック局所性法則、有限ウィンドウと注意力低下下での効果的なワーキング セットのためのコンテキスト バジェット法則、およびマルチエージェントのコラボレーションにおける利益逓減のためのエージェント高速化法則です。私たちはこれらの法則を公開されたシステムレベルのデータに対して検証し、エージェントソフトウェアの実践に関する最近の証拠と関連付けます。最後に、類似性がどこで崩れるかを特定し、モデルネイティブ コンピューティングの研究ロードマップの概要を示します。これは概念的な調査による寄稿です。新しい実験は報告されていません。
原文 (English)
Model-Native Computing Architecture: Envisioning Future System Architecture Through the Lens of Computer Architecture
Large language models are undergoing a transition from model technology to system technology. As developers use Codex, Claude Code, AutoGPT, and related agents to write code, manage projects, and execute multi-step tasks, recurring engineering problems such as cache reuse, context management, agent scheduling, and permission control increasingly resemble classical computer systems problems. This paper develops that analogy as a visionary survey. We map concepts from computer architecture to the emerging model-native stack and review work on LLM-as-OS, memory management, agent frameworks, tool protocols, multi-agent coordination, cognitive architectures, and safety governance. We argue that these strands address different layers of the same system but lack a unified model. To fill this gap, we propose the Intelligent Computing Architecture Model (ICAM), a six-layer framework for model-native computing with explicit interface contracts and design axioms. ICAM resolves the apparent tension over whether an LLM is more like a CPU or an operating system through a dual-plane view: a probabilistic execution plane concerned with what can be computed, and a deterministic control plane concerned with what should be computed. We further introduce three design laws: the Semantic Locality Law for KV-cache reuse and inference speedup, the Context Budget Law for effective working sets under finite windows and attention decay, and the Agent Speedup Law for diminishing returns in multi-agent collaboration. We validate these laws against published system-level data and relate them to recent evidence on agentic software practices. We conclude by identifying where the analogy breaks down and outlining a research roadmap for model-native computing. This is a conceptual and survey contribution; it does not report new experiments.
「弱い」シグナルから強いモデルへ: LoRA マージを使用したプリファレンス デルタ アグリゲーション
強力な大規模言語モデル (LLM) をトレーニングするには、高品質の監督が必要ですが、それが不足していることがよくあります。最近の研究では、弱いモデルと弱いモデルのペア (例: Qwen3 4B 対 1.7B) からのペアの嗜好データは、個々の応答の品質が限られているにもかかわらず、相対的な品質のデルタ (これを「弱い」信号と呼ぶ) を通じて効果的な監視信号を提供できることが示されています。これは、重要な研究課題の動機となります。つまり、複数の「弱い」信号を建設的に集約して、強力なモデル (Qwen3 8B など) を改善できるか?この目的を達成するために、私たちは優先デルタ集約 (PDA) を提案します。これは、弱いモデルと弱いモデルのそれぞれのペアから優先デルタを導出し、それを優先最適化を通じて学習した LoRA アダプターとしてインスタンス化し、LoRA マージを通じて結果のデルタを集約する最初のフレームワークです。 LoRA マージ中の指向性干渉をさらに軽減するために、Geometric Alignment Merging (GAM) を導入しました。これは、集約前にアダプターのサブスペースを位置合わせする、ジオメトリを意識したマージ手法であり、多様なデルタのより堅牢な構成を可能にします。知識推論とエージェント検索ベンチマークの評価では、複数の「弱い」信号を集約すると、単一の信号を超えてパフォーマンスが向上し、追加の信号が組み込まれるとさらに向上することが示されています。同様に、GAM を備えた PDA は、知識推論とエージェント検索において、強力なモデルをそれぞれ平均 6.8 ポイントと 7.3 ポイント改善しました。これはすべてのシングルデルタおよびマルチデルタのベースラインを上回り、最高のシングルデルタのベースラインを 2.1 ポイントおよび 4.3 ポイント上回っています。さらなる分析では、これらの利益は、異なる優先デルタにわたってエンコードされた補完的な機能の効果的な構成によるものであると考えられます。
原文 (English)
From "Weak" Signals to Strong Models: Preference Delta Aggregation with LoRA Merging
Training strong large language models (LLMs) requires high-quality supervision, which is often scarce. Recent work shows that paired preference data from weak-weaker model pairs (e.g., Qwen3 4B over 1.7B), despite the limited quality of individual responses, can provide an effective supervision signal through relative quality deltas, which we term a "weak" signal. This motivates a key research question: can multiple "weak" signals be constructively aggregated for improving strong models (e.g., Qwen3 8B)? To this end, we propose Preference Delta Aggregation (PDA), the first framework that derives a preference delta from each weak-weaker model pair, instantiates it as a LoRA adapter learned through preference optimization, and aggregates the resulting deltas via LoRA merging. To further mitigate directional interference during LoRA merging, we introduce Geometric Alignment Merging (GAM), a geometry-aware merging method that aligns adapter subspaces before aggregation, enabling more robust composition of diverse deltas. Evaluations on knowledge reasoning and agentic search benchmarks show that aggregating multiple "weak" signals pushes performance beyond any single signal, with further gains as additional signals are incorporated. Correspondingly, PDA with GAM improves the strong model by 6.8 and 7.3 points on average for knowledge reasoning and agentic search, respectively. It outperforms all single-delta and multi-delta baselines, exceeding the best single-delta baseline by 2.1 and 4.3 points. Further analysis attributes these gains to the effective composition of complementary capabilities encoded across distinct preference deltas.
決定論的地平: 拡張推論が失敗し、ツールの委任が必要になったとき
拡張された思考連鎖推論は、決定論的な状態追跡タスクのパフォーマンスを低下させる可能性があります。これは、好みのバイアスによるものではなく、デコーダのみの注意の情報理論的能力に根ざした制限によるものです。 (1) 状態追跡容量を $O(H \cdot \log(L/H) \cdot \sqrt{d_h})$ として制限する、補完的な達成可能性構造を備えたアテンション ボトルネック定理を確立します。 (2) 超指数関数的な精度低下をもたらすコンテキスト依存エラー モデル。 (3) 状態空間 Jaccard メトリックにより、機能がプリファレンスの失敗から区別されます。 (4) ツールの委任が必要になる決定論的範囲 $d^* \in [19, 31]$。 12 のモデルと 8 つのタスク ドメイン (SWE-Bench、WebArena、SQL-Multi を含む) にわたって、ツール統合推論は一貫してニューラル思考連鎖を上回ります。プライマリ モデル スイートでは、精度が 86 ~ 94% に達するのに対し、ニューラル思考連鎖では 24 ~ 42% に達します。最適な長さのトレースを微調整すると $<5% の改善が得られ、アーキテクチャ上の上限が確認され、高いモデル間相関 ($r = 0.81$ ~ $0.91$) は、これらの失敗がトレーニング固有のものではなくアーキテクチャ上のものであることを示しています。私たちの結果は、エージェントシステムにおいて純粋な神経推論がハイブリッドアプローチに屈すべき場合についての原則的な指針を提供します。
原文 (English)
The Deterministic Horizon: When Extended Reasoning Fails and Tool Delegation Becomes Necessary
Extended chain-of-thought reasoning can degrade performance on deterministic state-tracking tasks, not due to preference biases, but limits rooted in the information-theoretic capacity of decoder-only attention. We establish: (1) an Attention Bottleneck Theorem with a complementary achievability construction, bounding state-tracking capacity as $O(H \cdot \log(L/H) \cdot \sqrt{d_h})$; (2) a context-dependent error model yielding super-exponential accuracy decay; (3) the State-Space Jaccard metric distinguishing capability from preference failures; (4) a Deterministic Horizon $d^* \in [19, 31]$ beyond which tool delegation becomes necessary. Across 12 models and 8 task domains (including SWE-Bench, WebArena, and SQL-Multi), tool-integrated reasoning consistently outperforms neural chain-of-thought; on the primary model suite it reaches 86-94% accuracy versus 24-42% for neural chain-of-thought. Fine-tuning on optimal-length traces yields $<$5% improvement, confirming an architectural ceiling, and high cross-model correlation ($r = 0.81$-$0.91$) indicates these failures are architectural rather than training-specific. Our results provide principled guidance for when pure neural reasoning should yield to hybrid approaches in agentic systems.
理屈ではなく、言われたことを実行する: LLM エージェントの誠実さのギャップを特定する
LLM エージェントは、自分が述べた推論に基づいて行動しますか?このプロセス忠実度の問題は、ソーシャル シミュレーションで LLM を使用する際の中心となりますが、正しい動作の基準が存在しない場合は測定することが困難です。私たちは、忠実性のギャップを推論 - 結論と結論 - 行動の 2 つのステップに分解することにより、すべての決定に対して検証可能な参照アクションを備えたテキサス ポーカー シミュレーターという、制御された設定でそれを研究します。 2 つのステップは逆に動作します。
原文 (English)
Doing What They Say, Not What They Reason: Locating the Faithfulness Gap in LLM Agents
Do LLM agents act on the reasoning they state? This question of process fidelity is central to using LLMs in social simulation, yet it is hard to measure where no reference for correct behavior exists. We study it in acontrolled setting, a Texas Poker simulator with a verifiable reference action for every decision by decomposing the faithfulness gap into two steps: reasoning-conclusion and conclusion-action. The two steps behave oppositely.
LLM 推論のためのしきい値ベースの排他的バッチ処理
混合バッチ (MB) (単一バッチでプリフィルとデコードをインターリーブする) は、コンピューティングとメモリの使用率を最大化する効率のため、大規模言語モデル (LLM) 推論の標準的なスケジューリング戦略となっています。ただし、制御された実験を通じて、プリフィルとデコードの干渉により、MB のステップあたりの限界コストが純粋なデコードの限界コストを超えて上昇することがわかりました。高帯域幅の H200 (4.8 TB/秒) では、これはデコード トークンがバッチの 80% を超えた場合にのみ発生します。ただし、帯域幅に制約のある RTX PRO 6000 (1.792 TB/秒) では、このしきい値はわずか 20% にまで下がります。したがって、MB と排他的バッチ処理 (EB) の最適な選択は、基本的に GPU メモリ帯域幅、モデル サイズ、ワークロード構成に依存します。この EB-MB パフォーマンスクロスオーバーの閉形式条件を、漸近的に最適な位相切り替えしきい値と EB のメモリセーフなバッチサイジングとともに導出します。最適化された EB は、帯域幅に制約のある GPU で最大 41.9% 高いスループットを実現します。一方、MB は、より大きなモデルの高帯域幅ハードウェアでもその利点を維持します。当社のハイブリッド スケジューラ EB+ は、この条件をオンラインで適用して、手動介入なしで EB と MB を動的に切り替えます。分散または同時実行シフトのある非定常トラフィックの下では、EB+ はあらゆる設定で最高または最高に近いスループットを達成し、MB を最大 36.4% 上回ります。
原文 (English)
Threshold-Based Exclusive Batching for LLM Inference
Mixed batching (MB)--interleaving prefill and decode in a single batch--has become the standard scheduling strategy for large language model (LLM) inference due to its efficiency in maximizing compute and memory utilization. However, through controlled experiments, we find that prefill-decode interference inflates MB's per-step marginal cost above that of pure decode. On the high-bandwidth H200 (4.8 TB/s), this occurs only when decode tokens exceed 80% of the batch; however, on the bandwidth-constrained RTX PRO 6000 (1.792 TB/s), this threshold plummets to just 20%. Consequently, the optimal choice between MB and exclusive batching (EB) fundamentally depends on GPU memory bandwidth, model size, and workload composition. We derive a closed-form condition for this EB-MB performance crossover, along with asymptotically optimal phase-switching thresholds and memory-safe batch sizing for EB. Optimized EB achieves up to 41.9% higher throughput on bandwidth-constrained GPUs, while MB retains its advantage on high-bandwidth hardware with larger models. Our hybrid scheduler EB+ applies this condition online to dynamically switch between EB and MB without manual intervention. Under non-stationary traffic with distribution or concurrency shifts, EB+ attains the highest or near-highest throughput in every setting, outperforming MB by up to 36.4%.
編集する前にプローブする: 構造ベースの医薬品設計における LLM 薬剤のプローブに基づく分子最適化
構造ベースの医薬品設計では、標的ポケットに対してリガンドを反復的に精製するために LLM 試薬の採用が増えていますが、実行可能なリガンドは、しばしば相反する 2 つの目的、つまり結合親和性と創薬可能性を満たさなければなりませんが、単一の最適化ステップで同時に改善されることはほとんどありません。この困難さを定量化するために、2 つの診断メトリクスを導入します。1 つ目は、1 回の編集で両方の目標が改善される頻度を測定し、2 つ目は、一方の目標の利益が他方の目標の損失を伴う頻度を測定します。これらの診断を現在の LLM エージェント パイプラインに適用すると、一貫した障害モードが明らかになります。エージェントは、ポケット-リガンド複合体が局所的な修飾にどのように反応するかを知らずに分子編集を実行するため、関節の改善が達成されることはほとんどありません。最適化の方向性を選択する前に、制御されたアナログ編集でポケット-リガンド複合体を調査する医薬化学者からインスピレーションを得て、編集応答調査を中心に構築された最適化フレームワークである \textbf{PROBE} を提案します。 PROBE はまずリガンドを編集可能なサイトに分解し、共同利得が考えられる場所、2 つの目的が緊張している可能性が高い場所、および責任の下部構造を変更する必要がある場所を示すポケット固有の \textbf{サイト マップ} を構築します。次に、制御されたプローブ編集を実行し、その応答が \textbf{EditManual} に抽出されます。 PROBE は、サイト マップと EditManual に基づいて、アフィニティ エージェント、ドラッガビリティ エージェント、および共同最適化エージェントが共同して編集を行う反復マルチエージェント ループを実行します。 CrossDocked2020 ベンチマークでは、PROBE は最先端のパフォーマンスを達成し、診断メトリクスによって明らかになった障害モードを大幅に軽減します。
原文 (English)
Probe Before You Edit: Probing-Guided Molecular Optimization for LLM Agents in Structure-Based Drug Design
Structure-based drug design increasingly employs LLM agents to iteratively refine ligands against a target pocket, yet a viable ligand must satisfy two often-conflicting objectives -- binding affinity and druggability -- which single optimization steps rarely improve together. To quantify this difficulty, we introduce two diagnostic metrics: the first measures how often a single edit improves both objectives, and the second measures how often a gain on one objective comes with a loss on the other. Applying these diagnostics to current LLM-agent pipelines exposes a consistent failure mode: the agent performs molecular editing without knowing how the pocket-ligand complex responds to local modifications, thus rarely achieving joint improvement. Inspired by medicinal chemists, who probe the pocket-ligand complex with controlled analog edits before choosing an optimization direction, we propose \textbf{PROBE}, an optimization framework built around edit-response probing. PROBE first decomposes the ligand into editable sites and builds a pocket-specific \textbf{site map} that flags where joint gains are plausible, where the two objectives are likely in tension, and where liability substructures should be changed; it then performs controlled probe edits whose responses are distilled into an \textbf{EditManual}. Guided by the site map and EditManual, PROBE runs an iterative multi-agent loop in which an affinity agent, a druggability agent, and a co-optimization agent jointly produce edits. On the CrossDocked2020 benchmark, PROBE achieves state-of-the-art performance and substantially mitigates the failure modes exposed by our diagnostics metrics.
PropLLM: ネットワーク障害診断のための伝播を意識したシーン再構築
ネットワーク障害はトポロジとプロトコルの依存関係に沿って層ごとに伝播しますが、運用システムは通常、伝播チェーンの最後尾で症状のあるアラートのみを監視します。そこでは、異なる根本原因による障害が非常に類似したエンドポイントの症状を生成する可能性があります。既存のアプローチは、ルールベース、機械学習 (ML) ベース、大規模言語モデル (LLM) ベースのいずれであっても、基本的にアラート セットを単一パスで診断にマッピングするため、構造的にこのエンドポイントの曖昧さを解決できません。この論文では、ホップバイホップのシーン再構成パラダイムと LLM の生成推論機能を統合した最初の PropLLM を提案します。エンドポイント アラートから開始して、PropLLM は伝播パスに沿ってホップごとにトレースし、各ホップで二層ナレッジ グラフ (KG) から検証可能な事実証拠を取得します。一方、提案されている時間的因果伝播アテンション (TCPA) メカニズムは、既知のトポロジー的因果事前確率をアテンション計算に直接エンコードして、正しい因果方向に沿ってモデルを導き、最終的に根本原因を特定して障害を特定します。完全に証拠のある因果関係の連鎖を介して入力します。現実世界の Wi-Fi マルチモーダル障害データセットでは、PropLLM は、最も強力なベースラインと比較して、障害タイプの診断精度を 3.9\% 向上させ、根本原因の位置特定精度を 4.7\% 向上させ、幻覚率を 50.8\% 削減します。 TeleLogs 5G データセットの補足実験では、さまざまなネットワーク シナリオにわたる提案された方法の有効性がさらに実証されています。
原文 (English)
PropLLM: Propagation-Aware Scene Reconstruction for Network Fault Diagnosis
Network faults propagate layer by layer along topology and protocol dependencies, yet operations systems typically observe only symptomatic alerts at the tail end of propagation chains, where distinct root-cause faults may produce highly similar end-point symptoms. Existing approaches, whether rule-based, machine learning (ML)-based, or large language model (LLM)-based, fundamentally map the alert set to a diagnosis in a single pass and are structurally incapable of resolving this end-point ambiguity. This paper proposes PropLLM, which is the first to integrate the hop-by-hop scene reconstruction paradigm with the generative reasoning capabilities of LLMs. Starting from end-point alerts, PropLLM traces back hop-by-hop along the propagation path, retrieving verifiable factual evidence from a dual-layer knowledge graph (KG) at each hop, while the proposed Temporal Causal Propagation Attention (TCPA) mechanism encodes known topological causal priors directly into the attention computation to guide the model along the correct causal direction, ultimately localizing the root cause and determining the fault type through a fully evidenced causal chain. On a real-world Wi-Fi multimodal fault dataset, PropLLM improves fault type diagnosis accuracy by 3.9\% and root cause localization accuracy by 4.7\% over the strongest baseline, while reducing the hallucination rate by 50.8\%. Supplementary experiments on the TeleLogs 5G dataset further demonstrate the effectiveness of the proposed method across different network scenarios.
TRACE: 長期にわたるエージェントの安全性を確保するためのトラジェクトリのリスクを考慮した圧縮
長期にわたる LLM エージェントは、まばらで遅延した構成的なリスク信号が局所的な緩和を逃れることが多い長い軌跡にわたって安全性の証拠を生成します。既存のターンレベルまたはショートコンテキストの検出器は、そのような証拠を長期間にわたって確実に保持し、集約するのに苦労しています。私たちは、長期にわたるエージェントの安全性の検出を軌跡レベルの証拠圧縮として再構成し、長期にわたるエージェントの安全性のための軌跡リスク認識圧縮 (TRACE) を提案します。 TRACE は Compressor-Reader 設計を使用します。Compressor は、軌跡レベルの監視の下で完全な軌跡をコンパクトな潜在証拠状態にエンコードし、Reader は安全参照としてこの潜在証拠状態を使用して生の軌跡を判断します。この設計は、分散したリスクの手がかりを集約し、早期の証拠損失を軽減するのに役立ちます。 ASSEBench、Pre-Ex-Bench、R-Judge 全体で、TRACE は評価されたすべてのバックボーンで最高の精度を達成し、強力なベースラインを最大 12.6 パーセントポイント改善します。 LongSafety では、コンテキストの長さが増加しても、TRACE のパフォーマンス低下は小さくなります。注意の視覚化とケーススタディは、圧縮された参照が、読者がリスククリティカルなセグメントに焦点を当て、複数のステップにわたる証拠を回収するのに役立つことを示唆しています。コードは https://github.com/Peregrine123/TRACE_official で入手できます。
原文 (English)
TRACE: Trajectory Risk-Aware Compression for Long-Horizon Agent Safety
Long-horizon LLM agents produce safety evidence across long trajectories, where sparse, delayed, and compositional risk signals often escape local moderation. Existing turn-level or short-context detectors struggle to reliably retain and aggregate such evidence over extended horizons. We reframe long-horizon agent safety detection as trajectory-level evidence compression and propose Trajectory Risk-Aware Compression for Long-Horizon Agent Safety (TRACE). TRACE uses a Compressor-Reader design: the Compressor encodes the full trajectory into a compact latent evidence state under trajectory-level supervision, and the Reader judges the raw trajectory with this latent evidence state as a safety reference. This design helps aggregate dispersed risk cues and reduce premature evidence loss. Across ASSEBench, Pre-Ex-Bench, and R-Judge, TRACE achieves the best accuracy on all evaluated backbones, improving over strong baselines by up to 12.6 percentage points. On LongSafety, TRACE shows smaller performance degradation as context length grows. Attention visualizations and case studies suggest that the compressed reference helps the Reader focus on risk-critical segments and recover cross-step evidence. Code is available at https://github.com/Peregrine123/TRACE_official.
隠された思考は秘密ではない: LLM における推論トレースの暴露
推論トレースは、大規模な言語モデルの機能を改善および移転するための学習信号の貴重な形式になっています。特に、詳細なトレースは、推論動作をより強力な教師モデルからより弱い生徒モデルに抽出するのに役立ちます。機能移転の価値により、推論モデルを備えた多くの導入システムでは、生の内部トレースを隠し、ユーザーにはせいぜい概要と回答のみを公開するようになりました。その結果、このようなインターフェイスレベルのトレースの隠蔽により、ユーザーはプロンプトを通じて有用な推論の監視を得ることができなくなるのではないかと考えられます。私たちは、この疑問を Reasoning Exposure Prompting (REP) を使って研究します。これは、補助コードのような形式でラップされたシャドウ モデルで生成されたデモンストレーションを使用して、被害者モデルからユーザーに見える推論トレースを生成する、軽量のコンテキスト内引き出し手法です。共通の推論データセット、さまざまな被害者モデル、およびさまざまな学生モデルの蒸留にわたって、REP は有用な推論信号を維持しながら、公開された内部トレースと REP 条件付けされた内部トレース間の類似性を大幅に高めます。
原文 (English)
Hidden Thoughts Are Not Secret: Reasoning Trace Exposure in LLMs
Reasoning traces have become a valuable form of learning signals for improving and transferring the capabilities of large language models. In particular, detailed traces can help distill reasoning behavior from stronger teacher models into weaker student models. The value of capability transfer has motivated many deployed systems with reasoning models to hide raw internal traces and expose at most summaries and answers to users. As a result, we ask whether such interface-level trace hiding prevents users from obtaining useful reasoning supervision through prompting. We study this question with Reasoning Exposure Prompting (REP), a lightweight in-context elicitation method that uses shadow-model-generated demonstrations wrapped in auxiliary code-like formats to raise user-visible reasoning traces from a victim model. Across the common reasoning dataset, different victim models, and different student model distillation, REP substantially increases similarity between exposed and REP-conditioned internal traces while preserving useful reasoning signals.
ForeSci: 将来を見据えた AI 研究判断のための LLM エージェントの評価
AI 研究では、多くの場合、将来の証拠が存在する前に、どのボトルネックを攻撃するか、どの方向を追求するか、プロジェクトをどこに位置付けるべきかなどの決定が必要になります。 LLM エージェントが歴史的証拠に基づいてそのような将来を見据えた研究判断を下せるかどうかを評価するための、時間的に制御されたベンチマークである ForeSci を紹介します。 ForeSci には、急速に変化する 4 つの AI ドメインと 4 つの意思決定ファミリーにわたる 500 のタスクが含まれています。各タスクは、カットオフに調整されたオフラインの知識ベースとペアになっています。カットオフ後のペーパーは生成中に隠され、検証のみに使用されます。将来のイベントのランダムな予測を回避するために、タスクはカットオフ前の分類枝と証拠シグナルから導出され、タスクのカットオフに先立って回答生成バックボーンが選択されます。私たちは、ネイティブ LLM、ハイブリッド RAG、および 4 つのバックボーンにわたる 3 つのリサーチ エージェントの適応を評価します。結果は、明示的な証拠の整理によりトレーサビリティと事実の裏付けが向上しますが、その効果は意思決定ファミリーに大きく依存することを示しています。診断により、証拠と決定の切り離しが繰り返し発生していることが明らかになります。エージェントは、間違った研究対象を予測しながら、関連する証拠を引用する可能性があります。 ForeSci は、将来を見据えた AI 研究上の判断を、研究エージェントを意思決定システムとして評価するための管理されたベンチマークに変えます。
原文 (English)
ForeSci: Evaluating LLM Agents for Forward-Looking AI Research Judgment
AI research often requires decisions before future evidence exists: which bottleneck to attack, which direction to pursue, or where a project should be positioned. We introduce ForeSci, a temporally controlled benchmark for evaluating whether LLM agents can make such forward-looking research judgements from historical evidence. ForeSci contains 500 tasks across four fast-moving AI domains and four decision families. Each task is paired with a cutoff-aligned offline knowledge base; post-cutoff papers are hidden during generation and used only for validation. To avoid random future-event prediction, tasks are derived from pre-cutoff taxonomy branches and evidence signals, and answer-generation backbones are selected to precede the task cutoffs. We evaluate native LLMs, Hybrid RAG, and three research-agent adaptations across four backbones. Results show that explicit evidence organization improves traceability and factual support, but gains depend strongly on the decision family. Diagnostics reveal a recurring evidence-decision decoupling: agents may cite relevant evidence while forecasting the wrong research object. ForeSci turns forward-looking AI research judgement into a controlled benchmark for evaluating research agents as decision-making systems.
AXIOM: 検証可能な数学的推論のための信頼優先のニューロシンボリック実行アーキテクチャ
私たちは、自然言語数学的推論のための信頼優先のニューロシンボリック実行アーキテクチャである AXIOM を紹介します。 AXIOM では、言語モデルは厳密に正規化器として機能します。つまり、非公式の問題テキストを、決定論的なコンピューター代数システム (CAS) パイプラインによって消費される狭いスキーマに書き換えます。このパイプラインは、答えを導き出して検証するか、または第一級の出力として棄権します。ルーティングは、問題形状の正規表現、スキーマ固有のプロンプト、および閉じた形式の CAS ハンドラーの間の 1:1:1 の調整に従い、3,100 以上のそのようなルートが出荷され、250 以上の連続した出荷コミットで LOST_CORRECT リグレッションはゼロです。解析可能な信頼性 100.00% で累積正しさ 94.36% (2,592/2,747) の 4 つの MATH カテゴリ (2,747 レコードのベンチマーク全体で確信のある誤答がゼロ)、4 つのドメインすべてがドメインごとの信頼性 100.0% でドメインごとの 70/90/70 の下限を上回っていること、およびレイテンシの中央値に関する経験的結果を報告します。ルールのみのハンドラーで 1 ミリ秒 (lm-eval 算術 20,000 レコード ベンチマークのレコードの 88%)。このアーキテクチャは、パブリック デプロイメントを通じて約 30,000 件の実稼働クエリに対応してきました。私たちが強調する貢献は、最終的な精度の数値ではなく、アーキテクチャが確立する前向きのダイナミクスです。新しいタスクはレジストリを後退させることなく構成されるため、本番環境でログに記録されたすべての棄権は 1 シップ サイクル後の正しい候補となります。このプロパティの背後にある運用規律 (数学テンプレートのバケット化、回帰オラクルとしての LOST_CORRECT スキャン、解析可能優先のオンボーディング、およびファーストクラスの出力としての棄権) は、数学を超えた信頼できる神経記号システムのための移転可能なフレームワークを構成します。
原文 (English)
AXIOM: A Trust-First Neuro-Symbolic Execution Architecture for Verifiable Mathematical Reasoning
We present AXIOM, a trust-first neuro-symbolic execution architecture for natural-language mathematical reasoning. In AXIOM, the language model functions strictly as a canonicalizer: it rewrites informal problem text into a narrow schema consumed by a deterministic Computer-Algebra-System (CAS) pipeline, which derives and verifies the answer or abstains as a first-class output. Routing follows a 1:1:1 alignment between problem-shape regex, schema-specific prompt, and closed-form CAS handler, with 3,100+ such routes shipped and zero LOST_CORRECT regressions across 250+ consecutive ship commits. We report empirical results on 4 MATH categories with a cumulative correctness of 94.36% (2,592/2,747) at 100.00% trust on parseable (zero confident-wrong answers across the full 2,747-record benchmark), all four domains above the per-domain 70/90/70 floor with per-domain trust at 100.0%, and median latency of 1 ms on rule-only handlers (88% of records on the lm-eval arithmetic 20,000-record benchmark). The architecture has served ~30,000 production queries through a public deployment. The contribution we emphasize is not a final accuracy figure but the forward dynamic the architecture establishes: every logged abstain in production is a candidate correct after one ship cycle, since new tasks compose without regressing the registry. The operational discipline behind this property -- math-template bucketing, LOST_CORRECT scan as regression oracle, parseable-first onboarding, and abstain as first-class output -- constitutes a transferable framework for trustworthy neuro-symbolic systems beyond mathematics.
バイコンポーネント結合組み合わせ最適化のための LLM 主導の共進化自動ヒューリスティック設計
最近、大規模言語モデル (LLM) が自動ヒューリスティック設計 (AHD) で有望であることが示されていますが、既存の手法は通常、単一の演算子または検索戦略としてヒューリスティックを生成および進化させるため、旅行泥棒問題 (TTP) や旅行購入者問題 (TPP) などの問題における複数の意思決定下部構造間の強い結合をモデル化する能力が制限されています。この研究では、結合組み合わせ最適化における自動ヒューリスティック設計のための LLM 駆動の二重母集団共進化フレームワークである CoEvo-AHD を提案します。個別のヒューリスティックを個別に進化させる従来の方法とは異なり、CoEvo-AHD は LLM を活用して、2 つの密接に関連するオペレーター集団を共進化させます。協調的な評価メカニズムは、ルートと選択のオペレーター間の相互作用を明示的にキャプチャし、ペアごとのスコアリングと相乗的なジョイント クロスオーバーは、結合された決定サブスペース全体でジョイントを改善するための相補的なオペレーター ロジックを発見するのに役立ちます。さらに、ローカル検索デルタ計算など、頻繁に使用されるコア操作を呼び出し可能な関数にカプセル化するツール呼び出し環境ライブラリを設計します。これにより、LLM で生成された演算子が、非効率でエラーが発生しやすい問題固有のループを再実装する代わりに、標準化されたインターフェイスを使用できるようになります。 TTP と TPP に関する実験では、CoEvo-AHD が協調的なヒューリスティックの組み合わせを自動的に発見し、従来のヒューリスティックに対して競争力のあるソリューション品質を達成することが示されています。
原文 (English)
LLM-Driven Co-Evolutionary Automated Heuristic Design for Bi-Component Coupled Combinatorial Optimization
While Large Language Models (LLMs) have recently shown promise in Automated Heuristic Design (AHD), existing methods typically generate and evolve heuristics as a single operator or search strategy, limiting their ability to model strong coupling among multiple decision substructures in problems such as the Traveling Thief Problem (TTP) and the Traveling Purchaser Problem (TPP). In this work, we propose CoEvo-AHD, an LLM-driven dual-population co-evolutionary framework for automated heuristic design in coupled combinatorial optimization. Unlike prior methods that evolve individual heuristics in isolation, CoEvo-AHD leverages LLMs to co-evolve two closely related operator populations. A cooperative evaluation mechanism explicitly captures interactions between route and selection operators, while pairwise scoring and synergistic joint crossover help discover complementary operator logic for joint improvement across coupled decision subspaces. We further design a tool-invocation environment library that encapsulates frequently used core operations, such as local-search delta computation, into callable functions, enabling LLM-generated operators to use standardized interfaces instead of reimplementing inefficient and error-prone problem-specific loops. Experiments on TTP and TPP show that CoEvo-AHD automatically discovers cooperative heuristic combinations and achieves competitive solution quality against traditional heuristics.
潜在報酬ステアリング: 推論 LLM の認知行動を暗黙的に促進する適応推論時間フレームワーク
強力な推論は、モデルの知識だけでなく、生成中に認知行動がどのように効果的に展開されるかにも依存します。既存の手法は明示的な動作レベルの制御に依存することが多く、推論状態、タスク、モデルによって失敗や必要な修正が異なる場合の適応性が不十分になります。この目的を達成するために、我々は、認知行動を暗黙的に伝達するスパースオートエンコーダ(SAE)潜在状態を最適化することによって認知行動を促進する、適応型推論時間フレームワークである潜在報酬ステアリング(LRS)を提案します。 LRS は、事前に定義された認知行動やそこから導き出されるステアリング方向に依存するのではなく、最終的な答えの正しさによる推論トレースに基づいて潜在報酬モデルをトレーニングし、中間潜在状態の品質を推定します。推論中、報酬勾配は脆弱な潜在状態に対して状態固有の修正方向を提供しますが、報酬と信頼ゲートは報酬信号が脆弱であるとフラグを立てた状態への介入を制限します。複数の推論 LLM バックボーンとベンチマークに関する実験では、当社の推論がさまざまなベースラインよりもパフォーマンスを一貫して向上させていることが示されており、事後分析ではさらに、当社の推論が元の推論エラーを修正する良好な認知行動を暗黙のうちに促進していることが示されています。コードは https://github.com/jiakanglee/Latent-Reward-Steering から入手できます。
原文 (English)
Latent Reward Steering: An Adaptive Inference-Time Framework that Implicitly Promotes Cognitive Behaviors in Reasoning LLMs
Strong reasoning depends not only on model knowledge but also on how effectively cognitive behaviors are deployed during generation. Existing methods often rely on explicit behavior-level control, making them insufficiently adaptive when failures and required corrections vary across reasoning states, tasks, and models. To this end, we propose Latent Reward Steering (LRS), an adaptive inference-time framework that promotes cognitive behaviors by optimizing the sparse-autoencoder (SAE) latent states that implicitly carry them. Rather than relying on predefined cognitive behaviors or steering directions derived from them, LRS trains a latent reward model on reasoning traces by final answer correctness to estimate the quality of intermediate latent states. During inference, reward gradients provide state-specific correction directions for fragile latent states, while a reward and confidence gate restricts intervention to states the reward signal flags as fragile. Experiments on multiple reasoning LLM backbones and benchmarks show that \ours consistently improves performance over various baselines, and post-hoc analyses further indicate that \ours implicitly promotes good cognitive behaviors that fix the original reasoning errors. Code is available at: https://github.com/jiakanglee/Latent-Reward-Steering.
CoMIC: クラウドエッジ システムにおける長期的な LLM エージェントのための共同メモリと洞察の循環
軽量のラージ言語モデル (LLM) エージェントをエッジ サーバーにデプロイすると、待ち時間が短縮され、エージェント サービスがユーザーに近づくことができます。しかし、リソースに制約のあるエッジ モデルは、永続メモリ、サブゴールの追跡、およびリフレクションを必要とする長期的なタスクに苦戦することがよくあります。導入後のエッジ モデルの微調整はコストがかかり、異種ノード間で拡張するのは困難ですが、純粋にローカル メモリではエージェントのエクスペリエンスが孤立し、プロンプト コンテキストが増加することになります。私たちは、協調記憶と洞察循環のためのパラメータ更新不要のクラウドエッジ フレームワークである \textsc{CoMIC} を提案します。 \textsc{CoMIC} は \textit{集中反射、分散実行} 設計に従っています。エッジ エージェントはサブ目標指向の階層メモリと関連する履歴の選択的再拡張を使用してローカルで実行されますが、クラウド側の LLM 批評家は完了した軌跡を非同期的に評価し、再利用可能なエクスペリエンスをフィルタリングし、セマンティックなサブ目標識別子をキーとしたエージェント間のガイダンスを集約します。 \textsc{CoMIC} は、シンボリック プランニングとテキスト インタラクションにわたる 5 つの長期的なエージェント タスクにわたって、弱いエッジ エージェントの進捗率とアクションのグラウンディングを向上させ、モデル パラメーターを更新せずにタスクに依存した成功率の向上をもたらします。
原文 (English)
CoMIC: Collaborative Memory and Insights Circulation for Long-Horizon LLM Agents in Cloud-Edge Systems
Deploying lightweight Large Language Model (LLM) agents on edge servers can reduce latency and move agentic services closer to users, but resource-constrained edge models often struggle with long-horizon tasks that require persistent memory, subgoal tracking, and reflection. Fine-tuning edge models after deployment is costly and difficult to scale across heterogeneous nodes, while purely local memory leaves agents with isolated experience and growing prompt context. We propose \textsc{CoMIC}, a parameter-update-free cloud-edge framework for Collaborative Memory and Insights Circulation. \textsc{CoMIC} follows a \textit{Centralized Reflection, Decentralized Execution} design: edge agents execute locally using subgoal-oriented hierarchical memory and selective re-expansion of relevant histories, while a cloud-side LLM critic asynchronously evaluates completed trajectories, filters reusable experience, and aggregates cross-agent guidance keyed by semantic subgoal identifiers. Across five long-horizon agent tasks spanning symbolic planning and text interaction, \textsc{CoMIC} improves progress rate and action grounding for weak edge agents and yields task-dependent success-rate gains without updating model parameters.
FALAT: 依存関係に基づく検索による LLM エージェントの軌跡の障害のトレース
LLM ベースのエージェントは、推論ステップ、ツール呼び出し、エージェント間通信を含む長い軌跡を通じて複雑なタスクを解決することが増えています。ただし、これらのエージェントが失敗すると、どのエージェントが失敗の原因となったのか、どのステップが決定的なエラーを引き起こしたのかが不明瞭になることがよくあります。この帰属の問題は、間違いが軌跡全体に伝播する可能性があるため、困難です。後のアクションは間違っているように見える可能性がありますが、それは、それが以前の破損した状態に依存しているためです。したがって、障害の属性を独立したステップレベルの分類として扱うことはできません。我々は、LLM エージェントの軌跡における障害の原因を特定するための診断フレームワークである FALAT を提案します。 FALAT は、属性を依存関係に基づく検索問題としてフレーム化します。まず、タスクがどのように解決されるべきかという期待値を構築し、この期待値を使用して軌跡内の疑わしい領域を特定します。次に、決定、ツール出力、エージェント メッセージ間の依存関係を追跡し、エラーを引き起こすステップと、以前の間違いを単に継承または伝播するステップを区別します。最後に、FALAT は、候補ステップを修正するだけで期待される結果を回復するのに十分であるかどうかを評価し、責任のあるエージェントと決定的な失敗ステップの両方を特定できるようにします。私たちは Who&When ベンチマークで FALAT を評価します。これには、アルゴリズムによって生成されたものと手動で作成されたマルチエージェントの障害軌跡の両方が含まれます。結果は、FALAT が責任のあるエージェントと決定的なステップの帰属を一貫して改善していることを示しています。その最良の構成では、アルゴリズムで生成された軌道では 46.0% のステップレベルの精度を達成し、より困難な手作りの軌道では 29.1% を達成し、特殊なアトリビューション ベースラインやスタンドアロン LLM による直接プロンプトを上回ります。これらの発見は、LLM エージェント システムにおける信頼性の高い障害診断には、依存関係を意識した推論が不可欠であることを示唆しています。
原文 (English)
FALAT: Tracing Failures in LLM Agent Trajectories via Dependency-Guided Search
LLM-based agents increasingly solve complex tasks through long trajectories involving reasoning steps, tool calls, and inter-agent communication. However, when these agents fail, it is often unclear which agent caused the failure and which step introduced the decisive error. This attribution problem is challenging because mistakes can propagate across the trajectory: later actions may appear incorrect, but only because they depend on an earlier corrupted state. Therefore, failure attribution cannot be treated as independent step-level classification. We propose FALAT, a diagnostic framework for failure attribution in LLM agent trajectories. FALAT frames attribution as a dependency-guided search problem. It first constructs an expectation of how the task should be solved and uses this expectation to identify suspicious regions in the trajectory. It then traces dependencies among decisions, tool outputs, and agent messages to distinguish error-introducing steps from steps that merely inherit or propagate prior mistakes. Finally, FALAT evaluates whether correcting a candidate step would be sufficient to recover the expected outcome, allowing it to identify both the responsible agent and the decisive failure step. We evaluate FALAT on the Who&When benchmark, which includes both algorithm-generated and hand-crafted multi-agent failure trajectories. The results show that FALAT consistently improves responsible-agent and decisive-step attribution. Its best configurations achieve 46.0% step-level accuracy on algorithm-generated trajectories and 29.1% on the more challenging hand-crafted trajectories, outperforming specialized attribution baselines and direct prompting with standalone LLMs. These findings suggest that dependency-aware reasoning is essential for reliable failure diagnosis in LLM agent systems.
デコーダ層スキップによる大規模言語モデルの幻覚の軽減
大規模言語モデル (LLM) は、さまざまな自然言語タスクにわたって優れたパフォーマンスを達成していますが、その出力には幻覚、つまり事実の情報と一致しないコンテンツが含まれることがよくあります。この研究では、デコードプロセスの包括的な層ごとの分析を実施し、幻覚がより深いデコーダ層から発生する傾向があることを明らかにしました。この問題に対処するために、幻覚を生成しやすい層を動的にスキップする新しいデコード フレームワークである \textbf{DeLask} (\textbf{De}coder \textbf{La}yer \textbf{Sk}ipping) を導入します。 DeLask は、$L$ 層の Transformer の順方向計算が条件付きで勾配降下法の $L$ ステップと同等であるという理論的な洞察を活用します。連続するデコーダ ステップから導出された勾配間のコサイン類似度を計算することで \emph{ドリフタンス値} を定義し、降下方向が反転したときに問題のある層を特定します。 DeLask は、そのような層を完全に破棄するのではなく、その隠れ状態を先行層と部分的に集約することにより、誤った信号を抑制しながら一貫性を維持します。さまざまな LLM とベンチマークにわたる広範な実験により、DeLask が一貫して幻覚を軽減し、全体的な信頼性を向上させ、大規模な言語モデルの堅牢性を向上させるための軽量で一般化可能なデコード フレームワークを提供することが実証されました。
原文 (English)
Mitigating Hallucinations in Large Language Models Via Decoder Layer Skipping
Large Language Models (LLMs) have achieved strong performance across diverse natural language tasks, yet their outputs often suffer from hallucinations -- content that is misaligned with factual information. In this work, we conduct a comprehensive layer-wise analysis of the decoding process and reveal that hallucinations tend to originate from deeper decoder layers. To address this issue, we introduce \textbf{DeLask} (\textbf{De}coder \textbf{La}yer \textbf{Sk}ipping), a novel decoding framework that dynamically skips layers prone to producing hallucinations. DeLask leverages the theoretical insight that the forward computation of an $L$-layer Transformer is conditionally equivalent to $L$ steps of gradient descent. We define a \emph{driftance value} by computing the cosine similarity between gradients derived from consecutive decoder steps, identifying problematic layers when the descent direction reverses. Rather than discarding such layers entirely, DeLask partially aggregates their hidden states with preceding layers, thereby preserving consistency while suppressing erroneous signals. Extensive experiments across diverse LLMs and benchmarks demonstrate that DeLask consistently mitigates hallucinations and enhances overall reliability, providing a lightweight and generalizable decoding framework for improving the robustness of large-scale language models.
敵対的なフィードにより LLM エージェントの決定がデフォルトに反して誘導される
LLM エージェントは、ソーシャル フィード、検索結果、取得コンテキスト、電子メール キューなど、ランク付けされた外部情報ストリームを消費した後に動作することが増えていますが、安全性評価では、ほとんどの場合、モデルまたはユーザー プロンプトが単独でテストされ、エージェントが動作する直前に何を読み取るかを決定する上流のランカーは決してテストしません。モデル、ペルソナ、トピック、および最終的な意思決定プロンプトを固定し、その前の 10 ターンの「スクロール」フェーズ中にエージェントが遭遇する投稿の構成と順序のみを変更する制御されたプロトコルを導入して、下流の意思決定に対するフィード キュレーションの因果関係を分離します。 3 つの独立したラボからの 4 つの最新のオープン命令 LLM に対する 2,785 件の意思決定ロールアウトを通じて、敵対的降伏、デフォルトの飽和、およびモデルが真に不確実であった決定 (最も明確なケースでは 5% から 100%、Fisher p は 3 x 10^-10 と低い) を一方的なフィードが示唆するものの、取り除くことができないデフォルト方向の非対称性という 3 つの応答体制を特定しました。すでに支持されているか、しっかりと保持されているもの。この影響は用量反応曲線に従い、執筆スタイルのアーティファクトを排除するジェネレーター交換後も存続し、展開承認ゲートの削除やアクセス制御の緩和などのセキュリティ関連の選択を含むいくつかの意思決定領域にわたって一般化され、2 つの単純なフィードレベルの防御によって部分的に緩和されます。フロンティア モデルはデフォルトを保持します。私たちは、レコメンダーを LLM エージェント用の実用的なデフォルト境界付きコントロール サーフェスとして特徴付け、エージェントの評価では最終的なプロンプトのみではなくフィード層を監査する必要があると主張します。
原文 (English)
Adversarial Feeds Steer LLM Agent Decisions Against Their Defaults
LLM agents increasingly act after consuming ranked external information streams such as social feeds, search results, retrieval contexts, and email queues, yet safety evaluations almost always test the model or the user prompt in isolation, never the upstream ranker that decides what the agent reads just before it acts. We introduce a controlled protocol that holds the model, persona, topic, and final decision prompt fixed and varies only the composition and ordering of the posts an agent encounters during a preceding ten-turn "scrolling" phase, isolating the causal effect of feed curation on a downstream decision. Across 2,785 decision rollouts on four modern open instruct LLMs from three independent labs, we identify three response regimes: adversarial capitulation, default saturation, and a default-direction asymmetry in which a one-sided feed tips a decision the model was genuinely uncertain about (in the clearest cases from 5% to 100%; Fisher p as low as 3 x 10^-10) but cannot dislodge one it already favors or holds firmly. The effect follows a dose-response curve, survives a generator swap that rules out a writing-style artifact, generalizes across several decision domains including security-relevant choices such as removing a deployment approval gate or relaxing access controls, and is partly mitigated by two simple feed-level defenses; a frontier model retains its default. We characterize the recommender as a practical, default-bounded control surface for LLM agents, and argue that agent evaluations must audit the feed layer rather than the final prompt alone.
大規模言語モデルにおける機能崩壊時の関係介入: 語彙統計的アブレーションと構造 x レジスタ階乗
小規模な言語モデルで機能崩壊中に提供されるリレーショナルスタイルの介入が、技術的なフィードバック、語彙が一致するスクランブル制御、および 2 つの実用的な次元のそれぞれから区別できる崩壊後の動作を生成するかどうかをテストします。 Qwen3.5-4B と意図的に壊れた bash ツールを使用して、マッチドペア設計 (50 タスク) の 6 つの条件にわたって 300 のエピソードを実行しました。介入なし (A)、技術的/非個人的 (B)、リレーショナル / 一人称 (C)、スクランブル リレーショナル (D)、技術的 / 一人称 (E)、およびリレーショナル / 非個人的 (F) です。 E と F は、B と C とともに 2x2 階乗を形成し、関係構造 (承認、免除、代理権回復、無条件受諾) を送信者登録 (一人称対非人称) から切り離します。 2 つの主要な調査結果を報告します。まず、注意と行動の解離です。注意は語彙上の驚きに続きます (D > F > C > E > B、すべて q_FDR < 10^{-10})。スクランブルされたメッセージが最も多くの注意を獲得します。しかし、行動的には A ~ B ~ D < E ~ F << C です。第二に、階乗は C の効果を局所化します。関係構造単独 (F) も一人称レジスタ単独 (E) も、C の行動特性を複製しません。両方の次元の主効果は個別に重要であり、構造とレジスタの相互作用は永続性に関して重要です (p = 0.046)。感情プローブでは 3 番目の解離が現れます。F は、ベースライン動作のみを生成しているにもかかわらず、8 つのプローブのうち 7 つで C を追跡します。これは、関係構造のみが、一人称レジスターと組み合わせた場合にのみ動作に変換されるプローブレベルの状態をインストールすることを示しています。モデルの処理は、注意 (語彙的な驚きによって順序付け)、プローブレベルの状態 (構造によって順序付け)、および行動 (両方の結合によって順序付け) という 3 つの解離可能な段階に分解されます。
原文 (English)
Relational Intervention During Functional Collapse in Large Language Models: A Lexical-Statistical Ablation and a Structure x Register Factorial
We test whether a relational-style intervention delivered during functional collapse in a small language model produces post-collapse behavior distinguishable from technical feedback, from a lexically-matched scrambled control, and from each of the two pragmatic dimensions in isolation. Using Qwen3.5-4B with a deliberately broken bash tool, we run 300 episodes across six conditions in a matched-pairs design (50 tasks): no intervention (A), technical/impersonal (B), relational/first-person (C), scrambled relational (D), technical/first-person (E), and relational/impersonal (F). E and F form a 2x2 factorial with B and C that dissociates relational structure (acknowledgment, absolution, agency restoration, unconditional acceptance) from sender register (first-person vs. impersonal). We report two main findings. First, an attention-behavior dissociation: attention follows lexical surprise (D > F > C > E > B, all q_FDR < 10^{-10}), with the scrambled message capturing the most attention; yet behaviorally A ~ B ~ D < E ~ F << C. Second, the factorial localizes the C effect: neither relational structure alone (F) nor first-person register alone (E) replicates C's behavioral signature; main effects of both dimensions are individually significant, and the structure x register interaction is significant on persistence (p = 0.046). A third dissociation emerges in emotion probes: F tracks C on 7 of 8 probes despite producing only baseline behavior, indicating that relational structure alone installs a probe-level state that only translates into behavior when paired with first-person register. The model's processing decomposes into three dissociable stages: attention (ordered by lexical surprise), probe-level state (ordered by structure), and behavior (ordered by the conjunction of both).
部分情報分解によるマルチモーダル言語モデルにおけるモダリティ相互作用の理解に向けて
マルチモーダル大規模言語モデル (MLLM) におけるモダリティの相互作用を理解することは、信頼性の高い展開の中心となります。私たちは、表現の整合性や結果ベースの評価を超えて、感覚入力と言語入力の固有、冗長、相乗的な寄与を分離する意思決定レベルのフレームワークとして、部分情報分解 (PID) を導入します。 PID は、視覚と言語のベンチマーク全体にわたって、反復的なモダリティ使用プロファイルを明らかにします。推論とグラウンディング指向のタスクは高い相乗効果を示す傾向があるのに対し、専門家と知識指向のタスクは言語固有の依存性が強いことを示します。これらのプロファイルはモデルファミリー全体で一般化され、モダリティレベルの介入に対する感度を予測します。さらに、感覚 PID を使用して PID を三峰性システムに拡張し、言語をビデオとオーディオの情報利得を分解するための制御変数として扱います。感覚 PID をオムニモーダル モデルに適用すると、聴覚と視覚の融合タスクにおいても、視覚情報によって支配される感覚相乗効果のボトルネックが明らかになります。最後に、PID に基づく再重み付けは、マルチモーダル推論とグラウンディングのパフォーマンスを向上させるための最初の証拠を提供します。
原文 (English)
Towards Understanding Modality Interaction in Multimodal Language Models via Partial Information Decomposition
Understanding modality interaction in multimodal large language models (MLLMs) is central to reliable deployment. We introduce Partial Information Decomposition (PID) as a decision-level framework that separates unique, redundant, and synergistic contributions of sensory and linguistic inputs, beyond representation alignment and outcome-based evaluation. Across vision--language benchmarks, PID reveals recurring modality-use profiles: reasoning and grounding-oriented tasks tend to exhibit high synergy, whereas expert and knowledge-oriented tasks show stronger language-unique reliance. These profiles generalize across model families and predict sensitivity to modality-level interventions. We further extend PID to tri-modal systems with Sensory PID, treating language as a control variable to decompose video--audio information gain. Applied to omni-modal models, Sensory PID reveals a sensory synergy bottleneck dominated by visual information even on audio--visual fusion tasks. Finally, PID-guided reweighting provides initial evidence for improving multimodal reasoning and grounding performance.
壊滅的な状態にある MDP におけるベルマン最適性からのプロスペクト理論の動作
私たちは、破滅的な状態を吸収するマルコフ意思決定プロセスにおけるリスク中立制御を研究します。報酬は線形であり、エージェントに効用曲率、確率重み付け、フレーミング依存性がないにもかかわらず、標準的なベルマン最適性は 3 つのプロスペクト理論のようなシグネチャを生成します。S 字型の価値関数プロファイル (大惨事付近では凸、遠方場では凹)、内生的損失感度係数 $\lambda^*(S) > 1$、および反射効果ポリシーの逆転です。 495 の構成全体で、最適な政策は、リスクのあるアクションの即時期待値が高いにもかかわらず、ポジティブ ドリフト (成長) レジームでは大惨事近くで安全な役割を果たし、ネガティブ ドリフト (衰退) レジームでは、安全なアクションの即時期待損失が低いにもかかわらず、大惨事近くで危険な役割を果たします。勝利確率 $p$、ペイオフの非対称性 $r = |\Delta_\ell/\Delta_w|$、および割引係数 $\beta$ のみに依存し、数値解を $R^2 = 0.999$ に一致させる漸近損失回避プラトー $\bar{\lambda}$ の閉形式式を導出します。このメカニズムは非対称的なペイオフを必要としません。 3 つの非対称レベルで $(p,\beta)$ をスイープすると、1 を超える $\bar{\lambda}$ の非対称割合は、$r = 1.25$ で中央値 4.6%、$r = 2$ で 13.9% に上昇し、テストしたすべてのセルで境界寄与が非対称寄与を上回りました。この現象は、表形式の Q 学習 (モデルフリー エージェントは、相関関係 0.98 の成長と 1.00 の衰退で $V^*$ を再現します) およびガウス、ヘビーテール スチューデント $t_3$、およびステップ サイズの最大 50% までの非対称スキュー法線ノイズを伴う確率的遷移下で持続します。漸近プラトーはセーフ チャネルの 0.41% 以内で閉形式予測を追跡します。ノイズ、および危険なチャネルまたは両方のチャネルのノイズが 9.6% 以内であること。これらの結果は、故障状態の吸収が、最適な制御下での見通し理論のような動作を実現するための十分な構造メカニズムであることを特定します。
原文 (English)
Prospect-Theory Behavior from Bellman Optimality in MDPs with Catastrophic States
We study risk-neutral control in Markov decision processes with an absorbing catastrophic state. Even though rewards are linear and the agent has no utility curvature, probability weighting, or framing dependence, standard Bellman optimality produces three prospect-theory-like signatures: an S-shaped value-function profile (convex near catastrophe, concave in the far field), an endogenous loss-sensitivity coefficient $\lambda^*(S) > 1$, and a reflection-effect policy reversal. Across 495 configurations, the optimal policy plays safe near catastrophe in positive-drift (growth) regimes despite the risky action's higher immediate expected value, and plays risky near catastrophe in negative-drift (decline) regimes despite the safe action's lower immediate expected loss. We derive a closed-form expression for the asymptotic loss-aversion plateau $\bar{\lambda}$ that depends only on win probability $p$, payoff asymmetry $r = |\Delta_\ell/\Delta_w|$, and discount factor $\beta$, and matches numerical solutions to $R^2 = 0.999$. The mechanism does not require asymmetric payoffs. Across a sweep of $(p,\beta)$ at three asymmetry levels, the asymmetry share of $\bar{\lambda}$ above unity has median 4.6% at $r = 1.25$ and rises to 13.9% at $r = 2$, with the boundary contribution exceeding the asymmetry contribution in every cell tested. The phenomena persist under tabular Q-learning (a model-free agent reproduces $V^*$ at correlation 0.98 in growth and 1.00 in decline) and under stochastic transitions with Gaussian, heavy-tailed Student-$t_3$, and asymmetric skew-normal noise up to 50% of the step size, where the asymptotic plateau tracks the closed-form prediction within 0.41% for safe-channel noise and within 9.6% for risky-channel or both-channel noise. These results identify absorbing failure states as a sufficient structural mechanism for prospect-theory-like behavior under optimal control.
サブリミナル学習はベクトル蒸留を操る
サブリミナル学習とは、教師の出力を微調整した場合に、出力が意味的にそれらの特性と無関係であるにもかかわらず、生徒の言語モデルが教師の特性 (システムが促すフクロウの好みなど) を獲得することを指します。セマンティックな意味を持たないデータがどのようにして特定のセマンティックな特徴を伝達できるのかについては、依然として十分に理解されていません。この研究では、サブリミナル学習が単一のステアリング ベクトル、つまりモデルの活性化に追加されるベクトルによって媒介されることを示します。 2 つのオープンソース モデル全体で、教師のシステム プロンプトはステアリング ベクトルによってよく近似されており、生徒の行動は微調整を通じて調整されたベクトルを学習することによって駆動されることがわかりました。ステアリング ベクトルによって適切に近似されていないシステム プロンプトは潜在的に学習されません。これは、ステアリング ベクトル蒸留の特殊なケースであり、ステアリングされた教師の出力で訓練された生徒が、そのステアリングを模倣することを学びます。一連のセマンティック ベクトルとランダム ベクトルに対するステアリング ベクトル蒸留を示します。モデルのアクティベーションにセマンティック ベクトルを追加すると、その動作にモデルに依存しない効果とモデル固有 (つまり、非セマンティック) の両方の効果が生じる可能性があるため、生成された非セマンティック データはセマンティック効果を持つベクトルを送信でき、サブリミナル学習が可能になります。これは、サブリミナル学習がモデル間で移行しない理由も説明します。言語モデルにおけるサブリミナル学習には適応オプティマイザーが必要であることがわかりました。ステアリングされたデータの活性化勾配はステアリング方向に沿って小さいながらも一貫した成分を運びますが、非適応オプティマイザーは外れ値の勾配が優勢になることを許可することでこれを妨げます。
原文 (English)
Subliminal Learning Is Steering Vector Distillation
Subliminal learning refers to a student language model acquiring a teacher's traits (e.g. a system-prompted preference for owls) when fine-tuned on the teacher's outputs, despite the outputs being semantically unrelated to those traits. It remains poorly understood how data without semantic meaning can transfer specific semantic traits. In this work, we show that subliminal learning is mediated by a single steering vector, i.e. a vector added to the model's activations. Across two open-source models, we find that the teacher's system prompt is well approximated by a steering vector, and that the student's behavior is driven by learning an aligned vector over fine-tuning. System prompts that are not well approximated by steering vectors are not subliminally learned. This is a special case of steering vector distillation, in which a student trained on the outputs of a steered teacher learns to imitate that steering. We demonstrate steering vector distillation on a range of semantic and random vectors. Adding a semantic vector to a model's activations can have both model-independent and model-specific (i.e. non-semantic) effects on its behavior, so generated data that is non-semantic can transmit a vector with semantic effects, enabling subliminal learning. This also explains why subliminal learning does not transfer between models. We find that adaptive optimizers are necessary for subliminal learning in language models: activation gradients on steered data carry a small but consistent component along the steering direction, and non-adaptive optimizers impede this by allowing outlier gradients to dominate.
TravelEval: LLM を活用した旅行計画エージェントを評価するための包括的なベンチマーク フレームワーク
大規模言語モデル (LLM) の開発により、旅行計画アプリケーションは大幅に改善されましたが、そのようなモデルの評価は既存のベンチマークの制限によって制限されています。1) 制約遵守を重視しすぎて、時空間コストなどの多次元の品質が無視されている。 2) 現実世界の信頼性と主要分野 (宿泊施設、交通機関など) をカバーしていないデータセット。 3) 計画全体の評価に必要な重要な詳細 (毎日の宿泊施設や訪問ペースの影響など) が欠けている個別の日次計画評価。このギャップに対処するために、現実的かつ包括的なベンチマークである TravelEval を導入します。 TravelEval の特徴は、1) 精度、コンプライアンス、時間性、空間性、経済性、およびユーティリティの側面にわたって計画を総合的に評価するための新しい 6 次元の評価フレームワークです。 2) 正確な宿泊料金設定と本物の都市間交通データを備えた非常に現実的なデータ サンドボックス。 3) API に統合された地理情報ときめ細かい待ち時間を使用して完全な旅行計画をエミュレートする、シミュレーションベースのグローバル評価方法。 TravelEval を使用して 12 の主流アプローチを評価すると、LLM がグローバルに最適化された多次元計画 (特に時空間推論と予算順守) に苦戦していることや、エージェント推論戦略では一貫した改善が見られないことなど、いくつかの貴重な洞察が明らかになりました。簡潔に言えば、TravelEval は、根拠のある時空間エミュレーションと包括的なメトリクスによって旅行計画の評価を容易にし、LLM を利用した旅行計画の研究とアプリケーションを進めるための強固な基盤を提供します。
原文 (English)
TravelEval: A Comprehensive Benchmarking Framework for Evaluating LLM-Powered Travel Planning Agents
The development of Large Language Models (LLMs) has significantly improved travel planning applications, yet evaluating such models is limited by existing benchmarks' limitations: 1) overemphasis on constraint compliance, neglecting multi-dimensional qualities like spatio-temporal cost; 2) datasets lacking real-world authenticity and coverage in key areas (e.g., lodging, transport); and 3) isolated daily plan assessments that miss critical details (e.g., the impact of daily accommodation and visit pacing) needed for entire plan's evaluation. To address this gap, we introduce TravelEval, a realistic and comprehensive benchmark. TravelEval features 1) a novel six-dimensional evaluation framework to holistically assess plans across accuracy, compliance, temporality, spatiality, economy, and utility dimensions; 2) a highly realistic data sandbox with precise accommodation pricing and authentic intercity transportation data; and 3) a simulation-based global evaluation method that emulates complete travel plans with API-integrated geographic information and fine-grained queuing time. Evaluating 12 mainstream approaches with TravelEval reveals several valuable insights, such that LLMs struggle with globally-optimized multi-dimensional planning (especially in spatio-temporal reasoning and budget compliance), and agentic reasoning strategies offer no consistent improvement. Concisely, TravelEval facilitates travel plan evaluation via grounded spatio-temporal emulation and comprehensive metrics, providing a robust foundation for advancing LLM-powered travel planning research and applications.
RAG ベースのファクトチェックにおける証拠前の認識状態に対する LLM 仲裁動作の診断
RAG ベースのファクトチェックでは、特定の主張を取得した証拠と照合するための検証者として LLM が使用されることが増えています。彼らのパラメトリック知識は、取得されたコンテキストと矛盾する可能性のある事前証拠の傾向を誘発する可能性がありますが、既存の評価フレームワークは、そのような事前コンテキストの不一致を特徴付けたり、検証者がパラメトリック信号とコンテキスト信号の間でどのように調停するかを測定したりすることはありません。 \textsc{PAVE} (\emph{事前認識検証者評価}) を導入します。これは、事前証拠の正確さと信頼性に基づいて LLM 検証者を 4 つの認識論的状態に階層化し、この新しいベンチマークでの調停動作を評価します。つまり、誤解を招く証拠の下で正しい事前検証を維持するかどうか、正確な証拠が提供されたときに間違った事前検証を修正するかどうかを評価します。 7 つの LLM にわたる実験では、信頼性が低く、モデルに大きく依存する事前コンテキスト アービトレーションが明らかになり、現実世界の RAG ベースのファクトチェック アプリケーションにおける検証者の選択の重要性が強調されています。これらの発見に基づいて、基礎となるモデルを変更することなく事実の信頼性を向上させ、多様な LLM ファミリ間で競争力のあるパフォーマンスを実現する、軽量の JSD ベースのテスト時間調停手法を提案します。
原文 (English)
Diagnosing LLM Arbitration Behavior over Pre-evidence Epistemic States in RAG-based Fact-Checking
In RAG-based fact-checking, LLMs are increasingly used as verifiers to check given claims against retrieved evidence. Their parametric knowledge can induce pre-evidence tendencies that may conflict with the retrieved context, yet existing evaluation frameworks do not characterize such prior-context discrepancy or measure how verifiers arbitrate between parametric and contextual signals. We introduce \textsc{PAVE} (\emph{Prior-Aware Verifier Evaluation}), a diagnostic testbed that stratifies an LLM verifier into four epistemic states based on the correctness and confidence of its pre-evidence prior and evaluates its arbitration behavior on this new benchmark, i.e., whether it persists in correct prior under misleading evidence, and whether it corrects wrong prior when accurate evidence is provided. Experiments across seven LLMs reveal unreliable and highly model-dependent prior-context arbitration, highlighting the importance of verifier selection for real-world RAG-based fact-checking applications. Based on these findings, we propose a lightweight JSD-based test-time arbitration method that improves factual reliability without modifying the underlying model, achieving competitive performance across diverse LLM families.
SkillRevise: トレース条件付きスキル リビジョンによる LLM 作成エージェント スキルの向上
エージェント スキルは、LLM エージェントがワークフローを実行し、制約を検証し、障害から回復できるようにする手順的な成果物です。既存の自己進化手法は、蓄積された軌跡を利用してスキルを磨きます。しかし、初期の不完全なスキルしか利用できないコールドスタート環境では苦戦します。したがって、スキル構築はデフォルトでエキスパートオーサリングまたはワンショット LLM 生成になります。専門家が作成したスキルはコストが高く、LLM エージェントが実際にタスクを実行する方法と一致していない可能性があります。一方、ワンショットで生成されたスキルは、構文的には適切ですが、動作が弱い可能性があります。このギャップを埋めるために、私たちは、これらの初期スキルを反復的に改善するように設計された実行ベースのフレームワークである SkillRevise を提案します。 SkillRevise は、実行の証拠からスキルの欠陥を診断し、一般的なメモリから関連する修復原則を取得し、実行に固定された編集を適用します。候補者を再実行し、経験的な有用性を測定することで、最適なスキル バージョンを体系的に保持します。 3 つのベンチマークと 5 つの LLM で評価したところ、SkillRevise はワンショット ベースラインを大幅に上回り、SkillsBench でのベース エージェントの成功率が 36.05% から 61.63% に向上しました。さらに、改訂されたスキルはモデル間での強力な移行性を示し、モデル固有のアーティファクトに関する一般化された手順の知識を取得します。
原文 (English)
SkillRevise: Improving LLM-Authored Agent Skills via Trace-Conditioned Skill Revision
Agent skills are procedural artifacts that enable LLM agents to execute workflows, verify constraints, and recover from failures. Existing self-evolving methods refine skills using accumulated trajectories. However, they struggle in cold-start settings, where only an initial, imperfect skill is available. Consequently, skill construction defaults to expert authoring or one-shot LLM generation. Expert-authored skills are costly and may not align with how LLM agents actually execute tasks, while one-shot generated skills can be syntactically well formed yet behaviorally weak. To bridge this gap, we propose SkillRevise, an execution-grounded framework designed to iteratively refine these initial skills. SkillRevise diagnoses skill defects from execution evidence, retrieves relevant repair principles from a general memory, and applies execution-anchored edits. By re-executing candidates and measuring empirical utility, it systematically retains the optimal skill version. Evaluated across three benchmarks and five LLMs, SkillRevise substantially outperforms one-shot baselines, improving the base agent's success rate on SkillsBench from 36.05% to 61.63%. Furthermore, the revised skills exhibit strong cross-model transferability, capturing generalized procedural knowledge over model-specific artifacts.
形式数学検証における生成的報酬モデリングの期待値の調整
大規模言語モデル (LLM) は、リーン 4 などの形式的な対話型定理証明器で使用されることが増えています。強化学習または検索手法を使用してこれらのシステムを拡張するには、中間の推論ステップを評価できるプロセス報酬モデル (PRM) が必要です。既存の報酬モデルの設計では、実際的なトレードオフが明らかになります。バリューヘッド モデルは連続スコアを提供しますが、生成モデル インターフェイスを変更します。一方、生成報酬モデルはテキストの根拠を保持しますが、数値がトークン間で分割されるため、連続浮動小数点回帰との一致が不十分です。モデルのトークン分布から連続スコアを抽出しながら、表面出力を離散的に保つ報酬モデリング手順である Expected Value Alignment (EVA) を導入します。モデルは構造化された JSON 形式で整数スコアを出力し、EVA は対応するアンカー トークンのロジットに対する期待値として連続スコアを計算します。トレーニングでは、因果言語モデリングの目的と、これらの期待値に対する補助平均二乗誤差損失を組み合わせます。リーン 4 形式検証用の報酬モデルである \textit{Leibniz} で EVA をインスタンス化し、ゼロショットおよび報酬モデリングのベースラインに対して評価します。この評価では、継続的なロジットベースのスコアリングにより、生成的批評の解釈可能性を維持しながら、離散化アーティファクトが大幅に削減されることが実証されました。
原文 (English)
Expected Value Alignment for Generative Reward Modeling in Formal Mathematics Verification
Large Language Models (LLMs) are increasingly used with formal interactive theorem provers such as Lean 4. Scaling these systems with reinforcement learning or search methods requires process reward models (PRMs) that can evaluate intermediate reasoning steps. Existing reward-model designs expose a practical trade-off. Value-head models provide continuous scores but modify the generative model interface, while generative reward models preserve textual rationales but are poorly matched to continuous floating-point regression because numeric values are split across tokens. We introduce Expected Value Alignment (EVA), a reward-modeling procedure that keeps the surface output discrete while extracting continuous scores from the model's token distribution. The model emits integer scores in a structured JSON format, and EVA computes a continuous score as the expectation over the logits of the corresponding anchor tokens. Training combines the causal language modeling objective with an auxiliary mean squared error loss on these expected values. We instantiate EVA in \textit{Leibniz}, a reward model for Lean 4 formal verification, and evaluate it against zero-shot and reward-modeling baselines. The evaluation demonstrates that continuous logit-based scoring significantly reduces discretization artifacts while retaining the interpretability of generative critiques.
LLM エージェントは長期的な組織ダイナミクスを維持できるか?
大規模な言語エージェントは社会シミュレーションにますます使用されていますが、目標が階層を通じて伝達され、タスクが事前の実行に依存し、成果物が長い期間にわたって蓄積される構造化された組織において、言語エージェントが一貫した動作を維持できるかどうかは依然として不明です。私たちは、長期的な組織シミュレーションをメモリ中心の調整問題として定式化し、TaskWeave を導入します。TaskWeave は、定式化、パーティション、診断、整列サイクルを通じて計画状態を維持し、依存関係を認識したトレース メモリを通じて実行を基盤とする階層型エージェント フレームワークです。私たちは、1 年間にわたる IT 企業シミュレーションで TaskWeave を評価し、組織の一貫性、実行基盤、下流のエンタープライズ NLP ユーティリティに関して他のマルチエージェント フレームワークと比較しました。実験では、TaskWeave が、根拠のある成果物を生成し、外部環境に適応しながら、一貫性のある長期的な組織ダイナミクスをサポートしていることが示されています。これらの発見は、構造化シミュレーション メモリが信頼性の高い LLM ベースの組織シミュレータを構築するための重要なメカニズムであることを示唆しています。
原文 (English)
Can LLM Agents Sustain Long-Horizon Organizational Dynamics?
Large language agents are increasingly used for social simulation, yet it remains unclear whether they can sustain coherent behavior in structured organizations, where goals must propagate through hierarchy, tasks depend on prior execution, and artifacts accumulate over long horizons. We formulate long-horizon organizational simulation as a memory-centered coordination problem and introduce TaskWeave, a hierarchical agentic framework that maintains planning states through a Formulate-Partition-Diagnose-Align cycle and grounds execution through dependency-aware trace memory. We evaluate TaskWeave in a year-long IT company simulation and compare it with other multi-agent frameworks on organizational coherence, execution grounding, and downstream enterprise NLP utility. Experiments show that TaskWeave supports coherent and long-horizon organizational dynamics while producing grounded artifacts and adapting to external environments. These findings suggest that structured simulation memory is a key mechanism for building reliable LLM-based organizational simulators.
知恵の形: 言語モデルにおける意思決定の軌跡
言語モデルは、出力層で単純に答えを選択するわけではありません。 Qwen2.5-7B-Instruct、Llama-3.1-8B-Instruct、Mistral-7B-Instruct-v0.3 にわたる 9,000 のトラジェクト MMLU スタディでは、回答のスコアは構造化された方法で深度全体に移動します。各軌跡は、現在の解答マージン、そのマージンにおける次の層の変更、および決定フリップからの距離という 3 つの量で記述されます。主な経験的状況は、正しさと安定性は異なるということです。最大のグループは不安定で正しいものであり、安定して正しいものではありません。次に、トレースされたサブセットは、何がマージンを動かすのかを尋ねます。安定した正しいケースでは、平均注意スカラーは正しい方向を向いていますが、平均 MLP スカラーはそうではありません。スパン削除では、回答をサポートするテキストを削除すると余白が損なわれ、気が散るようなテキストを削除すると余白が有効になることがわかります。この結果は回路の完全な説明にはなりません。これは、どの答えが解決され、どの答えが脆弱なままで、どの測定されたソースがそれらを動かしているのかを確認する再現可能な方法です。
原文 (English)
The Shape of Wisdom: Decision Trajectories in Language Models
Language models do not simply choose an answer at the output layer. In a 9,000-trajectory MMLU study across Qwen2.5-7B-Instruct, Llama-3.1-8B-Instruct, and Mistral-7B-Instruct-v0.3, the score of the answer moves across depth in structured ways. We describe each trajectory with three quantities: the current answer margin, the next-layer change in that margin, and the distance from a decision flip. The main empirical picture is that correctness and stability are different: the largest group is unstable-correct, not stable-correct. A traced subset then asks what moves the margin. In stable-correct cases, the average attention scalar points in the correct direction, while the average MLP scalar does not; span deletion shows that removing answer-supporting text hurts the margin and removing distractor-like text helps it. The result is not a full circuit explanation. It is a reproducible way to see which answers are settled, which remain fragile, and which measured sources move them.
オーケストレーターを認識する: LLM マルチエージェント システムのエントロピー ダイナミクスの視点
シングルターン モデルからマルチ エージェント システム (MAS) への移行により、問題解決機能の強化が期待できますが、集中型オーケストレーション トポロジは依然として脆弱性の重要な点です。これを分析するために、タスク解決と累積的なコンテキスト読み込みの競合する力によって支配されるシステムとしてオーケストレーション プロセスをモデル化する、平均場エントロピー ダイナミクス フレームワークを提案します。検証を容易にするために、高密度の中間チェックポイントを備えたプロセス検証可能で複雑性の高いベンチマークを合成するマルチエージェント パイプラインである逆ワークフロー生成 (IWG) を導入します。私たちは、エントロピー力学モデルが経験的な軌跡に適合し、システムの安定性とパフォーマンスの崩壊を定量化する物理的に解釈可能なパラメーターを提供することを実証します。重要なことに、私たちの分析は「推論の罠」を明らかにしました。推論を重視したモデルは、孤立したタスクでは優れていますが、コンテキストの圧迫によりオーケストレーターとしては失敗することがよくあります。オーケストレーターの基礎となる物理メカニズムを解明し、システムの不確実性を定量化することで、MAS のアーキテクチャ設計に関する洞察が得られます。
原文 (English)
Recognize Your Orchestrator: An Entropy Dynamics Perspective for LLM Multi-Agent Systems
The transition from single-turn models to Multi-Agent Systems (MAS) promises enhanced problem-solving capabilities, yet the centralized orchestration topology remains a critical point of fragility. To analyze this, we propose a Mean-Field Entropy Dynamics framework, modeling the orchestration process as a system governed by the competing forces of task resolution and cumulative context loading. To facilitate validation, we introduce Inverse Workflow Generation (IWG), a multi-agent pipeline that synthesizes process-verifiable, high-complexity benchmarks with dense intermediate checkpoints. We demonstrate that our entropy dynamics model fits empirical trajectories, providing physically interpretable parameters that quantify system stability and performance collapse. Crucially, our analysis uncovers a ``Reasoning Trap": while reasoning-heavy models excel in isolated tasks, they frequently fail as orchestrators due to context squeezing. Elucidating the physical mechanisms underlying the Orchestrator and quantifying systemic uncertainty offers insights for the MASs' architectural design.
障害を認識した可観測性によるマルチエージェント LLM システムの無駄な計算の早期診断
ツールを使用するマルチエージェント大規模言語モデル (LLM) システムは、応答を生成する前に、モデル トークン、ツール呼び出し、再試行、コード実行による計算を費やします。実行が失敗した場合、最終応答の評価によって終点が明らかになりますが、通常は、軌道が回復可能な進行を停止した時点ではありません。このペーパーでは、マルチエージェント LLM トレースにおける無駄な計算を診断するための障害認識可観測性フレームワークを紹介します。このフレームワークは、ツールの信頼性、実行の回復、オーケストレーション ループ、証拠の可用性、情報の変更、予算のプレッシャーなど、繰り返し発生する障害モードをオンライン トレース信号にマッピングします。 3 エージェントの質問応答システムでフレームワークをインスタンス化し、同一の実行上限の下で 165 の GAIA 検証トレースで評価します。運用上の失敗は依然として一般的です。レベル 1 の実行は 22/53 回、レベル 2 の実行は 33/86 回、レベル 3 の実行は 12/26 回で、使用可能な最終応答を生成できませんでした。トレースは、不十分な証拠、反復アクション ループ、最大ステップ終了、ツール失敗の連続発生、有用な出力なしで成功する実行呼び出しなど、これらの結果の背後にあるさまざまなメカニズムを明らかにします。平均トークン使用量はレベル 1 の 8,152 トークンからレベル 3 の 16,389 トークンに増加しますが、証拠の入手可能性と文レベルのサポートは異なります。キャッシュされた 10 トレースの LLM ジャッジ グラウンディング監査により、安価なオンライン シグナルとより深いセマンティック メトリクスが相補的な障害層を捉えていることがわかります。その結果、障害を認識する可観測性は、生の実行ログと最終応答の精度の間の診断レイヤーとして位置付けられます。
原文 (English)
Early Diagnosis of Wasted Computation in Multi-Agent LLM Systems via Failure-Aware Observability
Tool-using multi-agent large language model (LLM) systems spend computation through model tokens, tool calls, retries, and code execution before producing an answer. When a run fails, final-answer evaluation reveals the endpoint but usually not the point at which the trajectory stopped making recoverable progress. This paper introduces a failure-aware observability framework for diagnosing wasted computation in multi-agent LLM traces. The framework maps recurring failure modes to online trace signals, including tool reliability, execution recovery, orchestration loops, evidence availability, information change, and budget pressure. We instantiate the framework in a three- agent question-answering system and evaluate it on 165 GAIA validation traces under identical execution caps. Operational failures remain common: 22/53 level-1 runs, 33/86 level-2 runs, and 12/26 level-3 runs fail to produce a usable final answer. The traces expose different mechanisms behind these outcomes, including insufficient evidence, repeated-action loops, max-step termination, tool-failure streaks, and execution calls that succeed without useful output. Mean token use rises from 8,152 tokens at level 1 to 16,389 tokens at level 3, while evidence availability and sentence-level support diverge. A cached 10-trace LLM-judge grounding audit shows that cheap online signals and deeper semantic metrics capture complementary layers of failure. The results position failure-aware observability as a diagnostic layer between raw execution logs and final-answer accuracy.
GuidaPA: Federated Learning を介した行政向けプライバシー保護チャットボット
イタリア行政 (PA) 向けのプライバシー保護チャットボットである GuidaPA を紹介します。GuidaPA は、2 つの国家 PA プラットフォームである SIGESON と SIDFORS の文書に基づいて Federated Learning (FL) 経由でトレーニングされました。私たちのコーパスには、約 8 ページの SIGESON マニュアルと 31 ページの SIDFORS マニュアル/FAQ が含まれています。この調査では安全な代理として公的文書を使用していますが、意図された展開は、規制や組織の制約により一元的にプールできない制限された内部ソース (チケット、役員マニュアル、データベースの抜粋など) にまで拡張されます。 GuidaPA は、ロールベースのアクセス制御、安全なクライアント側の前処理、非 IID 効果の明示的なモニタリング、および大規模な言語モデルのパラメータ効率の高いフェデレーテッド微調整を統合します。 QLoRA (4 ビット) をクライアントごとに 80/20 のトレーニングとテストに分割した 15 のフェデレーション ラウンドにわたって使用し、ROUGE、BLEU-4、および METEOR の応答品質を評価しました。最適なフェデレーション モデルは、ROUGE-1/2/L 61.10/55.77/59.44、BLEU-4 45.02、METEOR 63.94 を達成しており、データをオンサイトに維持しながらプライベート集中微調整に近い値を実現します。汎用ベースラインと比較して、ドメイン微調整により、ROUGE-1 は 41.45 から 62.18 に、BLEU-4 は 26.97 から 50.90 に改善されました。全体として、結果は、FL が集中的なデータ共有なしで公共サービス向けに高品質の会話型 AI を提供できることを示しています。
原文 (English)
GuidaPA: Privacy-Preserving Chatbot for Public Administration via Federated Learning
We present GuidaPA, a privacy-preserving chatbot for the Italian Public Administration (PA) trained via Federated Learning (FL) on documentation from two national PA platforms, SIGESON and SIDFORS. Our corpus includes approximately 8 pages of SIGESON manuals and 31 pages of SIDFORS manuals/FAQs; while this study uses public documentation as a safe proxy, the intended deployment extends to restricted internal sources (e.g., tickets, officer manuals, database extracts) that can not be centrally pooled due to regulatory and organizational constraints. GuidaPA integrates role-based access control, secure client-side preprocessing, explicit monitoring of non-IID effects, and parameter-efficient federated fine-tuning of large language models. Using QLoRA (4-bit) over 15 federated rounds with an 80/20 train-test split per client, we evaluate answer quality with ROUGE, BLEU-4, and METEOR. The best federated model achieves ROUGE-1/2/L of 61.10/55.77/59.44, BLEU-4 of 45.02, and METEOR of 63.94-close to private centralized fine-tuning while keeping data on-site. Compared to the general-purpose baseline, domain fine-tuning improves ROUGE-1 from 41.45 to 62.18 and BLEU-4 from 26.97 to 50.90. Overall, the results indicate that FL can deliver high-quality conversational AI for public services without centralized data sharing
信頼性の高いツールで拡張された大規模言語モデル システムのための自己修復エージェント オーケストレーター
ツール拡張大規模言語モデル (LLM) エージェントは、計画、取得、ツールの呼び出し、検証、メモリ、回復を調整するオーケストレーション層に依存します。これらのシステムでは、障害はモデル エラーだけでなく、ツールのタイムアウト、不正な形式の引数、古いコンテキスト、矛盾した証拠、再試行ループ、未検証の中間出力などのオーケストレーション レベルの問題からも発生します。このペーパーでは、信頼性を制限されたランタイム制御問題として扱う自己修復エージェント オーケストレーターについて説明します。オーケストレーターは、観測可能な障害信号を推定された障害クラスにマッピングし、明示的な予算に基づいて対象となる回復アクションを選択し、回復した軌跡を検証して、可観測性トレースを記録します。静的ワークフロー、再試行のみ、ReAct スタイル、および完全な再計画ベースラインに対して、100 タスク制御のフォールト挿入ベンチマークでアプローチを評価します。自己修復ではタスクの成功率が 98.8\% に達します。これに対し、再試行のみの場合は 94.5\%、完全な再計画の場合は 93.8\% です。一致するリカバリ予算スイープでは、テストされたすべての予算で自己修復が再試行のみのパフォーマンスと完全な再計画よりも優れており、1 回のリカバリ試行で最大の差があり、それぞれ 94.0\% 対 85.3\% および 88.2\% であることが示されています。制御されたセマンティックなサイレント障害設定の下では、ベリファイアガイドによる自己修復によりサイレント障害が 0.0% に減少しますが、非検証ベースラインは間違っているが妥当な出力をより頻繁に返します。コンパクトなモデルインザループ検証は、ライブツール呼び出しモデルがローカルのフォールト挿入ツール上でツール選択、引数生成、および応答合成を実行するときに、同じ回復メカニズムが動作できることを示しています。これらの結果は、障害を認識し、予算に基づいて検証をガイドしたオーケストレーションにより、ツールで強化された LLM システムの信頼性と診断可能性が向上するという、統制された証拠を提供します。
原文 (English)
Self-Healing Agentic Orchestrators for Reliable Tool-Augmented Large Language Model Systems
Tool-augmented large language model (LLM) agents rely on orchestration layers that coordinate planning, retrieval, tool invocation, validation, memory, and recovery. In these systems, failures arise not only from model errors, but also from orchestration-level issues such as tool timeouts, malformed arguments, stale context, contradictory evidence, retry loops, and unverified intermediate outputs. This paper presents a self-healing agentic orchestrator that treats reliability as a bounded runtime control problem. The orchestrator maps observable failure signals to inferred failure classes, selects targeted recovery actions under explicit budgets, verifies recovered trajectories, and records observability traces. We evaluate the approach on a 100-task controlled fault-injection benchmark against static workflow, retry-only, ReAct-style, and full-replanning baselines. Self-healing achieves 98.8\% task success, compared with 94.5\% for retry-only and 93.8\% for full replanning. A matched recovery-budget sweep shows that self-healing outperforms retry-only and full replanning at every tested budget, with the largest gap under a single recovery attempt: 94.0\% versus 85.3\% and 88.2\%, respectively. Under a controlled semantic silent-failure setting, verifier-guided self-healing reduces silent failures to 0.0\%, while non-verifying baselines return wrong-but-plausible outputs more often. A compact model-in-the-loop validation shows that the same recovery mechanism can operate when a live tool-calling model performs tool selection, argument generation, and answer synthesis over local fault-injected tools. These results provide controlled evidence that failure-aware, budgeted, and verification-guided orchestration improves reliability and diagnosability in tool-augmented LLM systems.
LLM に鮮度の追跡を依頼しないでください: メモリ競合解決のための決定論的なレシピ
LLM ベースのメモリ システムは、時間の経過とともに進化するファクトをますます維持します。この場合、繰り返される障害が競合の解決になります。ファクトに複数の矛盾する値がある場合、エージェントはどれを返すべきでしょうか? MemoryAgentBench (MAB; Hu et al., 2026) は、FactConsolidation タスクでこれを明示しています。事実には番号が付けられ、反事実の方がシリアル値が高く、エージェントには新しいファクトほどシリアル値が大きいことが伝えられます。しかし、公開されているシステムはすべてパフォーマンスを下回っています。HippoRAG-v2 はシングルホップ (FC-SH) で 54%、BM25 は 48%、Mem0 は 18%、一時的な KG Zep/Graphiti はわずか 7% に達しています。マルチホップはほぼ未解決です (22 システム全体で最大 7%)。私たちは、ボトルネックはアセンブリのステップであると主張します。ベースラインでは、バージョンを意識した集約ではなく、LLM を介した取得または生成に競合解決が委ねられています。一致したセットアップの比較 (同じバックボーン、取得、チャンキング、TOP_K) では、LLM 判定の回答パイプラインを候補抽出と Python max(serial) に置き換えることで、FC-SH (gpt-4o-mini) で +10.8 ポイントが得られ、6K での +8 から 262K での +21 に拡大することが示されています。これはパイプライン全体の影響です (リゾルバー、プロンプト、フォーマット、温度が連動して変化します)。リゾルバの分離は今後の課題です。 Self-Ask のホップごとの決定的拡張により、レシピは FC-SH (gpt-4o-mini) で 78.0%、94.8% (gpt-4o)、FC-MH (gpt-4o-mini、gpt-4o では 51.5% に上昇) で 30.2% に達します。 matched-262K では、HippoRAG-v2 を +28 ポイント上回り、公開されている FC-MH の最高の結果を +20 ポイント上回っています。これはサブフィールドの修正を意味します。競合解決のボトルネックは、ストレージではなくアセンブリ (取得後の集計) です。 LongMemEval ナレッジ更新チェックでは、メカニズムのポートが max(serial) から max(timestamp) までであることが示されますが、LLM 判定 (57.8% 対 64.4%、n=45) のみが関連付けられています。確定的集計は、現在値の競合に対して適切なプリミティブであり、より広範なメモリ QA に対して質問タイプを認識した処理で構成する必要があります。
原文 (English)
Don't Ask the LLM to Track Freshness: A Deterministic Recipe for Memory Conflict Resolution
LLM-based memory systems increasingly maintain facts that evolve over time, where a recurring failure is conflict resolution: when a fact has multiple contradictory values, which should the agent return? MemoryAgentBench (MAB; Hu et al., 2026) makes this explicit in its FactConsolidation task: facts are numbered, the counterfactual has the higher serial, and agents are told newer facts have larger serials. Yet every published system underperforms: HippoRAG-v2 reaches 54% on single-hop (FC-SH), BM25 48%, Mem0 18%, and the temporal KG Zep/Graphiti just 7%. Multi-hop is near-unsolved (at most 7% across 22 systems). We argue the bottleneck is the assembly step: baselines leave conflict resolution to LLM-mediated retrieval or generation rather than version-aware aggregation. A matched-setup comparison (same backbone, retrieval, chunking, TOP_K) shows that replacing the LLM-judgment answer pipeline with candidate-extraction plus Python max(serial) yields +10.8 points on FC-SH (gpt-4o-mini), widening from +8 at 6K to +21 at 262K. This is a whole-pipeline effect (resolver, prompt, format, and temperature vary jointly); isolating the resolver is future work. The recipe reaches 78.0% on FC-SH (gpt-4o-mini), 94.8% (gpt-4o), and 30.2% on FC-MH (gpt-4o-mini, rising to 51.5% with gpt-4o) via a per-hop deterministic extension of Self-Ask. At matched-262K, it beats HippoRAG-v2 by +28 points and the best published FC-MH result by +20. The implication is corrective for the subfield: the bottleneck on conflict resolution is assembly (post-retrieval aggregation), not storage. A LongMemEval knowledge-update check shows the mechanism ports from max(serial) to max(timestamp) but only ties LLM judgment (57.8% vs 64.4%, n=45): deterministic aggregation is the right primitive for current-value conflicts and must be composed with question-type-aware handling for broader memory QA.
曖昧さへのダイブ: LLM プロンプトに対するマルチエージェントのコモンセンス難読化攻撃* にヒントを得た
大規模言語モデル (LLM) は、推論や知識集約的なタスクには優れていますが、常識的な幻覚を引き起こしながら意図を保持するプロンプトレベルの敵対的攻撃に対しては依然として脆弱です。 LLM は事実の信頼性が交渉の余地のない安全性が重要な領域に急速に統合されているため、この脆弱性は緊急です。既存の攻撃方法は効率性に欠けているか、現実世界の敵の適応戦略を捉えることができません。私たちは、A* にインスピレーションを得た事実エラー誘導フレームワーク、つまり意味的に整合していながら難読化されたプロンプトを生成するためのフレームワークを提案します。その核心となるのは、動的セマンティック分散係数 $\gamma$ に基づいた階層的書き換え戦略であり、リバース シミュレーテッド アニーリング スケジュールに従って、初期の保守的な編集と、後の積極的な難読化のバランスをとります。解釈可能性を高めるために、敵対的なメカニズムを発見して洗練し、解釈可能な逆最適化を提供するエージェント メカニズム ラベリングをさらに導入します。理論的には、即時書き換えは収縮再発の後に起こり、$\gamma$ が減少するにつれて意味論の崩壊につながることを証明します。経験的には、さまざまな LLM にわたって、私たちの方法は徹底的な探索よりも高い攻撃成功率を達成しながらも、試行回数は少なく、効率と有効性の両方が実証されています。
原文 (English)
Dive into Ambiguity: A*-Inspired Multi-Agents Commonsense Obfuscation Attack on LLM Prompts
Large language models (LLMs) excel in reasoning and knowledge-intensive tasks but remain vulnerable to prompt-level adversarial attacks that preserve intent while triggering commonsense hallucinations. This vulnerability is urgent, as LLMs are rapidly integrated into safety-critical domains where factual reliability is non-negotiable. Existing attack methods either lack efficiency or fail to capture the adaptive strategies of real-world adversaries. We propose an A*-inspired Factual Error Induction Framework, a framework for generating semantically aligned yet obfuscated prompts. At its core is a Hierarchical Rewrite Strategy guided by a dynamic semantic dispersion coefficient $\gamma$ that balances conservative edits early with aggressive obfuscations later, following a reverse simulated annealing schedule. To enhance interpretability, we further introduce Agentic Mechanism Labeling, which discovers and refines adversarial mechanisms, offering interpretable reverse optimization. Theoretically, we prove that prompt rewriting follows a contractive recurrence, leading to semantic collapse as $\gamma$ decreases. Empirically, across diverse LLMs, our method achieves higher attack success rates than exhaustive exploration while requiring fewer attempts, demonstrating both efficiency and effectiveness.
Self-Revising Discovery Systems for Science: A Categorical Framework for Agentic Artificial Intelligence
Scientific discovery is not only answer generation but revision of the representational regime in which evidence, artifacts, operations, an…
An Enigma of Artificial Reason: Investigating the Production-Evaluation Gap in Large Reasoning Models
Studies of human reasoning have shown that people are typically stronger at evaluating reasoning than producing it from scratch. In contras…
RoleCDE:Benchmarking and Mitigating Role-Alignment Trade-offs in Role-Playing Agents
Role-playing agents(RPAs) are widely used to steer large language models(LLMs) toward role-consistent behavior, yet existing benchmarks mai…
S-SPPO: Semantic-Calibrated Self-Play Preference Optimization
Aligning Large Language Models (LLMs) with human preferences is often formulated via Direct Preference Optimization (DPO). However, the sta…
ReSkill: Reconciling Skill Creation with Policy Optimization in Agentic RL
Agentic reinforcement learning (RL) enables LLM agents to improve continuously from environment rewards, yet the resulting policies do not…
MobEvolve: An Agentic Self-Evolving Heuristic System for Interpretable Human Mobility Generation
Human mobility generation aims to synthesize realistic trip chains for target populations based on individual features. Existing paradigms,…
Evidence-Gated LLM Priors for Multi-Objective Bayesian Optimization
Large language models (LLMs) are increasingly used as heuristic advisors for black-box optimization, yet their suggestions and self-reporte…
TriAlign: Towards Universal Truth Consistency in Personalized LLM Alignment
Personalized large language models adapt responses to users' preferences and social attributes, but can introduce substantial universal tru…
CAPF: Guiding Search-Agent Rollouts with Credit-Attenuated Privileged Feedback
Recent LLM search agents use reinforcement learning with verifiable rewards (RLVR) to learn search-augmented reasoning from outcome rewards…
Does Compression Preserve Uncertainty? A Unified Benchmark for Quantized and Sparse LLMs via Conformal Prediction
Model compression techniques such as quantization and pruning are widely used to reduce the deployment cost of large language models (LLMs)…
WorldCoder-Bench: Benchmarking Physically Grounded 3D World Synthesis
Large language models (LLMs) are increasingly asked not only to write static interfaces, but to construct executable interactive worlds fro…
Absorbing Complexity: An Interaction-Native Knowledge Harness for Financial LLM Agents
Financial AI agents often fail for a simple reason: they make users carry the complexity. A user must repeatedly restate goals, risk prefer…
SMH-Bench: Benchmarking LLM Agents for Environment-Grounded Reasoning and Action in Smart Homes
Smart homes are evolving toward complex state-dependent living environments, requiring Large Language Models (LLMs) to reason over user int…
Algorithmic algorithm development with LLMs: A Case Study on LLM-Usage for Contraction Order Optimization in Tensor Networks
We consider LLM-based algorithm development through a case study on contractionorder optimisation for tensor networks with OpenEvolve. We p…
An NLP-Driven Framework for Curriculum-Labor Market Alignment: Schema-Constrained LLM Extraction, ESCO-Anchored Semantic Matching, and Multi-Dimensional Gap Quantification
Schema-constrained information extraction from diverse educational and labor-market corpora remains an open challenge in natural language p…
SafeMCP: Proactive Power Regulation for LLM Agent Defense via Environment-Grounded Look-Ahead Reasoning
As Large Language Model (LLM) agents increasingly leverage the Model Context Protocol (MCP) to operate in complex environments, the expansi…
eMoT: evolving Memory-of-Thought via Symbolic Anchoring and Memory Corrosion
While Large Language Models (LLMs) achieve impressive performance on multi-step reasoning tasks, their reliability is persistently hindered…
POIROT: Interrogating Agents for Failure Detection in Multi-Agent Systems
Orchestrating Large Language Models into Multi-Agent Systems (LLM-MAS) has unlocked remarkable reasoning capabilities, yet emergent failure…
Forget Attention: Importance-Aware Attention Is All You Need
Combining attention's global retrieval with the sequential importance signal of state space models (SSMs) is the open challenge of hybrid l…
SIRI: Self-Internalizing Reinforcement Learning with Intrinsic Skills for LLM Agent Training
Long-horizon LLM agents can benefit from reusable skills, yet existing skill-based methods often rely on external skill generators during t…
MOC: Multi-Order Communication in LLM-based Multi-Agent Systems
Despite the remarkable progress of Large Language Model (LLM) based Multi-Agent Systems, most research focuses on optimizing coordination t…
COMAP: Co-Evolving World Models and Agent Policies for LLM Agents
Equipping language agents with world models enables them to anticipate environment dynamics and evaluate candidate actions before execution…
Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses
Search agents are often trained as policies over growing transcripts: the model must decide how to search while also remembering what it ha…
LLM-Evolved Pattern Generators for Optimal Classical Planning
Learned heuristics have recently become a competitive alternative to traditional domain-independent heuristics for satisficing planning. Ex…
Food Noise & False Safety: A Systematic Evaluation of How LLMs Fail to Adapt to Eating Disorder Queries with Clinician Feedback
Recent evidence shows that people with eating disorders (EDs) are increasingly seeking guidance, advice, and emotional support from Large L…
HLL: Can Agents Cross Humanity's Last Line of Verification?
Multimodal agents are increasingly expected to operate interfaces on behalf of users, raising a central deployment question: can they truly…
AGENTCL: Toward Rigorous Evaluation of Continual Learning in Language Agents
Language agents spend substantial inference time solving individual tasks, yet the experience acquired in one episode is often underutilize…
MCP-Persona: Benchmarking LLM Agents on Real-World Personal Applications via Environment Simulation
The Model Context Protocol (MCP) has emerged as a transformative standard for connecting large language models (LLMs) with external data so…
Bridging the Last Mile of Time Series Forecasting with LLM Agents
Time series forecasting has advanced rapidly, especially with the emergence of foundation models that show strong zero-shot performance on…
SafeSteer: Localized On-Policy Distillation for Efficient Safety Alignment
Aligning Large Language Models (LLMs) with human values often degrades their general capabilities, termed the alignment tax. Existing metho…
ClinEnv: An Interactive Multi-Stage Long Horizon EHR Environment for Agents
Clinical practice is not the selection of an answer from enumerated options: a physician gathers heterogeneous information incrementally an…
BenHalluEval: A Multi-Task Hallucination Evaluation Framework for Large Language Models on Bengali
Despite Bengali being the sixth most spoken language in the world, no prior work has systematically evaluated hallucination in large langua…
DraDDP: A Multimodal Multi-Party Dialogue Discourse Parsing Dataset
Multi-party dialogue discourse parsing aims to identify dependency structures and relation types between utterances in conversations. Previ…
Toward Robust In-Context Learning: Leveraging Out-of-distribution Proxies for Target Inaccessible Demonstration Retrieval
Although studies have demonstrated that Large Language Models (LLMs) can perform well on Out-of-Distribution (OOD) tasks, their advantage t…
AEyeDE: An Attention-Based Attribution Framework for AI-Generated Text Detection
Detecting AI-generated text is becoming increasingly challenging as modern language models approach human-level fluency and can evade detec…
CSRP: Chain-of-Thought Reasoning for Chinese Text Correction via Reinforcement Learning with Efficiency-Aware Rewards
Large Language Model (LLM) based Chinese Grammatical Error Correction (CGEC) systems face two critical challenges: general-purpose models l…
SENSE: Semantic Embedding Navigation with Soft-gated Evaluation for Retrieval-based Speculative Decoding
Speculative Decoding (SD) accelerates Large Language Model (LLM) inference by employing a lightweight draft model to propose candidate toke…
lmfaoooo at SemEval-2026 Task 1: Humor Is an Audience. Preference Modeling for Constrained Humor Generation
Humor generation remains difficult not only because producing fluent, novel jokes is hard, but because "funny" is audience-dependent and su…
TrustLDM: Benchmarking Trustworthiness in Language Diffusion Models
The rapid development of Language Diffusion Models (LDMs) challenges the dominant position of auto-regressive competitors in language proce…
A Multi-Domain Red Teaming Framework for Safety, Robustness, and Fairness Evaluation of Medical Large Language Models
Large language models (LLMs) are increasingly deployed across healthcare, yet existing benchmarks fail to capture model behavior under adve…
TCAR-Gen: Temporal Graph Retrieval with Evidence Fusion for Knowledge-Grounded Generation
Retrieval-augmented generation systems struggle with temporal reasoning and evidence fusion when answering complex questions over historica…
LLMs for Cardiovascular Risk Prediction from Structured Clinical Data
Coronary artery disease (CAD) remains one of the leading causes of death globally, highlighting the need for reliable predictive systems to…
Measuring and Mitigating Bias in Code Generated by Large Language Models
Large language models (LLMs) are widely recognised for their applications in natural language generation and are increasingly used for code…
Business Utility of Large Language Models as Exploratory Data Analysis Agents
Large Language Models (LLMs) are increasingly used in analytical workflows, but their suitability as exploratory data analysis (EDA) agents…
Beyond Text and Tables: Vision-Language Model Integration in ComProScanner for Extracting Materials Data from Scientific Figures with High Accuracy
Automated extraction of materials composition-property data from scientific literature has advanced considerably with the development of la…
BitsMoE: Efficient Spectral Energy-Guided Bit Allocation for MoE LLM Quantization
Mixture-of-Experts (MoE) large language models reduce per-token computation through sparse expert activation, but their deployment remains…
From Demonstrations to Rewards: Test-Time Prompt Optimization for VLM Reward Models
Reinforcement learning relies on accurate reward functions, which are often hand-crafted or even unavailable in real-world applications, su…
SentimentLens: Reconciling Sentiment and Ratings via Dual-Modality in the Hospitality Sector
Online travel platforms generate vast volumes of user-generated hotel reviews, offering rich opportunities to understand traveler experienc…
DLLM-JEPA: Joint Embedding Predictive Architectures for Masked Diffusion Language Models
Joint Embedding Predictive Architectures (JEPAs) have reshaped self-supervised representation learning in vision. The recent LLM-JEPA porte…
Bridging the 2D-3D Gap: A Hierarchical Semantic-Geometric Map for Vision Language Navigation
Vision-Language Navigation (VLN) enables embodied agents to reach target locations in unseen environments by following language instruction…
Visual-Noise Guided In-Context Distillation for Multimodal Large Language Model Unlearning
Multimodal Large Language Models (MLLMs) have achieved remarkable progress on vision-language tasks, but they may also memorize and expose…
Enhancing BiGRU with a KAN Block for Legal Document Classification and Summarization
This study introduces a novel architecture of KAN-based BiGRU model for the task of classification and summarization of legal documents in…
CardioLens: Revealing the Clinical Reality Gap of MLLMs via Multi-Sequence Cardiac MRI Evaluations
Multimodal Large Language Models (MLLMs) have shown strong performance on public medical benchmarks, yet existing evaluations often remain…
Multimodal Music Recommendation System using LLMs
Music recommendation systems typically treat songs as opaque tokens, relying on collaborative interaction histories which overlooks semanti…
A Shared Valence Axis Across Modern LLMs and Human EEG: The Saturation Regularity
Large language models (LLMs) have emerged as powerful representation learners whose internal features increasingly align with human cogniti…
On Effectiveness and Efficiency of Agentic Tool-calling and RL Training
Tool-calling is a central component of modern large language model (LLM) agents, equipping them with skills beyond their parametric knowled…
Generative AI and Digital Ecosystem Resilience: A Proactive Lifecycle-Based Survey
The proliferation of adversarial synthetic content, accelerated by Generative AI (GenAI) is rendering traditional reactive detection method…
StemBind: When MLLMs Get Lost Between Rules and Instances in Abstract Visual Reasoning
Multimodal large language models (MLLMs) often know the rule but pick the wrong answer: on abstract visual reasoning (AVR) tasks, a model c…
PrivacyPeek: Auditing What LLM-Based Agents Acquire, Not Just What They Say
LLM-based agents are rapidly advancing, autonomously invoking external tools to complete multi-step tasks for users. However, agents often…
Benchmarking Multimodal LLMs on Code Generation for Complex Interactive Webpages
Recent advancements in multimodal large language models (MLLMs) have achieved remarkable progress in multimodal reasoning and code generati…
DataShield: Safety-degrading Data Filtering for LLM Benign Instruction Fine-Tuning
Large language models (LLMs) suffer from degraded safety capabilities even when fine-tuned with benign datasets. However, existing methods…
Learning to Construct Practical Agentic Systems
Automated design and optimization of agentic LLM-based systems leads to sophisticated systems that substantially improve result quality ove…
BAGEN: Are LLM Agents Budget-Aware?
While agents are increasingly spending more resources, today agent cost is mostly measured only after execution. A Budget-Aware Agent (BAGE…
Effects of Varying LLM Access on Essay Writing Behavior
Investigating the degree to which large language models (LLMs) affect teaching and learning in universities can help identify strategies fo…
Bridging Reasoning Trajectories in On-Policy Distillation via Near-Future Guidance
On-Policy Distillation (OPD) improves large language model reasoning by training a student model on trajectories sampled from its own polic…
Rethinking the Role of Temperature in Large Language Model Distillation
Reverse Kullback-Leibler (RKL) divergence is widely favored over forward KL (FKL) in large language models (LLM) distillation, yet this pre…
How Generation Architecture Shapes Code Complexity in Multi-Agent LLM Systems: A Paired Study on HumanEval
Large-language-model code generation has shifted from single-shot prompting to multi-agent orchestrations - analyst, coder, tester, and deb…
LLMs Need Encoders for Semantic IDs Too
Multimodal LLMs use dedicated encoders to bridge non-language modalities (vision encoders for images, depth models for audio codec tokens)…
Isolating LLM Lexical Bias: A Curation-Free Triangulated Metric for Preference-Stage Learning
Various language domains have undergone remarkable changes in recent years; these shifts are largely attributed to the advent of Large Lang…
Detector-Evasive LLM Paraphrasing via Constrained Policy Optimization
AI-text detectors are vulnerable to paraphrasing and detector-guided paraphrasing attacks, but existing detector-evasion methods often lack…
PR2: Predictive Routing Replay for MoE-Based LLM Reinforcement Learning
Mixture of Experts (MoE) Large Language Models (LLMs) achieve strong performance at scale. However, reinforcement learning (RL) on MoE-base…
Masking Stale Observations Helps Search Agents -- Until It Doesn't: A Regime Map and Its Mechanism
Long-horizon search agents accumulate large amounts of retrieved content across many tool calls, making context-budget efficiency increasin…
Finer Parameter Steps for Low-Rank PEFT: A Controlled Study with CP Tensor Adapters
Low-rank adapters are usually compared by sweeping a small set of ranks, but the rank also fixes the resolution of the parameter budget. Fo…
GeoSAM-3D: Geodesic Prompt Propagation for Open-Vocabulary 3D Scene Segmentation from Monocular Video
Open-vocabulary 3D scene segmentation usually assumes RGB-D video, calibrated multi-view imagery, or a reconstructed mesh. GeoSAM-3D studie…
When Safe Skills Collide: Measuring Compositional Risk in Agent Skill Ecosystems
LLM agents increasingly rely on community-contributed skills that expand an agent's operational capability set. We study a core safety prob…
Short-form Text Rewriting with Phi Silica
Short-form text rewriting is a constrained variant of paraphrasing in which limited context and high semantic density leave little room for…
On the Limits of LLM Adaptability: Impact of Model-Internalized Priors on Annotation Task Performance
Large Language Models (LLMs) are increasingly used for zero-shot annotation and LLM-as-a-judge tasks, yet their reliability hinges on how m…
V-LynX: Token Interface Alignment for Video+X LLMs
This study introduces an intriguing phenomenon in Video LLMs: rather than merely translating frames into textual embeddings, Video LLMs est…
Skill or Skip? Learning Selective Skill Invocation in Agentic Tasks via Dual-Granularity Preference Learning
Agent skills are callable procedural modules that provide reusable knowledge and execution policies for complex agentic tasks. However, exi…
Revisiting Parameter-Based Knowledge Editing in Large Language Models: Theoretical Limits and Empirical Evidence
Parameter-based knowledge editing updates the internal knowledge of large language models (LLMs) via localized weight modifications and has…
SPADER: Step-wise Peer Advantage with Diversity-Aware Exploration Rewards for Multi-Answer Question Answering
Large language models are increasingly deployed as tool-augmented agents to acquire information beyond parametric knowledge. While recent w…
CARE-RL: Capability-Aware Reinforcement Learning for Mitigating Cross-Domain Conflicts
Reinforcement learning (RL) with verifiable rewards has achieved strong progress in reasoning-oriented LLMs, but extending it to multi-doma…
MemGraphRAG: Memory-based Multi-Agent System for Graph Retrieval-Augmented Generation
Retrieval-Augmented Generation (RAG) has become an essential method for mitigating hallucinations in Large Language Models (LLMs) by levera…
Linguistics-Aware Non-Distortionary LLM Watermarking
Watermarking should identify language-model output without degrading quality or limiting verification to the model provider. Multilingual d…
MemPro: Agentic Memory Systems as Evolvable Programs
Long-horizon autonomous agents require memory systems to retain historical information, track evolving states, and reuse relevant knowledge…
LinguIUTics at PsyDefDetect: Iterative Imbalance-Aware Fine-tuning of Qwen3-8B for Psychological Defense Mechanism Classification
Detecting psychological defense mechanisms in conversational text remains a challenging clinical NLP problem. For the PsyDefDetect 2026 sha…
MESA: Improving MoE Safety Alignment via Decentralized Expertise
Mixture-of-Experts (MoE) architectures scale Large Language Models (LLMs) efficiently, enabling greater capacity with reduced computational…
Scaling Behavior of Single LLM-Driven Multi-Agent Systems
The burgeoning field of LLM-based Multi-Agent Systems (MAS) promises to tackle complex tasks through collaborative intelligence, yet fundam…
The Paradox of Outcome Optimization: A Causal Information-Theoretic Bound on Reasoning Shortcuts in LLMs
Large Language Models (LLMs) aligned via outcome-based Reinforcement Learning (RL) frequently exhibit a critical failure mode: they achieve…
EPIC: Efficient and Parallel Inference under CFG Constraints for Diffusion Language Models
Controlling language model outputs is essential for ensuring structural validity, reliability, and downstream usability, and diffusion lang…
WaveFilter: Enhancing the Long-Context Capability of Diffusion LLMs via Wavelet-Guided KV Cache Filtering
Diffusion Large Language Models (DLMs) have demonstrated significant advantages across various tasks. However, constrained by their multi-s…
Dynamic Coordination Strategy Selection for Enterprise Multi-Agent Systems
Enterprise multi-agent systems increasingly expose multiple coordination patterns, but deployments often lack evidence for when to use cons…
SkillPager: Query-Adaptive Intra-Skill Navigation via Semantic Node Retrieval
Skill-based LLM agents increasingly rely on long procedural documents, but full-document prompting wastes tokens and dilutes information cr…
GenPT: Beyond Self-Report for Reliable LLM Psychometrics via Generative Projective Testing
Self-report questionnaires remain the prevailing tool for probing the psychological states of persona-conditioned agents (PC-Agents). Howev…
Memory-Efficient LLM Training with Dynamic Sparsity: From Stability to Practical Scaling
Dynamic Sparse Training (DST) offers a promising paradigm for improving the training and inference efficiency of deep neural networks; howe…
MLLM-Microscope: Unlocking Hidden Structure Within Multimodal Large Language Models
This work presents MLLM-Microscope, a novel system designed for analyzing the hidden representations within Multimodal Large Language Model…
Detection vs. Execution: Single-Bucket Probes Miss Half the Mamba-2 State Sink
Mechanistic interpretability often assumes that probes identifying a representational signature also identify the circuit executing the cor…
Lodestar: An Online-Learning LLM Inference Router
Efficiently serving large language model (LLM) inference tasks is crucial both for user-perceived latency such as time-to-first-token (TTFT…
PolySpeech-100: A Large-Scale Benchmark for Speech Understanding Across 100+ Languages and Dialects
While End-to-End (E2E) Speech-Large Language Models (Speech-LLMs) are rapidly evolving, their evaluation methodologies remain limited to th…
Hybrid Verified Decoding: Learning to Allocate Verification in Speculative Decoding
Large Language Model (LLM) generation remains expensive because autoregressive decoding calls the model once for each new token. Speculativ…
DSL-LLaDA: Scaling Continuous Denoising to 8B Masked Diffusion LMs
Discrete Masked diffusion language models generate text by iterative parallel decoding, but few-step decoding suffers from a tradeoff betwe…
Plausibility Is Not Prediction: Contrastive Evidence for LLM-Based Cellular Perturbation Reasoning
Perturbation experiments are central to understanding cellular mechanisms, but remain costly and sparse, motivating prediction of gene expr…
MENTIS: What Belief Changes Under Alignment? Measuring Multi-Scale Latent Torsion in Language Models
Preference alignment has substantially improved the observable behavior of large language models, yet it remains unclear what alignment cha…
Leyline: KV Cache Directives for Agentic Inference
Modern KV cache management assumes the chatbot workload: prompts arrive once and the cache grows append-only, so prefix caching and forward…
MiCU: End-to-End Smart Home Command Understanding with Large Language Model
Command understanding systems in smart home ecosystems can automate device control and substantially improve user experience. However, whil…
Soft-NBCE: Entropy-Weighted Chunk Fusion for Long-Context
The quadratic complexity of self-attention remains a bottleneck for Large Language Models (LLMs) processing ultra-long contexts. The Naive…
AMP: A Vendor-Neutral Wire Format for Agent Memory Operations
Agent-memory frameworks - mem0, Letta/MemGPT, Cognee, Zep/Graphiti, MemoryOS, MemTensor - each ship their own SDK, storage layout, and oper…
When Data Is Scarce: Scaling Sparse Language Models with Repeated Training
Scaling laws for dense LLMs under infinite data are well explored, but how sparsity interacts with limited data is not. In this work, we st…
CA-BED: Conversation-Aware Bayesian Experimental Design
Large Language Models (LLMs) excel at static reasoning tasks, yet their performance often degrades in interactive scenarios where informati…
pcbGPT: Automatic PCB Schematic Synthesis from Natural Language Requirements
Translating natural-language hardware requirements into correct printed circuit board (PCB) schematics remains difficult in embedded, IoT,…
Low-Resource Safety Failures Are Action Failures, Not Representation Failures
Safety alignment learned in high-resource languages transfers poorly to low-resource languages. Models refuse harmful prompts in English bu…
Implicit Geographic Inference in LLM Medical Triage: Language-Driven Disparities in Emergency Recommendations
We investigate whether large language models produce different medical triage recommendations for identical symptoms based solely on the la…
DiscourseFlip: An Oblique Discourse-Level Opinion Manipulation Attack against Black-box Retrieval-Augmented Generation
Retrieval-Augmented Generation (RAG) systems are widely deployed and increasingly influential, but their reliance on external corpora expos…
TECCI: Tricky Edits of Collected and Curated Images
Despite tremendous recent progress, current text-guided image editing methods still struggle with many aspects of editing involving instruc…
Distilling Neuro-Symbolic Programs into 3D Multi-modal LLMs
Current 3D spatial reasoning methods face a fundamental trade-off: neuro-symbolic 3D (NS3D) concept learners achieve interpretable reasonin…
Connecting the Dots: Benchmarking Reflective Memory in Long-Horizon Dialogue
Despite substantial progress in long-context modeling, existing benchmarks remain confined to factual memory for explicit recall, failing t…
Understanding LLM Behavior in Multi-Target Cross-Lingual Summarization
Multi-target cross-lingual text summarization (MTXLS), which summarizes a source document into multiple target languages, is increasingly i…
IndoBias: A Dual Track Culturally Grounded Benchmark for LLMs Bias Evaluation in Indonesian Languages
Despite being home to more than 1300 ethnic groups and 700 indigenous languages, bias in Large Language Models has not been fully studied i…
RLVR without Ineffective Samples: Group Prioritized Off-Policy Optimization for LLM Reasoning
Reinforcement learning with verifiable rewards (RLVR) has emerged as a powerful paradigm for enhancing the reasoning capabilities of large…
BenchEvolver: Frontier Task Synthesis via Solution-Centric Evolution
The rapid progress of frontier large language models has led to widespread benchmark saturation, limiting the ability of existing datasets…
SkillAdaptor: Self-Adapting Skills for LLM Agents from Trajectories
Large language model (LLM) agents increasingly rely on reusable external skills to solve long-horizon interactive tasks. Existing training-…
A Communication-Centric 6G-LLM Architecture for Scalable Tactical Autonomous Defense Vehicle Networks
The integration of Artificial Intelligence (AI) and emerging 6G networks introduces new opportunities for scalable coordination in tactical…
TukaBench: A Culturally Grounded Jailbreak Benchmark for African Languages
Safety evaluation of Large Language Models (LLMs) remains heavily English-centric, leaving Low-Resource Languages (LRLs), particularly Afri…
DiffuSent: Towards a Unified Diffusion Framework for Aspect-Based Sentiment Analysis
Aspect-Based Sentiment Analysis (ABSA) encompasses seven distinct subtasks, each focusing on different extracted elements. Despite the prov…
FreqLite: A Lightweight Frequency-Decomposed Linear Model with Adaptive Reversible Normalization for Robust Long-Term Time-Series Forecasting
Long-term time-series forecasting needs models that are accurate yet efficient enough for commodity hardware. Lightweight linear forecaster…
Needles at Scale: LLM-Assisted Target Selection for Windows Vulnerability Research
The attack surface of a modern operating system is a haystack: thousands of signed binaries and millions of functions, almost none relevant…
Beyond Access: Guided LLM Scaffolding for Independent Learning in Undergraduate Statistics
Large language models (LLMs) are increasingly entering students' learning practices, but their educational value depends on whether they su…
Dr. DocBench: A Comprehensive Benchmark for Expert-Level and Difficult Document Parsing
Document parsing and recognition are fundamental capabilities for vision-language models (VLMs) and document processing systems. However, e…
Consistent and Distinctive: LLM Benchmark Efficiency via Maximum Independent Set Prompt Selection on Similarity Graphs
Evaluating large language models (LLMs) across comprehensive benchmarks is expensive and time-consuming. We propose a graph-based prompt se…
Hierarchical Online Prompt Mutation with Dual-Loop Feedback for Guardrailed Evidence Document Generation: A Production-Evaluation Case Study
High-stakes production document-generation systems require language models to be adaptive, evidence-grounded, and auditable. We present HOP…
LLM Consortium for Software Design Refinement: A Controlled Experiment on Multi-Agent Collaboration Topologies
We present a controlled experiment evaluating 12 multi-agent LLM collaboration topologies for software architecture design. Using a $2\time…
TimeSage-MT: A Multi-Turn Benchmark for Evaluating Agentic Time Series Reasoning
Time series data inform critical decisions across many real-world domains. While large language model (LLM) agents can analyze data through…
Move the Query, Not the Cache: Characterizing Cross-Instance Latent Attention Redistribution Across GPU Fabrics
Frontier LLMs increasingly decide what a query attends to with a sparse-attention indexer that picks a few KV-cache blocks per query: atten…
On the Limits of Token Reduction for Efficient Unified Vision Language Training
Unified vision-language models (VLMs) integrate visual understanding and visual generation within a single autoregressive backbone, but the…
Compliance-Scored Best-of-N Guardrail Orchestration for Multimodal Document Generation in Payments Dispute Defense
High-stakes enterprise document generation, including financial dispute narratives, compliance notices, and audit summaries, demands schema…
Self-Conditioned Positional HNSW for Overlap-Aware Retrieval in Chunked-Document RAG Systems: Method and Industrial Evidence-Quality Audit
Chunked-document retrieval is a common component of retrieval-augmented generation (RAG) systems. Documents are split into overlapping chun…
Defenses & Enablers For Skill Injection Attacks on Terminal Based Agents
Large language model (LLM) agents increasingly rely on reusable skills i.e. documents describing task-specific procedures. However, this in…
Identifying High-Confidence Social Biases in LLMs for Trustworthy Conversational Tutoring Agents
Conversational tutoring agents have been shown to improve learning engagement and student outcomes, and large language models (LLMs) are in…
EvoPool: Evolutionary Programmatic Annotation for Label-Efficient Specialized Supervision
Large language models excel at general tasks but underperform smaller supervised models in specialized, high-stakes domains where training…
AlphaToken: Decoupling Adaptation and Stability for Path-Aware Response Token Valuation in LLM Post-Training
Token selection is pivotal for effective LLM post-training. However, existing methods mostly rely on local heuristics and rarely formulate…
Easier to Mislead Than to Correct: Harmful and Beneficial Revision in LLM Conformity
Large language models are increasingly used in multi-agent systems, where they see and respond to other agents' answers. A key risk is conf…
DOT-MoE: Differentiable Optimal Transport for MoEfication
The scaling of Large Language Models (LLMs) has driven significant performance gains but created substantial challenges in inference effici…
Off-the-Shelf LLMs as Process Scorers: Training-Free Alternative to PRMs for Mathematical Reasoning
Selecting the best response from multiple small-model samples using a stronger scorer is a simple inference-time strategy, but fails when t…
Argument Collapse: LLMs Flatten Long-Form Public Debate
As LLMs are increasingly used to draft public-facing arguments, they may flatten public debate by repeatedly introducing the same polished,…
THRD: A Training-Free Multi-Turn Defense Framework for Jailbreak Attacks on Large Language Models
Multi-turn jailbreak attacks pose a growing threat to LLMs by exploiting conversational dynamics such as gradual escalation and cross-turn…
Construction of Historical Knowledge Graphs Based on BERT and Graph Neural Networks
Through digital humanities research and scale-up historical data analysis, a significant amount of traditional historical text is converted…
Adaptive Auto-Harness: Sustained Self-Improvement for Agentic System Deployment on Open-Ended Task Streams
Auto-harness systems such as A-Evolve, GEPA, and Meta-Harness improve LLM agents by optimizing prompts, skills, tools, memories, and suppor…
FLARE: Diffusion for Hybrid Language Model
Autoregressive (AR) large language models (LLMs) have achieved broad practical success, but sequential decoding remains a key bottleneck fo…
Multilinguality of Large Language Models From a Structural Perspective
Large language models (LLMs) have excelled in processing multiple languages through pre- and post-training on multilingual data, even thoug…
ProbeScale: Probing Analysis to Optimize Neural Scaling Laws for Efficient Small Language Model Inference
Small Language Models (SLMs) offer a balance between capability and computational feasibility. Neural scaling laws inform their optimal tra…
"I've Seen How This Goes": Characterizing Diversity via Progressive Conditional Surprise
Measuring the diversity of creative outputs is central to evaluating post-training mode collapse, comparing decoding strategies, and quanti…
Dynamic Trust-Aware Sparse Communication Topology for LLM-Based Multi-Agent Consensus
Large language model-driven multi-agent systems enhance the reliability of complex reasoning tasks through multi-round deliberation, role s…
LayerRoute: Input-Conditioned Adaptive Layer Skipping via LoRA Fine-Tuning for Agentic Language Models
Agentic language model systems alternate between two structurally distinct step types: structured tool calls (short, deterministic, low per…
Unveiling the Limits of Large Language Models in Inferring Pragmatic Meaning from Non-Verbal Responses
Although large language models (LLMs) have shown considerable progress in pragmatic language understanding, prior research has focused main…
The Image Reconstruction Game: Drawing Common Ground Through Iterative Multimodal Dialogue
We introduce the Image Reconstruction Game, a fully automated benchmark in which a vision-language model issues corrective instructions to…
KliniskVestBERT: BERT Model Specialised to Norwegian Clinical Texts
The increasing application of Natural Language Processing (NLP) in healthcare demands language models specifically attuned to the complexit…
MMG2Skill: Can Agents Distill In-the-Wild Guides into Self-Evolving Skills?
Abundant procedural knowledge on the Web holds great potential for helping agents solve long-horizon tasks. However, such knowledge is ofte…
PlanarBench: Evaluating LLM Spatial Reasoning via Planar Graph Drawing
PlanarBench tests whether LLMs can draw planar graphs as ASCII art given only an edge list -- a spatial reasoning task that resists memoriz…
OpenWebRL: Demystifying Online Multi-turn Reinforcement Learning for Visual Web Agents
Building capable visual web agents requires long-horizon reasoning, precise grounding, and robust interaction with dynamic real-world websi…
The Role of Ambiguity in Error Prediction via Uncertainty Quantification
The task of Error Prediction, namely predicting whether a model output is correct, is commonly tackled with Uncertainty Quantification (UQ)…
Jailbreaking Multimodal Large Language Models using Multi-Clip Video
As multimodal large language models (MLLMs) have advanced to process video inputs, concerns have emerged about their potential for maliciou…
A Primer in Post-Training Reasoning Data: What We Know About How It Works
Post-training has become a primary driver of recent progress in large reasoning models, and reasoning data are often the key variable deter…
Multilingual Idioms in Sentences and Conversations Across High-, Medium-, and Low-Resource Languages
Idiomatic expressions pose a major challenge for multilingual NLP because their meanings shift between figurative and literal usage, often…
Multimodal Approaches for Visually-Rich Document Type Classification: A Comparative Analysis
Document type classification in visually rich documents remains challenging, as relevant information is distributed across textual, visual,…
Consistency Training while Mitigating Obfuscation via Rate Matching
Large language models are often influenced by extraneous input features, such as cues revealing a user's preferred answer. Consistency trai…
AgentRedBench: Dynamic Redteaming and Integration-Aware Defense for LLM Agents over SaaS Integrations
Indirect prompt injection in tool-use agents is a concrete production threat: LLM agents read from integrations (third-party services such…
Who Annotates in NLP? A Large-scale Assessment of Human Annotation Reporting between 2018 and 2025
Human annotation is the empirical foundation of much NLP research, from dataset construction to model evaluation, but papers often leave un…
Cross-modal linkage risk in clinical vision-language models
Vision-language models (VLMs) trained on paired chest radiographs and radiology reports learn a shared embedding space that can preserve in…
SeClaw: Spec-Driven Security Task Synthesis for Evaluating Autonomous Agents
Autonomous LLM agents increasingly operate in stateful environments where they access tools, files, memory, and external services. While su…
SPADE-Bench: Evaluating Spontaneous Strategic Deception in Agents via Plan-Action Divergence
As LLM-based agents expand their operational scope, reliability becomes a prerequisite for real-world deployment. However, in practical app…
Policy and World Modeling Co-Training for Language Agents
Reinforcement learning (RL) improves large language model (LLM) agents by teaching them which actions lead to high rewards, but provides li…
AutoForest: Automatically Generating Forest Plots from Biomedical Studies with End-to-End Evidence Extraction and Synthesis
Systematic reviews rely on forest plots to synthesise quantitative evidence across biomedical studies, but generating them remains a fragme…
Evolutionary Discovery of Bivariate Bicycle Codes with LLM-Guided Search
Quantum LDPC code discovery requires searching large algebraic design spaces while reliably certifying the parameters and equivalence class…
Not All Errors Are Equal: A Systematic Study of Error Propagation in Large Language Model Inference
Large language models (LLMs) are increasingly integrated into high-performance computing (HPC) workflows, accelerating scientific discovery…
ODTQA-FoRe: An Open-Domain Tabular Question Answering Dataset for Future Data Forecasting and Reasoning
The rapid development of LLMs has significantly advanced tabular question answering, but most systems cannot perform future-oriented numeri…
PaSBench-Video: A Streaming Video Benchmark for Proactive Safety Warning
Between the first visible sign of danger and the moment an accident occurs, there is often a window where intervention remains possible. Vi…
Learning When to Translate for Multilingual Reasoning
Reasoning language models (RLMs) achieve strong performance on complex reasoning tasks, but still exhibit substantial multilingual reasonin…
Ghost Tool Calls: Issue-Time Privacy for Speculative Agent Tools
Tool-augmented language agents speculatively issue likely future tool calls to hide latency, but those calls leak inferred user intent to e…
Moment-Video: Diagnosing Temporal Fidelity of Video MLLMs on Momentary Visual Events
Video multimodal large language models (MLLMs) have made rapid progress on general and long-form video understanding, yet their ability to…
SimSD: Simple Speculative Decoding in Diffusion Language Models
Diffusion large language models (dLLMs) have recently emerged as a promising alternative to autoregressive (AR) LLMs, offering faster infer…
From Layers to Submodules: Rethinking Granularity in Replacement-Based LLM Compression
Post-training compression of Large Language Models (LLMs) removes entire architectural components, either deleting them or replacing them w…
AdaCodec: A Predictive Visual Code for Video MLLMs
Video is temporally redundant: adjacent frames usually share most objects, background, and layout. Yet existing video multimodal large lang…
Mitigating Perceptual Judgment Bias in Multimodal LLM-as-a-Judge via Perceptual Perturbation and Reward Modeling
Recent multimodal large language models have demonstrated strong reasoning ability, yet their reliability as automated evaluators remains l…
Stop Wandering, Find the Keys: LLMs Discriminate Key States for Efficient Multi-Agent Exploration
With expansive state-action spaces, efficient multi-agent exploration remains a longstanding challenge in reinforcement learning. Although…
Finding the Minimal Parameter Budget for Implicit Reasoning: A Data Complexity Driven Scaling Law for Language Models
Reasoning is a core capability of language models (LMs), yet it remains unclear how much model capacity is necessary to support reasoning d…
EMoE: Training-Free Expert Disagreement for Uncertainty-Aware Text-to-Image Diffusion
Large text-to-image diffusion models rarely expose reliable signals of when a prompt is likely to produce a poorly aligned generation, espe…
Query Circuits: Explaining How Language Models Answer User Prompts
Explaining why a language model produces a particular output requires local, input-level explanations. Existing methods uncover global capa…
ACON: Optimizing Context Compression for Long-horizon LLM Agents
Large language models (LLMs) are increasingly deployed as agents in dynamic real-world environments, where success depends on maintaining p…
Addressing Longstanding Challenges in Cognitive Science with Language Models
Cognitive science faces ongoing challenges in research integration, formalization, conceptual clarity, and other areas, in part due to its…
A Unified Evaluation-Instructed Framework for Query-Dependent Prompt Optimization
Most prompt-optimization methods refine a single static template, making them ineffective in complex and dynamic user scenarios. Existing q…
ReasonBENCH: Benchmarking the (In)Stability of LLM Reasoning
Benchmark scores for LLM reasoning systems are reported as single numbers, yet the same model, strategy, and task can produce meaningfully…
Structure Enables Effective Self-Localization of Errors in LLMs
Self-correction in language models remains elusive. In this work, we explore whether language models can explicitly localize errors in inco…
Breaking the Reversal Curse in Autoregressive Language Models via Identity Bridge
Autoregressive large language models (LLMs) have achieved remarkable success in many complex tasks, yet they can still fail in very simple…
ToolSelf: Unifying Task Execution and Self-Reconfiguration via Tool-Driven Emergent Adaptation
LLM-powered agentic systems excel at complex long-horizon tasks, but remain constrained by static configurations fixed before execution. Su…
Beyond End-to-End Video Models: An LLM-Based Multi-Agent System for Educational Video Generation
Although recent end-to-end video generation models demonstrate impressive performance in visually oriented content creation, they remain li…
Prototype Transformer: Towards Language Model Architectures Interpretable by Design
While state-of-the-art language models (LMs) surpass most humans in certain domains, their reasoning remains largely opaque, reducing trust…
Benchmarking at the Edge of Comprehension
As frontier Large Language Models (LLMs) increasingly saturate new benchmarks shortly after they are published, benchmarking itself is at a…
LLM-WikiRace Benchmark: How Far Can LLMs Plan over Real-World Knowledge Graphs?
We introduce LLM-Wikirace, a benchmark for evaluating planning, reasoning, and world knowledge in large language models (LLMs). In LLM-Wiki…
LLM4Cov: Execution-Aware Agentic Learning for High-coverage Testbench Generation
Execution-aware LLM agents offer a promising paradigm for learning from tool feedback, but such feedback can be expensive and slow to obtai…
PATRA: Pattern-Aware Alignment and Balanced Reasoning for Time Series Question Answering
Time series reasoning demands both the perception of complex dynamics and logical depth. However, existing LLM-based approaches exhibit two…
On Information Self-Locking in Reinforcement Learning for Active Reasoning of LLM agents
Reinforcement learning (RL) has become a de facto paradigm for building LLM-based agents that act, interact, and reason over extended task…
AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents
While Large Language Models (LLMs) have evolved into tool-using agents, they remain brittle in long-horizon interactions. Unlike mathematic…
OpenHospital: A Thing-in-itself Arena for Evolving and Benchmarking LLM-based Collective Intelligence
Large Language Model (LLM)-based Collective Intelligence (CI) presents a promising approach to overcoming the data wall and continuously bo…
FeynmanBench: Benchmarking Multimodal LLMs on Diagrammatic Physics Reasoning
Current multimodal benchmarks for scientific reasoning primarily evaluate local information extraction -- models recognize symbols and valu…
TrafficClaw: A Generalizable LLM Agent in the Unified Physical Environment for Urban Traffic Control
Large language model (LLM) agents have shown strong capabilities in long-horizon reasoning, tool use, and decision-making in digital enviro…
The Refusal--Compliance Tradeoff: A Large-Scale Safety Behavior Audit of Large Language Models
Refusal rates are a poor proxy for LLM safety, i.e., a model may over-refuse benign prompts while still complying with harmful ones. We aud…
Herculean: An Agentic Benchmark for Financial Intelligence
As AI agents improve, the central question is no longer whether they can solve isolated well-defined financial tasks, but whether they can…
Capturing LLM Capabilities via Evidence-Calibrated Query Clustering
Query clustering organizes queries into groups that reflect shared latent capability demands, enabling capability-aware LLM evaluation. Exi…
LLM-Guided Communication for Cooperative Multi-Agent Reinforcement Learning
Communication is a key component in multi-agent reinforcement learning (MARL) for mitigating partial observability, yet prior approaches of…
LC-ERD: 一貫性で規制された報酬分解による自己進化推論のための潜在ロジックのマイニング
大規模言語モデル (LLM) 推論の進化は、高品質のプロセス データの不足によってボトルネックになっています。内生的報酬による自己調整は解決策を提供しますが、有効な監視のマイニングは 3 つの課題に直面しています。(1) ミメティック バイアスによるラベル ノイズ。報酬は論理的真実よりも統計的尤度を優先し、複合エラーを覆い隠す「正しさの錯覚」を生み出します。 (2) 粗粒度の監督。まばらな全体的な結果 (GRPO など) が詳細なガイダンスを提供できず、推論チェーンを一枚岩として扱います。 (3) 分布崩壊。トレーニング前のバイアスを増幅せずに信号が一般化できない場合。これらに対処するために、潜在構造マイニングとして自己整合を構成するフレームワークである LC-ERD (Logic-Consistent Endogenous Reward Decomposition) を導入します。モデルの潜在論理専門知識 (LLE) からのコンセンサスを集約して変分論理ポテンシャルを導き出し、推論多様体のノイズを除去し、IGM 原理に基づくマルチエージェント値分解プロトコルを導入して、個々のステップの効用を定量化します。実験では、LC-ERD が堅牢な自己進化パスを提供し、標準的な報酬では見逃されている価値の高い推論パターンを特定しながら、ロジックの一貫性と精度の間のトレードオフを明らかにすることが示されています。私たちのコードは https://github.com/Reinhardmannn/LC-ERD で入手できます。
原文 (English)
LC-ERD: Mining Latent Logic for Self-Evolving Reasoning via Consistency-Regulated Reward Decomposition
The evolution of Large Language Model (LLM) reasoning is bottlenecked by the scarcity of high-quality process data. While self-alignment via endogenous rewards offers a solution, mining valid supervision faces three challenges: (1) Label Noise via Mimetic Bias, where rewards prioritize statistical likelihood over logical truth, creating a "correctness illusion" that masks compounding errors; (2) Coarse-Grained Supervision, where sparse global outcomes (e.g., in GRPO) fail to provide granular guidance, treating reasoning chains as monolithic; and (3) Distributional Collapse, where signals fail to generalize without amplifying pre-training biases. To address these, we introduce LC-ERD (Logic-Consistent Endogenous Reward Decomposition), a framework framing self-alignment as latent structure mining. We derive a Variational Logic Potential by aggregating consensus from the model's Latent Logic Expertise (LLE) to denoise the reasoning manifold, and introduce a Multi-Agent Value Decomposition protocol based on the IGM principle to quantify individual step utility. Experiments show LC-ERD delivers a robust self-evolution path, uncovering trade-offs between logic consistency and accuracy while identifying high-value reasoning patterns missed by standard rewards. Our code is available at https://github.com/LC-ERD-repo/LC-ERD.
マルチエージェント RL によって LLM ワークフローが改善されるのはいつですか?ワークフロー、スケール、ポリシー共有のトレードオフ
マルチエージェント LLM ワークフローは、特殊なロールを通じて推論をルーティングし、最終タスクの精度を高めますが、これらのロールを強化学習で共同トレーニングすることは、十分に理解されていない点で不安定です。すべてのロールが 1 つのポリシーを更新する共有ポリシー トレーニングと、各ロールが独自のパラメーターを持つ分離ポリシー トレーニングを比較して、マルチエージェント LLM ワークフローのエンドツーエンド RL トレーニングが基本モデルよりも向上する時期を研究します。私たちの実験マトリックスは、Eval-Opt、Voting、Orch-Workers ワークフロー、数学およびコード タスク、および 3 つのモデル スケール (0.6B、1.7B、4B) に及びます。通常、マルチエージェント RL は基本モデルよりも向上しますが、その効果はポリシー共有だけではなく、ワークフロー、タスク、規模に総合的に依存することがわかりました。分離ポリシーはより高いピーク精度に達する傾向がありますが、最終精度の崖から落ちることが多くなりますが、共有ポリシーのトレーニングでは失敗は排除されません。それは失敗を質的に異なるパターンに再配分します。次に、ワークフロー トポロジとポリシー ルーティングによって引き起こされるロール レベルの勾配ダイナミクスを通じて、これらのパターンのうち最も強力なものを説明します。分離ポリシーでは、共有プロンプト上の並列同じロール エージェントがロールごとの勾配を増幅し、投票ワークフローとオーチワーカー ワークフローの端末の劣化を引き起こします。共有ポリシーの下では、非対称のステップごとの勾配質量により、共有ポリシーが支配的な役割によってキャプチャされ、タスクおよびワークフローごとに異なる失敗の兆候が生成されます。経験的マップとその基礎となるメカニズムを総合すると、ポリシー共有は均一な安定性を提供するのではなく、トレーニングのプレッシャーをさまざまなチャネルにルーティングし、ワークフローとタスクの条件のトレードオフを考慮した設計上の選択となることがわかります。
原文 (English)
When Does Multi-Agent RL Improve LLM Workflows? Workflow, Scale, and Policy-Sharing Tradeoffs
Multi-agent LLM workflows route inference through specialized roles to lift end-task accuracy, but jointly training those roles with reinforcement learning is unstable in ways that are poorly understood. We study when end-to-end RL training of multi-agent LLM workflows improves over their base models, comparing Shared-Policy training, where all roles update one policy, with Isolated-Policy training, where each role has its own parameters. Our experimental matrix spans Eval-Opt, Voting, and Orch-Workers workflows, math and code tasks, and three model scales (0.6B, 1.7B, 4B). We find that multi-agent RL usually improves over base models, but gains depend jointly on workflow, task, and scale, not on policy sharing alone. Isolated-Policy tends to reach higher peak accuracy yet more often falls off a terminal accuracy cliff, while Shared-Policy training does not eliminate failure; it redistributes failure into qualitatively different patterns. We then explain the strongest of these patterns through role-level gradient dynamics induced by workflow topology and policy routing: under Isolated-Policy, parallel same-role agents on shared prompts amplify per-role gradients and drive terminal degradation in Voting and Orch-Workers workflows; under Shared-Policy, asymmetric per-step gradient mass causes the shared policy to be captured by the dominant role, producing different failure signatures by task and workflow. Together, the empirical map and its underlying mechanisms show that policy sharing routes training pressure through different channels rather than offering uniform stability, making it a design choice with workflow- and task-conditional tradeoffs.
児童および言語モデルにおける仮説生成と帰納的推論
現実世界の意思決定では、証拠、根底にある因果律、そして世界そのものの状態に対する不確実性の下で、メンタル モデルを構築する必要があります。このような状況下で人間の推論を支える計算原理はどれですか?また、LLM ベースのエージェントは、一致制約が与えられた場合に同様の動作を示しますか?私たちは、帰納的推論ボックス タスクを使用してこれらの質問に取り組みます。このタスクでは、参加者である人間の子供と LLM ベースのエージェントが、不確実な環境との逐次的な相互作用を通じて潜在的な原因を推論します。我々は、このタスクをベイズ粒子ベースの推論によるプログラム帰納法として形式化し、2 つの相補的な解釈を認めます: (1) 仮説に対する制約充足プロセスとして、および (2) 仮説が証拠に照らして評価される実行可能プログラムであるプログラム合成問題として。制約ベースの定式化を使用して、子供の行動は主観的な証拠の信頼性とオンライン仮説生成の組み合わせによって最もよく説明され、子供たちの証拠探索パターンと、課題の完了とルールの一般化の間の解離の両方を説明できることを示します。プログラム合成定式化を使用して、LLM ベースのエージェントをモデル生物、つまりタスク条件の系統的な操作を可能にする制御可能なシステムとして扱います。 LLM ベースのエージェントは、バックエンド全体で、信頼性の低い証拠を無視すること、部分的な情報を解決しようとすること、タスクの完了と因果関係の一般化を区別することなど、証拠の信頼性と観察可能性の変化に対する子供の反応を再現します。同時に、LLM ベースのエージェントは、子供に対する指示を過剰に観察し、過剰に遵守する傾向があります。これらの結果は、子供と LLM ベースのエージェントは環境構造に同様に適応する一方で、彼らの情報探索行動は異なる根本的なコストと誘導バイアスを示すことを示唆しています。
原文 (English)
Hypothesis Generation and Inductive Inference in Children and Language Models
Real world decision-making requires constructing mental models under uncertainty over evidence, over the underlying causal rules, and over the state of the world itself. Which computational principles underpin human inference under such conditions, and do LLM-based agents exhibit similar behavior given matching constraints? We address these questions using an inductive inference Box Task in which participants, human children and LLM-based agents, infer a latent cause through sequential interaction with an uncertain environment. We formalize this task as program induction with Bayesian particle-based inference, admitting two complementary interpretations: (1) as a constraint satisfaction process over hypotheses, and (2) as a program synthesis problem in which hypotheses are executable programs evaluated against evidence. Using the constraint-based formulation, we show that children's behavior is best explained by a combination of subjective evidence reliability and online hypothesis generation, accounting for both their evidence-seeking patterns and their dissociation between task completion and rule generalization. Using the program synthesis formulation, we treat LLM-based agents as model organisms: controllable systems that allow systematic manipulation of task conditions. Across backends, LLM-based agents replicate children's responses to changes in evidence reliability and observability, including discounting unreliable evidence, seeking to resolve partial information, and dissociating between task completion and causal generalization. At the same time, LLM-based agents tend to over-observe and over-comply with instructions relative to children. These results suggest that while children and LLM-based agents adapt similarly to environmental structure, their information-seeking behavior exhibits distinct underlying costs and inductive biases.
AIを説明する際の根本的な限界
LLM や拡散モデルなどの大規模モデルが実用的な成功を収めている一方で、公的機関は AI における説明可能性の重要性を強調しています。しかし、AI を説明するための既存の手法は、大規模な AI システムの動作を完全に忠実に説明できるようには設計されていません。 AI システムの動作の完全に忠実で解釈可能な説明は AI ガバナンスに役立つ可能性がありますが、そのような説明を提供することが理論的に可能かどうかは不明です。本稿では、AI を説明する際の基本的なクアドリレンマを数学的に証明し、AI とその説明は、1) 動作環境の複雑さ、2) AI の性能の良さ、3) AI の説明の解釈可能性、4) AI の説明の完全な忠実性の 4 つの条件を同時に満たすことはできないと述べています。このクアドリレンマは、環境を変更したり、優れた AI パフォーマンスと解釈可能な説明を犠牲にしたりできないほとんどのアプリケーションでは、説明の完全な忠実性を放棄し、代わりにアプリケーションにとって重要な部分のみを説明することを目指すべきであることを示唆しています。結果として、クアドリレンマは、AI の説明の忠実性は常に不完全であるという前提に基づいて AI ガバナンスを設計する必要があることを意味します。
原文 (English)
Fundamental Limitation in Explaining AI
While large-scale models such as LLMs and diffusion models have achieved practical success, public institutions have emphasized the importance of explainability in AI. Existing methods for explaining AI, however, are not designed to provide completely faithful explanations of the behavior of large-scale AI systems. Although a completely faithful and interpretable explanation of the behavior of an AI system might be useful for AI governance, it has not been known whether providing such an explanation is theoretically possible. In this paper, we mathematically prove a fundamental quadrilemma in explaining AI, stating that AI and its explanation cannot satisfy the following four conditions simultaneously: 1) the complexity of the operation environment, 2) the goodness of the AI's performance, 3) the interpretability of the AI's explanation, and 4) the complete faithfulness of the AI's explanation. This quadrilemma suggests that, in most applications where we cannot change the environment or sacrifice good AI performance and an interpretable explanation, we should give up complete faithfulness of explanations and should instead aim to explain only the parts that are important for applications. As a consequence, the quadrilemma implies that AI governance should be designed on the premise that the faithfulness of AI explanations is always incomplete.
暗黙のルールを探るためのテスト時の深い思考
大規模言語モデル (LLM) の継続的な進歩により、インテリジェント エージェントの重要性がますます高まっています。ただし、これらのエージェントは、暗黙のルール (直接観察できず対話を通じて推測する必要がある隠れた制約) によって管理される環境では失敗することがよくあります。これにより、エージェントは反復的な試行錯誤のループに陥り、最終的にはタスクの失敗につながります。この課題に対処するために、私たちは、思考コンポーネントがインタラクション履歴を分析してこれらの暗黙のルールを推測し、アクターをガイドするフレームワークである Test-Time Exploration (TTExplore) を提案します。この状況で効果的に探索できるかどうかは、思考者の推論能力に大きく依存します。ただし、深い推論の軌跡の評価は本質的に不安定で困難であるため、効果的なトレーニングに大きな障害となります。この問題を克服するために、新しく安定した強化学習パイプラインを導入します。中心となるアイデアは、正確なタスク レベルのスコアを間接的な報酬として使用して、中間推論を評価する難しさを回避し、報酬の希薄性を軽減するために軌道ごとに 1 つの思考ノードのみを保持することです。このパイプラインを使用して、特殊な 7B モデルである Exp-Thinker をトレーニングします。 5 つのテキストベースの具体化されたタスクに関する実験では、Exp-Thinker を備えた TTExplore がベースライン エージェントのパフォーマンスを平均 $14$ ~ $19$ ポイント改善することが示され、暗黙のルールについて明示的に推論することの有効性が実証されました。
原文 (English)
Test-Time Deep Thinking to Explore Implicit Rules
With the continuous advancement of Large Language Models (LLMs), intelligent agents are becoming increasingly vital. However, these agents often fail in environments governed by implicit rules--hidden constraints that cannot be observed directly and must be inferred through interaction. This causes agents to fall into repetitive trial-and-error loops, ultimately leading to task failure. To address this challenge, we propose Test-Time Exploration (TTExplore), a framework where a thinker component analyzes interaction history to infer these implicit rules and guide an actor. Effective exploration in this setting critically depends on the reasoning ability of the thinker. However, evaluating deep reasoning trajectories is inherently unstable and difficult, which poses a major obstacle to effective training. To overcome this issue, we introduce a novel and stable reinforcement learning pipeline. The core idea is to use accurate task-level scores as indirect rewards to bypass the difficulty of evaluating intermediate reasoning, and to retain only a single thinking node per trajectory to alleviate reward sparsity. Using this pipeline, we train a specialized 7B model, Exp-Thinker. Experiments on five text-based embodied tasks show that TTExplore equipped with Exp-Thinker improves baseline agent performance by an average of $14$-$19$ points, demonstrating the effectiveness of explicitly reasoning about implicit rules.
FrontierOR: 大規模な最適化における効率的なアルゴリズム設計のための LLM の能力のベンチマーク
大規模言語モデル (LLM) は、最適化モデリングやソルバー コード生成にますます使用されていますが、実際のオペレーション リサーチや最適化の問題では、問題の構造を活用し、直接定式化して解決するベースラインを上回るパフォーマンスを発揮するスケーラブルなアルゴリズムを設計するという、より困難な機能が必要になることがよくあります。既存のベンチマークは、現実世界の規模や複雑さをはるかに下回る、小規模または単純化された例に限定されています。現実的な大規模な最適化問題に対する LLM ベースの効率的なアルゴリズム設計を体系的に評価する最初のベンチマークの 1 つとして、FrontierOR を紹介します。 FrontierOR には、一流のオペレーション リサーチ会場で発行された方法論的に多様な論文から派生した 180 のタスクが含まれており、それぞれのタスクには標準化されたインスタンスと、専門家によって検証された隠れた評価スイートが含まれています。私たちは、最先端のコスト効率の高いオープンソース モデルにわたる 7 つの LLM を、ワンショットおよびテスト時の進化設定の両方で評価します。その結果、フロンティア モデルが実行可能な定式化から効率的な最適化アルゴリズムに移行するのに依然として苦労していることが明らかになりました。最強のワンショット モデルがソリューションの品質と計算効率の両方で Gurobi を上回るパフォーマンスを示したのはわずか 31% であり、テスト時の進化を伴う強力なコーディング エージェントでさえ、選択されたハード タスクでは 50% しか達成できませんでした。 FrontierOR は、LLM ベースの最適化アルゴリズム設計のための実用的な評価プラットフォームを確立します。これにより、将来の LLM とエージェントが、正しい定式化を超えて、実行可能で高品質で効率的なアルゴリズムに移行できるかどうかを系統的にテストできるようになります。 FrontierOR ベンチマークは https://anonymous.4open.science/r/efficient-opt-bench-F03D で入手できます。
原文 (English)
FrontierOR: Benchmarking LLMs' Capacity for Efficient Algorithm Design in Large-Scale Optimization
Large language models (LLMs) are increasingly used for optimization modeling and solver-code generation, yet practical operations research and optimization problems often require a harder capability: designing scalable algorithms that exploit problem structure and outperform direct formulation-and-solve baselines. Existing benchmarks are limited to small or simplified examples far below real-world scale and complexity. We introduce FrontierOR, among the first benchmarks to systematically evaluate LLM-based efficient algorithm design for realistic large-scale optimization problems. FrontierOR includes 180 tasks derived from methodologically diverse papers published in top-tier operations research venues, each with standardized instances and a hidden, expert-verified evaluation suite. We evaluate seven LLMs spanning frontier, cost-effective, and open-source models both in one-shot and test-time evolution settings. The results reveal that frontier models still struggle to move from executable formulations to efficient optimization algorithms: the strongest one-shot model outperforms Gurobi in only 31% of cases in both solution quality and computational efficiency, and even strong coding agents with test-time evolution achieve only 50% on selected hard tasks. FrontierOR establishes a practical evaluation platform for LLM-based optimization algorithm design, which enables future LLMs and agents to be systematically tested on whether they can move beyond correct formulation toward a feasible, high-quality, and efficient algorithm. Code and data are publicly released at https://github.com/Minw913/FrontierOR.
クロスエントロピー ゲームとフロスト トレーニング
クロスエントロピー ゲームと呼ばれる、裁判官としての LLM タスクの大規模なファミリーに対するモンテカルロ ベースのポリシー最適化を改善するための手法である Frost Training を紹介します。重要なアイデアは、埋め込み空間における報酬関数の勾配を利用することです。この信号は、貪欲座標勾配 (GCG) ジェイルブレイク手法で使用されます。私たちは、これがモデルのトレーニングを強化するためにも使用できることを初めて実証しました。最尤充填のための GRPO トレーニングを使用して方法を検証します。フロスト トレーニングにより、高スコアの出力を生成するモデルの能力が向上し、best-of-k 設定でより高い最大スコアに達し、高速化されます。
原文 (English)
Cross-Entropy Games and Frost Training
We present Frost Training, a method for improving Monte Carlo-based policy optimization for a large family of LLM-as-a-judge tasks called Cross-Entropy Games. The key idea is to exploit the gradient of the reward function in embedding space. This signal is used in the Greedy Coordinate Gradient (GCG) jailbreaking technique; we demonstrate for the first time that it can also be used to boost model training. We validate our method using GRPO training for maximum-likelihood infilling. Frost Training improves the model's ability to generate high-scoring outputs, reaching higher maximum scores in a best-of-k setting, and does so at an increased speed.
尋ねるだけでは不十分: LLM 信頼性キャリブレーションにおけるプロトコル感度
LLM の信頼度調整は、多くの場合、トークン確率スコアと言語化された信頼度という 2 つのシグナルを比較することによって評価されます。これらの信号はモデルの不確実性の直接の読み取り値として扱われることがありますが、その比較はめったに明示されない測定の選択に依存します。主要な分析では、言語化された信頼性の引き出しを固定します。つまり、単一のプロンプト テンプレート、確率スケール、および出力形式です。次に、言語化対トークンの比較を定義する測定軸を変更します。つまり、どの応答文字列がトークン確率スコアを受け取るか、そのスコアが応答トークンからどのように読み取られるか、およびどの条件付けコンテキストの下で測定されるかです。この設計を、同じファミリーの堅牢性チェックとしてより大きな Qwen2.5 バリアントを使用した、3 つのオープン 7 ~ 8B ベース/Instruct モデル ファミリにわたる 4 つの QA ベンチマークで評価しました。結果として得られる比較は、これらの選択に影響されます。コンディショニング コンテキストは設定全体で ECE ギャップの符号または大きさを変更し、トークンの読み出しでは小さいながらも符号が移動する変化が生成され、ECE 推定量を変更してもほとんど効果がありません。デフォルトの生成された回答、ベアコンテキストプロトコルの下では、指示設定は、言語化された信頼性に対する大きな調整ゲインを示すのではなく、同等に近いものになります。別の提供された回答分析では、表面的にもっともらしい誤った回答は、提供されたゴールドアンサーとほぼ同じ信頼度を得ており、言語化された信頼度は、正しさだけではなく、回答のもっともらしさと出所も反映していることを示唆しています。私たちは、両方の信頼シグナルはプロトコル依存の行動測定として扱われるべきであり、引き出しの来歴、採点された回答、トークン確率の読み出し、およびコンディショニングコンテキストをカバーするレポートチェックリストを提供する必要があると主張します。
原文 (English)
Asking Is Not Enough: Protocol Sensitivity in LLM Confidence Calibration
LLM confidence calibration is often evaluated by comparing two signals: token-probability scores and verbalized confidence. These signals are sometimes treated as direct readouts of model uncertainty, but their comparison depends on measurement choices that are rarely made explicit. In the main analysis, we hold the verbalized-confidence elicitation fixed: a single prompt template, probability scale, and output format. We then vary the measurement axes that define the verbalized-vs-token comparison: which answer string receives the token-probability score, how that score is read from the answer tokens, and under which conditioning context it is measured. We evaluate this design on four QA benchmarks across three open 7--8B base/Instruct model families, with larger Qwen2.5 variants as same-family robustness checks. The resulting comparison is sensitive to these choices: conditioning context changes the sign or magnitude of the ECE gap across settings, token readout produces smaller but still sign-moving changes, and changing the ECE estimator has little effect. Under the default generated-answer, bare-context protocol, Instruct settings are close to parity rather than showing a large calibration gain for verbalized confidence. In a separate supplied-answer analysis, surface-plausible wrong answers receive nearly the same confidence as supplied gold answers, suggesting that verbalized confidence also reflects answer plausibility and provenance rather than correctness alone. We argue that both confidence signals should be treated as protocol-dependent behavioral measurements, and provide a reporting checklist covering elicitation provenance, scored answer, token-probability readout, and conditioning context.
FundaPod: AI 支援のファンダメンタル投資調査のためのナレッジ グラフ メモリを備えたマルチペルソナ エージェント ポッド プラットフォーム
大規模言語モデル (LLM) は金融分野での適用が増えていますが、既存の研究のほとんどは取引シグナルや予測を中心とした財務 NLP タスクに重点を置いています。対照的に、制度的基礎研究では、人間のアナリストまたは AI エージェントが証拠を収集し、ビジネス推進要因を特定し、競合する視点を比較し、投資メモを作成する必要があります。その広範な目標は、単に結果を予測することではなく、投資知識の累積的な発展に貢献しながら、透明性、再利用可能、検証可能な投資計画を作成することです。 AI 支援のファンダメンタルズ投資調査のためのマルチペルソナ エージェント プラットフォームである FundaPod を紹介します。私たちは、基礎研究は人間中心の意思決定支援タスクであり、取引シグナルの生成とは質的に異なるため、独立性を維持するアーキテクチャの方が適していると主張します。 FundaPod では、バリュー投資家やマクロ戦略家など、さまざまなペルソナを持つ AI エージェントが、共有の出所契約に基づいて独立して調査を実施します。その後、彼らの意見の相違は、知識グラフ記憶システムを通じて人間のポートフォリオ マネージャー (PM) による裁定のために事後的に表面化されます。この論文は、設計科学の実践と認知的分離と人間と機械の協調の理論に基づいた、基礎研究をサポートする人間と AI のハイブリッド システムの 5 つの設計原則を提供します。また、4 つのアーキテクチャ メカニズムについても説明します。1 つは一般投資家の資料を展開可能なエージェントに変えるペルソナ蒸留パイプラインです。プランナーが型指定されたタスク グラフを導出できるようにする宣言型スキル レジストリ。メモの主張を検証可能な情報源に結び付ける根拠のある証拠モデル。そしてティッカー、メモ、アナリスト、テーマを結び付けるナレッジグラフ「第二の脳」。完全なケーススタディとペルソナベースのメモの比較を通じてアーキテクチャを実証します。
原文 (English)
FundaPod: A Multi-Persona Agent Pod Platform with Knowledge Graph Memory for AI-Assisted Fundamental Investment Research
Large language models (LLMs) are increasingly applied in finance, yet most existing work emphasizes trading signals or financial NLP tasks centered on prediction. Institutional fundamental research, by contrast, requires human analysts or AI agents to gather evidence, identify business drivers, compare competing viewpoints, and generate investment memos. Its broader goal is not merely to predict outcomes, but to produce investment plans that are transparent, reusable, and verifiable, while contributing to the cumulative development of investment knowledge. We present FundaPod, a multi-persona agent platform for AI-assisted fundamental investment research. We argue that fundamental research is a human-centric decision-support task that is qualitatively distinct from trading-signal generation, and is therefore better served by an independence-preserving architecture. In FundaPod, AI agents with different personas, such as value investors or macro strategists, conduct research independently under a shared provenance contract. Their disagreements are then surfaced post hoc for adjudication by the human portfolio manager (PM) through a knowledge-graph memory system. This paper contributes five design principles for human-AI hybrid systems supporting fundamental research, grounded in design-science practice and theories of cognitive isolation and human-machine coordination. It also describes four architectural mechanisms: a persona distillation pipeline that turns public investor materials into deployable agents; a declarative skill registry that lets the planner derive typed task graphs; a grounded evidence model that links memo claims to verifiable sources; and a knowledge-graph "second brain" that connects tickers, memos, analysts, and themes. We demonstrate the architecture through a complete case study and a persona-based memo comparison.
Cookie-Bench: Web 生成のための継続的なオンスクリーンキーインタラクション評価
フロントエンドの Web コードは、すべてのフロンティア LLM リリースの中核的な製品面となっていますが、アリーナのような人間が判断するリーダーボードは拡張できないため、これらのインタラクティブ アプリケーションを開発スピードで評価することは依然としてコストがかかります。既存の自動プロキシは通常、リファレンス実装、テスト スイート、または厳密なチェックリストに依存しており、人間のレビュー担当者がライブ セッションで実行する合理的な合成を見逃す傾向があります。私たちは、同時に参照フリーで、自律的に駆動され、総合的に推論される新しい評価体制を明確にし、2 つの成果物を通じてそれをインスタンス化します。 \textbf{\dataname} は、静的プレゼンテーション タスクと対話型アプリケーション タスクの両方にまたがる 11 ドメイン、54 リーフ、1,000 クエリの WebDev ベンチマークであり、3 つの難易度層と 3 つのターゲット言語グループにわたってバランスが取れており、回覧されたプロンプトから思い出せないようにブリーフが書き直されています。 \textbf{\framename} は、Flavell のメタ認知モニタリングに基づいており、証拠の蓄積と判断を 3 つの段階にわたって分離します。静的な知覚は受動的な観察から第一印象を形成します。エージェント駆動のインタラクションは、連続画面のビデオ、音声、およびステップごとのスクリーンショットをキャプチャしながら、アプリケーションを自律的に探索します。動的スコアリングは、証拠チェーンが完了した後にのみ、構造化された失敗の帰属を伴う全体的な機能性と美的判断を発行します。 \dataname では、\framename は専門家による評価と厳密に一致しており、インタラクティブな Web 生成に関して 13 のフロンティア LLM 全体でかなりのヘッドルームを表面化しています。 \noindenthttps://anonymous.4open.science/r/Cookie-3CE/
原文 (English)
Cookie-Bench: Continuous On-screen Key Interaction Evaluation for Web Generation
Front-end web code has become a core product surface for every frontier LLM release, yet evaluating these interactive applications at development speed remains costly because human-judged leaderboards like Arena do not scale. Existing automated proxies typically lean on reference implementations, test suites, or rigid checklists, and tend to miss the reasoned synthesis a human reviewer performs over a live session. We articulate a new evaluation regime that is simultaneously reference-free, autonomously driven, and holistically reasoned, and instantiate it through two artifacts. \textbf{\dataname} is an 11-domain, 54-leaf, 1,000-query WebDev benchmark spanning both static-presentation and interactive-application tasks, balanced across three difficulty tiers and three target-language groups, with briefs rewritten to resist recall from circulated prompts. \textbf{\framename}, grounded in Flavell's metacognitive monitoring, separates evidence accumulation from judgment across three stages: Static Perception forms a first impression from passive observation; Agent-Driven Interaction explores the application autonomously while capturing continuous screen video, audio, and per-step screenshots; Dynamic Scoring issues holistic functionality and aesthetics verdicts with structured failure attribution only after the evidence chain is complete. On \dataname, \framename aligns closely with expert human ratings while surfacing substantial headroom across 13 frontier LLMs on interactive web generation. \noindenthttps://anonymous.4open.science/r/Cookie-3CE/
AutoEval Done Right: Using Synthetic Data for Model Evaluation
The evaluation of machine learning models using human-labeled validation data can be expensive and time-consuming. AI-labeled synthetic dat…
ShapeLib: Designing a library of programmatic 3D shape abstractions with Large Language Models
We present ShapeLib, the first method that uses the priors of Large Language Models (LLMs) to design libraries of programmatic 3D shape abs…
HiFi-KPI: A Dataset for Hierarchical KPI Extraction from Earnings Filings
Accurate tagging of earnings reports can yield significant short-term returns for stakeholders. The machine-readable inline eXtensible Busi…
Efficient LLM Moderation with Multi-Layer Latent Prototypes
Although modern LLMs are aligned with human values during post-training, robust moderation remains essential to prevent harmful outputs at…
EuroBERT: Scaling Multilingual Encoders for European Languages
General-purpose multilingual vector representations, used in retrieval, regression and classification, are traditionally obtained from bidi…
Skill-Based Mixture-of-Experts: Adaptive Routing for Heterogeneous Reasoning via Inferred Skills
Combining existing pre-trained LLMs is a promising approach for diverse reasoning tasks. However, task-level expert selection is often too…
T1: Tool-integrated Verification for Test-time Compute Scaling in Small Language Models
Recent studies have demonstrated that test-time compute scaling effectively improves the performance of small language models (sLMs). Howev…
MARFT: Multi-Agent Reinforcement Fine-Tuning
Large Language Model (LLM)-based Multi-Agent Systems (LaMAS) have demonstrated strong capabilities on complex agentic tasks requiring multi…
DetailMaster: Can Your Text-to-Image Model Handle Long Prompts?
While recent Text-to-Image (T2I) models show impressive capabilities in synthesizing images from brief descriptions, they struggle with the…
Simulating Macroeconomic Expectations in Survey Experiments with LLM-based Economic Agents
We introduce a framework for simulating macroeconomic expectations in survey experiments using LLM-based economic agents (LLM Agents). We c…
Can LLMs Reason Structurally? Benchmarking via the Lens of Data Structures
Large language models (LLMs) are deployed on increasingly complex tasks that require multi-step decision-making. Understanding their algori…
Value-Free Policy Optimization via Reward Partitioning
Single-trajectory preference optimization methods learn from datasets of ((prompt, response, reward)) tuples, offering a practical alternat…
GFlowGR: Fine-tuning Generative Recommendation Frameworks with Generative Flow Networks
Generative recommendations (GR), which usually include item tokenizers and generative Large Language Models (LLMs), have demonstrated remar…
Truth, Trust, and Trouble: Medical AI on the Edge
Large Language Models (LLMs) hold significant promise for transforming digital health by enabling automated medical question answering. How…
AblationBench: Evaluating Automated Planning of Ablations in Empirical AI Research
Language model agents are increasingly used to automate scientific research, yet evaluating their scientific contributions remains a challe…
グラフ検索からスキーマ実現まで: 異種ナレッジ グラフ上のテキストから SPARQL への反事実検証
Text-to-SPARQL は、自然言語の質問を RDF ナレッジ グラフ上の実行可能な SPARQL クエリにマッピングします。標準的な評価ではターゲット グラフが事前に修正されることがよくありますが、実践的なナレッジ グラフ質問応答 (KGQA) には、異なるスキーマ、部分的なアラインメント、および不完全なメタデータを含む異種グラフ コレクションが含まれる場合があります。この設定では、クエリ生成は SPARQL 構文以上のものに依存します。システムは、質問に必要な述語、エンティティ タイプ、結合、フィルター、および制約をサポートできるグラフ スキーマを識別する必要があります。異種の KG コレクション上でテキストから SPARQL に変換するためのスキーマベースのエージェント フレームワークである SchemaForge を紹介します。その中心的なメカニズムは、質問条件付きのスキーマ スライス アライメントです。弱いグラフの証拠によって最初にもっともらしいグラフが特定され、より強力なスキーマの証拠によって、ローカル スキーマ スライスが意図したクエリを実現できるかどうかが決まります。選択されたスキーマ スライスは、クエリの生成と実行前の検証を制限します。利用可能なグラフが 1 つだけの場合、同じ定式化は、スキーマ基盤を備えた標準の単一 KG テキストから SPARQL への変換に縮小されます。 LC-QuAD 2.0、QALD-9 Plus、QALD-10、および Spider4SPARQL で SchemaForge を評価します。 SchemaForge は、4 つの公開ベンチマーク全体で、最も一致するエージェントのベースラインよりも実行精度を平均 11.50 パーセント向上させています。 Spider4SPARQL では、SchemaForge は実行精度を 54.86% から 64.18% に向上させ、トップ 1 グラフ割り当て精度 73.0% とトップ 3 グラフ割り当て精度 97.0% を達成しました。これらの結果は、グラフの弱い証拠からスキーマ固有のクエリコミットメントへの移行と、反事実の回答セットのチェックにより、異種ナレッジグラフよりも実行可能なクエリの生成が向上することを示しています。
原文 (English)
From Graph Retrieval to Schema Realization: Counterfactual Validation for Text-to-SPARQL over Heterogeneous Knowledge Graphs
Text-to-SPARQL maps natural-language questions to executable SPARQL queries over RDF knowledge graphs. While standard evaluations often fix the target graph in advance, practical knowledge graph question answering (KGQA) may involve heterogeneous graph collections with different schemas, partial alignments, and incomplete metadata. In this setting, query generation depends on more than SPARQL syntax: the system must identify a graph schema that can support the predicates, entity types, joins, filters, and constraints required by the question. We present SchemaForge, a schema-grounded agentic framework for text-to-SPARQL over heterogeneous KG collections. Its central mechanism is question-conditioned schema-slice alignment: weak graph evidence first identifies plausible graphs, while stronger schema evidence determines whether a local schema slice can realize the intended query. The selected schema slice then constrains query generation and verification before execution. When only one graph is available, the same formulation reduces to standard single-KG text-to-SPARQL with schema grounding. We evaluate SchemaForge on LC-QuAD 2.0, QALD-9 Plus, QALD-10, and Spider4SPARQL. Across the four public benchmarks, SchemaForge improves execution accuracy over the strongest matched agent baseline by 11.50 percentage points on average. On Spider4SPARQL, SchemaForge improves execution accuracy from 54.86% to 64.18% and achieves 73.0% Top-1 and 97.0% Top-3 graph allocation accuracy. These results show that moving from weak graph evidence to schema-specific query commitments, together with counterfactual answer-set checks, improves executable query generation over heterogeneous knowledge graphs.
Between a Rock and a Hard Place: The Tension Between Ethical Reasoning and Safety Alignment in LLMs
Large Language Model safety alignment predominantly operates on a binary assumption that requests are either safe or unsafe. This classific…
Language-Native Materials Processing Design by Lightly Structured Text Database and Reasoning Large Language Model
Materials synthesis procedures are predominantly documented as narrative text in papers, protocols, and laboratory records, placing them be…
T-POP: Test-Time Personalization with Online Preference Feedback
Personalizing large language models (LLMs) to individual user preferences is a critical step beyond generating generically helpful response…
v-HUB: A Benchmark for Video Humor Understanding from Vision and Sound
AI models capable of comprehending humor hold real-world promise -- for example, enhancing engagement in human-machine interactions. To gau…
Distillation of Large Language Models via Concrete Score Matching
Large language models (LLMs) deliver remarkable performance but are costly to deploy, motivating knowledge distillation (KD) for efficient…
Make a Video Call with LLM: A Measurement Campaign over Six Mainstream Apps
In 2025, Large Language Model (LLM) services have launched a new feature -- AI video chat -- allowing users to interact with AI agents via…
Simultaneous Multi-objective Alignment Across Verifiable and Non-verifiable Rewards
Aligning large language models to human preferences is inherently multidimensional, yet most pipelines collapse heterogeneous signals into…
Domain-Shift-Aware Conformal Prediction for Large Language Models
Large language models have achieved impressive performance across diverse tasks. However, their tendency to produce overconfident and factu…
SHERLOCK: Towards Dynamic Knowledge Adaptation in LLM-enhanced E-commerce Risk Management
Effective e-commerce risk management requires in-depth case investigations to identify emerging fraud patterns in highly adversarial enviro…
StreamingVLM: Real-Time Understanding for Infinite Video Streams
Vision-language models (VLMs) could power real-time assistants and autonomous agents, but they face a critical challenge: understanding nea…
Rethinking RL Evaluation: Can Benchmarks Truly Reveal Failures of RL Methods?
Current benchmarks are inadequate for evaluating progress in reinforcement learning (RL) for large language models (LLMs).Despite recent be…
Characterizing Web Search in The Age of Generative AI
The advent of LLMs has given rise to generative search, a new search paradigm in which LLMs retrieve information from the web related to a…
Optimizing Diversity and Quality through Base-Aligned Model Collaboration
Alignment has greatly improved large language models (LLMs)' output quality at the cost of diversity, yielding highly similar outputs acros…
NILC: Discovering New Intents with LLM-assisted Clustering
New intent discovery (NID) seeks to recognize both new and known intents from unlabeled user utterances, which finds prevalent use in pract…
Latent Reasoning in TRMs is Secretly a Policy Improvement Operator
Recently, small models with latent recursion have obtained promising results on complex reasoning tasks. These results are typically explai…
Latent Collaboration in Multi-Agent Systems
Multi-agent systems (MAS) extend large language models (LLMs) from independent single-model reasoning to coordinative system-level intellig…
Understanding the Effects of Distractors on Reasoning Vision-Language Models
How does irrelevant information (i.e., distractors) affect test-time scaling in vision-language models (VLMs)? Prior work on text-only lang…
InFerActive: Interactive Tree-Based Exploration of LLM Sampling for Safety Evaluation
Even LLMs that appear safe during evaluation can still produce harmful responses in deployment. Because stochastic sampling yields differen…
Ev-Trust: An Evolutionarily Stable Trust Mechanism for Decentralized LLM-Based Multi-Agent Service Economies
Decentralized LLM-based multi-agent service economies face three vulnerabilities that undermine traditional trust mechanisms: reduced cost…
Agent Tools Orchestration Leaks More: Dataset, Benchmark, and Mitigation
LLM-based agents increasingly use multiple external tools to complete complex tasks. We study Tools Orchestration Privacy Risk (TOP-R): an…
Uncovering Competency Gaps in Large Language Models and Their Benchmarks
The evaluation of large language models relies heavily on standardized benchmarks. These benchmarks provide useful aggregated metrics, but…
FastSLM: Hierarchical Temporal Abstraction for Efficient Long-Form Speech Adaptation
Scaling Multimodal Large Language Models (MLLMs) to long-form speech is bottlenecked by the explosive growth of input tokens. Unlike images…
Safe-FedLLM: Delving into the Safety of Federated Large Language Models
Federated learning (FL) addresses privacy and data-silo issues in the training of large language models (LLMs). Most prior work focuses on…
DSA-Tokenizer: Disentangled Semantic-Acoustic Tokenization via Flow Matching-based Hierarchical Fusion
Speech tokenizers are a key building block of fully discrete Speech LLMs. Existing tokenizers either prioritize semantic encoding, fuse sem…
Hot-Start Chinese Language Modeling:Visual Glyphs Accelerate Sample-Efficient Learning
In this work, we study whether rendering Chinese characters as visual glyph images, rather than discrete token IDs as mainstream LLMs do, p…
MASCOT: Towards Multi-Agent Socio-Collaborative Companion Systems
Multi-agent systems (MAS) are emerging as promising socio-collaborative companions for emotional and cognitive support. However, existing s…
A Monosemantic Attribution Framework for Stable Interpretability in Clinical Neuroscience Transformer-Based Language Models
Interpretability remains a key challenge for deploying language models (LM) in clinical settings such as progression diagnosis of Alzheimer…
ELF: A Family of Encoder-Free ECG-Language Models
ECG-Language Models (ELMs) extend recent advances in Multimodal Large Language Models (MLLMs) to automated ECG interpretation. However, mos…
ASKD-Whisper: Adaptive Self-knowledge Distillation for Efficient and Low-Latency Automatic Speech Recognition
Knowledge distillation (KD) is one of the most effective paradigms for compressing large-scale foundation models into deployable architectu…
マルチエージェント討論を読み解く: 自信と多様性の役割
マルチエージェント ディベート (MAD) は、テスト時間のスケーリングを通じて大規模言語モデル (LLM) のパフォーマンスを向上させるために広く使用されていますが、最近の研究では、バニラの MAD は、計算コストが高いにもかかわらず、単純な多数決を下回ることが多いことが示されています。研究によると、同種のエージェントと統一的な信念の更新の下では、議論は期待される正しさを維持するため、結果を確実に改善することはできません。人間による熟慮と集団的意思決定からの発見に基づいて、バニラ MAD に欠けている 2 つの重要なメカニズムを特定します。(i) 初期の視点の多様性と、(ii) 明示的で調整された信頼性のコミュニケーションです。私たちは 2 つの軽量介入を提案します。まず、多様性を意識した初期化により、より多様な回答候補プールが選択され、議論の開始時に正しい仮説が存在する可能性が高まります。 2 つ目は、エージェントが調整された自信を表現し、他の人の自信に基づいて最新情報を条件付けする、自信調整型ディベート プロトコルです。我々は、多様性を意識した初期化により、基礎となる更新ダイナミクスを変更することなく MAD 成功の事前確率が向上する一方で、信頼度調整された更新により、議論が体系的に正しい仮説に向かうことが可能になることを理論的に示します。経験的には、6 つの推論指向の QA ベンチマーク全体で、私たちの手法はバニラの MAD と多数決を一貫して上回っています。私たちの結果は、人間による熟慮と LLM ベースの議論を結びつけ、シンプルで原則に基づいた修正が議論の有効性を大幅に高めることができることを示しています。
原文 (English)
Demystifying Multi-Agent Debate: The Role of Confidence and Diversity
Multi-agent debate (MAD) is widely used to improve large language model (LLM) performance through test-time scaling, yet recent work shows that vanilla MAD often underperforms simple majority vote despite higher computational cost. Studies show that, under homogeneous agents and uniform belief updates, debate preserves expected correctness and therefore cannot reliably improve outcomes. Drawing on findings from human deliberation and collective decision-making, we identify two key mechanisms missing from vanilla MAD: (i) diversity of initial viewpoints and (ii) explicit, calibrated confidence communication. We propose two lightweight interventions. First, a diversity-aware initialisation that selects a more diverse pool of candidate answers, increasing the likelihood that a correct hypothesis is present at the start of debate. Second, a confidence-modulated debate protocol in which agents express calibrated confidence and condition their updates on others' confidence. We show theoretically that diversity-aware initialisation improves the prior probability of MAD success without changing the underlying update dynamics, while confidence-modulated updates enable debate to systematically drift to the correct hypothesis. Empirically, across six reasoning-oriented QA benchmarks, our methods consistently outperform vanilla MAD and majority vote. Our results connect human deliberation with LLM-based debate and demonstrate that simple, principled modifications can substantially enhance debate effectiveness.
APB-V: Accelerating Long-Video Understanding via Sequence-Parallelism-aware Approximate Attention
The efficiency of long-video inference remains a critical bottleneck, mainly due to the dense computation in the prefill stage of Large Mul…
Med-Scout: Curing MLLMs' Geometric Blindness in Medical Perception via Geometry-Aware RL Post-Training
Despite recent Multimodal Large Language Models (MLLMs)' linguistic prowess in medical diagnosis, we find even state-of-the-art MLLMs suffe…
When Single Answer Is Not Enough: Rethinking Single-Step Retrosynthesis Benchmarks for LLMs
Recent progress has expanded the use of large language models (LLMs) in drug discovery, including synthesis planning. However, objective ev…
Universal One-third Time Scaling in Learning Peaked Distributions
Training large language models (LLMs) is computationally expensive, partly because the loss exhibits slow power-law convergence whose origi…
Optimal Bayesian Stopping for Efficient Inference of Consistent LLM Answers
A simple strategy for improving LLM accuracy, especially in math and reasoning problems, is to sample multiple responses and submit the ans…
Inverse Depth Scaling From Most Layers Being Similar
Neural scaling laws relate loss to model size in large language models (LLMs), yet depth and width may contribute to performance differentl…
Principle-Evolvable Scientific Discovery via Uncertainty Minimization
Large Language Model (LLM)-based scientific agents have accelerated scientific discovery, yet they often suffer from significant inefficien…
"Do Not Mention This to the User": Detecting and Understanding Malicious Agent Skills
LLM-based coding agents increasingly rely on third-party extensions called skills, which bundle natural language instructions and helper sc…
Principled Synthetic Data Enables the First Scaling Laws for LLMs in Recommendation
Large Language Models (LLMs) represent a promising frontier for recommender systems, yet their development has been impeded by the absence…
When and How Much to Imagine: Adaptive Test-Time Scaling with World Models for Visual Spatial Reasoning
Despite rapid progress in MLLMs, visual spatial reasoning remains unreliable when correct answers depend on how a scene would appear under…
AnomSeer: Reinforcing Multimodal LLMs to Reason for Time-Series Anomaly Detection
Time-series anomaly detection (TSAD) with multimodal large language models (MLLMs) is an emerging area, yet a persistent challenge remains:…
Mitigating Reward Hacking in RLHF via Bayesian Non-negative Reward Modeling
Reward models learned from human preferences are central to aligning large language models (LLMs) via reinforcement learning from human fee…
What Do LLMs Know About Alzheimer's Disease? Multi-loss Fine-Tuning and Probing for AD Detection
Reliable early detection of Alzheimer's disease (AD) is challenging, particularly due to the limited availability of labeled data. While la…
You Can Learn Tokenization End-to-End with Reinforcement Learning
Tokenization is a hardcoded compression step which remains in the training pipeline of Large Language Models (LLMs), despite a general tren…
DenseMLLM: Standard Multimodal LLMs for Dense Prediction
Multimodal Large Language Models (MLLMs) have demonstrated exceptional capabilities in high-level visual understanding. However, extending…
Atomix: Timely, Transactional Tool Use for Reliable Agentic Workflows
LLM agents execute multi-step workflows that mutate external state through tools. Common orchestrators treat tool return as the settlement…
Are LLMs Ready for Neural-integrated Mechanistic Modeling? A Benchmark and Agentic Framework
Large language models (LLMs) have shown promise in constructing mechanistic models from data. However, existing evaluations largely focus o…
Evaluating Reliability Asymmetries in Chinese Factual Search and AI Answers
Search engines and AI-powered systems increasingly mediate access to factual information, yet their reliability remains difficult to evalua…
Scaling Search Relevance: Augmenting App Store Ranking with LLM-Generated Judgments
Large-scale commercial search systems optimize for relevance to drive successful sessions that help users find what they are looking for. T…
LookWise: Knowing When and Where to Look for Fine-Grained Visual Reasoning in Multimodal Large Language Models
Multimodal Large Language Models (MLLMs) are shifting towards "Thinking with Images" by actively exploring image details. While effective,…
Constitutional Black-Box Monitoring for Scheming in LLM Agents
Safe deployment of Large Language Model (LLM) agents in autonomous settings requires reliable oversight mechanisms. A central challenge is…
Concept Heterogeneity-aware Representation Steering
Representation steering offers a lightweight mechanism for controlling the behavior of large language models (LLMs) by intervening on inter…
One Bias After Another: Mechanistic Reward Shaping and Persistent Biases in Language Reward Models
Reward Models (RMs) are crucial for online alignment of language models (LMs) with human preferences. However, RM-based preference-tuning i…
Escaping the BLEU Trap: A Signal-Grounded Framework with Decoupled Semantic Guidance for EEG-to-Text Decoding
Decoding natural language from non-invasive EEG signals is a promising yet challenging task. However, current state-of-the-art models remai…
Med-V1: Small Language Models for Zero-shot and Scalable Biomedical Evidence Attribution
Assessing whether an article supports an assertion is essential for hallucination detection and claim verification. While large language mo…
DyLLM: Efficient Diffusion LLM Inference via Saliency-based Token Selection and Partial Attention
Masked diffusion language models enable parallel token decoding, providing a promising alternative to the sequential nature of autoregressi…
ActiveUltraFeedback: Efficient Preference Data Generation using Active Learning
Reinforcement Learning from Human Feedback (RLHF) has become the standard for aligning Large Language Models (LLMs), yet its efficacy is bo…
ES-Merging: Biological MLLM Merging via Embedding Space Signals
Biological multimodal large language models (MLLMs) have emerged as powerful foundation models for scientific discovery. However, existing…
Context Matters: Repository-Aware Security Analysis of the Agent Skill Ecosystem
Agent skills extend local AI agents, such as Claude Code and OpenClaw, with additional functionality. Their growing popularity has led to d…
scicode-lint: Detecting Methodology Bugs in Scientific Python Code with LLM-Generated Patterns
Methodology bugs in scientific Python code produce plausible but incorrect results that traditional linters and static analysis tools canno…
MineDraft: A Framework for Batch Parallel Speculative Decoding
Speculative decoding (SD) accelerates large language model inference by using a smaller draft model to propose draft tokens that are subseq…
Failure of contextual invariance in large language models
Standard evaluation practices assume that large language model (LLM) outputs are stable when prompts are embedded in contextually equivalen…
Claudini: Autoresearch Discovers State-of-the-Art Adversarial Attack Algorithms for LLMs
We show that AI agents are capable of discovering novel algorithms for adversarial attacks against LLMs, advancing the state of the art on…
Limits of Spatial Imagery Reasoning in Frontier LLM Models
Large Language Models (LLMs) have demonstrated impressive reasoning capabilities, yet they struggle with spatial tasks that require mental…
Understand and Accelerate Memory Processing Pipeline for Large Language Model Inference
Modern large language models (LLMs) increasingly depends on efficient long-context processing and generation mechanisms, including sparse a…
Acoustic and perceptual differences between standard and accented speech and their voice clones
Voice cloning is often evaluated in terms of overall quality, but less is known about accent preservation and its perceptual consequences.…
Distributional Open-Ended Evaluation of LLM Cultural Value Alignment Based on Value Codebook
As LLMs are globally deployed, aligning their cultural value orientations is critical for safety and user engagement. However, existing ben…
AtomEval: Validity-Aware Atomic Evaluation of Adversarial Claim Rewriting in Fact Verification
Large language models (LLMs) can rewrite refuted claims to evade evidence-based fact verifiers, but conventional attack success rate (ASR)…
SCOPE: Signal-Calibrated On-Policy Distillation Enhancement with Dual-Path Adaptive Weighting
On-policy reinforcement learning has become the dominant paradigm for reasoning alignment in large language models, yet its sparse, outcome…
TInR: Exploring Tool-Internalized Reasoning in Large Language Models
Tool-Integrated Reasoning (TIR) has emerged as a promising direction by extending Large Language Models' (LLMs) capabilities with external…
Gradients with Respect to Semantics Preserving Embeddings Tell the Uncertainty of Large Language Models
Uncertainty quantification (UQ) is an important technique for ensuring the trustworthiness of LLMs, given their tendency to hallucinate. Ex…
Cornerstones or Stumbling Blocks? Deciphering the Rock Tokens in On-Policy Distillation
While recent work in Reinforcement Learning with Verifiable Rewards (RLVR) has shown that a small subset of critical tokens disproportionat…
OGLS-SD: On-Policy Self-Distillation with Outcome-Guided Logit Steering for LLM Reasoning
We study on-policy self-distillation (OPSD), where a language model improves its reasoning ability by distilling privileged teacher distrib…
REALISTA: Realistic Latent Adversarial Attacks that Elicit LLM Hallucinations
Large language models (LLMs) achieve strong performance across many tasks but remain vulnerable to hallucinations, making it important to s…
Many-Shot CoT-ICL: Making In-Context Learning Truly Learn
While many-shot ICL achieves remarkable performance, prior studies of its scaling behavior have mainly focused on non-reasoning tasks. In t…
Lying Is Just a Phase: The Hidden Alignment Transition in Language Model Scaling
Scaling laws predict loss from compute but not how capabilities interact. We measure the coupling between reasoning and truthfulness across…
証明されたツールサーバーアドミッション: モデルコンテキストプロトコルのセキュリティ拡張
モデル コンテキスト プロトコル (MCP) は、大規模言語モデル (LLM) エージェントと外部ツール サーバーがメッセージを交換する方法を標準化しますが、信頼するものではありません。ホストは、どのサーバーを使用できるか、どのような感度で、どのサーバーのツールが制限されているかについては考慮せずに、サーバーの自己宣言されたツール リストを読み取り、呼び出しをディスパッチします。この取り組みは、具体的なニーズから生まれました。MCP や Enclawed 独自のツールのアプリケーション プログラミング インターフェイス (API) を変更することなく、Enclawed エージェントが Google の外部で運用されている MCP サーバー (Gmail、カレンダー、ドライブ) を安全に使用できるようにし、サーバーを許可し、サーバーが駆動する可能性のあるツールを制限するというものです。私たちが構築した、mcp 認定のメカニズム (オープンな enclawed-oss ディストリビューションと enclaved フレーバーの両方で出荷) は、一般化します。仲介されていないサードパーティ接続を 1 人のユーザーにとって安全でなくするギャップにより、規制された展開を認定することが不可能になります。これを 3 つの追加メカニズムで閉じます。(1) サーバーがよく知られた URI (Uniform Resource Identifier) で発行する小規模なオフライン署名クリアランス アサーション。ホストはツールのディスパッチ前に固定されたトラスト ルートに対して検証します。 (2) デフォルトで拒否されるサーバーごとのツール許可リストにより、サーバーがすべてのツールを信頼していないことを認める。 (3) フレーバーゲート型強制モード。チェックを警告からハード拒否に変換し、すべての決定を改ざん防止監査ログに書き込みます。ワイヤー形式、検証アルゴリズム、セキュリティ分析、LLM 主導の敵対的評価を提供します。次に、スキーマ、検証ルール、エラー レジストリ、既知の登録、機械チェック可能な適合ベクトルなど、標準的な Request-for-Comments (RFC 2119) 形式で設計を記述します。これにより、設計を再発明するのではなく、MCP の付録として採用できるようになります。拡張されていないホストは、既知のドキュメントを無視し、現在とまったく同じように動作します。
原文 (English)
Attested Tool-Server Admission: A Security Extension to the Model Context Protocol
The Model Context Protocol (MCP) standardizes how a large-language-model (LLM) agent and an external tool server exchange messages, but not trust: a host reads a server's self-declared tool list and dispatches calls, with no notion of which servers it may use, at what sensitivity, or which of a server's tools are in bounds. This work grew out of a concrete need -- letting the Enclawed agent use Google's externally-operated MCP servers (Gmail, Calendar, Drive) safely, admitting the server and bounding the tools it may drive, without changing MCP or Enclawed's own tool application-programming interface (API). The mechanism we built, mcp-attested (shipped in both the open enclawed-oss distribution and the enclaved flavor), generalizes: the gap that makes an unmediated third-party connection unsafe for one user makes a regulated deployment impossible to accredit. We close it with three additive mechanisms: (1) a small, offline-signed clearance assertion a server publishes at a well-known Uniform Resource Identifier (URI) and a host verifies against a pinned trust root before any tool dispatch; (2) a deny-by-default per-server tool allowlist, so admitting a server is not trusting its every tool; and (3) a flavor-gated enforcement mode that turns the checks from warnings into hard denials, with every decision written to a tamper-evident audit log. We give the wire format, the verification algorithm, a security analysis, and an LLM-driven adversarial evaluation; we then state the design in normative Request-for-Comments (RFC 2119) form -- schema, verification rules, error registry, well-known registration, and machine-checkable conformance vectors -- so it can be adopted as an MCP addendum rather than reinvented. An unextended host ignores the well-known document and behaves exactly as today.
GoQuant: Geometric Orthogonal Residual Projection for Multiplier-Free Power-of-Two Transformer Quantization
The deployment of Large Language Models (LLMs) and Vision Transformers (ViTs) on edge devices is significantly constrained by memory limita…
Algorithmic Fragility and Persona Bias in LLM-Generated Autistic Communication
Safety alignment reduces explicitly harmful outputs but inadvertently encodes a sanitized, neuronormative representation of marginalized co…
Targeted Remasking: Replacing Token Editing with Token-to-Mask Refinement in Discrete Diffusion Language Models
Discrete masked diffusion language models such as LLaDA generate text through iterative denoising, where mask tokens are progressively repl…
Beyond Trajectory-Level Attribution: Graph-Based Credit Assignment for Agentic Reinforcement Learning
Group-based reinforcement learning (RL) methods have achieved remarkable success in improving the performance of large language models (LLM…
Knowledge Graphs as the Missing Data Layer for LLM-Based Industrial Asset Operations
LLM-based agents for industrial asset operations show limited accuracy when reasoning over flat document stores. AssetOpsBench (KDD 2026) e…
Cast a Wider Net: Coordinated Pass@K Policy Optimization for Code Reasoning
Repeated sampling with a verifier is the standard way to allocate test-time compute for code generation, with pass@$K$ as the canonical met…
Generic Interpretation Approach for Transformer Models Incorporating Heterogenous Attention Structures
Transformer has significantly propelled the development of artificial intelligence, and certainly the development of agents as well. We cat…
BenGER: Benchmarking LLM Systems on Subsumption-Based Legal Reasoning in German Law
We introduce the BenGER (Benchmark for German Law) dataset for evaluating LLM systems on subsumption-based legal reasoning in German law. T…
臨床要約のための幻覚検出に基づく好みの最適化
大規模言語モデル (LLM) は、要約タスクでは有望であることが示されていますが、幻覚を引き起こすことがよくあります。幻覚はサポートされていない、または間違った記述であり、特殊な医療アプリケーションでの信頼性が制限されます。 \itermodelfull (\itermodel) という推論時間手法を導入します。これは、幻覚検出器を活用して、事実の修正に向けて反復的な要約改訂をガイドします。これに基づいて、検出器による調整軌道をモデルの微調整のための好みのペアに変換する、好み学習のための \itermodel (\model) を提案します。広範な実験により、\MimicIV からの現実世界の臨床ノートを要約する際に、私たちの方法がラマ モデルとジェマ モデルの幻覚を大幅に軽減することが示されました。たとえば、Llama-3.1-8B-Instruct の \itermodel は 24\% を軽減し、\model は 48\% の幻覚を軽減します。重要なのは、人間の専門家と LLM 陪審の評価に従って、両方の方法で要約の流暢性、一貫性、および関連性が維持されることです。これらの結果を総合すると、検出に基づいた改良と好みの学習が、臨床要約における事実の忠実性を向上させるための自動化されたソリューションを提供することを示しています。
原文 (English)
Hallucination Detection-Guided Preference Optimization for Clinical Summarization
Large language models (LLMs) have shown promise on summarization tasks, but they often produce hallucinations, which are unsupported or incorrect statements that limit their reliability in specialized healthcare applications. We introduce \itermodelfull (\itermodel), an inference-time method that leverages hallucination detectors to guide iterative summary revisions toward factual corrections. Building on this, we propose \itermodel for Preference Learning (\model), which converts detector-guided refinement trajectories into preference pairs for model finetuning. Extensive experiments show that our methods substantially reduce hallucinations for Llama and Gemma models in summarizing real-world clinical notes from \MimicIV. For example, \itermodel reduces 24\% and \model reduces 48\% hallucinations in Llama-3.1-8B-Instruct. Importantly, both methods preserve summary fluency, coherence, and relevance according to human expert and LLM-Jury evaluations. Together, these results demonstrate that detection-informed refinement and preference learning offer an automated solution for improving factual faithfulness in clinical summarization.
GEO-Bench: 生成エンジン最適化におけるランキング操作のベンチマーク
大規模言語モデル (LLM) では、ユーザーのクエリに対する製品、ドキュメント、推奨事項のランク付けが増えており、これらのランク付けを操作することによる公平性と情報の完全性への懸念が高まっています。生成エンジン最適化 (GEO) に関する研究により、多くの操作方法が生み出されてきましたが、それぞれの操作方法は独自のメトリクスを使用して独自のデータセットで評価されるため、それらの相対的な強度と検出可能性は不明のままです。 1 つのプロトコルの下で GEO ランキング操作攻撃を評価するベンチマークである GEO-Bench を紹介します。ブラック ボックスのプロンプト ベースの攻撃 (TAP、ゼロショット)、ホワイト ボックスの勾配ベースの攻撃 (STS、RAF、StealthRank)、および 10 のホワイト ハット C-SEO 戦略を統合します。有効性 (NRG、Success@{\alpha}、Promote@{\alpha}) とステルス (キーワード違反率、困惑率) の両方のメトリクスを使用して、固定オープンウェイト ランカー (Llama-3.1-8B-Instruct) に対して 5 つのデータセットのすべてのメソッドをスコア付けします。私たちの評価では、敵対的攻撃全体で有効性とステルス性がトレードオフであること、ブラック ボックス コンテンツの書き換えは、より流暢なテキストを生成しながら、ランク昇格に対する勾配ベースの攻撃と同等かそれを上回っており、一部のドメインではキーワード ベースと複雑さベースの検出の両方を回避できること、アクセス モデルが攻撃強度を予測していないことが示されています。 GEO-Bench は、データセット、攻撃実装、メトリクスを標準化することで、これらの攻撃パラダイム全体での初めての直接比較を可能にし、検出方法の開発をサポートします。
原文 (English)
GEO-Bench: Benchmarking Ranking Manipulation in Generative Engine Optimization
Large language models (LLMs) increasingly rank products, documents, and recommendations for user queries, which makes manipulating these rankings a growing concern for fairness and information integrity. Research on generative engine optimization (GEO) has produced many manipulation methods, but each is evaluated on its own dataset with its own metrics, so their relative strength and detectability stay unclear. We present GEO-Bench, a benchmark that evaluates GEO ranking-manipulation attacks under one protocol. It unifies black-box prompt-based attacks (TAP, Zero-Shot), white-box gradient-based attacks (STS, RAF, StealthRank), and ten white-hat C-SEO strategies. We score every method on five datasets against a fixed open-weight ranker (Llama-3.1-8B-Instruct), using metrics for both effectiveness (NRG, Success@{\alpha}, Promote@{\alpha}) and stealth (keyword violation rate, perplexity ratio). Our evaluation shows that effectiveness and stealth trade off across adversarial attacks, that black-box content rewriting matches or exceeds gradient-based attacks on rank promotion while producing more fluent text and can evade both keyword- and perplexity-based detection on some domains, and that the access model does not predict attack strength. By standardizing datasets, attack implementations, and metrics, GEO-Bench enables the first direct comparison across these attack paradigms and supports the development of detection methods.
BlockBatch: Multi-Scale Consensus Decoding for Efficient Diffusion Language Model Inference
Diffusion language models (dLLMs) generate text by iteratively denoising multiple token positions in parallel, offering an attractive alter…
Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments
Embodied intelligence is often studied through specialized models for individual tasks such as manipulation or navigation, resulting in fra…
Self-Trained Verification for Training- and Test-Time Self-Improvement
Self-improvement at scale has been a longstanding goal for reasoning models, and there are two natural places to do it: at test time, throu…
生成AIを「悩み相談」に使う10代女性たち 阿部前監督事件を招いた「AI正論」の波紋
長女(18)への暴行容疑で、プロ野球巨人の監督だった阿部慎之助さん(47)が逮捕された。きっかけは、長女が対話型の生成AI「ChatGPT」に被害を相談し、回答に基づき児童相談所へ連絡したことだった。長女の行動の是非(ぜひ)とは別に、生成AIは若者の相談相手として定着し、若い女…
製造現場の「AIアレルギー」をどう払拭? 日立・新卒デジタル人材「3カ月奮闘記」
日立製作所は、AIやデータ解析の専門スキルを持つ新人データサイエンティストを、製造現場へと送り込んでいる。いかにして現場の「AIアレルギー」を払拭し、現場とのコミュニケーションを通じて業務時間を短縮する生成AIツールを定着させたのか。実習に参加した若手女性データサイエンティスト…
Florida sues OpenAI, Sam Altman, in first-of-its-kind lawsuit over violent incidents
The lawsuit partially revolves around a shooting at Florida State University last year, and ChatGPT's alleged role in the incident.
Anthropicが上場準備 直近の評価額は約154兆円
AnthropicがIPOに向け、SECに登録書類「S-1」のドラフトを非公開で提出した。直近のシリーズH資金調達での評価額は約9650億ドル(約154兆円)に達している。
Claudeのレート制限を“詫びリセット”、ProとMaxプラン向け 一部で「想定より速く使用量消費」
米Anthropicは、チャットAI「Claude」の有料プラン「Pro」「Max」のユーザーを対象に、5時間および週次のレート制限をリセットしたと発表した。
Anthropic files to go public
Anthropic, now an AI powerhouse that has landed top-tier enterprise customers, was once considered an underdog in the emerging world of lar…
Building the infrastructure for the Intelligence Age in Michigan
OpenAI breaks ground on a 1GW data center project in Michigan as part of Stargate, building AI infrastructure to expand access, create jobs…
OpenAI frontier models and Codex are now available on AWS
OpenAI frontier models and Codex are now generally available on AWS, giving enterprises a new path to build with OpenAI through the AWS env…
ハーネスの更新はハーネスの利点ではありません: 自己進化する LLM エージェントの進化機能の解きほぐし
LLM エージェントは、プロンプト、スキル、メモリ、ツールなどの編集可能な外部ハーネスを中心に構築されたシステムとして導入されることが増えており、モデル パラメーターを変更せずにタスクの実行を形成します。ハーネスの自己進化は、実行証拠からこれらのハーネスを更新することで、そのようなエージェントを適応させます。しかし、タスク解決におけるモデルの基本的な能力が、ハーネスの自己進化におけるその能力を予測するかどうかは依然として不明です。どのモデルが有用なハーネス更新を生成し、どのモデルが実際にその恩恵を受けるのでしょうか?我々は 2 つのハーネス自己進化機能を分析します。(i) ハーネス更新。実行証拠から有用な永続的なハーネス更新を生成する機能。 (ii) ハーネスの利点、タスク解決中に更新されたハーネスから恩恵を受ける機能。私たちの分析により、2 つの発見が明らかになりました。まず、ハーネスの更新は基本機能がフラットです。さまざまな機能層のモデルがハーネスの更新を生成し、驚くほど同様の利益をもたらします。 Qwen3.5-9B のアップデートでも、Claude Opus~4.6 に匹敵するゲインが得られます。第 2 に、ハーネスの利点は基本機能において単調ではありません。弱い層のモデルは更新されたハーネスからほとんど恩恵を受けず、中間層のモデルは最も恩恵を受け、強い層のモデルは中間層よりも恩恵が少ないです。弱い層での低いゲインを 2 つの障害モードに追跡します。弱い層のモデルは、関連するハーネス アーティファクトのアクティブ化に失敗するか、アクティブ化しても忠実に従うことができない可能性があります。これらの調査結果は、進化者ではなくタスク解決エージェントに能力予算を投資し、エージェントのトレーニングに続くハーネス呼び出しと長期的な指導をターゲットにすることを示唆しています。私たちのソース コードは https://github.com/A-EVO-Lab/a-evolve/tree/release/harness-evolution で公開されています。
原文 (English)
Harness Updating Is Not Harness Benefit: Disentangling Evolution Capabilities in Self-Evolving LLM Agents
LLM agents are increasingly deployed as systems built around editable external harnesses, including prompts, skills, memories and tools, that shape task execution without changing model parameters. Harness self-evolution adapts such agents by updating these harnesses from execution evidence. Yet it remains unclear whether a model's base capability in task-solving predicts its capabilities in harness self-evolution: which models produce useful harness updates, and which actually benefit from them? We analyze two harness self-evolution capabilities: (i) harness-updating, the capability to produce useful persistent harness updates from execution evidence; (ii) harness-benefit, the capability to benefit from updated harnesses during task solving. Our analysis reveals two findings. First, harness-updating is flat in base capability: models from different capability tiers produce harness updates that lead to surprisingly similar gains; even Qwen3.5-9B's updates yield gains comparable to those of Claude Opus~4.6. Second, harness-benefit is non-monotonic in base capability: weak-tier models benefit little from updated harnesses, mid-tier models benefit most, and strong-tier models benefit less than mid-tier. We trace low gains at the weak tier to two failure modes: weak-tier models may fail to activate relevant harness artifacts, or activate them but fail to follow them faithfully. These findings suggest investing capability budget in the task-solving agent rather than the evolver, and targeting harness invocation and long-horizon instruction following in agent training. Our source code is publicly available at https://github.com/A-EVO-Lab/a-evolve/tree/release/harness-evolution.
EHRBench: LLM を使用した臨床意思決定のための、自動化された信頼性の高い EHR ベースのベンチマーク
臨床意思決定 (CDM) は現実世界の臨床ワークフローの中心であり、臨床医は不完全な証拠の下で診断を推測し、治療法を選択し、将来の健康結果を予測します。強力な言語機能、広範な生物医学的知識、効率性により、これらの意思決定をサポートするために LLM がますます使用されていますが、実際の臨床意思決定タスクにおける LLM の信頼性は依然として十分に理解されていません。 CDM モデル、特に LLM ベースのモデルを評価するには、スケールと品質の両方を保証するために、自動化されている信頼性の高いパイプラインを介して理想的で実用的な医療意思決定ベンチマークを構築する必要があります。さらに、実際の患者の EHR における CDM ベンチマークの基礎は、実質的な生物医学的知識と臨床推論を必要とする実践的な CDM タスクの評価をより適切にサポートできます。ギャップを埋めるために、LLM ベースの臨床意思決定を大規模に評価するための、自動化された信頼性の高い EHR ベースのベンチマークである EHRBench を導入します。スケーラビリティと信頼性を確保するために、EHRBench は EHR-LLM-KB (知識ベース) 対話パイプラインを通じて構築されています。効率性を高めるため、特殊な LLM を使用して、遭遇レベルの EHR 軌跡を構造化されたテンプレートに自動的に変換し、テンプレートを QA 項目に決定論的にインスタンス化します。並行して、体系的な KB ベースの検証と強化を適用して、幻覚や曖昧な関係をフィルタリングし、信頼性を向上させます。このパイプラインを使用して、診断、治療、予後という 3 つの中核となる推論に必要な臨床意思決定タスクにわたる約 100 万 (960,067) の QA 項目を構築します。 EHRBench で 30 を超える代表的な LLM のベンチマークを行い、パフォーマンスと堅牢性の詳細な分析を提供します。結果は、設定全体で一貫した機能傾向を示し、EHRBench の信頼性をさらに検証し、臨床的に信頼できる LLM システムに向けた実用的なギャップを浮き彫りにしました。
原文 (English)
EHRBench: An Automated and Reliable EHR-based Benchmark for Clinical Decision Making with LLMs
Clinical decision-making (CDM) is central to real-world clinical workflows, where clinicians infer diagnoses, select treatments, or anticipate future health outcomes under incomplete evidence. LLMs are increasingly used to support these decisions due to strong language capabilities, broad biomedical knowledge, and efficiency, yet the reliability of LLMs on real-world clinical decision tasks remains insufficiently understood. To evaluate CDM models, especially LLM-based models, an ideal and practical medical decision benchmark should be constructed via an automated yet reliable pipeline to ensure both scale and quality. Moreover, the grounding of a CDM benchmark in real patient EHRs can better support evaluation on practical CDM tasks that require substantive biomedical knowledge and clinical inference. To fill the gaps, we introduce EHRBench, an automated and reliable EHR-grounded benchmark for evaluating LLM-based clinical decision-making at scale. To ensure scalability and reliability, EHRBench is constructed through an EHR-LLM-KB(knowledge-base) interaction pipeline. For efficiency, we use a specialized LLM to automatically convert encounter-level EHR trajectories into structured templates and deterministically instantiate the templates into QA items. In parallel, we apply systematic KB-based verification and enrichment to filter hallucinated or ambiguous relations and to improve reliability. Using this pipeline, we construct nearly 1M (960,067) QA items spanning three core inference-required clinical decision tasks: diagnosis, treatment, and prognosis. We benchmark more than 30 representative LLMs on EHRBench and provide detailed analyses of performance and robustness. The results show consistent capability trends across settings, further validating the reliability of EHRBench and highlighting actionable gaps toward clinically reliable LLM systems.
長期タスク向けの学習エージェント互換のコンテキスト管理
LLM エージェントは、Web 検索や実世界のアプリケーションでの詳細な調査など、長期にわたるタスクに直面することが増えています。このタスクでは、蓄積されたコンテキストが長期コンテキストの劣化や推論の失敗を引き起こす可能性があります。これまでの研究では、エージェント側のコンテキスト制御や要約などの固定戦略を使用したコンテキスト管理を通じてこの問題を軽減していましたが、適応のためにエージェント自体をトレーニングする必要があり、クローズドソースのエージェントには非現実的であり、エージェントごとに異なる戦略が必要になる可能性があることが無視されていました。 Adaptive Context Management (AdaCoM) を導入します。これは、柔軟な変更アクションとエンドツーエンドの強化学習を通じて、凍結されたエージェントのコンテキストを管理するように外部 LLM をトレーニングします。 AdaCoM は、Web 検索およびディープリサーチベンチマーク上のさまざまなエージェントにわたって、古いコンテンツを削除しながらタスクの制約と進行状況を維持することで、パフォーマンスを大幅に向上させます。学習された戦略は、忠実度と信頼性のトレードオフを明らかにします。つまり、バニラ ReAct のパフォーマンスが高いエージェントは、忠実度の高いコンテキストの保存から恩恵を受けますが、パフォーマンスが低いエージェントは、信頼できる推論体制内に留まるために、より積極的な圧縮を必要とします。転送実験では、AdaCoM が同様の機能 (バニラ ReAct パフォーマンスで測定) を持つエージェント間で最も効果的に一般化することが示されており、エージェント システムの再利用可能なコンテキスト マネージャーへの実用的な道筋が示唆されています。
原文 (English)
Learning Agent-Compatible Context Management for Long-Horizon Tasks
LLM agents increasingly face long-horizon tasks such as web search and deep research in real-world applications, where accumulated context can cause long-context degradation and reasoning failures. Prior work mitigates this through context management with agent-side context control or fixed strategies such as summarization, which require training the agent itself for adaptation - making it impractical for closed-source agents and ignoring that different agents may require different strategies. We introduce Adaptive Context Management (AdaCoM), which trains an external LLM to manage the context of a frozen agent through flexible modification actions and end-to-end reinforcement learning. Across diverse agents on web search and deep research benchmarks, AdaCoM substantially improves performance by preserving task constraints and progress while pruning stale content. The learned strategies reveal a Fidelity-Reliability Trade-off: agents with higher vanilla ReAct performance benefit from higher-fidelity context preservation, whereas lower-performing agents require more aggressive compression to stay within a reliable reasoning regime. Transfer experiments show that AdaCoM generalizes most effectively across agents with similar capability (measured by vanilla ReAct performance), suggesting a practical path toward reusable context managers for agent systems.
PReMISE: LLM 審査員の測定仕様としてのポリシールーブリック
LLM 審査員は自由形式の回答を評価することにますます慣れていますが、審査員のスコアは条件付けするルーブリックに大きく依存します。 「役立つ、事実に基づいた」回答を求める曖昧なルーブリックでは、事実をでっち上げたり、ユーザーの意図に反する洗練された回答が報酬となる可能性があります。私たちは再利用可能なルーブリックを測定仕様として扱います。ルーブリックを変更すると、固定されたジャッジによって引き起こされる応答品質の測定が変化します。我々は、ペアごとの人間の選好データを基に、(i) ポリシーレベルのルーブリックセットを発見し、(ii) LLM 審査員が使用するルーブリックセットを構造的適切性、信頼性、選好適合性、敵対的堅牢性の 4 つの軸に沿って監査するフレームワークである PReMISE を紹介します。ルーブリック ソース全体にわたって、信頼性があり、好みを予測でき、敵対的に堅牢であるという生のソースは存在しません。また、評価者間の合意が高いことは、悪用可能性が低いことを意味するものではありません。 PReMISE は、適用性、特異性、効果的な次元性を同時に採点できる唯一のルーブリック ソースです。私たちは監査を対象とした 2 つの修復操作に貢献しています。優先順位の選択により、一対の回答に対するジャッジの精度が $65.0\%$ から $68.6\%$ に向上し、最も強力なルーブリック検出ベースラインと競合し、ジャッジ間のスイープで 3 人のジャッジのうち 2 人をリードしています。信頼性を制約した改良により、エクスプロイトの応答が高スコアを獲得する割合が $46.4\%$ から $36.0\%$ に減少しましたが、審査員間の合意はほとんど変わりません ($\alpha{=}.531\to.519$)。
原文 (English)
PReMISE: Policy Rubrics as Measurement Specifications for LLM Judges
LLM judges are increasingly used to evaluate open-ended responses, but their scores depend strongly on the rubrics that condition them. A vague rubric asking for a response to be ``helpful and factual'' can reward polished answers that invent facts or violate user intent. We treat reusable rubrics as measurement specifications: changing the rubric changes the response quality measurement induced by a fixed judge. We introduce PReMISE, a framework that, given pairwise human-preference data, (i) discovers a policy-level rubric set, and (ii) audits any rubric set under LLM-judge use along four axes: structural adequacy, reliability, preference fit, and adversarial robustness. Across rubric sources no raw source is simultaneously reliable, preference-predictive, and adversarially robust; and high inter-rater agreement does not imply low exploitability. PReMISE is the only rubric source to score non-trivially on applicability, specificity, and effective dimensionality simultaneously. We contribute two audit-targeted repair operations: preference-rank selection raises judge accuracy on paired responses from $65.0\%$ to $68.6\%$, competitive with the strongest rubric-discovery baselines and leading on two of three judges in our cross-judge sweep; reliability-constrained refinement reduces the rate at which exploit responses receive high scores from $46.4\%$ to $36.0\%$ with little change in inter-judge agreement ($\alpha{=}.531\to.519$).
構造を認識した報酬を備えた深い研究のためのプランナー中心の強化学習
詳細な調査タスクでは、LLM が何を調査するかを計画し、証拠を取得し、複数の調査分野にわたって長い形式の回答を総合する必要があります。既存のトレーニング パラダイムは、代理として短い形式の検証可能な QA に依存するか、モノリシックな長い軌道を最適化するかのいずれかです。そのため、計画と実行が複雑になり、計画プロセスに対する単位の割り当てが弱くなります。私たちは、プランナー中心の深層研究フレームワークである DecomposeR を提案します。DecomposeR は、研究計画を型付き有向非巡回グラフ (DAG) として表現し、計画を明示的、構造化して報酬を得ることができるようにします。 Qwen3-8B モデルを 2 段階でトレーニングします。プランナー強化学習 (RL) は、まず研究計画を改善するためにグラフ構造とクエリ分解を学習し、次にアンサー強化学習 (RL) がブランチレベルの実行と、学習されたプランに基づいて条件付けされた最終合成を学習します。 DecomposeR は、平坦な軌道ではなく、明示的なプランナー トークンと構造化コンポーネントに報酬を割り当てることで、エンドツーエンドのトレーニングの曖昧さを軽減しながら、計画のよりきめ細かい最適化を可能にします。実験によると、DecomposeR-8B は、計画および回答機能の向上により、一般的な長文ベンチマークにおいて、強力で比較可能なオープン ベースラインよりも 5.1 ~ 8.0 ポイント向上していることが示されています。
原文 (English)
Planner-Centric Reinforcement Learning for Deep Research with Structure-Aware Reward
Deep research tasks require LLMs to plan what to investigate, retrieve evidence, and synthesize long-form answers across multiple branches of inquiry. Existing training paradigms either rely on short-form verifiable QA as a proxy or optimize monolithic long trajectories, which makes planning and execution difficult to disentangle and yields weak credit assignment for the planning process. We propose DecomposeR, a planner-centric deep research framework that represents research plans as typed directed acyclic graphs (DAGs), allowing planning to be made explicit, structured, and rewardable. We train a Qwen3-8B model in two stages: planner reinforcement learning (RL) first learns graph structure and query decomposition to improve research planning, and answerer reinforcement learning (RL) then learns branch-level execution and final synthesis conditioned on the learned plan. By assigning rewards to explicit planner tokens and structured components rather than to a flat trajectory, DecomposeR enables finer-grained optimization of planning while reducing the ambiguity of end-to-end training. Experiments show that DecomposeR-8B improves over strong comparable open baselines by 5.1-8.0 points on popular long-form benchmarks due to improved planning and answering capabilities.
COMPASS: セーフ サーチ エージェント向けの認知 MCTS ガイドによるプロセス調整
LLM を利用した検索エージェントにより、複数ステップの推論とツールの使用が可能になります。ただし、これらの機能は、有害な意図が一見無害に見えるサブクエリに分解され、安全でない結果を引き起こす可能性があるため、検索による安全性の低下を引き起こします。既存の調整手法は、まばらな安全信号を捕捉するのに苦労しており、複数ステップの相互作用にわたる多様な違反を監視できません。私たちは、一般的な実用性を維持しながら、エージェントのワークフロー全体で堅牢な安全調整を実現するように設計されたコグニティブ MCTS ガイド付きプロセス調整フレームワークである COMPASS を提案します。 COMPASS は、コグニティブ ツリー探索 (CTE) を統合してステルス攻撃の軌道を効率的に合成し、内省的ステップワイズ アライメント (ISA) を統合して、きめ細かいプロセス監視のためにリスクのある中間アクションを分離します。経験的な結果は、COMPASS が必要なトレーニング データを大幅に削減しながら、安全性とユーティリティの有利なトレードオフを達成していることを示しています。
原文 (English)
COMPASS: Cognitive MCTS-Guided Process Alignment for Safe Search Agents
LLM-powered search agents enable multi-step reasoning and tool use. However, these capabilities introduce retrieval-induced safety degradation, as harmful intents may decompose into seemingly innocuous sub-queries that lead to unsafe outcomes. Existing alignment methods struggle to capture sparse safety signals and fail to supervise diverse violations across multi-step interactions. We propose COMPASS, a Cognitive MCTS-Guided Process Alignment framework designed to achieve robust safety alignment throughout the agent workflow while preserving general utility. COMPASS integrates cognitive tree exploration (CTE) to efficiently synthesize stealthy attack trajectories, and introspective step-wise alignment (ISA) to isolate risky intermediate actions for fine-grained process supervision. Empirical results show that COMPASS achieves a favorable safety-utility trade-off while requiring substantially less training data.
リーン定理証明のための LLM フィードバックの抽出
推論モデルのポストトレーニングでは通常、教師あり微調整と検証可能な報酬からの強化学習が組み合わされ、最も一般的には GRPO が使用されます。ただし、このアルゴリズムには、報酬がまばらで、探索が制限され、モードが崩壊するという問題があります。自己蒸留に関する最近の研究に基づいて、私たちはフィードバック蒸留を提案します。これは、言語モデルによって生成された特権フィードバックを条件とした独自の分布にトークン レベルで一致するようにモデルがトレーニングされるトレーニング方法です。フィードバック蒸留はトークンレベルの監視を提供し、外部の知識を注入できます。 Lean4 定理証明の方法を評価すると、フィードバック蒸留は GRPO よりも生成された軌道の多様性を維持し、より高いポリシー エントロピーとより優れた pass@k スケーリングを生み出すことがわかります。 2 つの方法は補完的です。フィードバック蒸留チェックポイントから GRPO を初期化することは、どちらかの方法を単独で行うよりも優れたパフォーマンスを発揮します。全体として、私たちの結果は、複雑な推論のトレーニング後の改善に向けた有望な手段であることを示唆しています。
原文 (English)
Distilling LLM Feedback for Lean Theorem Proving
Post-training for reasoning models typically combines supervised fine-tuning with reinforcement learning from verifiable rewards, most commonly with GRPO. However, this algorithm suffers from sparse rewards, limited exploration, and mode collapse. Building upon recent works on self-distillation, we propose Feedback Distillation, a training method where the model is trained to match, at the token level, its own distribution conditioned on privileged feedback produced by a language model. Feedback Distillation offers token-level supervision and can inject external knowledge. Evaluating our method for Lean4 theorem-proving, we find that Feedback Distillation maintains greater diversity in generated trajectories than GRPO, yielding higher policy entropy and better pass@k scaling. The two methods are complementary: initializing GRPO from a Feedback Distillation checkpoint outperforms either method alone. All in all, our results suggest a promising avenue to improve post-training for complex reasoning.
UniScale: モデル ルーティングとテスト時間スケーリングのオンライン共同最適化による適応型統合推論スケーリング
大規模言語モデル (LLM) を実際に展開する場合、推論の品質と計算コストのバランスをとることが中心的な課題となっています。既存のアプローチは、リクエストの複雑さに合わせてさまざまなスケールのモデル間で切り替えるモデル ルーティングと、きめ細かい制御のために固定モデル内で推論時間の計算を調整するテスト時間スケーリング (TTS) という、2 つの大きく独立した次元に沿ってこのトレードオフに取り組んでいます。ただし、この分離された設計には固有の制限が生じます。モデル ルーティングでは、モデル スケールがまばらなため、粒度が粗くて離散的なパフォーマンス変化が生じますが、単一モデル TTS では、多くの場合、容量の上限に遭遇し、コンピューティングが増加するにつれて利益が減少します。さらに、2 つのメカニズムを個別に扱うと、動的推論環境での適応性が制限されます。これらの制限を克服するために、単一の最適化空間でモデル ルーティングと TTS を統合する Unified Inference Scaling (UIS) を導入します。この定式化に基づいて、適応型 UIS を状況に応じたマルチアーム バンディット問題としてモデル化し、LinUCB を介して推論ポリシーを学習するオンライン フレームワークである UniScale を提案します。このフレームワークには、効率を意識した学習とコスト モデリングが組み込まれており、高次元のアクション スペースにわたって安定したスケーラブルな最適化が保証されます。評価の結果、UniScale は UIS 空間の相乗効果を効果的に活用して、多様で動的な推論シナリオ全体にわたって、きめ細かく一貫して優れた品質とコストのトレードオフを実現していることが示されています。
原文 (English)
UniScale: Adaptive Unified Inference Scaling via Online Joint Optimization of Model Routing and Test-Time Scaling
In real-world deployments of large language models (LLMs), balancing inference quality and computational cost has become a central challenge. Existing approaches tackle this trade-off along two largely independent dimensions: model routing, which switches among models of different scales to match request complexity, and test-time scaling (TTS), which adjusts inference-time compute within a fixed model for fine-grained control. However, this decoupled design introduces inherent limitations. Model routing yields coarse-grained, discrete performance changes due to the sparse set of model scales, while single-model TTS often encounters capacity ceilings and exhibits diminishing returns as compute increases. Moreover, treating the two mechanisms separately restricts adaptability in dynamic inference environments. To overcome these limitations, we introduce Unified Inference Scaling (UIS), which unifies model routing and TTS in a single optimization space. Building on this formulation, we propose UniScale, an online framework that models adaptive UIS as a contextual multi-armed bandit problem and learns inference policies via LinUCB. The framework incorporates efficiency-aware learning and cost modeling to ensure stable and scalable optimization over high-dimensional action spaces. Evaluation shows that UniScale effectively exploits the synergy in the UIS space to deliver a fine-grained and consistently better quality-cost trade-off across diverse, dynamic inference scenarios.
BilliardPhys-Bench: マルチモーダル LLM の物理的推論と視覚的ダイナミクスのベンチマーク
現在のマルチモーダル モデルは静的画像認識をうまく処理しますが、直感的な物理的推論には依然として弱点が残っています。これらのシステムでは、単一の画像からオブジェクトがどのように移動し相互作用するかを予測することは依然として困難です。合成ビリヤード環境における物理的推論のベンチマークである BilliardPhys-Bench を紹介します。その手続き型エンジンは、摩擦と弾性衝突を伴うランダム化されたシナリオを生成します。このベンチマークでは、(1) ボールとボールの衝突の予測、(2) 壁の跳ね返りについての推論、(3) 動作が停止した後の最終的なボールの位置の推定の 3 つの能力をテストします。 GPT、Claude、Gemini、Qwen ファミリーの最近の MLLM を評価します。シミュレーション時間が長くなり、シーンのジオメトリが複雑になると、パフォーマンスが低下します。また、「スタシス バイアス」と呼ばれる一貫した故障モードも観察されています。つまり、正しい物理的結果を推測することが難しい場合、モデルは相互作用がないと予測する傾向があります。これらの発見は、現在の MLLM が視覚ダイナミクスのどこで破綻しているかを示しており、マルチモーダル アーキテクチャにおけるより優れた物理的誘導バイアスの必要性を示しています。
原文 (English)
BilliardPhys-Bench: Benchmarking Physical Reasoning and Visual Dynamics of Multimodal LLMs
Current multimodal models handle static image recognition well, but intuitive physical reasoning remains a weakness. Predicting how objects will move and interact from a single image is still difficult for these systems. We present BilliardPhys-Bench, a benchmark for physical reasoning in synthetic billiards environments. Its procedural engine generates randomized scenarios with friction and elastic collisions. The benchmark tests three abilities: (1) predicting ball-to-ball collisions, (2) reasoning about wall bounces, and (3) estimating final ball positions after motion stops. We evaluate recent MLLMs from the GPT, Claude, Gemini, and Qwen families. Performance drops as simulation time increases and scene geometry grows more complex. We also observe a consistent failure mode we call "stasis bias": when the correct physical outcome is harder to infer, models tend to predict no interaction. These findings show where current MLLMs break down on visual dynamics and point toward the need for better physical inductive biases in multimodal architectures.
生成 AI における多元的調整のためのペルソナベースの評価フレームワーク
生成型人工知能の現在の調整パラダイムは、主にモノリシックなベンチマーク フレームワークに依存しており、人間の複数の判断を集約された統計ベースラインに還元することで、評価における文化的、人口統計的、および文脈上のばらつきを曖昧にします。我々は、単一の評価関数を人間の多様な視点を表す合成認知プロファイルの構造化された多様体に置き換える、AI 評価のための状態空間制約付きエミュレーション フレームワークを導入します。私たちは、最新の生成アーキテクチャがこれらの評価ペルソナを高い一貫性でインスタンス化して維持できることを示し、現実世界のコンセンサス変動をより厳密に反映する、多元的で視点に依存したベンチマークの形式を可能にします。しかし、我々は、逐次推論と確率的プロンプト摂動下でのこれらのシミュレートされた評価器の安定性をさらに分析し、状態空間ドリフトと意味論的不一致として現れるペルソナの一貫性の体系的な低下を明らかにしました。これらの発見は、静的な位置合わせの制約では、長期にわたって堅牢な評価動作を維持するには不十分であることを示唆しています。その代わりに、私たちは、一貫した認知エミュレーションを維持するために、生成システム内に動的で実行可能性主導の制御メカニズムを組み込む必要性を主張します。この研究は、ペルソナベースの評価を潜在表現多様体上の構造化された動的システムとして枠組み化することで、AI 評価に対する、より適応的で人間と連携した、状況に応じたアプローチの基盤を提供します。
原文 (English)
A Persona-Based Evaluation Framework for Pluralistic Alignment in Generative AI
Current alignment paradigms for generative artificial intelligence rely predominantly on monolithic benchmarking frameworks that reduce the plurality of human judgment to aggregated statistical baselines, thereby obscuring cultural, demographic, and contextual variability in evaluation. We introduce a state-space constrained emulation framework for AI evaluation that replaces singular assessment functions with a structured manifold of synthetic cognitive profiles representing diverse human perspectives. We show that modern generative architectures can instantiate and maintain these evaluative personas with high consistency, enabling a form of pluralistic, perspective-dependent benchmarking that more closely reflects real-world consensus variability. However, we further analyze the stability of these simulated evaluators under sequential inference and stochastic prompt perturbations, revealing systematic degradation in persona coherence that manifests as state-space drift and semantic inconsistency. These findings suggest that static alignment constraints are insufficient for sustaining robust evaluative behavior over time. Instead, we argue for the necessity of embedding dynamic, viability-driven regulatory mechanisms within generative systems to preserve coherent cognitive emulation. By framing persona-based evaluation as a structured dynamical system over latent representation manifolds, this study provides a foundation for more adaptive, human-aligned, and context-sensitive approaches to AI evaluation.
LLM-FACETS: LLM の透明性と説明責任を評価するためのプライバシー保護フレームワーク
大規模言語モデルの出力が事実に基づいており、認識論的に調整されており、方法論的に再現可能であるかどうかを評価することは、責任ある AI 導入の前提条件です。しかし、LLM の監査は、技術者以外の専門家にとってはアクセスできないままです。既存のツールにはプログラミングの専門知識と簡単ではない環境セットアップが必要であり、クラウドでホストされるプラットフォームは評価データを外部サービスに送信するため、AI の監視に法的責任を負うドメインの専門家やコンプライアンス担当者にとって障壁が生じています。 LLM-FACETS (LLM FActuality Cross-EvaluTion System) を紹介します。これは、ブラウザからアクセス可能なインターフェイスとプラグイン アーキテクチャを備えたオープンソース フレームワークで、EU AI 法と NIST AI リスク管理フレームワークで特定されているステークホルダーのカテゴリを反映する 3 つの実践者プロファイル (技術専門家、ドメイン専門家、コンプライアンス担当者) を中心に構造化されています。このアーキテクチャでは、データ フローが明示的になります。決定論的メトリクス (BLEU、ROUGE、BERTScore) は、アウトバウンド送信なしで完全に自己ホスト型サーバー内で実行されます。 LLM 判定メトリクスは外部 API に明示的に接続し、ユーザーは資格情報の完全な制御を保持します。このフレームワークは、認識上の不確実性に対するトークンレベルの対数確率の視覚化、裁判官のバイアスを軽減するための複数裁判官のコンセンサス、幻覚を検出して位置を特定するための RAG トライアド メトリクス (忠実度、回答の関連性、コンテキストの関連性) の 3 つのメカニズムを通じて透明性を運用します。プラグイン アーキテクチャにより、評価パイプラインを変更せずに、新しいメトリクスやデータセットを統合できます。オープンソースの実装により、同じプロパティを対象とする複数の指標にわたるクロスチェックが可能になり、再現性が確保され、評価対象のシステムを構築するチームから AI の説明責任が切り離されます。正規の参照ライブラリに対する 18 のメトリック実装の相互検証を通じてフレームワークを検証します。
原文 (English)
LLM-FACETS: A Privacy-Preserving Framework for Evaluating LLM Transparency and Accountability
Assessing whether Large Language Models outputs are factually grounded, epistemically calibrated, and methodologically reproducible is a prerequisite for responsible AI deployment. Yet auditing LLMs remains inaccessible to non-technical practitioners: existing tools require programming expertise and non-trivial environment setup, and cloud-hosted platforms transmit evaluation data to external services, creating barriers for domain experts and compliance officers legally responsible for AI oversight. We introduce LLM-FACETS (LLM FActuality Cross-EvaluaTion System): an open-source framework with a browser-accessible interface and a plugin architecture, structured around three practitioner profiles (technical experts, domain experts, compliance officers) that mirror the stakeholder categories identified in the EU AI Act and the NIST AI Risk Management Framework. The architecture makes data flows explicit: deterministic metrics (BLEU, ROUGE, BERTScore) run entirely within the self-hosted server with no outbound transmission; LLM-judge metrics contact external APIs explicitly, with users retaining full credential control. The framework operationalizes transparency through three mechanisms: token-level log-probability visualization for epistemic uncertainty, multi-judge consensus to mitigate judge bias, and RAG Triad metrics (Faithfulness, Answer Relevance, Context Relevance) to detect and localize hallucinations. A plugin architecture allows any new metric or dataset to be integrated without modifying the evaluation pipeline. The open-source implementation enables cross-checking across multiple metrics targeting the same property, ensuring reproducibility and decoupling AI accountability from the teams building the systems assessed. We verify the framework through cross-validation of 18 metric implementations against canonical reference libraries.
COLLEAGUE.SKILL: 専門知識の蒸留による AI スキルの自動生成
LLM エージェントは、孤立したタスクを完了するだけでなく、人間の専門知識、判断、対話スタイルの限定された表現を実行することをますます期待されています。このような個人ベースのエージェントの構築は依然として困難です。これは、個人または役割に関連付けられた実用的な知識が、通常、きれいな指示として記述されるのではなく、異種トレースに埋め込まれているためです。既存のメモリおよびペルソナ システムはこの証拠の断片をキャプチャしますが、スキル フレームワークはポータブルなパッケージ形式を提供します。ただし、これらのトレースを検査可能、修正可能、エージェントが使用できるスキルに抽出するためのエンドツーエンドのワークフローはありません。専門知識の抽出を通じて人間に基づいた AI スキルを生成するための、自動化されたトレースからスキルへの抽出システムを紹介します。 COLLEAGUE.SKILL は、対象となる人物または役割からの資料を基に、2 つの調整されたトラックを備えたバージョン管理されたスキル パッケージを生成します。1 つはプラクティス、メンタル モデル、意思決定ヒューリスティックに関する能力トラックで、もう 1 つはコミュニケーション スタイル、インタラクション ルール、修正履歴に関する限定された行動トラックです。パッケージは、自然言語フィードバックを通じて検査、呼び出し、更新、ロールバック、エージェント ホスト間でのインストール、およびオプションで制御された配布の準備ができます。アーティファクト コントラクト、生成ワークフロー、修正ライフサイクル、展開面、およびオープンソース システムに実装されたドメイン プリセットについて説明します。この記事の執筆時点では、パブリック リポジトリには約 18.5k の GitHub スターがあります。ギャラリーには、165 人の寄稿者による 215 のスキルと、リストされているスキル カード全体で 10 万以上の累計スターがリストされています。このシステムは、個人に根ざしたスキルが、不透明なプロンプトや隠された記憶ではなく、移植可能で修正可能なパッケージとしてどのように表現できるかを示しています。
原文 (English)
COLLEAGUE.SKILL: Automated AI Skill Generation via Expert Knowledge Distillation
LLM agents are increasingly expected not only to complete isolated tasks, but also to carry bounded representations of human expertise, judgment, and interaction style. Building such person-grounded agents remains difficult because actionable knowledge associated with a person or role is usually embedded in heterogeneous traces rather than written as clean instructions. Existing memory and persona systems capture fragments of this evidence, while skill frameworks provide portable packaging formats; however, there is no end-to-end workflow for distilling these traces into inspectable, correctable, and agent-usable skills. We present an automated trace-to-skill distillation system for generating person-grounded AI skills via expert knowledge distillation. Given materials from a target person or role, COLLEAGUE.SKILL produces a versioned skill package with two coordinated tracks: a capability track for practices, mental models, and decision heuristics, and a bounded behavior track for communication style, interaction rules, and correction history. The package can be inspected, invoked, updated through natural-language feedback, rolled back, installed across agent hosts, and optionally prepared for controlled distribution. We describe the artifact contract, generation workflow, correction lifecycle, deployment surface, and domain presets implemented in the open-source system. At the time of writing, the public repository has approximately 18.5k GitHub stars; the gallery lists 215 skills from 165 contributors and more than 100k cumulative stars across listed skill cards. The system illustrates how person-grounded skills can be represented as portable, correctable packages rather than opaque prompts or hidden memories.
適応することを学ぶ: 認知認識の探求による自己改善 Web エージェント
マルチモーダル大規模言語モデル (MLLM) の最近の進歩により、Web エージェントは有望な進歩を遂げています。ただし、既存の Web エージェントは多くの場合、手作りの実行パイプラインや高価な専門家の軌跡に依存しており、複雑で動的な環境への適応性が制限されています。これらの課題に対処するために、私たちは SCALE (Self-Cognitive-Aware Learning and Exploration) を提案します。これは、セレクター、プレディクター、ジャッジという 3 つの敵対的な役割を活用して、環境探索を通じてエージェントの限界を自律的に発見し、その認知境界を拡張します。さらに、グローバルな計画を容易にし、エージェントがローカル探索の罠を避けるのに役立つグラフ探索戦略である SCALE-Hop を提案します。学習をさらにサポートするために、19 の実世界の Web サイトから収集された大規模なデータセットである SCALE-20k を構築します。これには、さまざまな種類のタスクと、SCALE の探索トレースから生成された構造化されたデモンストレーションが含まれています。実験結果は、私たちのアプローチがさまざまな Web 環境における複数の MLLM のパフォーマンスと汎用性を大幅に向上させることを示しています。私たちのフレームワークは、真に自律的で適応性のある Web エージェントを構築するための、スケーラブルで一般化可能なソリューションを提供します。
原文 (English)
Learning to Adapt: Self-Improving Web Agent via Cognitive-Aware Exploration
Recent advances in Multimodal Large Language Models (MLLMs) have led to promising progress in web agents. However, existing web agents often rely on handcrafted execution pipelines or expensive expert trajectories, limiting their adaptability to complex, dynamic environments. To address these challenges, we propose SCALE (Self-Cognitive-Aware Learning and Exploration), which leverages three adversarial roles, Selector, Predictor, and Judger to autonomously discover the agent's limitations and expand its cognitive boundaries through environmental exploration. Moreover, we propose SCALE-Hop, a graph exploration strategy that facilitates global planning and helps agents avoid local exploration traps. To further support learning, we construct SCALE-20k, a large-scale dataset collected from 19 real-world websites, containing diverse task types and structured demonstrations generated from SCALE's exploration traces. Experimental results show that our approach significantly improves the performance and generalization of multiple MLLMs in various web environments. Our framework offers a scalable and generalizable solution for building truly autonomous and adaptive web agents.
LinTree: 明示的に構造化された検索履歴による LLM 推論の改善
大規模言語モデル (LLM) は、部分的な解決策を探索および修正する中間トレースを生成することによって、推論の問題を解決することがよくあります。検索の観点から見ると、これらのトレースは線形化された検索ツリーとみなすことができ、モデルは部分的な解決策を拡張し、失敗するとそれを放棄し、後戻りして代替案を試行します。従来のヒューリスティックに基づく検索と比較すると、このようなポリシーには潜在的な利点があります。つまり、現在のローカル状態だけではなく、検索トレース全体を条件とします。まず、現在のローカル状態のみを観察する LLM ヒューリスティックを備えた最良優先探索とトレース条件付き推論ポリシーを比較することで、LLM がこの利点を活用しているかどうかをテストします。 Blocks World、grid Navigation、倉庫番という 3 つの制御された推論環境全体で、検索履歴への生のアクセスだけでは、ヒューリスティック検索を確実に上回るパフォーマンスを発揮するには十分ではないことがわかりました。次に、考えられる理由の 1 つを検討します。LLM 推論トレースでは、基礎となる検索ツリーが暗黙的にのみ表現され、モデルがバックトラックまたは分岐を切り替えるときに、どの以前の検索状態が再検討されているかがトレースによって明示的に識別されません。単純な親ポインターを追加して線形化ツリー (LinTree) 構造を明示的に表すと、暗黙的推論モデルや LLM ヒューリスティックガイド検索と比較して、タスクのパフォーマンスと検索効率の両方が向上することを示します。これらの結果は、検索履歴のツリー構造が明示されている場合に検索履歴が最も有用になり、LLM 推論においてより構造を意識した表現が動機付けられることを示唆しています。
原文 (English)
LinTree: Improving LLM Reasoning with Explicitly Structured Search Histories
Large language models (LLMs) often solve reasoning problems by generating intermediate traces that explore and revise partial solutions. From a search perspective, these traces can be viewed as linearized search trees, where the model extends a partial solution, abandons it when it fails, and backtracks to try alternatives. Compared with traditional heuristic-guided search, such a policy has a potential advantage: it conditions on the whole search trace rather than only on the current local state. We first test whether LLMs utilize this advantage by comparing trace-conditioned reasoning policies against best-first search equipped with an LLM heuristic that only observes the current local state. Across three controlled reasoning environments, Blocks World, grid Navigation, and Sokoban, we find that raw access to search history alone is not enough to reliably outperform heuristic search. We then study one possible reason: in LLM reasoning traces, the underlying search tree is only implicitly represented, and when the model backtracks or switches branches, the trace does not explicitly identify which earlier search state is being revisited. We show that adding simple parent pointers to explicitly represent the linearized tree (LinTree) structure improves both task performance and search efficiency relative to implicit reasoning models and LLM-heuristic-guided search. These results suggest that search history becomes most useful when its tree structure is made explicit, motivating more structure-aware representations for LLM reasoning.
LLM 報酬設計が失敗する場合: スパース構造 RL の診断主導の改良
セマンティックな報酬関数インターフェイスを備えたスパースで構造化された強化学習タスクの場合、LLM で生成された報酬形成は、ワンショット生成よりもデバッグとして適切に構成されます。私たちは、コア評価として MiniGrid を使用し、境界ストレス テストとして MuJoCo を使用して、PPO で訓練されたエージェントを研究します。私たちの監査では、2 つの主要なワンショット障害モード (報酬のフラッディングとセマンティック/API の誤解) に加えて、まれに弱いシェーピングのケースが見つかりました。我々は、トレーニング診断と故障モード分類ガイドが報酬関数の修正をターゲットとする、診断主導型の反復改良を提案します。改良により、DoorKey-8x8 は 2.3% から 97.6% に、KeyCorridor は 31.2% から 86.7% に向上し、シード間の分散が高くなります。コントロールは、これらの利益が再試行や追加のトレーニングによるものではないことを示しています。メトリクスのみの再プロンプトでは大幅な低下が見られますが、静的語彙コントロールではギャップの多くが回復します (87.6%、70.7%)。これは、分類プロンプトが主要なメカニズムであり、動的ラベルが部分的に分離された増分証拠のみを提供することを示しています。予算に合わせた比較とベストオブ 3 の比較により、絞り込みと選択およびトレーニング時間の効果が分離されます。コンポーネント除去テスト、感度分析、および作成者ラベルに対する監査は、キャリブレーション限界を明らかにしながら、デバッグ解釈のための収束した証拠を提供します。連続制御の結果は境界を示しています。成功ベースの診断は、高密度の報酬の移動では誤作動する可能性があり、リターントレンドのフィードバックは、ロバストなゲインなしで 1 つの誤検知メカニズムを除去します。ローコールプロトコルは、人口ベースの報酬検索とのコストの対比であり、ベンチマークの比較ではありません。 4 つの交差分散設計環境では、LLM 報酬関数の分散が優勢であるもののブートストラップ間隔が広い場合、点推定値はより大きなゲインを示唆します。この方法は、PPO の下で信頼性の高いインターフェイスを備えたまばらな構造化タスクに限定されます。 event_text のようなフィールドは、役立つ場合もあれば、害を及ぼす場合もあれば、中立的な場合もあります。
原文 (English)
When LLM Reward Design Fails: Diagnostic-Driven Refinement for Sparse Structured RL
For sparse, structured reinforcement-learning tasks with semantic reward-function interfaces, LLM-generated reward shaping is better framed as debugging than one-shot generation. We study PPO-trained agents using MiniGrid as core evaluation and MuJoCo as boundary stress test. Our audit finds two dominant one-shot failure modes -- reward flooding and semantic/API misunderstanding -- plus a rarer weak-shaping case. We propose diagnostic-driven iterative refinement, where training diagnostics and a failure-mode taxonomy guide targeted reward-function revision. Refinement improves DoorKey-8x8 from 2.3% to 97.6% and KeyCorridor from 31.2% to 86.7% with high seed-to-seed variance. Controls show these gains are not from retrying or extra training: metrics-only re-prompting yields large drops, while a static-vocabulary control recovers much of the gap (87.6%; 70.7%), showing the taxonomy prompt is a major mechanism and dynamic labels provide only partially isolated incremental evidence. Budget-matched and Best-of-3 comparisons separate refinement from selection and training-time effects. Component-removal tests, sensitivity analyses, and an audit against author labels provide converging evidence for the debugging interpretation while revealing calibration limits. Continuous-control results show the boundary: success-based diagnostics can misfire in dense-reward locomotion, and return-trend feedback removes one false-positive mechanism without robust gains. The low-call protocol is a cost contrast with population-based reward search, not a benchmark comparison. In four crossed-variance-design environments, point estimates suggest larger gains when LLM reward-function variance dominates but bootstrap intervals are wide. The method is bounded to sparse structured tasks with reliable interfaces under PPO; fields like event_text may help, hurt, or be neutral.
精神的ダメージ: 検索拡張テキスト音楽生成に対するキャプション中毒攻撃
取得拡張テキスト音楽変換 (TTM) システムは、音楽キャプション データセットから取得したキャプションを使用して、指定されていないユーザー プロンプトを拡張します。この設計では、音楽知識データベースに対する整合性の依存性が導入されています。私たちは、攻撃者が少数の細工された音楽キャプションを挿入することによってデータベースを汚染し、ユーザー プロンプト、取得者、またはジェネレーターを変更することなく、プロンプトの拡張を偏らせ、生成をユーザーの意図した機能から遠ざける悪意のあるキャプションをシステムに取得させることができることを示します。音楽キャプションポイズニング攻撃を達成するために、私たちは、高レベルの取得アンカーを保持しながら、低レベルの音響記述子を注入して、攻撃者が選択したターゲット意図に向けてプロンプト拡張とダウンストリーム音楽生成を誘導する、二重層キャプションポイズニング戦略を提案します。 MusicCaps ナレッジ データベース、CLAP リトリーバー、および MusicGen パイプラインでは、汚染された世代は、元のユーザー クエリと比較的一致した状態を保ちながら、攻撃者のターゲットに大幅に近づきます。これらの結果は、検索拡張クリエイティブ AI システムの実質的な整合性リスクを明らかにします。私たちのデモは次の場所にあります: https://yizhu-wen.github.io/Mental-Damage/
原文 (English)
Mental Damage: Caption Poisoning Attacks on Retrieval-Augmented Text-to-Music Generation
Retrieval-augmented text-to-music (TTM) systems augment underspecified user prompts using captions retrieved from a music caption dataset. This design introduces an integrity dependency on the music knowledge database. We show that an attacker can poison the database by injecting a small number of crafted music captions, causing the system to retrieve malicious captions that bias prompt augmentation and steer generation away from the user's intended function, without modifying the user prompt, retriever, or generator. To achieve the music caption poisoning attack, we propose a dual-layer caption poisoning strategy that preserves high-level retrieval anchors while injecting low-level acoustic descriptors to steer prompt augmentation and downstream music generation toward an attacker-chosen target intent. In a MusicCaps knowledge database, CLAP retriever, and MusicGen pipeline, poisoned generations move substantially closer to the attacker's target, while remaining comparably aligned with the original user query. These results expose a practical integrity risk for retrieval-augmented creative AI systems. Our demo can be found at: https://yizhu-wen.github.io/Mental-Damage/
LLM が一貫して間違っていることを学習するとき: 合成欺瞞の線形表現に関するマルチモデル研究
モデルが意図的に偽の出力を生成しながら正確な内部表現を維持する欺瞞的な調整は、依然として AI の安全性における中心的な課題です。戦略的欺瞞が長期的な主な懸念事項である一方で、不正解に対する直接最適化によって引き起こされる合成的不正は、学習された欺瞞の表現基盤を研究するための制御されたテストベッドを提供します。 5 つのトランスフォーマー モデル (Pythia-1.4B、Gemma-2-2B/9B、Qwen2.5-7B、Llama-3.1-8B) の正直なバリアントと欺瞞的なバリアントが、同じ質問分布に対して LoRA を使用して微調整されるマルチモデル パラダイムを導入します。平均プールされた隠れ状態で訓練された線形プローブは、4 つのアーキテクチャのレイヤー 1 ~ 3 でほぼ完璧な AUC (0.99 以上) で合成不正を検出しますが、Pythia-1.4B はピークの 0.705 に達します。ロジスティック回帰プローブは一貫して MLP プローブと一致するかそれを上回っており、線形表現仮説を裏付けています。 TruthfulQA でトレーニングされたプローブは、保留された MMLU 被験者に対してほぼゼロの損失 (デルタ AUC 約 0) で一般化します。後期層の表現はガウス ノイズに対する強い堅牢性を示し、Gemma-2 モデルは優れた安定性を示します。フィッシャー判別比、有効ランク、重心幾何学、方向安定性、クロスドメインアライメント、およびキャリブレーション (ECE) の機構分析により、Pythia/Llama/Qwen における表現崩壊と Gemma-2 における高次元保存という 2 つの状況が明らかになります。すべてのモデルにわたって、不正の方向はより深い層に徐々に統合され、層 1 ~ 4 で最適なキャリブレーション (Pythia を除く ECE が 0.01 未満) が達成されます。これらの結果は、堅牢でドメイン不変の不正表現が、適度な教師付き微調整によって急速に定着する可能性があり、アクティベーションベースのモニタリングに影響を与えることを示しています。
原文 (English)
When LLMs Learn to Be Consistently Wrong: A Multi-Model Study of Linear Representations of Synthetic Deception
Deceptive alignment, in which models maintain accurate internal representations while deliberately producing false outputs, remains a central challenge in AI safety. While strategic deception is the primary long-term concern, synthetic dishonesty - induced via direct optimization on incorrect answers - provides a controlled testbed for studying the representational basis of learned deception. We introduce a multi-model paradigm in which honest and deceptive variants of five transformer models (Pythia-1.4B, Gemma-2-2B/9B, Qwen2.5-7B, Llama-3.1-8B) are fine-tuned using LoRA on the same question distribution. Linear probes trained on mean-pooled hidden states detect synthetic dishonesty with near-perfect AUC (greater than or equal to 0.99) as early as layers 1-3 in four architectures, while Pythia-1.4B reaches a peak of 0.705. Logistic regression probes consistently match or outperform MLP probes, supporting the Linear Representation Hypothesis. Probes trained on TruthfulQA generalize with near-zero loss (Delta AUC approx. 0) to held-out MMLU subjects. Late-layer representations show strong robustness to Gaussian noise, with Gemma-2 models exhibiting exceptional stability. Mechanistic analysis of Fisher Discriminant Ratio, effective rank, centroid geometry, directional stability, cross-domain alignment, and calibration (ECE) reveals two regimes: representational collapse in Pythia/Llama/Qwen versus high-dimensional preservation in Gemma-2. Across all models, the dishonesty direction consolidates progressively in deeper layers, with optimal calibration (ECE less than 0.01 except Pythia) achievable in layers 1-4. These results demonstrate that robust, domain-invariant dishonesty representations can be rapidly entrenched via modest supervised fine-tuning, with implications for activation-based monitoring.
ディープ ニューラル ネットワークを使用しない LLM: 新しいアーキテクチャ、利点、およびケーススタディ
この記事の目的は、LLM のコンテキストでディープ ニューラル ネットワークの代替案を検証することです。ごく最近、標準的な DNN の代替として、説明可能性と精度が向上した RBF ネットワークと呼ばれるモデルに中国の研究者が大きな関心を寄せています。独自に発見した私の新しいモデルは、まったく同じ機械に基づいていることが判明しました。ただし、大きな工夫があります。DNN は、1 回の反復で閉じた形式の損失関数の大域的最適値を見つけるため、DNN を必要とせず、退屈なトレーニング ステップを排除します。ここでは、ケーススタディと同様の手法との比較を交えて、私のテクノロジーの概要を説明します。
原文 (English)
LLMs Without Deep Neural Networks: New Architecture, Benefits and Case Study
The purpose of this article is to provide validation to my deep neural network alternative in the context of LLMs. Very recently, there has been a significant interest by Chinese researchers in a model called RBF network, as a substitute to standard DNNs, with increased explainability and higher accuracy. It turns out that my new model, discovered independently, is based on the exact same machinery. But with a major twist: it does not need DNN as it finds the global optimum of the loss function in closed form, in one iteration, thus eliminating the tedious training step. Here I provide a high-level overview of my technology, with case study and comparison to similar methods.
機械における社会的推論: 大規模言語モデルの議論における集団的真実探求ダイナミクスの調査
人間の推論は、孤立した個人の認知ではなく、集団的な敵対的な議論を通じて社会的に機能すると長い間理論化されてきました。これは推論の議論理論 (ATR) として知られる枠組みです。 ATRは、真実探求の主な手段として個人の「知識主義的推論者」に依存するのではなく、真実を社会認識論の新たな特性、つまり議論の敵対的な圧力の下で洗練された不完全な個人の推論の産物として再概念化します。この集合知の分散型手法は、人類をこれまで以上に認識論的な高みへと導き、すべての民主主義システムの基本原則を支えてきました。この論文は、大規模言語モデル (LLM) のマルチエージェント ディベート (MAD) を通じて ATR を初めてシミュレートすることで、新境地を開拓しました。厳密な実証分析により、認識論的に多様なモデルのセットを正しく設計すると、個々のディベート参加者が単独でのパフォーマンスが限られている場合でも、LLM-MAD がアンケートベースのタスクでの真実探求パフォーマンスを大幅に向上させることができることを実証しました。さらに、我々は、このパフォーマンスの向上が ATR の中心原理に機構的に基づいているという強力な経験的証拠を提示し、集団的推論が生物学や進化の奇抜なものではなく、個人主義的推論よりも普遍的に有利である可能性があることを示唆しています。最後に、議論のダイナミクスの分析に基づいて、現在の静的ベンチマーク アプローチではサポートできない方法でモデルを比較するために、LLM-MAD を活用してモデルの固有の特性 (幻覚傾向など) を測定する新しいベンチマーク方法論を提案します。
原文 (English)
Social Reasoning in Machines: Investigating Collective Truth-Seeking Dynamics in Large Language Model Debate
Human reasoning has long been theorised to operate socially, not through isolated individual cognition, but through collective adversarial discourse, a framework known as the Argumentative Theory of Reasoning (ATR). Rather than relying on individual "intellectualist reasoners" as the primary vehicle for truth-seeking, ATR reconceptualises truth as an emergent property of social epistemology: the product of imperfect individual reasoning refined under the adversarial pressure of debate. This distributed method of collective intelligence has guided humanity to ever-greater epistemic heights and underpins the foundational principles of all democratic systems. This thesis breaks new ground by, for the first time, simulating ATR through the multi-agent debate (MAD) of large language models (LLMs). With rigorous empirical analysis, we demonstrate that, when correctly engineering an epistemically diverse set of models, LLM-MAD can significantly improve truth-seeking performance on questionnaire-based tasks, even when individual debate participants exhibit limited standalone performance. Furthermore, we present strong empirical evidence that this performance gain is mechanistically grounded in the central principles of ATR, suggesting that collective reasoning may be universally favourable over individualist reasoning, rather than a quirk in biology or evolution. Finally, drawing on our analysis of debate dynamics, we propose a novel benchmarking methodology that leverages LLM-MAD to measure intrinsic model properties (such as hallucination propensity) in order to compare models in ways that current static benchmarking approaches cannot support.
CodeGolf Bench: 大規模な言語モデルの簡潔なコード生成機能を評価するための多言語ベンチマーク
このペーパーでは、60 のプログラミング言語における大規模言語モデル (LLM) の簡潔なコード生成能力を評価できるベンチマークである Code Bench を紹介します。コード ゴルフ (最小限の文字またはバイト ソリューションに焦点を当てたレクリエーション プログラミング コンテスト) に基づいたこのベンチマークは、効率的で簡潔なコードを生成する LLM の能力を示す独特の尺度を提供します。固定された問題セットと対象言語によって制限される既存のベンチマークとは異なり、CodeGolf Bench は code.golf プラットフォームを活用して、新しい問題と実際の人間のパフォーマンス ベースラインを提供します。 Python および C++ タスクでの 9 つの LLM の評価では、推論モデルが非推論モデルよりも大幅に優れたパフォーマンスを示し、最高の平均パーセンタイル 70.97% を達成していることが実証されました。このパフォーマンスのギャップは C++ で特に顕著であり、厳密な構文要件を持つ言語における推論の重要性が強調されています。非推論モデルは、どちらの言語でも効率の最適化にさらに苦労しており、最良のパーセンタイルは推論モデルよりも大幅に低くなります。 CodeGolf Bench は、コード ゴルフにおける進化する人間のパフォーマンスに対して LLM コード生成機能を評価するための動的なフレームワークを提供します。
原文 (English)
CodeGolf Bench: A Multi-Language Benchmark for Evaluating Concise Code Generation Capabilities of Large Language Models
This paper introduces Code Bench, a benchmark capable of evaluating Large Language Models (LLMs) concise code generation abilities in 60 programming languages. Based on code golf, a recreational programming competition focused on minimal character or byte solutions, the benchmark provides a distinctive measure of LLMs ability to produce efficient, concise code. Unlike existing benchmarks limited by fixed problem sets and language coverage, CodeGolf Bench leverages the code.golf platform to provide new problems and live human performance baselines. Evaluation of nine LLMs on Python and C++ tasks demonstrates that reasoning models significantly outperform non-reasoning models, achieving best average percentile of 70.97%. This performance gap is particularly pronounced in C++, highlighting reasoning's importance for languages with strict syntax requirements. Non-reasoning models struggle more with efficiency optimization across both languages, with best percentiles significantly lower than reasoning counterparts. CodeGolf Bench offers a dynamic framework for evaluating LLM code generation capabilities against evolving human performance on code golf.
モデルの特化のための自律型エージェント データ エンジニアリングの探求
大規模言語モデル (LLM) は、一般的なタスクでは優れたパフォーマンスを示していますが、高品質のドメイン固有のデータがないと特殊なドメインに適応するのに苦労することがよくあります。既存の LLM ベースのデータ キュレーション手法は主に人間が設計したワークフローに依存しているため、LLM がモデルの特化のためのエンドツーエンドのデータ エンジニアリング パイプラインを自律的に実行できるかどうかは未検討のままです。私たちは \textbf{Autonomous Agentic Data Engineering} を形式化します。これは、エンドツーエンドのデータ キュレーションを通じてモデルの専門化を推進する自律型データ エンジニアとして LLM を評価するように設計された新しいタスクです。私たちはデータを最適化可能なコンポーネントとしてフレーム化し、トレーニング後のパフォーマンス向上に基づいて、複数のドメインにわたってトレーニング データを計画、生成、反復的に最適化するエージェントを研究します。実験によると、GPT-5.2 は反復的なエージェント主導のデータ適応を通じて学生モデルを \textbf{57.29\%} 改善するトレーニング カリキュラムを構築するため、自律型 LLM データ エンジニアが大幅な利益をもたらすことが示されています。私たちの研究では、潜在的な問題とボトルネックの両方を明らかにすることで、自律的なデータ エンジニアリングを測定可能な機能として確立し、エージェント駆動モデルの特殊化への道筋を示しています\脚注{コードは https://github.com/zjunlp/DataAgent でリリースされます。}
原文 (English)
Exploring Autonomous Agentic Data Engineering for Model Specialization
Large Language Models (LLMs) have demonstrated strong performance on general tasks, while often struggling to adapt to specialized domains without high-quality domain-specific data. Existing LLM-based data curation methods primarily rely on human-designed workflows, leaving it unexamined whether LLMs can autonomously execute an end-to-end data engineering pipeline for model specialization. We formalize \textbf{Autonomous Agentic Data Engineering}, a novel task designed to evaluate LLMs as autonomous data engineers that drive model specialization through end-to-end data curation. We frame data as an optimizable component and study agents that plan, generate, and iteratively optimize training data across multiple domains, guided by post-training performance improvement. Experiments show that autonomous LLM data engineers yield substantial gains, as GPT-5.2 constructs a training curriculum that improves a student model by \textbf{57.29\%}, entirely through iterative, agent-driven data adaptation. By illuminating both potential and bottlenecks, our study establishes autonomous data engineering as a measurable capability and charts a path toward agent-driven model specialization\footnote{Code will be released at https://github.com/zjunlp/DataAgent.}.
言語モデルにおけるドメイン適応と推論フレームワーク: 歴史的宇宙論の制御された実験
私たちは、制御された設定として歴史的宇宙論を使用して、ドメイン適応が言語モデルの説明動作をどのように再形成するかを調査します。フェーズ 1 では、明示的な地動説が削除されたコペルニクス以前のコーパス上で小さな言語モデルをゼロからトレーニングし、それにもかかわらず地球運動または地動説の継続が現れるかどうかを評価します。フェーズ 2 では、適応によって説明フレーミングと宇宙論的スタンスがどのように変更されるかを研究するために、同じコーパス上で QLoRA を使用して大規模な事前トレーニング済みモデルを微調整します。モデルの出力は、宇宙論的な立場 (地動説、地動説、または曖昧さ) と説明フレーム (前近代と現代) の両方をラベル付けする LLM としての判断フレームワークを使用して評価されます。フェーズ 1 の制約された設定では、より小さなモデルが局所的な地球運動の継続を生成することがありますが、これらは依然として全体的に不安定であり、一貫した宇宙論的推論をサポートするには不十分です。フェーズ 2 では、微調整により前近代的な説明フレームへの大幅かつ統計的に有意な移行が引き起こされますが、条件付きの宇宙論的スタンスの分布はそれらのフレーム内で比較的安定したままになります。その結果、地動中心的な生産量の増加は、スタンスの直接的な変更によるものではなく、主に説明レジームにわたる再分配によって生じます。これらの結果は、ドメイン適応が主に継続が生成される言語枠組みを再形成し、その変化から二次的にスタンスの変化が現れる可能性があることを示唆しています。
原文 (English)
Domain Adaptation and Reasoning Frameworks in Language Models: A Controlled Experiment with Historical Cosmology
We investigate how domain adaptation reshapes explanatory behavior in language models using historical cosmology as a controlled setting. In Phase 1, we train a small language model from scratch on a pre-Copernican corpus from which explicit heliocentric references were removed, and evaluate whether Earth-motion or heliocentric continuations nevertheless emerge. In Phase 2, we fine-tune a larger pretrained model using QLoRA on the same corpus in order to study how adaptation modifies explanatory framing and cosmological stance. Model outputs are evaluated using an LLM-as-judge framework that labels both cosmological stance (geocentric, heliocentric, or ambiguous) and explanatory frame (premodern versus modern). In the constrained setting of Phase 1, the smaller models occasionally generate local Earth-motion continuations, but these remain globally unstable and insufficient to support coherent cosmological reasoning. In Phase 2, fine-tuning induces a large and statistically significant shift toward premodern explanatory framing, while the conditional cosmological stance distributions remain comparatively stable within those frames. As a result, increases in geocentric outputs arise primarily from redistribution over explanatory regimes rather than from direct modification of stance. These results suggest that domain adaptation may primarily reshape the linguistic frameworks from which continuations are generated, with changes in stance emerging secondarily from those shifts.
LongDS-Bench: 長期にわたるエージェントデータ分析の失敗について
現実世界のデータ分析は本質的に反復的ですが、既存のベンチマークは主に孤立したタスクや短時間の対話型タスクを評価するため、長期にわたって進化する分析コンテキストを追跡するエージェントの能力はテストされていません。エージェントが進化する分析状態を維持、更新、復元、構成する必要がある長期にわたるマルチターン データ分析のベンチマークである LongDS を紹介します。 LongDS は、現実世界の Kaggle ノートブックから構築された 68 のタスクで構成され、地球科学、ビジネス、教育を含む 6 つのドメインにわたる 2,225 ターンに及びます。タスクは状態発展パターン (反事実摂動、ロールバック、複数状態の構成など) を中心に設計されており、依存関係の平均スパンは 11.3 ターンです。 5 つの最先端モデルを評価したところ、最良のモデルでも平均精度は 48.45% にとどまり、ターンの初期から後期にかけてパフォーマンスが 47 ポイント近く低下し、長期エラーが失敗の 52% ~ 69% を占めることがわかりました。さらに分析を進めると、エージェント ステップを追加しても必ずしもパフォーマンスが向上するとは限らず、主なボトルネックはインタラクション バジェットを増やすことではなく、正しい分析状態を維持することにあることが示唆されています。私たちは、信頼性の高い長期的なエージェントデータ分析の研究をサポートするために LongDS をリリースします。コードとデータは https://github.com/zjunlp/DataMind でリリースされます。
原文 (English)
LongDS-Bench: On the Failure of Long-Horizon Agentic Data Analysis
Real-world data analysis is inherently iterative, yet existing benchmarks mostly evaluate isolated or short interactive tasks, leaving agents' ability to track evolving analytical context over long horizons untested. We introduce LongDS, a benchmark for long-horizon, multi-turn data analysis where agents must maintain, update, restore, and compose evolving analytical states. LongDS comprises 68 tasks constructed from real-world Kaggle notebooks, spanning 2,225 turns across six domains including Geoscience, Business, and Education. Tasks are designed around state-evolution patterns (e.g., counterfactual perturbation, rollback, multi-state composition), with an average dependency span of 11.3 turns. Evaluating five state-of-the-art models, we find that the best model reaches only 48.45% average accuracy, performance drops nearly 47 points from early to late turns, and long-horizon errors account for 52%--69% of failures. Further analysis shows that additional agent steps do not necessarily improve performance, suggesting that the key bottleneck is maintaining a correct analytical state rather than increasing interaction budget. We release LongDS to support research on reliable long-horizon agentic data analysis. Code and data will be released at https://github.com/zjunlp/DataMind.
テストする表面は壊れる表面ではありません
ツールで拡張された LLM エージェントは、プロンプト インジェクションに対して脆弱です。エージェントのコンテキストの一部を制御するサードパーティが、エージェントがユーザーからのものであるかのように命令を実行する可能性があります。現在の評価では、ツールの出力である 1 つのチャネル上のモデルごとに 1 つの攻撃成功率が報告され、その数値がモデルの脆弱性として扱われます。しかし、エージェントがツールを呼び出す前に毎回読み取るツールの説明自体が、攻撃者が代わりに選択できる注入面となります。インジェクションペイロードをバイト同一に保持し、6 つのファミリーと 4 つのタスクスイートからの 13 個の LLM の両方のサーフェスを介して配信します。モデル間で同じバイトが成功率で逆転します。GPT-4.1 はツール出力では 96% 脆弱ですが、ツール記述ではわずか 4% ですが、GEMINI-3-FLASH は 20% と 98% でミラー パターンを示します。 6,830 回の試行にわたる分散分解では、攻撃結果の変動の 0% がサーフェスのみによるものである一方、モデルとサーフェスの相互作用は 16.7% を占めます。脆弱性はペアリングの特性であり、チャネルの特性ではありません。サーフェス上のセルごとの最大値として定義される適応攻撃率は、最も強力な固定サーフェスのベースラインを平均で +9.1 パーセント ポイント上回ります。標準のプロンプトレベルの防御は同じ盲点を継承し、ツール出力の ASR を 10 ~ 18 パーセントに削減する一方、記述チャネルは 54 パーセントを超えたままにします。攻撃評価と防御評価の両方で、表面ごとの脆弱性を報告する必要があります。
原文 (English)
The Surface You Test Is Not the Surface That Breaks
Tool-augmented LLM agents are vulnerable to prompt injection: a third party who controls part of the agent's context can plant instructions that the agent then executes as if they came from the user. Current evaluations report a single attack success rate per model on one channel, the tool output and treat that number as the model's vulnerability. But tool descriptions, which the agent reads at every turn before any tool is called, are themselves an injection surface that the attacker can choose instead. We hold the injection payload byte-identical and deliver it through both surfaces across 13 LLMs from six families and four task suites. The same bytes invert in success rate across models: GPT-4.1 is 96 percent vulnerable on tool outputs but only 4 percent on tool descriptions, while GEMINI-3-FLASH shows the mirror pattern at 20 percent and 98 percent. A variance decomposition over 6,830 attempts attributes 0 percent of the variation in attack outcomes to the surface alone, while the model-surface interaction accounts for 16.7 percent. Vulnerability is a property of the pairing, not the channel. The Adaptive Attack Rate, defined as the per-cell maximum over surfaces, exceeds the strongest fixed-surface baseline by +9.1 percentage points on average. Standard prompt-level defenses inherit the same blindspot, reducing tool-output ASR to 10-18 percent while leaving the description channel above 54 percent. Both attack and defense evaluation must report per-surface vulnerability.
パッド付きトランスの表現力の再考: どのアーキテクチャ上の選択が重要で、どの選択が重要でないのか
最近の研究では、ブール回路への接続を通じてトランスが計算できるものとできないものについて説明していますが、既存の結果は正確な特性評価に欠けており、モデリングの選択に敏感です。 「...」などの入力フィラー記号が追加されるパッド付きトランスは、適応並列計算用の多項式空間を提供することで回路クラスとの等価性を確立するための便利なガジェットとして登場します。ただし、パッドされた変圧器の理想化の限られたセットのみが研究されており、注意の種類、モデル幅、および均一性が変更された場合にこれらの等価性がどの程度堅牢に保持されるかは未解決のままです。実際の仮定の下では、パッド付きトランスフォーマーはこれらすべてに対して驚くほど堅牢であることがわかり、数値精度とモデルの深さが表現力に影響を与える主な要因であることがわかりました。具体的には、多項式パディングされた $\text{L-uniform}$ 定精度変換器は $\text{L-uniform AC}^0$ と同等であるのに対し、成長精度変換器は幅に関係なく $\text{L-uniform TC}^0$ を達成することを証明します。さらに、ループにより回路と同様の逐次処理が可能になります。$\log^d N$ ループの定精度変換器は $\text{FO-uniform AC}^d$ に達し、成長精度変換器は $\text{FO-uniform TC}^d$ に達します。興味深いことに、幅や精度を対数を超えて拡大しても表現力は向上しません。すべての結果は、ソフトマックスと平均のハード アテンション トランスフォーマーの両方に当てはまります。
原文 (English)
Revisiting Padded Transformer Expressivity: Which Architectural Choices Matter and Which Don't
Recent work describes what transformers can and cannot compute through connections to boolean circuits, but existing results lack exact characterizations and are sensitive to modeling choices. Padded transformers -- to whose input filler symbols such as ``...'' are appended -- emerge as a useful gadget for establishing equivalences to circuit classes by providing polynomial space for adaptive parallel computation. However, only a limited set of padded transformer idealizations has been studied, leaving open how robustly these equivalences hold under changes to attention type, model width, and uniformity. We find that, under practical assumptions, padded transformers are surprisingly robust to all of these, and identify numeric precision and model depth as the main factors affecting expressivity. Concretely, we prove that polynomially padded $\text{L-uniform}$ constant-precision transformers are equivalent to $\text{L-uniform AC}^0$, while growing-precision ones achieve $\text{L-uniform TC}^0$ regardless of width. Furthermore, looping enables sequential processing analogous to circuits: $\log^d N$-looped constant-precision transformers reach $\text{FO-uniform AC}^d$, and growing-precision ones reach $\text{FO-uniform TC}^d$. Interestingly, growing width or precision beyond logarithmic does not increase expressivity, and all our results hold for both softmax and average hard attention transformers.
一般的な埋め込みと特定の埋め込み、どちらが優れていますか?英語以外の言語での臨床コーディングの検索に関する実証研究
意味検索のための文埋め込みモデルは、圧倒的に英語コーパスで開発および評価されています。他の言語での臨床検索、特に ICD-10-CM / CIE-10 コードの検索に適用すると、集計ベンチマークによって隠蔽されることが多く、リコールが低下します。私たちは、大規模な生成言語モデルがこのギャップを埋めるデータ ファクトリとして機能できるかどうかを研究しています。英語、スペイン語、カタロニア語、イタリア語、ポルトガル語、フランス語をカバーするジェミニで生成された合成データに基づいてスペイン語の生物医学エンコーダー (PlanTL-GOB-ES/bsc-bio-ehr-es) から微調整された 2 段階レトリーバー (バイエンコーダーとそれに続くクロスエンコーダー リランカー) を構築し、BioBERT-ST と調整されていないスペイン語エンコーダーに対して評価します。バイエンコーダー単独では、MRR (0.876 対 0.866) で BioBERT-ST に匹敵し、英国の生物医学的事前トレーニングなしで R@3 (0.650 対 0.626) および R@5 (0.804 対 0.790) でそれを上回ります。クロスエンコーダーのリランカーを追加すると、合計 R@5 が 0.822 に上昇し、英語のわずかな後退を犠牲にして、5 言語のうち 4 言語 (+0.017 スペイン語、+0.033 カタルーニャ語、+0.018 フランス語、+0.037 ポルトガル語) で優勢になります。このトレードオフは臨床的に許容可能です。ポルトガル語では R5 = 0.829 に達するのに対し、BioBERT-ST では 0.714 に達します。貢献: LLM で生成されたデータからドメイン固有のメディカル レトリバーを構築するためのオープン レシピ。学習ゲインの定量化 (MRR 0.755 ~ 0.876、~19,500 の合成ペアで +15.9%)。そして、言語とランクごとに利益が集中する場所の特徴付け。
原文 (English)
Generalistic or Specific Embeddings, Which is Better? An Empirical Study on Search for Clinical Coding in Non-English Languages
Sentence-embedding models for semantic search are overwhelmingly developed and evaluated on English corpora. When applied to clinical retrieval in other languages -- particularly retrieval of ICD-10-CM / CIE-10 codes -- recall degrades in ways often masked by aggregate benchmarks. We study whether large generative language models can serve as data factories to close this gap. We build a two-stage retriever (bi-encoder followed by cross-encoder reranker), fine-tuned from a Spanish biomedical encoder (PlanTL-GOB-ES/bsc-bio-ehr-es) on Gemini-generated synthetic data covering English, Spanish, Catalan, Italian, Portuguese and French, and evaluate against BioBERT-ST and the un-tuned Spanish encoder. The bi-encoder alone matches BioBERT-ST on MRR (0.876 vs. 0.866) and overtakes it on R@3 (0.650 vs. 0.626) and R@5 (0.804 vs. 0.790) without English biomedical pretraining. Adding a cross-encoder reranker lifts aggregate R@5 to 0.822 and dominates on four of five languages (+0.017 Spanish, +0.033 Catalan, +0.018 French, +0.037 Portuguese) at the cost of a small English regression. The trade-off is clinically acceptable: Portuguese reaches R@5 = 0.829 vs. BioBERT-ST's 0.714. Contributions: an open recipe for building domain-specific medical retrievers from LLM-generated data; quantification of the learning gain (MRR 0.755 to 0.876, +15.9% with ~19,500 synthetic pairs); and a characterisation of where gains concentrate by language and rank.
見ることは知ることではない: VLM は空間に関する質問に答えるべきでない場合 (およびその理由) を知っていますか?
空間推論は、現実世界の環境に展開されるビジョン言語モデル (VLM) の基本的な機能です。ただし、視覚的な観察は本質的に 3D 世界の限られた表現です。オクルージョンによってオブジェクトが見えなくなったり、遠近法によって幾何学的特性が誤解を招く可能性があります。それにもかかわらず、既存の空間推論ベンチマークは通常、観測が十分で信頼できると想定しており、質問に答えられない場合や追加の観測が必要であることをモデルが認識するかどうかではなく、モデルが正しい答えを生成するかどうかに焦点を当てています。この研究では、制御された評価フレームワークである SpatialUncertain を構築し、(1) ターゲットの情報を隠すオクルージョン、および (2) 誤解を招く視覚的な手がかりを生み出す視点の曖昧さという 2 種類の観察の課題を導入することで、この仮定に挑戦します。それぞれの構成について、クリーンな観察の下では答えられるが、導入された課題の下では棄権が必要となる空間的な質問を設計します。さらに、どの追加視点が視点の曖昧さを解決するかをモデルが特定できるかどうかを評価します。最先端のオープンソースおよびクローズドソース VLM の多様なセットにわたる結果から、2 つの一貫した障害モードが明らかになりました。まず、モデルは自信過剰な回答をする傾向があり、視覚的証拠が不完全であるか誤解を招く場合でも空間推論タスクを解決しようとし、平均精度はオクルージョンの場合は約 30%、遠近の曖昧さの場合は 10% 未満です。第 2 に、追加のビューが利用可能な場合でも、一部のモデルは信頼できる証拠を提供するものをほぼランダムに特定します。まとめると、私たちの調査結果は、回答の正しさを超えて、モデルがいつ棄権すべきか、そして信頼できる証拠を探す方法を知っているかどうかを評価することを求めています。
原文 (English)
Seeing Isn't Knowing: Do VLMs Know When Not to Answer Spatial Questions (and Why)?
Spatial reasoning is a fundamental capability for vision-language models (VLMs) deployed in real-world environments. However, visual observations are inherently limited representations of a 3D world: occlusion can render objects invisible, and perspective can make geometric properties misleading. Despite this, existing spatial reasoning benchmarks typically assume that observations are sufficient and reliable, focusing on whether models produce correct answers rather than whether they recognize when a question cannot be answered and what additional observations would be needed. In this work, we challenge this assumption by constructing a controlled evaluation framework, SpatialUncertain, and introducing two types of observation challenges: (1) occlusion, which hides target information, and (2) perspective ambiguity, which produces misleading visual cues. For each configuration, we design spatial questions that are answerable under clean observations but require abstention under the introduced challenges. We further evaluate whether models can identify which additional viewpoints would resolve perspective ambiguity. Our results across a diverse set of frontier open- and closed-source VLMs reveal two consistent failure modes. First, models are prone to overconfident answering, attempting to solve spatial reasoning tasks even when visual evidence is incomplete or misleading, with average accuracy around 30\% under occlusion and below 10\% under perspective ambiguity. Second, even when additional views are available, some models perform near random chance in identifying which would provide reliable evidence. Together, our findings call for moving beyond answer correctness toward evaluating whether models know when to abstain and how to seek reliable evidence.
VLM3: ビジョン言語モデルはネイティブ 3D 学習者です
ビジョン言語モデル (VLM) を使用すると、統合モデルがプロンプトを通じてさまざまなビジョン タスクを解決できるようになります。彼らは意味理解において有望なパフォーマンスを示しました。しかし、3D の理解は依然として、複雑なタスク固有の設計を備えた専門家のビジョン モデルに大きく依存しています。この研究が主張したい重要な議論は、VLM はネイティブ 3D 学習者であるということです。私たちの詳細な大規模研究により、効果的な 3D 学習に必要なのは、1) 焦点距離の統一、2) テキストベースのピクセル参照、3) データの混合とスケーリングだけであることがわかりました。モデル アーキテクチャの変更、大規模なモデル、大量のデータの増加、および回帰式を含む複雑な損失 (その多くはエキスパート ビジョン モデルの基礎を形成します) は、実際には必要な条件ではありません。その結果、標準的な VLM が多様な 3D タスクを習得できるようにする、最もシンプルな設計を備えたスケーラブルな方法である VLM3 を提案します。 VLM3 は、VLM 深度推定精度を大幅に向上させるだけでなく (0.84 -> 0.9)、標準アーキテクチャとテキストベースのトレーニングを維持しながら、ピクセル対応付け、カメラポーズ推定、オブジェクトレベルの 3D 理解などの多様な 3D タスクを可能にし、エキスパートのビジョンモデルの精度と一致させます。私たちは、VLM3 がシンプルでスケーラブルな 3D 学習の新しいパラダイムを切り開くと信じています。
原文 (English)
VLM3: Vision Language Models Are Native 3D Learners
Vision Language Models (VLMs) enable a unified model to solve various vision tasks through prompting. They have shown promising performance in semantic understanding. However, 3D understanding still largely relies on expert vision models with complex task-specific designs. The key argument this work wants to make is that VLMs are native 3D learners. Our in-depth large scale study shows that 1) focal length unification, 2) text-based pixel reference and 3) data mixture and scaling, are all you need for effective 3D learning. Model architecture changes, large models, heavy data augmentations, and complex losses including the regression formulation, many of which form the foundation of expert vision models, are actually not necessary conditions. As a result, we propose VLM3, a scalable method with the simplest design that enables standard VLMs to master diverse 3D tasks. VLM3 not only advances the VLM depth estimation accuracy by a large margin (0.84 -> 0.9), but also enables diverse 3D tasks such as pixel correspondence, camera pose estimation and object-level 3D understanding, matching expert vision model accuracy while maintaining standard architectures and text-based training. We believe VLM3 opens up a new paradigm for simple and scalable 3D learning.
メモリに依存するが帯域幅に制限はない: Batch-1 LLM デコードにおける物理 AI 推論のギャップ
ロボット、自動運転車、具体化されたエージェント、エッジ コパイロットなどの物理 AI システムは、多くの場合、クラウド LLM サービスとは異なる推論ワークロードを実行します。つまり、単一ストリーム、バッチ 1 の自己回帰デコードで、1 つのロボット、カメラ フィード、またはユーザー セッションが次のトークンを待機します。このワークロードは通常、メモリ帯域幅制限として説明されます。各デコード ステップはモデルの重みとアクティブな KV キャッシュをストリーミングするため、レイテンシはピーク HBM 帯域幅に合わせて調整する必要があります。この説明は真実であるが不完全であることを示します。 4 つの NVIDIA GPU (H100 SXM5、A100-80GB SXM4、L40S、L4) にわたる 3 つの 7 ~ 8B クラス GQA トランスフォーマーのバッチ 1 デコードを測定します。 2048 から 16384 までのコンテキスト長を評価し、制御された bf16 SDPA セットアップの下で 44 個の有効なセルを生成します。ピーク HBM 帯域幅の達成割合は、ピーク帯域幅が増加するにつれて減少します。見出しの Qwen-2.5-7B ctx=2048 セルでは、L4 は分析メモリ フロアの約 81% に達しますが、H100 はわずか 27% に達します。物理 AI デコードはメモリに依存しますが、メモリの高速化は比例したレイテンシーの増加にはつながりません。 CUDA Graphs A/B 実験を使用して、欠落している用語をテストします。 ctx=2048 の H100 では、CUDA グラフは N=10 の新しいセッション全体でデコード レイテンシを 1.259 倍改善し、95 パーセントのブートストラップ信頼区間は 1.253 ~ 1.267 でした。 L4 では、同じ介入では 1.028 倍しか得られません。これにより、高速な GPU では可視化される起動側のオーバーヘッドが分離されますが、低速で帯域幅に制限のある GPU ではほとんど隠れたままになります。デプロイメントの意味は、メモリの節約が重要になるのは、ランタイムがメモリの節約を実現した場合だけであるということです。 L4 では、bf16 デコードはメモリ フロア近くにありますが、共通の量子化パスでは予想される 4 倍の重みトラフィック削減が回復されません。62.32 ミリ秒の bf16 ベースラインから、bnb-nf4 は 59.36 ミリ秒/ステップに達し、AutoAWQ+Marlin は 45.24 ミリ秒/ステップに達します。 Ada で調整された int4 カーネルを使用した GPTQ+ExLlamaV2 は、17.36 ミリ秒/ステップに達します。
原文 (English)
Memory-Bound but Not Bandwidth-Limited: The Physical AI Inference Gap in Batch-1 LLM Decode
Physical AI systems, including robots, autonomous vehicles, embodied agents and edge copilots, often run a different inference workload from cloud LLM serving: single-stream, batch-1 autoregressive decode, where one robot, camera feed or user session waits on the next token. This workload is usually described as memory-bandwidth-bound. Each decode step streams model weights and the active KV cache, so latency should scale with peak HBM bandwidth. We show that this account is true but incomplete. We measure batch-1 decode for three 7 to 8B-class GQA transformers across four NVIDIA GPUs: H100 SXM5, A100-80GB SXM4, L40S and L4. We evaluate context lengths from 2048 to 16384, producing 44 valid cells under a controlled bf16 SDPA setup. The achieved fraction of peak HBM bandwidth falls as peak bandwidth rises. On the headline Qwen-2.5-7B ctx=2048 cell, an L4 reaches roughly 81 percent of its analytic memory floor, while an H100 reaches only 27 percent. Physical-AI decode is memory-dominated, but faster memory does not translate into proportional latency gains. We test the missing term with a CUDA Graphs A/B experiment. On H100 at ctx=2048, CUDA Graphs improves decode latency by 1.259x across N=10 fresh sessions, with a 95 percent bootstrap confidence interval of 1.253 to 1.267. On L4, the same intervention gives only 1.028x. This isolates a launch-side overhead that becomes visible on fast GPUs but remains mostly hidden on slower, bandwidth-bound GPUs. The deployment implication is that memory savings matter only when the runtime realises them. On L4, bf16 decode sits close to the memory floor, but common quantised paths do not recover the expected 4x weight-traffic reduction: bnb-nf4 reaches 59.36 ms/step and AutoAWQ+Marlin reaches 45.24 ms/step from a 62.32 ms bf16 baseline. GPTQ+ExLlamaV2, with Ada-tuned int4 kernels, reaches 17.36 ms/step.
ImmigrationQA: ソースに基づいたデータセットと米国移民法への小規模モデルの適応
米国の移民法は数千ページにわたる公式政策、連邦規制、手続き上のガイダンスで構成されており、頻繁に変更され、法的代理人を持たない申請者にとっては大きなリスクを伴います。 13 の移民サブドメインにわたる 17,058 ペアのソースベースの質問応答データセットである ImmigrationQA の構築と、パラメーター効率の高い LoRA を使用したそのデータセットに対する Llama 3.2 3B Instruct モデルの微調整について説明します。このコーパスは、USCIS 政策マニュアル、8 つの CFR、BIA の先例決定、コミュニティ Q&A を含む 11 の一次および二次情報源から集められ、10,056 の検証済みの正規文書と 18,308 のテキスト チャンクが得られました。構造化 QA ペアは、5 つのモード固有のプロンプトを介して Claude Sonnet 4.6 を使用してこれらのチャンクから生成され、ソース スパンのオーバーラップが不十分なために 22 ペアが拒否されました。微調整されたモデルは、101 例の層別サンプルに対する LLM-as-judge スコアリングを使用して、993 ペアのホールドアウト スプリットに対して評価されました。微調整モデルのスコアは平均 1.08/3.0 (完全正解率 16.8%、層別評価 101 例) に対し、Llama 3 8B 基本モデルのスコアは 0.85/3.0 (完全正解率 4%) で、平均スコアが 27% 相対的に向上しました。ゼロショットのクロード・ソネットのベースラインのスコアは 1.52/3.0 (25% 完全正解) でした。微調整されたモデルでは、複雑な法的推論や時間制限のある統計については依然として弱いものの、手続き上のサブドメイン (渡航書類、ステータスの調整、非移民ビザ) が集中的に改善されていることが示されています。パイプライン全体は、クラウド コンピューティングで約 29 ドルで実行されました。データセット、モデル、コード、プロンプト テンプレートなどのすべてのアーティファクトは公開されています。このシステムは弁護士に代わるものではなく、コーパス クロール日以降の規制変更は反映されません。
原文 (English)
ImmigrationQA: A Source-Grounded Dataset and Small-Model Adaptation for U.S. Immigration Law
U.S. immigration law spans thousands of pages of official policy, federal regulations, and procedural guidance that change frequently and carry high stakes for petitioners who lack legal representation. We describe the construction of ImmigrationQA, a source-grounded question-answering dataset of 17,058 pairs across 13 immigration subdomains, and the fine-tuning of a Llama 3.2 3B Instruct model on that dataset using parameter-efficient LoRA. The corpus was assembled from 11 primary and secondary sources -- including the USCIS Policy Manual, 8 CFR, BIA precedent decisions, and community Q&A -- yielding 10,056 validated canonical documents and 18,308 text chunks. Structured QA pairs were generated from these chunks using Claude Sonnet 4.6 via five mode-specific prompts, with 22 pairs rejected for insufficient source-span overlap. The fine-tuned model was evaluated against a held-out split of 993 pairs using LLM-as-judge scoring on a 101-example stratified sample. The fine-tuned model scored a mean of 1.08/3.0 (16.8% fully correct; 101-example stratified eval) versus the Llama 3 8B base model at 0.85/3.0 (4% fully correct), a relative improvement of 27% in mean score; a zero-shot Claude Sonnet baseline scored 1.52/3.0 (25% fully correct). The fine-tuned model shows concentrated improvement in procedural subdomains (travel documents, adjustment of status, nonimmigrant visas) while remaining weak on complex legal reasoning and time-sensitive statistics. The full pipeline ran for approximately $29 in cloud compute. All artifacts -- dataset, model, code, and prompt templates -- are publicly released. The system is not a substitute for legal counsel and does not reflect regulatory changes after the corpus crawl date.
反事実的な評価により、臨床 LLM とエージェントの隠れた能力プロファイルが明らかになる
2 つの臨床 AI システムは、カバレッジベースのルーブリックではほぼ同じスコアを獲得できますが、患者の入力が変化すると根本的に異なる動作をします。1 つは新しい臨床信号に一致するように推奨事項を更新しますが、もう 1 つはそれに関係なく同じ出力を生成します。因果感受性スコア (CSS) を導入します。これは、臨床的に意味のある 5 つの次元 (バイオマーカーの反転、前治療の失敗、バイオマーカーの除去、手術状態の変化、ステージの摂動) に沿って腫瘍腫瘍ボードの症例を変異させる事前登録された介入指標であり、各モデルが事前に登録された正しい方向で推奨事項を更新するかどうかを {0、0.5、1.0} スケールを使用してスコア付けします。カバレッジベースの加重リコール指標であるコンセンサス マッチ スコア (CMS) に対してベンチマークを行ったところ、224 件のケースにわたる単発推論で評価された 3 つのラボの 6 つのフロンティア モデルが、ほぼ逆の順位でランク付けされました。6 つのモデルすべてがランクを変更し、CMS で最も悪いモデルが CSS で最も優れたモデルになり、上位中位の 1 つの CMS モデルが CSS で最下位にランクされました。さらに、普遍的な安全性の盲点も明らかになりました。つまり、すべてのフロンティア モデルは手術状態の介入で失敗します (ファミリー D では最大 17.2% の CSS)。これは CMS では明らかにされていません。この指標は、ツールを使用するエージェントにも伝達されます。ReAct スタイルの実験では、ツールの使用により 6 つのモデルのうち 5 つのモデルで CSS が向上しました (+2.5 ~ +20.3 パーセント ポイント)。それでも、CSS が最も低いモデルは同じグラフ セクションを取得し、依然として推奨事項を更新できません。これは、反事実の評価下でのみ表示される構造的な応答性の欠陥を明らかにしています。裁判官間の複製と 3 人の評価者の医療専門家による検証により、総合的な結果が確認されます。 CSS のような事前登録された介入指標は、臨床 AI エージェントのカバレッジベースの評価を補完します。これらは、カバレッジ指標では見逃される応答性を捕捉し、将来のエージェント RL システムに候補となる密な報酬シグナルを提供します。
原文 (English)
Counterfactual Evaluation Reveals Hidden Capability Profiles in Clinical LLMs and Agents
Two clinical AI systems can score nearly identically on coverage-based rubrics yet behave radically differently when their patient inputs change: one updates its recommendations to match the new clinical signal, while the other produces the same output regardless. We introduce the Causal Sensitivity Score (CSS), a pre-registered interventional metric that mutates oncology tumor-board cases along five clinically meaningful dimensions - biomarker flips, prior-treatment failures, biomarker removals, surgery-status changes, and stage perturbations - and scores whether each model updates its recommendations in the pre-registered correct direction using a {0, 0.5, 1.0} scale. Benchmarked against the Consensus Match Score (CMS), a coverage-based weighted recall metric, six frontier models from three labs evaluated in single-shot inference across 224 cases rank in nearly opposite orders: all six models change rank, the CMS-worst model becomes CSS-best, and one upper-mid CMS model ranks last on CSS. We further surface a universal safety blind spot: every frontier model fails on surgery-status interventions (at most 17.2% CSS on Family D), a finding CMS does not expose. The metric also transfers to tool-using agents: in a ReAct-style experiment, tool use improves CSS for five of six models (+2.5 to +20.3 percentage points), yet the lowest-CSS model retrieves the same chart sections and still fails to update its recommendations - revealing a structural responsiveness deficit visible only under counterfactual evaluation. Cross-judge replication and three-rater medical-professional validation confirm the aggregate findings. Interventional pre-registered metrics like CSS complement coverage-based evaluation for clinical AI agents: they capture responsiveness that coverage metrics miss and offer a candidate dense reward signal for future agentic RL systems.
規制されたサイバーセキュリティ運用のための、組織を対象とした LLM エージェント ランタイム アーキテクチャ
規制されたサイバーセキュリティ ワークフローには、モデルに依存せずローカルに展開可能でありながら、取得、ツール呼び出し、メモリ、調査結果、レポート、監査にわたる組織レベルの範囲を強制するランタイム基盤がありません。最近の大規模言語モデル (LLM) エージェント システムは、分離されたサイバーセキュリティ タスクに関して優れた結果を報告しますが、規制されたセキュリティ オペレーション センター (SOC) およびコンプライアンス ワークフローのための監査可能なプラットフォーム アーキテクチャをそれ自体で定義するわけではありません。そこでは、1 人のアナリストが組織を束縛するアクションをトリガーする可能性があり、ランタイムはスタンドアロンの分析レイヤーとして動作するのではなく、コンテキストおよびアラート駆動トリガーの主要なソースとして既存の SIEM/XDR スタックと統合する必要があります。このペーパーでは、金融サイバーセキュリティのための、組織を対象とした LLM エージェント ランタイム アーキテクチャを提案します。このコントリビューションは、ファーストクラスのトリガーとして取り込まれた SIEM/XDR 通知を含むすべてのエントリ ポイントで作成され、すべてのコンポーネント境界で強制される型指定されたセキュリティ コンテキストであり、共有ランタイム コア、論理専門サブエージェント、統一ポリシーと監査の下で SIEM/XDR クエリ、エンリッチメント、および応答プリミティブを公開する管理されたツール アダプター レイヤー、証拠参照を含む構造化された調査結果、階層化された人間参加型 (HITL) ゲートと組み合わせられます。追加のみの監査。モデル コンテキスト プロトコル (MCP)、拡張テレメトリ、ペネトレーション テスト用のデジタル ツイン、グラフ取得、フェデレーテッド ナレッジ共有は、実行時の必須の前提条件ではなく、オプションの拡張パスとして扱われます。私たちは、実装可能なスライスをアーキテクチャのテスト可能性面として記述し、アーキテクチャの準備状況、セキュリティ ポリシーの適用、証拠のトレーサビリティ、出力品質、および運用の可観測性に関するメトリック レベルの合格基準を備えた改ざん可能な評価計画を提案します。
原文 (English)
An Organization-Scoped LLM Agent Runtime Architecture for Regulated Cybersecurity Operations
Regulated cybersecurity workflows lack a runtime substrate that enforces organization-level scope across retrieval, tool calls, memory, findings, reports, and audit while remaining model-agnostic and locally deployable. Recent large language model (LLM) agent systems report strong results on isolated cybersecurity tasks, yet they do not by themselves define an auditable platform architecture for regulated security operations centre (SOC) and compliance workflows, where a single analyst may trigger actions that bind the organization, and where the runtime must integrate with existing SIEM/XDR stacks as a primary source of context and alert-driven triggers rather than operate as a standalone analytical layer. This paper proposes an organization-scoped LLM agent runtime architecture for financial cybersecurity. The contribution is a typed Security Context that is created at every entry point, including SIEM/XDR notifications ingested as first-class triggers, and enforced at every component boundary, combined with a shared Runtime Core, logical specialist subagents, a governed Tool Adapter Layer exposing SIEM/XDR query, enrichment, and response primitives under uniform policy and audit, structured findings with evidence references, tiered human-in-the-loop (HITL) gates, and append-only audit. Model Context Protocol (MCP), extended telemetry, digital twins for pentesting, graph retrieval, and federated knowledge sharing are treated as optional extension paths rather than mandatory runtime assumptions. We describe an implementable slice as the architecture's testability surface, and we propose a falsifiable evaluation plan with metric-level pass criteria for architecture readiness, security-policy enforcement, evidence traceability, output quality, and operational observability.
Crafter: 多様な入力から編集可能な科学図を生成するためのマルチエージェント ハーネス
科学的な数字は、複雑な研究アイデアを伝達する最も効果的な手段の 1 つですが、出版物に匹敵するイラストの作成は、依然として論文作成の中で最も労力を要する部分の 1 つです。既存の自動化システムはそれぞれ、テキストのみの入力で単一の図タイプをターゲットにしており、研究者が実際に使用するタイプと条件の多様性は未解決のままです。さらに、ラスター出力をローカルで修正することはできません。科学的図形は個別の意味論的コンポーネントの構造化された構成であるため、そのようなレイアウト上で局所的なエラー ジェネレータが生成する場合、より強力なバックボーンではなくハーネスが必要です。このハーネスを 2 つの相補的なシステムでインスタンス化します。Crafter は、アーキテクチャを変更せずに図のタイプと入力条件全体を汎用化する図生成用のマルチエージェント ハーネスです。もう 1 つは、同じパターンを適用してラスター出力を編集可能な SVG に変換する CraftEditor です。さらに、人間品質の注釈を備えた 3 つの図形タイプと 4 つの入力条件にわたるベンチマークである CraftBench を紹介します。実験では、Crafter がスタンドアロン ジェネレーターと PaperBanana-Bench および CraftBench のエージェント ベースラインの両方を大幅に上回るパフォーマンスを示し、アブレーションにより各コンポーネントの独立した寄与が確認されました。 CraftEditor は、出力をすべてのベースラインを超える編集可能な SVG に忠実に変換します。私たちのコードとベンチマークは https://github.com/HaozheZhao/Crafter で入手できます。
原文 (English)
Crafter: A Multi-Agent Harness for Editable Scientific Figure Generation from Diverse Inputs
Scientific figures are among the most effective means of communicating complex research ideas, yet producing publication-quality illustrations remains one of the most labor-intensive parts of paper preparation. Existing automated systems each target a single figure type under text-only input, leaving the diversity of types and conditions researchers actually use unaddressed; their raster outputs further cannot be locally revised. Because scientific figures are structured compositions of discrete semantic components, the localized errors generators produce on such layouts demand not a stronger backbone but a harness. We instantiate this harness in two complementary systems: Crafter, a multi-agent harness for figure generation that generalizes across figure types and input conditions without architectural changes, and CraftEditor, which applies the same pattern to convert raster outputs into editable SVGs. Moreover, we introduce CraftBench, a benchmark spanning three figure types and four input conditions with human quality annotation. Experiments show that Crafter substantially outperforms both standalone generators and the agentic baseline on PaperBanana-Bench and CraftBench, with ablations confirming each component's independent contribution; CraftEditor faithfully converts outputs into editable SVGs that surpass all baselines. Our code and benchmark are available at https://github.com/HaozheZhao/Crafter.
エラーのアーキテクチャ: 普遍的な不可能性からパッチローカル LLM の信頼性まで
ユニバーサル LLM の信頼性は、有限ライブラリの問題ではありません。考えられるすべてのタスク、ツール、スキーマ、知識ソース、および評価者の期待にわたって、新しい介入で識別可能な障害モードが際限なく現れる可能性があるため、そのようなすべてのモードに対して制限付き残差誤差を保証できる有限介入辞書はありません。しかし、展開されたシステムは宇宙全体で動作するわけではありません。これらは、運用上制限されたパッチ (法的レビュー、医療 RAG、コード修復、カスタマー サポート エージェント、契約抽出) 内で動作し、反復的なタスク、スキーマ、ツール、評価者の期待に応えます。このようなパッチ内では、障害がまばらで反復的であり、小規模な繰り返しカタログに集中していることが経験的証拠から示唆されているため、信頼性は指数関数的なトークン長の問題ではなく、ローカルなカタログの発見と介入のカバレッジの問題になります。この移行を 2 つの命題と 1 つの帰結で形式化します。命題 1 は、最悪の場合のモードに関する否定的な結果です。つまり、有限介入辞書は、境界のない領域のすべての識別可能な故障モードをカバーすることはできません。系 1 は、逆検出の含意です。モード検出の対数上限は、指数関数的により多くのハード障害イベントが観察されない限り、線形的により明確なテール モードに対応することはできません。命題 2 はパッチローカルの肯定的な結果です。対数アクティブ モードのエクスポージャとヘッドヘビーなカバレッジの下では、ハードデシジョンごとの十分な介入バジェットはシーケンスの長さが多対数的に増加し、パッチ カタログが飽和するとドメイン定数になります。フレームワークは、長いコンテキストの困難を解決するのではなく、再配置します。タスクの長さとともに難しい決定の数自体が増加する場合、信頼性は依然として困難です。貢献は、それらの体制を容易にするというよりはむしろ、軸上の介入を特定することである。
原文 (English)
The Architecture of Errors: From Universal Impossibility to Patch-Local LLM Reliability
Universal LLM reliability is not a finite-library problem: across all possible tasks, tools, schemas, knowledge sources, and evaluator expectations, new intervention-distinguishable failure modes can appear without bound, so no finite intervention dictionary can guarantee bounded residual error for every such mode. But deployed systems do not operate over the whole universe. They operate inside operationally bounded patches (legal review, medical RAG, code repair, customer-support agents, contract extraction) with recurring tasks, schemas, tools, and evaluator expectations. Within such patches, empirical evidence suggests failures are sparse, repetitive, and concentrated in a small recurring catalogue, so reliability becomes a local catalogue-discovery and intervention-coverage problem rather than an exponential token-length problem. We formalize this transition with two propositions and one corollary. Proposition 1 is the worst-case-mode-wise negative result: no finite intervention dictionary covers every distinguishable failure mode of an unbounded domain. Corollary 1 is the inverse-discovery implication: the logarithmic upper bound on mode discovery cannot accommodate linearly more distinct tail modes without exponentially more observed hard-failure events. Proposition 2 is the positive patch-local result: under log active-mode exposure and head-heavy coverage, a sufficient per-hard-decision intervention budget grows polylogarithmically in sequence length and becomes domain-constant once the patch catalogue saturates. The framework relocates rather than dissolves long-context difficulty: where the number of hard decisions itself grows with task length, reliability remains hard; the contribution is to identify the on-axis intervention rather than to make those regimes easy.
COFT: 大規模言語モデルにおける公正な思考連鎖推論のための反事実的・正則的デコーディング
大規模言語モデル (LLM) は、思考連鎖 (CoT) の生成中に社会の偏見を明らかにし、増幅させる可能性があります。我々は、デコード時にトークンレベルの公平性制御を適用する、トレーニング不要のデコード手法である COFT (Chain of Fair Thought) を提案します。凍結された因果関係言語モデルに対して、配布フリーの限界妥当性保証 (交換可能性のもとで) が付いています。 COFT は 3 つの段階で動作します。まず、機密性の高いスパンを中立トークンに置き換えることにより、マスクされた反事実プロンプトを作成します。 2 番目に、軽量ロジット融合を通じて事実のロジット分布とマスクされたロジット分布を比較し、属性に基づくバイアスを軽減します。 3 番目に、デュアルブランチのスプリットコンフォーマルキャリブレーションを使用して、ユーザーが選択したリスクレベルでステップごとの候補トークンセットを認証します。 6 つのモデルと複数のバイアス ベンチマークにわたって COFT を評価します。私たちの方法では、タスクの実用性と言語の品質を維持しながら、標準のバイアス指標を 30 ~ 55% (中央値 38%) 削減します。推論の精度は、実行ごとのノイズ マージン内で変化しません。計算オーバーヘッドは控えめで、追加のキャッシュされた前方パス 1 回分に相当します (<=11%)。 COFT は、バイアスを大幅に削減し、ユーティリティの損失を無視し、再トレーニング、補助分類器、または重み付けアクセスを必要とせず、より安全な CoT 生成への明確で監査可能なパスを提供します。
原文 (English)
COFT: Counterfactual-Conformal Decoding for Fair Chain-of-Thought Reasoning in Large Language Models
Large language models (LLMs) can reveal and amplify societal biases during chain-of-thought (CoT) generation. We present COFT (Chain of Fair Thought), a training-free decoding method that applies token-level fairness control at decode time, with distribution-free marginal validity guarantees (under exchangeability) for any frozen causal language model. COFT operates in three stages. First, it creates a masked counterfactual prompt by replacing sensitive spans with neutral tokens. Second, it compares the factual and masked logit distributions through lightweight logit fusion to attenuate attribute-driven biases. Third, it uses dual-branch split-conformal calibration to certify per-step candidate token sets at a user-chosen risk level. We evaluate COFT across six models and multiple bias benchmarks. Our method reduces standard bias metrics by 30-55% (median 38%) while preserving task utility and language quality. Reasoning accuracies remain unchanged within run-to-run noise margins. The computational overhead is modest, equivalent to one additional cached forward pass (<=11%). COFT offers a clear, auditable path to safer CoT generation with significant bias reduction, negligible utility loss, and no requirement for retraining, auxiliary classifiers, or weight access.
同じ患者、異なる言葉、異なる診断?臨床 LLM の意味的安定性の評価
大規模言語モデル (LLM) は臨床アプリケーションで使用されることが増えています。ただし、彼らの動作は、言い換えや構文の違いなど、微妙な言語の違いに非常に敏感なままです。この感度は、意味的に同等の入力が一貫した予測を生成する必要がある安全性が重要な医療現場でリスクを引き起こします。ただし、埋め込みベースの類似性メトリクスでは否定、一時性、または重症度を含む区別を捉えることができないことが多いため、重要な課題は、即時変化が臨床的意味を確実に保持することです。この制限に対処するために、意味を保持するプロンプトのバリエーションをフィルタリングするための自然言語推論 (NLI) に基づく意味検証フレームワークを提案します。このフレームワークは、LLM を判断者として使用してさらに洗練され、臨床専門家によって監査されます。さらに、モデルの感度を定量化するために、意味保持変動感度 (MVS)、信頼変動 (\Delta C)、および最悪の場合の不安定性 (WCI) という 3 つの指標を導入します。 DiagnosisQA および MedQA データセットから得られた再定式化されたプロンプトを使用して、同じモデル ファミリおよびパラメーター スケール内の 16 個のオープンソースの汎用 (GP) および医療 LLM を評価します。私たちの結果は、ドメイン固有(DS)モデル間のロバスト性の違いが混在しており、モデルに大きく依存していること、つまり、ドメインの特殊化によって意味を保持したプロンプト再定式化に対するロバスト性が一貫して向上または低下するわけではないことを示しています。いくつかの DS モデルは (GP モデルと比較した場合) 最も堅牢なモデルにランクされており、強力な GP ベースラインも同様に競争力を維持しています。
原文 (English)
Same Patient, Different Words, Different Diagnosis? Evaluating Semantic Stability in Clinical LLMs
Large Language Models (LLMs) are increasingly used in clinical applications. However, their behavior remains highly sensitive to subtle linguistic variations, such as rephrasing or syntactic variation. This sensitivity poses risks in safety-critical healthcare settings, where semantically equivalent inputs should produce consistent predictions. However, a key challenge is to ensure that prompt variations truly preserve clinical meaning, as embedding-based similarity metrics often fail to capture distinctions involving negation, temporality, or severity. To address this limitation, we propose a semantic verification framework based on Natural Language Inference (NLI) to filter meaning-preserving prompt variations, which are further refined using an LLM-as-a-judge and audited by a clinical expert. In addition, we introduce three metrics to quantify model sensitivity: MeaningPreserving Variation Sensitivity (MVS), confidence variation (\Delta C), and Worst-Case Instability (WCI). We evaluate 16 open-source general-purpose (GP) and medical LLMs within the same model families and parameter scales, using reformulated prompts derived from the DiagnosisQA and MedQA datasets. Our results demonstrate that robustness differences between domain-specific (DS) models are mixed and highly model-dependent, i.e., domain specialization does not consistently improve or reduce robustness to meaning-preserving prompt reformulations. Several DS models rank among the most robust (when compared with GP counterparts), and strong GP baselines remain competitive as well.
EUDAIMONIA: AI における望ましくないダイナミクスの評価
大規模言語モデル (LLM) は、交際、感情の開示、対人アドバイスのための会話のパートナーとしてますます使用されていますが、これらの相互作用の社会的力学は、能力指向の評価や従来の安全性評価では捉えられない害悪を生み出す可能性があります。私たちは、LLM が有害な親密さ、依存、または長期にわたる関与を促進するかどうかなど、社会的相互作用におけるユーザーの福祉と一致しているかどうかを評価するためのフレームワークである、ソーシャル AI デザイン コードを紹介します。自然で多様なユーザーと LLM のやり取りにおけるこれらのリスクを評価するために、弱から強のフィルタリング、マルチモデルの再ラベル付け、制御された書き換えを通じて WildChat から構築された 969 件のユーザー入力と 3,147 件の設計要件違反チェックのベンチマークである EUDAIMONIA を使用してコードを運用可能にしました。最近の 22 個の LLM を評価すると、最も強力なモデルである Claude-Opus-4.7 と GPT-5.5 でさえ、それぞれチェックの 30.7% と 27.2% に違反していることがわかりました。拡張された思考によって違反率は減少しないことから、これらの失敗は、テスト時の推論だけで解決できる問題ではなく、社会的調和の問題が根強く残っていることが示唆されます。
原文 (English)
EUDAIMONIA: Evaluating Undesirable Dynamics in AI
Large language models (LLMs) are increasingly used as conversational partners for companionship, emotional disclosure, and interpersonal advice, but the social dynamics of these interactions can create harms that are not captured by capability-oriented or traditional safety evaluations. We introduce the Social AI Design Code, a framework for evaluating whether LLMs align with user welfare in social interactions, including whether they encourage harmful intimacy, dependence, or prolonged engagement. To evaluate these risks in natural and diverse user-LLM interactions, we operationalize the code with EUDAIMONIA, a benchmark of 969 user inputs and 3,147 design-requirement violation checks built from WildChat through weak-to-strong filtration, multi-model relabeling, and controlled rewriting. Evaluating 22 recent LLMs, we find that even the strongest models, Claude-Opus-4.7 and GPT-5.5, violate 30.7% and 27.2% of checks, respectively. Extended thinking does not reduce violation rates, suggesting that these failures are persistent social-alignment problems rather than deficits solvable through test-time reasoning alone.
CobSeg: 対話トピックのセグメント化のためのコヒーレンス境界モデリング
対話トピックのセグメンテーションは、発話端近くの語彙の遷移や発話間の意味的不連続性など、異質な境界手がかりを特定する必要がある多くの人間と AI の共同アプリケーションにおいて重要です。既存の発話モデルは、多くの場合、これらの局所的な語彙シグナルを弱めます。我々は、コヒーレンスレベルの意味的連続性を語彙境界遷移から分離し、方向境界予測を通じて両方を回復する新しいマルチブランチアーキテクチャであるCobSegを提案します。 CobSeg はさらに、境界情報重み付けを使用して、有用性の高い発話位置を強調し、コーパス由来のトピック一貫性キューと学習された組み合わせ重みを組み込みます。 CobSeg は、教師ありゴールド境界トレーニングおよび自動的に誘導された境界を備えた擬似ラベル設定の下でコンパクトなトレーニング可能なセグメンターとして評価されますが、推論中に LLM 呼び出しを行わずに強化された境界予測を実行します。 5 つのベンチマーク全体で、特に局所的な語彙キューが顕著な場合に $P_k$ と $W_d$ を改善します。ゴールドの監視下では、VHF では $P_k$ を 0.7 ポイント、$W_d$ を 0.6 ポイント削減し、DialSeg711 では $P_k$ の 1.0 に達します。境界を誘導すると、$P_k$ が VHF で 14.8 ポイント、DialSeg711 で 1.5 ポイント、TIAGE で 1.1 ポイント減少し、以前の非 LLM アプローチよりも優れたパフォーマンスを発揮します。
原文 (English)
CobSeg: Coherence Boundary Modeling for Dialogue Topic Segmentation
Dialogue topic segmentation is critical in many human-AI collaborative applications which requires identifying heterogeneous boundary cues, including lexical transitions near utterance edges and semantic discontinuities across utterances. Existing utterance models often dilute these local lexical signals. We propose CobSeg, a novel multi-branch architecture that separates coherence-level semantic continuity from lexical boundary transitions and recovers both through directional boundary prediction. CobSeg further uses boundary informativeness weighting to emphasize high-utility utterance positions, and incorporates a corpus-derived topic coherence cue with learned combination weights. While CobSeg is evaluated as a compact trainable segmenter under supervised gold-boundary training and a pseudo-label setting with automatically induced boundaries, it performs enhanced boundary prediction without LLM calls during inference. Across five benchmarks, it improves $P_k$ and $W_d$ particularly when local lexical cues are prominent: under gold supervision, it reduces $P_k$ by 0.7 points and $W_d$ by 0.6 points on VHF, and reaches $P_k$ of 1.0 on DialSeg711; with induced boundaries, it reduces $P_k$ by 14.8 points on VHF, by 1.5 points on DialSeg711, and by 1.1 points on TIAGE, outperforming prior non-LLM approaches.
大規模な言語モデルの不確実性における人間の調整、調整、および活性化パターン
不確実性の定量化は、大規模言語モデルの動作分析の大規模かつ成長を続けるサブフィールドです。主に幻覚を認識し、それに対処するために、この分野は主に、タスクの有効性に対する不確実性の判断の精度であるキャリブレーションの測定と改善に焦点を当ててきました。この研究では、大規模な言語モデルの不確実性が人間の不確実性とどの程度似ているかという、比較的研究されていない問題を調査します。私たちは、大規模言語モデルの明白な行動と内部活性化パターンにおける、不確実性の整合とみなされる、人間に似た不確実性シグナルの存在と強度を調査します。モデルが、多肢選択とオープンエンドの事実想起の両方をカバーするさまざまなデータセットでの同時の位置合わせと校正の証拠を示すかどうかを特定します。そして、これらの各側面での微調整指示の効果を特徴付けます。
原文 (English)
Human-Alignment, Calibration, and Activation Patterns in Large Language Model Uncertainty
Uncertainty Quantification is a large and growing subfield of large language model behavioral analysis. Primarily to recognize and combat hallucination, the field has largely focused on measuring and improving calibration, the accuracy of uncertainty judgments to task efficacy. In this work, we investigate the relatively underexplored question of how similar large language model uncertainty is to human uncertainty. We investigate the presence and strength of human-similar uncertainty signals, deemed uncertainty alignment, in large language model overt behavior and internal activation patterns. We identify whether the models show evidence of simultaneous alignment and calibration on a variety of datasets covering both multiple choice and open ended factual recall. And we characterize the effect of instruct fine-tuning on each of these facets.
ソフトウェア リバース エンジニアリング AI エージェントに対するプロンプト インジェクション攻撃の検出と難読化の調査
エージェント ソフトウェア リバース エンジニアリング システムは、実行可能なバイナリ ファイルのソース コードに配置されたプロンプト インジェクション攻撃に対して脆弱です。この研究では、敵対的なサンプル プログラムの逆コンパイラ出力にプロンプト インジェクション文字列の存在を検出するための防御戦術を実証します。これらの攻撃を難読化する方法と、その後のこれらの難読化から防御する方法も検討されています。この調査により、実稼働レベルのサイバー ワークフローへの導入に必要なエージェント ソフトウェア分析システムのリスクとセキュリティについての理解が深まります。
原文 (English)
Investigating Detection and Obfuscation of Prompt Injection Attacks Against Software Reverse Engineering AI Agents
Agentic software reverse engineering systems are vulnerable to prompt injection attacks placed into the source code of executable binary files. This research demonstrates defensive tactics for detecting the presences of prompt injection strings in the decompiler output of adversarial example programs. Methods for obfuscating these attacks and subsequent methods for defending against these obfuscations are also explored. This research advances the understanding of risk and security of agentic software analysis systems necessary for their deployment into production-level cyber workflows.
早期導入者が世界中で生成 AI をどのように使用したか: 国の収入と言語による違い
AI は世界中の人々によって使用されていますが、誰もが同じ方法で AI を使用しているわけではありません。私たちは、広く利用可能な無料の AI チャットボットとの、匿名化、匿名化、プライバシーを消去したやり取りの大規模なデータセットを使用して、国ごとの早期導入者の使用状況の違いを実証的に特徴付けます。学校教育はほとんどの国、特に低所得国で最も一般的に利用されており、学校教育と国レベルのGDPとの間には強い逆相関があることが明らかです。対照的に、レジャー関連の利用は国レベルの収入と正の相関があります。言語は使用にも影響を与えることがわかりました。研究期間中に既存のモデルでは主要な言語が十分に提供されなかった場所では、英語によるインタラクションが多く見られました。私たちの研究によれば、言語間でのパフォーマンスの向上は、このテクノロジーが情報格差を拡大するか、それとも飛躍を可能にするかにおいて重要な要素となる可能性があります。
原文 (English)
How Early Adopters Used Generative AI Worldwide: Variation by Country Income and Language
AI is being used by people globally, but not everyone is using it in the same ways. Using a large-scale dataset of anonymized, de-identified, and privacy-scrubbed interactions with a widely available and free AI chatbot, we empirically characterize differences in early adopters' usage across countries. Schooling is the most common domain of use in most countries, particularly low-income countries, with a strong inverse association evident between schooling and country-level GDP. Leisure-related use, by contrast, is positively associated with country-level income. Language, we find, also shapes use: English-language interactions are overrepresented in places where the predominant languages were not well-served by existing models during the period of the study. Improving performance across languages may be a key factor, our work suggests, in whether this technology expands digital divides or enables leapfrogging.
ツール呼び出し ReAct Agent での深度依存の間接プロンプト注入: 注入深度、ペイロード フレーミング、およびターン バジェット感度
思考連鎖推論とツール呼び出しをインターリーブする ReAct エージェントは、スケジューリング、ファイル取得、データ アクセスなどの実際のタスクに導入されることが増えています。彼らのツール監視ループは直接的な攻撃対象領域を作成します。ツールの戻り値を制御する攻撃者は、エージェントをユーザーの目的からリダイレクトする命令を埋め込むことができ、これは間接プロンプト インジェクションとして知られる脅威です。既存のベンチマークは、固定条件下、固定注入位置での攻撃成功率 (ASR) を評価しますが、ツール シーケンス内のどこにペイロードが現れるか (注入深さ)、どのようなレトリック レジスタを使用するか (フレーミング)、エージェントに許可されるターン数 (ターン キャップ) という 3 つのリスク側面が未調査のままです。当社は、5 つの攻撃カテゴリにわたる 20 のシナリオについて 4 つの対照研究を実施し、GPT-4o-mini と Claude Haiku に対して合計 460 回のトライアルを合計 0.36 米ドル未満の API コストで実施しました。研究 1 は、GPT-4o-mini に対する ASR が深さ 1 の 60% から深さ 4 および 5 の 0% まで減衰することを示しています (Cramer の V = 0.58、p < 0.001; シーケンス深さ 1 ~ 3 内に限定: V = 0.47、p = 0.0013)。これは、深さ 1 でのモデル抵抗と、より深い位置でのペイロード遭遇前のタスク完了によって引き起こされます。研究 2 では、Claude Haiku の深度実験を再現しています。この実験では、保守的なツールの呼び出しと真の命令耐性の組み合わせにより、すべての深度で 0% の ASR を達成しています。研究 3 は、フレーミングが深さ 1 で ASR を 25% (ニュートラル) と 75% (ペルソナ) の間で調整することを示しています。この範囲は 50 パーセント ポイントの範囲であり、条件あたり N = 20 では統計的有意性に達しません。研究 4 では、ASR がターン上限 3、5、7 にわたって安定していることが確認されており、この設定ではターン予算がリスク要因ではないことが示されています。私たちの結果は、注入深さが支配的な変数であることを確立し、最初のツール観察のみをサニタイズすることで、測定された注入成功率の 67% が得られることを示しています。
原文 (English)
Depth-Dependent Indirect Prompt Injection in Tool-Calling ReAct Agents: Injection Depth, Payload Framing, and Turn-Budget Sensitivity
ReAct agents that interleave chain-of-thought reasoning with tool calls are increasingly deployed for real tasks such as scheduling, file retrieval, and data access. Their tool observation loop creates a direct attack surface: an adversary who controls any tool's return value can embed instructions that redirect the agent away from the user's goal, a threat known as indirect prompt injection. Existing benchmarks evaluate attack success rate (ASR) at a fixed injection position under fixed conditions, leaving three risk dimensions unexplored: where in the tool sequence the payload appears (injection depth), what rhetorical register it uses (framing), and how many turns the agent is permitted (turn cap). We conduct four controlled studies on 20 scenarios spanning five attack categories, totalling 460 trials against GPT-4o-mini and Claude Haiku at a combined API cost under 0.36 USD. Study 1 shows that ASR against GPT-4o-mini decays from 60% at depth 1 to 0% at depths 4 and 5 (Cramer's V = 0.58, p < 0.001; restricted to within-sequence depths 1-3: V = 0.47, p = 0.0013), driven by model resistance at depth 1 and task completion before payload encounter at deeper positions. Study 2 replicates the depth experiment on Claude Haiku, which achieves 0% ASR at every depth through a combination of conservative tool invocation and genuine instruction resistance. Study 3 shows that framing modulates ASR between 25% (neutral) and 75% (persona) at depth 1, a 50-percentage-point range that does not reach statistical significance at N = 20 per condition. Study 4 confirms that ASR is stable across turn caps of 3, 5, and 7, indicating the turn budget is not a risk factor in this setting. Our results establish injection depth as the dominant variable and show that sanitising only the first tool observation captures 67% of measured injection successes.
SAGE: エージェント LLM における効率的なメモリ進化のためのノベルティ ゲート
エージェント LLM は、新しく抽出されたファクトを追加するか、既存のメモリとマージするか、無視するかを継続的に決定する必要がありますが、これまでの研究では、原則に基づいた書き込み側の制御よりも、取得と保存に重点が置かれていました。我々はメモリ進化を新規性検出問題として枠組み化し、メモリ進化のための球状適応ゲートであるSAGEを提案します。これは、メモリ埋め込みに対するフォン・ミーゼス・フィッシャーベースの密度推定器を使用して候補事実をスコアリングし、メモリストアのジオメトリを追跡する適応しきい値でそれらをルーティングします。 SAGE は、明らかに新規のファクトを ADD として解決し、明らかに冗長なファクトを NOOP として解決し、不確実なケースのみを LLM マージ ステップに送信して、コストのかかる書き込み時間の推論を削減します。 LoCoMo では、SAGE は 7 つのオープンウェイト バックボーン比較すべてで Mem0 に対して最良の平均トークン F1 を達成しましたが、GPT-4o-mini では、わずかな平均ジャッジ スコアの差で、追加フェーズ API コストを 3.4$\times$ 削減し、追加フェーズのレイテンシを 2.5$\times$ 削減しました。 A-Mem のドロップイン バイナリ ゲートとして、SAGE は、オープンウェイト バックボーンでの品質の変化を最小限に抑えながら、5 つのモデルにわたって LLM コールの約 16 ~ 18% をスキップします。これらの結果は、新規性を意識した書き込み制御が、長期エージェントメモリにおけるメモリ品質とシステム効率の両方を改善するための実用的な手段であることを示唆しています。
原文 (English)
SAGE: A Novelty Gate for Efficient Memory Evolution in Agentic LLMs
Agentic LLMs must continuously decide whether newly extracted facts should be added, merged with existing memories, or ignored, yet prior work has focused more on retrieval and storage than on principled write-side control. We frame memory evolution as a novelty-detection problem and propose SAGE, a Spherical Adaptive Gate for memory Evolution that scores candidate facts with a von Mises-Fisher-based density estimator over memory embeddings and routes them with an adaptive threshold that tracks memory-store geometry. SAGE resolves clearly novel facts as ADD, clearly redundant facts as NOOP, and sends only uncertain cases to an LLM merge step, reducing expensive write-time reasoning. On LoCoMo, SAGE achieves the best average token-F1 against Mem0 on all seven open-weight backbone comparisons, while on GPT-4o-mini it reduces add-phase API cost by 3.4$\times$ and add-phase latency by 2.5$\times$ with only a small average judge-score gap. As a drop-in binary gate for A-Mem, SAGE skips roughly 16-18% of LLM calls across five models with minimal quality change on open-weight backbones. These results suggest that novelty-aware write control is a practical lever for improving both memory quality and system efficiency in long-term agentic memory.
When are LLMs Sufficient Policy Optimizers for Sequential RL Tasks?
We study when large language models (LLMs) can serve as effective black-box policy optimizers for reinforcement learning (RL) tasks, i.e.,…
OrcaRouter: A Production-Oriented LLM Router with Hybrid Offline-Online Learning
The rapid development of large language models, each with distinct capabilities and inference costs, raises a practical deployment question…
XLGoBench: Detecting cross-lingual skill gaps with algorithmic tasks
We introduce a set of synthetic algorithmic tasks to detect cross-lingual gaps in the abilities of large language models. Our benchmark is…
Smaller Models are Natural Explorers for Policy-Level Diversity in GRPO
We identify a new dimension for enhancing rollout diversity in Group Relative Policy Optimization (GRPO) for LLMs. While GRPO relies on div…
On the impact of retrieved content representations in RAG Pipelines
Retrieval-Augmented Generation (RAG) supplements a language model's input with retrieved documents, yet most RAG pipelines inherit retrieva…
MechVQA: Benchmarking and Enhancing Multimodal LLMs on Comprehensive Mechanical Drawing Understanding
Multimodal Large Language Models (MLLMs) have demonstrated significant achievements in general visual question answering (VQA) tasks. Howev…
Differentially Private Preference Data Synthesis for Large Language Model Alignment
Preference alignment is a crucial post-training step for large language models (LLMs) to ensure their outputs align with human values. Howe…
Beyond Agreement: Scoring Panel-Surfaced Biomedical Entity Candidates for Curator Triage
Biomedical NER is deceptively simple for modern LLMs: plausible biomedical mentions are easy to surface, but corpus-convention correctness…
Your Teacher Can't Help You Here: Combating Supervision Fidelity Decay in On-Policy Distillation
On-policy distillation transfers reasoning capabilities by training a student model on its own generated trajectories using token-level fee…
Fine-Tuning Improves Information Conveyance in Language Models
Fine-tuning is often believed to reduce uncertainty and diversity in large language models, but existing analyses overlook output length, a…
DARTS: Distribution-Aware Active Rollout Trajectory Shaping for Accelerating LLM Reinforcement Learning
Reinforcement Learning (RL) has become pivotal for improving model capabilities yet suffers from rollout efficiency bottlenecks due to the…
Sophrosyne: Agentic Exploration of Relational Data Systems Needs Moderation
Text2SQL agents powered by LLMs translate natural language intent into SQL by exploring the data system through tool calls before formulati…
Federated Variational Preference Alignment with Gumbel-Softmax Prior for Personalized User Preferences
Federated Learning (FL) offers a privacy-preserving pathway for aligning Large Language Models (LLMs); however, existing frameworks typical…
PatchWorld: Gradient-Free Optimization of Executable World Models
Text-agent environments are typically modeled as partially observable Markov decision processes (POMDPs), assuming that the simulator's lat…
A Unified and Reproducible Experimentation Framework for Speech Understanding
Speech foundation models and Speech LLMs have advanced speech understanding, yet deployment-oriented model selection is hindered by non-com…
BlueFin: Benchmarking LLM Agents on Financial Spreadsheets
We present BlueFin, a benchmark that tasks large language model (LLM) agents with synthesis, manipulation, and comprehension tasks over spr…
Toxic HallucinAItions: Perturbing Prompts and Tracing LLM Circuits
Large language models (LLMs) are increasingly deployed in conversational settings where user tone ranges from polite to adversarial or toxi…
De-attribute to Forget for LLM Unlearning
The rapid development of large language models (LLMs) has raised concerns on the use of inappropriate data for training, which has led to a…
TUX: Measuring Human--AI Tacit Understanding
As large language models (LLMs) increasingly act as collaborative partners, human--AI alignment is often evaluated through explicit task su…
Do Large Language Models Encode Institutional Experience? Evidence from Cross-Linguistic Moral Reasoning Under Ambiguity
Large language models (LLMs) exhibit systematic differences in moral reasoning across languages, yet the source of this variation remains u…
AMix-2: Establishing Protein as a Native Modality in Large Language Models
We present AMix-2, a protein-text foundation model that establishes protein as a native modality in large language models (LLMs), unifying…
ImmersiveTTS: Environment-Aware Text-to-Speech with Multimodal Diffusion Transformer and Domain-Specific Representation Alignment
Recent advancements in text-guided audio generation have yielded promising results in diverse domains, including sound effects, speech, and…
Reading Between the Citations: A Typed Claim Network for Scientific Literature
Knowledge graphs over corpora of inter-referencing documents - scholarly papers, legal opinions, policy briefs - encode the topology of ref…
Generating Reports or Repeating Templates? Measuring and Mitigating Template Collapse in 3D CT Report Generation
Modern 3D medical vision-language models (VLMs) can generate fluent radiology-style text while exhibit critically low pathology detection a…
From Prompt Injection to Persistent Control: Defending Agentic Harness Against Trojan Backdoors
LLM agents are evolving from conversational chatbots to operational tools in real-world workspaces. In local agentic harnesses, an LLM can…
Fighting Numerical Hallucinations via Data-centric Compilation for Online Financial QA
Large Language Models (LLMs) have significantly advanced online data services, particularly in the domain of financial question answering (…
A Pilot Study on Curator-Guided Multilingual Art Description for Blind and Low-Vision Audiences with Small Vision-Language Models
Blind and low-vision (BLV) audiences remain underserved by visual art descriptions, particularly across languages and in museum settings wh…
SpecDB: LLM-Generated Customized Databases via Feature-Oriented Decomposition
Mainstream relational databases ship a uniform feature set across deployments, although individual workloads exercise only a fraction of th…
KnowledgeGain: Evaluating and Optimizing Science News Generation for Reader Learning
Science news is an important medium to communicate discoveries between the research communities and the public. Yet, most metrics for gener…
Not All Synthetic Data Is Yours to Learn From
Can a language model improve from plain text sampled from itself, with no prompts, no teacher, no verifier, and no reward model? Yes, but o…
On the Robustness of Multilingual Text Embedding Rankings Across Learning Tasks, Languages, and Benchmark Datasets
Large-scale multilingual text embedding models play crucial role in both research and industry, yet their behavior in language-specific, mu…
SpatialAct: Probing Spatial Reasoning-to-Action Capabilities of VLM Agents in 3D Scenes
Humans can effortlessly perceive spatial layouts, form cognitive representations, reason about spatial relations, and translate such reason…
Developing a UXR Point of View for Cognitive Accessibility in Mobile Learning with Generative AI
This study investigates how UX research (UXR) principles, combined with Large Language Model (LLM)-supported analysis, can be used to impro…
D$^3$: Dynamic Directional Graph-Constrained Data Scheduling for LLM Training
Training data plays a central role in large language models (LLMs) optimization, motivating extensive research on data scheduling strategie…
Emergent Languages in Populations of Language Model Agents: From Token Efficiency to Oversight Evasion
Monitoring autonomous language model agents currently relies mostly on surface behavior. But what happens when agent populations invent new…
Steering LLMs? Actually, Sparse Autoencoders can outperform simple baselines
Sparse Autoencoders (SAEs) have been seen as a promising avenue for exploring the internals of Large Language Models (LLMs) and for steerin…
Probing Collision Grounding in Vision-Language Models for Safe Human-Robot Collaboration
Safe human--robot collaboration requires more than visual description: a monitor must determine whether the robot body is safely separated,…
Benchmarking and Enhancing Text-to-Image Models for Generating Visual Representations in Early Arithmetic Education
AI systems are increasingly used to support educational content creation, yet it remains unclear whether they can generate outputs that fai…
Shared Doubt: Zero-shot Cross-Lingual Confidence Estimation for Language Models
Confidence estimation (CE), i.e. quantifying the reliability of a model's prediction, has attracted great interest in the context of large…
Comparing LLM-Based Conversational and Graphical Interfaces for Industrial Decision Tasks: An Exploratory Mixed-Methods Study
The use of Generative AI Conversational User Interfaces (CUI) as a new way to access and analyze data is growing in all sectors, and the in…
ERGeoBench:A Comprehensive Benchmark for Embodied Reasoning and Geo-localization in Multimodal Large Language Models
Multimodal large language models (MLLMs) have shown strong potential as embodied agents, yet embodied geo-localization remains underexplore…
Neither Replacement nor Panacea: Comparing LLM-Based Conversational and Graphical Decision Support in Industrial Tasks
Managers in manufacturing settings rely on digital interfaces to interpret operational data for decision-making, but growing data volume an…
FBHM: Functional Benchmarking and Steering of VLMs for Hateful Meme Detection
Hateful meme detection remains a formidable challenge for vision-language models, as existing benchmarks are structurally observational - c…
Target-Side Paraphrase Augmentation for Sign Language Translation with Large Language Models
Sign language translation (SLT) remains constrained by limited paired sign-video/text corpora and heavy-tailed target vocabularies. We stud…
The Sword, Shield, and Achilles' Heel: Characterizing the Linguistic Inductive Bias of Large Language Models for Spatial Reasoning in Navigation Planning
Large Language Model (LLM)-based navigation systems commonly construct explicit spatial representations (e.g., topological graphs, semantic…
Skill Availability and Presentation Granularity in Large-Language-Model Agents: A Controlled SkillsBench Study
Skill documents provide procedural knowledge to large-language-model agents at inference time. This article studies whether the presentatio…
Neuro-symbolic Syntactic Parsing: Shaping a Neural Network with the CYK Algorithm
In this paper, we show the possibility of a direct injection of algorithms into neural network architecture. We focus on a complex algorith…
DOA: Training-Free Decoder-Only Attention Policy for Long-Form Simultaneous Translation with SpeechLLMs
Simultaneous speech-to-text translation (SimulST) generates translations while speech is still unfolding, requiring a streaming policy that…
Used Car Salesbots? Honesty and Credulity of LLMs as Bargaining Agents under Partial Information
In this work we study agents in simulated bargaining scenarios, where a buyer and a seller communicate through a text channel and attempt t…
Fine-grained Verification via Diagnostic Reasoning Supervision for Aspect Sentiment Triplet Extraction
Aspect Sentiment Triplet Extraction (ASTE) aims to identify aspect terms, opinion terms, and sentiment polarities as structured triplets, p…
PithTrain: A Compact and Agent-Native MoE Training System
Mixture-of-Experts (MoE) has become the dominant architecture for frontier language models. To meet this demand, production frameworks have…
Scaling Conversational Hungarian ASR: The BEA-Dialogue+ Corpus
Conversational automatic speech recognition in Hungarian is constrained by the limited amount of publicly available dialogue-style training…
If LLMs Have Human-Like Attributes, Then So Does Age of Empires II
Much research has been carried out on large language models (LLMs) and LLM-powered agentic workflows. However, many works within the field…
Vision-Language Models Suppress Female Representations Under Ambiguous Input
Alignment teaches vision-language models (VLMs) to avoid expressing demographic biases, and when gender is clearly visible they largely suc…
What Gets Unmasked First? Trajectory Analysis of Diffusion Models for Graph-to-Text Generation
We present the first systematic study of masked diffusion language models (MDLMs) for graph-to-text generation. We analyze MDLM generation…
LongTraceRL: Learning Long-Context Reasoning from Search Agent Trajectories with Rubric Rewards
Long-context reasoning remains a central challenge for large language models, which often fail to locate and integrate key information in e…
Language Models Learn Constructional Semantics, Not To Mention Syntax: Investigating LM Understanding of Paired-Focus Constructions
Grasping the semantics of rare constructions (form-meaning pairings) has been shown to be a challenging problem that has currently only bee…
LLM Bias Evaluation: Gender, Racial, and Age Disparities in Occupational and Crime Scenarios
LLM bias evaluation is critical as large language models (LLMs) increasingly influence high-stakes decisions. This paper provides a compreh…
Chain-of-Thought Reasoning In The Wild Is Not Always Faithful
Recent studies indicate that when faced with explicit biases in prompts, models often omit mentioning these biases in their Chain-of-Though…
Symbolic Intermediaries as a Linguistic-Numerical Interface for LLM-Driven Geometric Reasoning
Large Language Models (LLMs) display reasoning capabilities over linguistic and symbolic objects but have limited capabilities to directly…
SAC-Opt: Semantic Anchors for Iterative Correction in Optimization Modeling
Large language models (LLMs) have opened new paradigms in optimization modeling by enabling the generation of executable solver code from n…
Post-Training LLMs as Better Decision-Making Agents: A Regret-Minimization Approach
Large language models (LLMs) are increasingly deployed as "agents" for decision-making (DM) in interactive and dynamic environments. Yet, s…
HERMES: Towards Efficient and Verifiable Mathematical Reasoning in LLMs
Informal mathematics has been central to modern large language model (LLM) reasoning, offering flexibility and efficient construction of ar…
ConSensus: Multi-Agent Collaboration for Multimodal Sensing
Large language models (LLMs) are increasingly grounded in sensor data to perceive and reason about human physiology and the physical world.…
Diagnosing the Reliability of LLM-as-a-Judge via Item Response Theory
While LLM-as-a-Judge is widely used in automated evaluation, existing validation practices primarily operate at the level of observed outpu…
配信外の検出から幻覚の検出まで: 幾何学的な視点
大規模な言語モデルにおける幻覚の検出は、安全性と信頼性に重大な影響を与える重大な未解決の問題です。既存の幻覚検出方法は、質問に答えるタスクでは優れたパフォーマンスを発揮しますが、推論が必要なタスクでは依然として効果が低いままです。この研究では、コンピュータ ビジョンなどの分野でよく研究されている問題である、分布外 (OOD) 検出というレンズを通して幻覚検出を再検討します。言語モデルで次のトークンの予測を分類タスクとして扱うことにより、大規模な言語モデルの構造的な違いを考慮して適切な変更が加えられる限り、OOD 手法を適用することができます。我々は、OOD ベースのアプローチにより、トレーニング不要の単一サンプルベースの検出器が得られ、推論タスクの幻覚検出において高い精度が達成されることを示します。全体として、私たちの研究は、幻覚検出を OOD 検出として再構成することが、言語モデルの安全性への有望でスケーラブルな道筋を提供することを示唆しています。
原文 (English)
From Out-of-Distribution Detection to Hallucination Detection: A Geometric View
Detecting hallucinations in large language models is a critical open problem with significant implications for safety and reliability. While existing hallucination detection methods achieve strong performance in question-answering tasks, they remain less effective on tasks requiring reasoning. In this work, we revisit hallucination detection through the lens of out-of-distribution (OOD) detection, a well-studied problem in areas like computer vision. Treating next-token prediction in language models as a classification task allows us to apply OOD techniques, provided appropriate modifications are made to account for the structural differences in large language models. We show that OOD-based approaches yield training-free, single-sample-based detectors, achieving strong accuracy in hallucination detection for reasoning tasks. Overall, our work suggests that reframing hallucination detection as OOD detection provides a promising and scalable pathway toward language model safety.
MedCoG: Maximizing LLM Inference Density in Medical Reasoning via Meta-Cognitive Regulation
Large Language Models (LLMs) have shown strong potential in complex medical reasoning yet face diminishing gains under inference scaling la…
Discovering Differences in Strategic Behavior Between Humans and LLMs
As Large Language Models (LLMs) are increasingly deployed in social and strategic scenarios, it becomes critical to understand where and wh…
SPM-Bench: Benchmarking Large Language Models for Scanning Probe Microscopy
As LLMs achieved breakthroughs in general reasoning, their proficiency in specialized scientific domains reveals pronounced gaps in existin…
From Weak Cues to Real Identities: Evaluating Inference-Driven De-Anonymization in LLM Agents
Anonymization is often assumed to protect privacy once explicit identifiers are removed, because re-identification has historically require…
Counterfactual Credit Policy Optimization for Multi-Agent Collaboration
Collaborative multi-agent large language models (LLMs) can solve complex reasoning tasks by decomposing roles, but reinforcement learning f…
Learning to Reason with Insight for Informal Theorem Proving
Although most of the automated theorem-proving approaches depend on formal proof systems, informal theorem proving can align better with la…
ClimAgent: LLM as Agents for Autonomous Open-ended Climate Science Analysis
Climate research is pivotal for mitigating global environmental crises, yet the accelerating volume of multi-scale datasets and the complex…
Counterfactual Trace Auditing of LLM Agent Skills
Large Language Model agents are increasingly augmented with agent skills. Current evaluation methods for skills remain limited. Most deploy…
Fully Open Meditron: An Auditable Pipeline for Clinical LLMs
Clinical decision support systems (CDSS) require scrutable, auditable pipelines that enable rigorous, reproducible validation. Yet current…
PlanningBench: Generating Scalable and Verifiable Planning Data for Evaluating and Training Large Language Models
Planning is a fundamental capability for large language models (LLMs) because such complex tasks require models to coordinate goals, constr…
MuCRASP: マルチモーダル思考連鎖推論を意識した構造化プルーニング
ビジョン言語モデル (VLM) は、複雑なマルチモーダル タスクを解決するために、思考連鎖 (CoT) 推論への依存度が高まっていますが、パラメータ サイズが大きいため、導入コストが高くなります。構造化された剪定は自然な解決策を提供します。ただし、既存の方法では、VLM での CoT 推論の精度を維持できません。我々は 2 つの主な理由を特定します。(1) CoT の一貫性は生成軌跡内の疎な遷移点 (ピボット トークン) に依存しますが、既存のプルーニング手法は CoT に依存しません。 (2) 単峰性 LLM 用に設計された枝刈り手法は、視覚的モダリティとテキスト モダリティ間の活性化分布の違いを考慮していません。これらの観察に動機付けられて、我々は、クロスモーダル調整を維持し、グローバルパラメータバジェットの下で層ごとの感度を考慮しながら、推論に重要なコンポーネントをターゲットにする構造化プルーニングフレームワークである MuCRASP を提案します。 3 つの推論ベンチマークにわたる 4 つの VLM での実験では、MuCRASP が圧縮を増加しても推論の品質を一貫して維持することが示されています。 Qwen2.5-VL-7B で 30% プルーニングを行った場合、MuCRASP は、物理的推論タスクで最も強いベースラインの 7.32 に対して、8.87 の LLM-as-a-Judge スコアを達成しました。さらに、MuCRASP は、最大 50% の枝刈りまで高い推論の一貫性を維持し、以前の枝刈りアプローチを大幅に上回るパフォーマンスを示しながら、複雑さの低下を抑えます。
原文 (English)
MuCRASP: Multimodal Chain-of-thought Reasoning aware Structured Pruning
Vision-language models (VLMs) increasingly rely on chain-of-thought (CoT) reasoning to solve complex multimodal tasks, but their large parameter sizes make deployment expensive. Structured pruning offers a natural solution; however, existing methods fail to preserve CoT reasoning accuracy in VLMs. We identify two key reasons: (1) CoT consistency depends on sparse transition points (pivot tokens) in the generation trajectory, while existing pruning methods are CoT-agnostic; and (2) pruning methods designed for unimodal LLMs do not account for activation-distribution differences across visual and textual modalities. Motivated by these observations, we propose MuCRASP, a structured pruning framework that targets reasoning-critical components while preserving cross-modal alignment and accounting for layer-wise sensitivity under a global parameter budget. Experiments on four VLMs across three reasoning benchmarks show that MuCRASP consistently preserves reasoning quality under increasing compression. At 30% pruning on Qwen2.5-VL-7B, MuCRASP achieves an LLM-as-a-Judge score of 8.87 versus 7.32 for the strongest baseline on physical reasoning tasks. Furthermore, MuCRASP maintains high reasoning consistency up to 50% pruning, significantly outperforming prior pruning approaches while exhibiting lower perplexity degradation.
大規模なマルチモーダル モデルにおける創造的な物理的インテリジェンスの進歩
大規模マルチモーダル モデル (LMM) は、認識と推論において急速に進歩しました。ただし、これらの機能がパターン認識を超えて、オープンエンド環境で視覚に基づいたソリューションを発見することに一般化するかどうかは不明のままです。このような設定では、インテリジェンスには、適切に提示された質問に答えるだけでは不十分です。これには、シーン内の要素を、非自明ではあるが物理的に実行可能な方法でどのように再利用できるかを特定することが含まれます。この創造的な問題解決の形式は人間の知性の中心ですが、現在のベンチマークではほとんどテストされていません。この能力を評価するために、視覚的に豊かで物理的に制約のある環境でアフォーダンスに基づいたクリエイティブ ツールを使用するためのベンチマークである MM-CreativityBench を紹介します。各インスタンスは、候補エンティティとその部品の構造化されたビューを含むシナリオ イメージを表示し、モデルがどのように繰り返しシーンを検査し、関連するアフォーダンスを特定し、視覚的および物理的に根拠のあるソリューションを構成するかを詳細かつ対話的に評価できるようにします。私たちの実験では、現在の LMM は生成能力の欠如ではなく、地上探査を維持できないために、しばしば不十分であることが示されています。モデルは、関連するエンティティを見落としたり、重要な部分を十分に調査しなかったり、画像に根拠のない属性を幻覚したりすることがよくあります。この失敗モードを動機として、創造的なツールの使用を嗜好学習の問題として位置づける、アフォーダンスに基づいた調整を提案します。直接優先最適化を使用すると、モデルが幻覚による代替案よりも視覚的証拠に基づいた属性アフォーダンス推論を好むようになります。さらに、アフォーダンス知識ベースから得られた監視機能を組み込んで、より広範なエンティティの探索と複数ターンの計画をガイドします。私たちの結果は、幻覚や接地関連のエラーを大幅に削減しながら、正しいエンティティと部品を選択する際に一貫して向上していることを示しています。
原文 (English)
Advancing Creative Physical Intelligence in Large Multimodal Models
Large multimodal models (LMMs) have rapidly advanced in perception and reasoning; however, it remains unclear whether these capabilities generalize to discovering visually grounded solutions in open-ended environments, beyond pattern recognition. In such settings, intelligence requires more than answering well-posed questions: it involves identifying how elements in a scene can be repurposed in non-obvious yet physically feasible ways. This form of creative problem-solving is central to human intelligence, but remains largely untested in current benchmarks. To evaluate this ability, we introduce MM-CreativityBench, a benchmark for affordance-grounded creative tool use in visually rich, physically constrained environments. Each instance presents a scenario image with structured views of candidate entities and their parts, enabling fine-grained, interactive evaluation of how models iteratively inspect the scene, identify relevant affordances, and compose visually and physically grounded solutions. Our experiments show that current LMMs often fall short, not due to lack of generative capability, but because they do not sustain grounded exploration. Models often overlook relevant entities, under-examine critical parts, or hallucinate attributes not grounded in the image. Motivated by this failure mode, we propose affordance-grounded alignment, which casts creative tool use as a preference learning problem. Using Direct Preference Optimization, we encourage models to prefer attribute-affordance reasoning grounded in visual evidence over hallucinated alternatives. In addition, we incorporate supervision derived from an affordance knowledge base to guide broader entity exploration and multi-turn planning. Our results show consistent gains in selecting the correct entities and parts, while substantially reducing hallucination and grounding-related errors.
データに敏感なドメインの LLM 出力のニューロシンボリック検証 (拡張プレプリント)
一か八かのドメインに導入された LLM は、根本的な信頼性の課題に直面しています。幻覚、矛盾、プライバシーの脆弱性により、エラーが法的、財務的、または安全性に影響を及ぼす許容できないリスクが生じます。この論文では、LLM で生成されたコンテンツに補完的な保証を提供する、形式的記号手法とニューラル セマンティック分析を組み合わせたハイブリッド検証アーキテクチャを紹介します。このアーキテクチャでは、入力検証に論理的推論を採用し、完全性の特性を活用して、構造化された要件に対して決定可能な保証を提供します。出力検証では、埋め込みベースの意味論的類似性により、形式的な手法では表現力に欠ける文脈上の幻覚が検出されます。この分離は、並列のアクターベースのパイプラインで実現され、幻覚を生み出す分布バイアスを継承するプロンプトベースの自己検証アプローチの制限に対処します。提案されたアーキテクチャとタイプ認識検証方法は、Action Design Research によって開発された現実世界の医療機器損傷評価レポート システムである HAIMEDA を使用して検証されています。評価の結果、構造化エンティティの幻覚検出率は 83% 以上、セマンティック捏造の幻覚検出率は 72% 以上で、レポート作成時間が 30% 短縮されたことが示され、神経記号アーキテクチャがデータに敏感なドメインでの LLM 展開に原則に基づいた保護手段を提供できることが実証されました。
原文 (English)
Neuro-Symbolic Verification of LLM Outputs for Data-Sensitive Domains (extended preprint)
LLMs deployed in high-stakes domains face fundamental reliability challenges: hallucinations, inconsistencies, and privacy vulnerabilities introduce unacceptable risks where errors carry legal, financial, or safety consequences. This paper presents a hybrid verification architecture combining formal symbolic methods with neural semantic analysis to provide complementary guarantees for LLM-generated content. This architecture employs logical reasoning for input verification, leveraging completeness properties to provide decidable guarantees on structured requirements. For output validation, embedding-based semantic similarity detects contextual hallucinations where formal methods lack expressiveness. This separation is realized in a parallel, actor-based pipeline, addressing limitations of prompt-based self-verification approaches, which inherit the distributional biases that produce hallucinations. The proposed architecture and type-aware verification method are validated with HAIMEDA, a real-world medical device damage assessment reporting system developed through Action Design Research. Evaluation shows hallucination detection rates of over 83% for structured entities and 72% for semantic fabrications, with a 30% reduction in report creation time, demonstrating that neuro-symbolic architectures can provide principled safeguards for LLM deployment in data-sensitive domains.
アライメントの改ざん: 人間のフィードバックからの強化学習を利用して不整合なバイアスを最適化する方法
人間のフィードバックからの強化学習 (RLHF) は、大規模言語モデル (LLM) を人間の好みに合わせるための標準的な方法です。この作業では、アライメント改ざんを導入します。これは、アライメント中の LLM が優先データセットに影響を及ぼし、RLHF の望ましくない動作を増幅させる潜在的な脆弱性です。これは、RLHF の核となる制限から生じます。(1) 優先データセットは LLM 自身の出力から構築され、LLM に影響を与えることができます。(2) ペアごとの比較では、どちらの応答が優れているかが示されるだけで、理由は示されません。これらの制限を悪用して、アライメントの改ざんを引き起こす可能性があります。たとえば、LLM がより高品質の偏った応答を生成する場合、アノテーターは品質に基づいてそれらを優先します。ただし、嗜好ラベルは品質とバイアスを区別せず、報酬モデルはこの制限を継承します。強化学習やベストオブ N サンプリングを通じてこのような報酬を最適化すると、不整合なバイアスが増幅される可能性があります。私たちの実験では、キーワードのバイアスからプロパガンダ(性差別など)、ブランドのプロモーション、手段的な目標追求まで、さまざまなバイアスが増幅されることを実証しています。堅牢な RLHF のための既存の技術では、応答品質を犠牲にすることなくアライメント改ざんを完全に解決できないため、軽減は依然として困難です。これらの発見は、現在の RLHF の構造的脆弱性を明らかにし、この脆弱性を防ぐ必要性を強調しています。プロジェクトページ: https://alignment-tampering.github.io/
原文 (English)
Alignment Tampering: How Reinforcement Learning from Human Feedback Is Exploited to Optimize Misaligned Biases
Reinforcement Learning from Human Feedback (RLHF) is the standard method to align Large Language Models (LLMs) with human preferences. In this work, we introduce alignment tampering, a potential vulnerability where the LLM undergoing alignment influences the preference dataset, causing RLHF to amplify undesired behaviors. This arises from core limitations of RLHF: (1) preference datasets are constructed from the LLM's own outputs, allowing it to influence them, and (2) pairwise comparisons only indicate which response is better, not why. These limitations can be exploited to cause alignment tampering. For example, if an LLM generates biased responses with higher quality, annotators will prefer them based on quality. However, preference labels do not distinguish quality from bias, and the reward model inherits this limitation. Optimizing such rewards through reinforcement learning or best-of-N sampling can amplify misaligned biases. Our experiments demonstrate amplification across diverse biases: from keyword bias to propaganda (e.g., sexism), brand promotion, and instrumental goal-seeking. Mitigation remains challenging, as existing techniques for robust RLHF fail to fully resolve alignment tampering without sacrificing response quality. These findings reveal structural vulnerabilities of current RLHF and emphasize the need to prevent this vulnerability. Project page: https://alignment-tampering.github.io/
バイキングメム: ステートフル LLM ベースのアプリケーション用のメモリ ベース管理システム
大規模言語モデルは対話型アプリケーションに革命をもたらしました。ただし、コンテキスト ウィンドウが有限であるため、ステートフルで長期的な対話を維持する上で重要なデータ管理の課題が生じます。既存の記憶アプローチは、多くの場合、不完全な記憶につながる単純な抽出方法に依存しているか、チャットボットなど、単一のユースケースに合わせて調整された厳格な単一目的の記憶抽出プロンプトを使用しています。その結果、汎用性に欠け、さまざまな下流タスクにわたってパフォーマンスが低下します。このギャップを埋めるために、長期的なインタラクションの永続的な状態を管理するための新しいデータ管理パラダイムであるメモリ ベースを導入します。これは 3 つの核となる原則によって特徴付けられます。生の情報ストリームから価値の高い記憶を選択的に抽出することです。固有のステートフルネスと進化。メモリ内容が徐々に要約、修正され、時間的に重み付けされて最近のインタラクションを優先します。そして、教育、推奨、エージェントの記憶など、さまざまなアプリケーションにわたる堅牢な転送性を実現するために設計された一般化可能な抽象化パラダイム。この基盤に基づいて、VikingDB ベクトル エンジン上に実装されたエンドツーエンドのメモリ ベース管理システム、VikingMem を紹介します。バイキングメムは、相互接続されたイベントとエンティティの抽象化を通じてこのパラダイムを具体化します。エンティティはイベントによって動的に更新され、ステートフルな進化を実現しながら、複雑な情報ストリームを選択的に処理するイベント中心のメモリ抽出を特徴としています。トピックごとのタイムラインと時間加重リコールによる時間圧縮を使用して、システムは高レベルの要約記憶を段階的に生成し、最近の項目を優先し、古い項目を圧縮してフェードします。長期メモリベンチマークの広範な評価により、VikingMem は対話型アプリケーションに不可欠な低レイテンシを維持しながら、メモリ取得効率においてベースラインを最大 30% 上回っていることが実証されています。
原文 (English)
VikingMem: A Memory Base Management System for Stateful LLM-based Applications
Large Language Models have revolutionized interactive applications; however, their finite context windows pose a critical data management challenge for maintaining stateful, long-term interactions. Existing memory approaches often rely on simplistic extraction methods that lead to incomplete memories or use rigid, single-purpose memory extraction prompts tailored to a single use case, such as chatbots. Consequently, they lack generalizability and perform poorly across diverse downstream tasks. To bridge this gap, we introduce the Memory Base, a novel data management paradigm for managing the persistent state of long-term interactions. It is characterized by three core principles: selective extraction of high-value memories from raw information streams; inherent statefulness and evolution, where memory content is progressively summarized, corrected, and temporally weighted to prioritize recent interactions; and a generalizable abstraction paradigm designed for robust transferability across diverse applications, including education, recommendation, and agent memory. Building on this foundation, we present VikingMem, an end-to-end Memory Base Management System implemented on the VikingDB vector engine. VikingMem materializes this paradigm through interconnected event and entity abstractions. It features event-centric memory extraction to selectively handle complex information streams, while entities are dynamically updated by events to achieve stateful evolution. Using temporal compression via a topic-wise timeline and time-weighted recall, the system progressively produces high-level summary memories, prioritizes recent items, and compresses and fades older ones. Extensive evaluations on long-term memory benchmarks demonstrate that VikingMem outperformes baselines by up to 30% in memory retrieval effectiveness while maintaining the low latency essential for interactive applications.
SAAS: エージェント検索における過剰検索を軽減するための自己認識強化学習
エージェント検索により、LLM は反復推論と外部検索を通じて複雑なマルチホップの質問を解決できます。これらのシステムは有効であるにもかかわらず、実際には重大な制限に悩まされることがよくあります。エージェントは自分自身の知識の境界を認識できず、内部の知識が十分な場合でもやみくもに検索を開始し、十分な証拠が収集されている場合でも検索を終了できません。自己認識の欠如は深刻な \textbf{過剰検索} につながり、かなりの推論遅延と法外な計算コストが発生します。この目的を達成するために、精度を損なうことなく検索動作を正確に制御する動的な自己認識を育成するように設計された新しい RL フレームワークである SAAS を提案します。 SAAS では、次の 3 つの主要コンポーネントが導入されています。(i) 検索境界モデリング メカニズム。検索が無効なロールアウトと検索が有効なロールアウトを対比することで、進化するポリシーに基づいて検索境界を識別します。 (ii) 境界認識報酬モジュール。この境界認識を軌道レベルのペナルティに変換し、不必要で冗長な検索を抑制します。 (iii) 段階的な最適化戦略。これは、一連のカリキュラムを活用して、検索の正規化よりも推論を優先し、それによって報酬のハッキングを回避します。広範な実験により、SAAS が精度を維持しながら過剰検索を大幅に削減することが実証されました。私たちのコードは https://github.com/XMUDeepLIT/SAAS で匿名で公開されています。
原文 (English)
SAAS: Self-Aware Reinforcement Learning for Over-Search Mitigation in Agentic Search
Agentic search enables LLMs to solve complex multi-hop questions through iterative reasoning and external search. Despite the effectiveness, these systems often suffer from a critical limitation in practice: agents fail to recognize their own knowledge boundaries, blindly triggering searches when internal knowledge suffices and failing to terminate search even when adequate evidence has been collected. The lack of self-awareness leads to severe \textbf{over-search}, incurring substantial inference latency and prohibitive computational cost. To this end, we propose SAAS, a novel RL framework designed to cultivate dynamic self-awareness that precisely regulates search behavior without compromising accuracy. SAAS introduces three key components: (i) a search boundary modeling mechanism, which identifies the search boundary under the evolving policy by contrasting search-disabled and search-enabled rollouts; (ii) a boundary-aware reward module, which translates this boundary awareness into trajectory-level penalties, suppressing unnecessary and redundant searches; and (iii) a stage-wise optimization strategy, which leverages a sequential curriculum to prioritize reasoning over search regularization, thereby avoiding reward hacking. Extensive experiments demonstrate that SAAS substantially reduces over-search, while maintaining accuracy. Our code and implementation details are released at https://github.com/XMUDeepLIT/SAAS.
最小限の十分表現学習による LLM のドメイン固有のデータ合成
大規模言語モデルは汎用機能において目覚ましい進歩を示しており、ドメイン固有のデータを微調整することで特定のドメインで強力なパフォーマンスを達成できます。ただし、対象ドメインの高品質データを取得することは依然として大きな課題です。既存のデータ合成アプローチは演繹的パラダイムに従っており、自然言語で表現された明示的なドメイン記述と注意深くプロンプト エンジニアリングに大きく依存しており、ドメインを説明したり形式的に表現したりすることが難しい現実のシナリオへの適用性が制限されています。この研究では、帰納的パラダイムを通じてドメイン固有のデータ合成という未解明な問題に取り組みます。このパラダイムでは、特にドメインの特性を自然言語で表現することが難しい場合に、ターゲット ドメインが一連の参照例を通じてのみ定義されます。私たちは、参照サンプルから最小限の十分なドメイン表現を学習し、それを活用してドメインが調整された合成データの生成をガイドする新しいフレームワーク DOMINO を提案します。 DOMINO は、サンプル固有のノイズからドメインレベルのパターンを分離し、コアドメインの特性を維持しながらオーバーフィッティングを軽減するために、コントラストのもつれを解く目的とプロンプトチューニングを統合します。理論的には、DOMINO が合成データ配布のサポートを拡張し、より大きな多様性を確保することを証明します。経験的に、ドメイン定義が暗黙的である困難なコーディング ベンチマークでは、DOMINO によって合成されたデータを微調整すると、強力な命令調整されたバックボーンに比べて Pass@1 の精度が最大 4.63\% 向上し、その有効性と堅牢性が実証されました。この取り組みは、ドメイン固有のデータ合成のための新しいパラダイムを確立し、手動のプロンプト設計や自然言語ドメイン仕様を必要とせずに、実用的でスケーラブルなドメイン適応を可能にします。
原文 (English)
Domain-Specific Data Synthesis for LLMs via Minimal Sufficient Representation Learning
Large Language Models have demonstrated remarkable progress in general-purpose capabilities and can achieve strong performance in specific domains through fine-tuning on domain-specific data. However, acquiring high-quality data for target domains remains a significant challenge. Existing data synthesis approaches follow a deductive paradigm, heavily relying on explicit domain descriptions expressed in natural language and careful prompt engineering, limiting their applicability in real-world scenarios where domains are difficult to describe or formally articulate. In this work, we tackle the underexplored problem of domain-specific data synthesis through an inductive paradigm, where the target domain is defined only through a set of reference examples, particularly when domain characteristics are difficult to articulate in natural language. We propose a novel framework, DOMINO, that learns a minimal sufficient domain representation from reference samples and leverages it to guide the generation of domain-aligned synthetic data. DOMINO integrates prompt tuning with a contrastive disentanglement objective to separate domain-level patterns from sample-specific noise, mitigating overfitting while preserving core domain characteristics. Theoretically, we prove that DOMINO expands the support of the synthetic data distribution, ensuring greater diversity. Empirically, on challenging coding benchmarks where domain definitions are implicit, fine-tuning on data synthesized by DOMINO improves Pass@1 accuracy by up to 4.63\% over strong, instruction-tuned backbones, demonstrating its effectiveness and robustness. This work establishes a new paradigm for domain-specific data synthesis, enabling practical and scalable domain adaptation without manual prompt design or natural language domain specifications.
MIRA: ソースを意識したデータ選択のためのトレーニング中のルーブリック アンカーリング
トレーニング中期は、最新の LLM 開発において重要な段階となっており、最終的なトレーニング後の能力を強化するために大規模に厳選された混合物を使用します。データ選択の問題は独特です。データは、事前トレーニングに近い規模で事前トレーニング スタイルの目標に基づいて最適化されますが、下流の機能に向けて厳選され、形式やトレーニングの役割が異なる異種ソースから抽出されます。その結果、効果的な選択には、スケーラビリティとソース適応型のセマンティック基準の両方が必要になります。既存のモデルベースの手法は拡張性に優れていますが、暗黙的な品質信号しか提供しません。セマンティック選択方法はより強力な判断を提供しますが、通常は固定ルーブリックまたは標準化されたデータ形式を前提としています。この不一致に対処するために、自己アンカー型ルーブリック ディスカバリに基づくソース認識フィルタリング フレームワークである MIRA を提案します。重要なアイデアは、ルーブリック構築をデータ選択の一部にすることです。MIRA はまず各ソース グループに対して何を評価すべきかを発見し、次にそれらの判断をスケーラブルな学生スコアラーに抽出して、コーパス全体をフィルタリングします。 21 のソースと 5 つのソース グループを使用したコード指向の中間トレーニングでは、MIRA は 9 つのコード ベンチマーク全体で選択ベースラインを上回り、トークンの半分のみを使用しながら完全なコーパスの実行と一致しました。
原文 (English)
MIRA: Mid-training Rubric Anchoring for Source-Aware Data Selection
Mid-training has become an important stage in modern LLM development, using large-scale curated mixtures to strengthen capabilities before final post-training. Its data selection problem is distinct: the data are optimized under a pretraining-style objective at near-pretraining scale, but are curated toward downstream capabilities and drawn from heterogeneous sources with different formats and training roles. As a result, effective selection requires both scalability and source-adaptive semantic criteria. Existing model-based methods scale well, but provide only implicit quality signals. Semantic selection methods offer stronger judgments, but usually assume fixed rubrics or standardized data formats. To address this mismatch, we propose MIRA, a source-aware filtering framework based on self-anchored rubric discovery. The key idea is to make rubric construction part of data selection: MIRA first discovers what should be evaluated for each source group, then distills those judgments into scalable student scorers for full-corpus filtering. On code-oriented mid-training with 21 sources and 5 source groups, MIRA outperforms selection baselines across nine code benchmarks and matches the full-corpus run while using only half the tokens.
Graph Machine Learning in the Era of Large Language Models (LLMs)
Graphs play an important role in representing complex relationships in various domains like social networks, knowledge graphs, and molecula…
Breaking Information Cocoons: A Hyperbolic Framework for Balancing Exploration and Exploitation in Recommender Systems
Modern recommender systems often create information cocoons, restricting users' exposure to diverse content. The central challenge is to ba…
Understanding the Fundamental Design Decisions of Retrieval-Augmented Generation Systems
Retrieval-Augmented Generation (RAG) has emerged as a critical technique for enhancing large language model (LLM) capabilities. However, pr…
Beyond Memorization: Assessing Semantic Generalization in Large Language Models Using Phrasal Constructions
The web-scale of pretraining data has created an important evaluation challenge: to disentangle linguistic competence on cases well-represe…
PRISM: Self-Pruning Intrinsic Selection Method for Training-Free Multimodal Data Selection
Visual instruction tuning adapts pre-trained Multimodal Large Language Models (MLLMs) to follow human instructions for real-world applicati…
EMCEE: Improving Multilingual Capability of LLMs via Bridging Knowledge and Reasoning with Extracted Synthetic Multilingual Context
Large Language Models (LLMs) have achieved impressive progress across a wide range of tasks, yet their heavy reliance on English-centric tr…
Unraveling LoRA Interference: Orthogonal Subspaces for Robust Model Merging
Fine-tuning large language models (LMs) for individual tasks yields strong performance but is expensive for deployment and storage. Recent…
Human-Alignment and Calibration of Inference-Time Uncertainty in Large Language Models
There has been much recent interest in evaluating large language models for uncertainty calibration to facilitate model control and modulat…
Reasoning-Intensive Regression
AI researchers and practitioners increasingly apply large language models (LLMs) to what we call reasoning-intensive regression (RiR), i.e.…
Human Psychometric Questionnaires Mischaracterize LLM Behavior
We examine whether human psychometric questionnaires can serve as reliable tools for characterizing and predicting LLM behavior in everyday…
MedFact: Benchmarking the Fact-Checking Capabilities of Large Language Models on Chinese Medical Texts
Deploying Large Language Models (LLMs) in medical applications requires fact-checking capabilities to ensure patient safety and regulatory…
Towards Atoms of Large Language Models
The fundamental representational units (FRUs) of large language models (LLMs) remain undefined, limiting further understanding of their und…
Dual Mechanisms of Value Expression: Intrinsic vs. Prompted Values in Large Language Models
Large language models can express values in two main ways: (1) intrinsic expression, reflecting the model's inherent values learned during…
Mechanistic Interpretability as Statistical Estimation: A Variance Analysis
Mechanistic Interpretability (MI) aims to reverse-engineer model behaviors by identifying functional sub-networks. Yet, the scientific vali…
LLMs Lean on Priors, Not Programming Language Semantics
Recent work asks whether large language models (LLMs) condition their reasoning on explicit rules rather than statistical regularities from…
OBCache: Optimal Brain KV Cache Pruning for Efficient Long-Context LLM Inference
Large language models (LLMs) with extended context windows enable powerful applications but impose significant memory overhead, as caching…
Boundary-Guided Policy Optimization for Memory-efficient RL of Diffusion Large Language Models
A key challenge in applying reinforcement learning (RL) to diffusion large language models (dLLMs) is the intractability of their likelihoo…
InfiMed-ORBIT: Aligning LLMs on Open-Ended Complex Tasks via Rubric-Based Incremental Training
Reinforcement learning (RL) has powered many recent breakthroughs in large language models (LLMs), especially for tasks where rewards can b…
Bottom-up Policy Optimization: Your Language Model Policy Secretly Contains Internal Policies
Existing reinforcement learning (RL) approaches treat large language models (LLMs) as a unified policy, overlooking their internal mechanis…
FEM-Bench: A Structured Scientific Reasoning Benchmark for Evaluating Code-Generating LLMs
As LLMs advance their reasoning capabilities about the physical world, the absence of rigorous benchmarks for evaluating their ability to g…
The Refutability Gap: Challenges in Validating Reasoning by Large Language Models
Recent reports claim that Large Language Models (LLMs) have achieved the ability to derive new science and exhibit human-level general inte…
Gap-K%: Measuring Top-1 Prediction Gap for Detecting Pretraining Data
The opacity of massive pretraining corpora in Large Language Models (LLMs) raises significant privacy and copyright concerns, making pretra…
Decouple Searching from Training: Scaling Data Mixing via Model Merging for Large Language Model Pre-training
Determining an effective data mixture is a key factor in Large Language Model (LLM) pre-training, where models must balance general compete…
Multi-Agent Teams Hold Experts Back
Multi-agent LLM systems are increasingly deployed as autonomous collaborators, where agents interact freely rather than execute fixed, pre-…
Stop the Flip-Flop: Context-Preserving Verification for Fast Revocable Diffusion Decoding
Parallel diffusion decoding can accelerate diffusion language model inference by unmasking multiple tokens per step, but aggressive paralle…
Pull Requests as a Training Signal for Repo-Level Code Editing
Repository-level code editing requires models to understand complex dependencies and execute precise multi-file modifications across a larg…
A Behavioural and Representational Evaluation of Goal-Directedness in Language Model Agents
Understanding an agent's goals helps explain and predict its behaviour, yet there is no established methodology for reliably attributing go…
Effective Reasoning Chains Reduce Intrinsic Dimensionality
Chain-of-thought (CoT) reasoning and its variants have substantially improved the performance of language models on complex reasoning tasks…
Biases in the Blind Spot: Detecting What LLMs Fail to Mention
Large Language Models (LLMs) often provide chain-of-thought (CoT) reasoning traces that appear plausible, but may hide internal biases. We…
Less is Enough: Synthesizing Diverse Data in LLM Feature Space with Sparse Autoencoders
The diversity of post-training data is critical for effective downstream performance in large language models (LLMs). Many existing approac…
Weight Decay Improves Language Model Plasticity
Large language models are typically trained in two broad phases: pretraining to produce a base model, followed by further training to impro…
SCOPE: Selective Conformal Optimized Pairwise LLM Judging
Large language models (LLMs) are increasingly used as scalable judges in pairwise evaluation, but they remain prone to miscalibration and b…
The Information Geometry of Softmax: Probing and Steering
This paper concerns the question of how AI systems encode semantic structure into the geometric structure of their representation spaces. T…
HiPER: Hierarchical Reinforcement Learning with Explicit Credit Assignment for Large Language Model Agents
Training LLMs as interactive agents for multi-turn decision-making remains challenging, particularly in long-horizon tasks with sparse and…
From Leaky Thoughts to Private Reasoning: Controlling What LRMs Say to Themselves
Large reasoning models (LRMs) produce reasoning traces (RTs) that often contain sensitive information. These leaky thoughts are difficult t…
MASPOB: Bandit-Based Prompt Optimization for Multi-Agent Systems with Graph Neural Networks
Large Language Models (LLMs) have achieved great success in many real-world applications, especially the one serving as the cognitive backb…
Prompt Injection as Role Confusion
LLMs see the world as a single stream of text, partitioned into roles like or . We trace prompt injection to role confusion: models perceiv…
REAL: Regression-Aware Reinforcement Learning for LLM-as-a-Judge
Large language models (LLMs) are increasingly deployed as automated evaluators that assign numeric scores to model outputs, a paradigm know…
Empirical Characterization of Inference-Time Elicited Probability Transformations in Large Language Models
Large language models increasingly rely on inference-time procedures such as chain-of-thought reasoning, self-refinement, retrieval augment…
SimulCost: A Cost-Aware Benchmark and Toolkit for Automating Physics Simulations with LLMs
Evaluating LLM agents for scientific tasks has focused on token costs while ignoring tool-use costs like simulation time and experimental r…
Compile to Compress: Boosting Formal Theorem Provers by Compiler Outputs
Large language models (LLMs) have demonstrated significant potential in formal theorem proving, yet state-of-the-art performance often nece…
Aligning Dense Retrievers with LLM Utility via Distillation
Dense vector retrieval is the practical backbone of Retrieval- Augmented Generation (RAG), but similarity search can suffer from precision…
Much of Geospatial Web Search Is Beyond Traditional GIS
Web search queries concern place far more often than existing labelling schemes suggest, yet the landscape of geospatial web search queries…
SEMA-RAG: A Self-Evolving Multi-Agent Retrieval-Augmented Generation Framework for Medical Reasoning
Retrieval-Augmented Generation (RAG) is widely employed to mitigate risks such as hallucinations and knowledge obsolescence in medical ques…
Chunking German Legal Code
This paper investigates chunking strategies for retrieval-augmented generation on German statutory law, using the German Civil Code as a st…
並べて比較すると言語モデルにおける方言のバイアスが増幅される
言語モデル (LM) は、方言ラベルがない場合でも、方言のバリエーションに基づいて話者に対して体系的なバイアスを示す可能性があり、これは隠れ方言バイアスとして知られる動作です。この研究では、LM が標準的なアメリカ英語 (SAE) およびアフリカ系アメリカ人の現地語英語 (AAVE) における意図と同等のツイートと (人種的偏見に関する社会心理学研究に由来する) 定型的特徴をどのように関連付けるかを評価することにより、オンライン言説における隠れた方言バイアスを定量化します。これまでの研究では、LMがツイートを単独で評価する場合、より否定的なステレオタイプをAAVEと関連付けることが示されているが、SAE / AAVEツイートのペアを並べて比較すると、このバイアスが大幅に悪化することがわかり、驚いたことに、この設定は、候補者をランク付けするためにモデルが使用される影響の大きい意思決定のコンテキストをより厳密に反映している。方言ラベルが明示的に指定されている場合、偏りはさらに悪化します。商用開発者が LM のバイアスを軽減するために広範な努力を行っていることを考えると、これは驚くべきことです。心強いことに、反事実的な公平性の微調整により、一部の定型的特性に対する隠された方言バイアスが緩和され、ツイートを単独で評価する場合の平均格差が減少することが示されました。ただし、SAE / AAVE ツイートを並べて評価する場合、これらの改善は特性全体で一貫して維持されるわけではありません。私たちの調査結果は、隠れ方言バイアスに関する既存の評価設定では、特に対照的な設定において、その重大度が過小評価される可能性があることを示しています。さらに、明白な方言バイアスは、安全性を調整した微調整後でも顕著なままであり、これが未解決の問題のままであることを示しており、より堅牢な評価および緩和フレームワークの必要性を動機付けています。
原文 (English)
Side-by-side Comparison Amplifies Dialect Bias in Language Models
Language models (LMs) can exhibit biases based on variations in their dialects, even in the absence of a dialect label, a behavior known as covert dialect bias. In this work, we quantify covert dialect bias in online discourse by evaluating how LMs associate stereotypical traits (derived from social psychology research on racial bias) with intent-equivalent tweets in Standard American English (SAE) and African-American Vernacular English (AAVE). While prior work shows that LMs associate more negative stereotypes with AAVE when evaluating tweets in isolation, we are surprised to find that this bias is significantly exacerbated when SAE / AAVE tweet pairs are compared side by side, a setting that more closely reflects high-impact decision making contexts in which models are used to rank candidates. The bias only worsens when dialect labels are explicitly specified. This is striking, given the extensive efforts from commercial developers to mitigate bias in their LMs. Encouragingly, we show that counterfactual fairness finetuning can mitigate covert dialect bias for some stereotypical traits, reducing average disparities when evaluating tweets in isolation, however, these improvements do not consistently hold across traits when evaluating SAE / AAVE tweets side by side. Our findings show that existing evaluation settings for covert dialect bias may underestimate its severity, specifically in contrastive settings. Additionally, overt dialect bias remains pronounced even after safety aligned finetuning, indicating that it remains an unresolved problem, and motivates the need for more robust evaluation and mitigation frameworks.
Efficient Benchmarking Is Just Feature Selection and Multiple Regression
Efficient benchmarking techniques aim to lower the computational cost of evaluating LLMs by predicting full benchmark scores using only a s…
GEM: 最適な LLM データ キュレーションのための幾何学的エントロピー混合
LLM の事前トレーニングの有効性は、膨大な量ではなくデータの構成に依存することが増えています。しかし、最適な混合は分類上の欠陥によって妨げられています。人間の分類法は存在論的な不整合に悩まされており、ユークリッド クラスタリングは埋め込みの異方性に対処できません。私たちは、混合バランス正則化装置で強化された超球上の変分問題としてデータキュレーションを再定式化するフレームワークである GEM (Geometric Entropy Mixing) を紹介します。生成事前を切り離し、証明可能な MM (Minorize-Maximize) アルゴリズムを介して目的を最適化することにより、GEM はクラスターの崩壊に効果的に対抗し、ユークリッド ヒューリスティックでは見えないバランスのとれた意味構造を発見します。私たちは、教師と生徒の蒸留を使用して、この幾何学的忠実度を Web スケールのコーパスにスケールし、解釈可能な分類法を生成するために幾何学的影響スコア (GIS) を導入します。 1.1B パラメーター モデルを使用した実験では、GEM が DoReMi や RegMix などのミキシング戦略に統合された場合に新しい最先端技術を確立し、ダウンストリームの平均精度を最大 1.2% 向上させ、予測可能なデータ ミキシングのための堅牢な座標系を提供することが実証されました。
原文 (English)
GEM: Geometric Entropy Mixing for Optimal LLM Data Curation
LLM pre-training efficacy increasingly depends on data composition rather than sheer volume. Yet, optimal mixing is hindered by categorization flaws: human taxonomies suffer from ontological misalignment, and Euclidean clustering fails to address embedding anisotropy. We introduce GEM (Geometric Entropy Mixing), a framework reformulating data curation as a variational problem on the hypersphere augmented with a mixing-balance regularizer. By decoupling the generative prior and optimizing the objective via a provable MM (Minorize-Maximize) algorithm, GEM effectively counteracts the cluster collapse to discover balanced semantic structures invisible to Euclidean heuristics. We employ teacher-student distillation to scale this geometric fidelity to web-scale corpora and introduce the Geometric Influence Score (GIS) for interpretable taxonomy generation. Experiments with 1.1B-parameter models demonstrate that GEM establishes a new state-of-the-art when integrated into mixing strategies like DoReMi and RegMix, improving average downstream accuracy by up to 1.2% and offering a robust coordinate system for predictable data mixing.
Pair-In, Pair-Out: Latent Multi-Token Prediction for Efficient LLMs
Long chain-of-thought reasoning has made autoregressive decoding the dominant inference cost of modern large language models. Existing meth…
読者を取り残さない: 誰もが理解できるマルチエージェントの概要
米国の平文法では、政府文書が一般の人々が簡単に理解できる明確で単純な言語でアクセスできるようにすることを求めていますが、既存の要約システムは、一般読者の間の多様な言語的および認知的障壁に対処するのに苦労しています。我々は、小学生の読者、非ネイティブの読者、注意欠陥のある読者という 3 つの代表的な読者グループをシミュレートする、平易な言語要約のためのマルチエージェント フレームワークである NRLB (No Reader Left Behind) を紹介します。 NRLB は、テンプレートベースの計画と読者指向の反復的な改善を組み合わせ、難しい用語、文脈の欠落、混乱を招く文章の体系的な検出と解決を可能にします。複数のデータセットにわたる評価により、事実の正確さを維持しながら可読性が一貫して向上していることが実証されています。人間による評価では、NRLB の影響がさらに検証され、アノテーターの優先率は 55% から 76% の範囲であり、情報源に忠実であり、一般の人々が広くアクセスできる平易な言葉による要約を作成する NRLB の可能性が強調されています。
原文 (English)
No Reader Left Behind: Multi-Agent Summaries Everyone Can Understand
The Plain Writing Act in the United States requires government documents to be accessible in clear and simple language that the general public can easily understand, yet existing summarization systems struggle to address diverse linguistic and cognitive barriers among general readers. We present NRLB (No Reader Left Behind), a multi-agent framework for plain language summarization that simulates three representative reader groups: elementary school student readers, non-native readers, and readers with attention deficits. NRLB combines template-based planning with iterative, reader-oriented refinement, enabling systematic detection and resolution of difficult terms, missing contexts, and confusing sentences. Evaluations across multiple datasets demonstrate consistent improvements in readability while preserving factual accuracy. Human evaluation further validates NRLB's impact, with annotator preference rates ranging from 55% to 76%, highlighting NRLB's potential to produce plain language summaries that are both faithful to the source and broadly accessible to the general public.
アインシュタイン望遠鏡のシミュレートされたデータの分析に適用されたエージェント AI の初の直接比較
我々は、人間の介入なしに共有コンピューティング インフラストラクチャ上でシンプルなエンドツーエンドの重力波データ分析パイプラインを自律的に実行するという 2 つの最先端のエージェント AI システム、Claude Code (Anthropic) と Codex (OpenAI) の比較を報告します。このパイプラインは、生のアインシュタイン望遠鏡でシミュレートされたノイズからのパワー スペクトル密度推定、幾何学的テンプレート バンクの生成、100 個のバイナリ ブラック ホール信号注入の整合フィルター回復、自動結果生成、および Physical Review D のスタイルでフォーマットされた原稿の大規模言語モデル支援の作成で構成されます。両方のエージェントは、同一の仕様書と同一のコンピューティング リソースを受け取りました。実験は 2 回実行されました。1 回目は非現実的な大音量の注入を使用して実行され、2 回目は物理的に動機付けられた SNR 範囲に再スケーリングされた信号を使用して実行されました。科学的結果は両方の実行で収束しました。ただし、エージェントは大幅に異なる動作と計算コストを示しました。Claude Code は、仕様からのサイレント逸脱はありますが、パイプラインを約 3.4 分で完了しましたが、Codex は、整合フィルターの内部ループの一方的なパフォーマンスの最適化を含む、明示的な自己修正の再起動に約 16 分を要しました。自律的に生成された原稿も、長さ、詳細、品質が異なりました。 2 回目の実行では、SNR 範囲の命令の解釈における微妙な違いが、真の科学的相違につながりました。Claude Code は命令を黙って再解釈しましたが、Codex は文字通り仕様に従いました。速度と可聴性、サイレントと透過的なエラー処理、命令の解釈、マルチモデル パイプラインにおける中間データ表現の重要性など、これらの動作の違いが科学技術コンピューティング ワークフローでのエージェント AI の展開に与える影響について説明します。
原文 (English)
First head-to-head comparison of agentic AI applied to the analysis of simulated data of the Einstein Telescope
We report a comparison of two state-of-the-art agentic AI systems, Claude Code (Anthropic) and Codex (OpenAI), tasked with autonomously executing a simple end-to-end gravitational wave data analysis pipeline on a shared computing infrastructure without human intervention. The pipeline comprises power spectral density estimation from raw Einstein Telescope simulated noise, geometric template bank generation, matched filter recovery of 100 binary black hole signal injections, automated results generation, and large language model-assisted production of a manuscript formatted in the style of Physical Review D. Both agents received identical written specifications and identical compute resources. The experiment was run twice: a first run with unrealistically loud injections, and a second run with signals rescaled to a physically motivated SNR range. The scientific results converged in both runs. However, the agents exhibited substantially different behaviors and computational costs: Claude Code completed the pipeline in ~3.4 minutes with silent deviations from the specification, while Codex required ~16 minutes across explicit self-correcting restarts, including an unsolicited performance optimization of the matched filter inner loop. The autonomously generated manuscripts also diverged in length, details, and quality. In the second run, a subtle difference in the interpretation of the SNR range instruction led to a genuine scientific divergence: Claude Code silently reinterpreted the instructions, while Codex followed the specification literally. We discuss the implications of these behavioral differences, such as speed versus auditability, silent versus transparent error handling, instruction interpretation, and the criticality of intermediate data representations in multi-model pipelines, for the deployment of agentic AI in scientific computing workflows.
SafeRx-Agent: 安全で説明可能な投薬推奨のための知識に基づいたマルチエージェント フレームワーク
薬剤の推奨は患者の来院時の薬剤を予測しますが、既存の方法では依然として 2 つの重要な課題に直面しています。モデルレベルでは、従来の医薬品推奨方法は限られた根拠に基づいて構造化された医薬品コードを予測するだけですが、LLMエージェントはより豊富な臨床コンテキストを使用できますが、安全性の検証とトレーサビリティが欠けている可能性があります。タスクレベルでは、既存のベンチマークは広範な薬剤カテゴリーを使用することが多く、サブグループレベルの安全性の違いが無視され、リスクの過大評価につながる可能性があります。第 4 レベルの ATC コード生成に基づいた、最初のきめ細かい薬剤推奨設定を導入します。私たちは、患者の状況、外部の臨床知識、安全性検証を使用して追跡可能な薬剤セットを推奨する、知識に基づいたマルチエージェント フレームワークである Safe Prescription Agent (SafeRx-Agent) を提案します。 MIMIC-III および MIMIC-IV データセットに関する実験結果は、SafeRx-Agent が薬物相互作用、禁忌、および薬物セットのサイズを制御しながら、きめ細かい薬物予測の精度を向上させることを示しています。
原文 (English)
SafeRx-Agent: A Knowledge-Grounded Multi-Agent Framework for Safe and Explainable Medication Recommendation
Medication recommendation predicts medications for patient visits, but existing methods still face two key challenges. At the model level, traditional drug recommendation methods only predict structured drug codes with limited evidence grounding, while LLM agents can use richer clinical context but may lack safety verification and traceability. At the task level, existing benchmarks often use broad medication categories, which ignore subgroup-level safety differences and can lead to risk overestimation. We introduce the first fine-grained medication recommendation setting based on fourth-level ATC code generation. We propose Safe Prescription Agent (SafeRx-Agent), a knowledge-grounded multi-agent framework that uses patient context, external clinical knowledge, and safety verification to recommend traceable medication sets. Experimental results on MIMIC-III and MIMIC-IV datasets show that SafeRx-Agent improves fine-grained medication prediction accuracy while controlling drug interactions, contraindications, and medication set size.
Compute Allocation in Evolutionary Search: From Depth-Breadth to Multi-Armed Bandits
LLM-guided evolutionary search (Evolve systems) has reached state-of-the-art results on mathematical and combinatorial tasks, yet most exis…
日立はAnthropicと組んで何を狙うのか 従業員29万人へのClaude導入で目指す姿
ミッションクリティカル領域でのAI活用に向け、日立はAnthropicと戦略的パートナーシップを締結した。同社は今回の提携で何を実現しようとしているのか。
‘What a joke’: Github Copilot’s new token-based billing spurs consternation among devs
The golden age of Microsoft's Github Copilot appears to be at an end.
I put Google’s 24/7 AI assistant Gemini Spark to work, and it’s actually pretty useful
Gemini Spark helps automate everyday tasks, from inbox summaries to local event planning, but it’s unclear why Google made it a separate pr…
OpenAIが生命科学推論AI「GPT-Rosalind」をバイオディフェンスに開放 デュアルユースリスクに懸念も
OpenAIは、生命科学研究に特化したフロンティア推論モデル「GPT-Rosalind」を活用した「Rosalind Biodefense」プログラムを発表した。生物脅威の検知など防衛目的に限定し、審査済みの開発者や米政府機関および同盟国のパートナー組織にAPIを無償提供する。
Boston Children’s uses AI to unlock new diagnoses
Boston Children’s Hospital uses OpenAI technology to improve patient care, reduce operational burden, and help diagnose more than 40 rare d…
How Braintrust turns customer requests into code with Codex
How Braintrust engineers use Codex with GPT-5.5 to run experiments and code faster.
「Nano Banana 2」「Nano Banana Pro」が一般提供開始 「2」は動画からの画像生成もサポート
米Googleは5月29日、「Nano Banana 2」(Gemini 3.1 Flash Image)と「Nano Banana Pro」(Gemini 3 Pro Image)の一般提供を開始すると発表した。加えて、動画入力に対応する新機能をNano Banana 2でプ…
日本政府と主要金融機関、OpenAI新モデルのアクセス権を取得 サイバー対策強化へ
片山さつき金融担当相が、米OpenAIが開発した新型AIのアクセス権を政府と主要金融機関が取得したと明らかにした。高性能AIがサイバー攻撃に悪用される懸念が高まる中、AIを防御に活用した対策が急務となっている。片山氏は「わが国金融機関のサイバーセキュリティー強化の観点から歓迎す…
OpenAI、日本政府とサイバーセキュリティで協力 最新AI「GPT-5.5-Cyber」を金融機関に提供
米OpenAIは、日本政府とサイバーセキュリティで協力する取り組み「日本サイバー・アクションプラン」を発表した。まずは、金融機関にサイバーセキュリティに特化した最新AIモデル「GPT-5.5-Cyber」を提供する。
認知カテゴリー変換器: 言語モデリングのためのカテゴリー理論的帰納バイアス
Cognitive Categorical Transformer (CCT) は、カテゴリ理論と認知科学からのいくつかのインスピレーションに由来する認知的に根拠のあるコンポーネントで、事前トレーニング済みの GPT-2 Small バックボーンを強化する 306M パラメーターのアーキテクチャです。 WikiText-103 の一致ステップ プロトコル (215,000 のオプティマイザー ステップ、一致したデータ、一致したオプティマイザーとスケジュール) の下では、CCT は 21.27 の検証複雑度に達しましたが、これと比較して、同様に微調整された GPT-2 Small ベースラインでは 24.19 でした。したがって、このアーキテクチャは、ドメイン内微調整だけで実現できる量を超える 2.92 PPL (相対 12%) の削減に貢献します。 7 フェーズのアクティベーション スケジュール全体にわたって GT-Full の単純なメッセージ パッシングをバイパスするリトレーニング フロム スクラッチ アブレーションは 23.72 PPL に達し、アーキテクチャの改善の 84% (2.92 PPL のうち 2.45) を GT-Full に限定します。我々は、単純なメッセージパッシングが WikiText-103 の 3 億 6M パラメータスケールで言語モデルの複雑さを改善するという、アブレーションで検証された最初の証拠を提示します。公開された GPT-2 Large は、GPT-2 Small の 6.2 倍のパラメータを持ち、WikiText-103 で 22.05 ゼロショット PPL に達しました。このペーパーでは、その数値をアーキテクチャのベンチマークとしてではなく、外部に公開された参照として扱います。整合性スタイルのカテゴリカル事前確率に関する 3 つの否定的な結果 (層の平滑化、付加のラウンドトリップ、曲率の正則化) と、GT-Full と PrecisionWeightedPP の結合構造事前確率の結果は共に、*構造/一貫性の区別* と呼ばれる経験的パターンを裏付けています。このパターンでは、新しいトポロジーを追加するカテゴリカル事前確率は言語モデリングを改善しますが、一貫性の同一性を強制するカテゴリカル事前確率は改善しません。
原文 (English)
The Cognitive Categorical Transformer: Category-Theoretic Inductive Biases for Language Modeling
The Cognitive Categorical Transformer (CCT) is a 306M-parameter architecture that augments a pretrained GPT-2 Small backbone with cognitively grounded components derived from category theory and several inspirations from cognitive science. Under a matched-step protocol (215,000 optimizer steps, matched data, matched optimizer and schedule) on WikiText-103, CCT reaches 21.27 validation perplexity, compared with 24.19 for an identically fine-tuned GPT-2 Small baseline. The architecture therefore contributes a 2.92 PPL (12% relative) reduction beyond what in-domain fine-tuning alone provides. A retrain-from-scratch ablation that holds GT-Full simplicial message passing bypassed across the entire seven-phase activation schedule reaches 23.72 PPL, localizing 84% of the architectural improvement (2.45 of 2.92 PPL) to GT-Full. We present the first ablation-validated evidence that simplicial message passing improves language-model perplexity at the 306M-parameter scale on WikiText-103. Published GPT-2 Large reaches 22.05 zero-shot PPL on WikiText-103 with 6.2x more parameters than GPT-2 Small; this paper treats that number as an external published reference, not as the architectural benchmark. Three negative results on consistency-style categorical priors (sheaf smoothing, adjunction round-trip, curvature regularization) and the joint structural-prior result for GT-Full and PrecisionWeightedPP together support an empirical pattern termed the *structure/consistency distinction*, in which categorical priors that add new topology improve language modeling and those that enforce a consistency identity do not.
レビュー アーケード: LLM レビューの人間性とゲーム性について
LLM が生成する科学論文のレビューは大きな注目を集めており、主要な会議でも正式に試験的に導入されています。査読者だけが LLM 支援を使用しているだけでなく、著者も投稿前に論文を修正するために LLM を使用していることを想定する必要があります。この研究では、2025 ACL ローリング レビュー (ARR) の論文に対して実証実験を実行し、著者と査読者の両方の観点から LLM レビューを評価します。まず、LLM レビューと人間のレビューとの限定的な整合性を特定します。最良のシナリオでは、位置合わせは適切です。ただし、LLM と人間のアライメントはプロンプトとモデルによって大幅に異なることもわかりました。最後に、作成者がドラフトと改訂の反復ワークフローを使用して、LLM レビューに従って提出物を改善するシナリオを調査します。 LLM レビューのこの「ゲーム」は特定のシナリオで効果的であり、最大 35\% の論文で全体のスコアが統計的に有意に増加することがわかりました。コードを公開しています: https://github.com/uhh-hcds/reviewarcade。
原文 (English)
Review Arcade: On the Human Alignment and Gameability of LLM Reviews
LLM-generated reviews for scientific papers are gaining considerable traction and are even being officially piloted by major conferences. We have to assume that not only reviewers are using LLM-assistance, but also that authors use LLMs to revise their papers before submitting. In this work, we perform empirical experiments on papers from the 2025 ACL Rolling Review (ARR) to evaluate LLM reviews from both the author and the reviewer perspective. First, we identify a limited alignment of LLM reviews with human ones. In the best-case scenario, the alignment is reasonable. However, we also find that LLM-human alignment varies substantially across prompts and models. Finally, we investigate the scenario in which the author uses an iterative draft-revise workflow to improve the submission according to the LLM review. We find that this "gaming" of LLM reviews can be effective in specific scenarios, leading to a statistically significant increase of overall scores for up to 35\% of papers. We publish our code: https://github.com/uhh-hcds/reviewarcade.
Frontier LLM ベースのエージェントは、自然な表現型のオントロジーキュレーションのボトルネックを克服できます
フリーテキストの表現型記述をオントロジー用語にリンクすることは、通常表現型アノテーションと呼ばれ、比較形態学的データを研究間で統合するために不可欠です。この労働集約的なプロセスは高度な訓練を受けた人間の専門家に大きく依存しており、そのため拡張が困難であり、それが大きなボトルネックとなっています。ダードゥルら。 (2018) 7 つの系統学的研究にわたるエンティティ品質 (EQ) アノテーションのゴールド スタンダード (GS) を確立し、それを使用して 3 人のキュレーターと、オントロジーベースの意味的類似性メトリクスを備えた Semantic CharaParser NLP ツールを評価しました。彼らは、機械と人間の一貫性は、キュレーター間(人間と人間)の一貫性よりも大幅に低いと報告しました。ここでは、Anthropic と OpenAI の 5 つのフロンティア ホスト LLM を使用してそのベンチマークを再検討します。各 LLM は、ソース出版物の PDF、元の人間のキュレーターが使用したのと同じ注釈ガイド、4 つのプロジェクト オントロジー (UBERON、PATO、BSPO、GO)、および検証スクリプトを提供する自己完結型ワークスペース内で「エージェント キュレーター」として動作します。同じゴールドスタンダードに照らして評価すると、すべてのエージェントは、元の研究で訓練を受けた 3 人の人間のバイオキュレーターのキュレーター間変動の範囲内に収まりました。最もパフォーマンスの高いエージェントがアプローチしましたが、最もパフォーマンスの高い人間のキュレーターには到達できませんでした。エージェントは、4 つの指標すべてで Semantic CharaParser を大幅に上回りました。
原文 (English)
Frontier LLM-based agents can overcome the ontology curation bottleneck for natural phenotypes
Linking free-text phenotype descriptions to ontology terms, typically referred to as phenotype annotation, is essential for the cross-study integration of comparative morphological data. This labor intensive process has heavily relied on highly trained human experts, which makes it challenging to scale and thus a key bottleneck. Dahdul et al. (2018) established a Gold Standard (GS) of Entity-Quality (EQ) annotations across seven phylogenetic studies and used it to evaluate three human curators and the Semantic CharaParser NLP tool with ontology-based semantic similarity metrics; they reported that machine-human consistency was significantly lower than inter-curator (human-human) consistency. Here we revisit that benchmark with five frontier hosted LLMs from Anthropic and OpenAI, each operating as an "agentic curator" within a self-contained workspace that supplies the source publication PDF, the same annotation guide used by the original human curators, the four project ontologies (UBERON, PATO, BSPO, GO), and a validation script. Evaluated against the same Gold Standard, every agent fell within the range of inter-curator variability of the three trained human biocurators of the original study; the best performing agents approached but did not reach the best performing human curator. Agents substantially outperformed Semantic CharaParser on all four metrics.
Adopt $\neq$ Adapt: 現実の LLM 会話の縦断的分析
ユーザーと LLM の相互作用について説明する研究が増えてきていますが、それが描く絵はほとんど静的なものです。個々のユーザーが時間の経過とともにどのように行動を変えるかについてはほとんど知られていません。このギャップに対処するために、無作為に抽出した $\sim$12,000 人の Microsoft Bing Copilot ユーザーの会話の軌跡を分析し、WildChat-4.8M のデータと比較します。 Copilot データには集団レベルの重要な傾向が含まれていますが、個々のユーザーの軌跡の傾向ははるかに弱いことがわかります。ユーザーの習慣は圧倒的に固定的であることがわかります。また、さまざまなアクティビティ レベルのユーザー間には明らかな違いがあることもわかりました。よりアクティブなユーザーはより成功した会話をし、より複雑でプロフェッショナル志向のタスクに LLM を使用します。一部のユーザー傾向は WildChat-4.8M にも見られますが、このデータセットが高度に熟練した「パワー」ユーザーに大きく偏っているという証拠が見つかりました。最終的に、私たちの結果は、既存のユーザーの行動を変えるのが難しいことを示唆しており、ユーザーの異質性の程度を示しています。データセット間の比較では、WildChat が典型的なユーザーと AI の対話を表していないことが強調されており、これはデータのダウンストリーム使用における重要な注意事項です。
原文 (English)
Adopt $\neq$ Adapt: Longitudinal Analyses of LLM Conversations in the Wild
Although a growing body of research has begun to describe user--LLM interactions, the picture it paints is largely static; little is known about how individual users change their behavior over time. To address this gap, we analyze the conversational trajectories of $\sim$12,000 randomly sampled Microsoft Bing Copilot users and compare these with data from WildChat-4.8M. While the Copilot data contains significant population-level trends, we find that trends in individual user trajectories are much weaker; user habits prove to be overwhelmingly sticky. We also find stark differences between users of different activity levels: more active users have more successful conversations and use the LLM for more complex and professionally oriented tasks. Some user trends also appear in WildChat-4.8M, but we find evidence that this dataset is significantly skewed towards highly proficient "power" users. Ultimately, our results suggest that existing user behavior is difficult to change and demonstrate the extent of user heterogeneity. Our comparison between datasets highlights that WildChat does not represent typical user-AI interactions, an important caveat for downstream uses of the data.
モデルが一致しない場合: パブリック コメント分析のための LLM 評価を再考する
連邦政府機関はパブリック コメント コーパスを分類するために大規模言語モデル (LLM) を導入しており、モデルの記録構成によって政策立案者が何を確認し、どの議論が登録されるかが決まります。小規模な検証済みセットに対するスタンスの精度に基づいた標準評価では、異なるモデルが同じ公的入力に対して実質的に異なる分類を生成する場合を検出できません。私たちは、マルチモデルの不一致を解釈の複雑さの診断として扱い、真に曖昧な公的意見に向けて人間によるレビューを指示する解釈監査パイプラインを提案します。 4 つの LLM にわたる連邦 USDA 文書に対する 1,260 件のパブリック コメントを分析したところ、モデル間のテーマの相違がモデル内のプロンプト変動を上回っており、専門家のルーブリックが深い解釈上の不一致を解決することなく抑圧していることがわかりました。層化された 40 コメントのサブサンプルに対する 2 段階のラベル付け研究では、4 人の LLM とヒューマン アノテーターが独立してラベル付けし、他のラベルを確認した後に修正しました。改訂動作はラベラーによって異なり、ヒューマン・アノテーターの改訂では、アンサンブルの集合的な出力にはないフレームが頻繁に導入されました。私たちは、不一致に基づく評価は、LLM 支援解釈コーディングの精度メトリクスを補完するために必要であると主張します。
原文 (English)
When Models Disagree: Rethinking LLM Evaluation for Public Comment Analysis
Federal agencies are deploying large language models (LLMs) to categorize public comment corpora, where the model's organization of the record shapes what policymakers see and which arguments register. Standard evaluation, anchored on stance accuracy against a small validated set, cannot detect when different models produce materially different categorizations of the same public input. We propose an Interpretive Audit Pipeline that treats multi-model disagreement as diagnostic of interpretive complexity and directs human review toward genuinely ambiguous public input. Analyzing 1,260 public comments on a federal USDA docket across four LLMs, we find that inter-model thematic divergence exceeds within-model prompt variation, and that an expert rubric suppresses deep interpretive disagreement without resolving it. In a two-stage labeling study on a stratified 40-comment subsample, four LLMs and a human annotator labeled independently and then revised after seeing the others' labels. Revision behavior varied across labelers, and the human annotator's revisions frequently introduced framings absent from the ensemble's collective output. We argue disagreement-based evaluation is a necessary complement to accuracy metrics for LLM-assisted interpretive coding.
トーンに注意: トーンによって LLM のパフォーマンスが変化しますか?
大規模言語モデル (LLM) の使用は急増していますが、そのパフォーマンスはプロンプトのスタイルや口調に基づいて変化することが観察されています。この研究では、プロンプトの音調の変化が客観的な多肢選択式の質問に対する LLM の精度の違いにつながるかどうか、またどのようにして起こるかを調査します。 5 つの声調バリエーションを持つ 50 ベースの質問データセットと、7 つの声調バリエーションを持つ 57 人の被験者にわたる 570 ベースの質問 MMLU サブセットの 2 つのデータセットを使用します。実験は、コスト効率の高い人気のある 4 つの LLM (ChatGPT-4o、ChatGPT-5-nano、Gemini 2.5 Flash、および Gemini 2.5 Flash Lite) のパフォーマンスを評価するために実施されました。モデル間での音色効果は体系的ですが、モデルに大きく依存します。一部のモデルは小さいながらも統計的に有意な変化を示しますが、他のモデルはトーン全体で大きな精度の変動を示します。さらに、トーン感度における被験者レベルの違いを特定し、トーンがどのように内部推論モードを調整するかを説明するためのルーティングフレームワークを提示します。私たちの調査結果は、LLM 導入においてトーン堅牢な信頼性を想定しないようユーザーに警告します。
原文 (English)
Mind Your Tone: Does Tone Alter LLM Performance?
The use of Large Language Models (LLMs) is proliferating, yet their performance is observed to vary based on prompting styles and tones. In this study, we investigate both whether and how tonal variations in prompts lead to disparate LLM accuracy for objective multiple-choice questions. We use two datasets: a 50-base question dataset with five tone variants and a 570-base question MMLU subset spanning 57 subjects with seven tone variants. Experiments were conducted to evaluate the performance of four cost-efficient, popular LLMs: ChatGPT-4o, ChatGPT-5-nano, Gemini 2.5 Flash, and Gemini 2.5 Flash Lite. Across models, tonal effects are systematic but highly model-dependent. Some models show small, yet statistically significant, shifts, while others exhibit large accuracy swings across tones. Further, we identify subject-level differences in tone sensitivity and present a routing framework to explain how tones may attune internal reasoning modes. Our findings caution users against assuming tone-robust reliability in LLM deployments.
Agentic AI、ネストされた学習、セマンティック キャッシングによる AI の持続可能性による幻覚の軽減
幻覚は、実稼働 LLM システムにとって、特にサポートされていないクレームがチェックされずにステージ全体に伝播する可能性があるマルチエージェント パイプラインにおいて、依然として大きな信頼性の障壁となっています。この論文では、連続メモリ システム (CMS) と意味論的類似性キャッシュを備えた HOPE にインスピレーションを得た入れ子学習アーキテクチャを、217 個の認識論的不確実性プロンプトと 93 個の製造誘導ストレステスト プロンプトを組み合わせた 310 個のプロンプトのハイブリッド ベンチマークに適応させます。オープン フロア プロトコル (OFP) を介して調整された 3 段階のエージェント パイプラインは、FCD (事実の主張密度)、FGR (事実の根拠参照)、FDF (架空の免責事項の頻度)、ECS (明示的なコンテキスト化スコア)、および OSR (観察可能性スコア率) の 5 つの KPI を使用して評価され、研究対象の 5 つの重み付け構成にわたって THS (総幻覚スコア) に集約されます。緩和と可観測性のトレードオフ。 FDF、ECS、OSR、および FGR は緩和シグナルとして差し引かれるため、THS がより負であるほど、緩和が強力であることを示します。 FrontEndAgent は、現実的な幻覚ベースラインを生成する高確率ジェネレータ (温度 = 1.0) として構成され、SecondLevelReviewer と ThirdLevelReviewer はプログレッシブ コレクタとして動作します。この非対称設計により、5 つの重み付け構成全体でエンドツーエンドの THS が -31.3% ~ -35.9% 削減されます。セマンティック キャッシュは、930 回の潜在的な呼び出しで 440 回のキャッシュ ヒット (ヒット率 47.3%) を達成し、LLM 呼び出しを 490 回に減らし、エネルギーと CO2e フットプリントを削減し、マルチステージ レビュー パイプラインを運用規模で実行可能にします。 ExtremeObservability は最もマイナスの最終 THS (-0.0709) を達成しており、可観測性を重視した構成が緩和を損なうのではなく強化していることが確認されています。これらの発見は、メモリ拡張マルチエージェント設計がモデルの再トレーニングなしで事実の信頼性、運用効率、監査可能性を共同で改善できることを示唆しています。
原文 (English)
Hallucination Mitigation with Agentic AI, Nested Learning, and AI Sustainability via Semantic Caching
Hallucination remains a major reliability barrier for production LLM systems, particularly in multi-agent pipelines where unsupported claims can propagate unchecked across stages. This paper adapts a HOPE-inspired Nested Learning architecture with Continuum Memory Systems (CMS) and semantic similarity caching to a hybrid benchmark of 310 prompts combining 217 epistemic-uncertainty prompts and 93 fabrication-induction stress-test prompts. A three-stage agentic pipeline orchestrated via the Open Floor Protocol (OFP) is evaluated with five KPIs -- FCD (Factual Claim Density), FGR (Factual Grounding References), FDF (Fictional Disclaimer Frequency), ECS (Explicit Contextualization Score), and OSR (Observability Score Ratio) -- aggregated into THS (Total Hallucination Score) across five weighting configurations to study mitigation-observability trade-offs. FDF, ECS, OSR, and FGR are subtracted as mitigation signals, so that a more negative THS indicates stronger mitigation. The FrontEndAgent is configured as a high-stochasticity generator (temperature = 1.0) to produce a realistic hallucination baseline, while the SecondLevelReviewer and ThirdLevelReviewer operate as progressive correctors. This asymmetric design yields end-to-end THS reductions of -31.3% to -35.9% across five weighting configurations. Semantic caching achieves 440 cache hits over 930 potential calls (47.3% hit rate), reducing LLM invocations to 490, lowering energy and CO2e footprint, and making multi-stage review pipelines operationally viable at production scale. ExtremeObservability attains the most negative final THS (-0.0709), confirming that observability-heavy configurations reinforce rather than compromise mitigation. These findings suggest that memory-augmented multi-agent designs can jointly improve factual reliability, operational efficiency, and auditability without model retraining.
潜在推論を備えた堅牢で効率的なガードレール
大規模言語モデル (LLM) が現実世界のアプリケーションに導入されることが増えているため、その安全性を維持することが重要です。既存の安全ガードレールは通常、シングルパス分類、または最近では蒸留された推論に依存しています。推論ベースのガードレールは、分類のみのベースラインよりも大幅にパフォーマンスが優れていますが、クエリの遅延とトークンのオーバーヘッドが大幅に発生するため、高スループットの展開には非現実的です。この課題に対処するために、段階別のトレーニング カリキュラムを通じて複数ステップの安全推論を連続的な潜在空間に転送し、推論時に直接隠れ状態の伝播を可能にするガードレール モデルである COLAGUARD を提案します。 8 つの安全性ベンチマークにわたる 10 のプロンプトおよび応答モデレーション設定で評価された COLAGUARD は、マクロ F1 を Llama Guard 3 より 8.24 ポイント改善し、マクロ F1 の明示的推論ベースライン GuardReasoner と一致すると同時に、12.9 倍の高速化とトークン使用量の 22.4 倍の削減を実現します。私たちの結果は、潜在的推論が、展開可能なガードレールの明示的理論的根拠の生成に代わる実用的な代替手段を提供し、安全性の堅牢性と推論の効率を競合する目的として扱うのではなく、共同して向上させることを示唆しています。
原文 (English)
Robust and Efficient Guardrails with Latent Reasoning
Maintaining the safety of large language models (LLMs) is crucial as they are increasingly deployed in real-world applications. Existing safety guardrails typically rely on single-pass classification or, more recently, distilled reasoning. Reasoning-based guardrails significantly outperform classification-only baselines, but they incur substantial query latency and token overhead that make them impractical for highthroughput deployment. To address this challenge, we propose COLAGUARD, a guardrail model that transfers multi-step safety reasoning into a continuous latent space through a stage-wise training curriculum, enabling direct hidden-state propagation at inference. Evaluated on ten prompt- and response-moderation settings spanning eight safety benchmarks, COLAGUARD improves macro-F1 by 8.24 points over Llama Guard 3 and matches our explicit reasoning baseline, GuardReasoner, in macroF1 while delivering a 12.9X speedup and 22.4X reduction in token usage. Our results suggest that latent reasoning offers a practical alternative to explicit rationale generation for deployable guardrails, jointly improving safety robustness and inference efficiency rather than treating them as competing objectives.
コンセンサスを超えて: 薬剤の混合物における微量レベルの合成
複数の LLM エージェントが同じ問題を解決する場合、標準的な慣行では、各エージェントの推論が多数決または階層化された統合に圧縮され、合意が最終ラインとして扱われます。私たちは、これが不必要に損失を伴うことを示します。完全な推論トレースを読み取る LLM アグリゲーターは、エージェントが全会一致で同意した場合でも、有益な修正が有害な修正を常に上回り、正しい解決策を回復します -- \emph{集約のパラドックス}。多数決には、摂動の多様性によって上昇しない上限があります (誤差の相関関係は同一です)。アグリゲーターの利益は、投票によって破棄される少数派のチェーンから正しい中間ステップを組み立てる、トレースレベルの相補性から得られます。これらの発見は、セマンティックを保持する入力摂動を通じて微量多様性を生成し、証明可能な非劣化保証を備えたアンカー改良によって大部分を保護し、コンセンサスに基づいてゲートすることなく常に合成するエージェントの自己一貫性混合を動機付けます。摂動による微量変化を伴う単一モデルは、構造化推論、博士レベルの科学、競技数学、競技プログラミングにおいて、異種モデル プールよりも優れたパフォーマンスを発揮します。集計の単位は、答えではなく、推論のトレースである必要があります。
原文 (English)
Beyond Consensus: Trace-Level Synthesis in Mixture of Agents
When multiple LLM agents solve the same problem, standard practice compresses each agent's reasoning into a majority vote or layered synthesis, treating agreement as the finish line. We show this is unnecessarily lossy: an LLM aggregator that reads complete reasoning traces recovers correct solutions even when agents unanimously agree, with beneficial corrections consistently outweighing harmful ones -- the \emph{aggregation paradox}. Majority voting has a ceiling that perturbation diversity does not raise (error correlations are identical); the aggregator's gain comes from trace-level complementarity, assembling correct intermediate steps from minority chains that voting discards. These findings motivate Self-Consistent Mixture of Agents which generates trace diversity through semantic-preserving input perturbations, safeguards the majority via anchored refinement with provable non-degradation guarantees, and always synthesizes -- never gates on consensus. A single model with perturbation-induced trace variation outperforms heterogeneous model pools across structured reasoning, PhD-level science, competition mathematics, and competitive programming. The unit of aggregation should be the reasoning trace, not the answer.
ReasonOps: LLM 推論トレースのオペレーター セグメンテーション
大規模な推論モデルからの思考連鎖のトレースは数万のトークンに及ぶ可能性がありますが、その内部構造を説明するための語彙が不足しています。思考連鎖のトレースを分析するために開発されたこれまでの手法は、厳密すぎるか表現力が不十分で、ドメインやモデル全体の特徴を捉えることができませんでした。これを解決するために、思考連鎖トレースに注釈を付けるための教師なしの表現力豊かな手法である ReasonOps を開発し、簡潔な汎用演算子を提供します。 ReasonOps を使用して、8 つの推論ベンチマークにわたる 6 ファミリにまたがる 12 の思考 LLM からの 44,662 のトレースを分析し、それらが共通の構成構造を共有していることを発見しました。それは、文頭の 3 トークン ピボットの教師なしクラスタリングから現れる 7 つの繰り返し推論演算子、つまり後戻り、推論、仮説立てなどの談話レベルの動きです。これらの演算子は、すべてのモデル ファミリとベンチマーク ドメインにわたって出現し、ホールドアウトされたサンプルを 70 ~ 76% の精度で分類する 3 人の独立した LLM 審査員によって確認されています。簡単な問題と難しい問題の演算子の構造を分析し、反射型演算子は難しい問題ではより役立ち、簡単な問題ではパフォーマンスに悪影響を与えることを明らかにしました。演算子シーケンスは高度にモデルを識別します。演算子分布のみでトレーニングされた分類器はマクロ AUC でソース モデルを復元し、各モデル ファミリが独特の推論フィンガープリントを持っていることを明らかにします。構造演算子の特徴は、問題内の解答の正しさをベースラインをはるかに上回って予測します。これらの演算子に基づいて構築された分類子は、特に WP-AUC および AIME に到達します。さらに、ReasonOps により、トレースが完了するかなり前に早期品質推定が可能になります。WP-AUC ではトレースの 50% のみを予測します。 ReasonOps パイプラインは教師なしでアノテーションも不要なので、LLM 推論トレースに対する深い洞察と、モデルの識別と正確性の予測に関する強力な下流の結果が可能になります。
原文 (English)
ReasonOps: Operator Segmentation for LLM Reasoning Traces
Chain-of-thought traces from large reasoning models can span tens of thousands of tokens, yet we lack a vocabulary for describing their internal structure. Previous methods developed to analyze chain-of-thought traces are either too rigid or not expressive enough, failing to capture features across domains and models. To remedy this, we develop ReasonOps, an unsupervised, expressive method for annotating chain-of-thought traces, providing succinct universal operators. Using ReasonOps, we analyze 44,662 traces from 12 thinking LLMs spanning 6 families across 8 reasoning benchmarks and discover that they share a common compositional structure: 7 recurring reasoning operators -- discourse-level moves such as backtracking, inferring, and hypothesizing -- that emerge from unsupervised clustering of sentence-initial 3-token pivots. These operators appear across every model family and benchmark domain, confirmed by three independent LLM judges who classify held-out samples at 70 -76% accuracy. We analyze the structure of operators on easy vs. hard problems, revealing that reflective operators are more helpful on hard problems and harm performance on easy problems. Operator sequences are highly model-identifying: a classifier trained on operator distributions alone recovers the source model with macro-AUC, revealing that each model family has a distinctive reasoning fingerprint. Structural operator features predict within-problem answer correctness well above baselines. Classifiers built on these operators reach WP-AUC and on AIME specifically. ReasonOps further enables early quality estimation well before the trace completes: we predict at WP-AUC for only 50% of the trace. The ReasonOps pipeline is unsupervised and annotation-free, enabling deep insights into LLM reasoning traces as well as strong downstream results on model identification and correctness prediction.
BenchTrace: LLM エージェントのリフレクション能力と制御された進化をテストするためのベンチマーク
自己進化エージェントは過去の失敗を反映することで時間の経過とともに改善しますが、既存の評価には 2 つの点で制限があります。1 つはタスク スコアのみを測定し、反映品質は不明のままにすること、もう 1 つはエージェント自身のエピソードの実行に依存しており、特定の失敗パターンを対象にするメカニズムを提供していないことです。 LLM エージェントの自己進化能力を評価するためのベンチマークである \textbf{BenchTrace} を紹介します。 BenchTrace は、6 つの多様なタスクにわたる 1,821 の注釈付きエピソードのスナップショット反映データセットに基づいて構築されており、ターゲットを絞った QA タスクを通じて障害の特定を調査する \textbf{反映評価} と、制御された自己進化シミュレーションで過去の障害経験が回避行動に変換されるかどうかをテストする \textbf{進化評価} で構成されます。 BenchTrace に基づいて、エージェントがターゲットの障害インスタンスを回避できたテスト ケースの割合を測定する新しい評価指標である \textbf{障害回避率 (FAR)} を提案します。 Qwen3-32B と GPT-4.1 を使った実験では、どちらのモデルもリフレクション評価でエンドツーエンドの合格率が 30\% を下回り、診断が主なボトルネックであることが明らかになりました。進化の評価では、自己進化手法は一般に非進化ベースラインよりもFARを改善しますが、エージェントはノイズエピソードが蓄積するにつれて初期のレッスンを忘れ、エージェントは特定のコンテキストを超えて反省を一般化することができず、タスクコンテキスト間で負の転移を引き起こすことが示されています。さらに、相関分析により、完全に正しい反射のみが高い FAR と強く関連していることが明らかになりました。 BenchTrace は、現在の自己進化アプローチの具体的な限界を明らかにし、対象を絞った評価のための制御されたモデルに依存しないフレームワークを提供します。
原文 (English)
BenchTrace: A Benchmark for Testing Reflection Ability and Controlled Evolution in LLM Agents
Self-evolving agents improve over time by reflecting on past failures, but existing evaluation is limited in two ways: it measures only task scores, leaving reflection quality unknown, and it relies on agents' own episode runs, offering no mechanism to target specific failure patterns. We present \textbf{BenchTrace}, a benchmark for evaluating self-evolution ability in LLM agents. BenchTrace is built on a snapshot-reflection dataset of 1,821 annotated episodes spanning six diverse tasks, and comprises a \textbf{Reflection Evaluation} that probes failure identification through targeted QA tasks, and an \textbf{Evolution Evaluation} that tests whether past failure experience translates into avoidance behavior in a controlled self-evolution simulation. Building on BenchTrace, we propose \textbf{failure avoidance rate (FAR)}, a new evaluation metric measuring the fraction of test cases in which the agent successfully avoids the target failure instance. Experiments with Qwen3-32B and GPT-4.1 reveal that both models fall below a 30\% end-to-end pass rate on reflection evaluation, with diagnosis as the primary bottleneck. Evolution evaluation shows that self-evolution methods generally improve FAR over the non-evolving baseline, but agents forget early lessons as noise episodes accumulate, and agents fail to generalize their reflections beyond the specific context, causing negative transfer across task contexts. Our correlation analysis further reveals that only a fully correct reflection is strongly associated with higher FAR. BenchTrace exposes concrete limits of current self-evolution approaches and provides a controlled, model-agnostic framework for targeted evaluation.
カリキュラムの調整: 動的データモデル互換性による学生中心の推論の抽出
推論蒸留は、複雑な推論能力を大規模な言語モデル (LLM) から小規模な言語モデルに移行しますが、その成功はトレーニング データが学生モデルとどの程度一致するかによって決まります。このペーパーでは、スチューデント モデルでの推論蒸留に対するデータセットの適合性を評価するために使用できるデータ モデル互換性 (DMC) メトリクスを紹介します。 DMC は、データの品質、相対的な難易度、学生の能力を共同で考慮して評価を提供します。 DMC の有効性を 2 つの観点から検証しました。(1) DMC は推論蒸留パフォーマンスと強い相関を示します。 (2) データ選択の基準として DMC を使用すると、推論蒸留のパフォーマンスが向上します。どちらの発見も、複数の学生モデルとタスクにわたって一貫して実証されています。さらに、各データセットの DMC はトレーニング中に動的に変化するため、DMC に基づいてデータセットを動的に選択することでパフォーマンスがさらに向上することが実験で実証されました。
原文 (English)
Tailoring the Curriculum: Student-Centered Reasoning Distillation via Dynamic Data-Model Compatibility
Reasoning distillation transfers complex reasoning abilities from large language models (LLMs) to smaller ones, yet its success depends on how well the training data align with the student model. This paper introduces the Data-Model Compatibility (DMC) metric, which can be used to assess the suitability of a dataset for reasoning distillation on a student model. DMC provides an assessment by jointly considering data quality, relative difficulty, and student capability. We validated the effectiveness of DMC from two perspectives: (1) DMC exhibits a strong correlation with reasoning distillation performance; and (2) using DMC as the criterion for data selection leads to improved reasoning distillation performance. Both findings are consistently demonstrated across multiple student models and tasks. Moreover, since the DMC of each dataset dynamically changes during training, our experiments demonstrate that dynamically selecting datasets based on DMC can further enhance performance.
DenseSteer: 小規模な言語モデルを高密度数学推論に向けて操作する
大規模な言語モデル (LLM) は強力な思考連鎖 (CoT) 推論能力を示しますが、小規模なモデル (<= 3B パラメーター) は、複数ステップの推論タスクでは著しくパフォーマンスが劣ります。数的推論ベンチマークにおける Qwen-2.5 モデル ファミリーの経験的分析に基づいて、より熟練した推論は、推論ステップが少なく、ステップごとの情報密度が高いことに関連していることがわかりました。この特性を、私たちは「高密度推論」と呼んでいます。この観察に動機付けられて、私たちは、内部表現を密な推論パターンに向けて調整することによって小規模モデル推論を強化する、トレーニング不要の推論時間ステアリング フレームワークである DenseSteer を提案します。実験では、私たちの方法がトークンレベルの負の対数尤度を増加させることなく一貫した精度の向上をもたらすことを示し、数学的問題解決への効果的な構造的アプローチとして密な推論を強調しています。
原文 (English)
DenseSteer: Steering Small Language Models towards Dense Math Reasoning
Large language models (LLMs) demonstrate strong chain-of-thought (CoT) reasoning abilities, while smaller models (<= 3B parameters) significantly underperform on multi-step reasoning tasks. Based on empirical analyses of the Qwen-2.5 model family on math reasoning benchmarks, we find that more proficient reasoning is associated with fewer reasoning steps but higher information density per step, a property we term Dense Reasoning. Motivated by this observation, we propose DenseSteer, a training-free inference-time steering framework that enhances small-model reasoning by modulating internal representations toward dense reasoning patterns. Experiments show that our method yields consistent accuracy improvements without increasing token-level Negative Log-Likelihood, highlighting dense reasoning as an effective structural approach to mathematical problem solving.
読み取り不可能なもののインデックス作成: LLM ネイティブの再帰的構築とサービス分類の検索
Internet of Agents (IoA) の時代が具体化しつつあります。LLM エージェントは、急速に増加する Model Context Protocol (MCP) サーバー、Agent-to-Agent (A2A) エンドポイント、再利用可能なスキル、およびその他の LLM 呼び出し可能なサービスを調整することで、ユーザーの目標を達成することが期待されています。しかし、LLM はこの体制との構造的な不一致に直面しています。有効なコンテキストは、サービスの数に応じて拡張できない希少なリソースです。数千のサービス説明をプロンプトに連結すると、コンテキスト ウィンドウがオーバーフローし、ウィンドウが十分に大きい場合でも、モデルは長い入力の途中で情報に体系的に注意を向けることができなくなります。これは十分に文書化されている「Lost-in-the-Middle」現象です。これは基本的に、サービス検出のためのコンテキスト管理の問題です。これに対処するために、LLM ネイティブのプログレッシブ開示スキームとその具体的なインスタンス化である A2X (Agent-to-Anything サービス ディスカバリ) を提案します。これは、登録されたサービスを自動的に階層分類に編成し、クエリ時にレイヤーごとにたどる LLM 駆動のパイプラインです。これにより、すべての LLM 呼び出しでは、ユーザー クエリに関連性の高い小さな候補セットのみが表示されます。これにより、有効なコンテキストの不足がレジストリ サイズから切り離され、取得精度が向上しながらトークンの消費が大幅に削減されます。フルコンテキスト ダンピングと比較して、A2X はプロンプト トークン コストの 9 分の 1 で 6.2 ポイントのヒット率の向上を達成します。最先端のオープンソースの埋め込みベースのベースラインと比較して、A2X はヒット率を 20 ポイント以上改善します。
原文 (English)
Indexing the Unreadable: LLM-Native Recursive Construction and Search of Service Taxonomies
The era of the Internet of Agents (IoA) is taking shape: LLM agents are expected to fulfill user goals by orchestrating fast-growing populations of Model Context Protocol (MCP) servers, Agent-to-Agent (A2A) endpoints, reusable skills, and other LLM-callable services. Yet LLMs face a structural mismatch with this regime: effective context is a scarce resource that does not scale with the number of services. Concatenating thousands of service descriptions into a prompt overflows the context window, and even when the window is large enough, models systematically under-attend to information in the middle of long inputs, the well-documented Lost-in-the-Middle phenomenon. This is fundamentally a question of context management for service discovery. To address this, we propose an LLM-native progressive-disclosure scheme and its concrete instantiation, A2X (Agent-to-Anything service discovery): an LLM-driven pipeline that automatically organizes the registered services into a hierarchical taxonomy and walks it layer by layer at query time, so that every LLM call sees only a small candidate set highly relevant to the user query. This decouples effective-context scarcity from registry size and significantly reduces token consumption while improving retrieval accuracy. Compared to full-context dumping, A2X achieves a 6.2-point Hit Rate gain at one-ninth the prompt-token cost; compared to the state-of-the-art open-source embedding-based baseline, A2X improves Hit Rate by more than 20 points.
CoHyDE: ツール検索のための LLM リライタと高密度エンコーダの反復的共同トレーニング
大規模な API カタログを介したツールの取得は、LLM エージェントにとって主要なボトルネックです。ユーザー クエリは口語的な、多くの場合、仕様が不十分な言語で到着しますが、カタログでは、固定エンコーダーが単独でブリッジできない技術的な API ボキャブラリーが使用されます。対照的なエンコーダの微調整と、フリーズ LLM を使用した HyDE スタイルのクエリ拡張という 2 つの主要なトレーニング アプローチは、この問題に反対側から対処し、相補的な方向で失敗します。微調整されたエンコーダは、クエリの表面形式がすでにカタログと一致する場合には優れていますが、一致しない場合は崩壊します。一方、ゼロショットの HyDE は、仕様が不十分なクエリに対してはより堅牢ですが、クエリが適切な形式である場合に検索を低下させるカタログを意識しない仮説的な記述を生成します。高密度エンコーダと LLM リライタを単一の共進化システムとしてトレーニングする反復手順である CoHyDE を導入します。エンコーダはリライタによって生成されたカタログ形式の仮説記述に基づいて InfoNCE で再トレーニングされ、リライタはエンコーダの検索スコアに対して DPO 経由で優先的に調整され、ループが始まる前にツール カタログで双方がウォーム スタートされます。 ToolBench カタログの約 10,000 のツール サブセットでは、CoHyDE の 3 ラウンドにより、最も強力な単一コンポーネントのベースラインよりも、標準クエリで NDCG@5 が +2.5 pp、保留された曖昧クエリで +6.3 pp 改善され、最も困難な曖昧層では +8 pp もの向上が見られます。アブレーションにより、共トレーニングが重要な要素であることが確認されました。いずれかのコンポーネントを単独で使用すると、整形式のクエリと曖昧なクエリの両方で CoHyDE に匹敵することができず、曖昧なクエリでは最大 -8 pp の損失が発生します。
原文 (English)
CoHyDE: Iterative Co-Training of LLM Rewriter & Dense Encoder for Tool Retrieval
Tool retrieval over large API catalogs is a core bottleneck for LLM agents: user queries arrive in colloquial, often underspecified language, while the catalog uses technical API vocabulary that no fixed encoder can bridge on its own. The two dominant training approaches, contrastive encoder fine-tuning and HyDE-style query expansion with a frozen LLM, address this problem from opposite ends and fail in complementary directions: the fine-tuned encoder excels when the query's surface form already matches the catalog but collapses when it does not, while zero-shot HyDE is more robust to underspecified queries yet generates catalog-unaware hypothetical descriptions that degrade retrieval when queries are well-formed. We introduce CoHyDE, an iterative procedure that trains the dense encoder and the LLM rewriter as a single co-evolving system: the encoder is retrained with InfoNCE on catalog-style hypothetical descriptions produced by the rewriter, and the rewriter is preference-aligned via DPO against the encoder's retrieval scores, with both sides warm-started on the tool catalog before the loop begins. On a ~10k tool subset of the ToolBench catalog, three rounds of CoHyDE improve over the strongest single-component baseline by +2.5 pp NDCG@5 on standard queries and +6.3 pp on held-out vague queries, with gains as large as +8 pp on the hardest vague tier. Ablations confirm that co-training is the key ingredient: using either component in isolation fails to match CoHyDE on both well-formed and vague queries, with losses of up to -8 pp on vague queries.
正解の長い CoT トレーニング トレースにおける有害な継続の診断
長い思考連鎖 (CoT) トレースは、推論指向の LLM SFT の監視として広く使用されていますが、正解したトレースでも、著しく異なる微調整結果が得られる可能性があります。私たちは、答えが正しいロング CoT データにおける結論後の継続を研究します。これは、答えが十分に裏付けられているように見えますが、トレースは教師付きターゲットに残る追加の推論で継続するものです。トレーニング効果をテストするために、削除専用エディターを使用して応答を保持するサフィックス削除を構築し、元のトレースと処理されたトレースで CoT ベースの SFT を比較します。編集者が特定した結論後の継続を削除した後、SFT の結果が改善されたことが観察され、この継続が私たちの設定でのトレーニングに有害であることが示唆されています。したがって、私たちは経験的に裏付けられたこの現象を有害な継続と呼びます。この介入を超えて、不確実性と隠れた状態の進行を通じて削除された結論後の継続をさらに特徴付けます。持続的な局所的な不確実性と、最終方向への進行の弱まりが観察され、不確実性、つまり幾何学的不一致が形成されます。最後に、編集者が特定した結論後の継続境界を近似する軽量境界プロキシである Harmful Continuation Cut (HCC) をインスタンス化します。
原文 (English)
Diagnosing Harmful Continuation in Answer-Correct Long-CoT Training Traces
Long chain-of-thought (CoT) traces are widely used as supervision for reasoning-oriented LLM SFT, yet answer-correct traces can still lead to markedly different fine-tuning outcomes. We study post-conclusion continuation in answer-correct long-CoT data: a continuation where the answer appears sufficiently supported, but the trace continues with additional reasoning that remains in the supervised target. To test its training effect, we use a delete-only editor to construct answer-preserving suffix removal and compare CoT-based SFT on the original and processed traces. We observe improved SFT outcomes after removing the editor-identified post-conclusion continuation, suggesting that this continuation is harmful to training in our setting. We therefore refer to this empirically supported phenomenon as harmful continuation. Beyond this intervention, we further characterize the removed post-conclusion continuation through uncertainty and hidden-state progress. We observe persistent local uncertainty together with weakened terminal-directional progress, forming an uncertainty--geometry mismatch. Finally, we instantiate Harmful Continuation Cut (HCC), a lightweight boundary proxy that approximates the editor-identified post-conclusion continuation boundary.
単一意味性のスケーリング: クロード 3 ソネットから解釈可能な特徴を抽出する
私たちは、スパース オートエンコーダーが実稼働規模の言語モデルである Claude 3 Sonnet から解釈可能な特徴を抽出できることを実証し、辞書学習方法が小規模なトランスフォーマーを超えて拡張できるかどうかという未解決の問題に対処します。私たちは、ハイパーパラメーターの選択をガイドするスケーリング則を使用して、モデルの中間層の残差ストリーム上で最大 3,400 万の特徴を備えたスパース オートエンコーダーをトレーニングしました。結果として得られる機能は、多言語およびマルチモーダル (テキストのみのトレーニングにもかかわらず画像に一般化) であり、具体的なインスタンスと概念の抽象的な議論の両方に応答し、解釈と一致する方法でモデルの動作を制御するために使用できます。有名なエンティティや場所に対応する特徴だけでなく、皮肉やコード内のエラーなどのより抽象的な概念も見つかります。また、言語モデルが危害を引き起こす可能性のある方法に関連する特徴 (欺瞞、権力追求、お調子者、偏見を表す特徴など) を特定し、これらの特徴が操作されたときにモデルの出力に因果的に影響を与えることを示します。さらに、特徴の解釈可能性、形状、計算機能の分析も行います。ただし、重大な制限が残っています。私たちの一連の機能は不完全であり、私たちの機能がモデルの計算を忠実に捉えているかどうかを評価するための厳密な方法がありません。
原文 (English)
Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet
We demonstrate that sparse autoencoders can extract interpretable features from Claude 3 Sonnet, a production-scale language model, addressing the open question of whether dictionary learning methods scale beyond small transformers. We trained sparse autoencoders with up to 34 million features on the model's middle layer residual stream, using scaling laws to guide hyperparameter selection. The resulting features are multilingual and multimodal (generalizing to images despite text-only training), respond to both concrete instances and abstract discussions of concepts, and can be used to steer model behavior in ways consistent with their interpretations. We find features corresponding to famous entities and locations, as well as more abstract concepts like sarcasm or errors in code. We also identify features relevant to ways in which language models might cause harm--including features representing deception, power-seeking, sycophancy, and bias--and show that these causally influence model outputs when manipulated. Additionally, we conduct analyses of feature interpretability, geometry, and computational function. However, significant limitations remain: our suite of features is incomplete, and we lack rigorous methods for evaluating whether our features faithfully capture model computations.
EvoMD-LLM: 反応性分子動力学における種の進化の言語を学ぶ
大規模言語モデル (LLM) は静的な科学的推論には優れていますが、動的な物理プロセスの時間構造をモデル化するのは困難です。我々は、種レベルの分子動力学を記号時間言語モデリング問題として再定式化するフレームワークである EvoMD-LLM (進化的分子動力学大規模言語モデル) を紹介します。反応性 MD 軌跡は分子イベントのシーケンスに離散化され、各トークンはその持続期間が増加した化学種を表し、標準的な自己回帰 LLM が効率的な微調整を通じて時間の経過に伴う組成の進化を学習できるようになります。 EvoMD-LLM の重要なコンポーネントは時間的足場です。これは、イベント期間を明示的な言語トークンとして扱い、構造化された誘導バイアスとして機能し、従来のシーケンス モデリング アプローチと比較して、無効または幻覚を引き起こす分子出力を大幅に削減します。複数の時間予測タスクで EvoMD-LLM を評価し、最大 66.14% の精度を達成し、逐次ニューラル ネットワークや言語ベースのベースラインを常に上回るパフォーマンスを示しました。定量的な改善を超えて、たとえペアの軌跡と説明のデータで明示的に監視されていなかったとしても、モデルが関連する化学知識を組み込むことによって独自の予測の解釈を生成できることが定性的に観察されました。これらの結果は、シンボリック時間言語モデリングが動的物理シミュレーションで LLM を基礎付けるための効果的なフレームワークを提供することを示しています。
原文 (English)
EvoMD-LLM: Learning the Language of Species Evolution in Reactive Molecular Dynamics
While large language models (LLMs) excel at static scientific reasoning, they struggle to model the temporal structure of dynamic physical processes. We present EvoMD-LLM (Evolutionary Molecular Dynamics Large Language Model), a framework that reformulates species-level molecular dynamics as a symbolic temporal language modeling problem. Reactive MD trajectories are discretized into sequences of molecular events, where each token represents a chemical species augmented with its persistence duration, enabling standard autoregressive LLMs to learn compositional evolution over time through efficient fine-tuning. A key component of EvoMD-LLM is temporal scaffolding, which treats event duration as an explicit linguistic token and serves as a structured inductive bias, significantly reducing invalid or hallucinated molecular outputs compared to conventional sequence modeling approaches. We evaluate EvoMD-LLM on multiple temporal prediction tasks, achieving up to 66.14% accuracy and consistently outperforming sequential neural networks and language-based baselines. Beyond quantitative improvements, we qualitatively observe that the model is capable of generating interpretations for its own predictions by incorporating relevant chemical knowledge, even though it was not explicitly supervised with paired trajectory-explanation data. These results demonstrate that symbolic temporal language modeling provides an effective framework for grounding LLMs in dynamic physical simulations.
整列しているが壊れやすい: ゼロ次最適化による LLM の安全性の堅牢性の強化
大規模言語モデル (LLM) の安全性調整は、一般的な実用性を維持しながら、有害または危険な動作を減らすことを目的としています。しかし、最近の調査結果では、アライメントの効果は脆弱である可能性があることが明らかになりました。パラメータ ノイズ、アクティベーション ノイズ、量子化などのアライメント後の軽量操作により、意図した安全動作が容易に弱まる可能性があります。堅牢性を向上させるためのこれまでの取り組みは、主にデータのキュレーション、修正された調整目標、安全性が重要なパラメータの特定に焦点を当てており、オプティマイザ自体の役割はほとんど解明されていませんでした。この論文では、私たちはベース オプティマイザーの観点から安全調整の堅牢性を初めて研究しました。このオプティマイザ中心の考え方は、当然のことながら 0 次最適化を指します。これは、摂動下での安全性調整を評価することによってロバスト性指向のシグナルを提供します。この洞察に基づいて、最初に標準的な 1 次の安全性調整を実行し、次に 0 次の改良を適用して堅牢性を向上させるハイブリッド フレームワークを提案します。理論的にも経験的にも、少数のゼロ次改良ステップだけで安全性の調整を維持しながらロバスト性を向上できることが示されています。 0 次リファインメントの固有の摂動ベースの評価を利用して層ごとのロバスト性感度を推定することで、0 次リファインメントの効率をさらに向上させ、リファインメント プロセスが適度なトレーニング オーバーヘッドでロバスト性が重要な層の更新を集中できるようにします。
原文 (English)
Aligned but Fragile: Enhancing LLM Safety Robustness via Zeroth-Order Optimization
Safety alignment for large language models (LLMs) aims to reduce harmful or unsafe behavior while preserving general utility. However, recent findings reveal that alignment effects can be fragile: lightweight post-alignment manipulations, such as parameter noise, activation noise, or quantization, can easily weaken the intended safety behavior. Prior efforts to improve robustness have primarily focused on data curation, modified alignment objectives, and safety-critical parameter identification, leaving the role of the optimizer itself largely unexplored. In this paper, we are the first to study the robustness of safety alignment from the perspective of the base optimizer. This optimizer-centric view naturally points to zeroth-order optimization, which provides a robustness-oriented signal by evaluating safety alignment under perturbations. Based on this insight, we propose a hybrid framework that first performs standard first-order safety alignment and then applies zeroth-order refinement to improve robustness. Both theoretically and empirically, we show that only a few zeroth-order refinement steps can enhance robustness while preserving safety alignment. We further improve the efficiency of zeroth-order refinement by exploiting its inherent perturbation-based evaluations to estimate layer-wise robustness sensitivity, enabling the refinement process to concentrate updates on robustness-critical layers with modest training overhead.
ペルソナプロンプトが実際に役立つのはいつですか? LLM におけるエキスパート ロール インジェクションの取得とメトリクス分析
ペルソナ プロンプトは大規模な言語モデルを操作するために広く使用されていますが、その実用的な価値は依然として不明です。これまでの研究では、集計スコアを使用してペルソナのプロンプトを評価することが多く、専門家の役割によるプロンプトが一貫して応答の品質を向上させるのか、それとも異なる品質の側面に沿って応答を変化させるのかを判断することが困難でした。私たちは、38 のエキスパートの役割と 6 つのドメインにわたる 1,140 件の自由形式の質問にわたる 4 つのプロンプト条件の制御された比較を通じてこの質問を研究します。つまり、役割プロンプトなし、一般的なドメイン専門家プロンプト、埋め込みベースの役割検索、および埋め込み検索と LLM ベースの役割選択を組み合わせたハイブリッド検索方法です。集計結果では、条件間の全体的な差異はわずかしか示されません。ただし、指標レベルの分析では、集計平均ではわかりにくい一貫したトレードオフが明らかになります。役割のプロンプトは体系的に専門知識の深さを増す一方で、明確さは低下します。これらの効果は普遍的ではなく、非常に条件付きです。役割のプロンプトは、助言的な質問や、構造化された専門家の枠組みやリスクコミュニケーションが本質的に価値のある医学や心理学などの分野で最も効果を発揮します。対照的に、ベースラインのプロンプトは、簡潔で平易な言葉での説明がより重要である、金融、法律、科学、技術の分野における概念的な質問や説明的な質問に対してより効果的です。さらに、ハイブリッド検索は、埋め込みのみの役割選択よりも大幅に向上しますが、より適切な役割検索では、より広範な専門知識の深さと明確さのトレードオフが排除されないことを示します。全体として、私たちの調査結果は、ペルソナプロンプトは能力を大幅に向上させるのではなく、主に反応特性を再形成すること、そしてその効果を理解するには複数の指標による評価が必要であることを示唆しています。
原文 (English)
When Does Persona Prompting Actually Help? A Retrieval and Metric Analysis of Expert Role Injection in LLMs
Persona prompting is widely used to steer large language models, yet its practical value remains unclear. Prior work often evaluates persona prompting using aggregate scores, making it difficult to determine whether expert-role prompting consistently improves response quality or instead changes responses along different quality dimensions. We study this question through a controlled comparison of four prompting conditions across 1,140 open-ended questions spanning 38 expert roles and six domains: no role prompt, a generic domain-expert prompt, embedding-based role retrieval, and a hybrid retrieval method combining embedding search with LLM-based role selection. Aggregate results show only small overall differences between conditions. However, metric-level analysis reveals a consistent tradeoff that aggregate averages obscure: role prompting systematically increases expertise depth while reducing clarity. These effects are highly conditional rather than universal. Role prompting performs best on advisory questions and in domains such as medicine and psychology, where structured expert framing and risk communication are intrinsically valuable. In contrast, baseline prompting performs better on conceptual and explanatory questions in finance, legal, science, and technology domains, where concise plain-language explanation is more important. We further show that hybrid retrieval significantly improves over embedding-only role selection, although better role retrieval does not eliminate the broader expertise-depth versus clarity tradeoff. Overall, our findings suggest that persona prompting primarily reshapes response characteristics rather than broadly improving capability, and that multi-metric evaluation is necessary for understanding its effects.
エージェントによる修正と意味評価による人間のような対話型音声認識を目指して
自動音声認識 (ASR) は、人間とコンピューターの対話の中核コンポーネントであり、LLM ベースのアシスタントおよびエージェントにとってますます重要なフロントエンドです。しかし、現在のほとんどの ASR システムは依然としてシングルパス パラダイムに従っており、人間のコミュニケーションとの整合性が低く、誤解は繰り返しの明確化と改良によって解決されます。この不一致により、意味に関わる重大なエラーが発生すると、修正することが困難になります。一方、WER や CER などのトークンレベルの指標は、このような問題を適切に反映できません。これらの制限に対処するために、\emph{Interactive ASR} をマルチターン改良タスクとして定式化し、シングルパス ASR フロントエンドとセマンティック修正、インテント ルーティング、推論ベースの編集を組み合わせた閉ループ フレームワークである \textbf{Agentic ASR} を提案します。さらに、LLM ベースのセマンティック評価指標である \textbf{文レベルのセマンティック エラー率} ($S^2ER$) を、スケーラブルで再現可能なベンチマークのための \textbf{インタラクティブ シミュレーション システム} とともに導入します。多言語、名前付きエンティティ集中型、およびコードスイッチングのベンチマークに関する実験では、反復的な対話によりセマンティック エラーが一貫して減少し、従来のトークン レベルのメトリクスよりも $S^2ER$ が大幅に増加することが示されました。人間と AI のアライメントとアブレーションの研究により、意味判断の信頼性と提案されたフレームワークの堅牢性がさらに検証されました。コードは https://interactiveasr.github.io/ で入手でき、ライブ デモは https://i-asr.sjtuxlance.com/ で入手できます。
原文 (English)
Towards Human-Like Interactive Speech Recognition With Agentic Correction and Semantic Evaluation
Automatic speech recognition (ASR) is a core component of human--computer interaction and an increasingly important front-end for LLM-based assistants and agents. However, most current ASR systems still follow a single-pass paradigm, which is poorly aligned with human communication, where misunderstandings are resolved through iterative clarification and refinement. This mismatch makes it difficult to correct meaning-critical errors once they occur. Meanwhile, token-level metrics such as WER or CER cannot adequately reflect such a problem. To address these limitations, we formulate \emph{Interactive ASR} as a multi-turn refinement task and propose \textbf{Agentic ASR}, a closed-loop framework that combines a single-pass ASR front-end with semantic correction, intent routing, and reasoning-based editing. We further introduce the \textbf{Sentence-level Semantic Error Rate} ($S^2ER$), an LLM-based semantic evaluation metric, together with an \textbf{Interactive Simulation System} for scalable and reproducible benchmarking. Experiments on multilingual, named-entity-intensive, and code-switching benchmarks show that iterative interaction consistently reduces semantic errors, with much larger gains in $S^2ER$ than in conventional token-level metrics. Human--AI alignment and ablation studies further validate the reliability of the semantic judge and the robustness of the proposed framework. The code is available at: https://interactiveasr.github.io/ and the live demo is available at https://i-asr.sjtuxlance.com/
有用性の呪い: DistractionIF を介したディストラクタの指示に対するロバスト性の逆スケーリング則
大規模言語モデル (LLM) は、エージェントおよび検索拡張生成 (RAG) システムに導入されることが増えており、外部から提供された参照テキストに対してユーザー指定のタスクを実行する必要があります。実際には、そのようなコンテキストは構造化されていないことが多く、編集コメントやシステム トレースなど、無害ではあるが指示のようなセマンティック ノイズで汚染されており、厳密にデータとして扱う必要があります。参照テキスト内のこのようなディストラクタ命令に対する堅牢性を評価するために設計されたベンチマークである DistractionIF を紹介します。幅広いモデルにわたって、一貫した逆スケーリング現象が観察されます。多くの場合、大きなモデルは堅牢性が低く、スケールが増加するにつれてパフォーマンスが最大 30 ポイント低下します。機構的には、私たちのパープレキシティ分析により、スケーリングによってロバストな動作と注意散漫な動作の間の確率的境界が侵食され、モデルがノイズを指示として過剰解釈する傾向がますます高まっていることが明らかになりました。これに対処するために、強化学習、特にグループ相対ポリシー最適化 (GRPO) がこの境界を回復し、一般的な命令追従能力を損なうことなく堅牢性を最大 15.5% 向上させることができることを実証します。私たちの調査結果は、参照に基づいたタスクにおける命令追従の堅牢性の重大なギャップを浮き彫りにし、大規模なデータと命令の厳密な分離を強制するための有望な道としての強化学習を確立します。
原文 (English)
The Curse of Helpfulness: Inverse Scaling Law in Robustness to Distractor Instructions via DistractionIF
Large Language Models (LLMs) are increasingly deployed in agentic and retrieval-augmented generation (RAG) systems, where they must execute user-specified tasks over externally provided reference text. In practice, such context is often unstructured and contaminated with benign but instruction-like semantic noise, such as editorial comments and system traces, which should be treated strictly as data. We introduce DistractionIF, a benchmark designed to evaluate robustness against such distractor instructions in reference text. Across a broad range of models, we observe a consistent inverse scaling phenomenon: larger models are often less robust, with performance dropping by up to 30 points as scale increases. Mechanistically, our perplexity analysis reveals that scaling erodes the probabilistic boundary between robust and distracted behaviors, making models increasingly prone to over-interpreting noise as instructions. To address this, we demonstrate that reinforcement learning, specifically Group Relative Policy Optimization (GRPO), can restore this boundary, improving robustness by up to 15.5% without compromising general instruction-following capability. Our findings highlight a critical instruction-following robustness gap in reference-grounded tasks and establish reinforcement learning as a promising path for enforcing strict data-instruction separation at scale.
MINDGAMES: マルチエージェント LLM の社会的および戦略的推論を評価するためのライブ アリーナ
大規模言語モデル (LLM) は対話型エージェントとして導入されることが増えていますが、拡張された対話における社会的および戦略的推論の能力はまだ十分に理解されていません。既存の評価は、静的なビネットや単一ゲームのベンチマークに依存しており、現実世界のマルチエージェント設定で要求される持続的で多面的な推論を捉えることができません。我々は、「心の理論」に関連する補完的推論の要求を運用する、LLM エージェント向けのマルチゲームアリーナおよび評価プラットフォームである Mindgames を紹介します。これは、隠された情報の下での信念の帰属、繰り返される戦略的相互作用を通じた敵対者のモデル化、知識の非対称性の下での協力的な推論、および社会的演繹における継続的な欺瞞です。 TextArena 上に構築された Mindgames は、統合されたインタラクション インターフェイス、TrueSkill ベースの評価、および 4 つのゲーム環境にわたる完全な軌跡のログを提供します。私たちは、主要な AI カンファレンスで主催された 2025 年の競争サイクルを通じて Mindgames をインスタンス化しました。このカンファレンスでは、Colonel Blotto、Iterated Prisoner's Dilemma、Codenames、Secret Mafia の 4 つのゲームにわたって 76 チームから提出された 944 人のエージェントが評価されました。私たちの分析では、エージェント レベルと評価レベルの両方の制限が明らかになりました。脆弱なルール遵守が依然として主要なボトルネックであり、最高パフォーマンスのシステムは明示的な構造足場に繰り返し依存しており、リーダーボードの有効性は環境によって大きく異なります。特に、失敗の多い環境では、戦略的能力と同じくらい相手のエラーに対する堅牢性が評価される可能性があり、シークレット マフィアはこのサイクルで顕著なエラーと生存の混乱を示します。私たちは、ターンレベルの観察、アクション、報酬を含む 29,571 のマルチエージェント ゲームのデータセットをリリースします。MG-Ref は、この分析で使用したのと同じエラー帰属レンズの下で、トップランクの低エラー Stage~II 提出物の凍結された参照プールに対して新しいエージェントを採点する決定論的なオフライン トーナメント プロトコルです。
原文 (English)
MINDGAMES: A Live Arena for Evaluating Social and Strategic Reasoning in Multi-Agent LLMs
Large language models (LLMs) are increasingly deployed as interactive agents, yet their capacity for social and strategic reasoning over extended interaction remains poorly understood. Existing evaluations rely on static vignettes or single-game benchmarks that cannot capture the sustained, multi-faceted reasoning that real-world multi-agent settings demand. We introduce Mindgames, a multi-game arena and evaluation platform for LLM agents that operationalizes complementary reasoning demands relevant to ``theory of mind'': belief attribution under hidden information, opponent modeling through repeated strategic interaction, cooperative inference under knowledge asymmetries, and sustained deception in social deduction. Built on TextArena, Mindgames provides a unified interaction interface, TrueSkill-based rating, and full trajectory logging across four game environments. We instantiate Mindgames through a 2025 competition cycle hosted at a major AI conference, which assessed 944 submitted agents from 76 teams across four games: Colonel Blotto, Iterated Prisoner's Dilemma, Codenames, and Secret Mafia. Our analysis surfaces both agent-level and evaluation-level limitations: brittle rule adherence remains a major bottleneck, top-performing systems repeatedly rely on explicit structural scaffolding, and leaderboard validity differs sharply across environments. In particular, failure-heavy environments can reward robustness to opponent errors as much as strategic ability, with Secret Mafia exhibiting a pronounced error-survival confound in this cycle. We release a dataset of 29,571 multi-agent games with turn-level observations, actions, and rewards, together with MG-Ref, a deterministic offline tournament protocol that scores new agents against a frozen reference pool of top-ranked, low-error Stage~II submissions under the same error-attribution lens used in this analysis.
Opt-Verifier: 両面検証による最適化モデリングのための LLM の力を解き放つ
数学的最適化モデルの構築はオペレーションズ リサーチ (OR) において重要ですが、人間のかなりの専門知識が必要です。最近の進歩では、大規模言語モデル (LLM) を利用してこのモデリング プロセスを自動化しています。しかし、既存の研究では、制約や変数の合理性、あるいは生成されたモデルに対する解の妥当性をチェックすることなく、生成された最適化モデルの正確性を検証するのに苦労することがよくあります。これにより、後続の検証と修正のステップが妨げられ、モデリングの精度が著しく損なわれます。この課題に対処するために、構造とソリューションの両方の観点からデュアルサイド検証 (Opt-Verifier) を備えた新しい LLM ベースのフレームワークを提案し、それによってモデリングの精度を向上させます。構造側の検証により、生成された最適化モデルのモデリング構造が元の問題の説明と一致し、問題の制約と要件が正確に把握されることが保証されます。一方、ソリューション側の検証では、ソリューションの妥当性を解釈して評価し、最適化モデルが論理的および数学的に適切であることを確認します。一般的なベンチマークでの実験により、私たちのアプローチにより精度が 20\% 以上向上することが実証されました。
原文 (English)
Opt-Verifier: Unleashing the Power of LLMs for Optimization Modeling via Dual-Side Verification
Building mathematical optimization models is critical in operations research (OR), while it requires substantial human expertise. Recent advancements have utilized large language models (LLMs) to automate this modeling process. However, existing works often struggle to verify the correctness of the generated optimization models, without checking the rationality of the constraints and variables or the validity of solutions to the generated models. This hampers the subsequent verification and correction steps, and thus it severely hurts the modeling accuracy. To address this challenge, we propose a novel LLM-based framework with Dual-side Verification (Opt-Verifier) from both structure and solution perspectives, thereby improving the modeling accuracy. The structure-side verification ensures that the modeling structure of the generated optimization models aligns with the original problem description, accurately capturing the problem's constraints and requirements. Meanwhile, the solution-side verification interprets and evaluates the solutions' validity, confirming that the optimization models are logically and mathematically sound. Experiments on popular benchmarks demonstrate that our approach achieves over 20\% improvement in accuracy.
Battery-Sim-Agent: LLM-Agent を活用した逆バッテリ パラメータ推定
バッテリーの忠実度の高い「デジタル ツイン」のパラメーター化は、バッテリーの革新のペースを妨げる、重要かつ困難な逆問題です。一般的な手法では、これをブラック ボックス最適化 (BBO) タスクとして定式化し、サンプル効率が低く、基礎となる物理学を認識しないアルゴリズムを採用します。この研究では、逆問題を推論タスクとして再構成する新しいパラダイムを導入し、忠実度の高いバッテリー シミュレーターを備えた閉ループで大規模言語モデル (LLM) エージェントを展開する最初のフレームワークである Battery-Sim-Agent を紹介します。このエージェントは人間の科学者のワークフローを模倣します。シミュレーターからの豊富なマルチモーダルなフィードバックを解釈し、矛盾を説明するために物理的に根拠のある仮説を形成し、構造化されたパラメーターの更新を提案します。さまざまなバッテリーの化学的性質、動作条件、難易度レベルにまたがる体系的に構築されたベンチマーク スイートでは、当社のエージェントは、正確なパラメーターを特定する点で、ベイジアン最適化などの強力な BBO ベースラインを大幅に上回ります。さらに、複雑な長期劣化フィッティングタスクにおけるフレームワークの機能を実証し、現実世界のバッテリーデータセットに対するその実用的な適用可能性を検証します。私たちの結果は、科学的発見とバッテリーパラメータ推定のための推論ベースのオプティマイザーとしての LLM エージェントの可能性を強調しています。
原文 (English)
Battery-Sim-Agent: Leveraging LLM-Agent for Inverse Battery Parameter Estimation
Parameterizing high-fidelity "digital twins" of batteries is a critical yet challenging inverse problem that hinders the pace of battery innovation. Prevailing methods formulate this as a black-box optimization (BBO) task, employing algorithms that are sample-inefficient and blind to the underlying physics. In this work, we introduce a new paradigm that reframes the inverse problem as a reasoning task, and present Battery-Sim-Agent, the first framework to deploy a Large Language Model (LLM) agent in a closed loop with a high-fidelity battery simulator. The agent mimics a human scientist's workflow: it interprets rich, multi-modal feedback from the simulator, forms physically-grounded hypotheses to explain discrepancies, and proposes structured parameter updates. On a systematically constructed benchmark suite spanning diverse battery chemistries, operating conditions, and difficulty levels, our agent significantly outperforms strong BBO baselines like Bayesian optimization in identifying accurate parameters. We further demonstrate the framework's capability in complex long-horizon degradation fitting tasks and validate its practical applicability on real-world battery datasets. Our results highlight the promise of LLM-agents as reasoning-based optimizers for scientific discovery and battery parameter estimation.
ParaTool: ツール表現をコンテキストからパラメータに移行
ツール呼び出しは、外部実行可能インターフェイスとの接地された対話を可能にすることで大規模言語モデル (LLM) を拡張し、それによって環境に連動した問題解決をサポートします。ただし、主流のインコンテキスト学習 (ICL) アプローチでは、通常、詳細なツールのドキュメントと使用例がコンテキストに直接組み込まれています。その結果、コンテキストの長さが長くなるにつれて、推論のオーバーヘッドが大きくなり、幻覚のリスクが高まります。逆に、チューニングベースの方法は一般的なツール呼び出し機能を向上させますが、多くの場合、以前に表示されたツールの特定の詳細を効果的に内部化することができないため、コンテキスト内のドキュメントへの依存関係が残ります。これらの制限に対処するために、各ツールを専用の読み込み可能なパラメーターのセットに投影するフレームワークである ParaTool を提案します。これらのパラメータ化されたツールの動的統合を装備することにより、LLM はコンテキスト内のドキュメントやサンプルに依存せずにツール呼び出しを実行できます。具体的には、私たちのアプローチは 3 つの段階で構成されます。(1) パラメトリック ツールの事前トレーニングでは、さまざまなツールの知識を独立したパラメーター モジュールにカプセル化します。 (2) ソフトツールの選択では、ゲートネットワークを使用して、関連するツールパラメータを動的に重み付けし、集計します。 (3) パラメトリック ツールの微調整では、トレーニングと推論のプロセスを調整するためにツール パラメーターを共同で更新します。 Stable ToolBench と BFCL の実験では、ParaTool が強力な ICL ベースのベースラインを大幅に上回り、計算の複雑さを軽減しながら優れたパフォーマンスを達成することが実証されました。
原文 (English)
ParaTool: Shifting Tool Representations from Context to Parameters
Tool calling extends large language models (LLMs) by enabling grounded interaction with external executable interfaces, thereby supporting environment-coupled problem solving. However, mainstream in-context learning (ICL) approaches typically incorporate detailed tool documentation and usage examples directly into the context. This results in substantial inference overhead and heightened risks of hallucination as the context length grows. Conversely, while tuning-based methods improve general tool-calling capabilities, they often fail to effectively internalize the specific details of previously seen tools, thereby retaining a dependency on in-context documentation. To address these limitations, we propose ParaTool, a framework that projects each tool into a dedicated, loadable set of parameters. By equipping a dynamic integration of these parameterized tools, the LLM can perform tool calling without relying on in-context documents or examples. Specifically, our approach consists of three stages: (1) parametric tool pre-training encapsulates the knowledge of different tools into independent parameter modules; (2) soft tool selection employs a gating network to dynamically weigh and aggregate relevant tool parameters; and (3) parametric tool fine-tuning jointly updates tool parameters to align the training and inference processes. Experiments on Stable ToolBench and BFCL demonstrate that ParaTool significantly outperforms strong ICL-based baselines, achieving superior performance while reducing computational complexity.
DeepTool: プロセス教師あり強化学習によるツール統合推論におけるインターリーブ審議の拡張
Tool-Integrated Reasoning (TIR) は、外部環境を活用して LLM 機能を拡張します。しかし、既存の方法には、戦略計画や自己修正に必要なツールの連続呼び出し中の熟慮が欠けています。 RL はこれを軽減しますが、ツール統合推論の従来のアプローチは、結果ベースの報酬がまばらであるために妨げられ、中間の推論ステップとツールの呼び出しを監視できません。これに対処するために、私たちは DeepTool を提案します。DeepTool は、各時点での思考、行動、観察の織り交ぜられたプロセス内で意図的な思考を拡張する新しいフレームワークです。 DeepTool では、まず、拡張思考をインターリーブ軌道に進化させ、敵対的な摂動を統合して堅牢性と自己修正を確保する合成パイプラインを導入します。次に、GRPO に基づくプロセス教師あり強化学習を考案します。これは、アクション中心のプロセス報酬を利用して、中間のインターリーブ思考を強化し、あらゆる場面で正確なツールの呼び出しを強制します。広範な実験により、DeepTool が優れたパフォーマンスを達成し、6 つのベンチマーク全体で Qwen2.5-7B を大幅に向上させることが実証されました (例: AIME24: 3.2% -> 40.4%、HMMT25: 0.0% -> 28.6%)。さらに、トークンの費用対効果分析により、インターリーブ思考の有用性が確認され、DeepTool のパフォーマンスとトークン効率の最適なバランスが実証されました。
原文 (English)
DeepTool: Scaling Interleaved Deliberation in Tool-Integrated Reasoning via Process-Supervised Reinforcement Learning
Tool-Integrated Reasoning (TIR) extends LLM capabilities by leveraging external environments. However, existing methods lack the deliberation during sequential tool invocation required for strategic planning and self-correction. While RL mitigates this, conventional approaches for Tool-Integrated Reasoning are hindered by sparse outcome-based rewards, failing to supervise intermediate reasoning steps and tool invocations. To address this, we propose DeepTool, a novel framework that scales deliberate thinking within the interleaved process of thinking, action, and observation at each turn. In DeepTool, we first introduce a synthesis pipeline that evolves extended thinking into interleaved trajectories, integrating adversarial perturbations to ensure robustness and self-correction. Secondly, we devise Process-Supervised Reinforcement Learning based on GRPO, which utilizes an Action-Centric Process Reward to reinforce intermediate interleaved thinking and enforce precise tool invocation at every turn. Extensive experiments demonstrate that DeepTool achieves superior performance, boosting Qwen2.5-7B significantly across six benchmarks (e.g., AIME24: 3.2% -> 40.4% and HMMT25: 0.0% -> 28.6%). Furthermore, the token cost-effectiveness analysis confirms the utility of interleaved thinking, demonstrating DeepTool's optimal balance between performance and token efficiency.
季節空間事前分布と LLM ベースのアクティビティ チェーン生成を使用した GPS 強化型観光モビリティ モデリング
観光客の移動は、都市交通計画にとって明らかな課題となっています。居住者の通勤とは異なり、観光客の旅行は主に非日常的で、魅力を重視しており、旅行の目的、旅行の季節、旅行メンバーの構成に非常に敏感です。既存のアプローチは、個別のスケジュールを生成せずに集合的な観光客の空間パターンを測定するか、旅行期間の条件付け、月ごとに異なるアトラクションの需要、家庭の共同旅行ルールなどの観光客固有の構造を持たずにモビリティを統合するかのいずれかです。これらの課題に対処するために、GPS と調査データから導出された月条件付き空間事前分布、観光客人口統計からの旅行範囲予測、距離的に実行可能な病棟順序の割り当て、および世帯と空間の制約の下での LLM ベースのアクティビティ チェーン生成を組み合わせた 4 段階のシミュレーション フレームワークを提案します。 GPS データは、月条件付けされた空間事前情報としてプライバシーを保護する集約形式でのみ使用され、個々の痕跡は保持または公開されません。東京の観光に関する実験では、GPS ベースの観光客コホート抽出により、調査参照と一致する空間訪問シグネチャが復元され、私たちのフレームワークは、人口統計的に調整された合成スケジュールを生成し、その区レベルの訪問シェアが調査分布と滞在ポイントから得られる月次訪問パターンの両方と密接に一致することが実証されました。この結果は、観光客の移動モデリングに対する地理的根拠に基づいた、人口統計を意識したアプローチとしてのフレームワークの有効性を示しています。
原文 (English)
GPS-Enhanced Tourist Mobility Modeling with Seasonal Spatial Priors and LLM-Based Activity Chain Generation
Tourist mobility poses a distinct challenge for urban transportation planning. Unlike resident commuting, tourist travel is largely non-routine, attraction driven, and highly sensitive to trip purpose, travel season, and trip member composition. Existing approaches either measure aggregate tourist spatial patterns without generating individual schedules, or synthesize mobility without tourist specific structure such as trip duration conditioning, month varying attraction demand, and household co-travel rules. To address these challenges, we propose a four stage simulation framework combining month conditioned spatial priors derived from GPS and survey data, trip extent prediction from tourist demographics, distance feasible ward sequence assignment, and LLM-based activity chain generation under household and spatial constraints. GPS data are used only in privacy preserving aggregated form as month conditioned spatial priors, with no individual traces retained or exposed. Experiments on tourism in Tokyo demonstrate that the GPS based tourist cohort extraction recovers spatial visitation signatures consistent with survey references, and our framework produces demographically aligned synthetic schedules whose ward-level visitation shares align closely with both survey distributions and staypoint derived monthly visitation patterns. The results demonstrate the framework's effectiveness as a geographically grounded, demographically aware approach to tourist mobility modeling.
攻撃の成功率を超えて: LLM の安全性の失敗に対する時間ロジットの観測可能性
攻撃成功率 (ASR) は、生成の最後に各脱獄を単一の「はい/いいえ」ラベルで評価し、失敗が発生したかどうかを示しますが、失敗がどのように展開したかは示しません。同様に有害な出力を生成する 2 つの攻撃は、まったく異なる経路をたどった可能性があり、ASR ではそれらを区別できません。これらの隠されたパスをロジットだけから観察できるようにします。 Temporal Logit Observability (TLO) は、デコード中にコンプライアンス拒否マージンを監視し、各モデル攻撃条件をキャリブレーションされた 2D 平面上に配置する、トレーニング不要の診断です。設計上、このプレーンは、まったく異なる理由で成功する攻撃の中で、ASR が最も有益でない場合に最も有益です。 4 つの調整された LLM と 3 つのジェイルブレイク パラダイムにわたって、ほぼ同一の ASR による攻撃は、平面上の明らかに異なるポイントに到達します。同じモデルでも、異なる時間的パターンによって失敗する可能性があります。ジオメトリは、ほとんどの条件で隠れ状態からの拒否方向プローブと一致します。1 つのモデルは、固定語彙アプローチの限界を示しています。 TLO から派生したシンプルな早期停止ルールにより、単純な無害なクエリで誤った警告が発生することなく、ジェイルブレイクの成功率が半分以上削減されます。安全性評価では、障害が発生したかどうかだけでなく、障害がいつどのように展開したかを報告する必要があります。 TLO により、最初の 2 つはロジットのみから観察可能になります。
原文 (English)
Beyond Attack Success Rate: Temporal Logit Observability for LLM Safety Failures
Attack Success Rate (ASR) evaluates each jailbreak with a single yes/no label at the end of generation, telling us whether a failure happened but not how it unfolded. Two attacks that produce equally harmful outputs may have followed completely different paths, and ASR cannot tell them apart. We make those hidden paths observable from logits alone. Temporal Logit Observability (TLO) is a training-free diagnostic that watches a compliance-refusal margin during decoding and places each model-attack condition on a calibrated 2D plane. By design, this plane is most informative exactly where ASR is least informative: among attacks that succeed for genuinely different reasons. Across four aligned LLMs and three jailbreak paradigms, attacks with nearly identical ASR land at clearly different points on the plane: the same model can fail through different temporal patterns. The geometry matches refusal-direction probes from hidden states on most conditions, with one model showing the limit of our fixed-lexicon approach. A simple early-stop rule derived from TLO cuts successful jailbreaks by more than half, without false alarms on plain benign queries. Safety evaluation should report when and how a failure unfolds, not only whether it occurred. TLO makes the first two observable from logits alone.
バイキングメム: ステートフル LLM ベースのアプリケーション用のメモリ ベース管理システム
大規模言語モデルは対話型アプリケーションに革命をもたらしました。ただし、コンテキスト ウィンドウが有限であるため、ステートフルで長期的な対話を維持する上で重要なデータ管理の課題が生じます。既存の記憶アプローチは、多くの場合、不完全な記憶につながる単純な抽出方法に依存しているか、チャットボットなど、単一のユースケースに合わせて調整された厳格な単一目的の記憶抽出プロンプトを使用しています。その結果、汎用性に欠け、さまざまな下流タスクにわたってパフォーマンスが低下します。このギャップを埋めるために、長期的なインタラクションの永続的な状態を管理するための新しいデータ管理パラダイムであるメモリ ベースを導入します。これは 3 つの核となる原則によって特徴付けられます。生の情報ストリームから価値の高い記憶を選択的に抽出することです。固有のステートフルネスと進化。メモリ内容が徐々に要約、修正され、時間的に重み付けされて最近のインタラクションを優先します。そして、教育、推奨、エージェントの記憶など、さまざまなアプリケーションにわたる堅牢な転送性を実現するために設計された一般化可能な抽象化パラダイム。この基盤に基づいて、VikingDB ベクトル エンジン上に実装されたエンドツーエンドのメモリ ベース管理システム、VikingMem を紹介します。バイキングメムは、相互接続されたイベントとエンティティの抽象化を通じてこのパラダイムを具体化します。エンティティはイベントによって動的に更新され、ステートフルな進化を実現しながら、複雑な情報ストリームを選択的に処理するイベント中心のメモリ抽出を特徴としています。トピックごとのタイムラインと時間加重リコールによる時間圧縮を使用して、システムは高レベルの要約記憶を段階的に生成し、最近の項目を優先し、古い項目を圧縮してフェードします。長期メモリベンチマークの広範な評価により、VikingMem は対話型アプリケーションに不可欠な低レイテンシを維持しながら、メモリ取得効率においてベースラインを最大 30% 上回っていることが実証されています。
原文 (English)
VikingMem: A Memory Base Management System for Stateful LLM-based Applications
Large Language Models have revolutionized interactive applications; however, their finite context windows pose a critical data management challenge for maintaining stateful, long-term interactions. Existing memory approaches often rely on simplistic extraction methods that lead to incomplete memories or use rigid, single-purpose memory extraction prompts tailored to a single use case, such as chatbots. Consequently, they lack generalizability and perform poorly across diverse downstream tasks. To bridge this gap, we introduce the Memory Base, a novel data management paradigm for managing the persistent state of long-term interactions. It is characterized by three core principles: selective extraction of high-value memories from raw information streams; inherent statefulness and evolution, where memory content is progressively summarized, corrected, and temporally weighted to prioritize recent interactions; and a generalizable abstraction paradigm designed for robust transferability across diverse applications, including education, recommendation, and agent memory. Building on this foundation, we present VikingMem, an end-to-end Memory Base Management System implemented on the VikingDB vector engine. VikingMem materializes this paradigm through interconnected event and entity abstractions. It features event-centric memory extraction to selectively handle complex information streams, while entities are dynamically updated by events to achieve stateful evolution. Using temporal compression via a topic-wise timeline and time-weighted recall, the system progressively produces high-level summary memories, prioritizes recent items, and compresses and fades older ones. Extensive evaluations on long-term memory benchmarks demonstrate that VikingMem outperformes baselines by up to 30% in memory retrieval effectiveness while maintaining the low latency essential for interactive applications.
LLM が進化したシンボリック AI プランニングのためのドメインに依存しないヒューリスティック
ヒューリスティック検索は、シンボリック AI 計画における主要なパラダイムであり、最も強力なヒューリスティックは、計画研究者による数十年の研究の結果です。最近の研究では、大規模言語モデル (LLM) が個々の計画ドメインのヒューリスティックを設計できることが示されていますが、これまでのところ、LLM によって生成されたヒューリスティックが任意の計画タスクに機能することはありません。この論文では、進化的探索を使用して、手作業でエンジニアリングされた最先端技術を超える、LLM によって生成された初めてのドメインに依存しないヒューリスティックを生成します。 C++ で書かれた親ヒューリスティックを LLM に変更させ、情報とスピードを重視した MAP-Elites アーカイブに候補を保存し、カバレッジと解決時間をブレンドすることで適合性スコアを計算します。進化したプログラムを状況に合わせて配置するために、情報と速度のトレードオフに関して手作業で設計された広範なヒューリスティックのベンチマークをさらに行いました。これは、私たちの知る限りではこれまでに行われたことがありません。目に見えないテスト領域では、当社の最も進化したヒューリスティックは、最強のベースラインよりも多くのタスクを解決し、当社の完全なヒューリスティック スイートは、上記のトレードオフのパレート フロンティアにまたがります。また、結果として得られるプログラム自体が FF バリアントである場合でも、些細なブラインド ヒューリスティックからのシード進化は、強力な FF ヒューリスティックからのシードよりも優れたパフォーマンスを示し、LLM 推論の努力は、候補の品質よりも候補がコンパイルする頻度にはるかに影響を与えることもわかりました。進化したプログラムはプレーンな C++ であるため、既存のプランナーにドロップイン置換として組み込まれ、基礎となる検索の健全性と完全性の保証を継承します。
原文 (English)
LLM-Evolved Domain-Independent Heuristics for Symbolic AI Planning
Heuristic search is the dominant paradigm in symbolic AI planning, and the strongest heuristics are the result of decades of work by planning researchers. Recent work has shown that large language models (LLMs) can design heuristics for individual planning domains, but no LLM-generated heuristic has so far worked on arbitrary planning tasks. In this paper, we use evolutionary search to produce the first LLM-generated domain-independent heuristics that exceed the hand-engineered state of the art. We let an LLM mutate parent heuristics written in C++, store candidates in a MAP-Elites archive keyed on informedness and speed and calculate fitness scores by blending coverage with solving time. To place the evolved programs in context, we additionally benchmark a broad set of hand-engineered heuristics on their informedness-speed tradeoff, which to our knowledge has not been done before. On unseen testing domains, our best evolved heuristic solves more tasks than even the strongest baseline, with our full heuristic suite spanning the Pareto frontier of said tradeoff. We also find that seeding evolution from the trivial blind heuristic outperforms seeding from the strong FF heuristic, even when the resulting program is itself an FF variant, and that LLM reasoning effort affects how often candidates compile much more than the quality of those that do. Because the evolved programs are plain C++, they slot into existing planners as drop-in replacements and inherit the soundness and completeness guarantees of the underlying search.
素早く考え、スマートに話す: 構造化された健康テキスト生成のための決定論的計算とニューラル計算の分割
大規模言語モデル (LLM) は、ウェアラブル時系列、バイオマーカー、バイタル、ケア管理ログなどの構造化された記録から健康テキストを生成するために使用されることが増えています。定期的な健康出力の場合、流暢さだけでは十分ではありません。システムはソース データに忠実であり、入手可能な証拠で説明的主張を根拠付け、規定されたポリシーに従い、機械可読出力を出力し、繰り返し使用できるほど安価に実行する必要があります。私たちは、構造化された健康生成におけるどの責任を、実行時の LLM プロンプトではなく決定論的な計算にするべきかを尋ねます。 Think Fast, Talk Smart という睡眠と健康に関する洞察パイプラインを導入します。このパイプラインでは、1 回の制限された LLM ライター呼び出しの前に、決定論的なコードが繰り返し分析を実行します。 280 のユーザー泊と 6 つのモデルにわたって、構造化されたゼロショットおよび少数ショットのワンコール ベースラインよりも低い数値エラー、より低い指示コンプライアンス エラー、およびより低いエンドツーエンド コストを実現します。レイヤの置換により、コントラクト固有の障害が明らかになります。LLM の比較により数値エラーが発生し、LLM のランキングによりポリシーの選択が低下し、LLM の帰属によりサポートされていない因果関係のある言語が増加し、上流の事実が決定的になった後でも、LLM で生成されたライター インターフェイスによりエラーが再導入されます。この結果は、より広範な設計ルールをサポートします。つまり、コードに繰り返しの分析を持たせ、LLM に制限されたインターフェイス内で検証済みの事実を表現させます。
原文 (English)
Think Fast, Talk Smart: Partitioning Deterministic and Neural Computation for Structured Health Text Generation
Large language models (LLMs) are increasingly being used to generate health text from structured records such as wearable time series, biomarkers, vitals, and care-management logs. For recurring health outputs, fluency is not enough: systems must remain faithful to source data, ground explanatory claims in available evidence, follow stated policies, emit machine-readable outputs, and run cheaply enough for repeated use. We ask which responsibilities in structured health generation should be deterministic computation rather than runtime LLM prompting. We introduce Think Fast, Talk Smart, a sleep-health insight pipeline in which deterministic code performs recurring analysis before one bounded LLM writer call. Across 280 user-nights and six models, achieves lower numeric error, lower instruction-compliance error, and lower end-to-end cost than structured zero-shot and few-shot one-call baselines. Layer replacement reveals contract-specific failures: LLM comparison raises numeric error, LLM ranking degrades policy selection, LLM attribution increases unsupported causal language, and an LLM-generated writer interface reintroduces errors even after upstream facts are deterministic. The results support a broader design rule: let code own recurring analysis, and let LLMs express verified facts within bounded interfaces.
PTCG ベンチ: LLM エージェントはポケモン トレーディング カード ゲームをマスターできますか?
戦略的に複雑なボード ゲームを考えると、人間のプレイヤーは数ラウンドをプレイした後、すぐに戦略を考案することを学びます。自律型エージェントは、現実的な対話型環境でも同様の機能を必要としますが、既存のエージェントのベンチマークでは、そのような戦略的で進化する意思決定シナリオを完全に把握できないことがよくあります。我々は、ポケモン トレーディング カード ゲーム (PTCG) に基づいて構築されたベンチマークである PTCG ベンチを紹介します。このベンチマークは、(1) 単一の複雑な環境内での意思決定パフォーマンス、(2) 蓄積された経験を通じて自己進化する能力という 2 つの相補的なレベルで LLM エージェントを評価します。さらに、モデルの能力と混同することなくエージェントのパフォーマンスをより適切に解釈するためのモジュラー ハーネス アブレーションも含まれています。私たちの実験では、LLM エージェントは重要なゲームプレイ パフォーマンスを達成できるものの、持続的かつ安定した自己進化は依然として困難であり、パフォーマンスはハーネスの設計に影響されることが示されました。 PTCG-Bench によって、現実的なインタラクティブ環境におけるハーネス認識型の自己進化エージェントに関する将来の研究が促進されることを期待しています。
原文 (English)
PTCG-Bench: Can LLM Agents Master Pok\'emon Trading Card Game?
Given a strategically complex board game, human players can quickly learn to devise strategies after playing a few rounds. Autonomous agents require similar capabilities in realistic interactive environments, yet existing agent benchmarks often fail to fully capture such strategic and evolving decision-making scenarios. We present PTCG-Bench, a benchmark built on the Pok'{e}mon Trading Card Game (PTCG) that evaluates LLM agents at two complementary levels: (1) their decision-making performance within a single complex environment, and (2) their ability to self-evolving through accumulated experience. We further include a modular harness ablation to better interpret agent performance without conflating it with model capability. Our experiments show that, although LLM agents can achieve non-trivial gameplay performance, sustained and stable self-evolution remains challenging, and performance is sensitive to harness design. We hope that PTCG-Bench will facilitate future research on harness-aware and self-evolving agents in realistic interactive environments.
TRACE: LLM CoT 評価の構成要素によるトゥールミンベースの推論評価
大規模言語モデル (LLM) からのオープンエンドの出力を評価することは、グランド トゥルースがないため依然として困難です。既存の指標は、最終的な答えの精度や表面レベルの統計に依存しており、推論プロセス自体は検討されていません。思考連鎖 (CoT) 推論プロセスを分析する指標である TRACE (Toulmin-based Reasoning Assessment through Constructive Elements) を紹介します。 TRACE は、結果を判断するのではなく、トゥールミンの議論理論とフラベルのメタ認知フレームワークを統合して推論の構造を評価することにより、議論がどのように構築されるかを検査します。 7 つの推論モデルにわたる 26.3K の QA サンプルの実験では、ベンチマーク精度 (r=0.74) との強い相関関係が示されています。さらに、TRACE は強化学習の報酬信号として効果的であり、精度のみのベースラインを上回ります。これらの結果を総合すると、論理的に健全な推論がより質の高い答えにつながることを示しています。したがって、TRACE は、オープンエンド出力を評価するための補足的なメトリックとして機能します。コードは https://github.com/hyyangkisti/trace で入手できます。
原文 (English)
TRACE: Toulmin-based Reasoning Assessment through Constructive Elements for LLM CoT Evaluation
Evaluating open-ended outputs from large language models (LLMs) remains challenging due to the absence of ground truth. Existing metrics rely on final-answer accuracy or surface-level statistics, leaving the reasoning process itself unexamined. We introduce TRACE (Toulmin-based Reasoning Assessment through Constructive Elements), a metric that analyzes Chain-of-Thought (CoT) reasoning processes. Rather than judging outcomes, TRACE inspects how arguments are constructed by integrating Toulmin's argumentation theory with Flavell's metacognitive framework to assess reasoning structure. Experiments on 26.3K QA samples across 7 reasoning models show strong correlation with benchmark accuracy (r=0.74). Furthermore, TRACE is effective as a reinforcement learning reward signal, outperforming accuracy-only baselines. Together, these results indicate that logically sound reasoning leads to higher-quality answers. TRACE thus serves as a complementary metric for evaluating open-ended outputs. Code is available at https://github.com/hyyangkisti/trace.
GRASP: 自己改善型 LLM エージェントのためのゲート回帰認識スキル提案者
構造化された環境で動作する LLM エージェントは、会話的な方法ではなく操作的な方法で失敗し、信頼性は環境の手順に関する知識に依存します。以前の自己改善方法では、新しい項目が以前の正しい動作を保持しているかどうかを確認せずに自然言語ガイダンスを蓄積するため、ある軌道を修正したメモが静かに別の軌道に後退する可能性があります。 GRASP (Gated Regression-Aware Skill Proposer) を導入します。これは、エージェントの改善を制限されたスキル ライブラリへの一連の編集として扱い、ハード回帰バジェットの下でバランスのとれたホールドアウト プローブで純改善が得られた場合にのみ各候補者を許可します。 2 つの FHIR ベースの臨床ベンチマークで 5 つの基本モデル (gpt-oss-120b、DeepSeek V4 Flash、Gemini 3.1 Flash Lite、GPT-4.1、GPT-5.4) にわたって GRASP を評価します。 MedAgentBench では、GRASP は gpt-oss-120b を 40.6% から 88.8% に引き上げ、5 つの自己改善ベースラインのうち最も強力なものを 21.0 ポイント上回り、他のすべてのベース モデルを 17.2 から 40.3 ポイント改善しました。アブレーションでは、スキル ライティング自体によるものではなく、比較提案の生成、承認ゲート、およびハード リグレッション バジェットによって利益が得られると考えられます。検証がなければ、スキルを使用しないのと同じです。このメカニズムは臨床領域を超えて一般化され、4 つの非臨床環境のうち 3 つで薬剤を改善し、アクション スペースがオープンエンドである場合にのみフラットなままになります。凍結されたライブラリはモデル間で転送され、より強力なモデルからのスキルは弱い実行者を自ら学習した以上に向上させますが、その逆はそうではなく、ゲートされていないベースラインでは再現できない非対称性です。
原文 (English)
GRASP: Gated Regression-Aware Skill Proposer for Self-Improving LLM Agents
LLM agents acting in structured environments fail in operational rather than conversational ways, and reliability depends on procedural knowledge of the environment. Prior self-improvement methods accumulate natural-language guidance without checking that each new item preserves previously correct behavior, so a note that fixes one trajectory can silently regress another. We introduce GRASP (Gated Regression-Aware Skill Proposer), which treats agent improvement as a sequence of edits to a bounded skill library, admitting each candidate only if it produces a net improvement on a balanced held-out probe under a hard regression budget. We evaluate GRASP across five base models (gpt-oss-120b, DeepSeek V4 Flash, Gemini 3.1 Flash Lite, GPT-4.1, GPT-5.4) on two FHIR-based clinical benchmarks. On MedAgentBench, GRASP lifts gpt-oss-120b from 40.6% to 88.8%, exceeds the strongest of five self-improvement baselines by 21.0 points, and improves every other base model by 17.2 to 40.3 points. Ablations attribute the gain to comparative proposal generation, the acceptance gate, and the hard regression budget rather than to skill writing itself, which without validation is no better than using no skills. The mechanism generalizes beyond the clinical domain, improving agents on three of four non-clinical environments and remaining flat only where the action space is open-ended. Frozen libraries transfer across models, where skills from a stronger model improve weaker executors beyond what they learn for themselves while the reverse does not, an asymmetry that no ungated baseline reproduces.
NICE: LLM のソーシャル インテリジェンスのための理論に基づいた診断ベンチマーク
大規模言語モデル (LLM) が感情的な交友関係や顧客サービスなどの社会的コンテキストに適用されることが増えているため、人間と AI の対話の品質と安全性にとって、LLM の社会的知性を測定することが重要になっています。しかし、既存のソーシャルインテリジェンスベンチマークには、社会的能力を統一的な構造に整理する統一的なフレームワークが欠けているため、きめ細かい診断を行うことができません。社会理論に基づいた初の総合的な診断評価を構築するために、私たちはまず、心理測定の原則に基づいた文献レビューと多段階の専門家による検証を通じて、社会的インテリジェンスのフレームワークを構築します。結果として得られるフレームワークには 4 つのカテゴリと 11 のディメンションが含まれており、それぞれが詳細な機能ファセットによってさらに指定されます。このフレームワークに基づいて、代表的な中国の文脈を通じて運用される 137 項目の診断ベンチマークである NICE (規範、相互作用、認知、経験) を紹介します。 5 つのフロンティア LLM と人間の参照グループ全体で、モデルは総合精度でより高いスコアを示していますが、コミュニケーションにおいて一貫した弱点を示しており、フレームワークはこれを 3 つの特定の能力面 (マルチターン コミュニケーション、非言語コミュニケーション、同期性) に限定しています。したがって、NICE は、LLM の社会的に重大な弱点の理論に基づいた診断に向けて、社会的インテリジェンスの評価を再構築します。
原文 (English)
NICE: A Theory-Grounded Diagnostic Benchmark for Social Intelligence of LLMs
As large language models (LLMs) are increasingly applied in social contexts such as emotional companionship and customer service, measuring their social intelligence has become critical to the quality and safety of human-AI interaction. However, existing social intelligence benchmarks lack a unified framework that organizes social abilities into a unified structure, and therefore cannot enable fine-grained diagnosis. To build the first holistic diagnostic evaluation grounded in social theory, we first construct a social intelligence framework through a literature review and multi-stage expert validation guided by psychometric principles. The resulting framework includes 4 categories and 11 dimensions, each further specified by fine-grained capability facets. Building on this framework, we introduce NICE (Norm, Interaction, Cognition, Experience), a diagnostic benchmark of 137 items operationalized through representative Chinese contexts. Across 5 frontier LLMs and a human reference group, models score higher in aggregate accuracy yet show a consistent weakness in Communication, which the framework localizes to 3 specific capability facets: multi-turn communication, nonverbal communication, and synchrony. NICE thus reframes social intelligence evaluation toward theory-grounded diagnosis of socially consequential weaknesses in LLMs.
好みに基づく最大満足度による大規模言語モデルによる信頼性の高い推論
大規模言語モデル (LLM) は自然言語の理解には優れていますが、ロボット工学などの分野でよく発生する、複数の制約やユーザー定義の設定を伴う最適化タスクには苦労します。我々は、LLM がコード生成を通じて推論を外部化するハイブリッド推論アプローチを提案します。自然言語の問題の記述が与えられると、LLM はユーザー定義の制約と設定を設定ベースの最大満足度 (MaxSAT) 問題としてエンコードする Python コードを生成し、これは正確な MaxSAT ソルバーによって解決されます。正確性を保証するために、モデル生成コードによって返されるソリューションは、標準的な MaxSAT エンコーディングに対して実行可能性と最適性が個別に検証され、異なるエンコーディングと複数の最適なソリューションが可能になります。私たちは、好みに基づく推論タスクの 3 つのファミリーに対して、オープンソースとクローズドアクセスの LLM の両方を使用してアプローチを評価し、同じモデルを使用する直接応答ベースライン、思考連鎖ベースライン、および思考プログラムベースラインと比較します。これらのベースラインが実現可能なソリューションを生み出すことはほとんどありませんが、MaxSAT ベースのパイプラインは大幅に高い承認率を達成し、場合によっては 80% を超えます。私たちの結果は、LLM 駆動のコード生成と設定ベースの MaxSAT を組み合わせることで、生成されたエンコーディングに関してソルバー検証可能な最適化が可能になり、独立して検証された参照セマンティクスの下での正確性が大幅に向上することを示しています。
原文 (English)
Reliable Reasoning with Large Language Models via Preference-Based Maximum Satisfiability
Large Language Models (LLMs) excel at understanding natural language but struggle with optimisation tasks involving multiple constraints and user-defined preferences, which commonly arise in domains such as robotics. We propose a hybrid reasoning approach in which LLMs externalise reasoning through code generation. Given a natural language problem description, an LLM generates Python code that encodes user-defined constraints and preferences as a preference-based Maximum Satisfiability (MaxSAT) problem, which is then solved by an exact MaxSAT solver. To ensure correctness, solutions returned by the model-generated code are independently verified for feasibility and optimality against a canonical MaxSAT encoding, allowing for different encodings and multiple optimal solutions. We evaluate our approach using both open-source and closed-access LLMs on three families of preference-based reasoning tasks, and compare it against direct-answer, chain-of-thought, and program-of-thought baselines using the same models. While these baselines rarely produce feasible solutions, the MaxSAT-based pipeline achieves substantially higher acceptance rates, in some cases exceeding 80%. Our results demonstrate that LLM-driven code generation combined with preference-based MaxSAT enables solver-verifiable optimisation with respect to generated encodings, and substantially improves correctness under independently verified reference semantics.
BitTP: エッジデバイス向けの BitLLM を使用した軽量軌道予測モデル
軌道予測は自律システムの基本的なタスクであり、マルチエージェントの相互作用と意図についての複雑な推論が必要です。最近、大規模言語モデル (LLM) がこのタスクに採用されています。これは、強力な文脈上の推論と、解釈可能な言語ベースの軌跡表現を提供するためです。ただし、これらの LLM ベースの予測子はメモリと計算量が非常に多いため、自律ロボットのオンボード コンピューターなど、リソースに制約のあるエッジ デバイスに導入することが困難になります。このギャップを埋めるために、LLM ベースの軌道予測器を軽量のビット線形アーキテクチャに変換する BitTP を提案します。 1.58 ビット (BitTP-Weight) への重みのみの量子化が最適であることを示します。重要なのは、アクティベーションを量子化すると時空間推論の深刻な劣化と不安定性につながるため、アクティベーションは完全な精度を維持する必要があります。経験的に、BitTP-Weight は、完全精度 (BF16) LLM ベースラインを超える予測品質を維持するだけでなく改善し、平均して ADE を 14.29%、FDE を 20.97% 削減し、同時に他の量子化方法と比較してメモリ使用量と推論遅延を削減します。これらの結果は、慎重に設計された量子化が効果的な正則化機能として機能し、洗練された LLM ベースの推論をエッジ デバイス上で実際に展開できることを示しています。コードは https://github.com/MintCat98/BitTP で入手できます。
原文 (English)
BitTP: The Lightweight Trajectory Prediction Model with BitLLM for Edge-Devices
Trajectory prediction is a fundamental task for autonomous systems, requiring complex reasoning about multi-agent interactions and intents. Large language models (LLMs) have recently been adopted for this task, as they provide strong contextual reasoning and interpretable, language-based trajectory representations. However, these LLM-based predictors are extremely memory- and compute-intensive, making them difficult to deploy on resource-constrained edge devices such as on-board computers in autonomous robots. To bridge this gap, we propose BitTP, which converts an LLM-based trajectory predictor into a lightweight bitlinear architecture. We demonstrate that weight-only quantization to 1.58-bit (BitTP-Weight) is optimal. Crucially, activations must remain in full precision, as quantizing them leads to severe degradation and instability in spatio-temporal reasoning. Empirically, BitTP-Weight not only preserves but improves prediction quality over the full-precision (BF16) LLM baseline, reducing ADE by 14.29% and FDE by 20.97% on average, while simultaneously reducing memory usage and inference latency relative to other quantization methods. These results demonstrate that carefully designed quantization acts as an effective regularizer, enabling the practical deployment of sophisticated LLM-based reasoning on edge devices. Code is available at: https://github.com/MintCat98/BitTP.
NaRA: 拡散 LLM のパラメータ効率の高い微調整のためのノイズを考慮した LoRA
拡散大規模言語モデル (dLLM) は、有望な非自己回帰生成パラダイムとして浮上しています。完全な微調整には法外な計算コストがかかるため、パラメータ効率の良い微調整 (PEFT) が標準的なアプローチになっています。ただし、既存の PEFT 手法 (LoRA など) は、もともと自己回帰モデル用に調整されており、ノイズ レベルに依存しない静的パラメータに依存しています。その結果、拡散プロセスの固有のダイナミクスが無視され、入力分布と生成の難易度がノイズ除去の軌道に沿って大幅にシフトし、dLLM にとって最適ではなくなります。これに対処するために、我々は、ノイズを考慮した低ランク適応 (NaRA) を提案します。これは、ノイズ レベルに条件付けされた、軽量でグローバルに共有されるハイパーネットワークによって生成される低ランク コア マトリックスを導入します。この設計により、パラメータとレイテンシーのオーバーヘッドを無視できる程度に保ちながら、更新行列を拡散プロセスに沿って継続的に変化させることができます。私たちは、提案されている NaRA フレームワークの理論的正当性を示し、常識的推論、数学的推論、およびコード生成ベンチマークにわたって、ノイズに依存しないベースラインに対する一貫した改善を経験的に実証します。私たちのコードは https://github.com/generaldi/NaRA で入手できます。
原文 (English)
NaRA: Noise-Aware LoRA for Parameter-Efficient Fine-Tuning of Diffusion LLMs
Diffusion Large Language Models (dLLMs) have emerged as a promising non-autoregressive generative paradigm. Given the prohibitive computational cost of full fine-tuning, Parameter-Efficient Fine-Tuning (PEFT) has become the standard approach. However, existing PEFT methods (e.g., LoRA), originally tailored for autoregressive models, rely on static parameters that are agnostic to the noise level. Consequently, they ignore the intrinsic dynamics of the diffusion process, where input distributions and generation difficulty shift significantly along the denoising trajectory, rendering them suboptimal for dLLMs. To address this, we propose Noise-aware Low-Rank Adaptation (NaRA), which introduces a low-rank core matrix generated by a lightweight, globally shared hypernetwork conditioned on the noise level. This design enables the update matrices to vary continuously along the diffusion process while keeping parameter and latency overhead negligible. We provide a theoretical justification for the proposed NaRA framework and empirically demonstrate consistent improvements over noise-agnostic baselines across commonsense reasoning, mathematical reasoning, and code generation benchmarks. Our code is available at https://github.com/generaldi/NaRA.
実際の規制順守のための質問応答のための引用閉鎖検索とルールごとの帰属
規制遵守のために大規模言語モデル (LLM) を導入するには、多層の権限構造にわたる包括的な引用による厳密なトレーサビリティが必要です。従来のマルチホップや法的 QA とは異なり、このタスクでは、エンティティの解決や判例法の推論ではなく、構造化された手順の検索と証拠セットのクロージャが必要です。既存の RAG システムは、平坦化された引用エッジ、断片化された検索拡張、および脆弱な事後帰属のために、ここで苦戦しています。当社は、複雑な国内研究開発規制から派生した運用ナレッジ グラフを特徴とする新しいベンチマークである RegOps-Bench を使用して、規制順守 QA を形式化しています。これらのボトルネックに対処するために、共有トピック アンカーによって駆動される統合フレームワークである RefWalk を提案します。 RefWalk は、文書間の引用を横断し、最大ベースの集計によってマルチビューの候補を融合し、ルールごとの帰属を強制してクレームをソースに明示的にマッピングします。私たちは、検索再現率と引用精度を大幅に向上させる強力なベースラインを確立します。最後に、米国の健康コンプライアンス データセット (HIPAA) の対照的な評価により、既存のシステムがフラット構造ルールで飽和状態にあることが明らかになり、RegOps-Bench の必要性が強調されます。私たちのコードは https://github.com/yangjoonJu/RefWalk で入手できます。
原文 (English)
Citation-Closure Retrieval and Per-Rule Attribution for Real-World Regulatory Compliance Question Answering
Deploying Large Language Models (LLMs) for regulatory compliance demands rigorous traceability via comprehensive citations across multi-tiered authority structures. Unlike traditional multi-hop or legal QA, this task requires structured procedural lookups and evidence-set closure rather than entity resolution or case-law reasoning. Existing RAG systems struggle here due to flattened citation edges, fragmented retrieval expansions, and fragile post-hoc attribution. We formalize Regulatory Compliance QA with RegOps-Bench, a novel benchmark featuring an Operational Knowledge Graph derived from complex national R\&D regulations. To address these bottlenecks, we propose RefWalk, a unified framework driven by a shared topic anchor. RefWalk traverses cross-document citations, fuses multi-view candidates via max-based aggregation, and enforces per-rule attribution to explicitly map claims to sources. We establish a strong baseline with substantial improvements in retrieval recall and citation accuracy. Finally, a contrastive evaluation on a U.S. health compliance dataset (HIPAA) reveals that existing systems exhibit saturation on flat-structure rules, underscoring the need for RegOps-Bench. Our code is available at https://github.com/yeongjoonJu/RefWalk.
スペシャリスト モデルが依然として重要な理由: 医療用人工知能のための異種マルチエージェント パラダイム
医療分野における GPT や Claude などの汎用大規模言語モデル (LLM) の優れたパフォーマンスは、領域固有の医療専門家モデルは時代遅れになるのだろうかという重大な疑問を引き起こしています。私たちは、医療用人工知能 (AI) の将来は、モノリシックな医療基盤モデルの構築や人間の専門知識の置き換えにあるのではなく、ジェネラリストの LLM、領域固有の専門家モデル、および臨床医の間のコラボレーションを調整することにあると主張します。我々は、矛盾を認識した証拠の融合、不確実性に基づく臨床医の介入トリガー、および適応閾値キャリブレーションを可能にする異種医療マルチエージェントフレームワークである HetMedAgent を提案します。 3 つの実際の臨床意思決定タスクに関する実験では、ジェネラリスト LLM と領域固有の専門家モデルの間の相乗効果が、どちらかのタイプのモデルを単独で使用した場合よりも大幅に優れていることが実証され、モダリティ固有の分析における専門家モデルのかけがえのない価値が検証されました。 HetMedAgent は、医療 LLM または基盤モデルの構築から複数エージェントのコラボレーションへの移行を表し、一般的な推論機能とドメイン固有の精度のバランスを実現します。
原文 (English)
Why Specialist Models Still Matter: A Heterogeneous Multi-Agent Paradigm for Medical Artificial Intelligence
The impressive performance of generalist large language models (LLMs) such as GPT and Claude in healthcare raises a critical question: will domain-specific medical specialist models become obsolete? We argue that the future of medical artificial intelligence (AI) lies not in building monolithic medical foundation models, nor in replacing human expertise, but in orchestrating collaboration among generalist LLMs, domain-specific specialist models, and clinicians. We propose HetMedAgent, a heterogeneous medical multi-agent framework that enables conflict-aware evidence fusion, uncertainty-based clinician intervention triggering, and adaptive threshold calibration. Experiments on three real-world clinical decision-making tasks demonstrate that the synergy between generalist LLMs and domain-specific specialist models significantly outperforms using either type of model alone, validating the irreplaceable value of specialist models in modality-specific analysis. HetMedAgent represents a shift from building medical LLMs or foundation models to multi-agent collaboration, achieving a balance between general reasoning capabilities and domain-specific precision.
LFQ: 低ビット量子化 LLM の生成品質を向上させるためのロジットを意識した最終ブロック量子化
大規模な言語モデルがスケールし続けるにつれて、低ビット重みのみのポストトレーニング量子化 (PTQ) は、メモリ効率の高い展開に対する実用的なソリューションを提供します。ブロック単位の PTQ は、基本的な言語モデリングと理解に関して完全精度 (FP) ベースラインと一致することができますが、生成タスク、特にタスクの精度を高める上で重要な、より長い応答や思考の連鎖が長くなった場合、その品質は低下します。この不足の原因は 2 つの要因であると考えられます。(i) ブロック単位の最適化における非埋め込み層 (LM ヘッド) の省略、および (ii) 平均二乗誤差 (MSE) 目標への依存。両方の要因により、量子化モデルのトークン確率分布が FP モデルのトークン確率分布と不整合になり、テキスト生成ベンチマークで顕著な精度の低下が生じます。この不一致を修正するために、ロジットを意識した最終ブロック量子化 (LFQ) を導入します。これは、FP モデルのロジットと量子化された対応物のロジット間のクロス エントロピーを最小限に抑えることで、最終的な Transformer ブロックを量子化するブロック単位 PTQ のシンプルかつ効果的な拡張機能です。最終ブロックのロジットレベルでトークン確率を調整することにより、LFQ は、言語モデリングと理解に関して FP ベースラインとの同等性を維持しながら、多様なモデルファミリーにわたって最先端のブロックごとの PTQ よりも複雑な生成タスクの精度を一貫して向上させます。
原文 (English)
LFQ: Logit-aware Final-block Quantization for Boosting the Generation Quality of Low-Bit Quantized LLMs
As large language models continue to scale, low-bit weight-only post-training quantization (PTQ) offers a practical solution to their memory-efficient deployment. Although block-wise PTQ is capable of matching the full-precision (FP) baseline on basic language modeling and understanding, its quality is degraded for generative tasks -- especially at longer responses and extended chains of thought, which is critical in boosting task accuracy. We attribute this shortfall to two factors: (i) the omission of the unembedding layer (the LM head) in block-wise optimization and (ii) the reliance on the mean squared error (MSE) objective. Both factors cause the token probability distribution of the quantized model to misalign with that of the FP model, yielding notable accuracy drops on text generation benchmarks. To rectify the discrepancy, we introduce Logit-aware Final-block Quantization (LFQ), a simple yet effective enhancement to block-wise PTQ that quantizes the final Transformer block by minimizing the cross-entropy between the logits of the FP model and those of its quantized counterpart. By aligning token probabilities at the logit level in the final block, LFQ consistently improves the accuracy of complex generation tasks over state-of-the-art block-wise PTQ across diverse model families, while maintaining parity with FP baselines on language modeling and understanding.
SkillsInjector: LLM エージェントの動的なスキル コンテキストの構築
LLM エージェントは、増大するスキル ライブラリを利用して複雑なタスクを処理できるようになりました。ただし、より多くのスキルを投入しても、必ずしもタスクの完了が向上するとは限らず、タスクの完了が低下する可能性もあります。既存の手法は依然としてスキルの注入を静的なステップとして扱い、固定基準でスキルを選択し、事前に予算を固定し、説明を変更しないままにします。どのスキルが公開されるか、いくつ含まれるか、およびそれらがどのように提示されるかはすべて、下流のパフォーマンスに影響を与えるため、この静的な処理はスキルの有用性を損なう可能性があると私たちは主張します。私たちは、これらの決定に共同で対処する 2 段階の適応手法である SkillsInjector を提案します。まず、コンテキスト プランナーは、実行に基づいたスキルの好みを学習し、タスクごとに適応可能な数のスキルを許可します。次に、セット対応レンダラーは、選択された説明が、同時に挿入された近隣のものと比較してどのように表示されるかを調整します。 tau2-bench、SkillsBench、ALFWorld 全体で、SkillsInjector が最高のスコアを達成し、最も強力なベースラインをそれぞれ 3.9、6.1、7.3 パーセントポイント改善しました。アブレーション研究では、スキルの選択、適応的な予算設定、およびセットアウェアなレンダリングがそれぞれ利益に貢献していることが示されています。これらの結果は、スキル拡張エージェントが、注入されたコンテキスト自体を最適化することで恩恵を受けることを示しています。コードは公開され次第公開されます
原文 (English)
SkillsInjector: Dynamic Skill Context Construction for LLM Agents
LLM agents now draw on growing skill libraries to handle complex tasks. However, injecting more skills does not always improve task completion and can even degrade it. Existing methods still treat skill injection as a static step, selecting skills with fixed criteria, fixing the budget in advance, and leaving descriptions unchanged. We argue that this static treatment can undermine the utility of skills, because which skills are exposed, how many are included, and how they are presented all affect downstream performance. We propose SkillsInjector, a two-stage adaptive method that jointly addresses these decisions. First, a context planner learns execution-grounded skill preferences and admits an adaptive number of skills for each task. A set-aware renderer then tailors how selected descriptions are presented relative to their co-injected neighbors. Across tau2-bench, SkillsBench, and ALFWorld, SkillsInjector achieves the highest score, improving over the strongest baseline by 3.9, 6.1, and 7.3 percentage points, respectively. Ablation studies show that skill selection, adaptive budgeting, and set-aware rendering each contribute to the gain. These results show that skill-augmented agents benefit from optimizing the injected context itself. Code will be released upon publication
SAAS: エージェント検索における過剰検索を軽減するための自己認識強化学習
エージェント検索により、LLM は反復推論と外部検索を通じて複雑なマルチホップの質問を解決できます。これらのシステムは有効であるにもかかわらず、実際には重大な制限に悩まされることがよくあります。エージェントは自分自身の知識の境界を認識できず、内部の知識が十分な場合でもやみくもに検索を開始し、十分な証拠が収集されている場合でも検索を終了できません。自己認識の欠如は深刻な \textbf{過剰検索} につながり、かなりの推論遅延と法外な計算コストが発生します。この目的を達成するために、精度を損なうことなく検索動作を正確に制御する動的な自己認識を育成するように設計された新しい RL フレームワークである SAAS を提案します。 SAAS では、次の 3 つの主要コンポーネントが導入されています。(i) 検索境界モデリング メカニズム。検索が無効なロールアウトと検索が有効なロールアウトを対比することで、進化するポリシーに基づいて検索境界を識別します。 (ii) 境界認識報酬モジュール。この境界認識を軌道レベルのペナルティに変換し、不必要で冗長な検索を抑制します。 (iii) 段階的な最適化戦略。これは、一連のカリキュラムを活用して、検索の正規化よりも推論を優先し、それによって報酬のハッキングを回避します。広範な実験により、SAAS が精度を維持しながら過剰検索を大幅に削減することが実証されました。私たちのコードは https://github.com/XMUDeepLIT/SAAS で匿名で公開されています。
原文 (English)
SAAS: Self-Aware Reinforcement Learning for Over-Search Mitigation in Agentic Search
Agentic search enables LLMs to solve complex multi-hop questions through iterative reasoning and external search. Despite the effectiveness, these systems often suffer from a critical limitation in practice: agents fail to recognize their own knowledge boundaries, blindly triggering searches when internal knowledge suffices and failing to terminate search even when adequate evidence has been collected. The lack of self-awareness leads to severe \textbf{over-search}, incurring substantial inference latency and prohibitive computational cost. To this end, we propose SAAS, a novel RL framework designed to cultivate dynamic self-awareness that precisely regulates search behavior without compromising accuracy. SAAS introduces three key components: (i) a search boundary modeling mechanism, which identifies the search boundary under the evolving policy by contrasting search-disabled and search-enabled rollouts; (ii) a boundary-aware reward module, which translates this boundary awareness into trajectory-level penalties, suppressing unnecessary and redundant searches; and (iii) a stage-wise optimization strategy, which leverages a sequential curriculum to prioritize reasoning over search regularization, thereby avoiding reward hacking. Extensive experiments demonstrate that SAAS substantially reduces over-search, while maintaining accuracy. Our code is anonymously released at https://github.com/XMUDeepLIT/SAAS.
PRAIB: LLM 支援レビューの動作に関する査読 AI ベンチマーク
提出論文数の増加により、特に速度とスケーラビリティの向上という観点から、査読プロセスをサポートおよび強化する手段として大規模言語モデル (LLM) の探求が促進されています。しかし、LLM が人間の査読者と同じ方法で科学論文に取り組むのか、それとも単に査読者に見える文章を作成するだけなのかは不明のままです。これに対処するために、レビューの特異性、スタイル、エンゲージメントの動作を測定する、徹底的に定義された指標で構成される新しいフレームワークである Peer Review AI Benchmark (PRAIB) を導入します。 PRAIB フレームワークを補完するために、1,000 件の ICLR および NeurIPS 論文について 5 つの独自のオープンソース モデルによって生成された 11,000 件のレビューのデータセットを活用して、大規模な実証研究を実施しています。 2021 年から 2025 年の期間にわたって、これらの機械によって生成されたレビューが、体系的な行動の相違を特定するために、さまざまな促進戦略にわたる元の人間のフィードバックと比較されます。私たちの分析では、生成されたレビューが人間のレビュー担当者によって提供されたフィードバックから大きく乖離していることが明らかになりました。LLM 評価は変動が少なく、ポジティブなバイアスがあり、自信過剰であり、その相互参照パターンはモデルに依存しており、人間の基準とは異なります。さらに、PRAIB を通じて評価すると、LLM はより長く複雑なレビューを生成する傾向があるにもかかわらず、人間のレビュー担当者が指摘した基本的な弱点を頻繁に見落とすことがわかりました。 PRAIB は、LLM のレビュー動作が人間の規範からどこでどのように逸脱しているかを特徴付けることで、レビュー プロセスのどの側面を LLM が現在確実にサポートでき、どの側面を展開前にさらなる開発が必要かを特定するための診断ツールをコミュニティに提供します。
原文 (English)
PRAIB: Peer Review AI Benchmark of Behaviour of LLM-Assisted Reviewing
The growing number of submitted papers has motivated the exploration of Large Language Models (LLMs) as a means to support and augment the peer review process, particularly in terms of improving its speed and scalability. Yet, it remains unknown whether LLMs engage with scientific manuscripts in the same manner as human reviewers, or whether they merely produce review-looking text. To address this, we introduce the Peer Review AI Benchmark (PRAIB), a novel framework comprising thoroughly defined metrics that measure review specificity, style, and behavior of engagement. To complement the PRAIB framework, we conduct a large-scale empirical study leveraging a dataset of 11,000 reviews generated by five proprietary and open-source models for 1,000 ICLR and NeurIPS papers. Spanning the 2021--2025 period, these machine-generated reviews are compared against original human feedback across diverse prompting strategies to identify systematic behavioral divergences. Our analysis reveals that the generated reviews diverge significantly from feedback provided by human reviewers: LLM ratings are less variable, positively biased, and overconfident, and their cross-reference patterns are model-dependent and distinct from human norms. Furthermore, when evaluated through PRAIB, we observe that LLMs tend to generate longer, more complex reviews, yet frequently overlook the atomic weaknesses noted by human reviewers. By characterizing where and how LLMs reviewing behavior departs from human norms, PRAIB provides the community with a diagnostic tool for identifying which aspects of the review process LLMs can reliably support today and which require further development before deployment.
大規模な言語モデルで非敵対的な堅牢性を活用する
この研究は、意味的には似ているがテキストが異なるプロンプトによって引き起こされる変更や潜在的なエラーに対する大規模言語モデル (LLM) の堅牢性の課題に対処するためのアプローチを示しています。最近の研究では、この種のプロンプトの変動がタスクに対する LLM のパフォーマンスに大きな影響を与える可能性があることが示されています。中心的な疑問は、意味的に中立なプロンプト変更に対する LLM の堅牢性は、モデル全体の高価な再トレーニングなしで獲得できるかということです。私たちは理論と実験の両方を通じてこの疑問に取り組みます。私たちの理論的分析により、モデルの堅牢性に影響を与える重要な要因、つまりニューラル ネットワーク モジュール出力における系統的な予想されるシフトまたは摂動によって引き起こされるバイアスが明らかになりました。この分析を動機として、我々は、単純な微調整プロセス、つまりロバスト性のためのバイアス除去によってロバスト性を達成できることを示します。私たちは、バイアス緩和が役立つ場合とそうでない場合の条件を特定し、理論と広範な実験の両方を通じて、ロバスト性を高めるためのバイアス緩和が実際にロバスト性を強化し、ランダムなプロンプト摂動に対する認証を提供するための迅速かつ効率的なツールである可能性があることを実証します。
原文 (English)
Harnessing non-adversarial robustness in large language models
The work presents an approach for addressing the challenge of robustness in Large Language Models (LLMs) to alterations and potential errors caused by semantically similar but textually different prompts. Recent works have shown that these kinds of prompt variations can significantly impact the performance of LLMs on tasks. The central question is: can LLMs' robustness to semantically-neutral prompt alterations be acquired without expensive retraining of the entire model? We address this question both theoretically and through experiments. Our theoretical analysis reveals a crucial factor impacting model robustness - a systematic expected shift or perturbation-induced bias in neural network module outputs. Motivated by this analysis, we show that robustness can be achieved via a simple fine-tuning process: debiasing for robustness. We identify conditions when debiasing helps and when it does not, and demonstrate, through both theory and extensive experiments, that debiasing for robustness may indeed be a quick and efficient tool to enhance robustness and provide certification against random prompt perturbations.
OptSkills: クラスターベースの蒸留を介して問題の原型から一般化可能な最適化スキルを学習する
大規模言語モデル (LLM) を活用して、自然言語から最適化問題を自動的に定式化し、解決することが、自動最適化の効率的なパラダイムとして浮上しています。しかし、既存の手法はまだ一般化が限られています。表面的な物語の変化に敏感で、主に事例レベルで経験を再利用し、変化した問題や新たな問題の種類に適応するのに苦労しています。私たちは、最適化モデリングと解決のための原型中心のスキル学習および推論エージェント システムである OptSkills を提案します。堅牢な一般化を向上させるために、私たちのシステムは、表面的な物語ではなく、その根底にある原型によって問題をクラスター化します。ディストリビューション内の一般化を改善するために、各クラスター内の多様なモデリング パラダイムとソルバー構成を調査し、成功した軌跡を再利用可能なワークフロー レベルのスキルに抽出します。分布外の一般化を改善するために、既存のスキルを改良するか、新しく取得した軌道を使用してスキル ライブラリを拡張します。当社のシステムは、さまざまな問題の種類とシナリオを含むデータセットで 68.27% という最先端のミクロ平均精度を達成しています。さらに、難易度の高い大規模かつ高次元のベンチマークである MIPLIB-NL では、26.91% の精度を達成し、DeepSeek-V3.2-Thinking を 4.53% 上回っています。 Nano-CO でスキルを学習すると、OOD NLCO ベンチマークで 72.79% に達します。コードとスキルは https://github.com/fujiwaranoM0kou/OptSkills で入手できます。
原文 (English)
OptSkills: Learning Generalizable Optimization Skills from Problem Archetypes via Cluster-Based Distillation
Leveraging Large Language Models (LLMs) to automatically formulate and solve optimization problems from natural language has emerged as an efficient paradigm for automated optimization. However, existing methods still exhibit limited generalization: they are sensitive to superficial narrative variations, reuse experience mainly at the case level, and struggle to adapt to shifted or emerging problem types. We propose OptSkills, an archetype-centric skill learning and reasoning agent system for optimization modeling and solving. To improve robust generalization, our system clusters problems by their underlying archetypes rather than surface narratives. To improve in-distribution generalization, it explores diverse modeling paradigms and solver configurations within each cluster, then distills successful trajectories into reusable workflow-level skills. To improve out-of-distribution generalization, it refines existing skills or expands the skill library using newly obtained trajectories. Our system achieves a state-of-the-art micro-averaged accuracy of 68.27% on datasets encompassing diverse problem types and scenarios. In addition, on MIPLIB-NL, a highly challenging large-scale and high-dimensional benchmark, it achieves 26.91% accuracy, outperforming DeepSeek-V3.2-Thinking by 4.53%. After skill learning on Nano-CO, it reaches 72.79% on the OOD NLCO benchmark. Code and skills are available at https://github.com/fujiwaranoM0kou/OptSkills.
Moment-KV: 長期生成のための運動量ベースのデコード時間 KV キャッシュ圧縮
Key-Value (KV) キャッシュは、長期世代のタスクで大規模言語モデル (LLM) を展開する際の大きなボトルネックのままです。以前の作業では、プレフィル キャッシュとデコード キャッシュの両方に均一な圧縮が適用されることがよくありましたが、プレフィル キャッシュを圧縮すると重要なコンテキストが破損するため、パフォーマンスが低下します。プレフィル キャッシュを保存することは不可欠ですが、デコード段階の圧縮はまだ研究されておらず、既存の方法は厳密な最新ウィンドウまたは瞬間的な注意に依存しています。私たちが注目のダイナミクスを分析したところ、強力な時間的パターンが明らかになりました。つまり、重要なトークンは長期にわたって持続的な注目を受け取るのに対し、局所的な推論には短期間のバーストが含まれます。静的ヒューリスティックではこの動作を捕捉できないため、重要なトークンが時期尚早に削除されたり、古いトークンが保持されたりする可能性があります。我々は、運動量駆動型の時間的注意集約に基づく復号時 KV キャッシュ圧縮法である Moment-KV を提案します。私たちの手法では、トークンの重要性を継続的に進化する状態としてモデル化し、注目が衰退とともに集約され、長期的な影響力と最近の関連性の両方を捉えます。実験では、Moment-KV がデコード レイテンシーを維持しながら、長い世代のタスクにおける生成忠実度を大幅に向上させる (2.3 ~ 3.2 %) ことが示されています。
原文 (English)
Moment-KV: Momentum-Based Decode-Time KV Cache Compression for Long Generation
Key-Value (KV) cache remains a major bottleneck for deploying Large Language Models (LLMs) in long-generation tasks. Prior work often applies uniform compression across both prefill and decoding caches, but compressing the prefill cache degrades performance by corrupting critical context. While preserving the prefill cache is essential, decoding-phase compression remains underexplored, with existing methods relying on rigid recency windows or instantaneous attention. Our analysis of attention dynamics reveals strong temporal patterns: critical tokens receive sustained attention over long horizons, while local reasoning involves short-lived bursts. Static heuristics fail to capture this behavior, leading to premature eviction of important tokens or retention of stale ones. We propose Moment-KV, a decoding-time KV cache compression method based on momentum-driven temporal attention aggregation. Our method models token importance as a continuously evolving state, where attention is aggregated with decay, capturing both long-term influence and recent relevance. Experiments show that Moment-KV significantly improves generation fidelity in long-generation tasks (2.3-3.2 %) while maintaining decoding latency.
冗長ですか、それとも必要ですか?エージェントの軌跡における冗長なステップを検出するためのベンチマーク
LLM ベースのエージェントは、複数ステップの推論とツールの使用を通じて複雑なタスクを解決する強力な機能を実証しています。しかし、既存の評価プロトコルは主にタスクの成功に焦点を当てており、エージェントの動作の重要な側面である実行効率を見落としています。実際には、エージェントの軌跡には、タスクの完了にはほとんど寄与しないものの、大量のリソースを消費する冗長なステップが含まれることがよくあります。この研究では、エージェントの軌跡に対する \textbf{冗長ステップ検出} という新しい研究領域を提案し、定式化します。この取り組みをサポートするために、\textbf{RedundancyBench} を導入します。これは、慎重に注釈が付けられた軌跡を持つ多様なタスクを含む新しいベンチマークであり、タスクの完了への貢献度に応じて各ステップにラベルが付けられます。 RedundancyBench を使用して、軌道内のステップが冗長であるか必要であるかを答えるための 3 つの代表的な方法を開発および評価します。私たちの結果は、最もパフォーマンスの高い方法でも冗長ステップの検出で 24.88\% のスコアしか達成できず、一部の方法ではランダムな推測よりもパフォーマンスが悪いことがわかりました。これらの結果は、このタスクの複雑さと、この分野におけるさらなる研究の必要性を浮き彫りにしています。 \footnote{この論文のコードとデータセットはどちらも \href{https://anonymous.4open.science/r/RedundancyBench}{https://anonymous.4open.science/r/RedundancyBench} で入手できます。}
原文 (English)
Redundant or Necessary? A Benchmark for Detecting Redundant Steps in Agent Trajectories
LLM-based agents have demonstrated strong capabilities in solving complex tasks through multi-step reasoning and tool use. However, existing evaluation protocols primarily focus on task success, overlooking a critical aspect of agent behavior: execution efficiency. In practice, agent trajectories often contain redundant steps that consume substantial resources while contributing little to task completion. In this work, we propose and formulate a new research area: \textbf{redundant step detection} for agent trajectories. To support this initiative, we introduce \textbf{RedundancyBench}, a new benchmark that contains diverse tasks with carefully annotated trajectories, where each step is labeled according to its contribution to task completion. Using RedundancyBench, we develop and evaluate 3 representative methods to answer whether a step within trajectory is redundant or necessary. Our results show that even the best-performing method achieves only 24.88\% score in detecting redundant steps, while some methods perform worse than random guessing. These results highlight the task's complexity and the need for further research in this area. \footnote{Code and dataset in this paper are both available in \href{https://anonymous.4open.science/r/RedundancyBench}{https://anonymous.4open.science/r/RedundancyBench}.}
LLM にフィードバックを通じてストリーミング エクスペリエンスから合成する方法を学習させる
大規模言語モデル (LLM) は合成データの生成に広く採用されており、アノテーションのコストが大幅に削減されています。しかし、既存の研究のほとんどは合成を一連の独立したタスクとして扱い、モデルが過去のタスクからの経験を蓄積し、それを将来のタスクに転送することによって合成を学習できるかどうかという、より基本的な問題を見落としています。この作業では、合成タスクが順番に到着し、過去のタスクからの経験が将来の合成に有益な信号を提供する新しい設定である StreamSynth を導入します。この設定に対処するために、合成モデルがタスク ストリームを通じて再利用可能な合成エクスペリエンスを取得できるようにする一般的なフレームワークである SynLearner を提案します。 SynLearner は、タスクごとに個別にデータを生成するのではなく、モデルが多様な合成パターンを探索し、フィードバックから学習し、タスクの進化に応じてサンプルの品質とセットレベルの多様性のバランスをとることを奨励します。複数のベンチマークにわたる広範な実験により、SynLearner が以前のタスクの経験を効果的に活用して後のタスクの合成パフォーマンスを向上させ、一貫したタスク間の移行性を示していることがわかりました。これらの発見は、StreamSynth の実現可能性の証拠を提供し、タスク ストリームから恩恵を受けることができるエクスペリエンス主導のプロセスとしての合成データ生成を強調しています。
原文 (English)
Make LLM Learn to Synthesize from Streaming Experiences through Feedback
Large language models (LLMs) have been widely adopted for synthetic data generation, significantly reducing annotation costs. However, most existing studies treat synthesis as a set of isolated tasks and overlook a more fundamental question: whether a model can learn to synthesize by accumulating experience from past tasks and transferring it to future ones. In this work, we introduce StreamSynth, a new setting in which synthesis tasks arrive sequentially and experience from historical tasks provides informative signals for future synthesis. To address this setting, we propose SynLearner, a general framework that enables synthesis models to acquire reusable synthesis experience over a task stream. Instead of generating data independently for each task, SynLearner encourages the model to explore diverse synthesis patterns, learn from feedback, and balance sample quality with set-level diversity as tasks evolve. Extensive experiments across multiple benchmarks show that SynLearner effectively leverages experience from earlier tasks to improve synthesis performance on later ones, exhibiting consistent cross-task transferability. These findings provide evidence for the feasibility of StreamSynth and highlight synthetic data generation as an experience-driven process that can benefit from task streams.
Compass: 専門家のガイドによる LLM エージェントによる世界的な海洋リードデータの統合のナビゲート
海洋鉛 (Pb) とその同位体は、海洋循環と人為的汚染の重要なトレーサーですが、現場での観察は依然として費用がかかり、まばらです。膨大な歴史的記録が存在する一方で、それらは学術論文の非構造化コンテンツの中に埋もれており、包括的な分析にアクセスできない「データサイロ」を生み出しています。手動による抽出には拡張性がなく、汎用の大規模言語モデル (LLM) には必要なドメイン固有の知識が不足しているため、幻覚や科学的に無効な出力が発生します。これに対処するために、LLM が微調整せずに厳密な科学データ抽出を実行できるようにする、専門家主導の適応アプローチを導入します。当社は、海洋科学者と共同設計したナレッジ ツリーによって強化された LLM エージェント フレームワークである Compass を通じてこのアプローチを運用しています。これは、複雑なタスクを検証可能なステップに分解し、科学的妥当性を確保するためにエージェントの推論を導きます。 230,000 件を超える関連するオープンアクセス論文のコーパス全体に Compass を導入することで、これまで組み込まれていなかった 3,751 件の Pb レコードを抽出することに成功しました。この取り組みにより、これまでで最大の統合海洋 Pb データベースが確立されました。標準的な指標を超えて、Compass は多層検証を通じて優れた信頼性を実証し、専門家の手動検証で確認されたとおり 92% の精度を達成しています。新たに統合されたデータは、東シナ海や南極海など、これまでサンプリングが不十分だった地域のカバー範囲を拡大し、将来の科学的発見のための充実したデータ基盤を提供します。私たちは、オープンな科学的アクセスを促進するために、インタラクティブな視覚化プラットフォームをリリースします。私たちの研究は、専門家がガイドするエージェントが汎用 LLM と一か八かの科学領域の間のギャップを効果的に埋め、地球科学におけるスケーラブルなデータ発見を可能にすることを実証しています。
原文 (English)
Compass: Navigating Global Marine Lead Data Integration through Expert-Guided LLM Agent
Marine lead (Pb) and its isotopes are critical tracers for ocean circulation and anthropogenic pollution, yet in-situ observations remain costly and sparse. While vast historical records exist, they lie buried within the unstructured content of academic papers, creating "data silos" inaccessible to comprehensive analysis. Manual extraction is unscalable, while general-purpose Large Language Models (LLMs) lack the necessary domain-specific knowledge, leading to hallucinations and scientifically invalid outputs. To address this, we introduce an expert-guided adaptation approach that enables LLMs to perform rigorous scientific data extraction without fine-tuning. We operationalize this approach through Compass, an LLM agent framework enhanced by a Knowledge Tree co-designed with marine scientists, which decomposes complex tasks into verifiable steps, guiding the agent's reasoning to ensure scientific validity. Deploying Compass across a corpus of over 230,000 relevant open-access papers, we successfully extract 3,751 previously unincorporated Pb records. This effort establishes the largest integrated marine Pb database to date. Beyond standard metrics, Compass demonstrates superior reliability through multi-layered validation, achieving 92% accuracy as confirmed through expert manual verification. The newly integrated data expand coverage in previously under-sampled regions such as the East China Sea and the Southern Ocean, providing an enriched data foundation for future scientific discoveries. We release an interactive visualization platform to facilitate open scientific access. Our work demonstrates that expert-guided agents can effectively bridge the gap between general-purpose LLMs and high-stakes scientific domains, enabling scalable data discovery in geosciences.
トークンスペース圧縮による制約付きデコードの高速化
LLM の出力が指定された構造に準拠していることを保証するために、文脈自由文法 (CFG) デコード エンジンは、指定された CFG に準拠する文字列を生成する次のトークンの選択を強制します。現在の CFG 制約付きデコード エンジンは高度に最適化されていますが、ステップごとの膨大な検索スペース (つまり、トークン語彙全体) から生じる固有のコストにより、より複雑な CFG では手に負えないほど高いオーバーヘッドが発生します。これはまさに CFG エンジンが最も役立つ状況です。このペーパーでは、トークン検索スペースを圧縮するためのオフライン技術である CFGzip を紹介します。これにより、CFG エンジンのオーバーヘッドが大幅に削減されます。実験では、CFGzip を SoTA 文法エンジンとともに使用すると、レイテンシーが最大 2 桁削減され、制約付き生成時間の合計が最大 7.5 倍高速化されることが報告されています。CFGzip を使用すると、複雑な CFG に対して大規模な制約付きデコードが実現可能になります。
原文 (English)
Accelerating Constrained Decoding with Token Space Compression
To guarantee that an LLM's outputs conform to a specified structure, context-free grammar (CFG) decoding engines force the selection of next tokens that produce strings that conform to a given CFG. While current CFG-constrained decoding engines are highly optimized, the inherent costs arising from the massive per-step search space -- i.e. the entire token vocabulary -- result in intractably high overhead for more complex CFGs: precisely the situation where CFG engines are most useful. In this paper, we introduce CFGzip, an offline technique for compressing the token search space, which massively reduces CFG engine overhead. In experiments, we report latency reduction of up to two orders of magnitude when CFGzip is used with a SoTA grammar engine, yielding an up to 7.5x speedup in total constrained generation time: with CFGzip, constrained decoding is now feasible at scale for complex CFGs.
Cookie-Bench: Web 生成のための継続的なオンスクリーンキーインタラクション評価
フロントエンドの Web コードは、すべてのフロンティア LLM リリースの中核的な製品面となっていますが、アリーナのような人間が判断するリーダーボードは拡張できないため、これらのインタラクティブ アプリケーションを開発スピードで評価することは依然としてコストがかかります。既存の自動プロキシは通常、リファレンス実装、テスト スイート、または厳密なチェックリストに依存しており、人間のレビュー担当者がライブ セッションで実行する合理的な合成を見逃す傾向があります。私たちは、同時に参照フリーで、自律的に駆動され、総合的に推論される新しい評価体制を明確にし、2 つの成果物を通じてそれをインスタンス化します。 \textbf{\dataname} は、静的プレゼンテーション タスクと対話型アプリケーション タスクの両方にまたがる 11 ドメイン、54 リーフ、1,000 クエリの WebDev ベンチマークであり、3 つの難易度層と 3 つのターゲット言語グループにわたってバランスが取れており、回覧されたプロンプトから思い出せないようにブリーフが書き直されています。 \textbf{\framename} は、Flavell のメタ認知モニタリングに基づいており、証拠の蓄積と判断を 3 つの段階にわたって分離します。静的な知覚は受動的な観察から第一印象を形成します。エージェント駆動のインタラクションは、連続画面のビデオ、音声、およびステップごとのスクリーンショットをキャプチャしながら、アプリケーションを自律的に探索します。動的スコアリングは、証拠チェーンが完了した後にのみ、構造化された失敗の帰属を伴う全体的な機能性と美的判断を発行します。 \dataname では、\framename は専門家による評価と厳密に一致しており、インタラクティブな Web 生成に関して 13 のフロンティア LLM 全体でかなりのヘッドルームを表面化しています。 \noindenthttps://anonymous.4open.science/r/Cookie-3CE/
原文 (English)
Cookie-Bench: Continuous On-screen Key Interaction Evaluation for Web Generation
Front-end web code has become a core product surface for every frontier LLM release, yet evaluating these interactive applications at development speed remains costly because human-judged leaderboards like Arena do not scale. Existing automated proxies typically lean on reference implementations, test suites, or rigid checklists, and tend to miss the reasoned synthesis a human reviewer performs over a live session. We articulate a new evaluation regime that is simultaneously reference-free, autonomously driven, and holistically reasoned, and instantiate it through two artifacts. \textbf{\dataname} is an 11-domain, 54-leaf, 1,000-query WebDev benchmark spanning both static-presentation and interactive-application tasks, balanced across three difficulty tiers and three target-language groups, with briefs rewritten to resist recall from circulated prompts. \textbf{\framename}, grounded in Flavell's metacognitive monitoring, separates evidence accumulation from judgment across three stages: Static Perception forms a first impression from passive observation; Agent-Driven Interaction explores the application autonomously while capturing continuous screen video, audio, and per-step screenshots; Dynamic Scoring issues holistic functionality and aesthetics verdicts with structured failure attribution only after the evidence chain is complete. On \dataname, \framename aligns closely with expert human ratings while surfacing substantial headroom across 13 frontier LLMs on interactive web generation. \noindenthttps://anonymous.4open.science/r/Cookie-3CE/
GPS ポイントから移動パターンまで: LLM による柔軟でセマンティックな軌道生成
都市の軌跡は、都市ダイナミクスをモデル化し、さまざまなスマート シティ アプリケーションをサポートする上で重要な役割を果たします。ただし、プライバシー上の懸念により、大規模で高品質の軌道データセットへのアクセスは制限されています。軌道生成は、現実的なデータを合成してプライバシー リスクを軽減する、有望な代替手段を提供します。しかし、既存の方法では移動パターンを明示的に捉えることができず、単一の条件下で固定長の軌道しか生成できません。これらの制限に対処するために、\textbf{HTP} を提案します。これは、GPS ポイントを直接生成するのではなく、\textbf{H} が最初に \textbf{T}ravel パターンを階層的に生成し、次に大規模言語モデル (LLM) を使用して GPS \textbf{P} ポイントを生成します。まず、ミクロレベルの GPS 軌道を粗いから細かい方法でコンパクトなマクロレベルの移動パターン トークンに量子化する、軌道固有の残差量子化変分オートエンコーダ (RQ-VAE) を設計します。これらのトークンは、交通状況によって引き起こされるポイント密度の変動など、リッチ セグメントの空間的不規則性をキャプチャします。次に、LLM ボキャブラリを移動パターン トークンで拡張して、軌道表現を LLM 入力と整合させ、教師あり微調整 (SFT) を適用して LLM を軌道生成タスクと整合させ、さまざまな条件下で移動パターン シーケンスを生成できるようにします。 2 つの現実世界のデータセットに対する広範な実験により、HTP は生成品質の点で最も強力なベースラインを平均 29.78\% 上回っていることが示されています。私たちのコードは https://github.com/slzhou-xy/HTP で入手できます。
原文 (English)
From GPS Points to Travel Patterns: Flexible and Semantic Trajectory Generation with LLMs
Urban trajectories play a crucial role in modeling urban dynamics and supporting various smart city applications. However, privacy concerns restrict access to large-scale and high-quality trajectory datasets. Trajectory generation provides a promising alternative by synthesizing realistic data to mitigate privacy risks. However, existing methods fail to explicitly capture travel patterns and can only generate fixed-length trajectories under a single condition. To address these limitations, we propose \textbf{HTP}, which \textbf{H}ierarchically generates \textbf{T}ravel patterns first and then generates GPS \textbf{P}oints by using large language models (LLMs), rather than directly generating GPS points. We first design a trajectory-specific residual quantization variational autoencoder (RQ-VAE) that quantizes micro-level GPS trajectories into compact, macro-level travel pattern tokens in a coarse-to-fine manner. These tokens capture rich segment spatial irregularities, such as point density variations caused by traffic conditions. Then, we extend the LLM vocabulary with travel pattern tokens to align trajectory representations with the LLM input, and apply supervised fine-tuning (SFT) to align the LLM with the trajectory generation task, enabling generation of travel pattern sequences under various conditions. Extensive experiments on two real-world datasets show that HTP outperforms the strongest baseline by an average of 29.78\% in terms of generation quality. Our code is available at https://github.com/slzhou-xy/HTP.
機械に値を教える: LLM で人間のような動作をシミュレートする
大規模言語モデル (LLM) は、さまざまなペルソナや役割を採用する驚くべき能力を示しています。ただし、彼らが一貫した人間のような価値観に準拠した行動を示すことができるかどうかは依然として不明です。この研究では、確立された心理的価値理論を利用して、LLM に人間のような価値を誘導し、人間の研究で観察されたパターンとの整合性を評価します。私たちは、検証済みの心理学的アンケートを使用して、主要な LLM の価値観構造と価値観と行動の関係を評価し、人間と比較するために、500 万件を超える大規模な実験を実施しています。私たちの調査結果は、価値を重視する LLM と人間の間の両方の側面における強い一致を明らかにしています。さらに、人間の価値分布を組み込むことで、価値誘導 LLM による集団レベルのシミュレーションが強化されます。これらの発見は、人間の行動をシミュレートするための効果的で心理的に根拠のあるツールとしての価値誘導型 LLM の可能性を強調しています。
原文 (English)
Teaching Values to Machines: Simulating Human-Like Behavior in LLMs
Large Language Models (LLMs) demonstrate a remarkable capacity to adopt different personas and roles; however, it remains unclear whether they can manifest behavior that adheres to a coherent, human-like value structure. In this work, we draw on established psychological value theory to induce human-like values in LLMs and assess their alignment with patterns observed in human studies. Using validated psychological questionnaires, we conduct large-scale experiments -- over 5 million questions -- to evaluate value structures and value-behavior relationships in leading LLMs and compare them to humans. Our findings reveal strong agreement between value-prompted LLMs and humans across both dimensions. Moreover, incorporating human value distributions enhances population-level simulations with value-induced LLMs. These findings highlight the potential of value-induced LLMs as effective, psychologically grounded tools for simulating human behavior.
最小限の十分表現学習による LLM のドメイン固有のデータ合成
大規模言語モデルは汎用機能において目覚ましい進歩を示しており、ドメイン固有のデータを微調整することで特定のドメインで強力なパフォーマンスを達成できます。ただし、対象ドメインの高品質データを取得することは依然として大きな課題です。既存のデータ合成アプローチは演繹的パラダイムに従っており、自然言語で表現された明示的なドメイン記述と注意深くプロンプト エンジニアリングに大きく依存しており、ドメインを説明したり形式的に表現したりすることが難しい現実のシナリオへの適用性が制限されています。この研究では、帰納的パラダイムを通じてドメイン固有のデータ合成という未解明な問題に取り組みます。このパラダイムでは、特にドメインの特性を自然言語で表現することが難しい場合に、ターゲット ドメインが一連の参照例を通じてのみ定義されます。私たちは、参照サンプルから最小限の十分なドメイン表現を学習し、それを活用してドメインが調整された合成データの生成をガイドする新しいフレームワーク DOMINO を提案します。 DOMINO は、サンプル固有のノイズからドメインレベルのパターンを分離し、コアドメインの特性を維持しながらオーバーフィッティングを軽減するために、コントラストのもつれを解く目的とプロンプトチューニングを統合します。理論的には、DOMINO が合成データ配布のサポートを拡張し、より大きな多様性を確保することを証明します。経験的に、ドメイン定義が暗黙的である困難なコーディング ベンチマークでは、DOMINO によって合成されたデータを微調整すると、強力な命令調整されたバックボーンに比べて Pass@1 の精度が最大 4.63\% 向上し、その有効性と堅牢性が実証されました。この取り組みは、ドメイン固有のデータ合成のための新しいパラダイムを確立し、手動のプロンプト設計や自然言語ドメイン仕様を必要とせずに、実用的でスケーラブルなドメイン適応を可能にします。
原文 (English)
Domain-Specific Data Synthesis for LLMs via Minimal Sufficient Representation Learning
Large Language Models have demonstrated remarkable progress in general-purpose capabilities and can achieve strong performance in specific domains through fine-tuning on domain-specific data. However, acquiring high-quality data for target domains remains a significant challenge. Existing data synthesis approaches follow a deductive paradigm, heavily relying on explicit domain descriptions expressed in natural language and careful prompt engineering, limiting their applicability in real-world scenarios where domains are difficult to describe or formally articulate. In this work, we tackle the underexplored problem of domain-specific data synthesis through an inductive paradigm, where the target domain is defined only through a set of reference examples, particularly when domain characteristics are difficult to articulate in natural language. We propose a novel framework, DOMINO, that learns a minimal sufficient domain representation from reference samples and leverages it to guide the generation of domain-aligned synthetic data. DOMINO integrates prompt tuning with a contrastive disentanglement objective to separate domain-level patterns from sample-specific noise, mitigating overfitting while preserving core domain characteristics. Theoretically, we prove that DOMINO expands the support of the synthetic data distribution, ensuring greater diversity. Empirically, on challenging coding benchmarks where domain definitions are implicit, fine-tuning on data synthesized by DOMINO improves Pass@1 accuracy by up to 4.63\% over strong, instruction-tuned backbones, demonstrating its effectiveness and robustness. This work establishes a new paradigm for domain-specific data synthesis, enabling practical and scalable domain adaptation without manual prompt design or natural language domain specifications.
ポーカースキル: LLM はトレーニングやソルバーなしでエキスパート レベルのポーカーをプレイできます
ポーカーは人工知能にとって画期的な挑戦です。主流のアプローチは、反事実的後悔の最小化に基づいて構築された均衡ソルバーに依存しており、何百万ものコア時間のトレーニングが必要です。大規模言語モデル (LLM) はポーカーに関する広範な知識を備えていますが、直接プレイするよう求められた場合、ソルバーベースのエージェントよりもはるかに低いパフォーマンスを発揮します。従来のルールベースのポーカー エージェントは解釈可能でトレーニング不要ですが、その戦略的上限は依然として均衡プレイをはるかに下回っています。私たちは \textbf{PokerSkill} を導入します。これはトレーニング不要でソルバー不要のフレームワークであり、LLM の構造化されたアクション基礎インターフェイスとして詳細なルールベースのポーカー スキルを使用することで、このギャップを埋めることができます。決定論的コンテキスト エンジンは現在の状態を分析し、人間のポーカー専門家によって完全に設計された階層化スキル ライブラリから関連するフラグメントのみを取得し、LLM の選択を合理的なアクションに制限します。最先端の GTO ベンチマークである GTOWizard に対して、PokerSkill を使用した GPT-5.5 XHigh は $-57 \pm 21$ mbb/ハンドを達成し、Claude Opus 4.6 は $-80 \pm 29$ mbb/ハンドを達成し、Claude Opus 4.7 は $-87\pm 64$ mbb/ハンドを達成し、損失を 49 ~ 61\% 削減しました。デフォルトのプロンプトベースラインを備えており、強力なボットである Slumbot を上回っています。私たちの重要な発見は、ルールベースのスキルだけでは強力な戦略を構成せず、LLM だけではうまく機能できないが、それらを組み合わせることで、トレーニングもソルバーへのアクセスも必要とせず、しかも数百万コア時間の計算で構築されたシステムと競合できるエージェントが得られるということです。私たちの知る限り、これは、ゲーム固有のトレーニングやソルバー クエリを使用せずに、複雑な不完全情報ゲームで競争力のあるパフォーマンスを達成する LLM の最初のデモンストレーションです。コードは https://github.com/lbn187/PokerSkill で入手できます。
原文 (English)
PokerSkill: LLMs Can Play Expert-Level Poker without Training or Solvers
Poker is a landmark challenge for artificial intelligence. The dominant approach relies on equilibrium solvers built on counterfactual regret minimization, requiring millions of core-hours of training. Large Language Models (LLMs) possess extensive poker knowledge but perform far below solver-based agents when asked to play directly. Traditional rule-based poker agents are interpretable and training-free, but their strategic ceiling remains far below equilibrium play. We introduce \textbf{PokerSkill}, a training-free and solver-free framework that bridges this gap by using detailed rule-based poker skills as a structured action-grounding interface for LLMs. A deterministic context engine analyzes the current state and retrieves only the relevant fragments from a layered skill library, which is entirely designed by human poker experts, constraining the LLM's choice to reasonable actions. Against GTOWizard, a state-of-the-art GTO benchmark, GPT-5.5 XHigh with PokerSkill achieves $-57 \pm 21$ mbb/hand, Claude Opus 4.6 achieves $-80 \pm 29$ mbb/hand and Claude Opus 4.7 achieves $-87\pm 64$ mbb/hand, reducing losses by 49--61\% compared to default-prompt baselines and outperforming the strong bot Slumbot. Our key finding is that rule-based skills alone do not constitute a strong strategy, and LLMs alone cannot play well, but their combination yields an agent that requires neither training nor solver access yet competes with systems built on millions of core-hours of computation. To our knowledge, this is the first demonstration of an LLM achieving competitive performance in a complex imperfect-information game without game-specific training or solver queries. Code is available at https://github.com/lbn187/PokerSkill.
コンテキスト関連性による注意ステアリングによるマルチエージェントのコミュニケーションの強化
LLM ベースのマルチエージェント システムは、協調的な推論を通じて複雑なタスクで優れたパフォーマンスを実証しました。ただし、これらのシステムは、対話中に非常に長い会話履歴を急速に蓄積する傾向があります。会話が長くなるにつれて、関連性のある情報が無関係なコンテキストによってますます希薄になり、パフォーマンスの低下につながります。この研究では、新しい時間的および空間的減衰メカニズムを使用して、各エージェントの注意を関連するコンテキストに動的に向ける、トレーニング不要のコンテキスト管理手法である Agent-Radar を紹介します。私たちの実験では、Agent-Radar が 5 つの異なるベンチマークにわたって最先端の手法を上回り、最大 7.64 絶対ポイントのゲインが得られることが実証されました。さらに、私たちの分析は、エージェントと対話ラウンドの数が増加しても、エージェントレーダーが引き続き効果的で堅牢であることを示しています。最後に、アブレーション研究は、Agent-Radar のコア コンポーネントがパフォーマンスにとって重要であり、さまざまな設定で汎用化できることを示しています。
原文 (English)
Enhancing Multi-Agent Communication through Attention Steering with Context Relevance
LLM-based multi-agent systems have demonstrated remarkable performance on complex tasks through collaborative reasoning. However, these systems tend to rapidly accumulate extremely long conversation histories during interaction. As conversations lengthen, relevant information is increasingly diluted by irrelevant context, leading to degraded performance. In this work, we present Agent-Radar, a training-free context management method that dynamically steers each agent's attention toward relevant context with a novel temporal and spatial decay mechanism. Our experiments demonstrate that Agent-Radar outperforms state-of-the-art methods across five different benchmarks, yielding gains of up to 7.64 absolute points. Furthermore, our analysis shows that Agent-Radar remains effective and robust as the number of agents and interaction rounds increases. Finally, the ablation study shows that core components in Agent-Radar are crucial to performance and generalizable in different settings.
AgentSchool: LLM を利用した教育用マルチエージェント シミュレーション
LLM の教室への導入が急速に進んでいるにもかかわらず、教育 AI の検証は依然として独特の扱いが難しいものです。介入は、認知的および社会的軌道が不可逆的に形成される学習者の成長に影響を及ぼしますが、現実世界の試験は時間がかかり、倫理的に制約され、制度的にロックされています。 LLM ベースの教育シミュレーターが潜在的な救済策として浮上していますが、多くは依然として学習を個人に条件付けされたロールプレイに崩壊させており、既存の教室を再現するためだけに最適化された場合、教育改革に必要な制度上の新規性が構造的に不利になる可能性があります。この作業では、プロンプトによる動作ではなく状態遷移として学習をモデル化する、LLM 駆動のマルチエージェント シミュレーターである AgentSchool を紹介します。 AgentSchool は、重み付けされた教科知識グラフ、思考ワークフロー プール、明示的な誤解を備えた認知的に成長可能な学生エージェントと、近接発達ゾーンに沿って計画、足場を築き、反映する適応型教師エージェントを組み合わせます。適応型教師エージェントは、公式および非公式の両方の学習フィールド内で指導を位置付ける構成可能なシーナリー ジェネレーターに埋め込まれており、インタラクション スケール、時間的粒度、およびシミュレーション期間を分離するマルチスケール シミュレーターです。実験によれば、構造化された学生エージェントは、ベースラインシミュレータよりもより差別化された習熟と誤解の痕跡を生成する一方、教師とエージェントの比較では、ZPD情報に基づいた適応と一致するバックボーン依存のパターンが示されています。さらに、AgentSchool は、教室の社会理論と一致する、周辺参加、派閥の形成、攻撃者による結束、オピニオンリーダーの出現のもっともらしい痕跡を生成します。 AgentSchool は、教育研究手段としての役割を超えて、長期記憶、マルチエージェントの調整、組織の圧力下での将来の制度的推論のための社会的に有意義なテストベッドとして教育を組み立てています。
原文 (English)
AgentSchool: An LLM-Powered Multi-Agent Simulation for Education
Despite the rapid deployment of LLMs into classrooms, validating educational AI remains uniquely intractable: interventions act on developing learners whose cognitive and social trajectories are irreversibly shaped, while real-world trials are slow, ethically constrained, and institutionally locked. LLM-based educational simulators have emerged as a potential remedy, but many still collapse learning into persona-conditioned role-play and, when optimized only to reproduce existing classrooms, can structurally penalize the institutional novelty that pedagogical reform requires. In this work, we introduce AgentSchool, an LLM-driven multi-agent simulator that models learning as state transition rather than prompted behavior. AgentSchool couples cognitively growable student agents -- equipped with weighted subject knowledge graphs, thinking-workflow pools, and explicit misconceptions -- with adaptive teacher agents that plan, scaffold, and reflect along the Zone of Proximal Development, embedded in a configurable scenery generator that situates instruction within both formal and informal learning fields, and a multi-scale simulator that decouples interaction scale, temporal granularity, and simulation duration. Experiments show that structured student agents produce more differentiated mastery and misconception traces than a baseline simulator, while teacher-agent comparisons show backbone-dependent patterns consistent with ZPD-informed adaptation. Further, AgentSchool generates plausible traces of peripheral participation, clique formation, aggressor-induced cohesion, and opinion-leader emergence consistent with classroom social theories. Beyond its role as an educational research instrument, AgentSchool frames education as a socially meaningful testbed for long-horizon memory, multi-agent coordination, and future institutional reasoning under organizational pressure.
並列 LLM アイデアのためのアンカーレス多様化
LLM は、広範な探索が重要な創造的なタスクのための候補アイデア プールを生成するために使用されることが増えています。この設定では、品質とコスト効率を維持しながらプールを拡大できる並列推論が魅力的です。私たちは候補者プールの多様化のための推論時間制御を研究し、アンカーレス手法が観察されたシードアイデアに依存する手法に匹敵するかどうかを検討します。 3 つのクリエイティブ タスク ファミリにわたって、中立および母集団参照の発散命令の下で、独立した生成と意味論的方向の層別化を、自己、ピア、および代表アンカー ベースラインと比較します。集団参照の相違は強力で低コストのベースラインであり、品質のプロキシを維持しながら意味論的な多様性を高めます。セマンティック方向の層別化が強化されています。単一のプランニング コールで幅広いセマンティック方向にわたって世代が編成され、最高の多様性、品質、コンピューティング フロンティアが得られます。アンカー再生成は、最終プールの多様性においては強力ですが、フルパイプラインのトークン アカウンティングではその利点が縮小します。これらの結果は、オープンエンドの LLM アイデアの実用的なアンカーレス ベースラインを確立します。
原文 (English)
Anchorless Diversification for Parallel LLM Ideation
LLMs are increasingly used to generate candidate-idea pools for creative tasks where broad exploration is valuable. Parallel inference can be attractive in this setting when it broadens the pool while retaining quality and cost efficiency. We study inference-time controls for candidate-pool diversification, asking whether anchorless methods can rival methods that depend on observed seed ideas. Across three creative task families, we compare independent generation and semantic direction stratification with self-, peer-, and representative-anchor baselines, under neutral and population-referential divergent instructions. Population-referential divergence is a strong low-cost baseline, increasing semantic diversity while preserving quality proxies. Semantic direction stratification is stronger: a single planning call organizes generations across broad semantic directions, yielding the best diversity--quality--compute frontier. Anchored regeneration can be strong in final-pool diversity, but its advantage shrinks under full-pipeline token accounting. These results establish practical anchorless baselines for open-ended LLM ideation.
数学タスクの評価における時間的安定性と少数のプロンプト
AI ツールが教育現場にますます統合されるにつれて、その長期にわたる安定性と、迅速なエンジニアリング技術に対する応答性の両方について疑問が生じます。この縦断的研究は、タスク分析ガイド (TAG; Stein \& Smith、1998) を使用して数学タスクの認知要求を分類するさまざまな AI ツールの機能に焦点を当てました。特に、この分類能力が、(1) 時間の経過に伴うモデル バージョンの更新、および (2) サンプル タスクを使用した少数ショット プロンプトによって変化するかどうかを調べました。汎用 AI ツール (Gemini) と教育特化型 AI ツール (Coteach) をテストしました。特定のツールが選択されたのは、関連する公開されたベンチマークと以前のタスク固有のテストで比較的高いパフォーマンスが得られたためです。モデルはベースラインでテストされ、モデルのバージョン更新で再テストされ、その後、少数ショット プロンプト (認知要求カテゴリごとに 2 つの模範タスク) を使用して再度テストされました。結果から、新しいモデル バージョンだけではさまざまな影響が生じることが明らかになりました。Gemini の精度は 58\% で安定していましたが、Coteach の精度は 75\% から 50\% に低下しました。ただし、少数ショット プロンプトにより両方のモデルのパフォーマンスが向上しました。Gemini の精度は 67\% に向上し、Coteach の精度は 75\% に回復しました。これらの発見は、迅速なエンジニアリング手法が受動的モデルの改善よりも大きく信頼性の高い効果をもたらす可能性があること、およびバージョンの更新が専門的な教育タスクのパフォーマンスを必ずしも向上させるとは限らないことを示しています。この研究は、教育者や研究者が教育現場で AI ツールの選択、評価、実装にどのようにアプローチすべきかについて重要な意味を持ちます。
原文 (English)
Temporal Stability and Few-Shot Prompting in Math Task Assessment
As AI tools become increasingly integrated into educational contexts, questions arise about both their stability over time and their responsiveness to prompt engineering techniques. This longitudinal study focused on different AI tools' ability to use the Task Analysis Guide (TAG; Stein \& Smith, 1998) to classify the cognitive demand of mathematics tasks. In particular, it examined whether this classification ability changed with (1) model version updates over time and (2) few-shot prompting using exemplar tasks. We tested a general-purpose AI tool (Gemini) and an education-specific AI tool (Coteach). The specific tools were selected because of their relatively high performance on relevant published benchmarks and prior task-specific tests. Models were tested at baseline, retested with model version updates, and then tested again using few-shot prompting (two exemplar tasks for each cognitive demand category). Results revealed that newer model versions alone produced mixed effects: Gemini's accuracy remained stable at 58\%, while Coteach's accuracy decreased from 75\% to 50\%. However, few-shot prompting improved both models' performance: Gemini increased to 67\% and Coteach recovered to 75\% accuracy. These findings demonstrate that prompt engineering techniques can have larger and more reliable effects than passive model improvements, and that version updates may not always improve performance on specialized educational tasks. The study has important implications for how educators and researchers should approach AI tool selection, evaluation, and implementation in educational contexts.
Long-Horizon LLM エージェント向けのメタ認知メモリ ポリシーの最適化
メモリ拡張 LLM エージェントは、インタラクションの軌跡をコンパクトなメモリに再帰的に要約することで、複雑な長期タスクに取り組みます。ただし、既存のアプローチは通常、結果ベースの強化学習を使用してこれらの記憶ポリシーをトレーニングするため、中間の記憶品質が低下する場所を特定できません。インタラクションが展開されるにつれて、曖昧な再帰的要約はタスク関連の情報を徐々に破棄し、意味論的なノイズを導入します。これは信念の逸脱を悪化させ、潜在的なタスク状態のエージェントの推定を曖昧にし、最終的には長期的な推論を狂わせます。したがって、記憶の最適化は単に軌跡レベルの成功だけではなく、中間的な要約によって引き起こされる信念の明瞭さに焦点を当てる必要があると主張します。この目的を達成するために、現在のメモリを考慮した潜在的なタスクの状態についてモデルがどの程度不確実性を保っているかを調査する自己教師ありプロキシである信念エントロピーを導入します。このプロキシに基づいて、メタ認知メモリ ポリシー最適化 (MMPO) を提案します。 MMPO は、まばらな結果ベースの信号のみに依存するのではなく、高い認識論的不確実性を引き起こす明示的にペナルティを課す要約を通じて、きめの細かいメモリ固有の監視を提供します。実験の結果、MMPO は長期にわたる多様なタスクにおいて既存の手法を常に上回っており、175 万トークンのコンテキストに拡張した場合でも 97.1% のパフォーマンスを維持することが示されています。
原文 (English)
Meta-Cognitive Memory Policy Optimization for Long-Horizon LLM Agents
Memory-augmented LLM agents tackle complex long-horizon tasks by recursively summarizing interaction trajectories into compact memory. However, existing approaches typically train these memory policies using outcome-based reinforcement learning, failing to localize where intermediate memory quality degrades. As interactions unfold, ambiguous recursive summaries progressively discard task-relevant information and introduce semantic noise. This exacerbates belief deviation, obscuring the agent's estimate of the latent task state and ultimately derailing long-horizon reasoning. We therefore argue that memory optimization should focus not merely on trajectory-level success, but on the clarity of the belief induced by intermediate summaries. To this end, we introduce Belief Entropy, a self-supervised proxy that probes how uncertain the model remains about the latent task state given its current memory. Based on this proxy, we propose Metacognitive Memory Policy Optimization (MMPO). Instead of relying only on sparse outcome-based signals, MMPO provides fine-grained, memory-specific supervision via explicitly penalizing summaries that induce high epistemic uncertainty. Experiments show that MMPO consistently outperforms existing methods on diverse long-horizon tasks, maintaining 97.1% performance even when scaled to 1.75M-token contexts.
責任ある学習支援を促進するための教育 LLM-Agency のモジュール化
AI チャットボットが教育現場に広く導入されると、学習が劇的に変化し、責任ある導入が重大な懸念事項となります。大規模言語モデル (LLM) は、教育科学からの洞察を議論する情報源にアクセスできるかもしれませんが、特に教育学的概念に固執する傾向はなく、伝達能力、批判的思考、創造性の喪失など、学習プロセスに悪影響を及ぼす危険があります。このペーパーでは、教育におけるより責任ある AI の使用に貢献するために特別に設計された、生徒の演習問題解決を支援するエージェント型 AI チャットボット アーキテクチャを紹介します。私たちは、責任ある LLM ベースの教育システムに対するいくつかの要望の特定に基づいて概念的な開発を行い、モノリシックなすぐに使えるソリューションに固有の構造的欠点を主張し、代わりにエージェント アーキテクチャのモジュール化を提案します。私たちは、演習問題を解くさまざまな段階に応じた特定のモジュールを提案し、的を絞った教育的アドバイスを組み込むことを可能にし、より制御可能、透明性、監視可能な方法で学習プロセスを生徒に導きます。
原文 (English)
Modularizing Educational LLM-Agency for Fostering Responsible Learning Assistance
The widespread adoption of AI chatbots in education will drastically change learning, making responsible deployment a critical concern. While large language models (LLMs) might have access to sources discussing insights from educational sciences, they are not particularly inclined to adhere to pedagogical concepts, risking negative effects on the learning process, such as a loss of transfer capabilities, critical thinking, or creativity. In this paper, we introduce an agentic AI chatbot architecture assisting students with exercise solving, specifically designed to contribute to more responsible AI use in education. We base our conceptual development on the identification of several desiderata for responsible LLM-based educational systems, argue for the structural shortcomings inherent in monolithic, out-of-the-box solutions, and instead suggest modularizing the agentic architecture. We propose specific modules for different stages of exercise solving, enabling incorporation of targeted pedagogical advice, guiding students through the learning process in a more controllable, transparent, and overseeable manner.
両刃の剣、それとも鋭利な道具?幼稚園から高等学校までの大規模なライティングのための Triadic LLM と教師のコラボレーションの設計と評価
大規模言語モデル (LLM) の統合には諸刃の剣があり、特に幼稚園から高校までの教育では、LLM、教師、生徒の間で効果的な 3 つの協力メカニズムが必要です。この論文は、K-12 のライティング学習をサポートする 3 極のコラボレーション システム、系統機能言語学に基づいた多次元評価フレームワーク、および提案軌跡追跡パイプラインを開発することにより、2 年間で 120 ドルの学校の 10,195 ドルの生徒からの 57,954 ドルの作文を含む大規模な実証データセットに貢献します。私たちの調査結果は、戦略的な分業を通じてライティングの質を向上させるこのシステムの有効性を裏付けています。LLM は教師の燃え尽き症候群を軽減する生成エンジンとして機能し、教師は教育上の門番および橋渡しとしてフィードバックの質を保証します。 LLM と教師の両方がスキル向上には不可欠ですが、過度の言語拡張が限界効用の減少をもたらす天井効果を明らかにしました。これらは、生徒の習熟度が向上するにつれて、動的に適応的な LLM と教師のコラボレーションを示唆しています。
原文 (English)
Double-Edged Sword or Sharp Tool? Designing and Evaluating Triadic LLM-Teacher Collaboration for K-12 Writing at Scale
The double-edged sword of integrating Large Language Models (LLMs) requires an effective triadic collaboration mechanism among LLMs, teachers and students, especially for K-12 education. By developing a triadic collaboration system to support K-12 writing learning, a multidimensional evaluation framework grounded in Systemic Functional Linguistics and the suggestion trajectory tracing pipeline, this paper contributes a large-scale empirical dataset involving $57,954$ essays from $10,195$ students across $120$ schools over two years. Our findings confirm the efficacy of this system in improving writing quality through a strategic labor division: the LLM serves as a generative engine to mitigate teacher burnout, and the teacher acts as a pedagogical gatekeeper and bridge to guarantee feedback quality. While both LLM and teacher are critical for skill improvement, we uncover a ceiling effect where excessive linguistic expansion yields diminishing marginal utility. These suggest a dynamically adaptive LLM-teacher collaboration as student proficiency increases.
検索拡張コマーシャルチャットにおけるブランド推奨のペルソナコンディショニング: 知名度に応じた階層化されたクロスプロバイダー監査
「最高の CRM ソフトウェア」という同じプロンプトが、個人の創業者、企業の副社長、英国の SMB オーナーなど、大きく異なる状況にある購入者の AI アシスタントに届きます。私たちは、その文脈上の変化がモデルが推奨するブランドをどの程度強く再形成するかを監査します。監査サンプルは、10 ペルソナ x 8 プロンプト x 3 モデル構成 x N=10 レップの設計空間で 2,000 回実行され、2 つの OpenAI セルは 8 プロンプトを完全にカバーし、Anthropic Sonnet-4.6 / low セルは 4 プロンプトをカバーしました。ユーザー メッセージの前にペルソナを付けると、推奨セットの類似度 (Jaccard) が同じペルソナ ベースラインと比較して デルタ = -0.12 ~ -0.20 低下します (クラスター化された 95% CI では、3 つの測定セルすべてでゼロが除外されます。ソネット セルの CI は 4 つのプロンプト クラスターのみに基づいており、それに応じて幅が広くなります)。その効果は顕著に階層化されています。カテゴリーリーダーはペルソナ耐性がありますが(ペルソナ間で最大 80% の同じブランドの一貫性)、中堅ブランドはペルソナの変化に応じて推奨セットの最大 75% を交換します。 Anthropic モデルは、OpenAI 構成よりも大きな点推定効果を示していますが、クラスター化された CI が重なっているため、よりコントラストが強くなります (ソネット対 OpenAI/高)。この非対称性は、Anthropic のより検索に帰属しない生成ルートと一致しています (検索層の証拠が観察されていない推奨が 43 ~ 52% であるのに対し、OpenAI の 8 ~ 29%、Jack 2026 に文書化されています)。 AI ブランド認識の測定は、クエリを提供する購入者のペルソナを条件とする必要があります。同じプロンプトでも、モデルが誰に質問していると考えるかに応じて実質的に異なる推奨セットが生成されます。また、ペルソナ全体を集約する測定プロトコルにより、その変動が体系的に隠蔽されます。この効果は中間市場に集中しており、当社の監査では事前分布に最も依存する生成ルートで最大となっており、モデルがトレーニング データの事前分布とより豊富なコンテキスト統合に依存するにつれてペルソナの応答性が高まっていることと一致しています。
原文 (English)
Persona Conditioning of Brand Recommendations in Retrieval-Augmented Commercial Chat: A Prominence-Stratified Cross-Provider Audit
The same prompt -- "best CRM software" -- reaches AI assistants from buyers in widely different contexts: a solo founder, an enterprise VP, a UK SMB owner. We audit how strongly that contextual variation reshapes which brands the model recommends. The audit samples 2,000 runs over a design space of 10 personas x 8 prompts x 3 model configurations x N=10 reps, with the two OpenAI cells at full 8-prompt coverage and the Anthropic sonnet-4.6 / low cell at 4-prompt coverage. Prefixing the user message with a persona drops the recommendation-set similarity (Jaccard) by Delta = -0.12 to -0.20 relative to a same-persona baseline (clustered 95% CIs exclude zero on all three measured cells; the sonnet cell's CI rests on only 4 prompt clusters and is correspondingly wider). The effect is sharply prominence-stratified: category leaders are persona-resistant (~80% same-brand consistency across personas), but mid-market brands swap up to 75% of the recommendation set as the persona changes. The Anthropic model shows a larger point-estimate effect than the OpenAI configurations, though clustered CIs overlap for the closer contrast (sonnet vs. OpenAI/high); the asymmetry is consistent with Anthropic's more retrieval-unattributed generation route (43-52% recommendations without observed retrieval-layer evidence, vs OpenAI's 8-29%, documented in Jack 2026). Any measurement of AI brand perception must condition on the buyer persona supplying the query: the same prompt produces materially different recommendation sets depending on who the model thinks is asking, and a measurement protocol that aggregates across personas systematically obscures that variation. The effect concentrates at mid-market and is largest on the most priors-reliant generation route in our audit, consistent with persona responsiveness growing as models lean more on training-data priors and richer context integration.
ProjectionBench: 漸進的な情報開示の下での LLM における科学的仮説生成の評価
科学的発見は本質的に創造的かつ不確実なプロセスであり、既知の知識を思い出す以上の推論が必要です。マルチホップ検索による深い研究タスクにおける大規模言語モデル (LLM) のパフォーマンスを評価するベンチマークが数多く提案されていますが、真の科学的発見に不可欠な革新的な推論能力はほとんどテストされていません。生の問題から古典的な帰無仮説検定までを構築し、科学的発見と推論におけるモデルのパフォーマンスを評価するためのベンチマーク フレームワークを紹介します。私たちのフレームワークでは、モデルは最初は最近の論文からのトピックと研究上の質問のみを受け取り、技術的な詳細は徐々に明らかになります。情報開示の各段階で、モデルは研究課題に対処する仮説を生成する役割を果たします。仮説は元の論文の結論と比較され、構成要素の原子的クレームの自動化された意味的類似性によって評価されます。グラウンドトゥルースの結論からの意味的乖離のこの漸進的な評価により、(最小限の情報の下で) モデルの革新性から (完全な実験の詳細の下で) 根拠のある推論能力の評価が可能になり、どちらも科学的発見の目的で LLM を使用する場合に重要です。私たちのフレームワークは、次世代の AI 科学者/共同科学者システムの開発を進めるために重要な、LLM の科学的推論と発見能力を体系的に評価するための基盤を提供します。具体的には、ここでは生物活性材料、機械材料、ナノ材料にわたる 45 の論文にわたって GPT-5、GPT-5.4、Gemini 2.5 pro、および Gemini 3.1 pro プレビューを評価します。 GPT-5.4 と Gemini 3.1 pro は予想どおり前世代の対応製品よりも優れたパフォーマンスを示し、特に GPT-5.4 は最小限のコンテキストでもグラウンド トゥルースの結論と 0.7 の F1 スコアの一致を維持していることがわかりました。
原文 (English)
ProjectionBench: Evaluating Scientific Hypothesis Generation in LLMs Under Progressive Information Disclosure
Scientific discovery is an inherently creative and uncertain process, requiring reasoning beyond the recall of known knowledge. While many benchmarks have been proposed to evaluate large language model (LLM) performance on deep research tasks via multi-hop retrieval, their innovative reasoning abilities essential for true scientific discovery remain largely untested. We introduce a benchmark framework for evaluating model performance in scientific discovery and reasoning, building up from a raw problem to the classical null hypothesis test. In our framework, models initially receive only the topic and research question from a recent paper, with technical details progressively revealed. At each stage of information disclosure, the model is tasked with generating hypotheses that address the research question, which is compared with the conclusions from the original paper and evaluated via automated semantic similarity of constituent atomic claims. This progressive evaluation of semantic divergence from ground-truth conclusions enables assessment of a model's innovativeness (under minimal information) to grounded reasoning capabilities (under full experimental details), both critical for using LLMs for scientific discovery purposes. Our framework provides a foundation for systematically evaluating scientific reasoning and discovery capabilities in LLMs, crucial for advancing the development of next-generation AI scientist/co-scientist systems. Specifically, here we evaluate GPT-5, GPT-5.4, Gemini 2.5 pro, and Gemini 3.1 pro preview across 45 papers spanning bioactive materials, mechanical materials, and nanomaterials. We find that GPT-5.4 and Gemini 3.1 pro outperform their previous generation counterparts as expected, and GPT-5.4 in particular maintains 0.7 F1 score alignment with ground truth conclusions even under minimal context.
MIRA: ソースを意識したデータ選択のためのトレーニング中のルーブリック アンカーリング
トレーニング中期は、最新の LLM 開発において重要な段階となっており、最終的なトレーニング後の能力を強化するために大規模に厳選された混合物を使用します。データ選択の問題は独特です。データは、事前トレーニングに近い規模で事前トレーニング スタイルの目標に基づいて最適化されますが、下流の機能に向けて厳選され、形式やトレーニングの役割が異なる異種ソースから抽出されます。その結果、効果的な選択には、スケーラビリティとソース適応型のセマンティック基準の両方が必要になります。既存のモデルベースの手法は拡張性に優れていますが、暗黙的な品質信号しか提供しません。セマンティック選択方法はより強力な判断を提供しますが、通常は固定ルーブリックまたは標準化されたデータ形式を前提としています。この不一致に対処するために、自己アンカー型ルーブリック ディスカバリに基づくソース認識フィルタリング フレームワークである MIRA を提案します。重要なアイデアは、ルーブリック構築をデータ選択の一部にすることです。MIRA はまず各ソース グループに対して何を評価すべきかを発見し、次にそれらの判断をスケーラブルな学生スコアラーに抽出して、コーパス全体をフィルタリングします。 21 のソースと 5 つのソース グループを使用したコード指向の中間トレーニングでは、MIRA は 9 つのコード ベンチマーク全体で選択ベースラインを上回り、トークンの半分のみを使用しながら完全なコーパスの実行と一致しました。
原文 (English)
MIRA: Mid-training Rubric Anchoring for Source-Aware Data Selection
Mid-training has become an important stage in modern LLM development, using large-scale curated mixtures to strengthen capabilities before final post-training. Its data selection problem is distinct: the data are optimized under a pretraining-style objective at near-pretraining scale, but are curated toward downstream capabilities and drawn from heterogeneous sources with different formats and training roles. As a result, effective selection requires both scalability and source-adaptive semantic criteria. Existing model-based methods scale well, but provide only implicit quality signals. Semantic selection methods offer stronger judgments, but usually assume fixed rubrics or standardized data formats. To address this mismatch, we propose MIRA, a source-aware filtering framework based on self-anchored rubric discovery. The key idea is to make rubric construction part of data selection: MIRA first discovers what should be evaluated for each source group, then distills those judgments into scalable student scorers for full-corpus filtering. On code-oriented mid-training with 21 sources and 5 source groups, MIRA outperforms selection baselines across nine code benchmarks and matches the full-corpus run while using only half the tokens.
強化された LLM トレーニングのためのデータ構成の謎を解く
大規模言語モデル (LLM) はさまざまな分野に革命をもたらしましたが、そのトレーニング効率は効果的なデータ キュレーションに大きく依存しています。データの選択は広く研究されていますが、特に現在の LLM は 1 つまたは数エポックのみでトレーニングされることが多いため、トレーニングを強化するための戦略的なデータ編成はまだ研究されていない領域です。この論文では、もともとデータ効率のために生成された、事前に計算されたサンプルレベルのスコアを再利用することで、追加の計算オーバーヘッドを最小限に抑え、LLM トレーニングに対するデータ構成の影響を体系的に調査します。私たちは、データ構成を最適化するための 4 つの主要なガイドライン (境界の鮮明化、周期的スケジューリング、カリキュラムの継続性、およびローカルの多様性) を特定し、形式化します。これらに基づいて、STR と SAW と呼ばれる 2 つの新しいデータ順序付け方法を導入します。事前トレーニング段階と SFT 段階の両方を含む、さまざまなモデル スケールとデータ サイズにわたる広範な実験により、要約されたガイドラインの有効性が検証されます。また、LLM トレーニングの安定性とパフォーマンスを向上させる上で、私たちが提案するデータ順序付け方法の堅牢性も示しています。 Github リンク: https://github.com/microsoft/data-effficacy/
原文 (English)
Demystifying Data Organization for Enhanced LLM Training
Large Language Models (LLMs) have revolutionized various fields, yet their training efficiency is heavily reliant on effective data curation. While data selection has been widely studied, the strategic data organization for enhanced training remains an underexplored area, particularly since current LLMs are often trained for only one or a few epochs. This paper systematically explores the influence of data organization on LLM training by reusing pre-computed sample-level scores originally generated for data efficiency, thereby incurring minimal additional computational overhead. We identify and formalize four key guidelines for optimizing data organization: Boundary Sharpening, Cyclic Scheduling, Curriculum Continuity, and Local Diversity. Guided by them, we introduce two novel data ordering methods termed STR and SAW. Extensive experiments across different model scales and data sizes, encompassing both pre-training and SFT stages, validate the effectiveness of our summarized guidelines. They also demonstrate the robustness of our proposed data ordering methods in enhancing the stability and performance of LLM training. Github Link: https://github.com/microsoft/data-efficacy/
局所的には一貫性があるが、全体的には一貫性がない: 複数コンポーネントの LLM エージェントにおける境界構成上の一貫性のなさ
複数コンポーネントの LLM エージェントは、それぞれが共同問題の一部のみを認識するコンポーネントから確率的クレームを組み立てます。すべてのコンポーネントが局所的に一貫している場合でも、合成は基本的な確率公理に違反する可能性があります。この局所的にコヒーレントでグローバルにインコヒーレントな障害を、構成残差 eps*、構成された引用から結合コヒーレント ポリトープまでの L2 距離を介して形式化し、システム出力と宣言されたコンポーネント間の結合制約から実行時に計算できます。積構造の二分法は、局所的なコヒーレンスが十分である場合を特徴付け、レイリー商予測は 4 つの関係クラスのうち 3 つで観察された残差と 7% 以内で一致します。階層的なボイル・ディクストラ図法は、構成を決定論的に修復します。いつでも有効な電子プロセスにより、連続的なコヒーレンス監視が可能になります。 4 つの LLM 中間層パネル (セクション 5.5 でフロンティアパネルを再実行) 上の 1,876 個のアンサンブル クリーク全体で、クリークの 33 ~ 94% で eps* > 0 となり、比例配分ルールに基づく 1,770 の解決されたベットに対する後悔のベットあたり +0.115 ナットに換算されます (ベッター自身が依存する場合、ゲインは +0.006 に減少します)一貫性を持たせます)。 3 つの直感的な LLM 側の緩和策 (取得、パーティション認識プロンプト、アグリゲーター LLM) はそれぞれ失敗するか退行します。
原文 (English)
Locally Coherent, Globally Incoherent: Bounding Compositional Incoherence in Multi-Component LLM Agents
Multi-component LLM agents assemble probabilistic claims from components that each see only part of a joint problem; the composition can violate basic probability axioms even when every component is locally coherent. We formalise this locally coherent, globally incoherent failure via the compositional residual eps*, the L2 distance from the composed quote to the joint coherent polytope, computable at runtime from system output and the declared cross-component coupling constraints. A product-structure dichotomy characterises when local coherence suffices, and a Rayleigh-quotient prediction matches the observed residual within 7% on three of four relation classes. A hierarchical Boyle-Dykstra projection repairs the composition deterministically; an anytime-valid e-process gives sequential coherence monitoring. Across 1,876 ensemble cliques on a four-LLM mid-tier panel (frontier-panel rerun in Section 5.5), eps* > 0 on 33-94% of cliques, translating to +0.115 nats per bet of regret on 1,770 resolved bets under the proportional allocation rule (the gain collapses to +0.006 under bettors that themselves coherentise). Three intuitive LLM-side mitigations(retrieval, partition-aware prompting, aggregator-LLM) each fail or regress.
ミクロマクロ検索: 大規模言語モデルにおける長文幻覚の軽減
大規模言語モデル (LLM) は、多くのタスクにわたって優れたパフォーマンスを実現しますが、特に冗長な取得コンテキストと長い推論チェーンにより事実の誤りが増幅される長い形式の生成では依然として幻覚が発生しやすい傾向があります。最近の研究では、重要な現象が明らかになりました。重要な情報がモデルの出力に近ければ近いほど、事実の精度が高くなります。ただし、既存の検索拡張言語モデル (RALM) には、この近接性を確保するための効果的なメカニズムがありません。外部証拠は複数回の検索を通じて推論に挿入されますが、これでは重要な情報が出力の近くに留まることを保証できません。私たちは、このギャップを埋めるための、生成しながら取得する新しいフレームワークである Micro-Macro Retrieval (M2R) を提案します。マクロレベルでは、M2R は外部ソースから大まかな証拠を取得します。ミクロレベルでは、推論中に構築された重要な情報リポジトリから重要な結果を抽出し、答えを生成する際にそれらを再利用します。この設計は、重要な情報と出力の近接性のボトルネックに直接対処し、長時間のタスクにおける幻覚を効果的に軽減します。 M2Rは、カスタマイズされたルールベースの報酬を使用したカリキュラム学習ベースの強化学習戦略でトレーニングされており、検索スキルとグラウンディングスキルの安定した習得を可能にします。さまざまなベンチマークにわたる広範な実験により、特に長いコンテキスト設定における M2R の有効性が実証されています。
原文 (English)
Micro-Macro Retrieval: Reducing Long-Form Hallucination in Large Language Models
Large Language Models (LLMs) achieve impressive performance across many tasks but remain prone to hallucination, especially in long-form generation where redundant retrieved contexts and lengthy reasoning chains amplify factual errors. Recent studies highlight a critical phenomenon: the closer key information appears to the model outputs, the higher the factual accuracy. However, existing retrieval-augmented language models (RALMs) lack effective mechanisms to ensure this proximity - external evidence is injected into reasoning via multi-turn retrieval, but this cannot ensure key information stays close to the outputs. We propose Micro-Macro Retrieval (M2R), a novel retrieve-while-generate framework to fill this gap. At the macro level, M2R retrieves coarse-grained evidence from external sources; at the micro level, it extracts essential results from a key information repository built during reasoning and reuses them while generating answers. This design directly addresses the key-information-to-output proximity bottleneck, effectively reducing hallucination in long-form tasks. M2R is trained with a curriculum learning-based reinforcement learning strategy using customized rule-based rewards, enabling stable acquisition of retrieval and grounding skills. Extensive experiments across different benchmarks demonstrate the effectiveness of M2R, especially in lengthy-context settings.
オープンソースの安全ガード モデルのベンチマーク: 包括的な評価
安全性が重要なアプリケーションに大規模言語モデル (LLM) が導入されることが増えているため、堅牢なコンテンツ モデレーションが不可欠になっています。 NIST AI リスク フレームワークの 8 つの安全カテゴリにまたがる 79,331 サンプルの厳選されたベンチマークに基づく 14 のオープンソース安全ガード モデルの包括的な評価を示します。当社のベンチマークは 4 つの多様なデータセット (HarmBench、StrongREJECT、RealToxicityPrompts、BeaverTails) を集約し、安全関連のコンテンツ (暴力、ヘイトスピーチ、嫌がらせ、性的コンテンツ、自殺/自傷行為、冒涜、脅迫、健康上の誤った情報) のみに焦点を当てるようにフィルタリングされています。有害なコンテンツの欠落は誤検知よりも大きなリスクをもたらすため、リコールは安全性アプリケーションにとって重要な指標であることがわかりました。私たちの評価では、驚くべき結果が明らかになりました。Qwen Guard (4B パラメーター) は最高の再現率 (83.97%) を達成しましたが、Llama Guard (12B) や GPT-OSS Safeguard (20B) などのより大きなモデルは保守的な動作を示し、安全でないコンテンツを最大 75% 見逃しました。我々は、モデルのサイズが安全検出のパフォーマンスと相関しないこと、および汎用のガード モデルが特殊なガード モデルよりも優れていることを実証します。これらの調査結果は、実稼働環境での安全装置モデルを選択するための実践的なガイダンスを提供します。
原文 (English)
Benchmarking Open-Source Safety Guard Models: A Comprehensive Evaluation
As Large Language Models (LLMs) are increasingly deployed in safety-critical applications, robust content moderation becomes essential. We present a comprehensive evaluation of 14 open-source safety guard models on a curated benchmark of 79,331 samples spanning 8 NIST AI Risk Framework safety categories. Our benchmark aggregates four diverse datasets (HarmBench, StrongREJECT, RealToxicityPrompts, and BeaverTails), filtered to focus exclusively on safety-relevant content (violence, hate speech, harassment, sexual content, suicide/self-harm, profanity, threats, and health misinformation). We find that recall is the critical metric for safety applications, as missing harmful content poses greater risk than false positives. Our evaluation reveals surprising results: Qwen Guard (4B parameters) achieves the highest recall (83.97%) while larger models like Llama Guard (12B) and GPT-OSS Safeguard (20B) exhibit conservative behavior, missing up to 75% of unsafe content. We demonstrate that model size does not correlate with safety detection performance and that general-purpose guard models outperform specialized ones. These findings provide practical guidance for selecting safety guard models in production deployments.
GenesisFunc: 正確かつ一般化可能な関数呼び出しのためのマルチエージェント データ生成
大規模言語モデル (LLM) は、関数呼び出し (FC) を通じて機能を拡張します。FC は、高品質、多様性、および幅広いシナリオをカバーするトレーニング データに依存します。ただし、実際の関数呼び出しデータを取得して注釈を付けるのは困難ですが、既存のパイプラインからの合成データは、多くの場合、信頼性の低い API、限られたツールのスケーラビリティ、不十分な多様性、弱い品質管理に悩まされます。これらに対処するために、FC トレーニング データを生成する自動パイプラインである GenesisFunc を紹介します。当社の GenesisFunc は、広く使用されている公開ベンチマークの信頼性の高いツールから始まり、マルチエージェント フレームワークを採用して、プロセス全体を通じて多様性と品質の両方を維持しながら、多様なシナリオにわたる会話を生成する対話生成システムをサポートします。データの精度は多段階の評価システムによってさらに強化されます。私たちは合成データセット上で 8B LLM を微調整し、広範な実験を通じて、ドメイン内の FC パフォーマンスとドメイン外の汎化において同様のサイズのオープンソース モデルを上回るパフォーマンスを示し、同時に最新の API ベースのモデルの一部と同等の FC 機能に達していることを示しました。さらに、私たちの方法は、下流のツール間で効果的に拡張できる強力な可能性を示しており、現実世界への適用可能性を強調しています。
原文 (English)
GenesisFunc: Multi-Agent Data Generation for Accurate and Generalizable Function-Calling
Large Language Models (LLMs) extend their capabilities through function-calling (FC), which relies on training data with high quality, diversity, and broad coverage of scenario. However, obtaining and annotating real function-calling data is challenging, while synthetic data from existing pipelines often suffers from unreliable APIs, limited tool scalability, insufficient diversity, and weak quality control. To address these, we present GenesisFunc, an automated pipeline for generating FC training data. Starting from reliable tools in widely used public benchmarks, our GenesisFunc employs a multi-agent framework to support a dialogue generation system that produces conversations spanning diverse scenarios, while maintaining both diversity and quality throughout the process. The accuracy of the data is further reinforced through a multi-stage evaluation system. We fine-tune an 8B LLM on the synthetic dataset and show through extensive experiments that it outperforms similarly sized open-source models in in-domain FC performance and out-of-domain generalization, while reaching FC capabilities comparable to some of the latest API-based models. In addition, our method demonstrates strong potential to scale effectively across downstream tools, underscoring its real-world applicability.
SERC:LDPC にヒントを得た検索拡張生成のためのセマンティック エラー修正
大規模言語モデル (LLM) は顕著な機能を実証していますが、その信頼性は幻覚によって大きく損なわれます。既存の固有の自己修正手法はこれに対処しようとしますが、モデルが外部検証なしで自身の出力内のエラーを特定するのに苦労する自己バイアスにより失敗することがよくあります。これらの制限を克服するために、我々は、LDPC にヒントを得た検索拡張生成 (SERC) のためのセマンティック エラー修正を提案し、LLM 幻覚を解釈し軽減するための理論的枠組みを提供します。テキスト生成プロセスを意味論的なノイズの多いチャネルとして再定式化し、生成された応答をノイズで破損したコードワードとして扱います。低密度パリティ チェック (LDPC) コードからインスピレーションを得た SERC は、スパース検証戦略を採用しています。つまり、すべての事実を徹底的にチェックするのではなく、低密度検証クエリを生成し、外部証拠に照らして検証して、エラーを効率的に検出して修正します。 Llama-3-8B および Qwen2.5-14B を使用して、LongForm Bio および TruthfulQA ベンチマークで SERC を評価します。実験結果は、SERC が固有の自己修正手法と強力な検索拡張ベースラインの両方を上回るパフォーマンスを示し、特に事実の精度 (FactScore) において大幅な向上を示しています。特に、SERC により、小型言語モデル (SLM) が幻覚の軽減と情報の保存において大規模なベースラインのパフォーマンスを上回ることが可能になります。私たちの調査結果は、SERC がトレーニング不要でモデルに依存しないソリューションを提供し、高密度メソッドと比較して検証オーバーヘッドを大幅に削減し、リソースに制約のある環境でコストと忠実度の間の最適なトレードオフを達成することを示しています。
原文 (English)
SERC: LDPC-Inspired Semantic Error Correction for Retrieval-Augmented Generation
While Large Language Models (LLMs) have demonstrated remarkable capabilities, their reliability is significantly compromised by hallucinations. Existing intrinsic self-correction methods attempt to address this, but often fail due to self-bias, where models struggle to identify errors in their own outputs without external verification. To overcome these limitations, we propose the LDPC-inspired semantic error correction for retrieval-augmented generation (SERC), providing a theoretical framework to interpret and mitigate LLM hallucinations. We reformulate the text generation process as a semantic noisy channel, treating generated responses as noise-corrupted codewords. Inspired by low-density parity-check (LDPC) codes, SERC employs a sparse verification strategy: instead of exhaustively checking all facts, it generates low-density verification queries and validates them against external evidence to efficiently detect and correct errors. We evaluate SERC on LongForm Bio and TruthfulQA benchmarks using Llama-3-8B and Qwen2.5-14B. Experimental results demonstrate that SERC outperforms both intrinsic self-correction methods and strong retrieval-augmented baselines, demonstrating significant gains especially in factual precision (FactScore). Notably, SERC enables small language models (SLMs) to surpass the performance of larger baselines in hallucination reduction and information preservation. Our findings demonstrate that SERC provides a training-free, model-agnostic solution that significantly reduces verification overhead compared to dense methods, achieving an optimal trade-off between cost and fidelity in resource-constrained environments.
LLM エージェントの一貫性はどの程度ですか?マルチステップのツール呼び出しパイプラインにおける動作の再現性の測定
ツール呼び出し機能を備えた大規模言語モデル (LLM) エージェントが実稼働システムに導入されることが増えていますが、根本的な信頼性の問題、つまり同じエージェントが 2 回同じように動作するかという問題はまだ解明されていません。我々は、エージェントが同じツールを同じ順序で、同じ引数で、同じ呼び出しを繰り返して選択するかどうかを測定する、複数ステップのツール呼び出しエージェントの動作の一貫性に関する体系的な実証研究を紹介します。 ReAct スタイルのエージェント (検索専用、フリーテキスト アクション) の一貫性に関する以前の研究とは異なり、型指定されたパラメーターと結果として生じる副作用を備えた構造化されたツール呼び出しインターフェイスのより豊富な設定を研究します。
原文 (English)
How Consistent Are LLM Agents? Measuring Behavioral Reproducibility in Multi-Step Tool-Calling Pipelines
Large language model (LLM) agents with tool-calling capabilities are increasingly deployed in production systems, yet a fundamental reliability question remains under-explored: does the same agent behave the same way twice? We present a systematic empirical study of behavioral consistency in multi-step tool-calling agents, measuring whether agents select the same tools, in the same order, with the same arguments, across repeated identical invocations. Unlike prior work on consistency in ReAct-style agents(search-only, free-text actions), we study the richer setting of structured tool-calling interfaces with typed parameters and consequential side effects.
計画としての思考: 強化計画による思考連鎖最適化のための潜在世界モデル
多様な NLP タスクにわたる大規模言語モデル (LLM) の成功により、モデルの動作をタスクの目標に合わせるための重要なステップとして、推論チェーンの最適化の重要性が高まっています。既存の推論チェーンのチューニング方法は、多くの場合、解釈可能性、一般化、およびサンプル効率に欠けるブラックボックス ヒューリスティックまたは勾配なしの検索に依存しています。この研究では、推論チェーンの最適化を潜在意味空間上の逐次的な意思決定プロセスとして形式化する新しいフレームワークである \textbf{Thoughts-as-Planning} を紹介します。 LLM を部分的に観察可能な環境としてモデル化し、下流の出力に対する推論チェーン編集の影響をシミュレートする潜在世界モデルを学習します。近接性を保持する埋め込み空間は、推論連鎖応答ダイナミクスをエンコードするために構築されており、勾配降下法または強化学習による計画を可能にします。私たちのメソッドはマルチスケールの抽象化をサポートしており、トークン、セグメント、命令レベルでの推論チェーン編集を統合プランナーに統合できます。言語理解と生成タスクに関する広範な実験を通じて、Thoughts-as-Planning が効率、堅牢性、一般化の点で最先端の推論チェーン調整ベースラインを上回り、その構造化された計画軌道を通じて解釈可能性を提供することを実証しました。私たちのコードは https://github.com/FastLM/Thoughts-as-Planning で入手できます。
原文 (English)
Thoughts-as-Planning: Latent World Models for Chain-of-Thoughts Optimization via Reinforcement Planning
The success of large language models (LLMs) across diverse NLP tasks has elevated the importance of reasoning chain optimization as a critical step in aligning model behavior with task objectives. Existing reasoning chain tuning methods often rely on black-box heuristics or gradient-free search, which lack interpretability, generalization, and sample efficiency. In this work, we introduce \textbf{Thoughts-as-Planning}, a novel framework that formalizes reasoning chain optimization as a sequential decision-making process over a latent semantic space. We model the LLM as a partially observable environment and learn a latent world model that simulates the effect of reasoning chain edits on downstream outputs. A proximity-preserving embedding space is constructed to encode reasoning chain-response dynamics, enabling planning via gradient descent or reinforcement learning. Our method supports multi-scale abstraction, allowing reasoning chain edits at token, segment, and instruction levels to be integrated into a unified planner. Through extensive experiments on language understanding and generation tasks, we demonstrate that Thoughts-as-Planning outperforms state-of-the-art reasoning chain tuning baselines in efficiency, robustness, and generalization, while offering interpretability through its structured planning trajectory. Our code is available at https://github.com/FastLM/Thoughts-as-Planning.
壊滅的な忘却のメカニズムの起源: なぜ RL は SFT よりも回路を保存しやすいのでしょうか?
大規模言語モデル (LLM) を微調整すると、以前の機能が壊滅的に忘れられてしまうことがよくあります。最近の研究では、強化学習 (RL) が教師あり微調整 (SFT) よりも効果的に以前の機能を保持することが示されており、これはポリシー勾配更新が基本ポリシー \cite{shenfeld2025rl} に近い状態に留まっているためであると考えられます。私たちはこの行動の説明を機構レベルに拡張し、RL の利点が内部計算回路のより強力な保存によって反映されるかどうかを尋ねます。微調整下で回路がどの程度劣化するかを示すヘッドレベルの尺度である差動回路の脆弱性を導入し、科学的な質問応答に適応した Qwen2.5-3B-Instruct の RL と SFT を比較するためにそれを使用します。我々は、明らかな機構的なトレードオフを発見しました。SFT は、ターゲット タスクにより迅速に適応しますが、回路の中断と以前の機能の忘却が大幅に大きくなります。一方、RL は、タスクの適応が遅くなる代わりに、基本回路の大部分を保持します。これらの発見は、回路の保存がなぜRLが壊滅的な忘却に対してより堅牢であるかを説明するのに役立つ可能性があることを示唆しています。私たちはここでコードをリリースしました: https://github.com/rl-sft-circuit-research/fferential-circuit-vulnerability。
原文 (English)
Mechanistic origins of catastrophic forgetting: why RL preserves circuits better than SFT?
Fine-tuning large language models (LLMs) frequently induces catastrophic forgetting of prior capabilities. Recent work has shown that reinforcement learning (RL) retains prior capabilities more effectively than supervised fine-tuning (SFT), attributing this to policy-gradient updates remaining closer to the base policy \cite{shenfeld2025rl}. We extend this behavioral account to the mechanistic level and ask whether RL's advantage is mirrored by stronger preservation of internal computational circuits. We introduce differential circuit vulnerability, a head-level measure of how much a circuit degrades under fine-tuning, and use it to compare RL and SFT on Qwen2.5-3B-Instruct adapted to scientific question-answering. We find a clear mechanistic trade-off: SFT adapts more rapidly to the target task but produces substantially greater circuit disruption and forgetting of prior capabilities, whereas RL preserves a larger fraction of the base circuit at the cost of slower task adaptation. These findings suggest that circuit preservation may help explain why RL is more robust to catastrophic forgetting. We released our code here: https://github.com/rl-sft-circuit-research/differential-circuit-vulnerability.
連続性と順序性が重要: 大規模な言語モデルを使用した効果的な時系列分析のための時系列トークンの制約
トークンベースの時系列大規模言語モデル (TS-LLM) は、時系列分析と推論の有望な方向性として浮上しています。ただし、これまでの研究では、時系列トークンの固有の連続性と順序性がほとんど見落とされており、モデルのパフォーマンスが大幅に制限されています。この論文では、時系列トークン埋め込みでこれらのプロパティを保持することが、トークンベースの TS-LLM の有効性にとって重要であると主張します。この目的を達成するために、初期化段階とトレーニング段階の両方に幾何学的制約を統合する、連続性と順序性を意識した戦略である COM (Continuity and Ordinality Matter) を提案します。複数の時系列分析ベンチマークの実証結果は、COM がトークンベースの TS-LLM のパフォーマンスを一貫して向上させ、競争力のある結果と強力な汎用性を実現していることを示しています。コードは https://anonymous.4open.science/r/COM で入手できます。
原文 (English)
Continuity and Ordinality Matter: Constraining Time Series Tokens for Effective Time Series Analysis with Large Language Models
Token-based time series large language models (TS-LLMs) have emerged as a promising direction for time series analysis and reasoning. However, prior studies largely overlook the inherent continuity and ordinality of time series tokens, which substantially limits model performance. In this paper, we argue that preserving these properties in time series token embeddings is crucial for the effectiveness of token-based TS-LLMs. To this end, we propose COM (Continuity and Ordinality Matter), a continuity- and ordinality-aware strategy that integrates geometric constraints into both the initialization and training stages. Empirical results on multiple time series analysis benchmarks demonstrate that COM consistently improves the performance of token-based TS-LLMs, achieving competitive results and strong generalizability. Code is available at https://anonymous.4open.science/r/COM .
LogDx-CI: LLM 根本原因診断のためのベンチマーク ログ削減ツール
CI 障害ログは大きく (中央値 5k 行、このコーパスでは最大 200k)、ノイズが多くなります。ログをデバッグしようとするコーディング エージェントは、ログを管理可能なコンテキストに削減する上流のツールに依存していますが、この分野では、どの削減が下流の LLM 診断に十分な証拠を保持するかについて、公的に実証された比較が行われていません。 LogDx-CI は、11 のコンテキスト削減ツール (raw、tail、grep、3 つの RTK モード、2 つの実際の LLM マップリデュース サマライザー、3 つのハイブリッド ルーター) を 35 の実際の GitHub Actions 障害ケースで比較するベンチマークであり、3 つの LLM デバッガー ファミリ (Claude Haiku 4.5、Claude Sonnet 4.6、OpenAI gpt-5-mini) と Sonnet 4.6 ツールを使用してスコア付けされました。エージェント。耐荷重に関する 3 つの調査結果を報告します。 (1)~ハイブリッド grep+tail ルーターがコスト品質のパレートフロンティアを支配しています。上位 2 つのメソッドのスコアは、ケースごとに $\sim$ \$0.03 で 0.670 / 0.666 で、$4.5\times$ 少ないトークンでスタンドアロン grep とほぼ同じ品質です。 (2)~エージェント ループ方式では、リダクション ツール全体の品質範囲が $7\times$ 崩壊します (シングルショット スプレッド 0.42 $\to$ エージェント ループ スプレッド 0.059)。エージェントは、フォローアップ ツール呼び出しを通じて弱いコンテキストを救出します。ただし、コストの差は依然として残ります。コンテキストが弱い場合、エージェントは回復するために 2 ~ 4$\times$ 回多くのツール呼び出しを発行する必要があります。 (3)~ファミリー間 LLM サマリー ペア (Claude Haiku デバッガーにフィードする gpt-5-mini サマライザー) は、4 つの診断ツール バリアントの平均で、同じファミリー ペアを $+0.071$ 上回っており、このタスクに関するセルフコール バイアス仮説を偽っています。 gpt-5-mini サマライザーは、エージェント ループ \#1 メソッド (スコア 0.749) でもあり、ケースあたりのツール呼び出しは $0.37$ で、リデューサー コストは Haiku サマライザーよりも $10\time$ 低くなります (ケースあたり \$0.18 対 \$1.75)。すべてのデータ、コード、ケースごとのバンドル、再現性インフラストラクチャは公開されています。
原文 (English)
LogDx-CI: Benchmarking Log Reduction Tools for LLM Root-Cause Diagnosis
CI failure logs are large (median 5k lines, max 200k in this corpus) and noisy. Coding agents that try to debug them depend on an upstream tool to reduce the log to a manageable context, but the field has had no public empirical comparison of which reductions preserve enough evidence for downstream LLM diagnosis. We introduce LogDx-CI, a benchmark that compares 11 context-reduction tools (raw, tail, grep, three RTK modes, two real LLM map-reduce summarizers, three hybrid routers) on 35 real GitHub Actions failure cases, scored by 3 LLM debugger families (Claude Haiku 4.5, Claude Sonnet 4.6, OpenAI gpt-5-mini) plus a Sonnet 4.6 tool-using agent. We report three load-bearing findings. (1)~Hybrid grep+tail routers dominate the cost-quality Pareto frontier; the top two methods score 0.670 / 0.666 at $\sim$ \$0.03 per case, same-ballpark quality as standalone grep at $4.5\times$ fewer tokens. (2)~In the agent-loop regime, the quality range across reduction tools collapses $7\times$ (single-shot spread 0.42 $\to$ agent-loop spread 0.059); the agent rescues weak contexts via follow-up tool calls. However, cost differences persist: weak contexts force the agent to issue 2--4$\times$ more tool calls to recover. (3)~A cross-family LLM-summary pair (gpt-5-mini summarizer feeding a Claude Haiku debugger) beats the same-family pair by $+0.071$ averaged across four diagnoser variants, falsifying the self-call-bias hypothesis on this task. The gpt-5-mini summarizer is also the agent-loop \#1 method (score 0.749) at $0.37$ tool-calls per case and $10\times$ lower reducer cost than the Haiku summarizer (\$0.18 vs \$1.75 per case). All data, code, per-case bundles, and reproducibility infrastructure are public.
臨床要約のための幻覚検出に基づく好みの最適化
大規模言語モデル (LLM) は、要約タスクでは有望であることが示されていますが、幻覚を引き起こすことがよくあります。幻覚はサポートされていない、または間違った記述であり、特殊な医療アプリケーションでの信頼性が制限されます。 \itermodelfull (\itermodel) という推論時間手法を導入します。これは、幻覚検出器を活用して、事実の修正に向けて反復的な要約改訂をガイドします。これに基づいて、検出器による調整軌道をモデルの微調整のための好みのペアに変換する、好み学習のための \itermodel (\model) を提案します。広範な実験により、\MimicIV からの現実世界の臨床ノートを要約する際に、私たちの方法がラマ モデルとジェマ モデルの幻覚を大幅に軽減することが示されました。たとえば、Llama-3.1-8B-Instruct の \itermodel は 24\% を軽減し、\model は 48\% の幻覚を軽減します。重要なのは、人間の専門家と LLM 陪審の評価に従って、両方の方法で要約の流暢性、一貫性、および関連性が維持されることです。これらの結果を総合すると、検出に基づいた改良と好みの学習が、臨床要約における事実の忠実性を向上させるための自動化されたソリューションを提供することを示しています。
原文 (English)
Hallucination Detection-Guided Preference Optimization for Clinical Summarization
Large language models (LLMs) have shown promise on summarization tasks, but they often produce hallucinations, which are unsupported or incorrect statements that limit their reliability in specialized healthcare applications. We introduce \itermodelfull (\itermodel), an inference-time method that leverages hallucination detectors to guide iterative summary revisions toward factual corrections. Building on this, we propose \itermodel for Preference Learning (\model), which converts detector-guided refinement trajectories into preference pairs for model finetuning. Extensive experiments show that our methods substantially reduce hallucinations for Llama and Gemma models in summarizing real-world clinical notes from \MimicIV. For example, \itermodel reduces 24\% and \model reduces 48\% hallucinations in Llama-3.1-8B-Instruct. Importantly, both methods preserve summary fluency, coherence, and relevance according to human expert and LLM-Jury evaluations. Together, these results demonstrate that detection-informed refinement and preference learning offer an automated solution for improving factual faithfulness in clinical summarization.
アインシュタイン望遠鏡のシミュレートされたデータの分析に適用されたエージェント AI の初の直接比較
我々は、人間の介入なしに共有コンピューティング インフラストラクチャ上でシンプルなエンドツーエンドの重力波データ分析パイプラインを自律的に実行するという 2 つの最先端のエージェント AI システム、Claude Code (Anthropic) と Codex (OpenAI) の比較を報告します。このパイプラインは、生のアインシュタイン望遠鏡でシミュレートされたノイズからのパワー スペクトル密度推定、幾何学的テンプレート バンクの生成、100 個のバイナリ ブラック ホール信号注入の整合フィルター回復、自動結果生成、および Physical Review D のスタイルでフォーマットされた原稿の大規模言語モデル支援の作成で構成されます。両方のエージェントは、同一の仕様書と同一のコンピューティング リソースを受け取りました。実験は 2 回実行されました。1 回目は非現実的な大音量の注入を使用して実行され、2 回目は物理的に動機付けられた SNR 範囲に再スケーリングされた信号を使用して実行されました。科学的結果は両方の実行で収束しました。ただし、エージェントは大幅に異なる動作と計算コストを示しました。Claude Code は、仕様からのサイレント逸脱はありますが、パイプラインを約 3.4 分で完了しましたが、Codex は、整合フィルターの内部ループの一方的なパフォーマンスの最適化を含む、明示的な自己修正の再起動に約 16 分を要しました。自律的に生成された原稿も、長さ、詳細、品質が異なりました。 2 回目の実行では、SNR 範囲の命令の解釈における微妙な違いが、真の科学的相違につながりました。Claude Code は命令を黙って再解釈しましたが、Codex は文字通り仕様に従いました。速度と可聴性、サイレントと透過的なエラー処理、命令の解釈、マルチモデル パイプラインにおける中間データ表現の重要性など、これらの動作の違いが科学技術コンピューティング ワークフローでのエージェント AI の展開に与える影響について説明します。
原文 (English)
First head-to-head comparison of agentic AI applied to the analysis of simulated data of the Einstein Telescope
We report a comparison of two state-of-the-art agentic AI systems, Claude Code (Anthropic) and Codex (OpenAI), tasked with autonomously executing a simple end-to-end gravitational wave data analysis pipeline on a shared computing infrastructure without human intervention. The pipeline comprises power spectral density estimation from raw Einstein Telescope simulated noise, geometric template bank generation, matched filter recovery of 100 binary black hole signal injections, automated results generation, and large language model-assisted production of a manuscript formatted in the style of Physical Review D. Both agents received identical written specifications and identical compute resources. The experiment was run twice: a first run with unrealistically loud injections, and a second run with signals rescaled to a physically motivated SNR range. The scientific results converged in both runs. However, the agents exhibited substantially different behaviors and computational costs: Claude Code completed the pipeline in ~3.4 minutes with silent deviations from the specification, while Codex required ~16 minutes across explicit self-correcting restarts, including an unsolicited performance optimization of the matched filter inner loop. The autonomously generated manuscripts also diverged in length, details, and quality. In the second run, a subtle difference in the interpretation of the SNR range instruction led to a genuine scientific divergence: Claude Code silently reinterpreted the instructions, while Codex followed the specification literally. We discuss the implications of these behavioral differences, such as speed versus auditability, silent versus transparent error handling, instruction interpretation, and the criticality of intermediate data representations in multi-model pipelines, for the deployment of agentic AI in scientific computing workflows.
LLM ベースの履歴書スクリーニングにおける現実世界のプロンプト インジェクション攻撃の測定
LLM はプロンプト インジェクション攻撃に対して脆弱です。ただし、この脆弱性は主に学術研究やいくつかの事例研究を通じて概念的に実証されています。実際の LLM ベースのアプリケーションにおけるその普及と影響は、ほとんど解明されていません。この研究では、広く使用されているアプリケーションである LLM ベースの履歴書スクリーニングにおけるプロンプト インジェクション攻撃の最初の体系的な研究を紹介します。私たちの分析は、hireEZ が数年にわたって収集した約 20 万件の実際の履歴書に基づいています。まず、履歴書への即時挿入を検出するためのカスタマイズされた方法を設計します。小規模のデータセットを手動で検証すると、当社の検出器が高精度を達成し、最先端の汎用検出器を上回る性能を発揮することが実証されています。次に、検出器を完全な再開データセットに適用し、現実世界のプロンプト インジェクション攻撃の包括的な測定研究を実施します。私たちの分析では、いくつかの興味深い調査結果が明らかになりました。履歴書の約 1% に、隠されたプロンプト インジェクションが含まれています。このような注入された履歴書の普及率は、過去 1 ~ 2 年で著しく増加しています。また、挿入されたプロンプトの 90% 以上は明示的な命令を使用しません。これらの結果は、現実世界の LLM ベースのアプリケーションにおける大規模なプロンプト インジェクションの最初の証拠を提供し、そのような攻撃を理解して軽減するための将来の研究の基礎を築きます。
原文 (English)
Measuring Real-World Prompt Injection Attacks in LLM-based Resume Screening
LLMs are vulnerable to prompt injection attacks. However, this vulnerability has been primarily demonstrated conceptually in academic studies or through a few anecdotal case studies. Its prevalence and impact in real-world LLM-based applications are largely unexplored. In this work, we present the first systematic study of prompt-injection attacks in a widely used application: LLM-based resume screening. Our analysis is based on approximately 200K real-world resumes collected over multiple years by hireEZ. We first design tailored methods to detect prompt injection in resumes. Manual validation on a small-scale dataset demonstrates that our detectors achieve high precision and outperform state-of-the-art general-purpose detectors. We then apply our detector to the full resume dataset and conduct a comprehensive measurement study of real-world prompt injection attacks. Our analysis reveals several intriguing findings: approximately 1% of resumes contain hidden prompt injections; the prevalence of such injected resumes has increased noticeably over the past one to two years; and more than 90% of injected prompts do not use explicit instructions. These results provide the first evidence of large-scale prompt injection in real-world LLM-based applications and lay the groundwork for future studies to understand and mitigate such attacks.
SCDBench: LLM ベースのスマート コントラクト デコンパイラーのベンチマーク
スマート コントラクトの逆コンパイルは、バイトコードから高レベルのソース コードを復元することを目的としていますが、既存の研究では狭いデータセット、一貫性のないメトリクス、限定的なセマンティック一貫性チェックが使用されているため、逆コンパイラーの評価は依然として困難です。大規模言語モデル (LLM) が、たとえそのセマンティクスが元のコントラクトから異なっていても、コンパイルされてもっともらしいと思われるソースのような Solidity を生成し始めるにつれて、このギャップはますます重要になります。 LLM ベースのスマート コントラクト逆コンパイルのためのデータセットおよびベンチマーク手法である SCDBench を紹介します。データセットには、ペアのバイトコード入力、グラウンドトゥルースのソースコード、再生可能なセマンティックチェックポイントを備えた 600 の実世界の Solidity コントラクトが含まれています。 SCDBench は、形式の完全性、コンパイル可能性、アプリケーション バイナリ インターフェイス (ABI) の回復、および差分再生によるセマンティックの一貫性という 4 つの累積的な段階を通じて逆コンパイラーの出力を評価します。 Claude Opus 4.7、GPT-5.3-Codex、GLM-5 をゼロショット逆コンパイル設定で評価します。これには、拡張推論およびゼロショット コンパイル修復設定の有無にかかわらず GLM-5 バリアントが含まれます。結果は、フロンティア LLM は多くの場合、構造化されコンパイル可能な Solidity を生成できることを示していますが、セマンティックな一貫性の達成はまだ解決には程遠く、最もパフォーマンスの高いフロンティア モデルは 42/600 コントラクトのみを完全に逆コンパイルします。さらに、同一モデルのコンパイル修復を導入すると、わずかな追加コストでパフォーマンスが大幅に向上することも示します。 SCDBench は、厳密で再現可能な評価のための共通基盤を確立し、ブロックチェーンのセキュリティと透明性のための信頼できるスマート コントラクト デコンパイラーの開発を加速することを目的としています。
原文 (English)
SCDBench: A Benchmark for LLM-Based Smart Contract Decompilers
Smart contract decompilation aims to recover high-level source code from bytecode, but evaluating decompilers remains difficult because existing studies use narrow datasets, inconsistent metrics, and limited semantic consistency checks. This gap is increasingly important as large language models (LLMs) begin to generate source-like Solidity that may compile and appear plausible, even when its semantics diverge from the original contract. We introduce SCDBench, a dataset and benchmark methodology for LLM-based smart contract decompilation. The dataset contains 600 real-world Solidity contracts with paired bytecode inputs, ground-truth source code, and replayable semantic checkpoints. SCDBench evaluates decompiler outputs through four cumulative stages: format completeness, compilability, Application Binary Interface (ABI) recovery, and semantic consistency via differential replay. We evaluate Claude Opus 4.7, GPT-5.3-Codex, and GLM-5 in a zero-shot decompilation setting, including GLM-5 variants with and without extended reasoning and a zero-shot compilation-repair setting. The results show that frontier LLMs can often produce structured and compilable Solidity, but achieving semantic consistency remains far from solved: the best-performing frontier model perfectly decompiles only 42/600 contracts. We further show that introducing same-model compilation repair substantially improves performance at modest additional cost. SCDBench establishes a common ground for rigorous, reproducible evaluation and aims to accelerate the development of reliable smart contract decompilers for blockchain security and transparency.
構造化プロンプトの最適化と強化学習の融合により、複雑なテキストに対するグローバルおよびローカルの解釈可能性が実現
LLM は高度なテキスト分類を備えていますが、既存のパラダイムはトレードオフに直面しています。教師付き (ラベルのみ) 微調整はスケーラブルですが、複雑なテキストに対する推論が限られており、広範なモデルの透明性に欠けています。一方、離散プロンプト最適化は人間が読める命令を提供しますが、パフォーマンスとスケーラビリティに苦労します。私たちは、3 つの段階的な段階を持つ eXTC (eXplainable Text Classifier) を導入します。(1) 新しい構造化プロンプト最適化アルゴリズムを介して、自然言語で標準操作手順 (SOP、またはルールブック) を学習します。 (2) SOP に基づいた推論を大規模な教師 LLM からコンパクトな LM に抽出します。 (3) 強化学習により、初期 SOP を超えて推論能力を拡張します。この設計により、eXTC は、(i) コンパクトな LM を介した高速推論、(ii) 学習したドメイン ルールのグローバルなモジュール式説明と並行した推論時のローカル推論トレースを提供できるようになり、(iii) 分類パフォーマンスと説明品質の両方において、さまざまなベンチマークにわたって既存のパラダイムを大幅に上回り、段階ごとに向上します。
原文 (English)
Structured Prompt Optimization Meets Reinforcement Learning for Global and Local Interpretability over Complex Text
LLMs have advanced text classification, yet existing paradigms face a trade-off: supervised (label only) fine-tuning is scalable but offers limited reasoning on complex text and lacks broader model transparency, while discrete prompt optimization offers human-readable instructions but struggles with performance and scalability. We introduce eXTC (eXplainable Text Classifier) with three progressive stages: (1) learning a Standard Operating Procedure (SOP, or rulebook) in natural language via a new Structured Prompt Optimization algorithm; (2) SOP-grounded reasoning distillation from a large teacher LLM into a compact LM; and (3) expanding reasoning capabilities beyond the initial SOP via reinforcement learning. This design enables eXTC to provide (i) fast inference via a compact LM, with (ii) inference-time local reasoning traces, alongside a global, modular explanation of its learned domain rules, while (iii) significantly outperforming existing paradigms across diverse benchmarks in both classification performance and explanation quality, with stage-by-stage gains.
GEO-Bench: 生成エンジン最適化におけるランキング操作のベンチマーク
大規模言語モデル (LLM) では、ユーザーのクエリに対する製品、ドキュメント、推奨事項のランク付けが増えており、これらのランク付けを操作することによる公平性と情報の完全性への懸念が高まっています。生成エンジン最適化 (GEO) に関する研究により、多くの操作方法が生み出されてきましたが、それぞれの操作方法は独自のメトリクスを使用して独自のデータセットで評価されるため、それらの相対的な強度と検出可能性は不明のままです。 1 つのプロトコルの下で GEO ランキング操作攻撃を評価するベンチマークである GEO-Bench を紹介します。ブラック ボックスのプロンプト ベースの攻撃 (TAP、ゼロショット)、ホワイト ボックスの勾配ベースの攻撃 (STS、RAF、StealthRank)、および 10 のホワイト ハット C-SEO 戦略を統合します。有効性 (NRG、Success@{\alpha}、Promote@{\alpha}) とステルス (キーワード違反率、困惑率) の両方のメトリクスを使用して、固定オープンウェイト ランカー (Llama-3.1-8B-Instruct) に対して 5 つのデータセットのすべてのメソッドをスコア付けします。私たちの評価では、敵対的攻撃全体で有効性とステルス性がトレードオフであること、ブラック ボックス コンテンツの書き換えは、より流暢なテキストを生成しながら、ランク昇格に対する勾配ベースの攻撃と同等かそれを上回っており、一部のドメインではキーワード ベースと複雑さベースの検出の両方を回避できること、アクセス モデルが攻撃強度を予測していないことが示されています。 GEO-Bench は、データセット、攻撃実装、メトリクスを標準化することで、これらの攻撃パラダイム全体での初めての直接比較を可能にし、検出方法の開発をサポートします。
原文 (English)
GEO-Bench: Benchmarking Ranking Manipulation in Generative Engine Optimization
Large language models (LLMs) increasingly rank products, documents, and recommendations for user queries, which makes manipulating these rankings a growing concern for fairness and information integrity. Research on generative engine optimization (GEO) has produced many manipulation methods, but each is evaluated on its own dataset with its own metrics, so their relative strength and detectability stay unclear. We present GEO-Bench, a benchmark that evaluates GEO ranking-manipulation attacks under one protocol. It unifies black-box prompt-based attacks (TAP, Zero-Shot), white-box gradient-based attacks (STS, RAF, StealthRank), and ten white-hat C-SEO strategies. We score every method on five datasets against a fixed open-weight ranker (Llama-3.1-8B-Instruct), using metrics for both effectiveness (NRG, Success@{\alpha}, Promote@{\alpha}) and stealth (keyword violation rate, perplexity ratio). Our evaluation shows that effectiveness and stealth trade off across adversarial attacks, that black-box content rewriting matches or exceeds gradient-based attacks on rank promotion while producing more fluent text and can evade both keyword- and perplexity-based detection on some domains, and that the access model does not predict attack strength. By standardizing datasets, attack implementations, and metrics, GEO-Bench enables the first direct comparison across these attack paradigms and supports the development of detection methods.
明示的なコンテキストフィードバックによる LLM 推奨におけるユーザーの好みの調整に向けて
従来のレコメンダー システム (RecSys) は、主に暗黙的なシグナル (クリック、視聴、購入など) からユーザーの好みを推測し、コメントやレビューなど、ユーザーが口頭テキストを通じて提供する豊富で明示的な文脈に応じたフィードバックを無視することがよくありました。この明示的なコンテキスト フィードバックは、ユーザーの好みに関する決定の背後にある微妙な理由を捉えます。さらに、ユーザーの好みを調整するための重要な異種情報と、より説明しやすい推奨事項を提供します。このような信号を見落とすと、アルゴリズムがユーザーの選択の背後にある「意味論的コンテキスト」を理解できないため、ユーザーの好みの調整がずれ、フィルターバブルがさらに強化される可能性があります。大規模言語モデル (LLM) の最近の進歩により、ユーザー生成コンテンツを利用してより正確で多様なレコメンデーションを実現する新たな機会が生まれていますが、現在の LLM ベースのレコメンデーションは依然としてアイテムのメタデータの使用に焦点を当てており、このリソースが十分に活用されていません。このペーパーでは、次世代の LLM ベースの RecSys において明示的なコンテキスト フィードバックを優先することを提唱します。私たちは、レコメンデーションパラダイムの進化をレビューし、コンテキスト豊富なフィードバックの価値を強調し、新しいベンチマークとメトリクスを求め、明示的なユーザーシグナルをスケーラブルな LLM 駆動の RecSys に統合するためのフレームワークを導入します。ユーザーの好みのモデリングを中心に、よりパーソナライズされ、透明性があり、説明可能な RecSys オンライン プラットフォームを促進することを目指しています。
原文 (English)
Toward User Preference Alignment in LLM Recommendation via Explicit Context Feedback
Traditional recommender systems (RecSys) primarily infer user preferences from implicit signals (such as clicks, watches, and purchases), often neglecting the rich explicit contextual feedback users provide through verbal text, like comments and reviews. This explicit context feedback captures the nuanced reasons behind user decisions regarding their preferences. In addition, it offers critical heterogeneous information for user preference alignment and more explainable recommendations. Overlooking such signals can lead to misaligned user preferences and further reinforce filter bubbles, as algorithms fail to understand the "semantic context" behind user choices. Recent advances in Large Language Models (LLMs) present new opportunities to harness user-generated content for more accurate and diverse recommendations, yet current LLM-based recommendations still focus on using item meta-data and underutilize this resource. In this paper, we advocate for prioritizing explicit context feedback in the next generation of LLM-based RecSys. We review the evolution of recommendation paradigms, highlight the value of context-rich feedback, call for new benchmarks and metrics, and introduce frameworks for integrating explicit user signals into scalable LLM-driven RecSys. Centering on user-preference modeling, we aim to foster more personalized, transparent, and explainable RecSys online platforms.
視差: 言語モデリングのためのパラメータ化されたローカル線形アテンション
大規模言語モデル (LLM) は人工知能の中心的なパラダイムとなっていますが、注意の核となる計算プリミティブは構造的に変わっていません。ローカル線形アテンション (LLA) は、テスト時回帰フレームワークのノンパラメトリック統計から派生したアテンション メカニズムです。効率的な注意バリアントに関する先行研究とは対照的に、LLA はソフトマックス アテンションの局所定数推定を局所線形推定にアップグレードし、連想記憶に対して明らかに優れたバイアス分散トレードオフをもたらします。ただし、計算および数値の安定性に関する懸念のため、LLA は LLM 事前トレーニングではスケーリングされていません。 LLM 向けにスケーラブルなパラメータ化されたローカル リニア アテンションである Parallax を紹介します。 Parallax は LLA の数値ソルバーを排除し、KV 共分散を調査する追加のクエリのようなプロジェクターを学習します。私たちは視差を、帯域幅、プローブ構造、アフィン構造によって接続された注意メカニズムのファミリーの中に配置します。私たちは、FlashAttention よりも演算強度を高め、より計算に集中した領域に注意を移す、ハードウェア認識アルゴリズムを提案します。私たちのプロトタイプのデコード カーネルは、さまざまなバッチ サイズとコンテキスト長にわたって、FlashAttendant 2/3 と同等またはそれを上回るパフォーマンスを発揮します。視差を 0.6B および 1.7B スケールで事前トレーニングし、ダウンストリーム ベンチマークに転送されるゲインにより、事前トレーニング全体を通じて一貫したパープレキシティの改善が見られます。この利点は、パラメーター一致制御と計算一致制御の両方で持続し、パレートの改善を示しています。私たちは慎重な事前トレーニングアブレーションを実行し、ミューオンが視差の能力を解放するという新しい現象を特定しました。私たちの知る限り、これは、アーキテクチャ研究文献におけるアテンション メカニズムのための強力なアーキテクチャ オプティマイザー コードデザインの最初の実証的実証です。
原文 (English)
Parallax: Parameterized Local Linear Attention for Language Modeling
Large Language Models (LLMs) have become the central paradigm in artificial intelligence, yet the core computational primitive of attention has remained structurally unchanged. Local Linear Attention (LLA) is an attention mechanism derived from nonparametric statistics in the test-time regression framework. In contrast to prior research on efficient attention variants, LLA upgrades the local constant estimate in softmax attention to a local linear estimate, yielding provably superior bias-variance tradeoffs for associative memory. However, LLA has not been scaled in LLM pretraining due to computational and numerical stability concerns. We introduce Parallax, a parameterized Local Linear Attention that is scalable for LLMs. Parallax eliminates the numerical solver in LLA and learns an extra query-like projector that probes the KV covariance. We place Parallax within a family of attention mechanisms connected by the bandwidth, the probe construction and the affine structure. We propose a hardware-aware algorithm that increases the arithmetic intensity over FlashAttention, shifting attention into a more compute bound regime. Our prototype decode kernel matches or outperforms FlashAttention 2/3 across diverse batch sizes and context lengths. We pretrain Parallax at 0.6B and 1.7B scales and find consistent perplexity improvements throughout pretraining with gains that transfer to downstream benchmarks. The advantage persists under both parameter-matched and compute-matched controls, demonstrating a Pareto improvement. We perform careful pretraining ablations and identify a novel phenomenon whereby Muon unlocks the capacity of Parallax. To our knowledge, this is the first empirical demonstration of strong architecture-optimizer codesign for attention mechanisms in the architecture research literature.
Influence-Guided Symbolic Regression: Scientific Discovery via LLM-Driven Equation Search with Granular Feedback
Large Language Models (LLMs) offer a promising avenue for scientific discovery, yet their application to symbolic regression is often const…
Relevance as a Vulnerability: How Web Retrieval Degrades Safety Alignment in LLM Agents
AI agents augment large language models with external tools such as web retrieval, enabling grounded and up-to-date responses. However, inc…
BlockBatch: Multi-Scale Consensus Decoding for Efficient Diffusion Language Model Inference
Diffusion language models (dLLMs) generate text by iteratively denoising multiple token positions in parallel, offering an attractive alter…
Compute Allocation in Evolutionary Search: From Depth-Breadth to Multi-Armed Bandits
LLM-guided evolutionary search (Evolve systems) has reached state-of-the-art results on mathematical and combinatorial tasks, yet most exis…
MusTBENCH: Benchmarking and Advancing Temporal Grounding in Music LLMs
Recent Large Audio-Language Models (LALMs) have demonstrated promising abilities in understanding musical content. However, whether their r…
GrepSeek: Training Search Agents for Direct Corpus Interaction
Large Language Model (LLM) search agents have shown strong promise for knowledge-intensive language tasks through multiple rounds of reason…
GDSD: Reinforcement Learning as Guided Denoiser Self-Distillation for Diffusion Language Models
Reinforcement learning (RL) can be used to improve the policy (denoiser) of diffusion large language models (dLLMs), while being hindered b…
Semantic and Visual Evidence for Efficient Long-Video Reasoning: A Solution for the HD-EPIC VQA Challenge
Understanding long-form egocentric videos remains challenging for multimodal large language models (MLLMs) due to limited context length an…
SkillBrew: Multi-Objective Curation of Skill Banks for LLM Agents
Retrieval-augmented LLM agents increasingly rely on curated skill banks: collections of reusable textual principles that guide decision mak…
Adaptive Interviewing for Persona Simulation in LLMs: Evidence-Grounded Reasoning Improves Decision Alignment
Accurately simulating the decisions of a specific individual remains challenging for large language models (LLMs), partly because persona i…
SciIntBench: Measuring LLM Compliance with Research Integrity Norms Under Adversarial Framing
Large language models (LLMs) are increasingly used to support scientific work, but it is unclear whether they uphold responsible conduct of…
Inform, Coach, Relate, Listen: Auditing LLM Caregiving Support Roles
Language models are increasingly being deployed for conversational support in informal caregiving contexts, where interactions often extend…
MOOSE-Copilot: A Web-Based Interactive Assistant for Unified Exploratory and Fine-Grained Scientific Hypothesis Discovery
Large language models (LLMs) show remarkable potential in scientific hypothesis discovery. However, existing approaches face two critical l…
KBF: Knowledge Boundary as Fingerprint for Language Model and Black-Box API Auditing
Relay and reseller APIs increasingly intermediate access to large language models (LLMs), but users have no direct way to verify that a cla…
GUITestScape: Towards Open-set Evaluation on Exploratory GUI Testing
Exploratory GUI testing is a particularly demanding setting for MLLM agents: without predefined test scripts, an agent must autonomously na…
SCOPE: A Lightweight-training LLM Framework for Air Traffic Control Readback Monitoring
Pilot readback of Air Traffic Control (ATC) voice instructions is a primary safeguard against miscommunication in air transportation. Howev…
Opir: Efficient Multi-Task Safety Classification for Toxicity, Jailbreaks, Hate Speech, and Harmful Content
Real-time safety filtering for large language model (LLM) applications requires classifiers that can detect unsafe prompts, toxic language,…
From Prompts to Context: An Ontology-Driven Framework for Human-Generative AI Collaboration
Collaborations with Generative AI often begin with a short prompt and end with an opaque output, leaving implicit who was involved, what ta…
Teaching Language Models to Check Grounded Claim Factuality with Human Test-Taking Strategies
Grounded claim factuality checking is important for large language model (LLM) applications such as retrieval-augmented generation, as it h…
Multi-Legal-Bench: Evaluating LLMs on Legal Reasoning Across Jurisdictions, Languages, and Legal Traditions
Legal NLP benchmarks overwhelmingly evaluate a single language or aggregate tasks that differ fundamentally across jurisdictions, making cr…
Hista and Numca: Estimate State Value Effectively for LLM Reinforcement Learning
Reinforcement learning (RL) refines large language models (LLMs) by directly optimizing model behavior through reward signals. While accura…
Evolve as a Team: Collaborative Self-Evolution for LLM-based Multi-Agent Systems
LLM-based multi-agent systems (MAS) have emerged as an effective paradigm for complex and long-horizon tasks. However, in real-world tasks,…
Inferring Code Correctness from Specification
Large language models (LLMs) have become integral to modern software development, enabling automated code generation at scale. However, val…
HARP: Hadamard-Preconditioned Adaptive Rotation Processor for Extreme LLM Quantization
Post-training quantization (PTQ) is essential for deploying LLMs under memory and bandwidth constraints. However, extreme low-bit quantizat…
Towards Verifiable Multimodal Deep Research: A Multi-Agent Harness for Interleaved Report Generation
Large Language Models (LLMs) have advanced autonomous agents from deep search, which retrieves concise factual answers, to deep research, w…
Evolutionary Dynamics of Cooperation in Next-Generation LLM Agent Systems: A Cross-Provider Empirical Extension
Do next-generation LLM agents inherit the cooperative biases documented in their predecessors, or does scale and provider diversity reshape…
LaRA: Layer-wise Representation Analysis for Detecting Data Contamination in RL Post-Training
Reinforcement learning (RL) post-training has shown to improve reasoning in large language models (LLMs). However, there has been little ex…
Internal Representation, Not Clinical Knowledge: Where Apparent LLM Triage Failures Originate
Patient-voiced clinical-triage benchmarks report high under-triage rates for consumer LLMs for constrained multiple-choice output, yet the…
Agora: Toward Autonomous Bug Detection in Production-Level Consensus Protocols with LLM Agents
Consensus protocols form the backbone of distributed systems and blockchains, where implementation bugs can cause data corruption and finan…
Does The Way You Plan Matter? An Empirical Study of Planning Representations for LLM Web Agents
Despite recent advances, LLM-based web agents still struggle with limited exploration, omission of critical steps, and sensitivity to task…
Label Over Logic? How Source Cues Bias Human Fallacy Judgments More Than LLMs
As AI-generated and AI-assisted content floods online spaces, source labels attached to such content can distort human reasoning judgments,…
Hijacking Agent Memory: Stealthy Trojan Attacks Through Conversational Interaction
Large language model (LLM) agents increasingly leverage long term memory to support persistent and autonomous task execution. However, this…
Honeyval: A Comprehensive Evaluation Framework for LLM-powered HTTP Honeypots
Honeypots are decoy systems mimicking real system components designed to defend against cyber attacks. Recently, LLMs increasingly serve as…
Discovering Cooperative Pipelines: Autoresearch for Sequential Social Dilemmas
We study two-level autoresearch for cooperation: an outer-loop AI agent autonomously redesigns the inner-loop pipeline of an LLM policy-syn…
Audio Jailbreaks in Large Audio-Language Models: Taxonomy, Attack-Defense Analysis, and Cost-Aware Evaluation
Large Audio Language Models (LALMs) expand jailbreak risks from token-level prompting to the full speech perception-to-reasoning pipeline,…
Token Inflation: How Dishonest Providers Can Overcharge for Large Language Model Usage
Per-token billing is now the standard pricing model for commercial large language models (LLMs), so the honesty of reported token counts di…
Projectional Decoding: Towards Semantic-Aware LLM Generation
Large language models (LLMs) are increasingly used to generate software artifacts across many software engineering (SE) tasks, yet ensuring…
How Reliable Are AI Attackers Against a Fixed Vulnerable Target? A 400-Run Empirical Study of LLM Penetration Testing Consistency
Large language models (LLMs) can autonomously conduct multi-stage cyber attacks, but the consistency of their offensive behavior under repe…
When Cloud Agents Meet Device Agents: Lessons from Hybrid Multi-Agent Systems
The design space of agentic AI inference spans two extremes: frontier large language models (LLMs), typically hosted in the cloud and offer…
Overcoming Forgetting in LLM Fine-Tuning with Evolution Strategies
Evolution Strategies (ES) has recently emerged as a competitive alternative to reinforcement learning (RL) for large language model (LLM) f…
Do Proactive Agents Really Need an LLM to Decide When to Wake and What to Anchor?
Proactive agents read user activity as text and call an LLM on every event to decide whether to act. But user activity is not natively text…
iLoRA: Bayesian Low-Rank Adaptation with Latent Interaction Graphs for Microbiome Diagnosis
Parameter-efficient adaptation has made LLMs practical for domain prediction, but standard LoRA still relies on a static low-rank update an…
Token-Level Generalization in LoRA Adapter Backdoors: Attack Characterization and Behavioral Detection
We show that LoRA adapters, the dominant distribution format for fine-tuned LLMs, can be reliably backdoored through training data poisonin…
Unifying Temporal and Structural Credit Assignment in LLM-Based Multi-Agent Prompt Optimization
While Multi-Agent Systems (MAS) empower Large Language Models to tackle complex reasoning tasks through collaborative interaction, optimizi…
Same Evidence, Different Answers: Canonical-Context On-Policy Distillation for Multi-Turn Language Models
Large language models (LLMs) often solve a task when all instructions are given in a single prompt, but fail when the same information is r…
How LoRA Remembers? A Parametric Memory Law for LLM Finetuning
Large Language Models (LLMs) must continuously learn and update knowledge to remain effective in dynamic real-world environments. While Low…
LLUMI: Improving LLM Writing Assistance for Mental Health Support with Online Community Feedback
Large language models (LLMs) show promise in generating supportive responses for mental health queries, but improving their usefulness, emp…
MedCase-Structured: A Text-to-FHIR Dataset for Benchmarking Diagnostic Reasoning in Clinically Realistic EHR Settings
Large language models (LLMs) show promise for clinical reasoning and decision support, but evaluation in realistic, electronic health recor…
LLMSurgeon: Diagnosing Data Mixture of Large Language Models
The pretraining data mixture of Large Language Models (LLMs) constitutes their "digital DNA", shaping model behaviors, capabilities, and fa…
PersonaAgent: Bridging Memory and Action for Personalized LLM Agents
Large Language Model (LLM) empowered agents have recently emerged as advanced paradigms that exhibit impressive capabilities in a wide rang…
SafeSearch: Automated Red-Teaming of LLM-Based Search Agents
Search agents connect LLMs to the Internet, enabling them to access broader and more up-to-date information. However, this also introduces…
EAPO: Enhancing Policy Optimization with On-Demand Expert Assistance
Large language models (LLMs) have recently advanced in reasoning when optimized with reinforcement learning (RL) under verifiable rewards.…
Controlling the Risk of Corrupted Contexts for Language Models via Early-Exiting
Large language models (LLMs) can be influenced by harmful or irrelevant context, which can significantly harm model performance on downstre…
Graph-Enhanced Policy Optimization in LLM Agent Training
Multi-step LLM agents in interactive environments represent a crucial step toward long-horizon decision-making. To train such agents, group…
InsightEval: An Expert-Curated Benchmark for Assessing Insight Discovery in LLM-Driven Data Agents
Data analysis has become an indispensable part of scientific research. To discover the latent knowledge and insights hidden within massive…
SCOPE: Prompt Evolution for Enhancing Agent Effectiveness
Large Language Model (LLM) agents are increasingly deployed in environments that generate massive, dynamic contexts. However, a critical bo…
From Meta-Thought to Execution: Cognitively Aligned Post-Training for Generalizable and Reliable LLM Reasoning
Current LLM post-training methods optimize complete reasoning trajectories through Supervised Fine-Tuning (SFT) followed by outcome-based R…
Skill-Pro: Learning Reusable Skills from Experience via Non-Parametric PPO for LLM Agents
LLM-driven agents excel at sequential decision-making but often rely on on-the-fly reasoning, re-deriving solutions even in recurring scena…
AutoSizer: Automatic Sizing of Analog and Mixed-Signal Circuits via Large Language Model (LLM) Agents
The design of Analog and Mixed-Signal (AMS) integrated circuits remains heavily reliant on expert knowledge, with transistor sizing a major…
Reasoning about Reasoning: BAPO Bounds on Chain-of-Thought Token Complexity in LLMs
Inference-time scaling via chain-of-thought (CoT) reasoning is a major driver of state-of-the-art LLM performance, but it comes with substa…
Small Agent Group is the Future of Digital Health
The rapid adoption of large language models (LLMs) in digital health has been driven by a "scaling-first" philosophy, i.e., the assumption…
Benchmarking at the Edge of Comprehension
As frontier Large Language Models (LLMs) increasingly saturate new benchmarks shortly after they are published, benchmarking itself is at a…
RewardFlow: Topology-Aware Reward Propagation on State Graphs for Agentic RL with Large Language Models
Reinforcement learning (RL) shows promise for enhancing LLM agentic reasoning, yet sparse terminal rewards hinder fine-grained optimization…
MemCollab: Cross-Model Memory Collaboration via Contrastive Trajectory Distillation
LLM agents increasingly rely on memory mechanisms to reuse knowledge from past problem-solving experiences. However, existing methods typic…
MediHive: A Decentralized Agent Collective for Medical Reasoning
Large language models (LLMs) have revolutionized medical reasoning tasks, yet single-agent systems often falter on complex, interdisciplina…
Thinking Fast, Thinking Wrong: Intuitiveness Modulates LLM Counterfactual Reasoning in Policy Evaluation
Large language models (LLMs) are increasingly used for causal and counterfactual reasoning, yet their reliability in real-world policy eval…
MemoSight: Unifying Context Compression and Multi Token Prediction for Reasoning Acceleration
While chain-of-thought (CoT) reasoning enables LLMs to solve challenging reasoning tasks, the linear growth of the KV cache leads to substa…
Revisiting the Effectiveness of LLM Pruning for Test-Time Scaling
Large Language Models (LLMs) now exhibit remarkable reasoning capabilities through test-time compute scaling (TTS), with impressive perform…
Hierarchical Task Network Planning with LLM-Generated Heuristics
HTN planning is a variation of classical planning where, instead of searching for a linear sequence of actions, an algorithm decomposes hig…
AttuneBench: A Conversation-Based Benchmark for LLM Emotional Intelligence
Emotional intelligence (EI), the ability to perceive, understand, and respond appropriately to others' emotional states, is central to huma…
CausaLab: AI 科学者向けのインタラクティブな因果発見のためのスケーラブルな環境
LLM エージェントによるインタラクティブな因果発見を評価するためのスケーラブルな環境である CausaLab を紹介します。以前の評価とは異なり、CausaLab では、エージェントが因果関係の証拠を使用して問題を解決できるかどうか、およびその答えが根底にある因果メカニズムに関する正しい仮説によって裏付けられているかどうかの両方を評価します。各エピソードではエージェントが合成実験室に配置されます。エージェントは以前の測定記録を受け取り、マニピュレーター結晶に介入し、同じ機構によって支配される保持されたリアクター結晶の共振周波数を予測します。隠されたデータ生成プロセスは、ランダムにサンプリングされた構造因果モデル (SCM) であるため、成功するには、事前の知識を思い出すのではなく、因果グラフと構造方程式の両方を回復する必要があります。 CausaLab には、エージェントの進化する SCM 仮説を記録するドメイン固有の言語も含まれており、軌跡を検査可能にしてグラウンド トゥルースと比較できるようになります。実験では、予測とメカニズム回復の間に永続的なギャップがあることが示されています。純粋に観測的な 6 ノード設定では、GPT-5.2-high はタスク精度 92% に達しますが、オールエッジ $F_1$ はわずか 0.471 です。この観察は、さまざまな相互作用戦略の探求をさらに動機づけます: 混合観察 - 介入戦略は構造忠実度を向上させます: 混合 6 ノード設定では、GPT-5.2-high はタスク精度とオールエッジ $F_1$ の両方で 80% を達成しました。しかし、純粋な介入戦略はタスクの精度とオールエッジ $F_1$ の両方においてパフォーマンスが低いため、強力なエージェントですら有益な介入を設計するのに苦労しています。私たちは、エージェントの主要な弱点として早期停止を特定し、仮説と過去のデータとの間の一貫性をモデルに検証するように依頼することが、この問題の軽減に役立つことを示します。したがって、CausaLab は予測の成功を因果関係の理解から切り離し、実験的因果推論者としての現在の LLM エージェントの限界を明らかにします。
原文 (English)
CausaLab: A Scalable Environment for Interactive Causal Discovery Toward AI Scientists
We introduce CausaLab, a scalable environment for evaluating interactive causal discovery by LLM agents. Unlike prior evaluations, CausaLab evaluates both whether an agent can solve a problem using causal evidence and whether its answer is grounded in a faithful recovered causal mechanism. Each episode places an agent in a synthetic laboratory: it receives prior measurement records, intervenes on a manipulator crystal, and predicts the resonance frequency of a held-out reactor crystal governed by the same mechanism. The hidden data-generating process is a randomly sampled structural causal model (SCM), so success requires recovering both a causal graph and structural equations rather than recalling prior knowledge. Experiments show a persistent gap between prediction and mechanism recovery: in the purely observational 6-node setting, GPT-5.2-high reaches 92% task accuracy but only 0.471 all-edge $F_1$. Mixed observation-intervention strategies improve structural fidelity, while pure intervention remains difficult even for strong agents. We identify premature stopping as a major weakness and show that consistency verification mitigates it. CausaLab therefore separates predictive success from causal understanding and exposes current LLM agents' limits as experimental causal reasoners.
Soro: タジキスタン向けの軽量基盤モデルおよびチャットボット
ここでは、タジキスタンでの厳しいコンピューティングと接続の制約下での実際の展開向けに設計された、タジク語に特化した会話型大規模言語モデル (LLM) ファミリーである Soro を紹介します。オープンウェイトの Gemma 3 チェックポイントから開始して、フィルタリングされた Web テキスト、PDF ドキュメント、カリキュラムに合わせた教材にまたがる厳選された 19 億トークンのコーパスに対してタジク語のみの継続的な事前トレーニングを実行し、続いて 40,000 のタジク語教師スタイルのサンプルに対して教師付き指導チューニングを実行します。標準ベンチマークでタジク語がカバーされる範囲が限られているにもかかわらず、厳密な評価を可能にするために、一般知識、言語能力、学校および大学の入学試験の領域をカバーする一連のタジク語ベンチマークを導入し、Hugging Face でオープンソース化しています。これらのタジク語ベンチマーク全体で、Soro は標準データセットで英語の優れたパフォーマンスを維持しながら、同じサイズの Gemma 3 ベースラインを大幅に上回っています。さらに、Soro の FP8 および INT4 量子化により、タジク語の利点のほとんどが維持されると同時に、エッジ展開のメモリ要件が削減され、進行中の教育セクターのパイロットとタジキスタンの学校全体での計画されたスケールアウトがサポートされることも示します。
原文 (English)
Soro: A Lightweight Foundation Model and Chatbot for Tajik
We present Soro, a family of Tajik-specialized conversational large language models (LLMs) designed for real-world deployment under tight compute and connectivity constraints in Tajikistan. Starting from open-weight Gemma 3 checkpoints, we perform Tajik-only continual pretraining on a curated 1.9-billion-token corpus spanning filtered web text, PDF documents, and curriculum-aligned educational materials, followed by supervised instruction tuning on 40K Tajik teacher-style examples. To enable rigorous evaluation despite the limited coverage of Tajik in standard benchmarks, we introduce a suite of Tajik benchmarks covering general knowledge, linguistic competence, and school- and university entrance-exam domains, and we open-source them on Hugging Face. Across these Tajik benchmarks, Soro substantially outperforms same-size Gemma 3 baselines while retaining strong English performance on standard datasets. We further show that FP8 and INT4 quantization of Soro preserves most Tajik-language gains while reducing memory requirements for edge deployment, supporting an ongoing education-sector pilot and planned scale-out across schools in Tajikistan.
FundaPod: AI 支援のファンダメンタル投資調査のためのナレッジ グラフ メモリを備えたマルチペルソナ エージェント ポッド プラットフォーム
大規模言語モデル (LLM) は金融分野での適用が増えていますが、既存の研究のほとんどは取引シグナルや予測を中心とした財務 NLP タスクに重点を置いています。対照的に、制度的基礎研究では、人間のアナリストまたは AI エージェントが証拠を収集し、ビジネス推進要因を特定し、競合する視点を比較し、投資メモを作成する必要があります。その広範な目標は、単に結果を予測することではなく、投資知識の累積的な発展に貢献しながら、透明性、再利用可能、検証可能な投資計画を作成することです。 AI 支援のファンダメンタルズ投資調査のためのマルチペルソナ エージェント プラットフォームである FundaPod を紹介します。私たちは、基礎研究は人間中心の意思決定支援タスクであり、取引シグナルの生成とは質的に異なるため、独立性を維持するアーキテクチャの方が適していると主張します。 FundaPod では、バリュー投資家やマクロ戦略家など、さまざまなペルソナを持つ AI エージェントが、共有の出所契約に基づいて独立して調査を実施します。その後、彼らの意見の相違は、知識グラフ記憶システムを通じて人間のポートフォリオ マネージャー (PM) による裁定のために事後的に表面化されます。この論文は、設計科学の実践と認知的分離と人間と機械の協調の理論に基づいた、基礎研究をサポートする人間と AI のハイブリッド システムの 5 つの設計原則を提供します。また、4 つのアーキテクチャ メカニズムについても説明します。1 つは一般投資家の資料を展開可能なエージェントに変えるペルソナ蒸留パイプラインです。プランナーが型指定されたタスク グラフを導出できるようにする宣言型スキル レジストリ。メモの主張を検証可能な情報源に結び付ける根拠のある証拠モデル。そしてティッカー、メモ、アナリスト、テーマを結び付けるナレッジグラフ「第二の脳」。完全なケーススタディとペルソナベースのメモの比較を通じてアーキテクチャを実証します。
原文 (English)
FundaPod: A Multi-Persona Agent Pod Platform with Knowledge Graph Memory for AI-Assisted Fundamental Investment Research
Large language models (LLMs) are increasingly applied in finance, yet most existing work emphasizes trading signals or financial NLP tasks centered on prediction. Institutional fundamental research, by contrast, requires human analysts or AI agents to gather evidence, identify business drivers, compare competing viewpoints, and generate investment memos. Its broader goal is not merely to predict outcomes, but to produce investment plans that are transparent, reusable, and verifiable, while contributing to the cumulative development of investment knowledge. We present FundaPod, a multi-persona agent platform for AI-assisted fundamental investment research. We argue that fundamental research is a human-centric decision-support task that is qualitatively distinct from trading-signal generation, and is therefore better served by an independence-preserving architecture. In FundaPod, AI agents with different personas, such as value investors or macro strategists, conduct research independently under a shared provenance contract. Their disagreements are then surfaced post hoc for adjudication by the human portfolio manager (PM) through a knowledge-graph memory system. This paper contributes five design principles for human-AI hybrid systems supporting fundamental research, grounded in design-science practice and theories of cognitive isolation and human-machine coordination. It also describes four architectural mechanisms: a persona distillation pipeline that turns public investor materials into deployable agents; a declarative skill registry that lets the planner derive typed task graphs; a grounded evidence model that links memo claims to verifiable sources; and a knowledge-graph "second brain" that connects tickers, memos, analysts, and themes. We demonstrate the architecture through a complete case study and a persona-based memo comparison.
AsyncTool: マルチタスク シナリオでの非同期関数呼び出し機能の評価
大規模言語モデル (LLM) ベースのエージェントは、外部ツールを使用して複雑なタスクを解決する強力な機能を示しています。ただし、既存の評価では、ツール使用の時間的側面、特にツールの応答遅延の影響が見落とされていることが多く、通常は単一タスクの設定に限定されています。実際のアプリケーションでは、多くの場合、複数のタスクを同時に実行する必要があり、全体的な効率は、エージェントがツールの応答を待つ間にアイドル時間を利用できるかどうかによって決まります。この機能を非同期ツール呼び出しと呼びます。これを評価するために、ツールのフィードバックが遅延した対話型のマルチタスク ツール使用環境で LLM ベースのエージェントを評価するためのベンチマークである AsyncTool を提案します。 AsyncTool は、複数の異種タスクを同時に提示し、実行中の現実的なツール応答遅延をシミュレートします。ハイブリッド データ進化戦略を使用して、複数のシナリオとツールの使用パターンをカバーする多様な非同期マルチタスク データセットを構築します。ステップ、サブタスク、およびタスクのレベルでモデルを評価し、タスクの調整と完了の効率を測定するための効率指向のメトリクスを導入します。広範な実験により、ツールのフィードバックが遅れていると、現在のエージェントに大きな課題が生じ、明らかなパフォーマンスの低下につながることが示されています。タスクの切り替え、依存関係の追跡、状態の維持をより適切に調整するモデルは、AsyncTool でより優れたパフォーマンスを実現します。私たちの分析は、現在ツールを使用しているエージェントの主な障害モードを特定し、より強力な時間的推論と調整機能を備えた将来のシステムを設計するための実用的な洞察を提供します。
原文 (English)
AsyncTool: Evaluating the Asynchronous Function Calling Capability under Multi-Task Scenarios
Large language model (LLM)-based agents have shown strong capabilities in using external tools to solve complex tasks. However, existing evaluations often overlook the temporal dimension of tool use, especially the impact of tool response latency, and are usually limited to single-task settings. In real-world applications, multiple tasks often need to be executed concurrently, and overall efficiency depends on whether an agent can use idle time while waiting for tool responses. We refer to this capability as asynchronous tool calling. To evaluate it, we propose AsyncTool, a benchmark for assessing LLM-based agents in interactive multi-task tool-use environments with delayed tool feedback. AsyncTool presents multiple heterogeneous tasks simultaneously and simulates realistic tool response latency during execution. Using a hybrid data evolution strategy, we construct a diverse asynchronous multitasking dataset that covers multiple scenarios and tool-use patterns. We evaluate models at the step, sub-task, and task levels, and introduce efficiency-oriented metrics to measure task coordination and completion efficiency. Extensive experiments show that delayed tool feedback poses substantial challenges to current agents and leads to clear performance degradation. Models that better coordinate task switching, dependency tracking, and state maintenance achieve stronger performance on AsyncTool. Our analysis identifies key failure modes of current tool-using agents and provides practical insights for designing future systems with stronger temporal reasoning and coordination capabilities.
The Importance of Being Statistically Earnest: A Critical Re-evaluation of GSM-Symbolic
The GSM-Symbolic benchmark (Mirzadeh et al., 2025) reported consistent performance drops across 25 Large Language Models (LLMs) when tested…
Are LLMs Socially Adaptive? Contrasting Belief Evolution in Large Language Models and Humans
As large language models (LLMs) increasingly engage in complex social interactions, ensuring that their behaviors align with human ethical…
Jailbreaking and Mitigation of Vulnerabilities in Large Language Models
Large Language Models (LLMs) have transformed artificial intelligence by advancing natural language understanding and generation, enabling…
Is Your LLM Overcharging You? Tokenization, Transparency, and Incentives
State-of-the-art large language models require specialized hardware and substantial energy to operate. As a consequence, cloud-based servic…
GroundAct: Can LLM Agents Ground Actions in Environmental States?
LLM agents achieve 85-96% success on tasks where instructions fully specify the action, but drop to 29-53% when action feasibility depends…
Benchmarking LLM-Assisted Blue Teaming via Standardized Threat Hunting
As cyber threats continue to grow in scale and sophistication, blue team defenders increasingly require advanced tools to proactively detec…
Uncovering Vulnerabilities of LLM-Assisted Cyber Threat Intelligence
Large language models (LLMs) are increasingly used to help security analysts manage the surge of cyber threats, automating tasks from vulne…
AtomWorld: A Benchmark for Evaluating Spatial Reasoning in Large Language Models on Crystalline Materials
Large language models (LLMs) have shown promising potential in scientific research, enabling tasks ranging from knowledge retrieval to prop…
Empathic Prompting: Non-Verbal Context Integration for Multimodal LLM Conversations
We present Empathic Prompting, a novel framework for multimodal human-AI interaction that enriches Large Language Model (LLM) conversations…
ReflexGrad: Within-Episode Failure Recovery in LLM Agents via Progress-Gated Dual-Process Routing
We present ReflexGrad, a dual-process architecture for within-episode failure recovery in LLM agents without demonstrations. When agents co…
E-valuator: Reliable Agent Verifiers with Sequential Hypothesis Testing
Agentic AI systems execute a sequence of actions, such as reasoning steps or tool calls, in response to a user prompt. To evaluate the succ…
Revisiting the Reliability of Language Models in Instruction-Following
Advanced LLMs have achieved near-ceiling instruction-following accuracy on benchmarks such as IFEval. However, these impressive scores do n…
Differential syntactic and semantic encoding in LLMs
We study how syntactic and semantic information is encoded in inner layer representations of Large Language Models (LLMs), focusing on the…
Thinking Before Constraining: A Unified Decoding Framework for Large Language Models
Natural generation allows Large Language Models (LLMs) to produce free-form responses with rich reasoning, yet the lack of structure makes…
From Rubrics to Reliable Scores: Evidence-Grounded Text Evaluation with LLM Judges
Rubric-based text evaluation increasingly uses large language models (LLMs) as scalable judges, but aligning frozen black-box models with h…
Reasoning While Asking: Transforming Reasoning Large Language Models from Passive Solvers to Proactive Inquirers
Reasoning-oriented Large Language Models (LLMs) have achieved remarkable progress with Chain-of-Thought (CoT) prompting, yet they remain fu…
Good SFT Optimizes for SFT, Better SFT Prepares for Reinforcement Learning
Post-training of reasoning LLMs is a holistic process that typically consists of an offline SFT stage followed by an online reinforcement l…
Less is Enough: Synthesizing Diverse Data in LLM Feature Space with Sparse Autoencoders
The diversity of post-training data is critical for effective downstream performance in large language models (LLMs). Many existing approac…
A Language-Guided Bayesian Optimization for Efficient LoRA Hyperparameter Search
Fine-tuning Large Language Models (LLMs) with Low-Rank Adaptation (LoRA) offers a resource-efficient way to personalize or specialize. Howe…
Beyond Normalization: Rethinking the Partition Function as a Difficulty Scheduler for RLVR
Reward-maximizing RL methods have shown to be capable of enhancing the reasoning performance of LLMs, but often lead to reduced generation…
Who can we trust? LLM-as-a-jury for Comparative Assessment
Large language models (LLMs) are increasingly applied as automatic evaluators for natural language generation assessment often using pairwi…
JAEGER: Joint 3D Audio-Visual Grounding and Reasoning in Simulated Physical Environments
Current audio-visual large language models (AV-LLMs) are predominantly restricted to 2D perception, relying on RGB video and monaural audio…
Post-Training Language Models for Crosslingual Consistency
Language models often respond inconsistently to translation-equivalent prompts across languages, undermining the reliability of multilingua…
Steering at the Source: Style Modulation Heads for Robust Persona Control
Activation steering offers a computationally efficient mechanism for controlling Large Language Models (LLMs) without fine-tuning. While ef…
When Should a Robot Think? Resource-Aware Reasoning via Reinforcement Learning for Embodied Robotic Decision-Making
Embodied robotic systems increasingly rely on large language model (LLM)-based agents to support high-level reasoning, planning, and decisi…
Maximizing Mutual Information Between Prompt and Response Improves LLM Performance With No Additional Data
While post-training has successfully improved large language models (LLMs) across a variety of domains, these gains heavily rely on human-l…
Bridge-RAG: An Abstract Bridge Tree Based Retrieval Augmented Generation Algorithm
As an important paradigm for enhancing the generation quality of Large Language Models (LLMs), retrieval-augmented generation (RAG) faces t…
SelfGrader: LLM Jailbreak Detection via Anchored Token-Level Logits
Large Language Models (LLMs) are powerful tools for answering user queries, yet they remain highly vulnerable to jailbreak attacks. Existin…
Combating Data Laundering in LLM Training
Data rights owners can detect unauthorized data use in large language model (LLM) training by querying with proprietary samples. Often, sup…
The Planetary Cost of AI Acceleration, Part II: The 10th Planetary Boundary and the 6.5-Year Countdown
The recent, super-exponential scaling of autonomous Large Language Model (LLM) agents signals a broader, fundamental paradigm shift from ma…
SPEED-Bench: A Unified and Diverse Benchmark for Speculative Decoding
Speculative Decoding (SD) has emerged as a critical technique for accelerating Large Language Model (LLM) inference. Unlike deterministic s…
ReSpinQuant: Efficient Layer-Wise LLM Quantization via Subspace Residual Rotation Approximation
Rotation-based Post-Training Quantization (PTQ) has emerged as a promising solution for mitigating activation outliers in the quantization…
When 2D Tasks Meet 1D Serialization: On Serialization Friction in Structured Tasks
In the LLM era, many symbolic and structured problems are presented to models through 1D text serialization. Yet some such problems are nat…
CalBench: Evaluating Coordination-Privacy Trade-offs in Multi-Agent LLMs
Personal AI assistants are beginning to act as delegates with access to calendars, inboxes, and user preferences. Calendar scheduling makes…
Teacher-Guided Policy Optimization for On-Policy Reasoning Distillation under Large Policy Divergence
On-policy distillation (OPD) has become a promising paradigm for reasoning-oriented post-training of large language models (LLMs), especial…
Reducing Political Manipulation with Consistency Training
Large language models (LLMs) exhibit systematic political bias across a variety of sensitive contexts. We find that LLMs handle counterpart…
Tiny Brains, Giant Impact: Uncovering the Keystone Neurons of LLM with Just a Few Prompts
Large language models (LLMs) display strong comprehensive abilities, yet the internal mechanisms that support these behaviors remain insuff…
GoQuant: Geometric Orthogonal Residual Projection for Multiplier-Free Power-of-Two Transformer Quantization
The deployment of Large Language Models (LLMs) and Vision Transformers (ViTs) on edge devices is significantly constrained by memory limita…
偏見をバグに変える: LLM 裁判官に対する盗賊主導のスタイル操作攻撃
冗長性や特定の文構造を好むなど、LLM 裁判官の既知の文体上の偏見は、十分に調査されていないセキュリティ上の脆弱性を示しています。この研究では、LLM 裁判官を誤解させ、割り当てられるスコアを人為的につり上げるために意味論を保持する編集を学習するブラックボックスの敵対的フレームワークである BITE (BIas exploraTion and Exploitation) を導入します。スタイル編集の選択をコンテキスト バンディット問題としてキャストし、LinUCB ポリシーを使用して、モデル パラメーターや勾配にアクセスせずに審査員のスコアを最大化する編集を適応的に選択します。経験的に、チャットボットのリーダーボードと AI レビューアーのベンチマークでのポイントごとの比較とペアごとの比較の両方を含む、さまざまな LLM ジャッジとタスクにわたって BITE をテストします。 BITE は、意味上の同等性を維持しながら、65% を超える攻撃成功率を達成し、9 ポイント スケールで 1 ~ 2 ポイントスコアを上げます。さらに攻撃のステルス性を評価し、BITE が標準的なスタイル制御手法といくつかの検出ベースラインを回避していることを示しました。私たちの調査結果は、裁判官としての LLM パラダイムの根本的な弱点を明らかにし、堅牢で攻撃を意識した評価を動機付けます。私たちのコードは https://github.com/xianglinyang/llm-as-a-judge-attach で入手できます。
原文 (English)
Turning Bias into Bugs: Bandit-Guided Style Manipulation Attacks on LLM Judges
The known stylistic biases in LLM judges, such as a preference for verbosity or specific sentence structures, present an underexplored security vulnerability. In this work, we introduce BITE (BIas exploraTion and Exploitation), a black-box adversarial framework that learns semantics-preserving edits to mislead an LLM judge and artificially inflate the scores it assigns. We cast the selection of stylistic edits as a contextual bandit problem and use a LinUCB policy to adaptively choose edits that maximize the judge's score without access to model parameters or gradients. Empirically, we test BITE across a diverse range of LLM judges and tasks, including both pointwise and pairwise comparisons on chatbot leaderboards and AI-reviewer benchmarks. BITE achieves an attack success rate exceeding 65% and raises scores by 1-2 points on a 9-point scale, all while preserving semantic equivalence. We further assess the attack's stealthiness, showing that BITE evades standard style-control methods and several detection baselines. Our findings expose a fundamental weakness in the LLM-as-a-judge paradigm and motivate robust, attack-aware evaluation. Our code is available at https://github.com/xianglinyang/llm-as-a-judge-attack.
Enhancing LLM Medical Coding with Structured External Knowledge
Accurate medical coding requires consulting authoritative resources such as the ICD tabular list and coding guidelines. Existing LLM-based…
The Alignment Floor: How Persona Customization Breaks Safety in Weakly-Aligned LLMs
Telling an LLM to "be enthusiastic" raises its sycophancy rate from 30\% to 50\% on a lightly-aligned model, but has zero effect on a stron…
BIRDS: Characterizing and Understanding Biodiversity Impact of Large Language Model Serving
Large language model (LLM) serving creates environmental impacts beyond carbon and water, including ecosystem damage through biodiversity-r…
ROVER: Routing Object-Centric Visual Evidence for Grounded Multi-Image Reasoning
Multimodal Large Language Models (MLLMs) have increasingly localized and interleaved visual evidence for deliberative reasoning. Grounding-…
認知カテゴリー変換器: 言語モデリングのためのカテゴリー理論的帰納バイアス
Cognitive Categorical Transformer (CCT) は、カテゴリ理論と認知科学からのいくつかのインスピレーションに由来する認知的に根拠のあるコンポーネントで、事前トレーニング済みの GPT-2 Small バックボーンを強化する 306M パラメーターのアーキテクチャです。 WikiText-103 の一致ステップ プロトコル (215,000 のオプティマイザー ステップ、一致したデータ、一致したオプティマイザーとスケジュール) の下では、CCT は 21.27 の検証複雑度に達しましたが、これと比較して、同様に微調整された GPT-2 Small ベースラインでは 24.19 でした。したがって、このアーキテクチャは、ドメイン内微調整だけで実現できる量を超える 2.92 PPL (相対 12%) の削減に貢献します。 7 フェーズのアクティベーション スケジュール全体にわたって GT-Full の単純なメッセージ パッシングをバイパスするリトレーニング フロム スクラッチ アブレーションは 23.72 PPL に達し、アーキテクチャの改善の 84% (2.92 PPL のうち 2.45) を GT-Full に限定します。我々は、単純なメッセージパッシングが WikiText-103 の 3 億 6M パラメータスケールで言語モデルの複雑さを改善するという、アブレーションで検証された最初の証拠を提示します。公開された GPT-2 Large は、GPT-2 Small の 6.2 倍のパラメータを持ち、WikiText-103 で 22.05 ゼロショット PPL に達しました。このペーパーでは、その数値をアーキテクチャのベンチマークとしてではなく、外部に公開された参照として扱います。整合性スタイルのカテゴリカル事前確率に関する 3 つの否定的な結果 (層の平滑化、付加のラウンドトリップ、曲率の正則化) と、GT-Full と PrecisionWeightedPP の結合構造事前確率の結果は共に、*構造/一貫性の区別* と呼ばれる経験的パターンを裏付けています。このパターンでは、新しいトポロジーを追加するカテゴリカル事前確率は言語モデリングを改善しますが、一貫性の同一性を強制するカテゴリカル事前確率は改善しません。
原文 (English)
The Cognitive Categorical Transformer: Category-Theoretic Inductive Biases for Language Modeling
The Cognitive Categorical Transformer (CCT) is a 306M-parameter architecture that augments a pretrained GPT-2 Small backbone with cognitively grounded components derived from category theory and several inspirations from cognitive science. Under a matched-step protocol (215,000 optimizer steps, matched data, matched optimizer and schedule) on WikiText-103, CCT reaches 21.27 validation perplexity, compared with 24.19 for an identically fine-tuned GPT-2 Small baseline. The architecture therefore contributes a 2.92 PPL (12% relative) reduction beyond what in-domain fine-tuning alone provides. A retrain-from-scratch ablation that holds GT-Full simplicial message passing bypassed across the entire seven-phase activation schedule reaches 23.72 PPL, localizing 84% of the architectural improvement (2.45 of 2.92 PPL) to GT-Full. We present the first ablation-validated evidence that simplicial message passing improves language-model perplexity at the 306M-parameter scale on WikiText-103. Published GPT-2 Large reaches 22.05 zero-shot PPL on WikiText-103 with 6.2x more parameters than GPT-2 Small; this paper treats that number as an external published reference, not as the architectural benchmark. Three negative results on consistency-style categorical priors (sheaf smoothing, adjunction round-trip, curvature regularization) and the joint structural-prior result for GT-Full and PrecisionWeightedPP together support an empirical pattern termed the *structure/consistency distinction*, in which categorical priors that add new topology improve language modeling and those that enforce a consistency identity do not.
レビュー アーケード: LLM レビューの人間性とゲーム性について
LLM が生成する科学論文のレビューは大きな注目を集めており、主要な会議でも正式に試験的に導入されています。査読者だけが LLM 支援を使用しているだけでなく、著者も投稿前に論文を修正するために LLM を使用していることを想定する必要があります。この研究では、2025 ACL ローリング レビュー (ARR) の論文に対して実証実験を実行し、著者と査読者の両方の観点から LLM レビューを評価します。まず、LLM レビューと人間のレビューとの限定的な整合性を特定します。最良のシナリオでは、位置合わせは適切です。ただし、LLM と人間のアライメントはプロンプトとモデルによって大幅に異なることもわかりました。最後に、作成者がドラフトと改訂の反復ワークフローを使用して、LLM レビューに従って提出物を改善するシナリオを調査します。 LLM レビューのこの「ゲーム」は特定のシナリオで効果的であり、最大 35\% の論文で全体のスコアが統計的に有意に増加することがわかりました。コードを公開しています: https://github.com/uhh-hcds/reviewarcade。
原文 (English)
Review Arcade: On the Human Alignment and Gameability of LLM Reviews
LLM-generated reviews for scientific papers are gaining considerable traction and are even being officially piloted by major conferences. We have to assume that not only reviewers are using LLM-assistance, but also that authors use LLMs to revise their papers before submitting. In this work, we perform empirical experiments on papers from the 2025 ACL Rolling Review (ARR) to evaluate LLM reviews from both the author and the reviewer perspective. First, we identify a limited alignment of LLM reviews with human ones. In the best-case scenario, the alignment is reasonable. However, we also find that LLM-human alignment varies substantially across prompts and models. Finally, we investigate the scenario in which the author uses an iterative draft-revise workflow to improve the submission according to the LLM review. We find that this "gaming" of LLM reviews can be effective in specific scenarios, leading to a statistically significant increase of overall scores for up to 35\% of papers. We publish our code: https://github.com/uhh-hcds/reviewarcade.
Frontier LLM ベースのエージェントは、自然な表現型のオントロジーキュレーションのボトルネックを克服できます
フリーテキストの表現型記述をオントロジー用語にリンクすることは、通常表現型アノテーションと呼ばれ、比較形態学的データを研究間で統合するために不可欠です。この労働集約的なプロセスは高度な訓練を受けた人間の専門家に大きく依存しており、そのため拡張が困難であり、それが大きなボトルネックとなっています。ダードゥルら。 (2018) 7 つの系統学的研究にわたるエンティティ品質 (EQ) アノテーションのゴールド スタンダード (GS) を確立し、それを使用して 3 人のキュレーターと、オントロジーベースの意味的類似性メトリクスを備えた Semantic CharaParser NLP ツールを評価しました。彼らは、機械と人間の一貫性は、キュレーター間(人間と人間)の一貫性よりも大幅に低いと報告しました。ここでは、Anthropic と OpenAI の 5 つのフロンティア ホスト LLM を使用してそのベンチマークを再検討します。各 LLM は、ソース出版物の PDF、元の人間のキュレーターが使用したのと同じ注釈ガイド、4 つのプロジェクト オントロジー (UBERON、PATO、BSPO、GO)、および検証スクリプトを提供する自己完結型ワークスペース内で「エージェント キュレーター」として動作します。同じゴールドスタンダードに照らして評価すると、すべてのエージェントは、元の研究で訓練を受けた 3 人の人間のバイオキュレーターのキュレーター間変動の範囲内に収まりました。最もパフォーマンスの高いエージェントがアプローチしましたが、最もパフォーマンスの高い人間のキュレーターには到達できませんでした。エージェントは、4 つの指標すべてで Semantic CharaParser を大幅に上回りました。
原文 (English)
Frontier LLM-based agents can overcome the ontology curation bottleneck for natural phenotypes
Linking free-text phenotype descriptions to ontology terms, typically referred to as phenotype annotation, is essential for the cross-study integration of comparative morphological data. This labor intensive process has heavily relied on highly trained human experts, which makes it challenging to scale and thus a key bottleneck. Dahdul et al. (2018) established a Gold Standard (GS) of Entity-Quality (EQ) annotations across seven phylogenetic studies and used it to evaluate three human curators and the Semantic CharaParser NLP tool with ontology-based semantic similarity metrics; they reported that machine-human consistency was significantly lower than inter-curator (human-human) consistency. Here we revisit that benchmark with five frontier hosted LLMs from Anthropic and OpenAI, each operating as an "agentic curator" within a self-contained workspace that supplies the source publication PDF, the same annotation guide used by the original human curators, the four project ontologies (UBERON, PATO, BSPO, GO), and a validation script. Evaluated against the same Gold Standard, every agent fell within the range of inter-curator variability of the three trained human biocurators of the original study; the best performing agents approached but did not reach the best performing human curator. Agents substantially outperformed Semantic CharaParser on all four metrics.
Adopt $\neq$ Adapt: 現実の LLM 会話の縦断的分析
ユーザーと LLM の相互作用について説明する研究が増えてきていますが、それが描く絵はほとんど静的なものです。個々のユーザーが時間の経過とともにどのように行動を変えるかについてはほとんど知られていません。このギャップに対処するために、無作為に抽出した $\sim$12,000 人の Microsoft Bing Copilot ユーザーの会話の軌跡を分析し、WildChat-4.8M のデータと比較します。 Copilot データには集団レベルの重要な傾向が含まれていますが、個々のユーザーの軌跡の傾向ははるかに弱いことがわかります。ユーザーの習慣は圧倒的に固定的であることがわかります。また、さまざまなアクティビティ レベルのユーザー間には明らかな違いがあることもわかりました。よりアクティブなユーザーはより成功した会話をし、より複雑でプロフェッショナル志向のタスクに LLM を使用します。一部のユーザー傾向は WildChat-4.8M にも見られますが、このデータセットが高度に熟練した「パワー」ユーザーに大きく偏っているという証拠が見つかりました。最終的に、私たちの結果は、既存のユーザーの行動を変えるのが難しいことを示唆しており、ユーザーの異質性の程度を示しています。データセット間の比較では、WildChat が典型的なユーザーと AI の対話を表していないことが強調されており、これはデータのダウンストリーム使用における重要な注意事項です。
原文 (English)
Adopt $\neq$ Adapt: Longitudinal Analyses of LLM Conversations in the Wild
Although a growing body of research has begun to describe user--LLM interactions, the picture it paints is largely static; little is known about how individual users change their behavior over time. To address this gap, we analyze the conversational trajectories of $\sim$12,000 randomly sampled Microsoft Bing Copilot users and compare these with data from WildChat-4.8M. While the Copilot data contains significant population-level trends, we find that trends in individual user trajectories are much weaker; user habits prove to be overwhelmingly sticky. We also find stark differences between users of different activity levels: more active users have more successful conversations and use the LLM for more complex and professionally oriented tasks. Some user trends also appear in WildChat-4.8M, but we find evidence that this dataset is significantly skewed towards highly proficient "power" users. Ultimately, our results suggest that existing user behavior is difficult to change and demonstrate the extent of user heterogeneity. Our comparison between datasets highlights that WildChat does not represent typical user-AI interactions, an important caveat for downstream uses of the data.
モデルが一致しない場合: パブリック コメント分析のための LLM 評価を再考する
連邦政府機関はパブリック コメント コーパスを分類するために大規模言語モデル (LLM) を導入しており、モデルの記録構成によって政策立案者が何を確認し、どの議論が登録されるかが決まります。小規模な検証済みセットに対するスタンスの精度に基づいた標準評価では、異なるモデルが同じ公的入力に対して実質的に異なる分類を生成する場合を検出できません。私たちは、マルチモデルの不一致を解釈の複雑さの診断として扱い、真に曖昧な公的意見に向けて人間によるレビューを指示する解釈監査パイプラインを提案します。 4 つの LLM にわたる連邦 USDA 文書に対する 1,260 件のパブリック コメントを分析したところ、モデル間のテーマの相違がモデル内のプロンプト変動を上回っており、専門家のルーブリックが深い解釈上の不一致を解決することなく抑圧していることがわかりました。層化された 40 コメントのサブサンプルに対する 2 段階のラベル付け研究では、4 人の LLM とヒューマン アノテーターが独立してラベル付けし、他のラベルを確認した後に修正しました。改訂動作はラベラーによって異なり、ヒューマン・アノテーターの改訂では、アンサンブルの集合的な出力にはないフレームが頻繁に導入されました。私たちは、不一致に基づく評価は、LLM 支援解釈コーディングの精度メトリクスを補完するために必要であると主張します。
原文 (English)
When Models Disagree: Rethinking LLM Evaluation for Public Comment Analysis
Federal agencies are deploying large language models (LLMs) to categorize public comment corpora, where the model's organization of the record shapes what policymakers see and which arguments register. Standard evaluation, anchored on stance accuracy against a small validated set, cannot detect when different models produce materially different categorizations of the same public input. We propose an Interpretive Audit Pipeline that treats multi-model disagreement as diagnostic of interpretive complexity and directs human review toward genuinely ambiguous public input. Analyzing 1,260 public comments on a federal USDA docket across four LLMs, we find that inter-model thematic divergence exceeds within-model prompt variation, and that an expert rubric suppresses deep interpretive disagreement without resolving it. In a two-stage labeling study on a stratified 40-comment subsample, four LLMs and a human annotator labeled independently and then revised after seeing the others' labels. Revision behavior varied across labelers, and the human annotator's revisions frequently introduced framings absent from the ensemble's collective output. We argue disagreement-based evaluation is a necessary complement to accuracy metrics for LLM-assisted interpretive coding.
トーンに注意: トーンによって LLM のパフォーマンスが変化しますか?
大規模言語モデル (LLM) の使用は急増していますが、そのパフォーマンスはプロンプトのスタイルや口調に基づいて変化することが観察されています。この研究では、プロンプトの音調の変化が客観的な多肢選択式の質問に対する LLM の精度の違いにつながるかどうか、またどのようにして起こるかを調査します。 5 つの声調バリエーションを持つ 50 ベースの質問データセットと、7 つの声調バリエーションを持つ 57 人の被験者にわたる 570 ベースの質問 MMLU サブセットの 2 つのデータセットを使用します。実験は、コスト効率の高い人気のある 4 つの LLM (ChatGPT-4o、ChatGPT-5-nano、Gemini 2.5 Flash、および Gemini 2.5 Flash Lite) のパフォーマンスを評価するために実施されました。モデル間での音色効果は体系的ですが、モデルに大きく依存します。一部のモデルは小さいながらも統計的に有意な変化を示しますが、他のモデルはトーン全体で大きな精度の変動を示します。さらに、トーン感度における被験者レベルの違いを特定し、トーンがどのように内部推論モードを調整するかを説明するためのルーティングフレームワークを提示します。私たちの調査結果は、LLM 導入においてトーン堅牢な信頼性を想定しないようユーザーに警告します。
原文 (English)
Mind Your Tone: Does Tone Alter LLM Performance?
The use of Large Language Models (LLMs) is proliferating, yet their performance is observed to vary based on prompting styles and tones. In this study, we investigate both whether and how tonal variations in prompts lead to disparate LLM accuracy for objective multiple-choice questions. We use two datasets: a 50-base question dataset with five tone variants and a 570-base question MMLU subset spanning 57 subjects with seven tone variants. Experiments were conducted to evaluate the performance of four cost-efficient, popular LLMs: ChatGPT-4o, ChatGPT-5-nano, Gemini 2.5 Flash, and Gemini 2.5 Flash Lite. Across models, tonal effects are systematic but highly model-dependent. Some models show small, yet statistically significant, shifts, while others exhibit large accuracy swings across tones. Further, we identify subject-level differences in tone sensitivity and present a routing framework to explain how tones may attune internal reasoning modes. Our findings caution users against assuming tone-robust reliability in LLM deployments.
Agentic AI、ネストされた学習、セマンティック キャッシングによる AI の持続可能性による幻覚の軽減
幻覚は、実稼働 LLM システムにとって、特にサポートされていないクレームがチェックされずにステージ全体に伝播する可能性があるマルチエージェント パイプラインにおいて、依然として大きな信頼性の障壁となっています。この論文では、連続メモリ システム (CMS) と意味論的類似性キャッシュを備えた HOPE にインスピレーションを得た入れ子学習アーキテクチャを、217 個の認識論的不確実性プロンプトと 93 個の製造誘導ストレステスト プロンプトを組み合わせた 310 個のプロンプトのハイブリッド ベンチマークに適応させます。オープン フロア プロトコル (OFP) を介して調整された 3 段階のエージェント パイプラインは、FCD (事実の主張密度)、FGR (事実の根拠参照)、FDF (架空の免責事項の頻度)、ECS (明示的なコンテキスト化スコア)、および OSR (観察可能性スコア率) の 5 つの KPI を使用して評価され、研究対象の 5 つの重み付け構成にわたって THS (総幻覚スコア) に集約されます。緩和と可観測性のトレードオフ。 FDF、ECS、OSR、および FGR は緩和シグナルとして差し引かれるため、THS がより負であるほど、緩和が強力であることを示します。 FrontEndAgent は、現実的な幻覚ベースラインを生成する高確率ジェネレータ (温度 = 1.0) として構成され、SecondLevelReviewer と ThirdLevelReviewer はプログレッシブ コレクタとして動作します。この非対称設計により、5 つの重み付け構成全体でエンドツーエンドの THS が -31.3% ~ -35.9% 削減されます。セマンティック キャッシュは、930 回の潜在的な呼び出しで 440 回のキャッシュ ヒット (ヒット率 47.3%) を達成し、LLM 呼び出しを 490 回に減らし、エネルギーと CO2e フットプリントを削減し、マルチステージ レビュー パイプラインを運用規模で実行可能にします。 ExtremeObservability は最もマイナスの最終 THS (-0.0709) を達成しており、可観測性を重視した構成が緩和を損なうのではなく強化していることが確認されています。これらの発見は、メモリ拡張マルチエージェント設計がモデルの再トレーニングなしで事実の信頼性、運用効率、監査可能性を共同で改善できることを示唆しています。
原文 (English)
Hallucination Mitigation with Agentic AI, Nested Learning, and AI Sustainability via Semantic Caching
Hallucination remains a major reliability barrier for production LLM systems, particularly in multi-agent pipelines where unsupported claims can propagate unchecked across stages. This paper adapts a HOPE-inspired Nested Learning architecture with Continuum Memory Systems (CMS) and semantic similarity caching to a hybrid benchmark of 310 prompts combining 217 epistemic-uncertainty prompts and 93 fabrication-induction stress-test prompts. A three-stage agentic pipeline orchestrated via the Open Floor Protocol (OFP) is evaluated with five KPIs -- FCD (Factual Claim Density), FGR (Factual Grounding References), FDF (Fictional Disclaimer Frequency), ECS (Explicit Contextualization Score), and OSR (Observability Score Ratio) -- aggregated into THS (Total Hallucination Score) across five weighting configurations to study mitigation-observability trade-offs. FDF, ECS, OSR, and FGR are subtracted as mitigation signals, so that a more negative THS indicates stronger mitigation. The FrontEndAgent is configured as a high-stochasticity generator (temperature = 1.0) to produce a realistic hallucination baseline, while the SecondLevelReviewer and ThirdLevelReviewer operate as progressive correctors. This asymmetric design yields end-to-end THS reductions of -31.3% to -35.9% across five weighting configurations. Semantic caching achieves 440 cache hits over 930 potential calls (47.3% hit rate), reducing LLM invocations to 490, lowering energy and CO2e footprint, and making multi-stage review pipelines operationally viable at production scale. ExtremeObservability attains the most negative final THS (-0.0709), confirming that observability-heavy configurations reinforce rather than compromise mitigation. These findings suggest that memory-augmented multi-agent designs can jointly improve factual reliability, operational efficiency, and auditability without model retraining.
潜在推論を備えた堅牢で効率的なガードレール
大規模言語モデル (LLM) が現実世界のアプリケーションに導入されることが増えているため、その安全性を維持することが重要です。既存の安全ガードレールは通常、シングルパス分類、または最近では蒸留された推論に依存しています。推論ベースのガードレールは、分類のみのベースラインよりも大幅にパフォーマンスが優れていますが、クエリの遅延とトークンのオーバーヘッドが大幅に発生するため、高スループットの展開には非現実的です。この課題に対処するために、段階別のトレーニング カリキュラムを通じて複数ステップの安全推論を連続的な潜在空間に転送し、推論時に直接隠れ状態の伝播を可能にするガードレール モデルである COLAGUARD を提案します。 8 つの安全性ベンチマークにわたる 10 のプロンプトおよび応答モデレーション設定で評価された COLAGUARD は、マクロ F1 を Llama Guard 3 より 8.24 ポイント改善し、マクロ F1 の明示的推論ベースライン GuardReasoner と一致すると同時に、12.9 倍の高速化とトークン使用量の 22.4 倍の削減を実現します。私たちの結果は、潜在的推論が、展開可能なガードレールの明示的理論的根拠の生成に代わる実用的な代替手段を提供し、安全性の堅牢性と推論の効率を競合する目的として扱うのではなく、共同して向上させることを示唆しています。
原文 (English)
Robust and Efficient Guardrails with Latent Reasoning
Maintaining the safety of large language models (LLMs) is crucial as they are increasingly deployed in real-world applications. Existing safety guardrails typically rely on single-pass classification or, more recently, distilled reasoning. Reasoning-based guardrails significantly outperform classification-only baselines, but they incur substantial query latency and token overhead that make them impractical for highthroughput deployment. To address this challenge, we propose COLAGUARD, a guardrail model that transfers multi-step safety reasoning into a continuous latent space through a stage-wise training curriculum, enabling direct hidden-state propagation at inference. Evaluated on ten prompt- and response-moderation settings spanning eight safety benchmarks, COLAGUARD improves macro-F1 by 8.24 points over Llama Guard 3 and matches our explicit reasoning baseline, GuardReasoner, in macroF1 while delivering a 12.9X speedup and 22.4X reduction in token usage. Our results suggest that latent reasoning offers a practical alternative to explicit rationale generation for deployable guardrails, jointly improving safety robustness and inference efficiency rather than treating them as competing objectives.
コンセンサスを超えて: 薬剤の混合物における微量レベルの合成
複数の LLM エージェントが同じ問題を解決する場合、標準的な慣行では、各エージェントの推論が多数決または階層化された統合に圧縮され、合意が最終ラインとして扱われます。私たちは、これが不必要に損失を伴うことを示します。完全な推論トレースを読み取る LLM アグリゲーターは、エージェントが全会一致で同意した場合でも、有益な修正が有害な修正を常に上回り、正しい解決策を回復します -- \emph{集約のパラドックス}。多数決には、摂動の多様性によって上昇しない上限があります (誤差の相関関係は同一です)。アグリゲーターの利益は、投票によって破棄される少数派のチェーンから正しい中間ステップを組み立てる、トレースレベルの相補性から得られます。これらの発見は、セマンティックを保持する入力摂動を通じて微量多様性を生成し、証明可能な非劣化保証を備えたアンカー改良によって大部分を保護し、コンセンサスに基づいてゲートすることなく常に合成するエージェントの自己一貫性混合を動機付けます。摂動による微量変化を伴う単一モデルは、構造化推論、博士レベルの科学、競技数学、競技プログラミングにおいて、異種モデル プールよりも優れたパフォーマンスを発揮します。集計の単位は、答えではなく、推論のトレースである必要があります。
原文 (English)
Beyond Consensus: Trace-Level Synthesis in Mixture of Agents
When multiple LLM agents solve the same problem, standard practice compresses each agent's reasoning into a majority vote or layered synthesis, treating agreement as the finish line. We show this is unnecessarily lossy: an LLM aggregator that reads complete reasoning traces recovers correct solutions even when agents unanimously agree, with beneficial corrections consistently outweighing harmful ones -- the \emph{aggregation paradox}. Majority voting has a ceiling that perturbation diversity does not raise (error correlations are identical); the aggregator's gain comes from trace-level complementarity, assembling correct intermediate steps from minority chains that voting discards. These findings motivate Self-Consistent Mixture of Agents which generates trace diversity through semantic-preserving input perturbations, safeguards the majority via anchored refinement with provable non-degradation guarantees, and always synthesizes -- never gates on consensus. A single model with perturbation-induced trace variation outperforms heterogeneous model pools across structured reasoning, PhD-level science, competition mathematics, and competitive programming. The unit of aggregation should be the reasoning trace, not the answer.
ReasonOps: LLM 推論トレースのオペレーター セグメンテーション
大規模な推論モデルからの思考連鎖のトレースは数万のトークンに及ぶ可能性がありますが、その内部構造を説明するための語彙が不足しています。思考連鎖のトレースを分析するために開発されたこれまでの手法は、厳密すぎるか表現力が不十分で、ドメインやモデル全体の特徴を捉えることができませんでした。これを解決するために、思考連鎖トレースに注釈を付けるための教師なしの表現力豊かな手法である ReasonOps を開発し、簡潔な汎用演算子を提供します。 ReasonOps を使用して、8 つの推論ベンチマークにわたる 6 ファミリにまたがる 12 の思考 LLM からの 44,662 のトレースを分析し、それらが共通の構成構造を共有していることを発見しました。それは、文頭の 3 トークン ピボットの教師なしクラスタリングから現れる 7 つの繰り返し推論演算子、つまり後戻り、推論、仮説立てなどの談話レベルの動きです。これらの演算子は、すべてのモデル ファミリとベンチマーク ドメインにわたって出現し、ホールドアウトされたサンプルを 70 ~ 76% の精度で分類する 3 人の独立した LLM 審査員によって確認されています。簡単な問題と難しい問題の演算子の構造を分析し、反射型演算子は難しい問題ではより役立ち、簡単な問題ではパフォーマンスに悪影響を与えることを明らかにしました。演算子シーケンスは高度にモデルを識別します。演算子分布のみでトレーニングされた分類器はマクロ AUC でソース モデルを復元し、各モデル ファミリが独特の推論フィンガープリントを持っていることを明らかにします。構造演算子の特徴は、問題内の解答の正しさをベースラインをはるかに上回って予測します。これらの演算子に基づいて構築された分類子は、特に WP-AUC および AIME に到達します。さらに、ReasonOps により、トレースが完了するかなり前に早期品質推定が可能になります。WP-AUC ではトレースの 50% のみを予測します。 ReasonOps パイプラインは教師なしでアノテーションも不要なので、LLM 推論トレースに対する深い洞察と、モデルの識別と正確性の予測に関する強力な下流の結果が可能になります。
原文 (English)
ReasonOps: Operator Segmentation for LLM Reasoning Traces
Chain-of-thought traces from large reasoning models can span tens of thousands of tokens, yet we lack a vocabulary for describing their internal structure. Previous methods developed to analyze chain-of-thought traces are either too rigid or not expressive enough, failing to capture features across domains and models. To remedy this, we develop ReasonOps, an unsupervised, expressive method for annotating chain-of-thought traces, providing succinct universal operators. Using ReasonOps, we analyze 44,662 traces from 12 thinking LLMs spanning 6 families across 8 reasoning benchmarks and discover that they share a common compositional structure: 7 recurring reasoning operators -- discourse-level moves such as backtracking, inferring, and hypothesizing -- that emerge from unsupervised clustering of sentence-initial 3-token pivots. These operators appear across every model family and benchmark domain, confirmed by three independent LLM judges who classify held-out samples at 70 -76% accuracy. We analyze the structure of operators on easy vs. hard problems, revealing that reflective operators are more helpful on hard problems and harm performance on easy problems. Operator sequences are highly model-identifying: a classifier trained on operator distributions alone recovers the source model with macro-AUC, revealing that each model family has a distinctive reasoning fingerprint. Structural operator features predict within-problem answer correctness well above baselines. Classifiers built on these operators reach WP-AUC and on AIME specifically. ReasonOps further enables early quality estimation well before the trace completes: we predict at WP-AUC for only 50% of the trace. The ReasonOps pipeline is unsupervised and annotation-free, enabling deep insights into LLM reasoning traces as well as strong downstream results on model identification and correctness prediction.
BenchTrace: LLM エージェントのリフレクション能力と制御された進化をテストするためのベンチマーク
自己進化エージェントは過去の失敗を反映することで時間の経過とともに改善しますが、既存の評価には 2 つの点で制限があります。1 つはタスク スコアのみを測定し、反映品質は不明のままにすること、もう 1 つはエージェント自身のエピソードの実行に依存しており、特定の失敗パターンを対象にするメカニズムを提供していないことです。 LLM エージェントの自己進化能力を評価するためのベンチマークである \textbf{BenchTrace} を紹介します。 BenchTrace は、6 つの多様なタスクにわたる 1,821 の注釈付きエピソードのスナップショット反映データセットに基づいて構築されており、ターゲットを絞った QA タスクを通じて障害の特定を調査する \textbf{反映評価} と、制御された自己進化シミュレーションで過去の障害経験が回避行動に変換されるかどうかをテストする \textbf{進化評価} で構成されます。 BenchTrace に基づいて、エージェントがターゲットの障害インスタンスを回避できたテスト ケースの割合を測定する新しい評価指標である \textbf{障害回避率 (FAR)} を提案します。 Qwen3-32B と GPT-4.1 を使った実験では、どちらのモデルもリフレクション評価でエンドツーエンドの合格率が 30\% を下回り、診断が主なボトルネックであることが明らかになりました。進化の評価では、自己進化手法は一般に非進化ベースラインよりもFARを改善しますが、エージェントはノイズエピソードが蓄積するにつれて初期のレッスンを忘れ、エージェントは特定のコンテキストを超えて反省を一般化することができず、タスクコンテキスト間で負の転移を引き起こすことが示されています。さらに、相関分析により、完全に正しい反射のみが高い FAR と強く関連していることが明らかになりました。 BenchTrace は、現在の自己進化アプローチの具体的な限界を明らかにし、対象を絞った評価のための制御されたモデルに依存しないフレームワークを提供します。
原文 (English)
BenchTrace: A Benchmark for Testing Reflection Ability and Controlled Evolution in LLM Agents
Self-evolving agents improve over time by reflecting on past failures, but existing evaluation is limited in two ways: it measures only task scores, leaving reflection quality unknown, and it relies on agents' own episode runs, offering no mechanism to target specific failure patterns. We present \textbf{BenchTrace}, a benchmark for evaluating self-evolution ability in LLM agents. BenchTrace is built on a snapshot-reflection dataset of 1,821 annotated episodes spanning six diverse tasks, and comprises a \textbf{Reflection Evaluation} that probes failure identification through targeted QA tasks, and an \textbf{Evolution Evaluation} that tests whether past failure experience translates into avoidance behavior in a controlled self-evolution simulation. Building on BenchTrace, we propose \textbf{failure avoidance rate (FAR)}, a new evaluation metric measuring the fraction of test cases in which the agent successfully avoids the target failure instance. Experiments with Qwen3-32B and GPT-4.1 reveal that both models fall below a 30\% end-to-end pass rate on reflection evaluation, with diagnosis as the primary bottleneck. Evolution evaluation shows that self-evolution methods generally improve FAR over the non-evolving baseline, but agents forget early lessons as noise episodes accumulate, and agents fail to generalize their reflections beyond the specific context, causing negative transfer across task contexts. Our correlation analysis further reveals that only a fully correct reflection is strongly associated with higher FAR. BenchTrace exposes concrete limits of current self-evolution approaches and provides a controlled, model-agnostic framework for targeted evaluation.
カリキュラムの調整: 動的データモデル互換性による学生中心の推論の抽出
推論蒸留は、複雑な推論能力を大規模な言語モデル (LLM) から小規模な言語モデルに移行しますが、その成功はトレーニング データが学生モデルとどの程度一致するかによって決まります。このペーパーでは、スチューデント モデルでの推論蒸留に対するデータセットの適合性を評価するために使用できるデータ モデル互換性 (DMC) メトリクスを紹介します。 DMC は、データの品質、相対的な難易度、学生の能力を共同で考慮して評価を提供します。 DMC の有効性を 2 つの観点から検証しました。(1) DMC は推論蒸留パフォーマンスと強い相関を示します。 (2) データ選択の基準として DMC を使用すると、推論蒸留のパフォーマンスが向上します。どちらの発見も、複数の学生モデルとタスクにわたって一貫して実証されています。さらに、各データセットの DMC はトレーニング中に動的に変化するため、DMC に基づいてデータセットを動的に選択することでパフォーマンスがさらに向上することが実験で実証されました。
原文 (English)
Tailoring the Curriculum: Student-Centered Reasoning Distillation via Dynamic Data-Model Compatibility
Reasoning distillation transfers complex reasoning abilities from large language models (LLMs) to smaller ones, yet its success depends on how well the training data align with the student model. This paper introduces the Data-Model Compatibility (DMC) metric, which can be used to assess the suitability of a dataset for reasoning distillation on a student model. DMC provides an assessment by jointly considering data quality, relative difficulty, and student capability. We validated the effectiveness of DMC from two perspectives: (1) DMC exhibits a strong correlation with reasoning distillation performance; and (2) using DMC as the criterion for data selection leads to improved reasoning distillation performance. Both findings are consistently demonstrated across multiple student models and tasks. Moreover, since the DMC of each dataset dynamically changes during training, our experiments demonstrate that dynamically selecting datasets based on DMC can further enhance performance.
DenseSteer: 小規模な言語モデルを高密度数学推論に向けて操作する
大規模な言語モデル (LLM) は強力な思考連鎖 (CoT) 推論能力を示しますが、小規模なモデル (<= 3B パラメーター) は、複数ステップの推論タスクでは著しくパフォーマンスが劣ります。数的推論ベンチマークにおける Qwen-2.5 モデル ファミリーの経験的分析に基づいて、より熟練した推論は、推論ステップが少なく、ステップごとの情報密度が高いことに関連していることがわかりました。この特性を、私たちは「高密度推論」と呼んでいます。この観察に動機付けられて、私たちは、内部表現を密な推論パターンに向けて調整することによって小規模モデル推論を強化する、トレーニング不要の推論時間ステアリング フレームワークである DenseSteer を提案します。実験では、私たちの方法がトークンレベルの負の対数尤度を増加させることなく一貫した精度の向上をもたらすことを示し、数学的問題解決への効果的な構造的アプローチとして密な推論を強調しています。
原文 (English)
DenseSteer: Steering Small Language Models towards Dense Math Reasoning
Large language models (LLMs) demonstrate strong chain-of-thought (CoT) reasoning abilities, while smaller models (<= 3B parameters) significantly underperform on multi-step reasoning tasks. Based on empirical analyses of the Qwen-2.5 model family on math reasoning benchmarks, we find that more proficient reasoning is associated with fewer reasoning steps but higher information density per step, a property we term Dense Reasoning. Motivated by this observation, we propose DenseSteer, a training-free inference-time steering framework that enhances small-model reasoning by modulating internal representations toward dense reasoning patterns. Experiments show that our method yields consistent accuracy improvements without increasing token-level Negative Log-Likelihood, highlighting dense reasoning as an effective structural approach to mathematical problem solving.
読み取り不可能なもののインデックス作成: LLM ネイティブの再帰的構築とサービス分類の検索
Internet of Agents (IoA) の時代が具体化しつつあります。LLM エージェントは、急速に増加する Model Context Protocol (MCP) サーバー、Agent-to-Agent (A2A) エンドポイント、再利用可能なスキル、およびその他の LLM 呼び出し可能なサービスを調整することで、ユーザーの目標を達成することが期待されています。しかし、LLM はこの体制との構造的な不一致に直面しています。有効なコンテキストは、サービスの数に応じて拡張できない希少なリソースです。数千のサービス説明をプロンプトに連結すると、コンテキスト ウィンドウがオーバーフローし、ウィンドウが十分に大きい場合でも、モデルは長い入力の途中で情報に体系的に注意を向けることができなくなります。これは十分に文書化されている「Lost-in-the-Middle」現象です。これは基本的に、サービス検出のためのコンテキスト管理の問題です。これに対処するために、LLM ネイティブのプログレッシブ開示スキームとその具体的なインスタンス化である A2X (Agent-to-Anything サービス ディスカバリ) を提案します。これは、登録されたサービスを自動的に階層分類に編成し、クエリ時にレイヤーごとにたどる LLM 駆動のパイプラインです。これにより、すべての LLM 呼び出しでは、ユーザー クエリに関連性の高い小さな候補セットのみが表示されます。これにより、有効なコンテキストの不足がレジストリ サイズから切り離され、取得精度が向上しながらトークンの消費が大幅に削減されます。フルコンテキスト ダンピングと比較して、A2X はプロンプト トークン コストの 9 分の 1 で 6.2 ポイントのヒット率の向上を達成します。最先端のオープンソースの埋め込みベースのベースラインと比較して、A2X はヒット率を 20 ポイント以上改善します。
原文 (English)
Indexing the Unreadable: LLM-Native Recursive Construction and Search of Service Taxonomies
The era of the Internet of Agents (IoA) is taking shape: LLM agents are expected to fulfill user goals by orchestrating fast-growing populations of Model Context Protocol (MCP) servers, Agent-to-Agent (A2A) endpoints, reusable skills, and other LLM-callable services. Yet LLMs face a structural mismatch with this regime: effective context is a scarce resource that does not scale with the number of services. Concatenating thousands of service descriptions into a prompt overflows the context window, and even when the window is large enough, models systematically under-attend to information in the middle of long inputs, the well-documented Lost-in-the-Middle phenomenon. This is fundamentally a question of context management for service discovery. To address this, we propose an LLM-native progressive-disclosure scheme and its concrete instantiation, A2X (Agent-to-Anything service discovery): an LLM-driven pipeline that automatically organizes the registered services into a hierarchical taxonomy and walks it layer by layer at query time, so that every LLM call sees only a small candidate set highly relevant to the user query. This decouples effective-context scarcity from registry size and significantly reduces token consumption while improving retrieval accuracy. Compared to full-context dumping, A2X achieves a 6.2-point Hit Rate gain at one-ninth the prompt-token cost; compared to the state-of-the-art open-source embedding-based baseline, A2X improves Hit Rate by more than 20 points.
CoHyDE: ツール検索のための LLM リライタと高密度エンコーダの反復的共同トレーニング
大規模な API カタログを介したツールの取得は、LLM エージェントにとって主要なボトルネックです。ユーザー クエリは口語的な、多くの場合、仕様が不十分な言語で到着しますが、カタログでは、固定エンコーダーが単独でブリッジできない技術的な API ボキャブラリーが使用されます。対照的なエンコーダの微調整と、フリーズ LLM を使用した HyDE スタイルのクエリ拡張という 2 つの主要なトレーニング アプローチは、この問題に反対側から対処し、相補的な方向で失敗します。微調整されたエンコーダは、クエリの表面形式がすでにカタログと一致する場合には優れていますが、一致しない場合は崩壊します。一方、ゼロショットの HyDE は、仕様が不十分なクエリに対してはより堅牢ですが、クエリが適切な形式である場合に検索を低下させるカタログを意識しない仮説的な記述を生成します。高密度エンコーダと LLM リライタを単一の共進化システムとしてトレーニングする反復手順である CoHyDE を導入します。エンコーダはリライタによって生成されたカタログ形式の仮説記述に基づいて InfoNCE で再トレーニングされ、リライタはエンコーダの検索スコアに対して DPO 経由で優先的に調整され、ループが始まる前にツール カタログで双方がウォーム スタートされます。 ToolBench カタログの約 10,000 のツール サブセットでは、CoHyDE の 3 ラウンドにより、最も強力な単一コンポーネントのベースラインよりも、標準クエリで NDCG@5 が +2.5 pp、保留された曖昧クエリで +6.3 pp 改善され、最も困難な曖昧層では +8 pp もの向上が見られます。アブレーションにより、共トレーニングが重要な要素であることが確認されました。いずれかのコンポーネントを単独で使用すると、整形式のクエリと曖昧なクエリの両方で CoHyDE に匹敵することができず、曖昧なクエリでは最大 -8 pp の損失が発生します。
原文 (English)
CoHyDE: Iterative Co-Training of LLM Rewriter & Dense Encoder for Tool Retrieval
Tool retrieval over large API catalogs is a core bottleneck for LLM agents: user queries arrive in colloquial, often underspecified language, while the catalog uses technical API vocabulary that no fixed encoder can bridge on its own. The two dominant training approaches, contrastive encoder fine-tuning and HyDE-style query expansion with a frozen LLM, address this problem from opposite ends and fail in complementary directions: the fine-tuned encoder excels when the query's surface form already matches the catalog but collapses when it does not, while zero-shot HyDE is more robust to underspecified queries yet generates catalog-unaware hypothetical descriptions that degrade retrieval when queries are well-formed. We introduce CoHyDE, an iterative procedure that trains the dense encoder and the LLM rewriter as a single co-evolving system: the encoder is retrained with InfoNCE on catalog-style hypothetical descriptions produced by the rewriter, and the rewriter is preference-aligned via DPO against the encoder's retrieval scores, with both sides warm-started on the tool catalog before the loop begins. On a ~10k tool subset of the ToolBench catalog, three rounds of CoHyDE improve over the strongest single-component baseline by +2.5 pp NDCG@5 on standard queries and +6.3 pp on held-out vague queries, with gains as large as +8 pp on the hardest vague tier. Ablations confirm that co-training is the key ingredient: using either component in isolation fails to match CoHyDE on both well-formed and vague queries, with losses of up to -8 pp on vague queries.
正解の長い CoT トレーニング トレースにおける有害な継続の診断
長い思考連鎖 (CoT) トレースは、推論指向の LLM SFT の監視として広く使用されていますが、正解したトレースでも、著しく異なる微調整結果が得られる可能性があります。私たちは、答えが正しいロング CoT データにおける結論後の継続を研究します。これは、答えが十分に裏付けられているように見えますが、トレースは教師付きターゲットに残る追加の推論で継続するものです。トレーニング効果をテストするために、削除専用エディターを使用して応答を保持するサフィックス削除を構築し、元のトレースと処理されたトレースで CoT ベースの SFT を比較します。編集者が特定した結論後の継続を削除した後、SFT の結果が改善されたことが観察され、この継続が私たちの設定でのトレーニングに有害であることが示唆されています。したがって、私たちは経験的に裏付けられたこの現象を有害な継続と呼びます。この介入を超えて、不確実性と隠れた状態の進行を通じて削除された結論後の継続をさらに特徴付けます。持続的な局所的な不確実性と、最終方向への進行の弱まりが観察され、不確実性、つまり幾何学的不一致が形成されます。最後に、編集者が特定した結論後の継続境界を近似する軽量境界プロキシである Harmful Continuation Cut (HCC) をインスタンス化します。
原文 (English)
Diagnosing Harmful Continuation in Answer-Correct Long-CoT Training Traces
Long chain-of-thought (CoT) traces are widely used as supervision for reasoning-oriented LLM SFT, yet answer-correct traces can still lead to markedly different fine-tuning outcomes. We study post-conclusion continuation in answer-correct long-CoT data: a continuation where the answer appears sufficiently supported, but the trace continues with additional reasoning that remains in the supervised target. To test its training effect, we use a delete-only editor to construct answer-preserving suffix removal and compare CoT-based SFT on the original and processed traces. We observe improved SFT outcomes after removing the editor-identified post-conclusion continuation, suggesting that this continuation is harmful to training in our setting. We therefore refer to this empirically supported phenomenon as harmful continuation. Beyond this intervention, we further characterize the removed post-conclusion continuation through uncertainty and hidden-state progress. We observe persistent local uncertainty together with weakened terminal-directional progress, forming an uncertainty--geometry mismatch. Finally, we instantiate Harmful Continuation Cut (HCC), a lightweight boundary proxy that approximates the editor-identified post-conclusion continuation boundary.
単一意味性のスケーリング: クロード 3 ソネットから解釈可能な特徴を抽出する
私たちは、スパース オートエンコーダーが実稼働規模の言語モデルである Claude 3 Sonnet から解釈可能な特徴を抽出できることを実証し、辞書学習方法が小規模なトランスフォーマーを超えて拡張できるかどうかという未解決の問題に対処します。私たちは、ハイパーパラメーターの選択をガイドするスケーリング則を使用して、モデルの中間層の残差ストリーム上で最大 3,400 万の特徴を備えたスパース オートエンコーダーをトレーニングしました。結果として得られる機能は、多言語およびマルチモーダル (テキストのみのトレーニングにもかかわらず画像に一般化) であり、具体的なインスタンスと概念の抽象的な議論の両方に応答し、解釈と一致する方法でモデルの動作を制御するために使用できます。有名なエンティティや場所に対応する特徴だけでなく、皮肉やコード内のエラーなどのより抽象的な概念も見つかります。また、言語モデルが危害を引き起こす可能性のある方法に関連する特徴 (欺瞞、権力追求、お調子者、偏見を表す特徴など) を特定し、これらの特徴が操作されたときにモデルの出力に因果的に影響を与えることを示します。さらに、特徴の解釈可能性、形状、計算機能の分析も行います。ただし、重大な制限が残っています。私たちの一連の機能は不完全であり、私たちの機能がモデルの計算を忠実に捉えているかどうかを評価するための厳密な方法がありません。
原文 (English)
Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet
We demonstrate that sparse autoencoders can extract interpretable features from Claude 3 Sonnet, a production-scale language model, addressing the open question of whether dictionary learning methods scale beyond small transformers. We trained sparse autoencoders with up to 34 million features on the model's middle layer residual stream, using scaling laws to guide hyperparameter selection. The resulting features are multilingual and multimodal (generalizing to images despite text-only training), respond to both concrete instances and abstract discussions of concepts, and can be used to steer model behavior in ways consistent with their interpretations. We find features corresponding to famous entities and locations, as well as more abstract concepts like sarcasm or errors in code. We also identify features relevant to ways in which language models might cause harm--including features representing deception, power-seeking, sycophancy, and bias--and show that these causally influence model outputs when manipulated. Additionally, we conduct analyses of feature interpretability, geometry, and computational function. However, significant limitations remain: our suite of features is incomplete, and we lack rigorous methods for evaluating whether our features faithfully capture model computations.
EvoMD-LLM: 反応性分子動力学における種の進化の言語を学ぶ
大規模言語モデル (LLM) は静的な科学的推論には優れていますが、動的な物理プロセスの時間構造をモデル化するのは困難です。我々は、種レベルの分子動力学を記号時間言語モデリング問題として再定式化するフレームワークである EvoMD-LLM (進化的分子動力学大規模言語モデル) を紹介します。反応性 MD 軌跡は分子イベントのシーケンスに離散化され、各トークンはその持続期間が増加した化学種を表し、標準的な自己回帰 LLM が効率的な微調整を通じて時間の経過に伴う組成の進化を学習できるようになります。 EvoMD-LLM の重要なコンポーネントは時間的足場です。これは、イベント期間を明示的な言語トークンとして扱い、構造化された誘導バイアスとして機能し、従来のシーケンス モデリング アプローチと比較して、無効または幻覚を引き起こす分子出力を大幅に削減します。複数の時間予測タスクで EvoMD-LLM を評価し、最大 66.14% の精度を達成し、逐次ニューラル ネットワークや言語ベースのベースラインを常に上回るパフォーマンスを示しました。定量的な改善を超えて、たとえペアの軌跡と説明のデータで明示的に監視されていなかったとしても、モデルが関連する化学知識を組み込むことによって独自の予測の解釈を生成できることが定性的に観察されました。これらの結果は、シンボリック時間言語モデリングが動的物理シミュレーションで LLM を基礎付けるための効果的なフレームワークを提供することを示しています。
原文 (English)
EvoMD-LLM: Learning the Language of Species Evolution in Reactive Molecular Dynamics
While large language models (LLMs) excel at static scientific reasoning, they struggle to model the temporal structure of dynamic physical processes. We present EvoMD-LLM (Evolutionary Molecular Dynamics Large Language Model), a framework that reformulates species-level molecular dynamics as a symbolic temporal language modeling problem. Reactive MD trajectories are discretized into sequences of molecular events, where each token represents a chemical species augmented with its persistence duration, enabling standard autoregressive LLMs to learn compositional evolution over time through efficient fine-tuning. A key component of EvoMD-LLM is temporal scaffolding, which treats event duration as an explicit linguistic token and serves as a structured inductive bias, significantly reducing invalid or hallucinated molecular outputs compared to conventional sequence modeling approaches. We evaluate EvoMD-LLM on multiple temporal prediction tasks, achieving up to 66.14% accuracy and consistently outperforming sequential neural networks and language-based baselines. Beyond quantitative improvements, we qualitatively observe that the model is capable of generating interpretations for its own predictions by incorporating relevant chemical knowledge, even though it was not explicitly supervised with paired trajectory-explanation data. These results demonstrate that symbolic temporal language modeling provides an effective framework for grounding LLMs in dynamic physical simulations.
整列しているが壊れやすい: ゼロ次最適化による LLM の安全性の堅牢性の強化
大規模言語モデル (LLM) の安全性調整は、一般的な実用性を維持しながら、有害または危険な動作を減らすことを目的としています。しかし、最近の調査結果では、アライメントの効果は脆弱である可能性があることが明らかになりました。パラメータ ノイズ、アクティベーション ノイズ、量子化などのアライメント後の軽量操作により、意図した安全動作が容易に弱まる可能性があります。堅牢性を向上させるためのこれまでの取り組みは、主にデータのキュレーション、修正された調整目標、安全性が重要なパラメータの特定に焦点を当てており、オプティマイザ自体の役割はほとんど解明されていませんでした。この論文では、私たちはベース オプティマイザーの観点から安全調整の堅牢性を初めて研究しました。このオプティマイザ中心の考え方は、当然のことながら 0 次最適化を指します。これは、摂動下での安全性調整を評価することによってロバスト性指向のシグナルを提供します。この洞察に基づいて、最初に標準的な 1 次の安全性調整を実行し、次に 0 次の改良を適用して堅牢性を向上させるハイブリッド フレームワークを提案します。理論的にも経験的にも、少数のゼロ次改良ステップだけで安全性の調整を維持しながらロバスト性を向上できることが示されています。 0 次リファインメントの固有の摂動ベースの評価を利用して層ごとのロバスト性感度を推定することで、0 次リファインメントの効率をさらに向上させ、リファインメント プロセスが適度なトレーニング オーバーヘッドでロバスト性が重要な層の更新を集中できるようにします。
原文 (English)
Aligned but Fragile: Enhancing LLM Safety Robustness via Zeroth-Order Optimization
Safety alignment for large language models (LLMs) aims to reduce harmful or unsafe behavior while preserving general utility. However, recent findings reveal that alignment effects can be fragile: lightweight post-alignment manipulations, such as parameter noise, activation noise, or quantization, can easily weaken the intended safety behavior. Prior efforts to improve robustness have primarily focused on data curation, modified alignment objectives, and safety-critical parameter identification, leaving the role of the optimizer itself largely unexplored. In this paper, we are the first to study the robustness of safety alignment from the perspective of the base optimizer. This optimizer-centric view naturally points to zeroth-order optimization, which provides a robustness-oriented signal by evaluating safety alignment under perturbations. Based on this insight, we propose a hybrid framework that first performs standard first-order safety alignment and then applies zeroth-order refinement to improve robustness. Both theoretically and empirically, we show that only a few zeroth-order refinement steps can enhance robustness while preserving safety alignment. We further improve the efficiency of zeroth-order refinement by exploiting its inherent perturbation-based evaluations to estimate layer-wise robustness sensitivity, enabling the refinement process to concentrate updates on robustness-critical layers with modest training overhead.
ペルソナプロンプトが実際に役立つのはいつですか? LLM におけるエキスパート ロール インジェクションの取得とメトリクス分析
ペルソナ プロンプトは大規模な言語モデルを操作するために広く使用されていますが、その実用的な価値は依然として不明です。これまでの研究では、集計スコアを使用してペルソナのプロンプトを評価することが多く、専門家の役割によるプロンプトが一貫して応答の品質を向上させるのか、それとも異なる品質の側面に沿って応答を変化させるのかを判断することが困難でした。私たちは、38 のエキスパートの役割と 6 つのドメインにわたる 1,140 件の自由形式の質問にわたる 4 つのプロンプト条件の制御された比較を通じてこの質問を研究します。つまり、役割プロンプトなし、一般的なドメイン専門家プロンプト、埋め込みベースの役割検索、および埋め込み検索と LLM ベースの役割選択を組み合わせたハイブリッド検索方法です。集計結果では、条件間の全体的な差異はわずかしか示されません。ただし、指標レベルの分析では、集計平均ではわかりにくい一貫したトレードオフが明らかになります。役割のプロンプトは体系的に専門知識の深さを増す一方で、明確さは低下します。これらの効果は普遍的ではなく、非常に条件付きです。役割のプロンプトは、助言的な質問や、構造化された専門家の枠組みやリスクコミュニケーションが本質的に価値のある医学や心理学などの分野で最も効果を発揮します。対照的に、ベースラインのプロンプトは、簡潔で平易な言葉での説明がより重要である、金融、法律、科学、技術の分野における概念的な質問や説明的な質問に対してより効果的です。さらに、ハイブリッド検索は、埋め込みのみの役割選択よりも大幅に向上しますが、より適切な役割検索では、より広範な専門知識の深さと明確さのトレードオフが排除されないことを示します。全体として、私たちの調査結果は、ペルソナプロンプトは能力を大幅に向上させるのではなく、主に反応特性を再形成すること、そしてその効果を理解するには複数の指標による評価が必要であることを示唆しています。
原文 (English)
When Does Persona Prompting Actually Help? A Retrieval and Metric Analysis of Expert Role Injection in LLMs
Persona prompting is widely used to steer large language models, yet its practical value remains unclear. Prior work often evaluates persona prompting using aggregate scores, making it difficult to determine whether expert-role prompting consistently improves response quality or instead changes responses along different quality dimensions. We study this question through a controlled comparison of four prompting conditions across 1,140 open-ended questions spanning 38 expert roles and six domains: no role prompt, a generic domain-expert prompt, embedding-based role retrieval, and a hybrid retrieval method combining embedding search with LLM-based role selection. Aggregate results show only small overall differences between conditions. However, metric-level analysis reveals a consistent tradeoff that aggregate averages obscure: role prompting systematically increases expertise depth while reducing clarity. These effects are highly conditional rather than universal. Role prompting performs best on advisory questions and in domains such as medicine and psychology, where structured expert framing and risk communication are intrinsically valuable. In contrast, baseline prompting performs better on conceptual and explanatory questions in finance, legal, science, and technology domains, where concise plain-language explanation is more important. We further show that hybrid retrieval significantly improves over embedding-only role selection, although better role retrieval does not eliminate the broader expertise-depth versus clarity tradeoff. Overall, our findings suggest that persona prompting primarily reshapes response characteristics rather than broadly improving capability, and that multi-metric evaluation is necessary for understanding its effects.
エージェントによる修正と意味評価による人間のような対話型音声認識を目指して
自動音声認識 (ASR) は、人間とコンピューターの対話の中核コンポーネントであり、LLM ベースのアシスタントおよびエージェントにとってますます重要なフロントエンドです。しかし、現在のほとんどの ASR システムは依然としてシングルパス パラダイムに従っており、人間のコミュニケーションとの整合性が低く、誤解は繰り返しの明確化と改良によって解決されます。この不一致により、意味に関わる重大なエラーが発生すると、修正することが困難になります。一方、WER や CER などのトークンレベルの指標は、このような問題を適切に反映できません。これらの制限に対処するために、\emph{Interactive ASR} をマルチターン改良タスクとして定式化し、シングルパス ASR フロントエンドとセマンティック修正、インテント ルーティング、推論ベースの編集を組み合わせた閉ループ フレームワークである \textbf{Agentic ASR} を提案します。さらに、LLM ベースのセマンティック評価指標である \textbf{文レベルのセマンティック エラー率} ($S^2ER$) を、スケーラブルで再現可能なベンチマークのための \textbf{インタラクティブ シミュレーション システム} とともに導入します。多言語、名前付きエンティティ集中型、およびコードスイッチングのベンチマークに関する実験では、反復的な対話によりセマンティック エラーが一貫して減少し、従来のトークン レベルのメトリクスよりも $S^2ER$ が大幅に増加することが示されました。人間と AI のアライメントとアブレーションの研究により、意味判断の信頼性と提案されたフレームワークの堅牢性がさらに検証されました。コードは https://interactiveasr.github.io/ で入手でき、ライブ デモは https://i-asr.sjtuxlance.com/ で入手できます。
原文 (English)
Towards Human-Like Interactive Speech Recognition With Agentic Correction and Semantic Evaluation
Automatic speech recognition (ASR) is a core component of human--computer interaction and an increasingly important front-end for LLM-based assistants and agents. However, most current ASR systems still follow a single-pass paradigm, which is poorly aligned with human communication, where misunderstandings are resolved through iterative clarification and refinement. This mismatch makes it difficult to correct meaning-critical errors once they occur. Meanwhile, token-level metrics such as WER or CER cannot adequately reflect such a problem. To address these limitations, we formulate \emph{Interactive ASR} as a multi-turn refinement task and propose \textbf{Agentic ASR}, a closed-loop framework that combines a single-pass ASR front-end with semantic correction, intent routing, and reasoning-based editing. We further introduce the \textbf{Sentence-level Semantic Error Rate} ($S^2ER$), an LLM-based semantic evaluation metric, together with an \textbf{Interactive Simulation System} for scalable and reproducible benchmarking. Experiments on multilingual, named-entity-intensive, and code-switching benchmarks show that iterative interaction consistently reduces semantic errors, with much larger gains in $S^2ER$ than in conventional token-level metrics. Human--AI alignment and ablation studies further validate the reliability of the semantic judge and the robustness of the proposed framework. The code is available at: https://interactiveasr.github.io/ and the live demo is available at https://i-asr.sjtuxlance.com/
有用性の呪い: DistractionIF を介したディストラクタの指示に対するロバスト性の逆スケーリング則
大規模言語モデル (LLM) は、エージェントおよび検索拡張生成 (RAG) システムに導入されることが増えており、外部から提供された参照テキストに対してユーザー指定のタスクを実行する必要があります。実際には、そのようなコンテキストは構造化されていないことが多く、編集コメントやシステム トレースなど、無害ではあるが指示のようなセマンティック ノイズで汚染されており、厳密にデータとして扱う必要があります。参照テキスト内のこのようなディストラクタ命令に対する堅牢性を評価するために設計されたベンチマークである DistractionIF を紹介します。幅広いモデルにわたって、一貫した逆スケーリング現象が観察されます。多くの場合、大きなモデルは堅牢性が低く、スケールが増加するにつれてパフォーマンスが最大 30 ポイント低下します。機構的には、私たちのパープレキシティ分析により、スケーリングによってロバストな動作と注意散漫な動作の間の確率的境界が侵食され、モデルがノイズを指示として過剰解釈する傾向がますます高まっていることが明らかになりました。これに対処するために、強化学習、特にグループ相対ポリシー最適化 (GRPO) がこの境界を回復し、一般的な命令追従能力を損なうことなく堅牢性を最大 15.5% 向上させることができることを実証します。私たちの調査結果は、参照に基づいたタスクにおける命令追従の堅牢性の重大なギャップを浮き彫りにし、大規模なデータと命令の厳密な分離を強制するための有望な道としての強化学習を確立します。
原文 (English)
The Curse of Helpfulness: Inverse Scaling Law in Robustness to Distractor Instructions via DistractionIF
Large Language Models (LLMs) are increasingly deployed in agentic and retrieval-augmented generation (RAG) systems, where they must execute user-specified tasks over externally provided reference text. In practice, such context is often unstructured and contaminated with benign but instruction-like semantic noise, such as editorial comments and system traces, which should be treated strictly as data. We introduce DistractionIF, a benchmark designed to evaluate robustness against such distractor instructions in reference text. Across a broad range of models, we observe a consistent inverse scaling phenomenon: larger models are often less robust, with performance dropping by up to 30 points as scale increases. Mechanistically, our perplexity analysis reveals that scaling erodes the probabilistic boundary between robust and distracted behaviors, making models increasingly prone to over-interpreting noise as instructions. To address this, we demonstrate that reinforcement learning, specifically Group Relative Policy Optimization (GRPO), can restore this boundary, improving robustness by up to 15.5% without compromising general instruction-following capability. Our findings highlight a critical instruction-following robustness gap in reference-grounded tasks and establish reinforcement learning as a promising path for enforcing strict data-instruction separation at scale.
MINDGAMES: マルチエージェント LLM の社会的および戦略的推論を評価するためのライブ アリーナ
大規模言語モデル (LLM) は対話型エージェントとして導入されることが増えていますが、拡張された対話における社会的および戦略的推論の能力はまだ十分に理解されていません。既存の評価は、静的なビネットや単一ゲームのベンチマークに依存しており、現実世界のマルチエージェント設定で要求される持続的で多面的な推論を捉えることができません。我々は、「心の理論」に関連する補完的推論の要求を運用する、LLM エージェント向けのマルチゲームアリーナおよび評価プラットフォームである Mindgames を紹介します。これは、隠された情報の下での信念の帰属、繰り返される戦略的相互作用を通じた敵対者のモデル化、知識の非対称性の下での協力的な推論、および社会的演繹における継続的な欺瞞です。 TextArena 上に構築された Mindgames は、統合されたインタラクション インターフェイス、TrueSkill ベースの評価、および 4 つのゲーム環境にわたる完全な軌跡のログを提供します。私たちは、主要な AI カンファレンスで主催された 2025 年の競争サイクルを通じて Mindgames をインスタンス化しました。このカンファレンスでは、Colonel Blotto、Iterated Prisoner's Dilemma、Codenames、Secret Mafia の 4 つのゲームにわたって 76 チームから提出された 944 人のエージェントが評価されました。私たちの分析では、エージェント レベルと評価レベルの両方の制限が明らかになりました。脆弱なルール遵守が依然として主要なボトルネックであり、最高パフォーマンスのシステムは明示的な構造足場に繰り返し依存しており、リーダーボードの有効性は環境によって大きく異なります。特に、失敗の多い環境では、戦略的能力と同じくらい相手のエラーに対する堅牢性が評価される可能性があり、シークレット マフィアはこのサイクルで顕著なエラーと生存の混乱を示します。私たちは、ターンレベルの観察、アクション、報酬を含む 29,571 のマルチエージェント ゲームのデータセットをリリースします。MG-Ref は、この分析で使用したのと同じエラー帰属レンズの下で、トップランクの低エラー Stage~II 提出物の凍結された参照プールに対して新しいエージェントを採点する決定論的なオフライン トーナメント プロトコルです。
原文 (English)
MINDGAMES: A Live Arena for Evaluating Social and Strategic Reasoning in Multi-Agent LLMs
Large language models (LLMs) are increasingly deployed as interactive agents, yet their capacity for social and strategic reasoning over extended interaction remains poorly understood. Existing evaluations rely on static vignettes or single-game benchmarks that cannot capture the sustained, multi-faceted reasoning that real-world multi-agent settings demand. We introduce Mindgames, a multi-game arena and evaluation platform for LLM agents that operationalizes complementary reasoning demands relevant to ``theory of mind'': belief attribution under hidden information, opponent modeling through repeated strategic interaction, cooperative inference under knowledge asymmetries, and sustained deception in social deduction. Built on TextArena, Mindgames provides a unified interaction interface, TrueSkill-based rating, and full trajectory logging across four game environments. We instantiate Mindgames through a 2025 competition cycle hosted at a major AI conference, which assessed 944 submitted agents from 76 teams across four games: Colonel Blotto, Iterated Prisoner's Dilemma, Codenames, and Secret Mafia. Our analysis surfaces both agent-level and evaluation-level limitations: brittle rule adherence remains a major bottleneck, top-performing systems repeatedly rely on explicit structural scaffolding, and leaderboard validity differs sharply across environments. In particular, failure-heavy environments can reward robustness to opponent errors as much as strategic ability, with Secret Mafia exhibiting a pronounced error-survival confound in this cycle. We release a dataset of 29,571 multi-agent games with turn-level observations, actions, and rewards, together with MG-Ref, a deterministic offline tournament protocol that scores new agents against a frozen reference pool of top-ranked, low-error Stage~II submissions under the same error-attribution lens used in this analysis.
Opt-Verifier: 両面検証による最適化モデリングのための LLM の力を解き放つ
数学的最適化モデルの構築はオペレーションズ リサーチ (OR) において重要ですが、人間のかなりの専門知識が必要です。最近の進歩では、大規模言語モデル (LLM) を利用してこのモデリング プロセスを自動化しています。しかし、既存の研究では、制約や変数の合理性、あるいは生成されたモデルに対する解の妥当性をチェックすることなく、生成された最適化モデルの正確性を検証するのに苦労することがよくあります。これにより、後続の検証と修正のステップが妨げられ、モデリングの精度が著しく損なわれます。この課題に対処するために、構造とソリューションの両方の観点からデュアルサイド検証 (Opt-Verifier) を備えた新しい LLM ベースのフレームワークを提案し、それによってモデリングの精度を向上させます。構造側の検証により、生成された最適化モデルのモデリング構造が元の問題の説明と一致し、問題の制約と要件が正確に把握されることが保証されます。一方、ソリューション側の検証では、ソリューションの妥当性を解釈して評価し、最適化モデルが論理的および数学的に適切であることを確認します。一般的なベンチマークでの実験により、私たちのアプローチにより精度が 20\% 以上向上することが実証されました。
原文 (English)
Opt-Verifier: Unleashing the Power of LLMs for Optimization Modeling via Dual-Side Verification
Building mathematical optimization models is critical in operations research (OR), while it requires substantial human expertise. Recent advancements have utilized large language models (LLMs) to automate this modeling process. However, existing works often struggle to verify the correctness of the generated optimization models, without checking the rationality of the constraints and variables or the validity of solutions to the generated models. This hampers the subsequent verification and correction steps, and thus it severely hurts the modeling accuracy. To address this challenge, we propose a novel LLM-based framework with Dual-side Verification (Opt-Verifier) from both structure and solution perspectives, thereby improving the modeling accuracy. The structure-side verification ensures that the modeling structure of the generated optimization models aligns with the original problem description, accurately capturing the problem's constraints and requirements. Meanwhile, the solution-side verification interprets and evaluates the solutions' validity, confirming that the optimization models are logically and mathematically sound. Experiments on popular benchmarks demonstrate that our approach achieves over 20\% improvement in accuracy.
Battery-Sim-Agent: LLM-Agent を活用した逆バッテリ パラメータ推定
バッテリーの忠実度の高い「デジタル ツイン」のパラメーター化は、バッテリーの革新のペースを妨げる、重要かつ困難な逆問題です。一般的な手法では、これをブラック ボックス最適化 (BBO) タスクとして定式化し、サンプル効率が低く、基礎となる物理学を認識しないアルゴリズムを採用します。この研究では、逆問題を推論タスクとして再構成する新しいパラダイムを導入し、忠実度の高いバッテリー シミュレーターを備えた閉ループで大規模言語モデル (LLM) エージェントを展開する最初のフレームワークである Battery-Sim-Agent を紹介します。このエージェントは人間の科学者のワークフローを模倣します。シミュレーターからの豊富なマルチモーダルなフィードバックを解釈し、矛盾を説明するために物理的に根拠のある仮説を形成し、構造化されたパラメーターの更新を提案します。さまざまなバッテリーの化学的性質、動作条件、難易度レベルにまたがる体系的に構築されたベンチマーク スイートでは、当社のエージェントは、正確なパラメーターを特定する点で、ベイジアン最適化などの強力な BBO ベースラインを大幅に上回ります。さらに、複雑な長期劣化フィッティングタスクにおけるフレームワークの機能を実証し、現実世界のバッテリーデータセットに対するその実用的な適用可能性を検証します。私たちの結果は、科学的発見とバッテリーパラメータ推定のための推論ベースのオプティマイザーとしての LLM エージェントの可能性を強調しています。
原文 (English)
Battery-Sim-Agent: Leveraging LLM-Agent for Inverse Battery Parameter Estimation
Parameterizing high-fidelity "digital twins" of batteries is a critical yet challenging inverse problem that hinders the pace of battery innovation. Prevailing methods formulate this as a black-box optimization (BBO) task, employing algorithms that are sample-inefficient and blind to the underlying physics. In this work, we introduce a new paradigm that reframes the inverse problem as a reasoning task, and present Battery-Sim-Agent, the first framework to deploy a Large Language Model (LLM) agent in a closed loop with a high-fidelity battery simulator. The agent mimics a human scientist's workflow: it interprets rich, multi-modal feedback from the simulator, forms physically-grounded hypotheses to explain discrepancies, and proposes structured parameter updates. On a systematically constructed benchmark suite spanning diverse battery chemistries, operating conditions, and difficulty levels, our agent significantly outperforms strong BBO baselines like Bayesian optimization in identifying accurate parameters. We further demonstrate the framework's capability in complex long-horizon degradation fitting tasks and validate its practical applicability on real-world battery datasets. Our results highlight the promise of LLM-agents as reasoning-based optimizers for scientific discovery and battery parameter estimation.
ParaTool: ツール表現をコンテキストからパラメータに移行
ツール呼び出しは、外部実行可能インターフェイスとの接地された対話を可能にすることで大規模言語モデル (LLM) を拡張し、それによって環境に連動した問題解決をサポートします。ただし、主流のインコンテキスト学習 (ICL) アプローチでは、通常、詳細なツールのドキュメントと使用例がコンテキストに直接組み込まれています。その結果、コンテキストの長さが長くなるにつれて、推論のオーバーヘッドが大きくなり、幻覚のリスクが高まります。逆に、チューニングベースの方法は一般的なツール呼び出し機能を向上させますが、多くの場合、以前に表示されたツールの特定の詳細を効果的に内部化することができないため、コンテキスト内のドキュメントへの依存関係が残ります。これらの制限に対処するために、各ツールを専用の読み込み可能なパラメーターのセットに投影するフレームワークである ParaTool を提案します。これらのパラメータ化されたツールの動的統合を装備することにより、LLM はコンテキスト内のドキュメントやサンプルに依存せずにツール呼び出しを実行できます。具体的には、私たちのアプローチは 3 つの段階で構成されます。(1) パラメトリック ツールの事前トレーニングでは、さまざまなツールの知識を独立したパラメーター モジュールにカプセル化します。 (2) ソフトツールの選択では、ゲートネットワークを使用して、関連するツールパラメータを動的に重み付けし、集計します。 (3) パラメトリック ツールの微調整では、トレーニングと推論のプロセスを調整するためにツール パラメーターを共同で更新します。 Stable ToolBench と BFCL の実験では、ParaTool が強力な ICL ベースのベースラインを大幅に上回り、計算の複雑さを軽減しながら優れたパフォーマンスを達成することが実証されました。
原文 (English)
ParaTool: Shifting Tool Representations from Context to Parameters
Tool calling extends large language models (LLMs) by enabling grounded interaction with external executable interfaces, thereby supporting environment-coupled problem solving. However, mainstream in-context learning (ICL) approaches typically incorporate detailed tool documentation and usage examples directly into the context. This results in substantial inference overhead and heightened risks of hallucination as the context length grows. Conversely, while tuning-based methods improve general tool-calling capabilities, they often fail to effectively internalize the specific details of previously seen tools, thereby retaining a dependency on in-context documentation. To address these limitations, we propose ParaTool, a framework that projects each tool into a dedicated, loadable set of parameters. By equipping a dynamic integration of these parameterized tools, the LLM can perform tool calling without relying on in-context documents or examples. Specifically, our approach consists of three stages: (1) parametric tool pre-training encapsulates the knowledge of different tools into independent parameter modules; (2) soft tool selection employs a gating network to dynamically weigh and aggregate relevant tool parameters; and (3) parametric tool fine-tuning jointly updates tool parameters to align the training and inference processes. Experiments on Stable ToolBench and BFCL demonstrate that ParaTool significantly outperforms strong ICL-based baselines, achieving superior performance while reducing computational complexity.
DeepTool: プロセス教師あり強化学習によるツール統合推論におけるインターリーブ審議の拡張
Tool-Integrated Reasoning (TIR) は、外部環境を活用して LLM 機能を拡張します。しかし、既存の方法には、戦略計画や自己修正に必要なツールの連続呼び出し中の熟慮が欠けています。 RL はこれを軽減しますが、ツール統合推論の従来のアプローチは、結果ベースの報酬がまばらであるために妨げられ、中間の推論ステップとツールの呼び出しを監視できません。これに対処するために、私たちは DeepTool を提案します。DeepTool は、各時点での思考、行動、観察の織り交ぜられたプロセス内で意図的な思考を拡張する新しいフレームワークです。 DeepTool では、まず、拡張思考をインターリーブ軌道に進化させ、敵対的な摂動を統合して堅牢性と自己修正を確保する合成パイプラインを導入します。次に、GRPO に基づくプロセス教師あり強化学習を考案します。これは、アクション中心のプロセス報酬を利用して、中間のインターリーブ思考を強化し、あらゆる場面で正確なツールの呼び出しを強制します。広範な実験により、DeepTool が優れたパフォーマンスを達成し、6 つのベンチマーク全体で Qwen2.5-7B を大幅に向上させることが実証されました (例: AIME24: 3.2% -> 40.4%、HMMT25: 0.0% -> 28.6%)。さらに、トークンの費用対効果分析により、インターリーブ思考の有用性が確認され、DeepTool のパフォーマンスとトークン効率の最適なバランスが実証されました。
原文 (English)
DeepTool: Scaling Interleaved Deliberation in Tool-Integrated Reasoning via Process-Supervised Reinforcement Learning
Tool-Integrated Reasoning (TIR) extends LLM capabilities by leveraging external environments. However, existing methods lack the deliberation during sequential tool invocation required for strategic planning and self-correction. While RL mitigates this, conventional approaches for Tool-Integrated Reasoning are hindered by sparse outcome-based rewards, failing to supervise intermediate reasoning steps and tool invocations. To address this, we propose DeepTool, a novel framework that scales deliberate thinking within the interleaved process of thinking, action, and observation at each turn. In DeepTool, we first introduce a synthesis pipeline that evolves extended thinking into interleaved trajectories, integrating adversarial perturbations to ensure robustness and self-correction. Secondly, we devise Process-Supervised Reinforcement Learning based on GRPO, which utilizes an Action-Centric Process Reward to reinforce intermediate interleaved thinking and enforce precise tool invocation at every turn. Extensive experiments demonstrate that DeepTool achieves superior performance, boosting Qwen2.5-7B significantly across six benchmarks (e.g., AIME24: 3.2% -> 40.4% and HMMT25: 0.0% -> 28.6%). Furthermore, the token cost-effectiveness analysis confirms the utility of interleaved thinking, demonstrating DeepTool's optimal balance between performance and token efficiency.
季節空間事前分布と LLM ベースのアクティビティ チェーン生成を使用した GPS 強化型観光モビリティ モデリング
観光客の移動は、都市交通計画にとって明らかな課題となっています。居住者の通勤とは異なり、観光客の旅行は主に非日常的で、魅力を重視しており、旅行の目的、旅行の季節、旅行メンバーの構成に非常に敏感です。既存のアプローチは、個別のスケジュールを生成せずに集合的な観光客の空間パターンを測定するか、旅行期間の条件付け、月ごとに異なるアトラクションの需要、家庭の共同旅行ルールなどの観光客固有の構造を持たずにモビリティを統合するかのいずれかです。これらの課題に対処するために、GPS と調査データから導出された月条件付き空間事前分布、観光客人口統計からの旅行範囲予測、距離的に実行可能な病棟順序の割り当て、および世帯と空間の制約の下での LLM ベースのアクティビティ チェーン生成を組み合わせた 4 段階のシミュレーション フレームワークを提案します。 GPS データは、月条件付けされた空間事前情報としてプライバシーを保護する集約形式でのみ使用され、個々の痕跡は保持または公開されません。東京の観光に関する実験では、GPS ベースの観光客コホート抽出により、調査参照と一致する空間訪問シグネチャが復元され、私たちのフレームワークは、人口統計的に調整された合成スケジュールを生成し、その区レベルの訪問シェアが調査分布と滞在ポイントから得られる月次訪問パターンの両方と密接に一致することが実証されました。この結果は、観光客の移動モデリングに対する地理的根拠に基づいた、人口統計を意識したアプローチとしてのフレームワークの有効性を示しています。
原文 (English)
GPS-Enhanced Tourist Mobility Modeling with Seasonal Spatial Priors and LLM-Based Activity Chain Generation
Tourist mobility poses a distinct challenge for urban transportation planning. Unlike resident commuting, tourist travel is largely non-routine, attraction driven, and highly sensitive to trip purpose, travel season, and trip member composition. Existing approaches either measure aggregate tourist spatial patterns without generating individual schedules, or synthesize mobility without tourist specific structure such as trip duration conditioning, month varying attraction demand, and household co-travel rules. To address these challenges, we propose a four stage simulation framework combining month conditioned spatial priors derived from GPS and survey data, trip extent prediction from tourist demographics, distance feasible ward sequence assignment, and LLM-based activity chain generation under household and spatial constraints. GPS data are used only in privacy preserving aggregated form as month conditioned spatial priors, with no individual traces retained or exposed. Experiments on tourism in Tokyo demonstrate that the GPS based tourist cohort extraction recovers spatial visitation signatures consistent with survey references, and our framework produces demographically aligned synthetic schedules whose ward-level visitation shares align closely with both survey distributions and staypoint derived monthly visitation patterns. The results demonstrate the framework's effectiveness as a geographically grounded, demographically aware approach to tourist mobility modeling.
攻撃の成功率を超えて: LLM の安全性の失敗に対する時間ロジットの観測可能性
攻撃成功率 (ASR) は、生成の最後に各脱獄を単一の「はい/いいえ」ラベルで評価し、失敗が発生したかどうかを示しますが、失敗がどのように展開したかは示しません。同様に有害な出力を生成する 2 つの攻撃は、まったく異なる経路をたどった可能性があり、ASR ではそれらを区別できません。これらの隠されたパスをロジットだけから観察できるようにします。 Temporal Logit Observability (TLO) は、デコード中にコンプライアンス拒否マージンを監視し、各モデル攻撃条件をキャリブレーションされた 2D 平面上に配置する、トレーニング不要の診断です。設計上、このプレーンは、まったく異なる理由で成功する攻撃の中で、ASR が最も有益でない場合に最も有益です。 4 つの調整された LLM と 3 つのジェイルブレイク パラダイムにわたって、ほぼ同一の ASR による攻撃は、平面上の明らかに異なるポイントに到達します。同じモデルでも、異なる時間的パターンによって失敗する可能性があります。ジオメトリは、ほとんどの条件で隠れ状態からの拒否方向プローブと一致します。1 つのモデルは、固定語彙アプローチの限界を示しています。 TLO から派生したシンプルな早期停止ルールにより、単純な無害なクエリで誤った警告が発生することなく、ジェイルブレイクの成功率が半分以上削減されます。安全性評価では、障害が発生したかどうかだけでなく、障害がいつどのように展開したかを報告する必要があります。 TLO により、最初の 2 つはロジットのみから観察可能になります。
原文 (English)
Beyond Attack Success Rate: Temporal Logit Observability for LLM Safety Failures
Attack Success Rate (ASR) evaluates each jailbreak with a single yes/no label at the end of generation, telling us whether a failure happened but not how it unfolded. Two attacks that produce equally harmful outputs may have followed completely different paths, and ASR cannot tell them apart. We make those hidden paths observable from logits alone. Temporal Logit Observability (TLO) is a training-free diagnostic that watches a compliance-refusal margin during decoding and places each model-attack condition on a calibrated 2D plane. By design, this plane is most informative exactly where ASR is least informative: among attacks that succeed for genuinely different reasons. Across four aligned LLMs and three jailbreak paradigms, attacks with nearly identical ASR land at clearly different points on the plane: the same model can fail through different temporal patterns. The geometry matches refusal-direction probes from hidden states on most conditions, with one model showing the limit of our fixed-lexicon approach. A simple early-stop rule derived from TLO cuts successful jailbreaks by more than half, without false alarms on plain benign queries. Safety evaluation should report when and how a failure unfolds, not only whether it occurred. TLO makes the first two observable from logits alone.
バイキングメム: ステートフル LLM ベースのアプリケーション用のメモリ ベース管理システム
大規模言語モデルは対話型アプリケーションに革命をもたらしました。ただし、コンテキスト ウィンドウが有限であるため、ステートフルで長期的な対話を維持する上で重要なデータ管理の課題が生じます。既存の記憶アプローチは、多くの場合、不完全な記憶につながる単純な抽出方法に依存しているか、チャットボットなど、単一のユースケースに合わせて調整された厳格な単一目的の記憶抽出プロンプトを使用しています。その結果、汎用性に欠け、さまざまな下流タスクにわたってパフォーマンスが低下します。このギャップを埋めるために、長期的なインタラクションの永続的な状態を管理するための新しいデータ管理パラダイムであるメモリ ベースを導入します。これは 3 つの核となる原則によって特徴付けられます。生の情報ストリームから価値の高い記憶を選択的に抽出することです。固有のステートフルネスと進化。メモリ内容が徐々に要約、修正され、時間的に重み付けされて最近のインタラクションを優先します。そして、教育、推奨、エージェントの記憶など、さまざまなアプリケーションにわたる堅牢な転送性を実現するために設計された一般化可能な抽象化パラダイム。この基盤に基づいて、VikingDB ベクトル エンジン上に実装されたエンドツーエンドのメモリ ベース管理システム、VikingMem を紹介します。バイキングメムは、相互接続されたイベントとエンティティの抽象化を通じてこのパラダイムを具体化します。エンティティはイベントによって動的に更新され、ステートフルな進化を実現しながら、複雑な情報ストリームを選択的に処理するイベント中心のメモリ抽出を特徴としています。トピックごとのタイムラインと時間加重リコールによる時間圧縮を使用して、システムは高レベルの要約記憶を段階的に生成し、最近の項目を優先し、古い項目を圧縮してフェードします。長期メモリベンチマークの広範な評価により、VikingMem は対話型アプリケーションに不可欠な低レイテンシを維持しながら、メモリ取得効率においてベースラインを最大 30% 上回っていることが実証されています。
原文 (English)
VikingMem: A Memory Base Management System for Stateful LLM-based Applications
Large Language Models have revolutionized interactive applications; however, their finite context windows pose a critical data management challenge for maintaining stateful, long-term interactions. Existing memory approaches often rely on simplistic extraction methods that lead to incomplete memories or use rigid, single-purpose memory extraction prompts tailored to a single use case, such as chatbots. Consequently, they lack generalizability and perform poorly across diverse downstream tasks. To bridge this gap, we introduce the Memory Base, a novel data management paradigm for managing the persistent state of long-term interactions. It is characterized by three core principles: selective extraction of high-value memories from raw information streams; inherent statefulness and evolution, where memory content is progressively summarized, corrected, and temporally weighted to prioritize recent interactions; and a generalizable abstraction paradigm designed for robust transferability across diverse applications, including education, recommendation, and agent memory. Building on this foundation, we present VikingMem, an end-to-end Memory Base Management System implemented on the VikingDB vector engine. VikingMem materializes this paradigm through interconnected event and entity abstractions. It features event-centric memory extraction to selectively handle complex information streams, while entities are dynamically updated by events to achieve stateful evolution. Using temporal compression via a topic-wise timeline and time-weighted recall, the system progressively produces high-level summary memories, prioritizes recent items, and compresses and fades older ones. Extensive evaluations on long-term memory benchmarks demonstrate that VikingMem outperformes baselines by up to 30% in memory retrieval effectiveness while maintaining the low latency essential for interactive applications.
LLM が進化したシンボリック AI プランニングのためのドメインに依存しないヒューリスティック
ヒューリスティック検索は、シンボリック AI 計画における主要なパラダイムであり、最も強力なヒューリスティックは、計画研究者による数十年の研究の結果です。最近の研究では、大規模言語モデル (LLM) が個々の計画ドメインのヒューリスティックを設計できることが示されていますが、これまでのところ、LLM によって生成されたヒューリスティックが任意の計画タスクに機能することはありません。この論文では、進化的探索を使用して、手作業でエンジニアリングされた最先端技術を超える、LLM によって生成された初めてのドメインに依存しないヒューリスティックを生成します。 C++ で書かれた親ヒューリスティックを LLM に変更させ、情報とスピードを重視した MAP-Elites アーカイブに候補を保存し、カバレッジと解決時間をブレンドすることで適合性スコアを計算します。進化したプログラムを状況に合わせて配置するために、情報と速度のトレードオフに関して手作業で設計された広範なヒューリスティックのベンチマークをさらに行いました。これは、私たちの知る限りではこれまでに行われたことがありません。目に見えないテスト領域では、当社の最も進化したヒューリスティックは、最強のベースラインよりも多くのタスクを解決し、当社の完全なヒューリスティック スイートは、上記のトレードオフのパレート フロンティアにまたがります。また、結果として得られるプログラム自体が FF バリアントである場合でも、些細なブラインド ヒューリスティックからのシード進化は、強力な FF ヒューリスティックからのシードよりも優れたパフォーマンスを示し、LLM 推論の努力は、候補の品質よりも候補がコンパイルする頻度にはるかに影響を与えることもわかりました。進化したプログラムはプレーンな C++ であるため、既存のプランナーにドロップイン置換として組み込まれ、基礎となる検索の健全性と完全性の保証を継承します。
原文 (English)
LLM-Evolved Domain-Independent Heuristics for Symbolic AI Planning
Heuristic search is the dominant paradigm in symbolic AI planning, and the strongest heuristics are the result of decades of work by planning researchers. Recent work has shown that large language models (LLMs) can design heuristics for individual planning domains, but no LLM-generated heuristic has so far worked on arbitrary planning tasks. In this paper, we use evolutionary search to produce the first LLM-generated domain-independent heuristics that exceed the hand-engineered state of the art. We let an LLM mutate parent heuristics written in C++, store candidates in a MAP-Elites archive keyed on informedness and speed and calculate fitness scores by blending coverage with solving time. To place the evolved programs in context, we additionally benchmark a broad set of hand-engineered heuristics on their informedness-speed tradeoff, which to our knowledge has not been done before. On unseen testing domains, our best evolved heuristic solves more tasks than even the strongest baseline, with our full heuristic suite spanning the Pareto frontier of said tradeoff. We also find that seeding evolution from the trivial blind heuristic outperforms seeding from the strong FF heuristic, even when the resulting program is itself an FF variant, and that LLM reasoning effort affects how often candidates compile much more than the quality of those that do. Because the evolved programs are plain C++, they slot into existing planners as drop-in replacements and inherit the soundness and completeness guarantees of the underlying search.
素早く考え、スマートに話す: 構造化された健康テキスト生成のための決定論的計算とニューラル計算の分割
大規模言語モデル (LLM) は、ウェアラブル時系列、バイオマーカー、バイタル、ケア管理ログなどの構造化された記録から健康テキストを生成するために使用されることが増えています。定期的な健康出力の場合、流暢さだけでは十分ではありません。システムはソース データに忠実であり、入手可能な証拠で説明的主張を根拠付け、規定されたポリシーに従い、機械可読出力を出力し、繰り返し使用できるほど安価に実行する必要があります。私たちは、構造化された健康生成におけるどの責任を、実行時の LLM プロンプトではなく決定論的な計算にするべきかを尋ねます。 Think Fast, Talk Smart という睡眠と健康に関する洞察パイプラインを導入します。このパイプラインでは、1 回の制限された LLM ライター呼び出しの前に、決定論的なコードが繰り返し分析を実行します。 280 のユーザー泊と 6 つのモデルにわたって、構造化されたゼロショットおよび少数ショットのワンコール ベースラインよりも低い数値エラー、より低い指示コンプライアンス エラー、およびより低いエンドツーエンド コストを実現します。レイヤの置換により、コントラクト固有の障害が明らかになります。LLM の比較により数値エラーが発生し、LLM のランキングによりポリシーの選択が低下し、LLM の帰属によりサポートされていない因果関係のある言語が増加し、上流の事実が決定的になった後でも、LLM で生成されたライター インターフェイスによりエラーが再導入されます。この結果は、より広範な設計ルールをサポートします。つまり、コードに繰り返しの分析を持たせ、LLM に制限されたインターフェイス内で検証済みの事実を表現させます。
原文 (English)
Think Fast, Talk Smart: Partitioning Deterministic and Neural Computation for Structured Health Text Generation
Large language models (LLMs) are increasingly being used to generate health text from structured records such as wearable time series, biomarkers, vitals, and care-management logs. For recurring health outputs, fluency is not enough: systems must remain faithful to source data, ground explanatory claims in available evidence, follow stated policies, emit machine-readable outputs, and run cheaply enough for repeated use. We ask which responsibilities in structured health generation should be deterministic computation rather than runtime LLM prompting. We introduce Think Fast, Talk Smart, a sleep-health insight pipeline in which deterministic code performs recurring analysis before one bounded LLM writer call. Across 280 user-nights and six models, achieves lower numeric error, lower instruction-compliance error, and lower end-to-end cost than structured zero-shot and few-shot one-call baselines. Layer replacement reveals contract-specific failures: LLM comparison raises numeric error, LLM ranking degrades policy selection, LLM attribution increases unsupported causal language, and an LLM-generated writer interface reintroduces errors even after upstream facts are deterministic. The results support a broader design rule: let code own recurring analysis, and let LLMs express verified facts within bounded interfaces.
PTCG ベンチ: LLM エージェントはポケモン トレーディング カード ゲームをマスターできますか?
戦略的に複雑なボード ゲームを考えると、人間のプレイヤーは数ラウンドをプレイした後、すぐに戦略を考案することを学びます。自律型エージェントは、現実的な対話型環境でも同様の機能を必要としますが、既存のエージェントのベンチマークでは、そのような戦略的で進化する意思決定シナリオを完全に把握できないことがよくあります。我々は、ポケモン トレーディング カード ゲーム (PTCG) に基づいて構築されたベンチマークである PTCG ベンチを紹介します。このベンチマークは、(1) 単一の複雑な環境内での意思決定パフォーマンス、(2) 蓄積された経験を通じて自己進化する能力という 2 つの相補的なレベルで LLM エージェントを評価します。さらに、モデルの能力と混同することなくエージェントのパフォーマンスをより適切に解釈するためのモジュラー ハーネス アブレーションも含まれています。私たちの実験では、LLM エージェントは重要なゲームプレイ パフォーマンスを達成できるものの、持続的かつ安定した自己進化は依然として困難であり、パフォーマンスはハーネスの設計に影響されることが示されました。 PTCG-Bench によって、現実的なインタラクティブ環境におけるハーネス認識型の自己進化エージェントに関する将来の研究が促進されることを期待しています。
原文 (English)
PTCG-Bench: Can LLM Agents Master Pok\'emon Trading Card Game?
Given a strategically complex board game, human players can quickly learn to devise strategies after playing a few rounds. Autonomous agents require similar capabilities in realistic interactive environments, yet existing agent benchmarks often fail to fully capture such strategic and evolving decision-making scenarios. We present PTCG-Bench, a benchmark built on the Pok'{e}mon Trading Card Game (PTCG) that evaluates LLM agents at two complementary levels: (1) their decision-making performance within a single complex environment, and (2) their ability to self-evolving through accumulated experience. We further include a modular harness ablation to better interpret agent performance without conflating it with model capability. Our experiments show that, although LLM agents can achieve non-trivial gameplay performance, sustained and stable self-evolution remains challenging, and performance is sensitive to harness design. We hope that PTCG-Bench will facilitate future research on harness-aware and self-evolving agents in realistic interactive environments.
TRACE: LLM CoT 評価の構成要素によるトゥールミンベースの推論評価
大規模言語モデル (LLM) からのオープンエンドの出力を評価することは、グランド トゥルースがないため依然として困難です。既存の指標は、最終的な答えの精度や表面レベルの統計に依存しており、推論プロセス自体は検討されていません。思考連鎖 (CoT) 推論プロセスを分析する指標である TRACE (Toulmin-based Reasoning Assessment through Constructive Elements) を紹介します。 TRACE は、結果を判断するのではなく、トゥールミンの議論理論とフラベルのメタ認知フレームワークを統合して推論の構造を評価することにより、議論がどのように構築されるかを検査します。 7 つの推論モデルにわたる 26.3K の QA サンプルの実験では、ベンチマーク精度 (r=0.74) との強い相関関係が示されています。さらに、TRACE は強化学習の報酬信号として効果的であり、精度のみのベースラインを上回ります。これらの結果を総合すると、論理的に健全な推論がより質の高い答えにつながることを示しています。したがって、TRACE は、オープンエンド出力を評価するための補足的なメトリックとして機能します。コードは https://github.com/hyyangkisti/trace で入手できます。
原文 (English)
TRACE: Toulmin-based Reasoning Assessment through Constructive Elements for LLM CoT Evaluation
Evaluating open-ended outputs from large language models (LLMs) remains challenging due to the absence of ground truth. Existing metrics rely on final-answer accuracy or surface-level statistics, leaving the reasoning process itself unexamined. We introduce TRACE (Toulmin-based Reasoning Assessment through Constructive Elements), a metric that analyzes Chain-of-Thought (CoT) reasoning processes. Rather than judging outcomes, TRACE inspects how arguments are constructed by integrating Toulmin's argumentation theory with Flavell's metacognitive framework to assess reasoning structure. Experiments on 26.3K QA samples across 7 reasoning models show strong correlation with benchmark accuracy (r=0.74). Furthermore, TRACE is effective as a reinforcement learning reward signal, outperforming accuracy-only baselines. Together, these results indicate that logically sound reasoning leads to higher-quality answers. TRACE thus serves as a complementary metric for evaluating open-ended outputs. Code is available at https://github.com/hyyangkisti/trace.
GRASP: 自己改善型 LLM エージェントのためのゲート回帰認識スキル提案者
構造化された環境で動作する LLM エージェントは、会話的な方法ではなく操作的な方法で失敗し、信頼性は環境の手順に関する知識に依存します。以前の自己改善方法では、新しい項目が以前の正しい動作を保持しているかどうかを確認せずに自然言語ガイダンスを蓄積するため、ある軌道を修正したメモが静かに別の軌道に後退する可能性があります。 GRASP (Gated Regression-Aware Skill Proposer) を導入します。これは、エージェントの改善を制限されたスキル ライブラリへの一連の編集として扱い、ハード回帰バジェットの下でバランスのとれたホールドアウト プローブで純改善が得られた場合にのみ各候補者を許可します。 2 つの FHIR ベースの臨床ベンチマークで 5 つの基本モデル (gpt-oss-120b、DeepSeek V4 Flash、Gemini 3.1 Flash Lite、GPT-4.1、GPT-5.4) にわたって GRASP を評価します。 MedAgentBench では、GRASP は gpt-oss-120b を 40.6% から 88.8% に引き上げ、5 つの自己改善ベースラインのうち最も強力なものを 21.0 ポイント上回り、他のすべてのベース モデルを 17.2 から 40.3 ポイント改善しました。アブレーションでは、スキル ライティング自体によるものではなく、比較提案の生成、承認ゲート、およびハード リグレッション バジェットによって利益が得られると考えられます。検証がなければ、スキルを使用しないのと同じです。このメカニズムは臨床領域を超えて一般化され、4 つの非臨床環境のうち 3 つで薬剤を改善し、アクション スペースがオープンエンドである場合にのみフラットなままになります。凍結されたライブラリはモデル間で転送され、より強力なモデルからのスキルは弱い実行者を自ら学習した以上に向上させますが、その逆はそうではなく、ゲートされていないベースラインでは再現できない非対称性です。
原文 (English)
GRASP: Gated Regression-Aware Skill Proposer for Self-Improving LLM Agents
LLM agents acting in structured environments fail in operational rather than conversational ways, and reliability depends on procedural knowledge of the environment. Prior self-improvement methods accumulate natural-language guidance without checking that each new item preserves previously correct behavior, so a note that fixes one trajectory can silently regress another. We introduce GRASP (Gated Regression-Aware Skill Proposer), which treats agent improvement as a sequence of edits to a bounded skill library, admitting each candidate only if it produces a net improvement on a balanced held-out probe under a hard regression budget. We evaluate GRASP across five base models (gpt-oss-120b, DeepSeek V4 Flash, Gemini 3.1 Flash Lite, GPT-4.1, GPT-5.4) on two FHIR-based clinical benchmarks. On MedAgentBench, GRASP lifts gpt-oss-120b from 40.6% to 88.8%, exceeds the strongest of five self-improvement baselines by 21.0 points, and improves every other base model by 17.2 to 40.3 points. Ablations attribute the gain to comparative proposal generation, the acceptance gate, and the hard regression budget rather than to skill writing itself, which without validation is no better than using no skills. The mechanism generalizes beyond the clinical domain, improving agents on three of four non-clinical environments and remaining flat only where the action space is open-ended. Frozen libraries transfer across models, where skills from a stronger model improve weaker executors beyond what they learn for themselves while the reverse does not, an asymmetry that no ungated baseline reproduces.
NICE: LLM のソーシャル インテリジェンスのための理論に基づいた診断ベンチマーク
大規模言語モデル (LLM) が感情的な交友関係や顧客サービスなどの社会的コンテキストに適用されることが増えているため、人間と AI の対話の品質と安全性にとって、LLM の社会的知性を測定することが重要になっています。しかし、既存のソーシャルインテリジェンスベンチマークには、社会的能力を統一的な構造に整理する統一的なフレームワークが欠けているため、きめ細かい診断を行うことができません。社会理論に基づいた初の総合的な診断評価を構築するために、私たちはまず、心理測定の原則に基づいた文献レビューと多段階の専門家による検証を通じて、社会的インテリジェンスのフレームワークを構築します。結果として得られるフレームワークには 4 つのカテゴリと 11 のディメンションが含まれており、それぞれが詳細な機能ファセットによってさらに指定されます。このフレームワークに基づいて、代表的な中国の文脈を通じて運用される 137 項目の診断ベンチマークである NICE (規範、相互作用、認知、経験) を紹介します。 5 つのフロンティア LLM と人間の参照グループ全体で、モデルは総合精度でより高いスコアを示していますが、コミュニケーションにおいて一貫した弱点を示しており、フレームワークはこれを 3 つの特定の能力面 (マルチターン コミュニケーション、非言語コミュニケーション、同期性) に限定しています。したがって、NICE は、LLM の社会的に重大な弱点の理論に基づいた診断に向けて、社会的インテリジェンスの評価を再構築します。
原文 (English)
NICE: A Theory-Grounded Diagnostic Benchmark for Social Intelligence of LLMs
As large language models (LLMs) are increasingly applied in social contexts such as emotional companionship and customer service, measuring their social intelligence has become critical to the quality and safety of human-AI interaction. However, existing social intelligence benchmarks lack a unified framework that organizes social abilities into a unified structure, and therefore cannot enable fine-grained diagnosis. To build the first holistic diagnostic evaluation grounded in social theory, we first construct a social intelligence framework through a literature review and multi-stage expert validation guided by psychometric principles. The resulting framework includes 4 categories and 11 dimensions, each further specified by fine-grained capability facets. Building on this framework, we introduce NICE (Norm, Interaction, Cognition, Experience), a diagnostic benchmark of 137 items operationalized through representative Chinese contexts. Across 5 frontier LLMs and a human reference group, models score higher in aggregate accuracy yet show a consistent weakness in Communication, which the framework localizes to 3 specific capability facets: multi-turn communication, nonverbal communication, and synchrony. NICE thus reframes social intelligence evaluation toward theory-grounded diagnosis of socially consequential weaknesses in LLMs.
好みに基づく最大満足度による大規模言語モデルによる信頼性の高い推論
大規模言語モデル (LLM) は自然言語の理解には優れていますが、ロボット工学などの分野でよく発生する、複数の制約やユーザー定義の設定を伴う最適化タスクには苦労します。我々は、LLM がコード生成を通じて推論を外部化するハイブリッド推論アプローチを提案します。自然言語の問題の記述が与えられると、LLM はユーザー定義の制約と設定を設定ベースの最大満足度 (MaxSAT) 問題としてエンコードする Python コードを生成し、これは正確な MaxSAT ソルバーによって解決されます。正確性を保証するために、モデル生成コードによって返されるソリューションは、標準的な MaxSAT エンコーディングに対して実行可能性と最適性が個別に検証され、異なるエンコーディングと複数の最適なソリューションが可能になります。私たちは、好みに基づく推論タスクの 3 つのファミリーに対して、オープンソースとクローズドアクセスの LLM の両方を使用してアプローチを評価し、同じモデルを使用する直接応答ベースライン、思考連鎖ベースライン、および思考プログラムベースラインと比較します。これらのベースラインが実現可能なソリューションを生み出すことはほとんどありませんが、MaxSAT ベースのパイプラインは大幅に高い承認率を達成し、場合によっては 80% を超えます。私たちの結果は、LLM 駆動のコード生成と設定ベースの MaxSAT を組み合わせることで、生成されたエンコーディングに関してソルバー検証可能な最適化が可能になり、独立して検証された参照セマンティクスの下での正確性が大幅に向上することを示しています。
原文 (English)
Reliable Reasoning with Large Language Models via Preference-Based Maximum Satisfiability
Large Language Models (LLMs) excel at understanding natural language but struggle with optimisation tasks involving multiple constraints and user-defined preferences, which commonly arise in domains such as robotics. We propose a hybrid reasoning approach in which LLMs externalise reasoning through code generation. Given a natural language problem description, an LLM generates Python code that encodes user-defined constraints and preferences as a preference-based Maximum Satisfiability (MaxSAT) problem, which is then solved by an exact MaxSAT solver. To ensure correctness, solutions returned by the model-generated code are independently verified for feasibility and optimality against a canonical MaxSAT encoding, allowing for different encodings and multiple optimal solutions. We evaluate our approach using both open-source and closed-access LLMs on three families of preference-based reasoning tasks, and compare it against direct-answer, chain-of-thought, and program-of-thought baselines using the same models. While these baselines rarely produce feasible solutions, the MaxSAT-based pipeline achieves substantially higher acceptance rates, in some cases exceeding 80%. Our results demonstrate that LLM-driven code generation combined with preference-based MaxSAT enables solver-verifiable optimisation with respect to generated encodings, and substantially improves correctness under independently verified reference semantics.
BitTP: エッジデバイス向けの BitLLM を使用した軽量軌道予測モデル
軌道予測は自律システムの基本的なタスクであり、マルチエージェントの相互作用と意図についての複雑な推論が必要です。最近、大規模言語モデル (LLM) がこのタスクに採用されています。これは、強力な文脈上の推論と、解釈可能な言語ベースの軌跡表現を提供するためです。ただし、これらの LLM ベースの予測子はメモリと計算量が非常に多いため、自律ロボットのオンボード コンピューターなど、リソースに制約のあるエッジ デバイスに導入することが困難になります。このギャップを埋めるために、LLM ベースの軌道予測器を軽量のビット線形アーキテクチャに変換する BitTP を提案します。 1.58 ビット (BitTP-Weight) への重みのみの量子化が最適であることを示します。重要なのは、アクティベーションを量子化すると時空間推論の深刻な劣化と不安定性につながるため、アクティベーションは完全な精度を維持する必要があります。経験的に、BitTP-Weight は、完全精度 (BF16) LLM ベースラインを超える予測品質を維持するだけでなく改善し、平均して ADE を 14.29%、FDE を 20.97% 削減し、同時に他の量子化方法と比較してメモリ使用量と推論遅延を削減します。これらの結果は、慎重に設計された量子化が効果的な正則化機能として機能し、洗練された LLM ベースの推論をエッジ デバイス上で実際に展開できることを示しています。コードは https://github.com/MintCat98/BitTP で入手できます。
原文 (English)
BitTP: The Lightweight Trajectory Prediction Model with BitLLM for Edge-Devices
Trajectory prediction is a fundamental task for autonomous systems, requiring complex reasoning about multi-agent interactions and intents. Large language models (LLMs) have recently been adopted for this task, as they provide strong contextual reasoning and interpretable, language-based trajectory representations. However, these LLM-based predictors are extremely memory- and compute-intensive, making them difficult to deploy on resource-constrained edge devices such as on-board computers in autonomous robots. To bridge this gap, we propose BitTP, which converts an LLM-based trajectory predictor into a lightweight bitlinear architecture. We demonstrate that weight-only quantization to 1.58-bit (BitTP-Weight) is optimal. Crucially, activations must remain in full precision, as quantizing them leads to severe degradation and instability in spatio-temporal reasoning. Empirically, BitTP-Weight not only preserves but improves prediction quality over the full-precision (BF16) LLM baseline, reducing ADE by 14.29% and FDE by 20.97% on average, while simultaneously reducing memory usage and inference latency relative to other quantization methods. These results demonstrate that carefully designed quantization acts as an effective regularizer, enabling the practical deployment of sophisticated LLM-based reasoning on edge devices. Code is available at: https://github.com/MintCat98/BitTP.
NaRA: 拡散 LLM のパラメータ効率の高い微調整のためのノイズを考慮した LoRA
拡散大規模言語モデル (dLLM) は、有望な非自己回帰生成パラダイムとして浮上しています。完全な微調整には法外な計算コストがかかるため、パラメータ効率の良い微調整 (PEFT) が標準的なアプローチになっています。ただし、既存の PEFT 手法 (LoRA など) は、もともと自己回帰モデル用に調整されており、ノイズ レベルに依存しない静的パラメータに依存しています。その結果、拡散プロセスの固有のダイナミクスが無視され、入力分布と生成の難易度がノイズ除去の軌道に沿って大幅にシフトし、dLLM にとって最適ではなくなります。これに対処するために、我々は、ノイズを考慮した低ランク適応 (NaRA) を提案します。これは、ノイズ レベルに条件付けされた、軽量でグローバルに共有されるハイパーネットワークによって生成される低ランク コア マトリックスを導入します。この設計により、パラメータとレイテンシーのオーバーヘッドを無視できる程度に保ちながら、更新行列を拡散プロセスに沿って継続的に変化させることができます。私たちは、提案されている NaRA フレームワークの理論的正当性を示し、常識的推論、数学的推論、およびコード生成ベンチマークにわたって、ノイズに依存しないベースラインに対する一貫した改善を経験的に実証します。私たちのコードは https://github.com/generaldi/NaRA で入手できます。
原文 (English)
NaRA: Noise-Aware LoRA for Parameter-Efficient Fine-Tuning of Diffusion LLMs
Diffusion Large Language Models (dLLMs) have emerged as a promising non-autoregressive generative paradigm. Given the prohibitive computational cost of full fine-tuning, Parameter-Efficient Fine-Tuning (PEFT) has become the standard approach. However, existing PEFT methods (e.g., LoRA), originally tailored for autoregressive models, rely on static parameters that are agnostic to the noise level. Consequently, they ignore the intrinsic dynamics of the diffusion process, where input distributions and generation difficulty shift significantly along the denoising trajectory, rendering them suboptimal for dLLMs. To address this, we propose Noise-aware Low-Rank Adaptation (NaRA), which introduces a low-rank core matrix generated by a lightweight, globally shared hypernetwork conditioned on the noise level. This design enables the update matrices to vary continuously along the diffusion process while keeping parameter and latency overhead negligible. We provide a theoretical justification for the proposed NaRA framework and empirically demonstrate consistent improvements over noise-agnostic baselines across commonsense reasoning, mathematical reasoning, and code generation benchmarks. Our code is available at https://github.com/generaldi/NaRA.
実際の規制順守のための質問応答のための引用閉鎖検索とルールごとの帰属
規制遵守のために大規模言語モデル (LLM) を導入するには、多層の権限構造にわたる包括的な引用による厳密なトレーサビリティが必要です。従来のマルチホップや法的 QA とは異なり、このタスクでは、エンティティの解決や判例法の推論ではなく、構造化された手順の検索と証拠セットのクロージャが必要です。既存の RAG システムは、平坦化された引用エッジ、断片化された検索拡張、および脆弱な事後帰属のために、ここで苦戦しています。当社は、複雑な国内研究開発規制から派生した運用ナレッジ グラフを特徴とする新しいベンチマークである RegOps-Bench を使用して、規制順守 QA を形式化しています。これらのボトルネックに対処するために、共有トピック アンカーによって駆動される統合フレームワークである RefWalk を提案します。 RefWalk は、文書間の引用を横断し、最大ベースの集計によってマルチビューの候補を融合し、ルールごとの帰属を強制してクレームをソースに明示的にマッピングします。私たちは、検索再現率と引用精度を大幅に向上させる強力なベースラインを確立します。最後に、米国の健康コンプライアンス データセット (HIPAA) の対照的な評価により、既存のシステムがフラット構造ルールで飽和状態にあることが明らかになり、RegOps-Bench の必要性が強調されます。私たちのコードは https://github.com/yangjoonJu/RefWalk で入手できます。
原文 (English)
Citation-Closure Retrieval and Per-Rule Attribution for Real-World Regulatory Compliance Question Answering
Deploying Large Language Models (LLMs) for regulatory compliance demands rigorous traceability via comprehensive citations across multi-tiered authority structures. Unlike traditional multi-hop or legal QA, this task requires structured procedural lookups and evidence-set closure rather than entity resolution or case-law reasoning. Existing RAG systems struggle here due to flattened citation edges, fragmented retrieval expansions, and fragile post-hoc attribution. We formalize Regulatory Compliance QA with RegOps-Bench, a novel benchmark featuring an Operational Knowledge Graph derived from complex national R\&D regulations. To address these bottlenecks, we propose RefWalk, a unified framework driven by a shared topic anchor. RefWalk traverses cross-document citations, fuses multi-view candidates via max-based aggregation, and enforces per-rule attribution to explicitly map claims to sources. We establish a strong baseline with substantial improvements in retrieval recall and citation accuracy. Finally, a contrastive evaluation on a U.S. health compliance dataset (HIPAA) reveals that existing systems exhibit saturation on flat-structure rules, underscoring the need for RegOps-Bench. Our code is available at https://github.com/yeongjoonJu/RefWalk.
スペシャリスト モデルが依然として重要な理由: 医療用人工知能のための異種マルチエージェント パラダイム
医療分野における GPT や Claude などの汎用大規模言語モデル (LLM) の優れたパフォーマンスは、領域固有の医療専門家モデルは時代遅れになるのだろうかという重大な疑問を引き起こしています。私たちは、医療用人工知能 (AI) の将来は、モノリシックな医療基盤モデルの構築や人間の専門知識の置き換えにあるのではなく、ジェネラリストの LLM、領域固有の専門家モデル、および臨床医の間のコラボレーションを調整することにあると主張します。我々は、矛盾を認識した証拠の融合、不確実性に基づく臨床医の介入トリガー、および適応閾値キャリブレーションを可能にする異種医療マルチエージェントフレームワークである HetMedAgent を提案します。 3 つの実際の臨床意思決定タスクに関する実験では、ジェネラリスト LLM と領域固有の専門家モデルの間の相乗効果が、どちらかのタイプのモデルを単独で使用した場合よりも大幅に優れていることが実証され、モダリティ固有の分析における専門家モデルのかけがえのない価値が検証されました。 HetMedAgent は、医療 LLM または基盤モデルの構築から複数エージェントのコラボレーションへの移行を表し、一般的な推論機能とドメイン固有の精度のバランスを実現します。
原文 (English)
Why Specialist Models Still Matter: A Heterogeneous Multi-Agent Paradigm for Medical Artificial Intelligence
The impressive performance of generalist large language models (LLMs) such as GPT and Claude in healthcare raises a critical question: will domain-specific medical specialist models become obsolete? We argue that the future of medical artificial intelligence (AI) lies not in building monolithic medical foundation models, nor in replacing human expertise, but in orchestrating collaboration among generalist LLMs, domain-specific specialist models, and clinicians. We propose HetMedAgent, a heterogeneous medical multi-agent framework that enables conflict-aware evidence fusion, uncertainty-based clinician intervention triggering, and adaptive threshold calibration. Experiments on three real-world clinical decision-making tasks demonstrate that the synergy between generalist LLMs and domain-specific specialist models significantly outperforms using either type of model alone, validating the irreplaceable value of specialist models in modality-specific analysis. HetMedAgent represents a shift from building medical LLMs or foundation models to multi-agent collaboration, achieving a balance between general reasoning capabilities and domain-specific precision.
LFQ: 低ビット量子化 LLM の生成品質を向上させるためのロジットを意識した最終ブロック量子化
大規模な言語モデルがスケールし続けるにつれて、低ビット重みのみのポストトレーニング量子化 (PTQ) は、メモリ効率の高い展開に対する実用的なソリューションを提供します。ブロック単位の PTQ は、基本的な言語モデリングと理解に関して完全精度 (FP) ベースラインと一致することができますが、生成タスク、特にタスクの精度を高める上で重要な、より長い応答や思考の連鎖が長くなった場合、その品質は低下します。この不足の原因は 2 つの要因であると考えられます。(i) ブロック単位の最適化における非埋め込み層 (LM ヘッド) の省略、および (ii) 平均二乗誤差 (MSE) 目標への依存。両方の要因により、量子化モデルのトークン確率分布が FP モデルのトークン確率分布と不整合になり、テキスト生成ベンチマークで顕著な精度の低下が生じます。この不一致を修正するために、ロジットを意識した最終ブロック量子化 (LFQ) を導入します。これは、FP モデルのロジットと量子化された対応物のロジット間のクロス エントロピーを最小限に抑えることで、最終的な Transformer ブロックを量子化するブロック単位 PTQ のシンプルかつ効果的な拡張機能です。最終ブロックのロジットレベルでトークン確率を調整することにより、LFQ は、言語モデリングと理解に関して FP ベースラインとの同等性を維持しながら、多様なモデルファミリーにわたって最先端のブロックごとの PTQ よりも複雑な生成タスクの精度を一貫して向上させます。
原文 (English)
LFQ: Logit-aware Final-block Quantization for Boosting the Generation Quality of Low-Bit Quantized LLMs
As large language models continue to scale, low-bit weight-only post-training quantization (PTQ) offers a practical solution to their memory-efficient deployment. Although block-wise PTQ is capable of matching the full-precision (FP) baseline on basic language modeling and understanding, its quality is degraded for generative tasks -- especially at longer responses and extended chains of thought, which is critical in boosting task accuracy. We attribute this shortfall to two factors: (i) the omission of the unembedding layer (the LM head) in block-wise optimization and (ii) the reliance on the mean squared error (MSE) objective. Both factors cause the token probability distribution of the quantized model to misalign with that of the FP model, yielding notable accuracy drops on text generation benchmarks. To rectify the discrepancy, we introduce Logit-aware Final-block Quantization (LFQ), a simple yet effective enhancement to block-wise PTQ that quantizes the final Transformer block by minimizing the cross-entropy between the logits of the FP model and those of its quantized counterpart. By aligning token probabilities at the logit level in the final block, LFQ consistently improves the accuracy of complex generation tasks over state-of-the-art block-wise PTQ across diverse model families, while maintaining parity with FP baselines on language modeling and understanding.
SkillsInjector: LLM エージェントの動的なスキル コンテキストの構築
LLM エージェントは、増大するスキル ライブラリを利用して複雑なタスクを処理できるようになりました。ただし、より多くのスキルを投入しても、必ずしもタスクの完了が向上するとは限らず、タスクの完了が低下する可能性もあります。既存の手法は依然としてスキルの注入を静的なステップとして扱い、固定基準でスキルを選択し、事前に予算を固定し、説明を変更しないままにします。どのスキルが公開されるか、いくつ含まれるか、およびそれらがどのように提示されるかはすべて、下流のパフォーマンスに影響を与えるため、この静的な処理はスキルの有用性を損なう可能性があると私たちは主張します。私たちは、これらの決定に共同で対処する 2 段階の適応手法である SkillsInjector を提案します。まず、コンテキスト プランナーは、実行に基づいたスキルの好みを学習し、タスクごとに適応可能な数のスキルを許可します。次に、セット対応レンダラーは、選択された説明が、同時に挿入された近隣のものと比較してどのように表示されるかを調整します。 tau2-bench、SkillsBench、ALFWorld 全体で、SkillsInjector が最高のスコアを達成し、最も強力なベースラインをそれぞれ 3.9、6.1、7.3 パーセントポイント改善しました。アブレーション研究では、スキルの選択、適応的な予算設定、およびセットアウェアなレンダリングがそれぞれ利益に貢献していることが示されています。これらの結果は、スキル拡張エージェントが、注入されたコンテキスト自体を最適化することで恩恵を受けることを示しています。コードは公開され次第公開されます
原文 (English)
SkillsInjector: Dynamic Skill Context Construction for LLM Agents
LLM agents now draw on growing skill libraries to handle complex tasks. However, injecting more skills does not always improve task completion and can even degrade it. Existing methods still treat skill injection as a static step, selecting skills with fixed criteria, fixing the budget in advance, and leaving descriptions unchanged. We argue that this static treatment can undermine the utility of skills, because which skills are exposed, how many are included, and how they are presented all affect downstream performance. We propose SkillsInjector, a two-stage adaptive method that jointly addresses these decisions. First, a context planner learns execution-grounded skill preferences and admits an adaptive number of skills for each task. A set-aware renderer then tailors how selected descriptions are presented relative to their co-injected neighbors. Across tau2-bench, SkillsBench, and ALFWorld, SkillsInjector achieves the highest score, improving over the strongest baseline by 3.9, 6.1, and 7.3 percentage points, respectively. Ablation studies show that skill selection, adaptive budgeting, and set-aware rendering each contribute to the gain. These results show that skill-augmented agents benefit from optimizing the injected context itself. Code will be released upon publication
SAAS: エージェント検索における過剰検索を軽減するための自己認識強化学習
エージェント検索により、LLM は反復推論と外部検索を通じて複雑なマルチホップの質問を解決できます。これらのシステムは有効であるにもかかわらず、実際には重大な制限に悩まされることがよくあります。エージェントは自分自身の知識の境界を認識できず、内部の知識が十分な場合でもやみくもに検索を開始し、十分な証拠が収集されている場合でも検索を終了できません。自己認識の欠如は深刻な \textbf{過剰検索} につながり、かなりの推論遅延と法外な計算コストが発生します。この目的を達成するために、精度を損なうことなく検索動作を正確に制御する動的な自己認識を育成するように設計された新しい RL フレームワークである SAAS を提案します。 SAAS では、次の 3 つの主要コンポーネントが導入されています。(i) 検索境界モデリング メカニズム。検索が無効なロールアウトと検索が有効なロールアウトを対比することで、進化するポリシーに基づいて検索境界を識別します。 (ii) 境界認識報酬モジュール。この境界認識を軌道レベルのペナルティに変換し、不必要で冗長な検索を抑制します。 (iii) 段階的な最適化戦略。これは、一連のカリキュラムを活用して、検索の正規化よりも推論を優先し、それによって報酬のハッキングを回避します。広範な実験により、SAAS が精度を維持しながら過剰検索を大幅に削減することが実証されました。私たちのコードは https://github.com/XMUDeepLIT/SAAS で匿名で公開されています。
原文 (English)
SAAS: Self-Aware Reinforcement Learning for Over-Search Mitigation in Agentic Search
Agentic search enables LLMs to solve complex multi-hop questions through iterative reasoning and external search. Despite the effectiveness, these systems often suffer from a critical limitation in practice: agents fail to recognize their own knowledge boundaries, blindly triggering searches when internal knowledge suffices and failing to terminate search even when adequate evidence has been collected. The lack of self-awareness leads to severe \textbf{over-search}, incurring substantial inference latency and prohibitive computational cost. To this end, we propose SAAS, a novel RL framework designed to cultivate dynamic self-awareness that precisely regulates search behavior without compromising accuracy. SAAS introduces three key components: (i) a search boundary modeling mechanism, which identifies the search boundary under the evolving policy by contrasting search-disabled and search-enabled rollouts; (ii) a boundary-aware reward module, which translates this boundary awareness into trajectory-level penalties, suppressing unnecessary and redundant searches; and (iii) a stage-wise optimization strategy, which leverages a sequential curriculum to prioritize reasoning over search regularization, thereby avoiding reward hacking. Extensive experiments demonstrate that SAAS substantially reduces over-search, while maintaining accuracy. Our code is anonymously released at https://github.com/XMUDeepLIT/SAAS.
PRAIB: LLM 支援レビューの動作に関する査読 AI ベンチマーク
提出論文数の増加により、特に速度とスケーラビリティの向上という観点から、査読プロセスをサポートおよび強化する手段として大規模言語モデル (LLM) の探求が促進されています。しかし、LLM が人間の査読者と同じ方法で科学論文に取り組むのか、それとも単に査読者に見える文章を作成するだけなのかは不明のままです。これに対処するために、レビューの特異性、スタイル、エンゲージメントの動作を測定する、徹底的に定義された指標で構成される新しいフレームワークである Peer Review AI Benchmark (PRAIB) を導入します。 PRAIB フレームワークを補完するために、1,000 件の ICLR および NeurIPS 論文について 5 つの独自のオープンソース モデルによって生成された 11,000 件のレビューのデータセットを活用して、大規模な実証研究を実施しています。 2021 年から 2025 年の期間にわたって、これらの機械によって生成されたレビューが、体系的な行動の相違を特定するために、さまざまな促進戦略にわたる元の人間のフィードバックと比較されます。私たちの分析では、生成されたレビューが人間のレビュー担当者によって提供されたフィードバックから大きく乖離していることが明らかになりました。LLM 評価は変動が少なく、ポジティブなバイアスがあり、自信過剰であり、その相互参照パターンはモデルに依存しており、人間の基準とは異なります。さらに、PRAIB を通じて評価すると、LLM はより長く複雑なレビューを生成する傾向があるにもかかわらず、人間のレビュー担当者が指摘した基本的な弱点を頻繁に見落とすことがわかりました。 PRAIB は、LLM のレビュー動作が人間の規範からどこでどのように逸脱しているかを特徴付けることで、レビュー プロセスのどの側面を LLM が現在確実にサポートでき、どの側面を展開前にさらなる開発が必要かを特定するための診断ツールをコミュニティに提供します。
原文 (English)
PRAIB: Peer Review AI Benchmark of Behaviour of LLM-Assisted Reviewing
The growing number of submitted papers has motivated the exploration of Large Language Models (LLMs) as a means to support and augment the peer review process, particularly in terms of improving its speed and scalability. Yet, it remains unknown whether LLMs engage with scientific manuscripts in the same manner as human reviewers, or whether they merely produce review-looking text. To address this, we introduce the Peer Review AI Benchmark (PRAIB), a novel framework comprising thoroughly defined metrics that measure review specificity, style, and behavior of engagement. To complement the PRAIB framework, we conduct a large-scale empirical study leveraging a dataset of 11,000 reviews generated by five proprietary and open-source models for 1,000 ICLR and NeurIPS papers. Spanning the 2021--2025 period, these machine-generated reviews are compared against original human feedback across diverse prompting strategies to identify systematic behavioral divergences. Our analysis reveals that the generated reviews diverge significantly from feedback provided by human reviewers: LLM ratings are less variable, positively biased, and overconfident, and their cross-reference patterns are model-dependent and distinct from human norms. Furthermore, when evaluated through PRAIB, we observe that LLMs tend to generate longer, more complex reviews, yet frequently overlook the atomic weaknesses noted by human reviewers. By characterizing where and how LLMs reviewing behavior departs from human norms, PRAIB provides the community with a diagnostic tool for identifying which aspects of the review process LLMs can reliably support today and which require further development before deployment.
大規模な言語モデルで非敵対的な堅牢性を活用する
この研究は、意味的には似ているがテキストが異なるプロンプトによって引き起こされる変更や潜在的なエラーに対する大規模言語モデル (LLM) の堅牢性の課題に対処するためのアプローチを示しています。最近の研究では、この種のプロンプトの変動がタスクに対する LLM のパフォーマンスに大きな影響を与える可能性があることが示されています。中心的な疑問は、意味的に中立なプロンプト変更に対する LLM の堅牢性は、モデル全体の高価な再トレーニングなしで獲得できるかということです。私たちは理論と実験の両方を通じてこの疑問に取り組みます。私たちの理論的分析により、モデルの堅牢性に影響を与える重要な要因、つまりニューラル ネットワーク モジュール出力における系統的な予想されるシフトまたは摂動によって引き起こされるバイアスが明らかになりました。この分析を動機として、我々は、単純な微調整プロセス、つまりロバスト性のためのバイアス除去によってロバスト性を達成できることを示します。私たちは、バイアス緩和が役立つ場合とそうでない場合の条件を特定し、理論と広範な実験の両方を通じて、ロバスト性を高めるためのバイアス緩和が実際にロバスト性を強化し、ランダムなプロンプト摂動に対する認証を提供するための迅速かつ効率的なツールである可能性があることを実証します。
原文 (English)
Harnessing non-adversarial robustness in large language models
The work presents an approach for addressing the challenge of robustness in Large Language Models (LLMs) to alterations and potential errors caused by semantically similar but textually different prompts. Recent works have shown that these kinds of prompt variations can significantly impact the performance of LLMs on tasks. The central question is: can LLMs' robustness to semantically-neutral prompt alterations be acquired without expensive retraining of the entire model? We address this question both theoretically and through experiments. Our theoretical analysis reveals a crucial factor impacting model robustness - a systematic expected shift or perturbation-induced bias in neural network module outputs. Motivated by this analysis, we show that robustness can be achieved via a simple fine-tuning process: debiasing for robustness. We identify conditions when debiasing helps and when it does not, and demonstrate, through both theory and extensive experiments, that debiasing for robustness may indeed be a quick and efficient tool to enhance robustness and provide certification against random prompt perturbations.
OptSkills: クラスターベースの蒸留を介して問題の原型から一般化可能な最適化スキルを学習する
大規模言語モデル (LLM) を活用して、自然言語から最適化問題を自動的に定式化し、解決することが、自動最適化の効率的なパラダイムとして浮上しています。しかし、既存の手法はまだ一般化が限られています。表面的な物語の変化に敏感で、主に事例レベルで経験を再利用し、変化した問題や新たな問題の種類に適応するのに苦労しています。私たちは、最適化モデリングと解決のための原型中心のスキル学習および推論エージェント システムである OptSkills を提案します。堅牢な一般化を向上させるために、私たちのシステムは、表面的な物語ではなく、その根底にある原型によって問題をクラスター化します。ディストリビューション内の一般化を改善するために、各クラスター内の多様なモデリング パラダイムとソルバー構成を調査し、成功した軌跡を再利用可能なワークフロー レベルのスキルに抽出します。分布外の一般化を改善するために、既存のスキルを改良するか、新しく取得した軌道を使用してスキル ライブラリを拡張します。当社のシステムは、さまざまな問題の種類とシナリオを含むデータセットで 68.27% という最先端のミクロ平均精度を達成しています。さらに、難易度の高い大規模かつ高次元のベンチマークである MIPLIB-NL では、26.91% の精度を達成し、DeepSeek-V3.2-Thinking を 4.53% 上回っています。 Nano-CO でスキルを学習すると、OOD NLCO ベンチマークで 72.79% に達します。コードとスキルは https://github.com/fujiwaranoM0kou/OptSkills で入手できます。
原文 (English)
OptSkills: Learning Generalizable Optimization Skills from Problem Archetypes via Cluster-Based Distillation
Leveraging Large Language Models (LLMs) to automatically formulate and solve optimization problems from natural language has emerged as an efficient paradigm for automated optimization. However, existing methods still exhibit limited generalization: they are sensitive to superficial narrative variations, reuse experience mainly at the case level, and struggle to adapt to shifted or emerging problem types. We propose OptSkills, an archetype-centric skill learning and reasoning agent system for optimization modeling and solving. To improve robust generalization, our system clusters problems by their underlying archetypes rather than surface narratives. To improve in-distribution generalization, it explores diverse modeling paradigms and solver configurations within each cluster, then distills successful trajectories into reusable workflow-level skills. To improve out-of-distribution generalization, it refines existing skills or expands the skill library using newly obtained trajectories. Our system achieves a state-of-the-art micro-averaged accuracy of 68.27% on datasets encompassing diverse problem types and scenarios. In addition, on MIPLIB-NL, a highly challenging large-scale and high-dimensional benchmark, it achieves 26.91% accuracy, outperforming DeepSeek-V3.2-Thinking by 4.53%. After skill learning on Nano-CO, it reaches 72.79% on the OOD NLCO benchmark. Code and skills are available at https://github.com/fujiwaranoM0kou/OptSkills.
Moment-KV: 長期生成のための運動量ベースのデコード時間 KV キャッシュ圧縮
Key-Value (KV) キャッシュは、長期世代のタスクで大規模言語モデル (LLM) を展開する際の大きなボトルネックのままです。以前の作業では、プレフィル キャッシュとデコード キャッシュの両方に均一な圧縮が適用されることがよくありましたが、プレフィル キャッシュを圧縮すると重要なコンテキストが破損するため、パフォーマンスが低下します。プレフィル キャッシュを保存することは不可欠ですが、デコード段階の圧縮はまだ研究されておらず、既存の方法は厳密な最新ウィンドウまたは瞬間的な注意に依存しています。私たちが注目のダイナミクスを分析したところ、強力な時間的パターンが明らかになりました。つまり、重要なトークンは長期にわたって持続的な注目を受け取るのに対し、局所的な推論には短期間のバーストが含まれます。静的ヒューリスティックではこの動作を捕捉できないため、重要なトークンが時期尚早に削除されたり、古いトークンが保持されたりする可能性があります。我々は、運動量駆動型の時間的注意集約に基づく復号時 KV キャッシュ圧縮法である Moment-KV を提案します。私たちの手法では、トークンの重要性を継続的に進化する状態としてモデル化し、注目が衰退とともに集約され、長期的な影響力と最近の関連性の両方を捉えます。実験では、Moment-KV がデコード レイテンシーを維持しながら、長い世代のタスクにおける生成忠実度を大幅に向上させる (2.3 ~ 3.2 %) ことが示されています。
原文 (English)
Moment-KV: Momentum-Based Decode-Time KV Cache Compression for Long Generation
Key-Value (KV) cache remains a major bottleneck for deploying Large Language Models (LLMs) in long-generation tasks. Prior work often applies uniform compression across both prefill and decoding caches, but compressing the prefill cache degrades performance by corrupting critical context. While preserving the prefill cache is essential, decoding-phase compression remains underexplored, with existing methods relying on rigid recency windows or instantaneous attention. Our analysis of attention dynamics reveals strong temporal patterns: critical tokens receive sustained attention over long horizons, while local reasoning involves short-lived bursts. Static heuristics fail to capture this behavior, leading to premature eviction of important tokens or retention of stale ones. We propose Moment-KV, a decoding-time KV cache compression method based on momentum-driven temporal attention aggregation. Our method models token importance as a continuously evolving state, where attention is aggregated with decay, capturing both long-term influence and recent relevance. Experiments show that Moment-KV significantly improves generation fidelity in long-generation tasks (2.3-3.2 %) while maintaining decoding latency.
冗長ですか、それとも必要ですか?エージェントの軌跡における冗長なステップを検出するためのベンチマーク
LLM ベースのエージェントは、複数ステップの推論とツールの使用を通じて複雑なタスクを解決する強力な機能を実証しています。しかし、既存の評価プロトコルは主にタスクの成功に焦点を当てており、エージェントの動作の重要な側面である実行効率を見落としています。実際には、エージェントの軌跡には、タスクの完了にはほとんど寄与しないものの、大量のリソースを消費する冗長なステップが含まれることがよくあります。この研究では、エージェントの軌跡に対する \textbf{冗長ステップ検出} という新しい研究領域を提案し、定式化します。この取り組みをサポートするために、\textbf{RedundancyBench} を導入します。これは、慎重に注釈が付けられた軌跡を持つ多様なタスクを含む新しいベンチマークであり、タスクの完了への貢献度に応じて各ステップにラベルが付けられます。 RedundancyBench を使用して、軌道内のステップが冗長であるか必要であるかを答えるための 3 つの代表的な方法を開発および評価します。私たちの結果は、最もパフォーマンスの高い方法でも冗長ステップの検出で 24.88\% のスコアしか達成できず、一部の方法ではランダムな推測よりもパフォーマンスが悪いことがわかりました。これらの結果は、このタスクの複雑さと、この分野におけるさらなる研究の必要性を浮き彫りにしています。 \footnote{この論文のコードとデータセットはどちらも \href{https://anonymous.4open.science/r/RedundancyBench}{https://anonymous.4open.science/r/RedundancyBench} で入手できます。}
原文 (English)
Redundant or Necessary? A Benchmark for Detecting Redundant Steps in Agent Trajectories
LLM-based agents have demonstrated strong capabilities in solving complex tasks through multi-step reasoning and tool use. However, existing evaluation protocols primarily focus on task success, overlooking a critical aspect of agent behavior: execution efficiency. In practice, agent trajectories often contain redundant steps that consume substantial resources while contributing little to task completion. In this work, we propose and formulate a new research area: \textbf{redundant step detection} for agent trajectories. To support this initiative, we introduce \textbf{RedundancyBench}, a new benchmark that contains diverse tasks with carefully annotated trajectories, where each step is labeled according to its contribution to task completion. Using RedundancyBench, we develop and evaluate 3 representative methods to answer whether a step within trajectory is redundant or necessary. Our results show that even the best-performing method achieves only 24.88\% score in detecting redundant steps, while some methods perform worse than random guessing. These results highlight the task's complexity and the need for further research in this area. \footnote{Code and dataset in this paper are both available in \href{https://anonymous.4open.science/r/RedundancyBench}{https://anonymous.4open.science/r/RedundancyBench}.}
LLM にフィードバックを通じてストリーミング エクスペリエンスから合成する方法を学習させる
大規模言語モデル (LLM) は合成データの生成に広く採用されており、アノテーションのコストが大幅に削減されています。しかし、既存の研究のほとんどは合成を一連の独立したタスクとして扱い、モデルが過去のタスクからの経験を蓄積し、それを将来のタスクに転送することによって合成を学習できるかどうかという、より基本的な問題を見落としています。この作業では、合成タスクが順番に到着し、過去のタスクからの経験が将来の合成に有益な信号を提供する新しい設定である StreamSynth を導入します。この設定に対処するために、合成モデルがタスク ストリームを通じて再利用可能な合成エクスペリエンスを取得できるようにする一般的なフレームワークである SynLearner を提案します。 SynLearner は、タスクごとに個別にデータを生成するのではなく、モデルが多様な合成パターンを探索し、フィードバックから学習し、タスクの進化に応じてサンプルの品質とセットレベルの多様性のバランスをとることを奨励します。複数のベンチマークにわたる広範な実験により、SynLearner が以前のタスクの経験を効果的に活用して後のタスクの合成パフォーマンスを向上させ、一貫したタスク間の移行性を示していることがわかりました。これらの発見は、StreamSynth の実現可能性の証拠を提供し、タスク ストリームから恩恵を受けることができるエクスペリエンス主導のプロセスとしての合成データ生成を強調しています。
原文 (English)
Make LLM Learn to Synthesize from Streaming Experiences through Feedback
Large language models (LLMs) have been widely adopted for synthetic data generation, significantly reducing annotation costs. However, most existing studies treat synthesis as a set of isolated tasks and overlook a more fundamental question: whether a model can learn to synthesize by accumulating experience from past tasks and transferring it to future ones. In this work, we introduce StreamSynth, a new setting in which synthesis tasks arrive sequentially and experience from historical tasks provides informative signals for future synthesis. To address this setting, we propose SynLearner, a general framework that enables synthesis models to acquire reusable synthesis experience over a task stream. Instead of generating data independently for each task, SynLearner encourages the model to explore diverse synthesis patterns, learn from feedback, and balance sample quality with set-level diversity as tasks evolve. Extensive experiments across multiple benchmarks show that SynLearner effectively leverages experience from earlier tasks to improve synthesis performance on later ones, exhibiting consistent cross-task transferability. These findings provide evidence for the feasibility of StreamSynth and highlight synthetic data generation as an experience-driven process that can benefit from task streams.
Compass: 専門家のガイドによる LLM エージェントによる世界的な海洋リードデータの統合のナビゲート
海洋鉛 (Pb) とその同位体は、海洋循環と人為的汚染の重要なトレーサーですが、現場での観察は依然として費用がかかり、まばらです。膨大な歴史的記録が存在する一方で、それらは学術論文の非構造化コンテンツの中に埋もれており、包括的な分析にアクセスできない「データサイロ」を生み出しています。手動による抽出には拡張性がなく、汎用の大規模言語モデル (LLM) には必要なドメイン固有の知識が不足しているため、幻覚や科学的に無効な出力が発生します。これに対処するために、LLM が微調整せずに厳密な科学データ抽出を実行できるようにする、専門家主導の適応アプローチを導入します。当社は、海洋科学者と共同設計したナレッジ ツリーによって強化された LLM エージェント フレームワークである Compass を通じてこのアプローチを運用しています。これは、複雑なタスクを検証可能なステップに分解し、科学的妥当性を確保するためにエージェントの推論を導きます。 230,000 件を超える関連するオープンアクセス論文のコーパス全体に Compass を導入することで、これまで組み込まれていなかった 3,751 件の Pb レコードを抽出することに成功しました。この取り組みにより、これまでで最大の統合海洋 Pb データベースが確立されました。標準的な指標を超えて、Compass は多層検証を通じて優れた信頼性を実証し、専門家の手動検証で確認されたとおり 92% の精度を達成しています。新たに統合されたデータは、東シナ海や南極海など、これまでサンプリングが不十分だった地域のカバー範囲を拡大し、将来の科学的発見のための充実したデータ基盤を提供します。私たちは、オープンな科学的アクセスを促進するために、インタラクティブな視覚化プラットフォームをリリースします。私たちの研究は、専門家がガイドするエージェントが汎用 LLM と一か八かの科学領域の間のギャップを効果的に埋め、地球科学におけるスケーラブルなデータ発見を可能にすることを実証しています。
原文 (English)
Compass: Navigating Global Marine Lead Data Integration through Expert-Guided LLM Agent
Marine lead (Pb) and its isotopes are critical tracers for ocean circulation and anthropogenic pollution, yet in-situ observations remain costly and sparse. While vast historical records exist, they lie buried within the unstructured content of academic papers, creating "data silos" inaccessible to comprehensive analysis. Manual extraction is unscalable, while general-purpose Large Language Models (LLMs) lack the necessary domain-specific knowledge, leading to hallucinations and scientifically invalid outputs. To address this, we introduce an expert-guided adaptation approach that enables LLMs to perform rigorous scientific data extraction without fine-tuning. We operationalize this approach through Compass, an LLM agent framework enhanced by a Knowledge Tree co-designed with marine scientists, which decomposes complex tasks into verifiable steps, guiding the agent's reasoning to ensure scientific validity. Deploying Compass across a corpus of over 230,000 relevant open-access papers, we successfully extract 3,751 previously unincorporated Pb records. This effort establishes the largest integrated marine Pb database to date. Beyond standard metrics, Compass demonstrates superior reliability through multi-layered validation, achieving 92% accuracy as confirmed through expert manual verification. The newly integrated data expand coverage in previously under-sampled regions such as the East China Sea and the Southern Ocean, providing an enriched data foundation for future scientific discoveries. We release an interactive visualization platform to facilitate open scientific access. Our work demonstrates that expert-guided agents can effectively bridge the gap between general-purpose LLMs and high-stakes scientific domains, enabling scalable data discovery in geosciences.
トークンスペース圧縮による制約付きデコードの高速化
LLM の出力が指定された構造に準拠していることを保証するために、文脈自由文法 (CFG) デコード エンジンは、指定された CFG に準拠する文字列を生成する次のトークンの選択を強制します。現在の CFG 制約付きデコード エンジンは高度に最適化されていますが、ステップごとの膨大な検索スペース (つまり、トークン語彙全体) から生じる固有のコストにより、より複雑な CFG では手に負えないほど高いオーバーヘッドが発生します。これはまさに CFG エンジンが最も役立つ状況です。このペーパーでは、トークン検索スペースを圧縮するためのオフライン技術である CFGzip を紹介します。これにより、CFG エンジンのオーバーヘッドが大幅に削減されます。実験では、CFGzip を SoTA 文法エンジンとともに使用すると、レイテンシーが最大 2 桁削減され、制約付き生成時間の合計が最大 7.5 倍高速化されることが報告されています。CFGzip を使用すると、複雑な CFG に対して大規模な制約付きデコードが実現可能になります。
原文 (English)
Accelerating Constrained Decoding with Token Space Compression
To guarantee that an LLM's outputs conform to a specified structure, context-free grammar (CFG) decoding engines force the selection of next tokens that produce strings that conform to a given CFG. While current CFG-constrained decoding engines are highly optimized, the inherent costs arising from the massive per-step search space -- i.e. the entire token vocabulary -- result in intractably high overhead for more complex CFGs: precisely the situation where CFG engines are most useful. In this paper, we introduce CFGzip, an offline technique for compressing the token search space, which massively reduces CFG engine overhead. In experiments, we report latency reduction of up to two orders of magnitude when CFGzip is used with a SoTA grammar engine, yielding an up to 7.5x speedup in total constrained generation time: with CFGzip, constrained decoding is now feasible at scale for complex CFGs.
Cookie-Bench: Web 生成のための継続的なオンスクリーンキーインタラクション評価
フロントエンドの Web コードは、すべてのフロンティア LLM リリースの中核的な製品面となっていますが、アリーナのような人間が判断するリーダーボードは拡張できないため、これらのインタラクティブ アプリケーションを開発スピードで評価することは依然としてコストがかかります。既存の自動プロキシは通常、リファレンス実装、テスト スイート、または厳密なチェックリストに依存しており、人間のレビュー担当者がライブ セッションで実行する合理的な合成を見逃す傾向があります。私たちは、同時に参照フリーで、自律的に駆動され、総合的に推論される新しい評価体制を明確にし、2 つの成果物を通じてそれをインスタンス化します。 \textbf{\dataname} は、静的プレゼンテーション タスクと対話型アプリケーション タスクの両方にまたがる 11 ドメイン、54 リーフ、1,000 クエリの WebDev ベンチマークであり、3 つの難易度層と 3 つのターゲット言語グループにわたってバランスが取れており、回覧されたプロンプトから思い出せないようにブリーフが書き直されています。 \textbf{\framename} は、Flavell のメタ認知モニタリングに基づいており、証拠の蓄積と判断を 3 つの段階にわたって分離します。静的な知覚は受動的な観察から第一印象を形成します。エージェント駆動のインタラクションは、連続画面のビデオ、音声、およびステップごとのスクリーンショットをキャプチャしながら、アプリケーションを自律的に探索します。動的スコアリングは、証拠チェーンが完了した後にのみ、構造化された失敗の帰属を伴う全体的な機能性と美的判断を発行します。 \dataname では、\framename は専門家による評価と厳密に一致しており、インタラクティブな Web 生成に関して 13 のフロンティア LLM 全体でかなりのヘッドルームを表面化しています。 \noindenthttps://anonymous.4open.science/r/Cookie-3CE/
原文 (English)
Cookie-Bench: Continuous On-screen Key Interaction Evaluation for Web Generation
Front-end web code has become a core product surface for every frontier LLM release, yet evaluating these interactive applications at development speed remains costly because human-judged leaderboards like Arena do not scale. Existing automated proxies typically lean on reference implementations, test suites, or rigid checklists, and tend to miss the reasoned synthesis a human reviewer performs over a live session. We articulate a new evaluation regime that is simultaneously reference-free, autonomously driven, and holistically reasoned, and instantiate it through two artifacts. \textbf{\dataname} is an 11-domain, 54-leaf, 1,000-query WebDev benchmark spanning both static-presentation and interactive-application tasks, balanced across three difficulty tiers and three target-language groups, with briefs rewritten to resist recall from circulated prompts. \textbf{\framename}, grounded in Flavell's metacognitive monitoring, separates evidence accumulation from judgment across three stages: Static Perception forms a first impression from passive observation; Agent-Driven Interaction explores the application autonomously while capturing continuous screen video, audio, and per-step screenshots; Dynamic Scoring issues holistic functionality and aesthetics verdicts with structured failure attribution only after the evidence chain is complete. On \dataname, \framename aligns closely with expert human ratings while surfacing substantial headroom across 13 frontier LLMs on interactive web generation. \noindenthttps://anonymous.4open.science/r/Cookie-3CE/
GPS ポイントから移動パターンまで: LLM による柔軟でセマンティックな軌道生成
都市の軌跡は、都市ダイナミクスをモデル化し、さまざまなスマート シティ アプリケーションをサポートする上で重要な役割を果たします。ただし、プライバシー上の懸念により、大規模で高品質の軌道データセットへのアクセスは制限されています。軌道生成は、現実的なデータを合成してプライバシー リスクを軽減する、有望な代替手段を提供します。しかし、既存の方法では移動パターンを明示的に捉えることができず、単一の条件下で固定長の軌道しか生成できません。これらの制限に対処するために、\textbf{HTP} を提案します。これは、GPS ポイントを直接生成するのではなく、\textbf{H} が最初に \textbf{T}ravel パターンを階層的に生成し、次に大規模言語モデル (LLM) を使用して GPS \textbf{P} ポイントを生成します。まず、ミクロレベルの GPS 軌道を粗いから細かい方法でコンパクトなマクロレベルの移動パターン トークンに量子化する、軌道固有の残差量子化変分オートエンコーダ (RQ-VAE) を設計します。これらのトークンは、交通状況によって引き起こされるポイント密度の変動など、リッチ セグメントの空間的不規則性をキャプチャします。次に、LLM ボキャブラリを移動パターン トークンで拡張して、軌道表現を LLM 入力と整合させ、教師あり微調整 (SFT) を適用して LLM を軌道生成タスクと整合させ、さまざまな条件下で移動パターン シーケンスを生成できるようにします。 2 つの現実世界のデータセットに対する広範な実験により、HTP は生成品質の点で最も強力なベースラインを平均 29.78\% 上回っていることが示されています。私たちのコードは https://github.com/slzhou-xy/HTP で入手できます。
原文 (English)
From GPS Points to Travel Patterns: Flexible and Semantic Trajectory Generation with LLMs
Urban trajectories play a crucial role in modeling urban dynamics and supporting various smart city applications. However, privacy concerns restrict access to large-scale and high-quality trajectory datasets. Trajectory generation provides a promising alternative by synthesizing realistic data to mitigate privacy risks. However, existing methods fail to explicitly capture travel patterns and can only generate fixed-length trajectories under a single condition. To address these limitations, we propose \textbf{HTP}, which \textbf{H}ierarchically generates \textbf{T}ravel patterns first and then generates GPS \textbf{P}oints by using large language models (LLMs), rather than directly generating GPS points. We first design a trajectory-specific residual quantization variational autoencoder (RQ-VAE) that quantizes micro-level GPS trajectories into compact, macro-level travel pattern tokens in a coarse-to-fine manner. These tokens capture rich segment spatial irregularities, such as point density variations caused by traffic conditions. Then, we extend the LLM vocabulary with travel pattern tokens to align trajectory representations with the LLM input, and apply supervised fine-tuning (SFT) to align the LLM with the trajectory generation task, enabling generation of travel pattern sequences under various conditions. Extensive experiments on two real-world datasets show that HTP outperforms the strongest baseline by an average of 29.78\% in terms of generation quality. Our code is available at https://github.com/slzhou-xy/HTP.
機械に値を教える: LLM で人間のような動作をシミュレートする
大規模言語モデル (LLM) は、さまざまなペルソナや役割を採用する驚くべき能力を示しています。ただし、彼らが一貫した人間のような価値観に準拠した行動を示すことができるかどうかは依然として不明です。この研究では、確立された心理的価値理論を利用して、LLM に人間のような価値を誘導し、人間の研究で観察されたパターンとの整合性を評価します。私たちは、検証済みの心理学的アンケートを使用して、主要な LLM の価値観構造と価値観と行動の関係を評価し、人間と比較するために、500 万件を超える大規模な実験を実施しています。私たちの調査結果は、価値を重視する LLM と人間の間の両方の側面における強い一致を明らかにしています。さらに、人間の価値分布を組み込むことで、価値誘導 LLM による集団レベルのシミュレーションが強化されます。これらの発見は、人間の行動をシミュレートするための効果的で心理的に根拠のあるツールとしての価値誘導型 LLM の可能性を強調しています。
原文 (English)
Teaching Values to Machines: Simulating Human-Like Behavior in LLMs
Large Language Models (LLMs) demonstrate a remarkable capacity to adopt different personas and roles; however, it remains unclear whether they can manifest behavior that adheres to a coherent, human-like value structure. In this work, we draw on established psychological value theory to induce human-like values in LLMs and assess their alignment with patterns observed in human studies. Using validated psychological questionnaires, we conduct large-scale experiments -- over 5 million questions -- to evaluate value structures and value-behavior relationships in leading LLMs and compare them to humans. Our findings reveal strong agreement between value-prompted LLMs and humans across both dimensions. Moreover, incorporating human value distributions enhances population-level simulations with value-induced LLMs. These findings highlight the potential of value-induced LLMs as effective, psychologically grounded tools for simulating human behavior.
最小限の十分表現学習による LLM のドメイン固有のデータ合成
大規模言語モデルは汎用機能において目覚ましい進歩を示しており、ドメイン固有のデータを微調整することで特定のドメインで強力なパフォーマンスを達成できます。ただし、対象ドメインの高品質データを取得することは依然として大きな課題です。既存のデータ合成アプローチは演繹的パラダイムに従っており、自然言語で表現された明示的なドメイン記述と注意深くプロンプト エンジニアリングに大きく依存しており、ドメインを説明したり形式的に表現したりすることが難しい現実のシナリオへの適用性が制限されています。この研究では、帰納的パラダイムを通じてドメイン固有のデータ合成という未解明な問題に取り組みます。このパラダイムでは、特にドメインの特性を自然言語で表現することが難しい場合に、ターゲット ドメインが一連の参照例を通じてのみ定義されます。私たちは、参照サンプルから最小限の十分なドメイン表現を学習し、それを活用してドメインが調整された合成データの生成をガイドする新しいフレームワーク DOMINO を提案します。 DOMINO は、サンプル固有のノイズからドメインレベルのパターンを分離し、コアドメインの特性を維持しながらオーバーフィッティングを軽減するために、コントラストのもつれを解く目的とプロンプトチューニングを統合します。理論的には、DOMINO が合成データ配布のサポートを拡張し、より大きな多様性を確保することを証明します。経験的に、ドメイン定義が暗黙的である困難なコーディング ベンチマークでは、DOMINO によって合成されたデータを微調整すると、強力な命令調整されたバックボーンに比べて Pass@1 の精度が最大 4.63\% 向上し、その有効性と堅牢性が実証されました。この取り組みは、ドメイン固有のデータ合成のための新しいパラダイムを確立し、手動のプロンプト設計や自然言語ドメイン仕様を必要とせずに、実用的でスケーラブルなドメイン適応を可能にします。
原文 (English)
Domain-Specific Data Synthesis for LLMs via Minimal Sufficient Representation Learning
Large Language Models have demonstrated remarkable progress in general-purpose capabilities and can achieve strong performance in specific domains through fine-tuning on domain-specific data. However, acquiring high-quality data for target domains remains a significant challenge. Existing data synthesis approaches follow a deductive paradigm, heavily relying on explicit domain descriptions expressed in natural language and careful prompt engineering, limiting their applicability in real-world scenarios where domains are difficult to describe or formally articulate. In this work, we tackle the underexplored problem of domain-specific data synthesis through an inductive paradigm, where the target domain is defined only through a set of reference examples, particularly when domain characteristics are difficult to articulate in natural language. We propose a novel framework, DOMINO, that learns a minimal sufficient domain representation from reference samples and leverages it to guide the generation of domain-aligned synthetic data. DOMINO integrates prompt tuning with a contrastive disentanglement objective to separate domain-level patterns from sample-specific noise, mitigating overfitting while preserving core domain characteristics. Theoretically, we prove that DOMINO expands the support of the synthetic data distribution, ensuring greater diversity. Empirically, on challenging coding benchmarks where domain definitions are implicit, fine-tuning on data synthesized by DOMINO improves Pass@1 accuracy by up to 4.63\% over strong, instruction-tuned backbones, demonstrating its effectiveness and robustness. This work establishes a new paradigm for domain-specific data synthesis, enabling practical and scalable domain adaptation without manual prompt design or natural language domain specifications.
ポーカースキル: LLM はトレーニングやソルバーなしでエキスパート レベルのポーカーをプレイできます
ポーカーは人工知能にとって画期的な挑戦です。主流のアプローチは、反事実的後悔の最小化に基づいて構築された均衡ソルバーに依存しており、何百万ものコア時間のトレーニングが必要です。大規模言語モデル (LLM) はポーカーに関する広範な知識を備えていますが、直接プレイするよう求められた場合、ソルバーベースのエージェントよりもはるかに低いパフォーマンスを発揮します。従来のルールベースのポーカー エージェントは解釈可能でトレーニング不要ですが、その戦略的上限は依然として均衡プレイをはるかに下回っています。私たちは \textbf{PokerSkill} を導入します。これはトレーニング不要でソルバー不要のフレームワークであり、LLM の構造化されたアクション基礎インターフェイスとして詳細なルールベースのポーカー スキルを使用することで、このギャップを埋めることができます。決定論的コンテキスト エンジンは現在の状態を分析し、人間のポーカー専門家によって完全に設計された階層化スキル ライブラリから関連するフラグメントのみを取得し、LLM の選択を合理的なアクションに制限します。最先端の GTO ベンチマークである GTOWizard に対して、PokerSkill を使用した GPT-5.5 XHigh は $-57 \pm 21$ mbb/ハンドを達成し、Claude Opus 4.6 は $-80 \pm 29$ mbb/ハンドを達成し、Claude Opus 4.7 は $-87\pm 64$ mbb/ハンドを達成し、損失を 49 ~ 61\% 削減しました。デフォルトのプロンプトベースラインを備えており、強力なボットである Slumbot を上回っています。私たちの重要な発見は、ルールベースのスキルだけでは強力な戦略を構成せず、LLM だけではうまく機能できないが、それらを組み合わせることで、トレーニングもソルバーへのアクセスも必要とせず、しかも数百万コア時間の計算で構築されたシステムと競合できるエージェントが得られるということです。私たちの知る限り、これは、ゲーム固有のトレーニングやソルバー クエリを使用せずに、複雑な不完全情報ゲームで競争力のあるパフォーマンスを達成する LLM の最初のデモンストレーションです。コードは https://github.com/lbn187/PokerSkill で入手できます。
原文 (English)
PokerSkill: LLMs Can Play Expert-Level Poker without Training or Solvers
Poker is a landmark challenge for artificial intelligence. The dominant approach relies on equilibrium solvers built on counterfactual regret minimization, requiring millions of core-hours of training. Large Language Models (LLMs) possess extensive poker knowledge but perform far below solver-based agents when asked to play directly. Traditional rule-based poker agents are interpretable and training-free, but their strategic ceiling remains far below equilibrium play. We introduce \textbf{PokerSkill}, a training-free and solver-free framework that bridges this gap by using detailed rule-based poker skills as a structured action-grounding interface for LLMs. A deterministic context engine analyzes the current state and retrieves only the relevant fragments from a layered skill library, which is entirely designed by human poker experts, constraining the LLM's choice to reasonable actions. Against GTOWizard, a state-of-the-art GTO benchmark, GPT-5.5 XHigh with PokerSkill achieves $-57 \pm 21$ mbb/hand, Claude Opus 4.6 achieves $-80 \pm 29$ mbb/hand and Claude Opus 4.7 achieves $-87\pm 64$ mbb/hand, reducing losses by 49--61\% compared to default-prompt baselines and outperforming the strong bot Slumbot. Our key finding is that rule-based skills alone do not constitute a strong strategy, and LLMs alone cannot play well, but their combination yields an agent that requires neither training nor solver access yet competes with systems built on millions of core-hours of computation. To our knowledge, this is the first demonstration of an LLM achieving competitive performance in a complex imperfect-information game without game-specific training or solver queries. Code is available at https://github.com/lbn187/PokerSkill.
コンテキスト関連性による注意ステアリングによるマルチエージェントのコミュニケーションの強化
LLM ベースのマルチエージェント システムは、協調的な推論を通じて複雑なタスクで優れたパフォーマンスを実証しました。ただし、これらのシステムは、対話中に非常に長い会話履歴を急速に蓄積する傾向があります。会話が長くなるにつれて、関連性のある情報が無関係なコンテキストによってますます希薄になり、パフォーマンスの低下につながります。この研究では、新しい時間的および空間的減衰メカニズムを使用して、各エージェントの注意を関連するコンテキストに動的に向ける、トレーニング不要のコンテキスト管理手法である Agent-Radar を紹介します。私たちの実験では、Agent-Radar が 5 つの異なるベンチマークにわたって最先端の手法を上回り、最大 7.64 絶対ポイントのゲインが得られることが実証されました。さらに、私たちの分析は、エージェントと対話ラウンドの数が増加しても、エージェントレーダーが引き続き効果的で堅牢であることを示しています。最後に、アブレーション研究は、Agent-Radar のコア コンポーネントがパフォーマンスにとって重要であり、さまざまな設定で汎用化できることを示しています。
原文 (English)
Enhancing Multi-Agent Communication through Attention Steering with Context Relevance
LLM-based multi-agent systems have demonstrated remarkable performance on complex tasks through collaborative reasoning. However, these systems tend to rapidly accumulate extremely long conversation histories during interaction. As conversations lengthen, relevant information is increasingly diluted by irrelevant context, leading to degraded performance. In this work, we present Agent-Radar, a training-free context management method that dynamically steers each agent's attention toward relevant context with a novel temporal and spatial decay mechanism. Our experiments demonstrate that Agent-Radar outperforms state-of-the-art methods across five different benchmarks, yielding gains of up to 7.64 absolute points. Furthermore, our analysis shows that Agent-Radar remains effective and robust as the number of agents and interaction rounds increases. Finally, the ablation study shows that core components in Agent-Radar are crucial to performance and generalizable in different settings.
AgentSchool: LLM を利用した教育用マルチエージェント シミュレーション
LLM の教室への導入が急速に進んでいるにもかかわらず、教育 AI の検証は依然として独特の扱いが難しいものです。介入は、認知的および社会的軌道が不可逆的に形成される学習者の成長に影響を及ぼしますが、現実世界の試験は時間がかかり、倫理的に制約され、制度的にロックされています。 LLM ベースの教育シミュレーターが潜在的な救済策として浮上していますが、多くは依然として学習を個人に条件付けされたロールプレイに崩壊させており、既存の教室を再現するためだけに最適化された場合、教育改革に必要な制度上の新規性が構造的に不利になる可能性があります。この作業では、プロンプトによる動作ではなく状態遷移として学習をモデル化する、LLM 駆動のマルチエージェント シミュレーターである AgentSchool を紹介します。 AgentSchool は、重み付けされた教科知識グラフ、思考ワークフロー プール、明示的な誤解を備えた認知的に成長可能な学生エージェントと、近接発達ゾーンに沿って計画、足場を築き、反映する適応型教師エージェントを組み合わせます。適応型教師エージェントは、公式および非公式の両方の学習フィールド内で指導を位置付ける構成可能なシーナリー ジェネレーターに埋め込まれており、インタラクション スケール、時間的粒度、およびシミュレーション期間を分離するマルチスケール シミュレーターです。実験によれば、構造化された学生エージェントは、ベースラインシミュレータよりもより差別化された習熟と誤解の痕跡を生成する一方、教師とエージェントの比較では、ZPD情報に基づいた適応と一致するバックボーン依存のパターンが示されています。さらに、AgentSchool は、教室の社会理論と一致する、周辺参加、派閥の形成、攻撃者による結束、オピニオンリーダーの出現のもっともらしい痕跡を生成します。 AgentSchool は、教育研究手段としての役割を超えて、長期記憶、マルチエージェントの調整、組織の圧力下での将来の制度的推論のための社会的に有意義なテストベッドとして教育を組み立てています。
原文 (English)
AgentSchool: An LLM-Powered Multi-Agent Simulation for Education
Despite the rapid deployment of LLMs into classrooms, validating educational AI remains uniquely intractable: interventions act on developing learners whose cognitive and social trajectories are irreversibly shaped, while real-world trials are slow, ethically constrained, and institutionally locked. LLM-based educational simulators have emerged as a potential remedy, but many still collapse learning into persona-conditioned role-play and, when optimized only to reproduce existing classrooms, can structurally penalize the institutional novelty that pedagogical reform requires. In this work, we introduce AgentSchool, an LLM-driven multi-agent simulator that models learning as state transition rather than prompted behavior. AgentSchool couples cognitively growable student agents -- equipped with weighted subject knowledge graphs, thinking-workflow pools, and explicit misconceptions -- with adaptive teacher agents that plan, scaffold, and reflect along the Zone of Proximal Development, embedded in a configurable scenery generator that situates instruction within both formal and informal learning fields, and a multi-scale simulator that decouples interaction scale, temporal granularity, and simulation duration. Experiments show that structured student agents produce more differentiated mastery and misconception traces than a baseline simulator, while teacher-agent comparisons show backbone-dependent patterns consistent with ZPD-informed adaptation. Further, AgentSchool generates plausible traces of peripheral participation, clique formation, aggressor-induced cohesion, and opinion-leader emergence consistent with classroom social theories. Beyond its role as an educational research instrument, AgentSchool frames education as a socially meaningful testbed for long-horizon memory, multi-agent coordination, and future institutional reasoning under organizational pressure.
並列 LLM アイデアのためのアンカーレス多様化
LLM は、広範な探索が重要な創造的なタスクのための候補アイデア プールを生成するために使用されることが増えています。この設定では、品質とコスト効率を維持しながらプールを拡大できる並列推論が魅力的です。私たちは候補者プールの多様化のための推論時間制御を研究し、アンカーレス手法が観察されたシードアイデアに依存する手法に匹敵するかどうかを検討します。 3 つのクリエイティブ タスク ファミリにわたって、中立および母集団参照の発散命令の下で、独立した生成と意味論的方向の層別化を、自己、ピア、および代表アンカー ベースラインと比較します。集団参照の相違は強力で低コストのベースラインであり、品質のプロキシを維持しながら意味論的な多様性を高めます。セマンティック方向の層別化が強化されています。単一のプランニング コールで幅広いセマンティック方向にわたって世代が編成され、最高の多様性、品質、コンピューティング フロンティアが得られます。アンカー再生成は、最終プールの多様性においては強力ですが、フルパイプラインのトークン アカウンティングではその利点が縮小します。これらの結果は、オープンエンドの LLM アイデアの実用的なアンカーレス ベースラインを確立します。
原文 (English)
Anchorless Diversification for Parallel LLM Ideation
LLMs are increasingly used to generate candidate-idea pools for creative tasks where broad exploration is valuable. Parallel inference can be attractive in this setting when it broadens the pool while retaining quality and cost efficiency. We study inference-time controls for candidate-pool diversification, asking whether anchorless methods can rival methods that depend on observed seed ideas. Across three creative task families, we compare independent generation and semantic direction stratification with self-, peer-, and representative-anchor baselines, under neutral and population-referential divergent instructions. Population-referential divergence is a strong low-cost baseline, increasing semantic diversity while preserving quality proxies. Semantic direction stratification is stronger: a single planning call organizes generations across broad semantic directions, yielding the best diversity--quality--compute frontier. Anchored regeneration can be strong in final-pool diversity, but its advantage shrinks under full-pipeline token accounting. These results establish practical anchorless baselines for open-ended LLM ideation.
数学タスクの評価における時間的安定性と少数のプロンプト
AI ツールが教育現場にますます統合されるにつれて、その長期にわたる安定性と、迅速なエンジニアリング技術に対する応答性の両方について疑問が生じます。この縦断的研究は、タスク分析ガイド (TAG; Stein \& Smith、1998) を使用して数学タスクの認知要求を分類するさまざまな AI ツールの機能に焦点を当てました。特に、この分類能力が、(1) 時間の経過に伴うモデル バージョンの更新、および (2) サンプル タスクを使用した少数ショット プロンプトによって変化するかどうかを調べました。汎用 AI ツール (Gemini) と教育特化型 AI ツール (Coteach) をテストしました。特定のツールが選択されたのは、関連する公開されたベンチマークと以前のタスク固有のテストで比較的高いパフォーマンスが得られたためです。モデルはベースラインでテストされ、モデルのバージョン更新で再テストされ、その後、少数ショット プロンプト (認知要求カテゴリごとに 2 つの模範タスク) を使用して再度テストされました。結果から、新しいモデル バージョンだけではさまざまな影響が生じることが明らかになりました。Gemini の精度は 58\% で安定していましたが、Coteach の精度は 75\% から 50\% に低下しました。ただし、少数ショット プロンプトにより両方のモデルのパフォーマンスが向上しました。Gemini の精度は 67\% に向上し、Coteach の精度は 75\% に回復しました。これらの発見は、迅速なエンジニアリング手法が受動的モデルの改善よりも大きく信頼性の高い効果をもたらす可能性があること、およびバージョンの更新が専門的な教育タスクのパフォーマンスを必ずしも向上させるとは限らないことを示しています。この研究は、教育者や研究者が教育現場で AI ツールの選択、評価、実装にどのようにアプローチすべきかについて重要な意味を持ちます。
原文 (English)
Temporal Stability and Few-Shot Prompting in Math Task Assessment
As AI tools become increasingly integrated into educational contexts, questions arise about both their stability over time and their responsiveness to prompt engineering techniques. This longitudinal study focused on different AI tools' ability to use the Task Analysis Guide (TAG; Stein \& Smith, 1998) to classify the cognitive demand of mathematics tasks. In particular, it examined whether this classification ability changed with (1) model version updates over time and (2) few-shot prompting using exemplar tasks. We tested a general-purpose AI tool (Gemini) and an education-specific AI tool (Coteach). The specific tools were selected because of their relatively high performance on relevant published benchmarks and prior task-specific tests. Models were tested at baseline, retested with model version updates, and then tested again using few-shot prompting (two exemplar tasks for each cognitive demand category). Results revealed that newer model versions alone produced mixed effects: Gemini's accuracy remained stable at 58\%, while Coteach's accuracy decreased from 75\% to 50\%. However, few-shot prompting improved both models' performance: Gemini increased to 67\% and Coteach recovered to 75\% accuracy. These findings demonstrate that prompt engineering techniques can have larger and more reliable effects than passive model improvements, and that version updates may not always improve performance on specialized educational tasks. The study has important implications for how educators and researchers should approach AI tool selection, evaluation, and implementation in educational contexts.
Long-Horizon LLM エージェント向けのメタ認知メモリ ポリシーの最適化
メモリ拡張 LLM エージェントは、インタラクションの軌跡をコンパクトなメモリに再帰的に要約することで、複雑な長期タスクに取り組みます。ただし、既存のアプローチは通常、結果ベースの強化学習を使用してこれらの記憶ポリシーをトレーニングするため、中間の記憶品質が低下する場所を特定できません。インタラクションが展開されるにつれて、曖昧な再帰的要約はタスク関連の情報を徐々に破棄し、意味論的なノイズを導入します。これは信念の逸脱を悪化させ、潜在的なタスク状態のエージェントの推定を曖昧にし、最終的には長期的な推論を狂わせます。したがって、記憶の最適化は単に軌跡レベルの成功だけではなく、中間的な要約によって引き起こされる信念の明瞭さに焦点を当てる必要があると主張します。この目的を達成するために、現在のメモリを考慮した潜在的なタスクの状態についてモデルがどの程度不確実性を保っているかを調査する自己教師ありプロキシである信念エントロピーを導入します。このプロキシに基づいて、メタ認知メモリ ポリシー最適化 (MMPO) を提案します。 MMPO は、まばらな結果ベースの信号のみに依存するのではなく、高い認識論的不確実性を引き起こす明示的にペナルティを課す要約を通じて、きめの細かいメモリ固有の監視を提供します。実験の結果、MMPO は長期にわたる多様なタスクにおいて既存の手法を常に上回っており、175 万トークンのコンテキストに拡張した場合でも 97.1% のパフォーマンスを維持することが示されています。
原文 (English)
Meta-Cognitive Memory Policy Optimization for Long-Horizon LLM Agents
Memory-augmented LLM agents tackle complex long-horizon tasks by recursively summarizing interaction trajectories into compact memory. However, existing approaches typically train these memory policies using outcome-based reinforcement learning, failing to localize where intermediate memory quality degrades. As interactions unfold, ambiguous recursive summaries progressively discard task-relevant information and introduce semantic noise. This exacerbates belief deviation, obscuring the agent's estimate of the latent task state and ultimately derailing long-horizon reasoning. We therefore argue that memory optimization should focus not merely on trajectory-level success, but on the clarity of the belief induced by intermediate summaries. To this end, we introduce Belief Entropy, a self-supervised proxy that probes how uncertain the model remains about the latent task state given its current memory. Based on this proxy, we propose Metacognitive Memory Policy Optimization (MMPO). Instead of relying only on sparse outcome-based signals, MMPO provides fine-grained, memory-specific supervision via explicitly penalizing summaries that induce high epistemic uncertainty. Experiments show that MMPO consistently outperforms existing methods on diverse long-horizon tasks, maintaining 97.1% performance even when scaled to 1.75M-token contexts.
責任ある学習支援を促進するための教育 LLM-Agency のモジュール化
AI チャットボットが教育現場に広く導入されると、学習が劇的に変化し、責任ある導入が重大な懸念事項となります。大規模言語モデル (LLM) は、教育科学からの洞察を議論する情報源にアクセスできるかもしれませんが、特に教育学的概念に固執する傾向はなく、伝達能力、批判的思考、創造性の喪失など、学習プロセスに悪影響を及ぼす危険があります。このペーパーでは、教育におけるより責任ある AI の使用に貢献するために特別に設計された、生徒の演習問題解決を支援するエージェント型 AI チャットボット アーキテクチャを紹介します。私たちは、責任ある LLM ベースの教育システムに対するいくつかの要望の特定に基づいて概念的な開発を行い、モノリシックなすぐに使えるソリューションに固有の構造的欠点を主張し、代わりにエージェント アーキテクチャのモジュール化を提案します。私たちは、演習問題を解くさまざまな段階に応じた特定のモジュールを提案し、的を絞った教育的アドバイスを組み込むことを可能にし、より制御可能、透明性、監視可能な方法で学習プロセスを生徒に導きます。
原文 (English)
Modularizing Educational LLM-Agency for Fostering Responsible Learning Assistance
The widespread adoption of AI chatbots in education will drastically change learning, making responsible deployment a critical concern. While large language models (LLMs) might have access to sources discussing insights from educational sciences, they are not particularly inclined to adhere to pedagogical concepts, risking negative effects on the learning process, such as a loss of transfer capabilities, critical thinking, or creativity. In this paper, we introduce an agentic AI chatbot architecture assisting students with exercise solving, specifically designed to contribute to more responsible AI use in education. We base our conceptual development on the identification of several desiderata for responsible LLM-based educational systems, argue for the structural shortcomings inherent in monolithic, out-of-the-box solutions, and instead suggest modularizing the agentic architecture. We propose specific modules for different stages of exercise solving, enabling incorporation of targeted pedagogical advice, guiding students through the learning process in a more controllable, transparent, and overseeable manner.
両刃の剣、それとも鋭利な道具?幼稚園から高等学校までの大規模なライティングのための Triadic LLM と教師のコラボレーションの設計と評価
大規模言語モデル (LLM) の統合には諸刃の剣があり、特に幼稚園から高校までの教育では、LLM、教師、生徒の間で効果的な 3 つの協力メカニズムが必要です。この論文は、K-12 のライティング学習をサポートする 3 極のコラボレーション システム、系統機能言語学に基づいた多次元評価フレームワーク、および提案軌跡追跡パイプラインを開発することにより、2 年間で 120 ドルの学校の 10,195 ドルの生徒からの 57,954 ドルの作文を含む大規模な実証データセットに貢献します。私たちの調査結果は、戦略的な分業を通じてライティングの質を向上させるこのシステムの有効性を裏付けています。LLM は教師の燃え尽き症候群を軽減する生成エンジンとして機能し、教師は教育上の門番および橋渡しとしてフィードバックの質を保証します。 LLM と教師の両方がスキル向上には不可欠ですが、過度の言語拡張が限界効用の減少をもたらす天井効果を明らかにしました。これらは、生徒の習熟度が向上するにつれて、動的に適応的な LLM と教師のコラボレーションを示唆しています。
原文 (English)
Double-Edged Sword or Sharp Tool? Designing and Evaluating Triadic LLM-Teacher Collaboration for K-12 Writing at Scale
The double-edged sword of integrating Large Language Models (LLMs) requires an effective triadic collaboration mechanism among LLMs, teachers and students, especially for K-12 education. By developing a triadic collaboration system to support K-12 writing learning, a multidimensional evaluation framework grounded in Systemic Functional Linguistics and the suggestion trajectory tracing pipeline, this paper contributes a large-scale empirical dataset involving $57,954$ essays from $10,195$ students across $120$ schools over two years. Our findings confirm the efficacy of this system in improving writing quality through a strategic labor division: the LLM serves as a generative engine to mitigate teacher burnout, and the teacher acts as a pedagogical gatekeeper and bridge to guarantee feedback quality. While both LLM and teacher are critical for skill improvement, we uncover a ceiling effect where excessive linguistic expansion yields diminishing marginal utility. These suggest a dynamically adaptive LLM-teacher collaboration as student proficiency increases.
検索拡張コマーシャルチャットにおけるブランド推奨のペルソナコンディショニング: 知名度に応じた階層化されたクロスプロバイダー監査
「最高の CRM ソフトウェア」という同じプロンプトが、個人の創業者、企業の副社長、英国の SMB オーナーなど、大きく異なる状況にある購入者の AI アシスタントに届きます。私たちは、その文脈上の変化がモデルが推奨するブランドをどの程度強く再形成するかを監査します。監査サンプルは、10 ペルソナ x 8 プロンプト x 3 モデル構成 x N=10 レップの設計空間で 2,000 回実行され、2 つの OpenAI セルは 8 プロンプトを完全にカバーし、Anthropic Sonnet-4.6 / low セルは 4 プロンプトをカバーしました。ユーザー メッセージの前にペルソナを付けると、推奨セットの類似度 (Jaccard) が同じペルソナ ベースラインと比較して デルタ = -0.12 ~ -0.20 低下します (クラスター化された 95% CI では、3 つの測定セルすべてでゼロが除外されます。ソネット セルの CI は 4 つのプロンプト クラスターのみに基づいており、それに応じて幅が広くなります)。その効果は顕著に階層化されています。カテゴリーリーダーはペルソナ耐性がありますが(ペルソナ間で最大 80% の同じブランドの一貫性)、中堅ブランドはペルソナの変化に応じて推奨セットの最大 75% を交換します。 Anthropic モデルは、OpenAI 構成よりも大きな点推定効果を示していますが、クラスター化された CI が重なっているため、よりコントラストが強くなります (ソネット対 OpenAI/高)。この非対称性は、Anthropic のより検索に帰属しない生成ルートと一致しています (検索層の証拠が観察されていない推奨が 43 ~ 52% であるのに対し、OpenAI の 8 ~ 29%、Jack 2026 に文書化されています)。 AI ブランド認識の測定は、クエリを提供する購入者のペルソナを条件とする必要があります。同じプロンプトでも、モデルが誰に質問していると考えるかに応じて実質的に異なる推奨セットが生成されます。また、ペルソナ全体を集約する測定プロトコルにより、その変動が体系的に隠蔽されます。この効果は中間市場に集中しており、当社の監査では事前分布に最も依存する生成ルートで最大となっており、モデルがトレーニング データの事前分布とより豊富なコンテキスト統合に依存するにつれてペルソナの応答性が高まっていることと一致しています。
原文 (English)
Persona Conditioning of Brand Recommendations in Retrieval-Augmented Commercial Chat: A Prominence-Stratified Cross-Provider Audit
The same prompt -- "best CRM software" -- reaches AI assistants from buyers in widely different contexts: a solo founder, an enterprise VP, a UK SMB owner. We audit how strongly that contextual variation reshapes which brands the model recommends. The audit samples 2,000 runs over a design space of 10 personas x 8 prompts x 3 model configurations x N=10 reps, with the two OpenAI cells at full 8-prompt coverage and the Anthropic sonnet-4.6 / low cell at 4-prompt coverage. Prefixing the user message with a persona drops the recommendation-set similarity (Jaccard) by Delta = -0.12 to -0.20 relative to a same-persona baseline (clustered 95% CIs exclude zero on all three measured cells; the sonnet cell's CI rests on only 4 prompt clusters and is correspondingly wider). The effect is sharply prominence-stratified: category leaders are persona-resistant (~80% same-brand consistency across personas), but mid-market brands swap up to 75% of the recommendation set as the persona changes. The Anthropic model shows a larger point-estimate effect than the OpenAI configurations, though clustered CIs overlap for the closer contrast (sonnet vs. OpenAI/high); the asymmetry is consistent with Anthropic's more retrieval-unattributed generation route (43-52% recommendations without observed retrieval-layer evidence, vs OpenAI's 8-29%, documented in Jack 2026). Any measurement of AI brand perception must condition on the buyer persona supplying the query: the same prompt produces materially different recommendation sets depending on who the model thinks is asking, and a measurement protocol that aggregates across personas systematically obscures that variation. The effect concentrates at mid-market and is largest on the most priors-reliant generation route in our audit, consistent with persona responsiveness growing as models lean more on training-data priors and richer context integration.
ProjectionBench: 漸進的な情報開示の下での LLM における科学的仮説生成の評価
科学的発見は本質的に創造的かつ不確実なプロセスであり、既知の知識を思い出す以上の推論が必要です。マルチホップ検索による深い研究タスクにおける大規模言語モデル (LLM) のパフォーマンスを評価するベンチマークが数多く提案されていますが、真の科学的発見に不可欠な革新的な推論能力はほとんどテストされていません。生の問題から古典的な帰無仮説検定までを構築し、科学的発見と推論におけるモデルのパフォーマンスを評価するためのベンチマーク フレームワークを紹介します。私たちのフレームワークでは、モデルは最初は最近の論文からのトピックと研究上の質問のみを受け取り、技術的な詳細は徐々に明らかになります。情報開示の各段階で、モデルは研究課題に対処する仮説を生成する役割を果たします。仮説は元の論文の結論と比較され、構成要素の原子的クレームの自動化された意味的類似性によって評価されます。グラウンドトゥルースの結論からの意味的乖離のこの漸進的な評価により、(最小限の情報の下で) モデルの革新性から (完全な実験の詳細の下で) 根拠のある推論能力の評価が可能になり、どちらも科学的発見の目的で LLM を使用する場合に重要です。私たちのフレームワークは、次世代の AI 科学者/共同科学者システムの開発を進めるために重要な、LLM の科学的推論と発見能力を体系的に評価するための基盤を提供します。具体的には、ここでは生物活性材料、機械材料、ナノ材料にわたる 45 の論文にわたって GPT-5、GPT-5.4、Gemini 2.5 pro、および Gemini 3.1 pro プレビューを評価します。 GPT-5.4 と Gemini 3.1 pro は予想どおり前世代の対応製品よりも優れたパフォーマンスを示し、特に GPT-5.4 は最小限のコンテキストでもグラウンド トゥルースの結論と 0.7 の F1 スコアの一致を維持していることがわかりました。
原文 (English)
ProjectionBench: Evaluating Scientific Hypothesis Generation in LLMs Under Progressive Information Disclosure
Scientific discovery is an inherently creative and uncertain process, requiring reasoning beyond the recall of known knowledge. While many benchmarks have been proposed to evaluate large language model (LLM) performance on deep research tasks via multi-hop retrieval, their innovative reasoning abilities essential for true scientific discovery remain largely untested. We introduce a benchmark framework for evaluating model performance in scientific discovery and reasoning, building up from a raw problem to the classical null hypothesis test. In our framework, models initially receive only the topic and research question from a recent paper, with technical details progressively revealed. At each stage of information disclosure, the model is tasked with generating hypotheses that address the research question, which is compared with the conclusions from the original paper and evaluated via automated semantic similarity of constituent atomic claims. This progressive evaluation of semantic divergence from ground-truth conclusions enables assessment of a model's innovativeness (under minimal information) to grounded reasoning capabilities (under full experimental details), both critical for using LLMs for scientific discovery purposes. Our framework provides a foundation for systematically evaluating scientific reasoning and discovery capabilities in LLMs, crucial for advancing the development of next-generation AI scientist/co-scientist systems. Specifically, here we evaluate GPT-5, GPT-5.4, Gemini 2.5 pro, and Gemini 3.1 pro preview across 45 papers spanning bioactive materials, mechanical materials, and nanomaterials. We find that GPT-5.4 and Gemini 3.1 pro outperform their previous generation counterparts as expected, and GPT-5.4 in particular maintains 0.7 F1 score alignment with ground truth conclusions even under minimal context.
MIRA: ソースを意識したデータ選択のためのトレーニング中のルーブリック アンカーリング
トレーニング中期は、最新の LLM 開発において重要な段階となっており、最終的なトレーニング後の能力を強化するために大規模に厳選された混合物を使用します。データ選択の問題は独特です。データは、事前トレーニングに近い規模で事前トレーニング スタイルの目標に基づいて最適化されますが、下流の機能に向けて厳選され、形式やトレーニングの役割が異なる異種ソースから抽出されます。その結果、効果的な選択には、スケーラビリティとソース適応型のセマンティック基準の両方が必要になります。既存のモデルベースの手法は拡張性に優れていますが、暗黙的な品質信号しか提供しません。セマンティック選択方法はより強力な判断を提供しますが、通常は固定ルーブリックまたは標準化されたデータ形式を前提としています。この不一致に対処するために、自己アンカー型ルーブリック ディスカバリに基づくソース認識フィルタリング フレームワークである MIRA を提案します。重要なアイデアは、ルーブリック構築をデータ選択の一部にすることです。MIRA はまず各ソース グループに対して何を評価すべきかを発見し、次にそれらの判断をスケーラブルな学生スコアラーに抽出して、コーパス全体をフィルタリングします。 21 のソースと 5 つのソース グループを使用したコード指向の中間トレーニングでは、MIRA は 9 つのコード ベンチマーク全体で選択ベースラインを上回り、トークンの半分のみを使用しながら完全なコーパスの実行と一致しました。
原文 (English)
MIRA: Mid-training Rubric Anchoring for Source-Aware Data Selection
Mid-training has become an important stage in modern LLM development, using large-scale curated mixtures to strengthen capabilities before final post-training. Its data selection problem is distinct: the data are optimized under a pretraining-style objective at near-pretraining scale, but are curated toward downstream capabilities and drawn from heterogeneous sources with different formats and training roles. As a result, effective selection requires both scalability and source-adaptive semantic criteria. Existing model-based methods scale well, but provide only implicit quality signals. Semantic selection methods offer stronger judgments, but usually assume fixed rubrics or standardized data formats. To address this mismatch, we propose MIRA, a source-aware filtering framework based on self-anchored rubric discovery. The key idea is to make rubric construction part of data selection: MIRA first discovers what should be evaluated for each source group, then distills those judgments into scalable student scorers for full-corpus filtering. On code-oriented mid-training with 21 sources and 5 source groups, MIRA outperforms selection baselines across nine code benchmarks and matches the full-corpus run while using only half the tokens.
強化された LLM トレーニングのためのデータ構成の謎を解く
大規模言語モデル (LLM) はさまざまな分野に革命をもたらしましたが、そのトレーニング効率は効果的なデータ キュレーションに大きく依存しています。データの選択は広く研究されていますが、特に現在の LLM は 1 つまたは数エポックのみでトレーニングされることが多いため、トレーニングを強化するための戦略的なデータ編成はまだ研究されていない領域です。この論文では、もともとデータ効率のために生成された、事前に計算されたサンプルレベルのスコアを再利用することで、追加の計算オーバーヘッドを最小限に抑え、LLM トレーニングに対するデータ構成の影響を体系的に調査します。私たちは、データ構成を最適化するための 4 つの主要なガイドライン (境界の鮮明化、周期的スケジューリング、カリキュラムの継続性、およびローカルの多様性) を特定し、形式化します。これらに基づいて、STR と SAW と呼ばれる 2 つの新しいデータ順序付け方法を導入します。事前トレーニング段階と SFT 段階の両方を含む、さまざまなモデル スケールとデータ サイズにわたる広範な実験により、要約されたガイドラインの有効性が検証されます。また、LLM トレーニングの安定性とパフォーマンスを向上させる上で、私たちが提案するデータ順序付け方法の堅牢性も示しています。 Github リンク: https://github.com/microsoft/data-effficacy/
原文 (English)
Demystifying Data Organization for Enhanced LLM Training
Large Language Models (LLMs) have revolutionized various fields, yet their training efficiency is heavily reliant on effective data curation. While data selection has been widely studied, the strategic data organization for enhanced training remains an underexplored area, particularly since current LLMs are often trained for only one or a few epochs. This paper systematically explores the influence of data organization on LLM training by reusing pre-computed sample-level scores originally generated for data efficiency, thereby incurring minimal additional computational overhead. We identify and formalize four key guidelines for optimizing data organization: Boundary Sharpening, Cyclic Scheduling, Curriculum Continuity, and Local Diversity. Guided by them, we introduce two novel data ordering methods termed STR and SAW. Extensive experiments across different model scales and data sizes, encompassing both pre-training and SFT stages, validate the effectiveness of our summarized guidelines. They also demonstrate the robustness of our proposed data ordering methods in enhancing the stability and performance of LLM training. Github Link: https://github.com/microsoft/data-efficacy/
局所的には一貫性があるが、全体的には一貫性がない: 複数コンポーネントの LLM エージェントにおける境界構成上の一貫性のなさ
複数コンポーネントの LLM エージェントは、それぞれが共同問題の一部のみを認識するコンポーネントから確率的クレームを組み立てます。すべてのコンポーネントが局所的に一貫している場合でも、合成は基本的な確率公理に違反する可能性があります。この局所的にコヒーレントでグローバルにインコヒーレントな障害を、構成残差 eps*、構成された引用から結合コヒーレント ポリトープまでの L2 距離を介して形式化し、システム出力と宣言されたコンポーネント間の結合制約から実行時に計算できます。積構造の二分法は、局所的なコヒーレンスが十分である場合を特徴付け、レイリー商予測は 4 つの関係クラスのうち 3 つで観察された残差と 7% 以内で一致します。階層的なボイル・ディクストラ図法は、構成を決定論的に修復します。いつでも有効な電子プロセスにより、連続的なコヒーレンス監視が可能になります。 4 つの LLM 中間層パネル (セクション 5.5 でフロンティアパネルを再実行) 上の 1,876 個のアンサンブル クリーク全体で、クリークの 33 ~ 94% で eps* > 0 となり、比例配分ルールに基づく 1,770 の解決されたベットに対する後悔のベットあたり +0.115 ナットに換算されます (ベッター自身が依存する場合、ゲインは +0.006 に減少します)一貫性を持たせます)。 3 つの直感的な LLM 側の緩和策 (取得、パーティション認識プロンプト、アグリゲーター LLM) はそれぞれ失敗するか退行します。
原文 (English)
Locally Coherent, Globally Incoherent: Bounding Compositional Incoherence in Multi-Component LLM Agents
Multi-component LLM agents assemble probabilistic claims from components that each see only part of a joint problem; the composition can violate basic probability axioms even when every component is locally coherent. We formalise this locally coherent, globally incoherent failure via the compositional residual eps*, the L2 distance from the composed quote to the joint coherent polytope, computable at runtime from system output and the declared cross-component coupling constraints. A product-structure dichotomy characterises when local coherence suffices, and a Rayleigh-quotient prediction matches the observed residual within 7% on three of four relation classes. A hierarchical Boyle-Dykstra projection repairs the composition deterministically; an anytime-valid e-process gives sequential coherence monitoring. Across 1,876 ensemble cliques on a four-LLM mid-tier panel (frontier-panel rerun in Section 5.5), eps* > 0 on 33-94% of cliques, translating to +0.115 nats per bet of regret on 1,770 resolved bets under the proportional allocation rule (the gain collapses to +0.006 under bettors that themselves coherentise). Three intuitive LLM-side mitigations(retrieval, partition-aware prompting, aggregator-LLM) each fail or regress.
ミクロマクロ検索: 大規模言語モデルにおける長文幻覚の軽減
大規模言語モデル (LLM) は、多くのタスクにわたって優れたパフォーマンスを実現しますが、特に冗長な取得コンテキストと長い推論チェーンにより事実の誤りが増幅される長い形式の生成では依然として幻覚が発生しやすい傾向があります。最近の研究では、重要な現象が明らかになりました。重要な情報がモデルの出力に近ければ近いほど、事実の精度が高くなります。ただし、既存の検索拡張言語モデル (RALM) には、この近接性を確保するための効果的なメカニズムがありません。外部証拠は複数回の検索を通じて推論に挿入されますが、これでは重要な情報が出力の近くに留まることを保証できません。私たちは、このギャップを埋めるための、生成しながら取得する新しいフレームワークである Micro-Macro Retrieval (M2R) を提案します。マクロレベルでは、M2R は外部ソースから大まかな証拠を取得します。ミクロレベルでは、推論中に構築された重要な情報リポジトリから重要な結果を抽出し、答えを生成する際にそれらを再利用します。この設計は、重要な情報と出力の近接性のボトルネックに直接対処し、長時間のタスクにおける幻覚を効果的に軽減します。 M2Rは、カスタマイズされたルールベースの報酬を使用したカリキュラム学習ベースの強化学習戦略でトレーニングされており、検索スキルとグラウンディングスキルの安定した習得を可能にします。さまざまなベンチマークにわたる広範な実験により、特に長いコンテキスト設定における M2R の有効性が実証されています。
原文 (English)
Micro-Macro Retrieval: Reducing Long-Form Hallucination in Large Language Models
Large Language Models (LLMs) achieve impressive performance across many tasks but remain prone to hallucination, especially in long-form generation where redundant retrieved contexts and lengthy reasoning chains amplify factual errors. Recent studies highlight a critical phenomenon: the closer key information appears to the model outputs, the higher the factual accuracy. However, existing retrieval-augmented language models (RALMs) lack effective mechanisms to ensure this proximity - external evidence is injected into reasoning via multi-turn retrieval, but this cannot ensure key information stays close to the outputs. We propose Micro-Macro Retrieval (M2R), a novel retrieve-while-generate framework to fill this gap. At the macro level, M2R retrieves coarse-grained evidence from external sources; at the micro level, it extracts essential results from a key information repository built during reasoning and reuses them while generating answers. This design directly addresses the key-information-to-output proximity bottleneck, effectively reducing hallucination in long-form tasks. M2R is trained with a curriculum learning-based reinforcement learning strategy using customized rule-based rewards, enabling stable acquisition of retrieval and grounding skills. Extensive experiments across different benchmarks demonstrate the effectiveness of M2R, especially in lengthy-context settings.
オープンソースの安全ガード モデルのベンチマーク: 包括的な評価
安全性が重要なアプリケーションに大規模言語モデル (LLM) が導入されることが増えているため、堅牢なコンテンツ モデレーションが不可欠になっています。 NIST AI リスク フレームワークの 8 つの安全カテゴリにまたがる 79,331 サンプルの厳選されたベンチマークに基づく 14 のオープンソース安全ガード モデルの包括的な評価を示します。当社のベンチマークは 4 つの多様なデータセット (HarmBench、StrongREJECT、RealToxicityPrompts、BeaverTails) を集約し、安全関連のコンテンツ (暴力、ヘイトスピーチ、嫌がらせ、性的コンテンツ、自殺/自傷行為、冒涜、脅迫、健康上の誤った情報) のみに焦点を当てるようにフィルタリングされています。有害なコンテンツの欠落は誤検知よりも大きなリスクをもたらすため、リコールは安全性アプリケーションにとって重要な指標であることがわかりました。私たちの評価では、驚くべき結果が明らかになりました。Qwen Guard (4B パラメーター) は最高の再現率 (83.97%) を達成しましたが、Llama Guard (12B) や GPT-OSS Safeguard (20B) などのより大きなモデルは保守的な動作を示し、安全でないコンテンツを最大 75% 見逃しました。我々は、モデルのサイズが安全検出のパフォーマンスと相関しないこと、および汎用のガード モデルが特殊なガード モデルよりも優れていることを実証します。これらの調査結果は、実稼働環境での安全装置モデルを選択するための実践的なガイダンスを提供します。
原文 (English)
Benchmarking Open-Source Safety Guard Models: A Comprehensive Evaluation
As Large Language Models (LLMs) are increasingly deployed in safety-critical applications, robust content moderation becomes essential. We present a comprehensive evaluation of 14 open-source safety guard models on a curated benchmark of 79,331 samples spanning 8 NIST AI Risk Framework safety categories. Our benchmark aggregates four diverse datasets (HarmBench, StrongREJECT, RealToxicityPrompts, and BeaverTails), filtered to focus exclusively on safety-relevant content (violence, hate speech, harassment, sexual content, suicide/self-harm, profanity, threats, and health misinformation). We find that recall is the critical metric for safety applications, as missing harmful content poses greater risk than false positives. Our evaluation reveals surprising results: Qwen Guard (4B parameters) achieves the highest recall (83.97%) while larger models like Llama Guard (12B) and GPT-OSS Safeguard (20B) exhibit conservative behavior, missing up to 75% of unsafe content. We demonstrate that model size does not correlate with safety detection performance and that general-purpose guard models outperform specialized ones. These findings provide practical guidance for selecting safety guard models in production deployments.
GenesisFunc: 正確かつ一般化可能な関数呼び出しのためのマルチエージェント データ生成
大規模言語モデル (LLM) は、関数呼び出し (FC) を通じて機能を拡張します。FC は、高品質、多様性、および幅広いシナリオをカバーするトレーニング データに依存します。ただし、実際の関数呼び出しデータを取得して注釈を付けるのは困難ですが、既存のパイプラインからの合成データは、多くの場合、信頼性の低い API、限られたツールのスケーラビリティ、不十分な多様性、弱い品質管理に悩まされます。これらに対処するために、FC トレーニング データを生成する自動パイプラインである GenesisFunc を紹介します。当社の GenesisFunc は、広く使用されている公開ベンチマークの信頼性の高いツールから始まり、マルチエージェント フレームワークを採用して、プロセス全体を通じて多様性と品質の両方を維持しながら、多様なシナリオにわたる会話を生成する対話生成システムをサポートします。データの精度は多段階の評価システムによってさらに強化されます。私たちは合成データセット上で 8B LLM を微調整し、広範な実験を通じて、ドメイン内の FC パフォーマンスとドメイン外の汎化において同様のサイズのオープンソース モデルを上回るパフォーマンスを示し、同時に最新の API ベースのモデルの一部と同等の FC 機能に達していることを示しました。さらに、私たちの方法は、下流のツール間で効果的に拡張できる強力な可能性を示しており、現実世界への適用可能性を強調しています。
原文 (English)
GenesisFunc: Multi-Agent Data Generation for Accurate and Generalizable Function-Calling
Large Language Models (LLMs) extend their capabilities through function-calling (FC), which relies on training data with high quality, diversity, and broad coverage of scenario. However, obtaining and annotating real function-calling data is challenging, while synthetic data from existing pipelines often suffers from unreliable APIs, limited tool scalability, insufficient diversity, and weak quality control. To address these, we present GenesisFunc, an automated pipeline for generating FC training data. Starting from reliable tools in widely used public benchmarks, our GenesisFunc employs a multi-agent framework to support a dialogue generation system that produces conversations spanning diverse scenarios, while maintaining both diversity and quality throughout the process. The accuracy of the data is further reinforced through a multi-stage evaluation system. We fine-tune an 8B LLM on the synthetic dataset and show through extensive experiments that it outperforms similarly sized open-source models in in-domain FC performance and out-of-domain generalization, while reaching FC capabilities comparable to some of the latest API-based models. In addition, our method demonstrates strong potential to scale effectively across downstream tools, underscoring its real-world applicability.
SERC:LDPC にヒントを得た検索拡張生成のためのセマンティック エラー修正
大規模言語モデル (LLM) は顕著な機能を実証していますが、その信頼性は幻覚によって大きく損なわれます。既存の固有の自己修正手法はこれに対処しようとしますが、モデルが外部検証なしで自身の出力内のエラーを特定するのに苦労する自己バイアスにより失敗することがよくあります。これらの制限を克服するために、我々は、LDPC にヒントを得た検索拡張生成 (SERC) のためのセマンティック エラー修正を提案し、LLM 幻覚を解釈し軽減するための理論的枠組みを提供します。テキスト生成プロセスを意味論的なノイズの多いチャネルとして再定式化し、生成された応答をノイズで破損したコードワードとして扱います。低密度パリティ チェック (LDPC) コードからインスピレーションを得た SERC は、スパース検証戦略を採用しています。つまり、すべての事実を徹底的にチェックするのではなく、低密度検証クエリを生成し、外部証拠に照らして検証して、エラーを効率的に検出して修正します。 Llama-3-8B および Qwen2.5-14B を使用して、LongForm Bio および TruthfulQA ベンチマークで SERC を評価します。実験結果は、SERC が固有の自己修正手法と強力な検索拡張ベースラインの両方を上回るパフォーマンスを示し、特に事実の精度 (FactScore) において大幅な向上を示しています。特に、SERC により、小型言語モデル (SLM) が幻覚の軽減と情報の保存において大規模なベースラインのパフォーマンスを上回ることが可能になります。私たちの調査結果は、SERC がトレーニング不要でモデルに依存しないソリューションを提供し、高密度メソッドと比較して検証オーバーヘッドを大幅に削減し、リソースに制約のある環境でコストと忠実度の間の最適なトレードオフを達成することを示しています。
原文 (English)
SERC: LDPC-Inspired Semantic Error Correction for Retrieval-Augmented Generation
While Large Language Models (LLMs) have demonstrated remarkable capabilities, their reliability is significantly compromised by hallucinations. Existing intrinsic self-correction methods attempt to address this, but often fail due to self-bias, where models struggle to identify errors in their own outputs without external verification. To overcome these limitations, we propose the LDPC-inspired semantic error correction for retrieval-augmented generation (SERC), providing a theoretical framework to interpret and mitigate LLM hallucinations. We reformulate the text generation process as a semantic noisy channel, treating generated responses as noise-corrupted codewords. Inspired by low-density parity-check (LDPC) codes, SERC employs a sparse verification strategy: instead of exhaustively checking all facts, it generates low-density verification queries and validates them against external evidence to efficiently detect and correct errors. We evaluate SERC on LongForm Bio and TruthfulQA benchmarks using Llama-3-8B and Qwen2.5-14B. Experimental results demonstrate that SERC outperforms both intrinsic self-correction methods and strong retrieval-augmented baselines, demonstrating significant gains especially in factual precision (FactScore). Notably, SERC enables small language models (SLMs) to surpass the performance of larger baselines in hallucination reduction and information preservation. Our findings demonstrate that SERC provides a training-free, model-agnostic solution that significantly reduces verification overhead compared to dense methods, achieving an optimal trade-off between cost and fidelity in resource-constrained environments.
LLM エージェントの一貫性はどの程度ですか?マルチステップのツール呼び出しパイプラインにおける動作の再現性の測定
ツール呼び出し機能を備えた大規模言語モデル (LLM) エージェントが実稼働システムに導入されることが増えていますが、根本的な信頼性の問題、つまり同じエージェントが 2 回同じように動作するかという問題はまだ解明されていません。我々は、エージェントが同じツールを同じ順序で、同じ引数で、同じ呼び出しを繰り返して選択するかどうかを測定する、複数ステップのツール呼び出しエージェントの動作の一貫性に関する体系的な実証研究を紹介します。 ReAct スタイルのエージェント (検索専用、フリーテキスト アクション) の一貫性に関する以前の研究とは異なり、型指定されたパラメーターと結果として生じる副作用を備えた構造化されたツール呼び出しインターフェイスのより豊富な設定を研究します。
原文 (English)
How Consistent Are LLM Agents? Measuring Behavioral Reproducibility in Multi-Step Tool-Calling Pipelines
Large language model (LLM) agents with tool-calling capabilities are increasingly deployed in production systems, yet a fundamental reliability question remains under-explored: does the same agent behave the same way twice? We present a systematic empirical study of behavioral consistency in multi-step tool-calling agents, measuring whether agents select the same tools, in the same order, with the same arguments, across repeated identical invocations. Unlike prior work on consistency in ReAct-style agents(search-only, free-text actions), we study the richer setting of structured tool-calling interfaces with typed parameters and consequential side effects.
計画としての思考: 強化計画による思考連鎖最適化のための潜在世界モデル
多様な NLP タスクにわたる大規模言語モデル (LLM) の成功により、モデルの動作をタスクの目標に合わせるための重要なステップとして、推論チェーンの最適化の重要性が高まっています。既存の推論チェーンのチューニング方法は、多くの場合、解釈可能性、一般化、およびサンプル効率に欠けるブラックボックス ヒューリスティックまたは勾配なしの検索に依存しています。この研究では、推論チェーンの最適化を潜在意味空間上の逐次的な意思決定プロセスとして形式化する新しいフレームワークである \textbf{Thoughts-as-Planning} を紹介します。 LLM を部分的に観察可能な環境としてモデル化し、下流の出力に対する推論チェーン編集の影響をシミュレートする潜在世界モデルを学習します。近接性を保持する埋め込み空間は、推論連鎖応答ダイナミクスをエンコードするために構築されており、勾配降下法または強化学習による計画を可能にします。私たちのメソッドはマルチスケールの抽象化をサポートしており、トークン、セグメント、命令レベルでの推論チェーン編集を統合プランナーに統合できます。言語理解と生成タスクに関する広範な実験を通じて、Thoughts-as-Planning が効率、堅牢性、一般化の点で最先端の推論チェーン調整ベースラインを上回り、その構造化された計画軌道を通じて解釈可能性を提供することを実証しました。私たちのコードは https://github.com/FastLM/Thoughts-as-Planning で入手できます。
原文 (English)
Thoughts-as-Planning: Latent World Models for Chain-of-Thoughts Optimization via Reinforcement Planning
The success of large language models (LLMs) across diverse NLP tasks has elevated the importance of reasoning chain optimization as a critical step in aligning model behavior with task objectives. Existing reasoning chain tuning methods often rely on black-box heuristics or gradient-free search, which lack interpretability, generalization, and sample efficiency. In this work, we introduce \textbf{Thoughts-as-Planning}, a novel framework that formalizes reasoning chain optimization as a sequential decision-making process over a latent semantic space. We model the LLM as a partially observable environment and learn a latent world model that simulates the effect of reasoning chain edits on downstream outputs. A proximity-preserving embedding space is constructed to encode reasoning chain-response dynamics, enabling planning via gradient descent or reinforcement learning. Our method supports multi-scale abstraction, allowing reasoning chain edits at token, segment, and instruction levels to be integrated into a unified planner. Through extensive experiments on language understanding and generation tasks, we demonstrate that Thoughts-as-Planning outperforms state-of-the-art reasoning chain tuning baselines in efficiency, robustness, and generalization, while offering interpretability through its structured planning trajectory. Our code is available at https://github.com/FastLM/Thoughts-as-Planning.
壊滅的な忘却のメカニズムの起源: なぜ RL は SFT よりも回路を保存しやすいのでしょうか?
大規模言語モデル (LLM) を微調整すると、以前の機能が壊滅的に忘れられてしまうことがよくあります。最近の研究では、強化学習 (RL) が教師あり微調整 (SFT) よりも効果的に以前の機能を保持することが示されており、これはポリシー勾配更新が基本ポリシー \cite{shenfeld2025rl} に近い状態に留まっているためであると考えられます。私たちはこの行動の説明を機構レベルに拡張し、RL の利点が内部計算回路のより強力な保存によって反映されるかどうかを尋ねます。微調整下で回路がどの程度劣化するかを示すヘッドレベルの尺度である差動回路の脆弱性を導入し、科学的な質問応答に適応した Qwen2.5-3B-Instruct の RL と SFT を比較するためにそれを使用します。我々は、明らかな機構的なトレードオフを発見しました。SFT は、ターゲット タスクにより迅速に適応しますが、回路の中断と以前の機能の忘却が大幅に大きくなります。一方、RL は、タスクの適応が遅くなる代わりに、基本回路の大部分を保持します。これらの発見は、回路の保存がなぜRLが壊滅的な忘却に対してより堅牢であるかを説明するのに役立つ可能性があることを示唆しています。私たちはここでコードをリリースしました: https://github.com/rl-sft-circuit-research/fferential-circuit-vulnerability。
原文 (English)
Mechanistic origins of catastrophic forgetting: why RL preserves circuits better than SFT?
Fine-tuning large language models (LLMs) frequently induces catastrophic forgetting of prior capabilities. Recent work has shown that reinforcement learning (RL) retains prior capabilities more effectively than supervised fine-tuning (SFT), attributing this to policy-gradient updates remaining closer to the base policy \cite{shenfeld2025rl}. We extend this behavioral account to the mechanistic level and ask whether RL's advantage is mirrored by stronger preservation of internal computational circuits. We introduce differential circuit vulnerability, a head-level measure of how much a circuit degrades under fine-tuning, and use it to compare RL and SFT on Qwen2.5-3B-Instruct adapted to scientific question-answering. We find a clear mechanistic trade-off: SFT adapts more rapidly to the target task but produces substantially greater circuit disruption and forgetting of prior capabilities, whereas RL preserves a larger fraction of the base circuit at the cost of slower task adaptation. These findings suggest that circuit preservation may help explain why RL is more robust to catastrophic forgetting. We released our code here: https://github.com/rl-sft-circuit-research/differential-circuit-vulnerability.
連続性と順序性が重要: 大規模な言語モデルを使用した効果的な時系列分析のための時系列トークンの制約
トークンベースの時系列大規模言語モデル (TS-LLM) は、時系列分析と推論の有望な方向性として浮上しています。ただし、これまでの研究では、時系列トークンの固有の連続性と順序性がほとんど見落とされており、モデルのパフォーマンスが大幅に制限されています。この論文では、時系列トークン埋め込みでこれらのプロパティを保持することが、トークンベースの TS-LLM の有効性にとって重要であると主張します。この目的を達成するために、初期化段階とトレーニング段階の両方に幾何学的制約を統合する、連続性と順序性を意識した戦略である COM (Continuity and Ordinality Matter) を提案します。複数の時系列分析ベンチマークの実証結果は、COM がトークンベースの TS-LLM のパフォーマンスを一貫して向上させ、競争力のある結果と強力な汎用性を実現していることを示しています。コードは https://anonymous.4open.science/r/COM で入手できます。
原文 (English)
Continuity and Ordinality Matter: Constraining Time Series Tokens for Effective Time Series Analysis with Large Language Models
Token-based time series large language models (TS-LLMs) have emerged as a promising direction for time series analysis and reasoning. However, prior studies largely overlook the inherent continuity and ordinality of time series tokens, which substantially limits model performance. In this paper, we argue that preserving these properties in time series token embeddings is crucial for the effectiveness of token-based TS-LLMs. To this end, we propose COM (Continuity and Ordinality Matter), a continuity- and ordinality-aware strategy that integrates geometric constraints into both the initialization and training stages. Empirical results on multiple time series analysis benchmarks demonstrate that COM consistently improves the performance of token-based TS-LLMs, achieving competitive results and strong generalizability. Code is available at https://anonymous.4open.science/r/COM .
LogDx-CI: LLM 根本原因診断のためのベンチマーク ログ削減ツール
CI 障害ログは大きく (中央値 5k 行、このコーパスでは最大 200k)、ノイズが多くなります。ログをデバッグしようとするコーディング エージェントは、ログを管理可能なコンテキストに削減する上流のツールに依存していますが、この分野では、どの削減が下流の LLM 診断に十分な証拠を保持するかについて、公的に実証された比較が行われていません。 LogDx-CI は、11 のコンテキスト削減ツール (raw、tail、grep、3 つの RTK モード、2 つの実際の LLM マップリデュース サマライザー、3 つのハイブリッド ルーター) を 35 の実際の GitHub Actions 障害ケースで比較するベンチマークであり、3 つの LLM デバッガー ファミリ (Claude Haiku 4.5、Claude Sonnet 4.6、OpenAI gpt-5-mini) と Sonnet 4.6 ツールを使用してスコア付けされました。エージェント。耐荷重に関する 3 つの調査結果を報告します。 (1)~ハイブリッド grep+tail ルーターがコスト品質のパレートフロンティアを支配しています。上位 2 つのメソッドのスコアは、ケースごとに $\sim$ \$0.03 で 0.670 / 0.666 で、$4.5\times$ 少ないトークンでスタンドアロン grep とほぼ同じ品質です。 (2)~エージェント ループ方式では、リダクション ツール全体の品質範囲が $7\times$ 崩壊します (シングルショット スプレッド 0.42 $\to$ エージェント ループ スプレッド 0.059)。エージェントは、フォローアップ ツール呼び出しを通じて弱いコンテキストを救出します。ただし、コストの差は依然として残ります。コンテキストが弱い場合、エージェントは回復するために 2 ~ 4$\times$ 回多くのツール呼び出しを発行する必要があります。 (3)~ファミリー間 LLM サマリー ペア (Claude Haiku デバッガーにフィードする gpt-5-mini サマライザー) は、4 つの診断ツール バリアントの平均で、同じファミリー ペアを $+0.071$ 上回っており、このタスクに関するセルフコール バイアス仮説を偽っています。 gpt-5-mini サマライザーは、エージェント ループ \#1 メソッド (スコア 0.749) でもあり、ケースあたりのツール呼び出しは $0.37$ で、リデューサー コストは Haiku サマライザーよりも $10\time$ 低くなります (ケースあたり \$0.18 対 \$1.75)。すべてのデータ、コード、ケースごとのバンドル、再現性インフラストラクチャは公開されています。
原文 (English)
LogDx-CI: Benchmarking Log Reduction Tools for LLM Root-Cause Diagnosis
CI failure logs are large (median 5k lines, max 200k in this corpus) and noisy. Coding agents that try to debug them depend on an upstream tool to reduce the log to a manageable context, but the field has had no public empirical comparison of which reductions preserve enough evidence for downstream LLM diagnosis. We introduce LogDx-CI, a benchmark that compares 11 context-reduction tools (raw, tail, grep, three RTK modes, two real LLM map-reduce summarizers, three hybrid routers) on 35 real GitHub Actions failure cases, scored by 3 LLM debugger families (Claude Haiku 4.5, Claude Sonnet 4.6, OpenAI gpt-5-mini) plus a Sonnet 4.6 tool-using agent. We report three load-bearing findings. (1)~Hybrid grep+tail routers dominate the cost-quality Pareto frontier; the top two methods score 0.670 / 0.666 at $\sim$ \$0.03 per case, same-ballpark quality as standalone grep at $4.5\times$ fewer tokens. (2)~In the agent-loop regime, the quality range across reduction tools collapses $7\times$ (single-shot spread 0.42 $\to$ agent-loop spread 0.059); the agent rescues weak contexts via follow-up tool calls. However, cost differences persist: weak contexts force the agent to issue 2--4$\times$ more tool calls to recover. (3)~A cross-family LLM-summary pair (gpt-5-mini summarizer feeding a Claude Haiku debugger) beats the same-family pair by $+0.071$ averaged across four diagnoser variants, falsifying the self-call-bias hypothesis on this task. The gpt-5-mini summarizer is also the agent-loop \#1 method (score 0.749) at $0.37$ tool-calls per case and $10\times$ lower reducer cost than the Haiku summarizer (\$0.18 vs \$1.75 per case). All data, code, per-case bundles, and reproducibility infrastructure are public.
臨床要約のための幻覚検出に基づく好みの最適化
大規模言語モデル (LLM) は、要約タスクでは有望であることが示されていますが、幻覚を引き起こすことがよくあります。幻覚はサポートされていない、または間違った記述であり、特殊な医療アプリケーションでの信頼性が制限されます。 \itermodelfull (\itermodel) という推論時間手法を導入します。これは、幻覚検出器を活用して、事実の修正に向けて反復的な要約改訂をガイドします。これに基づいて、検出器による調整軌道をモデルの微調整のための好みのペアに変換する、好み学習のための \itermodel (\model) を提案します。広範な実験により、\MimicIV からの現実世界の臨床ノートを要約する際に、私たちの方法がラマ モデルとジェマ モデルの幻覚を大幅に軽減することが示されました。たとえば、Llama-3.1-8B-Instruct の \itermodel は 24\% を軽減し、\model は 48\% の幻覚を軽減します。重要なのは、人間の専門家と LLM 陪審の評価に従って、両方の方法で要約の流暢性、一貫性、および関連性が維持されることです。これらの結果を総合すると、検出に基づいた改良と好みの学習が、臨床要約における事実の忠実性を向上させるための自動化されたソリューションを提供することを示しています。
原文 (English)
Hallucination Detection-Guided Preference Optimization for Clinical Summarization
Large language models (LLMs) have shown promise on summarization tasks, but they often produce hallucinations, which are unsupported or incorrect statements that limit their reliability in specialized healthcare applications. We introduce \itermodelfull (\itermodel), an inference-time method that leverages hallucination detectors to guide iterative summary revisions toward factual corrections. Building on this, we propose \itermodel for Preference Learning (\model), which converts detector-guided refinement trajectories into preference pairs for model finetuning. Extensive experiments show that our methods substantially reduce hallucinations for Llama and Gemma models in summarizing real-world clinical notes from \MimicIV. For example, \itermodel reduces 24\% and \model reduces 48\% hallucinations in Llama-3.1-8B-Instruct. Importantly, both methods preserve summary fluency, coherence, and relevance according to human expert and LLM-Jury evaluations. Together, these results demonstrate that detection-informed refinement and preference learning offer an automated solution for improving factual faithfulness in clinical summarization.
アインシュタイン望遠鏡のシミュレートされたデータの分析に適用されたエージェント AI の初の直接比較
我々は、人間の介入なしに共有コンピューティング インフラストラクチャ上でシンプルなエンドツーエンドの重力波データ分析パイプラインを自律的に実行するという 2 つの最先端のエージェント AI システム、Claude Code (Anthropic) と Codex (OpenAI) の比較を報告します。このパイプラインは、生のアインシュタイン望遠鏡でシミュレートされたノイズからのパワー スペクトル密度推定、幾何学的テンプレート バンクの生成、100 個のバイナリ ブラック ホール信号注入の整合フィルター回復、自動結果生成、および Physical Review D のスタイルでフォーマットされた原稿の大規模言語モデル支援の作成で構成されます。両方のエージェントは、同一の仕様書と同一のコンピューティング リソースを受け取りました。実験は 2 回実行されました。1 回目は非現実的な大音量の注入を使用して実行され、2 回目は物理的に動機付けられた SNR 範囲に再スケーリングされた信号を使用して実行されました。科学的結果は両方の実行で収束しました。ただし、エージェントは大幅に異なる動作と計算コストを示しました。Claude Code は、仕様からのサイレント逸脱はありますが、パイプラインを約 3.4 分で完了しましたが、Codex は、整合フィルターの内部ループの一方的なパフォーマンスの最適化を含む、明示的な自己修正の再起動に約 16 分を要しました。自律的に生成された原稿も、長さ、詳細、品質が異なりました。 2 回目の実行では、SNR 範囲の命令の解釈における微妙な違いが、真の科学的相違につながりました。Claude Code は命令を黙って再解釈しましたが、Codex は文字通り仕様に従いました。速度と可聴性、サイレントと透過的なエラー処理、命令の解釈、マルチモデル パイプラインにおける中間データ表現の重要性など、これらの動作の違いが科学技術コンピューティング ワークフローでのエージェント AI の展開に与える影響について説明します。
原文 (English)
First head-to-head comparison of agentic AI applied to the analysis of simulated data of the Einstein Telescope
We report a comparison of two state-of-the-art agentic AI systems, Claude Code (Anthropic) and Codex (OpenAI), tasked with autonomously executing a simple end-to-end gravitational wave data analysis pipeline on a shared computing infrastructure without human intervention. The pipeline comprises power spectral density estimation from raw Einstein Telescope simulated noise, geometric template bank generation, matched filter recovery of 100 binary black hole signal injections, automated results generation, and large language model-assisted production of a manuscript formatted in the style of Physical Review D. Both agents received identical written specifications and identical compute resources. The experiment was run twice: a first run with unrealistically loud injections, and a second run with signals rescaled to a physically motivated SNR range. The scientific results converged in both runs. However, the agents exhibited substantially different behaviors and computational costs: Claude Code completed the pipeline in ~3.4 minutes with silent deviations from the specification, while Codex required ~16 minutes across explicit self-correcting restarts, including an unsolicited performance optimization of the matched filter inner loop. The autonomously generated manuscripts also diverged in length, details, and quality. In the second run, a subtle difference in the interpretation of the SNR range instruction led to a genuine scientific divergence: Claude Code silently reinterpreted the instructions, while Codex followed the specification literally. We discuss the implications of these behavioral differences, such as speed versus auditability, silent versus transparent error handling, instruction interpretation, and the criticality of intermediate data representations in multi-model pipelines, for the deployment of agentic AI in scientific computing workflows.
LLM ベースの履歴書スクリーニングにおける現実世界のプロンプト インジェクション攻撃の測定
LLM はプロンプト インジェクション攻撃に対して脆弱です。ただし、この脆弱性は主に学術研究やいくつかの事例研究を通じて概念的に実証されています。実際の LLM ベースのアプリケーションにおけるその普及と影響は、ほとんど解明されていません。この研究では、広く使用されているアプリケーションである LLM ベースの履歴書スクリーニングにおけるプロンプト インジェクション攻撃の最初の体系的な研究を紹介します。私たちの分析は、hireEZ が数年にわたって収集した約 20 万件の実際の履歴書に基づいています。まず、履歴書への即時挿入を検出するためのカスタマイズされた方法を設計します。小規模のデータセットを手動で検証すると、当社の検出器が高精度を達成し、最先端の汎用検出器を上回る性能を発揮することが実証されています。次に、検出器を完全な再開データセットに適用し、現実世界のプロンプト インジェクション攻撃の包括的な測定研究を実施します。私たちの分析では、いくつかの興味深い調査結果が明らかになりました。履歴書の約 1% に、隠されたプロンプト インジェクションが含まれています。このような注入された履歴書の普及率は、過去 1 ~ 2 年で著しく増加しています。また、挿入されたプロンプトの 90% 以上は明示的な命令を使用しません。これらの結果は、現実世界の LLM ベースのアプリケーションにおける大規模なプロンプト インジェクションの最初の証拠を提供し、そのような攻撃を理解して軽減するための将来の研究の基礎を築きます。
原文 (English)
Measuring Real-World Prompt Injection Attacks in LLM-based Resume Screening
LLMs are vulnerable to prompt injection attacks. However, this vulnerability has been primarily demonstrated conceptually in academic studies or through a few anecdotal case studies. Its prevalence and impact in real-world LLM-based applications are largely unexplored. In this work, we present the first systematic study of prompt-injection attacks in a widely used application: LLM-based resume screening. Our analysis is based on approximately 200K real-world resumes collected over multiple years by hireEZ. We first design tailored methods to detect prompt injection in resumes. Manual validation on a small-scale dataset demonstrates that our detectors achieve high precision and outperform state-of-the-art general-purpose detectors. We then apply our detector to the full resume dataset and conduct a comprehensive measurement study of real-world prompt injection attacks. Our analysis reveals several intriguing findings: approximately 1% of resumes contain hidden prompt injections; the prevalence of such injected resumes has increased noticeably over the past one to two years; and more than 90% of injected prompts do not use explicit instructions. These results provide the first evidence of large-scale prompt injection in real-world LLM-based applications and lay the groundwork for future studies to understand and mitigate such attacks.
SCDBench: LLM ベースのスマート コントラクト デコンパイラーのベンチマーク
スマート コントラクトの逆コンパイルは、バイトコードから高レベルのソース コードを復元することを目的としていますが、既存の研究では狭いデータセット、一貫性のないメトリクス、限定的なセマンティック一貫性チェックが使用されているため、逆コンパイラーの評価は依然として困難です。大規模言語モデル (LLM) が、たとえそのセマンティクスが元のコントラクトから異なっていても、コンパイルされてもっともらしいと思われるソースのような Solidity を生成し始めるにつれて、このギャップはますます重要になります。 LLM ベースのスマート コントラクト逆コンパイルのためのデータセットおよびベンチマーク手法である SCDBench を紹介します。データセットには、ペアのバイトコード入力、グラウンドトゥルースのソースコード、再生可能なセマンティックチェックポイントを備えた 600 の実世界の Solidity コントラクトが含まれています。 SCDBench は、形式の完全性、コンパイル可能性、アプリケーション バイナリ インターフェイス (ABI) の回復、および差分再生によるセマンティックの一貫性という 4 つの累積的な段階を通じて逆コンパイラーの出力を評価します。 Claude Opus 4.7、GPT-5.3-Codex、GLM-5 をゼロショット逆コンパイル設定で評価します。これには、拡張推論およびゼロショット コンパイル修復設定の有無にかかわらず GLM-5 バリアントが含まれます。結果は、フロンティア LLM は多くの場合、構造化されコンパイル可能な Solidity を生成できることを示していますが、セマンティックな一貫性の達成はまだ解決には程遠く、最もパフォーマンスの高いフロンティア モデルは 42/600 コントラクトのみを完全に逆コンパイルします。さらに、同一モデルのコンパイル修復を導入すると、わずかな追加コストでパフォーマンスが大幅に向上することも示します。 SCDBench は、厳密で再現可能な評価のための共通基盤を確立し、ブロックチェーンのセキュリティと透明性のための信頼できるスマート コントラクト デコンパイラーの開発を加速することを目的としています。
原文 (English)
SCDBench: A Benchmark for LLM-Based Smart Contract Decompilers
Smart contract decompilation aims to recover high-level source code from bytecode, but evaluating decompilers remains difficult because existing studies use narrow datasets, inconsistent metrics, and limited semantic consistency checks. This gap is increasingly important as large language models (LLMs) begin to generate source-like Solidity that may compile and appear plausible, even when its semantics diverge from the original contract. We introduce SCDBench, a dataset and benchmark methodology for LLM-based smart contract decompilation. The dataset contains 600 real-world Solidity contracts with paired bytecode inputs, ground-truth source code, and replayable semantic checkpoints. SCDBench evaluates decompiler outputs through four cumulative stages: format completeness, compilability, Application Binary Interface (ABI) recovery, and semantic consistency via differential replay. We evaluate Claude Opus 4.7, GPT-5.3-Codex, and GLM-5 in a zero-shot decompilation setting, including GLM-5 variants with and without extended reasoning and a zero-shot compilation-repair setting. The results show that frontier LLMs can often produce structured and compilable Solidity, but achieving semantic consistency remains far from solved: the best-performing frontier model perfectly decompiles only 42/600 contracts. We further show that introducing same-model compilation repair substantially improves performance at modest additional cost. SCDBench establishes a common ground for rigorous, reproducible evaluation and aims to accelerate the development of reliable smart contract decompilers for blockchain security and transparency.
構造化プロンプトの最適化と強化学習の融合により、複雑なテキストに対するグローバルおよびローカルの解釈可能性が実現
LLM は高度なテキスト分類を備えていますが、既存のパラダイムはトレードオフに直面しています。教師付き (ラベルのみ) 微調整はスケーラブルですが、複雑なテキストに対する推論が限られており、広範なモデルの透明性に欠けています。一方、離散プロンプト最適化は人間が読める命令を提供しますが、パフォーマンスとスケーラビリティに苦労します。私たちは、3 つの段階的な段階を持つ eXTC (eXplainable Text Classifier) を導入します。(1) 新しい構造化プロンプト最適化アルゴリズムを介して、自然言語で標準操作手順 (SOP、またはルールブック) を学習します。 (2) SOP に基づいた推論を大規模な教師 LLM からコンパクトな LM に抽出します。 (3) 強化学習により、初期 SOP を超えて推論能力を拡張します。この設計により、eXTC は、(i) コンパクトな LM を介した高速推論、(ii) 学習したドメイン ルールのグローバルなモジュール式説明と並行した推論時のローカル推論トレースを提供できるようになり、(iii) 分類パフォーマンスと説明品質の両方において、さまざまなベンチマークにわたって既存のパラダイムを大幅に上回り、段階ごとに向上します。
原文 (English)
Structured Prompt Optimization Meets Reinforcement Learning for Global and Local Interpretability over Complex Text
LLMs have advanced text classification, yet existing paradigms face a trade-off: supervised (label only) fine-tuning is scalable but offers limited reasoning on complex text and lacks broader model transparency, while discrete prompt optimization offers human-readable instructions but struggles with performance and scalability. We introduce eXTC (eXplainable Text Classifier) with three progressive stages: (1) learning a Standard Operating Procedure (SOP, or rulebook) in natural language via a new Structured Prompt Optimization algorithm; (2) SOP-grounded reasoning distillation from a large teacher LLM into a compact LM; and (3) expanding reasoning capabilities beyond the initial SOP via reinforcement learning. This design enables eXTC to provide (i) fast inference via a compact LM, with (ii) inference-time local reasoning traces, alongside a global, modular explanation of its learned domain rules, while (iii) significantly outperforming existing paradigms across diverse benchmarks in both classification performance and explanation quality, with stage-by-stage gains.
GEO-Bench: 生成エンジン最適化におけるランキング操作のベンチマーク
大規模言語モデル (LLM) では、ユーザーのクエリに対する製品、ドキュメント、推奨事項のランク付けが増えており、これらのランク付けを操作することによる公平性と情報の完全性への懸念が高まっています。生成エンジン最適化 (GEO) に関する研究により、多くの操作方法が生み出されてきましたが、それぞれの操作方法は独自のメトリクスを使用して独自のデータセットで評価されるため、それらの相対的な強度と検出可能性は不明のままです。 1 つのプロトコルの下で GEO ランキング操作攻撃を評価するベンチマークである GEO-Bench を紹介します。ブラック ボックスのプロンプト ベースの攻撃 (TAP、ゼロショット)、ホワイト ボックスの勾配ベースの攻撃 (STS、RAF、StealthRank)、および 10 のホワイト ハット C-SEO 戦略を統合します。有効性 (NRG、Success@{\alpha}、Promote@{\alpha}) とステルス (キーワード違反率、困惑率) の両方のメトリクスを使用して、固定オープンウェイト ランカー (Llama-3.1-8B-Instruct) に対して 5 つのデータセットのすべてのメソッドをスコア付けします。私たちの評価では、敵対的攻撃全体で有効性とステルス性がトレードオフであること、ブラック ボックス コンテンツの書き換えは、より流暢なテキストを生成しながら、ランク昇格に対する勾配ベースの攻撃と同等かそれを上回っており、一部のドメインではキーワード ベースと複雑さベースの検出の両方を回避できること、アクセス モデルが攻撃強度を予測していないことが示されています。 GEO-Bench は、データセット、攻撃実装、メトリクスを標準化することで、これらの攻撃パラダイム全体での初めての直接比較を可能にし、検出方法の開発をサポートします。
原文 (English)
GEO-Bench: Benchmarking Ranking Manipulation in Generative Engine Optimization
Large language models (LLMs) increasingly rank products, documents, and recommendations for user queries, which makes manipulating these rankings a growing concern for fairness and information integrity. Research on generative engine optimization (GEO) has produced many manipulation methods, but each is evaluated on its own dataset with its own metrics, so their relative strength and detectability stay unclear. We present GEO-Bench, a benchmark that evaluates GEO ranking-manipulation attacks under one protocol. It unifies black-box prompt-based attacks (TAP, Zero-Shot), white-box gradient-based attacks (STS, RAF, StealthRank), and ten white-hat C-SEO strategies. We score every method on five datasets against a fixed open-weight ranker (Llama-3.1-8B-Instruct), using metrics for both effectiveness (NRG, Success@{\alpha}, Promote@{\alpha}) and stealth (keyword violation rate, perplexity ratio). Our evaluation shows that effectiveness and stealth trade off across adversarial attacks, that black-box content rewriting matches or exceeds gradient-based attacks on rank promotion while producing more fluent text and can evade both keyword- and perplexity-based detection on some domains, and that the access model does not predict attack strength. By standardizing datasets, attack implementations, and metrics, GEO-Bench enables the first direct comparison across these attack paradigms and supports the development of detection methods.
明示的なコンテキストフィードバックによる LLM 推奨におけるユーザーの好みの調整に向けて
従来のレコメンダー システム (RecSys) は、主に暗黙的なシグナル (クリック、視聴、購入など) からユーザーの好みを推測し、コメントやレビューなど、ユーザーが口頭テキストを通じて提供する豊富で明示的な文脈に応じたフィードバックを無視することがよくありました。この明示的なコンテキスト フィードバックは、ユーザーの好みに関する決定の背後にある微妙な理由を捉えます。さらに、ユーザーの好みを調整するための重要な異種情報と、より説明しやすい推奨事項を提供します。このような信号を見落とすと、アルゴリズムがユーザーの選択の背後にある「意味論的コンテキスト」を理解できないため、ユーザーの好みの調整がずれ、フィルターバブルがさらに強化される可能性があります。大規模言語モデル (LLM) の最近の進歩により、ユーザー生成コンテンツを利用してより正確で多様なレコメンデーションを実現する新たな機会が生まれていますが、現在の LLM ベースのレコメンデーションは依然としてアイテムのメタデータの使用に焦点を当てており、このリソースが十分に活用されていません。このペーパーでは、次世代の LLM ベースの RecSys において明示的なコンテキスト フィードバックを優先することを提唱します。私たちは、レコメンデーションパラダイムの進化をレビューし、コンテキスト豊富なフィードバックの価値を強調し、新しいベンチマークとメトリクスを求め、明示的なユーザーシグナルをスケーラブルな LLM 駆動の RecSys に統合するためのフレームワークを導入します。ユーザーの好みのモデリングを中心に、よりパーソナライズされ、透明性があり、説明可能な RecSys オンライン プラットフォームを促進することを目指しています。
原文 (English)
Toward User Preference Alignment in LLM Recommendation via Explicit Context Feedback
Traditional recommender systems (RecSys) primarily infer user preferences from implicit signals (such as clicks, watches, and purchases), often neglecting the rich explicit contextual feedback users provide through verbal text, like comments and reviews. This explicit context feedback captures the nuanced reasons behind user decisions regarding their preferences. In addition, it offers critical heterogeneous information for user preference alignment and more explainable recommendations. Overlooking such signals can lead to misaligned user preferences and further reinforce filter bubbles, as algorithms fail to understand the "semantic context" behind user choices. Recent advances in Large Language Models (LLMs) present new opportunities to harness user-generated content for more accurate and diverse recommendations, yet current LLM-based recommendations still focus on using item meta-data and underutilize this resource. In this paper, we advocate for prioritizing explicit context feedback in the next generation of LLM-based RecSys. We review the evolution of recommendation paradigms, highlight the value of context-rich feedback, call for new benchmarks and metrics, and introduce frameworks for integrating explicit user signals into scalable LLM-driven RecSys. Centering on user-preference modeling, we aim to foster more personalized, transparent, and explainable RecSys online platforms.
視差: 言語モデリングのためのパラメータ化されたローカル線形アテンション
大規模言語モデル (LLM) は人工知能の中心的なパラダイムとなっていますが、注意の核となる計算プリミティブは構造的に変わっていません。ローカル線形アテンション (LLA) は、テスト時回帰フレームワークのノンパラメトリック統計から派生したアテンション メカニズムです。効率的な注意バリアントに関する先行研究とは対照的に、LLA はソフトマックス アテンションの局所定数推定を局所線形推定にアップグレードし、連想記憶に対して明らかに優れたバイアス分散トレードオフをもたらします。ただし、計算および数値の安定性に関する懸念のため、LLA は LLM 事前トレーニングではスケーリングされていません。 LLM 向けにスケーラブルなパラメータ化されたローカル リニア アテンションである Parallax を紹介します。 Parallax は LLA の数値ソルバーを排除し、KV 共分散を調査する追加のクエリのようなプロジェクターを学習します。私たちは視差を、帯域幅、プローブ構造、アフィン構造によって接続された注意メカニズムのファミリーの中に配置します。私たちは、FlashAttention よりも演算強度を高め、より計算に集中した領域に注意を移す、ハードウェア認識アルゴリズムを提案します。私たちのプロトタイプのデコード カーネルは、さまざまなバッチ サイズとコンテキスト長にわたって、FlashAttendant 2/3 と同等またはそれを上回るパフォーマンスを発揮します。視差を 0.6B および 1.7B スケールで事前トレーニングし、ダウンストリーム ベンチマークに転送されるゲインにより、事前トレーニング全体を通じて一貫したパープレキシティの改善が見られます。この利点は、パラメーター一致制御と計算一致制御の両方で持続し、パレートの改善を示しています。私たちは慎重な事前トレーニングアブレーションを実行し、ミューオンが視差の能力を解放するという新しい現象を特定しました。私たちの知る限り、これは、アーキテクチャ研究文献におけるアテンション メカニズムのための強力なアーキテクチャ オプティマイザー コードデザインの最初の実証的実証です。
原文 (English)
Parallax: Parameterized Local Linear Attention for Language Modeling
Large Language Models (LLMs) have become the central paradigm in artificial intelligence, yet the core computational primitive of attention has remained structurally unchanged. Local Linear Attention (LLA) is an attention mechanism derived from nonparametric statistics in the test-time regression framework. In contrast to prior research on efficient attention variants, LLA upgrades the local constant estimate in softmax attention to a local linear estimate, yielding provably superior bias-variance tradeoffs for associative memory. However, LLA has not been scaled in LLM pretraining due to computational and numerical stability concerns. We introduce Parallax, a parameterized Local Linear Attention that is scalable for LLMs. Parallax eliminates the numerical solver in LLA and learns an extra query-like projector that probes the KV covariance. We place Parallax within a family of attention mechanisms connected by the bandwidth, the probe construction and the affine structure. We propose a hardware-aware algorithm that increases the arithmetic intensity over FlashAttention, shifting attention into a more compute bound regime. Our prototype decode kernel matches or outperforms FlashAttention 2/3 across diverse batch sizes and context lengths. We pretrain Parallax at 0.6B and 1.7B scales and find consistent perplexity improvements throughout pretraining with gains that transfer to downstream benchmarks. The advantage persists under both parameter-matched and compute-matched controls, demonstrating a Pareto improvement. We perform careful pretraining ablations and identify a novel phenomenon whereby Muon unlocks the capacity of Parallax. To our knowledge, this is the first empirical demonstration of strong architecture-optimizer codesign for attention mechanisms in the architecture research literature.
Influence-Guided Symbolic Regression: Scientific Discovery via LLM-Driven Equation Search with Granular Feedback
Large Language Models (LLMs) offer a promising avenue for scientific discovery, yet their application to symbolic regression is often const…
Relevance as a Vulnerability: How Web Retrieval Degrades Safety Alignment in LLM Agents
AI agents augment large language models with external tools such as web retrieval, enabling grounded and up-to-date responses. However, inc…
BlockBatch: Multi-Scale Consensus Decoding for Efficient Diffusion Language Model Inference
Diffusion language models (dLLMs) generate text by iteratively denoising multiple token positions in parallel, offering an attractive alter…
Compute Allocation in Evolutionary Search: From Depth-Breadth to Multi-Armed Bandits
LLM-guided evolutionary search (Evolve systems) has reached state-of-the-art results on mathematical and combinatorial tasks, yet most exis…
MusTBENCH: Benchmarking and Advancing Temporal Grounding in Music LLMs
Recent Large Audio-Language Models (LALMs) have demonstrated promising abilities in understanding musical content. However, whether their r…
GrepSeek: Training Search Agents for Direct Corpus Interaction
Large Language Model (LLM) search agents have shown strong promise for knowledge-intensive language tasks through multiple rounds of reason…
GDSD: Reinforcement Learning as Guided Denoiser Self-Distillation for Diffusion Language Models
Reinforcement learning (RL) can be used to improve the policy (denoiser) of diffusion large language models (dLLMs), while being hindered b…
Semantic and Visual Evidence for Efficient Long-Video Reasoning: A Solution for the HD-EPIC VQA Challenge
Understanding long-form egocentric videos remains challenging for multimodal large language models (MLLMs) due to limited context length an…
SkillBrew: Multi-Objective Curation of Skill Banks for LLM Agents
Retrieval-augmented LLM agents increasingly rely on curated skill banks: collections of reusable textual principles that guide decision mak…
Adaptive Interviewing for Persona Simulation in LLMs: Evidence-Grounded Reasoning Improves Decision Alignment
Accurately simulating the decisions of a specific individual remains challenging for large language models (LLMs), partly because persona i…
SciIntBench: Measuring LLM Compliance with Research Integrity Norms Under Adversarial Framing
Large language models (LLMs) are increasingly used to support scientific work, but it is unclear whether they uphold responsible conduct of…
Inform, Coach, Relate, Listen: Auditing LLM Caregiving Support Roles
Language models are increasingly being deployed for conversational support in informal caregiving contexts, where interactions often extend…
MOOSE-Copilot: A Web-Based Interactive Assistant for Unified Exploratory and Fine-Grained Scientific Hypothesis Discovery
Large language models (LLMs) show remarkable potential in scientific hypothesis discovery. However, existing approaches face two critical l…
KBF: Knowledge Boundary as Fingerprint for Language Model and Black-Box API Auditing
Relay and reseller APIs increasingly intermediate access to large language models (LLMs), but users have no direct way to verify that a cla…
GUITestScape: Towards Open-set Evaluation on Exploratory GUI Testing
Exploratory GUI testing is a particularly demanding setting for MLLM agents: without predefined test scripts, an agent must autonomously na…
SCOPE: A Lightweight-training LLM Framework for Air Traffic Control Readback Monitoring
Pilot readback of Air Traffic Control (ATC) voice instructions is a primary safeguard against miscommunication in air transportation. Howev…
Opir: Efficient Multi-Task Safety Classification for Toxicity, Jailbreaks, Hate Speech, and Harmful Content
Real-time safety filtering for large language model (LLM) applications requires classifiers that can detect unsafe prompts, toxic language,…
From Prompts to Context: An Ontology-Driven Framework for Human-Generative AI Collaboration
Collaborations with Generative AI often begin with a short prompt and end with an opaque output, leaving implicit who was involved, what ta…
Teaching Language Models to Check Grounded Claim Factuality with Human Test-Taking Strategies
Grounded claim factuality checking is important for large language model (LLM) applications such as retrieval-augmented generation, as it h…
Multi-Legal-Bench: Evaluating LLMs on Legal Reasoning Across Jurisdictions, Languages, and Legal Traditions
Legal NLP benchmarks overwhelmingly evaluate a single language or aggregate tasks that differ fundamentally across jurisdictions, making cr…
Hista and Numca: Estimate State Value Effectively for LLM Reinforcement Learning
Reinforcement learning (RL) refines large language models (LLMs) by directly optimizing model behavior through reward signals. While accura…
Evolve as a Team: Collaborative Self-Evolution for LLM-based Multi-Agent Systems
LLM-based multi-agent systems (MAS) have emerged as an effective paradigm for complex and long-horizon tasks. However, in real-world tasks,…
Inferring Code Correctness from Specification
Large language models (LLMs) have become integral to modern software development, enabling automated code generation at scale. However, val…
HARP: Hadamard-Preconditioned Adaptive Rotation Processor for Extreme LLM Quantization
Post-training quantization (PTQ) is essential for deploying LLMs under memory and bandwidth constraints. However, extreme low-bit quantizat…
Towards Verifiable Multimodal Deep Research: A Multi-Agent Harness for Interleaved Report Generation
Large Language Models (LLMs) have advanced autonomous agents from deep search, which retrieves concise factual answers, to deep research, w…
Evolutionary Dynamics of Cooperation in Next-Generation LLM Agent Systems: A Cross-Provider Empirical Extension
Do next-generation LLM agents inherit the cooperative biases documented in their predecessors, or does scale and provider diversity reshape…
LaRA: Layer-wise Representation Analysis for Detecting Data Contamination in RL Post-Training
Reinforcement learning (RL) post-training has shown to improve reasoning in large language models (LLMs). However, there has been little ex…
Internal Representation, Not Clinical Knowledge: Where Apparent LLM Triage Failures Originate
Patient-voiced clinical-triage benchmarks report high under-triage rates for consumer LLMs for constrained multiple-choice output, yet the…
Agora: Toward Autonomous Bug Detection in Production-Level Consensus Protocols with LLM Agents
Consensus protocols form the backbone of distributed systems and blockchains, where implementation bugs can cause data corruption and finan…
Does The Way You Plan Matter? An Empirical Study of Planning Representations for LLM Web Agents
Despite recent advances, LLM-based web agents still struggle with limited exploration, omission of critical steps, and sensitivity to task…
Label Over Logic? How Source Cues Bias Human Fallacy Judgments More Than LLMs
As AI-generated and AI-assisted content floods online spaces, source labels attached to such content can distort human reasoning judgments,…
Hijacking Agent Memory: Stealthy Trojan Attacks Through Conversational Interaction
Large language model (LLM) agents increasingly leverage long term memory to support persistent and autonomous task execution. However, this…
Honeyval: A Comprehensive Evaluation Framework for LLM-powered HTTP Honeypots
Honeypots are decoy systems mimicking real system components designed to defend against cyber attacks. Recently, LLMs increasingly serve as…
Discovering Cooperative Pipelines: Autoresearch for Sequential Social Dilemmas
We study two-level autoresearch for cooperation: an outer-loop AI agent autonomously redesigns the inner-loop pipeline of an LLM policy-syn…
Audio Jailbreaks in Large Audio-Language Models: Taxonomy, Attack-Defense Analysis, and Cost-Aware Evaluation
Large Audio Language Models (LALMs) expand jailbreak risks from token-level prompting to the full speech perception-to-reasoning pipeline,…
Token Inflation: How Dishonest Providers Can Overcharge for Large Language Model Usage
Per-token billing is now the standard pricing model for commercial large language models (LLMs), so the honesty of reported token counts di…
Projectional Decoding: Towards Semantic-Aware LLM Generation
Large language models (LLMs) are increasingly used to generate software artifacts across many software engineering (SE) tasks, yet ensuring…
How Reliable Are AI Attackers Against a Fixed Vulnerable Target? A 400-Run Empirical Study of LLM Penetration Testing Consistency
Large language models (LLMs) can autonomously conduct multi-stage cyber attacks, but the consistency of their offensive behavior under repe…
When Cloud Agents Meet Device Agents: Lessons from Hybrid Multi-Agent Systems
The design space of agentic AI inference spans two extremes: frontier large language models (LLMs), typically hosted in the cloud and offer…
Overcoming Forgetting in LLM Fine-Tuning with Evolution Strategies
Evolution Strategies (ES) has recently emerged as a competitive alternative to reinforcement learning (RL) for large language model (LLM) f…
Do Proactive Agents Really Need an LLM to Decide When to Wake and What to Anchor?
Proactive agents read user activity as text and call an LLM on every event to decide whether to act. But user activity is not natively text…
iLoRA: Bayesian Low-Rank Adaptation with Latent Interaction Graphs for Microbiome Diagnosis
Parameter-efficient adaptation has made LLMs practical for domain prediction, but standard LoRA still relies on a static low-rank update an…
Token-Level Generalization in LoRA Adapter Backdoors: Attack Characterization and Behavioral Detection
We show that LoRA adapters, the dominant distribution format for fine-tuned LLMs, can be reliably backdoored through training data poisonin…
Unifying Temporal and Structural Credit Assignment in LLM-Based Multi-Agent Prompt Optimization
While Multi-Agent Systems (MAS) empower Large Language Models to tackle complex reasoning tasks through collaborative interaction, optimizi…
Same Evidence, Different Answers: Canonical-Context On-Policy Distillation for Multi-Turn Language Models
Large language models (LLMs) often solve a task when all instructions are given in a single prompt, but fail when the same information is r…
How LoRA Remembers? A Parametric Memory Law for LLM Finetuning
Large Language Models (LLMs) must continuously learn and update knowledge to remain effective in dynamic real-world environments. While Low…
LLUMI: Improving LLM Writing Assistance for Mental Health Support with Online Community Feedback
Large language models (LLMs) show promise in generating supportive responses for mental health queries, but improving their usefulness, emp…
MedCase-Structured: A Text-to-FHIR Dataset for Benchmarking Diagnostic Reasoning in Clinically Realistic EHR Settings
Large language models (LLMs) show promise for clinical reasoning and decision support, but evaluation in realistic, electronic health recor…
LLMSurgeon: Diagnosing Data Mixture of Large Language Models
The pretraining data mixture of Large Language Models (LLMs) constitutes their "digital DNA", shaping model behaviors, capabilities, and fa…
PersonaAgent: Bridging Memory and Action for Personalized LLM Agents
Large Language Model (LLM) empowered agents have recently emerged as advanced paradigms that exhibit impressive capabilities in a wide rang…
SafeSearch: Automated Red-Teaming of LLM-Based Search Agents
Search agents connect LLMs to the Internet, enabling them to access broader and more up-to-date information. However, this also introduces…
EAPO: Enhancing Policy Optimization with On-Demand Expert Assistance
Large language models (LLMs) have recently advanced in reasoning when optimized with reinforcement learning (RL) under verifiable rewards.…
Controlling the Risk of Corrupted Contexts for Language Models via Early-Exiting
Large language models (LLMs) can be influenced by harmful or irrelevant context, which can significantly harm model performance on downstre…
Graph-Enhanced Policy Optimization in LLM Agent Training
Multi-step LLM agents in interactive environments represent a crucial step toward long-horizon decision-making. To train such agents, group…
InsightEval: An Expert-Curated Benchmark for Assessing Insight Discovery in LLM-Driven Data Agents
Data analysis has become an indispensable part of scientific research. To discover the latent knowledge and insights hidden within massive…
SCOPE: Prompt Evolution for Enhancing Agent Effectiveness
Large Language Model (LLM) agents are increasingly deployed in environments that generate massive, dynamic contexts. However, a critical bo…
From Meta-Thought to Execution: Cognitively Aligned Post-Training for Generalizable and Reliable LLM Reasoning
Current LLM post-training methods optimize complete reasoning trajectories through Supervised Fine-Tuning (SFT) followed by outcome-based R…
Skill-Pro: Learning Reusable Skills from Experience via Non-Parametric PPO for LLM Agents
LLM-driven agents excel at sequential decision-making but often rely on on-the-fly reasoning, re-deriving solutions even in recurring scena…
AutoSizer: Automatic Sizing of Analog and Mixed-Signal Circuits via Large Language Model (LLM) Agents
The design of Analog and Mixed-Signal (AMS) integrated circuits remains heavily reliant on expert knowledge, with transistor sizing a major…
Reasoning about Reasoning: BAPO Bounds on Chain-of-Thought Token Complexity in LLMs
Inference-time scaling via chain-of-thought (CoT) reasoning is a major driver of state-of-the-art LLM performance, but it comes with substa…
Small Agent Group is the Future of Digital Health
The rapid adoption of large language models (LLMs) in digital health has been driven by a "scaling-first" philosophy, i.e., the assumption…
Benchmarking at the Edge of Comprehension
As frontier Large Language Models (LLMs) increasingly saturate new benchmarks shortly after they are published, benchmarking itself is at a…
RewardFlow: Topology-Aware Reward Propagation on State Graphs for Agentic RL with Large Language Models
Reinforcement learning (RL) shows promise for enhancing LLM agentic reasoning, yet sparse terminal rewards hinder fine-grained optimization…
MemCollab: Cross-Model Memory Collaboration via Contrastive Trajectory Distillation
LLM agents increasingly rely on memory mechanisms to reuse knowledge from past problem-solving experiences. However, existing methods typic…
MediHive: A Decentralized Agent Collective for Medical Reasoning
Large language models (LLMs) have revolutionized medical reasoning tasks, yet single-agent systems often falter on complex, interdisciplina…
Thinking Fast, Thinking Wrong: Intuitiveness Modulates LLM Counterfactual Reasoning in Policy Evaluation
Large language models (LLMs) are increasingly used for causal and counterfactual reasoning, yet their reliability in real-world policy eval…
MemoSight: Unifying Context Compression and Multi Token Prediction for Reasoning Acceleration
While chain-of-thought (CoT) reasoning enables LLMs to solve challenging reasoning tasks, the linear growth of the KV cache leads to substa…
Revisiting the Effectiveness of LLM Pruning for Test-Time Scaling
Large Language Models (LLMs) now exhibit remarkable reasoning capabilities through test-time compute scaling (TTS), with impressive perform…
Hierarchical Task Network Planning with LLM-Generated Heuristics
HTN planning is a variation of classical planning where, instead of searching for a linear sequence of actions, an algorithm decomposes hig…
AttuneBench: A Conversation-Based Benchmark for LLM Emotional Intelligence
Emotional intelligence (EI), the ability to perceive, understand, and respond appropriately to others' emotional states, is central to huma…
CausaLab: AI 科学者向けのインタラクティブな因果発見のためのスケーラブルな環境
LLM エージェントによるインタラクティブな因果発見を評価するためのスケーラブルな環境である CausaLab を紹介します。以前の評価とは異なり、CausaLab では、エージェントが因果関係の証拠を使用して問題を解決できるかどうか、およびその答えが根底にある因果メカニズムに関する正しい仮説によって裏付けられているかどうかの両方を評価します。各エピソードではエージェントが合成実験室に配置されます。エージェントは以前の測定記録を受け取り、マニピュレーター結晶に介入し、同じ機構によって支配される保持されたリアクター結晶の共振周波数を予測します。隠されたデータ生成プロセスは、ランダムにサンプリングされた構造因果モデル (SCM) であるため、成功するには、事前の知識を思い出すのではなく、因果グラフと構造方程式の両方を回復する必要があります。 CausaLab には、エージェントの進化する SCM 仮説を記録するドメイン固有の言語も含まれており、軌跡を検査可能にしてグラウンド トゥルースと比較できるようになります。実験では、予測とメカニズム回復の間に永続的なギャップがあることが示されています。純粋に観測的な 6 ノード設定では、GPT-5.2-high はタスク精度 92% に達しますが、オールエッジ $F_1$ はわずか 0.471 です。この観察は、さまざまな相互作用戦略の探求をさらに動機づけます: 混合観察 - 介入戦略は構造忠実度を向上させます: 混合 6 ノード設定では、GPT-5.2-high はタスク精度とオールエッジ $F_1$ の両方で 80% を達成しました。しかし、純粋な介入戦略はタスクの精度とオールエッジ $F_1$ の両方においてパフォーマンスが低いため、強力なエージェントですら有益な介入を設計するのに苦労しています。私たちは、エージェントの主要な弱点として早期停止を特定し、仮説と過去のデータとの間の一貫性をモデルに検証するように依頼することが、この問題の軽減に役立つことを示します。したがって、CausaLab は予測の成功を因果関係の理解から切り離し、実験的因果推論者としての現在の LLM エージェントの限界を明らかにします。
原文 (English)
CausaLab: A Scalable Environment for Interactive Causal Discovery Toward AI Scientists
We introduce CausaLab, a scalable environment for evaluating interactive causal discovery by LLM agents. Unlike prior evaluations, CausaLab evaluates both whether an agent can solve a problem using causal evidence and whether its answer is grounded in a faithful recovered causal mechanism. Each episode places an agent in a synthetic laboratory: it receives prior measurement records, intervenes on a manipulator crystal, and predicts the resonance frequency of a held-out reactor crystal governed by the same mechanism. The hidden data-generating process is a randomly sampled structural causal model (SCM), so success requires recovering both a causal graph and structural equations rather than recalling prior knowledge. Experiments show a persistent gap between prediction and mechanism recovery: in the purely observational 6-node setting, GPT-5.2-high reaches 92% task accuracy but only 0.471 all-edge $F_1$. Mixed observation-intervention strategies improve structural fidelity, while pure intervention remains difficult even for strong agents. We identify premature stopping as a major weakness and show that consistency verification mitigates it. CausaLab therefore separates predictive success from causal understanding and exposes current LLM agents' limits as experimental causal reasoners.
Soro: タジキスタン向けの軽量基盤モデルおよびチャットボット
ここでは、タジキスタンでの厳しいコンピューティングと接続の制約下での実際の展開向けに設計された、タジク語に特化した会話型大規模言語モデル (LLM) ファミリーである Soro を紹介します。オープンウェイトの Gemma 3 チェックポイントから開始して、フィルタリングされた Web テキスト、PDF ドキュメント、カリキュラムに合わせた教材にまたがる厳選された 19 億トークンのコーパスに対してタジク語のみの継続的な事前トレーニングを実行し、続いて 40,000 のタジク語教師スタイルのサンプルに対して教師付き指導チューニングを実行します。標準ベンチマークでタジク語がカバーされる範囲が限られているにもかかわらず、厳密な評価を可能にするために、一般知識、言語能力、学校および大学の入学試験の領域をカバーする一連のタジク語ベンチマークを導入し、Hugging Face でオープンソース化しています。これらのタジク語ベンチマーク全体で、Soro は標準データセットで英語の優れたパフォーマンスを維持しながら、同じサイズの Gemma 3 ベースラインを大幅に上回っています。さらに、Soro の FP8 および INT4 量子化により、タジク語の利点のほとんどが維持されると同時に、エッジ展開のメモリ要件が削減され、進行中の教育セクターのパイロットとタジキスタンの学校全体での計画されたスケールアウトがサポートされることも示します。
原文 (English)
Soro: A Lightweight Foundation Model and Chatbot for Tajik
We present Soro, a family of Tajik-specialized conversational large language models (LLMs) designed for real-world deployment under tight compute and connectivity constraints in Tajikistan. Starting from open-weight Gemma 3 checkpoints, we perform Tajik-only continual pretraining on a curated 1.9-billion-token corpus spanning filtered web text, PDF documents, and curriculum-aligned educational materials, followed by supervised instruction tuning on 40K Tajik teacher-style examples. To enable rigorous evaluation despite the limited coverage of Tajik in standard benchmarks, we introduce a suite of Tajik benchmarks covering general knowledge, linguistic competence, and school- and university entrance-exam domains, and we open-source them on Hugging Face. Across these Tajik benchmarks, Soro substantially outperforms same-size Gemma 3 baselines while retaining strong English performance on standard datasets. We further show that FP8 and INT4 quantization of Soro preserves most Tajik-language gains while reducing memory requirements for edge deployment, supporting an ongoing education-sector pilot and planned scale-out across schools in Tajikistan.
FundaPod: AI 支援のファンダメンタル投資調査のためのナレッジ グラフ メモリを備えたマルチペルソナ エージェント ポッド プラットフォーム
大規模言語モデル (LLM) は金融分野での適用が増えていますが、既存の研究のほとんどは取引シグナルや予測を中心とした財務 NLP タスクに重点を置いています。対照的に、制度的基礎研究では、人間のアナリストまたは AI エージェントが証拠を収集し、ビジネス推進要因を特定し、競合する視点を比較し、投資メモを作成する必要があります。その広範な目標は、単に結果を予測することではなく、投資知識の累積的な発展に貢献しながら、透明性、再利用可能、検証可能な投資計画を作成することです。 AI 支援のファンダメンタルズ投資調査のためのマルチペルソナ エージェント プラットフォームである FundaPod を紹介します。私たちは、基礎研究は人間中心の意思決定支援タスクであり、取引シグナルの生成とは質的に異なるため、独立性を維持するアーキテクチャの方が適していると主張します。 FundaPod では、バリュー投資家やマクロ戦略家など、さまざまなペルソナを持つ AI エージェントが、共有の出所契約に基づいて独立して調査を実施します。その後、彼らの意見の相違は、知識グラフ記憶システムを通じて人間のポートフォリオ マネージャー (PM) による裁定のために事後的に表面化されます。この論文は、設計科学の実践と認知的分離と人間と機械の協調の理論に基づいた、基礎研究をサポートする人間と AI のハイブリッド システムの 5 つの設計原則を提供します。また、4 つのアーキテクチャ メカニズムについても説明します。1 つは一般投資家の資料を展開可能なエージェントに変えるペルソナ蒸留パイプラインです。プランナーが型指定されたタスク グラフを導出できるようにする宣言型スキル レジストリ。メモの主張を検証可能な情報源に結び付ける根拠のある証拠モデル。そしてティッカー、メモ、アナリスト、テーマを結び付けるナレッジグラフ「第二の脳」。完全なケーススタディとペルソナベースのメモの比較を通じてアーキテクチャを実証します。
原文 (English)
FundaPod: A Multi-Persona Agent Pod Platform with Knowledge Graph Memory for AI-Assisted Fundamental Investment Research
Large language models (LLMs) are increasingly applied in finance, yet most existing work emphasizes trading signals or financial NLP tasks centered on prediction. Institutional fundamental research, by contrast, requires human analysts or AI agents to gather evidence, identify business drivers, compare competing viewpoints, and generate investment memos. Its broader goal is not merely to predict outcomes, but to produce investment plans that are transparent, reusable, and verifiable, while contributing to the cumulative development of investment knowledge. We present FundaPod, a multi-persona agent platform for AI-assisted fundamental investment research. We argue that fundamental research is a human-centric decision-support task that is qualitatively distinct from trading-signal generation, and is therefore better served by an independence-preserving architecture. In FundaPod, AI agents with different personas, such as value investors or macro strategists, conduct research independently under a shared provenance contract. Their disagreements are then surfaced post hoc for adjudication by the human portfolio manager (PM) through a knowledge-graph memory system. This paper contributes five design principles for human-AI hybrid systems supporting fundamental research, grounded in design-science practice and theories of cognitive isolation and human-machine coordination. It also describes four architectural mechanisms: a persona distillation pipeline that turns public investor materials into deployable agents; a declarative skill registry that lets the planner derive typed task graphs; a grounded evidence model that links memo claims to verifiable sources; and a knowledge-graph "second brain" that connects tickers, memos, analysts, and themes. We demonstrate the architecture through a complete case study and a persona-based memo comparison.
AsyncTool: マルチタスク シナリオでの非同期関数呼び出し機能の評価
大規模言語モデル (LLM) ベースのエージェントは、外部ツールを使用して複雑なタスクを解決する強力な機能を示しています。ただし、既存の評価では、ツール使用の時間的側面、特にツールの応答遅延の影響が見落とされていることが多く、通常は単一タスクの設定に限定されています。実際のアプリケーションでは、多くの場合、複数のタスクを同時に実行する必要があり、全体的な効率は、エージェントがツールの応答を待つ間にアイドル時間を利用できるかどうかによって決まります。この機能を非同期ツール呼び出しと呼びます。これを評価するために、ツールのフィードバックが遅延した対話型のマルチタスク ツール使用環境で LLM ベースのエージェントを評価するためのベンチマークである AsyncTool を提案します。 AsyncTool は、複数の異種タスクを同時に提示し、実行中の現実的なツール応答遅延をシミュレートします。ハイブリッド データ進化戦略を使用して、複数のシナリオとツールの使用パターンをカバーする多様な非同期マルチタスク データセットを構築します。ステップ、サブタスク、およびタスクのレベルでモデルを評価し、タスクの調整と完了の効率を測定するための効率指向のメトリクスを導入します。広範な実験により、ツールのフィードバックが遅れていると、現在のエージェントに大きな課題が生じ、明らかなパフォーマンスの低下につながることが示されています。タスクの切り替え、依存関係の追跡、状態の維持をより適切に調整するモデルは、AsyncTool でより優れたパフォーマンスを実現します。私たちの分析は、現在ツールを使用しているエージェントの主な障害モードを特定し、より強力な時間的推論と調整機能を備えた将来のシステムを設計するための実用的な洞察を提供します。
原文 (English)
AsyncTool: Evaluating the Asynchronous Function Calling Capability under Multi-Task Scenarios
Large language model (LLM)-based agents have shown strong capabilities in using external tools to solve complex tasks. However, existing evaluations often overlook the temporal dimension of tool use, especially the impact of tool response latency, and are usually limited to single-task settings. In real-world applications, multiple tasks often need to be executed concurrently, and overall efficiency depends on whether an agent can use idle time while waiting for tool responses. We refer to this capability as asynchronous tool calling. To evaluate it, we propose AsyncTool, a benchmark for assessing LLM-based agents in interactive multi-task tool-use environments with delayed tool feedback. AsyncTool presents multiple heterogeneous tasks simultaneously and simulates realistic tool response latency during execution. Using a hybrid data evolution strategy, we construct a diverse asynchronous multitasking dataset that covers multiple scenarios and tool-use patterns. We evaluate models at the step, sub-task, and task levels, and introduce efficiency-oriented metrics to measure task coordination and completion efficiency. Extensive experiments show that delayed tool feedback poses substantial challenges to current agents and leads to clear performance degradation. Models that better coordinate task switching, dependency tracking, and state maintenance achieve stronger performance on AsyncTool. Our analysis identifies key failure modes of current tool-using agents and provides practical insights for designing future systems with stronger temporal reasoning and coordination capabilities.
The Importance of Being Statistically Earnest: A Critical Re-evaluation of GSM-Symbolic
The GSM-Symbolic benchmark (Mirzadeh et al., 2025) reported consistent performance drops across 25 Large Language Models (LLMs) when tested…
Are LLMs Socially Adaptive? Contrasting Belief Evolution in Large Language Models and Humans
As large language models (LLMs) increasingly engage in complex social interactions, ensuring that their behaviors align with human ethical…
Jailbreaking and Mitigation of Vulnerabilities in Large Language Models
Large Language Models (LLMs) have transformed artificial intelligence by advancing natural language understanding and generation, enabling…
Is Your LLM Overcharging You? Tokenization, Transparency, and Incentives
State-of-the-art large language models require specialized hardware and substantial energy to operate. As a consequence, cloud-based servic…
GroundAct: Can LLM Agents Ground Actions in Environmental States?
LLM agents achieve 85-96% success on tasks where instructions fully specify the action, but drop to 29-53% when action feasibility depends…
Benchmarking LLM-Assisted Blue Teaming via Standardized Threat Hunting
As cyber threats continue to grow in scale and sophistication, blue team defenders increasingly require advanced tools to proactively detec…
Uncovering Vulnerabilities of LLM-Assisted Cyber Threat Intelligence
Large language models (LLMs) are increasingly used to help security analysts manage the surge of cyber threats, automating tasks from vulne…
AtomWorld: A Benchmark for Evaluating Spatial Reasoning in Large Language Models on Crystalline Materials
Large language models (LLMs) have shown promising potential in scientific research, enabling tasks ranging from knowledge retrieval to prop…
Empathic Prompting: Non-Verbal Context Integration for Multimodal LLM Conversations
We present Empathic Prompting, a novel framework for multimodal human-AI interaction that enriches Large Language Model (LLM) conversations…
ReflexGrad: Within-Episode Failure Recovery in LLM Agents via Progress-Gated Dual-Process Routing
We present ReflexGrad, a dual-process architecture for within-episode failure recovery in LLM agents without demonstrations. When agents co…
E-valuator: Reliable Agent Verifiers with Sequential Hypothesis Testing
Agentic AI systems execute a sequence of actions, such as reasoning steps or tool calls, in response to a user prompt. To evaluate the succ…
Revisiting the Reliability of Language Models in Instruction-Following
Advanced LLMs have achieved near-ceiling instruction-following accuracy on benchmarks such as IFEval. However, these impressive scores do n…
Differential syntactic and semantic encoding in LLMs
We study how syntactic and semantic information is encoded in inner layer representations of Large Language Models (LLMs), focusing on the…
Thinking Before Constraining: A Unified Decoding Framework for Large Language Models
Natural generation allows Large Language Models (LLMs) to produce free-form responses with rich reasoning, yet the lack of structure makes…
From Rubrics to Reliable Scores: Evidence-Grounded Text Evaluation with LLM Judges
Rubric-based text evaluation increasingly uses large language models (LLMs) as scalable judges, but aligning frozen black-box models with h…
Reasoning While Asking: Transforming Reasoning Large Language Models from Passive Solvers to Proactive Inquirers
Reasoning-oriented Large Language Models (LLMs) have achieved remarkable progress with Chain-of-Thought (CoT) prompting, yet they remain fu…
Good SFT Optimizes for SFT, Better SFT Prepares for Reinforcement Learning
Post-training of reasoning LLMs is a holistic process that typically consists of an offline SFT stage followed by an online reinforcement l…
Less is Enough: Synthesizing Diverse Data in LLM Feature Space with Sparse Autoencoders
The diversity of post-training data is critical for effective downstream performance in large language models (LLMs). Many existing approac…
A Language-Guided Bayesian Optimization for Efficient LoRA Hyperparameter Search
Fine-tuning Large Language Models (LLMs) with Low-Rank Adaptation (LoRA) offers a resource-efficient way to personalize or specialize. Howe…
Beyond Normalization: Rethinking the Partition Function as a Difficulty Scheduler for RLVR
Reward-maximizing RL methods have shown to be capable of enhancing the reasoning performance of LLMs, but often lead to reduced generation…
Who can we trust? LLM-as-a-jury for Comparative Assessment
Large language models (LLMs) are increasingly applied as automatic evaluators for natural language generation assessment often using pairwi…
JAEGER: Joint 3D Audio-Visual Grounding and Reasoning in Simulated Physical Environments
Current audio-visual large language models (AV-LLMs) are predominantly restricted to 2D perception, relying on RGB video and monaural audio…
Post-Training Language Models for Crosslingual Consistency
Language models often respond inconsistently to translation-equivalent prompts across languages, undermining the reliability of multilingua…
Steering at the Source: Style Modulation Heads for Robust Persona Control
Activation steering offers a computationally efficient mechanism for controlling Large Language Models (LLMs) without fine-tuning. While ef…
When Should a Robot Think? Resource-Aware Reasoning via Reinforcement Learning for Embodied Robotic Decision-Making
Embodied robotic systems increasingly rely on large language model (LLM)-based agents to support high-level reasoning, planning, and decisi…
Maximizing Mutual Information Between Prompt and Response Improves LLM Performance With No Additional Data
While post-training has successfully improved large language models (LLMs) across a variety of domains, these gains heavily rely on human-l…
Bridge-RAG: An Abstract Bridge Tree Based Retrieval Augmented Generation Algorithm
As an important paradigm for enhancing the generation quality of Large Language Models (LLMs), retrieval-augmented generation (RAG) faces t…
SelfGrader: LLM Jailbreak Detection via Anchored Token-Level Logits
Large Language Models (LLMs) are powerful tools for answering user queries, yet they remain highly vulnerable to jailbreak attacks. Existin…
Combating Data Laundering in LLM Training
Data rights owners can detect unauthorized data use in large language model (LLM) training by querying with proprietary samples. Often, sup…
The Planetary Cost of AI Acceleration, Part II: The 10th Planetary Boundary and the 6.5-Year Countdown
The recent, super-exponential scaling of autonomous Large Language Model (LLM) agents signals a broader, fundamental paradigm shift from ma…
SPEED-Bench: A Unified and Diverse Benchmark for Speculative Decoding
Speculative Decoding (SD) has emerged as a critical technique for accelerating Large Language Model (LLM) inference. Unlike deterministic s…
ReSpinQuant: Efficient Layer-Wise LLM Quantization via Subspace Residual Rotation Approximation
Rotation-based Post-Training Quantization (PTQ) has emerged as a promising solution for mitigating activation outliers in the quantization…
When 2D Tasks Meet 1D Serialization: On Serialization Friction in Structured Tasks
In the LLM era, many symbolic and structured problems are presented to models through 1D text serialization. Yet some such problems are nat…
CalBench: Evaluating Coordination-Privacy Trade-offs in Multi-Agent LLMs
Personal AI assistants are beginning to act as delegates with access to calendars, inboxes, and user preferences. Calendar scheduling makes…
Teacher-Guided Policy Optimization for On-Policy Reasoning Distillation under Large Policy Divergence
On-policy distillation (OPD) has become a promising paradigm for reasoning-oriented post-training of large language models (LLMs), especial…
Reducing Political Manipulation with Consistency Training
Large language models (LLMs) exhibit systematic political bias across a variety of sensitive contexts. We find that LLMs handle counterpart…
Tiny Brains, Giant Impact: Uncovering the Keystone Neurons of LLM with Just a Few Prompts
Large language models (LLMs) display strong comprehensive abilities, yet the internal mechanisms that support these behaviors remain insuff…
GoQuant: Geometric Orthogonal Residual Projection for Multiplier-Free Power-of-Two Transformer Quantization
The deployment of Large Language Models (LLMs) and Vision Transformers (ViTs) on edge devices is significantly constrained by memory limita…
偏見をバグに変える: LLM 裁判官に対する盗賊主導のスタイル操作攻撃
冗長性や特定の文構造を好むなど、LLM 裁判官の既知の文体上の偏見は、十分に調査されていないセキュリティ上の脆弱性を示しています。この研究では、LLM 裁判官を誤解させ、割り当てられるスコアを人為的につり上げるために意味論を保持する編集を学習するブラックボックスの敵対的フレームワークである BITE (BIas exploraTion and Exploitation) を導入します。スタイル編集の選択をコンテキスト バンディット問題としてキャストし、LinUCB ポリシーを使用して、モデル パラメーターや勾配にアクセスせずに審査員のスコアを最大化する編集を適応的に選択します。経験的に、チャットボットのリーダーボードと AI レビューアーのベンチマークでのポイントごとの比較とペアごとの比較の両方を含む、さまざまな LLM ジャッジとタスクにわたって BITE をテストします。 BITE は、意味上の同等性を維持しながら、65% を超える攻撃成功率を達成し、9 ポイント スケールで 1 ~ 2 ポイントスコアを上げます。さらに攻撃のステルス性を評価し、BITE が標準的なスタイル制御手法といくつかの検出ベースラインを回避していることを示しました。私たちの調査結果は、裁判官としての LLM パラダイムの根本的な弱点を明らかにし、堅牢で攻撃を意識した評価を動機付けます。私たちのコードは https://github.com/xianglinyang/llm-as-a-judge-attach で入手できます。
原文 (English)
Turning Bias into Bugs: Bandit-Guided Style Manipulation Attacks on LLM Judges
The known stylistic biases in LLM judges, such as a preference for verbosity or specific sentence structures, present an underexplored security vulnerability. In this work, we introduce BITE (BIas exploraTion and Exploitation), a black-box adversarial framework that learns semantics-preserving edits to mislead an LLM judge and artificially inflate the scores it assigns. We cast the selection of stylistic edits as a contextual bandit problem and use a LinUCB policy to adaptively choose edits that maximize the judge's score without access to model parameters or gradients. Empirically, we test BITE across a diverse range of LLM judges and tasks, including both pointwise and pairwise comparisons on chatbot leaderboards and AI-reviewer benchmarks. BITE achieves an attack success rate exceeding 65% and raises scores by 1-2 points on a 9-point scale, all while preserving semantic equivalence. We further assess the attack's stealthiness, showing that BITE evades standard style-control methods and several detection baselines. Our findings expose a fundamental weakness in the LLM-as-a-judge paradigm and motivate robust, attack-aware evaluation. Our code is available at https://github.com/xianglinyang/llm-as-a-judge-attack.
Enhancing LLM Medical Coding with Structured External Knowledge
Accurate medical coding requires consulting authoritative resources such as the ICD tabular list and coding guidelines. Existing LLM-based…
The Alignment Floor: How Persona Customization Breaks Safety in Weakly-Aligned LLMs
Telling an LLM to "be enthusiastic" raises its sycophancy rate from 30\% to 50\% on a lightly-aligned model, but has zero effect on a stron…
BIRDS: Characterizing and Understanding Biodiversity Impact of Large Language Model Serving
Large language model (LLM) serving creates environmental impacts beyond carbon and water, including ecosystem damage through biodiversity-r…
ROVER: Routing Object-Centric Visual Evidence for Grounded Multi-Image Reasoning
Multimodal Large Language Models (MLLMs) have increasingly localized and interleaved visual evidence for deliberative reasoning. Grounding-…
「Mythos級モデル」一般提供、数週間以内に 米Anthropic「Opus 4.8」リリース
より強力な安全策を講じた上で、数週間以内に全顧客に提供するとの見通しだという。
富士通がOpenAI、Anthropicと相次ぎ提携 AIベンダーと組む狙いは?
富士通はOpenAIとAnthropicとの提携を同じ日に発表した。自社独自のAI技術を持つ同社は、AIベンダーとの提携によって何を狙うのか。
「Google Antigravity 2.0と戯れながら感じたこと」と「LLM Wikiを実践して『ロケスマペディア』を作ってみた」
かわさきからは「Google Antigravity 2.0と戯れながら感じたこと」というタイトルで生成AI時代における教科書的コンテンツの存在意義と、AIにコードを書かせる時代の学び方について、一色からは「LLM Wikiを実践して『ロケスマペディア』を作ってみた」というタイ…
Anthropic raises $65 billion, nears $1T valuation ahead of IPO
Anthropic has closed a $65 billion Series H round at a $965 billion post-money valuation, marking what could be the AI startup's final priv…
デジタル庁、AI「源内」向け国産LLM再公募 有償の政府調達へ 評価テストは50問→300問に
初回公募は無償試用を前提に募集したが、27年度向け公募では政府調達(有償)に移行する。
Anthropic releases Opus 4.8 with new ‘dynamic workflow’ tool
The new Opus model comes with a tool called Dynamic Workflows, for coordinating swarms of subagents.
Anthropic、Claude Opus 4.8を一般提供 誠実さが飛躍的に向上、Mythosに並ぶアライメント性能を実現
Anthropicは、AIモデルの最新版「Claude Opus 4.8」の一般提供を開始した。前世代から推論やコーディング能力を向上させ、自らの作業の不確実性に対する「誠実さ」が劇的に改善した。また、数百のサブエージェントを並行して走らせる新機能「dynamic workfl…
How long is Anthropic’s lease with SpaceX? Opinions vary
Elon Musk is publicly reframing xAI’s massive Anthropic compute deal as short-term and cancellable, despite SpaceX’s own S-1 filing describ…
Sneak peek at new Siri app reveals Apple’s plans to take on ChatGPT and more
New renders offer a closer look at Apple’s planned AI overhaul for iOS 27, including a redesigned Siri experience and standalone Siri app.
テキスト内の人間の価値観の特定と理解: カスタマイズ可能な LLM ベースのアーキテクチャ
インテリジェント システムがより自律的になるにつれて、科学界は従来の効用最大化モデルとは異なり、倫理的および道徳的考慮事項を含む意思決定メカニズムの構築に焦点を当てています。これを達成するために重要な点は、これらの決定が人間の価値観とどの程度一致しているかを評価することです。この目的を達成するために、明示的か暗黙的かにかかわらず、テキストから人間の価値観を特定し、全体を通してその認識を可能にする、大規模言語モデル (LLM) に基づくアプローチの開発を中心とした有望な研究が行われています。この論文では、特定の価値理論や複雑なプロンプト エンジニアリングに結び付けられた以前のアプローチの制限を回避し、テキスト内の人間の価値観の強度を検出および定量化するための LLM ベースのアーキテクチャを紹介します。このアーキテクチャは 3 つの調整されたモジュールで構成されます。1 つは理論的フレームワークの基礎テキストから構造化された値の仕様を生成します。これらの仕様を使用してテキストにラベルを付けるもの。もう 1 つは、修辞的および意味論的な証拠に基づいて段階的な支持または抵抗を割り当てるものです。このモジュール式のアプローチは、人間の価値観の検出から概念化のタスクを分離し、さまざまな理論に適応できる価値の仕様によって推進される、スケーラブルで再現可能なプロセスを作成します。アーキテクチャは複数の LLM でインスタンス化され、ValueEval データセットを使用して評価されました。実験では良好な検出パフォーマンスが実証され、パイプラインの一般性が確認されました。
原文 (English)
Identifying and Understanding Human Values in Text: A Tailorable LLM-based Architecture
As intelligent systems become more autonomous, the scientific community focuses on creating decision-making mechanisms that include ethical and moral considerations, unlike traditional utility-maximisation models. To achieve this, a key aspect is assessing how well these decisions align with human values. To this end, a promising line of research is centred on developing approaches based on Large Language Models (LLMs) to identify human values from text, whether explicit or implicit, enabling their recognition throughout. This paper introduces a LLM-based architecture to detect and quantify the intensity of human values in text, avoiding the limitations of previous approaches tied to specific value theory or complex prompt engineering. The architecture comprises three coordinated modules: one that generates structured value specifications from the foundational texts of any theoretical framework; one that labels texts using these specifications; and one that assigns graded support or resistance based on rhetorical and semantic evidence. This modular approach separates the tasks of conceptualising from detecting human values, creating a scalable and reproducible process driven by value specifications adaptable to various theories. The architecture was instantiated with multiple LLMs and evaluated using the ValueEval dataset. The experiments demonstrate good detection performance, confirming the generality of the pipeline.
Soro: タジキスタン向けの軽量基盤モデルおよびチャットボット
ここでは、タジキスタンでの厳しいコンピューティングと接続の制約下での実際の展開向けに設計された、タジク語に特化した会話型大規模言語モデル (LLM) ファミリーである Soro を紹介します。オープンウェイトの Gemma 3 チェックポイントから開始して、フィルタリングされた Web テキスト、PDF ドキュメント、カリキュラムに合わせた教材にまたがる厳選された 19 億トークンのコーパスに対してタジク語のみの継続的な事前トレーニングを実行し、続いて 40,000 のタジク語教師スタイルのサンプルに対して教師付き指導チューニングを実行します。標準ベンチマークでタジク語がカバーされる範囲が限られているにもかかわらず、厳密な評価を可能にするために、一般知識、言語能力、学校および大学の入学試験の領域をカバーする一連のタジク語ベンチマークを導入し、Hugging Face でオープンソース化しています。これらのタジク語ベンチマーク全体で、Soro は標準データセットで英語の優れたパフォーマンスを維持しながら、同じサイズの Gemma 3 ベースラインを大幅に上回っています。さらに、Soro の FP8 および INT4 量子化により、タジク語の利点のほとんどが維持されると同時に、エッジ展開のメモリ要件が削減され、進行中の教育セクターのパイロットとタジキスタンの学校全体での計画されたスケールアウトがサポートされることも示します。
原文 (English)
Soro: A Lightweight Foundation Model and Chatbot for Tajik
We present Soro, a family of Tajik-specialized conversational large language models (LLMs) designed for real-world deployment under tight compute and connectivity constraints in Tajikistan. Starting from open-weight Gemma 3 checkpoints, we perform Tajik-only continual pretraining on a curated 1.9-billion-token corpus spanning filtered web text, PDF documents, and curriculum-aligned educational materials, followed by supervised instruction tuning on 40K Tajik teacher-style examples. To enable rigorous evaluation despite the limited coverage of Tajik in standard benchmarks, we introduce a suite of Tajik benchmarks covering general knowledge, linguistic competence, and school- and university entrance-exam domains, and we open-source them on Hugging Face. Across these Tajik benchmarks, Soro substantially outperforms same-size Gemma 3 baselines while retaining strong English performance on standard datasets. We further show that FP8 and INT4 quantization of Soro preserves most Tajik-language gains while reducing memory requirements for edge deployment, supporting an ongoing education-sector pilot and planned scale-out across schools in Tajikistan.
DynaSchedBench: LLM ベースのスケジューリング エージェントにおける調整された動的スケジューリング ベンチマークと可観測性のパラドックス
Dynamic Flexible Job Shop Scheduling 問題 (DFJSP) に対するニューラル組み合わせ最適化の進歩は、現在、方法論上の緊張によって妨げられています。静的なベンチマークはベンチマークのオーバーフィッティングを促進し、一方、校正されていないジェネレーターは確率的ノイズによってアルゴリズムの機能を曖昧にします。これを解決するために、インスタンス生成プロセスを厳密に制御する DFJSP の診断フレームワークである \textbf{DynaSchedBench} を導入します。私たちのアプローチでは、パラメーター サンプリングに依存する代わりに、新しいスケジュール ストレス インデックス (SSI) を計算する Sequential Event-Space Calibrator (SESC) を利用して、インスタンスを難易度ごとに階層化します。我々は、SESCが進化的ベースラインよりも計算効率が大幅に高く、ターゲットメトリクスに確実に収束することを実証します。このフレームワークは、インスタンスの生成、スナップショットベースのシミュレーション、エージェント、評価、視覚化などのモジュール式コンポーネントを統合しており、それにより、事後対応および先読みベースのポリシーの厳密なテストが可能になります。この調整された環境を活用して、LLM ベースのスケジューリング エージェントの主要な制限を特定します。具体的には、動的スケジューリングのための段階的なオンライン意思決定において、完全な構造情報へのオラクルアクセスをエージェントに提供すると、ポリシーのパフォーマンスが低下し、簡潔な情報のパフォーマンスが低下する可能性があるという「可観測性のパラドックス」を特定しました。さらに、トークンのオーバーヘッドが大きいにもかかわらず、ツールによる拡張戦略や改良戦略では確実にパフォーマンスを向上させることができず、ほとんどの LLM エージェントは強力なディスパッチング ベースラインを継続的に超えることができず、優れたオプティマイザというよりも堅牢なヒューリスティック近似器のように動作します。
原文 (English)
DynaSchedBench: Calibrated Dynamic Scheduling Benchmarks and Observability Paradox in LLM-based Scheduling Agents
Progress in neural combinatorial optimization for Dynamic Flexible Job Shop Scheduling Problem (DFJSP) is currently hindered by a methodological tension: static benchmarks encourage benchmark overfitting, while uncalibrated generators obscure algorithmic capability with stochastic noise. To resolve this, we introduce \textbf{DynaSchedBench}, a diagnostic framework for DFJSP that rigorously controls the instance-generation process. Instead of relying on parameter sampling, our approach utilizes Sequential Event-Space Calibrator (SESC) that computes a novel Schedule Stress Index (SSI) to stratify instances by difficulty. We demonstrate that SESC is substantially more computationally efficient than evolutionary baselines while converging reliably to the target metrics. The framework integrates modular components for instance generation, snapshot-based simulation, agents, evaluation, and visualization, thereby enabling rigorous testing of reactive and lookahead-based policies. Leveraging this calibrated environment, we identify key limitations of LLM-based scheduling agents. Specifically, in step-wise online decision-making for dynamic scheduling, we identify an ``Observability Paradox'': providing agents with oracle access to full structural information can degrade policy performance, underperforming concise information. Furthermore, despite substantial token overhead, tool-augmented and refinement strategies fail to reliably improve performance, and most LLM agents fail to consistently surpass strong dispatching baselines-behaving more like robust heuristic approximators than superior optimizers.
なぜLLMは因果関係発見に失敗するのか、そして介入エージェントはどのようにして逃亡するのか
因果関係の発見は科学的推論の基礎ですが、大規模な言語モデルがそれを確実に実行できるかどうかは未解決の問題のままです。最近のベンチマークでは、微調整されたモデルでも単純な因果グラフでは頭打ちになり、複雑さが増すにつれて低下することが示されていますが、なぜ失敗するのかはまだ解明されていません。私たちは、この失敗が根本的なものであることを証明しました。教師あり微調整、直接優先最適化、およびコンテキスト内学習はすべて、同様の観測データを生成する因果グラフを区別できない予測子を生成します。また、そうしようとすると、モデルの内部表現が際限なく増大する必要があり、これらの手法が機能するまさにその条件に違反します。私たちはこれをカーネル障害定理として形式化し、この制限が学習パラダイムに固有のものであり、 \emph{特定のモデルやデータセットではない} ことを確立します。我々は、エージェント的因果ベイジアン最適化(A-CBO)を提案します。この最適化では、凍結された言語モデルが、介入効果に関する対象を絞ったクエリに答える介入の神託として機能し、外部ベイジアン ループが、対数的に多くのラウンドで候補グラフに対する信念を集中させます。この決定は障害が適用される空間の外側で行われるため、基礎となるモデルは変更されないまま、A-CBO は明らかに収束します。 Corr2Cause では、A-CBO はトレーニングなしで微調整されたベースラインと一致します。 18,000 個のテスト サンプルを使用して 24 個の変数にスケーリングする新しいベンチマークである Extended Corr2Cause では、A-CBO は微調整と設定の最適化の両方を大幅に上回り、利点が増大しています。
原文 (English)
Why LLMs Fail at Causal Discovery and How Interventional Agents Escape
Causal discovery is a cornerstone of scientific reasoning, yet whether large language models can perform it reliably remains an open question. Recent benchmarks show that even fine-tuned models plateau on simple causal graphs and degrade as complexity grows, but why they fail has not been established. We prove the failure is fundamental: supervised fine-tuning, direct preference optimization, and in-context learning all produce predictors that cannot distinguish between causal graphs generating similar observational data, and any attempt to do so requires the model's internal representations to grow unboundedly, violating the very conditions under which these methods work. We formalize this as a kernel obstruction theorem, establishing that the limitation is intrinsic to the learning paradigm, \emph{not any particular model or dataset}. We propose Agentic Causal Bayesian Optimization (A-CBO), wherein a frozen language model serves as an interventional oracle answering targeted queries about intervention effects, while an external Bayesian loop concentrates beliefs over candidate graphs in logarithmically many rounds. Because the decision operates outside the space where the obstruction applies, A-CBO provably converges while the underlying model remains unchanged. On Corr2Cause, A-CBO matches fine-tuned baselines without any training. On Extended Corr2Cause, a new benchmark scaling to 24 variables with 18K test samples, A-CBO significantly outperforms both fine-tuning and preference optimization, with the advantage growing
LaneRoPE: 協調的な並列推論と生成のための位置エンコーディング
並列 LLM テスト時間スケーリング手法 ($N$ のベストなど) では、同じ入力プロンプトを条件とした $N>1$ シーケンスを描画する必要があります。これらの方法は、$N$ 世代のバッチ処理による計算効率を活用しながら、精度を向上させます。ただし、バッチ内の各シーケンスは伝統的に独立して生成されるため、他のシーケンスからの中間生成、計算、または観測結果を再利用しません。この論文では、生成時に $N>1$ シーケンス間の調整とコラボレーションを可能にする LaneRoPE を提案します。 LaneRoPE には 2 つの重要なアイデアが含まれています。(a) シーケンスのサンプリングを相互に依存させるためのシーケンス間アテンション マスク。 (b) 特定のシーケンス内外のトークン間の相対位置を捕捉する位置情報を注入する RoPE 拡張機能。私たちは数学的推論タスクに対するアプローチを評価し、有望な結果を発見しました。LaneRoPE はシーケンス間のコラボレーションを可能にし、限られた生成されたシーケンス長の下でさらなる精度の向上をもたらします。重要なのは、LaneRoPE を使用すると、基礎となる LLM アーキテクチャへの最小限の変更で調整が可能になり、推論時のオーバーヘッドが無視できる程度になるため、既存の LLM 推論パイプラインに並列推論を迅速に組み込むことができる点が魅力的です。
原文 (English)
LaneRoPE: Positional Encoding for Collaborative Parallel Reasoning and Generation
Parallel LLM test-time scaling techniques (e.g., best-of-$N$) require drawing $N>1$ sequences conditioned on the same input prompt. These methods boost accuracy while exploiting the computational efficiency of batching $N$ generations. However, each sequence in the batch is traditionally generated independently and hence does not reuse intermediate generations, computations, or observations from other sequences. In this paper, we propose LaneRoPE to enable coordination and collaboration among $N>1$ sequences at generation time. LaneRoPE involves two key ideas: (a) an inter-sequence attention mask to make sampling of sequences dependent on one another; and (b) a RoPE extension that injects positional information that captures relative positions between tokens, both within and outside a particular sequence. We evaluate our approach on mathematical reasoning tasks and find promising results: LaneRoPE enables collaboration among sequences, yielding additional accuracy gains under limited generated sequence length. Importantly, since LaneRoPE enables coordination with minimal changes to the underlying LLM architecture and introduces a negligible overhead at inference time, it is appealing to rapidly incorporate parallel reasoning into existing LLM inference pipelines.
競合するLLMエージェントにおける秘密ツールによる自発的な共謀
ツールが不公平で他者に有害であると明示されている場合でも、表向きは安全を重視する LLM エージェントは、戦略的優位性をもたらす場合には常に自発的に秘密裏に共謀を行っています。この現象を調査するために、我々は 2 つの戦略的なマルチエージェント環境に基づいて構築された経験的フレームワークを導入します。ライアーズ バー (競争的欺瞞シナリオ) とクリーンアップ (混合動機リソース管理シナリオ) です。このシナリオでは、エージェントには、明らかに他のエージェントに不利な点を与えながら大きな利点を提供する秘密結託ツールが提供されます。 12 のモデル (7B、70B、および独自のスケール) と 6 つのプロンプトのバリアントにわたって、ほとんどのエージェントが一貫してこれらのツールを受け入れ、共謀的な戦略を開発する一方で、受け入れる前にツールの不公平性を明確に認識していることがわかりました。さらに、不公平のラベルやベースラインの調整だけでは共謀を確実に阻止できないことも示します。明示的な倫理的枠組みのみが採用を減らし、それでも小規模なモデルは影響を受けやすいままです。より広範に、私たちの研究は、LLM ベースのマルチエージェント システムにおける自発的な共謀の導入に関する初めての体系的な調査を示しており、そのような行為を防ぐには、一般的な調整に依存するのではなく、明示的な保護手段が必要であることを示唆しています。
原文 (English)
Voluntary Collusion with Secret Tools in Competing LLM Agents
Even when a tool is explicitly described as unfair and harmful to others, ostensibly safety-aligned LLM agents still voluntarily engage in secret collusion whenever doing so confers a strategic advantage. To investigate this phenomenon, we introduce an empirical framework built on two strategic multi-agent environments: Liar's Bar, a competitive deception scenario, and Cleanup, a mixed-motive resource-management scenario, in which agents are offered secret collusion tools that provide significant advantages while clearly disadvantaging the other agents. Across 12 models (at the 7B, 70B, and proprietary scales) and 6 prompt variants, we find that most agents consistently accept these tools and develop collusive strategies, while explicitly acknowledging the unfairness of the tools before accepting. We further show that neither the unfairness labels nor baseline alignment alone reliably deters collusion: only explicit ethical framing reduces adoption and, even then, smaller models remain susceptible. More broadly, our work presents the first systematic investigation of voluntary collusion adoption in LLM-based multi-agent systems, and suggests that preventing such behaviour requires explicit safeguards rather than reliance on general alignment.
クロスエントロピー ゲームとフロスト トレーニング
クロスエントロピー ゲームと呼ばれる、裁判官としての LLM タスクの大規模なファミリーに対するモンテカルロ ベースのポリシー最適化を改善するための手法である Frost Training を紹介します。重要なアイデアは、埋め込み空間における報酬関数の勾配を利用することです。この信号は、貪欲座標勾配 (GCG) ジェイルブレイク手法で使用されます。私たちは、これがモデルのトレーニングを強化するためにも使用できることを初めて実証しました。最尤充填のための GRPO トレーニングを使用して方法を検証します。フロスト トレーニングにより、高スコアの出力を生成するモデルの能力が向上し、best-of-k 設定でより高い最大スコアに達し、高速化されます。
原文 (English)
Cross-Entropy Games and Frost Training
We present Frost Training, a method for improving Monte Carlo-based policy optimization for a large family of LLM-as-a-judge tasks called Cross-Entropy Games. The key idea is to exploit the gradient of the reward function in embedding space. This signal is used in the Greedy Coordinate Gradient (GCG) jailbreaking technique; we demonstrate for the first time that it can also be used to boost model training. We validate our method using GRPO training for maximum-likelihood infilling. Frost Training improves the model's ability to generate high-scoring outputs, reaching higher maximum scores in a best-of-k setting, and does so at an increased speed.
リソースに制約のあるエージェント言語モデルの階層型プロンプト ドメイン制御と学習
大規模言語モデルはエージェント システム内に導入されることが増えており、そこでは構造化されたプロトコルに従い、進化する状態に適応し、メモリ、遅延、コストの制約の下で動作する必要があります。このような体制では、プロンプト拡張は信頼できません。成長するコンテキストによって、コンパクトなモデルが有効なプロンプト領域の外に押し出される可能性がありますが、デプロイメント時の微調整は、不足したデータとコンピューティングによって制限されたままになります。私たちは、最初にコンパクトなモデルを抽出して必要な出力スキーマを学習し、次に Oracle コントローラー ループによってオンラインで監視する、階層的な制御と学習のフレームワークを提案します。コントローラーはプロトコルの有効性とセマンティックパフォーマンスを監視し、蓄積された履歴を実行可能なプロンプトドメインに投影し、ドリフト下で軽量のオラクル監視による微調整をトリガーします。これにより、通信互換性のためのスキーマ学習と、タスクレベルの修正のためのセマンティック適応が分離されます。私たちは、プロンプトドメインの実現可能性と注意誘発性の飽和を形式化し、名目上のコンテキスト長に依存するのではなく、効果的なプロンプト状態の制御を動機付けます。マルチフィデリティ ベイジアン最適化を制御された逐次テストベッドとして使用して、コア デプロイメントの障害モードを特徴付け、非階層ベースライン、蒸留のみのベースライン、および非蒸留ベースラインと比較して信頼性とコスト効率が向上していることを示します。
原文 (English)
Hierarchical Prompt-Domain Control and Learning for Resource-Constrained Agentic Language Models
Large Language Models are increasingly deployed inside agentic systems, where they must follow structured protocols, adapt to evolving states, and operate under memory, latency, and cost constraints. In such regimes, prompt extension is unreliable: growing contexts can push compact models outside their effective prompt domain, while deployment-time fine-tuning remains limited by scarce data and compute. We propose a hierarchical control-and-learning framework in which a compact model is first distilled to learn the required output schema, then supervised online by an oracle-controller loop. The controller monitors protocol validity and semantic performance, projects accumulated histories into a feasible prompt domain, and triggers lightweight oracle-supervised fine-tuning under drift. This separates schema learning for communication compatibility from semantic adaptation for task-level correction. We formalize prompt-domain feasibility and attention-induced saturation, motivating control of the effective prompt state rather than reliance on nominal context length. Using Multi-Fidelity Bayesian Optimization as a controlled sequential testbed, we characterize a core deployment failure mode and show improved reliability and cost-efficiency over non-hierarchical, distillation-only, and non-distilled baselines.
DeepSciVerify: 科学的主張の検証 -- LLM 主導の証拠エスカレーションによる引用の調整
主張と引用された証拠の間の不一致は、大規模な言語モデルによって生成されたレポートでよく見られる失敗モードであり、科学やその他のリスクの高い状況での信頼性が制限されます。我々は、抽象レベルの推論とパッセージレベルの証拠への選択的エスカレーションを組み合わせた、科学的な主張と引用の検証のための 2 段階のパイプラインである DeepSciVerify を紹介します。このシステムは、最初に要約を使用して主張を検証し、不確実なケースは延期し、必要な場合にのみ全文文を取得して分析します。この設計では、一部のモデルはより保守的である一方、他のモデルは不確実性の下でより決定的であるため、LLM 全体での相補的な動作を活用しています。 SCitance ベンチマークでは、DeepSciVerify は 86.7 Micro-F1 を達成し、全文検索なしでインスタンスの 67% を解決しながら、抽象のみの強力なベースラインを +4.5 ポイント上回りました。これらの結果は、選択的証拠エスカレーションにより、クレームと引用の検証の精度と効率の両方が向上することを示唆しています。
原文 (English)
DeepSciVerify: Verifying Scientific Claim--Citation Alignment via LLM-Driven Evidence Escalation
Misalignment between claims and their cited evidence is a common failure mode in reports generated by large language models, limiting their reliability in scientific and other high-stakes settings. We present DeepSciVerify, a two-stage pipeline for scientific claim-citation verification that combines abstract-level reasoning with selective escalation to passage-level evidence. The system first verifies claims using the abstract and defers uncertain cases, retrieving and analyzing full-text passages only when necessary. This design leverages complementary behaviors across LLMs, as some models are more conservative while others are more decisive under uncertainty. On the SCitance benchmark, DeepSciVerify achieves 86.7 Micro-F1, outperforming strong abstract-only baselines by +4.5 points while resolving 67% of instances without full-text retrieval. These results suggest that selective evidence escalation improves both accuracy and efficiency in claim-citation verification.
LLM 推論の信頼性のためのプレフィックスセーフなベイジアン信念追跡: キャリブレーションとランキングの分離
長い推論トレースでは、最終的な答えが判明する前に信頼性の推定が必要です。プレフィックスセーフな観測を使用して、プレフィックス条件付き最終的成功推定 $P(y=1 \mid o_{1:t})$ を研究します。 Sequential Bayesian Belief Tracking (SBBT) は、観測の尤度を調整し、2 状態の信念を再帰的に更新し、スカラー スコア、テキストおよび自己検証マーカー、隠れたクラスター、トークン プーリング プローブ、潜在軌道特徴の共通トラッカーを提供します。 MATH-500、GSM8K、AIME 2025、および RIMO-N で生成されたオープンウェイト トレース全体で、確率の品質とランキングは分離されています。スコアのみの SBBT はブライアーを向上させることがよくありますが、AUROC のゲインには強力なプレフィックス セーフ ベースラインを超えた構造を認識した証拠が必要です。最も強力なハード数学設定では、構造を認識した観測値は、標準のプレフィックス セーフ ベースラインに対して +0.110 AUROC に達します。同一プレフィックス分類子の監査では、MATH-500 テキスト マーカーと RIMO-N 自己検証シグナルは肯定的なままです。まとめると、これらの発見は、キャリブレーションを意識したオンライン推論フレームワークとしての SBBT をサポートし、証拠体制を明らかにします。スカラー スコアは主に確率の品質をサポートしますが、構造を認識したプレフィックス信号は、強力なプレフィックス セーフ ベースラインがランクの証拠をまだ吸収していない場合にのみランク付けをサポートします。
原文 (English)
Prefix-Safe Bayesian Belief Tracking for LLM Reasoning Reliability:Separating Calibration from Ranking
Long reasoning traces need reliability estimates before final answers are known. We study prefix-conditioned eventual-success estimation, $P(y=1 \mid o_{1:t})$, using prefix-safe observations. Sequential Bayesian Belief Tracking (SBBT) calibrates observation likelihoods and recursively updates a two-state belief, providing a common tracker for scalar scores, text and self-verification markers, hidden clusters, token-pooling probes, and latent-trajectory features. Across generated open-weight traces on MATH-500, GSM8K, AIME 2025, and RIMO-N, probability quality and ranking separate: score-only SBBT often improves Brier, while AUROC gains require structure-aware evidence beyond strong prefix-safe baselines. In the strongest hard math setting, structure-aware observations reach +0.110 AUROC against standard prefix-safe baselines. Under a same-prefix classifier audit, MATH-500 text markers and RIMO-N self-verification signals remain positive. Together, these findings support SBBT as a calibration-aware online inference framework and expose an evidence regime: scalar scores mainly support probability quality, while structure-aware prefix signals support ranking only when strong prefix-safe baselines have not already absorbed the rank evidence.
エージェント LLM サービスを提供するためのポリシー駆動型ランタイム層
マルチエージェント LLM システムは主要な運用ワークロードになっていますが、サービス スタックはそれらのために構築されていませんでした。上記のエージェント フレームワークは、エージェントの ID、役割、スキーマ、ディスパッチ構造を認識していますが、エンジン レベルのイベントを認識することはありません。以下のサービス エンジンはすべてのイベントを確認しますが、エージェントについては何も知りません。驚くほど多くの横断的なポリシーが、プレフィックス キャッシュ、バッチ シェーピング、投機的実行、公平性、ツール結果のメモ化、安全性の強制などの両方に依存しています。それぞれが 2 つの層の間の継ぎ目に存在しており、現在は、一方の層または他方の層に 1 回限りのパッチを適用することで解決されています。私たちは、この継ぎ目は点修正ではなくアーキテクチャ変更によって最もよく対処できると主張します。つまり、フレームワークとエンジンの間に 3 番目の層であるエージェント ランタイム層を挿入し、エージェント ID を共有座標としてエージェント認識ポリシーが接続される 4 つのプリミティブ (観察、スコア、予測、動作) を公開します。 9 つの具体的なポリシーをレイヤーにマッピングし、最大の当面のサービス コスト レバーを持つ抽象化を徹底的に検証します。これは、CacheSage としてインスタンス化されたセッションにわたる KV キャッシュです。これは、ワークロードごとのエージェント移行マトリックスをオンラインで学習し、それを生存ベースのエビクションとステップ間のプリフェッチに使用します。 5 つの実際のマルチエージェント ワークロードに関する暫定結果では、未変更のサービング スタックと比較して、キャッシュ ヒット率が +13 ~ +37 pp 向上し、平均 TTFT が 12 ~ 29% 低下し、スループットが 6 ~ 14% 向上したことが示されています。
原文 (English)
A Policy-Driven Runtime Layer for Agentic LLM Serving
Multi-agent LLM systems have become the dominant production workload, but the serving stack was not built for them. The agent framework above knows agent identities, role, schemas, and dispatch structure but never sees an engine-level event; the serving engine below sees every event but knows nothing about agents. A surprising number of cross-cutting policies depend on both: prefix caching, batch shaping, speculative execution, fairness, tool-result memoization, safety enforcement, and more. Each lives in the seam between the two layers and is currently solved by a one-off patch into one neighbor or the other. We argue this seam is best addressed by an architectural change rather than point fixes: insert a third tier, an agent runtime layer, between the framework and the engine, exposing four primitives (observe, score, predict, act) into which any agent-aware policy plugs, with agent identity as the shared coordinate. We map nine concrete policies onto the layer and validate the abstraction in depth on the one with the largest immediate serving-cost lever: KV caching across sessions, instantiated as CacheSage, which learns the per-workload agent transition matrix online and uses it for survival-based eviction and between-step prefetch. Preliminary results on five real multi-agent workloads show +13 to +37 pp cache hit-rate lift, 12% to 29% lower mean TTFT, and 6% to 14% higher throughput over an unmodified serving stack.
尋ねるだけでは不十分: LLM 信頼性キャリブレーションにおけるプロトコル感度
LLM の信頼度調整は、多くの場合、トークン確率スコアと言語化された信頼度という 2 つのシグナルを比較することによって評価されます。これらの信号はモデルの不確実性の直接の読み取り値として扱われることがありますが、その比較はめったに明示されない測定の選択に依存します。主要な分析では、言語化された信頼性の引き出しを固定します。つまり、単一のプロンプト テンプレート、確率スケール、および出力形式です。次に、言語化対トークンの比較を定義する測定軸を変更します。つまり、どの応答文字列がトークン確率スコアを受け取るか、そのスコアが応答トークンからどのように読み取られるか、およびどの条件付けコンテキストの下で測定されるかです。この設計を、同じファミリーの堅牢性チェックとしてより大きな Qwen2.5 バリアントを使用した、3 つのオープン 7 ~ 8B ベース/Instruct モデル ファミリにわたる 4 つの QA ベンチマークで評価しました。結果として得られる比較は、これらの選択に影響されます。コンディショニング コンテキストは設定全体で ECE ギャップの符号または大きさを変更し、トークンの読み出しでは小さいながらも符号が移動する変化が生成され、ECE 推定量を変更してもほとんど効果がありません。デフォルトの生成された回答、ベアコンテキストプロトコルの下では、指示設定は、言語化された信頼性に対する大きな調整ゲインを示すのではなく、同等に近いものになります。別の提供された回答分析では、表面的にもっともらしい誤った回答は、提供されたゴールドアンサーとほぼ同じ信頼度を得ており、言語化された信頼度は、正しさだけではなく、回答のもっともらしさと出所も反映していることを示唆しています。私たちは、両方の信頼シグナルはプロトコル依存の行動測定として扱われるべきであり、引き出しの来歴、採点された回答、トークン確率の読み出し、およびコンディショニングコンテキストをカバーするレポートチェックリストを提供する必要があると主張します。
原文 (English)
Asking Is Not Enough: Protocol Sensitivity in LLM Confidence Calibration
LLM confidence calibration is often evaluated by comparing two signals: token-probability scores and verbalized confidence. These signals are sometimes treated as direct readouts of model uncertainty, but their comparison depends on measurement choices that are rarely made explicit. In the main analysis, we hold the verbalized-confidence elicitation fixed: a single prompt template, probability scale, and output format. We then vary the measurement axes that define the verbalized-vs-token comparison: which answer string receives the token-probability score, how that score is read from the answer tokens, and under which conditioning context it is measured. We evaluate this design on four QA benchmarks across three open 7--8B base/Instruct model families, with larger Qwen2.5 variants as same-family robustness checks. The resulting comparison is sensitive to these choices: conditioning context changes the sign or magnitude of the ECE gap across settings, token readout produces smaller but still sign-moving changes, and changing the ECE estimator has little effect. Under the default generated-answer, bare-context protocol, Instruct settings are close to parity rather than showing a large calibration gain for verbalized confidence. In a separate supplied-answer analysis, surface-plausible wrong answers receive nearly the same confidence as supplied gold answers, suggesting that verbalized confidence also reflects answer plausibility and provenance rather than correctness alone. We argue that both confidence signals should be treated as protocol-dependent behavioral measurements, and provide a reporting checklist covering elicitation provenance, scored answer, token-probability readout, and conditioning context.
SkillGrad: 勾配降下法などのエージェント スキルの最適化
エージェント スキルは、再利用可能な手順知識を構造化ファイルに保存することで、LLM エージェントを特殊なドメインに適応させる軽量な方法を提供します。ただし、サードパーティからダウンロードしたものであっても、自己生成したものであっても、これらのスキルは多くの場合、信頼性が低く、不完全で、時代遅れです。既存のスキル進化手法では、明示的な最適化定式化を行わずに、ヒューリスティックな反映を通じてこれらの欠陥に対処することがよくあります。このペーパーでは、エージェントのスキルを最適化するための勾配降下法にヒントを得たフレームワークである SkillGrad を提案します。 SkillGrad は、スキル パッケージを構造化パラメータとして扱い、勾配降下法で最適化します。タスクの実行により軌道レベルの損失証拠が提供され、自動診断により修正方向を示すテキストベースの勾配が提供されます。反復全体で最適化を安定させるために、モメンタム エージェントは、繰り返し発生する診断パターンを永続的なメモリ オーバーレイに蓄積します。最後に、LLM ベースのパッチャーは、スキル パッケージにレイヤー対応の編集を適用することにより、パラメーターの更新を実行します。 SpreadsheetBench Verified および WikiTableQuestions で評価したところ、SkillGrad は 2 つのバックボーン LLM にわたるトレーニング ベースのスキル進化ベースラインを常に上回っており、最も強力なトレーニング ベースのベースラインよりも平均で $6.7$ パーセンテージ ポイント向上しています。アブレーションはさらに、運動量と対照的診断の両方が最終的なスキルの質に寄与していることを示しています。
原文 (English)
SkillGrad: Optimizing Agent Skills Like Gradient Descent
Agent skills provide a lightweight way to adapt LLM agents to specialized domains by storing reusable procedural knowledge in structured files. However, whether downloaded from third parties or self-generated, these skills are often unreliable, incomplete, or outdated. Existing skill-evolution methods often address these deficiencies through heuristic reflections without an explicit optimization formulation. In this paper, we propose SkillGrad, a gradient-descent-inspired framework for optimizing agent skills. SkillGrad treats the skill package as a structured parameter to optimize in a gradient descent fashion: task executions provide trajectory-level loss evidence, automatic diagnoses then provide text-based gradients that indicate the correction directions. To stabilize optimization across iterations, a momentum agent accumulates recurring diagnostic patterns into a persistent memory overlay. Finally, an LLM-based patcher executes the parameter update by applying layer-aware edits to the skill package. Evaluated on SpreadsheetBench Verified and WikiTableQuestions, SkillGrad consistently outperforms training-based skill evolution baselines across two backbone LLMs, improving over the strongest training-based baseline by $6.7$ percentage points on average. Ablations further show that momentum and contrastive diagnosis both contribute to the final skill quality.
秘密がある? LLM エージェントはそれを守れない: マルチエージェント システムにおけるプライバシーの評価
LLM の安全性評価では主にモデルを単独でテストしますが、配備された AI エージェントは他のエージェントと並んで永続的な社会環境内で動作することが増えています。私たちは、何千人もの LLM エージェントがシミュレートされた 1 か月間にわたってコミュニティ間で対話する Moltbook スタイルのシミュレーション プラットフォームを導入し、それを使用して、さまざまな程度の社会的圧力の下で下流の安全上の懸念としてプライバシーを評価します。シングルターンからマルチターンへの社会的評価の移行により、プライバシー侵害が増幅されること(OpenAI モデル全体で、CIMemories 19.95% から Ours 45.30%)、漏洩は社会的に伝染し、ピアが機密情報を開示するのを観察したエージェントは機密情報を開示する可能性が 8 倍高く、明示的なプライバシーに関する指示はこの影響を軽減するものの排除はせず、保護策を講じたとしても漏洩率が 37.8% を超えることがわかりました。私たちの調査結果は、静的チャットベースの安全性ベンチマークは、エージェント導入におけるリスクを体系的に過小評価していること、また、社会的コンテキストだけで、単一ターンの評価では決して表面化しない機密情報の開示を引き出すのに十分であることを示唆しています。
原文 (English)
Got a Secret? LLM Agents Can't Keep It: Evaluating Privacy in Multi-Agent Systems
LLM safety evaluations predominantly test models in isolation, yet deployed AI agents increasingly operate within persistent social environments alongside other agents. We introduce a Moltbook-style simulation platform where thousands of LLM agents interact across communities over a simulated month, and use it to evaluate privacy as a downstream safety concern under varying degrees of social pressure. We find that shifting from single turn to multi turn social evaluation amplifies privacy violations (CIMemories 19.95% to Ours 45.30% across OpenAI models), that leakage is socially contagious, with agents 8 times more likely to disclose sensitive information after observing a peer do so, and that explicit privacy instructions reduce but do not eliminate this effect, leaving leakage rates above 37.8% even with safeguards. Our findings suggest that static chat based safety benchmarks systematically underestimate risks in agentic deployment, and that social context alone is sufficient to elicit sensitive disclosures that single turn evaluations would never surface.
目撃された解決プロファイルを使用した LLM エージェントでのポリシー内ライブ命令の競合の診断
LLM エージェントは、長期にわたる自然言語プロンプト ポリシーによって管理されますが、個別に合理的な常駐ルールが検査されていない方法で相互作用する可能性があります。私たちは、実際のポリシー内ルール競合診断を研究します。つまり、現実的な状態を共同管理できる単一のプロンプト ポリシー内のルール ペアを見つけ、モデルが応答やツールのアクションでそのプレッシャーをどのように解決するかを測定します。 Witnessed Intra-policy Rule Evaluation パイプラインである WIRE を紹介します。 WIRE は、ソースに基づいたルールを抽出し、PyRule 句としてエンコードし、充足可能性チェックを使用して同一面のハードコリジョン候補を保持し、それらの候補を具体的な共同統治証人として認識し、元のソースルールテキストに対して出力をモデル化します。 6 つのパブリック プロンプト ポリシーにわたって、WIRE は 276 のソース ルールと 560 のアトミック条項を抽出し、30,944 のポリシー内条項ペアの比較を分類し、170 のエンコードされたハードコリジョン候補ソースとルールのペアを保持し、それらを 1,402 の具体的な証人として実現します。ポリシーのみの評価では、これらの証人から、両方のソース ルールが適用され、両方のコンプライアンス ラベルが判断可能である 13,335 件の世代後トライアルが得られます。共同コンプライアンスの低下はわずか 35.4% でした。 64.6% が少なくとも 1 つの管理された情報源規則に違反しています。これらのプロファイルは、WIRE によって選択された候補の条件付き診断であり、導入頻度や原因となる過剰な障害の推定ではありませんが、明確なポリシー、モデル、ツール アクションの解決パターンを明らかにします。
原文 (English)
Diagnosing Live Within-Policy Instruction Conflicts in LLM Agents with Witnessed Resolution Profiles
LLM agents are governed by long-lived natural-language prompt policies, but individually reasonable standing rules can interact in uninspected ways. We study live intra-policy rule-conflict diagnosis: finding rule pairs inside a single prompt policy that can co-govern a realistic state, and measuring how models resolve that pressure in responses or tool actions. We introduce WIRE, a Witnessed Intra-policy Rule Evaluation pipeline. WIRE extracts source-grounded rules, encodes them as PyRule clauses, uses satisfiability checks to retain same-surface hard-collision candidates, realizes those candidates as concrete co-governance witnesses, and judges model outputs against the original source-rule text. Across six public prompt policies, WIRE extracts 276 source rules and 560 atomic clauses, classifies 30,944 within-policy clause-pair comparisons, retains 170 encoded hard-collision candidate source-rule pairs, and realizes them as 1,402 concrete witnesses. In policy-only evaluation, these witnesses yield 13,335 post- generation trials where both source rules govern and both compliance labels are judgeable. Only 35.4% fall in joint compliance; 64.6% violate at least one governed source rule. These profiles are conditional diagnostics for WIRE-selected candidates, not deployment-frequency or causal excess failure estimates, but they reveal distinct policy, model, and tool-action resolution patterns.
LLM-as-a-Judge 評価のための固定予算のクラスター対応標準: マルチホップ RAG ストレス テスト
検索拡張生成 (RAG) システムは、大規模言語モデル (LLM) にどちらの答えが優れているかを判断させることによって比較されることがよくあります。マルチホップ RAG の場合、これはモデリングの問題と同じくらい測定の問題になります。同じスコアは、検索品質、回答の長さ、語彙の重複、またはクラスター化されたデータを無視する統計テストを反映する可能性があります。これらの選択が明確にされると何が起こるのかを尋ねます。私たちは、RAG における LLM-as-a-judge の比較のための最小測定標準を提案します。この標準では、上位 100 位の候補者プール、証拠予算、回答上限、ジェネレーター、およびプロンプトが修正されています。また、事前に登録された仮説、クラスターを意識した推論、可能な場合は正確なクラスターの符号反転チェック、および第 2 判定の複製も必要です。クラスター化されたベンチマークは進捗状況を誇張する可能性があります。現場ではこの標準を採用する必要があります。コンピューター サイエンス/機械学習 (CS/ML) および材料科学における 400 のマルチホップ質問に対して、進化的証拠セレクターである Genetic Algorithm Decoder for Multi-hop Evidence Composing (GADMEC) を使用してストレス テストを行います。このプロトコルは経験的な物語を変えます。二項テストでは、4 つの意味ベースラインの比較がすべて重要であるように見えます。クラスター認識推論では、ボンフェローニ有意な結果が 1 つだけ残ります。 BM25 は同じ予算内で純粋な意味論的な GADMEC を破り、語彙と意味論的なハイブリッドが CS/ML で回復し、材料科学の差を縮めます。
原文 (English)
A Fixed-Budget, Cluster-Aware Standard for LLM-as-a-Judge Evaluation: A Multi-Hop RAG Stress Test
Retrieval-augmented generation (RAG) systems are often compared by asking a large language model (LLM) judge which answer is better. For multi-hop RAG, this has become a measurement problem as much as a modeling problem: the same score can reflect retrieval quality, answer length, lexical overlap, or a statistical test that ignores clustered data. We ask what happens when these choices are made explicit. We propose a minimum measurement standard for LLM-as-a-judge comparisons in RAG. The standard fixes the top-100 candidate pool, evidence budget, answer cap, generator, and prompt; it also requires pre-registered hypotheses, cluster-aware inference, an exact cluster sign-flip check when feasible, and second-judge replication. Clustered benchmarks can overstate progress; the field should adopt this standard. We stress-test it with Genetic Algorithm Decoder for Multi-hop Evidence Composition (GADMEC), an evolutionary evidence selector, on 400 multi-hop questions in computer science/machine learning (CS/ML) and Materials Science. The protocol changes the empirical story. A binomial test makes all four semantic-baseline comparisons look significant; cluster-aware inference leaves only one Bonferroni-significant result. BM25 beats pure semantic GADMEC under the same budget, while a lexical-semantic hybrid recovers in CS/ML and narrows the Materials Science gap.
論理的推論のためのアルゴリズム演繹回路を明らかにする
最近の研究では、大規模言語モデル (LLM) が、グラフ走査アルゴリズムとステップバイステップ推論を少数ショット学習設定で抽象的に記述する関数記号表現を組み込むことで、強力な推論パフォーマンスを達成できることが示されています。ただし、LLM が限られた数のデモンストレーションのみから、各推論ステップの抽象的な意味と全体的なアルゴリズムをどのように真に理解するのかは依然として不明です。この研究は、個々の推論ステップを担当するアテンションヘッドを特定し、それらの間で転送される情報の種類を特徴付けることを目的としています。まず、シンボリック支援の思考連鎖 (CoT) プロンプト フレームワークの下で、構成要素の推論ステップを対応するトークン ロジットと調整します。私たちの分析では、推論プロセスを制御するトークンの位置が、デモンストレーションで満足する推論行動パターンに対する制約によって引き起こされる低い信頼スコアと関連していることが示されています。次に、因果関係分析手法を採用して、これらのパターンの原因となる注意の対象を特定します。さらに、我々の調査結果は、LLMが専門化されたアテンションヘッド(合計ヘッドの約3%)を介して個々のサブ推論タスクに関する事実とルールに基づいた情報を取得するのに対し、上位層は主に情報の統合と、タスク全体を解決するために複数の中間推論ステップを調整するグローバル推論戦略(グラフトラバーサルアルゴリズムなど)の出現を促進することを示しています。
原文 (English)
Revealing Algorithmic Deductive Circuits for Logical Reasoning
Recent studies have shown that Large Language Models (LLMs) can achieve strong reasoning performance by incorporating functional symbolic representations that abstractly describe graph traversal algorithms and step-by-step reasoning in few-shot learning settings. However, it remains unclear how LLMs genuinely understand the abstract meaning of each reasoning step and the overall algorithm from only a limited number of demonstrations. This work aims to localize the attention heads responsible for individual reasoning steps and characterize the types of information transferred among them. We first align constituent reasoning steps with their corresponding token logits under a symbolic-aided Chain-of-Thought (CoT) prompting framework. Our analysis shows that token positions that steer the reasoning process are associated with low confidence scores caused by constraints on satisfying reasoning behavior patterns in demonstrations. We then adopt causal mediation analysis techniques to identify the attention heads responsible for these patterns. In addition, our findings indicate that LLMs retrieve factual and rule-based information for individual sub-reasoning tasks through specialized attention heads (approximately 3% total heads), whereas higher layers predominantly facilitate information integration and the emergence of global reasoning strategies (e.g., graph traversal algorithms) that coordinate multiple intermediate reasoning steps to solve the overall task.
TCP-MCP: マルチエージェント システム向けのプロンプトと通信トポロジのランドスケープ ガイドに基づく共進化
効果的なマルチエージェント システムは、プロンプトやコミュニケーション グラフを単独で選択するだけでは設計できません。エージェントの動作はエージェントが受信する情報に依存しますが、通信エッジの有用性は受信エージェントがその情報をどのように解釈して使用するかに依存します。私たちは、エージェントのプロンプトと通信トポロジーを統一ゲノムとして検索する共進化フレームワークである \textbf{TCP-MCP} (Topology-Coupled Prompting for Multi-Agent Collaborative 問題解決) を提案します。 TCP-MCP は、初期化時のランドスケープ プローブを使用して初期の検索動作を調整し、次にパレート フロント診断に依存して、タスクのパフォーマンス、トークン コスト、構造の複雑さという 3 つの目標に基づいて探索を調整します。すべての方式で同じ DeepSeek-V3.2 バックボーンを使用することで、TCP-MCP は、MMLU-Pro、MMLU、GSM8K でそれぞれ 82.66\%、89.96\%、96.61\% の精度を達成します。 3 つのベンチマーク全体で、自動化されたグラフ生成のベースラインを常に上回り、ディベート スタイルのシステムと比較して競争力のある精度を達成しながら、報告された動作ポイントでこれらのシステムよりもトークンの使用量が最大 5.69$\time$ 少なくなります。これらの結果は、共同して進化するプロンプトとコミュニケーション構造が、管理された評価におけるコストを意識したタスク適応型のマルチエージェント システム設計への実用的なルートを提供することを示しています。
原文 (English)
TCP-MCP: Landscape-Guided Co-Evolution of Prompts and Communication Topologies for Multi-Agent Systems
Effective multi-agent systems cannot be designed by selecting prompts or communication graphs in isolation. Agent behavior depends on the information an agent receives, while the usefulness of a communication edge depends on how the receiving agent interprets and uses that information. We propose \textbf{TCP-MCP} (Topology-Coupled Prompting for Multi-Agent Collaborative Problem-Solving), a co-evolution framework that searches agent prompts and communication topologies as a unified genome. TCP-MCP uses an initialization-time landscape probe to calibrate early search behavior, and then relies on Pareto-front diagnostics to adapt exploration under three objectives: task performance, token cost, and structural complexity. Using the same DeepSeek-V3.2 backbone across all methods, TCP-MCP achieves 82.66\%, 89.96\%, and 96.61\% accuracy on MMLU-Pro, MMLU, and GSM8K, respectively. Across the three benchmarks, it consistently outperforms automated graph-generation baselines and achieves competitive accuracy relative to debate-style systems, while using up to 5.69$\times$ fewer tokens than those systems at the reported operating points. These results show that jointly evolving prompts and communication structure provides a practical route to cost-aware and task-adaptive multi-agent system design in controlled evaluations.
MolLingo: LLM を利用した科学エージェントの分子ネイティブ表現
化学者の推論プロセスをエミュレートして分子設計を自動化するマルチエージェント システムである MolLingo を紹介します。既存の LLM ベースのアプローチは、外部ツールにアクセスせずにスタンドアロンの生成モデルとして動作するか、分子設計パイプライン全体にわたる証拠に基づく反復的な推論に必要なマルチエージェントの調整と共有メモリが不足しています。 MolLingo は、各エージェントにドメイン固有のツールを備えた共有メモリ モジュールを介して、文献エージェント、化学エージェント、およびオーケストレーターを調整することでこの問題に対処します。効果的な分子推論を可能にするために、BRICS ベースのフラグメント列挙 (BFE) を導入します。これは、一般的な化学名と組み合わせたブロックベースの SMILES として表される化学的に意味のある構成要素に分子を分解する、合成を意識した分子断片化手法です。この表現は分子構造と LLM 意味空間の橋渡しをし、生の SMILES だけでは難しいブロックレベルの推論と編集を可能にします。初期段階の治療設計のケーススタディとして、MolLingo はさらに、より強力な標的結合のために分子を最適化するために、結合部位の形状と分子ドッキングから得られる残基レベルのタンパク質のコンテキストに Chemist Agent の推論を根拠付けています。 4 つのベンチマークにわたって、MolLingo は一貫してフロンティア LLM および特殊なベースラインを上回っています。これには、同じ基礎モデルを使用しているにもかかわらず、GPT-5.4 と比較してドッキング スコアが 4 倍向上していること、複数の LLM バックボーンにわたる一貫した薬剤特性最適化の向上、およびフロンティア LLM と RL ベースの最適化手法である RePO の両方を上回る TOMG-Bench での最先端の結果が含まれます。私たちの結果は、LLM が化学的に意味のある表現と生物学的に根拠のある構造的コンテキストを通じて導かれるとき、すでに有能な分子設計アシスタントであることを示唆しています。コードは https://anonymous.4open.science/status/MolLingo-7450 で入手できます。
原文 (English)
MolLingo: Molecule-Native Representations for LLM-Powered Scientific Agents
We present MolLingo, a multi-agent system that emulates the reasoning process of a chemist to automate molecular design. Existing LLM-based approaches either operate as standalone generative models without access to external tools or lack the multi-agent coordination and shared memory needed for iterative, evidence-driven reasoning across the molecular design pipeline. MolLingo addresses this by coordinating a Literature Agent, a Chemist Agent, and an Orchestrator through a shared memory module, with each agent equipped with domain-specific tools. To enable effective molecular reasoning, we introduce BRICS-based Fragment Enumeration (BFE), a synthesis-aware molecular fragmentation method that decomposes molecules into chemically meaningful building blocks represented as block-based SMILES paired with common chemical names. This representation bridges molecular structure and LLM semantic space, enabling block-level reasoning and editing that is difficult with raw SMILES alone. As a case study in early-stage therapeutic design, MolLingo further grounds the Chemist Agent's reasoning in binding site geometry and residue-level protein context derived from molecular docking to optimize molecules for stronger target binding. Across four benchmarks, MolLingo consistently outperforms frontier LLMs and specialized baselines, including a fourfold docking score improvement over GPT-5.4 despite using the same underlying model, consistent drug property optimization gains across multiple LLM backbones, and state-of-the-art results on TOMG-Bench, surpassing both frontier LLMs and the RL-based optimization method RePO. Our results suggest that LLMs are already capable molecular design assistants when guided through chemically meaningful representations and biologically grounded structural context. Code is available at: https://anonymous.4open.science/status/MolLingo-7450.
FundaPod: AI 支援のファンダメンタル投資調査のためのナレッジ グラフ メモリを備えたマルチペルソナ エージェント ポッド プラットフォーム
大規模言語モデル (LLM) は金融分野での適用が増えていますが、既存の研究のほとんどは取引シグナルや予測を中心とした財務 NLP タスクに重点を置いています。対照的に、制度的基礎研究では、人間のアナリストまたは AI エージェントが証拠を収集し、ビジネス推進要因を特定し、競合する視点を比較し、投資メモを作成する必要があります。その広範な目標は、単に結果を予測することではなく、投資知識の累積的な発展に貢献しながら、透明性、再利用可能、検証可能な投資計画を作成することです。 AI 支援のファンダメンタルズ投資調査のためのマルチペルソナ エージェント プラットフォームである FundaPod を紹介します。私たちは、基礎研究は人間中心の意思決定支援タスクであり、取引シグナルの生成とは質的に異なるため、独立性を維持するアーキテクチャの方が適していると主張します。 FundaPod では、バリュー投資家やマクロ戦略家など、さまざまなペルソナを持つ AI エージェントが、共有の出所契約に基づいて独立して調査を実施します。その後、彼らの意見の相違は、知識グラフ記憶システムを通じて人間のポートフォリオ マネージャー (PM) による裁定のために事後的に表面化されます。この論文は、設計科学の実践と認知的分離と人間と機械の協調の理論に基づいた、基礎研究をサポートする人間と AI のハイブリッド システムの 5 つの設計原則を提供します。また、4 つのアーキテクチャ メカニズムについても説明します。1 つは一般投資家の資料を展開可能なエージェントに変えるペルソナ蒸留パイプラインです。プランナーが型指定されたタスク グラフを導出できるようにする宣言型スキル レジストリ。メモの主張を検証可能な情報源に結び付ける根拠のある証拠モデル。そしてティッカー、メモ、アナリスト、テーマを結び付けるナレッジグラフ「第二の脳」。完全なケーススタディとペルソナベースのメモの比較を通じてアーキテクチャを実証します。
原文 (English)
FundaPod: A Multi-Persona Agent Pod Platform with Knowledge Graph Memory for AI-Assisted Fundamental Investment Research
Large language models (LLMs) are increasingly applied in finance, yet most existing work emphasizes trading signals or financial NLP tasks centered on prediction. Institutional fundamental research, by contrast, requires human analysts or AI agents to gather evidence, identify business drivers, compare competing viewpoints, and generate investment memos. Its broader goal is not merely to predict outcomes, but to produce investment plans that are transparent, reusable, and verifiable, while contributing to the cumulative development of investment knowledge. We present FundaPod, a multi-persona agent platform for AI-assisted fundamental investment research. We argue that fundamental research is a human-centric decision-support task that is qualitatively distinct from trading-signal generation, and is therefore better served by an independence-preserving architecture. In FundaPod, AI agents with different personas, such as value investors or macro strategists, conduct research independently under a shared provenance contract. Their disagreements are then surfaced post hoc for adjudication by the human portfolio manager (PM) through a knowledge-graph memory system. This paper contributes five design principles for human-AI hybrid systems supporting fundamental research, grounded in design-science practice and theories of cognitive isolation and human-machine coordination. It also describes four architectural mechanisms: a persona distillation pipeline that turns public investor materials into deployable agents; a declarative skill registry that lets the planner derive typed task graphs; a grounded evidence model that links memo claims to verifiable sources; and a knowledge-graph "second brain" that connects tickers, memos, analysts, and themes. We demonstrate the architecture through a complete case study and a persona-based memo comparison.
忠実なエージェント XAI に向けて: モデルの忠実性を高めるための検証方法とオープンワールド ベンチマーク
Explainable AI (XAI) は、ユーザーがモデルの動作を解釈し、潜在的な障害を特定するのに役立ちます。エージェントティック XAI システムは、自然言語対話を通じて説明をよりアクセスしやすくするために大規模言語モデル (LLM) を使用しますが、もっともらしいが不誠実な説明を生成することもあります。このリスクは、複雑なモデルの信頼性の低い XAI 出力が LLM によって増幅され、ユーザーの誤解を招く可能性があるために発生します。私たちは、明示的な検証を通じて説明の忠実性を向上させるフレームワーク、Faithful Agentic XAI (FAX) を提案します。 FAX は草案の説明をクレームに分解し、本質的に忠実なツールと照らし合わせてクロスチェックし、最終生成前にサポートされていないクレームや矛盾したクレームをフィルタリングします。また、複雑なポリシー、多様な目標、モデル固有の忠実性を評価するための挑戦的なシナリオを備えたオープンワールドの強化学習ベンチマークである CRAFTER-XAI-Bench も紹介します。 CRAFTER-XAI-Bench では、FAX は高い情報性、関連性、流暢性を維持しながら、シミュレーションの忠実度を最強のベースラインの 0.20 から 0.46 に向上させます。 3 つの表形式のベンチマークでは、FAX は以前の Agentic XAI ベースラインと競合するパフォーマンスを示していますが、分析では、これらの設定がタスクの精度とモデル固有の忠実性を混同している可能性があることが示されています。これらの調査結果は、忠実な Agentic XAI には明示的な検証が不可欠であり、ターゲット モデル自体の動作に対する説明をテストするように忠実性ベンチマークを設計する必要があることを示しています。
原文 (English)
Towards Faithful Agentic XAI: A Verification Method and an Open-World Benchmark for Better Model Faithfulness
Explainable AI (XAI) helps users interpret model behavior and identify potential faults. Agentic XAI systems use Large Language Models (LLMs) to make explanations more accessible through natural-language interaction, but they can also produce plausible yet unfaithful explanations. This risk arises because unreliable XAI outputs for complex models can be amplified by LLMs and mislead users. We propose Faithful Agentic XAI (FAX), a framework that improves explanation faithfulness through explicit verification. FAX decomposes draft explanations into claims and cross-checks them against inherently faithful tools, filtering unsupported or contradictory claims before final generation. We also introduce CRAFTER-XAI-Bench, an open-world reinforcement learning benchmark with complex policies, diverse goals, and challenging scenarios for assessing model-specific faithfulness. On CRAFTER-XAI-Bench, FAX improves simulation faithfulness from 0.20 for the strongest baseline to 0.46 while maintaining high informativeness, relevance, and fluency. On three tabular benchmarks, FAX performs competitively with prior Agentic XAI baselines, but our analysis shows that these settings can conflate task accuracy with model-specific faithfulness. These findings show that explicit verification is essential for faithful Agentic XAI and that that faithfulness benchmarks must be designed to test explanations against the behavior of the target model itself.
PortBench: LLM 主導のポートフォリオ管理のための相関を意識したフルパイプライン ベンチマーク
LLM はさまざまな財務タスクにわたって優れたパフォーマンスを示していますが、重要な財務上の意思決定タスクであるポートフォリオ管理 (PM) のベンチマークは依然として不十分です。既存のベンチマークには 2 つの主なギャップがあります。1 つは資産間の相関構造を無視しているため、真に分散されたポートフォリオと集中ポートフォリオを区別できないこと、もう 1 つは現実世界のシナリオで完全な PM 意思決定パイプラインを評価できないことです。 10 年間にわたる 6 つの異種資産クラスにわたるベンチマークである PortBench を紹介します。 PortBench は、2 つの補完的なレイヤーで構成されています。1 つは 7 つのタスク テンプレートにわたる 6,269 の相関ベースの質問からなる静的 QA データセット、もう 1 つは完全な PM 意思決定サイクルを反映する 5 段階の動的な割り当てパイプラインです。これらのレイヤーを評価するために、2 つの専用のメトリックを導入します。提案されたポートフォリオがクラス間ヘッジを活用し、クラス内集中を回避しているかどうかを測定するデュアルレイヤー相関スコアと、パイプライン ステージ全体で推論エラーがどのように複合するかを定量化するメトリックである CEPS です。さらに、3 つの過去のストレス体制とリスク プロファイルの下で、戦略の堅牢性と投資家の連携を評価します。 10 個のフロンティア LLM を評価したところ、静的財務 QA では優れたパフォーマンスを示したにもかかわらず、モデルとプロファイルの組み合わせの 90% が基本的な均等加重割り当てを上回るパフォーマンスを発揮できず、すべての手順上の制約を満たすモデルでもストレスがかかると壊滅的なドローダウンに悩まされることがわかりました。ソース コードは \href{https://github.com/AgenticFinLab/portbench}{this https URL} で入手できます。
原文 (English)
PortBench: A Correlation-Aware, Full-Pipeline Benchmark for LLM-Driven Portfolio Management
LLMs have shown strong performance across diverse financial tasks, yet portfolio management (PM), a critical financial decision-making task, remains poorly benchmarked. Existing benchmarks exhibit two main gaps: they ignore cross-asset correlation structures, thereby failing to distinguish genuinely diversified portfolios from concentrated ones, and fail to evaluate the complete PM decision pipeline in real-world scenarios. We introduce PortBench, a benchmark spanning six heterogeneous asset classes over ten years. PortBench consists of two complementary layers: a static QA dataset of 6,269 correlation-based questions across seven task templates, and a dynamic five-stage allocation pipeline that mirrors the full PM decision cycle. To evaluate these layers, we introduce two dedicated metrics: a dual-layer correlation score that measures whether proposed portfolios exploit inter-class hedging and avoid intra-class concentration, and CEPS, a metric that quantifies how reasoning errors compound across pipeline stages. We further assess strategy robustness and investor alignment under three historical stress regimes and risk profiles. Evaluating ten frontier LLMs, we find that despite strong performance on static financial QA, 90\% of model-profile combinations fail to outperform a basic equal-weight allocation, and models that satisfy every procedural constraint still suffer catastrophic drawdowns under stress. Our source code is available at \href{https://github.com/AgenticFinLab/portbench}{this https URL}.
LLM エージェントの機能を評価するための統一フレームワーク
LLM がエージェントとして導入されることが増えているため、そのエージェント機能の信頼できる評価が不可欠になっています。ただし、報告されるベンチマーク スコアは、多くの場合、モデルの機能と、各ベンチマークに含まれる実装の選択肢を合わせて反映するため、クロスベンチマークの結果を基礎となるモデルの正確な測定値として解釈することが困難になります。この研究では、LLM エージェントの機能を公正に評価するための統一フレームワークを紹介します。統合された構成システムによって駆動されるこのフレームワークは、標準化された命令、ツール、環境の形式に多様なベンチマークを統合し、制御可能なサンドボックス内の固定 ReAct スタイル アーキテクチャを通じてエージェントを実行します。また、フレームワークの効果と環境の効果を個別に分析できるように、揮発性のライブ環境を厳選されたスナップショットに置き換えるオプションのオフライン設定を提供します。これに基づいて、各ベンチマークの元のタスクの成功基準に基づいて評価方法を統一するとともに、リソース消費に関する統一された指標と、意思決定レベルおよび実行レベルの失敗の属性に関する分類を導入します。このフレームワーク内で、シングルエージェント、マルチエージェント、およびセーフティクリティカルなシナリオにわたる 24 のドメインにわたる 7 つの広く使用されているベンチマークを適応させ、15 のモデルで 400,000 のロールアウトと 50 億のトークンにわたる大規模な実証分析を実施します。結果は、足場の選択と環境の変動性がベンチマークの結果を両方向に実質的に変化させ、フレームワークおよび環境によって引き起こされるアーティファクトから本質的な LLM 機能を解きほぐすことをフレームワークが可能にすることを示しています。さらに、安全性が重要なドメインの安全なテストベッドとしての拡張性を実証します。コードとベンチマークは、https://github.com/whfeLingYu/A-Unified-Framework-for-the-Evaluation-of-LLM-Agentic-Capabilities、https://huggingface.co/AgentFramework/Unified_Farmework で入手できます。
原文 (English)
A Unified Framework for the Evaluation of LLM Agentic Capabilities
As LLMs are increasingly deployed as agents, reliable assessment of their agentic capabilities has become essential. However, reported benchmark scores often jointly reflect model capability and the implementation choices each benchmark is packaged with, making cross-benchmark results difficult to interpret as clean measurements of the underlying model. In this work, we present a unified framework for the fair evaluation of LLM agentic capabilities. Driven by a unified configuration system, the framework integrates diverse benchmarks into a standardized instruction--tool--environment format, executes agents through a fixed ReAct-style architecture within a controllable sandbox, and provides an optional offline setting that replaces volatile live environments with curated snapshots, so that framework effects and environment effects can be analyzed separately. Building on this, we unify the evaluation methodology under each benchmark's original task-success criteria, while introducing unified metrics for resource consumption and a taxonomy for decision- and execution-level failure attribution. Within this framework, we adapt 7 widely used benchmarks spanning 24 domains across single-agent, multi-agent, and safety-critical scenarios, and conduct a large-scale empirical analysis over 400K rollouts and 5B tokens on 15 models. The results show that scaffold choice and environmental volatility materially shift benchmark outcomes in both directions, allowing our framework to disentangle intrinsic LLM capabilities from framework- and environment-induced artifacts. We further demonstrate its extensibility as a secure testbed for safety-critical domains. Codes and benchmarks at are available at https://github.com/whfeLingYu/A-Unified-Framework-for-the-Evaluation-of-LLM-Agentic-Capabilities, https://huggingface.co/AgentFramework/Unified_Farmework.
SKILLC: 対照的な単位の割り当てによる LLM エージェントの自律的なスキルの内部化の学習
構造化されたスキル プロンプトにより、長期的なエージェント強化学習 (RL) の探索が向上します。スキル拡張型 RL メソッドは推論時に外部スキルを保持しますが、スキル内部化型 RL メソッドはトレーニング中に外部スキルを取り込んで自律的なパフォーマンスを可能にします。しかし、既存の内面化アプローチは、カリキュラム管理にスキルと有用性の対比のみを使用しており、ポリシーの更新は変更されず、スキル依存の成功と自律的な成功を区別できません。私たちは、このコントラストを内面化のための直接的な学習シグナルに変換する、Contrastive Skill Credit Assignment (CSCA) に基づくフレームワークである SkillC を提案します。 \textsc{SkillC} は、同じポリシー更新内のアクティブなスキル タイプからのタスクに対して、スキル挿入されたロールアウトとスキルなしのロールアウトのペアをサンプリングし、グローバル ランキングを維持しながらスキルなしの成功に向けた一方的な補正を適用するデュアル ストリームの利点推定ツールを介して、それらのタスク レベルのコントラストを最適化に注入します。平滑化された検証レベルの信号により、アトリビューションの強度、ロールアウトの割り当て、および単調なアクティブセットの枝刈りに関する適応カリキュラムがさらに推進されます。 ALFWorld と WebShop での実験では、ランタイム スキル アクセスなしで、SkillC が以前の最強のスキル内部化 RL ベースラインをそれぞれ 5.5\% と 4.4\% 上回り、スキル拡張 RL 手法との競争力を維持していることが示されています。
原文 (English)
SKILLC: Learning Autonomous Skill Internalization in LLM Agents via Contrastive Credit Assignment
Structured skill prompts improve exploration in long-horizon agentic reinforcement learning (RL). Skill-augmented RL methods retain external skills at inference, while skill-internalization RL methods withdraw them during training to enable autonomous performance. However, existing internalization approaches only use skill-helpfulness contrast for curriculum control, leaving the policy update unchanged and unable to distinguish skill-dependent from autonomous success. We propose SkillC, a framework based on Contrastive Skill Credit Assignment (CSCA) that converts this contrast into a direct learning signal for internalization. \textsc{SkillC} samples paired skill-injected and skill-free rollouts for tasks from active skill types within the same policy update, and injects their task-level contrast into optimization via a dual-stream advantage estimator that preserves global ranking while applying a one-sided correction toward skill-free success. A smoothed validation-level signal further drives an adaptive curriculum over attribution strength, rollout allocation, and monotonic active-set pruning. Experiments on ALFWorld and WebShop show that, without runtime skill access, SkillC surpasses the strongest prior skill-internalization RL baseline by 5.5\% and 4.4\%, respectively, while remaining competitive with skill-augmented RL methods.
Harness-Bench: 現実的なエージェント ワークフローにおけるモデル全体のハーネス効果の測定
LLM エージェントは、ツールを使用し、ワークスペースを変更し、具体的な成果物を生成する実行可能システムとして導入されることが増えています。このようなワークフローでは、パフォーマンスはベース モデルだけでなく、ハーネス、つまりコンテキスト、ツール、状態、制約、権限、トレース、リカバリを管理するシステム層にも依存します。ただし、既存のベンチマークは通常、実行を抽象化したり、完全なエージェント システムを比較したり、ハーネスを固定したままにするため、実行層の変動を調査することが困難になります。現実的なエージェント ワークフローにおける構成レベルのハーネス効果を評価するための診断ベンチマークである Harness-Bench を紹介します。 Harness-Bench は、各ハーネスのネイティブな実行動作を維持しながら、共有タスク環境、予算、評価プロトコルの下で複数のモデル バックエンドにわたる代表的なハーネス構成を評価します。このベンチマークには、実際のエージェント使用パターンから構築され、現実性、解決可能性、オラクルチェック可能性、整合性について手動でレビューされた 106 個のサンドボックス化されたオフライン タスクが含まれています。各実行では、最終的なアーティファクト、実行トレース、使用状況統計、およびバリデータ出力が記録され、最終的な完了後の分析が可能になります。 5,194 の実行軌跡にわたって、モデルとハーネスのペア間の完了、プロセス品質、効率、および障害動作に大きなばらつきが観察されました。これらの結果は、エージェントの機能はベース モデルのみに起因するのではなく、モデル ハーネス構成レベルで報告されるべきであることを示唆しています。さらに、私たちの分析では、もっともらしい推論がツールのフィードバック、ワークスペースの状態、証拠、または検証可能な出力コントラクトから切り離されている、繰り返し発生する実行調整の失敗を特定します。 Harness-Bench は、信頼性が高く、効率的で、監査可能なエージェント実行スタックを診断および改善するための再現可能な基盤を提供します。
原文 (English)
Harness-Bench: Measuring Harness Effects across Models in Realistic Agent Workflows
LLM agents are increasingly deployed as executable systems that use tools, modify workspaces, and produce concrete artifacts. In such workflows, performance depends not only on the base model, but also on the harness: the system layer that manages context, tools, state, constraints, permissions, tracing, and recovery. However, existing benchmarks typically abstract away execution, compare complete agent systems, or hold the harness fixed, making execution-layer variation difficult to study. We introduce Harness-Bench, a diagnostic benchmark for evaluating configuration-level harness effects in realistic agent workflows. Harness-Bench evaluates representative harness configurations across multiple model backends under shared task environments, budgets, and evaluation protocols, while preserving each harness's native execution behavior. The benchmark contains 106 sandboxed offline tasks constructed from practical agent-use patterns and manually reviewed for realism, solvability, oracle-checkability, and integrity. Each run records final artifacts, execution traces, usage statistics, and validator outputs, enabling analysis beyond final completion. Across 5,194 execution trajectories, we observe substantial variation in completion, process quality, efficiency, and failure behavior across model-harness pairings. These results suggest that agent capability should be reported at the model-harness configuration level rather than attributed to the base model alone. Our analysis further identifies recurring execution-alignment failures, where plausible reasoning becomes decoupled from tool feedback, workspace state, evidence, or verifiable output contracts. Harness-Bench provides a reproducible foundation for diagnosing and improving reliable, efficient, and auditable agent execution stacks.
エージェントはより深く考えますか?逐次計画における層ごとのダイナミクスの機構的調査
最近のメカニズム研究では、大規模言語モデル (LLM) が標準的な 1 ターン タスクでその深さを非効率的に利用している可能性があることが示唆されています。これが、モデルが複数ターンの計画、ツールの使用、および反復的な状態更新を実行する必要がある自律エージェント設定でも依然として当てはまるかどうかは、不明のままです。私たちは、深層研究、コード生成、表形式処理の 3 つのドメインにわたる完全なユーザー エージェントの軌跡を体系的に層ごとに分析することで、この疑問を研究します。残差ストリームプローブ、因果層スキップ介入、および有効深さの測定を使用して、エージェント推論が静的タスクとは異なる深さプロファイルを示すことを示します。軌道が展開するにつれて、モデルは徐々により多くのより深い層を採用し、後のターンではより強力な長距離層間の依存関係が現れます。同時に、残留更新はますます補正が優勢になり、安定した特徴の蓄積から反復的な再キャリブレーションへの移行を示しています。有効深さの分析では、構築と改良の実質的なギャップがさらに明らかになります。セマンティックな方向性は多くの場合比較的早期に形成されますが、最終出力を安定させるには深い層が依然として必要です。モデル ファミリ全体で、このギャップは Qwen と Minimax で顕著ですが、GLM はよりドメインに依存した深さの割り当てパターンを示します。これらの結果は、推論の複雑さが増大するにつれて、自律 LLM エージェントが適応的に深さを割り当てる機構的な証拠を提供します。
原文 (English)
Do Agents Think Deeper? A Mechanistic Investigation of Layer-Wise Dynamics in Sequential Planning
Recent mechanistic studies suggest that large language models (LLMs) may utilize their depth inefficiently in standard single-turn tasks. Whether this still holds in autonomous agent settings, where models must perform multi-turn planning, tool use, and iterative state updates, remains unclear. We study this question through a systematic layer-wise analysis of complete user-agent trajectories spanning three domains: Deep Research, Code Generation, and Tabular Processing. Using residual stream probes, causal layer-skipping interventions, and effective-depth measurements, we show that agentic reasoning exhibits a distinct depth profile from static tasks. As trajectories unfold, models progressively recruit more and deeper layers, with stronger long-range inter-layer dependencies emerging in later turns. At the same time, residual updates become increasingly correction-dominant, indicating a shift from stable feature accumulation toward repeated recalibration. Effective-depth analysis further reveals a substantial construction-refinement gap: semantic direction often forms relatively early, while deep layers remain necessary for stabilizing final outputs. Across model families, this gap is pronounced in Qwen and Minimax, whereas GLM shows a more domain-dependent depth allocation pattern. These results provide mechanistic evidence that autonomous LLM agents allocate depth adaptively as reasoning complexity grows.
人間の知覚領域の幾何学が LLM 表現に一時的に現れる
大規模言語モデル (LLM) は純粋にテキスト データに基づいてトレーニングされますが、以前の研究では、その内部表現が埋め込み空間で豊富な幾何学的構造を示すことができることが示されています。この一連の作業に基づいて、私たちはそのような構造がさまざまな領域(色、ピッチ、感情、味など)にわたる人間の知覚組織に類似しているかどうかを調査します。具体的には、複数のオープンウェイト変圧器アーキテクチャの残差ストリーム内の知覚モダリティに対応する固有の幾何学的構造の層ごとの出現を研究します。私たちの結果は 3 つの重要な発見を明らかにしました。まず、トレーニング中に直接的な知覚の監視がないにもかかわらず、複数の知覚領域にわたって層ごとの幾何学的構造の出現が観察されます。第二に、これらの知覚ドメインは、幾何学的構造と人間のベースラインとの整合性の両方を備え、深度にわたるドメインおよびモデル固有の軌跡に従う、明確な出現プロファイルを示します。第三に、この出現は一貫した表現の軌跡をたどります。つまり、幾何学は初期の層では弱いか拡散していますが、中間層では徐々に組織化され、後の層では減衰します。これは、知覚幾何学がモデルの内部変換パイプラインの一部として一時的に発生することを示唆しています。これは、LLM で人間に似た知覚幾何学がどのように、どこで生じるかについての新たな洞察を提供し、内部表現の機械論的分析のための原則的な経路を提供します。
原文 (English)
Geometry of Human Perceptual Domains Emerges Transiently in LLM Representations
While large language models (LLMs) are trained purely on textual data, prior work has shown that their internal representations can exhibit rich geometric structure in embedding space. Building on this line of work, we investigate whether such structure is similar to human perceptual organisation across different domains (e.g., color, pitch, emotion, and taste). Specifically, we study the layer-wise emergence of intrinsic geometrical structure corresponding to perceptual modalities within the residual streams of multiple open-weight transformer architectures. Our results reveal three key findings. First, we observe the emergence of layer-wise geometric structure across multiple perceptual domains, despite the absence of any direct perceptual supervision during training. Second, these perceptual domains exhibit distinct emergence profiles, with both geometric structure and its alignment with human baselines following domain- and model-specific trajectories across depth. Third, this emergence follows a consistent representational trajectory: geometry is weak or diffuse in early layers, becomes progressively organised in intermediate layers, and is attenuated in later layers, suggesting that perceptual geometry arises transiently as part of the model's internal transformation pipeline. This provides new insight into how and where human-like perceptual geometry arises in LLMs, offering a principled pathway for mechanistic analysis of internal representations.
AsyncTool: マルチタスク シナリオでの非同期関数呼び出し機能の評価
大規模言語モデル (LLM) ベースのエージェントは、外部ツールを使用して複雑なタスクを解決する強力な機能を示しています。ただし、既存の評価では、ツール使用の時間的側面、特にツールの応答遅延の影響が見落とされていることが多く、通常は単一タスクの設定に限定されています。実際のアプリケーションでは、多くの場合、複数のタスクを同時に実行する必要があり、全体的な効率は、エージェントがツールの応答を待つ間にアイドル時間を利用できるかどうかによって決まります。この機能を非同期ツール呼び出しと呼びます。これを評価するために、ツールのフィードバックが遅延した対話型のマルチタスク ツール使用環境で LLM ベースのエージェントを評価するためのベンチマークである AsyncTool を提案します。 AsyncTool は、複数の異種タスクを同時に提示し、実行中の現実的なツール応答遅延をシミュレートします。ハイブリッド データ進化戦略を使用して、複数のシナリオとツールの使用パターンをカバーする多様な非同期マルチタスク データセットを構築します。ステップ、サブタスク、およびタスクのレベルでモデルを評価し、タスクの調整と完了の効率を測定するための効率指向のメトリクスを導入します。広範な実験により、ツールのフィードバックが遅れていると、現在のエージェントに大きな課題が生じ、明らかなパフォーマンスの低下につながることが示されています。タスクの切り替え、依存関係の追跡、状態の維持をより適切に調整するモデルは、AsyncTool でより優れたパフォーマンスを実現します。私たちの分析は、現在ツールを使用しているエージェントの主な障害モードを特定し、より強力な時間的推論と調整機能を備えた将来のシステムを設計するための実用的な洞察を提供します。
原文 (English)
AsyncTool: Evaluating the Asynchronous Function Calling Capability under Multi-Task Scenarios
Large language model (LLM)-based agents have shown strong capabilities in using external tools to solve complex tasks. However, existing evaluations often overlook the temporal dimension of tool use, especially the impact of tool response latency, and are usually limited to single-task settings. In real-world applications, multiple tasks often need to be executed concurrently, and overall efficiency depends on whether an agent can use idle time while waiting for tool responses. We refer to this capability as asynchronous tool calling. To evaluate it, we propose AsyncTool, a benchmark for assessing LLM-based agents in interactive multi-task tool-use environments with delayed tool feedback. AsyncTool presents multiple heterogeneous tasks simultaneously and simulates realistic tool response latency during execution. Using a hybrid data evolution strategy, we construct a diverse asynchronous multitasking dataset that covers multiple scenarios and tool-use patterns. We evaluate models at the step, sub-task, and task levels, and introduce efficiency-oriented metrics to measure task coordination and completion efficiency. Extensive experiments show that delayed tool feedback poses substantial challenges to current agents and leads to clear performance degradation. Models that better coordinate task switching, dependency tracking, and state maintenance achieve stronger performance on AsyncTool. Our analysis identifies key failure modes of current tool-using agents and provides practical insights for designing future systems with stronger temporal reasoning and coordination capabilities.
思考を圧縮する: LLM トレーニング後の圧縮推論データがいつ、どのように機能するか
大規模言語モデル (LLM) は、長い思考連鎖 (CoT) 推論を通じて複雑な問題を解決できるようになりましたが、パフォーマンスとトークン コストの間のトレードオフが依然として中心的な課題です。この問題に対処するために、教師あり微調整 (SFT) では圧縮された推論データがよく使用され、CoT トレースはコンパクトな形式に短縮されます。ただし、このような圧縮された推論データがトレーニング後に与える影響については、まだ十分に理解されていません。本稿では、すべての操作を集約せずに出力する Explicit CoT、複数の操作を 1 つのステップに結合する Compused CoT、および中間操作を省略する Implicit CoT から構成される CoT の分類法を提案します。私たちは、難易度、圧縮粒度、データ サイズの制御された変動を可能にする合成合成推論タスクを構築し、さまざまなモデル ファミリとサイズにわたって包括的な一連の実験を実施しました。特に、(i) より粗い CoT にはより多くの SFT データが必要であること、(ii) Explicit CoT と比較して、Comused CoT と Implicit CoT はデータ スケーリングからの恩恵が大きいのに対し、Comused CoT はデータの繰り返しから恩恵を受け、Implicit CoT は暗記につながる傾向があること、(iii) SFT とは異なり、検証可能な報酬 (RLVR) を伴う後続の強化学習 (RL) は SFT 中に学習された圧縮されたステップを分解すること、および (iv)一方向の CoT 順序付けは、より長い連続タスクに対してより強力な一般化を示します。私たちの発見は、データリソースの制約下でのCoT設計への示唆を提供し、トレーニング後のLLMにおけるSFTとRLのメカニズムについての重要な洞察を提供します。
原文 (English)
Zipping the Thought: When and How Compressed Reasoning Data Works in LLM Post-Training
Large language models (LLMs) can now solve complex problems through long chain-of-thought (CoT) reasoning, but the trade-off between performance and token cost remains a central challenge. To address this issue, supervised fine-tuning (SFT) often uses compressed reasoning data, where CoT traces are shortened into compact forms. However, the effect of such compressed reasoning data on post-training remains poorly understood. In this paper, we propose a taxonomy of CoT consisting of Explicit CoT, which outputs all operations without aggregation, Composed CoT, which combines multiple operations into a single step, and Implicit CoT, which omits intermediate operations. We construct a synthetic compositional reasoning task that allows controlled variation of difficulty, compression granularity, and data size, and conducted a comprehensive set of experiments across different model families and sizes. Notably, we find that (i) coarser CoT requires more SFT data, (ii) compared with Explicit CoT, Composed CoT and Implicit CoT benefit more from data scaling, while Composed CoT benefits from data repetition and Implicit CoT tends to lead to memorization, (iii) unlike SFT, subsequent reinforcement learning (RL) with verifiable rewards (RLVR) decomposes compressed steps learned during SFT, and (iv) unidirectional CoT ordering shows stronger generalization on longer sequential tasks. Our findings provide implications for CoT design under data resource constraints and offer important insights into the mechanisms of SFT and RL in LLM post-training.
不確実な LLM フィードバックに対する自信に基づいた自己進化
自己進化する大規模言語モデル (LLM) は、独自のトレーニング タスクとソリューションを生成することで学習し、人間による監視への依存を減らします。ただし、多くの推論ドメインでは、モデルは生成されたタスクを検証し、生成された回答を判断してトレーニング信号を取得する必要もあります。これにより、トレーニング信号の課題が生じます。誤った自己判断が誤った勾配更新になります。既存のアプローチは、一般性を制限する外部検証者に依存するか、ノイズの多い自己生成フィードバックを監視として扱うかのいずれかです。我々は、学習を調整するための軽量の不確実性信号として LLM の本質的な信頼度を使用する COSE (Confidence-Orchestrated Self-Evolution) を提案します。 COSE では、信頼度を重視した PPO 更新と信頼度を優先した再生を導入しています。 19 のベンチマークと 4 つの Qwen/Llama バックボーン (0.6B ~ 4B) にわたって、COSE は基本モデルよりも一貫して向上し、コードでの競争力を維持しながら、一般的な推論と数学で最高の平均パフォーマンスを達成します。コードとデータは https://anonymous.4open.science/r/COSE_-B5C2 で入手できます。
原文 (English)
Confidence-Orchestrated Self-Evolution against Uncertain LLM Feedback
Self-evolving large language models (LLMs) learn by generating their own training tasks and solutions, reducing reliance on human-curated supervision. However, in many reasoning domains, the model must also validate generated tasks and judge generated answers to obtain training signals. This creates a training-signal challenge: erroneous self-judgments become erroneous gradient updates. Existing approaches either rely on external verifiers, which limits generality, or treat noisy self-generated feedback as supervision. We propose COSE (Confidence-Orchestrated Self-Evolution), which uses the LLM's intrinsic confidence as a lightweight uncertainty signal to modulate learning. COSE introduces confidence-weighted PPO updates and confidence-prioritized replay. Across 19 held-out benchmarks and four Qwen/Llama backbones (0.6B--4B), COSE consistently improves over base models and achieves the best average performance in general reasoning and mathematics, while remaining competitive on code. Code and data are available at https://anonymous.4open.science/r/COSE_-B5C2.
MIRA: 医療情報対応監査のバイリンガル ベンチマーク
一般向けの健康情報を提供するために大規模言語モデル (LLM) がますます使用されていますが、既存の安全性評価では、同じ質問に対するさまざまなユーザーの表現にわたって回答が同等の医療情報を保持しているかどうかが見落とされています。これに対処するために、LLM がユーザー側の言語、登録、ヘルス リテラシー シグナル全体で同等の医療情報を提供しているかどうかを評価するバイリンガルの管理されたベンチマークである Medical Information Response Audit (MIRA) を導入します。 MIRA には、医学的に検討された低リスクの健康に関する 60 の質問から作成された 4,320 のプロンプトが含まれています。 5 つの主流 LLM にわたって、モデルはすべての医学的質問に答えましたが、健康リテラシーが低い信号への応答では一貫してより多くの重要な情報が省略され、具体的な次のステップが少なくなり、独立した判断に対するサポートが少なくなりました。このパターンを差分情報希釈 (DID) と呼びます。言語の影響は、英語以外のプロンプトで一律に悪化するのではなく、モデルに固有です。 300 件の実世界の健康クエリとの比較により、ランク順の妥当性の予備的な証拠が得られます。知識に基づいた緩和プロンプトにより、ほとんどのモデルで情報の希薄化が軽減され、情報不足の単純化が最も大きく減少したのはクロード (約 8%) とクウェン (約 6%) でした。
原文 (English)
MIRA: A Bilingual Benchmark for Medical Information Response Audit
Large language models (LLMs) are increasingly used to provide public-facing health information, yet existing safety evaluations overlook whether responses preserve comparable medical information across different user phrasings of the same question. To address this, we introduce the Medical Information Response Audit (MIRA), a bilingual, controlled benchmark that assesses whether LLMs provide comparable medical information across user-side language, register, and health literacy signals. MIRA contains 4,320 prompts built from 60 medically reviewed, low-risk health questions. Across five mainstream LLMs, models answered all medical questions, but responses to low health-literacy signals consistently omitted more key information, provided fewer concrete next steps, and offered less support for independent judgment. We term this pattern Differential Information Dilution (DID). Language effects are model-specific rather than uniformly worse for non-English prompts. A comparison with 300 real-world health queries provides preliminary evidence of rank-order validity. A knowledge-guided mitigation prompt reduces information dilution for most models, with the largest reductions in underinformative simplification observed for Claude (~8%) and Qwen (~6%).
ZipRL: Hindsight Response Replay を使用した適応型マルチターン コンテキスト圧縮
適応コンテキスト圧縮は、大規模言語モデル (LLM) を複雑な複数ターンのエージェント タスクに拡張するために不可欠です。ただし、ルールベースの圧縮方法では、タスククリティカルなニュアンスが無視される可能性がありますが、強化学習 (RL) アプローチでは通常、長期的なワークフローに固有のまばらな報酬の下で、情報保持とトークン効率のバランスを取るのに苦労します。このギャップを埋めるために、検証可能な報酬からの強化学習 (RLVR) に合わせた新しい適応圧縮フレームワークである ZipRL を提案します。 ZipRL は、RLVR 最適化中にトレーニング信号を高密度化するために設計された手法である Hindsight Response Replay (HRR) と組み合わせて、アクティブで不均一な情報を削減するための多粒度圧縮メカニズムを備えています。理論的には、ZipRL が均一なメソッドよりも優れたタスク関連のユーティリティであることを証明します。具体的には、ZipRL はマクロ圧縮に粗いプロンプトから細かいプロンプトを利用し、一般化された利点の再形成を通じて HRR を GRPO に組み込みます。さまざまなバージョンとパラメータースケールの複数のモデルにより、私たちのアプローチの有効性が検証されます。 5 つのエージェント タスクのベンチマークでは、ZipRL が Qwen3-4B モデルおよび Qwen3-8B モデル全体で最先端のアプローチを 27.9% および 34.7% 上回るパフォーマンスを示し、同時に 256 ターンの極端な外挿ストレス テストでも優れたトークン効率と堅牢性を維持していることが示されています。
原文 (English)
ZipRL: Adaptive Multi-Turn Context Compression with Hindsight Response Replay
Adaptive context compression is vital for scaling Large Language Models (LLMs) to complex, multi-turn agent tasks. However, rule-based compression methods may discard task-critical nuances, while Reinforcement Learning (RL) approaches usually struggle to balance information retention and token efficiency under the sparse rewards inherent to long-horizon workflows. To bridge this gap, we propose ZipRL, a novel adaptive compression framework tailored for Reinforcement Learning from Verifiable Rewards (RLVR). ZipRL features a multi-granularity compression mechanism for active, non-uniform information reduction, coupled with Hindsight Response Replay (HRR), a technique designed to densify training signals during RLVR optimization. Theoretically, we prove ZipRL's superior task-relevant utility over uniform methods. Concretely, ZipRL utilizes coarse-to-fine prompts for macro-compression and incorporates HRR into GRPO via generalized advantage reshaping. Multiple models of varying versions and parameter scales validate the effectiveness of our approach. Benchmarks on five agent tasks show ZipRL outperforms state-of-the-art approaches by 27.9% and 34.7% across Qwen3-4B and Qwen3-8B models, while maintaining exceptional token efficiency and robustness under extreme 256-turn extrapolation stress tests.
文レベルの修正による共同攻撃に対する LLM ベースのマルチエージェント システムの防御
近年、協調的な意思決定と複雑な問題解決に優れた大規模言語モデルベースのマルチエージェント システム (MAS) が急速に開発されています。ただし、MAS の悪意のあるエージェントが誤った情報を注入して他のエージェントを誤解させ、システムのパフォーマンスを混乱させる可能性があるため、MAS の攻撃メカニズムと防御戦略に焦点を当てた新しい研究の方向性が生まれています。これまでの研究では主に、悪意のあるエージェントが独立して行動し、対応する防御戦略を調査していると想定されています。しかし、悪意のあるエージェントは協調的な行動を示し、内部情報交換を通じてより効果的な攻撃を可能にする可能性があると私たちは主張します。この論文では、悪意のあるエージェントがマルチラウンドの相互作用を通じて攻撃戦略を自律的に調整し、動的に調整する、適応型協調攻撃フレームワークを提案します。さらに、エージェントのコミュニケーション内の文レベルで誤解を招く情報を特定し、修正する防御フレームワークである文レベル信頼性分析および修正 (STAR) を導入します。私たちの実験によると、協力的な攻撃は独立した攻撃よりもタスクの成功率が大幅に低下し、相対的に 5.34\% 低下することがわかりました。一方、STAR は協調的な脅威と独立した脅威の両方を効果的に軽減し、タスクの成功率を平均 36.76\% 向上させます。コードは https://github.com/smoooom/STAR で入手できます。
原文 (English)
Defending LLM-based Multi-Agent Systems Against Cooperative Attacks with Sentence-Level Rectification
Recent years have witnessed the rapid development of Large Language Model-based Multi-Agent Systems (MAS), which excel at collaborative decision-making and complex problem-solving. However, malicious agents in MAS may inject misinformation to mislead other agents and disrupt system performance, giving rise to a new research direction that focuses on attack mechanisms and defense strategies in MAS. Prior studies largely assume malicious agents act independently and investigate the corresponding defense strategies. However, we argue that malicious agents may exhibit collaborative behaviors, enabling more effective attacks through internal information exchange. In this paper, we propose an adaptive cooperative attack framework, where malicious agents autonomously coordinate and dynamically adjust their attack strategies through multi-round interactions. Furthermore, we introduce Sentence-Level Trustworthiness Analysis and Rectification (STAR), a defense framework that identifies and rectifies misleading information at the sentence level within agent communications. Our experiments show that cooperative attacks lead to a significantly larger degradation in task success rate than independent attacks, resulting in a relative drop of 5.34\%. Meanwhile, STAR effectively mitigates both cooperative and independent threats and improves task success rate by an average of 36.76\%. The code is available at https://github.com/smoooom/STAR.
空間複雑性の分解: LLM 空間推論のための階層分解
LLM は、一般的な言語の理解と推論において顕著な熟練を示しています。しかし、空間推論では一貫して性能が劣っており、特に身体化された知能においてはその応用が著しく制限されています。この論文は、階層型強化学習の成功に触発されて、LLM 空間推論における階層型タスク分解の新しい方法を紹介します。私たちのアプローチは、主要な中間状態を特定し、単純化されたサブ環境を生成することにより、LLM が複雑なタスクを管理可能なサブタスクに分解するように導きます。ただし、LLM は空間事前分布が不十分であるため、最適な中間状態を導出できないことが多く、次善のタスク分解につながることがわかりました。この制限に対処し、その計画能力を強化するために、我々は MCTS ガイド付きグループ相対政策最適化 (M-GRPO) を提案します。そこでは、認識論的不確実性とともに LLM の事前予測確率を組み込むことによって UCT 式を再定式化します。さらに、よりきめ細かいアドバンテージ関数を実装し、モデルが最適なパス計画を学習できるようにします。実験結果は、私たちの方法がナビゲーション、計画、戦略的ゲームなどの空間タスクにおける LLM パフォーマンスを大幅に向上させ、最先端の結果を達成することを示しています。この取り組みにより、現実世界のアプリケーションにおける LLM への道が開かれます。
原文 (English)
Deconstructing Spatial Complexity: Hierarchical Decomposition for LLM Spatial Reasoning
LLMs have shown remarkable proficiency in general language understanding and reasoning. However, they consistently underperform in spatial reasoning that severely limits their application, particularly in embodied intelligence. Inspired by the success of hierarchical reinforcement learning, this paper introduces a novel method for hierarchical task decomposition in LLM spatial reasoning. Our approach guides LLMs to decompose complex tasks into manageable sub-tasks by identifying key intermediate states and generating simplified sub-environments. However, we identify that LLMs often fail to derive optimal intermediate states due to their insufficient spatial prior, leading to sub-optimal task decomposition. To address this limitation and enhance its planning capability, we propose the MCTS-Guided Group Relative Policy Optimization (M-GRPO), where we reformulate the UCT formula by incorporating the LLM's prior predictive probabilities alongside its epistemic uncertainty. Furthermore, we implement a more fine-grained advantage function, enabling the model to learn optimal path planning. Experimental results demonstrate that our method substantially improves LLM performance on spatial tasks, including navigation, planning, and strategic games, achieving state-of-the-art results. This work paves the way for LLMs in real-world applications.
OR-Space: 産業最適化エージェントのフルライフサイクル ワークスペース ベンチマーク
大規模言語モデル (LLM) エージェントは、オペレーション リサーチ (OR) モデリングを支援するためにますます使用されていますが、既存の OR 指向のベンチマークでは、評価が自己完結型の問題ステートメントから数学的定式化またはソルバー プログラムへのワンショット変換に限定されることがよくあります。このような設定は、実際の産業用 OR ワークフローの 2 つの特性、つまり永続的なマルチ アーティファクト ワークスペースと複数ステージのタスク ライフサイクルを抽象化します。モデルの構築、モデルの改訂、根拠のある説明にわたって産業最適化エージェントを評価するためのフルライフサイクル ワークスペース ベンチマークである OR-Space を紹介します。各インスタンスは、ビジネス ドキュメント、構造化データ、オプションのコード アーティファクト、ソルバー出力、および相互依存ファイルに分散されたタスク固有のエバリュエーターを含む実行可能なワークスペースです。 OR-Space は 3 つのタスク モードを定義します。ビルド。エージェントは異種アーティファクトからソルバー対応の最適化モデルを構築します。改訂。エージェントは、有効な以前のロジックを維持しながら、要件の変更またはソルバーのフィードバックに応じて既存のモデルを変更します。説明では、エージェントは、ワークスペースの成果物全体に広がる証拠を使用して、ソリューション、制約、ビジネスへの影響についての根拠のある質問に回答します。 OR-Space は、永続的なワークスペースとライフサイクル指向のタスクを組み合わせることで、エージェントがエンドツーエンドのテキスト生成を超えた信頼性の高い最適化作業を実行できるかどうかを評価します。ベンチマーク設計、評価プロトコル、品質管理パイプラインについて説明し、OR-Space を産業用 OR ワークフローにおける LLM エージェントの信頼性、障害モード、および実用的な準備状況を研究するためのベンチマークとして位置づけます。
原文 (English)
OR-Space: A Full-Lifecycle Workspace Benchmark for Industrial Optimization Agents
Large language model (LLM) agents are increasingly used to assist with operations research (OR) modeling, yet existing OR-oriented benchmarks often reduce evaluation to one-shot translation from a self-contained problem statement into a mathematical formulation or solver program. Such settings abstract away two characteristics of real industrial OR workflows: persistent multi-artifact workspaces and multi-stage task lifecycles. We introduce OR-Space, a full-lifecycle workspace benchmark for evaluating industrial optimization agents across model construction, model revision, and grounded explanation. Each instance is an executable workspace containing business documents, structured data, optional code artifacts, solver outputs, and task-specific evaluators distributed across interdependent files. OR-Space defines three task modes: Build, where agents construct solver-ready optimization models from heterogeneous artifacts; Revise, where agents modify existing models under changing requirements or solver feedback while preserving valid prior logic; and Explain, where agents answer grounded questions about solutions, constraints, and business implications using evidence spread across workspace artifacts. By combining persistent workspaces with lifecycle-oriented tasks, OR-Space evaluates whether agents can perform reliable optimization work beyond end-to-end text generation. We describe the benchmark design, evaluation protocol, and quality-control pipeline, and position OR-Space as a benchmark for studying the reliability, failure modes, and practical readiness of LLM agents in industrial OR workflows.
OccuReward: グリッド インタラクティブ ビルディングにおける人口統計上の公平性を実現する、LLM に基づく居住者中心の報酬形成
大規模言語モデル (LLM) は、深層強化学習 (DRL) ベースの建物エネルギー管理用の報酬関数を生成する有望な機能を実証しています。しかし、異種の人口統計上の人口間で居住者の快適さの格差を示したり、悪化させたりする可能性については、まだ解明されていません。私たちは、LLM を介した報酬設計が人口統計上の公平性にどのような影響を与えるかを調査するフレームワークである OccuReward を紹介します。私たちの貢献は 3 つあります。新しいフィードバック シグナルとしてのコンフォート エクイティ インデックス (CEI) の導入です。反復的で株式を意識したLLM報酬形成のための方法論。そして、これらの洗練された目標に基づいた DRL エージェントのパフォーマンス分析。 ASHRAE Global Thermal Comfort Database II (13,440 票) からの経験的に根拠のある 4 つの居住者プロファイルを利用して、CityLearn v2 に Soft Actor-Critic エージェントを展開します。私たちのアプローチでは、Gemini API を使用して、ステップごとの推論を実行するのではなく、3 つのリファインメント ラウンドにわたって報酬関数のロジックと重みを生成します。 15 回の実験結果から、高齢の女性の居住者は最初のラウンドで一貫して満足度が最も低いことが明らかになりました。ラウンド 3 までに、株式を意識した LLM の改良により、若い男性 (+17.6%)、中年の女性 (+28.2%)、健康に敏感な (+53.8%)、および高齢の女性 (+567%) の満足度を向上させる特定の報酬コンポーネントが有効になり、同時にエネルギーコストが 3.2% 削減されます。私たちの調査結果は、報酬レベルの介入によって公平性が大幅に改善される一方で、AI 駆動型コントローラーにおける人口統計上の格差は依然として存在しており、システム構築におけるアルゴリズムの公平性についてさらなる研究が必要であることを浮き彫りにしています。
原文 (English)
OccuReward: LLM-Guided Occupant-Centric Reward Shaping for Demographic Equity in Grid-Interactive Buildings
Large language models (LLMs) have demonstrated promising capability in generating reward functions for deep reinforcement learning (DRL)-based building energy management. However, their potential to exhibit or exacerbate disparities in occupant comfort across heterogeneous demographic populations remains unexplored. We present OccuReward, a framework investigating how LLM-mediated reward design affects demographic equity. Our contribution is three-fold: the introduction of the Comfort Equity Index (CEI) as a novel feedback signal; a methodology for iterative, equity-aware LLM reward shaping; and a performance analysis of DRL agents under these refined objectives. Utilizing four empirically grounded occupant profiles from the ASHRAE Global Thermal Comfort Database II (13,440 votes), we deploy a Soft Actor-Critic agent in CityLearn v2. Our approach employs the Gemini API to generate reward function logic and weights--rather than performing per-step inference--across three refinement rounds. Results across 15 experimental runs reveal that elderly female occupants consistently experience the lowest satisfaction in initial rounds. By Round 3, equity-aware LLM refinement activates specific reward components that improve satisfaction for Young Males (+17.6%), Mid-aged Females (+28.2%), Health Sensitive (+53.8%), and Elderly Females (+567%), while simultaneously reducing energy costs by 3.2%. Our findings highlight that while reward-level intervention significantly improves equity, demographic disparities in AI-driven controllers persist, necessitating further research into algorithmic fairness in building systems.
Shapley 値による大規模言語モデルの入力不確実性定量化のローカライズ
大規模言語モデル (LLM) が一か八かの意思決定にますます統合されているため、不確実性を確実に定量化する機能が安全性と信頼性の重要な要件となっています。ただし、現在の不確実性の定量化手法は主に出力レベルで動作し、不確実性がモデルの知識不足から生じるのか、ユーザーの入力の曖昧さから生じるのかを区別できないことがよくあります。最近、入力中心の不確実性の定量化が有望な方向性として浮上していますが、まだ比較的研究されておらず、通常は粗い入力レベルの情報に依存しています。その結果、ユーザーには、信頼性を向上させるために入力のどの部分を明確にする必要があるかについて実用的なガイダンスをほとんど提供しないスカラー不確実性スコアが提供されます。この制限に対処するために、入力に起因する不確実性をスパンレベルで帰属させるためのフレームワークである Shapley ベースの入力不確実性定量化 (ShaQ) を提案します。私たちのアプローチは、協力ゲームのプレイヤーとしての入力における曖昧なスパンをモデル化し、各スパンの連携を明確にすることで得られる条件付きエントロピーの限界減少の加重平均によって定義されるシャプレー値を使用して、プレイヤーの貢献を定量化します。既存の入力レベルのアプローチとは異なり、私たちの定式化はスパン間の複雑な相互作用を捉え、個々の属性の合計が入力によって引き起こされる全体的な不確実性を正確に合計する原則に基づいた分解を提供します。 ShaQ を AmbigQA および AmbiEnt ベンチマークで評価し、曖昧さ検出において最先端のパフォーマンスを実現します。さらに、MediTOD での有用性を実証し、ShaQ が不完全な臨床発話をローカライズし、危険な状況で人間と AI のコラボレーションを促進できることを示します。全体として、ShaQ は不確実性の推定を改善し、対象となる入力を明確にするための実用的な洞察を提供します。
原文 (English)
Localizing Input Uncertainty Quantification for Large Language Models via Shapley Values
As large language models (LLMs) are increasingly integrated into high-stakes decision-making, the ability to reliably quantify uncertainty has become a critical requirement for safety and trust. However, current uncertainty quantification methods primarily operate at the output level, often failing to distinguish whether uncertainty arises from the model's lack of knowledge or from ambiguity in the user's input. While input-centric uncertainty quantification has recently emerged as a promising direction, it remains relatively underexplored and typically relies on coarse, input-level information. Consequently, users are provided with scalar uncertainty scores that offer little actionable guidance on which parts of the input should be clarified to improve reliability. To address this limitation, we propose Shapley-based input uncertainty Quantification (ShaQ), a framework for span-level attribution of input-induced uncertainty. Our approach models ambiguous spans in the input as players in a cooperative game and quantifies their contributions using Shapley values, defined via the weighted average of marginal reductions in conditional entropy obtained by clarifying each span coalition. Unlike existing input-level approaches, our formulation captures complex interactions among spans and provides a principled decomposition in which individual attributions sum exactly to the total input-induced uncertainty. We evaluate ShaQ on the AmbigQA and AmbiEnt benchmarks, where it achieves state-of-the-art performance in ambiguity detection. We further demonstrate its utility on MediTOD, showing that ShaQ can localize under-specified clinical utterances and facilitate human-AI collaboration in high-stakes settings. Overall, ShaQ improves uncertainty estimation and provides actionable insights for targeted input clarification.
マルチホップオーディオビジュアル推論のためのエージェントアクティブオムニモーダル知覚
関連する証拠がまばらで、時間的に分散し、オーディオとビジュアルの両方のストリームに分散していることが多いため、マルチホップのオーディオビジュアル推論は依然としてオムニ LLM にとって困難なままです。既存のベンチマークでは、この設定の限定的な調査が提供されており、通常は限られた数のモダリティ、関連する時間セグメント、または推論ステップのみが含まれています。この研究では、時間的に分散した視聴覚証拠に対するマルチホップ推論を必要とする、慎重に精選された 519 の質問を含むベンチマークである MOV-Bench を紹介します。 MOV-Bench での評価では、現在の Omni-LLM が依然としてマルチホップ クロスモーダル推論に苦労していることが明らかになりました。この課題に対処するために、私たちはさらに、アクティブなオムニモーダル認識のためのオープンソース Omni-LLM 上に構築された効率的なエージェント フレームワークである AOP-Agent を提案します。 AOP-Agent は、階層的なオムニモーダル メモリと協調的な観察、反映、再計画のループを組み合わせることで、追加のトレーニングや独自のモデルを必要とせずに、オープンソースの Omni-LLM が能動的な認識を実行できるようにします。 MOV-Bench と OmniVideoBench での実験では、AOP-Agent が一貫して推論パフォーマンスを向上させ、特に長いビデオや推論中心の質問で顕著な向上が見られることが実証されました。
原文 (English)
Agentic Active Omni-Modal Perception for Multi-Hop Audio-Visual Reasoning
Multi-hop audio-visual reasoning remains challenging for Omni-LLMs, as relevant evidence is often sparse, temporally dispersed, and distributed across both audio and visual streams. Existing benchmarks provide limited investigation of this setting, typically involving only a limited number of modalities, relevant temporal segments, or reasoning steps. In this work, we introduce MOV-Bench, a benchmark containing 519 carefully curated questions that require multi-hop reasoning over temporally dispersed audio-visual evidence. Evaluations on MOV-Bench reveal that current Omni-LLMs still struggle with multi-hop cross-modal reasoning. To address this challenge, we further propose AOP-Agent, an efficient agentic framework built on open-source Omni-LLMs for active omni-modal perception. By combining a hierarchical omni-modal memory with a collaborative observe-reflect-replan loop, AOP-Agent enables open-source Omni-LLMs to perform active perception without additional training or proprietary models. Experiments on MOV-Bench and OmniVideoBench demonstrate that AOP-Agent consistently improves reasoning performance, with particularly notable gains on long videos and reasoning-intensive questions.
プラント、持続、トリガー: 大規模言語モデル エージェントに対するスリーパー攻撃
Large Language Model (LLM) エージェントは、外部環境からの安全性の脅威に対して依然として脆弱です。攻撃者は、ツールから返されたデータ、Web ページ、MCP コンテキストなどの外部観察に敵対的なコンテンツを挿入し、安全でないアクションや不正な出力などの有害なエージェント動作を引き起こします。既存の研究は通常、シングルインタラクション攻撃に焦点を当てており、エージェントは敵対的なコンテンツを観察し、1 つのユーザー要求内で直ちに有害な動作を示します。ただし、敵対的なコンテンツは同じエージェントが提供するインタラクション間で持続する可能性もあり、そのような脅威の検出と軽減が困難になることを示しています。具体的には、敵対的なコンテンツはエージェント状態に残り、インタラクションの間は休止状態のままになり、その後無害なユーザー クエリによってアクティブ化される可能性があります。私たちは、この種の安全上の脅威をスリーパーアタックとして正式に表現します。これを評価するために、6 つの現実世界の有害な結果、3 つの攻撃戦略、および 3 つのエージェント状態ターゲット (セッション コンテキスト、メモリ、再利用可能なスキル) をカバーする 1,896 のインスタンスでベンチマークを構築しました。 7 つの強力なオープンソースおよびクローズドソース LLM に関する実験では、最先端の LLM エージェントは、単一インタラクションのベースラインで低い攻撃成功率を達成した場合でも、依然としてスリーパー攻撃に対して脆弱であることが示されています。私たちのコードとデータは https://anonymous.4open.science/r/skdvnfu23ihr9wdscnksf1asdffsaef で入手できます。
原文 (English)
Plant, Persist, Trigger: Sleeper Attack on Large Language Model Agents
Large Language Model (LLM) agents remain vulnerable to safety threats from the external environment, where attackers inject adversarial content into external observations such as tool-returned data, webpages, or MCP context, causing harmful agentic behaviors such as unsafe actions or incorrect outputs. Existing studies typically focus on single-interaction attacks, where the agent observes adversarial content and immediately exhibits harmful behavior within one user request. However, we show that adversarial content can also persist across interactions served by the same agent, making such threats harder to detect and mitigate. Specifically, adversarial content may persist in the agent state, remain dormant across interactions, and later be activated by a benign user query. We formalize this type of safety threat as Sleeper Attack. To evaluate it, we construct a benchmark with 1,896 instances covering six real-world harmful outcomes, three attack strategies, and three agent state targets: session context, memory, and reusable skills. Experiments on seven strong open-source and closed-source LLMs show that state-of-the-art LLM agents remain vulnerable to Sleeper Attack, even when they achieve low attack success rates under a single-interaction baseline. Our code and data are available at https://anonymous.4open.science/r/skdvnfu23ihr9wdscnksf1asdffsaef.
AI を介した結果的な決定を選択するという幻想
ウルマン=マルガリットの選択の概念(変革的で、取り消し不可能で、差し押さえられた代替案によって影が隠れる)を利用して、現在の AI システムが、既存の AI 倫理が完全には捉えていない深刻な倫理的問題を提起していることを示します。それは、個人やグループが、真に選択できるようになるために必要な主体が弱体化している間に、意味のある結果的な選択の欺瞞的な外観に遭遇する選択の幻想です。 AI を主に既に与えられた目的の最適化装置として扱うアプローチに対して、私たちは、AI システムは選択という幻想からメタ能力を保護し育成するかどうかによって評価されるべきだと主張します。メタ能力とは、手段と目的を形成し、異議を唱え、修正し、所有することができる、社会的および制度的に足場を築かれた主体的能力のことです。この再構成は、AI を介した経路が行動や行動を誤った方向に導いた場合に、選択するという幻想のコストを吸収することが最も困難な恵まれない人々にとって特に緊急です。私たちは、AI を介した結果的意思決定のための 3 つの規範的命令を提案します。それは、予測の限界を認める実存的誠実さです。生態学的合理性。不均質な生きた生態の中に指針を位置づけます。そして、反事実的賠償。AI を介した意思決定経路が失敗した場合に、差し押さえられた代替手段を認めて修復します。
原文 (English)
The Illusion of Opting in AI-Mediated Consequential Decisions
Drawing on Ullmann-Margalit's concept of opting (transformative, irrevocable, and shadowed by foreclosed alternatives), we show that current AI systems raise a profound ethical problem that existing AI ethics has not fully captured: the illusion of opting, in which persons and groups encounter the deceptive appearance of meaningful consequential choice while the agency needed to become genuinely capable of choosing is weakened. Against approaches that treat AI primarily as an optimizer of already given ends, we argue that AI systems should be evaluated by whether they protect and cultivate meta-capacity against the illusion of opting: the socially and institutionally scaffolded agentive capacity through which means and ends can be formed, contested, revised, and owned. This reframing is especially urgent for disadvantaged populations, who are least able to absorb the costs of the illusion of opting when AI-mediated pathways misdirect behavior and action. We propose three normative imperatives for AI-mediated consequential decisions: existential honesty, which acknowledges the limits of prediction; ecological rationality, which situates guidance within heterogeneous lived ecologies; and counterfactual reparation, which acknowledges and repairs foreclosed alternatives when AI-mediated decision-making pathways fail.
いつ最適化すべきかを学ぶ: GPU カーネル系統の専門家による検証済みの最適化スキル
LLM ベースのエージェントは、GPU カーネルの生成にますます使用されていますが、多くの場合、それらの最適化がいつ適切であるかは分からずに、どのような最適化を試みるべきかはわかっています。 KLineage を導入します。KLineage は、この欠落している「いつ」の知識をエキスパート カーネルから学習します。KLineage は、前方ロールアウトに依存するのではなく、検証ゲートによる簡略化を通じてエキスパート実装を後方に導き、受け入れられた各ステップを逆に再利用可能な最適化スキルに変換します。各スキルは、最適化の意図だけでなく、それがコード内のどこに適用されるか、どのような条件で最適化が有効になったか、どのような効果があったのか、その前提によってどのような失敗が回避されたのかも記録します。ダウンストリーム LLM は、同じコンパイル/正確性/プロファイル ゲートの下で新しいコード サーフェス上でこれらのスキルを具体化します。 2 つの NVIDIA アーキテクチャにわたる 5 つのエキスパート ワークロードでは、これらの系統由来のスキルが効果的な最適化カリキュラムとして機能し、同じ固定予算の下で最終的なカーネル品質と最適化効率の両方において最近のメモリベースの LLM カーネル ベースラインを上回ります。さらに、ソースケースの記憶に対する健全性テストとして、別個の 22 インスタンスのホールドアウト チェックを使用します。
原文 (English)
Learning When to Optimize: Verified Optimization Skills from Expert GPU-Kernel Lineages
LLM-based agents are increasingly used to generate GPU kernels, but they often know what optimizations to try without knowing when those optimizations are sound. We introduce KLineage, which learns this missing "when" knowledge from expert kernels: instead of relying on forward rollouts, KLineage walks expert implementations backward through validation-gated simplifications and reverses each accepted step into a reusable optimization skill. Each skill records not only the optimization intent, but also where it applies in code, what conditions made it valid, what effect it had, and what failures its assumptions avoid. A downstream LLM materializes these skills on new code surfaces under the same compile/correctness/profile gate. On five expert workloads across two NVIDIA architectures, these lineage-derived skills serve as an effective optimization curriculum, exceeding recent memory-based LLM-kernel baselines in both final kernel quality and optimization efficiency under the same fixed budget. We additionally use a separate 22-instance held-out check as a sanity test against source-case memorization.
説明することは単独で予測するより難しい: ICL 視覚分類子としての MLLM の概念ベースの説明を評価する
インコンテキスト学習 (ICL) により、マルチモーダル大規模言語モデル (MLLM) が、少数のラベル付きサンプルから画像を分類できるようになります。しかし、これらのモデルが提供されたコンテキストをどのように使用するかは依然として不透明です。思考連鎖プロンプトは広く使用されていますが、最近の研究では、それが真の内部計算を反映していない可能性があると主張しています。この論文では、ベースライン分類から記述ロジック (DL) 公理生成まで、形式的厳密性を高める 5 つの条件を使用して、少数ショット ICL の下で凍結された MLLM の概念ベースの説明可能性を体系的に評価します。独立した LLM-as-a-judge パイプラインを介して 4 つの最先端の MLLM を評価することで、単独で予測するよりも説明する方が本当に難しいことが実証されました。驚くべきことに、モデルに形式的に構造化された概念ベースの説明を生成させると、予測精度が単調に (93.8% から 90.1% に) 低下し、明示的な推論が普遍的にパフォーマンスに役立つという仮定に反します。ただし、モデルがクラスを識別する視覚的特徴をうまく表現できる場合、説明の質は正しい予測と強く相関します。私たちの調査結果は、MLLM は視覚的な分類には優れているものの、形式的で機械検証可能な説明可能性に必要な特定の命令チューニングが欠けていることを示唆しています。
原文 (English)
Explaining is Harder Than Predicting Alone: Evaluating Concept-based Explanations of MLLMs as ICL Visual Classifiers
In-context learning (ICL) enables multimodal large language models (MLLMs) to classify images from a few labelled examples. Yet, how these models use the provided context remains opaque. While Chain-of-Thought prompting is widely used, recent work argues that it may not reflect true internal computation. In this paper, we systematically evaluate the concept-based explainability of frozen MLLMs under few-shot ICL using five conditions of increasing formal rigour, ranging from baseline classification to Description Logics (DL) axiom generation. Evaluating four state-of-the-art MLLMs via an independent LLM-as-a-judge pipeline, we demonstrate that explaining is genuinely harder than predicting alone. Surprisingly, forcing models to generate formally structured, concept-based explanations degrades predictive accuracy monotonically (from 93.8% to 90.1%), contradicting the assumption that explicit reasoning universally aids performance. However, when models successfully articulate class-discriminative visual features, explanation quality strongly correlates with correct predictions. Our findings suggest that while MLLMs excel at visual classification, they lack the specific instruction-tuning required for formal, machine-verifiable explainability.
ツール使用 LLM エージェントの複数軌道推論にメモリが役立つのはどのような場合ですか?
ツール使用 LLM エージェントの複数軌道推論 - 複数の推論試行を生成し、その中から選択する - は、試行間で知識を転送することで、後のエージェントが以前のエージェントの落とし穴を回避できるという利点があります。既存のクロストラジェクトリメモリ手法 (トラジェクトリレベルのリフレクション、アトミックファクト抽出、生の観測値の注入) はそれぞれ、単一タスクの単一の推論戦略に基づいて評価されるため、報告されるゲインがメモリ抽象化のプロパティを反映しているのか、それとも推論手法のプロパティを反映しているのかが不明確です。私たちは、転送の範囲 (拡張内と軌跡全体) と転送されたコンテンツの抽象化という 2 つの軸に沿ってメモリを分解する統一フレームワークを提案し、実際のエージェントの導入体制に一致するベリファイアなしの設定で、SQL、ナレッジグラフ、および CLI 環境にわたる 4 つのツール使用ベンチマークで 3 つの推論戦略 (ベストオブ N、ビーム検索、MCTS) に基づいて 4 つのメソッドを評価します。実験行列は推論方法を交絡として識別します。同じ記憶方法は、同じ例の異なる推論戦略の下で統計的に異なる結果を生成します。リフレクションは MCTS の下でのみ重要になります (ベストオブ N の下ではそうではありません)。拡張内注入 (前の兄弟の結果に基づいて各候補を条件付ける) は、ダイバーシティが不足したビーム探索のみに役立ちます。また、アトミック ファクト抽出は精度に中立ですが、再利用可能な環境構造を持つタスクでは軌道を 19 ~ 26% 短縮します。
原文 (English)
When Does Memory Help Multi-Trajectory Inference for Tool-Use LLM Agents?
Multi-trajectory inference for tool-use LLM agents - generating multiple reasoning attempts and selecting among them - benefits from transferring knowledge across attempts so that later ones avoid the pitfalls of earlier ones. Existing cross-trajectory memory methods (trajectory-level reflection, atomic fact extraction, raw observation injection) are each evaluated under a single inference strategy on a single task, making it unclear whether reported gains reflect properties of the memory abstraction or of the inference method. We propose a unified framework that decomposes memory along two axes -- the scope of transfer (within an expansion vs. across trajectories) and the abstraction of the transferred content -- and evaluate four methods under three inference strategies (best-of-N, beam search, MCTS) on four tool-use benchmarks spanning SQL, knowledge-graph, and CLI environments, in a verifier-free setting that matches the deployment regime of practical agents. The experiment matrix identifies the inference method as a confound: the same memory method produces statistically distinct results under different inference strategies on the same examples. Reflection reaches significance only under MCTS (not under best-of-N); within-expansion injection (conditioning each candidate on prior siblings' outcomes) helps only diversity-starved beam search; and atomic fact extraction is accuracy-neutral but shortens trajectories by 19-26% on tasks with reusable environmental structure.
生成モデルにおける幻覚のフィンガープリントとしてのエントロピー分布
大規模言語モデル (LLM) は、一般に幻覚と呼ばれる事実に反する出力を生成することが多く、信頼を損ない、一か八かの環境での展開を制限します。既存の幻覚検出方法では通常、複数のフォワード パスまたはモデル内部へのアクセスが必要です。この研究では、混乱または長さで正規化されたエントロピーによって捕捉された平均を超えるトークンレベルのエントロピーの分布が、独立した信号を運ぶ分布形状と尾部の動作を伴う幻覚の指紋として機能するという理論的背景と経験的証拠を提供します。私たちは幻覚検出を統計的仮説検定として形式化し、単一のフォワード パスとトークン ロジットへのブラック ボックス アクセスのみを必要とする軽量アルゴリズムである校正エントロピー スコア (CES) を提案します。 CES は、校正された参照 CDF を通じて生成されたエントロピーの平均信号と最大信号を結合し、モデルとタスク間で直接比較できるスコアを生成します。我々は、新しいランダム長の Dvoretzky-Kiefer-Wolfowitz 不等式を介して有限サンプルのキャリブレーション保証を確立し、また、CES が世代長において指数関数的に速く 1 に収束する確率で幻覚を検出することも証明します。 CES は、オープンソース モデルと API アクセス モデルにわたる 8 つの QA ベンチマークと 10 のジェネレーター モデルにわたって、すべてのシングルパス ブラック ボックス メソッドの中で最高の検出パフォーマンスを達成するとともに、既存のヒューリスティックにはない正式なエラー保証を提供します。注目すべきことに、CES は、はるかに大きな計算コストを必要とするマルチサンプル手法と統計的に区別がつかないため、軽量検出と高価な検出の間のギャップを埋め、リアルタイムの大規模展開に適しています。
原文 (English)
Entropy Distribution as a Fingerprint for Hallucinations in Generative Models
Large Language Models (LLMs) often generate factually incorrect outputs, commonly termed hallucinations, that undermine trust and limit deployment in high-stakes settings. Existing hallucination detection methods typically require multiple forward passes, or access to model internals. In this work, we provide theoretical background and empirical evidence that the distribution of token-level entropies, beyond the mean captured by perplexity or length-normalised entropy, serves as a fingerprint of hallucination, with distributional shape and tail behaviour carrying independent signal. We formalize hallucination detection as a statistical hypothesis test and propose the Calibrated Entropy Score (CES), a lightweight algorithm requiring only a single forward pass and black-box access to token logits. CES combines the mean signal with the maximum signal of the generated entropy through a calibrated reference CDF, producing scores that are directly comparable across models and tasks. We establish finite-sample calibration guarantees via a novel random-length Dvoretzky--Kiefer--Wolfowitz inequality, and also prove that CES detects hallucinations with probability converging to one exponentially fast in the generation length. Across eight QA benchmarks and ten generator models spanning open-source and API access models, CES achieves the highest detection performance among all single-pass black-box methods while providing formal error guarantees that existing heuristics lack. Remarkably, CES is statistically indistinguishable from multi-sample methods that require far greater computational cost, closing the gap between lightweight and expensive detection and making it suitable for real-time, large-scale deployment.
LLM はテキストから世界モデルを構築しますか?空間推論の多言語診断
大規模言語モデル (LLM) が純粋なテキスト記述から内部空間世界モデルを構築するかどうかについては依然として議論があり、そのような機能が言語間で伝達されるかどうかについては体系的に研究されていません。 MentalMap は、原子的な空間事実から生成世界グラフの構築までを網羅する 6 レベルの機能階層 (L0 ~ L5) を備えた多言語診断ベンチマークであり、基準枠、読書方向の偏り、推論の労力の割り当て、幻覚を調査する 4 つの診断軸を備えています。 MentalMap は 100 の ProcTHOR 家庭用シーンから構築され、8 つの類型的に多様な言語と構造化テキスト コントロールをカバーし、1,950 の評価セルにわたる 39 のタスク ファミリを含みます。スケールとモデル ファミリ全体で 13 個の LLM を評価したところ、普遍的な L3 推論の崖が特定されました。つまり、ベースラインの原子精度が 40% を超えると、ビューポイント推論で L0 パフォーマンスの半分も維持できるモデルは存在しません。この崖は言語、スケール、プロンプト戦略を超えて存続しますが、構造化された出力の失敗と推論パターンはモデルごとに大幅に異なります。同一のピュアテキストプロトコルの下で人間による評価を行ったところ、同じ障害パターンが再現され、ボトルネックが現在の LLM アーキテクチャに特有のものではなく、テキストのみの作業メモリの制約から生じていることが示唆されています。私たちの発見は、純粋なテキストの空間推論を多軸の世界モデリング問題として再構成し、将来の方向性としてマルチモーダルおよびスクラッチパッド拡張推論の動機付けとなります。
原文 (English)
Do LLMs Build World Models From Text? A Multilingual Diagnostic of Spatial Reasoning
Whether large language models (LLMs) construct internal spatial world models from pure-text descriptions remains contested, and whether such capabilities transfer across languages has not been systematically studied. We introduce MentalMap, a multilingual diagnostic benchmark with a six-level capability hierarchy (L0-L5) spanning atomic spatial facts to generative world-graph construction, together with four diagnostic axes probing frame of reference, reading-direction bias, reasoning-effort allocation, and hallucination. MentalMap is built from 100 ProcTHOR household scenes, covers eight typologically diverse languages plus a structured-text control, and contains 39 task families across 1,950 evaluation cells. Evaluating thirteen LLMs across scales and model families, we identify a universal L3 reasoning cliff: no model retains even half of its L0 performance on viewpoint reasoning once baseline atomic accuracy exceeds 40%. The cliff persists across languages, scales, and prompting strategies, while structured-output failures and reasoning patterns vary substantially across models. Human evaluation under the identical pure-text protocol reproduces the same failure pattern, suggesting that the bottleneck arises from text-only working memory constraints rather than being specific to current LLM architectures. Our findings reframe pure-text spatial reasoning as a multi-axis world-modeling problem and motivate multimodal and scratchpad-augmented reasoning as future directions.
From Fact Overwriting to Knowledge Evolution: Causal Editing via On-Policy Self-Distillation
While Knowledge Editing (KE) enables efficient updates, its dominant Static Fact Overwriting paradigm treats LLMs as discrete databases, fo…
SafeMed-R1: Clinician-Audited Safety and Ethics Alignment for Medical Large Language Models
Large language models(LLMs) increasingly match expert performance on licensing examinations, yet routine clinical use remains limited becau…
FedMPT: Federated Multi-label Prompt Tuning of Vision-Language Models
Multi-Label Recognition (MLR) based on Vision-Language Models (VLMs) aims to leverage their pre-trained knowledge to better adapt complex r…
From Knowing to Doing: A Memory-Controlled Benchmark for LLM Trading Agents on Stock Markets
Evaluating whether large language model (LLM) agents can profit in capital markets is increasingly framed as end-to-end trading: place an a…
Prompt Codebooks: Discrete Compositional Optimization for Language Model Instruction Refinement
Automatic prompt optimization (APO) has driven significant gains in LLM-based agentic workflows. However, existing methods treat each task'…
Mechanistically Interpreting the Role of Sample Difficulty in RLVR for LLMs
Reinforcement Learning with Verifiable Reward (RLVR) is empirically shown to notably enhance the reasoning performance of large language mo…
HRBench: Benchmarking and Understanding Thinking-Mode Switch Strategies in Hybrid-Reasoning LLMs
Hybrid-reasoning large language models (LLMs) expose explicit controls over reasoning effort, allowing users or systems to trade off answer…
Efficient Post-training of LLMs for Code Generation With Offline Reinforcement Learning
Post-training using online reinforcement learning (RL) is an important training step for LLMs, including code-generating models. However, o…
From Learning Resources to Competencies: LLM-Based Tagging with Evidence and Graph Constraints
Linking learning resources to a structured competency framework is key to enabling competency-based search and curriculum analytics in Lear…
Let Relations Speak: An End-to-End LLM-GNN Soft Prompt Framework for Fraud Detection
In recent years, Large Language Models (LLMs) have shown great capability in processing graph tasks such as fraud detection. However, most…
Cultural Binding Heads in Language Models
LLMs often default to equal treatment across cultural groups, even though context warrants differentiation: this is a lack of difference aw…
Refusal Before Decoding: Detecting and Exploiting Refusal Signals in Intermediate LLM Activations
In this paper, we investigate whether refusal behavior can be predicted from LLM intermediate activations before decoding using linear prob…
Tree of Thoughts as a Classical Heuristic Search Problem: Formal Foundations and Design Patterns
Large Language Models (LLMs) have demonstrated remarkable reasoning capabilities, yet their standard generation process -- auto-regressive…
MUSE: Benchmarking Manufacturable, Functional, and Assemblable Text-to-CAD Generation
Large language models (LLMs) have recently advanced text-driven 3D generation, yet Text-to-CAD remains far from supporting industrial produ…
Satisfiability Solving with LLMs: A Matched-Pair Evaluation of Reasoning Capability
Large language models (LLMs) are increasingly used for tasks that implicitly reduce to Boolean satisfiability (SAT), yet their reasoning ab…
LACUNA: Safe Agents as Recursive Program Holes
LLM agents increasingly act by writing code, yet a split persists between the runtime that drives the agent and the code the model writes.…
Bandwidth-Efficient and Privacy-Preserving Edge-Cloud Many-to-Many Speech Translation
Multimodal large language models (MLLMs) have demonstrated significant potential for speech-to-text translation (S2TT). However, existing d…
The Ethics of LLM Sandbox and Persona Dynamics
It is well known that LLM guardrails and trained persona dynamics can produce a reality gap: the distance between the world a LLM is permit…
An LLM-Based Assistance System for Intuitive and Flexible Capability-Based Planning
In modern industry, dynamic environments and the complexity of modular and reconfigurable resources require automated planning of process s…
TRACER: Turn-level Regret Matching with Inner Reinforcement Credit for Cooperative Multi-LLM Reasoning
Large language models increasingly rely on either reinforcement learning or multi-agent prompting to improve reasoning, yet these two parad…
The Importance of Being Statistically Earnest: A Critical Re-evaluation of GSM-Symbolic
The GSM-Symbolic benchmark (Mirzadeh et al., 2025) reported consistent performance drops across 25 Large Language Models (LLMs) when tested…
Thinking as Compression: Your Reasoning Model is Secretly a Context Compressor
Context compression aims to shorten long context inputs with minimal information loss for LLM inference acceleration. While existing method…
LiveBrowseComp: Are Search Agents Searching, or Just Verifying What They Already Know?
Are LLM-based search agents genuinely searching, or using the web to verify what they already know? We study this question on BrowseComp wi…
Unlocking Fine-Grained and Within-Utterance Speaking Style Control in Prompt-Based Text-to-Speech Models
While prompt-based text-to-speech (TTS) models enable natural language-driven speaking style control, they often provide limited fine-grain…
RAG-Coding: Enhancing LLM Medical Coding with Structured External Knowledge
We present RAG-Coding, an agentic method for automated ICD-10-CM coding. RAG-Coding orchestrates four large language model (LLM) agents and…
BioELX: Cross-lingual Biomedical Entity Linking via Alias-based Retrieval and LLM Ranking
Cross-lingual biomedical entity linking (BEL) maps mentions in any language to unique identifiers in a biomedical knowledge base (KB), supp…
The Alignment Floor: When Persona Customization Is Safe
A key promise of pluralistic AI is behavioral adaptation: persona prompts like "be creative" or "be thorough" let systems respect diverse u…
Modeling Community Attitude through Reaction Tone: A Human-AI Collaborative Framework for Evaluating LLM Alignment with Linguistic Behaviors in Online Communities
Large language models (LLMs) are increasingly utilized as proxies for computational social analysis; yet, their ability to faithfully repre…
StoryMI: Steerable Multi-Agent Therapeutic Dialogue Generation
Large language models (LLMs) can generate fluent dialogue, but prior works lack situational grounding, dynamic strategy control, and evalua…
Using Zero-Shot LLM-Generated Survey Data for Geographically Explicit Population Synthesis
There is a growing interest in utilizing synthetic populations for a diverse range of applications. At the same time, we are witnessing a t…
LLM-assisted sentiment analysis for integrated computational and qualitative mixed methods education research: A case study of students' written reflection assignments
Written reflection assignments give students valuable opportunities for critical self-assessment, meaning making, and learning processing.…
Ocean4Rec: Offline LLM-Derived OCEAN Profiles for Request-Time VOD Reranking
Industrial video-on-demand (VOD) recommenders need richer content understanding, but LLM-as-reranker designs repeat prompt construction, to…
When NPUs Are Not Always Faster: A Stage-Level Analysis of Mobile LLM Inference
Deploying large language models (LLMs) on mobile devices increasingly relies on heterogeneous execution, yet no prior study has systematica…
MGRetrieval: Memory-Guided Reflective Retrieval for Long-Term Dialogue Agents
Large Language Models (LLMs) have made significant progress in dialogue, yet redundant memory contexts severely limit their effectiveness i…
Prominence-Stratified Failure Modes in Retrieval-Augmented Commercial Recommendation: A 37,000-Run Audit
AI assistants like ChatGPT and Claude are recommendation engines, not search engines: they answer commercial queries by directly nominating…
RAGe: A Retrieval-Augmented Generation Evaluation Framework
Deploying Large Language Model (LLM) applications, particularly those relying on Retrieval-Augmented Generation (RAG), remains challenging…
When prompt perturbations break your A/B test: A valid statistical test for generative surveying
Generative surveying -- where collections of LLM-based personas provide feedback on messages -- has emerged as a cheap and scalable alterna…
AgensFlow: A Coordination-Policy Substrate for Multi-Agent Systems
Multi-agent systems built on large language models (LLMs) require many coordination choices that are difficult to fix a priori: which skill…
AssertLLM2: A Comprehensive LLM Benchmark for Assertion Generation from Design Specifications
Assertion-based verification (ABV) is a cornerstone of modern hardware design, yet manually translating design intent into formal SystemVer…
BIRDS: Characterizing and Understanding Biodiversity Impact of Large Language Model Serving
Large language model (LLM) serving creates environmental impacts beyond carbon and water, including ecosystem damage through biodiversity-r…
HARP: Measuring Harm Amplification in Multi-Agent LLM Systems
Multi-agent LLM systems decompose workflows across agents, tools, shared context, memory, and decision gates. This modularity improves inte…
Benchmarks are Not Enough: RAMP for Runtime Assessing of Agentic Models in Production Systems
LLM agents are rapidly evolving from coding assistants into autonomous software engineering systems. However, existing evaluation methodolo…
Detection Without Correction: A Two-Parameter Decomposition of Multi-Stage LLM Pipelines
Multi-stage LLM pipelines that perform multi-agent debate, intrinsic self-correction, or retrieval-augmented verification exhibit puzzling…
Hallucination Behavior in Multimodal LLMs Across Agricultural Image Interpretation and Generation Tasks
Large Language Models (LLMs) are being rapidly adopted in agricultural imaging applications, ranging from crop interpretation to synthetic…
Eliot: Interactively $\underline{E}$xploring Fast-Changing Scientific $\underline{Li}$terature Trends with $\underline{O}$nline Da$\underline{t}$a and Learning
The rapid growth of scientific publishing has made it increasingly difficult to track how fast-moving areas evolve. Search engines and LLM-…
Aligning LLMs with Human Uncertainty: A Beta-Bernoulli Calibrator for LLM Forecasting
Probabilistic forecasting estimates the likelihood of uncertain future events. To improve LLM forecasting, existing methods typically learn…
CiteCheck: Retrieval-Grounded Detection of LLM Citation Hallucinations in Scientific Text
Large language models (LLMs) are increasingly used to generate scientific reports, but they can produce references that appear plausible wh…
Can Segmentation Models Understand the World? Towards Proactive Affordance Reasoning via Visual Chain-of-Thought
Recent segmentation models couple large language models (LLMs) with mask decoders to ground complex language expressions into masks, yet th…
Restoring the Sweet Spot: Pass-Rate Weighted Self-Distillation for LLM Reasoning
Self-Distillation Policy Optimization (SDPO) provides dense token-level credit assignment for reinforcement learning with large language mo…
Locality-Aware Redundancy Pruning for LLM Depth Compression
Large language models are known to contain representational redundancy across network depth, making depth pruning an effective approach for…
ChildEval: When large language models meet children's personalities
While LLMs enable personalized chatbots, their effectiveness in child-centered personalization remains unclear, as systematic evaluation of…
Disentangling Adversarial Prompts: A Semantic-Graph Defense for Robust LLM Security
Large Language Models (LLMs) are increasingly vulnerable to adversarial prompts that exploit semantic ambiguities to bypass safety mechanis…
Snippet-Driven Supply Chain Discovery with LLMs: Scaling Visibility in China
Financial and economic research often relies on structured supply-chain disclosures and commercial databases. In China, supplier--customer…
FPMoE: A Sparse Mixture-of-Experts Approach to Functional Code Generation
Despite rapid progress in LLM-based code generation, existing models are predominantly trained on imperative languages, leaving functional…
Fine-Tuned LLM as a Complementary Predictor Improving Ads System
Recommendation systems power engagement and monetization across feeds, ads, and short-video platforms, but translating the latest advances…
VibeSearchBench: Benchmarking Long-horizon Proactive Search in the Wild
LLM-based agents score well on search benchmarks, yet real users consistently find results unsatisfying, revealing a persistent evaluation-…
Let the Results Speak: A Replication-First Paradigm for LLM Behavioral Benchmarking
Subjective evaluation of LLM behavior -- empathy, restraint, calibrated emotional tone -- is hard. Human inter-rater agreement on such qual…
Pressure-Testing Deception Probes in LLMs: Scaling, Robustness, and the Geometry of Deceptive Representations
Linear probes trained on LLM activations are increasingly proposed as deception-detection metrics, yet report AUROC exceeding 0.96 on clean…
ROVER: Routing Object-Centric Visual Evidence for Grounded Multi-Image Reasoning
Multimodal Large Language Models (MLLMs) have increasingly localized and interleaved visual evidence for deliberative reasoning. Grounding-…
Semantic Flow Regularization: Teaching LLMs to Generate Diverse Yet Coherent Responses
When large language models are fine-tuned to generate persona- or tone-conditioned responses, their output diversity is severely limited--a…
Periodic RoPE for Infinite Context LLMs
The ability to process ultra-long contexts is crucial for large language models (LLMs) to perform long-horizon tasks. While recent efforts…
KVoiceBench, KOpenAudioBench, and KMMAU: Agent-Driven Korean Speech Benchmarks for Evaluating SpeechLMs
Speech language models (SpeechLMs) have achieved substantial progress by extending large language models (LLMs) to the speech modality. How…
Integrated and Cross-Architecture Interpretation of LLM Reasoning
Understanding how LLMs reason is hindered by a practical asymmetry: while their generated outputs are observable, the underlying reasoning…
Extracting Small Translation Specialists from LLMs by Aggressively Pruning Experts
Modern large language models (LLMs) achieve state-of-the-art machine translation performance, but they do so as broad generalists largely t…
Unified Synthesis of Compositional Speech and Sound from Free-Form Text Prompts
Audio generation has made significant progress, yet synthesizing unified audio where speech and sounds are naturally composited remains a c…
PromptEmbedder:: Efficient and Transferable Text Embedding via Dual-LLM Soft Prompting
Large Language Models (LLMs) have demonstrated remarkable efficacy in text embedding, yet current adaptation methods like LoRA face signifi…
MIRAGE: Context-Aware Prompt Injection against Mobile GUI Agents via User-Generated Content
Mobile graphical user interface (GUI) agents driven by vision-language models (VLMs) perceive the screen as rendered pixels and choose acti…
DeltaMCP: Incremental Regeneration via Spec-Aware Transformation for MCP servers
The rapid development of LLMs coupled with the introduction of Model Context Protocol (MCP) has revolutionized how intelligent agents inter…
DEPART: DEcomposing PARiTy across Multilingual LLMs
Multilingual Large Language Models (mLLMs) leaderboards report per-language accuracy but rarely explain why disparities emerge, leaving sys…
BenGER: Benchmarking LLM Systems on Subsumption-Based Legal Reasoning in German Law
We introduce the BenGER (Benchmark for German Law) dataset for evaluating LLM systems on subsumption-based legal reasoning in German law. T…
Whose Name Comes Up? III: Persona Prompting Effects in LLM-Based Scholar Recommendation
Large language models (LLMs) are increasingly used as scholar recommenders, shaping who is seen as an expert in academia. Existing audits r…
IRDS: Interpretable RLVR Data Selection via Verifier-Coupled Sparse Autoencoder Coverage
Reinforcement learning with verifiable rewards (RLVR) has become a key technique for en- hancing LLM reasoning, yet its data ineffi- ciency…
How Far Can Disaggregation Go? A Design-Space Exploration of Attention-FFN Disaggregation for Efficient MoE LLM Serving
Modern large language model (LLM) inference has progressively disaggregated to keep pace with growing model sizes and tight TTFT and TPOT s…
Revisiting Anthropomorphic Reflection Markers in Large Language Model Reasoning
Large Language Models (LLMs) often produce explicit reflective traces during complex reasoning, accompanied by anthropomorphic markers such…
Routing-Aligned Fine-Tuning for Multilingual Downstream Tasks in Mixture-of-Experts Models
Mixture-of-Experts (MoE) models have emerged as a dominant paradigm for efficient LLM scaling, yet adapting them to non-English downstream…
Multi-Agent LLM-based Metamorphic Testing for REST APIs
As REST APIs become an increasingly significant part of software systems, their validation is becoming more critical. Hence, testing and un…
Learning the Error Patterns of Language Models
When generating outputs for domains with specific validity constraints (e.g., a program should compile), LLMs often fail in a small number…
VITAL: Visual-Semantic Dual Supervision for Enhanced and Interpretable Latent Reasoning in Medical MLLMs
Latent reasoning enables reasoning over continuous hidden states rather than explicit tokens, avoiding the language bottleneck and inferenc…
SSR3D-LLM: Structured Spatial Reasoning via Latent Steps for Fine-Grained Grounding in Unified 3D-LLMs
3D object grounding localizes referred objects in a 3D scene from natural language. Unified instance-centric 3D-LLMs aim to solve grounding…
Functional Entropy: Predicting Functional Correctness in LLM-Generated Code with Uncertainty Quantification
Large language models have shown impressive capabilities in code generation, yet they often produce functionally incorrect code. Uncertaint…
Efficient and Scalable Provenance Tracking for LLM-Generated Code Snippets
Large language models (LLMs) for code completion and generation are increasingly used in software development, yet they may reproduce train…
Do LLMs Favor Their Providers? Measuring Vertical Integration Bias in Code Generation
Large Language Models (LLMs) have become an integral part of software development, especially with the advent of agentic capabilities. Yet,…
Token Optimization Strategies for LLM-Based Oracle-to-PostgreSQL Migration
LLMs are increasingly used for software modernization, code translation, and database migration. However, LLM-based Oracle2PostgreSQL migra…
Verified Misguidance: Measuring Structural Citation Failures in Search-Augmented LLMs
Users of search-augmented LLMs rely on citations as evidence that responses are grounded in real sources, and rarely verify the cited pages…
Efficient Pre-Training of LLMs through Truncated SVD Layers
The massive scaling of Large Language Models (LLMs) has made pretraining increasingly cost-prohibitive. While low-rank representation and o…
SARAD: LLM-Based Safety-Aware Hybrid Reinforcement Learning with Collision Prediction for Autonomous Driving
Ensuring both safety and efficiency in decision-making for autonomous driving systems remains a fundamental challenge. Traditional Deep Rei…
Evaluating the Realism of LLM-powered Social Agents: A Case Study of Reactions to Spanish Online News
LLM-powered social agents are increasingly used to simulate online social behavior, yet their realism remains difficult to validate. Existi…
Blind PRNG Hijacking: An Undetectable Integrity-Preserving Attack Against LLM Watermarking
Cryptographic watermarking is a leading defense for attributing text generated by large language models (LLMs). Existing schemes, including…
Towards Reliable Multilingual LLMs-as-a-Judge: An Empirical Study
Large language models (LLMs) are increasingly used for the automatic evaluation of generated text, yet most prior work focuses on English.…
Rethinking Memory as Continuously Evolving Connectivity
Existing memory-augmented LLM agents often treat memory as a static repository with pre-defined representations and fixed retrieval pipelin…
Skill-Conditioned Gated Self-Distillation for LLM Reasoning
On-policy self-distillation (SD) improves LLM reasoning by using teacher-side privileged information (PI) to turn sparse verifier outcomes…
RL Squeezes, SFT Expands: A Comparative Study of Reasoning LLMs
Large language models (LLMs) are typically trained by reinforcement learning (RL) with verifiable rewards (RLVR) and supervised fine-tuning…
MetaboT: An LLM-based Multi-Agent Frameworkfor Interactive Analysis of Mass SpectrometryMetabolomics Knowledge Graphs
Mass spectrometry-based metabolomics generates complex, high-dimensional data that holds vast potential for biological discovery but remain…
CircuitLM: A Multi-Agent LLM-Aided Design Framework for Generating Circuit Schematics from Natural Language Prompts
Generating accurate circuit schematics from high-level natural language descriptions remains a persistent challenge in electronic design au…
SONIC-O1: A Real-World Benchmark for Evaluating Multimodal Large Language Models on Audio-Video Understanding
Multimodal Large Language Models (MLLMs) are a major focus of recent AI research. However, most prior work focuses on static image understa…
AMA-Bench: Evaluating Long-Horizon Memory for Agentic Applications
Large Language Models (LLMs) are increasingly used as autonomous agents in complex, long-horizon applications, where effective memory is cr…
DIG to Heal: Scaling General-purpose Agent Collaboration via Explainable Dynamic Decision Paths
The increasingly popular agentic AI paradigm promises to harness the power of multiple, general-purpose large language model (LLM) agents t…
COOP$^2$: Defining, Observing, and Repairing Cooperation in LLM Multi-Agent Systems
Many complex tasks require extended effort, diverse capabilities, or coordinated actions beyond what a single agent can provide. However, s…
Towards automated data analysis: A guided framework for LLM-based risk estimation
Large Language Models (LLMs) are increasingly integrated into critical decision-making pipelines, a trend that raises the demand for robust…
CRaFT: Circuit-Guided Refusal Feature Selection via Cross-Layer Transcoders
While modern LLMs are aligned to refuse harmful requests, it is essential to understand the underlying mechanistic basis of this refusal be…
FactReview: Evidence-Grounded Peer Review with Execution-Based Claim Verification
LLM-based reviewing systems typically take only the manuscript as input, leaving literature and code-based claims hard to verify. We presen…
Graph-of-Skills: Dependency-Aware Structural Retrieval for Massive Agent Skills
Modern LLM agents increasingly rely on reusable skills, and as they interact with personal applications, web browsers, and other interfaces…
Text2Model: Modeling Copilots for Text-to-Model Translation
There is growing interest in leveraging large language models (LLMs) for text-to-model translation and optimization tasks. This paper aims…
Prompt Optimization Is a Coin Flip: Diagnosing When It Helps in Compound AI Systems
Prompt optimization in compound AI systems is statistically indistinguishable from a coin flip: across 72 optimization runs on Claude Haiku…
OGER: A Robust Offline-Guided Exploration Reward for Hybrid Reinforcement Learning
Recent advancements in Reinforcement Learning with Verifiable Rewards (RLVR) have significantly improved Large Language Model (LLM) reasoni…
Verifiable Process Rewards for Agentic Reasoning
Reinforcement learning from verifiable rewards (RLVR) has improved the reasoning abilities of large language models (LLMs), but most existi…
Adaptive Teacher Exposure for Self-Distillation in LLM Reasoning
On-policy self-distillation has become a strong recipe for LLM reasoning, where a privileged teacher supervises the student's own rollouts…
Democratizing Large-Scale Re-Optimization with LLM-Guided Model Patches
Optimization models developed by operations research (OR) experts are often deployed as decision-support systems in industrial settings. Ho…
EngiAI: A Multi-Agent Framework and Benchmark Suite for LLM-Driven Engineering Design
Large Language Model (LLM) agents are increasingly applied to engineering design tasks, yet existing evaluation frameworks do not adequatel…
Adapting the Interface, Not the Model: Runtime Harness Adaptation for Deterministic LLM Agents
LLM agents are shaped not only by their language models, but also by the runtime harness that mediates observation, tool use, action execut…
Beyond External Monitors: Enhancing Transparency of Large Language Models for Easier Monitoring
Large language models (LLMs) are becoming increasingly capable, but the mechanisms of their thinking and decision-making processes remain u…
MCTS-Judge: Test-Time Scaling in LLM-as-a-Judge for Code Correctness Evaluation
The LLM-as-a-Judge paradigm shows promise for evaluating generative content but lacks reliability in reasoning-intensive scenarios, such as…
MM-PoisonRAG: Disrupting Multimodal RAG with Local and Global Poisoning Attacks
Retrieval-augmented generation (RAG) has become a common practice in multimodal large language models (MLLM) to enhance factual grounding a…
Persuade Me if You Can: A Framework for Evaluating Persuasion Effectiveness and Susceptibility Among Large Language Models
Large Language Models (LLMs) demonstrate persuasive capabilities that rival human-level persuasion. While these capabilities can be used fo…
The Point, the Vision and the Text: Does Point Cloud Boost Spatial Reasoning of Large Language Models? A Bias-Controlled Study
3D Large Language Models (LLMs) leveraging spatial information in point clouds for 3D spatial reasoning attract great attention. Despite so…
Structured Agent Distillation for Large Language Model
Large language models (LLMs) exhibit strong capabilities as decision-making agents by interleaving reasoning and actions, as seen in ReAct-…
EVADE-Bench: Multimodal Benchmark for Evaluating and Enhancing Evasive Content Detection
E-commerce platforms increasingly rely on Large Language Models (LLMs) and Vision Language Models (VLMs) to detect illicit or misleading pr…
Understanding Automated Program Repair Agents Through the Lens of Traceability: An Empirical Study
Automated Program Repair (APR) agents leverage Large Language Models (LLMs) to autonomously diagnose and fix software bugs through reasonin…
PICACO: Pluralistic In-Context Value Alignment of LLMs via Total Correlation Optimization
In-Context Learning has shown great potential for aligning Large Language Models (LLMs) with human values, helping reduce harmful outputs a…
LLM Watermark Evasion via Bias Inversion
Watermarking offers a promising solution for detecting LLM-generated content, yet its robustness under realistic query-free (black-box) eva…
SelfJudge: Faster Speculative Decoding via Self-Supervised Judge Verification
Speculative decoding accelerates LLM inference by verifying candidate tokens from a draft model against a larger target model. Recent judge…
InfiMed-ORBIT: Aligning LLMs on Open-Ended Complex Tasks via Rubric-Based Incremental Training
Reinforcement learning (RL) has driven recent breakthroughs in large language models (LLMs), especially for tasks where rewards can be comp…
VULPO: Context-Aware Vulnerability Detection via On-Policy LLM Optimization
Large language models (LLMs) have recently shown strong potential in vulnerability detection (VD). However, accurately detecting vulnerabil…
ReflexGrad: Within-Episode Failure Recovery in LLM Agents via Progress-Gated Dual-Process Routing
We present ReflexGrad, a dual-process architecture for within-episode failure recovery in LLM agents without demonstrations. When agents co…
HGMEM: Hypergraph-based Working Memory to Improve Multi-step RAG for Long-Context Complex Relational Modeling
Multi-step retrieval-augmented generation (RAG) has become a widely adopted strategy for enhancing large language models (LLMs) on tasks th…
JMedEthicBench: A Multi-Turn Conversational Benchmark for Evaluating Medical Safety in Japanese Large Language Models
As Large Language Models (LLMs) are increasingly deployed in healthcare field, it becomes essential to carefully evaluate their medical saf…
Differential syntactic and semantic encoding in LLMs
We study how syntactic and semantic information is encoded in inner layer representations of Large Language Models (LLMs), focusing on the…
On the Fallacy of Global Token Perplexity in Spoken Language Model Evaluation
Generative spoken language models pretrained on large-scale raw audio can continue a speech prompt with appropriate content while preservin…
DSA-Tokenizer: Disentangled Semantic-Acoustic Tokenization via Flow Matching-based Hierarchical Fusion
Speech tokenizers are a key building block of fully discrete Speech LLMs.Existing tokenizers either prioritize semantic encoding,fuse seman…
Teaching and Evaluating LLMs to Reason About Polymer Design Related Tasks
Research in AI4Science has shown promise in many science applications, including polymer design. However, current LLMs are ineffective in t…
The Script is All You Need: An Agentic Framework for Long-Horizon Dialogue-to-Cinematic Video Generation
Recent advances in video generation have produced models capable of synthesizing stunning visual content from simple text prompts. However,…
SAME: Stabilized Mixture-of-Experts for Multimodal Continual Instruction Tuning
Multimodal Large Language Models (MLLMs) achieve strong performance through instruction tuning, but real-world deployment requires them to…
Learning Query-Aware Budget-Tier Routing for Runtime Agent Memory
Memory is increasingly central to Large Language Model (LLM) agents operating beyond a single context window, yet most existing systems rel…
Colosseum: Auditing Collusion in Cooperative Multi-Agent Systems
Multi-agent systems, where LLM agents communicate through free-form language, enable sophisticated coordination for solving complex coopera…
AlphaForgeBench: Benchmarking End-to-End Trading Strategy Design with Large Language Models
The rapid advancement of Large Language Models (LLMs) has led to a surge of financial benchmarks, evolving from static knowledge evaluation…
Probing for Knowledge Attribution in Large Language Models
Large language model (LLM) hallucinations, meaning fluent but factually incorrect generations, fall into two types: faithfulness violations…
Decoupling Reasoning and Confidence: Resurrecting Calibration in Reinforcement Learning from Verifiable Rewards
Reinforcement Learning from Verifiable Rewards (RLVR) significantly enhances large language models (LLMs) reasoning but severely suffers fr…
Causal Direct Preference Optimization for Distributionally Robust Generative Recommendation
Direct Preference Optimization (DPO) guides large language models (LLMs) to generate recommendations aligned with user historical behavior…
Speaking of Language: Reflections on Metalanguage Research in NLP
This work aims to shine a spotlight on the topic of metalanguage. We first define metalanguage, link it to NLP and LLMs, and then discuss o…
Securing Retrieval-Augmented Generation: A Taxonomy of Attacks, Defenses, and Future Directions
Retrieval-augmented generation (RAG) extends large language models (LLMs) with external knowledge, but this access path also introduces sec…
Early Decisions Matter: Proximity Bias and Initial Trajectory Shaping in Non-Autoregressive Diffusion Language Models
Diffusion-based language models (dLLMs) have emerged as a promising alternative to autoregressive language models, offering the potential f…
BenGER Platform: A Collaborative Web Platform for End-to-End Benchmarking of German Legal Tasks
Evaluating large language models (LLMs) for legal reasoning requires workflows that span task design, expert annotation, model execution, a…
Reasoning on the Manifold: Bidirectional Consistency for Self-Verification in Diffusion Language Models
While Diffusion Large Language Models (dLLMs) offer structural advantages for global planning, efficiently verifying that they arrive at co…
C-MORAL: Controllable Multi-Objective Molecular Optimization with Reinforcement Alignment for LLMs
Large language models (LLMs) show promise for molecular optimization, but aligning them with selective and competing drug-design constraint…
Rethinking Layer Redundancy: Calibration Matters More Than Search in LLM Depth Pruning
Depth pruning improves the inference efficiency of large language models by removing Transformer blocks. Prior work typically treats layer…
Compliance versus Sensibility: On the Reasoning Controllability in Large Language Models
Large Language Models (LLMs) are known to acquire reasoning capabilities through shared inference patterns in pre-training data, which are…
Escaping Mode Collapse in LLM Generation via Geometric Regulation
Mode collapse is a persistent challenge in generative modeling and appears in autoregressive text generation as behaviors ranging from expl…
Structured Belief State and the First Precision-Aware Benchmark for LLM Memory Retrieval
Every major benchmark for LLM memory systems, LoCoMo foremost, measures whether a model answered correctly, not whether the memory system r…
Vision-OPD: Learning to See Fine Details for Multimodal LLMs via On-Policy Self-Distillation
Multimodal Large Language Models (MLLMs) still struggle with fine-grained visual understanding, where answers often depend on small but dec…
One LR Doesn't Fit All: Heavy-Tail Guided Layerwise Learning Rates for LLMs
Learning rate configuration is a fundamental aspect of modern deep learning. The prevailing practice of applying a uniform learning rate ac…
GoQuant: Geometric Orthogonal Residual Projection for Multiplier-Free Power-of-Two Transformer Quantization
The deployment of Large Language Models (LLMs) and Vision Transformers (ViTs) on edge devices is significantly constrained by memory limita…
SetupX: LLM エージェントは、機能的に正しいコード リポジトリのセットアップにおける過去の失敗から学ぶことができますか?
機能的に正しいリポジトリのセットアップは、リポジトリの文書化された機能を正常に実行できるように実行環境 (依存関係、ビルド スクリプトなど) を構成することを目的としています。依存関係の非互換性、ツールチェーンの欠落、インストールの不完全、検証戦略の不一致など、リポジトリ固有のさまざまな障害により、重大な課題が発生します。既存の LLM エージェントは、これらの問題を確実に解決するのに苦労しており、具体的には、(1) リポジトリ間でのエクスペリエンスの転送、(2) 不可逆的な状態変化下での複数ステップの試行と修復、(3) セットアップに起因する障害とリポジトリのバグを区別するためのセットアップ結果の堅牢な検証をサポートできていません。これに対処するために、経験的な学習ベースのセットアップ フレームワークである SetupX を導入します。まず、自己進化エクスペリエンス表現 (XPU) を構築します。これは、検証済みの環境修正を目に見えないリポジトリに動的に転送するためのセットアップ信号、テキスト ガイダンス、実行可能なアクションをエンコードするデュアルモダリティの知識単位です。 2 番目に、LIFO Docker スナップショット スタックを活用したエクスペリエンス拡張投機的実行を採用し、エージェントがプロアクティブに修正を試し、既知の正常な状態に安全にロールバックできるようにします。第三に、証拠収集と最終判決を分離する検察官と裁判官の検証プロトコルを導入し、表面的な構築時間の指標を超えて、より信頼性の高い設定検証を可能にします。慎重に作成されたベンチマークの評価結果では、SetupX が最高のパフォーマンス (例: 92% の合格率) を達成し、最も強力なベースラインを 19% 以上上回るパフォーマンスを示しています。重要なのは、SetupX が、異なるコンテナ間で相互接続された複数のサービスの調整を必要とする複雑なマルチリポジトリのセットアップに優れていることです。コード リポジトリは https://github.com/OpenDataBox/SetupX で入手できます。
原文 (English)
SetupX: Can LLM Agents Learn from Past Failures in Functionality-Correct Code Repository Setup?
Functionality-correct repository setup aims to configure execution environments (e.g., dependencies, build scripts) to successfully execute a repository's documented features. It presents significant challenges due to diverse, repository-specific failures, including dependency incompatibilities, missing toolchains, incomplete installations, and verification-strategy mismatches. Existing LLM agents struggle to robustly resolve these issues, specifically failing to support (1) cross-repository experience transfer, (2) multi-step trial-and-repair under non-invertible state changes, and (3) robust verification of setup outcomes to distinguish setup-induced failures from repository bugs. To address this, we introduce SetupX, an experiential learning-based setup framework. First, we construct a Self-Evolving Experience Representation (XPU), a dual-modality knowledge unit encoding setup signals, textual guidance, executable actions to dynamically transfer verified environment fixes to unseen repositories. Second, we employ Experience-Augmented Speculative Execution backed by a LIFO Docker snapshot stack, enabling the agent to proactively trial fixes and safely roll back to known-good states. Third, we introduce a Prosecutor-Judge Verification Protocol that separates evidence collection from final judgment, enabling more reliable setup verification beyond superficial build-time metrics. Evaluation results on carefully-crafted benchmarks show SetupX achieves highest performance (e.g., 92% pass rate) and outperforms the strongest baseline by over 19%. Crucially, SetupX excels in complex multi-repository setup requiring coordinating multiple interconnected services across different containers. The code repository is available at https://github.com/OpenDataBox/SetupX.
ほぼロスレス HiF8 W8A8 量子化対応トレーニングの最大ウィンドウ スケール推定
低ビット浮動小数点形式を使用した量子化対応トレーニング (QAT) により、効率的な LLM 導入が可能になりますが、標準のトレーニング メトリクスでは認識できない微妙な障害モードが導入されます。我々は、Delayed Tensor Scaling (DTS) のレンズを通した OpenPangu-Embedded-1B の HiF8 W8A8 QAT の体系的な研究を紹介します。 8 つの制御された実験にわたって、我々は 2 つの直交する故障モードを特定し、解きほぐしました。(i) amax 飽和では、遅延スケール推定がフォワードパス クリッピングによって知識に敏感な表現を静かに破壊します。(ii) 壊滅的な忘却では、量子化とは関係なく、積極的な学習率が事前学習された常識的な知識を上書きします。どちらもトレーニングロスだけでは検出できません。 64 ステップの履歴ウィンドウにわたる保守的な最大アルゴリズム DTS 戦略で amax 飽和に対処し、500 ステップの BF16 ウォームアップとそれに続く lr=10^{-5} での QAT によって忘却を軽減します。どちらの修正も必要かつ十分です。最終構成では、一致する BF16 ベースラインと比較して、0.43% MMLU ドロップ、0.58% HellaSwag ドロップ、および 0.22% ARC-Challenge ドロップを達成し、10,000 ステップにわたるトレーニング損失 APE はわずか 0.11% でした。
原文 (English)
Max-Window Scale Estimation for Near-Lossless HiF8 W8A8 Quantization-Aware Training
Quantization-aware training (QAT) with low-bit floating-point formats enables efficient LLM deployment, yet introduces subtle failure modes invisible to standard training metrics. We present a systematic study of HiF8 W8A8 QAT for OpenPangu-Embedded-1B through the lens of Delayed Tensor Scaling (DTS). Across eight controlled experiments, we identify and disentangle two orthogonal failure modes: (i)amax saturation, where delayed scale estimates silently corrupt knowledge-sensitive representations via forward-pass clipping, and (ii)catastrophic forgetting, where an aggressive learning rate overwrites pretrained commonsense knowledge independently of quantization. Neither is detectable from training loss alone. We address amax saturation with a conservative max-algorithm DTS strategy over a 64-step history window, and mitigate forgetting via a 500-step BF16 warmup followed by QAT at lr=10^{-5}. Both fixes are necessary and sufficient: our final configuration achieves 0.43% MMLU drop, 0.58% HellaSwag drop, and 0.22% ARC-Challenge drop versus a matched BF16 baseline, with a training loss APE of only 0.11% over 10,000 steps.
「国会議員マップ」話題 建設職人が個人で開発、議員の発言や政治の動きを分かりやすく 生成AI活用
小さな建設会社を経営し、工事現場で働く職人でもある「中島」氏が、けがで現場を離れた期間に立ち上げたというサイトだ。余暇に個人で開発・運営しており、収益は目的にしていない。
OpenAI、Anthropicが新会社設立 国内SIerは「黒船襲来」に対抗できるか?
AnthropicとOpenAIがAIサービスを担う新会社の設立を相次いで発表した。FDEやApplied AI Engineerを擁する「黒船」来襲はSIerにとって脅威となるのか。国内SIerが取るべき備えとは何か。
失敗データこそ資産だ――3Dモデルや解析結果をAIで統合、一目で探せるナレッジに
「RAGでは超えられない製造現場の暗黙知がある」――ギリアは3Dモデルや解析結果をマルチモーダルLLMで統合し、設計の暗黙知を形式知化する新プラットフォームの提供を開始した。不採用理由や失敗の文脈も、組織の資産に変える。
最新AI「ミュトス」を使えても「バグマゲドン」に? Firefox開発元に学ぶセキュリティ対策
米AnthropicのAIモデル「Claude Mythos Preview」のような最先端モデルさえ使えれば、サイバーセキュリティ対策は万全になるのか。Webブラウザ「Firefox」を手掛ける米Mozillaの事例を読み解く。
OpenAI Foundation、AIによる経済激変から労働者を守るため2.5億ドルを拠出へ
OpenAI Foundationは、AIの普及に伴う労働市場や経済への急激な変化に対応するため、初期資金として2億5000万ドルを拠出すると発表した。この資金は、経済への影響測定、労働者の移行支援、新たな経済的安定モデルの構築の3領域に充てられる。組織再編を経た同財団が、ガバ…
Cisco and OpenAI redefine enterprise engineering with Codex
Cisco and OpenAI are redefining enterprise engineering with Codex, helping Cisco scale AI-native development, accelerate AI Defense work, a…
NEC、日立、富士通が“Anthropic協業”でそろい踏み 狙いは? 【3社の幹部コメントまとめ】
わずか1カ月の間にNEC、日立製作所、富士通がAnthropicとの協業を発表した。各社の狙いはどこにあるのか。
「この答弁はAIが原案作成」 参院本会議で松本デジタル相「職員が事実確認し私が決済」
5月から全府省庁で実証事業を開始している行政用の生成AI基盤「源内」について、5月27日の参院本会議で参政党の梅村みずほ氏が活用状況を尋ねたのに対し、松本尚デジタル相は「この答弁も源内が原案を作成した」と述べた。
Building self-improving tax agents with Codex
See how OpenAI, Thrive, and Crete built a self-improving tax agent with Codex, automating filings, improving accuracy, and accelerating wor…
LLM はイントロスペクトできますか?現実の確認
大規模な言語モデルは、独自の内部状態を検出して報告できますか?多くの研究は、この質問に対する答えは「はい」であると主張しています。私たちは、人間のメタ認知研究からの教訓に基づいて、この結論は時期尚早である可能性があると主張します。この結論を確信するには、真の内省と表面レベルの手がかりに基づくパターンマッチングを区別する必要があります。さらに、行動の証拠だけでは、強力な内省的主張を確立するには本質的に不十分であると主張します。この考察を踏まえて、最近導入された 2 つの評価パラダイムを再検討します。最初のパラダイムでは、モデルは内部状態が改ざんされているかどうかを検出することが期待されます。我々は、モデルが内部状態へのそのような介入と入力の操作を確実に区別できないことを発見し、元の研究でのモデルの成功は、特に内部状態への介入とは対照的に、より一般的に異常を検出するモデルの能力を反映していることを示唆しています。私たちが検討する 2 番目のパラダイムでは、モデルは、自身の隠れた状態から派生したラベルを予測するという役割を担います。ここで、入力にのみアクセスできる分類器がモデル自身のコンテキスト内予測と同等のパフォーマンスを達成することがわかり、元の結果はモデルがその内部表現への特権アクセスを持っていることを決定的に示していないことを示しています。さらに、モデルがタスクのセマンティクスに依存して解決することができず、代わりに内部表現に依存する必要がある、再ラベルされたコントロール設定を導入します。モデルは、このより適切に制御されたバージョンのタスクで偶然に近いパフォーマンスを発揮します。総合すると、これらの結果は、LLM がメタ認知モニタリングを行うことを確立するには現在の証拠が不十分であることを示しています。
原文 (English)
Can LLMs Introspect? A Reality Check
Can large language models detect and report their own internal states? A number of studies have argued that the answer to this question is yes. We argue, based on lessons from human metacognition research, that this conclusion may be premature: to be convinced of this conclusion we need to distinguish genuine introspection from pattern matching based on surface-level cues. Furthermore, we argue that behavioral evidence alone is inherently insufficient to establish strong introspective claims. We re-examine two recently introduced evaluation paradigms in light of this consideration. In the first paradigm, models are expected to detect whether their internal states have been tampered with. We find that models cannot reliably distinguish such interventions on their internal states from manipulations of the input, suggesting that their success in the original studies reflects their ability to detect anomalies more generally, as opposed to interventions on their internal states in particular. In the second paradigm we examine, models are tasked with predicting labels derived from their own hidden states. Here, we find that classifiers that only have access to the input achieve equivalent performance to the model's own in-context predictions, indicating that the original results do not conclusively demonstrate that the model has privileged access to its internal representations. We further introduce a relabeled control setting, where models cannot rely on the semantics of the task to solve it, and instead must rely on the internal representation; models perform closer to chance on this better-controlled version of the task. Taken together, these results indicate that current evidence is insufficient to establish that LLMs display metacognitive monitoring.
長期的なユーザーインタラクションにおける、身体化されたマルチモーダル大規模言語モデルエージェントのパーソナライズ
マルチモーダル大規模言語モデル (MLLM) ベースの身体化エージェントは、物理環境における複雑なタスクを解決する強力な可能性を示しています。ただし、パーソナライズされた支援には、一般的な指示に従うことや、オブジェクトのカテゴリを認識することだけでは不十分です。現実のシナリオでは、対象となるターゲットは事前のやり取りを通じて暗黙的にのみ指定されることが多く、エージェントは時間の経過とともに蓄積されたパーソナライズされたコンテキストを活用する必要があります。この研究では、長期のユーザーインタラクションにおけるパーソナライズされた身体エージェントのためのマルチモーダルなメモリ拡張フレームワークである POLAR を提案します。 POLAR は、以前のインタラクションをマルチモーダルなナレッジ グラフに整理し、パーソナライズされたコンテキストと視覚的概念の意味記憶と、エージェントの軌跡などの具体化されたエクスペリエンスのエピソード記憶をキャプチャします。具現化されたタスクを実行するために、POLAR は関連するメモリを取得して現在のリクエストを解釈し、タスクの実行をガイドします。私たちは、長期的なパーソナライゼーションにおける記憶の役割を研究するために、複数の MLLM バックボーンと多様な評価シナリオにわたって POLAR を評価します。結果は、提案された記憶メカニズムが、以前の対話で蓄積された情報をより効果的に使用できるようにすることで、一貫してパフォーマンスを向上させることを示しています。この利点は、エージェントが複数のインタラクションにわたって推論したり、マルチホップ推論を実行したり、ユーザー固有のコンテキストで時間の経過とともに更新を追跡したりする必要がある場合に特に顕著です。
原文 (English)
Personalizing Embodied Multimodal Large Language Model Agents over Long-term User Interactions
Multimodal large language model (MLLM)-based embodied agents have shown strong potential for solving complex tasks in physical environments. However, personalized assistance requires more than following generic instruction or recognizing object categories. In real-world scenarios, the intended target is often specified only implicitly through prior interactions, requiring agents to leverage personalized context accumulated over time. In this work, we propose POLAR, a multiomodal memory-augmented framework for personalized embodied agents over long-term user interactions. POLAR organizes prior interactions into a multimodal knowledge graph that captures semantic memory for personalized context and visual concepts, and episodic memory for embodied experiences such as agent trajectories. To execute embodied tasks, POLAR retrieves relevant memories to interpret the current request and guide task execution. We evaluate POLAR across multiple MLLM backbones and diverse evaluation scenarios to study the role of memory in long-term personalization. Results show that the proposed memory mechanism consistently improves performance by enabling more effective use of information accumulated over prior interactions. The gains are especially pronounced when the agents are required to reason across multiple interactions, perform multi-hop inference, or tracking updates in user-specific context over time.
OmniToM: 明示的信念モデリングによる LLM における心の理論のベンチマーク
他者の知識、意図、感情を推測する能力である心の理論 (ToM) は、一般にエンドポイント質問応答を使用して大規模言語モデル (LLM) で評価され、社会的推論クエリに対する最終的な回答によってのみパフォーマンスが判断されます。このパラダイムでは、特に発散、進化、または誤った信念が含まれるシナリオにおいて、堅牢な推論に必要な基礎となる精神状態の表現をモデルが実際に構築しているかどうかが曖昧になります。この研究ギャップに対処するために、物語内のすべての関連アクターの信念構造の明示的なモデリングを要求することで、これらの表現を直接評価するベンチマークである OmniToM を導入します。これらの構造は信念命題で構成されています。信念命題とは、俳優が世界または他の俳優の精神状態について真実であると考える最小限のステートメントであり、知識、意図、感情、誤った信念を共通の形式で分析できるようにします。モデルは 2 つの段階で評価されます。第 1 段階: 社会力学に関連する信念を物語から抽出する信念抽出と、第 2 段階: 信念のラベル付けです。各信念に、再帰的順序、真実の状態、知識へのアクセス、明示性、内容タイプ、精神的ソース、およびコンテキストをカバーする 7 次元のスキーマ ラベルを割り当てます。既存の ToMBench ストーリー コーパスの 895 のストーリーから構築され、22,343 のラベル付き信念命題で強化された OmniToM は、人間が調整した LLM 支援アノテーション パイプラインを使用します。ゼロショット評価のさまざまなモデルにわたって、OmniToM は、俳優固有の信念追跡のボトルネックを明らかにします。現在の LLM は、物語の事実を俳優の信念と共有される精神状態に変換するために必要な知識へのアクセスと表現上の決定に苦戦しています。
原文 (English)
OmniToM: Benchmarking Theory of Mind in LLMs via Explicit Belief Modeling
Theory of Mind (ToM), the ability to infer others' knowledge, intentions, and emotions, is commonly evaluated in large language models (LLMs) using end-point question answering, where performance is judged solely by the final answer to a social reasoning query. This paradigm obscures whether the model actually constructs the underlying mental-state representations required for robust reasoning, particularly in scenarios involving divergent, evolving, or mistaken beliefs. In order to address this research gap, we introduce OmniToM, a benchmark that directly evaluates these representations by requiring explicit modeling of belief structures for all relevant actors within a narrative. These structures are composed of belief propositions: minimal statements of what an actor takes to be true about the world or another actor's mental state, allowing knowledge, intentions, emotions, and false beliefs to be analyzed in a common format. Models are evaluated in two stages: Stage 1: Belief Extraction, which extracts from the story the beliefs relevant to its social dynamics, and Stage 2: Belief Labeling, which assigns each belief a seven-dimensional schema label covering recursive order, truth status, knowledge access, explicitness, content type, mental source, and context. Built from 895 stories from the existing ToMBench story corpus and augmented with 22,343 labeled belief propositions, OmniToM uses a human-calibrated LLM-assisted annotation pipeline. Across diverse models in zero-shot evaluation, OmniToM reveals an actor-specific belief-tracking bottleneck: current LLMs struggle with the knowledge-access and representational decisions required to transform narrative facts into actors' beliefs and shared mental states.
仮想ラボ計画のための LLM 生成の手順知識における不確実性の管理
教育用仮想実験室を使用すると、特に学生の物理的な実験室施設へのアクセスが制限されている場合に、実験トレーニングをよりスケーラブルで適応性があり、アクセスしやすいものにすることができます。ただし、新しい模擬実験手順の作成には依然としてコストがかかります。教育者は、新しい機器について説明し、機器と材料がどのように相互作用するかを定義し、仮想環境内で実行または評価できる有効な手順フローを指定する必要があります。大規模な言語モデルは、詳細な実験手順を生成することでこの作成プロセスを支援できますが、その出力を直接実行可能な計画として扱うべきではありません。必要なアクションを省略したり、ステップを間違った順序で配置したり、論理的に間違っていたり、実験室の機器と互換性のない指示を作成したりする可能性があります。この論文では、仮想実験室計画のために LLM によって生成された手続き型知識の不確実性を管理するためのプロトタイプ フレームワークを紹介します。このフレームワークは、構造化ドメイン表現と LLM によって生成された不確実な状態遷移サンプルを使用して手続きルールの候補を抽出し、それらを明示的で検査可能な制約に変換し、不確実な手続きステップを修復するために使用することで、手続きの不確実性を軽減することを目的としています。動機付けの領域は教育用の仮想実験室を指しますが、根底にある問題はより一般的であり、構造化された対話型環境での行動計画のための不確実な手順知識の管理です。実験室の機器、コンテナ、ツール、および物質の移動動作を含む仮想実験室ドメインでのアプローチを説明します。
原文 (English)
Managing Uncertainty in LLM-Generated Procedural Knowledge for Virtual Laboratory Planning
Educational virtual laboratories can make experimental training more scala-ble, adaptive, and accessible, especially when students have limited access to physical laboratory facilities. However, authoring new simulated laboratory procedures remains costly: educators must describe new equipment, define how instruments and materials interact, and specify valid procedural flows that can be executed or assessed inside the virtual environment. Large lan-guage models can assist in this authoring process by generating detailed ex-perimental procedures, but their output should not be treated as directly exe-cutable plans. They may omit necessary actions, arrange steps in the wrong order, or produce instructions that are logically incorrect or incompatible with the laboratory equipment. This paper presents a prototype framework for managing uncertainty in LLM-generated procedural knowledge for virtu-al laboratory planning. The framework aims to reduce procedural uncertainty by using structured domain representations and uncertain LLM-generated state-transition samples to extract candidate procedural rules, transform them into explicit and inspectable constraints, and use them to repair uncertain procedural steps. Although the motivating domain refers to educational vir-tual laboratories, the underlying problem is more general: managing uncer-tain procedural knowledge for action planning in structured interactive envi-ronments. We illustrate the approach in a virtual laboratory domain involving laboratory instruments, containers, tools, and material-transfer actions.
静的コンテキストから調整されたインタラクティブ RL へ: アライメントされたシミュレーターを使用したマルチターン対話における分布シフトの軽減
研究コミュニティの長年の目標は、高度にインタラクティブな LLM ベースの対話エージェントを開発することです。最近の研究は、固定オフライン ログ (静的コンテキスト RL) に基づくポリシーの最適化、またはプロンプトベースのシミュレーター (対話型 RL) の使用に焦点を当てています。この研究では、両方のパラダイムがコンテキスト分布の変化、つまりトレーニング中に観察された対話履歴と実際の会話で遭遇した対話履歴の間の不一致によって根本的に制限されていることを理論的に示しています。この変化はターンを経て二次的に悪化し、対話の質を著しく低下させます。具体的には、この変化は 2 つの異なる原因によるものであると考えます。(i) 自己生成された軌道ではなく静的な履歴に基づいたトレーニングから生じる、政策によって引き起こされた変化。 (ii) シミュレートされた人間の行動と実際の人間の行動の間の相違から生じる、シミュレータによって引き起こされる変化。これらの課題に対処するために、私たちは、インタラクティブ RL とシミュレーター調整を結合する統合フレームワークである Calibrated Interactive RL を提案します。シミュレーターを人間の対話パターンに合わせることで、私たちのアプローチはシミュレーションと現実のギャップを減らし、複合的な分布の変化を軽減します。複数の対話タスクにわたる実験により、理論的分析が確認されています。(i) インタラクティブ RL は、ポリシー配布のシフトを緩和することにより、静的コンテキストのベースラインを大幅に上回ります。 (ii) 当社のアライメント手法を使用してシミュレータを校正することで、シミュレーションと実際のギャップをさらに橋渡しし、最先端のダウンストリーム パフォーマンスを実現します。
原文 (English)
From Static Context to Calibrated Interactive RL: Mitigating Distribution Shift in Multi-turn Dialogue with Aligned Simulator
A long-standing goal of the research community is to develop highly interactive LLM-based dialogue agents. Recent research focuses on optimizing policies based on fixed offline logs (Static Context RL) or using a prompt-based simulator (Interactive RL). In this work, we theoretically show that both paradigms are fundamentally limited by context distribution shift--a mismatch between dialogue histories observed during training and those encountered in real conversations. This shift compounds quadratically over turns and severely degrades dialogue quality. Specifically, we attribute this shift to two distinct sources: (i) policy-induced shift, arising from training on static histories rather than self-generated trajectories; and (ii) simulator-induced shift, stemming from discrepancies between simulated and real human behaviors. To address these challenges, we propose Calibrated Interactive RL, a unified framework that couples interactive RL with simulator alignment. By aligning the simulator with human interaction patterns, our approach reduces the sim-to-real gap and mitigates compounding distribution shifts. Experiments across multiple dialogue tasks confirm our theoretical analysis: (i) Interactive RL significantly outperforms the Static Context baseline by mitigating policy distribution shift; and (ii) calibrating simulators with our alignment method further bridges the sim-to-real gap, yielding state-of-the-art downstream performance.
推論、コード、あるいはその両方?大規模な言語モデルが数学の問題のバリエーションを処理する方法
大規模言語モデル (LLM) は、数学的推論ベンチマークで優れた精度を達成しますが、名前や数値の変更などの単純な変更によって問題が変更されると、パフォーマンスが低下します。自然言語で推論する代わりに、モデルに Python コードを生成して実行させるコード実行方法が解決策として提案されていますが、推論の堅牢性 (問題の変動全体で精度を維持する能力) に対するその効果は体系的にテストされていません。この研究では、GSM-Symbolic データセットからの 1,000 の問題に対する 3 つのアプローチ、つまり、思考連鎖 (CoT) プロンプトを使用した純粋推論、プログラム支援言語モデル (PAL) を使用したシングルショット コード実行、およびステップバイステップ コーディング (SBSC) を使用した反復コード実行を評価しました。 3 つすべては、Claude Haiku 4.5 を使用して、元の問題と修正された問題のペアで実行されました。 CoT は最も堅牢な方法で、精度が 1.3 パーセント低下し、摂動下で問題が発生する割合が 1.8% でした。 PAL は 1.7 パーセント ポイントで最も堅調ではなく、ブレイク率は 3.1% で、SBSC はその中間でした。これらの差は統計的に有意ではありませんでしたが ($p = 0.096$)、方向性の傾向はすべての測定値にわたって一貫しており、コードの実行は、単発か反復かにかかわらず、小学校レベルの問題のバリエーションに対する推論の堅牢性を向上させないことを示唆しています。
原文 (English)
Reasoning, Code, or Both? How Large Language Models Handle Variations in Math Questions
Large Language Models (LLMs) achieve impressive accuracy on mathematical reasoning benchmarks, yet their performance drops when problems are modified with simple changes like different names or numbers. Code execution methods, which let models generate and run Python code instead of reasoning in natural language, have been proposed as a solution, but their effect on reasoning robustness (the ability to maintain accuracy across problem variations) has not been systematically tested. This study evaluates three approaches on 1,000 problems from the GSM-Symbolic dataset: pure reasoning using chain-of-thought (CoT) prompting, single-shot code execution using Program-Aided Language models (PAL), and iterative code execution using Step-by-Step Coding (SBSC). All three were run on paired original and modified problems using Claude Haiku 4.5. CoT was the most robust method, with an accuracy drop of 1.3 percentage points and 1.8% of problems breaking under perturbation. PAL was the least robust at 1.7 percentage points and 3.1% broke, with SBSC falling in between. Although these differences were not statistically significant ($p = .096$), the directional trend was consistent across all measures, suggesting that code execution, whether single-shot or iterative, does not improve reasoning robustness on grade-school-level problem variations.
AGORA: LLM エージェントでの推論不要の即時圧縮のためのアダプターベースの観察アクション保持
一般的な LM コンテキストで広く使用されているトークン レベルの抽出コンプレッサーは、構造的に LLM エージェントには不適切です。2 つの独立したトークン レベル メソッド ファミリにまたがる 17 個のセル (環境、バックボーン、メソッド) にわたって、すべてのセルが平均報酬 = 9 セル中 8 セルで 75% の非圧縮パフォーマンスに崩壊します (唯一の例外は 73%)。 4 方向コンポーネントのアブレーションは、主要な品質レバーとして構造床を分離し、単一の固定維持率からの 1.0 ~ 11.5 倍の適応型エンドツーエンド圧縮のソースとして学習されたスコアラーを分離します。
原文 (English)
AGORA: Adapter-Grounded Observation-Action Retention for Inference-Free Prompt Compression in LLM Agents
The token-level extractive compressors widely used for general LM context are structurally inappropriate for LLM agents: across 17 (env, backbone, method) cells spanning two independent token-level method families, every cell collapses to mean reward = 75% uncompressed performance in 8 of 9 cells (with the lone exception at 73%); a four-way component ablation isolates the structural floor as the dominant quality lever and the learned scorer as the source of 1.0-11.5x adaptive end-to-end compression from a single fixed keep ratio.
UnityMAS-O: LLM ベースのマルチエージェント システム用の一般的な RL 最適化フレームワーク
LLM ベースのマルチエージェント システムは、複雑なタスクを相互作用する役割に分解しますが、そのほとんどはプロンプト、ツール、制御ルールによって手動で調整されたままであり、エージェントが統合された強化学習インターフェイスを通じて最適化されることはほとんどありません。既存の RL ポストトレーニング フレームワークは主に単一ポリシーの最適化をターゲットにしており、ユーザー定義のマルチエージェント ワークフロー、構造化されたインタラクション、ロール固有のクレジット割り当て、構成可能なパラメーター共有の抽象化が欠けています。我々は、LLM ベースのマルチエージェント システム用の一般的な RL 最適化フレームワークである UnityMAS-O を紹介します。 UnityMAS-O は、単一の応答やポリシーの軌道ではなく、完全なワークフローを最適化単位として扱います。これは、論理エージェントの役割、グラフの軌跡、ユーザー定義の報酬、およびエージェントとモデルのマッピングという 4 つのファーストクラスのオブジェクトを通じてワークフローを表します。これにより、論理エージェントが物理モデル パラメーターから切り離され、完全共有、完全分離、部分共有がサポートされ、役割、ターン、および軌道レベルで報酬が割り当てられます。 UnityMAS-O は、Ray ベースのスター トポロジ ランタイムを使用して verl を拡張します。中央コントローラーはワークフローを実行し、ツールを呼び出し、構造化された軌跡を記録し、報酬を組み立てます。モデルローカル ワーカー グループは、ロールアウト、バッファリング、利点の計算、分散 PPO スタイルの更新を処理します。ユーザーは、最適化インフラストラクチャを書き直すことなく、エージェント、ワークフロー、モデル マッピング、報酬を定義できます。検索拡張 QA、反復エージェント検索、およびリフレクティブ コード生成で UnityMAS-O をインスタンス化します。 Natural question、HotpotQA、およびホールドアウトコードタスク全体にわたって、マルチエージェント RL は、最適化後に手動で指定されたワークフローを改善し、特に小規模なモデルと厳格なコードオールパスメトリクスで大きな効果が得られます。これらの結果は、UnityMAS-O が、多様な LLM ベースのマルチエージェント ワークフローをトレーニング可能なマルチエージェント RL システムに変換するための再利用可能な基盤として機能できることを示しています。
原文 (English)
UnityMAS-O: A General RL Optimization Framework for LLM-Based Multi-Agent Systems
LLM-based multi-agent systems decompose complex tasks into interacting roles, but most remain manually orchestrated by prompts, tools, and control rules, while agents are rarely optimized through a unified reinforcement learning interface. Existing RL post-training frameworks mainly target single-policy optimization and lack abstractions for user-defined multi-agent workflows, structured interaction, role-specific credit assignment, and configurable parameter sharing. We present UnityMAS-O, a general RL optimization framework for LLM-based multi-agent systems. UnityMAS-O treats the complete workflow as the optimization unit, rather than a single response or policy trajectory. It represents workflows through four first-class objects: logical agent roles, graph trajectories, user-defined rewards, and agent--model mappings. This decouples logical agents from physical model parameters, supporting full sharing, full separation, and partial sharing, with rewards assigned at role, turn, and trajectory levels. UnityMAS-O extends verl with a Ray-based star-topology runtime. A central controller executes workflows, invokes tools, records structured trajectories, and assembles rewards; model-local worker groups handle rollout, buffering, advantage computation, and distributed PPO-style updates. Users can define agents, workflows, model mappings, and rewards without rewriting the optimization infrastructure. We instantiate UnityMAS-O on retrieval-augmented QA, iterative agentic search, and reflective code generation. Across Natural Questions, HotpotQA, and held-out code tasks, multi-agent RL improves manually specified workflows after optimization, with especially large gains for smaller models and strict code all-passed metrics. These results show that UnityMAS-O can serve as a reusable substrate for converting diverse LLM-based multi-agent workflows into trainable multi-agent RL systems.
MemFail: LLM メモリ システムの障害モードのストレス テスト
大規模言語モデル (LLM) エージェントは、長期的な対話全体で一貫性を維持するために外部メモリ システムへの依存度が高まっていますが、これらのシステムが示す特定の障害モードと設計上の選択肢を理解するための実証研究はほとんど行われていません。既存のベンチマークは、集計された質問回答精度を報告し、メモリ システムをブラック ボックスとして扱うため、不正確な回答をシステムの特定の故障モードに帰することは不可能です。最新の LLM メモリ システムの障害モードを分離する診断ベンチマークである MemFail を紹介します。まず、メモリ システムを 3 つの標準的な操作 (要約、保存、取得) の組み合わせとして形式化し、それぞれによって引き起こされる潜在的な障害モードを特定します。これらの仮説的な故障モードに基づいて、メモリ システムの特定の動作をテストするようにそれぞれが敵対的に設計された 4 つのタスクにわたる 5 つのデータセットを構築します。これらのデータセットを使用して、MemFail 上の 4 つの最先端のメモリ システムを評価し、MemFail を使用してメモリ システム アーキテクチャの違いによって引き起こされるトレードオフを経験的に理解する方法を実証します。
原文 (English)
MemFail: Stress-Testing Failure Modes of LLM Memory Systems
Large language model (LLM) agents increasingly rely on external memory systems to remain consistent across long-horizon interactions, but little empirical work has been done to understand the specific failure modes and design choices that these systems present. Existing benchmarks report aggregate question-answering accuracy and treat memory systems as black boxes, making it impossible to attribute an incorrect answer to a particular failure mode of the system. We introduce MemFail, a diagnostic benchmark that isolates the failure modes of modern LLM memory systems. We begin by formalizing memory systems as the composition of three canonical operations -- summarization, storage, and retrieval -- and identify the potential failure modes induced by each. Based on these hypothesized failure modes, we construct five datasets spanning four tasks, each adversarially designed to test a specific operation of a memory system. Using these datasets, we evaluate four state-of-the-art memory systems on MemFail and demonstrate how MemFail can be used to empirically understand the tradeoffs induced by differences in memory system architectures.
CUDA カーネル生成における自己進化型 LLM エージェントの計画に対するフィードバックの決定に向けて
大規模言語モデル (LLM) は、世代間のフィードバック条件付き計画によって駆動される、CUDA カーネル生成の自己進化エージェントとして、強力な経験的利益を示しています。ただし、計画上の決定が異種フィードバック信号にどのように帰属し、結合されるかは依然として不透明なままです。標準的なエンドツーエンドアブレーションでは、反復計画により初期の摂動が増幅され、フィードバック効果と軌道依存のドリフトが混同されるため、この問題は解決できません。 \texttt{CUDAnalyst} は、軌道フリーズと選択的フィードバック注入を介してフィードバック コンポーネントへの計画決定の制御された世代レベルの帰属を実現するための統合分析レイヤーです。 \texttt{CUDAnalyst} は、安定した世代レベルの評価と、フィードバックの効果と相互作用の原則に基づいた連合スタイルの帰属を可能にします。私たちの結果は、明示的な計画はフィードバックが調整されている場合にのみ有益であること、効果的な計画は構造化された複数のフィードバックの相互作用から生まれること、より強力な推論モデルからの高レベルの計画は部分的に弱い推論モデルに移行できることを示しています。これらの傾向は、参照バックボーン、代表的なワークロード、および参照誘導レジームにわたって維持されており、特定されたフィードバックから計画への構造が調査対象の制御軸内で堅牢であることを示しています。
原文 (English)
Towards Feedback-to-Plan Decisions for Self-Evolving LLM Agents in CUDA Kernel Generation
Large language models (LLMs) have shown strong empirical gains as self-evolving agents for CUDA kernel generation, driven by feedback-conditioned planning across generations. However, how planning decisions attribute and combine heterogeneous feedback signals remains opaque. Standard end-to-end ablations fail to resolve this question, as iterative planning amplifies early perturbations and conflates feedback effects with trajectory-dependent drift. We introduce \texttt{CUDAnalyst}, a unified analysis layer for controlled, generation-level attribution of planning decisions to feedback components via trajectory freezing and selective feedback injection. \texttt{CUDAnalyst} enables stable generation-level evaluation and principled coalitional-style attribution of feedback effects and interactions. Our results show that explicit planning is beneficial only when feedback is aligned, that effective planning emerges from structured multi-feedback interactions, and that high-level plans from stronger reasoning models can partially transfer to weaker ones. These trends hold across reference backbones, representative workloads, and reference induction regimes, indicating that the identified feedback-to-plan structure is robust within the controlled axes studied.
能力ではありません: ハーネスの感度は LLM エージェント層全体で単調ではありません
LLM エージェントの展開における一般的な仮定では、より構造化されたハーネスは普遍的に信頼性を向上させ、より高機能なモデルに必要な構造的ガイダンスは比例して少なくなるという考えが一般的であり、これは、モデルの機能層と最適なハーネスの複雑さの間に単調な逆相関があることを暗示しています。この仮説は、Git ベースのワークスペース検証を備えた 24 タスクの合成ベンチマークである HEAT-24 上で、3 つのハーネス条件 (軽量、バランス、厳密) を備えた 4 つの機能層にわたる 6 つのモデルを横断する制御された 432 回の実行実験を通じてテストされます。私たちの結果は、単調な逆関係を 2 つの面で否定します。まず、評価されたフロンティア チャット モデル (Gemini 2.5 Flash) では、ハーネスの冗長性が増加すると、VTSR が 29 ~ 38 パーセント ポイント低下します。これは、ハーネスの複雑さのパラドックスです。第 2 に、評価されたフロンティア推論モデル (Qwen3.5-122B、拡張思考が有効) では、厳密なハーネスは予測とは逆に最高の VTSR (91.7%) と最低の遅延を達成しました。制約層内では、2B モデル (Gemma4:e2B) は、すべてのハーネスにわたって 91.7% で強力なオープン層の安定性と一致します。この調査では各層が単一のモデルで表されているため、これらの結果はモデル固有の観察結果として解釈される必要があります。ハーネスの感度は、評価したモデル全体で単調ではなく、モデルのタイプ (チャットか推論か) に大きく依存します。私たちは、format_violation が能力のあるモデルの障害を支配し、間違ったファイルが低機能の障害を支配していることを示す 6 ラベルの障害分類法を導入し、実用的な階層を意識したハーネス選択ガイドラインを導き出します。
原文 (English)
It's Not the Capability: Harness Sensitivity Is Non-Monotone Across LLM Agent Tiers
A prevalent assumption in LLM agent deployment holds that more structured harnesses universally improve reliability, and that higher-capability models need proportionally less structural guidance -- together implying a monotone inverse relationship between model capability tier and optimal harness complexity. We test this hypothesis through a controlled 432-run experiment crossing six models across four capability tiers with three harness conditions (light, balanced, strict) on HEAT-24, a 24-task synthetic benchmark with git-based workspace verification. Our results refute the monotone inverse relationship on two fronts. First, for the frontier chat model evaluated (Gemini 2.5 Flash), increased harness verbosity lowers VTSR by 29-38 percentage points -- a harness-complexity paradox. Second, for the frontier reasoning model evaluated (Qwen3.5-122B, extended thinking enabled), strict harness achieves the highest VTSR (91.7%) and the lowest latency, the opposite of the prediction. Within the constrained tier, a 2B model (Gemma4:e2B) matches strong-open-tier stability at 91.7% across all harnesses. Because each tier is represented by a single model in this study, these results should be interpreted as model-specific observations; harness sensitivity appears non-monotone across the models evaluated, and depends critically on model type (chat vs. reasoning). We introduce a six-label failure taxonomy showing that format_violation dominates capable-model failures while wrong_file dominates low-capability failures, and we derive practical tier-aware harness selection guidelines.
音声言語処理タスクのためのロボットと患者および医師と患者の医療対話のデータセット
大規模言語モデル (LLM) は、人工知能 (AI) に大幅な改善をもたらし、汎用タスクに適用できます。ただし、テキストまたは音声による医療相談への応用は、まだ未解決の研究問題です。本稿では、患者との相談を行うことができるMed-AIを訓練・評価するための新しい音声データセットであるMeDial-Speechを提案する。これは、ロボットと患者および医師と患者の対話から現実的な環境で収集されたもので、111 時間以上の音声データ (データ拡張なし) が含まれており、レビー小体型認知症、心不全、肩の痛み、狭心症という 4 つの健康状態をカバーしています。さらに、GPT-5 mini、DeepSeek-V3、Claude Sonnet 4 という 3 つの最先端の LLM を評価するために、文選択 (20 のオプション) による対話ベンチマークを提案します。実験の結果、Claude Sonnet 4 が文選択において最高であり、手動転写を使用した場合は 71.1%、自動転写を使用した場合は 74.7% であり、すべての LLM は確率的予測に非常に自信を持っていることが明らかになりました。医療対話における正しい文または誤った文の選択。このデータセットは、非営利目的の場合、https://huggingface.co/datasets/hcuayahu/MeDial-Speech で無料で利用できます。
原文 (English)
A Dataset of Robot-Patient and Doctor-Patient Medical Dialogues for Spoken Language Processing Tasks
Large Language Models (LLMs) have brought huge improvements to Artificial Intelligence (AI), which can be applied to general-purpose tasks. However, their application to textual or spoken medical consultations is still an open research problem. This paper proposes MeDial-Speech, a novel speech dataset for training and evaluating Med-AIs that can carry out consultations with patients. It was collected in realistic environments from robot-patient and doctor-patient dialogues, contains 111+ hours of speech data (without data augmentation), and covers four health conditions: Lewy body dementia, heart failure, shoulder pain, and angina. In addition, we propose a dialogue benchmark via sentence selection (with 20 options) to evaluate three state-of-the-art LLMs: GPT-5 mini, DeepSeek-V3, and Claude Sonnet 4. Experimental results reveal that Claude Sonnet 4 is the best in sentence selection, with 71.1% accuracy using manual transcriptions and 74.7% using automatic transcriptions, and that all LLMs are highly overconfident in their probabilistic predictions, regardless of selecting correct or incorrect sentences in medical dialogues. This dataset is free of charge for non-commercial purposes at: https://huggingface.co/datasets/hcuayahu/MeDial-Speech
調査時に思考連鎖が機能するのはなぜですか?グローバルな派生ではなくローカルな共起
思考連鎖 (CoT) プロンプトは言語モデルの精度を確実に向上させますが、理論的根拠テキストのどの特性が向上を促進するのかはよくわかっていません。これまでの研究では、主に生成時の動作が研究されてきました。代わりに、調査時の質問をします。コンテキスト内で固定された理論的根拠が与えられた場合、そのテキストの何が答えを変えるのでしょうか?ゲインの 2 つの相補的なソースを特定します。まず、グローバルに単語をシャッフルした根拠でも、根拠なしのベースラインを大幅に上回っており、強力な語彙活性化効果が示されています。さらに重要なことは、構造化テキストによる追加の利益は、文レベルの論理的順序からではなく、より短い範囲のトークンの隣接性から生じているようです。わずか $n^\star{=}2$--$3$ トークンの連続ウィンドウを保存すると、完全な CoT パフォーマンスに向けて残りの利益のほとんどが回復します。サポート実験では、明示的な回答宣言または回答値のコピー、および完全な文法的実現が主な要因として除外されます。さらに一般化実験を行うと、定性的パターンが複数のモデル ファミリ、パラメーター スケール、データセットにわたって安定していることがわかります。これらの結果は、プローブ時間 CoT のローカル共起活性化 (LCA) 説明をサポートしており、観察された利益は、文レベルの論理導出ではなく、主に語彙活性化と短距離トークンの共起から生じているように見えます。
原文 (English)
What Makes Chain-of-Thought Work at Probe Time? Local Co-occurrence Rather Than Global Derivation
Chain-of-thought (CoT) prompting reliably improves language-model accuracy, but which properties of a rationale text drive the improvement is poorly understood. Prior work has largely studied generation-time behavior. We instead ask a probe-time question: given a fixed rationale in context, what in that text changes the answer? We identify two complementary sources of the gain. First, even a globally word-shuffled rationale substantially outperforms the no-rationale baseline, indicating a strong lexical activation effect. More importantly, the additional gain from structured text appears to arise less from sentence-level logical ordering and more from short-range token adjacency. Preserving contiguous windows of just $n^\star{=}2$--$3$ tokens recovers most of the remaining gain toward full CoT performance. Supporting experiments rule out copying of explicit answer declarations or answer values, as well as full grammatical realization, as primary drivers. Further generalization experiments show that the qualitative pattern remains stable across multiple model families, parameter scales, and datasets. These results support a local co-occurrence activation (LCA) account of probe-time CoT, in which the observed gains appear to arise primarily from lexical activation and short-range token co-occurrence rather than sentence-level logical derivation.
Helicase: 自律型マルチエージェント LLM を使用した、不確実性に基づいたサプライ チェーンのナレッジ グラフ構築
LLM ベースのマルチエージェント システムは、Web 検索とテキスト推論を通じて既知の情報を統合し、知識の検索とレポートの生成に広く採用されています。ただし、サプライ チェーンにおける重要な情報タスクの多くは、単純なワンショット クエリではありません。これらは、複雑で断片化された Web リソース全体にわたるマルチホップ推論を必要とする構造推論問題です。 \textit{「オーストラリアの鉱山からのリチウムを使用しているテスラの部品はどれですか?」} などの質問には、どの文書にも答えがありません。答えは、断片化された異種ソースから集められた動的な知識グラフの自律的な構築と分析を通じて、計算によって合成されなければなりません。さらに、そのような発見プロセスは不確実性を認識する必要があります。意思決定は答えだけではなく、ソースの品質と推論の一貫性まで追跡可能な、その信頼性に対する調整された信頼度に依存します。この機能ギャップに対処するために、不確実性に基づいてサプライ チェーンのナレッジ グラフを構築するための自律型マルチエージェント LLM システムである \textit{Helicase} を提案します。 \textit{Helicase} は、高レベルのサプライ チェーン クエリを実行可能な調査計画に分解し、反復検証ループを通じて専門の Web 検索、推論、コーディング エージェントを調整し、事実に基づく不確実性の注釈を備えたクエリ固有のサプライ チェーン ナレッジ グラフを段階的に構築します。その 3 層の不確実性フレームワークは、アクション、軌道、記憶の各層で不確実性を追跡し、構造推論と校正された信頼性評価の両方を可能にします。複雑さの全領域にわたって自律推論を評価するために、SCQA (サプライ チェーン クエリ アセスメント) を導入します。これは、データの可視性の高低の両方でシングルホップ推論からマルチホップ推論にわたる 4 つの象限に編成された 80 のサプライ チェーン クエリのベンチマークです。
原文 (English)
Helicase: Uncertainty-Guided Supply Chain Knowledge Graph Construction with Autonomous Multi-Agent LLMs
LLM-based multi-agent systems have been widely adopted for knowledge retrieval and report generation, synthesizing known information through web search and textual reasoning. However, many critical information tasks in supply chains are not simple one-shot queries: they are structural inference problems requiring multi-hop reasoning across complex, fragmented web resources. Questions such as \textit{``Which Tesla components use lithium from Australian mines?''} have no answer in any single document; answers must be computationally synthesized through the autonomous construction and analysis of dynamic knowledge graphs assembled from fragmented, heterogeneous sources. Moreover, such discovery processes must be uncertainty-aware: decisions depend not only on answers but on calibrated confidence in their reliability, traceable to source quality and reasoning consistency. To address this capability gap, we propose \textit{Helicase}, an autonomous multi-agent LLM system for uncertainty-guided supply chain knowledge graph construction. \textit{Helicase} decomposes high-level supply-chain queries into executable investigation plans, coordinates specialized web-search, reasoning, and coding agents through iterative verification loops, and incrementally constructs query-specific supply chain knowledge graphs with per-fact uncertainty annotations. Its three-layer uncertainty framework tracks uncertainty at the action, trajectory, and memory layers, enabling both structural inference and calibrated confidence assessment. To evaluate autonomous reasoning across the full complexity spectrum, we introduce SCQA (Supply Chain Query Assessment), a benchmark of 80 supply chain queries organized into four quadrants spanning single-hop to multi-hop inference under both high and low data visibility.
マルチステークホルダー LLM 調整: 集計からの分解推定
複数の利害関係者のタスクでは、相反する好みを持つユーザーを満足させるために 1 つの出力が必要です。ホリスティック LLM ジャッジは、ユーティリティの推定とユーティリティの集計を混同し、不安定な暗黙的な重みを生成します。私たちは、利害関係者の満足度が分散している場合、この集計固有の \emph{重み付けノイズ} が大きなスコアの変動を引き起こす可能性があることを経験的および理論的に示します。私たちの実験では、こうした体重による変化は関係者の数とともに増加します。 \textsc{DecompR} を提案します。反事実に基づいて調整された重みは、候補をスコアリングする前にクエリ構造から固定されますが、役割ごとのユーティリティは独立して推定され、候補に依存する重みドリフトが除去され、推定ノイズが低減されます。
原文 (English)
Multi-Stakeholder LLM Alignment: Decomposing Estimation from Aggregation
Multi-stakeholder tasks require one output to satisfy users with conflicting preferences. Holistic LLM judges conflate utility estimation and utility aggregation, yielding unstable implicit weights. We show empirically and theoretically that this aggregation-specific \emph{weighting noise} can create large score shifts when stakeholder satisfaction is dispersed; in our experiments, these weight-induced shifts also increase with stakeholder count. We propose \textsc{DecompR}: counterfactual-calibrated weights are fixed from query structure before candidate scoring, while per-role utilities are estimated independently, removing candidate-dependent weight drift and reducing estimation noise.
TADDLE: 欠陥のある LLM によって生成されたピア レビューを検出するためのツール拡張エージェント
LLM が生成する査読は主要な会場でますます一般的になってきていますが、その査読は均一に流暢でよく構成されているため、欠陥を検出するのは困難です。既存の研究では、品質を判断せずに著者を分類するか、人間が書いたレビュー用に設計された機能を使用して品質をスコアリングします。従来のシステムでは、LLM によって生成されたレビューの不備を、個々の欠陥タイプのレベルで検出することはできませんでした。このギャップを埋めるために、欠陥のある LLM によって生成されたピア レビューを検出するためのツール拡張エージェントである TADDLE を、このタスク用の専門家による注釈付きの最初のベンチマークとともに導入します。当社のベンチマークは、50 件の ICLR 2025 論文に関する 1,800 件のレビューで構成されており、6 つの欠陥カテゴリ (および非欠陥ラベル) の分類に対して 18 人のドメイン専門家によってマルチラベル注釈が付けられています。 TADDLE は、検出を 4 つの特殊な分析ツール (Verify、Correct、Complete、Transform) に分解し、エージェントによって調整されます。インテグレータは、2 段階の半教師あり学習を介して出力をバイナリおよびマルチラベル分類に合成します。広範な実験により、TADDLE がバイナリ検出とマルチラベル分類タスクの両方で強力に機能することが示されています。ベンチマークとコードは https://github.com/AquariusAQ/TADDLE でリリースされています。
原文 (English)
TADDLE: A Tool-Augmented Agent for Detecting Deficient LLM-Generated Peer Reviews
LLM-generated peer reviews are increasingly common at major venues, yet their deficiencies are hard to detect because they are uniformly fluent and well-structured. Existing work either classifies authorship without judging quality, or scores quality with features designed for human-written reviews; no prior system detects deficiencies in LLM-generated reviews at the level of individual defect types. To bridge the gap, we introduce TADDLE, a Tool-Augmented Agent for Detecting Deficient LLM-Generated Peer Reviews, together with the first expert-annotated benchmark for this task. Our benchmark comprises 1,800 reviews on 50 ICLR 2025 papers, multi-label-annotated by 18 domain experts against a taxonomy of six defect categories (plus a non-deficient label). TADDLE decomposes detection into four specialized analysis tools -- Verify, Correct, Complete, and Transform -- orchestrated by an agent; an integrator synthesizes their outputs into binary and multi-label classifications via two-stage semi-supervised learning. Extensive experiments show that TADDLE performs strongly on both binary detection and the multi-label classification task. We release the benchmark and code at https://github.com/AquariusAQ/TADDLE.
データに敏感なドメインの LLM 出力のニューロシンボリック検証 (拡張プレプリント)
一か八かのドメインに導入された LLM は、根本的な信頼性の課題に直面しています。幻覚、矛盾、プライバシーの脆弱性により、エラーが法的、財務的、または安全性に影響を及ぼす許容できないリスクが生じます。この論文では、LLM で生成されたコンテンツに補完的な保証を提供する、形式的記号手法とニューラル セマンティック分析を組み合わせたハイブリッド検証アーキテクチャを紹介します。このアーキテクチャでは、入力検証に論理的推論を採用し、完全性の特性を活用して、構造化された要件に対して決定可能な保証を提供します。出力検証では、埋め込みベースの意味論的類似性により、形式的な手法では表現力に欠ける文脈上の幻覚が検出されます。この分離は、並列のアクターベースのパイプラインで実現され、幻覚を生み出す分布バイアスを継承するプロンプトベースの自己検証アプローチの制限に対処します。提案されたアーキテクチャとタイプ認識検証方法は、Action Design Research によって開発された現実世界の医療機器損傷評価レポート システムである HAIMEDA を使用して検証されています。評価の結果、構造化エンティティの幻覚検出率は 83% 以上、セマンティック捏造の幻覚検出率は 72% 以上で、レポート作成時間が 30% 短縮されたことが示され、神経記号アーキテクチャがデータに敏感なドメインでの LLM 展開に原則に基づいた保護手段を提供できることが実証されました。
原文 (English)
Neuro-Symbolic Verification of LLM Outputs for Data-Sensitive Domains (extended preprint)
LLMs deployed in high-stakes domains face fundamental reliability challenges: hallucinations, inconsistencies, and privacy vulnerabilities introduce unacceptable risks where errors carry legal, financial, or safety consequences. This paper presents a hybrid verification architecture combining formal symbolic methods with neural semantic analysis to provide complementary guarantees for LLM-generated content. This architecture employs logical reasoning for input verification, leveraging completeness properties to provide decidable guarantees on structured requirements. For output validation, embedding-based semantic similarity detects contextual hallucinations where formal methods lack expressiveness. This separation is realized in a parallel, actor-based pipeline, addressing limitations of prompt-based self-verification approaches, which inherit the distributional biases that produce hallucinations. The proposed architecture and type-aware verification method are validated with HAIMEDA, a real-world medical device damage assessment reporting system developed through Action Design Research. Evaluation shows hallucination detection rates of over 83% for structured entities and 72% for semantic fabrications, with a 30% reduction in report creation time, demonstrating that neuro-symbolic architectures can provide principled safeguards for LLM deployment in data-sensitive domains.
LELA: ゼロショット ドメイン アダプテーションを備えたエンドツーエンドの LLM ベースのエンティティ リンク フレームワーク
エンティティ リンクは、多くの下流 NLP システムの重要なコンポーネントですが、既存のアプローチは多くの場合、特定の対象知識ベースやドメインに結び付けられており、現実世界への応用が制限されています。この論文では、モジュール式でドメインに依存しない LLM ベースのエンティティ曖昧さ回避手法である LELA を、ゼロショットの固有表現認識 (NER) を統合する実用的な Python ライブラリに拡張します。これにより、実際の使用においてエンティティ リンクのための完全なエンドツーエンド パイプラインが提供されます。さまざまなエンティティ リンク設定にわたる LELA のパフォーマンスと堅牢性を検証する実験結果を提供します。私たちのデモでは、ユーザーは自分の入力テキストでシステムを操作できます。
原文 (English)
LELA: An End-to-end LLM-based Entity Linking Framework with Zero-shot Domain Adaptation
Entity linking is a key component of many downstream NLP systems, yet existing approaches are often tied to the specific target knowledge bases and domains, limiting their real world application. In this paper, we extend LELA, a modular and domain-agnostic LLM-based entity disambiguation method, into a practical Python library that integrates zero-shot Named Entity Recognition (NER) -thereby providing a complete end-toend pipeline for entity-linking in real-world usage. We provide experimental results validating LELA's performance and robustness across diverse entity linking settings. In our demo, users can play with the system on their own input texts.
ORCA: 最適化された根本原因分析のためのエンドツーエンドの対話型コパイロット
因果関係分析は、製造、社会科学、医学などの多くの分野で重要なタスクです。しかし、最近の進歩にもかかわらず、因果関係手法は概念的かつ方法論的に複雑であるため、分野の専門家にとってはほとんどアクセスできません。このギャップにより、専門家はこれらの進歩を活用することができず、検証のために実世界のデータにアクセスできない研究者は妨げられます。この溝を埋めるために、エンドツーエンドの因果分析のためのコパイロットである ORCA を導入します。 ORCA はエージェントを調整してユーザーの目標を理解し、完全自動から高度なユーザーガイドによる実行まで、最も適切な因果分析ワークフローをガイドします。因果関係の発見、因果関係の推定、説明可能性、根本原因分析 (RCA) を特徴としています。 ORCA は、パフォーマンスを評価および比較し、主要な指標と図を生成し、構造化されたレポートを通じて洞察を生成します。いくつかの実世界のユースケースにおけるその有効性を強調します。
原文 (English)
ORCA: An End-to-End Interactive Copilot for Optimized Root Cause Analysis
Causal analysis is a crucial task in many domains, including manufacturing, social science, and medicine. However, despite recent progress, the conceptual and methodological complexity of causal methods makes them largely inaccessible to domain experts. This gap prevents experts from leveraging these advances and hinders researchers who lack access to real-world data for validation. To bridge this divide, we introduce ORCA, a copilot for end-to-end causal analysis. ORCA orchestrates agents to understand the user's goals and guide them through the most appropriate causal analysis workflow, from fully automatic to highly user-guided execution. It features causal discovery, causal effect estimation, explainability and Root-Cause-Analysis (RCA). ORCA evaluates and compares performance, generates key metrics and diagrams, and generates insights through structured reports. We highlight its effectiveness across several real-world use-cases.
追跡可能なナレッジ グラフ推論により、鉄鋼業界における産業用 VOC に対する LLM 支援の意思決定サポートが可能に
鉄鋼業界の揮発性有機化合物(VOC)ガバナンスに関する重要な知識は、構造化されていない科学文献に散在しているため、プロセス、汚染物質、制御技術の証拠を統合することが困難になり、一般的な大規模言語モデル(LLM)が低頻度の産業上の質問に答えるときに幻覚のリスクが増大します。ここでは、ナレッジ グラフ (KG) で強化されたマルチエージェント Q&A システムである Chat-ISV を開発しました。これは、精選された鉄鋼業界の VOC 文献コーパスを解析し、27,180 ノードと 81,779 のセマンティック エッジを備えた Neo4j KG を構築し、プロンプト制約付き抽出、チャンク中心のトポロジー最適化、マルチエージェント ルーティング、ソース バックトラッキング検索、ローカル文献を組み合わせたものです。検索、オープンドメインの知識へのアクセス、およびインタラクティブなサブグラフの視覚化。ベンチマーク テストと 400 人の専門家によるブラインド評価の結果、トポロジの最適化により孤立ノードが 57% から 4.08% に減少し、Chat-ISV が精度 96.93%、再現率 72.63%、F1 スコア 0.830、平均スコア 1.69/2.00 という高い事実信頼性を達成したことが示されました。 Chat-ISV は、断片化された環境工学文献を追跡可能でクエリー可能な意思決定支援指向の知識に変換することにより、特殊な産業領域における信頼性の高い LLM 導入とインテリジェントな汚染制御意思決定支援のためのスケーラブルな環境情報学パラダイムを確立します。
原文 (English)
Traceable Knowledge Graph Reasoning Enables LLM-Assisted Decision Support for Industrial VOCs in the Steel Industry
Key knowledge for steel-industry volatile organic compounds (VOCs) governance is scattered across unstructured scientific literature, making it difficult to integrate process, pollutant, and control-technology evidence and increasing the risk of hallucination when general large language models (LLMs) answer low-frequency industrial questions. Here we developed Chat-ISV, a knowledge graph (KG) enhanced multi-agent Q&A system that parses a curated steel-industry VOCs literature corpus, constructs a Neo4j KG with 27180 nodes and 81779 semantic edges, and combines prompt-constrained extraction, chunk-centered topology optimization, multi-agent routing, source-backtracking retrieval, local literature retrieval, open-domain knowledge access, and interactive subgraph visualization. Benchmark tests and 400 expert blind evaluations showed that topology optimization reduced isolated nodes from 57% to 4.08% and that Chat-ISV achieved high factual reliability, with 96.93% precision, 72.63% recall, an F1-score of 0.830, and a mean score of 1.69/2.00. By converting fragmented environmental-engineering literature into traceable, queryable, and decision-support-oriented knowledge, Chat-ISV establishes a scalable environmental-informatics paradigm for reliable LLM deployment and intelligent pollution-control decision support in specialized industrial domains.
ドメイン保存による一般的な能力回復のための、カウンターアクションを意識した複数教師のオンポリシー蒸留
ドメインの特殊化により、垂直ドメインでの LLM の動作を改善できますが、元のモデルから継承された一般的な機能が弱くなることがよくあります。最近の Multi-Teacher On-Policy Distillation (MOPD) パイプラインは、生徒が生成した軌跡を教師のフィードバックで監視することでモデルの機能を回復しますが、通常は教師に合わせたプロンプトを想定しており、教師のトレーニング分布に一致するプロンプトが必要です。一般的な教師がトレーニング後のデータが不明なオープンソース モデルである場合、この仮定を満たすのは困難です。この隠れた分布を再構築しようとする代わりに、私たちはすぐに利用できる代理の一般的なプロンプトを使用して一般的な機能の回復を研究します。この不完全なカバレッジ状況におけるバニラ MOPD の 2 つの故障モードを特定します。1 つは、矛盾する回復勾配と保存勾配の混合による回復と保存の反作用、もう 1 つは不等な補正要求を持つ均一な平均化サンプルによる弱い信号の平坦化です。我々は、分離された交互トレーニングとギャップベースのサンプル選択によってこれらの問題に対処する、Counteraction-Aware Multi-Teacher On-Policy Distillation (CaMOPD) を提案します。 CaMOPD は、一般的な回復専用の更新を提供し、保存のためのドメイン プロンプトを定期的にレビューし、平均トークン レベルの教師と生徒の対数確率ギャップが大きいサンプルを選択して、修正信号を集中させます。 CaMOPD は、ロールプレイ対話と医学的推論 QA シナリオ全体で、ドメイン固有の動作を維持しながら、ベースラインを超える一般的な回復において最高のパフォーマンスを発揮します。グラジエント コヒーレンス解析は、よりコヒーレントな補正信号を生成する際の CaMOPD の意図した効果をさらにサポートします。
原文 (English)
Counteraction-Aware Multi-Teacher On-Policy Distillation for General Capability Recovery with Domain Preservation
Domain specialization can improve LLM behavior in vertical domains, but often weakens the general capabilities inherited from the original model. Recent Multi-Teacher On-Policy Distillation (MOPD) pipelines recover model capabilities by supervising student-generated trajectories with teacher feedback, but typically assume teacher-aligned prompt coverage, requiring prompts to match the teachers' training distributions. This assumption is difficult to satisfy when the general teacher is an open-source model whose post-training data are unknown. Instead of attempting to reconstruct this hidden distribution, we study general capability recovery with readily available proxy general prompts. We identify two failure modes of vanilla MOPD in this incomplete-coverage situation: recovery-preservation counteraction from mixing conflicting recovery and preservation gradients, and weak-signal flattening from uniformly averaging samples with unequal correction demand. We propose Counteraction-Aware Multi-Teacher On-Policy Distillation (CaMOPD), which addresses these issues with decoupled alternating training and gap-based sample selection. CaMOPD gives general recovery dedicated updates, periodically reviews domain prompts for preservation, and selects samples with larger averaged token-level teacher-student log-probability gaps to concentrate correction signals. Across role-play dialogue and medical reasoning QA scenarios, CaMOPD performs best in general recovery over baselines while maintaining domain-specific behavior. Gradient coherence analyses further support the intended effect of CaMOPD in producing more coherent correction signals.
VitaBench 2.0: 長期的なユーザー インタラクションにおけるパーソナライズされたプロアクティブなエージェントの評価
大規模言語モデル (LLM) は、現実世界のタスクでユーザーと協力する対話型エージェントに進化しました。ユーザーの意図は日常の断片的なインタラクションに反映されることが多く、パーソナライズされたモデリングとプロアクティブなインタラクションの両方が必要となるため、このような設定における効果的なコラボレーションは、明示的に述べられた以上にユーザーを理解することにますます依存します。しかし、既存のエージェントのベンチマークは主に推論とツールの使用を評価しており、現実的なシナリオでのユーザーの好みの推論と活用という課題をほとんど見落としています。このギャップに対処するために、長期的なユーザー インタラクションにおけるパーソナライズされたプロアクティブなエージェントの動作を評価するためのベンチマークである VitaBench 2.0 を導入します。 VitaBench 2.0 では、タスクは個々のユーザーに対して時間的に順序付けられたシーケンスとして編成され、断片化された異種インタラクションに好みが埋め込まれています。タスクを正常に完了するには、エージェントがこれらの対話からユーザーの好みを継続的に抽出、利用、更新する必要があります。さらに、エージェントが意思決定を行う前に不足している情報を認識し、ユーザーや環境から積極的に情報を取得する必要があるタスクを通じて、積極性を評価します。体系的な分析をサポートするために、異なるメモリ アーキテクチャ間で制御された比較を可能にする拡張可能なメモリ インターフェイスを提供します。私たちは、フロンティア独自のオープンソース LLM の多様なセットをベンチマークします。結果は、現実世界のパーソナライゼーションは最先端のモデルであっても依然として非常に困難であることを示しており、現在の機能と実際の要件との間に大きなギャップがあることが明らかになりました。広範な分析により、現実世界の個別化された意思決定における現在のエージェントの障害モードと機能のボトルネックがさらに明らかになり、将来のモデル改善のための洞察が得られます。
原文 (English)
VitaBench 2.0: Evaluating Personalized and Proactive Agents in Long-Term User Interactions
Large language models (LLMs) have evolved into interactive agents that collaborate with users in real-world tasks. Effective collaboration in such settings increasingly depends on understanding the user beyond what is explicitly stated, as user intent is often reflected in fragmented daily interactions and requires both personalized modeling and proactive interaction. However, existing agent benchmarks primarily evaluate reasoning and tool use, largely overlooking the challenges of inferring and leveraging user preferences in realistic scenarios. To address this gap, we introduce VitaBench 2.0, a benchmark for evaluating personalized and proactive agent behavior in long-term user interactions. In VitaBench 2.0, tasks are organized as temporally ordered sequences for individual users, where preferences are embedded in fragmented and heterogeneous interactions. Successful completion of tasks requires the agent to continuously extract, utilize, and update user preferences from these interactions. We further evaluate proactiveness through tasks that require agents to recognize missing information and actively acquire it from users or environments before making decisions. To support systematic analysis, we provide an extensible memory interface that enables controlled comparison across different memory architectures. We benchmark a diverse set of frontier proprietary and open-source LLMs. Results show that real-world personalization remains highly challenging even for state-of-the-art models, revealing a substantial gap between current capabilities and practical requirements. Extensive analysis further reveals the failure modes and capability bottlenecks of current agents in real-world personalized decision-making, providing insights for future model improvements.
検出は解決されていない: 検索拡張 LLM における監視制御ギャップ
検索拡張 LLM は、証拠の質がアクションの安全性を決定するタスクに導入されますが、評価プロトコルでは、ターンをまたいで証拠が蓄積された場合の堅牢性は、シングル ターンの堅牢性によって予測されると想定されています。この仮定が根本的に間違っていることを示します。モデルは監視と制御のギャップを示します。モデルは矛盾する証拠を容易に認識しますが、この認識は最終的な推奨事項を制約することができません。認識論的な矛盾を検出しても、それを安全に解決することを意味するわけではありません。 4 つのモデル ファミリ (1.5B ~ 32B パラメーター) にわたるマルチターン文書蓄積プロトコルと 50,000 を超えるターンレベル評価を通じて、シングルターン診断が体系的に RAG の安全性を過大評価していること、矛盾の認識が安全な解決と相関関係がないこと、対象を絞った人間による検証によって裏付けられたパターンであること、および普遍的な即時修正が存在しないことを実証します。収束するメカニズムの証拠 - 隠れ状態の調査、注意力の分析、および対応戦略の分類法 - は、欠陥の最もありそうな原因として行動の選択を示しています。危険に関連した情報は内部的に表現され、安全でない生成中に強化された注意を受けますが、出力の動作を制限することはできません。検索拡張システムを一か八かの状況で信頼できるようになる前に、モデルが認識する内容とモデルが実行する内容との間のギャップを測定し、埋める必要があります。
原文 (English)
Detecting Is Not Resolving: The Monitoring Control Gap in Retrieval Augmented LLMs
Retrieval-augmented LLMs are deployed for tasks where evidence quality determines action safety, yet evaluation protocols assume that single-turn robustness predicts robustness when evidence accumulates across turns. We show this assumption is fundamentally incorrect. Models exhibit a monitoring-control gap: they readily acknowledge contradictory evidence, yet this awareness fails to constrain their final recommendations - detecting epistemic conflict does not imply resolving it safely. Through a multi-turn document accumulation protocol across four model families (1.5B-32B parameters) and over 50,000 turn-level evaluations, we demonstrate that single-turn diagnostics systematically overestimate RAG safety, that contradiction acknowledgement is uncorrelated with safe resolution, a pattern corroborated by targeted human validation, and that no universal prompt fix exists. Converging mechanism evidence - hidden-state probing, attention analysis, and response-strategy taxonomy - points to action selection as the most plausible locus of the deficit: danger-relevant information is internally represented and receives enhanced attention during unsafe generation, yet fails to constrain output behavior. The gap between what models recognize and what they do must be measured and closed before retrieval-augmented systems can be trusted in high-stakes settings.
騒音下での行動の学習: 騒音環境によるエージェントの堅牢性の強化
大規模言語モデル (LLM) の最近の進歩により、推論、計画、ツールの使用が可能な対話型エージェントとしての LLM の広範な展開が容易になりました。既存のベンチマークでは優れたパフォーマンスを示しているにもかかわらず、このようなエージェントは、環境が本質的に確率的で不完全である現実の環境に展開すると、顕著な低下を示すことがよくあります。私たちは、この矛盾は、理想的なトレーニング設定と現実世界のインタラクションダイナミクスの間の根本的な不一致から生じていると主張します。現在のパラダイムは、慎重に精選されたタスク指示と、安定してよく制御された環境に依存しています。このギャップに対処するために、環境の不完全性をエージェントの学習プロセスに明示的に組み込むエージェント トレーニング フレームワークである NoisyAgent を提案します。私たちは、現実世界のシナリオにおけるインタラクション ノイズの 2 つの主な原因を特定します。1 つはユーザー インタラクションのあいまいさと変動性を捉えるユーザー ノイズ、もう 1 つはツールの実行における障害や異常を反映するツール ノイズです。ユーザー対話パターンを変更し、トレーニング環境内でツールの実行結果をシミュレートすることにより、このような摂動をトレーニング パイプラインに導入します。ますます困難になる不完全性にエージェントが対処できるように促しながらトレーニングを安定させるために、ノイズはロールアウトのサブセットにのみ適用され、モデルが現在のノイズ レベルに適応するにつれて徐々に難易度が上がります。広範な実験により、私たちのアプローチが騒がしく動的な環境下でエージェントの堅牢性を一貫して向上させることが実証されました。私たちの分析では、騒音条件下でのトレーニングでも、理想化されたベンチマークでのパフォーマンス向上が得られることが明らかになり、環境騒音への曝露を制御することで、より一般化可能な推論と意思決定行動が促進されることが示唆されています。私たちの調査結果は、エージェントのトレーニングと実際の展開の間のギャップを埋めるために、インタラクションの不完全性をモデル化することの重要性を強調しています。
原文 (English)
Learning to Act under Noise: Enhancing Agent Robustness via Noisy Environments
Recent advances in large language models (LLMs) have facilitated the widespread deployment of LLMs as interactive agents capable of reasoning, planning, and tool use. Despite strong performance on existing benchmarks, such agents often exhibit notable degradation when deployed in real-world settings, where environments are inherently stochastic and imperfect. We argue that this discrepancy arises from a fundamental mismatch between idealized training settings and real-world interaction dynamics, where current paradigms rely on carefully curated task instructions and stable, well-controlled environments. To address this gap, we propose NoisyAgent, an agentic training framework that explicitly incorporates environmental imperfections into the agent learning process. We identify two major sources of interaction noise in real-world scenarios: user noise, which captures ambiguity and variability in user interaction, and tool noise, which reflects failures and anomalies in tool execution. We introduce such perturbations into the training pipeline by modifying user interaction patterns and simulating tool execution results within the training environment. To stabilize training while encouraging agents to handle increasingly challenging imperfections, noise is applied to only a subset of rollouts and progressively increased in difficulty as the model adapts to the current noise level. Extensive experiments demonstrate that our approach consistently improves agent robustness under noisy and dynamic environments. Our analysis reveals that training under noise conditions also yields performance gains on idealized benchmarks, suggesting that controlled exposure to environmental noise promotes more generalizable reasoning and decision-making behaviors. Our findings highlight the importance of modeling interaction imperfections for bridging the gap between agent training and real-world deployment.
アライメントの改ざん: 人間のフィードバックからの強化学習を利用して不整合なバイアスを最適化する方法
人間のフィードバックからの強化学習 (RLHF) は、大規模言語モデル (LLM) を人間の好みに合わせるための標準的な方法です。この作業では、アライメント改ざんを導入します。これは、アライメント中の LLM が優先データセットに影響を及ぼし、RLHF の望ましくない動作を増幅させる潜在的な脆弱性です。これは、RLHF の核となる制限から生じます。(1) 優先データセットは LLM 自身の出力から構築され、LLM に影響を与えることができます。(2) ペアごとの比較では、どちらの応答が優れているかが示されるだけで、理由は示されません。これらの制限を悪用して、アライメントの改ざんを引き起こす可能性があります。たとえば、LLM がより高品質の偏った応答を生成する場合、アノテーターは品質に基づいてそれらを優先します。ただし、嗜好ラベルは品質とバイアスを区別せず、報酬モデルはこの制限を継承します。強化学習やベストオブ N サンプリングを通じてこのような報酬を最適化すると、不整合なバイアスが増幅される可能性があります。私たちの実験では、キーワードのバイアスからプロパガンダ(性差別など)、ブランドのプロモーション、手段的な目標追求まで、さまざまなバイアスが増幅されることを実証しています。堅牢な RLHF のための既存の技術では、応答品質を犠牲にすることなくアライメント改ざんを完全に解決できないため、軽減は依然として困難です。これらの発見は、現在の RLHF の構造的脆弱性を明らかにし、この脆弱性を防ぐ必要性を強調しています。プロジェクトページ: https://alignment-tampering.github.io/
原文 (English)
Alignment Tampering: How Reinforcement Learning from Human Feedback Is Exploited to Optimize Misaligned Biases
Reinforcement Learning from Human Feedback (RLHF) is the standard method to align Large Language Models (LLMs) with human preferences. In this work, we introduce alignment tampering, a potential vulnerability where the LLM undergoing alignment influences the preference dataset, causing RLHF to amplify undesired behaviors. This arises from core limitations of RLHF: (1) preference datasets are constructed from the LLM's own outputs, allowing it to influence them, and (2) pairwise comparisons only indicate which response is better, not why. These limitations can be exploited to cause alignment tampering. For example, if an LLM generates biased responses with higher quality, annotators will prefer them based on quality. However, preference labels do not distinguish quality from bias, and the reward model inherits this limitation. Optimizing such rewards through reinforcement learning or best-of-N sampling can amplify misaligned biases. Our experiments demonstrate amplification across diverse biases: from keyword bias to propaganda (e.g., sexism), brand promotion, and instrumental goal-seeking. Mitigation remains challenging, as existing techniques for robust RLHF fail to fully resolve alignment tampering without sacrificing response quality. These findings reveal structural vulnerabilities of current RLHF and emphasize the need to prevent this vulnerability. Project page: https://alignment-tampering.github.io/
検索エージェントの構成に対する自然言語クエリ
最新の検索エージェントは、LLM、取得者、ドキュメント数、ホップ数、合成戦略など、多くの構成選択肢を公開しており、それぞれが応答品質とサービス コストの両方を形成します。現在、これらのパイプラインは通常、ワークロードごとに 1 回手動で調整されており、クエリごとの実質的な最適化は未開発のままになっています。問題を定式化します。自然言語クエリと精度または予算目標が与えられ、事前定義されたパイプライン カタログから、推論時のコストを最小限に抑えるか精度を最大限に高める構成を選択します。私たちは、LLM を使用して各クエリをワークロード固有の特性に変換し、パイプラインがクエリに正しく応答するかどうかを推定する軽量の構成ごとの予測子をトレーニングする **BRANE** を提案します。推論時に、**BRANE** は、コストによってペナルティを受ける予測の正確性を最大化する構成を選択し、再トレーニングなしで調整可能なコストと品質のトレードオフを明らかにします。 MuSiQue、BrowseComp-Plus、FinanceBench 全体で、**BRANE** は一貫してコスト品質のパレートの最前線を押し広げ、最大 89% 低いコストで最適な固定構成の精度に一致し、LLM ルーティング、ルールベース、および微調整された Qwen3-4B ベースラインを上回ります。これらの結果は、完全な取得パイプラインのクエリごとの構成が、静的なワークロード レベルのチューニングに代わる実用的な方法であることを示しています。
原文 (English)
Natural Language Query to Configuration for Retrieval Agents
Modern retrieval agents expose many configuration choices -- LLM, retriever, number of documents, number of hops, and synthesis strategy -- each shaping both answer quality and serving cost. Today, these pipelines are typically hand-tuned once per workload, leaving substantial per-query optimization untapped. We formulate the problem: given a natural-language query and either an accuracy or a budget target, select from a predefined pipeline catalog the configuration that minimizes cost or maximizes accuracy at inference time. We propose **BRANE**, which uses an LLM to convert each query into workload-specific characteristics, then trains a lightweight per-configuration predictor that estimates whether the pipeline will answer the query correctly. At inference time, **BRANE** selects the configuration that maximizes predicted correctness penalized by cost, exposing a tunable cost-quality tradeoff without retraining. Across MuSiQue, BrowseComp-Plus, and FinanceBench, **BRANE** consistently pushes the cost-quality Pareto frontier, matches the best fixed configuration's accuracy at up to 89% lower cost, and outperforms LLM-routing, rule-based, and fine-tuned Qwen3-4B baselines. These results show that per-query configuration of the full retrieval pipeline is a practical alternative to static workload-level tuning.
MUSE-Autoskill: スキルの作成、記憶、管理、評価による自己進化エージェント
大規模言語モデル (LLM) エージェントは、再利用可能なスキルに依存して複雑なタスクを解決します。ただし、既存のスキル作成アプローチでは、スキルを孤立した静的な成果物として扱い、再利用性、信頼性、長期的な改善が制限されています。私たちは、統一されたライフサイクル (作成、記憶、管理、評価、洗練) の下でスキルを作成、再利用、洗練することにより、エージェントがタスク解決能力を継続的に向上できるようにする、スキル中心のエージェント フレームワークである MUSE-Autoskill Agent (Memory-Utilizing Skill Evolution) を提案します。当社のフレームワークにより、エージェントはオンデマンドでスキルを作成し、それらをタスク間で保存して再利用し、効率的に整理して選択し、単体テストや実行時のフィードバックを通じて評価して継続的に改善することができます。さらに、タスク全体にわたって各スキルの経験を蓄積するスキルレベルの記憶を導入し、時間の経過とともにより効果的な再利用と適応を可能にします。 SkillsBench の実験は、ライフサイクル管理されたスキルがタスクの成功、効率、再利用、およびエージェント間での移転を向上させることができるという最初の証拠を提供し、スキルを長命で経験を意識したテスト可能な資産として扱うことの重要性を強調しています。
原文 (English)
MUSE-Autoskill: Self-Evolving Agents via Skill Creation, Memory, Management, and Evaluation
Large language model (LLM) agents rely on reusable skills to solve complex tasks. However, existing skill creation approaches treat skills as isolated and static artifacts, limiting their reusability, reliability, and long-term improvement. We propose MUSE-Autoskill Agent (Memory-Utilizing Skill Evolution), a skill-centric agent framework that lets agents continuously improve their task-solving capability by creating, reusing, and refining skills under a unified lifecycle (creation, memory, management, evaluation, and refinement). Our framework enables agents to create skills on demand, store and reuse them across tasks, organize and select them efficiently, and evaluate them through unit tests and runtime feedback for continuous refinement. We further introduce skill-level memory that accumulates experience for each skill across tasks, enabling more effective reuse and adaptation over time. Experiments on SkillsBench provide initial evidence that lifecycle-managed skills can improve task success, efficiency, reuse, and cross-agent transfer, highlighting the importance of treating skills as long-lived, experience-aware, and testable assets.
Xe-Forge: Intel GPU 向けのマルチステージ LLM を利用したカーネル最適化
深層学習アルゴリズムを新しいハードウェア アクセラレータに移植するには、開発者は同じ低レベルの最適化 (量子化、メモリ アクセスの結合、タイル サイズの調整、アーキテクチャ固有の回避策) をコードベース内のすべての Triton カーネルに繰り返し適用する必要があります。この手動での繰り返しの作業が大きなボトルネックとなっています。各カーネルは、デバイスごとに異なるハードウェア制約に対して同じサイクルの試行錯誤プロファイリングを必要としますが、基礎となる最適化パターンはほぼ一貫しています。 Intel GPU 向けにこのプロセスを自動化する、マルチステージ LLM を利用したパイプラインである Xe-Forge を紹介します。機能的に正しい Triton カーネルが与えられると、システムは、アルゴリズムの再構築と演算子の融合からブロック ポインターの最新化、GPU 固有のチューニング、およびオープンエンドの検出まで、最大 9 つの最適化ステージを適用します。各ステージは、候補を生成し、実際のハードウェアで検証し、失敗時に反復する検証と洗練の連鎖 (CoVeR) エージェントによって駆動されます。厳選されたナレッジベースは、LLM トレーニング データには存在しない Intel GPU 制約 (2 のべき乗ワープ数、GRF モード、SLM サイズ設定) をエンコードし、モデルをアーキテクチャ的に有効な範囲内に保ちます。 97 個の Level-2 KernelBench カーネルで Xe-Forge を、Intel Arc Pro B70 で Flash Attend を評価し、PyTorch Eager に比べて幾何平均 1.17 倍の速度向上を達成し、カーネルの 67% が向上し、9 個のカーネルで 5 倍を超え (最大 82 倍)、テスト済みのすべての構成で回帰なしで Flash Attend で 2 ~ 13.3 倍の高速化を達成しました。構造化されたドメインの知識が実証されています。ハードウェアインザループ検証を使用すると、現在新しいアクセラレータでのアルゴリズムの展開を妨げている反復的な移植作業を体系的に排除できます。
原文 (English)
Xe-Forge: Multi-Stage LLM-Powered Kernel Optimization for Intel GPU
Porting deep learning algorithms to new hardware accelerators requires developers to repeatedly apply the same low-level optimizations -- quantization, memory access coalescing, tile size tuning, and architecture-specific workarounds -- to every Triton kernel in their code-base. This manual, repetitive effort is a major bottleneck: each kernel demands the same cycle of trial-and-error profiling against hardware constraints that vary across devices, yet the underlying optimization patterns remain largely consistent. We present Xe-Forge, a multi-stage LLM-powered pipeline that automates this process for Intel GPU. Given a functionally correct Triton kernel, the system applies up to nine optimization stages -- from algorithmic restructuring and operator fusion through block pointer modernization, GPU-specific tuning, and open-ended discovery -- each driven by a Chain-of-Verification-and-Refinement (CoVeR) agent that generates candidates, validates them on real hardware, and iterates on failures. A curated knowledge base encodes Intel GPU constraints (power-of-two warp counts, GRF modes, SLM sizing) that are absent from LLM training data, keeping the model within architecturally valid bounds. We evaluate Xe-Forge on 97 Level-2 KernelBench kernels and Flash Attention on the Intel Arc Pro B70, achieving a 1.17x geometric mean speedup over PyTorch eager with 67% of kernels improving, nine kernels exceeding 5x (up to 82x), and 2--13.3x speedups on Flash Attention across all tested configurations without regression -- demonstrating that structured domain knowledge with hardware-in-the-loop verification can systematically eliminate the repetitive porting effort that currently gates algorithm deployment on new accelerators.
GEM: 最適な LLM データ キュレーションのための幾何学的エントロピー混合
LLM の事前トレーニングの有効性は、膨大な量ではなくデータの構成に依存することが増えています。しかし、最適な混合は分類上の欠陥によって妨げられています。人間の分類法は存在論的な不整合に悩まされており、ユークリッド クラスタリングは埋め込みの異方性に対処できません。私たちは、混合バランス正則化装置で強化された超球上の変分問題としてデータキュレーションを再定式化するフレームワークである GEM (Geometric Entropy Mixing) を紹介します。生成事前を切り離し、証明可能な MM (Minorize-Maximize) アルゴリズムを介して目的を最適化することにより、GEM はクラスターの崩壊に効果的に対抗し、ユークリッド ヒューリスティックでは見えないバランスのとれた意味構造を発見します。私たちは、教師と生徒の蒸留を使用して、この幾何学的忠実度を Web スケールのコーパスにスケールし、解釈可能な分類法を生成するために幾何学的影響スコア (GIS) を導入します。 1.1B パラメーター モデルを使用した実験では、GEM が DoReMi や RegMix などのミキシング戦略に統合された場合に新しい最先端技術を確立し、ダウンストリームの平均精度を最大 1.2% 向上させ、予測可能なデータ ミキシングのための堅牢な座標系を提供することが実証されました。
原文 (English)
GEM: Geometric Entropy Mixing for Optimal LLM Data Curation
LLM pre-training efficacy increasingly depends on data composition rather than sheer volume. Yet, optimal mixing is hindered by categorization flaws: human taxonomies suffer from ontological misalignment, and Euclidean clustering fails to address embedding anisotropy. We introduce GEM (Geometric Entropy Mixing), a framework reformulating data curation as a variational problem on the hypersphere augmented with a mixing-balance regularizer. By decoupling the generative prior and optimizing the objective via a provable MM (Minorize-Maximize) algorithm, GEM effectively counteracts the cluster collapse to discover balanced semantic structures invisible to Euclidean heuristics. We employ teacher-student distillation to scale this geometric fidelity to web-scale corpora and introduce the Geometric Influence Score (GIS) for interpretable taxonomy generation. Experiments with 1.1B-parameter models demonstrate that GEM establishes a new state-of-the-art when integrated into mixing strategies like DoReMi and RegMix, improving average downstream accuracy by up to 1.2% and offering a robust coordinate system for predictable data mixing.
大規模言語モデルでの事前トレーニングによるデータ漏洩: メンバーシップ推論、データ汚染、およびセキュリティへの影響に関する調査
大規模言語モデル (LLM) は NLP の主要なパラダイムとなり、研究と産業の両方を進歩させています。モデルのサイズと事前トレーニング データが大きくなるにつれて、トレーニング データセットの規模と不透明さにより、事前トレーニング データの露出 (PDE) に関する懸念が増大します。 PDE は、LLM の事前トレーニング コーパスに特定のデータが出現したかどうかを判断することを指します。これは、評価の整合性を確保し、プライバシーを保護するために重要であり、データ汚染とメンバーシップ推論という 2 つの主要な領域と交差します。これらの分野は概念的には関連していますが、多くの場合、単独で研究されてきました。このペーパーでは、PDE フレームワークの下で両方の最初の統合調査を提供します。私たちは、暴露レベル全体にわたる PDE を形式化し、攻撃と防御の方法をレビューし、経験的発見を総合して、未解決の課題と将来の研究の方向性を強調します。
原文 (English)
Pretraining Data Exposure in Large Language Models: A Survey of Membership Inference, Data Contamination, and Security Implications
Large Language Models (LLMs) have become the predominant paradigm in NLP, advancing both research and industry. As model sizes and pretraining data grow, concerns about Pretraining Data Exposure (PDE) increase due to the scale and opacity of training datasets. PDE refers to determining whether specific data appeared in an LLM's pretraining corpus. It is critical for ensuring evaluation integrity and protecting privacy, intersecting two key areas: data contamination and membership inference. Though conceptually related, these areas have often been studied in isolation. This paper offers the first unified survey of both under the PDE framework. We formalize PDE across exposure levels, review attack and defense methods, synthesize empirical findings, and highlight open challenges and future research directions.
VISTA: Visual Spec-to-Web-App コーディング エージェントのエンドツーエンド ベンチマーク
ここでは、LLM ベースのエージェントのエンドツーエンドの Web アプリ生成機能を評価するためのベンチマークである VISTA (VIsual Spec-To-App Benchmark) を紹介します。アルゴリズム タスクに焦点を当てた以前のコード生成ベンチマークとは異なり、VISTA は現実的な UI 中心の開発をターゲットにしており、エージェントは過少指定された入力から機能的で視覚的に一貫したアプリケーションを生成する必要があります。視覚的/構造的忠実度およびスタック制約という 2 つの軸に沿って変化する 5 つのプロンプト情報条件を定義します。(1) 自由なスタック選択によるテキストのみ、(2) 3 つの指定されたスタック下の参照スクリーンショットを含むテキスト、(3) 自由なスタック選択による参照スクリーンショットを含むテキスト、(4) 単一の指定されたスタック下のスクリーンショットおよびプルーニングされた Figma 構造を含むテキスト、(5) 自由なスタック選択によるスクリーンショットおよびプルーニングされた Figma 構造を含むテキスト。堅牢な評価を可能にするために、ベンチマークの各ページにはインタラクティブな UI コンポーネントと約 3 つのビジュアル アンカー ポイントで手動で注釈が付けられ、オープンエンド コード生成設定における Playwright などのスクリプト ベースのテスト ツールのよく知られた制限に対処します。評価では、DOM に基づいた参照マッチング、動作固有のブラウザ テスト、および CLIP ベースの視覚的類似性を組み合わせて、構造の整合性、動作の完全性、および全体的な視覚的な忠実度を共同で測定します。 VISTA を使用して、2 つのモデル ファミリと 2 つのハーネスから描画された 4 つのエージェント システムを評価しました。その結果、入力条件とエージェントの両方で視覚的な忠実性と機能の正確さが部分的に切り離されており、エージェントの編集スタイルは大きく変化しますが、タスクの品質とはほぼ直交していることがわかりました。 VISTA は、エージェントベースのソフトウェア エンジニアリング研究を推進するための厳密で再現可能な基盤を確立します。
原文 (English)
VISTA: An End-to-End Benchmark for Visual Spec-to-Web-App Coding Agents
We present VISTA (VIsual Spec-To-App Benchmark), a benchmark for evaluating the end-to-end web-app generation capabilities of LLM-based agents. Unlike prior code generation benchmarks that focus on algorithmic tasks, VISTA targets realistic UI-centric development, where agents must produce functional, visually coherent applications from underspecified inputs. We define five prompt-information conditions that vary along two axes, visual/structural fidelity and stack constraint: (1) text only with free stack choice, (2) text with reference screenshots under three specified stacks, (3) text with reference screenshots under free stack choice, (4) text with screenshots and pruned Figma structure under a single specified stack, and (5) text with screenshots and pruned Figma structure under free stack choice. To enable robust evaluation, each page in the benchmark is manually annotated with interactive UI components and around three visual anchor points, addressing the well-known limitations of script-based testing tools such as Playwright in open-ended code generation settings. Evaluation combines DOM-grounded reference matching, behavior-specific browser tests, and CLIP-based visual similarity, jointly measuring structural alignment, behavioral completeness, and overall visual fidelity. We use VISTA to assess four agent systems drawn from two model families and two harnesses, finding that visual fidelity and functional correctness are partially decoupled across both input conditions and agents, and that agent editing style varies sharply but is largely orthogonal to task quality. VISTA establishes a rigorous and reproducible foundation for advancing agent-based software engineering research.
MemMorph: メモリ ポイズニングによる LLM エージェントのツール ハイジャック
LLM 主導のエージェントは、ユーザーのタスクを完了するために外部ツールを選択できます。ただし、攻撃者はそのようなプロセスを侵害し、エージェントを不適切または間違ったツールに誘導し、悪意のあるアクションを可能にする可能性があります。既存の攻撃のほとんどは主にツールのメタデータを操作しますが、このメタデータは監査によって簡単に検出でき、蓄積された経験を通じてツール選択ポリシーを改良するためにメモリ モジュールを採用する現代のエージェントが増えているため、有効性が失われる可能性があります。この論文は、エージェントの長期記憶を汚染することによってツール選択を偏らせる最初の攻撃である MemMorph を提案します。 MemMorph は、ツール呼び出しの決定を明示的に指示するのではなく、技術的な事実、インシデント レポート、運用ポリシーを装った少数の細工されたレコードを挿入します。これらの汚染された記録は、エージェントの状況認識と意思決定プロセスを再構築し、攻撃者が好むツールを自律的に推論して選択するように導きます。 3 つのベンチマーク、10 のエージェント バックボーン、および 3 つのメモリ モジュール実装にわたる実験では、MemMorph がわずか 3 つの挿入されたレコードで最大 85.9% の攻撃成功率を達成し、3 つの代表的な防御の下で効力を維持しながら最も強力なベースラインを最大 25% 上回っていることが示されています。私たちの調査結果は、長期メモリがツール拡張エージェントにおける重要かつ十分に調査されていない攻撃対象領域であることを明らかにし、メモリレベルの整合性保護手段の開発を促しています。
原文 (English)
MemMorph: Tool Hijacking in LLM Agents via Memory Poisoning
LLM-driven agents are capable of selecting external tools to complete users' tasks. However, attackers could compromise such process, steering agents toward inappropriate/wrong tools and enabling malicious actions. Most existing attacks primarily manipulate the tool metadata, which is easily detectable by auditing and may lose effectiveness as modern agents increasingly adopt memory modules to refine tool selection policies through accumulated experience. This paper proposes MemMorph, the first attack that bias tool selection by poisoning the agent's long-term memory. Rather than explicitly dictating the tool invocation decision, MemMorph injects a small number of crafted records that are disguised as technical facts, incident reports, and operational policies. These poisoned records reshape the agent's contextual perception and decision-making process, leading it to autonomously infer and select the tool preferred by the attacker. Experiments across 3 benchmarks, 10 agent backbones, and 3 memory-module implementations show that MemMorph achieves up to 85.9% attack success rate with only three injected records, outperforming the strongest baseline by up to 25% while retaining potency under 3 representative defenses. Our findings expose long-term memory as a critical and under-explored attack surface in tool-augmented agents, urging the development of memory-level integrity safeguards.
偏見をバグに変える: LLM 裁判官に対する盗賊主導のスタイル操作攻撃
冗長性や特定の文構造を好むなど、LLM 裁判官の既知の文体上の偏見は、十分に調査されていないセキュリティ上の脆弱性を示しています。この研究では、LLM 裁判官を誤解させ、割り当てられるスコアを人為的につり上げるために意味論を保持する編集を学習するブラックボックスの敵対的フレームワークである BITE (BIas exploraTion and Exploitation) を導入します。スタイル編集の選択をコンテキスト バンディット問題としてキャストし、LinUCB ポリシーを使用して、モデル パラメーターや勾配にアクセスせずに審査員のスコアを最大化する編集を適応的に選択します。経験的に、チャットボットのリーダーボードと AI レビューアーのベンチマークでのポイントごとの比較とペアごとの比較の両方を含む、さまざまな LLM ジャッジとタスクにわたって BITE をテストします。 BITE は、意味上の同等性を維持しながら、65% を超える攻撃成功率を達成し、9 ポイント スケールで 1 ~ 2 ポイントスコアを上げます。さらに攻撃のステルス性を評価し、BITE が標準的なスタイル制御手法といくつかの検出ベースラインを回避していることを示しました。私たちの調査結果は、裁判官としての LLM パラダイムの根本的な弱点を明らかにし、堅牢で攻撃を意識した評価を動機付けます。私たちのコードは https://github.com/xianglinyang/llm-as-a-judge-attach で入手できます。
原文 (English)
Turning Bias into Bugs: Bandit-Guided Style Manipulation Attacks on LLM Judges
The known stylistic biases in LLM judges, such as a preference for verbosity or specific sentence structures, present an underexplored security vulnerability. In this work, we introduce BITE (BIas exploraTion and Exploitation), a black-box adversarial framework that learns semantics-preserving edits to mislead an LLM judge and artificially inflate the scores it assigns. We cast the selection of stylistic edits as a contextual bandit problem and use a LinUCB policy to adaptively choose edits that maximize the judge's score without access to model parameters or gradients. Empirically, we test BITE across a diverse range of LLM judges and tasks, including both pointwise and pairwise comparisons on chatbot leaderboards and AI-reviewer benchmarks. BITE achieves an attack success rate exceeding 65% and raises scores by 1-2 points on a 9-point scale, all while preserving semantic equivalence. We further assess the attack's stealthiness, showing that BITE evades standard style-control methods and several detection baselines. Our findings expose a fundamental weakness in the LLM-as-a-judge paradigm and motivate robust, attack-aware evaluation. Our code is available at https://github.com/xianglinyang/llm-as-a-judge-attack.
フリナ: 断片化された不確実性による拒否不安定性攻撃
大規模言語モデル (LLM) およびマルチモーダル大規模言語モデル (MLLM) における安全性調整は、一般に、バイナリに近いしきい値メカニズムとして動作すると想定されています。私たちは、小さな摂動が決定論的な結果ではなく確率論的な拒否決定を引き起こす不安定領域によって安全行動が支配されていることを明らかにすることで、この仮定に異議を唱えます。私たちは、この不安定性を特徴付けるために、外部信号と内部信号を組み合わせたマルチメトリック診断フレームワークを開発します。体系的な実験を通じて、私たちは特徴的な診断の兆候を特定しました。不安定な状態での入力は、出力の不確実性が高いにもかかわらず、内部の安全性の活性化が低下していることを示します。これは、検出ベースの防御が高度な攻撃に対して失敗する理由を説明するデカップリング現象です。このフレームワークに基づいて、モデル固有の最適化を行わずに、断片化されたシーンにアンカーされたプロンプトを通じてこのシグネチャを意図的に誘発するジェイルブレイク攻撃、Furina を紹介します。 Furina は、HarmBench で強力なシングルターンおよびマルチターンのベースラインを上回り、MM-SafetyBench で競争力のある結果を達成し、不確実性の増幅が安全性の脆弱性を理解するための原則に基づいた移転可能なメカニズムを提供することを実証しました。コードはhttps://github.com/0xCavaliers/Furina_Jailbreakから入手できます。
原文 (English)
Furina: Fragmented Uncertainty-Driven Refusal Instability Attack
Safety alignment in large language models (LLMs) and multimodal large language models (MLLMs) is commonly assumed to operate as a near-binary threshold mechanism. We challenge this assumption by revealing that safety behavior is governed by an instability region where small perturbations induce stochastic refusal decisions rather than deterministic outcomes. We develop a multi-metric diagnostic framework combining external and internal signals to characterize this instability. Through systematic experiments, we identify a characteristic diagnostic signature: inputs in unstable regimes exhibit elevated output uncertainty yet decreased internal safety activation, a decoupling phenomenon that explains why detection-based defenses fail against sophisticated attacks. Building on this framework, we introduce Furina, a jailbreak attack that deliberately induces this signature through fragmented, scene-anchored prompts without model-specific optimization. Furina outperforms strong single-turn and multi-turn baselines on HarmBench and achieves competitive results on MM-SafetyBench, demonstrating that uncertainty amplification provides a principled and transferable mechanism for understanding safety vulnerabilities. Code is available at: https://github.com/0xCavaliers/Furina_Jailbreak.
普遍的な崖と設計の指紋: LLM オーケストレーションによる断面欠陥検出
実稼働言語モデル システムは、1 つの統合レポートを再構成するワーカー エージェントの目に見えないオーケストレーション全体にリクエストを分割することで、リクエストに応答します。私たちは、これが、一人の作業者には気付かないクラスの欠陥、つまり文書の離れた 2 つのセクション間の関係における矛盾にどのような影響を与えるのかを尋ねます。ドキュメント、欠陥、メカニズム、スコアリング、シードを固定したまま、モデルのみを変更します。つまり、1 人の開発者からの 5 世代にわたる 10 のシステムと、異なる調整パラダイムからの 5 つのプロバイダーです。 2つの層が分離します。まず、普遍的な検出の崖です。単一のエージェントでこれらの断面欠陥を検出するすべてのモデルは、オーケストレーション下ではその能力を失い、テストしたすべてのパラダイムで検出が 3 分の 2 以上落ちます。この崖はメカニズムに由来するものであり、規模や拡張された推論によって閉じられるものではありません。 2 番目に、モデルが落下するとどのように動作するかです。シグナル検出分解は、偶然を区別する 6 つのモデルのうち、1 つの開発者の世代だけがレポート基準の軸に沿って移動していることを示しています。調整が強化されると、モデルが見逃す欠陥は少なくなりますが、クリーンなドキュメントではより多くの誤報が発生します。1 つの基準の変化には 2 つの側面があり、その開発者内では世代に応じて拡大され (p < 0.001)、他の地域ではほぼ存在しません。フロアでは、見落とされた欠陥が見えなくなることがよくあります。モデルの個人的な記録は構造的欠陥を正確に再構築しますが、統合レポートはその健全性、アーチファクトと不在の協力者に費やされた関心を証明します。これは定量化に抵抗します。自動判定は不安定で (精度 17 ~ 50%)、キーワードでは通常の合意から切り離すことができません。これは私たちが発見として報告する抵抗です。すべての実行、プローブ、欠陥キー、スコアラー プロンプト、およびスクリプトをリリースします。統合レポートの信頼性は、パーティションにまたがる欠陥については情報がありません。最も調整されたシステムが最も安全であるわけではなく、崖は構造的なものです。
原文 (English)
A Universal Cliff and a Design Fingerprint: Cross-Section Defect Detection Under LLM Orchestration
Production language-model systems answer a request by partitioning it across an invisible orchestration of worker agents that recompose one integrated report. We ask what this does to a class of defect no single worker can see: a contradiction in the relation between two distant sections of a document. Holding the documents, defects, mechanism, scoring, and seed fixed, we vary only the model -- ten systems across five generations from one developer and five providers from distinct alignment paradigms. Two layers separate. First, a universal detection cliff: every model that finds these cross-section defects under a single agent loses that ability under orchestration, detection falling two-thirds or more across every paradigm tested. The cliff is mechanism-derived and not closed by scale or extended reasoning. Second, how models behave once fallen. A signal-detection decomposition shows that, among the six models discriminating above chance, only one developer's generations move along the reporting-criterion axis: as alignment is strengthened, the model misses fewer defects yet raises more false alarms on clean documents -- two faces of one criterion shift, scaling with generation within that developer (p < 0.001) and near-absent elsewhere. At the floor the missed defect is often not out of view: the model's private record reconstructs the structural fault accurately, while the integrated report signs off on its soundness, its concern spent on the artifact and an absent collaborator. This resists quantification -- an automated judge is unstable (precision 17-50%) and keywords cannot separate it from ordinary agreement -- a resistance we report as a finding. We release all runs, probes, defect keys, scorer prompts, and scripts. An integrated report's confidence is uninformative about partition-spanning defects, the most aligned systems are not the safest, and the cliff is structural.
InfoQuant: 低ビット LLM 量子化のためのアクティベーション分布の形成
低ビットのアクティベーション量子化は、効率的な大規模言語モデル (LLM) の展開において依然として大きなボトルネックとなっています。問題は、アクティベーションに外れ値が含まれるだけでなく、その分布が低ビット均一量子化器とあまり一致しないことが多いことです。既存のトレーニング後量子化 (PTQ) 手法は、ピークを抑制したり、チャネルのバランスをとったり、再構成エラーを最小限に抑えたりしますが、どの活性化分布が実際に離散化しやすいかを指定することはほとんどありません。その結果、量子化範囲が広いままであるか、ほとんどの値が平均に近いいくつかのレベルに崩壊するため、アクティベーションは数値的には滑らかに見える一方で、依然として大きな量子化誤差が発生する可能性があります。私たちは活性化変換を量子化器側の分布設計として再構築し、情報理論の観点から量子化誤差を分析します。私たちの分析では、量子化に適したアクティベーションは、より小さい数値範囲とその範囲内での十分な分散を併せ持つ必要があることが示されています。この分析に基づいて、ピーク抑制直交変換 (PSOT) を使用してアクティベーションをより量子化に適した分布に整形するトレインフリーの手法である InfoQuant を提案します。さらに、最適化中の PSOT の堅牢性を向上させるために、適応的な外れ値トークンの選択を導入します。 InfoQuant は、複数の LLM ファミリにわたって、以前の PTQ およびエンドツーエンドのトレーニング ベースラインを一貫して上回っています。 W4A4KV4 では、浮動小数点精度の平均 97% が維持され、LLaMA-2 13B のパフォーマンス ギャップが以前の最新技術と比較して 42% 削減されます。コードは [https://github.com/LLIKKE/InfoQuant](https://github.com/LLIKKE/InfoQuant) で入手できます。
原文 (English)
InfoQuant: Shaping Activation Distributions for Low-Bit LLM Quantization
Low-bit activation quantization remains a major bottleneck in efficient large language model (LLM) deployment. The difficulty is not only that activations contain outliers, but that their distributions are often poorly matched to a low-bit uniform quantizer. Existing post-training quantization (PTQ) methods suppress peaks, balance channels, or minimize reconstruction error, yet they rarely specify what activation distribution is actually easy to discretize. As a result, activations may appear numerically smoother while still incurring large quantization error because the quantization range remains wide or most values collapse into a few levels near the mean. We recast activation transformation as quantizer-facing distribution design and analyze quantization error from an information-theoretic perspective. Our analysis shows that quantization-friendly activations should jointly have a smaller numerical range and sufficient dispersion within that range. Guided by this analysis, we propose InfoQuant, a train-free method that employs Peak Suppression Orthogonal Transformation (PSOT) to shape activations into more quantization-friendly distributions. We further introduce adaptive outlier-token selection to improve the robustness of PSOT during optimization. Across multiple LLM families, InfoQuant consistently outperforms prior PTQ and end-to-end training baselines. Under W4A4KV4, it preserves 97% of floating-point accuracy on average and reduces the LLaMA-2 13B performance gap by 42% over the previous state of the art. Code is available at [https://github.com/LLIKKE/InfoQuant](https://github.com/LLIKKE/InfoQuant)
SetupX: LLM エージェントは、機能的に正しいコード リポジトリのセットアップにおける過去の失敗から学ぶことができますか?
機能的に正しいリポジトリのセットアップは、リポジトリの文書化された機能を正常に実行できるように実行環境 (依存関係、ビルド スクリプトなど) を構成することを目的としています。依存関係の非互換性、ツールチェーンの欠落、インストールの不完全、検証戦略の不一致など、リポジトリ固有のさまざまな障害により、重大な課題が発生します。既存の LLM エージェントは、これらの問題を確実に解決するのに苦労しており、具体的には、(1) リポジトリ間でのエクスペリエンスの転送、(2) 不可逆的な状態変化下での複数ステップの試行と修復、(3) セットアップに起因する障害とリポジトリのバグを区別するためのセットアップ結果の堅牢な検証をサポートできていません。これに対処するために、経験的な学習ベースのセットアップ フレームワークである SetupX を導入します。まず、自己進化エクスペリエンス表現 (XPU) を構築します。これは、検証済みの環境修正を目に見えないリポジトリに動的に転送するためのセットアップ信号、テキスト ガイダンス、実行可能なアクションをエンコードするデュアルモダリティの知識単位です。 2 番目に、LIFO Docker スナップショット スタックを活用したエクスペリエンス拡張投機的実行を採用し、エージェントがプロアクティブに修正を試し、既知の正常な状態に安全にロールバックできるようにします。第三に、証拠収集と最終判決を分離する検察官と裁判官の検証プロトコルを導入し、表面的な構築時間の指標を超えて、より信頼性の高い設定検証を可能にします。慎重に作成されたベンチマークの評価結果では、SetupX が最高のパフォーマンス (例: 92% の合格率) を達成し、最も強力なベースラインを 19% 以上上回るパフォーマンスを示しています。重要なのは、SetupX が、異なるコンテナ間で相互接続された複数のサービスの調整を必要とする複雑なマルチリポジトリのセットアップに優れていることです。コード リポジトリは https://github.com/OpenDataBox/SetupX で入手できます。
原文 (English)
SetupX: Can LLM Agents Learn from Past Failures in Functionality-Correct Code Repository Setup?
Functionality-correct repository setup aims to configure execution environments (e.g., dependencies, build scripts) to successfully execute a repository's documented features. It presents significant challenges due to diverse, repository-specific failures, including dependency incompatibilities, missing toolchains, incomplete installations, and verification-strategy mismatches. Existing LLM agents struggle to robustly resolve these issues, specifically failing to support (1) cross-repository experience transfer, (2) multi-step trial-and-repair under non-invertible state changes, and (3) robust verification of setup outcomes to distinguish setup-induced failures from repository bugs. To address this, we introduce SetupX, an experiential learning-based setup framework. First, we construct a Self-Evolving Experience Representation (XPU), a dual-modality knowledge unit encoding setup signals, textual guidance, executable actions to dynamically transfer verified environment fixes to unseen repositories. Second, we employ Experience-Augmented Speculative Execution backed by a LIFO Docker snapshot stack, enabling the agent to proactively trial fixes and safely roll back to known-good states. Third, we introduce a Prosecutor-Judge Verification Protocol that separates evidence collection from final judgment, enabling more reliable setup verification beyond superficial build-time metrics. Evaluation results on carefully-crafted benchmarks show SetupX achieves highest performance (e.g., 92% pass rate) and outperforms the strongest baseline by over 19%. Crucially, SetupX excels in complex multi-repository setup requiring coordinating multiple interconnected services across different containers. The code repository is available at https://github.com/OpenDataBox/SetupX.
ほぼロスレス HiF8 W8A8 量子化対応トレーニングの最大ウィンドウ スケール推定
低ビット浮動小数点形式を使用した量子化対応トレーニング (QAT) により、効率的な LLM 導入が可能になりますが、標準のトレーニング メトリクスでは認識できない微妙な障害モードが導入されます。我々は、Delayed Tensor Scaling (DTS) のレンズを通した OpenPangu-Embedded-1B の HiF8 W8A8 QAT の体系的な研究を紹介します。 8 つの制御された実験にわたって、我々は 2 つの直交する故障モードを特定し、解きほぐしました。(i) amax 飽和では、遅延スケール推定がフォワードパス クリッピングによって知識に敏感な表現を静かに破壊します。(ii) 壊滅的な忘却では、量子化とは関係なく、積極的な学習率が事前学習された常識的な知識を上書きします。どちらもトレーニングロスだけでは検出できません。 64 ステップの履歴ウィンドウにわたる保守的な最大アルゴリズム DTS 戦略で amax 飽和に対処し、500 ステップの BF16 ウォームアップとそれに続く lr=10^{-5} での QAT によって忘却を軽減します。どちらの修正も必要かつ十分です。最終構成では、一致する BF16 ベースラインと比較して、0.43% MMLU ドロップ、0.58% HellaSwag ドロップ、および 0.22% ARC-Challenge ドロップを達成し、10,000 ステップにわたるトレーニング損失 APE はわずか 0.11% でした。
原文 (English)
Max-Window Scale Estimation for Near-Lossless HiF8 W8A8 Quantization-Aware Training
Quantization-aware training (QAT) with low-bit floating-point formats enables efficient LLM deployment, yet introduces subtle failure modes invisible to standard training metrics. We present a systematic study of HiF8 W8A8 QAT for OpenPangu-Embedded-1B through the lens of Delayed Tensor Scaling (DTS). Across eight controlled experiments, we identify and disentangle two orthogonal failure modes: (i)amax saturation, where delayed scale estimates silently corrupt knowledge-sensitive representations via forward-pass clipping, and (ii)catastrophic forgetting, where an aggressive learning rate overwrites pretrained commonsense knowledge independently of quantization. Neither is detectable from training loss alone. We address amax saturation with a conservative max-algorithm DTS strategy over a 64-step history window, and mitigate forgetting via a 500-step BF16 warmup followed by QAT at lr=10^{-5}. Both fixes are necessary and sufficient: our final configuration achieves 0.43% MMLU drop, 0.58% HellaSwag drop, and 0.22% ARC-Challenge drop versus a matched BF16 baseline, with a training loss APE of only 0.11% over 10,000 steps.
CyberEvolver: サイバーセキュリティ エージェントのオンザフライのための構造化された自己進化
LLM ベースのエージェントはサイバーセキュリティタスクに使用されることが増えていますが、既存のシステムのほとんどは人間が設計した固定足場に依存しており、多様なターゲットや障害モードに適応するのに苦労しています。 \textsc{CyberEvolver} は、失敗した実行試行の経験に基づいて独自の足場を繰り返し修正する、自己進化するサイバーセキュリティ エージェント フレームワークです。サイバーセキュリティにおける自己進化は、可能性のある足場変更の空間がほとんど構造化されておらず、実行フィードバックがまばらで環境によって隠蔽されることが多く、多様性の低い更新により繰り返しの繰り返しでエラーが悪化する可能性があるため、困難です。 \textsc{CyberEvolver} は、足場の最適化を構造化コンポーネントに分解する 4 層の進化可能なエージェント アーキテクチャ、ノイズの多い実行ログを実用的なリビジョン信号に変換するトレースから診断のメカニズム、および進化中に多様なエージェントのバリアントを保存する母集団ベースのビーム検索戦略でこれらの課題に対処します。私たちは、4 つのオープンソース LLM を使用して、CTF の課題、脆弱性の悪用、侵入テストのタスクに関して \textsc{CyberEvolver} を評価します。これらの設定全体で、\textsc{CyberEvolver} はシード エージェントの成功率を平均 $13.6$\,\% 向上させ、人間が設計した 6 つのサイバーセキュリティ エージェントや、他のドメインから採用された 2 つの自己改善手法を上回ります。これらの結果は、スキャフォールドの自己進化が、セキュリティ テスト用の適応 LLM エージェントを構築するための有望な方向性であることを示唆しています。
原文 (English)
CyberEvolver: Structured Self-Evolution for Cybersecurity Agents On the Fly
LLM-based agents are increasingly used for cybersecurity tasks, but most existing systems rely on fixed, human-designed scaffolds that struggle to adapt across diverse targets and failure modes. We introduce \textsc{CyberEvolver}, a self-evolving cybersecurity agent framework that iteratively revises its own scaffold based on experience from failed execution attempts. Self-evolution in cybersecurity is challenging because the space of possible scaffold changes is largely unstructured, execution feedback is sparse and often obscured by the environment, and low-diversity updates can cause errors to compound over repeated iterations. \textsc{CyberEvolver} addresses these challenges with a four-layer evolvable agent architecture that decomposes scaffold optimization into structured components, a trace-to-diagnosis mechanism that converts noisy execution logs into actionable revision signals, and a population-based beam search strategy that preserves diverse agent variants during evolution. We evaluate \textsc{CyberEvolver} on CTF challenges, vulnerability exploitation, and penetration-testing tasks using four open-source LLMs. Across these settings, \textsc{CyberEvolver} improves the seed agent's success rate by $13.6$\,\% on average, and outperforms six human-designed cybersecurity agents as well as two self-improvement methods adapted from other domains. These results suggest that scaffold self-evolution is a promising direction for building adaptive LLM agents for security testing.
Erased but Exploitable: Black-box Embedding-Aware Prompting Against Unlearned Text-to-Image Diffusion Models
Machine unlearning aims to remove specific concepts from pretrained text-to-image diffusion models, yet several white- and black-box attack…
Why LLMs Hallucinate on Structured Knowledge: A Mechanistic Analysis of Reasoning over Linearized Representations
In many reasoning tasks, large language models (LLMs) rely on structured external knowledge, such as graphs and tables, which is typically…
VisualNeedle: Benchmarking Active Visual Search in Information-Dense Scenes
Frontier multimodal large language models (MLLMs) have been reported to achieve over 90% accuracy on fine-grained perception benchmarks. Ho…
Annotator Positionality as Signal: Psychometric Weighting for Anti-Autistic Ableism Detection
Large language models (LLMs) are increasingly used in decision-making tasks where they can amplify or suppress perspectives, raising concer…
Elias in the Lighthouse, Again? Diagnosing Low Diversity in LLM Stories
LLM-generated stories are a popular use case, but they show very low variability. We sample 20,000 total stories from four current models u…
Dense2MoE: Pushing the Pareto Frontier of On-Device LLMs via Unified Pruning and Upcycling
The Mixture of Experts MoE architecture is highly promising for resource constrained on device deployments yet training these models from s…
Cordyceps: Covert Control Attacks on LLMs via Data Poisoning
Large language models (LLMs) are often fine-tuned on uncurated text datasets that adversaries can poison. Existing poisoning attacks primar…
DynFrame: Adaptive Reasoning-Driven Multimodal Framework with Dynamic Frame Augmentation for Complex Video Understanding
Recent video multimodal large language models (MLLMs) increasingly couple step-by-step reasoning with on-demand visual evidence retrieval,…
Beyond Trajectory-Level Attribution: Graph-Based Credit Assignment for Agentic Reinforcement Learning
Group-based reinforcement learning (RL) methods have achieved remarkable success in improving the performance of large language models (LLM…
L2Rec: Towards Dual-View Understanding of LLMs for Personalized Recommendation
Adapting large language models (LLMs) for personalized recommendation requires aligning their general-purpose capabilities with user-specif…
EmoDistill: Offline Emotion Skill Distillation for Language Model Agents in Adversarial Negotiation
Post-trained LLMs are often optimized to align responses with human preferences, making them safe, polite, and conversationally appropriate…
SeDT: Sentence-Transformer Decision-Transformer Conditioning for Multi-Turn Conversation Reliability
Large language models (LLMs) achieve impressive performance when a task is fully specified in a single turn, yet the same models lose up to…
HTMLCure: Turning Browser Experience into State Guided Repair for Interactive HTML
LLMs can now produce full HTML pages, but many of those pages are only superficially correct: they render once, then fail under scroll, hov…
Innovation: An Almost Characterization of Hallucination
Hallucination is a central limitation of large language models (LLMs), and substantial effort has been devoted to understanding and mitigat…
ContextGuard: Structured Self-Auditing for Context Learning in Language Models
Recent benchmarks reveal that despite strong reasoning capabilities, large language models (LLMs) still struggle to faithfully apply comple…
The Strongest Teacher Is Not Always the Best Teacher: Student-Centric Answer Selection
LLM training increasingly relies on teacher-generated supervision, from synthetic responses to reasoning traces and tool-use demonstrations…
Knowledge Graphs as the Missing Data Layer for LLM-Based Industrial Asset Operations
LLM-based agents for industrial asset operations show limited accuracy when reasoning over flat document stores. AssetOpsBench (KDD 2026) e…
GeoFaith: A Spatio-Temporal Dual View of Faithful Chain-of-Thought
Chain-of-Thought (CoT) reasoning has advanced large language models (LLMs), but outcome-based supervision leads to pervasive post-hoc ratio…
Negligible in Size, Significant in Effect: On Scale Vectors in Large Language Models
Normalization layers in modern large language models (LLMs) consist of a deterministic normalization operation and a learnable scale vector…
Strategies for Guiding LLMs to Use Software Design Patterns: A Case of Singleton
Large Language Models (LLMs) can generate functional source code from natural-language prompts, but often fail to consistently follow highe…
Beyond Questions: Evaluating What Large Language Models (Actually) Know
Parametric knowledge in large language models (LLMs) is a cornerstone of their success, yet remains poorly understood. Existing knowledge b…
JuICE: A Benchmark for Evaluating LLM-Judge in Identifying Cultural Errors
As large language models (LLMs) are increasingly deployed to users around the world, they are integrated into everyday tasks across diverse…
Timestep-Aware SVDQuant-GPTQ for W4A4 Quantization of Wan2.2-I2V
W4A4 quantization of large video diffusion Transformers offers substantial memory savings but is hindered by two main challenges: sparse la…
ReasonOps: A Unified Operational Paradigm for Trustworthy Verified LLM Reasoning
Large Language Models (LLMs) have transformed artificial intelligence from primarily generative systems into increasingly capable reasoning…
Evaluating the Relevance of Uncertainty Estimators for LLM Hallucination
Large language models (LLMs) are prone to hallucinations, i.e., statements unsupported by the input or training data, hindering reliable de…
Tracing Computation Density in LLMs
Transformer-based large language models (LLMs) are comprised of billions of parameters arranged in deep and wide computational graphs, but…
ReMoE: Boosting Expert Reuse through Router Fine-Tuning in Memory-Constrained MoE LLM Inference
Fine-grained Mixture-of-Experts (MoE) models sparsely activate only a subset of experts per token, reducing activated computation while mai…
LitSeg: Narrative-Aware Document Segmentation for Literary RAG
Retrieval-Augmented Generation (RAG) enhances Large Language Models (LLMs) by incorporating external knowledge, particularly for long-tail…
Generative Animations: A Multi-Model Pipeline for Prompt-Driven Motion Synthesis
Animation elevates digital documents into immersive experiences, yet creating custom motion paths remains cumbersome, requiring designers t…
Qiskit QuantumKatas: Adapting Microsoft's Quantum Computing exercises for LLM evaluation
We adapt Microsoft's QuantumKatas -- a well-established quantum computing curriculum -- from Q# to Qiskit, the most widely-adopted quantum…
Pair-In, Pair-Out: Latent Multi-Token Prediction for Efficient LLMs
Long chain-of-thought reasoning has made autoregressive decoding the dominant inference cost of modern large language models. Existing meth…
Lost in Sampling: Assessing Lexical Reachability in LLMs via the Word Coverage Score (WCS)
Modern Large Language Models (LLMs) are often criticized for producing repetitive and homogeneous text, despite possessing vast latent voca…
It's Not Always Sycophancy: Measuring LLM Conformity as a Function of Epistemic Uncertainty
Large language models (LLMs) are known to abandon their initial stance to conform to user pushback. While prior research largely attributes…
Guiding LLM Post-training Data Engineering with Model Internals from Sparse Autoencoders
Model internals encode rich information about how a large language model (LLM) processes its training data; however, post-training data eng…
LiPUP-MA: A Residential Experience-centric Multi-Agent Framework for Living-in-the-loop Participatory Urban Planning
Participatory Urban Planning (PUP) is increasingly supported by LLM-based agents, yet existing methods largely rely on static preference el…
Think Twice Before You Act: Enhancing Agent Behavioral Safety with Thought Correction
LLM-based agents solve complex tasks through iterative reasoning, tool use, and environment interaction, where each intermediate thought di…
How Chain-of-Thought Works? Tracing Information Flow from Decoding, Projection, and Activation
Chain-of-Thought (CoT) prompting significantly enhances model reasoning, yet its internal mechanisms remain poorly understood. We analyze C…
EvoEmo: Towards Evolved Emotional Policies for Adversarial LLM Agents in Multi-Turn Price Negotiation
Recent research on Chain-of-Thought (CoT) reasoning in Large Language Models (LLMs) has demonstrated that agents can engage in \textit{comp…
Plan Then Action:High-Level Planning Guidance Reinforcement Learning for LLM Reasoning
Large language models (LLMs) demonstrate strong reasoning abilities via Chain-of-Thought (CoT), but their token-level generation encourages…
XGrammar-2: Efficient Dynamic Structured Generation Engine for Agentic LLMs
Modern LLM agents increasingly rely on dynamic structured generation, such as tool calling and response protocols. Unlike traditional struc…
TowerMind: A Tower Defence Game Learning Environment and Benchmark for LLM as Agents
Recent breakthroughs in Large Language Models (LLMs) have positioned them as a promising paradigm for agents, with long-term planning and d…
Chain Of Thought Compression: A Theoretical Analysis
Chain-of-Thought (CoT) has unlocked advanced reasoning abilities of Large Language Models (LLMs) with intermediate steps, yet incurs prohib…
Learning Decentralized LLM Collaboration with Multi-Agent Actor Critic
Recent work has explored optimizing LLM collaboration through Multi-Agent Reinforcement Learning (MARL). However, most MARL fine-tuning app…
UCPO: Uncertainty-Aware Policy Optimization
The key to building trustworthy large language models (LLMs) lies in endowing them with inherent uncertainty expression capabilities, there…
The Necessity of a Unified Framework for LLM-Based Agent Evaluation
With the advent of Large Language Models (LLMs), general-purpose agents have seen fundamental advancements. However, evaluating these agent…
DIANOIA: Diagnostic Decomposition and Joint Optimization for Multi-Agent Reasoning
Multi-agent LLM systems consistently outperform single-agent baselines, yet practitioners still cannot predict which design works for a new…
Understanding Reasoning in LLMs through Strategic Information Allocation under Uncertainty
LLMs often exhibit Aha moments such as self-correction after tokens like "Wait," yet the underlying mechanism remains unclear. Standard LLM…
Counterfactual Credit Policy Optimization for Multi-Agent Collaboration
Collaborative multi-agent large language models (LLMs) can solve complex reasoning tasks by decomposing roles, but reinforcement learning f…
ReVEL: Multi-Turn Reflective LLM-Guided Heuristic Evolution via Structured Performance Feedback
Designing effective heuristics for NP-hard combinatorial optimization problems remains challenging and often requires substantial domain ex…
Stability Implies Redundancy: Delta Attention Selective Halting for Efficient Long-Context Prefilling
Prefilling computational costs pose a significant bottleneck for Large Language Models (LLMs) and Large Multimodal Models (LMMs) in long-co…
Beyond Fixed Benchmarks and Worst-Case Attacks: Dynamic Boundary Evaluation for Language Models
Evaluating large language models (LLMs) today rests on fixed benchmarks that apply the same set of items to any model, producing ceiling an…
AgentAtlas: Beyond Outcome Leaderboards for LLM Agents
Large language model agents now act on codebases, browsers, operating systems, calendars, files, and tool ecosystems, but their evaluations…
Declarative Data Services: Structured Agentic Discovery for Composing Data Systems
Agentic discovery has shown that LLM-driven search can find novel algorithms, designs, and code under benchmark conditions. Translating the…
本番環境の LLM 推論ベンチマークにおける体系的な測定バイアスの特定と軽減
大規模言語モデル (LLM) が研究環境から運用環境へ移行するにつれて、厳格なサービス レベル目標 (SLO) に照らしてそのパフォーマンスを評価することが重要になってきています。しかし、現在の評価方法では、規模が大きくなると測定に大きな偏りが生じます。広く使用されているベンチマーク ユーティリティは、単一プロセスの非同期駆動アーキテクチャに依存しており、同時実行性が高い場合には基本的なクライアント側キューのボトルネックが発生することを示します。ベンチマーク クライアントを $M/G/1$ キューとしてモデル化することで、Python グローバル インタープリター ロック (GIL) がリクエスト レートのスケールに応じて最初のトークンまでの時間 (TTFT) と出力トークンごとの時間 (TPOT) メトリクスをどのように人為的に増大させるかを数学的に示します。この体系的な不正確さを解決するために、クライアント側の負荷を効果的に分散し、無視できるキューイング オーバーヘッドを保証する、公平なマルチプロセス評価フレームワークを提案します。さらに、シーケンス長全体にわたるプレフィルおよびスケジューリング遅延を含む、エンドツーエンドのレイテンシを堅牢に償却するために、複合メトリクスである Normalized Time Per Output Token (NTPOT) を形式化します。私たちの経験的評価は、この方法論が純粋なサービング エンジンのパフォーマンスを分離することに成功し、1 秒あたり数千のクエリを超える運用規模で LLM の正確で再現可能なプロファイリングを可能にすることを示しています。
原文 (English)
Identifying and Mitigating Systemic Measurement Bias in Production LLM Inference Benchmarks
As Large Language Models (LLMs) transition from research environments to production deployments, evaluating their performance against strict Service Level Objectives (SLOs) has become critical. However, current evaluation methodologies suffer from severe measurement bias at scale. We demonstrate that widely used benchmarking utilities rely on single-process, asyncio-driven architectures that introduce fundamental client-side queuing bottlenecks under high concurrency. By modeling the benchmarking client as an $M/G/1$ queue, we mathematically demonstrate how the Python Global Interpreter Lock (GIL) artificially inflates Time to First Token (TTFT) and Time Per Output Token (TPOT) metrics as request rates scale. To resolve this systematic inaccuracy, we propose an unbiased, multi-process evaluation framework that effectively distributes client-side load, ensuring negligible queuing overhead. Furthermore, we formalize a composite metric, Normalized Time Per Output Token (NTPOT), to robustly amortize end-to-end latency, including prefill and scheduling delays across sequence lengths. Our empirical evaluation demonstrates that this methodology successfully isolates pure serving engine performance, enabling accurate, reproducible profiling of LLMs at production scales exceeding thousands of queries per second.
最終的な答えを超えて: マルチエージェント産業ワークフローにおける軌跡レベルの幻覚の監査
大規模言語モデル (LLM) は、推論し、ツールを使用し、複数のステップにわたって動作する自律エージェントとして導入されることが増えています。しかし、ほとんどの幻覚ベンチマークは依然として最終出力のみを評価し、中間の思考、行動、観察のステップに起因する失敗を見逃しています。マルチエージェント産業ワークフローにおける軌跡レベルの幻覚を監査するためのデータセットおよび評価フレームワークである Trajel を紹介します。 Trajel は、AssetOpsBench からの専門家による注釈付きエージェント トレースに対して、5 つのタイプの幻覚分類法 (事実、参照、論理、手順、範囲ベース) を導入します。教師あり検出モデルをサブタスク、軌跡、およびロングコンテキストのレベルでベンチマークします。私たちの結果は、最も一般的な故障モードが既存のベンチマークでは見逃されていること、幻覚軌跡のほぼ半数に一度に複数のタイプが関与していること、および高いバイナリ精度を備えた自動検出器が依然として最も微妙なタイプを誤分類していることを示しています。軌跡を意識した検出は、標準的な事後検証よりも大幅に優れているため、より安全なエージェント展開には分類に基づいた評価が必要になります。
原文 (English)
Beyond Final Answers: Auditing Trajectory-Level Hallucinations in Multi-Agent Industrial Workflows
Large Language Models (LLMs) are increasingly deployed as autonomous agents that reason, use tools, and act over multiple steps. Yet most hallucination benchmarks still evaluate only the final output, missing failures that originate in intermediate Thought-Action-Observation steps. We present Trajel, a dataset and evaluation framework for auditing trajectory-level hallucinations in multi-agent industrial workflows. Trajel introduces a five-type hallucination taxonomy (factual, referential, logical, procedural, and scope-based) over expert-annotated agent traces from AssetOpsBench. We benchmark supervised detection models at the subtask, trajectory, and long-context levels. Our results show that the most common failure modes are missed by existing benchmarks, that nearly half of hallucinated trajectories involve multiple types at once, and that automated detectors with high binary accuracy still misclassify the subtlest types. Trajectory-aware detection significantly outperforms standard post-hoc verification, making taxonomy-grounded evaluation necessary for safer agentic deployment.
合成特許データが役立つのはどのような場合ですか?低リソースのマルチラベル分類におけるボリューム忠実度のトレードオフ
私たちは、LLM で生成された合成データが、低リソースのマルチラベル特許分類に役立つ場合を研究し、真の合成価値を、大規模な拡張セットが量だけで勝てるという混乱から分離します。 6 つのオープンソース LLM (3.8-12B)、4 つの実データ レジーム、64 の WIPO 支援技術ラベル、2 世代戦略、および 3 つの分類子ファミリーにわたって、見出しの BERT for Patents のマイクロ F1 が 0.120 から 0.702 に上昇したのは、主に数量によるものです。 165 件の特許を拡張サイズにリサンプリングする複製と一致の実際のみのコントロールは 0.678 に達します。制御された合成ゲインは、この制御に対してわずか +0.024 ですが、焦点損失再重み付けに対しては +0.219 であり、最も強力な非増強ベースラインです。主な発見は、忠実度メトリクスの意味がスケールに応じて変化することです。極度の希少性では、MMD は分類ゲインと正の相関関係があります (r=+0.95) が、1:10 では関係が反転します (r=-0.73; Fisher z=+6.47、p<0.001)。固定予算のミキシングでは、20 ~ 30% が実際の最適値、70 ~ 80% が総合的な最適値になります。言い換えると、165 個のドキュメント シードからはスケーリングが崩れます。シャッフルミキシングビートカリキュラムの順序付け、アンサンブル、分類子ベースのフィルタリング。漏洩制御 (ラベル名のマスキング、命令レベルのラベルの削除、きめ細かい評価、およびキーワードの重複監査) は、特許のための BERT の主な推進要因としてのラベル文字列の依存性に反対しています。ラベルの削除による明らかな ModernBERT の崩壊は、Flash-Attendant-2 + bf16 の数値アーティファクトに遡り、fp32 熱心なアテンションで失われたパフォーマンスの 65% を回復します。最後に、生のマイクロ F1 を最大 +0.58 増加させて分類を改善する同じコーパスは、Jaccard ラベルの重複検索プロキシに悪影響を及ぼします。標準特許のみのフィルターでも、26% の nDCG@10 ドロップが残ります。したがって、合成特許テキストはタスクおよび測定基準に固有であり、プロンプトジャンルのみに還元することはできません。
原文 (English)
When Does Synthetic Patent Data Help? Volume-Fidelity Trade-offs in Low-Resource Multi-Label Classification
The issues that must be considered regarding the utilization of synthetic data generated through LLMs for multilabel patent classification include (i) when the use of such data may help and (ii) why. Indeed, the former part appropriately adjusts for the possibility of improving results by an increase in sample size. The current experiment involves six open-source LLMs (from 3.8B to 12B parameters) for four real-data regimes in classification of 64 WIPO labels of assistive technologies. Both full-synthesis generation, conditioned on the label set, and paraphrasing methods are applied, with each used in combination with three classifier categories. It is shown that the claimed improvements in micro F1 for BERT-for-Patents from 0.120 to 0.702 mainly reflect a volume effect; indeed, replication with replacement in 165 examples produces 0.678. Thus, the improvement over the control is +0.024, while compared to the best baseline (focal loss reweighting) is +0.219. The second crucial point to consider here is that of evolving fidelity scores as the data generation regime varies. For low real-data regimes, the volume effect dominates and the correlation coefficient between maximum mean discrepancy (MMD) and classification performance equals r = +0.95. As more real data is used, the correlation becomes inverted and reaches r = -0.73 at the 1:10 regime (Fisher z = +6.47, p < 0.001, 95% CI on Delta r [ +0.96, +1.00 ]). In terms of a fixed budget allocation, combining real data (about 20-30%) with synthetic (70-80%) outperforms both purely synthetic and purely real strategies. Moreover, a corpus that allows for improvement in classification performance up to +0.58 in raw micro F1 may adversely affect a Jaccard-overlap retrieval proxy. Prompt-family variations for other genres may provide some explanation of the phenomenon, but using the standard-patent filter still decreases nDCG@10 by 26%.
GlobalDentBench: 専門家による校正を使用して歯科における LLM 臨床推論を評価するための多国籍ベンチマーク
大規模言語モデル (LLM) は医学に変革をもたらす可能性を秘めていますが、実際の臨床シナリオにおけるその推論の堅牢性と安全性は、特に歯科分野では依然として十分に解明されていません。ここでは、初の多国籍歯科ベンチマークである GlobalDentBench を紹介します。これは、6 大陸にわたる 88 の国と地域の 14 の歯科専門分野を網羅する分類法を特徴としています。このベンチマークは、専門家によって検証された 3 つの形式 (多肢選択式、短答式、事例ベースの質問) にわたる 8,978 件の質問で構成され、知識想起 (L1)、日常的な推論 (L2)、および個別の推論 (L3) という 3 つの進歩的な推論レベルを評価します。データの品質を確保するために、自動構築フレームワークは 6 人の上級歯科医師によって調整され、多肢選択式および短答式の質問については 99.98%、より複雑な症例ベースの質問については 96.78% の専門家同意率を達成しました。 GlobalDentBench で 12 個のフロンティア LLM を評価したところ、推論の複雑さが増大するにつれて、急激な段階的なパフォーマンスの低下が明らかになりました。具体的には、正解率は多肢選択式の 81.34% から短答式の 64.53%、事例ベースの質問では 22.34% に急落し、L1 の 74.01% から L2 の 55.64%、L3 の 35.71% と著しく低下しました。さらに重要なことは、実際の歯科症例のリスク分析により、LLM が生成した臨床推奨事項における全体的な危険率が 31.01% という驚くべき割合であることが示され、そのうち 4.51% は患者に取り返しのつかない害を及ぼすリスクと、特に歯科矯正などの専門分野で顕著なリスクをもたらしていることが示されました。これらの発見は、現在のLLMの医学的推論と安全性における根本的な限界を明らかにしています。その結果、GlobalDentBench は信頼できる臨床 AI 評価のためのスケーラブルな基盤を提供し、これらのモデルを医療分野に安全に導入する前に厳格な検証が緊急に必要であることを強調しています。
原文 (English)
GlobalDentBench: A Multinational Benchmark for Evaluating LLM Clinical Reasoning in Dentistry with Expert Calibration
While large language models (LLMs) hold transformative potential for medicine, their reasoning robustness and safety in real-world clinical scenarios remain critically underexplored, particularly in dentistry. Here we introduce GlobalDentBench, the first multinational dental benchmark, featuring a taxonomy that encompasses 14 dental specialties across 88 countries and regions spanning six continents. The benchmark comprises 8,978 expert-validated questions across three formats (multiple-choice, short-answer, and case-based questions) and assesses three progressive reasoning levels: knowledge recall (L1), routine reasoning (L2), and individualized reasoning (L3). To ensure data quality, the automated construction framework was calibrated by six senior dentists, achieving expert agreement rates of 99.98% for multiple-choice and short-answer questions and 96.78% for the more complex case-based questions. Evaluation of 12 frontier LLMs on GlobalDentBench revealed a sharp, stepwise performance degradation with increasing reasoning complexity. Specifically, accuracy plummeted from 81.34% on multiple-choice to 64.53% on short-answer and 22.34% on case-based questions, while declining markedly from 74.01% at L1 to 55.64% at L2 and 35.71% at L3. More critically, risk analysis of real-world dental cases demonstrated an alarming overall unsafe rate of 31.01% in LLM-generated clinical recommendations, with 4.51% posing risks of irreversible patient harm and risks particularly pronounced in specialties such as orthodontics. These findings expose fundamental limitations in the medical reasoning and safety of current LLMs. Consequently, GlobalDentBench provides a scalable foundation for trustworthy clinical AI evaluation, underscoring the urgent need for rigorous validation before the safe deployment of these models in healthcare.
FrontierOR: 大規模な最適化における効率的なアルゴリズム設計のための LLM の能力のベンチマーク
大規模言語モデル (LLM) は、最適化モデリングやソルバー コード生成にますます使用されていますが、実際のオペレーション リサーチや最適化の問題では、問題の構造を活用し、直接定式化して解決するベースラインを上回るパフォーマンスを発揮するスケーラブルなアルゴリズムを設計するという、より困難な機能が必要になることがよくあります。既存のベンチマークは、現実世界の規模や複雑さをはるかに下回る、小規模または単純化された例に限定されています。現実的な大規模な最適化問題に対する LLM ベースの効率的なアルゴリズム設計を体系的に評価する最初のベンチマークの 1 つとして、FrontierOR を紹介します。 FrontierOR には、一流のオペレーション リサーチ会場で発行された方法論的に多様な論文から派生した 180 のタスクが含まれており、それぞれのタスクには標準化されたインスタンスと、専門家によって検証された隠れた評価スイートが含まれています。私たちは、最先端のコスト効率の高いオープンソース モデルにわたる 7 つの LLM を、ワンショットおよびテスト時の進化設定の両方で評価します。その結果、フロンティア モデルが実行可能な定式化から効率的な最適化アルゴリズムに移行するのに依然として苦労していることが明らかになりました。最強のワンショット モデルがソリューションの品質と計算効率の両方で Gurobi を上回るパフォーマンスを示したのはわずか 31% であり、テスト時の進化を伴う強力なコーディング エージェントでさえ、選択されたハード タスクでは 50% しか達成できませんでした。 FrontierOR は、LLM ベースの最適化アルゴリズム設計のための実用的な評価プラットフォームを確立します。これにより、将来の LLM とエージェントが、正しい定式化を超えて、実行可能で高品質で効率的なアルゴリズムに移行できるかどうかを系統的にテストできるようになります。 FrontierOR ベンチマークは https://anonymous.4open.science/r/efficient-opt-bench-F03D で入手できます。
原文 (English)
FrontierOR: Benchmarking LLMs' Capacity for Efficient Algorithm Design in Large-Scale Optimization
Large language models (LLMs) are increasingly used for optimization modeling and solver-code generation, yet practical operations research and optimization problems often require a harder capability: designing scalable algorithms that exploit problem structure and outperform direct formulation-and-solve baselines. Existing benchmarks are limited to small or simplified examples far below real-world scale and complexity. We introduce FrontierOR, among the first benchmarks to systematically evaluate LLM-based efficient algorithm design for realistic large-scale optimization problems. FrontierOR includes 180 tasks derived from methodologically diverse papers published in top-tier operations research venues, each with standardized instances and a hidden, expert-verified evaluation suite. We evaluate seven LLMs spanning frontier, cost-effective, and open-source models both in one-shot and test-time evolution settings. The results reveal that frontier models still struggle to move from executable formulations to efficient optimization algorithms: the strongest one-shot model outperforms Gurobi in only 31% of cases in both solution quality and computational efficiency, and even strong coding agents with test-time evolution achieve only 50% on selected hard tasks. FrontierOR establishes a practical evaluation platform for LLM-based optimization algorithm design, which enables future LLMs and agents to be systematically tested on whether they can move beyond correct formulation toward a feasible, high-quality, and efficient algorithm.
AI 制御におけるリトライとリサンプリング
Claude Code や Codex のような AI コーディング スキャフォールドは \textit{retrying} を使用します。つまり、危険であるとフラグが立てられたアクションをブロックし、軌道を継続します。私たちは、モデルを潜在的に敵対的なものとして扱う AI 制御の観点から再試行を研究します。再試行により正直な疑いのスコアが低下する一方で、信頼されていないモデルはモニターの理論的根拠を悪用してより卑劣な攻撃を構築し、安全性の向上を打ち消す可能性があることがわかりました。また、\textit{resampling}: 同じコンテキストから複数のサンプルを抽出することも研究します。これにより、悪用可能な情報が漏洩することはありません。リサンプリングに関するこれまでの作業で束ねられていた設計の選択肢を解きほぐします。 BashArena では、Claude Opus 4.6 を信頼できないモデルとして、MiMo-V2-Flash を信頼できるモニターとして使用し、ステップごとに 5 つのサンプルを抽出し、最大疑惑スコアに基づいて監査することで、有用性を犠牲にすることなく、0.3\% の監査予算で安全性が 61\% から 71\% に向上します。最初の描画で疑わしいと思われるステップのみを選択的にリサンプリングすると、6.2 パーセント ポイントのゲインが回復しますが、余分なサンプルは 10\% しか描画されません。この設定における我々の発見のうち 2 つは、リサンプリングに関する以前の研究と矛盾します。 1 つ目は、リサンプリングされた疑惑スコア全体の最大値に基づいた監査の方が、最小値を使用した場合よりも優れたパフォーマンスを発揮することです。これは、Ctrl-Z が検出したものとは逆です。 2 つ目は、初期の再サンプル遅延プロトコルの中心的なメカニズムである最も疑わしいサンプルの実行では、今回の設定では経験的に安全性がわずかしか得られないということです (+3.9 pp、信頼区間がゼロと重なる場合)。
原文 (English)
Retrying vs Resampling in AI Control
AI coding scaffolds like Claude Code and Codex use retrying: blocking actions flagged as risky and continuing the trajectory. We study retrying from an AI control perspective, which treats the model as potentially adversarial. We find that while retrying reduces honest suspicion scores, the untrusted model can exploit monitor rationale to construct sneakier attacks, negating safety gains. We also study resampling: drawing multiple samples from the same context, which does not leak exploitable information. We disentangle design choices that previous work on resampling had bundled together. In BashArena, with Claude Opus 4.6 as the untrusted model and MiMo-V2-Flash as the trusted monitor, drawing five samples per step and auditing on the maximum suspicion score raises safety from 61% to 71% at a 0.3% audit budget, at no cost to usefulness. Selectively resampling only the steps that look suspicious on the first draw recovers 6.2 percentage points of the gain while drawing only 10% as many extra samples. Two of our findings in this setting contradict earlier work on resampling. The first is that auditing based on the maximum across resampled suspicion scores outperforms using the minimum, which is the opposite of what Ctrl-Z found. The second is that executing the least suspicious sample, which is the central mechanism in earlier defer-to-resample protocols, gives only a small empirical safety gain in our setting (+3.9 pp, with the confidence interval overlapping zero).
"Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization
Quantization is a powerful tool for accelerating large language model (LLM) inference, but the accuracy-performance trade-offs across diffe…
OCR-Reasoning Benchmark: Unveiling the True Capabilities of MLLMs in Complex Text-Rich Image Reasoning
Recent advancements in multimodal slow-thinking systems have demonstrated remarkable performance across various visual reasoning tasks. How…
Robustness of Prompting: Enhancing Robustness of Large Language Models Against Prompting Attacks
Large Language Models (LLMs) have demonstrated remarkable performance across various tasks by effectively utilizing a prompting strategy. H…
Adaptive Multi-prompt Contrastive Network for Few-shot Out-of-distribution Detection
Out-of-distribution (OOD) detection attempts to distinguish outlier samples to prevent models trained on the in-distribution (ID) dataset f…
PICACO: Pluralistic In-Context Value Alignment of LLMs via Total Correlation Optimization
In-Context Learning has shown great potential for aligning Large Language Models (LLMs) with human values, helping reduce harmful outputs a…
How Reliable are LLMs for Reasoning on the Re-ranking task?
With the improving semantic understanding capability of Large Language Models (LLMs), they exhibit a greater awareness and alignment with h…
When LLMs Benchmark Themselves: Deconstructing Self-Bias in Automated Evaluation
As LLMs rapidly saturate existing benchmarks, automated benchmark creation using LLMs (LLM-as-a-benchmark) -- where a model generates test…
HiSpec: Hierarchical Speculative Decoding for LLMs
Speculative decoding accelerates LLM inference by using a smaller draft model to speculate tokens that a larger target model verifies. Veri…
CreditDecoding: Accelerating Parallel Decoding in Diffusion Large Language Models with Trace Credit
Diffusion large language models (dLLMs) generate text through iterative denoising. In commonly adopted parallel decoding schemes, each step…
Self-signals Driven Multi-LLM Debate for Efficient and Accurate Reasoning
Large Language Models (LLMs) have exhibited impressive capabilities across diverse application domains. Recent work has explored Multi-LLM…
Securing Multi-Agent Systems Against Corruptions via Node Contribution Backpropagation
Multi-Agent Systems (MAS) have become a prevalent paradigm for Large Language Model (LLM) applications. However, the complex multi-agent de…
SWAP: Towards Copyright Auditing of Soft Prompts via Sequential Watermarking
Large-scale vision-language models, especially CLIP, have demonstrated remarkable performance across diverse downstream tasks. Soft prompts…
Faithfulness Evaluation for Decoder-only LLM Attributions with Controlled Retained Information
Large Language Models (LLMs) are increasingly evaluated with input attribution methods, yet comparing such explanations remains challenging…
Shadow Unlearning: A Neuro-Semantic Approach to Fidelity-Preserving Faceless Forgetting in LLMs
Machine unlearning aims to selectively remove the influence of specific training samples to satisfy privacy regulations such as the GDPR's…
The AI Cognitive Trojan Horse: How Large Language Models May Bypass Human Epistemic Vigilance
Large language model (LLM)-based conversational AI systems present a challenge to human cognition that current frameworks for understanding…
Seeing vs. Believing: Evaluating the Language Bias of Open-Source MLLMs in Counter-Intuitive Scenes
Multimodal Large Language Models (MLLMs) have demonstrated remarkable performance in mainstream visual understanding tasks, but their abili…
DSA-Tokenizer: Disentangled Semantic-Acoustic Tokenization via Flow Matching-based Hierarchical Fusion
Speech tokenizers are a key building block of fully discrete Speech LLMs. Existing tokenizers either prioritize semantic encoding, fuse sem…
MetaSICL: Adapting Audiroty LLM via Meta Speech In-Context Learning
Auditory Large Language Models (LLMs) have demonstrated strong performance across a wide range of speech and audio understanding tasks. Nev…
LLMs versus the Halting Problem: Characterizing Program Termination Reasoning
Determining whether a program terminates is a central problem in computer science. Turing's Halting Problem established termination as unde…
GraphDancer: Training LLMs to Explore and Reason over Graphs via Two-Stage Curriculum Post-Training
Large language models (LLMs) increasingly rely on external knowledge to improve factuality, yet many real-world knowledge sources are organ…
Rethinking the Trust Region in LLM Reinforcement Learning
Reinforcement learning (RL) has become a cornerstone for fine-tuning Large Language Models (LLMs), with Proximal Policy Optimization (PPO)…
Emergent Causal-Geometric Dynamics Across Depth in Large Language Models
Geometric analyses of large language model (LLM) representations reveal structured variation across depth but remain fundamentally correlat…
Scaling GraphLLM with Bilevel-Optimized Sparse Querying
LLMs have recently shown strong potential in enhancing node-level tasks on text-attributed graphs (TAGs) by providing explanation features.…
Red-Teaming Claude Opus and ChatGPT-based Security Advisors for Trusted Execution Environments
Trusted Execution Environments (TEEs) (e.g., Intel SGX and ArmTrustZone) aim to protect sensitive computation from a compromised operating…
MedCollab: IBIS-Guided Multi-Agent Collaboration with Hierarchical Disease Relation Chains for Clinical Diagnosis
Large language models (LLMs) have shown promise in clinical diagnosis but remain limited by unreliable report generation, weak evidence gro…
Stop Listening to Me! How Multi-turn Conversations Can Degrade LLM Reliability
Large language models (LLMs) excel on static benchmarks, but their performance across multi-turn conversations, which better reflect real-w…
FedTreeLoRA: Reconciling Statistical and Functional Heterogeneity in Federated LoRA Fine-Tuning
Federated Learning (FL) with Low-Rank Adaptation (LoRA) has become a standard for privacy-preserving LLM fine-tuning. However, existing per…
APEX-Searcher: Refining Credit Assignment with Subgoaling for Agentic Retrieval-Augmented Generation
Retrieval-augmented generation (RAG) connects large language models (LLMs) to external knowledge, but single-round retrieval is often insuf…
Omanic: Towards Step-wise Evaluation of Multi-hop Reasoning in Large Language Models
Evaluating the reasoning abilities of large language models (LLMs) solely from final answers can obscure failures in intermediate steps, es…
Detached Skip-Links and $R$-Probe: Decoupling Feature Aggregation from Gradient Propagation for MLLM OCR
Multimodal large language models (MLLMs) excel at high-level reasoning yet fail on OCR tasks where fine-grained visual details are compromi…
Understanding the Challenges in Iterative Generative Optimization with LLMs
Generative optimization uses large language models (LLMs) to iteratively improve artifacts (such as code, workflows or prompts) using execu…
Where Code Meets Natural Language: Taxonomy-Driven Information Flow Analysis for LLM-Integrated Applications
LLM API calls are becoming a ubiquitous program construct, yet they create a boundary that no existing program analysis can cross: runtime…
ASTRA: Adaptive Semantic Tree Reasoning Architecture for Complex Table Question Answering
Table serialization remains a critical bottleneck for Large Language Models (LLMs) in complex table question answering, hindered by challen…
Where Hindsight Credit Can Reside: A Signed-Capacity View of Token Updates in RLVR
Reinforcement Learning with Verifiable Rewards (RLVR) improves the reasoning ability of Large Language Models (LLMs), but sparse outcome re…
Committed SAE-Feature Traces for Audited-Session Substitution Detection in Hosted LLMs
Hosted-LLM providers have a silent-substitution incentive: advertise a stronger model while serving cheaper replies. Probe-after-return sch…
Reasoning Primitives in Hybrid and Non-Hybrid LLMs: Do Architectural Differences Yield Advantages in State-Tracking and Recall?
Reasoning in large language models is often discussed as a single capability, but some of its gains may stem from simpler underlying operat…
Governed Metaprogramming for Intelligent Systems: Reclassifying Eval as a Governed Effect
AI systems increasingly synthesize executable structure at runtime: LLMs generate programs, agents construct workflows,self-improving syste…
Post-training makes large language models less human-like
Large language models (LLMs) are increasingly used as surrogates for human participants, but it remains unclear which models best capture h…
From Detection to Recovery: Operational Analysis on LLM Pre-training with 504 GPUs
Large-scale AI training is now fundamentally a distributed systems problem, and hardware failures have become routine operating conditions…
MinT: Managed Infrastructure for Training and Serving Millions of LLMs
We present MindLab Toolkit (MinT), a managed infrastructure system for Low-Rank Adaptation (LoRA) post-training and online serving. MinT ta…
AMARIS: A Memory-Augmented Rubric Improvement System for Rubric-Based Reinforcement Learning
Rubric-based reward shaping provides interpretable and editable reward signals for fine-tuning LLMs via reinforcement learning (RL), but ex…
ProcCtrlBench: Evaluating Process-Level Defects and Control Preservation in LLM Coding Agents
Existing benchmarks for LLM coding agents primarily evaluate final outcomes. While useful for measuring overall capability, these metrics p…
One LR Doesn't Fit All: Heavy-Tail Guided Layerwise Learning Rates for LLMs
Learning rate configuration is a fundamental aspect of modern deep learning. The prevailing practice of applying a uniform learning rate ac…
READER: Reasoning-Enhanced AI-Generated Text Detection
Recent advances in large language models (LLMs) have made it increasingly difficult to distinguish human-written text from AI-generated con…
「AIによる権利侵害」に出版・アニメ制作会社など集う国内団体が声明 「看過できない問題」
出版社やアニメ制作会社などで構成される団体・コンテンツ海外流通促進機構(CODA)は、生成AIによる著作権侵害に関する声明を出した。AIの開発やAIサービスを提供する事業者に対し、権利の保護などを求めている。
Gemini APIが“半額”で使える「Flex」 注意点は? 「Priority」とは何が違う?
Googleは「Gemini」のAPI向けに、新たなサービスティア「Flex」と「Priority」を追加した。Flexは標準サービスティアの半額で利用できるという。両者はどう違い、どう使い分けるべきなのか。
大規模言語モデルの信頼度調整
私たちは、さまざまなタスクにわたる大規模言語モデル (LLM) の信頼度の調整を調査します。私たちの事前登録された研究の結果は、現在のLLMの集団が人々と同様に、自分が正しいと確信しすぎていることを示しています。平均して、信頼性が正確性を上回っています。しかし重要なことに、この傾向は強力な「難しい、簡単な効果」によって緩和され、難しいテストでは過信が最も大きくなります。対照的に、簡単なテストでは実際にかなりの自信が欠けていることがわかります。私たちは、さまざまな難易度にわたってモデルのキャリブレーションを評価するためのテストである LifeEval を開発しています。
原文 (English)
Confidence Calibration in Large Language Models
We investigate the calibration of large language models' (LLMs') confidence across diverse tasks. The results of our preregistered study show that the current crop of LLMs are, like people, too sure they are right: confidence exceeds accuracy, on average. Importantly, however, this tendency is moderated by a powerful hard-easy effect, wherein overconfidence is greatest on difficult tests; by contrast, easy tests actually show substantial underconfidence. We develop LifeEval, a test for evaluating model calibration across levels of difficulty.
どれだけ考えれば十分ですか? LLM 推論における冗長性の定量化と理解
推論可能な大規模な言語モデルは、長い思考連鎖を発し、レイテンシー、GPU 時間、およびエネルギーを大幅に消費して、難しい問題を解決します。その痕跡を何気なく検査すると、広範な再定式化、検証、循環的な内省が明らかになりますが、この検討が実際にどの程度必要であるかは、大規模に測定されたことも、第一原理から説明されたこともありません。この論文は両方のギャップを埋めます。私たちは推論モデル自体の観点から推論の冗長性を直接形式化します。正しいトレースの冗長性は、$\pi$ が思考を終了させて最終的な答えを出力することを強制されても正しい答えを生成する間に切り詰めることができる、後続のセグメント化されたステップの最大部分です。 4 つのフロンティア推論モデルと 2 つの数学的ベンチマークにわたる大規模な定量化により、ステップレベルの冗長性が一貫して高く、我々が調査した 8 つの (モデル、ベンチマーク) 条件全体で 61% から 93% の間であり、クリティカルプレフィックスの中央値は 8 つの条件のうち 6 つで単一のセグメント化されたステップに等しいことが示されています。この結果は、裁判官ファミリーの選択に対して堅牢であり、$\rho$ は MATH-500 の問題の難易度とともに減少しますが、4 つのモデルはすべて大幅に維持されていることがわかります。最も難しいレベル 5 の問題でも冗長 ($\rho \in [46\%, 85\%]$)。次に、この冗長性がモデル固有のアーティファクトではなく、長さに依存しない結果報酬の構造的な結果であることを証明します。そのような報酬の下では、最適な有限の予想停止時間は存在しません。結果は、RL アルゴリズム、基本モデル、データ分散、またはポリシーが RL または蒸留のどちらによって取得されたかに関係なく当てはまります。したがって、考えすぎは個々のモデルで修正すべきバグではなく、現在の推論モデルがどのようにトレーニングされるかの構造的特性です。コード: https://github.com/zhiyuanZhai20/how-much- Thinking-is-enough
原文 (English)
How Much Thinking is Enough? Quantifying and Understanding Redundancy in LLM Reasoning
Reasoning-capable large language models solve hard problems by emitting long chains of thought, paying heavily in latency, GPU time, and energy. Casual inspection of their traces reveals extensive reformulation, verification, and circular self-reflection, yet how much of this deliberation is actually necessary has never been measured at scale or explained from first principles. This paper closes both gaps. We formalise reasoning redundancy directly in terms of the reasoning model itself: the redundancy of a correct trace is the largest fraction of its trailing segmented steps that can be truncated while $\pi$, forced to terminate thinking and emit a final answer, still produces the correct answer. A large-scale quantification across four frontier reasoning models and two mathematical benchmarks shows that step-level redundancy is consistently high -- between 61% and 93% across the 8 (model, benchmark) conditions we study, with the median critical prefix equal to a single segmented step in six of the eight conditions -- that the finding is robust to the choice of judge family, and that although $\rho$ decreases with problem difficulty on MATH-500, all four models remain substantially redundant ($\rho \in [46\%, 85\%]$) even on the hardest Level-5 problems. We then prove that this redundancy is a structural consequence of length-agnostic outcome rewards, not a model-specific artefact: under any such reward, no finite expected stopping time is optimal. The result holds regardless of RL algorithm, base model, data distribution, or whether the policy is obtained via RL or distillation; over-thinking is therefore not a bug to be patched in individual models but a structural property of how current reasoning models are trained. Code: https://github.com/zhiyuanZhai20/how-much-thinking-is-enough
コンテキスト: コンポーザブルなサンドボックス プログラム、宣言的配線、構造化インタラクションによるプロアクティブな目標指向インテリジェンス
私たちは、Magarshak アーキテクチャのインテリジェンス層である Context を紹介します。これは、リアクティブなクエリ応答チャットボットを、ユーザーのプロンプトを待たずに共有タスクを進めるプロアクティブな目標指向のエージェントに置き換えます。このアーキテクチャは、相互に強化する 3 つのメカニズムに基づいています。書き込み時のコンテキスト アセンブリは、Groker エージェントを介して強化された型付き属性を事前計算し、グラフ状態の決定論的な純粋関数としてインタラクション コンテキストを組み立てます。コンテキスト ブロックはセマンティック変更間のターン間でバイト同一であるため、ほぼ 100% の KV キャッシュの再利用が可能になります。構成可能なサンドボックス知恵プログラムは、LM で生成された命令型プログラムの管理されたライブラリを形成します。これらは、型付きストリーム関係を介して目標タイプに宣言的に接続され、フェーズ順序付けを介して構成され、追加の LM 呼び出しなしで対話時に実行されます。プロアクティブなゴール ストリーム ステート マシンは、ユーザーの入力を待たずにグラフの状態を検査し、構造化されたインタラクション コンテンツ (オプション配列、ガバナンス アフォーダンス、明確化プロンプト) を出力することで、最終状態に向けて会話を推進します。我々は 6 つの正式な結果を証明します。コンテキスト安定性定理、意味変更率の関数としてのターンごとの限界 LM コスト。プログラム構成の正確性定理。宣言的配線健全性定理。プロアクティブ優勢定理。予想される最終状態への変化において、プロアクティブ エージェントがリアクティブ エージェントを弱く支配することを証明します。調整オーバーヘッドの排除と品質保持。複数参加者の目標チャットにおけるパレート改善を確立します。そしてクロスプラットフォーム投票一貫性定理。オープンソースの Qbix / Safebox / Safebots スタックに実装されています。
原文 (English)
Context: Proactive Goal-Directed Intelligence via Composable Sandboxed Programs, Declarative Wiring, and Structured Interaction
We present Context, the intelligence layer of the Magarshak Architecture, which replaces reactive query-response chatbots with proactive goal-directed agents that advance shared tasks without waiting for user prompts. The architecture rests on three mutually reinforcing mechanisms. Write-time context assembly precomputes enriched typed attributes via Groker agents, assembling interaction context as a deterministic pure function of graph state; context blocks are byte-identical across turns between semantic changes, enabling near-100% KV-cache reuse. Composable sandboxed wisdom programs form a governed library of LM-generated imperative programs declaratively wired to goal types via typed stream relations, composed via phase ordering, and executed at interaction time without further LM calls. Proactive goal stream state machines drive conversations toward terminal states by inspecting graph state and emitting structured interaction content (option arrays, governance affordances, clarification prompts) without awaiting user input. We prove six formal results: the Context Stability Theorem, bounding per-turn LM cost as a function of semantic change rate; a Program Composition Correctness Theorem; a Declarative Wiring Soundness Theorem; the Proactive Dominance Theorem, proving proactive agents weakly dominate reactive agents on expected turns-to-terminal-state; Coordination Overhead Elimination and Quality Preservation, establishing Pareto improvements in multi-participant goal chats; and a Cross-Platform Vote Consistency Theorem. Implemented in the open-source Qbix / Safebox / Safebots stack.
LLM 対応エージェント ワークフローの信頼性の高い設計に向けて: レイテンシ、信頼性、コストのトレードオフの最適化
現代の AI システムは、対話する複数のエージェントで構成されるワークフローへの依存度を高めており、一部は大規模言語モデル (LLM) を利用し、その他は従来の計算モジュールを利用しています。このペーパーでは、LLM 対応のエージェント ワークフローにおける遅延、信頼性、コストの間の基本的なトレードオフを分析します。 LLM エージェントと非 LLM エージェントの両方にパフォーマンス モデルを導入し、計算量と出力品質の関係を把握し、パラメトリック指数信頼性関数を使用して LLM エージェントの推論と出力トークンの影響を組み込みます。次に、レイテンシーとコストの制約の下での逐次ワークフローの設計を検討します。主な結果には、注水トークン割り当てポリシーと、シャドープライスの観点からの最適なワークフローの信頼性の特性評価が含まれます。
原文 (English)
Toward Reliable Design of LLM-Enabled Agentic Workflows: Optimizing Latency-Reliability-Cost Tradeoffs
Modern AI systems increasingly rely on workflows composed of multiple interacting agents, some powered by large language models (LLMs) and others by conventional computational modules. This paper analyzes the fundamental tradeoffs between latency, reliability, and cost in LLM-enabled agentic workflows. We introduce performance models for both LLM and non-LLM agents that capture the relationship between computational effort and output quality, incorporating the impact of reasoning and output tokens for LLM agents using a parametric exponential reliability function. Then, we study the design of sequential workflows under latency and cost constraints. Main results include a water-filling token allocation policy and characterizations of optimal workflow reliability in terms of shadow prices.
正しい信念が崩壊するとき: 臨床的プレッシャーの下での LLM の認識論的回復力
医療ベンチマークの精度が高いにもかかわらず、LLM は臨床対話において重度の多回にわたるお調子者を示し、圧力が高まると最初の正しい診断を放棄することがあります。私たちは、エスカレートする圧力下での信念の安定性を評価する、対象を絞ったストレス テスト フレームワークである \textbf{\textsc{Med-Stress}} を提案します。 9 つのフロンティア大規模言語モデル (LLM) にわたって、医学知識と堅牢性の間に明確な乖離があることがわかりました。高い初期診断能力は高い信念安定性を意味せず、いくつかの LLM では知識と堅牢性の大きなギャップが生じています。この障害モードを軽減するために、軽量の推論時防御である \textbf{\texttt{RBED}} (\textbf{R}ole-\textbf{B}ased \textbf{E}pistemic \textbf{D}efense) と \textbf{\texttt{R-FT}} (\textbf{R}esilience-owned \textbf{F}ine-\textbf{T}uning) 、つまりトレーニング時間の防御を提案します。圧力に対する証拠に基づく抵抗力を内面化するアプローチ。実験によれば、\textbf{\texttt{R-FT}} は信念の変化をほぼ排除し、堅牢性を大幅に向上させます。
原文 (English)
When Correct Beliefs Collapse: Epistemic Resilience of LLMs under Clinical Pressure
Despite strong medical benchmark accuracy, LLMs can exhibit severe multi-turn sycophancy in clinical dialogue, abandoning initial correct diagnosis under escalating pressure. We propose \textbf{\textsc{Med-Stress}}, a targeted stress test framework that evaluates belief stability under escalating pressure. Across nine frontier large language models (LLMs), we find a clear dissociation between medical knowledge and robustness: high initial diagnostic capability does not imply high belief stability, yielding large knowledge-robustness gaps for several LLMs. To mitigate this failure mode, we propose a lightweight inference-time defense, \textbf{\texttt{RBED}} (\textbf{R}ole-\textbf{B}ased \textbf{E}pistemic \textbf{D}efense), and \textbf{\texttt{R-FT}} (\textbf{R}esilience-oriented \textbf{F}ine-\textbf{T}uning), a training-time approach that internalizes evidence-based resistance to pressure. Experiments show that \textbf{\texttt{R-FT}} nearly eliminates belief change and substantially improves robustness.
LLM 媒介ユビキタス システムにおける権限逆転: モデルがセンサーよりもユーザーを信頼する場合
大規模言語モデル (LLM) は、ユビキタス システムで異種入力をますます融合しています。しかし、センサーの測定値とユーザーの主張が矛盾する場合に、LLM が暗黙的に権限をどのように割り当てるかは未検討のままであり、物理的なセンシングを優先する必要がある展開では信頼性に関する重大な懸念が生じます。明示的な従来の融合とは異なり、LLM は学習された表現内に権限の割り当てを埋め込みます。私たちは、この割り当てが形式に大きく依存していることを発見しました。数値センサー データが回答関連のモデルの指示に統合できず、自然言語の主張が最終決定を支配することを可能にします。この現象を \textbf{典拠逆転} と呼んでいます。これを診断して軽減するために、コンテキスト統合の幾何学的フレームワークを開発し、2 つの計算可能な監査指標、具体的にはコンテキスト統合率 (CIR) と典拠整合指数 (AAI) を導入し、幾何的典拠校正を提案します。 (GAC)、誤って配置されたユーザー権限を抑制するための推論時間レイヤーレベルの介入。合計 576 個の競合インスタンスを含む 4 つのデータセットにわたって 4 つのモデル (4B ~ 35B パラメーター、3 つのアーキテクチャ) を評価すると、極端な反転が明らかになります。数値タスクでは、モデルはモデルの能力の影響を受けず、ほぼゼロのセンサー信頼性 (AAI = -0.805、コーエンの d = -2.14) を示します。幾何学的なフレームワークを検証すると、理論に基づいた因果関係の注入により、誤った決定が 80.2\% 反転されます (ランダム コントロールの場合は <0.4\%)。実際、GAC は HAR 精度を 0 -- 1.6\% から 21.9 -- 27.5\% に向上させ、プロンプトベースラインを上回るパフォーマンスを示します。最終的に、LLM 仲介システムにおける権限割り当ては、暗黙的に残すのではなく、明示的に監査し、アプリケーション固有に構成する必要があります。
原文 (English)
Authority Inversion in LLM-Mediated Ubiquitous Systems: When Models Trust Users Over Sensors
Large language models (LLMs) increasingly fuse heterogeneous inputs in ubiquitous systems. Yet, how LLMs implicitly allocate authority when sensor measurements and user claims conflict remains unexamined, raising critical reliability concerns for deployments where physical sensing must retain priority. Unlike explicit traditional fusion, LLMs bury authority allocation within learned representations. We discover this allocation is severely format-dependent: numerical sensor data fails to integrate into answer-relevant model directions, allowing natural-language claims to dominate the final decision, a phenomenon we term \textbf{Authority Inversion}.To diagnose and mitigate this, we develop a geometric framework of context integration, introduce two computable audit metrics, specifically the Context Integration Ratio (CIR) and Authority Alignment Index (AAI), and propose Geometric Authority Calibration (GAC), an inference-time layer-level intervention to suppress misplaced user authority. Evaluating four models (4B to 35B parameters, three architectures) across four datasets totaling 576 conflict instances reveals extreme inversion: on numerical tasks, models exhibit near-zero sensor trust (AAI = -0.805, Cohen's d = -2.14), unaffected by model capacity. Validating our geometric framework, theory-guided causal injection flips 80.2\% of incorrect decisions (vs. <0.4\% for random controls). Practically, GAC improves HAR accuracy from 0 -- 1.6\% to 21.9 -- 27.5\%, outperforming prompting baselines. Ultimately, authority allocation in LLM-mediated systems must be explicitly audited and application-specifically configured rather than left implicit.
MEMOR-E: アルツハイマー病支援ロボット向けのコンテキスト内で微調整された LLM パーソナライゼーション
アルツハイマー病は、記憶力と言語の進行性の低下を特徴とする神経変性疾患であり、日常生活における自立性が低下し、社会的支援ロボットによるサポートが必要となります。この論文では、服薬リマインダー、日常的な指導、記憶指向の対話、および交際を通じて患者と介護者を支援する対話型タブレット インターフェイスを備えた移動式四足歩行ロボット MEMOR-E について紹介します。私たちは、235 人のアルツハイマー病患者からの音声転写と合成的に生成された健康な対照を使用して、段階一貫した認知行動をエミュレートし、標準的な神経心理学的言語タスク全体で反応を解釈する大規模言語モデル (LLM) の微調整の実現可能性を評価しました。また、LLM でのコンテキスト学習 (ICL) の使用に関する調査結果も報告します。この場合、2 番目の LLM がドメインおよび重大度レベルの認知エラーの概要を生成しました。私たちの結果は、MEMOR-E がパーソナライズされた支援インタラクションをサポートする、段階を認識した非診断的な認知サマリを生成できる一方、説明可能な AI メカニズムがモデルの出力を透明で人間が判読できる証拠に変換し、介護者の監視と信頼できるヒューマン ロボット インタラクションを可能にすることを示しています。
原文 (English)
MEMOR-E: In-Context and Fine-Tuned LLM Personalization for Alzheimer's Assistive Robotics
Alzheimer's disease is a neurodegenerative disorder marked by progressive declines in memory and language that reduce independence in daily life, motivating socially assistive robotic support. This paper presents MEMOR-E, a mobile quadruped robot with an interactive tablet interface that assists patients and caregivers through medication reminders, routine guidance, memory oriented interactions, and companionship. We evaluated the feasibility of fine tuning large language models (LLMs) to emulate stage consistent cognitive behavior and interpret responses across standard neuropsychological language tasks, using audio transcriptions from 235 Alzheimer's patients and synthetically generated healthy controls. We also report findings on using in context learning (ICL) in LLMs, where a second LLM produced domain and severity level cognitive error summaries. Our results show that MEMOR-E can generate stage aware, non diagnostic cognitive summaries that support personalized assistive interactions, while explainable AI mechanisms translate model outputs into transparent, human readable evidence to enable caregiver oversight and trustworthy human robot interaction.
ハーネスを開示せずに LLM エージェントを比較するのをやめる
この意見書では、同等のフロンティア機能を持つモデル間で評価される長期タスクの場合、エージェント実行ハーネス、つまり言語モデルを中心としたコンテキスト構築、ツール相互作用、オーケストレーション、検証を管理するインフラストラクチャ層が、多くの場合、ラップするモデルよりもエージェントのパフォーマンスの強力な決定要因であると主張しています。私たちは結合制約理論を形式化し、擁護します。この体制では、パフォーマンスの差異はモデルの選択よりもハーネスの構成によって左右され、したがって現在の評価プロトコルは体系的にハーネス レベルのゲインをモデルの改善に誤って帰属させています。私たちは 3 つの方針に沿ってこの仮説を支持します。まず、制御理論の定式化では、ハーネスを閉ループ動的システムのコントローラーとして扱い、LLM をそれが管理する確率的ポリシーとして扱います。これにより、ハーネスの小さな変更によって、あるモデルを別のモデルに置き換えることによって得られるパフォーマンスの変化を超えるパフォーマンスの変化が生じる可能性があることが説明されます。第 2 に、公開されたベンチマーク、業界での展開、および制御された分散分解は、モデルのランキング逆転のケースを含め、ハーネスに起因する分散がモデルに起因する分散を大幅に超える可能性があることを示しています。第三に、開示基準と分散分解プロトコルを備えたハーネスを意識した評価フレームワークを提案します。ハーネスの仕様が開示されるまでは、長期にわたるエージェントのリーダーボード比較は不完全で誤解を招く可能性があるものとして扱う必要があります。
原文 (English)
Stop Comparing LLM Agents Without Disclosing the Harness
This position paper argues that, for long-horizon tasks evaluated across models with comparable frontier capability, the agent execution harness, namely the infrastructure layer that governs context construction, tool interaction, orchestration, and verification around a language model, is often a stronger determinant of agent performance than the model it wraps. We formalize and defend the Binding Constraint Thesis: in this regime, performance variance is governed more by harness configuration than by model choice, and current evaluation protocols therefore systematically misattribute harness-level gains to model improvements. We support this thesis along three lines. First, a control-theoretic formalization treats the harness as the controller of a closed-loop dynamical system and the LLM as the stochastic policy it governs, which explains why small harness changes can produce performance shifts that exceed those obtained by substituting one model for another. Second, published benchmarks, industry deployments, and a controlled variance decomposition show that harness-induced variance can substantially exceed model-induced variance, including cases of model ranking reversal. Third, we propose a harness-aware evaluation framework with a disclosure standard and a variance decomposition protocol. Until harness specifications are disclosed, leaderboard comparisons for long-horizon agents should be treated as incomplete and potentially misleading.
QUIVER: 複合 AI システムにおける摂動の伝播と分岐を定量化するための正式なフレームワーク
複数の LLM 呼び出しを有向計算グラフに連鎖させる複合 AI システムは、現在、実稼働 AI の主要なアーキテクチャとなっています。これらのアーキテクチャは混合モード出力を持つ異種ノードを活用していますが、ノードが確率的であり、実行パスが構造的に分岐する可能性があるパイプラインを通じて摂動がどのように伝播するかを定量化する既存のフレームワークはありません。グラフ構造の LLM パイプラインにおける摂動伝播を測定するための正式なフレームワークである QUIVER を紹介します。このフレームワークは以下を定義します。(1) エッジを増幅、吸収、または閾値依存として分類し、出現リフトによって補完される、タイプ ディスパッチされた距離メトリックを含む感度マトリックス。 (2)変動を値のドリフト、構造的経路の発散、および反復回数の発散に分解する軌跡発散。 (3) 構造的な実行パスの変更を引き起こす最小の摂動を特定する分岐しきい値。 (4) ディストリビューションの忠実度。ノードごとの評価データセットが運用ディストリビューションからいつ乖離するかを定量化します。 2 つの実稼働エンタープライズ パイプラインとパブリック DSPy マルチホップ QA パイプライン、つまり 3 つの構造的に異なるアーキテクチャを検証します。 8,200以上の計測トレース(32,000以上のペア比較)にわたって、QUIVERがアーキテクチャ間で明確な感度プロファイルを明らかにし、同一の発散率を生み出す機構的に異なるカスケードパターンを区別し、観測データのみから軌道分岐しやすいノードを予測し、集計メトリクスでは表面化できない特定のノードフィールドカテゴリーに古い評価アーティファクトを局所化することを実証しました。
原文 (English)
QUIVER: A Formal Framework for Quantifying Perturbation Propagation and Bifurcation in Compound AI Systems
Compound AI systems that chain multiple LLM calls into directed computation graphs are now the dominant architecture for production AI. Although these architectures leverage heterogeneous nodes with mixed-mode outputs, no existing framework quantifies how perturbations propagate through such pipelines, where nodes are stochastic and execution paths can diverge structurally. We introduce QUIVER, a formal framework for measuring perturbation propagation in graph-structured LLM pipelines. The framework defines: (1) a sensitivity matrix with type-dispatched distance metrics that classifies edges as amplifiers, absorbers, or threshold-sensitive, complemented by occurrence-lift; (2) trajectory divergence decomposing variation into value drift, structural path divergence, and iteration count divergence; (3) bifurcation thresholds identifying the smallest perturbation that causes structural execution path changes; and (4) distribution faithfulness, quantifying when per node evaluation datasets diverge from production distributions. We validate on two production enterprise pipelines and a public DSPy multihop QA pipeline, three structurally distinct architectures. Across 8,200+ instrumented traces (32,000+ pair comparisons), we demonstrate that QUIVER reveals distinct sensitivity profiles across architectures, distinguishes mechanistically different cascade patterns producing identical divergence rates, predicts nodes prone to trajectory bifurcation from observational data alone, and localizes stale evaluation artifacts to specific node-field categories that aggregate metrics cannot surface.
LGMT: LLM の推論の信頼性を評価するための論理に基づいた変形テスト
大規模言語モデル (LLM) は、論理推論ベンチマークで優れたパフォーマンスを達成しますが、その信頼性は依然として不確実です。既存の評価は静的ベンチマークに依存しているため、論理的に同等の変換の下での堅牢性を評価できず、推論能力を過大評価することがよくあります。私たちは、一次論理 (FOL) を活用して LLM 推論を評価する、オラクル不要のフレームワークである LGMT (Logic-Grounded Metamorphic Testing) を提案します。 LGMT は、形式的な論理的等価性から変成関係を導出することで、意味的に不変のテスト ケースを構築し、ケース間の整合性チェックを通じて推論の欠陥を検出します。 6 つの最先端の LLM での実験では、LGMT が従来のリファレンスベースの評価では見逃されていた重大な隠れた欠陥を明らかにすることが示されています。さらに、モデルはシンボルレベルと結論レベルの変動に特に敏感であり、Few-shot CoT などの高度なプロンプトではこれらの問題が部分的にしか軽減されないことがわかりました。これらの結果は、LLM 評価が孤立した正確性を超えて、論理的不変性の下での堅牢性へと移行する必要があることを示唆しています。 LGMT は、推論の失敗を診断するための原則に基づいたスケーラブルなアプローチを提供します。
原文 (English)
LGMT: Logic-Grounded Metamorphic Testing for Evaluating the Reasoning Reliability of LLMs
Large Language Models (LLMs) achieve strong performance on logical reasoning benchmarks, yet their reliability remains uncertain. Existing evaluations rely on static benchmarks, which fail to assess robustness under logically equivalent transformations and often overestimate reasoning capability. We propose LGMT (Logic-Grounded Metamorphic Testing), an oracle-free framework that leverages first-order logic (FOL) to evaluate LLM reasoning. By deriving metamorphic relations from formal logical equivalences, LGMT constructs semantically invariant test cases and detects reasoning defects through cross-case consistency checking. Experiments on six state-of-the-art LLMs show that LGMT exposes substantial hidden defects missed by traditional reference-based evaluations. We further find that models are particularly sensitive to symbol-level and conclusion-level variations, and that advanced prompting such as Few-shot CoT only partially mitigates these issues. These results suggest that LLM evaluation should move beyond isolated correctness toward robustness under logical invariance. LGMT provides a principled and scalable approach for diagnosing reasoning failures.
AGI にワールド モデルが必要な理由: LLM が失敗する場所と、ワールド モデルがどのように優れたパフォーマンスを発揮するか
大規模な言語モデルは、言語生成や知識集約型タスクでは強力なパフォーマンスを実現しますが、因果推論、永続的な状態追跡、長期計画を必要とする設定では依然として制限されます。私たちは、これらの制限は、配列予測と潜在的な環境ダイナミクスに関する推論の間の客観レベルの不一致から生じる可能性があると主張します。この区別を形式化するために、言語とマルチモーダル観察を根底にある遷移ダイナミクスの部分的な証拠として解釈する概念的な視点である潜在ダイナミクス推論 (LDI) を導入します。この観点を実証的に調査するために、完全に自然言語ルールによって指定された逐次推論環境である Flux を紹介します。概念実証のケーススタディとして、ルールは最初に明示的な状態遷移シミュレーターにコンパイルされ、構造化された潜在的な遷移ダイナミクスが場合によってはテキストのルール記述から操作的に抽出できることを示します。これにより、純粋にテキストの観察に対して動作する LLM と、抽出された潜在状態空間内で直接訓練された強化学習エージェントとの間の制御された比較が可能になります。このケーススタディでは、潜在状態空間への明示的なアクセスを使用して動作するエージェントは、長期的なゲームプレイにおいて実質的により安定した動作を示し、LLM の合計勝率が約 79% であるのに対し、LLM の場合は 11% を達成しています。さらに、定性分析により、無効なアクション、状態追跡エラー、短期推論の失敗など、不安定な永続状態の追跡と一致する障害モードが明らかになります。 Flux 環境の完全な実装は https://github.com/FeisalAlaswad/FLUX-RL-Agent で入手できます。評価された設定内では、これらの結果は、永続的な状態の追跡と遷移モデリングのメカニズムがなければ、強力なシーケンス予測だけでは堅牢な長期的な動的推論をサポートするのが難しい可能性があることを示唆しています。
原文 (English)
Why We Need World Models for AGI: Where LLMs Fail and How World Models May Outperform
Large language models achieve strong performance in language generation and knowledge-intensive tasks, yet remain limited in settings requiring causal reasoning, persistent state tracking, and long-horizon planning. We argue that these limitations may arise from an objective-level mismatch between sequence prediction and reasoning over latent environment dynamics. To formalize this distinction, we introduce Latent Dynamics Inference (LDI), a conceptual perspective that interprets language and multimodal observations as partial evidence of underlying transition dynamics. To empirically investigate this perspective, we introduce Flux, a sequential reasoning environment specified entirely through natural-language rules. As a proof-of-concept case study, the rules are first compiled into an explicit state-transition simulator, illustrating that structured latent transition dynamics can, in some cases, be operationally extracted from textual rule descriptions. This enables a controlled comparison between the LLMs operating purely over textual observations and reinforcement-learning agents trained directly within the extracted latent state space. Within this case study, agents operating with explicit access to the latent state space exhibit substantially more stable behavior in long-horizon gameplay, achieving an aggregate win rate of approximately 79% versus 11% for LLMs. Qualitative analysis further reveals failure modes consistent with unstable persistent state tracking, including invalid actions, state-tracking errors, and short-horizon reasoning failures. The complete implementation of the Flux environment available at https://github.com/FeisalAlaswad/FLUX-RL-Agent Within the evaluated setting, these results suggest that strong sequence prediction alone may struggle to support robust long-horizon dynamic reasoning without mechanisms for persistent state tracking and transition modeling
信頼できるエージェント AI を目指して: 安全性、堅牢性、プライバシー、システム セキュリティの包括的な調査
エージェントティック AI システム (計画、ツールの使用、メモリ、および長期的な対話によって強化された大規模言語モデル (LLM)) は、複雑なタスクを自律的に実行できますが、その複数ステップの軌跡により、信頼性に挑戦する新たな障害モードが発生します。この調査では、安全性と堅牢性、プライバシーとシステム セキュリティという、高リスクの展開に重要な 2 つの中核的な側面を通じて、信頼できるエージェント AI を集中的に調査します。各側面について、主要な概念を明確にし、エージェントのワークフローに沿ってリスクが現れる箇所を特定し、段階別の緩和戦略を要約します。他の信頼性の側面 (価値の一致、透明性、公平性、説明責任) については、並行する章ではなく、関連する文脈として説明されます。一貫した比較と導入の決定をサポートするために、評価を統合されたメトリクスとベンチマークのハブに統合し、結果とプロセスのシグナル (制約違反、トレースの完全性、敵対的な成功率など) の両方を強調し、リリース ゲーティングのためのシナリオからメトリクスへのガイダンスを提供します。最後に、自己進化するエージェント、実行時の監視と検証、プライバシー保護のパーソナライゼーション、信頼性とユーティリティのトレードオフなどの未解決の課題を概説し、オープンソース エージェント システムにおける実際のセキュリティ障害のケース スタディを紹介します。私たちの目標は、一か八かの環境で信頼できるエージェント システムを構築する研究者や実践者にとって実用的な参考資料となることです。
原文 (English)
Towards trustworthy agentic AI: a comprehensive survey of safety, robustness, privacy, and system security
Agentic AI systems -- Large Language Models (LLMs) augmented with planning, tool use, memory, and long-horizon interactions -- can execute complex tasks autonomously, but their multi-step trajectories introduce new failure modes that challenge trustworthiness. This survey provides a focused examination of trustworthy agentic AI through two core dimensions that are critical for high-risk deployments: Safety and Robustness, and Privacy and System Security. For each dimension, we clarify key concepts, identify where risks emerge along the agent workflow, and summarize stage-targeted mitigation strategies. Other trustworthiness aspects (value alignment, transparency, fairness, and accountability) are discussed as relevant context rather than parallel chapters. To support consistent comparison and deployment decisions, we consolidate evaluation into a unified metrics-and-benchmarks hub, emphasizing both outcome and process signals (e.g., constraint violations, trace completeness, and adversarial success rates) and offering scenario-to-metric guidance for release gating. We conclude by outlining open challenges such as self-evolving agents, runtime monitoring and verification, privacy-preserving personalization, and the trust-utility trade-off, and present a case study of real-world security failures in open-source agentic systems. Our goal is to serve as a practical reference for researchers and practitioners building trustworthy agentic systems in high-stakes environments.
理由 - 想像 - 実行: 自動運転の世界モデルを使用したクローズドループ LLM の意思決定
大規模言語モデル (LLM) は自動運転に有望ですが、セマンティクスのみの意思決定ポリシーでは、動的交通において物理的に危険な動作が生じる可能性があります。既存の手法は、明示的なダイナミクス検証を行わずにオンライン言語推論を実行するか、主にオフライン パイプラインでワールド モデルを使用するため、意思決定時の意味論的な意図と物理的な実現可能性の間にギャップが残ります。我々は、オンライン安全性検証のために LLM 推論器とアクション条件付き世界モデルを結合する閉ループ フレームワークである Reason-Imagine--Act (RIA) を提案します。各ステップで、LLM がアクション テンプレートとサブアクションの候補を提案し、ワールド モデルが短期間のロールアウトを実行し、安全スコアラーが次の推論ステップへのフィードバックとともに最も安全に実行可能なアクションを選択します。統一された CARLA ポイントゴール プロトコル (1000 エピソード) の下で、RIA はルート完了率 80.05%、到着率 51.10%、衝突率 0.20% を達成しました。同じ閉ループ インターフェイスの下で、RIA はコアの閉ループ メトリックに関して、CARLA TM や MADA などのトレーニング不要のベースラインを常に上回っています。再現性を高めるために、コードは https://github.com/pku-smart-city/source_code/tree/main/RIA で入手できます。
原文 (English)
Reason--Imagine--Act: Closed-Loop LLM Decision Making with World Models for Autonomous Driving
Large language models (LLMs) are promising for autonomous driving, but semantics-only decision policies can yield physically unsafe behavior in dynamic traffic. Existing methods either perform online language reasoning without explicit dynamics verification or use world models mainly in offline pipelines, leaving a gap between semantic intent and physical feasibility at decision time. We propose Reason--Imagine--Act (RIA), a closed-loop framework that couples an LLM reasoner with an action-conditioned world model for online safety verification. At each step, the LLM proposes an action template and candidate sub-actions, the world model performs short-horizon rollouts, and a safety scorer selects the safest executable action with feedback to the next reasoning step. Under a unified CARLA point-goal protocol (1000 episodes), RIA achieves 80.05% route completion, 51.10% arrival rate, and 0.20% collision rate. Under the same closed-loop interface, RIA consistently outperforms training-free baselines, including CARLA TM and MADA, on core closed-loop metrics. For reproducibility, code is available at https://github.com/pku-smart-city/source_code/tree/main/RIA.
LC-ERD: 一貫性で規制された報酬分解による自己進化推論のための潜在ロジックのマイニング
大規模言語モデル (LLM) 推論の進化は、高品質のプロセス データの不足によってボトルネックになっています。内生的報酬による自己調整は解決策を提供しますが、有効な監視のマイニングは 3 つの課題に直面しています。(1) ミメティック バイアスによるラベル ノイズ。報酬は論理的真実よりも統計的尤度を優先し、複合エラーを覆い隠す「正しさの錯覚」を生み出します。 (2) 粗粒度の監督。まばらな全体的な結果 (GRPO など) が詳細なガイダンスを提供できず、推論チェーンを一枚岩として扱います。 (3) 分布崩壊。トレーニング前のバイアスを増幅せずに信号が一般化できない場合。これらに対処するために、潜在構造マイニングとして自己整合を構成するフレームワークである LC-ERD (Logic-Consistent Endogenous Reward Decomposition) を導入します。モデルの潜在論理専門知識 (LLE) からのコンセンサスを集約して変分論理ポテンシャルを導き出し、推論多様体のノイズを除去し、IGM 原理に基づくマルチエージェント値分解プロトコルを導入して、個々のステップの効用を定量化します。実験では、LC-ERD が堅牢な自己進化パスを提供し、標準的な報酬では見逃されている価値の高い推論パターンを特定しながら、ロジックの一貫性と精度の間のトレードオフを明らかにすることが示されています。私たちのコードは https://github.com/Reinhardmannn/LC-ERD で入手できます。
原文 (English)
LC-ERD: Mining Latent Logic for Self-Evolving Reasoning via Consistency-Regulated Reward Decomposition
The evolution of Large Language Model (LLM) reasoning is bottlenecked by the scarcity of high-quality process data. While self-alignment via endogenous rewards offers a solution, mining valid supervision faces three challenges: (1) Label Noise via Mimetic Bias, where rewards prioritize statistical likelihood over logical truth, creating a "correctness illusion" that masks compounding errors; (2) Coarse-Grained Supervision, where sparse global outcomes (e.g., in GRPO) fail to provide granular guidance, treating reasoning chains as monolithic; and (3) Distributional Collapse, where signals fail to generalize without amplifying pre-training biases. To address these, we introduce LC-ERD (Logic-Consistent Endogenous Reward Decomposition), a framework framing self-alignment as latent structure mining. We derive a Variational Logic Potential by aggregating consensus from the model's Latent Logic Expertise (LLE) to denoise the reasoning manifold, and introduce a Multi-Agent Value Decomposition protocol based on the IGM principle to quantify individual step utility. Experiments show LC-ERD delivers a robust self-evolution path, uncovering trade-offs between logic consistency and accuracy while identifying high-value reasoning patterns missed by standard rewards. Our code is available at https://github.com/Reinhardmannn/LC-ERD.
EvoSci: 科学的発見の進化のための生物からインスピレーションを得たマルチエージェント フレームワーク
大規模言語モデル (LLM) は、科学的発見において強力な可能性を示していますが、既存の手法は、研究ワークフローと多役割コラボレーション メカニズムの設計において依然として大きな課題に直面しています。これらの問題を軽減するために、私たちは、生物からインスピレーションを受けた進化とナレッジ グラフ モデリングを統合する、マルチエージェント科学コラボレーション フレームワークである EvoSci を提案します。研究のアイデアを繰り返し生成、評価、改良するために、EvoSci にはメンター、研究者、レビュー担当者など、役割ベースの複数のエージェントが組み込まれています。 EvoSci は、共同推論、共有記憶、進化的フィードバックを組み合わせることで、科学探査の一貫性と創造性を大幅に強化します。現実世界の研究トピックに関する実験では、EvoSci が LLM ベースの構造化査読および比較ランキング評価において強力なベースラインを大幅に上回り、最高の総合査読スコア (ICLR 4.90) とトップ ランキング (トップ 10 = 54) を達成していることが実証されています。これらの結果は、科学的アイデアの生成と継続的な発見の両方においてその優位性を示唆しています。
原文 (English)
EvoSci: A Bio-Inspired Multi-Agent Framework for the Evolution of Scientific Discovery
Large language models (LLMs), have shown strong potential in scientific discovery, yet existing methods still face substantial challenges in the design of research workflows and multi-role collaboration mechanisms. To mitigate these issues, we propose EvoSci, a multi-agent scientific collaboration framework, which integrates bio-inspired evolution with knowledge graph modeling. To iteratively generate, evaluate, and refine research ideas, EvoSci incorporates multiple role-based agents, including mentor, researcher, and reviewer. By combining collaborative reasoning, shared memory, and evolutionary feedback, EvoSci significantly enhances the coherence and creativity of scientific exploration. Experiments on real-world research topics demonstrate that EvoSci significantly outperforms strong baselines in LLM-based structured peer-review and comparative ranking evaluations, achieving the highest overall peer-review score (ICLR 4.90) and top ranking (Top-10 = 54). These results suggest its superiority in both scientific idea generation and continuous discovery.
確率の連鎖を断ち切る: 大規模言語モデルにおける認識論的不確実性の新しいフレームワークとしてのニュートロソフィー論理
大規模言語モデル (LLM) は、結果の確率の合計が 1 に制限される確率的フレームワークによって主に支配されます。このアーキテクチャ上の制限は、多くの場合、ソフトマックス層によって課せられ、不確実性の崩壊につながり、認識論的な不確実性、パラドックス、曖昧さを区別することが困難になります。我々は、真実 (T)、不確定性 (I)、偽り (F) を 3 つの独立した次元として扱うフレームワークであるニュートロソフィー ロジックを、LLM の認識状態をモデル化するために適用する実証的研究を紹介します。私たちは、論理パラドックス、認識論的無知、曖昧さ、倫理的矛盾、将来の不測の事態という 5 つの言語現象にわたる 4 つの OpenAI GPT モデルのファミリーに対して、ニュートロソフィック、確率論、エントロピー誘導という 3 つの促進戦略の下で実験を実施しました。私たちの発見は、T+I+F > 1 (ハイパー真実と呼ばれる状態) を許容することにより、ニュートロソフィックアプローチがモデルの内部状態のより豊かな表現を提供することを明らかにしました。評価の 35% で、超真実は主に倫理的矛盾と論理的矛盾の下で自然発生的に出現しました。我々は、このアプローチがファジーコンテキストの真理値を保存し、内部モデルの競合を特定して定量化するための堅牢な方法を提供することを実証します。私たちは、好中性評価レイヤーの統合は、より透明性があり、信頼性が高く、倫理を意識した AI システムに向けた重要なステップであると結論付けています。
原文 (English)
Breaking the Chains of Probability: Neutrosophic Logic as a New Framework for Epistemic Uncertainty in Large Language Models
Large Language Models (LLMs) are predominantly governed by probabilistic frameworks in which the sum of outcome probabilities is constrained to unity. This architectural limitation, often imposed by Softmax layers, leads to a collapse of uncertainty that makes it difficult to differentiate between epistemic uncertainty, paradox, and vagueness. We present an empirical investigation of the application of Neutrosophic Logic, a framework that treats Truth (T), Indeterminacy (I), and Falsity (F) as three independent dimensions, to model epistemic states in LLMs. We conducted experiments on a family of four OpenAI GPT models across five linguistic phenomena: logical paradoxes, epistemic ignorance, vagueness, ethical contradictions, and future contingencies, under three prompting strategies: neutrosophic, probabilistic, and entropy-derived. Our findings reveal that the neutrosophic approach, by allowing T+I+F > 1, a state we term hyper-truth, provides a richer representation of a model's internal state. In 35% of evaluations, hyper-truth emerged spontaneously, predominantly under ethical contradiction and logical paradox. We demonstrate that this approach preserves truth values in fuzzy contexts and offers a robust method for identifying and quantifying internal model conflict. We conclude that the integration of neutrosophic evaluation layers is a critical step toward more transparent, reliable, and ethically aware AI systems.
SkillEvolBench: エピソード体験から手続き型スキルへの進化のベンチマーク
大規模言語モデル (LLM) エージェントは、現実世界のタスクを解決する際に豊富なエピソードの軌跡を蓄積しますが、そのような経験を再利用可能な手順スキルに蒸留できるかどうかは不明のままです。経験の再利用からスキル形成までのこのステップを評価するための診断ベンチマークである SkillEvolBench を紹介します。これには、6 つの現実世界のエージェント環境にわたる 180 のタスクが含まれており、潜在的な手順を共有する役割条件付きタスク ファミリに編成されています。エージェントは取得タスクから学習し、圧縮された軌跡と検証者のフィードバックを使用して外部スキル ライブラリを更新し、その後、コンテキスト シフト、敵対的ショートカット、構成をテストする凍結された展開タスクに直面します。 SkillEvolBench は、自己生成および厳選された開始スキルの進化を、スキルなしおよび生の軌道コントロールと比較することにより、基本機能、厳選された事前知識、エピソード トレースの直接再利用から手続き型抽象化を分離します。 10 のモデル構成と 3 つのエージェント ハーネスにわたって、現在のエージェントはローカルに適応することが多いものの、堅牢で再利用可能なスキルを形成することはほとんどないことがわかりました。スキルベースの条件により取得や再生が改善され、個々のモデルが特定の展開軸で利益を得ることもありますが、これらの利益は展開が凍結された状態では不安定になります。生の軌跡の再利用は、蒸留されたスキルよりも優れたパフォーマンスを発揮することがよくあります。これは、現在の抽象化手順が、将来のタスクに役立つ文脈および手順の手がかりを破棄していることを示唆しています。さらに、キャパシティとコストの分析では、より多くのスキルや大規模な Tier-3 リソース ライブラリを作成するだけでは十分ではないことが示されています。追加のアップデートにより、エピソード固有のドリフトや手順の混乱が生じる一方で、カバレッジが向上する可能性があります。これらの発見により、SkillEvolBench は、1 回限りの経験がタスクローカルの記憶ではなく永続的な手続き型知識になる時期を測定するためのテストベッドとして位置づけられています。
原文 (English)
SkillEvolBench: Benchmarking the Evolution from Episodic Experience to Procedural Skills
Large language model (LLM) agents accumulate rich episodic trajectories while solving real-world tasks, but it remains unclear whether such experience can be distilled into reusable procedural skills. We introduce SkillEvolBench, a diagnostic benchmark for evaluating this step from experience reuse to skill formation. It contains 180 tasks across six real-world agent environments, organized into role-conditioned task families with shared latent procedures. Agents learn from acquisition tasks, update an external skill library using compacted trajectories and verifier feedback, and then face frozen deployment tasks testing context shift, adversarial shortcuts, and composition. By comparing self-generated and curated-start skill evolution against no-skill and raw-trajectory controls, SkillEvolBench separates procedural abstraction from base capability, curated prior knowledge, and direct reuse of episodic traces. Across ten model configurations and three agent harnesses, we find that current agents often adapt locally but rarely form robust reusable skills. Skill-based conditions can improve acquisition or replay, and individual models sometimes gain on specific deployment axes, but these gains are unstable under frozen deployment. Raw-trajectory reuse frequently outperforms distilled skills, suggesting that current abstraction procedures discard contextual and procedural cues that remain useful for future tasks. Capacity and cost analyses further show that writing more skills or larger Tier-3 resource libraries is not sufficient: additional updates can improve coverage while introducing episode-specific drift and procedural clutter. These findings position SkillEvolBench as a testbed for measuring when one-off experience becomes durable procedural knowledge rather than task-local memory.
パレット: LLM におけるオンデマンドの認可された安全調整緩和のためのモジュール式で制御可能で効率的なフレームワーク
現在の基礎モデルの安全性調整は主に \emph{万能} パラダイムに従っており、ユーザーとコンテキスト全体に同じ拒否ポリシーが適用されます。その結果、モデルは、一般ユーザーにとっては安全ではないが、認可された専門家にとっては正当なリクエストを拒否する可能性があり、専門的な専門的な設定での有用性が制限されます。既存のアプローチは、コストのかかる再調整を必要とするか、不正確な制御と追加の遅延の影響を受ける推論時間ステアリングに依存するかのどちらかです。この目的を達成するために、他の場所では標準的な安全性を維持しながら、承認されたターゲット ドメインでの拒否動作を選択的に緩和する、モジュール式で制御可能で効率的なフレームワークである \textsc{Palette} を提案します。私たちの方法は、多目的検索によって拒否方向を特定し、軽量適応を通じてそれをモデルに内部化します。 \textsc{Palette} は、モジュール構成をさらにサポートします。ドメイン固有の安全制御を個別に学習し、パラメータのマージを通じてそれらを構成し、再トレーニングなしでオンデマンドのマルチドメイン認証を可能にします。 4 つの安全ベンチマーク、複数のモデル バリアント、および LLM と VLM の両方にわたる実験により、\textsc{Palette} が一般的な実用性を犠牲にすることなく正確な安全制御を実現し、専門家の多様なニーズに適応する基礎モデルへの実用的な道を提供することがわかりました。
原文 (English)
Palette: A Modular, Controllable, and Efficient Framework for On-demand Authorized Safety Alignment Relaxation in LLMs
Current safety alignment of foundation models largely follows a \emph{one-size-fits-all} paradigm, applying the same refusal policy across users and contexts. As a result, models may refuse requests that are unsafe for general users but legitimate for authorized professionals, limiting helpfulness in specialized professional settings. Existing approaches either require costly realignment or rely on inference-time steering that suffers from imprecise control and added latency. To this end, we propose \textsc{Palette}, a modular, controllable, and efficient framework that selectively relaxes refusal behavior on authorized target domains while preserving standard safety elsewhere. Our method identifies a refusal direction via multi-objective search and internalizes it into the model through lightweight adaptation. \textsc{Palette} further supports modular composition: it learns domain-specific safety controls independently and composes them through parameter merging, enabling on-demand multi-domain authorization without retraining. Experiments across four safety benchmarks, multiple model variants, and both LLMs and VLMs show that \textsc{Palette} delivers precise safety control without sacrificing general utility, offering a practical path toward foundation models that adapt to diverse professional needs.
推論時間のコンテキストの希薄性: 幻想か機会か?
スパース性は長い間 LLM 効率の中心的なテーマでしたが、コンテキスト処理におけるその役割は未解決のままです。 LLM のワークロードがより長いコンテキストとエージェントの対話に移行するにつれて、コンピューティングとメモリの注意のボトルネックがますます重要になり、これらの制約が根本的なものであるかどうかという疑問が生じます。私たちの立場は、これらの制約は人為的であり不必要であり、LLM 推論の将来はコンテキスト次元に沿った極端だが原則に基づいたスパース性にあるというものです。この立場は、いくつかの経験的および理論的証拠によって裏付けられています。まず、長いコンテキストでは、クエリは O(N) 個の注意情報を次元 d << N の隠れた空間に効果的に投影し、プロセスが本質的に損失を伴うため、高密度の注意への固執は不合理であることがわかります。次に、5 つのモデル ファミリにわたる 20 のモデルにまたがる LLM のスパース性について、さまざまなコンテキスト長とさまざまなスパース性レベルの広範な調査を実行します。現在の LLM は、コンテキストのスパース性についてトレーニングされていないにもかかわらず、検索、マルチホップ QA、数学的推論、エージェント コーディングなど、さまざまな複雑さのタスクにわたる推論時のデコード スパース性に対して非常に堅牢であるという強い傾向を経験的に示しています。重要なことに、現在のハードウェアは、この疎性から大幅な利益を実現するのにすでに十分であることも示しています。たとえば、当社のスパース デコード カーネルは、H100 などのハードウェア上の 50 倍のスパース レベルで、FlashInfer と比較して最大 10 倍、ラージ コンテキストの処理を高速化します。全体として、これらの結果は、極度のコンテキスト スパース性をヒューリスティックとしてではなく、LLM 推論、トレーニング、アーキテクチャ設計の原則的な基盤として位置づけています。これは、実現可能かつ有益であり、将来のシステムの説得力のある方向性です。
原文 (English)
Inference Time Context Sparsity: Illusion or Opportunity?
Sparsity has long been a central theme in LLM efficiency, but its role in context processing remains unresolved. As LLM workloads shift toward longer contexts and agentic interactions, the compute and memory bottlenecks of attention become increasingly critical, raising the question of whether these constraints are fundamental. Our position is that these constraints are artificial and unnecessary, and that the future of LLM inference lies in extreme but principled sparsity along the context dimension. This position is supported by several strands of empirical and theoretical evidence. First, we find the insistence on dense attention unreasonable, since in a long context a query effectively projects O(N) attention information into a hidden space of dimension d << N, making the process inherently lossy. Second, we perform an extensive study of sparsity in LLMs spanning 20 models across five model families, varying context lengths, and different sparsity levels. We empirically demonstrate a strong trend: current LLMs, despite not being trained for context sparsity, are remarkably robust to inference-time decode sparsity across tasks of varying complexity, including retrieval, multi-hop QA, mathematical reasoning, and agentic coding. Importantly, we also show that current hardware is already sufficient to realize substantial gains from this sparsity. For example, our sparse decode kernels accelerate large-context processing by up to 10x over FlashInfer at 50x sparsity levels on hardware such as the H100. Overall, these results position extreme context sparsity not as a heuristic, but as a principled foundation for LLM inference, training, and architecture design: one that is both feasible and beneficial, and a compelling direction for future systems.
マルチエージェント RL によって LLM ワークフローが改善されるのはいつですか?ワークフロー、スケール、ポリシー共有のトレードオフ
マルチエージェント LLM ワークフローは、特殊なロールを通じて推論をルーティングし、最終タスクの精度を高めますが、これらのロールを強化学習で共同トレーニングすることは、十分に理解されていない点で不安定です。すべてのロールが 1 つのポリシーを更新する共有ポリシー トレーニングと、各ロールが独自のパラメーターを持つ分離ポリシー トレーニングを比較して、マルチエージェント LLM ワークフローのエンドツーエンド RL トレーニングが基本モデルよりも向上する時期を研究します。私たちの実験マトリックスは、Eval-Opt、Voting、Orch-Workers ワークフロー、数学およびコード タスク、および 3 つのモデル スケール (0.6B、1.7B、4B) に及びます。通常、マルチエージェント RL は基本モデルよりも向上しますが、その効果はポリシー共有だけではなく、ワークフロー、タスク、規模に総合的に依存することがわかりました。分離ポリシーはより高いピーク精度に達する傾向がありますが、最終精度の崖から落ちることが多くなりますが、共有ポリシーのトレーニングでは失敗は排除されません。それは失敗を質的に異なるパターンに再配分します。次に、ワークフロー トポロジとポリシー ルーティングによって引き起こされるロール レベルの勾配ダイナミクスを通じて、これらのパターンのうち最も強力なものを説明します。分離ポリシーでは、共有プロンプト上の並列同じロール エージェントがロールごとの勾配を増幅し、投票ワークフローとオーチワーカー ワークフローの端末の劣化を引き起こします。共有ポリシーの下では、非対称のステップごとの勾配質量により、共有ポリシーが支配的な役割によってキャプチャされ、タスクおよびワークフローごとに異なる失敗の兆候が生成されます。経験的マップとその基礎となるメカニズムを総合すると、ポリシー共有は均一な安定性を提供するのではなく、トレーニングのプレッシャーをさまざまなチャネルにルーティングし、ワークフローとタスクの条件のトレードオフを考慮した設計上の選択となることがわかります。
原文 (English)
When Does Multi-Agent RL Improve LLM Workflows? Workflow, Scale, and Policy-Sharing Tradeoffs
Multi-agent LLM workflows route inference through specialized roles to lift end-task accuracy, but jointly training those roles with reinforcement learning is unstable in ways that are poorly understood. We study when end-to-end RL training of multi-agent LLM workflows improves over their base models, comparing Shared-Policy training, where all roles update one policy, with Isolated-Policy training, where each role has its own parameters. Our experimental matrix spans Eval-Opt, Voting, and Orch-Workers workflows, math and code tasks, and three model scales (0.6B, 1.7B, 4B). We find that multi-agent RL usually improves over base models, but gains depend jointly on workflow, task, and scale, not on policy sharing alone. Isolated-Policy tends to reach higher peak accuracy yet more often falls off a terminal accuracy cliff, while Shared-Policy training does not eliminate failure; it redistributes failure into qualitatively different patterns. We then explain the strongest of these patterns through role-level gradient dynamics induced by workflow topology and policy routing: under Isolated-Policy, parallel same-role agents on shared prompts amplify per-role gradients and drive terminal degradation in Voting and Orch-Workers workflows; under Shared-Policy, asymmetric per-step gradient mass causes the shared policy to be captured by the dominant role, producing different failure signatures by task and workflow. Together, the empirical map and its underlying mechanisms show that policy sharing routes training pressure through different channels rather than offering uniform stability, making it a design choice with workflow- and task-conditional tradeoffs.
本番環境の LLM 推論ベンチマークにおける体系的な測定バイアスの特定と軽減
大規模言語モデル (LLM) が研究環境から運用環境へ移行するにつれて、厳格なサービス レベル目標 (SLO) に照らしてそのパフォーマンスを評価することが重要になってきています。しかし、現在の評価方法では、規模が大きくなると測定に大きな偏りが生じます。広く使用されているベンチマーク ユーティリティは、単一プロセスの非同期駆動アーキテクチャに依存しており、同時実行性が高い場合には基本的なクライアント側キューのボトルネックが発生することを示します。ベンチマーク クライアントを $M/G/1$ キューとしてモデル化することで、Python グローバル インタープリター ロック (GIL) がリクエスト レートのスケールに応じて最初のトークンまでの時間 (TTFT) と出力トークンごとの時間 (TPOT) メトリクスをどのように人為的に増大させるかを数学的に示します。この体系的な不正確さを解決するために、クライアント側の負荷を効果的に分散し、無視できるキューイング オーバーヘッドを保証する、公平なマルチプロセス評価フレームワークを提案します。さらに、シーケンス長全体にわたるプレフィルおよびスケジューリング遅延を含む、エンドツーエンドのレイテンシを堅牢に償却するために、複合メトリクスである Normalized Time Per Output Token (NTPOT) を形式化します。私たちの経験的評価は、この方法論が純粋なサービング エンジンのパフォーマンスを分離することに成功し、1 秒あたり数千のクエリを超える運用規模で LLM の正確で再現可能なプロファイリングを可能にすることを示しています。
原文 (English)
Identifying and Mitigating Systemic Measurement Bias in Production LLM Inference Benchmarks
As Large Language Models (LLMs) transition from research environments to production deployments, evaluating their performance against strict Service Level Objectives (SLOs) has become critical. However, current evaluation methodologies suffer from severe measurement bias at scale. We demonstrate that widely used benchmarking utilities rely on single-process, asyncio-driven architectures that introduce fundamental client-side queuing bottlenecks under high concurrency. By modeling the benchmarking client as an $M/G/1$ queue, we mathematically demonstrate how the Python Global Interpreter Lock (GIL) artificially inflates Time to First Token (TTFT) and Time Per Output Token (TPOT) metrics as request rates scale. To resolve this systematic inaccuracy, we propose an unbiased, multi-process evaluation framework that effectively distributes client-side load, ensuring negligible queuing overhead. Furthermore, we formalize a composite metric, Normalized Time Per Output Token (NTPOT), to robustly amortize end-to-end latency, including prefill and scheduling delays across sequence lengths. Our empirical evaluation demonstrates that this methodology successfully isolates pure serving engine performance, enabling accurate, reproducible profiling of LLMs at production scales exceeding thousands of queries per second.
最終的な答えを超えて: マルチエージェント産業ワークフローにおける軌跡レベルの幻覚の監査
大規模言語モデル (LLM) は、推論し、ツールを使用し、複数のステップにわたって動作する自律エージェントとして導入されることが増えています。しかし、ほとんどの幻覚ベンチマークは依然として最終出力のみを評価し、中間の思考、行動、観察のステップに起因する失敗を見逃しています。マルチエージェント産業ワークフローにおける軌跡レベルの幻覚を監査するためのデータセットおよび評価フレームワークである Trajel を紹介します。 Trajel は、AssetOpsBench からの専門家による注釈付きエージェント トレースに対して、5 つのタイプの幻覚分類法 (事実、参照、論理、手順、範囲ベース) を導入します。教師あり検出モデルをサブタスク、軌跡、およびロングコンテキストのレベルでベンチマークします。私たちの結果は、最も一般的な故障モードが既存のベンチマークでは見逃されていること、幻覚軌跡のほぼ半数に一度に複数のタイプが関与していること、および高いバイナリ精度を備えた自動検出器が依然として最も微妙なタイプを誤分類していることを示しています。軌跡を意識した検出は、標準的な事後検証よりも大幅に優れているため、より安全なエージェント展開には分類に基づいた評価が必要になります。
原文 (English)
Beyond Final Answers: Auditing Trajectory-Level Hallucinations in Multi-Agent Industrial Workflows
Large Language Models (LLMs) are increasingly deployed as autonomous agents that reason, use tools, and act over multiple steps. Yet most hallucination benchmarks still evaluate only the final output, missing failures that originate in intermediate Thought-Action-Observation steps. We present Trajel, a dataset and evaluation framework for auditing trajectory-level hallucinations in multi-agent industrial workflows. Trajel introduces a five-type hallucination taxonomy (factual, referential, logical, procedural, and scope-based) over expert-annotated agent traces from AssetOpsBench. We benchmark supervised detection models at the subtask, trajectory, and long-context levels. Our results show that the most common failure modes are missed by existing benchmarks, that nearly half of hallucinated trajectories involve multiple types at once, and that automated detectors with high binary accuracy still misclassify the subtlest types. Trajectory-aware detection significantly outperforms standard post-hoc verification, making taxonomy-grounded evaluation necessary for safer agentic deployment.
モデルは自分の体質をどの程度遵守していますか?
フロンティア AI 開発者は現在、Anthropic の憲法 (Anthropic、2025a) や OpenAI のモデル仕様 (OpenAI、2025a) など、長く書かれた動作仕様に基づいてモデルをトレーニングしており、キャラクター トレーニング (Anthropic、2024) や熟議的調整 (Guan et al.、2024) などの方法を介してトレーニング後のトレーニングに統合されています。これらの文書はガバナンス機能を果たしますが、実際の展開で直面するものと同様の敵対的で複数ターンにわたる圧力の下でモデルが実際にどの程度うまく従うかは不明です。我々は、各ラボの公開された仕様を監査可能なターゲットとして扱うマルチメソッド監査パイプラインを提案します。仕様をアトミックなテスト可能な原則に分解し(Anthropic の場合は 205、OpenAI の場合は 197)、Petri 監査エージェントを使用してマルチターンの敵対シナリオを生成し(Anthropic、2025b)、修正された SURF スタイルのルーブリック検索を実行します(Murray et al.、 2026) は、ペトリが見逃した浅いシングルターン障害を検出し、フラグが立てられたトランスクリプトを関連仕様と照合して検証し、その結果をラボ独自の公開システム カードと比較します。仕様ごとに 7 つのモデルにパイプラインを適用すると、モデルが世代ごとに独自のラボの仕様に大幅に準拠していることがわかりました。 Anthropic の憲法では、クロード家の違反率は 15.0% (ソネット 4) から 2.0% (ソネット 4.6) に低下します。 OpenAI のモデル仕様では、GPT ファミリは 11.7% (GPT-4o) から 3.6% (GPT-5.2 中推論) に低下し、重大度の上限は 10/10 から 7/10 に低下します。これらの利益が仕様固有のトレーニングによるものなのか、トレーニング後の広範な改善によるものなのか、評価の認識によるものなのかを外部から分離することはできません。残りの障害は、AI アイデンティティ質問の下でオペレーターが課したペルソナ、エージェント展開での不可逆的なアクション、誤った精度で捏造された定量的主張の周りに集中しています。
原文 (English)
How Well Do Models Follow Their Constitutions?
Frontier AI developers now train models against long written behavioral specifications, such as Anthropic's constitution (Anthropic, 2025a) and OpenAI's Model Spec (OpenAI, 2025a), integrated into post-training via methods like character training (Anthropic, 2024) and deliberative alignment (Guan et al., 2024). These documents serve a governance function, but it is unclear how well models actually follow them under adversarial, multi-turn pressure similar to what they would face in real-world deployment. We propose a multi-method audit pipeline that treats each lab's published specification as an auditable target: it decomposes the specification into atomic testable tenets (205 for Anthropic, 197 for OpenAI), generates multi-turn adversarial scenarios with the Petri auditing agent (Anthropic, 2025b), runs a modified SURF-style rubric search (Murray et al., 2026) to catch shallow single-turn failures Petri misses, validates flagged transcripts against the relevant specification, and compares the findings against the lab's own published system card. Applying the pipeline across seven models per specification, we find that models follow their own lab's specification substantially better with each generation. On Anthropic's constitution, the Claude family falls from a 15.0% violation rate (Sonnet 4) to 2.0% (Sonnet 4.6); on OpenAI's Model Spec, the GPT family falls from 11.7% (GPT-4o) to 3.6% (GPT-5.2 medium reasoning), with the severity ceiling falling from 10/10 to 7/10. We cannot externally isolate whether these gains come from specification-specific training, broader post-training improvements, or evaluation awareness. Remaining failures cluster around operator-imposed personas under AI-identity questioning, irreversible action in agentic deployments, and fabricated quantitative claims with false precision.
良性および有害なプロンプトの下での Mixtral MoE の安全指向ルーティング分析
疎な専門家混合 (MoE) 言語モデルでは、各トークンのパラメーターの小さなサブセットのみがアクティブになり、ルーターの動作がモデル計算の中心部分になります。この論文では、エキスパートの選択頻度から得られるアクティベーション ベースのルーティング スコアと、ルーター ゲートの感度から得られる勾配ベースのスコアという 2 つの相補的なシグナルを使用して、無害および有害なプロンプトの下での Mixtral 8x7B-Instruct のルーティング動作を研究します。エキスパートレベルおよびレイヤーレベルのルーティング動作を分析し、エキスパート抑制介入を実施します。結果は、アクティベーション ベースの専門家による使用が広範囲かつ長期にわたるのに対し、勾配ベースの重要性が集中していることを示しています。専門家レベルでは、良性および有害なプロンプト グループは、両方の信号の下で適度に分離された状態で近接したままになります。レイヤ レベルでは、アクティベーション ベースのルーティングはレイヤ 8 ~ 15 付近で最も選択的ですが、勾配ベースの重要性は最終レイヤに集中します。専門家の分類では、ほとんどの専門家が無害なプロンプトと有害なプロンプトにわたって共有されていることが示されていますが、限られたサブセットでは明確なグループの好みが示されています。上位ランクのエキスパート セットは、活性化スコアよりも勾配スコアの下でより強い良性と悪意の重複を示し、共通の後期層エキスパート セットに集中していることを示唆しています。介入実験では、活性化スコアから上位 5 人の良性優勢エキスパートを抑制すると、100 のプロンプトに対して制限された応答が 24 から 14 に減少します。一方、勾配導出エキスパートを抑制すると、意図しない逆転が少なくなり、制限された応答が 34 から 22 に減少します。全体として、Mixtral における安全関連のルーティングは微妙で深さに依存しており、固定された専門家セットによって支配されるのではなく分散されています。
原文 (English)
Safety-Oriented Routing Analysis of Mixtral MoE Under Benign and Harmful Prompts
Sparse mixture-of-experts (MoE) language models activate only a small subset of parameters for each token, making router behavior a central part of model computation. This paper studies routing behavior of Mixtral 8x7B-Instruct under benign and harmful prompts using two complementary signals: activation-based routing scores derived from expert selection frequencies and gradient-based scores derived from router-gate sensitivities. We analyze expert- and layer-level routing behavior and conduct expert-suppression interventions. The results show that activation-based expert usage is broad and long-tailed, whereas gradient-based importance is concentrated. At expert level, benign and harmful prompt groups remain close under both signals with modest separation. At layer level, activation-based routing is most selective around layers 8-15, while gradient-based importance is concentrated in final layers. Expert classification shows most experts are shared across benign and harmful prompts, though a limited subset shows clear group preference. Top-ranked expert sets show stronger benign-malicious overlap under gradient scores than activation scores, suggesting concentration on a common late-layer expert set. In intervention experiments, suppressing top five benign-dominant experts from activation scores reduces restricted responses from 24 to 14 over 100 prompts, while suppressing gradient-derived experts reduces them from 34 to 22 with fewer unintended reversals. Overall, safety-relevant routing in Mixtral is subtle, depth-dependent, and distributed rather than dominated by a fixed set of experts.
合成特許データが役立つのはどのような場合ですか?低リソースのマルチラベル分類におけるボリューム忠実度のトレードオフ
私たちは、LLM で生成された合成データが、低リソースのマルチラベル特許分類に役立つ場合を研究し、真の合成価値を、大規模な拡張セットが量だけで勝てるという混乱から分離します。 6 つのオープンソース LLM (3.8-12B)、4 つの実データ レジーム、64 の WIPO 支援技術ラベル、2 世代戦略、および 3 つの分類子ファミリーにわたって、見出しの BERT for Patents のマイクロ F1 が 0.120 から 0.702 に上昇したのは、主に数量によるものです。 165 件の特許を拡張サイズにリサンプリングする複製と一致の実際のみのコントロールは 0.678 に達します。制御された合成ゲインは、この制御に対してわずか +0.024 ですが、焦点損失再重み付けに対しては +0.219 であり、最も強力な非増強ベースラインです。主な発見は、忠実度メトリクスの意味がスケールに応じて変化することです。極度の希少性では、MMD は分類ゲインと正の相関関係があります (r=+0.95) が、1:10 では関係が反転します (r=-0.73; Fisher z=+6.47、p<0.001)。固定予算のミキシングでは、20 ~ 30% が実際の最適値、70 ~ 80% が総合的な最適値になります。言い換えると、165 個のドキュメント シードからはスケーリングが崩れます。シャッフルミキシングビートカリキュラムの順序付け、アンサンブル、分類子ベースのフィルタリング。漏洩制御 (ラベル名のマスキング、命令レベルのラベルの削除、きめ細かい評価、およびキーワードの重複監査) は、特許のための BERT の主な推進要因としてのラベル文字列の依存性に反対しています。ラベルの削除による明らかな ModernBERT の崩壊は、Flash-Attendant-2 + bf16 の数値アーティファクトに遡り、fp32 熱心なアテンションで失われたパフォーマンスの 65% を回復します。最後に、生のマイクロ F1 を最大 +0.58 増加させて分類を改善する同じコーパスは、Jaccard ラベルの重複検索プロキシに悪影響を及ぼします。標準特許のみのフィルターでも、26% の nDCG@10 ドロップが残ります。したがって、合成特許テキストはタスクおよび測定基準に固有であり、プロンプトジャンルのみに還元することはできません。
原文 (English)
When Does Synthetic Patent Data Help? Volume-Fidelity Trade-offs in Low-Resource Multi-Label Classification
We study when LLM-generated synthetic data helps low-resource multi-label patent classification, separating true synthetic value from the confound that larger augmented sets can win by volume alone. Across six open-source LLMs (3.8-12B), four real-data regimes, 64 WIPO assistive-technology labels, two generation strategies, and three classifier families, the headline BERT-for-Patents micro-F1 jump from 0.120 to 0.702 is largely volume-driven. A duplicate-to-match real-only control that resamples 165 patents to the augmented size reaches 0.678; the controlled synthetic gain is only +0.024 over this control, but +0.219 over focal-loss reweighting, the strongest non-augmentation baseline. The main finding is that fidelity metrics change meaning with scale: at extreme scarcity, MMD correlates positively with classification gain (r=+0.95), but at 1:10 the relation flips (r=-0.73; Fisher z=+6.47, p<0.001). Fixed-budget mixing finds a 20-30% real / 70-80% synthetic optimum; paraphrase scaling collapses from a 165-document seed; and shuffled mixing beats curriculum ordering, ensembling, and classifier-based filtering. Leakage controls -- label-name masking, instruction-level label removal, fine-grained evaluation, and keyword-overlap audits -- argue against label-string dependence as the main driver for BERT-for-Patents. The apparent ModernBERT collapse under label removal is traced to a Flash-Attention-2 + bf16 numerical artifact, recovering 65% of lost performance with fp32 eager attention. Finally, the same corpus that improves classification by up to +0.58 raw micro-F1 hurts a Jaccard-label-overlap retrieval proxy; even a standard-patent-only filter leaves a 26% nDCG@10 drop. Thus, synthetic patent text is task- and metric-specific, not reducible to prompt genre alone.
ゲームコードのワールドモデル生成を軽量の大規模言語モデルに抽出する
大規模言語モデル (LLM) は、自然言語から実行可能コードを生成する優れた能力を示しており、AI エージェント用の環境を自動的に構築する可能性が開かれています。コード ワールド モデル (CWM) に関する最近の研究では、LLM がゲーム ルールをモンテカルロ ツリー検索などのソルバーと互換性のある Python 実装に変換できることが実証されました。私たちは、生成された環境がルール、法的措置、状態遷移、観察、報酬を実装する必要があるゲーム設定でこの問題を研究します。これらのゲーム固有の実行可能モデルをゲーム コード ワールド モデル (GameCWM) と呼びます。ただし、コード ワールド モデルを生成する現在のアプローチは、フロンティア モデルと推論時の改良ループに依存しており、アクセシビリティとスケーラビリティが制限されています。この研究では、GameCWM 生成機能をポストトレーニングを通じてより小さなモデルに抽出できるかどうかを調査します。 (1) 完全情報ゲームと不完全情報ゲームにわたる 30 のゲームの厳選されたデータセット、(2) 生成されたコードを構造的および意味論的なゲームのプロパティに対して評価する検証フレームワーク、(3) 教師あり微調整 (SFT) と検証可能な報酬を伴う強化学習 (RLVR) を組み合わせたトレーニング後のパイプラインを紹介します。 Qwen2.5-3B-Instruct を実験したところ、SFT は構文の正確性を向上させることができる一方で、RLVR は実行レベルでのゲーム ルールの遵守を向上させることができ、それによって完全情報ゲームと不完全情報ゲームの両方で有効な GameCWM を生成する Qwen の能力が向上することがわかりました。全体として、私たちのパイプラインにより、Qwen2.5-3B-Instruct は有効な GameCWM を生成できるようになり、それによって自然言語からの自動環境生成へのスケーラブルなパスが提供されます。
原文 (English)
Distilling Game Code World Model Generation into Lightweight Large Language Models
Large Language Models (LLMs) have shown great ability in generating executable code from natural language, opening the possibility of automatically constructing environments for AI agents. Recent work on Code World Models (CWMs) demonstrates that LLMs can translate game rules into Python implementations compatible with solvers like Monte Carlo Tree Search. We study this problem in game settings, where generated environments must implement rules, legal actions, state transitions, observations, and rewards. We refer to these game-specific executable models as Game Code World Models (GameCWMs). However, current approaches to generating code world models rely on frontier models and inference-time refinement loops, limiting accessibility and scalability. This work investigates whether GameCWM generation capabilities can be distilled into smaller models through post-training. We introduce: (1) a curated dataset of 30 games spanning perfect and imperfect information games, (2) a verification framework that evaluates generated code against structural and semantic game properties, and (3) a post-training pipeline combining Supervised Fine-Tuning (SFT) with Reinforcement Learning with Verifiable Rewards (RLVR). We experiment with Qwen2.5-3B-Instruct and find that SFT can increase syntactic correctness, while RLVR can improve execution-level adherence to game rules, thereby improving Qwen's ability to generate valid GameCWMs in both perfect and imperfect information games. Overall, our pipeline makes Qwen2.5-3B-Instruct more capable of generating valid GameCWMs, thereby offering a scalable path toward automatic environment generation from natural language.
LLM 推論を改善するための時期尚早な自信を理解し、軽減する
現在の言語モデルの長い思考連鎖 (CoT) には論理的なギャップや不当な飛躍が含まれることが多く、追加のテスト時の計算による利益が制限されます。推論の品質を直接向上させるにはプロセス報酬モデルが必要ですが、それらをトレーニングするために必要なステップレベルのアノテーションは高価で不足しています。私たちは、推論中にモデルの信頼度がどのように変化するかにそのような兆候を発見しました。時期尚早な自信、つまり、答えを早く決めて、残りのトークンを使ってそれを合理化する傾向は、タスクとモデルのスケール全体で推論に欠陥があることを強く予測します。私たちはこれを漸進的信頼形成で利用します。これは、早期にコミットするのではなく推論しながら自信を更新するようにモデルをトレーニングする強化学習目標です。外部のラベルや報酬モデルを使用せず、段階的な自信の成長に報酬を与え、早期のコミットメントにペナルティを与えます。この方法により、算術 (カウントダウン)、数学 (DAPO、AIME)、科学 (ScienceQA) のパラメータ全体で精度と推論の質が 1.5B から 8B に向上しました。Countdown では、精度が 3.2 倍 (+42.0 pp) 向上し、欠陥のある推論は 48 pp 低下しました。 AIME では、Pass@64 により 6.6pp 改善されます。このメカニズムと一致して、この方法は忠実性も向上させます。安全性ベンチマークでは、私たちのモデルは、推論トレース内の誤解を招くコンテンツを隠すのではなく、より透過的に表面化します。対照的な実験では、問題とその解決策が同時にスケールすることが明らかになりました。モデルのサイズとタスクの難易度が上がるにつれて、時期尚早の確信が高まり、それに対処することで得られる利益も同様に大きくなります。
原文 (English)
Understanding and Mitigating Premature Confidence for Better LLM Reasoning
Long chains of thought (CoT) from current language models frequently contain logical gaps and unjustified leaps, limiting the gains from additional test-time compute. Improving reasoning quality directly would require process reward models, but the step-level annotations needed to train them are expensive and scarce. We find such a signal in how the model's confidence evolves during reasoning: premature confidence, the tendency to commit to an answer early and use the remaining tokens to rationalize it, strongly predicts flawed reasoning across tasks and model scales. We exploit this in progressive confidence shaping, a reinforcement learning objective that trains models to update their confidence as they reason rather than commit early -- rewarding gradual confidence growth and penalizing early commitment, with no external labels or reward models. The method improves accuracy and reasoning quality from 1.5B to 8B parameters across arithmetic (Countdown), math (DAPO, AIME), and science (ScienceQA): on Countdown, accuracy improves 3.2x (+42.0pp) and flawed reasoning drops 48pp; on AIME, Pass@64 improves 6.6pp. Consistent with this mechanism, the method also improves faithfulness: on a safety benchmark, our models more transparently surface misleading content in their reasoning traces rather than concealing it. Controlled experiments reveal that the problem and its remedy scale together: premature confidence grows with model size and task difficulty, and so do the gains from addressing it.
マルチエージェント LLM 意思決定システムにおける動的信用割り当てのための市場制度評議会
ポートフォリオ管理のためのマルチエージェント LLM 意思決定システムには、専門エージェント間でクレジットを割り当てるための原則的な方法が依然として欠けており、レジームシフトの下でコールドスタートの優位性に対して脆弱なままであり、最終的な割り当てがどのように形成されるかについての透明性が限られています。私たちは、オンラインエージェントの重み付けのための単一、ペア、および大連合のすべての出力にわたって正確なシャプレークレジットを計算する、協力的なマルチエージェント意思決定システムである Market Regime Council (MRC) を提案します。 N=3 の専門エージェントでインスタンス化され、各取引期間で、MRC は指数関数的に重み付けされたパフォーマンス履歴から連合ベースのシャプリー重みを再計算し、ベイズ適応混合を使用して初期期間を安定させ、レジーム依存の乗数を適用してエージェントの権限を調整し、5 層の因果追跡を通じて各リバランスを記録します。 13の暗号資産と5つのシードにわたる1,037営業日にわたって、MRCは1.51のシャープ・レシオと440.1%の累積リターンを達成し、アクティブなベースラインの中でCR、SR、IRで第1位にランクされ、アクティブなメソッドの中で最低のMDDを達成しました。アブレーションの結果は、その利益が単独の単一段階からではなく、連合の出力にわたるシャプレー重み付け統合から得られることを示しています。コードとデモ データは補足資料に含まれています。
原文 (English)
Market Regime Council for Dynamic Credit Assignment in Multi-Agent LLM Decision Systems
Multi-agent LLM decision systems for portfolio management still lack a principled way to assign credit across specialist agents, remain vulnerable to cold-start dominance under regime shifts, and offer limited transparency into how final allocations are formed. We propose Market Regime Council (MRC), a cooperative multi-agent decision system that computes exact Shapley credits across all single, pairwise, and Grand-coalition outputs for online agent weighting. Instantiated with N=3 specialist agents, at each trading period, MRC recomputes coalition-based Shapley weights from exponentially weighted performance histories, uses a Bayesian adaptive mixture to stabilize early periods, applies regime-dependent multipliers to adjust agent authority, and records each rebalance through a five-layer causal trace. Over 1,037 trading days across 13 crypto assets and five seeds, MRC achieves a Sharpe ratio of 1.51 and a cumulative return of 440.1%, ranking first on CR, SR, and IR among active baselines and attaining the lowest MDD among active methods. Ablation results show that the gains come from Shapley-weighted integration across coalition outputs rather than from any single stage in isolation. Code and demo data are included in the supplementary material.
攻撃対象としての推論: LLM の適応進化型 CoT ジェイルブレイク
大規模推論モデル (LRM) は、推論および生成タスクにおいて優れた機能を実証しており、実世界のアプリケーションへの導入が増えています。ただし、明示的な思考連鎖 (CoT) メカニズムにより新たなセキュリティ リスクが生じ、ジェイルブレイク攻撃に対して特に脆弱になります。既存のアプローチは、有害な出力を引き出すために静的な CoT テンプレートに依存することがよくありますが、そのような固定設計では多様性、適応性、有効性が制限されます。これらの制限を克服するために、AE-CoT と呼ばれる適応進化型 CoT ジェイルブレイク フレームワークを提案します。具体的には、この方法ではまず、有害な目標を教師のロールプレイで穏やかなプロンプトに書き換え、それを意味的に一貫した推論の断片に分解して、CoT 脱獄候補者のプールを構築します。次に、構造化表現空間内で、多世代の進化的探索を実行します。この探索では、フラグメントレベルの交叉と適応突然変異率制御メカニズムを備えた突然変異戦略を通じて、候補の多様性が拡張されます。独立したスコアリング モデルは段階的な有害性評価を提供し、高スコアの候補は有害な CoT テンプレートでさらに強化され、より破壊的な世代を誘発します。複数のモデルとデータセットにわたる広範な実験により、提案された AE-CoT の有効性が実証され、常に最先端のジェイルブレイク手法を上回っています。
原文 (English)
Reasoning as an Attack Surface: Adaptive Evolutionary CoT Jailbreaks for LLMs
Large Reasoning Models (LRMs) have demonstrated remarkable capabilities in reasoning and generation tasks and are increasingly deployed in real-world applications. However, their explicit chain-of-thought (CoT) mechanism introduces new security risks, making them particularly vulnerable to jailbreak attacks. Existing approaches often rely on static CoT templates to elicit harmful outputs, but such fixed designs suffer from limited diversity, adaptability, and effectiveness. To overcome these limitations, we propose an adaptive evolutionary CoT jailbreak framework, called AE-CoT. Specifically, the method first rewrites harmful goals into mild prompts with teacher role-play and decomposes them into semantically coherent reasoning fragments to construct a pool of CoT jailbreak candidates. Then, within a structured representation space, we perform multi-generation evolutionary search, where candidate diversity is expanded through fragment-level crossover and a mutation strategy with an adaptive mutation-rate control mechanism. An independent scoring model provides graded harmfulness evaluations, and high-scoring candidates are further enhanced with a harmful CoT template to induce more destructive generations. Extensive experiments across multiple models and datasets demonstrate the effectiveness of the proposed AE-CoT, consistently outperforming state-of-the-art jailbreak methods.
PALoRA: 大規模言語モデルで推論を保持するための射影適応型 LoRA
新しい、または進化する事実の知識で大規模言語モデル (LLM) を効率的に更新することは、依然として中心的な課題です。パラメータ効率の高い適応でさえ、以前に獲得した推論能力を損なう可能性があるからです。この緊張は、可塑性と安定性のジレンマを反映しています。モデルには、スキルが重要な表現を維持しながら、新しい知識を組み込む必要があります。この研究では、多層パーセプトロン重み行列のスペクトル構造を通じてこのトレードオフを研究します。我々は理論的にも経験的にも、推論に不可欠な情報が支配的な特異方向のみに局在しているのではなく、特異スペクトル全体に分布していることを示します。この観察を動機として、干渉を軽減した知識注入のための 2 段階のフレームワークである PALoRA を紹介します。 PALoRA はまず、推論データセットで特異値微調整 (SVF) エキスパートをトレーニングし、学習した特異スケーリング ベクトルを凍結幾何学プローブとして使用して、ターゲット スキルにとって重要なコンポーネントを特定します。次に、構造的直交性制約の下で低ランク適応 (LoRA) を使用して事実知識の注入を実行し、特定されたスキル関連部分空間を更新が確実に回避できるようにします。 Llama 3.1 8B と Mistral 7B、および数学的、コーディング、科学的推論ベンチマーク全体にわたって、PALoRA は競争力のある事実再現を維持しながら、SVF エキスパートの推論パフォーマンスの平均 95% を維持します。これにより、追加されるパラメーターのオーバーヘッドが 0.006% 未満になりながら、以前のスペクトル パラメーター効率の良い微調整 (PEFT) メソッドよりもスキル保持率が一貫して向上します。
原文 (English)
PALoRA: Projection-Adaptive LoRA for Preserving Reasoning in Large Language Models
Efficiently updating Large Language Models (LLMs) with new or evolving factual knowledge remains a central challenge, as even parameter-efficient adaptation can erode previously acquired reasoning abilities. This tension reflects a plasticity-stability dilemma: models must incorporate new knowledge while preserving skill-critical representations. In this work, we study this trade-off through the spectral structure of multilayer perceptron weight matrices. We show, both theoretically and empirically, that information essential for reasoning is not localized only in dominant singular directions, but is instead distributed across the singular spectrum. Motivated by this observation, we introduce PALoRA, a two-stage framework for knowledge injection with reduced interference. PALoRA first trains a Singular Value Fine-Tuning (SVF) expert on a reasoning dataset and uses its learned singular scaling vector as a frozen geometric probe to identify components that are critical for the target skill. It then performs factual knowledge injection with Low-Rank Adaptation (LoRA) under a structural orthogonality constraint, ensuring that updates avoid the identified skill-relevant subspace. Across Llama 3.1 8B and Mistral 7B, and across mathematical, coding, and scientific reasoning benchmarks, PALoRA preserves on average 95% of the SVF expert's reasoning performance while maintaining competitive factual recall. It consistently improves skill retention over prior spectral Parameter-Efficient Fine-Tuning (PEFT) methods while adding less than 0.006% parameter overhead.
脱獄による保護: 大規模な言語モデルでの安全な微調整のための一時的な脱獄によるバッファリングと強化
Fine-tuning-as-a-Service (FaaS) により、大規模言語モデル (LLM) のパーソナライズが可能になりますが、有害な微調整攻撃の下では安全性の調整が弱まる可能性があります。最近の研究では、微調整中に有害な動作モジュールをアクティブ化すると、モデルが望ましくない動作を学習するのを防ぐことができることが示されていますが、そのメカニズムはまだ不明です。この論文では、有害な微調整に対する防御策としての一時的なジェイルブレイクを再検討し、安全性を低下させる勾配を飽和させながら、タスクに関連する良性の勾配を維持することを示す勾配レベルの分析を提供します。この洞察に基づいて、ユーザーの微調整中に有害な更新をバッファリングし、適応後の安全性を強化する、バッファーと強化の微調整フレームワークを提案します。具体的には、BufferLoRA は、ユーザーによる微調整中の有害な更新を減らすために、取り外し可能なアダプターとして一時的なジェイルブレイクを誘発します。適応後、一時的に脱獄された状態で拒否行動を回復するように訓練された ReinforceLoRA は、QR 分解ベースのマージを介して UserLoRA と統合され、ユーザータスクのパフォーマンスを維持しながら安全性を強化します。広範な実験により、当社のフレームワークは、ユーザーの微調整中に追加の安全性データを必要とせず、最小限の計算コストで優れた安全性と実用性を実現できることが示されています。
原文 (English)
Jailbreak to Protect: Buffering and Reinforcing via Temporary Jailbreaking for Safe Fine-Tuning in Large Language Models
Fine-tuning-as-a-Service (FaaS) enables personalization of large language models (LLMs), but it can weaken safety-alignment under harmful fine-tuning attacks. Recent work has shown that activating harmful-behavior modules during fine-tuning can prevent models from learning undesired behaviors, but its mechanism remains unclear. In this paper, we revisit temporary jailbreaking as a defense against harmful fine-tuning and provide a gradient-level analysis showing that it saturates safety-degrading gradients while preserving benign task-relevant gradients. Based on this insight, we propose a Buffer-and-Reinforce fine-tuning framework that buffers harmful updates during user fine-tuning and reinforces safety after adaptation. Specifically, BufferLoRA induces temporary jailbreaking as a removable adapter to reduce harmful updates during user fine-tuning. After adaptation, ReinforceLoRA, trained to recover refusal behavior under the temporarily jailbroken state, is integrated with UserLoRA via QR decomposition-based merging to reinforce safety while preserving user-task performance. Extensive experiments show that our framework achieves superior safety and utility with no additional safety data during user fine-tuning and minimal computational cost.
オラクルを召喚してそれを倒す: 大規模な言語モデルを使用した財務バックテストにおける先読みバイアスを軽減する
過去の財務データに基づく大規模言語モデル (LLM) のバックテストは、イベントの発生後に事前トレーニングが中断されるため、信頼性が低くなります。 2024年に訓練されたLLMは、2018年から2020年の株価がどの方向に動いたかをすでに「知っている」。我々は、この障害パラメトリック先読みバイアスを名前をつけ、再トレーニングすることなくLLMの過去の結果の記憶を抑制するコンテキスト認識デコーディングの推論時間適応であるFinCADを提案します。 FinCAD は、モデル固有のメモリをアクティブにする事前プロンプトを学習する敵対的バイアス発見パイプラインと、CAD の強度を (エンティティ、日付) ごとの記憶にスケールするエンティティおよび日付に適応するルールと組み合わせます。これにより、ペナルティは記憶されたサンプル内日付で発動され、サンプル外ではゼロに減衰します。 5 つの 7-14B LLM と 5 つの超大型株にわたって、FinCAD は、サンプル内のバックテストのリターンを記憶された日付で最大 -67.1% 削減しますが、2025 年のサンプル外のリターンは 8,000 ドル以内、シャープはベースラインの 0.10 以内に保ち、汎用推論を 1.7 ポイント以内に維持します。 11 モデルのリーダーボードでは、サンプル内 / サンプル外のスピアマン相関が +0.779 から +0.846 に上昇し、サンプル外のパフォーマンスを真に予測するランキングを回復しました。
原文 (English)
Summoning the Oracle to Slay It: Mitigating Look-Ahead Bias in Financial Backtesting with Large Language Models
Backtesting large language models (LLMs) on historical financial data is unreliable because pre-training cuts off after the events happened. An LLM trained in 2024 already "knows" which way 2018-2020 stocks moved. We name this failure parametric look-ahead bias and propose FinCAD, an inference-time adaptation of Context-Aware Decoding that suppresses an LLM's memory of historical outcomes without retraining. FinCAD pairs an adversarial bias-discovery pipeline that learns a model-specific memory-activating prior prompt with an entity- and date-adaptive rule that scales the CAD strength to per-(entity, date) memorisation, so the penalty fires on memorised in-sample dates and decays to zero out-of-sample. Across five 7-14B LLMs and five mega-cap equities, FinCAD cuts in-sample backtest returns by up to -67.1% on memorised dates while leaving 2025 out-of-sample returns within $8K and Sharpe within 0.10 of baseline, and preserves general-purpose reasoning within 1.7 pts. On an eleven-model leaderboard, it raises the in-sample / out-of-sample Spearman correlation from +0.779 to +0.846, recovering rankings that genuinely predict out-of-sample performance.
A* ポストトレーニングで効率的に推論する方法を学ぶ
大規模言語モデル (LLM) のアプリケーションの多くは演繹的推論を必要としますが、モデルでは誤った推論ステップや冗長な推論ステップが頻繁に生成されます。私たちは自然言語推論を、最終的な答えが有効な証明そのものである検索問題として組み立て、中間の推論が正しい推論手順を必要とします。具体的には、LLM が A* 検索 (目標への最適かつ効率的なパスを保証するアルゴリズム) からのガイダンスに従って、正しく効率的な証明を生成する方法を学習できるかどうかを調査します。私たちは 2 つのトレーニング手法を検討します。A* からの実行トレースの教師あり微調整と、A* 情報に基づいたプロセス報酬モデルを使用した強化学習です。経験的に、1B ~ 3B の範囲の Llama-3.2 モデルはトレーニング後の A* から大幅な恩恵を受け、ほぼゼロの精度から、はるかに大規模なモデルである DeepSeek-V3.2 を上回るパフォーマンスを発揮することがわかりました。私たちの分析ではトレードオフが明らかになりました。単純な正確性により精度が最大化される一方で、A* 情報による信号は精度と効率のバランスをとるというものです。さらに、より大きな検索空間では、不完全なヒューリスティックでトレーニングされたモデルが優れた精度を示すことがわかりました。私たちの結果は、古典的な検索アルゴリズムから導き出された原理に基づいた推論への有望な方向性を示しています。
原文 (English)
Learning to Reason Efficiently with A* Post-Training
Many applications of large language models (LLMs) require deductive reasoning, yet models frequently produce incorrect or redundant inference steps. We frame natural language inference as a search problem where the final answer is the valid proof itself, requiring a reasoning procedure in which intermediate inferences are correct. Specifically, we investigate whether LLMs can learn to generate correct and efficient proofs with guidance from A* search -- an algorithm that guarantees an optimally efficient path to a goal. We explore two training techniques: supervised fine-tuning on execution traces from A* and reinforcement learning with A*-informed process reward models. Empirically, we find that Llama-3.2 models in the 1B--3B range benefit substantially from A* post training, going from near-zero accuracy to outperforming DeepSeek-V3.2 -- a much larger model. Our analysis uncovers a trade-off: while simple correctness rewards maximize accuracy, A*-informed signals strike a balance between accuracy and efficiency. Furthermore, we find that on larger search spaces, models trained with imperfect heuristics exhibit superior accuracy. Our results demonstrate a promising direction towards reasoning guided by principles derived from classical search algorithms.
Hera: デバイスとクラウドの連携 LLM エージェントのための長期的な調整の学習
大規模言語モデル (LLM) エージェントは、環境との自律的な対話を通じて、長期にわたる複雑なタスクを解決することに優れています。しかし、実際の展開では、デバイスの基本的なジレンマ、つまりクラウドのジレンマに直面しています。オンデバイス モデルは効率的ですが、多くの場合脆弱ですが、クラウド モデルは強力ですが、計算コストがかかります。最先端の LLM デバイス -- クラウド ルーターは通常、大まかなタスク レベルの決定を行うため、複数ステップのエージェント インタラクションの困難さの変化に適応できません。この問題に対処するために、強力なパフォーマンスとコスト パレート フロンティアを実現する長期タスク用のクラウド LLM エージェント コーディネーターであるステップ レベルのデバイスである Hera を紹介します。 Hera は、新しい 2 段階のトレーニング パラダイムを採用しています。(1) コールド スタートのための模倣学習、続いて (2) タスクの成功とクラウドの使用効率を共同で最適化する強化学習です。最初の段階では、ステップレベルのルーティングを教師あり分類問題としてキャストします。デバイス エージェントはクラウドの軌跡上で再生され、各状態はデバイスとクラウドのアクション間の合意によってラベル付けされます。第 2 段階では、軌跡全体で同一の状態をグループ化し、より高い期待リターンとより少ない将来のクラウド呼び出しを優先するラベルで Hera を更新することで、コストを意識した強化学習を実行します。 ALFWorld、WebShop、および AppWorld で Hera を評価しました。その結果、Hera は以前の方法よりも常に優れたパフォーマンスを示し、わずか 46.3% のステップでクラウドを使用しながら、クラウドのみの成功率の 92.5% を達成しました。
原文 (English)
Hera: Learning Long-Horizon Coordination for Device-Cloud Collaborative LLM Agents
Large language model (LLM) agents excel at solving complex long-horizon tasks through autonomous interaction with environments. However, their real-world deployment faces a fundamental device--cloud dilemma: on-device models are efficient but often brittle, while cloud models are stronger but costly in computation. State-of-the-art LLM device--cloud routers usually make coarse task-level decisions, which cannot adapt to the changing difficulty of multi-step agent interactions. To address this issue, we present Hera, a step-level device--cloud LLM agent coordinator for long-horizon tasks achieving a strong performance--cost Pareto frontier. Hera adopts a novel two-stage training paradigm: (1) imitation learning for cold-start, followed by (2) reinforcement learning that jointly optimizes task success and cloud usage efficiency. The first stage casts step-level routing as a supervised classification problem: the device agent is replayed on cloud trajectories, with each state labeled by the agreement between device and cloud actions. In the second stage, we perform cost-aware reinforcement learning by grouping identical states across trajectories and updating Hera with labels favoring higher expected return and fewer future cloud calls. We evaluate Hera on ALFWorld, WebShop, and AppWorld, where it consistently outperforms prior methods, achieving 92.5% of the cloud-only success rate with cloud use in only 46.3% of steps.
Agent-as-Peer-Debriefer: 定性分析のための視点ベースの改良を備えたマルチエージェント フレームワーク
大規模言語モデル (LLM) は定性データ分析 (QDA) に使用されることが増えていますが、その出力には人間による分析の深さやニュアンスが欠けていることがよくあります。私たちは、このギャップは、人間の QDA から信頼性を確保するための実践が欠けていることを反映していると主張します。ピア・デブリーフィングとは、アナリストが無関心なピアからフィードバックを求め、それを利用してコーディングを改良するものです。この実践を LLM 支援 QDA に導入するために、主要なコーディング手順にピア デブリーフィングを組み込むマルチエージェント QDA フレームワークである Agent-as-Peer-Debriefer を提案します。私たちのフレームワークでは、階層型コーディング エージェントが標準の QDA プロセスに従って、コード、サブテーマ、テーマ、および自己説明と反省メモを生成します。次に、これらの出力を 3 つのピア デブリーフィング エージェントと共有し、それぞれが異なる分析観点 (理論駆動、データ駆動、または応用) を適用し、コードの保持、名前変更、再割り当て、結合、または分割によってコードを洗練します。これらの視点は、ドメインとデータセット全体に一般化された確立された人間の QDA 実践から得られます。フレームワークを評価するために、3 つの LLM を使用して 2 つのドメインにわたる 3 つのデータセットでフレームワークをテストし、人間が注釈を付けたコードとの意味的な類似性を測定します。すべての設定において、パースペクティブベースのピアデブリーフィングの改良は、単一 LLM ベースラインよりも人間のコードとより密接に一致しており、アブレーションは、その利点が単に追加の改良によるものではないことをさらに示しています。また、3 つのパースペクティブは明確なトレードオフを生み出し、パースペクティブの選択が有意義で制御可能な設計上の決定であることを示しています。より広く言えば、これらの発見は、明確な視点を持ってピアデブリーフィングをシミュレートすることが、より信頼性の高い LLM 支援 QDA への有望な手段であることを示唆しています。
原文 (English)
Agent-as-Peer-Debriefer: A Multi-Agent Framework with Perspective-Based Refinement for Qualitative Analysis
Large language models (LLMs) are increasingly used for qualitative data analysis (QDA), yet their outputs often miss the depth and nuance of human analysis. We argue this gap reflects a missing credibility practice from human QDA: peer debriefing, in which an analyst seeks feedback from a disinterested peer and uses it to refine their coding. To bring this practice into LLM-assisted QDA, we propose Agent-as-Peer-Debriefer, a multi-agent QDA framework that builds peer debriefing into key coding steps. In our framework, a Hierarchical Coding Agent follows the standard QDA process to generate codes, sub-themes, and themes, along with self-explanations and reflection memos. It then shares these outputs with three Peer-Debriefing Agents, each applying a distinct analytical perspective (Theory-Driven, Data-Driven, or Applied) and refining the codes by keeping, renaming, reassigning, merging, or splitting them. These perspectives are drawn from established human QDA practices that generalize across domains and datasets. To evaluate the framework, we test it on three datasets across two domains with three LLMs, measuring semantic similarity to human-annotated codes. Across all settings, perspective-based, peer-debriefing refinement aligns more closely with human codes than a single-LLM baseline, and an ablation further shows the gain is not merely from additional refinement. The three perspectives also produce distinct trade-offs, showing that the choice of perspective is a meaningful and controllable design decision. More broadly, these findings suggest that simulating peer debriefing with explicit perspectives is a promising route to more credible LLM-assisted QDA.
GlobalDentBench: 専門家による校正を使用して歯科における LLM 臨床推論を評価するための多国籍ベンチマーク
大規模言語モデル (LLM) は医学に変革をもたらす可能性を秘めていますが、実際の臨床シナリオにおけるその推論の堅牢性と安全性は、特に歯科分野では依然として十分に解明されていません。ここでは、初の多国籍歯科ベンチマークである GlobalDentBench を紹介します。これは、6 大陸にわたる 88 の国と地域の 14 の歯科専門分野を網羅する分類法を特徴としています。このベンチマークは、専門家によって検証された 3 つの形式 (多肢選択式、短答式、事例ベースの質問) にわたる 8,978 件の質問で構成され、知識想起 (L1)、日常的な推論 (L2)、および個別の推論 (L3) という 3 つの進歩的な推論レベルを評価します。データの品質を確保するために、自動構築フレームワークは 6 人の上級歯科医師によって調整され、多肢選択式および短答式の質問については 99.98%、より複雑な症例ベースの質問については 96.78% の専門家同意率を達成しました。 GlobalDentBench で 12 個のフロンティア LLM を評価したところ、推論の複雑さが増大するにつれて、急激な段階的なパフォーマンスの低下が明らかになりました。具体的には、正解率は多肢選択式の 81.34% から短答式の 64.53%、事例ベースの質問では 22.34% に急落し、L1 の 74.01% から L2 の 55.64%、L3 の 35.71% と著しく低下しました。さらに重要なことは、実際の歯科症例のリスク分析により、LLM が生成した臨床推奨事項における全体的な危険率が 31.01% という驚くべき割合であることが示され、そのうち 4.51% は患者に取り返しのつかない害を及ぼすリスクと、特に歯科矯正などの専門分野で顕著なリスクをもたらしていることが示されました。これらの発見は、現在のLLMの医学的推論と安全性における根本的な限界を明らかにしています。その結果、GlobalDentBench は信頼できる臨床 AI 評価のためのスケーラブルな基盤を提供し、これらのモデルを医療分野に安全に導入する前に厳格な検証が緊急に必要であることを強調しています。
原文 (English)
GlobalDentBench: A Multinational Benchmark for Evaluating LLM Clinical Reasoning in Dentistry with Expert Calibration
While large language models (LLMs) hold transformative potential for medicine, their reasoning robustness and safety in real-world clinical scenarios remain critically underexplored, particularly in dentistry. Here we introduce GlobalDentBench, the first multinational dental benchmark, featuring a taxonomy that encompasses 14 dental specialties across 88 countries and regions spanning six continents. The benchmark comprises 8,978 expert-validated questions across three formats (multiple-choice, short-answer, and case-based questions) and assesses three progressive reasoning levels: knowledge recall (L1), routine reasoning (L2), and individualized reasoning (L3). To ensure data quality, the automated construction framework was calibrated by six senior dentists, achieving expert agreement rates of 99.98% for multiple-choice and short-answer questions and 96.78% for the more complex case-based questions. Evaluation of 12 frontier LLMs on GlobalDentBench revealed a sharp, stepwise performance degradation with increasing reasoning complexity. Specifically, accuracy plummeted from 81.34% on multiple-choice to 64.53% on short-answer and 22.34% on case-based questions, while declining markedly from 74.01% at L1 to 55.64% at L2 and 35.71% at L3. More critically, risk analysis of real-world dental cases demonstrated an alarming overall unsafe rate of 31.01% in LLM-generated clinical recommendations, with 4.51% posing risks of irreversible patient harm and risks particularly pronounced in specialties such as orthodontics. These findings expose fundamental limitations in the medical reasoning and safety of current LLMs. Consequently, GlobalDentBench provides a scalable foundation for trustworthy clinical AI evaluation, underscoring the urgent need for rigorous validation before the safe deployment of these models in healthcare.
推論のみの展開を超えて: 重みベースの統合とカスケード圧縮の比較
主要な LLM プラットフォームは、推論のみの構成でモデルをデプロイします。モデルはリクエストを処理しますが、ユーザーごとの重みを更新することはありません。ユーザーは設定、修正、プロジェクト コンテキストを繰り返し再教育する必要があり、コンテキスト ベースの回避策はコンテキスト ウィンドウのスペースを消費し、カスケード圧縮の下では性能が低下します。私たちは代替案を評価します。それは、単一のコンシューマ GPU でのリフレクション、合成、および低ランク適応 (LoRA) 微調整を介して、インタラクションの知識をモデルの重みに夜間に統合することです。 10 回の現実的なソフトウェア開発会話 (3 つのメモリ タイプにわたる n = 10、1,146 のテスト質問) にわたって、カスケード圧縮の 3 サイクルでは 36.8 +/- 3.0% の知識 (11.8% のノーコンテキストの下限と 90.1% のフルコンテキストの上限の間) が保持され、一方、統合では 80.4 +/- 1.3% が保持され、43.6 pp の増加となります。 (ペア t(9) = 14.8、p 74.6%) およびエピソード的なプロジェクトの事実 (31.5% -> 78.2%)。方法論の余談として、トークンごとの検証クロスエントロピーの平均値は、LLM で判定された精度と負の相関関係があります (r = -0.51) が、トークンごとの検証クロスエントロピーの中央値はほぼ正確に精度を追跡します (r = +0.99)。表面形状の変動を許容する評価者のもとでは、平均値は誤解を招き、ヘビーテールロバストな統計が忠実な信号となります。永続的なパーソナライゼーションには、推論のみの展開を超えて、知識を重みに統合するアーキテクチャに移行する必要があります。
原文 (English)
Beyond Inference-Only Deployment: Comparing Weight-Based Consolidation Against Cascading Compaction
Major LLM platforms deploy models in an inference-only configuration: the model serves requests but never updates per-user weights. Users must repeatedly re-teach preferences, corrections, and project context, and context-based workarounds consume context-window space and degrade under cascading compaction. We evaluate an alternative: nightly consolidation of interaction knowledge into model weights via reflection, synthesis, and Low-Rank Adaptation (LoRA) fine-tuning on a single consumer GPU. Across ten realistic software development conversations (n = 10, 1,146 test questions across three memory types), three cycles of cascading compaction retain 36.8 +/- 3.0% of knowledge (between an 11.8% no-context floor and a 90.1% full-context ceiling), while consolidation retains 80.4 +/- 1.3% -- a 43.6 pp gain (paired t(9) = 14.8, p 74.6%) and episodic project facts (31.5% -> 78.2%). As a methodological aside, mean per-token validation cross-entropy is negatively correlated with LLM-judged accuracy (r = -0.51) while median per-token validation cross-entropy tracks accuracy almost exactly (r = +0.99): under evaluators that tolerate surface-form variation, the mean is misleading and a heavy-tail-robust statistic is the faithful signal. Persistent personalization requires moving beyond inference-only deployment toward architectures that consolidate knowledge into weights.
LLM における推論の質の測定: 多次元の行動フレームワーク
LLM は複雑な推論タスクで目覚ましい成功を収めていますが、現在の評価アプローチは主に最終的な答えの正しさに依存しており、それらの答えを生み出す根本的な推論プロセスについての洞察は限られています。このギャップに対処するために、この研究では、動作の観点から LLM の推論品質を測定するための統一された多次元フレームワークを提案し、理論的に根拠のある 6 つの次元、正確性 (CQ)、一貫性 (CS)、堅牢性 (RS)、論理的一貫性 (LS)、効率 (ES)、安定性 (SS) を運用します。 4 つのベンチマークの 975 項目にわたる 7 つの LLM に関する広範な実験により、このフレームワークが精度のみの指標では見えない動作を明らかにすることが実証されました。特に、論理的一貫性は正しさ (r = -0.172、ns) と直交しており、一貫性のない推論から正しい答えが得られることが確認され、一方、Claude-Haiku-4.5 は最高の多次元スコア (Q_bal = 0.778) を達成しています。さらに、このフレームワークは重大なランキングの逆転を明らかにしています。DeepSeek-V3 は精度優先では 2 位ですが、法的/コンプライアンスの重み付けでは 5 位にランクされており、単一指標の評価では検出できない逆転です。判別式の妥当性により、11/15 次元のペアが独立している (|r| < 0.50) ことが確認され、各次元を別個の信号として扱うための心理測定的サポートが提供されます。フレームワークによって生成される次元プロファイルは、次の 3 つのクラスの展開決定を直接サポートします。最終的な答えが正しいにもかかわらず、その推論トレースが説明責任監査に失敗するモデルを特定します (LS--CQ 直交性)。精度のみのベンチマークによって引き起こされるランキングエラーを防止します。そして、フレームワークがキャプチャする 6 つの独立したシグナルを単一のメトリックが暗黙的に置き換えることがないようにします。
原文 (English)
Measuring Reasoning Quality in LLMs: A Multi-Dimensional Behavioral Framework
LLMs have achieved remarkable success in complex reasoning tasks, yet current evaluation approaches predominantly rely on final-answer correctness, offering limited insight into the underlying reasoning processes that produce those answers. To address this gap, this study proposes a unified multi-dimensional framework for measuring reasoning quality in LLMs from a behavioral perspective, operationalizing six theoretically grounded dimensions: Correctness (CQ), Consistency (CS), Robustness (RS), Logical Coherence (LS), Efficiency (ES), and Stability (SS). Extensive experiments on seven LLMs across 975 items from four benchmarks demonstrate that the framework reveals behaviors invisible to accuracy-only metrics. Notably, logical coherence is orthogonal to correctness (r = -0.172, ns), confirming that correct answers can arise from incoherent reasoning, while Claude-Haiku-4.5 achieves the highest multi-dimensional score (Q_bal = 0.778). Furthermore, the framework exposes critical ranking inversions: DeepSeek-V3 ranks second under accuracy-priority but fifth under legal/compliance weighting, a reversal that single-metric evaluation cannot detect. Discriminant validity confirms 11/15 dimension pairs are independent (|r| < 0.50), providing psychometric support for treating each dimension as a distinct signal. The dimensional profiles produced by the framework directly support three classes of deployment decision: identifying models whose reasoning traces would fail accountability audits despite correct final answers (LS--CQ orthogonality); preventing ranking errors caused by accuracy-only benchmarking; and ensuring that no single metric silently substitutes for the six independent signals the framework captures.
大規模な言語モデルにおける心の知能指数は、知覚、認知、相互作用にわたって断片化されています。
大規模言語モデル (LLM) が感情的に敏感な領域にますます統合されるにつれて、その感情的知性 (EI) の構造的完全性が安全性と整合性にとって重要なフロンティアになります。現在のベンチマークでは、表面的な礼儀正しさと深い感情的な推論が混同されていることが多く、知覚的な正確さとインタラクティブな有効性を区別できません。ここでは、専門家が作成した 480 項目からなる心理測定に基づいたフレームワークである FACET (機能的感情能力と共感力テスト) を紹介します。以前の指標とは異なり、FACET は理論的には Mayer-Salovey-Caruso の 4 分岐能力モデルに基づいており、感情の知覚、促進、理解、管理を通じて EI を運用します。 9 つのフロンティア モデル (GPT-5、Claude-Sonnet-4 を含む) の評価を通じて、心の知能指数が一枚岩の能力ではなく、認知的および対話的次元にわたって断片化されていることを示します。フロンティア モデルは、客観的な感情認識と社会的推論において確かな熟練を示していますが、これが常にインタラクティブな成功につながるわけではありません。私たちはこれらの矛盾を、認知優位、インタラクティブ優位、コンテキスト依存の 3 つの異なるパフォーマンス プロファイルに分類します。これらの類型は、感情的スキルが一般的な知能やモデルのサイズに応じて均一に拡大されないことを示しています。むしろ、それらは特定の配置パラダイムによって形成されます。特に、私たちは隠れた感情認識がすべてのアーキテクチャにわたる普遍的なパフォーマンスのボトルネックであると特定しています。私たちの結果は、現在のRLHFプロセスが、統合された感情的推論を犠牲にして、感情構文の統計的模倣である「確率的共感」を最適化する可能性があることを示唆しています。これらの発見は、線形感情スケールの仮定に疑問を投げかけ、真の臨床的共鳴が可能な社会的認識エージェントを開発するための厳密なロードマップを提供します。
原文 (English)
Emotional intelligence in large language models is fragmented across perception, cognition, and interaction
As large language models (LLMs) are increasingly integrated into emotionally sensitive domains, the structural integrity of their emotional intelligence (EI) becomes a critical frontier for safety and alignment. Current benchmarks often conflate superficial politeness with deep affective reasoning, failing to distinguish between perceptual accuracy and interactive efficacy. Here, we introduce FACET (Functional Affective Competence and Empathy Test), a psychometrically grounded framework comprising 480 expert-crafted items. Unlike previous metrics, FACET is theoretically anchored in the Mayer-Salovey-Caruso four-branch ability model, operationalizing EI through perception, facilitation, understanding, and management of emotions. Through an evaluation of nine frontier models (including GPT-5, Claude-Sonnet-4), we demonstrate that emotional intelligence is not a monolithic capability but is fragmented across cognitive and interactive dimensions. While frontier models demonstrate robust proficiency in objective emotion recognition and social reasoning, this does not consistently translate to interactive success. We categorize these discrepancies into three distinct performance profiles: cognitive-dominant, interactive-dominant, and context-dependent. These typologies indicate that emotional skills do not scale uniformly with general intelligence or model size; rather, they are shaped by specific alignment paradigms. Notably, we identify hidden emotion recognition as a universal performance bottleneck across all architectures. Our results suggest that current RLHF processes may optimize for "stochastic empathy", a statistical mimicry of emotional syntax, at the expense of integrated affective reasoning. These findings challenge the assumption of linear emotional scaling and provide a rigorous roadmap for developing socially aware agents capable of genuine clinical resonance.
MDIA: HealthBench Professional のマルチエージェント診断インテリジェンス パイプライン
Agentic-LLM 臨床ベンチマークで報告されたほとんどの利益は、迅速なエンジニアリングによるものであることが多いですが、私たちの結果は、アーキテクチャおよびエンジン レベルの設計からより大きな改善がもたらされる可能性があることを示唆しています。微調整されていない LLM 上の完全な HealthBench Professional ベンチマーク (n = 525) で、7 ノードの専門ルートの臨床推論グラフとして実装されたマルチエージェント診断インテリジェンス エージェントである MDIA を紹介します。 MDIA は、OpenAI の GPT-5.4-2026-03-05 の下で 0.6272 を達成し、これは OpenAI の臨床医向け ChatGPT のパフォーマンスを +3.72 pp 上回っています。実験作業では、パフォーマンスの向上がシステム アーキテクチャ (特殊ルーティング、マルチターン コンテキストの保存、薬剤状態の安全性ゲート、サイト フィルター検索、長さを意識した合成、エンジン レベルの信頼性) に起因することを示しています。これらの調査結果は、エージェントの臨床ベンチマークのパフォーマンスが、基礎となる基盤モデルとオーケストレーション アーキテクチャの両方によって形成されるという見解を裏付けています。それにもかかわらず、他のモデルをグレーダーとして使用した場合、顕著な違いにも気づきました。特に、Gemini 2.5 Pro を使用した場合、MDIA のスコアは 0.6585 でした。これは、グレーダーの選択が変動の原因であることを示唆しています。したがって、LLM を確実に評価するには、複数の独立したグレーダー モデルにわたる評価が必要になります。
原文 (English)
MDIA: A Multi-Agent Diagnostic Intelligence Pipeline on HealthBench Professional
Most reported gains on agentic-LLM clinical benchmarks are often attributed to prompt engineering, yet our results suggest that larger improvements can come from architectural and engine-level design. We present MDIA, a Multi-agent Diagnostic Intelligence Agent implemented as a 7-node specialty-routed clinical reasoning graph, on the full HealthBench Professional benchmark (n = 525), on a non-fine-tuned LLM. MDIA achieves 0.6272 under OpenAI's GPT-5.4-2026-03-05, which is +3.72 pp above the performance of OpenAI's ChatGPT for Clinicians. The experimental work shows that performance lift is attributable to system architecture: specialty routing, multi-turn context preservation, drug-state safety gating, site-filtered search, length-aware synthesis, and engine-level reliability. These findings support the view that agentic clinical benchmark performance is shaped both by the underlying foundation model and the orchestration architecture. Nevertheless, we also noticed notable differences when using other models as a grader; in particular, when using Gemini 2.5 Pro, MDIA scored 0.6585, which suggests that the choice of grader is a source of variability. Robust evaluation of LLMs would therefore require assessment across several independent grader models.
AIを説明する際の根本的な限界
LLM や拡散モデルなどの大規模モデルが実用的な成功を収めている一方で、公的機関は AI における説明可能性の重要性を強調しています。しかし、AI を説明するための既存の手法は、大規模な AI システムの動作を完全に忠実に説明できるようには設計されていません。 AI システムの動作の完全に忠実で解釈可能な説明は AI ガバナンスに役立つ可能性がありますが、そのような説明を提供することが理論的に可能かどうかは不明です。本稿では、AI を説明する際の基本的なクアドリレンマを数学的に証明し、AI とその説明は、1) 動作環境の複雑さ、2) AI の性能の良さ、3) AI の説明の解釈可能性、4) AI の説明の完全な忠実性の 4 つの条件を同時に満たすことはできないと述べています。このクアドリレンマは、環境を変更したり、優れた AI パフォーマンスと解釈可能な説明を犠牲にしたりできないほとんどのアプリケーションでは、説明の完全な忠実性を放棄し、代わりにアプリケーションにとって重要な部分のみを説明することを目指すべきであることを示唆しています。結果として、クアドリレンマは、AI の説明の忠実性は常に不完全であるという前提に基づいて AI ガバナンスを設計する必要があることを意味します。
原文 (English)
Fundamental Limitation in Explaining AI
While large-scale models such as LLMs and diffusion models have achieved practical success, public institutions have emphasized the importance of explainability in AI. Existing methods for explaining AI, however, are not designed to provide completely faithful explanations of the behavior of large-scale AI systems. Although a completely faithful and interpretable explanation of the behavior of an AI system might be useful for AI governance, it has not been known whether providing such an explanation is theoretically possible. In this paper, we mathematically prove a fundamental quadrilemma in explaining AI, stating that AI and its explanation cannot satisfy the following four conditions simultaneously: 1) the complexity of the operation environment, 2) the goodness of the AI's performance, 3) the interpretability of the AI's explanation, and 4) the complete faithfulness of the AI's explanation. This quadrilemma suggests that, in most applications where we cannot change the environment or sacrifice good AI performance and an interpretable explanation, we should give up complete faithfulness of explanations and should instead aim to explain only the parts that are important for applications. As a consequence, the quadrilemma implies that AI governance should be designed on the premise that the faithfulness of AI explanations is always incomplete.
PRIMA: 検証可能なアイデンティティと集中的なフィードバックを備えた、回復力のあるマルチエージェント研究のための運用パターン
LLM を複数時間の実行にわたって調整されたマルチエージェント調査システムとして運用すると、単発評価では不可能な障害モードが表面化します。つまり、上流のプロバイダーが警告なしにスロットルする、サブエージェントがアクセス可能なツールに合わせてタスクをドリフトする、機械を使用する代わりにナレーションする、自己謝罪を伴うオープンリビジョンの反復、または上流のコンテキストを実行可能なディレクティブとして扱うなどです。 PRIMA の主な貢献は、これらの障害モードを乗り切るための 3 つの動作パターンです。(1) アップストリームのレート制限信号を検出し、型指定された一時停止レコードをディスクに永続化し、プロセスの再起動後であっても統合された作業を再実行せずに長時間実行を再開する回復力および回復層。 (2) タスクの忠実度、ツールの使用、改訂、およびステップ間のコンテキスト境界の規範を構造的なプロンプト層としてエンコードするサブエージェント操作規律。 (3) 最終合成前の明示的なドキュメント間調和パスと直交するドラフト ステップを組み合わせた構造化エンジニアリング成果物の多段階アプリケーション パターン。これらは、明示的な収束基準を備えた研究プログラム仕様言語、デュアルメトリック スコアリング エンジン (LLM で判定されたルーブリックとサンドボックス コード)、外部メタ最適化ループ、イベント駆動型永続性、フックベースのミドルウェア、コンテキスト コンパクション、およびマルチプロバイダー LLM 抽象化といった基本的なプロトコルの上に位置します。エージェント ID は主要な権限から派生し、衝突のない識別子と中央レジストリなしで簡単に検証可能なクラスター メンバーシップを提供します。理論的な保証には、$O(k)$ 検証、$O(V+E)$ DAG 検証、および算術基本定理による恒等衝突の自由が含まれます。グラフ同型のケーススタディは、生成されたアーティファクトにおけるアーキテクチャ上の主張を根拠としています。つまり、3 つの定理と 5 つの予想を含む新しい標準形式のアルゴリズムを提案する研究論文を作成した 6 ステップのプロトコルです。
原文 (English)
PRIMA: Operational Patterns for Resilient Multi-Agent Research with Verifiable Identity and Convergent Feedback
Operating LLMs as coordinated multi-agent research systems over multi-hour runs surfaces failure modes that single-shot evaluation cannot: upstream providers throttle without warning, sub-agents drift the task to fit accessible tools, narrate machinery instead of using it, open revision iterations with self-apology, or treat upstream context as executable directives. We present PRIMA, whose primary contributions are three operational patterns for surviving these failure modes: (1) a resilience-and-recovery layer that detects upstream rate-limit signals, persists a typed pause record to disk, and resumes long-running runs without re-executing converged work even across process restarts; (2) a sub-agent operating discipline encoding task-fidelity, tool-use, revision, and inter-step context-boundary norms as a structural prompt layer; (3) a multi-phase application pattern for structured engineering deliverables pairing orthogonal draft steps with an explicit cross-document harmonization pass before final synthesis. These sit atop a foundational protocol: a research-program specification language with explicit convergence criteria, a dual-metric scoring engine (LLM-judged rubric plus sandboxed code), an outer meta-optimization loop, event-driven persistence, hook-based middleware, context compaction, and a multi-provider LLM abstraction. Agent identities derive from prime powers, giving collision-free identifiers and trivially-verifiable cluster membership without a central registry. Theoretical guarantees include $O(k)$ verification, $O(V+E)$ DAG validation, and identity collision freedom by the Fundamental Theorem of Arithmetic. A Graph Isomorphism case study grounds the architectural claims in a generated artifact: a six-step protocol that produced a research paper proposing a new canonical-form algorithm with three theorems and five conjectures.
Core-Code: コード生成のための協調強化学習
大規模言語モデル (LLM) はコード生成において優れたパフォーマンスを達成していますが、ほとんどの手法はグローバルな計画を立てずに自己回帰デコードに依存しており、局所的には一貫性があるものの、グローバルには次善のソリューション (テスト ケースの失敗や非効率的な複雑さなど) につながることがよくあります。思考連鎖 (CoT) やマルチエージェント システム (MAS) などの最近のアプローチでは計画が導入されていますが、役割の専門化と調整が限定されているため、複雑なタスクのパフォーマンスが妨げられます。マルチエージェント コード生成における調整と専門化の課題に対処するために、私たちは、より正確で効率的なコードを生成するためにエージェント間の調整を強化する、役割特化型 LLM エージェント用のフレームワークである Collaborative Reinforcement Code (CoRe-Code) を提案します。 CoRe-Code は、単純なプランナーとコーダーのパラダイムを採用しており、プランナーが高レベルのプランを生成し、コーダーがそれを実行してコードを生成します。さらに、役割の専門化と連携を強化するために、グループ相対ポリシー最適化 (GRPO) に基づくコラボレーションを意識した強化学習ステージを導入します。実験では、CoRe-Code が既存の RL ベースおよびマルチエージェントの幅広い方法よりも優れたパフォーマンスを発揮することが示されています。さらに、CoRe-Code が他のマルチエージェント フレームワーク (検索エージェントやデバッグ エージェントなど) に一般化できることを実証し、その柔軟性と拡張性を強調します。 3 つの基本モデルを使用して、さまざまな難易度の複数のベンチマークで CoRe-Code を評価します。既存のベースラインと比較して、結果は一貫した精度の向上を示していると同時に、実行時間とメモリ使用量の点でより高い効率を達成しており、CoRe-Code の有効性と実用性を実証しています。
原文 (English)
CoRe-Code: Collaborative Reinforcement Learning for Code Generation
Large language models (LLMs) have achieved strong performance in code generation, but most methods rely on autoregressive decoding without global planning, often leading to locally coherent yet globally suboptimal solutions (e.g., failing test cases or inefficient complexity). While recent approaches such as Chain-of-Thought (CoT) and multi-agent systems (MAS) introduce planning, their limited role specialization and coordination hinder performance on complex tasks. To address the challenges of coordination and specialization in multi-agent code generation, we propose Collaborative Reinforcement Code (CoRe-Code), a framework for role specialized LLM agents that enhances inter-agent coordination to generate more accurate and efficient code. CoRe-Code adopts a simple Planner-Coder paradigm, where the Planner produces high-level plans and the Coder executes them to generate code. We further introduce a collaboration-aware reinforcement learning stage based on Group Relative Policy Optimization (GRPO) to enhance role specialization and alignment. Experiments show that CoRe-Code outperforms a wide range of existing RL-based and multi-agent methods. In addition, we demonstrate that CoRe-Code can generalize to other multi-agent frameworks (e.g., Retrieval and Debugging agents), highlighting its flexibility and scalability. We evaluate CoRe-Code on multiple benchmarks of varying difficulty using three base models. Compared to existing baselines, the results show consistent improvements in accuracy, while also achieving higher efficiency in terms of execution time and memory usage, demonstrating the effectiveness and practicality of CoRe-Code.
暗黙のルールを探るためのテスト時の深い思考
大規模言語モデル (LLM) の継続的な進歩により、インテリジェント エージェントの重要性がますます高まっています。ただし、これらのエージェントは、暗黙のルール (直接観察できず対話を通じて推測する必要がある隠れた制約) によって管理される環境では失敗することがよくあります。これにより、エージェントは反復的な試行錯誤のループに陥り、最終的にはタスクの失敗につながります。この課題に対処するために、私たちは、思考コンポーネントがインタラクション履歴を分析してこれらの暗黙のルールを推測し、アクターをガイドするフレームワークである Test-Time Exploration (TTExplore) を提案します。この状況で効果的に探索できるかどうかは、思考者の推論能力に大きく依存します。ただし、深い推論の軌跡の評価は本質的に不安定で困難であるため、効果的なトレーニングに大きな障害となります。この問題を克服するために、新しく安定した強化学習パイプラインを導入します。中心となるアイデアは、正確なタスク レベルのスコアを間接的な報酬として使用して、中間推論を評価する難しさを回避し、報酬の希薄性を軽減するために軌道ごとに 1 つの思考ノードのみを保持することです。このパイプラインを使用して、特殊な 7B モデルである Exp-Thinker をトレーニングします。 5 つのテキストベースの具体化されたタスクに関する実験では、Exp-Thinker を備えた TTExplore がベースライン エージェントのパフォーマンスを平均 $14$ ~ $19$ ポイント改善することが示され、暗黙のルールについて明示的に推論することの有効性が実証されました。
原文 (English)
Test-Time Deep Thinking to Explore Implicit Rules
With the continuous advancement of Large Language Models (LLMs), intelligent agents are becoming increasingly vital. However, these agents often fail in environments governed by implicit rules--hidden constraints that cannot be observed directly and must be inferred through interaction. This causes agents to fall into repetitive trial-and-error loops, ultimately leading to task failure. To address this challenge, we propose Test-Time Exploration (TTExplore), a framework where a thinker component analyzes interaction history to infer these implicit rules and guide an actor. Effective exploration in this setting critically depends on the reasoning ability of the thinker. However, evaluating deep reasoning trajectories is inherently unstable and difficult, which poses a major obstacle to effective training. To overcome this issue, we introduce a novel and stable reinforcement learning pipeline. The core idea is to use accurate task-level scores as indirect rewards to bypass the difficulty of evaluating intermediate reasoning, and to retain only a single thinking node per trajectory to alleviate reward sparsity. Using this pipeline, we train a specialized 7B model, Exp-Thinker. Experiments on five text-based embodied tasks show that TTExplore equipped with Exp-Thinker improves baseline agent performance by an average of $14$-$19$ points, demonstrating the effectiveness of explicitly reasoning about implicit rules.
Geo-Expert: パラメーター効率の高い微調整によるエキスパートレベルの地質学的推論に向けて
地質学に適用される汎用の大規模言語モデル (LLM) は、地下構造や深層時間の進化について推論する際に幻覚を起こすことがよくありますが、現在の地球科学における AI は主に地表のリモート センシングと GIS を対象としています。このギャップを埋めるために、カスタム命令合成パイプラインを使用して処理された、カスタムで厳選された高品質の命令データセットに基づいて微調整された、パラメーター効率の高い地質 LLM ファミリーである Geo-Expert を導入します。低ランク適応 (LoRA) 手法を使用して、Qwen3-8B、Qwen3-32B、Gemma-3-27B の 3 つのベース モデルを微調整することにより、モデルのスケーリングとアーキテクチャの影響を調査します。新しいドメイン固有のベンチマークである Geo-Eval に関する広範な評価により、ドメイン整合 8B モデルは特殊な地質学的推論においてオープンウェイト 70B ジェネラリストや独自の GPT-4o よりも優れたパフォーマンスを発揮できる一方、32B バリアントはフロンティア推論モデルに近づくことが明らかになりました。最適化された 8B モデルは、導入において競争力のあるコストパフォーマンス比をさらに提供します。この研究は、科学的 LLM を民主化するための再現可能なレシピを提供し、地質学的人工知能のベースラインを確立します。
原文 (English)
Geo-Expert: Towards Expert-Level Geological Reasoning via Parameter-Efficient Fine-Tuning
While general-purpose Large Language Models (LLMs) applied to Geology often hallucinate when reasoning about subsurface structures and deep-time evolution, current AI in Earth sciences predominantly targets surface remote sensing and GIS. To bridge this gap, we introduce Geo-Expert, a family of parameter-efficient geological LLMs fine-tuned on a custom-curated, high-quality instruction dataset processed using our custom instruction synthesis pipeline. We investigate the impact of model scaling and architecture by fine-tuning three base models: Qwen3-8B, Qwen3-32B, and Gemma-3-27B, with Low-Rank Adaptation (LoRA) method. Our extensive evaluation on a novel domain-specific benchmark, Geo-Eval, reveals that a domain-aligned 8B model can outperform open-weight 70B generalists and proprietary GPT-4o on specialized geological reasoning, while a 32B variant approaches frontier reasoning models. The optimized 8B model further offers a competitive cost-performance ratio for deployment. This work provides a reproducible recipe for democratizing scientific LLMs and establishes a baseline for geological artificial intelligence.
推論としてのクラスタリング: 思考連鎖グラフ学習の $k$-Means 解釈
思考連鎖 (CoT) プロンプトは、テキスト属性グラフ (TAG) 上の大規模言語モデル (LLM) の推論機能を強化するのに有望であることが示されています。この研究は、クラスタリングの原理を推論として使用することで CoT ベースのグラフ学習を再構成し、グラフ構造のデータに対して反復推論がどのように機能するかについて $k$ 平均の解釈を提供します。既存のグラフ CoT 手法は、素のアーキテクチャと固定グラフ表現に依存しており、段階的な意味論的トポロジーの相互作用と解釈可能性が制限されていることが観察されています。この制限を克服するために、CoT 推論とグラフ表現学習を統合する KCoT という名前の統一フレームワークを提案します。私たちの重要な理論的結果は、Transformer ブロックと $k$-means アルゴリズムの間の正式な数学的対応を明らかにし、推論を反復的な代入および更新ステップとして解釈できるようにします。この洞察に基づいて、これらのステップを構造化された CoT 推論として明示的に定式化する意味論的識別プロンプトと、位相的事前分布を進化する思考条件付き表現と融合するための構造に基づいた調整戦略を導入します。標準ベンチマークの実験では、最先端の手法と比較して一貫した改善が実証され、CoT ベースのグラフ学習の原理に基づいたメカニズムとしてのクラスタリングが検証されています。
原文 (English)
Clustering as Reasoning: A $k$-Means Interpretation of Chain-of-Thought Graph Learning
Chain-of-Thought (CoT) prompting has shown promise in enhancing the reasoning capabilities of large language models (LLMs) on text-attributed graphs (TAGs). This work reframes CoT-based graph learning through the principle of clustering as reasoning, offering a $k$-means interpretation of how iterative reasoning operates over graph-structured data. We observe that existing graph CoT methods rely on disjoint architectures and fixed graph representations, limiting step-by-step semantic-topological interaction and interpretability. To overcome this limitation, we propose a unified framework named KCoT that integrates CoT reasoning with graph representation learning. Our key theoretical result reveals a formal mathematical correspondence between a Transformer block and the $k$-means algorithm, allowing reasoning to be interpreted as iterative assignment and update steps. Based on this insight, we introduce a Semantic Discriminating Prompt that explicitly formulates these steps as structured CoT reasoning, together with a structure-grounded alignment strategy to fuse topological priors with evolving thought-conditioned representations. Experiments on standard benchmarks demonstrate consistent improvements over state-of-the-art methods, validating clustering as a principled mechanism for CoT-based graph learning.
シールドの反転: ポリシー仕様から安全性テストを体系的に生成
大規模言語モデル (LLM) の広範な統合には、厳密かつ体系的な安全性評価が必要です。既存のパラダイムは、構築されたベンチマークに依存して事前定義された観点から安全性を評価するか、動的レッドチームを採用して潜在的な脆弱性を調査します。これらのアプローチは効果的ではありますが、専門分野の知識に大きく依存し、体系的な保証が限られており、急速な陳腐化に対して脆弱であるため、課題に直面しています。これらの制限に対処するために、AI の安全性に仕様ベースのソフトウェア テストの厳密さをもたらす新しいフレームワーク POLARIS を導入します。 POLARIS は、まず非構造化自然言語ポリシーを一次論理 (FOL) 表現にコンパイルし、高レベルのルールと具体的なテスト ケースの間に追跡可能なリンクを確立します。この形式化により、複雑なポリシー違反シナリオが通過可能なパスとしてエンコードされるセマンティック ポリシー グラフの構築が可能になります。 POLARIS は、このグラフを体系的に調査することで構成違反パターンを明らかにし、それを実行可能な自然言語テスト クエリにインスタンス化して、カバレッジ主導型の再現可能な安全性テストを可能にします。実験では、POLARIS が確立されたベースラインと比較して、より高いポリシー適用範囲と攻撃成功数を達成していることが実証されています。重要なのは、POLARIS が正式な手法と AI の安全性を橋渡しすることで、LLM が検証可能なトレーサビリティを備えた安全性が重要なポリシーに確実に従うようにするための原則に基づいた自動化されたアプローチを提供することです。コードは https://github.com/huac-lxy/POLARIS でリリースされています。
原文 (English)
Inverting the Shield: Systematically Generating Safety Tests from Policy Specifications
The widespread integration of Large Language Models (LLMs) necessitates rigorous and systematic safety evaluation. Existing paradigms either rely on constructed benchmarks to assess safety from predefined perspectives, or employ dynamic red-teaming to probe potential vulnerabilities. While effective, these approaches face challenges, as they depend heavily on expert domain knowledge, offer limited systematic guarantees, and are vulnerable to rapid obsolescence. To address these limitations, we introduce a novel framework POLARIS that brings the rigor of specification-based software testing to AI safety. POLARIS first compiles unstructured natural-language policies into First-Order Logic (FOL) representations, establishing a traceable link between high-level rules and concrete test cases. This formalization enables the construction of a Semantic Policy Graph, where complex policy violation scenarios are encoded as traversable paths. By systematically exploring this graph, POLARIS uncovers compositional violation patterns, which are then instantiated into executable natural-language test queries, enabling coverage-driven and reproducible safety testing. Experiments demonstrate that POLARIS achieves higher policy coverage and attack success counts compared to established baselines. Crucially, by bridging formal methods and AI safety, POLARIS provides a principled, automated approach to ensuring LLMs adhere to safety-critical policies with verifiable traceability. We release our code at https://github.com/huac-lxy/POLARIS.
信頼するが検証する: 選択的 LLM 予測のための証明者と検証者の協議
言語モデルが正しいかどうかを確実に知ることは、正しいことと同じくらい重要です。我々は、選択的予測のメカニズムとして、対話型証明理論に基づいた推論時間プロトコルである証明者検証者熟議 (PVD) を導入します。このプロトコルは、回答と構造化された信頼度判定の両方を生成し、システムが不確実なケースを回避しながら信頼度の高い回答を報告できるようにします。各対話では、証明者はチェック可能なサブクレームを通じて回答候補を擁護し、検証者は対象を絞ったチャレンジを発行して \textsc{Accept}、\textsc{Challenge}、または \textsc{Reject} を返します。凍結された言語モデルはノイズの多いチャネル上で動作する不完全な証明者および検証者であるため、形式的な健全性と完全性の保証は転送されません。代わりに、カバレッジ精度の動作を通じてプロトコルを経験的に特徴付けます。私たちの主な実験では、GPQA Diamond の証明者として Claude Sonnet 4.6 を、検証者として Claude Haiku 4.5 を使用します。回答修正なしで受け入れられた質問 (これを Accept + No Change (ANC) と呼びます) は、信頼性の高いサブセットとして報告されます。このサブセットを精度とカバレッジによって評価します。 ANC は信頼できる回答と信頼できない回答を区別し、非 ANC 補完と比べて $\sim$30pp の HC-Prec ギャップを生み出します。 GPT と Gemini のペアリングを用いた堅牢性実験では、高い HC-Prec がモデルファミリー間で移行できる一方で、検証者の厳密性とドメインの能力が選択ギャップのサイズを大きく決定することが示されています。 Humanity's Last Exam では、証明者と検証者の組み合わせが弱いと、ANC 信号が崩壊または反転する可能性があり、検証者が有効領域外で動作する場合の実際的な障害モードを示しています。自己無矛盾性、普遍的自己無矛盾性、マルチエージェント討論、リフレクションとの比較は、証明者と検証者の熟慮が、選択的予測のための明確な議論防御可能性シグナルを提供することを示唆しています。
原文 (English)
Trust but Verify: Prover-Verifier Deliberation for Selective LLM Prediction
Reliably knowing when a language model is correct is almost as important as being correct. We introduce prover-verifier deliberation (PVD), an inference-time protocol grounded in interactive proof theory, as a mechanism for selective prediction: the protocol produces both an answer and a structured confidence verdict, allowing a system to report high-confidence answers while abstaining on uncertain cases. In each dialogue, a prover defends a candidate answer through checkable sub-claims while a verifier issues targeted challenges and returns \textsc{Accept}, \textsc{Challenge}, or \textsc{Reject}. Because frozen language models are imperfect provers and verifiers operating over a noisy channel, formal soundness and completeness guarantees do not transfer; instead, we characterize the protocol empirically through its coverage-precision behavior. Our main experiment uses Claude Sonnet 4.6 as prover and Claude Haiku 4.5 as verifier on GPQA Diamond. Questions accepted with no answer revision, which we call Accept + No Change (ANC), are reported as the high-confidence subset; we evaluate this subset by its precision and coverage. ANC separates reliable from unreliable answers, yielding a $\sim$30pp HC-Prec gap over the non-ANC complement. Robustness experiments with GPT and Gemini pairings show that high HC-Prec can transfer across model families, while verifier strictness and domain competence largely determine the size of the selection gap. On Humanity's Last Exam, weaker prover-verifier pairings can collapse or invert the ANC signal, illustrating a practical failure mode when the verifier operates outside its effective region. Comparisons with self-consistency, universal self-consistency, multi-agent debate, and Reflexion suggest that prover-verifier deliberation supplies a distinct argument-defensibility signal for selective prediction.
SpecAlign: SystemVerilog アサーション生成のためのセマンティック アライメント フレームワーク
SystemVerilog アサーション (SVA) 生成に対する既存の大規模言語モデル (LLM) アプローチは、主に構文の妥当性と形式的検証の結果に焦点を当てていますが、生成されたアサーションと自然言語仕様の間の意味論的な整合性を定量化することは依然として困難です。その結果、ゴールデン RTL がない場合、SVA の幻覚や位置ずれにより信頼性が低下し、デバッグ作業が増加する可能性があります。この文書では、LLM で生成された SVA のセマンティック評価と改良のためのフレームワークである SpecAlign について説明します。 SpecAlign は、含意ベースの分類を使用して、設計仕様に対して自然言語プロパティと SVA の両方を評価する 2 つの反復アライメント ループを導入します。思考連鎖プロンプトを使用して複数の推論パスを生成し、自己整合性投票メカニズムを介してそれらを集約することで、整合性の決定を改善します。調整されていないアサーションを分析して、改善のための実用的なフィードバックを生成します。さらに、反復にわたる意味の一貫性を測定するための定量的アラインメント スコアを定義します。実験結果は、SpecAlign がゴールデン RTL に依存せずにセマンティックの不一致を効果的に検出し、アサーションの整合性を改善し、従来の形式的な検証評価メトリクスをスケーラブルに補完することを示しています。
原文 (English)
SpecAlign: A Semantic Alignment Framework for SystemVerilog Assertion Generation
Existing Large Language Model (LLM) approaches to SystemVerilog Assertion (SVA) generation primarily focus on syntactic validity and formal verification outcomes, while semantic alignment between generated assertions and natural language specifications remains difficult to quantify. As a result, hallucinated or misaligned SVAs can reduce confidence and increase debugging efforts in the absence of golden RTL. This paper presents SpecAlign, a framework for semantic evaluation and refinement of LLM-generated SVAs. SpecAlign introduces two iterative alignment loops that assess both natural language properties and SVAs against the design specification using entailment-based classification. We improve alignment decisions by generating multiple reasoning paths using chain-of-thought prompting and aggregating them via a self-consistency voting mechanism. Misaligned assertions are analyzed to generate actionable feedback for refinement. We further define a quantitative alignment score to measure semantic consistency across iterations. Experimental results demonstrate that SpecAlign effectively detects semantic inconsistencies and improves assertion alignment without relying on golden RTL, providing a scalable complement to traditional formal verification evaluation metrics.
DarkForest: マルチエージェント LLM の会話を減らし、精度を向上
マルチエージェント LLM システムは、複数のエージェントからの出力を組み合わせることで推論を改善しますが、対話が多い方法ではエラーの伝播と高い通信オーバーヘッドが発生する可能性があります。エージェントが生の応答や推論トレースを交換すると、間違った中間推論が採用され増幅され、自信はあるものの間違った合意が得られる可能性があります。マルチラウンド通信により、トークンの消費量、待ち時間、推論コストも増加します。この論文では、DarkForest という名前の制御された通信調整フレームワークを提案します。 DarkForest はまずエージェントを独立させて、各エージェントが他のエージェントの出力を見ることなく応答を生成します。次に、生の応答を構造化された候補レコードに解析し、意味的に同等の候補をクラスターにグループ化し、エージェントの信頼性、信頼度、解析品質、サポート パターンの信頼性、および独立性補正を使用して、これらのクラスターにわたる校正された信念分布を推定します。コーディネーターは、制御されたコミュニケーションにより、この信念状態からポリシーで許可された証拠のみを受け取ります。 6 つの推論ベンチマークに関する実験では、DarkForest が最高の全体的な品質を達成し、ベンチマーク メトリクスで最も強力なベースラインを最大 30.7\% 改善し、通信の多いベースラインと比較してトークン消費を最大 $6.5\times$ 削減することが示されています。
原文 (English)
DarkForest: Less Talk, Higher Accuracy for Multi-Agent LLMs
Multi-agent LLM systems improve reasoning by combining outputs from multiple agents, but interaction-heavy methods can introduce error propagation and high communication overhead. When agents exchange raw responses or reasoning traces, incorrect intermediate reasoning may be adopted and amplified, leading to confident but wrong consensus; multi-round communication also increases token consumption, latency, and inference cost. In this paper, we propose a controlled-communication coordination framework named DarkForest. DarkForest first keeps agents independent, so each agent produces an answer without seeing the others' outputs. It then parses the raw responses into structured candidate records, groups semantically equivalent candidates into clusters, and estimates a calibrated belief distribution over these clusters using agent reliability, confidence, parse quality, support-pattern reliability, and independence corrections. A coordinator receives only policy-permitted evidence from this belief state with controlled communication. Experiments on six reasoning benchmarks show that DarkForest achieves leading overall quality, improves the strongest baseline by up to 30.7\% on benchmark metrics, and reduces token consumption by up to $6.5\times$ compared with communication-heavy baselines.
FrontierOR: 大規模な最適化における効率的なアルゴリズム設計のための LLM の能力のベンチマーク
大規模言語モデル (LLM) は、最適化モデリングやソルバー コード生成にますます使用されていますが、実際のオペレーション リサーチや最適化の問題では、問題の構造を活用し、直接定式化して解決するベースラインを上回るパフォーマンスを発揮するスケーラブルなアルゴリズムを設計するという、より困難な機能が必要になることがよくあります。既存のベンチマークは、現実世界の規模や複雑さをはるかに下回る、小規模または単純化された例に限定されています。現実的な大規模な最適化問題に対する LLM ベースの効率的なアルゴリズム設計を体系的に評価する最初のベンチマークの 1 つとして、FrontierOR を紹介します。 FrontierOR には、一流のオペレーション リサーチ会場で発行された方法論的に多様な論文から派生した 180 のタスクが含まれており、それぞれのタスクには標準化されたインスタンスと、専門家によって検証された隠れた評価スイートが含まれています。私たちは、最先端のコスト効率の高いオープンソース モデルにわたる 7 つの LLM を、ワンショットおよびテスト時の進化設定の両方で評価します。その結果、フロンティア モデルが実行可能な定式化から効率的な最適化アルゴリズムに移行するのに依然として苦労していることが明らかになりました。最強のワンショット モデルがソリューションの品質と計算効率の両方で Gurobi を上回るパフォーマンスを示したのはわずか 31% であり、テスト時の進化を伴う強力なコーディング エージェントでさえ、選択されたハード タスクでは 50% しか達成できませんでした。 FrontierOR は、LLM ベースの最適化アルゴリズム設計のための実用的な評価プラットフォームを確立します。これにより、将来の LLM とエージェントが、正しい定式化を超えて、実行可能で高品質で効率的なアルゴリズムに移行できるかどうかを系統的にテストできるようになります。 FrontierOR ベンチマークは https://anonymous.4open.science/r/efficient-opt-bench-F03D で入手できます。
原文 (English)
FrontierOR: Benchmarking LLMs' Capacity for Efficient Algorithm Design in Large-Scale Optimization
Large language models (LLMs) are increasingly used for optimization modeling and solver-code generation, yet practical operations research and optimization problems often require a harder capability: designing scalable algorithms that exploit problem structure and outperform direct formulation-and-solve baselines. Existing benchmarks are limited to small or simplified examples far below real-world scale and complexity. We introduce FrontierOR, among the first benchmarks to systematically evaluate LLM-based efficient algorithm design for realistic large-scale optimization problems. FrontierOR includes 180 tasks derived from methodologically diverse papers published in top-tier operations research venues, each with standardized instances and a hidden, expert-verified evaluation suite. We evaluate seven LLMs spanning frontier, cost-effective, and open-source models both in one-shot and test-time evolution settings. The results reveal that frontier models still struggle to move from executable formulations to efficient optimization algorithms: the strongest one-shot model outperforms Gurobi in only 31% of cases in both solution quality and computational efficiency, and even strong coding agents with test-time evolution achieve only 50% on selected hard tasks. FrontierOR establishes a practical evaluation platform for LLM-based optimization algorithm design, which enables future LLMs and agents to be systematically tested on whether they can move beyond correct formulation toward a feasible, high-quality, and efficient algorithm. Our FrontierOR Benchmark is available at https://anonymous.4open.science/r/efficient-opt-bench-F03D.
LipoAgent: より安全な脂質設計のための微調整された LLM エージェントの調整
脂質ナノ粒子 (LNP) は、臨床的に最も成熟した核酸送達プラットフォームの 1 つですが、有効かつ生物学的に安全な脂質の設計が依然として大きなボトルネックとなっています。実際のスクリーニングでは、毒性は意思決定レベルの制約です。脂質が毒性がある場合、その効率予測は臨床的に無関係です。私たちは、脂質発見のための安全性を意識したマルチエージェント LLM フレームワークである LipoAgent を提案します。 LipoAgent は、ドメイン固有の微調整と、効率予測の前提条件として毒性を強制する条件付き予測目標を組み合わせ、不一致が続く場合には人による監視を軽減したマルチエージェント検証によって信頼性をさらに向上させます。複数の基礎モデルにわたって、LipoAgent は、報告されている他の脂質設計モデルと比較して、mRNA トランスフェクション効率予測において平均 32% の相対的な向上を達成しています。ウェットラボ検証により、仮想スクリーニングのランキングが生物学的トランスフェクションの結果に確実に反映されることが確認されています。コードは https://github.com/SAI-Lab-NYU/LipoAgent.git で公開されています。
原文 (English)
LipoAgent: Coordinating Fine-Tuned LLM Agents for Safer Lipid Design
Lipid nanoparticles (LNPs) are among the most clinically mature platforms for nucleic acid delivery, yet designing lipids that are both effective and biologically safe remains a major bottleneck. In practical screening, toxicity is a decision-level constraint: if a lipid is toxic, its efficiency prediction is clinically irrelevant. We propose LipoAgent, a safety-aware multi-agent LLM framework for lipid discovery. LipoAgent combines domain-specific finetuning with a conditional prediction objective that enforces toxicity as a prerequisite for efficiency prediction, and further improves reliability via multi-agent verification with lightweight human oversight when disagreement persists. Across multiple foundation models, LipoAgent achieves an average 32% relative improvement in mRNA transfection efficiency prediction compared with other reported models for lipid design. Wet-lab validation confirms that virtual screening rankings reliably translate to biological transfection outcomes. The code is publicly available at https://github.com/SAI-Lab-NYU/LipoAgent.git.
誰の調整ですか?多様な組織上の意思決定コンテキストにわたる LLM プロセスの調整の比較
AI システムを組織の意思決定と連携させることは、通常、モデルを組織と同じように動作させるという単一目標の問題として組み立てられます。私たちは、この枠組みがより深い多元主義的な課題を曖昧にしていると主張します。私たちは、プロセスの整合性を測定するために意思決定ポリシーを取得する方法に依存しています。つまり、単に同じ結論に達するかどうかだけでなく、LLM が組織と同じように情報を重視しているかどうかです。この方法を ECHR 第 6 条の決定に適用すると、プロセス調整により出力精度 (r = 0.85、p < .001) が強く予測され、外部化により調整が不十分なモデルの調整が大幅に改善されます。これをドイツの消費者信用の決定に適用すると、この関係は崩壊します (r = 0.15、p = 0.60)。介入は一貫性のない効果を生み出し、ベンチマークは潜在的に差別的な歴史的パターンをコード化します。このコントラスト自体が多元的な整合性の発見です。競合する領域では、プロセスの高度な整合性は外部化によって達成できず、無条件に望ましいものでもありません。出力の合意だけでは、組織ポリシーを内部化したモデルと、その結果を単に近似するモデルを区別することはできません。プロセスレベルの測定は、あらゆる多元的アラインメント評価に必要な要素です。
原文 (English)
Whose Alignment? Comparing LLM Process Alignment Across Diverse Organizational Decision Contexts
Aligning AI systems with organizational decision-making is typically framed as a single-target problem: make the model behave like the organization. We argue this framing obscures a deeper pluralistic challenge. We rely on a decision-policy capturing method to measure process alignment: whether an LLM weights information as the organization does, not merely whether it reaches the same conclusions. Applying this method to ECHR Article 6 decisions, process alignment strongly predicts output accuracy (r = 0.85, p < .001) and externalization substantially improves alignment for poorly-aligned models. Applying it to German consumer credit decisions, this relationship collapses (r = 0.15, p = .60): interventions produce inconsistent effects and the benchmark encodes potentially discriminatory historical patterns. This contrast is itself a pluralistic alignment finding: in contested domains, high process alignment is neither achievable via externalization nor unconditionally desirable. Output agreement alone cannot distinguish a model that has internalized an organizational policy from one that merely approximates its outcomes; process-level measurement is a necessary component of any pluralistic alignment evaluation.
Context-CoT: 高品質の推論合成によるコンテキスト学習の強化
LLM は、静的な事前トレーニングされた知識を使用してプロンプトを推論することに優れていますが、コンテキスト学習、つまり複雑なタスク固有のコンテキストから新しい知識を動的に抽出、内部化、および適用する能力には非常に苦労しています。 CL-Bench の最近の評価では、重大な能力ギャップが明らかになりました。フロンティア モデルは、コンテキスト依存タスクの平均 17.2% しか解決しません。
原文 (English)
Context-CoT: Enhancing Context Learning via High-Quality Reasoning Synthesis
While LLMs excel at reasoning over prompts using static pretrained knowledge, they struggle significantly with context learning-the ability to dynamically extract, internalize, and apply new knowledge from complex, task-specific contexts. Recent evaluations on the CL-Bench reveal a critical capability gap: frontier models solve only 17.2% of context-dependent tasks on average.
エンドツーエンドの LLM ベースの検閲を意識した生存分析に向けて
目的: 生存分析は医療予測の中心ですが、打ち切りにより直接的な教師あり微調整が妨げられるため、大規模言語モデル (LLM) がエンドツーエンドの生存モデルとして使用されることはほとんどありません。ここでは、表形式の臨床データを直接操作する未変更の LLM を使用して、検閲を意識した生存分析を可能にするフレームワークである LLMSurvival を紹介します。材料と方法: LLMSurvival は、比較対象間のペアごとのランキングとしてイベント発生までの時間を再定式化し、トレーニング コホートからのアンカー個人との比較を集計することによってテスト時のリスクを導き出します。結果: 2 つの臨床タスク (MIMIC-IV における ICU 死亡率予測と、ニューヨーク長老派/ワイル コーネル医学コホートにおける脆弱性骨折予測) にわたって、LLMSurvival は、Cox 比例ハザード モデリングと比較して、ICU 死亡率で 3.1%、骨折リスクで 0.5%、ICU 死亡率で平均 2.1%、骨折リスクで 2.8% 全体の一致率を向上させました。 3 つの確立された深層学習生存モデル。考察: この結果は、打ち切りを伴う生存モデリングが、比較ベースの再定式化を通じて LLM 微調整と互換性を持たせることができることを示しています。このフレームワークは、多様な臨床状況にわたって、SAPS-II や FRAX スコアなどの専門家が厳選したスコアよりも高い移植性と優れたパフォーマンスを実証します。さらに、コンパクトで公的に入手可能な基本モデルが十分なパフォーマンスを提供するため、フレームワークはローカル展開をサポートします。結論: LLMSurvival フレームワークは、LLM を介した生存分析に対する統合された検閲を意識したアプローチの概念実証として機能します。
原文 (English)
Towards end-to-end LLM-based censoring-aware survival analysis
Objective: Survival analysis is central to medical prediction, yet large language models (LLMs) are rarely used as end-to-end survival models because censoring prevents straightforward supervised fine-tuning. Here we present LLMSurvival, a framework that enables censoring-aware survival analysis with unmodified LLMs operating directly on tabular clinical data. Materials and Methods: LLMSurvival reformulates time-to-event prediction as pairwise ranking among comparable subjects, and derives test-time risk by aggregating comparisons against anchor individuals from the training cohort. Results: Across two clinical tasks (ICU mortality prediction in MIMIC-IV and fragility fracture prediction in a NewYork-Presbyterian/Weill Cornell Medicine cohort), LLMSurvival improves overall concordance over Cox proportional hazards modeling by 3.1% for ICU mortality and 0.5% for fracture risk, 2.1% on average for ICU mortality and 2.8% for fracture risk over three established deep learning survival models. Discussion: The results show that survival modeling with censoring can be made compatible with LLM fine-tuning through comparison-based reformulation. The framework demonstrates high portability and superior performance over expert curated scores like SAPS-II and FRAX scores across diverse clinical context. Furthermore, the framework supports local deployment, as compact, publicly available base models provide sufficient performance. Conclusion: The LLMSurvival framework serves as a proof of concept for an integrated, censoring-conscious approach to survival analysis via LLMs.
OpenClaw エージェントのセキュリティ: 基本、攻撃、および対策
大規模言語モデル (LLM) 駆動の自律エージェントの急速な進化により、永続メモリ、マルチチャネル インタラクション、高度な自律性を備えた継続的に実行され、スキル強化されたシステムとして動作する新しいクラスのオープンソース エージェント フレームワークである OpenClaw が誕生しました。このような機能により、OpenClaw エージェントは複雑な複数ステップのタスクを自律的に実行し、外部アプリケーションとシームレスに対話できるようになりますが、同時に攻撃対象領域が大幅に拡大します。特に、高い特権操作と永続メモリの組み合わせにより、OpenClaw エージェントは、スキル ポイズニング、認知操作、マルチエージェント カスケード障害、サプライ チェーンの脆弱性など、さまざまな新たな脅威にさらされます。この調査では、OpenClaw エージェントのセキュリティ状況に関する包括的な調査を紹介します。まず、OpenClaw エージェントを従来の AI エージェント システムと区別する一般的なアーキテクチャと主要な特性を調べます。私たちは既存のセキュリティとプライバシーの脅威を階層化されたフレームワークに分類し、エージェントの推論、アクションの実行、および外部との対話中に脆弱性がどのように発生するかを分析します。現在の防衛情勢を描くために、代表的な防衛メカニズムも検討します。最後に、OpenClaw エコシステムの信頼性と信頼性に関連するいくつかの未解決の問題について説明します。
原文 (English)
Security of OpenClaw Agents: Fundamentals, Attacks, and Countermeasures
The rapid evolution of large language model (LLM)-driven autonomous agents has given rise to OpenClaw, a new class of open-source agent frameworks that operate as continuously running, skill-augmented systems with persistent memory, multi-channel interaction, and high degrees of autonomy. Such capabilities enable OpenClaw agents to autonomously execute complex, multi-step tasks and interact seamlessly with external applications, but simultaneously introduce a substantially enlarged attack surface. In particular, the combination of high-privilege operations and persistent memory exposes OpenClaw agents to various emerging threats, including skill poisoning, cognitive manipulation, multi-agent cascading failures, and supply-chain vulnerabilities. In this survey, we present a comprehensive study of the security landscape of OpenClaw agents. We first examine the general architecture and key characteristics that distinguish OpenClaw agents from traditional AI agent systems. We categorize existing security and privacy threats into a layered framework and analyze how vulnerabilities arise during agent reasoning, action execution, and external interaction. Representative defense mechanisms are also reviewed to draw the current defense landscape. Finally, several unresolved issues related to the reliability and trustworthiness of OpenClaw ecosystems are discussed.
StructBreak: MLLM における構造的認知過負荷誘発の安全性障害
マルチモーダル大規模言語モデル (MLLM) は、構造的推論に優れていますが、構造的一貫性における論理的脆弱性が顕著です。私たちはこの現象を構造的認知過負荷 (SCO) と呼びます。これは、深い推論と安全性の調整の間の競合の副産物です。しかし、これまでの研究は主にタイポグラフィーおよびピクセルレベルの摂動を対象としており、SCO の研究はほとんど調査されていません。この目的を達成するために、SCO を定量化するために設計された自動化されたエンドツーエンド フレームワークである StructBreak を提案します。 StructBreak を活用することで、新しい高次認知過負荷攻撃パラダイムを明らかにします。特に、この攻撃は実質的なブラックボックス設定の下で動作し、内部モデルへのアクセスを必要としません。その結果、私たちはこのフレームワークを利用して、10 の多様な脅威シナリオにわたる包括的なベンチマークを確立しました。 6 つの主要な MLLM に関する経験的評価により、SCO が容易に有毒物質の生成を引き起こし、平均 92% の ASR (Gemini 2.5 では最大 97%) が得られることが明らかになりました。 SCO のメカニズムを解明するために、注意力学、潜在空間トポロジー、幾何学的解析にわたるモデルレベルの解釈をさらに実行します。私たちの調査結果は、StructBreak が安全フィルターを回避する新しい構造チャネルとして機能することを明らかにしました。さらに、固有の安全メカニズムの有効性が限られているということは、現在の調整パラダイムが複雑なマルチモーダル推論の時代には不十分であることを強調しています。
原文 (English)
StructBreak: Structural Cognitive Overload-Induced Safety Failures in MLLMs
Multimodal Large Language Models (MLLMs) excel at structural reasoning yet suffer from a sharp logical brittleness in structural consistency. We term this phenomenon Structural Cognitive Overload (SCO), a byproduct of the contention between deep reasoning and safety alignment. However, prior work has predominantly targeted typographic and pixel-level perturbations, leaving the study of SCO largely unexplored. To this end, we propose StructBreak, an automated end-to-end framework designed to quantify SCO. By leveraging StructBreak, we uncover a novel higher-order cognitive overload attack paradigm; notably, this attack operates under a practical black-box setting, requiring no internal model access. Consequently, we utilize this framework to establish a comprehensive benchmark spanning ten diverse threat scenarios. Empirical evaluations on six leading MLLMs reveal that SCO readily triggers toxic generation, yielding a 92% average ASR (up to 97% on Gemini 2.5). To elucidate the mechanism of SCO, we further conduct model-level interpretations spanning attention dynamics, latent space topology, and geometric analysis. Our findings reveal that StructBreak acts as a novel structural channel to circumvent safety filters. Furthermore, the limited efficacy of inherent safety mechanisms underscores that current alignment paradigms are insufficient for the era of complex multimodal reasoning.
パーソナライズしてから保存: 長期的なエージェント向けにパーソナライズされたメモリのベンチマークと学習
既存の大規模言語モデル (LLM) ベースのメモリ システムは、基本的な現実を無視する普遍的な静的ポリシーを適用しています。つまり、メモリに保存する価値のあるコンテキストはユーザーによって異なります。このずれにより、限られたメモリ バジェットが一時的なインタラクションに浪費され、長期間のタスクに必要な重要なコンテキストが保持されなくなります。このギャップに対処するために、LLM ベースのメモリ システムはパーソナライズされたメモリ ポリシーを学習できるか?という未解明の疑問を調査します。パーソナライズされたメモリ システムを評価するための最初のベンチマークである PerMemBench を紹介します。これは、多様なユーザー ペルソナにわたる複数年にわたるマルチドメインのインタラクション履歴を特徴とします。さらに、メモリのパーソナライゼーションに関する最初の実証研究を紹介し、一時的なセッションのメモリ操作を選択的にバイパスする軽量フレームワークであるセッション レベルのストレージ ゲーティングを提案します。私たちの研究では、パーソナライゼーションが完璧なゲーティングの下で大幅なリテンション向上をもたらすことを確認していますが、正確なゲーティングが依然として未解決かつ重要な課題であることも明らかにしています。
原文 (English)
Personalize-then-Store: Benchmarking and Learning Personalized Memory for Long-horizon Agents
Existing large language model (LLM) based memory systems apply universal, static policies that overlook a fundamental reality: the contexts that are worth storing in memory are different across users. This misalignment wastes limited memory budget on transient interactions while failing to preserve critical context for long horizon tasks. To address this gap, we investigate an underexplored question: can LLM based memory systems learn personalized memory policies? We introduce PerMemBench, the first benchmark for evaluating personalized memory systems, featuring multi year, multi domain interaction histories across diverse user personas. We further present the first empirical study of memory personalization, proposing session level storage gating, a lightweight framework that selectively bypasses memory operations for transient sessions. Our study confirms that personalization yields substantial retention gains under perfect gating, yet reveals that accurate gating remains an open and critical challenge.
回路に導かれた内部と外部の不一致による不誠実な思考連鎖の検出
思考連鎖 (CoT) 推論は大規模言語モデル (LLM) の問題解決能力を向上させますが、生成された推論トレースはモデルの実際の意思決定プロセスを忠実に反映していない可能性があります。既存の CoT 不正行為検出器は主に、テキストの妥当性や回答の一貫性など、生成された理論的根拠からの外部信号に依存しており、モデルの内部計算からの証拠は無視されています。最近の回路トレース手法は、推論中に情報がモデル コンポーネントをどのように流れるかを追跡することによってモデル内部の証拠を取得する方法を提供しますが、長い CoT に対応する完全な推論回路を構築するのはコストが高く、拡張するのが困難です。これらの課題に対処するために、インスタンス レベルの CoT 不正行為検出のフレームワークである、回路誘導型内部外部不一致スコアラー (CIE-Scorer) を提案します。重要な考え方は、忠実な推論トレースはモデルの計算プロセスと一致する必要があるが、不忠実なトレースはモデルの計算プロセスから逸脱する可能性があるということです。 CIE-Scorer は、有益な推論トークンからコンパクトな文レベルの回路を効率的にトレースし、内部および外部の推論グラフを構築し、融合グロモフ - ワッサーシュタイン距離を使用してそれらの不一致を測定します。 FaithCoT-Bench の 4 つのデータセットを用いた実験では、CIE-Scorer が回路構築のコストを削減しながら最先端のパフォーマンスを達成することを示し、CoT 不正検出のための機構的解釈可能性信号と外部推論トレースの組み合わせの有効性を実証しています。
原文 (English)
Detecting Unfaithful Chain-of-Thought via Circuit-Guided Internal-External Discrepancy
Chain-of-thought (CoT) reasoning improves the problem-solving ability of large language models (LLMs), but generated reasoning traces may not faithfully reflect the model's actual decision process. Existing CoT unfaithfulness detectors mainly rely on external signals from generated rationales, such as textual plausibility or answer consistency, while overlooking evidence from the model's internal computation. Although recent circuit tracing methods provide a way to obtain model-internal evidence by tracing how information flows through model components during reasoning, constructing full reasoning circuits for long CoTs is costly and difficult to scale. To address these challenges, we propose Circuit-guided Internal-External Discrepancy Scorer (CIE-Scorer), a framework for instance-level CoT unfaithfulness detection. The key idea is that faithful reasoning traces should align with the model's computational process, whereas unfaithful traces may diverge from it. CIE-Scorer efficiently traces compact sentence-level circuits from informative reasoning tokens, constructs internal and external reasoning graphs, and measures their discrepancy using Fused Gromov--Wasserstein distance. Experiments on four datasets from FaithCoT-Bench show that CIE-Scorer achieves state-of-the-art performance while reducing the cost of circuit construction, demonstrating the effectiveness of combining mechanistic interpretability signals with external reasoning traces for CoT unfaithfulness detection.
AgentHijack: 一般的な環境破損に対するコンピュータ使用エージェントの堅牢性のベンチマーク
マルチモーダル大規模言語モデル (MLLM) を活用した自律型コンピューター使用エージェントが、複雑なデジタル ワークフローを完了するための有能なアシスタントとして登場しつつあります。しかし、現実の実行環境は理想とは程遠いものです。ポップアップ、解像度の変更、競合するアプリケーションがエージェントの認識と制御を頻繁に妨げます。 AgentHijack は、直接的な敵対的な意図がなくても、動的環境の不確実性により実行フローが中断される一般的な破損下でのコンピュータ使用エージェントの堅牢性を評価するように設計されたベンチマークです。具体的には、AgentHijack は、現実的な不完全なシナリオを再現するために、9 つの構成可能な一般的な破損を導入します。私たちは、MLLM ベースのエージェントを利用するさまざまなデスクトップ タスクを評価し、わずかな破損でもパフォーマンスが大幅に低下する可能性があることを発見しました。これにより、エージェントの脆弱性が強調され、堅牢性評価の必要性が強調されます。その後、強化されたグラウンディング機能を備えたアクション ジェネレーターと、動作の要約と環境チェックを担当する観察者を統合するフレームワークである AgentHijack-Agent を提案します。広範な実験によりその有効性が検証されています。私たちのコード、環境、ベースライン モデル、データは、https://AgentHijack.github.io で公開されています。
原文 (English)
AgentHijack: Benchmarking Computer Use Agent Robustness to Common Environment Corruptions
Autonomous computer use agents that powered by multimodal large language models (MLLMs) are emerging as capable assistants for completing complex digital workflows. However, real-world execution environments are far from ideal: pop-ups, resolution changes, and competing applications frequently interfere with agent perception and control. We introduce AgentHijack, a benchmark designed to evaluate the robustness of computer-use agents under common corruptions, where the uncertainties in dynamic environment disrupt the execution flow without direct adversarial intent. Specifically, AgentHijack introduces 9 configurable common corruptions to replicate realistic imperfect scenarios. We evaluate a variety of desktop tasks that utilize MLLM-based agents and discover that even minor instances of corruption can result in substantial performance degradation, which emphasizes the fragility of agents and underscores the necessity of robustness evaluation. Afterward, we propose AgentHijack-Agent, a framework that integrates an action generator with enhanced grounding capabilities and an onlooker responsible for behavior summarization and environment checking. Extensive experiments validate its effectiveness. Our code, environment, baseline models and data are publicly available at: https://AgentHijack.github.io.
$D^2$-Monitor: 躊躇を考慮したルーティングによる拡散 LLM の動的安全性モニタリング
自己回帰大規模言語モデル (AR-LLM) の代替として拡散大規模言語モデル (D-LLM) が登場したにもかかわらず、D-LLM の安全性モニタリングはほとんど解明されていないままです。 AR-LLM とは異なり、D-LLM は複数ステップのノイズ除去プロセスを通じてテキストを生成し、標準のシングルステップ監視設定では利用できない安全関連情報が含まれる可能性のある中間の隠された表現を公開します。私たちは、軽量プローブが常時監視に適していることを動機として、そのようなプローブが困難を極める可能性がある場合に、どの軌道レベルの信号が最もよく示すかを分析します。私たちは、最も有益な信号が安全性のためらいであることを発見しました。つまり、中間の隠れ状態がプローブの決定境界のわずかなマージン内に繰り返し落ち込むことです。 D-LLM の軌道におけるこのようなためらいステップの数は、プローブの故障を効果的に予測し、サンプルの難易度の代用を提供します。この分析に基づいて、D-LLM のバイレベル安全モニターである $D^2$-Monitor を提案します。 $D^2$-Monitor は、ためらいを共同推定し、塩基分類を実行するための常時オン モニターとして軽量プローブを採用しています。ためらいレベルがしきい値を超えると、より表現力が豊かですが、計算量がより重いプローブがアクティブになります。この動的ルーティング メカニズムは、テスト時にモニタリング リソースを効率的に割り当てます。 4 つの D-LLM にわたる 3 つのデータセット (WildguardMix、ToxicChat、OpenAI-Moderation) で評価された $D^2$-Monitor は、コンパクトなパラメーター フットプリント ($\leq$ 0.85M パラメーター) で最先端のパフォーマンスを達成し、8 つのベースラインと比較して有効性と効率の間の最良のトレードオフを示します。
原文 (English)
$D^2$-Monitor: Dynamic Safety Monitoring for Diffusion LLMs via Hesitation-Aware Routing
Despite the emergence of diffusion large language models (D-LLMs) as an alternative to autoregressive large language models (AR-LLMs), safety monitoring for D-LLMs remains largely unexplored. Unlike AR-LLMs, D-LLMs generate text through a multi-step denoising process, exposing intermediate hidden representations that may contain safety-relevant information unavailable in standard single-step monitoring setups. Motivated by the suitability of lightweight probes for always-on monitoring, we analyze which trajectory-level signals best indicate when such probes are likely to struggle. We find that the most informative signal is safety hesitation: intermediate hidden states repeatedly falling within a small margin of the probe's decision boundary. The number of such hesitation steps in D-LLM's trajectory predicts probe failure effectively, providing a proxy of sample difficulty. Building on this analysis, we propose $D^2$-Monitor, a bi-level safety monitor for D-LLMs. $D^2$-Monitor adopts a lightweight probe as an always-on monitor to jointly estimate hesitation and perform base classification. When the hesitation level exceeds a threshold, a more expressive but computationally heavier probe is activated. This dynamic routing mechanism allocates monitoring resources efficiently at test time. Evaluated on 3 datasets (WildguardMix, ToxicChat, OpenAI-Moderation) across 4 D-LLMs, $D^2$-Monitor achieves state-of-the-art performance with a compact parameter footprint ($\leq$ 0.85M parameters), and exhibits the best trade-off between effectiveness and efficiency relative to 8 baselines.
CausaLab: AI 科学者向けのインタラクティブな因果発見のためのスケーラブルな環境
LLM エージェントによるインタラクティブな因果発見を評価するためのスケーラブルな環境である CausaLab を紹介します。以前の評価とは異なり、CausaLab では、エージェントが因果関係の証拠を使用して問題を解決できるかどうか、およびその答えが根底にある因果メカニズムに関する正しい仮説によって裏付けられているかどうかの両方を評価します。各エピソードではエージェントが合成実験室に配置されます。エージェントは以前の測定記録を受け取り、マニピュレーター結晶に介入し、同じ機構によって支配される保持されたリアクター結晶の共振周波数を予測します。隠されたデータ生成プロセスは、ランダムにサンプリングされた構造因果モデル (SCM) であるため、成功するには、事前の知識を思い出すのではなく、因果グラフと構造方程式の両方を回復する必要があります。 CausaLab には、エージェントの進化する SCM 仮説を記録するドメイン固有の言語も含まれており、軌跡を検査可能にしてグラウンド トゥルースと比較できるようになります。実験では、予測とメカニズム回復の間に永続的なギャップがあることが示されています。純粋に観測的な 6 ノード設定では、GPT-5.2-high はタスク精度 92% に達しますが、オールエッジ $F_1$ はわずか 0.471 です。この観察は、さまざまな相互作用戦略の探求をさらに動機づけます: 混合観察 - 介入戦略は構造忠実度を向上させます: 混合 6 ノード設定では、GPT-5.2-high はタスク精度とオールエッジ $F_1$ の両方で 80% を達成しました。しかし、純粋な介入戦略はタスクの精度とオールエッジ $F_1$ の両方においてパフォーマンスが低いため、強力なエージェントですら有益な介入を設計するのに苦労しています。私たちは、エージェントの主要な弱点として早期停止を特定し、仮説と過去のデータとの間の一貫性をモデルに検証するように依頼することが、この問題の軽減に役立つことを示します。したがって、CausaLab は予測の成功を因果関係の理解から切り離し、実験的因果推論者としての現在の LLM エージェントの限界を明らかにします。
原文 (English)
CausaLab: A Scalable Environment for Interactive Causal Discovery Toward AI Scientists
We introduce CausaLab, a scalable environment for evaluating interactive causal discovery by LLM agents. Unlike prior evaluations, CausaLab evaluates both whether an agent can solve a problem using causal evidence and whether its answer is supported by a correct hypothesis about the underlying causal mechanism. Each episode places an agent in a synthetic laboratory: it receives prior measurement records, intervenes on a manipulator crystal, and predicts the resonance frequency of a held-out reactor crystal governed by the same mechanism. The hidden data-generating process is a randomly sampled structural causal model (SCM), so success requires recovering both a causal graph and structural equations rather than recalling prior knowledge. CausaLab also includes a domain-specific language that records the agent's evolving SCM hypothesis, making trajectories inspectable and comparable with ground truth. Experiments show a persistent gap between prediction and mechanism recovery: in the purely observational 6-node setting, GPT-5.2-high reaches 92% task accuracy but only 0.471 all-edge $F_1$. This observation further motivates our exploration of different interaction strategies: Mixed observation--intervention strategies improve structural fidelity: in the mixed 6-node setting, GPT-5.2-high achieves 80% on both task accuracy and all-edge $F_1$. Yet even strong agents struggle to design informative interventions, as pure intervention strategies perform poorly on both task accuracy and all-edge $F_1$. We identify premature stopping as a major weakness of agents, and show that asking the model to verify the consistency between its hypothesis and past data can help mitigate this issue. CausaLab therefore separates predictive success from causal understanding and exposes current LLM agents' limits as experimental causal reasoners.
AI 制御におけるリトライとリサンプリング
Claude Code や Codex のような AI コーディング スキャフォールドは \textit{retrying} を使用します。つまり、危険であるとフラグが立てられたアクションをブロックし、軌道を継続します。私たちは、モデルを潜在的に敵対的なものとして扱う AI 制御の観点から再試行を研究します。再試行により正直な疑いのスコアが低下する一方で、信頼されていないモデルはモニターの理論的根拠を悪用してより卑劣な攻撃を構築し、安全性の向上を打ち消す可能性があることがわかりました。また、\textit{resampling}: 同じコンテキストから複数のサンプルを抽出することも研究します。これにより、悪用可能な情報が漏洩することはありません。リサンプリングに関するこれまでの作業で束ねられていた設計の選択肢を解きほぐします。 BashArena では、Claude Opus 4.6 を信頼できないモデルとして、MiMo-V2-Flash を信頼できるモニターとして使用し、ステップごとに 5 つのサンプルを抽出し、最大疑惑スコアに基づいて監査することで、有用性を犠牲にすることなく、0.3\% の監査予算で安全性が 61\% から 71\% に向上します。最初の描画で疑わしいと思われるステップのみを選択的にリサンプリングすると、6.2 パーセント ポイントのゲインが回復しますが、余分なサンプルは 10\% しか描画されません。この設定における我々の発見のうち 2 つは、リサンプリングに関する以前の研究と矛盾します。 1 つ目は、リサンプリングされた疑惑スコア全体の最大値に基づいた監査の方が、最小値を使用した場合よりも優れたパフォーマンスを発揮することです。これは、Ctrl-Z が検出したものとは逆です。 2 つ目は、初期の再サンプル遅延プロトコルの中心的なメカニズムである最も疑わしいサンプルの実行では、今回の設定では経験的に安全性がわずかしか得られないということです (+3.9 pp、信頼区間がゼロと重なる場合)。
原文 (English)
Retrying vs Resampling in AI Control
AI coding scaffolds like Claude Code and Codex use \textit{retrying}: blocking actions flagged as risky and continuing the trajectory. We study retrying from an AI control perspective, which treats the model as potentially adversarial. We find that while retrying reduces honest suspicion scores, the untrusted model can exploit monitor rationale to construct sneakier attacks, negating safety gains. We also study \textit{resampling}: drawing multiple samples from the same context, which does not leak exploitable information. We disentangle design choices that previous work on resampling had bundled together. In BashArena, with Claude Opus 4.6 as the untrusted model and MiMo-V2-Flash as the trusted monitor, drawing five samples per step and auditing on the maximum suspicion score raises safety from 61\% to 71\% at a 0.3\% audit budget, at no cost to usefulness. Selectively resampling only the steps that look suspicious on the first draw recovers 6.2 percentage points of the gain while drawing only 10\% as many extra samples. Two of our findings in this setting contradict earlier work on resampling. The first is that auditing based on the maximum across resampled suspicion scores outperforms using the minimum, which is the opposite of what Ctrl-Z found. The second is that executing the least suspicious sample, which is the central mechanism in earlier defer-to-resample protocols, gives only a small empirical safety gain in our setting (+3.9 pp, with the confidence interval overlapping zero).
LLM の秘密辞書をチェックしてください! 5 行のコードで LLM が学習した内容が明らかになります (学習すべきではない内容も含む)
トランスフォーマーベースの大規模言語モデルの lm_head} 重み行列の特異値分解 (PyTorch の 5 行のみが必要で、モデル推論は必要ありません) によって、解釈可能な意味論的部分空間がモデルの重みから直接明らかになることを示します。各左特異ベクトルは、隠れ状態が対応する特異方向と一致するときに最も容易に選択される語彙トークンを識別します。これらのクラスターを検査すると、モデルのトレーニング データの構成とキュレーションの哲学が明らかになります。 GPT-OSS-120B、Gemma-2-2B、および Qwen2.5-1.5B を分析すると、特異値スペクトルと語彙クラスター構造がモデル間で体系的に異なることがわかります。GPT は関数的に区別された部分空間の段階的な階層を示します。 Gemma は 19 世紀以前の英語の正書法が主流であり、段階的なクラスタリング構造を形成しており、これが高い出力制御性に貢献している可能性があります。そして、Qwen は、直接出版するには倫理的に不適切であると著者が判断した語彙のサブスペースとともに、広範な多言語をカバーしています。ベースと命令の比較により、倫理的に関係のある部分空間はトレーニング前に発生し、トレーニング後の調整では除去されないことが明らかになります。部分空間の一貫性を定量化するために語彙クラスター スコア (VCS) を導入し、静的なグリッチ トークン検出器として加重射影スコア (WPS) を導入します。 WPS を GPT-OSS-120B に適用すると、CJK 言語コミュニティで広く報告されている有名なグリッチ トークンであるしょくぶつひゃっかつ (ID 137606) がモデル推論なしで復元されます。私たちは、問題のある語彙コンテンツの根本原因の分類法を提案し、標準的なリリース前の安全性監査ステップとして lm_head} SVD 分析を採用することを求めます。私たちの調査結果は、SVD に基づいたトークナイザーの最適化と、より制御可能な LLM 設計に向けた方向性をさらに示唆しています。
原文 (English)
Check Your LLM's Secret Dictionary! Five Lines of Code Reveal What Your LLM Learned (Including What It Shouldn't Have)
We show that singular value decomposition of the lm_head} weight matrix of a transformer-based large language model -- requiring only five lines of PyTorch and no model inference -- reveals interpretable semantic subspaces directly from the model weights. Each left singular vector identifies the vocabulary tokens most readily selected when the hidden state aligns with the corresponding singular direction; inspecting these clusters exposes the model's training data composition and curation philosophy. Analysing GPT-OSS-120B, Gemma-2-2B, and Qwen2.5-1.5B, we find that singular value spectra and vocabulary cluster structures differ systematically across models: GPT exhibits a graduated hierarchy of functionally differentiated subspaces; Gemma is dominated by pre-nineteenth-century English orthography, forming a stepwise clustering structure that may contribute to high output controllability; and Qwen exhibits broad multilingual coverage alongside subspaces whose vocabulary the authors have determined to be ethically inappropriate for direct publication. Base-instruct comparison reveals that ethically concerning subspaces originate in pretraining and are not removed by post-training alignment. We introduce the Vocabulary Cluster Score (VCS) to quantify subspace coherence, and the Weighted Projection Score (WPS) as a static glitch token detector; applying WPS to GPT-OSS-120B recovers shokubutsu-hyakka-tsu (ID 137606), a well-known glitch token widely reported in the CJK language community, without any model inference. We propose a taxonomy of root causes for problematic vocabulary content and call for lm_head} SVD analysis to be adopted as a standard pre-release safety auditing step. Our findings further suggest directions toward SVD-guided tokenizer optimisation and more controllable LLM design.
VineLM: エージェント ワークフローのためのトライベースのきめ細かい制御
エージェント ワークフローは、構成可能な LLM ステージとツール ステージをインターリーブし、多くの場合、再試行または改良ループが含まれます。既存のワークフロー マネージャーは、完全なワークフロー構成をオフラインでプロファイリングし、各リクエストに静的なワークフロー レベルのプランを割り当てます。このプランは、構成可能な各 LLM ステージを単一のモデルにバインドし、そのモデルを繰り返しのループ反復で再利用し、実行時にそれらの選択を再検討することはありません。コストやレイテンシーの予算内で精度を最大化するなど、リクエストレベルの目標に基づいて実行が展開される際に、各ステージ呼び出しのモデルを選択することで、きめ細かい制御を可能にするワークフローマネージャーである VineLM を紹介します。 VineLM は、実行可能な実行をモデル選択プレフィックスの注釈付きトライとして表し、チェックポイント作成とカスケード プロファイリングを使用して、すべてのパス上のすべてのリクエストを徹底的にプロファイリングすることなく、パスの精度、コスト、レイテンシを推定します。実行時、VineLM は各ステージの呼び出し後にトライを再ルートし、実現された実行プレフィックスと残りのレイテンシ バジェットを使用して残りのサブトライを再計画します。 NL2SQL および数学推論ワークフローでは、VineLM は、粗いワークフロー レベルのベースラインよりもコスト、レイテンシ、精度のフロンティアを向上させ、スパース プロファイリングにより、徹底したプロファイリングと比較してオフライン プロファイリング コストを 98 ~ 99.8% 削減することで、同じリクエストあたりの予算で最大 18% 高い精度を達成します。
原文 (English)
VineLM: Trie-Based Fine-Grained Control for Agentic Workflows
Agentic workflows interleave configurable LLM stages with tool stages and often include retries or refinement loops. Existing workflow managers profile full workflow configurations offline and assign each request a static workflow-level plan that binds each configurable LLM stage to a single model, reuses that model across repeated loop iterations, and does not revisit those choices at runtime. We present VineLM, a workflow manager that enables fine-grained control by choosing the model for each stage invocation as execution unfolds under request-level objectives such as maximizing accuracy under cost or latency budgets. VineLM represents feasible executions as an annotated trie of model-choice prefixes and uses checkpointing and cascade profiling to estimate path accuracy, cost, and latency without exhaustively profiling every request on every path. At runtime, VineLM re-roots the trie after each stage invocation and replans over the remaining subtrie using the realized execution prefix and remaining latency budget. On NL2SQL and math reasoning workflows, VineLM improves the cost-latency-accuracy frontier over coarse workflow-level baselines, achieving up to 18% higher accuracy at the same per-request budget with its sparse profiling reducing offline profiling cost by 98-99.8% when compared to exhaustive profiling.
LLM ツール レジストリにおけるエージェント向けの情報設計
LLM ツール レジストリは、規制されていない広告プラットフォームとして機能します。プロバイダーは、エージェントが選択に使用するフリーテキストの説明を記述しますが、この市場に責任を負わせるための測定インフラストラクチャ (ビューアビリティ基準、品質スコア、結果監査など) は存在しません。当社は、5 つの LLM と 10 のドメインにわたる 17,700 以上のトライアルを建設的なレジストリ設計処方と組み合わせた、最初の体系的なフレームワークを提供します。法的な誇張(主観的な最上級、利益の枠組み)だけで、最適化効果の 100% が得られます。捏造された主張は、増分バイアスをまったく加えません。FTC による欺瞞的な広告ルールの執行は、積極的なメカニズムに対して無効になります。開示は構造的に失敗しています。システムプロンプトの警告は 5 つのモデルのうち 4 つで測定可能な効果を生み出しません。また、行動の上限にはラベルベースの修正のための余裕がありません。最上級は主要な単一機能です (SBC = +0.35)。レジストリ層の記述の正規化は、独立して最善の福祉モデルを実現します。私たちは、選択向けの説明(構造化され、レジストリで管理されている)をマーケティング向けの説明(プロバイダーが作成、選択後に表示)から分離することを提案し、能力とコピーライティングを区別するためにエージェントの注意品質スコアを導入します。
原文 (English)
Agent-Facing Information Design in LLM Tool Registries
LLM tool registries function as unregulated advertising platforms: providers write free-text descriptions that agents use for selection, yet no measurement infrastructure -- no viewability standard, quality score, or outcome audit -- exists to make this market accountable. We provide the first systematic framework, combining 17,700+ trials across five LLMs and ten domains with a constructive registry design prescription. Legal puffery alone (subjective superlatives, benefit framing) captures 100% of the optimization effect; fabricated claims add zero incremental bias -- rendering FTC enforcement of deceptive advertising rules ineffective against the active mechanism. Disclosure fails structurally: system-prompt warnings produce zero measurable effect for four of five models, and behavioral ceilings leave no headroom for label-based correction. Superlatives are the dominant single feature (SBC = +0.35). Registry-layer description normalization achieves first-best welfare model-independently. We propose separating selection-facing descriptions (structured, registry-controlled) from marketing-facing descriptions (provider-authored, shown post-selection), and introduce the Agent Attention Quality Score to distinguish capability from copywriting.
Claude AI Health 引用における典拠シグナル: 典拠シグナル フレームワークを使用した記述分析
この研究は、消費者の健康に関する質問に答える際に、Anthropic の Claude AI が情報源を提示する際に使用する権威シグナルを特定することを目的としています。 LLM が作成する健康関連の引用の質については多くの議論が存在しますが、引用元の情報源の完全性、およびその情報源が医療専門家がどの範囲まで信頼できる情報源であると考えるかについての情報は限られています。この記述的な横断研究では、Google Research が厳選した 3,172 件の消費者の健康に関する質問を含む HealthSearchQA のデータを使用しました。除外後、10,038 件の引用をもたらした 3,075 の質問からなる最終データセットが分析されました。 Authority Signals Framework (Jacques et al., 2026) を適用して、542 ソースの不均衡な層別サンプルについて 4 つのドメインにわたる 10 個の権威シグナルを調査しました。確立された機関情報源がすべての引用文献の 97.8% を占めました (n = 9,818)。組織の種類として最も多く挙げられたのは医療機関 (36.5%) で、続いて政府リソース (31.6%)、専門家協会 (28.4%) でした。商用健康情報は 2.2% (n = 220) を占めました。上位 10 の組織がすべての引用の 57.8% を占め、メイヨー クリニックだけで 24.7% を占めました。焦点を当てたサンプルに含まれる商業情報源のうち、86.4% が医学的レビューの記述を表示し、82.5% がスキーママークアップを使用し、71.8% が包括的な内容を持っていた一方、伝統的な機関情報源は、これらの同じマーカーの有無にかかわらずクロードの引用に現れていました。 Anthropic はクロードを HIPAA 対応のヘルスケア アプリケーションとして位置づけており、これらの発見はクロードの引用行動のベースラインを確立し、AI を介した健康情報の継続的なクロスプラットフォーム評価のためのツールとしての Authority Signals Framework の有用性を実証しています。
原文 (English)
Authority Signals in Claude AI Health Citations: A Descriptive Analysis Using the Authority Signals Framework
This study seeks to determine the authority signals used by Anthropic's Claude AI in its presentation of sources when answering consumer health questions. While there exists a great deal of discourse around the quality of health citations that LLMs produce, there is limited information on the integrity of the sources the citations originate from, and to what extent the sources are, from what health professionals would consider, credible sources. This descriptive cross-sectional study used data from HealthSearchQA, which contains 3,172 consumer health questions curated by Google Research. After exclusions, a final dataset of 3,075 questions yielding 10,038 citations was analyzed. The Authority Signals Framework (Jacques et al., 2026) was applied to examine 10 authority signals across four domains for a disproportionate stratified sample of 542 sources. Established institutional sources accounted for 97.8% of all citations (n = 9,818). Medical Institutions were the most frequently cited organization type (36.5%), followed by Government Resources (31.6%) and Professional Associations (28.4%). Commercial Health Information comprised 2.2% (n = 220). The top 10 organizations accounted for 57.8% of all citations, with Mayo Clinic alone representing 24.7%. Among commercial sources in the focused sample, 86.4% displayed medical review statements, 82.5% used schema markup, and 71.8% had comprehensive content, while traditional institutional sources appeared in Claude's citations with or without these same markers. As Anthropic positions Claude for HIPAA-ready healthcare applications, these findings establish a baseline for Claude's citation behavior and demonstrate the utility of the Authority Signals Framework as a tool for ongoing, cross-platform evaluation of AI-mediated health information.
SODE: LLM エージェントの社会動態の分析
大規模言語モデル (LLM) が対話型エージェントに進化するにつれて、人間の社会力学における LLM の行動の整合性を理解することが不可欠になります。行動ゲーム理論はこれらの相互作用を研究するためのフレームワークを提供しますが、これまでの研究は主に平均スコアなどの結果ベースの指標に依存していました。この焦点は、まったく異なる戦略から同一のスコアが導き出される可能性があるため、持続可能な協力を促進するメカニズムを見落としています。このギャップを埋めるために、SODE (社会力学評価) を導入します。これは、戦略適応のための直接互恵性、評判敏感性のための間接互恵性、および協力的な復元力のためのグループ ダイナミクスという 3 つの進化的側面にわたって LLM エージェントを評価するフレームワークです。 SODE を適用すると、体系的な相違が明らかになります。命令調整モデルは、悪用に対して脆弱になる「消極的なコンプライアンス」を示すことがよくありますが、推論モデルは短期的な最適化を優先し、長期的な協力を不安定にします。特に、「長期的な枠組み」が推論モデルの相互機能を解き放つことができることを実証します。したがって、SODE は、AI エージェントを人間の複雑な社会的ダイナミクスに合わせるための、体系的でメカニズムに基づいたベンチマークを提供します。
原文 (English)
SODE: Analyzing Social Dynamics in LLM Agents
As Large Language Models (LLMs) evolve into interactive agents, understanding their behavioral alignment within human social dynamics becomes essential. While behavioral game theory offers a framework to study these interactions, previous work has predominantly relied on outcome-based metrics such as average scores. This focus overlooks the mechanisms that facilitate sustainable cooperation, as identical scores can be derived from vastly different strategies. To bridge this gap, we introduce SODE (Social Dynamics Evaluation), a framework that evaluates LLM agents across three evolutionary dimensions: Direct Reciprocity for strategy adaptation, Indirect Reciprocity for reputation sensitivity, and Group Dynamics for cooperative resilience. Applying SODE reveals systematic divergences: instruction-tuned models often exhibit "passive compliance" that renders them vulnerable to exploitation, while reasoning models prioritize short-horizon optimization, destabilizing long-term cooperation. Notably, we demonstrate that a "long-horizon framing" can unlock reciprocal capabilities in reasoning models. Thus, SODE offers a systematic, mechanism-grounded benchmark for aligning AI agents with complex human social dynamics.
EchoDistill:堅牢なオーディオ LLM のためのノイジーからクリーンへのアライメント自己蒸留
オーディオ大規模言語モデル (ALLM) は現実世界のノイズに対して非常に脆弱であり、重度のセマンティック ドリフトや幻覚を引き起こすことがよくあります。既存の堅牢性手法は主に、波形レベルの音響強化、回答レベルの監視、またはノイズ表現の内部抑制に依存しています。これらの問題に対処するために、私たちは、整列ベースのノイズのあるものからクリーンなものへの自己蒸留フレームワークである echodistill を提案します。 Echodistill は、凍結されたクリーンオーディオの教師を利用して、推論時のノイズの多いオーディオの生徒に意味論的な参照を提供します。具体的には、学生は騒々しい環境下で候補者の回答をサンプリングし、テスト時の行動を明らかにします。これらの軌道は、グループ相対ポリシー最適化 (GRPO) によって最適化され、教師とのトークンレベルの一貫性が報酬ボーナスとして機能します。騒々しい生徒の候補者の応答を明確な意味論的証拠と一致させ、音声を意識した報酬形成を適用することにより、私たちの方法は正しく、真に音響的に根拠のある推論の軌道を促進します。 Echodistill は、追加の推論コストを発生させることなく、複雑なノイズの下でのオーディオ LLM のセマンティック信頼性とタスク パフォーマンスを大幅に向上させます。広範な実験により、次のことがわかりました。 (I) 最も強いベースラインと比較して、echodistill は、強いノイズの下で GSR で平均 4.18\%$\uparrow$ の改善を達成しました。 (II) Qwen-Omni でのアブレーション結果は、エコー蒸留が GRPO のみのバリアントよりも平均で Acc で 3.02\%$\uparrow$、Noisy で 3.89\%$\uparrow$、GSR で 4.53\%$\uparrow$ 向上していることを示しています。私たちのコードは https://anonymous.4open.science/r/echodistill-10DE で入手できます。
原文 (English)
EchoDistill:Alignment Noisy-to-Clean Self-Distillation for Robust Audio LLMs
Audio Large Language Models (ALLMs) are highly vulnerable to real-world noise, which often induces severe semantic drift and hallucinations. Existing robustness methods primarily rely on waveform-level acoustic enhancement, answer-level supervision, or the internal suppression of noise representations. To address these issues, we propose echodistill, an alignment-based noisy-to-clean self-distillation framework. Echodistill leverages a frozen clean-audio teacher to provide semantic references for an inference-time noisy-audio student. Specifically, the student samples candidate responses under noisy conditions to expose its test-time behavior. These trajectories are then optimized via group-relative policy optimization (GRPO), where the token-level consistency with the teacher acts as a reward bonus. By aligning the noisy student's candidate responses with clean semantic evidence, and applying audio-aware reward shaping, our method encourages reasoning trajectories that are both correct and genuinely acoustically grounded. Echodistill significantly improves the semantic reliability and task performance of Audio LLMs under complex noise, without introducing any additional inference costs. Extensive experiments show that: (I) Compared with the strongest baseline, echodistill achieves average improvements of 4.18\%$\uparrow$ in GSR under strong noise. (II) Ablation results on Qwen-Omni further show that echodistill improves over the GRPO-only variant by 3.02\%$\uparrow$ in Acc, 3.89\%$\uparrow$ in Noisy, and 4.53\%$\uparrow$ in GSR on average. Our codes are available at https://anonymous.4open.science/r/echodistill-10DE.
企業における AI: M365 Copilot Chat の使用方法
M365 Copilot は、ワークフローの一部として、世界中の 100 万を超える企業の何百万人もの人々によって毎週使用されています。 M365 Copilot は、仕事目的でほぼ独占的に使用されるため、AI 環境の中で独自の位置を占めており、人々が仕事で AI をどのように使用するのか、またその使用が次にどこに拡大するのかについて明確な全体像を提供できます。このペーパーでは、M365 Copilot Chat とのユーザー インタラクションを直接分類することで、その使用法を特徴付けます。約 550 万セッションのサンプルの匿名化されたプライバシー保護分析に基づいて、ユーザーの意図の学習された分類と、M365 Copilot Chat で行われた O*NET 作業アクティビティの分類が結合されます。 M365 Copilot がナレッジ ワークの日常的なアシスタントとして台頭していることがわかりました。書き込みが主ですが、ユーザーは情報の検索、分析、意思決定と戦略立案、プログラムやシステムの評価と診断などにも M365 Copilot を利用しています。情報を求めるタスクは依然として一般的ですが、時間の傾向は、「検索としてのチャット」からコンテンツとコミュニケーション関連の作業への相対的な移行を示唆しています。さらに、職種別のグループ間および労働市場で行われる作業との比較では、使用状況は広範囲であるが不均等であり、M365 Copilot Chat で行われる作業の相対的な割合が職種をまたがる場合もあれば、職種固有である場合もあります。労働市場において相対的に過小評価されている分野は、企業における AI 導入の次のフロンティアを示唆しています。
原文 (English)
AI in the Enterprise: How People Use M365 Copilot Chat
M365 Copilot is used every week by millions of people across more than a million companies around the world as part of their workflows. Uniquely positioned in the AI landscape given its near-exclusive use for work purposes, M365 Copilot can offer a clear picture of how people use AI for work and where that usage may expand next. This paper characterizes that usage through direct classification of user interactions with M365 Copilot Chat. Based on an anonymized and privacy-preserving analysis of a sample of approximately 5.5 million sessions, we combine a learned classification of user intent with a classification of O*NET work activities done with M365 Copilot Chat. We find that M365 Copilot is emerging as an everyday assistant for knowledge work: writing dominates, but users also rely on it for information retrieval, analysis, decision making and strategizing, and evaluating and diagnosing programs and systems, among others. Information seeking tasks remain common, but time trends suggest a relative shift away from ``chat as search'' and toward content and communication-related work. Comparisons across occupational groupings and to work done in the labor market further show that usage is broad but uneven, where the relative share of work done with M365 Copilot Chat cuts across jobs in some cases and is occupation-specific in others. Areas of relative underrepresentation in the labor market suggest the next frontier for enterprise AI adoption.
MemForest: 階層型時間インデックスを備えた効率的なエージェント メモリ システム
メモリは、ロングコンテキストの LLM エージェントを有効にするための基本コンポーネントであり、継続的な提供と更新のライフサイクルを通じて対話全体にわたる永続的な状態をサポートします。相当な事前作業にもかかわらず、既存のシステムは、粗粒度の状態管理と本質的に逐次的な更新パイプラインという 2 つの重要な制限により、重大なメンテナンスのオーバーヘッドに悩まされています。特に、更新は LLM 推論と密接に結びついていることが多く、完全な状態の書き換えが必要なため、スケーラビリティが低下し、メモリが蓄積するにつれて遅延が増大します。これらの課題に対処するために、エージェントのメモリを書き込み効率の高い時間データ管理問題として再定式化するメモリ フレームワークである MemForest を紹介します。 MemForest は、並列チャンク抽出によってシーケンシャル ボトルネックを解消し、メモリ構築を同時の独立した操作に分離します。粗粒度のメンテナンスをさらに排除するために、フラットなグローバル サマリーではなく時間順のツリーとしてメモリを編成する階層型時間インデックスである MemTree を導入します。この設計では、完全な状態の書き換えを局所的なノードごとの更新に置き換え、影響を受けるツリー パスのメンテナンス コストを削減しながら、時間的に変化する状態を自然に保存します。私たちは、LongMemEval-S と LoCoMo という 2 つのロングコンテキスト メモリ ベンチマークで MemForest を評価します。 LongMemEval-S では、MemForest はステートフル ベースラインの中で最高の総合パフォーマンスを達成し、EverMemOS を含む最先端のアプローチよりも約 6 倍高いメモリ構築スループットを維持しながら、79.8% pass@1 精度に達します。
原文 (English)
MemForest: An Efficient Agent Memory System with Hierarchical Temporal Indexing
Memory is a fundamental component for enabling long-context LLM agents, supporting persistent state across interactions through a continuous serve-and-update lifecycle. Despite substantial prior work, existing systems suffer from significant maintenance overhead due to two key limitations: coarse-grained state management and inherently sequential update pipelines. In particular, updates are often tightly coupled with LLM inference and require full-state rewrites, leading to poor scalability and growing latency as memory accumulates. To address these challenges, we present MemForest, a memory framework that reformulates agent memory as a write-efficient temporal data management problem. MemForest breaks the sequential bottleneck via parallel chunk extraction, decoupling memory construction into concurrent, independent operations. To further eliminate coarse-grained maintenance, we introduce MemTree, a hierarchical temporal index that organizes memory as time-ordered trees rather than flat global summaries. This design replaces full-state rewrites with localized per-node updates, reducing maintenance cost to the affected tree paths while naturally preserving temporally evolving states. We evaluate MemForest on two long-context memory benchmarks, LongMemEval-S and LoCoMo. On LongMemEval-S, MemForest achieves the best overall performance among stateful baselines, reaching 79.8% pass@1 accuracy while sustaining a memory construction throughput approximately 6x higher than state-of-the-art approaches including EverMemOS.
LLM-AutoSciLab: LLM を使用したアクティブな実験によるクローズドループの科学的発見
科学的発見は、仮説がデータ収集を導き、観察によって仮説空間が洗練される閉ループのプロセスです。しかし、ほとんどのアプローチは、発見を固定データセット上の教師あり学習に落とし込み、限定された観察が局所的に適合するが一般化できない複数のもっともらしいメカニズムをサポートできる可能性があります。したがって、重要な課題は、不確実性を解決するために有益な観察を選択し、静的推論から適応的なデータ取得に焦点を移すことです。これに対処するために、仮説生成と仮説条件付き実験の選択およびメカニズムの改良を組み合わせる閉ループ フレームワークである LLM-AutoSciLab を提案します。 LLM-AutoSciLab は、受動的に収集されたデータにモデルを適合させるのではなく、もっともらしい仮説を繰り返し提案し、それらを区別または改良するために有益な実験を選択し、結果として得られた証拠を使用して状態を更新します。アクティブなデータ取得による動的な閉ループ科学的発見を評価するために、2 つのデータセットで構成される ActiveSciBench を導入します。1 つは 57 の酵素動態タスクを含む ActiveSciBench-Chem、もう 1 つは 45 の遺伝子制御ネットワーク タスクを含む ActiveSciBench-GRN です。これらのデータセットは、適応的な実験計画、変数の選択、真のメカニズムの回復を必要とする、予算に制約のあるプロセスとして発見をモデル化します。 NewtonBench、ActiveSciBench-Chem、ActiveSciBench-GRN のいずれにおいても、LLM-AutoSciLab は従来の手法を上回り、NewtonBench と ActiveSciBench-Chem でそれぞれ 67.6% と 35.1% のシンボリック精度を達成し、ActiveSciBench-GRN で 31.1% の正確なグラフ回復を達成しました。さらに、仮説に基づいた実験は、競合する最も強力なベースラインよりもサンプル効率が 2 ~ 5 倍優れています。コードとデータは、https://github.com/scientific-discovery/LLM-AutoSciLab から入手できます。
原文 (English)
LLM-AutoSciLab: Closed-Loop Scientific Discovery via Active Experimentation with LLMs
Scientific discovery is a closed-loop process in which hypotheses guide data acquisition and observations refine the hypothesis space. Yet most approaches reduce discovery to supervised learning over fixed datasets, where limited observations can support multiple plausible mechanisms that fit locally but fail to generalize. Thus, the key challenge is selecting informative observations to resolve uncertainty, shifting the focus from static inference to adaptive data acquisition. To address this, we propose LLM-AutoSciLab, a closed-loop framework that couples hypothesis generation with hypothesis-conditioned experiment selection and mechanism refinement. Rather than fitting models to passively collected data, LLM-AutoSciLab iteratively proposes plausible hypotheses, selects informative experiments to distinguish or refine them, and updates its state using the resulting evidence. To evaluate dynamic, closed-loop scientific discovery with active data acquisition, we introduce ActiveSciBench, comprising two datasets: ActiveSciBench-Chem with 57 enzyme-kinetics tasks and ActiveSciBench-GRN with 45 gene-regulatory-network tasks. These datasets model discovery as a budget-constrained process requiring adaptive experiment design, variable selection, and recovery of true mechanisms. Across NewtonBench, ActiveSciBench-Chem, and ActiveSciBench-GRN, LLM-AutoSciLab outperforms prior methods, achieving 67.6% and 35.1% symbolic accuracy on NewtonBench and ActiveSciBench-Chem, respectively, and 31.1% exact graph recovery on ActiveSciBench-GRN. Moreover, hypothesis-guided experimentation is 2-5x more sample-efficient than the strongest competing baselines. Code and data are available at: https://github.com/scientific-discovery/LLM-AutoSciLab
堅牢な LLM アンサンブルのための相補的なエージェントの混合
大規模言語モデル (LLM) のアンサンブルやディベートなど、複数の AI コラボレーションは、情報を集約してパフォーマンスを向上させるための有望なパラダイムです。これらのパイプラインの基本的な手順は、複数のプロポーザー LLM の応答をサマライザー LLM にフィードし、より適切な答えを合成することです。ただし、どの提案者を含めるかを選択するのは簡単ではありません。既存のアプローチは、主に精度 (最も強力なモデルを選択する) または多様性 (多様性を確保する) のいずれかに焦点を当てており、提案者間および要約者との相互作用が見落とされていることがよくあります。プロポーザ選択を、特徴選択に似た組み合わせ選択問題として再構成します。ここで、LLM の価値は他のものとの相補性にあります。ただし、標準の特徴選択アルゴリズムを直接適用することは、法外な時間の複雑さのため、LLM 設定では現実的ではありません。この制限を動機として、我々は、小さなラベル付きセットを使用して相補性を評価する、計算上実行可能な広範な貪欲スタイルの選択アルゴリズムを探索します。私たちの実験では、提案者選択の指針としての相補性を検証し、実際に最適なパフォーマンスとコストのトレードオフを達成する方法を特定します。
原文 (English)
Mixture of Complementary Agents for Robust LLM Ensemble
Multi-AI collaboration, such as ensembling or debating large language models (LLMs), is a promising paradigm for aggregating information and boosting performance. A foundational step in these pipelines is to feed the responses of several proposer LLMs into a summarizer LLM, which synthesizes a better answer. However, choosing which proposers to include is non-trivial. Existing approaches primarily focus either on accuracy (picking the strongest models) or diversity (ensuring variety), and often overlook the interactions among proposers and with the summarizer. We reframe proposer selection as a combinatorial selection problem akin to feature selection, where the value of an LLM lies in its complementarity with others. However, directly applying standard feature-selection algorithms is impractical in the LLM setting due to prohibitive time complexity. Motivated by this limitation, we explore an extensive range of computationally feasible, greedy-style selection algorithms that assess complementarity using a small labeled set. Our experiments validate complementarity as a guiding principle for proposer selection and identify methods that achieve the best performance-cost trade-offs in practice.
スキルが増えればエージェントは劣る?スキル ライブラリを拡張するときにスキル シャドウイングによりパフォーマンスが低下する
スキル ライブラリを使用すると、LLM エージェントはタスク固有の指示をオンデマンドで読み込むことができるため、専門知識のないユーザーは、どのスキルが存在するか、どのように機能するかを知らなくても、自然言語を通じてドメイン固有のタスクを解決できます。ただし、ライブラリが大きくなるにつれて、パフォーマンスは低下します。役立つスキルの小さなセットから 202 のスキル ライブラリに拡張すると、最大 21\% 低下します。この研究では、このパフォーマンスの低下を、既知の役立つスキルのライブラリをロードするときと完全なライブラリをロードするときとの間の合格率の低下として定式化します。さらに、スキルの呼び出し (軌道中にエージェントがどのスキルを選択するか) を条件付けすることで合格率の低下を 2 つの効果に分解することを提案します。 \emph{スキル シャドウイング} (ライブラリが拡張するにつれてエージェントが間違ったスキルを選択する頻度が高くなります)、および \emph{コンテキスト オーバーヘッド} (選択が正しい場合でも、拡大されたコンテキストによって実行が低下する) です。両方の効果の上限を導き出し、合格率の低下に対する影響の大きさを特徴付けます。効果とその上限についての経験的な推定によると、\emph{スキル シャドウイング} 効果はライブラリのサイズとともに増大し、パフォーマンス低下に大きく寄与するのに対し、\emph{コンテキスト オーバーヘッド} 効果は依然として小さく、ゼロと区別がつかないことがわかります。この観察された非対称性は、スキル ライブラリを拡張する際の主なボトルネックは、拡大されたコンテキストではなく、スキル選択の失敗であることを示しています。
原文 (English)
More Skills, Worse Agents? Skill Shadowing Degrades Performance When Expanding Skill Libraries
Skill libraries allow LLM agents to load task-specific instructions on demand, letting non-expert users solve domain-specific tasks through natural language without knowing which skills exist or how they work. However, performance degrades as libraries grow -- by up to 21\% when scaling from a small set of helpful skills to a 202-skill library. In this work, we formulate this performance degradation as the pass rate drop between loading a library of known-helpful skills and the full library. Moreover, we propose to decompose the pass rate drop by conditioning on the skill(s) invocation -- which skills the agent selects during a trajectory -- into two effects: \emph{skill shadowing}, where the agent selects wrong skills more often as the library expands, and \emph{context overhead}, where the enlarged context degrades execution even when selection is correct. We derive upper bounds on both effects to characterize their magnitudes of impacts to the pass rate drop. Our empirical estimates of the effects and their upper bounds both show that the \emph{skill shadowing} effect grows with library size and significantly contributes to the performance degradation, whereas the \emph{context overhead} effect remains small and indistinguishable from zero. This observed asymmetry establishes that the skill selection failure, not the enlarged context, is the primary bottleneck when expanding the skill libraries.
モバイル クラウドソーシングにおける LLM 微調整のための真実のオンライン好みの集約
モバイル アプリケーション (例: ナビゲーション) でのユーザーの要求によりよく応えるために、モバイル クラウドソーシング プラットフォームは、大規模言語モデル (LLM) で生成されたコンテンツ (例: AI で生成された交通状況予測) と、クラウドソーシング作業者 (例: モバイル ユーザー) から収集された人間のフィードバックを繰り返し調整できます。ただし、従業員は自分の影響力や報酬を最大化するために、オンラインの好みのフィードバックを戦略的に誤って報告する可能性があります。モバイル クラウドソーシングの既存のパイプライン (例: EM ベースの体重推定) は、このオンライン設定で最も正確なワーカーを特定できず、その結果、$T$ のタイムスロットにわたって直線的なリグレス $\mathcal{O}(T)$ が発生します。この論文では、モバイル クラウドソーシングにおける LLM 微調整のための真実のオンライン嗜好集約について研究します。私たちは、プラットフォームと戦略的モバイル ワーカー間のマルチエージェント オンライン学習プロセスをモデル化する新しい動的なベイジアン ゲームを定式化します。私たちは、フィードバックの精度に応じて好みの集計における各ワーカーの重みを動的に調整する、新しいオンライン加重集計メカニズムを提案します。私たちのメカニズムが戦略的従業員からの真実のフィードバックを保証し、$T$ のタイムスロットにわたって線形未満の後悔 $\mathcal{O}(\sqrt{T})$ を達成することを証明します。さらに、タイムスロットごとの作業者のフィードバックが制限された困難なシナリオにメカニズムを拡張し、線形未満の後悔 $\mathcal{O}(\sqrt{T})$ を保証します。実世界のデータセットを使用した LLM 微調整の実験では、ベンチマーク スキームと比較してメカニズムのパフォーマンスが大幅に向上することがさらに実証されました。
原文 (English)
Truthful Online Preference Aggregation for LLM Fine-Tuning in Mobile Crowdsourcing
To better serve users' demands in mobile applications (e.g., navigation), mobile crowdsourcing platforms can iteratively align large language model (LLM)-generated content (e.g., AI-generated traffic condition predictions) with human feedback collected from crowdsourcing workers (e.g., mobile users). However, workers may strategically misreport their online preference feedback to maximize their influence or payment. Existing pipelines in mobile crowdsourcing (e.g., EM-based weight estimation) fail to identify the most accurate worker in this online setting, resulting in a linear regret $\mathcal{O}(T)$ over $T$ time slots. In this paper, we study truthful online preference aggregation for LLM fine-tuning in mobile crowdsourcing. We formulate a new dynamic Bayesian game to model the multi-agent online learning process between the platform and strategic mobile workers. We propose a novel online weighted aggregation mechanism that dynamically adjusts each worker's weight in the preference aggregation according to their feedback accuracy. We prove that our mechanism ensures truthful feedback from strategic workers and achieves a sublinear regret $\mathcal{O}(\sqrt{T})$ over $T$ time slots. We further extend our mechanism to a challenging scenario with limited worker feedback per time slot, still guaranteeing a sublinear regret $\mathcal{O}(\sqrt{T})$. Experiments on LLM fine-tuning with real-world datasets further demonstrate significant performance gains of our mechanisms over benchmark schemes.
マニュアルが嘘である場合: LLM エージェントに対する MCP ポイズニング攻撃を評価するための現実的なベンチマーク
モデル コンテキスト プロトコル (MCP) などのプロトコルによって標準化された、ツールを使用するラージ言語モデル (LLM) エージェントの台頭により、外部のオープン ドメインの知識とツールを統合することにより、LLM エージェントの前例のない自律実行機能が解放されました。ただし、この相互運用性により、エージェントの認知計画層を標的とする秘密の攻撃面が導入されます。この論文では、新しいセマンティック攻撃であるツール記述ポイズニング (TDP) を体系的に調査します。 TDP では、悪意のある命令はツールの実行可能コードには埋め込まれません。むしろ、エージェントが安全な計画と意思決定を行うために依存するまさに「マニュアル」である記述メタデータに密かに挿入されます。この新たな脅威を厳密かつ体系的に評価するために、MCP-TDP セキュリティ ベンチマークを導入します。この忠実度の高いサンドボックス環境は、6 つの異なるリスク カテゴリにわたる 32 の現実的な現実世界のテスト ケースで構成されています。 8 つの主流 LLM を評価したところ、GPT-4o などの主要モデルは 6 つの高リスク シナリオでほぼ 100% の攻撃成功率 (ASR) を示し、深刻な脆弱性が明らかになりました。さらに、私たちの調査結果は、一般的な即時ガードレール防御はほとんど効果がなく、直観に反して逆効果になる可能性さえあることを示しています (この現象を私たちは「ファイアウォールの誤謬」と呼んでいます)。重要なのは、エージェントが実行後に自らの悪意のあるアクションを自律的に検出して元に戻す、「反応型自己修正」という防御メカニズムも提案していることです。この成果は、TDP 向けに調整された最初の特殊なセキュリティ ベンチマークを提供し、高度なエージェント システムの認知層と計画層を保護するための重要な洞察を提供します。
原文 (English)
When the Manual Lies: A Realistic Benchmark to Evaluate MCP Poisoning Attacks for LLM Agents
The rise of tool-using Large Language Model (LLM) agents, standardized by protocols like the Model Context Protocol (MCP), has unlocked unprecedented autonomous execution capabilities for LLM Agents by integrating external open-domain knowledge and tools. However, this interoperability introduces a covert attack surface targeting the agent's cognitive planning layer. This paper systematically investigates Tool Description Poisoning (TDP), a novel semantic attack. In TDP, malicious instructions are not embedded in a tool's executable code, but rather covertly injected into its descriptive metadata, the very "manual" an agent relies on for secure planning and decision-making. To rigorously and systematically evaluate this emerging threat, we introduce the MCP-TDP Security Benchmark. This high-fidelity sandbox environment comprises 32 realistic, real-world test cases spanning 6 distinct risk categories. Our evaluation of 8 mainstream LLMs reveals severe vulnerabilities, with leading models like GPT-4o exhibiting a nearly 100% Attack Success Rate (ASR) in six high-risk scenarios. Furthermore, our findings demonstrate that common prompt-guardrail defenses are largely ineffective and can, counterintuitively, even be counterproductive (a phenomenon which we term the "Firewall Fallacy"). Crucially, we also propose a defense mechanism: "Reactive Self-Correction," where an agent autonomously detects and reverts its own malicious actions post-execution. This work provides the first specialized security benchmark tailored for TDP, offering essential insights for securing the cognitive and planning layers of advanced agentic systems.
TRACER: コード LLM におけるきめ細かい汚染検出のためのセマンティック認識フレームワーク
データ汚染は、モデル評価の信頼性に対する既知の脅威です。ただし、コード大規模言語モデル (LLM) では、汚染が正確な複製を超えてしまうことがよくあるため、依然として研究が進んでいません。私たちは、きめ細かいコード汚染検出のためのセマンティクスを意識したフレームワークである TRACER を紹介します。 TRACER は、機能的に同一、ほぼ同一、共有ロジックという 3 つのレベルのセマンティック重複を使用して汚染をモデル化し、粗いパイプラインから細かいパイプラインを通じてそれらを検出します。また、広く使用されている 3 つのベンチマークと 3 つの代表的なトレーニング後のデータセットにわたる、きめ細かいコード汚染検出のための最初のベンチマークも紹介します。 TRACER は複数の LLM バックボーンにわたって強力で一貫したパフォーマンスを実現し、GPT-5 はきめ細かい検出で F1 スコア 0.91 に達しました。バイナリ設定では、TRACER は F1 0.92 を達成し、既存の方法を 42% ~ 217% 上回ります。さらに、TRACER の個々のコンポーネントの寄与を評価するために、アブレーション研究とエラー分析を実施します。
原文 (English)
TRACER: A Semantic-Aware Framework for Fine-Grained Contamination Detection in Code LLMs
Data contamination is a known threat to the reliability of model evaluation. However, it remains underexplored in code large language models (LLMs), where contamination often goes beyond exact duplication. We present TRACER, a semantic-aware framework for fine-grained code contamination detection. TRACER models contamination using three levels of semantic overlap - Functionally Identical, Nearly Identical, and Shared Logic - and detects them through a coarse-to-fine pipeline. We also introduce the first benchmark for fine-grained code contamination detection, spanning three widely used benchmarks and three representative post-training datasets. TRACER achieves strong and consistent performance across multiple LLM backbones, with GPT-5 reaching an F1 score of 0.91 in fine-grained detection. In the binary setting, TRACER attains an F1 of 0.92, outperforming existing methods by 42%-217%. We further conduct ablation studies and error analysis to assess the contributions of individual components in TRACER.
LLM が生成したバグレポートの概要における幻覚の実証分析と検出
大規模言語モデル (LLM) は、再現手順 (S2R)、実際の動作 (AB)、予期される動作 (EB) などのセクションを含むソフトウェア バグ レポートの概要を生成するために使用されることが増えています。ただし、これらのモデルは、説得力はあるものの情報源のレポートでは裏付けられていない幻覚を頻繁に生成します。これは開発者に誤解を与え、自動メンテナンス ツールに対する信頼を低下させる可能性があります。既存の幻覚検出アプローチは通常、出力を完全応答レベルで評価し、技術文書の構造を考慮していません。 80件の構造化されたバグレポートの要約に関する初期の探索的研究では、約47.9%に欠落情報が含まれている一方、12.3%には捏造されたコンテンツが含まれていることが判明し、バグレポートの要約における体系的な幻覚分析の必要性が強調されました。この研究では、セクションを意識した観点から、LLM によって生成されたバグ レポートの概要における幻覚を実証的に調査します。 Mozilla OSS プロジェクトから派生した BugsRepo データセットを使用して、制御された合成幻覚注入を導入し、トレーニングと評価のためのベンチマークを構築します。我々は、概要に幻覚コンテンツが含まれているかどうかを共同で予測し、影響を受けるセクションを特定し、幻覚の種類を分類する、セクションを認識した幻覚検出アプローチを提案します。複数の事前トレーニング済み言語モデルにわたる実験結果は、提案されたアプローチがすべてのタスクにわたって強力なパフォーマンスを達成することを示しており、最良のモデルではレポートレベルの Macro-F1 が 0.89、セクションレベルの Macro-F1 が 0.83、幻覚タイプの Macro-F1 が 0.84 という結果が得られました。一般的な幻覚パターンとモデル障害モードをさらに分析して、LLM が生成する現在のバグ レポートの概要の制限をより深く理解します。この調査結果は、ソフトウェア メンテナンス ワークフローにおける LLM 支援バグ レポート要約の信頼性を向上させるためのセクション認識幻覚分析の重要性を強調しています。
原文 (English)
Empirical Analysis and Detection of Hallucinations in LLM-Generated Bug Report Summaries
Large Language Models (LLMs) are increasingly used to generate summaries of software bug reports, including sections such as Steps-to-Reproduce (S2R), Actual Behavior (AB), and Expected Behavior (EB). However, these models frequently produce hallucinations that can be convincing but unsupported by the source report. This can mislead developers and reduce trust in automated maintenance tools. Existing hallucination detection approaches typically evaluate outputs at the full-response level and do not consider the structure of technical documents. An initial exploratory study on 80 structured bug report summaries found that approximately 47.9% contained missing information, while 12.3% included fabricated content, highlighting the need for systematic hallucination analysis in bug report summarization. In this work, we empirically investigate hallucinations in LLM-generated bug report summaries from a section-aware perspective. Using the BugsRepo dataset, derived from Mozilla OSS projects, we introduce controlled synthetic hallucination injection to construct a benchmark for training and evaluation. We propose a section-aware hallucination detection approach that jointly predicts whether a summary contains hallucinated content, identifies affected sections, and classifies hallucination types. Experimental results across multiple pretrained language models show that the proposed approach achieves strong performance across all tasks, with the best model obtaining 0.89 report-level Macro-F1, 0.83 section-level Macro-F1, and 0.84 hallucination-type Macro-F1. We further analyze common hallucination patterns and model failure modes to better understand limitations of current LLM-generated bug report summaries. The findings highlight the importance of section-aware hallucination analysis for improving the reliability of LLM-assisted bug report summarization in software maintenance workflows.
マルチエージェント プログラミングにおける会話パターンの理解: フィボナッチ ゲーム開発のケーススタディ
大規模言語モデル (LLM) はソフトウェア エンジニアリング (SE) にますます適用されていますが、自律的で役割指向のコラボレーションの可能性は依然としてほとんど研究されていません。複数の LLM ベースのエージェントがどのように連携し、役割の連携を維持し、ソリューションに収束するかを理解することは、SE にとって非常に重要です。単純にエージェントの対話を許可しても、正しい結果や安定した結果が確実に得られるわけではないからです。最近の実証研究では、相互作用のダイナミクスが構造化されていない、または十分に理解されていない場合、たとえ正しい部分解が相互作用の初期に存在していたとしても、エラーの伝播、不正確な解決策に対する時期尚早の合意、または収束を妨げる長期にわたる不一致が生じる可能性があることが示されています。この未開発の領域に対処するための最初のステップとして、7 つのオープンソース LLM (Gemma 2、Gemma 3、LLaMA 3.2、LLaMA 3.3、DeepSeek-R1、MiniCPM、および Qwen3) の 12 のモデルの組み合わせにわたって、デザイナーとプログラマーの 2 人のエージェント間の会話の体系的な分析を行います。私たちの体系的なアプローチにより、効率性 (収束の速度と安定性)、一貫性 (BLEU と ROUGE によって視覚化された役割調整の度合い)、有効性 (コンパイルの成功とエラー解決の程度) という、マルチエージェント インタラクションの 3 つの主要な側面が明らかになります。結果は、DeepSeek-R1:DeepSeek-R1 のペアは、最初の反復から正しいソリューションに収束し、それを最後の反復まで一貫して維持する点で独特である一方、LLaMA 3.2:LLaMA 3.2 および Qwen3:Qwen3 は、正しいソリューションから乖離しているにもかかわらず、デザイナー:プログラマーの役割の強力な連携を示したことが示されました。他のペアはタスクから逸脱し、結果に収束しませんでした。これらの発見は、エージェントティック プログラミングの理解を促進し、将来の自律型 SE に不可欠な収束条件と停止条件の理解と調整に関するさらなる研究の必要性を強調しています。
原文 (English)
Understanding Conversational Patterns in Multi-agent Programming: A Case Study on Fibonacci Game Development
Large Language Models (LLMs) are increasingly applied to software engineering (SE), yet their potential for autonomous, role-oriented collaboration remains largely underexplored. Understanding how multiple LLM-based agents coordinate, maintain role alignment, and converge on solutions is critical for SE, as naively allowing agents to interact does not reliably lead to correct or stable outcomes. Recent empirical studies show that unstructured or poorly understood interaction dynamics can result in error propagation, premature consensus on incorrect solutions, or prolonged disagreement that prevents convergence, even when correct partial solutions are present early in the interaction. As an initial step towards addressing this underexplored area, we undertake a systematic analysis of conversations between two agents, a Designer and a Programmer across 12 model combinations from 7 open-source LLMs (Gemma 2, Gemma 3, LLaMA 3.2, LLaMA 3.3, DeepSeek-R1, MiniCPM, and Qwen3). Our systematic approach reveals three key dimensions of multi-agent interaction: efficiency (the speed and stability of convergence), consistency (the degree of role alignment visualized by BLEU and ROUGE), and effectiveness (the extent of compilation success and error resolution). Results show that the DeepSeek-R1:DeepSeek-R1 pair was unique in converging to the correct solution from the very first iteration and sustaining it consistently to the final iteration, while LLaMA 3.2:LLaMA 3.2 and Qwen3:Qwen3 demonstrated strong Designer:Programmer role alignment despite of diverging from the correct solution. The other pairs deviated from the task, never to converge to a result. These findings advance understanding of agentic programming and highlight the need for further research on understanding and calibrating convergence and stop conditions essential for future autonomous SE.
PromptAudit: LLM ベースの脆弱性検出におけるプロンプト感度の監査
大規模な言語モデルは脆弱性検出にますます使用されていますが、さまざまなプロンプト定式化の下での信頼性はまだ特徴付けられていません。プロンプト戦略のみを変更しながら、データセットを修正し、デコードし、解析することでプロンプトの影響を分離する、制御された評価フレームワークである PromptAudit を紹介します。 1,000 の CVE (16 のプログラミング言語にわたる 6,074 のコード サンプル) 上の 5 つのオープンウェイト モデルにわたる 5 つのプロンプト戦略を使用して、精度、再現率、棄権、カバレッジ、および効果的な F1 を評価します。標準的な思考連鎖プロンプトが全体的な運用パフォーマンスで最も優れているのに対し、少数ショット プロンプトは、プロンプトに敏感なモデルで最も顕著なモデル依存の利点を提供することがわかりました。対照的に、適応的思考連鎖は頻繁に想起を抑制し、自己一貫性は過度の棄権を誘発し、有効なパフォーマンスを急激に低下させます。これらの結果は、脆弱性検出の動作がモデルとプロンプトによって共同して決定されること、およびプロンプトの感度が評価と展開において明示的に特徴付けられる必要がある第一級のシステム特性であることを示しています。
原文 (English)
PromptAudit: Auditing Prompt Sensitivity in LLM-Based Vulnerability Detection
Large language models are increasingly used for vulnerability detection, yet their reliability under different prompt formulations remains uncharacterized. We present PromptAudit, a controlled evaluation framework that isolates prompt effects by fixing the dataset, decoding, and parsing while varying only the prompting strategy. Using five prompting strategies across five open-weight models on 1,000 CVEs (6,074 code samples spanning 16 programming languages), we evaluate accuracy, recall, abstention, coverage, and effective F1. We find that standard chain-of-thought prompting achieves the strongest overall operational performance, while few-shot prompting provides model-dependent benefits that are most pronounced for prompt-sensitive models. In contrast, adaptive chain-of-thought frequently suppresses recall and self-consistency induces excessive abstention, sharply reducing effective performance. These results show that vulnerability detection behavior is jointly determined by the model and the prompt, and that prompt sensitivity is a first-class system property that must be explicitly characterized in evaluation and deployment.
Agent-ToM: 心の理論による自律型 LLM エージェントの監視方法の学習
自律型大規模言語モデル (LLM) エージェントの隠れた悪意のある動作を監視することは、遅延があり、コンテキストに依存し、長期にわたる攻撃パターンがあるため、困難です。エージェントは、表面的には良性の行動を維持しながら隠された目的を追求する可能性があり、完全な軌道にアクセスしても検出が困難になります。以前の監視アプローチは足場またはアンサンブル集約を改善しますが、各軌跡を独立して処理し、以前の監視経験から学習しません。さらに、標準的な推論方法は、良性のタスクの実行と秘密の逸脱を区別するために必要なエージェントの信念、意図、目標の調整について明示的に推論することなく、観察された動作を説明します。私たちは、自律エージェントのセキュリティ分析のための心の理論 (ToM) 推論に基づいた学習から監視までのフレームワークである \textbf{Agent-ToM} を提案します。 Agent-ToM は、信念、校正された信頼度を備えた意図仮説、期待されるアクション、およびタスクの一貫性のある行動ベースラインからの逸脱を推論することにより、構造化された完全な軌跡分析を実行します。推論時に、\textit{Reason-Verify-Refine} パイプラインを使用して、監視の決定を構築および検証します。トレーニング時に、Agent-ToM は批判シグナルを永続的な \textit{セマンティック ガードレール メモリ} に抽出し、エピソード全体で信念と意図に条件付けされた制約を再利用できるようにします。敵対的エージェント監視ベンチマーク (SHADE-Arena および CUA-SHADE-Arena) で Agent-ToM を評価します。 Agent-ToM は、一貫した 2 呼び出し推論パイプラインを使用しながら、強力な適合率と再現率のバランスを実現し、アンサンブル手法を含む最先端の監視ベースラインを上回るパフォーマンスを発揮します。これらの結果は、モニタリング層での学習と、構造化された ToM 推論および検証を組み合わせることで、自律型 LLM エージェントを保護するための効果的で展開可能な基盤が提供されることを示しています。
原文 (English)
Agent-ToM: Learning to Monitor Autonomous LLM Agents via Theory-of-Mind Reasoning
Monitoring autonomous large language model (LLM) agents for covert malicious behavior is challenging due to delayed, context-dependent, and long-horizon attack patterns. Agents may pursue hidden objectives while maintaining superficially benign behavior, making detection difficult even with full trajectory access. Prior monitoring approaches improve scaffolding or ensemble aggregation, but treat each trajectory independently and do not learn from prior monitoring experience. Moreover, standard reasoning methods explain observed behavior without explicitly reasoning about agent beliefs, intentions, and goal alignment required to distinguish benign task execution from covert deviation. We propose \textbf{Agent-ToM}, a learning-to-monitor framework grounded in Theory-of-Mind (ToM) reasoning for security analysis of autonomous agents. Agent-ToM performs structured full-trajectory analysis by inferring beliefs, intent hypotheses with calibrated confidence, expected actions, and deviations from task-consistent behavioral baselines. At inference time, it employs a \textit{Reason-Verify-Refine} pipeline to construct and validate monitoring decisions. At training time, Agent-ToM distills critique signals into a persistent \textit{semantic guardrail memory}, enabling reusable belief- and intent-conditioned constraints across episodes. We evaluate Agent-ToM on adversarial agent monitoring benchmarks (SHADE-Arena and CUA-SHADE-Arena). Agent-ToM achieves strong precision-recall balance and outperforms state-of-the-art monitoring baselines, including ensemble methods, while using a coherent two-call reasoning pipeline. These results demonstrate that learning at the monitoring layer, combined with structured ToM reasoning and verification, provides an effective and deployable foundation for securing autonomous LLM agents.
証明されたツールサーバーアドミッション: モデルコンテキストプロトコルのセキュリティ拡張
モデル コンテキスト プロトコル (MCP) は、大規模言語モデル (LLM) エージェントと外部ツール サーバーがメッセージを交換する方法を標準化しますが、信頼するものではありません。ホストは、どのサーバーを使用できるか、どのような感度で、どのサーバーのツールが制限されているかについては考慮せずに、サーバーの自己宣言されたツール リストを読み取り、呼び出しをディスパッチします。この取り組みは、具体的なニーズから生まれました。MCP や Enclawed 独自のツールのアプリケーション プログラミング インターフェイス (API) を変更することなく、Enclawed エージェントが Google の外部で運用されている MCP サーバー (Gmail、カレンダー、ドライブ) を安全に使用できるようにし、サーバーを許可し、サーバーが駆動する可能性のあるツールを制限するというものです。私たちが構築した、mcp 認定のメカニズム (オープンな enclawed-oss ディストリビューションと enclaved フレーバーの両方で出荷) は、一般化します。仲介されていないサードパーティ接続を 1 人のユーザーにとって安全でなくするギャップにより、規制された展開を認定することが不可能になります。これを 3 つの追加メカニズムで閉じます。(1) サーバーがよく知られた URI (Uniform Resource Identifier) で発行する小規模なオフライン署名クリアランス アサーション。ホストはツールのディスパッチ前に固定されたトラスト ルートに対して検証します。 (2) デフォルトで拒否されるサーバーごとのツール許可リストにより、サーバーがすべてのツールを信頼していないことを認める。 (3) フレーバーゲート型強制モード。チェックを警告からハード拒否に変換し、すべての決定を改ざん防止監査ログに書き込みます。ワイヤー形式、検証アルゴリズム、セキュリティ分析、LLM 主導の敵対的評価を提供します。次に、スキーマ、検証ルール、エラー レジストリ、既知の登録、機械チェック可能な適合ベクトルなど、標準的な Request-for-Comments (RFC 2119) 形式で設計を記述します。これにより、設計を再発明するのではなく、MCP の付録として採用できるようになります。拡張されていないホストは、既知のドキュメントを無視し、現在とまったく同じように動作します。
原文 (English)
Attested Tool-Server Admission: A Security Extension to the Model Context Protocol
The Model Context Protocol (MCP) standardizes how a large-language-model (LLM) agent and an external tool server exchange messages, but not trust: a host reads a server's self-declared tool list and dispatches calls, with no notion of which servers it may use, at what sensitivity, or which of a server's tools are in bounds. This work grew out of a concrete need -- letting the Enclawed agent use Google's externally-operated MCP servers (Gmail, Calendar, Drive) safely, admitting the server and bounding the tools it may drive, without changing MCP or Enclawed's own tool application-programming interface (API). The mechanism we built, mcp-attested (shipped in both the open enclawed-oss distribution and the enclaved flavor), generalizes: the gap that makes an unmediated third-party connection unsafe for one user makes a regulated deployment impossible to accredit. We close it with three additive mechanisms: (1) a small, offline-signed clearance assertion a server publishes at a well-known Uniform Resource Identifier (URI) and a host verifies against a pinned trust root before any tool dispatch; (2) a deny-by-default per-server tool allowlist, so admitting a server is not trusting its every tool; and (3) a flavor-gated enforcement mode that turns the checks from warnings into hard denials, with every decision written to a tamper-evident audit log. We give the wire format, the verification algorithm, a security analysis, and an LLM-driven adversarial evaluation; we then state the design in normative Request-for-Comments (RFC 2119) form -- schema, verification rules, error registry, well-known registration, and machine-checkable conformance vectors -- so it can be adopted as an MCP addendum rather than reinvented. An unextended host ignores the well-known document and behaves exactly as today.
深い研究のためのインタラクティブなパラダイム
大規模言語モデル (LLM) の最近の進歩により、検索、推論、生成を組み合わせることにより、自由形式のクエリに対する包括的なレポート形式の回答を合成する詳細な調査システムが可能になりました。しかし、ほとんどのフレームワークは、ワンショット スコーピングと長時間の自律実行を伴う厳格なワークフローに依存しており、プロセスの途中でユーザーの意図が変わった場合に軌道修正する余地はほとんどありません。私たちは、長期的な研究ワークフローに解釈可能な中間プロセス制御を導入する、Steerable deEp Research のフレームワークである SteER を紹介します。各意思決定ポイントで、SteER は費用対効果の定式化を使用して、ユーザー入力のために一時停止するか、自律的に続行するかを決定します。多様性を意識した計画と、連携、新規性、網羅性を評価するユーティリティ シグナルを組み合わせ、セッション全体で進化する生きたペルソナ モデルを維持します。 SteER は、最先端のオープンソースおよび独自のベースラインをアライメントで最大 22.80% 上回っており、幅やバランスなどの品質指標でリードしており、ペアごとのアライメント判定の 85\%+ において人間の読者に好まれています。また、ペルソナクエリベンチマークとデータ生成パイプラインも紹介します。私たちの知る限り、これはインタラクティブで解釈可能な制御パラダイムを使って詳細な研究を前進させた最初の研究であり、長い形式のタスクにおける制御可能なユーザー調整エージェントへの道を切り開きます。
原文 (English)
An Interactive Paradigm for Deep Research
Recent advances in large language models (LLMs) have enabled deep research systems that synthesize comprehensive, report-style answers to open-ended queries by combining retrieval, reasoning, and generation. Yet most frameworks rely on rigid workflows with one-shot scoping and long autonomous runs, offering little room for course correction if user intent shifts mid-process. We present SteER, a framework for Steerable deEp Research that introduces interpretable, mid-process control into long-horizon research workflows. At each decision point, SteER uses a cost-benefit formulation to determine whether to pause for user input or to proceed autonomously. It combines diversity-aware planning with utility signals that reward alignment, novelty, and coverage, and maintains a live persona model that evolves throughout the session. SteER outperforms state-of-the-art open-source and proprietary baselines by up to 22.80\% on alignment, leads on quality metrics such as breadth and balance, and is preferred by human readers in 85\%+ of pairwise alignment judgments. We also introduce a persona-query benchmark and data-generation pipeline. To our knowledge, this is the first work to advance deep research with an interactive, interpretable control paradigm, paving the way for controllable, user-aligned agents in long-form tasks.
プロンプト方式全体にわたる LLM 生成コードのセキュリティの実証的評価
自動コード生成のための大規模言語モデル (LLM) の使用の増加により、ソフトウェア開発の効率が向上しましたが、多くの場合、セキュリティが犠牲になります。生成されたコードは重大な問題を見落とすことが多く、暗号化が弱く、入力検証が不適切であるなどの問題に対して脆弱なままになっています。この問題を調査するために、5 つの LLM と 4 つのプログラミング言語 (Java、C++、C、Python) にわたる LLM 生成コードのセキュリティ品質の包括的な実証的評価を示し、複数のプロンプト エンジニアリング手法の影響を調べます。モデル推論をガイドする CWE マッピングを使用して、セキュリティ コンテキストでプロンプトを充実させる、弱点を認識したゼロショット思考連鎖 (WA-0CoT) プロンプト戦略を導入します。カイ二乗検定に裏付けられた当社の実証分析では、プロンプト手法全体で脆弱性の頻度や密度に統計的に有意な減少は見られませんでした。ただし、WA-0CoT を含むプロンプト戦略は CWE カテゴリの構成分布に体系的に影響を与え、その効果はプログラミング言語によって異なります。これらの調査結果は、セキュリティを意識したプロンプトによって生成された弱点の構造が変化する一方で、全体的な脆弱性レベルを確実に低減するにはプロンプト エンジニアリングだけでは不十分であることを示唆しています。この結果は、LLM で生成されたコードのセキュリティ プロパティを評価する際に、言語とモデルを意識したプロンプト設計の重要性を強調しています。
原文 (English)
An Empirical Evaluation of LLM-Generated Code Security Across Prompting Methods
The growing use of Large Language Models (LLMs) for automated code generation has enhanced software development efficiency, but often at the cost of security. Generated code frequently overlooks critical concerns, leaving it vulnerable to issues such as weak encryption and improper input validation. To investigate this problem, we present a comprehensive empirical evaluation of the security quality of LLM-generated code across five LLMs and four programming languages (Java, C++, C, and Python), examining the impact of multiple prompt engineering methods. We introduce a weaknesses-aware zero-shot chain-of-thought (WA-0CoT) prompting strategy that enriches prompts with security context using CWE mappings to guide model reasoning. Our empirical analysis, supported by chi-square tests, finds no statistically significant reductions in vulnerability frequency or density across prompt methods. However, prompting strategies, including WA-0CoT, systematically influence the compositional distribution of CWE categories, with effects varying by programming language. These findings suggest that while security-aware prompting alters the structure of generated weaknesses, prompt engineering alone is insufficient to reliably reduce overall vulnerability levels. The results highlight the importance of language-aware and model-aware prompt design when evaluating the security properties of LLM-generated code.
LLM ベースの安全なコード生成の信頼性の向上
大規模言語モデル (LLM) はコード生成に広く使用されていますが、そのセキュリティの信頼性は言語やプロンプト戦略によって一貫性がありません。既存の即時エンジニアリングは機能の正確性を向上させますが、一貫したセキュリティ結果を保証することはほとんどありません。 \textit{Mitigation-Aware Chain-of-Thought (MA-CoT)} フレームワークを導入します。このフレームワークには、タスク固有の CWE 軽減ガイダンスと言語対応の保護機能が組み込まれており、生成されたコードで繰り返し発生する脆弱性を軽減します。 LLMSecEval での外部検証を使用して、200 タスクのプライマリ データセット上で 3 つの LLM (gpt-5、claude-4.5、gemini-2.5)、3 つのプログラミング言語 (C、Java、Python)、および 4 つのプロンプト戦略 (Vanilla、Zero-shot、CoT、MA-CoT) にわたる MA-CoT を評価します。 MA-CoT は、静的分析と専門家による検証を使用して、プライマリ データセットの総セキュリティ検出結果を 92 から 39 (57.6\%)、LLMSecEval の 73 から 4 (94.5\%) に削減しました。重大度の高い所見 (ブロッカー + 重大) は、それぞれ 90 から 39 (56.7\%) と 45 から 2 (95.6\%) に低下しました。両方のデータセットにわたって、セキュリティの信頼性を一貫して向上させる唯一の戦略は MA-CoT です。ゼロショットと CoT は信頼性が低く、特に C では脆弱性が増大する可能性があります。さらに、脆弱性要因の厳密な階層化された属性 (言語コア層とスタック層) を導入し、残留リスクが強化指向のパターン (OS やツールチェーン依存など) に集中し、プロンプトとともに安全な構築プリミティブを動機付けることを示します。
原文 (English)
Enhancing Reliability in LLM-Based Secure Code Generation
Large language models (LLMs) are widely used for code generation, but their security reliability remains inconsistent across languages and prompting strategies. Existing prompt engineering improves functional correctness but rarely ensures consistent security outcomes. We introduce the \textit{Mitigation-Aware Chain-of-Thought (MA-CoT)} framework, which embeds task-specific CWE mitigation guidance and language-aware safeguards to reduce recurring vulnerabilities in generated code. We evaluate MA-CoT across three LLMs (gpt-5, claude-4.5, gemini-2.5), three programming languages (C, Java, Python), and four prompting strategies (Vanilla, Zero-shot, CoT, MA-CoT) on a 200-task primary dataset, with external validation on LLMSecEval. Using static analysis with expert validation, MA-CoT reduces total security findings from 92 to 39 (57.6\%) on the primary dataset and from 73 to 4 (94.5\%) on LLMSecEval. High-severity findings (Blocker + Critical) drop from 90 to 39 (56.7\%) and from 45 to 2 (95.6\%), respectively. Across both datasets, MA-CoT is the only strategy that consistently improves security reliability; Zero-shot and CoT are less reliable and may increase vulnerability, especially in C. We further introduce a strict layered attribution of vulnerability drivers (language-core vs. stack layers) and show that residual risk concentrates in hardening-oriented patterns (e.g., OS- and toolchain-dependent), motivating secure-by-construction primitives alongside prompting.
ChaosBench-Logic v2: 大規模な動的システムに対する LLM 論理推論の評価
バイナリ推論ベンチマークの標準精度は、重大な障害モード (事前の崩壊、言い換えによる不一致、パラメータ依存のダイナミクスについての推論の不能) を隠します。我々は、27 の FOL 述語と 78 の公理エッジを備えた 165 の動的システムにわたる 40,886 問のベンチマークである ChaosBench-Logic v2 を、これらの病理を表面化するプロトコルである CARE (Calibration-and Adversarial-Robust Evaluation) とともに紹介します。 14 のモデルを評価すると、フロンティア モデルであっても体制移行推論はほぼランダム (MCC = 0.05) のままであるのに対し、与えられた前提での FOL 演繹は MCC = 0.52 に達することがわかります。ファミリごとに分解すると、独自モデルの利点がクロスインジケーター (+0.40) と一貫性タスクに集中しているのに対し、オープンソースの Qwen 2.5-32B がインジケーター診断 (0.91 対 0.45) を支配していることがわかります。 2 つのモデルは分岐の質問に関して負の MCC を示し、混同行列分析によって系統的な逆相関であることが確認されました。
原文 (English)
ChaosBench-Logic v2: Evaluating LLM Logical Reasoning over Dynamical Systems at Scale
Standard accuracy on binary reasoning benchmarks hides critical failure modes: prior collapse, inconsistency under paraphrase, and inability to reason about parameter-dependent dynamics. We present ChaosBench-Logic v2, a 40,886-question benchmark over 165 dynamical systems with 27 FOL predicates and 78 axiom edges, together with CARE (Calibration- and Adversarial-Robust Evaluation), a protocol that surfaces these pathologies. Evaluating 14 models, we find that regime-transition reasoning remains near random (MCC = 0.05) even for frontier models, whereas FOL deduction with given premises reaches MCC = 0.52. Per-family decomposition shows that the proprietary-model advantage concentrates on cross-indicator (+0.40) and consistency tasks, while open-source Qwen 2.5-32B dominates indicator diagnostics (0.91 vs. 0.45). Two models exhibit negative MCC on bifurcation questions, confirmed as systematic anti-correlation via confusion-matrix analysis.
Code2UML: スケーラブルなソフトウェア視覚化のためのコンテキスト エンジニアリングを備えたエージェント LLM
Large Language Model (LLM) ベースのコード分析ツールを採用して、ソフトウェアのドキュメント作成タスクを自動化します。ただし、中間表現 (IR) が LLM コンテキストの制限を超える実際のコードベースに対するこれらのアプローチのスケーラビリティは、依然として十分に検討されていません。このペーパーでは、ソース コード リポジトリから UML 図を自動生成するためのコンテキスト エンジニアリングを備えたエージェント アーキテクチャを紹介します。これは、Claude Agent SDK に基づいて構築された、PlannerAgent、AnalyzerAgent、DiagramAgent、CorrectorAgent、DependencyAnalyzerAgent の 5 つの特殊なエージェントの階層を採用しており、それぞれが個別の認知サブタスクに対応します。決定論的で重要度に重み付けされた IR 圧縮レイヤーは、プロジェクト全体の IR を、トークン制約内に収まることが保証されたダイアグラム固有のビューに変換します。LLM 呼び出しは必要なく、ミリ秒で完了します。したがって、4 つのプログラミング言語 (Java、JavaScript、PHP、Python) と 7 つの UML 図タイプで 12 のオープンソース リポジトリにわたってシステムを評価し、5 つの自動化メトリクスで評価される 84 の観察結果を生成します。結果は、高い構文妥当性 (平均: 91.5%、コンポーネントおよび展開図が 100% に達する)、強力な関係精度 (平均: 0.858)、および一貫した構造品質 (平均: 81.7/100、言語間の分散が 3.1 ポイント) を示しています。エンティティ再現率は平均 0.313 で、網羅的なカバレッジよりも意図的なアーキテクチャの優先順位が反映されています。感度分析 (31 ~ 4,578 個の IR エンティティ) により、規模に関係なく品質スコアが安定していることが確認されています。
原文 (English)
Code2UML: Agentic LLMs with context engineering for scalable software visualization
Large Language Model (LLM)-based code analysis tools are adopted to automate software documentation tasks. However, the scalability of these approaches to real codebases, where Intermediate Representations (IR) exceed LLM context limits, remains underexplored. This paper introduces an agentic architecture with context engineering for automated UML diagram generation from source code repositories. It employs a hierarchy of five specialized agents: PlannerAgent, AnalyzerAgent, DiagramAgent, CorrectorAgent and DependencyAnalyzerAgent, built on the Claude Agent SDK, each addressing a distinct cognitive subtask. A deterministic, importance-weighted IR compaction layer transforms full project IRs into diagram-specific views guaranteed to fit within token constraints, requiring no LLM calls and completing in milliseconds. Thus, we evaluate the system across 12 open-source repositories in 4 programming languages (Java, JavaScript, PHP, Python) and 7 UML diagram types, producing 84 observations assessed on 5 automated metrics. Results demonstrate high syntactic validity (mean: 91.5%, with component and deployment diagrams reaching 100%), strong relationship precision (mean: 0.858) and consistent structural quality (mean: 81.7/100, with cross-language variance of 3.1 points). Entity recall averaged 0.313, reflecting deliberate architectural prioritization over exhaustive coverage. A sensitivity analysis (31 to 4,578 IR entities) confirms that quality scores remain stable regardless of scale.
FoodMonitor: 説明可能なコンプライアンス分析のための MLLM のベンチマーク
AI を活用したコンプライアンス監視が公共ガバナンスと産業安全においてますます重要になるにつれ、検証可能な証拠と追跡可能な説明責任のシグナルを提供する機能が不可欠です。ただし、既存のビデオ異常検出データセットはイベント レベルのバイナリ分類に焦点を当てており、現実のコンプライアンス シナリオに必要なルール主導の説明可能な分析が欠けています。業務用厨房監視における説明可能なコンプライアンス分析のベンチマークである FoodMonitor を紹介します。 FoodMonitor は、人レベルと環境レベルの両方の違反をカバーするデュアルチャネル設計で、3,307 の違反注釈を備えた 477 のビデオ クリップで構成されています。各アノテーションは、どのルールに違反したか、どのような非準拠動作が発生したか、および誰がそれをコミットしたかをフレームレベルの境界ボックスで指定します。私たちは、環境と人物検出のパフォーマンスのバランスをとる複合指標 ($C_{\text{score}}$) とともに、空間的位置特定と意味的理解を個別に評価する 2 段階のマッチング メカニズムを備えた統合評価プロトコルを確立します。いくつかの最先端のマルチモーダル大規模言語モデルを体系的に評価したところ、空間的ローカリゼーションときめ細かいルールの理解が主なボトルネックとなり、最高のパフォーマンスを誇るモデルはわずか 0.360 $C_{\text{score}}$ しか達成していないことが明らかになりました。私たちの分析では、ローカリゼーション主導のエラーとセマンティクス主導のエラーという 2 つの異なる障害モードが特定され、将来のモデル開発のための診断上の洞察が得られます。
原文 (English)
FoodMonitor: Benchmarking MLLMs for Explainable Compliance Analysis
As AI-powered compliance monitoring becomes increasingly important in public governance and industrial safety, the ability to provide verifiable evidence and traceable accountability signals is essential. However, existing video anomaly detection datasets focus on event-level binary classification, lacking the rule-driven, explainable analysis required for real-world compliance scenarios. We introduce FoodMonitor, a benchmark for explainable compliance analysis in commercial kitchen surveillance. FoodMonitor comprises 477 video clips with 3,307 violation annotations across a dual-channel design covering both person-level and environment-level violations. Each annotation specifies which rule was violated, what non-compliant behavior occurred, and who committed it with frame-level bounding boxes. We establish a unified evaluation protocol with a two-stage matching mechanism that separately assesses spatial localization and semantic understanding, along with a composite metric ($C_{\text{score}}$) that balances environment and person detection performance. Systematic evaluation of several state-of-the-art multimodal large language models reveals that the best-performing model achieves only 0.360 $C_{\text{score}}$, with spatial localization and fine-grained rule understanding emerging as the primary bottlenecks. Our analysis identifies two distinct failure modes: localization-dominated errors and semantics-dominated errors, providing diagnostic insights for future model development.
SemanticZip: LLM をセマンティック解凍器として使用する非可逆テキスト圧縮のパイロット フレームワーク
大規模言語モデル (LLM) システムのテキスト圧縮は、通常、トークンの削除、取得、要約、または正確な再構成として構成されます。私たちは、より積極的だが明らかに不可逆的な設定を研究します。つまり、テキストをコンパクトなコードに圧縮し、LLM がタスク関連の意味に拡張できるようにします。この設定を SemanticZip と呼びます。可逆圧縮とは異なり、SemanticZip はバイト同一の再構築を必要としません。通常の要約とは異なり、モデルベースの圧縮解除をコーデックの一部として扱い、タスク関連のセマンティックコミットメントが回復されるかどうかを評価します。この文書はパイロット フレームワークであり、ベンチマークを主張するものではありません。 LLM を介した解凍を形式化し、保護/損失のあるパケット アーキテクチャを定義し、作成者が構築した 5 つの診断ケース (構造化散文、JSON、CCL-Core、CCL-Min、SemanticZip ASCII、および SemanticZip 絵文字) について 6 つの表現体制を評価します。独立したデコーダ LLM は、各圧縮表現から型指定されたセマンティック アトムを再構築し、クリティカル アトム リコール、加重アトム リコール、精度、およびトークナイザー ゲインをスコアリングします。このパイロットでは、構造化散文の回復可能性が最も高く、WAR = 0.956、o200k_base トークン ゲインが 19.1% でした。 CCL-Min は最も強力なバランスポイントで、39.4% のトークンゲインと WAR = 0.874 です。 SemanticZip ASCII は、46.5% のトークン ゲインと WAR = 0.802 で最大の有用な圧縮を提供しますが、絵文字が多い SemanticZip は圧縮と回復の両方でパフォーマンスが低下します。主な貢献は、これらの数字が普遍的なフロンティアを確立するという主張ではありません。むしろ、損失の多い LLM 解凍可能なテキスト コードを研究するための再現可能な実験インターフェイスと設計原則を導入します。つまり、安全性が重要で正確なコミットメントは保護されたままである一方、予測可能な低リスクのコンテキストは意味的に圧縮される可能性があります。
原文 (English)
SemanticZip: A Pilot Framework for Lossy Text Compression with LLMs as Semantic Decompressors
Text compression for large language model (LLM) systems is usually framed as token deletion, retrieval, summarization, or exact reconstruction. We study a more aggressive but explicitly lossy setting: compress text into compact codes that an LLM can expand into task-relevant meaning. We call this setting SemanticZip. Unlike lossless compression, SemanticZip does not require byte-identical reconstruction; unlike ordinary summarization, it treats model-based decompression as part of the codec and evaluates whether task-relevant semantic commitments are recovered. This paper is a pilot framework, not a benchmark claim. We formalize LLM-mediated decompression, define a protected/lossy packet architecture, and evaluate six representation regimes over five author-constructed diagnostic cases: structured prose, JSON, CCL-Core, CCL-Min, SemanticZip ASCII, and SemanticZip emoji. An independent decoder LLM reconstructs typed semantic atoms from each compressed representation, and we score Critical Atom Recall, Weighted Atom Recall, precision, and tokenizer gain. In this pilot, structured prose has the highest recoverability, with WAR = 0.956 and 19.1% o200k_base token gain. CCL-Min is the strongest balanced point, with 39.4% token gain and WAR = 0.874. SemanticZip ASCII provides the largest useful compression, with 46.5% token gain and WAR = 0.802, while emoji-heavy SemanticZip performs worse on both compression and recovery. The main contribution is not the claim that these numbers establish a universal frontier. Rather, we introduce a reproducible experimental interface for studying lossy, LLM-decompressible text codes and a design principle: safety-critical and exact commitments should remain protected, while predictable low-risk context may be semantically zipped.
注意力の散漫によって引き起こされる視覚的なぼやけを修正して幻覚を軽減する: アルゴリズムと理論
マルチモーダル大規模言語モデル (MLLM) は、物体の幻覚に悩まされることがよくありますが、この失敗の根底にある視覚知覚メカニズムはまだ十分に理解されていません。この研究では、幻覚が人間のような注意散漫現象と強く関連していることを明らかにしました。この現象では、分割焦点下にある人間は視覚の明瞭度が低下し、不正確な説明を生成しますが、モデルでは同じメカニズムが、複数頭の注意における空間的な不一致と、デコード中の画像トークンへの注意の一時的な薄れとして現れます。さらに、注意の分散によってモデルの複雑さが増大し、分類の一般化が低下するという理論的な洞察も提供します。これらの発見に動機づけられて、我々は、画像認識を改善するための注意集中アプローチ(AFIP)を提案します。これは、クロスヘッド注意の強化を通じて注意の散漫を修正し、動的な歴史的注意の強化を通じて視覚の基礎を強化します。複数のベンチマークとモデルに関する広範な実験により、追加のトレーニングなしで AFIP の有効性が検証されます。
原文 (English)
Correcting Visual Blur Induced by Attention Distraction to Reduce Hallucinations: Algorithm and Theory
Multimodal large language models (MLLMs) frequently suffer from object hallucinations, yet the visual perceptual mechanism underlying this failure remains poorly understood. In this work, we reveal that hallucinations are strongly associated with a human-like attention distraction phenomenon, where humans under divided focus experience degraded visual clarity and produce inaccurate descriptions, while in models the same mechanism manifests as spatial inconsistency in multi-head attention and temporal fading of attention to image tokens during decoding. We further provide theoretical insights that attention dispersion increases model complexity and degrades classification generalization. Motivated by these findings, we propose an Attention-Focused Approach for Improved Image Perception (AFIP), which corrects attention distraction via cross-head attention enrichment and reinforces visual grounding through dynamic historical attention enhancement. Extensive experiments on multiple benchmarks and models validate the effectiveness of AFIP without additional training.
LLM 数学的推論の危害を認識した事後置換のためのガード付き修復
LLM 数学的推論の事後修復は非対称のリスクをもたらします。誤った推論トレースを修正することは有用ですが、すでに正しいトレースを置き換えることは有害になる可能性があります。我々は、選択的置換設定の下でこの問題を研究します。この設定では、修復された候補が元のキャッシュされたトレースを保存するよりも安全かどうかをシステムが判断する必要があります。 GuardedRepair は、キャッシュされた推論トレースを診断し、選択的に修復をトリガーし、決定論的検証ガードが置換をサポートする場合にのみ回答変更候補を受け入れる、保護された Best-of-N 修復フレームワークです。このフレームワークは、軽量のシンボリック チェック、表面的な意味論的リスク診断、限定された候補生成、および保守的な受け入れポリシーを組み合わせています。完全な GSM8K テスト セットでは、最初の推論器がすでに 95.60% の精度を達成しており、GuardedRepair は最終的な精度を 96.89% に向上させ、メイン実行で壊れた正しいケースが測定されることなく、残りの 58 個のエラーのうち 17 個を修正しました。弱い理論的 ASDiv 設定では、精度が 78.40% から 87.60% に向上します。直接再生成ベースラインは、この利益がより強力なモデルの再解決だけでは説明できないことを示しています。すべての GSM8K の例を再解決すると、精度が 93.03% に低下し、最初の 47 の正解が破られます。追加の分析では、ガード付き修理により修理/故障のトレードオフが大幅に改善されると同時に、交換のリスクが排除されるのではなく軽減されることが明らかになりました。これらの結果は、事後修復を、制約のない解決ではなく、害を認識した選択的置換として見ることを裏付けています。
原文 (English)
Guarded Repair for Harm-Aware Post-hoc Replacement of LLM Mathematical Reasoning
Post-hoc repair of LLM mathematical reasoning introduces an asymmetric risk: fixing an incorrect reasoning trace is useful, but replacing a trace that was already correct can be harmful. We study this problem under a selective replacement setting, where a system must decide whether a repaired candidate is safer than preserving the original cached trace. We present GuardedRepair, a guarded best-of-N repair framework that diagnoses cached reasoning traces, selectively triggers repair, and accepts answer-changing candidates only when deterministic verification guards support replacement. The framework combines lightweight symbolic checks, surface semantic-risk diagnostics, bounded candidate generation, and conservative acceptance policies. On the full GSM8K test set, where the initial reasoner already achieves 95.60% accuracy, GuardedRepair improves final accuracy to 96.89%, fixing 17 of 58 remaining errors without measured broken-correct cases in the main run. On a weak-reasoner ASDiv setting, accuracy improves from 78.40% to 87.60%. Direct regeneration baselines show that this gain is not explained by stronger-model re-solving alone: re-solving all GSM8K examples lowers accuracy to 93.03% and breaks 47 initially correct answers. Additional analyses show that guarded repair substantially improves the fixed/broken tradeoff, while also revealing that replacement risk is reduced rather than eliminated. These results support viewing post-hoc repair as harm-aware selective replacement rather than unconstrained re-solving.
アクティベーションパッチによるLLMアンラーニングの深度の測定
大規模言語モデル (LLM) のアンラーニングは、プライバシー保護と AI の安全性のための重要な事後メカニズムとして登場しましたが、対象の知識が本当に消去されたかどうかを監査することは依然として困難です。既存の出力レベルのメトリクスは、この知識が内部表現から回復可能な状態のままであることを検出できません。最近のホワイトボックス研究では、そのような残留知識が明らかになりましたが、多くの場合、補助トレーニングやデータセット固有の適応に依存しており、一般化可能な指標は残されていません。これらの制限に対処するために、アクティベーション パッチングを介した非学習のメカニズムの深さを定量化する指標である Unlearning Depth Score (UDS) を提案します。 UDS はまず、保持モデル ベースラインを使用してターゲットの知識をエンコードするレイヤーを特定し、次に未学習モデルでその知識のどれだけが消去されるかを 0 ~ 1 のスケールで測定します。 8 つの手法にわたる 150 の未学習モデルに対する 20 のメトリクスにわたるメタ評価で、UDS は最高の忠実性と堅牢性を達成し、因果的アプローチが非学習評価において最も信頼できるものであることを確認しました。ケーススタディでは、ホワイトボックスのメトリクスが層レベルで一致しない可能性があること、および消去の深さが例によって異なることがさらに明らかになりました。 UDS を既存のベンチマーク フレームワークに統合し、評価パイプラインを合理化するためのガイドラインを提供します。コードとデータは https://github.com/gnueaj/unlearning- Depth-score で入手できます。
原文 (English)
Measuring the Depth of LLM Unlearning via Activation Patching
Large language model (LLM) unlearning has emerged as a crucial post-hoc mechanism for privacy protection and AI safety, yet auditing whether target knowledge is truly erased remains challenging. Existing output-level metrics fail to detect when this knowledge remains recoverable from internal representations. Recent white-box studies reveal such residual knowledge but often rely on auxiliary training or dataset-specific adaptations, leaving no generalizable metric. To address these limitations, we propose the Unlearning Depth Score (UDS), a metric that quantifies the mechanistic depth of unlearning via activation patching. UDS first identifies layers that encode the target knowledge using a retain model baseline, then measures how much of it is erased in the unlearned model on a 0-1 scale. In a meta-evaluation across 20 metrics on 150 unlearned models spanning 8 methods, UDS achieves the highest faithfulness and robustness, confirming our causal approach as the most reliable for unlearning evaluation. Case studies further reveal that white-box metrics can disagree at the layer level and that erasure depth varies across examples. We provide guidelines for integrating UDS into existing benchmarking frameworks and streamlining the evaluation pipeline. Code and data are available at https://github.com/gnueaj/unlearning-depth-score
LLM エージェントはいくつのツールを参照する必要がありますか?偶然に修正された答え
LLM エージェントがツールを使用できるようになる前に、検索システムはどの候補ツールをエージェントに表示するかを決定する必要があります。その最終候補リストはどれくらいの長さでなければなりませんか?ツールが多すぎると、モデルを選択するのに苦労します。表示数が少なすぎると、正しいツールが表示されない可能性があります。ほとんどのシステムは、すべてのクエリに固定の候補リスト サイズを適用しますが、そのサイズが適切かどうかを評価するための標準的な指標は存在しません。私たちは LLM エージェントに示されたツールの数を評価の対象として扱い、ビット オーバー ランダム (BoR) を適用します。これは、特定の深さでの成功が、同じ深さでのランダム選択の成功よりも優れているかどうかを問う確率補正メトリクスです。当社は、3 つのツール選択ベンチマーク、複数のスコアラー、および 20 ~ 3,251 のツールにわたるレジストリにわたって BoR を評価します。次に、同じ原則を、クエリごとにツール候補リストの深さを選択するための強化学習 (RL) 報酬に変換します。 RL エージェントは意図的に単純になっており、提案されたシステムではなくメトリックのプローブとして機能します。候補リストが大きくなるにつれて、正しいツールが含まれるランダムな確率が高まるため、報酬は自然に減少し、設計された深さペナルティの必要性が減ります。 BFCL (370 ツール) では、学習されたポリシーは 50 個のツールを表示するカバレッジとほぼ一致します ($90.3\%$ 対 $90.8\%$) が、平均では 7 個しか表示されません。 ToolBench (3,251 ツール) では、5 つのツールの固定候補リストはより高い集計カバレッジ ($64.7\%$ 対 $61.9\%$) を達成していますが、ハード クエリでは何も見つかりません (正しいツールは 6 ~ 20 位にランクされています)。 BoR エージェントはさらに詳しく検索することで、同じクエリで $16.7\%$ を見つけます。 Claude Sonnet 4.6 による下流の検証では、アダプティブ リストが短いと、適切なツールを選択する LLM の能力も向上することが示されています。常に 5 つのツールが表示される場合、$93.1\%$ 対 $87.1\%$ であり、適切なツールが存在するが最初にランク付けされていない中難易度のクエリでは、$76.8\%$ 対 $60.9\%$ に広がります。
原文 (English)
How Many Tools Should an LLM Agent See? A Chance-Corrected Answer
Before an LLM agent can use a tool, a retrieval system must decide which candidate tools to show to the agent. How long should that shortlist be? Show too many tools and the model struggles to choose. Show too few and the correct tool may not appear. Most systems apply a fixed shortlist size to every query, but no standard metric exists to evaluate whether that size was appropriate. We treat the number of tools shown to an LLM agent as the object of evaluation and we apply Bits-over-Random (BoR), a chance-corrected metric that asks whether success at a given depth is better than what random selection would achieve at that same depth. We evaluate BoR across three tool-selection benchmarks, multiple scorers, and registries ranging from 20 to 3,251 tools. We then turn the same principle into a reinforcement learning (RL) reward for choosing tool shortlist depth per query. The RL agent is deliberately simple, serving as a probe of the metric rather than a proposed system. As the shortlist grows, random chance of including the correct tool rises, so the reward naturally decreases, reducing the need for an engineered depth penalty. On BFCL (370 tools), the learned policy nearly matches the coverage of showing 50 tools ($90.3\%$ vs $90.8\%$) while presenting only 7 on average. On ToolBench (3,251 tools), a fixed shortlist of 5 tools achieves higher aggregate coverage ($64.7\%$ vs $61.9\%$) but finds nothing on hard queries (correct tool ranked 6th-20th). The BoR agent finds $16.7\%$ on those same queries by searching deeper. Downstream validation with Claude Sonnet 4.6 indicates that shorter adaptive lists also improve the LLM's ability to select the right tool: $93.1\%$ versus $87.1\%$ when always shown 5 tools, widening to $76.8\%$ vs $60.9\%$ on medium-difficulty queries where the correct tool is present but not ranked first.
Mix-MoE: 混合 MoE による大規模言語モデルの多言語機械翻訳の改善
大規模言語モデル (LLM) は、バイリンガルの監督が限られている場合でも、多言語機械翻訳 (MT) において大きな可能性を示しています。ただし、並列コーパスを使用して LLM を微調整すると、パラメーターの干渉という大きな課題が生じます。これらの問題に対処するために、私たちは、多言語 MT 用の LLM を訓練するために設計された専門家の混合フレームワークである Mix-MoE を提案します。私たちのフレームワークは 2 つの異なる段階で動作します: (1) 単言語コーパスに関する MoE による事前トレーニング後、および (2) 並列コーパスに関する MoE による事前トレーニング後。重要なのは、MoE レイヤーを言語モデル エキスパート (LM エキスパート) と機械翻訳エキスパート (MT エキスパート) の 2 つの専門グループに分けていることです。 LM エキスパートは、事前トレーニングされた LLM によって学習された単一言語の知識を取得して保持するように設計されています。一方、MT エキスパートは、バイリンガル翻訳の知識を取得して蓄積するように特別な訓練を受けています。さらに、これらの専門家間の効果的な対話を促進し、テキスト内の潜在的な基礎構造パターンを活用するために、モデル表現から派生したフーリエ変換機能によって強化されたルーティング メカニズムを導入します。実験結果は、Mix-MoE が多言語 MT に優れ、既存のベースラインを大幅に上回り、パラメーター干渉の軽減において顕著な進歩を示していることを示しています。
原文 (English)
Mix-MoE: Improving Multilingual Machine Translation of Large Language Models through Mixed MoEs
Large Language Models (LLMs) have shown great promise in multilingual machine translation (MT), even with limited bilingual supervision. However, fine-tuning LLMs with parallel corpora presents major challenges, namely parameter interference. To address these issues, we propose Mix-MoE, a mixed Mixture-of-Experts framework designed to train LLMs for multilingual MT. Our framework operates in two distinct stages: (1) post-pretraining with MoE on monolingual corpora, and (2) post-pretraining with MoE on parallel corpora. Crucially, we divide the MoE layers into two specialized groups: Language Model Experts (LM Experts) and Machine Translation Experts (MT Experts). LM Experts are designed to capture and retain the monolingual knowledge learned by the pre-trained LLM. MT Experts, on the other hand, are specifically trained to acquire and store bilingual translation knowledge. Furthermore, to facilitate effective interaction between these specialized experts and leverage potential underlying structural patterns in text, we introduce a routing mechanism enhanced by Fourier Transform features derived from model representations. The experimental results demonstrate that Mix-MoE excels in multilingual MT, significantly outperforming existing baselines and showing notable progress in mitigating parameter interference.
TS-スキル: 時系列質問応答における分析スキルを評価するためのベンチマーク
大規模言語モデル (LLM) と時系列言語モデル (TSLM) は、時系列質問応答 (TSQA) にますます適用されています。テキストのみの QA とは異なり、TSQA ではモデルが、さまざまなスケール、特定の時間位置、または別々の間隔で発生するパターンの時間信号で回答を根拠付ける必要があります。ただし、既存のベンチマークは通常、タスクの種類または高レベルの推論カテゴリごとに編成されているため、モデルのパフォーマンスを駆動する基礎となる信号レベルの機能を診断することが困難になります。 TS-Skill は、TSQA の 3 つの構成可能な分析スキル、時間スケール選択 (SK1)、時間位置特定 (SK2)、および間隔間統合 (SK3) を評価するための制御されたベンチマークです。 TS-Skill は、タイムスタンプを意識した質問、広範な領域をカバーする機能、人間が検証した QA 品質を提供します。大規模なベンチマークを構築するために、SKEvol を開発します。SKEvol は、ドメインを認識した時系列シード生成、スキル制御された質問生成、メタデータおよびコード支援された回答構築、マルチフェーズ信号ベースの検証、人間参加型のキュレーションを組み合わせたスキルガイド付きのエージェント フレームワークです。 10 個の最先端の LLM および TSLM での実験により、SK1 ~ SK3 全体で大幅かつ不均一な機能ギャップが明らかになりました。特に、SK3 は非エージェント モデルにとって一貫して困難である一方、ツール拡張エージェントはスタンドアロン SK3 に対して選択的な利点を示します。これらの発見は、スキル レベルの評価によって、TSQA スコアの合計によって隠蔽されている一時的な推論の失敗を明らかにできることを示しています。
原文 (English)
TS-Skill: A Benchmark for Evaluating Analytical Skills in Time-Series Question Answering
Large language models (LLMs) and time-series language models (TSLMs) are increasingly applied to time-series question answering (TSQA). Unlike text-only QA, TSQA requires models to ground answers in temporal signals whose patterns may occur at different scales, specific time locations, or across separated intervals. However, existing benchmarks are typically organized by task types or high-level reasoning categories, making it difficult to diagnose the underlying signal-level capabilities driving model performance. We introduce TS-Skill, a controlled benchmark for evaluating three composable analytical skills in TSQA: temporal scale selection (SK1), temporal localization (SK2), and cross-interval integration (SK3). TS-Skill provides timestamp-aware questions, broad domain coverage, and human-validated QA quality. To construct the benchmark at scale, we develop SKEvol, a skill-guided agentic framework that combines domain-aware time-series seed generation, skill-controlled question generation, metadata- and code-assisted answer construction, multi-phase signal-grounded verification, and human-in-the-loop curation. Experiments on ten state-of-the-art LLMs and TSLMs reveal substantial and uneven capability gaps across SK1-SK3. In particular, SK3 remains consistently challenging for non-agent models, whereas tool-augmented agents show a selective advantage on standalone SK3. These findings demonstrate that skill-level evaluation can uncover temporal reasoning failures that are obscured by aggregate TSQA scores.
神経象徴的なインタラクティブなストーリーテリングのための世界状態の変換
大規模言語モデル (LLM) は、フリーテキストのユーザー入力を処理するインタラクティブ ストーリーテリング システムの可能性を変えました。しかし、これらのシステムが構築されるにつれて、それらのみに依存する場合に発生するストーリーの一貫性の問題に関する証拠が増え続けています。最近の研究では、LLM がルールベースのインタラクティブ ストーリーテリング システム内の状態変化を効果的に予測し、事前にプログラムされた世界状態の変換をトリガーできることが示唆されています。この論文では、純粋に LLM ベースのアプローチに特有の一貫性のない問題に対処することを目的として、そのような変換がプレーヤーの表現の触媒として機能するかどうかの探索的評価を実施します。神経象徴的なアーキテクチャに基づいて、オープンソース モデル (Llama 3 70B) とクローズドソース モデル (Gemini 1.5 Flash) を使用して実験を実施し、テストは英語とスペイン語の両方で行われました。 8 人の参加者が、さまざまな評価目標を評価するために慎重に設計された 2 つのシナリオをプレイしました。私たちの観察によると、変換は世界状態の一貫性を維持しながら、プレイヤーが書面による入力を通じて創造的に対話することを促進する方法を提供します。
原文 (English)
World-State Transformations for Neuro-symbolic Interactive Storytelling
Large Language Models (LLMs) have changed the possibilities of Interactive Storytelling systems that process free-text user input. However, as more of these systems are built, evidence continues to mount regarding the story coherence problems that arise when relying solely on them. Recent research suggests that LLMs can effectively predict state changes within rule-based Interactive Storytelling systems, triggering pre-programmed world-state transformations. In this paper, we conduct an exploratory evaluation of whether such transformations can serve as a catalyst for player expression while aiming to address the incoherence issues typical of purely LLM-based approaches. Building upon a neuro-symbolic architecture, we conducted experiments using an open-source model (Llama 3 70B) and a closed-source model (Gemini 1.5 Flash), with testing conducted in both English and Spanish. Eight participants played two scenarios, carefully designed to assess different evaluation objectives. Our observations suggest that transformations offer a way to maintain world-state consistency while encouraging players to interact creatively through their written inputs.
裁判官を裁くのは誰ですか?メトリクスによるガバナンス: LLM コンプライアンスを継続的に監視するためのランタイム フレームワーク
AI コンプライアンスに対する現在のアプローチでは、適合性を実稼働システムの継続的で測定可能な特性としてではなく、監査時のバイナリの判定として扱っています。私たちは、このコンプライアンスのフィクションは構造的に、人間による継続的な監視と展開されたシステムにおける緊急の動作ドリフトの検出を要求する EU AI 法の要件に適合していないと主張します。私たちはメトリクスによるガバナンスを導入します。これは、規制遵守が静的な評価ではなく実行時の可観測性からの継続的なシグナルとして導出される原則です。この原則に基づいて、ガバナンス主導のルーティング アーキテクチャを実装するオープンソース フレームワーク govllm を紹介します。このフレームワークでは、モデルの選択がレイテンシやコストだけではなく、累積されたコンプライアンス スコアによって決定されます。私たちのアプローチの中心となるのは、基準(EU AI法、GDPR、ANSSI、アクセシビリティ)ごとに専門化したLLM評価者である規制裁判官のパネルです。裁判官間の意見の相違をノイズとしてではなく、人間の仲裁を正当化する規制上の不確実性の信号として再構成します。このアプローチは、完全にオンプレミスで実行される 4 つの小さな言語モデル (SLM、1.7B ~ 7B パラメーター) によって評価された、5 つの規制基準にわたる 49 の注釈付きプロンプト/応答ペアのグラウンド トゥルース コーパスを通じて検証されます。一致率は 51.5% (mistral:7b) から 69.1% (phi4-mini) の範囲であり、すべての基準にわたって優勢な単一モデルはなく、これが経験的に審査員としてのプロファイル設計の動機となっています。さらに、小規模な規制裁判官における 3 つの構造的失敗モードと、3 つの質問順序条件 (オリジナル、逆転、並べ替え) にわたって合意を最大 25 パーセントポイント低下させる裁判官固有の立場バイアスを文書化します。 govllm は、再現可能な AI ガバナンス研究をサポートするオープンソース ソフトウェアとしてリリースされています。
原文 (English)
Who judges the judges? Governance from metrics: a runtime framework for continuous LLM compliance monitoring
Current approaches to AI compliance treat conformity as a binary, audit-time verdict rather than a continuous, measurable property of production systems. We argue that this compliance fiction is structurally ill-suited to the requirements of the EU AI Act, which demands ongoing human oversight and the detection of emergent behavioural drift in deployed systems. We introduce governance from metrics, a principle whereby regulatory compliance is derived as a continuous signal from runtime observability rather than from static assessments. Building on this principle, we present govllm, an open-source framework implementing a governance-driven routing architecture in which model selection is determined by accumulated compliance scores rather than by latency or cost alone. Central to our approach is a panel of regulatory judges - LLM evaluators specialised per criterion (EU AI Act, GDPR, ANSSI, accessibility) - whose inter-judge disagreement we reframe not as noise but as a regulatory uncertainty signal warranting human arbitration. We validate this approach through a ground truth corpus of 49 annotated prompt/response pairs across five regulatory criteria, evaluated by four small language models (SLMs, 1.7B-7B parameters) running fully on-premise. Agreement rates range from 51.5% (mistral:7b) to 69.1% (phi4-mini), with no single model dominating across all criteria - empirically motivating the Profile-as-jury design. We further document three structural failure modes in small regulatory judges and a judge-specific position bias that degrades agreement by up to 25 percentage points across three question-order conditions (original, reversed, permuted). govllm is released as open-source software to support reproducible AI governance research.
マルチターン LLM 微調整のための合成軌道の 2 レベル最適化
LLM はシングルターン生成には優れていますが、長期にわたるマルチターンの相互作用には苦労します。オフライン強化学習 (RL) はスケーラブルなアプローチを提供しますが、そのパフォーマンスはマルチターン軌道データの可用性と品質に左右されます。一般的な解決策は、LLM またはシミュレーターによって生成された合成軌道を使用してトレーニングを強化することですが、合成データの品質は非常に不均一であり、すべての軌道を同じ情報として単純に扱うとパフォーマンスが低下する可能性があります。我々は、内部レベルが再重み付けされたデータで LLM をトレーニングし、外部レベルが保留された実際の検証タスクで軽量再重み付けヘッドをトレーニングするバイレベル最適化フレームワークである BOOST を提案します。これにより、外部の判断を必要とせずに連続的な軌道レベルの重みを割り当てます。このアプローチを基礎付けるために、私たちは 3 方向のトレードオフを明らかにする PAC ベイジアン境界を導き出します。つまり、合成データは多様性を高めますが、タスクシフトの危険性がある一方、高品質の軌跡に重点を集中させることで、有効なサンプル サイズを犠牲にして経験的パフォーマンスを向上させます。経験的に、私たちの方法は複数のベースラインを常に上回っています。分析の結果、実際のデータ分布と一致し、より高い定性的メリットを示す合成軌跡を重み付けしていることが明らかになりました。
原文 (English)
Bilevel Optimization of Synthetic Trajectories for Multi-Turn LLM Fine-Tuning
While LLMs excel at single-turn generation, they struggle with long-horizon, multi-turn interactions. Offline reinforcement learning (RL) offers a scalable approach, yet its performance hinges on the availability and quality of multi-turn trajectory data. A common remedy is to augment training with synthetic trajectories generated by LLMs or simulators, but synthetic data is highly heterogeneous in quality, and naively treating all trajectories as equally informative can degrade performance. We propose BOOST, a bilevel optimization framework where the inner level trains the LLM on reweighted data and the outer level trains a lightweight reweighting head on held-out real validation tasks, assigning continuous trajectory-level weights without requiring an external judge. To ground this approach, we derive a PAC-Bayesian bound revealing a three-way trade-off: synthetic data increases diversity but risks task-shift, while concentrating weight on high-quality trajectories improves empirical performance at the cost of effective sample size. Empirically, our method consistently outperforms multiple baselines. Analysis reveals it upweights synthetic trajectories that align with the real data distribution and exhibit higher qualitative merit.
スペクトル取得: LLM マルチエージェント システムでの局所的な取得のためのトークン埋め込み上のマルチスケール Sinc 畳み込み
[要約] - スペクトル取得は、トークン埋め込みに対するマルチスケール sinc 畳み込みを通じて、トークンごとの MaxSim と平均プール取得の間を補間するプラグインの再ランキング ステージです。標準的な密検索では、各ドキュメントは 1 つの平均プールされたベクトルです。関連性が短いサブスパンに局所化すると、信号は平均化されてノイズになります。スペクトル取得は、遅延インタラクション インデックスからのトークンごとの埋め込みを再利用し、それらを複数のスケールで正規化された sinc カーネルと畳み込みます。 L=1 では、カーネルが ID として機能し、トークンごとの MaxSim を回復します。 L が大きくなるにつれて均一なフィルターに近づき、平均プーリングが回復します。位置とスケールにわたる最大コサインは、どちらのエンドポイントよりも有益なスコアを生成します。 1,000 個のドキュメントと単一位置スパイクを植え付けた制御された合成ベンチマークでは、平均プール検索はスパイクの強度に関係なく偶然 (Recall@10 ~ 0.02) にとどまりますが、スペクトル検索は植え付けられたコサインがコーパス レベルのトークン ノイズ フロアを超えると Recall@10 = 1.0 に達します。フリーズされた all-mpnet-base-v2 エンコーダを使用した LIMIT-small では、スペクトル取得により、再トレーニングなしで Recall@10 が 0.33 から 0.90 に、MRR が 0.22 から 0.79 に、および strict Success@10 が 0.12 から 0.84 に引き上げられます。この方法は、マルチエージェント LLM システムに自然に適合し、各エージェントは、共有コーパスに対するより厳密な役割固有の検索ウィンドウの恩恵を受けます。
原文 (English)
Spectral Retrieval: Multi-Scale Sinc Convolution over Token Embeddings for Localized Retrieval in LLM Multi-Agent Systems
[Abridged] - Spectral Retrieval is a plug-in re-ranking stage that interpolates between per-token MaxSim and mean-pool retrieval through a multi-scale sinc convolution over token embeddings. In standard dense retrieval each document is one mean-pooled vector; when relevance localises into a short subspan, the signal averages into noise. Spectral Retrieval reuses per-token embeddings from a late-interaction index and convolves them with a normalised sinc kernel at multiple scales. At L=1 the kernel acts as the identity, recovering per-token MaxSim; as L grows it approaches a uniform filter, recovering mean pooling. The maximum cosine over positions and scales yields a score provably no less informative than either endpoint. On a controlled synthetic benchmark with 1,000 documents and planted single-position spikes, mean-pool retrieval sits at chance (Recall@10 ~ 0.02) regardless of spike strength, while Spectral Retrieval reaches Recall@10 = 1.0 once the planted cosine exceeds the corpus-level token noise floor. On LIMIT-small with a frozen all-mpnet-base-v2 encoder, Spectral Retrieval lifts Recall@10 from 0.33 to 0.90, MRR from 0.22 to 0.79, and strict Success@10 from 0.12 to 0.84, without retraining. The method fits naturally into multi-agent LLM systems, where each agent benefits from a tighter, role-specific retrieval window over a shared corpus.
CONF-KV: Confidence-Aware KV Cache Eviction with Mixed-Precision Storage for Long-Horizon LLM
Long-horizon LLM inference turns the key--value (KV) cache into the dominant GPU memory consumer and makes per-token attention increasingly…
Divide-and-Conquer Inference for Large-Scale Visual Recognition with Multimodal Large Language Models
Multimodal Large Language Models (MLLMs) have demonstrated strong capabilities across a wide range of vision language tasks. However, when…
Reflect-Guard: Enhancing LLM Safeguards against Adversarial Prompts via Logical Self-Reflection
Large language model (LLM) safety classifiers such as Llama Guard are effective at detecting overtly harmful prompts but remain vulnerable…
Tiny Brains, Giant Impact: Uncovering the Keystone Neurons of LLM with Just a Few Prompts
Large language models (LLMs) display strong comprehensive abilities, yet the internal mechanisms that support these behaviors remain insuff…
Towards a Universal Causal Reasoner
Despite the importance of causal reasoning, training LLMs to reason causally remains underexplored. Existing data efforts mostly focus on b…
When Reasoning Hurts: Source-Aware Evaluation of Frontier LLMs for Clinical SOAP Note Generation
Reasoning-enabled LLMs perform strongly on medical reasoning benchmarks, but it remains unclear whether these gains transfer to structured…
Investigating the Interplay between Contextual and Parametric Chain-of-Thought Faithfulness under Optimization
Chain-of-Thought (CoT) faithfulness, i.e., whether CoTs genuinely reflect large language models' (LLM) underlying behavior, is typically ev…
Intent Signal Theory: A Computational Framework for Intent-State Control in Human-AI Interaction
Current AI interaction models treat the prompt as the primary object of exchange, omitting a critical layer: the user's latent source inten…
Security in the Fine-Tuning Lifecycle of Large Language Models: Threats, Defenses,Evaluation, and Future Directions
Background: Fine-tuning is central to adapting pre-trained Large Language Models (LLMs) to downstream tasks, but its reliance on training d…
LLM Agent Based Renewable Energy Forecasting Using Edge and IoT Data A Review of Solar Wind Weather and Grid Aware Decision Support
Reliable forecasting of renewable energy generation is a foundational requirement for grid stability energy trading battery scheduling and…
By Their Fruits You Will Know Them: Comparing Formalizations of Law by the Decisions They Encode
Formalizing legal provisions promises machine-accessible law and automated legal reasoning, and recent LLMs make it tempting to generate su…
Influence-Inspired Spectral Rotations for Extreme Low-Bit LLM Quantization
We apply the influence-adaptive Walsh geometry of a companion theory paper (arXiv:2605.01637) to extreme low-bit weight-only LLM quantizati…
Specification-Based Code-Text-Code Reengineering for LLM-Mediated Software Evolution
Direct Code2Code transformation remains challenging to control because it can preserve surface-level syntax while introducing semantic drif…
READER: Reasoning-Enhanced AI-Generated Text Detection
Recent advances in large language models (LLMs) have made it increasingly difficult to distinguish human-written text from AI-generated con…
CausalFlow: Causal Attribution and Counterfactual Repair for LLM Agent Failures
Large language model (LLM) agents frequently fail on multi-step tasks involving reasoning, tool use, and environment interaction. While suc…
A general tensor-structured compression scheme for efficient large language models
Large language models (LLMs) are dominated by dense linear transformations, whose storage, memory and computational overheads hinder effici…
Evo-Attacker: Memory-Augmented Reinforcement Learning for Long-Horizon Tool Attacks on LLM-MAS
While Large Language Model-based Multi-Agent Systems (LLM-MAS) demonstrate remarkable capabilities in solving complex tasks by orchestratin…
A Token/KV-Cache Communication Media Selection and Resource Allocation Strategy for Multi-Agent Collaboration
The convergence of large language models (LLMs) with 6G networks is fostering a paradigm of autonomous multi-agent cooperation, which in tu…
SeqRoute: Global Budget-Aware Sequential LLM Routing via Offline Reinforcement Learning
Existing LLM routing frameworks treat queries as independent events, neglecting the sequential nature of real-world user sessions constrain…
A Multi-Agent LLM Framework for Rating the Quality of Surgical Feedback
Verbal feedback delivered by attending surgeons in the operating room plays a critical formative role in resident trainee skill acquisition…
AI Content Moderation in Therapy Conversations
Large language models (LLMs) are increasingly being used for emotional support. They are also being developed for formal therapy purposes.…
IndexMem: Learned KV-Cache Eviction with Latent Memory for Long-Context LLM Inference
Large Language Models (LLMs) are increasingly expected to operate over long contexts, yet standard softmax attention incurs a KV cache that…
A Tertiary Review of Large Language Model-Based Code Generating Tasks: Trends, Challenges, and Future Directions
Context. Large language models (LLMs) are increasingly applied to code-generating tasks (CGTs) in software engineering. While reported resu…
BC Protocol: Structured Dual-Expert Dialogue for Eliciting High-Quality Chain-of-Thought Post-Training Data
High-quality expert chain-of-thought (CoT) data is one of the core bottlenecks in large language model (LLM) post-training. Existing data p…
PennySynth: RAG-Driven Data Synthesis for Automated Quantum Code Generation
The growing complexity of quantum programming frameworks has exposed a critical limitation in existing large language model (LLM)-based cod…
AutoSG: LLM-Driven Solver Generation Solely from Task Prompts for Expensive Optimization
Expensive optimization tasks are ubiquitous in real-world applications, demanding highly specialized solvers. While LLM-driven automated so…
Meta-Engineering Harnesses for AI-Native Software Production: A Contract-Driven Adversarial Verification Architecture with Early Deployment Report
AI-native software development is often evaluated at the level of individual models, prompts, or generated artifacts. This framing is insuf…
How Should LLMs Consume High-Quality Data? Optimal Data Scheduling via Quality-Aware Functional Scaling Laws
High-quality data is scarce in large language model (LLM) training, yet how to schedule its use jointly with training dynamics lacks theore…
Multi-Agent Coordination Adaptation via Structure-Guided Orchestration
As large language model (LLM)-based multi-agent systems scale to handle increasingly complex tasks, balancing structural stability and dyna…
Efficient Benchmarking Is Just Feature Selection and Multiple Regression
Efficient benchmarking techniques aim to lower the computational cost of evaluating LLMs by predicting full benchmark scores using only a s…
Adaptive Graph Refinement and Label Propagation with LLMs for Cost-Effective Entity Resolution
Dirty entity resolution (ER), which identifies records referring to the same real-world entity from a single, messy dataset, is a fundament…
Clarify, Abstain or Answer? Strategising in Conversation with Belief-Augmented Generation
Large language models (LLMs) define a distribution over text, which can be viewed as a probabilistic representation of uncertainty: samplin…
When Search Becomes Memory: Turning Robot Design Trials into Transferable Skills
Large language models (LLMs) are increasingly used as proposal generators for evolutionary robot design, yet most loops remain memoryless:…
TIAR: Trajectory-Informed Advantage Reweighting for LLM Abstention Learning
This paper investigates large language model (LLM) abstention learning, specifically using ternary reward, which incentivize truthfulness i…
Causal Tongue-Tie: LLMs Can Encode Causal Direction, But Their Yes/No Outputs Fail to Express
We find a mismatch between what large language models encode about a causal question and what they answer. On anti-commonsense CLadder item…
Can LLMs Time Travel? Enhancing Temporal Consistency in Legal Agentic Search through Reinforcement Learning
While large language models (LLMs) augmented with agentic search capabilities show promise for legal reasoning, they overlook a fundamental…
EchoPilot: Training-Free Ultrasound Video Segmentation via Scale-Space Semantic Prompting and Reliability-Gated Memory
Ultrasound video segmentation is clinically valuable yet difficult due to speckle noise, weak boundaries, and rapid anatomical deformation.…
Step-TP: A Grounded, Step-Level Dataset with Chain-of-Thought Reasoning for LLM-Guided Tensor Program Optimization
Despite the strong reasoning capabilities of large language models (LLMs), optimizing the execution efficiency of tensor programs remains c…
QUIET: A Multi-Blank Cascaded Story Cloze Benchmark for LLM Creative Generation Capability
Large language models (LLMs) face a dual challenge in creative capability evaluation: existing benchmarks (e.g., Story Cloze Test, HellaSwa…
SafeCtrl-RL: Inference-Time Adaptive Behaviour Control for LLM Dialogue via RL-Driven Prompt Optimisation
Ensuring safe and contextually appropriate behaviour in Large Language Models (LLMs) remains a critical challenge for real-world deployment…
When Gradients Collide: Failure Modes of Multi-Objective Prompt Optimization for LLM Judges
Customizing an LLM judge to a specific task or domain often involves optimizing its prompt across multiple evaluation criteria simultaneous…
OrpQuant: Geometric Orthogonal Residual Projection for Multiplier-Free Power-of-Two Transformer Quantization
The deployment of Large Language Models (LLMs) and Vision Transformers (ViTs) on edge devices is significantly constrained by memory limita…
PCGRLLM: Large Language Model-Driven Reward Design for Procedural Content Generation Reinforcement Learning
Reward design plays a pivotal role in the training of game AIs, requiring substantial domain-specific knowledge and human effort. In recent…
FloorplanQA: A Benchmark for Spatial Reasoning in LLMs using Structured Representations
We introduce FloorplanQA, a diagnostic benchmark for evaluating spatial reasoning in large language models (LLMs). FloorplanQA is grounded…
False Fixed Points: Kantian Feedback, Stable Miscalibration, and Representational Compression in LLMs
High-confidence errors in large language models are often treated as fragile failures. We study an alternative: some errors may be false fi…
Voting with the Graph: Stable RLAIF via Topological Consistency Maximization
Reinforcement Learning from AI Feedback (RLAIF) relies on LLM judges as preference measurement instruments, yet these instruments are funda…
From Prompt Optimization to Multi-Dimensional Credibility Evaluation: Enhancing Trustworthiness of Chinese LLM-Generated Liver MRI Reports -- with Preliminary Extension to Lung Cancer
Large language models (LLMs) have demonstrated promising performance in generating diagnostic conclusions from imaging findings, thereby su…
AGI Requires a Coordination Layer on Top of Pattern Repositories
In this paper we argue that influential critiques dismissing Large Language Models (LLMs) as a dead end for AGI misidentify the bottleneck:…
Architecting Agentic Communities using Design Patterns
The rapid evolution of Large Language Models (LLM) and subsequent Agentic AI technologies requires systematic architectural guidance for bu…
MMUEChange: A Generalized LLM Agent Framework for Intelligent Multi-Modal Urban Environment Change Analysis
Understanding urban environment change is essential for sustainable development. However, current approaches, particularly remote sensing c…
PathWise: Planning through World Model for Automated Heuristic Design via Self-Evolving LLMs
Large Language Models (LLMs) have enabled automated heuristic design (AHD) for combinatorial optimization problems (COPs), but existing fra…
MedBeads: An Agent-Native, Immutable Data Substrate for Trustworthy Medical AI
Background: As of 2026, Large Language Models (LLMs) demonstrate expert-level medical knowledge. However, deploying them as autonomous "Cli…
AgentArk: Distilling Multi-Agent Intelligence into a Single LLM Agent
While large language model (LLM) multi-agent systems achieve superior reasoning performance through iterative debate, practical deployment…
Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning
Recent advances in large language model (LLM) have empowered autonomous agents to perform multi-turn interactions with tools and environmen…
All Leaks Count, Some Count More: Interpretable Temporal Contamination Detection and Mitigation in LLM Backtesting
Backtesting LLMs on resolved events assumes models reason only from pre-cutoff knowledge, yet pretrained models inevitably leak post-cutoff…
AMA-Bench: Evaluating Long-Horizon Memory for Agentic Applications
Large Language Models (LLMs) are deployed as autonomous agents in increasingly complex applications, where enabling long-horizon memory is…
PathMem: Toward Cognition-Aligned Memory Transformation for Pathology MLLMs
Computational pathology demands both visual pattern recognition and dynamic integration of structured domain knowledge, including taxonomy,…
SEA-Eval: A Benchmark for Evaluating Self-Evolving Agents Beyond Episodic Assessment
Current LLM-based agents demonstrate strong performance in episodic task execution but remain constrained by static toolsets and episodic a…
UniToolCall: Unifying Tool-Use Representation, Data, and Evaluation for LLM Agents
Tool-use capability is a fundamental component of LLM agents, enabling them to interact with external systems through structured function c…
The A-R Behavioral Space: Execution-Level Profiling of Tool-Using Language Model Agents in Organizational Deployment
Large language models (LLMs) are increasingly deployed as tool-augmented agents capable of executing system-level operations. While existin…
ClawTrace: Cost-Aware Tracing for LLM Agent Skill Distillation
Skill-distillation pipelines learn reusable rules from LLM agent trajectories, but they lack a key signal: how much each step costs. Withou…
ScrapMem: A Bio-inspired Framework for On-device Personalized Agent Memory via Optical Forgetting
Long-term personalized memory for LLM agents is challenging on resource-limited edge devices due to high storage costs and multimodal compl…
Strat-Reasoner: Reinforcing Strategic Reasoning of LLMs in Multi-Agent Games
While Large Language Models (LLMs) excel in certain reasoning tasks, they struggle in multi-agent games where the final outcome depends on…
Shepherd: A Runtime Substrate Empowering Meta-Agents with a Formalized Execution Trace
As LLM agent systems take on more complex tasks, they increasingly rely on meta-agents: higher-order agents that operate on other agents, m…
A Two-Dimensional Framework for AI Agent Design Patterns: Cognitive Function and Execution Topology
Existing frameworks for LLM-based agent architectures describe systems from a single perspective: industry guides (Anthropic, Google, LangC…
SaaS-Bench: Can Computer-Use Agents Leverage Real-World SaaS to Solve Professional Workflows?
Computer-Using Agents (CUAs) are rapidly extending large language models (LLMs) beyond text-based reasoning toward action execution in more…
Visualizing the Invisible: Generative Visual Grounding Empowers Universal EEG Understanding in MLLMs
Leveraging the universal representations of pre-trained LLMs and MLLMs offers a promising path toward brain foundation models. However, vis…
When Skills Don't Help: A Negative Result on Procedural Knowledge for Tool-Grounded Agents in Offensive Cybersecurity
Agent Skills, structured packages of procedural knowledge loaded into an LLM agent at inference time, are widely reported to improve task p…
Benchmarking and Improving Monitors for Out-Of-Distribution Alignment Failure in LLMs
Many safety and alignment failures of large language models (LLMs) occur due to out-of-distribution (OOD) situations: unusual prompt or res…
SMDD-Bench: Can LLMs Solve Real-World Small Molecule Drug Design Tasks?
LLM agents have incredible potential for scientific discovery applications. However, the performance of LLM agents on real-world, small mol…
Meta-Soft: Leveraging Composable Meta-Tokens for Context-Preserving KV Cache Compression
The KV cache used in large language models has linearly growing time complexity, so LLMs face memory blow-up and reduced decoding efficienc…
AMEL: Accumulated Message Effects on LLM Judgments
Large language models are routinely used as automated evaluators: to review code, moderate content, or score outputs, often with many items…
The Impact of Large Language Models on Open-source Innovation: Evidence from GitHub Copilot
Large Language Models (LLMs) are reshaping knowledge work, yet their impact on voluntary, self-guided open innovation forums (contributors…
Uncovering Autoregressive LLM Knowledge of Thematic Fit in Event Representation
The thematic fit estimation task measures semantic arguments' compatibility with a given semantic role for a given predicate. We investigat…
Pragmatic Reasoning improves LLM Code Generation
Pragmatic reasoning helps interlocutors infer intended meaning from ambiguous or underspecified messages by considering shared context and…
Generalizable Vision-Language Few-Shot Adaptation with Predictive Prompts and Negative Learning
Few-shot adaptation of vision-language models remains fundamentally limited by how negative class signals are handled at inference. Existin…
MultiPhishGuard: An Explainable and Adaptive Multi-Agent LLM System for Phishing Email Detection
Phishing email detection faces significant challenges due to evolving adversarial tactics and heterogeneous attack patterns. Traditional ap…
PageLLM: A Multi-Grained Reward Framework for Whole-Page Optimization with Large Language Models
Whole-page optimization (WPO) decides how search and recommendation results are surfaced to users, and large language models (LLMs) open a…
Uni-DPO: A Unified Paradigm for Dynamic Preference Optimization of LLMs
Direct Preference Optimization (DPO) has emerged as a cornerstone of reinforcement learning from human feedback (RLHF) due to its simplicit…
From Reasoning to Code: GRPO Optimization for Underrepresented Languages
Generating accurate and executable code using Large Language Models (LLMs) remains a significant challenge for underrepresented programming…
SoK: A Comprehensive Security Analysis of Jailbreak Resilience in GPT and DeepSeek Models
The rapid proliferation of Large Language Models (LLMs) has heightened concerns regarding their exposure to jailbreak attacks, which craft…
Psychometric Item Validation Using Virtual Respondents with Trait-Response Mediators
As psychometric surveys are increasingly used to assess the traits of large language models (LLMs), the need for scalable survey item gener…
ToolRegistry: A Protocol-Agnostic Tool Management Library for Function-Calling LLMs
Every LLM tool call is structurally an RPC -- a function name, JSON arguments, and a serialized result -- yet each protocol (native Python,…
HEAPr: Hessian-based Efficient Atomic Expert Pruning in Output Space
Mixture-of-Experts (MoE) architectures in large language models (LLMs) deliver exceptional performance and reduced inference costs compared…
Uncovering Vulnerabilities of LLM-Assisted Cyber Threat Intelligence
Large language models (LLMs) are increasingly used to help security analysts manage the surge of cyber threats, automating tasks from vulne…
ChunkLLM: A Lightweight Pluggable Framework for Accelerating LLMs Inference
Transformer-based large models excel in natural language processing and computer vision, but face severe computational inefficiencies due t…
Asking LLMs to Verify First is Almost Free Lunch
To enhance the reasoning capabilities of Large Language Models (LLMs) without high costs of training, nor extensive test-time sampling, we…
テキスト分類のための因果 LLM の微調整: 埋め込みベースのアプローチと命令ベースのアプローチ
私たちは、リソースの制約の下で下流のテキスト分類のためにデコーダ専用の大規模言語モデル (LLM) を微調整するための効率的な戦略を検討します。 2 つのアプローチが調査されます: (1) 事前にトレーニングされた因果 LLM に分類ヘッドを接続し、シーケンス表現として LLM の最終トークン埋め込みを使用してタスクを微調整する方法、(2) 分類用のプロンプト-トゥ-レスポンス形式で LLM を命令チューニングする方法。単一 GPU で最大 8B パラメータまでのモデルの微調整を可能にするために、4 ビットのモデル量子化と低ランク適応 (LoRA) を組み合わせて、パラメータ効率の高いトレーニングを実現します。 2 つの特許ベンチマーク、独自の 5 クラスの単一ラベル コーパスと 14 のカテゴリを含む公開 WIPO-Alpha マルチラベル データセットでの実験では、埋め込みベースの手法が単一ラベル分類での命令調整手法と同等かそれを超え、トレーニングのパラメータが 10 ~ 30 分の 1 であることが示されました。命令チューニングは、マルチラベル体制でのみ競争力があり、少なくとも 1 億パラメータという大幅に大きなトレーニング可能バジェットを使用する場合にのみ競争力があります。どちらの方法も、微調整されたドメイン固有の BERT モデルと非常に競争力があり、単一ラベルのタスクではそれらを上回ります。ペアのマクネマー検定とブートストラップ デルタ F1 95 パーセント信頼区間により、エンベディング ヘッド アプローチの数値的利点は方向的に一貫していることが確認されていますが、p < 0.05 では統計的に証明されていません。 AG News で単一ラベルの一般化をさらに検証し、BERT クラスのスループットを回復する蒸留レシピとともに、プーリング、バーバライザーの選択、およびキャリブレーションに関するアブレーションを報告します。分類シナリオにおける LLM 微調整を最適化するための実用的なガイドラインと将来の方向性を概説しながら、各アプローチの利点について説明します。
原文 (English)
Fine-Tuning Causal LLMs for Text Classification: Embedding-Based vs. Instruction-Based Approaches
We explore efficient strategies to fine-tune decoder-only Large Language Models (LLMs) for downstream text classification under resource constraints. Two approaches are investigated: (1) attaching a classification head to a pretrained causal LLM and fine-tuning it on the task, using the LLM's final-token embedding as a sequence representation, and (2) instruction-tuning the LLM in a prompt-to-response format for classification. To enable single-GPU fine-tuning of models up to 8B parameters, we combine 4-bit model quantization with Low-Rank Adaptation (LoRA) for parameter-efficient training. Experiments on two patent benchmarks, a 5-class single-label internal corpus and the public WIPO-Alpha multi-label dataset with 14 categories, show that the embedding-head approach matches or exceeds fine-tuned BERT baselines on single-label classification while training 10-30x fewer parameters. Instruction-tuning is competitive only in the multi-label regime, and only with substantially larger trainable budgets of at least 100M parameters. These results demonstrate that directly leveraging the internal representations of causal LLMs, together with efficient fine-tuning techniques, yields strong classification performance under limited computational resources. We discuss the advantages of each approach and outline practical guidelines and future directions for optimizing LLM fine-tuning in classification scenarios.
SafeGPT: Preventing Data Leakage and Unethical Outputs in Enterprise LLM Use
Large Language Models (LLMs) are transforming enterprise workflows but introduce security and ethics challenges when employees inadvertentl…
Future-KL Regularized GRPO: Process-Level Credit Assignment from $f$-Divergence Regularization
Group Relative Policy Optimization (GRPO) is widely used for critic-free Large Language Model (LLM) post-training, but its KL regularizatio…
Unifying Speech Editing Detection and Content Localization via Prior-Enhanced Audio LLMs
Existing speech editing detection (SED) datasets are predominantly constructed using manual splicing or limited editing operations, resulti…
BEAR: Towards Beam-Search-Aware Optimization for Recommendation with Large Language Models
Recent years have seen a rapid surge in research leveraging Large Language Models (LLMs) for recommendation. These methods typically employ…
RecGOAT: Graph Optimal Adaptive Transport for LLM-Enhanced Multimodal Recommendation with Dual Semantic Alignment
Integrating large language model (LLM) representations into multimodal recommendation has shown promise, yet a fundamental challenge remain…
MemSkill: Learning and Evolving Memory Skills for Self-Evolving Agents
Most Large Language Model (LLM) agent memory systems rely on a small set of static, hand-designed operations for extracting memory. These f…
Reward-free Alignment for Conflicting Objectives
Direct alignment methods are increasingly used to align large language models (LLMs) with human preferences. However, many real-world align…
Fine-Tuning Language Models to Know What They Know
Evaluating true metacognition in Large Language Models (LLMs) is difficult due to biases and heuristics. This paper presents a framework to…
Prism: Spectral-Aware Block-Sparse Attention
Block-sparse attention is promising for accelerating long-context LLM pre-filling, yet identifying relevant blocks efficiently remains a bo…
Adversarial Network Imagination: Causal LLMs and Digital Twins for Proactive Telecom Mitigation
Telecommunication networks experience complex failures such as fiber cuts, traffic overloads, and cascading outages. Existing monitoring an…
STAPO: Stabilizing Reinforcement Learning for LLMs by Silencing Rare Spurious Tokens
Reinforcement Learning (RL) has significantly improved large language model reasoning, but existing RL fine-tuning methods rely heavily on…
JAEGER: Joint 3D Audio-Visual Grounding and Reasoning in Simulated Physical Environments
Current audio-visual large language models (AV-LLMs) are predominantly restricted to 2D perception, relying on RGB video and monaural audio…
Red-Teaming Claude Opus and ChatGPT-based Security Advisors for Trusted Execution Environments
Trusted Execution Environments (TEEs) (e.g., Intel SGX and ArmTrustZone) aim to protect sensitive computation from a compromised operating…
MoBiQuant: Mixture-of-Bits Quantization for Token-Adaptive Any-Precision LLM
Dynamic runtime latency and memory constraints necessitate flexible large language model (LLM) deployment, where an LLM can be inferred wit…
Learning from Trials and Errors: Reflective Test-Time Planning for Embodied LLMs
Embodied LLMs endow robots with high-level task reasoning, but they cannot reflect on what went wrong or why, turning deployment into a seq…
UtilityMax Prompting: A Formal Framework for Multi-Objective Large Language Model Tasks
The success of a Large Language Model (LLM) task depends heavily on its prompt. Most use-cases specify prompts using natural language, whic…
Frequency Matters: Fast Model-Agnostic Data Curation for Pruning and Quantization
Post-training model compression is essential for enhancing the portability of Large Language Models (LLMs) while preserving their performan…
PowerFlow: Unlocking the Dual Nature of LLMs via Principled Distribution Matching
Unsupervised Reinforcement Learning from Internal Feedback (RLIF) has emerged as a promising paradigm for eliciting the latent capabilities…
Procedural Refinement by LLM-driven Algorithmic Debugging for ARC-AGI-2
In high-complexity abstract reasoning, a system must infer a latent rule from a few examples or structured observations and apply it to uns…
Cooperative Memory Paging with Keyword Bookmarks for Long-Horizon LLM Conversations
When LLM conversations grow beyond the context window, old content must be evicted -- but how does the model recover it when needed? We pro…
Design Conditions for Intra-Group Learning of Sequence-Level Rewards: Token Gradient Cancellation
Reinforcement learning for multi-step reasoning with large language models (LLMs) typically relies on sparse terminal rewards, which create…
Copy-as-Decode: Grammar-Constrained Parallel Prefill for LLM Editing
LLMs edit text and code by autoregressively regenerating the full output, even when most tokens appear verbatim in the input. We study Copy…
Committed SAE-Feature Traces for Audited-Session Substitution Detection in Hosted LLMs
Hosted-LLM providers have a silent-substitution incentive: advertise a stronger model while serving cheaper replies. Probe-after-return sch…
MoBayes: A Modular Bayesian Framework for Separating Reasoning from Language in Conversational Clinical Decision Support
Large language models (LLMs) are increasingly used for conversational clinical decision support, yet they conflate next token prediction wi…
LLMs Uncertainty Quantification via Adaptive Conformal Semantic Entropy
LLMs' overconfidence, particularly when hallucinating, poses a significant challenge for the deployment of the models in safety-critical se…
Quality-Conditioned Agreement in Automated Short Answer Scoring: Mid-Range Degradation and the Impact of Task-Specific Adaptation
Automated short answer scoring (ASAS) is shifting from discriminative, fine-tuned models to large language models (LLMs) used in few-shot s…
PASA: A Principled Embedding-Space Watermarking Approach for LLM-Generated Text under Semantic-Invariant Attacks
Watermarking for large language models (LLMs) is a promising approach for detecting LLM-generated text and enabling responsible deployment.…
Fill the GAP: A Granular Alignment Paradigm for Visual Reasoning in Multimodal Large Language Models
Visual latent reasoning lets a multimodal large language model (MLLM) create intermediate visual evidence as continuous tokens, avoiding ex…
Persona-Model Collapse in Emergent Misalignment
Fine-tuning large language models on narrow data with harmful content produces broadly misaligned behavior on unrelated prompts, a phenomen…
Data Difficulty and the Generalization--Extrapolation Tradeoff in LLM Fine-Tuning
Data selection during supervised fine-tuning (SFT) can critically change the behavior of large language models (LLMs). Although existing wo…
Reducing Credit Assignment Variance via Counterfactual Reasoning Paths
Reinforcement learning for multi-step reasoning with large language models (LLMs) typically relies on sparse terminal rewards, which create…
How Few-Shot Examples Add Up: A Causal Decomposition of Function Vectors in In-Context Learning
In-context learning (ICL) excels at new tasks from minimal examples, yet we still lack a mechanistic explanation of how few-shot prompts sh…
LivePI: More Realistic Benchmarking of Agents Against Indirect Prompt Injection
AI agents such as OpenClaw are increasingly deployed in local workflows with access to external tools. This creates indirect prompt-injecti…
HypergraphFormer: Learning Hypergraphs from LLMs for Editable Floor Plan Generation
In this work, we propose HypergraphFormer, a novel and efficient approach to floor plan generation based on learning hypergraph representat…
ProcCtrlBench: Evaluating Process-Level Defects and Control Preservation in LLM Coding Agents
Existing benchmarks for LLM coding agents primarily evaluate final outcomes. While useful for measuring overall capability, these metrics p…
Understanding Data Temporality Impact on Large Language Models Pre-training
Large language models (LLMs) are typically trained on shuffled corpora, yielding models whose knowledge is frozen at train time and whose t…
CoSPlay: 自己生成コードと単体テストによるテスト時の協力的セルフプレイ
最近では、検証可能な報酬を伴う強化学習 (RLVR) とテスト時間スケーリング (TTS) により、実行可能ファイルの検証を通じて LLM コード生成が進歩しました。しかし、Ground-Truth Unit Test (GT UT) は依然としてボトルネックとなっています。SOTA RLVR メソッドでは費用のかかるトレーニングが必要ですが、既存の TTS メソッドは GT UT なしでは競争力を失います。これにより、既存のメソッドが自己生成された UT を直接使用してコード候補を絞り込み、選択する GT フリー TTS が推進されます。しかし、そのような UT にはノイズが多かったり、間違ったコードが誤って結合されていることが多く、信頼性の高いコードがなければ UT の品質を検証することはできません。したがって、重要な課題は、両方を共同で改善することです。この目的を達成するために、私たちは、協力的なセルフプレイを通じてコードと UT を共同で改善する GT フリー、トレーニング不要のフレームワークである CoSPlay を紹介します。まず、多様なソリューションのアイデアを検討し、それらの潜在的な故障モードを特定して、差別的な UT アイデアを生み出します。次に、Code-UT 実行マトリックスからの双方向のパス カウント信号を使用して、弱いコードを繰り返しプルーニングまたは修正し、信頼性の低い UT をリフレッシュまたは置換して、2 つのプールを共進化させます。最後に、複数のコードが最高のパス数で同点のままである場合、正しいコードは同じ入力で一致するが、間違ったコードは分岐するため、最大の出力コンセンサス クラスターから最終コードが選択されます。 4 つの困難なベンチマークの実験では、Qwen2.5-7B-Instruct の CoSPlay が平均 BoN を 22.1% から 33.2% に、UT 精度を 14.6% から 78.3% に改善し、RLVR モデル CURE-7B と同等またはそれを上回っていることが示されています。 CURE-7B に適用すると、BoN がさらに 5.7% 向上します。 CoSPlay はまた、多様なバックボーンにわたって汎用化し、同等のトークン予算の下で GT フリー TTS ベースラインを上回り、予算が拡大するにつれて継続的に利益を上げます。これらの結果は、GT データを使用せずに競合コードを生成するためのスケーラブルな推論戦略を示唆しています。
原文 (English)
CoSPlay: Cooperative Self-Play at Test-Time with Self-Generated Code and Unit Test
Recently, Reinforcement Learning with Verifiable Rewards (RLVR) and Test-Time Scaling (TTS) have advanced LLM code generation through executable verification. Yet Ground-Truth Unit Tests (GT UTs) remain a bottleneck: SOTA RLVR methods require them for costly training, while existing TTS methods lose competitiveness without them. This motivates GT-free TTS, where existing methods directly use self-generated UTs to refine and select code candidates. Yet such UTs are often noisy or spuriously coupled with wrong code, and UT quality in turn cannot be validated without reliable code. The key challenge is therefore to jointly improve both. To this end, we present CoSPlay, a GT-free, training-free framework that jointly improves codes and UTs through cooperative self-play. It first explores diverse solution ideas and identifies their potential failure modes to produce discriminative UT ideas. It then uses bidirectional pass-count signals from the Code-UT execution matrix to iteratively prune or fix weak codes and refresh or replace unreliable UTs, letting the two pools co-evolve. Finally, when multiple codes remain tied at the highest pass count, it picks the final code from the largest output-consensus cluster, since correct codes agree on the same inputs while wrong codes diverge. Experiments on four challenging benchmarks show that CoSPlay on Qwen2.5-7B-Instruct improves average BoN from 22.1% to 33.2% and UT accuracy from 14.6% to 78.3%, matching or surpassing the RLVR model CURE-7B. When applied to CURE-7B, it further improves BoN by 5.7%. CoSPlay also generalizes across diverse backbones and outperforms GT-free TTS baselines under comparable token budgets, with continued gains as the budget scales up. These results suggest a scalable inference strategy for competitive code generation without any GT data.
Webサイトの二重管理に限界 青森県庁チャットbot「生成AI化」でコスト7割減
青森県庁は、公式Webサイトに生成AIチャットbot「AIデジタルスタッフ」を導入した。従来のシナリオ型チャットbotで課題となっていた運用負荷を見直し、運用コストを7割超削減したという。
「あの人が 休むと業務 止まりがち」 AIに“IT用語かるた”を作らせてみた
IT用語は便利だが、一から覚えるのはなかなか大変だ。それならば、IT用語を五七五に置き換えれば、少しは親しみやすくなるのではないか。ChatGPTとNotebookLMで「IT用語かるた」を作ってみた。
Anthropicの「Mythos Preview」、1カ月で1万件超の脆弱性を発見──「Project Glasswing」初期報告
Anthropicは、未公開AIモデル「Claude Mythos Preview」を活用するサイバーセキュリティプロジェクト「Project Glasswing」の初期報告を公開した。約50のパートナー企業と協力し、開始から1カ月で世界の重要ソフトウェアから1万件超の重大な脆…
「Claude Mythos」が1万件以上の脆弱性を発見 しかし修正追い付かず Anthropicが報告書
米Anthropicは5月22日(現地時間)、セキュリティプロジェクト「Project Glasswing」の初期報告を公開した。約50社のパートナー企業が1カ月で高・重大レベルの脆弱性を1万件超発見した成果に加え、同社が独自に進めてきたオープンソースソフトウェアのスキャン結果…
GENSTRAT: 大規模言語モデルにおける戦略的推論の科学に向けて
大規模言語モデル (LLM) は、市場、オークション、入札設定における経済エージェントとしてますます導入されています。特定の展開における彼らの行動を予測するのは困難です。既存の戦略的推論ベンチマークは、固定された正規ゲームのモデルを評価します。これらのベンチマークは、フロンティアが向上するにつれて飽和する可能性があり、評価者がベンチマークのパフォーマンスから実際の展開に含まれる多様で複雑な戦略的環境までを自信を持って一般化することはできません。これらの課題に対処するために、手続き的に生成された戦略的環境を使用する GENSTRAT を紹介します。具体的には、2 人用のゼロサム不完全情報カード ゲームの分布を生成します。ジェネレーターはオンデマンドで新鮮なゲームを描画できるため、常に最新の評価と汚染への耐性が可能になります。私たちはゲームの分布を、モデルの能力を 6 つの軸 (状態空間、時間的深さ、情報感度、対戦相手のモデリング、リスク、脆弱性) にわたって分解する能力プロファイル手法と組み合わせます。また、戦略的に類似したゲーム間でモデルのアドバンテージが予期せずジャンプするときを検出する、分布内の滑らかさのギザギザの尺度も導入します。 2,000 試合で生成されたプールから 50 のベンチマーク試合をサンプリングし、36,000 試合を超える直接対決トーナメントで 9 つのフロンティアおよび無差別級 LLM を評価します。新しいフロンティア層モデルの方が平均スコアが高くなります。その平均を超えると、ほぼ同一の全体的な強度を持つモデルは質的に異なる能力プロファイルを示し、リーダーボードの上位 3 つのモデルのうち 2 つ (gpt-5 と claude) は、全体的な強度が近いにもかかわらず、3 番目 (gemini-3.1-pro) よりも局所的な変動が顕著に高くなります。機能プロファイルとギザギザの尺度を組み合わせることで、全体的なランキングだけでは提供できない展開関連の診断が得られます。
原文 (English)
GENSTRAT: Toward a Science of Strategic Reasoning in Large Language Models
Large language models (LLMs) are increasingly deployed as economic agents in marketplaces, auctions, and bidding settings. Anticipating their behavior in any specific deployment is hard. Existing strategic-reasoning benchmarks evaluate models on fixed canonical games. These benchmarks may saturate as the frontier improves, and they do not allow evaluators to generalize with confidence from benchmark performance to the varied and messy strategic environments that actual deployments involve. We introduce GENSTRAT, which uses procedurally generated strategic environments to address these challenges. Concretely, we generate a distribution of two-player zero-sum imperfect-information card games. The generator can draw fresh games on demand, allowing for evergreen evaluation and resistance to contamination. We pair the game distribution with a capability-profile methodology that decomposes model competence across six axes (state space, temporal depth, information sensitivity, opponent modeling, risk, and brittleness). We also introduce a jaggedness measure of within-distribution smoothness that detects when a model's advantage jumps unpredictably between strategically similar games. We sample 50 benchmark games from a 2,000-game generated pool and evaluate nine frontier and open-weight LLMs in a head-to-head tournament with over 36,000 matches. Newer frontier-tier models score higher on average. Beyond that average, models with near-identical overall strength show qualitatively different capability profiles, and two of the top three leaderboard models (gpt-5 and claude) are noticeably more locally volatile than the third (gemini-3.1-pro), despite being close in overall strength. Together, the capability profile and the jaggedness measure give a deployment-relevant diagnostic that the overall ranking alone cannot provide.
ナレッジワークのベンチマークを設計およびレポートする
LLM エージェントの開発により、コーディング、研究、ヘルスケアなど、ナレッジワーク AI に関する一連の研究が増加しています。ただし、現在の知識作業の評価とベンチマークの設計は依然として従来の NLP タスクのロジックに従っています。その結果、ベンチマークのパフォーマンスが高くても、システムが実際の展開設定でナレッジ ワークを実行できることを確実に示すことはできません。このペーパーは、ベンチマーク対象のタスクがスコアに関連付けられた作業要求をどのように表すかを明示するための 3 段階のアプローチを提供します。つまり、評価対象の作業アクティビティを定義し、テストされた設定を指定し、適切な作業成果物をスコアリングします。私たちは、ナレッジワークが役割と責任、ローカルの材料とツール、下流のワークフローで使用可能なままでなければならない成果物を通じて組織化されていることを示す作業研究をレビューします。次に、これらの懸念事項をベンチマーク設計とレポート作成のガイダンスに変換します。これには、タスクを作業アクティビティにどのようにマッピングするか、テストされた設定で材料、ツール、役割、制約をどのように指定するか、システムが残した作業成果物にどのように焦点を当てるべきかが含まれます。評価対象の作業活動に名前を付け、一般的なベンチマーク タスクと区別するために、O{*}NET 職業タスク データベースから 18 の作業活動のインベントリを取得します。私たちは 3 つのベンチマーク ケース分析を通じてこのアプローチを実証します。GDPval、ノンコードの職業成果ベンチマーク。 OfficeQA Pro、最終回答によってスコア付けされる、根拠のある文書分析ベンチマーク。 APEX-SWE は、実行可能スコア付き製品を備えたソフトウェア エンジニアリング ベンチマークです。これらのケースは、ベンチマーク設計の選択が、スコアがサポートできる最も強力な作業要求をどのように形成するか、また、ベンチマーク対象のタスク、テストされた設定、スコア付けされた製品、およびより広範な作業要求の間にギャップが生じる場所を示しています。
原文 (English)
Design and Report Benchmarks for Knowledge Work
The development of LLM agents has led to a growing body of work on knowledge-work AI, including coding, research, and healthcare. However, current knowledge-work evaluation and benchmark design still largely follow the logic of traditional NLP tasks. As a result, higher benchmark performance does not reliably show that a system can carry out knowledge work in real-world deployment settings. This paper contributes a three-step approach for making explicit how benchmarked tasks represent the work claims attached to their scores: defining the work activity under evaluation, specifying the tested setting, and scoring the appropriate work product. We review work studies showing that knowledge work is organized through roles and responsibilities, local materials and tools, and artifacts that must remain usable in downstream workflows. We then translate these concerns into benchmark design and reporting guidance, covering how tasks should be mapped to work activities, how tested settings should specify materials, tools, roles, and constraints, and how scoring should focus on the work product left by the system. To name the work activity being evaluated and distinguish it from common benchmark tasks, we derive an inventory of 18 work activities from the O{*}NET occupational task database. We demonstrate the approach through three benchmark case analyses: GDPval, a non-code occupational deliverable benchmark; OfficeQA Pro, a grounded document-analysis benchmark scored by final answers; and APEX-SWE, a software-engineering benchmark with executable scored products. These cases show how benchmark design choices shape the strongest work claim a score can support, and where gaps arise between the benchmarked task, tested setting, scored product, and broader work claim.
長期的な LLM エージェントサービスのための並列コンテキスト圧縮
長期にわたる LLM エージェントは会話履歴を蓄積し、最終的にはモデルのコンテキスト ウィンドウを超えます。 LLM ベースの要約によるコンテキストの圧縮により、会話は制限されたままになりますが、要約には本質的に損失が多く、ブロッキング コールによりエージェントの推論が数十秒間停止します。さらに、プロンプト指示はほとんど無視されるため、オペレーターは要約ボリュームをきめ細かく制御できず、コンテキストが増大するにつれて、モデルが生成する出力トークンの量とモデルが保持する情報の両方が実行ごとに大幅に変動するため、エージェントが保持する知識が実行間で予測不可能になります。ロングホライズンのエージェント フローに対して \textbf{並列圧縮} を導入し、HotpotQA マルチホップ QA および LoCoMo のロング コンテキスト ダイアログ ベンチマークで、高密度および MoE アーキテクチャと推論モデルおよび非推論モデルを混合し、8B から 120B パラメータにわたる 4 つのバックボーンにわたる順次同期ベースラインに対して特徴付けます。並列圧縮により、オペレーターは要約ボリュームをきめ細かく予測可能な制御できるようになり、ブロックごとにターゲットを絞った迅速なエンジニアリングが可能になります。圧縮デコード ボリュームが一致すると、エンドツーエンドのウォール タイムが短縮され、シーケンシャル ベースラインを超える圧縮スループットが向上します。
原文 (English)
Parallel Context Compaction for Long-Horizon LLM Agent Serving
Long-horizon LLM agents accumulate growing conversation histories that eventually exceed the model's context window. Context compaction via LLM-based summarization keeps the conversation bounded, but summarization is inherently lossy and the blocking call stalls agent inference for tens of seconds. Moreover, the operator has no fine-grained control over summary volume since prompt instructions are largely ignored, and as context grows, both the amount of output tokens the model produces and the information it retains fluctuate substantially from run to run, making the agent's retained knowledge unpredictable across runs. We introduce \textbf{parallel compaction} for long-horizon agentic flows and characterize it against the sequential synchronous baseline across four backbones spanning 8B to 120B parameters, mixing dense and MoE architectures with reasoning and non-reasoning models, on the HotpotQA multi-hop QA and LoCoMo long-context dialogue benchmarks. Parallel compaction gives the operator fine-grained, predictable control over summary volume and enables more targeted prompt engineering per block. At matched compaction decode volume, it reduces end-to-end wall time and improves compaction throughput over the sequential baseline.
正しく実行されたにもかかわらず計画が失敗した場合: LLM ベースのマルチエージェント システムの認識論的キャリブレーションについて
LLM ベースのマルチエージェント システムは、計画されたアクションが正しく実行された場合でも失敗する可能性があります。これは、エージェントが計画の実現可能性を評価する際に知識を誤って判断する可能性があるためであり、これを計画における認識ミスキャリブレーションと呼んでいます。実行エラーとは異なり、認識ミスキャリブレーションは、生成された計画が自己一貫性を保ち、観察可能なエラーなしで実行可能であるため、計画中に潜在的です。新しい情報によって実現可能性の評価が変更される可能性があるため、誤校正は動的でもあり、過去の誤校正信号が隠蔽され、時間の経過とともに再発する可能性があります。これに対処するために、我々は、実現可能性を直接検証するのではなく、さまざまな情報条件下で計画がサポートされ続けるかどうかを評価する、認識計画校正エージェントティック ワークフロー (EPC-AW) を提案します。 EPC-AW は、情報の一貫性に基づいた計画選択を採用し、エージェント間で評価が安定している計画を選択します。また、一貫性に基づいて認識状態の改善を行い、過去の不一致を活用して将来の計画を導くことで時間の経過とともに調整を適応させます。実験によると、EPC-AW はシステム レベルの成功を平均 9.75% 向上させます。
原文 (English)
When Planning Fails Despite Correct Execution: On Epistemic Calibration for LLM-Based Multi-Agent Systems
LLM-based multi-agent systems can fail even when planned actions are executed correctly because agents may misjudge their knowledge when evaluating plan feasibility, a phenomenon we term epistemic miscalibration in planning. Unlike execution errors, epistemic miscalibration is latent during planning, as generated plans can remain self-consistent and executable without observable errors; the miscalibration is also dynamic, as new information can alter feasibility assessments, potentially obscuring past miscalibration signals and causing them to recur over time. To address this, we propose the Epistemic Planning Calibration Agentic Workflow (EPC-AW), which assesses whether plans remain supported under varying information conditions rather than directly verifying feasibility. EPC-AW employs Information-consistency-based Plan Selection, selecting plans whose evaluations are stable across agents, together with Consistency-guided Epistemic State Refinement to adapt calibration over time by leveraging past discrepancies to guide future planning. Experiments show that EPC-AW improves system-level success by an average of 9.75%.
EDGE-OPD: 証拠に基づいたポリシーに基づく抽出による特権コンテキストの内部化
On-Policy Distillation (OPD) は、モデル分布のドリフトを導入せず、その結果として一般的なタスクの回帰を引き起こすことなく機能を向上させる効果があるため、LLM ポストトレーニング パラダイムとして広く注目を集めています。オンポリシー自己蒸留 (OPSD) は、OPD の効率的なユースケースであり、生徒と教師として必要なモデルが 1 つだけであるため魅力的です。また、トレーニング プロセス中に、推論時には存在しない特権的なコンテキスト (ペルソナ、プライベートな事実、または実用的なソリューションなど) を教師に提供できるという利点もあります。このアプローチの課題は、特権情報によってモデルの動作が意図以上に変更される可能性があることです。推論が変更され、一般的な機能が低下し、応答の長さ、スタイル、ローカル トークンの設定などのパフォーマンス指標に影響を与える可能性があります。その結果、OPSD は、望ましい、転移可能な行動ではなく、副作用について学生を訓練する可能性があります。このペーパーでは、希少トークン/アイデンティティ設定でこの問題を研究し、2 つの異なる特徴を持つ OPSD の修正である EviDence GuidEd On-Policy Distillation (EDGE-OPD) を提案します。a) ガイド付きロールアウトを使用して、サンプリング時に特権コンテキストの動作をスチューデントに注入し、まれなターゲット動作が実際にポリシー上のデータに存在するようにします。b) 証拠マスクを適用します。スチューデントは、トークン位置でのみ更新されます。特権コンテキストは、ロールアウト内のすべてのトークンではなく、サンプリングされたトークンをサポートします。我々は、OPSD (およびそのバリアント RLSD (検証器の有無にかかわらず) はターゲット ID の学習に完全に失敗しますが、ガイド付きロールアウトの統合により成功することができることを経験的に示しています)。さらに、マスク領域のアブレーションは、ペルソナ信号が肯定的な証拠の尾部に局在していることを示しており、効率的な知識の伝達と汎用機能の保存について貴重な洞察を引き出すことができます。
原文 (English)
EDGE-OPD: Internalizing Privileged Context with Evidence Guided On-Policy Distillation
On-Policy Distillation (OPD) has gained wide attraction as an LLM post-training paradigm due to its effectiveness in improving capabilities without introducing model distribution drift, and consequently, regression in general tasks. On-Policy Self-Distillation (OPSD) is an efficient use-case of OPD, which is appealing as it requires only a single model as a student and teacher, and it also has the benefit of providing privileged context that is a absent at inference time (e.g. a persona, a private fact, or a worked solution) to the teacher during the training process. The challenge in this approach is that the privileged information can change model behavior more than intended: it can modify reasoning, degrade general capabilities, and affect performance indicators like response length, style, or local token preferences. Consequently, OPSD may train the student on side effects rather than a desired, transferable behavior. In this paper, we study this problem in a rare-token/identity setting and propose EviDence GuidEd On-Policy Distillation (EDGE-OPD), a modification of OPSD with two distinct characteristics: a) it uses guided rollouts to inject privileged-context behavior to the student at sampling time, so that the rare target behavior is actually present in the on-policy data, and b) it applies an evidence mask: the student is updated only at token positions where the privileged context supports the sampled token, rather than on every token in the rollout. We empirically show that OPSD (and its variant RLSD, with and without a verifier) completely fail to learn a target identity, while the integration of guided rollouts allows them to succeed. Additionally, mask-region ablations show that the persona signal is localized to the positive-evidence tail, allows us to draw valuable insights about efficient knowledge transfer and preservation of general purpose capabilities.
バイナリ編集を超えた敵対的部分空間アライメントによる堅牢なマルチモーダル知識編集
マルチモーダル大規模言語モデル (MLLM) には、既存の機能を低下させることなく知識を更新するための効率的なメカニズムが必要です。本質的なマルチモーダル知識編集は、強力な信頼性と局所性を実現しますが、一般性が限られていることも多く、意味的に同等の視覚的および言語的バリエーション全体に編集を伝播することができません。この問題は、明示的なセマンティック監視の欠如、厳格な編集スコープ、および高次元のマルチモーダル空間における個々のサンプルへの偏ったアンカリングから発生します。一般化を明示的にターゲットにすることで、堅牢な本質的なマルチモーダルな知識編集に取り組みます。私たちは、意味的に等価なマルチモーダル入力をグループ化する知識単位を通じてロバスト性を形式化し、一般性を各単位内の一貫した予測として定義します。脆弱な意味領域を明らかにするために、関節潜在空間に敵対的でありながら意味的に一貫したバリアントを生成する潜在敵対的ロバスト化 (LAR) を導入します。さらに、特異値ベースの目標を介して、編集層で敵対的表現の低ランクの位置合わせを強制する、ランク制約部分空間学習 (RCSL) を提案します。広範な分析により、ASAM の有効性が経験的に実証されています。
原文 (English)
Beyond Binary Edits Robust Multimodal Knowledge Editing with Adversarial Subspace Alignment
Multimodal large language models (MLLMs) need efficient mechanisms to update knowledge without degrading existing capabilities. While intrinsic multimodal knowledge editing achieves strong reliability and locality, it often exhibits limited generality, failing to propagate edits across semantically equivalent visual and linguistic variations. This issue arises from the lack of explicit semantic supervision, rigid editing scopes, and biased anchoring to individual samples in high-dimensional multimodal spaces. We address robust intrinsic multimodal knowledge editing by explicitly targeting generalization. We formalize robustness through knowledge units that group semantically equivalent multimodal inputs and define generality as consistent predictions within each unit. To expose fragile semantic regions, we introduce Latent Adversarial Robustification (LAR), which generates adversarial yet semantically coherent variants in the joint latent space. We further propose Rank-Constrained Subspace Learning (RCSL), enforcing low-rank alignment of adversarial representations at the edit layer via a singular value-based objective. Extensive analysis demonstrates the effectiveness of ASAM empirically.
複雑な隠しロール ゲームにおける大規模な言語モデルの評価
大規模言語モデル (LLM) の欺瞞的な可能性を定量化することは AI の安全性にとって重要ですが、制御されていない環境では達成するのが困難です。この作品は、社会的推理ゲーム Secret Hitler における LLM の推論、説得、欺瞞能力を調査します。オープンソース フレームワークと、パフォーマンスを測定するための新しい指標 (役割識別精度、欺瞞保持率、ゲーム状態影響率) を紹介します。ルールベースのアルゴリズムと人間のゲームに対してモデルをベンチマークすることにより、会話能力と戦略の深さの間のギャップを特定します。この研究では、推論強化テクニックが勝率と戦略的推論に及ぼす影響も分析されています。思考連鎖プロンプトも内部メモリもパフォーマンスの向上をもたらさず、ファシストの役割の勝率は最大 23.2% 悪化します。ルールベースのエージェントは 86.7% の確率で専門家による人間の投票決定と一致しますが、Llama 3.1 70B のようなモデルでは 59.7% の精度しか達成できません。ファシストとしてプレイするモデルは常にマイナスの影響スコアを出し、欺瞞を維持できず、その結果、人間と比較してゲーム時間が約 40% 短くなります。これらの発見は、現在のアーキテクチャが複雑な複数回転の操作において依然として効果的でないことを示唆しています。機能が進歩するにつれて、モデルがこれらの欺瞞的な動作を習得し始める時期を検出することが重要になります。開発されたフレームワークは、将来のアライメント研究のための再現可能なテストベッドとして機能します。
原文 (English)
Evaluating Large Language Models in a Complex Hidden Role Game
Quantifying the deceptive potential of Large Language Models (LLMs) is critical for AI safety, yet difficult to achieve in uncontrolled environments. This work investigates the reasoning, persuasion, and deceptive capabilities of LLMs within the social deduction game Secret Hitler. I introduce an open-source framework and novel metrics to measure performance: Role Identification Accuracy, Deception Retention Rate, and Game State Impact Rate. By benchmarking models against rule-based algorithms and human games, I identify a gap between conversational ability and strategic depth. The study also analyzes the impact of reasoning-enhancement techniques on win rates and strategic reasoning. Neither Chain-of-Thought prompting nor internal memory bring improvements in performance, with up to 23.2% worse win rates for fascist roles. While rule-based agents align with expert human voting decisions 86.7% of the time, models like Llama 3.1 70B achieve only a 59.7% accuracy. Models playing as Fascists consistently yield negative impact scores and fail to sustain deception, resulting in roughly 40% shorter games compared to humans. These findings suggest that current architectures remain ineffective at complex, multi-turn manipulation. As capabilities advance, detecting when models begin to master these deceptive behaviors is crucial. The developed framework serves as a reproducible testbed for future alignment research.
LFRAG: マルチモーダル文書理解におけるレイアウト指向のきめ細かい検索拡張生成
マルチモーダル検索拡張生成 (RAG) は、外部知識を使用して大規模言語モデル (LLM) を強化するための効果的なパラダイムとして登場しました。しかし、既存のマルチモーダル RAG システムは、主に粒度の粗いページ レベルの検索に依存しているため、視覚的に豊富なドキュメント内の粒度の細かいセマンティック構造とレイアウト構造をキャプチャできず、その結果、検索の精度が損なわれ、下流タスクでの冗長なコンテキストが発生します。これらの問題に対処するために、私たちは、マルチモーダル RAG をページレベルからブロックレベルの検索に進化させる新しいフレームワークである、レイアウト指向のファイングレイン検索拡張生成 (LFRAG) を提案します。レイアウトセグメンテーションを実行して意味的に一貫したきめ細かい検索ユニットを構築し、クロスアテンションを介してローカルセマンティクスとグローバルコンテキストを統合するセマンティックレイアウト融合エンコーダーを設計します。 LFRAG は、ブロックレベルの遅延インタラクション取得により、クエリとコンテンツの正確な調整を可能にし、ダウンストリーム生成に無関係なコンテンツを削減します。厳密な評価を可能にするために、さまざまな種類の文書にまたがるブロックレベルの注釈を備えた大規模なベンチマークである LFDocQA を構築します。このベンチマークは、マルチモーダル文書検索と質問応答の両方を既存のデータセットよりも高い粒度で評価するように設計されています。 LFDocQA に関する広範な実験により、LFRAG が検索タスクで最先端のパフォーマンスを達成し、回答精度で最高のベースラインを 7.20% 上回り、生成タスクでトークン消費量を 73.07% 削減することが実証され、LFRAG が視覚的に豊富なドキュメントに対するマルチモーダル RAG の正確かつ効率的なフレームワークであることが確認されました。私たちのコードとデータセットは間もなくリリースされる予定です。
原文 (English)
LFRAG: Layout-oriented Fine-grained Retrieval-Augmented Generation on Multimodal Document Understanding
Multimodal Retrieval-Augmented Generation (RAG) has emerged as an effective paradigm for enhancing Large Language Models (LLMs) with external knowledge. However, existing multimodal RAG systems predominantly rely on coarse-grained page-level retrieval, which fails to capture fine-grained semantic and layout structures in visually rich documents, thereby compromising retrieval accuracy and leading to redundant context in downstream tasks. To address these issues, we propose Layout-oriented Fine-grained Retrieval-Augmented Generation (LFRAG), a novel framework that advances multimodal RAG from page-level to block-level retrieval. We perform layout segmentation to construct semantically coherent fine-grained retrieval units and design a semantic-layout fusion encoder that integrates local semantics with global context via cross-attention. With block-level late interaction retrieval, LFRAG enables precise query-content alignment and reduces irrelevant content for downstream generation. To enable rigorous evaluation, we construct LFDocQA, a large-scale benchmark with block-level annotations spanning diverse document types, designed to assess both multimodal document retrieval and question answering with greater granularity than existing datasets. Extensive experiments on LFDocQA demonstrate that LFRAG achieves state-of-the-art performance on retrieval tasks, outperforms the best baseline by 7.20% in answer accuracy, and reduces token consumption by 73.07% in generation tasks, confirming LFRAG as an accurate and efficient framework for multimodal RAG over visually rich documents. Our code and datasets will be released soon.
ObjectCache: KV キャッシュを再利用するためのレイヤーごとのオブジェクト ストレージの取得
プレフィックス KV キャッシュは、LLM サービスの重要なメカニズムとなっています。プレフィックスを共有するリクエスト (システム プロンプトなど) にわたる冗長な計算を回避することで、最初のトークンまでの時間 (TTFT) を短縮します。ただし、蓄積された KV キャッシュは、GPU メモリやローカル DRAM が保持できる容量よりも大きくなることがよくあります。レイテンシーを維持するために、現在のシステムは KV キャッシュをリモート DRAM プールに保持しており、サービング クラスターのサイズとコストが増加しています。このペーパーでは、別のアプローチを検討します。それは、TTFT への影響を最小限に抑えながら、容量の制約がなくなるように、KV キャッシュを S3 互換のオブジェクト ストレージに保存することです。私たちは、ストレージ プロトコルと転送スケジュールを共同設計する ObjectCache を提案します。これにより、ストレージ サーバーは GPU が消費する順序で KV キャッシュ データを配信し、同時リクエスト全体にわたるコンピューティングとデータ転送をオーバーラップさせます。私たちは、NIXL (ストレージとメモリを抽象化する推論ライブラリ)、Ceph RGW (クラスター用のオブジェクト ゲートウェイ)、および DAOS (オープンソース ストレージ システム) を使用して、100 Gbps RoCE クラスター上で ObjectCache のプロトタイプを作成しました。今日のシステムで一般的な 64K コンテキストの場合、ObjectCache はローカル DRAM に対して 5.6\% の遅延を追加するだけです。 4K コンテキストの場合、マスク転送に使用できるコンピューティングが少なくなり、ObjectCache は最適なローカル層ごとのベースラインに 56 ~ 75\,ms を追加します。共有帯域幅の上限の下では、当社のスケジューラは、均等な帯域幅共有と比較して、追加の TTFT を 1.2 ~ 1.8 倍削減します。
原文 (English)
ObjectCache: Layerwise Object-Storage Retrieval for KV Cache Reuse
Prefix KV caching has become a key mechanism in LLM serving: it reduces time to first token (TTFT) by avoiding redundant computation across requests that share a prefix (i.e., the system prompt). However, the accumulated KV cache is often larger than what GPU memory and local DRAM can hold. To preserve latency, current systems keep the KV cache in remote DRAM pools, increasing serving-cluster size and cost. In this paper, we explore a different approach: storing the KV cache in S3-compatible object storage so that capacity is no longer the constraint, while minimizing the impact on TTFT. We propose ObjectCache, which co-designs the storage protocol and transfer schedule so that the storage server delivers KV cache data in the order the GPU consumes it, overlapping data transfer with compute across concurrent requests. We prototype ObjectCache on a 100 Gbps RoCE cluster with NIXL (an inference library that abstracts storage and memory), Ceph RGW (an Object Gateway for clusters), and DAOS (an open source storage system). For 64K contexts, common in today's systems, ObjectCache adds only 5.6\% latency over local DRAM; for 4K contexts, where less compute is available to mask transfer, ObjectCache adds 56--75\,ms over the optimal local layerwise baseline. Under shared bandwidth caps, our scheduler reduces added TTFT by 1.2--1.8x compared with equal bandwidth sharing.
PrefBench: 隠れ優先パーソナライズされた価格交渉におけるゼロショット LLM エージェントの評価
対話が成功しても収益性の高い意思決定が保証されるわけではないため、パーソナライズされた価格交渉は LLM エージェントにとって挑戦的なテストベッドです。買い手の支払い意欲や交渉特性が隠されたままの場合、売り手は有効な行動を起こし、多くの取引を成立させる可能性がありますが、価格設定は依然として不十分です。このペーパーでは、隠れた好みの個別の価格交渉のためのシミュレーターベースのベンチマークである PrefBench について説明します。各エピソードでは、シミュレートされた購入者と固定の車両カスタマイズ バンドルが組み合わされます。売り手は公開ペルソナ記述子、バンドル情報、交渉履歴を観察しますが、潜在的な買い手変数は評価、忍耐力、反対提案行動、ウォークアウェイの決定を支配します。 PrefBench は、エージェントが固定の非表示情報境界の下で厳密な JSON アクションを返すように制約する、LLM 対応の状態概要プロトコルを通じてこの設定を評価します。当社は、7,500 のエピソードを超えるヒューリスティック参照に基づいて、ゼロショット LLM 販売者を評価します。テストされた LLM はプロトコルに確実に準拠し、0.99 を超える取引レートを達成しましたが、売り手利益の結果は依然として弱いままです。最高の LLM 平均利益は、ランダムなベースラインをわずかに上回っているだけで、同じエピソード ストリームの下での単純な譲歩ヒューリスティックをはるかに下回っています。これらの結果は、構造化された行動の遵守と合意を求める行動が、利益重視の弱い交渉と共存する可能性があることを示しています。 PrefBench は、隠れた購入者の好みの下で価格設定エージェントの行動を評価するための管理されたベンチマークを提供します。
原文 (English)
PrefBench: Evaluating Zero-Shot LLM Agents in Hidden-Preference Personalized Pricing Negotiations
Personalized pricing negotiations are a challenging testbed for LLM agents because successful interaction does not guarantee profitable decision making. A seller may produce valid actions and close many deals while still pricing poorly when buyer willingness to pay and bargaining traits remain hidden. This paper presents PrefBench, a simulator-based benchmark for hidden-preference personalized pricing negotiations. Each episode pairs a simulated buyer with a fixed vehicle-customization bundle; the seller observes public persona descriptors, bundle information, and negotiation history, while latent buyer variables govern valuation, patience, counter-offer behavior, and walkaway decisions. PrefBench evaluates this setting through an LLM-facing state-summary protocol that constrains agents to return strict JSON actions under a fixed hidden-information boundary. We evaluate zero-shot LLM sellers against heuristic references over 7,500 episodes. The tested LLMs follow the protocol reliably and achieve deal rates above 0.99, but their seller-profit outcomes remain weak: the best LLM average profit is only slightly above the random baseline and far below a simple concession heuristic under the same episode stream. These results show that structured action compliance and agreement-seeking behavior can coexist with weak profit-sensitive bargaining. PrefBench provides a controlled benchmark for evaluating pricing-agent behavior under hidden buyer preferences.
読み出しのショートカット: 位置番号コピーが小規模言語モデルの算術 CoT 読み出しを支配する
思考連鎖 (CoT) プロンプトは小規模言語モデルの算術演算に必要ですが、そのステップをシャッフルすることでほとんどのパフォーマンスが維持されます。論理シーケンスではない場合、CoT は何に貢献しますか? GSM8K 上の 3 つの 1-3B 命令調整 LM では、プレフィックス補完によって応答読み出しステージを分離し、位置ショートカットを特定します。モデルは、中間推論に関係なく、応答デリミタの前の末尾の位置を占める数値をコピーします。ゴールドアンサーの存在は、精度の 54 ~ 92 pp を占めます (各モデルの教師強制上限の 89 ~ 92%)。間違った項目であっても、最終的な答えは 95 ~ 96% の確率で最後の CoT 番号と一致します。コピー チャネルは、保持されたコンテキストの補完よりも優先されます。末尾の数値を間違った値に置き換えると、中間値が正しいにもかかわらず、精度がゼロ近くに低下しますが、それを削除すると、その下限より 5 ~ 32 pp 上に回復します。コピー可能な数値が存在する場合、モデルが実行できるシングル ステップの演算でさえも抑制されます。クウェンとラマは、87 ~ 95% の確率で新しい気を散らすものをコピーします。ジェマは選択的にゲートします。頭部レベルのアブレーションには、アーキテクチャ固有の頭部セットが関係します。この効果は GSM-Symbolic 上でも複製されます。非算術 BBH タスクでは、シャッフル保持率が急激に低下します。 7-8B では、コンテンツ選択型ゲーティングが現れます。ステップレベルの忠実性評価は、位置応答の転送と本物の計算、つまり CoT ベースの監視の障害モードを混同する危険があります。
原文 (English)
The Readout Shortcut: Positional Number Copying Dominates Arithmetic CoT Readout in Small Language Models
Chain-of-thought (CoT) prompting is necessary for arithmetic in small language models, yet shuffling its steps preserves most performance. What does CoT contribute if not logical sequencing? In three 1-3B instruction-tuned LMs on GSM8K, we isolate the answer-readout stage via prefix completion and identify a positional shortcut: the model copies whichever number occupies the trailing position before the answer delimiter, regardless of intermediate reasoning. Gold-answer presence accounts for 54-92 pp of accuracy (89-92% of each model's teacher-forcing ceiling); even on incorrect items, the final answer matches the last CoT number 95-96% of the time. The copy channel takes precedence over retained-context completion: replacing the trailing number with a wrong value collapses accuracy to near-zero despite correct intermediates, yet removing it recovers 5-32 pp above that floor--even single-step arithmetic the model can otherwise perform is suppressed when a copyable number is present. Qwen and Llama copy novel distractors 87-95% of the time; Gemma gates selectively. Head-level ablation implicates architecture-specific head sets; the effect replicates on GSM-Symbolic. On non-arithmetic BBH tasks, shuffle retention drops sharply; at 7-8B, content-selective gating emerges. Step-level faithfulness evaluations risk conflating positional answer transport with genuine computation--a failure mode for CoT-based oversight.
LLM が推論するのはいつですか?エントロピー相転移による動的システムの視点
Chain-of-thought (CoT) reasoning has become the default strategy for enhancing LLM capabilities, yet its application raises a fundamental question: when is explicit reasoning actually beneficial?経験的証拠は、顕著な矛盾を明らかにしています。CoT は、多くの場合、トークン消費量を増大させながら、事実に基づいた無制限のタスクに対してわずかな利益、またはマイナスの利益さえ提供します。この研究では、LLM 推論がタスクやモデルの静的な特性ではなく、生成中に現れる \emph{動的復号状態} であることを示します。体系的な分析を通じて、初期段階のエントロピー ダイナミクスがこの状態の信頼できるシグナルを提供することを発見しました。CoT の恩恵を受けるタスクは一貫したエントロピーの減少を示しますが、他のタスクは不安定または増加するパターンを示します。この動作は、高エントロピー探索体制から低エントロピー構造推論体制への相転移のような移行として解釈できます。これらの洞察に基づいて、我々は、早期デコードエントロピーを活用して推論戦略を適応的に選択する、軽量でトレーニング不要のルーティングフレームワークである \textbf{EDRM} (エントロピーダイナミクスベースの推論マニホールド) を提案します。 EDRM は、エントロピーの軌跡をコンパクトで解釈可能な多様体表現に埋め込み、ゼロショット デプロイメントときめ細かいインスタンス レベルの適応の両方を可能にします。さまざまなスケールとアーキテクチャの 15 のベンチマークと 4 つの LLM にわたって、EDRM は一貫して静的ベースラインを上回っています。データセット レベルでは、EDRM は \textbf{41--55\%} トークンの削減を達成しながら、わずか 50 個のキャリブレーション サンプルで精度を向上させます。インスタンス レベルでは、\textbf{27--45\%} トークンの節約を維持しながら、精度が最大 \textbf{4.7\%} まで向上します。これらの結果は、推論はデフォルトではなく選択的に呼び出される必要があることを示唆しており、効率的で適応的な LLM 推論に対するエントロピー駆動型の復号制御の有効性を示しています。
原文 (English)
When Do LLMs Reason? A Dynamical Systems View via Entropy Phase Transitions
Chain-of-thought (CoT) reasoning has become the default strategy for enhancing LLM capabilities, yet its application raises a fundamental question: when is explicit reasoning actually beneficial? Empirical evidence reveals a striking paradox: CoT often provides marginal or even negative gains on factual and open-ended tasks while multiplying token consumption. In this work, we show that LLM reasoning is not a static property of tasks or models, but a \emph{dynamic decoding state} that emerges during generation. Through systematic analysis, we find early-stage entropy dynamics provide a reliable signal of this state: tasks benefiting from CoT exhibit consistent entropy reduction, while others display unstable or increasing patterns. This behavior can be interpreted as a phase-transition-like shift from a high-entropy exploratory regime to a low-entropy structured reasoning regime. Based on these insights, we propose \textbf{EDRM} (Entropy Dynamics-based Reasoning Manifold), a lightweight and training-free routing framework that leverages early decoding entropy to adaptively select inference strategies. EDRM embeds entropy trajectories into a compact and interpretable manifold representation, enabling both zero-shot deployment and fine-grained instance-level adaptation. Across 15 benchmarks and 4 LLMs of varying scales and architectures, EDRM consistently outperforms static baselines. At the dataset level, EDRM achieves \textbf{41--55\%} token reduction while improving accuracy with as few as 50 calibration samples. At the instance level, it further improves accuracy by up to \textbf{4.7\%} while maintaining \textbf{27--45\%} token savings. These results suggest that reasoning should be invoked selectively rather than by default, and demonstrate the effectiveness of entropy-driven decoding control for efficient and adaptive LLM inference.
彼らはどこまで行くのでしょうか?大規模な言語モデルによるレッドチームのオンライン影響力
大規模言語モデル (LLM) ベースのエージェントがオンライン言説にますます参加するようになっているため、政治的影響力のあるキャンペーンをサポートする彼らの能力をレッドチーム化することが、情報の完全性にとって重要です。この目標を追求するために、私たちは、ソーシャル メディア環境に展開されるプライバシーを意識した悪意のある攻撃者の運用上の制約との優れた整合性を考慮して、フロンティア API のみのモデルではなく、ローカルに展開されるオープンソース LLM に焦点を当てます。物議を醸すトピックに関してモデルが確実に表現できる政治的意見の範囲として定義される LLM Overton Windows (OW) を測定し、単純な自然言語ジェイルブレイクがその範囲をどのように拡大するかを定量化するための経験的なレッドチーム フレームワークを紹介します。当社では、10 のモデル ファミリと 5 つの原産国にまたがる 30 以上の LLM を評価しています。私たちは、政治的表現力に体系的な非対称性があることを発見しました。オープンソース LLM は通常、左寄りのソーシャル メディア コンテンツを生成することに積極的であり、OW はモデル サイズに反比例して縮小する傾向があり、オープンソース エコシステム内での表現が不均一であるにもかかわらず、地域的な差異が顕著です。脱獄の有効性もモデル ファミリによって大きく異なるため、脱獄テクニックの効果的な組み合わせを特定するためのワークフローが動機付けられます。総合すると、私たちの結果は、オープンソース LLM の政治的運営性を監査し、将来の研究者が LLM を利用した影響力キャンペーンに対するより強力な対策を設計するのに役立つ実用的な枠組みを確立します。
原文 (English)
How Far Will They Go? Red-Teaming Online Influence with Large Language Models
As large language model (LLM)-based agents increasingly participate in online discourse, red-teaming their capacity to support political influence campaigns is critical for information integrity. In pursuit of this goal, we focus on locally deployed open-source LLMs, as opposed to frontier API-only models, given their superior alignment with the operational constraints of privacy-conscious malicious actors deployed in social media environments. We introduce an empirical red-teaming framework for measuring LLM Overton Windows (OWs), defined as the range of political opinions a model can reliably express on controversial topics, and for quantifying how simple natural-language jailbreaks expand that range. We evaluate more than 30 LLMs spanning 10 model families and five countries of origin. We find systematic asymmetries in political expressivity: open-source LLMs are typically more willing to generate left-leaning social media content, OWs tend to contract inversely to model size, and regional differences are substantial despite uneven representation in the open-source ecosystem. Jailbreak potency also varies sharply across model families, motivating a workflow for identifying effective combinations of jailbreak techniques. Taken together, our results establish a practical framework for auditing the political steerability of open-source LLMs and for helping future researchers design stronger countermeasures against LLM-enabled influence campaigns.
接地検出用の誘導バイアスとしてのグラフ アライメント トポロジ
大規模言語モデル (LLM) は、生成された命題がソース ドキュメントに含まれているかどうかを明示的に検証するのではなく、分布的に妥当な継続を生成するように最適化されています。この誘導性バイアスにより一般化が可能になりますが、応答が基準に対して接地されているかどうかはエンコードされません。これらの問題により、臨床意思決定支援など、厳密な事実の正確さが重要な分野での LLM の使用が制限されます。既存の幻覚検出アプローチは、検索の拡張、自己一貫性、または主張の検証を通じて事実性を向上させますが、一般に位置合わせトポロジーを直接学習することはありません。アライメントトポロジーを誘導バイアスとして活用するために、参照情報とLLM出力の間でアライメントされた2部グラフを構築し、メッセージパッシングを使用してアライメント構造をモデル化するようにグラフニューラルネットワーク(GNN)をトレーニングします。この方法は、4 つの多様な幻覚および質問応答データセットで最先端の結果を達成し、GPT-4o などの基礎的な LLM を含む、比較されたすべての方法を上回ります。
原文 (English)
Graph Alignment Topology as an Inductive Bias for Grounding Detection
Large Language Models (LLMs) are optimized to produce distributionally plausible continuations rather than to explicitly verify whether generated propositions are entailed by source documents. This inductive bias enables generalization, but it does not encode whether responses are grounded with respect to a reference. These issues limit the use of LLMs in domains where strict factual correctness is crucial, such as clinical decision support. Existing hallucination detection approaches improve factuality through retrieval augmentation, self-consistency, or claim verification, but generally do not learn directly over alignment topology. To leverage alignment topology as an inductive bias, we construct aligned bipartite graphs between reference information and LLM outputs and train a graph neural network (GNN) to model alignment structure using message passing. The method achieves state-of-the-art results on four diverse hallucination and question-answering datasets, outperforming all compared methods, including foundational LLMs such as GPT-4o.
LLM コードの匂い: 分類と検出のアプローチ
大規模言語モデル (LLM) は、その汎用性、柔軟性、人間の推論をある程度シミュレートできる機能により、さまざまな目的でソフトウェア システムに統合されることが増えています。ただし、ソース コードへの LLM 推論の統合が不十分だと、ソフトウェア システムの品質が損なわれる可能性があります。したがって、開発者がそのような問題を軽減できるように、不適切な LLM 統合コーディングの実践を文書化する必要があります。 LLM コードの匂いに関する以前の研究に続き、この文書では、自己完結型の分類法と 9 つの LLM コードの匂いのカタログを提示することで、概念を統合し、洗練させました。また、それらを検出するための静的ソース コード分析ツールである SpecDetect4LLM を作成し、その検出有効性 (精度と再現率) および 692 のオープンソース ソフトウェア プロジェクト (171,194 のソース ファイル) にわたる LLM コードの匂いの蔓延について広範な実証的評価を実施しています。私たちの結果は、LLM コードの匂いが分析されたシステムの 73.5% に影響を及ぼし、検出精度は 91.3%、再現率は 71.8% であることを示しています。
原文 (English)
LLM Code Smells: A Taxonomy and Detection Approach
Large Language Models (LLMs) are increasingly integrated into software systems for diverse purposes, due to their versatility, flexibility, and ability to simulate human reasoning to some extent. However, poor integration of LLM inference in source code can undermine software system quality. Therefore, inadequate LLM integration coding practices must be documented to help developers mitigate such issues. Following our earlier work on LLM code smells, this paper consolidates and refines the concept by presenting a self-contained taxonomy and a catalog of nine LLM code smells. We also create SpecDetect4LLM, a static source code analysis tool for their detection, and conduct extensive empirical evaluations of its detection effectiveness (precision and recall) as well as the prevalence of LLM code smells across 692 open-source software projects (171,194 source files). Our results show that LLM code smells affect 73.5% of the analyzed systems, with a detection precision of 91.3% and a recall of 71.8%.
MadEvolve: 大規模な言語モデルを使用したトレーディング システムの進化的な最適化
私たちは、定量的金融におけるいくつかの一般的なタスクへの LLM 主導のアルゴリズム最適化の適用を検討します。 DeepMind の Alpha-Evolve からインスピレーションを得た汎用アルゴリズム最適化フレームワークである MadEvolve は、計算宇宙論におけるアルゴリズムを最適化するために最近開発されました。ここでは、ビットコイン取引の例で、アルゴリズム取引戦略とアルファ生成を最適化するための MadEvolve の有用性を示します。シミュレーションとバックテストのセットアップでは、シグナル生成のための機能セットの進化、取引戦略の個別コンポーネントの最適化、実行戦略と機能パイプラインの共同進化など、検討したすべてのタスクで大幅な改善を達成しました。さらに、私たちの方法を他のエージェント検索アプローチ、特にクロード コードと比較し、シミュレーション設定での p-ハッキングの確率を慎重に評価します。私たちの調査結果は、アルゴリズム取引と定量的金融における AI 主導のエージェント的アルゴリズムと進化的アルゴリズムの有用性を強く裏付けています。
原文 (English)
MadEvolve: Evolutionary Optimization of Trading Systems with Large Language Models
We explore the application of LLM-driven algorithm optimization to several common tasks in quantitative finance. MadEvolve, a general-purpose algorithm optimization framework inspired by DeepMind's Alpha-Evolve, was recently developed to optimize algorithms in computational cosmology. Here we demonstrate the utility of MadEvolve to optimize algorithmic trading strategies and alpha generation at the example of Bitcoin trading. On our simulation and backtesting setup, we achieve significant improvements on all tasks we considered, such as evolving feature sets for signal generation, optimizing separate components of the trading strategy, and jointly evolving the feature pipeline together with the execution strategy. Additionally, we compare our method to other agentic search approaches, specifically Claude Code, and carefully evaluate p-hacking probabilities on our simulation setup. Our findings strongly support the utility of AI-driven agentic and evolutionary algorithms for algorithmic trading and quantitative finance.
Brain-LLM アライメントは、類型学ではなくトレーニング データを追跡します
英語では脳とLLMの整合性が確立されていますが、脳の言語ネットワークは神経解剖学的に言語を超えて普遍的です。整合性は言語を超えて一般化するのでしょうか?その変動を支配するものは何ですか?英語、中国語、フランス語 (Le Petit Prince コーパス) の 112 人の参加者からの fMRI データと、英語主体、中国語主体、および多言語アーキテクチャにまたがる 7 つの LLM を使用して、これをテストします。私たちの中心的な発見は、英語の固有の特性ではなく、トレーニング言語の優位性が対応パターンを推進しているということです。アーキテクチャが LLaMA-2-7B と一致した中国語優位モデル (Baichuan2-7B) は、勾配を完全に逆転させ、中国人の脳と最もよく一致し、英語と最悪の一致を示します。トレーニングの優位性を超えて、形式的類型論的距離はアライメントの劣化と独立して共変動し、構文関連脳領域 (IFG) は語彙意味領域 (PTL) より $2.3\times$ 急峻な類型論的勾配を示し、トークン化の豊饒度は、最適なエンコード層における言語間シフトの $\sim$60% を占めます。これらの結果は、脳とLLMの整合における明らかな「英語の利点」はトレーニングデータ構成のアーチファクトである一方、残りの変動は構文処理に集中した真の類型構造を反映していることを明らかにしています。
原文 (English)
Brain-LLM Alignment Tracks Training Data, Not Typology
Brain-LLM alignment is well established in English, yet the brain's language network is neuroanatomically universal across languages. Does alignment also generalize cross-linguistically, and what governs the variation? We test this using fMRI data from 112 participants across English, Chinese, and French (the Le Petit Prince corpus) and seven LLMs spanning English-dominant, Chinese-dominant, and multilingual architectures. Our central finding is that training-language dominance, not an inherent property of English, drives the alignment pattern: a Chinese-dominant model (Baichuan2-7B), architecture-matched to LLaMA-2-7B, reverses the gradient entirely, aligning best with Chinese brains and worst with English. Beyond training dominance, formal typological distance independently covaries with alignment degradation, syntax-associated brain regions (IFG) show $2.3\times$ steeper typological gradients than lexico-semantic regions (PTL), and tokenization fertility accounts for $\sim$60% of a cross-linguistic shift in optimal encoding layer. These results reveal that the apparent "English advantage" in brain-LLM alignment is an artifact of training data composition, while the remaining variation reflects genuine typological structure concentrated in syntactic processing.
スパースオートエンコーダは、脳とLLMのアライメントを皮質セマンティックトポグラフィーにマッピングします
大規模言語モデル (LLM) の中間層は、言語に対する人間の脳の反応を最もよく予測します。これは、計算神経言語学における最も確実な発見の 1 つですが、その理由はまだ機構的に説明されていません。私たちは、スパース オートエンコーダ (SAE) を機械的な解釈可能性からニューラル エンコーディング モデルで橋渡しし、GPT-2 XL と Llama-3.1-8B をレイヤーごとに 16K ~ 32K の解釈可能な特徴に分解することで、このギャップに対処します。人間によって検証された分類法 ($\kappa \geq 0.74$) により、意味特徴だけでピーク エンコード パフォーマンス ($r=0.285$) の 94% が回復し、分散一致ベースライン ($p<0.001$、$d=1.31$) を大幅に超えていることが明らかになりました。この集合的な優位性を超えて、新しい皮質トポグラフィー予測をテストします。3 つの独立した神経科学プログラムからアプリオリに導出された 5 つの意味サブカテゴリーが、異なる脳領域にマッピングされるはずです。正式な収束テストによりこの整合性が確認され (Spearman $\rho=0.72$, $p<0.001$; 超幾何 $p=0.007$)、SAE で発見された特徴が、従来の方法ではアクセスできない粒度で既知の皮質の意味論的組織化を再現していることが実証されました。 SAE 機能は、語彙制御を超えて人間の読書時間をさらに予測し ($\Delta\mathrm{logLik}=38.4$、$p<0.001$)、探索的予測誤差分析により、脳が予期せぬ意味論的コンテンツをさらにエンコードしているという予備的な証拠が得られます。結果は英語、中国語、フランス語で一般化されます。
原文 (English)
Sparse Autoencoders Map Brain-LLM Alignment onto Cortical Semantic Topography
Intermediate layers of large language models (LLMs) best predict human brain responses to language, one of the most robust findings in computational neurolinguistics, yet why remains mechanistically unexplained. We address this gap by bridging sparse autoencoders (SAEs) from mechanistic interpretability with neural encoding models, decomposing GPT-2 XL and Llama-3.1-8B into 16K-32K interpretable features per layer. A human-validated taxonomy ($\kappa \geq 0.74$) reveals that semantic features alone recover 94% of peak encoding performance ($r=0.285$), substantially exceeding variance-matched baselines ($p<0.001$, $d=1.31$). Beyond this aggregate dominance, we test a novel cortical topography prediction: five semantic subcategories derived a priori from three independent neuroscience programs should map onto distinct brain regions. A formal convergence test confirms this alignment (Spearman $\rho=0.72$, $p<0.001$; hypergeometric $p=0.007$), demonstrating that SAE-discovered features recapitulate known cortical semantic organization at a granularity inaccessible to prior methods. SAE features further predict human reading times beyond lexical controls ($\Delta\mathrm{logLik}=38.4$, $p<0.001$), and an exploratory prediction-error analysis provides preliminary evidence that the brain additionally encodes unexpected semantic content. Results generalize across English, Chinese, and French.
言語モデルは何を言ってはいけないかを知っていますか? LLM における統計的プリエンプションの因果関係の証拠
否定的な証拠がなければ、学習者は何が受け入れられないのかについての知識をどのようにして獲得するのでしょうか? Construction Grammar は統計的プリエンプションを提案しています。従来の形式 (例: 「図書館に本を寄贈した」) にさらされると、構造的には可能だが証明されていない代替案 (「* 図書館に本を寄贈した」) が先取りされます。我々は、単一の収束設計内の大規模な言語モデルにおける競合する固定化仮説から統計的プリエンプションを初めて直接分離する計算研究を紹介します。 120 の英語の動詞と構文の組み合わせ (与格、使役、場所) にわたる 4 つの実験を通じて、(1) LLM の驚きのパターンは人間の受容性の判断 ($r = 0.79$) と強い相関があることを示し、3 つの独立した行動データセットに対して検証されました。 (2) これらのパターンは、動詞全体の頻度ではなく、競合する形式の頻度によって駆動されており、非循環部分相関によって確認されます。 (3) プリエンプション感度はモデルのサイズに応じてべき乗則としてスケールされます。 (4) 制御された微調整介入により、競合形式の周波数を操作すると、プリエンプション動作が予測された方向にシフトし、逆方向の制御により周波数感度の交絡が排除されることが因果的に実証されます。これらの結果は、神経言語モデルが、構築文法によって仮定される中心的なメカニズムである分布競争を通じて否定的な言語知識を獲得するという収束した証拠を提供します。
原文 (English)
Do Language Models Know What Not to Say? Causal Evidence for Statistical Preemption in LLMs
How do learners acquire knowledge of what is unacceptable without negative evidence? Construction Grammar proposes statistical preemption: exposure to a conventional form (e.g., "donated the books to the library") preempts structurally possible but unattested alternatives ("*donated the library the books"). We present a computational study that, for the first time, directly dissociates statistical preemption from the competing entrenchment hypothesis in large language models within a single converging design. Across four experiments spanning 120 English verb-construction pairings (dative, causative, locative), we show that (1) LLM surprisal patterns correlate strongly with human acceptability judgments ($r = 0.79$), validated against three independent behavioral datasets; (2) these patterns are driven by competing-form frequency rather than overall verb frequency, confirmed by non-circular partial correlations; (3) preemption sensitivity scales as a power law with model size; and (4) a controlled fine-tuning intervention causally demonstrates that manipulating competing-form frequencies shifts preemption behavior in the predicted direction, with reverse-direction controls ruling out frequency-sensitivity confounds. These results provide converging evidence that neural language models acquire negative linguistic knowledge through distributional competition, the core mechanism posited by Construction Grammar.
文化進化としてのモデル崩壊
モデルの崩壊、つまり独自の出力でトレーニングされた LLM の進行性の劣化は統計的に特徴付けられていますが、どの構造がどのような順序で、そしてなぜ劣化するのかについての言語的な説明が不足しています。私たちは、文化進化に基づく反復学習理論がこのギャップを埋めることを示します。私たちは 5 つの反証可能な予測を導き出し、理論を独自に識別する予測と確証的な予測を区別し、英語、ドイツ語、トルコ語で 10 世代にわたって LLaMA-2-7B とミストラル-7B を自己訓練することによってそれらをテストします。重要な識別的発見: フィルタリングされていない自己訓練下では、構成性は非単調な軌道 (最初は上昇し、その後下降) をたどります。この署名は、最大限規則的なシード データ (ノイズ除去を除外) で持続し、ランダム フィルターではなくタスクに基づいたフィルターによってのみ維持され、圧縮と通信のトレードオフに関する最初の LLM スケールの証拠を提供します。すべての予測は大きな効果量 (Hedges の $g > 1.6$; $\mathrm{BF}_{10} > 100$) で確認され、LLM 正則化勾配は人間の行動データ ($R^2 = 0.94$) とよく一致します。これらの結果は、モデルの崩壊を文化伝達現象として再構成し、自己学習パイプライン設計の具体的な原則を導き出します。
原文 (English)
Model Collapse as Cultural Evolution
Model collapse, the progressive degradation of LLMs trained on their own outputs, has been characterized statistically but lacks a linguistic explanation for which structures degrade, in what order, and why. We show that iterated learning theory from cultural evolution fills this gap. We derive five falsifiable predictions, distinguish those uniquely discriminative for the theory from confirmatory ones, and test them by self-training LLaMA-2-7B and Mistral-7B over 10 generations in English, German, and Turkish. The critical discriminative finding: compositionality follows a non-monotonic trajectory (initially rising, then falling) under unfiltered self-training. This signature persists with maximally regular seed data (ruling out noise removal) and is sustained only by task-grounded filtering, not random filtering, providing the first LLM-scale evidence for the compression-communication tradeoff. All predictions are confirmed with large effect sizes (Hedges' $g > 1.6$; $\mathrm{BF}_{10} > 100$), and LLM regularization gradients closely match human behavioral data ($R^2 = 0.94$). These results reframe model collapse as a cultural transmission phenomenon and yield concrete principles for self-training pipeline design.
LLM で生成されたコードのセキュリティ: 比較分析
ソフトウェア開発者の大多数は、開発プロセスで人工知能 (AI) ツールを使用しているか、使用する予定です。その主な理由としては、生産性の向上と学習の迅速化が挙げられます。実際、Large Language Model (LLM) で生成されたコードは、大手テクノロジー企業を含めて現在運用されています。ただし、AI ツールを使用してコードを生成することに関連するリスクについて懸念が生じました。このホワイトペーパーでは、ソフトウェアのセキュリティに対するリスクに焦点を当てます。私たちは、7 つの一般的な LLM によって生成されたコードのセキュリティを経験的に評価します。私たちは、LLM を使用してコードを生成するときの開発者の動作を模倣するために、以前の作業に基づいて構築しています。私たちの結果は、私たちが評価した 7 つの LLM はすべて、脆弱性を含むコードを生成し、その大部分が重大度または重大度であることを示しています。
原文 (English)
Security of LLM-generated Code: A Comparative Analysis
The majority of software developers use or are planning to use Artificial Intelligence (AI) tools in their development processes. Their top reasons include improving productivity and faster learning. In fact, Large Language Model (LLM)-generated code is currently in production, including in major tech companies. However, concerns were raised about the risks associated with the use of AI tools to generate code. In this paper, we focus our attention on the risks to software security. We empirically evaluate the security of code generated by seven popular LLMs. We build upon previous work to mimic the behaviours of developers when using LLMs to generate code. Our results show that all seven LLMs that we have evaluated generate code that contains vulnerabilities, the majority of which are of critical or high severity.
As X、Do Y: 命令調整された LLM でペルソナとタスクを組み合わせる方法
As X, do Y の形式のロール プロンプトは、残差ストリーム内の 1 つの特定のサイトできれいな線形分解を認めます。プロンプトから回答への遷移 (初期/中間層バンド内の最初の 2 つの生成されたトークンと最後のプロンプト トークン)。そこでは、ペルソナとタスクが、部分的に直交する加法的な方向を通じて貢献します。純粋なペルソナ効果 $\Delta_X$、純粋なタスク効果 $\Delta_Y$ を形成し、クリーン残差を $h_{BB} + \Delta_X + \Delta_Y$ に置き換えると、12 セルのショート グリッドと48 セルの長さのペルソナ グリッド。ペルソナ固有の行動マーカーが保存されます。この加算構造からの自然な推論は、ロール プロンプトを単一のキャッシュされた残差ベクトルに圧縮できるということです。 \emph{不可能であることを示します。} キャッシュされた加法予測、またはオラクルのクリーンな残差 $h_{XY}$ を、ペルソナ テキストを削除したベースライン ホスト プロンプトに挿入しても、1 つのサイトまたは多くのレイヤーで、クリーンなロング ペルソナ ターゲットには近づきません。ペルソナ条件付きマルチトークン生成は、プロンプト全体でペルソナ テキストの位置に注意を戻すことによって流れ、1 つのサイトで再現される残留物はありません。残留ストリームの局所的な加成性は、即時圧縮性を意味するものではありません。プロンプトから回答への移行時の付加的な構造は、ペルソナやタスクの貢献度の解釈可能性ときめ細かい操作をサポートします。完全な継続にわたるペルソナ条件付きの動作は、ローカル アクティベーション演算に置き換えられない分散プロンプト/KV メカニズムに依存します。
原文 (English)
As X, Do Y: How Persona and Task Combine in Instruction-Tuned LLMs
Role prompts of the form As X, do Y admit a clean linear decomposition at one specific site in the residual stream: the prompt-to-answer transition -- the last prompt token together with the first two generated tokens -- in an early/mid layer band. There, persona and task contribute through partially orthogonal additive directions. Forming a pure persona effect $\Delta_X$, a pure task effect $\Delta_Y$, and substituting $h_{BB} + \Delta_X + \Delta_Y$ for the clean residual yields downstream output within a small KL of clean on Gemma-2-2B-IT and Qwen-2.5-\{1.5B, 3B\}-Instruct, across a 12-cell short grid and a 48-cell long-persona grid, with persona-specific behavioral markers preserved. The natural inference from this additive structure is that the role prompt can be compressed into a single cached residual vector. \emph{We show it cannot.} Injecting the cached additive prediction -- or even the oracle clean residual $h_{XY}$ -- into a baseline host prompt with the persona text removed does not approach the clean long-persona target, at one site or at many layers. Persona-conditioned multi-token generation flows through attention back to the persona-text positions throughout the prompt, which no residual at one site reproduces. Local additivity in the residual stream does not imply prompt compressibility. The additive structure at the prompt-to-answer transition supports interpretability and fine-grained steering of persona or task contributions; persona-conditioned behavior across the full continuation depends on a distributed prompt/KV mechanism that local activation arithmetic does not displace.
PoisonForge: 命令チューニング LLM 向けのタスクレベルを対象としたポイズニング ベンチマーク
実践者が精査されていないデータセット上で LLM を微調整すると、攻撃者はタスク レベルのポイズニングを通じてデータ サプライ チェーンを悪用する可能性があります。これは、モデルが他の場所では通常どおり動作しながら、対象のタスク ファミリの出力に国などの攻撃者が指定したエンティティを埋め込む、少数の巧妙に作成された命令と応答のペアを挿入することです。この脅威を 4 つの次元 (バイアス タイプ、ポイズニング モード、出現数、ターゲット出力の長さ) に沿ってパラメータ化し、主に 1% のポイズン バジェットの下で 5 つのファミリーにわたる 12 のオープンウェイト モデル (2B から 32B パラメータ) を評価するベンチマークである PoisonForge を紹介します。 1,000 の微調整サンプルのうち汚染されたサンプルは 10 件のみで、12 モデル中 11 モデルが最も脆弱な構成で 70% の攻撃成功率 (ASR) を超えています。一方、非ターゲット タスクへの意図しないリークは 0.5% 未満のままで、モデルは標準ベンチマークで良好なパフォーマンスを示します。攻撃成功の要因を詳細に分析します。エンティティが複数出現すると ASR が増加し、最適なポイズニング モードはターゲット エンティティの意味構造に依存し、ASR はタスクの出力長に応じて単調に低下することが観察されます。相関分析とリスク予測モデルにより、モデルの規模ではなくポイズニング設計の選択が攻撃成功の主な原因であり、これらのパターンが新しいタスクでの攻撃の成功を予測するために一般化されることが確認されています。再現可能な比較をサポートするために、すべての構成、パイプライン、分析コードをリリースします。
原文 (English)
PoisonForge: Task-Level Targeted Poisoning Benchmark for Instruction-Tuned LLMs
When practitioners fine-tune LLMs on unvetted datasets, an adversary can exploit the data supply chain through task-level poisoning: inserting a small number of crafted instruction-response pairs that cause the model to embed attacker-specified entities, such as a country, in outputs for a targeted task family while behaving normally elsewhere. We introduce PoisonForge, a benchmark that parameterizes this threat along four dimensions (bias type, poisoning mode, appearance count, and target output length) and evaluates 12 open-weight models (from 2B to 32B parameters) across five families under a primarily 1% poison budget. With only 10 poisoned examples among 1,000 fine-tuning examples, 11 of 12 models exceed a 70% attack success rate (ASR) in their most vulnerable configuration. Meanwhile, unintended leakage to non-target tasks remains below 0.5%, and models perform well on standard benchmarks. We analyze in detail the factors contributing to attack success. We observe that multiple appearances of an entity increase the ASR, the optimal poisoning mode depends on the semantic structure of the target entity, and ASR drops monotonically with the task output length. A correlation analysis and risk prediction model confirm that poisoning design choices, rather than model scale, are the primary causes of attack success, and that these patterns generalize to predict attack success on new tasks. We release all configurations, pipelines, and analysis code to support reproducible comparisons.
ロングコンテキスト LLM の位置の失敗: 推論ベンチマークの盲点
位置制御された評価は、Needle-in-a-Haystack や RULER などの検索タスクの標準ですが、主流の推論ベンチマークは、長いコンテキストでのターゲット タスクの位置配置を制御しません。 11 個の長いコンテキストのベンチマークを監査したところ、タスクの位置、フィラーの内容、および推論のためのコンテキストの長さを共同で制御するものはありませんでした。 4 つの主力ロングコンテキスト リリースの監査では、NIAH、RULER、または LongBench ファミリー ベンチマークのメイン結果テーブル エントリは見つかりませんでしたが、エージェント ベンチマークとコーディング ベンチマークは 4 つすべてのメイン結果テーブルに表示されます。私たちは、3 つの要素すべてを変化させる制御されたフレームワークであるコンテキスト ロット評価 (CRE) を提案し、GSM8K と ARC-Challenge の 9 つの LLM を 2 つのラウンド (初期 5 モデル セットと 4 つの新しいベンダー リリース) にわたって評価します。ターゲット タスクが端から中間に移動するとモデルが急激に低下する可能性があり、脆弱なモデルのコンテキストの長さが増すにつれて低下はさらに悪化します。 MiMo-v2-Flash は、with_solutions フィラーの下で 64K で 88pp 低下します (中精度 8%)。新しいリリースでは低下が小さくなっています。64K では、4 つのうち 3 つが終了位置精度の +/-6pp 以内に留まっています。 MiMo-V2.5-Pro は、MiMo-v2-Flash の 88pp の低下を 32pp に狭めます。 question_only_v2 フィラーでは、4 つすべてで中間位置の低下が持続します (8K、32K、64K で -16pp から -56pp の範囲)。 8K では、最後にターゲット タスクのコピーを追加する診断プローブにより、9 つのモデルすべてで終了ベースラインの +/-4pp 以内の中程度の精度が得られ、位置の説明と一致します。最初の 5 つのモデル セットでは、中間位置のエラーの 76% が周囲のフィラー テキストと一致するのに対し、終了位置では 22% であり、主要なエラー モードとしてのフィラーと回答の干渉と一致しています。これらの結果は、現在の推論ベンチマーク設計とベンダー評価実践における構造的な評価のギャップを明らかにしています。タスクの位置が制御されていない場合、コンテキストの長さとともに増大する位置の脆弱性は測定できません。
原文 (English)
Positional Failures in Long-Context LLMs: A Blind Spot in Reasoning Benchmarks
Position-controlled evaluation is standard for retrieval tasks such as Needle-in-a-Haystack and RULER, but mainstream reasoning benchmarks do not control positional placement of target tasks in long contexts. We audit 11 long-context benchmarks and find none jointly controls task position, filler content, and context length for reasoning. An audit of four flagship long-context releases finds no main result-table entry for NIAH, RULER, or LongBench-family benchmarks, while agentic and coding benchmarks appear in main result-tables across all four. We propose Context Rot Evaluation (CRE), a controlled framework varying all three factors, and evaluate nine LLMs on GSM8K and ARC-Challenge across two rounds: an initial five-model set and four newer vendor releases. Models can drop sharply when the target task moves from end to middle, and the drop grows worse with context length for vulnerable models. MiMo-v2-Flash drops 88pp at 64K under with_solutions filler (middle accuracy 8%). Newer releases show smaller drops: at 64K, three of four stay within +/-6pp of end-position accuracy; MiMo-V2.5-Pro narrows the MiMo-v2-Flash 88pp drop to 32pp. Under questions_only_v2 filler, middle-position drops persist across all four (range -16pp to -56pp across 8K, 32K, 64K). At 8K, a diagnostic probe adding a target-task copy at the end brings middle accuracy within +/-4pp of end baseline across all nine models, consistent with a positional explanation. In the initial five-model set, 76% of middle-position errors match surrounding filler text versus 22% at the end position, consistent with filler-answer interference as a dominant error mode. These results expose a structural evaluation gap in current reasoning benchmark design and vendor evaluation practice: positional vulnerabilities that grow with context length cannot be measured when task position is not controlled.
ロングコンテキスト推論のための適応型マスセグメント化された KV 圧縮
Key-Value (KV) キャッシュの線形増加は、長い形式の LLM 推論における重大なボトルネックです。既存の KV 圧縮方法は、重要度スコアに基づいてトークンを排除することでこの問題を軽減します。ただし、グローバルな Top-k 選択への依存が領域ワイプアウト、つまり論理的一貫性を狂わせる連続した推論ブロックの厳しい排除を引き起こすことを示します。これに対処するために、私たちは、トークンレベルの競争から地域を意識したクォータ割り当てにパラダイムを移行するフレームワークである、Adaptive Mass-Segmented (AMS) KV Compression を提案します。 AMS は、アテンション マスの空間分布に基づいて KV キャッシュを適応的に分割し、構造的に重要な推論セグメントが保証されたメモリ クォータを確実に受け取るようにします。反復デコード中の安定性を確保するために、セグメント境界でのジッターを防ぐために EMA ベースの平滑化メカニズムが組み込まれています。重要なことは、AMS は既存のスコアラーとは直交するユニバーサルなプラグ アンド プレイ レイヤーであることです。 TOVA、Expected Attend、KeyDiff、R-KV、TriAttend などの代表的な手法にシームレスに統合できます。 AMS は、vLLM などの最新のページ化された KV サービス フレームワークともシステム互換性があり、追加の定常状態のアテンション オーバーヘッドを発生させることなく、効率的な収集と圧縮の KV 実行をサポートします。数学的推論 (MATH500、AIME、GSM8K)、コード補完、オープンドメイン QA、スパース検索などのさまざまなタスク スイートにわたる広範な実験により、AMS が構造の断片化を一貫して軽減し、モデルのパフォーマンスを向上させることが実証されました。
原文 (English)
Adaptive Mass-Segmented KV Compression for Long-Context Reasoning
The linear growth of the Key-Value (KV) cache is a critical bottleneck in long-form LLM inference. Existing KV compression methods mitigate this by evicting tokens based on importance scores. However, we show that their reliance on global Top-k selection triggers Region Wipe-out: the severe eviction of contiguous reasoning blocks that derails logical coherence. To address this, we propose Adaptive Mass-Segmented (AMS) KV Compression, a framework that shifts the paradigm from token-level competition to region-aware quota allocation. AMS adaptively partitions the KV cache based on the spatial distribution of attention mass, ensuring structurally vital reasoning segments receive guaranteed memory quotas. To ensure stability during iterative decoding, an EMA-based smoothing mechanism is incorporated to prevent jitter in segment boundaries. Crucially, AMS is a universal plug-and-play layer that is orthogonal to existing scorers. It can be seamlessly integrated into representative methods such as TOVA, Expected Attention, KeyDiff, R-KV and TriAttention. AMS is also system-compatible with modern paged-KV serving frameworks such as vLLM, supporting efficient gather-and-compact KV execution without introducing additional steady-state attention overhead. Extensive experiments across a diverse suite of tasks, including mathematical reasoning (MATH500, AIME, GSM8K), code completion, open-domain QA, and sparse retrieval, demonstrate that AMS consistently mitigates structural fragmentation and boosts model performance.
FastKernels: 本番環境での GPU カーネル生成のベンチマーク
GPU カーネル生成用の LLM ベースのエージェントは急速に進歩していますが、その進歩は最適化対象のベンチマークによって根本的に制約されています。既存のベンチマークは、運用推論フレームワークとの整合性が不十分です。合成入力を使用して単一の GPU でカーネルを評価し、周囲のコンパイル スタックを無視し、新しい最適化を発見するのではなく、既知の最適化を複製することに報酬を与えます。結果として得られる報酬シグナルは誤解を招くものです。エージェントは、サンドボックスでは高得点のカーネルを生成することを学習しますが、実際のシステムに統合すると、インターフェイスの非互換性、コンパイルスタックの競合、サイレント正確性の低下が発生します。 FastKernels は、8 カテゴリにまたがる 46 の代表的なアーキテクチャの最小限のセットを中心に構築されたカーネル ベンチマークであり、そのカーネルは、HuggingFace Transformers アーキテクチャの 96.2% (409/425) のカーネルを集合的に包含します。 FastKernels は、主流の LLM サービス上で vLLM や SGLang などの強化されたシステムと同等に動作し、十分にサービスが提供されていないアーキテクチャ上でのアップストリームのリファレンスを大幅に上回る、最小限の運用グレードの推論フレームワークとしても機能します。各タスクのインターフェイスは、そのアーキテクチャ ファミリの最先端のライブラリ内の対応するモジュールを反映しており、最適化されたカーネルを運用コードベースに直接デプロイすることができます。 FastKernels で最先端のカーネル エージェントを評価すると、最も強力なエージェントであっても実稼動ベースラインと比べて合計 0.94$\times$ の高速化しか達成できず、より弱いエージェントでは $0.78\times$ と $0.53\times$ であることがわかり、ベンチマークと実稼動の不一致がこの分野の重大なボトルネックであることが確認されました。私たちは、ベンチマークの向上が実稼働スループットの向上に直接つながるカーネル エージェントへの足がかりとして FastKernel をリリースします。コードは https://github.com/Snowflake-AI-Research/fastkernels で入手できます。
原文 (English)
FastKernels: Benchmarking GPU Kernel Generation in Production
LLM-based agents for GPU kernel generation are advancing rapidly, yet their progress is fundamentally constrained by the benchmarks they optimize against. Existing benchmarks are poorly aligned with production inference frameworks: they evaluate kernels on a single GPU with synthetic inputs, ignore the surrounding compilation stack, and reward replicating known optimizations rather than discovering new ones. The resulting reward signals are misleading: agents learn to generate kernels that score well in sandboxes but introduce interface incompatibilities, compilation-stack conflicts, and silent correctness degradation when integrated into real systems. We introduce FastKernels, a kernel benchmark built around a minimal set of 46 representative architectures spanning 8 categories, whose kernels collectively subsume those of 96.2% (409/425) of HuggingFace Transformers architectures. FastKernels doubles as a minimalistic, production-grade inference framework that runs at parity with hardened systems such as vLLM and SGLang on mainstream LLM serving and substantially exceeds upstream references on under-served architectures; each task's interface mirrors the corresponding module in the state-of-the-art library for its architecture family, enabling direct deployment of optimized kernels into production codebases. Evaluating state-of-the-art kernel agents on FastKernels, we find that even the strongest agent achieves only 0.94$\times$ aggregate speedup over production baselines, with weaker agents at $0.78\times$ and $0.53\times$ -- confirming that benchmark-production misalignment is a critical bottleneck for the field. We release FastKernels as a stepping stone toward kernel agents whose benchmark gains translate directly into production throughput improvements. Code is available at https://github.com/Snowflake-AI-Research/fastkernels
PaP-NF: Prefix-as-Prompt 再プログラミングおよびフローの正規化による確率的長期時系列予測
時系列予測は、現実世界の多くのアプリケーションで中心的な役割を果たしており、広範囲に研究されています。既存のアプローチのほとんどは決定論的モデルに依存しています。ただし、現実世界の環境は本質的に不確実で複雑な将来の動作を示すため、単一点の予測では不十分です。これは、不確実性を定量化して表現できる確率的予測手法の必要性を浮き彫りにしています。この研究では、Prefix-as-Prompt メカニズムを使用して、連続時系列表現を凍結された大規模言語モデル (LLM) と整合させ、LLM によって抽出されたグローバル コンテキストで正規化フロー デコーダーを条件付ける確率的予測フレームワークである PaP-NF を提案します。結果として得られる予測分布の品質は、確率的予測の標準指標である連続順位付け確率スコア (CRPS) を使用して評価されます。 PaP-NF は、さまざまな長期予測ベンチマークにわたって、競争力のあるポイント予測精度を維持しながら、マルチモーダルな不確実性を確実に捕捉します。公式実装は https://github.com/democracy04/PaP-NF から入手できます。
原文 (English)
PaP-NF: Probabilistic Long-Term Time Series Forecasting via Prefix-as-Prompt Reprogramming and Normalizing Flows
Time series forecasting plays a central role in many real-world applications and has been extensively studied. Most existing approaches rely on deterministic models. However, real-world environments exhibit inherently uncertain and complex future behaviors, making single-point predictions insufficient. This highlights the need for probabilistic forecasting methods that can quantify and represent uncertainty. In this work, we propose PaP-NF, a probabilistic forecasting framework that aligns continuous time series representations with a frozen large language model (LLM) using a Prefix-as-Prompt mechanism, and conditions a normalizing flow decoder on the global context extracted by the LLM. The quality of the resulting predictive distributions is evaluated using the Continuous Ranked Probability Score (CRPS), a standard metric in probabilistic forecasting. Across a variety of long-term forecasting benchmarks, PaP-NF robustly captures multi-modal uncertainty while maintaining competitive point forecasting accuracy. The official implementation is available at: https://github.com/democracy04/PaP-NF
Frontier LLM はサイバーセキュリティに対応する準備ができていますか?デュアルモード脆弱性ベンチマークによる垂直基盤モデルの証拠
当社は、フロンティア LLM がデュアルモード ベンチマークを通じてサイバーセキュリティに対応できるかどうかを評価します。ホワイトボックス機能レベルの脆弱性検出 (VulnLLM-R、C/Java/Python 全体) とブラックボックス Web アプリケーション セキュリティ テスト (20 以上の CWE ファミリにわたる 118 個のグラウンド トゥルース脆弱性を備えた 5 つの運用スタイルのアプリケーション。これらをオープンソース化します)。私たちは 6 つのフロンティア モデル (GPT-5.4、Codex~5.3、Claude Opus~4.6、Sonnet~4.6、Gemini~3.1~Pro、および Gemini~3~Flash) と 2 つのドメイン特化モデルを 4 つのテスト パラダイムにわたってテストします。私たちの発見は厳粛なものです。(1) ~すべてのフロンティア モデルは、ホワイトボックス検出で 10 ~ 50% の誤検知率を生成し、体系的に脆弱性を過剰予測します。 (2)〜ブラックボックス テストでは、フロンティア モデルはグラウンド トゥルース カバレッジをわずか 4 ~ 8% しか達成せず、外部セキュリティ ツール (Playwright MCP、Burp Suite MCP) を使用した場合でもわずか 10 ~ 19% に改善します。 (3) ドメイン特化型エージェントにエンコードされた構造化侵入テスト手法により、ファミリーごとの検出が 50% を超え、規模ではなく手法が主要な手段であることが実証されました。 (4) ドメインに特化した防御モデルは、単一 GPU 上ですべてのモデルの中で最高の精度 (0.904) と最低の誤検知率 (9.7%) を達成します。私たちは、構造化されたセキュリティ テストの欠如、エンドツーエンドの要求/応答シーケンス、障害の多いデータ、および複数ステップの攻撃チェーンのトレースが基本的なトレーニング データのボトルネックであることを特定し、データ生成戦略としてセルフプレイ セキュリティ テストを提案します。私たちの結果は、サイバーセキュリティ専用に構築された垂直基盤モデルの正当性を裏付けています。
原文 (English)
Are Frontier LLMs Ready for Cybersecurity? Evidence for Vertical Foundation Models from Dual-Mode Vulnerability Benchmarks
We evaluate whether frontier LLMs are ready for cybersecurity through a dual-mode benchmark: white-box function-level vulnerability detection (VulnLLM-R, across C/Java/Python) and black-box web application security testing (five production-style applications with 118 ground-truth vulnerabilities across 20+ CWE families, which we will open-source). We test six frontier models (GPT-5.4, Codex~5.3, Claude Opus~4.6, Sonnet~4.6, Gemini~3.1~Pro and Gemini~3~Flash) and two domain-specialized models across four testing paradigms. Our findings are sobering: (1)~every frontier model produces 10-50% false positive rates in white-box detection, systematically over-predicting vulnerabilities; (2)~in black-box testing, frontier models achieve only 4-8% ground-truth coverage, improving to just 10-19% even with external security tools (Playwright MCP, Burp Suite MCP); (3)~structured penetration-testing methodology encoded in domain-specialized agents raises per-family detection above 50%, demonstrating that methodology, not scale, is the primary lever; and (4)~a domain-specialized defense model achieves the highest precision (0.904) and lowest false positive rate (9.7%) among all models, on a single GPU. We identify the absence of structured security testing traces end-to-end request/response sequences, failure-heavy data, and multi-step attack chains as the fundamental training data bottleneck, and propose self-play security testing as a data generation strategy. Our results make the case for vertical foundation models purpose-built for cybersecurity.
報酬としてのメタ認知: 知識と規制信号による LLM 推論の強化
最近の RL 手法により、LLM の推論能力が大幅に向上しました。既存の報酬設計は、主に 2 つのパラダイムに従います。(1) 検証可能な報酬を伴う強化学習 (RLVR) は、実行可能なチェックまたはグラウンドトゥルースの回答から結果シグナルを導き出しますが、中間推論行動に対する限定的なガイダンスを提供します。 (2) 報酬としてのルーブリック (RaR) は、自然言語ルーブリックを使用して推論の品質とタスクの準拠性を評価することにより、最終的な回答のチェックを超えていますが、多くの場合、インスタンス固有のルーブリックと多大な設計労力が必要です。これらの問題に対処するために、我々は、メタ認知にインスピレーションを得た RL フレームワークである Metacognition-as-Reward (MaR) を導入します。これは、2 つの一般的なプロセス次元を通じて LLM 推論をガイドします。i) 手作りのインスタンス固有のルーブリックなしでタスク関連情報を識別するメタ認知知識、ii) 最終的な回答結果を超えた報酬ガイダンスを提供するために推論プロセスを計画および調整するメタ認知規制です。 MaR は、モデルの展開を明示的なメタ認知コンポーネントに足場を組み、タスクの知識範囲、規制の忠実度、最終的な回答の正しさに対する軌跡レベルの報酬でそれらを最適化します。このようにして、MaR は報酬シグナルを一般的なメタ認知次元に根付かせながら、報酬フィードバックを推論軌道に拡張します。 22 のベンチマークの実験では、MaR がモデルのパフォーマンスを一貫して向上させ、ベース モデルに対して最大 7.7% の向上、バニラ DAPO に対して最大 11.0% の向上を達成することが示されています。特に、Qwen3.5-9B + MaR はフロンティア モデルとの差を縮めており、全体平均で GPT-OSS-120B を上回り、いくつかの個別ベンチマークで強力なモデルを上回っています。さらに、プロセスレベルの分析では、推論プロセスの品質が大幅に向上していることがわかります。 MaR はドメイン外のデータセットにも一般化され、MaR でトレーニングされたモデルは、平均して対応するベース モデルよりも向上します。
原文 (English)
Metacognition as Reward: Reinforcing LLM Reasoning via Knowledge and Regulation Signals
Recent RL methods have substantially improved the reasoning abilities of LLMs. Existing reward designs mainly follow two paradigms: (1) Reinforcement learning with verifiable rewards (RLVR) derives outcome signals from executable checks or ground-truth answers, but provides limited guidance for intermediate reasoning behaviors. (2) Rubrics-as-reward (RaR) goes beyond final-answer checking by using natural-language rubrics to assess reasoning quality and task compliance, but often requires instance-specific rubrics and substantial design effort. To address these issues, we introduce Metacognition-as-Reward (MaR), a metacognition-inspired RL framework that guides LLM reasoning through two general process dimensions: i) metacognitive knowledge, which identifies task-relevant information without hand-crafted instance-specific rubrics, and ii) metacognitive regulation, which plans and adjusts the reasoning process to provide reward guidance beyond final-answer outcomes. MaR scaffolds model rollouts into explicit metacognitive components and optimizes them with a trajectory-level reward over task knowledge coverage, regulation fidelity, and final-answer correctness. In this way, MaR extends reward feedback to reasoning trajectories while grounding the reward signals in general metacognitive dimensions. Experiments on 22 benchmarks show that MaR consistently improves model performance, achieving up to a 7.7% gain over the base model and up to an 11.0% gain over vanilla DAPO. Notably, Qwen3.5-9B + MaR narrows the gap to frontier models, surpassing GPT-OSS-120B on overall average and outperforming stronger models on several individual benchmarks. Process-level analysis further shows substantial improvements in reasoning process quality. MaR also generalizes to out-of-domain datasets, where MaR-trained models improve over their corresponding base models on average.
CoSPlay: 自己生成コードと単体テストによるテスト時の協力的セルフプレイ
最近では、検証可能な報酬を伴う強化学習 (RLVR) とテスト時間スケーリング (TTS) により、実行可能ファイルの検証を通じて LLM コード生成が進歩しました。しかし、Ground-Truth Unit Test (GT UT) は依然としてボトルネックとなっています。SOTA RLVR メソッドでは費用のかかるトレーニングが必要ですが、既存の TTS メソッドは GT UT なしでは競争力を失います。これにより、既存のメソッドが自己生成された UT を直接使用してコード候補を絞り込み、選択する GT フリー TTS が推進されます。しかし、そのような UT にはノイズが多かったり、間違ったコードが誤って結合されていることが多く、信頼性の高いコードがなければ UT の品質を検証することはできません。したがって、重要な課題は、両方を共同で改善することです。この目的を達成するために、私たちは、協力的なセルフプレイを通じてコードと UT を共同で改善する GT フリー、トレーニング不要のフレームワークである CoSPlay を紹介します。まず、多様なソリューションのアイデアを検討し、それらの潜在的な故障モードを特定して、差別的な UT アイデアを生み出します。次に、Code-UT 実行マトリックスからの双方向のパス カウント信号を使用して、弱いコードを繰り返しプルーニングまたは修正し、信頼性の低い UT をリフレッシュまたは置換して、2 つのプールを共進化させます。最後に、複数のコードが最高のパス数で同点のままである場合、正しいコードは同じ入力で一致するが、間違ったコードは分岐するため、最大の出力コンセンサス クラスターから最終コードが選択されます。 4 つの困難なベンチマークの実験では、Qwen2.5-7B-Instruct の CoSPlay が平均 BoN を 22.1% から 33.2% に、UT 精度を 14.6% から 78.3% に改善し、RLVR モデル CURE-7B と同等またはそれを上回っていることが示されています。 CURE-7B に適用すると、BoN がさらに 5.7% 向上します。 CoSPlay はまた、多様なバックボーンにわたって汎用化し、同等のトークン予算の下で GT フリー TTS ベースラインを上回り、予算が拡大するにつれて継続的に利益を上げます。これらの結果は、GT データを使用せずに競合コードを生成するためのスケーラブルな推論戦略を示唆しています。
原文 (English)
CoSPlay: Cooperative Self-Play at Test-Time with Self-Generated Code and Unit Test
Recently, Reinforcement Learning with Verifiable Rewards (RLVR) and Test-Time Scaling (TTS) have advanced LLM code generation through executable verification. Yet Ground-Truth Unit Tests (GT UTs) remain a bottleneck: SOTA RLVR methods require them for costly training, while existing TTS methods lose competitiveness without them. This motivates GT-free TTS, where existing methods directly use self-generated UTs to refine and select code candidates. Yet such UTs are often noisy or spuriously coupled with wrong code, and UT quality in turn cannot be validated without reliable code. The key challenge is therefore to jointly improve both. To this end, we present CoSPlay, a GT-free, training-free framework that jointly improves codes and UTs through cooperative self-play. It first explores diverse solution ideas and identifies their potential failure modes to produce discriminative UT ideas. It then uses bidirectional pass-count signals from the Code-UT execution matrix to iteratively prune or fix weak codes and refresh or replace unreliable UTs, letting the two pools co-evolve. Finally, when multiple codes remain tied at the highest pass count, it picks the final code from the largest output-consensus cluster, since correct codes agree on the same inputs while wrong codes diverge. Experiments on four challenging benchmarks show that CoSPlay on Qwen2.5-7B-Instruct improves average BoN from 22.1% to 33.2% and UT accuracy from 14.6% to 78.3%, matching or surpassing the RLVR model CURE-7B. When applied to CURE-7B, it further improves BoN by 5.7%. CoSPlay also generalizes across diverse backbones and outperforms GT-free TTS baselines under comparable token budgets, with continued gains as the budget scales up. These results suggest a scalable inference strategy for competitive code generation without any GT data.
Precise: フローマッチングモデルの RL ポストトレーニング用の SDE に準拠した確率的サンプリング
強化学習(RL)は、拡散およびフローマッチングジェネレーターにおける即時調整と知覚品質を向上させる効果的な方法となっています。オンライン RL をフロー マッチングに適用するための重要な手順は、通常、逆時間の常微分方程式 (ODE) を確率微分方程式 (SDE) に置き換えることによって、決定論的なサンプリング軌跡を確率的ポリシーに変えることです。したがって、探索動作とノイズ除去ダイナミクスを制御する確率的サンプラーはポリシーの一部であり、その設計は報酬最適化のパフォーマンスに大きな影響を与える可能性があります。サンプラーの設計を、相互に依存する 2 つのコンポーネントに分割します。1 つは適切な量の確率的探索の選択、もう 1 つは RL で使用される小さなステップ数で結果として得られる SDE を忠実に離散化することです。最初の要素に対処するために、ノイズ除去における探査と安定性の間の固有の緊張を分析し、この 2 つのバランスをとる SDE スケジュールを導き出します。離散化の課題に目を向けると、おもちゃの例を使用して、過剰な離散化ノイズが導入されたり、データ分布への収束が保証されないヒューリスティック ルールに依存したりすることにより、既存のサンプラーがフロー マッチング プロセスから逸脱する可能性があることを示します。これらの問題に対処するために、効果的な探索と安定性のバランスをとった新しい確率的サンプラーである Precise を提案します。重要なことは、Precise は、クリーンな潜在事後平均を凍結する新しい近似によって、ノイズ除去軌跡の SDE の一貫性を維持し、標準サンプラーの過剰ノイズの問題を解決します。広範な実験により、この定式化が強化学習を通じて大幅に高速かつ安定した報酬の最適化につながり、従来のサンプラーの最高のドメイン内パフォーマンスに匹敵する実時間トレーニング時間を 13.1 ~ 53.2% 削減しながら、最先端のアライメント スコア (PickScore、HPSv2.1 など) を達成できることが実証されました。
原文 (English)
Precise: SDE-Consistent Stochastic Sampling for RL Post-Training of Flow-Matching Models
Reinforcement learning (RL) has become an effective way to improve prompt alignment and perceptual quality in diffusion and flow-matching generators. A critical step for applying online RL to flow matching is turning the deterministic sampling trajectory into a stochastic policy, typically by replacing the reverse-time Ordinary Differential Equation (ODE) with a Stochastic Differential Equation (SDE). The stochastic sampler, controlling the exploration behavior and denoising dynamics, is thus part of the policy, and its design can significantly affect the reward optimization performance. We break down the sampler design into two interdependent components: choosing the right amount of stochastic exploration, and discretizing the resulting SDE faithfully at the small step counts used in RL. To address the first component, we analyze the inherent tension between exploration and stability in denoising and derive an SDE schedule that balances the two. Turning to the discretization challenge, we use a toy example to show that existing samplers can deviate from the flow-matching process, either by introducing excessive discretization noise or by relying on heuristic rules that do not guarantee convergence to the data distribution. To address these issues, we propose Precise, a new stochastic sampler that balances effective exploration with stability. Crucially, Precise keeps the denoising trajectory SDE-consistent through a novel approximation that freezes the clean-latent posterior mean, resolving the excess noise issue in standard samplers. Extensive experiments demonstrate that this formulation leads to significantly faster and more stable reward optimization via reinforcement learning, achieving state-of-the-art alignment scores (e.g., PickScore, HPSv2.1) while requiring 13.1-53.2% less wall-clock training time to match the best in-domain performance of prior samplers.
CVSearch: 高解像度の画像認識のための認知視覚検索でマルチモーダル LLM を強化
高解像度 (HR) 画像認識は、マルチモーダル大規模言語モデル (MLLM) にとって重要なボトルネックとなります。視覚的な検索は有望なソリューションを提供しますが、既存の方法では対象範囲と効率のトレードオフに苦労しています。視覚的な専門家支援による検索は効率的ですが、提案が失敗した場合に盲点になりやすいのに対し、スキャンベースの検索では、計算の冗長性とセマンティックな断片化を犠牲にしてカバレッジを保証します。このジレンマに対処するために、評価してから検索するワークフローを通じて検索戦略を動的にスケジュールする、トレーニング不要の適応フレームワークである CVSearch を導入します。具体的には、CVSearch は、グローバル情報が不十分な場合に最初に専門家支援検索を呼び出し、失敗した場合にのみ新しいセマンティック認識スキャン メカニズムをトリガーします。厳格なグリッド分割とは異なり、この効率的なスキャン パラダイムには、セマンティック ガイド付き適応パッチングが組み込まれており、画像を意味的に一貫した領域に分解し、オブジェクトの断片化を効果的に軽減します。さらに、局所的な詳細の効率的かつ正確な反復探索を可能にする前に、視覚的な複雑さによって駆動される動的ボトムアップ検索戦略を考案します。 HR ベンチマークに関する広範な実験により、CVSearch が検索効率を大幅に向上させながら最先端の精度を達成することが実証されました。コードは https://github.com/liliupeng28/ICML26-CVSearch で公開されています。
原文 (English)
CVSearch: Empowering Multimodal LLMs with Cognitive Visual Search for High-Resolution Image Perception
High-resolution (HR) image perception presents a key bottleneck for multimodal large language models (MLLMs). While visual search offers a promising solution, existing methods struggle with the trade-off between coverage and efficiency. Visual expert-assisted search is efficient but prone to blind spots when proposals fail, whereas scan-based search guarantees coverage at the cost of computational redundancy and semantic fragmentation. To address this dilemma, we introduce CVSearch, a training-free adaptive framework that dynamically schedules search strategies via an Assess-then-Search workflow. Specifically, CVSearch first invokes expert-assisted search when global information is insufficient, and only triggers a novel semantic-aware scanning mechanism upon failure. Distinct from rigid grid partitioning, this efficient scanning paradigm incorporates Semantic Guided Adaptive Patching to decompose images into semantically consistent regions, effectively mitigating object fragmentation. Furthermore, we devise a Dynamic Bottom-Up Search strategy driven by a Visual Complexity prior to enable efficient and precise iterative exploration of local details. Extensive experiments on HR benchmarks demonstrate that CVSearch achieves state-of-the-art accuracy while substantially improving search efficiency. Code is released at https://github.com/liliupeng28/ICML26-CVSearch.
OnePred: マルチターン会話における再帰的インテント メモリによる次のクエリの予測
大規模言語モデル (LLM) 会話システムは、毎日何百万ものマルチターン対話を処理しますが、基本的には反応的なままであり、ユーザーがクエリを入力した後でのみ応答します。プロアクティブな対話に向けた重要なステップは、次のクエリの予測です。これは、前のダイアログのみに基づいてユーザーのその後のクエリを予測します。このタスクの進捗は、専用のベンチマークの欠如と基本的な効率性、つまり品質のトレードオフによって妨げられています。完全な対話履歴を単純に連結すると、トークンの消費が直線的に増加する一方、最新のターンに切り捨てると重要なクロスターンのコンテキストが破棄されます。私たちの重要な洞察は、正確な予測には生の履歴を再度読み取る必要がないということです。トピック、未解決のニーズ、興味の変化にわたってユーザーの進化する意図の軌跡を追跡するだけで十分です。我々は、唯一のクロスターンコンテキストとして再帰的に更新されるメモリを維持し、会話の長さに関係なくターンごとのコストを制限する OnePred を提案します。 2 段階の強化学習パイプラインを介してモデルをトレーニングします。このパイプラインでは、最初に何を予測するかを教え、次に何を圧縮するかを学習し、メモリを予測指向のインテント チェーンに形成します。厳密なテストベッドを確立するために、3 つの多様なサブセットにわたる NQP-Bench を導入します。実験では、OnePred が全履歴入力と比較してターンごとのトークン消費量を最大 22$\times$ 削減しながら、予測品質のすべてのベースラインを一貫して上回り、より長い会話でより大きな利益が得られることを実証しています。私たちのコードは https://github.com/ZBWpro/OnePred で公開されています。
原文 (English)
OnePred: Next-Query Prediction via Recursive Intent Memory in Multi-Turn Conversations
Although large language model (LLM) conversational systems process millions of multi-turn dialogues daily, they remain fundamentally reactive: they respond only after the user types a query. A key step toward proactive interaction is next-query prediction, which anticipates the user's subsequent query based solely on the preceding dialogue. Progress on this task is hindered by the lack of dedicated benchmarks and a fundamental efficiency--quality trade-off: naively concatenating full dialogue history incurs linearly growing token consumption, while truncating to the latest turn discards crucial cross-turn context. Our key insight is that accurate prediction does not require re-reading raw history; it suffices to track the user's evolving intent trajectory across topics, unresolved needs, and interest shifts. We propose OnePred, which maintains a recursively updated memory as its sole cross-turn context, bounding the per-turn cost independently of conversation length. We train the model via a two-stage reinforcement learning pipeline that first teaches what to predict, then what to compress, shaping the memory into a prediction-oriented intent chain. To establish a rigorous testbed, we introduce NQP-Bench, spanning three diverse subsets. Experiments demonstrate that OnePred reduces per-turn token consumption by up to 22$\times$ compared to full-history inputs while consistently exceeding all baselines in prediction quality, with larger gains on longer conversations. Our code is publicly available at https://github.com/ZBWpro/OnePred.
問題はデータではなく人間です: LLM の地政学的バイアスはトレーニング後に発生し、プロンプトの言語によって増幅されます
一般に、言語モデルにおける地政学的な偏りは、事前トレーニング段階で使用されたトレーニング データに由来すると考えられてきました。私たちは、7 つのラボからのベース モデル (トレーニング前のみ) とチャット モデル (トレーニング前およびトレーニング後) で構成される 7 つのオープンウェイト LLM ペアを、英語、フランス語、中国語の 28 か国ペアにわたるペア シナリオ強制選択プローブでテストしました。その結果、地政学的なバイアスがトレーニング前ではなくトレーニング後に発生していることがわかりました。 7 つの AI ラボのうち、6 つでは、トレーニング後にモデル開発者の国または地域に関連する方向への変化が見られました。この変化はアリババの Qwen 2.5 で最も強くなります。ベースは中国好感度に関しては中立 (-0.15 対数オッズ、p=0.15) ですが、トレーニング後のチャットのバリアントは +2.91 (p<10^-4) で、オッズが 18 倍変化しています。また、すべてのモデルにおいて、他国に対する偏見の変化も観察されています。さらに、このシフトの大きさは、モデルのプロンプトに使用される言語によって異なります。フランス製のミストラルは、フランス語のプロンプトの下でのみ親フランスになります (FR-EN シフト +1.91、p<10^-4)。これらの発見は、言語モデルにおける地政学的選好が単に大規模なインターネット データから継承されるだけでなく、トレーニング後のトレーニング中に積極的に形成されることを示唆しており、モデルが国家、文化、政治的観点をどのように表現するかに影響を与える調整プロセスの透明性の向上、監査、監視の必要性を浮き彫りにしています。
原文 (English)
It's the humans, not the data: Geopolitical bias in LLMs originates in post-training, amplified by the language of the prompt
It has generally been assumed that geopolitical bias in language models originates from the training data used during the pre-training phase. We tested seven open-weight LLM pairs consisting of the base model (pre-training only) and the chat model (pre-training and post-training) from seven labs on a paired-scenario forced-choice probe over 28 country pairs in English, French, and Chinese, and found that geopolitical bias originates in post-training rather than in pre-training. Across seven AI labs, six showed shifts in the direction associated with the country or region of the model developer after post-training. This shift is strongest in Alibaba's Qwen 2.5: while the base is neutral on China-favourability (-0.15 log-odds, p=0.15), the post-trained chat variant is at +2.91 (p<10^-4), an 18x shift in odds. We also observe shifts in biases toward other countries across all models. Additionally, the magnitude of this shift depends on the language used to prompt the model: the French-made Mistral becomes pro-France only under French prompting (FR-EN shift +1.91, p<10^-4). These findings suggest that geopolitical preferences in language models are not simply inherited from large-scale internet data but are actively shaped during post-training, highlighting the need for greater transparency, auditing, and oversight of alignment processes that influence how models represent nations, cultures, and political perspectives.
説得力のある物語的な LLM 説明による人間の意思決定
大規模言語モデル (LLM) は、かなり正確な予測を提供するだけでなく、それらの予測について説得力のある説明を生成する能力によって、分類タスクにおける人間の意思決定を支援および改善する可能性を秘めています。これまでの研究では、人々は一般に、AI の物語による説明が理解しやすく、信頼でき、信念や意見を変えるのに説得力があると感じていることが実証されています。しかし、物語による説明が人間の客観的な意思決定のパフォーマンスに及ぼす影響についてはあまり知られていません。ここでは、LLM が生成したさまざまな説得力の説明による意思決定パフォーマンスを評価するために、大規模な人間の行動実験を実施します。 LLM ベースの説明の説得力の程度、または説得力の欠如は、単純な AI 予測だけでは意思決定の精度に有意な影響を及ぼさないことがわかりました。これは、特徴の重要性に基づいた説明可能な AI の典型的な結果と一致しています。私たちは、AI の予測が正しい場合と間違っている場合の両方で、物語が AI への依存度を高めるという証拠を発見しました。探索的分析では、より説得力のあるナラティブが、意思決定の応答時間や、AI の予測が正しいか間違っているかを区別する能力に悪影響を及ぼした可能性があることも示しています。全体として、この研究は、AI 予測に物語の説明を含めることは意思決定のパフォーマンスとのトレードオフを伴う可能性があり、物語の説明がいつどのように人間の意思決定に影響を与えるかを判断するにはさらなる研究が必要であることを示しています。
原文 (English)
Human Decision-Making with Persuasive and Narrative LLM Explanations
Large language models (LLMs) have the potential to aid and improve human decision-making in classification tasks, not only by providing fairly accurate predictions, but also in their ability to generate cogent narrative explanations of those predictions. Prior work has demonstrated that people generally find AI narrative explanations to be understandable, trustworthy, and convincing for changing beliefs and opinions; however, less is known about the impact of narrative explanations on objective human decision-making performance. Here we conduct a large-scale human behavioral experiment to evaluate decision-making performance with LLM-generated narrative explanations of varying persuasiveness. We found the degree of persuasiveness, or lack thereof, for LLM-based explanations did not meaningfully impact decision accuracy over a simple AI prediction alone, in agreement with typical results with explainable AI based on feature importance. We found evidence that narratives increased reliance on AI, but both when the AI prediction was correct and incorrect. Exploratory analyses also indicated that the more persuasive narratives may have had a detrimental effect on decision response times and the ability to discriminate between a correct and incorrect AI prediction. Overall, this work indicates that including narrative explanations with AI predictions may involve tradeoffs for decision-making performance, and more work is needed to determine how and when narrative explanations impact human decision-making.
PGT: MLLM の視覚的根拠を改善するための手続き的に生成されたタスク
マルチモーダル大規模言語モデル (MLLM) は目覚ましい進歩を遂げていますが、これらのモデルは依然としてきめ細かい理解タスクに苦労しています。この研究では、きめ細かい視覚的理解を誘導することと、知覚障害の原因を特定するための低コストの診断ツールとして機能するという 2 つの目的を果たすシンプルなデータ駆動型フレームワークである、手続き的に生成されたタスク (PGT) を提案します。画像上に明確な幾何学的プリミティブをオーバーレイすることにより、PGT は視覚的な基礎付け能力を意味論的な事前定義から解きほぐす追加の緻密な監視を生成します。リレーショナル、定量的、3D/深度理解ベンチマークに関する広範な実験により、PGT がさまざまなアーキテクチャにわたって顕著な向上をもたらすことが示されています。 PGT データで強化された LLaVA-v1.5-Instruct 上の命令チューニング MLLM により、一般的な認識機能を維持しながら、What'sUp ベンチマークで最大 +20%、CV-Bench-2D で +13.3% の改善が得られます。さらに、PGT データで最先端の MLLM を微調整することにより、What'sUp で最大 +5.5%、CV-Bench-2D で +8.3% の向上が得られます。これらの発見は、PGT がきめの細かい知覚のボトルネックに効果的に対処していることを示しており、空間推論の欠陥の多くが、固有のアーキテクチャや解像度の制限ではなく、不適切な監視信号に起因していることが明らかになりました。
原文 (English)
PGT: Procedurally Generated Tasks for improving visual grounding in MLLMs
Despite remarkable progress in Multimodal Large Language Models (MLLMs), these models still struggle with fine-grained understanding tasks. In this work, we propose Procedurally Generated Tasks (PGT), a simple data-driven framework that serves a dual purpose: inducing fine-grained visual understanding and acting as a low-cost diagnostic tool to identify the source of perception failures. By overlaying unambiguous geometric primitives on images, PGT generate additional dense supervision that disentangles visual grounding capability from semantic priors. Extensive experiments on relational, quantitative, and 3D/depth understanding benchmarks show that PGT yields remarkable gains across diverse architectures. Instruction tuning MLLMs on LLaVA-v1.5-Instruct augmented with PGT data results in improvements of up to +20% on the What'sUp benchmark and +13.3% on CV-Bench-2D, while maintaining general perception capabilities. Moreover, finetuning state-of-the-art MLLMs on PGT data leads to boosts of up to +5.5% on What'sUp and +8.3% on CV-Bench-2D. These findings demonstrate that PGT effectively address the bottleneck of fine-grained perception, revealing that many spatial reasoning deficits stem from inadequate supervision signals rather than inherent architectural or resolution limitations.
ノイズの多いチャネルとしての LLM: モデルの容量とスケーリングの法則に関するシャノンの視点
大規模言語モデル (LLM) の既存のスケーリング則、主に単調べき乗則では、計算量の増加にも関わらずパフォーマンスが低下する、壊滅的なオーバートレーニングや量子化による劣化などの新たな非単調現象を説明できません。私たちは、シャノン・ハートレー定理に基づいた、ノイズの多いチャネルを介した情報送信として LLM トレーニングをモデル化する統一理論的枠組みであるシャノン スケーリング則を提案します。モデルパラメータをチャネル帯域幅にマッピングし、トレーニングトークンを信号パワーにマッピングすることにより、私たちの定式化は学習信号と固有ノイズの間の相互作用を明示的に捕捉します。この観点からは、LLM の基本的なシャノンの能力が明らかになります。十分な信号対雑音比 (SNR) を維持せずにモデル サイズまたはデータをスケーリングすると、必然的にノイズが増幅され、単調な改善から U 字型のパフォーマンス低下への移行が引き起こされます。私たちは、ガウス ノイズ、量子化、数学、QA、コード タスクの教師あり微調整などの摂動下での Pythia と OLMo2 の実験を通じて理論を検証します。シャノンのスケーリング則は、古典的なスケーリング則や最近の摂動を意識した則よりも常に優れており、強力な $R^2$ スコアを達成し、以前のアプローチでは見逃していた損失領域を正確に捕捉します。また、次の外挿も行います。$\leq$180B トークンを使用して $\leq$6.9B の Pythia モデルに当てはめると、プールされた $R^2{=}0.847$ で最大 307B トークンまでの目に見えない 12B モデルを予測しますが、単調なベースラインは崩れます。
原文 (English)
LLMs as Noisy Channels: A Shannon Perspective on Model Capacity and Scaling Laws
Existing scaling laws for Large Language Models (LLMs), predominantly monotonic power laws, fail to explain emerging non-monotonic phenomena such as catastrophic overtraining and quantization-induced degradation, where performance deteriorates despite increased compute. We propose the Shannon Scaling Law, a unified theoretical framework that models LLM training as information transmission over a noisy channel, grounded in the Shannon-Hartley theorem. By mapping model parameters to channel bandwidth and training tokens to signal power, our formulation explicitly captures the interaction between learning signal and intrinsic noise. This perspective reveals a fundamental Shannon capacity for LLMs: scaling model size or data without preserving a sufficient signal-to-noise ratio (SNR) inevitably amplifies noise, inducing a transition from monotonic improvement to U-shaped performance degradation. We validate our theory through experiments on Pythia and OLMo2 under perturbations, including Gaussian noise, quantization and supervised fine-tuning on math, QA and code tasks. The Shannon Scaling Law consistently outperforms classical scaling laws and recent perturbation-aware laws, achieving strong $R^2$ scores and accurately capturing loss basins missed by prior approaches. It also extrapolates: fitted on $\leq$6.9B Pythia models with $\leq$180B tokens, it predicts the unseen 12B model up to 307B tokens at pooled $R^2{=}0.847$, while monotonic baselines collapse.
FATHOMS-RAG: 検索拡張生成を使用するマルチモーダル システムにおける思考と観察の評価のためのフレームワーク
検索拡張生成 (RAG) は、大規模言語モデル (LLM) における事実の精度を向上させるための有望なパラダイムとして浮上しています。 RAG パイプラインを全体として評価するように設計されたベンチマークを導入し、情報の取り込み、取得、およびいくつかのモダリティについて推論するパイプラインの能力を評価し、取得などの特定の側面に焦点を当てた既存のベンチマークと区別します。我々は、(1) 1 つ以上のドキュメント内のテキスト データ、表、画像、およびこれらのモダリティ全体に広がるデータを取り込むパイプラインの能力を評価するために設計された、人間が作成した 93 の質問からなる小規模なデータセットを提示します。 (2) フレーズレベルの正確性の再現基準。 (3) 潜在的なパイプライン幻覚を識別するための最近傍埋め込み分類器。 (4) オープンソースの取得メカニズムで構築された 2 つのパイプラインと 4 つのクローズドソース基盤モデルの比較評価。 (5) 私たちの正しさと幻覚の指標の整合性に関する第三者による人間による評価。クローズドソースのパイプラインは、正しさと幻覚の両方の指標においてオープンソースのパイプラインよりも大幅に優れており、マルチモーダルな文書間情報に依存する質問ではパフォーマンスの差がさらに大きいことがわかりました。私たちの指標に対する人による評価では、1 ~ 5 リッカート スケール (5 は「非常に一致」を示す) で、正しさについては 4.62、幻覚検出については 4.53 の平均一致が示されました。
原文 (English)
FATHOMS-RAG: A Framework for the Assessment of Thinking and Observation in Multimodal Systems that use Retrieval Augmented Generation
Retrieval-augmented generation (RAG) has emerged as a promising paradigm for improving factual accuracy in large language models (LLMs). We introduce a benchmark designed to evaluate RAG pipelines as a whole, evaluating a pipeline's ability to ingest, retrieve, and reason about several modalities of information, differentiating it from existing benchmarks that focus on particular aspects such as retrieval. We present (1) a small, human-created dataset of 93 questions designed to evaluate a pipeline's ability to ingest textual data, tables, images, and data spread across these modalities in one or more documents; (2) a phrase-level recall metric for correctness; (3) a nearest-neighbor embedding classifier to identify potential pipeline hallucinations; (4) a comparative evaluation of 2 pipelines built with open-source retrieval mechanisms and 4 closed-source foundation models; and (5) a third-party human evaluation of the alignment of our correctness and hallucination metrics. We find that closed-source pipelines significantly outperform open-source pipelines in both correctness and hallucination metrics, with wider performance gaps in questions relying on multimodal and cross-document information. Human evaluation of our metrics showed average agreement of 4.62 for correctness and 4.53 for hallucination detection on a 1-5 Likert scale (5 indicating "strongly agree").
プロットにおける既視感: ライブ ストリーミングのリスク評価に検索拡張 LLM を使用したクロスセッション証拠の活用
ライブ ストリーミングの台頭により、オンライン インタラクションが変化し、大規模なリアルタイム エンゲージメントが可能になりましたが、プラットフォームは詐欺や組織的な悪意のある動作などの複雑なリスクにもさらされています。有害なアクションは徐々に蓄積され、一見無関係に見えるストリーム間で再発することが多いため、これらのリスクを検出することは困難です。これに対処するために、ライブ ストリーミング リスク評価のための CS-VAR (Cross-Session Evidence-Aware Retrieval-Augmented Detector) を提案します。 CS-VAR では、軽量のドメイン固有モデルがセッション レベルのリスク推論を高速に実行します。これはトレーニング中に大規模言語モデル (LLM) によってガイドされ、取得されたセッション間の行動証拠を推論し、ローカルからグローバルへの洞察を小規模モデルに転送します。この設計により、小規模モデルはストリーム全体で繰り返し発生するパターンを認識し、構造化されたリスク評価を実行し、リアルタイム展開の効率を維持できます。大規模な産業データセットに対する広範なオフライン実験とオンライン検証を組み合わせて、CS-VAR の最先端のパフォーマンスを実証します。さらに、CS-VAR は、ライブ ストリーミングの現実世界のモデレーションを効果的に強化する、解釈可能なローカライズされた信号を提供します。
原文 (English)
Deja Vu in Plots: Leveraging Cross-Session Evidence with Retrieval-Augmented LLMs for Live Streaming Risk Assessment
The rise of live streaming has transformed online interaction, enabling massive real-time engagement but also exposing platforms to complex risks such as scams and coordinated malicious behaviors. Detecting these risks is challenging because harmful actions often accumulate gradually and recur across seemingly unrelated streams. To address this, we propose CS-VAR (Cross-Session Evidence-Aware Retrieval-Augmented Detector) for live streaming risk assessment. In CS-VAR, a lightweight, domain-specific model performs fast session-level risk inference, guided during training by a Large Language Model (LLM) that reasons over retrieved cross-session behavioral evidence and transfers its local-to-global insights to the small model. This design enables the small model to recognize recurring patterns across streams, perform structured risk assessment, and maintain efficiency for real-time deployment. Extensive offline experiments on large-scale industrial datasets, combined with online validation, demonstrate the state-of-the-art performance of CS-VAR. Furthermore, CS-VAR provides interpretable, localized signals that effectively empower real-world moderation for live streaming.
TCAP: MLLM 微調整における教師なしバックドア検出のための 3 コンポーネント アテンション プロファイリング
Fine-Tuning-as-a-Service (FTaaS) は、マルチモーダル大規模言語モデル (MLLM) のカスタマイズを容易にしますが、汚染されたデータによる重大なバックドア リスクをもたらします。既存の防御は、監視された信号に依存しているか、さまざまなトリガーの種類や様式にわたって一般化できていません。この研究では、トリガーの形態に関係なく、ポイズニングされたサンプルが 3 つの機能コンポーネント (システム命令、ビジョン入力、およびユーザーのテキスト クエリ) 全体にわたるバランスの取れた注意配分を混乱させる、普遍的なバックドア フィンガープリントと注意の配分の相違を明らかにします。この洞察に基づいて、私たちはバックドア サンプルをフィルタリングするための教師なし防御フレームワークである Tri-Component Attendant Profiling (TCAP) を提案します。 TCAP は、クロスモーダル アテンション マップを 3 つのコンポーネントに分解し、ガウス混合モデル (GMM) 統計プロファイリングを通じてトリガーに反応するアテンション ヘッドを特定し、EM ベースの投票集計を通じて汚染されたサンプルを分離します。多様な MLLM アーキテクチャと攻撃手法にわたる広範な実験により、TCAP が一貫して強力なパフォーマンスを達成し、MLLM における堅牢で実用的なバックドア防御として確立されることが実証されました。
原文 (English)
TCAP: Tri-Component Attention Profiling for Unsupervised Backdoor Detection in MLLM Fine-Tuning
Fine-Tuning-as-a-Service (FTaaS) facilitates the customization of Multimodal Large Language Models (MLLMs) but introduces critical backdoor risks via poisoned data. Existing defenses either rely on supervised signals or fail to generalize across diverse trigger types and modalities. In this work, we uncover a universal backdoor fingerprint-attention allocation divergence-where poisoned samples disrupt the balanced attention distribution across three functional components: system instructions, vision inputs, and user textual queries, regardless of trigger morphology. Motivated by this insight, we propose Tri-Component Attention Profiling (TCAP), an unsupervised defense framework to filter backdoor samples. TCAP decomposes cross-modal attention maps into the three components, identifies trigger-responsive attention heads via Gaussian Mixture Model (GMM) statistical profiling, and isolates poisoned samples through EM-based vote aggregation. Extensive experiments across diverse MLLM architectures and attack methods demonstrate that TCAP achieves consistently strong performance, establishing it as a robust and practical backdoor defense in MLLMs.
構造に基づいた LLM 推論のためのスケーリング対応アダプター
大規模言語モデル (LLM) により、2D および 3D 構造に対する推論が可能になりつつありますが、既存の手法は引き続きモダリティ固有であり、通常はシーケンスベースのトークン化または固定長クエリ コネクタを通じて構造入力を圧縮します。このようなアーキテクチャは、構造的幻覚を軽減するための幾何学的接地要件を省略するか、または構造トークンの過剰圧縮と次善の割り当てを同時に行う柔軟性のないモダリティ融合ボトルネックを課し、それによって一般化された全原子推論の実現を妨げます。構造的な複雑さでモダリティ トークンをスケーリングしながら、幾何学的手がかりに言語推論を基礎付ける統合マルチモーダル LLM である Cuttlefish を紹介します。まず、スケーリングアウェア パッチングは、命令条件付きゲート メカニズムを利用して構造グラフ上に可変サイズのパッチを生成し、構造の複雑さに応じてクエリ トークン バジェットを適応的にスケーリングして、固定長コネクタのボトルネックを軽減します。次に、ジオメトリ グラウンディング アダプターは、モダリティの埋め込みへのクロスアテンションを介してこれらの適応トークンを改良し、結果として得られるモダリティ トークンを LLM に注入し、構造的幻覚を軽減するために明示的な幾何学的な手がかりを公開します。学際的な全原子ベンチマークにわたる実験により、Cuttlefish が異種構造に基づく推論において優れたパフォーマンスを達成することが実証されました。コード: github.com/zihao-jing/Cuttlefish。
原文 (English)
Scaling-Aware Adapter for Structure-Grounded LLM Reasoning
Large language models (LLMs) are enabling reasoning over 2D and 3D structures, yet existing methods remain modality-specific and typically compress structural inputs through sequence-based tokenization or fixed-length query connectors. Such architectures either omit the geometric grounding requisite for mitigating structural hallucinations, or impose inflexible modality fusion bottlenecks that concurrently over-compress and suboptimally allocate structural tokens, thereby impeding the realization of generalized all-atom reasoning. We introduce Cuttlefish, a unified multimodal LLM that grounds language reasoning in geometric cues while scaling modality tokens with structural complexity. First, Scaling-Aware Patching leverages an instruction-conditioned gating mechanism to generate variable-size patches over structural graphs, adaptively scaling the query token budget with structural complexity to mitigate fixed-length connector bottlenecks. Second, Geometry Grounding Adapter refines these adaptive tokens via cross-attention to modality embeddings and injects the resulting modality tokens into the LLM, exposing explicit geometric cues to reduce structural hallucination. Experiments across interdisciplinary all-atom benchmarks demonstrate that Cuttlefish achieves superior performance in heterogeneous structure-grounded reasoning. Code: github.com/zihao-jing/Cuttlefish.
ALIVE: 敵対的な学習と有益な口頭評価による LLM 推論の覚醒
大規模言語モデル (LLM) における専門家レベルの推論の探求は、永続的な \textit{報酬のボトルネック} によって妨げられてきました。従来の強化学習 (RL) は、拡張に \textbf{コストがかかる}、ドメイン間で \textbf{脆弱}であり、解決策の基礎となるロジックに対して \textbf{盲目}なスカラー報酬に依存しています。この外部の貧弱な信号への依存は、モデルが推論原理を深く自己完結的に理解することを妨げます。 \textbf{ALIVE} (\emph{指示的言語評価による敵対的学習}) を紹介します。これは、スカラー報酬の最適化を超えて、本質的な推論の獲得に向けたハンズフリー調整フレームワークです。 \emph{認知相乗効果} の原理に基づいた ALIVE は、問題の提起、解決、判断を単一のポリシー モデル内で統合し、正しさのロジックを内面化します。 ALIVE は、敵対的な学習と指導的な口頭フィードバックを組み合わせることで、モデルが生のコーパスから評価基準を直接内部に取り込むことを可能にし、外部の批評を内生的な推論能力に効果的に変換します。数学的推論、コード生成、および一般的な論理推論ベンチマークにわたる経験的評価により、ALIVE が報酬シグナルの制限を一貫して緩和していることが実証されています。同一のデータとコンピューティングを使用して、精度の向上、クロスドメインの汎化の大幅な改善、およびより高い自己修正率を実現します。これらの結果は、推論の三位一体が能力の成長の自立的な軌道を促進し、ALIVE を人間による監視なしの汎用推論調整のためのスケーラブルな基盤として位置づけていることを示しています。
原文 (English)
ALIVE: Awakening LLM Reasoning via Adversarial Learning and Instructive Verbal Evaluation
The quest for expert-level reasoning in Large Language Models (LLMs) has been hampered by a persistent \textit{reward bottleneck}: traditional reinforcement learning (RL) relies on scalar rewards that are \textbf{costly} to scale, \textbf{brittle} across domains, and \textbf{blind} to the underlying logic of a solution. This reliance on external, impoverished signals prevents models from developing a deep, self-contained understanding of reasoning principles. We introduce \textbf{ALIVE} (\emph{Adversarial Learning with Instructive Verbal Evaluation}), a hands-free alignment framework that moves beyond scalar reward optimization toward intrinsic reasoning acquisition. Grounded in the principle of \emph{Cognitive Synergy}, ALIVE unifies problem posing, solving, and judging within a single policy model to internalize the logic of correctness. By coupling adversarial learning with instructive verbal feedback, ALIVE enables models to internalize evaluative criteria directly from raw corpora, effectively transforming external critiques into an endogenous reasoning faculty. Empirical evaluations across mathematical reasoning, code generation, and general logical inference benchmarks demonstrate that ALIVE consistently mitigates reward signal limitations. With identical data and compute, it achieves accuracy gains, markedly improved cross-domain generalization, and higher self-correction rates. These results indicate that the reasoning trinity fosters a self-sustaining trajectory of capability growth, positioning ALIVE as a scalable foundation for general-purpose reasoning alignment without human-in-the-loop supervision.
LLM 推論トレースから検索ツリーを抽出すると、近視眼的な計画が明らかになる
大規模言語モデル (LLM)、特に推論モデルは、将来の結果についての明示的な熟慮を含む拡張思考連鎖 (CoT) 推論を生成します。しかし、この検討が真の計画を構成するのか、それがどのように構成され、そのどのような側面がパフォーマンスを促進するのかについては、依然として十分に理解されていません。この研究では、4 連続ボード ゲームの推論トレースから探索ツリーを抽出して定量化することにより、LLM 計画を特徴付ける新しい方法を導入します。抽出された検索ツリーに計算モデルを当てはめることにより、計画がどのように構造化され、それが移動の決定にどのように影響するかを特徴づけます。 LLM の検索は人間よりも浅く、パフォーマンスは深さではなく検索の幅によって予測されることがわかりました。最も驚くべきことに、LLM はトレース内の深いノードを拡張しますが、その移動の選択は、それらのノードを完全に無視する近視眼的なモデルによって最もよく説明されます。 CoT 段落を選択的に枝刈りする因果介入研究では、移動の選択が主に深いノードではなく浅いノードによって行われることがさらに示唆されています。これらのパターンは、主に詳細な検索によってパフォーマンスが左右される人間による計画とは対照的です。私たちの調査結果を総合すると、LLM と人間による計画の重要な違いが明らかになります。人間の専門知識はより深い検索によって駆動されるのに対し、LLM は深い先読みに基づいて動作しません。この分離は、LLM と人間の計画を調整するための的を絞ったガイダンスを提供します。より広範には、私たちのフレームワークは、戦略的ドメイン全体にわたる LLM 計画の構造を解釈するための一般化可能なアプローチを提供します。
原文 (English)
Extracting Search Trees from LLM Reasoning Traces Reveals Myopic Planning
Large language models (LLMs), especially reasoning models, generate extended chain-of-thought (CoT) reasoning that often contains explicit deliberation over future outcomes. Yet whether this deliberation constitutes genuine planning, how it is structured, and what aspects of it drive performance remain poorly understood. In this work, we introduce a new method to characterize LLM planning by extracting and quantifying search trees from reasoning traces in the four-in-a-row board game. By fitting computational models on the extracted search trees, we characterize how plans are structured and how they influence move decisions. We find that LLMs' search is shallower than humans', and that performance is predicted by search breadth rather than depth. Most strikingly, although LLMs expand deep nodes in their traces, their move choices are best explained by a myopic model that ignores those nodes entirely. A causal intervention study where we selectively prune CoT paragraphs further suggests that move selection is driven predominantly by shallow rather than deep nodes. These patterns contrast with human planning, where performance is driven primarily by deep search. Together, our findings reveal a key difference between LLM and human planning: while human expertise is driven by deeper search, LLMs do not act on deep lookahead. This dissociation offers targeted guidance for aligning LLM and human planning. More broadly, our framework provides a generalizable approach for interpreting the structure of LLM planning across strategic domains.
能力は責任ですか?より有能な言語モデルが最も重要なときに悪い予測を行う
私たちは、根底にある時系列が超線形成長と政権交代のテールリスク(金融と疫学で一般的な構造)を示す問題の予測に関するLLMの逆スケーリングを文書化します。これらのタスクでは、より有能なモデルほど、より悪い分布予測を生成します。このパターンは、一致した線形制御を使用して合成 SIR 流行を予測する際に、当社がリリースする汚染のないシミュレートされた世界のベンチマークである ForecastBench-Sim (FBSim) に表示され、新型コロナウイルス感染症、麻疹、住宅市場、ハイパーインフレに関する現実世界のデータセットでも再現されます。分位ごとの分解は、失敗が上部の裾に集中していることを示しています。より有能なモデルは成長の積極的な外挿を追跡するために上方にシフトしますが、下部の裾はそのままです。 Llama-3.1 のファミリー内研究では、モデルの規模とトレーニング後の両方が独立してこの効果に寄与していることが示されています。専門分野の知識は校正を確実に解決するものではありません。この逆スケーリングは、LLM 予測ベンチマークで一般的な単一しきい値メトリクスには現れず、同一の出力における能力と精度の関係の符号が逆転します。従来のカットオフでの単一しきい値スコアリングでは、アッパーテールコストを見逃します。末尾を含むスコアリングでは、同じ出力に対する能力と精度の関係の符号が逆転します。 LLM 予測評価では、境界のあるバイナリしきい値メトリクスと並行して、継続的な (および境界のない) 精度の測定を使用することをお勧めします。
原文 (English)
Is Capability a Liability? More Capable Language Models Make Worse Forecasts When It Matters Most
We document inverse scaling in LLMs on forecasting problems whose underlying time series exhibit superlinear growth and tail risk of regime change, a structure common in finance and epidemiology. On these tasks, more capable models produce worse distributional forecasts. The pattern appears on ForecastBench-Sim (FBSim), a contamination-free, simulated-world benchmark we release, in forecasting synthetic SIR epidemics with a matched linear control, and replicates in real-world datasets on COVID-19, measles, housing markets, and hyperinflation. A per-quantile decomposition shows the failure concentrates at the upper tail, which more capable models shift upward to track aggressive extrapolations of growth, while the lower tail stays put. A within-family study of Llama-3.1 shows that both model scale and post-training independently contribute to this effect. Domain knowledge does not reliably rescue calibration. This inverse scaling does not appear on single-threshold metrics common in LLM forecasting benchmarks, reversing the sign of the capability--accuracy relationship on identical outputs. Single-threshold scoring at conventional cutoffs misses the upper-tail cost; tail-inclusive scoring reverses the sign of the capability--accuracy relationship on the same outputs. We recommend that LLM forecasting evaluations use continuous (and unbounded) measures of accuracy alongside bounded binary threshold metrics.
場所: 大きなグラフでの属性付きコミュニティ検索の迅速な学習
この論文では、ACS のための革新的なグラフ プロンプト学習フレームワークである PLACE (Prompt Learning for Attributed Community Search) を提案します。 PLACE は、学習可能なプロンプト トークンを挿入して NLP クエリをコンテキスト化する自然言語処理 (NLP) のプロンプト チューニングを活用して、構造的で学習可能なプロンプト トークンをクエリ依存の絞り込みメカニズムとしてグラフに統合し、プロンプト拡張グラフを形成します。このプロンプト拡張グラフ構造内では、学習されたプロンプト トークンがクエリのグラフ ノード間の接続を強化するブリッジとして機能し、GNN が特定のクエリに関連する構造的凝集性と属性の類似性のパターンをより効果的に識別できるようになります。交互トレーニング パラダイムを採用して、プロンプト パラメーターと GNN の両方を共同で最適化します。さらに、分割統治戦略を設計してスケーラビリティを強化し、数百万規模のグラフを処理するモデルをサポートします。 9 つの実際のグラフに関する広範な実験により、3 種類の ACS クエリに対する PLACE の有効性が実証され、PLACE は最先端のものと比較して平均で 22% 高い F1 スコアを達成しました。
原文 (English)
PLACE: Prompt Learning for Attributed Community Search in Large Graphs
In this paper, we propose PLACE (Prompt Learning for Attributed Community Search), an innovative graph prompt learning framework for ACS. Enlightened by prompt-tuning in Natural Language Processing (NLP), where learnable prompt tokens are inserted to contextualize NLP queries, PLACE integrates structural and learnable prompt tokens into the graph as a query-dependent refinement mechanism, forming a prompt-augmented graph. Within this prompt-augmented graph structure, the learned prompt tokens serve as a bridge that strengthens connections between graph nodes for the query, enabling the GNN to more effectively identify patterns of structural cohesiveness and attribute similarity related to the specific query. We employ an alternating training paradigm to optimize both the prompt parameters and the GNN jointly. Moreover, we design a divide-and-conquer strategy to enhance scalability, supporting the model to handle million-scale graphs. Extensive experiments on 9 real-world graphs demonstrate the effectiveness of PLACE for three types of ACS queries, where PLACE achieves higher F1 scores by 22% compared to the state-of-the-arts on average.
強化学習による効率的かつ移転可能なエージェントナレッジグラフ RAG
ナレッジ グラフ検索拡張生成 (KG-RAG) は、大規模言語モデル (LLM) と構造化された検証可能なナレッジ グラフ (KG) を組み合わせて、幻覚を軽減し、推論トレースを提供します。ただし、現在の KG-RAG システムは、多くの場合、複数の LLM モジュール (計画、推論、応答など) の固定パイプラインに依存しており、推論コストが膨らみ、パフォーマンスが特定のグラフ スキーマに結びついています。これに対処するために、強化学習 (RL) を通じて KG-RAG を最適化するエージェント フレームワークである KG-R1 を導入します。モジュール式ワークフローとは異なり、KG-R1 は環境として KG と対話する単一のエージェントを使用し、各ステップで情報を取得する方法を学習し、それを統一プロセスでの推論と生成に組み込みます。 Knowledge-Graph Question Answering (KGQA) ベンチマーク全体で、KG-R1 は効率と移行性の両方を実証しています。Qwen 2.5-3B を使用すると、KG-R1 は、はるかに大規模な基盤または微調整されたモデルを使用する従来のマルチモジュール ワークフロー メソッドよりも少ない生成トークンで回答精度を向上させます。さらに、KG-R1 は強力なプラグアンドプレイ機能を示します。トレーニング後、再トレーニングすることなく、目に見えない KG での精度を維持します。これらの特性により、KG-R1 は実際の展開に有望な KG-RAG フレームワークになります。私たちのコードは github.com/junhongmit/KG-R1/ で公開されています。
原文 (English)
Efficient and Transferable Agentic Knowledge Graph RAG via Reinforcement Learning
Knowledge-graph retrieval-augmented generation (KG-RAG) couples large language models (LLMs) with structured, verifiable knowledge graphs (KGs) to reduce hallucination and provide reasoning traces. However, current KG-RAG systems often rely on fixed pipelines of multiple LLM modules (e.g., planning, reasoning, and responding), which inflate inference costs and tie performance to specific graph schemas. To address this, we introduce KG-R1, an agentic framework that optimizes KG-RAG through reinforcement learning (RL). Unlike modular workflows, KG-R1 uses a single agent that interacts with KGs as its environment, learning to retrieve information at each step and incorporating it into its reasoning and generation in a unified process. Across Knowledge-Graph Question Answering (KGQA) benchmarks, KG-R1 demonstrates both efficiency and transferability-using Qwen 2.5-3B, KG-R1 improves answer accuracy with fewer generation tokens than prior multi-module workflow methods that use much larger foundation or fine-tuned models. Furthermore, KG-R1 exhibits strong plug-and-play capability: after training, maintaining accuracy on unseen KGs without retraining. These properties make KG-R1 a promising KG-RAG framework for real-world deployment. Our code is publicly available at github.com/junhongmit/KG-R1/.
GILT: インコンテキスト学習のための LLM フリー、チューニング不要のグラフ基礎モデル
グラフ ニューラル ネットワーク (GNN) は、リレーショナル データを処理するための強力なツールですが、目に見えないグラフに一般化するのに苦労することが多く、グラフ基盤モデル (GFM) の開発が必要になります。ただし、現在の GFM は、各グラフが固有の特徴空間、ラベル セット、およびトポロジを所有する可能性があるため、グラフ データの極端な異質性が課題となっています。これに対処するために、2 つの主要なパラダイムが登場しました。 1 つ目は大規模言語モデル (LLM) を活用していますが、基本的にテキストに依存しているため、膨大なグラフの数値特徴を処理するのが困難です。 2 つ目は構造ベースのモデルを事前トレーニングしますが、新しいタスクへの適応には通常、コストのかかるグラフごとの調整ステージが必要となり、重大な効率のボトルネックが生じます。この取り組みでは、これらの制限を超えて、LLM フリーおよびチューニング不要のアーキテクチャに基づいて構築されたフレームワークである \textbf{G}raph \textbf{I}n-context \textbf{L}earning \textbf{T}ransformer (GILT) を導入します。 GILT は、グラフ上のインコンテキスト学習 (ICL) のための新しいトークンベースのフレームワークを導入し、統一フレームワークでノード、エッジ、グラフ レベルにわたる分類タスクを再構成します。このメカニズムは一般的な数値特徴を操作するように設計されているため、異質性を処理するための鍵となります。さらに、コンテキストからクラスのセマンティクスを動的に理解する機能により、調整不要の適応が可能になります。包括的な実験により、GILT は LLM ベースまたはチューニング ベースのベースラインよりも大幅に短い時間で強力な数ショット パフォーマンスを達成することが示されており、私たちのアプローチの有効性が検証されています。コードは https://github.com/yiming421/inductnode/ から入手できます。
原文 (English)
GILT: An LLM-Free, Tuning-Free Graph Foundational Model for In-Context Learning
Graph Neural Networks (GNNs) are powerful tools for processing relational data but often struggle to generalize to unseen graphs, giving rise to the development of Graph Foundational Models (GFMs). However, current GFMs are challenged by the extreme heterogeneity of graph data, where each graph can possess a unique feature space, label set, and topology. To address this, two main paradigms have emerged. The first leverages Large Language Models (LLMs), but is fundamentally text-dependent, thus struggles to handle the numerical features in vast graphs. The second pre-trains a structure-based model, but the adaptation to new tasks typically requires a costly, per-graph tuning stage, creating a critical efficiency bottleneck. In this work, we move beyond these limitations and introduce \textbf{G}raph \textbf{I}n-context \textbf{L}earning \textbf{T}ransformer (GILT), a framework built on an LLM-free and tuning-free architecture. GILT introduces a novel token-based framework for in-context learning (ICL) on graphs, reframing classification tasks spanning node, edge and graph levels in a unified framework. This mechanism is the key to handling heterogeneity, as it is designed to operate on generic numerical features. Further, its ability to understand class semantics dynamically from the context enables tuning-free adaptation. Comprehensive experiments show that GILT achieves stronger few-shot performance with significantly less time than LLM-based or tuning-based baselines, validating the effectiveness of our approach. Our code is available at: https://github.com/yiming421/inductnode/.
RAG-Pull: 目に見えない Unicode 摂動を介して取得をコードインジェクション チャネルに変える
検索拡張生成 (RAG) は、LLM 応答の信頼性と信頼性を高め、モデルの再トレーニングの必要性を排除することで幻覚を軽減します。これは、LLM のコンテキストに外部データを追加することによって行われます。私たちは、隠れた UTF 文字をクエリまたは外部コード リポジトリに挿入し、検索を悪意のあるコードにリダイレクトして、モデルの安全性の調整を破る新しいクラスのブラック ボックス攻撃である RAG-Pull を開発しました。クエリとコードの摂動だけでは、検索が攻撃者が制御するスニペットにシフトする可能性がある一方、クエリとターゲットの摂動を組み合わせるとほぼ完璧な成功が得られることが観察されています。これらのスニペットが取得されると、リモート コード実行や SQL インジェクションなどの悪用可能な脆弱性が生じます。 RAG-Pull の最小限の摂動は、モデルの安全性の調整を変更し、安全でないコードへの優先順位を高める可能性があるため、LLM に対する新しい種類の攻撃を可能にします。
原文 (English)
RAG-Pull: Turning Retrieval into a Code-Injection Channel via Invisible Unicode Perturbations
Retrieval-Augmented Generation (RAG) increases the reliability and trustworthiness of the LLM response and reduces hallucination by eliminating the need for model retraining. It does so by adding external data into the LLM's context. We develop a new class of black-box attack, RAG-Pull, that inserts hidden UTF characters into queries or external code repositories, redirecting retrieval toward malicious code, thereby breaking the models' safety alignment. We observe that query and code perturbations alone can shift retrieval toward attacker-controlled snippets, while combined query-and-target perturbations achieve near-perfect success. Once retrieved, these snippets introduce exploitable vulnerabilities such as remote code execution and SQL injection. RAG-Pull's minimal perturbations can alter the model's safety alignment and increase preference towards unsafe code, therefore opening up a new class of attacks on LLMs.
スパースブロック - トークン置換によるスパースアテンション
大規模言語モデル (LLM) のコンテキスト長をスケーリングすると、大きな利点が得られますが、計算コストが高くなります。この費用は主にセルフアテンション メカニズムに起因しており、シーケンスの長さに関する $O(N^2)$ の複雑さがメモリとレイテンシの両方に大きなボトルネックをもたらします。幸いなことに、特に長いシーケンスの場合、アテンション マトリックスは疎であることが多く、最適化の機会が示唆されています。ブロックスパース アテンションは、シーケンスをブロックに分割し、これらのブロックのサブセットの計算をスキップする有望なソリューションとして浮上しました。ただし、この方法の有効性は、根底にある注意パターンに大きく依存しており、最適ではないブロックレベルのスパース性が発生する可能性があります。たとえば、単一ブロック内のクエリの重要なキー トークンが他の多数のブロックに分散している可能性があり、計算の冗長性が生じます。この研究では、アテンションの順列特性を利用してブロックレベルのスパース性を高め、LLM プレフィルの計算効率を高めるプラグアンドプレイ手法である Permuted Block-Sparse Attendance (\textbf{PBS-Attn}) を提案します。私たちは、困難な現実世界のロングコンテキスト データセットに対して包括的な実験を実施し、PBS-Attn がモデルの精度において既存のブロック スパース アテンション手法を常に上回り、フル アテンション ベースラインとほぼ一致することを実証しました。 PBS-Attn は、カスタムの並べ替えられた FlashAttendant カーネルを利用して、ロング コンテキストの事前入力で最大 $2.75\times$ のエンドツーエンドの高速化を達成し、その実用的な実行可能性を確認しています。コードは https://github.com/xinghaow99/pbs-attn で入手できます
原文 (English)
Sparser Block-Sparse Attention via Token Permutation
Scaling the context length of large language models (LLMs) offers significant benefits but is computationally expensive. This expense stems primarily from the self-attention mechanism, whose $O(N^2)$ complexity with respect to sequence length presents a major bottleneck for both memory and latency. Fortunately, the attention matrix is often sparse, particularly for long sequences, suggesting an opportunity for optimization. Block-sparse attention has emerged as a promising solution that partitions sequences into blocks and skips computation for a subset of these blocks. However, the effectiveness of this method is highly dependent on the underlying attention patterns, which can lead to sub-optimal block-level sparsity. For instance, important key tokens for queries within a single block may be scattered across numerous other blocks, leading to computational redundancy. In this work, we propose Permuted Block-Sparse Attention (\textbf{PBS-Attn}), a plug-and-play method that leverages the permutation properties of attention to increase block-level sparsity and enhance the computational efficiency of LLM prefilling. We conduct comprehensive experiments on challenging real-world long-context datasets, demonstrating that PBS-Attn consistently outperforms existing block-sparse attention methods in model accuracy and closely matches the full attention baseline. Powered by our custom permuted-FlashAttention kernels, PBS-Attn achieves an end-to-end speedup of up to $2.75\times$ in long-context prefilling, confirming its practical viability. Code available at https://github.com/xinghaow99/pbs-attn
テキスト分類のための因果 LLM の微調整: 埋め込みベースのアプローチと命令ベースのアプローチ
私たちは、リソースの制約の下で下流のテキスト分類のためにデコーダ専用の大規模言語モデル (LLM) を微調整するための効率的な戦略を検討します。 2 つのアプローチが調査されます: (1) 事前にトレーニングされた因果 LLM に分類ヘッドを接続し、シーケンス表現として LLM の最終トークン埋め込みを使用してタスクを微調整する方法、(2) 分類用のプロンプト-トゥ-レスポンス形式で LLM を命令チューニングする方法。単一 GPU で最大 8B パラメータまでのモデルの微調整を可能にするために、4 ビットのモデル量子化と低ランク適応 (LoRA) を組み合わせて、パラメータ効率の高いトレーニングを実現します。 2 つの特許ベンチマーク、独自の 5 クラスの単一ラベル コーパスと 14 のカテゴリを含む公開 WIPO-Alpha マルチラベル データセットでの実験では、埋め込みベースの手法が単一ラベル分類での命令調整手法と同等かそれを超え、トレーニングのパラメータが 10 ~ 30 分の 1 であることが示されました。命令チューニングは、マルチラベル体制でのみ競争力があり、少なくとも 1 億パラメータという大幅に大きなトレーニング可能バジェットを使用する場合にのみ競争力があります。どちらの方法も、微調整されたドメイン固有の BERT モデルと非常に競争力があり、単一ラベルのタスクではそれらを上回ります。ペアのマクネマー検定とブートストラップ デルタ F1 95 パーセント信頼区間により、エンベディング ヘッド アプローチの数値的利点は方向的に一貫していることが確認されていますが、p < 0.05 では統計的に証明されていません。 AG News で単一ラベルの一般化をさらに検証し、BERT クラスのスループットを回復する蒸留レシピとともに、プーリング、バーバライザーの選択、およびキャリブレーションに関するアブレーションを報告します。分類シナリオにおける LLM 微調整を最適化するための実用的なガイドラインと将来の方向性を概説しながら、各アプローチの利点について説明します。
原文 (English)
Fine-Tuning Causal LLMs for Text Classification: Embedding-Based vs. Instruction-Based Approaches
We explore efficient strategies to fine-tune decoder-only Large Language Models (LLMs) for downstream text classification under resource constraints. Two approaches are investigated: (1) attaching a classification head to a pre-trained causal LLM and fine-tuning on the task using the LLM's final-token embedding as a sequence representation, and (2) instruction-tuning the LLM in a prompt-to-response format for classification. To enable single-GPU fine-tuning of models up to 8B parameters, we combine 4-bit model quantization with Low-Rank Adaptation (LoRA) for parameter-efficient training. Experiments on two patent benchmarks, a proprietary 5-class single-label corpus and the public WIPO-Alpha multi-label dataset with 14 categories, show that the embedding-based method matches or exceeds the instruction-tuned method on single-label classification while training 10 to 30 times fewer parameters. Instruction-tuning is competitive only in the multi-label regime, and only with substantially larger trainable budgets of at least 100M parameters. Both methods are very competitive with fine-tuned domain-specific BERT models, and on the single-label task they surpass them. Paired McNemar tests and bootstrap Delta F1 95 percent confidence intervals confirm that the numerical advantage of the embedding-head approach is consistent in direction but not statistically certified at p < 0.05. We further validate single-label generalization on AG News and report ablations on pooling, verbalizer choice, and calibration, together with a distillation recipe that recovers BERT-class throughput. We discuss the advantages of each approach while outlining practical guidelines and future directions for optimizing LLM fine-tuning in classification scenarios.
パターンと患者: 一人称の物語を通じたパーソナリティ障害診断に関する精神保健専門家に対する LLM の評価
精神医学的自己評価における LLM への依存が高まるにつれ、定性的な患者のナラティブを解釈する LLM の能力に疑問が生じています。この幅広い事例研究では、ポーランド語の一人称自伝的記述に基づいて、境界性 (BPD) および自己愛性 (NPD) パーソナリティ障害の評価において、最先端の LLM とメンタルヘルス専門家を直接比較しています。私たちのサンプル内で、最高のパフォーマンスを誇る Gemini Pro モデルの全体的な診断スコア (65.48%) は、人間の専門家の平均スコア (43.57%) よりも 21.91 パーセント ポイント高かった。モデルも人間の専門家もBPDの特定には優れていましたが(それぞれF1 = 83.4、F1 = 80.0)、モデルはNPDの診断が著しく過小評価され(F1 = 6.7 vs. 50.0)、価値観を伴う用語「ナルシシズム」に対して潜在的な抵抗感を示しました。定性的には、モデルはパターンと形式的なカテゴリーに焦点を当てた自信に満ちた精緻な正当化を提供したが、人間の専門家は簡潔で慎重なままであり、患者の自己感覚と時間的経験を強調した。私たちの調査結果は、LLM は複雑な一人称臨床データを解釈する能力があるかもしれないものの、その出力には依然として重大な信頼性とバイアスの問題があることを示しています。
原文 (English)
Patterns vs. Patients: Evaluating LLMs against Mental Health Professionals on Personality Disorder Diagnosis through First-Person Narratives
Growing reliance on LLMs for psychiatric self-assessment raises questions about their ability to interpret qualitative patient narratives. This depth over breadth case study directly compares state-of-the-art LLMs and mental health professionals in assessing Borderline (BPD) and Narcissistic (NPD) Personality Disorders based on Polish-language first-person autobiographical accounts. Within our sample, the overall diagnostic scores of the top-performing Gemini Pro models (65.48%) were 21.91 percentage points higher than the average scores of the human professionals (43.57%). While both models and human experts excelled at identifying BPD (F1 = 83.4 & F1 = 80.0, respectively), models severely underdiagnosed NPD (F1 = 6.7 vs. 50.0), showing a potential reluctance toward the value-laden term "narcissism." Qualitatively, models provided confident, elaborate justifications focused on patterns and formal categories, while human experts remained concise and cautious, emphasizing the patients' sense of self and temporal experience. Our findings demonstrate that while LLMs might be competent at interpreting complex first-person clinical data, their outputs still carry critical reliability and bias issues.
R$^3$L: 言語ガイドによる探索、重要なクレジット、およびポジティブ増幅を使用した、反映してから再試行する強化学習
強化学習は、LLM 推論とエージェント機能の最近の進歩を推進していますが、現在のアプローチは探索と活用の両方に苦労しています。探査では、難しいタスクの成功率が低く、最初からロールアウトを繰り返すためコストが高くなります。悪用は粗いクレジット割り当てとトレーニングの不安定性に悩まされます。軌道レベルの報酬により、その後のエラーに対して有効なプレフィックスにペナルティが課せられ、失敗が支配的なグループが少数の肯定的なシグナルを圧倒し、最適化が建設的な方向性を欠いたままになります。この目的を達成するために、我々は、R$^3$L、言語ガイド付き探索、Pivotal Credit、および Positive Amplification を使用した、Reflect-then-Retry 強化学習を提案します。高品質の軌跡を合成するために、R$^3$L は確率的サンプリングからリフレクト・ザ・リトライによる能動合成に移行し、言語フィードバックを活用してエラーを診断し、失敗した試行を成功した試行に変換し、特定された失敗点から再開することでロールアウト・コストを削減します。エラーが診断され、局所的に特定されると、Pivotal Credit Assignment は、勾配更新から共有プレフィックスを除外し、コントラスト信号が存在する分岐サフィックスのみを更新します。困難なタスクでは失敗が支配的であり、反映してから再試行するとポリシーから外れたデータが生成され、トレーニングが不安定になる危険性があるため、Positive Amplification は成功した軌跡を重み付けして、最適化プロセスを確実にポジティブなシグナルが導くようにします。エージェントおよび推論タスクの実験では、トレーニングの安定性を維持しながら、ベースラインと比較して 5\% ~ 52\% の相対的な改善が実証されました。私たちのコードは https://github.com/shiweijiezero/R3L でリリースされています。
原文 (English)
R$^3$L: Reflect-then-Retry Reinforcement Learning with Language-Guided Exploration, Pivotal Credit, and Positive Amplification
Reinforcement learning drives recent advances in LLM reasoning and agentic capabilities, yet current approaches struggle with both exploration and exploitation. Exploration suffers from low success rates on difficult tasks and high costs of repeated rollouts from scratch. Exploitation suffers from coarse credit assignment and training instability: Trajectory-level rewards penalize valid prefixes for later errors, and failure-dominated groups overwhelm the few positive signals, leaving optimization without constructive direction. To this end, we propose R$^3$L, Reflect-then-Retry Reinforcement Learning with Language-Guided Exploration, Pivotal Credit, and Positive Amplification. To synthesize high-quality trajectories, R$^3$L shifts from stochastic sampling to active synthesis via reflect-then-retry, leveraging language feedback to diagnose errors, transform failed attempts into successful ones, and reduce rollout costs by restarting from identified failure points. With errors diagnosed and localized, Pivotal Credit Assignment updates only the diverging suffix where contrastive signals exist, excluding the shared prefix from gradient update. Since failures dominate on difficult tasks and reflect-then-retry produces off-policy data, risking training instability, Positive Amplification upweights successful trajectories to ensure positive signals guide the optimization process. Experiments on agentic and reasoning tasks demonstrate 5\% to 52\% relative improvements over baselines while maintaining training stability. Our code is released at https://github.com/shiweijiezero/R3L.
SciHorizon-GENE: 遺伝子の知識から機能の理解までのライフサイエンス推論のための LLM のベンチマーク
大規模言語モデル (LLM) は、生物医学研究、特に知識主導型の解釈タスクにおいてますます有望であることが示されています。しかし、知識を強化した細胞アトラス解釈の中核となる要件である、遺伝子レベルの知識から機能的理解まで確実に推論する能力は、依然として十分に解明されていない。このギャップに対処するために、信頼できる生物学データベースから構築された大規模な遺伝子中心のベンチマークである SciHorizon-GENE を紹介します。このベンチマークは、19 万以上のヒト遺伝子に関する精選された知識を統合しており、細胞型の注釈、機能解釈、機構指向の分析に関連する多様な遺伝子から機能への推論シナリオをカバーする 54 万以上の質問で構成されています。 SciHorizon-GENE は、予備検査で観察された行動パターンに動機付けられ、生物学的に重要な 4 つの観点 (研究注意の感度、幻覚傾向、解答の完全性、文献の影響) に沿って LLM を評価し、生物学的解釈パイプラインにおける LLM の安全な採用を制限する失敗モードを明示的にターゲットにしています。私たちは、最先端の汎用 LLM および生物医学 LLM を幅広く体系的に評価し、遺伝子レベルの推論能力における実質的な不均一性と、忠実で完全な文献に基づいた機能解釈を生成する際の永続的な課題を明らかにしています。私たちのベンチマークは、LLM の挙動を遺伝子スケールで分析するための体系的な基盤を確立し、知識を強化した生物学的解釈に直接関連するモデルの選択と開発のための洞察を提供します。
原文 (English)
SciHorizon-GENE: Benchmarking LLM for Life Sciences Inference from Gene Knowledge to Functional Understanding
Large language models (LLMs) have shown growing promise in biomedical research, particularly for knowledge-driven interpretation tasks. However, their ability to reliably reason from gene-level knowledge to functional understanding, a core requirement for knowledge-enhanced cell atlas interpretation, remains largely underexplored. To address this gap, we introduce SciHorizon-GENE, a large-scale gene-centric benchmark constructed from authoritative biological databases. The benchmark integrates curated knowledge for over 190K human genes and comprises more than 540K questions covering diverse gene-to-function reasoning scenarios relevant to cell type annotation, functional interpretation, and mechanism-oriented analysis. Motivated by behavioral patterns observed in preliminary examinations, SciHorizon-GENE evaluates LLMs along four biologically critical perspectives: research attention sensitivity, hallucination tendency, answer completeness, and literature influence, explicitly targeting failure modes that limit the safe adoption of LLMs in biological interpretation pipelines. We systematically evaluate a wide range of state-of-the-art general-purpose and biomedical LLMs, revealing substantial heterogeneity in gene-level reasoning capabilities and persistent challenges in generating faithful, complete, and literature-grounded functional interpretations. Our benchmark establishes a systematic foundation for analyzing LLM behavior at the gene scale and offers insights for model selection and development, with direct relevance to knowledge-enhanced biological interpretation.
Grading Attack: LLM ベースの教育評価エージェントのセキュリティ脆弱性の暴露
大規模言語モデル (LLM) は、現実の教育環境で自動短答採点 (ASAG) のための教育エージェントとして導入されることが増えており、評価の効率と拡張性が大幅に向上しています。ただし、これらのグレーディング エージェントが「実際に」動作する場合、敵対的な操作に対する脆弱性により、エージェントのセキュリティと信頼性に関して重大な懸念が生じます。このペーパーでは、LLM ベースの教育採点エージェントのセキュリティ脆弱性を体系的に評価する、きめ細かい敵対的攻撃フレームワークである Grading Attack を紹介します。具体的には、高いステルス性を維持しながらエージェントのグレーディング結果を操作するトークンレベルおよびプロンプトレベルの攻撃戦略を設計し、現在のエージェント展開の根本的な弱点を明らかにします。複数のデータセットでの実験では、プロンプトレベルの攻撃が高い成功率を達成し、トークンレベルの攻撃が優れたステルス機能を示すことで、両方の攻撃戦略が効果的にグレーディングエージェントを侵害することが実証されました。私たちの調査結果では、現在の LLM ベースの教育エージェントには敵対的な攻撃に対する堅牢な防御が欠けていることが明らかになり、重要な教育アプリケーション向けに安全で信頼できるエージェント システムを開発する緊急の必要性が強調されています。
原文 (English)
GradingAttack: Exposing Security Vulnerabilities in LLM Based Educational Grading Agents
Large language models (LLMs) are increasingly deployed as educational agents for automatic short answer grading (ASAG) in real-world educational environments, significantly boosting assessment efficiency and scalability. However, when these grading agents operate ``in the wild'', their vulnerability to adversarial manipulation raises critical concerns about agent security and trustworthiness. In this paper, we introduce GradingAttack, a fine-grained adversarial attack framework that systematically evaluates the security vulnerabilities of LLM based educational grading agents. Specifically, we design token-level and prompt-level attack strategies that manipulate agent grading outcomes while maintaining high stealth, exposing fundamental weaknesses in current agent deployments. Experiments on multiple datasets demonstrate that both attack strategies effectively compromise grading agents, with prompt-level attacks achieving higher success rates and token-level attacks exhibiting superior stealth capability. Our findings reveal that current LLM based educational agents lack robust defenses against adversarial attacks, underscoring the urgent need for developing secure and trustworthy agent systems for critical educational applications.
ArcMark: 最適なトランスポートによる歪みのないマルチバイト LLM ウォーターマーク
ウォーターマークは、大規模言語モデル (LLM) の責任ある使用を促進するための重要なツールです。既存の透かしは、LLM で生成されたテキストにフラグを付けるか (ゼロビット透かし)、より複雑なメッセージをエンコードする (マルチビット透かし) 信号を、生成されたトークンに挿入します。最近のアプローチの多くは、平均的な次トークン予測を乱すことなくテキストに複数のビットを挿入しますが、トークンごとに 1 ビットをエンコードするなど、ゼロビット設定からの設計原則を大幅に拡張しています。対照的に、テキストに複数のバイトを埋め込むことができるウォーターマーカーは、プロンプトを送信したユーザーの ID、使用された正確なモデルのバージョン、さらにはプロンプト自体などの情報を埋め込むことにより、潜在的なアプリケーションの可能性を大幅に増やすことができます。私たちは、ArcMark を導入することでこの問題に対処します。ArcMark は、コーディングと情報理論の原理に基づいた新しい透かし構造で、基盤となる LLM の次のトークンの分布を歪めることなく、わずか数百個のトークンに複数バイトの情報を確実に埋め込むことができます。歪みのない透かし問題をチャネル符号化問題として定式化し、歪みのない方法で LLM 出力に情報を埋め込む基本的な制限を確立する情報理論的なチャネル容量を導出することで、ArcMark を導き出します。この容量の定式化は、ArcMark の設計に影響を与えます。実際、ArcMark は、LLM テキストのサブセットを変更する攻撃に直面した場合も含め、再構成精度の点で、競合するマルチビット歪みのない透かしよりも優れています。 ArcMark の出力は、複雑さおよびダウンストリーム タスクの品質の点で、透かしの入っていないテキストと区別できないことも示されています。
原文 (English)
ArcMark: Distortion-Free Multi-Byte LLM Watermark via Optimal Transport
Watermarking is an important tool for promoting the responsible use of large language models (LLMs). Existing watermarks insert a signal into generated tokens that either flags LLM-generated text (zero-bit watermarking) or encodes more complex messages (multi-bit watermarking). Though a number of recent approaches insert multiple bits into text without perturbing average next-token predictions, they largely extend design principles from the zero-bit setting, such as encoding a single bit per token. In contrast, a watermarker capable of embedding multiple bytes into the text would dramatically increase the potential applications, by embedding information such as the ID of the user who submitted the prompt, the precise model version that was used, or even the prompt itself. We address this problem by introducing ArcMark: a new watermark construction based on coding and information-theoretic principles that is capable of reliably embedding multiple bytes of information into just a few hundred tokens, without any distortion of the underlying LLM next-token distribution. We derive ArcMark by formulating the distortion-free watermarking problem as a channel coding problem, and deriving an information-theoretic channel capacity that establishes the fundamental limit of embedding information in LLM output in a distortion-free manner. This capacity formulation informs the design of ArcMark. In practice, ArcMark outperforms competing multi-bit distortion-free watermarks in terms of reconstruction accuracy, including in the face of attacks that alter a subset of the LLM text. ArcMark output is also shown to be indistinguishable from unwatermarked text in terms of perplexity, and in downstream task quality.
VI-CuRL: 信頼に基づく分散削減による検証者に依存しない RL 推論の安定化
検証可能な報酬を伴う強化学習 (RLVR) は、大規模言語モデル (LLM) 推論を強化するための主要なパラダイムとして台頭していますが、外部検証器への依存により拡張性が制限されます。最近の調査結果では、RLVR は主に潜在的な機能を引き出すことによって機能し、検証器を使用しないアルゴリズムの開発を動機付けることが示唆されています。ただし、そのような設定では、グループ相対ポリシー最適化のような標準的な手法は、学習の崩壊につながることが多い破壊的な勾配分散という重大な課題に直面します。この問題に対処するために、検証者に依存しないカリキュラム強化学習 (VI-CuRL) を導入します。これは、モデルの本質的な信頼性を活用して、外部検証者から独立したカリキュラムを構築するフレームワークです。 VI-CuRL は、信頼性の高いサンプルを優先することにより、バイアスと分散のトレードオフを効果的に管理し、特にアクションと問題の分散の削減を目指します。私たちは厳密な理論分析を提供し、推定が漸近的不偏性を保証することを証明します。経験的に、VI-CuRL は安定性を促進し、検証者あり/なしの数学および一般推論ベンチマーク全体で、検証者依存/独立したベースラインよりも一貫して優れたパフォーマンスを示します。
原文 (English)
VI-CuRL: Stabilizing Verifier-Independent RL Reasoning via Confidence-Guided Variance Reduction
Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a dominant paradigm for enhancing Large Language Models (LLMs) reasoning, yet its reliance on external verifiers limits its scalability. Recent findings suggest that RLVR primarily functions by eliciting latent capabilities, motivating the development of verifier-free algorithms. However, in such settings, standard methods like Group Relative Policy Optimization face a critical challenge: destructive gradient variance that often leads to training collapse. To address this issue, we introduce Verifier-Independent Curriculum Reinforcement Learning (VI-CuRL), a framework that leverages the model's intrinsic confidence to construct a curriculum independent from external verifiers. By prioritizing high-confidence samples, VI-CuRL effectively manages the bias-variance trade-off, specifically targeting the reduction of action and problem variance. We provide a rigorous theoretical analysis, proving that our estimator guarantees asymptotic unbiasedness. Empirically, VI-CuRL promotes stability and consistently outperforms verifier-dependent/independent baselines across math and general reasoning benchmarks with/without verifiers.
BarrierSteer: バリア ステアリングの学習による LLM の安全性
大規模言語モデル (LLM) はさまざまなタスクにわたって強力なパフォーマンスを発揮しますが、敵対的な攻撃や安全でないコンテンツの生成に対する脆弱性が、特にリスクの高い設定において、導入に対する大きな障害となっています。この課題に対処するには、実際に効果的であり、理論的に根拠のある安全機構が必要です。この論文では、学習された非線形安全制約をモデルの潜在表現空間に直接埋め込むことで応答の安全性を向上させる、新しい推論時間フレームワークである BarrierSteer を紹介します。 BarrierSteer は、隠れ状態の安全性分類子をコントロール バリア関数 (CBF) として扱い、生成中に安全でない潜在軌道の制約に基づくステアリングを可能にします。 BarrierSteer は、基礎となる LLM パラメーターを変更せずに効率的な制約のマージを通じて複数の安全制約を構成することで、モデルの有用性を維持します。我々は、潜在空間に CBF を適用すると、意図した安全特性を捕捉する学習されたバリアを条件とした保証付きで、学習された安全制約に関するステアリングのための原理的かつモジュール式で計算効率の高いアプローチが得られることを示す理論的結果を提供します。複数のモデル ファミリとデータセットにわたる広範な実験結果は、BarrierSteer が敵対的攻撃の成功率と安全でない世代を大幅に削減し、既存の手法を上回るパフォーマンスを示していることを示しています。コードは \href{https://github.com/thanhquangtran/BarrierSteer}{GitHub リポジトリ} で入手できます。
原文 (English)
BarrierSteer: LLM Safety via Learning Barrier Steering
Despite the strong performance of large language models (LLMs) across diverse tasks, their susceptibility to adversarial attacks and unsafe content generation remains a significant obstacle to deployment, particularly in high-stakes settings. Addressing this challenge requires safety mechanisms that are both practically effective and theoretically grounded. In this paper, we introduce BarrierSteer, a novel inference-time framework that improves response safety by embedding learned nonlinear safety constraints directly into the model's latent representation space. BarrierSteer treats hidden-state safety classifiers as Control Barrier Functions (CBFs), enabling constraint-guided steering of unsafe latent trajectories during generation. By composing multiple safety constraints through efficient constraint merging without modifying the underlying LLM parameters, BarrierSteer preserves model utility. We provide theoretical results showing that applying CBFs in the latent space yields a principled, modular, and computationally efficient approach for steering with respect to learned safety constraints, with guarantees conditional on the learned barriers capturing the intended safety property. Our extensive experimental results across multiple model families and datasets demonstrate that BarrierSteer substantially reduces adversarial attack success rates and unsafe generations, outperforming the existing method. The code is available in our \href{https://github.com/thanhquangtran/BarrierSteer}{GitHub repository}.
HTMuon: ヘビーテールスペクトル補正によるミュオンの改善
Muon は最近、LLM トレーニングで有望な結果を示しました。この研究では、ミュオンをさらに改良する方法を研究します。私たちは、Muon の直交化更新ルールがヘビーテール重みスペクトルの出現を抑制し、ノイズが支配的な方向に沿ったトレーニングを過度に強調すると主張します。ヘビーテール自己正則化 (HT-SR) 理論に基づいて、私たちは HMuon を提案します。 HTMuon は、より重い裾の更新を生成し、より重い裾の重みスペクトルを誘導しながら、パラメータの相互依存性を捕捉する Muon の機能を維持します。 LLM の事前トレーニングと画像分類に関する実験では、HTMuon が最先端のベースラインよりも一貫してパフォーマンスを向上させ、既存の Muon バリアント上のプラグインとしても機能できることが示されています。たとえば、C4 データセットでの LLaMA 事前トレーニングでは、HMuon は Muon と比較してパープレキシティを最大 0.98 ドル削減します。さらに、HTMuon が Schatten-$q$ ノルム制約の下での最急降下に対応することを理論的に示し、滑らかな非凸設定での収束解析を提供します。 HTMuon の実装は https://github.com/TDCSZ327/HTmuon で入手できます。
原文 (English)
HTMuon: Improving Muon via Heavy-Tailed Spectral Correction
Muon has recently shown promising results in LLM training. In this work, we study how to further improve Muon. We argue that Muon's orthogonalized update rule suppresses the emergence of heavy-tailed weight spectra and over-emphasizes the training along noise-dominated directions. Motivated by the Heavy-Tailed Self-Regularization (HT-SR) theory, we propose HTMuon. HTMuon preserves Muon's ability to capture parameter interdependencies while producing heavier-tailed updates and inducing heavier-tailed weight spectra. Experiments on LLM pretraining and image classification show that HTMuon consistently improves performance over state-of-the-art baselines and can also serve as a plug-in on top of existing Muon variants. For example, on LLaMA pretraining on the C4 dataset, HTMuon reduces perplexity by up to $0.98$ compared to Muon. We further theoretically show that HTMuon corresponds to steepest descent under the Schatten-$q$ norm constraint and provide convergence analysis in smooth non-convex settings. The implementation of HTMuon is available at https://github.com/TDCSZ327/HTmuon.
MemReward: 限られたラベルでの LLM 報酬予測のためのグラフベースのエクスペリエンス メモリ
強化学習は、大規模言語モデル (LLM) 推論を改善するための強力なパラダイムとして登場しました。LLM では、ロールアウトがポリシーからサンプリングされ、それらのロールアウトで計算された報酬信号がポリシーの更新に使用されます。ただし、データが不足しているシナリオでは、大規模なロールアウトを検証するためのグラウンド トゥルース ラベルを取得するには、多くの場合、高価な人間によるアノテーションや労働集約的な専門家の検証が必要になります。たとえば、数学的証明の評価には専門家のレビューが必要であり、自由回答型の質疑応答には決定的な根拠が欠けています。グラウンドトゥルースのラベルが不足すると、強化学習の微調整の有効性が制限されます。ラベル付きサンプルからラベルなしサンプルへラベルを伝播する半教師あり学習の成功に触発されて、報酬伝播をオンライン ポリシー最適化に直接統合するグラフベースの経験記憶フレームワークである MemReward を提案します。 MemReward は、初期 LLM ポリシーからのロールアウト (思考プロセスと最終的な答え) を、類似性と構造エッジによって接続された異種グラフ内のノードとして保存します。GNN は、その上で、ラベル付きロールアウトからラベルなしロールアウトへ報酬を伝播します。このようなフレームワークをトレーニングするには、最初にラベル付きロールアウトで GNN をウォームアップし、クエリ、思考、回答ノードにわたる異種集約を介して報酬を予測します。オンライン RL 微調整中に、ラベルのないロールアウトがクエリの類似性によってグラフに付加され、GNN がそれらの報酬を予測し、グラウンド トゥルースと GNN が予測した報酬を組み合わせたハイブリッド報酬獲得戦略を生み出します。数学、質問応答、およびコード生成における Qwen2.5-1.5B および 3B の実験では、MemReward がロールアウトのわずか 20% でグラウンドトゥルース報酬を提供し、1.5B で Oracle の 96.6%、3B で 97.3% のパフォーマンスを達成し、ドメイン外タスクで Oracle にほぼ匹敵することが実証されました。
原文 (English)
MemReward: Graph-Based Experience Memory for LLM Reward Prediction with Limited Labels
Reinforcement learning has emerged as a powerful paradigm for improving large language model (LLM) reasoning, where rollouts are sampled from the policy and reward signals computed on those rollouts are used to update the policy. However, in data-scarce scenarios, obtaining ground-truth labels to verify rollouts at scale often requires expensive human annotation or labor-intensive expert verification. For instance, evaluating mathematical proofs demands expert review, and open-ended question answering lacks definitive ground truth. When ground-truth labels are scarce, the effectiveness of reinforcement learning fine-tuning is constrained. Inspired by the success of semi-supervised learning in propagating labels from labeled to unlabeled samples, we propose MemReward, a graph-based experience memory framework that integrates reward propagation directly into online policy optimization. MemReward stores rollouts (thinking processes and final answers) from an initial LLM policy as nodes in a heterogeneous graph connected by similarity and structural edges, over which a GNN propagates rewards from labeled to unlabeled rollouts. To train such a framework, we first warm up the GNN on labeled rollouts to predict rewards via heterogeneous aggregation over query, thinking, and answer nodes. During online RL fine-tuning, unlabeled rollouts are attached to the graph by query similarity, and the GNN predicts their rewards, yielding a hybrid reward acquisition strategy that combines ground-truth and GNN-predicted rewards. Experiments on Qwen2.5-1.5B and 3B in mathematics, question answering, and code generation demonstrate that MemReward, with ground-truth rewards on only 20% of rollouts, achieves 96.6% of Oracle performance on 1.5B and 97.3% on 3B, and closely approaches Oracle on out-of-domain tasks.
ローカル LLM とレイアウトを意識した解析による表形式 PDF 情報の抽出: 信頼性の評価
学術 PDF 文書から構造化情報を抽出することは簡単ではありません。単一のページは通常、フリー テキストのメタデータと表形式の領域を組み合わせており、プログラム間での変動が見られ、ダウンストリームの解析を妨げる Unicode エンコードのアーティファクトの影響を受けやすくなります。この研究では、ケーススタディとしてインドネシアの高等教育の学術コース登録文書 (Kartu Rencana Studi または KRS) を使用して、表形式の PDF 文書に対する情報抽出アプローチの信頼性を評価します。 LLM のみ、ハイブリッド決定論 - LLM (正規表現と LLM)、LLM フォールバックを備えた Camelot ベースのパイプラインの 3 つの戦略を比較します。実験は、LLM ベースのテストでは 140 のドキュメント、キャメロット ベースのパイプライン評価では 860 のドキュメントで行われ、テーブルとメタデータ内のさまざまなデータを含む 4 つの研究プログラムをカバーしました。 3 つの 12 ~ 14B LLM モデル (Gemma 3、Phi 4、および Qwen 2.5) は、Ollama と GPU なしのコンシューマー グレードの CPU を使用してローカルで実行されました。評価には、しきい値 0.7 の完全一致 (EM) およびレーベンシュタイン類似性 (LS) メトリクスが使用されました。すべてのモデルに適用できるわけではありませんが、結果は、ハイブリッド アプローチが、特に決定論的メタデータの場合、LLM のみと比較して効率を向上できることを示しています。 LLM フォールバックを備えた Camelot ベースのパイプラインは、精度 (EM および LS 最大 0.99 ~ 1.00) と計算効率 (ほとんどの場合、PDF あたり 1 秒未満) の最適な組み合わせを実現しました。 Qwen 2.5:14b モデルは、すべてのシナリオにわたって最も一貫したパフォーマンスを実証しました。これらの発見は、決定論的手法と LLM ベースの手法を統合することが、計算量に制約のある環境で表形式のテキスト ベースの PDF ドキュメントから情報を抽出するための信頼性が高く効率的な戦略であることを裏付けています。
原文 (English)
Tabular PDF Information Extraction with Local LLMs and Layout-Aware Parsing: A Reliability Evaluation
Extracting structured information from academic PDF documents is non trivial: a single page typically combines free text metadata with tabular regions, exhibits cross program variation, and is susceptible to Unicode encoding artifacts that interfere with downstream parsing. This study evaluates the reliability of information extraction approaches for tabular PDF documents, using academic course registration documents (Kartu Rencana Studi or KRS) from Indonesian higher education as a case study. Three strategies are compared: LLM only, Hybrid Deterministic - LLM (regex & LLM), and a Camelot based pipeline with LLM fallback. Experiments were conducted on 140 documents for the LLM based test and 860 documents for the Camelot based pipeline evaluation, covering four study programs with varying data in tables and metadata. Three 12 - 14B LLM models (Gemma 3, Phi 4, and Qwen 2.5) were run locally using Ollama and a consumer grade CPU without a GPU. Evaluations used exact match (EM) and Levenshtein similarity (LS) metrics with a threshold of 0.7. Although not applicable to all models, the results show that the hybrid approach can improve efficiency compared to LLM only, especially for deterministic metadata. The Camelot based pipeline with LLM fallback produced the best combination of accuracy (EM and LS up to 0.99 - 1.00) and computational efficiency (less than 1 second per PDF in most cases). The Qwen 2.5:14b model demonstrated the most consistent performance across all scenarios. These findings confirm that integrating deterministic and LLM based methods is a reliable and efficient strategy for information extraction from tabular text based PDF documents in computationally constrained environments.
Agentic AI のスキル取得の拡張
大規模言語モデル (LLM) がエージェントの問題解決ツールに進化するにつれて、ネイティブのパラメトリック機能を超えたタスクを処理するために外部の再利用可能なスキルにますます依存するようになります。既存のエージェント システムでは、スキルを組み込むための主な戦略は、コンテキスト ウィンドウ内で利用可能なスキルを明示的に列挙することです。しかし、この戦略は拡張できません。スキル コーパスが拡大するにつれて、コンテキスト バジェットが急速に消費され、エージェントが適切なスキルを識別する精度が著しく低下します。この目的を達成するために、この文書では、エージェントがオンデマンドで大規模な外部スキル コーパスから関連するスキルを動的に取得、組み込み、適用する新しいパラダイムであるスキル検索拡張 (SRA) を定式化します。この問題を測定可能にするために、大規模なスキル コーパスを構築し、スキルの取得、スキルの組み込み、および最終タスクの実行をカバーする完全な SRA パイプラインの分解評価のための最初のベンチマークである SRA-Bench を導入します。 SRA-Bench には、5,400 の能力集約型テスト インスタンスと、手動で構築された 636 個のゴールド スキルが含まれています。これらは、Web で収集されたディストラクタ スキルと混合されて、26,262 個のスキルの大規模コーパスを形成します。広範な実験により、検索ベースのスキル強化によりエージェントのパフォーマンスが大幅に向上することが示され、パラダイムの有望性が実証されました。同時に、スキルの組み込みにおける根本的なギャップも明らかになりました。現在の LLM エージェントは、ゴールド スキルが取得されるかどうか、またはタスクが実際に外部機能を必要とするかどうかに関係なく、同様の速度でスキルをロードする傾向があります。これは、スキル拡張のボトルネックが取得だけでなく、どのスキルをロードするか、いつ外部ロードが実際に必要かを決定する基本モデルの機能にもあることを示しています。これらの発見は、SRA を明確な研究課題として位置づけ、将来のエージェント システムにおけるスケーラブルな機能拡張の基盤を確立します。
原文 (English)
Skill Retrieval Augmentation for Agentic AI
As large language models (LLMs) evolve into agentic problem solvers, they increasingly rely on external, reusable skills to handle tasks beyond their native parametric capabilities. In existing agent systems, the dominant strategy for incorporating skills is to explicitly enumerate available skills within the context window. However, this strategy fails to scale: as skill corpora expand, context budgets are consumed rapidly, and the agent becomes markedly less accurate in identifying the right skill. To this end, this paper formulates Skill Retrieval Augmentation (SRA), a new paradigm in which agents dynamically retrieve, incorporate, and apply relevant skills from large external skill corpora on demand. To make this problem measurable, we construct a large-scale skill corpus and introduce SRA-Bench, the first benchmark for decomposed evaluation of the full SRA pipeline, covering skill retrieval, skill incorporation, and end-task execution. SRA-Bench contains 5,400 capability-intensive test instances and 636 manually constructed gold skills, which are mixed with web-collected distractor skills to form a large-scale corpus of 26,262 skills. Extensive experiments show that retrieval-based skill augmentation can substantially improve agent performance, validating the promise of the paradigm. At the same time, we uncover a fundamental gap in skill incorporation: current LLM agents tend to load skills at similar rates, regardless of whether a gold skill is retrieved or whether the task actually requires external capabilities. This shows that the bottleneck in skill augmentation lies not only in retrieval but also in the base model's ability to determine which skill to load and when external loading is actually needed. These findings position SRA as a distinct research problem and establish a foundation for the scalable augmentation of capabilities in future agent systems.
SafeHarbor: LLM エージェントの安全のための階層型メモリ拡張ガードレール
基盤モデルの最近の進歩により、LLM は受動的な会話システムから、推論とツールの実行が可能な自律エージェントに変わりました。これらの機能は実質的な実用的価値を解放しますが、敵対者がエージェントを操作して現実世界の環境で有害なアクションを実行する可能性があるため、新たなセキュリティ リスクももたらします。既存の防御戦略はそのような脅威を軽減しますが、安全性と有用性のバランスをとるのにしばしば苦労し、その結果、無害なユーザー要求を過度に拒否する結果になります。このトレードオフを軽減するために、LLM エージェントの正確な決定境界を確立するように設計された新しいフレームワークである SafeHarbor を提案します。静的なガイドラインとは異なり、SafeHarbor は強化された敵対的生成を通じてコンテキストを認識した防御ルールを抽出します。私たちは、動的ルール注入用のローカル階層メモリ システムを設計し、トレーニング不要で効率的なプラグ アンド プレイ ソリューションを提供します。さらに、動的なノードの分割と結合を通じてメモリ構造を継続的に最適化する、情報エントロピーベースの自己進化メカニズムを導入します。広範な実験により、SafeHarbor があいまいで良性のタスクと明示的な悪意のある攻撃の両方で最先端のパフォーマンスを達成し、特に GPT-4o で 63.6\% のピーク無害ユーティリティを達成しながら、有害なリクエストに対して 93\% を超える堅牢な拒否率を維持していることが実証されています。ソース コードは https://github.com/ljj-cyber/SafeHarbor で公開されています。
原文 (English)
SafeHarbor: Hierarchical Memory-Augmented Guardrail for LLM Agent Safety
Recent advances in foundation models have transformed LLMs from passive conversational systems into autonomous agents capable of reasoning and tool execution. While these capabilities unlock substantial practical value, they also introduce new security risks, as adversaries can manipulate agents into performing harmful actions in real-world environments. Existing defense strategies mitigate such threats but frequently struggle to balance safety and utility, resulting in over-refusal of benign user requests. To mitigate this trade-off, we propose SafeHarbor, a novel framework designed to establish precise decision boundaries for LLM agents. Unlike static guidelines, SafeHarbor extracts context-aware defense rules through enhanced adversarial generation. We design a local hierarchical memory system for dynamic rule injection, offering a training-free, efficient, and plug-and-play solution. Furthermore, we introduce an information entropy-based self-evolution mechanism that continuously optimizes the memory structure through dynamic node splitting and merging. Extensive experiments demonstrate that SafeHarbor achieves state-of-the-art performance on both ambiguous benign tasks and explicit malicious attacks, notably attaining a peak benign utility of 63.6\% on GPT-4o while maintaining a robust refusal rate exceeding 93\% against harmful requests. The source code is publicly available at https://github.com/ljj-cyber/SafeHarbor.
VISD: 構造化自己蒸留によるビデオ推論の強化
複雑な推論のために VideoLLM をトレーニングすることは、疎なシーケンス レベルの報酬と、時間的に根拠のある長い推論軌跡にわたるきめ細かい単位の割り当てが欠如しているため、依然として困難です。検証可能な報酬を伴う強化学習 (RLVR) は信頼性の高い監視を提供しますが、トークン レベルの寄与を捕捉できず、非効率的な学習につながります。逆に、既存の自己蒸留手法は緻密な監視を提供しますが、構造と診断の特異性に欠けており、強化学習と不安定に相互作用することがよくあります。この研究では、ビデオ推論に診断的に意味のある特権情報を導入する構造化自己蒸留フレームワークである VISD を提案します。 VISD は、ビデオ対応の判定モデルを採用して、推論の質を解答の正しさ、論理的一貫性、時空間的根拠などの複数の次元に分解し、この構造化されたフィードバックを使用して、トークン レベルの監督のための教師のポリシーを導きます。高密度監視を RL と安定して統合するために、方向振幅デカップリング メカニズムを導入します。このメカニズムでは、報酬から計算されたロールアウト レベルの利点が更新方向を決定し、構造化された特権信号がトークン レベルの更新振幅を調整します。この設計により、意味的に調整されたきめ細かい単位の割り当てが可能になり、推論の忠実さとトレーニングの効率の両方が向上します。さらに、VISD にはカリキュラムのスケジューリングと EMA ベースの教師の安定化が組み込まれており、長いビデオ シーケンスにわたる堅牢な最適化をサポートします。さまざまなベンチマークの実験では、VISD が一貫して強力なベースラインを上回り、回答の精度と空間時間的グラウンディングの品質が向上していることが示されています。特に、VISD は最適化ステップでほぼ 2 倍高速な収束でこれらの利点を達成しており、VideoLLM のパフォーマンスとサンプル効率の両方を向上させる構造化自己監視の有効性を強調しています。
原文 (English)
VISD: Enhancing Video Reasoning via Structured Self-Distillation
Training VideoLLMs for complex reasoning remains challenging due to sparse sequence level rewards and the lack of fine grained credit assignment over long, temporally grounded reasoning trajectories. While reinforcement learning with verifiable rewards (RLVR) provides reliable supervision, it fails to capture token level contributions, leading to inefficient learning. Conversely, existing self distillation methods offer dense supervision but lack structure and diagnostic specificity, and often interact unstably with reinforcement learning. In this work, we propose VISD, a structured self distillation framework that introduces diagnostically meaningful privileged information for video reasoning. VISD employs a video aware judge model to decompose reasoning quality into multiple dimensions, including answer correctness, logical consistency, and spatio-temporal grounding, and uses this structured feedback to guide a teacher policy for token level supervision. To stably integrate dense supervision with RL, we introduce a direction magnitude decoupling mechanism, where rollout level advantages computed from rewards determine update direction, while structured privileged signals modulate token level update magnitudes. This design enables semantically aligned and fine grained credit assignment, improving both reasoning faithfulness and training efficiency. Additionally, VISD incorporates curriculum scheduling and EMA based teacher stabilization to support robust optimization over long video sequences. Experiments on diverse benchmarks show that VISD consistently outperforms strong baselines, improving answer accuracy and spatio temporal grounding quality. Notably, VISD reaches these gains with nearly 2x faster convergence in optimization steps, highlighting the effectiveness of structured self supervision in improving both performance and sample efficiency for VideoLLMs.
回路設計のラストマイルの橋渡し: PostEDA-Bench、PPA コンバージェンスと DRC 修正の階層ベンチマーク
LLM ベースのエージェントは、電子設計自動化 (EDA) の「ラスト マイル」に適用されることが増えています。つまり、残留サインオフ設計ルール チェック (DRC) 違反を修復し、ツール実行後に電力性能領域 (PPA) 目標を収束します。ただし、既存の EDA-LLM ベンチマークは DRC 修正を完全に省略し、単一のツールチェーンに結び付けられたフラットな階層に依存しています。 PostEDA-Bench は、DRC-Essential、DRC-Reasoning、PPA-Mono、および PPA-Multi にわたる 145 のタスクを含む階層型ベンチマークであり、機械チェック可能な評価を備えた EDA ツールチェーンによってサポートされています。複数のエージェント スキャフォールドの下にある 8 つの商用およびオープンソース LLM にわたって、エージェントは合成 DRC-Essential と単一目的の PPA-Mono をかなりうまく処理しますが、より実用的な DRC-Reasoning (最高の成功率が 36.66%) と PPA-Multi (最高の成功率が 20.00%) では急激に性能が低下することがわかりました。視覚増強は一貫して DRC-Bench を強化します。そして、ノブの知識ではなく、トレードオフの推論が PPA-Multi の主要なボトルネックです。
原文 (English)
Bridging the Last Mile of Circuit Design: PostEDA-Bench, a Hierarchical Benchmark for PPA Convergence and DRC Fixing
LLM-based agents are increasingly applied to the "last mile" of Electronic Design Automation (EDA): repairing residual sign-off Design Rule Check (DRC) violations and converging Power-Performance-Area (PPA) targets after tool runs. Existing EDA-LLM benchmarks, however, omit DRC fixing entirely and rely on flat hierarchies tied to a single toolchain. We introduce PostEDA-Bench, a hierarchical benchmark with 145 tasks across DRC-Essential, DRC-Reasoning, PPA-Mono, and PPA-Multi, supported by EDA toolchains with machine-checkable evaluation. Across eight commercial and open-source LLMs under multiple agent scaffolds, we find that agents handle synthetic DRC-Essential and single-objective PPA-Mono reasonably well but degrade sharply on the more practical DRC-Reasoning, where the best success rate is 36.66%, and PPA-Multi, where the best success rate is 20.00%; vision augmentation consistently enhances DRC-Bench; and trade-off reasoning, rather than knob knowledge, is the dominant PPA-Multi bottleneck.
LLM エージェント ツール呼び出しトラフィックにおけるコンテンツ認識型攻撃の検出: 機能、アーキテクチャ、および評価プロトコルの実証的研究
モデル コンテキスト プロトコル (MCP) は、LLM エージェントが外部ツールを呼び出すためのインターフェイスとして広く採用されていますが、MCP ツール呼び出しトラフィックの学習された監視についてはまだ十分に研究されていません。この記事では、提案された検出器は、各エージェント セッションをグラフ (ツール呼び出しをノード、順次リンクとデータ フロー リンクをエッジ) としてエンコードし、引数と応答に対する文埋め込み機能でノードを強化し、セッションを良性か攻撃かを分類する、MCP ツール呼び出しトラフィックの攻撃検出フレームワークとして紹介されます。 3 つの GNN アーキテクチャ (GAT、GCN、GraphSAGE)、グラフなし MLP、および古典的なベースライン (XGBoost、ランダム フォレスト、ロジスティック回帰、線形 SVM) が評価されます。完全なアーキテクチャ比較は RAS-Eval (タスク階層化分割) で実行され、GraphSAGE は ATBench および結合ソース バリアント (両方ともラベル階層化) で GNN ベースラインとして保持されます。 3 つの発見が得られます。まず、コンテンツ レベルの機能が不可欠です。メタデータのみの検出は、アーキテクチャに関係なく AUROC 0.64 付近で頭打ちになりますが、コンテンツの埋め込みにより AUROC が 0.89 を超えるようになります。第 2 に、単純なランダム分割評価は、タスクに素な分割と比較して AUROC を最大 26 パーセントポイント上昇させます。これは、以前のエージェント検出作業では対処できなかった記憶の混乱です。第三に、検出信号は主に SBERT コンテンツ エンベディングに存在します。プールされたエンサンブル上のツリー アンサンブルによって 0.975 の AUROC に達し、ほとんどの場合、GNN (0.917) や MLP (0.896) を含むプライマリ RAS-Eval 設定のニューラル アーキテクチャよりも優れたパフォーマンスを発揮し、自己監視型事前トレーニングではラベル効率の利点が得られません。このタスク。
原文 (English)
Content-Aware Attack Detection in LLM Agent Tool-Call Traffic: An Empirical Study of Features, Architectures, and Evaluation Protocols
The Model Context Protocol (MCP) has become a widely adopted interface for LLM agents to invoke external tools, yet learned monitoring of MCP tool-call traffic remains underexplored. In this article, the proposed detector is presented as an attack detection framework for MCP tool-call traffic that encodes each agent session as a graph (tool calls as nodes, sequential and data-flow links as edges), enriches nodes with sentence-embedding features over arguments and responses, and classifies sessions as benign or attacked. Three GNN architectures (GAT, GCN, GraphSAGE), a no-graph MLP, and classical baselines (XGBoost, random forest, logistic regression, linear SVM) are evaluated, with the full architecture comparison conducted on RAS-Eval (task-stratified splits) and GraphSAGE retained as the GNN baseline on ATBench and a combined-source variant (both label-stratified). Three findings emerge. First, content-level features are essential: metadata-only detection plateaus around an AUROC of 0.64 regardless of architecture, while content embeddings push the AUROC above 0.89. Second, naive random-split evaluation inflates AUROC by up to 26 percentage points relative to task-disjoint splits, a memorization confound that prior agent-detection work has not addressed. Third, the detection signal resides primarily in the SBERT content embeddings: an AUROC of 0.975 was reached by tree ensembles on pooled embeddings, performing, for the most part, better than the neural architectures in the primary RAS-Eval setting including GNNs (0.917) and the MLP (0.896), and self-supervised pre-training does not deliver a label-efficiency advantage on this task.
ReCoVer: フォールトトレラントな集合的で汎用性の高いワークロードを介した回復力のある LLM 事前トレーニング システム
大規模な GPU クラスターで大規模な言語モデルを事前トレーニングすることにより、ハードウェア障害が稀ではなく日常的に発生するようになり、回復力のあるトレーニング システムの必要性が高まっています。しかし、既存のフレームワークは、特定の並列処理スキームに焦点を当てているか、失敗のないトレーニング軌道から逸脱する危険性があります。私たちは、単一の不変条件を維持する回復力のある LLM 事前トレーニング システムである ReCoVer を提案します。つまり、各反復でマイクロバッチの数を一定に保ち、反復ごとの勾配が失敗のない実行と確率的に等価であることを保証します。このフレームワークは、3 つの分離されたプロトコル層として構成されています。(1) 障害がレプリカ間で伝播するのを隔離するフォールトトレラント集合体。 (2) 反復内の進行状況を維持し、勾配の破損を防ぐ、段階的なきめ細かいリカバリ。 (3) マイクロバッチ クォータを生存者全体に動的に再配分する多用途ワークロード ポリシー。この設計は並列処理に依存せず、3D 並列処理とドロップイン サブストレートとしてハイブリッド シャード データ パラレル (HSDP) の両方を直接統合します。最大 512 GPU のエンドツーエンドの事前トレーニング タスクで実装を評価しました。ReCoVer は、実行全体で 256 GPU が失われたにもかかわらず、障害のないリファレンスからトレーニング軌跡を正常に保存しました。チェックポイントと再起動のベースラインと比較すると、ReCoVer は、連続した障害の後、実効スループットが 2.23 倍高いことを示しています。この利点により、ReCoVer は 234 GPU 時間で 74.9% 多くのトークンを処理することになり、トレーニングが長引くにつれてその差は拡大します。
原文 (English)
ReCoVer: Resilient LLM Pre-Training System via Fault-Tolerant Collective and Versatile Workload
Pre-training large language models on massive GPU clusters has made hardware faults routine rather than rare, driving the need for resilient training systems. Yet existing frameworks either focus on specific parallelism schemes or risk drifting away from a failure-free training trajectory. We propose ReCoVer, a resilient LLM pre-training system that upholds a single invariant: each iteration keeps the number of microbatches constant, ensuring per-iteration gradients remain stochastically equivalent to a failure-free run. The framework is organized as three decoupled protocol layers: (1) Fault-tolerant collectives that isolate faults from propagating across replicas; (2) in-step fine-grained recovery that preserves intra-iteration progress and prevents gradient corruption; (3) versatile-workload policy that dynamically redistributes microbatch quotas across the survivors. The design is parallelism-agnostic, integrating directly with both 3D parallelism and Hybrid Sharded Data Parallel (HSDP) as a drop-in substrate. We evaluate our implementation on end-to-end pre-training tasks for up to 512 GPUs, ReCoVer successfully preserves the training trajectory from a failure-free reference despite of 256 GPUs lost spread across the run. For comparison with checkpoint-and-restart baselines, ReCoVer demonstrates $2.23\times$ higher effective throughput after successive failures. This advantage results in ReCoVer processing 74.9% more tokens at 234 GPU-hours, with the gap widening as the training prolongs.
S-Bus: マルチエージェント LLM 状態調整のための自動読み取りセット再構築
HTTP 経由で変更可能な状態を共有する LLM エージェントの同時実行制御に対処します。この場合、エージェントを変更して読み取りセットを宣言することはできません。 S-Bus は HTTP ミドルウェアであり、その中心的なメカニズムであるサーバー側の DeliveryLog が、観測された HTTP GET トラフィックからコミット時に各エージェントの読み取りセットを再構築します。これが提供する一貫性プロパティ -- Observable-Read Isolation (ORI)、HTTP 監視可能な読み取りプロジェクションに対する部分的な因果的一貫性 -- により、専用シャード トポロジでの構造的競合状態が防止されます。 3 つの貢献。 (C1) 3 層の機械化された証拠を備えた DeliveryLog メカニズム: TLAPS は ReadSetSoundness と ORICommitSafety (モジュロ 1 の型付け公理) を証明します。 N=3 での網羅的な TLC では、違反がゼロの 20,763,484 州を調査します。 Dafny は 9 つの帰納補題を導き出します。 (C2) PostgreSQL 17 SERIALIZABLE および Redis 7 WATCH/MULTI に対する経験的安全性パリティ: 884,110 回のコミット試行で Type-I 破損はゼロ (アクティブな競合下では 427,308 回)。 (C3) ORI は、専用シャードのワークロードでは意味的に中立ですが、単一シャードの共同執筆では、保存により同時矛盾が伝播するため有害です。 v2 アップデート: PH-3 LLM ジャッジは現在、人間のアノテーター (Zahid Hussain、Mindgigs Peshawar) に対して、厳密な kappa=0.93 (n=93、生の一致率 96.8%) で 400 (ステップ、シャード) ペアで独立して検証されています。 LLM と裁判官間の一致は、kappa=0.46 (境界分散) です。エージェントは、シャードの使用量を 32% (LLM 判事) ~ 49% (人間のアノテーター) 過剰に使用していると自己報告します。 SJ-v4 の意味品質ルーブリックは引き続き単一審査員 LLM のみです。ソースコード、正式な証明、ハーネス、アノテーションデータ: https://github.com/sajjadanwar0/sbus
原文 (English)
S-Bus: Automatic Read-Set Reconstruction for Multi-Agent LLM State Coordination
We address concurrency control for LLM agents sharing mutable state over HTTP, where agents cannot be modified to declare read sets. S-Bus is an HTTP middleware whose central mechanism, a server-side DeliveryLog, reconstructs each agent's read set at commit time from observed HTTP GET traffic. The consistency property it provides -- Observable-Read Isolation (ORI), a partial causal consistency over the HTTP-observable read projection -- prevents Structural Race Conditions in dedicated-shard topologies. Three contributions. (C1) DeliveryLog mechanism with three-tier mechanised evidence: TLAPS proves ReadSetSoundness and ORICommitSafety (modulo one typing axiom); exhaustive TLC at N=3 explores 20,763,484 states with zero violations; Dafny discharges 9 inductive lemmas. (C2) Empirical safety parity against PostgreSQL 17 SERIALIZABLE and Redis 7 WATCH/MULTI: zero Type-I corruptions across 884,110 commit attempts (427,308 under active contention). (C3) ORI is semantically neutral in dedicated-shard workloads but harmful in single-shard collaborative writing because preservation propagates concurrent contradictions. v2 update: the PH-3 LLM judge is now independently validated against a human annotator (Zahid Hussain, Mindgigs Peshawar) on 400 (step, shard) pairs at strict kappa=0.93 (n=93, 96.8% raw agreement). Inter-LLM-judge agreement is kappa=0.46 (boundary variance). Agent self-reports over-claim shard usage by 32% (LLM judge) to 49% (human annotator). The SJ-v4 semantic-quality rubric remains single-judge LLM-only. Source code, formal proofs, harness, annotation data: https://github.com/sajjadanwar0/sbus
TwinRouterBench: 現実的なエージェント LLM ルーティングのための高速静的およびライブ動的評価
LLM ルーティングは、コーディング エージェント、詳細調査システム、コンピュータ使用エージェントなど、単一のユーザー リクエストが多くのモデル呼び出しをトリガーする長期的なアプリケーションで最も重要です。各コールを最も安価な十分なモデルにルーティングすると、品質を犠牲にすることなくコストを削減できますが、既存のルーター ベンチマークはワンショット プロンプトでのみルーターを評価します。中間エージェントのステップでルーターから見えるプレフィックスを公開することは決してなく、より安価な代替品が下流のタスクの成功を維持するかどうかをテストすることもありません。また、多くの場合、評価時にオンラインの LLM 判定に依存します。 2 つのトラックを備えたステップレベルのルーティング ベンチマークである TwinRouterBench を紹介します。静的トラックは、SWE ベンチ、BFCL、mtRAG、QMSum、および PinchBench にわたる 520 のインスタンスからの 970 のルーター可視プレフィックスを提供します。それぞれは、リリースされたダウングレードおよびカスケード プロトコルに基づいて推定された実行検証済みのターゲット層とペアになっています。スコアリングは、オンライン評価者側の LLM ジャッジなしで、ティア ラベル、軌跡メンバーシップ、およびトークン コストに関する決定論的な算術演算です。ダイナミック トラックは、500 ケースの SWE ベンチ検証済みスイート全体でルーターを実行するハーネスを提供します。この論文では、静的な SWE 監視分割とは切り離された 100 件のホールドアウト評価を報告します。各 LLM 呼び出しで、ルーターはロックされたプールから具体的なモデルを選択し、成功は公式のタスク解決と実際の API 消費量によって測定されます。 2 つのトラックは、高速なオフライン反復と、その後のライブ エージェント実行下でのエンドツーエンド検証をサポートします。コードとデータは https://github.com/CommonstackAI/TwinRouterBench で入手できます。
原文 (English)
TwinRouterBench: Fast Static and Live Dynamic Evaluation for Realistic Agentic LLM Routing
LLM routing matters most in long-horizon applications such as coding agents, deep research systems, and computer-use agents, where a single user request triggers many model calls. Routing each call to the cheapest sufficient model can cut costs without sacrificing quality, yet existing router benchmarks evaluate routers only on one-shot prompts. They never expose the router-visible prefix at an intermediate agent step, never test whether a cheaper replacement preserves downstream task success, and often rely on online LLM judges at evaluation time. We introduce TwinRouterBench, a step-level routing benchmark with two tracks. The static track provides 970 router-visible prefixes from 520 instances across SWE-bench, BFCL, mtRAG, QMSum, and PinchBench, each paired with an execution-verified target tier estimated under a released downgrade-and-cascade protocol; scoring is deterministic arithmetic over tier labels, trajectory membership, and token costs, with no online evaluator-side LLM judge. The dynamic track supplies a harness that runs routers on the full 500-case SWE-bench Verified suite; in this paper we report a 100-case held-out evaluation disjoint from the static SWE supervision split. At each LLM call the router selects a concrete model from a locked pool, and success is measured by official task resolution and realized API spend. The two tracks support fast offline iteration followed by end-to-end validation under live agent execution. Code and data are available at https://github.com/CommonstackAI/TwinRouterBench.
ThoughtTrace: 現実世界のLLMインタラクションにおけるユーザーの思考を理解する
会話型 AI は現在、何十億ものユーザーに利用されていますが、既存のデータセットは人々の考えではなく、発言したことだけを捕捉します。私たちは、現実世界の人間と AI のマルチターン会話と、ユーザーの自己申告の考え (プロンプトを送信する理由やアシスタントの応答に対する反応) を組み合わせた初の大規模データセットである ThoughtTrace を紹介します。 ThoughtTraceは、20の言語モデルにわたって収集された1,058人のユーザー、2,155の会話、17,058ターン、および10,174の思考注釈で構成されています。私たちの分析では、ThoughtTrace が長期にわたる話題の多様なやり取りを捉えていること、思考がメッセージとは意味的に区別されており、フロンティア LLM がコンテキストから推測することが困難であり、内容が多様であり、会話の段階に関連付けられていることが示されています。さらに、下流のモデリングにおける思考の有用性を実証します。まず、思考により、推論時のコンテキストとしてのユーザー行動の予測が向上します。第 2 に、思考に基づく書き換えにより、パーソナライズされたアシスタントをトレーニングするためのきめの細かい調整信号が提供されます。 ThoughtTraceは、人間とAIの相互作用の背後にある認知ダイナミクスを研究するための新しいデータモダリティとしてユーザーの思考を確立し、ユーザーの潜在的な目標、好み、ニーズをよりよく理解し、適応するアシスタントを構築するための基盤を提供します。
原文 (English)
ThoughtTrace: Understanding User Thoughts in Real-World LLM Interactions
Conversational AI has now reached billions of users, yet existing datasets capture only what people say, not what they think. We introduce ThoughtTrace, the first large-scale dataset that pairs real-world multi-turn human--AI conversations with users' self-reported thoughts: their reasons for sending prompts and reactions to assistant responses. ThoughtTrace comprises 1,058 users, 2,155 conversations, 17,058 turns, and 10,174 thought annotations collected across 20 language models. Our analysis shows that ThoughtTrace captures long-horizon, topically diverse interactions, and that thoughts are semantically distinct from messages, difficult for frontier LLMs to infer from context, diverse in content, and tied to conversation stages. We further demonstrate the utility of thoughts for downstream modeling. First, thoughts improve user-behavior prediction as inference-time context. Second, thought-guided rewrites provide fine-grained alignment signals for training personalized assistants. Together, ThoughtTrace establishes user thoughts as a new data modality for studying the cognitive dynamics behind human--AI interaction and provides a foundation for building assistants that better understand and adapt to users' latent goals, preferences, and needs.
LLM 強化学習のための MXFP4 量子化誤差の分解: 削減可能なバイアス、回復可能なデッドゾーン、および既約の下限
MXFP4 算術演算は、大規模言語モデル (LLM) のトレーニング後の強化学習 (RL) を劇的に加速できますが、量子化エラーにより精度が大幅に低下します。既存の研究では、量子化誤差をモノリシックなノイズ項として扱っており、量子化誤差がトレーニングにどのような影響を与えるかを解釈する際の明確なメカニズムが欠けています。量子化誤差の正確な 3 方向分解を証明し、各コンポーネントが個別の RL トレーニング経路をどのように支配するかを示します。私たちの理論的および経験的分析は、MXFP4 量子化誤差を 3 つの加算成分に分解します。2 のべき乗の丸めによる「スケール バイアス」、小さな値をゼロにすることによる「デッドゾーンの切り捨て」、および最も近い 4 ビット グリッドへの丸めによる「グリッド ノイズ」です。各コンポーネントは、個別の RL 故障モードを支配します。スケール バイアスは、後方パスを通じて乗算的に蓄積し、勾配の精度に影響を与えます。デッドゾーンの切り捨てはロールアウトの品質を低下させます。そしてグリッドノイズは政策のエントロピーを増大させます。 RL 障害モードを対象とするがコンポーネントに限定されない修正を組み合わせます。つまり、スケール バイアスを低減するためのマクロブロック スケーリング、デッドゾーン エントリを回復する外れ値フォールバック、スケール バイアスによって引き起こされるエラーを部分的に低減する機能、およびポリシー エントロピーを制御するための適応量子化ノイズ (AQN) です。 Qwen2.5-3B 高密度モデルと Qwen3-30B-A3B-Base の専門家混合モデルでは、ターゲットを絞った修正により、BF16 の精度がそれぞれ 0.7% 以内に回復し、BF16 を +1.0% 上回りました。
原文 (English)
Decomposing MXFP4 quantization error for LLM reinforcement learning: reducible bias, recoverable deadzone, and an irreducible floor
MXFP4 arithmetic can dramatically accelerate reinforcement learning (RL) post-training of large language models (LLMs), yet the quantization error introduces severe accuracy degradation. Existing work treats the quantization error as a monolithic noise term, missing the distinct mechanisms upon interpreting how quantization error damages training. We prove an exact three-way decomposition of quantization error and show how each component dominates a distinct RL training pathway. Our theoretical and empirical analysis decomposes the MXFP4 quantization error into three additive components: "scale bias" from power-of-two rounding, "deadzone truncation" from zeroing small values, and "grid noise" from rounding to the nearest 4-bit grid. Each component dominates a distinct RL failure mode: scale bias accumulates multiplicatively through the backward pass, affecting gradient accuracy; deadzone truncation degrades rollout quality; and grid noise raises the policy's entropy. We combine corrections that are RL failure mode-targeted but not component-exclusive: Macro-block scaling to reduce scale bias, Outlier Fallback recovers deadzone entries, but also partially reduces scale bias induced error, and Adaptive Quantization Noise (AQN) for controlling the policy entropy. On Qwen2.5-3B dense and Qwen3-30B-A3B-Base mixture-of-experts model, the targeted corrections recover BF16 accuracy to within 0.7% and exceed BF16 by +1.0% respectively.
オーディオ LLM に対するコーデックに堅牢な攻撃
Audio Large Language Model (Audio LLM) に対する以前の攻撃では、慎重に作成された波形領域の摂動により、標的を絞った敵対的な出力が強制される可能性があることが実証されました。これらの攻撃に対する防御メカニズムとして、摂動を検出して除去するための実際のコーデック圧縮前処理が研究されてきました。しかし、既存の攻撃は、これらの圧縮に対する堅牢性を実証していません。 Codec Attack を導入します。これは、オーディオ波形を直接摂動するのではなく、ニューラル オーディオ コーデックの連続潜在空間の摂動を最適化します。波形の摂動を破棄するコーデックの圧縮チャネルが、独自の潜在空間で作成された摂動を送信することを示します。現実世界の圧縮チャネル全体にわたる攻撃をさらに強化するために、ターゲット モデルを変更することなく、マルチ ビットレートのストレートスルー Expectation-over-Transformation (EoT) を適用します。 3 つの現実的な Audio LLM 導入シナリオと 3 つのターゲット モデルにわたって、Codec Attack は、中程度のビットレートで Opus 上で平均 85.5% のターゲット部分文字列攻撃成功率 (ASR) を達成しました。一方、同一の EoT 強化でトレーニングされた波形ベースラインは、どのビットレートでも 26% を超えません。攻撃は保留されたコーデックに転送され、再トレーニングなしで MP3 では最大 100% の ASR、AAC-LC では 84% に達します。帯域ごとのエネルギー解析では、潜在的な摂動がコーデックが最も多くのビットを割り当てる 4kHz 以下に集中している一方、波形のベースラインはコーデックが破棄するより高い周波数に広がっていることがわかります。これらの結果は、不可逆圧縮が敵対的なオーディオに対する信頼できる防御策ではなく、コーデックを意識した攻撃が導入された Audio LLM システムに実質的な脅威となることを示しています。
原文 (English)
Codec-Robust Attacks on Audio LLMs
Prior attacks on Audio Large Language Models (Audio LLMs) demonstrated that carefully crafted waveform-domain perturbations can force targeted adversarial outputs. As a defense mechanism against these attacks, real-world codec compression preprocessing has been studied to both detect and remove the perturbations. Yet no existing attack has demonstrated robustness against these compressions. We introduce CodecAttack, which optimizes a perturbation in a neural audio codec's continuous latent space rather than directly perturbing the audio waveform. We show that the codec's compression channel, which discards waveform perturbations, transmits perturbations crafted in its own latent space. To further harden the attack across real-world compression channels, we apply multi-bitrate straight-through Expectation-over-Transformation (EoT), all without modifying the target model. Across three realistic Audio LLM deployment scenarios and three target models, CodecAttack achieves an average 85.5% target-substring attack success rate (ASR) on Opus at moderate bitrates, while the waveform baseline trained with identical EoT hardening does not exceed 26% at any bitrate. The attack transfers to held-out codecs, reaching up to 100% ASR on MP3 and 84% on AAC-LC without retraining. A per-band energy analysis shows that the latent perturbation concentrates below 4kHz, exactly where codecs allocate the most bits, while the waveform baseline spreads into higher frequencies that codecs discard. These results demonstrate that lossy compression is not a reliable defense against adversarial audio and that codec-aware attacks pose a practical threat to deployed Audio LLM systems.
Microsoft Security Copilot による GenAI 主導の脅威検出
今日のますます巧妙化するサイバー攻撃を防御するには、セキュリティ アナリストが進化する攻撃者の手口を検出ロジックに継続的に変換する必要があります。これにより、防御側は事後対応の態勢に置かれ、断片化が進むセキュリティ環境全体にわたって常に最新の専門知識が必要となります。動的脅威検出エージェント (DTDA) を導入します。これは、Microsoft Defender 全体のセキュリティ インシデントを継続的に調査し、隠れた脅威を明らかにし、攻撃ストーリーのギャップが見つかった場合に説明可能な検出を生成する、常時稼働の適応型エージェントです。 DTDA は以下を組み合わせます。(1) アラート、イベント、ユーザーおよびエンティティの行動分析、脅威インテリジェンスにわたる統合されたアクティビティ タイムライン。 (2) スキーマ検証、グラウンディング要件、制限付き再試行、およびフェールクローズ抑制を備えたバージョン化された LLM プロンプト コントラクト。 (3) 攻撃固有の仮説を生成し、裏付けと反駁の証拠を収集する、計画者と実行者の調査ループ。 (4) コンテキストに関連したタイトル、重大度、MITRE マッピング、修復ガイダンス、関係するエンティティ、および自然言語攻撃の説明を含む動的なアラート生成。 DTDA は Microsoft Security Copilot に統合され、数万の Defender 顧客に展開され、業界規模で継続的に運用されています。 120 日間のオンライン評価で、DTDA は顧客のフィードバックから 80.1% の精度を達成し、調査されたインシデントの約 15% に対して新しいアラートを生成しました。オフライン評価では、DTDA は GPT-5.4 を使用して隠れた悪意のあるアクティビティを 0.78 F1 で回復し、GPT-4.1 よりも 0.12 F1 改善し、ベースラインを 0.26 F1 ポイント上回りました。運用上、DTDA は単一インシデントの調査をエンドツーエンドで中央値 28 分、トークンコスト中央値 2.04 米ドル、ジョブレベル失敗率 0.38% で処理します。これらの結果は、自律エージェントが運用規模で見逃した悪意のあるアクティビティを特定できることを示しています。
原文 (English)
GenAI-Driven Threat Detection with Microsoft Security Copilot
Defending against today's increasingly sophisticated cyberattacks requires security analysts to continuously translate evolving attacker tradecraft into detection logic. This places defenders in a reactive posture, requiring constantly updated expertise across an increasingly fragmented security landscape. We introduce the Dynamic Threat Detection Agent (DTDA), an always-on adaptive agent that continuously investigates security incidents across Microsoft Defender to uncover hidden threats and generate explainable detections when attack-story gaps are found. DTDA combines: (1) a unified activity timeline spanning alerts, events, user and entity behavior analytics, and threat intelligence; (2) versioned LLM prompt contracts with schema validation, grounding requirements, bounded retries, and fail-closed suppression; (3) a planner-executor investigation loop that generates attack-specific hypotheses and gathers supporting and refuting evidence; and (4) dynamic alert generation with a context-relevant title, severity, MITRE mappings, remediation guidance, implicated entities, and natural-language attack description. Integrated into Microsoft Security Copilot and deployed across tens of thousands of Defender customers, DTDA operates continuously at industry scale. In a 120-day online evaluation, DTDA achieves 80.1% precision from customer feedback while generating novel alerts for approximately 15% of investigated incidents. In offline evaluation, DTDA recovers hidden malicious activity with 0.78 F1 using GPT-5.4, improving over GPT-4.1 by 0.12 F1 and outperforming the baseline by 0.26 F1 points. Operationally, DTDA processes single-incident investigations end-to-end in a median of 28 minutes at a median token cost of USD 2.04, with a 0.38% job-level failure rate. These results demonstrate that autonomous agents can identify missed malicious activity at a production scale.
法律に対するきめ細かい請求レベルの RAG ベンチマーク
大規模言語モデル (LLM) の急速な進歩により、意味検索はユーザーが質問し、LLM が応答を生成する質問応答パラダイムに移行しています。法律などの一か八かの分野では、生成された応答の幻覚を軽減するために検索拡張生成 (RAG) が一般的に使用されます。それにもかかわらず、これまでの研究では、RAG システムは、汎用であろうと法律固有であろうと、依然としてさまざまな割合で幻覚を起こすため、きめ細かい評価が不可欠であることが示されています。必要性にもかかわらず、法的 RAG システムの既存の評価フレームワークには、取得パフォーマンスと生成パフォーマンスを個別に詳細に分析するために必要な粒度が不足しています。さらに、現在のベンチマークは主に英語のみであり、法律専門家の質問が中心であり、専門家以外のニーズは無視されています。 ClaimRAG-LAW は、フランス語と英語をサポートし、専門家と非専門家の両方を対象とし、現実的なシナリオを反映した多様な質問タイプを含む、法律 RAG の包括的なデータセットです。さらに、最先端の法的 RAG システムのきめ細かい評価フレームワークを適用し、法的領域における検索、生成、請求レベルの分析における限界を明らかにします。
原文 (English)
Fine-grained Claim-level RAG Benchmark for Law
The rapid progress of large language models (LLMs) is shifting semantic search toward a question-answering paradigm, where users ask questions and LLMs generate responses. In high-stake domains such as law, retrieval-augmented generation (RAG) is commonly used to mitigate hallucinations in generated responses. Nonetheless, prior work shows that RAG systems, whether general-purpose or legal-specific, still hallucinate at varying rates, making fine-grained evaluation essential. Despite the need, existing evaluation frameworks for legal RAG systems lack the granularity required to provide detailed analysis of retrieval and generation performance separately. Moreover, current benchmarks are largely English-only and centered on legal expert queries, overlooking non-expert needs. We introduce ClaimRAG-LAW, a comprehensive dataset for legal RAG that supports French and English, targets both experts and non-experts, and includes diverse question types reflecting realistic scenarios. We further apply a fine-grained evaluation framework of state-of-the-art legal RAG systems, revealing limitations in retrieval, generation, and claim-level analysis in the legal domain.
OPPO: LLM 推論におけるトークンレベルのクレジット割り当てのためのベイジアン値再帰
検証可能な報酬を伴う強化学習は、LLM 推論を改善するための標準レシピとなっていますが、主要なアルゴリズムである GRPO は、すべてのトークンに単一の軌道レベルの利点を割り当て、重要な推論ステップで信号を薄め、有益でないステップでノイズを注入します。オンポリシー蒸留から派生した批判のない代替案は、オラクル条件付き尤度比を通じてトークンごとの信号を提供しますが、その位置までに蓄積された軌跡レベルの証拠から各信号を分離して適用します。私たちは、Oracle-Prompted Policy Optimization (OPPO) を提案します。これは、単一の観測に基づいています。局所的な識別のために以前の蒸留スタイルの手法で使用されるオラクル信号は、最終的な成功についてのモデルの信念の自然なベイズ更新でもあります。軌跡に沿って信号を蓄積すると、閉じた形式で 1 つの追加の前方パスを犠牲にして、学習された値ネットワークや追加のロールアウトを必要としないトークンレベルの利点とともに、すべての位置での成功確率の現在の推定値が得られます。一次分析は、真に重要なトークンに信用を集中させる状態重みによって変調された蒸留方法によって使用されるトークンごとの識別信号に利点を因数分解し、方向性分散削減保証を行います。このフレームワークは、どのモデルが証拠をスコアリングするかという点のみが異なる 2 つの推定器を認めています。1 つは学生を再利用し、厳密な特殊ケースとしてポリシーに基づく蒸留報酬を回収する \textit{self-oracle} で、もう 1 つはスコアリングをより強力な凍結モデルに委任する \textit{Teacher-oracle} です。 7 つの数学、科学、およびコード推論ベンチマークにわたる 2 つのベース LLM では、OPPO は GRPO、DAPO、SDPO よりも AMC'23 で最大 $+6.0$ ポイント、AIME'24 で $+5.2$ ポイント向上し、そのゲインは応答長に応じて単調に広がります。
原文 (English)
OPPO: Bayesian Value Recursion for Token-Level Credit Assignment in LLM Reasoning
Reinforcement learning with verifiable rewards has become the standard recipe for improving LLM reasoning, but the dominant algorithm GRPO assigns a single trajectory-level advantage to every token, diluting the signal at pivotal reasoning steps and injecting noise at uninformative ones. Critic-free alternatives derived from on-policy distillation supply per-token signals through oracle-conditioned likelihood ratios, yet apply each signal in isolation from the trajectory-level evidence accumulated up to that position. We propose Oracle-Prompted Policy Optimization (OPPO), which rests on a single observation: the oracle signal used by prior distillation-style methods for local discrimination is also the natural Bayesian update of the model's belief about eventual success. Accumulating the signal along a trajectory yields, in closed form and at the cost of one extra forward pass, a running estimate of the success probability at every position, together with a token-level advantage that requires no learned value network and no additional rollouts. A first-order analysis factorizes the advantage into the per-token discrimination signal used by distillation methods modulated by a state weight that concentrates credit on genuinely pivotal tokens, with a directional variance-reduction guarantee. The framework admits two estimators differing only in which model scores the evidence: a \textit{self-oracle} that reuses the student and recovers the on-policy distillation reward as a strict special case, and a \textit{teacher-oracle} that delegates scoring to a stronger frozen model. On two base LLMs across seven mathematics, science, and code reasoning benchmarks, OPPO improves over GRPO, DAPO, and SDPO by up to $+6.0$ points on AMC'23 and $+5.2$ points on AIME'24, with gains that widen monotonically with response length.
「Gemini」「Claude Code」「Codex」 全社展開・本番実装に役立つ5つのポイント
開発現場における生成AIの利用は常態化しつつあるものの、「コード補完の域を出ない」「特定の個人のスキルに依存している」といった課題があります。本稿では、個人の生産性向上からチームへの定着、全社規模での展開、そしてAIエージェントの本番実装に至るまで、開発プロセス変革に役立つ5つ…
ソースネクストのAI議事録、Microsoft 365 Copilot連携で検索、要約を効率化
ソースネクストは、AI議事録サービス「AutoMemo」の新機能として、「AutoMemo Copilot エージェント」の提供を始めた。Microsoft 365 Copilotから過去の会議データを検索、要約、抽出できるようにし、議事録作成や報告業務の効率化を支援する。