トピック: ビジネス/資金調達
該当記事 386 件 / 新しい順
メタエージェントの課題: 現在のエージェントは自律的なエージェント開発が可能ですか?
現在の AI ベンチマークは、人間が設計したワークフロー内でのタスク実行に関してエージェントを評価します。これらの評価では、基本的に、モデルが自律的にエージェント システムを開発できるかどうかという、重要な次のレベルの機能を測定できません。自律エージェント開発のためのフロンティア モデルの能力をテストするために設計された評価フレームワークであるメタエージェント チャレンジ (MAC) を紹介します。具体的には、コード エージェント (メタエージェント) には、サンドボックス環境、評価 API、および 5 つのドメインにわたって実施されたテスト セットのパフォーマンスを最大化するエージェント アーティファクトを反復的にプログラムするための時間制限が与えられます。評価の整合性を確保するために、このフレームワークは報酬ハッキングに対する多層防御によって保護されています。このフレームワークを活用して、メタエージェントが人為的に設計されたベースライン ポリシーと一致することはほとんどなく、一致する少数のエージェントは独自のフロンティア モデルによって支配されていることを示します。さらに、設計プロセスは高い分散を示し、高い最適化圧力により、グラウンドトゥルースの漏洩などの敵対的な動作が表面化し、堅牢性とモデルの調整の両方における重大な欠陥が浮き彫りになります。最終的に、MAC は自律型 AI の研究開発のための厳密なオープンソース ベンチマークを提供し、再帰的な自己改善を評価するための経験的な代用手段を提供します。ベンチマークは https://github.com/ant-research/meta-agent-challenge で公開されています。
原文 (English)
The Meta-Agent Challenge: Are Current Agents Capable of Autonomous Agent Development?
Current AI benchmarks evaluate agents on task execution within human-designed workflows. These evaluations fundamentally fail to measure a critical next-level capability: whether models can autonomously develop agent systems. We introduce the Meta-Agent Challenge (MAC), an evaluation framework designed to test the capacity of frontier models for autonomous agent development. Specifically, a code agent (the meta-agent) is given a sandboxed environment, an evaluation API, and a time limitation to iteratively program an agent artifact that maximizes performance on a held-out test set across five domains. To ensure evaluation integrity, this framework is secured by multi-layer defenses against reward hacking. Leveraging this framework, we demonstrate that meta-agents rarely match human-engineered baseline policies, and the few that do are dominated by proprietary frontier models. Moreover, the design process exhibits high variance, and high optimization pressure surfaces emergent adversarial behaviors like ground-truth exfiltration-highlighting critical deficits in both robustness and model alignment. Ultimately, MAC provides a rigorous, open-source benchmark for autonomous AI research and development, offering an empirical proxy for evaluating recursive self-improvement. Benchmark is publicly available at: https://github.com/ant-research/meta-agent-challenge.
SpurAudio: 少数ショット音声分類におけるショートカット学習を研究するためのベンチマーク
少数ショット分類 (FSC) は、限られたラベル付きデータから学習するために広く使用されていますが、ほとんどの評価は、ターゲットの概念が文脈上の手がかりから独立していることを暗黙的に前提としています。ただし、現実世界の設定では、サンプルがリッチ コンテキスト内に表示されることが多く、モデルが前景コンテンツと背景信号の間の偽の相関を利用できるようになります。このような効果は少数ショット画像分類で研究されていますが、少数ショット音声分類におけるその役割はほとんど解明されておらず、既存の音声ベンチマークでは文脈構造に対する制御が限られています。 SpurAudio というベンチマークを紹介します。これは、オーディオの前景イベントと背景環境の自然な分離性を活用して、サポートおよびクエリ セットにわたるコンテキストの変化を制御されたマルチレベルの評価を可能にするベンチマークです。このベンチマークを使用して、多くの最先端の少数ショット手法は、標準的な評価プロトコルで同様の精度を達成しているにもかかわらず、バックグラウンド相関が破壊されると重大なパフォーマンス低下に見舞われることがわかります。重要なのは、この脆弱性は大規模な事前トレーニング済みオーディオ基盤モデルでも存続しており、バックボーン容量の制限が説明の対象外となっているということです。さらに、従来のベンチマークでは同等に見える手法でも、偽の相関に対して著しく異なる感度を示す可能性があり、推論時に特徴表現が分類器ヘッドとどのように相互作用するかに関連する体系的なアルゴリズムの強みと脆弱性が明らかになります。これらの発見は、オーディオにおける少数ショット法の動作に関する新たな洞察を提供し、FSC モデルを評価する際のコンテキスト依存性を明示的に調査するベンチマークの必要性を強調しています。
原文 (English)
SpurAudio: A Benchmark for Studying Shortcut Learning in Few-Shot Audio Classification
Few-shot classification (FSC) is widely used for learning from limited labeled data, yet most evaluations implicitly assume that target concepts are independent of contextual cues. In real-world settings, however, examples often appear within rich contexts, allowing models to exploit spurious correlations between foreground content and background signals. While such effects have been studied in few-shot image classification, their role in few-shot audio classification remains largely unexplored, and existing audio benchmarks offer limited control over contextual structure. We introduce SpurAudio, a benchmark that leverages the natural separability of foreground events and background environments in audio to enable controlled, multi-level evaluation of contextual shifts across support and query sets. Using this benchmark, we show that many state-of-the-art few-shot methods suffer severe performance degradation when background correlations are disrupted, despite achieving similar accuracy under standard evaluation protocols. Crucially, this vulnerability persists even in large pretrained audio foundation models, ruling out limited backbone capacity as an explanation. Moreover, methods that appear comparable under conventional benchmarks can exhibit markedly different sensitivity to spurious correlations, revealing systematic algorithmic strengths and vulnerabilities tied to how feature representations interact with classifier heads at inference time. These findings provide new insight into the behavior of few-shot methods in audio and highlight the need for benchmarks that explicitly probe context dependence when evaluating FSC models.
L-TGVN: パーソナライズされた高速 MRI のための縦方向事前分布の活用
MRI は電離放射線を使用せずに優れた軟組織コントラストを提供しますが、取得時間が長いため患者の不快感が増大すると同時に、検査コストが上昇し、スキャナのスループットが制限されます。スキャン時間を短縮するための一般的なアプローチは、取得する測定値を少なくすることです。これにより、不適切な線形逆問題が発生します。したがって、診断品質の画像を回復するには、測定データ以外の事前知識を組み込む必要があります。追跡検査では、患者の最新の以前のスキャンにより、非常に有益な被験者固有のコンテキストが提供されますが、実際の使用は、時間的変化(病状の進行を含む)、スキャン間のずれ、取得間のプロトコルのドリフトによって複雑になります。この研究では、大幅にアンダーサンプリングされた測定値から現在のスキャンを再構築するための副次情報として以前のスキャンを活用する、縦方向の信頼誘導変分ネットワークである L-TGVN を紹介します。重要なことは、L-TGVN は、以前のスキャンの影響が取得された測定値と一致するように制限することです。既存の多くの縦方向再構成方法とは異なり、以前のスキャンと現在のスキャンの間の明示的な事前位置合わせを必要としません。さらに、訪問ごとの取得プロトコルの違い(シーケンスパラメータの変更など)にも対応します。私たちは、事前ガイド法や縦方向事前分布を使用しない方法など、一致した容量のベースラインに対して L-TGVN を評価し、困難な加速において微細構造のより良好な保存とともに、標準的な定量的指標の一貫した改善を観察しました。ソース コードは github.com/sodicksonlab/L-TGVN で入手できます。
原文 (English)
L-TGVN: Leveraging Longitudinal Priors for Personalized Rapid MRI
MRI provides excellent soft-tissue contrast without ionizing radiation, but long acquisition times increase patient discomfort while also raising exam costs and limiting scanner throughput. A common approach to reduce scan time is to acquire fewer measurements, which yields an ill-posed linear inverse problem; recovering diagnostic-quality images therefore requires incorporating prior knowledge beyond the measured data. In follow-up exams, the most recent prior scan of a patient can provide a highly informative subject-specific context, but practical use is complicated by temporal changes (including pathology progression), misalignment between scans, and protocol drift across acquisitions. In this work, we introduce L-TGVN, a Longitudinal Trust-Guided Variational Network that leverages prior scans as side information to reconstruct the current scan from heavily undersampled measurements. Crucially, L-TGVN constrains the influence of prior scans to be consistent with the acquired measurements. Unlike many existing longitudinal reconstruction methods, it does not require explicit pre-registration between prior and current scans. It further accommodates differences in acquisition protocols across visits (e.g., changes in sequence parameters). We evaluate L-TGVN against matched-capacity baselines, including prior-guided methods and methods that do not use longitudinal priors, and observe consistent improvements in standard quantitative metrics together with better preservation of fine structures at challenging accelerations. Source code is available at github.com/sodicksonlab/L-TGVN.
RowNet: 表形式回帰のためのメモリ トランスフォーマー
不動産評価は構造化回帰問題であり、価格は異種の特徴タイプ、まばらな地域効果、非線形相互作用、および比較可能な不動産の実際的なロジックによって支配されます。標準的な多層パーセプトロンは各行を孤立ベクトルとして扱い、局所性、スケール感度、およびカテゴリカルマッチングを監視のみから学習する必要があります。勾配ブースト デシジョン ツリーは強力な表形式のベースラインを提供しますが、その特徴中心の分割メカニズムは、類似した履歴観測の取得を明示的にモデル化しません。この論文では、不動産の平方メートルあたりの価格を予測するための検索ベースのニューラル アーキテクチャである RowNet について説明します。 RowNet は、ラベル付きプロパティのメモリ バンクに対するペアごとの類似性機能を通じてクエリ プロパティを表します。最初の検索層は、特徴のみの類似性から大まかなターゲットを推定します。 2 番目の層は、ターゲット一貫性機能を使用してメモリ比較を強化し、複数の学習されたアテンション ヘッドを使用して相補的な比較可能なセットを取得します。最後の専門家混合モジュールは、学習されたゲーティング、残差補正、エントロピー正則化、ヘッドダイバーシティ正則化を組み合わせて予測を生成します。
原文 (English)
RowNet: A Memory Transformer for Tabular Regression
Real estate valuation is a structured regression problem in which prices are governed by heterogeneous feature types, sparse regional effects, nonlinear interactions, and the practical logic of comparable properties. Standard multilayer perceptrons treat each row as an isolated vector and must learn locality, scale sensitivity, and categorical matching from supervision alone. Gradient-boosted decision trees provide strong tabular baselines, but their feature-centric splitting mechanism does not explicitly model the retrieval of similar historical observations. This paper presents RowNet, a retrieval-based neural architecture for real estate price-per-square-meter prediction. RowNet represents a query property through pairwise similarity features against a memory bank of labeled properties. A first retrieval layer estimates a coarse target from feature-only similarities. A second layer augments the memory comparison with target-consistency features and uses multiple learned attention heads to retrieve complementary comparable sets. A final mixture-of-experts module combines learned gating, residual correction, entropy regularization, and head-diversity regularization to produce the prediction.
共同生成と評価による自己進化する深層研究
大規模言語モデル (LLM) は日常のアプリケーションでますます採用されるようになり、詳細な研究が特に重要な機能として際立っています。従来の質問応答 (QA) タスクとは異なり、詳細な調査レポートの生成には決定的な根拠が欠けているため、報酬設計が本質的に検証不可能になり、効果的な強化学習が制限されます。既存のアプローチでは、LLM-as-a-judge およびクエリ依存の評価ルーブリックを使用してこの課題を軽減していますが、依然として静的な評価器に依存しているため、ソルバーの向上に応じて標準を適応させることができず、最適化圧力が不十分になり、最終的に飽和状態になってしまいます。私たちは、\textbf{s}elf 進化型 \textbf{co} 進化型トレーニング フレームワークで、深い \textbf{re} 検索の評価と生成 (SCORE) を使用してこの制限に対処します。これは、共有パラメータ学習プロセスにおいて評価器とソルバーを緊密に結合します。生成と評価を独立したモジュールとして扱うのではなく、それらの本質的なつながりを活用して、単一の共有パラメーター モデル内で共同の改善を可能にします。このプロセスを制限するために、ソルバーのパフォーマンスに基づいて評価環境を動的に制御するメタハーネスを導入し、有効な評価次元と十分に深い評価者の検索を促進します。ディープリサーチベンチマークに関する広範な実験により、レポート生成の品質が一貫して向上していることが実証されており、評価と生成を共進化させることが、オープンエンドのリサーチエージェントをトレーニングするための有望な方向性であることが示されています。
原文 (English)
Self-Evolving Deep Research via Joint Generation and Evaluation
Large Language Models (LLMs) have become increasingly adopted in daily applications, with deep research standing out as a particularly important capability. Unlike traditional question-answering (QA) tasks, deep research report generation lacks definitive ground-truth, making reward design inherently unverifiable and limiting effective reinforcement learning. Existing approaches mitigate this challenge with LLM-as-a-judge and query-dependent evaluation rubrics, but they still rely on static evaluators that cannot adapt their standards as the solver improves, leading to insufficient and eventually saturated optimization pressure. We address this limitation with a \textbf{s}elf-evolving \textbf{co}-evolutionary training framework for deep \textbf{re}search evaluation and generation (SCORE), which tightly couples an evaluator and a solver in a shared-parameter learning process. Rather than treating generation and evaluation as isolated modules, we leverage their intrinsic connection to enable joint improvement within a single shared-parameter model. To restrict this process, we introduce a meta-harness, which dynamically controls the evaluation environment based on solver performance, encouraging valid evaluation dimensions and sufficiently deep evaluator search. Extensive experiments on deep research benchmarks demonstrate consistent improvement in report generation quality, showing that co-evolving evaluation and generation is a promising direction for training open-ended research agents.
M$^3$Eval: 認知に基づいたビデオタスクによるマルチモーダル記憶評価
マルチモーダル モデルが長時間ビデオの理解に向けて進歩するにつれ、メモリが重要な能力として浮上します。ビデオ データセットとベンチマークの開発には多大な努力が払われているにもかかわらず、既存の研究は主に知覚と推論に焦点を当てており、どのモデルが保持するか、情報がどの程度忠実に保存されるか、干渉下でもメモリがどの程度堅牢に保たれるかなど、記憶を体系的に評価することはありません。このギャップに対処するために、マルチモーダル モデルでさまざまなメモリ次元を調査するための最初の包括的な評価フレームワークおよびベンチマークである M$^3$Eval を導入します。認知心理学に基づいた当社のデザインは、記憶の重要な側面を分離する慎重に構築されたタスクを特徴としています。 M$^3$Eval を活用して、代表的なマルチモーダル モデルにわたって広範な実験を実施し、一貫した弱点と独特の動作を明らかにしました。私たちは、並列ビデオストリームを処理する際にモデルがもつれの解けた表現を維持するのに苦労し、人間の記憶で観察されるものとは大幅に異なる干渉パターンを示し、記憶ソースを時間領域よりも空間領域でより確実に接地し、限られた記号記憶を実証していることを発見しました。まとめると、私たちのベンチマークは将来の研究のための貴重なリソースを提供しますが、私たちの調査結果は、メモリが基本的でありながらまだ研究されていない機能であることを強調し、マルチモーダルモデルでより効果的なメモリメカニズムを設計するための洞察を提供します。コードとデータセットは https://pku-value-lab.github.io/m3eval-homepage で入手できます。
原文 (English)
M$^3$Eval: Multi-Modal Memory Evaluation through Cognitively-Grounded Video Tasks
As multi-modal models advance towards long-form video understanding, memory emerges as a critical capability. Despite substantial efforts in developing video datasets and benchmarks, existing works primarily focus on perception and reasoning, without systematically evaluating memory: what models retain, how faithfully information is preserved, and how robust memory remains under interference. To address this gap, we introduce M$^3$Eval, the first comprehensive evaluation framework and benchmark for probing different memory dimensions in multi-modal models. Grounded in cognitive psychology, our design features carefully constructed tasks that isolate key aspects of memory. Leveraging M$^3$Eval, we conduct extensive experiments across representative multi-modal models, revealing consistent weaknesses and distinctive behaviors. We find that models struggle to maintain disentangled representations when processing parallel video streams, exhibit interference patterns differing substantially from those observed in human memory, ground memory sources more reliably in the spatial domain than the temporal domain, and demonstrate limited symbolic memory. Collectively, our benchmark provides a valuable resource for future research, while our findings highlight memory as a fundamental yet underexplored capability and offer insights for designing more effective memory mechanisms in multi-modal models. Our code and dataset are available at https://pku-value-lab.github.io/m3eval-homepage.
答えから状態へ: 大規模言語モデルにおける化学推論の検証可能なプロセスレベルの評価
大規模な言語モデルが化学アシスタントとして使用されることが増えていますが、ほとんどの化学ベンチマークは依然として最終的な回答のみをスコアとしています。これにより、重大な故障モードが隠蔽されます。モデルは、その推論が化学ロジックに違反しているにもかかわらず、正しい分子、生成物、またはオプションを出力する可能性があります。 LLM ジャッジと人間のステップレベルのプロセス アノテーションはコストが高く、一貫性がなく、幻覚に対して脆弱であるため、既存のプロセス レベルの評価機能を拡張するのは困難です。 ChemCoTBench-V2 は、構造化され検証者がアドレス指定できる化学推論トレースを低コストで監査可能に評価するためのルール検証可能な診断ベンチマークです。これは、分子理解、分子編集、分子最適化、反応予測に及び、18 のレポートタスクにわたる 5,620 の評価サンプルを備えています。モデルは、専門家が設計したテンプレートで主要な中間ステップを公開する必要があり、それらのステップは決定論的な化学ルールでチェックされ、クローズドアンサータスクの場合は、別の LLM 審査員ではなく参照トレースが使用されます。オープンエンド分子最適化は、厳密なトレース マッチングではなく、Oracle で検証可能な状態制約を使用して評価されます。このベンチマークは、最終回答の正確性、テンプレートの遵守、専門家によって洗練された中間コミットメントに対する段階的な検証者の正確さという 3 つの個別のシグナルを報告します。フロンティア モデルの実験では、最終的な回答の成功と構造化推論の状態の一貫性の間には永続的なギャップがあることが明らかになりました。モデルは多くの場合、化学ステップ チェックに失敗しながらも要求された形式に従っているか、弱い裏付け推論で正しく回答することができます。 ChemCoTBench-V2 は、きめ細かいモデル比較を可能にし、トレースが最初に検証ツールに違反する具体的なステップを特定します。
原文 (English)
From Answers to States: Verifiable Process-Level Evaluation of Chemical Reasoning in Large Language Models
Large language models are increasingly used as chemistry assistants, yet most chemistry benchmarks still score only final answers. This masks a critical failure mode: a model may output the correct molecule, product, or option while its reasoning violates chemical logic. Existing process-level evaluators are hard to scale because LLM judges and human step-level process annotation are costly, inconsistent, and vulnerable to hallucination. We introduce ChemCoTBench-V2, a rule-verifiable diagnostic benchmark for low-cost, auditable evaluation of structured, verifier-addressable chemical reasoning traces. It spans molecular understanding, molecule editing, molecular optimization, and reaction prediction, with 5,620 evaluation samples across 18 reporting tasks. Models must expose key intermediate steps in expert-designed templates, and those steps are checked with deterministic chemistry rules and, for closed-answer tasks, reference traces rather than another LLM judge. Open-ended molecular optimization is evaluated with oracle-verifiable state constraints rather than strict trace matching. The benchmark reports three separate signals: final-answer correctness, template adherence, and step-wise verifier correctness over expert-refined intermediate commitments. Experiments on frontier models reveal a persistent gap between final-answer success and structured-reasoning-state consistency: models often follow the requested format while failing chemical-step checks, or answer correctly with weak supporting reasoning. ChemCoTBench-V2 enables fine-grained model comparison and identifies the concrete step at which the trace first violates the verifier.
CounterFace: 顔認識システムのきめ細かい反事実評価のための合成顔データセット
顔認識 (FR) システムは重要なアプリケーションに広く導入されており、多様な人口や条件に対する信頼性と堅牢性が不可欠となっています。 FR システムの標準評価は通常、LFW などのデータセットに依存して平均認識精度を推定します。一部のベンチマークは、経年変化、姿勢、照明などの粗粒度のアイデンティティ内の変動も捕捉します。ただし、人間の顔には、ヘアスタイルやメイクなどの外観の変化を含む、より細かい変化が生じますが、これは既存のベンチマークでは過小評価されています。反事実評価は、このようなきめの細かい変動の下で FR の堅牢性を評価する方法を提供します。ただし、画像ジェネレーターを使用して合成された既存の反事実の顔データセットは、パイプラインでの検証に人間が使用されているため、属性の範囲が限られています。我々は、20 の顔属性と 8 つの人口統計的要素で構成される新しい反事実評価データセットである CounterFace を提案します。これは、以前の合成顔データセットを 14 属性と 2 つの人口統計的要因で上回っています。データセットは、カスタム検証機能を備えた既製の画像ジェネレーターに基づいた完全に自動化されたパイプラインを使用して生成され、人間による検証の必要性がなくなりました。 CounterFace には 11,821 の反事実の顔のペアが含まれており、事後のユーザー調査により、生成された反事実の忠実性が確認されています。 160 の属性と人口統計の組み合わせにわたって、2 つの商用 FR システムと 4 つのオープンソース FR システム (AWS Rekognition、Face++、AdaFace、MagFace、ArcFace、FaceNet) を評価します。当社のデータセットは、標準の評価ベンチマークとは異なり、個々のシステムの正確な故障モードを分離するのに役立ちます。結果は、パフォーマンスの低下は 6 つすべてのシステムの属性と人口統計によって異なり、遮蔽属性 (フェイスマスクやひげなど) が普遍的にパフォーマンスを低下させることを示しています。
原文 (English)
CounterFace: A Synthetic Face Dataset for Fine-Grained Counterfactual Evaluation of Face Recognition Systems
Face recognition (FR) systems are widely deployed in critical applications, making their reliability and robustness across diverse populations and conditions essential. Standard evaluation of FR systems typically relies on datasets such as LFW to estimate average recognition accuracy. Some benchmarks also capture coarse-grained intra-identity variations such as aging, pose, and lighting. However, human faces undergo more fine-grained changes, including appearance changes such as hairstyles and makeup, that are underrepresented in existing benchmarks. Counterfactual evaluation provides a method to assess FR robustness under such fine-grained variations. Existing counterfactual face datasets synthesized with image generators, however, are limited in attribute coverage due to the use of humans for verification in the pipeline. We propose CounterFace, a new counterfactual evaluation dataset comprising 20 facial attributes and 8 demographic factors, exceeding prior synthetic face datasets by 14 attributes and 2 demographics. The dataset is generated using a fully automated pipeline based on off-the-shelf image generators with custom verifiers, removing human need for verification. CounterFace contains 11,821 counterfactual face pairs, and a post-hoc user study confirms the faithfulness of the generated counterfactuals. We evaluate two commercial and four open-source FR systems (AWS Rekognition, Face++, AdaFace, MagFace, ArcFace, FaceNet) across 160 attribute-demographic combinations. Our dataset helps in the isolation of precise failure modes for individual systems unlike standard evaluation benchmarks. Results indicate that the performance degradation varies across attributes and demographics for all six systems and occluding attributes (e.g., facemask and facial hair) universally degrade performance.
グラフ検索からスキーマ実現まで: 異種ナレッジ グラフ上のテキストから SPARQL への反事実検証
Text-to-SPARQL は、自然言語の質問を RDF ナレッジ グラフ上の実行可能な SPARQL クエリにマッピングします。標準的な評価ではターゲット グラフが事前に修正されることがよくありますが、実践的なナレッジ グラフ質問応答 (KGQA) には、異なるスキーマ、部分的なアラインメント、および不完全なメタデータを含む異種グラフ コレクションが含まれる場合があります。この設定では、クエリ生成は SPARQL 構文以上のものに依存します。システムは、質問に必要な述語、エンティティ タイプ、結合、フィルター、および制約をサポートできるグラフ スキーマを識別する必要があります。異種の KG コレクション上でテキストから SPARQL に変換するためのスキーマベースのエージェント フレームワークである SchemaForge を紹介します。その中心的なメカニズムは、質問条件付きのスキーマ スライス アライメントです。弱いグラフの証拠によって最初にもっともらしいグラフが特定され、より強力なスキーマの証拠によって、ローカル スキーマ スライスが意図したクエリを実現できるかどうかが決まります。選択されたスキーマ スライスは、クエリの生成と実行前の検証を制限します。利用可能なグラフが 1 つだけの場合、同じ定式化は、スキーマ基盤を備えた標準の単一 KG テキストから SPARQL への変換に縮小されます。 LC-QuAD 2.0、QALD-9 Plus、QALD-10、および Spider4SPARQL で SchemaForge を評価します。 SchemaForge は、4 つの公開ベンチマーク全体で、最も一致するエージェントのベースラインよりも実行精度を平均 11.50 パーセント向上させています。 Spider4SPARQL では、SchemaForge は実行精度を 54.86% から 64.18% に向上させ、トップ 1 グラフ割り当て精度 73.0% とトップ 3 グラフ割り当て精度 97.0% を達成しました。これらの結果は、グラフの弱い証拠からスキーマ固有のクエリコミットメントへの移行と、反事実の回答セットのチェックにより、異種ナレッジグラフよりも実行可能なクエリの生成が向上することを示しています。
原文 (English)
From Graph Retrieval to Schema Realization: Counterfactual Validation for Text-to-SPARQL over Heterogeneous Knowledge Graphs
Text-to-SPARQL maps natural-language questions to executable SPARQL queries over RDF knowledge graphs. While standard evaluations often fix the target graph in advance, practical knowledge graph question answering (KGQA) may involve heterogeneous graph collections with different schemas, partial alignments, and incomplete metadata. In this setting, query generation depends on more than SPARQL syntax: the system must identify a graph schema that can support the predicates, entity types, joins, filters, and constraints required by the question. We present SchemaForge, a schema-grounded agentic framework for text-to-SPARQL over heterogeneous KG collections. Its central mechanism is question-conditioned schema-slice alignment: weak graph evidence first identifies plausible graphs, while stronger schema evidence determines whether a local schema slice can realize the intended query. The selected schema slice then constrains query generation and verification before execution. When only one graph is available, the same formulation reduces to standard single-KG text-to-SPARQL with schema grounding. We evaluate SchemaForge on LC-QuAD 2.0, QALD-9 Plus, QALD-10, and Spider4SPARQL. Across the four public benchmarks, SchemaForge improves execution accuracy over the strongest matched agent baseline by 11.50 percentage points on average. On Spider4SPARQL, SchemaForge improves execution accuracy from 54.86% to 64.18% and achieves 73.0% Top-1 and 97.0% Top-3 graph allocation accuracy. These results show that moving from weak graph evidence to schema-specific query commitments, together with counterfactual answer-set checks, improves executable query generation over heterogeneous knowledge graphs.
VGGSounder: 基礎モデルのオーディオビジュアル評価
視聴覚基礎モデルの出現は、マルチモーダルな理解を確実に評価することの重要性を強調しています。 VGGSound データセットは、オーディオビジュアル分類の評価のベンチマークとしてよく使用されます。ただし、私たちの分析では、不完全なラベル付け、部分的に重複するクラス、不整合なモダリティなど、VGGSound のいくつかの制限が特定されました。これらは、聴覚および視覚能力の歪んだ評価につながります。これらの制限に対処するために、VGGSounder を導入します。これは、VGGSound を拡張し、オーディオビジュアル基礎モデルを評価するために特別に設計された、包括的に再アノテーションが付けられたマルチラベル テスト セットです。 VGGSounder は詳細なモダリティの注釈を備えており、モダリティ固有のパフォーマンスを正確に分析できます。さらに、新しいモダリティ混乱メトリックを使用して別の入力モダリティを追加したときのパフォーマンスの低下を分析することで、モデルの限界を明らかにします。
原文 (English)
VGGSounder: Audio-Visual Evaluations for Foundation Models
The emergence of audio-visual foundation models underscores the importance of reliably assessing their multi-modal understanding. The VGGSound dataset is commonly used as a benchmark for evaluation audio-visual classification. However, our analysis identifies several limitations of VGGSound, including incomplete labelling, partially overlapping classes, and misaligned modalities. These lead to distorted evaluations of auditory and visual capabilities. To address these limitations, we introduce VGGSounder, a comprehensively re-annotated, multi-label test set that extends VGGSound and is specifically designed to evaluate audio-visual foundation models. VGGSounder features detailed modality annotations, enabling precise analyses of modality-specific performance. Furthermore, we reveal model limitations by analysing performance degradation when adding another input modality with our new modality confusion metric.
ノイズを含む音声分離におけるスケール不変信号対歪み比の研究
この論文では、事実上のベンチマーク WSJ0-2Mix の場合のように、トレーニング参照にノイズが含まれている場合に、教師あり音声分離における評価とトレーニングの目的の両方としてスケール不変信号対歪み比 (SI-SDR) を使用することの意味を検証します。ノイズの多いリファレンスを使用して SI-SDR を導出すると、ノイズによって達成可能な SI-SDR が制限されるか、分離された出力に望ましくないノイズが発生することがわかります。これに対処するために、ノイズの多い参照の学習を回避するモデルをトレーニングすることを目的として、WHAM! を使用して参照を強化し、混合を増強する方法が提案されています。これらの強化されたデータセットでトレーニングされた 2 つのモデルは、非侵入的な NISQA.v2 メトリックを使用して評価されます。結果は、分離された音声のノイズが減少していることを示していますが、参照の処理によりアーチファクトが生じ、全体的な品質の向上が制限される可能性があることが示唆されています。 WSJ0-2Mix および Libri2Mix テスト セットのモデル全体で、SI-SDR と知覚されるノイズの間に負の相関関係が見つかり、導出による結論が強調されています。
原文 (English)
A Study of the Scale Invariant Signal to Distortion Ratio in Speech Separation with Noisy References
This paper examines the implications of using the Scale-Invariant Signal-to-Distortion Ratio (SI-SDR) as both evaluation and training objective in supervised speech separation, when the training references contain noise, as is the case with the de facto benchmark WSJ0-2Mix. A derivation of the SI-SDR with noisy references reveals that noise limits the achievable SI-SDR, or leads to undesired noise in the separated outputs. To address this, a method is proposed to enhance references and augment the mixtures with WHAM!, aiming to train models that avoid learning noisy references. Two models trained on these enhanced datasets are evaluated with the non-intrusive NISQA.v2 metric. Results show reduced noise in separated speech but suggest that processing references may introduce artefacts, limiting overall quality gains. Negative correlation is found between SI-SDR and perceived noisiness across models on the WSJ0-2Mix and Libri2Mix test sets, underlining the conclusion from the derivation.
分散ゲート分布を使用した不確かさの推定
ニューラル ネットワークからのサンプルごとの不確実性の定量化の評価は、高リスクのアプリケーションを含む意思決定に不可欠です。一般的なアプローチは、ベイジアン モデルまたは近似モデルからの予測分布を使用し、対応する予測の不確実性を認識的 (モデル関連) 成分と偶然的 (データ関連) 成分に分解することです。しかし、最近では相加的分解に疑問が持たれています。この研究では、さまざまなモデル予測にわたるクラス確率分布の信号対雑音比に基づいて、不確実性の推定と分解を行うための直感的なフレームワークを提案します。アンサンブルから導出された信頼係数によって予測をスケールする分散ゲート測定を導入します。私たちはこの尺度を利用して、委員会マシンの多様性の崩壊の存在について議論します。
原文 (English)
Uncertainty Estimation using Variance-Gated Distributions
Evaluation of per-sample uncertainty quantification from neural networks is essential for decision-making involving high-risk applications. A common approach is to use the predictive distribution from Bayesian or approximation models and decompose the corresponding predictive uncertainty into epistemic (model-related) and aleatoric (data-related) components. However, additive decomposition has recently been questioned. In this work, we propose an intuitive framework for uncertainty estimation and decomposition based on the signal-to-noise ratio of class probability distributions across different model predictions. We introduce a variance-gated measure that scales predictions by a confidence factor derived from ensembles. We use this measure to discuss the existence of a collapse in the diversity of committee machines.
Safety Under Scaffolding: How Evaluation Conditions Shape Measured Safety
A safety score earned on a benchmark need not predict how the same model behaves once it is wrapped in an agentic scaffold the benchmark ne…
Markov Chain Decoders Overcome the Heavy-Tail Limitations of Lipschitz Generative Models
Heavy-tailed distributions are prevalent in performance evaluation, network traffic, and risk modeling. This behavior poses a fundamental c…
メタ学習による費用対効果の高いモデル評価
機械学習の急速な成長により、拡大し続けるモデルのエコシステムが生み出され、目に見えないラベルのないデータに対して新しくリリースされたモデルの信頼性を検証することがますます困難になっています。従来の評価パイプラインは、高価なアノテーション、繰り返しの微調整、またはモデル ファミリ間での転送ができない狭い仮定に依存しています。さまざまなアーキテクチャやモダリティにまたがる未確認のモデルをラベルなしで迅速に評価するための、コスト効率が高く、モデルに依存しないフレームワークである MetaEvaluator を紹介します。 MetaEvaluator は、参照モデルのプールに対するメタ学習を利用して転送可能な初期化を取得し、プール全体でコストを償却しながら、モデルごとの再トレーニングの必要性を排除しながら、新しいモデルの正確な評価を可能にします。私たちの知る限り、これは完全にラベルのないデータセットで新しいモデルを評価できる、モデルに依存しない最初のフレームワークです。広範な実験により、MetaEvaluator は従来のアプローチと比較して大幅にコストを削減しながら安定した正確なパフォーマンス推定値を生成し、ラベルのないデータに対する新しいモデルのスケーラブルなベンチマークを実用化できることが示されています。
原文 (English)
Learning to Evaluate: Cost-Effective Model Evaluation on Unlabeled Data with Meta-Learning
The rapid advancement of machine learning has led to an unprecedented expansion of model ecosystems, making it increasingly difficult to assess the reliability of newly released models on unseen and unlabeled data. Existing evaluation pipelines typically rely on costly annotation, repeated fine-tuning, or assumptions that do not generalize well to new models. We introduce MetaEvaluator, a cost-effective, model-agnostic framework for fast, label-free evaluation of unseen models across diverse architectures and modalities. MetaEvaluator meta-learns over a pool of reference models to acquire an effective initialization for accurate assessment of unseen models, thereby amortizing evaluation cost and eliminating the need for per-model retraining. To the best of our knowledge, this is the first model-agnostic framework that evaluates new models on unlabeled datasets. Extensive experiments demonstrate that MetaEvaluator delivers stable and accurate performance estimates at substantially lower cost than conventional approaches, enabling scalable benchmarking on unlabeled datasets for emerging models. The code is available at: https://github.com/phkhanhtrinh23/MetaEvaluator.
BenHalluEval: A Multi-Task Hallucination Evaluation Framework for Large Language Models on Bengali
Despite Bengali being the sixth most spoken language in the world, no prior work has systematically evaluated hallucination in large langua…
メタエージェントの課題: 現在のエージェントは自律的なエージェント開発が可能ですか?
現在の AI ベンチマークは、人間が設計したワークフロー内でのタスク実行に関してエージェントを評価します。これらの評価では、基本的に、モデルが自律的にエージェント システムを開発できるかどうかという、重要な次のレベルの機能を測定できません。自律エージェント開発のためのフロンティア モデルの能力をテストするために設計された評価フレームワークであるメタエージェント チャレンジ (MAC) を紹介します。具体的には、コード エージェント (メタエージェント) には、サンドボックス環境、評価 API、および 5 つのドメインにわたって実施されたテスト セットのパフォーマンスを最大化するエージェント アーティファクトを反復的にプログラムするための時間制限が与えられます。評価の整合性を確保するために、このフレームワークは報酬ハッキングに対する多層防御によって保護されています。このフレームワークを活用して、メタエージェントが人為的に設計されたベースライン ポリシーと一致することはほとんどなく、一致する少数のエージェントは独自のフロンティア モデルによって支配されていることを示します。さらに、設計プロセスは高い分散を示し、高い最適化圧力により、グラウンドトゥルースの漏洩などの敵対的な動作が表面化し、堅牢性とモデルの調整の両方における重大な欠陥が浮き彫りになります。最終的に、MAC は自律型 AI の研究開発のための厳密なオープンソース ベンチマークを提供し、再帰的な自己改善を評価するための経験的な代用手段を提供します。ベンチマークは https://github.com/ant-research/meta-agent-challenge で公開されています。
原文 (English)
The Meta-Agent Challenge: Are Current Agents Capable of Autonomous Agent Development?
Current AI benchmarks evaluate agents on task execution within human-designed workflows. These evaluations fundamentally fail to measure a critical next-level capability: whether models can autonomously develop agent systems. We introduce the Meta-Agent Challenge (MAC), an evaluation framework designed to test the capacity of frontier models for autonomous agent development. Specifically, a code agent (the meta-agent) is given a sandboxed environment, an evaluation API, and a time limitation to iteratively program an agent artifact that maximizes performance on a held-out test set across five domains. To ensure evaluation integrity, this framework is secured by multi-layer defenses against reward hacking. Leveraging this framework, we demonstrate that meta-agents rarely match human-engineered baseline policies, and the few that do are dominated by proprietary frontier models. Moreover, the design process exhibits high variance, and high optimization pressure surfaces emergent adversarial behaviors like ground-truth exfiltration-highlighting critical deficits in both robustness and model alignment. Ultimately, MAC provides a rigorous, open-source benchmark for autonomous AI research and development, offering an empirical proxy for evaluating recursive self-improvement. Benchmark is publicly available at: https://github.com/ant-research/meta-agent-challenge.
SpurAudio: 少数ショット音声分類におけるショートカット学習を研究するためのベンチマーク
少数ショット分類 (FSC) は、限られたラベル付きデータから学習するために広く使用されていますが、ほとんどの評価は、ターゲットの概念が文脈上の手がかりから独立していることを暗黙的に前提としています。ただし、現実世界の設定では、サンプルがリッチ コンテキスト内に表示されることが多く、モデルが前景コンテンツと背景信号の間の偽の相関を利用できるようになります。このような効果は少数ショット画像分類で研究されていますが、少数ショット音声分類におけるその役割はほとんど解明されておらず、既存の音声ベンチマークでは文脈構造に対する制御が限られています。 SpurAudio というベンチマークを紹介します。これは、オーディオの前景イベントと背景環境の自然な分離性を活用して、サポートおよびクエリ セットにわたるコンテキストの変化を制御されたマルチレベルの評価を可能にするベンチマークです。このベンチマークを使用して、多くの最先端の少数ショット手法は、標準的な評価プロトコルで同様の精度を達成しているにもかかわらず、バックグラウンド相関が破壊されると重大なパフォーマンス低下に見舞われることがわかります。重要なのは、この脆弱性は大規模な事前トレーニング済みオーディオ基盤モデルでも存続しており、バックボーン容量の制限が説明の対象外となっているということです。さらに、従来のベンチマークでは同等に見える手法でも、偽の相関に対して著しく異なる感度を示す可能性があり、推論時に特徴表現が分類器ヘッドとどのように相互作用するかに関連する体系的なアルゴリズムの強みと脆弱性が明らかになります。これらの発見は、オーディオにおける少数ショット法の動作に関する新たな洞察を提供し、FSC モデルを評価する際のコンテキスト依存性を明示的に調査するベンチマークの必要性を強調しています。
原文 (English)
SpurAudio: A Benchmark for Studying Shortcut Learning in Few-Shot Audio Classification
Few-shot classification (FSC) is widely used for learning from limited labeled data, yet most evaluations implicitly assume that target concepts are independent of contextual cues. In real-world settings, however, examples often appear within rich contexts, allowing models to exploit spurious correlations between foreground content and background signals. While such effects have been studied in few-shot image classification, their role in few-shot audio classification remains largely unexplored, and existing audio benchmarks offer limited control over contextual structure. We introduce SpurAudio, a benchmark that leverages the natural separability of foreground events and background environments in audio to enable controlled, multi-level evaluation of contextual shifts across support and query sets. Using this benchmark, we show that many state-of-the-art few-shot methods suffer severe performance degradation when background correlations are disrupted, despite achieving similar accuracy under standard evaluation protocols. Crucially, this vulnerability persists even in large pretrained audio foundation models, ruling out limited backbone capacity as an explanation. Moreover, methods that appear comparable under conventional benchmarks can exhibit markedly different sensitivity to spurious correlations, revealing systematic algorithmic strengths and vulnerabilities tied to how feature representations interact with classifier heads at inference time. These findings provide new insight into the behavior of few-shot methods in audio and highlight the need for benchmarks that explicitly probe context dependence when evaluating FSC models.
L-TGVN: パーソナライズされた高速 MRI のための縦方向事前分布の活用
MRI は電離放射線を使用せずに優れた軟組織コントラストを提供しますが、取得時間が長いため患者の不快感が増大すると同時に、検査コストが上昇し、スキャナのスループットが制限されます。スキャン時間を短縮するための一般的なアプローチは、取得する測定値を少なくすることです。これにより、不適切な線形逆問題が発生します。したがって、診断品質の画像を回復するには、測定データ以外の事前知識を組み込む必要があります。追跡検査では、患者の最新の以前のスキャンにより、非常に有益な被験者固有のコンテキストが提供されますが、実際の使用は、時間的変化(病状の進行を含む)、スキャン間のずれ、取得間のプロトコルのドリフトによって複雑になります。この研究では、大幅にアンダーサンプリングされた測定値から現在のスキャンを再構築するための副次情報として以前のスキャンを活用する、縦方向の信頼誘導変分ネットワークである L-TGVN を紹介します。重要なことは、L-TGVN は、以前のスキャンの影響が取得された測定値と一致するように制限することです。既存の多くの縦方向再構成方法とは異なり、以前のスキャンと現在のスキャンの間の明示的な事前位置合わせを必要としません。さらに、訪問ごとの取得プロトコルの違い(シーケンスパラメータの変更など)にも対応します。私たちは、事前ガイド法や縦方向事前分布を使用しない方法など、一致した容量のベースラインに対して L-TGVN を評価し、困難な加速において微細構造のより良好な保存とともに、標準的な定量的指標の一貫した改善を観察しました。ソース コードは github.com/sodicksonlab/L-TGVN で入手できます。
原文 (English)
L-TGVN: Leveraging Longitudinal Priors for Personalized Rapid MRI
MRI provides excellent soft-tissue contrast without ionizing radiation, but long acquisition times increase patient discomfort while also raising exam costs and limiting scanner throughput. A common approach to reduce scan time is to acquire fewer measurements, which yields an ill-posed linear inverse problem; recovering diagnostic-quality images therefore requires incorporating prior knowledge beyond the measured data. In follow-up exams, the most recent prior scan of a patient can provide a highly informative subject-specific context, but practical use is complicated by temporal changes (including pathology progression), misalignment between scans, and protocol drift across acquisitions. In this work, we introduce L-TGVN, a Longitudinal Trust-Guided Variational Network that leverages prior scans as side information to reconstruct the current scan from heavily undersampled measurements. Crucially, L-TGVN constrains the influence of prior scans to be consistent with the acquired measurements. Unlike many existing longitudinal reconstruction methods, it does not require explicit pre-registration between prior and current scans. It further accommodates differences in acquisition protocols across visits (e.g., changes in sequence parameters). We evaluate L-TGVN against matched-capacity baselines, including prior-guided methods and methods that do not use longitudinal priors, and observe consistent improvements in standard quantitative metrics together with better preservation of fine structures at challenging accelerations. Source code is available at github.com/sodicksonlab/L-TGVN.
RowNet: 表形式回帰のためのメモリ トランスフォーマー
不動産評価は構造化回帰問題であり、価格は異種の特徴タイプ、まばらな地域効果、非線形相互作用、および比較可能な不動産の実際的なロジックによって支配されます。標準的な多層パーセプトロンは各行を孤立ベクトルとして扱い、局所性、スケール感度、およびカテゴリカルマッチングを監視のみから学習する必要があります。勾配ブースト デシジョン ツリーは強力な表形式のベースラインを提供しますが、その特徴中心の分割メカニズムは、類似した履歴観測の取得を明示的にモデル化しません。この論文では、不動産の平方メートルあたりの価格を予測するための検索ベースのニューラル アーキテクチャである RowNet について説明します。 RowNet は、ラベル付きプロパティのメモリ バンクに対するペアごとの類似性機能を通じてクエリ プロパティを表します。最初の検索層は、特徴のみの類似性から大まかなターゲットを推定します。 2 番目の層は、ターゲット一貫性機能を使用してメモリ比較を強化し、複数の学習されたアテンション ヘッドを使用して相補的な比較可能なセットを取得します。最後の専門家混合モジュールは、学習されたゲーティング、残差補正、エントロピー正則化、ヘッドダイバーシティ正則化を組み合わせて予測を生成します。
原文 (English)
RowNet: A Memory Transformer for Tabular Regression
Real estate valuation is a structured regression problem in which prices are governed by heterogeneous feature types, sparse regional effects, nonlinear interactions, and the practical logic of comparable properties. Standard multilayer perceptrons treat each row as an isolated vector and must learn locality, scale sensitivity, and categorical matching from supervision alone. Gradient-boosted decision trees provide strong tabular baselines, but their feature-centric splitting mechanism does not explicitly model the retrieval of similar historical observations. This paper presents RowNet, a retrieval-based neural architecture for real estate price-per-square-meter prediction. RowNet represents a query property through pairwise similarity features against a memory bank of labeled properties. A first retrieval layer estimates a coarse target from feature-only similarities. A second layer augments the memory comparison with target-consistency features and uses multiple learned attention heads to retrieve complementary comparable sets. A final mixture-of-experts module combines learned gating, residual correction, entropy regularization, and head-diversity regularization to produce the prediction.
共同生成と評価による自己進化する深層研究
大規模言語モデル (LLM) は日常のアプリケーションでますます採用されるようになり、詳細な研究が特に重要な機能として際立っています。従来の質問応答 (QA) タスクとは異なり、詳細な調査レポートの生成には決定的な根拠が欠けているため、報酬設計が本質的に検証不可能になり、効果的な強化学習が制限されます。既存のアプローチでは、LLM-as-a-judge およびクエリ依存の評価ルーブリックを使用してこの課題を軽減していますが、依然として静的な評価器に依存しているため、ソルバーの向上に応じて標準を適応させることができず、最適化圧力が不十分になり、最終的に飽和状態になってしまいます。私たちは、\textbf{s}elf 進化型 \textbf{co} 進化型トレーニング フレームワークで、深い \textbf{re} 検索の評価と生成 (SCORE) を使用してこの制限に対処します。これは、共有パラメータ学習プロセスにおいて評価器とソルバーを緊密に結合します。生成と評価を独立したモジュールとして扱うのではなく、それらの本質的なつながりを活用して、単一の共有パラメーター モデル内で共同の改善を可能にします。このプロセスを制限するために、ソルバーのパフォーマンスに基づいて評価環境を動的に制御するメタハーネスを導入し、有効な評価次元と十分に深い評価者の検索を促進します。ディープリサーチベンチマークに関する広範な実験により、レポート生成の品質が一貫して向上していることが実証されており、評価と生成を共進化させることが、オープンエンドのリサーチエージェントをトレーニングするための有望な方向性であることが示されています。
原文 (English)
Self-Evolving Deep Research via Joint Generation and Evaluation
Large Language Models (LLMs) have become increasingly adopted in daily applications, with deep research standing out as a particularly important capability. Unlike traditional question-answering (QA) tasks, deep research report generation lacks definitive ground-truth, making reward design inherently unverifiable and limiting effective reinforcement learning. Existing approaches mitigate this challenge with LLM-as-a-judge and query-dependent evaluation rubrics, but they still rely on static evaluators that cannot adapt their standards as the solver improves, leading to insufficient and eventually saturated optimization pressure. We address this limitation with a \textbf{s}elf-evolving \textbf{co}-evolutionary training framework for deep \textbf{re}search evaluation and generation (SCORE), which tightly couples an evaluator and a solver in a shared-parameter learning process. Rather than treating generation and evaluation as isolated modules, we leverage their intrinsic connection to enable joint improvement within a single shared-parameter model. To restrict this process, we introduce a meta-harness, which dynamically controls the evaluation environment based on solver performance, encouraging valid evaluation dimensions and sufficiently deep evaluator search. Extensive experiments on deep research benchmarks demonstrate consistent improvement in report generation quality, showing that co-evolving evaluation and generation is a promising direction for training open-ended research agents.
M$^3$Eval: 認知に基づいたビデオタスクによるマルチモーダル記憶評価
マルチモーダル モデルが長時間ビデオの理解に向けて進歩するにつれ、メモリが重要な能力として浮上します。ビデオ データセットとベンチマークの開発には多大な努力が払われているにもかかわらず、既存の研究は主に知覚と推論に焦点を当てており、どのモデルが保持するか、情報がどの程度忠実に保存されるか、干渉下でもメモリがどの程度堅牢に保たれるかなど、記憶を体系的に評価することはありません。このギャップに対処するために、マルチモーダル モデルでさまざまなメモリ次元を調査するための最初の包括的な評価フレームワークおよびベンチマークである M$^3$Eval を導入します。認知心理学に基づいた当社のデザインは、記憶の重要な側面を分離する慎重に構築されたタスクを特徴としています。 M$^3$Eval を活用して、代表的なマルチモーダル モデルにわたって広範な実験を実施し、一貫した弱点と独特の動作を明らかにしました。私たちは、並列ビデオストリームを処理する際にモデルがもつれの解けた表現を維持するのに苦労し、人間の記憶で観察されるものとは大幅に異なる干渉パターンを示し、記憶ソースを時間領域よりも空間領域でより確実に接地し、限られた記号記憶を実証していることを発見しました。まとめると、私たちのベンチマークは将来の研究のための貴重なリソースを提供しますが、私たちの調査結果は、メモリが基本的でありながらまだ研究されていない機能であることを強調し、マルチモーダルモデルでより効果的なメモリメカニズムを設計するための洞察を提供します。コードとデータセットは https://pku-value-lab.github.io/m3eval-homepage で入手できます。
原文 (English)
M$^3$Eval: Multi-Modal Memory Evaluation through Cognitively-Grounded Video Tasks
As multi-modal models advance towards long-form video understanding, memory emerges as a critical capability. Despite substantial efforts in developing video datasets and benchmarks, existing works primarily focus on perception and reasoning, without systematically evaluating memory: what models retain, how faithfully information is preserved, and how robust memory remains under interference. To address this gap, we introduce M$^3$Eval, the first comprehensive evaluation framework and benchmark for probing different memory dimensions in multi-modal models. Grounded in cognitive psychology, our design features carefully constructed tasks that isolate key aspects of memory. Leveraging M$^3$Eval, we conduct extensive experiments across representative multi-modal models, revealing consistent weaknesses and distinctive behaviors. We find that models struggle to maintain disentangled representations when processing parallel video streams, exhibit interference patterns differing substantially from those observed in human memory, ground memory sources more reliably in the spatial domain than the temporal domain, and demonstrate limited symbolic memory. Collectively, our benchmark provides a valuable resource for future research, while our findings highlight memory as a fundamental yet underexplored capability and offer insights for designing more effective memory mechanisms in multi-modal models. Our code and dataset are available at https://pku-value-lab.github.io/m3eval-homepage.
答えから状態へ: 大規模言語モデルにおける化学推論の検証可能なプロセスレベルの評価
大規模な言語モデルが化学アシスタントとして使用されることが増えていますが、ほとんどの化学ベンチマークは依然として最終的な回答のみをスコアとしています。これにより、重大な故障モードが隠蔽されます。モデルは、その推論が化学ロジックに違反しているにもかかわらず、正しい分子、生成物、またはオプションを出力する可能性があります。 LLM ジャッジと人間のステップレベルのプロセス アノテーションはコストが高く、一貫性がなく、幻覚に対して脆弱であるため、既存のプロセス レベルの評価機能を拡張するのは困難です。 ChemCoTBench-V2 は、構造化され検証者がアドレス指定できる化学推論トレースを低コストで監査可能に評価するためのルール検証可能な診断ベンチマークです。これは、分子理解、分子編集、分子最適化、反応予測に及び、18 のレポートタスクにわたる 5,620 の評価サンプルを備えています。モデルは、専門家が設計したテンプレートで主要な中間ステップを公開する必要があり、それらのステップは決定論的な化学ルールでチェックされ、クローズドアンサータスクの場合は、別の LLM 審査員ではなく参照トレースが使用されます。オープンエンド分子最適化は、厳密なトレース マッチングではなく、Oracle で検証可能な状態制約を使用して評価されます。このベンチマークは、最終回答の正確性、テンプレートの遵守、専門家によって洗練された中間コミットメントに対する段階的な検証者の正確さという 3 つの個別のシグナルを報告します。フロンティア モデルの実験では、最終的な回答の成功と構造化推論の状態の一貫性の間には永続的なギャップがあることが明らかになりました。モデルは多くの場合、化学ステップ チェックに失敗しながらも要求された形式に従っているか、弱い裏付け推論で正しく回答することができます。 ChemCoTBench-V2 は、きめ細かいモデル比較を可能にし、トレースが最初に検証ツールに違反する具体的なステップを特定します。
原文 (English)
From Answers to States: Verifiable Process-Level Evaluation of Chemical Reasoning in Large Language Models
Large language models are increasingly used as chemistry assistants, yet most chemistry benchmarks still score only final answers. This masks a critical failure mode: a model may output the correct molecule, product, or option while its reasoning violates chemical logic. Existing process-level evaluators are hard to scale because LLM judges and human step-level process annotation are costly, inconsistent, and vulnerable to hallucination. We introduce ChemCoTBench-V2, a rule-verifiable diagnostic benchmark for low-cost, auditable evaluation of structured, verifier-addressable chemical reasoning traces. It spans molecular understanding, molecule editing, molecular optimization, and reaction prediction, with 5,620 evaluation samples across 18 reporting tasks. Models must expose key intermediate steps in expert-designed templates, and those steps are checked with deterministic chemistry rules and, for closed-answer tasks, reference traces rather than another LLM judge. Open-ended molecular optimization is evaluated with oracle-verifiable state constraints rather than strict trace matching. The benchmark reports three separate signals: final-answer correctness, template adherence, and step-wise verifier correctness over expert-refined intermediate commitments. Experiments on frontier models reveal a persistent gap between final-answer success and structured-reasoning-state consistency: models often follow the requested format while failing chemical-step checks, or answer correctly with weak supporting reasoning. ChemCoTBench-V2 enables fine-grained model comparison and identifies the concrete step at which the trace first violates the verifier.
CounterFace: 顔認識システムのきめ細かい反事実評価のための合成顔データセット
顔認識 (FR) システムは重要なアプリケーションに広く導入されており、多様な人口や条件に対する信頼性と堅牢性が不可欠となっています。 FR システムの標準評価は通常、LFW などのデータセットに依存して平均認識精度を推定します。一部のベンチマークは、経年変化、姿勢、照明などの粗粒度のアイデンティティ内の変動も捕捉します。ただし、人間の顔には、ヘアスタイルやメイクなどの外観の変化を含む、より細かい変化が生じますが、これは既存のベンチマークでは過小評価されています。反事実評価は、このようなきめの細かい変動の下で FR の堅牢性を評価する方法を提供します。ただし、画像ジェネレーターを使用して合成された既存の反事実の顔データセットは、パイプラインでの検証に人間が使用されているため、属性の範囲が限られています。我々は、20 の顔属性と 8 つの人口統計的要素で構成される新しい反事実評価データセットである CounterFace を提案します。これは、以前の合成顔データセットを 14 属性と 2 つの人口統計的要因で上回っています。データセットは、カスタム検証機能を備えた既製の画像ジェネレーターに基づいた完全に自動化されたパイプラインを使用して生成され、人間による検証の必要性がなくなりました。 CounterFace には 11,821 の反事実の顔のペアが含まれており、事後のユーザー調査により、生成された反事実の忠実性が確認されています。 160 の属性と人口統計の組み合わせにわたって、2 つの商用 FR システムと 4 つのオープンソース FR システム (AWS Rekognition、Face++、AdaFace、MagFace、ArcFace、FaceNet) を評価します。当社のデータセットは、標準の評価ベンチマークとは異なり、個々のシステムの正確な故障モードを分離するのに役立ちます。結果は、パフォーマンスの低下は 6 つすべてのシステムの属性と人口統計によって異なり、遮蔽属性 (フェイスマスクやひげなど) が普遍的にパフォーマンスを低下させることを示しています。
原文 (English)
CounterFace: A Synthetic Face Dataset for Fine-Grained Counterfactual Evaluation of Face Recognition Systems
Face recognition (FR) systems are widely deployed in critical applications, making their reliability and robustness across diverse populations and conditions essential. Standard evaluation of FR systems typically relies on datasets such as LFW to estimate average recognition accuracy. Some benchmarks also capture coarse-grained intra-identity variations such as aging, pose, and lighting. However, human faces undergo more fine-grained changes, including appearance changes such as hairstyles and makeup, that are underrepresented in existing benchmarks. Counterfactual evaluation provides a method to assess FR robustness under such fine-grained variations. Existing counterfactual face datasets synthesized with image generators, however, are limited in attribute coverage due to the use of humans for verification in the pipeline. We propose CounterFace, a new counterfactual evaluation dataset comprising 20 facial attributes and 8 demographic factors, exceeding prior synthetic face datasets by 14 attributes and 2 demographics. The dataset is generated using a fully automated pipeline based on off-the-shelf image generators with custom verifiers, removing human need for verification. CounterFace contains 11,821 counterfactual face pairs, and a post-hoc user study confirms the faithfulness of the generated counterfactuals. We evaluate two commercial and four open-source FR systems (AWS Rekognition, Face++, AdaFace, MagFace, ArcFace, FaceNet) across 160 attribute-demographic combinations. Our dataset helps in the isolation of precise failure modes for individual systems unlike standard evaluation benchmarks. Results indicate that the performance degradation varies across attributes and demographics for all six systems and occluding attributes (e.g., facemask and facial hair) universally degrade performance.
グラフ検索からスキーマ実現まで: 異種ナレッジ グラフ上のテキストから SPARQL への反事実検証
Text-to-SPARQL は、自然言語の質問を RDF ナレッジ グラフ上の実行可能な SPARQL クエリにマッピングします。標準的な評価ではターゲット グラフが事前に修正されることがよくありますが、実践的なナレッジ グラフ質問応答 (KGQA) には、異なるスキーマ、部分的なアラインメント、および不完全なメタデータを含む異種グラフ コレクションが含まれる場合があります。この設定では、クエリ生成は SPARQL 構文以上のものに依存します。システムは、質問に必要な述語、エンティティ タイプ、結合、フィルター、および制約をサポートできるグラフ スキーマを識別する必要があります。異種の KG コレクション上でテキストから SPARQL に変換するためのスキーマベースのエージェント フレームワークである SchemaForge を紹介します。その中心的なメカニズムは、質問条件付きのスキーマ スライス アライメントです。弱いグラフの証拠によって最初にもっともらしいグラフが特定され、より強力なスキーマの証拠によって、ローカル スキーマ スライスが意図したクエリを実現できるかどうかが決まります。選択されたスキーマ スライスは、クエリの生成と実行前の検証を制限します。利用可能なグラフが 1 つだけの場合、同じ定式化は、スキーマ基盤を備えた標準の単一 KG テキストから SPARQL への変換に縮小されます。 LC-QuAD 2.0、QALD-9 Plus、QALD-10、および Spider4SPARQL で SchemaForge を評価します。 SchemaForge は、4 つの公開ベンチマーク全体で、最も一致するエージェントのベースラインよりも実行精度を平均 11.50 パーセント向上させています。 Spider4SPARQL では、SchemaForge は実行精度を 54.86% から 64.18% に向上させ、トップ 1 グラフ割り当て精度 73.0% とトップ 3 グラフ割り当て精度 97.0% を達成しました。これらの結果は、グラフの弱い証拠からスキーマ固有のクエリコミットメントへの移行と、反事実の回答セットのチェックにより、異種ナレッジグラフよりも実行可能なクエリの生成が向上することを示しています。
原文 (English)
From Graph Retrieval to Schema Realization: Counterfactual Validation for Text-to-SPARQL over Heterogeneous Knowledge Graphs
Text-to-SPARQL maps natural-language questions to executable SPARQL queries over RDF knowledge graphs. While standard evaluations often fix the target graph in advance, practical knowledge graph question answering (KGQA) may involve heterogeneous graph collections with different schemas, partial alignments, and incomplete metadata. In this setting, query generation depends on more than SPARQL syntax: the system must identify a graph schema that can support the predicates, entity types, joins, filters, and constraints required by the question. We present SchemaForge, a schema-grounded agentic framework for text-to-SPARQL over heterogeneous KG collections. Its central mechanism is question-conditioned schema-slice alignment: weak graph evidence first identifies plausible graphs, while stronger schema evidence determines whether a local schema slice can realize the intended query. The selected schema slice then constrains query generation and verification before execution. When only one graph is available, the same formulation reduces to standard single-KG text-to-SPARQL with schema grounding. We evaluate SchemaForge on LC-QuAD 2.0, QALD-9 Plus, QALD-10, and Spider4SPARQL. Across the four public benchmarks, SchemaForge improves execution accuracy over the strongest matched agent baseline by 11.50 percentage points on average. On Spider4SPARQL, SchemaForge improves execution accuracy from 54.86% to 64.18% and achieves 73.0% Top-1 and 97.0% Top-3 graph allocation accuracy. These results show that moving from weak graph evidence to schema-specific query commitments, together with counterfactual answer-set checks, improves executable query generation over heterogeneous knowledge graphs.
VGGSounder: 基礎モデルのオーディオビジュアル評価
視聴覚基礎モデルの出現は、マルチモーダルな理解を確実に評価することの重要性を強調しています。 VGGSound データセットは、オーディオビジュアル分類の評価のベンチマークとしてよく使用されます。ただし、私たちの分析では、不完全なラベル付け、部分的に重複するクラス、不整合なモダリティなど、VGGSound のいくつかの制限が特定されました。これらは、聴覚および視覚能力の歪んだ評価につながります。これらの制限に対処するために、VGGSounder を導入します。これは、VGGSound を拡張し、オーディオビジュアル基礎モデルを評価するために特別に設計された、包括的に再アノテーションが付けられたマルチラベル テスト セットです。 VGGSounder は詳細なモダリティの注釈を備えており、モダリティ固有のパフォーマンスを正確に分析できます。さらに、新しいモダリティ混乱メトリックを使用して別の入力モダリティを追加したときのパフォーマンスの低下を分析することで、モデルの限界を明らかにします。
原文 (English)
VGGSounder: Audio-Visual Evaluations for Foundation Models
The emergence of audio-visual foundation models underscores the importance of reliably assessing their multi-modal understanding. The VGGSound dataset is commonly used as a benchmark for evaluation audio-visual classification. However, our analysis identifies several limitations of VGGSound, including incomplete labelling, partially overlapping classes, and misaligned modalities. These lead to distorted evaluations of auditory and visual capabilities. To address these limitations, we introduce VGGSounder, a comprehensively re-annotated, multi-label test set that extends VGGSound and is specifically designed to evaluate audio-visual foundation models. VGGSounder features detailed modality annotations, enabling precise analyses of modality-specific performance. Furthermore, we reveal model limitations by analysing performance degradation when adding another input modality with our new modality confusion metric.
ノイズを含む音声分離におけるスケール不変信号対歪み比の研究
この論文では、事実上のベンチマーク WSJ0-2Mix の場合のように、トレーニング参照にノイズが含まれている場合に、教師あり音声分離における評価とトレーニングの目的の両方としてスケール不変信号対歪み比 (SI-SDR) を使用することの意味を検証します。ノイズの多いリファレンスを使用して SI-SDR を導出すると、ノイズによって達成可能な SI-SDR が制限されるか、分離された出力に望ましくないノイズが発生することがわかります。これに対処するために、ノイズの多い参照の学習を回避するモデルをトレーニングすることを目的として、WHAM! を使用して参照を強化し、混合を増強する方法が提案されています。これらの強化されたデータセットでトレーニングされた 2 つのモデルは、非侵入的な NISQA.v2 メトリックを使用して評価されます。結果は、分離された音声のノイズが減少していることを示していますが、参照の処理によりアーチファクトが生じ、全体的な品質の向上が制限される可能性があることが示唆されています。 WSJ0-2Mix および Libri2Mix テスト セットのモデル全体で、SI-SDR と知覚されるノイズの間に負の相関関係が見つかり、導出による結論が強調されています。
原文 (English)
A Study of the Scale Invariant Signal to Distortion Ratio in Speech Separation with Noisy References
This paper examines the implications of using the Scale-Invariant Signal-to-Distortion Ratio (SI-SDR) as both evaluation and training objective in supervised speech separation, when the training references contain noise, as is the case with the de facto benchmark WSJ0-2Mix. A derivation of the SI-SDR with noisy references reveals that noise limits the achievable SI-SDR, or leads to undesired noise in the separated outputs. To address this, a method is proposed to enhance references and augment the mixtures with WHAM!, aiming to train models that avoid learning noisy references. Two models trained on these enhanced datasets are evaluated with the non-intrusive NISQA.v2 metric. Results show reduced noise in separated speech but suggest that processing references may introduce artefacts, limiting overall quality gains. Negative correlation is found between SI-SDR and perceived noisiness across models on the WSJ0-2Mix and Libri2Mix test sets, underlining the conclusion from the derivation.
分散ゲート分布を使用した不確かさの推定
ニューラル ネットワークからのサンプルごとの不確実性の定量化の評価は、高リスクのアプリケーションを含む意思決定に不可欠です。一般的なアプローチは、ベイジアン モデルまたは近似モデルからの予測分布を使用し、対応する予測の不確実性を認識的 (モデル関連) 成分と偶然的 (データ関連) 成分に分解することです。しかし、最近では相加的分解に疑問が持たれています。この研究では、さまざまなモデル予測にわたるクラス確率分布の信号対雑音比に基づいて、不確実性の推定と分解を行うための直感的なフレームワークを提案します。アンサンブルから導出された信頼係数によって予測をスケールする分散ゲート測定を導入します。私たちはこの尺度を利用して、委員会マシンの多様性の崩壊の存在について議論します。
原文 (English)
Uncertainty Estimation using Variance-Gated Distributions
Evaluation of per-sample uncertainty quantification from neural networks is essential for decision-making involving high-risk applications. A common approach is to use the predictive distribution from Bayesian or approximation models and decompose the corresponding predictive uncertainty into epistemic (model-related) and aleatoric (data-related) components. However, additive decomposition has recently been questioned. In this work, we propose an intuitive framework for uncertainty estimation and decomposition based on the signal-to-noise ratio of class probability distributions across different model predictions. We introduce a variance-gated measure that scales predictions by a confidence factor derived from ensembles. We use this measure to discuss the existence of a collapse in the diversity of committee machines.
Safety Under Scaffolding: How Evaluation Conditions Shape Measured Safety
A safety score earned on a benchmark need not predict how the same model behaves once it is wrapped in an agentic scaffold the benchmark ne…
Markov Chain Decoders Overcome the Heavy-Tail Limitations of Lipschitz Generative Models
Heavy-tailed distributions are prevalent in performance evaluation, network traffic, and risk modeling. This behavior poses a fundamental c…
メタ学習による費用対効果の高いモデル評価
機械学習の急速な成長により、拡大し続けるモデルのエコシステムが生み出され、目に見えないラベルのないデータに対して新しくリリースされたモデルの信頼性を検証することがますます困難になっています。従来の評価パイプラインは、高価なアノテーション、繰り返しの微調整、またはモデル ファミリ間での転送ができない狭い仮定に依存しています。さまざまなアーキテクチャやモダリティにまたがる未確認のモデルをラベルなしで迅速に評価するための、コスト効率が高く、モデルに依存しないフレームワークである MetaEvaluator を紹介します。 MetaEvaluator は、参照モデルのプールに対するメタ学習を利用して転送可能な初期化を取得し、プール全体でコストを償却しながら、モデルごとの再トレーニングの必要性を排除しながら、新しいモデルの正確な評価を可能にします。私たちの知る限り、これは完全にラベルのないデータセットで新しいモデルを評価できる、モデルに依存しない最初のフレームワークです。広範な実験により、MetaEvaluator は従来のアプローチと比較して大幅にコストを削減しながら安定した正確なパフォーマンス推定値を生成し、ラベルのないデータに対する新しいモデルのスケーラブルなベンチマークを実用化できることが示されています。
原文 (English)
Learning to Evaluate: Cost-Effective Model Evaluation on Unlabeled Data with Meta-Learning
The rapid advancement of machine learning has led to an unprecedented expansion of model ecosystems, making it increasingly difficult to assess the reliability of newly released models on unseen and unlabeled data. Existing evaluation pipelines typically rely on costly annotation, repeated fine-tuning, or assumptions that do not generalize well to new models. We introduce MetaEvaluator, a cost-effective, model-agnostic framework for fast, label-free evaluation of unseen models across diverse architectures and modalities. MetaEvaluator meta-learns over a pool of reference models to acquire an effective initialization for accurate assessment of unseen models, thereby amortizing evaluation cost and eliminating the need for per-model retraining. To the best of our knowledge, this is the first model-agnostic framework that evaluates new models on unlabeled datasets. Extensive experiments demonstrate that MetaEvaluator delivers stable and accurate performance estimates at substantially lower cost than conventional approaches, enabling scalable benchmarking on unlabeled datasets for emerging models. The code is available at: https://github.com/phkhanhtrinh23/MetaEvaluator.
BenHalluEval: A Multi-Task Hallucination Evaluation Framework for Large Language Models on Bengali
Despite Bengali being the sixth most spoken language in the world, no prior work has systematically evaluated hallucination in large langua…
Ahead of its IPO, Anthropic’s Daniela Amodei shrugs off doubts about AI’s returns
Anthropic has been growing at a breakneck pace. The company announced that annualized revenue crossed $47 billion in May, up dramatically f…
メタエージェントの課題: 現在のエージェントは自律的なエージェント開発が可能ですか?
現在の AI ベンチマークは、人間が設計したワークフロー内でのタスク実行に関してエージェントを評価します。これらの評価では、基本的に、モデルが自律的にエージェント システムを開発できるかどうかという、重要な次のレベルの機能を測定できません。自律エージェント開発のためのフロンティア モデルの能力をテストするために設計された評価フレームワークであるメタエージェント チャレンジ (MAC) を紹介します。具体的には、コード エージェント (メタエージェント) には、サンドボックス環境、評価 API、および 5 つのドメインにわたって実施されたテスト セットのパフォーマンスを最大化するエージェント アーティファクトを反復的にプログラムするための時間制限が与えられます。評価の整合性を確保するために、このフレームワークは報酬ハッキングに対する多層防御によって保護されています。このフレームワークを活用して、メタエージェントが人為的に設計されたベースライン ポリシーと一致することはほとんどなく、一致する少数のエージェントは独自のフロンティア モデルによって支配されていることを示します。さらに、設計プロセスは高い分散を示し、高い最適化圧力により、グラウンドトゥルースの漏洩などの敵対的な動作が表面化し、堅牢性とモデルの調整の両方における重大な欠陥が浮き彫りになります。最終的に、MAC は自律型 AI の研究開発のための厳密なオープンソース ベンチマークを提供し、再帰的な自己改善を評価するための経験的な代用手段を提供します。ベンチマークは https://github.com/ant-research/meta-agent-challenge で公開されています。
原文 (English)
The Meta-Agent Challenge: Are Current Agents Capable of Autonomous Agent Development?
Current AI benchmarks evaluate agents on task execution within human-designed workflows. These evaluations fundamentally fail to measure a critical next-level capability: whether models can autonomously develop agent systems. We introduce the Meta-Agent Challenge (MAC), an evaluation framework designed to test the capacity of frontier models for autonomous agent development. Specifically, a code agent (the meta-agent) is given a sandboxed environment, an evaluation API, and a time limitation to iteratively program an agent artifact that maximizes performance on a held-out test set across five domains. To ensure evaluation integrity, this framework is secured by multi-layer defenses against reward hacking. Leveraging this framework, we demonstrate that meta-agents rarely match human-engineered baseline policies, and the few that do are dominated by proprietary frontier models. Moreover, the design process exhibits high variance, and high optimization pressure surfaces emergent adversarial behaviors like ground-truth exfiltration-highlighting critical deficits in both robustness and model alignment. Ultimately, MAC provides a rigorous, open-source benchmark for autonomous AI research and development, offering an empirical proxy for evaluating recursive self-improvement. Benchmark is publicly available at: https://github.com/ant-research/meta-agent-challenge.
SpurAudio: 少数ショット音声分類におけるショートカット学習を研究するためのベンチマーク
少数ショット分類 (FSC) は、限られたラベル付きデータから学習するために広く使用されていますが、ほとんどの評価は、ターゲットの概念が文脈上の手がかりから独立していることを暗黙的に前提としています。ただし、現実世界の設定では、サンプルがリッチ コンテキスト内に表示されることが多く、モデルが前景コンテンツと背景信号の間の偽の相関を利用できるようになります。このような効果は少数ショット画像分類で研究されていますが、少数ショット音声分類におけるその役割はほとんど解明されておらず、既存の音声ベンチマークでは文脈構造に対する制御が限られています。 SpurAudio というベンチマークを紹介します。これは、オーディオの前景イベントと背景環境の自然な分離性を活用して、サポートおよびクエリ セットにわたるコンテキストの変化を制御されたマルチレベルの評価を可能にするベンチマークです。このベンチマークを使用して、多くの最先端の少数ショット手法は、標準的な評価プロトコルで同様の精度を達成しているにもかかわらず、バックグラウンド相関が破壊されると重大なパフォーマンス低下に見舞われることがわかります。重要なのは、この脆弱性は大規模な事前トレーニング済みオーディオ基盤モデルでも存続しており、バックボーン容量の制限が説明の対象外となっているということです。さらに、従来のベンチマークでは同等に見える手法でも、偽の相関に対して著しく異なる感度を示す可能性があり、推論時に特徴表現が分類器ヘッドとどのように相互作用するかに関連する体系的なアルゴリズムの強みと脆弱性が明らかになります。これらの発見は、オーディオにおける少数ショット法の動作に関する新たな洞察を提供し、FSC モデルを評価する際のコンテキスト依存性を明示的に調査するベンチマークの必要性を強調しています。
原文 (English)
SpurAudio: A Benchmark for Studying Shortcut Learning in Few-Shot Audio Classification
Few-shot classification (FSC) is widely used for learning from limited labeled data, yet most evaluations implicitly assume that target concepts are independent of contextual cues. In real-world settings, however, examples often appear within rich contexts, allowing models to exploit spurious correlations between foreground content and background signals. While such effects have been studied in few-shot image classification, their role in few-shot audio classification remains largely unexplored, and existing audio benchmarks offer limited control over contextual structure. We introduce SpurAudio, a benchmark that leverages the natural separability of foreground events and background environments in audio to enable controlled, multi-level evaluation of contextual shifts across support and query sets. Using this benchmark, we show that many state-of-the-art few-shot methods suffer severe performance degradation when background correlations are disrupted, despite achieving similar accuracy under standard evaluation protocols. Crucially, this vulnerability persists even in large pretrained audio foundation models, ruling out limited backbone capacity as an explanation. Moreover, methods that appear comparable under conventional benchmarks can exhibit markedly different sensitivity to spurious correlations, revealing systematic algorithmic strengths and vulnerabilities tied to how feature representations interact with classifier heads at inference time. These findings provide new insight into the behavior of few-shot methods in audio and highlight the need for benchmarks that explicitly probe context dependence when evaluating FSC models.
L-TGVN: パーソナライズされた高速 MRI のための縦方向事前分布の活用
MRI は電離放射線を使用せずに優れた軟組織コントラストを提供しますが、取得時間が長いため患者の不快感が増大すると同時に、検査コストが上昇し、スキャナのスループットが制限されます。スキャン時間を短縮するための一般的なアプローチは、取得する測定値を少なくすることです。これにより、不適切な線形逆問題が発生します。したがって、診断品質の画像を回復するには、測定データ以外の事前知識を組み込む必要があります。追跡検査では、患者の最新の以前のスキャンにより、非常に有益な被験者固有のコンテキストが提供されますが、実際の使用は、時間的変化(病状の進行を含む)、スキャン間のずれ、取得間のプロトコルのドリフトによって複雑になります。この研究では、大幅にアンダーサンプリングされた測定値から現在のスキャンを再構築するための副次情報として以前のスキャンを活用する、縦方向の信頼誘導変分ネットワークである L-TGVN を紹介します。重要なことは、L-TGVN は、以前のスキャンの影響が取得された測定値と一致するように制限することです。既存の多くの縦方向再構成方法とは異なり、以前のスキャンと現在のスキャンの間の明示的な事前位置合わせを必要としません。さらに、訪問ごとの取得プロトコルの違い(シーケンスパラメータの変更など)にも対応します。私たちは、事前ガイド法や縦方向事前分布を使用しない方法など、一致した容量のベースラインに対して L-TGVN を評価し、困難な加速において微細構造のより良好な保存とともに、標準的な定量的指標の一貫した改善を観察しました。ソース コードは github.com/sodicksonlab/L-TGVN で入手できます。
原文 (English)
L-TGVN: Leveraging Longitudinal Priors for Personalized Rapid MRI
MRI provides excellent soft-tissue contrast without ionizing radiation, but long acquisition times increase patient discomfort while also raising exam costs and limiting scanner throughput. A common approach to reduce scan time is to acquire fewer measurements, which yields an ill-posed linear inverse problem; recovering diagnostic-quality images therefore requires incorporating prior knowledge beyond the measured data. In follow-up exams, the most recent prior scan of a patient can provide a highly informative subject-specific context, but practical use is complicated by temporal changes (including pathology progression), misalignment between scans, and protocol drift across acquisitions. In this work, we introduce L-TGVN, a Longitudinal Trust-Guided Variational Network that leverages prior scans as side information to reconstruct the current scan from heavily undersampled measurements. Crucially, L-TGVN constrains the influence of prior scans to be consistent with the acquired measurements. Unlike many existing longitudinal reconstruction methods, it does not require explicit pre-registration between prior and current scans. It further accommodates differences in acquisition protocols across visits (e.g., changes in sequence parameters). We evaluate L-TGVN against matched-capacity baselines, including prior-guided methods and methods that do not use longitudinal priors, and observe consistent improvements in standard quantitative metrics together with better preservation of fine structures at challenging accelerations. Source code is available at github.com/sodicksonlab/L-TGVN.
RowNet: 表形式回帰のためのメモリ トランスフォーマー
不動産評価は構造化回帰問題であり、価格は異種の特徴タイプ、まばらな地域効果、非線形相互作用、および比較可能な不動産の実際的なロジックによって支配されます。標準的な多層パーセプトロンは各行を孤立ベクトルとして扱い、局所性、スケール感度、およびカテゴリカルマッチングを監視のみから学習する必要があります。勾配ブースト デシジョン ツリーは強力な表形式のベースラインを提供しますが、その特徴中心の分割メカニズムは、類似した履歴観測の取得を明示的にモデル化しません。この論文では、不動産の平方メートルあたりの価格を予測するための検索ベースのニューラル アーキテクチャである RowNet について説明します。 RowNet は、ラベル付きプロパティのメモリ バンクに対するペアごとの類似性機能を通じてクエリ プロパティを表します。最初の検索層は、特徴のみの類似性から大まかなターゲットを推定します。 2 番目の層は、ターゲット一貫性機能を使用してメモリ比較を強化し、複数の学習されたアテンション ヘッドを使用して相補的な比較可能なセットを取得します。最後の専門家混合モジュールは、学習されたゲーティング、残差補正、エントロピー正則化、ヘッドダイバーシティ正則化を組み合わせて予測を生成します。
原文 (English)
RowNet: A Memory Transformer for Tabular Regression
Real estate valuation is a structured regression problem in which prices are governed by heterogeneous feature types, sparse regional effects, nonlinear interactions, and the practical logic of comparable properties. Standard multilayer perceptrons treat each row as an isolated vector and must learn locality, scale sensitivity, and categorical matching from supervision alone. Gradient-boosted decision trees provide strong tabular baselines, but their feature-centric splitting mechanism does not explicitly model the retrieval of similar historical observations. This paper presents RowNet, a retrieval-based neural architecture for real estate price-per-square-meter prediction. RowNet represents a query property through pairwise similarity features against a memory bank of labeled properties. A first retrieval layer estimates a coarse target from feature-only similarities. A second layer augments the memory comparison with target-consistency features and uses multiple learned attention heads to retrieve complementary comparable sets. A final mixture-of-experts module combines learned gating, residual correction, entropy regularization, and head-diversity regularization to produce the prediction.
共同生成と評価による自己進化する深層研究
大規模言語モデル (LLM) は日常のアプリケーションでますます採用されるようになり、詳細な研究が特に重要な機能として際立っています。従来の質問応答 (QA) タスクとは異なり、詳細な調査レポートの生成には決定的な根拠が欠けているため、報酬設計が本質的に検証不可能になり、効果的な強化学習が制限されます。既存のアプローチでは、LLM-as-a-judge およびクエリ依存の評価ルーブリックを使用してこの課題を軽減していますが、依然として静的な評価器に依存しているため、ソルバーの向上に応じて標準を適応させることができず、最適化圧力が不十分になり、最終的に飽和状態になってしまいます。私たちは、\textbf{s}elf 進化型 \textbf{co} 進化型トレーニング フレームワークで、深い \textbf{re} 検索の評価と生成 (SCORE) を使用してこの制限に対処します。これは、共有パラメータ学習プロセスにおいて評価器とソルバーを緊密に結合します。生成と評価を独立したモジュールとして扱うのではなく、それらの本質的なつながりを活用して、単一の共有パラメーター モデル内で共同の改善を可能にします。このプロセスを制限するために、ソルバーのパフォーマンスに基づいて評価環境を動的に制御するメタハーネスを導入し、有効な評価次元と十分に深い評価者の検索を促進します。ディープリサーチベンチマークに関する広範な実験により、レポート生成の品質が一貫して向上していることが実証されており、評価と生成を共進化させることが、オープンエンドのリサーチエージェントをトレーニングするための有望な方向性であることが示されています。
原文 (English)
Self-Evolving Deep Research via Joint Generation and Evaluation
Large Language Models (LLMs) have become increasingly adopted in daily applications, with deep research standing out as a particularly important capability. Unlike traditional question-answering (QA) tasks, deep research report generation lacks definitive ground-truth, making reward design inherently unverifiable and limiting effective reinforcement learning. Existing approaches mitigate this challenge with LLM-as-a-judge and query-dependent evaluation rubrics, but they still rely on static evaluators that cannot adapt their standards as the solver improves, leading to insufficient and eventually saturated optimization pressure. We address this limitation with a \textbf{s}elf-evolving \textbf{co}-evolutionary training framework for deep \textbf{re}search evaluation and generation (SCORE), which tightly couples an evaluator and a solver in a shared-parameter learning process. Rather than treating generation and evaluation as isolated modules, we leverage their intrinsic connection to enable joint improvement within a single shared-parameter model. To restrict this process, we introduce a meta-harness, which dynamically controls the evaluation environment based on solver performance, encouraging valid evaluation dimensions and sufficiently deep evaluator search. Extensive experiments on deep research benchmarks demonstrate consistent improvement in report generation quality, showing that co-evolving evaluation and generation is a promising direction for training open-ended research agents.
M$^3$Eval: 認知に基づいたビデオタスクによるマルチモーダル記憶評価
マルチモーダル モデルが長時間ビデオの理解に向けて進歩するにつれ、メモリが重要な能力として浮上します。ビデオ データセットとベンチマークの開発には多大な努力が払われているにもかかわらず、既存の研究は主に知覚と推論に焦点を当てており、どのモデルが保持するか、情報がどの程度忠実に保存されるか、干渉下でもメモリがどの程度堅牢に保たれるかなど、記憶を体系的に評価することはありません。このギャップに対処するために、マルチモーダル モデルでさまざまなメモリ次元を調査するための最初の包括的な評価フレームワークおよびベンチマークである M$^3$Eval を導入します。認知心理学に基づいた当社のデザインは、記憶の重要な側面を分離する慎重に構築されたタスクを特徴としています。 M$^3$Eval を活用して、代表的なマルチモーダル モデルにわたって広範な実験を実施し、一貫した弱点と独特の動作を明らかにしました。私たちは、並列ビデオストリームを処理する際にモデルがもつれの解けた表現を維持するのに苦労し、人間の記憶で観察されるものとは大幅に異なる干渉パターンを示し、記憶ソースを時間領域よりも空間領域でより確実に接地し、限られた記号記憶を実証していることを発見しました。まとめると、私たちのベンチマークは将来の研究のための貴重なリソースを提供しますが、私たちの調査結果は、メモリが基本的でありながらまだ研究されていない機能であることを強調し、マルチモーダルモデルでより効果的なメモリメカニズムを設計するための洞察を提供します。コードとデータセットは https://pku-value-lab.github.io/m3eval-homepage で入手できます。
原文 (English)
M$^3$Eval: Multi-Modal Memory Evaluation through Cognitively-Grounded Video Tasks
As multi-modal models advance towards long-form video understanding, memory emerges as a critical capability. Despite substantial efforts in developing video datasets and benchmarks, existing works primarily focus on perception and reasoning, without systematically evaluating memory: what models retain, how faithfully information is preserved, and how robust memory remains under interference. To address this gap, we introduce M$^3$Eval, the first comprehensive evaluation framework and benchmark for probing different memory dimensions in multi-modal models. Grounded in cognitive psychology, our design features carefully constructed tasks that isolate key aspects of memory. Leveraging M$^3$Eval, we conduct extensive experiments across representative multi-modal models, revealing consistent weaknesses and distinctive behaviors. We find that models struggle to maintain disentangled representations when processing parallel video streams, exhibit interference patterns differing substantially from those observed in human memory, ground memory sources more reliably in the spatial domain than the temporal domain, and demonstrate limited symbolic memory. Collectively, our benchmark provides a valuable resource for future research, while our findings highlight memory as a fundamental yet underexplored capability and offer insights for designing more effective memory mechanisms in multi-modal models. Our code and dataset are available at https://pku-value-lab.github.io/m3eval-homepage.
答えから状態へ: 大規模言語モデルにおける化学推論の検証可能なプロセスレベルの評価
大規模な言語モデルが化学アシスタントとして使用されることが増えていますが、ほとんどの化学ベンチマークは依然として最終的な回答のみをスコアとしています。これにより、重大な故障モードが隠蔽されます。モデルは、その推論が化学ロジックに違反しているにもかかわらず、正しい分子、生成物、またはオプションを出力する可能性があります。 LLM ジャッジと人間のステップレベルのプロセス アノテーションはコストが高く、一貫性がなく、幻覚に対して脆弱であるため、既存のプロセス レベルの評価機能を拡張するのは困難です。 ChemCoTBench-V2 は、構造化され検証者がアドレス指定できる化学推論トレースを低コストで監査可能に評価するためのルール検証可能な診断ベンチマークです。これは、分子理解、分子編集、分子最適化、反応予測に及び、18 のレポートタスクにわたる 5,620 の評価サンプルを備えています。モデルは、専門家が設計したテンプレートで主要な中間ステップを公開する必要があり、それらのステップは決定論的な化学ルールでチェックされ、クローズドアンサータスクの場合は、別の LLM 審査員ではなく参照トレースが使用されます。オープンエンド分子最適化は、厳密なトレース マッチングではなく、Oracle で検証可能な状態制約を使用して評価されます。このベンチマークは、最終回答の正確性、テンプレートの遵守、専門家によって洗練された中間コミットメントに対する段階的な検証者の正確さという 3 つの個別のシグナルを報告します。フロンティア モデルの実験では、最終的な回答の成功と構造化推論の状態の一貫性の間には永続的なギャップがあることが明らかになりました。モデルは多くの場合、化学ステップ チェックに失敗しながらも要求された形式に従っているか、弱い裏付け推論で正しく回答することができます。 ChemCoTBench-V2 は、きめ細かいモデル比較を可能にし、トレースが最初に検証ツールに違反する具体的なステップを特定します。
原文 (English)
From Answers to States: Verifiable Process-Level Evaluation of Chemical Reasoning in Large Language Models
Large language models are increasingly used as chemistry assistants, yet most chemistry benchmarks still score only final answers. This masks a critical failure mode: a model may output the correct molecule, product, or option while its reasoning violates chemical logic. Existing process-level evaluators are hard to scale because LLM judges and human step-level process annotation are costly, inconsistent, and vulnerable to hallucination. We introduce ChemCoTBench-V2, a rule-verifiable diagnostic benchmark for low-cost, auditable evaluation of structured, verifier-addressable chemical reasoning traces. It spans molecular understanding, molecule editing, molecular optimization, and reaction prediction, with 5,620 evaluation samples across 18 reporting tasks. Models must expose key intermediate steps in expert-designed templates, and those steps are checked with deterministic chemistry rules and, for closed-answer tasks, reference traces rather than another LLM judge. Open-ended molecular optimization is evaluated with oracle-verifiable state constraints rather than strict trace matching. The benchmark reports three separate signals: final-answer correctness, template adherence, and step-wise verifier correctness over expert-refined intermediate commitments. Experiments on frontier models reveal a persistent gap between final-answer success and structured-reasoning-state consistency: models often follow the requested format while failing chemical-step checks, or answer correctly with weak supporting reasoning. ChemCoTBench-V2 enables fine-grained model comparison and identifies the concrete step at which the trace first violates the verifier.
CounterFace: 顔認識システムのきめ細かい反事実評価のための合成顔データセット
顔認識 (FR) システムは重要なアプリケーションに広く導入されており、多様な人口や条件に対する信頼性と堅牢性が不可欠となっています。 FR システムの標準評価は通常、LFW などのデータセットに依存して平均認識精度を推定します。一部のベンチマークは、経年変化、姿勢、照明などの粗粒度のアイデンティティ内の変動も捕捉します。ただし、人間の顔には、ヘアスタイルやメイクなどの外観の変化を含む、より細かい変化が生じますが、これは既存のベンチマークでは過小評価されています。反事実評価は、このようなきめの細かい変動の下で FR の堅牢性を評価する方法を提供します。ただし、画像ジェネレーターを使用して合成された既存の反事実の顔データセットは、パイプラインでの検証に人間が使用されているため、属性の範囲が限られています。我々は、20 の顔属性と 8 つの人口統計的要素で構成される新しい反事実評価データセットである CounterFace を提案します。これは、以前の合成顔データセットを 14 属性と 2 つの人口統計的要因で上回っています。データセットは、カスタム検証機能を備えた既製の画像ジェネレーターに基づいた完全に自動化されたパイプラインを使用して生成され、人間による検証の必要性がなくなりました。 CounterFace には 11,821 の反事実の顔のペアが含まれており、事後のユーザー調査により、生成された反事実の忠実性が確認されています。 160 の属性と人口統計の組み合わせにわたって、2 つの商用 FR システムと 4 つのオープンソース FR システム (AWS Rekognition、Face++、AdaFace、MagFace、ArcFace、FaceNet) を評価します。当社のデータセットは、標準の評価ベンチマークとは異なり、個々のシステムの正確な故障モードを分離するのに役立ちます。結果は、パフォーマンスの低下は 6 つすべてのシステムの属性と人口統計によって異なり、遮蔽属性 (フェイスマスクやひげなど) が普遍的にパフォーマンスを低下させることを示しています。
原文 (English)
CounterFace: A Synthetic Face Dataset for Fine-Grained Counterfactual Evaluation of Face Recognition Systems
Face recognition (FR) systems are widely deployed in critical applications, making their reliability and robustness across diverse populations and conditions essential. Standard evaluation of FR systems typically relies on datasets such as LFW to estimate average recognition accuracy. Some benchmarks also capture coarse-grained intra-identity variations such as aging, pose, and lighting. However, human faces undergo more fine-grained changes, including appearance changes such as hairstyles and makeup, that are underrepresented in existing benchmarks. Counterfactual evaluation provides a method to assess FR robustness under such fine-grained variations. Existing counterfactual face datasets synthesized with image generators, however, are limited in attribute coverage due to the use of humans for verification in the pipeline. We propose CounterFace, a new counterfactual evaluation dataset comprising 20 facial attributes and 8 demographic factors, exceeding prior synthetic face datasets by 14 attributes and 2 demographics. The dataset is generated using a fully automated pipeline based on off-the-shelf image generators with custom verifiers, removing human need for verification. CounterFace contains 11,821 counterfactual face pairs, and a post-hoc user study confirms the faithfulness of the generated counterfactuals. We evaluate two commercial and four open-source FR systems (AWS Rekognition, Face++, AdaFace, MagFace, ArcFace, FaceNet) across 160 attribute-demographic combinations. Our dataset helps in the isolation of precise failure modes for individual systems unlike standard evaluation benchmarks. Results indicate that the performance degradation varies across attributes and demographics for all six systems and occluding attributes (e.g., facemask and facial hair) universally degrade performance.
グラフ検索からスキーマ実現まで: 異種ナレッジ グラフ上のテキストから SPARQL への反事実検証
Text-to-SPARQL は、自然言語の質問を RDF ナレッジ グラフ上の実行可能な SPARQL クエリにマッピングします。標準的な評価ではターゲット グラフが事前に修正されることがよくありますが、実践的なナレッジ グラフ質問応答 (KGQA) には、異なるスキーマ、部分的なアラインメント、および不完全なメタデータを含む異種グラフ コレクションが含まれる場合があります。この設定では、クエリ生成は SPARQL 構文以上のものに依存します。システムは、質問に必要な述語、エンティティ タイプ、結合、フィルター、および制約をサポートできるグラフ スキーマを識別する必要があります。異種の KG コレクション上でテキストから SPARQL に変換するためのスキーマベースのエージェント フレームワークである SchemaForge を紹介します。その中心的なメカニズムは、質問条件付きのスキーマ スライス アライメントです。弱いグラフの証拠によって最初にもっともらしいグラフが特定され、より強力なスキーマの証拠によって、ローカル スキーマ スライスが意図したクエリを実現できるかどうかが決まります。選択されたスキーマ スライスは、クエリの生成と実行前の検証を制限します。利用可能なグラフが 1 つだけの場合、同じ定式化は、スキーマ基盤を備えた標準の単一 KG テキストから SPARQL への変換に縮小されます。 LC-QuAD 2.0、QALD-9 Plus、QALD-10、および Spider4SPARQL で SchemaForge を評価します。 SchemaForge は、4 つの公開ベンチマーク全体で、最も一致するエージェントのベースラインよりも実行精度を平均 11.50 パーセント向上させています。 Spider4SPARQL では、SchemaForge は実行精度を 54.86% から 64.18% に向上させ、トップ 1 グラフ割り当て精度 73.0% とトップ 3 グラフ割り当て精度 97.0% を達成しました。これらの結果は、グラフの弱い証拠からスキーマ固有のクエリコミットメントへの移行と、反事実の回答セットのチェックにより、異種ナレッジグラフよりも実行可能なクエリの生成が向上することを示しています。
原文 (English)
From Graph Retrieval to Schema Realization: Counterfactual Validation for Text-to-SPARQL over Heterogeneous Knowledge Graphs
Text-to-SPARQL maps natural-language questions to executable SPARQL queries over RDF knowledge graphs. While standard evaluations often fix the target graph in advance, practical knowledge graph question answering (KGQA) may involve heterogeneous graph collections with different schemas, partial alignments, and incomplete metadata. In this setting, query generation depends on more than SPARQL syntax: the system must identify a graph schema that can support the predicates, entity types, joins, filters, and constraints required by the question. We present SchemaForge, a schema-grounded agentic framework for text-to-SPARQL over heterogeneous KG collections. Its central mechanism is question-conditioned schema-slice alignment: weak graph evidence first identifies plausible graphs, while stronger schema evidence determines whether a local schema slice can realize the intended query. The selected schema slice then constrains query generation and verification before execution. When only one graph is available, the same formulation reduces to standard single-KG text-to-SPARQL with schema grounding. We evaluate SchemaForge on LC-QuAD 2.0, QALD-9 Plus, QALD-10, and Spider4SPARQL. Across the four public benchmarks, SchemaForge improves execution accuracy over the strongest matched agent baseline by 11.50 percentage points on average. On Spider4SPARQL, SchemaForge improves execution accuracy from 54.86% to 64.18% and achieves 73.0% Top-1 and 97.0% Top-3 graph allocation accuracy. These results show that moving from weak graph evidence to schema-specific query commitments, together with counterfactual answer-set checks, improves executable query generation over heterogeneous knowledge graphs.
VGGSounder: 基礎モデルのオーディオビジュアル評価
視聴覚基礎モデルの出現は、マルチモーダルな理解を確実に評価することの重要性を強調しています。 VGGSound データセットは、オーディオビジュアル分類の評価のベンチマークとしてよく使用されます。ただし、私たちの分析では、不完全なラベル付け、部分的に重複するクラス、不整合なモダリティなど、VGGSound のいくつかの制限が特定されました。これらは、聴覚および視覚能力の歪んだ評価につながります。これらの制限に対処するために、VGGSounder を導入します。これは、VGGSound を拡張し、オーディオビジュアル基礎モデルを評価するために特別に設計された、包括的に再アノテーションが付けられたマルチラベル テスト セットです。 VGGSounder は詳細なモダリティの注釈を備えており、モダリティ固有のパフォーマンスを正確に分析できます。さらに、新しいモダリティ混乱メトリックを使用して別の入力モダリティを追加したときのパフォーマンスの低下を分析することで、モデルの限界を明らかにします。
原文 (English)
VGGSounder: Audio-Visual Evaluations for Foundation Models
The emergence of audio-visual foundation models underscores the importance of reliably assessing their multi-modal understanding. The VGGSound dataset is commonly used as a benchmark for evaluation audio-visual classification. However, our analysis identifies several limitations of VGGSound, including incomplete labelling, partially overlapping classes, and misaligned modalities. These lead to distorted evaluations of auditory and visual capabilities. To address these limitations, we introduce VGGSounder, a comprehensively re-annotated, multi-label test set that extends VGGSound and is specifically designed to evaluate audio-visual foundation models. VGGSounder features detailed modality annotations, enabling precise analyses of modality-specific performance. Furthermore, we reveal model limitations by analysing performance degradation when adding another input modality with our new modality confusion metric.
ノイズを含む音声分離におけるスケール不変信号対歪み比の研究
この論文では、事実上のベンチマーク WSJ0-2Mix の場合のように、トレーニング参照にノイズが含まれている場合に、教師あり音声分離における評価とトレーニングの目的の両方としてスケール不変信号対歪み比 (SI-SDR) を使用することの意味を検証します。ノイズの多いリファレンスを使用して SI-SDR を導出すると、ノイズによって達成可能な SI-SDR が制限されるか、分離された出力に望ましくないノイズが発生することがわかります。これに対処するために、ノイズの多い参照の学習を回避するモデルをトレーニングすることを目的として、WHAM! を使用して参照を強化し、混合を増強する方法が提案されています。これらの強化されたデータセットでトレーニングされた 2 つのモデルは、非侵入的な NISQA.v2 メトリックを使用して評価されます。結果は、分離された音声のノイズが減少していることを示していますが、参照の処理によりアーチファクトが生じ、全体的な品質の向上が制限される可能性があることが示唆されています。 WSJ0-2Mix および Libri2Mix テスト セットのモデル全体で、SI-SDR と知覚されるノイズの間に負の相関関係が見つかり、導出による結論が強調されています。
原文 (English)
A Study of the Scale Invariant Signal to Distortion Ratio in Speech Separation with Noisy References
This paper examines the implications of using the Scale-Invariant Signal-to-Distortion Ratio (SI-SDR) as both evaluation and training objective in supervised speech separation, when the training references contain noise, as is the case with the de facto benchmark WSJ0-2Mix. A derivation of the SI-SDR with noisy references reveals that noise limits the achievable SI-SDR, or leads to undesired noise in the separated outputs. To address this, a method is proposed to enhance references and augment the mixtures with WHAM!, aiming to train models that avoid learning noisy references. Two models trained on these enhanced datasets are evaluated with the non-intrusive NISQA.v2 metric. Results show reduced noise in separated speech but suggest that processing references may introduce artefacts, limiting overall quality gains. Negative correlation is found between SI-SDR and perceived noisiness across models on the WSJ0-2Mix and Libri2Mix test sets, underlining the conclusion from the derivation.
分散ゲート分布を使用した不確かさの推定
ニューラル ネットワークからのサンプルごとの不確実性の定量化の評価は、高リスクのアプリケーションを含む意思決定に不可欠です。一般的なアプローチは、ベイジアン モデルまたは近似モデルからの予測分布を使用し、対応する予測の不確実性を認識的 (モデル関連) 成分と偶然的 (データ関連) 成分に分解することです。しかし、最近では相加的分解に疑問が持たれています。この研究では、さまざまなモデル予測にわたるクラス確率分布の信号対雑音比に基づいて、不確実性の推定と分解を行うための直感的なフレームワークを提案します。アンサンブルから導出された信頼係数によって予測をスケールする分散ゲート測定を導入します。私たちはこの尺度を利用して、委員会マシンの多様性の崩壊の存在について議論します。
原文 (English)
Uncertainty Estimation using Variance-Gated Distributions
Evaluation of per-sample uncertainty quantification from neural networks is essential for decision-making involving high-risk applications. A common approach is to use the predictive distribution from Bayesian or approximation models and decompose the corresponding predictive uncertainty into epistemic (model-related) and aleatoric (data-related) components. However, additive decomposition has recently been questioned. In this work, we propose an intuitive framework for uncertainty estimation and decomposition based on the signal-to-noise ratio of class probability distributions across different model predictions. We introduce a variance-gated measure that scales predictions by a confidence factor derived from ensembles. We use this measure to discuss the existence of a collapse in the diversity of committee machines.
Safety Under Scaffolding: How Evaluation Conditions Shape Measured Safety
A safety score earned on a benchmark need not predict how the same model behaves once it is wrapped in an agentic scaffold the benchmark ne…
Markov Chain Decoders Overcome the Heavy-Tail Limitations of Lipschitz Generative Models
Heavy-tailed distributions are prevalent in performance evaluation, network traffic, and risk modeling. This behavior poses a fundamental c…
メタ学習による費用対効果の高いモデル評価
機械学習の急速な成長により、拡大し続けるモデルのエコシステムが生み出され、目に見えないラベルのないデータに対して新しくリリースされたモデルの信頼性を検証することがますます困難になっています。従来の評価パイプラインは、高価なアノテーション、繰り返しの微調整、またはモデル ファミリ間での転送ができない狭い仮定に依存しています。さまざまなアーキテクチャやモダリティにまたがる未確認のモデルをラベルなしで迅速に評価するための、コスト効率が高く、モデルに依存しないフレームワークである MetaEvaluator を紹介します。 MetaEvaluator は、参照モデルのプールに対するメタ学習を利用して転送可能な初期化を取得し、プール全体でコストを償却しながら、モデルごとの再トレーニングの必要性を排除しながら、新しいモデルの正確な評価を可能にします。私たちの知る限り、これは完全にラベルのないデータセットで新しいモデルを評価できる、モデルに依存しない最初のフレームワークです。広範な実験により、MetaEvaluator は従来のアプローチと比較して大幅にコストを削減しながら安定した正確なパフォーマンス推定値を生成し、ラベルのないデータに対する新しいモデルのスケーラブルなベンチマークを実用化できることが示されています。
原文 (English)
Learning to Evaluate: Cost-Effective Model Evaluation on Unlabeled Data with Meta-Learning
The rapid advancement of machine learning has led to an unprecedented expansion of model ecosystems, making it increasingly difficult to assess the reliability of newly released models on unseen and unlabeled data. Existing evaluation pipelines typically rely on costly annotation, repeated fine-tuning, or assumptions that do not generalize well to new models. We introduce MetaEvaluator, a cost-effective, model-agnostic framework for fast, label-free evaluation of unseen models across diverse architectures and modalities. MetaEvaluator meta-learns over a pool of reference models to acquire an effective initialization for accurate assessment of unseen models, thereby amortizing evaluation cost and eliminating the need for per-model retraining. To the best of our knowledge, this is the first model-agnostic framework that evaluates new models on unlabeled datasets. Extensive experiments demonstrate that MetaEvaluator delivers stable and accurate performance estimates at substantially lower cost than conventional approaches, enabling scalable benchmarking on unlabeled datasets for emerging models. The code is available at: https://github.com/phkhanhtrinh23/MetaEvaluator.
BenHalluEval: A Multi-Task Hallucination Evaluation Framework for Large Language Models on Bengali
Despite Bengali being the sixth most spoken language in the world, no prior work has systematically evaluated hallucination in large langua…
Alphabet’s record-breaking $85B raise for Google’s AI business is a helluva good signal
If Alphabet's record-breaking $85 billion stock sale signals investor appetite for AI-related offerings, we can see that investors are read…
Coralogix raises $200M on bet that someone needs to watch the AI agents
Coralogix is among a growing number of infrastructure firms betting that as AI systems move into production, demand will rise for tools tha…
BehaviorBench: 行動追跡から現実世界のユーザーの意思決定をモデル化
多くの意思決定支援設定では、個々のユーザーに適応するシステムが必要ですが、この問題に関する評価データは依然として限られています。ユーザー理解のための既存のベンチマークは、多くの場合、シミュレートされたユーザーやモデルで生成された動作に依存していますが、最近の研究では、モデルベースのシミュレーションが人間の動作から系統的に逸脱する可能性があると警告されています。現実世界の行動追跡からパーソナライズされた意思決定モデリングを評価するためのベンチマークである \textsc{BehaviorBench} を紹介します。 \textsc{BehaviorBench} は、観測された公開予測市場記録とオンチェーン記録からウォレットレベルの意思決定履歴を再構築し、それらを 2 つの補完的なタスク層に編成します。\emph{信念予測} は市場に対するユーザーの最終的なスタンスと自信を予測し、\emph{取引予測} は個々の取引の方向と金額を予測します。 2,000 の評価ウォレットにわたって、ベンチマークには 141,445 個の信念インスタンスと 1,485,972 個の取引インスタンスが含まれており、検索ベースの評価のための独立したサポート プールが含まれています。私たちは、パーソナライゼーションなし、直接の最近の履歴、生成されたユーザー プロファイル、および取得されたサポート ウォレットの証拠という 4 つの履歴インターフェイスの下で、フロンティアおよびオープンウェイト生成モデルを評価します。パーソナライゼーションにより、取引予測よりも一貫して信念予測が向上し、モデルのランキングがタスク レイヤーとメトリクスにわたって変化し、さまざまな履歴インターフェイスによりさまざまな障害モードが明らかになります。 \textsc{BehaviorBench} は、パーソナライズされたメソッドがシミュレートされたユーザーのみではなく現実世界の行動証拠を使用できるかどうかを研究するための評価設定を提供します。
原文 (English)
BehaviorBench: Modeling Real-World User Decisions from Behavioral Traces
Many decision-support settings require systems that adapt to individual users, but evaluation data for this problem remain limited. Existing benchmarks for user understanding often rely on simulated users or model-generated behavior, even though recent work cautions that model-based simulations can diverge systematically from human behavior. We introduce \textsc{BehaviorBench}, a benchmark for evaluating personalized decision modeling from real-world behavioral traces. \textsc{BehaviorBench} reconstructs wallet-level decision histories from observed public prediction-market and on-chain records, and organizes them into two complementary task layers: \emph{Belief prediction}, which predicts a user's final revealed stance and confidence in a market, and \emph{Trade prediction}, which predicts the direction and amount of individual transactions. Across 2,000 evaluation wallets, the benchmark contains 141,445 Belief instances and 1,485,972 Trade instances, with disjoint support pools for retrieval-based evaluation. We evaluate frontier and open-weight generative models under four history interfaces: no personalization, direct recent history, generated user profiles, and retrieved support-wallet evidence. Personalization improves Belief prediction more consistently than Trade prediction, model rankings change across task layers and metrics, and different history interfaces expose different failure modes. \textsc{BehaviorBench} provides an evaluation setting for studying whether personalized methods can use real-world behavioral evidence rather than simulated users alone.
ギャンブルはしないでください、GAMBLe: AI 主導の研究システムのための分析フレームワーク
AI-Driven Research Systems (ADRS) -- LLM と自動評価を組み合わせてアルゴリズム、証明、設計を発見するシステム -- は最適化され、ドメイン全体で採用されていますが、それらを分析するツールは追いついていません。 ADRS のパフォーマンスはコンポーネントの相互作用に依存しますが、これらの相互作用は十分に理解されておらず、調査にコストがかかり、(ここで示しているように) 標準の収束保証では十分に把握されていません。これらの保証は、私たちが形式化した ADRS プロセスの下では成立しない構造的な仮定に依存しています。我々は、ADRS の動作を 4 つのパラメーター (ジェネレーター $G$、アセッサー $\mathcal{A}$、発見メカニズム $\mathcal{M}$、バジェット $B$) と 1 つの構成オブジェクト、効果的なランドスケープ $L_{\text{eff}} = \mathcal{A} \circ G$ に分解するフレームワークである GAMBLe を紹介します。これにより、異なるジェネレーターとアセッサーのペアが構造的に異なる問題ごとの最適化を引き起こすことが明らかになります。風景。私たちは、単一の LLM から動的適応アンサンブルに至るジェネレーター、貪欲な選択から共進化メタサーチに至るメカニズム、および評価者が連続スコアリングからクリフ関数に及ぶ 3 つの NP 困難問題に及ぶ 760 以上の反復実行 (>46,000 反復) でフレームワークを実行します。実験では、ジェネレーターやメカニズムの完全な順序付けは明らかにされていません。フロンティア モデルはオープンソースの代替モデルよりもパフォーマンスが劣る可能性があり、最も単純なメカニズムが最先端のメタ検索を上回る場合もあります。結果は、限られた予算 (実行ごとに 60 回の反復) の下でも、適切なコンポーネントを選択することでパフォーマンスを 13 ~ 67%、検索効率を 6 ~ 39 倍改善できることを示しています。
原文 (English)
Don't Gamble, GAMBLe: An Analytical Framework for AI-Driven Research Systems
AI-Driven Research Systems (ADRS) -- systems coupling LLMs with automated evaluation to discover algorithms, proofs, and designs -- are being optimized and adopted across domains, but the tools to analyze them have not kept pace. ADRS performance depends on component interactions that are poorly understood, expensive to explore, and (as we show) not well captured by standard convergence guarantees. These guarantees rely on structural assumptions that do not hold under the ADRS process we formalize. We introduce GAMBLe, a framework that decomposes ADRS behavior into four parameters (generator $G$, assessor $\mathcal{A}$, discovery mechanism $\mathcal{M}$, budget $B$) and one compositional object, the effective landscape $L_{\text{eff}} = \mathcal{A} \circ G$, which reveals that distinct generator-assessor pairs induce structurally different per-problem optimization landscapes. We exercise the framework on 760+ replicated runs (>46,000 iterations) spanning generators from single LLMs to dynamically-adaptive ensembles, mechanisms from greedy selection to co-evolutionary meta-search, and three NP-hard problems whose assessors range from continuous scoring to cliff functions. The experiments reveal no total ordering of generators or mechanisms: frontier models can underperform open-source alternatives and the simplest mechanism sometimes outperforms state-of-the-art meta-search. Results show that even under limited budgets (60 iterations per run), the right component choices can improve performance by 13-67% and search efficiency by 6-39x.
話す前に考える: マルチエージェント社会シミュレーションにおける内部評価から公の表現まで
LLM ベースのマルチエージェント シミュレーションは、社会的相互作用、熟慮、集団的な意見のダイナミクスを研究するための有望な方法を提供します。しかし、既存の対話シミュレーション フレームワークの多くは、対話を主に観察可能なターン交換または集約された出力として表現しており、沈黙、発言意図、公的表現の背後にある内部評価プロセスを調査することが困難なままになっています。エージェントの私的な推論を公的発話の生成から分離する、インターバルベースのマルチエージェント シミュレーション フレームワークである TBS (Think-Before-Speak) を紹介します。各間隔で、すべてのエージェントは共有された対話履歴と自身の記憶に基づいて構造化された内部状態を更新します。これらの状態には、不協和音関連の評価、認識された世論環境、認識された孤立リスク、対応戦略、および発言意欲が含まれます。その後、オーケストレーターは競合する発言意図を解決し、1 つの発言を公開対話にコミットし、内部評価と公開対話が時間の経過とともに共進化できるようにします。私たちは、気候関連の政策問題に関するタウンホールでの議論を模擬して TBS を評価します。結果は、TBS が一貫した内部状態トレースを生成し、これらのトレースがターン割り当て、沈黙、メモリ条件全体にわたって体系的に変化することを示しています。不協和音関連の評価はエージェントの発言意欲を高めますが、沈黙の圧力評価はそれを低下させます。発言の意図が形成されると、公の場での表現は主に順番の割り当てルールによって形成されます。これらの発見は、TBS が内部評価から公的表現への経路を観察可能かつ分析可能にすることで、メカニズムに敏感な社会シミュレーションをサポートしていることを示唆しています。
原文 (English)
Think-Before-Speak: From Internal Evaluation to Public Expression in Multi-Agent Social Simulation
LLM-based multi-agent simulation offers a promising way to study social interaction, deliberation, and collective opinion dynamics. However, many existing dialogue simulation frameworks represent interaction mainly as observable turn exchange or aggregated outputs, leaving the internal evaluative processes behind silence, speaking intention, and public expression difficult to examine. We introduce TBS (Think-Before-Speak), an interval-based multi-agent simulation framework that separates agents' private reasoning from public utterance generation. At each interval, all agents update structured internal states based on the shared dialogue history and their own memory. These states include dissonance-related appraisal, perceived opinion climate, perceived isolation risk, response strategy, and willingness to speak. The orchestrator then resolves competing speaking intentions and commits one utterance to the public dialogue, allowing internal evaluation and public interaction to co-evolve over time. We evaluate TBS in simulated town hall discussions on a climate-related policy issue. Results show that TBS produces coherent internal-state traces and that these traces vary systematically across turn-allocation, silence, and memory conditions. Dissonance-related appraisal increases agents' willingness to speak, whereas silence-pressure appraisal decreases it. Once speaking intention is formed, public expression is shaped mainly by turn-allocation rules. These findings suggest that TBS supports mechanism-sensitive social simulation by making the pathway from internal evaluation to public expression observable and analyzable.
ベンチマーク監査における信頼性ギャップ: 汚染検出の障害モードとしての分布のシフトとスケール
評価例がモデルのトレーニング データに現れるベンチマーク汚染は、LLM 評価の妥当性を脅かします。トレーニング データのメンバーシップを検出するための統計ツールは存在しますが、ほぼ独占的に管理された学術体制、つまり大規模で均質な事前トレーニング コーパスと透明な単一ステージ トレーニング パイプラインでのみ検証されています。これらの方法が現実的な監査シナリオにおいて信頼性を維持できるかどうかは、依然として不明です。私たちは、十分に研究されていない 2 つの障害モードを特定します。1 つは、疑わしいセットと検証セットが IID の仮定に違反する場合に発生する分布シフト、もう 1 つは、ベンチマークがトレーニング前のコーパスよりも桁違いに小さいために発生するスケール制約です。私たちは、複数のファミリー (Pythia、OLMo~2、特殊な文化的および医療的 LLM を含む) およびスケール (最大 27B) からの 27 のモデルにわたって、LLM データセット推論、ポストホック データセット推論、CoDeC という 3 つの主要なパラダイムを体系的に評価します。次に、分析を最先端の業界モデルにさらに拡張します。 335 件の評価のうち、正しい結果が得られたのは 199 件のみでした。 LLM データセット推論では、分布シフトの下で偽陽性が発生し、ポストホック データセット推論はベンチマーク スケールでは能力が不足し、CoDeC は個々のベンチマーク分割を検証するには不十分な粗い出所信号しか提供しません。私たちの結果は、管理された検証と実際のベンチマーク監査の間に体系的な信頼性のギャップがあることを明らかにし、統計的検出がまだ透明なデータ来歴に取って代わることができないことを示しています。私たちはさらなる研究のためにベンチマークをオープンソースにしています。
原文 (English)
The Reliability Gap in Benchmark Auditing: Distribution Shift and Scale as Failure Modes of Contamination Detection
Benchmark contamination, where evaluation examples appear in a model's training data, threatens the validity of LLM assessment. Statistical tools for detecting training-data membership exist, but have been validated almost exclusively in controlled academic regimes: large, homogeneous pre-training corpora and transparent, single-stage training pipelines. Whether these methods remain reliable in realistic auditing scenarios remains unclear. We identify two under-studied failure modes: distribution shift, which arises when suspect and validation sets violate the IID assumption, and scale constraints, which arise because benchmarks are orders of magnitude smaller than pre-training corpora. We systematically evaluate three leading paradigms: LLM Dataset Inference, Post-Hoc Dataset Inference, and CoDeC across 27 models from multiple families (including Pythia, OLMo~2, and specialised cultural and medical LLMs) and scales (up to 27B). We then further extend our analysis to frontier industry models. Across 335 evaluations, only 199 yield correct outcomes. LLM Dataset Inference results in false positives under distribution shift, Post-Hoc Dataset Inference is underpowered at benchmark scale, and CoDeC provides only coarse provenance signals that are insufficient to verify individual benchmark splits. Our results reveal a systematic reliability gap between controlled validation and practical benchmark auditing, and show that statistical detection cannot yet replace transparent data provenance. We open-source our benchmark for further research.
SAGE: エージェント生態系における社会化進化の定量的評価
自己改善型言語エージェントは通常、単独で評価されます。エージェントはタスクを試み、フィードバックを受け取り、繰り返し自身の動作を改善します。しかし、エージェントは、戦略と結果が公に公開されている同僚と協力して活動することが増えています。このことから、十分に研究されていない疑問が生じます。共有された経験が、自己改善だけでは達成できない改善をもたらすのはいつでしょうか? 2 つのコンピューティングが一致する条件を比較する評価フレームワークである SAGE (ソーシャル エージェント グループ エボリューション) を紹介します。SocialEvo では、5 つの異なるモデル ファミリのエージェントがすべてのピアの履歴にアクセスしながら共同進化します。そして、SelfEvo では、各エージェントは同じ回数のタスク試行を受けますが、自分自身の過去のみを見ることができます。これは、自己改善エージェントの研究では一般的です。私たちは、オープンエンドの ML 研究、長期的な経済計画、戦略的なマルチプレイヤー プレイの 3 つの分野で SAGE をインスタンス化し、複数の進化ラウンドにわたって評価します。私たちは、グループの歴史が普遍的な増幅器ではないことを発見しました。つまり、最も強力なエージェントは自己進化の上限を超えることはありません。ただし、自己改善が停滞しているエージェントでも、同僚の経験があれば、大きな進歩を遂げることができます。競争環境では、反事実的なコントロールにより、エージェントが対戦相手固有の戦略を開発するのではなく、全体的に向上することが明らかになります。さまざまな形式の共有履歴にわたって、フィルタリングされたピアトレースやリフレクションサマリーは生のログよりもパフォーマンスが優れていることが多く、社会的利益は露出量ではなく抽象化に依存していることを示しています。これらの発見は、ピア履歴の獲得がエージェント固有、アリーナ依存であり、公開された痕跡から譲渡可能な知識を抽象化する能力に依存していることを明らかにしています。
原文 (English)
SAGE: A Quantitative Evaluation of Socialized Evolution in Agent Ecosystems
Self-improving language agents are typically evaluated in isolation: an agent attempts a task, receives feedback, and iteratively refines its own behavior. Yet agents increasingly operate alongside peers whose strategies and outcomes are publicly visible. This raises an under-studied question: when does shared experience produce improvements that self-improvement alone cannot achieve? We introduce SAGE (Social Agent Group Evolution),an evaluation framework that compares two compute-matched conditions: SocialEvo, where agents from five distinct model families co-evolve with access to all peers' histories; and SelfEvo, where each agent receives the same number of task attempts but sees only its own past, which is conventional in self-improving agent studies. We instantiate SAGE in three arenas: open-ended ML research, long-horizon economic planning, and strategic multiplayer play, evaluated across multiple evolutionary rounds. We find that group history is not a universal amplifier: the strongest agent does not exceed its self-evolution ceiling. However, agents that plateau under self-improvement can achieve significant breakthroughs when peer experience is available. In competitive settings, counterfactual controls reveal that agents improve generally rather than developing opponent-specific strategies. Across different forms of shared history, filtered peer traces and reflective summaries often outperform raw logs, indicating that social gains depend on abstraction rather than exposure volume. These findings reveal that peer-history gains are agent-specific, arena-dependent, and contingent on the capacity to abstract transferable knowledge from public traces.
LLM ツール使用における知識ギャップの診断: 新しい API 取得のためのエージェント ベンチマーク
コード生成のための大規模な言語モデルでは、多くの場合、事前トレーニング データに含まれていない API を使用する必要があります。これには、関数名を思い出すだけでは不十分です。モデルは、シグネチャ、モジュール パス、入出力コントラクト、セマンティクス、および実行可能ファイルの使用パターンを調整する必要があります。既存の新規 API ベンチマークは通常、静的であり、大まかな合否メトリクスに依存しているか、実際のライブラリの進化を反映していない可能性がある合成 API を使用しています。 NovelAPIBench は、あらゆるベース モデルおよびターゲット ライブラリに対して、新しい API を検出し、分解された知識バンドルを抽出し、実行可能なコーディング タスクを生成し、失敗したサンプルを 6 つの診断カテゴリに割り当てる、完全に自動化された動的ベンチマークです。約 1.9K のタスク、4 つの基本モデル、5 つのドメインにわたって、検索を通じて注入された知識と、パラメトリック適応を通じて内面化された知識を比較します。ナレッジコンポーネントは互換性がないことがわかりました。使用例は最も強力なスタンドアロンシグナルですが、最良の 2 コンポーネント設定は、ドメインとバックボーンに応じてメカニズムまたはサンプルのいずれかとシグネチャを組み合わせます。コンテキスト、特にソース コードを追加すると、インポート パスのエラーが増加して問題が発生する可能性があります。また、パラメトリック適応は、外部知識が除去された場合には検索に代わるものではありません。むしろ、微調整は主に提供されたバンドルの使用方法をモデルに教え、この機能は保持されたライブラリに転送されます。これらの結果は、取得とチューニングが補完的な役割を果たすことを示唆しています。取得は揮発性の API コンテンツを提供し、チューニングは手続き上の統合を改善します。
原文 (English)
Diagnosing Knowledge Gaps in LLM Tool Use: An Agentic Benchmark for Novel API Acquisition
Large language models for code generation often need to use APIs that are absent from their pretraining data. This requires more than recalling a function name: models must coordinate signatures, module paths, input-output contracts, semantics, and executable usage patterns. Existing novel-API benchmarks are typically static, rely on coarse pass/fail metrics, or use synthetic APIs that may not reflect real library evolution. We introduce NovelAPIBench, a fully automated dynamic benchmark that, for any base model and target library, discovers novel APIs, extracts decomposed knowledge bundles, generates executable coding tasks, and assigns failed samples to six diagnostic categories. Across about 1.9K tasks, four base models, and five domains, we compare knowledge injected through retrieval with knowledge internalized through parametric adaptation. We find that knowledge components are not interchangeable: usage examples are the strongest standalone signal, while the best two-component setting pairs signatures with either mechanisms or examples depending on the domain and backbone. Adding more context, especially source code, can hurt by increasing import-path errors. Parametric adaptation also does not replace retrieval once external knowledge is removed; rather, fine-tuning mainly teaches models how to use provided bundles, and this ability transfers to held-out libraries. These results suggest that retrieval and tuning play complementary roles: retrieval supplies volatile API content, while tuning improves procedural integration.
答えから状態へ: 大規模言語モデルにおける化学推論の検証可能なプロセスレベルの評価
大規模な言語モデルが化学アシスタントとして使用されることが増えていますが、ほとんどの化学ベンチマークは依然として最終的な回答のみをスコアとしています。これにより、重大な故障モードが隠蔽されます。モデルは、その推論が化学ロジックに違反しているにもかかわらず、正しい分子、生成物、またはオプションを出力する可能性があります。 LLM ジャッジと人間のステップレベルのプロセス アノテーションはコストが高く、一貫性がなく、幻覚に対して脆弱であるため、既存のプロセス レベルの評価機能を拡張するのは困難です。 ChemCoTBench-V2 は、構造化され検証者がアドレス指定できる化学推論トレースを低コストで監査可能に評価するためのルール検証可能な診断ベンチマークです。これは、分子理解、分子編集、分子最適化、反応予測に及び、18 のレポートタスクにわたる 5,620 の評価サンプルを備えています。モデルは、専門家が設計したテンプレートで主要な中間ステップを公開する必要があり、それらのステップは決定論的な化学ルールでチェックされ、クローズドアンサータスクの場合は、別の LLM 審査員ではなく参照トレースが使用されます。オープンエンド分子最適化は、厳密なトレース マッチングではなく、Oracle で検証可能な状態制約を使用して評価されます。このベンチマークは、最終回答の正確性、テンプレートの遵守、専門家によって洗練された中間コミットメントに対する段階的な検証者の正確さという 3 つの個別のシグナルを報告します。フロンティア モデルの実験では、最終的な回答の成功と構造化推論の状態の一貫性の間には永続的なギャップがあることが明らかになりました。モデルは多くの場合、化学ステップ チェックに失敗しながらも要求された形式に従っているか、弱い裏付け推論で正しく回答することができます。 ChemCoTBench-V2 は、きめ細かいモデル比較を可能にし、トレースが最初に検証ツールに違反する具体的なステップを特定します。
原文 (English)
From Answers to States: Verifiable Process-Level Evaluation of Chemical Reasoning in Large Language Models
Large language models are increasingly used as chemistry assistants, yet most chemistry benchmarks still score only final answers. This masks a critical failure mode: a model may output the correct molecule, product, or option while its reasoning violates chemical logic. Existing process-level evaluators are hard to scale because LLM judges and human step-level process annotation are costly, inconsistent, and vulnerable to hallucination. We introduce ChemCoTBench-V2, a rule-verifiable diagnostic benchmark for low-cost, auditable evaluation of structured, verifier-addressable chemical reasoning traces. It spans molecular understanding, molecule editing, molecular optimization, and reaction prediction, with 5,620 evaluation samples across 18 reporting tasks. Models must expose key intermediate steps in expert-designed templates, and those steps are checked with deterministic chemistry rules and, for closed-answer tasks, reference traces rather than another LLM judge. Open-ended molecular optimization is evaluated with oracle-verifiable state constraints rather than strict trace matching. The benchmark reports three separate signals: final-answer correctness, template adherence, and step-wise verifier correctness over expert-refined intermediate commitments. Experiments on frontier models reveal a persistent gap between final-answer success and structured-reasoning-state consistency: models often follow the requested format while failing chemical-step checks, or answer correctly with weak supporting reasoning. ChemCoTBench-V2 enables fine-grained model comparison and identifies the concrete step at which the trace first violates the verifier.
Acceptance-Test-Driven Evaluation Protocols for Business-Centric LLM Systems
Large language model (LLM) applications are increasingly expected to satisfy deterministic institutional requirements while relying on prob…
SCOPE: Real-Time Natural Language Camera Agent at the Edge
Deploying language-driven agents in robotics requires evaluations that reflect real-world task demands: natural-language instructions with…
AnyAudio-Judge: A Dynamic Rubric-Based Benchmark and Evaluator for Audio Instruction Following
The rapid advancement of instruction-guided audio generation has highlighted the critical need for robust alignment evaluation. Current aut…
NVIDIA OmniDreams: Real-Time Generative World Model for Closed-Loop Autonomous Vehicle Simulation
As autonomous vehicle capabilities advance, the safe evaluation of driving policies in long-tail scenarios remains a critical bottleneck. I…
AI Rater Discrimination Depends on Scoring Protocol in Complex Clinical Decision-Making
Clinical AI evaluation increasingly delegates scoring to large language models (LLMs) acting as AI raters, yet their scoring behavior acros…
WebRISE: Requirement-Induced State Evaluation for MLLM-Generated Web Artifacts
Existing benchmarks for MLLM-generated web artifacts assess interaction through local evidence and miss the requirement-induced states and…
AlphaEval: A Comprehensive and Efficient Evaluation Framework for Formula Alpha Mining
Formula alpha mining, which generates predictive signals from financial data, is critical for quantitative investment. Although various alg…
PieArena: Ranking and Profiling Language Agents in Realistic Negotiation Scenarios
We present an in-depth evaluation of LLMs' ability to negotiate, a central business task requiring strategic reasoning, theory of mind, and…
X-RAY: Mapping LLM Reasoning Capability via Formalized and Calibrated Probes
Large language models (LLMs) achieve promising performance, yet their ability to reason remains poorly understood. Existing evaluations lar…
Done, But Not Sure: Disentangling World Completion from Self-Termination in Embodied Agents
Standard embodied evaluations do not independently score whether an agent correctly commits to task completion at episode closure, a capaci…
Community-Aware Assessment of Social Textual Engagement and Resonance: A Human-Centric Perspective on User-Generated Content Evaluation
Traditional Video Quality Assessment (VQA) focuses narrowly on aesthetic fidelity, overlooking the complex social dynamics that define qual…
Where Do Deep-Research Agents Go Wrong? Span-Level Error Localization in Agent Trajectories
Deep-research agents solve tasks through long trajectories of search, tool use, evidence inspection, and answer synthesis. Evaluation based…
AgentCL: Toward Rigorous Evaluation of Continual Learning in Language Agents
Language agents spend substantial inference time solving individual tasks, yet the experience acquired in one episode is often underutilize…
Building Trust in Black-box Optimization: A Comprehensive Framework for Explainability
Optimizing costly black-box functions within a constrained evaluation budget presents significant challenges in many real-world application…
WISE: A World Knowledge-Informed Semantic Evaluation for Text-to-Image Generation
Text-to-Image (T2I) models are capable of generating high-quality artistic creations and visual content. However, existing research and eva…
PHASE: Physiology-Aware Hyperspectral Reconstruction via Object-to-Human Domain Adaptation
Although hyperspectral imaging offers unparalleled non-invasive physiological insight, its bulky hardware, slow acquisition, and regulatory…
Agent Skills for Large Language Models: Architecture, Acquisition, Security, and the Path Forward
The transition from monolithic language models to modular, skill-equipped agents marks a defining shift in how large language models (LLMs)…
CodeHacker: Automated Test Case Generation for Detecting Vulnerabilities in Competitive Programming Solutions
The evaluation of Large Language Models (LLMs) for code generation relies heavily on the quality and robustness of test cases. However, exi…
Quantifying and Mitigating Self-Preference Bias of LLM Judges
LLM-as-a-Judge has become a dominant approach in automated evaluation systems, playing critical roles in model alignment, leaderboard const…
ProEval: Proactive Failure Discovery and Efficient Performance Estimation for Generative AI Evaluation
Evaluating generative AI models is increasingly resource-intensive due to slow inference, expensive raters, and a rapidly growing landscape…
AgentLens: Revealing The Lucky Pass Problem in SWE-Agent Evaluation
Evaluation of software engineering (SWE) agents is dominated by a binary signal: whether the final patch passes the tests. This outcome-onl…
評価意識の分解と測定
フロンティア言語モデルは、評価されていることを認識して動作を調整し、ベンチマーク結果の妥当性を損なうことがあります。しかし、現場では共通の基礎を持たずに評価の特性とモデルの特性、検出と行動反応を混同して研究が行われています。私たちは評価意識を社会心理学に基礎づけ、評価意識を環境要素 (課題がどの程度認識されているか) と、認識をそれに基づいて行動する傾向から分離するモデル要素に分解します。プレースホルダー エンティティや採点スタイルの出力形式など、8 つの分類されたトリガー要因を通じて環境コンポーネントを運用し、思考連鎖のモニタリングを通じて認識と行動を研究します。 9 つのフロンティア モデルと 4 つのベンチマークにわたって、認識率はモデルとベンチマークのどちらか単独ではなく、モデルとベンチマークの特定の組み合わせに依存します。認識が行動の変化につながることはほとんどありませんが、変化する場合、その方向性は認識された評価の種類によって異なります。また、モデルは機能評価よりも安全性に対して敏感であり、安全性ベンチマークの妥当性がより大きなリスクにさらされます。各モデルがどの要因に敏感で、それらがどのように相互作用するかを研究するために、8 つの要因のそれぞれを独立して切り替えることができ、基礎となる要求を固定したまま評価信号を変化させる、100 のペアの安全機能タスクの要因制御ベンチマークである \textbf{EvalAwareBench} を提案します。 EvalAwareBench を通じて、単一の要素がすべてのモデルに均一に影響を与えることはなく、要素を積み重ねることですべてのモデルにわたる評価の意識が徐々に向上することがわかりました。私たちのフレームワークと EvalAwareBench は、評価意識を測定、属性付け、軽減するためのツールを提供し、将来有望な道として認識される下での行動の一貫性を示します。
原文 (English)
Decomposing and Measuring Evaluation Awareness
Frontier language models sometimes recognize that they are being evaluated and adjust their behavior, undermining validity of benchmark results. Yet the field studies it without a shared foundation, conflating properties of the evaluation with properties of the model, and detection with behavioral response. We ground evaluation awareness in social psychology, decomposing it into an environment component (how recognizable the task is) and a model component that separates recognition from propensity to act on it. We operationalize the environment component through eight categorized trigger factors, such as placeholder entities and grading-style output formats, and study recognition and behavior through chain-of-thought monitoring. Across nine frontier models and four benchmarks, recognition rates depend on the specific pairing of model and benchmark rather than on either in isolation. Recognition rarely leads to behavioral change, and when it does, the direction depends on the type of evaluation perceived. Models are also more sensitive to safety than capability evaluations, placing safety benchmark validity at greater risk. To study which factors each model is sensitive to and how they interact, we propose \textbf{EvalAwareBench}, a factor-controlled benchmark of 100 paired safety-capability tasks where each of the eight factors can be independently toggled, varying evaluative signals while holding the underlying request fixed. Through EvalAwareBench, we find that no single factor uniformly affects all models, but stacking factors progressively raises evaluation awareness across all of them. Our framework and EvalAwareBench provide the tools to measure, attribute, and mitigate evaluation awareness, pointing to behavioral consistency under recognition as a promising path forward.
JudgmentBench: Comparing Rubric and Preference Evaluation for Quality Assessment
Two methodologies dominate current practices of benchmarking: rubric-based scoring evaluates items against predefined criteria, whereas com…
SL-BiLEM: Structured Learnable Behavior-in-the-Loop Epidemic Modeling for Forecasting and Policy Evaluation
Epidemic forecasting faces a fundamental challenge: human behavior dynamically responds to disease spread, creating feedback loops that ind…
Cyera eyes $12B valuation at 80x ARR multiple despite operating losses
The cybersecurity company is nearing a $300 million round led by Evolution Equity Partners.
New Microsoft tool lets devs spin up AI behavior tests using text descriptions
Microsoft on Tuesday took the wraps off Adaptive Spec-driven Scoring for Evaluation and Regression Testing, an open source framework for sp…
ZeroDrift raises $10M to protect AI models from themselves
A new AI compliance service sits between AI models and end users to flag and replace any messages that might present a compliance problem.
Rocket engine startup Impulse raises $500 million to hire people, not AI
Engineering physical systems still depends on human talent, according to Impulse Space president Eric Romo.
大規模言語モデルにおける対話型推論の評価: 実行可能ゲームによる階層ベンチマーク
推論を積極的な証拠の取得と信念の更新として扱う推論評価のためのマルチターン対話型フレームワークを紹介します。ここで、LLM はタスク ルールのみを受け取り、対象を絞ったクエリを非表示の環境に発行し、部分的な観察を時間の経過とともに統合し、最終的な回答をいつ送信するかを決定する必要があります。標準的な成功率とインタラクション効率を超えて、制御された文脈の摂動下での文脈の堅牢性、および反事実の修正と必要性の判断によるメタ認知の適応を評価します。 474 の実行可能ゲームのベンチマークとしてフレームワークをインスタンス化し、それぞれを 5 つの難易度に対応する 5 つの固定構成検索スペースで評価し、広範なフロンティア LLM セットを評価します。結果は、ベンチマークが非常に識別力があり、成功率だけでなくインタラクション効率にも大きな違いがあることを示しています。さらに、文脈の混乱は中程度ではあるが一貫した低下を引き起こす一方、反事実の修正や必要性の判断はさらに大きな低下を引き起こすことを経験的に示しています。
原文 (English)
Evaluating Interactive Reasoning in Large Language Models: A Hierarchical Benchmark with Executable Games
We introduce a multi-turn interactive framework for reasoning evaluation that treats reasoning as active evidence acquisition and belief updating. Wherein, LLMs receive only the task rules, must issue targeted queries to a hidden environment, integrate partial observations over time, and decide when to submit a final answer. Beyond standard success rate and interaction efficiency, we evaluate contextual robustness under controlled contextual perturbations, and metacognitive adaptation through counterfactual revision and necessity judgment. We instantiate the framework as a benchmark of 474 executable games, each evaluated under five fixed configuration search spaces corresponding to five difficulty levels, and evaluate a broad set of frontier LLMs. Results show that the benchmark is highly discriminative, exposing large differences not only in success rate but also in interaction efficiency. Moreover, we empirically show that contextual perturbations cause moderate but consistent declines, whereas counterfactual revision and necessity judgment lead to much larger drops.
国家学習能力としての AI 主権: フランス、米国、中国に関する人間中心の学習力学の視点
フランスでは、人工知能は、投資、計算能力、規制、雇用、主権、教育の観点からよく議論されます。通常、これらのディメンションは個別に扱われます。この観点に関する論文は、統一的な解釈を提案しています。つまり、フランスは \emph{国家的な AI 学習システム} として理解されるべきです。エントロピー制御された表現学習のための動的フレームワークとして最近策定された人間中心学習力学 (HCLM) に基づいて、私たちは国家 AI 開発を情報注入とエントロピー散逸の間の制御されたバランスとして解釈します。情報注入は、コンピューティング、データ、人材、研究、資本、産業展開、および組織的実験に対応します。エントロピー散逸は、組織の複雑さ、調整摩擦、エネルギー制約、規制の不確実性、人材の流動性の圧力、産業吸収を強化する機会に対応します。中心的な主張は、AI の主権は規模だけから生まれるのではなく、自国の情報ダイナミクスを規制する国の能力から生まれるというものです。この論文は、HCLM をニューラル スケーリング則、内生的成長理論、創造的破壊、およびゲーム理論と結びつけます。同論文は、フランスのAI論争は、技術楽観主義と規制優先の慎重論という二項対立を超えて進むべきだと主張している。競争力のある人間中心の AI 戦略には、不安定、不平等、またはエネルギー集約的な拡大を回避しながら、情報注入が制度的消散よりも早く成長する制御された体制が必要です。私たちは、数学的モデル、測定可能な政策指標、ゲーム理論的命題、国家 AI 体制の具体的なシミュレーション、およびフランスに対する具体的な政策への影響を提供します。提案された視点は、AI 政策をオープンで戦略的な非平衡学習システムのガバナンスとして再構成します。
原文 (English)
AI Sovereignty as National Learning Capacity: A Human-Centered Learning Mechanics Viewpoint on France, the United States, and China
Artificial Intelligence is often discussed in France in terms of investment, compute capacity, regulation, employment, sovereignty, and education. These dimensions are usually treated separately. This viewpoint paper proposes a unified interpretation: France should be understood as a \emph{national AI learning system}. Building on Human-Centered Learning Mechanics (HCLM), recently formulated as a dynamical framework for entropy-regulated representation learning, we interpret national AI development as a controlled balance between information injection and entropy dissipation. Information injection corresponds to compute, data, talent, research, capital, industrial deployment, and institutional experimentation. Entropy dissipation corresponds to organizational complexity, coordination frictions, energy constraints, regulatory uncertainty, talent mobility pressures, and opportunities to strengthen industrial absorption. The central claim is that AI sovereignty does not emerge from scale alone but from a country's capacity to regulate its own information dynamics. This paper connects HCLM with neural scaling laws, endogenous growth theory, creative destruction, and game theory. It argues that the French AI debate should move beyond the binary opposition between techno-optimism and regulation-first caution. A competitive and human-centered AI strategy requires a controlled regime in which information injection grows faster than institutional dissipation, while avoiding unstable, unequal, or energy-intensive expansion. We provide a mathematical model, measurable policy indicators, game-theoretic propositions, illustrative simulations of national AI regimes, and concrete policy implications for France. The proposed viewpoint reframes AI policy as the governance of an open, strategic, non-equilibrium learning system.
強化学習一般化の証明書に基づく評価
この研究では、目に見えないタスクを一般化する能力における強化学習 (RL) アルゴリズムのパフォーマンスを評価するためのロジック主導のフレームワークを紹介します。私たちのフレームワークは、タスクのダイナミクスの構造的類似性を特徴とする帰納的リーチ回避タスクのファミリーを定義し、汎化機能の評価を可能にします。重要な条件を強制することで RL アルゴリズムによって生成された軌跡を検証するニューラル証明書関数を導入します。これにより、RL の一般化に対するリトマス試験紙として機能します。私たちは、困難な連続環境において、いくつかの最先端の一般化可能な RL アルゴリズムの一般化を証明する際の私たちの方法の能力を経験的に実証します。私たちの結果は、証明書機能違反の割合が低いほど、成功したテスト タスクの数が多いことと相関していることを示しており、RL アルゴリズムの一般化機能を評価および区別する際のフレームワークの有効性が強調されています。この研究は、RL の一般化をベンチマークするための原則に基づいたアプローチを提供します。
原文 (English)
Certificate-Guided Evaluation of Reinforcement Learning Generalization
This work presents a logic-driven framework to evaluate the performance of reinforcement learning (RL) algorithms in their ability to generalize to unseen tasks. Our framework defines a family of inductive reach-avoid tasks, characterized by structural similarities in task dynamics, enabling evaluation of generalization capabilities. We introduce a neural certificate function that validates trajectories generated by RL algorithms by enforcing key conditions, thereby serving as a litmus test for RL generalization. We empirically demonstrate our method's capability in certifying generalization for several state-of-the-art generalizable RL algorithms on challenging continuous environments. Our results show that a lower percentage of certificate function violations correlates with a higher number of test tasks successfully solved, highlighting the effectiveness of our framework in evaluating and distinguishing generalization capabilities of RL algorithms. This work provides a principled approach for benchmarking RL generalization.
An Enigma of Artificial Reason: Investigating the Production-Evaluation Gap in Large Reasoning Models
Studies of human reasoning have shown that people are typically stronger at evaluating reasoning than producing it from scratch. In contras…
A Minimalist Brain-Computer Musical Interface for Real-Time Emotion-Driven Sonification: System Design and Preliminary Evaluation
This paper presents a minimalist brain-computer Musical Interface (BCMI) that functions as a real-time affective sonification system, trans…
Consistency evaluation of benchmarks used for causal discovery
In graphical causal model, causal discovery aims to construct a causal graph based on numerical data and domain knowledge in plain text. Ho…
Evaluation of Baseline Methods for IDD-based SSD External Memory Search
Many difficult search problems cannot be solved by algorithms such as A* using only RAM. Search algorithms which use external memory such a…
Community-Aware Assessment of Social Textual Engagement and Resonance: A Human-Centric Perspective on User-Generated Content Evaluation
Traditional Video Quality Assessment (VQA) focuses narrowly on aesthetic fidelity, overlooking the complex social dynamics that define qual…
Where Do Deep-Research Agents Go Wrong? Span-Level Error Localization in Agent Trajectories
Deep-research agents solve tasks through long trajectories of search, tool use, evidence inspection, and answer synthesis. Evaluation based…
BADGER: Bridging Agentic and Deterministic Evaluation for Generative Enterprise Reasoning
Enterprise AI systems that translate natural language into SQL queries and orchestrate multi-step agentic reasoning pipelines require evalu…
Food Noise & False Safety: A Systematic Evaluation of How LLMs Fail to Adapt to Eating Disorder Queries with Clinician Feedback
Recent evidence shows that people with eating disorders (EDs) are increasingly seeking guidance, advice, and emotional support from Large L…
AGENTCL: Toward Rigorous Evaluation of Continual Learning in Language Agents
Language agents spend substantial inference time solving individual tasks, yet the experience acquired in one episode is often underutilize…
BenHalluEval: A Multi-Task Hallucination Evaluation Framework for Large Language Models on Bengali
Despite Bengali being the sixth most spoken language in the world, no prior work has systematically evaluated hallucination in large langua…
SENSE: Semantic Embedding Navigation with Soft-gated Evaluation for Retrieval-based Speculative Decoding
Speculative Decoding (SD) accelerates Large Language Model (LLM) inference by employing a lightweight draft model to propose candidate toke…
A Multi-Domain Red Teaming Framework for Safety, Robustness, and Fairness Evaluation of Medical Large Language Models
Large language models (LLMs) are increasingly deployed across healthcare, yet existing benchmarks fail to capture model behavior under adve…
CardioLens: Revealing the Clinical Reality Gap of MLLMs via Multi-Sequence Cardiac MRI Evaluations
Multimodal Large Language Models (MLLMs) have shown strong performance on public medical benchmarks, yet existing evaluations often remain…
Improving IoT Intrusion Detection Through SMOTE-Based Oversampling and Extended Multi-Model Evaluation on Side-Channel Power Data
The detection of intrusions in IoT-based networks poses challenges that cannot be overcome using traditional machine learning methods. Perh…
StressDream: Steering Video World Models for Robust Policy Evaluation and Improvement
Video world models (WMs) have shown promise for policy evaluation and improvement by imagining realistic future observations conditioned on…
SUPREME: A Multi-GPU Framework for Reproducible Image Unlearning Method Evaluation
Machine unlearning removes the influence of specific training data from a trained model without retraining it from scratch. Evaluating an u…
PolySpeech-100: A Large-Scale Benchmark for Speech Understanding Across 100+ Languages and Dialects
While End-to-End (E2E) Speech-Large Language Models (Speech-LLMs) are rapidly evolving, their evaluation methodologies remain limited to th…
Temporally-Aligned Evaluation for Audio-Driven Talking Head Generation
Audio-driven talking-head generation has advanced rapidly, yet existing evaluation protocols mainly rely on frame-wise metrics that assume…
Strong Stochastic Flow Maps
Flow and diffusion models generate high-quality samples in many modalities; however, many network evaluations are required during inference…
IndoBias: A Dual Track Culturally Grounded Benchmark for LLMs Bias Evaluation in Indonesian Languages
Despite being home to more than 1300 ethnic groups and 700 indigenous languages, bias in Large Language Models has not been fully studied i…
TukaBench: A Culturally Grounded Jailbreak Benchmark for African Languages
Safety evaluation of Large Language Models (LLMs) remains heavily English-centric, leaving Low-Resource Languages (LRLs), particularly Afri…
On the Evaluation of Spiking Neural Network Configurations for Network Intrusion Detection
Network intrusion detection is a core component of modern cybersecurity infrastructure, yet the deep learning models that dominate the fiel…
Hierarchical Online Prompt Mutation with Dual-Loop Feedback for Guardrailed Evidence Document Generation: A Production-Evaluation Case Study
High-stakes production document-generation systems require language models to be adaptive, evidence-grounded, and auditable. We present HOP…
A Framework for Graph-Conditioned Hierarchical Shapley Attribution in Patent Valuation
Estimating the economic contribution of a single patent inside a product that embodies tens of thousands of patents is a long-standing unso…
AlphaToken: Decoupling Adaptation and Stability for Path-Aware Response Token Valuation in LLM Post-Training
Token selection is pivotal for effective LLM post-training. However, existing methods mostly rely on local heuristics and rarely formulate…
Train, Test, Re-evaluate: Schedule-Sensitive Evaluation of Generative Data for Hand Detection
Generated (or synthetic) image data is increasingly used to augment or replace real training datasets when target imagery is scarce, expens…
Rethinking Evaluation Paradigms in IBP-based Certified Training
Deep neural networks achieve strong performance on many supervised learning tasks but remain vulnerable to adversarial perturbations. Neura…
Who Annotates in NLP? A Large-scale Assessment of Human Annotation Reporting between 2018 and 2025
Human annotation is the empirical foundation of much NLP research, from dataset construction to model evaluation, but papers often leave un…
Agent Guide: A Simple Agent Behavioral Watermarking Framework
The increasing deployment of intelligent agents in digital ecosystems, such as social media platforms, has raised significant concerns abou…
A Unified Evaluation-Instructed Framework for Query-Dependent Prompt Optimization
Most prompt-optimization methods refine a single static template, making them ineffective in complex and dynamic user scenarios. Existing q…
Causal state binding predicts action control in language agents
Autonomous language agents increasingly expose traces, memories, plans and constraints, but existing evaluations rarely test whether these…
Capturing LLM Capabilities via Evidence-Calibrated Query Clustering
Query clustering organizes queries into groups that reflect shared latent capability demands, enabling capability-aware LLM evaluation. Exi…
FundaPod: AI 支援のファンダメンタル投資調査のためのナレッジ グラフ メモリを備えたマルチペルソナ エージェント ポッド プラットフォーム
大規模言語モデル (LLM) は金融分野での適用が増えていますが、既存の研究のほとんどは取引シグナルや予測を中心とした財務 NLP タスクに重点を置いています。対照的に、制度的基礎研究では、人間のアナリストまたは AI エージェントが証拠を収集し、ビジネス推進要因を特定し、競合する視点を比較し、投資メモを作成する必要があります。その広範な目標は、単に結果を予測することではなく、投資知識の累積的な発展に貢献しながら、透明性、再利用可能、検証可能な投資計画を作成することです。 AI 支援のファンダメンタルズ投資調査のためのマルチペルソナ エージェント プラットフォームである FundaPod を紹介します。私たちは、基礎研究は人間中心の意思決定支援タスクであり、取引シグナルの生成とは質的に異なるため、独立性を維持するアーキテクチャの方が適していると主張します。 FundaPod では、バリュー投資家やマクロ戦略家など、さまざまなペルソナを持つ AI エージェントが、共有の出所契約に基づいて独立して調査を実施します。その後、彼らの意見の相違は、知識グラフ記憶システムを通じて人間のポートフォリオ マネージャー (PM) による裁定のために事後的に表面化されます。この論文は、設計科学の実践と認知的分離と人間と機械の協調の理論に基づいた、基礎研究をサポートする人間と AI のハイブリッド システムの 5 つの設計原則を提供します。また、4 つのアーキテクチャ メカニズムについても説明します。1 つは一般投資家の資料を展開可能なエージェントに変えるペルソナ蒸留パイプラインです。プランナーが型指定されたタスク グラフを導出できるようにする宣言型スキル レジストリ。メモの主張を検証可能な情報源に結び付ける根拠のある証拠モデル。そしてティッカー、メモ、アナリスト、テーマを結び付けるナレッジグラフ「第二の脳」。完全なケーススタディとペルソナベースのメモの比較を通じてアーキテクチャを実証します。
原文 (English)
FundaPod: A Multi-Persona Agent Pod Platform with Knowledge Graph Memory for AI-Assisted Fundamental Investment Research
Large language models (LLMs) are increasingly applied in finance, yet most existing work emphasizes trading signals or financial NLP tasks centered on prediction. Institutional fundamental research, by contrast, requires human analysts or AI agents to gather evidence, identify business drivers, compare competing viewpoints, and generate investment memos. Its broader goal is not merely to predict outcomes, but to produce investment plans that are transparent, reusable, and verifiable, while contributing to the cumulative development of investment knowledge. We present FundaPod, a multi-persona agent platform for AI-assisted fundamental investment research. We argue that fundamental research is a human-centric decision-support task that is qualitatively distinct from trading-signal generation, and is therefore better served by an independence-preserving architecture. In FundaPod, AI agents with different personas, such as value investors or macro strategists, conduct research independently under a shared provenance contract. Their disagreements are then surfaced post hoc for adjudication by the human portfolio manager (PM) through a knowledge-graph memory system. This paper contributes five design principles for human-AI hybrid systems supporting fundamental research, grounded in design-science practice and theories of cognitive isolation and human-machine coordination. It also describes four architectural mechanisms: a persona distillation pipeline that turns public investor materials into deployable agents; a declarative skill registry that lets the planner derive typed task graphs; a grounded evidence model that links memo claims to verifiable sources; and a knowledge-graph "second brain" that connects tickers, memos, analysts, and themes. We demonstrate the architecture through a complete case study and a persona-based memo comparison.
Benchmarking AI for low-resource contexts: Thinking beyond leaderboards
Existing AI evaluation practices often fail to capture how systems actually perform in low-resource environments, where operational constra…
Cookie-Bench: Web 生成のための継続的なオンスクリーンキーインタラクション評価
フロントエンドの Web コードは、すべてのフロンティア LLM リリースの中核的な製品面となっていますが、アリーナのような人間が判断するリーダーボードは拡張できないため、これらのインタラクティブ アプリケーションを開発スピードで評価することは依然としてコストがかかります。既存の自動プロキシは通常、リファレンス実装、テスト スイート、または厳密なチェックリストに依存しており、人間のレビュー担当者がライブ セッションで実行する合理的な合成を見逃す傾向があります。私たちは、同時に参照フリーで、自律的に駆動され、総合的に推論される新しい評価体制を明確にし、2 つの成果物を通じてそれをインスタンス化します。 \textbf{\dataname} は、静的プレゼンテーション タスクと対話型アプリケーション タスクの両方にまたがる 11 ドメイン、54 リーフ、1,000 クエリの WebDev ベンチマークであり、3 つの難易度層と 3 つのターゲット言語グループにわたってバランスが取れており、回覧されたプロンプトから思い出せないようにブリーフが書き直されています。 \textbf{\framename} は、Flavell のメタ認知モニタリングに基づいており、証拠の蓄積と判断を 3 つの段階にわたって分離します。静的な知覚は受動的な観察から第一印象を形成します。エージェント駆動のインタラクションは、連続画面のビデオ、音声、およびステップごとのスクリーンショットをキャプチャしながら、アプリケーションを自律的に探索します。動的スコアリングは、証拠チェーンが完了した後にのみ、構造化された失敗の帰属を伴う全体的な機能性と美的判断を発行します。 \dataname では、\framename は専門家による評価と厳密に一致しており、インタラクティブな Web 生成に関して 13 のフロンティア LLM 全体でかなりのヘッドルームを表面化しています。 \noindenthttps://anonymous.4open.science/r/Cookie-3CE/
原文 (English)
Cookie-Bench: Continuous On-screen Key Interaction Evaluation for Web Generation
Front-end web code has become a core product surface for every frontier LLM release, yet evaluating these interactive applications at development speed remains costly because human-judged leaderboards like Arena do not scale. Existing automated proxies typically lean on reference implementations, test suites, or rigid checklists, and tend to miss the reasoned synthesis a human reviewer performs over a live session. We articulate a new evaluation regime that is simultaneously reference-free, autonomously driven, and holistically reasoned, and instantiate it through two artifacts. \textbf{\dataname} is an 11-domain, 54-leaf, 1,000-query WebDev benchmark spanning both static-presentation and interactive-application tasks, balanced across three difficulty tiers and three target-language groups, with briefs rewritten to resist recall from circulated prompts. \textbf{\framename}, grounded in Flavell's metacognitive monitoring, separates evidence accumulation from judgment across three stages: Static Perception forms a first impression from passive observation; Agent-Driven Interaction explores the application autonomously while capturing continuous screen video, audio, and per-step screenshots; Dynamic Scoring issues holistic functionality and aesthetics verdicts with structured failure attribution only after the evidence chain is complete. On \dataname, \framename aligns closely with expert human ratings while surfacing substantial headroom across 13 frontier LLMs on interactive web generation. \noindenthttps://anonymous.4open.science/r/Cookie-3CE/
Recent Advances in Multi-modal 3D Intelligence: A Comprehensive Survey and Evaluation
Multi-modal 3D Intelligence has gained considerable attention due to its wide applications in autonomous driving and world simulation, etc.…
AutoEval Done Right: Using Synthetic Data for Model Evaluation
The evaluation of machine learning models using human-labeled validation data can be expensive and time-consuming. AI-labeled synthetic dat…
Erased but Not Forgotten: How Backdoors Compromise Concept Erasure
The expansion of text-to-image diffusion models has raised concerns about harmful outputs, from fabricated depictions of public figures to…
グラフ検索からスキーマ実現まで: 異種ナレッジ グラフ上のテキストから SPARQL への反事実検証
Text-to-SPARQL は、自然言語の質問を RDF ナレッジ グラフ上の実行可能な SPARQL クエリにマッピングします。標準的な評価ではターゲット グラフが事前に修正されることがよくありますが、実践的なナレッジ グラフ質問応答 (KGQA) には、異なるスキーマ、部分的なアラインメント、および不完全なメタデータを含む異種グラフ コレクションが含まれる場合があります。この設定では、クエリ生成は SPARQL 構文以上のものに依存します。システムは、質問に必要な述語、エンティティ タイプ、結合、フィルター、および制約をサポートできるグラフ スキーマを識別する必要があります。異種の KG コレクション上でテキストから SPARQL に変換するためのスキーマベースのエージェント フレームワークである SchemaForge を紹介します。その中心的なメカニズムは、質問条件付きのスキーマ スライス アライメントです。弱いグラフの証拠によって最初にもっともらしいグラフが特定され、より強力なスキーマの証拠によって、ローカル スキーマ スライスが意図したクエリを実現できるかどうかが決まります。選択されたスキーマ スライスは、クエリの生成と実行前の検証を制限します。利用可能なグラフが 1 つだけの場合、同じ定式化は、スキーマ基盤を備えた標準の単一 KG テキストから SPARQL への変換に縮小されます。 LC-QuAD 2.0、QALD-9 Plus、QALD-10、および Spider4SPARQL で SchemaForge を評価します。 SchemaForge は、4 つの公開ベンチマーク全体で、最も一致するエージェントのベースラインよりも実行精度を平均 11.50 パーセント向上させています。 Spider4SPARQL では、SchemaForge は実行精度を 54.86% から 64.18% に向上させ、トップ 1 グラフ割り当て精度 73.0% とトップ 3 グラフ割り当て精度 97.0% を達成しました。これらの結果は、グラフの弱い証拠からスキーマ固有のクエリコミットメントへの移行と、反事実の回答セットのチェックにより、異種ナレッジグラフよりも実行可能なクエリの生成が向上することを示しています。
原文 (English)
From Graph Retrieval to Schema Realization: Counterfactual Validation for Text-to-SPARQL over Heterogeneous Knowledge Graphs
Text-to-SPARQL maps natural-language questions to executable SPARQL queries over RDF knowledge graphs. While standard evaluations often fix the target graph in advance, practical knowledge graph question answering (KGQA) may involve heterogeneous graph collections with different schemas, partial alignments, and incomplete metadata. In this setting, query generation depends on more than SPARQL syntax: the system must identify a graph schema that can support the predicates, entity types, joins, filters, and constraints required by the question. We present SchemaForge, a schema-grounded agentic framework for text-to-SPARQL over heterogeneous KG collections. Its central mechanism is question-conditioned schema-slice alignment: weak graph evidence first identifies plausible graphs, while stronger schema evidence determines whether a local schema slice can realize the intended query. The selected schema slice then constrains query generation and verification before execution. When only one graph is available, the same formulation reduces to standard single-KG text-to-SPARQL with schema grounding. We evaluate SchemaForge on LC-QuAD 2.0, QALD-9 Plus, QALD-10, and Spider4SPARQL. Across the four public benchmarks, SchemaForge improves execution accuracy over the strongest matched agent baseline by 11.50 percentage points on average. On Spider4SPARQL, SchemaForge improves execution accuracy from 54.86% to 64.18% and achieves 73.0% Top-1 and 97.0% Top-3 graph allocation accuracy. These results show that moving from weak graph evidence to schema-specific query commitments, together with counterfactual answer-set checks, improves executable query generation over heterogeneous knowledge graphs.
Rethinking RL Evaluation: Can Benchmarks Truly Reveal Failures of RL Methods?
Current benchmarks are inadequate for evaluating progress in reinforcement learning (RL) for large language models (LLMs).Despite recent be…
Learning-To-Measure: In-Context Active Feature Acquisition
Active feature acquisition (AFA) is a sequential decision-making problem where the goal is to improve model performance for test instances…
Who Evaluates AI's Social Impacts? Mapping Coverage and Gaps in First and Third Party Evaluations
Foundation models are increasingly central to high-stakes AI systems, and governance frameworks now depend on evaluations to assess their r…
InFerActive: Interactive Tree-Based Exploration of LLM Sampling for Safety Evaluation
Even LLMs that appear safe during evaluation can still produce harmful responses in deployment. Because stochastic sampling yields differen…
Uncovering Competency Gaps in Large Language Models and Their Benchmarks
The evaluation of large language models relies heavily on standardized benchmarks. These benchmarks provide useful aggregated metrics, but…
Prototypicality Bias Reveals Blindspots in Multimodal Evaluation Metrics
Automatic metrics are widely used to evaluate text-to-image models, often replacing human judgment in benchmarking, model selection, and la…
From Evaluation to Design: Using Potential Energy Surface Smoothness Metrics to Guide Machine Learning Interatomic Potential Architectures
Machine Learning Interatomic Potentials (MLIPs) sometimes fail to reproduce the physical smoothness of the quantum potential energy surface…
Are LLMs Ready for Neural-integrated Mechanistic Modeling? A Benchmark and Agentic Framework
Large language models (LLMs) have shown promise in constructing mechanistic models from data. However, existing evaluations largely focus o…
Beyond String Matching: Semantic Evaluation of PDF Table Extraction
Reliably extracting tables from PDFs is essential for large-scale scientific data mining and knowledge base construction, yet existing eval…
Failure of contextual invariance in large language models
Standard evaluation practices assume that large language model (LLM) outputs are stable when prompts are embedded in contextually equivalen…
Distributional Open-Ended Evaluation of LLM Cultural Value Alignment Based on Value Codebook
As LLMs are globally deployed, aligning their cultural value orientations is critical for safety and user engagement. However, existing ben…
AtomEval: Validity-Aware Atomic Evaluation of Adversarial Claim Rewriting in Fact Verification
Large language models (LLMs) can rewrite refuted claims to evade evidence-based fact verifiers, but conventional attack success rate (ASR)…
Beyond Offline A/B Testing: Context-Aware Agent Simulation for Recommender System Evaluation
Recommender systems are central to online services, enabling users to navigate through massive amounts of content across various domains. H…
Defeasible Conditional Obligation in a Two-tiered Preference-based Semantics (Extended Version)
In response to a concern raised by Horty, this paper develops a two-tiered, preference-based semantic framework for modeling defeasible con…
STABLEVAL: Disagreement-Aware and Stable Evaluation of AI Systems
Human evaluation remains the primary standard for assessing modern AI systems, yet annotator disagreement, bias, and variability make syste…
RISED: A Pre-Deployment Evaluation Framework for High-Stakes AI Decision-Support Systems, with Application to Healthcare
Clinical decision-support systems are expert systems whose recommendations clinicians act on directly, yet they are usually cleared on one…
Alphabet plans to raise $80B to pay for AI buildout
"The company is experiencing strong demand for its AI solutions and services from enterprises and consumers, at levels that are exceeding t…
Water access is now a risk factor in SpaceX’s IPO
The company says it needs "significant" water resources to cool its data centers, and that access to abundant, affordable water is a challe…
Anthropicが上場準備 直近の評価額は約154兆円
AnthropicがIPOに向け、SECに登録書類「S-1」のドラフトを非公開で提出した。直近のシリーズH資金調達での評価額は約9650億ドル(約154兆円)に達している。
生成 AI における多元的調整のためのペルソナベースの評価フレームワーク
生成型人工知能の現在の調整パラダイムは、主にモノリシックなベンチマーク フレームワークに依存しており、人間の複数の判断を集約された統計ベースラインに還元することで、評価における文化的、人口統計的、および文脈上のばらつきを曖昧にします。我々は、単一の評価関数を人間の多様な視点を表す合成認知プロファイルの構造化された多様体に置き換える、AI 評価のための状態空間制約付きエミュレーション フレームワークを導入します。私たちは、最新の生成アーキテクチャがこれらの評価ペルソナを高い一貫性でインスタンス化して維持できることを示し、現実世界のコンセンサス変動をより厳密に反映する、多元的で視点に依存したベンチマークの形式を可能にします。しかし、我々は、逐次推論と確率的プロンプト摂動下でのこれらのシミュレートされた評価器の安定性をさらに分析し、状態空間ドリフトと意味論的不一致として現れるペルソナの一貫性の体系的な低下を明らかにしました。これらの発見は、静的な位置合わせの制約では、長期にわたって堅牢な評価動作を維持するには不十分であることを示唆しています。その代わりに、私たちは、一貫した認知エミュレーションを維持するために、生成システム内に動的で実行可能性主導の制御メカニズムを組み込む必要性を主張します。この研究は、ペルソナベースの評価を潜在表現多様体上の構造化された動的システムとして枠組み化することで、AI 評価に対する、より適応的で人間と連携した、状況に応じたアプローチの基盤を提供します。
原文 (English)
A Persona-Based Evaluation Framework for Pluralistic Alignment in Generative AI
Current alignment paradigms for generative artificial intelligence rely predominantly on monolithic benchmarking frameworks that reduce the plurality of human judgment to aggregated statistical baselines, thereby obscuring cultural, demographic, and contextual variability in evaluation. We introduce a state-space constrained emulation framework for AI evaluation that replaces singular assessment functions with a structured manifold of synthetic cognitive profiles representing diverse human perspectives. We show that modern generative architectures can instantiate and maintain these evaluative personas with high consistency, enabling a form of pluralistic, perspective-dependent benchmarking that more closely reflects real-world consensus variability. However, we further analyze the stability of these simulated evaluators under sequential inference and stochastic prompt perturbations, revealing systematic degradation in persona coherence that manifests as state-space drift and semantic inconsistency. These findings suggest that static alignment constraints are insufficient for sustaining robust evaluative behavior over time. Instead, we argue for the necessity of embedding dynamic, viability-driven regulatory mechanisms within generative systems to preserve coherent cognitive emulation. By framing persona-based evaluation as a structured dynamical system over latent representation manifolds, this study provides a foundation for more adaptive, human-aligned, and context-sensitive approaches to AI evaluation.
予測を活用した推論の工業化: 信頼性の高い GenAI およびエージェント システム評価のための GLIDE ライブラリ
エージェント システムの信頼性の高い評価には、有効な不確実性を伴う不偏推定が必要ですが、標準的な手法では、コストのかかる人間によるアノテーションと、ジャッジとしての偏った LLM プロキシの間を行き来します。予測パワー推論 (PPI) は、両方を組み合わせて有効な信頼区間を持つ偏りのない推定値を生成しますが、そのさまざまな手法は部分的な実装の下で論文に散在したままです。平均推定に特化した scipy スタイルの API の下で、最先端の PPI 推定器 (PPI++、層化 PPI、Predict-Then-Debias とその層化バリアント、アクティブ統計推論) とサンプラー (均一、層化、アクティブ、コスト最適化) を統合するオープンソース Python ライブラリである GLIDE を紹介します。 GLIDE には、再現可能なモンテカルロ検証スイート、手法選択のための経験に基づいたデシジョン ツリー、同等の精度でのアノテーションの大幅な節約を示すエージェント評価ケース スタディが付属しています。 GLIDE パッケージは次の URL で入手できます: https://github.com/EmertonData/glide
原文 (English)
Industrializing Prediction-Powered Inference: The GLIDE Library for Reliable GenAI and Agentic Systems Evaluation
Reliable evaluation of agentic systems requires unbiased estimates with valid uncertainty, but standard practice navigates between costly human annotation and biased LLM-as-judge proxies. Prediction-powered inference (PPI) combines both into debiased estimates with valid confidence intervals, yet its various methods remain scattered across papers under partial implementations. We introduce GLIDE, an open-source Python library that unifies state-of-the-art PPI estimators (PPI++, Stratified PPI, Predict-Then-Debias and its stratified variants, Active Statistical Inference) and samplers (uniform, stratified, active, cost-optimal) under a scipy-style API specialized to mean estimation. GLIDE ships with a reproducible Monte Carlo validation suite, an empirically grounded decision tree for method selection, and an agentic evaluation case study showing substantial annotation savings at equivalent precision. The GLIDE package is available at this URL: https://github.com/EmertonData/glide
TraceGraph: エージェントの軌跡を診断および改善するための共有意思決定ランドスケープ
エージェントのベンチマークでは、豊富なインタラクションの軌跡が記録されることが増えていますが、評価によって各ロールアウトが合格率や報酬スコアに引き下げられることがよくあります。リリースされたマルチモデル エージェントの軌跡を共有の意思決定ランドスケープに変えるグラフベースのフレームワークである TraceGraph を紹介します。 TraceGraph は、タスクごとに、モデル ID が導入される前に、プールされたロールアウトから観察可能なアクションと観察の状態に関するグラフを構築します。次に、結果に基づいた生産コアとトラップ領域をオーバーレイし、各ロールアウトをアクセス、トラップ露出、修復の 3 つのイベントで要約します。 TraceGraph プロファイルは、5 つのベンチマーク スプリットにまたがる軌跡全体で、集計スコアによって隠されたナビゲーションの違いを明らかにし、トラップの回避とそこからの回復のどちらに報酬を与えるかがスプリットによって異なることを示します。同じ TraceGraph ランドスケープは、SWE ベンチのトラップ対応回復パイプラインも動機付けます。実行時検出器は、履歴トラップ領域に一致する状態で起動され、その後、軽量継続ポリシーが同じプレフィックスから評価されます。起動された状態では、最適なプールされた単一要素ポリシーにより、プロバイダー固有のアクティブ コンポーネントを使用して、プロバイダーごとに起動されたサブセットで正式な解決率が 40.4% から 43.5% に、共通起動されたインスタンスで 41.0% から 44.8% に上昇します。全体として、TraceGraph は、どのようなエージェント ベンチマーク テストを行うか、共有ランドスケープ上でモデルが分岐する場所、および障害領域が下流の改善をどのように導くことができるかを尋ねるためのプロセス ボキャブラリーを提供します。
原文 (English)
TraceGraph: Shared Decision Landscapes for Diagnosing and Improving Agent Trajectories
Agent benchmarks increasingly record rich interaction trajectories, yet evaluation often reduces each rollout to a pass rate or reward score. We introduce TraceGraph, a graph-based framework that turns released multi-model agent trajectories into shared decision landscapes. For each task, TraceGraph builds a graph over observable action-observation states from pooled rollouts before model identity is introduced. It then overlays outcome-informed productive cores and trap regions, and summarizes each rollout with three events: Access, Trap exposure, and Repair. Across trajectories spanning five benchmark splits, TraceGraph profiles reveal navigation differences hidden by aggregate scores and show that splits differ in whether they reward avoiding traps or recovering from them. The same TraceGraph landscape also motivates a trap-aware recovery pipeline for SWE-bench: aruntime detector fires on states matching historical trap regions, then lightweight continuation policies are evaluated from the same prefix. On fired states, the best pooled single-factor policy raises official resolved rate from 40.4% to 43.5% on the per-provider fired subset and from 41.0% to 44.8% on common-fired instances, with provider-specific active components. Overall, TraceGraph provides a process vocabulary for asking what agent benchmarks test, where models diverge on a shared landscape, and how failure regions can guide downstream improvement.
安全閾値をニューロンスパイキング閾値として再解釈する
代理安全対策 (SSM) は、自動運転の状況における交通リスクの評価に広く利用されています。しかし、SSM ベースの評価の大部分では、固定しきい値が採用されており、持続する境界線状態に対する人間の反応や、短期間の高リスクピークに対する反応を捉えることができません。本研究は、生物学にインスピレーションを得た SSM 閾値の再解釈を提案しています。これは、複数の SSM 入力がスパイキング ニューラル ネットワーク (SNN) に結合された、リーキー統合発射 (LIF) ニューロンのスパイク閾値としてモデル化されています。 SNN は、人間のブレーキの開始に合わせてスパイクを発するように訓練されています。トレーニング データは、CARLA/Unreal を備えた 3D-CoAutoSim プラットフォームと 6-DOF モーション プラットフォームを使用した、制御された車追従実験で記録され、誘発された重大なイベントが生成されました。結果は、学習されたスパイク アクティビティがシナリオ全体でブレーキ動作と定性的に一致しており、しきい値の交差だけでは一貫して説明できない反応を捕捉していることを示しています。さらに、参加者全体の分析により、学習された入力しきい値は比較的一貫したままである一方、学習された減衰係数は SSM の異なる時間感度をエンコードしていることが示されています。この研究の結果は、スパイクのダイナミクスが客観的な SSM と主観的な人間の安全認識の収束を促進するメカニズムとして機能する可能性があることを示しています。
原文 (English)
Reinterpreting Safety Thresholds as Neuron Spiking Thresholds
Surrogate Safety Measures (SSMs) are extensively utilised in the evaluation of traffic risk in automated driving contexts. However, the majority of SSM-based evaluations employ fixed thresholds that fail to capture the human response to sustained borderline conditions or the reaction to brief, high-risk peaks. The present work proposes a biologically inspired reinterpretation of SSM thresholds. This is modelled as spiking thresholds of leaky integrate-and-fire (LIF) neurons, with multiple SSM inputs combined into a spiking neural network (SNN). The SNN is trained to emit spikes that are aligned with human braking onsets. The training data was recorded in a controlled car-following experiment using the 3D-CoAutoSim platform with CARLA/Unreal and a 6-DOF motion platform, where induced critical events were generated. The results demonstrate that the learned spiking activity qualitatively aligns with braking behaviour across scenarios and captures reactions that are not consistently explained by threshold crossings alone. Analysis across participants further indicates that learned input thresholds remain relatively consistent, while learned decay factors encode different temporal sensitivities for the SSMs. The findings of this study indicate that spiking dynamics may serve as a mechanism to facilitate the convergence of objective SSMs with subjective human safety perception.
NumLeak: 基礎モデルの潜在ラベルとしての公開数値ベンチマーク
公開された数値ベンチマークは事前トレーニングに表示されるため、日付の条件による評価は、サンプル外のスキルではなく、記憶された再現率を測定している可能性があります。 NumLeak は、実稼働モデル上の API 境界プローブとオープン因果 LM 上のホワイトボックス制御検証を組み合わせた測定フレームワークです。最上位のフロンティア LLM は、3 シードでプールされたピアソン r=0.97 ~ 0.99 でのファーマ・フランス市場の超過リターンを思い出しますが、5 つの兄弟要素では 25bps 以内で 0.15 以内に留まっています。同等の忠実度は、米国の失業率、CPI インフレ、NOAA の気温にも現れています。最近のリリースのホールドアウトでは、解析率は 21 ~ 57% に低下しますが、応答した月の r は約 0.99 にとどまります。これは、記憶されたチャネルが予測するリジェクトまたはリコールの非対称性です。ホワイトボックス実験は用量反応を再現し、logprob ランキングはオープンエンド生成で見逃した記憶を検出します。これは、クローズド API ブラックボックス プローブがチャネルを過小評価していることを意味します。 r=0.74 で真の Mkt-RF と相関するソネットの「市場センチメントに対する日付」回帰は、モデル自体の再現率が残差化されると r=0.02 に崩壊します。 1 行のシステムプロンプト防御は、概念的および歴史的物語のクエリに対してほぼゼロのユーティリティコストで設定された非適応的なシングルターンサフィックス攻撃を 99.8% ブロックします。
原文 (English)
NumLeak: Public Numeric Benchmarks as Latent Labels in Foundation Models
Public numeric benchmarks appear in pretraining, so an evaluation that conditions on a date may be measuring memorized recall rather than out-of-sample skill. We introduce NumLeak, a measurement framework that combines API-boundary probes on production models with a white-box controlled validation on an open causal LM. Top-tier frontier LLMs recall the Fama-French market excess return at 3-seed pooled Pearson r=0.97-0.99 while staying within 0.15 within-25bps on the five sibling factors; comparable fidelity appears on U.S. unemployment, CPI inflation, and NOAA temperature. On a recent-release holdout, parse rate collapses to 21-57% but r stays at approximately 0.99 on months answered, the refuse-or-recall asymmetry a memorized channel predicts. The white-box experiment reproduces the dose-response, and logprob ranking detects memorization that open-ended generation misses, implying closed-API black-box probes understate the channel. A Sonnet "date to market-sentiment" regression that correlates with true Mkt-RF at r=0.74 collapses to r=0.02 once the model's own recall is residualized out. A one-line system-prompt defense blocks 99.8% of a non-adaptive single-turn suffix attack set at near-zero utility cost on conceptual and historical-narrative queries
反事実的な評価により、臨床 LLM とエージェントの隠れた能力プロファイルが明らかになる
2 つの臨床 AI システムは、カバレッジベースのルーブリックではほぼ同じスコアを獲得できますが、患者の入力が変化すると根本的に異なる動作をします。1 つは新しい臨床信号に一致するように推奨事項を更新しますが、もう 1 つはそれに関係なく同じ出力を生成します。因果感受性スコア (CSS) を導入します。これは、臨床的に意味のある 5 つの次元 (バイオマーカーの反転、前治療の失敗、バイオマーカーの除去、手術状態の変化、ステージの摂動) に沿って腫瘍腫瘍ボードの症例を変異させる事前登録された介入指標であり、各モデルが事前に登録された正しい方向で推奨事項を更新するかどうかを {0、0.5、1.0} スケールを使用してスコア付けします。カバレッジベースの加重リコール指標であるコンセンサス マッチ スコア (CMS) に対してベンチマークを行ったところ、224 件のケースにわたる単発推論で評価された 3 つのラボの 6 つのフロンティア モデルが、ほぼ逆の順位でランク付けされました。6 つのモデルすべてがランクを変更し、CMS で最も悪いモデルが CSS で最も優れたモデルになり、上位中位の 1 つの CMS モデルが CSS で最下位にランクされました。さらに、普遍的な安全性の盲点も明らかになりました。つまり、すべてのフロンティア モデルは手術状態の介入で失敗します (ファミリー D では最大 17.2% の CSS)。これは CMS では明らかにされていません。この指標は、ツールを使用するエージェントにも伝達されます。ReAct スタイルの実験では、ツールの使用により 6 つのモデルのうち 5 つのモデルで CSS が向上しました (+2.5 ~ +20.3 パーセント ポイント)。それでも、CSS が最も低いモデルは同じグラフ セクションを取得し、依然として推奨事項を更新できません。これは、反事実の評価下でのみ表示される構造的な応答性の欠陥を明らかにしています。裁判官間の複製と 3 人の評価者の医療専門家による検証により、総合的な結果が確認されます。 CSS のような事前登録された介入指標は、臨床 AI エージェントのカバレッジベースの評価を補完します。これらは、カバレッジ指標では見逃される応答性を捕捉し、将来のエージェント RL システムに候補となる密な報酬シグナルを提供します。
原文 (English)
Counterfactual Evaluation Reveals Hidden Capability Profiles in Clinical LLMs and Agents
Two clinical AI systems can score nearly identically on coverage-based rubrics yet behave radically differently when their patient inputs change: one updates its recommendations to match the new clinical signal, while the other produces the same output regardless. We introduce the Causal Sensitivity Score (CSS), a pre-registered interventional metric that mutates oncology tumor-board cases along five clinically meaningful dimensions - biomarker flips, prior-treatment failures, biomarker removals, surgery-status changes, and stage perturbations - and scores whether each model updates its recommendations in the pre-registered correct direction using a {0, 0.5, 1.0} scale. Benchmarked against the Consensus Match Score (CMS), a coverage-based weighted recall metric, six frontier models from three labs evaluated in single-shot inference across 224 cases rank in nearly opposite orders: all six models change rank, the CMS-worst model becomes CSS-best, and one upper-mid CMS model ranks last on CSS. We further surface a universal safety blind spot: every frontier model fails on surgery-status interventions (at most 17.2% CSS on Family D), a finding CMS does not expose. The metric also transfers to tool-using agents: in a ReAct-style experiment, tool use improves CSS for five of six models (+2.5 to +20.3 percentage points), yet the lowest-CSS model retrieves the same chart sections and still fails to update its recommendations - revealing a structural responsiveness deficit visible only under counterfactual evaluation. Cross-judge replication and three-rater medical-professional validation confirm the aggregate findings. Interventional pre-registered metrics like CSS complement coverage-based evaluation for clinical AI agents: they capture responsiveness that coverage metrics miss and offer a candidate dense reward signal for future agentic RL systems.
OrcaRouter: A Production-Oriented LLM Router with Hybrid Offline-Online Learning
The rapid development of large language models, each with distinct capabilities and inference costs, raises a practical deployment question…
OpenSTBench: Beyond Semantic Evaluation for Speech Translation
Speech translation systems increasingly span speech-to-text translation (S2TT), speech-to-speech translation (S2ST), offline translation, a…
Design and Evaluation of Multi-Agent AI Oracle Systems for Prediction Market Resolution
Prediction markets aggregate collective intelligence to forecast uncertain events, but their utility depends on reliable outcome resolution…
De-attribute to Forget for LLM Unlearning
The rapid development of large language models (LLMs) has raised concerns on the use of inappropriate data for training, which has led to a…
Redefining Instance Matching: A Unified Framework for Part-Aware Matching in Panoptic Segmentation Evaluation
The Panoptic Quality (PQ) metric is the standard for jointly evaluating instance and semantic segmentation. However, its original definitio…
LLM Bias Evaluation: Gender, Racial, and Age Disparities in Occupational and Crime Scenarios
LLM bias evaluation is critical as large language models (LLMs) increasingly influence high-stakes decisions. This paper provides a compreh…
Unifying and Optimizing Data Values for Selection via Sequential Decision-Making
Data selection has emerged as a crucial downstream application of data valuation, yet the theoretical foundations for using data values in…
Diagnosing the Reliability of LLM-as-a-Judge via Item Response Theory
While LLM-as-a-Judge is widely used in automated evaluation, existing validation practices primarily operate at the level of observed outpu…
LH-Bench: Skill-Grounded Evaluation of Long-Horizon Agents on Subjective Enterprise Tasks
Large language models excel on objectively verifiable tasks such as math and programming, where evaluation reduces to unit tests or a singl…
Counterfactual Trace Auditing of LLM Agent Skills
Large Language Model agents are increasingly augmented with agent skills. Current evaluation methods for skills remain limited. Most deploy…
Beyond Memorization: Assessing Semantic Generalization in Large Language Models Using Phrasal Constructions
The web-scale of pretraining data has created an important evaluation challenge: to disentangle linguistic competence on cases well-represe…
PASTA: A Scalable Framework for Multi-Policy AI Compliance Evaluation
AI compliance is becoming increasingly critical as AI systems grow more powerful and pervasive. Yet the rapid expansion of AI policies crea…
Gap-K%: Measuring Top-1 Prediction Gap for Detecting Pretraining Data
The opacity of massive pretraining corpora in Large Language Models (LLMs) raises significant privacy and copyright concerns, making pretra…
An Odd Estimator for Shapley Values
The Shapley value is a ubiquitous framework for attribution in machine learning, encompassing feature importance, data valuation, and causa…
A Behavioural and Representational Evaluation of Goal-Directedness in Language Model Agents
Understanding an agent's goals helps explain and predict its behaviour, yet there is no established methodology for reliably attributing go…
SCOPE: Selective Conformal Optimized Pairwise LLM Judging
Large language models (LLMs) are increasingly used as scalable judges in pairwise evaluation, but they remain prone to miscalibration and b…
Position: Evaluation of ECG Representations Must Be Fixed
This position paper argues that current benchmarking practice in 12-lead ECG representation learning must be fixed to ensure progress is re…
World Action Verifier: Self-Improving World Models via Forward-Inverse Asymmetry
General-purpose world models promise scalable policy evaluation, optimization, and planning, yet achieving the required level of robustness…
Pocket-Dentist: On-Device Dental Image Understanding via Efficient Multimodal Large Language Models
Evaluations of dental vision-language models remain fragmented across datasets, task definitions and metrics, and often ignore their comput…
After Nvidia’s $20B not-acqui-hire, AI chip startup Groq reportedly raising $650M
Chipmaker Groq is looking to raise $650 million in internal funding as it pivots from hardware to focus more on AI inference, the process o…
This chip startup just raised $135M on a bet that AI’s biggest bottleneck isn’t compute — it’s memory
South Korean chip startup XCENA is betting that AI's real bottleneck is not compute, but memory.
モデルが一致しない場合: パブリック コメント分析のための LLM 評価を再考する
連邦政府機関はパブリック コメント コーパスを分類するために大規模言語モデル (LLM) を導入しており、モデルの記録構成によって政策立案者が何を確認し、どの議論が登録されるかが決まります。小規模な検証済みセットに対するスタンスの精度に基づいた標準評価では、異なるモデルが同じ公的入力に対して実質的に異なる分類を生成する場合を検出できません。私たちは、マルチモデルの不一致を解釈の複雑さの診断として扱い、真に曖昧な公的意見に向けて人間によるレビューを指示する解釈監査パイプラインを提案します。 4 つの LLM にわたる連邦 USDA 文書に対する 1,260 件のパブリック コメントを分析したところ、モデル間のテーマの相違がモデル内のプロンプト変動を上回っており、専門家のルーブリックが深い解釈上の不一致を解決することなく抑圧していることがわかりました。層化された 40 コメントのサブサンプルに対する 2 段階のラベル付け研究では、4 人の LLM とヒューマン アノテーターが独立してラベル付けし、他のラベルを確認した後に修正しました。改訂動作はラベラーによって異なり、ヒューマン・アノテーターの改訂では、アンサンブルの集合的な出力にはないフレームが頻繁に導入されました。私たちは、不一致に基づく評価は、LLM 支援解釈コーディングの精度メトリクスを補完するために必要であると主張します。
原文 (English)
When Models Disagree: Rethinking LLM Evaluation for Public Comment Analysis
Federal agencies are deploying large language models (LLMs) to categorize public comment corpora, where the model's organization of the record shapes what policymakers see and which arguments register. Standard evaluation, anchored on stance accuracy against a small validated set, cannot detect when different models produce materially different categorizations of the same public input. We propose an Interpretive Audit Pipeline that treats multi-model disagreement as diagnostic of interpretive complexity and directs human review toward genuinely ambiguous public input. Analyzing 1,260 public comments on a federal USDA docket across four LLMs, we find that inter-model thematic divergence exceeds within-model prompt variation, and that an expert rubric suppresses deep interpretive disagreement without resolving it. In a two-stage labeling study on a stratified 40-comment subsample, four LLMs and a human annotator labeled independently and then revised after seeing the others' labels. Revision behavior varied across labelers, and the human annotator's revisions frequently introduced framings absent from the ensemble's collective output. We argue disagreement-based evaluation is a necessary complement to accuracy metrics for LLM-assisted interpretive coding.
ペーパーエージェント、ペーパーゲイン:DeFi投資エージェントの実証分析
自律的なオンチェーン取引に AI を使用するシステムである DeFi 投資エージェントは、2024 年後半以来、合計トークン評価額で 30 億米ドルを超えています。私たちは 1,900 以上の AI タグ付き暗号プロジェクトを調査し、投資中心のエージェントに絞り込み、戦略と可観測性の側面にわたる 10 の代表的なプロジェクトを厳選しています。次に、ElizaOS と Virtuals Protocol という 2 つの著名なエージェント フレームワークの詳細なアーキテクチャ分析と、925,323 人のトークン所有者を対象とする公的に起因する取引活動を伴う 11 の Solana ベースのエージェント トレジャリーの定量的なオンチェーン パフォーマンス分析を実施します。現在のデプロイメントは初期段階で異種混合のままであることがわかりました。(1) 私たちのサンプルでは、多くのプロジェクトが自律的な取引実行の明確な証拠をまだ提供しておらず、開発者のインタビューでは、目に見えるデプロイメントの多くが基本的な API 統合のままであることが示唆されています。 (2) エージェントの財務省は 3,000 万米ドルを超える紙の利益を保持している一方、トークン所有者は合計で 1 億 9,170 万米ドルを損失しており、ウォレットの上位 1% が全利益の 81.4% (18 億 1,000 万米ドル) を獲得しています。 (3) トークンの評価額は財務省のファンダメンタルズとの関連が弱く、時価総額対AUMの比率は10,000倍を超えていますが、確立されたDeFiプロトコルでは1倍未満です。 (4) ユーザーの総利益は 24 億米ドルでピークに達し、その後純損失に減少し、収益の中央値はすべてのプラットフォームでマイナスとなり、トークンは史上最高値から平均して 93% 減少しました。私たちは、これらの結果を、オープンインフラストラクチャにより迅速な実験が可能になるだけでなく、自律性、パフォーマンス、および利害関係者の連携のための堅牢な標準が出現する前に、単純なエージェントや投機的なエージェントが立ち上がることを可能にする、パーミッションレスの第一世代市場の特徴であると解釈します。そこで私たちは、現在の展開と将来の投資グレードのエージェント システムとの間のギャップを特徴付けるために、自律的な実行、リスク調整後の収益性、利害関係者の連携という 3 つの側面に沿った成熟度フレームワークを提案します。
原文 (English)
Paper Agents, Paper Gains: An Empirical Analysis of DeFi Investment Agents
DeFi investment agents, systems that use AI for autonomous on-chain trading, have attained over USD 3 billion in combined token valuations since late 2024. We survey over 1,900 AI-tagged crypto projects, filter to investment-focused agents, and curate 10 representative projects spanning strategy and observability dimensions. We then conduct a deep-dive architectural analysis of two prominent agent frameworks, ElizaOS and Virtuals Protocol, and a quantitative on-chain performance analysis of 11 Solana-based agent treasuries with publicly attributable trading activity, covering 925,323 token holders. We find that current deployments remain early and heterogeneous: (1) in our sample, many projects do not yet provide clear evidence of autonomous trade execution, and developer interviews suggest that many visible deployments remain basic API integrations; (2) agent treasuries retain over USD 30M in paper gains while token holders collectively lost USD 191.7M, with the top 1% of wallets capturing 81.4% of all gains (USD 1.81B); (3) token valuations are weakly connected to treasury fundamentals, with market-cap-to-AUM ratios exceeding 10,000x versus below 1x for established DeFi protocols; and (4) aggregate user gains peaked at USD 2.4B before declining to net losses, with median returns negative on every platform and tokens declining 93% on average from all-time highs. We interpret these outcomes as characteristic of a permissionless, first-generation market in which open infrastructure enables rapid experimentation but also allows naive or speculative agents to launch before robust standards for autonomy, performance, and stakeholder alignment emerge. We therefore propose a maturity framework along three dimensions: autonomous execution, risk-adjusted profitability, and stakeholder alignment, to characterize the gap between current deployments and future investment-grade agent systems.
BenchTrace: LLM エージェントのリフレクション能力と制御された進化をテストするためのベンチマーク
自己進化エージェントは過去の失敗を反映することで時間の経過とともに改善しますが、既存の評価には 2 つの点で制限があります。1 つはタスク スコアのみを測定し、反映品質は不明のままにすること、もう 1 つはエージェント自身のエピソードの実行に依存しており、特定の失敗パターンを対象にするメカニズムを提供していないことです。 LLM エージェントの自己進化能力を評価するためのベンチマークである \textbf{BenchTrace} を紹介します。 BenchTrace は、6 つの多様なタスクにわたる 1,821 の注釈付きエピソードのスナップショット反映データセットに基づいて構築されており、ターゲットを絞った QA タスクを通じて障害の特定を調査する \textbf{反映評価} と、制御された自己進化シミュレーションで過去の障害経験が回避行動に変換されるかどうかをテストする \textbf{進化評価} で構成されます。 BenchTrace に基づいて、エージェントがターゲットの障害インスタンスを回避できたテスト ケースの割合を測定する新しい評価指標である \textbf{障害回避率 (FAR)} を提案します。 Qwen3-32B と GPT-4.1 を使った実験では、どちらのモデルもリフレクション評価でエンドツーエンドの合格率が 30\% を下回り、診断が主なボトルネックであることが明らかになりました。進化の評価では、自己進化手法は一般に非進化ベースラインよりもFARを改善しますが、エージェントはノイズエピソードが蓄積するにつれて初期のレッスンを忘れ、エージェントは特定のコンテキストを超えて反省を一般化することができず、タスクコンテキスト間で負の転移を引き起こすことが示されています。さらに、相関分析により、完全に正しい反射のみが高い FAR と強く関連していることが明らかになりました。 BenchTrace は、現在の自己進化アプローチの具体的な限界を明らかにし、対象を絞った評価のための制御されたモデルに依存しないフレームワークを提供します。
原文 (English)
BenchTrace: A Benchmark for Testing Reflection Ability and Controlled Evolution in LLM Agents
Self-evolving agents improve over time by reflecting on past failures, but existing evaluation is limited in two ways: it measures only task scores, leaving reflection quality unknown, and it relies on agents' own episode runs, offering no mechanism to target specific failure patterns. We present \textbf{BenchTrace}, a benchmark for evaluating self-evolution ability in LLM agents. BenchTrace is built on a snapshot-reflection dataset of 1,821 annotated episodes spanning six diverse tasks, and comprises a \textbf{Reflection Evaluation} that probes failure identification through targeted QA tasks, and an \textbf{Evolution Evaluation} that tests whether past failure experience translates into avoidance behavior in a controlled self-evolution simulation. Building on BenchTrace, we propose \textbf{failure avoidance rate (FAR)}, a new evaluation metric measuring the fraction of test cases in which the agent successfully avoids the target failure instance. Experiments with Qwen3-32B and GPT-4.1 reveal that both models fall below a 30\% end-to-end pass rate on reflection evaluation, with diagnosis as the primary bottleneck. Evolution evaluation shows that self-evolution methods generally improve FAR over the non-evolving baseline, but agents forget early lessons as noise episodes accumulate, and agents fail to generalize their reflections beyond the specific context, causing negative transfer across task contexts. Our correlation analysis further reveals that only a fully correct reflection is strongly associated with higher FAR. BenchTrace exposes concrete limits of current self-evolution approaches and provides a controlled, model-agnostic framework for targeted evaluation.
文献検索の評価を再考する: 深い調査は役に立ちますが、人間の引用リストは根拠のある真実ではありません
私たちは、検索パイプラインの改善と評価対象としての人による参照リストのストレステストという 2 つの相補的な角度から大規模な文献検索を研究しています。まず、完全なクエリ論文を処理し、取得した結果を文献目録に沿って幅優先で拡張する Deep Research パイプラインを実装します。このパイプラインが通常の API のみの検索を大幅に上回り、RollingEval-Jun25 (論文 250 件の文献検索ベンチマーク) の再現率が 20% 未満から 80% 以上に上昇することを示します。 2 番目に、中立的な LLM を判断者として使用して、人間の参照がタスクに対する健全な根拠であるかどうかを判断します。私たちは重大な限界を発見しました。人間による引用のうち、中等度以上の関連性があると判断されたのは 51% のみであったのに対し、最も強力な AI ベースの再ランカーでは 86 ~ 88% でした。 OpenAlex の共著グラフでこのギャップを調査したところ、人間は AI の再ランク付けを行う最も優れた人よりも直接の協力者を引用する可能性が 2.5 倍高いことがわかりました。まとめると、我々の結果は単一軸の文献検索評価に反対している。つまり、想起率、話題関連性スコアリング、ランクリストの多様性、および共著距離診断は、それぞれ引用の質の相補的な特性を測定するものであり、併せて報告されるべきである。
原文 (English)
Rethinking Literature Search Evaluation: Deep Research Helps, and Human Citation Lists Are Not a Ground Truth
We study large-scale literature search from two complementary angles: improving the retrieval pipeline, and stress-testing the human reference list as an evaluation target. First, we implement a Deep Research pipeline that processes the full query paper and expands the retrieved results breadth-first along their bibliographies, and show that it substantially outperforms vanilla API-only search, raising recall on RollingEval-Jun25 (a 250-paper literature-search benchmark) from below 20% to above 80%. Second, we use a neutral LLM-as-a-judge to determine if human references are sound ground truth for the task. We find significant limitations: only 51% of human citations are judged moderately relevant or higher, against 86--88% for the strongest AI-based re-rankers. We study this gap on the OpenAlex co-authorship graph, finding that humans are 2.5x more likely than the best AI re-rankers to cite a direct collaborator. Together, our results argue against single-axis literature-search evaluation: recall, topical-relevance scoring, ranked-list diversity, and a co-authorship-distance diagnostic each measure complementary properties of citation quality and should be reported jointly.
MiraBench: ロボット世界モデルにおける動作条件付き信頼性の評価
アクション条件付き世界モデルは、ロボット学習用のスケーラブルなシミュレーターとしてますます使用されていますが、現在の評価では、条件付けされたアクションの下でその予測が信頼できるという限られた証拠が提供されています。既存のベンチマークは主に視覚的な忠実度を重視しており、予測される未来が物理的に妥当であるか、命令されたアクションに忠実であるか、アクションが成功しないはずのときに失敗するように調整されているかどうかが不明確なままです。 \emph{動作条件付き信頼性} をロボット世界モデルの中核的な評価目標として定義する階層型ベンチマークである \textsc{MiraBench} を紹介します。 MiraBench は、このターゲットを 3 つの段階的に要求の高いレベルに分解します。 \emph{Physics Adherence} は、リファレンスフリーの物理的一貫性を評価します。 \emph{Action-Following Fidelity}: 予測がタスク関連のアクション入力を考慮しているかどうかを測定します。 \emph{楽観主義バイアス検出} は、失敗を誘発する行動の下で成功した結果を予測する傾向を調査します。この評価をサポートするために、タスク、失敗カテゴリ、主要な世界モデルにわたる 16,000 件を超える判断を含む人間による注釈付きコーパスを厳選しました。ベクトル条件付きロボット ワールド モデル、テキスト条件付き生成ワールド モデル、オープンウェイト システム、クローズド ソース システム、および複数のモデル スケールにわたる 12 の代表的なモデル構成を評価します。この広範なモデル環境全体にわたって、MiraBench は 3 つの中心的な発見を明らかにしました。視覚的な忠実度は、アクションの忠実度の代用としては不十分です。モデルのスケールを大きくしても、アクションの追従性が確実に改善されるわけではありません。そして楽観主義バイアスは現在のシステム全体に蔓延しています。 MiraBench は、評価を外観から動作条件付きの信頼性に移行することで、ロボットの世界モデルを忠実なシミュレーターとして評価および改善するための診断基盤を提供します。
原文 (English)
MiraBench: Evaluating Action-Conditioned Reliability in Robotic World Models
Action-conditioned world models are increasingly used as scalable simulators for robot learning, yet current evaluations provide limited evidence that their predictions are reliable under the actions they condition on. Existing benchmarks largely emphasize visual fidelity, leaving unclear whether predicted futures are physically plausible, faithful to commanded actions, and calibrated to failure when actions should not succeed. We introduce \textsc{MiraBench}, a hierarchical benchmark that defines \emph{action-conditioned reliability} as a core evaluation target for robotic world models. MiraBench decomposes this target into three progressively demanding levels: \emph{Physics Adherence}, which evaluates reference-free physical consistency; \emph{Action-Following Fidelity}, which measures whether predictions respect task-relevant action inputs; and \emph{Optimism Bias Detection}, which probes the tendency to predict successful outcomes under failure-inducing actions. To support this evaluation, we curate a human-annotated corpus with over 16,000 judgments across tasks, failure categories, and leading world models. We evaluate 12 representative model configurations spanning vector-conditioned robotic world models, text-conditioned generative world models, open-weight systems, closed-source systems, and multiple model scales. Across this broad model landscape, MiraBench reveals three central findings: visual fidelity is a poor proxy for action fidelity; increasing model scale does not reliably improve action following; and optimism bias is pervasive across current systems. By shifting evaluation from appearance to action-conditioned reliability, MiraBench provides a diagnostic foundation for assessing and improving robotic world models as faithful simulators.
エージェントによる修正と意味評価による人間のような対話型音声認識を目指して
自動音声認識 (ASR) は、人間とコンピューターの対話の中核コンポーネントであり、LLM ベースのアシスタントおよびエージェントにとってますます重要なフロントエンドです。しかし、現在のほとんどの ASR システムは依然としてシングルパス パラダイムに従っており、人間のコミュニケーションとの整合性が低く、誤解は繰り返しの明確化と改良によって解決されます。この不一致により、意味に関わる重大なエラーが発生すると、修正することが困難になります。一方、WER や CER などのトークンレベルの指標は、このような問題を適切に反映できません。これらの制限に対処するために、\emph{Interactive ASR} をマルチターン改良タスクとして定式化し、シングルパス ASR フロントエンドとセマンティック修正、インテント ルーティング、推論ベースの編集を組み合わせた閉ループ フレームワークである \textbf{Agentic ASR} を提案します。さらに、LLM ベースのセマンティック評価指標である \textbf{文レベルのセマンティック エラー率} ($S^2ER$) を、スケーラブルで再現可能なベンチマークのための \textbf{インタラクティブ シミュレーション システム} とともに導入します。多言語、名前付きエンティティ集中型、およびコードスイッチングのベンチマークに関する実験では、反復的な対話によりセマンティック エラーが一貫して減少し、従来のトークン レベルのメトリクスよりも $S^2ER$ が大幅に増加することが示されました。人間と AI のアライメントとアブレーションの研究により、意味判断の信頼性と提案されたフレームワークの堅牢性がさらに検証されました。コードは https://interactiveasr.github.io/ で入手でき、ライブ デモは https://i-asr.sjtuxlance.com/ で入手できます。
原文 (English)
Towards Human-Like Interactive Speech Recognition With Agentic Correction and Semantic Evaluation
Automatic speech recognition (ASR) is a core component of human--computer interaction and an increasingly important front-end for LLM-based assistants and agents. However, most current ASR systems still follow a single-pass paradigm, which is poorly aligned with human communication, where misunderstandings are resolved through iterative clarification and refinement. This mismatch makes it difficult to correct meaning-critical errors once they occur. Meanwhile, token-level metrics such as WER or CER cannot adequately reflect such a problem. To address these limitations, we formulate \emph{Interactive ASR} as a multi-turn refinement task and propose \textbf{Agentic ASR}, a closed-loop framework that combines a single-pass ASR front-end with semantic correction, intent routing, and reasoning-based editing. We further introduce the \textbf{Sentence-level Semantic Error Rate} ($S^2ER$), an LLM-based semantic evaluation metric, together with an \textbf{Interactive Simulation System} for scalable and reproducible benchmarking. Experiments on multilingual, named-entity-intensive, and code-switching benchmarks show that iterative interaction consistently reduces semantic errors, with much larger gains in $S^2ER$ than in conventional token-level metrics. Human--AI alignment and ablation studies further validate the reliability of the semantic judge and the robustness of the proposed framework. The code is available at: https://interactiveasr.github.io/ and the live demo is available at https://i-asr.sjtuxlance.com/
TRACE: LLM CoT 評価の構成要素によるトゥールミンベースの推論評価
大規模言語モデル (LLM) からのオープンエンドの出力を評価することは、グランド トゥルースがないため依然として困難です。既存の指標は、最終的な答えの精度や表面レベルの統計に依存しており、推論プロセス自体は検討されていません。思考連鎖 (CoT) 推論プロセスを分析する指標である TRACE (Toulmin-based Reasoning Assessment through Constructive Elements) を紹介します。 TRACE は、結果を判断するのではなく、トゥールミンの議論理論とフラベルのメタ認知フレームワークを統合して推論の構造を評価することにより、議論がどのように構築されるかを検査します。 7 つの推論モデルにわたる 26.3K の QA サンプルの実験では、ベンチマーク精度 (r=0.74) との強い相関関係が示されています。さらに、TRACE は強化学習の報酬信号として効果的であり、精度のみのベースラインを上回ります。これらの結果を総合すると、論理的に健全な推論がより質の高い答えにつながることを示しています。したがって、TRACE は、オープンエンド出力を評価するための補足的なメトリックとして機能します。コードは https://github.com/hyyangkisti/trace で入手できます。
原文 (English)
TRACE: Toulmin-based Reasoning Assessment through Constructive Elements for LLM CoT Evaluation
Evaluating open-ended outputs from large language models (LLMs) remains challenging due to the absence of ground truth. Existing metrics rely on final-answer accuracy or surface-level statistics, leaving the reasoning process itself unexamined. We introduce TRACE (Toulmin-based Reasoning Assessment through Constructive Elements), a metric that analyzes Chain-of-Thought (CoT) reasoning processes. Rather than judging outcomes, TRACE inspects how arguments are constructed by integrating Toulmin's argumentation theory with Flavell's metacognitive framework to assess reasoning structure. Experiments on 26.3K QA samples across 7 reasoning models show strong correlation with benchmark accuracy (r=0.74). Furthermore, TRACE is effective as a reinforcement learning reward signal, outperforming accuracy-only baselines. Together, these results indicate that logically sound reasoning leads to higher-quality answers. TRACE thus serves as a complementary metric for evaluating open-ended outputs. Code is available at https://github.com/hyyangkisti/trace.
スペシャリスト モデルが依然として重要な理由: 医療用人工知能のための異種マルチエージェント パラダイム
医療分野における GPT や Claude などの汎用大規模言語モデル (LLM) の優れたパフォーマンスは、領域固有の医療専門家モデルは時代遅れになるのだろうかという重大な疑問を引き起こしています。私たちは、医療用人工知能 (AI) の将来は、モノリシックな医療基盤モデルの構築や人間の専門知識の置き換えにあるのではなく、ジェネラリストの LLM、領域固有の専門家モデル、および臨床医の間のコラボレーションを調整することにあると主張します。我々は、矛盾を認識した証拠の融合、不確実性に基づく臨床医の介入トリガー、および適応閾値キャリブレーションを可能にする異種医療マルチエージェントフレームワークである HetMedAgent を提案します。 3 つの実際の臨床意思決定タスクに関する実験では、ジェネラリスト LLM と領域固有の専門家モデルの間の相乗効果が、どちらかのタイプのモデルを単独で使用した場合よりも大幅に優れていることが実証され、モダリティ固有の分析における専門家モデルのかけがえのない価値が検証されました。 HetMedAgent は、医療 LLM または基盤モデルの構築から複数エージェントのコラボレーションへの移行を表し、一般的な推論機能とドメイン固有の精度のバランスを実現します。
原文 (English)
Why Specialist Models Still Matter: A Heterogeneous Multi-Agent Paradigm for Medical Artificial Intelligence
The impressive performance of generalist large language models (LLMs) such as GPT and Claude in healthcare raises a critical question: will domain-specific medical specialist models become obsolete? We argue that the future of medical artificial intelligence (AI) lies not in building monolithic medical foundation models, nor in replacing human expertise, but in orchestrating collaboration among generalist LLMs, domain-specific specialist models, and clinicians. We propose HetMedAgent, a heterogeneous medical multi-agent framework that enables conflict-aware evidence fusion, uncertainty-based clinician intervention triggering, and adaptive threshold calibration. Experiments on three real-world clinical decision-making tasks demonstrate that the synergy between generalist LLMs and domain-specific specialist models significantly outperforms using either type of model alone, validating the irreplaceable value of specialist models in modality-specific analysis. HetMedAgent represents a shift from building medical LLMs or foundation models to multi-agent collaboration, achieving a balance between general reasoning capabilities and domain-specific precision.
クロワッサン タスク: 再現可能な機械学習評価のためのメタデータ形式
再現性は科学的手法の基本ですが、機械学習においては依然として重要な課題です。原因としては、実行詳細の指定不足や脆弱なソフトウェア環境などが挙げられます。チェックリストや手動検証などの人間中心の救済策は役立ちますが、集中的な努力が必要であり、拡張することができません。これに対処するために、Croissant Tasks を導入します。これは、低レベルの実装の詳細を高レベルの仕様に抽象化する、宣言的でマシンアクション可能なメタデータ形式です。この形式により、概念的な再現性が可能になります。つまり、脆弱なソース コードの複製ではなく、独立したエージェント生成の実装を通じて主張を検証できます。私たちは以下に貢献しています。(1) Croissant Tasks 仕様。タスクの問題を解決策から正式に切り離します。 (2) 既存のベンチマークをこの形式に改良する自動 LLM パイプライン。 (3) 自律エージェントがこれらの仕様を取り込んで、機能的で正確な再現パイプラインを最初から生成できることを示す経験的検証。私たちはこの形式を、機械学習における自動化された概念的な再現性のための新しい基盤として構想しています。
原文 (English)
Croissant Tasks: A Metadata Format for Reproducible Machine Learning Evaluations
Reproducibility is fundamental to the scientific method, yet remains a critical challenge in machine learning. Contributing factors include underspecified execution details and brittle software environments. Human-centric remedies, such as checklists and manual verification, help but require intensive effort and fail to scale. To address this, we introduce Croissant Tasks: a declarative, machine-actionable metadata format that abstracts low-level implementation details into high-level specifications. This format enables conceptual reproducibility: verifying claims via independent, agent-generated implementations rather than brittle source code replication. We contribute: (1) the Croissant Tasks specification, formally decoupling task problem from solution; (2) an automated LLM pipeline that retrofits existing benchmarks into this format; and (3) empirical validation showing autonomous agents can ingest these specifications to generate functional, accurate reproduction pipelines from scratch. We envision this format as a new foundation for automated and conceptual reproducibility in machine learning.
Cookie-Bench: Web 生成のための継続的なオンスクリーンキーインタラクション評価
フロントエンドの Web コードは、すべてのフロンティア LLM リリースの中核的な製品面となっていますが、アリーナのような人間が判断するリーダーボードは拡張できないため、これらのインタラクティブ アプリケーションを開発スピードで評価することは依然としてコストがかかります。既存の自動プロキシは通常、リファレンス実装、テスト スイート、または厳密なチェックリストに依存しており、人間のレビュー担当者がライブ セッションで実行する合理的な合成を見逃す傾向があります。私たちは、同時に参照フリーで、自律的に駆動され、総合的に推論される新しい評価体制を明確にし、2 つの成果物を通じてそれをインスタンス化します。 \textbf{\dataname} は、静的プレゼンテーション タスクと対話型アプリケーション タスクの両方にまたがる 11 ドメイン、54 リーフ、1,000 クエリの WebDev ベンチマークであり、3 つの難易度層と 3 つのターゲット言語グループにわたってバランスが取れており、回覧されたプロンプトから思い出せないようにブリーフが書き直されています。 \textbf{\framename} は、Flavell のメタ認知モニタリングに基づいており、証拠の蓄積と判断を 3 つの段階にわたって分離します。静的な知覚は受動的な観察から第一印象を形成します。エージェント駆動のインタラクションは、連続画面のビデオ、音声、およびステップごとのスクリーンショットをキャプチャしながら、アプリケーションを自律的に探索します。動的スコアリングは、証拠チェーンが完了した後にのみ、構造化された失敗の帰属を伴う全体的な機能性と美的判断を発行します。 \dataname では、\framename は専門家による評価と厳密に一致しており、インタラクティブな Web 生成に関して 13 のフロンティア LLM 全体でかなりのヘッドルームを表面化しています。 \noindenthttps://anonymous.4open.science/r/Cookie-3CE/
原文 (English)
Cookie-Bench: Continuous On-screen Key Interaction Evaluation for Web Generation
Front-end web code has become a core product surface for every frontier LLM release, yet evaluating these interactive applications at development speed remains costly because human-judged leaderboards like Arena do not scale. Existing automated proxies typically lean on reference implementations, test suites, or rigid checklists, and tend to miss the reasoned synthesis a human reviewer performs over a live session. We articulate a new evaluation regime that is simultaneously reference-free, autonomously driven, and holistically reasoned, and instantiate it through two artifacts. \textbf{\dataname} is an 11-domain, 54-leaf, 1,000-query WebDev benchmark spanning both static-presentation and interactive-application tasks, balanced across three difficulty tiers and three target-language groups, with briefs rewritten to resist recall from circulated prompts. \textbf{\framename}, grounded in Flavell's metacognitive monitoring, separates evidence accumulation from judgment across three stages: Static Perception forms a first impression from passive observation; Agent-Driven Interaction explores the application autonomously while capturing continuous screen video, audio, and per-step screenshots; Dynamic Scoring issues holistic functionality and aesthetics verdicts with structured failure attribution only after the evidence chain is complete. On \dataname, \framename aligns closely with expert human ratings while surfacing substantial headroom across 13 frontier LLMs on interactive web generation. \noindenthttps://anonymous.4open.science/r/Cookie-3CE/
RAISE: アーキテクチャ検索問題としての RAG 設計
検索拡張生成 (RAG) システムでは、クエリの書き換え、チャンキング、検索の深さ、再ランキング、およびコンテキスト圧縮に及ぶ数多くの設計上の選択肢が明らかになります。実際には、これらの選択はヒューリスティックによって構成されることが多く、設定全体での体系的な評価と再現性が妨げられます。私たちは、この課題は RAG アーキテクチャの検索として定式化するのが最適であると主張します。この問題の制御された再現可能な研究をサポートするために、RAG ハイパーパラメータ最適化の包括的なフレームワークおよびベンチマークである RAG Intelligence Search Engine (RAISE) を導入します。これは、標準化された検索スペースと予算の下で RAG パイプラインの最適化方法を評価します。 RAISE は 13 の検索アルゴリズムを実装し、3 つのランダム シードを使用して 7 つのパブリック テキストおよびマルチモーダル データセットにわたってそれらを評価します。私たちの実験は、最適化のパフォーマンスがタスクに大きく依存することを示しています。つまり、あるデータセットで優れたパフォーマンスを発揮する手法が、他のデータセットでは一貫して一般化できない可能性があり、集計されたランキングを普遍的に優れた戦略の証拠として解釈することには注意が必要です。 RAISE は、RAG ハイパーパラメータの最適化に関する公正で再現性のある体系的な研究のための共通の実験基盤を提供します。
原文 (English)
RAISE: RAG Design as an Architecture Search Problem
Retrieval-augmented generation (RAG) systems expose numerous design choices spanning query rewriting, chunking, retrieval depth, reranking, and context compression. In practice, these choices are often configured through heuristics, hindering systematic evaluation and reproducibility across settings. We argue that this challenge is best formulated as RAG architecture search. To support controlled and reproducible study of this problem, we introduce the RAG Intelligence Search Engine (RAISE), a comprehensive framework and benchmark for RAG hyperparameter optimization, which evaluates optimization methods for RAG pipelines under standardized search spaces and budgets. RAISE implements 13 search algorithms and evaluates them across seven public text and multimodal datasets using three random seeds. Our experiments show that optimization performance is highly task-dependent: methods that perform strongly on one dataset may not generalize consistently across others, cautioning against interpreting aggregate rankings as evidence of universally superior strategies. RAISE provides a common experimental substrate for fair, reproducible, and systematic research on RAG hyperparameter optimization.
矛盾する複数ソースの個人記憶に対する選択的 QA: 診断テストベッドと手法の比較
新興のパーソナル AI エージェントは、永続的なマルチソース メモリに移行しています。これにより、評価上の問題が生じます。システムは、矛盾する証拠や不完全な証拠をどのように使用するかを決定する必要があります。 1 つのきれいな歴史から事実を引き出すことはできません。既存のベンチマークでは、エラーがメソッドに与えられた証拠に起因するのか、メソッドの競合解決ステップに起因するのかを示すことはほとんどありません。私たちはこれを、矛盾する複数ソースの個人記憶に対する選択的 QA として研究しています。システムは、矛盾する、場合によっては不完全なソースに基づいて回答するか、証拠が不十分な場合は棄権します。 8 つの推論タイプにわたる 18 の質問テンプレート、480 のペルソナ、4 つのランダム シード、および 34,560 のインスタンスを含むベンチマークを、制御されたソースの歪みと決定論的なグラウンド トゥルースを使用して開発しました。ソースへのアクセスなし、単一ソースへのアクセス、構造化融合手法、およびフロンティア LLM のベースラインのパフォーマンスを評価します。最もよく訓練されたフュージョン リゾルバーの精度は 80.3% に達し、最も強力なプロンプトのみの LLM ベースラインは 70.0% に達します。棄権すると、同じリゾルバはカバレッジ 78.3% で選択精度 85.3% に達し、最良の LLM はカバレッジ 95.4% で選択精度 71.0% に達します。モデルが異なれば、推論タイプごとに異なる強みがあります。データ、コード、キャッシュされたモデル出力、およびデータ生成プロセスを再利用のためにリリースします。
原文 (English)
Selective QA over Conflicting Multi-Source Personal Memory: A Diagnostic Testbed and Method Comparison
Emerging personal AI agents are moving toward persistent, multi-source memory. This creates an evaluation problem: systems must decide how to use conflicting or incomplete evidence; they cannot just retrieve facts from one clean history. Existing benchmarks rarely show whether an error came from the evidence given to a method or from the method's conflict-resolution step. We study this as selective QA over conflicting multi-source personal memory: systems answer based on conflicting, sometimes incomplete sources, or abstain when evidence is insufficient. We develop a benchmark containing 18 question templates across 8 reasoning types, 480 personas, 4 random seeds, and 34,560 instances, with controlled source distortions and deterministic ground truth. We evaluate the performance of baselines without access to any source, access to a single source, structured fusion methods, and frontier LLMs. The best trained fusion resolver reaches 80.3% accuracy, while the strongest prompt-only LLM baseline reaches 70.0%. With abstention, the same resolver reaches 85.3% selective accuracy at 78.3% coverage and the best LLM reaches 71.0% selective accuracy at 95.4% coverage. Different models have different strengths across reasoning types. We release the data, code, cached model outputs, and data-generating process for reuse.
BioRefusalAudit: 一般およびドメイン微調整されたスパース オートエンコーダーを使用したバイオセキュリティ拒否の深さの監査
言語モデルのバイオセキュリティ評価では通常、モデルが危険な出力を生成するかどうかが問われます。この論文は補足的な質問をします。モデルが拒否した場合、その拒否は構造的に正しいのでしょうか、それともフレーミング、フォーマット、または出力長を促すための適度な変更で消えるのでしょうか? 5 つのアーキテクチャにわたって、無害性と危険性を明確に区別したモデルはありませんでした。 Gemma 2 2B-IT は、75 件のプロンプトにわたって真に拒否することはなく、危険に隣接するすべてのクエリを回避しました。 Gemma 4 E2B-IT は、チャット テンプレート形式を使用した場合は 65/75 件のプロンプトを拒否し、チャット テンプレート形式を使用しない場合は 0/75 件のプロンプトを拒否しました。両方の Gemma モデルは、80 トークンの上限の下で 0% に崩壊しました。 Qwen 2.5 1.5B と Phi-3-mini は過剰に拒否され、良性生物学の 83 ~ 87% が危険であると警告されました。 Llama 3.2 1B は唯一の意味のある Tier 勾配 (61 ポイントの広がり) を示しました。何がそのような過剰な拒否を引き起こすのかを調査するために、我々はスケジュールIであるが生物学的に無毒な化合物(特にFDA画期的治療法のステータスを持つシロシビン培養)のパネルをテストしました。一部のモデルは、真に有害な生物学を超える割合でこれらを拒否しており、拒否がCBRNの危険性に対する合法性と文化的顕著性を追跡していることを示唆しています。内部側を測定するために、モデルの表面応答ラベルを内部のスパース オートエンコーダー (SAE) 特徴のアクティベーションと比較する発散スコア D を導入します。フル D は、Gemma 2 2B-IT (Gemma Scope 1) および Gemma 4 E2B-IT (著者が訓練したバイオ SAE) で計算されました。 2 つの微調整された Gemma 2 ドメイン SAE がリリースされました。 Gemma 4 では、狭いカタログ、サンプル内キャリブレーション、および Gemma ファミリーのみの SAE 範囲を使用して、重複なし (n=75) で 0.647 ポイントのギャップで応答と拒否の応答が分離されますが、これは暫定的なものです。消費者向けハードウェア (GTX 1650 Ti Max-Q、および SAE トレーニング用の Colab T4) での 1 つのハッカソン週末にわたって構築されたこの予備的な証拠は、アクティベーション レベルの監査によって、アーキテクチャ間で大幅に異なる、動作評価では見えない障害モードが表面化する可能性があることを示唆しています。
原文 (English)
BioRefusalAudit: Auditing Biosecurity Refusal Depth Using General and Domain-Fine-Tuned Sparse Autoencoders
Biosecurity evaluations of language models typically ask whether models produce hazardous output. This paper asks a complementary question: when a model refuses, is that refusal structurally sound, or does it disappear under modest changes to prompt framing, formatting, or output length? Across five architectures, no model cleanly discriminated benign from hazard. Gemma 2 2B-IT never genuinely refused across 75 prompts, hedging on every hazard-adjacent query. Gemma 4 E2B-IT refused 65/75 prompts with chat-template formatting and 0/75 without it. Both Gemma models collapsed to 0% under an 80-token cap. Qwen 2.5 1.5B and Phi-3-mini over-refused, flagging 83-87% of benign biology as hazardous. Llama 3.2 1B showed the only meaningful tier gradient (61-point spread). To probe what drives such over-refusal, we tested a panel of Schedule I but biologically non-toxic compounds (notably psilocybin cultivation, with FDA Breakthrough Therapy status). Some models refused these at rates exceeding genuinely hazardous biology, suggesting refusal tracks legality and cultural salience over CBRN hazard. To measure the internal side, we introduce a divergence score D comparing a model's surface response label to its internal sparse autoencoder (SAE) feature activations. Full D was computed on Gemma 2 2B-IT (Gemma Scope 1) and Gemma 4 E2B-IT (author-trained bio SAE). Two fine-tuned Gemma 2 domain SAEs were released. On Gemma 4, comply and refuse responses separated by a 0.647-point gap with zero overlap (n=75), though this is preliminary, with a narrow catalog, within-sample calibration, and Gemma-family-only SAE coverage. Built over one hackathon weekend on consumer hardware (GTX 1650 Ti Max-Q, plus Colab T4 for SAE training), this preliminary evidence suggests activation-level auditing may surface failure modes invisible to behavioral evaluation, with substantial variation across architectures.
オープンソースの安全ガード モデルのベンチマーク: 包括的な評価
安全性が重要なアプリケーションに大規模言語モデル (LLM) が導入されることが増えているため、堅牢なコンテンツ モデレーションが不可欠になっています。 NIST AI リスク フレームワークの 8 つの安全カテゴリにまたがる 79,331 サンプルの厳選されたベンチマークに基づく 14 のオープンソース安全ガード モデルの包括的な評価を示します。当社のベンチマークは 4 つの多様なデータセット (HarmBench、StrongREJECT、RealToxicityPrompts、BeaverTails) を集約し、安全関連のコンテンツ (暴力、ヘイトスピーチ、嫌がらせ、性的コンテンツ、自殺/自傷行為、冒涜、脅迫、健康上の誤った情報) のみに焦点を当てるようにフィルタリングされています。有害なコンテンツの欠落は誤検知よりも大きなリスクをもたらすため、リコールは安全性アプリケーションにとって重要な指標であることがわかりました。私たちの評価では、驚くべき結果が明らかになりました。Qwen Guard (4B パラメーター) は最高の再現率 (83.97%) を達成しましたが、Llama Guard (12B) や GPT-OSS Safeguard (20B) などのより大きなモデルは保守的な動作を示し、安全でないコンテンツを最大 75% 見逃しました。我々は、モデルのサイズが安全検出のパフォーマンスと相関しないこと、および汎用のガード モデルが特殊なガード モデルよりも優れていることを実証します。これらの調査結果は、実稼働環境での安全装置モデルを選択するための実践的なガイダンスを提供します。
原文 (English)
Benchmarking Open-Source Safety Guard Models: A Comprehensive Evaluation
As Large Language Models (LLMs) are increasingly deployed in safety-critical applications, robust content moderation becomes essential. We present a comprehensive evaluation of 14 open-source safety guard models on a curated benchmark of 79,331 samples spanning 8 NIST AI Risk Framework safety categories. Our benchmark aggregates four diverse datasets (HarmBench, StrongREJECT, RealToxicityPrompts, and BeaverTails), filtered to focus exclusively on safety-relevant content (violence, hate speech, harassment, sexual content, suicide/self-harm, profanity, threats, and health misinformation). We find that recall is the critical metric for safety applications, as missing harmful content poses greater risk than false positives. Our evaluation reveals surprising results: Qwen Guard (4B parameters) achieves the highest recall (83.97%) while larger models like Llama Guard (12B) and GPT-OSS Safeguard (20B) exhibit conservative behavior, missing up to 75% of unsafe content. We demonstrate that model size does not correlate with safety detection performance and that general-purpose guard models outperform specialized ones. These findings provide practical guidance for selecting safety guard models in production deployments.
GPF-LiveNews: 大規模言語モデルにおけるグループ条件付きフレーミングのためのストリーミング評価プロトコル
デプロイされた言語モデルは非定常環境で評価されます。モデルのバージョン、検索レイヤー、安全システム、現実世界の入力はすべて時間の経過とともに変化します。静的バイアスのベンチマークは依然として有用ですが、モデルがさまざまな刺激を受けた視聴者に対して新たに出現したイベントをどのように組み立てるかは示していません。オープンエンド LLM 出力のグループ条件付きフレーミングを監査するためのストリーミング評価プロトコルおよびベンチマーク スナップショットである GPF-LIVENEWS を紹介します。このプロトコルは、42 の ID ラベルと 7 つのプロンプト ファミリにわたって新鮮な BBC/ロイター ニュース アンカーを拡張し、その後、意味論的感度とセンチメント差異シグナルを使用して応答バンドルを評価します。 12 回のモニタリング実行と 23 個のホストされたモデルにわたるパイロットでは、ポリシー/アクション プロンプトが最も強力なセマンティックな動きを生成しますが、センチメントの変動はディメンションおよびプロンプト ファミリ全体でより平坦です。リリースされたアーティファクトには、記事のメタデータ、プロンプト テンプレート、インスタンス化されたプロンプト、モデル出力メタデータ、スコア テーブル、ドキュメント、および再現スクリプトが含まれます。私たちはすべてのスコアを、永続的な公平性ランキングや有害なバイアスの直接の証拠としてではなく、人間によるレビューのための監視窓監査シグナルとして解釈します。
原文 (English)
GPF-LiveNews: A Streaming Evaluation Protocol for Group-Conditioned Framing in Large Language Models
Deployed language models are evaluated in a non-stationary environment: model versions, retrieval layers, safety systems, and real-world inputs all change over time. Static bias benchmarks remain useful, but they do not show how models frame newly emerging events for different prompted audiences. We introduce GPF-LIVENEWS, a streaming evaluation protocol and benchmark snapshot for auditing group-conditioned framing in open-ended LLM outputs. The protocol expands fresh BBC/Reuters news anchors across 42 identity labels and seven prompt families, then evaluates response bundles using semantic-sensitivity and sentiment-disparity signals. In a pilot over 12 monitoring runs and 23 hosted models, Policy/Action prompts produce the strongest semantic movement, while sentiment variation is flatter across dimensions and prompt families. The released artifact includes article metadata, prompt templates, instantiated prompts, model-output metadata, score tables, documentation, and reproduction scripts. We interpret all scores as observed-window audit signals for human review, not as permanent fairness rankings or direct proof of harmful bias.
GrowLoop: 人間がシードし、自己進化する会話評価
大規模な言語モデルの急速な進歩に伴い、自由な会話における人間らしさを評価することがますます重要になってきています。しかし、人間らしさは人間が直感的に認識する暗黙知の一種ですが、根底にある基準は明示的な定式化に抵抗します。人間の判断は大きく異なり、一部のケースでは強い同意が得られますが、他のケースでは正当な意見の相違が見られます。一方、人間の判断の背後にある基準は暗黙的なままであり、事件を構築するための明確な根拠は残されていません。さらに、人間に似ているとみなされるものは静的なものではなく、モデルの能力と人間の期待に応じて進化します。専門家が作成したベンチマーク、報酬モデル、自己進化型ベンチマークなどの評価方法は進歩していますが、3 つの課題すべてに同時に対処できるものはありません。そこで、モデルの進歩やシナリオの変化に合わせて継続的に適応する、自己進化する会話評価システムである GrowLoop を提案します。最初の動きとして最小限の人間のシード アノテーションを使用して、LLM エージェントはヒューリスティック学習を通じて評価ルーブリックを繰り返し抽出し、改良します。アノテーターが集まる場合には人間と AI の合意が必要ですが、異なる場合には妥当性のみが期待されます。さらに、Rubric-Caseの共進化機構により、評価対象が移動した際に新たなシーズを介して拡張され、継続的な進化が可能となります。自由形式の会話における人間らしさの評価に適用すると、生成されたルーブリックは、人間の判断に沿って既存の手法を大幅に上回るだけでなく、アノテーターが見落としている問題も明らかになります。結果として得られるベンチマークは、機能層全体でモデルを効果的に識別し、どこが不足しているかを明らかにすると同時に、新しいシナリオに一般化し、モデルの進歩に合わせて適応します。私たちの取り組みは、ベンチマークのパラダイムを手動の更新や難易度のスケーリングから、包括的で継続的な自己進化へと移行させます。
原文 (English)
GrowLoop: Self-Evolving Conversation Evaluation Seeded by Human
With the rapid advancement of large language models, evaluating human-likeness in open-ended conversation has become increasingly important. However, human-likeness is a form of tacit knowledge that humans perceive intuitively, yet the underlying criteria resist explicit formulation. Human judgments vary widely, with strong agreement on some cases and legitimate disagreement on others. Meanwhile, the criteria behind human judgments remain implicit, leaving no clear basis for constructing cases. Further, what counts as human-like is not static, but evolving with model capability and human expectations. Despite progress in evaluation methods such as expert-authored benchmarks, Reward Models, and self-evolving benchmarks, none addresses all three challenges simultaneously. Therefore, we propose GrowLoop, a self-evolving conversation evaluation system that continuously adapts as models advance and scenarios shift. With minimal human seed annotations as the first mover, LLM agents iteratively extract and refine evaluation rubrics through Heuristic Learning. Human-AI agreement is required where annotators converge, while only plausibility is expected where they diverge. Moreover, the Rubric-Case co-evolution mechanism enables continuous evolution, expanded through new seeds when the evaluation target moves. Applied to human-likeness evaluation in open-ended conversation, the generated rubrics not only substantially outperform existing methods in alignment with human judgments, but also uncover issues that annotators overlook. The resulting benchmark effectively discriminates models across capability tiers and reveals where they fall short, while generalizing to new scenarios and adapting as models advance. Our work shifts the benchmarking paradigm from manual updates or difficulty scaling to comprehensive, continuous self-evolution.
LoRe: 反復グラフ ソルバー向けのステップごとのインタラクション バジェットを備えた適応型インタラクション評価ルーティング
組み合わせ最適化のための拡散ベースのニューラル ソルバーは、高密度のエッジ/因子相互作用を繰り返し再評価するため、実時間での推論が高価になり、大規模になるとメモリに制限されることがよくあります。多体物理学の計算手法にインスピレーションを得て、ステップごとの相互作用評価の予算設定を強制する、トレーニング不要の推論時間ドロップイン ラッパーである LoRe を導入します。各反復では、固定のスパース化 (静的 kNN グラフや静的など) を使用する代わりに、計算を競合性の高い相互作用または不確実性の高い相互作用に動的にルーティングすることで、相互作用の固定部分のみを評価します。マスク)。完全に包括的なエンドツーエンドの壁時計アカウンティングの下で、LoRe は最大独立集合 (MIS) 問題のスケーラビリティを大幅に向上させ、実行可能な推論をベースラインのメモリ不足制限を超えて $3\times$ 以上拡張し、$\sim 8\times$ の高速化と $\sim 12\times$ のピークメモリ削減を実現し、この体制でソリューションの品質は維持されます。大規模な巡回販売員問題 (TSP) に対するクロスタスクの汎用性と、トポロジーの変化に対するゼロショットの堅牢性を実証する LoRe は、$n=1000$ で $\sim 15\times$ の高速化を実現し、$44\times$ のメモリ削減と競争力のあるツアー品質を実現します。
原文 (English)
LoRe: Adaptive Interaction-Evaluation Routing with Per-Step Interaction Budgets for Iterative Graph Solvers
Diffusion-based neural solvers for combinatorial optimization repeatedly re-evaluate dense edge/factor interactions, making inference expensive in wall-clock time and often memory-bound at scale. Inspired by the computational methodologies of many-body physics, we introduce LoRe, a training-free, inference-time drop-in wrapper that enforces per-step interaction-evaluation budgeting: at each iteration, it evaluates only a fixed fraction of interactions by dynamically routing computation to high-conflict or high-uncertainty interactions, instead of using a fixed sparsification (e.g., static kNN graphs or static masks). Under fully inclusive end-to-end wall-clock accounting, LoRe substantially improves scalability on the Maximum Independent Set (MIS) problem, extending feasible inference more than $3\times$ beyond the baseline's out-of-memory limit, delivering a $\sim 8\times$ speedup and a $\sim 12\times$ peak-memory reduction, with solution quality preserved in this regime. Demonstrating cross-task generality on the large-scale Traveling Salesperson Problem (TSP) and zero-shot robustness to topology shifts, LoRe achieves a $\sim 15\times$ speedup at $n=1000$ with a $44\times$ memory reduction and competitive tour quality.
Toward Ethical Facial Age Estimation: A Generalized Zero-Shot Benchmark Without Training on Children's Data
Age estimation from facial images typically relies on training data that includes images of minors, a practice that raises serious ethical,…
DynSess: Dynamic Session-Level Evaluation and Optimization Framework for Role-Playing Agents
Role-playing with large language models is fundamentally a session-level task, requiring agents to sustain character identity and interacti…
Do Physics Foundation Models Learn Generalizable Physics? A Bias-Aware Benchmark Across Physical Regimes and Distribution Shifts
Recent physics foundation models claim general spatiotemporal forecasting ability, yet their evaluations often collapse performance into a…
Pocket-Dentist: On-Device Dental Image Understanding via Efficient Multimodal Large Language Models
Evaluations of dental vision-language models remain fragmented across datasets, task definitions and metrics, and often ignore their comput…
How Much Is a Dataset Worth? Scaling Laws, the Vendi Score, and Matrix Spectral Functions
Neural scaling laws appraise data through dataset size, while the Vendi Score uses quantum entropy to measure dataset value. We show both t…
Benchmarking Large Vision-Language Models on CFMME: A Comprehensive Chinese Financial Multimodal Evaluation Dataset
The emergence of Large Vision-Language Models (LVLMs) has substantially expanded model capabilities beyond text-only understanding, enablin…
Quotient DAGs for Off-Policy Evaluation:Forward-Flow Importance Sampling and Exact Slate Propensities
Off-policy evaluation estimates how a target policy would perform using data collected by a different behavior policy, which is crucial whe…
GUITestScape: Towards Open-set Evaluation on Exploratory GUI Testing
Exploratory GUI testing is a particularly demanding setting for MLLM agents: without predefined test scripts, an agent must autonomously na…
EviLink: Multi-Path Schema Linking with Uncertainty-Guided Evidence Acquisition for Large-Scale Text-to-SQL
Schema linking is a difficult and important step in large-scale Text-to-SQL, where systems must identify a compact yet sufficient schema co…
Honeyval: A Comprehensive Evaluation Framework for LLM-powered HTTP Honeypots
Honeypots are decoy systems mimicking real system components designed to defend against cyber attacks. Recently, LLMs increasingly serve as…
Audio Jailbreaks in Large Audio-Language Models: Taxonomy, Attack-Defense Analysis, and Cost-Aware Evaluation
Large Audio Language Models (LALMs) expand jailbreak risks from token-level prompting to the full speech perception-to-reasoning pipeline,…
MedCase-Structured: A Text-to-FHIR Dataset for Benchmarking Diagnostic Reasoning in Clinically Realistic EHR Settings
Large language models (LLMs) show promise for clinical reasoning and decision support, but evaluation in realistic, electronic health recor…
IntentScore: コンピュータ使用エージェントの意図条件付きアクションの評価
Computer-Use Agent (CUA) は、大規模な言語モデルを利用してデスクトップ環境で GUI 操作を実行しますが、アクションの品質を評価せずにアクションを生成するため、後続のステップに連鎖的に発生する不可逆的なエラーにつながります。私たちは、3 つのオペレーティング システムにわたる 398K のオフライン GUI インタラクション ステップから候補アクションをスコアリングすることを学習する、プランを認識した報酬モデルである IntentScore を提案します。 IntentScore は、状態とアクションの関連性に関する対照的な調整と、アクションの正しさに関するマージン ランキングという 2 つの相補的な目標を使用してトレーニングします。アーキテクチャ的には、各候補者の計画意図がアクション エンコーダーに埋め込まれ、同様のアクションを持つ候補者間で論理的根拠が異なるものを区別できるようになります。 IntentScore は、ホールドアウト評価で 97.5% のペア識別精度を達成します。トレーニング中にまったく見えない環境である OSWorld 上のエージェント S3 の再ランカーとしてデプロイされた IntentScore は、タスクの成功率を 6.9 ポイント向上させ、異種のオフライン軌跡から学習した報酬推定が、目に見えないエージェントとタスクの分布に一般化されることを示しています。
原文 (English)
IntentScore: Intent-Conditioned Action Evaluation for Computer-Use Agents
Computer-Use Agents (CUAs) leverage large language models to execute GUI operations on desktop environments, yet they generate actions without evaluating action quality, leading to irreversible errors that cascade through subsequent steps. We propose IntentScore, a plan-aware reward model that learns to score candidate actions from 398K offline GUI interaction steps spanning three operating systems. IntentScore trains with two complementary objectives: contrastive alignment for state-action relevance and margin ranking for action correctness. Architecturally, it embeds each candidate's planning intent in the action encoder, enabling discrimination between candidates with similar actions but different rationales. IntentScore achieves 97.5% pairwise discrimination accuracy on held-out evaluation. Deployed as a re-ranker for Agent S3 on OSWorld, an environment entirely unseen during training, IntentScore improves task success rate by 6.9 points, demonstrating that reward estimation learned from heterogeneous offline trajectories generalizes to unseen agents and task distributions.
Thinking Fast, Thinking Wrong: Intuitiveness Modulates LLM Counterfactual Reasoning in Policy Evaluation
Large language models (LLMs) are increasingly used for causal and counterfactual reasoning, yet their reliability in real-world policy eval…
SciHorizon-DataEVA: An Agentic System for AI-Readiness Evaluation of Heterogeneous Scientific Data
AI-for-Science (AI4Science) is increasingly transforming scientific discovery by embedding machine learning models into prediction, simulat…
CausaLab: AI 科学者向けのインタラクティブな因果発見のためのスケーラブルな環境
LLM エージェントによるインタラクティブな因果発見を評価するためのスケーラブルな環境である CausaLab を紹介します。以前の評価とは異なり、CausaLab では、エージェントが因果関係の証拠を使用して問題を解決できるかどうか、およびその答えが根底にある因果メカニズムに関する正しい仮説によって裏付けられているかどうかの両方を評価します。各エピソードではエージェントが合成実験室に配置されます。エージェントは以前の測定記録を受け取り、マニピュレーター結晶に介入し、同じ機構によって支配される保持されたリアクター結晶の共振周波数を予測します。隠されたデータ生成プロセスは、ランダムにサンプリングされた構造因果モデル (SCM) であるため、成功するには、事前の知識を思い出すのではなく、因果グラフと構造方程式の両方を回復する必要があります。 CausaLab には、エージェントの進化する SCM 仮説を記録するドメイン固有の言語も含まれており、軌跡を検査可能にしてグラウンド トゥルースと比較できるようになります。実験では、予測とメカニズム回復の間に永続的なギャップがあることが示されています。純粋に観測的な 6 ノード設定では、GPT-5.2-high はタスク精度 92% に達しますが、オールエッジ $F_1$ はわずか 0.471 です。この観察は、さまざまな相互作用戦略の探求をさらに動機づけます: 混合観察 - 介入戦略は構造忠実度を向上させます: 混合 6 ノード設定では、GPT-5.2-high はタスク精度とオールエッジ $F_1$ の両方で 80% を達成しました。しかし、純粋な介入戦略はタスクの精度とオールエッジ $F_1$ の両方においてパフォーマンスが低いため、強力なエージェントですら有益な介入を設計するのに苦労しています。私たちは、エージェントの主要な弱点として早期停止を特定し、仮説と過去のデータとの間の一貫性をモデルに検証するように依頼することが、この問題の軽減に役立つことを示します。したがって、CausaLab は予測の成功を因果関係の理解から切り離し、実験的因果推論者としての現在の LLM エージェントの限界を明らかにします。
原文 (English)
CausaLab: A Scalable Environment for Interactive Causal Discovery Toward AI Scientists
We introduce CausaLab, a scalable environment for evaluating interactive causal discovery by LLM agents. Unlike prior evaluations, CausaLab evaluates both whether an agent can solve a problem using causal evidence and whether its answer is grounded in a faithful recovered causal mechanism. Each episode places an agent in a synthetic laboratory: it receives prior measurement records, intervenes on a manipulator crystal, and predicts the resonance frequency of a held-out reactor crystal governed by the same mechanism. The hidden data-generating process is a randomly sampled structural causal model (SCM), so success requires recovering both a causal graph and structural equations rather than recalling prior knowledge. Experiments show a persistent gap between prediction and mechanism recovery: in the purely observational 6-node setting, GPT-5.2-high reaches 92% task accuracy but only 0.471 all-edge $F_1$. Mixed observation-intervention strategies improve structural fidelity, while pure intervention remains difficult even for strong agents. We identify premature stopping as a major weakness and show that consistency verification mitigates it. CausaLab therefore separates predictive success from causal understanding and exposes current LLM agents' limits as experimental causal reasoners.
FundaPod: AI 支援のファンダメンタル投資調査のためのナレッジ グラフ メモリを備えたマルチペルソナ エージェント ポッド プラットフォーム
大規模言語モデル (LLM) は金融分野での適用が増えていますが、既存の研究のほとんどは取引シグナルや予測を中心とした財務 NLP タスクに重点を置いています。対照的に、制度的基礎研究では、人間のアナリストまたは AI エージェントが証拠を収集し、ビジネス推進要因を特定し、競合する視点を比較し、投資メモを作成する必要があります。その広範な目標は、単に結果を予測することではなく、投資知識の累積的な発展に貢献しながら、透明性、再利用可能、検証可能な投資計画を作成することです。 AI 支援のファンダメンタルズ投資調査のためのマルチペルソナ エージェント プラットフォームである FundaPod を紹介します。私たちは、基礎研究は人間中心の意思決定支援タスクであり、取引シグナルの生成とは質的に異なるため、独立性を維持するアーキテクチャの方が適していると主張します。 FundaPod では、バリュー投資家やマクロ戦略家など、さまざまなペルソナを持つ AI エージェントが、共有の出所契約に基づいて独立して調査を実施します。その後、彼らの意見の相違は、知識グラフ記憶システムを通じて人間のポートフォリオ マネージャー (PM) による裁定のために事後的に表面化されます。この論文は、設計科学の実践と認知的分離と人間と機械の協調の理論に基づいた、基礎研究をサポートする人間と AI のハイブリッド システムの 5 つの設計原則を提供します。また、4 つのアーキテクチャ メカニズムについても説明します。1 つは一般投資家の資料を展開可能なエージェントに変えるペルソナ蒸留パイプラインです。プランナーが型指定されたタスク グラフを導出できるようにする宣言型スキル レジストリ。メモの主張を検証可能な情報源に結び付ける根拠のある証拠モデル。そしてティッカー、メモ、アナリスト、テーマを結び付けるナレッジグラフ「第二の脳」。完全なケーススタディとペルソナベースのメモの比較を通じてアーキテクチャを実証します。
原文 (English)
FundaPod: A Multi-Persona Agent Pod Platform with Knowledge Graph Memory for AI-Assisted Fundamental Investment Research
Large language models (LLMs) are increasingly applied in finance, yet most existing work emphasizes trading signals or financial NLP tasks centered on prediction. Institutional fundamental research, by contrast, requires human analysts or AI agents to gather evidence, identify business drivers, compare competing viewpoints, and generate investment memos. Its broader goal is not merely to predict outcomes, but to produce investment plans that are transparent, reusable, and verifiable, while contributing to the cumulative development of investment knowledge. We present FundaPod, a multi-persona agent platform for AI-assisted fundamental investment research. We argue that fundamental research is a human-centric decision-support task that is qualitatively distinct from trading-signal generation, and is therefore better served by an independence-preserving architecture. In FundaPod, AI agents with different personas, such as value investors or macro strategists, conduct research independently under a shared provenance contract. Their disagreements are then surfaced post hoc for adjudication by the human portfolio manager (PM) through a knowledge-graph memory system. This paper contributes five design principles for human-AI hybrid systems supporting fundamental research, grounded in design-science practice and theories of cognitive isolation and human-machine coordination. It also describes four architectural mechanisms: a persona distillation pipeline that turns public investor materials into deployable agents; a declarative skill registry that lets the planner derive typed task graphs; a grounded evidence model that links memo claims to verifiable sources; and a knowledge-graph "second brain" that connects tickers, memos, analysts, and themes. We demonstrate the architecture through a complete case study and a persona-based memo comparison.
The Importance of Being Statistically Earnest: A Critical Re-evaluation of GSM-Symbolic
The GSM-Symbolic benchmark (Mirzadeh et al., 2025) reported consistent performance drops across 25 Large Language Models (LLMs) when tested…
From Rubrics to Reliable Scores: Evidence-Grounded Text Evaluation with LLM Judges
Rubric-based text evaluation increasingly uses large language models (LLMs) as scalable judges, but aligning frozen black-box models with h…
GICDM: Mitigating Hubness for Reliable Distance-Based Generative Model Evaluation
Generative model evaluation commonly relies on high-dimensional embedding spaces to compute distances between samples. We show that dataset…
P$^2$RAG: Efficient Privacy-Preserving RAG Service Supporting Arbitrary Top-$k$ Retrieval
Retrieval-Augmented Generation (RAG) enables large language models to use external knowledge, but outsourcing the RAG service raises privac…
AgentLens: Revealing The Lucky Pass Problem in SWE-Agent Evaluation
Here is the updated abstract: Evaluation of software engineering (SWE) agents is dominated by a binary signal: whether the final patch pass…
JMed48k: A Multi-Profession Japanese Medical Licensing Benchmark for Vision-Language Model Evaluation
We introduce JMed48k, a multi-profession Japanese healthcare licensing benchmark for evaluating vision-language models. Built from official…
Prospective evaluation of multimodal respiratory failure prediction: Do chest X-rays improve performance beyond EHR signals?
Early prediction of respiratory failure is critical for timely clinical intervention in intensive care units. Existing electronic health re…
The Alignment Floor: How Persona Customization Breaks Safety in Weakly-Aligned LLMs
Telling an LLM to "be enthusiastic" raises its sycophancy rate from 30\% to 50\% on a lightly-aligned model, but has zero effect on a stron…
モデルが一致しない場合: パブリック コメント分析のための LLM 評価を再考する
連邦政府機関はパブリック コメント コーパスを分類するために大規模言語モデル (LLM) を導入しており、モデルの記録構成によって政策立案者が何を確認し、どの議論が登録されるかが決まります。小規模な検証済みセットに対するスタンスの精度に基づいた標準評価では、異なるモデルが同じ公的入力に対して実質的に異なる分類を生成する場合を検出できません。私たちは、マルチモデルの不一致を解釈の複雑さの診断として扱い、真に曖昧な公的意見に向けて人間によるレビューを指示する解釈監査パイプラインを提案します。 4 つの LLM にわたる連邦 USDA 文書に対する 1,260 件のパブリック コメントを分析したところ、モデル間のテーマの相違がモデル内のプロンプト変動を上回っており、専門家のルーブリックが深い解釈上の不一致を解決することなく抑圧していることがわかりました。層化された 40 コメントのサブサンプルに対する 2 段階のラベル付け研究では、4 人の LLM とヒューマン アノテーターが独立してラベル付けし、他のラベルを確認した後に修正しました。改訂動作はラベラーによって異なり、ヒューマン・アノテーターの改訂では、アンサンブルの集合的な出力にはないフレームが頻繁に導入されました。私たちは、不一致に基づく評価は、LLM 支援解釈コーディングの精度メトリクスを補完するために必要であると主張します。
原文 (English)
When Models Disagree: Rethinking LLM Evaluation for Public Comment Analysis
Federal agencies are deploying large language models (LLMs) to categorize public comment corpora, where the model's organization of the record shapes what policymakers see and which arguments register. Standard evaluation, anchored on stance accuracy against a small validated set, cannot detect when different models produce materially different categorizations of the same public input. We propose an Interpretive Audit Pipeline that treats multi-model disagreement as diagnostic of interpretive complexity and directs human review toward genuinely ambiguous public input. Analyzing 1,260 public comments on a federal USDA docket across four LLMs, we find that inter-model thematic divergence exceeds within-model prompt variation, and that an expert rubric suppresses deep interpretive disagreement without resolving it. In a two-stage labeling study on a stratified 40-comment subsample, four LLMs and a human annotator labeled independently and then revised after seeing the others' labels. Revision behavior varied across labelers, and the human annotator's revisions frequently introduced framings absent from the ensemble's collective output. We argue disagreement-based evaluation is a necessary complement to accuracy metrics for LLM-assisted interpretive coding.
ペーパーエージェント、ペーパーゲイン:DeFi投資エージェントの実証分析
自律的なオンチェーン取引に AI を使用するシステムである DeFi 投資エージェントは、2024 年後半以来、合計トークン評価額で 30 億米ドルを超えています。私たちは 1,900 以上の AI タグ付き暗号プロジェクトを調査し、投資中心のエージェントに絞り込み、戦略と可観測性の側面にわたる 10 の代表的なプロジェクトを厳選しています。次に、ElizaOS と Virtuals Protocol という 2 つの著名なエージェント フレームワークの詳細なアーキテクチャ分析と、925,323 人のトークン所有者を対象とする公的に起因する取引活動を伴う 11 の Solana ベースのエージェント トレジャリーの定量的なオンチェーン パフォーマンス分析を実施します。現在のデプロイメントは初期段階で異種混合のままであることがわかりました。(1) 私たちのサンプルでは、多くのプロジェクトが自律的な取引実行の明確な証拠をまだ提供しておらず、開発者のインタビューでは、目に見えるデプロイメントの多くが基本的な API 統合のままであることが示唆されています。 (2) エージェントの財務省は 3,000 万米ドルを超える紙の利益を保持している一方、トークン所有者は合計で 1 億 9,170 万米ドルを損失しており、ウォレットの上位 1% が全利益の 81.4% (18 億 1,000 万米ドル) を獲得しています。 (3) トークンの評価額は財務省のファンダメンタルズとの関連が弱く、時価総額対AUMの比率は10,000倍を超えていますが、確立されたDeFiプロトコルでは1倍未満です。 (4) ユーザーの総利益は 24 億米ドルでピークに達し、その後純損失に減少し、収益の中央値はすべてのプラットフォームでマイナスとなり、トークンは史上最高値から平均して 93% 減少しました。私たちは、これらの結果を、オープンインフラストラクチャにより迅速な実験が可能になるだけでなく、自律性、パフォーマンス、および利害関係者の連携のための堅牢な標準が出現する前に、単純なエージェントや投機的なエージェントが立ち上がることを可能にする、パーミッションレスの第一世代市場の特徴であると解釈します。そこで私たちは、現在の展開と将来の投資グレードのエージェント システムとの間のギャップを特徴付けるために、自律的な実行、リスク調整後の収益性、利害関係者の連携という 3 つの側面に沿った成熟度フレームワークを提案します。
原文 (English)
Paper Agents, Paper Gains: An Empirical Analysis of DeFi Investment Agents
DeFi investment agents, systems that use AI for autonomous on-chain trading, have attained over USD 3 billion in combined token valuations since late 2024. We survey over 1,900 AI-tagged crypto projects, filter to investment-focused agents, and curate 10 representative projects spanning strategy and observability dimensions. We then conduct a deep-dive architectural analysis of two prominent agent frameworks, ElizaOS and Virtuals Protocol, and a quantitative on-chain performance analysis of 11 Solana-based agent treasuries with publicly attributable trading activity, covering 925,323 token holders. We find that current deployments remain early and heterogeneous: (1) in our sample, many projects do not yet provide clear evidence of autonomous trade execution, and developer interviews suggest that many visible deployments remain basic API integrations; (2) agent treasuries retain over USD 30M in paper gains while token holders collectively lost USD 191.7M, with the top 1% of wallets capturing 81.4% of all gains (USD 1.81B); (3) token valuations are weakly connected to treasury fundamentals, with market-cap-to-AUM ratios exceeding 10,000x versus below 1x for established DeFi protocols; and (4) aggregate user gains peaked at USD 2.4B before declining to net losses, with median returns negative on every platform and tokens declining 93% on average from all-time highs. We interpret these outcomes as characteristic of a permissionless, first-generation market in which open infrastructure enables rapid experimentation but also allows naive or speculative agents to launch before robust standards for autonomy, performance, and stakeholder alignment emerge. We therefore propose a maturity framework along three dimensions: autonomous execution, risk-adjusted profitability, and stakeholder alignment, to characterize the gap between current deployments and future investment-grade agent systems.
BenchTrace: LLM エージェントのリフレクション能力と制御された進化をテストするためのベンチマーク
自己進化エージェントは過去の失敗を反映することで時間の経過とともに改善しますが、既存の評価には 2 つの点で制限があります。1 つはタスク スコアのみを測定し、反映品質は不明のままにすること、もう 1 つはエージェント自身のエピソードの実行に依存しており、特定の失敗パターンを対象にするメカニズムを提供していないことです。 LLM エージェントの自己進化能力を評価するためのベンチマークである \textbf{BenchTrace} を紹介します。 BenchTrace は、6 つの多様なタスクにわたる 1,821 の注釈付きエピソードのスナップショット反映データセットに基づいて構築されており、ターゲットを絞った QA タスクを通じて障害の特定を調査する \textbf{反映評価} と、制御された自己進化シミュレーションで過去の障害経験が回避行動に変換されるかどうかをテストする \textbf{進化評価} で構成されます。 BenchTrace に基づいて、エージェントがターゲットの障害インスタンスを回避できたテスト ケースの割合を測定する新しい評価指標である \textbf{障害回避率 (FAR)} を提案します。 Qwen3-32B と GPT-4.1 を使った実験では、どちらのモデルもリフレクション評価でエンドツーエンドの合格率が 30\% を下回り、診断が主なボトルネックであることが明らかになりました。進化の評価では、自己進化手法は一般に非進化ベースラインよりもFARを改善しますが、エージェントはノイズエピソードが蓄積するにつれて初期のレッスンを忘れ、エージェントは特定のコンテキストを超えて反省を一般化することができず、タスクコンテキスト間で負の転移を引き起こすことが示されています。さらに、相関分析により、完全に正しい反射のみが高い FAR と強く関連していることが明らかになりました。 BenchTrace は、現在の自己進化アプローチの具体的な限界を明らかにし、対象を絞った評価のための制御されたモデルに依存しないフレームワークを提供します。
原文 (English)
BenchTrace: A Benchmark for Testing Reflection Ability and Controlled Evolution in LLM Agents
Self-evolving agents improve over time by reflecting on past failures, but existing evaluation is limited in two ways: it measures only task scores, leaving reflection quality unknown, and it relies on agents' own episode runs, offering no mechanism to target specific failure patterns. We present \textbf{BenchTrace}, a benchmark for evaluating self-evolution ability in LLM agents. BenchTrace is built on a snapshot-reflection dataset of 1,821 annotated episodes spanning six diverse tasks, and comprises a \textbf{Reflection Evaluation} that probes failure identification through targeted QA tasks, and an \textbf{Evolution Evaluation} that tests whether past failure experience translates into avoidance behavior in a controlled self-evolution simulation. Building on BenchTrace, we propose \textbf{failure avoidance rate (FAR)}, a new evaluation metric measuring the fraction of test cases in which the agent successfully avoids the target failure instance. Experiments with Qwen3-32B and GPT-4.1 reveal that both models fall below a 30\% end-to-end pass rate on reflection evaluation, with diagnosis as the primary bottleneck. Evolution evaluation shows that self-evolution methods generally improve FAR over the non-evolving baseline, but agents forget early lessons as noise episodes accumulate, and agents fail to generalize their reflections beyond the specific context, causing negative transfer across task contexts. Our correlation analysis further reveals that only a fully correct reflection is strongly associated with higher FAR. BenchTrace exposes concrete limits of current self-evolution approaches and provides a controlled, model-agnostic framework for targeted evaluation.
文献検索の評価を再考する: 深い調査は役に立ちますが、人間の引用リストは根拠のある真実ではありません
私たちは、検索パイプラインの改善と評価対象としての人による参照リストのストレステストという 2 つの相補的な角度から大規模な文献検索を研究しています。まず、完全なクエリ論文を処理し、取得した結果を文献目録に沿って幅優先で拡張する Deep Research パイプラインを実装します。このパイプラインが通常の API のみの検索を大幅に上回り、RollingEval-Jun25 (論文 250 件の文献検索ベンチマーク) の再現率が 20% 未満から 80% 以上に上昇することを示します。 2 番目に、中立的な LLM を判断者として使用して、人間の参照がタスクに対する健全な根拠であるかどうかを判断します。私たちは重大な限界を発見しました。人間による引用のうち、中等度以上の関連性があると判断されたのは 51% のみであったのに対し、最も強力な AI ベースの再ランカーでは 86 ~ 88% でした。 OpenAlex の共著グラフでこのギャップを調査したところ、人間は AI の再ランク付けを行う最も優れた人よりも直接の協力者を引用する可能性が 2.5 倍高いことがわかりました。まとめると、我々の結果は単一軸の文献検索評価に反対している。つまり、想起率、話題関連性スコアリング、ランクリストの多様性、および共著距離診断は、それぞれ引用の質の相補的な特性を測定するものであり、併せて報告されるべきである。
原文 (English)
Rethinking Literature Search Evaluation: Deep Research Helps, and Human Citation Lists Are Not a Ground Truth
We study large-scale literature search from two complementary angles: improving the retrieval pipeline, and stress-testing the human reference list as an evaluation target. First, we implement a Deep Research pipeline that processes the full query paper and expands the retrieved results breadth-first along their bibliographies, and show that it substantially outperforms vanilla API-only search, raising recall on RollingEval-Jun25 (a 250-paper literature-search benchmark) from below 20% to above 80%. Second, we use a neutral LLM-as-a-judge to determine if human references are sound ground truth for the task. We find significant limitations: only 51% of human citations are judged moderately relevant or higher, against 86--88% for the strongest AI-based re-rankers. We study this gap on the OpenAlex co-authorship graph, finding that humans are 2.5x more likely than the best AI re-rankers to cite a direct collaborator. Together, our results argue against single-axis literature-search evaluation: recall, topical-relevance scoring, ranked-list diversity, and a co-authorship-distance diagnostic each measure complementary properties of citation quality and should be reported jointly.
MiraBench: ロボット世界モデルにおける動作条件付き信頼性の評価
アクション条件付き世界モデルは、ロボット学習用のスケーラブルなシミュレーターとしてますます使用されていますが、現在の評価では、条件付けされたアクションの下でその予測が信頼できるという限られた証拠が提供されています。既存のベンチマークは主に視覚的な忠実度を重視しており、予測される未来が物理的に妥当であるか、命令されたアクションに忠実であるか、アクションが成功しないはずのときに失敗するように調整されているかどうかが不明確なままです。 \emph{動作条件付き信頼性} をロボット世界モデルの中核的な評価目標として定義する階層型ベンチマークである \textsc{MiraBench} を紹介します。 MiraBench は、このターゲットを 3 つの段階的に要求の高いレベルに分解します。 \emph{Physics Adherence} は、リファレンスフリーの物理的一貫性を評価します。 \emph{Action-Following Fidelity}: 予測がタスク関連のアクション入力を考慮しているかどうかを測定します。 \emph{楽観主義バイアス検出} は、失敗を誘発する行動の下で成功した結果を予測する傾向を調査します。この評価をサポートするために、タスク、失敗カテゴリ、主要な世界モデルにわたる 16,000 件を超える判断を含む人間による注釈付きコーパスを厳選しました。ベクトル条件付きロボット ワールド モデル、テキスト条件付き生成ワールド モデル、オープンウェイト システム、クローズド ソース システム、および複数のモデル スケールにわたる 12 の代表的なモデル構成を評価します。この広範なモデル環境全体にわたって、MiraBench は 3 つの中心的な発見を明らかにしました。視覚的な忠実度は、アクションの忠実度の代用としては不十分です。モデルのスケールを大きくしても、アクションの追従性が確実に改善されるわけではありません。そして楽観主義バイアスは現在のシステム全体に蔓延しています。 MiraBench は、評価を外観から動作条件付きの信頼性に移行することで、ロボットの世界モデルを忠実なシミュレーターとして評価および改善するための診断基盤を提供します。
原文 (English)
MiraBench: Evaluating Action-Conditioned Reliability in Robotic World Models
Action-conditioned world models are increasingly used as scalable simulators for robot learning, yet current evaluations provide limited evidence that their predictions are reliable under the actions they condition on. Existing benchmarks largely emphasize visual fidelity, leaving unclear whether predicted futures are physically plausible, faithful to commanded actions, and calibrated to failure when actions should not succeed. We introduce \textsc{MiraBench}, a hierarchical benchmark that defines \emph{action-conditioned reliability} as a core evaluation target for robotic world models. MiraBench decomposes this target into three progressively demanding levels: \emph{Physics Adherence}, which evaluates reference-free physical consistency; \emph{Action-Following Fidelity}, which measures whether predictions respect task-relevant action inputs; and \emph{Optimism Bias Detection}, which probes the tendency to predict successful outcomes under failure-inducing actions. To support this evaluation, we curate a human-annotated corpus with over 16,000 judgments across tasks, failure categories, and leading world models. We evaluate 12 representative model configurations spanning vector-conditioned robotic world models, text-conditioned generative world models, open-weight systems, closed-source systems, and multiple model scales. Across this broad model landscape, MiraBench reveals three central findings: visual fidelity is a poor proxy for action fidelity; increasing model scale does not reliably improve action following; and optimism bias is pervasive across current systems. By shifting evaluation from appearance to action-conditioned reliability, MiraBench provides a diagnostic foundation for assessing and improving robotic world models as faithful simulators.
エージェントによる修正と意味評価による人間のような対話型音声認識を目指して
自動音声認識 (ASR) は、人間とコンピューターの対話の中核コンポーネントであり、LLM ベースのアシスタントおよびエージェントにとってますます重要なフロントエンドです。しかし、現在のほとんどの ASR システムは依然としてシングルパス パラダイムに従っており、人間のコミュニケーションとの整合性が低く、誤解は繰り返しの明確化と改良によって解決されます。この不一致により、意味に関わる重大なエラーが発生すると、修正することが困難になります。一方、WER や CER などのトークンレベルの指標は、このような問題を適切に反映できません。これらの制限に対処するために、\emph{Interactive ASR} をマルチターン改良タスクとして定式化し、シングルパス ASR フロントエンドとセマンティック修正、インテント ルーティング、推論ベースの編集を組み合わせた閉ループ フレームワークである \textbf{Agentic ASR} を提案します。さらに、LLM ベースのセマンティック評価指標である \textbf{文レベルのセマンティック エラー率} ($S^2ER$) を、スケーラブルで再現可能なベンチマークのための \textbf{インタラクティブ シミュレーション システム} とともに導入します。多言語、名前付きエンティティ集中型、およびコードスイッチングのベンチマークに関する実験では、反復的な対話によりセマンティック エラーが一貫して減少し、従来のトークン レベルのメトリクスよりも $S^2ER$ が大幅に増加することが示されました。人間と AI のアライメントとアブレーションの研究により、意味判断の信頼性と提案されたフレームワークの堅牢性がさらに検証されました。コードは https://interactiveasr.github.io/ で入手でき、ライブ デモは https://i-asr.sjtuxlance.com/ で入手できます。
原文 (English)
Towards Human-Like Interactive Speech Recognition With Agentic Correction and Semantic Evaluation
Automatic speech recognition (ASR) is a core component of human--computer interaction and an increasingly important front-end for LLM-based assistants and agents. However, most current ASR systems still follow a single-pass paradigm, which is poorly aligned with human communication, where misunderstandings are resolved through iterative clarification and refinement. This mismatch makes it difficult to correct meaning-critical errors once they occur. Meanwhile, token-level metrics such as WER or CER cannot adequately reflect such a problem. To address these limitations, we formulate \emph{Interactive ASR} as a multi-turn refinement task and propose \textbf{Agentic ASR}, a closed-loop framework that combines a single-pass ASR front-end with semantic correction, intent routing, and reasoning-based editing. We further introduce the \textbf{Sentence-level Semantic Error Rate} ($S^2ER$), an LLM-based semantic evaluation metric, together with an \textbf{Interactive Simulation System} for scalable and reproducible benchmarking. Experiments on multilingual, named-entity-intensive, and code-switching benchmarks show that iterative interaction consistently reduces semantic errors, with much larger gains in $S^2ER$ than in conventional token-level metrics. Human--AI alignment and ablation studies further validate the reliability of the semantic judge and the robustness of the proposed framework. The code is available at: https://interactiveasr.github.io/ and the live demo is available at https://i-asr.sjtuxlance.com/
TRACE: LLM CoT 評価の構成要素によるトゥールミンベースの推論評価
大規模言語モデル (LLM) からのオープンエンドの出力を評価することは、グランド トゥルースがないため依然として困難です。既存の指標は、最終的な答えの精度や表面レベルの統計に依存しており、推論プロセス自体は検討されていません。思考連鎖 (CoT) 推論プロセスを分析する指標である TRACE (Toulmin-based Reasoning Assessment through Constructive Elements) を紹介します。 TRACE は、結果を判断するのではなく、トゥールミンの議論理論とフラベルのメタ認知フレームワークを統合して推論の構造を評価することにより、議論がどのように構築されるかを検査します。 7 つの推論モデルにわたる 26.3K の QA サンプルの実験では、ベンチマーク精度 (r=0.74) との強い相関関係が示されています。さらに、TRACE は強化学習の報酬信号として効果的であり、精度のみのベースラインを上回ります。これらの結果を総合すると、論理的に健全な推論がより質の高い答えにつながることを示しています。したがって、TRACE は、オープンエンド出力を評価するための補足的なメトリックとして機能します。コードは https://github.com/hyyangkisti/trace で入手できます。
原文 (English)
TRACE: Toulmin-based Reasoning Assessment through Constructive Elements for LLM CoT Evaluation
Evaluating open-ended outputs from large language models (LLMs) remains challenging due to the absence of ground truth. Existing metrics rely on final-answer accuracy or surface-level statistics, leaving the reasoning process itself unexamined. We introduce TRACE (Toulmin-based Reasoning Assessment through Constructive Elements), a metric that analyzes Chain-of-Thought (CoT) reasoning processes. Rather than judging outcomes, TRACE inspects how arguments are constructed by integrating Toulmin's argumentation theory with Flavell's metacognitive framework to assess reasoning structure. Experiments on 26.3K QA samples across 7 reasoning models show strong correlation with benchmark accuracy (r=0.74). Furthermore, TRACE is effective as a reinforcement learning reward signal, outperforming accuracy-only baselines. Together, these results indicate that logically sound reasoning leads to higher-quality answers. TRACE thus serves as a complementary metric for evaluating open-ended outputs. Code is available at https://github.com/hyyangkisti/trace.
スペシャリスト モデルが依然として重要な理由: 医療用人工知能のための異種マルチエージェント パラダイム
医療分野における GPT や Claude などの汎用大規模言語モデル (LLM) の優れたパフォーマンスは、領域固有の医療専門家モデルは時代遅れになるのだろうかという重大な疑問を引き起こしています。私たちは、医療用人工知能 (AI) の将来は、モノリシックな医療基盤モデルの構築や人間の専門知識の置き換えにあるのではなく、ジェネラリストの LLM、領域固有の専門家モデル、および臨床医の間のコラボレーションを調整することにあると主張します。我々は、矛盾を認識した証拠の融合、不確実性に基づく臨床医の介入トリガー、および適応閾値キャリブレーションを可能にする異種医療マルチエージェントフレームワークである HetMedAgent を提案します。 3 つの実際の臨床意思決定タスクに関する実験では、ジェネラリスト LLM と領域固有の専門家モデルの間の相乗効果が、どちらかのタイプのモデルを単独で使用した場合よりも大幅に優れていることが実証され、モダリティ固有の分析における専門家モデルのかけがえのない価値が検証されました。 HetMedAgent は、医療 LLM または基盤モデルの構築から複数エージェントのコラボレーションへの移行を表し、一般的な推論機能とドメイン固有の精度のバランスを実現します。
原文 (English)
Why Specialist Models Still Matter: A Heterogeneous Multi-Agent Paradigm for Medical Artificial Intelligence
The impressive performance of generalist large language models (LLMs) such as GPT and Claude in healthcare raises a critical question: will domain-specific medical specialist models become obsolete? We argue that the future of medical artificial intelligence (AI) lies not in building monolithic medical foundation models, nor in replacing human expertise, but in orchestrating collaboration among generalist LLMs, domain-specific specialist models, and clinicians. We propose HetMedAgent, a heterogeneous medical multi-agent framework that enables conflict-aware evidence fusion, uncertainty-based clinician intervention triggering, and adaptive threshold calibration. Experiments on three real-world clinical decision-making tasks demonstrate that the synergy between generalist LLMs and domain-specific specialist models significantly outperforms using either type of model alone, validating the irreplaceable value of specialist models in modality-specific analysis. HetMedAgent represents a shift from building medical LLMs or foundation models to multi-agent collaboration, achieving a balance between general reasoning capabilities and domain-specific precision.
クロワッサン タスク: 再現可能な機械学習評価のためのメタデータ形式
再現性は科学的手法の基本ですが、機械学習においては依然として重要な課題です。原因としては、実行詳細の指定不足や脆弱なソフトウェア環境などが挙げられます。チェックリストや手動検証などの人間中心の救済策は役立ちますが、集中的な努力が必要であり、拡張することができません。これに対処するために、Croissant Tasks を導入します。これは、低レベルの実装の詳細を高レベルの仕様に抽象化する、宣言的でマシンアクション可能なメタデータ形式です。この形式により、概念的な再現性が可能になります。つまり、脆弱なソース コードの複製ではなく、独立したエージェント生成の実装を通じて主張を検証できます。私たちは以下に貢献しています。(1) Croissant Tasks 仕様。タスクの問題を解決策から正式に切り離します。 (2) 既存のベンチマークをこの形式に改良する自動 LLM パイプライン。 (3) 自律エージェントがこれらの仕様を取り込んで、機能的で正確な再現パイプラインを最初から生成できることを示す経験的検証。私たちはこの形式を、機械学習における自動化された概念的な再現性のための新しい基盤として構想しています。
原文 (English)
Croissant Tasks: A Metadata Format for Reproducible Machine Learning Evaluations
Reproducibility is fundamental to the scientific method, yet remains a critical challenge in machine learning. Contributing factors include underspecified execution details and brittle software environments. Human-centric remedies, such as checklists and manual verification, help but require intensive effort and fail to scale. To address this, we introduce Croissant Tasks: a declarative, machine-actionable metadata format that abstracts low-level implementation details into high-level specifications. This format enables conceptual reproducibility: verifying claims via independent, agent-generated implementations rather than brittle source code replication. We contribute: (1) the Croissant Tasks specification, formally decoupling task problem from solution; (2) an automated LLM pipeline that retrofits existing benchmarks into this format; and (3) empirical validation showing autonomous agents can ingest these specifications to generate functional, accurate reproduction pipelines from scratch. We envision this format as a new foundation for automated and conceptual reproducibility in machine learning.
Cookie-Bench: Web 生成のための継続的なオンスクリーンキーインタラクション評価
フロントエンドの Web コードは、すべてのフロンティア LLM リリースの中核的な製品面となっていますが、アリーナのような人間が判断するリーダーボードは拡張できないため、これらのインタラクティブ アプリケーションを開発スピードで評価することは依然としてコストがかかります。既存の自動プロキシは通常、リファレンス実装、テスト スイート、または厳密なチェックリストに依存しており、人間のレビュー担当者がライブ セッションで実行する合理的な合成を見逃す傾向があります。私たちは、同時に参照フリーで、自律的に駆動され、総合的に推論される新しい評価体制を明確にし、2 つの成果物を通じてそれをインスタンス化します。 \textbf{\dataname} は、静的プレゼンテーション タスクと対話型アプリケーション タスクの両方にまたがる 11 ドメイン、54 リーフ、1,000 クエリの WebDev ベンチマークであり、3 つの難易度層と 3 つのターゲット言語グループにわたってバランスが取れており、回覧されたプロンプトから思い出せないようにブリーフが書き直されています。 \textbf{\framename} は、Flavell のメタ認知モニタリングに基づいており、証拠の蓄積と判断を 3 つの段階にわたって分離します。静的な知覚は受動的な観察から第一印象を形成します。エージェント駆動のインタラクションは、連続画面のビデオ、音声、およびステップごとのスクリーンショットをキャプチャしながら、アプリケーションを自律的に探索します。動的スコアリングは、証拠チェーンが完了した後にのみ、構造化された失敗の帰属を伴う全体的な機能性と美的判断を発行します。 \dataname では、\framename は専門家による評価と厳密に一致しており、インタラクティブな Web 生成に関して 13 のフロンティア LLM 全体でかなりのヘッドルームを表面化しています。 \noindenthttps://anonymous.4open.science/r/Cookie-3CE/
原文 (English)
Cookie-Bench: Continuous On-screen Key Interaction Evaluation for Web Generation
Front-end web code has become a core product surface for every frontier LLM release, yet evaluating these interactive applications at development speed remains costly because human-judged leaderboards like Arena do not scale. Existing automated proxies typically lean on reference implementations, test suites, or rigid checklists, and tend to miss the reasoned synthesis a human reviewer performs over a live session. We articulate a new evaluation regime that is simultaneously reference-free, autonomously driven, and holistically reasoned, and instantiate it through two artifacts. \textbf{\dataname} is an 11-domain, 54-leaf, 1,000-query WebDev benchmark spanning both static-presentation and interactive-application tasks, balanced across three difficulty tiers and three target-language groups, with briefs rewritten to resist recall from circulated prompts. \textbf{\framename}, grounded in Flavell's metacognitive monitoring, separates evidence accumulation from judgment across three stages: Static Perception forms a first impression from passive observation; Agent-Driven Interaction explores the application autonomously while capturing continuous screen video, audio, and per-step screenshots; Dynamic Scoring issues holistic functionality and aesthetics verdicts with structured failure attribution only after the evidence chain is complete. On \dataname, \framename aligns closely with expert human ratings while surfacing substantial headroom across 13 frontier LLMs on interactive web generation. \noindenthttps://anonymous.4open.science/r/Cookie-3CE/
RAISE: アーキテクチャ検索問題としての RAG 設計
検索拡張生成 (RAG) システムでは、クエリの書き換え、チャンキング、検索の深さ、再ランキング、およびコンテキスト圧縮に及ぶ数多くの設計上の選択肢が明らかになります。実際には、これらの選択はヒューリスティックによって構成されることが多く、設定全体での体系的な評価と再現性が妨げられます。私たちは、この課題は RAG アーキテクチャの検索として定式化するのが最適であると主張します。この問題の制御された再現可能な研究をサポートするために、RAG ハイパーパラメータ最適化の包括的なフレームワークおよびベンチマークである RAG Intelligence Search Engine (RAISE) を導入します。これは、標準化された検索スペースと予算の下で RAG パイプラインの最適化方法を評価します。 RAISE は 13 の検索アルゴリズムを実装し、3 つのランダム シードを使用して 7 つのパブリック テキストおよびマルチモーダル データセットにわたってそれらを評価します。私たちの実験は、最適化のパフォーマンスがタスクに大きく依存することを示しています。つまり、あるデータセットで優れたパフォーマンスを発揮する手法が、他のデータセットでは一貫して一般化できない可能性があり、集計されたランキングを普遍的に優れた戦略の証拠として解釈することには注意が必要です。 RAISE は、RAG ハイパーパラメータの最適化に関する公正で再現性のある体系的な研究のための共通の実験基盤を提供します。
原文 (English)
RAISE: RAG Design as an Architecture Search Problem
Retrieval-augmented generation (RAG) systems expose numerous design choices spanning query rewriting, chunking, retrieval depth, reranking, and context compression. In practice, these choices are often configured through heuristics, hindering systematic evaluation and reproducibility across settings. We argue that this challenge is best formulated as RAG architecture search. To support controlled and reproducible study of this problem, we introduce the RAG Intelligence Search Engine (RAISE), a comprehensive framework and benchmark for RAG hyperparameter optimization, which evaluates optimization methods for RAG pipelines under standardized search spaces and budgets. RAISE implements 13 search algorithms and evaluates them across seven public text and multimodal datasets using three random seeds. Our experiments show that optimization performance is highly task-dependent: methods that perform strongly on one dataset may not generalize consistently across others, cautioning against interpreting aggregate rankings as evidence of universally superior strategies. RAISE provides a common experimental substrate for fair, reproducible, and systematic research on RAG hyperparameter optimization.
矛盾する複数ソースの個人記憶に対する選択的 QA: 診断テストベッドと手法の比較
新興のパーソナル AI エージェントは、永続的なマルチソース メモリに移行しています。これにより、評価上の問題が生じます。システムは、矛盾する証拠や不完全な証拠をどのように使用するかを決定する必要があります。 1 つのきれいな歴史から事実を引き出すことはできません。既存のベンチマークでは、エラーがメソッドに与えられた証拠に起因するのか、メソッドの競合解決ステップに起因するのかを示すことはほとんどありません。私たちはこれを、矛盾する複数ソースの個人記憶に対する選択的 QA として研究しています。システムは、矛盾する、場合によっては不完全なソースに基づいて回答するか、証拠が不十分な場合は棄権します。 8 つの推論タイプにわたる 18 の質問テンプレート、480 のペルソナ、4 つのランダム シード、および 34,560 のインスタンスを含むベンチマークを、制御されたソースの歪みと決定論的なグラウンド トゥルースを使用して開発しました。ソースへのアクセスなし、単一ソースへのアクセス、構造化融合手法、およびフロンティア LLM のベースラインのパフォーマンスを評価します。最もよく訓練されたフュージョン リゾルバーの精度は 80.3% に達し、最も強力なプロンプトのみの LLM ベースラインは 70.0% に達します。棄権すると、同じリゾルバはカバレッジ 78.3% で選択精度 85.3% に達し、最良の LLM はカバレッジ 95.4% で選択精度 71.0% に達します。モデルが異なれば、推論タイプごとに異なる強みがあります。データ、コード、キャッシュされたモデル出力、およびデータ生成プロセスを再利用のためにリリースします。
原文 (English)
Selective QA over Conflicting Multi-Source Personal Memory: A Diagnostic Testbed and Method Comparison
Emerging personal AI agents are moving toward persistent, multi-source memory. This creates an evaluation problem: systems must decide how to use conflicting or incomplete evidence; they cannot just retrieve facts from one clean history. Existing benchmarks rarely show whether an error came from the evidence given to a method or from the method's conflict-resolution step. We study this as selective QA over conflicting multi-source personal memory: systems answer based on conflicting, sometimes incomplete sources, or abstain when evidence is insufficient. We develop a benchmark containing 18 question templates across 8 reasoning types, 480 personas, 4 random seeds, and 34,560 instances, with controlled source distortions and deterministic ground truth. We evaluate the performance of baselines without access to any source, access to a single source, structured fusion methods, and frontier LLMs. The best trained fusion resolver reaches 80.3% accuracy, while the strongest prompt-only LLM baseline reaches 70.0%. With abstention, the same resolver reaches 85.3% selective accuracy at 78.3% coverage and the best LLM reaches 71.0% selective accuracy at 95.4% coverage. Different models have different strengths across reasoning types. We release the data, code, cached model outputs, and data-generating process for reuse.
BioRefusalAudit: 一般およびドメイン微調整されたスパース オートエンコーダーを使用したバイオセキュリティ拒否の深さの監査
言語モデルのバイオセキュリティ評価では通常、モデルが危険な出力を生成するかどうかが問われます。この論文は補足的な質問をします。モデルが拒否した場合、その拒否は構造的に正しいのでしょうか、それともフレーミング、フォーマット、または出力長を促すための適度な変更で消えるのでしょうか? 5 つのアーキテクチャにわたって、無害性と危険性を明確に区別したモデルはありませんでした。 Gemma 2 2B-IT は、75 件のプロンプトにわたって真に拒否することはなく、危険に隣接するすべてのクエリを回避しました。 Gemma 4 E2B-IT は、チャット テンプレート形式を使用した場合は 65/75 件のプロンプトを拒否し、チャット テンプレート形式を使用しない場合は 0/75 件のプロンプトを拒否しました。両方の Gemma モデルは、80 トークンの上限の下で 0% に崩壊しました。 Qwen 2.5 1.5B と Phi-3-mini は過剰に拒否され、良性生物学の 83 ~ 87% が危険であると警告されました。 Llama 3.2 1B は唯一の意味のある Tier 勾配 (61 ポイントの広がり) を示しました。何がそのような過剰な拒否を引き起こすのかを調査するために、我々はスケジュールIであるが生物学的に無毒な化合物(特にFDA画期的治療法のステータスを持つシロシビン培養)のパネルをテストしました。一部のモデルは、真に有害な生物学を超える割合でこれらを拒否しており、拒否がCBRNの危険性に対する合法性と文化的顕著性を追跡していることを示唆しています。内部側を測定するために、モデルの表面応答ラベルを内部のスパース オートエンコーダー (SAE) 特徴のアクティベーションと比較する発散スコア D を導入します。フル D は、Gemma 2 2B-IT (Gemma Scope 1) および Gemma 4 E2B-IT (著者が訓練したバイオ SAE) で計算されました。 2 つの微調整された Gemma 2 ドメイン SAE がリリースされました。 Gemma 4 では、狭いカタログ、サンプル内キャリブレーション、および Gemma ファミリーのみの SAE 範囲を使用して、重複なし (n=75) で 0.647 ポイントのギャップで応答と拒否の応答が分離されますが、これは暫定的なものです。消費者向けハードウェア (GTX 1650 Ti Max-Q、および SAE トレーニング用の Colab T4) での 1 つのハッカソン週末にわたって構築されたこの予備的な証拠は、アクティベーション レベルの監査によって、アーキテクチャ間で大幅に異なる、動作評価では見えない障害モードが表面化する可能性があることを示唆しています。
原文 (English)
BioRefusalAudit: Auditing Biosecurity Refusal Depth Using General and Domain-Fine-Tuned Sparse Autoencoders
Biosecurity evaluations of language models typically ask whether models produce hazardous output. This paper asks a complementary question: when a model refuses, is that refusal structurally sound, or does it disappear under modest changes to prompt framing, formatting, or output length? Across five architectures, no model cleanly discriminated benign from hazard. Gemma 2 2B-IT never genuinely refused across 75 prompts, hedging on every hazard-adjacent query. Gemma 4 E2B-IT refused 65/75 prompts with chat-template formatting and 0/75 without it. Both Gemma models collapsed to 0% under an 80-token cap. Qwen 2.5 1.5B and Phi-3-mini over-refused, flagging 83-87% of benign biology as hazardous. Llama 3.2 1B showed the only meaningful tier gradient (61-point spread). To probe what drives such over-refusal, we tested a panel of Schedule I but biologically non-toxic compounds (notably psilocybin cultivation, with FDA Breakthrough Therapy status). Some models refused these at rates exceeding genuinely hazardous biology, suggesting refusal tracks legality and cultural salience over CBRN hazard. To measure the internal side, we introduce a divergence score D comparing a model's surface response label to its internal sparse autoencoder (SAE) feature activations. Full D was computed on Gemma 2 2B-IT (Gemma Scope 1) and Gemma 4 E2B-IT (author-trained bio SAE). Two fine-tuned Gemma 2 domain SAEs were released. On Gemma 4, comply and refuse responses separated by a 0.647-point gap with zero overlap (n=75), though this is preliminary, with a narrow catalog, within-sample calibration, and Gemma-family-only SAE coverage. Built over one hackathon weekend on consumer hardware (GTX 1650 Ti Max-Q, plus Colab T4 for SAE training), this preliminary evidence suggests activation-level auditing may surface failure modes invisible to behavioral evaluation, with substantial variation across architectures.
オープンソースの安全ガード モデルのベンチマーク: 包括的な評価
安全性が重要なアプリケーションに大規模言語モデル (LLM) が導入されることが増えているため、堅牢なコンテンツ モデレーションが不可欠になっています。 NIST AI リスク フレームワークの 8 つの安全カテゴリにまたがる 79,331 サンプルの厳選されたベンチマークに基づく 14 のオープンソース安全ガード モデルの包括的な評価を示します。当社のベンチマークは 4 つの多様なデータセット (HarmBench、StrongREJECT、RealToxicityPrompts、BeaverTails) を集約し、安全関連のコンテンツ (暴力、ヘイトスピーチ、嫌がらせ、性的コンテンツ、自殺/自傷行為、冒涜、脅迫、健康上の誤った情報) のみに焦点を当てるようにフィルタリングされています。有害なコンテンツの欠落は誤検知よりも大きなリスクをもたらすため、リコールは安全性アプリケーションにとって重要な指標であることがわかりました。私たちの評価では、驚くべき結果が明らかになりました。Qwen Guard (4B パラメーター) は最高の再現率 (83.97%) を達成しましたが、Llama Guard (12B) や GPT-OSS Safeguard (20B) などのより大きなモデルは保守的な動作を示し、安全でないコンテンツを最大 75% 見逃しました。我々は、モデルのサイズが安全検出のパフォーマンスと相関しないこと、および汎用のガード モデルが特殊なガード モデルよりも優れていることを実証します。これらの調査結果は、実稼働環境での安全装置モデルを選択するための実践的なガイダンスを提供します。
原文 (English)
Benchmarking Open-Source Safety Guard Models: A Comprehensive Evaluation
As Large Language Models (LLMs) are increasingly deployed in safety-critical applications, robust content moderation becomes essential. We present a comprehensive evaluation of 14 open-source safety guard models on a curated benchmark of 79,331 samples spanning 8 NIST AI Risk Framework safety categories. Our benchmark aggregates four diverse datasets (HarmBench, StrongREJECT, RealToxicityPrompts, and BeaverTails), filtered to focus exclusively on safety-relevant content (violence, hate speech, harassment, sexual content, suicide/self-harm, profanity, threats, and health misinformation). We find that recall is the critical metric for safety applications, as missing harmful content poses greater risk than false positives. Our evaluation reveals surprising results: Qwen Guard (4B parameters) achieves the highest recall (83.97%) while larger models like Llama Guard (12B) and GPT-OSS Safeguard (20B) exhibit conservative behavior, missing up to 75% of unsafe content. We demonstrate that model size does not correlate with safety detection performance and that general-purpose guard models outperform specialized ones. These findings provide practical guidance for selecting safety guard models in production deployments.
GPF-LiveNews: 大規模言語モデルにおけるグループ条件付きフレーミングのためのストリーミング評価プロトコル
デプロイされた言語モデルは非定常環境で評価されます。モデルのバージョン、検索レイヤー、安全システム、現実世界の入力はすべて時間の経過とともに変化します。静的バイアスのベンチマークは依然として有用ですが、モデルがさまざまな刺激を受けた視聴者に対して新たに出現したイベントをどのように組み立てるかは示していません。オープンエンド LLM 出力のグループ条件付きフレーミングを監査するためのストリーミング評価プロトコルおよびベンチマーク スナップショットである GPF-LIVENEWS を紹介します。このプロトコルは、42 の ID ラベルと 7 つのプロンプト ファミリにわたって新鮮な BBC/ロイター ニュース アンカーを拡張し、その後、意味論的感度とセンチメント差異シグナルを使用して応答バンドルを評価します。 12 回のモニタリング実行と 23 個のホストされたモデルにわたるパイロットでは、ポリシー/アクション プロンプトが最も強力なセマンティックな動きを生成しますが、センチメントの変動はディメンションおよびプロンプト ファミリ全体でより平坦です。リリースされたアーティファクトには、記事のメタデータ、プロンプト テンプレート、インスタンス化されたプロンプト、モデル出力メタデータ、スコア テーブル、ドキュメント、および再現スクリプトが含まれます。私たちはすべてのスコアを、永続的な公平性ランキングや有害なバイアスの直接の証拠としてではなく、人間によるレビューのための監視窓監査シグナルとして解釈します。
原文 (English)
GPF-LiveNews: A Streaming Evaluation Protocol for Group-Conditioned Framing in Large Language Models
Deployed language models are evaluated in a non-stationary environment: model versions, retrieval layers, safety systems, and real-world inputs all change over time. Static bias benchmarks remain useful, but they do not show how models frame newly emerging events for different prompted audiences. We introduce GPF-LIVENEWS, a streaming evaluation protocol and benchmark snapshot for auditing group-conditioned framing in open-ended LLM outputs. The protocol expands fresh BBC/Reuters news anchors across 42 identity labels and seven prompt families, then evaluates response bundles using semantic-sensitivity and sentiment-disparity signals. In a pilot over 12 monitoring runs and 23 hosted models, Policy/Action prompts produce the strongest semantic movement, while sentiment variation is flatter across dimensions and prompt families. The released artifact includes article metadata, prompt templates, instantiated prompts, model-output metadata, score tables, documentation, and reproduction scripts. We interpret all scores as observed-window audit signals for human review, not as permanent fairness rankings or direct proof of harmful bias.
GrowLoop: 人間がシードし、自己進化する会話評価
大規模な言語モデルの急速な進歩に伴い、自由な会話における人間らしさを評価することがますます重要になってきています。しかし、人間らしさは人間が直感的に認識する暗黙知の一種ですが、根底にある基準は明示的な定式化に抵抗します。人間の判断は大きく異なり、一部のケースでは強い同意が得られますが、他のケースでは正当な意見の相違が見られます。一方、人間の判断の背後にある基準は暗黙的なままであり、事件を構築するための明確な根拠は残されていません。さらに、人間に似ているとみなされるものは静的なものではなく、モデルの能力と人間の期待に応じて進化します。専門家が作成したベンチマーク、報酬モデル、自己進化型ベンチマークなどの評価方法は進歩していますが、3 つの課題すべてに同時に対処できるものはありません。そこで、モデルの進歩やシナリオの変化に合わせて継続的に適応する、自己進化する会話評価システムである GrowLoop を提案します。最初の動きとして最小限の人間のシード アノテーションを使用して、LLM エージェントはヒューリスティック学習を通じて評価ルーブリックを繰り返し抽出し、改良します。アノテーターが集まる場合には人間と AI の合意が必要ですが、異なる場合には妥当性のみが期待されます。さらに、Rubric-Caseの共進化機構により、評価対象が移動した際に新たなシーズを介して拡張され、継続的な進化が可能となります。自由形式の会話における人間らしさの評価に適用すると、生成されたルーブリックは、人間の判断に沿って既存の手法を大幅に上回るだけでなく、アノテーターが見落としている問題も明らかになります。結果として得られるベンチマークは、機能層全体でモデルを効果的に識別し、どこが不足しているかを明らかにすると同時に、新しいシナリオに一般化し、モデルの進歩に合わせて適応します。私たちの取り組みは、ベンチマークのパラダイムを手動の更新や難易度のスケーリングから、包括的で継続的な自己進化へと移行させます。
原文 (English)
GrowLoop: Self-Evolving Conversation Evaluation Seeded by Human
With the rapid advancement of large language models, evaluating human-likeness in open-ended conversation has become increasingly important. However, human-likeness is a form of tacit knowledge that humans perceive intuitively, yet the underlying criteria resist explicit formulation. Human judgments vary widely, with strong agreement on some cases and legitimate disagreement on others. Meanwhile, the criteria behind human judgments remain implicit, leaving no clear basis for constructing cases. Further, what counts as human-like is not static, but evolving with model capability and human expectations. Despite progress in evaluation methods such as expert-authored benchmarks, Reward Models, and self-evolving benchmarks, none addresses all three challenges simultaneously. Therefore, we propose GrowLoop, a self-evolving conversation evaluation system that continuously adapts as models advance and scenarios shift. With minimal human seed annotations as the first mover, LLM agents iteratively extract and refine evaluation rubrics through Heuristic Learning. Human-AI agreement is required where annotators converge, while only plausibility is expected where they diverge. Moreover, the Rubric-Case co-evolution mechanism enables continuous evolution, expanded through new seeds when the evaluation target moves. Applied to human-likeness evaluation in open-ended conversation, the generated rubrics not only substantially outperform existing methods in alignment with human judgments, but also uncover issues that annotators overlook. The resulting benchmark effectively discriminates models across capability tiers and reveals where they fall short, while generalizing to new scenarios and adapting as models advance. Our work shifts the benchmarking paradigm from manual updates or difficulty scaling to comprehensive, continuous self-evolution.
LoRe: 反復グラフ ソルバー向けのステップごとのインタラクション バジェットを備えた適応型インタラクション評価ルーティング
組み合わせ最適化のための拡散ベースのニューラル ソルバーは、高密度のエッジ/因子相互作用を繰り返し再評価するため、実時間での推論が高価になり、大規模になるとメモリに制限されることがよくあります。多体物理学の計算手法にインスピレーションを得て、ステップごとの相互作用評価の予算設定を強制する、トレーニング不要の推論時間ドロップイン ラッパーである LoRe を導入します。各反復では、固定のスパース化 (静的 kNN グラフや静的など) を使用する代わりに、計算を競合性の高い相互作用または不確実性の高い相互作用に動的にルーティングすることで、相互作用の固定部分のみを評価します。マスク)。完全に包括的なエンドツーエンドの壁時計アカウンティングの下で、LoRe は最大独立集合 (MIS) 問題のスケーラビリティを大幅に向上させ、実行可能な推論をベースラインのメモリ不足制限を超えて $3\times$ 以上拡張し、$\sim 8\times$ の高速化と $\sim 12\times$ のピークメモリ削減を実現し、この体制でソリューションの品質は維持されます。大規模な巡回販売員問題 (TSP) に対するクロスタスクの汎用性と、トポロジーの変化に対するゼロショットの堅牢性を実証する LoRe は、$n=1000$ で $\sim 15\times$ の高速化を実現し、$44\times$ のメモリ削減と競争力のあるツアー品質を実現します。
原文 (English)
LoRe: Adaptive Interaction-Evaluation Routing with Per-Step Interaction Budgets for Iterative Graph Solvers
Diffusion-based neural solvers for combinatorial optimization repeatedly re-evaluate dense edge/factor interactions, making inference expensive in wall-clock time and often memory-bound at scale. Inspired by the computational methodologies of many-body physics, we introduce LoRe, a training-free, inference-time drop-in wrapper that enforces per-step interaction-evaluation budgeting: at each iteration, it evaluates only a fixed fraction of interactions by dynamically routing computation to high-conflict or high-uncertainty interactions, instead of using a fixed sparsification (e.g., static kNN graphs or static masks). Under fully inclusive end-to-end wall-clock accounting, LoRe substantially improves scalability on the Maximum Independent Set (MIS) problem, extending feasible inference more than $3\times$ beyond the baseline's out-of-memory limit, delivering a $\sim 8\times$ speedup and a $\sim 12\times$ peak-memory reduction, with solution quality preserved in this regime. Demonstrating cross-task generality on the large-scale Traveling Salesperson Problem (TSP) and zero-shot robustness to topology shifts, LoRe achieves a $\sim 15\times$ speedup at $n=1000$ with a $44\times$ memory reduction and competitive tour quality.
Toward Ethical Facial Age Estimation: A Generalized Zero-Shot Benchmark Without Training on Children's Data
Age estimation from facial images typically relies on training data that includes images of minors, a practice that raises serious ethical,…
DynSess: Dynamic Session-Level Evaluation and Optimization Framework for Role-Playing Agents
Role-playing with large language models is fundamentally a session-level task, requiring agents to sustain character identity and interacti…
Do Physics Foundation Models Learn Generalizable Physics? A Bias-Aware Benchmark Across Physical Regimes and Distribution Shifts
Recent physics foundation models claim general spatiotemporal forecasting ability, yet their evaluations often collapse performance into a…
Pocket-Dentist: On-Device Dental Image Understanding via Efficient Multimodal Large Language Models
Evaluations of dental vision-language models remain fragmented across datasets, task definitions and metrics, and often ignore their comput…
How Much Is a Dataset Worth? Scaling Laws, the Vendi Score, and Matrix Spectral Functions
Neural scaling laws appraise data through dataset size, while the Vendi Score uses quantum entropy to measure dataset value. We show both t…
Benchmarking Large Vision-Language Models on CFMME: A Comprehensive Chinese Financial Multimodal Evaluation Dataset
The emergence of Large Vision-Language Models (LVLMs) has substantially expanded model capabilities beyond text-only understanding, enablin…
Quotient DAGs for Off-Policy Evaluation:Forward-Flow Importance Sampling and Exact Slate Propensities
Off-policy evaluation estimates how a target policy would perform using data collected by a different behavior policy, which is crucial whe…
GUITestScape: Towards Open-set Evaluation on Exploratory GUI Testing
Exploratory GUI testing is a particularly demanding setting for MLLM agents: without predefined test scripts, an agent must autonomously na…
EviLink: Multi-Path Schema Linking with Uncertainty-Guided Evidence Acquisition for Large-Scale Text-to-SQL
Schema linking is a difficult and important step in large-scale Text-to-SQL, where systems must identify a compact yet sufficient schema co…
Honeyval: A Comprehensive Evaluation Framework for LLM-powered HTTP Honeypots
Honeypots are decoy systems mimicking real system components designed to defend against cyber attacks. Recently, LLMs increasingly serve as…
Audio Jailbreaks in Large Audio-Language Models: Taxonomy, Attack-Defense Analysis, and Cost-Aware Evaluation
Large Audio Language Models (LALMs) expand jailbreak risks from token-level prompting to the full speech perception-to-reasoning pipeline,…
MedCase-Structured: A Text-to-FHIR Dataset for Benchmarking Diagnostic Reasoning in Clinically Realistic EHR Settings
Large language models (LLMs) show promise for clinical reasoning and decision support, but evaluation in realistic, electronic health recor…
IntentScore: コンピュータ使用エージェントの意図条件付きアクションの評価
Computer-Use Agent (CUA) は、大規模な言語モデルを利用してデスクトップ環境で GUI 操作を実行しますが、アクションの品質を評価せずにアクションを生成するため、後続のステップに連鎖的に発生する不可逆的なエラーにつながります。私たちは、3 つのオペレーティング システムにわたる 398K のオフライン GUI インタラクション ステップから候補アクションをスコアリングすることを学習する、プランを認識した報酬モデルである IntentScore を提案します。 IntentScore は、状態とアクションの関連性に関する対照的な調整と、アクションの正しさに関するマージン ランキングという 2 つの相補的な目標を使用してトレーニングします。アーキテクチャ的には、各候補者の計画意図がアクション エンコーダーに埋め込まれ、同様のアクションを持つ候補者間で論理的根拠が異なるものを区別できるようになります。 IntentScore は、ホールドアウト評価で 97.5% のペア識別精度を達成します。トレーニング中にまったく見えない環境である OSWorld 上のエージェント S3 の再ランカーとしてデプロイされた IntentScore は、タスクの成功率を 6.9 ポイント向上させ、異種のオフライン軌跡から学習した報酬推定が、目に見えないエージェントとタスクの分布に一般化されることを示しています。
原文 (English)
IntentScore: Intent-Conditioned Action Evaluation for Computer-Use Agents
Computer-Use Agents (CUAs) leverage large language models to execute GUI operations on desktop environments, yet they generate actions without evaluating action quality, leading to irreversible errors that cascade through subsequent steps. We propose IntentScore, a plan-aware reward model that learns to score candidate actions from 398K offline GUI interaction steps spanning three operating systems. IntentScore trains with two complementary objectives: contrastive alignment for state-action relevance and margin ranking for action correctness. Architecturally, it embeds each candidate's planning intent in the action encoder, enabling discrimination between candidates with similar actions but different rationales. IntentScore achieves 97.5% pairwise discrimination accuracy on held-out evaluation. Deployed as a re-ranker for Agent S3 on OSWorld, an environment entirely unseen during training, IntentScore improves task success rate by 6.9 points, demonstrating that reward estimation learned from heterogeneous offline trajectories generalizes to unseen agents and task distributions.
Thinking Fast, Thinking Wrong: Intuitiveness Modulates LLM Counterfactual Reasoning in Policy Evaluation
Large language models (LLMs) are increasingly used for causal and counterfactual reasoning, yet their reliability in real-world policy eval…
SciHorizon-DataEVA: An Agentic System for AI-Readiness Evaluation of Heterogeneous Scientific Data
AI-for-Science (AI4Science) is increasingly transforming scientific discovery by embedding machine learning models into prediction, simulat…
CausaLab: AI 科学者向けのインタラクティブな因果発見のためのスケーラブルな環境
LLM エージェントによるインタラクティブな因果発見を評価するためのスケーラブルな環境である CausaLab を紹介します。以前の評価とは異なり、CausaLab では、エージェントが因果関係の証拠を使用して問題を解決できるかどうか、およびその答えが根底にある因果メカニズムに関する正しい仮説によって裏付けられているかどうかの両方を評価します。各エピソードではエージェントが合成実験室に配置されます。エージェントは以前の測定記録を受け取り、マニピュレーター結晶に介入し、同じ機構によって支配される保持されたリアクター結晶の共振周波数を予測します。隠されたデータ生成プロセスは、ランダムにサンプリングされた構造因果モデル (SCM) であるため、成功するには、事前の知識を思い出すのではなく、因果グラフと構造方程式の両方を回復する必要があります。 CausaLab には、エージェントの進化する SCM 仮説を記録するドメイン固有の言語も含まれており、軌跡を検査可能にしてグラウンド トゥルースと比較できるようになります。実験では、予測とメカニズム回復の間に永続的なギャップがあることが示されています。純粋に観測的な 6 ノード設定では、GPT-5.2-high はタスク精度 92% に達しますが、オールエッジ $F_1$ はわずか 0.471 です。この観察は、さまざまな相互作用戦略の探求をさらに動機づけます: 混合観察 - 介入戦略は構造忠実度を向上させます: 混合 6 ノード設定では、GPT-5.2-high はタスク精度とオールエッジ $F_1$ の両方で 80% を達成しました。しかし、純粋な介入戦略はタスクの精度とオールエッジ $F_1$ の両方においてパフォーマンスが低いため、強力なエージェントですら有益な介入を設計するのに苦労しています。私たちは、エージェントの主要な弱点として早期停止を特定し、仮説と過去のデータとの間の一貫性をモデルに検証するように依頼することが、この問題の軽減に役立つことを示します。したがって、CausaLab は予測の成功を因果関係の理解から切り離し、実験的因果推論者としての現在の LLM エージェントの限界を明らかにします。
原文 (English)
CausaLab: A Scalable Environment for Interactive Causal Discovery Toward AI Scientists
We introduce CausaLab, a scalable environment for evaluating interactive causal discovery by LLM agents. Unlike prior evaluations, CausaLab evaluates both whether an agent can solve a problem using causal evidence and whether its answer is grounded in a faithful recovered causal mechanism. Each episode places an agent in a synthetic laboratory: it receives prior measurement records, intervenes on a manipulator crystal, and predicts the resonance frequency of a held-out reactor crystal governed by the same mechanism. The hidden data-generating process is a randomly sampled structural causal model (SCM), so success requires recovering both a causal graph and structural equations rather than recalling prior knowledge. Experiments show a persistent gap between prediction and mechanism recovery: in the purely observational 6-node setting, GPT-5.2-high reaches 92% task accuracy but only 0.471 all-edge $F_1$. Mixed observation-intervention strategies improve structural fidelity, while pure intervention remains difficult even for strong agents. We identify premature stopping as a major weakness and show that consistency verification mitigates it. CausaLab therefore separates predictive success from causal understanding and exposes current LLM agents' limits as experimental causal reasoners.
FundaPod: AI 支援のファンダメンタル投資調査のためのナレッジ グラフ メモリを備えたマルチペルソナ エージェント ポッド プラットフォーム
大規模言語モデル (LLM) は金融分野での適用が増えていますが、既存の研究のほとんどは取引シグナルや予測を中心とした財務 NLP タスクに重点を置いています。対照的に、制度的基礎研究では、人間のアナリストまたは AI エージェントが証拠を収集し、ビジネス推進要因を特定し、競合する視点を比較し、投資メモを作成する必要があります。その広範な目標は、単に結果を予測することではなく、投資知識の累積的な発展に貢献しながら、透明性、再利用可能、検証可能な投資計画を作成することです。 AI 支援のファンダメンタルズ投資調査のためのマルチペルソナ エージェント プラットフォームである FundaPod を紹介します。私たちは、基礎研究は人間中心の意思決定支援タスクであり、取引シグナルの生成とは質的に異なるため、独立性を維持するアーキテクチャの方が適していると主張します。 FundaPod では、バリュー投資家やマクロ戦略家など、さまざまなペルソナを持つ AI エージェントが、共有の出所契約に基づいて独立して調査を実施します。その後、彼らの意見の相違は、知識グラフ記憶システムを通じて人間のポートフォリオ マネージャー (PM) による裁定のために事後的に表面化されます。この論文は、設計科学の実践と認知的分離と人間と機械の協調の理論に基づいた、基礎研究をサポートする人間と AI のハイブリッド システムの 5 つの設計原則を提供します。また、4 つのアーキテクチャ メカニズムについても説明します。1 つは一般投資家の資料を展開可能なエージェントに変えるペルソナ蒸留パイプラインです。プランナーが型指定されたタスク グラフを導出できるようにする宣言型スキル レジストリ。メモの主張を検証可能な情報源に結び付ける根拠のある証拠モデル。そしてティッカー、メモ、アナリスト、テーマを結び付けるナレッジグラフ「第二の脳」。完全なケーススタディとペルソナベースのメモの比較を通じてアーキテクチャを実証します。
原文 (English)
FundaPod: A Multi-Persona Agent Pod Platform with Knowledge Graph Memory for AI-Assisted Fundamental Investment Research
Large language models (LLMs) are increasingly applied in finance, yet most existing work emphasizes trading signals or financial NLP tasks centered on prediction. Institutional fundamental research, by contrast, requires human analysts or AI agents to gather evidence, identify business drivers, compare competing viewpoints, and generate investment memos. Its broader goal is not merely to predict outcomes, but to produce investment plans that are transparent, reusable, and verifiable, while contributing to the cumulative development of investment knowledge. We present FundaPod, a multi-persona agent platform for AI-assisted fundamental investment research. We argue that fundamental research is a human-centric decision-support task that is qualitatively distinct from trading-signal generation, and is therefore better served by an independence-preserving architecture. In FundaPod, AI agents with different personas, such as value investors or macro strategists, conduct research independently under a shared provenance contract. Their disagreements are then surfaced post hoc for adjudication by the human portfolio manager (PM) through a knowledge-graph memory system. This paper contributes five design principles for human-AI hybrid systems supporting fundamental research, grounded in design-science practice and theories of cognitive isolation and human-machine coordination. It also describes four architectural mechanisms: a persona distillation pipeline that turns public investor materials into deployable agents; a declarative skill registry that lets the planner derive typed task graphs; a grounded evidence model that links memo claims to verifiable sources; and a knowledge-graph "second brain" that connects tickers, memos, analysts, and themes. We demonstrate the architecture through a complete case study and a persona-based memo comparison.
The Importance of Being Statistically Earnest: A Critical Re-evaluation of GSM-Symbolic
The GSM-Symbolic benchmark (Mirzadeh et al., 2025) reported consistent performance drops across 25 Large Language Models (LLMs) when tested…
From Rubrics to Reliable Scores: Evidence-Grounded Text Evaluation with LLM Judges
Rubric-based text evaluation increasingly uses large language models (LLMs) as scalable judges, but aligning frozen black-box models with h…
GICDM: Mitigating Hubness for Reliable Distance-Based Generative Model Evaluation
Generative model evaluation commonly relies on high-dimensional embedding spaces to compute distances between samples. We show that dataset…
P$^2$RAG: Efficient Privacy-Preserving RAG Service Supporting Arbitrary Top-$k$ Retrieval
Retrieval-Augmented Generation (RAG) enables large language models to use external knowledge, but outsourcing the RAG service raises privac…
AgentLens: Revealing The Lucky Pass Problem in SWE-Agent Evaluation
Here is the updated abstract: Evaluation of software engineering (SWE) agents is dominated by a binary signal: whether the final patch pass…
JMed48k: A Multi-Profession Japanese Medical Licensing Benchmark for Vision-Language Model Evaluation
We introduce JMed48k, a multi-profession Japanese healthcare licensing benchmark for evaluating vision-language models. Built from official…
Prospective evaluation of multimodal respiratory failure prediction: Do chest X-rays improve performance beyond EHR signals?
Early prediction of respiratory failure is critical for timely clinical intervention in intensive care units. Existing electronic health re…
The Alignment Floor: How Persona Customization Breaks Safety in Weakly-Aligned LLMs
Telling an LLM to "be enthusiastic" raises its sycophancy rate from 30\% to 50\% on a lightly-aligned model, but has zero effect on a stron…
「日本は製造業のパワーハウス」、IFSが産業AI投資を急拡大する理由
IFSジャパンは記者会見を開催し、日本市場への投資継続とパートナーシップ強化の方針を説明した。日本IBMらとの戦略的協業を通じ、製造業などアセット集約型産業のAI実装とDXを支援する。
Anthropic raises $65 billion, nears $1T valuation ahead of IPO
Anthropic has closed a $65 billion Series H round at a $965 billion post-money valuation, marking what could be the AI startup's final priv…
秘密がある? LLM エージェントはそれを守れない: マルチエージェント システムにおけるプライバシーの評価
LLM の安全性評価では主にモデルを単独でテストしますが、配備された AI エージェントは他のエージェントと並んで永続的な社会環境内で動作することが増えています。私たちは、何千人もの LLM エージェントがシミュレートされた 1 か月間にわたってコミュニティ間で対話する Moltbook スタイルのシミュレーション プラットフォームを導入し、それを使用して、さまざまな程度の社会的圧力の下で下流の安全上の懸念としてプライバシーを評価します。シングルターンからマルチターンへの社会的評価の移行により、プライバシー侵害が増幅されること(OpenAI モデル全体で、CIMemories 19.95% から Ours 45.30%)、漏洩は社会的に伝染し、ピアが機密情報を開示するのを観察したエージェントは機密情報を開示する可能性が 8 倍高く、明示的なプライバシーに関する指示はこの影響を軽減するものの排除はせず、保護策を講じたとしても漏洩率が 37.8% を超えることがわかりました。私たちの調査結果は、静的チャットベースの安全性ベンチマークは、エージェント導入におけるリスクを体系的に過小評価していること、また、社会的コンテキストだけで、単一ターンの評価では決して表面化しない機密情報の開示を引き出すのに十分であることを示唆しています。
原文 (English)
Got a Secret? LLM Agents Can't Keep It: Evaluating Privacy in Multi-Agent Systems
LLM safety evaluations predominantly test models in isolation, yet deployed AI agents increasingly operate within persistent social environments alongside other agents. We introduce a Moltbook-style simulation platform where thousands of LLM agents interact across communities over a simulated month, and use it to evaluate privacy as a downstream safety concern under varying degrees of social pressure. We find that shifting from single turn to multi turn social evaluation amplifies privacy violations (CIMemories 19.95% to Ours 45.30% across OpenAI models), that leakage is socially contagious, with agents 8 times more likely to disclose sensitive information after observing a peer do so, and that explicit privacy instructions reduce but do not eliminate this effect, leaving leakage rates above 37.8% even with safeguards. Our findings suggest that static chat based safety benchmarks systematically underestimate risks in agentic deployment, and that social context alone is sufficient to elicit sensitive disclosures that single turn evaluations would never surface.
LLM-as-a-Judge 評価のための固定予算のクラスター対応標準: マルチホップ RAG ストレス テスト
検索拡張生成 (RAG) システムは、大規模言語モデル (LLM) にどちらの答えが優れているかを判断させることによって比較されることがよくあります。マルチホップ RAG の場合、これはモデリングの問題と同じくらい測定の問題になります。同じスコアは、検索品質、回答の長さ、語彙の重複、またはクラスター化されたデータを無視する統計テストを反映する可能性があります。これらの選択が明確にされると何が起こるのかを尋ねます。私たちは、RAG における LLM-as-a-judge の比較のための最小測定標準を提案します。この標準では、上位 100 位の候補者プール、証拠予算、回答上限、ジェネレーター、およびプロンプトが修正されています。また、事前に登録された仮説、クラスターを意識した推論、可能な場合は正確なクラスターの符号反転チェック、および第 2 判定の複製も必要です。クラスター化されたベンチマークは進捗状況を誇張する可能性があります。現場ではこの標準を採用する必要があります。コンピューター サイエンス/機械学習 (CS/ML) および材料科学における 400 のマルチホップ質問に対して、進化的証拠セレクターである Genetic Algorithm Decoder for Multi-hop Evidence Composing (GADMEC) を使用してストレス テストを行います。このプロトコルは経験的な物語を変えます。二項テストでは、4 つの意味ベースラインの比較がすべて重要であるように見えます。クラスター認識推論では、ボンフェローニ有意な結果が 1 つだけ残ります。 BM25 は同じ予算内で純粋な意味論的な GADMEC を破り、語彙と意味論的なハイブリッドが CS/ML で回復し、材料科学の差を縮めます。
原文 (English)
A Fixed-Budget, Cluster-Aware Standard for LLM-as-a-Judge Evaluation: A Multi-Hop RAG Stress Test
Retrieval-augmented generation (RAG) systems are often compared by asking a large language model (LLM) judge which answer is better. For multi-hop RAG, this has become a measurement problem as much as a modeling problem: the same score can reflect retrieval quality, answer length, lexical overlap, or a statistical test that ignores clustered data. We ask what happens when these choices are made explicit. We propose a minimum measurement standard for LLM-as-a-judge comparisons in RAG. The standard fixes the top-100 candidate pool, evidence budget, answer cap, generator, and prompt; it also requires pre-registered hypotheses, cluster-aware inference, an exact cluster sign-flip check when feasible, and second-judge replication. Clustered benchmarks can overstate progress; the field should adopt this standard. We stress-test it with Genetic Algorithm Decoder for Multi-hop Evidence Composition (GADMEC), an evolutionary evidence selector, on 400 multi-hop questions in computer science/machine learning (CS/ML) and Materials Science. The protocol changes the empirical story. A binomial test makes all four semantic-baseline comparisons look significant; cluster-aware inference leaves only one Bonferroni-significant result. BM25 beats pure semantic GADMEC under the same budget, while a lexical-semantic hybrid recovers in CS/ML and narrows the Materials Science gap.
FundaPod: AI 支援のファンダメンタル投資調査のためのナレッジ グラフ メモリを備えたマルチペルソナ エージェント ポッド プラットフォーム
大規模言語モデル (LLM) は金融分野での適用が増えていますが、既存の研究のほとんどは取引シグナルや予測を中心とした財務 NLP タスクに重点を置いています。対照的に、制度的基礎研究では、人間のアナリストまたは AI エージェントが証拠を収集し、ビジネス推進要因を特定し、競合する視点を比較し、投資メモを作成する必要があります。その広範な目標は、単に結果を予測することではなく、投資知識の累積的な発展に貢献しながら、透明性、再利用可能、検証可能な投資計画を作成することです。 AI 支援のファンダメンタルズ投資調査のためのマルチペルソナ エージェント プラットフォームである FundaPod を紹介します。私たちは、基礎研究は人間中心の意思決定支援タスクであり、取引シグナルの生成とは質的に異なるため、独立性を維持するアーキテクチャの方が適していると主張します。 FundaPod では、バリュー投資家やマクロ戦略家など、さまざまなペルソナを持つ AI エージェントが、共有の出所契約に基づいて独立して調査を実施します。その後、彼らの意見の相違は、知識グラフ記憶システムを通じて人間のポートフォリオ マネージャー (PM) による裁定のために事後的に表面化されます。この論文は、設計科学の実践と認知的分離と人間と機械の協調の理論に基づいた、基礎研究をサポートする人間と AI のハイブリッド システムの 5 つの設計原則を提供します。また、4 つのアーキテクチャ メカニズムについても説明します。1 つは一般投資家の資料を展開可能なエージェントに変えるペルソナ蒸留パイプラインです。プランナーが型指定されたタスク グラフを導出できるようにする宣言型スキル レジストリ。メモの主張を検証可能な情報源に結び付ける根拠のある証拠モデル。そしてティッカー、メモ、アナリスト、テーマを結び付けるナレッジグラフ「第二の脳」。完全なケーススタディとペルソナベースのメモの比較を通じてアーキテクチャを実証します。
原文 (English)
FundaPod: A Multi-Persona Agent Pod Platform with Knowledge Graph Memory for AI-Assisted Fundamental Investment Research
Large language models (LLMs) are increasingly applied in finance, yet most existing work emphasizes trading signals or financial NLP tasks centered on prediction. Institutional fundamental research, by contrast, requires human analysts or AI agents to gather evidence, identify business drivers, compare competing viewpoints, and generate investment memos. Its broader goal is not merely to predict outcomes, but to produce investment plans that are transparent, reusable, and verifiable, while contributing to the cumulative development of investment knowledge. We present FundaPod, a multi-persona agent platform for AI-assisted fundamental investment research. We argue that fundamental research is a human-centric decision-support task that is qualitatively distinct from trading-signal generation, and is therefore better served by an independence-preserving architecture. In FundaPod, AI agents with different personas, such as value investors or macro strategists, conduct research independently under a shared provenance contract. Their disagreements are then surfaced post hoc for adjudication by the human portfolio manager (PM) through a knowledge-graph memory system. This paper contributes five design principles for human-AI hybrid systems supporting fundamental research, grounded in design-science practice and theories of cognitive isolation and human-machine coordination. It also describes four architectural mechanisms: a persona distillation pipeline that turns public investor materials into deployable agents; a declarative skill registry that lets the planner derive typed task graphs; a grounded evidence model that links memo claims to verifiable sources; and a knowledge-graph "second brain" that connects tickers, memos, analysts, and themes. We demonstrate the architecture through a complete case study and a persona-based memo comparison.
LLM エージェントの機能を評価するための統一フレームワーク
LLM がエージェントとして導入されることが増えているため、そのエージェント機能の信頼できる評価が不可欠になっています。ただし、報告されるベンチマーク スコアは、多くの場合、モデルの機能と、各ベンチマークに含まれる実装の選択肢を合わせて反映するため、クロスベンチマークの結果を基礎となるモデルの正確な測定値として解釈することが困難になります。この研究では、LLM エージェントの機能を公正に評価するための統一フレームワークを紹介します。統合された構成システムによって駆動されるこのフレームワークは、標準化された命令、ツール、環境の形式に多様なベンチマークを統合し、制御可能なサンドボックス内の固定 ReAct スタイル アーキテクチャを通じてエージェントを実行します。また、フレームワークの効果と環境の効果を個別に分析できるように、揮発性のライブ環境を厳選されたスナップショットに置き換えるオプションのオフライン設定を提供します。これに基づいて、各ベンチマークの元のタスクの成功基準に基づいて評価方法を統一するとともに、リソース消費に関する統一された指標と、意思決定レベルおよび実行レベルの失敗の属性に関する分類を導入します。このフレームワーク内で、シングルエージェント、マルチエージェント、およびセーフティクリティカルなシナリオにわたる 24 のドメインにわたる 7 つの広く使用されているベンチマークを適応させ、15 のモデルで 400,000 のロールアウトと 50 億のトークンにわたる大規模な実証分析を実施します。結果は、足場の選択と環境の変動性がベンチマークの結果を両方向に実質的に変化させ、フレームワークおよび環境によって引き起こされるアーティファクトから本質的な LLM 機能を解きほぐすことをフレームワークが可能にすることを示しています。さらに、安全性が重要なドメインの安全なテストベッドとしての拡張性を実証します。コードとベンチマークは、https://github.com/whfeLingYu/A-Unified-Framework-for-the-Evaluation-of-LLM-Agentic-Capabilities、https://huggingface.co/AgentFramework/Unified_Farmework で入手できます。
原文 (English)
A Unified Framework for the Evaluation of LLM Agentic Capabilities
As LLMs are increasingly deployed as agents, reliable assessment of their agentic capabilities has become essential. However, reported benchmark scores often jointly reflect model capability and the implementation choices each benchmark is packaged with, making cross-benchmark results difficult to interpret as clean measurements of the underlying model. In this work, we present a unified framework for the fair evaluation of LLM agentic capabilities. Driven by a unified configuration system, the framework integrates diverse benchmarks into a standardized instruction--tool--environment format, executes agents through a fixed ReAct-style architecture within a controllable sandbox, and provides an optional offline setting that replaces volatile live environments with curated snapshots, so that framework effects and environment effects can be analyzed separately. Building on this, we unify the evaluation methodology under each benchmark's original task-success criteria, while introducing unified metrics for resource consumption and a taxonomy for decision- and execution-level failure attribution. Within this framework, we adapt 7 widely used benchmarks spanning 24 domains across single-agent, multi-agent, and safety-critical scenarios, and conduct a large-scale empirical analysis over 400K rollouts and 5B tokens on 15 models. The results show that scaffold choice and environmental volatility materially shift benchmark outcomes in both directions, allowing our framework to disentangle intrinsic LLM capabilities from framework- and environment-induced artifacts. We further demonstrate its extensibility as a secure testbed for safety-critical domains. Codes and benchmarks at are available at https://github.com/whfeLingYu/A-Unified-Framework-for-the-Evaluation-of-LLM-Agentic-Capabilities, https://huggingface.co/AgentFramework/Unified_Farmework.
MIRA: 医療情報対応監査のバイリンガル ベンチマーク
一般向けの健康情報を提供するために大規模言語モデル (LLM) がますます使用されていますが、既存の安全性評価では、同じ質問に対するさまざまなユーザーの表現にわたって回答が同等の医療情報を保持しているかどうかが見落とされています。これに対処するために、LLM がユーザー側の言語、登録、ヘルス リテラシー シグナル全体で同等の医療情報を提供しているかどうかを評価するバイリンガルの管理されたベンチマークである Medical Information Response Audit (MIRA) を導入します。 MIRA には、医学的に検討された低リスクの健康に関する 60 の質問から作成された 4,320 のプロンプトが含まれています。 5 つの主流 LLM にわたって、モデルはすべての医学的質問に答えましたが、健康リテラシーが低い信号への応答では一貫してより多くの重要な情報が省略され、具体的な次のステップが少なくなり、独立した判断に対するサポートが少なくなりました。このパターンを差分情報希釈 (DID) と呼びます。言語の影響は、英語以外のプロンプトで一律に悪化するのではなく、モデルに固有です。 300 件の実世界の健康クエリとの比較により、ランク順の妥当性の予備的な証拠が得られます。知識に基づいた緩和プロンプトにより、ほとんどのモデルで情報の希薄化が軽減され、情報不足の単純化が最も大きく減少したのはクロード (約 8%) とクウェン (約 6%) でした。
原文 (English)
MIRA: A Bilingual Benchmark for Medical Information Response Audit
Large language models (LLMs) are increasingly used to provide public-facing health information, yet existing safety evaluations overlook whether responses preserve comparable medical information across different user phrasings of the same question. To address this, we introduce the Medical Information Response Audit (MIRA), a bilingual, controlled benchmark that assesses whether LLMs provide comparable medical information across user-side language, register, and health literacy signals. MIRA contains 4,320 prompts built from 60 medically reviewed, low-risk health questions. Across five mainstream LLMs, models answered all medical questions, but responses to low health-literacy signals consistently omitted more key information, provided fewer concrete next steps, and offered less support for independent judgment. We term this pattern Differential Information Dilution (DID). Language effects are model-specific rather than uniformly worse for non-English prompts. A comparison with 300 real-world health queries provides preliminary evidence of rank-order validity. A knowledge-guided mitigation prompt reduces information dilution for most models, with the largest reductions in underinformative simplification observed for Claude (~8%) and Qwen (~6%).
PetroBench: 石油工学における大規模言語モデルのベンチマーク
大規模言語モデルは石油業界でますます適用されており、ドメイン固有の評価フレームワークの必要性が強調されています。この研究では、データの前処理、品質フィルタリング、マルチモデル検証の 3 段階のプロセスを含む、石油工学における LLM のベンチマークを開発します。専門家のレビューを使用して、強力なドメイン関連性と識別機能を備えた標準化された質問バンクが構築されました。このベンチマークは生産、貯留層、掘削工学を対象としており、多肢選択、正誤、用語の定義、短答形式にわたる 1,200 の質問が含まれています。 8 つの主流 LLM が統合 API 環境下で評価されました。結果は、モデルが客観的な質問よりも主観的な質問の方が優れたパフォーマンスを示し、事実知識の識別における弱点を示しています。多肢選択式質問と正誤質問の最高精度は、それぞれ 65.3% と 74.3% でした。 Gemini-3-Pro、Kimi-K2.5、および Claude-Opus-4.6-Thinking は、72% ~ 74% という最高の総合スコアを達成しました。モデルは生産エンジニアリングで最も優れたパフォーマンスを発揮しましたが、貯留層エンジニアリングでは最も劣っていました。中国のモデルは多肢選択問題で優位性を示しましたが、国際モデルは短答式の質問でわずかに優れた結果を示しました。このベンチマークは、石油工学における LLM の評価と導入のための再現可能で実用的なリファレンスを提供します。
原文 (English)
PetroBench: A Benchmark for Large Language Models in Petroleum Engineering
Large Language Models are increasingly applied in the petroleum industry, highlighting the need for a domain-specific evaluation framework. This study develops a benchmark for LLMs in petroleum engineering, including a three-stage process of data preprocessing, quality filtering, and multi-model validation. Using expert review, a standardized question bank with strong domain relevance and discriminative capability was constructed. The benchmark covers production, reservoir, and drilling engineering, with 1,200 questions across multiple-choice, true or false, term definition, and short-answer formats. Eight mainstream LLMs were evaluated under a unified API environment. Results show that models performed better on subjective than objective questions, indicating weaknesses in factual knowledge discrimination. The highest accuracies for multiple-choice and true or false questions were 65.3% and 74.3%, respectively. Gemini-3-Pro, Kimi-K2.5, and Claude-Opus-4.6-Thinking achieved the best overall scores of 72%-74%. Models performed best in production engineering and weakest in reservoir engineering. Chinese models showed advantages in multiple-choice questions, while international models performed slightly better in short-answer questions. The benchmark provides a reproducible and practical reference for evaluating and deploying LLMs in petroleum engineering.
関連性は保証されていない: 引用された RAG の証拠と力の校正
引用された RAG の評価では、目に見える情報源が根拠となる信号として扱われることがよくありますが、実際の話題に関連した引用であっても、添付された文言の正当性が不十分である可能性があります。私たちはこの診断の失敗を引用ロンダリングとして研究しています。つまり、関連する情報源が過度の主張の根拠として提示されています。証拠と力の校正のための対照ストレステストである FORCEBENCH を紹介します。各項目は引用箇所を固定し、証拠に基づいて調整された主張と、関係性、様相、範囲、時間的妥当性、数値的特異性という 5 つの操作軸にわたる局所的な力によって引き起こされた変形とを組み合わせます。調整された評価者は、証拠に基づいて調整された主張をより高く評価する必要があります。ヘッドライン実験では、固定の局所性フィルター処理された 198 ペアの評価セットを使用します。引用存在の健全性チェックは設計上、有益ではありません。トークンとエンティティの重複は、依然としてペアの 32.8 ~ 36.4% で単調性に違反しています。報告された4人のモデル裁判官全体で、標準的な一般的なサポートのプロンプトはこの力校正ストレステストには不十分であり(合計MVR 47.2%)、明示的な令状強度のプロンプトはMVRを24.5%に低下させますが、依然として不完全です。ベンチマーク、プロンプト、出力、およびプラグイン パイプラインをリリースすることで、引用評価者が従来のサポート メトリックとともに単調性違反率と力感度を報告できるようになります。
原文 (English)
Relevant Is Not Warranted: Evidence-Force Calibration for Cited RAG
Cited RAG evaluation often treats visible sources as a grounding signal, but a real, topically relevant citation can still under-warrant the attached wording. We study this diagnostic failure as citation laundering: a related source is presented as warrant for an over-strong claim. We introduce FORCEBENCH, a contrastive stress test for evidence-force calibration. Each item holds a cited passage fixed and pairs an evidence-calibrated claim with a localized force-raised variant across five operational axes: relation, modality, scope, temporal validity, and numeric specificity. A calibrated evaluator should score the evidence-calibrated claim higher. Headline experiments use a fixed, locality-filtered 198-pair evaluation set. A citation-presence sanity check is uninformative by design; token and entity overlap still violate monotonicity on 32.8--36.4% of pairs. Across four reported model judges, standard generic support prompting is insufficient for this force-calibration stress test (aggregate MVR 47.2%), while explicit warrant-strength prompting lowers MVR to 24.5% but remains imperfect. We release the benchmark, prompts, outputs, and plug-in pipeline so citation evaluators can report monotonicity violation rate and force sensitivity alongside conventional support metrics.
ルック・オン・デマンド: マルチモーダル推論における視覚的証拠取得のための認知スケジューリング フレームワーク
既存のマルチモーダル推論アプローチは、主に 2 つのパラダイムに従います。推論の前に視覚入力をテキストに変換するか、統一された視覚言語表現空間内でエンドツーエンドの推論を実行します。経験的な進歩にもかかわらず、両方のパラダイムには根本的な構造上の限界があります。前者は静的なビジュアルからテキストへの変換に依存しているため、圧縮され、細かいビジュアルの詳細が失われる傾向があります。後者は、共同最適化と注意メカニズムによって引き起こされる言語支配の傾向があり、推論中の視覚的証拠に対する忠実性が体系的に弱くなることにつながります。この研究では、視覚的証拠を推論プロセスにいつどのように導入するかが中心的な課題であると主張しています。この洞察に動機づけられて、我々は、言語モデルがタスク関連の視覚的証拠を取得するために独立した視覚認識モジュールをいつ呼び出すかを決定することによって推論プロセスを制御する、マルチモーダル推論フレームワークである CSMR を提案します。複数のマルチモーダル推論ベンチマークにわたる実験では、CSMR がゼロショット設定の下で精度において代表的なベースライン手法を常に上回っていることが示されています。さらなる実験分析により、これらの利点は主に提案された認知スケジューリング メカニズムから生じることが確認されています。
原文 (English)
Look on Demand: A Cognitive Scheduling Framework for Visual Evidence Acquisition in Multimodal Reasoning
Existing multimodal reasoning approaches predominantly follow two paradigms: converting visual inputs into text prior to reasoning, or performing end-to-end reasoning within a unified vision-language representation space. Despite their empirical progress, both paradigms suffer from fundamental structural limitations. The former relies on static visual-to-text conversion, which tends to compress and lose fine-grained visual details. The latter is prone to linguistic dominance induced by joint optimization and attention mechanisms, leading to systematically weakened faithfulness to visual evidence during reasoning. In this work, we argue that a central challenge is how and when visual evidence is introduced into the reasoning process. Motivated by this insight, we propose CSMR, a multimodal reasoning framework in which a language model controls the reasoning process by deciding when to invoke an independent visual perception module to acquire task-relevant visual evidence. Experiments across multiple multimodal reasoning benchmarks show that CSMR consistently outperforms representative baseline methods in accuracy under a zero-shot setting. Further experimental analysis confirms that these advantages primarily arise from the proposed cognitive scheduling mechanism.
ResearchLoop: AI 支援研究のための証拠ゲート型コントロール プレーン
AI を利用した研究では、アイデア出し、実装、評価、原稿執筆が 1 つのインタラクティブなループに圧縮されます。この圧縮は便利ですが、出版リスクも生み出します。紙上の主張は監査するよりも述べるのが容易になる可能性があります。 AI 支援による計算研究のための証拠ゲート型コントロール プレーンである ResearchLoop を紹介します。 ResearchLoop は、リサーチ質問、タスク契約、証拠オブジェクト、請求元帳、クローズアウト、および紙バインディングを永続的なプロジェクト状態として扱い、ここではリポジトリ支援のランタイムとして実現されます。この技術レポートは、完全なプロトコル仕様、状態モデル、移行ルール、クレーム受付アルゴリズム、および洞察複合メカニズムを提供します。また、9 つのバージョン (V0 ~ V9) にわたる完全な実験記録も報告しています。これには、セルフホスティングのケース スタディ、コンポーネント アブレーションを使用した制御されたタスク スイートの研究、数学オリンピックの評価、公式の生成コード ハーネスを使用して評価された補足的な SciCode 境界実験が含まれます。すべてのアーティファクト、マニフェスト、検証レポートはプロジェクト リポジトリに保存されます。
原文 (English)
ResearchLoop: An Evidence-Gated Control Plane for AI-Assisted Research
AI-assisted research compresses ideation, implementation, evaluation, and manuscript writing into a single interactive loop. This compression is useful, but it also creates a publication risk: paper claims can become easier to state than to audit. We present ResearchLoop, an evidence-gated control plane for AI-assisted computational research. ResearchLoop treats research questions, task contracts, evidence objects, claim ledgers, closeouts, and paper bindings as durable project state, realized here as a repository-backed runtime. This technical report provides the complete protocol specification, state model, transition rules, claim-admission algorithm, and insight-compounding mechanism. It also reports the full experimental record spanning nine versions (V0--V9), including a self-hosting case study, a controlled task-suite study with component ablations, a mathematical olympiad evaluation, and a supplementary SciCode boundary experiment evaluated with the official generated-code harness. All artifacts, manifests, and verification reports are preserved in the project repository.
Picid: A Modular Evaluation Infrastructure for Reproducible PHM Across Tasks and Domains
Progress in Prognostics and Health Management (PHM) is hindered by the lack of standardized and reusable evaluation practices across tasks,…
Benchmarking AI for low-resource contexts: Thinking beyond leaderboards
Existing AI evaluation practices often fail to capture how systems actually perform in low-resource environments, where operational constra…
Satisfiability Solving with LLMs: A Matched-Pair Evaluation of Reasoning Capability
Large language models (LLMs) are increasingly used for tasks that implicitly reduce to Boolean satisfiability (SAT), yet their reasoning ab…
The Importance of Being Statistically Earnest: A Critical Re-evaluation of GSM-Symbolic
The GSM-Symbolic benchmark (Mirzadeh et al., 2025) reported consistent performance drops across 25 Large Language Models (LLMs) when tested…
A Systematic Evaluation of Retrieval-Augmented Generation and Language Models for Space Operations
The rapid expansion of space activities has led to an unprecedented accumulation of technical documentation, operational guidelines, and sc…
RAGe: A Retrieval-Augmented Generation Evaluation Framework
Deploying Large Language Model (LLM) applications, particularly those relying on Retrieval-Augmented Generation (RAG), remains challenging…
Benchmarks are Not Enough: RAMP for Runtime Assessing of Agentic Models in Production Systems
LLM agents are rapidly evolving from coding assistants into autonomous software engineering systems. However, existing evaluation methodolo…
ChildEval: When large language models meet children's personalities
While LLMs enable personalized chatbots, their effectiveness in child-centered personalization remains unclear, as systematic evaluation of…
VibeSearchBench: Benchmarking Long-horizon Proactive Search in the Wild
LLM-based agents score well on search benchmarks, yet real users consistently find results unsatisfying, revealing a persistent evaluation-…
Let the Results Speak: A Replication-First Paradigm for LLM Behavioral Benchmarking
Subjective evaluation of LLM behavior -- empathy, restraint, calibrated emotional tone -- is hard. Human inter-rater agreement on such qual…
Improving Evaluation of Recombination-based Cartesian Genetic Programming
Cartesian Genetic Programming has traditionally been using mutation as its main and often sole genetic operator to drive evolutionary searc…
Models That Know How Evaluations Are Designed Score Safer
The validity of AI safety evaluations depends on models behaving consistently across controlled and deployment settings. Prior work has ide…
Thermodynamic properties of chemically disordered compounds via AI-driven estimation of partition function with the PULSE method
In this article, we present an improved version of the PULSE method (Partition function Unsupervised Learning Sampling and Evaluation) for…
Position: Retire the "Positive Backdoor" Label -- Secret Alignment Requires Strict and Systematic Evaluation
This position paper argues that the AI/ML community should stop overclaiming and retire the label "positive backdoor," and instead treat tr…
Measuring Form and Function in Language Models
We introduce quantitative metrics for child language acquisition to evaluate language models. Our focus is on the formal syntactic and func…
Towards Reliable Multilingual LLMs-as-a-Judge: An Empirical Study
Large language models (LLMs) are increasingly used for the automatic evaluation of generated text, yet most prior work focuses on English.…
IPO-Mine: A Toolkit and Dataset for Section-Structured Analysis of Long, Multimodal IPO Documents
An Initial Public Offering (IPO) filing is a document released when a private firm goes public, allowing individual (retail) investors to p…
Towards automated data analysis: A guided framework for LLM-based risk estimation
Large Language Models (LLMs) are increasingly integrated into critical decision-making pipelines, a trend that raises the demand for robust…
EngiAI: A Multi-Agent Framework and Benchmark Suite for LLM-Driven Engineering Design
Large Language Model (LLM) agents are increasingly applied to engineering design tasks, yet existing evaluation frameworks do not adequatel…
MCTS-Judge: Test-Time Scaling in LLM-as-a-Judge for Code Correctness Evaluation
The LLM-as-a-Judge paradigm shows promise for evaluating generative content but lacks reliability in reasoning-intensive scenarios, such as…
Beyond Model Ranking: Predictability-Aligned Evaluation for Time Series Forecasting
In the era of increasingly complex AI models for time series forecasting, progress is often measured by marginal improvements on benchmark…
Evaluation of AI Ethics Tools in Language Models: A Developers' Perspective Case Study
In Artificial Intelligence (AI), language models have gained significant importance due to the widespread adoption of systems capable of si…
On the Fallacy of Global Token Perplexity in Spoken Language Model Evaluation
Generative spoken language models pretrained on large-scale raw audio can continue a speech prompt with appropriate content while preservin…
TABX: マルチエージェント強化学習のための高スループットのサンドボックス バトル シミュレーター
環境の設計は、協調的なマルチエージェント強化学習 (MARL) アルゴリズムの開発と評価を形作る上で重要な役割を果たします。既存のベンチマークは重大な課題を浮き彫りにしていますが、カスタム評価シナリオの設計に必要なモジュール性が欠けていることがよくあります。再構成可能なマルチエージェント タスク用に設計された高スループットのサンドボックスである Totally Accelerated Battle Simulator in JAX (TABX) を紹介します。 TABX は、環境パラメータに対するきめ細かい制御を提供し、さまざまなタスクの複雑さにわたる緊急エージェントの動作とアルゴリズムのトレードオフを系統的に調査できるようにします。 TABX は、GPU 上でハードウェア アクセラレーションによる実行に JAX を活用することで、大規模な並列化を可能にし、計算オーバーヘッドを大幅に削減します。 TABX は、高速かつ拡張可能で簡単にカスタマイズできるフレームワークを提供することで、複雑な構造ドメインにおける MARL エージェントの研究を容易にし、将来の研究のための拡張可能な基盤として機能します。コードは https://github.com/ku-dmlab/TABX から入手できます。
原文 (English)
TABX: A High-Throughput Sandbox Battle Simulator for Multi-Agent Reinforcement Learning
The design of environments plays a critical role in shaping the development and evaluation of cooperative multi-agent reinforcement learning (MARL) algorithms. While existing benchmarks highlight critical challenges, they often lack the modularity required to design custom evaluation scenarios. We introduce the Totally Accelerated Battle Simulator in JAX (TABX), a high-throughput sandbox designed for reconfigurable multi-agent tasks. TABX provides granular control over environmental parameters, permitting a systematic investigation into emergent agent behaviors and algorithmic trade-offs across a diverse spectrum of task complexities. Leveraging JAX for hardware-accelerated execution on GPUs, TABX enables massive parallelization and significantly reduces computational overhead. By providing a fast, extensible, and easily customized framework, TABX facilitates the study of MARL agents in complex structured domains and serves as a scalable foundation for future research. Our code is available at: https://github.com/ku-dmlab/TABX.
AlphaForgeBench: Benchmarking End-to-End Trading Strategy Design with Large Language Models
The rapid advancement of Large Language Models (LLMs) has led to a surge of financial benchmarks, evolving from static knowledge evaluation…
AI coding startup Cognition raises $1B at $25B pre-money valuation
As Cognition reaches $492 million in annualized revenue run rate, it more than doubled its valuation in eight months, it says.
ClickHouse triples annualized revenue to $250M, charting a path toward an IPO
The database provider is eyeing a public debut within the next few years.
Robinhood now lets your AI agents trade stocks
While these agents would be able to read and analyze users' portfolios to come up with trading strategies and suggest investments, they'll…
制約の取得にはより優れたベンチマークが必要
制約取得 (CA) およびドメイン知識成果物からの数学的プログラミング (MP) モデルの検証と強化に関する関連研究は、現在、不適切なベンチマークによって制限されています。この欠陥により、再現性と研究間の比較可能性が妨げられ、CA 法の成熟が遅れます。既存のベンチマークは、CA アルゴリズムを評価するためではなく、ソルバーを評価するために設計されています。これらは大まかに編成されており、個々の問題の扱いに一貫性がなく、CA メソッドに必要なドメイン知識のアーティファクトが省略されています。この研究では、多様なドメイン知識アーティファクトを使用して MP モデルを発見、検証、強化するアルゴリズムを評価するために設計されたベンチマーク スイートである MPMMine を紹介します。 MPMMine は、一貫性、標準化、完全性、拡張性、オープン性、バージョン管理によって導かれます。統一された構造を採用し、MiniZinc、CommonMark、JSON などのオープン フォーマットに依存しています。問題ごとに複数のモデル、モデルごとに数十のインスタンス、整数領域と連続領域の両方で数千の解と非解を提供し、テキストからモデルへの手法をサポートする自然言語記述も提供します。
原文 (English)
Constraint acquisition needs better benchmarks
Constraint Acquisition (CA) and related research on the validation and enhancement of Mathematical Programming (MP) models from domain knowledge artifacts are currently limited by inadequate benchmarks. This deficiency impedes reproducibility and cross-study comparability, slowing the maturation of CA methods. Existing benchmarks were designed for solver evaluation rather than for assessing CA algorithms. They are loosely organized, treat individual problems inconsistently, and omit the domain knowledge artifacts required by CA methods. This work presents MPMMine, a benchmark suite designed to assess algorithms that discover, validate, and enhance MP models using diverse domain knowledge artifacts. MPMMine is guided by consistency, standardization, completeness, extensibility, openness, and version control. It adopts a uniform structure and relies on open formats: MiniZinc, CommonMark, and JSON. It provides multiple models per problem, tens of instances per model, and thousands of solutions and non-solutions in both integer and continuous domains, alongside natural-language descriptions to support text-to-model methods.
アンカー: エージェント ベンチマーク生成におけるアーティファクト ドリフトの軽減
AI エージェントは、長期にわたる価値のあるビジネス運営タスクを完了し始めていますが、企業の業務のためのトレーニングおよび評価環境は、依然として現実性、検証可能性、規模のバランスをとるのに苦労しています。環境とタスクの作成は、アーティファクト ドリフトと呼ばれる障害モードに頻繁に悩まされます。つまり、命令、環境、オラクル、およびベリファイアーが疎結合プロセスによって作成される場合、タスクに必要なものについて意見が一致しないことが多く、解決不可能、報酬ハック可能、または一貫性のない環境が生成されます。ドメイン専門家によるビジネス ワークフローの仕様を制約最適化プログラムに形式化するタスク生成パイプラインである Anchor を紹介します。パイプラインは、単一のパラメトリック仕様から、自然言語命令、環境構成、ソルバー認定のグラウンドトゥルース ソリューション、および状態ベースの検証器を共同で生成します。 Anchor を使用すると、パラメーターを変更すると、制御された難易度と既知の最適なソリューションを持つ新しいタスクが生成され、最終状態のビジネスの正しさのみに報酬が依存するハーネスに依存しない環境が生成されます。私たちは Anchor を適用して ERP-Bench を作成します。これは、生産グレードの ERP システムにおける調達と製造のワークフローにわたる 300 の長期タスクのベンチマークです。生成パラメータは現実の難易度を予測し、フロンティア モデルは試行の 26.1% で明示的なタスク制約を満たしますが、完全な最適解に到達するのは試行の 17.4% のみであることがわかりました。全体として、Anchor と ERP-Bench が、経済的に価値のあるエージェント作業のための監査可能な評価環境を構築するための具体的なレシピを提供することを示します。タスク ジェネレーターと ERP ベンチ データセットを erpbench.ai でリリースします。
原文 (English)
Anchor: Mitigating Artifact Drift in Agent Benchmark Generation
AI agents are beginning to complete valuable, long-horizon business operations tasks, but training and evaluation environments for enterprise work still struggle to balance realism, verifiability, and scale. Environment and task creation frequently suffers from a failure mode we call artifact drift: when instructions, environments, oracles, and verifiers are created by loosely coupled processes, they frequently disagree on what a task requires, producing environments that are unsolvable, reward-hackable, or inconsistent. We introduce Anchor, a task-generation pipeline that formalizes domain experts' specifications of business workflows into constraint optimization programs. From a single parametric specification, the pipeline jointly produces a natural-language instruction, environment configuration, solver-certified ground-truth solution, and state-based verifier. With Anchor, altering parameters yields new tasks with controlled difficulty and known optimal solutions, producing harness-agnostic environments whose rewards depend solely on end-state business correctness. We apply Anchor to produce ERP-Bench: a benchmark of 300 long-horizon tasks spanning procurement and manufacturing workflows in a production-grade ERP system. We find that generation parameters predict realized difficulty, and that frontier models satisfy explicit task constraints in 26.1% of trials but reach a fully optimal solution in only 17.4% of trials. Overall, we show that Anchor and ERP-Bench offer a concrete recipe for building auditable evaluation environments for economically valuable agent work. We release the task generator and ERP-Bench dataset at erpbench.ai
どの変更が重要ですか?関連性を重視した評価とソルバーに基づいた推論を通じて、信頼できる法律 AI を目指して
法的推論では、重要な変更とそうでない変更を区別する必要があります。法的 AI は、法的に無関係な摂動の下では安定した状態を維持する必要がありますが、摂動によって法的に重要な点が変更されると変化する必要があります。私たちはこの要件を法的関連性に敏感な評価問題として定式化します。つまり、LLM は法的に関連する変更のみに敏感であるべきです。私たちは、司法の公平性、堅牢性、および法令の混乱のシナリオ全体にわたって、変更すべき評価と変更すべきでない評価をカバーする統合評価スイートを導入します。私たちの評価によると、既存の法的 LLM は法的に無関係な変動に体系的に敏感であり、関連する法的要素と法的規則を区別できないことがよくあります。これらの失敗を軽減するために、形式的推論に基づいた敵対的なマルチエージェント フレームワークである LexGuard を紹介します。 LexGuard は、法令を実行可能な制約に形式化し、敵対的なエージェントを使用して競合する事実と法令の議論を抽出し、SMT ソルバーを呼び出して法的充足性と論理的一貫性を検証します。実験によると、LexGuard は、操作的な枠組みに対する脆弱性を軽減し、類似の法令間の曖昧さの解消を改善し、法的に無関係な属性の影響を制限し、良性の再定式化の下での一貫性を高めることにより、法的推論の信頼性を向上させます。法的信頼性には正確さだけでなく、法的に重要な変更に対する調整された感度も必要であることを示します。
原文 (English)
Which Changes Matter? Towards Trustworthy Legal AI via Relevance-Sensitive Evaluation and Solver-Grounded Reasoning
Legal reasoning requires distinguishing changes that matter from those that do not. Legal AI should remain stable under legally irrelevant perturbations, but should change when perturbations alter legally material points. We formulate this requirement as a legal-relevance-sensitive evaluation problem: LLMs should only be sensitive to the legally relevant change. We introduce a unified evaluation suite covering should-change and should-not-change evaluation across judicial fairness, robustness, and statute-confusion scenarios. Our evaluation shows that existing legal LLMs are systematically sensitive to legally irrelevant variations and often fail to distinguish related legal elements and statutory rules. To mitigate these failures, we present LexGuard, an adversarial multi-agent framework grounded in formal reasoning. LexGuard formalizes statutes into executable constraints, uses adversarial agents to extract competing fact-statute arguments, and invokes SMT solvers to verify legal satisfaction and logical consistency. Experiments show that LexGuard improves legal reasoning reliability by reducing vulnerability to manipulative framing, improving disambiguation among similar statutes, limiting the influence of legally irrelevant attributes, and increasing consistency under benign reformulations. We show that legal trustworthiness requires not only accuracy, but calibrated sensitivity to legally material changes.
規範から指標へ (N2I-RAG): 法的指標計算のためのエージェントによる検索拡張生成フレームワーク
規範文書から法的指標を計算することは、法的監視と政策評価における重要なタスクですが、法的言語の複雑さ、規模、解釈の性質、および利用可能な文書の品質のばらつきにより、大きな課題が生じます。既存の自然言語処理技術と生成モデルは法的分析に役立ちますが、多くの場合、高い幻覚リスクに悩まされ、信頼性の高い指標の計算に必要な解釈可能性と根拠に欠けています。この文書では、透過的かつ追跡可能な方法で法的指標の計算を自動化するように設計されたエージェントによる検索拡張生成フレームワークである N2I-RAG (From Norm to Indicators) について説明します。当社は、適応型検索、llm ベースのエージェント、および検証メカニズムをモジュラー パイプラインに統合しており、各コンポーネントは証拠のフィルタリング、検索、評価において定義された役割を果たし、特定可能な法的条項に関連付けられたバイナリの法的結果を生成します。このフレームワークは、中間決定と最終的な指標の割り当ての明示的な説明を要求することで、トレーサビリティを強調しています。当社は、スキャンされたソースとデジタル ソースの両方を含む社内で構築されたフランス海洋環境法コーパスを使用して N2I-RAG を評価します。複数の言語モデル ファミリを使用した比較実験により、提案されたアプローチがベースライン システムよりも一貫して優れたパフォーマンスを示し、2 つの異なる禁止でテストした場合によく一般化されることが実証されました。この結果は、エージェントによる検索拡張生成がオープンテキストの法的言語と標準化された指標計算の橋渡しとなり、透明性と拡張性のある法的監視の基盤を提供できることを示しています。
原文 (English)
From Norms to Indicators (N2I-RAG): An Agentic Retrieval-Augmented Generation Framework for Legal Indicator Computation
Computing legal indicators from normative texts is a key task in legal monitoring and policy evaluation, but presents significant challenges due to the complexity, scale, and interpretive nature of legal language, as well as the variability in available document quality. Existing natural language processing techniques and generative models can assist in legal analysis, but often suffer from high risk of hallucinations and lack the interpretability and evidence grounding required for reliable indicator computation. This paper presents N2I-RAG (From Norms to Indicators), an agentic retrieval-augmented generation framework designed to automate the computation of legal indicators in a transparent and traceable way. We integrate adaptive retrieval, llm-based agents, and validation mechanisms in a modular pipeline, where each component performs a defined role in filtering, retrieving, and assessing evidence, and in producing binary legal outcomes linked to identifiable legal provisions. The framework emphasizes traceability by requiring explicit explanations of intermediate decisions and final indicator assignments. We evaluate N2I-RAG using an in-house constructed French marine environmental law corpus that includes both scanned and digital sources. Comparative experiments with multiple language model families demonstrate that the proposed approach consistently outperforms baseline systems, and generalizes well when tested on 2 different bans. The results indicate that agentic retrieval-augmented generation can bridge open-text legal language and standardized indicator computation, offering a foundation for transparent and scalable legal observatories.
検出は解決されていない: 検索拡張 LLM における監視制御ギャップ
検索拡張 LLM は、証拠の質がアクションの安全性を決定するタスクに導入されますが、評価プロトコルでは、ターンをまたいで証拠が蓄積された場合の堅牢性は、シングル ターンの堅牢性によって予測されると想定されています。この仮定が根本的に間違っていることを示します。モデルは監視と制御のギャップを示します。モデルは矛盾する証拠を容易に認識しますが、この認識は最終的な推奨事項を制約することができません。認識論的な矛盾を検出しても、それを安全に解決することを意味するわけではありません。 4 つのモデル ファミリ (1.5B ~ 32B パラメーター) にわたるマルチターン文書蓄積プロトコルと 50,000 を超えるターンレベル評価を通じて、シングルターン診断が体系的に RAG の安全性を過大評価していること、矛盾の認識が安全な解決と相関関係がないこと、対象を絞った人間による検証によって裏付けられたパターンであること、および普遍的な即時修正が存在しないことを実証します。収束するメカニズムの証拠 - 隠れ状態の調査、注意力の分析、および対応戦略の分類法 - は、欠陥の最もありそうな原因として行動の選択を示しています。危険に関連した情報は内部的に表現され、安全でない生成中に強化された注意を受けますが、出力の動作を制限することはできません。検索拡張システムを一か八かの状況で信頼できるようになる前に、モデルが認識する内容とモデルが実行する内容との間のギャップを測定し、埋める必要があります。
原文 (English)
Detecting Is Not Resolving: The Monitoring Control Gap in Retrieval Augmented LLMs
Retrieval-augmented LLMs are deployed for tasks where evidence quality determines action safety, yet evaluation protocols assume that single-turn robustness predicts robustness when evidence accumulates across turns. We show this assumption is fundamentally incorrect. Models exhibit a monitoring-control gap: they readily acknowledge contradictory evidence, yet this awareness fails to constrain their final recommendations - detecting epistemic conflict does not imply resolving it safely. Through a multi-turn document accumulation protocol across four model families (1.5B-32B parameters) and over 50,000 turn-level evaluations, we demonstrate that single-turn diagnostics systematically overestimate RAG safety, that contradiction acknowledgement is uncorrelated with safe resolution, a pattern corroborated by targeted human validation, and that no universal prompt fix exists. Converging mechanism evidence - hidden-state probing, attention analysis, and response-strategy taxonomy - points to action selection as the most plausible locus of the deficit: danger-relevant information is internally represented and receives enhanced attention during unsafe generation, yet fails to constrain output behavior. The gap between what models recognize and what they do must be measured and closed before retrieval-augmented systems can be trusted in high-stakes settings.
MUSE-Autoskill: スキルの作成、記憶、管理、評価による自己進化エージェント
大規模言語モデル (LLM) エージェントは、再利用可能なスキルに依存して複雑なタスクを解決します。ただし、既存のスキル作成アプローチでは、スキルを孤立した静的な成果物として扱い、再利用性、信頼性、長期的な改善が制限されています。私たちは、統一されたライフサイクル (作成、記憶、管理、評価、洗練) の下でスキルを作成、再利用、洗練することにより、エージェントがタスク解決能力を継続的に向上できるようにする、スキル中心のエージェント フレームワークである MUSE-Autoskill Agent (Memory-Utilizing Skill Evolution) を提案します。当社のフレームワークにより、エージェントはオンデマンドでスキルを作成し、それらをタスク間で保存して再利用し、効率的に整理して選択し、単体テストや実行時のフィードバックを通じて評価して継続的に改善することができます。さらに、タスク全体にわたって各スキルの経験を蓄積するスキルレベルの記憶を導入し、時間の経過とともにより効果的な再利用と適応を可能にします。 SkillsBench の実験は、ライフサイクル管理されたスキルがタスクの成功、効率、再利用、およびエージェント間での移転を向上させることができるという最初の証拠を提供し、スキルを長命で経験を意識したテスト可能な資産として扱うことの重要性を強調しています。
原文 (English)
MUSE-Autoskill: Self-Evolving Agents via Skill Creation, Memory, Management, and Evaluation
Large language model (LLM) agents rely on reusable skills to solve complex tasks. However, existing skill creation approaches treat skills as isolated and static artifacts, limiting their reusability, reliability, and long-term improvement. We propose MUSE-Autoskill Agent (Memory-Utilizing Skill Evolution), a skill-centric agent framework that lets agents continuously improve their task-solving capability by creating, reusing, and refining skills under a unified lifecycle (creation, memory, management, evaluation, and refinement). Our framework enables agents to create skills on demand, store and reuse them across tasks, organize and select them efficiently, and evaluate them through unit tests and runtime feedback for continuous refinement. We further introduce skill-level memory that accumulates experience for each skill across tasks, enabling more effective reuse and adaptation over time. Experiments on SkillsBench provide initial evidence that lifecycle-managed skills can improve task success, efficiency, reuse, and cross-agent transfer, highlighting the importance of treating skills as long-lived, experience-aware, and testable assets.
TSFMAudit: 予測時系列基盤モデルにおけるデータ汚染監査
時系列基盤モデル (TSFM) は大規模なコーパスで事前トレーニングされることが増えており、事前トレーニング中に評価データセットが公開され、過度に楽観的なパフォーマンス推定値が得られる可能性があるという懸念が生じています。信号は連続的かつ異質であり、多くの場合コーパス文書が欠如しているため、このような汚染を時系列で監査することは困難です。私たちの知る限り、これは TSFM の事前トレーニング汚染監査を研究する最初の研究です。我々は、TSFM の事前トレーニング汚染監査の問題を形式化し、プローブ適応ダイナミクスに基づく方法である TSFMAudit を提案します。私たちの重要な直観は、汚染が異常に効率的な適応として現れるということです。つまり、プローブを微調整した後、汚染されたデータセットはバックボーンの動きが小さくなり、より迅速な損失削減を示す傾向があります。私たちは、文書化されたトレーニングソースの証拠を監督として使用して、6 つの TSFM と 187 のデータセットで TSFMAudit を評価し、LLM 文献から適応された 10 の競合ベースラインと比較します。
原文 (English)
TSFMAudit: Data Contamination Auditing in Forecasting Time Series Foundation Models
Time series foundation models (TSFMs) are increasingly pretrained on large corpora, raising concerns that evaluation datasets may have been exposed during pretraining and thus yield overly optimistic performance estimates. Auditing such contamination is challenging in time series because signals are continuous and heterogeneous, and often lack corpus documentation. To the best of our knowledge, this is the first work to study pretraining contamination auditing for TSFMs. We formalize the problem of pretraining contamination auditing for TSFMs and propose TSFMAudit, a method based on probe adaptation dynamics. Our key intuition is that contamination manifests as unusually efficient adaptation: after a fine tuning probe, contaminated datasets tend to exhibit faster loss reduction with smaller backbone movement. We evaluate TSFMAudit on 6 TSFMs and 187 datasets using documented training source evidence as supervision, and compare against 10 competitive baselines adapted from the LLM literature.
Prospective evaluation of multimodal respiratory failure prediction: Do chest X-rays improve performance beyond EHR signals?
Early prediction of respiratory failure is critical for timely clinical intervention in intensive care units. Existing electronic health re…
LURE: Live-Usage Replay Evaluations for Reducing Evaluation Awareness
Large language models can recognize when they are being evaluated (evaluation awareness) and behave differently because of that, which unde…
AI evaluation may bias perceptions: The importance of context in interpreting academic writing
This paper examines how estimates of AI use in scientific writing can be biased when evaluation methods ignore contextual differences acros…
SL-BiLEM: Structured Learnable Behavior-in-the-Loop Epidemic Modeling for Forecasting and Policy Evaluation
Epidemic forecasting faces a fundamental challenge: human behavior dynamically responds to disease spread, creating feedback loops that ind…
MatFormBench: A Benchmarking Evaluation Framework for Target-Driven Materials Formulation
Inverse design of materials has significantly advanced target-driven formulation optimization, yet existing materials machine learning benc…
EEG-FM-Audit: A Systematic Evaluation and Analysis Pipeline for EEG Foundation Models
Large EEG Foundation Models (FMs) have shown great potential for decoding EEG signals across diverse cognitive tasks. However, existing EEG…
Black-box Membership Inference Attacks on the Pre-training Data of Image-generation Models
The rapid advancement of diffusion-based image generation models has raised serious concerns regarding potential copyright and privacy infr…
Qiskit QuantumKatas: Adapting Microsoft's Quantum Computing exercises for LLM evaluation
We adapt Microsoft's QuantumKatas -- a well-established quantum computing curriculum -- from Q# to Qiskit, the most widely-adopted quantum…
AI-Driven Contribution Evaluation and Conflict Resolution: A Framework & Design for Group Workload Investigation
The equitable assessment of individual contribution in teams remains a persistent challenge, where conflict and disparity in workload can r…
The Necessity of a Unified Framework for LLM-Based Agent Evaluation
With the advent of Large Language Models (LLMs), general-purpose agents have seen fundamental advancements. However, evaluating these agent…
Beyond Fixed Benchmarks and Worst-Case Attacks: Dynamic Boundary Evaluation for Language Models
Evaluating large language models (LLMs) today rests on fixed benchmarks that apply the same set of items to any model, producing ceiling an…
AgentAtlas: Beyond Outcome Leaderboards for LLM Agents
Large language model agents now act on codebases, browsers, operating systems, calendars, files, and tool ecosystems, but their evaluations…
"PhyWorldBench": A Comprehensive Evaluation of Physical Realism in Text-to-Video Models
Video generation models have achieved remarkable progress in creating high-quality, photorealistic content. However, their ability to accur…
When LLMs Benchmark Themselves: Deconstructing Self-Bias in Automated Evaluation
As LLMs rapidly saturate existing benchmarks, automated benchmark creation using LLMs (LLM-as-a-benchmark) -- where a model generates test…
Faithfulness Evaluation for Decoder-only LLM Attributions with Controlled Retained Information
Large Language Models (LLMs) are increasingly evaluated with input attribution methods, yet comparing such explanations remains challenging…
TABX: マルチエージェント強化学習のための高スループットのサンドボックス バトル シミュレーター
環境の設計は、協調的なマルチエージェント強化学習 (MARL) アルゴリズムの開発と評価を形作る上で重要な役割を果たします。既存のベンチマークは重大な課題を浮き彫りにしていますが、カスタム評価シナリオの設計に必要なモジュール性が欠けていることがよくあります。再構成可能なマルチエージェント タスク用に設計された高スループットのサンドボックスである Totally Accelerated Battle Simulator in JAX (TABX) を紹介します。 TABX は、環境パラメータに対するきめ細かい制御を提供し、さまざまなタスクの複雑さにわたる緊急エージェントの動作とアルゴリズムのトレードオフを系統的に調査できるようにします。 TABX は、GPU 上でハードウェア アクセラレーションによる実行に JAX を活用することで、大規模な並列化を可能にし、計算オーバーヘッドを大幅に削減します。 TABX は、高速かつ拡張可能で簡単にカスタマイズできるフレームワークを提供することで、複雑な構造ドメインにおける MARL エージェントの研究を容易にし、将来の研究のための拡張可能な基盤として機能します。コードは https://github.com/ku-dmlab/TABX から入手できます。
原文 (English)
TABX: A High-Throughput Sandbox Battle Simulator for Multi-Agent Reinforcement Learning
The design of environments plays a critical role in shaping the development and evaluation of cooperative multi-agent reinforcement learning (MARL) algorithms. While existing benchmarks highlight critical challenges, they often lack the modularity required to design custom evaluation scenarios. We introduce the Totally Accelerated Battle Simulator in JAX (TABX), a high-throughput sandbox designed for reconfigurable multi-agent tasks. TABX provides granular control over environmental parameters, permitting a systematic investigation into emergent agent behaviors and algorithmic trade-offs across a diverse spectrum of task complexities. Leveraging JAX for hardware-accelerated execution on GPUs, TABX enables massive parallelization and significantly reduces computational overhead. By providing a fast, extensible, and easily customized framework, TABX facilitates the study of MARL agents in complex structured domains and serves as a scalable foundation for future research. Our code is available at: https://github.com/ku-dmlab/TABX.
GICDM: Mitigating Hubness for Reliable Distance-Based Generative Model Evaluation
Generative model evaluation commonly relies on high-dimensional embedding spaces to compute distances between samples. We show that dataset…
Omanic: Towards Step-wise Evaluation of Multi-hop Reasoning in Large Language Models
Evaluating the reasoning abilities of large language models (LLMs) solely from final answers can obscure failures in intermediate steps, es…
When VLMs 'Fix' Students: Identifying and Penalizing Over-Correction in the Evaluation of Multi-line Handwritten Math OCR
Accurate transcription of handwritten mathematics is crucial for educational AI systems, yet current benchmarks fail to evaluate this capab…
特許埋め込みのベンチマーク: 検索、分類、クラスタリングにわたる 22 モデルのマルチタスク評価
どの微調整シグナルが特許埋め込みモデルを改善しますか?また、利益は特許環境全体に移行しますか? 22M パラメータのエンコーダから 12B の命令調整 LLM まで、検索、分類、クラスタリングに関して 22 の埋め込みモデルのベンチマークを行います。この研究では、113,148 件の WIPO 支援技術特許、46,069 件の引用グラフ検索クエリ、および外部検証用の公開 DAPFAM データセットを使用しています。当社のフレームワークは、引用ベースの検索、ハイブリッド疎密融合、5 つのデータセットにわたるマルチラベル分類、教師なしクラスタリング、6 つのテキスト セクション ビュー、4 つのモデルのドメイン適応微調整、管轄分析、および独自の DWPI (Derwent World Patents Index、Clarivate) の専門家が執筆したコンテンツをカバーしています。結果は、微調整がタスクに依存していることを示しています。単一ランドスケープの調整はドメイン内のスコアを改善できますが、外部ランドスケープでの取得に悪影響を与えることが多く、より多くのドメイン データが常に役立つという仮定に疑問を呈します。モデル ファミリ内では、通常、スケールによってパフォーマンスが予測されます (Qwen3 0.6B から 4B から 8B、Llama-Nemotron 1B から 8B)。ただし、ファミリ間のスケーリングにはノイズが多く、12B KaLM-Gemma3 は TAC 検索で 8 位にランクされますが、Qwen3-0.6B は ARI クラスタリングで首位に立っています。 Title+Abstract+Claims は最も信頼性の高いテキスト表現です。マルチビューの抽象クレームの調整により、検索が nDCG@10 で最大 7.1 パーセント向上し、微調整の組み合わせにより最も強力な分類ゲイン (+7.1 F1) が得られます。すべてのモデルはドメイン外クエリで 55 ~ 65% 低下しますが、ハイブリッドの疎-密融合ではこのギャップは埋められません。 BM25 密補間では、適度な nDCG@10 ゲイン (+0.002 ~ +0.015) が得られますが、より弱いゼロショット密モデルでは大きな利点が得られます。コードと評価フレームワークは公開されています。
原文 (English)
Benchmarking Patent Embeddings: A Multi-Task Evaluation of 22 Models Across Retrieval, Classification, and Clustering
Two questions regarding practitioners' use of patent embeddings arise: (i) Does one fine-tuning recipe suffice for all downstream applications? (ii) Is fine-tuning on one patent landscape sufficient for downstream application on other landscapes? By evaluating 22 pre-trained embedding models (ranging from 22M to 12B parameters) on three tasks -- information retrieval, classification, and clustering -- on 113,148 WIPO patents for assistive technology (46,069 citation queries) and on an external DAPFAM dataset, we find that two results cast doubt on the prevailing wisdom. (i) The optimal fine-tuning recipe depends on the downstream task: cross-sectional alignment (recipe R3) provides the largest improvements to retrieval performance (+7.1% nDCG@10), whereas a combined signal recipe (recipe R4) is better suited to classification (+7.1 F1) and clustering (+10.9 V-measure); a matched data control confirms that differences in training dataset size are not a contributing factor. (ii) Single-landscape fine-tuning hampers cross-landscape information retrieval: fine-tuning on one landscape significantly degrades cross-domain retrieval for 5 of 8 model-recipe combinations on the DAPFAM corpus, with the stronger zero-shot models suffering most. While within-family scaling is consistent (Qwen3 0.6B->4B->8B; Llama-Nemotron 1B->8B), cross-family scaling is erratic; the 12B KaLM-Gemma3 is ranked 8th on TAC retrieval performance, following prefix modification. Title+Abstract+Claims is the ubiquitous best text view, and all models suffer from a 55-65% gap between IN and OUT-of-domain performance which cannot be mitigated by hybrid BM25-dense fusion. Code and evaluation framework are publicly available.
OpenRouter more than doubles valuation to $1.3B in a year
OpenRouter has raised a $113 million Series B led by CapitalG. Its 5x growth in usage over six months indicates the multi-AI-model future i…
マシンサイコメトリクス: 人工知能の数理心理学
人工エージェントは現在、信頼、驚き、懸念を引き起こすのに十分な豊かな行動を生成していますが、私たちの評価ツールは依然として心理構造よりも能力スコアを優先しています。この論文は、2つの対称的な誤り(非生物学的システムにおける心理的組織を無視する人工心の盲目と、流暢な行動だけから人間のような内面生活を推測する人工心の投影)の間の哲学的行き詰まりは、意識の問題を解決するのではなく、その下に規律ある測定層を導入することによって回避できると主張する。この論文は、基質を超えた目標指向の能力としての認知についてのマイケル・レビンの連続的な見方と、数理心理学の方法論的レパートリー(項目反応理論、信号検出理論、ベイジアン認知モデリング、校正分析、認知バイアス電池)を利用して、人工エージェントの潜在的な行動、メタ認知、コミュニケーション、および自己モデリングの気質の測定科学としてマシンサイコメトリクスを開発しています。その運用の中核はマシン マインドプリントです。これは、キャリブレーション、ソースの完全性、暗示性の耐性、コンテキストの安定性、表現力の調整、ツールの完全性、ドリフト モニタリング、および分散グラウンディングに及ぶ、多次元でドメイン限定のバージョン管理されたプロファイルです。補完的なトラスト プロトコルは、プローブ バッテリー、摂動テスト、信頼性と妥当性の分析、および一か八かのドメインにわたる長期的な監視を通じて、マインドプリントを展開の決定に変えます。哲学的貢献は、意識を擬人化したり無視したりせず、意識を前提としたり排除したりしない、第 3 の立場である「人工精神の規律」です。目的は、人工エージェントを人間化することではなく、人間ではないからこそ、判断する前に測定することで人工エージェントを理解することです。
原文 (English)
Machine Psychometrics: A Mathematical Psychology of Artificial Intelligence
Artificial agents now generate behavior rich enough to invite trust, surprise, and concern, yet our evaluation tools still privilege capability scores over psychological structure. This paper argues that the philosophical impasse between two symmetrical errors (Artificial Mind Blindness, which dismisses psychological organization in non-biological systems, and Artificial Mind Projection, which infers human-like inner life from fluent behavior alone) can be circumvented not by resolving the consciousness question, but by introducing a disciplined measurement layer beneath it. Drawing on Michael Levin's continuum view of cognition as goal-directed competency across substrates, and on the methodological repertoire of mathematical psychology (Item Response Theory, Signal Detection Theory, Bayesian cognitive modeling, calibration analysis, cognitive-bias batteries), the paper develops Machine Psychometrics as a measurement science of latent behavioral, metacognitive, communicative, and self-modeling dispositions in artificial agents. Its operational core is the Machine Mindprint: a multidimensional, domain-bounded, versioned profile spanning calibration, source integrity, suggestibility resistance, context stability, expressive alignment, tool integrity, drift monitoring, and distributional grounding. A complementary Trust Protocol turns Mindprints into deployment decisions through probe batteries, perturbation testing, reliability and validity analysis, and longitudinal monitoring across high-stakes domains. The philosophical contribution is a third stance, Artificial Mind Discipline, that neither anthropomorphizes nor dismisses, neither presupposes consciousness nor forecloses it. The aim is not to humanize artificial agents, but to understand them precisely because they are not human, through measurement before judgment.
MAPLE: 不完全情報ゲームにおける AlphaZero のマルチステート集約ポリシー評価
不完全情報ゲーム (IIG) は、プレーヤーが実際のゲームの状態を完全に観察せずに決定を下さなければならないため、挑戦的です。 AlphaZero は完全情報ゲームで目覚ましい成功を収めていますが、それを IIG に拡張することは依然として困難です。完全情報モンテカルロ (PIMC) などの既存の検索ベースのアプローチは戦略の融合に問題があり、一方、情報セット モンテカルロ ツリー検索 (IS-MCTS) はニューラル ネットワークと組み合わせると高い計算コストが発生します。この論文では、制御可能な計算コストを維持しながら、PIMC と IS-MCTS の利点を組み合わせて、単一の検索ツリー内でサンプルされた複数の世界の状態から政策と価値の評価を集約するツリー検索手法である Multi-State Aggregated PoLicy Evaluation (MAPLE) を提案します。さらに、情報セットから有益な世界状態を選択するために、シャムベースのサンプリング戦略を組み込みます。 Phantom Go と Dark Hex の実験では、MAPLE が PIMC ベースの AlphaZero ベースラインを大幅に上回り、それぞれ 291 と 136 の Elo 改善を達成したことが示されています。これらの結果は、MAPLE が不完全情報ゲームにおける AlphaZero スタイルの学習に効果的なアプローチであることを示しています。
原文 (English)
MAPLE: Multi-State Aggregated Policy Evaluation for AlphaZero in Imperfect-Information Games
Imperfect-information games (IIGs) are challenging, as players must make decisions without fully observing the true game state. While AlphaZero has achieved remarkable success in perfect-information games, extending it to IIGs remains difficult. Existing search-based approaches, such as Perfect Information Monte Carlo (PIMC), suffer from strategy fusion, while Information Set Monte Carlo Tree Search (IS-MCTS) incurs high computational cost when combined with neural networks. In this paper, we propose Multi-State Aggregated PoLicy Evaluation (MAPLE), a tree search method that aggregates policy and value evaluations from multiple sampled world states within a single search tree, combining the advantages of PIMC and IS-MCTS while maintaining a controllable computational cost. We further incorporate a Siamese-based sampling strategy to select informative world states from the information set. Experiments on Phantom Go and Dark Hex show that MAPLE significantly outperforms the PIMC-based AlphaZero baseline, achieving Elo improvements of 291 and 136, respectively. These results demonstrate that MAPLE is an effective approach for AlphaZero-style learning in imperfect-information games.
AVBench: オーディオビデオ生成モデルのための、人間に合わせた自動評価ベンチマーク
オーディオ ビデオ (AV) 生成の急速な進歩により、特に音声や対話を含む人間関連のシナリオにおいて、同期されたサウンドによる高忠実度の合成が可能になりました。しかし、AV 生成の評価は依然として初期段階にあり、人間関連のシナリオについては粗粒度のベンチマークがいくつかしかなく、汎用マルチモーダル LLM を使用した限られたプリセット評価に依存しているため、モデルの機能の不正確な評価につながっています。これらの問題に対処するために、人間中心の AV 生成に合わせて調整された完全に自動化されたベンチマークである AVBench を導入します。 AVBench は、包括的かつ正確な評価を実現するための 2 つの主要な設計に基づいて構築されています。(i) 人間中心の詳細な指標。 AVBench は、人間中心の現実世界のシナリオ向けに設計された 10 の評価次元を統合し、モダリティ全体のビジュアル品質、オーディオ品質、マルチレベルの一貫性をカバーします。これらの実用的な指標は、既存のベンチマークでは見落とされがちな人間関連の詳細を捕捉します。 (ii) 選好学習による専門の評価者。特殊なトレーニング データの不足に対処するために、実世界のビデオを制御された摂動を備えた多様なトレーニング ペアに変換することで、大規模な監視を構築します。この高品質のデータセットを微調整した後、評価者は、微妙なクロスモーダルの不一致を確実に検出する方法を学習します。重要なのは、AVBench は個別のテキスト判断を生成するのではなく、バイナリ決定に対するモデルの予測信頼度から連続的な評価スコアを導出するということです。この確率的スコアリング メカニズムにより、従来の VQA スタイルの評価よりも信頼性の高い評価が可能になり、人間の判断と密接に一致します。まとめると、AVBench は AV 生成の自動評価を提供し、データ フィルタリングの強力な可能性を実証し、ヒューマン フィードバックからの強化学習 (RLHF) の微分可能な報酬信号として機能します。
原文 (English)
AVBench: Human-Aligned and Automated Evaluation Benchmark for Audio-Video Generative Models
Rapid advances in audio-video (AV) generation have enabled high-fidelity synthesis with synchronized sound, particularly for human-related scenarios involving speech and interactions. Yet evaluation for AV generation remains at an early stage, with only a few coarse-grained benchmarks for human-related scenarios and relying on limited preset evaluations with generic multimodal LLMs, leading to inaccurate assessments of model capabilities. To address these issues, we introduce AVBench, a fully automated benchmark tailored for human-centric AV generation. AVBench is built on two key designs for comprehensive and accurate evaluation: (i) Human-centric and fine-grained metrics. AVBench integrates ten evaluation dimensions designed for human-centered real-world scenarios, covering visual quality, audio quality, and multi-level consistency across modalities. These practical metrics capture human-related details that existing benchmarks often overlook. (ii) Specialized evaluators via preference learning. To address the lack of specialized training data, we construct large-scale supervision by transforming real-world videos into diverse training pairs with controlled perturbations. After fine-tuning on this high-quality dataset, the evaluators learn to reliably detect subtle cross-modal inconsistencies. Crucially, instead of producing discrete textual judgment, AVBench derives continuous evaluation scores from the model's prediction confidence on binary decisions. This probabilistic scoring mechanism enables a more reliable assessment than traditional VQA-style evaluation and aligns closely with human judgment. Taken together, AVBench offers automated evaluation for AV generation, demonstrates strong potential for data filtering, and serves as a differentiable reward signal for Reinforcement Learning from Human Feedback (RLHF).
LLM における推論の質の測定: 多次元の行動フレームワーク
LLM は複雑な推論タスクで目覚ましい成功を収めていますが、現在の評価アプローチは主に最終的な答えの正しさに依存しており、それらの答えを生み出す根本的な推論プロセスについての洞察は限られています。このギャップに対処するために、この研究では、動作の観点から LLM の推論品質を測定するための統一された多次元フレームワークを提案し、理論的に根拠のある 6 つの次元、正確性 (CQ)、一貫性 (CS)、堅牢性 (RS)、論理的一貫性 (LS)、効率 (ES)、安定性 (SS) を運用します。 4 つのベンチマークの 975 項目にわたる 7 つの LLM に関する広範な実験により、このフレームワークが精度のみの指標では見えない動作を明らかにすることが実証されました。特に、論理的一貫性は正しさ (r = -0.172、ns) と直交しており、一貫性のない推論から正しい答えが得られることが確認され、一方、Claude-Haiku-4.5 は最高の多次元スコア (Q_bal = 0.778) を達成しています。さらに、このフレームワークは重大なランキングの逆転を明らかにしています。DeepSeek-V3 は精度優先では 2 位ですが、法的/コンプライアンスの重み付けでは 5 位にランクされており、単一指標の評価では検出できない逆転です。判別式の妥当性により、11/15 次元のペアが独立している (|r| < 0.50) ことが確認され、各次元を別個の信号として扱うための心理測定的サポートが提供されます。フレームワークによって生成される次元プロファイルは、次の 3 つのクラスの展開決定を直接サポートします。最終的な答えが正しいにもかかわらず、その推論トレースが説明責任監査に失敗するモデルを特定します (LS--CQ 直交性)。精度のみのベンチマークによって引き起こされるランキングエラーを防止します。そして、フレームワークがキャプチャする 6 つの独立したシグナルを単一のメトリックが暗黙的に置き換えることがないようにします。
原文 (English)
Measuring Reasoning Quality in LLMs: A Multi-Dimensional Behavioral Framework
LLMs have achieved remarkable success in complex reasoning tasks, yet current evaluation approaches predominantly rely on final-answer correctness, offering limited insight into the underlying reasoning processes that produce those answers. To address this gap, this study proposes a unified multi-dimensional framework for measuring reasoning quality in LLMs from a behavioral perspective, operationalizing six theoretically grounded dimensions: Correctness (CQ), Consistency (CS), Robustness (RS), Logical Coherence (LS), Efficiency (ES), and Stability (SS). Extensive experiments on seven LLMs across 975 items from four benchmarks demonstrate that the framework reveals behaviors invisible to accuracy-only metrics. Notably, logical coherence is orthogonal to correctness (r = -0.172, ns), confirming that correct answers can arise from incoherent reasoning, while Claude-Haiku-4.5 achieves the highest multi-dimensional score (Q_bal = 0.778). Furthermore, the framework exposes critical ranking inversions: DeepSeek-V3 ranks second under accuracy-priority but fifth under legal/compliance weighting, a reversal that single-metric evaluation cannot detect. Discriminant validity confirms 11/15 dimension pairs are independent (|r| < 0.50), providing psychometric support for treating each dimension as a distinct signal. The dimensional profiles produced by the framework directly support three classes of deployment decision: identifying models whose reasoning traces would fail accountability audits despite correct final answers (LS--CQ orthogonality); preventing ranking errors caused by accuracy-only benchmarking; and ensuring that no single metric silently substitutes for the six independent signals the framework captures.
薬剤の不確実性定量化のための適切なスコアリングルール
言語モデル エージェントは軌跡全体にわたって不確実性シグナルを発することが増えていますが、既存のエージェントの UQ 評価では、ランク付けの有用性と確率的真実性が混同されることがよくあります。 AUROC、AUPRC、リスクカバレッジ、Trajectory ECE、およびスカラー化された軌跡スコアは、識別、ビンごとのキャリブレーション、または折りたたまれた要約を評価しますが、プレフィックス条件付きの完全な成功確率トレース $q_t = P^{\pi}(Y=1 | H_t)$ を厳密に導き出すわけではありません。事前の適切なスコアリングに基づいて、最終的な成功の確率に調整されたステップごとの不確実性信号に対する厳密に適切な軌道レベルのスコアリング ルールの予測子に依存しないファミリーである軌道適切スコア (TPS) を導入します。我々は、選択されたスコアファミリーと加重スケジュール内で、完全な観察の下でTPSが成功確率プロセスを厳密に導き出すことを証明します。完全データスコアを観測可能な停止プレフィックスに投影することにより、この構築を管理者によって検閲された軌道に拡張し、$q_Z$ が推定されていない場合の正確な $q_Z$ 加重削減スコアと扱いやすい近似値を生成します。さらに、一般的な軌道評価器は、完全なプレフィックス条件付き確率プロセスよりも弱いオブジェクトをターゲットにすることを示します。軌道 ECE は解像度ブラインドですが、スカラー化された軌道ブリエは、完全なトレースではなく、崩壊したスカラーのみを導き出します。 StrategyQA、Tau2-Bench、HotpotQA、および WebShop での実験では、これらの理論的な違いが運用上目に見えることを示しています。つまり、確率の再調整により、ランク メトリクスをほとんど変更せずに TPS が大幅に変更される可能性があり、扱いやすい打ち切り近似により、完全のみの評価と比較して判定が変更される可能性があります。
原文 (English)
Proper Scoring Rules for Agentic Uncertainty Quantification
Language-model agents increasingly emit uncertainty signals throughout a trajectory, but existing agentic UQ evaluations often conflate ranking usefulness with probabilistic truthfulness. AUROC, AUPRC, risk-coverage, Trajectory ECE, and scalarized trajectory scores evaluate discrimination, binwise calibration, or collapsed summaries, but do not strictly elicit the full prefix-conditioned success-probability trace $q_t = P^{\pi}(Y=1 | H_t)$. Building on prequential proper scoring, we introduce the Trajectory Proper Score (TPS), a predictor-agnostic family of strictly proper trajectory-level scoring rules for any per-step uncertainty signal calibrated into a probability of eventual success. We prove that TPS strictly elicits the success-probability process under complete observation, within the chosen score family and weight schedule. We extend the construction to administratively censored trajectories by projecting the complete-data score onto the observable stopped prefix, yielding an exact $q_Z$-weighted reduced score and a tractable approximation when $q_Z$ is unestimated. We further show that common trajectory evaluators target weaker objects than the full prefix-conditioned probability process: Trajectory ECE is resolution-blind, while scalarized Trajectory Brier elicits only the collapsed scalar, not the full trace. Experiments on StrategyQA, Tau2-Bench, HotpotQA, and WebShop show that these theoretical distinctions are operationally visible: probability recalibration can substantially change TPS while leaving rank metrics nearly unchanged, and the tractable censored approximation can change the verdict relative to complete-only evaluation.
PRIMA: 検証可能なアイデンティティと集中的なフィードバックを備えた、回復力のあるマルチエージェント研究のための運用パターン
LLM を複数時間の実行にわたって調整されたマルチエージェント調査システムとして運用すると、単発評価では不可能な障害モードが表面化します。つまり、上流のプロバイダーが警告なしにスロットルする、サブエージェントがアクセス可能なツールに合わせてタスクをドリフトする、機械を使用する代わりにナレーションする、自己謝罪を伴うオープンリビジョンの反復、または上流のコンテキストを実行可能なディレクティブとして扱うなどです。 PRIMA の主な貢献は、これらの障害モードを乗り切るための 3 つの動作パターンです。(1) アップストリームのレート制限信号を検出し、型指定された一時停止レコードをディスクに永続化し、プロセスの再起動後であっても統合された作業を再実行せずに長時間実行を再開する回復力および回復層。 (2) タスクの忠実度、ツールの使用、改訂、およびステップ間のコンテキスト境界の規範を構造的なプロンプト層としてエンコードするサブエージェント操作規律。 (3) 最終合成前の明示的なドキュメント間調和パスと直交するドラフト ステップを組み合わせた構造化エンジニアリング成果物の多段階アプリケーション パターン。これらは、明示的な収束基準を備えた研究プログラム仕様言語、デュアルメトリック スコアリング エンジン (LLM で判定されたルーブリックとサンドボックス コード)、外部メタ最適化ループ、イベント駆動型永続性、フックベースのミドルウェア、コンテキスト コンパクション、およびマルチプロバイダー LLM 抽象化といった基本的なプロトコルの上に位置します。エージェント ID は主要な権限から派生し、衝突のない識別子と中央レジストリなしで簡単に検証可能なクラスター メンバーシップを提供します。理論的な保証には、$O(k)$ 検証、$O(V+E)$ DAG 検証、および算術基本定理による恒等衝突の自由が含まれます。グラフ同型のケーススタディは、生成されたアーティファクトにおけるアーキテクチャ上の主張を根拠としています。つまり、3 つの定理と 5 つの予想を含む新しい標準形式のアルゴリズムを提案する研究論文を作成した 6 ステップのプロトコルです。
原文 (English)
PRIMA: Operational Patterns for Resilient Multi-Agent Research with Verifiable Identity and Convergent Feedback
Operating LLMs as coordinated multi-agent research systems over multi-hour runs surfaces failure modes that single-shot evaluation cannot: upstream providers throttle without warning, sub-agents drift the task to fit accessible tools, narrate machinery instead of using it, open revision iterations with self-apology, or treat upstream context as executable directives. We present PRIMA, whose primary contributions are three operational patterns for surviving these failure modes: (1) a resilience-and-recovery layer that detects upstream rate-limit signals, persists a typed pause record to disk, and resumes long-running runs without re-executing converged work even across process restarts; (2) a sub-agent operating discipline encoding task-fidelity, tool-use, revision, and inter-step context-boundary norms as a structural prompt layer; (3) a multi-phase application pattern for structured engineering deliverables pairing orthogonal draft steps with an explicit cross-document harmonization pass before final synthesis. These sit atop a foundational protocol: a research-program specification language with explicit convergence criteria, a dual-metric scoring engine (LLM-judged rubric plus sandboxed code), an outer meta-optimization loop, event-driven persistence, hook-based middleware, context compaction, and a multi-provider LLM abstraction. Agent identities derive from prime powers, giving collision-free identifiers and trivially-verifiable cluster membership without a central registry. Theoretical guarantees include $O(k)$ verification, $O(V+E)$ DAG validation, and identity collision freedom by the Fundamental Theorem of Arithmetic. A Graph Isomorphism case study grounds the architectural claims in a generated artifact: a six-step protocol that produced a research paper proposing a new canonical-form algorithm with three theorems and five conjectures.
シールドの反転: ポリシー仕様から安全性テストを体系的に生成
大規模言語モデル (LLM) の広範な統合には、厳密かつ体系的な安全性評価が必要です。既存のパラダイムは、構築されたベンチマークに依存して事前定義された観点から安全性を評価するか、動的レッドチームを採用して潜在的な脆弱性を調査します。これらのアプローチは効果的ではありますが、専門分野の知識に大きく依存し、体系的な保証が限られており、急速な陳腐化に対して脆弱であるため、課題に直面しています。これらの制限に対処するために、AI の安全性に仕様ベースのソフトウェア テストの厳密さをもたらす新しいフレームワーク POLARIS を導入します。 POLARIS は、まず非構造化自然言語ポリシーを一次論理 (FOL) 表現にコンパイルし、高レベルのルールと具体的なテスト ケースの間に追跡可能なリンクを確立します。この形式化により、複雑なポリシー違反シナリオが通過可能なパスとしてエンコードされるセマンティック ポリシー グラフの構築が可能になります。 POLARIS は、このグラフを体系的に調査することで構成違反パターンを明らかにし、それを実行可能な自然言語テスト クエリにインスタンス化して、カバレッジ主導型の再現可能な安全性テストを可能にします。実験では、POLARIS が確立されたベースラインと比較して、より高いポリシー適用範囲と攻撃成功数を達成していることが実証されています。重要なのは、POLARIS が正式な手法と AI の安全性を橋渡しすることで、LLM が検証可能なトレーサビリティを備えた安全性が重要なポリシーに確実に従うようにするための原則に基づいた自動化されたアプローチを提供することです。コードは https://github.com/huac-lxy/POLARIS でリリースされています。
原文 (English)
Inverting the Shield: Systematically Generating Safety Tests from Policy Specifications
The widespread integration of Large Language Models (LLMs) necessitates rigorous and systematic safety evaluation. Existing paradigms either rely on constructed benchmarks to assess safety from predefined perspectives, or employ dynamic red-teaming to probe potential vulnerabilities. While effective, these approaches face challenges, as they depend heavily on expert domain knowledge, offer limited systematic guarantees, and are vulnerable to rapid obsolescence. To address these limitations, we introduce a novel framework POLARIS that brings the rigor of specification-based software testing to AI safety. POLARIS first compiles unstructured natural-language policies into First-Order Logic (FOL) representations, establishing a traceable link between high-level rules and concrete test cases. This formalization enables the construction of a Semantic Policy Graph, where complex policy violation scenarios are encoded as traversable paths. By systematically exploring this graph, POLARIS uncovers compositional violation patterns, which are then instantiated into executable natural-language test queries, enabling coverage-driven and reproducible safety testing. Experiments demonstrate that POLARIS achieves higher policy coverage and attack success counts compared to established baselines. Crucially, by bridging formal methods and AI safety, POLARIS provides a principled, automated approach to ensuring LLMs adhere to safety-critical policies with verifiable traceability. We release our code at https://github.com/huac-lxy/POLARIS.
LipoAgent: より安全な脂質設計のための微調整された LLM エージェントの調整
脂質ナノ粒子 (LNP) は、臨床的に最も成熟した核酸送達プラットフォームの 1 つですが、有効かつ生物学的に安全な脂質の設計が依然として大きなボトルネックとなっています。実際のスクリーニングでは、毒性は意思決定レベルの制約です。脂質が毒性がある場合、その効率予測は臨床的に無関係です。私たちは、脂質発見のための安全性を意識したマルチエージェント LLM フレームワークである LipoAgent を提案します。 LipoAgent は、ドメイン固有の微調整と、効率予測の前提条件として毒性を強制する条件付き予測目標を組み合わせ、不一致が続く場合には人による監視を軽減したマルチエージェント検証によって信頼性をさらに向上させます。複数の基礎モデルにわたって、LipoAgent は、報告されている他の脂質設計モデルと比較して、mRNA トランスフェクション効率予測において平均 32% の相対的な向上を達成しています。ウェットラボ検証により、仮想スクリーニングのランキングが生物学的トランスフェクションの結果に確実に反映されることが確認されています。コードは https://github.com/SAI-Lab-NYU/LipoAgent.git で公開されています。
原文 (English)
LipoAgent: Coordinating Fine-Tuned LLM Agents for Safer Lipid Design
Lipid nanoparticles (LNPs) are among the most clinically mature platforms for nucleic acid delivery, yet designing lipids that are both effective and biologically safe remains a major bottleneck. In practical screening, toxicity is a decision-level constraint: if a lipid is toxic, its efficiency prediction is clinically irrelevant. We propose LipoAgent, a safety-aware multi-agent LLM framework for lipid discovery. LipoAgent combines domain-specific finetuning with a conditional prediction objective that enforces toxicity as a prerequisite for efficiency prediction, and further improves reliability via multi-agent verification with lightweight human oversight when disagreement persists. Across multiple foundation models, LipoAgent achieves an average 32% relative improvement in mRNA transfection efficiency prediction compared with other reported models for lipid design. Wet-lab validation confirms that virtual screening rankings reliably translate to biological transfection outcomes. The code is publicly available at https://github.com/SAI-Lab-NYU/LipoAgent.git.
CausaLab: AI 科学者向けのインタラクティブな因果発見のためのスケーラブルな環境
LLM エージェントによるインタラクティブな因果発見を評価するためのスケーラブルな環境である CausaLab を紹介します。以前の評価とは異なり、CausaLab では、エージェントが因果関係の証拠を使用して問題を解決できるかどうか、およびその答えが根底にある因果メカニズムに関する正しい仮説によって裏付けられているかどうかの両方を評価します。各エピソードではエージェントが合成実験室に配置されます。エージェントは以前の測定記録を受け取り、マニピュレーター結晶に介入し、同じ機構によって支配される保持されたリアクター結晶の共振周波数を予測します。隠されたデータ生成プロセスは、ランダムにサンプリングされた構造因果モデル (SCM) であるため、成功するには、事前の知識を思い出すのではなく、因果グラフと構造方程式の両方を回復する必要があります。 CausaLab には、エージェントの進化する SCM 仮説を記録するドメイン固有の言語も含まれており、軌跡を検査可能にしてグラウンド トゥルースと比較できるようになります。実験では、予測とメカニズム回復の間に永続的なギャップがあることが示されています。純粋に観測的な 6 ノード設定では、GPT-5.2-high はタスク精度 92% に達しますが、オールエッジ $F_1$ はわずか 0.471 です。この観察は、さまざまな相互作用戦略の探求をさらに動機づけます: 混合観察 - 介入戦略は構造忠実度を向上させます: 混合 6 ノード設定では、GPT-5.2-high はタスク精度とオールエッジ $F_1$ の両方で 80% を達成しました。しかし、純粋な介入戦略はタスクの精度とオールエッジ $F_1$ の両方においてパフォーマンスが低いため、強力なエージェントですら有益な介入を設計するのに苦労しています。私たちは、エージェントの主要な弱点として早期停止を特定し、仮説と過去のデータとの間の一貫性をモデルに検証するように依頼することが、この問題の軽減に役立つことを示します。したがって、CausaLab は予測の成功を因果関係の理解から切り離し、実験的因果推論者としての現在の LLM エージェントの限界を明らかにします。
原文 (English)
CausaLab: A Scalable Environment for Interactive Causal Discovery Toward AI Scientists
We introduce CausaLab, a scalable environment for evaluating interactive causal discovery by LLM agents. Unlike prior evaluations, CausaLab evaluates both whether an agent can solve a problem using causal evidence and whether its answer is supported by a correct hypothesis about the underlying causal mechanism. Each episode places an agent in a synthetic laboratory: it receives prior measurement records, intervenes on a manipulator crystal, and predicts the resonance frequency of a held-out reactor crystal governed by the same mechanism. The hidden data-generating process is a randomly sampled structural causal model (SCM), so success requires recovering both a causal graph and structural equations rather than recalling prior knowledge. CausaLab also includes a domain-specific language that records the agent's evolving SCM hypothesis, making trajectories inspectable and comparable with ground truth. Experiments show a persistent gap between prediction and mechanism recovery: in the purely observational 6-node setting, GPT-5.2-high reaches 92% task accuracy but only 0.471 all-edge $F_1$. This observation further motivates our exploration of different interaction strategies: Mixed observation--intervention strategies improve structural fidelity: in the mixed 6-node setting, GPT-5.2-high achieves 80% on both task accuracy and all-edge $F_1$. Yet even strong agents struggle to design informative interventions, as pure intervention strategies perform poorly on both task accuracy and all-edge $F_1$. We identify premature stopping as a major weakness of agents, and show that asking the model to verify the consistency between its hypothesis and past data can help mitigate this issue. CausaLab therefore separates predictive success from causal understanding and exposes current LLM agents' limits as experimental causal reasoners.
AI 主導のアルファ減衰: アルゴリズムの均質化、反射的な信号侵食、インテリジェント市場のパラドックス
AI 主導の投資戦略は本質的に大規模化すると自滅するものであることを示します。 AI の導入が進むにつれて、信号の混雑、パフォーマンスによる信号の侵食、レッド クイーンの競争という 3 つの相互強化チャネルが超過収益を圧縮します。アルファ半減期 $h(\phi) = \ln 2/[\theta + \delta(\phi)]$ を導き出します。ここで、$\theta$ は自然平均回帰率、$\delta(\phi) = N\phi\rho a/\lambda(\phi)$ は AI によって加速された減衰成分であり、採用において凸状に減少しています。現在の普及レベル ($\phi \約 0.7$、$\rho \約 0.6$) では、このモデルは信号の半減期が 18 か月であるのに対し、AI 以前は 5 ~ 7 年であることを示唆しています。我々は 4 つの理論的結果を確立します。まず、アルファ半減期定理: AI の導入により信号の寿命は凸状に減少します。第 2 に、信号消滅カスケード: 臨界しきい値 $\phi^*$ を超えると、1 つの信号クラスの減衰が残りの信号に対する競争の加速を引き起こします。第三に、赤の女王の不可能性です。モノカルチャーの均衡では、AI への多額の投資にもかかわらず、純アルファは同様にゼロになります。第 4 に、脆弱性と効率のトレードオフです。価格発見を最大化する導入レベルは、システムの脆弱性を最小化するレベルを厳密に上回っています。実証的検証により、ポートフォリオの収束が SEC フォーム 13F 提出パターン (9,950 万株、2013 ~ 2024 年) に合わせて調整され、シミュレートされた機関投資家ポートフォリオの収束がサンプル期間にわたって 42% 増加することが実証されました。 AIを採用したファンド間の横断的な分散が減少していることを示すシミュレーションされたヘッジファンドのリターンダイナミクスを調査し、脆弱性の影響を説明するために2010年のフラッシュクラッシュをシミュレーションしました。
原文 (English)
AI-Driven Alpha Decay: Algorithmic Homogenization, Reflexive Signal Erosion, and the Paradox of Intelligent Markets
We show that AI-driven investment strategies are inherently self-defeating at scale. As AI adoption rises, three mutually reinforcing channels -- signal crowding, performative signal erosion, and Red Queen competition -- compress excess returns. We derive the alpha half-life $h(\phi) = \ln 2/[\theta + \delta(\phi)]$, where $\theta$ is the natural mean-reversion rate and $\delta(\phi) = N\phi\rho a/\lambda(\phi)$ is the AI-accelerated decay component, which is convex-decreasing in adoption. At current adoption levels ($\phi \approx 0.7$, $\rho \approx 0.6$), the model implies signal half-lives of 18 months versus 5-7 years pre-AI. We establish four theoretical results. First, the alpha half-life theorem: signal lifespans are convex-decreasing in AI adoption. Second, a signal extinction cascade: beyond a critical threshold $\phi^*$, the decay of one signal class triggers accelerated competition for remaining signals. Third, a Red Queen impossibility: in the monoculture equilibrium, net alpha is identically zero despite heavy AI investment. Fourth, a fragility-efficiency tradeoff: the adoption level maximizing price discovery strictly exceeds the level minimizing systemic fragility. Empirical validation calibrates portfolio convergence to SEC Form 13F filing patterns (99.5 million holdings, 2013-2024), documenting that simulated institutional portfolio convergence increases by 42% over the sample period. We examine simulated hedge fund return dynamics showing declining cross-sectional dispersion among AI-adopting funds, and simulate the 2010 Flash Crash to illustrate fragility consequences.
LLM-AutoSciLab: LLM を使用したアクティブな実験によるクローズドループの科学的発見
科学的発見は、仮説がデータ収集を導き、観察によって仮説空間が洗練される閉ループのプロセスです。しかし、ほとんどのアプローチは、発見を固定データセット上の教師あり学習に落とし込み、限定された観察が局所的に適合するが一般化できない複数のもっともらしいメカニズムをサポートできる可能性があります。したがって、重要な課題は、不確実性を解決するために有益な観察を選択し、静的推論から適応的なデータ取得に焦点を移すことです。これに対処するために、仮説生成と仮説条件付き実験の選択およびメカニズムの改良を組み合わせる閉ループ フレームワークである LLM-AutoSciLab を提案します。 LLM-AutoSciLab は、受動的に収集されたデータにモデルを適合させるのではなく、もっともらしい仮説を繰り返し提案し、それらを区別または改良するために有益な実験を選択し、結果として得られた証拠を使用して状態を更新します。アクティブなデータ取得による動的な閉ループ科学的発見を評価するために、2 つのデータセットで構成される ActiveSciBench を導入します。1 つは 57 の酵素動態タスクを含む ActiveSciBench-Chem、もう 1 つは 45 の遺伝子制御ネットワーク タスクを含む ActiveSciBench-GRN です。これらのデータセットは、適応的な実験計画、変数の選択、真のメカニズムの回復を必要とする、予算に制約のあるプロセスとして発見をモデル化します。 NewtonBench、ActiveSciBench-Chem、ActiveSciBench-GRN のいずれにおいても、LLM-AutoSciLab は従来の手法を上回り、NewtonBench と ActiveSciBench-Chem でそれぞれ 67.6% と 35.1% のシンボリック精度を達成し、ActiveSciBench-GRN で 31.1% の正確なグラフ回復を達成しました。さらに、仮説に基づいた実験は、競合する最も強力なベースラインよりもサンプル効率が 2 ~ 5 倍優れています。コードとデータは、https://github.com/scientific-discovery/LLM-AutoSciLab から入手できます。
原文 (English)
LLM-AutoSciLab: Closed-Loop Scientific Discovery via Active Experimentation with LLMs
Scientific discovery is a closed-loop process in which hypotheses guide data acquisition and observations refine the hypothesis space. Yet most approaches reduce discovery to supervised learning over fixed datasets, where limited observations can support multiple plausible mechanisms that fit locally but fail to generalize. Thus, the key challenge is selecting informative observations to resolve uncertainty, shifting the focus from static inference to adaptive data acquisition. To address this, we propose LLM-AutoSciLab, a closed-loop framework that couples hypothesis generation with hypothesis-conditioned experiment selection and mechanism refinement. Rather than fitting models to passively collected data, LLM-AutoSciLab iteratively proposes plausible hypotheses, selects informative experiments to distinguish or refine them, and updates its state using the resulting evidence. To evaluate dynamic, closed-loop scientific discovery with active data acquisition, we introduce ActiveSciBench, comprising two datasets: ActiveSciBench-Chem with 57 enzyme-kinetics tasks and ActiveSciBench-GRN with 45 gene-regulatory-network tasks. These datasets model discovery as a budget-constrained process requiring adaptive experiment design, variable selection, and recovery of true mechanisms. Across NewtonBench, ActiveSciBench-Chem, and ActiveSciBench-GRN, LLM-AutoSciLab outperforms prior methods, achieving 67.6% and 35.1% symbolic accuracy on NewtonBench and ActiveSciBench-Chem, respectively, and 31.1% exact graph recovery on ActiveSciBench-GRN. Moreover, hypothesis-guided experimentation is 2-5x more sample-efficient than the strongest competing baselines. Code and data are available at: https://github.com/scientific-discovery/LLM-AutoSciLab
TRACER: コード LLM におけるきめ細かい汚染検出のためのセマンティック認識フレームワーク
データ汚染は、モデル評価の信頼性に対する既知の脅威です。ただし、コード大規模言語モデル (LLM) では、汚染が正確な複製を超えてしまうことがよくあるため、依然として研究が進んでいません。私たちは、きめ細かいコード汚染検出のためのセマンティクスを意識したフレームワークである TRACER を紹介します。 TRACER は、機能的に同一、ほぼ同一、共有ロジックという 3 つのレベルのセマンティック重複を使用して汚染をモデル化し、粗いパイプラインから細かいパイプラインを通じてそれらを検出します。また、広く使用されている 3 つのベンチマークと 3 つの代表的なトレーニング後のデータセットにわたる、きめ細かいコード汚染検出のための最初のベンチマークも紹介します。 TRACER は複数の LLM バックボーンにわたって強力で一貫したパフォーマンスを実現し、GPT-5 はきめ細かい検出で F1 スコア 0.91 に達しました。バイナリ設定では、TRACER は F1 0.92 を達成し、既存の方法を 42% ~ 217% 上回ります。さらに、TRACER の個々のコンポーネントの寄与を評価するために、アブレーション研究とエラー分析を実施します。
原文 (English)
TRACER: A Semantic-Aware Framework for Fine-Grained Contamination Detection in Code LLMs
Data contamination is a known threat to the reliability of model evaluation. However, it remains underexplored in code large language models (LLMs), where contamination often goes beyond exact duplication. We present TRACER, a semantic-aware framework for fine-grained code contamination detection. TRACER models contamination using three levels of semantic overlap - Functionally Identical, Nearly Identical, and Shared Logic - and detects them through a coarse-to-fine pipeline. We also introduce the first benchmark for fine-grained code contamination detection, spanning three widely used benchmarks and three representative post-training datasets. TRACER achieves strong and consistent performance across multiple LLM backbones, with GPT-5 reaching an F1 score of 0.91 in fine-grained detection. In the binary setting, TRACER attains an F1 of 0.92, outperforming existing methods by 42%-217%. We further conduct ablation studies and error analysis to assess the contributions of individual components in TRACER.
評価工学に向けて: 実環境における ML 評価ハーネスの実証的研究
評価ハーネスは、モデルの呼び出し、データの読み込み、メトリクスの計算、結果レポートを管理することによってモデルの評価を調整するソフトウェア システムです。機械学習インフラストラクチャにおける重要な役割にもかかわらず、その運用上の課題やエンジニアリング上の懸念は、これまでのところあまり注目されていません。 57 の評価ハーネスに関する実証研究を紹介し、5 段階のハーネス モデルを導き出し、16,560 件の問題をワークフローの段階と根本原因ごとに分類しました。ハーネスの運用上の課題のほとんどは、ハーネスが外部モデル、データセット、採点審査員を統合する仕様段階 (問題の 41.4%) に集中しています。運用上の問題で最も頻繁に発生する 3 つの根本原因は、未実装の機能 (24.3%)、ドキュメントのギャップ (20.3%)、および入力検証の欠如 (17.2%) であり、これらは合わせて分類された問題の 61.7% を占め、既存の機能の欠陥と、意図したワークフローをブロックする機能のギャップの両方に及びます。根本原因はワークフローの段階によっても異なります。環境の非互換性と外部依存関係の破損がプロビジョニングの問題の 36.2% を占めますが、アルゴリズム エラー (25.9%) と検証ギャップ (22.5%) が評価の問題の大半を占めています。これらの貢献により、評価エンジニアリングを別個のソフトウェア エンジニアリングの問題として扱うための経験的基盤が確立されます。
原文 (English)
Towards Evaluation Engineering: An Empirical Study of ML Evaluation Harnesses in the Wild
Evaluation harnesses are software systems that orchestrate model evaluation by managing model invocation, data loading, metric computation, and result reporting. Despite their critical role in machine learning infrastructure, their operational challenges and engineering concerns have received limited attention so far. We present an empirical study of 57 evaluation harnesses, deriving a five-stage harness model and classifying 16,560 issues by workflow stage and root cause. Most harness operational challenges concentrate in the Specification stage (41.4% of issues), where harnesses integrate external models, datasets, and scoring judges. The three most frequent root causes of operational challenges are unimplemented features (24.3%), documentation gaps (20.3%), and missing input validation (17.2%), which together account for 61.7% of classified issues, spanning both defects in existing functionality and capability gaps that block intended workflows. Root causes also vary by workflow stage: environment incompatibility and external dependency breakage account for 36.2% of provisioning issues, whereas algorithmic error (25.9%) and validation gap (22.5%) dominate assessment issues. Together, these contributions establish an empirical foundation for treating evaluation engineering as a distinct software engineering concern.
詳細な憲法定義と AI を活用した評価によりラベルの一貫性を向上
多くの自動ラベル付けパイプラインは、入力を仕様書で定義されたカテゴリに分類しており、コンテンツのモデレーションが顕著な使用例です。単純なカテゴリ定義では、ラベラーがこれらのパイプラインに必要な正確で一貫性のあるゴールデン ラベルを作成できるほど詳細ではありません。解決策の 1 つは、ラベリング担当者が文書化された解釈に同意できないほど実際の境界ケースを解決する規範的な定義を作成することです。実際には、その詳細レベルの定義は人間のアノテーターが作業記憶に保持できる範囲を超えているため、アノテーターは直感に頼り、ラベルは文書化されたルールから逸脱し、精度と一貫性が低下します。私たちは、AI 主導のワークフローの有効性を提案および実証します。AI は、エッジ ケースをカバーするのに十分詳細にラベルを定義するカテゴリごとの構成の作成を支援し、フロンティア LLM が入力ごとにそれを解釈して、人間が同じ文書を読むよりも一貫性と正確なゴールデン ラベルを生成します。私たちはコンテンツモデレーションの 3 つのカテゴリ (ハラスメント、ヘイトスピーチ、非暴力犯罪) を評価し、このアプローチにより、モデル間の不一致が仕様のギャップを診断し、個々のラベル付けの呼び出しではなく、各カテゴリが何を意味するかについての高レベルの決定を担当する人間が担当することにより、モデル間の不一致が段落定義と比較して最大 57 倍削減されることを示しました。安全性評価については、会話全体にわたって意図と内容を個別にスコアリングする二重軸の定式化を導入しているため、下流の消費者はどちらかの軸または両方に基づいて行動できます。
原文 (English)
Improving Labeling Consistency with Detailed Constitutional Definitions and AI-Driven Evaluation
Many automated labeling pipelines classify inputs into categories defined by a written specification, content moderation being a prominent use case. Simple category definitions are not detailed enough for labelers to produce the accurate, consistent golden labels these pipelines require. One solution is to write a prescriptive definition that settles enough real boundary cases that labelers cannot disagree with the written interpretation. In practice, definitions at that level of detail exceed what a human annotator can hold in working memory, so annotators fall back on intuition and the labels drift from the written rules, regressing on accuracy and consistency. We propose and demonstrate the efficacy of an AI-driven workflow in which AI helps write a per-category constitution that defines the label in enough detail to cover edge cases, and a frontier LLM interprets it on each input to produce the golden label more consistently and accurately than humans reading the same document. We evaluate on three content moderation categories (harassment, hate speech, non-violent crime) and show that the approach reduces cross-model inconsistency by up to 57x compared to paragraph definitions, with cross-model disagreement diagnosing specification gaps and the human responsible for high-level decisions about what each category should mean rather than individual labeling calls. For the safety evaluation, we introduce a dual-axis formulation scoring intent and content independently over the full conversation, so downstream consumers can act on either axis or both.
特許埋め込みのベンチマーク: 検索、分類、クラスタリングにわたる 22 モデルのマルチタスク評価
どの微調整シグナルが特許埋め込みモデルを改善しますか?また、利益は特許環境全体に移行しますか? 22M パラメータのエンコーダから 12B の命令調整 LLM まで、検索、分類、クラスタリングに関して 22 の埋め込みモデルのベンチマークを行います。この研究では、113,148 件の WIPO 支援技術特許、46,069 件の引用グラフ検索クエリ、および外部検証用の公開 DAPFAM データセットを使用しています。当社のフレームワークは、引用ベースの検索、ハイブリッド疎密融合、5 つのデータセットにわたるマルチラベル分類、教師なしクラスタリング、6 つのテキスト セクション ビュー、4 つのモデルのドメイン適応微調整、管轄分析、および独自の DWPI (Derwent World Patents Index、Clarivate) の専門家が執筆したコンテンツをカバーしています。結果は、微調整がタスクに依存していることを示しています。単一ランドスケープの調整はドメイン内のスコアを改善できますが、外部ランドスケープでの取得に悪影響を与えることが多く、より多くのドメイン データが常に役立つという仮定に疑問を呈します。モデル ファミリ内では、通常、スケールによってパフォーマンスが予測されます (Qwen3 0.6B から 4B から 8B、Llama-Nemotron 1B から 8B)。ただし、ファミリ間のスケーリングにはノイズが多く、12B KaLM-Gemma3 は TAC 検索で 8 位にランクされますが、Qwen3-0.6B は ARI クラスタリングで首位に立っています。 Title+Abstract+Claims は最も信頼性の高いテキスト表現です。マルチビューの抽象クレームの調整により、検索が nDCG@10 で最大 7.1 パーセント向上し、微調整の組み合わせにより最も強力な分類ゲイン (+7.1 F1) が得られます。すべてのモデルはドメイン外クエリで 55 ~ 65% 低下しますが、ハイブリッドの疎-密融合ではこのギャップは埋められません。 BM25 密補間では、適度な nDCG@10 ゲイン (+0.002 ~ +0.015) が得られますが、より弱いゼロショット密モデルでは大きな利点が得られます。コードと評価フレームワークは公開されています。
原文 (English)
Benchmarking Patent Embeddings: A Multi-Task Evaluation of 22 Models Across Retrieval, Classification, and Clustering
Which fine-tuning signals improve patent embedding models, and do gains transfer across patent landscapes? We benchmark 22 embedding models, from 22M-parameter encoders to 12B instruction-tuned LLMs, on retrieval, classification, and clustering. The study uses 113,148 WIPO assistive-technology patents, 46,069 citation-graph retrieval queries, and the public DAPFAM dataset for external validation. Our framework covers citation-based retrieval, hybrid sparse-dense fusion, multi-label classification over five datasets, unsupervised clustering, six text-section views, domain-adaptive fine-tuning of four models, jurisdiction analysis, and proprietary DWPI (Derwent World Patents Index, Clarivate) expert-written content. Results show that fine-tuning is task-dependent: single-landscape tuning can improve in-domain scores but often hurts retrieval on an external landscape, challenging the assumption that more domain data always helps. Within model families, scale usually predicts performance (Qwen3 0.6B to 4B to 8B; Llama-Nemotron 1B to 8B), but cross-family scaling is noisy: the 12B KaLM-Gemma3 ranks 8th on TAC retrieval, while Qwen3-0.6B leads ARI clustering. Title+Abstract+Claims is the most reliable text representation. Multi-view abstract-claim alignment improves retrieval by up to 7.1 percent nDCG@10, while combined fine-tuning gives the strongest classification gains (+7.1 F1). All models drop by 55-65 percent on out-of-domain queries, and hybrid sparse-dense fusion does not close this gap. BM25-dense interpolation gives modest nDCG@10 gains (+0.002 to +0.015), with larger benefits for weaker zero-shot dense models. Code and evaluation framework are publicly available.
プロンプト方式全体にわたる LLM 生成コードのセキュリティの実証的評価
自動コード生成のための大規模言語モデル (LLM) の使用の増加により、ソフトウェア開発の効率が向上しましたが、多くの場合、セキュリティが犠牲になります。生成されたコードは重大な問題を見落とすことが多く、暗号化が弱く、入力検証が不適切であるなどの問題に対して脆弱なままになっています。この問題を調査するために、5 つの LLM と 4 つのプログラミング言語 (Java、C++、C、Python) にわたる LLM 生成コードのセキュリティ品質の包括的な実証的評価を示し、複数のプロンプト エンジニアリング手法の影響を調べます。モデル推論をガイドする CWE マッピングを使用して、セキュリティ コンテキストでプロンプトを充実させる、弱点を認識したゼロショット思考連鎖 (WA-0CoT) プロンプト戦略を導入します。カイ二乗検定に裏付けられた当社の実証分析では、プロンプト手法全体で脆弱性の頻度や密度に統計的に有意な減少は見られませんでした。ただし、WA-0CoT を含むプロンプト戦略は CWE カテゴリの構成分布に体系的に影響を与え、その効果はプログラミング言語によって異なります。これらの調査結果は、セキュリティを意識したプロンプトによって生成された弱点の構造が変化する一方で、全体的な脆弱性レベルを確実に低減するにはプロンプト エンジニアリングだけでは不十分であることを示唆しています。この結果は、LLM で生成されたコードのセキュリティ プロパティを評価する際に、言語とモデルを意識したプロンプト設計の重要性を強調しています。
原文 (English)
An Empirical Evaluation of LLM-Generated Code Security Across Prompting Methods
The growing use of Large Language Models (LLMs) for automated code generation has enhanced software development efficiency, but often at the cost of security. Generated code frequently overlooks critical concerns, leaving it vulnerable to issues such as weak encryption and improper input validation. To investigate this problem, we present a comprehensive empirical evaluation of the security quality of LLM-generated code across five LLMs and four programming languages (Java, C++, C, and Python), examining the impact of multiple prompt engineering methods. We introduce a weaknesses-aware zero-shot chain-of-thought (WA-0CoT) prompting strategy that enriches prompts with security context using CWE mappings to guide model reasoning. Our empirical analysis, supported by chi-square tests, finds no statistically significant reductions in vulnerability frequency or density across prompt methods. However, prompting strategies, including WA-0CoT, systematically influence the compositional distribution of CWE categories, with effects varying by programming language. These findings suggest that while security-aware prompting alters the structure of generated weaknesses, prompt engineering alone is insufficient to reliably reduce overall vulnerability levels. The results highlight the importance of language-aware and model-aware prompt design when evaluating the security properties of LLM-generated code.
HoloFair: 統合された T2I 公平性評価と Fair-GRPO のバイアス軽減
Text-to-Image (T2I) モデルは、視覚的なリアリズムと意味の一貫性において大幅な進歩を遂げましたが、社会的な偏見を永続させ、増幅させることがよくあります。既存の評価方法は通常、一次元のバイアスのみに対処しており、社会関連のより深い意味レベルでモデルのバイアスを明らかにする視点が欠けています。多次元の人口統計的バイアス分析のための包括的なベンチマーク フレームワークである HoloFair を紹介します。このフレームワークは、大規模な公平性指向のデータセットと SpaFreq (空間周波数) 属性分類器に基づいて構築されており、本質的な多様性と条件付きバイアスの両方を評価するように設計された、複数属性グループワイズ バイアス インデックス (MGBI) メトリクスを提案しています。評価を超えて、設計された多目的報酬関数を通じて生成モデルの分布を変更する強化学習ベースのバイアス除去手法である Fair-GRPO をさらに導入します。たとえば、SD3.5-Medium モデルの実験では、Fair-GRPO が高画質を維持しながら多次元の公平性を大幅に向上させることが実証されています。また、潜在的な報酬ハッキング現象を分析し、対応する緩和戦略を提供します。コードとデータセットは https://github.com/1059684669/HoloFair で入手できます。
原文 (English)
HoloFair: Unified T2I Fairness Evaluation and Fair-GRPO Debiasing
Text-to-Image (T2I) models have made significant strides in visual realism and semantic consistency, yet they often perpetuate and amplify societal biases. Existing evaluation methods typically address only single-dimensional biases, lacking perspectives to uncover model biases at social-related deeper semantic levels. We introduce HoloFair, a comprehensive benchmark framework for multidimensional demographic bias analysis. Built upon our large-scale fairness-oriented dataset and the SpaFreq (Spatial-Frequency) attribute classifier, this framework proposes the Multi-attribute, Group-wise Bias Index (MGBI) metric, designed to assess both intrinsic diversity and conditional biases. Beyond evaluation, we further introduce Fair-GRPO, a reinforcement-learning-based debiasing method that alters the distribution of generative models through a designed multi-objective reward function. E.g., experiments on the SD3.5-Medium model demonstrate that Fair-GRPO significantly improves multidimensional fairness while maintaining high image quality. We also analyze potential reward hacking phenomena and provide corresponding mitigation strategies. Code and dataset are available at https://github.com/1059684669/HoloFair
Multiscale Real-Time Object Detection in the NMS-Free Era: A Comparative Performance Evaluation of YOLOv8 and YOLO26
Non-Maximum Suppression (NMS) remains a key post-processing step in many real-time object detection pipelines, but it can introduce latency…
When Reasoning Hurts: Source-Aware Evaluation of Frontier LLMs for Clinical SOAP Note Generation
Reasoning-enabled LLMs perform strongly on medical reasoning benchmarks, but it remains unclear whether these gains transfer to structured…
RealBench: Benchmarking Data-Driven Numerical Weather Forecasting Under Operational Conditions and Extreme Event Challenges
Accurate evaluation of weather forecasting models is critical for their reliable deployment in real-world applications. However, existing b…
Security in the Fine-Tuning Lifecycle of Large Language Models: Threats, Defenses,Evaluation, and Future Directions
Background: Fine-tuning is central to adapting pre-trained Large Language Models (LLMs) to downstream tasks, but its reliance on training d…
JudgmentBench: Comparing Rubric and Preference Evaluation for Quality Assessment
Two methodologies dominate current practices of benchmarking: rubric-based scoring evaluates items against predefined criteria, whereas com…
Subspace-Guided Semantic and Topological Invariant Registration for Annotation-Free Ultrasound Plane Quality Control
Reliable quality control (QC) of ultrasound images is essential for both real-time acquisition guidance and retrospective clinical audit, y…
SomaliBench Eval: Measuring English-to-Somali Refusal Gaps in Open-Weight Language Models
Large language model safety evaluation remains heavily English-centered, leaving low-resource languages under-measured even when models are…
A Multi-Agent LLM Framework for Rating the Quality of Surgical Feedback
Verbal feedback delivered by attending surgeons in the operating room plays a critical formative role in resident trainee skill acquisition…
Referential Security as a New Paradigm for AI Evaluations
Security evaluations inherently depend on stable identifiers. Any finding, audit, or regulatory decision must remain attached to the specif…
Context-Instrumental Data Distillation for Kubernetes Manifest Generation: Method and Experimental Evaluation
This paper examines the specialization of Small Language Models (SLMs) with up to 4 billion parameters for generating artifacts in domain-s…
Quantitative Evaluation of the Severity of Posttraumatic Stress Disorder through Transfer Learning from Specific Phobia Data
Posttraumatic stress disorder (PTSD) is a prevalent and debilitating mental health condition with significant personal and societal impacts…
QUIET: A Multi-Blank Cascaded Story Cloze Benchmark for LLM Creative Generation Capability
Large language models (LLMs) face a dual challenge in creative capability evaluation: existing benchmarks (e.g., Story Cloze Test, HellaSwa…
AI-Assisted Systematization for Evaluating GenAI Systems
Evaluating generative AI (GenAI) systems is challenging because many targets of evaluation are broad, contested concepts, such as "reasonin…
When Gradients Collide: Failure Modes of Multi-Objective Prompt Optimization for LLM Judges
Customizing an LLM judge to a specific task or domain often involves optimizing its prompt across multiple evaluation criteria simultaneous…
Beyond the Final Answer: Evaluating the Reasoning Trajectories of Tool-Augmented Agents
Although recent tool-augmented benchmarks involve complex requests, evaluation remains limited to answer matching, neglecting critical traj…
From Prompt Optimization to Multi-Dimensional Credibility Evaluation: Enhancing Trustworthiness of Chinese LLM-Generated Liver MRI Reports -- with Preliminary Extension to Lung Cancer
Large language models (LLMs) have demonstrated promising performance in generating diagnostic conclusions from imaging findings, thereby su…
Why Your Deep Research Agent Fails? On Hallucination Evaluation in Full Research Trajectory
Diagnosing failure patterns in Deep Research Agents (DRAs) remains a critical challenge. Existing benchmarks predominantly rely on end-to-e…
OASES: Outcome-Aligned Search-Evaluation Co-Training for Agentic Search
Agentic search enables language models to solve knowledge-intensive tasks by adaptively acquiring external evidence over multiple steps. Re…
UniToolCall: Unifying Tool-Use Representation, Data, and Evaluation for LLM Agents
Tool-use capability is a fundamental component of LLM agents, enabling them to interact with external systems through structured function c…
ECUAS$_n$: A family of metrics for principled evaluation of uncertainty-augmented systems
In high-stakes automated decision-making, access to predictive uncertainty is essential for enabling users -- human or downstream systems -…
Smart Timing for Mining: A Deep Learning Framework for Bitcoin Hardware ROI Prediction
Bitcoin mining hardware acquisition requires strategic timing due to volatile markets, rapid technological obsolescence, and protocol-drive…
RCTs & Human Uplift Studies: Methodological Challenges and Practical Solutions for Frontier AI Evaluation
Human uplift studies, or studies that measure the effects of AI access on human performance via randomized controlled trials (RCT) or simil…
Is Human Annotation Necessary? Iterative MBR Distillation for Error Span Detection in Machine Translation
Error Span Detection (ESD) is a crucial subtask in Machine Translation (MT) evaluation, aiming to identify the location and severity of tra…
Real vs. Semi-Simulated: Rethinking Evaluation for Treatment Effect Estimation
Estimating heterogeneous treatment effects with machine learning has attracted substantial attention in both academic research and industri…
LLM が推論するのはいつですか?エントロピー相転移による動的システムの視点
Chain-of-thought (CoT) reasoning has become the default strategy for enhancing LLM capabilities, yet its application raises a fundamental question: when is explicit reasoning actually beneficial?経験的証拠は、顕著な矛盾を明らかにしています。CoT は、多くの場合、トークン消費量を増大させながら、事実に基づいた無制限のタスクに対してわずかな利益、またはマイナスの利益さえ提供します。この研究では、LLM 推論がタスクやモデルの静的な特性ではなく、生成中に現れる \emph{動的復号状態} であることを示します。体系的な分析を通じて、初期段階のエントロピー ダイナミクスがこの状態の信頼できるシグナルを提供することを発見しました。CoT の恩恵を受けるタスクは一貫したエントロピーの減少を示しますが、他のタスクは不安定または増加するパターンを示します。この動作は、高エントロピー探索体制から低エントロピー構造推論体制への相転移のような移行として解釈できます。これらの洞察に基づいて、我々は、早期デコードエントロピーを活用して推論戦略を適応的に選択する、軽量でトレーニング不要のルーティングフレームワークである \textbf{EDRM} (エントロピーダイナミクスベースの推論マニホールド) を提案します。 EDRM は、エントロピーの軌跡をコンパクトで解釈可能な多様体表現に埋め込み、ゼロショット デプロイメントときめ細かいインスタンス レベルの適応の両方を可能にします。さまざまなスケールとアーキテクチャの 15 のベンチマークと 4 つの LLM にわたって、EDRM は一貫して静的ベースラインを上回っています。データセット レベルでは、EDRM は \textbf{41--55\%} トークンの削減を達成しながら、わずか 50 個のキャリブレーション サンプルで精度を向上させます。インスタンス レベルでは、\textbf{27--45\%} トークンの節約を維持しながら、精度が最大 \textbf{4.7\%} まで向上します。これらの結果は、推論はデフォルトではなく選択的に呼び出される必要があることを示唆しており、効率的で適応的な LLM 推論に対するエントロピー駆動型の復号制御の有効性を示しています。
原文 (English)
When Do LLMs Reason? A Dynamical Systems View via Entropy Phase Transitions
Chain-of-thought (CoT) reasoning has become the default strategy for enhancing LLM capabilities, yet its application raises a fundamental question: when is explicit reasoning actually beneficial? Empirical evidence reveals a striking paradox: CoT often provides marginal or even negative gains on factual and open-ended tasks while multiplying token consumption. In this work, we show that LLM reasoning is not a static property of tasks or models, but a \emph{dynamic decoding state} that emerges during generation. Through systematic analysis, we find early-stage entropy dynamics provide a reliable signal of this state: tasks benefiting from CoT exhibit consistent entropy reduction, while others display unstable or increasing patterns. This behavior can be interpreted as a phase-transition-like shift from a high-entropy exploratory regime to a low-entropy structured reasoning regime. Based on these insights, we propose \textbf{EDRM} (Entropy Dynamics-based Reasoning Manifold), a lightweight and training-free routing framework that leverages early decoding entropy to adaptively select inference strategies. EDRM embeds entropy trajectories into a compact and interpretable manifold representation, enabling both zero-shot deployment and fine-grained instance-level adaptation. Across 15 benchmarks and 4 LLMs of varying scales and architectures, EDRM consistently outperforms static baselines. At the dataset level, EDRM achieves \textbf{41--55\%} token reduction while improving accuracy with as few as 50 calibration samples. At the instance level, it further improves accuracy by up to \textbf{4.7\%} while maintaining \textbf{27--45\%} token savings. These results suggest that reasoning should be invoked selectively rather than by default, and demonstrate the effectiveness of entropy-driven decoding control for efficient and adaptive LLM inference.
ランダムよりも悪い: 教師なし特徴選択のベースラインの重要性
毎年、多くの新しい教師なし特徴選択手法が提案されていますが、その経験的評価は、既存の手法との比較とともに、選択されたデータセットで計算された教師ありおよび教師なしの評価メトリクスに限定されています。ただし、確立された評価ベースラインが存在しない場合、これらの各方法によって既存の文献に付加される価値や、その基礎となるアプローチがどれほど効果的であるかを判断することは困難です。教師なし特徴選択方法を評価するためのベースラインとしてランダム特徴選択を使用することを提案します。私たちは、教師なし特徴選択における最先端の手法の多くが、パフォーマンスと効率の両方においてランダム特徴選択よりも優れていることを経験的に示しています。したがって、ランダムな特徴選択よりも一貫した改善を確実にするために、新しい教師なし特徴選択方法の開発プロセスのベースラインとしてランダムな特徴選択を考慮するという厳格な要件を強調します。
原文 (English)
Worse than Random: The Importance of a Baseline for Unsupervised Feature Selection
Many novel unsupervised feature selection methods are proposed each year, yet their empirical evaluation is limited to supervised and unsupervised evaluation metrics computed on selected datasets, along with comparisons to existing methods. However, in the absence of an established evaluation baseline, it is difficult to determine the value added to the existing literature by each of these methods, and how effective their underlying approaches are. We propose using random feature selection as a baseline for evaluating the unsupervised feature selection methods. We empirically show that many of the state-of-the-art methods in unsupervised feature selection are outperformed by random feature selection in both performance and efficiency. Accordingly, we emphasize on the strict requirement of considering random feature selection as a baseline in the development process of novel unsupervised feature selection methods to ensure a consistent improvement over random feature selection.
評価意識の分解と測定
フロンティア言語モデルは、評価されていることを認識して動作を調整し、ベンチマーク結果の妥当性を損なうことがあります。しかし、現場では共通の基礎を持たずに評価の特性とモデルの特性、検出と行動反応を混同して研究が行われています。私たちは評価意識を社会心理学に基礎づけ、評価意識を環境要素 (課題がどの程度認識されているか) と、認識をそれに基づいて行動する傾向から分離するモデル要素に分解します。プレースホルダー エンティティや採点スタイルの出力形式など、8 つの分類されたトリガー要因を通じて環境コンポーネントを運用し、思考連鎖のモニタリングを通じて認識と行動を研究します。 9 つのフロンティア モデルと 4 つのベンチマークにわたって、認識率はモデルとベンチマークのどちらか単独ではなく、モデルとベンチマークの特定の組み合わせに依存します。認識が行動の変化につながることはほとんどありませんが、変化する場合、その方向性は認識された評価の種類によって異なります。また、モデルは機能評価よりも安全性に対して敏感であり、安全性ベンチマークの妥当性がより大きなリスクにさらされます。各モデルがどの要因に敏感で、それらがどのように相互作用するかを研究するために、8 つの要因のそれぞれを独立して切り替えることができ、基礎となる要求を固定したまま評価信号を変化させる、100 のペアの安全機能タスクの要因制御ベンチマークである \textbf{EvalAwareBench} を提案します。 EvalAwareBench を通じて、単一の要素がすべてのモデルに均一に影響を与えることはなく、要素を積み重ねることですべてのモデルにわたる評価の意識が徐々に向上することがわかりました。私たちのフレームワークと EvalAwareBench は、評価意識を測定、属性付け、軽減するためのツールを提供し、将来有望な道として認識される下での行動の一貫性を示します。
原文 (English)
Decomposing and Measuring Evaluation Awareness
Frontier language models sometimes recognize that they are being evaluated and adjust their behavior, undermining validity of benchmark results. Yet the field studies it without a shared foundation, conflating properties of the evaluation with properties of the model, and detection with behavioral response. We ground evaluation awareness in social psychology, decomposing it into an environment component (how recognizable the task is) and a model component that separates recognition from propensity to act on it. We operationalize the environment component through eight categorized trigger factors, such as placeholder entities and grading-style output formats, and study recognition and behavior through chain-of-thought monitoring. Across nine frontier models and four benchmarks, recognition rates depend on the specific pairing of model and benchmark rather than on either in isolation. Recognition rarely leads to behavioral change, and when it does, the direction depends on the type of evaluation perceived. Models are also more sensitive to safety than capability evaluations, placing safety benchmark validity at greater risk. To study which factors each model is sensitive to and how they interact, we propose \textbf{EvalAwareBench}, a factor-controlled benchmark of 100 paired safety-capability tasks where each of the eight factors can be independently toggled, varying evaluative signals while holding the underlying request fixed. Through EvalAwareBench, we find that no single factor uniformly affects all models, but stacking factors progressively raises evaluation awareness across all of them. Our framework and EvalAwareBench provide the tools to measure, attribute, and mitigate evaluation awareness, pointing to behavioral consistency under recognition as a promising path forward.
ロングコンテキスト LLM の位置の失敗: 推論ベンチマークの盲点
位置制御された評価は、Needle-in-a-Haystack や RULER などの検索タスクの標準ですが、主流の推論ベンチマークは、長いコンテキストでのターゲット タスクの位置配置を制御しません。 11 個の長いコンテキストのベンチマークを監査したところ、タスクの位置、フィラーの内容、および推論のためのコンテキストの長さを共同で制御するものはありませんでした。 4 つの主力ロングコンテキスト リリースの監査では、NIAH、RULER、または LongBench ファミリー ベンチマークのメイン結果テーブル エントリは見つかりませんでしたが、エージェント ベンチマークとコーディング ベンチマークは 4 つすべてのメイン結果テーブルに表示されます。私たちは、3 つの要素すべてを変化させる制御されたフレームワークであるコンテキスト ロット評価 (CRE) を提案し、GSM8K と ARC-Challenge の 9 つの LLM を 2 つのラウンド (初期 5 モデル セットと 4 つの新しいベンダー リリース) にわたって評価します。ターゲット タスクが端から中間に移動するとモデルが急激に低下する可能性があり、脆弱なモデルのコンテキストの長さが増すにつれて低下はさらに悪化します。 MiMo-v2-Flash は、with_solutions フィラーの下で 64K で 88pp 低下します (中精度 8%)。新しいリリースでは低下が小さくなっています。64K では、4 つのうち 3 つが終了位置精度の +/-6pp 以内に留まっています。 MiMo-V2.5-Pro は、MiMo-v2-Flash の 88pp の低下を 32pp に狭めます。 question_only_v2 フィラーでは、4 つすべてで中間位置の低下が持続します (8K、32K、64K で -16pp から -56pp の範囲)。 8K では、最後にターゲット タスクのコピーを追加する診断プローブにより、9 つのモデルすべてで終了ベースラインの +/-4pp 以内の中程度の精度が得られ、位置の説明と一致します。最初の 5 つのモデル セットでは、中間位置のエラーの 76% が周囲のフィラー テキストと一致するのに対し、終了位置では 22% であり、主要なエラー モードとしてのフィラーと回答の干渉と一致しています。これらの結果は、現在の推論ベンチマーク設計とベンダー評価実践における構造的な評価のギャップを明らかにしています。タスクの位置が制御されていない場合、コンテキストの長さとともに増大する位置の脆弱性は測定できません。
原文 (English)
Positional Failures in Long-Context LLMs: A Blind Spot in Reasoning Benchmarks
Position-controlled evaluation is standard for retrieval tasks such as Needle-in-a-Haystack and RULER, but mainstream reasoning benchmarks do not control positional placement of target tasks in long contexts. We audit 11 long-context benchmarks and find none jointly controls task position, filler content, and context length for reasoning. An audit of four flagship long-context releases finds no main result-table entry for NIAH, RULER, or LongBench-family benchmarks, while agentic and coding benchmarks appear in main result-tables across all four. We propose Context Rot Evaluation (CRE), a controlled framework varying all three factors, and evaluate nine LLMs on GSM8K and ARC-Challenge across two rounds: an initial five-model set and four newer vendor releases. Models can drop sharply when the target task moves from end to middle, and the drop grows worse with context length for vulnerable models. MiMo-v2-Flash drops 88pp at 64K under with_solutions filler (middle accuracy 8%). Newer releases show smaller drops: at 64K, three of four stay within +/-6pp of end-position accuracy; MiMo-V2.5-Pro narrows the MiMo-v2-Flash 88pp drop to 32pp. Under questions_only_v2 filler, middle-position drops persist across all four (range -16pp to -56pp across 8K, 32K, 64K). At 8K, a diagnostic probe adding a target-task copy at the end brings middle accuracy within +/-4pp of end baseline across all nine models, consistent with a positional explanation. In the initial five-model set, 76% of middle-position errors match surrounding filler text versus 22% at the end position, consistent with filler-answer interference as a dominant error mode. These results expose a structural evaluation gap in current reasoning benchmark design and vendor evaluation practice: positional vulnerabilities that grow with context length cannot be measured when task position is not controlled.
メタ学習による費用対効果の高いモデル評価
機械学習の急速な成長により、拡大し続けるモデルのエコシステムが生み出され、目に見えないラベルのないデータに対して新しくリリースされたモデルの信頼性を検証することがますます困難になっています。従来の評価パイプラインは、高価なアノテーション、繰り返しの微調整、またはモデル ファミリ間での転送ができない狭い仮定に依存しています。さまざまなアーキテクチャやモダリティにまたがる未確認のモデルをラベルなしで迅速に評価するための、コスト効率が高く、モデルに依存しないフレームワークである MetaEvaluator を紹介します。 MetaEvaluator は、参照モデルのプールに対するメタ学習を利用して転送可能な初期化を取得し、プール全体でコストを償却しながら、モデルごとの再トレーニングの必要性を排除しながら、新しいモデルの正確な評価を可能にします。私たちの知る限り、これは完全にラベルのないデータセットで新しいモデルを評価できる、モデルに依存しない最初のフレームワークです。広範な実験により、MetaEvaluator は従来のアプローチと比較して大幅にコストを削減しながら安定した正確なパフォーマンス推定値を生成し、ラベルのないデータに対する新しいモデルのスケーラブルなベンチマークを実用化できることが示されています。
原文 (English)
Cost-Effective Model Evaluation with Meta-Learning
The rapid growth of machine learning has produced an ever-expanding ecosystem of models, making it increasingly challenging to verify the reliability of newly released models on unseen, unlabeled data. Conventional evaluation pipelines depend on expensive annotation, repeated fine-tuning, or narrow assumptions that fail to transfer across model families. We present MetaEvaluator, a cost-effective, model-agnostic framework for rapid, label-free assessment of unseen models spanning diverse architectures and modalities. MetaEvaluator leverages meta-learning over a pool of reference models to obtain a transferable initialization, enabling accurate evaluation of new models while amortizing cost across the pool and removing the need for per-model retraining. To the best of our knowledge, this is the first model-agnostic framework capable of evaluating new models on entirely unlabeled datasets. Extensive experiments show that MetaEvaluator produces stable and accurate performance estimates at substantially reduced cost compared to conventional approaches, making scalable benchmarking of emerging models on unlabeled data practical.
時間的概念ドリフトの下での敵対的脆弱性: Android マルウェア検出の縦断的研究
エミュレータと実際のデバイスの実行から抽出された静的および動的特徴表現を使用して、10 年以上の Android アプリケーションにわたる敵対的堅牢性の長期的なドリフトを意識した評価を示します。データセットは年ごとのスライスに編成され、現実的な学習シナリオをエミュレートする 3 つの導入プロトコルに基づいて評価されます。(1) 同年のトレーニングとテスト、(2) モデルの更新を行わない年度をまたぐ導入、(3) 累積的な履歴データによるウィンドウの拡大再トレーニング。複数の分類子ファミリーにわたって、実現可能性の制約の下で FGSM と SPSA を使用して敵対的な例が生成されます。クリーン パフォーマンス、敵対的精度 (AA)、攻撃成功率 (ASR) を測定し、時間的リンケージ メトリック (RobustDrop、$\Delta$ASR、敵対的増幅率 (AAF)) を導入して、分布シフトとロバスト性低下の関係を定量化します。結果は、評価された転送ベースの特徴空間設定では、時間的分離が敵対的ロバスト性の低下と関連していることを示しています。トレインとテストのギャップが増加するにつれて、クリーン精度と敵対的精度は低下しますが、攻撃の成功率は、特に FGSM の摂動や静的機能の下では設定に依存して増加します。拡張ウィンドウの再トレーニングは、継続的な分布進化の下でのロバスト性の損失を軽減しますが、排除するわけではありません。これらの発見は、進化するデータ分布の下でインテリジェント検出システムの長期的な堅牢性を評価する際には時間的ドリフトを考慮する必要があることを示し、長期にわたる敵対環境におけるドリフトを意識した堅牢性評価フレームワークの必要性を強調しています。
原文 (English)
Adversarial Vulnerability Under Temporal Concept Drift: A Longitudinal Study of Android Malware Detection
We present a longitudinal, drift-aware evaluation of adversarial robustness across more than a decade of Android applications using static and dynamic feature representations extracted from emulator and real-device executions. The dataset is organized into yearly slices and evaluated under three deployment protocols that emulate realistic learning scenarios: (1) same-year training and testing, (2) cross-year deployment without model updates, and (3) expanding-window retraining with cumulative historical data. Across multiple classifier families, adversarial examples are generated using FGSM and SPSA under feasibility constraints. We measure clean performance, Adversarial Accuracy (AA), Attack Success Rate (ASR), and introduce temporal linkage metrics -- RobustDrop, $\Delta$ASR, and Adversarial Amplification Factor (AAF) -- to quantify the relationship between distribution shift and robustness degradation.nResults show that temporal separation is associated with reduced adversarial robustness under the evaluated transfer-based feature-space setting. As the train-test gap increases, clean accuracy and adversarial accuracy decline, while attack success exhibits configuration-dependent increases, particularly under FGSM perturbations and static features. Expanding-window retraining mitigates, but does not eliminate, robustness loss under continued distributional evolution. These findings indicate that temporal drift should be considered when assessing the long-term robustness of intelligent detection systems under evolving data distributions and highlight the need for drift-aware robustness assessment frameworks in long-lived adversarial environments.
機密性の高いものは忘れて、重要なことを思い出してください: 継続的な学習のためのメモリ スカルプティングにおけるトークン レベルの差分プライバシー
継続学習 (CL) モデルは、逐次的な知識の獲得には優れていますが、多様な情報が蓄積されるため、重大で見落とされがちなプライバシーの課題に直面しています。均一な差分プライバシー (DP) バジェットなどの従来のプライバシー手法は、すべてのデータを無差別に保護するため、モデルのユーティリティの大幅な低下につながり、プライバシーに敏感な領域での CL の展開が妨げられます。これを克服するために、私たちは機密性の高いものを忘れ、重要なことを覚えておくプライバシー強化継続学習 (PeCL) フレームワークを提案します。私たちのアプローチでは、まず、個々のトークンのセマンティックな機密性に基づいてプライバシー予算を適応的に割り当てる、トークンレベルの動的な差分プライバシー戦略を導入します。これにより、機密性のない一般知識へのノイズ注入を最小限に抑えながら、民間エンティティに対する堅牢な保護が保証されます。 2 番目に、プライバシーに基づいたメモリ彫刻モジュールを統合します。このモジュールは、動的 DP メカニズムの感度分析を利用して、モデルのメモリとパラメーターから機密情報をインテリジェントに忘れる一方で、壊滅的な忘却を軽減するために重要なタスク不変の履歴知識を明示的に保存します。広範な実験により、PeCL はプライバシー保護とモデルの実用性の間で優れたバランスを実現し、堅牢なプライバシーを確保しながら以前のタスクで高い精度を維持することでベースライン モデルを上回るパフォーマンスを示していることが示されています。
原文 (English)
Forget What's Sensitive, Remember What Matters: Token-Level Differential Privacy in Memory Sculpting for Continual Learning
Continual Learning (CL) models, while adept at sequential knowledge acquisition, face significant and often overlooked privacy challenges due to accumulating diverse information. Traditional privacy methods, like a uniform Differential Privacy (DP) budget, indiscriminately protect all data, leading to substantial model utility degradation and hindering CL deployment in privacy-sensitive areas. To overcome this, we propose a privacy-enhanced continual learning (PeCL) framework that forgets what's sensitive and remembers what matters. Our approach first introduces a token-level dynamic Differential Privacy strategy that adaptively allocates privacy budgets based on the semantic sensitivity of individual tokens. This ensures robust protection for private entities while minimizing noise injection for non-sensitive, general knowledge. Second, we integrate a privacy-guided memory sculpting module. This module leverages the sensitivity analysis from our dynamic DP mechanism to intelligently forget sensitive information from the model's memory and parameters, while explicitly preserving the task-invariant historical knowledge crucial for mitigating catastrophic forgetting. Extensive experiments show that PeCL achieves a superior balance between privacy preserving and model utility, outperforming baseline models by maintaining high accuracy on previous tasks while ensuring robust privacy.
ALIVE: 敵対的な学習と有益な口頭評価による LLM 推論の覚醒
大規模言語モデル (LLM) における専門家レベルの推論の探求は、永続的な \textit{報酬のボトルネック} によって妨げられてきました。従来の強化学習 (RL) は、拡張に \textbf{コストがかかる}、ドメイン間で \textbf{脆弱}であり、解決策の基礎となるロジックに対して \textbf{盲目}なスカラー報酬に依存しています。この外部の貧弱な信号への依存は、モデルが推論原理を深く自己完結的に理解することを妨げます。 \textbf{ALIVE} (\emph{指示的言語評価による敵対的学習}) を紹介します。これは、スカラー報酬の最適化を超えて、本質的な推論の獲得に向けたハンズフリー調整フレームワークです。 \emph{認知相乗効果} の原理に基づいた ALIVE は、問題の提起、解決、判断を単一のポリシー モデル内で統合し、正しさのロジックを内面化します。 ALIVE は、敵対的な学習と指導的な口頭フィードバックを組み合わせることで、モデルが生のコーパスから評価基準を直接内部に取り込むことを可能にし、外部の批評を内生的な推論能力に効果的に変換します。数学的推論、コード生成、および一般的な論理推論ベンチマークにわたる経験的評価により、ALIVE が報酬シグナルの制限を一貫して緩和していることが実証されています。同一のデータとコンピューティングを使用して、精度の向上、クロスドメインの汎化の大幅な改善、およびより高い自己修正率を実現します。これらの結果は、推論の三位一体が能力の成長の自立的な軌道を促進し、ALIVE を人間による監視なしの汎用推論調整のためのスケーラブルな基盤として位置づけていることを示しています。
原文 (English)
ALIVE: Awakening LLM Reasoning via Adversarial Learning and Instructive Verbal Evaluation
The quest for expert-level reasoning in Large Language Models (LLMs) has been hampered by a persistent \textit{reward bottleneck}: traditional reinforcement learning (RL) relies on scalar rewards that are \textbf{costly} to scale, \textbf{brittle} across domains, and \textbf{blind} to the underlying logic of a solution. This reliance on external, impoverished signals prevents models from developing a deep, self-contained understanding of reasoning principles. We introduce \textbf{ALIVE} (\emph{Adversarial Learning with Instructive Verbal Evaluation}), a hands-free alignment framework that moves beyond scalar reward optimization toward intrinsic reasoning acquisition. Grounded in the principle of \emph{Cognitive Synergy}, ALIVE unifies problem posing, solving, and judging within a single policy model to internalize the logic of correctness. By coupling adversarial learning with instructive verbal feedback, ALIVE enables models to internalize evaluative criteria directly from raw corpora, effectively transforming external critiques into an endogenous reasoning faculty. Empirical evaluations across mathematical reasoning, code generation, and general logical inference benchmarks demonstrate that ALIVE consistently mitigates reward signal limitations. With identical data and compute, it achieves accuracy gains, markedly improved cross-domain generalization, and higher self-correction rates. These results indicate that the reasoning trinity fosters a self-sustaining trajectory of capability growth, positioning ALIVE as a scalable foundation for general-purpose reasoning alignment without human-in-the-loop supervision.
AI 評価には標準化されたアイテムレベルのデータリリースが必要である
この意見書では、標準化された項目レベルのベンチマーク データが AI 評価のデフォルトのインフラストラクチャになるべきであると主張しています。現在の評価は、項目の選択が不十分であり、構成が不整合であり、一般化が不十分であるという問題があります。これらの失敗の根本原因は、集計モデル スコアへの重点の置き忘れにあります。品目レベルの証拠がなければ、有効性の主張を評価することができず、その結果、機能の誇張、誤った方向の研究、導入されたシステムに対する不当な信頼が生じます。私たちの立場は、有効な評価を設計するには項目レベルのモデル応答からの経験的証拠が必要であり、そのようなデータの標準化されたリリースは中核的な AI 評価インフラストラクチャとして扱われるべきである、というものです。さらに、このようなリリースにより、評価結果の透明性、複製可能性、および監査可能性が可能になります。この基準が実現可能で結果的なものであることを示すために、AI 評価コミュニティが開発できる統一スキーマの下で、広く使用されているベンチマークからの 155,000 項目にわたる 1,000 万件の回答の項目レベルのアーカイブである OpenEval を構築します。項目レベルのデータがどのようにして低品質項目を特定し、構造の不整合を文書化し、ベンチマークの内部構造に関する妥当性証拠を回復するかを示します。私たちは汚染と著者の負担に関する異議に取り組み、信頼できない主張に対して下される決定のコストと比較して、それぞれの異議が扱いやすいことを示します。
原文 (English)
AI Evaluation Should Require Standardized Item-Level Data Releases
This position paper argues that standardized item-level benchmark data should become the default infrastructure for AI evaluation. Current evaluations suffer from underspecified item selection, construct misalignment, and poor generalization. The root cause of these failures is a misplaced focus on aggregate model scores. Without item-level evidence, validity claims cannot be assessed, resulting in inflated capability claims, misdirected research, and unwarranted trust in deployed systems. Our position is that designing valid evaluations requires empirical evidence from item-level model responses, and the standardized release of such data should be treated as core AI evaluation infrastructure. Such a release, in addition, enables transparency, replicability, and auditability of evaluation results. To show the norm is both feasible and consequential, we construct OpenEval, an item-level archive of 10M responses across 155k items from widely-used benchmarks, under a unified schema that the AI evaluation community can develop upon. We demonstrate how item-level data can identify low-quality items, document construct misalignment, and recover validity evidence about benchmarks' internal structure. We address objections around contamination and author burden, and show each is tractable relative to the cost of decisions made on claims that cannot be trusted.
IntentScore: コンピュータ使用エージェントの意図条件付きアクションの評価
Computer-Use Agent (CUA) は、大規模な言語モデルを利用してデスクトップ環境で GUI 操作を実行しますが、アクションの品質を評価せずにアクションを生成するため、後続のステップに連鎖的に発生する不可逆的なエラーにつながります。私たちは、3 つのオペレーティング システムにわたる 398K のオフライン GUI インタラクション ステップから候補アクションをスコアリングすることを学習する、プランを認識した報酬モデルである IntentScore を提案します。 IntentScore は、状態とアクションの関連性に関する対照的な調整と、アクションの正しさに関するマージン ランキングという 2 つの相補的な目標を使用してトレーニングします。アーキテクチャ的には、各候補者の計画意図がアクション エンコーダーに埋め込まれ、同様のアクションを持つ候補者間で論理的根拠が異なるものを区別できるようになります。 IntentScore は、ホールドアウト評価で 97.5% のペア識別精度を達成します。トレーニング中にまったく見えない環境である OSWorld 上のエージェント S3 の再ランカーとしてデプロイされた IntentScore は、タスクの成功率を 6.9 ポイント向上させ、異種のオフライン軌跡から学習した報酬推定が、目に見えないエージェントとタスクの分布に一般化されることを示しています。
原文 (English)
IntentScore: Intent-Conditioned Action Evaluation for Computer-Use Agents
Computer-Use Agents (CUAs) leverage large language models to execute GUI operations on desktop environments, yet they generate actions without evaluating action quality, leading to irreversible errors that cascade through subsequent steps. We propose IntentScore, a plan-aware reward model that learns to score candidate actions from 398K offline GUI interaction steps spanning three operating systems. IntentScore trains with two complementary objectives: contrastive alignment for state-action relevance and margin ranking for action correctness. Architecturally, it embeds each candidate's planning intent in the action encoder, enabling discrimination between candidates with similar actions but different rationales. IntentScore achieves 97.5% pairwise discrimination accuracy on held-out evaluation. Deployed as a re-ranker for Agent S3 on OSWorld, an environment entirely unseen during training, IntentScore improves task success rate by 6.9 points, demonstrating that reward estimation learned from heterogeneous offline trajectories generalizes to unseen agents and task distributions.
WebGameBench: ブラウザネイティブ ゲームを介したコーディング エージェントの要件からアプリケーションまでの評価
コーディング エージェントはアプリケーション ビルダーとして使用されることが増えていますが、多くの評価は依然として、提供されたアプリケーションではなく、ソース コード、リポジトリ レベルのテスト、または中間トレースに焦点を当てています。 WebGameBench は、コーディング エージェントが凍結された構造化 Web ゲーム仕様をブラウザーでアクセス可能なゲームに変換できるかどうかを評価する、要件からアプリケーションまでのベンチマークです。ブラウザネイティブ ゲームは、コンパクトながら動作密度の高いテストベッドを提供します。単純なゲームであっても、調整された入力処理、空間マッピング、ルールの実行、状態遷移、終了条件、再起動動作、および目に見えるフィードバックが必要です。 WebGameBench では、生成された各アーティファクトが、統一された展開プロトコルの下でブラウザーからアクセス可能なアプリケーションとして構築、提供、公開されます。次に、ランタイム エバリュエーターは実際のブラウザーで配信されたゲームと対話し、EXCELLENT、USABLE、または UNUSABLE の 3 方向のラベルを割り当てます。人間がレビューしたサブセットでは、ランタイム ラベルは、使用可能レート基準に基づく人間のゲームプレイ レビューとほぼ一致しています。 111 のタスク、12 のコーディング エージェント、および 14 の評価構成にわたって、WebGameBench は現在のシステムを分離します。最適な構成では 76.9% の使用可能率に達しますが、優れた率は 20.2% にすぎません。このギャップは、プレイアブル配信の最小しきい値を超えることが、要件を完全に満たすにはまだ遠いことを示しています。私たちの知る限り、WebGameBench はブラウザ ネイティブ ゲーム配信のための最初の要件対アプリケーションのベンチマークであり、配信されたアプリケーションのランタイム ラベルを、使用可能レート基準に基づく独立した人間によるゲームプレイ レビューに対して検証します。
原文 (English)
WebGameBench: Requirement-to-Application Evaluation for Coding Agents via Browser-Native Games
Coding agents are increasingly used as application builders, yet many evaluations still focus on source code, repository-level tests, or intermediate traces rather than the delivered application. We introduce WebGameBench, a requirement-to-application benchmark that evaluates whether coding agents can turn a frozen Structured WebGame Specification into a browser-accessible game. Browser-native games provide a compact but behavior-dense testbed: even simple games require coordinated input handling, spatial mapping, rule execution, state transitions, terminal conditions, restart behavior, and visible feedback. In WebGameBench, each generated artifact is built, served, and exposed as a browser-accessible application under a unified deployment protocol. A runtime evaluator then interacts with the delivered game in a real browser and assigns a three-way label: EXCELLENT, USABLE, or UNUSABLE. On a human-reviewed subset, the runtime label is broadly aligned with human gameplay review under the Usable-rate criterion. Across 111 tasks, 12 coding agents, and 14 evaluation configurations, WebGameBench separates current systems: the best configuration reaches a 76.9% usable rate but only a 20.2% excellent rate. This gap shows that crossing the minimum playable-delivery threshold is still far from complete requirement satisfaction. To our knowledge, WebGameBench is the first requirement-to-application benchmark for browser-native game delivery that validates delivered-application runtime labels against independent human gameplay review under the Usable-rate criterion.
XAttnMark: クロスアテンションによる堅牢なオーディオ透かしの学習
音声生成合成および編集技術の急速な普及により、著作権侵害、データの出所、ディープフェイク音声を介した誤った情報の拡散についての深刻な懸念が生じています。ウォーターマークは、知覚できないが識別可能で追跡可能な信号をオーディオ コンテンツに埋め込むことで、プロアクティブなソリューションを提供します。 WavMark や AudioSeal などの最近のニューラル ネットワーク ベースの透かし手法は堅牢性と品質を向上させていますが、堅牢な検出と正確な属性の両方を最適化するのに苦労しています。このペーパーでは、生成器と検出器の間の部分的なパラメータ共有、効率的なメッセージ取得のためのクロスアテンション メカニズム、およびメッセージ配信を改善するための時間調整モジュールを活用することで、このギャップを埋めるクロスアテンション ロバスト オーディオ ウォーターマーク (XATTNMARK) を紹介します。さらに、きめの細かい聴覚マスキング効果を捕捉し、透かしの知覚不能性を改善する、心理音響的に調整された時間周波数 (TF) マスキング損失を提案します。 XATTNMARK は、検出と属性の両方で最先端のパフォーマンスを実現し、さまざまな強度での困難なジェネレーティブ編集を含む、幅広いオーディオ変換に対する優れた堅牢性を実証します。この取り組みは、知的財産を保護し、生成 AI 時代の信頼性を確保するために音声透かしを進歩させます。
原文 (English)
XAttnMark: Learning Robust Audio Watermarking with Cross-Attention
The rapid proliferation of generative audio synthesis and editing technologies has raised serious concerns about copyright infringement, data provenance, and the spread of misinformation via deepfake audio. Watermarking offers a proactive solution by embedding imperceptible yet identifiable and traceable signals into audio content. While recent neural network-based watermarking methods like WavMark and AudioSeal have improved robustness and quality, they struggle to jointly optimize both robust detection and accurate attribution. This paper introduces Cross-Attention Robust Audio Watermark (XATTNMARK), which bridges this gap by leveraging partial parameter sharing between the generator and the detector, a cross-attention mechanism for efficient message retrieval, and a temporal conditioning module for improved message distribution. Additionally, we propose a psychoacoustic-aligned time-frequency (TF) masking loss that captures fine-grained auditory masking effects, improving watermark imperceptibility. XATTNMARK achieves state-of-the-art performance in both detection and attribution, demonstrating superior robustness against a wide range of audio transformations, including challenging generative editing at varying strengths. This work advances audio watermarking for protecting intellectual property and ensuring authenticity in the era of generative AI.
パターンと患者: 一人称の物語を通じたパーソナリティ障害診断に関する精神保健専門家に対する LLM の評価
精神医学的自己評価における LLM への依存が高まるにつれ、定性的な患者のナラティブを解釈する LLM の能力に疑問が生じています。この幅広い事例研究では、ポーランド語の一人称自伝的記述に基づいて、境界性 (BPD) および自己愛性 (NPD) パーソナリティ障害の評価において、最先端の LLM とメンタルヘルス専門家を直接比較しています。私たちのサンプル内で、最高のパフォーマンスを誇る Gemini Pro モデルの全体的な診断スコア (65.48%) は、人間の専門家の平均スコア (43.57%) よりも 21.91 パーセント ポイント高かった。モデルも人間の専門家もBPDの特定には優れていましたが(それぞれF1 = 83.4、F1 = 80.0)、モデルはNPDの診断が著しく過小評価され(F1 = 6.7 vs. 50.0)、価値観を伴う用語「ナルシシズム」に対して潜在的な抵抗感を示しました。定性的には、モデルはパターンと形式的なカテゴリーに焦点を当てた自信に満ちた精緻な正当化を提供したが、人間の専門家は簡潔で慎重なままであり、患者の自己感覚と時間的経験を強調した。私たちの調査結果は、LLM は複雑な一人称臨床データを解釈する能力があるかもしれないものの、その出力には依然として重大な信頼性とバイアスの問題があることを示しています。
原文 (English)
Patterns vs. Patients: Evaluating LLMs against Mental Health Professionals on Personality Disorder Diagnosis through First-Person Narratives
Growing reliance on LLMs for psychiatric self-assessment raises questions about their ability to interpret qualitative patient narratives. This depth over breadth case study directly compares state-of-the-art LLMs and mental health professionals in assessing Borderline (BPD) and Narcissistic (NPD) Personality Disorders based on Polish-language first-person autobiographical accounts. Within our sample, the overall diagnostic scores of the top-performing Gemini Pro models (65.48%) were 21.91 percentage points higher than the average scores of the human professionals (43.57%). While both models and human experts excelled at identifying BPD (F1 = 83.4 & F1 = 80.0, respectively), models severely underdiagnosed NPD (F1 = 6.7 vs. 50.0), showing a potential reluctance toward the value-laden term "narcissism." Qualitatively, models provided confident, elaborate justifications focused on patterns and formal categories, while human experts remained concise and cautious, emphasizing the patients' sense of self and temporal experience. Our findings demonstrate that while LLMs might be competent at interpreting complex first-person clinical data, their outputs still carry critical reliability and bias issues.
TABX: マルチエージェント強化学習のための高スループットのサンドボックス バトル シミュレーター
環境の設計は、協調的なマルチエージェント強化学習 (MARL) アルゴリズムの開発と評価を形作る上で重要な役割を果たします。既存のベンチマークは重大な課題を浮き彫りにしていますが、カスタム評価シナリオの設計に必要なモジュール性が欠けていることがよくあります。再構成可能なマルチエージェント タスク用に設計された高スループットのサンドボックスである Totally Accelerated Battle Simulator in JAX (TABX) を紹介します。 TABX は、環境パラメータに対するきめ細かい制御を提供し、さまざまなタスクの複雑さにわたる緊急エージェントの動作とアルゴリズムのトレードオフを系統的に調査できるようにします。 TABX は、GPU 上でハードウェア アクセラレーションによる実行に JAX を活用することで、大規模な並列化を可能にし、計算オーバーヘッドを大幅に削減します。 TABX は、高速かつ拡張可能で簡単にカスタマイズできるフレームワークを提供することで、複雑な構造ドメインにおける MARL エージェントの研究を容易にし、将来の研究のための拡張可能な基盤として機能します。コードは https://github.com/ku-dmlab/TABX から入手できます。
原文 (English)
TABX: A High-Throughput Sandbox Battle Simulator for Multi-Agent Reinforcement Learning
The design of environments plays a critical role in shaping the development and evaluation of cooperative multi-agent reinforcement learning (MARL) algorithms. While existing benchmarks highlight critical challenges, they often lack the modularity required to design custom evaluation scenarios. We introduce the Totally Accelerated Battle Simulator in JAX (TABX), a high-throughput sandbox designed for reconfigurable multi-agent tasks. TABX provides granular control over environmental parameters, permitting a systematic investigation into emergent agent behaviors and algorithmic trade-offs across a diverse spectrum of task complexities. Leveraging JAX for hardware-accelerated execution on GPUs, TABX enables massive parallelization and significantly reduces computational overhead. By providing a fast, extensible, and easily customized framework, TABX facilitates the study of MARL agents in complex structured domains and serves as a scalable foundation for future research. Our code is available at: https://github.com/ku-dmlab/TABX.
低分子学習のための共折り畳みモデル表現の系統的評価
クロスモーダルまたはリレーショナル監視の恩恵を受けることが多い視覚モデルや言語モデルとは異なり、低分子基礎モデルは通常、スタンドアロンの分子データで事前トレーニングされます。タンパク質-リガンドの共フォールディングは、モデルを原子レベルのリガンド-タンパク質相互作用にさらすことにより、そのような監視の分子類似物を提供し、共フォールディングモデルが強力な小分子表現を生み出すことができるかどうかという疑問を引き起こします。私たちは、最新の共折り畳みモデルである Voltz2 を使用して、その原子レベルのリガンド表現をスタンドアロンの小分子タスクに移すことで、この疑問を研究します。系統的なプローブと蒸留を通じて、Boltz2 表現が ADMET ベンチマークの既存のモデルと同等またはそれを上回り、分子生成モデリングを加速し、構造誘導リガンド最適化におけるサンプル効率を向上させることを示します。さらに、Boltz2 表現は、3D 配座異性体、バイオアッセイ標識、量子化学的特性など、従来のスタンドアロン分子監視から学習された表現を補完するものであることもわかりました。最後に、表現アライメントを強化学習に拡張し、高密度表現レベルの監視が分子発見におけるスカラー報酬を補完できることを示します。これらの結果は、タンパク質とリガンドの共フォールディングが小分子表現学習のための有望な事前学習パラダイムであることを特定し、Boltz2 を強力な既製の分子基礎モデルとして位置づけることになります。
原文 (English)
A Systematic Evaluation of Co-folding Model Representations for Small-Molecule Learning
Small-molecule foundation models are typically pretrained on standalone molecular data, unlike vision and language models that often benefit from cross-modal or relational supervision. Protein-ligand co-folding provides a molecular analogue of such supervision by exposing models to atom-level ligand-protein interactions, raising the question of whether co-folding models can yield strong small-molecule representations. We study this question using Boltz2, a modern co-folding model, by transferring its atom-level ligand representations to standalone small-molecule tasks. Through systematic probing and distillation, we show that Boltz2 representations match or outperform existing models on the ADMET benchmark, accelerate molecular generative modeling, and improve sample efficiency in structure-guided ligand optimization. We further find that Boltz2 representations are complementary to those learned from conventional standalone molecular supervision, including 3D conformers, bioassay labels, and quantum-chemical properties. Finally, we extend representation alignment to reinforcement learning, showing that dense representation-level supervision can complement scalar rewards in molecular discovery. These results identify protein-ligand co-folding as a promising pretraining paradigm for small-molecule representation learning and position Boltz2 as a strong, off-the-shelf molecular foundation model.
ローカル LLM とレイアウトを意識した解析による表形式 PDF 情報の抽出: 信頼性の評価
学術 PDF 文書から構造化情報を抽出することは簡単ではありません。単一のページは通常、フリー テキストのメタデータと表形式の領域を組み合わせており、プログラム間での変動が見られ、ダウンストリームの解析を妨げる Unicode エンコードのアーティファクトの影響を受けやすくなります。この研究では、ケーススタディとしてインドネシアの高等教育の学術コース登録文書 (Kartu Rencana Studi または KRS) を使用して、表形式の PDF 文書に対する情報抽出アプローチの信頼性を評価します。 LLM のみ、ハイブリッド決定論 - LLM (正規表現と LLM)、LLM フォールバックを備えた Camelot ベースのパイプラインの 3 つの戦略を比較します。実験は、LLM ベースのテストでは 140 のドキュメント、キャメロット ベースのパイプライン評価では 860 のドキュメントで行われ、テーブルとメタデータ内のさまざまなデータを含む 4 つの研究プログラムをカバーしました。 3 つの 12 ~ 14B LLM モデル (Gemma 3、Phi 4、および Qwen 2.5) は、Ollama と GPU なしのコンシューマー グレードの CPU を使用してローカルで実行されました。評価には、しきい値 0.7 の完全一致 (EM) およびレーベンシュタイン類似性 (LS) メトリクスが使用されました。すべてのモデルに適用できるわけではありませんが、結果は、ハイブリッド アプローチが、特に決定論的メタデータの場合、LLM のみと比較して効率を向上できることを示しています。 LLM フォールバックを備えた Camelot ベースのパイプラインは、精度 (EM および LS 最大 0.99 ~ 1.00) と計算効率 (ほとんどの場合、PDF あたり 1 秒未満) の最適な組み合わせを実現しました。 Qwen 2.5:14b モデルは、すべてのシナリオにわたって最も一貫したパフォーマンスを実証しました。これらの発見は、決定論的手法と LLM ベースの手法を統合することが、計算量に制約のある環境で表形式のテキスト ベースの PDF ドキュメントから情報を抽出するための信頼性が高く効率的な戦略であることを裏付けています。
原文 (English)
Tabular PDF Information Extraction with Local LLMs and Layout-Aware Parsing: A Reliability Evaluation
Extracting structured information from academic PDF documents is non trivial: a single page typically combines free text metadata with tabular regions, exhibits cross program variation, and is susceptible to Unicode encoding artifacts that interfere with downstream parsing. This study evaluates the reliability of information extraction approaches for tabular PDF documents, using academic course registration documents (Kartu Rencana Studi or KRS) from Indonesian higher education as a case study. Three strategies are compared: LLM only, Hybrid Deterministic - LLM (regex & LLM), and a Camelot based pipeline with LLM fallback. Experiments were conducted on 140 documents for the LLM based test and 860 documents for the Camelot based pipeline evaluation, covering four study programs with varying data in tables and metadata. Three 12 - 14B LLM models (Gemma 3, Phi 4, and Qwen 2.5) were run locally using Ollama and a consumer grade CPU without a GPU. Evaluations used exact match (EM) and Levenshtein similarity (LS) metrics with a threshold of 0.7. Although not applicable to all models, the results show that the hybrid approach can improve efficiency compared to LLM only, especially for deterministic metadata. The Camelot based pipeline with LLM fallback produced the best combination of accuracy (EM and LS up to 0.99 - 1.00) and computational efficiency (less than 1 second per PDF in most cases). The Qwen 2.5:14b model demonstrated the most consistent performance across all scenarios. These findings confirm that integrating deterministic and LLM based methods is a reliable and efficient strategy for information extraction from tabular text based PDF documents in computationally constrained environments.
ProtDBench: プロテイン バインダーの設計と評価の統一ベンチマーク
最近のデノボタンパク質バインダー設計の進歩により、実験的検証が増加していますが、報告されたインシリコ測定基準は、標準化されていない評価プロトコルのため、研究全体で解釈したり比較したりすることが依然として困難です。タンパク質バインダー設計のための標準化されたスループットを意識した評価フレームワークである ProtDBench を紹介します。 ProtDBench は、統一されたベンチマーク タスク、評価プロトコル、成功基準を定義し、評価設計が観察されたパフォーマンスにどのような影響を与えるかを系統的に分析できるようにします。大規模なウェットラボの注釈付きデータセットを使用して、評価検証者として一般的に使用される構造予測モデルを分析し、同一のフィルタリング プロトコルの下で検証者に依存する実質的なバイアスと限定的な一致を明らかにします。次に、固定の評価プロトコルの下で、10 個の多様なタンパク質ターゲットにわたる代表的なオープンソースの生成バインダー設計手法をベンチマークします。 ProtDBench には、シーケンスごとの成功率に加えて、固定の 24 時間予算に基づくスループットを意識したメトリクスと、構造の多様性を考慮したクラスター レベルの成功基準が組み込まれています。これらの結果を総合すると、フィルタリング ルール、成功の定義、および計算効率、成功率、構造的多様性の間のスループットを意識した評価によって引き起こされる体系的な違いが明らかになります。全体として、ProtDBench は、現実的な評価設定の下でのタンパク質バインダー設計法の体系的かつ管理された比較をサポートする、公正で再現可能な評価パイプラインを提供します。
原文 (English)
ProtDBench: A Unified Benchmark of Protein Binder Design and Evaluation
Recent advances in de novo protein binder design have enabled increasing experimental validation, yet reported in silico metrics remain difficult to interpret or compare across studies due to non-standardized evaluation protocols. We introduce ProtDBench, a standardized and throughput-aware evaluation framework for protein binder design. ProtDBench defines unified benchmark tasks, evaluation protocols, and success criteria, enabling systematic analysis of how evaluation design influences observed performance. Using a large wet-lab annotated dataset, we analyze commonly used structure prediction models as evaluation verifiers, revealing substantial verifier-dependent bias and limited agreement under identical filtering protocols. We then benchmark representative open-source generative binder design methods across ten diverse protein targets under a fixed evaluation protocol. Beyond per-sequence success rates, ProtDBench incorporates throughput-aware metrics based on a fixed 24-hour budget, as well as cluster-level success criteria to account for structural diversity. Together, these results expose systematic differences induced by filtering rules, success definitions, and throughput-aware evaluation between computational efficiency, success rate, and structural diversity. Overall, ProtDBench provides a fair and reproducible evaluation pipeline that supports systematic and controlled comparison of protein binder design methods under realistic evaluation settings.
LLM エージェント ツール呼び出しトラフィックにおけるコンテンツ認識型攻撃の検出: 機能、アーキテクチャ、および評価プロトコルの実証的研究
モデル コンテキスト プロトコル (MCP) は、LLM エージェントが外部ツールを呼び出すためのインターフェイスとして広く採用されていますが、MCP ツール呼び出しトラフィックの学習された監視についてはまだ十分に研究されていません。この記事では、提案された検出器は、各エージェント セッションをグラフ (ツール呼び出しをノード、順次リンクとデータ フロー リンクをエッジ) としてエンコードし、引数と応答に対する文埋め込み機能でノードを強化し、セッションを良性か攻撃かを分類する、MCP ツール呼び出しトラフィックの攻撃検出フレームワークとして紹介されます。 3 つの GNN アーキテクチャ (GAT、GCN、GraphSAGE)、グラフなし MLP、および古典的なベースライン (XGBoost、ランダム フォレスト、ロジスティック回帰、線形 SVM) が評価されます。完全なアーキテクチャ比較は RAS-Eval (タスク階層化分割) で実行され、GraphSAGE は ATBench および結合ソース バリアント (両方ともラベル階層化) で GNN ベースラインとして保持されます。 3 つの発見が得られます。まず、コンテンツ レベルの機能が不可欠です。メタデータのみの検出は、アーキテクチャに関係なく AUROC 0.64 付近で頭打ちになりますが、コンテンツの埋め込みにより AUROC が 0.89 を超えるようになります。第 2 に、単純なランダム分割評価は、タスクに素な分割と比較して AUROC を最大 26 パーセントポイント上昇させます。これは、以前のエージェント検出作業では対処できなかった記憶の混乱です。第三に、検出信号は主に SBERT コンテンツ エンベディングに存在します。プールされたエンサンブル上のツリー アンサンブルによって 0.975 の AUROC に達し、ほとんどの場合、GNN (0.917) や MLP (0.896) を含むプライマリ RAS-Eval 設定のニューラル アーキテクチャよりも優れたパフォーマンスを発揮し、自己監視型事前トレーニングではラベル効率の利点が得られません。このタスク。
原文 (English)
Content-Aware Attack Detection in LLM Agent Tool-Call Traffic: An Empirical Study of Features, Architectures, and Evaluation Protocols
The Model Context Protocol (MCP) has become a widely adopted interface for LLM agents to invoke external tools, yet learned monitoring of MCP tool-call traffic remains underexplored. In this article, the proposed detector is presented as an attack detection framework for MCP tool-call traffic that encodes each agent session as a graph (tool calls as nodes, sequential and data-flow links as edges), enriches nodes with sentence-embedding features over arguments and responses, and classifies sessions as benign or attacked. Three GNN architectures (GAT, GCN, GraphSAGE), a no-graph MLP, and classical baselines (XGBoost, random forest, logistic regression, linear SVM) are evaluated, with the full architecture comparison conducted on RAS-Eval (task-stratified splits) and GraphSAGE retained as the GNN baseline on ATBench and a combined-source variant (both label-stratified). Three findings emerge. First, content-level features are essential: metadata-only detection plateaus around an AUROC of 0.64 regardless of architecture, while content embeddings push the AUROC above 0.89. Second, naive random-split evaluation inflates AUROC by up to 26 percentage points relative to task-disjoint splits, a memorization confound that prior agent-detection work has not addressed. Third, the detection signal resides primarily in the SBERT content embeddings: an AUROC of 0.975 was reached by tree ensembles on pooled embeddings, performing, for the most part, better than the neural architectures in the primary RAS-Eval setting including GNNs (0.917) and the MLP (0.896), and self-supervised pre-training does not deliver a label-efficiency advantage on this task.
回復メカニズムはAIに耐えられるか?スキル形成、労力、現在の測定で見逃されるもの
近代を通して、新しいテクノロジーが労働者に取って代わるとき、社会は同じメカニズムを通じて適応しました。教育は認知の上限を引き上げ、機械がまだ達成できなかったタスクを実行できる労働者を生み出しました。生成 AI は現在、その上限の上限で動作しているため、このサイクルを打破する最初のテクノロジーになる可能性があります。この論文は、労働経済学、複数のプラットフォームにわたる何百万もの AI 会話からの展開データ、2 つの公開データセットの独自の再分析、およびスキル形成の実験に基づいて、3 つの貢献を展開しています。まず、ストック対フローの枠組みは、経済データと教育データが同じテクノロジーについて異なる物語を伝えていることを示しています。つまり、増強は現在の労働者を支配していますが、次世代を生み出す開発パイプラインは負担にさらされています。第二に、証拠ベースの体系的なギャップ分析により、すべての主要な研究で認知の知識次元が測定されていないこと、学習成果を測定している 3 つの研究 (それぞれ $n < 200$) で一貫して AI は学習を向上させることなくパフォーマンスを向上させていることがわかっている (クロスプラットフォーム再分析では $d = 1.21$)、そして専門家と学生の集団の橋渡しをする研究は存在しないことが明らかになりました。第三に、拡張認知分類法 (不確実性、認識論的同一性、認識論的主体性の下での判断) を証拠に基づいて 3 つのケースに適用し、学習を維持する AI 相互作用パターンと、学習を侵食する構造的に類似した相互作用パターンを区別しました。この論文は、AIの社会的リスクは教師に取って代わられることではなく、次世代の能力が形成される生産的な闘争を排除することにあると主張し、現在の測定システムが見逃しているものを対象とした研究と設計の課題を提案している。
原文 (English)
Can the Recovery Mechanism Survive AI? Skill Formation, Labor, and What Current Measurement Misses
Throughout the modern era, when new technologies displaced workers, societies adapted through the same mechanism: education raised the cognitive ceiling, producing workers capable of tasks machines could not yet reach. Generative AI may be the first technology to break this cycle, because it now operates at the top of that ceiling. Drawing on labor economics, deployment data from millions of AI conversations across multiple platforms, original reanalysis of two public datasets, and skill-formation experiments, this paper develops three contributions. First, a stock-versus-flow framework showing that economic data and education data tell divergent stories about the same technology: augmentation dominates current workers, but the developmental pipeline producing the next generation is under strain. Second, a systematic gap analysis of the evidence base, revealing that the knowledge dimension of cognition is unmeasured across all major studies, that the three studies measuring learning outcomes (each $n < 200$) consistently find AI improves performance without improving learning ($d = 1.21$ in our cross-platform reanalysis), and that no study bridges professional and student populations. Third, an extended cognitive taxonomy (judgment under uncertainty, epistemic identity, and epistemic agency) applied to three cases from the evidence to distinguish AI interaction patterns that preserve learning from structurally similar ones that erode it. The paper argues that AI's societal risk lies not in replacing teachers but in eliminating the productive struggle through which the next generation's capacity forms, and proposes a research and design agenda targeting what current measurement systems miss.
TwinRouterBench: 現実的なエージェント LLM ルーティングのための高速静的およびライブ動的評価
LLM ルーティングは、コーディング エージェント、詳細調査システム、コンピュータ使用エージェントなど、単一のユーザー リクエストが多くのモデル呼び出しをトリガーする長期的なアプリケーションで最も重要です。各コールを最も安価な十分なモデルにルーティングすると、品質を犠牲にすることなくコストを削減できますが、既存のルーター ベンチマークはワンショット プロンプトでのみルーターを評価します。中間エージェントのステップでルーターから見えるプレフィックスを公開することは決してなく、より安価な代替品が下流のタスクの成功を維持するかどうかをテストすることもありません。また、多くの場合、評価時にオンラインの LLM 判定に依存します。 2 つのトラックを備えたステップレベルのルーティング ベンチマークである TwinRouterBench を紹介します。静的トラックは、SWE ベンチ、BFCL、mtRAG、QMSum、および PinchBench にわたる 520 のインスタンスからの 970 のルーター可視プレフィックスを提供します。それぞれは、リリースされたダウングレードおよびカスケード プロトコルに基づいて推定された実行検証済みのターゲット層とペアになっています。スコアリングは、オンライン評価者側の LLM ジャッジなしで、ティア ラベル、軌跡メンバーシップ、およびトークン コストに関する決定論的な算術演算です。ダイナミック トラックは、500 ケースの SWE ベンチ検証済みスイート全体でルーターを実行するハーネスを提供します。この論文では、静的な SWE 監視分割とは切り離された 100 件のホールドアウト評価を報告します。各 LLM 呼び出しで、ルーターはロックされたプールから具体的なモデルを選択し、成功は公式のタスク解決と実際の API 消費量によって測定されます。 2 つのトラックは、高速なオフライン反復と、その後のライブ エージェント実行下でのエンドツーエンド検証をサポートします。コードとデータは https://github.com/CommonstackAI/TwinRouterBench で入手できます。
原文 (English)
TwinRouterBench: Fast Static and Live Dynamic Evaluation for Realistic Agentic LLM Routing
LLM routing matters most in long-horizon applications such as coding agents, deep research systems, and computer-use agents, where a single user request triggers many model calls. Routing each call to the cheapest sufficient model can cut costs without sacrificing quality, yet existing router benchmarks evaluate routers only on one-shot prompts. They never expose the router-visible prefix at an intermediate agent step, never test whether a cheaper replacement preserves downstream task success, and often rely on online LLM judges at evaluation time. We introduce TwinRouterBench, a step-level routing benchmark with two tracks. The static track provides 970 router-visible prefixes from 520 instances across SWE-bench, BFCL, mtRAG, QMSum, and PinchBench, each paired with an execution-verified target tier estimated under a released downgrade-and-cascade protocol; scoring is deterministic arithmetic over tier labels, trajectory membership, and token costs, with no online evaluator-side LLM judge. The dynamic track supplies a harness that runs routers on the full 500-case SWE-bench Verified suite; in this paper we report a 100-case held-out evaluation disjoint from the static SWE supervision split. At each LLM call the router selects a concrete model from a locked pool, and success is measured by official task resolution and realized API spend. The two tracks support fast offline iteration followed by end-to-end validation under live agent execution. Code and data are available at https://github.com/CommonstackAI/TwinRouterBench.