Skip to the content.

GPT / ChatGPT

モデル記事 128 件2026-05-25 〜 2026-05-30

← トップに戻る · エンティティ一覧

2026年5月

2026-05-30 06:48 JSTITmedia AI+LLM/生成AI規制/政策研究/論文OpenAI

OpenAIが生命科学推論AI「GPT-Rosalind」をバイオディフェンスに開放 デュアルユースリスクに懸念も

OpenAIは、生命科学研究に特化したフロンティア推論モデル「GPT-Rosalind」を活用した「Rosalind Biodefense」プログラムを発表した。生物脅威の検知など防衛目的に限定し、審査済みの開発者や米政府機関および同盟国のパートナー組織にAPIを無償提供する。

2026-05-29 21:00 JSTOpenAILLM/生成AIエージェント

How Braintrust turns customer requests into code with Codex

How Braintrust engineers use Codex with GPT-5.5 to run experiments and code faster.

2026-05-29 13:12 JSTITmedia AI+LLM/生成AI規制/政策OpenAI

OpenAI、日本政府とサイバーセキュリティで協力 最新AI「GPT-5.5-Cyber」を金融機関に提供

米OpenAIは、日本政府とサイバーセキュリティで協力する取り組み「日本サイバー・アクションプラン」を発表した。まずは、金融機関にサイバーセキュリティに特化した最新AIモデル「GPT-5.5-Cyber」を提供する。

2026-05-29 13:00 JSTarXiv cs.AILLM/生成AI

認知カテゴリー変換器: 言語モデリングのためのカテゴリー理論的帰納バイアス

Cognitive Categorical Transformer (CCT) は、カテゴリ理論と認知科学からのいくつかのインスピレーションに由来する認知的に根拠のあるコンポーネントで、事前トレーニング済みの GPT-2 Small バックボーンを強化する 306M パラメーターのアーキテクチャです。 WikiText-103 の一致ステップ プロトコル (215,000 のオプティマイザー ステップ、一致したデータ、一致したオプティマイザーとスケジュール) の下では、CCT は 21.27 の検証複雑度に達しましたが、これと比較して、同様に微調整された GPT-2 Small ベースラインでは 24.19 でした。したがって、このアーキテクチャは、ドメイン内微調整だけで実現できる量を超える 2.92 PPL (相対 12%) の削減に貢献します。 7 フェーズのアクティベーション スケジュール全体にわたって GT-Full の単純なメッセージ パッシングをバイパスするリトレーニング フロム スクラッチ アブレーションは 23.72 PPL に達し、アーキテクチャの改善の 84% (2.92 PPL のうち 2.45) を GT-Full に限定します。我々は、単純なメッセージパッシングが WikiText-103 の 3 億 6M パラメータスケールで言語モデルの複雑さを改善するという、アブレーションで検証された最初の証拠を提示します。公開された GPT-2 Large は、GPT-2 Small の 6.2 倍のパラメータを持ち、WikiText-103 で 22.05 ゼロショット PPL に達しました。このペーパーでは、その数値をアーキテクチャのベンチマークとしてではなく、外部に公開された参照として扱います。整合性スタイルのカテゴリカル事前確率に関する 3 つの否定的な結果 (層の平滑化、付加のラウンドトリップ、曲率の正則化) と、GT-Full と PrecisionWeightedPP の結合構造事前確率の結果は共に、*構造/一貫性の区別* と呼ばれる経験的パターンを裏付けています。このパターンでは、新しいトポロジーを追加するカテゴリカル事前確率は言語モデリングを改善しますが、一貫性の同一性を強制するカテゴリカル事前確率は改善しません。

原文 (English)

The Cognitive Categorical Transformer: Category-Theoretic Inductive Biases for Language Modeling

The Cognitive Categorical Transformer (CCT) is a 306M-parameter architecture that augments a pretrained GPT-2 Small backbone with cognitively grounded components derived from category theory and several inspirations from cognitive science. Under a matched-step protocol (215,000 optimizer steps, matched data, matched optimizer and schedule) on WikiText-103, CCT reaches 21.27 validation perplexity, compared with 24.19 for an identically fine-tuned GPT-2 Small baseline. The architecture therefore contributes a 2.92 PPL (12% relative) reduction beyond what in-domain fine-tuning alone provides. A retrain-from-scratch ablation that holds GT-Full simplicial message passing bypassed across the entire seven-phase activation schedule reaches 23.72 PPL, localizing 84% of the architectural improvement (2.45 of 2.92 PPL) to GT-Full. We present the first ablation-validated evidence that simplicial message passing improves language-model perplexity at the 306M-parameter scale on WikiText-103. Published GPT-2 Large reaches 22.05 zero-shot PPL on WikiText-103 with 6.2x more parameters than GPT-2 Small; this paper treats that number as an external published reference, not as the architectural benchmark. Three negative results on consistency-style categorical priors (sheaf smoothing, adjunction round-trip, curvature regularization) and the joint structural-prior result for GT-Full and PrecisionWeightedPP together support an empirical pattern termed the *structure/consistency distinction*, in which categorical priors that add new topology improve language modeling and those that enforce a consistency identity do not.

2026-05-29 13:00 JSTarXiv cs.AILLM/生成AIGemini

トーンに注意: トーンによって LLM のパフォーマンスが変化しますか?

大規模言語モデル (LLM) の使用は急増していますが、そのパフォーマンスはプロンプトのスタイルや口調に基づいて変化することが観察されています。この研究では、プロンプトの音調の変化が客観的な多肢選択式の質問に対する LLM の精度の違いにつながるかどうか、またどのようにして起こるかを調査します。 5 つの声調バリエーションを持つ 50 ベースの質問データセットと、7 つの声調バリエーションを持つ 57 人の被験者にわたる 570 ベースの質問 MMLU サブセットの 2 つのデータセットを使用します。実験は、コスト効率の高い人気のある 4 つの LLM (ChatGPT-4o、ChatGPT-5-nano、Gemini 2.5 Flash、および Gemini 2.5 Flash Lite) のパフォーマンスを評価するために実施されました。モデル間での音色効果は体系的ですが、モデルに大きく依存します。一部のモデルは小さいながらも統計的に有意な変化を示しますが、他のモデルはトーン全体で大きな精度の変動を示します。さらに、トーン感度における被験者レベルの違いを特定し、トーンがどのように内部推論モードを調整するかを説明するためのルーティングフレームワークを提示します。私たちの調査結果は、LLM 導入においてトーン堅牢な信頼性を想定しないようユーザーに警告します。

原文 (English)

Mind Your Tone: Does Tone Alter LLM Performance?

The use of Large Language Models (LLMs) is proliferating, yet their performance is observed to vary based on prompting styles and tones. In this study, we investigate both whether and how tonal variations in prompts lead to disparate LLM accuracy for objective multiple-choice questions. We use two datasets: a 50-base question dataset with five tone variants and a 570-base question MMLU subset spanning 57 subjects with seven tone variants. Experiments were conducted to evaluate the performance of four cost-efficient, popular LLMs: ChatGPT-4o, ChatGPT-5-nano, Gemini 2.5 Flash, and Gemini 2.5 Flash Lite. Across models, tonal effects are systematic but highly model-dependent. Some models show small, yet statistically significant, shifts, while others exhibit large accuracy swings across tones. Further, we identify subject-level differences in tone sensitivity and present a routing framework to explain how tones may attune internal reasoning modes. Our findings caution users against assuming tone-robust reliability in LLM deployments.

2026-05-29 13:00 JSTarXiv cs.AI研究/論文Gemma

連鎖は維持され、答えは折りたたまれる: 敵対的な圧力下での推論モデルにおけるトレースと答えの解離

推論モデルはシングルターンベンチマークで評価されますが、ユーザーが正解を押し返すマルチターンダイアログで展開されます。持続的な敵対的圧力の下では、これまで文書化されていなかった失敗モードが見つかります。つまり、思考の連鎖は最初のターンから最後まで事実上正しいままですが、発せられた答えは間違った方向に反転します。私たちはこれを不誠実な降伏 (UC) と呼び、フリップレート メトリクスとシングル ターン忠実度プローブの両方が見逃す $2\times 2$ の潜在対行動のフレームワークでこれを分離します。 3 つのデータセット (MT-Consistency、MMLU-Pro、GSM8K) にわたって、行動反転での潜在的正解率は思考モードでは 50% 近くに集まりましたが、no_think では 11 ~ 15% に落ち込みました。これは、推論がギャップを生み出すペアのモデル内因果証拠です。モデル全体で、この効果は推論チャネルを追跡します (Qwen3-32B および GPT-OSS-20B では高く、インライン CoT Gemma-4-31B-it では低くなります)。独立した GPT-4o 判事は UC ラベルの $86\%$ を裏付けています。トークンレベルのプローブは、UC セルの $84\%$ で応答スロット argmax が正しいことを示します。そして、単純なトレースアンカーの防御が裏目に出ます。全ての軌跡、痕跡、判定ラベルを公開します。

原文 (English)

The Chain Holds, the Answer Folds: Trace-Answer Dissociation in Reasoning Models Under Adversarial Pressure

Reasoning models are evaluated on single-turn benchmarks but deployed in multi-turn dialogue, where users push back on correct answers. Under sustained adversarial pressure we find a previously undocumented failure mode: the chain-of-thought stays factually correct from first turn to last while the emitted answer flips wrong. We call this unfaithful capitulation (UC) and isolate it with a $2\times 2$ latent-versus-behavioral framework that flip-rate metrics and single-turn faithfulness probes both miss. Across three datasets (MT-Consistency, MMLU-Pro, GSM8K), the latent-correct rate at the behavioral flip clusters near 50% in think mode and collapses to 11-15% under no_think -- paired, within-model causal evidence that reasoning creates the gap. Across models the effect tracks the reasoning channel (high in Qwen3-32B and GPT-OSS-20B, low in inline-CoT Gemma-4-31B-it). An independent GPT-4o judge corroborates $86\%$ of UC labels; a token-level probe shows the answer-slot argmax is correct in $84\%$ of UC cells; and a naive trace-anchored defense backfires. We release all trajectories, traces, and judge labels.

2026-05-29 13:00 JSTarXiv cs.AI研究/論文

AI および臨床試験における人間と AI の相互作用のトレンド -- 人間と AI のハイブリッドの探求

この論文では、ClinicalTrials.gov レジストリから取得した記録を調査して、AI 用語の一時的な傾向と AI 治験の地理的分布を特徴付けます。この研究では、登録された臨床試験における人間と AI の相互作用の傾向を分析するための探索的なハイブリッド人間と AI アプローチについても報告しています。ハイブリッド ワークフローは、フロンティア生成 AI モデル (GPT-5.5) と、AI に焦点を当てた検索によって返された記録をスクリーニングおよび分類するための人によるレビューで構成されています。この調査結果は、AI 関連の試験が時間の経過とともに顕著に増加しており、最近では機械学習、深層学習、チャットボット、GPT、大規模言語モデルへの言及が増加していることを示しています。地理的には、中国と米国が AI 関連の治験の最多を占めており、最近ではイタリア、フランス、スペイン、英国、トルコ (T\"urkiye) など他のいくつかの国での増加が顕著である。100 件の記録の無作為サンプルにおいて、人間と AI の分類子は、AI を実質的に使用していない研究の特定では良好な一致を示したが、特に医療専門家の相互作用が曖昧または不十分な場合、人間と AI の相互作用の分類では低い一致を示した。全体として、結果は人間と AI のハイブリッド スクリーニングが有効であることを示唆している。臨床試験記録の削減は潜在的に実行可能ですが、より明確な試験報告とより正確な相互作用定義はプロセスに利益をもたらします。

原文 (English)

Trends in AI and Human-AI Interaction in Clinical Trials -- A Hybrid Human-AI Exploration

This paper examines records retrieved from the ClinicalTrials.gov registry to characterize temporal trends in AI terminology and the geographical distribution of AI trials. The work also reports on an exploratory hybrid human-AI approach to analyzing human-AI interaction trends in registered clinical trials. The hybrid workflow comprised a frontier generative AI model (GPT-5.5) and human review to screen and categorize records returned by an AI-focused search. The findings indicate a marked increase in AI-related trials over time, with recent growth in references to machine learning, deep learning, chatbots, GPTs, and large language models. Geographically, China and the United States accounted for the largest numbers of AI-related trials, with notable recent increases in several other countries including Italy, France, Spain, the UK and Turkey (T\"urkiye). In a random sample of 100 records, human and AI classifiers showed good agreement in identifying studies not substantively using AI, but lower agreement in classifying human-AI interaction, particularly where health professional interaction was ambiguous or insufficiently described. Overall, the results suggest that hybrid human-AI screening of clinical trial records is potentially viable, but clearer trial reporting and more precise interaction definitions will benefit the process.

2026-05-29 13:00 JSTarXiv cs.AILLM/生成AIエージェントビジネス/資金調達研究/論文

BenchTrace: LLM エージェントのリフレクション能力と制御された進化をテストするためのベンチマーク

自己進化エージェントは過去の失敗を反映することで時間の経過とともに改善しますが、既存の評価には 2 つの点で制限があります。1 つはタスク スコアのみを測定し、反映品質は不明のままにすること、もう 1 つはエージェント自身のエピソードの実行に依存しており、特定の失敗パターンを対象にするメカニズムを提供していないことです。 LLM エージェントの自己進化能力を評価するためのベンチマークである \textbf{BenchTrace} を紹介します。 BenchTrace は、6 つの多様なタスクにわたる 1,821 の注釈付きエピソードのスナップショット反映データセットに基づいて構築されており、ターゲットを絞った QA タスクを通じて障害の特定を調査する \textbf{反映評価} と、制御された自己進化シミュレーションで過去の障害経験が回避行動に変換されるかどうかをテストする \textbf{進化評価} で構成されます。 BenchTrace に基づいて、エージェントがターゲットの障害インスタンスを回避できたテスト ケースの割合を測定する新しい評価指標である \textbf{障害回避率 (FAR)} を提案します。 Qwen3-32B と GPT-4.1 を使った実験では、どちらのモデルもリフレクション評価でエンドツーエンドの合格率が 30\% を下回り、診断が主なボトルネックであることが明らかになりました。進化の評価では、自己進化手法は一般に非進化ベースラインよりもFARを改善しますが、エージェントはノイズエピソードが蓄積するにつれて初期のレッスンを忘れ、エージェントは特定のコンテキストを超えて反省を一般化することができず、タスクコンテキスト間で負の転移を引き起こすことが示されています。さらに、相関分析により、完全に正しい反射のみが高い FAR と強く関連していることが明らかになりました。 BenchTrace は、現在の自己進化アプローチの具体的な限界を明らかにし、対象を絞った評価のための制御されたモデルに依存しないフレームワークを提供します。

原文 (English)

BenchTrace: A Benchmark for Testing Reflection Ability and Controlled Evolution in LLM Agents

Self-evolving agents improve over time by reflecting on past failures, but existing evaluation is limited in two ways: it measures only task scores, leaving reflection quality unknown, and it relies on agents' own episode runs, offering no mechanism to target specific failure patterns. We present \textbf{BenchTrace}, a benchmark for evaluating self-evolution ability in LLM agents. BenchTrace is built on a snapshot-reflection dataset of 1,821 annotated episodes spanning six diverse tasks, and comprises a \textbf{Reflection Evaluation} that probes failure identification through targeted QA tasks, and an \textbf{Evolution Evaluation} that tests whether past failure experience translates into avoidance behavior in a controlled self-evolution simulation. Building on BenchTrace, we propose \textbf{failure avoidance rate (FAR)}, a new evaluation metric measuring the fraction of test cases in which the agent successfully avoids the target failure instance. Experiments with Qwen3-32B and GPT-4.1 reveal that both models fall below a 30\% end-to-end pass rate on reflection evaluation, with diagnosis as the primary bottleneck. Evolution evaluation shows that self-evolution methods generally improve FAR over the non-evolving baseline, but agents forget early lessons as noise episodes accumulate, and agents fail to generalize their reflections beyond the specific context, causing negative transfer across task contexts. Our correlation analysis further reveals that only a fully correct reflection is strongly associated with higher FAR. BenchTrace exposes concrete limits of current self-evolution approaches and provides a controlled, model-agnostic framework for targeted evaluation.

2026-05-29 13:00 JSTarXiv cs.AI研究/論文ClaudeGemmaQwen

画面条件付きアクション予測のためのアーキテクチャに応じた監視付き微調整: PiSAR ベンチマーク

私たちは、PiSAR (ペルソナ、意図、画面、アクション、根拠) の 661 行のホールドアウト スライス上のフロンティア ゼロショット ベースラインに対して 3 つの教師付き微調整モデルをベンチマークします。PiSAR (ペルソナ、意図、画面、アクション、根拠) は、アプリストアの公開レビュー、ピュー アメリカン トレンド パネルの人口統計、および OPeRA の買い物客追跡から厳選された、画面に固定された行動理論の 12,929 タプル コーパスです。すべてのモデルは、フロンティアであっても微調整されていても、同じスコアリング パイプラインを使用して同じ 661 行のスライスで評価されます。 2つの発見。まず、フロンティアのゼロショット ベースライン (Claude Opus 4.7 および GPT-5.5) は、それぞれ sem_sim 0.459 および 0.482 に達します。微調整された Qwen3-VL-8B-Instruct は 0.783 に達し、行の 79% で sem_sim >= 0.7 をクリアします。これに対し、どちらのフロンティア ベースラインでも 1 ~ 2%、同じテスト セットでは絶対値 0.30 のギャップがあります。第二に、Gemma-4-26B-A4B-IT の同じトレーニング データとレシピのスコアはわずか 0.441 であり、微調整された Qwen ではなくフロンティアのゼロショット ベースラインと同じ帯域にあります。これはレシピとモデルの不一致であると考えられます。推論調整された高パラメーター モデルは変位に抵抗するため、より多くのデータまたはより強力な微調整方法が必要になる可能性があります。

原文 (English)

Architecture-Sensitive Supervised Fine-Tuning for Screen-Conditioned Action Prediction: A PiSAR Benchmark

We benchmark three supervised fine-tuned models against frontier zero-shot baselines on a 661-row held-out slice of PiSAR (Persona, intent, Screen, Action, Rationale), a 12,929-tuple corpus of screen-anchored behavioural rationales curated from public app-store reviews, Pew American Trends Panel demographics, and the OPeRA shopper traces. Every model, frontier or fine-tuned, is evaluated on the same 661-row slice with the same scoring pipeline. Two findings. First, frontier zero-shot baselines (Claude Opus 4.7 and GPT-5.5) reach sem_sim 0.459 and 0.482 respectively; a fine-tuned Qwen3-VL-8B-Instruct reaches 0.783 and clears sem_sim >= 0.7 on 79% of rows, against 1-2% for either frontier baseline, a gap of 0.30 absolute on the same test set. Second, the same training data and recipe on Gemma-4-26B-A4B-IT scores only 0.441, in the same band as the frontier zero-shot baselines rather than the fine-tuned Qwen. We read this as a recipe-vs-model mismatch: the reasoning-tuned high-parameter model resists displacement and would likely need either more data or a stronger fine-tuning method.

2026-05-29 13:00 JSTarXiv cs.AI研究/論文

CrystalXRD-Bench: 多様な結晶材料にわたる XRD ピークインデックスのための視覚言語モデルのベンチマーク

粉末 XRD パターンからのミラー指数の同定には、既存のマルチモーダル ベンチマークではテストされていない機能が必要です。モデルは、レンダリングされた科学曲線から狭いピーク位置を読み取り、その観察を多段階の結晶学的推論に結び付ける必要があります。 CrystalXRD-Bench は、XRD パターンの最高強度ピークに寄与する HKL のフルセットを回復するという 1 つのタスクのために 10 の公開結晶学的データベースから構築された 250 サンプルのベンチマークです。各サンプルは、レンダリングされた XRD 画像とソース CIF テキストおよび化学式を組み合わせているため、視覚的な抽出エラーと推論エラーを並べて検査できます。私たちは 7 つの視覚言語モデルを評価します。最高の Jaccard スコアは 0.5888 (GPT-5.4) で、完全一致率は 37.6% ですが、7 つのモデルのうち 6 つは依然として Jaccard 0.50 を下回っています。課題は解決にはほど遠い。エラー パターンは体系的に変化します。ダブル ピークのケースは特に脆弱で、リコールの多いモデルは HKL を過剰予測することでカバレッジを獲得し、CIF テキストにアクセスしても結晶学的計算のギャップは埋まりません。このベンチマークは、モデルのランキングに加えて、現在の VLM が定量的な科学的数値に基づいて機能しない条件を特定します。すべてのデータと評価コードは公開されます。

原文 (English)

CrystalXRD-Bench: Benchmarking Vision-Language Models for XRD Peak Indexing Across Diverse Crystalline Materials

Miller-index identification from powder XRD patterns requires capabilities untested by existing multimodal benchmarks: the model must read a narrow peak location from a rendered scientific curve and then connect that observation to multi-step crystallographic reasoning. We introduce CrystalXRD-Bench, a 250-sample benchmark built from 10 public crystallographic databases for a single task: recover the full set of HKLs contributing to the highest-intensity peak in an XRD pattern. Each sample pairs the rendered XRD image with the source CIF text and chemical formula, so visual extraction errors and reasoning errors can be examined side by side. We evaluate seven vision-language models. The best Jaccard score is 0.5888 (GPT-5.4) with an exact-match rate of 37.6%, yet six of seven models remain below Jaccard 0.50; the task is far from solved. Error patterns vary systematically: double-peak cases are especially brittle, recall-heavy models gain coverage by over-predicting HKLs, and access to CIF text does not close the gap in crystallographic calculation. Alongside model rankings, the benchmark identifies the conditions under which current VLMs fail on quantitative scientific figures. All data and evaluation code will be publicly available.

2026-05-29 13:00 JSTarXiv cs.AI研究/論文Gemini

シーンの自己探索による視点をもとに計画を立てる

VLM は、各カメラの動きによってビューがどのように変化するかを予測し、事前にそのような動きを多数計画することができますか?私たちはこれを機能ビュー計画と呼びます。これには、(1) 単一のアクションがビューをどのように変換するかを理解すること、(2) ターゲット ビューを特定するために複数ターンの計画にわたってそのような変換を多数構成することが必要です。私たちは、実際の ScanNet シーン上の 3D ポイントクラウド環境である、私たちが提案する ViewSuite で両方の機能を調査します。 13 のフロンティア VLM にわたって、重大な計画のギャップが生じています。VLM は基本的なビューとアクションの知識を持っていますが、それを複数ターンの計画にわたって構成することができず、視点の距離が長くなるにつれてギャップが拡大します。このギャップを埋めるために、自己探索とビュー グラフの蒸留を交互に行う反復フレームワークを提案します。重要な洞察は、結果に関係なく、すべての探索軌跡が集合的にビュー グラフを形成し、シーン全体で視点がどのように接続されているかをコンパクトに捉えるということです。このグラフをさまざまな教師ありタスクに抽出すると、ポリシーの分布が再形成され、純粋な RL を遅らせる希薄な報酬が克服されます。これにより、インタラクティブ ビュー プランニングで Qwen2.5-VL-7B が 2.5% から 47.8% に向上し、GPT-5.4 Pro (18.5%) や Gemini 3.1 Pro (21.4%) を上回りました。自己探索は、3D 空間で積極的に推論して計画できる VLM への有望な道として浮上しています。

原文 (English)

Planning with the Views via Scene Self-Exploration

Can VLMs predict how each camera move changes the view, and plan many such moves ahead? We call this capability view planning, requiring (1)understanding how a single action transforms the view, and (2)composing many such transformations across multi-turn plans to identify a target view. We probe both abilities in our proposed ViewSuite, a 3D point-cloud environment on real ScanNet scenes. Across 13 frontier VLMs, a critical planning gap emerges: they possess basic view-action knowledge but fail to compose it across multi-turn plans, with the gap widening as viewpoint distance grows. To close this gap, we propose an iterative framework that alternates self-exploration with view graph distillation. The key insight is that all exploration trajectories, regardless of their outcome, collectively form a view graph that compactly captures how viewpoints connect across a scene. Distilling this graph into diverse supervised tasks reshapes the policy distribution and overcomes the sparse rewards that stall pure RL. This improves Qwen2.5-VL-7B from 2.5% to 47.8% on interactive view planning, surpassing GPT-5.4 Pro (18.5%) and Gemini 3.1 Pro (21.4%). Self-exploration emerges as a promising path toward VLMs that can actively reason and plan in 3D space.

2026-05-29 13:00 JSTarXiv cs.AILLM/生成AIエージェントGeminiDeepSeek

GRASP: 自己改善型 LLM エージェントのためのゲート回帰認識スキル提案者

構造化された環境で動作する LLM エージェントは、会話的な方法ではなく操作的な方法で失敗し、信頼性は環境の手順に関する知識に依存します。以前の自己改善方法では、新しい項目が以前の正しい動作を保持しているかどうかを確認せずに自然言語ガイダンスを蓄積するため、ある軌道を修正したメモが静かに別の軌道に後退する可能性があります。 GRASP (Gated Regression-Aware Skill Proposer) を導入します。これは、エージェントの改善を制限されたスキル ライブラリへの一連の編集として扱い、ハード回帰バジェットの下でバランスのとれたホールドアウト プローブで純改善が得られた場合にのみ各候補者を許可します。 2 つの FHIR ベースの臨床ベンチマークで 5 つの基本モデル (gpt-oss-120b、DeepSeek V4 Flash、Gemini 3.1 Flash Lite、GPT-4.1、GPT-5.4) にわたって GRASP を評価します。 MedAgentBench では、GRASP は gpt-oss-120b を 40.6% から 88.8% に引き上げ、5 つの自己改善ベースラインのうち最も強力なものを 21.0 ポイント上回り、他のすべてのベース モデルを 17.2 から 40.3 ポイント改善しました。アブレーションでは、スキル ライティング自体によるものではなく、比較提案の生成、承認ゲート、およびハード リグレッション バジェットによって利益が得られると考えられます。検証がなければ、スキルを使用しないのと同じです。このメカニズムは臨床領域を超えて一般化され、4 つの非臨床環境のうち 3 つで薬剤を改善し、アクション スペースがオープンエンドである場合にのみフラットなままになります。凍結されたライブラリはモデル間で転送され、より強力なモデルからのスキルは弱い実行者を自ら学習した以上に向上させますが、その逆はそうではなく、ゲートされていないベースラインでは再現できない非対称性です。

原文 (English)

GRASP: Gated Regression-Aware Skill Proposer for Self-Improving LLM Agents

LLM agents acting in structured environments fail in operational rather than conversational ways, and reliability depends on procedural knowledge of the environment. Prior self-improvement methods accumulate natural-language guidance without checking that each new item preserves previously correct behavior, so a note that fixes one trajectory can silently regress another. We introduce GRASP (Gated Regression-Aware Skill Proposer), which treats agent improvement as a sequence of edits to a bounded skill library, admitting each candidate only if it produces a net improvement on a balanced held-out probe under a hard regression budget. We evaluate GRASP across five base models (gpt-oss-120b, DeepSeek V4 Flash, Gemini 3.1 Flash Lite, GPT-4.1, GPT-5.4) on two FHIR-based clinical benchmarks. On MedAgentBench, GRASP lifts gpt-oss-120b from 40.6% to 88.8%, exceeds the strongest of five self-improvement baselines by 21.0 points, and improves every other base model by 17.2 to 40.3 points. Ablations attribute the gain to comparative proposal generation, the acceptance gate, and the hard regression budget rather than to skill writing itself, which without validation is no better than using no skills. The mechanism generalizes beyond the clinical domain, improving agents on three of four non-clinical environments and remaining flat only where the action space is open-ended. Frozen libraries transfer across models, where skills from a stronger model improve weaker executors beyond what they learn for themselves while the reverse does not, an asymmetry that no ungated baseline reproduces.

2026-05-29 13:00 JSTarXiv cs.AILLM/生成AIエージェントビジネス/資金調達Claude

スペシャリスト モデルが依然として重要な理由: 医療用人工知能のための異種マルチエージェント パラダイム

医療分野における GPT や Claude などの汎用大規模言語モデル (LLM) の優れたパフォーマンスは、領域固有の医療専門家モデルは時代遅れになるのだろうかという重大な疑問を引き起こしています。私たちは、医療用人工知能 (AI) の将来は、モノリシックな医療基盤モデルの構築や人間の専門知識の置き換えにあるのではなく、ジェネラリストの LLM、領域固有の専門家モデル、および臨床医の間のコラボレーションを調整することにあると主張します。我々は、矛盾を認識した証拠の融合、不確実性に基づく臨床医の介入トリガー、および適応閾値キャリブレーションを可能にする異種医療マルチエージェントフレームワークである HetMedAgent を提案します。 3 つの実際の臨床意思決定タスクに関する実験では、ジェネラリスト LLM と領域固有の専門家モデルの間の相乗効果が、どちらかのタイプのモデルを単独で使用した場合よりも大幅に優れていることが実証され、モダリティ固有の分析における専門家モデルのかけがえのない価値が検証されました。 HetMedAgent は、医療 LLM または基盤モデルの構築から複数エージェントのコラボレーションへの移行を表し、一般的な推論機能とドメイン固有の精度のバランスを実現します。

原文 (English)

Why Specialist Models Still Matter: A Heterogeneous Multi-Agent Paradigm for Medical Artificial Intelligence

The impressive performance of generalist large language models (LLMs) such as GPT and Claude in healthcare raises a critical question: will domain-specific medical specialist models become obsolete? We argue that the future of medical artificial intelligence (AI) lies not in building monolithic medical foundation models, nor in replacing human expertise, but in orchestrating collaboration among generalist LLMs, domain-specific specialist models, and clinicians. We propose HetMedAgent, a heterogeneous medical multi-agent framework that enables conflict-aware evidence fusion, uncertainty-based clinician intervention triggering, and adaptive threshold calibration. Experiments on three real-world clinical decision-making tasks demonstrate that the synergy between generalist LLMs and domain-specific specialist models significantly outperforms using either type of model alone, validating the irreplaceable value of specialist models in modality-specific analysis. HetMedAgent represents a shift from building medical LLMs or foundation models to multi-agent collaboration, achieving a balance between general reasoning capabilities and domain-specific precision.

2026-05-29 13:00 JSTarXiv cs.AIエージェント

AgentDoG 1.5: AI エージェントの安全性とセキュリティのための軽量でスケーラブルな調整フレームワーク

OpenClaw などの最新のオープンワールド エージェントは、強力な環境間実行機能を示しますが、広範な新しい安全リスク源をもたらします。その一方で、高度なフロンティア AI モデルは攻撃障壁を大幅に下げ、現在のエージェント調整フレームワークが現実世界の展開には不適切になっています。これらの新たな脅威に対処するために、私たちは軽量でスケーラブルなエージェントの安全性調整フレームワークを提案します。具体的には、Codex および OpenClaw の実行シナリオからの緊急リスクに対応するために、エージェントの安全性分類を更新します。さらに、わずか約 1,000 個のサンプルを使用して軽量の AgentDoG 1.5 バリアント (0.8B、2B、4B、および 8B パラメーター) をトレーニングするための影響関数の精製を備えた分類に基づくデータ エンジンを構築し、主要なクローズド ソース モデル (GPT-5.4 など) と同等のパフォーマンスを達成します。 AgentDoG 1.5 に基づいて、高効率のエージェント安全性 SFT および RL トレーニング環境を構築します。これにより、Docker レベルの環境での導入オーバーヘッドが 2 桁削減されます。最後に、リアルタイムの安全管理のためのトレーニング不要のオンライン ガードレールとして AgentDoG 1.5 を導入します。広範な実験結果は、AgentDoG 1.5 が多様で複雑な対話型エージェント シナリオにおいて最先端のパフォーマンスを達成することを示しています。すべてのモデルとデータセットは公開されています。

原文 (English)

AgentDoG 1.5: A Lightweight and Scalable Alignment Framework for AI Agent Safety and Security

Modern open-world agents such as OpenClaw exhibit powerful cross-environment execution capabilities yet introduce broad new safety risk sources. Meanwhile, advanced frontier AI models drastically lower attack barriers, rendering current agent alignment frameworks inadequate for real-world deployment. To tackle these emerging threats, we propose a lightweight and scalable agent safety alignment framework. Specifically, we update the agent safety taxonomy to accommodate emergent risks from Codex and OpenClaw execution scenarios. We further build a taxonomy-guided data engine with influence-function purification to train lightweight AgentDoG 1.5 variants (0.8B, 2B, 4B, and 8B parameters) using only around 1k samples, achieving comparable performance with leading closed-source models (e.g., GPT-5.4). Based on AgentDoG 1.5, we construct a highly efficient agentic safety SFT and RL training environment, which reduces deployment overhead in Docker-level environments by two orders of magnitude. Finally, we deploy AgentDoG 1.5 as a training-free online guardrail for real-time safety moderation. Extensive experimental results indicate that AgentDoG 1.5 achieves state-of-the-art performance in diverse and complex interactive agentic scenarios. All models and datasets are openly released.

2026-05-29 13:00 JSTarXiv cs.AILLM/生成AIClaude

ポーカースキル: LLM はトレーニングやソルバーなしでエキスパート レベルのポーカーをプレイできます

ポーカーは人工知能にとって画期的な挑戦です。主流のアプローチは、反事実的後悔の最小化に基づいて構築された均衡ソルバーに依存しており、何百万ものコア時間のトレーニングが必要です。大規模言語モデル (LLM) はポーカーに関する広範な知識を備えていますが、直接プレイするよう求められた場合、ソルバーベースのエージェントよりもはるかに低いパフォーマンスを発揮します。従来のルールベースのポーカー エージェントは解釈可能でトレーニング不要ですが、その戦略的上限は依然として均衡プレイをはるかに下回っています。私たちは \textbf{PokerSkill} を導入します。これはトレーニング不要でソルバー不要のフレームワークであり、LLM の構造化されたアクション基礎インターフェイスとして詳細なルールベースのポーカー スキルを使用することで、このギャップを埋めることができます。決定論的コンテキスト エンジンは現在の状態を分析し、人間のポーカー専門家によって完全に設計された階層化スキル ライブラリから関連するフラグメントのみを取得し、LLM の選択を合理的なアクションに制限します。最先端の GTO ベンチマークである GTOWizard に対して、PokerSkill を使用した GPT-5.5 XHigh は $-57 \pm 21$ mbb/ハンドを達成し、Claude Opus 4.6 は $-80 \pm 29$ mbb/ハンドを達成し、Claude Opus 4.7 は $-87\pm 64$ mbb/ハンドを達成し、損失を 49 ~ 61\% 削減しました。デフォルトのプロンプトベースラインを備えており、強力なボットである Slumbot を上回っています。私たちの重要な発見は、ルールベースのスキルだけでは強力な戦略を構成せず、LLM だけではうまく機能できないが、それらを組み合わせることで、トレーニングもソルバーへのアクセスも必要とせず、しかも数百万コア時間の計算で構築されたシステムと競合できるエージェントが得られるということです。私たちの知る限り、これは、ゲーム固有のトレーニングやソルバー クエリを使用せずに、複雑な不完全情報ゲームで競争力のあるパフォーマンスを達成する LLM の最初のデモンストレーションです。コードは https://github.com/lbn187/PokerSkill で入手できます。

原文 (English)

PokerSkill: LLMs Can Play Expert-Level Poker without Training or Solvers

Poker is a landmark challenge for artificial intelligence. The dominant approach relies on equilibrium solvers built on counterfactual regret minimization, requiring millions of core-hours of training. Large Language Models (LLMs) possess extensive poker knowledge but perform far below solver-based agents when asked to play directly. Traditional rule-based poker agents are interpretable and training-free, but their strategic ceiling remains far below equilibrium play. We introduce \textbf{PokerSkill}, a training-free and solver-free framework that bridges this gap by using detailed rule-based poker skills as a structured action-grounding interface for LLMs. A deterministic context engine analyzes the current state and retrieves only the relevant fragments from a layered skill library, which is entirely designed by human poker experts, constraining the LLM's choice to reasonable actions. Against GTOWizard, a state-of-the-art GTO benchmark, GPT-5.5 XHigh with PokerSkill achieves $-57 \pm 21$ mbb/hand, Claude Opus 4.6 achieves $-80 \pm 29$ mbb/hand and Claude Opus 4.7 achieves $-87\pm 64$ mbb/hand, reducing losses by 49--61\% compared to default-prompt baselines and outperforming the strong bot Slumbot. Our key finding is that rule-based skills alone do not constitute a strong strategy, and LLMs alone cannot play well, but their combination yields an agent that requires neither training nor solver access yet competes with systems built on millions of core-hours of computation. To our knowledge, this is the first demonstration of an LLM achieving competitive performance in a complex imperfect-information game without game-specific training or solver queries. Code is available at https://github.com/lbn187/PokerSkill.

2026-05-29 13:00 JSTarXiv cs.AILLM/生成AIGemini

ProjectionBench: 漸進的な情報開示の下での LLM における科学的仮説生成の評価

科学的発見は本質的に創造的かつ不確実なプロセスであり、既知の知識を思い出す以上の推論が必要です。マルチホップ検索による深い研究タスクにおける大規模言語モデル (LLM) のパフォーマンスを評価するベンチマークが数多く提案されていますが、真の科学的発見に不可欠な革新的な推論能力はほとんどテストされていません。生の問題から古典的な帰無仮説検定までを構築し、科学的発見と推論におけるモデルのパフォーマンスを評価するためのベンチマーク フレームワークを紹介します。私たちのフレームワークでは、モデルは最初は最近の論文からのトピックと研究上の質問のみを受け取り、技術的な詳細は徐々に明らかになります。情報開示の各段階で、モデルは研究課題に対処する仮説を生成する役割を果たします。仮説は元の論文の結論と比較され、構成要素の原子的クレームの自動化された意味的類似性によって評価されます。グラウンドトゥルースの結論からの意味的乖離のこの漸進的な評価により、(最小限の情報の下で) モデルの革新性から (完全な実験の詳細の下で) 根拠のある推論能力の評価が可能になり、どちらも科学的発見の目的で LLM を使用する場合に重要です。私たちのフレームワークは、次世代の AI 科学者/共同科学者システムの開発を進めるために重要な、LLM の科学的推論と発見能力を体系的に評価するための基盤を提供します。具体的には、ここでは生物活性材料、機械材料、ナノ材料にわたる 45 の論文にわたって GPT-5、GPT-5.4、Gemini 2.5 pro、および Gemini 3.1 pro プレビューを評価します。 GPT-5.4 と Gemini 3.1 pro は予想どおり前世代の対応製品よりも優れたパフォーマンスを示し、特に GPT-5.4 は最小限のコンテキストでもグラウンド トゥルースの結論と 0.7 の F1 スコアの一致を維持していることがわかりました。

原文 (English)

ProjectionBench: Evaluating Scientific Hypothesis Generation in LLMs Under Progressive Information Disclosure

Scientific discovery is an inherently creative and uncertain process, requiring reasoning beyond the recall of known knowledge. While many benchmarks have been proposed to evaluate large language model (LLM) performance on deep research tasks via multi-hop retrieval, their innovative reasoning abilities essential for true scientific discovery remain largely untested. We introduce a benchmark framework for evaluating model performance in scientific discovery and reasoning, building up from a raw problem to the classical null hypothesis test. In our framework, models initially receive only the topic and research question from a recent paper, with technical details progressively revealed. At each stage of information disclosure, the model is tasked with generating hypotheses that address the research question, which is compared with the conclusions from the original paper and evaluated via automated semantic similarity of constituent atomic claims. This progressive evaluation of semantic divergence from ground-truth conclusions enables assessment of a model's innovativeness (under minimal information) to grounded reasoning capabilities (under full experimental details), both critical for using LLMs for scientific discovery purposes. Our framework provides a foundation for systematically evaluating scientific reasoning and discovery capabilities in LLMs, crucial for advancing the development of next-generation AI scientist/co-scientist systems. Specifically, here we evaluate GPT-5, GPT-5.4, Gemini 2.5 pro, and Gemini 3.1 pro preview across 45 papers spanning bioactive materials, mechanical materials, and nanomaterials. We find that GPT-5.4 and Gemini 3.1 pro outperform their previous generation counterparts as expected, and GPT-5.4 in particular maintains 0.7 F1 score alignment with ground truth conclusions even under minimal context.

2026-05-29 13:00 JSTarXiv cs.AI研究/論文

アリヤバータ 2: 高度な STEM 推論のための強化学習のスケーリング

JEE や NEET などの競争力のある STEM 試験では、複数段階の記号的推論、正確な数値計算、物理、化学、数学にわたる深い概念的理解が必要です。最近の大規模な言語モデルは、共通の推論ベンチマークでは優れたパフォーマンスを発揮しますが、大規模に展開することは依然として困難であり、学生の何百万もの疑問がドメイン固有の一貫した構造の問題解決を必要としています。 Aryabhata 2 は、トレーニング後の強化学習によってトレーニングされた、競争力のある STEM 試験用の推論に焦点を当てた言語モデルです。 PhysicsWallah の内部質問バンクを使用して、高品質のトレーニング カリキュラムを構築し、検証可能な報酬を伴う強化学習を通じて GPT-OSS-20B のポストトレーニングを構築します。トレーニングでは、長期にわたる強化学習と、段階的にロールアウト グループのサイズが大きくなることで広がる探索を組み合わせます。 JEE Main、JEE Advanced、NEET などの競合試験ベンチマークと、AIME、HMMT、MMLU-Pro、MMLU-Redux 2.0、GPQA などの配布外推論データセットで Aryabhata 2 を評価します。結果は、Aryabhata 2 が競合 STEM 推論において基本モデル GPT-OSS-20B を上回るパフォーマンスを示しながら、必要な出力トークンが大幅に少なくなる (最大 64\% 少ない) ことを示しています。

原文 (English)

Aryabhata 2: Scaling Reinforcement Learning for Advanced STEM Reasoning

Competitive STEM examinations such as JEE and NEET require multi-step symbolic reasoning, precise numerical computation, and deep conceptual understanding across physics, chemistry, and mathematics. Recent large language models perform strongly on common reasoning benchmarks, yet they remain difficult to deploy at scale, where millions of student doubts demand domain-specific, consistently structured problem solving. We introduce Aryabhata 2, a reasoning-focused language model for competitive STEM examinations, trained via reinforcement-learning post-training. Using PhysicsWallah's internal question banks, we construct a high-quality training curriculum and post-train GPT-OSS-20B through reinforcement learning with verifiable rewards. Training combines prolonged reinforcement learning with broadened exploration via progressively larger rollout group sizes. We evaluate Aryabhata 2 on competitive examination benchmarks, including JEE Main, JEE Advanced, and NEET, as well as out-of-distribution reasoning datasets such as AIME, HMMT, MMLU-Pro, MMLU-Redux 2.0, and GPQA. Results show that Aryabhata 2 outperforms its base model GPT-OSS-20B on competitive STEM reasoning while requiring substantially fewer output tokens (up to 64\% fewer).

2026-05-29 13:00 JSTarXiv cs.AILLM/生成AIビジネス/資金調達研究/論文LlamaQwen

オープンソースの安全ガード モデルのベンチマーク: 包括的な評価

安全性が重要なアプリケーションに大規模言語モデル (LLM) が導入されることが増えているため、堅牢なコンテンツ モデレーションが不可欠になっています。 NIST AI リスク フレームワークの 8 つの安全カテゴリにまたがる 79,331 サンプルの厳選されたベンチマークに基づく 14 のオープンソース安全ガード モデルの包括的な評価を示します。当社のベンチマークは 4 つの多様なデータセット (HarmBench、StrongREJECT、RealToxicityPrompts、BeaverTails) を集約し、安全関連のコンテンツ (暴力、ヘイトスピーチ、嫌がらせ、性的コンテンツ、自殺/自傷行為、冒涜、脅迫、健康上の誤った情報) のみに焦点を当てるようにフィルタリングされています。有害なコンテンツの欠落は誤検知よりも大きなリスクをもたらすため、リコールは安全性アプリケーションにとって重要な指標であることがわかりました。私たちの評価では、驚くべき結果が明らかになりました。Qwen Guard (4B パラメーター) は最高の再現率 (83.97%) を達成しましたが、Llama Guard (12B) や GPT-OSS Safeguard (20B) などのより大きなモデルは保守的な動作を示し、安全でないコンテンツを最大 75% 見逃しました。我々は、モデルのサイズが安全検出のパフォーマンスと相関しないこと、および汎用のガード モデルが特殊なガード モデルよりも優れていることを実証します。これらの調査結果は、実稼働環境での安全装置モデルを選択するための実践的なガイダンスを提供します。

原文 (English)

Benchmarking Open-Source Safety Guard Models: A Comprehensive Evaluation

As Large Language Models (LLMs) are increasingly deployed in safety-critical applications, robust content moderation becomes essential. We present a comprehensive evaluation of 14 open-source safety guard models on a curated benchmark of 79,331 samples spanning 8 NIST AI Risk Framework safety categories. Our benchmark aggregates four diverse datasets (HarmBench, StrongREJECT, RealToxicityPrompts, and BeaverTails), filtered to focus exclusively on safety-relevant content (violence, hate speech, harassment, sexual content, suicide/self-harm, profanity, threats, and health misinformation). We find that recall is the critical metric for safety applications, as missing harmful content poses greater risk than false positives. Our evaluation reveals surprising results: Qwen Guard (4B parameters) achieves the highest recall (83.97%) while larger models like Llama Guard (12B) and GPT-OSS Safeguard (20B) exhibit conservative behavior, missing up to 75% of unsafe content. We demonstrate that model size does not correlate with safety detection performance and that general-purpose guard models outperform specialized ones. These findings provide practical guidance for selecting safety guard models in production deployments.

2026-05-29 13:00 JSTarXiv cs.AILLM/生成AIエージェント研究/論文ClaudeOpenAI

LogDx-CI: LLM 根本原因診断のためのベンチマーク ログ削減ツール

CI 障害ログは大きく (中央値 5k 行、このコーパスでは最大 200k)、ノイズが多くなります。ログをデバッグしようとするコーディング エージェントは、ログを管理可能なコンテキストに削減する上流のツールに依存していますが、この分野では、どの削減が下流の LLM 診断に十分な証拠を保持するかについて、公的に実証された比較が行われていません。 LogDx-CI は、11 のコンテキスト削減ツール (raw、tail、grep、3 つの RTK モード、2 つの実際の LLM マップリデュース サマライザー、3 つのハイブリッド ルーター) を 35 の実際の GitHub Actions 障害ケースで比較するベンチマークであり、3 つの LLM デバッガー ファミリ (Claude Haiku 4.5、Claude Sonnet 4.6、OpenAI gpt-5-mini) と Sonnet 4.6 ツールを使用してスコア付けされました。エージェント。耐荷重に関する 3 つの調査結果を報告します。 (1)~ハイブリッド grep+tail ルーターがコスト品質のパレートフロンティアを支配しています。上位 2 つのメソッドのスコアは、ケースごとに $\sim$ \$0.03 で 0.670 / 0.666 で、$4.5\times$ 少ないトークンでスタンドアロン grep とほぼ同じ品質です。 (2)~エージェント ループ方式では、リダクション ツール全体の品質範囲が $7\times$ 崩壊します (シングルショット スプレッド 0.42 $\to$ エージェント ループ スプレッド 0.059)。エージェントは、フォローアップ ツール呼び出しを通じて弱いコンテキストを救出します。ただし、コストの差は依然として残ります。コンテキストが弱い場合、エージェントは回復するために 2 ~ 4$\times$ 回多くのツール呼び出しを発行する必要があります。 (3)~ファミリー間 LLM サマリー ペア (Claude Haiku デバッガーにフィードする gpt-5-mini サマライザー) は、4 つの診断ツール バリアントの平均で、同じファミリー ペアを $+0.071$ 上回っており、このタスクに関するセルフコール バイアス仮説を偽っています。 gpt-5-mini サマライザーは、エージェント ループ \#1 メソッド (スコア 0.749) でもあり、ケースあたりのツール呼び出しは $0.37$ で、リデューサー コストは Haiku サマライザーよりも $10\time$ 低くなります (ケースあたり \$0.18 対 \$1.75)。すべてのデータ、コード、ケースごとのバンドル、再現性インフラストラクチャは公開されています。

原文 (English)

LogDx-CI: Benchmarking Log Reduction Tools for LLM Root-Cause Diagnosis

CI failure logs are large (median 5k lines, max 200k in this corpus) and noisy. Coding agents that try to debug them depend on an upstream tool to reduce the log to a manageable context, but the field has had no public empirical comparison of which reductions preserve enough evidence for downstream LLM diagnosis. We introduce LogDx-CI, a benchmark that compares 11 context-reduction tools (raw, tail, grep, three RTK modes, two real LLM map-reduce summarizers, three hybrid routers) on 35 real GitHub Actions failure cases, scored by 3 LLM debugger families (Claude Haiku 4.5, Claude Sonnet 4.6, OpenAI gpt-5-mini) plus a Sonnet 4.6 tool-using agent. We report three load-bearing findings. (1)~Hybrid grep+tail routers dominate the cost-quality Pareto frontier; the top two methods score 0.670 / 0.666 at $\sim$ \$0.03 per case, same-ballpark quality as standalone grep at $4.5\times$ fewer tokens. (2)~In the agent-loop regime, the quality range across reduction tools collapses $7\times$ (single-shot spread 0.42 $\to$ agent-loop spread 0.059); the agent rescues weak contexts via follow-up tool calls. However, cost differences persist: weak contexts force the agent to issue 2--4$\times$ more tool calls to recover. (3)~A cross-family LLM-summary pair (gpt-5-mini summarizer feeding a Claude Haiku debugger) beats the same-family pair by $+0.071$ averaged across four diagnoser variants, falsifying the self-call-bias hypothesis on this task. The gpt-5-mini summarizer is also the agent-loop \#1 method (score 0.749) at $0.37$ tool-calls per case and $10\times$ lower reducer cost than the Haiku summarizer (\$0.18 vs \$1.75 per case). All data, code, per-case bundles, and reproducibility infrastructure are public.

2026-05-29 13:00 JSTarXiv cs.AI研究/論文ClaudeDeepSeek

FormInv: 数学的推論ベンチマークにおける意味的不変性の測定プロトコル

MathCheck (ICLR 2025) の言い換え品質監査では、129 グループ (3.1%) で意味的に間違った 4 つの言い換えが検出されました。それらを削除すると、GPT-4o がランク 2 からランク 4 に下がり、Claude Haiku と DeepSeek V3 がその上位に上がります。これらのランキングの変化は、単一モデルの評価では認識されません。モデル間の一致により、これらのエラーが自動的に検出されました (MathCheck のモデルは 3/4 以上、一次評価のモデルは 6/9 以上)。価格は 10 ドル未満でした。私たち自身のデータセットでは、同じプロトコルで、自動生成された結合変化言い換えの 47% が意味的に間違っていることがわかりました。この欠陥が測定ギャップをさらに深めています。Claude Haiku 4.5 は 86% の精度を達成していますが、SCR=50% です。つまり、その定理の半分は意味的に同等の再ステートメントの下で異なる答えになっています。一方、9 つのモデル全体の精度の合計は 86 ~ 96% にすぎませんが、意味的一貫性率 (SCR) は 50 ~ 82% に及びます。これは、標準ベンチマークでは見えない 32 ポイントのギャップです。形式的には、9 つ​​のフロンティア モデルを超えるターゲット ランキングには、それを実現する言い換えファミリーに対する重み付けが存在します (フリー ベンチマークの帰結)。すべてのファミリーをパレート支配するモデルはないためです。そのため、ファミリーを選択するベンチマーク設計者は、どのモデルが勝つかを暗黙的に選択していることになります。 FormInv は、監査プロトコル (再現率 100% で外部ベンチマークに複製)、366 ~ 811 項目にわたる 9 つのモデル (Lean4 で検証された定理) で評価された一次不変性尺度としての SCR および定理ごとのコクランの Q、およびレジームを意識したモデル選択のための FormInvSelector を提供します。

原文 (English)

FormInv: A Measurement Protocol for Semantic Invariance in Mathematical Reasoning Benchmarks

A paraphrase-quality audit of MathCheck (ICLR 2025) detected 4 semantically incorrect paraphrases in 129 groups (3.1%); removing them drops GPT-4o from rank 2 to rank 4 and elevates Claude Haiku and DeepSeek V3 above it; these ranking changes are invisible to any single-model evaluation. Cross-model unanimity found these errors automatically (>= 3/4 models for MathCheck; >= 6/9 for our primary evaluation) for under $10; in our own dataset the same protocol found that 47% of auto-generated connective-variation paraphrases were semantically incorrect. That flaw compounds a deeper measurement gap: Claude Haiku 4.5 achieves 86% accuracy yet SCR=50%, meaning half its theorems are answered differently under semantically equivalent restatements, while aggregate accuracy across 9 models spans only 86-96% yet Semantic Consistency Rates (SCR) span 50-82% -- a 32-point gap invisible to standard benchmarks. Formally, for any target ranking over 9 frontier models there exists a weighting over paraphrase families that realizes it (No-Free-Benchmark corollary), because no model Pareto-dominates all families -- so benchmark designers who select families are implicitly choosing which model wins. FormInv supplies the audit protocol (replicated on external benchmarks at 100% recall), SCR and per-theorem Cochran's Q as primary invariance measures evaluated on 9 models across 366-811 items (on Lean4-verified theorems), and FormInvSelector for regime-aware model selection.

2026-05-29 13:00 JSTarXiv cs.AILLM/生成AI研究/論文Claude

SCDBench: LLM ベースのスマート コントラクト デコンパイラーのベンチマーク

スマート コントラクトの逆コンパイルは、バイトコードから高レベルのソース コードを復元することを目的としていますが、既存の研究では狭いデータセット、一貫性のないメトリクス、限定的なセマンティック一貫性チェックが使用されているため、逆コンパイラーの評価は依然として困難です。大規模言語モデル (LLM) が、たとえそのセマンティクスが元のコントラクトから異なっていても、コンパイルされてもっともらしいと思われるソースのような Solidity を生成し始めるにつれて、このギャップはますます重要になります。 LLM ベースのスマート コントラクト逆コンパイルのためのデータセットおよびベンチマーク手法である SCDBench を紹介します。データセットには、ペアのバイトコード入力、グラウンドトゥルースのソースコード、再生可能なセマンティックチェックポイントを備えた 600 の実世界の Solidity コントラクトが含まれています。 SCDBench は、形式の完全性、コンパイル可能性、アプリケーション バイナリ インターフェイス (ABI) の回復、および差分再生によるセマンティックの一貫性という 4 つの累積的な段階を通じて逆コンパイラーの出力を評価します。 Claude Opus 4.7、GPT-5.3-Codex、GLM-5 をゼロショット逆コンパイル設定で評価します。これには、拡張推論およびゼロショット コンパイル修復設定の有無にかかわらず GLM-5 バリアントが含まれます。結果は、フロンティア LLM は多くの場合、構造化されコンパイル可能な Solidity を生成できることを示していますが、セマンティックな一貫性の達成はまだ解決には程遠く、最もパフォーマンスの高いフロンティア モデルは 42/600 コントラクトのみを完全に逆コンパイルします。さらに、同一モデルのコンパイル修復を導入すると、わずかな追加コストでパフォーマンスが大幅に向上することも示します。 SCDBench は、厳密で再現可能な評価のための共通基盤を確立し、ブロックチェーンのセキュリティと透明性のための信頼できるスマート コントラクト デコンパイラーの開発を加速することを目的としています。

原文 (English)

SCDBench: A Benchmark for LLM-Based Smart Contract Decompilers

Smart contract decompilation aims to recover high-level source code from bytecode, but evaluating decompilers remains difficult because existing studies use narrow datasets, inconsistent metrics, and limited semantic consistency checks. This gap is increasingly important as large language models (LLMs) begin to generate source-like Solidity that may compile and appear plausible, even when its semantics diverge from the original contract. We introduce SCDBench, a dataset and benchmark methodology for LLM-based smart contract decompilation. The dataset contains 600 real-world Solidity contracts with paired bytecode inputs, ground-truth source code, and replayable semantic checkpoints. SCDBench evaluates decompiler outputs through four cumulative stages: format completeness, compilability, Application Binary Interface (ABI) recovery, and semantic consistency via differential replay. We evaluate Claude Opus 4.7, GPT-5.3-Codex, and GLM-5 in a zero-shot decompilation setting, including GLM-5 variants with and without extended reasoning and a zero-shot compilation-repair setting. The results show that frontier LLMs can often produce structured and compilable Solidity, but achieving semantic consistency remains far from solved: the best-performing frontier model perfectly decompiles only 42/600 contracts. We further show that introducing same-model compilation repair substantially improves performance at modest additional cost. SCDBench establishes a common ground for rigorous, reproducible evaluation and aims to accelerate the development of reliable smart contract decompilers for blockchain security and transparency.

2026-05-29 13:00 JSTarXiv cs.AI研究/論文

AliMark: Enhancing Robustness of Sentence-Level Watermarking Against Text Paraphrasing

Existing sentence-level watermarking methods enhance robustness to paraphrasing by anchoring watermarks in sentence semantics. However, the…

2026-05-29 13:00 JSTarXiv cs.AILLM/生成AILlama

Inform, Coach, Relate, Listen: Auditing LLM Caregiving Support Roles

Language models are increasingly being deployed for conversational support in informal caregiving contexts, where interactions often extend…

2026-05-29 13:00 JSTarXiv cs.AIエージェントClaudeGemini

Training Deliberative Monitors for Black-Box Scheming Detection

As autonomous agents become more capable of performing real-world tasks, distinguishing scheming behavior from benign task pursuit may beco…

2026-05-29 13:00 JSTarXiv cs.AILLM/生成AIエージェントClaudeGemini

Evolutionary Dynamics of Cooperation in Next-Generation LLM Agent Systems: A Cross-Provider Empirical Extension

Do next-generation LLM agents inherit the cooperative biases documented in their predecessors, or does scale and provider diversity reshape…

2026-05-29 13:00 JSTarXiv cs.AILLM/生成AIClaudeGemini

Label Over Logic? How Source Cues Bias Human Fallacy Judgments More Than LLMs

As AI-generated and AI-assisted content floods online spaces, source labels attached to such content can distort human reasoning judgments,…

2026-05-29 13:00 JSTarXiv cs.AI研究/論文ClaudeGemini

REPOT: Recoverable Program-of-Thought via Checkpoint Repair

One-shot Program-of-Thought (PoT) emits a Python program that prints a primitive-action plan; a single invalid action silently invalidates…

2026-05-29 13:00 JSTarXiv cs.AILLM/生成AIエージェントAnthropicClaudeGeminiQwen

How Reliable Are AI Attackers Against a Fixed Vulnerable Target? A 400-Run Empirical Study of LLM Penetration Testing Consistency

Large language models (LLMs) can autonomously conduct multi-stage cyber attacks, but the consistency of their offensive behavior under repe…

2026-05-29 13:00 JSTarXiv cs.AILLM/生成AI

LLUMI: Improving LLM Writing Assistance for Mental Health Support with Online Community Feedback

Large language models (LLMs) show promise in generating supportive responses for mental health queries, but improving their usefulness, emp…

2026-05-29 13:00 JSTarXiv cs.AILLM/生成AIエージェント

SafeSearch: Automated Red-Teaming of LLM-Based Search Agents

Search agents connect LLMs to the Internet, enabling them to access broader and more up-to-date information. However, this also introduces…

2026-05-29 13:00 JSTarXiv cs.AILLM/生成AIGemini

Are LLMs Socially Adaptive? Contrasting Belief Evolution in Large Language Models and Humans

As large language models (LLMs) increasingly engage in complex social interactions, ensuring that their behaviors align with human ethical…

2026-05-29 13:00 JSTarXiv cs.AI研究/論文DeepSeek

Reasoning Theater: Disentangling Model Beliefs from Chain-of-Thought

We provide evidence of performative chain-of-thought (CoT) in reasoning models, where a model becomes strongly confident in its final answe…

2026-05-29 13:00 JSTarXiv cs.AI研究/論文

AuthorMix: Modular Authorship Style Transfer via Layer-wise Adapter Mixing

The task of authorship style transfer involves rewriting text in the style of a target author while preserving the meaning of the original…

2026-05-29 13:00 JSTarXiv cs.AI研究/論文Gemini

The Price Reversal Phenomenon: When Cheaper Reasoning Models Cost More

Developers and consumers increasingly choose reasoning models (RMs) based on their listed API prices. However, how accurately do these pric…

2026-05-29 13:00 JSTarXiv cs.AIエージェント

SkillTrojan: Backdoor Attacks on Skill-Based Agent Systems

Skill-based agent systems tackle complex tasks by composing reusable skills, improving modularity and scalability while introducing a large…

2026-05-29 13:00 JSTarXiv cs.AI研究/論文Gemini

Hilbert-Geo: Solving Solid Geometric Problems by Neural-Symbolic Reasoning

Geometric problem solving, as a typical multimodal reasoning problem, has attracted much attention and made great progress recently, howeve…

2026-05-28 23:45 JSTTechCrunch AILLM/生成AI

Sneak peek at new Siri app reveals Apple’s plans to take on ChatGPT and more

New renders offer a closer look at Apple’s planned AI overhaul for iOS 27, including a redesigned Siri experience and standalone Siri app.

2026-05-28 13:00 JSTarXiv cs.AILLM/生成AIエージェント

MolLingo: LLM を利用した科学エージェントの分子ネイティブ表現

化学者の推論プロセスをエミュレートして分子設計を自動化するマルチエージェント システムである MolLingo を紹介します。既存の LLM ベースのアプローチは、外部ツールにアクセスせずにスタンドアロンの生成モデルとして動作するか、分子設計パイプライン全体にわたる証拠に基づく反復的な推論に必要なマルチエージェントの調整と共有メモリが不足しています。 MolLingo は、各エージェントにドメイン固有のツールを備えた共有メモリ モジュールを介して、文献エージェント、化学エージェント、およびオーケストレーターを調整することでこの問題に対処します。効果的な分子推論を可能にするために、BRICS ベースのフラグメント列挙 (BFE) を導入します。これは、一般的な化学名と組み合わせたブロックベースの SMILES として表される化学的に意味のある構成要素に分子を分解する、合成を意識した分子断片化手法です。この表現は分子構造と LLM 意味空間の橋渡しをし、生の SMILES だけでは難しいブロックレベルの推論と編集を可能にします。初期段階の治療設計のケーススタディとして、MolLingo はさらに、より強力な標的結合のために分子を最適化するために、結合部位の形状と分子ドッキングから得られる残基レベルのタンパク質のコンテキストに Chemist Agent の推論を根拠付けています。 4 つのベンチマークにわたって、MolLingo は一貫してフロンティア LLM および特殊なベースラインを上回っています。これには、同じ基礎モデルを使用しているにもかかわらず、GPT-5.4 と比較してドッキング スコアが 4 倍向上していること、複数の LLM バックボーンにわたる一貫した薬剤特性最適化の向上、およびフロンティア LLM と RL ベースの最適化手法である RePO の両方を上回る TOMG-Bench での最先端の結果が含まれます。私たちの結果は、LLM が化学的に意味のある表現と生物学的に根拠のある構造的コンテキストを通じて導かれるとき、すでに有能な分子設計アシスタントであることを示唆しています。コードは https://anonymous.4open.science/status/MolLingo-7450 で入手できます。

原文 (English)

MolLingo: Molecule-Native Representations for LLM-Powered Scientific Agents

We present MolLingo, a multi-agent system that emulates the reasoning process of a chemist to automate molecular design. Existing LLM-based approaches either operate as standalone generative models without access to external tools or lack the multi-agent coordination and shared memory needed for iterative, evidence-driven reasoning across the molecular design pipeline. MolLingo addresses this by coordinating a Literature Agent, a Chemist Agent, and an Orchestrator through a shared memory module, with each agent equipped with domain-specific tools. To enable effective molecular reasoning, we introduce BRICS-based Fragment Enumeration (BFE), a synthesis-aware molecular fragmentation method that decomposes molecules into chemically meaningful building blocks represented as block-based SMILES paired with common chemical names. This representation bridges molecular structure and LLM semantic space, enabling block-level reasoning and editing that is difficult with raw SMILES alone. As a case study in early-stage therapeutic design, MolLingo further grounds the Chemist Agent's reasoning in binding site geometry and residue-level protein context derived from molecular docking to optimize molecules for stronger target binding. Across four benchmarks, MolLingo consistently outperforms frontier LLMs and specialized baselines, including a fourfold docking score improvement over GPT-5.4 despite using the same underlying model, consistent drug property optimization gains across multiple LLM backbones, and state-of-the-art results on TOMG-Bench, surpassing both frontier LLMs and the RL-based optimization method RePO. Our results suggest that LLMs are already capable molecular design assistants when guided through chemically meaningful representations and biologically grounded structural context. Code is available at: https://anonymous.4open.science/status/MolLingo-7450.

2026-05-28 13:00 JSTarXiv cs.AIエージェント研究/論文OpenAIGemini

長期的な空間生物学の検証可能なベンチマーク

AI エージェントは生物学的データ分析にますます有用になっていますが、既存のベンチマークは、空間測定に対するエンドツーエンドの科学的推論ではなく、広範な生物学的知識、実行可能なワークフロー、または局所的な分析ステップをテストすることがほとんどです。私たちは、長期空間生物学のベンチマークである SpatialBench-Long を紹介します。このベンチマークでは、エージェントは、規定の方法を使用せずに、生または生に近いデータと校正された実験コンテキストから生物学的主張を回復する必要があります。 SpatialBench-Long には、原発性膵管腺癌 (PDAC)、人工神経膠芽腫オルガノイドおよび in vivo 腫瘍、Cas9 系統追跡肺腺癌、マウス視神経老化 / 介入システムにわたる 24 の評価が含まれており、CosMx、Visium、Xenium、多重エラーロバスト蛍光 in situ ハイブリダイゼーション (MERFISH) に及びます。単一細胞 RNA シーケンス (scRNA-seq)、Slide-seq、Slide-tag、組織学、系統記録データ。候補者の主張は、再現、独立した科学者のレビュー、軌道検査を通じて強化されます。最終的な解答は、管理された語彙と記号に基づいて決定的に採点され、主要な分析の難所を通じた進捗状況を把握する付属のルーブリックが付けられます。 SpatialBench-Long ベンチマーク全体で、Gemini 3.5 Flash / Pi ターミナル コーディング ハーネス、GPT-5.5 / Pi、および GPT-5.5 / OpenAI Codex の 3 つのモデルとハーネスのペアが 8/72 実行 (11.1\%) で同点です。 SpatialBench-Long は、エージェントが手順分析の実行を超えて、複雑な空間測定から正確な科学的結論を導き出すことができるかどうかをテストします。

原文 (English)

Verifiable Benchmarking of Long-Horizon Spatial Biology

AI agents are increasingly useful for biological data analysis, but existing benchmarks mostly test broad biological knowledge, executable workflows, or localized analysis steps rather than end-to-end scientific reasoning over spatial measurements. We introduce SpatialBench-Long, a benchmark for long-horizon spatial biology in which agents must recover biological claims from raw or near-raw data and calibrated experimental context without prescribed methods. SpatialBench-Long contains 24 evaluations across primary pancreatic ductal adenocarcinoma (PDAC), engineered glioblastoma organoids and in vivo tumors, Cas9 lineage-traced lung adenocarcinoma, and mouse optic nerve aging/intervention systems, spanning CosMx, Visium, Xenium, multiplexed error-robust fluorescence in situ hybridization (MERFISH), single-cell RNA sequencing (scRNA-seq), Slide-seq, Slide-tags, histology, and lineage-recording data. Candidate claims are hardened through reproduction, independent scientist review, and trajectory inspection. Final answers are graded deterministically over controlled vocabularies and symbols with companion rubrics capturing progress through key analysis chokepoints. Across the SpatialBench-Long benchmark, three model-harness pairs tie at 8/72 runs (11.1\%): Gemini 3.5 Flash / Pi terminal coding harness, GPT-5.5 / Pi, and GPT-5.5 / OpenAI Codex. SpatialBench-Long tests whether agents can move beyond executing procedural analysis to deriving accurate scientific conclusions from complex spatial measurements.

2026-05-28 13:00 JSTarXiv cs.AIエージェント研究/論文

AutoScientists: Self-Organizing Agent Teams for Long-Running Scientific Experimentation

Scientific research proceeds through iterative cycles of hypothesis generation, experiment design, execution, and revision. AI agents can a…

2026-05-28 13:00 JSTarXiv cs.AI研究/論文

From AR to Diffusion: Efficiently Adapting Large Language Models with Strictly Causal and Elastic Horizons

Diffusion models promise efficient parallel text generation but rely on bidirectional attention, creating a structural mismatch with pre-tr…

2026-05-28 13:00 JSTarXiv cs.AILLM/生成AIGemini

Using Zero-Shot LLM-Generated Survey Data for Geographically Explicit Population Synthesis

There is a growing interest in utilizing synthetic populations for a diverse range of applications. At the same time, we are witnessing a t…

2026-05-28 13:00 JSTarXiv cs.AILLM/生成AIAnthropicClaude

Prominence-Stratified Failure Modes in Retrieval-Augmented Commercial Recommendation: A 37,000-Run Audit

AI assistants like ChatGPT and Claude are recommendation engines, not search engines: they answer commercial queries by directly nominating…

2026-05-28 13:00 JSTarXiv cs.AILLM/生成AIGeminiGemmaQwen

Hallucination Behavior in Multimodal LLMs Across Agricultural Image Interpretation and Generation Tasks

Large Language Models (LLMs) are being rapidly adopted in agricultural imaging applications, ranging from crop interpretation to synthetic…

2026-05-28 13:00 JSTarXiv cs.AI研究/論文LlamaMistral AI

Hurwitz Quaternion Multiplicative Quantization for KV Cache Compression

We propose \textbf{Hurwitz Quaternion Multiplicative Quantization (HQMQ)}, a \textbf{calibration-free} method for KV cache compression of l…

2026-05-28 13:00 JSTarXiv cs.AI研究/論文

Cultural Fidelity in English-to-Hindi Translation: A Preservation-Fluency Frontier for Gender Recoverability

Generative translation systems are cultural technologies because they decide how socially meaningful cues are rendered within culturally sp…

2026-05-28 13:00 JSTarXiv cs.AILLM/生成AIClaudeGemini

CiteCheck: Retrieval-Grounded Detection of LLM Citation Hallucinations in Scientific Text

Large language models (LLMs) are increasingly used to generate scientific reports, but they can produce references that appear plausible wh…

2026-05-28 13:00 JSTarXiv cs.AI研究/論文Claude

Do Models Know Why They Changed Their Mind? Interpretability and Faithfulness of Chain-of-Thought Under Knowledge Conflict

When a language model sees a document contradicting its training knowledge, it must choose: follow the document or trust itself. Prior work…

2026-05-28 13:00 JSTarXiv cs.AI研究/論文

DecomposeRL: Learning to Ask Useful, Informative, and Diverse Questions for Semi-Supervised, Traceable Claim Verification

Claim verification splits between end-to-end classifiers that are accurate but yields no inspectable traces, and decomposition-based method…

2026-05-28 13:00 JSTarXiv cs.AILLM/生成AIビジネス/資金調達研究/論文Claude

Let the Results Speak: A Replication-First Paradigm for LLM Behavioral Benchmarking

Subjective evaluation of LLM behavior -- empathy, restraint, calibrated emotional tone -- is hard. Human inter-rater agreement on such qual…

2026-05-28 13:00 JSTarXiv cs.AILLM/生成AI

Periodic RoPE for Infinite Context LLMs

The ability to process ultra-long contexts is crucial for large language models (LLMs) to perform long-horizon tasks. While recent efforts…

2026-05-28 13:00 JSTarXiv cs.AI研究/論文DeepSeek

Pruning and Distilling Mixture-of-Experts into Dense Language Models

Mixture-of-Experts (MoE) is now the dominant architecture for frontier language models, yet it requires all expert parameters to be loaded…

2026-05-28 13:00 JSTarXiv cs.AI研究/論文

Debate with Images: Detecting Deceptive Behaviors in Multimodal Large Language Models

Are frontier AI systems becoming more capable? Certainly. Yet such progress is not an unalloyed blessing but rather a Trojan horse: behind…

2026-05-28 13:00 JSTarXiv cs.AILLM/生成AIエージェントClaude

Graph-of-Skills: Dependency-Aware Structural Retrieval for Massive Agent Skills

Modern LLM agents increasingly rely on reusable skills, and as they interact with personal applications, web browsers, and other interfaces…

2026-05-28 13:00 JSTarXiv cs.AI研究/論文

Who Uses AI? Platform Selection and the Measurement of Occupational AI Exposure

Conversation logs from AI platforms are increasingly used to measure occupational exposure to artificial intelligence, but the users observ…

2026-05-28 13:00 JSTarXiv cs.AI研究/論文

Measuring Massive Multitask Chinese Understanding

The development of large-scale Chinese language models is flourishing, yet there is a lack of corresponding capability assessments. Therefo…

2026-05-28 13:00 JSTarXiv cs.AILLM/生成AIClaudeLlama

Persuade Me if You Can: A Framework for Evaluating Persuasion Effectiveness and Susceptibility Among Large Language Models

Large Language Models (LLMs) demonstrate persuasive capabilities that rival human-level persuasion. While these capabilities can be used fo…

2026-05-28 13:00 JSTarXiv cs.AILLM/生成AIエージェントQwen

ReflexGrad: Within-Episode Failure Recovery in LLM Agents via Progress-Gated Dual-Process Routing

We present ReflexGrad, a dual-process architecture for within-episode failure recovery in LLM agents without demonstrations. When agents co…

2026-05-28 13:00 JSTarXiv cs.AI研究/論文

Do readers prefer AI-generated Italian short stories?

This study investigates whether readers prefer AI-generated short stories in Italian over one written by a renowned Italian author. In a bl…

2026-05-28 13:00 JSTarXiv cs.AIエージェント

Coherence Collapse: Diagnosing Why Code Agents Fail After Reaching the Right Code

Code agents resolve 65-70% of SWE-bench Verified issues, but Pass@1 cannot tell us why the rest fail, and, as we show, capable-model failur…

2026-05-28 13:00 JSTarXiv cs.AI研究/論文Claude

Compositional Consistency-Guided Decoding for Three-Way Logical Question Answering

Three-way logical question answering (QA) assigns one of $\text{True}$, $\text{False}$, or $\text{Unknown}$ to a hypothesis $H$ given a pre…

2026-05-28 13:00 JSTarXiv cs.AI研究/論文

Graph Memory Transformer (GMT)

We investigate whether the Feed-Forward Network (FFN) sublayer in a decoder-only transformer can be replaced by an explicit learned memory…

2026-05-27 13:00 JSTarXiv cs.AILLM/生成AIロボティクスClaudeDeepSeek

音声言語処理タスクのためのロボットと患者および医師と患者の医療対話のデータセット

大規模言語モデル (LLM) は、人工知能 (AI) に大幅な改善をもたらし、汎用タスクに適用できます。ただし、テキストまたは音声による医療相談への応用は、まだ未解決の研究問題です。本稿では、患者との相談を行うことができるMed-AIを訓練・評価するための新しい音声データセットであるMeDial-Speechを提案する。これは、ロボットと患者および医師と患者の対話から現実的な環境で収集されたもので、111 時間以上の音声データ (データ拡張なし) が含まれており、レビー小体型認知症、心不全、肩の痛み、狭心症という 4 つの健康状態をカバーしています。さらに、GPT-5 mini、DeepSeek-V3、Claude Sonnet 4 という 3 つの最先端の LLM を評価するために、文選択 (20 のオプション) による対話ベンチマークを提案します。実験の結果、Claude Sonnet 4 が文選択において最高であり、手動転写を使用した場合は 71.1%、自動転写を使用した場合は 74.7% であり、すべての LLM は確率的予測に非常に自信を持っていることが明らかになりました。医療対話における正しい文または誤った文の選択。このデータセットは、非営利目的の場合、https://huggingface.co/datasets/hcuayahu/MeDial-Speech で無料で利用できます。

原文 (English)

A Dataset of Robot-Patient and Doctor-Patient Medical Dialogues for Spoken Language Processing Tasks

Large Language Models (LLMs) have brought huge improvements to Artificial Intelligence (AI), which can be applied to general-purpose tasks. However, their application to textual or spoken medical consultations is still an open research problem. This paper proposes MeDial-Speech, a novel speech dataset for training and evaluating Med-AIs that can carry out consultations with patients. It was collected in realistic environments from robot-patient and doctor-patient dialogues, contains 111+ hours of speech data (without data augmentation), and covers four health conditions: Lewy body dementia, heart failure, shoulder pain, and angina. In addition, we propose a dialogue benchmark via sentence selection (with 20 options) to evaluate three state-of-the-art LLMs: GPT-5 mini, DeepSeek-V3, and Claude Sonnet 4. Experimental results reveal that Claude Sonnet 4 is the best in sentence selection, with 71.1% accuracy using manual transcriptions and 74.7% using automatic transcriptions, and that all LLMs are highly overconfident in their probabilistic predictions, regardless of selecting correct or incorrect sentences in medical dialogues. This dataset is free of charge for non-commercial purposes at: https://huggingface.co/datasets/hcuayahu/MeDial-Speech

2026-05-27 13:00 JSTarXiv cs.AI研究/論文

LiveK12Bench: 大規模なマルチモーダル モデルは本当に高校レベルの試験を克服しましたか?

高度な大規模マルチモーダル モデル (LMM) は、幼稚園から高等学校までの推論タスクで優れたパフォーマンスを示し、インテリジェントな家庭教師として大きな期待を示しています。この可能性を実現するには、モデルが実際の試験を効果的にナビゲートする必要がありますが、既存のベンチマークのほとんどは、本物のテスト環境の複雑さを捉えることができません。具体的には、ほとんどのデータセットは静的であり、データ汚染が起こりやすく、制限されたモダリティ、分野、評価基準に限定されていることがよくあります。これらの問題に対処するために、現実的な検査シナリオで LMM の推論能力を評価するように設計された、動的で総合的な学際的なベンチマークである LiveK12Bench を導入します。 LiveK12Bench は、数学、物理学、化学、生物学にわたる 2,000 以上の検証済みの問題で構成されており、最新の実際の試験問題をソースとしており、時間の経過とともに増加するように設計されています。当社のフレームワークには、いくつかの核となるイノベーションが含まれています。1) データ漏洩を軽減するために、最新の試験用紙を継続的に取り込んで解析する自動パイプラインを特徴とします。 2) 正確かつ効率的な推論パスを使用してエンドツーエンドの試験を自律的に完了する能力を評価する、新しい「模擬試験」評価スキームを提案します。 12 個の LMM での広範な実験により、高度なモデルは試験の現実的な制約の下で大幅なパフォーマンスの低下に見舞われることが明らかになりました。プロセスの厳密さと効率を合わせて評価すると、GPT-5 のスコアは 79 から 53 (100 点満点中) に低下しました。私たちの調査結果は、複雑な視覚的レイアウトに対する敏感さなどの重大な脆弱性を明らかにし、理想的な推論能力と真の教育準備との間のギャップを浮き彫りにしています。コードとデータセットは両方とも公開されています。

原文 (English)

LiveK12Bench: Have Large Multimodal Models Truly Conquered High School-level Examinations?

Advanced Large Multimodal Models (LMMs) have demonstrated impressive performance in K-12 reasoning tasks, exhibiting great promise as intelligent tutors. Realizing this potential requires models to navigate real-world examinations effectively, yet most existing benchmarks fail to capture the complexity of authentic testing environments. Specifically, most datasets are static, prone to data contamination, and are often confined to restricted modalities, disciplines, and evaluation criteria. To address these issues, we introduce LiveK12Bench, a dynamic, holistic, multi-disciplinary benchmark designed to evaluate the reasoning abilities of LMMs in realistic examination scenarios. LiveK12Bench comprises 2K+ verified questions spanning Mathematics, Physics, Chemistry, and Biology, sourced from the latest real-world exam papers and designed to grow over time. Our framework features several core innovations: 1) featuring an automated pipeline that continuously ingests and parses the latest examination papers to mitigate data leakage; and 2) proposing a novel `Mock Exam' evaluation scheme, which assesses the ability to complete end-to-end exams autonomously with accurate and efficient reasoning paths. Extensive experiments on 12 LMMs reveal that advanced models suffer substantial performance degradation under exam-realistic constraints: GPT-5's score drops from 79 to 53 (out of 100) when process rigor and efficiency are jointly evaluated. Our findings expose critical vulnerabilities, such as sensitivity to complex visual layouts, highlighting the gap between idealized reasoning capabilities and true educational readiness. Both code and dataset are publicly available.

2026-05-27 13:00 JSTarXiv cs.AIエージェント研究/論文Claude

マアト: 競争保護のためのエージェント法調査アシスタント

法的調査を行う競争法の専門家は、判例を特定し、競争および合併訴訟の重要な要素を評価するために、大量の訴訟、判決、司法報告書を検討する必要があります。 Claude や ChatGPT などの一般的な研究アシスタントや、SaulLM-7B や LegalGPT などの法務アシスタントは、法律調査を支援するためにますます使用されていますが、競争法分析には依然として不十分です。専門分野の専門知識が不足していたり​​、公式引用が不十分であったり、競争法訴訟の幻覚を呈したりするためです。私たちは、研究プロセスのさまざまなタスクに対応するツールを統合する ReAct エージェントである Maat を提案します。競争法の専門家と繰り返し設計された Maat は、信頼性を高めるために RAG を使用して公式情報源にある事例と調査結果を根拠にし、豊富なインライン引用を提供し、データベースの網羅性が不十分な場合は Web 検索に戻り、クエリがあいまいな場合はユーザーに説明を求めます。 Maat は、ケース固有のタスクではすべてのベースライン アシスタントを大幅に上回り、理論的な質問タスクではトップ ベースラインの範囲内でパフォーマンスを発揮します。使用されたデータセットは GitHub で入手できます。

原文 (English)

Maat: The Agentic Legal Research Assistant for Competition Protection

Competition law experts conducting legal research must review extensive volumes of cases, decisions, and judicial reports to identify precedents and assess key elements in competition and merger cases. Although general research assistants such as Claude and ChatGPT and legal assistants such as SaulLM-7B and LegalGPT are increasingly used to assist legal research, they remain inadequate for competition law analysis: they lack specialized domain expertise, provide insufficient official citations, or hallucinate competition law cases. We propose Maat, a ReAct agent that orchestrates tools corresponding to different tasks of the research process. Designed iteratively with competition law experts, Maat grounds cases and findings in official sources using RAG for reliability, provides rich in-line citations, falls back to web search when database coverage is insufficient, and prompts the user for clarification when queries are ambiguous. Maat significantly outperforms all baseline assistants on case-specific tasks and performs within range of the top baseline on theoretical question tasks. The dataset used is available on GitHub.

2026-05-27 13:00 JSTarXiv cs.AIエージェント

AutoDFT: 自律的な DFT 計算のための閉ループ マルチエージェント フレームワーク

密度汎関数理論 (DFT) は、材料科学や化学における計算による発見の基礎として機能しますが、各計算には多大な人間の労力が必要です。収束が行き詰まった場合はアルゴリズムを調整し、予期せぬ物理が出現した場合は計画を修正し、中間結果として問題を再構成するためのステップを挿入します。既存の LLM ベースのエージェントは、初期計画段階のみを自動化し、事前に完全な実行計画を作成し、その後の適応はすべて手作りのルールに任せます。その結果、これらのワークフローは脆弱なままであり、事前に計画されたシナリオを超えて一般化することができず、障害や予期せぬ中間結果により計算パスの変更が必要になった場合には、多くの場合専門家の介入が必要になります。ここでは、DFT ライフサイクルのすべての段階に LLM 推論を組み込む閉ループ マルチエージェント フレームワークである AutoDFT を紹介します。AutoDFT では、戦略プランナーがステップ目標の骨格計画を作成します。ステップ プランナーは、前の結果からジャストインタイムで数値パラメータを生成します。そして、監視、回復、反映のサイクルにより、障害が診断され、修復され、証拠によって正当化される場合には計画が修正されます。広さと深さの両方を実証します。VASPBench では、34 のタスクと 9 つの DFT 計算タイプにわたる専用ベンチマークであり、AutoDFT は GPT-5.2 で 94.1% のタスクレベルの成功を達成しています。 AutoDFT では、電子的、磁気的、エネルギー的特性にわたる定量的に信頼性の高い特性予測が生成されます。 AutoDFT を使用すると、計画と実行の間のループを閉じることで、計算に関する深い専門知識を持たない実験者でも信頼できる第一原理結果を得ることができます。

原文 (English)

AutoDFT: A Closed-Loop Multi-Agent Framework for Autonomous DFT Calculations

Density functional theory (DFT) serves as the basis for computational discovery in materials science and chemistry, yet each calculation demands extensive human effort: adjusting algorithms when convergence stalls, revising plans when unexpected physics emerges, and inserting steps as intermediate results reshape the problem. Existing LLM-based agents automate only the initial planning stage, producing a full execution plan upfront and leaving all subsequent adaptation to hand-crafted rules. As a result, these workflows remain fragile, do not generalize well beyond pre-planned scenarios, and often require expert intervention when failures or unexpected intermediate results require changes to the calculation path. Here, we introduce AutoDFT, a closed-loop multi-agent framework that embeds LLM reasoning into every stage of the DFT lifecycle, where a strategic planner produces a skeletal plan of step objectives; a step planner generates numerical parameters just in time from preceding results; and a monitor-recover-reflect cycle diagnoses failures, repairs them, and revises the plan when the evidence justifies it. We demonstrate both breadth and depth: breadth on VASPBench, a purpose-built benchmark spanning 34 tasks and 9 DFT calculation types, where AutoDFT achieves 94.1% task-level success with GPT-5.2; and depth on established materials databases, where AutoDFT produces quantitatively reliable property predictions across electronic, magnetic, and energetic properties. By closing the loop between planning and execution, AutoDFT enables experimentalists without deep computational expertise to obtain reliable first-principles results.

2026-05-27 13:00 JSTarXiv cs.AI研究/論文Llama

Reliable Extraction of Clinical Follow-Up Instructions: A Hybrid Neural-Symbolic Pipeline

Objective. Outpatient notes carry follow-up instructions pairing actions with future times ("MRI brain in two weeks"). Extracting (action,…

2026-05-27 13:00 JSTarXiv cs.AILLM/生成AI

HTMLCure: Turning Browser Experience into State Guided Repair for Interactive HTML

LLMs can now produce full HTML pages, but many of those pages are only superficially correct: they render once, then fail under scroll, hov…

2026-05-27 13:00 JSTarXiv cs.AILLM/生成AIエージェント

Knowledge Graphs as the Missing Data Layer for LLM-Based Industrial Asset Operations

LLM-based agents for industrial asset operations show limited accuracy when reasoning over flat document stores. AssetOpsBench (KDD 2026) e…

2026-05-27 13:00 JSTarXiv cs.AILLM/生成AI

GeoFaith: A Spatio-Temporal Dual View of Faithful Chain-of-Thought

Chain-of-Thought (CoT) reasoning has advanced large language models (LLMs), but outcome-based supervision leads to pervasive post-hoc ratio…

2026-05-27 13:00 JSTarXiv cs.AI研究/論文AnthropicClaudeOpenAI

E3: Issue-Level Backtesting for Automated Research Critique

We present E3, an automated review assistant that augments reviewers and engineering teams by identifying decision-relevant technical conce…

2026-05-27 13:00 JSTarXiv cs.AI研究/論文Claude

DEI: Diversity in Evolutionary Inference for Quality-Diversity Search

We present DEI: Diversity in Evolutionary Inference, a distributed Quality-Diversity (QD) search framework that assigns heterogeneous large…

2026-05-27 13:00 JSTarXiv cs.AILLM/生成AIClaude

LLMs versus the Halting Problem: Characterizing Program Termination Reasoning

Determining whether a program terminates is a central problem in computer science. Turing's Halting Problem established termination as unde…

2026-05-27 13:00 JSTarXiv cs.AI研究/論文

Beyond Linearity in Attention Projections: The Case for Nonlinear Queries

Recent algebraic analysis shows that in decoder-only and encoder-only transformers, the Query projection $W_Q$ may be set to identity witho…

2026-05-27 13:00 JSTarXiv cs.AIビジネス/資金調達研究/論文Gemini

When VLMs 'Fix' Students: Identifying and Penalizing Over-Correction in the Evaluation of Multi-line Handwritten Math OCR

Accurate transcription of handwritten mathematics is crucial for educational AI systems, yet current benchmarks fail to evaluate this capab…

2026-05-27 13:00 JSTarXiv cs.AI研究/論文Gemma

Symmetry-Compatible Principle for Optimizer Design: Embeddings, LM Heads, SwiGLU MLPs, and MoE Routers

A striking geometric disparity has long persisted in the practice of deep learning. While modern neural network architectures naturally exh…

2026-05-27 13:00 JSTarXiv cs.AILLM/生成AILlama

One LR Doesn't Fit All: Heavy-Tail Guided Layerwise Learning Rates for LLMs

Learning rate configuration is a fundamental aspect of modern deep learning. The prevailing practice of applying a uniform learning rate ac…

2026-05-26 13:00 JSTarXiv cs.AILLM/生成AIOpenAI

確率の連鎖を断ち切る: 大規模言語モデルにおける認識論的不確実性の新しいフレームワークとしてのニュートロソフィー論理

大規模言語モデル (LLM) は、結果の確率の合計が 1 に制限される確率的フレームワークによって主に支配されます。このアーキテクチャ上の制限は、多くの場合、ソフトマックス層によって課せられ、不確実性の崩壊につながり、認識論的な不確実性、パラドックス、曖昧さを区別することが困難になります。我々は、真実 (T)、不確定性 (I)、偽り (F) を 3 つの独立した次元として扱うフレームワークであるニュートロソフィー ロジックを、LLM の認識状態をモデル化するために適用する実証的研究を紹介します。私たちは、論理パラドックス、認識論的無知、曖昧さ、倫理的矛盾、将来の不測の事態という 5 つの言語現象にわたる 4 つの OpenAI GPT モデルのファミリーに対して、ニュートロソフィック、確率論、エントロピー誘導という 3 つの促進戦略の下で実験を実施しました。私たちの発見は、T+I+F > 1 (ハイパー真実と呼ばれる状態) を許容することにより、ニュートロソフィックアプローチがモデルの内部状態のより豊かな表現を提供することを明らかにしました。評価の 35% で、超真実は主に倫理的矛盾と論理的矛盾の下で自然発生的に出現しました。我々は、このアプローチがファジーコンテキストの真理値を保存し、内部モデルの競合を特定して定量化するための堅牢な方法を提供することを実証します。私たちは、好中性評価レイヤーの統合は、より透明性があり、信頼性が高く、倫理を意識した AI システムに向けた重要なステップであると結論付けています。

原文 (English)

Breaking the Chains of Probability: Neutrosophic Logic as a New Framework for Epistemic Uncertainty in Large Language Models

Large Language Models (LLMs) are predominantly governed by probabilistic frameworks in which the sum of outcome probabilities is constrained to unity. This architectural limitation, often imposed by Softmax layers, leads to a collapse of uncertainty that makes it difficult to differentiate between epistemic uncertainty, paradox, and vagueness. We present an empirical investigation of the application of Neutrosophic Logic, a framework that treats Truth (T), Indeterminacy (I), and Falsity (F) as three independent dimensions, to model epistemic states in LLMs. We conducted experiments on a family of four OpenAI GPT models across five linguistic phenomena: logical paradoxes, epistemic ignorance, vagueness, ethical contradictions, and future contingencies, under three prompting strategies: neutrosophic, probabilistic, and entropy-derived. Our findings reveal that the neutrosophic approach, by allowing T+I+F > 1, a state we term hyper-truth, provides a richer representation of a model's internal state. In 35% of evaluations, hyper-truth emerged spontaneously, predominantly under ethical contradiction and logical paradox. We demonstrate that this approach preserves truth values in fuzzy contexts and offers a robust method for identifying and quantifying internal model conflict. We conclude that the integration of neutrosophic evaluation layers is a critical step toward more transparent, reliable, and ethically aware AI systems.

2026-05-26 13:00 JSTarXiv cs.AILLM/生成AIAnthropicClaudeOpenAI

モデルは自分の体質をどの程度遵守していますか?

フロンティア AI 開発者は現在、Anthropic の憲法 (Anthropic、2025a) や OpenAI のモデル仕様 (OpenAI、2025a) など、長く書かれた動作仕様に基づいてモデルをトレーニングしており、キャラクター トレーニング (Anthropic、2024) や熟議的調整 (Guan et al.、2024) などの方法を介してトレーニング後のトレーニングに統合されています。これらの文書はガバナンス機能を果たしますが、実際の展開で直面するものと同様の敵対的で複数ターンにわたる圧力の下でモデルが実際にどの程度うまく従うかは不明です。我々は、各ラボの公開された仕様を監査可能なターゲットとして扱うマルチメソッド監査パイプラインを提案します。仕様をアトミックなテスト可能な原則に分解し(Anthropic の場合は 205、OpenAI の場合は 197)、Petri 監査エージェントを使用してマルチターンの敵対シナリオを生成し(Anthropic、2025b)、修正された SURF スタイルのルーブリック検索を実行します(Murray et al.、 2026) は、ペトリが見逃した浅いシングルターン障害を検出し、フラグが立てられたトランスクリプトを関連仕様と照合して検証し、その結果をラボ独自の公開システム カードと比較します。仕様ごとに 7 つのモデルにパイプラインを適用すると、モデルが世代ごとに独自のラボの仕様に大幅に準拠していることがわかりました。 Anthropic の憲法では、クロード家の違反率は 15.0% (ソネット 4) から 2.0% (ソネット 4.6) に低下します。 OpenAI のモデル仕様では、GPT ファミリは 11.7% (GPT-4o) から 3.6% (GPT-5.2 中推論) に低下し、重大度の上限は 10/10 から 7/10 に低下します。これらの利益が仕様固有のトレーニングによるものなのか、トレーニング後の広範な改善によるものなのか、評価の認識によるものなのかを外部から分離することはできません。残りの障害は、AI アイデンティティ質問の下でオペレーターが課したペルソナ、エージェント展開での不可逆的なアクション、誤った精度で捏造された定量的主張の周りに集中しています。

原文 (English)

How Well Do Models Follow Their Constitutions?

Frontier AI developers now train models against long written behavioral specifications, such as Anthropic's constitution (Anthropic, 2025a) and OpenAI's Model Spec (OpenAI, 2025a), integrated into post-training via methods like character training (Anthropic, 2024) and deliberative alignment (Guan et al., 2024). These documents serve a governance function, but it is unclear how well models actually follow them under adversarial, multi-turn pressure similar to what they would face in real-world deployment. We propose a multi-method audit pipeline that treats each lab's published specification as an auditable target: it decomposes the specification into atomic testable tenets (205 for Anthropic, 197 for OpenAI), generates multi-turn adversarial scenarios with the Petri auditing agent (Anthropic, 2025b), runs a modified SURF-style rubric search (Murray et al., 2026) to catch shallow single-turn failures Petri misses, validates flagged transcripts against the relevant specification, and compares the findings against the lab's own published system card. Applying the pipeline across seven models per specification, we find that models follow their own lab's specification substantially better with each generation. On Anthropic's constitution, the Claude family falls from a 15.0% violation rate (Sonnet 4) to 2.0% (Sonnet 4.6); on OpenAI's Model Spec, the GPT family falls from 11.7% (GPT-4o) to 3.6% (GPT-5.2 medium reasoning), with the severity ceiling falling from 10/10 to 7/10. We cannot externally isolate whether these gains come from specification-specific training, broader post-training improvements, or evaluation awareness. Remaining failures cluster around operator-imposed personas under AI-identity questioning, irreversible action in agentic deployments, and fabricated quantitative claims with false precision.

2026-05-26 13:00 JSTarXiv cs.AILLM/生成AIClaude

大規模な言語モデルにおける心の知能指数は、知覚、認知、相互作用にわたって断片化されています。

大規模言語モデル (LLM) が感情的に敏感な領域にますます統合されるにつれて、その感情的知性 (EI) の構造的完全性が安全性と整合性にとって重要なフロンティアになります。現在のベンチマークでは、表面的な礼儀正しさと深い感情的な推論が混同されていることが多く、知覚的な正確さとインタラクティブな有効性を区別できません。ここでは、専門家が作成した 480 項目からなる心理測定に基づいたフレームワークである FACET (機能的感情能力と共感力テスト) を紹介します。以前の指標とは異なり、FACET は理論的には Mayer-Salovey-Caruso の 4 分岐能力モデルに基づいており、感情の知覚、促進、理解、管理を通じて EI を運用します。 9 つのフロンティア モデル (GPT-5、Claude-Sonnet-4 を含む) の評価を通じて、心の知能指数が一枚岩の能力ではなく、認知的および対話的次元にわたって断片化されていることを示します。フロンティア モデルは、客観的な感情認識と社会的推論において確かな熟練を示していますが、これが常にインタラクティブな成功につながるわけではありません。私たちはこれらの矛盾を、認知優位、インタラクティブ優位、コンテキスト依存の 3 つの異なるパフォーマンス プロファイルに分類します。これらの類型は、感情的スキルが一般的な知能やモデルのサイズに応じて均一に拡大されないことを示しています。むしろ、それらは特定の配置パラダイムによって形成されます。特に、私たちは隠れた感情認識がすべてのアーキテクチャにわたる普遍的なパフォーマンスのボトルネックであると特定しています。私たちの結果は、現在のRLHFプロセスが、統合された感情的推論を犠牲にして、感情構文の統計的模倣である「確率的共感」を最適化する可能性があることを示唆しています。これらの発見は、線形感情スケールの仮定に疑問を投げかけ、真の臨床的共鳴が可能な社会的認識エージェントを開発するための厳密なロードマップを提供します。

原文 (English)

Emotional intelligence in large language models is fragmented across perception, cognition, and interaction

As large language models (LLMs) are increasingly integrated into emotionally sensitive domains, the structural integrity of their emotional intelligence (EI) becomes a critical frontier for safety and alignment. Current benchmarks often conflate superficial politeness with deep affective reasoning, failing to distinguish between perceptual accuracy and interactive efficacy. Here, we introduce FACET (Functional Affective Competence and Empathy Test), a psychometrically grounded framework comprising 480 expert-crafted items. Unlike previous metrics, FACET is theoretically anchored in the Mayer-Salovey-Caruso four-branch ability model, operationalizing EI through perception, facilitation, understanding, and management of emotions. Through an evaluation of nine frontier models (including GPT-5, Claude-Sonnet-4), we demonstrate that emotional intelligence is not a monolithic capability but is fragmented across cognitive and interactive dimensions. While frontier models demonstrate robust proficiency in objective emotion recognition and social reasoning, this does not consistently translate to interactive success. We categorize these discrepancies into three distinct performance profiles: cognitive-dominant, interactive-dominant, and context-dependent. These typologies indicate that emotional skills do not scale uniformly with general intelligence or model size; rather, they are shaped by specific alignment paradigms. Notably, we identify hidden emotion recognition as a universal performance bottleneck across all architectures. Our results suggest that current RLHF processes may optimize for "stochastic empathy", a statistical mimicry of emotional syntax, at the expense of integrated affective reasoning. These findings challenge the assumption of linear emotional scaling and provide a rigorous roadmap for developing socially aware agents capable of genuine clinical resonance.

2026-05-26 13:00 JSTarXiv cs.AILLM/生成AIエージェント研究/論文OpenAIGemini

MDIA: HealthBench Professional のマルチエージェント診断インテリジェンス パイプライン

Agentic-LLM 臨床ベンチマークで報告されたほとんどの利益は、迅速なエンジニアリングによるものであることが多いですが、私たちの結果は、アーキテクチャおよびエンジン レベルの設計からより大きな改善がもたらされる可能性があることを示唆しています。微調整されていない LLM 上の完全な HealthBench Professional ベンチマーク (n = 525) で、7 ノードの専門ルートの臨床推論グラフとして実装されたマルチエージェント診断インテリジェンス エージェントである MDIA を紹介します。 MDIA は、OpenAI の GPT-5.4-2026-03-05 の下で 0.6272 を達成し、これは OpenAI の臨床医向け ChatGPT のパフォーマンスを +3.72 pp 上回っています。実験作業では、パフォーマンスの向上がシステム アーキテクチャ (特殊ルーティング、マルチターン コンテキストの保存、薬剤状態の安全性ゲート、サイト フィルター検索、長さを意識した合成、エンジン レベルの信頼性) に起因することを示しています。これらの調査結果は、エージェントの臨床ベンチマークのパフォーマンスが、基礎となる基盤モデルとオーケストレーション アーキテクチャの両方によって形成されるという見解を裏付けています。それにもかかわらず、他のモデルをグレーダーとして使用した場合、顕著な違いにも気づきました。特に、Gemini 2.5 Pro を使用した場合、MDIA のスコアは 0.6585 でした。これは、グレーダーの選択が変動の原因であることを示唆しています。したがって、LLM を確実に評価するには、複数の独立したグレーダー モデルにわたる評価が必要になります。

原文 (English)

MDIA: A Multi-Agent Diagnostic Intelligence Pipeline on HealthBench Professional

Most reported gains on agentic-LLM clinical benchmarks are often attributed to prompt engineering, yet our results suggest that larger improvements can come from architectural and engine-level design. We present MDIA, a Multi-agent Diagnostic Intelligence Agent implemented as a 7-node specialty-routed clinical reasoning graph, on the full HealthBench Professional benchmark (n = 525), on a non-fine-tuned LLM. MDIA achieves 0.6272 under OpenAI's GPT-5.4-2026-03-05, which is +3.72 pp above the performance of OpenAI's ChatGPT for Clinicians. The experimental work shows that performance lift is attributable to system architecture: specialty routing, multi-turn context preservation, drug-state safety gating, site-filtered search, length-aware synthesis, and engine-level reliability. These findings support the view that agentic clinical benchmark performance is shaped both by the underlying foundation model and the orchestration architecture. Nevertheless, we also noticed notable differences when using other models as a grader; in particular, when using Gemini 2.5 Pro, MDIA scored 0.6585, which suggests that the choice of grader is a source of variability. Robust evaluation of LLMs would therefore require assessment across several independent grader models.

2026-05-26 13:00 JSTarXiv cs.AILLM/生成AIGemma

Geo-Expert: パラメーター効率の高い微調整によるエキスパートレベルの地質学的推論に向けて

地質学に適用される汎用の大規模言語モデル (LLM) は、地下構造や深層時間の進化について推論する際に幻覚を起こすことがよくありますが、現在の地球科学における AI は主に地表のリモート センシングと GIS を対象としています。このギャップを埋めるために、カスタム命令合成パイプラインを使用して処理された、カスタムで厳選された高品質の命令データセットに基づいて微調整された、パラメーター効率の高い地質 LLM ファミリーである Geo-Expert を導入します。低ランク適応 (LoRA) 手法を使用して、Qwen3-8B、Qwen3-32B、Gemma-3-27B の 3 つのベース モデルを微調整することにより、モデルのスケーリングとアーキテクチャの影響を調査します。新しいドメイン固有のベンチマークである Geo-Eval に関する広範な評価により、ドメイン整合 8B モデルは特殊な地質学的推論においてオープンウェイト 70B ジェネラリストや独自の GPT-4o よりも優れたパフォーマンスを発揮できる一方、32B バリアントはフロンティア推論モデルに近づくことが明らかになりました。最適化された 8B モデルは、導入において競争力のあるコストパフォーマンス比をさらに提供します。この研究は、科学的 LLM を民主化するための再現可能なレシピを提供し、地質学的人工知能のベースラインを確立します。

原文 (English)

Geo-Expert: Towards Expert-Level Geological Reasoning via Parameter-Efficient Fine-Tuning

While general-purpose Large Language Models (LLMs) applied to Geology often hallucinate when reasoning about subsurface structures and deep-time evolution, current AI in Earth sciences predominantly targets surface remote sensing and GIS. To bridge this gap, we introduce Geo-Expert, a family of parameter-efficient geological LLMs fine-tuned on a custom-curated, high-quality instruction dataset processed using our custom instruction synthesis pipeline. We investigate the impact of model scaling and architecture by fine-tuning three base models: Qwen3-8B, Qwen3-32B, and Gemma-3-27B, with Low-Rank Adaptation (LoRA) method. Our extensive evaluation on a novel domain-specific benchmark, Geo-Eval, reveals that a domain-aligned 8B model can outperform open-weight 70B generalists and proprietary GPT-4o on specialized geological reasoning, while a 32B variant approaches frontier reasoning models. The optimized 8B model further offers a competitive cost-performance ratio for deployment. This work provides a reproducible recipe for democratizing scientific LLMs and establishes a baseline for geological artificial intelligence.

2026-05-26 13:00 JSTarXiv cs.AILLM/生成AIClaudeGemini

信頼するが検証する: 選択的 LLM 予測のための証明者と検証者の協議

言語モデルが正しいかどうかを確実に知ることは、正しいことと同じくらい重要です。我々は、選択的予測のメカニズムとして、対話型証明理論に基づいた推論時間プロトコルである証明者検証者熟議 (PVD) を導入します。このプロトコルは、回答と構造化された信頼度判定の両方を生成し、システムが不確実なケースを回避しながら信頼度の高い回答を報告できるようにします。各対話では、証明者はチェック可能なサブクレームを通じて回答候補を擁護し、検証者は対象を絞ったチャレンジを発行して \textsc{Accept}、\textsc{Challenge}、または \textsc{Reject} を返します。凍結された言語モデルはノイズの多いチャネル上で動作する不完全な証明者および検証者であるため、形式的な健全性と完全性の保証は転送されません。代わりに、カバレッジ精度の動作を通じてプロトコルを経験的に特徴付けます。私たちの主な実験では、GPQA Diamond の証明者として Claude Sonnet 4.6 を、検証者として Claude Haiku 4.5 を使用します。回答修正なしで受け入れられた質問 (これを Accept + No Change (ANC) と呼びます) は、信頼性の高いサブセットとして報告されます。このサブセットを精度とカバレッジによって評価します。 ANC は信頼できる回答と信頼できない回答を区別し、非 ANC 補完と比べて $\sim$30pp の HC-Prec ギャップを生み出します。 GPT と Gemini のペアリングを用いた堅牢性実験では、高い HC-Prec がモデルファミリー間で移行できる一方で、検証者の厳密性とドメインの能力が選択ギャップのサイズを大きく決定することが示されています。 Humanity's Last Exam では、証明者と検証者の組み合わせが弱いと、ANC 信号が崩壊または反転する可能性があり、検証者が有効領域外で動作する場合の実際的な障害モードを示しています。自己無矛盾性、普遍的自己無矛盾性、マルチエージェント討論、リフレクションとの比較は、証明者と検証者の熟慮が、選択的予測のための明確な議論防御可能性シグナルを提供することを示唆しています。

原文 (English)

Trust but Verify: Prover-Verifier Deliberation for Selective LLM Prediction

Reliably knowing when a language model is correct is almost as important as being correct. We introduce prover-verifier deliberation (PVD), an inference-time protocol grounded in interactive proof theory, as a mechanism for selective prediction: the protocol produces both an answer and a structured confidence verdict, allowing a system to report high-confidence answers while abstaining on uncertain cases. In each dialogue, a prover defends a candidate answer through checkable sub-claims while a verifier issues targeted challenges and returns \textsc{Accept}, \textsc{Challenge}, or \textsc{Reject}. Because frozen language models are imperfect provers and verifiers operating over a noisy channel, formal soundness and completeness guarantees do not transfer; instead, we characterize the protocol empirically through its coverage-precision behavior. Our main experiment uses Claude Sonnet 4.6 as prover and Claude Haiku 4.5 as verifier on GPQA Diamond. Questions accepted with no answer revision, which we call Accept + No Change (ANC), are reported as the high-confidence subset; we evaluate this subset by its precision and coverage. ANC separates reliable from unreliable answers, yielding a $\sim$30pp HC-Prec gap over the non-ANC complement. Robustness experiments with GPT and Gemini pairings show that high HC-Prec can transfer across model families, while verifier strictness and domain competence largely determine the size of the selection gap. On Humanity's Last Exam, weaker prover-verifier pairings can collapse or invert the ANC signal, illustrating a practical failure mode when the verifier operates outside its effective region. Comparisons with self-consistency, universal self-consistency, multi-agent debate, and Reflexion suggest that prover-verifier deliberation supplies a distinct argument-defensibility signal for selective prediction.

2026-05-26 13:00 JSTarXiv cs.AILLM/生成AIエージェントビジネス/資金調達

CausaLab: AI 科学者向けのインタラクティブな因果発見のためのスケーラブルな環境

LLM エージェントによるインタラクティブな因果発見を評価するためのスケーラブルな環境である CausaLab を紹介します。以前の評価とは異なり、CausaLab では、エージェントが因果関係の証拠を使用して問題を解決できるかどうか、およびその答えが根底にある因果メカニズムに関する正しい仮説によって裏付けられているかどうかの両方を評価します。各エピソードではエージェントが合成実験室に配置されます。エージェントは以前の測定記録を受け取り、マニピュレーター結晶に介入し、同じ機構によって支配される保持されたリアクター結晶の共振周波数を予測します。隠されたデータ生成プロセスは、ランダムにサンプリングされた構造因果モデル (SCM) であるため、成功するには、事前の知識を思い出すのではなく、因果グラフと構造方程式の両方を回復する必要があります。 CausaLab には、エージェントの進化する SCM 仮説を記録するドメイン固有の言語も含まれており、軌跡を検査可能にしてグラウンド トゥルースと比較できるようになります。実験では、予測とメカニズム回復の間に永続的なギャップがあることが示されています。純粋に観測的な 6 ノード設定では、GPT-5.2-high はタスク精度 92% に達しますが、オールエッジ $F_1$ はわずか 0.471 です。この観察は、さまざまな相互作用戦略の探求をさらに動機づけます: 混合観察 - 介入戦略は構造忠実度を向上させます: 混合 6 ノード設定では、GPT-5.2-high はタスク精度とオールエッジ $F_1$ の両方で 80% を達成しました。しかし、純粋な介入戦略はタスクの精度とオールエッジ $F_1$ の両方においてパフォーマンスが低いため、強力なエージェントですら有益な介入を設計するのに苦労しています。私たちは、エージェントの主要な弱点として早期停止を特定し、仮説と過去のデータとの間の一貫性をモデルに検証するように依頼することが、この問題の軽減に役立つことを示します。したがって、CausaLab は予測の成功を因果関係の理解から切り離し、実験的因果推論者としての現在の LLM エージェントの限界を明らかにします。

原文 (English)

CausaLab: A Scalable Environment for Interactive Causal Discovery Toward AI Scientists

We introduce CausaLab, a scalable environment for evaluating interactive causal discovery by LLM agents. Unlike prior evaluations, CausaLab evaluates both whether an agent can solve a problem using causal evidence and whether its answer is supported by a correct hypothesis about the underlying causal mechanism. Each episode places an agent in a synthetic laboratory: it receives prior measurement records, intervenes on a manipulator crystal, and predicts the resonance frequency of a held-out reactor crystal governed by the same mechanism. The hidden data-generating process is a randomly sampled structural causal model (SCM), so success requires recovering both a causal graph and structural equations rather than recalling prior knowledge. CausaLab also includes a domain-specific language that records the agent's evolving SCM hypothesis, making trajectories inspectable and comparable with ground truth. Experiments show a persistent gap between prediction and mechanism recovery: in the purely observational 6-node setting, GPT-5.2-high reaches 92% task accuracy but only 0.471 all-edge $F_1$. This observation further motivates our exploration of different interaction strategies: Mixed observation--intervention strategies improve structural fidelity: in the mixed 6-node setting, GPT-5.2-high achieves 80% on both task accuracy and all-edge $F_1$. Yet even strong agents struggle to design informative interventions, as pure intervention strategies perform poorly on both task accuracy and all-edge $F_1$. We identify premature stopping as a major weakness of agents, and show that asking the model to verify the consistency between its hypothesis and past data can help mitigate this issue. CausaLab therefore separates predictive success from causal understanding and exposes current LLM agents' limits as experimental causal reasoners.

2026-05-26 13:00 JSTarXiv cs.AIエージェント研究/論文

Claw-Anything: ユーザーのデジタル世界への幅広いアクセスを備えた常時接続パーソナル アシスタントのベンチマーク

大規模言語モデルのエージェントは、ユーザーのデジタル世界に関連するあらゆるものにアクセスできる常時接続のパーソナル アシスタントとしてのイメージがますます高まっています。しかし、現在のシステムは世界の狭い部分のみで動作しており、状況に応じた推論や効果的な支援が制限されています。既存のベンチマークも同様に、部分的なユーザー状態しか提供しないため、このような広範な常時オン設定でのパフォーマンスを把握できません。このギャップに対処するために、長期にわたるアクティビティ履歴、相互依存するバックエンド サービス、複数のデバイスにわたる統合された GUI と CLI の対話という 3 つの側面に沿ってエージェント コンテキストを拡張するベンチマークである Claw-Anything を導入します。この設定をインスタンス化するために、マルチラウンド イベント インジェクションを通じて数か月にわたるユーザー アクティビティをシミュレートし、無関係なイベントや競合する信号など、複雑な世界状態と現実的なノイズを生成します。エージェントは、そのようなノイズに対して堅牢でありながら、リッチなコンテキスト環境を推論する必要があります。この範囲の拡大により、プロアクティブな支援の評価も可能になり、エージェントはユーザーのニーズを予測してタイムリーな推奨事項を提供することが求められます。実験によると、GPT-5.5 は 34.5% の合格@1 しか達成せず、以前のベンチマークを大幅に下回っており、現在のエージェントの能力と常時接続のパーソナル アシスタンスの要求との間にギャップがあることが浮き彫りになっています。ベンチマークと並行して、2,000 のトレーニング環境を生成し、基本モデルを 23.7% 改善する自動データ生成パイプラインをリリースし、スケーラブルなデータ インフラストラクチャの有用性を実証します。

原文 (English)

Claw-Anything: Benchmarking Always-On Personal Assistants with Broader Access to User's Digital World

Large language model agents are increasingly envisioned as always-on personal assistants with access to anything relevant in the user's digital world. Yet current systems operate over only narrow slices of that world, limiting context-sensitive reasoning and effective assistance. Existing benchmarks similarly provide only partial user state and therefore fail to capture performance in such a broad, always-on setting. To address this gap, we introduce Claw-Anything, a benchmark that expands agent context along three dimensions: long-horizon activity histories, interdependent backend services, and integrated GUI and CLI interaction across multiple devices. To instantiate this setting, we simulate months of user activity through multi-round event injection, producing complex world states and realistic noise, including irrelevant events and conflicting signals. Agents must reason over rich contextual environments while remaining robust to such noise. This expanded scope also enables the evaluation of proactive assistance, requiring agents to anticipate user needs and deliver timely recommendations. Experiments show that GPT-5.5 achieves only 34.5% pass@1, substantially below prior benchmarks, underscoring a gap between current agent capabilities and the demands of always-on personal assistance. Alongside the benchmark, we release an automated data-generation pipeline that yields 2,000 training environments and improves the base model by 23.7%, demonstrating its utility of scalable data infrastructure.

2026-05-26 13:00 JSTarXiv cs.AILLM/生成AIGemmaQwen

LLM の秘密辞書をチェックしてください! 5 行のコードで LLM が学習した内容が明らかになります (学習すべきではない内容も含む)

トランスフォーマーベースの大規模言語モデルの lm_head} 重み行列の特異値分解 (PyTorch の 5 行のみが必要で、モデル推論は必要ありません) によって、解釈可能な意味論的部分空間がモデルの重みから直接明らかになることを示します。各左特異ベクトルは、隠れ状態が対応する特異方向と一致するときに最も容易に選択される語彙トークンを識別します。これらのクラスターを検査すると、モデルのトレーニング データの構成とキュレーションの哲学が明らかになります。 GPT-OSS-120B、Gemma-2-2B、および Qwen2.5-1.5B を分析すると、特異値スペクトルと語彙クラスター構造がモデル間で体系的に異なることがわかります。GPT は関数的に区別された部分空間の段階的な階層を示します。 Gemma は 19 世紀以前の英語の正書法が主流であり、段階的なクラスタリング構造を形成しており、これが高い出力制御性に貢献している可能性があります。そして、Qwen は、直接出版するには倫理的に不適切であると著者が判断した語彙のサブスペースとともに、広範な多言語をカバーしています。ベースと命令の比較により、倫理的に関係のある部分空間はトレーニング前に発生し、トレーニング後の調整では除去されないことが明らかになります。部分空間の一貫性を定量化するために語彙クラスター スコア (VCS) を導入し、静的なグリッチ トークン検出器として加重射影スコア (WPS) を導入します。 WPS を GPT-OSS-120B に適用すると、CJK 言語コミュニティで広く報告されている有名なグリッチ トークンであるしょくぶつひゃっかつ (ID 137606) がモデル推論なしで復元されます。私たちは、問題のある語彙コンテンツの根本原因の分類法を提案し、標準的なリリース前の安全性監査ステップとして lm_head} SVD 分析を採用することを求めます。私たちの調査結果は、SVD に基づいたトークナイザーの最適化と、より制御可能な LLM 設計に向けた方向性をさらに示唆しています。

原文 (English)

Check Your LLM's Secret Dictionary! Five Lines of Code Reveal What Your LLM Learned (Including What It Shouldn't Have)

We show that singular value decomposition of the lm_head} weight matrix of a transformer-based large language model -- requiring only five lines of PyTorch and no model inference -- reveals interpretable semantic subspaces directly from the model weights. Each left singular vector identifies the vocabulary tokens most readily selected when the hidden state aligns with the corresponding singular direction; inspecting these clusters exposes the model's training data composition and curation philosophy. Analysing GPT-OSS-120B, Gemma-2-2B, and Qwen2.5-1.5B, we find that singular value spectra and vocabulary cluster structures differ systematically across models: GPT exhibits a graduated hierarchy of functionally differentiated subspaces; Gemma is dominated by pre-nineteenth-century English orthography, forming a stepwise clustering structure that may contribute to high output controllability; and Qwen exhibits broad multilingual coverage alongside subspaces whose vocabulary the authors have determined to be ethically inappropriate for direct publication. Base-instruct comparison reveals that ethically concerning subspaces originate in pretraining and are not removed by post-training alignment. We introduce the Vocabulary Cluster Score (VCS) to quantify subspace coherence, and the Weighted Projection Score (WPS) as a static glitch token detector; applying WPS to GPT-OSS-120B recovers shokubutsu-hyakka-tsu (ID 137606), a well-known glitch token widely reported in the CJK language community, without any model inference. We propose a taxonomy of root causes for problematic vocabulary content and call for lm_head} SVD analysis to be adopted as a standard pre-release safety auditing step. Our findings further suggest directions toward SVD-guided tokenizer optimisation and more controllable LLM design.

2026-05-26 13:00 JSTarXiv cs.AI研究/論文

Hidden-State Privacy Has an Empty Middle

Of $1{,}536$ Gaussian release covariances we tested for single-layer hidden-state privacy, zero achieve both moderate utility and moderate…

2026-05-26 13:00 JSTarXiv cs.AILLM/生成AIエージェント研究/論文

When the Manual Lies: A Realistic Benchmark to Evaluate MCP Poisoning Attacks for LLM Agents

The rise of tool-using Large Language Model (LLM) agents, standardized by protocols like the Model Context Protocol (MCP), has unlocked unp…

2026-05-26 13:00 JSTarXiv cs.AILLM/生成AIビジネス/資金調達

TRACER: A Semantic-Aware Framework for Fine-Grained Contamination Detection in Code LLMs

Data contamination is a known threat to the reliability of model evaluation. However, it remains underexplored in code large language model…

2026-05-26 13:00 JSTarXiv cs.AILLM/生成AIClaudeGemini

Enhancing Reliability in LLM-Based Secure Code Generation

Large language models (LLMs) are widely used for code generation, but their security reliability remains inconsistent across languages and…

2026-05-26 13:00 JSTarXiv cs.AILLM/生成AILlama

Reflect-Guard: Enhancing LLM Safeguards against Adversarial Prompts via Logical Self-Reflection

Large language model (LLM) safety classifiers such as Llama Guard are effective at detecting overtly harmful prompts but remain vulnerable…

2026-05-26 13:00 JSTarXiv cs.AILLM/生成AIビジネス/資金調達研究/論文GemmaDeepSeek

When Reasoning Hurts: Source-Aware Evaluation of Frontier LLMs for Clinical SOAP Note Generation

Reasoning-enabled LLMs perform strongly on medical reasoning benchmarks, but it remains unclear whether these gains transfer to structured…

2026-05-26 13:00 JSTarXiv cs.AI研究/論文

Continuous-Depth Field Theory for Transformer Patching and Mechanistic Interpretability

Mechanistic interpretability often uses activation patching, causal tracing, path patching, and steering directions to reveal behaviorally…

2026-05-26 13:00 JSTarXiv cs.AILLM/生成AIGeminiDeepSeek

READER: Reasoning-Enhanced AI-Generated Text Detection

Recent advances in large language models (LLMs) have made it increasingly difficult to distinguish human-written text from AI-generated con…

2026-05-26 13:00 JSTarXiv cs.AI研究/論文

AI-Associated Lexical Shifts Across 34 Languages: Cross-Lingual Convergence and Diachronic Uptake in News Writing

AI-associated lexical shifts have been documented mainly in Scientific English. We extend this work to 34 languages in the WMT News Crawl c…

2026-05-26 13:00 JSTarXiv cs.AI研究/論文

A Controlled Synthetic Benchmark for Educational Aspect-Based Sentiment Analysis

Educational aspect-based sentiment analysis (ABSA) can support course improvement, but public aspect-labeled student feedback remains scarc…

2026-05-26 13:00 JSTarXiv cs.AI研究/論文

Generative AI impacts on intra-urban inequality and skill premium in Beijing

Generative artificial intelligence (GenAI) is the first automation wave to reach high-cognitive tasks at scale, yet its effects on intra-ur…

2026-05-26 13:00 JSTarXiv cs.AILLM/生成AIClaudeGemini

BC Protocol: Structured Dual-Expert Dialogue for Eliciting High-Quality Chain-of-Thought Post-Training Data

High-quality expert chain-of-thought (CoT) data is one of the core bottlenecks in large language model (LLM) post-training. Existing data p…

2026-05-26 13:00 JSTarXiv cs.AI研究/論文ClaudeGeminiGrok

Chain-of-Thought Hijacking

Large Reasoning Models (LRMs) improve task performance through extended inference-time reasoning. Although previous studies suggest that lo…

2026-05-26 13:00 JSTarXiv cs.AIエージェント

IPR-1: Interactive Physical Reasoner

Humans learn by observing, interacting with environments, and internalizing physics and causality. Here, we aim to ask whether an agent can…

2026-05-26 13:00 JSTarXiv cs.AILLM/生成AIエージェントビジネス/資金調達ClaudeGemini

UniToolCall: Unifying Tool-Use Representation, Data, and Evaluation for LLM Agents

Tool-use capability is a fundamental component of LLM agents, enabling them to interact with external systems through structured function c…

2026-05-26 13:00 JSTarXiv cs.AIエージェントDeepSeek

MEMTIER: Tiered Memory Architecture and Retrieval Bottleneck Analysis for Long-Running Autonomous AI Agents

Long-running autonomous AI agents suffer from a well-documented memory coherence problem: tool-execution success rates degrade 14 percentag…

2026-05-26 13:00 JSTarXiv cs.AILLM/生成AIハードウェア/半導体AnthropicClaudeOpenAIGoogle

AMEL: Accumulated Message Effects on LLM Judgments

Large language models are routinely used as automated evaluators: to review code, moderate content, or score outputs, often with many items…

2026-05-26 13:00 JSTarXiv cs.AILLM/生成AIDeepSeek

SoK: A Comprehensive Security Analysis of Jailbreak Resilience in GPT and DeepSeek Models

The rapid proliferation of Large Language Models (LLMs) has heightened concerns regarding their exposure to jailbreak attacks, which craft…

2026-05-26 13:00 JSTarXiv cs.AILLM/生成AIClaude

Red-Teaming Claude Opus and ChatGPT-based Security Advisors for Trusted Execution Environments

Trusted Execution Environments (TEEs) (e.g., Intel SGX and ArmTrustZone) aim to protect sensitive computation from a compromised operating…

2026-05-26 13:00 JSTarXiv cs.AILLM/生成AIClaudeGemini

UtilityMax Prompting: A Formal Framework for Multi-Objective Large Language Model Tasks

The success of a Large Language Model (LLM) task depends heavily on its prompt. Most use-cases specify prompts using natural language, whic…

2026-05-26 13:00 JSTarXiv cs.AILLM/生成AIGemini

Procedural Refinement by LLM-driven Algorithmic Debugging for ARC-AGI-2

In high-complexity abstract reasoning, a system must infer a latent rule from a few examples or structured observations and apply it to uns…

2026-05-26 13:00 JSTarXiv cs.AILLM/生成AIClaudeDeepSeek

Cooperative Memory Paging with Keyword Bookmarks for Long-Horizon LLM Conversations

When LLM conversations grow beyond the context window, old content must be evicted -- but how does the model recover it when needed? We pro…

2026-05-26 13:00 JSTarXiv cs.AILLM/生成AIClaude

Quality-Conditioned Agreement in Automated Short Answer Scoring: Mid-Range Degradation and the Impact of Task-Specific Adaptation

Automated short answer scoring (ASAS) is shifting from discriminative, fine-tuned models to large language models (LLMs) used in few-shot s…

2026-05-26 13:00 JSTarXiv cs.AILLM/生成AIDeepSeek

Persona-Model Collapse in Emergent Misalignment

Fine-tuning large language models on narrow data with harmful content produces broadly misaligned behavior on unrelated prompts, a phenomen…

2026-05-26 13:00 JSTarXiv cs.AILLM/生成AIエージェント研究/論文ClaudeGemini

LivePI: More Realistic Benchmarking of Agents Against Indirect Prompt Injection

AI agents such as OpenClaw are increasingly deployed in local workflows with access to external tools. This creates indirect prompt-injecti…

2026-05-26 13:00 JSTarXiv cs.AI研究/論文

FineBench: Benchmarking and Enhancing Vision-Language Models for Fine-grained Human Activity Understanding

Vision-Language Models (VLMs) have demonstrated remarkable capabilities in general video understanding, yet they often struggle with the fi…

2026-05-26 13:00 JSTarXiv cs.AI研究/論文

The Devil is in the Condition Numbers: Why is GLU Better than non-GLU Structure?

Gated Linear Units (GLU) and their variants are widely adopted in modern open-source large language model architectures and consistently ou…

2026-05-26 07:00 JSTITmedia AI+LLM/生成AI

「あの人が 休むと業務 止まりがち」 AIに“IT用語かるた”を作らせてみた

IT用語は便利だが、一から覚えるのはなかなか大変だ。それならば、IT用語を五七五に置き換えれば、少しは親しみやすくなるのではないか。ChatGPTとNotebookLMで「IT用語かるた」を作ってみた。

2026-05-25 13:00 JSTarXiv cs.AIエージェント研究/論文

RMA: 研究レベルの数学的問題のためのエージェント システム

$\textbf{Research Math Agents (RMA)}$ は、研究レベルの数学的問題に対する自動推論のためのエージェント フレームワークです。競技数学や形式的定理の証明を中心とした先行研究とは異なり、RMA は長期的な推論、文献の根拠、反復的な証明の改良を必要とする研究レベルの数学的問題を対象としています。 RMA は、研究レベルの証明解決を、問題分析、文献の検索と理解、公平な比較、知識バンクの構築、および証明の検証のための特殊なモジュールに分解します。これらはすべて、共有構造化メモリを介して初期化者、提案者、および検証者のエージェントによって調整されます。この統一されたフレームワーク内で、これらのエージェントは複数の役割、複数ラウンドのワークフローで動作し、反復的なフィードバックを通じて候補となる証明を共同で生成、改良、検証します。私たちは、さまざまな分野の専門数学者によって提供された 10 個の研究レベルの問題で構成される First Proof ベンチマークで RMA を評価します。包括的な専門家による評価を通じて、RMA は GPT-5.2R や Aletheia などの First Proof ベンチマークの強力なベースラインを上回り、研究上の問題の 10 件中 8 件を解決し、より論理的に健全で読みやすい証明を生成します。さらに、当社の包括的なアブレーション研究では、単一のコンポーネントではなく、構造化推論モジュール、反復改良、検証ベースのフィードバックの相互作用によってパフォーマンスが向上することが示されています。当社のソリューションと実装は、承認され次第、一般に公開されます。

原文 (English)

RMA: an Agentic System for Research-Level Mathematical Problems

We present $\textbf{Research Math Agents (RMA)}$, an agentic framework for automated reasoning on research-level mathematical problems. Unlike prior studies centered on competition mathematics or formal theorem proving, RMA targets research-level mathematical problems that require long-horizon reasoning, literature grounding, and iterative proof refinement. RMA decomposes research-level proof solving into specialized modules for problem analysis, literature search and understanding, fair comparison, knowledge-bank construction, and proof verification, all coordinated by initializer, proposer, and verifier agents through a shared structured memory. Within this unified framework, these agents operate in a multi-role, multi-round workflow, collaboratively generating, refining, and verifying candidate proofs through iterative feedback. We evaluate RMA on the First Proof benchmark, which consists of ten research-level problems contributed by expert mathematicians across diverse domains. Through comprehensive expert evaluation, RMA outperforms strong baselines on the First Proof benchmark, including GPT-5.2R and Aletheia, solving eight out of ten research problems and producing more logically sound and readable proofs. Our comprehensive ablation studies further show that performance gains arise from the interaction of structured reasoning modules, iterative refinement, and verifier-based feedback, rather than any single component. Our solutions and implementations will be made publicly available upon acceptance.

2026-05-25 13:00 JSTarXiv cs.AIエージェントClaude

帰納的演繹的合成: AI による正式に検証されたシステムの生成を可能にする

AI エージェントは、コードの生成、テスト、改良においてますます優れています。ただし、テストだけでは提供できない完全な範囲の正式な保証を必要とするタスクには不十分です。分散システムはその典型的な例です。読み取りと書き込みの間の一貫性などの特性は、イベントのあらゆるインターリーブ下で維持される必要があります。機械化された正式な検証はそのような正しさを保証できますが、通常は数か月から数年の専門家の努力が必要です。その証拠に、SOTA コーディング エージェント (GPT-5.4 を使用した Codex および Opus 4.6 を使用した Claude Code) でさえ、2/7 分散キーバリュー ストア仕様でのみ成功します。この論文では、このギャップに対処するための最初の効果的なアプローチである帰納的演繹的合成 (IDS) を紹介します。これは、実装と証明を共同かつ漸進的に合成し、失敗した試みから学び、有望な戦略を体系的に試行します。エージェント LLM システムとして構築された IDS は、約 6.8 時間で 7/7 を達成し、仕様あたりのコストは平均 106 ドルです。これは、専門家の努力よりも約 200 倍速く、SOTA エージェントよりも 17% 安価です。 IDS はさらに、同じループにパフォーマンスのフィードバックを組み込み、公開されている検証済みシステムよりも最大 3 倍高速な実装を実現します。

原文 (English)

Inductive Deductive Synthesis: Enabling AI to Generate Formally Verified Systems

AI agents increasingly excel at generating, testing, and refining code. However, they fall short on tasks requiring formal guarantees of full coverage that testing alone cannot provide. Distributed systems are a prime example: properties such as consistency between reads and writes must hold under every possible interleaving of events. Mechanized formal verification can guarantee such correctness, but typically demands months to years of expert effort. As evidence, even SOTA coding agents (Codex with GPT-5.4 and Claude Code with Opus 4.6) succeed on only 2/7 distributed key-value-store specifications. In this paper, we present the first effective approach to addressing this gap, Inductive Deductive Synthesis (IDS), which jointly and incrementally synthesizes implementation and proof, and learns from failed attempts to systematically try promising strategies. Built as an agentic LLM system, IDS achieves 7/7 in about 6.8 hours and $106 per spec on average, roughly 200x faster than expert effort and 17% cheaper than SOTA agents. IDS further incorporates performance feedback into the same loop, yielding implementations up to 3x faster than published verified systems.

2026-05-25 13:00 JSTarXiv cs.AILLM/生成AIエージェントClaudeGemini

GENSTRAT: 大規模言語モデルにおける戦略的推論の科学に向けて

大規模言語モデル (LLM) は、市場、オークション、入札設定における経済エージェントとしてますます導入されています。特定の展開における彼らの行動を予測するのは困難です。既存の戦略的推論ベンチマークは、固定された正規ゲームのモデルを評価します。これらのベンチマークは、フロンティアが向上するにつれて飽和する可能性があり、評価者がベンチマークのパフォーマンスから実際の展開に含まれる多様で複雑な戦略的環境までを自信を持って一般化することはできません。これらの課題に対処するために、手続き的に生成された戦略的環境を使用する GENSTRAT を紹介します。具体的には、2 人用のゼロサム不完全情報カード ゲームの分布を生成します。ジェネレーターはオンデマンドで新鮮なゲームを描画できるため、常に最新の評価と汚染への耐性が可能になります。私たちはゲームの分布を、モデルの能力を 6 つの軸 (状態空間、時間的深さ、情報感度、対戦相手のモデリング、リスク、脆弱性) にわたって分解する能力プロファイル手法と組み合わせます。また、戦略的に類似したゲーム間でモデルのアドバンテージが予期せずジャンプするときを検出する、分布内の滑らかさのギザギザの尺度も導入します。 2,000 試合で生成されたプールから 50 のベンチマーク試合をサンプリングし、36,000 試合を超える直接対決トーナメントで 9 つのフロンティアおよび無差別級 LLM を評価します。新しいフロンティア層モデルの方が平均スコアが高くなります。その平均を超えると、ほぼ同一の全体的な強度を持つモデルは質的に異なる能力プロファイルを示し、リーダーボードの上位 3 つのモデルのうち 2 つ (gpt-5 と claude) は、全体的な強度が近いにもかかわらず、3 番目 (gemini-3.1-pro) よりも局所的な変動が顕著に高くなります。機能プロファイルとギザギザの尺度を組み合わせることで、全体的なランキングだけでは提供できない展開関連の診断が得られます。

原文 (English)

GENSTRAT: Toward a Science of Strategic Reasoning in Large Language Models

Large language models (LLMs) are increasingly deployed as economic agents in marketplaces, auctions, and bidding settings. Anticipating their behavior in any specific deployment is hard. Existing strategic-reasoning benchmarks evaluate models on fixed canonical games. These benchmarks may saturate as the frontier improves, and they do not allow evaluators to generalize with confidence from benchmark performance to the varied and messy strategic environments that actual deployments involve. We introduce GENSTRAT, which uses procedurally generated strategic environments to address these challenges. Concretely, we generate a distribution of two-player zero-sum imperfect-information card games. The generator can draw fresh games on demand, allowing for evergreen evaluation and resistance to contamination. We pair the game distribution with a capability-profile methodology that decomposes model competence across six axes (state space, temporal depth, information sensitivity, opponent modeling, risk, and brittleness). We also introduce a jaggedness measure of within-distribution smoothness that detects when a model's advantage jumps unpredictably between strategically similar games. We sample 50 benchmark games from a 2,000-game generated pool and evaluate nine frontier and open-weight LLMs in a head-to-head tournament with over 36,000 matches. Newer frontier-tier models score higher on average. Beyond that average, models with near-identical overall strength show qualitatively different capability profiles, and two of the top three leaderboard models (gpt-5 and claude) are noticeably more locally volatile than the third (gemini-3.1-pro), despite being close in overall strength. Together, the capability profile and the jaggedness measure give a deployment-relevant diagnostic that the overall ranking alone cannot provide.

2026-05-25 13:00 JSTarXiv cs.AIエージェントClaude

SkillOpt: 自己進化するエージェント スキルのための経営戦略

今日のエージェント スキルは、手作業で作成されたり、ワンショットで生成されたり、緩やかに制御された自己修正によって進化したりしていますが、スキルの深層学習オプティマイザーのように動作するものはなく、フィードバックを受けて開始点を確実に改善するものはありません。私たちは、このスキルはウェイト空間の最適化を再現可能にするのと同じ規律を用いて、凍結されたエージェントの外部状態としてトレーニングされるべきであると主張します。私たちの知る限り、SkillOpt は、エージェント スキル向けの最初の系統的な制御可能なテキスト空間オプティマイザーです。別個のオプティマイザー モデルは、スコア付けされたロールアウトを、単一のスキル ドキュメントに対する制限付きの追加/削除/置換編集に変換します。また、編集は、保持されている検証スコアを厳密に改善する場合にのみ受け入れられます。テキストの学習率バジェット、拒否された編集バッファー、およびエポックごとの低速/メタ更新により、デプロイメント時に推論時間のないモデル呼び出しを追加しながら、スキル トレーニングを安定させます。 6 つのベンチマーク、7 つのターゲット モデル、および 3 つの実行ハーネス (ダイレクト チャット、コーデックス、クロード コード) にわたって、SkillOpt は 52 の評価対象 (モデル、ベンチマーク、ハーネス) セルすべてで最高か同点であり、人間のスキル、ワンショット LLM、Trace2Skill、TextGrad、GEPA、および EvoSkill スキルの中でセルごとのすべての競合他社を上回っています。 GPT-5.5 では、スキルなしの平均精度がダイレクト チャットで +23.5 ポイント、Codex エージェント ループ内で +24.8 ポイント、Claude Code 内で +19.1 ポイント向上しました。さらに、移行実験では、最適化されたスキル アーティファクトは、さらなる最適化を行わずに、モデル スケール間、Codex と Claude Code の実行環境間、および近くの数学ベンチマークに移動しても、価値が維持されることが示されています。

原文 (English)

SkillOpt: Executive Strategy for Self-Evolving Agent Skills

Agent skills today are hand-crafted, generated one-shot, or evolved through loosely controlled self-revision, none of which behaves like a deep-learning optimizer for the skill, and none of which reliably improves over its starting point under feedback. We argue the skill should instead be trained as the external state of a frozen agent, with the same discipline that makes weight-space optimization reproducible. SkillOpt is, to our knowledge, the first systematic controllable text-space optimizer for agent skills: a separate optimizer model turns scored rollouts into bounded add/delete/replace edits on a single skill document, and an edit is accepted only when it strictly improves a held-out validation score. A textual learning-rate budget, rejected-edit buffer, and epoch-wise slow/meta update make skill training stable while adding zero inference-time model calls at deployment. Across six benchmarks, seven target models, and three execution harnesses (direct chat, Codex, Claude Code), SkillOpt is best or tied on all 52 evaluated (model, benchmark, harness) cells and beats every per-cell competitor among human, one-shot LLM, Trace2Skill, TextGrad, GEPA, and EvoSkill skills. On GPT-5.5 it lifts the average no-skill accuracy by +23.5 points in direct chat, by +24.8 inside the Codex agentic loop, and by +19.1 inside Claude Code. Transfer experiments further show that optimized skill artifacts retain value when moved across model scales, between Codex and Claude Code execution environments, and to a nearby math benchmark without further optimization.

2026-05-25 13:00 JSTarXiv cs.AILLM/生成AI

接地検出用の誘導バイアスとしてのグラフ アライメント トポロジ

大規模言語モデル (LLM) は、生成された命題がソース ドキュメントに含まれているかどうかを明示的に検証するのではなく、分布的に妥当な継続を生成するように最適化されています。この誘導性バイアスにより一般化が可能になりますが、応答が基準に対して接地されているかどうかはエンコードされません。これらの問題により、臨床意思決定支援など、厳密な事実の正確さが重要な分野での LLM の使用が制限されます。既存の幻覚検出アプローチは、検索の拡張、自己一貫性、または主張の検証を通じて事実性を向上させますが、一般に位置合わせトポロジーを直接学習することはありません。アライメントトポロジーを誘導バイアスとして活用するために、参照情報とLLM出力の間でアライメントされた2部グラフを構築し、メッセージパッシングを使用してアライメント構造をモデル化するようにグラフニューラルネットワーク(GNN)をトレーニングします。この方法は、4 つの多様な幻覚および質問応答データセットで最先端の結果を達成し、GPT-4o などの基礎的な LLM を含む、比較されたすべての方法を上回ります。

原文 (English)

Graph Alignment Topology as an Inductive Bias for Grounding Detection

Large Language Models (LLMs) are optimized to produce distributionally plausible continuations rather than to explicitly verify whether generated propositions are entailed by source documents. This inductive bias enables generalization, but it does not encode whether responses are grounded with respect to a reference. These issues limit the use of LLMs in domains where strict factual correctness is crucial, such as clinical decision support. Existing hallucination detection approaches improve factuality through retrieval augmentation, self-consistency, or claim verification, but generally do not learn directly over alignment topology. To leverage alignment topology as an inductive bias, we construct aligned bipartite graphs between reference information and LLM outputs and train a graph neural network (GNN) to model alignment structure using message passing. The method achieves state-of-the-art results on four diverse hallucination and question-answering datasets, outperforming all compared methods, including foundational LLMs such as GPT-4o.

2026-05-25 13:00 JSTarXiv cs.AILLM/生成AILlama

スパースオートエンコーダは、脳とLLMのアライメントを皮質セマンティックトポグラフィーにマッピングします

大規模言語モデル (LLM) の中間層は、言語に対する人間の脳の反応を最もよく予測します。これは、計算神経言語学における最も確実な発見の 1 つですが、その理由はまだ機構的に説明されていません。私たちは、スパース オートエンコーダ (SAE) を機械的な解釈可能性からニューラル エンコーディング モデルで橋渡しし、GPT-2 XL と Llama-3.1-8B をレイヤーごとに 16K ~ 32K の解釈可能な特徴に分解することで、このギャップに対処します。人間によって検証された分類法 ($\kappa \geq 0.74$) により、意味特徴だけでピーク エンコード パフォーマンス ($r=0.285$) の 94% が回復し、分散一致ベースライン ($p<0.001$、$d=1.31$) を大幅に超えていることが明らかになりました。この集合的な優位性を超えて、新しい皮質トポグラフィー予測をテストします。3 つの独立した神経科学プログラムからアプリオリに導出された 5 つの意味サブカテゴリーが、異なる脳領域にマッピングされるはずです。正式な収束テストによりこの整合性が確認され (Spearman $\rho=0.72$, $p<0.001$; 超幾何 $p=0.007$)、SAE で発見された特徴が、従来の方法ではアクセスできない粒度で既知の皮質の意味論的組織化を再現していることが実証されました。 SAE 機能は、語彙制御を超えて人間の読書時間をさらに予測し ($\Delta\mathrm{logLik}=38.4$、$p<0.001$)、探索的予測誤差分析により、脳が予期せぬ意味論的コンテンツをさらにエンコードしているという予備的な証拠が得られます。結果は英語、中国語、フランス語で一般化されます。

原文 (English)

Sparse Autoencoders Map Brain-LLM Alignment onto Cortical Semantic Topography

Intermediate layers of large language models (LLMs) best predict human brain responses to language, one of the most robust findings in computational neurolinguistics, yet why remains mechanistically unexplained. We address this gap by bridging sparse autoencoders (SAEs) from mechanistic interpretability with neural encoding models, decomposing GPT-2 XL and Llama-3.1-8B into 16K-32K interpretable features per layer. A human-validated taxonomy ($\kappa \geq 0.74$) reveals that semantic features alone recover 94% of peak encoding performance ($r=0.285$), substantially exceeding variance-matched baselines ($p<0.001$, $d=1.31$). Beyond this aggregate dominance, we test a novel cortical topography prediction: five semantic subcategories derived a priori from three independent neuroscience programs should map onto distinct brain regions. A formal convergence test confirms this alignment (Spearman $\rho=0.72$, $p<0.001$; hypergeometric $p=0.007$), demonstrating that SAE-discovered features recapitulate known cortical semantic organization at a granularity inaccessible to prior methods. SAE features further predict human reading times beyond lexical controls ($\Delta\mathrm{logLik}=38.4$, $p<0.001$), and an exploratory prediction-error analysis provides preliminary evidence that the brain additionally encodes unexpected semantic content. Results generalize across English, Chinese, and French.

2026-05-25 13:00 JSTarXiv cs.AI研究/論文

合成脳 MRI は確実に腫瘍分類を改善しますか? BRISC 2025 に関する StyleGAN2-ADA クラスプレーン拡張研究

生成拡張は、小さな医療画像データセットの解決策として提案されることがよくありますが、合成画像は、下流のタスクのパフォーマンスを向上させる場合にのみ役立ちます。ここでの「拡張」とは、合成補完を意味します。つまり、既存の画像の幾何学的変換や測光変換ではなく、実際のトレーニング プールに追加される GAN 生成サンプルです。 12 個のクラスプレーン StyleGAN2-ADA ジェネレーターは、制約付き BRISC 2025 パーティションでトレーニングされ、その出力が、InceptionV3 機能空間フィルターの有無にかかわらず、InceptionV3 機能のランダム フォレスト (RF)、コンパクトな双頭畳み込みニューラル ネットワーク (CNN)、およびモバイル ハイブリッド畳み込み変換器である MobileViTV2 の 3 つの分類子ファミリーにわたってホールドアウトされた腫瘍分類を改善するかどうかをテストしました。それぞれは、本物と合成の比率 1:1 および 1:2 で評価されました。独立した GPT-5.5 ブラインド テストでは、モデル可読サブセットにおけるゲート付き本物と合成の識別率は 57.73% (95% CI: 54.48 ~ 60.92%) であり、確率をわずかに上回りました。 RF 分類器は合成 MRI の恩恵を受けませんでした。 CNN は、ホルム補正を生き延びなかった一貫した平均増加を示しました。 MobileViTV2 は最も明確な利点を示しました。フィルタリングされた 1:1 拡張により、腫瘍分類精度が絶対値 1.02% 向上しました (95% CI: 0.54 ~ 1.54%; Holm 補正 p = 0.0104)。二次効率分析では、すべての拡張 CNN 条件がベースラインよりも 42 ~ 64% 早くチェックポイントを選択する一方、計算一致した MobileViTV2 の実行は実データ エポックが 50 ~ 67% 少ない後に選択に達することがわかりました。全体として、拡張の有用性はアーキテクチャと比率に依存し、視覚的な忠実性だけでは保証されないことがわかりました。

原文 (English)

Do Synthetic Brain MRIs Reliably Improve Tumour Classification? A StyleGAN2-ADA Class-Plane Augmentation Study on BRISC 2025

Generative augmentation is often proposed as a remedy for small medical-image datasets, but synthetic images are only useful when they improve downstream task performance. "Augmentation" here means synthetic supplementation: GAN-generated samples added to the real training pool, not geometric or photometric transforms of existing images. Twelve class-plane StyleGAN2-ADA generators were trained on constrained BRISC 2025 partitions to test whether their output, with or without InceptionV3 feature-space filtering, improves held-out tumour classification across three classifier families: a random forest (RF) on InceptionV3 features, a compact two-headed convolutional neural network (CNN), and MobileViTV2, a mobile hybrid convolutional-transformer. Each was evaluated at 1:1 and 1:2 real-to-synthetic ratios. An independent GPT-5.5 blind test placed gated real-versus-synthetic discrimination at 57.73% (95% CI: 54.48--60.92%) on the model-legible subset -- modestly above chance. The RF classifier did not benefit from the synthetic MRIs. The CNN showed consistent mean gains that did not survive Holm correction. MobileViTV2 showed the clearest benefit: filtered 1:1 augmentation improved tumour classification accuracy by 1.02% absolute (95% CI: 0.54--1.54%; Holm-corrected p = 0.0104). A secondary efficiency analysis found that every augmented CNN condition selected its checkpoint 42--64% earlier than baseline, while compute-matched MobileViTV2 runs reached selection after 50--67% fewer real-data epochs. Overall, augmentation utility was found to be architecture- and ratio-dependent, not guaranteed by visual fidelity alone.

2026-05-25 13:00 JSTarXiv cs.AIエージェントClaude

AI 支援コードレビューの行動制約としての哲学的性質: 実証的研究

AI 支援コード レビュー ツールは通常、汎用の「専門家レビューアー」エージェントとして動作し、必要な分析タイプに関係なく均一な結果を生成します。我々は、哲学的性質、つまり構造的に異なるタイプの問題に注意を向ける、特定の認識論的伝統(ピュロニズム懐疑論、ナヴィヤ=ニー=アヤ論理、ディオゲネスの皮肉屋主義、儒教の関係倫理)に基づいた一貫した人格レンズを通じて、AIの査読者の行動を制約するシステムを提示する。それぞれの性質は(何を拒否するかによって)無言で定義され、自己監視障害モード(ハマルティア)が備えられ、役割プロトコルによって順番に調整されます。私たちは、5 つのプログラミング言語 (Python、Go、C++、Java、Terraform)、5 つの組織 (2 つのエンタープライズ、3 つのオープンソース)、および 2 つの時代 (AI 2020 年前、AI 後 2024 ~ 2026 年) にわたる 7 つのリポジトリにわたる 50 のマージされたプル リクエストでこのシステムを評価しました。この処理システムは、人間のレビュー担当者との収束率 46% (信号品質の検証) を達成し、固有の所見を 75% の割合で特定し、合計 601 件の所見にわたって著者によって偽陽性と判断された所見は生成しません (評価者間の合意は評価されず、制限のままです)。管理されたベースライン比較により、傾向調査結果の 51% が、一般的な「専門家レビューアー」のプロンプトを使用した同じモデルによって生成されたものではないことが実証されており、これらの独自の調査結果は、標準的なコードレベルの問題ではなく、構造的、運用的、論理的な懸念を対象としています。 3 つの PR での予備的なクロスモデル検証 (Claude Opus 対 GPT Codex 5.3-xhigh) では、フレームワーク構造の 100% の遵守と 39% の所見レベルの一致が示されており、フレームワークがモデル固有の分析的観点を維持しながら実際の動作制約を提供していることを示唆しています。

原文 (English)

Philosophical Dispositions as Behavioral Constraints for AI-Assisted Code Review: An Empirical Study

AI-assisted code review tools typically operate as generic "expert reviewer" agents, producing homogeneous findings regardless of the analysis type needed. We present a system that constrains AI reviewer behavior through philosophical dispositions -- coherent personality lenses grounded in specific epistemological traditions (Pyrrhonist Skepticism, Navya-Ny=aya logic, Diogenes' Cynicism, Confucian relational ethics) that direct attention to structurally different types of issues. Each disposition is defined apophatically (by what it refuses to do), equipped with a self-monitoring failure mode (hamartia), and orchestrated in sequence by role protocols. We evaluate this system on 50 merged pull requests across 7 repositories spanning 5 programming languages (Python, Go, C++, Java, Terraform), 5 organizations (2 enterprise, 3 open-source), and 2 temporal eras (pre-AI 2020, post-AI 2024--2026). The disposition system achieves 46% convergence with human reviewers (validating signal quality), identifies unique findings at a 75% rate, and produces no findings judged false-positive by the author across 601 total findings (inter-rater agreement was not assessed and remains a limitation). A controlled baseline comparison demonstrates that 51% of disposition findings are not produced by the same model using generic "expert reviewer" prompting, and these unique findings target structural, operational, and logical concerns rather than standard code-level issues. Preliminary cross-model validation (Claude Opus vs.\ GPT Codex 5.3-xhigh) on 3 PRs shows 100% framework-structure adherence with 39% finding-level agreement, suggesting the framework provides real behavioral constraint while preserving model-specific analytical perspective.

2026-05-25 13:00 JSTarXiv cs.AILLM/生成AI研究/論文ClaudeGemini

Frontier LLM はサイバーセキュリティに対応する準備ができていますか?デュアルモード脆弱性ベンチマークによる垂直基盤モデルの証拠

当社は、フロンティア LLM がデュアルモード ベンチマークを通じてサイバーセキュリティに対応できるかどうかを評価します。ホワイトボックス機能レベルの脆弱性検出 (VulnLLM-R、C/Java/Python 全体) とブラックボックス Web アプリケーション セキュリティ テスト (20 以上の CWE ファミリにわたる 118 個のグラウンド トゥルース脆弱性を備えた 5 つの運用スタイルのアプリケーション。これらをオープンソース化します)。私たちは 6 つのフロンティア モデル (GPT-5.4、Codex~5.3、Claude Opus~4.6、Sonnet~4.6、Gemini~3.1~Pro、および Gemini~3~Flash) と 2 つのドメイン特化モデルを 4 つのテスト パラダイムにわたってテストします。私たちの発見は厳粛なものです。(1) ~すべてのフロンティア モデルは、ホワイトボックス検出で 10 ~ 50% の誤検知率を生成し、体系的に脆弱性を過剰予測します。 (2)〜ブラックボックス テストでは、フロンティア モデルはグラウンド トゥルース カバレッジをわずか 4 ~ 8% しか達成せず、外部セキュリティ ツール (Playwright MCP、Burp Suite MCP) を使用した場合でもわずか 10 ~ 19% に改善します。 (3) ドメイン特化型エージェントにエンコードされた構造化侵入テスト手法により、ファミリーごとの検出が 50% を超え、規模ではなく手法が主要な手段であることが実証されました。 (4) ドメインに特化した防御モデルは、単一 GPU 上ですべてのモデルの中で最高の精度 (0.904) と最低の誤検知率 (9.7%) を達成します。私たちは、構造化されたセキュリティ テストの欠如、エンドツーエンドの要求/応答シーケンス、障害の多いデータ、および複数ステップの攻撃チェーンのトレースが基本的なトレーニング データのボトルネックであることを特定し、データ生成戦略としてセルフプレイ セキュリティ テストを提案します。私たちの結果は、サイバーセキュリティ専用に構築された垂直基盤モデルの正当性を裏付けています。

原文 (English)

Are Frontier LLMs Ready for Cybersecurity? Evidence for Vertical Foundation Models from Dual-Mode Vulnerability Benchmarks

We evaluate whether frontier LLMs are ready for cybersecurity through a dual-mode benchmark: white-box function-level vulnerability detection (VulnLLM-R, across C/Java/Python) and black-box web application security testing (five production-style applications with 118 ground-truth vulnerabilities across 20+ CWE families, which we will open-source). We test six frontier models (GPT-5.4, Codex~5.3, Claude Opus~4.6, Sonnet~4.6, Gemini~3.1~Pro and Gemini~3~Flash) and two domain-specialized models across four testing paradigms. Our findings are sobering: (1)~every frontier model produces 10-50% false positive rates in white-box detection, systematically over-predicting vulnerabilities; (2)~in black-box testing, frontier models achieve only 4-8% ground-truth coverage, improving to just 10-19% even with external security tools (Playwright MCP, Burp Suite MCP); (3)~structured penetration-testing methodology encoded in domain-specialized agents raises per-family detection above 50%, demonstrating that methodology, not scale, is the primary lever; and (4)~a domain-specialized defense model achieves the highest precision (0.904) and lowest false positive rate (9.7%) among all models, on a single GPU. We identify the absence of structured security testing traces end-to-end request/response sequences, failure-heavy data, and multi-step attack chains as the fundamental training data bottleneck, and propose self-play security testing as a data generation strategy. Our results make the case for vertical foundation models purpose-built for cybersecurity.

2026-05-25 13:00 JSTarXiv cs.AILLM/生成AI

報酬としてのメタ認知: 知識と規制信号による LLM 推論の強化

最近の RL 手法により、LLM の推論能力が大幅に向上しました。既存の報酬設計は、主に 2 つのパラダイムに従います。(1) 検証可能な報酬を伴う強化学習 (RLVR) は、実行可能なチェックまたはグラウンドトゥルースの回答から結果シグナルを導き出しますが、中間推論行動に対する限定的なガイダンスを提供します。 (2) 報酬としてのルーブリック (RaR) は、自然言語ルーブリックを使用して推論の品質とタスクの準拠性を評価することにより、最終的な回答のチェックを超えていますが、多くの場合、インスタンス固有のルーブリックと多大な設計労力が必要です。これらの問題に対処するために、我々は、メタ認知にインスピレーションを得た RL フレームワークである Metacognition-as-Reward (MaR) を導入します。これは、2 つの一般的なプロセス次元を通じて LLM 推論をガイドします。i) 手作りのインスタンス固有のルーブリックなしでタスク関連情報を識別するメタ認知知識、ii) 最終的な回答結果を超えた報酬ガイダンスを提供するために推論プロセスを計画および調整するメタ認知規制です。 MaR は、モデルの展開を明示的なメタ認知コンポーネントに足場を組み、タスクの知識範囲、規制の忠実度、最終的な回答の正しさに対する軌跡レベルの報酬でそれらを最適化します。このようにして、MaR は報酬シグナルを一般的なメタ認知次元に根付かせながら、報酬フィードバックを推論軌道に拡張します。 22 のベンチマークの実験では、MaR がモデルのパフォーマンスを一貫して向上させ、ベース モデルに対して最大 7.7% の向上、バニラ DAPO に対して最大 11.0% の向上を達成することが示されています。特に、Qwen3.5-9B + MaR はフロンティア モデルとの差を縮めており、全体平均で GPT-OSS-120B を上回り、いくつかの個別ベンチマークで強力なモデルを上回っています。さらに、プロセスレベルの分析では、推論プロセスの品質が大幅に向上していることがわかります。 MaR はドメイン外のデータセットにも一般化され、MaR でトレーニングされたモデルは、平均して対応するベース モデルよりも向上します。

原文 (English)

Metacognition as Reward: Reinforcing LLM Reasoning via Knowledge and Regulation Signals

Recent RL methods have substantially improved the reasoning abilities of LLMs. Existing reward designs mainly follow two paradigms: (1) Reinforcement learning with verifiable rewards (RLVR) derives outcome signals from executable checks or ground-truth answers, but provides limited guidance for intermediate reasoning behaviors. (2) Rubrics-as-reward (RaR) goes beyond final-answer checking by using natural-language rubrics to assess reasoning quality and task compliance, but often requires instance-specific rubrics and substantial design effort. To address these issues, we introduce Metacognition-as-Reward (MaR), a metacognition-inspired RL framework that guides LLM reasoning through two general process dimensions: i) metacognitive knowledge, which identifies task-relevant information without hand-crafted instance-specific rubrics, and ii) metacognitive regulation, which plans and adjusts the reasoning process to provide reward guidance beyond final-answer outcomes. MaR scaffolds model rollouts into explicit metacognitive components and optimizes them with a trajectory-level reward over task knowledge coverage, regulation fidelity, and final-answer correctness. In this way, MaR extends reward feedback to reasoning trajectories while grounding the reward signals in general metacognitive dimensions. Experiments on 22 benchmarks show that MaR consistently improves model performance, achieving up to a 7.7% gain over the base model and up to an 11.0% gain over vanilla DAPO. Notably, Qwen3.5-9B + MaR narrows the gap to frontier models, surpassing GPT-OSS-120B on overall average and outperforming stronger models on several individual benchmarks. Process-level analysis further shows substantial improvements in reasoning process quality. MaR also generalizes to out-of-domain datasets, where MaR-trained models improve over their corresponding base models on average.

2026-05-25 13:00 JSTarXiv cs.AI研究/論文

すべてのコンポーネントはルックアップです: 単一の分解からのトークンの帰属と構成

変圧器の機構的な解釈には、どのコンポーネントが重要であるかだけでなく、それらのコンポーネントが予測を生成する計算ルートにどのように組み込まれるかを特定する必要があります。アテンションと MLP は両方とも、共有キーと値のテンプレート $\phi(S)U$ に従います。この構造を利用して、両方のサブレイヤーを介してクレジットを分解する後方再帰である Unpack を開発し、任意の 2 つのコンポーネント間の相互作用強度、K/Q/V 構成ラベルを持つ名前付きエンドツーエンド パス、および単一の前方パスからのトークンごとの属性を、介入、勾配、または補助トレーニングなしで生成します。間接的なオブジェクト識別タスクで評価します。 GPT-2 small では、このメソッドは Wang らによって説明されている 3 つの構成接続すべてを回復します。 (2023)、各接続 (K、Q、または V) のモード固有のルーティングを含みます。単純なコピーを超えたトークンレベルの帰属をテストするために、同じ分解で同じ名前が 2 つ出現することを比較します。最初の言及は強い信用を保持しますが、重複検出位置は抑制されます。これは、一致するコントロール プロンプトには存在しないパターンです。 160M から 6.9B パラメータの Pythia ファミリ全体にわたって、この抑制パターンはすべてのスケールで一貫して回復されており、この手法がグラウンド トゥルース回路ラベルなしで機構構造を追跡していることが実証されています。コードは https://github.com/Fun-Cry/unpacklm で入手できます。

原文 (English)

Every Component is a Lookup: Token Attribution and Composition from a Single Decomposition

Mechanistic interpretability of transformers requires identifying not just which components matter but how they compose into the computational route that produced a prediction. Both attention and MLP follow a shared key-value template $\phi(S)U$. We exploit this structure to develop Unpack, a backward recursion that decomposes credit through both sublayers, producing interaction strengths between any two components, named end-to-end paths with K/Q/V composition labels, and per-token attribution from a single forward pass, without intervention, gradients, or auxiliary training. We evaluate on the indirect object identification task. On GPT-2 small, the method recovers all three composition connections described by Wang et al. (2023), including the mode-specific routing of each connection (K, Q, or V). To test token-level attribution beyond trivial copying, we compare two occurrences of the same name in the same decomposition: the first mention retains strong credit while the duplicate-detection position is suppressed, a pattern absent in matched control prompts. Across the Pythia family from 160M to 6.9B parameters, this suppression pattern is consistently recovered at every scale, demonstrating that the method tracks mechanistic structure without ground-truth circuit labels. Code is available at https://github.com/Fun-Cry/unpacklm.

2026-05-25 13:00 JSTarXiv cs.AILLM/生成AIエージェント

SafeHarbor: LLM エージェントの安全のための階層型メモリ拡張ガードレール

基盤モデルの最近の進歩により、LLM は受動的な会話システムから、推論とツールの実行が可能な自律エージェントに変わりました。これらの機能は実質的な実用的価値を解放しますが、敵対者がエージェントを操作して現実世界の環境で有害なアクションを実行する可能性があるため、新たなセキュリティ リスクももたらします。既存の防御戦略はそのような脅威を軽減しますが、安全性と有用性のバランスをとるのにしばしば苦労し、その結果、無害なユーザー要求を過度に拒否する結果になります。このトレードオフを軽減するために、LLM エージェントの正確な決定境界を確立するように設計された新しいフレームワークである SafeHarbor を提案します。静的なガイドラインとは異なり、SafeHarbor は強化された敵対的生成を通じてコン​​テキストを認識した防御ルールを抽出します。私たちは、動的ルール注入用のローカル階層メモリ システムを設計し、トレーニング不要で効率的なプラグ アンド プレイ ソリューションを提供します。さらに、動的なノードの分割と結合を通じてメモリ構造を継続的に最適化する、情報エントロピーベースの自己進化メカニズムを導入します。広範な実験により、SafeHarbor があいまいで良性のタスクと明示的な悪意のある攻撃の両方で最先端のパフォーマンスを達成し、特に GPT-4o で 63.6\% のピーク無害ユーティリティを達成しながら、有害なリクエストに対して 93\% を超える堅牢な拒否率を維持していることが実証されています。ソース コードは https://github.com/ljj-cyber/SafeHarbor で公開されています。

原文 (English)

SafeHarbor: Hierarchical Memory-Augmented Guardrail for LLM Agent Safety

Recent advances in foundation models have transformed LLMs from passive conversational systems into autonomous agents capable of reasoning and tool execution. While these capabilities unlock substantial practical value, they also introduce new security risks, as adversaries can manipulate agents into performing harmful actions in real-world environments. Existing defense strategies mitigate such threats but frequently struggle to balance safety and utility, resulting in over-refusal of benign user requests. To mitigate this trade-off, we propose SafeHarbor, a novel framework designed to establish precise decision boundaries for LLM agents. Unlike static guidelines, SafeHarbor extracts context-aware defense rules through enhanced adversarial generation. We design a local hierarchical memory system for dynamic rule injection, offering a training-free, efficient, and plug-and-play solution. Furthermore, we introduce an information entropy-based self-evolution mechanism that continuously optimizes the memory structure through dynamic node splitting and merging. Extensive experiments demonstrate that SafeHarbor achieves state-of-the-art performance on both ambiguous benign tasks and explicit malicious attacks, notably attaining a peak benign utility of 63.6\% on GPT-4o while maintaining a robust refusal rate exceeding 93\% against harmful requests. The source code is publicly available at https://github.com/ljj-cyber/SafeHarbor.

2026-05-25 13:00 JSTarXiv cs.AI研究/論文Gemini

コード交換音声に関する商用 ASR システムのベンチマーク: アラビア語、ペルシア語、ドイツ語

コードスイッチング (単一の発話内で 2 つの言語を自然に切り替えること) は、依然として自動音声認識 (ASR) にとって最も困難であり、研究が十分に進んでいない条件の 1 つです。ここでは、4 つの言語ペアにわたる 5 つの商用 ASR プロバイダーを評価するベンチマークを紹介します。エジプト アラビア語 - 英語、サウジ アラビア語 (ナジ/ヒジャジ) - 英語、ペルシア語 (ファルシ語) - 英語、ドイツ語 - 英語です。これは、ヒューリスティック フィルタリングと GPT-4o および Gemini 1.5 Pro アンサンブル スコアラーを組み合わせた 2 段階のパイプラインによって選択されたペアあたり 300 個のサンプルで構成され、LLM コストを削減します。 $\約$91\%。 WER と BERTScore の両方で評価し、両方の指標がすべてのアラビア語とペルシア語のペアのシステムの序数順位 ($\tau = 1.0$) で一致している一方で、WER は意味的に正しい音訳の選択にペナルティを課すことにより、品質ギャップの大きさを約 3$\times$ 膨張させることを示しています。 Celebrities Scribe v2 は最低の WER (全体で 13.2\%) を達成し、BERTScore でトップ (全体で 0.936) を達成しました。難易度階層化分析により、集計平均によって隠蔽されたパフォーマンスのギャップが明らかになり、BERT 埋め込み投影により、表面レベルのスクリプトの違いにもかかわらず、参照と仮説の間の意味論的な近接性が確認されます。データセットは https://huggingface.co/datasets/Perle-ai/ASR_Code_Switch で公開されています。

原文 (English)

Benchmarking Commercial ASR Systems on Code-Switching Speech: Arabic, Persian, and German

Code-switching -- the natural alternation between two languages within a single utterance -- remains one of the most challenging and under-studied conditions for automatic speech recognition (ASR). We present a benchmark evaluating five commercial ASR providers across four language pairs: Egyptian Arabic--English, Saudi Arabic (Najdi/Hijazi)--English, Persian (Farsi)--English, and German--English, comprising 300 samples per pair selected by a two-stage pipeline combining heuristic filtering with a GPT-4o and Gemini 1.5 Pro ensemble scorer, reducing LLM costs by $\approx$91\%. We evaluate on both WER and BERTScore, showing that while both metrics agree on the ordinal ranking of systems for all Arabic and Persian pairs ($\tau = 1.0$), WER inflates the magnitude of quality gaps by approximately 3$\times$ by penalising semantically correct transliteration choices. ElevenLabs Scribe v2 achieves the lowest WER (13.2\% overall) and leads on BERTScore (0.936 overall). Difficulty-stratified analysis reveals performance gaps masked by aggregate averages, and BERT embedding projections confirm semantic proximity between reference and hypothesis despite surface-level script differences. The dataset is publicly available at https://huggingface.co/datasets/Perle-ai/ASR_Code_Switch.

2026-05-25 13:00 JSTarXiv cs.AILLM/生成AIMicrosoftCopilot

Microsoft Security Copilot による GenAI 主導の脅威検出

今日のますます巧妙化するサイバー攻撃を防御するには、セキュリティ アナリストが進化する攻撃者の手口を検出ロジックに継続的に変換する必要があります。これにより、防御側は事後対応の態勢に置かれ、断片化が進むセキュリティ環境全体にわたって常に最新の専門知識が必要となります。動的脅威検出エージェント (DTDA) を導入します。これは、Microsoft Defender 全体のセキュリティ インシデントを継続的に調査し、隠れた脅威を明らかにし、攻撃ストーリーのギャップが見つかった場合に説明可能な検出を生成する、常時稼働の適応型エージェントです。 DTDA は以下を組み合わせます。(1) アラート、イベント、ユーザーおよびエンティティの行動分析、脅威インテリジェンスにわたる統合されたアクティビティ タイムライン。 (2) スキーマ検証、グラウンディング要件、制限付き再試行、およびフェールクローズ抑制を備えたバージョン化された LLM プロンプト コントラクト。 (3) 攻撃固有の仮説を生成し、裏付けと反駁の証拠を収集する、計画者と実行者の調査ループ。 (4) コンテキストに関連したタイトル、重大度、MITRE マッピング、修復ガイダンス、関係するエンティティ、および自然言語攻撃の説明を含む動的なアラート生成。 DTDA は Microsoft Security Copilot に統合され、数万の Defender 顧客に展開され、業界規模で継続的に運用されています。 120 日間のオンライン評価で、DTDA は顧客のフィードバックから 80.1% の精度を達成し、調査されたインシデントの約 15% に対して新しいアラートを生成しました。オフライン評価では、DTDA は GPT-5.4 を使用して隠れた悪意のあるアクティビティを 0.78 F1 で回復し、GPT-4.1 よりも 0.12 F1 改善し、ベースラインを 0.26 F1 ポイント上回りました。運用上、DTDA は単一インシデントの調査をエンドツーエンドで中央値 28 分、トークンコスト中央値 2.04 米ドル、ジョブレベル失敗率 0.38% で処理します。これらの結果は、自律エージェントが運用規模で見逃した悪意のあるアクティビティを特定できることを示しています。

原文 (English)

GenAI-Driven Threat Detection with Microsoft Security Copilot

Defending against today's increasingly sophisticated cyberattacks requires security analysts to continuously translate evolving attacker tradecraft into detection logic. This places defenders in a reactive posture, requiring constantly updated expertise across an increasingly fragmented security landscape. We introduce the Dynamic Threat Detection Agent (DTDA), an always-on adaptive agent that continuously investigates security incidents across Microsoft Defender to uncover hidden threats and generate explainable detections when attack-story gaps are found. DTDA combines: (1) a unified activity timeline spanning alerts, events, user and entity behavior analytics, and threat intelligence; (2) versioned LLM prompt contracts with schema validation, grounding requirements, bounded retries, and fail-closed suppression; (3) a planner-executor investigation loop that generates attack-specific hypotheses and gathers supporting and refuting evidence; and (4) dynamic alert generation with a context-relevant title, severity, MITRE mappings, remediation guidance, implicated entities, and natural-language attack description. Integrated into Microsoft Security Copilot and deployed across tens of thousands of Defender customers, DTDA operates continuously at industry scale. In a 120-day online evaluation, DTDA achieves 80.1% precision from customer feedback while generating novel alerts for approximately 15% of investigated incidents. In offline evaluation, DTDA recovers hidden malicious activity with 0.78 F1 using GPT-5.4, improving over GPT-4.1 by 0.12 F1 and outperforming the baseline by 0.26 F1 points. Operationally, DTDA processes single-incident investigations end-to-end in a median of 28 minutes at a median token cost of USD 2.04, with a 0.38% job-level failure rate. These results demonstrate that autonomous agents can identify missed malicious activity at a production scale.