Skip to the content.

Gemini

モデル記事 61 件2026-05-24 〜 2026-05-29

← トップに戻る · エンティティ一覧

2026年5月

2026-05-29 20:30 JSTITmedia AI+LLM/生成AI画像/動画生成Google

「Nano Banana 2」「Nano Banana Pro」が一般提供開始 「2」は動画からの画像生成もサポート

米Googleは5月29日、「Nano Banana 2」(Gemini 3.1 Flash Image)と「Nano Banana Pro」(Gemini 3 Pro Image)の一般提供を開始すると発表した。加えて、動画入力に対応する新機能をNano Banana 2でプ…

2026-05-29 13:00 JSTarXiv cs.AILLM/生成AIGPT / ChatGPT

トーンに注意: トーンによって LLM のパフォーマンスが変化しますか?

大規模言語モデル (LLM) の使用は急増していますが、そのパフォーマンスはプロンプトのスタイルや口調に基づいて変化することが観察されています。この研究では、プロンプトの音調の変化が客観的な多肢選択式の質問に対する LLM の精度の違いにつながるかどうか、またどのようにして起こるかを調査します。 5 つの声調バリエーションを持つ 50 ベースの質問データセットと、7 つの声調バリエーションを持つ 57 人の被験者にわたる 570 ベースの質問 MMLU サブセットの 2 つのデータセットを使用します。実験は、コスト効率の高い人気のある 4 つの LLM (ChatGPT-4o、ChatGPT-5-nano、Gemini 2.5 Flash、および Gemini 2.5 Flash Lite) のパフォーマンスを評価するために実施されました。モデル間での音色効果は体系的ですが、モデルに大きく依存します。一部のモデルは小さいながらも統計的に有意な変化を示しますが、他のモデルはトーン全体で大きな精度の変動を示します。さらに、トーン感度における被験者レベルの違いを特定し、トーンがどのように内部推論モードを調整するかを説明するためのルーティングフレームワークを提示します。私たちの調査結果は、LLM 導入においてトーン堅牢な信頼性を想定しないようユーザーに警告します。

原文 (English)

Mind Your Tone: Does Tone Alter LLM Performance?

The use of Large Language Models (LLMs) is proliferating, yet their performance is observed to vary based on prompting styles and tones. In this study, we investigate both whether and how tonal variations in prompts lead to disparate LLM accuracy for objective multiple-choice questions. We use two datasets: a 50-base question dataset with five tone variants and a 570-base question MMLU subset spanning 57 subjects with seven tone variants. Experiments were conducted to evaluate the performance of four cost-efficient, popular LLMs: ChatGPT-4o, ChatGPT-5-nano, Gemini 2.5 Flash, and Gemini 2.5 Flash Lite. Across models, tonal effects are systematic but highly model-dependent. Some models show small, yet statistically significant, shifts, while others exhibit large accuracy swings across tones. Further, we identify subject-level differences in tone sensitivity and present a routing framework to explain how tones may attune internal reasoning modes. Our findings caution users against assuming tone-robust reliability in LLM deployments.

2026-05-29 13:00 JSTarXiv cs.AI研究/論文GPT / ChatGPT

シーンの自己探索による視点をもとに計画を立てる

VLM は、各カメラの動きによってビューがどのように変化するかを予測し、事前にそのような動きを多数計画することができますか?私たちはこれを機能ビュー計画と呼びます。これには、(1) 単一のアクションがビューをどのように変換するかを理解すること、(2) ターゲット ビューを特定するために複数ターンの計画にわたってそのような変換を多数構成することが必要です。私たちは、実際の ScanNet シーン上の 3D ポイントクラウド環境である、私たちが提案する ViewSuite で両方の機能を調査します。 13 のフロンティア VLM にわたって、重大な計画のギャップが生じています。VLM は基本的なビューとアクションの知識を持っていますが、それを複数ターンの計画にわたって構成することができず、視点の距離が長くなるにつれてギャップが拡大します。このギャップを埋めるために、自己探索とビュー グラフの蒸留を交互に行う反復フレームワークを提案します。重要な洞察は、結果に関係なく、すべての探索軌跡が集合的にビュー グラフを形成し、シーン全体で視点がどのように接続されているかをコンパクトに捉えるということです。このグラフをさまざまな教師ありタスクに抽出すると、ポリシーの分布が再形成され、純粋な RL を遅らせる希薄な報酬が克服されます。これにより、インタラクティブ ビュー プランニングで Qwen2.5-VL-7B が 2.5% から 47.8% に向上し、GPT-5.4 Pro (18.5%) や Gemini 3.1 Pro (21.4%) を上回りました。自己探索は、3D 空間で積極的に推論して計画できる VLM への有望な道として浮上しています。

原文 (English)

Planning with the Views via Scene Self-Exploration

Can VLMs predict how each camera move changes the view, and plan many such moves ahead? We call this capability view planning, requiring (1)understanding how a single action transforms the view, and (2)composing many such transformations across multi-turn plans to identify a target view. We probe both abilities in our proposed ViewSuite, a 3D point-cloud environment on real ScanNet scenes. Across 13 frontier VLMs, a critical planning gap emerges: they possess basic view-action knowledge but fail to compose it across multi-turn plans, with the gap widening as viewpoint distance grows. To close this gap, we propose an iterative framework that alternates self-exploration with view graph distillation. The key insight is that all exploration trajectories, regardless of their outcome, collectively form a view graph that compactly captures how viewpoints connect across a scene. Distilling this graph into diverse supervised tasks reshapes the policy distribution and overcomes the sparse rewards that stall pure RL. This improves Qwen2.5-VL-7B from 2.5% to 47.8% on interactive view planning, surpassing GPT-5.4 Pro (18.5%) and Gemini 3.1 Pro (21.4%). Self-exploration emerges as a promising path toward VLMs that can actively reason and plan in 3D space.

2026-05-29 13:00 JSTarXiv cs.AI研究/論文

FinVerBench: 大規模言語モデル財務諸表検証におけるベンチマークの妥当性とキャリブレーション

財務諸表検証のためのベンチマークおよび妥当性調査である FinVerBench を紹介します。これは、モデルに示された情報から一連の企業財務諸表が数値的に一貫しているかどうかを判断するためです。 FinVerBench は、S&P 500 企業 43 社の SEC 10-K XBRL 申告に基づいて構築されており、算術演算、ステートメント間のリンケージ、前年比、および規模の変動をカバーする 4 つのカテゴリの誤差分類法を定義しています。私たちは 15 の現代的な LLM 評価を試み、14 の完全な実行を報告します。 Gemini 2.5 Pro の実行は、40/108 ゲートウェイ呼び出しが失敗したため、主な比較から除外されています。すべてのバイナリ メトリクスでは、摂動されたラインアイテムがレンダリングされない過小判定のポジティブ インスタンスが除外され、105 個の観察可能な診断サブセット (クリーン 43 個、エラー挿入 62 個) が残ります。丸められていない診断サブセットに対する元のガイド付きチェックリスト プロンプトでは、14 回の完全な LLM 実行のうち 9 回でクリーン ステートメントに対して 95 ~ 100% の誤検知が発生しましたが、1 回の実行では観察された誤検知が 0% に達しました。ベンチマーク レンダリングの選択は、測定された再現率に重大な影響を与えます。同じ観察可能なサブセットの現実的な丸められたバリアントでは、調整されたモデルの再現率は 79.0% で、観察された FPR は 0% でしたが、丸められていない診断バリアントでは再現率が 100.0% でした。これらの結果は、最終的なリーダーボードではなく構成妥当性の結論を裏付けています。財務諸表の検証は、単なる算術検出ではなく、不完全な観察可能性、即座に誘発される仮定、および現実的な数値レンダリングの下で​​調整された判断です。 FinVerBench とすべてのコードは公開されています。

原文 (English)

FinVerBench: Benchmark Validity and Calibration in Large Language Model Financial Statement Verification

We introduce FinVerBench, a benchmark and validity study for financial statement verification: determining whether a set of corporate financial statements is numerically consistent from the information shown to the model. FinVerBench is built from SEC 10-K XBRL filings for 43 S&P 500 companies and defines a four-category error taxonomy covering arithmetic, cross-statement linkage, year-over-year, and magnitude perturbations. We attempt fifteen contemporary LLM evaluations and report fourteen complete runs; a Gemini 2.5 Pro run is excluded from the main comparison because 40/108 gateway calls failed. All binary metrics exclude underdetermined positive instances whose perturbed line item is not rendered, leaving a 105-instance observable diagnostic subset (43 clean, 62 error-injected). Under the original guided-checklist prompt on the unrounded diagnostic subset, nine of fourteen complete LLM runs produce 95-100% false positives on clean statements, while one run achieves 0% observed false positives. Benchmark rendering choices materially affect measured recall: on a realistic rounded variant of the same observable subset, the calibrated model's recall is 79.0% with 0% observed FPR, compared with 100.0% recall on the unrounded diagnostic variant. These results support a construct-validity conclusion rather than a final leaderboard: financial statement verification is not merely arithmetic detection, but calibrated judgment under incomplete observability, prompt-induced assumptions, and realistic numerical rendering. FinVerBench and all code are publicly available.

2026-05-29 13:00 JSTarXiv cs.AILLM/生成AIエージェントGPT / ChatGPTDeepSeek

GRASP: 自己改善型 LLM エージェントのためのゲート回帰認識スキル提案者

構造化された環境で動作する LLM エージェントは、会話的な方法ではなく操作的な方法で失敗し、信頼性は環境の手順に関する知識に依存します。以前の自己改善方法では、新しい項目が以前の正しい動作を保持しているかどうかを確認せずに自然言語ガイダンスを蓄積するため、ある軌道を修正したメモが静かに別の軌道に後退する可能性があります。 GRASP (Gated Regression-Aware Skill Proposer) を導入します。これは、エージェントの改善を制限されたスキル ライブラリへの一連の編集として扱い、ハード回帰バジェットの下でバランスのとれたホールドアウト プローブで純改善が得られた場合にのみ各候補者を許可します。 2 つの FHIR ベースの臨床ベンチマークで 5 つの基本モデル (gpt-oss-120b、DeepSeek V4 Flash、Gemini 3.1 Flash Lite、GPT-4.1、GPT-5.4) にわたって GRASP を評価します。 MedAgentBench では、GRASP は gpt-oss-120b を 40.6% から 88.8% に引き上げ、5 つの自己改善ベースラインのうち最も強力なものを 21.0 ポイント上回り、他のすべてのベース モデルを 17.2 から 40.3 ポイント改善しました。アブレーションでは、スキル ライティング自体によるものではなく、比較提案の生成、承認ゲート、およびハード リグレッション バジェットによって利益が得られると考えられます。検証がなければ、スキルを使用しないのと同じです。このメカニズムは臨床領域を超えて一般化され、4 つの非臨床環境のうち 3 つで薬剤を改善し、アクション スペースがオープンエンドである場合にのみフラットなままになります。凍結されたライブラリはモデル間で転送され、より強力なモデルからのスキルは弱い実行者を自ら学習した以上に向上させますが、その逆はそうではなく、ゲートされていないベースラインでは再現できない非対称性です。

原文 (English)

GRASP: Gated Regression-Aware Skill Proposer for Self-Improving LLM Agents

LLM agents acting in structured environments fail in operational rather than conversational ways, and reliability depends on procedural knowledge of the environment. Prior self-improvement methods accumulate natural-language guidance without checking that each new item preserves previously correct behavior, so a note that fixes one trajectory can silently regress another. We introduce GRASP (Gated Regression-Aware Skill Proposer), which treats agent improvement as a sequence of edits to a bounded skill library, admitting each candidate only if it produces a net improvement on a balanced held-out probe under a hard regression budget. We evaluate GRASP across five base models (gpt-oss-120b, DeepSeek V4 Flash, Gemini 3.1 Flash Lite, GPT-4.1, GPT-5.4) on two FHIR-based clinical benchmarks. On MedAgentBench, GRASP lifts gpt-oss-120b from 40.6% to 88.8%, exceeds the strongest of five self-improvement baselines by 21.0 points, and improves every other base model by 17.2 to 40.3 points. Ablations attribute the gain to comparative proposal generation, the acceptance gate, and the hard regression budget rather than to skill writing itself, which without validation is no better than using no skills. The mechanism generalizes beyond the clinical domain, improving agents on three of four non-clinical environments and remaining flat only where the action space is open-ended. Frozen libraries transfer across models, where skills from a stronger model improve weaker executors beyond what they learn for themselves while the reverse does not, an asymmetry that no ungated baseline reproduces.

2026-05-29 13:00 JSTarXiv cs.AILLM/生成AI

数学タスクの評価における時間的安定性と少数のプロンプト

AI ツールが教育現場にますます統合されるにつれて、その長期にわたる安定性と、迅速なエンジニアリング技術に対する応答性の両方について疑問が生じます。この縦断的研究は、タスク分析ガイド (TAG; Stein \& Smith、1998) を使用して数学タスクの認知要求を分類するさまざまな AI ツールの機能に焦点を当てました。特に、この分類能力が、(1) 時間の経過に伴うモデル バージョンの更新、および (2) サンプル タスクを使用した少数ショット プロンプトによって変化するかどうかを調べました。汎用 AI ツール (Gemini) と教育特化型 AI ツール (Coteach) をテストしました。特定のツールが選択されたのは、関連する公開されたベンチマークと以前のタスク固有のテストで比較的高いパフォーマンスが得られたためです。モデルはベースラインでテストされ、モデルのバージョン更新で再テストされ、その後、少数ショット プロンプト (認知要求カテゴリごとに 2 つの模範タスク) を使用して再度テストされました。結果から、新しいモデル バージョンだけではさまざまな影響が生じることが明らかになりました。Gemini の精度は 58\% で安定していましたが、Coteach の精度は 75\% から 50\% に低下しました。ただし、少数ショット プロンプトにより両方のモデルのパフォーマンスが向上しました。Gemini の精度は 67\% に向上し、Coteach の精度は 75\% に回復しました。これらの発見は、迅速なエンジニアリング手法が受動的モデルの改善よりも大きく信頼性の高い効果をもたらす可能性があること、およびバージョンの更新が専門的な教育タスクのパフォーマンスを必ずしも向上させるとは限らないことを示しています。この研究は、教育者や研究者が教育現場で AI ツールの選択、評価、実装にどのようにアプローチすべきかについて重要な意味を持ちます。

原文 (English)

Temporal Stability and Few-Shot Prompting in Math Task Assessment

As AI tools become increasingly integrated into educational contexts, questions arise about both their stability over time and their responsiveness to prompt engineering techniques. This longitudinal study focused on different AI tools' ability to use the Task Analysis Guide (TAG; Stein \& Smith, 1998) to classify the cognitive demand of mathematics tasks. In particular, it examined whether this classification ability changed with (1) model version updates over time and (2) few-shot prompting using exemplar tasks. We tested a general-purpose AI tool (Gemini) and an education-specific AI tool (Coteach). The specific tools were selected because of their relatively high performance on relevant published benchmarks and prior task-specific tests. Models were tested at baseline, retested with model version updates, and then tested again using few-shot prompting (two exemplar tasks for each cognitive demand category). Results revealed that newer model versions alone produced mixed effects: Gemini's accuracy remained stable at 58\%, while Coteach's accuracy decreased from 75\% to 50\%. However, few-shot prompting improved both models' performance: Gemini increased to 67\% and Coteach recovered to 75\% accuracy. These findings demonstrate that prompt engineering techniques can have larger and more reliable effects than passive model improvements, and that version updates may not always improve performance on specialized educational tasks. The study has important implications for how educators and researchers should approach AI tool selection, evaluation, and implementation in educational contexts.

2026-05-29 13:00 JSTarXiv cs.AILLM/生成AIGPT / ChatGPT

ProjectionBench: 漸進的な情報開示の下での LLM における科学的仮説生成の評価

科学的発見は本質的に創造的かつ不確実なプロセスであり、既知の知識を思い出す以上の推論が必要です。マルチホップ検索による深い研究タスクにおける大規模言語モデル (LLM) のパフォーマンスを評価するベンチマークが数多く提案されていますが、真の科学的発見に不可欠な革新的な推論能力はほとんどテストされていません。生の問題から古典的な帰無仮説検定までを構築し、科学的発見と推論におけるモデルのパフォーマンスを評価するためのベンチマーク フレームワークを紹介します。私たちのフレームワークでは、モデルは最初は最近の論文からのトピックと研究上の質問のみを受け取り、技術的な詳細は徐々に明らかになります。情報開示の各段階で、モデルは研究課題に対処する仮説を生成する役割を果たします。仮説は元の論文の結論と比較され、構成要素の原子的クレームの自動化された意味的類似性によって評価されます。グラウンドトゥルースの結論からの意味的乖離のこの漸進的な評価により、(最小限の情報の下で) モデルの革新性から (完全な実験の詳細の下で) 根拠のある推論能力の評価が可能になり、どちらも科学的発見の目的で LLM を使用する場合に重要です。私たちのフレームワークは、次世代の AI 科学者/共同科学者システムの開発を進めるために重要な、LLM の科学的推論と発見能力を体系的に評価するための基盤を提供します。具体的には、ここでは生物活性材料、機械材料、ナノ材料にわたる 45 の論文にわたって GPT-5、GPT-5.4、Gemini 2.5 pro、および Gemini 3.1 pro プレビューを評価します。 GPT-5.4 と Gemini 3.1 pro は予想どおり前世代の対応製品よりも優れたパフォーマンスを示し、特に GPT-5.4 は最小限のコンテキストでもグラウンド トゥルースの結論と 0.7 の F1 スコアの一致を維持していることがわかりました。

原文 (English)

ProjectionBench: Evaluating Scientific Hypothesis Generation in LLMs Under Progressive Information Disclosure

Scientific discovery is an inherently creative and uncertain process, requiring reasoning beyond the recall of known knowledge. While many benchmarks have been proposed to evaluate large language model (LLM) performance on deep research tasks via multi-hop retrieval, their innovative reasoning abilities essential for true scientific discovery remain largely untested. We introduce a benchmark framework for evaluating model performance in scientific discovery and reasoning, building up from a raw problem to the classical null hypothesis test. In our framework, models initially receive only the topic and research question from a recent paper, with technical details progressively revealed. At each stage of information disclosure, the model is tasked with generating hypotheses that address the research question, which is compared with the conclusions from the original paper and evaluated via automated semantic similarity of constituent atomic claims. This progressive evaluation of semantic divergence from ground-truth conclusions enables assessment of a model's innovativeness (under minimal information) to grounded reasoning capabilities (under full experimental details), both critical for using LLMs for scientific discovery purposes. Our framework provides a foundation for systematically evaluating scientific reasoning and discovery capabilities in LLMs, crucial for advancing the development of next-generation AI scientist/co-scientist systems. Specifically, here we evaluate GPT-5, GPT-5.4, Gemini 2.5 pro, and Gemini 3.1 pro preview across 45 papers spanning bioactive materials, mechanical materials, and nanomaterials. We find that GPT-5.4 and Gemini 3.1 pro outperform their previous generation counterparts as expected, and GPT-5.4 in particular maintains 0.7 F1 score alignment with ground truth conclusions even under minimal context.

2026-05-29 13:00 JSTarXiv cs.AIエージェントClaudeGPT / ChatGPT

Training Deliberative Monitors for Black-Box Scheming Detection

As autonomous agents become more capable of performing real-world tasks, distinguishing scheming behavior from benign task pursuit may beco…

2026-05-29 13:00 JSTarXiv cs.AILLM/生成AIエージェントClaudeGPT / ChatGPT

Evolutionary Dynamics of Cooperation in Next-Generation LLM Agent Systems: A Cross-Provider Empirical Extension

Do next-generation LLM agents inherit the cooperative biases documented in their predecessors, or does scale and provider diversity reshape…

2026-05-29 13:00 JSTarXiv cs.AILLM/生成AIClaudeGPT / ChatGPT

Label Over Logic? How Source Cues Bias Human Fallacy Judgments More Than LLMs

As AI-generated and AI-assisted content floods online spaces, source labels attached to such content can distort human reasoning judgments,…

2026-05-29 13:00 JSTarXiv cs.AI研究/論文ClaudeGPT / ChatGPT

REPOT: Recoverable Program-of-Thought via Checkpoint Repair

One-shot Program-of-Thought (PoT) emits a Python program that prints a primitive-action plan; a single invalid action silently invalidates…

2026-05-29 13:00 JSTarXiv cs.AILLM/生成AIエージェントAnthropicClaudeGPT / ChatGPTQwen

How Reliable Are AI Attackers Against a Fixed Vulnerable Target? A 400-Run Empirical Study of LLM Penetration Testing Consistency

Large language models (LLMs) can autonomously conduct multi-stage cyber attacks, but the consistency of their offensive behavior under repe…

2026-05-29 13:00 JSTarXiv cs.AIエージェント

Gram: Assessing sabotage propensities via automated alignment auditing

We introduce Gram, an automated alignment auditing framework to assess the propensity of AI agents to engage in sabotage. We evaluate Gemin…

2026-05-29 13:00 JSTarXiv cs.AILLM/生成AIGPT / ChatGPT

Are LLMs Socially Adaptive? Contrasting Belief Evolution in Large Language Models and Humans

As large language models (LLMs) increasingly engage in complex social interactions, ensuring that their behaviors align with human ethical…

2026-05-29 13:00 JSTarXiv cs.AI研究/論文GPT / ChatGPT

The Price Reversal Phenomenon: When Cheaper Reasoning Models Cost More

Developers and consumers increasingly choose reasoning models (RMs) based on their listed API prices. However, how accurately do these pric…

2026-05-29 13:00 JSTarXiv cs.AI研究/論文

DialToM: A Theory of Mind Benchmark for Forecasting State-Driven Dialogue Trajectories

We introduce DialToM, an annotated Theory of Mind (ToM) benchmark built from naturalistic human-human dialogues using a multiple-choice eva…

2026-05-29 13:00 JSTarXiv cs.AI研究/論文

MedMosaic: A Challenging Large Scale Benchmark of Diverse Medical Audio

Medical audio data is difficult to collect due to privacy regulations and high annotation costs arising from domain expertise. Thus, existi…

2026-05-29 13:00 JSTarXiv cs.AI研究/論文GPT / ChatGPT

Hilbert-Geo: Solving Solid Geometric Problems by Neural-Symbolic Reasoning

Geometric problem solving, as a typical multimodal reasoning problem, has attracted much attention and made great progress recently, howeve…

2026-05-28 13:00 JSTarXiv cs.AIビジネス/資金調達研究/論文Claude

PetroBench: 石油工学における大規模言語モデルのベンチマーク

大規模言語モデルは石油業界でますます適用されており、ドメイン固有の評価フレームワークの必要性が強調されています。この研究では、データの前処理、品質フィルタリング、マルチモデル検証の 3 段階のプロセスを含む、石油工学における LLM のベンチマークを開発します。専門家のレビューを使用して、強力なドメイン関連性と識別機能を備えた標準化された質問バンクが構築されました。このベンチマークは生産、貯留層、掘削工学を対象としており、多肢選択、正誤、用語の定義、短答形式にわたる 1,200 の質問が含まれています。 8 つの主流 LLM が統合 API 環境下で評価されました。結果は、モデルが客観的な質問よりも主観的な質問の方が優れたパフォーマンスを示し、事実知識の識別における弱点を示しています。多肢選択式質問と正誤質問の最高精度は、それぞれ 65.3% と 74.3% でした。 Gemini-3-Pro、Kimi-K2.5、および Claude-Opus-4.6-Thinking は、72% ~ 74% という最高の総合スコアを達成しました。モデルは生産エンジニアリングで最も優れたパフォーマンスを発揮しましたが、貯留層エンジニアリングでは最も劣っていました。中国のモデルは多肢選択問題で優位性を示しましたが、国際モデルは短答式の質問でわずかに優れた結果を示しました。このベンチマークは、石油工学における LLM の評価と導入のための再現可能で実用的なリファレンスを提供します。

原文 (English)

PetroBench: A Benchmark for Large Language Models in Petroleum Engineering

Large Language Models are increasingly applied in the petroleum industry, highlighting the need for a domain-specific evaluation framework. This study develops a benchmark for LLMs in petroleum engineering, including a three-stage process of data preprocessing, quality filtering, and multi-model validation. Using expert review, a standardized question bank with strong domain relevance and discriminative capability was constructed. The benchmark covers production, reservoir, and drilling engineering, with 1,200 questions across multiple-choice, true or false, term definition, and short-answer formats. Eight mainstream LLMs were evaluated under a unified API environment. Results show that models performed better on subjective than objective questions, indicating weaknesses in factual knowledge discrimination. The highest accuracies for multiple-choice and true or false questions were 65.3% and 74.3%, respectively. Gemini-3-Pro, Kimi-K2.5, and Claude-Opus-4.6-Thinking achieved the best overall scores of 72%-74%. Models performed best in production engineering and weakest in reservoir engineering. Chinese models showed advantages in multiple-choice questions, while international models performed slightly better in short-answer questions. The benchmark provides a reproducible and practical reference for evaluating and deploying LLMs in petroleum engineering.

2026-05-28 13:00 JSTarXiv cs.AI画像/動画生成

MTAVG-Bench 2.0: マルチトーカーオーディオビデオ生成における映画的な表現力の障害モードの診断

近年、マルチ トーカー オーディオ ビデオ生成 (MTAVG) モデルは、リップシンクやオーディオとビジュアルの調整などの基本的なメトリクスで有望なパフォーマンスを示しています。ただし、これらの指標は、シーンレベルの生成における映画の表現力を評価するには依然として不十分です。マルチキャラクターのシーンでは、生成モデルはオーディオビジュアルのリアリズムを超えて、一貫したキャラクターのパフォーマンスやその他のより高いレベルの映画の品質を伝える必要があります。このギャップを埋めるために、マルチトーカーのオーディオビデオ生成における映画の表現力の障害モードを診断するためのベンチマークである MTAVG-Bench 2.0 を導入します。基本的なマルチターンダイアログの品質に主に焦点を当てていた以前の設定とは異なり、MTAVG-Bench 2.0 は短編ドラマとシーンレベルの生成をターゲットにしており、演技、物語、雰囲気、視聴覚言語にわたる高レベルの失敗分類法を確立しています。この分類に基づいて、短編ドラマレベルの評価と障害モードの時間的位置特定のためのサブセットとともに、10,000 を超える質問応答評価インスタンスを構築し、高レベルの視聴覚障害を診断するオムニラージ言語モデルの能力を体系的に評価します。実験結果は、Gemini などの商用オムニ モデルが他の評価ツールよりも大幅に優れていることを示していますが、最も強力なモデルでさえ、ベンチマークでは引き続き複雑な障害に悩まされています。これらの結果は、MTAVG-Bench 2.0 が映画のマルチトーカー オーディオ/ビデオ生成における障害診断のための体系的なベンチマークを提供することを示しています。

原文 (English)

MTAVG-Bench 2.0: Diagnosing Failure Modes of Cinematic Expressiveness in Multi-Talker Audio-Video Generation

In recent years, Multi-Talker Audio-Video Generation (MTAVG) models have shown promising performance on fundamental metrics such as lip-sync and audio-visual alignment. However, these metrics remain insufficient for assessing cinematic expressiveness in scene-level generation. In multi-character scenes, generation models must go beyond audio-visual realism to convey coherent character performance and other higher-level cinematic qualities. To fill this gap, we introduce MTAVG-Bench 2.0, a benchmark for diagnosing failure modes of cinematic expressiveness in multi-talker audio-video generation. Unlike prior settings that mainly focus on the quality of basic multi-turn dialogue, MTAVG-Bench 2.0 targets short-drama and scene-level generation, and establishes a high-level failure taxonomy spanning acting, narrative, atmosphere, and audio-visual language. Based on this taxonomy, we construct more than 10,000 question-answering evaluation instances, together with subsets for short-drama-level assessment and temporal localization of failure modes, to systematically evaluate the ability of omni large language models to diagnose high-level audio-visual failures. Experimental results show that commercial omni models such as Gemini substantially outperform other evaluators, yet even the strongest models continue to struggle with complex failures in our benchmark. These results demonstrate that MTAVG-Bench 2.0 provides a systematic benchmark for failure diagnosis in cinematic multi-talker audio-video generation.

2026-05-28 13:00 JSTarXiv cs.AIエージェント研究/論文OpenAIGPT / ChatGPT

長期的な空間生物学の検証可能なベンチマーク

AI エージェントは生物学的データ分析にますます有用になっていますが、既存のベンチマークは、空間測定に対するエンドツーエンドの科学的推論ではなく、広範な生物学的知識、実行可能なワークフロー、または局所的な分析ステップをテストすることがほとんどです。私たちは、長期空間生物学のベンチマークである SpatialBench-Long を紹介します。このベンチマークでは、エージェントは、規定の方法を使用せずに、生または生に近いデータと校正された実験コンテキストから生物学的主張を回復する必要があります。 SpatialBench-Long には、原発性膵管腺癌 (PDAC)、人工神経膠芽腫オルガノイドおよび in vivo 腫瘍、Cas9 系統追跡肺腺癌、マウス視神経老化 / 介入システムにわたる 24 の評価が含まれており、CosMx、Visium、Xenium、多重エラーロバスト蛍光 in situ ハイブリダイゼーション (MERFISH) に及びます。単一細胞 RNA シーケンス (scRNA-seq)、Slide-seq、Slide-tag、組織学、系統記録データ。候補者の主張は、再現、独立した科学者のレビュー、軌道検査を通じて強化されます。最終的な解答は、管理された語彙と記号に基づいて決定的に採点され、主要な分析の難所を通じた進捗状況を把握する付属のルーブリックが付けられます。 SpatialBench-Long ベンチマーク全体で、Gemini 3.5 Flash / Pi ターミナル コーディング ハーネス、GPT-5.5 / Pi、および GPT-5.5 / OpenAI Codex の 3 つのモデルとハーネスのペアが 8/72 実行 (11.1\%) で同点です。 SpatialBench-Long は、エージェントが手順分析の実行を超えて、複雑な空間測定から正確な科学的結論を導き出すことができるかどうかをテストします。

原文 (English)

Verifiable Benchmarking of Long-Horizon Spatial Biology

AI agents are increasingly useful for biological data analysis, but existing benchmarks mostly test broad biological knowledge, executable workflows, or localized analysis steps rather than end-to-end scientific reasoning over spatial measurements. We introduce SpatialBench-Long, a benchmark for long-horizon spatial biology in which agents must recover biological claims from raw or near-raw data and calibrated experimental context without prescribed methods. SpatialBench-Long contains 24 evaluations across primary pancreatic ductal adenocarcinoma (PDAC), engineered glioblastoma organoids and in vivo tumors, Cas9 lineage-traced lung adenocarcinoma, and mouse optic nerve aging/intervention systems, spanning CosMx, Visium, Xenium, multiplexed error-robust fluorescence in situ hybridization (MERFISH), single-cell RNA sequencing (scRNA-seq), Slide-seq, Slide-tags, histology, and lineage-recording data. Candidate claims are hardened through reproduction, independent scientist review, and trajectory inspection. Final answers are graded deterministically over controlled vocabularies and symbols with companion rubrics capturing progress through key analysis chokepoints. Across the SpatialBench-Long benchmark, three model-harness pairs tie at 8/72 runs (11.1\%): Gemini 3.5 Flash / Pi terminal coding harness, GPT-5.5 / Pi, and GPT-5.5 / OpenAI Codex. SpatialBench-Long tests whether agents can move beyond executing procedural analysis to deriving accurate scientific conclusions from complex spatial measurements.

2026-05-28 13:00 JSTarXiv cs.AILLM/生成AI

OccuReward: グリッド インタラクティブ ビルディングにおける人口統計上の公平性を実現する、LLM に基づく居住者中心の報酬形成

大規模言語モデル (LLM) は、深層強化学習 (DRL) ベースの建物エネルギー管理用の報酬関数を生成する有望な機能を実証しています。しかし、異種の人口統計上の人口間で居住者の快適さの格差を示したり、悪化させたりする可能性については、まだ解明されていません。私たちは、LLM を介した報酬設計が人口統計上の公平性にどのような影響を与えるかを調査するフレームワークである OccuReward を紹介します。私たちの貢献は 3 つあります。新しいフィードバック シグナルとしてのコンフォート エクイティ インデックス (CEI) の導入です。反復的で株式を意識したLLM報酬形成のための方法論。そして、これらの洗練された目標に基づいた DRL エージェントのパフォーマンス分析。 ASHRAE Global Thermal Comfort Database II (13,440 票) からの経験的に根拠のある 4 つの居住者プロファイルを利用して、CityLearn v2 に Soft Actor-Critic エージェントを展開します。私たちのアプローチでは、Gemini API を使用して、ステップごとの推論を実行するのではなく、3 つのリファインメント ラウンドにわたって報酬関数のロジックと重みを生成します。 15 回の実験結果から、高齢の女性の居住者は最初のラウンドで一貫して満足度が最も低いことが明らかになりました。ラウンド 3 までに、株式を意識した LLM の改良により、若い男性 (+17.6%)、中年の女性 (+28.2%)、健康に敏感な (+53.8%)、および高齢の女性 (+567%) の満足度を向上させる特定の報酬コンポーネントが有効になり、同時にエネルギーコストが 3.2% 削減されます。私たちの調査結果は、報酬レベルの介入によって公平性が大幅に改善される一方で、AI 駆動型コントローラーにおける人口統計上の格差は依然として存在しており、システム構築におけるアルゴリズムの公平性についてさらなる研究が必要であることを浮き彫りにしています。

原文 (English)

OccuReward: LLM-Guided Occupant-Centric Reward Shaping for Demographic Equity in Grid-Interactive Buildings

Large language models (LLMs) have demonstrated promising capability in generating reward functions for deep reinforcement learning (DRL)-based building energy management. However, their potential to exhibit or exacerbate disparities in occupant comfort across heterogeneous demographic populations remains unexplored. We present OccuReward, a framework investigating how LLM-mediated reward design affects demographic equity. Our contribution is three-fold: the introduction of the Comfort Equity Index (CEI) as a novel feedback signal; a methodology for iterative, equity-aware LLM reward shaping; and a performance analysis of DRL agents under these refined objectives. Utilizing four empirically grounded occupant profiles from the ASHRAE Global Thermal Comfort Database II (13,440 votes), we deploy a Soft Actor-Critic agent in CityLearn v2. Our approach employs the Gemini API to generate reward function logic and weights--rather than performing per-step inference--across three refinement rounds. Results across 15 experimental runs reveal that elderly female occupants consistently experience the lowest satisfaction in initial rounds. By Round 3, equity-aware LLM refinement activates specific reward components that improve satisfaction for Young Males (+17.6%), Mid-aged Females (+28.2%), Health Sensitive (+53.8%), and Elderly Females (+567%), while simultaneously reducing energy costs by 3.2%. Our findings highlight that while reward-level intervention significantly improves equity, demographic disparities in AI-driven controllers persist, necessitating further research into algorithmic fairness in building systems.

2026-05-28 13:00 JSTarXiv cs.AIエージェント研究/論文

A Matter of TASTE: Improving Coverage and Difficulty of Agent Benchmarks

As agent capabilities advance, existing benchmarks, such as $\tau^2$-Bench, are becoming increasingly saturated. Yet constructing new bench…

2026-05-28 13:00 JSTarXiv cs.AI研究/論文

Bridging the Stability-Expressivity Gap: Synthetic Data Scaling and Preference Alignment for Low-Resource Spoken Language Models

Spoken Language Models (SLMs) have emerged as a promising paradigm for speech synthesis by bypassing explicit grapheme-to-phoneme pipelines…

2026-05-28 13:00 JSTarXiv cs.AILLM/生成AIGPT / ChatGPT

Using Zero-Shot LLM-Generated Survey Data for Geographically Explicit Population Synthesis

There is a growing interest in utilizing synthetic populations for a diverse range of applications. At the same time, we are witnessing a t…

2026-05-28 13:00 JSTarXiv cs.AI研究/論文

On the Subgaussianity of Quantized Linear Maps: An AI-Assisted Note

This short note presents a dimension-independent subgaussian concentration bound for Gaussian vectors under coordinate-wise nonlinear mappi…

2026-05-28 13:00 JSTarXiv cs.AILLM/生成AIGPT / ChatGPTGemmaQwen

Hallucination Behavior in Multimodal LLMs Across Agricultural Image Interpretation and Generation Tasks

Large Language Models (LLMs) are being rapidly adopted in agricultural imaging applications, ranging from crop interpretation to synthetic…

2026-05-28 13:00 JSTarXiv cs.AILLM/生成AIClaudeGPT / ChatGPT

CiteCheck: Retrieval-Grounded Detection of LLM Citation Hallucinations in Scientific Text

Large language models (LLMs) are increasingly used to generate scientific reports, but they can produce references that appear plausible wh…

2026-05-27 13:00 JSTarXiv cs.AILLM/生成AIエージェント

能力ではありません: ハーネスの感度は LLM エージェント層全体で単調ではありません

LLM エージェントの展開における一般的な仮定では、より構造化されたハーネスは普遍的に信頼性を向上させ、より高機能なモデルに必要な構造的ガイダンスは比例して少なくなるという考えが一般的であり、これは、モデルの機能層と最適なハーネスの複雑さの間に単調な逆相関があることを暗示しています。この仮説は、Git ベースのワークスペース検証を備えた 24 タスクの合成ベンチマークである HEAT-24 上で、3 つのハーネス条件 (軽量、バランス、厳密) を備えた 4 つの機能層にわたる 6 つのモデルを横断する制御された 432 回の実行実験を通じてテストされます。私たちの結果は、単調な逆関係を 2 つの面で否定します。まず、評価されたフロンティア チャット モデル (Gemini 2.5 Flash) では、ハーネスの冗長性が増加すると、VTSR が 29 ~ 38 パーセント ポイント低下します。これは、ハーネスの複雑さのパラドックスです。第 2 に、評価されたフロンティア推論モデル (Qwen3.5-122B、拡張思考が有効) では、厳密なハーネスは予測とは逆に最高の VTSR (91.7%) と最低の遅延を達成しました。制約層内では、2B モデル (Gemma4:e2B) は、すべてのハーネスにわたって 91.7% で強力なオープン層の安定性と一致します。この調査では各層が単一のモデルで表されているため、これらの結果はモデル固有の観察結果として解釈される必要があります。ハーネスの感度は、評価したモデル全体で単調ではなく、モデルのタイプ (チャットか推論か) に大きく依存します。私たちは、format_violation が能力のあるモデルの障害を支配し、間違ったファイルが低機能の障害を支配していることを示す 6 ラベルの障害分類法を導入し、実用的な階層を意識したハーネス選択ガイドラインを導き出します。

原文 (English)

It's Not the Capability: Harness Sensitivity Is Non-Monotone Across LLM Agent Tiers

A prevalent assumption in LLM agent deployment holds that more structured harnesses universally improve reliability, and that higher-capability models need proportionally less structural guidance -- together implying a monotone inverse relationship between model capability tier and optimal harness complexity. We test this hypothesis through a controlled 432-run experiment crossing six models across four capability tiers with three harness conditions (light, balanced, strict) on HEAT-24, a 24-task synthetic benchmark with git-based workspace verification. Our results refute the monotone inverse relationship on two fronts. First, for the frontier chat model evaluated (Gemini 2.5 Flash), increased harness verbosity lowers VTSR by 29-38 percentage points -- a harness-complexity paradox. Second, for the frontier reasoning model evaluated (Qwen3.5-122B, extended thinking enabled), strict harness achieves the highest VTSR (91.7%) and the lowest latency, the opposite of the prediction. Within the constrained tier, a 2B model (Gemma4:e2B) matches strong-open-tier stability at 91.7% across all harnesses. Because each tier is represented by a single model in this study, these results should be interpreted as model-specific observations; harness sensitivity appears non-monotone across the models evaluated, and depends critically on model type (chat vs. reasoning). We introduce a six-label failure taxonomy showing that format_violation dominates capable-model failures while wrong_file dominates low-capability failures, and we derive practical tier-aware harness selection guidelines.

2026-05-27 13:00 JSTarXiv cs.AI研究/論文LlamaMistral AI

圧縮知識グラフ仮説: 科学的仮説の生成に重要なグラフの事実はどれですか?

ナレッジ グラフ (KG) は、言語モデルに構造化された科学的コンテキストを提供できますが、生成された仮説を実際に形成するグラフの事実は依然として不明です。私たちは、Mistral-7B、Llama-3.1-70B、および Gemini 2.5 Flash にわたるバッテリー材料に関する KG ガイドに基づく仮説生成を研究します。密度、オントロジーの豊富さ、トポロジー、制御構造を変化させることでローカル KG に摂動を与え、提供されたグラフと固定参照メトリックの両方で出力を評価します。モデル全体に​​わたって、KG ユーティリティは選択的でモデルに依存します。グラフのコンテキストによって出力が変更されますが、KG 出力がない場合でも、モデルの以前からかなりのグラフ コンテンツが復元されます。コンパクトな上位 k サブグラフは、主張された結果トリプルが保持される場合を含め、フル KG の動作に近似することがよくあります。同時に、圧縮は 1 つのセマンティック ランキング ルールに固有のものではなく、ランダムなトポロジ ベースのサブセットでも信号の大部分を回復できます。これらの結果は、冗長性を意識した圧縮 KG 仮説を裏付けています。有用な KG 信号は、完全なローカル グラフを必要とするのではなく、コンパクトで科学的に構造化されたサブグラフから回復できることがよくあります。

原文 (English)

The Compressive Knowledge Graph Hypothesis: Which Graph Facts Matter for Scientific Hypothesis Generation?

Knowledge graphs (KGs) can provide structured scientific context to language models, but it remains unclear which graph facts actually shape the generated hypotheses. We study KG-guided hypothesis generation for battery materials across Mistral-7B, Llama-3.1-70B, and Gemini 2.5 Flash. We perturb local KGs by varying density, ontology richness, topology, and control structure, and evaluate outputs with both provided-graph and fixed-reference metrics. Across models, KG utility is selective and model-dependent: graph context changes outputs, but no-KG outputs also recover substantial graph content from model priors. Compact top-k subgraphs often approximate full-KG behavior, including when claimed-outcome triples are held out. At the same time, compression is not unique to one semantic ranking rule, random and topology-based subsets can also recover much of the signal. These results support a redundancy-aware Compressive KG hypothesis: useful KG signal is often recoverable from compact, scientifically structured subgraphs rather than requiring the full local graph.

2026-05-27 13:00 JSTarXiv cs.AIエージェントハードウェア/半導体

Verus-SpecGym: An Agentic Environment for Evaluating Specification Autoformalization

AI coding agents are increasingly used to write real-world software, but ensuring that their outputs are correct remains a fundamental chal…

2026-05-27 13:00 JSTarXiv cs.AI研究/論文

InterSketch: An Interleaved Reasoning Model with Self-correcting Visual Sketch and Stepwise Reward

While vision-language models (VLMs) have exhibited multi-turn visual reasoning capabilities, their reasoning trajectories remain relatively…

2026-05-27 13:00 JSTarXiv cs.AIエージェント

Multi-Agent Causal Discovery Using Large Language Models

Causal discovery aims to identify causal relationships between variables and is a fundamental problem across the sciences. Traditional stat…

2026-05-27 13:00 JSTarXiv cs.AILLM/生成AIClaude

Seeing vs. Believing: Evaluating the Language Bias of Open-Source MLLMs in Counter-Intuitive Scenes

Multimodal Large Language Models (MLLMs) have demonstrated remarkable performance in mainstream visual understanding tasks, but their abili…

2026-05-27 13:00 JSTarXiv cs.AIエージェントDeepSeek

Strategic Persuasion with Trait-Conditioned Multi-Agent Systems for Iterative Legal Argumentation

Strategic interaction in adversarial domains such as law, diplomacy, and negotiation is mediated by language, yet most game-theoretic model…

2026-05-27 13:00 JSTarXiv cs.AI研究/論文

SenBen: Sensitive Scene Graphs for Explainable Content Moderation

Content moderation systems classify images as safe or unsafe but lack spatial grounding and interpretability: they cannot explain what sens…

2026-05-27 13:00 JSTarXiv cs.AIビジネス/資金調達研究/論文GPT / ChatGPT

When VLMs 'Fix' Students: Identifying and Penalizing Over-Correction in the Evaluation of Multi-line Handwritten Math OCR

Accurate transcription of handwritten mathematics is crucial for educational AI systems, yet current benchmarks fail to evaluate this capab…

2026-05-27 13:00 JSTarXiv cs.AI研究/論文Claude

Does RAG Know When Retrieval Is Wrong? Diagnosing Context Compliance under Knowledge Conflict

The Context-Compliance Regime in Retrieval-Augmented Generation (RAG) occurs when retrieved context dominates the final answer even when it…

2026-05-26 13:00 JSTITmedia AI+LLM/生成AIGoogle

Gemini APIが“半額”で使える「Flex」 注意点は? 「Priority」とは何が違う?

Googleは「Gemini」のAPI向けに、新たなサービスティア「Flex」と「Priority」を追加した。Flexは標準サービスティアの半額で利用できるという。両者はどう違い、どう使い分けるべきなのか。

2026-05-26 13:00 JSTarXiv cs.AILLM/生成AIエージェント研究/論文OpenAIGPT / ChatGPT

MDIA: HealthBench Professional のマルチエージェント診断インテリジェンス パイプライン

Agentic-LLM 臨床ベンチマークで報告されたほとんどの利益は、迅速なエンジニアリングによるものであることが多いですが、私たちの結果は、アーキテクチャおよびエンジン レベルの設計からより大きな改善がもたらされる可能性があることを示唆しています。微調整されていない LLM 上の完全な HealthBench Professional ベンチマーク (n = 525) で、7 ノードの専門ルートの臨床推論グラフとして実装されたマルチエージェント診断インテリジェンス エージェントである MDIA を紹介します。 MDIA は、OpenAI の GPT-5.4-2026-03-05 の下で 0.6272 を達成し、これは OpenAI の臨床医向け ChatGPT のパフォーマンスを +3.72 pp 上回っています。実験作業では、パフォーマンスの向上がシステム アーキテクチャ (特殊ルーティング、マルチターン コンテキストの保存、薬剤状態の安全性ゲート、サイト フィルター検索、長さを意識した合成、エンジン レベルの信頼性) に起因することを示しています。これらの調査結果は、エージェントの臨床ベンチマークのパフォーマンスが、基礎となる基盤モデルとオーケストレーション アーキテクチャの両方によって形成されるという見解を裏付けています。それにもかかわらず、他のモデルをグレーダーとして使用した場合、顕著な違いにも気づきました。特に、Gemini 2.5 Pro を使用した場合、MDIA のスコアは 0.6585 でした。これは、グレーダーの選択が変動の原因であることを示唆しています。したがって、LLM を確実に評価するには、複数の独立したグレーダー モデルにわたる評価が必要になります。

原文 (English)

MDIA: A Multi-Agent Diagnostic Intelligence Pipeline on HealthBench Professional

Most reported gains on agentic-LLM clinical benchmarks are often attributed to prompt engineering, yet our results suggest that larger improvements can come from architectural and engine-level design. We present MDIA, a Multi-agent Diagnostic Intelligence Agent implemented as a 7-node specialty-routed clinical reasoning graph, on the full HealthBench Professional benchmark (n = 525), on a non-fine-tuned LLM. MDIA achieves 0.6272 under OpenAI's GPT-5.4-2026-03-05, which is +3.72 pp above the performance of OpenAI's ChatGPT for Clinicians. The experimental work shows that performance lift is attributable to system architecture: specialty routing, multi-turn context preservation, drug-state safety gating, site-filtered search, length-aware synthesis, and engine-level reliability. These findings support the view that agentic clinical benchmark performance is shaped both by the underlying foundation model and the orchestration architecture. Nevertheless, we also noticed notable differences when using other models as a grader; in particular, when using Gemini 2.5 Pro, MDIA scored 0.6585, which suggests that the choice of grader is a source of variability. Robust evaluation of LLMs would therefore require assessment across several independent grader models.

2026-05-26 13:00 JSTarXiv cs.AILLM/生成AIClaudeGPT / ChatGPT

信頼するが検証する: 選択的 LLM 予測のための証明者と検証者の協議

言語モデルが正しいかどうかを確実に知ることは、正しいことと同じくらい重要です。我々は、選択的予測のメカニズムとして、対話型証明理論に基づいた推論時間プロトコルである証明者検証者熟議 (PVD) を導入します。このプロトコルは、回答と構造化された信頼度判定の両方を生成し、システムが不確実なケースを回避しながら信頼度の高い回答を報告できるようにします。各対話では、証明者はチェック可能なサブクレームを通じて回答候補を擁護し、検証者は対象を絞ったチャレンジを発行して \textsc{Accept}、\textsc{Challenge}、または \textsc{Reject} を返します。凍結された言語モデルはノイズの多いチャネル上で動作する不完全な証明者および検証者であるため、形式的な健全性と完全性の保証は転送されません。代わりに、カバレッジ精度の動作を通じてプロトコルを経験的に特徴付けます。私たちの主な実験では、GPQA Diamond の証明者として Claude Sonnet 4.6 を、検証者として Claude Haiku 4.5 を使用します。回答修正なしで受け入れられた質問 (これを Accept + No Change (ANC) と呼びます) は、信頼性の高いサブセットとして報告されます。このサブセットを精度とカバレッジによって評価します。 ANC は信頼できる回答と信頼できない回答を区別し、非 ANC 補完と比べて $\sim$30pp の HC-Prec ギャップを生み出します。 GPT と Gemini のペアリングを用いた堅牢性実験では、高い HC-Prec がモデルファミリー間で移行できる一方で、検証者の厳密性とドメインの能力が選択ギャップのサイズを大きく決定することが示されています。 Humanity's Last Exam では、証明者と検証者の組み合わせが弱いと、ANC 信号が崩壊または反転する可能性があり、検証者が有効領域外で動作する場合の実際的な障害モードを示しています。自己無矛盾性、普遍的自己無矛盾性、マルチエージェント討論、リフレクションとの比較は、証明者と検証者の熟慮が、選択的予測のための明確な議論防御可能性シグナルを提供することを示唆しています。

原文 (English)

Trust but Verify: Prover-Verifier Deliberation for Selective LLM Prediction

Reliably knowing when a language model is correct is almost as important as being correct. We introduce prover-verifier deliberation (PVD), an inference-time protocol grounded in interactive proof theory, as a mechanism for selective prediction: the protocol produces both an answer and a structured confidence verdict, allowing a system to report high-confidence answers while abstaining on uncertain cases. In each dialogue, a prover defends a candidate answer through checkable sub-claims while a verifier issues targeted challenges and returns \textsc{Accept}, \textsc{Challenge}, or \textsc{Reject}. Because frozen language models are imperfect provers and verifiers operating over a noisy channel, formal soundness and completeness guarantees do not transfer; instead, we characterize the protocol empirically through its coverage-precision behavior. Our main experiment uses Claude Sonnet 4.6 as prover and Claude Haiku 4.5 as verifier on GPQA Diamond. Questions accepted with no answer revision, which we call Accept + No Change (ANC), are reported as the high-confidence subset; we evaluate this subset by its precision and coverage. ANC separates reliable from unreliable answers, yielding a $\sim$30pp HC-Prec gap over the non-ANC complement. Robustness experiments with GPT and Gemini pairings show that high HC-Prec can transfer across model families, while verifier strictness and domain competence largely determine the size of the selection gap. On Humanity's Last Exam, weaker prover-verifier pairings can collapse or invert the ANC signal, illustrating a practical failure mode when the verifier operates outside its effective region. Comparisons with self-consistency, universal self-consistency, multi-agent debate, and Reflexion suggest that prover-verifier deliberation supplies a distinct argument-defensibility signal for selective prediction.

2026-05-26 13:00 JSTarXiv cs.AILLM/生成AI

StructBreak: MLLM における構造的認知過負荷誘発の安全性障害

マルチモーダル大規模言語モデル (MLLM) は、構造的推論に優れていますが、構造的一貫性における論理的脆弱性が顕著です。私たちはこの現象を構造的認知過負荷 (SCO) と呼びます。これは、深い推論と安全性の調整の間の競合の副産物です。しかし、これまでの研究は主にタイポグラフィーおよびピクセルレベルの摂動を対象としており、SCO の研究はほとんど調査されていません。この目的を達成するために、SCO を定量化するために設計された自動化されたエンドツーエンド フレームワークである StructBreak を提案します。 StructBreak を活用することで、新しい高次認知過負荷攻撃パラダイムを明らかにします。特に、この攻撃は実質的なブラックボックス設定の下で動作し、内部モデルへのアクセスを必要としません。その結果、私たちはこのフレームワークを利用して、10 の多様な脅威シナリオにわたる包括的なベンチマークを確立しました。 6 つの主要な MLLM に関する経験的評価により、SCO が容易に有毒物質の生成を引き起こし、平均 92% の ASR (Gemini 2.5 では最大 97%) が得られることが明らかになりました。 SCO のメカニズムを解明するために、注意力学、潜在空間トポロジー、幾何学的解析にわたるモデルレベルの解釈をさらに実行します。私たちの調査結果は、StructBreak が安全フィルターを回避する新しい構造チャネルとして機能することを明らかにしました。さらに、固有の安全メカニズムの有効性が限られているということは、現在の調整パラダイムが複雑なマルチモーダル推論の時代には不十分であることを強調しています。

原文 (English)

StructBreak: Structural Cognitive Overload-Induced Safety Failures in MLLMs

Multimodal Large Language Models (MLLMs) excel at structural reasoning yet suffer from a sharp logical brittleness in structural consistency. We term this phenomenon Structural Cognitive Overload (SCO), a byproduct of the contention between deep reasoning and safety alignment. However, prior work has predominantly targeted typographic and pixel-level perturbations, leaving the study of SCO largely unexplored. To this end, we propose StructBreak, an automated end-to-end framework designed to quantify SCO. By leveraging StructBreak, we uncover a novel higher-order cognitive overload attack paradigm; notably, this attack operates under a practical black-box setting, requiring no internal model access. Consequently, we utilize this framework to establish a comprehensive benchmark spanning ten diverse threat scenarios. Empirical evaluations on six leading MLLMs reveal that SCO readily triggers toxic generation, yielding a 92% average ASR (up to 97% on Gemini 2.5). To elucidate the mechanism of SCO, we further conduct model-level interpretations spanning attention dynamics, latent space topology, and geometric analysis. Our findings reveal that StructBreak acts as a novel structural channel to circumvent safety filters. Furthermore, the limited efficacy of inherent safety mechanisms underscores that current alignment paradigms are insufficient for the era of complex multimodal reasoning.

2026-05-26 13:00 JSTarXiv cs.AILLM/生成AIClaudeGPT / ChatGPT

Enhancing Reliability in LLM-Based Secure Code Generation

Large language models (LLMs) are widely used for code generation, but their security reliability remains inconsistent across languages and…

2026-05-26 13:00 JSTarXiv cs.AILLM/生成AILlama

World-State Transformations for Neuro-symbolic Interactive Storytelling

Large Language Models (LLMs) have changed the possibilities of Interactive Storytelling systems that process free-text user input. However,…

2026-05-26 13:00 JSTarXiv cs.AILLM/生成AIGPT / ChatGPTDeepSeek

READER: Reasoning-Enhanced AI-Generated Text Detection

Recent advances in large language models (LLMs) have made it increasingly difficult to distinguish human-written text from AI-generated con…

2026-05-26 13:00 JSTarXiv cs.AILLM/生成AIClaudeGPT / ChatGPT

BC Protocol: Structured Dual-Expert Dialogue for Eliciting High-Quality Chain-of-Thought Post-Training Data

High-quality expert chain-of-thought (CoT) data is one of the core bottlenecks in large language model (LLM) post-training. Existing data p…

2026-05-26 13:00 JSTarXiv cs.AI研究/論文ClaudeGPT / ChatGPTGrok

Chain-of-Thought Hijacking

Large Reasoning Models (LRMs) improve task performance through extended inference-time reasoning. Although previous studies suggest that lo…

2026-05-26 13:00 JSTarXiv cs.AILLM/生成AIエージェントビジネス/資金調達ClaudeGPT / ChatGPT

UniToolCall: Unifying Tool-Use Representation, Data, and Evaluation for LLM Agents

Tool-use capability is a fundamental component of LLM agents, enabling them to interact with external systems through structured function c…

2026-05-26 13:00 JSTarXiv cs.AILLM/生成AIAnthropicOpenAI

ToolRegistry: A Protocol-Agnostic Tool Management Library for Function-Calling LLMs

Every LLM tool call is structurally an RPC -- a function name, JSON arguments, and a serialized result -- yet each protocol (native Python,…

2026-05-26 13:00 JSTarXiv cs.AILLM/生成AI

Asking LLMs to Verify First is Almost Free Lunch

To enhance the reasoning capabilities of Large Language Models (LLMs) without high costs of training, nor extensive test-time sampling, we…

2026-05-26 13:00 JSTarXiv cs.AILLM/生成AIClaudeGPT / ChatGPT

UtilityMax Prompting: A Formal Framework for Multi-Objective Large Language Model Tasks

The success of a Large Language Model (LLM) task depends heavily on its prompt. Most use-cases specify prompts using natural language, whic…

2026-05-26 13:00 JSTarXiv cs.AILLM/生成AIGPT / ChatGPT

Procedural Refinement by LLM-driven Algorithmic Debugging for ARC-AGI-2

In high-complexity abstract reasoning, a system must infer a latent rule from a few examples or structured observations and apply it to uns…

2026-05-26 13:00 JSTarXiv cs.AI研究/論文

EditCaption: Human-Refined SFT and HAE-DPO for Image Editing Instruction Synthesis

High-quality source-target image pairs with precise editing instructions are essential for instruction-guided image editing, yet constructi…

2026-05-26 13:00 JSTarXiv cs.AILLM/生成AIエージェント研究/論文ClaudeGPT / ChatGPT

LivePI: More Realistic Benchmarking of Agents Against Indirect Prompt Injection

AI agents such as OpenClaw are increasingly deployed in local workflows with access to external tools. This creates indirect prompt-injecti…

2026-05-26 13:00 JSTarXiv cs.AI研究/論文

ClaimDiff-RL: Fine-Grained Caption Reinforcement Learning through Visual Claim Comparison

Long-form image captioning exposes a reward granularity problem in RL: captions are judged as whole sequences, while the important errors o…

2026-05-25 13:00 JSTarXiv cs.AILLM/生成AIエージェントClaudeGPT / ChatGPT

GENSTRAT: 大規模言語モデルにおける戦略的推論の科学に向けて

大規模言語モデル (LLM) は、市場、オークション、入札設定における経済エージェントとしてますます導入されています。特定の展開における彼らの行動を予測するのは困難です。既存の戦略的推論ベンチマークは、固定された正規ゲームのモデルを評価します。これらのベンチマークは、フロンティアが向上するにつれて飽和する可能性があり、評価者がベンチマークのパフォーマンスから実際の展開に含まれる多様で複雑な戦略的環境までを自信を持って一般化することはできません。これらの課題に対処するために、手続き的に生成された戦略的環境を使用する GENSTRAT を紹介します。具体的には、2 人用のゼロサム不完全情報カード ゲームの分布を生成します。ジェネレーターはオンデマンドで新鮮なゲームを描画できるため、常に最新の評価と汚染への耐性が可能になります。私たちはゲームの分布を、モデルの能力を 6 つの軸 (状態空間、時間的深さ、情報感度、対戦相手のモデリング、リスク、脆弱性) にわたって分解する能力プロファイル手法と組み合わせます。また、戦略的に類似したゲーム間でモデルのアドバンテージが予期せずジャンプするときを検出する、分布内の滑らかさのギザギザの尺度も導入します。 2,000 試合で生成されたプールから 50 のベンチマーク試合をサンプリングし、36,000 試合を超える直接対決トーナメントで 9 つのフロンティアおよび無差別級 LLM を評価します。新しいフロンティア層モデルの方が平均スコアが高くなります。その平均を超えると、ほぼ同一の全体的な強度を持つモデルは質的に異なる能力プロファイルを示し、リーダーボードの上位 3 つのモデルのうち 2 つ (gpt-5 と claude) は、全体的な強度が近いにもかかわらず、3 番目 (gemini-3.1-pro) よりも局所的な変動が顕著に高くなります。機能プロファイルとギザギザの尺度を組み合わせることで、全体的なランキングだけでは提供できない展開関連の診断が得られます。

原文 (English)

GENSTRAT: Toward a Science of Strategic Reasoning in Large Language Models

Large language models (LLMs) are increasingly deployed as economic agents in marketplaces, auctions, and bidding settings. Anticipating their behavior in any specific deployment is hard. Existing strategic-reasoning benchmarks evaluate models on fixed canonical games. These benchmarks may saturate as the frontier improves, and they do not allow evaluators to generalize with confidence from benchmark performance to the varied and messy strategic environments that actual deployments involve. We introduce GENSTRAT, which uses procedurally generated strategic environments to address these challenges. Concretely, we generate a distribution of two-player zero-sum imperfect-information card games. The generator can draw fresh games on demand, allowing for evergreen evaluation and resistance to contamination. We pair the game distribution with a capability-profile methodology that decomposes model competence across six axes (state space, temporal depth, information sensitivity, opponent modeling, risk, and brittleness). We also introduce a jaggedness measure of within-distribution smoothness that detects when a model's advantage jumps unpredictably between strategically similar games. We sample 50 benchmark games from a 2,000-game generated pool and evaluate nine frontier and open-weight LLMs in a head-to-head tournament with over 36,000 matches. Newer frontier-tier models score higher on average. Beyond that average, models with near-identical overall strength show qualitatively different capability profiles, and two of the top three leaderboard models (gpt-5 and claude) are noticeably more locally volatile than the third (gemini-3.1-pro), despite being close in overall strength. Together, the capability profile and the jaggedness measure give a deployment-relevant diagnostic that the overall ranking alone cannot provide.

2026-05-25 13:00 JSTarXiv cs.AILLM/生成AI研究/論文ClaudeGPT / ChatGPT

Frontier LLM はサイバーセキュリティに対応する準備ができていますか?デュアルモード脆弱性ベンチマークによる垂直基盤モデルの証拠

当社は、フロンティア LLM がデュアルモード ベンチマークを通じてサイバーセキュリティに対応できるかどうかを評価します。ホワイトボックス機能レベルの脆弱性検出 (VulnLLM-R、C/Java/Python 全体) とブラックボックス Web アプリケーション セキュリティ テスト (20 以上の CWE ファミリにわたる 118 個のグラウンド トゥルース脆弱性を備えた 5 つの運用スタイルのアプリケーション。これらをオープンソース化します)。私たちは 6 つのフロンティア モデル (GPT-5.4、Codex~5.3、Claude Opus~4.6、Sonnet~4.6、Gemini~3.1~Pro、および Gemini~3~Flash) と 2 つのドメイン特化モデルを 4 つのテスト パラダイムにわたってテストします。私たちの発見は厳粛なものです。(1) ~すべてのフロンティア モデルは、ホワイトボックス検出で 10 ~ 50% の誤検知率を生成し、体系的に脆弱性を過剰予測します。 (2)〜ブラックボックス テストでは、フロンティア モデルはグラウンド トゥルース カバレッジをわずか 4 ~ 8% しか達成せず、外部セキュリティ ツール (Playwright MCP、Burp Suite MCP) を使用した場合でもわずか 10 ~ 19% に改善します。 (3) ドメイン特化型エージェントにエンコードされた構造化侵入テスト手法により、ファミリーごとの検出が 50% を超え、規模ではなく手法が主要な手段であることが実証されました。 (4) ドメインに特化した防御モデルは、単一 GPU 上ですべてのモデルの中で最高の精度 (0.904) と最低の誤検知率 (9.7%) を達成します。私たちは、構造化されたセキュリティ テストの欠如、エンドツーエンドの要求/応答シーケンス、障害の多いデータ、および複数ステップの攻撃チェーンのトレースが基本的なトレーニング データのボトルネックであることを特定し、データ生成戦略としてセルフプレイ セキュリティ テストを提案します。私たちの結果は、サイバーセキュリティ専用に構築された垂直基盤モデルの正当性を裏付けています。

原文 (English)

Are Frontier LLMs Ready for Cybersecurity? Evidence for Vertical Foundation Models from Dual-Mode Vulnerability Benchmarks

We evaluate whether frontier LLMs are ready for cybersecurity through a dual-mode benchmark: white-box function-level vulnerability detection (VulnLLM-R, across C/Java/Python) and black-box web application security testing (five production-style applications with 118 ground-truth vulnerabilities across 20+ CWE families, which we will open-source). We test six frontier models (GPT-5.4, Codex~5.3, Claude Opus~4.6, Sonnet~4.6, Gemini~3.1~Pro and Gemini~3~Flash) and two domain-specialized models across four testing paradigms. Our findings are sobering: (1)~every frontier model produces 10-50% false positive rates in white-box detection, systematically over-predicting vulnerabilities; (2)~in black-box testing, frontier models achieve only 4-8% ground-truth coverage, improving to just 10-19% even with external security tools (Playwright MCP, Burp Suite MCP); (3)~structured penetration-testing methodology encoded in domain-specialized agents raises per-family detection above 50%, demonstrating that methodology, not scale, is the primary lever; and (4)~a domain-specialized defense model achieves the highest precision (0.904) and lowest false positive rate (9.7%) among all models, on a single GPU. We identify the absence of structured security testing traces end-to-end request/response sequences, failure-heavy data, and multi-step attack chains as the fundamental training data bottleneck, and propose self-play security testing as a data generation strategy. Our results make the case for vertical foundation models purpose-built for cybersecurity.

2026-05-25 13:00 JSTarXiv cs.AI研究/論文

ETCHR: 推論を明確にして活用するための編集

マルチモーダル大規模言語モデルは高度な視覚的推論を備えていますが、きめ細かいフォーカスやビューの変換を必要とする質問では、純粋にテキストによる思考の連鎖が依然としてボトルネックとなっています。 「画像で考える」パラダイムはこのギャップを狭めますが、既存のアプローチは固定の事前定義ツールキットによって制約されるか、統合されたマルチモーダルな方法からノイズの多い中間画像を生成します。私たちは 3 番目のオプションを追求します。それは、専用の画像編集モデルを使用し、それを理解モデルと切り離すことです。しかし、既製の画像編集者は、2 つの相補的なギャップがある推論アシスタントとしては失敗します。1 つは、受動的な指示に従うように訓練された編集者が抽象的な質問を適切な視覚的変換にマッピングできない言語側のギャップ、もう 1 つは推論の深さが増すにつれて編集の正確さが低下する生成側のギャップです。この分析に基づいて、ETCHR (Editing To Clear and Harness Reasoning) を導入します。これは、下流の理解モデルから切り離され、質問条件付きの推論を意識した画像エディタであり、2 つのギャップを対象とした 2 段階のレシピでトレーニングされます。つまり、編集軌跡の教師付き微調整による推論模倣と、それに続く編集の正確さと下流の推論精度に対する VLM 由来の報酬による推論強化です。エディターが分離されているため、ETCHR はトレーニングなしでさまざまなオープンソースおよびクローズドソースの MLLM に接続できます。 5 つのタスク ファミリ (きめ細かい認識、チャートの理解、論理的推論、ジグソー復元、および 3D の理解) にわたって、ETCHR は Qwen3-VL-8B で平均 Pass@1 を 55.95 から 60.77 (+4.82)、Gemini-3.1-Flash-Lite で 65.08 から 70.55 (+5.47)、そして 76.55 から1T パラメータ MoE モデル Kimi K2.5 では 81.16 (+4.61)。

原文 (English)

ETCHR: Editing To Clarify and Harness Reasoning

Multimodal Large Language Models have advanced visual reasoning, yet a purely textual chain of thought remains a bottleneck for questions that require fine-grained focus or view transformations. The ''think with images'' paradigm narrows this gap, but existing approaches are either constrained by fixed predefined toolkits or produce noisy intermediate images from unified multimodal methods. We pursue a third option: using a dedicated image editing model and decouple it with an understanding model. However, off-the-shelf image editors fail as reasoning assistants with two complementary gaps: a language-side gap, where editors trained as passive instruction-followers cannot map an abstract question to an appropriate visual transformation, and a generation-side gap, where edit correctness degrades as reasoning depth grows. Guided by this analysis, we introduce ETCHR (Editing To Clarify and Harness Reasoning), a question-conditioned, reasoning-aware image editor decoupled from the downstream understanding model and trained with a two-stage recipe targeted at the two gaps: Reasoning Imitation via supervised fine-tuning on edit trajectories, followed by Reasoning Enhancement with VLM-derived rewards for edit correctness and downstream reasoning accuracy. Since the editor is decoupled, ETCHR plugs into different open- and closed-source MLLMs in a training-free manner. Across five task families (fine-grained perception, chart understanding, logic reasoning, jigsaw restoration, and 3D understanding), ETCHR raises average Pass@1 from 55.95 to 60.77 (+4.82) with Qwen3-VL-8B, from 65.08 to 70.55 (+5.47) with Gemini-3.1-Flash-Lite, and from 76.55 to 81.16 (+4.61) with the 1T-parameter MoE model Kimi K2.5.

2026-05-25 13:00 JSTarXiv cs.AILLM/生成AIビジネス/資金調達

パターンと患者: 一人称の物語を通じたパーソナリティ障害診断に関する精神保健専門家に対する LLM の評価

精神医学的自己評価における LLM への依存が高まるにつれ、定性的な患者のナラティブを解釈する LLM の能力に疑問が生じています。この幅広い事例研究では、ポーランド語の一人称自伝的記述に基づいて、境界性 (BPD) および自己愛性 (NPD) パーソナリティ障害の評価において、最先端の LLM とメンタルヘルス専門家を直接比較しています。私たちのサンプル内で、最高のパフォーマンスを誇る Gemini Pro モデルの全体的な診断スコア (65.48%) は、人間の専門家の平均スコア (43.57%) よりも 21.91 パーセント ポイント高かった。モデルも人間の専門家もBPDの特定には優れていましたが(それぞれF1 = 83.4、F1 = 80.0)、モデルはNPDの診断が著しく過小評価され(F1 = 6.7 vs. 50.0)、価値観を伴う用語「ナルシシズム」に対して潜在的な抵抗感を示しました。定性的には、モデルはパターンと形式的なカテゴリーに焦点を当てた自信に満ちた精緻な正当化を提供したが、人間の専門家は簡潔で慎重なままであり、患者の自己感覚と時間的経験を強調した。私たちの調査結果は、LLM は複雑な一人称臨床データを解釈する能力があるかもしれないものの、その出力には依然として重大な信頼性とバイアスの問題があることを示しています。

原文 (English)

Patterns vs. Patients: Evaluating LLMs against Mental Health Professionals on Personality Disorder Diagnosis through First-Person Narratives

Growing reliance on LLMs for psychiatric self-assessment raises questions about their ability to interpret qualitative patient narratives. This depth over breadth case study directly compares state-of-the-art LLMs and mental health professionals in assessing Borderline (BPD) and Narcissistic (NPD) Personality Disorders based on Polish-language first-person autobiographical accounts. Within our sample, the overall diagnostic scores of the top-performing Gemini Pro models (65.48%) were 21.91 percentage points higher than the average scores of the human professionals (43.57%). While both models and human experts excelled at identifying BPD (F1 = 83.4 & F1 = 80.0, respectively), models severely underdiagnosed NPD (F1 = 6.7 vs. 50.0), showing a potential reluctance toward the value-laden term "narcissism." Qualitatively, models provided confident, elaborate justifications focused on patterns and formal categories, while human experts remained concise and cautious, emphasizing the patients' sense of self and temporal experience. Our findings demonstrate that while LLMs might be competent at interpreting complex first-person clinical data, their outputs still carry critical reliability and bias issues.

2026-05-25 13:00 JSTarXiv cs.AI研究/論文GPT / ChatGPT

コード交換音声に関する商用 ASR システムのベンチマーク: アラビア語、ペルシア語、ドイツ語

コードスイッチング (単一の発話内で 2 つの言語を自然に切り替えること) は、依然として自動音声認識 (ASR) にとって最も困難であり、研究が十分に進んでいない条件の 1 つです。ここでは、4 つの言語ペアにわたる 5 つの商用 ASR プロバイダーを評価するベンチマークを紹介します。エジプト アラビア語 - 英語、サウジ アラビア語 (ナジ/ヒジャジ) - 英語、ペルシア語 (ファルシ語) - 英語、ドイツ語 - 英語です。これは、ヒューリスティック フィルタリングと GPT-4o および Gemini 1.5 Pro アンサンブル スコアラーを組み合わせた 2 段階のパイプラインによって選択されたペアあたり 300 個のサンプルで構成され、LLM コストを削減します。 $\約$91\%。 WER と BERTScore の両方で評価し、両方の指標がすべてのアラビア語とペルシア語のペアのシステムの序数順位 ($\tau = 1.0$) で一致している一方で、WER は意味的に正しい音訳の選択にペナルティを課すことにより、品質ギャップの大きさを約 3$\times$ 膨張させることを示しています。 Celebrities Scribe v2 は最低の WER (全体で 13.2\%) を達成し、BERTScore でトップ (全体で 0.936) を達成しました。難易度階層化分析により、集計平均によって隠蔽されたパフォーマンスのギャップが明らかになり、BERT 埋め込み投影により、表面レベルのスクリプトの違いにもかかわらず、参照と仮説の間の意味論的な近接性が確認されます。データセットは https://huggingface.co/datasets/Perle-ai/ASR_Code_Switch で公開されています。

原文 (English)

Benchmarking Commercial ASR Systems on Code-Switching Speech: Arabic, Persian, and German

Code-switching -- the natural alternation between two languages within a single utterance -- remains one of the most challenging and under-studied conditions for automatic speech recognition (ASR). We present a benchmark evaluating five commercial ASR providers across four language pairs: Egyptian Arabic--English, Saudi Arabic (Najdi/Hijazi)--English, Persian (Farsi)--English, and German--English, comprising 300 samples per pair selected by a two-stage pipeline combining heuristic filtering with a GPT-4o and Gemini 1.5 Pro ensemble scorer, reducing LLM costs by $\approx$91\%. We evaluate on both WER and BERTScore, showing that while both metrics agree on the ordinal ranking of systems for all Arabic and Persian pairs ($\tau = 1.0$), WER inflates the magnitude of quality gaps by approximately 3$\times$ by penalising semantically correct transliteration choices. ElevenLabs Scribe v2 achieves the lowest WER (13.2\% overall) and leads on BERTScore (0.936 overall). Difficulty-stratified analysis reveals performance gaps masked by aggregate averages, and BERT embedding projections confirm semantic proximity between reference and hypothesis despite surface-level script differences. The dataset is publicly available at https://huggingface.co/datasets/Perle-ai/ASR_Code_Switch.

2026-05-24 08:00 JSTITmedia AI+LLM/生成AIエージェントClaude

「Gemini」「Claude Code」「Codex」 全社展開・本番実装に役立つ5つのポイント

開発現場における生成AIの利用は常態化しつつあるものの、「コード補完の域を出ない」「特定の個人のスキルに依存している」といった課題があります。本稿では、個人の生産性向上からチームへの定着、全社規模での展開、そしてAIエージェントの本番実装に至るまで、開発プロセス変革に役立つ5つ…