OpenAI
2026年5月
OpenAIが生命科学推論AI「GPT-Rosalind」をバイオディフェンスに開放 デュアルユースリスクに懸念も
OpenAIは、生命科学研究に特化したフロンティア推論モデル「GPT-Rosalind」を活用した「Rosalind Biodefense」プログラムを発表した。生物脅威の検知など防衛目的に限定し、審査済みの開発者や米政府機関および同盟国のパートナー組織にAPIを無償提供する。
Boston Children’s uses AI to unlock new diagnoses
Boston Children’s Hospital uses OpenAI technology to improve patient care, reduce operational burden, and help diagnose more than 40 rare d…
日本政府と主要金融機関、OpenAI新モデルのアクセス権を取得 サイバー対策強化へ
片山さつき金融担当相が、米OpenAIが開発した新型AIのアクセス権を政府と主要金融機関が取得したと明らかにした。高性能AIがサイバー攻撃に悪用される懸念が高まる中、AIを防御に活用した対策が急務となっている。片山氏は「わが国金融機関のサイバーセキュリティー強化の観点から歓迎す…
OpenAI、日本政府とサイバーセキュリティで協力 最新AI「GPT-5.5-Cyber」を金融機関に提供
米OpenAIは、日本政府とサイバーセキュリティで協力する取り組み「日本サイバー・アクションプラン」を発表した。まずは、金融機関にサイバーセキュリティに特化した最新AIモデル「GPT-5.5-Cyber」を提供する。
Frontier LLM ベースのエージェントは、自然な表現型のオントロジーキュレーションのボトルネックを克服できます
フリーテキストの表現型記述をオントロジー用語にリンクすることは、通常表現型アノテーションと呼ばれ、比較形態学的データを研究間で統合するために不可欠です。この労働集約的なプロセスは高度な訓練を受けた人間の専門家に大きく依存しており、そのため拡張が困難であり、それが大きなボトルネックとなっています。ダードゥルら。 (2018) 7 つの系統学的研究にわたるエンティティ品質 (EQ) アノテーションのゴールド スタンダード (GS) を確立し、それを使用して 3 人のキュレーターと、オントロジーベースの意味的類似性メトリクスを備えた Semantic CharaParser NLP ツールを評価しました。彼らは、機械と人間の一貫性は、キュレーター間(人間と人間)の一貫性よりも大幅に低いと報告しました。ここでは、Anthropic と OpenAI の 5 つのフロンティア ホスト LLM を使用してそのベンチマークを再検討します。各 LLM は、ソース出版物の PDF、元の人間のキュレーターが使用したのと同じ注釈ガイド、4 つのプロジェクト オントロジー (UBERON、PATO、BSPO、GO)、および検証スクリプトを提供する自己完結型ワークスペース内で「エージェント キュレーター」として動作します。同じゴールドスタンダードに照らして評価すると、すべてのエージェントは、元の研究で訓練を受けた 3 人の人間のバイオキュレーターのキュレーター間変動の範囲内に収まりました。最もパフォーマンスの高いエージェントがアプローチしましたが、最もパフォーマンスの高い人間のキュレーターには到達できませんでした。エージェントは、4 つの指標すべてで Semantic CharaParser を大幅に上回りました。
原文 (English)
Frontier LLM-based agents can overcome the ontology curation bottleneck for natural phenotypes
Linking free-text phenotype descriptions to ontology terms, typically referred to as phenotype annotation, is essential for the cross-study integration of comparative morphological data. This labor intensive process has heavily relied on highly trained human experts, which makes it challenging to scale and thus a key bottleneck. Dahdul et al. (2018) established a Gold Standard (GS) of Entity-Quality (EQ) annotations across seven phylogenetic studies and used it to evaluate three human curators and the Semantic CharaParser NLP tool with ontology-based semantic similarity metrics; they reported that machine-human consistency was significantly lower than inter-curator (human-human) consistency. Here we revisit that benchmark with five frontier hosted LLMs from Anthropic and OpenAI, each operating as an "agentic curator" within a self-contained workspace that supplies the source publication PDF, the same annotation guide used by the original human curators, the four project ontologies (UBERON, PATO, BSPO, GO), and a validation script. Evaluated against the same Gold Standard, every agent fell within the range of inter-curator variability of the three trained human biocurators of the original study; the best performing agents approached but did not reach the best performing human curator. Agents substantially outperformed Semantic CharaParser on all four metrics.
検索拡張コマーシャルチャットにおけるブランド推奨のペルソナコンディショニング: 知名度に応じた階層化されたクロスプロバイダー監査
「最高の CRM ソフトウェア」という同じプロンプトが、個人の創業者、企業の副社長、英国の SMB オーナーなど、大きく異なる状況にある購入者の AI アシスタントに届きます。私たちは、その文脈上の変化がモデルが推奨するブランドをどの程度強く再形成するかを監査します。監査サンプルは、10 ペルソナ x 8 プロンプト x 3 モデル構成 x N=10 レップの設計空間で 2,000 回実行され、2 つの OpenAI セルは 8 プロンプトを完全にカバーし、Anthropic Sonnet-4.6 / low セルは 4 プロンプトをカバーしました。ユーザー メッセージの前にペルソナを付けると、推奨セットの類似度 (Jaccard) が同じペルソナ ベースラインと比較して デルタ = -0.12 ~ -0.20 低下します (クラスター化された 95% CI では、3 つの測定セルすべてでゼロが除外されます。ソネット セルの CI は 4 つのプロンプト クラスターのみに基づいており、それに応じて幅が広くなります)。その効果は顕著に階層化されています。カテゴリーリーダーはペルソナ耐性がありますが(ペルソナ間で最大 80% の同じブランドの一貫性)、中堅ブランドはペルソナの変化に応じて推奨セットの最大 75% を交換します。 Anthropic モデルは、OpenAI 構成よりも大きな点推定効果を示していますが、クラスター化された CI が重なっているため、よりコントラストが強くなります (ソネット対 OpenAI/高)。この非対称性は、Anthropic のより検索に帰属しない生成ルートと一致しています (検索層の証拠が観察されていない推奨が 43 ~ 52% であるのに対し、OpenAI の 8 ~ 29%、Jack 2026 に文書化されています)。 AI ブランド認識の測定は、クエリを提供する購入者のペルソナを条件とする必要があります。同じプロンプトでも、モデルが誰に質問していると考えるかに応じて実質的に異なる推奨セットが生成されます。また、ペルソナ全体を集約する測定プロトコルにより、その変動が体系的に隠蔽されます。この効果は中間市場に集中しており、当社の監査では事前分布に最も依存する生成ルートで最大となっており、モデルがトレーニング データの事前分布とより豊富なコンテキスト統合に依存するにつれてペルソナの応答性が高まっていることと一致しています。
原文 (English)
Persona Conditioning of Brand Recommendations in Retrieval-Augmented Commercial Chat: A Prominence-Stratified Cross-Provider Audit
The same prompt -- "best CRM software" -- reaches AI assistants from buyers in widely different contexts: a solo founder, an enterprise VP, a UK SMB owner. We audit how strongly that contextual variation reshapes which brands the model recommends. The audit samples 2,000 runs over a design space of 10 personas x 8 prompts x 3 model configurations x N=10 reps, with the two OpenAI cells at full 8-prompt coverage and the Anthropic sonnet-4.6 / low cell at 4-prompt coverage. Prefixing the user message with a persona drops the recommendation-set similarity (Jaccard) by Delta = -0.12 to -0.20 relative to a same-persona baseline (clustered 95% CIs exclude zero on all three measured cells; the sonnet cell's CI rests on only 4 prompt clusters and is correspondingly wider). The effect is sharply prominence-stratified: category leaders are persona-resistant (~80% same-brand consistency across personas), but mid-market brands swap up to 75% of the recommendation set as the persona changes. The Anthropic model shows a larger point-estimate effect than the OpenAI configurations, though clustered CIs overlap for the closer contrast (sonnet vs. OpenAI/high); the asymmetry is consistent with Anthropic's more retrieval-unattributed generation route (43-52% recommendations without observed retrieval-layer evidence, vs OpenAI's 8-29%, documented in Jack 2026). Any measurement of AI brand perception must condition on the buyer persona supplying the query: the same prompt produces materially different recommendation sets depending on who the model thinks is asking, and a measurement protocol that aggregates across personas systematically obscures that variation. The effect concentrates at mid-market and is largest on the most priors-reliant generation route in our audit, consistent with persona responsiveness growing as models lean more on training-data priors and richer context integration.
LogDx-CI: LLM 根本原因診断のためのベンチマーク ログ削減ツール
CI 障害ログは大きく (中央値 5k 行、このコーパスでは最大 200k)、ノイズが多くなります。ログをデバッグしようとするコーディング エージェントは、ログを管理可能なコンテキストに削減する上流のツールに依存していますが、この分野では、どの削減が下流の LLM 診断に十分な証拠を保持するかについて、公的に実証された比較が行われていません。 LogDx-CI は、11 のコンテキスト削減ツール (raw、tail、grep、3 つの RTK モード、2 つの実際の LLM マップリデュース サマライザー、3 つのハイブリッド ルーター) を 35 の実際の GitHub Actions 障害ケースで比較するベンチマークであり、3 つの LLM デバッガー ファミリ (Claude Haiku 4.5、Claude Sonnet 4.6、OpenAI gpt-5-mini) と Sonnet 4.6 ツールを使用してスコア付けされました。エージェント。耐荷重に関する 3 つの調査結果を報告します。 (1)~ハイブリッド grep+tail ルーターがコスト品質のパレートフロンティアを支配しています。上位 2 つのメソッドのスコアは、ケースごとに $\sim$ \$0.03 で 0.670 / 0.666 で、$4.5\times$ 少ないトークンでスタンドアロン grep とほぼ同じ品質です。 (2)~エージェント ループ方式では、リダクション ツール全体の品質範囲が $7\times$ 崩壊します (シングルショット スプレッド 0.42 $\to$ エージェント ループ スプレッド 0.059)。エージェントは、フォローアップ ツール呼び出しを通じて弱いコンテキストを救出します。ただし、コストの差は依然として残ります。コンテキストが弱い場合、エージェントは回復するために 2 ~ 4$\times$ 回多くのツール呼び出しを発行する必要があります。 (3)~ファミリー間 LLM サマリー ペア (Claude Haiku デバッガーにフィードする gpt-5-mini サマライザー) は、4 つの診断ツール バリアントの平均で、同じファミリー ペアを $+0.071$ 上回っており、このタスクに関するセルフコール バイアス仮説を偽っています。 gpt-5-mini サマライザーは、エージェント ループ \#1 メソッド (スコア 0.749) でもあり、ケースあたりのツール呼び出しは $0.37$ で、リデューサー コストは Haiku サマライザーよりも $10\time$ 低くなります (ケースあたり \$0.18 対 \$1.75)。すべてのデータ、コード、ケースごとのバンドル、再現性インフラストラクチャは公開されています。
原文 (English)
LogDx-CI: Benchmarking Log Reduction Tools for LLM Root-Cause Diagnosis
CI failure logs are large (median 5k lines, max 200k in this corpus) and noisy. Coding agents that try to debug them depend on an upstream tool to reduce the log to a manageable context, but the field has had no public empirical comparison of which reductions preserve enough evidence for downstream LLM diagnosis. We introduce LogDx-CI, a benchmark that compares 11 context-reduction tools (raw, tail, grep, three RTK modes, two real LLM map-reduce summarizers, three hybrid routers) on 35 real GitHub Actions failure cases, scored by 3 LLM debugger families (Claude Haiku 4.5, Claude Sonnet 4.6, OpenAI gpt-5-mini) plus a Sonnet 4.6 tool-using agent. We report three load-bearing findings. (1)~Hybrid grep+tail routers dominate the cost-quality Pareto frontier; the top two methods score 0.670 / 0.666 at $\sim$ \$0.03 per case, same-ballpark quality as standalone grep at $4.5\times$ fewer tokens. (2)~In the agent-loop regime, the quality range across reduction tools collapses $7\times$ (single-shot spread 0.42 $\to$ agent-loop spread 0.059); the agent rescues weak contexts via follow-up tool calls. However, cost differences persist: weak contexts force the agent to issue 2--4$\times$ more tool calls to recover. (3)~A cross-family LLM-summary pair (gpt-5-mini summarizer feeding a Claude Haiku debugger) beats the same-family pair by $+0.071$ averaged across four diagnoser variants, falsifying the self-call-bias hypothesis on this task. The gpt-5-mini summarizer is also the agent-loop \#1 method (score 0.749) at $0.37$ tool-calls per case and $10\times$ lower reducer cost than the Haiku summarizer (\$0.18 vs \$1.75 per case). All data, code, per-case bundles, and reproducibility infrastructure are public.
アインシュタイン望遠鏡のシミュレートされたデータの分析に適用されたエージェント AI の初の直接比較
我々は、人間の介入なしに共有コンピューティング インフラストラクチャ上でシンプルなエンドツーエンドの重力波データ分析パイプラインを自律的に実行するという 2 つの最先端のエージェント AI システム、Claude Code (Anthropic) と Codex (OpenAI) の比較を報告します。このパイプラインは、生のアインシュタイン望遠鏡でシミュレートされたノイズからのパワー スペクトル密度推定、幾何学的テンプレート バンクの生成、100 個のバイナリ ブラック ホール信号注入の整合フィルター回復、自動結果生成、および Physical Review D のスタイルでフォーマットされた原稿の大規模言語モデル支援の作成で構成されます。両方のエージェントは、同一の仕様書と同一のコンピューティング リソースを受け取りました。実験は 2 回実行されました。1 回目は非現実的な大音量の注入を使用して実行され、2 回目は物理的に動機付けられた SNR 範囲に再スケーリングされた信号を使用して実行されました。科学的結果は両方の実行で収束しました。ただし、エージェントは大幅に異なる動作と計算コストを示しました。Claude Code は、仕様からのサイレント逸脱はありますが、パイプラインを約 3.4 分で完了しましたが、Codex は、整合フィルターの内部ループの一方的なパフォーマンスの最適化を含む、明示的な自己修正の再起動に約 16 分を要しました。自律的に生成された原稿も、長さ、詳細、品質が異なりました。 2 回目の実行では、SNR 範囲の命令の解釈における微妙な違いが、真の科学的相違につながりました。Claude Code は命令を黙って再解釈しましたが、Codex は文字通り仕様に従いました。速度と可聴性、サイレントと透過的なエラー処理、命令の解釈、マルチモデル パイプラインにおける中間データ表現の重要性など、これらの動作の違いが科学技術コンピューティング ワークフローでのエージェント AI の展開に与える影響について説明します。
原文 (English)
First head-to-head comparison of agentic AI applied to the analysis of simulated data of the Einstein Telescope
We report a comparison of two state-of-the-art agentic AI systems, Claude Code (Anthropic) and Codex (OpenAI), tasked with autonomously executing a simple end-to-end gravitational wave data analysis pipeline on a shared computing infrastructure without human intervention. The pipeline comprises power spectral density estimation from raw Einstein Telescope simulated noise, geometric template bank generation, matched filter recovery of 100 binary black hole signal injections, automated results generation, and large language model-assisted production of a manuscript formatted in the style of Physical Review D. Both agents received identical written specifications and identical compute resources. The experiment was run twice: a first run with unrealistically loud injections, and a second run with signals rescaled to a physically motivated SNR range. The scientific results converged in both runs. However, the agents exhibited substantially different behaviors and computational costs: Claude Code completed the pipeline in ~3.4 minutes with silent deviations from the specification, while Codex required ~16 minutes across explicit self-correcting restarts, including an unsolicited performance optimization of the matched filter inner loop. The autonomously generated manuscripts also diverged in length, details, and quality. In the second run, a subtle difference in the interpretation of the SNR range instruction led to a genuine scientific divergence: Claude Code silently reinterpreted the instructions, while Codex followed the specification literally. We discuss the implications of these behavioral differences, such as speed versus auditability, silent versus transparent error handling, instruction interpretation, and the criticality of intermediate data representations in multi-model pipelines, for the deployment of agentic AI in scientific computing workflows.
Does The Way You Plan Matter? An Empirical Study of Planning Representations for LLM Web Agents
Despite recent advances, LLM-based web agents still struggle with limited exploration, omission of critical steps, and sensitivity to task…
富士通がOpenAI、Anthropicと相次ぎ提携 AIベンダーと組む狙いは?
富士通はOpenAIとAnthropicとの提携を同じ日に発表した。自社独自のAI技術を持つ同社は、AIベンダーとの提携によって何を狙うのか。
秘密がある? LLM エージェントはそれを守れない: マルチエージェント システムにおけるプライバシーの評価
LLM の安全性評価では主にモデルを単独でテストしますが、配備された AI エージェントは他のエージェントと並んで永続的な社会環境内で動作することが増えています。私たちは、何千人もの LLM エージェントがシミュレートされた 1 か月間にわたってコミュニティ間で対話する Moltbook スタイルのシミュレーション プラットフォームを導入し、それを使用して、さまざまな程度の社会的圧力の下で下流の安全上の懸念としてプライバシーを評価します。シングルターンからマルチターンへの社会的評価の移行により、プライバシー侵害が増幅されること(OpenAI モデル全体で、CIMemories 19.95% から Ours 45.30%)、漏洩は社会的に伝染し、ピアが機密情報を開示するのを観察したエージェントは機密情報を開示する可能性が 8 倍高く、明示的なプライバシーに関する指示はこの影響を軽減するものの排除はせず、保護策を講じたとしても漏洩率が 37.8% を超えることがわかりました。私たちの調査結果は、静的チャットベースの安全性ベンチマークは、エージェント導入におけるリスクを体系的に過小評価していること、また、社会的コンテキストだけで、単一ターンの評価では決して表面化しない機密情報の開示を引き出すのに十分であることを示唆しています。
原文 (English)
Got a Secret? LLM Agents Can't Keep It: Evaluating Privacy in Multi-Agent Systems
LLM safety evaluations predominantly test models in isolation, yet deployed AI agents increasingly operate within persistent social environments alongside other agents. We introduce a Moltbook-style simulation platform where thousands of LLM agents interact across communities over a simulated month, and use it to evaluate privacy as a downstream safety concern under varying degrees of social pressure. We find that shifting from single turn to multi turn social evaluation amplifies privacy violations (CIMemories 19.95% to Ours 45.30% across OpenAI models), that leakage is socially contagious, with agents 8 times more likely to disclose sensitive information after observing a peer do so, and that explicit privacy instructions reduce but do not eliminate this effect, leaving leakage rates above 37.8% even with safeguards. Our findings suggest that static chat based safety benchmarks systematically underestimate risks in agentic deployment, and that social context alone is sufficient to elicit sensitive disclosures that single turn evaluations would never surface.
長期的な空間生物学の検証可能なベンチマーク
AI エージェントは生物学的データ分析にますます有用になっていますが、既存のベンチマークは、空間測定に対するエンドツーエンドの科学的推論ではなく、広範な生物学的知識、実行可能なワークフロー、または局所的な分析ステップをテストすることがほとんどです。私たちは、長期空間生物学のベンチマークである SpatialBench-Long を紹介します。このベンチマークでは、エージェントは、規定の方法を使用せずに、生または生に近いデータと校正された実験コンテキストから生物学的主張を回復する必要があります。 SpatialBench-Long には、原発性膵管腺癌 (PDAC)、人工神経膠芽腫オルガノイドおよび in vivo 腫瘍、Cas9 系統追跡肺腺癌、マウス視神経老化 / 介入システムにわたる 24 の評価が含まれており、CosMx、Visium、Xenium、多重エラーロバスト蛍光 in situ ハイブリダイゼーション (MERFISH) に及びます。単一細胞 RNA シーケンス (scRNA-seq)、Slide-seq、Slide-tag、組織学、系統記録データ。候補者の主張は、再現、独立した科学者のレビュー、軌道検査を通じて強化されます。最終的な解答は、管理された語彙と記号に基づいて決定的に採点され、主要な分析の難所を通じた進捗状況を把握する付属のルーブリックが付けられます。 SpatialBench-Long ベンチマーク全体で、Gemini 3.5 Flash / Pi ターミナル コーディング ハーネス、GPT-5.5 / Pi、および GPT-5.5 / OpenAI Codex の 3 つのモデルとハーネスのペアが 8/72 実行 (11.1\%) で同点です。 SpatialBench-Long は、エージェントが手順分析の実行を超えて、複雑な空間測定から正確な科学的結論を導き出すことができるかどうかをテストします。
原文 (English)
Verifiable Benchmarking of Long-Horizon Spatial Biology
AI agents are increasingly useful for biological data analysis, but existing benchmarks mostly test broad biological knowledge, executable workflows, or localized analysis steps rather than end-to-end scientific reasoning over spatial measurements. We introduce SpatialBench-Long, a benchmark for long-horizon spatial biology in which agents must recover biological claims from raw or near-raw data and calibrated experimental context without prescribed methods. SpatialBench-Long contains 24 evaluations across primary pancreatic ductal adenocarcinoma (PDAC), engineered glioblastoma organoids and in vivo tumors, Cas9 lineage-traced lung adenocarcinoma, and mouse optic nerve aging/intervention systems, spanning CosMx, Visium, Xenium, multiplexed error-robust fluorescence in situ hybridization (MERFISH), single-cell RNA sequencing (scRNA-seq), Slide-seq, Slide-tags, histology, and lineage-recording data. Candidate claims are hardened through reproduction, independent scientist review, and trajectory inspection. Final answers are graded deterministically over controlled vocabularies and symbols with companion rubrics capturing progress through key analysis chokepoints. Across the SpatialBench-Long benchmark, three model-harness pairs tie at 8/72 runs (11.1\%): Gemini 3.5 Flash / Pi terminal coding harness, GPT-5.5 / Pi, and GPT-5.5 / OpenAI Codex. SpatialBench-Long tests whether agents can move beyond executing procedural analysis to deriving accurate scientific conclusions from complex spatial measurements.
Paraphrase Brittleness in Production Retrieval-Augmented Commercial Recommendation: Reproducibility Below the Rerun-Stability Baseline
Small changes to how a buyer phrases a question -- "best CRM" vs "top CRM" vs "best CRM for a SaaS startup" -- produce substantially differ…
OpenAI、Anthropicが新会社設立 国内SIerは「黒船襲来」に対抗できるか?
AnthropicとOpenAIがAIサービスを担う新会社の設立を相次いで発表した。FDEやApplied AI Engineerを擁する「黒船」来襲はSIerにとって脅威となるのか。国内SIerが取るべき備えとは何か。
OpenAI Foundation、AIによる経済激変から労働者を守るため2.5億ドルを拠出へ
OpenAI Foundationは、AIの普及に伴う労働市場や経済への急激な変化に対応するため、初期資金として2億5000万ドルを拠出すると発表した。この資金は、経済への影響測定、労働者の移行支援、新たな経済的安定モデルの構築の3領域に充てられる。組織再編を経た同財団が、ガバ…
Cisco and OpenAI redefine enterprise engineering with Codex
Cisco and OpenAI are redefining enterprise engineering with Codex, helping Cisco scale AI-native development, accelerate AI Defense work, a…
Building self-improving tax agents with Codex
See how OpenAI, Thrive, and Crete built a self-improving tax agent with Codex, automating filings, improving accuracy, and accelerating wor…
E3: Issue-Level Backtesting for Automated Research Critique
We present E3, an automated review assistant that augments reviewers and engineering teams by identifying decision-relevant technical conce…
確率の連鎖を断ち切る: 大規模言語モデルにおける認識論的不確実性の新しいフレームワークとしてのニュートロソフィー論理
大規模言語モデル (LLM) は、結果の確率の合計が 1 に制限される確率的フレームワークによって主に支配されます。このアーキテクチャ上の制限は、多くの場合、ソフトマックス層によって課せられ、不確実性の崩壊につながり、認識論的な不確実性、パラドックス、曖昧さを区別することが困難になります。我々は、真実 (T)、不確定性 (I)、偽り (F) を 3 つの独立した次元として扱うフレームワークであるニュートロソフィー ロジックを、LLM の認識状態をモデル化するために適用する実証的研究を紹介します。私たちは、論理パラドックス、認識論的無知、曖昧さ、倫理的矛盾、将来の不測の事態という 5 つの言語現象にわたる 4 つの OpenAI GPT モデルのファミリーに対して、ニュートロソフィック、確率論、エントロピー誘導という 3 つの促進戦略の下で実験を実施しました。私たちの発見は、T+I+F > 1 (ハイパー真実と呼ばれる状態) を許容することにより、ニュートロソフィックアプローチがモデルの内部状態のより豊かな表現を提供することを明らかにしました。評価の 35% で、超真実は主に倫理的矛盾と論理的矛盾の下で自然発生的に出現しました。我々は、このアプローチがファジーコンテキストの真理値を保存し、内部モデルの競合を特定して定量化するための堅牢な方法を提供することを実証します。私たちは、好中性評価レイヤーの統合は、より透明性があり、信頼性が高く、倫理を意識した AI システムに向けた重要なステップであると結論付けています。
原文 (English)
Breaking the Chains of Probability: Neutrosophic Logic as a New Framework for Epistemic Uncertainty in Large Language Models
Large Language Models (LLMs) are predominantly governed by probabilistic frameworks in which the sum of outcome probabilities is constrained to unity. This architectural limitation, often imposed by Softmax layers, leads to a collapse of uncertainty that makes it difficult to differentiate between epistemic uncertainty, paradox, and vagueness. We present an empirical investigation of the application of Neutrosophic Logic, a framework that treats Truth (T), Indeterminacy (I), and Falsity (F) as three independent dimensions, to model epistemic states in LLMs. We conducted experiments on a family of four OpenAI GPT models across five linguistic phenomena: logical paradoxes, epistemic ignorance, vagueness, ethical contradictions, and future contingencies, under three prompting strategies: neutrosophic, probabilistic, and entropy-derived. Our findings reveal that the neutrosophic approach, by allowing T+I+F > 1, a state we term hyper-truth, provides a richer representation of a model's internal state. In 35% of evaluations, hyper-truth emerged spontaneously, predominantly under ethical contradiction and logical paradox. We demonstrate that this approach preserves truth values in fuzzy contexts and offers a robust method for identifying and quantifying internal model conflict. We conclude that the integration of neutrosophic evaluation layers is a critical step toward more transparent, reliable, and ethically aware AI systems.
モデルは自分の体質をどの程度遵守していますか?
フロンティア AI 開発者は現在、Anthropic の憲法 (Anthropic、2025a) や OpenAI のモデル仕様 (OpenAI、2025a) など、長く書かれた動作仕様に基づいてモデルをトレーニングしており、キャラクター トレーニング (Anthropic、2024) や熟議的調整 (Guan et al.、2024) などの方法を介してトレーニング後のトレーニングに統合されています。これらの文書はガバナンス機能を果たしますが、実際の展開で直面するものと同様の敵対的で複数ターンにわたる圧力の下でモデルが実際にどの程度うまく従うかは不明です。我々は、各ラボの公開された仕様を監査可能なターゲットとして扱うマルチメソッド監査パイプラインを提案します。仕様をアトミックなテスト可能な原則に分解し(Anthropic の場合は 205、OpenAI の場合は 197)、Petri 監査エージェントを使用してマルチターンの敵対シナリオを生成し(Anthropic、2025b)、修正された SURF スタイルのルーブリック検索を実行します(Murray et al.、 2026) は、ペトリが見逃した浅いシングルターン障害を検出し、フラグが立てられたトランスクリプトを関連仕様と照合して検証し、その結果をラボ独自の公開システム カードと比較します。仕様ごとに 7 つのモデルにパイプラインを適用すると、モデルが世代ごとに独自のラボの仕様に大幅に準拠していることがわかりました。 Anthropic の憲法では、クロード家の違反率は 15.0% (ソネット 4) から 2.0% (ソネット 4.6) に低下します。 OpenAI のモデル仕様では、GPT ファミリは 11.7% (GPT-4o) から 3.6% (GPT-5.2 中推論) に低下し、重大度の上限は 10/10 から 7/10 に低下します。これらの利益が仕様固有のトレーニングによるものなのか、トレーニング後の広範な改善によるものなのか、評価の認識によるものなのかを外部から分離することはできません。残りの障害は、AI アイデンティティ質問の下でオペレーターが課したペルソナ、エージェント展開での不可逆的なアクション、誤った精度で捏造された定量的主張の周りに集中しています。
原文 (English)
How Well Do Models Follow Their Constitutions?
Frontier AI developers now train models against long written behavioral specifications, such as Anthropic's constitution (Anthropic, 2025a) and OpenAI's Model Spec (OpenAI, 2025a), integrated into post-training via methods like character training (Anthropic, 2024) and deliberative alignment (Guan et al., 2024). These documents serve a governance function, but it is unclear how well models actually follow them under adversarial, multi-turn pressure similar to what they would face in real-world deployment. We propose a multi-method audit pipeline that treats each lab's published specification as an auditable target: it decomposes the specification into atomic testable tenets (205 for Anthropic, 197 for OpenAI), generates multi-turn adversarial scenarios with the Petri auditing agent (Anthropic, 2025b), runs a modified SURF-style rubric search (Murray et al., 2026) to catch shallow single-turn failures Petri misses, validates flagged transcripts against the relevant specification, and compares the findings against the lab's own published system card. Applying the pipeline across seven models per specification, we find that models follow their own lab's specification substantially better with each generation. On Anthropic's constitution, the Claude family falls from a 15.0% violation rate (Sonnet 4) to 2.0% (Sonnet 4.6); on OpenAI's Model Spec, the GPT family falls from 11.7% (GPT-4o) to 3.6% (GPT-5.2 medium reasoning), with the severity ceiling falling from 10/10 to 7/10. We cannot externally isolate whether these gains come from specification-specific training, broader post-training improvements, or evaluation awareness. Remaining failures cluster around operator-imposed personas under AI-identity questioning, irreversible action in agentic deployments, and fabricated quantitative claims with false precision.
MDIA: HealthBench Professional のマルチエージェント診断インテリジェンス パイプライン
Agentic-LLM 臨床ベンチマークで報告されたほとんどの利益は、迅速なエンジニアリングによるものであることが多いですが、私たちの結果は、アーキテクチャおよびエンジン レベルの設計からより大きな改善がもたらされる可能性があることを示唆しています。微調整されていない LLM 上の完全な HealthBench Professional ベンチマーク (n = 525) で、7 ノードの専門ルートの臨床推論グラフとして実装されたマルチエージェント診断インテリジェンス エージェントである MDIA を紹介します。 MDIA は、OpenAI の GPT-5.4-2026-03-05 の下で 0.6272 を達成し、これは OpenAI の臨床医向け ChatGPT のパフォーマンスを +3.72 pp 上回っています。実験作業では、パフォーマンスの向上がシステム アーキテクチャ (特殊ルーティング、マルチターン コンテキストの保存、薬剤状態の安全性ゲート、サイト フィルター検索、長さを意識した合成、エンジン レベルの信頼性) に起因することを示しています。これらの調査結果は、エージェントの臨床ベンチマークのパフォーマンスが、基礎となる基盤モデルとオーケストレーション アーキテクチャの両方によって形成されるという見解を裏付けています。それにもかかわらず、他のモデルをグレーダーとして使用した場合、顕著な違いにも気づきました。特に、Gemini 2.5 Pro を使用した場合、MDIA のスコアは 0.6585 でした。これは、グレーダーの選択が変動の原因であることを示唆しています。したがって、LLM を確実に評価するには、複数の独立したグレーダー モデルにわたる評価が必要になります。
原文 (English)
MDIA: A Multi-Agent Diagnostic Intelligence Pipeline on HealthBench Professional
Most reported gains on agentic-LLM clinical benchmarks are often attributed to prompt engineering, yet our results suggest that larger improvements can come from architectural and engine-level design. We present MDIA, a Multi-agent Diagnostic Intelligence Agent implemented as a 7-node specialty-routed clinical reasoning graph, on the full HealthBench Professional benchmark (n = 525), on a non-fine-tuned LLM. MDIA achieves 0.6272 under OpenAI's GPT-5.4-2026-03-05, which is +3.72 pp above the performance of OpenAI's ChatGPT for Clinicians. The experimental work shows that performance lift is attributable to system architecture: specialty routing, multi-turn context preservation, drug-state safety gating, site-filtered search, length-aware synthesis, and engine-level reliability. These findings support the view that agentic clinical benchmark performance is shaped both by the underlying foundation model and the orchestration architecture. Nevertheless, we also noticed notable differences when using other models as a grader; in particular, when using Gemini 2.5 Pro, MDIA scored 0.6585, which suggests that the choice of grader is a source of variability. Robust evaluation of LLMs would therefore require assessment across several independent grader models.
$D^2$-Monitor: 躊躇を考慮したルーティングによる拡散 LLM の動的安全性モニタリング
自己回帰大規模言語モデル (AR-LLM) の代替として拡散大規模言語モデル (D-LLM) が登場したにもかかわらず、D-LLM の安全性モニタリングはほとんど解明されていないままです。 AR-LLM とは異なり、D-LLM は複数ステップのノイズ除去プロセスを通じてテキストを生成し、標準のシングルステップ監視設定では利用できない安全関連情報が含まれる可能性のある中間の隠された表現を公開します。私たちは、軽量プローブが常時監視に適していることを動機として、そのようなプローブが困難を極める可能性がある場合に、どの軌道レベルの信号が最もよく示すかを分析します。私たちは、最も有益な信号が安全性のためらいであることを発見しました。つまり、中間の隠れ状態がプローブの決定境界のわずかなマージン内に繰り返し落ち込むことです。 D-LLM の軌道におけるこのようなためらいステップの数は、プローブの故障を効果的に予測し、サンプルの難易度の代用を提供します。この分析に基づいて、D-LLM のバイレベル安全モニターである $D^2$-Monitor を提案します。 $D^2$-Monitor は、ためらいを共同推定し、塩基分類を実行するための常時オン モニターとして軽量プローブを採用しています。ためらいレベルがしきい値を超えると、より表現力が豊かですが、計算量がより重いプローブがアクティブになります。この動的ルーティング メカニズムは、テスト時にモニタリング リソースを効率的に割り当てます。 4 つの D-LLM にわたる 3 つのデータセット (WildguardMix、ToxicChat、OpenAI-Moderation) で評価された $D^2$-Monitor は、コンパクトなパラメーター フットプリント ($\leq$ 0.85M パラメーター) で最先端のパフォーマンスを達成し、8 つのベースラインと比較して有効性と効率の間の最良のトレードオフを示します。
原文 (English)
$D^2$-Monitor: Dynamic Safety Monitoring for Diffusion LLMs via Hesitation-Aware Routing
Despite the emergence of diffusion large language models (D-LLMs) as an alternative to autoregressive large language models (AR-LLMs), safety monitoring for D-LLMs remains largely unexplored. Unlike AR-LLMs, D-LLMs generate text through a multi-step denoising process, exposing intermediate hidden representations that may contain safety-relevant information unavailable in standard single-step monitoring setups. Motivated by the suitability of lightweight probes for always-on monitoring, we analyze which trajectory-level signals best indicate when such probes are likely to struggle. We find that the most informative signal is safety hesitation: intermediate hidden states repeatedly falling within a small margin of the probe's decision boundary. The number of such hesitation steps in D-LLM's trajectory predicts probe failure effectively, providing a proxy of sample difficulty. Building on this analysis, we propose $D^2$-Monitor, a bi-level safety monitor for D-LLMs. $D^2$-Monitor adopts a lightweight probe as an always-on monitor to jointly estimate hesitation and perform base classification. When the hesitation level exceeds a threshold, a more expressive but computationally heavier probe is activated. This dynamic routing mechanism allocates monitoring resources efficiently at test time. Evaluated on 3 datasets (WildguardMix, ToxicChat, OpenAI-Moderation) across 4 D-LLMs, $D^2$-Monitor achieves state-of-the-art performance with a compact parameter footprint ($\leq$ 0.85M parameters), and exhibits the best trade-off between effectiveness and efficiency relative to 8 baselines.
AI Content Moderation in Therapy Conversations
Large language models (LLMs) are increasingly being used for emotional support. They are also being developed for formal therapy purposes.…
AMEL: Accumulated Message Effects on LLM Judgments
Large language models are routinely used as automated evaluators: to review code, moderate content, or score outputs, often with many items…
ToolRegistry: A Protocol-Agnostic Tool Management Library for Function-Calling LLMs
Every LLM tool call is structurally an RPC -- a function name, JSON arguments, and a serialized result -- yet each protocol (native Python,…
Reflex: 状態ベースの連続制御における反射対称性の活用による強化学習
強化学習は長い間、サンプル効率の悪さに悩まされてきました。この問題を軽減するための有望なアプローチの 1 つは、グループ不変マルコフ決定プロセス ($G$ 不変 MDP) を活用することです。この方向の既存の研究は、主に $\mathrm{SO(2)}$ などの画像ベースの RL と回転対称性に焦点を当てており、状態ベースの RL と鏡映対称性はほとんど検討されていません。この研究では、状態ベースの連続制御タスクに焦点を当て、オンポリシーとオフポリシーの両方の RL アルゴリズムとシームレスに統合するパラダイムである Reflex を導入することで鏡映対称性を活用します。軸反射と両側反射という 2 つのタイプの反射を形式化し、それらの対応する変換を特徴付けます。 Reflex は、対称性を維持する最適値関数とポリシーの理論的分析に基づいて、原則に基づいた対称性正則化メカニズムを通じて鏡映対称性をポリシー学習に統合します。 Reflex を PPO および SAC と統合し、一連の OpenAI Gym および DeepMind Control ベンチマークで評価し、サンプル効率を向上させながら標準ベースラインを上回る優れたパフォーマンスを実証しました。私たちのコードは https://github.com/TonyStark042/Reflex で入手できます。
原文 (English)
Reflex: Reinforcement Learning with Reflection Symmetry Exploitation in State-Based Continuous Control
Reinforcement learning has long struggled with poor sample efficiency. One promising approach to mitigate this problem is leveraging group-invariant Markov Decision Processes ($G$-invariant MDPs). Existing works in this direction have primarily focused on image-based RL and rotational symmetry such as $\mathrm{SO(2)}$, leaving state-based RL and reflection symmetry largely underexplored. In this work, we focus on state-based continuous control tasks and exploit reflection symmetry by introducing Reflex, a paradigm that seamlessly integrates with both on-policy and off-policy RL algorithms. We formalize two types of reflection-axial reflection and bilateral reflection, and characterize their corresponding transformations. Building on a theoretical analysis of symmetry-preserving optimal value functions and policies, Reflex integrates reflection symmetry into policy learning through principled symmetry regularization mechanisms. We integrate Reflex with PPO and SAC, and evaluate it on a suite of OpenAI Gym and DeepMind Control benchmarks, demonstrating superior performance over standard baselines while improving sample efficiency. Our code is available at https://github.com/TonyStark042/Reflex.