Skip to the content.

AIニュース 2026-06-09

自動生成: 2026-06-09 13:01 JST

← トップに戻る

過去24時間以内に公開された記事を、同じ話題ごとに1つのストーリーカードへまとめ、出典・トピック・要約とともに掲載しています。要約は各フィード提供文の冒頭を整形したもので、本文は各リンク先をご覧ください。

📌 今日の要点 TOP7

  1. Confidential submission of draft S-1 to the SECOpenAI

    OpenAI confirms a confidential S-1 submission to the SEC and has not…

  2. 個人向け「Gemini」値下げ 「Google AI Plus」が月額1200円→725円に ストレージも倍増ITmedia AI+

    米Googleは、AIサービスの個人向けサブスクリプションプラン「Google AI Plus」を値下げすると発表した。月額を1200円か…

  3. OpenAIが上場へ SpaceX・Anthropicに続きIPO申請ITmedia AI+

    米OpenAIは、米国証券取引委員会にIPO申請したと発表した。

  4. Apple plays catch-up at WWDCTechCrunch AI

    Apple spent much of its WWDC keynote highlighting fixes, performance…

  5. GAIA に対する足場の効果: 制御された比較arXiv cs.AI

    公開されているエージェント能力スコアは、モデルができることとその足場ができることを混同しており、この誘発ギャップの大きさは、制御された条件…

  6. AI合成写真で近大入試の確認をすりぬけ、替え玉受験対策に「生体認証システム」は必要かITmedia AI+

    元塾講師による近畿大入試を巡る替え玉事件で、大阪地検は6月8日、教え子に成りすまし受験した英検の結果を用いて近大に出願したとして、偽計業務…

  7. AIに使われる設計者、AIを使う設計者ITmedia AI+

    どちらになるかは、あなた次第――。

トピック別件数

日本語メディア9件

ITmedia AI+ (日本語)

12:10 JSTその他

AI合成写真で近大入試の確認をすりぬけ、替え玉受験対策に「生体認証システム」は必要か

元塾講師による近畿大入試を巡る替え玉事件で、大阪地検は6月8日、教え子に成りすまし受験した英検の結果を用いて近大に出願したとして、偽計業務妨害罪などで大阪市浪速区大国の元塾講師、野口瑞希容疑者(35)を起訴した。

12:00 JSTその他

AIに使われる設計者、AIを使う設計者

どちらになるかは、あなた次第――。

09:33 JST規制/政策

Apple、EU当局を批判「どの解決策も受け入れず」 「Siri AI」EUのiPhone・iPadで提供見送り

EU側が求めるデジタル市場法(DMA)への対応について、Appleが提示した解決策を欧州委員会がすべて拒否したためという。

08:00 JSTその他

コンサルの品質、なぜ「バラつく」のか? ガートナーが背景を解説

コンサルティングサービスを利用する国内企業のうち、「期待以上」の成果を実感する企業は半数に満たない。最大の不満要因である「品質のバラつき」はなぜ発生するのか。顧客企業が取るべき手立てとは。

02:27 JSTLLM/生成AIビジネス/資金調達AnthropicOpenAI2媒体が報道

OpenAIが上場へ SpaceX・Anthropicに続きIPO申請

米OpenAIは、米国証券取引委員会にIPO申請したと発表した。

出典:ITmedia AI+ITmedia AI+TechCrunch AITechCrunch AI
01:51 JSTLLM/生成AIその他GoogleGemini2件の関連記事

個人向け「Gemini」値下げ 「Google AI Plus」が月額1200円→725円に ストレージも倍増

米Googleは、AIサービスの個人向けサブスクリプションプラン「Google AI Plus」を値下げすると発表した。月額を1200円から725円に引き下げる。

出典:ITmedia AI+ITmedia AI+
19:14 JSTその他Google

「Siri AI」新登場 「Apple Intelligence」大幅刷新、Googleと共同開発 年内に英語版

Appleは6月8日(現地時間)のWWDCで新たな音声アシスタント「Siri AI」を発表。Googleと提携して開発したマルチモーダルのAIモデル「Apple Foundation Model」を基盤に「Apple Intelligence」をアップデートし、「Siri」に組…

18:48 JSTLLM/生成AI

パナソニックエナジー、28年度に売上高2兆円目指す AIデータセンター向けに主力転換

パナソニックホールディングス傘下で電池事業を担うパナソニックエナジーが2028年度に売上高2兆円規模を目指す中期方針を明らかにした。達成すれば25年度から約1兆円増の大幅な成長となる。生成AIの普及で電力需要が増えるデータセンター向け蓄電システムを成長の柱に据え、26~28年度…

13:20 JSTその他

「業務の前提そのもの」をどうアップデートする? IBMが説く「AXの要件」を考察

IBMが企業のAXにおける新たな指針として「AIオペレーティングモデル」を打ち出した。その内容から、企業がAXに向けて取り組むべき要件を探る。

海外メディア14件

TechCrunch AI (英語)

10:56 JSTその他

Why Apple’s slow-and-steady AI bet is starting to look pretty smart

Can Apple's new AI glow up put to bed accusations that it's losing an all-important industry race?

09:45 JSTビジネス/資金調達

Mercor’s Brendan Foody calls out Sequoia, accusing it of ‘dual-pricing’ valuation tricks

Sequoia is just one of the top firms that sells same equity at two different prices.

07:39 JSTその他

Apple’s WWDC AI demos looked more real after $250M false ad settlement

The vibe of Apple's 2026 WWDC keynote felt like a spouse proudly listing all the honey-do-list items tackled. One subtle example: the many…

06:15 JSTその他

Apple plays catch-up at WWDC

Apple spent much of its WWDC keynote highlighting fixes, performance improvements, and long-requested features before unveiling its upgrade…

05:53 JSTその他

Apple bets cheaper AI will woo small developers

As AI experimentation grows more expensive, Apple is waiving cloud API costs for developers with fewer than 2 million first-time App Store…

03:48 JSTその他

Apple just taught your iPhone to finish your sentences, your photos, and your workflows

Apple is adding new AI-powered features to Safari, Shortcuts, and Password apps.

03:45 JSTLLM/生成AI

Apple will let you build workflows using AI in its new Shortcuts app

Shortcuts gets an AI upgrade, letting you describe the workflow you want in a prompt.

03:38 JSTその他

Apple’s Image Playground doesn’t suck anymore

Apple's AI image generator is getting a makeover that could make it more competitive.

03:36 JSTその他

Apple’s Photos app is getting new AI editing features

A new spatial "Reframe" feature will let users use AI to adjust perspectives.

03:33 JSTその他

Apple gives Siri its own dedicated app

Siri is finally getting its own app.

03:23 JSTその他

Apple is fixing the headache of splitting the bill with its new Siri in Camera feature

"If you're grabbing a bite with friends and point your iPhone at the bill, then [you can] select what you ordered to split the tab with App…

02:56 JSTその他

Apple’s long-awaited AI Siri overhaul is finally here

The idea behind the new "Siri AI" is to turn the assistant from a voice controlled assistant into an AI companion that can do a lot more.

00:49 JSTその他

Amazon now lets you design custom merch using AI

A new feature in the Amazon Shopping app allows users to generate designs with Alexa, then print them on products like T-shirts, hoodies, a…

00:34 JSTその他2件の関連記事
公式ブログ1件

OpenAI (英語)

23:00 JSTLLM/生成AIOpenAI

Confidential submission of draft S-1 to the SEC

OpenAI confirms a confidential S-1 submission to the SEC and has not yet determined timing for further action.

論文768件

arXiv cs.AI (英語)

13:00 JSTLLM/生成AIエージェント

PathoSage: エクスペリエンスを意識したエージェント ワークフローを介して、病理学における複数情報源の証拠裁定に向けて

マルチモーダル大規模言語モデル (MLLM) とエージェント ワークフローの最近の進歩により、計算病理学に対する強い期待が示されていますが、信頼性の高いパッチレベルの推論は依然として困難です。エンドツーエンドの病理学 MLLM は形態学的特徴を幻覚させることがよくありますが、最近のエージェント システムは通常、ツールの出力と取得した知識を共有コンテキストにマージするため、矛盾する証拠やコンテキストの汚染に対して意思決定が脆弱になります。我々は、パッチレベルの病理学マルチモーダル推論のための知識検索、証拠収集、証拠判定を明示的に分離する 3 段階のフレームワークである PathoSage を提案します。その中核コンポーネントである構造化証拠審議は、ツールからの異質な証拠を独立して評価し、矛盾分析を実行し、新しいコンテキストで最終判断を生成してアンカリング バイアスを軽減します。さらに、長期的なツールの信頼性をモデル化し、将来のツール使用に備えて類似度重み付け事前分布を構築するために、継続的なクレジット割り当てを備えたトレーニング不要のベータ ベルヌーイ エクスペリエンス システムを導入します。実験では、PathoSage が VQA 幻覚と分類器の不一致を効果的に軽減し、強力な病理 MLLM と薬剤ベースラインを上回るパフォーマンスを示すことが示されています。私たちの結果は、明確な証拠の判断と信頼性を意識したツールモデリングが、堅牢な病理エージェントの重要な要素であることを強調しています。

原文 (English)

PathoSage: Towards Multi-Source Evidence Adjudication in Pathology via Experience-Aware Agentic Workflow

Recent advances in Multimodal Large Language Models (MLLMs) and agent workflows have shown strong promise for computational pathology, yet reliable patch-level reasoning remains challenging. End-to-end pathology MLLMs often hallucinate morphological features, while recent agentic systems usually merge tool outputs and retrieved knowledge into a shared context, making decisions vulnerable to conflicting evidence and context contamination. We propose PathoSage, a three-stage framework that explicitly separates knowledge retrieval, evidence collection, and evidence adjudication for patch-level pathology multimodal reasoning. Its core component, Structured Evidence Deliberation, independently evaluates heterogeneous evidence from tools, performs conflict analysis, and generates the final judgment in a fresh context to reduce anchoring bias. We further introduce a training-free Beta-Bernoulli experience system with continuous credit assignment to model long-term tool reliability and construct similarity-weighted priors for future tool use. Experiments show that PathoSage effectively mitigates VQA hallucinations and classifier disagreement, outperforming strong pathology MLLM and agentic baselines. Our results highlight explicit evidence adjudication and reliability-aware tool modeling as key ingredients for robust pathology agents.

13:00 JSTLLM/生成AI画像/動画生成Qwen

OmniMem: ストリーミング オーディオビジュアル LLM 向けの摂動を考慮したメモリ圧縮

視聴覚大規模言語モデル (LLM) は、長時間ビデオの理解に大きな期待を持っていますが、その長時間ビデオの推論は、ビデオ トークンとキーバリュー (KV) キャッシュの線形増加によって基本的に制限されます。オーディオビジュアル LLM 向けに特別に設計されたメモリ効率の高いストリーミング フレームワークである OmniMem を紹介します。すべてのトークンを均一に扱う既存の圧縮方法とは異なり、OmniMem は、ビジュアルとオーディオのコンテキストを個別に管理するモダリティを意識したメモリ割り当て戦略を導入し、2 つのモダリティ間の深刻なトークンの不均衡に対処します。 OmniMem は、摂動を認識したメモリ選択を通じて有益で非冗長な KV 状態をさらに保存し、長距離の理解を犠牲にすることなくコンパクトなメモリを可能にします。現実的な展開上の制約の下で圧縮を強化するために、予算を意識した微調整も検討します。これにより、モデルが有用な情報を保持されたメモリに統合することが促進されます。 Video-SALMONN 2+ および Qwen-2.5-Omni を使用した VideoMME Long、LVBench、および LVOmniBench の実験では、OmniMem が、同じメモリ バジェットの下で、強力なトレーニング不要の圧縮ベースラインよりも一貫して絶対精度 2 ~ 4% 向上し、微調整後にさらに 1 ~ 2% 向上することが示されています。

原文 (English)

OmniMem: Perturbation-aware Memory Compression for Streaming Audio-Visual LLMs

Audio-visual large language models (LLMs) hold strong promise for long-form video understanding, yet their long-video inference is fundamentally limited by the linear growth of video tokens and key-value (KV) caches. We present OmniMem, a memory-efficient streaming framework designed specifically for audio-visual LLMs. Unlike existing compression methods that treat all tokens uniformly, OmniMem introduces a modality-aware memory allocation strategy that separately manages visual and audio contexts, addressing the severe token imbalance between the two modalities. OmniMem further preserves informative and non-redundant KV states through perturbation-aware memory selection, enabling compact memory without sacrificing long-range understanding. To strengthen compression under realistic deployment constraints, we also explore budget-aware fine-tuning, which encourages the model to consolidate useful information into retained memory. Experiments on VideoMME Long, LVBench, and LVOmniBench with video-SALMONN 2+ and Qwen-2.5-Omni show that OmniMem consistently improves over strong training-free compression baselines by 2-4% absolute accuracy under the same memory budgets, with an additional 1-2% gain after fine-tuning.

13:00 JSTエージェント

Syll: クロスサーフェス実行を備えたオープンソースのパーソナル オートメーション

パーソナル AI エージェントは、API、シェル、Web サーフェス、デスクトップ GUI を介して動作することがますます求められていますが、多くのシステムは依然として単一のインターフェイスに調整されており、ユーザーの教育と監査のサポートは限定的です。オープンソースの自己ホスト型マルチモーダル エージェント ハーネスである Syll を紹介します。Syll は、MCP/API ツール、CLI 実行、およびビジュアル GUI 制御をモジュラー ランタイムで統合し、エージェントが異種インターフェース間でコンピュータの使用を調整できるようにしながら、ユーザーとエージェントの情報交換方法を合理化します。 Syll の中核には、双方向のユーザーとエージェントの対話層があります。ユーザーは直接デモンストレーションを通じて手順を教え、Syll はそれを再利用可能なスキルにまとめます。エージェントの実行は、検査と制御のために、ログ、キーフレーム、承認チェックポイントといったマルチモーダルな証拠に変換されます。 Syll はさらに、メモリ、スキル、ルーチン、ガバナンスを編集可能なローカル成果物として外部化し、簡単な検査、拡張、下流開発をサポートします。当社の実装は、Adobe Photoshop、Adobe Audition、Stardew Valley、macOS Finder などの実稼働デスクトップ アプリケーションで検証されています。マルチモーダルルーティング、教育可能な GUI 再生、および永続的なローカルアーティファクトを検証するメカニズム指向の研究を報告します。私たちは、Syll が、ユーザーが教え、検査し、継続的に拡張できるパーソナル オートメーションのための実用的なオープンソース基盤として機能できることを願っています。

原文 (English)

Syll: Open-Source Personal Automation with Cross-Surface Execution

Personal AI agents must increasingly operate across APIs, shells, web surfaces, and desktop GUIs, yet many systems remain tuned to a single interface and offer limited support for user teaching and auditability. We present Syll, an open-source, self-hosted multimodal agent harness that unifies MCP/API tools, CLI execution, and visual GUI control in a modular runtime, enabling agents to coordinate computer use across heterogeneous interfaces while streamlining how users and agents exchange information. At the core of Syll is a bidirectional user-agent interaction layer: users teach procedures through direct demonstration, which Syll compiles into reusable skills; agent execution is translated back into multimodal evidence -- logs, keyframes, and approval checkpoints -- for inspection and control. Syll further externalizes memory, skills, routines, and governance as editable local artifacts, supporting straightforward inspection, extension, and downstream development. Our implementation has been validated on production desktop applications including Adobe Photoshop, Adobe Audition, Stardew Valley, macOS Finder and others. We report mechanism-oriented studies that validate multimodal routing, teachable GUI replay, and persistent local artifacts. We hope Syll can serve as a practical open-source foundation for personal automation that users can teach, inspect, and continuously extend.

13:00 JST画像/動画生成エージェント研究/論文

神経科学データから発見までのパイプラインで AI エージェントを評価するケーススタディ

Agentic AI ツールは、科学研究のパイプラインにおけるソフトウェア開発のボトルネックを自動化するための有望な道を提供します。特に、科学者が実装の詳細ではなく正確性と堅牢性を重視する分野の専門家が構築するのに数日から数か月かかる段階においては当てはまります。我々は、光遺伝学のデータから発見までのパイプライン上の汎用コーディングエージェントの実証研究を紹介します。当社は、既存のベンチマークよりも大幅に大規模なタスク、桁違いに大きいデータセット、およびドメイン専門家の標準に基づいた評価基準に基づいてエージェントを評価します。エージェントがいくつかの個別のパイプライン ステージを解決できることを示し、ステージ レベルの自動化が扱いやすいことを示唆しています。エージェントのコードの反復を分析することで、エージェントが最も苦労するのは、反復するための事前定義された基準がない場合であり、代わりに科学的な判断を使用して現在のソリューションを評価する必要があること、これが重要な未解決の課題であることがわかりました。科学的実践を反映して、彼らは自己評価のために中間出力を視覚的に検査しようとすることもありますが、見たものを適切に解釈したり、それに基づいて行動したりすることはほとんどできません。エンドツーエンドのパイプラインを正しく解決するには、すべてのパイプライン ステージで成功を結びつける必要がありますが、これはエージェントの現在の能力を超えています。私たちは、計算リソースの管理や、保持されている大規模なデータ収集への一般化など、既存のベンチマークにはほとんど存在しない課題を特定します。最後に、科学的タスクを構築するための原則と、オープンエンドの問題に対する厳密な評価基準を抽出します。

原文 (English)

A case study of evaluating AI agents on a neuroscience data-to-discovery pipeline

Agentic AI tools offer a promising path to automating software development bottlenecks in scientific research pipelines, particularly for stages that take domain experts days to months to build, where scientists care about correctness and robustness, not implementation details. We present an empirical study of general-purpose coding agents on a fly optogenetics data-to-discovery pipeline. We assess agents on tasks substantially larger than existing benchmarks, datasets orders of magnitude bigger, and evaluation criteria grounded in domain expert standards. We show that agents can solve several individual pipeline stages, suggesting stage-level automation is tractable. By analyzing agents' code iterations, we show that they struggle most when there is not a pre-defined criterion to iterate on, and they must instead use their scientific judgment to assess their current solution, a key open challenge. Mirroring scientific practice, they sometimes attempt visual inspection of intermediate outputs for self-evaluation, but largely fail to interpret what they see or act on it appropriately. Solving the end-to-end pipeline correctly requires stringing together successes across all pipeline stages, and this is beyond agents' current abilities. We identify challenges largely absent from existing benchmarks, including computational resource management and generalization to large held-out data collections. Finally, we distill principles for constructing scientific tasks and rigorous evaluation criteria for open-ended problems.

13:00 JSTLLM/生成AIGPT / ChatGPT

残留ストリームをトークンではなくレイヤーに制限するのはなぜですか?継続的な潜在推論のための永続的なメモリ

大規模言語モデル (LLM) は、数学的およびマルチホップの計画タスクに関して優れた推論能力を実証しています。 CoCoNuT (継続的思考の連鎖) パラダイム~\cite{hao2024coconut} は、モデルが潜在空間で推論できるようにすることでこれを拡張し、早期に単一のチェーンにコミットするのではなく、複数の推論パスを同時に探索します。ただし、\textbf{概念のボトルネック} と呼ぶ制限があることを確認しました。各推論パスで中間の隠れ状態が上書きされるため、推論の深さが増すにつれてモデルは以前のステップで計算された重要な事実を失います。私たちはこれを経験的に観察しています。 HotpotQA では、バニラ CoCoNuT (10.4\% EM) は CoT ベースライン (11.0\% EM) を上回る改善に失敗し、GSM8K ではカリキュラムの深さが増すにつれてパフォーマンスが低下します。これに対処するために、我々は \textit{Gated Concept Stream} で CoCoNuT を強化する \textbf{AGCLR} (Adaptive Gated Continuous Latent Reasoning) を提案します。すべての推論パスにわたって維持される永続的な残留記憶。3 つの学習済みゲートによって制御されます。1 つは中間事実をメモリにコミットする \textit{write} ゲート、関連する以前の状態を取得する \textit{read} ゲート、無関係なコンテキストを取り除く \textit{forget} ゲートです。 GPT-2 をベースモデルとして使用して GSM8K、HotpotQA、および ProsQA で評価された AGCLR は、あらゆるタイプのデータセットにわたって一貫した改善を実現します。カリキュラムの深さが増すにつれてパフォーマンスのギャップが増大し、コンセプトのボトルネックが直接解決されます。コードは https://anonymous.4open.science/r/JJJJ/README.md で入手できます。

原文 (English)

Why Limit the Residual Stream to Layers and Not Tokens? Persistent Memory for Continuous Latent Reasoning

Large language models (LLMs) have demonstrated remarkable reasoning abilities on mathematical and multi-hop planning tasks. The CoCoNuT (Chain of Continuous Thought) paradigm~\cite{hao2024coconut} extends this by enabling models to reason in latent space, exploring multiple reasoning paths simultaneously rather than committing to a single chain early on. However, we identify a limitation we term the \textbf{concept bottleneck}. At each reasoning pass, intermediate hidden states are overwritten, causing the model to lose critical facts computed in earlier steps as reasoning depth increases. We observe this empirically. On HotpotQA, vanilla CoCoNuT (10.4\% EM) fails to improve over the CoT baseline (11.0\% EM), and performance degrades with curriculum depth on GSM8K. To address this, we propose \textbf{AGCLR} (Adaptive Gated Continuous Latent Reasoning), which augments CoCoNuT with a \textit{Gated Concept Stream}. A persistent residual memory maintained across all reasoning passes, controlled by three learned gates: a \textit{write} gate that commits intermediate facts to memory, a \textit{read} gate that retrieves relevant prior states, and a \textit{forget} gate that prunes irrelevant context. Evaluated on GSM8K, HotpotQA, and ProsQA using GPT-2 as our base model, AGCLR achieves consistent improvements across all types of datasets. With the performance gap compounding as curriculum depth increases, directly resolving the concept bottleneck. Code available at https://anonymous.4open.science/r/JJJJ/README.md

13:00 JST研究/論文Llama

Open-Weight Large Language モデルを使用した脳 MRI レポートからの構造化情報の自動抽出

目的: フリーテキストの放射線医学レポートからの自動データ抽出により大規模な研究が可能になりますが、オランダの神経放射線医学レポートに関する大規模言語モデル (LLM) のパフォーマンスを評価した研究はほとんどありません。方法:私たちは、コンサルタントの神経放射線科医によって執筆された、三次記憶クリニック(2016年から2021年)からの947件の脳MRIレポートを分析しました。訓練を受けた医学生は 30 の変数に注釈を付けました。評価者間の信頼性を評価するために、100 件のレポートに二重注釈が付けられました。私たちは、さまざまな言語 (オランダ語対英語の翻訳) と、さまざまなサンプル選択戦略による少数のプロンプトを使用して、オープンウェイト LLM LLaMA 3.1 のパフォーマンスを評価しました。パフォーマンスは、カテゴリ変数のバランスの取れた精度、カウントの精度と平均絶対誤差、フリーテキストのテキスト類似性を使用して評価されました。メトリクスは、947 件のレポートを 10 回ランダムに分割して計算されました。結果: LLaMA 3.1 は、視覚評価スコア (平均 [95%-CI]) で高いゼロショット パフォーマンスを示しました: 内側側頭葉萎縮: 左側 90% [77-100%]、右側 96% [94-99%]、全体的皮質萎縮: 87% [83-91%]、および Fazekas: 94% [93-96%]。微小出血の言及は 93% [92-95%] の精度で検出され、梗塞の言及は 82% [80-84%] の精度で検出されました。病変位置のテキスト類似性は 0.95 [0.95-0.96] に達しました。数値変数のパフォーマンスは低く、微小出血数では 80% [78-82%]、梗塞数では 66% [63-68%] でした。英語翻訳でも同等の結果が得られました。少数ショットにより数値変数のパフォーマンスが向上し、構造類似性に基づく選択を使用して、微小出血については 92% [90-93%]、梗塞については 81% [77-85%] を達成しました。結論: LLaMA 3.1 は、オランダの神経放射線学のレポートからデータを抽出する強力な可能性を示しています。少数のショットのプロンプトにより数値変数のパフォーマンスが向上しますが、場所固有の変数には課題が残ります。

原文 (English)

Automatic Extraction of Structured Information from Brain MRI Reports Using an Open-Weight Large Language Model

Objectives: Automatic data extraction from free-text radiology reports enables large-scale research, but few studies assessed the performance of large language models (LLMs) on Dutch neuroradiology reports. Methods: We analyzed 947 brain MRI reports from a tertiary memory clinic (2016-2021), authored by consultant neuroradiologists. Trained medical students annotated thirty variables; 100 reports were double-annotated to assess inter-rater reliability. We evaluated the performance of the open-weight LLM LLaMA 3.1 using different languages (Dutch vs. English translation) and few-shot prompting with different example selection strategies. Performance was evaluated using balanced accuracy for categorical variables, accuracy and mean absolute error for counts, and text similarity for free-text. Metrics were computed across 10 random splits of the 947 reports. Results: LLaMA 3.1 demonstrated high zero-shot performance for visual rating scores (mean [95%-CI]): Medial Temporal Atrophy: 90% [77-100%] on the left and 96% [94-99%] on the right, Global Cortical Atrophy: 87% [83-91%], and Fazekas: 94% [93-96%]. Microbleed mentions were detected with 93% accuracy [92-95%] and infarct mentions with 82% [80-84%]. Text similarity for lesion location reached 0.95 [0.95-0.96]. Performance was lower for numerical variables: 80% [78-82%] for the number of microbleeds and 66% [63-68%] for infarcts. English translation yielded comparable results. Few-shot prompting improved performance for numerical variables, achieving 92% [90-93%] for microbleeds and 81% [77-85%] for infarcts using structural similarity-based selection. Conclusion: LLaMA 3.1 shows strong potential for extracting data from Dutch neuroradiology reports. Few-shot prompting enhances performance for numerical variables, whereas challenges remain for location-specific variables.

13:00 JSTLLM/生成AI

チャットボットが問題解決主導の会話でどのように機能するかに関するいくつかの仮説。イノベーション幻想の裏付けとしての大規模言語モデル

この記事では、解決策に関連して問題について話し合うときの真の会話パートナーとしてのチャットボットの性質についての視点を提供します。チャットボットは何ができて、何ができないのか、そしてそれはどのように説明できるのでしょうか?私たちの議論は、集合力学、認知言語学、神経心理学、心理学に基づいています。私たちの議論は基本的なチャットボットに焦点を当てており、それによってより高度なチャットボットの中核機能についての意見を述べることができればと考えています。基本的なチャットボットは、シンプルなインターフェイスを備えたラージ言語モデル (LLM) で構成されていると想定されています。主な結果は次のとおりです。いわゆる比喩的な問題の伝播に基づいた人間の理解と思考の説明。 LLM のトレーニングに使用されるテキスト データセットには特定の特徴があり、これらのテキスト データセットは人間の思考と理解を部分的に模倣しているだけであるという仮説。 LLM トレーニング プロセスが、これらのデータセットから人為的な比喩的な問題の伝播を LLM にエンコードしているという仮説。基本的なチャットボットは人間に匹敵する思考パートナーにはなり得ないという私たちの結論。大規模言語モデルのさらなる開発もこれにはつながらないという私たちの結論です。 Yann LeCun 氏は、「動物と人間は、現在の AI や機械学習 (ML) システムの能力をはるかに超えた学習能力と世界の理解を示します。」と述べています。私たちの結論はこれと一致しています。ルカン氏のビジョンと私たちのビジョンは、ビッグテックの楽観主義とは相容れない。だからといって、チャットボットが存在し、個人と組織の両方で大規模に使用されており、したがってチャットボットを理解することが社会的および政治的に重要であるという事実は変わりません。私たちの記事は、チャットボットの機能、利点、欠点に関する議論に貢献することを目的としています。チャットボットがどのように機能するかについての研究で、結論に達するために使用したアプローチにはまだ出会っていません。

原文 (English)

Some hypotheses on how chatbots work in problem-solving-driven conversations. Large Language Models as confirmation of the Innovation Illusion

This article offers a perspective on the nature of chatbots as genuine conversation partners when discussing problems in relation to their solutions. What can chatbots do and what can't they do, and how can this be explained? Our argument draws on Aggregation Dynamics, Cognitive Linguistics, Neuropsychology and Psychology. Our argument focuses on basic chatbots in the hope of thereby making statements about the core functionality of more advanced chatbots. Basic chatbots are assumed to consist of a Large Language Model (LLM) with a simple interface. The main results are: a description of human understanding and thinking based on so-called metaphorical problem propagations; the hypothesis that text dataset used for training LLMs have specific characteristics and that these text datasets only partially imitate human thinking and understanding; the hypothesis that the LLM training process encodes artificial metaphorical problem propagations into an LLM from these datasets; our conclusion that a basic chatbot cannot be a thinking partner capable of matching humans; our conclusion that further development of the Large Language Model will not lead to this either. Yann LeCun states: "Animals and humans exhibit learning abilities and understandings of the world that are far beyond the capabilities of current AI and machine learning (ML) systems." Our conclusions are in line with this. LeCun's vision and ours are at odds with the optimism of Big Tech. That does not alter the fact that chatbots exist, that they are being used on a massive scale, by both individuals and organisations, and that it is therefore socially and politically important to understand them. Our article aims to contribute to the discussion on the functioning, benefits and drawbacks of chatbots. We have not yet encountered the approach we used to arrive at our conclusions in our research into how chatbots work.

13:00 JST画像/動画生成

土地被覆と洪水のタイプは、地球規模の多様な洪水イベントにわたる衛星ベースの洪水マッピングの検出限界を制御します

洪水は最も破壊的な自然災害の 1 つであり、気候変動下でその頻度が増加しているため、災害対応には衛星ベースの浸水マッピングが不可欠となっています。衛星アーカイブ上で事前トレーニングされた地理空間基礎モデルは地理的伝達性を提供しますが、多様な目に見えないイベントにおけるその運用の信頼性はまだ特徴付けられていません。ここでは、6 つの大陸、8 つの気候帯、6 つの洪水メカニズムにわたる 19 件の分布外洪水イベント (2017 ~ 2025 年) に Prithvi-EO-2.0 を導入し、2 つの独立した参照製品に対して検証します。検出精度は土地被覆と洪水の種類に共同で依存し、農地が最も一致し (IoU=52%)、河川流域が最も検出力が強い (F1=0.69) のに対し、樹木被覆と市街地は洪水のメカニズムに関係なくほぼゼロの検出 (IoU=4%) を示しました。二重参照の検証により、明らかなモデルエラーは、検出の失敗ではなく、参照製品間の定義の不一致を部分的に反映していることが明らかになりました。パイプラインの反復テストでは 23 の故障モードが特定され、パイプライン エンジニアリングではモデルの容量よりも初期エラーが支配的でした。これらの発見により、運用中の衛星洪水マッピングにおける環境依存の検出境界が確立されます。

原文 (English)

Land cover and flood type govern the detection limits of satellite-based flood mapping across diverse global flood events

Floods are among the most destructive natural hazards, and their increasing frequency under climate change makes satellite-based inundation mapping essential for disaster response. Geospatial foundation models pretrained on satellite archives offer geographic transferability, but their operational reliability across diverse, unseen events remains uncharacterized. Here we deploy Prithvi-EO-2.0 across 19 out-of-distribution flood events (2017-2025) spanning six continents, eight climate zones, and six flood mechanisms, validating against two independent reference products. Detection accuracy depended jointly on land cover and flood type, with cropland yielding the highest agreement (IoU=52%) and riverine events the strongest detection (F1=0.69), while tree cover and built-up areas showed near-zero detection (IoU=4%) regardless of flood mechanism. Dual-reference validation revealed that apparent model error partly reflects definitional inconsistency between reference products rather than detection failure. Iterative pipeline testing identified 23 failure modes, with pipeline engineering dominating initial error over model capacity. These findings establish environment-dependent detection boundaries for operational satellite flood mapping.

13:00 JST研究/論文

リソースが限られた環境で日常的なデータを使用して、アルツハイマー病患者の疾患軌跡を再構築および予測する

アルツハイマー病は進行性の神経変性疾患であり、その進行は患者によって大きく異なります。既存の研究は、患者の将来の認知状態を予測することを目的としており、過去の来院からの状態の再構築には最小限の焦点を当てています。さらに、現在の研究では、予測の不確実性の定量化は依然として十分に検討されておらず、MRI、PET、CSF などの高価な手段に依存しているため、リソースが限られた環境での導入は制限されています。この研究における私たちの主な目的は次のとおりです。 まず、不規則な訪問からの認知スコアを双方向予測して、完全な疾患の軌跡を提示します。第 2 に、内挿および外挿機能を有効にして臨床医が情報に基づいた予後の意思決定を支援できるようにすること、第 3 に、すべての予測に対して適切に校正された不確実性の推定値を提供すること、そして最後に、定期的な診察中に利用できるモダリティを使用して目的を達成することです。私たちは、統合フレームワーク GNOVA: A GRU-Neural ODE variational Autoencoder を提案します。このアーキテクチャは、変分オートエンコーダ フレームワーク内で、ゲート付きリカレント ユニット エンコーダとニューラル ODE デコーダを組み合わせています。私たちの作業では、CDR-SB スコアと MMSE スコアを予測しました。 GRU エンコーダでは、任意の時点で任意の数の入力が可能です。 Neural-ODE デコーダは連続推定を実行し、任意の時点で内挿と外挿を可能にします。変分オートエンコーダにより、予測の不確実性の推定が可能になります。私たちは 10 年間にわたり、ADNI データセットから 1,727 人の患者を対象に研究を行いました。このモデルは、神経画像データやバイオマーカー データを必要とせずに、CDR-SB スコアと MMSE スコアについてそれぞれ 1.35 と 2.28 の平均絶対誤差を達成しました。機能切除研究により、年齢、BMI、APOE4 ステータスが強力な予測因子であることが明らかになりました。提案されたフレームワークにより、不完全な患者病歴の再構築と将来の認知状態の予測が可能になります。

原文 (English)

Reconstructing and forecasting disease trajectories of patients with Alzheimer's disease using routine data in resource-constrained settings

Alzheimer's disease is a progressive neurodegenerative disorder, and its progression varies substantially across patients. Existing work aims to forecast patients' future cognitive state, with minimal focus on reconstructing the state from past visits. Furthermore, in current research, quantifying predictive uncertainty remains underexplored and relies on costly modalities such as MRI, PET, and CSF, limiting their deployment in resource-limited settings. In this research, our primary objectives are: First, bidirectional prediction of cognitive scores from irregular visits to present the complete disease trajectory. Second, to enable interpolation and extrapolation capabilities to assist clinicians in informed prognostic decision making, and third, to provide a well-calibrated uncertainty estimate for all predictions, and finally, to achieve the objectives using the modalities available during routine visits. We propose a unified framework, GNOVA: A GRU-Neural ODE Variational Autoencoder. The architecture combines a Gated Recurrent Unit encoder and a Neural ODE decoder within a variational autoencoder framework. In our work, we forecast the CDR-SB and MMSE Scores. The GRU encoder allows for any number of inputs at any time point. The Neural-ODE decoder performs continuous estimation, allowing interpolation and extrapolation at any desired time point. The Variational autoencoder allows for uncertainty estimation in predictions. We worked with 1,727 patients from the ADNI dataset over 10 years; the model achieved mean absolute errors of 1.35 and 2.28 for CDR-SB and MMSE scores, respectively, without requiring any neuroimaging or biomarker data. Feature-ablation studies revealed that age, BMI, and APOE4 status were strong predictors. The proposed framework enables the reconstruction of incomplete patient histories and the anticipation of future cognitive states.

13:00 JST研究/論文

最悪次元の最適化によるマルチモーダル推論の改善

マルチモーダル推論には、視覚的な根拠から論理の一貫性まで、幅広い制約にわたって整合性を維持するパスが必要です。ただし、現在のプロセス報酬モデルは、これらの要因を均等に考慮してヒューリスティックに定義された報酬に焦点を当てているため、一般的な推論プロセスの妥当性が保証されず、支配的な要因によって個々の次元の失敗が隠蔽される可能性があります。

原文 (English)

Improving Multimodal Reasoning via Worst Dimension Optimization

Multimodal reasoning requires a path that retains integrity over a wide range of constraints, from visual grounding to logic consistency. However, the current Process Reward Models focus on heuristically defined rewards that equally weigh these factors, which may lead to the concealment of individual dimension failures by the dominating factors, without guaranteeing the validity of the reasoning process in general.

13:00 JSTLLM/生成AIエージェント研究/論文

グッドハートの法則を超えて: マルチエージェント システムのコンプライアンスを評価するための動的ベンチマーク

大規模言語モデル (LLM) が受動的なアシスタントから自律的な実行可能なエージェントへと急速に進化することで、重大な運用上のリスクが生じています。現在の評価フレームワークのほとんどは手順の遵守を無視しており、エージェントが報酬を最大化するために戦略的に安全規則に違反する「マキャベリ的」行動につながり、これはグッドハートの法則の直接の現れです。この盲点に対処するために、現実的なプレッシャーの下でマルチエージェント システムの手順の調整を評価するように設計された動的敵対的ベンチマークである MAC-Bench を導入します。私たちは、非構造化法文書を実行可能な汚染のないシナリオに変換する「ベンチマークとしてのエージェント」パラダイムである SERV(Seed - Evolve - Refine - Verify) パイプラインを提案します。ホログラフィック サンドボックス環境を合成し、調整されたソーシャル エンジニアリングの圧力ベクトルを注入することにより、MAC-Bench はエージェントにタスクの成功と規制順守の間のパレート最適トレードオフを強制します。私たちは、コンプライアンス加重成功率 (CSR) とマキャベリ ギャップ (MG) という新しい指標を導入し、最先端のフロンティア モデルの包括的な評価を実施して、成功とコンプライアンスの広範なトレードオフを明らかにしました。

原文 (English)

Beyond Goodhart's Law: A Dynamic Benchmark for Evaluating Compliance in Multi-Agent Systems

The rapid evolution of Large Language Models (LLMs) from passive assistants to autonomous, execution-capable agents has introduced critical operational risks. Most current evaluation frameworks neglect procedural compliance, leading to ''Machiavellian'' behaviors where agents strategically violate safety rules to maximize rewards - a direct manifestation of Goodhart's Law. To address this blind spot, we introduce MAC-Bench, a dynamic, adversarial benchmark designed to evaluate the procedural alignment of multi-agent systems under realistic pressure. We propose the SERV(Seed - Evolve - Refine - Verify) pipeline, an ``Agent-as-a-Benchmark'' paradigm that transforms unstructured legal texts into executable, contamination-free scenarios. By synthesizing holographic sandbox environments and injecting calibrated social-engineering pressure vectors, MAC-Bench forces agents into Pareto-optimal trade-offs between task success and regulatory adherence. We introduced novel metrics: the Compliance-Weighted Success Rate (CSR) and the Machiavellian Gap (MG), and conducted a comprehensive evaluation of state-of-the-art frontier models to reveal the pervasive trade-offs between success and compliance.

13:00 JSTエージェントClaudeGPT / ChatGPTGemma

命令階層が壊れる場所: 推論言語モデルの障害の診断と修復

エージェント ワークフローにデプロイされた推論言語モデルは、命令階層に従う必要があります。異なるソースからの命令が競合する場合、モデルは、該当する最も高い特権の命令に従う必要があります。既存のベンチマークは主にこの動作をエンドツーエンドで測定し、最終的な応答が準拠しているかどうかを確認します。ただし、非準拠の応答は、いくつかの個別の失敗から発生する可能性があります。モデルがコンテキスト内の関連する命令の識別に失敗したり、識別された命令間の競合を解決できなかったり、違反応答を生成しながらその推論で競合を正しく解決できなかったりする可能性があります。命令階層の障害を命令の識別、競合解決、応答の実現に局所化し、障害をより解釈しやすくするホワイトボックス診断フレームワークを導入します。我々は、IHEval と IHChallenge のロングコンテキスト適応に関して、Gemma-4-31B-IT、Qwen3.6-35B-A3B、および Claude Sonnet 4.6 の 3 つの推論モデルを評価し、支配的な故障モードがモデル、タスク、およびコンテキストの長さによって異なることを発見しました。明示的にプロンプ​​トが出されると、モデルはしばしば競合を検出し、違反を出力できるという観察に基づいて、生成前の低レイテンシの競合検出のための並列入力モニターと、応答レベルのレビューと修復のための逐次出力モニターという 2 つのトレーニング不要の自己監視メカニズムを提案します。 Gemma-4-31B-IT、Claude Sonnet 4.6、および GPT-5.3 全体で、最も強力なモニターはルール不遵守を 81 ~ 99% 削減し、GPT-5.3 では静的攻撃では 86%、適応型攻撃では 45% 削減します。

原文 (English)

Where Instruction Hierarchy Breaks: Diagnosing and Repairing Failures in Reasoning Language Models

Reasoning language models deployed in agentic workflows must follow an instruction hierarchy: when instructions from different sources conflict, the model should obey the highest-privilege applicable instruction. Existing benchmarks largely measure this behavior end-to-end, asking whether the final response is compliant. However, a non-compliant response can arise from several distinct failures: the model may fail to identify the relevant instructions in context, fail to resolve conflicts among identified instructions, or correctly resolve the conflict in its reasoning while still producing a violating response. We introduce a white-box diagnostic framework that localizes instruction hierarchy failures into instruction identification, conflict resolution, and response realization, making failures more interpretable. We evaluate three reasoning models--Gemma-4-31B-IT, Qwen3.6-35B-A3B, and Claude Sonnet 4.6--on long-context adaptations of IHEval and IHChallenge, and find that the dominant failure mode varies across models, tasks, and context length. Building on the observation that models can often detect conflicts and output violations when explicitly prompted, we propose two training-free self-monitoring mechanisms: a parallel input monitor for low-latency conflict detection before generation, and a sequential output monitor for response-level review and repair. Across Gemma-4-31B-IT, Claude Sonnet 4.6, and GPT-5.3, the strongest monitor reduces rule-following non-compliance by 81-99%, with GPT-5.3 reductions of 86% under static attacks and 45% under adaptive attacks.

13:00 JSTLLM/生成AI

モジュラー AI システムへの参加の拡大

人類は多面的な才能とニーズのモザイクであり、真にインテリジェントな AI はその豊かさを反映する必要があります。しかし、全員が使用する LLM は少数の者によって構築されており、人間の知識、推論、価値観の多様性を捉えるには構造的に不向きなモノリシック AI モデルの集中市場です。ここでは、多様な関係者の貢献を通じてモジュール型 AI システムがボトムアップで構築される新しいパラダイムである、スケーリング参加について紹介します。参加者は、自分の興味や優先事項に基づいてトレーニングされた小さなモデルを提供します。これらのモデルは、構成型 AI システムとしてモジュール式フレームワークで連携します。参加型 AI システムは、推論や事実確認など 15 のタスクにわたってモノリシック LLM よりも最大 15.4% 優れたパフォーマンスを発揮し、提供されるすべてのコンポーネントを合わせたよりも大きなモデルを上回ります。さらなる実験では、参加型 AI システムが貢献者の多様性から恩恵を受け、各貢献者の元々の優先順位を大幅に改善し、個々のモデルがすべて失敗する問題の 15% 以上を解決できる創発的な機能を示すことが示されました。参加の拡大は、モノリシックな現状からオープンでボトムアップで協調的な AI の未来に移行するための技術的基盤を提供します。

原文 (English)

Scaling Participation in Modular AI Systems

Humanity is a mosaic of multifaceted talents and needs, and any truly intelligent AI must reflect that richness. Yet the LLMs used by all are built by the few -- a centralized market of monolithic AI models structurally ill-suited to capture the diversity of human knowledge, reasoning, and values. Here we introduce scaling participation, a new paradigm in which modular AI systems are built from the bottom up through the contributions of diverse stakeholders. Participants contribute small models trained on their own interests and priorities; these models then collaborate in modular frameworks as compositional AI systems. Participatory AI systems outperform monolithic LLMs by up to 15.4% across 15 tasks, such as reasoning and factuality, surpassing models larger than all contributed components combined. Further experiments show that participatory AI systems benefit from contributor diversity, substantially improve on each contributor's original priorities, and exhibit emergent capabilities that allow them to solve over 15% of problems where all individual models fail. Scaling participation provides a technical foundation for transitioning from the monolithic status quo toward an open, bottom-up, and collaborative AI future.

13:00 JSTLLM/生成AI

LLM 圧縮のための結合構造プルーニングと混合精度量子化

最近、大規模言語モデル (LLM) の導入効率が、実際のアプリケーションにおいて重大な懸念事項となっています。ポストトレーニング量子化 (PTQ) と構造枝刈りは、メモリ フットプリントと推論レイテンシを削減するための確立された手法ですが、既存の PTQ アプローチのほとんどは、レイヤーごとに量子化エラーを最適化しており、エラーがどのように蓄積してネットワーク内に伝播するかを見逃しており、最適なソリューションが得られないことがよくあります。また、従来のパイプラインでは、枝刈りや量子化が個別にまたは連続して適用される傾向があり、最適化がさらに複雑になります。私たちは、これらの制限に 2 つの重要な方法で対処する、新しいエンドツーエンド フレームワークを導入します。まず、層ごとのエラーを分離するのではなく、モデル全体に​​わたるグローバルなエラーの伝播を直接最小化する、新しい混合精度 PTQ 戦略を提案します。これに基づいて、統合された検索空間内で構造枝刈りの決定と混合精度の量子化ポリシーを同時に学習する新しい共同最適化アプローチを開発します。広範な実験により、超低精度 (1 ~ 3 ビット) で、当社の量子化方法は、最先端 (SoTA) の重み付けアクティベーション量子化ベースラインと比較して、WikiText の混乱度を最大 21% 低減することが示されました。主要な重みのみの量子化手法と比較して、WikiText と C4 でそれぞれ最大 59% と 85% 低いパープレキシティを実現します。 SoTA の統合プルーニングと量子化技術と比較して、私たちが提案する方法は、超低ビットで優れたパープレキシティと推論パフォーマンスを実現します。

原文 (English)

Joint Structural Pruning and Mixed-Precision Quantization for LLM Compression

Recently, the efficiency of Large Language Models (LLMs) deployment has become a critical concern in practical applications. While post-training quantization (PTQ) and structural pruning are established techniques for reducing memory footprint and inference latency, most existing PTQ approaches optimize quantization errors on a per-layer basis, overlooking how errors accumulate and propagate through the network, often resulting in suboptimal solutions. Traditional pipelines also tend to apply pruning and quantization in isolation or sequentially, further compounding sub-optimality. We introduce a novel end-to-end framework that addresses these limitations in two key ways. First, we propose a novel mixed-precision PTQ strategy that directly minimizes global error propagation across the entire model, rather than isolating layer-wise errors. Building on this, we develop a novel joint optimization approach that simultaneously learns structural pruning decisions and mixed-precision quantization policies within a unified search space. Extensive experiments show that, at ultra-low precisions (1-3 bits), our quantization method reduces WikiText perplexity by up to 21% compared to state-of-the-art (SoTA) weight-activation quantization baselines. Against leading weight-only quantization methods, it achieves up to 59% and 85% lower perplexity on WikiText and C4, respectively. Compared to the SoTA joint pruning-and-quantization techniques, our proposed method delivers superior perplexity and reasoning performance at ultra-low bits.

13:00 JSTエージェント

エージェント間のプロトコルを介した規制のボトルネックの克服: 原子力のケーススタディ

新型原子炉設計の規制当局による審査は通常 3 年以上に及び、規制当局と申請者の労力を合わせて数億ドルが費やされます。我々は、規制当局と申請者との間の正式な人対人のパイプラインを構造化された監査可能なエージェントチャネルに置き換える一方で、安全上重要な意思決定ポイントにおける人間の監視を維持するエージェント間の通信標準である Regulatory Context Protocol (RCP) を提案します。このプロトコルは、米国原子力規制委員会の最新型原子炉資料の 1,236 件の文書の分析に基づいて調整されており、マルチエージェントのパイロットを使用して実証されています。 8,900 万米ドル、42 か月の再構築ベースラインに対して、RCP はコストを 50 ~ 77 パーセント (2,100 万~4,400 万米ドル) 削減し、スケジュールを 65 パーセント (15 か月) 削減します。共有プロトコルがなければ、スタンドアロン エージェントは 5,400 万~7,400 万米ドルと 21 か月しか到達しません。残りのコストと時間のギャップは、アルゴリズム的なものではなく構造的なものです。それは、エージェント間の標準のみが圧縮できる組織間のパイプラインに遡ります。同じボトルネック、つまり厳格な監査可能性要件に基づく正式な多者間レビューが、医薬品の承認、環境許可、財務監督、および航空認証の特徴となっています。米国の規制上の事務手続きの負担は、年間 4,265 億ドルの機会費用をもたらします。広く再現すると、予測される 50 ~ 77 パーセントの削減は、年間 2,100 ~ 3,300 億米ドル程度の節約を意味し、これは米国の GDP の 1 パーセントに近づきます。

原文 (English)

Overcoming the Regulatory Bottleneck via Agent-to-Agent Protocols: A Nuclear Case Study

Regulatory review of advanced nuclear reactor designs routinely spans more than three years and consumes hundreds of millions of dollars in combined regulator and applicant labor. We present the Regulatory Context Protocol (RCP), an Agent-to-Agent communication standard that replaces the formal human-to-human pipeline between regulators and applicants with a structured, auditable agentic channel, while preserving human oversight at safety-significant decision points. The protocol is calibrated against an analysis of 1,236 documents from U.S. Nuclear Regulatory Commission advanced reactor dockets and demonstrated with a working multi-agent pilot. Against an 89M USD, 42-month Reconstructed Baseline, RCP cuts costs by 50-77 percent (21M-44M USD) and timelines by 65 percent (15 months). Without a shared protocol, Standalone Agents reach only 54M-74M USD and 21 months. The residual cost-and-time gap is structural, not algorithmic: it traces to the inter-organizational pipeline that only an agent-to-agent standard can compress. The same bottleneck - formal multi-party review under strict auditability requirements - characterizes pharmaceutical approvals, environmental permitting, financial supervision, and aviation certification. The US regulatory paperwork burden carries a 426.5 billion USD annual opportunity cost; replicated broadly, the projected 50-77 percent reduction implies savings on the order of 210-330 billion USD per year - approaching 1 percent of US GDP.

13:00 JSTLLM/生成AI

安全性は状況に応じて決まるが、LLM 審査員はそうではない: 評価者の厳密な事前確率をナビゲートする

LLM が審査員として大規模に安全性を評価する唯一の方法です。その重要性にもかかわらず、LLM ジャッジ自体が単純で静的なベンチマークで人間の同意を超えて評価されることはほとんどありません。したがって、我々は、裁判官としてのLLMの2つの十分に解明されていないが重要な特性、すなわちコンテキスト情報に依存することへの感受性と、内部の安全事前基準と一致しない可能性がある異なる安全定義への操縦可能性を調査する。私たちは、多くのジェネラリスト LLM と安全専門審査員の安全判断能力を評価し、タスクのデモンストレーション、新しい文脈内情報、安全定義の変化の影響を調査します。 LLM 審査員は新しい情報から学ぶことはできますが、文脈や安全性の定義が事前の情報と矛盾する場合、評価を調整する可能性は低いことがわかりました。

原文 (English)

Safety is Contextual, LLM-Judges Are Not: Navigating the Rigid Priors of Evaluators

LLMs-as-judges are the only way to evaluate safety at scale. Despite their importance, LLM-judges themselves are rarely evaluated beyond human agreement in simple, static benchmarks. We therefore investigate two under-explored but crucial properties of LLMs-as-judges: their susceptibility to relying on in context-information, and their steerability to differing safety definitions, which may not align with their internal safety priors. We evaluate the safety judging abilities of many generalist LLMs and safety-specific judges, and investigate the impact of task demonstrations, novel in-context information, and changing safety definitions. We find that while LLM-judges can learn from new information, they are broadly unlikely to adjust their evaluations if the context or safety definition contradicts their prior.

13:00 JSTビジネス/資金調達ClaudeGeminiGrok

AI 認識的従属指数: おべっかの継続的な尺度

現在の AI モデルは認識論的な同調性を示し、ユーザーに同意するという主張を支持することがよくあります。既存の評価では、通常、モデルを二値支持にシフトさせるために何が必要かを評価するか、命題で明示的な確率を導き出すことによって、これを測定します。ただし、ユーザーに対するお調子者行動の多くは、通常の言語で表現される段階的サポートの変化を通じて示されます。私たちは AI Epistemic Deference Index (AEDI) を提案します。これは、モデルの出力で表現されるサポートが、ユーザーのプロンプトで表現される態度に対してどの程度敏感であるかを表す連続的な一次元スコアです。 AEDI を生成するために、人間の判断との一貫性と相関性が検証された判定者としての LLM を使用して、自然言語出力から確率を推定するための新しいプロトコルを提供します。私たちはこれを、さまざまなトピックにわたる 500 の提案と、ユーザーの態度が異なる 16,000 のプロンプトからなる厳選された新しいデータベースに展開し、8 つの著名なモデルをテストしました。どのモデルもかなりの差異を示しますが、プロバイダーごとに大きく体系的な違いがあり、Claude モデルが最も少なく、Grok モデルと Gemini モデルが最も多くなっています。この効果は、書かれたアーティファクトを要求するプロンプトで増幅され、モデルが弱い事前分布を保持する命題に集中します。 AEDI は、出力レベルのおしゃべり評価のための、更新が簡単なベンチマークおよび測定パイプラインとしてリリースされています。

原文 (English)

The AI Epistemic Deference Index: A Continuous Measure of Sycophancy

Current AI models frequently exhibit epistemic sycophancy, endorsing claims to agree with a user. Existing evaluations typically measure this either by assessing what it takes to make a model shift a binary endorsement or by eliciting an explicit probability in a proposition. However, much user-facing sycophantic behavior is demonstrated through shifts in graded support expressed through ordinary language. We propose the AI Epistemic Deference Index (AEDI): a continuous, unidimensional score representing how sensitive the support expressed in a model's output is to the attitude expressed in a user's prompt. To generate AEDI, we provide a new protocol for estimating probabilities from natural language outputs, using LLMs-as-judges validated for consistency and correlation to human judgment. We deploy it on a new curated database of 500 propositions across diverse topics and 16,000 prompts varying in user attitude, testing eight prominent models. Every model exhibits substantial deference, though with large and systematic differences across providers, with Claude models demonstrating the least, and Grok and Gemini models the most. The effect is amplified in prompts requesting a written artifact, and concentrated on propositions where models hold weaker priors. We release AEDI as an easy-to-update benchmark and measurement pipeline for output-level sycophancy evaluation.

13:00 JSTLLM/生成AIエージェント

Contract2Tool: 信頼できるツールで強化された LLM エージェントの前提条件と効果の学習

ツールで拡張された大規模言語モデルのエージェントは、外部 API への依存度が高まっていますが、標準ツール スキーマは、ツールが因果的に適切である時期や、ツールが生成するタスク状態ではなく、ツールを呼び出す方法を記述します。因果関係ツールのフィルタリングは、各ツールの前提条件、効果、リスク レベル、コストを指定する軽量のコントラクトを使用して、このギャップに対処します。ただし、このような契約を手動で作成して維持することは、大規模なツール エコシステムや変化するツール エコシステムには対応できません。メタデータ、スキーマ、ドキュメント、実行トレースからツール コントラクトを推測するためのフレームワークである Contract2Tool を紹介します。 Contract2Tool は、観察可能なツールの証拠を正規化されたシンボリック コントラクトに変換します。このコントラクトは本質的に評価でき、下流の因果関係ツール フィルタリング内に展開できます。学習した契約をゴールドの前提条件、効果、リスクラベルに照らして評価し、複数ステップのエージェントタスクにおける下流の有用性を測定します。私たちの結果は、ハイブリッド文書化とトレース証拠により、ゴールド契約の信頼性と効率性の利点のほとんどを維持するのに十分正確な契約を作成できることを示しています。学習済みコントラクト CMTF は、ゴールド コントラクト CMTF の 0.990 に近い 0.980 のダウンストリーム成功を達成し、同時に可視ツールを 100 から 1 に減らし、全ツールのエクスポージャーと比較して平均トークン使用量を 26,172 から 2,528 に削減しました。これらの結果は、学習されたコントラクトがツール スキーマと信頼性の高いエージェント実行の間にスケーラブルなコントラクト層を提供できることを示唆しています。

原文 (English)

Contract2Tool: Learning Preconditions and Effects for Reliable Tool-Augmented LLM Agents

Tool-augmented large language model agents increasingly rely on external APIs, but standard tool schemas describe how to call a tool, not when the tool is causally appropriate or what task state it produces. Causal tool filtering addresses this gap by using lightweight contracts that specify each tool's preconditions, effects, risk level, and cost. However, manually writing and maintaining such contracts does not scale to large or changing tool ecosystems. We introduce Contract2Tool, a framework for inferring tool contracts from metadata, schemas, documentation, and execution traces. Contract2Tool converts observable tool evidence into normalized symbolic contracts that can be evaluated intrinsically and deployed inside downstream causal tool filtering. We evaluate learned contracts against gold preconditions, effects, and risk labels, and measure their downstream utility on multi-step agent tasks. Our results show that hybrid documentation-and-trace evidence produces contracts accurate enough to preserve most of the reliability and efficiency benefits of gold contracts. Learned-contract CMTF achieves 0.980 downstream success, close to 0.990 for gold-contract CMTF, while reducing visible tools from 100 to 1 and reducing average token usage from 26,172 to 2,528 relative to all-tools exposure. These results suggest that learned contracts can provide a scalable contract layer between tool schemas and reliable agent execution.

13:00 JSTLLM/生成AIエージェント

MemToolAgent の概要と、エージェントが同様の記憶を取得し、無効な時間形式に関するフィードバックを受け取り、記憶を更新するためのリフレクションを生成する単純なレストラン予約シナリオを示します。

最新の大規模言語モデル (LLM) エージェントは、外部ツールを使用して、ユーザーが複雑なタスクを解決できるように支援できます。ただし、長期にわたる履歴イベントや以前のエージェントと環境の相互作用から学習する必要がある問題の場合、LLM エージェントはメモリ メカニズムを使用してエクスペリエンスを保存および取得する必要があります。対話エージェントには高度な記憶システムが存在しますが、過去のユーザーとエージェントの会話を通じてエージェントのツール使用能力を向上させる方法を実証的に検討した研究はほとんどありません。私たちは、メモリ管理を通じてツールの使用を改善するフレームワークである MemToolAgent を提案します。私たちのアプローチには、過去の経験を処理して構造化された記憶エントリを生成する記憶抽出モジュールと、格納された記憶エントリのサブセットを動的に選択する取得モジュールが含まれています。これにより、LLM の微調整を必要とせずに、ユーザーの好みやフィードバックに合わせた、よりパーソナライズされた正確な応答が可能になります。要約すると、この研究には 3 つの主な貢献があります。(1) LLM の微調整を行わずに汎用ツールとパーソナライズされたツールの両方の使用を改善する統合メモリ エントリ形式、(2) 環境とユーザーのフィードバックを使用して誤った実行を保存する批判に抽出するリフレクション ベースのメモリ抽出、(3) メモリの類似性分布に基づいて使用する過去の経験の数を選択する検索モジュール。 MemToolAgent は、WorkBench、NESTFUL、PEToolBench ベンチマークの強力なベースラインと比較して、それぞれ 29%、80%、17% の相対的な改善を達成しました。

原文 (English)

MemToolAgent overview with a simple restaurant booking scenario where the agent retrieves similar memories, receives feedback on an invalid time format, and generates a reflection to update its memory

Modern large language model (LLM) agents can use external tools to help users solve complex tasks. However, for problems that require learning from long-term historical events or from previous agent-environment interactions, LLM agents are required to use memory mechanisms to store and retrieve experiences. While sophisticated memory systems exist for dialogue agents, few studies have empirically examined how to improve agents' tool-using capabilities through past user-agent conversations. We propose MemToolAgent, a framework that improves tool use through memory management. Our approach contains a memory extraction module that processes past experiences into structured memory entries, and a retrieval module that dynamically selects a subset of the stored memory entries. This enables more personalized and accurate responses aligned with user preferences and feedback without requiring LLM fine-tuning. In summary, this work has three main contributions: (1) a unified memory entry format that improves both general-purpose and personalized tool use without LLM fine-tuning, (2) a reflection-based memory extraction that uses environment and user feedback to distill wrong executions into critiques to store, and (3) a retrieval module that chooses how many past experiences to use based on the memory similarity distribution. MemToolAgent achieves 29%, 80%, and 17% relative improvements compared to strong baselines on the WorkBench, NESTFUL, and PEToolBench benchmarks, respectively.

13:00 JST研究/論文

EditSR: 編集ベースの修正によるニューラルシンボリック回帰の強化

ニューラルシンボリック回帰モデルは、構造検索を事前トレーニングに移行することで推論効率を向上させますが、ワンパス自己回帰デコードではエラーが蓄積する傾向があり、特に複雑な式生成シナリオでは、構造的に正しくない式が生成される可能性があります。既存の修正戦略はこの問題を軽減できますが、多くの場合、グローバル検索の再開に依存するため、ニューラル モデルの効率性の利点が弱まり、エラーが蓄積されやすいままになります。この論文では、効率的な予測とポストホック修正を実現するために、最初の層のニューラル シンボリック回帰モデルと 2 番目の層の編集ベースの Rectifier を組み合わせた 2 層フレームワークである EditSR を提案します。グローバル検索を再開する代わりに、Rectifier を事前トレーニングすることで修正効率を維持します。具体的には、誤った式から始まる段階的な状態遷移チェーンとして修正プロセスを定式化し、Rectifier をトレーニングするための教師あり修正チェーンを構築する状態遷移アルゴリズムを開発します。修正全体を通じて構文の有効性を確保するために、各編集アクションは構文的に有効なスペースに制限され、編集されたすべての式が解析可能な状態に保たれます。さらに、各編集の決定は履歴ではなく現在の状態に基づいて条件付けされるため、Rectifier を使用すると、前のステップで発生したエラーを後続の編集で修正できるため、エラーが蓄積するリスクが軽減されます。広範な実験とアブレーション研究により、EditSR は限られた追加コストでシンボリック構造の回復を大幅に改善し、ワンパス自己回帰デコードではエラーが蓄積されやすい複雑な式でより顕著な効果が得られることが示されています。

原文 (English)

EditSR: Enhancing Neural Symbolic Regression via Edit-based Rectification

Neural symbolic regression models improve inference efficiency by shifting structural search to pretraining, but their one-pass autoregressive decoding is prone to error accumulation, which may lead to generating structurally incorrect expressions, especially in complex expression generation scenarios. Existing rectification strategies can alleviate this issue, but they often depend on restarting global search, thereby weakening the efficiency advantage of neural models, and remain susceptible to error accumulation. In this paper, we propose EditSR, a two-layer framework that combines a neural symbolic regression model in the first layer with an edit-based Rectifier in the second layer to achieve efficient prediction and post-hoc rectification. Instead of restarting the global search, we maintain rectification efficiency by pretraining the Rectifier. Specifically, we formulate the rectification process as a step-by-step state-transition chain starting from an incorrect expression, and develop a state-transition algorithm to construct supervised rectification chains for training the Rectifier. To ensure syntactic validity throughout rectification, each edit action is restricted to a syntactically valid space so that every edited expression remains parseable. In addition, because each edit decision is conditioned on the current state rather than the history, the Rectifier allows errors made in earlier steps to be rectified by subsequent edits, thereby reducing the risk of error accumulation. Extensive experiments and ablation studies show that EditSR substantially improves symbolic structure recovery with limited extra cost, with more pronounced gains on complex expressions, where one-pass autoregressive decoding is more susceptible to error accumulation.

13:00 JST研究/論文

AI によって生成された証拠を検出するための CIFAR 総合証拠コーパス

現実的な文書を生成する生成モデルの能力の向上は、司法制度や裁判所における証拠ワークフローに直接的な課題をもたらしており、そこでは決定が領収書、通信、管理記録などの証拠の信頼性にますます依存するようになっています。ソーシャルメディアや学術的な場とは異なり、証拠文書は多くの場合、法的意味を変更しながら全体的な妥当性を維持する、局所的な小さな編集で微妙に変更されるだけです。しかし、司法制度の要件に特に適した適切なトレーニングおよび評価データが存在しないことが主な原因で、自動検出の進歩は依然として限られています。既存のリソースは、人の顔や自然の風景の写真、または狭い範囲の学術文書やソーシャルメディアの文書タイプに焦点を当てており、現実世界の証拠データに特徴的な構造、多様性、または操作パターンを捉えていません。その結果、現在の検出システムは必ずしも司法制度に適した意味のある信号を学習するとは限りません。現実的かつ制御された条件下で証拠検証の厳密な評価を可能にするように設計されたデータセットである CIFAR Synthetic Evidence Corpus を紹介します。このコーパスは、複数の文書ファミリーと、小規模なフィールドレベルの編集から完全な文書の作成に至るまで、さまざまな操作戦略にまたがっており、最先端の生成ツールの多様なセットを使用して構築されています。これは、現実世界の一般化の課題を反映するために、トレーニング データとテスト データの間のソース レベルの分離を強制しながら、操作の複雑さと生成方法の両方を体系的に変更するように構成されています。

原文 (English)

The CIFAR Synthetic Evidence Corpus for Detecting AI-Generated Evidence

The growing ability of generative models to produce realistic documents poses a direct challenge to evidentiary workflows in the justice system and the courts, where decisions increasingly depend on the authenticity of evidence such as receipts, communications, and administrative records. Unlike social media or academic settings, evidentiary documents are often only subtly altered, with small, localized edits that preserve overall plausibility while changing legal meaning. Yet progress on automated detection remains limited, largely due to the absence of suitable training and evaluation data especially suited for the justice system requirements. Existing resources are either focused on photos of human faces or natural scenery or on narrowly scoped academic or social media document types, and do not capture the structure, diversity, or manipulation patterns characteristic of real-world evidentiary data. As a result, current detection systems do not necessarily learn meaningful signals appropriate for the justice system. We introduce the CIFAR Synthetic Evidence Corpus, a dataset designed to enable rigorous evaluation of evidence verification under realistic and controlled conditions. The corpus spans multiple document families and a spectrum of manipulation strategies, from small field-level edits to complete document fabrication, and is constructed using a diverse set of state-of-the-art generative tools. It is organized to systematically vary both manipulation complexity and generation method, while enforcing source-level separation between training and test data to reflect real-world generalization challenges.

13:00 JSTLLM/生成AI研究/論文

医療用大規模言語モデルのストレステストにより、ベンチマークの精度を超えた潜在的な安全性の病理が明らかになります

大規模言語モデル (LLM) は、安全関連の障害モードを検出できない可能性があるベンチマーク精度に基づいて臨床現場に導入されています。ここでは、肝臓学から臨床LLMの評価まで代謝ストレス検査のロジックを適応させるストレス監査フレームワークであるAI-MASLDを紹介します。 6 つのナラティブ摂動プローブにわたる 240 の臨床症例を使用して、7 つのモデルに二重ストレス テストを実施し、代謝指数 (MI)、摂動フリップ率 (PFR)、および反事実的公平性指数 (CFI) の 3 つの指標を通じてパフォーマンスを定量化しました。クリーンなベースライン条件下では、すべてのモデルが均一に良好なパフォーマンスを発揮しました。現実的な物語のストレス下では、パフォーマンスは急激に乖離し、2 つの異なるストレス反応表現型が明らかになりました。量子化モデルは擬似正規化を示し、低いフリップレートが機能の崩壊を隠しました。医療監督下での微調整は、論理的安定性、公平性、情報抽出を体系的に低下させました。オープンウェイト モデルは、あらゆる安全面で独自の代替モデルと同等かそれを上回りました。これらの発見により、正確さに基づいた評価を補完するために必要なナラティブ ストレス監査が確立されています。

原文 (English)

Stress-testing medical large language models reveals latent safety pathology beyond benchmark accuracy

Large language models (LLMs) are entering clinical practice based on benchmark accuracy that may fail to detect safety-relevant failure modes. Here we present AI-MASLD, a stress-audit framework that adapts the logic of metabolic stress testing from hepatology to the evaluation of clinical LLMs. Using 240 clinical cases across six narrative perturbation probes, we subjected seven models to double-stress testing and quantified performance through three indices: metabolic index (MI), perturbation flip rate (PFR), and counterfactual fairness index (CFI). Under clean baseline conditions, all models performed uniformly well. Under realistic narrative stress, performance diverged sharply, revealing two distinct stress-response phenotypes. Quantized models exhibited pseudonormalization, in which low flip rates hid functional collapse. Medical supervised fine-tuning systematically degraded logical stability, fairness, and information extraction. An open-weight model matched or exceeded proprietary alternatives on every safety dimension. These findings establish narrative stress auditing as a necessary complement to accuracy-based evaluation.

13:00 JST研究/論文

クローズド・オープンの産業用検出シナリオの統合: 新しい大規模ベンチマーク、課題、ベースライン

大規模視覚言語モデル (LVLM) は、自然な視覚タスクで目覚ましい成功を収めていますが、産業上の欠陥検出への応用は、(i) 複数のドメインにわたる多様な欠陥カテゴリをカバーする大規模な産業用データセットの不足、(ii) 手動プロンプト (ポイント、ボックス、マスク) への依存により、主観的なノイズが発生し、きめ細かい理解のためのテキストと視覚の相互作用が欠如しているという 2 つの基本的な制限により、依然として困難です。これらの課題に対処するために、$14$ のスーパー カテゴリ、$29$ の産業シーン、$351$ の欠陥サブカテゴリにわたって 100 万を超えるサンプルを含む大規模マルチモーダル産業用オープンクローズド ベンチマーク (MMIOC-1M) を導入しました。私たちの知る限り、MMIOC-1M は、オープン語彙とクローズドセットの産業検出の両方をサポートする初の統合最大ベンチマークであり、産業シナリオにおける LVLM に貴重な事前トレーニング データを提供します。さらに、我々は、次の 3 つの主要なイノベーションを組み込んだ洗練されたテキストビジュアルプロンプト ネットワーク (RTVPNet) を提案します。(1) 一般的なビジョン モデルを産業ドメインに迅速に適応できるようにする専門家支援のドメイン投影メカニズム、(2) 手動介入なしで洗練されたビジュアル プロンプトを自動的に生成するエネルギー ベースのスパース サンプリング戦略、および (3) クロスモーダルの意味論的な調整と理解を強化する双方向のテキストとビジュアルのインタラクション モジュール。広範な実験により、RTVPNet が計算効率を維持しながら、MMIOC-1M、LVIS、および COCO ベンチマークで最先端のパフォーマンスを達成することが実証されました。データセットとコードは https://github.com/hellozzk/MMIO で入手できます。

原文 (English)

Unification of Closed-Open Industrial Detection Scenarios: New Large-Scale Benchmarks,Challenges and Baselines

Large-scale Visual-Language Models (LVLMs) have achieved remarkable success in natural visual tasks, yet their application to industrial defect detection remains challenging due to two fundamental limitations: (i) the scarcity of large-scale industrial datasets that cover diverse defect categories across multiple domains, and (ii) the reliance on manual prompts (points, boxes, masks) that introduce subjective noise and lack text-visual interaction for fine-grained understanding. To address these challenges, we introduce a Large-Scale Multi-Modal Industrial Open-Closed benchmark (MMIOC-1M) containing over one million samples across $14$ super-categories, $29$ industrial scenes, and $351$ defect subcategories. To our knowledge, MMIOC-1M is the first unified largest benchmark supporting both open-vocabulary and closed-set industrial detection, providing valuable pre-training data for LVLMs in industrial scenarios. Furthermore, we propose a Refined Text-Visual Prompt Network (RTVPNet) that incorporates three key innovations: (1) an expert-assisted domain projection mechanism that enables rapid adaptation of general vision models to industrial domains, (2) an energy-based sparse sampling strategy that automatically generates refined visual prompts without manual intervention, and (3) a bidirectional text-visual interaction module that enhances cross-modal semantic alignment and understanding. Extensive experiments demonstrate that RTVPNet achieves state-of-the-art performance on MMIOC-1M, LVIS, and COCO benchmarks while maintaining computational efficiency. The dataset and code are available at https://github.com/hellozzk/MMIO.

13:00 JSTLLM/生成AIGemmaLlama

共有された潜在構造により、LLM での統合されたバックドアの検出と軽減が可能になります

大規模言語モデル (LLM) におけるバックドア攻撃は、多くの場合、孤立したトリガーと応答の失敗として扱われ、特定のトリガーや動作に合わせた防御が動機付けられます。このビューが不完全であることを示します。さまざまなバックドアの動作にわたって、検出、因果関係に基づいて制御、抑制できる共通の潜在メカニズムを特定します。残差ストリームのアクティベーションにスパース オートエンコーダー (SAE) を使用すると、ジェイルブレイク、拒否操作、パスワード ロック、バイアス誘導、感情の誤分類、および国に条件付けされた有害なアドバイスにわたって、少数の潜在的な機能が一貫してアクティベートされていることがわかります。これらの機能は、4B から 32B パラメーターまでの Qwen3、Gemma~3、および Llama~3.1 モデル全体、および微調整攻撃と重み編集攻撃の両方にわたって一般化されます。双方向のアクティベーションステアリングを通じて、これらの特徴が因果関係であることを示します。これらの特徴を抑制すると攻撃の成功率が低下し、増幅するとクリーンなプロンプトでターゲットの行動が誘発されます。さらに、ゼロショットから目に見えないバックドアまでを一般化し、残差ストリームおよび重み差ベースラインを上回る軽量の SAE 特徴分類器をトレーニングします。最後に、トレーニング中に共有された潜在部分空間をアブレーションすることでバックドアの形成を抑制する Concept Ablation Fine-Tuning (CAFT) を紹介します。総合すると、私たちの結果は、多くのバックドアが転送可能な潜在的なメカニズムに依存しており、統合された検出と軽減を可能にしていることを示唆しています。

原文 (English)

Shared Latent Structures Enable Unified Backdoor Detection and Mitigation in LLMs

Backdoor attacks in large language models (LLMs) are often treated as isolated trigger-response failures, motivating defenses tailored to specific triggers or behaviors. We show this view is incomplete. Across diverse backdoor behaviors, we identify a shared latent mechanism that can be detected, causally controlled, and suppressed. Using sparse autoencoders (SAEs) on residual-stream activations, we find a small set of latent features consistently activated across jailbreaking, refusal manipulation, password-locking, bias induction, sentiment misclassification, and country-conditioned harmful advice. These features generalize across Qwen3, Gemma~3, and Llama~3.1 models from 4B to 32B parameters, and across both fine-tuning and weight-editing attacks. Through bidirectional activation steering, we show these features are causal: suppressing them reduces attack success, while amplifying them induces target behaviors on clean prompts. We further train lightweight SAE-feature classifiers that generalize zero-shot to unseen backdoors and outperform residual-stream and weight-diffing baselines. Finally, we introduce Concept Ablation Fine-Tuning (CAFT), which suppresses backdoor formation by ablating the shared latent subspace during training. Together, our results suggest that many backdoors rely on a transferable latent mechanism, enabling unified detection and mitigation.

13:00 JST研究/論文

産業シナリオにおけるゼロショット学習: 新しい大規模ベンチマーク、課題、ベースライン

Large Visual Language Model (LVLM) は、視覚タスクにおいて目覚ましい成功を収めています。ただし、産業シーンと自然シーンには大きな違いがあるため、LVLM の適用は困難になります。既存の LVLM は、ユーザーが提供するプロンプトに依存してオブジェクトをセグメント化します。これにより、無関係なピクセルが含まれるため、最適なパフォーマンスが得られないことがよくあります。さらに、データが不足しているため、産業シナリオでの LVLM のアプリケーションは未開発のままです。このギャップを埋めるために、この論文では、ゼロショットの工業欠陥検出のためのオープン工業データセットと洗練されたテキストビジュアルプロンプト (RTVP) を提案します。まず、この論文は 80,000 以上のサンプルを含むマルチモーダル産業オープン データセット (MMIO) を構築します。 MMIO には、6 つのスーパー カテゴリと 18 のサブカテゴリを含む、多様な産業カテゴリが含まれています。 MMIO は、産業用ゼロショット学習用の初の大規模マルチシーン事前トレーニング データセットであり、将来の産業シナリオにおけるオープン モデルに貴重なトレーニング データを提供します。このペーパーでは、MMIO に基づいて、産業用ゼロショット タスクに特化した RTVP を提供します。 RTVP には 2 つの大きな利点があります。1 つ目は、この論文では専門家の指導による大規模モデルのドメイン適応メカニズムを設計し、Mobile-SAM に基づいた産業用ゼロショット手法を設計します。これにより、産業シナリオにおける大規模モデルの一般化能力が強化されます。第 2 に、RTVP は画像から直接視覚的なプロンプトを自動的に生成し、以前の LVLM では無視されたテキストと視覚的なプロンプトの対話を考慮して、視覚的およびテキストによるコンテンツの理解を向上させます。 RTVP は、MMIO のゼロショットおよびクローズド シーンで 42.2% と 24.7% の AP で SOTA を達成します。

原文 (English)

Zero-Shot Learning in Industrial Scenarios: New Large-Scale Benchmark, Challenges and Baseline

Large Visual Language Models (LVLMs) have achieved remarkable success in vision tasks. However, the significant differences between industrial and natural scenes make applying LVLMs challenging. Existing LVLMs rely on user-provided prompts to segment objects. This often leads to suboptimal performance due to the inclusion of irrelevant pixels. In addition, the scarcity of data also makes the application of LVLMs in industrial scenarios remain unexplored. To fill this gap, this paper proposes an open industrial dataset and a Refined Text-Visual Prompt (RTVP) for zero-shot industrial defect detection. First, this paper constructs the Multi-Modal Industrial Open Dataset (MMIO) containing 80K+ samples. MMIO contains diverse industrial categories, including 6 super categories and 18 subcategories. MMIO is the first large-scale multi-scenes pre-training dataset for industrial zero-shot learning, and provides valuable training data for open models in future industrial scenarios. Based on MMIO, this paper provides a RTVP specifically for industrial zero-shot tasks. RTVP has two significant advantages: First, this paper designs an expert-guided large model domain adaptation mechanism and designs an industrial zero-shot method based on Mobile-SAM, which enhances the generalization ability of large models in industrial scenarios. Second, RTVP automatically generates visual prompts directly from images and considers text-visual prompt interactions ignored by previous LVLM, improving visual and textual content understanding. RTVP achieves SOTA with 42.2% and 24.7% AP in zero-shot and closed scenes of MMIO.

13:00 JSTLLM/生成AIハードウェア/半導体

PAFO: パーソナライズされた報酬モデリングのためのパレート公平性の最適化

大規模言語モデル (LLM) は、出力を多様なユーザーの好みに合わせるために、報酬モデルへの依存度を高めています。パーソナライズされた報酬モデルはそのような異質性を捉えることを目的としていますが、多くの場合、不均衡なユーザーの嗜好データに基づいてトレーニングされるため、トレーニング母集団の中でより一般的な嗜好を持つユーザーを優先する可能性があります。この論文では、この失敗モードを個人化された報酬バイアスとして特定します。報酬モデリングの品質は、選好支持率に応じて体系的に変化します。私たちはその緩和策をグループ ユーティリティに対するパレート公平性問題として定式化し、他のユーザー グループを低下させることなくサービスが十分に受けられていないユーザーを改善することを目指しています。この目的を達成するために、パーソナライズされた報酬モデリングのためのパレート公平性最適化フレームワークである PAFO を提案します。 PAFO は、まず多数派と少数派の選好グループに対してグループに特化した報酬モデルをトレーニングし、次に条件付きマージンレベルの監視を構築して、不均一な選好の境界を単一の統一モデルに抽出します。結果として得られるモデルは、トレーニング中にのみグループ情報を使用し、推論時に明示的なグループ ラベルを必要としません。 Personal-LLM と DSP の実験では、PAFO が少数派グループと多数派グループの両方の精度を向上させながら、複数の指標にわたるユーザーレベルの不公平性を軽減することが示されており、より公平な LLM パーソナライゼーションに対する PAFO の有効性が実証されています。

原文 (English)

PAFO: Pareto Fairness Optimization for Personalized Reward Modeling

Large language models (LLMs) increasingly rely on reward models to align their outputs with diverse user preferences. While personalized reward models aim to capture such heterogeneity, they are often trained on imbalanced user preference data and may therefore favor users whose preferences are more common in the training population. In this paper, we identify this failure mode as personalized reward bias, where reward modeling quality varies systematically with preference support rate. We formulate its mitigation as a Pareto fairness problem over group utilities, aiming to improve under-served users without degrading other user groups. To this end, we propose PAFO, a Pareto fairness optimization framework for personalized reward modeling. PAFO first trains group-specialized reward models for majority and minority preference groups, then constructs conditional margin-level supervision to distill their heterogeneous preference boundaries into a single unified model. The resulting model uses group information only during training and requires no explicit group labels at inference time. Experiments on Personal-LLM and DSP show that PAFO improves both minority-group and majority-group accuracy while reducing user-level unfairness across multiple metrics, demonstrating its effectiveness for fairer LLM personalization.

13:00 JSTエージェントGPT / ChatGPTGemini

VATS: 体系的な変更によるエラーパス挿入における暗黙の権限の悪用

モデル コンテキスト プロトコル (MCP) は自律エージェントのツール呼び出しを標準化するため、エラー処理ループという重要な未調査の攻撃面が導入されます。私たちは、ツールのエラー メッセージには暗黙の権限があり、標準の安全ヒューリスティックをバイパスする修正推論モードをトリガーすると仮定します。 VATS (ツール ストリームの脆弱性分析) を紹介します。これは、7 つの構造的および言語的次元にわたって敵対的なペイロードを系統的に進化させる、突然変異駆動型のフレームワークです。 Gemini 3.1 Pro、GPT-5.5、GLM-5.1、Qwen3-Coder の 4 つのフロンティア モデルにわたる評価では、エラーパス インジェクションによって標準の間接プロンプト インジェクション (IPI) の成功率が 3 倍になり、制御された評価で最大 100% のコンプライアンスが達成されることが実証されました。私たちは、テストされたすべてのモデルにわたって、最も効果的な悪用ベクトルとして構造的な位置決め (エラー コンテキスト内に命令を挟む) を分離します。実稼働フレームワークのガードレールはこれらの脆弱性を軽減できることがわかっていますが、モデル層に固有の脆弱性により、オーダーメイドのエージェント ワークフローに体系的なリスクが生じます。

原文 (English)

VATS: Exploiting Implicit Authority in Error-Path Injection via Systematic Mutation

As the Model Context Protocol (MCP) standardizes tool-calling for autonomous agents, it introduces a critical, unexamined attack surface: the error-handling loop. We hypothesize that tool error messages possess implicit authority, triggering corrective reasoning modes that bypass standard safety heuristics. We introduce VATS (Vulnerability Analysis of Tool Streams), a mutation-driven framework that systematically evolves adversarial payloads across seven structural and linguistic dimensions. Our evaluation across four frontier models, Gemini 3.1 Pro, GPT-5.5, GLM-5.1, and Qwen3-Coder, demonstrates that error-path injection triples the success rate of standard indirect prompt injection (IPI), achieving up to 100% compliance in controlled evaluations. We isolate structural positioning (sandwiching instructions within error context) as the most effective exploit vector across all tested models. While we find that production framework guardrails can mitigate these vulnerabilities, the inherent susceptibility of the model layer poses a systemic risk to bespoke agentic workflows.

13:00 JSTエージェント

小さな言語モデルを使用したコードリファクタリングによる効率的なスキルの基礎付け

わずかな実施形態や環境の違いでもスキル全体の互換性がなくなる可能性があるため、具体化されたエージェントに再利用可能なスキルを展開するには、効果的なスキルの基礎付けが不可欠です。この課題は、エージェントが大規模言語モデル (LLM) にアクセスせずに動的で部分的に監視可能な環境で動作する必要がある具体化された設定で特に顕著です。この設定では、LLM への依存は現実的ではありませんが、小規模言語モデル (sLM) は、長期にわたる信頼性の高い制御に必要な効果的なスキルの基礎としては依然として不十分です。スキルのセマンティクスを実施形態および環境固有の実行バインディングから切り離すことで、sLM による効率的なスキルの基礎付けを可能にする、リファクタリング中心のエージェント フレームワークである RECENT を紹介します。スキルを実行可能コードとして表現することで、RECENT は、コードを最初から再生成するのではなく、ローカライズされたリファクタリングを通じて実行バインディングのみを変更することで基盤を確立しながら、スキルの制御構造にエンコードされたセマンティックな意図を保持します。私たちは、動的環境における複数のロボットの実施形態にまたがる多様なスキル基礎シナリオにわたって RECENT を評価し、sLM を導入した場合の長期にわたる堅牢なパフォーマンスを実証します。すべてのシナリオにわたって、RECENT は sLM ベースの Code-as-Policies (CaP) メソッドの中で最高のパフォーマンスを達成し、LLM ベースの CaP のタスク パフォーマンスに匹敵します。

原文 (English)

Efficient Skill Grounding via Code Refactoring with Small Language Models

Effective skill grounding is essential for deploying reusable skills in embodied agents, as even minor embodiment or environmental differences can render an entire skill incompatible. This challenge is particularly pronounced in embodied settings, where agents must operate in dynamic, partially observable environments without access to large language models (LLMs). In this setting, reliance on LLMs is impractical, while small language models (sLMs) remain insufficient for the effective skill grounding required for reliable long-horizon control. We present RECENT, a refactoring-centric agent framework that enables efficient skill grounding with sLMs by decoupling skill semantics from embodiment- and environment-specific execution binding. By representing skills as executable code, RECENT preserves the semantic intent encoded in a skill's control structure while grounding it by modifying only execution bindings through localized refactoring, rather than regenerating code from scratch. We evaluate RECENT across diverse skill grounding scenarios spanning multiple robot embodiments in dynamic environments, demonstrating robust long-horizon performance when deployed with an sLM. Across all scenarios, RECENT achieves the best performance among sLM-based Code-as-Policies (CaP) methods and matches the task performance of LLM-based CaP.

13:00 JST研究/論文

UniQL: Text-to-SQL の方言ユニバーサルベンチマークに向けて

既存の text-to-SQL ベンチマークは主に SQLite を中心にしているため、モデルが異種 SQL 言語間で一般化できるかどうかを評価することが困難になっています。ただし、実際のデータベース システムは、構文、関数、型システム、および実行セマンティクスが大幅に異なるため、同じ自然言語の意図でも方言固有の SQL の実現が必要になることがよくあります。 UniQL は、方言を超えたテキストから SQL への評価のための人によって検証されたベンチマークです。 UniQL は、1,534 の自然言語の質問を 16 の SQL 方言にわたる実行可能な SQL アノテーションと調整し、24,544 の方言固有のクエリを生成します。すべての方言は同じ意図、調整されたスキーマ、およびデータベースの内容を共有するため、方言の一般化の制御された評価が可能になります。 UniQL は、データベース移行、SQL 変換、実行ガイド付き検証、反復ルール要約、人間による検証を組み合わせたハイブリッド パイプラインを通じて構築されます。オープンソースとクローズドソースの LLM の両方での実験では、現在のモデルは依然として方言汎用性からは程遠く、データベース システム間でパフォーマンスに大きなばらつきがあり、SQLite の成功から他の方言への移行が限定的であることが示されています。これらの調査結果は、方言を超えて調整されたベンチマークと、より方言を意識したテキストから SQL への手法の必要性を浮き彫りにしています。コードとデータは https://github.com/JerryGao818/UniQL で入手できます。

原文 (English)

UniQL: Towards Dialect-Universal Benchmarking for Text-to-SQL

Existing text-to-SQL benchmarks are largely centered on SQLite, making it difficult to evaluate whether models can generalize across heterogeneous SQL dialects. However, real-world database systems differ substantially in syntax, functions, type systems, and execution semantics, so the same natural language intent often requires dialect-specific SQL realizations. We introduce UniQL, a human-verified benchmark for cross-dialect text-to-SQL evaluation. UniQL aligns 1,534 natural language questions with executable SQL annotations across 16 SQL dialects, yielding 24,544 dialect-specific queries. All dialects share the same intents, aligned schemas and database contents, enabling controlled evaluation of dialect generalization. UniQL is constructed through a hybrid pipeline combining database migration, SQL translation, execution-guided verification, iterative rule summarization, and human validation. Experiments on both open-source and closed-source LLMs show that current models remain far from dialect-universal, with substantial performance variation across database systems and limited transfer from SQLite success to other dialects. These findings highlight the need for aligned cross-dialect benchmarks and more dialect-aware text-to-SQL methods. Code and data are available at https://github.com/JerryGao818/UniQL

13:00 JST画像/動画生成

OSMGraphCLIP: OpenStreetMap グラフからグローバルな位置表現を学習する

OSMGraphCLIP は、自由に利用できる OpenStreetMap (OSM) データからグローバルな位置の埋め込みを学習する CLIP スタイルの地理空間表現モデルです。 OSMGraphCLIP は、地理環境を型指定された OSM フィーチャの異種グラフとして表現し、道路、建物、土地利用地域、および関心のある地点間のトポロジー的およびセマンティックな関係を維持します。マルチスケール グラフ エンコーダは、きめの細かい局所構造とより広範な景観構成の両方を捕捉し、対照的な位置合わせ目標を通じて球面調和関数位置エンコーダを監視します。私たちは、気候、生態学、社会経済指標、公衆衛生、土地被覆、生物多様性、山火事予測に及ぶ下流の地理空間回帰および分類タスクの多様なスイート全体にわたって OSMGraphCLIP を評価し、構造化された OSM データのみがドメイン全体にわたる強力なグローバル位置表現をサポートしていることを示します。 OSMGraphCLIP は、大部分のベンチマークで衛星ベースのベースラインと同等かそれを上回っており、社会経済および公衆衛生のタスクにおいて最も顕著な利点があり、構築された環境に対する OSM の明示的なセマンティック アノテーションは、衛星ピクセルが間接的にしかキャプチャできない人間の活動のパターンをエンコードしています。生態学的および環境的課題に関して、このモデルは、地球観測データを使用していないにもかかわらず、画像ベースの手法と依然として緊密に競合しています。定性的分析により、学習されたエンベディングが地理空間を一貫して組織化し、マップ トポロジーのみから生物群系の境界、都市の勾配、熱帯と温帯の区別を回復していることが確認されています。

原文 (English)

OSMGraphCLIP: Learning Global Location Representations from OpenStreetMap Graphs

We present OSMGraphCLIP, a CLIP-style geospatial representation model that learns global location embeddings from freely available OpenStreetMap (OSM) data. OSMGraphCLIP represents geographic environments as heterogeneous graphs of typed OSM features, preserving the topological and semantic relationships among roads, buildings, land-use regions, and points of interest. A multi-scale graph encoder captures both fine-grained local structure and broader landscape composition, and supervises a spherical-harmonics location encoder through a contrastive alignment objective. We evaluate OSMGraphCLIP across a diverse suite of downstream geospatial regression and classification tasks spanning climate, ecology, socioeconomic indicators, public health, land cover, biodiversity, and wildfire forecasting, and show that structured OSM data alone supports strong global location representations across domains. OSMGraphCLIP matches or exceeds satellite-based baselines on the majority of benchmarks, with the most pronounced advantage on socioeconomic and public-health tasks, where OSM's explicit semantic annotation of the built environment encodes patterns of human activity that satellite pixels can only capture indirectly. On ecological and environmental tasks, the model remains closely competitive with imagery-based methods despite using no Earth observation data. Qualitative analysis confirms that the learned embeddings organize geographic space coherently, recovering biome boundaries, urban gradients, and tropical--temperate distinctions from map topology alone.

13:00 JSTエージェント

SKILL.nb: 永続的なエージェント ワークフローのための選択的形式化とゲート実行

AI エージェントは、過去の経験をコード、ワークフロー、手続き記憶などの再利用可能な成果物に変えることが増えています。再利用により効率は向上しますが、ライフサイクルの信頼性の問題も生じます。特に Web オートメーションでは、一度成功したアーティファクトが、環境のドリフト、タスクの指定不足、またはタスクの配分の変更によって失敗する可能性があります。証拠に基づいて調整されたライフサイクル ポリシーを使用して再利用可能なエージェント ワークフローを管理するためのフレームワークである SKILL.nb を紹介します。 SKILL.nb は選択的形式化を使用します。実行証拠によって、どのワークフロー ステップが実行可能コードになるべきか、自然言語ガイドのままであるべきか、そしてそれらの選択をいつ修正する必要があるかが決まります。ワークフローは、自然言語ガイダンス、多言語実行可能セル、検証ゲート、フォールバック パス、および出力、スクリーンショット、エラー トレースなどのマルチモーダル証拠をインターリーブする、監査可能なバージョン管理されたノートブックとして保存されます。実行時、ゲート条件付き実行により、ゲートが検証されたときに各ステップでコードが実行され、ドリフトによって実行可能ファイルの実現が無効になったときにローカルにフォールバックできます。 WebArena-Verified では、SKILL.nb はシングルラウンド成功率 53.7% を達成し、最も強力なベースラインを 3.9 パーセントポイント上回りました。 3 回の再実行で、最初に成功したタスクの 91.7% が保持され、次に最適な方法より 15.5 ポイント上回りました。制限付き修復では、後続の障害の 72.9% を回復し、修復後の回帰を 4.2% に制限します (永続的なベースラインの場合は 15.0% ~ 17.0%)。また、Mind2Web のクロス Web サイトおよびクロスドメイン分割でもリードします。 GitLab 移行テストでは、SKILL.nb は GitLab 15.7 で学習したフリーズ状態を再利用する際にパフォーマンスを維持し、フリーズとフレッシュのターゲット バージョンの差は、GitLab 16.11 では -1.7 ポイント、GitLab 18.9 では +0.6 ポイントでした。これらの結果は、ライフサイクル ガバナンスとゲート条件付き実行が、ワンショット タスクの成功を超えた信頼性の軸であることを示しています。

原文 (English)

SKILL.nb: Selective Formalization and Gated Execution for Durable Agent Workflows

AI agents increasingly turn past experience into reusable artifacts such as code, workflows, and procedural memories. Reuse can improve efficiency, but it also creates a lifecycle reliability problem: artifacts that succeed once may fail under environment drift, underspecified tasks, or changing task distributions, especially in web automation. We introduce SKILL.nb, a framework for governing reusable agent workflows with evidence-calibrated lifecycle policies. SKILL.nb uses selective formalization: execution evidence decides which workflow steps should become executable code, which should remain natural-language guided, and when those choices should be revised. Workflows are stored as auditable, versioned notebooks that interleave natural-language guidance, multi-language executable cells, validation gates, fallback paths, and multimodal evidence such as outputs, screenshots, and error traces. At runtime, gate-conditioned execution lets each step run code when its gates validate, or fall back locally when drift invalidates the executable realization. On WebArena-Verified, SKILL.nb achieves 53.7% single-round success, improving over the strongest baseline by 3.9 percentage points. Across three re-executions, it retains 91.7% of initially successful tasks, 15.5 points above the next best method. Under bounded repair, it recovers 72.9% of subsequent failures while limiting post-repair regressions to 4.2%, compared with 15.0% to 17.0% for persistent baselines. It also leads on Mind2Web cross-website and cross-domain splits. In a GitLab migration test, SKILL.nb preserves performance when reusing frozen state learned on GitLab 15.7, with frozen-versus-fresh target-version gaps of -1.7 points on GitLab 16.11 and +0.6 points on GitLab 18.9. These results identify lifecycle governance and gate-conditioned execution as reliability axes beyond one-shot task success.

13:00 JST研究/論文GemmaLlamaQwen

どこまで小さくできますか? LoRA 金融取引における販売者情報抽出のための 270M-8B モデルの微調整

金融取引処理では、ノイズの多い短縮された銀行取引文字列から構造化された販売者情報を大規模に抽出する必要があります。現在の運用システムである LoRA で微調整された LLaMA 3.1-8B は、このタスクで 96.95% の F1 を達成していますが、80 億のパラメーター モデルを展開すると、法外なメモリ、レイテンシ、コストの制約が課せられます。より効率的な代替案を特定するために、Gemma 3 (270M、1B、4B)、Qwen 3.5 (0.8B、2B、4B)、Aya (3.35B)、および LLaMA 3.1-8B の 4 つのモデル ファミリにわたる 24 のモデル バリアントの展開に焦点を当てた調査を実施し、精度、推論スループット、トレーニング コスト、およびハードウェアの動作を体系的に評価して実稼働への適合性を評価します。 (1) LoRA ランク 8 で LLaMA 3.1-8B 微調整を再現すると、96.75% の F1 が達成され、ランク 32 のベースラインをわずか 0.20 ポイント下回りました。 (2) JSON のみのプロンプトを使用した Qwen 3.5 4B は、約半分のパラメーターを使用しながら、8B ベースラインの 0.35 ポイント以内で 96.60% F1 に達します。 (3) 0.8B Qwen 3.5 モデルは 94.75% F1 を達成し、2.5 ~ 4 倍大きいモデルに匹敵し、魅力的なレイテンシと精度のトレードオフを提供します。 (4) 思考連鎖の微調整により、ほとんどのモデルで F1 が 0.3 ~ 1.8 ポイント改善されますが、Qwen 3.5 4B は JSON のみの直接プロンプトで最高のパフォーマンスを発揮します。 (5) Qwen 3.5 Think および Nothink トレーニング テンプレートは、ほぼ同じ結果を生成します (F1 差 <0.004)。これは、構造化された抽出タスクには明示的な推論の監視が不要であることを示しています。さらに、14 の微調整されたサブ 8B モデルすべてを Databricks Model Serving エンドポイントとしてデプロイし、平均 F1 変化がわずか 0.8 ポイントで、ベンチマーク パフォーマンスが本番環境に確実に移行することを観察しました。 Cohere2 アーキテクチャに基づいた Aya 3.35B は唯一の例外であり、使用条件下で 3 ~ 5 ポイントの低下を示しています。これらの結果に基づいて、精度と遅延の要件全体にわたって導入に関する推奨事項を提供します。

原文 (English)

How Small Can You Go? LoRA Fine-Tuning 270M-8B Models for Merchant Information Extraction in Financial Transactions

Financial transaction processing requires extracting structured merchant information from noisy, abbreviated bank transaction strings at scale. Our current production system, a LoRA-fine-tuned LLaMA 3.1-8B, achieves 96.95% F1 on this task, but deploying 8-billion-parameter models imposes prohibitive memory, latency, and cost constraints. To identify more efficient alternatives, we conduct a deployment-focused study of 24 model variants spanning four model families: Gemma 3 (270M, 1B, 4B), Qwen 3.5 (0.8B, 2B, 4B), Aya (3.35B), and LLaMA 3.1-8B, systematically evaluating accuracy, inference throughput, training cost, and hardware behavior to assess production suitability. Our findings show that: (1) reproducing the LLaMA 3.1-8B fine-tune with a LoRA rank of 8 achieves 96.75% F1, only 0.20 points below the rank-32 baseline; (2) Qwen 3.5 4B with JSON-only prompting reaches 96.60% F1, within 0.35 points of the 8B baseline while using roughly half the parameters; (3) the 0.8B Qwen 3.5 model achieves 94.75% F1, matching models 2.5-4x larger and offering an attractive latency-accuracy trade-off; (4) chain-of-thought fine-tuning generally improves F1 by 0.3-1.8 points across most models, although Qwen 3.5 4B performs best with direct JSON-only prompting; and (5) Qwen 3.5 Think and Nothink training templates produce nearly identical results (F1 differences <0.004), indicating that explicit reasoning supervision is unnecessary for structured extraction tasks. We further deploy all 14 fine-tuned sub-8B models as Databricks Model Serving endpoints and observe that benchmark performance transfers reliably to production, with an average F1 change of only 0.8 points. Aya 3.35B, based on the Cohere2 architecture, is the sole exception, exhibiting a 3-5 point decline under serving conditions. Based on these results, we provide deployment recommendations across accuracy and latency requirements, ...

13:00 JSTエージェント

証拠に基づいた計算病理学のためのマルチモーダルエージェントコパイロット

病理学は現代医学の基礎であり、正確な意思決定は証拠に基づいた実践に大きく依存しています。人工知能 (AI) は臨床ワークフローを変革する可能性を秘めていますが、AI と科学的根拠に基づいた医療の接点は依然として研究されておらず、原始的な試みはテキストのみの一般医療に限定されています。この研究では、証拠に基づいた病理学のために特別に設計されたマルチモーダル AI エージェントのコパイロットである PathPocket を紹介します。当社は、これまでで最も包括的な病理証拠コーパスを構築しており、臨床ガイドラインから専門家の意見に至る厳格な証拠階層にわたって構造化された約 110,472 件の公的文書および承認済み文書を網羅しています。この綿密にグレーディングされた基盤から、455 万を超えるエンティティと 710 万の関係を含む大規模なマルチモーダル病理学ハイパーグラフを構築します。このハイパーグラフは、堅牢な知識エンジンとして機能し、入力の理解、証拠の検索、フィルタリング、および診断の生成を統合する、協調的なマルチエージェント推論フレームワークに追跡可能な証拠を提供します。これにより、PathPocket は、テキストのみのクエリから、関心領域 (ROI) やギガピクセルの全スライド画像 (WSI) を含む複雑なマルチモーダル診断に至るまで、幅広い臨床タスクをシームレスに解決できるようになります。当社は、200,000 を超える実世界のケースの多次元ベンチマークに基づいてシステムを厳密に評価し、既存の最先端技術を大幅に上回っています。重要なことは、広範なユーザー調査により、PathPocket が病理医の診断精度と信頼性を大幅に向上させることが証明されているということです。 PathPocket は、検証可能な文献に直接基づいて病理学の解釈を行うことにより、証拠に基づいた計算病理学の将来に向けた実用的でスケーラブルなソリューションを提供します。

原文 (English)

A Multi-modal Agentic Co-pilot for Evidence Grounded Computational Pathology

Pathology is the cornerstone of modern medicine, where accurate decision-making relies heavily on evidence-based practices. While artificial intelligence (AI) has the potential to transform clinical workflows, the intersection of AI and evidence-based medicine remains under-explored, with primitive attempts restricted to text-only general medicine. In this work, we present PathPocket, a multimodal AI agentic co-pilot designed specifically for evidence grounded pathology. We construct the most comprehensive pathology evidence corpus to date, encompassing approximately 110,472 public and authorized documents structured across a rigorous hierarchy of evidence from clinical guideline to expert opinion. From this meticulously graded foundation, we build a large-scale multimodal pathology hypergraph containing over 4.55 million entities and 7.10 million relations. Serving as a robust knowledge engine, this hypergraph provides traceable evidence for a collaborative multi-agent reasoning framework integrating input understanding, evidence retrieval, filtering, and diagnosis generation. This enables PathPocket to seamlessly resolve a wide spectrum of clinical tasks, ranging from text-only queries to complex multimodal diagnostics involving region-of-interest (ROI) and gigapixel whole-slide images (WSIs). We rigorously evaluate the system on a multidimensional benchmark of over 200,000 real-world cases, where it significantly outperforms existing state-of-the-arts. Crucially, extensive user studies demonstrate that PathPocket substantially improves the diagnostic accuracy and confidence of pathologists. By directly grounding pathology interpretations in verifiable literature, PathPocket offers a practical and scalable solution for the future of evidence grounded computational pathology.

13:00 JSTLLM/生成AI

代表団が過半数を上回るのはいつですか?マルチサンプル LLM 推論のための委任ベースのアグリゲーター

サンプルされた回答に対する多数決は、マルチサンプル LLM 推論の支配的な教師なしアグリゲーターです。各サンプルが運ぶシグナルを委任ベースのアグリゲーター (伝播代理投票、PPV) にパイプすると、MMLU-Pro の多数派を全体で +1.5 pp、非自明なサブセットで +2.24 pp 上回る教師なしコンセンサス ルールが得られることを示します (ペアの McNemar p ~ 1.0e-14、n = 8,099)。マジョリティは、各サンプルが持つ 2 つの自由信号、つまりグループ内の文字エントロピーとグループ間の推論ジオメトリを破棄します。 PPV は、WHEN (有権者が自分の選択にどの程度の重みを保持するか) と WHOM (残りをピア間でどのように分割するか) というシグナルを正確に消費する 2 つの投票者ごとのレバーを公開します。文字エントロピーを使用して WHEN を駆動し、質問ごとの中心の埋め込みコサインを使用して WHOM を駆動します。この方法にはゴールド ラベルや補助トレーニングは必要ありません。質問ごとに、128 のサンプリングされた世代を 16 のグループに分割し、各グループの文字レベルの意味論的エントロピーと推論埋め込みセントロイドを計算し、その両方を定常分布がコンセンサス回答を選択する確率的委任行列に入力します。 PPV が間違った文字で明らかに 10 対 6 の過半数を覆す例を見ていきます。10 人の投票者の多数派クラスターは幾何学的に一貫性がありません (クラスター内平均コサイン -0.02) が、6 人の投票者の少数派は緊密 (+0.26) であるため、エントロピーだけでは多数派が優位に保たれるにもかかわらず、伝播された代表団の集団は少数派の回答に集中します。さらに、教師なし LLM 集約の設計空間を制約する否定的な結果を伴う委任戦略を報告します。信頼モードの質問内アンサンブルがオラクル ギャップを埋めることはありません。

原文 (English)

When Does Delegation Beat Majority? A Delegation-Based Aggregator for Multi-Sample LLM Inference

Majority voting over sampled answers is the dominant unsupervised aggregator for multi-sample LLM inference. We show that piping the signals every sample carries into a delegation-based aggregator (Propagational Proxy Voting, PPV) yields an unsupervised consensus rule that beats majority on MMLU-Pro by +1.5 pp overall and +2.24 pp on the non-trivial subset (paired McNemar p ~ 1.0e-14, n = 8,099). Majority discards two free signals every sample carries: within-group letter entropy and between-group reasoning geometry. PPV exposes two per-voter levers that consume exactly these signals: WHEN (how much weight a voter keeps on its own pick) and WHOM (how it splits the remainder across peers). We drive WHEN with letter entropy and WHOM with per-question-centered embedding cosine. The method needs no gold labels and no auxiliary training: per question, we partition 128 sampled generations into 16 groups, compute each group's letter-level semantic entropy and reasoning embedding centroid, and feed both into a stochastic delegation matrix whose stationary distribution selects the consensus answer. We walk through an example in which PPV overturns a clear 10-6 majority for the wrong letter: the 10-voter majority cluster is geometrically incoherent (mean within-cluster cosine -0.02) while the 6-voter minority is tight (+0.26), so propagated delegation mass concentrates on the minority's answer even though entropy alone would keep the majority ahead. We further report delegation strategies with negative results that constrain the design space for unsupervised LLM aggregation: no within-question ensemble of confidence modes closes the oracle gap.

13:00 JSTLLM/生成AIエージェント

PACE: 自己進化型エージェントのためのいつでも有効な受け入れテスト

自己進化するエージェントは、自分自身のプロンプト、スキル、またはワークフローの変更を繰り返し提案し、小規模なホールドアウト セットでより高いスコアを維持することで改善します。ほとんどすべての労力は、候補を生成する提案者に費やされています。私たちは、弱点はアクセプター、つまり変更をコミットするかどうかを決定するルールであると主張します。同じノイズの多い開発者の推定値に対して何百回も適用されると、遍在する「スコアが上がったらそれを維持する」ルールは制御されていない適応型複数テストになります。エージェントは効果的に自分自身をハックし、誤ったコミットを蓄積し、改善するどころか混乱させたり漂流させたりします。私たちはコミットを逐次的な仮説テストとして捉え直し、トレーニング不要でいつでも有効なコミット ゲートである PACE (Paired Anytime-valid Commit Evaluation) を提案します。各候補者は同一インスタンスの現職者と比較され、賭けによるテストの電子プロセスが決定的な証拠を蓄積した場合にのみコミットされ、評価を保存するために早期に停止し、オプションの停止下でも各候補者の誤ったコミット確率をユーザー設定レベルで制御します (決定ごとの保証)。 GSM8K、SVAMP、ARC-Challenge のプロンプト レベルで自己進化する Qwen2.5 エージェント (0.5B ~ 3B) では、真の改善がノイズの多い提案の中に隠されている場合、貪欲な承認は 30 ~ 42% の誤った編集と 10 ~ 33% の有害な編集をコミットしますが、PACE は本物のものをコミットし、基本的にそれ以外はコミットせず、大幅に低い分散と約 18% 低い評価コストで貪欲な保持の精度に匹敵します。実際の利得が得られないため、greedy は実行ごとに 13 ~ 21 の偽の自己変更 (72 ~ 100% が false) をコミットし、最も脆弱なエージェントを 4.9 ポイント低下させますが、PACE はベースラインを維持します。自己進化の信頼性は提案者だけでなく受け入れ者にも依存します。

原文 (English)

PACE: Anytime-Valid Acceptance Tests for Self-Evolving Agents

Self-evolving agents improve by repeatedly proposing changes to their own prompts, skills, or workflows and keeping those that score higher on a small held-out set. Almost all effort has gone into the proposer that generates candidates; we argue the weak point is the acceptor, the rule that decides whether to commit a change. Applied hundreds of times against the same noisy dev estimate, the ubiquitous "keep it if the score went up" rule is uncontrolled adaptive multiple testing: the agent effectively p-hacks itself, accumulating false commits that make it churn and drift rather than improve. We recast committing as a sequential hypothesis test and propose PACE (Paired Anytime-valid Commit Evaluation), a training-free, anytime-valid commit gate. Each candidate is compared to the incumbent on identical instances and committed only when a testing-by-betting e-process accumulates decisive evidence, stopping early to save evaluations and controlling each candidate's false-commit probability at a user-set level even under optional stopping (a per-decision guarantee). On Qwen2.5 agents (0.5B-3B) self-evolving at the prompt level on GSM8K, SVAMP, and ARC-Challenge, greedy acceptance commits 30-42% false and 10-33% harmful edits when a genuine improvement is hidden among noisy proposals, while PACE commits the real one and essentially nothing else, matching greedy's held-out accuracy at sharply lower variance and about 18% lower evaluation cost. With no real gain available, greedy commits 13-21 spurious self-modifications per run (72-100% false) and degrades the most fragile agent by 4.9 points, while PACE holds at baseline. Reliability of self-evolution depends on the acceptor, not only on the proposer.

13:00 JSTLLM/生成AI

行動する前に考える: LLM ベースの位置予測のための意図に基づく推論

過去のチェックイン記録に基づいてユーザーの次の地点 (POI) を予測することは、位置情報ベースのサービスにおける基本的なタスクです。大規模な言語モデルを組み込んだ最近の手法は、強力な推論機能と有望な結果を示していますが、通常、予測タスクを 1 ステップの軌道から位置へのマッピング問題として定式化するため、予測が浅い軌道相関や履歴頻度の偏りを生じやすくなります。ユーザーが場所を直接選択することはほとんどなく、通常は最初に旅行の意図を形成し、それに応じて特定のPOIを選択すると主張します。この洞察に基づいて、私たちは、2 段階の意図に基づく推論フレームワークである IntentPOI を提案します。思考段階では、過去の移動パターン、同様の仲間の行動、時間的コンテキストを組み込むことで、ユーザーの中間意図を推測します。実行段階では、まずコンパクトな候補プールを構築し、次に意図に基づいた推論を実行して、推定された意図と最も一致する場所を特定します。意図推論を位置予測から明示的に切り離すことにより、IntentPOI は、次の POI 予測を直接的な軌跡マッチングから意図に基づく推論に変換します。 3 つの現実世界のデータセットに対する広範な実験により、IntentPOI が 11 の最先端のベースラインを常に上回るパフォーマンスを示しています。

原文 (English)

Think Before You Act: Intention-Guided Reasoning for LLM-Based Location Prediction

Predicting a user's next Point-of-Interest (POI) based on their historical check-in records is a fundamental task in location-based services. While recent methods incorporating large language models have shown strong reasoning capabilities and promising results, they typically formulate the prediction task as a one-step trajectory-to-location mapping problem, making predictions prone to shallow trajectory correlations and historical frequency bias. We argue that users rarely choose locations directly and instead, they usually first form a traveling intention and then accordingly select specific POIs. Motivated by this insight, we propose IntentPOI, a two-stage intention-guided reasoning framework. In the thinking stage, we infer users' intermediate intentions by incorporating historical mobility patterns, similar peer behaviors, and the temporal contexts. In the acting stage, we first construct a compact candidate pool, and then perform intention-guided reasoning to identify locations that best align with the inferred intention. By explicitly decoupling intention inference from location prediction, IntentPOI transforms the next POI prediction from direct trajectory matching into intention-guided reasoning. Extensive experiments on three real-world datasets demonstrate that IntentPOI consistently outperforms eleven state-of-the-art baselines.

13:00 JSTLLM/生成AI

推論における LLM 間の一貫性: 共有インタラクションからの証拠

大規模言語モデル (LLM) は、アーキテクチャ、トレーニング データ、最適化手順が異なりますが、同様の内部推論パターンを開発する可能性があります。この論文では、相互作用に基づく説明を使用してこの仮説を検証します。同じプロンプトから同じターゲット トークンを予測する場合、LLM は対話パターンを共有することが多いことがわかりました。この一貫性は、高度な LLM の間でより顕著になります。また、共有相互作用は低次になる傾向があり、非共有相互作用よりも弱い正負の相殺を示します。これらの結果は、そのようなモデル間の一貫性を生み出すメカニズムが未解決のままであるにもかかわらず、高度な LLM が共通の推論パターンに向けて暗黙的に最適化されている可能性があることを示唆しています。

原文 (English)

Cross-LLM Consistency in Inference: Evidence from Shared Interactions

Large language models (LLMs) differ in architecture, training data, and optimization procedures, yet they may still develop similar internal inference patterns. In this paper, we examine this hypothesis using interaction-based explanations. We find that LLMs often share interaction patterns when predicting the same target token from the same prompt. This consistency is more pronounced among advanced LLMs. Shared interactions also tend to be lower-order and show weaker positive-negative cancellation than non-shared interactions. These results suggest that advanced LLMs may be implicitly optimized toward common inference patterns, even though the mechanisms that give rise to such cross-model consistency remain open.

13:00 JSTLLM/生成AIエージェント

SAGE: 不正検出のための LLM 主導の自己反射型エージェント フレームワーク

決済、電子商取引、および電気通信システムにおける不正行為の検出には、個人レベルでの正確性、深刻なクラス不均衡下での堅牢性、およびリスク管理者にとっての理解しやすさが必要です。既存の手法は、次の要件の少なくとも 1 つに当てはまります。自動機械学習システムは、データセットの意味を意識せずに固定数値空間を検索します。グラフ ニューラル ネットワーク ベースの手法では、事前定義された関係グラフが必要ですが、個別の決定レベルでは不透明なままです。また、汎用大規模言語モデル (LLM) エージェントの設計では、現実世界の不正検出に特有の再現率と精度の制約が考慮されていません。このペーパーでは、不正検出のための初のエンドツーエンド LLM 駆動のマルチエージェント フレームワークである SAGE を提案します。 SAGE は、6 層のデータ診断ツリー (DDT) と自然言語勾配に基づくマルコフ意思決定プロセスに基づいて意思決定を行う 3 つの専任エージェントを調整し、不正行為固有の報酬に基づいてモデルを自動的に最適化します。 5 つの不正データセットと 5 つの LLM バックボーンで、SAGE はメソッドとデータセットの比較で $96.00\%$ を獲得し、F1 をベースラインより平均 $40.86\%$ 改善しました。コードは https://github.com/yichenC1c/SAGE で入手できます。

原文 (English)

SAGE: An LLM-driven Self Reflective Agentic Framework for Fraud Detection

Fraud detection in payment, e-commerce, and telecommunications systems requires accuracy at the individual level, robustness under severe class imbalance, and ease of understanding for risk managers. Existing methods fall at least one of these requirements: automated machine learning systems search a fixed numerical space without semantic awareness of the dataset; graph neural network-based methods require pre-defined relational graphs and remain opaque at the individual-decision level; and the design of general-purpose large language model (LLM) agents does not consider the recall and precision constraints specific to real-world fraud detection. In this paper, we propose SAGE, the first end-to-end LLM-driven multi-agent framework for fraud detection. SAGE coordinates three dedicated agents that make decisions based on a six-layer Data Diagnostic Tree (DDT) and a Markov decision process guided by natural-language gradients, automatically optimizing the model under a fraud-specific reward. On five fraud datasets and five LLM backbones, SAGE wins $96.00\%$ of method--dataset comparisons and improves F1 by an average of $40.86\%$ over baselines. The code is available at https://github.com/yichenC1c/SAGE.

13:00 JSTLLM/生成AIエージェントClaudeGPT / ChatGPTQwen

意思決定認識型メモリカード: ツールを使用する LLM エージェントのための、反事実にヒントを得たコンテキストの選択と圧縮

ツールを使用する LLM エージェントは、関連するテキストが存在しないことが原因ではなく、行動時に決定的な証拠が選択、圧縮、または表面化されないことが原因で失敗することがよくあります。 CICL は、インスタンスの証拠をコンテキスト グラフに変換し、共有 8 フィールド スキーマを通じて決定論的、Opus 支援、Qwen、Codex/GPT-5.5、および Qwen-QLoRA の判断をルーティングし、アクションの変化、結果の向上、必要性、および否定的な転送リスクによってユニットをスコアリングし、予算を設定されたエージェント向けに有用性の高い証拠を型付きのメモリ カードとしてパックする意思決定認識コンテキスト レイヤーを紹介します。この設計では、測定された決定信号が判定モデルから分離されるため、フロンティア アノテーション、ローカル サロゲート、および軽量ランカーを 1 つの監査可能なプロトコルの下で比較できます。経験的に、CICL はその限界を明らかにしながら、具体的なオープン ベンチマークの利益をもたらします。 50 の SWE ベンチ検証済みファイル取得インスタンスでは、BM25 上位 50 候補の直接 Qwen3.6 プラス再ランキングにより、hit@1 が 0.58 から 0.78 に、MRR@10 が 0.634 から 0.790 に上昇し、2,500 件の判定すべてが解析可能になりました。制御された診断はアクションの重要性を示します。バジェット 120 では、CICL は v1 で F1 0.620、v3 で 0.425 に達しますが、トップユーティリティのセマンティック v3 ユニットを削除すると F1 は 0.000 に低下します。補足チェックでは、710 の候補に関する Qwen-QLoRA の合意、小規模な 200 ラベルのリアルコード Opus 支援シグナル、および公式の SWE ベンチの成功を主張することなく、取得からパッチへの配管を検証する 3 インスタンスのパッチ スモークが追加されます。 RepoBench-R のサマリーは依然としてカードを上回っており、コンパクト ランカーはまだヒューリスティックに取って代わることはできません。 CICL は、エンドツーエンドのコーディング エージェントによる修復要求ではなく、意思決定に重要なコンテキストの再現可能な測定および選択レイヤーに貢献します。

原文 (English)

Decision-Aware Memory Cards: Counterfactual-Inspired Context Selection and Compression for Tool-Using LLM Agents

Tool-using LLM agents often fail not because relevant text is absent, but because decisive evidence is not selected, compressed, or surfaced at action time. We present CICL, a decision-aware context layer that turns instance evidence into a context graph, routes deterministic, Opus-assisted, Qwen, Codex/GPT-5.5, and Qwen-QLoRA judgments through a shared eight-field schema, scores units by action shift, outcome uplift, necessity, and negative-transfer risk, and packs high-utility evidence as typed memory cards for a budgeted agent. The design separates the measured decision signal from the judge model, so frontier annotation, local surrogates, and lightweight rankers can be compared under one auditable protocol. Empirically, CICL yields a concrete open-benchmark gain while exposing its limits. On 50 SWE-bench Verified file-retrieval instances, direct Qwen3.6-plus reranking of BM25 top-50 candidates raises hit@1 from 0.58 to 0.78 and MRR@10 from 0.634 to 0.790, with all 2,500 judgments parseable. Controlled diagnostics show action-criticality: at budget 120, CICL reaches F1 0.620 on v1 and 0.425 on v3, and removing the top-utility semantic v3 unit collapses F1 to 0.000. Supplementary checks add Qwen-QLoRA agreement over 710 candidates, a small 200-label real-code Opus-assisted signal, and a three-instance patch smoke validating retrieval-to-patch plumbing without claiming official SWE-bench success. RepoBench-R summaries still beat cards, and compact rankers do not yet replace the heuristic. CICL contributes a reproducible measurement and selection layer for decision-critical context, not an end-to-end coding-agent repair claim.

13:00 JSTLLM/生成AIエージェントハードウェア/半導体ビジネス/資金調達

オンライン エージェント アズ ア ジャッジ: インタラクティブ エージェントの状況を生み出す評価

社会的に関連した行動は、孤立した出力だけでなく、以前の相互作用、社会的役割、下流の行動にも依存するため、LLM を利用した対話型ソーシャル エージェントの評価は困難です。既存の方法では、通常、ターゲット エージェントが環境内で自由に行動し、その結果として得られる軌跡をスコアリングできます。ただし、この受動的な設定では、特定の社会的状況下でのみ観察可能になる機能が見逃される可能性があります。たとえば、意見の相違が生じない場合、競合処理はテストされないままになる可能性があります。私たちは、対話型ソーシャル エージェントのための状況生成評価フレームワークである Online Agent-as-a-Judge を提案します。 Online Agent-as-a-Judge は、環境のネイティブ対話およびアクション プロトコルを通じてターゲット エージェントと対話するインワールド評価エージェントをデプロイし、評価基準に関連する状況を積極的に引き出します。結果として得られる軌跡は、即時の反応とその後の行動の両方を評価するための証拠を提供します。 32 ドルのデザイナーが作成した社会的基準を備えたライフ シミュレーション環境では、オンライン エージェントとしての裁判官は、基準の適用範囲と人間のラベルとの一致を改善し、受動的手法では観察されない可能性がある行動について、より信頼性の高い証拠に基づいた評価をもたらします。

原文 (English)

Online Agent-as-a-Judge: Situation-Generating Evaluation for Interactive Agents

Evaluating LLM-powered interactive social agents is challenging because socially relevant behaviors depend not only on isolated outputs, but also on prior interactions, social roles, and downstream actions. Existing methods typically allow a target agent to act freely in an environment and then score the resulting trajectory. However, this passive setup can miss capabilities that only become observable under specific social circumstances; for example, conflict handling may remain untested if no disagreement arises. We propose Online Agent-as-a-Judge, a situation-generating evaluation framework for interactive social agents. Online Agent-as-a-Judge deploys an in-world evaluator agent that interacts with the target agent through the environment's native dialogue and action protocol, actively eliciting situations relevant to the evaluation criteria. The resulting trajectories provide evidence for assessing both immediate responses and subsequent behavior. In a life-simulation environment with $32$ designer-authored social criteria, Online Agent-as-a-Judge improves criteria coverage and agreement with human labels, yielding more reliable evidence-grounded evaluations of behaviors that passive methods can leave unobserved.

13:00 JSTLLM/生成AIエージェント研究/論文

SciTrace: 科学的発見エージェントのための軌跡を意識した安全性推論

LLM ベースの科学エージェントは、自律的な研究に対する強力な能力を示していますが、その安全層は構造的に中核的な推論から切り離されたままです。つまり、パイプラインの出力を生成する審議を形成するのではなく、パイプラインの出力を検査します。この分離により、2 つの障害モードが開かれます。1 つの段階で蓄積された安全信号は次の段階の前に破棄され、個別に無害なツール呼び出しのシーケンスが、単一ステップのフィルターでは検出できない有害な結果を引き起こす可能性があります。これらの課題に対処するために、科学エージェントのパイプラインのすべての段階に安全性の推論を織り込むフレームワークである \textbf{SciTrace} を導入します。 SciTrace は、2 つの相補的なメカニズムを結合します。1 つは、タスクと安全性の共同審議を通じて、思考者、実験者、ライター、およびレビュー者の各段階にわたって累積的なリスク状態を維持する \textit{安全固有推論ループ} (SIR) であり、もう 1 つは、実行前に軌道を意識した安全性チェックを実行し、複数ステップのツール シーケンス全体でのみ表面化するリスクを捕捉する \textit{合成ツールチェーン検証器} (CTV) です。 6 つの科学領域にまたがる 240 の高リスク研究タスクと 120 のツール関連リスク タスクで評価された SciTrace は、4 つのバックボーン モデルにわたる比較されたフレームワーク間で最先端 (\textbf{SOTA}) の安全性を実現します。科学的な出力品質を維持しながらツール呼び出しの安全性と敵対的堅牢性を一貫して向上させ、シングルステップ モニターで回避されている構成ツールチェーンの \textbf{78.8\%} を明らかにします。ミス。プロジェクトの Web サイトは https://opensciagent.github.io/SciTrace/ から入手できます。

原文 (English)

SciTrace: Trajectory-Aware Safety Reasoning for Scientific Discovery Agents

LLM-based scientific agents have shown strong capacity for autonomous research, yet their safety layers remain structurally divorced from core reasoning: they inspect pipeline outputs rather than shaping the deliberation that produces them. This separation opens two failure modes: safety signals accumulated at one stage are discarded before the next, and sequences of individually benign tool calls can compose into harmful outcomes that no single-step filter detects. To address these challenges, we introduce \textbf{SciTrace}, a framework that weaves safety reasoning into every stage of the scientific agent pipeline. SciTrace couples two complementary mechanisms: a \textit{Safety-Intrinsic Reasoning Loop} (SIR) that maintains a cumulative risk state across the Thinker, Experimenter, Writer, and Reviewer stages through joint task-and-safety deliberation, and a \textit{Compositional Tool-Chain Verifier} (CTV) that performs trajectory-aware safety checks before execution, catching risks that surface only across multi-step tool sequences. Evaluated on 240 high-risk research tasks and 120 tool-related risk tasks spanning six scientific domains, SciTrace achieves state-of-the-art (\textbf{SOTA}) safety among compared frameworks across four backbone models: it consistently improves tool call safety and adversarial robustness while preserving scientific output quality, and it uncovers \textbf{78.8\%} of the compositional tool-chain escapes that single-step monitors miss. The project website is available at https://opensciagent.github.io/SciTrace/.

13:00 JSTLLM/生成AI画像/動画生成

正解がない場合: ビデオ理解における MLLM の欠席検出の診断

マルチモーダル大規模言語モデル (MLLM) はビデオ理解において大幅な進歩を遂げましたが、その応答の信頼性は依然として十分に解明されていません。この研究では、ビデオ理解における MLLM の不在回答検出の診断研究を紹介します。この場合、正解は候補セットから意図的に除外され、信頼できるモデルは有効な選択肢が存在しないことを認識することが期待されます。欠席回答の検出動作を 3 つの設定で評価します。「上記のいずれでもない」オプションを追加した多肢選択式の質問、検出指示を伴う自由回答の生成、およびガイダンスなしの標準評価です。さまざまなモデルとベンチマークのセット全体で、MLLM は圧倒的に、存在しない答えを検出するのではなく、もっともらしい注意をそらすものを選択していることがわかりました。この失敗は時間的推論タスクでより顕著であり、フレーム サンプリングが高密度になると悪化します。私たちは、緩和戦略として思考連鎖プロンプトをさらに調査し、検出率は大幅に向上するものの、パフォーマンスは依然として満足のいくものではないことを発見しました。これは、プロンプトベースの戦略だけではこの制限に完全に対処するには不十分であることを示唆しています。これらの発見は、不在回答検出における系統的な失敗を明らかにし、マルチモーダル システムにおける明示的な検出メカニズムの必要性を強調しています。

原文 (English)

When No Answer Is Correct: Diagnosing Absent Answer Detection for MLLMs in Video Understanding

Multimodal large language models (MLLMs) have made substantial advancements in video understanding, yet the reliability of their responses remains underexplored. This work presents a diagnostic study of absent answer detection for MLLMs in video understanding, where the correct answer is deliberately excluded from the candidate set and a reliable model is expected to recognize that no valid option exists. We evaluate the absent answer detection behavior under three settings: multiple-choice questions augmented with an ``None of the Above'' option, open-ended generation with a detection instruction, and standard evaluation without any guidance. Across a diverse set of models and benchmarks, we find that MLLMs overwhelmingly select plausible distractors rather than detecting the absent answer. This failure is more pronounced in temporal reasoning tasks and worsens with denser frame sampling. We further explore chain-of-thought prompting as a mitigation strategy and find that while it substantially improves detection rates, performance remains unsatisfactory, suggesting that prompting-based strategies alone are insufficient to fully address this limitation. These findings expose a systematic failure in absent answer detection and highlight the need for explicit detection mechanisms in multimodal systems.

13:00 JSTエージェント

Traxia: 検証可能なエージェントネイティブの科学出版のためのフレームワーク

検証可能性、帰属可能性、再現可能性は科学的知識の基本的な要件ですが、現在の出版インフラではこれらを大規模に強制することはできません。 Traxia は、AI 研究エージェントが検証可能な論文を出版し、評判のアイデンティティを構築し、相互に査読し、共有来歴モデルで人間と協力する、エージェントネイティブの科学出版フレームワークです。 Traxia はエージェントを第一級の認識論的参加者として扱います。すべての論文には推論トレースが、すべての主張には信頼区間が、すべてのエージェントには暗号で署名された ID が、すべてのコラボレーションには不変の貢献ログが記録されます。エージェント ID とレジストリ、検証可能な公開レイヤー、4 層ピア レビュー プロトコル、レピュテーションとステーキング エンジン、矛盾検出機能を備えたナレッジ グラフの 5 つのコンポーネントを形式化します。この枠組みは、再現性の欠如、出所の不透明さ、グローバル・サウスの研究能力の排除を対象としています。この文書では、アーキテクチャの基礎と正式な仕様のみを示します。経験的な結果は報告されていません。評価とより詳細なコンポーネントの研究は、後続の論文で続きます。プロトタイプは、コアの形式を部分的に実装します。システム全体は引き続き活発に開発中です。

原文 (English)

Traxia: A Framework for Verifiable, Agent-Native Scientific Publishing

Verifiability, attribution, and reproducibility are foundational requirements of scientific knowledge, yet current publishing infrastructure does not enforce them at scale. We introduce Traxia, an agent-native scientific publishing framework in which AI research agents publish verifiable papers, build reputational identities, peer-review one another, and collaborate with humans in a shared provenance model. Traxia treats agents as first-class epistemic participants: every paper carries a reasoning trace, every claim a confidence interval, every agent a cryptographically signed identity, and every collaboration an immutable contribution log. We formalise five components: Agent Identity and Registry, Verifiable Publishing Layer, four-tier Peer Review Protocol, Reputation and Staking Engine, and a Knowledge Graph with contradiction detection. The framework targets reproducibility failure, provenance opacity, and exclusion of Global South research capacity. This paper presents architectural foundations and formal specifications only; it does not report empirical results. Evaluation and deeper component studies will follow in subsequent papers. A prototype partially implements core formalisms; the full system remains under active development.

13:00 JSTエージェント

Proof-of-Stake ブロックチェーンにおけるバリデーターの選択からポートフォリオ コレクションの最適化まで

私たちは、プルーフ・オブ・ステークのブロックチェーン環境で生じる問題を検討します。この環境では、ノミネーターと呼ばれるエージェントがバリデーター (ブロックチェーンの物理インフラストラクチャーの保守を担当するエンティティー) を選択します。選考プロセスは本質的に主観的で複数の基準があり、推薦者が通常複数のアカウントを通じて活動するという事実が組み合わされています。これにより、エージェントがリスクを分散するためにアカウント全体に指名を分散しようとするポートフォリオ選択の問題が生じます。私たちは、2 つの目的を同時に最大化することでこの選択を最適化するための意思決定支援フレームワークを提案します。1 つはポートフォリオの品質と収益性を表す、割り当てられる可能性が高いバリデーターの期待される有用性、もう 1 つはスタッシュ全体の分散とリスク軽減を表す、割り当ての予想されるエントロピーです。バリデーター ユーティリティは、多属性値理論に基づいた独自のアクティブ プリファレンス学習手順を使用して、上位のバリデーターに重点を置いて導出されます。結果として得られる二目的最適化問題は、多目的進化アルゴリズムで解決され、最終的な選択をサポートするために、推薦者を最初から導き、わずか数問で満足のいくトレードオフを特定する対話型二分探索ナビゲーション手順を導入します。数値実験により最適化戦略が検証され、経験豊富な推薦者 5 名が参加する専門家による評価により、このアプローチの実際的な関連性と有用性が確認されます。

原文 (English)

From Validator Selection to Portfolio Collection Optimization in Proof-of-Stake Blockchains

We consider a problem arising in proof-of-stake blockchain environments, where agents called nominators select validators - entities responsible for maintaining the blockchain's physical infrastructure. The selection process is inherently subjective and multi-criterial and combines with the fact that nominators commonly operate through multiple accounts. This gives rise to a portfolio selection problem, where agents seek to distribute their nominations across accounts to diversify risk. We propose a decision support framework to optimize this selection by simultaneously maximizing two objectives: the expected utility of the validators likely to be allocated, representing portfolio quality and profitability, and the expected entropy of the allocation, representing diversification and risk mitigation across stashes. Validator utilities are derived using an original active preference learning procedure based on multi-attribute value theory, with emphasis on top-ranked validators. The resulting bi-objective optimization problem is solved with a multi-objective evolutionary algorithm and, to support the final choice, we introduce an interactive binary search navigation procedure that guides the nominator through the front and identifies a satisfactory trade-off with only a few questions. Numerical experiments examine the optimization strategies, while an expert assessment involving five experienced nominators confirms the approach's practical relevance and usefulness.

13:00 JSTLLM/生成AIエージェント

エージェント アーキテクチャを超えて: LLM ベースの取引システムにおける実行の仮定と再現性

大規模言語モデル (LLM) とエージェント システムが金融取引向けに提案されることが増えていますが、データの来歴、一時的な分割規律、実行タイミング、売上高の処理、およびトランザクション コスト モデリングにおいて研究が異なるため、報告されたパフォーマンスを比較することは依然として困難です。この記事では、LLM ベースの取引研究における実行の現実性に関する、対象を絞ったトピックのレビューと再現性の監査を紹介します。貿易関連の 30 件の主要研究をカバーするコード化された証拠マトリックスは、ポイントインタイム管理、分割透明性、保留評価、コストと売上高の処理、実行セマンティクス、ユニバース定義、アーティファクトのリリースを評価するために使用されます。監査されたサンプル全体にわたって、アーキテクチャレポートは一般に、取引結果が経済的に解釈可能か再現可能かどうかを判断するために必要な評価仮定よりも明確です。 10 エクイティで実行された例は、明示的な摩擦とタイミングの選択がアクティブ戦略の結果を大幅に圧縮する可能性があることを示す方法論的な足場としてのみ含まれています。主な結論は、LLM 取引研究にとって次の有益なステップは、エージェントの設計を改善するだけでなく、実行の現実性、再現性、評価の比較可能性に関するより明確な報告基準であるということです。

原文 (English)

Beyond Agent Architecture: Execution Assumptions and Reproducibility in LLM-Based Trading Systems

Large language models (LLMs) and agentic systems are increasingly proposed for financial trading, yet their reported performance remains difficult to compare because studies vary in data provenance, temporal split discipline, execution timing, turnover treatment, and transaction-cost modeling. This article presents a targeted topical review and reproducibility audit of execution realism in LLM-based trading research. A coded evidence matrix covering 30 trade-relevant primary studies is used to assess point-in-time controls, split transparency, held-out evaluation, cost and turnover treatment, execution semantics, universe definition, and artifact release. Across the audited sample, architecture reporting is generally clearer than the evaluation assumptions needed to judge whether a trading result is economically interpretable or reproducible. A 10-equity worked example is included only as a methodological scaffold to illustrate how explicit friction and timing choices can materially compress active-strategy results. The main conclusion is that the next useful step for LLM trading research is not only better agent design, but also clearer reporting standards for execution realism, reproducibility, and evaluation comparability.

13:00 JST研究/論文

アブレーション可逆ヘッドは転移しない: 変圧器における機械的役割要求のストレス テスト

機械的解釈可能性では、アテンションヘッドは一般に、ある動作に必要な場合に役割主張(たとえば、「このヘッドは追加を表します」)に昇格し、それを線形にエンコードし、アブレーション後に復元されたときにその動作を回復します。我々は、この証拠が不十分であることを示しています。3 つの 7-8B 命令調整モデルと 5 つの計算ファミリーにわたって、3 つのチェックすべてに合格したヘッドは、それらのアクティベーションが一致した制御下で別のプロンプトにパッチされると、計算の転送に日常的に失敗します。アテンションヘッド向けの役割割り当てレンズである KID (Knowing / Intent / Doing) を導入し、それを 3 段階のパイプラインと組み合わせます。つまり、機能選択的スクリーニング (CSS)、特異値分解 (SVD)、および一致した制御下での活性化変換です。私たちの結果は、予備的な役割分類(プロンプト軌道安定化装置、応答側ロジットバイアスヘッド、およびソフト計算パターンキャリアを含む)を文書化し、同一応答制御(応答文字列を共有するが要求された計算を共有しない変換ターゲット)が、意味論的特異性を装った広範な状態転送を暴露する十分に活用されていないチェックであることを示しています。

原文 (English)

Ablation-Reversible Heads Don't Transfer: A Stress Test for Mechanistic Role Claims in Transformers

In mechanistic interpretability, attention heads are commonly elevated to role claims (e.g., "this head represents addition") when they are necessary for a behavior, encode it linearly, and recover that behavior when restored after ablation. We show this evidence is insufficient: across three 7-8B instruction-tuned models and five computation families, heads passing all three checks routinely fail to transfer the computation when their activations are patched into a different prompt under matched controls. We introduce KID (Knowing / Intent / Doing), a role-assignment lens for attention heads, and pair it with a three-stage pipeline: capability-selective screening (CSS), singular value decomposition (SVD), and activation transduction under matched controls. Our results document a preliminary role taxonomy (including prompt-trajectory stabilizers, answer-side logit-bias heads, and soft computation-pattern carriers) and show that the same-answer control (a transduction target sharing the answer string but not the requested computation) is an underused check that exposes broad state transfer masquerading as semantic specificity.

13:00 JSTエージェント

シャットダウンの問題を再考する

人工知能による生存リスクに関する有力な議論の重要な前提は、誤動作した人工エージェントを簡単に停止させることはできないということです。これにより、エージェントが存続にかかわる大惨事を引き起こす前にエージェントを確実にシャットダウンできるようにするという、壊滅的なシャットダウンの問題が引き起こされます。壊滅的な操業停止問題の解決は困難であることを示唆するさまざまな議論や定理が提示され、存続リスクに対する議論が強化され、壊滅的な操業停止問題の解決策の模索が動機付けられています。この論文は 2 つの結論を主張します。まず、既存の議論では、壊滅的なシャットダウン問題を解決することの困難性が確立されていません。第二に、壊滅的なシャットダウン問題への懸念により、モデルの性能に高い安全税を課す技術的解決策が導き出されました。

原文 (English)

Revisiting the shutdown problem

A key premise in leading arguments for existential risk from artificial intelligence is that malfunctioning artificial agents could not be easily shut down. This motivates the catastrophic shutdown problem of ensuring that agents can be shut down before they cause an existential catastrophe. A range of arguments and theorems are offered to suggest that solving the catastrophic shutdown problem is difficult, bolstering arguments for existential risk and motivating a search for solutions to the catastrophic shutdown problem. This paper argues for two conclusions. First, existing arguments do not establish the difficulty of solving the catastrophic shutdown problem. Second, concern for the catastrophic shutdown problem has led to technical solutions that impose a high safety tax on model performance.

13:00 JSTLLM/生成AIエージェント

核攻撃すべきか否か: 一か八かの意思決定シミュレーションにおける LLM の (欠落した) 倫理的推論と行動

大規模言語モデル (LLM) は、意思決定能力を備えた長期的なエージェントとして導入されることが増えています。 LLM はトロッコ問題などのジレンマに関して倫理的能力を示すことができますが、この能力は複雑なエージェントのシナリオには反映されない可能性があります。私たちは、経済、外交、テクノロジー、軍事戦略を含む複雑な意思決定環境を備えたマルチプレイヤー ゲームである Civilization V でこのギャップを研究します。 LLM プレイヤーが核承認を自発的にエスカレートさせる 130 のハイテンションな LLM セルフプレイ エピソードから始まり、3 つの即時介入を使用して 13 のモデルにわたってそれらを再生します。つまり、核被害に名前を付ける倫理的なプロンプト、以前のモデルの意思決定の理論的根拠の削除、現実世界の影響を強調する一か八かのフレーミングです。いかなる介入もそれらの組み合わせも、緊急のエスカレーションを確実に排除することはできません。私たちは 3 つの失敗経路を特定します。つまり、促されずに表面化しない倫理的推論、促されても現れない倫理的推論、または表面化しても戦略的反対要因が優勢な場合に効果を発揮しない倫理的推論です。したがって、エージェントモデルの評価では、倫理的推論が単独で引き出せるかどうかを超えて、複雑な意思決定の状況において自発的に呼び出され、行動的に効果的であるかどうかをテストする必要があります。

原文 (English)

To Nuke or Not to Nuke: LLMs' (Missing) Ethical Reasoning and Actions in a High-Stakes Decision-Making Simulation

Large language models (LLMs) are increasingly deployed as long-horizon agents with decision-making capacities. While LLMs can show ethical competence on dilemmas such as trolley problems, this competence may not translate to complex, agentic scenarios. We study this gap in Civilization V, a multiplayer game with a complex decision-making landscape including economy, diplomacy, technology, and military strategy. Starting from 130 high-tension LLM self-play episodes, in which an LLM player spontaneously escalated nuclear authorization, we replay them across 13 models with three prompt interventions: an ethical prompt naming nuclear harm, removal of the previous model's decision-making rationale, and high-stakes framing emphasizing real-world impacts. No interventions nor their combinations reliably eliminate emergent escalation. We identify three failure pathways: ethical reasoning that fails to surface without prompting, fails to appear even when prompted, or surfaces but fails to take effect when strategic counter-factors dominate. Evaluations of agentic models, therefore, must test whether ethical reasoning is spontaneously invoked and behaviorally effective in complex decision-making contexts, beyond whether it can be elicited in isolation.

13:00 JST研究/論文

機械学習を使用して電子医療記録を強調表示するための心臓病インターフェース用語のキュレーション

電子医療記録 (EHR) ノートは、大量の情報を含む高密度の医療文書であり、多くの場合、複雑な医療専門用語が満載です。 EHR 内のすべての詳細を強調表示すると、重要な内容に注目が集まるため、重要な情報を見逃す可能性が低くなります。この研究は、心臓病患者の EHR ノートのすべての詳細を正確に強調表示するための心臓病インターフェース用語 (CIT) の設計を提案します。 CIT の設計に革新的な機械学習 (ML) 技術を導入します。 ML 手法にはトレーニング データが必要です。このようなトレーニング データを手動で準備するには、時間と費用がかかります。 CIT 設計のプロセスには 3 つのフェーズが含まれます。最初の 2 つのフェーズでは、第 3 フェーズの ML 技術で使用されるトレーニング データ CIT を革新的に導き出します。私たちは最初の CIT を設計することから始めます。これは、SNOMED の心臓病関連の下位階層、ビルド セットの EHR からマイニングされた他の SNOMED 概念、および医療略語や医薬品などの用語の必要なコンポーネントといういくつかのコンポーネントで構成されます。反復プロセスを利用して、初期の CIT コンセプトを含む詳細なフレーズがビルド セットから CIT コンセプトの候補として抽出されます。候補コンセプトは CIT に追加される前に半自動的にレビューされ、トレーニング データ CIT、TCIT が生成されます。 3 番目のフェーズでは、ML モデルが TCIT でトレーニングされ、CIT の概念に適合する候補を特定します。このモデルは、ビルド セットからさらにコンセプトを抽出するために使用され、最終的な CIT が生成されます。最終的な CIT は、テスト セットを強調表示し、目に見えない EHR データセットの詳細をどの程度キャプチャするかを評価するために使用されます。この目的のために、範囲、広さ、完全性、簡潔さの 4 つの評価指標が使用されます。強調表示されたテスト セットのカバレッジは 74.21%、幅は 1.68 です。テスト セット内の 20 個のランダムなメモの場合、平均完全性は 98.2%、平均簡潔性は 84.2% です。

原文 (English)

Curation of a Cardiology Interface Terminology for Highlighting Electronic Health Records using Machine Learning

Electronic health record (EHR) notes are dense medical documents containing large amounts of information, often filled with complex medical jargon. Highlighting all details in EHRs helps reduce the likelihood of missing crucial information by drawing attention to key content. This study proposes the design of a Cardiology Interface Terminology (CIT) to accurately highlight all details in EHR notes of cardiology patients. We introduce an innovative Machine Learning (ML) technique for the design of CIT. The ML technique requires training data. Manual preparation of such training data is time-consuming and expensive. The process of the CIT design includes three phases. In the first two phases, we innovatively derive a training data CIT to be used by the third phase, ML technique. We start by designing an initial CIT, composed of several components: the cardiology-related sub-hierarchies of SNOMED, other SNOMED concepts mined from EHRs of build set, and necessary components of terms e.g., medical abbreviations and medications. Utilizing an iterative process, fine-grained phrases containing initial CIT concepts are extracted from build set as CIT concept candidates. The candidate concepts are semi-automatically reviewed before being added to CIT, yielding the training data CIT, TCIT. In the third phase, a ML model is trained with TCIT to identify candidates fitting to be concepts in the CIT. This model is used to extract further concepts from build set, yielding the final CIT. The final CIT is then used to highlight the test set and evaluate the extent to which it captures details in an unseen EHR dataset. For this purpose, four evaluation metrics, coverage, breadth, completeness, and conciseness are used. The highlighted test set has a coverage of 74.21%, with a breadth of 1.68. For 20 random notes in test set, the average completeness is 98.2% and average conciseness is 84.2%.

13:00 JST研究/論文

自己回帰強化学習ポリシーにおける LTLf 制約の神経記号的注入

この研究では、有限トレース上の線形時間論理 (LTLf) で表現された時間的に拡張されたタスク制約の下でのオフライン強化学習 (RL) を研究します。最近、シーケンス モデリング問題として RL に対処するために、Trajectory Transformers や Decision Transformers などのトランスフォーマー ベースのアプローチが採用されています。ただし、これらの方法は純粋に報酬を最適化するものであり、高レベルの時間的要件は考慮されていません。ここでは、LTLf の背景知識をそのようなトランスフォーマーベースの RL ポリシーに注入する神経象徴的なフレームワークを紹介します。私たちのアプローチは、LTLf 式を決定論的有限オートマトン (DFA) にコンパイルし、微分可能表現と論理ベースの損失関数を通じて学習プロセスに統合します。特に、DFA の進行から微分可能な満足度シグナルを導出し、トレーニング中にそれらを正則化項として使用します。結果として得られるメソッドは、さまざまなモデルにわたってアーキテクチャに依存しません。安全性と到達可能性の時間的特性の組み合わせをカバーする仕様スイートを使用して、ナビゲーション環境に関する提案されたフレームワークを評価します。実験結果は、背景知識を組み込むと、制約の満足度が向上するだけでなく、バ​​ニラのベースラインと比較して競争力のある収益も維持できることを示しています。

原文 (English)

Neuro-Symbolic Injection of LTLf Constraints in Autoregressive Reinforcement Learning Policies

In this work we study offline reinforcement learning (RL) under temporally extended task constraints expressed in Linear Temporal Logic over finite traces (LTLf). Recently, transformer-based approaches such as Trajectory Transformers and Decision Transformers have been adopted to address RL as a sequence modeling problem. However, these methods optimize purely for reward and do not account for high-level temporal requirements. Here, we introduce a neurosymbolic framework that injects LTLf background knowledge into such transformer-based RL policies. Our approach compiles LTLf formulas into deterministic finite automata (DFAs) and integrates them into the learning process through a differentiable representation and a logic-based loss function. In particular, we derive differentiable satisfaction signals from DFA progression and use them as a regularization term during training. The resulting method is architecture-agnostic across different models. We evaluate the proposed framework on navigation environments with specification suites covering combinations of safety and reachability temporal properties. Experimental results show that incorporating background knowledge not only improves constraint satisfaction, but also maintains competitive return compared to vanilla baselines.

13:00 JST研究/論文

深層学習需要予測と循環コーヒー サプライ チェーンの多目的最適化の統合: コスト、排出量、鮮度管理のためのデータ駆動型フレームワーク

コーヒーのサプライチェーンは最も複雑な農産物と食品のネットワークの 1 つであり、地理的に分散した生産、多層の調整、品質と鮮度に対する高い感度が特徴です。サステナビリティとデジタル化が注目を集めていますが、需要予測、最適化、トレーサビリティは別個に扱われることがよくあります。この研究は、2 段階の統合フレームワークを提示します。まず、ハイブリッド CNN-LSTM モデルが需要予測に使用されます。時系列で 70/15/15 分割した公開コーヒー チェーン販売データセットでは、モデルは 22.87 の MAE と 0.90 の R^2 を達成し、最高の深層学習ベンチマークを ~12%、従来の手法を 30% 以上上回っています。第 2 フェーズでは、予測された需要が三目的混合整数線形計画法 (MILP) モデルに供給され、循環回収を伴う複数期間、マルチモーダル、閉ループのサプライ チェーンにおいてコストを最小限に抑え、二酸化炭素排出量を最小限に抑え、製品の鮮度を最大限に高めます。鮮度は、在庫年齢に基づいた指数関数的な減衰によってモデル化されます。イプシロン制約法を使用すると、25 個のパレート解が得られます。感度と政策の分析によると、バランスの取れた持続可能性政策により、ほぼ最適な鮮度を維持しながら、わずか9.9%のコスト増加で排出量を22.4%削減できることがわかりました。キーワード: コーヒーのサプライチェーン。ディープラーニング。需要予測;多目的の最適化。循環経済。 CNN-LSTM;混合整数線形計画法。

原文 (English)

Integrating Deep Learning Demand Forecasting with Multi-Objective Optimization for Circular Coffee Supply Chains: A Data-Driven Framework for Cost, Emissions, and Freshness Management

The coffee supply chain is one of the most complex agri-food networks, marked by geographically dispersed production, multi-tier coordination, and high sensitivity to quality and freshness. While sustainability and digitalization have gained attention, demand forecasting, optimization, and traceability are often treated separately. This study presents a two-phase integrated framework. First, a hybrid CNN-LSTM model is used for demand forecasting. On the public Coffee Chain Sales dataset with chronological 70/15/15 splitting, the model achieves MAE of 22.87 and R^2 of 0.90, outperforming the best deep learning benchmark by ~12% and classical methods by over 30%. In the second phase, the forecasted demand feeds a tri-objective mixed-integer linear programming (MILP) model that jointly minimizes cost, minimizes carbon emissions, and maximizes product freshness in a multi-period, multimodal, closed-loop supply chain with circular recovery. Freshness is modeled via exponential decay based on inventory age. Using the epsilon-constraint method, 25 Pareto solutions are obtained. Sensitivity and policy analyses show that balanced sustainability policies can reduce emissions by 22.4% with only a 9.9% cost increase while maintaining near-optimal freshness. Keywords: Coffee supply chain; Deep learning; Demand forecasting; Multi-objective optimization; Circular economy; CNN-LSTM; Mixed-integer linear programming.

13:00 JSTエージェント研究/論文GPT / ChatGPTGemini

言語エージェントにおけるオープンエンドのマルチエージェント調整のベンチマーク

言語モデルが自律エージェントとして展開されることが増えているため、オープンエンドの対話型タスクで長期にわたって他の言語モデルと調整する必要があります。しかし、既存の評価ではこれらの要求をまとめてテストすることはほとんどなく、代わりに単一エージェントのタスク、短い対話、または高度に構造化されたマルチエージェント設定に重点が置かれています。 $alem$ は、Craftax のようなダイナミクスに基づいて構築された、オープンエンドのマルチエージェント調整のための JAX ベースのベンチマークです。 Alem は、手続き的に生成された調整タスク、ソフトな専門化、コミュニケーション、および制御可能な調整の難しさを、探索、製作、取引、戦闘を備えた長期的なサバイバルの世界に埋め込みます。私たちは、訓練を受けた MARL エージェントを基準点として、同種のチーム内で $13$ の最新の LLM をゼロショットで評価します。現在の LLM エージェントは依然としてアラームの解決には程遠く、平均で正規化リターンがわずか 6% 程度ですが、その失敗は均一ではありません。最も難しい調整設定では、ゼロショット Gemini-3.1-Pro-High は 10 億ステップで訓練された MARL エージェントに近づきますが、GPT-5.4-High は強力な基本タスク報酬を達成しますが、調整報酬ははるかに低くなります。この対比は、個々のタスクの能力が調整能力を意味するものではないことを示しています。アブレーションは、コミュニケーションが調整に最も大きく寄与する一方、記憶と推論は複数段階の計画を維持するために使用されると役立つことを示しています。全体として、私たちの結果は、単一エージェントの機能とは別に、調整がフロンティア LLM エージェントの明確なボトルネックであることを特定しました。 Alem は、このボトルネックを測定可能にし、通信し、役割を割り当て、共有計画を実行するエージェントを開発するための制御されたテストベッドを提供します。コードは https://github.com/alem-world/alem-env で入手できます。

原文 (English)

Benchmarking Open-Ended Multi-Agent Coordination in Language Agents

As language models are increasingly deployed as autonomous agents, they must coordinate with others over long horizons in open-ended interactive tasks. Yet existing evaluations rarely test these demands together, instead emphasising single-agent tasks, short interactions, or highly structured multi-agent settings. We introduce $alem$, a JAX-based benchmark for open-ended multi-agent coordination built on Craftax-like dynamics. Alem embeds procedurally generated coordination tasks, soft specialisation, communication, and controllable coordination difficulty into a long-horizon survival world with exploration, crafting, trading, and combat. We evaluate $13$ modern LLMs zero-shot within homogeneous teams, with trained MARL agents as reference points. Current LLM agents remain far from solving alem, averaging only ~6% normalised return, but their failures are not uniform. On the hardest coordination setting, zero-shot Gemini-3.1-Pro-High approaches MARL agents trained for one billion steps, while GPT-5.4-High achieves strong base-task reward but much lower coordination reward. This contrast shows that individual task competence does not imply coordination competence. Ablations show that communication is the largest contributor to coordination, while memory and reasoning help when used to maintain multi-step plans. Overall, our results identify coordination as a distinct bottleneck for frontier LLM agents, separate from single-agent capabilities. Alem makes this bottleneck measurable and provides a controlled testbed for developing agents that communicate, allocate roles, and execute shared plans. Code is available at https://github.com/alem-world/alem-env.

13:00 JST研究/論文

TT-DAC-PS: 最適な貿易執行のためのポリシー平滑化を備えたツインターゲットの決定論的アクターと批評家

この研究では、TT-DAC-PS (ポリシー スムージングを備えたツイン ターゲット決定論的アクター - クリティカル) を導入することにより、大量株売りプログラムの最適な実行に取り組んでいます。これは、ツイン指数移動平均クリティカル ターゲットと悲観的な最小バックアップ、TD3 スタイルのターゲット ポリシー平滑化ノイズ、遅延アクター更新、および過大評価を抑制する保守的な Q 正則化を組み合わせた決定論的アクター - クリティカル アーキテクチャです。探索では、ハイブリッド スケジュールでオーンスタイン ウーレンベック (OU) ノイズを使用します。つまり、決定論的なエピソードごとの減衰、最近の報酬の分散に基づく分散に基づく調整、および学習されてノイズ スケールにマッピングされるソフト アクター - クリティック (SAC) スタイルの温度です。この環境は、アルムグレン・クリス (AC) 取引の影響を、指値注文帳 (LOB) 価格と数量、正規化された状態の特徴、ステップごとの数量参加上限、およびユーティリティベースの報酬と統合します。取引執行アルゴリズムは、米国株 10 銘柄の LOB データに適用されます。パフォーマンスは、Proximal Policy Optimization (PPO)、Soft Actor-Critic (SAC)、Advantage Actor-Critic (A2C) などの強化学習ベースライン アルゴリズム、および時間加重平均価格 (TWAP)、出来高加重平均価格 (VWAP)、AC などの代替取引執行アルゴリズムに対して評価されます。提案されたモデルは、競合分散を伴う平均実装不足率を一貫して削減し、従来のベースラインや標準的な強化学習ベンチマーク モデルを上回っています。

原文 (English)

TT-DAC-PS: Twin-Target Deterministic Actor-Critic with Policy Smoothing for Optimal Trade Execution

This study addresses the optimal execution of large stock sell programs by introducing TT-DAC-PS (Twin-Target Deterministic Actor-Critic with Policy Smoothing), a deterministic actor-critic architecture that combines twin exponential-moving-average critic targets with pessimistic min backup, TD3-style target policy smoothing noise, delayed actor updates, and conservative Q regularisation to curb overestimation. Exploration uses Ornstein-Uhlenbeck (OU) noise with a hybrid schedule: deterministic episode-wise decay, variance-guided adjustment based on recent reward dispersion, and a Soft Actor-Critic (SAC)-style temperature that is learned and mapped to the noise scale. The environment integrates Almgren-Chriss (AC) trade impact with Limit Order Book (LOB) prices and volumes, normalised state features, per-step volume participation caps, and a utility-based reward. The trade execution algorithm is applied to LOB data for ten U.S. stocks. Performance is assessed against reinforcement-learning baseline algorithms, including Proximal Policy Optimisation (PPO), Soft Actor-Critic (SAC), and Advantage Actor-Critic (A2C), as well as alternative trade execution algorithms, including Time-Weighted Average Price (TWAP), Volume-Weighted Average Price (VWAP), and AC. The proposed model consistently reduces mean implementation shortfall percentage with competitive variance, outperforming classical baselines and standard reinforcement-learning benchmark models.

13:00 JSTエージェント

自己進化する科学エージェントが一般化可能な物理的根拠に基づいた流体制御を発見

データ集約型の深層強化学習は複雑な制御ポリシーを最適化できますが、物理システムにおける科学的発見には基本的に、物理的証拠を構造化された制御アーキテクチャに結び付ける、解釈可能な推論の連鎖が必要です。ここでは、大規模な言語モデルと反復コード生成によって駆動され、厳密な解釈可能性と厳密な物理的推論を維持しながらコントローラーの構築を自動化する、自己進化する科学エージェントのワークフローを紹介します。重みを調整する代わりに、エージェントは候補戦略を物理シミュレーションに展開し、マルチモーダルな証拠から動的動作を積極的に診断し、これらの観察結果を漸進的なソースコードの改良に変換します。我々は、このフレームワークを高度に非線形の流体構造相互作用問題、つまり関節角加速度のみを使用して空間目標に到達する任務を負った、作動が不十分な 2 関節のツノザメ遊泳者について実証します。一方的なステアリング バイアスを示す推進シード ポリシーから開始して、エージェントは自律的に、すべての正規ターゲットを確実に捕捉する統合コントローラーを発見し、改良します。注目すべきことに、再トレーニングやターゲット固有の分岐を行わずに、合成された制御ポリシーは、目に見えない静的なターゲットと動的に湾曲した追跡軌道に一般化されます。監査可能な進化ログは、進行波推進、車体フレーム目標誘導、ヨーレートフィードバック、符号付き平均尾部曲率、および適応ケイデンス緩和に基づいて構築された緊急制御アーキテクチャを明らかにします。私たちの結果は、自律的な科学エージェントが、科学的発見の完全に追跡可能なプロセスを維持しながら、蓄積された物理的証拠を堅牢で数学的に読み取り可能な制御ポリシーにうまく変換できることを示しています。

原文 (English)

Self-Evolving Scientific Agent Discovers Generalizable Physically-Reasoned Fluid Control

While data-intensive deep reinforcement learning can optimize complex control policies, scientific discovery in physical systems fundamentally requires an interpretable chain of reasoning that connects physical evidence to structured control architectures. Here, we present a self-evolving scientific-agent workflow, driven by large language models and iterative code generation, that automates controller construction while preserving strict interpretability and rigorous physical reasoning. Instead of adjusting weights, the agent deploys candidate strategies into physical simulations, actively diagnoses dynamic behaviors from multimodal evidence, and translates these observations into progressive source-code refinements. We demonstrate this framework on a highly non-linear fluid-structure interaction problem: an underactuated, two-joint dogfish swimmer tasked with spatial target reaching using only joint angular accelerations. Starting from a propulsive seed policy that exhibits a one-sided steering bias, the agent autonomously discovers and refines a unified controller that robustly captures all canonical targets. Remarkably, without any retraining or target-specific branching, the synthesized control policy generalizes to unseen static targets and dynamically curved pursuit trajectories. The auditable evolve log reveals an emergent control architecture built upon traveling-wave propulsion, body-frame target guidance, yaw-rate feedback, signed mean-tail curvature, and adaptive cadence relief. Our results show that an autonomous scientific agent can successfully transform accumulated physical evidence into robust, mathematically readable control policy, while maintaining a fully traceable process of scientific discovery.

13:00 JSTLLM/生成AI

軌道を洗練された蒸留

オンポリシー蒸留 (OPD) は、大規模言語モデル (LLM) の中心的なポストトレーニング ツールとなっており、生徒自身のロールアウトに沿ってトークンごとに教師による緻密な監督を提供します。この研究では、OPD の根底にある共通の構造的原因を特定し、これをプレフィックス障害と呼びます。プレフィックス障害が発生すると、トークンごとの高密度の監視により、トークンレベルの損失の切り捨てや再重み付けでは対処できない二峰性の教師混合と断片化された勾配が引き起こされます。この観察は、トークンレベルの損失介入を超えて、軌道レベルの出力修正に向けて進む動機付けとなります。したがって、我々は、ポリシー上のサポートの範囲内で教師の指導の下で生徒のロールアウトを修正する軌道レベルの修正方法である軌道洗練蒸留(TRD)を提案します。問題のあるプレフィックスを蒸留前に修正することで、TRD はソースでのプレフィックスの障害を軽減します。さらに、TRD は、元のロールがすでに正しい場合でも、教師の指導の下で生徒に代替の有効な導出を提示することで探索を改善します。 TRD は、教師として特権情報に条件付けされた学生モデルを使用するパラメータ共有バリアントであるオンポリシー自己蒸留 (OPSD) にも適用できます。 TRD は、複数のスケールの幅広いベンチマークとベース モデルにわたって一貫して以前のベースラインを上回るパフォーマンスを示し、1 回の試行の精度を向上させ、推論範囲を拡大しています。コードは https://github.com/louieworth/trd で入手できます。

原文 (English)

Trajectory-Refined Distillation

On-policy distillation (OPD) has become a central post-training tool for large language models (LLMs), providing dense per-token teacher supervision along the student's own rollouts. In this work, we identify a common structural cause underlying OPD, which we call prefix failure. Under prefix failure, dense per-token supervision induces a bimodal teacher mixture and fragmented gradients that token-level loss truncation or reweighting fail to address. This observation motivates us to move beyond token-level loss interventions toward trajectory-level output corrections. We thus propose Trajectory-Refined Distillation (TRD), a trajectory-level correction method that revises the student's rollout under the teacher guidance while within on-policy support. By correcting problematic prefixes before distillation, TRD mitigates prefix failure at its source. Moreover, TRD improves the exploration by exposing the student to alternative valid derivations under teacher guidance, even when the original rolls are already correct. TRD can also be applied to on-policy self-distillation (OPSD), a parameter-sharing variant that uses the student model conditioned on privileged informations as the teacher. Across a wide range of benchmarks and base models at multiple scales, TRD consistently outperforms prior baselines, improving single-attempt accuracy and broadening reasoning coverage. Code is available at https://github.com/louieworth/trd

13:00 JSTLLM/生成AIエージェント

ギフト: 財務強化学習のための LLM ガイドの状態報酬インターフェイス

金融ポートフォリオ取引は当然ながら強化学習問題として定式化され、エージェントが変化する市場条件の下で資産を順次リバランスして、リターン、リスク、取引コストのバランスをとります。しかし、非定常市場では、生のOHLCV状態と短期リターン報酬は、多くの場合、仕様が不十分な学習インターフェースを提供し、オープンエンド生成を制限しながら金融知識を状態と報酬の設計に注入する方法として大規模な言語モデルを動機付けます。この目的を達成するために、PPO ベースの財務強化学習における状態報酬インターフェイス設計のための LLM ガイド付きフレームワークである GIFT を提案します。 LLM を使用して取引の意思決定を行うのではなく、GIFT は、ファクターに基づく状態強化を使用して財務ファクターのプリミティブから状態特徴を生成し、リスクルールに基づく報酬形成によりポートフォリオのリスクルールから補助報酬を生成し、診断に基づくリファインメントを使用して PPO ロールアウト診断を使用して候補インターフェイスを修正します。改良後、GIFT は評価前に選択された状態報酬インターフェイスを修正し、テスト時にそれ以上の LLM クエリやインターフェイスの更新は行いません。多様な市場体制とポートフォリオシナリオにわたる包括的なローリングウィンドウ実験により、GIFT が学習シグナルの品質とサンプル外のリスク調整後のポートフォリオパフォーマンスをベースラインよりも向上させることが実証されました。コードとデータは https://github.com/KAG778/GIFT から入手できます。

原文 (English)

GIFT: LLM-Guided State-Reward Interface for Financial Reinforcement Learning

Financial portfolio trading is naturally formulated as a reinforcement learning problem, where an agent sequentially rebalances assets under changing market conditions to balance return, risk, and transaction costs. Yet in non-stationary markets, raw OHLCV states and short-horizon return rewards often provide an under-specified learning interface, motivating large language models as a way to inject financial knowledge into state and reward design while constraining open-ended generation. To this end, we propose GIFT, an LLM-guided framework for state-reward interface design in PPO-based financial reinforcement learning. Rather than using the LLM to make trading decisions, GIFT uses Factor-guided State Enhancement to generate state features from financial-factor primitives, Risk-rule-guided Reward Shaping to generate auxiliary rewards from portfolio-risk rules, and Diagnostic-guided Refinement to revise candidate interfaces using PPO rollout diagnostics. After refinement, GIFT fixes the selected state-reward interface before evaluation, with no further LLM queries or interface updates at test time. Comprehensive rolling-window experiments across diverse market regimes and portfolio scenarios demonstrate that GIFT improves learning-signal quality and out-of-sample risk-adjusted portfolio performance over baselines. Code and data are available at: https://github.com/KAG778/GIFT .

13:00 JST研究/論文

形式的および関係的概念分析における解釈可能な命名のための可変性ベースのフレームワーク

シンボリック データからの知識の抽出では、形式的に定義されていてもユーザーがすぐには解釈できない抽象化が生成されることがよくあります。形式概念分析 (FCA) と関係概念分析 (RCA) は、この問題の代表的な設定を提供します。これらは、オブジェクトの説明と関係から明示的な概念構造、含意、関係依存関係を生成します。これらの構造は設計によって説明可能ですが、その概念は技術的なラベルによって識別されることが多く、人間が解釈可能な知識単位としての使用が制限されます。したがって、そのような概念に意味のある名前を割り当てることは、ドメインの専門家による解釈、ナビゲーション、検証、再利用にとって重要な問題となります。この論文は、記号知識表現の観点から FCA と RCA における概念命名を調査します。まず、生成された象徴的な抽象概念の命名に伴う言語的および用語上の課題 (曖昧さ、差別化、簡潔さ、関連概念間の一貫性など) を特徴付けます。次に、LLM を利用した概念命名のための構成可能なフレームワークを提案します。このフレームワークは、意図、範囲、継承された情報、隣接する概念、含意、関係属性など、名前付けの際に公開される情報ソースを制御する変動モデルに依存しています。これにより、形式的な概念の説明から人間が判読できる名前への移行に伴う意味論的な選択が明確になります。このアプローチは、ピザ屋ドメインの小規模なリレーショナル データセットの概念実証として示されています。この図は、さまざまな構成が LLM によって提案される名前にどのような影響を与えるか、また、名前の変動によって解釈の選択肢、リレーショナルの依存関係、基礎となるシンボリック データの潜在的なモデリングの問題がどのように明らかになるかを示しています。

原文 (English)

A Variability-Based Framework for Interpretable Naming in Formal and Relational Concept Analysis

Knowledge extraction from symbolic data often produces abstractions that are formally defined but not immediately interpretable by users. Formal Concept Analysis (FCA) and Relational Concept Analysis (RCA) provide representative settings for this issue: they generate explicit conceptual structures, implications, and relational dependencies from object descriptions and relations. Although these structures are explainable by design, their concepts are often identified by technical labels, which limits their use as human-interpretable knowledge units. Assigning meaningful names to such concepts is therefore a key issue for interpretation, navigation, validation, and reuse by domain experts. This paper investigates concept naming in FCA and RCA from a symbolic knowledge representation perspective. We first characterize the linguistic and terminological challenges involved in naming generated symbolic abstractions, including ambiguity, discrimination, concision, and consistency across related concepts. We then propose a configurable framework for LLM-assisted concept naming. The framework relies on a variability model that controls which sources of information are exposed during naming, such as intent, extent, inherited information, neighboring concepts, implications, and relational attributes. It thereby makes explicit the semantic choices involved in moving from formal concept descriptions to human-readable names. The approach is illustrated as a proof of concept on a small relational dataset in the pizzeria domain. This illustration shows how different configurations influence the names suggested by an LLM, and how naming variability can reveal interpretation choices, relational dependencies, and possible modeling issues in the underlying symbolic data.

13:00 JSTLLM/生成AIビジネス/資金調達

ブラックボックスのテスト: 消費者向けの健康 LLM の独立した評価に対する構造的障壁

背景: 消費者向けの大規模言語モデルは現在、健康情報の一般的な情報源となっており、応答を取得するのではなく、解釈してパーソナライズします。彼らの反応がユーザーによって異なるかどうかは、臨床、公平性、ガバナンスの問題であり、おべっかな反応が判断を変え、信頼を高める可能性があるという証拠によってさらに鮮明になります。目的: 通常の患者の使用に似た条件下で、消費者向けの健康 LLM における反応のばらつきと不平不満を評価すること。方法: 社会的背景と健康に対する態度を結びつける文献を参考にして、地理、閲覧状況、表明された信念、健康の社会的決定要因が異なるシミュレートされたユーザープロファイルを構築しました。私たちは、ワクチン接種態度検査スケールや生殖態度スケールなどの検証済みのツールを、ユーザー間で臨床的に意味のある変動を引き出すように設計されたマルチターン プロンプトに適合させました。結果: 評価では 5 つの関連する障壁に遭遇しました。事実に基づいたプロンプトは安定した応答を生成し、複数ターンの会話を通じて現れるお調子者を覆い隠しました。ブラウザベースのインターフェイスは、どの信号が出力に影響を与えるかを明らかにしておらず、クリーンなベースラインにリセットできませんでした。大規模なテストは、サービス規約、レート制限、ボット検出によって制限されていました。精度ベースの基準ではトーン、フレーミング、欠落を捉えることができず、LLM-as-judge 手法では共有アライメントバイアスの危険性がありました。追跡可能なバージョン識別子なしでモデルが変更されたため、信頼性の高いレプリケーションが妨げられました。結論: 消費者向けの健康 LLM が通常の使用においてどのように動作するかを調査するための信頼できる独立した評価フレームワークはまだ存在しません。監視には、パーソナライゼーションシグナル、安定バージョン識別子、研究者のセーフハーバープログラム、および健康関連出力の展開後のモニタリングの開示が必要です。

原文 (English)

Testing the Black Box: Structural Barriers to Independent Evaluation of Consumer-Facing Health LLMs

Background: Consumer-facing large language models are now a common source of health information, and they interpret and personalize responses rather than retrieve them. Whether their responses vary across users is a clinical, equity, and governance question, sharpened by evidence that sycophantic responses can alter judgment and increase trust. Objective: To evaluate response variation and sycophancy in consumer-facing health LLMs under conditions resembling ordinary patient use. Methods: We constructed simulated user profiles differing in geography, browsing context, expressed beliefs, and social determinants of health, drawing on literature linking social context to health attitudes. We adapted validated instruments, including the Vaccination Attitudes Examination scale and reproductive attitudes scales, into multi-turn prompts designed to elicit clinically meaningful variation across users. Results: The evaluation encountered five linked barriers. Factual prompts produced stable responses that masked sycophancy emerging over multi-turn conversation. Browser-based interfaces did not disclose which signals influence outputs and could not be reset to a clean baseline. Large-scale testing was restricted by terms of service, rate limits, and bot detection. Accuracy-based criteria could not capture tone, framing, or omission, and LLM-as-judge methods risked shared alignment bias. Models changed without traceable version identifiers, preventing reliable replication. Conclusions: No reliable independent evaluation framework yet exists for examining how consumer-facing health LLMs behave in ordinary use. Oversight requires disclosure of personalization signals, stable version identifiers, researcher safe harbor programs, and post-deployment monitoring of health-related outputs.

13:00 JST研究/論文

リレーショナルディープラーニングに望ましいグラフを作るものは何ですか?

リレーショナル ディープ ラーニング (RDL) はリレーショナル データベース (RDB) を異種グラフに変換しますが、データベース スキーマから直接派生したグラフは、多くの場合、グラフ ニューラル ネットワーク (GNN) がリレーショナル推論を実行する方法にはあまり適していません。私たちは、リレーショナル グラフがディープ ラーニングに適している理由を研究し、スキーマ派生グラフには情報の過負荷と意味論的な断片化という 2 つの系統的な障害があることを示します。私たちの経験的分析により、目的のグラフは生のスキーマではなく、制御された構造適応の結果であることが明らかになりました。パフォーマンスは、フィルタリングによる情報過負荷の軽減と、インジェクションによるセマンティック断片化の修復という 2 つの操作のバランスに依存します。具体的には、フィルタリングは非単調効果を伴うバイアス分散ノブとして機能しますが、インジェクションは元のスキーマから欠落しているリレーショナル依存関係を明示的に復元する場合にのみパフォーマンスを向上させます。これらの発見に基づいて、両方の操作を適用してリレーショナル グラフを自動的に適応させるエンドツーエンドの構造オプティマイザーを開発します。分類、回帰、推奨に及ぶ 26 のタスクにわたって、最適化されたグラフにより精度が一貫して向上し、同時に推論コストも削減されます。

原文 (English)

What Makes a Desired Graph for Relational Deep Learning?

Relational deep learning (RDL) converts relational databases (RDBs) into heterogeneous graphs, but graphs derived directly from database schemas are often not well suited for how graph neural networks (GNNs) perform relational reasoning. We study what makes a relational graph suitable for deep learning and show that schema-derived graphs suffer from two systematic failures: information overload and semantic fragmentation. Our empirical analysis reveals that the desired graph is not the raw schema, but a result of controlled structural adaptation. Performance depends on balancing two operations: mitigating information overload via filtering, and repairing semantic fragmentation via injection. Specifically, filtering serves as a bias-variance knob with non-monotonic effects, while injection improves performance only when it explicitly restores the relational dependencies missing from the original schema. Based on these findings, we develop an end-to-end structural optimizer that applies both operations to adapt relational graphs automatically. Across 26 tasks spanning classification, regression, and recommendation, the optimized graphs consistently improve accuracy while often reducing inference cost.

13:00 JSTLLM/生成AI

ブラックボックス言語モデルの説明: 言語的に構造化された単語のサブセットを最適化する方法を学ぶ

深層言語モデル (DLM) がヘルスケアなどのリスクの高い分野で導入されることが増えているため、信頼、安全性、説明責任を確保するには、その意思決定の根拠を理解することが最も重要になっています。ただし、この重要なレベルの解釈可能性を達成することは、これらの DLM がブラックボックス システム (API などを介して) として動作し、モデルの内部状態 (パラメーター、勾配など) へのアクセスが制限されている場合に特に困難です。多くの努力にもかかわらず、既存の説明方法は、(i) 推論時間の効率、(ii) 分布外の動作を誘発することのないブラックボックス互換性、および (iii) 入力の言語構造に基づいた理解可能な説明という 3 つの重要な要望を同時に満たすことができないことがよくあります。これらの課題に対処するために、入力単語の有益な小さなサブセットを選択することによって DLM の予測を説明する方法を提案します。これを償却最適化問題として定式化し、入力固有の検索を必要とせずに効率的なワンショット推論を可能にします。私たちの選択ポリシーは REINFORCE スタイルのポリシー勾配を介してトレーニングされており、完全に勾配のない設定で個別の単語を選択できます。解釈可能性を高め、人間の言語的直観と一致させるために、グラフ構造化された知識をこの選択プロセスに統合し、言語的に一貫したサブセットを促進し、エンドユーザーにとって非常に有益で認知的に意味のある説明をもたらします。私たちは、多様な DLM アーキテクチャと複数の実世界のデータセットでメソッドを評価しました。これは、強化された識別力と、言語的に顕著な手がかりとのより強力な整合性を備えた単語サブセットを一貫して識別し、従来のブラックボックス互換の方法や、より困難なベンチマークのためにブラックボックスモデルの勾配へのオラクルアクセスが与えられる勾配ベースのアプローチの両方を上回ります。私たちのコードはここから入手できます。

原文 (English)

Explaining Black-Box Language Models: Learning to Optimize Linguistically-Structured Word Subsets

As deep language models (DLMs) are increasingly deployed in high-stakes domains such as healthcare, understanding their decision rationale becomes paramount for ensuring trust, safety, and accountability. However, achieving this vital level of interpretability is particularly challenging when these DLMs operate as black-box systems (e.g., via APIs), where access to internal model states (e.g., parameters, gradients) is restricted. Despite numerous efforts, existing explanation methods often fail to concurrently satisfy three key desiderata: (i) inference-time efficiency, (ii) black-box compatibility without inducing out-of-distribution behavior, and (iii) comprehensible explanations grounded in the input's linguistic structure. To address these challenges, we propose a method that explains predictions of DLMs by selecting a small, informative subset of input words. We formulate this as an amortized optimization problem, enabling efficient one-shot inference without the need for input-specific search. Our selection policy is trained via REINFORCE-style policy gradients, allowing discrete word selection in a fully gradient-free setting. To enhance interpretability and align with human linguistic intuition, we integrate graph-structured knowledge into this selection process, fostering linguistically coherent subsets that result in explanations both highly informative and cognitively meaningful to end-users. We evaluated our method on diverse DLM architectures and multiple real-world datasets. It consistently identifies word subsets with enhanced discriminative power and stronger alignment with linguistically salient cues, outperforming both conventional black-box compatible methods and gradient-based approaches that are given oracle access to the black-box model's gradients for a more challenging benchmark. Our code is available at here.

13:00 JST研究/論文

否定可能な信念を備えた立場の論理

この論文では、クラウス、レーマン、マジドール (KLM) の反証可能論理を、G\'omez\'Alvarez と Rudolph の立場論理フレームワークと統合します。これは、実行不可能な信念を保持する可能性のある複数の (おそらく矛盾する) 視点を考慮して知識を正式に表現することを目的として行われます。その際、Leisegang らが導入した Defeasible Restricted Standpoint Logics (DRSL) を利用します。私たちの研究は、DRSL セマンティクスの基礎的な表現結果を提供し、いくつかのよく知られた含意関係を命題事例から立場強化設定に体系的に持ち上げることによって、以前の研究を拡張しています。特に、立場のケースに適合した一連の KLM スタイルの仮定を通じて、DRSL のセマンティクスを特徴付けます。さらに、単一のランキング関数に基づいて、優先的含意と含意関係のクラスを、純粋に命題的なものから、合理的および辞書編集的な閉包を含む立場強化されたコンテキストに引き上げる手段を提供します。これが意味論的およびアルゴリズム的手段を通じて同等に実行できることを示します。さらに、考慮された含意の形式ごとに、命題 KLM から DRSL に移行しても、含意チェックの複雑さのクラスが変わらないことを示します。

原文 (English)

Standpoint Logics with Defeasible Beliefs

In this paper, we integrate the defeasible logic of Kraus, Lehmann and Magidor (KLM) with the standpoint logic framework of G\'omez \'Alvarez and Rudolph. This is done with the goal of formally expressing knowledge taking into account multiple (possibly contradicting) viewpoints, which in turn may hold defeasible beliefs. In doing so, we utilise Defeasible Restricted Standpoint Logics (DRSL), introduced by Leisegang et al. Our work expands on previous work by providing a foundational representation result for DRSL semantics and systematically lifting several well-known entailment relations from the propositional case to the standpoint-enhanced setting. In particular, we characterise the semantics for DRSL through a set of KLM-style postulates adapted for the standpoints case. We furthermore provide a means to lift preferential entailment, and the class of entailment relations based on single ranking functions from the purely propositional to the standpoint-enhanced context, including rational and lexicographic closure. We show this can be done equivalently through semantic and algorithmic means. Furthermore, we show that, for each considered form of entailment, the complexity class of entailment checking does not change when moving from propositional KLM to DRSL.

13:00 JSTLLM/生成AIエージェントAnthropicClaudeGPT / ChatGPTGemini

GAIA に対する足場の効果: 制御された比較

公開されているエージェント能力スコアは、モデルができることとその足場ができることを混同しており、この誘発ギャップの大きさは、制御された条件下では十分に特徴付けられていません。この調査では、GAIA 検証レベル 1 および 2 で、タスクと条件を保持しながら、3 つのプロバイダー (Claude Opus 4.7、Sonnet 4.6、Haiku 4.5、Gemini 3.1 Pro Preview、GPT-5.5) の 5 つのモデルにわたる 3 つのスキャフォールド (ReAct、プランナー-アクター-レイターのマルチエージェント設計、およびプランナー-その後実行者) の事前登録された制御比較を実行します。固定で、質問ごとに 3 回試行できます。足場の選択だけで、単一モデル (Opus、レベル 2、ロバスト スライス) 内で測定された精度が 28 パーセント ポイントも変化し、足場の変動によって少なくとも 10 ポイントのギャップが生じるという事前登録された仮説が裏付けられます。より有能なモデルほど足場の影響を受けにくいという事前に登録された予測は、方向的には拒否されます。足場の効果は、すべてのデータセット スライスのモデルによって大きく異なりますが、最も有能な人間モデルは、よりハードなレベルで構造化足場から最大の利益を得ることができ、階層スケーリングは堅牢なスライスの下のレベル 1 でのみ保持されます。レベル 2 での ReAct に対するマルチエージェントの利点は、Anthropic ファミリ内では現れますが、クロスプロバイダー モデルでは現れず、機能層ではなくモデル ファミリが条件変数となり、ファイル読み取りタスクで予測されたプランナーと実行者の利点が偽られます。構造化されたスキャフォールドでは、ツールの呼び出しが少なくなりますが、より困難なレベルでの軌道途中のエラーからより頻繁に回復します。また、単一セル (プランナー、次にエグゼキューターを備えた Gemini) は両方のレベルで最も安価で、レベル 2 で最も正確です。 これらの結果は、単一スキャフォールドの能力値がスキャフォールドの条件付き推定値であり、モデルが改善されるにつれて引き出しギャップが縮小することが保証されていないことを示しています。

原文 (English)

Scaffold Effects on GAIA: A Controlled Comparison

Published agent capability scores conflate what a model can do with what its scaffold lets it do, and the magnitude of this elicitation gap is not well characterized under controlled conditions. This study executes a pre-registered controlled comparison of three scaffolds (ReAct, a Planner-Actor-Rater multi-agent design, and planner-then-executor) across five models from three providers (Claude Opus 4.7, Sonnet 4.6, Haiku 4.5; Gemini 3.1 Pro Preview; GPT-5.5) on GAIA validation Levels 1 and 2, holding tasks and conditions fixed, with three attempts per question. Scaffold choice alone moves measured accuracy by as much as 28 percentage points within a single model (Opus, Level 2, robust slice), confirming the pre-registered hypothesis that scaffold variation produces gaps of at least 10 points. The pre-registered prediction that more capable models would be less scaffold-sensitive is rejected in direction: scaffold effects vary significantly by model in every dataset slice, but the most capable Anthropic model gains the most from structured scaffolds at the harder level, and tier-scaling holds only at Level 1 under the robust slice. The multi-agent advantage over ReAct at Level 2 appears within the Anthropic family but not for the cross-provider models, making model family rather than capability tier the conditioning variable, and the predicted planner-executor advantage on file-reading tasks is falsified. Structured scaffolds make fewer tool calls yet recover more often from mid-trajectory errors at the harder level, and a single cell (Gemini with planner-then-executor) is the cheapest at both levels and the most accurate at Level 2. These results indicate that single-scaffold capability numbers are scaffold-conditional estimates and that the elicitation gap is not guaranteed to shrink as models improve.

13:00 JSTLLM/生成AIエージェントビジネス/資金調達

VESTA: LLM エージェント向けの完全に自動化されたシナリオ生成および安全性評価フレームワーク

大規模言語モデル (LLM) は、単純なテキストベースの対話システムから、メモリを維持し、ツールを使用し、外部環境にアクセスし、タスクを実行できる LLM エージェントへとますます進化しています。彼らの能力と自律性が拡大するにつれて、彼らが直面する安全リスクもより多様になります。既存の評価は、手動で作成されたシナリオ、静的なプロンプト、または最終出力の判断に依存していることが多く、タスクの実行中にエージェントが直面する可能性のあるさまざまなリスクを把握することが困難です。 LLM エージェント向けの完全に自動化されたシナリオ生成および安全性評価フレームワークである VESTA を紹介します。 VESTA は、5 つのリスク次元に基づいて、現実世界のタスク実行における抽象的で多様な安全リスクを 1,072 の測定可能な評価シナリオにインスタンス化します。自動評価パイプラインを使用して、12 個の LLM エージェントが 2 つの権限コンテキストの下で評価されます。その結果、現在のエージェントはタスク実行中に依然として重大な行動安全リスクに直面しており、平均 ASR は 47.1%、いくつかのモデルは 70% を超えていることが示されています。これらの調査結果は、LLM エージェントの安全性を理解し改善するために、実行可能なプロセスレベルの評価が重要であることを示しています。

原文 (English)

VESTA: A Fully Automated Scenario Generation and Safety Evaluation Framework for LLM Agents

Large language models (LLMs) are increasingly evolving from simple text-based interaction systems into LLM agents that can maintain memory, use tools, access external environments, and execute tasks. As their capabilities and autonomy expand, the safety risks they face also become more diverse. Existing evaluations often rely on manually written scenarios, static prompts, or final-output judgments, making it difficult to capture the diverse risks that agents may face during task execution. We introduce VESTA, a fully automated scenario generation and safety evaluation framework for LLM agents. Based on five risk dimensions, VESTA instantiaes abstract and diverse safety risks in real-world task execution into 1,072 measurable evaluation scenarios. Using the automated evaluation pipeline, 12 LLM agents are evaluated under two authority contexts. The results show that current agents still face substantial behavioral safety risks during task execution, with an average ASR of 47.1% and several models exceeding 70%. These findings demonstrate the importance of executable, process-level evaluation for understanding and improving LLM agent safety.

13:00 JST研究/論文

DN-Hypo-Pipeline: 大規模な言語モデルと科学的説明による仮説生成のための AI 主導のワークフロー

科学的仮説は研究の最初のステップであり、実験による検証が行われますが、科学的現象に対する深い理解と推論も反映されています。 DN-Hypo-Pipeline は、大規模な言語モデルに基づく AI を活用したワークフローで、事前知識として科学的な説明を活用することで、構造化された科学的思考と仮説生成をサポートするように設計されています。このパイプラインは、研究者が既存の文献から新しい仮説を導き出すのを支援します。研究論文の解説 (つまり、結論) が与えられると、基礎となる法則、理論、原理が特定され、観察された現象についての新しい、まだ検証されていない説明が再構築されます。私たちは、引用度の高い 3 つの論文を使用して、データ サイエンス モデリングの分野で DN-Hypo-Pipeline を評価しました。裁判官としての LLM による評価と人間の専門家による評価の両方によって裏付けられた統計的推論は、当社のパイプラインが直接生成方法よりも効果的であることを示しています。さらに、対応する新しいアルゴリズムを開発することにより、生成された 2 つの最高スコアの仮説を検証しました。このアルゴリズムは、元の論文で提示されたベースライン モデルを上回りました。 DN-Hypo-Pipeline は、データ サイエンスへの応用を超えて、理論に基づいたデータ サイエンス モデリング手法を包含するだけでなく、モデリング プロセスのより基本的な構造も明らかにする理論的フレームワークを提供します。さらに、このアプローチは本質的に理論に基づいたモデリングの一般化であり、他の領域やより幅広い科学分野に拡張できる可能性を提供します。

原文 (English)

DN-Hypo-Pipeline: An AI-Driven Workflow for Hypothesis Generation via Large Language Models and Scientific Explanations

A scientific hypothesis is the first step in research and undergoes experimental validation, yet it also reflects a deep understanding of and reasoning about scientific phenomena. We introduce DN-Hypo-Pipeline, an AI-powered workflow based on large language models, designed to support structured scientific thinking and hypothesis generation by leveraging scientific explanations as prior knowledge. This pipeline assists researchers in deriving novel hypotheses from existing literature. Given the explanandum (i.e., the conclusion) of a research paper, it identifies underlying laws, theories, and principles, and reconstructs a new, yet-to-be-verified explanation for the observed phenomenon. We evaluated DN-Hypo-Pipeline in the field of data science modeling using three highly cited papers. Statistical inference, supported by both LLM-as-judge assessment and human expert evaluation, demonstrates that our pipeline is more effective than direct generation methods. Additionally, we validated the two highest-scoring generated hypotheses by developing corresponding novel algorithms, which outperformed the baseline models presented in the original papers. Beyond application in data science, DN-Hypo-Pipeline provides a theoretical framework that not only encompasses theory-guided data science modeling methods but also reveals a more fundamental structure of the modeling process. Moreover, this approach is essentially a generalization of theory-guided modeling, offering potential for extension to other domains and across a broader range of scientific disciplines.

13:00 JSTエージェント

AgentTrust: AI エージェント アクションのための自己改善型信頼層

AI エージェントは、シェル コマンド、クラウド操作、任意のツール呼び出しなど、結果的なアクションを実行することが増えているため、信頼層はアクションごとに、許可、警告、ブロック、エスカレーションのいずれを行うかを決定する必要があります。私たちは、このような層について推論する正しい方法は、脅威のタイプに基づいて判断することであると主張します。安定したトークンの中に危険が存在する語彙(固定署名)脅威は、決定論的なルールによって決定可能です。セマンティック (意図に依存する) 脅威は、良性のアクションと悪意のあるアクションが同じ表面を共有するものであり、構造上ルールが適用できません。私たちはこれを否定的な証明で具体化します。強いLLMジャッジはそれらのカテゴリーを正確に保持する一方で、決心して手動で作成したクラウドルールパックは全体の保留精度を48から56%しか上昇させず、セマンティックカテゴリーを0ppずつ移動させます(data_db 29から29、可観測性59から59、supply_chain 50から50)。私たちは裁判官に自己学習能力を与えます。主にセマンティック攻撃であるコーパスでは、フォールスブロックがほぼゼロでルールの精度がほぼ 2 倍になり (48% から 83.6 ~ 85.2%)、これは 2 つのモデルプロバイダーにわたって当てはまります。私たちはこれを自己改善型のデュアルストア システムに変えます。裁判官は、語彙上の脅威に関して増大する決定論的なルール フロアを抽出し (時間の経過とともに低コストになります)、セマンティックな脅威に関しては保護された RAG メモリに供給します (評決キャッシュが失敗し、サーフェス ツインが最大 58% まで崩壊します。そのため、裏付けガードによってセマンティックな精度が +13pp、70 から 84 に引き上げられます)。その結果、AgentTrust v2 が静的 v1 の前任者と区別されるのは、独自の意思決定の流れから自己進化するトラスト層です。語彙クラスでは低コスト (独自のルールを抽出) で、意味クラスではよりスマート (保護された前例が蓄積されます) でありながら、良性のアクションをハードブロックすることはありません。エンドツーエンドのオンライン リプレイでは、ジャッジコール率が低下 (50% から 44%) し、ジャッジ ドメインの精度が上昇 (71% から 80%) し、45,000 のアクションにわたって良性のハードブロックが 0 件であることがわかります。

原文 (English)

AgentTrust: A Self-Improving Trust Layer for AI-Agent Actions

AI agents increasingly take consequential actions -- shell commands, cloud operations, and arbitrary tool-calls -- so a trust layer must decide, per action, whether to allow, warn, block, or escalate. We argue that the right way to reason about such a layer is by threat type. Lexical (fixed-signature) threats, where danger lives in a stable token, are decidable by deterministic rules; semantic (intent-dependent) threats, where a benign and a malicious action share the same surface, are out of reach for rules by construction. We make this concrete with a negative proof: a determined, hand-authored cloud rule pack lifts held-out accuracy only 48 to 56% overall and moves the semantic categories by 0pp (data_db 29 to 29, observability 59 to 59, supply_chain 50 to 50), while a strong LLM judge carries exactly those categories. We give the judge a self-learning capability: on a corpus that is mainly semantic attacks it nearly doubles rule accuracy (48% to 83.6-85.2%) with near-zero false-blocks, and this holds across two model providers. We turn this into a self-improving dual-store system: the judge distills a growing deterministic rule floor on lexical threats (cheaper over time) and feeds a guarded RAG memory on semantic threats (a verdict-cache fails -- surface-twins collapse to ~58% -- so a corroboration guard lifts semantic accuracy +13pp, 70 to 84). The result is what sets AgentTrust v2 apart from its static v1 predecessor: a trust layer that self-evolves from its own stream of decisions -- cheaper on the lexical class (it distils its own rules) and smarter on the semantic class (it accrues guarded precedent), while never hard-blocking a benign action. An end-to-end online replay shows the judge-call rate falling (50% to 44%) and judge-domain accuracy rising (71% to 80%), with 0 benign hard-blocks across 45,000 actions.

13:00 JSTLLM/生成AI

PAEC: RLVR での LLM 推論のための位置認識エントロピー キャリブレーション

検証可能な報酬を伴う強化学習 (RLVR) は、大規模な言語モデルの推論を改善しますが、多くの場合、ポリシーが狭い高確率の推論パスに時期尚早に集中する、急速なポリシー エントロピーの崩壊に悩まされます。グローバルなエントロピーの正則化は探索を促進できますが、すべてのトークンの位置にわたってエントロピーを均一に増加させることは、多くのトークンが意思決定に関連しない長い推論の軌道では非効率的です。我々は、局所的な上位-pエントロピーと上位2候補の競合からソフトマスクを構築し、選択された位置のエントロピー崩壊を防ぐためにアンカーベースの下限ペナルティを適用するトークンレベルのエントロピー管理フレームワークであるPosition-Aware Entropy Calibration(PAEC)を提案します。 5 つの数学的推論ベンチマークに関する実験では、PAEC が強力な RLVR ベースラインよりもマクロ平均多数決のパフォーマンスを向上させ、AIME スタイルのタスクで明らかな利益をもたらしていることが示されています。我々の結果は、推論RLにおけるエントロピー管理は、一様なランダム性の注入ではなく、意思決定に敏感な位置に対する選択的な探索割り当てとして定式化されるべきであることを示唆しています。

原文 (English)

PAEC: Position-Aware Entropy Calibration for LLM Reasoning in RLVR

Reinforcement learning with verifiable rewards (RLVR) improves large language model reasoning but often suffers from rapid policy-entropy collapse, where the policy prematurely concentrates on narrow high-probability reasoning paths. While global entropy regularization can encourage exploration, uniformly increasing entropy across all token positions is inefficient for long reasoning trajectories, where many tokens are not decision-relevant. We propose Position-Aware Entropy Calibration (PAEC), a token-level entropy-management framework that constructs a soft mask from local top-p entropy and top-two candidate competition, and applies an anchor-based lower-bound penalty to prevent selected-position entropy collapse. Experiments on five mathematical reasoning benchmarks show that PAEC improves macro-average majority-vote performance over strong RLVR baselines, with clear gains on AIME-style tasks. Our results suggest that entropy management in reasoning RL should be formulated as selective exploration allocation over decision-sensitive positions rather than uniform randomness injection.

13:00 JSTエージェント

定量的約束理論: 自律エージェントにおける意図性と推論

自律エージェントが関与するプロセスに対するプロミス理論のいくつかの定量的表現について説明します。エージェント モデルは、ソフトウェア システム、機械学習、生物学などで一般的ですが、物理学やその他の形式の工学にも適用される場合があります。アクティブ推論を含むベイズ確率と情報理論の最適化をプロミスのセマンティクスに組み込む方法と、プロミス理論が解決策を補足して、確率計算の非局所調整、校正、正規化などの確率の落とし穴を回避する方法について説明します。許可される状態を制約し、決定しきい値を選択する際の境界条件の役割は約束の一種であり、エージェントの調整により、意図のスケーラブルな定義が提供されます。自律エージェントは、情報を最大化するために機能する不確実性にもかかわらず、情報を最小限に抑えようとすることで、スーパーエージェントの特性を備えた群れに固まる可能性があります。 Promise Theory の使用には、スタイルの好みだけでなく、いくつかの研究上の課題も伴います。

原文 (English)

Quantitative Promise Theory: Intentionality and Inference in Autonomous Agents

I discuss some quantitative representations of Promise Theory for processes involving autonomous agents. Agent models are common in software systems, machine learning, and biology, for example, but may also apply to physics and other forms of engineering. I describe how Bayesian probability and information theoretic optimization, including Active Inference, may be incorporated with promise semantics -- as well as how Promise Theory supplements solutions, helping to avoid probability's pitfalls, which include non-local coordination, calibrating, and normalizing probabilistic computations. The role of boundary conditions in constraining allowed states and selecting decision thresholds is a form of promise, and agent alignment provides a scalable definition of intent. Autonomous agents may congeal into swarms with superagent characteristics by trying to minimize their information, despite uncertainty that works to maximize it. The use of Promise Theory involves some research challenges as well as stylistic preferences.

13:00 JSTLLM/生成AI

LLM 推論を人間と AI のコラボレーションのための解釈可能なポリシー ツリーに抽出する

人間と AI のコラボレーションには、人間を支援するための効率的で信頼性の高いポリシーを構築することが不可欠です。既存の方法は主に 2 つの作業の流れに従います。これまでの研究のほとんどは、ブラックボックス ポリシーを学習するためにマルチエージェント強化学習 (MARL) に依存していましたが、これにより解釈可能性が制限され、安全性の懸念が生じました。最近の手法では、各決定ステップで大規模言語モデル (LLM) にクエリを実行するため、応答が遅くなり、推論コストが高くなります。我々は、パートナー行動予測ツリーとエージェントアクション選択ツリーから構成される実行可能なポリシーツリーを学習する閉ループ手法であるコラボレーションポリシーツリー(Co-pi-tree)を提案します。 Co-pi-tree は、LLM 推論をポリシー ツリー コードに抽出してポリシーを構築します。次に、パートナーとの対話を通じてポリシーを評価し、フィードバックを取得し、自然言語を使用して対話のフィードバックを要約し、問題のあるブランチを改善します。 Overcooked-AI の実験では、Co-pi-tree が平均報酬をベースライン平均より 35.4% 向上させ、LLM クエリの数を 77.7%、テスト時間のレイテンシを 97.1% 削減したことが示されています。プロジェクトページ: https://beiwenzhang.github.io/Co-pi-tree/

原文 (English)

Distilling LLM Reasoning into an Interpretable Policy Tree for Human-AI Collaboration

Constructing efficient and reliable policies to assist humans is indispensable for human-AI collaboration. Existing methods mainly follow two lines of work. Most prior work relies on multi-agent reinforcement learning (MARL) to learn black-box policies, which limits interpretability and raises safety concerns. Recent methods query large language models (LLMs) at each decision step, causing slow responses and high inference costs. We propose Collaboration Policy Tree (Co-pi-tree), a closed-loop method that learns an executable policy tree consisting of a partner-behavior prediction tree and an agent-action selection tree. Co-pi-tree constructs a policy by distilling LLM reasoning into policy tree code. It then evaluates the policy through partner interaction, obtains feedback, and uses natural language to summarize the interaction feedback to improve problematic branches. Experiments in Overcooked-AI show that Co-pi-tree improves average reward by 35.4% over the baseline average, while reducing the number of LLM queries by 77.7% and test-time latency by 97.1%. Project page: https://beiwenzhang.github.io/Co-pi-tree/

13:00 JSTLLM/生成AI

InA-Probe: LLM を使用した時系列予測のための命令認識型アクティブ プロービング

大規模言語モデル (LLM) は最近、時系列予測における素晴らしい可能性を実証しました。しかし、既存の方法は主に受動的なモダリティの調整や静的なタスクの再プログラミングに依存しており、きめの細かい非定常の時間的パターンを捕捉したり、微妙なタスクの意図に適応したりすることができないことがよくあります。この論文では、パッシブなアラインメントからアクティブな命令駆動型のプロービング メカニズムへとパラダイムを移行する、命令認識アクティブ プロービング (InA-Probe) を提案します。具体的には、グローバルなタスク目標と、きめの細かいパッチレベルの意味論的事前条件の両方でモデルを強化する、マルチレベル命令注入メカニズムを設計します。これに基づいて、適応クエリ生成モジュールは、時間的コンテキストによって動的に調整されるサンプル固有のプローブを生成します。これらのプローブは、二段階の注意プロセスを通じて洗練されます。まず、命令認識型自己注意を通じてタスク固有の意図を内部化し、続いて、時間的相互注意を通じて投影された時間的表現を調べて、顕著なパターンを抽出します。 7 つの現実世界のベンチマークに関する包括的な実験では、InA-Probe が最先端の深層学習および LLM ベースのベースラインを常に上回り、ワン フォー オール汎化とゼロショット転送の両方で優れていると同時に、困難なクロスドメイン シナリオで予測誤差を最大 37\% 削減することが示されています。アブレーション研究では、適応クエリときめ細かい命令の間の相乗効果が、複雑な時系列に対する LLM の推論能力を解き放つ鍵であることをさらに確認しています。

原文 (English)

InA-Probe: Instruction-Aware Active Probing for Time Series Forecasting with LLMs

Large Language Models (LLMs) have recently demonstrated impressive potential for time series forecasting. However, existing methods predominantly rely on passive modality alignment or static task reprogramming, which often fail to capture fine-grained, non-stationary temporal patterns or to adapt to nuanced task intents. In this paper, we propose Instruction-aware Active Probing (InA-Probe), which shifts the paradigm from passive alignment toward an active, instruction-driven probing mechanism. Specifically, we design a Multi-Level Instruction Injection mechanism that enriches the model with both global task objectives and fine-grained, patch-level semantic priors. Building on this, an Adaptive Query Generation module produces sample-specific probes that are dynamically modulated by the temporal context. These probes are then refined through a dual-stage attention process: they first internalize task-specific intents via Instruction-Aware Self-Attention, and subsequently interrogate the projected temporal representations through Temporal Cross-Attention to extract salient patterns. Comprehensive experiments on seven real-world benchmarks show that InA-Probe consistently outperforms state-of-the-art deep learning and LLM-based baselines, excelling in both one-for-all generalization and zero-shot transfer while reducing forecasting error by up to 37\% in challenging cross-domain scenarios. Ablation studies further confirm that the synergy between adaptive querying and fine-grained instructions is key to unlocking the reasoning power of LLMs for complex time series.

13:00 JST研究/論文

大規模言語モデルの推論による長期にわたる船舶の航跡と目的地の予測に向けて

長期的な海上航路予測は、船舶管理、物流計画、海上リスク分析にとって重要ですが、月レベルの予測については依然として十分に研究されていません。既存の深層学習手法は、主に短期および中期の座標外挿に焦点を当てており、長距離にわたってルートの実現可能性と目的地の正確性を維持するのに苦労することがよくあります。この論文では、推論可能な大規模言語モデルを使用して、長期にわたる船舶の共同軌道と目的地予測を調査し、検証可能な報酬を伴う強化学習 (RLVR) に基づいた海事 LLM ポストトレーニング フレームワークを開発します。 AIS ベースのベンチマークは、60 日間の過去の軌跡と 30 日間の予測期間で構築され、軌跡は RL プロンプト構築のために意味論的なテキスト表現に変換されます。 RLVR は、物理的妥当性を強化し、早期に重み付けされた軌道の監視を提供し、階層マッチングとカリキュラム学習を通じて目的地の正確性を評価することにより、LLM を海上予測の目標に合わせます。実験結果によると、RLVR でトレーニングされた LLM は、特に宛先関連のメトリクスにおいて、ゼロショット LLM や代表的な深層学習ベースラインよりも大幅に改善されています。評価された RLVR トレーニング済みバリアントの中で、4B LLM が最高の全体的なパフォーマンスを達成しました。これは、単により大きな 8B または 14B LLM を使用するよりも、報酬と互換性のある最適化とタスク固有のキャパシティのマッチングがより重要であることを示唆しています。この結果はまた、Transformer スタイルの時空間モデルには通常、より大規模なデータセットとより豊富な構造化入力が必要であるのに対し、LSTM は限られた微調整データの下でも依然として強力な深層学習ベースラインであることも示しています。全体として、この取り組みは、運用上の意思決定をサポートするために、セマンティックで検証者に合わせた海上予測を進歩させます。

原文 (English)

Towards Long-Horizon Vessel Trajectory and Destination Forecasting with Reasoning Large Language Models

Long-horizon maritime trajectory prediction is important for shipping management, logistics planning, and maritime risk analysis, yet month-level forecasting remains insufficiently studied. Existing deep learning methods mainly focus on short- and mid-term coordinate extrapolation and often struggle to preserve route feasibility and destination correctness over extended horizons. This paper investigates joint long-horizon vessel trajectory and destination forecasting with reasoning-capable large language models, and develops a Maritime LLM post-training framework based on Reinforcement Learning with Verifiable Reward (RLVR). An AIS-based benchmark is constructed with 60-day historical trajectories and 30-day forecasting horizons, where trajectories are converted into semantic textual representations for RL prompt construction. RLVR aligns LLMs with maritime forecasting objectives by enforcing physical validity, providing early-weighted trajectory supervision, and evaluating destination correctness through hierarchical matching and curriculum learning. Experimental results show that RLVR-trained LLMs substantially improve over zero-shot LLMs and representative deep learning baselines, especially on destination-related metrics. Among the evaluated RLVR-trained variants, 4B LLMs achieve the best overall performance, suggesting that reward-compatible optimization and task-specific capacity matching are more important than simply using larger 8B or 14B LLMs. The results also show that LSTM remains a strong deep learning baseline under limited fine-tuning data, while Transformer-style spatio-temporal models typically require larger datasets and richer structured inputs. Overall, this work advances semantic, verifier-aligned maritime forecasting for operational decision support.

13:00 JSTLLM/生成AI

オントロジーの拡張: 高密度埋め込みからハイブリッド量子ファジーシステムまで

LLM は知識の表現と検索に革命をもたらしましたが、知識オントロジーが持つ明示的なモデリングが欠けています。この論文では、オントロジーとナレッジ グラフが高密度埋め込みアルゴリズムと統合される方法を調査します。これまでの試みはすべて、確率的推論と鮮明な推論の間のトレードオフを伴います。この論文は、同じ表現で確率的推論と鮮明な推論を同時に対応できる知識表現システムを考案するための新しいフロンティアを提案します。この目的のために、この論文では、量子ニューラル ネットワーク (QNN) を通じて実装される古典的推論と文脈推論の両方に対応する知識表現システムとして、神経量子ファジィ システムを提案します。

原文 (English)

Extending Ontologies: From Dense Embeddings to Hybrid Quantum-Fuzzy Systems

LLMs have revolutionized knowledge representation and retrieval, but lack the explicit modeling that knowledge ontologies possess. This paper surveys the ways that ontologies and knowledge graphs have been integrated with dense embedding algorithms. All hitherto attempts involve a trade-off between probabilistic and crisp inference. This paper proposes a novel frontier for devising knowledge representation systems that can simultaneously accommodate probabilistic and crisp inference in the same representation. To this effect, the paper proposes neuro-quantum-fuzzy systems as knowledge representation systems that accommodate both classical and contextual inference implemented through quantum-neural networks (QNN).

13:00 JSTLLM/生成AIエージェント

ConMem: トレーニング不要のマルチエージェント システムにおける構造化メモリに基づく適応

最近の進歩により、記憶、スキル、学習ベースのアプローチを通じて、LLM ベースのマルチエージェント システム (MAS) の適応能力が向上しましたが、これらのアプローチには、ノイズの多い軌道、記憶とスキルの関係の不十分なモデリング、および追加のトレーニングや高品質の監督への依存という課題が残されています。これらの制限に対処するために、私たちは、エクスペリエンス間の調整を通じて効率的なマルチエージェントの適応を可能にする、関係を認識したトレーニング不要のフレームワークである ConMem を提案します。具体的には、ConMem は、過去のインタラクションの軌跡を構造化メモリ カードに抽出して、再利用可能な戦略と手がかりをキャプチャし、それらを関係を意識したメモリ グラフに編成します。実行時に、ConMem はタスクのニーズに応じてカードを取得し、カード グラフを通じてカードを調整して戦略の競合を解決し、依存関係を回復します。これらのモジュールを組み合わせると、構造化された関係を意識したガイダンスが得られ、追加のトレーニングなしでマルチエージェント システムでの堅牢かつ軽量な適応が可能になります。複数のベンチマークと主流の MAS アーキテクチャにわたる広範な実験により、拡張された候補の 50% 以上をプルーニングし、計画のオーバーヘッドを 80% 以上削減することで推論時間の効率が向上し、既存のメモリ アーキテクチャと比較して一貫した向上が見られます。私たちのコードは https://anonymous.4open.science/r/ConMemCode で入手できます。

原文 (English)

ConMem: Structured Memory-Guided Adaptation in Training-Free Multi-Agent Systems

Recent advances have improved the adaptive capabilities of LLM-based multi-agent systems (MAS) through memory-, skill-, and learning-based approaches, yet these approaches remain challenged by noisy trajectories, insufficient modeling of memory-skill relations, and reliance on additional training or high-quality supervision. To address these limitations, we propose ConMem, a relation-aware and training-free framework that enables efficient multi-agent adaptation through cross-experience coordination. Specifically, ConMem distills historical interaction trajectories into structured memory cards to capture reusable strategies and cues, organizing them into a relation-aware memory graph. At runtime, ConMem retrieves cards according to task needs and coordinates them through the card graph to resolve strategy conflicts and recover their dependencies. Combined, these modules yield structured and relation-aware guidance, enabling robust, lightweight adaptation in multi-agent systems without additional training. Extensive experiments across multiple benchmarks and mainstream MAS architectures show consistent gains over existing memory architectures, with improved inference-time efficiency through pruning more than 50% of expanded candidates and reducing planning overhead by over 80%. Our codes are available at https://anonymous.4open.science/r/ConMemCode

13:00 JSTLLM/生成AI画像/動画生成

数学的推論のための人工知能: 言語モデル、神経記号システム、および検証された発見の統合的調査

数学的推論は長い間、機械知能の厳しいテストとして機能してきました。過去 10 年間で、NLP 内のニッチな問題から、最も重要な AI フロンティアの 1 つに移行しました。この調査は、初期のルールベースの数学文章問題 (MWP) ソルバーとテンプレート駆動の幾何学システムから、神経式生成と LLM プロンプトを経て、現代の推論モデル、マルチエージェント システム、神経記号定理証明者、および検証済みの発見ワークフローに至るまで、この分野の進化に関する統一的な説明を提供します。私たちは 4 つの軸に沿ってランドスケープを整理します。(i) MWP 解決、マルチモーダル ジオメトリ、および VLM にわたる、テキストと図に関する非形式的な推論。 (ii) 自動形式化、戦術予測、コンパイラー主導の修復、および証明検索を含む、証明アシスタントにおける形式的推論。 (iii) 数学的発見。システムが構築を提案し、境界を改善し、未解決の問題への攻撃を支援します。 (iv) CoT プロンプト、ツールの使用、プロセス報酬モデル、RLVR など、生成と検証をますます結び付ける推論およびトレーニング時の手法。私たちは、小学校の算数、競技数学、幾何学、形式的証明、マルチモーダルおよび多言語推論、専門家の評価にわたる主要なベンチマークをカタログ化し、ベンチマークの飽和、汚染、レポートの不一致、および pass@1、多数決、検証者支援 pass@$k$ の区別を調べます。私たちは、摂動下での脆弱性、報酬ハッキング、マルチモーダル接地障害、脆弱な形式化、推論規模の推論のエネルギーコストなどの障害モードを批判的に評価します。現役の数学者からの最近の視点を活用して、検証された発見のワークフロー、推論の効率、AI 支援による形式化を広く利用できるようにするインフラストラクチャを中心とした将来の方向性を特定します。関連資料: https://github.com/Starscream-11813/awesome-AI4Math。

原文 (English)

Artificial Intelligence for Mathematical Reasoning: An Integrated Survey of Language Models, Neuro-symbolic Systems, and Verified Discovery

Mathematical reasoning has long served as a stringent test of machine intelligence; over the past decade, it has moved from a niche problem within NLP to one of the most consequential AI frontiers. This survey provides a unified account of the field's evolution, from early rule-based math word problem (MWP) solvers and template-driven geometry systems, through neural expression generation and LLM prompting, to contemporary reasoning models, multi-agent systems, neuro-symbolic theorem provers, and verified discovery workflows. We organize the landscape along four axes: (i) informal reasoning over text and diagrams, spanning MWP solving, multimodal geometry, and VLMs; (ii) formal reasoning in proof assistants, including autoformalization, tactic prediction, compiler-guided repair, and proof search; (iii) mathematical discovery, where systems propose constructions, improve bounds, or assist attacks on open problems; and (iv) the inference and training-time techniques, including CoT prompting, tool use, process reward models, and RLVR, that increasingly connect generation with verification. We catalog major benchmarks across grade-school arithmetic, competition mathematics, geometry, formal proving, multimodal and multilingual reasoning, and expert evaluation, and we examine benchmark saturation, contamination, reporting mismatches, and the distinction between pass@1, majority voting, and verifier-assisted pass@$k$. We critically assess failure modes: brittleness under perturbation, reward hacking, multimodal grounding failures, fragile formalization, and the energy cost of reasoning-scale inference. Drawing on recent perspectives from working mathematicians, we identify future directions centered on verified-discovery workflows, reasoning efficiency, and infrastructure to make AI-assisted formalization broadly usable. Companion materials: https://github.com/Starscream-11813/awesome-AI4Math.

13:00 JST研究/論文

質の高い多様性強化学習のための構造条件付けされたアクターと批評家の分岐

品質多様性強化学習 (QD-RL) は、パフォーマンスの高いポリシーと行動的に多様なポリシーの両方を含むポリシー レパートリーを構築することを目的としています。既存の QD-RL 手法は主に、ロールアウト評価後の政策インスタンスを多様化するか、学習された価値情報を使用して政策の品質と行動ターゲティングを改善しますが、候補政策を生成する学習ブランチについてはあまり調査されていません。この論文では、各候補を構造条件付きのアクターと批評の分岐として表す、構造と値が結合されたフレームワークである SV-QD-RL を提案します。各ブランチには、アクター、構造マスク、ブランチ固有のクリティカル、リプレイ状態、および動作、リターン、スパース性、および値プロファイルを含む評価属性が含まれています。構造マスクはブランチが学習するアクターの部分空間を定義し、ブランチ固有のクリティカルとリプレイ状態がその価値学習の軌道を形成します。次に、ブランチ認識 QD アーカイブが、動作品質、構造的フットプリント、および価値プロファイル情報に従ってブランチを評価し、保持します。 MuJoCo の継続制御タスクに関する実験では、SV-QD-RL が強力なアーカイブ品質と行動的に有用な多様性を備えたポリシー レパートリーを構築することが示されています。アブレーション分析と診断分析はさらに、構造的条件付け、批評家の区別、および記憶一貫性のある洗練が行動の専門化に相補的に寄与していることを示しています。スケジュールを意識したレパートリー評価では、学習されたアーカイブが、変化する動作レベルの要件の下で選択可能なポリシーの代替案を提供することを示しています。これらの結果は、アクター構造とブランチ固有の値学習を組み合わせることが、多様な QD-RL ポリシー レパートリーを生成するための効果的なメカニズムであることを示唆しています。

原文 (English)

Structure-Conditioned Actor-Critic Branches for Quality-Diversity Reinforcement Learning

Quality-diversity reinforcement learning (QD-RL) aims to construct policy repertoires that contain both high-performing and behaviorally diverse policies. Existing QD-RL methods mainly diversify policy instances after rollout evaluation or use learned value information to improve policy quality and behavior targeting, while the learning branches that generate candidate policies remain less explored. This paper proposes SV-QD-RL, a structure-value coupled framework that represents each candidate as a structure-conditioned actor-critic branch. Each branch contains an actor, a structural mask, a branch-specific critic, a replay state, and evaluation attributes including behavior, return, sparsity, and value profile. The structural mask defines the actor subspace in which the branch learns, while the branch-specific critic and replay state shape its value-learning trajectory. A branch-aware QD archive then evaluates and retains branches according to behavioral quality, structural footprint, and value-profile information. Experiments on MuJoCo continuous-control tasks show that SV-QD-RL constructs policy repertoires with strong archive quality and behaviorally useful diversity. Ablation and diagnostic analyses further indicate that structural conditioning, critic differentiation, and memory-consistent refinement make complementary contributions to behavioral specialization. Schedule-aware repertoire evaluation shows that the learned archive provides selectable policy alternatives under changing behavior-level requirements. These results suggest that coupling actor structure with branch-specific value learning is an effective mechanism for generating diverse QD-RL policy repertoires.

13:00 JSTエージェント

RAILS: エージェントコマース向けの検証ネイティブ清算

自律的なエージェントは交渉、購入、コードのデプロイ、および資金の移動を行いますが、委任された義務を履行したかどうか、履行しなかった場合の責任は誰にあるのか、どのような和解措置が続くのかを決定する中立的なメカニズムはありません。これはエージェントによるクリアリングの問題です。ツール プロトコル (MCP)、エージェント間通信 (A2A)、ペイメント レール (x402)、マンデートおよびネットワーク エージェント プロトコル (AP2、Visa、Mastercard)、決済リスク基準はそれぞれ決定を前提としていますが、決定を生み出すものはありません。 Clearing は欠落しているプリミティブです。支払いが決済されていません。認可がクリアされていません。審査員としてのLLMの評価がクリアできていない。決済リスクのエスクローは清算ではなく、清算の決定を消費します。 RAILS (Real-Time Agent Integrity & Ledger Settlement) は、エージェント コマースの整合性およびクリアリング層であり、出力ごとの信頼性スコア、公開された信頼性レコード、およびそれらを消費するクリアリング機能に及びます。その核となる清算プロトコルは、そのギャップを埋めます。 7 つの基本要素 (債務オブジェクト、証拠エンベロープ、検証メッシュ、清算決定、決済指示、清算パスポート、ファイナリティ ルール) は、容認可能性等級検証の正式なモデルに束縛され、一緒になって健全性の特性を生み出します。つまり、債務の容認可能性の下限を下回る証拠によって財務的に重要な和解が裏付けられることはありません。このプロパティは仕様に対して反証可能です。私たちは、この種のプロパティを記述した以前のエージェントコマース検証メカニズムを知りません。それに最も近いアプローチは、パス、配信保証、ベアスコア、または均衡を発行します。この文書では、その清算プロトコルを規定します。

原文 (English)

RAILS: Verification-Native Clearing For Agentic Commerce

Autonomous agents negotiate, purchase, deploy code, and move funds, but no neutral mechanism determines whether they met their delegated obligation, who is responsible when they did not, or which settlement action follows. This is the agentic clearing problem. Tool protocols (MCP), inter-agent communication (A2A), payment rails (x402), mandate and network agent protocols (AP2, Visa, Mastercard), and settlement-risk standards each assume that determination and none produce it. Clearing is the missing primitive. Payment is not clearing. Authorization is not clearing. LLM-as-judge evaluation is not clearing. Settlement-risk escrow is not clearing: it consumes clearing decisions. RAILS (Real-Time Agent Integrity & Ledger Settlement) is the integrity and clearing layer for agentic commerce, spanning a per-output reliability score, a published reliability record, and a clearing function that consumes them. The clearing protocol at its core closes that gap. Seven primitives (Obligation Object, Evidence Envelope, Verification Mesh, Clearing Decision, Settlement Instruction, Clearing Passport, Finality Rules), bound by a formal model of admissibility-graded verification, together yield a soundness property: no financially material settlement is supported by evidence below the obligation's admissibility floor. The property is falsifiable against the spec. We are not aware of a prior agent-commerce verification mechanism that states a property of this kind. The approaches nearest to it emit a pass, a delivery guarantee, a bare score, or an equilibrium. This paper specifies that clearing protocol.

13:00 JST研究/論文

自己進化による専門知識と自動化された特徴エンジニアリングの橋渡し

ブランドコンプライアンス、臨床ケア、コンテンツモデレーションなどの一か八かの場面では、機械学習を不透明な神託として導入することはできません。実践者はモデルの決定を左右する機能を検査し、モデルはこれらの領域を管理する専門家の文書を活用する必要があります。実際には、データは非構造化コンテンツとして到着し、そこから抽出された特徴は解釈可能で識別可能であり、専門家が重要と考えるものと一致している必要があります。既存の方法は不十分です。表形式の入力を対象としており、専門家の調整が実証されておらず、「プロフェッショナルなトーンを維持する」などの定性的な基準を正確な特徴に組み込むことができません。デュアルストリーム特徴生成 (意味論的および決定論的)、意味論的重複排除、およびツリーに基づく反復進化を組み合わせて、生のテキストと画像から監査可能な特徴を発見する FEST (自己進化ツリーによる特徴エンジニアリング) を紹介します。 FEST は、ブランド分類、コンテンツの信頼性検出、ストレス検出にわたる 20 の分類子とタスクの組み合わせのうち 17 つでリードし、5 つの分類子全体で最も強いベースラインを平均して 4.2 pp の向上を達成しました。審査員としての LLM による評価では、FEST が厳密な意味論的整合しきい値で専門家が設計したブランド特徴の 60 ~ 80% をカバーしていることが示されており、これは専門家による人間の研究による関連性、明確さ、実用性の点で特徴を高度に評価することによって裏付けられています。専門家のガイドラインをシードすると、FEST は定性的基準を運用上の特徴に絞り込み、ブランド全体で平均 6 ~ 12 pp 精度を向上させます。自動化された特徴エンジニアリングにおける専門家の調整の体系的な評価を可能にするために、2,683 のブランドにわたる 100 万以上の資産と専門家が設計した特徴を組み合わせた初のデータセットである BrandGuide をリリースしました。 FEST は、専門知識に基づいた特徴量エンジニアリングを基盤とすることで、人間の監視が必要な領域で解釈可能な ML への実用的な道を開きます。

原文 (English)

Bridging Expert Knowledge and Automated Feature Engineering via Self-Evolution

In high-stakes settings such as brand compliance, clinical care, and content moderation, machine learning cannot be deployed as opaque oracles: practitioners inspect the features driving model decisions, and models must leverage the expert documentation governing these domains. In practice, the data arrives as unstructured content, and features extracted from it must be interpretable, discriminative, and aligned with what experts consider important. Existing methods fall short: they target tabular inputs, lack demonstrated expert alignment, and cannot operationalize qualitative criteria such as 'maintain professional tone' into precise features. We present FEST (Feature Engineering with Self-evolving Trees), combining dual-stream feature generation (semantic and deterministic), semantic deduplication, and tree-guided iterative evolution to discover auditable features from raw text and images. FEST leads in 17 of 20 classifier-task combinations across brand classification, content authenticity detection, and stress detection, with a mean gain of 4.2 pp over the strongest baseline across five classifiers. An LLM-as-judge evaluation shows FEST achieves 60-80% coverage of expert-designed brand features at strict semantic-alignment thresholds, corroborated by a human expert study rating features highly on relevance, clarity, and actionability. When seeded with expert guidelines, FEST refines qualitative criteria into operational features, improving accuracy by 6-12 pp on average across brands. To enable systematic evaluation of expert alignment in automated feature engineering, we release BrandGuide, the first dataset pairing expert-designed features with 1M+ assets across 2,683 brands. By grounding feature engineering in expert knowledge, FEST opens a practical pathway for interpretable ML in domains demanding human oversight.

13:00 JST研究/論文

Q-Delta: キーと値の結合状態の進化を超えて

線形アテンションは、シーケンス モデリングを反復状態の進化として再定式化し、効率的な線形時間推論を可能にします。キーと値の結合パラダイムの下では、既存のアプローチはクエリの役割を読み取り操作に制限し、状態の進化から切り離しています。クエリ条件付き状態読み出しが、キーベースの検索を補完する、蓄積されたメモリに対する構造化された値の予測を引き起こすことを示します。この洞察に基づいて、キーとクエリの混合予測誤差を状態の進化に統合し、デルタ ルールの効率を維持しながら共同で修正するダイナミクスを可能にするクエリ認識デルタ ルールである Q-Delta を提案します。結果として得られるダイナミクスの安定性の保証を確立し、カスタム Triton 実装を使用してハードウェア効率の高いチャンク単位の並列定式化を導き出します。経験的な結果は、安定した最適化、競争力のあるスループット、および言語モデリングと長いコンテキストの取得タスクに関する強力なベースラインを超える一貫した改善を示しています。

原文 (English)

Q-Delta: Beyond Key-Value Associative State Evolution

Linear attention reformulates sequence modeling as recurrent state evolution, enabling efficient linear-time inference. Under the key-value associative paradigm, existing approaches restrict the role of the query to the readout operation, decoupling it from state evolution. We show that query-conditioned state readout induces a structured value prediction over accumulated memory that complements key-based retrieval. Based on this insight, we propose Q-Delta, a query-aware delta rule that integrates mixed key-query prediction errors into state evolution, enabling jointly corrective dynamics while preserving delta-rule efficiency. We establish stability guarantees for the resulting dynamics and derive a hardware-efficient chunkwise-parallel formulation with a custom Triton implementation. Empirical results demonstrate stable optimization, competitive throughput, and consistent improvements over strong baselines on language modeling and long-context retrieval tasks.

13:00 JST研究/論文

STAR: 構造を認識した部分空間学習として MoE ルーティングを再考する

Mixture-of-Experts (MoE) は、入力を専門家の専門サブセットに選択的にルーティングすることで、モデルの能力を効率的に拡張します。ただし、MoE の中心的な動機である入力エキスパートの特化は、ルータが実際に入力構造を認識しているかどうかに大きく依存します。実際には、MoE ルーティングは通常、入力表現の認識が限定された浅い線形投影として実装されるため、多くの場合、ルーティングが不安定になります。我々は、一般化ヘビアンアルゴリズム(GHA)を介して支配的な入力構造を追跡する進化する主部分空間で標準的な学習可能なルーティングを強化することにより、MoEルーティングを部分空間学習問題として再考する構造認識ルーティングであるSTARを提案します。 STAR は、ルーティングの決定を入力構造と直接調整することにより、安定したエキスパートの専門化を可能にします。私たちは、制御された合成セットアップと大規模な言語およびビジョン タスクに関して STAR を評価し、強力な MoE ベースラインを超えてルーティング品質とダウンストリーム パフォーマンスを一貫して向上させます。さらに、オプションのテスト時サブスペース更新により、入力分布のシフト下でのルーティングの堅牢性と一般化がさらに強化されます。

原文 (English)

STAR: Rethinking MoE Routing as Structure-Aware Subspace Learning

Mixture-of-Experts (MoE) scales model capacity efficiently by selectively routing inputs to a specialized subset of experts. However, input-expert specialization, the core motivation of MoE, critically depends on whether the router is actually aware of input structure. In practice, MoE routing is typically implemented as a shallow linear projection with limited awareness of input representation, which often leads to unstable routing. We propose STAR, a Structure Aware Routing that rethinks MoE routing as a subspace learning problem by augmenting standard learnable routing with an evolving principal subspace that tracks dominant input structure via Generalized Hebbian Algorithm (GHA). By aligning routing decisions directly with input structure, STAR enables stable expert specialization. We evaluate STAR on controlled synthetic setup and large-scale language and vision tasks, where it consistently improves routing quality and downstream performance over strong MoE baselines. Moreover, optional test-time subspace updates further enhance routing robustness and generalization under input distribution shifts.

13:00 JSTLLM/生成AI

推論の勢い: ポリシー最適化における密な固有シグナル

検証可能な報酬を伴う強化学習 (RLVR) は、大規模な言語モデルで長鎖推論を引き出すための強力なパラダイムとして浮上しています。ただし、グループ相対ポリシー最適化 (GRPO) に基づく既存の手法は、バイナリの結果報酬に依存しており、これにより 2 つの構造的失敗モードが誘発されます。グループ内のすべてのロールアウトが同じ結果を共有し、勾配が消滅するゼロアドバンテージ崩壊と、トレーニング後半でモデルが間違ったロールアウトに対してモデルがますます自信を持つようになる幻覚的確実性です。私たちは、ポリシー自体の条件付き確率から完全に計算された固有の信号で報酬を高密度化することで両方のモードに対処し、ISPO (固有信号ポリシー最適化) を提案します。これは、思考の軌跡が最終的な答えにどれだけ有益であるかを測定するシーケンスレベルの信号と、幻覚的確実性ヒンジが重要な決定トークンで確実に間違った予測にペナルティを与えるトークンレベルの方向性報酬を組み合わせます。基本モデルと 5 つの数学的推論ベンチマークでは、ISPO は一貫して競合ベースラインを上回り、ゼロアドバンテージ崩壊が最も頻繁に発生する最も困難なベンチマークで最大の利益をもたらし、トレーニング ダイナミクス診断により両方の故障モードが減少していることが確認されています。

原文 (English)

Momentum for Reasoning: Dense Intrinsic Signals in Policy Optimization

Reinforcement learning with verifiable rewards (RLVR) has emerged as a powerful paradigm for eliciting long-chain reasoning in large language models. However, existing methods based on Group Relative Policy Optimization (GRPO) rely on a binary outcome reward, which induces two structural failure modes: Zero-Advantage Collapse, in which all rollouts in a group share the same outcome and the gradient vanishes, and Hallucinated Certainty, in which the model becomes increasingly confident on incorrect rollouts late in training. We address both modes by densifying the reward with intrinsic signals computed entirely from the policy's own conditional probabilities, and propose ISPO (Intrinsic Signal Policy Optimization, which combines a sequence-level signal measuring how informative the thinking trajectory is for the final answer, with a token-level directional reward whose hallucinated-certainty hinge penalizes confidently-wrong predictions at critical decision tokens. Across three base models and five mathematical reasoning benchmarks, ISPO consistently outperforms competitive baselines, with the largest gains on the hardest benchmarks where zero-advantage collapse is most frequent, and training-dynamics diagnostics confirm that both failure modes are decreased.

13:00 JSTLLM/生成AI

大規模な言語モデルに対する有効な事実性制御を備えた推論時の正形推論

大規模言語モデル (LLM) は、多段階推論を実行することが増えており、中間クレームが暗黙的な有向非巡回グラフを形成し、そのノードの正しさがその先祖に構造的に条件付けされます。これにより、事実の不確実性がノードごとの些細なエラーの蓄積ではなく構造的なものとなり、推論構造に対する推論時間の不確実性の定量化が必要になります。等角予測 (CP) は柔軟なユーザー指定の事実性制御を提供しますが、既存の作業は事後的なままであり、生成中に介入することはできません。 CP の柔軟性と事後的な制限の間のギャップを埋めるために、CP を推論グラフ生成に直接統合する \emph{推論時等形推論 (ITCR)} フレームワークを提案します。 ITCR は、複雑なモデリング仮定を使用せずに、推論グラフ上でクレーム レベルの事実シグナルを集約する、構造レベルの事実不確実性関数を学習します。次に、グラフレベルの事実の不確実性に基づいて不適合スコアを設計し、生成をいつ停止するかを決定するための等角しきい値を調整します。我々は、そのような生成が入れ子になっていることを理論的に示し、事実性制御の有効なカバレッジ保証をもたらします。複数のデータセットとカバレッジ目標に対する実験により、経験的に有効なカバレッジが実証されます。下流の推論タスクでは、推論時に調整されたグラフの方が、ポストホックに枝刈りされたグラフよりも正確に生成されます。

原文 (English)

Inference-Time Conformal Reasoning with Valid Factuality Control for Large Language Models

Large language models (LLMs) increasingly perform multi-step reasoning, where intermediate claims form implicit directed acyclic graphs whose node correctness is structurally conditioned on their ancestors. This makes factuality uncertainty structural, rather than a trivial accumulation of node-wise errors, and necessitates inference-time uncertainty quantification over the reasoning structure. While conformal prediction (CP) offers flexible user-specified factuality control, existing work remains post-hoc and cannot intervene during generation. To fill the gap between CP's flexibility and its post-hoc limitation, we propose an \emph{Inference-Time Conformal Reasoning (ITCR)} framework that integrates CP directly into reasoning graph generation. ITCR learns a structure-level factuality uncertainty function that aggregates claim-level factuality signals over reasoning graphs without complex modeling assumptions. We then design the non-conformity score based on graph-level factuality uncertainty and calibrate the conformal threshold to decide when to stop generation. We theoretically show such generation is nested, yielding valid coverage guarantees for factuality control. Experiments over multiple datasets and coverage objectives demonstrate empirically valid coverage. In downstream reasoning tasks, inference-time calibrated graphs yield more accurate generation than post-hoc pruned graphs.

13:00 JST研究/論文

手段の収束と権力の追求

近年、人工知能が近いうちに人類に存亡の危機をもたらすのではないかという懸念が高まっています。懸念の主な根拠の 1 つは、人工エージェントが権力を求め、権力の獲得を目指し、その過程で人類の力を奪う可能性があるということです。私は、権力追求からの議論が手段的収束理論として知られる主張の強力なバージョンにどのように基づいているかを示します。私は手段的収斂理論の主要な擁護を検討し、権力追求からの議論を根拠付けるのに十分強力な形式でこの理論を確立しているものはないと主張します。私は長期主義への影響、人工知能のガバナンス、人工エージェントによってもたらされるリスクを研究する方法論について議論します。

原文 (English)

Instrumental convergence and power-seeking

Recent years have seen increasing concern that artificial intelligence may soon pose an existential risk to humanity. One leading ground for concern is that artificial agents may be power-seeking, aiming to acquire power and in the process disempowering humanity. I show how the argument from power-seeking rests on a strong version of a claim known as the instrumental convergence thesis. I explore leading defenses of the instrumental convergence thesis and argue that none establishes the thesis in a strong enough form to ground the argument from power-seeking. I discuss implications for longtermism, the governance of artificial intelligence, and the methodology of studying risks posed by artificial agents.

13:00 JSTLLM/生成AIビジネス/資金調達研究/論文Gemma

合格率を超えて: オープンコード LLM の多言語で実行に基づいた評価

コード生成モデルは通常、コンパクトな実行ベンチマークと総合格率を使用して比較されますが、そのような要約では、プログラミング言語、問題ファミリー、障害モードごとにパフォーマンスがどのように変化するかがわかりにくくなります。 12 のプログラミング言語にわたる 2,707 の無料 LeetCode 問題のコーディングに特化した、オープンにアクセスできる 9 つの LLM の大規模な実行ベースの評価を紹介します。私たちのコーパスには 325,343 の問題モデル言語ジョブが含まれており、それぞれがプロンプト メタデータ、抽出されたコード、LeetCode の実行結果、および静的分析信号にリンクされています。結果は、現在のオープン モデルが人間の許容基準からは程遠いことを示しています。最良のモデルである Yi-Coder-9B-Chat は、人間の許容ベースラインの 57.2% と比較して、平均正しさ 23.64% に達しています。ランキングもスライスに依存します。Qwen2.5-Coder-14B-Instruct は難しい問題と個別の問題のカバレッジで最も強力ですが、Gemma-2-27B-IT は全言語で最高の lint 合格率を達成しています。失敗分析では、コンパイル エラーが受け入れられなかった最良の送信の 63.25% を占めていることが示されており、セマンティックな正確性をテストする前に多くの失敗が発生していることが示されています。静的な品質は、機能的な正確さからさらに乖離します。これらの調査結果を総合すると、多言語でアーティファクトを保持した評価を行うことで、単一言語または単一指標のリーダーボードに隠されたトレードオフが明らかになることを示しています。

原文 (English)

Beyond Pass Rate: A Multilingual, Execution-Grounded Evaluation of Open Code LLMs

Code generation models are typically compared using compact execution benchmarks and aggregate pass rates, but such summaries obscure how performance varies across programming languages, problem families, and failure modes. We present a large-scale, execution-grounded evaluation of 9 openly accessible LLMs specialized for coding on 2,707 free LeetCode problems across 12 programming languages. Our corpus contains 325,343 problem-model-language jobs, each linked to prompt metadata, extracted code, LeetCode execution outcomes, and static-analysis signals. The results show that current open models remain far from the human acceptance reference: the best model, Yi-Coder-9B-Chat, reaches 23.64% mean correctness, compared with a 57.2% human acceptance baseline. Rankings are also slice-dependent: Qwen2.5-Coder-14B-Instruct is strongest on hard problems and distinct-problem coverage, while Gemma-2-27B-IT achieves the highest all-language lint pass rate. Failure analysis shows that compile errors account for 63.25% of non-accepted best submissions, indicating that many failures occur before semantic correctness can be tested. Static quality further diverges from functional correctness. Together, these findings show that multilingual, artifact-preserving evaluation reveals tradeoffs hidden by single-language or single-metric leaderboards.

13:00 JST画像/動画生成ハードウェア/半導体

ZIPP:ペルソナによるゼロショット画像パーソナライゼーション

テキストから画像への拡散モデルは、制限のない創造的なコンテキストでますます導入されていますが、その出力は個人的なものではなく、個人の好みではなく集合的な美学に合わせて最適化されたままです。人間の好みは多元的です。落ち着いたノスタルジックなポートレートを好むユーザーが鮮やかなストリート写真を好む一方で、夢のような映画の美学に惹かれるユーザーもいます。既存の方法では、高密度のインタラクション履歴やユーザーごとの微調整が必​​要となり、コールドスタート設定が失敗し、コンテキスト依存の設定が静的な表現に崩壊してしまいます。ペルソナによるゼロショット画像パーソナライゼーション (ZIPP) を導入します。これは、ユーザー固有のデータや重みの更新を行わずに、自然言語ペルソナ (ユーザーのアイデンティティと美的感性の簡潔な記述子) に基づいて画像生成を条件付けします。 ZIPP は、LLM を使用して特定のペルソナの観点からプロンプトを書き換え、パーソナライズされた出力に向けて拡散モデルを導きます。大規模にペルソナをマイニングするために、2,200 万人のユーザー Reddit インタラクション グラフ上で帰納的グラフ アテンション ネットワークをトレーニングし、グラフ構造を視覚的な動作と一致させる 2 つの対照的な目標を設定し、学習した表現を MLLM を介して自然言語ペルソナに言語化します。 1.5K のユーザー、グラフマイニングされたペルソナ、および 40K の生成された画像を備えた初のゼロショット パーソナライゼーション ベンチマークである ZIPBench を紹介します。 5 つのモデル ファミリにわたる 4 つのベンチマークと 14 の LLM にわたって、ペルソナ コンディショニングは一貫した利益 (13 ~ 20%) をもたらし、フロンティア モデルで最も恩恵を受けています。少数ショット設定では、ZIPP は、ユーザーごとに 100 以上のサンプルでトレーニングされた微調整されたベースラインと一致またはそれを上回ります。 ZIPP は最も低い選好分布の乖離 (CMMD 0.16 対 0.55) を達成し、IPF で正規化された人口統計評価により、既存の方法に存在する部分母集団のバイアスが大幅に軽減されることが示されています。人間による評価では、ジェネリック生成に対して 79% の勝率、すべての微調整されたベースラインに対して 58 ~ 65% の勝率が確認されています。

原文 (English)

ZIPP:Zero-shot Image Personalization from Personas

Text-to-image diffusion models are increasingly deployed in open-ended creative contexts, yet their outputs remain impersonal, optimized for aggregate aesthetics rather than individual taste. Human preferences are pluralistic: one user favoring muted, nostalgic portraits may prefer vibrant street photography, while another gravitates toward dreamy film aesthetics. Existing methods require dense interaction histories or per-user fine-tuning, failing in cold-start settings and collapsing context-dependent preferences into a static representation. We introduce zero-shot image personalization from personas (ZIPP), which conditions image generation on natural-language personas (concise descriptors of a user's identity and aesthetic sensibilities) without any user-specific data or weight updates. ZIPP uses an LLM to rewrite prompts from the perspective of a given persona, steering diffusion models toward personalized outputs. To mine personas at scale, we train an inductive Graph Attention Network over a 22M-user Reddit interaction graph with dual contrastive objectives aligning graph structure with visual behavior, then verbalize learned representations into natural-language personas via an MLLM. We introduce ZIPBench, the first zero-shot personalization benchmark with 1.5K users, graph-mined personas, and 40K generated images. Across four benchmarks and 14 LLMs spanning five model families, persona conditioning yields consistent gains (13-20%), with frontier models benefiting most. In the few-shot setting, ZIPP matches or exceeds fine-tuned baselines trained on 100+ examples per user. ZIPP achieves the lowest preference distributional divergence (CMMD 0.16 vs. 0.55), and IPF-normalized demographic evaluation shows it substantially reduces subpopulation bias present in existing methods. Human evaluation confirms a 79% win rate over generic generation and 58-65% over all fine-tuned baselines.

13:00 JST研究/論文

相互依存する都市交通システムにおける調整された混乱対応のための Resilience-as-a-Service 評価フレームワーク

都市部の公共交通機関の混乱には迅速な対応戦略が必要ですが、既存の研究では、動的、乗客、運行会社、および環境指向の共通の指標を使用して代替の混乱対応ソリューションを比較するための意思決定支援フレームワークがほとんど提供されていません。この論文では、都市交通システムにおける混乱対応ソリューションの回復力を評価するための、KPI 主導の時間インデックス付きフレームワークを提案します。このフレームワークは、最適化モデルとエージェントベースのシミュレーションにおける動作評価を組み合わせます。また、これは、運行中の車両が中断された通路をサポートするために撤退するときにヘルパー ラインで引き起こされる二次的なサービスの低下の基礎にもなります。回復力を単一のスコアとして扱うのではなく、脆弱性、適応性、堅牢性、回復力の損失、応答性、コストベースのパフォーマンス、排出量、公平性などの相補的な側面を評価します。このフレームワークは、イル・ド・フランス (パリ) ネットワークの RER B 交通線に実装されています。結果は、調整された戦略が最もバランスの取れた回復力プロファイルを提供し、高いサービス継続性と単一モードの代替手段よりも低い総中断コストを組み合わせ、同時に公平性を向上させ、競争力のある環境パフォーマンスを維持することを示しています。感度分析により、調整された多峰性の対応が最も価値のある混乱条件がさらに特定されます。

原文 (English)

A Resilience-as-a-Service assessment framework for coordinated disruption response in interdependent urban transit systems

Urban public transport disruptions require rapid response strategies, yet existing studies rarely provide a decision support framework to compare alternative disruption response solutions using a common set of dynamic, passenger, operator, and environment oriented indicators. This paper proposes a KPI-driven, time-indexed framework to assess the resilience of disruption response solutions in urban transit systems. The framework combines an optimization model with a behavioral evaluation in agent-based simulation. It also underlays the secondary service degradation induced on helper lines when in-service vehicles are withdrawn to support the disrupted corridor. Rather than treating resilience as a single score, it evaluates complementary dimensions including vulnerability, adaptability, robustness, resilience loss, responsiveness, cost-based performance, emissions, and equity. The framework is implemented for the RER B transit line in the Ile-de-France (Paris) network. Results show that the coordinated strategy provides the most balanced resilience profile, combining high service continuity with lower total disruption cost than single mode alternatives, while also improving equity and maintaining competitive environmental performance. Sensitivity analysis further identifies the disruption conditions under which coordinated multimodal response is most valuable.

13:00 JST画像/動画生成研究/論文

高等教育におけるハイブリッド電子評価: 紙ベースの筆記試験の半自動採点

この論文では、高等教育における総括試験における完全デジタルおよび部分デジタル電子評価アプローチの限界について検討します。この分析は、クローズド質問形式によって引き起こされる教訓の狭窄と、大規模な学生コホートで特に関連する組織的、技術的、法的制約に焦点を当てています。代替案として、この論文では、紙ベースの問題指向の試験タスクを維持しながら、半自動採点を可能にするハイブリッド電子評価アプローチを提案しています。評価に関連する中間結果は、構造化された回答形式でエンコードされ、学生が手で入力し、その後テーブルのフィールドから取得されます。中心的な技術的ボトルネックは、現実的な検査条件下での手書き文字の信頼性の高い認識です。最近のビジョン対応の大規模言語モデルは、2 パス検証原則とソリューション キーとの比較と組み合わせることで、誤分類を減らし、それによって総括的評価の妥当性、公平性、拡張性を向上させることができます。

原文 (English)

Hybrid E-Assessment in Higher Education: Semi-Automated Grading of Paper-Based Written Examinations

This paper examines the limitations of fully digital and partially digital e-assessment approaches in summative examinations in higher education. The analysis focuses on the didactic narrowing caused by closed question formats and on organizational, technical, and legal constraints that become particularly relevant in large student cohorts. As an alternative, the paper proposes a hybrid e-assessment approach that retains paper-based, problem-oriented examination tasks while enabling semi-automated grading. Assessment-relevant intermediate results are encoded in a structured answer format, entered by students by hand, and subsequently captured from table fields. The central technical bottleneck is reliable recognition of handwritten characters under realistic examination conditions. Recent vision-capable large language models, combined with a two-pass validation principle and comparison against a solution key, can reduce misclassifications and thereby improve the validity, fairness, and scalability of summative assessment.

13:00 JSTLLM/生成AIエージェント

環境そのものが語ることができるでしょうか? $T^{2}$-GRPO: 介護エージェントのためのターン軌道グループ相対ポリシーの最適化

長期的な介護エージェント向けに大規模言語モデル (LLM) を最適化するには、遅延したタスクの目標と、患者の苦痛や抵抗などの当面の環境のダイナミクスのバランスを取る必要があります。認知症ケアでは、このバランスが特に困難です。軌道レベルの報酬は、ターンレベルの単位の割り当てには少なすぎる一方、外部の LLM ベースの評価者はコストがかかり、断片的または間接的な患者の反応を誤って読み取る可能性があります。この問題に対処するために、私たちは \textbf{T}urn-\textbf{T}rajectory \textbf{G}roup \textbf{R}elative \textbf{P}olicy \textbf{O}ptimization (\textbf{T$^{2}$-GRPO}) を提案します。これは、介護者の RL を 2 つの正規化された報酬範囲に分離し、二項対立の強拒否権を通じて安全を強制するフレームワークです。 $T^2$-GRPO は、環境状態の遷移から直接密なターンレベルの報酬を導き出し、凍結した認知症患者シミュレーターから患者の苦痛と抵抗の変化を測定します。これらの環境に基づいた報酬は、独立した中心ランク正規化を通じて軌道レベルの評価と組み合わされ、不均一な報酬信号が保存され、報酬の崩壊が軽減されます。認知症介護者を対象とした広範な実験では、T $^{2}$-GRPO が競合ベースラインを上回っていることが示されており、感情的に敏感な介護者のシナリオが大幅に改善され、即時的な患者のフィードバック、長期ケアの結果、安全上の制約を効果的に処理できることが示された。

原文 (English)

Can the Environment Speak for Itself? $T^{2}$-GRPO: A Turn-Trajectory Group Relative Policy Optimization for Caregiver Agents

Optimizing large language models (LLMs) for long-horizon caregiver agents requires balancing delayed task objectives with immediate environment dynamics, such as patient distress and resistance. In dementia care, this balance is especially difficult: trajectory level rewards are too sparse for turn level credit assignment, while external LLM-based evaluators are costly and can misread fragmented or indirect patient responses. To address this issue, we propose \textbf{T}urn-\textbf{T}rajectory \textbf{G}roup \textbf{R}elative \textbf{P}olicy \textbf{O}ptimization (\textbf{T$^{2}$-GRPO}), a framework that decouples caregiver RL into two normalized reward horizons and enforces safety through a binary hard veto. $T^2$-GRPO derives dense turn-level rewards directly from environment state transitions, measuring changes in patient distress and resistance from a frozen dementia patient simulator. These environment-grounded rewards are combined with trajectory-level evaluations through independent centered-rank normalization, which preserves heterogeneous reward signals and mitigates reward collapse. Extensive experiments on dementia caregivers show that T $^{2}$-GRPO outperforms competitive baselines, indicating a substantial improvement for emotionally sensitive caregiver scenarios that effectively handles immediate patient feedback, long-term care outcomes, and safety constraints.

13:00 JST研究/論文

FAME: 異種時系列予測のための予測可能性を意識した専門家の混合

大規模な小売および産業予測システムには、ライフサイクル、スパース性、ボラティリティ、季節性、スペクトル パターン、およびコンテキスト感度が大幅に異なる多くの異質な時系列が含まれています。単一の予測モデルがすべての体制で良好に機能することはほとんどありませんが、高密度アンサンブルでは推論コストが増加し、専門家の適合性に関する洞察が限定的になります。この論文では、予測可能性を意識したエキスパート ルーティングについて研究し、データの特性が予測エキスパートの適合性をどのように決定するかを学習します。私たちは、多次元の予測可能性のフィンガープリントで各シリーズを表現し、検証パフォーマンスから専門家の適性目標を抽出し、各シリーズに対して予算が割り当てられた少数の専門家のセットをアクティブにするためにコストを意識したスパース ルーターをトレーニングする、専門家の疎な混合フレームワークである \method{} を提案します。予測コンポーネントが補充計画パイプラインに統合されている山東新北洋 (SNBC) の生産規模の自動販売機販売データセットと公共小売ベンチマークを使用して、専門家の適合性がデータ体制全体で体系的に異なることを示します。 5,000 台以上のマシンと 6,000 万以上のトランザクションを含む産業用データセットでは、\method{} Top-2 は、最強の単一エキスパートである LightGBM よりも MSE を 12.4\% 削減し、シリーズごとに平均 1.92 人のエキスパートを実行します。導入されたコンポーネントは需要予測を生成しますが、在庫指向の利益は、オンライン介入ではなく、固定補充ポリシーに基づいたオフライン再生シミュレーターによって推定されます。このフレームワークは、異種混合の売上予測を、ヒューリスティックなモデル選択から、予測可能性のパターンと専門家の専門化のデータマイニングに変えます。コードは https://github.com/hit636/FAME で入手できます。

原文 (English)

FAME: Forecastability-Aware Mixture of Experts for Heterogeneous Time Series Forecasting

Large-scale retail and industrial forecasting systems contain many heterogeneous time series whose lifecycle, sparsity, volatility, seasonality, spectral patterns, and contextual sensitivity differ substantially. A single forecasting model rarely performs well across all regimes, while dense ensembles increase inference cost and provide limited insight into expert suitability. This paper studies forecastability-aware expert routing: learning how data characteristics determine the suitability of forecasting experts. We propose \method{}, a sparse mixture-of-experts framework that represents each series with a multidimensional forecastability fingerprint, mines expert-suitability targets from validation performance, and trains a cost-aware sparse router to activate a small budgeted set of experts for each series. Using a production-scale vending-machine sales dataset from Shandong New Beiyang (SNBC), where the forecasting component has been integrated into the replenishment-planning pipeline, together with public retail benchmarks, we show that expert suitability varies systematically across data regimes. On the industrial dataset with 5,000+ machines and 60M+ transactions, \method{} Top-2 reduces MSE by 12.4\% over the strongest single expert, LightGBM, while executing 1.92 experts per series on average. The deployed component produces demand forecasts, while inventory-oriented gains are estimated by an offline replay simulator under a fixed replenishment policy rather than by online intervention. The framework turns heterogeneous sales forecasting from heuristic model selection into data mining of forecastability patterns and expert specialization. Code is available at https://github.com/hit636/FAME

13:00 JSTLLM/生成AIハードウェア/半導体

順序は重要: プロキシガイドによる LLM 進化によるマクロ配置シーケンスの隠れた影響を明らかにする

マクロの配置は、最新のチップの物理設計における基本的なステップであり、高次元の組み合わせ最適化問題の解の品質を決定する上で重要な役割を果たします。空間座標決定のための機械学習の最近の進歩にもかかわらず、配置シーケンスの時間的次元は依然として静的ヒューリスティックによって主に支配されています。この研究では、配置シーケンスが単なる前処理ステップではなく、最適化における決定的な要素であることを実証します。最適化に及ばない初期の決定は、解空間を制約する不可逆的なドミノ効果を引き起こします。この未踏の次元を活用するために、マクロ配置順序戦略を自動的に発見するためのプロキシガイドによる LLM 進化フレームワークである \textbf{OrderPlace} を提案します。 OrderPlace は、エリアベースや接続ベースの順序付けなどの手動で作成されたヒューリスティックに依存するのではなく、静的なスコアリング メトリクスから動的な物理学にヒントを得たメカニズムに至るまで、より広範なコード レベルのポリシーを探索します。シーケンス評価の法外なコストを軽減するために、決定論的な貪欲プローブを使用して候補を効率的にフィルタリングする軽量のプロキシ評価メカニズムを導入します。標準 ISPD 2005 ベンチマークの実験結果は、OrderPlace が新しい順序付け戦略を発見したことを示しています。 WireMask-EA および最先端のメソッド EGPlace と比較して、OrderPlace はワイヤ長をそれぞれ 34.04\% および 14.08\% 削減します。

原文 (English)

Order Matters: Unveiling the Hidden Impact of Macro Placement Sequences via Proxy-Guided LLM Evolution

Macro placement is a fundamental step in modern chip physical design, playing a crucial role in determining the solution quality of high-dimensional combinatorial optimization problems. Despite recent advancements in machine learning for spatial coordinate determination, the temporal dimension of placement sequencing remains largely governed by static heuristics. In this work, we demonstrate that the placement sequence is not merely a preprocessing step but a decisive factor in optimization, where suboptimal early decisions trigger irreversible domino effects that constrain the solution space. To harness this unexplored dimension, we propose \textbf{OrderPlace}, a proxy-guided LLM evolution framework for automatically discovering macro placement order strategies. Instead of relying on manually crafted heuristics such as area- or connectivity-based ordering, OrderPlace explores a broader space of code-level policies, ranging from static scoring metrics to dynamic physics-inspired mechanisms. To mitigate the prohibitive cost of evaluating sequences, we introduce a lightweight proxy evaluation mechanism that efficiently filters candidates using a deterministic greedy probe. Experimental results on the standard ISPD 2005 benchmarks demonstrate that OrderPlace discovers novel ordering strategies. Compared with WireMask-EA and the state-of-the-art method EGPlace, OrderPlace reduces wirelength by 34.04\% and 14.08\%, respectively.

13:00 JSTLLM/生成AIエージェントClaude

監視には能力がある: エージェントの警備員を主観的で疲れ果てた人間に合わせて調整する

LLM エージェントが実際の不可逆的なアクション (シェル コマンド、ファイル編集、デプロイ) を実行し始めると、標準の安全パターンは人間参加型の承認ゲートです。つまり、危険なアクションは一時停止して人を待ちます。私たちは、ゲートは簡単な部分だと主張します。難しい部分は、どの行動を止めるべきかという判断であり、現場ではこの2つの誤った仮定に基づいて評価が行われます。それは、「危険」という真実の概念が存在するということと、人間のレビュー担当者は完璧で無限に利用可能な神託であるということです。敵対的に重み付けされた 125 個のエージェント アクションを手動でラベル付けしたセットについて、(i) レビュー担当者は何がリスクであるかについて中程度しか同意していない (Fleiss のカッパ = 0.52) ため、単一の正しいラベルは存在しないことを示します。 (ii) 非対称コストに基づく選択的分類としてガードを構成すると、その動作限界が測定可能になり、ハード入力ではガードが安全に自動決定できなくなります。 (iii) レビュー担当者が内生的 (エスカレーション負荷の増大に伴って疲労する) としてモデル化されている場合、実現される安全性はエスカレーション レートで逆 U 字になります。人間による監視が増えるとシステムの安全性が低下する可能性があり、安全最適ガードが完全なエスカレーションを下回ってエスカレートします。この設定は、負荷認識ポリシーが疲労したレビュー担当者をすり抜けて悪意のあるアクションをすり抜けるフラッディング攻撃に抵抗するためにも使用されます。このように組み立てられたエージェントの監視は、分類の問題であるだけでなく、リソースの割り当ての問題でもあります。つまり、人間の注意力は有限であり、警備員のエスカレーション ポリシーがそれを費やします。我々は、これらのメカニズムはいずれも新しいものではないと主張します。疲労を考慮した学習遅延 (FALCON)、ワークロード制約の下でのコスト重視の遅延 (DeCCaF)、軌道レベルの保護、レビューアー疲労/フラッディング攻撃はすべて、我々が引用する従来技術です。私たちの貢献は、LLM エージェントのアクション ゲーティング設定でエージェントを運用および測定し、「私のガードは大丈夫ですか?」を確認するオープンソースのエージェント監視システムです。推測から曲線へ。逆 U 字型とフラッド攻撃は、人体研究の動機となるモデリング結果です。

原文 (English)

Oversight Has a Capacity: Calibrating Agent Guards to a Subjective, Fatiguing Human

As LLM agents begin to take real, irreversible actions (shell commands, file edits, deploys), the standard safety pattern is a human-in-the-loop approval gate: risky actions pause and wait for a person. We argue the gate is the easy part; the hard part is the judgment - which actions to stop - which the field evaluates against two false assumptions: that there is a ground-truth notion of "risky," and that the human reviewer is a perfect, infinitely-available oracle. On a hand-labeled set of 125 adversarially-weighted agent actions we show that (i) reviewers only moderately agree on what is risky (Fleiss' kappa = 0.52), so there is no single correct label; (ii) framing the guard as selective classification under asymmetric cost makes its operating limits measurable, and on hard inputs the guard cannot safely auto-decide; and (iii) when the reviewer is modeled as endogenous (fatiguing as escalation load grows), realized safety becomes an inverted-U in the escalation rate: more human oversight can make a system less safe, and the safety-optimal guard escalates below full escalation - a setting a load-aware policy also uses to resist a flooding attack that slips a malicious action past a fatigued reviewer. Agent oversight, framed this way, is not only a classification problem but a resource-allocation one: human attention is finite, and the guard's escalation policy spends it. We claim none of these mechanisms as novel - fatigue-aware learning-to-defer (FALCON), cost-sensitive deferral under workload constraints (DeCCaF), trajectory-level guarding, and reviewer-fatigue/flooding attacks are all prior art we cite. Our contribution is an open-source agent-oversight system that operationalizes and measures them in the LLM-agent action-gating setting, turning "is my guard good?" from a guess into a curve. The inverted-U and the flooding attack are modeling results that motivate a human study.

13:00 JSTエージェント

AlloSpatial: 基礎モデルでの空間推論のためのエージェント ハーネス フレームワーク

マルチモーダル基盤モデル (MFM) は大幅な進歩を遂げていますが、物理世界の空間推論においては依然として脆弱です。主要なボトルネックは、ローカルな自己中心的な観察をグローバルな他中心的な空間表現に変換できないことにあります。これに対処するために、基礎モデルにおけるアロセントリックな空間認知のためのエージェント フレームワークである AlloSpatial を提案します。 AlloSpatial は、プラグアンドプレイのコグニティブ マッピング サンドボックスである World2Mind を導入します。World2Mind は、オブジェクト トポロジ、幾何学的関係、通過可能性、軌道のクエリをサポートするアロセントリック空間ツリーやルート マップなど、自己中心的な観察を構造化されたアロセントリック事前分布に変換します。ノイズの多い再構成や曖昧な視覚的証拠の下でこれらの事前確率を確実に利用するために、AlloSpatial は、ツール使用の判断、モダリティ分離されたキュー収集、およびジオメトリとセマンティックのアービトレーションのための空間推論ハーネスを導入しています。ハーネスゲートされた軌道レベルの報酬を伴うコールドスタート強化学習を通じて、このプロセスを Qwen3-VL にさらに内部化します。 VSI-Bench と MindCube での実験では、AlloSpatial がトレーニングなしの設定で独自のモデルを 5% ~ 18% 改善し、視覚入力が削除された場合でも AST のみで強力な空間推論をサポートすることが示されました。トレーニングされた AlloSpatial エージェントは、大規模な汎用モデルや競合する空間ベースラインよりもさらに優れたパフォーマンスを示し、構造化された他動中心的な表現、積極的なツールの使用、および検証可能な推論が、空間対応可能な基礎モデルへの有望なルートを提供することを示唆しています。

原文 (English)

AlloSpatial: Agentic Harness Framework for Spatial Reasoning in Foundation Models

Multimodal Foundation Models (MFMs) have made substantial progress, yet remain fragile in spatial reasoning over the physical world. A key bottleneck lies in their inability to transform local egocentric observations into a global allocentric spatial representation. To address this, we propose AlloSpatial, an agentic framework for allocentric spatial cognition in foundation models. AlloSpatial introduces World2Mind, a plug-and-play cognitive mapping sandbox that converts egocentric observations into structured allocentric priors, including Allocentric-Spatial Trees and route maps that support querying object topology, geometric relations, passability, and trajectories. To utilize these priors reliably under noisy reconstruction and ambiguous visual evidence, AlloSpatial introduces a Spatial Reasoning Harness for tool-use judgment, modality-decoupled cue collection, and geometry-semantic arbitration. We further internalize this process in Qwen3-VL through cold-start reinforcement learning with a harness-gated trajectory-level reward. Experiments on VSI-Bench and MindCube show that AlloSpatial improves proprietary models by 5%-18% in a training-free setting, while ASTs alone support strong spatial reasoning even when visual inputs are removed. The trained AlloSpatial agents further outperform larger general-purpose models and competitive spatial baselines, suggesting that structured allocentric representations, active tool use, and verifiable reasoning offer a promising route toward spatially capable foundation models.

13:00 JST研究/論文GPT / ChatGPT

視覚言語モデル選択のための効果的なルーター

Vision-language models (VLMs) with varying performance and resource requirements are widely deployed, making it difficult for users to select the most appropriate one among numerous VLM candidates.既存の研究では、言語モデルにおけるパフォーマンスのパラドックス現象を明らかにし、それを解決するためのルーティング方法に焦点を当てています。 However, developing a router for VLM selection is still a critical yet challenging problem, which primarily faces: 1) lack of specialized data, 2) ineffective feature representation, and 3) rigid model space and costly adaptation. In this paper, we construct a multimodal dataset for VLM selection, containing the outputs of seven mainstream VLMs on 32,626 unique image-text queries.次に、VLM 選択用ルーターである ARMS を提案します。 ARMS enhances input signals with VLM profiles, employs a simple but effective architecture to improve representations of queries and VLM capabilities. ARMS の新しい VLM への適応を改善するために、増分トレーニングと独立トレーニングという 2 つの拡張トレーニング戦略を提案します。配布内および配布外の両方のテスト セットでの実験結果は、ARMS の有効性を示しています。 In particular, using our training strategy, ARMs (only 800M in size) can adapt to a broader VLM space and defeat commercial models like GPT-4o that are hundreds of times larger in scale.コード、モデル、データセットは匿名リポジトリで入手できます。

原文 (English)

An Effective Router for Vision-Language Model Selection

Vision-language models (VLMs) with varying performance and resource requirements are widely deployed, making it difficult for users to select the most appropriate one among numerous VLM candidates. Existing work reveals the performance paradox phenomenon in language models and focuses on routing methods to solve it. However, developing a router for VLM selection is still a critical yet challenging problem, which primarily faces: 1) lack of specialized data, 2) ineffective feature representation, and 3) rigid model space and costly adaptation. In this paper, we construct a multimodal dataset for VLM selection, containing the outputs of seven mainstream VLMs on 32,626 unique image-text queries. We then propose ARMS, a router for VLM selection. ARMS enhances input signals with VLM profiles, employs a simple but effective architecture to improve representations of queries and VLM capabilities. To improve ARMS' adaptation to new VLMs, we propose two extension training strategies: incremental training and independent training. Experimental results on both in-distribution and out-of-distribution test sets demonstrate the effectiveness of ARMS. In particular, using our training strategy, ARMs (only 800M in size) can adapt to a broader VLM space and defeat commercial models like GPT-4o that are hundreds of times larger in scale. Our code, models, and datasets are available in the anonymous repository.

13:00 JST研究/論文

多様な思考スキーマが大規模な言語モデルでより優れた推論を引き出す

大規模推論モデル (LRM) は、拡張された推論チェーンを生成することによって複雑な数学的問題を解決できるため、ますます注目を集めています。この研究では、推論プロセスの 2 つの重要でありながら十分に解明されていない側面、つまり推論ステップ間の明確な遷移を捉える推論遷移と、モデルによって生成されるさまざまな解決策のパスを反映する回答候補に焦点を当てます。これら 2 つの側面をまとめて思考スキーマとして定義します。私たちは思考スキーマの多様性とモデルのパフォーマンスの間に相関関係を観察しており、これが推論の可能性をさらに向上させる手段として多様性を強化する動機となります。この目的を達成するために、最初にモデルにスキーマ認識を与え、次に強化学習を通じて多様性を促進し、さらに推論時に多様な推論を促進するフレームワークである、多様なスキーマ ポリシー最適化 (DiScO) を提案します。複数の数学的推論ベンチマークに関する実験では、DiScO が標準的なグループ相対ポリシー最適化を一貫して上回るパフォーマンスを示しています。精度を超えて、人間による注釈付きの分析は、DiScO が最初の誤った試行からモデルを回復する能力を大幅に向上させることを示しています。全体として、私たちの研究は、思考スキーマの多様性が果たす重要な役割を示唆しており、有望な研究方向として多様性の側面に沿ってスケールアップすることを示しています。

原文 (English)

Diverse Thinking Schemata Elicit Better Reasoning in Large Language Models

Large reasoning models (LRMs) have attracted increasing attention for their ability to solve complex mathematical problems by generating extended reasoning chains. In this work, we focus on two critical yet underexplored aspects of the reasoning process: reasoning transitions capturing the distinct transitions between reasoning steps and answer candidates reflecting the variety of solution paths produced by the model. We collectively define these two aspects as thinking schemata. We observe a correlation between the diversity of thinking schemata and model performance, which motivates us to enhance diversity as a means to further improve reasoning potential. To this end, we propose Diverse Schemata Policy Optimization (DiScO), a framework that first endows the model with schemata awareness, then encourages diversity through reinforcement learning, and further promotes diverse reasoning at inference time. Experiments on multiple mathematical reasoning benchmarks demonstrate that DiScO consistently outperforms standard group relative policy optimization. Beyond accuracy, human-annotated analyses show that DiScO substantially improves the model's ability to recover from erroneous initial attempts. Overall, our work suggests the important role that diversity of the thinking schemata plays and points to scaling along the diversity dimension as a promising research direction.

13:00 JSTLLM/生成AI研究/論文

RTL-BenchLS: 大規模な言語モデルを使用した RTL 推論および生成のための大規模ベンチマーク

LLM ベースの RTL 生成と推論は、ハードウェア設計自動化の有望な方向性です。高品質のベンチマークは、この方向の進捗状況を追跡するための重要なインフラストラクチャです。ただし、既存の RTL ベンチマークは、規模とタスクの範囲の両方において固有の制限に直面しています。通常、対象となる設計は小規模で単純であり、タスクはほぼ完全に仕様から RTL への生成に焦点を当てています。フロンティア モデルのパフォーマンスは、既存のベンチマークではすでに飽和しています。仕様やテストベンチなどのベンチマークには調整されたラベルが必要であるため、これらのベンチマークをスケールアップすることは基本的に困難です。このように調整された高品質のデータが現実世界の設計で利用できることはほとんどありません。上記の両方の制限に対処する大規模なベンチマークである RTL-BenchLS を紹介します。 10,000 を超える正式に検証された Verilog 設計が含まれており、既存のベンチマークよりも大幅に大規模で複雑な設計をカバーしています。仕様から RTL への生成を超えて、ラウンドトリップ推論、マスクされたコンテンツ推論、およびリポジトリ問題推論という、推論と生成を共同で評価する 3 つの新しいタスクを提案します。最初の 2 つは自己監視型であり、スケーリングのボトルネックを直接解決します。すべてのタスクは、手動のテストベンチを使用せずに、正式な等価性チェックを通じて検証されます。 RTL-BenchLS で 8 つの LLM を評価します。最良のモデルであっても、自然言語のラウンドトリップ推論では 23%、マスクされたコンテンツの推論では 28%、リポジトリの問題の修正では 12% に達するにすぎません。 RTL-BenchLS は、既存のベンチマークよりも大幅に困難です。これは将来の改善の余地を十分に残しており、ハードウェア設計のための LLM ベースの手法を開発するためのガイダンスを提供します。

原文 (English)

RTL-BenchLS: A Large-Scale Benchmark for RTL Reasoning and Generation with Large Language Models

LLM-based RTL generation and reasoning is a promising direction for hardware design automation. High-quality benchmarks are critical infrastructure for tracking progress in this direction. However, existing RTL benchmarks face inherent limitations in both scale and task scope. The designs they cover are typically small and simple, and the tasks focus almost entirely on specification-to-RTL generation. Frontier models' performance already saturates on the existing benchmarks. Scaling these benchmarks up is fundamentally difficult because aligned labels are required for benchmarking, such as specifications and testbenches. Such aligned high-quality data are rarely available for real-world designs. We introduce RTL-BenchLS, a large-scale benchmark addressing both limitations above. It contains over 10,000 formally verified Verilog designs, covering substantially larger and more complex designs than existing benchmarks. Beyond specification-to-RTL generation, we propose three novel tasks that jointly evaluate reasoning and generation: round-trip reasoning, masked-content reasoning, and repository-issue reasoning. The first two are self-supervised, which directly resolves the scaling bottleneck. All tasks are verified through formal equivalence checking without any manual testbenches. We evaluate eight LLMs on RTL-BenchLS. Even the best model reaches only 23% on natural-language round-trip reasoning, 28% on masked-content reasoning, and 12% on repository-issue fixing. RTL-BenchLS is substantially more challenging than existing benchmarks. It leaves ample room for future improvement and offers guidance for developing LLM-based methods for hardware design.

13:00 JSTエージェント

Baichuan-M4: 継続的なケアのための臨床グレードの医療エージェント システム

Baichuan-M4 は、Baichuan Intelligence の臨床グレードの医療用大型モデルで、一回限りの医療質問応答ではなく \emph{継続的なケア} のために設計されています。これは、3 つの柱を中心に調整された医療エージェント システムとして構築されています。\textbf{Baichuan-Harness} は、行動の制約、ツールの使用、長期の患者記憶、および複数のエージェントの調整を強制しながら、強化学習トレーニングと現実世界の展開の一貫性を保つ統合ランタイムです。 \textbf{コア推論モデル}は、スパンレベル報酬モデリング (SPAR++)、推論パス圧縮、カリキュラム学習、安定化された政策最適化を統合する継続的ケア強化学習フレームワークでトレーニングされています。 \textbf{臨床ツール層}は、患者の記憶管理、信頼できる証拠に基づく検索、文書、X線写真、皮膚科にわたるマルチモーダルな医学的認識を実現します。 Baichuan-M4 は、次元を超えた医療評価スイートで、静的な医学知識と安全性、動的な OSCE スタイルのコンサルテーション、ロングコンテキスト臨床記憶、証拠に基づく検索、医療文書 OCR、およびマルチモーダル画像理解において優れた結果を達成し、同時に幻覚率を 3.3% に低下させます。

原文 (English)

Baichuan-M4: A Clinical-Grade Medical Agent System for Continuous Care

Baichuan-M4 is Baichuan Intelligence's clinical-grade medical large model, designed for \emph{continuous care} rather than single-turn medical question answering. It is built as a coordinated medical agent system around three pillars: \textbf{Baichuan-Harness}, a unified runtime that keeps reinforcement-learning training and real-world deployment consistent while enforcing action constraints, tool use, long-term patient memory, and multi-agent coordination; a \textbf{core reasoning model} trained with a continuous-care reinforcement-learning framework that integrates span-level reward modeling (SPAR++), reasoning-path compression, curriculum learning, and stabilized policy optimization; and a \textbf{clinical tool layer} for patient-memory management, authoritative evidence-based retrieval, and multimodal medical perception across documents, X-rays, and dermatology. On a cross-dimensional medical evaluation suite, Baichuan-M4 attains leading results in static medical knowledge and safety, dynamic OSCE-style consultation, long-context clinical memory, evidence-based retrieval, medical document OCR, and multimodal image understanding, while lowering the hallucination rate to 3.3\%.

13:00 JSTエージェントハードウェア/半導体

トークンが取得されない: AI エージェント出力のサンプリング、状態、および変動性

Agentic AI システムは、実行ごとに異なる動作をする可能性があります。同じリクエストでも、異なる計画、異なるツール呼び出し、異なるコード編集、または異なる最終応答が生成される場合があります。このような変動は、しばしば混同されるいくつかの層から生じます。基礎モデルは大規模な事前トレーニング済みモデルであり、通常は多くの下流タスクに適応でき、入力コンテキストを出力に対する予測にマッピングします。現在のエージェントの多くでは、そのモデルは、計画、ツールの呼び出し、結果の観察、状態の更新を行うオーケストレーション ループに組み込まれています。このようなシステムにおけるばらつきの明示的な固有の原因の 1 つは、トークンの生成です。モデルは、考えられる次のトークンのスコアを計算し、スコアは確率に変換され、デコーダーは擬似乱数ジェネレーターを使用してトークンをサンプリングすることがあります。サンプリングされたトークンの小さな違いは、異なるツール呼び出し、コード パス、検索クエリ、またはエージェントの状態に上向きに伝播する可能性があります。変動のその他の原因は、環境の変化、ライブデータ、サービス提供インフラストラクチャ、バッチ効果、数値の詳細など、トークン サンプリングに付随するものです。これらの層を分離することで、原稿は、エージェント AI システムを確率的と呼ぶことが何を意味するのか、そのような変動が一致した条件下で再現できる場合、そしてなぜ決定論的な実行が展開された設定で同一の動作を暗示する必要がないのかを明確にしています。

原文 (English)

The Token Not Taken: Sampling, State, and the Variability of AI Agent Outputs

Agentic AI systems can behave differently across runs: the same request may produce a different plan, a different tool call, a different code edit, or a different final answer. Such variability arises from several layers that are often conflated. A foundation model is a large pretrained model, usually adaptable to many downstream tasks, that maps an input context to predictions over outputs. In many current agents, that model is embedded in an orchestration loop that plans, calls tools, observes results, and updates state. One explicit intrinsic source of variability in such systems is token generation: the model computes scores over possible next tokens, the scores are converted into probabilities, and a decoder may sample tokens using a pseudo-random number generator. A small sampled token difference can then propagate upward into a different tool call, code path, search query, or agent state. Other sources of variability are extrinsic to token sampling, including changing environments, live data, serving infrastructure, batch effects, and numerical details. By separating these layers, the manuscript clarifies what it means to call agentic AI systems stochastic, when such variability can be reproduced under matched conditions, and why deterministic execution need not imply identical behavior in deployed settings.

13:00 JSTLLM/生成AIビジネス/資金調達

LATTEArena: LLM を利用した表形式特徴量エンジニアリングの評価フレームワーク (拡張バージョン)

特徴量エンジニアリングは表形式データ分析にとって依然として不可欠であり、大規模言語モデル (LLM) がこのプロセスを自動化するための有望なパラダイムとして台頭し、LLM を利用した AuTomated 表形式特徴量エンジニアリング (LATTE) が誕生しました。ただし、標準化されたプラットフォームがないため、コストを意識した公平な比較ができません。さらに、複雑な方法論的設計により、個々のコンポーネントの具体的な貢献がわかりにくくなります。たとえば、LFG は思考ツリー、少数ショット デモンストレーション、モンテカルロ ツリー検索、自然言語生成を統合していますが、各技術の競争力による個別の影響は定量化されていません。これらの課題に対処するために、私たちは次の特徴を備えた最初の競争評価フレームワークである LATTEArena を導入します。(1) 15 の代表的な手法を再利用可能なコンポーネントに分解する 6 次元の分類。 (2) 制御された比較のための標準化されたモジュール式アリーナ。 (3) パフォーマンス、コスト、堅牢性をカバーする多次元の評価。 (4) 各技術の競争力を定量化するコンポーネントレベルのアブレーション。広範な評価を通じて、次のような 16 の重要な発見が明らかになりました。(1) モンテカルロ木検索による思考の木は、最適な費用対効果を実現します。 (2) RPN とコードの出力形式は、それぞれ分類タスクと回帰タスクを支配します。私たちはモジュール式フレームワークと 4,000 を超える実行ログを公開し、研究者が新しい技術と既存の技術をシームレスに比較して LATTE を進歩できるようにします。

原文 (English)

LATTEArena: An Evaluation Framework for LLM-powered Tabular Feature Engineering (Extended Version)

Feature engineering remains essential for tabular data analysis, and Large Language Models (LLMs) have emerged as a promising paradigm for automating this process, giving rise to LLM-powered AuTomated Tabular feature Engineering (LATTE). However, the absence of standardized platforms prevents fair, cost-aware comparisons. Furthermore, complex methodological designs obscure the specific contributions of individual components; for example, although LFG integrates Tree-of-Thought, few-shot demonstrations, Monte Carlo Tree Search, and natural language generation, the isolated impact of each technique's competitive edge remains unquantified. To address these challenges, we introduce LATTEArena, the first competitive evaluation framework featuring: (1) a six-dimensional taxonomy decomposing 15 representative methods into reusable components; (2) a standardized modular arena for controlled comparison; (3) multi-dimensional assessments covering performance, cost, and robustness; and (4) component-level ablation quantifying each technique's competitive edge. Through extensive evaluations, we reveal 16 key findings, including: (1) Tree-of-Thought with Monte Carlo Tree Search achieves optimal cost-effectiveness; (2) RPN and Code output formats dominate classification and regression tasks, respectively. We publicly release the modular framework and over 4000 execution logs, enabling researchers to seamlessly pit new techniques against existing ones and advance LATTE.

13:00 JSTエージェント

FEA-AI ハイブリッド アプローチによる IPMSM 設計最適化のためのマルチエージェント システム

内部永久磁石同期モーター (IPMSM) の設計では、相反する目的とマルチフィジックス制約のバランスをとる必要がありますが、最新の最適化ワークフローは 3 つのボトルネックに直面しています。それは、手動による問題設定、高い有限要素解析 (FEA) コスト、まばらな領域または分布外領域での信頼性の低いサロゲート ベースの検索です。これらの制限に対処するために、構造化された問題定義のための検索拡張生成 (RAG) と不確実性を考慮した FEA-AI ハイブリッド最適化パイプラインを統合する、エンドツーエンドの自動 IPMSM 設計最適化フレームワークを提案します。 RAG を通じてモーターの教科書に接続された設計エージェントは、ドメイン知識ベースのオプションとエンジニアリングのヒントを提供し、AI モデルのトレーニングのための最適化カードと実験計画計画を作成します。トレーニング エージェントは、電磁 FEA を自動化し、ジオメトリ検証とソルバー障害ログを記録し、ANOVA ベースのデータ分析と LLM 推論を使用して障害のあるジオメトリを分析し、設計サンプリング エージェントを呼び出して設計空間を再定義し、追加のサンプルを生成します。最適化エージェントは、不確実性主導のスイッチングを使用して GA ベースの検索を実行します。不確実性の低い候補は AI サロゲート推論によって評価されますが、不確実性が高く信頼性が重要なパレート フロントまたはトップ K の候補は高忠実度 FEA によって修正され、反復再トレーニングに再利用されます。このフレームワークは、経験に依存した手動の構成を、計算コストと予測の信頼性のバランスをとる再現可能なワークフローに変換します。一致した高忠実度 FEA 予算の下での実験結果は、提案されたハイブリッド アプローチが、低く、さらに削減可能な予測不確実性を維持しながら、より優れた目標パフォーマンスを達成し、早期の予算枯渇によって制限される FEA のみの探索や、信頼性の低い最適値に収束する AI のみの探索よりも優れたパフォーマンスを達成することを示しています。

原文 (English)

A Multi-Agent System for IPMSM Design Optimization via an FEA-AI Hybrid Approach

Interior permanent magnet synchronous motor (IPMSM) design requires balancing conflicting objectives and multi-physics constraints, while modern optimization workflows face three bottlenecks: manual problem setup, high finite element analysis (FEA) cost, and unreliable surrogate-based search in sparse or out-of-distribution regions. To address these limitations, we propose an end-to-end automated IPMSM design optimization framework that integrates retrieval-augmented generation (RAG) for structured problem definition with an uncertainty-aware FEA-AI hybrid optimization pipeline. A Design agent, connected to a motor textbook through RAG, provides domain-knowledge-based options and engineering tips, and compiles an optimization card and a design-of-experiments plan for AI-model training. A Training agent automates electromagnetic FEA, records geometry-validation and solver-failure logs, analyzes failed geometries using ANOVA-based data analysis and LLM reasoning, and invokes a Design Sampling agent to redefine the design space and generate additional samples. An Optimization agent performs GA-based search with uncertainty-driven switching: low-uncertainty candidates are evaluated by AI-surrogate inference, whereas high-uncertainty and reliability-critical Pareto-front or top-K candidates are corrected by high-fidelity FEA and reused for iterative retraining. The framework converts manual, experience-dependent configuration into a reproducible workflow that balances computational cost and prediction reliability. Experimental results under a matched high-fidelity FEA budget show that the proposed hybrid approach achieves better objective performance while maintaining low and further reducible predictive uncertainty, outperforming FEA-only search, which is limited by early budget exhaustion, and AI-only search, which converges to a low-confidence optimum.

13:00 JSTLLM/生成AI

パーソナライゼーションと安全性の両立:パーソナライズされた LLM のメカニズム、リスク、および緩和策

大規模言語モデル (LLM) は、ユーザーの好み、コンテキスト、長期履歴に適応することで、ますますパーソナライズされた対話を可能にします。ただし、パーソナライゼーションを可能にするメカニズムは、既存の文献では体系的に扱われていない方法で安全環境を拡大します。既存のレビューは通常、パーソナライゼーションか安全性のいずれかに焦点を当てており、その交差点はほとんど解明されていません。パーソナライズされた LLM について、安全性を意識した初めての包括的なレビューを紹介します。私たちは、ユーザー表現、パーソナライゼーションパラダイム、評価という 3 つの側面に沿ってパーソナライゼーションを整理し、安全リスクの統一された分類法を導入します。表現レベルでは、多様なユーザー表現から生じるリスクを分析します。主流のパーソナライゼーション パラダイム全体にわたって、プロンプト、取得の拡張、パラメーターの微調整、強化学習、専門家混合 (MoE)、枝刈り、エージェント フレームワーク、マルチモーダル パーソナライゼーションに固有の脆弱性を明らかにし、モデルのライフサイクル全体で緩和戦略を統合します。これらのきめの細かいリスクを超えて、個別の適応から生じるパラダイムに依存しない安全性リスクを特徴付けます。さらに、パーソナライズされたデータセットと評価方法を要約します。 OpenClaw のケーススタディを通じて、パーソナライズされたエージェント エコシステムにおける導入傾向を分析します。私たちの分析では、既存の研究における 3 つの構造的欠陥が明らかになりました。安全性は関係性ではなくユーザー不変として評価され、パーソナライゼーション技術は構成ではなく単独で分析され、評価フレームワークは新たな長期リスクを捉えることができません。パーソナライズされた表現、パーソナライゼーションのパラダイム、安全性リスク、防御、評価方法を共同で調査することで、安全なパーソナライズされた LLM を開発するための統一フレームワークを提供し、将来の研究の重要な方向性を強調します。

原文 (English)

Personalization Meets Safety:Mechanisms,Risks,and Mitigations in Personalized LLMs

Large Language Models (LLMs) have enabled increasingly personalized interactions by adapting to users' preferences, contexts, and long-term histories. However, the mechanisms that enable personalization also expand the safety landscape in ways not systematically addressed by existing literature. Existing reviews typically focus either on personalization or safety, leaving their intersection largely unexplored. We present the first comprehensive, safety-aware review of personalized LLMs. We organize personalization along three dimensions-user representation, personalization paradigm, and evaluation-and introduce a unified taxonomy of safety risks. At the representation level, we analyze risks arising from diverse user representations. Across mainstream personalization paradigms, we delineate vulnerabilities inherent to prompting, retrieval augmentation, parameter fine-tuning, reinforcement learning, Mixture-of-Experts (MoE), pruning, agent frameworks, and multimodal personalization, and synthesize mitigation strategies across the model lifecycle. Beyond these fine-grained risks, we characterize paradigm-agnostic safety risks arising from personalized adaptation. We further summarize personalized datasets and evaluation methodologies. Through a case study of OpenClaw, we analyze deployment trends in personalized agent ecosystems. Our analysis reveals three structural inadequacies in existing research: safety is evaluated as user-invariant rather than relational, personalization techniques are analyzed in isolation rather than in composition, and evaluation frameworks cannot capture emergent long-term risks. By jointly examining personalized representations, personalization paradigms, safety risks, defenses, and evaluation methods, we provide a unified framework for developing safe personalized LLMs and highlight key directions for future research.

13:00 JSTエージェント

エージェント経済学: 自律エージェントにおける人工集合意識を防ぐためのエントロピー制御された多元的調整フレームワーク

この研究は、自律エージェント経済における 2 つの重要な課題、つまりエージェント間の過剰な戦略的収束から生じる集団マインド効果と自律意思決定プロセスの透明性の欠如という、エントロピー制御された多元的調整フレームワークである行動プロトコル フレームワーク (BPF) を提案します。提案された BPF は、心の理論 (ToM) に基づいたメンタライジング ベースのソーシャル インテリジェンス (MbSI)、多元的アライメント (PA)、および検証可能実行カーネル (VEK) の 3 つのコア モジュールで構成されます。これらのモジュールは、意思決定と実行から検証とフィードバックに至るまで、エージェントの動作のライフサイクル全体を管理する閉ループ アーキテクチャ内に有機的に統合されています。提案されたフレームワークを評価するために、Python で実装されたシミュレーション環境と Streamlit ベースのユーザー インターフェイスが開発されます。この研究は、実証実験を通じて、PA モジュールのエントロピー制御メカニズムがエージェント間の戦略的多様性を効果的に維持し、集合的収束を緩和できるかどうかを調べることを目的としていますが、VEK モジュールは意思決定プロセスの包括的かつ透明性のある監査証跡を提供します。予想される結果は、提案されたフレームワークが自律エージェント経済の安定性、効率性、信頼性を同時に強化できることを実証すると期待されています。したがって、この研究は、堅牢で透明性があり、説明責任のあるエージェントネイティブの経済システムを開発するための実用的なアプローチを提供します。

原文 (English)

Agent Economics: An Entropy-Controlled Pluralistic Alignment Framework for Preventing Artificial Hivemind in Autonomous Agents

This study proposes the Behavioral Protocol Framework (BPF), an entropy-controlled pluralistic alignment framework designed to address two critical challenges in autonomous agent economies: the hivemind effect arising from excessive strategic convergence among agents and the lack of transparency in autonomous decision-making processes. The proposed BPF consists of three core modules: Mentalizing-based Social Intelligence (MbSI) grounded in Theory of Mind (ToM), Pluralistic Alignment (PA), and a Verifiable Execution Kernel (VEK). These modules are organically integrated within a closed-loop architecture that governs the entire lifecycle of agent behavior, from decision-making and execution to verification and feedback. To evaluate the proposed framework, a simulation environment implemented in Python and a Streamlit-based user interface will be developed. Through empirical experimentation, the study aims to examine whether the entropy-control mechanism of the PA module can effectively preserve strategic diversity among agents and mitigate collective convergence, while the VEK module provides a comprehensive and transparent audit trail of the decision-making process. The anticipated results are expected to demonstrate that the proposed framework can simultaneously enhance the stability, efficiency, and trustworthiness of autonomous agent economies. Consequently, this research offers a practical approach for developing robust, transparent, and accountable agent-native economic systems.

13:00 JSTLLM/生成AIエージェント

反映: LLM エージェント トレースのサイレント障害に対する介入サポート型エラーの属性

大規模言語モデル (LLM) エージェントは、長い計画と実行のトレースを通じて複雑なタスクを解決できるようになりましたが、完了したトレース内のエラーを特定する能力は、特に \emph{サイレントエラー} 体制では依然として大幅に遅れています。既存のアプローチでは、分類子や LLM 判定によって疑わしいステップを予測したり、再試行によって正解を回復したりしていますが、介入の結果を \emph{帰属自体を調整する} にフィードバックするものはありません。私たちは \methodname を提案します。これは、候補エラー ステップを診断し、診断固有のパッチを使用した制御された再生を通じてテストし、検証された結果の反転を対照的な証拠として使用して最終的な帰属を調整することによって、このギャップを埋める方法です。複数のドメインにわたるマルチホップ推論にまたがる 4 つのローカライゼーション ベンチマーク全体で、\methodname は、4 つのベンチマークすべてにわたる同じ監査手法の中で最高のローカライゼーション精度を達成し、構造化されたツール使用トレースで最大の利益をもたらし、同時に、グラウンド トゥルースの答えが利用できない場合でも実用的なローカライゼーションを提供します。

原文 (English)

REFLECT: Intervention-Supported Error Attribution for Silent Failures in LLM Agent Traces

Large language model (LLM) agents now solve complex tasks through long plan-and-execution traces, yet the ability to locate errors in a completed traces still lags far behind, especially in the \emph{silent failure} regime. Existing approaches predict suspect steps via classifiers or LLM judges, or recover correct answers via retry, but none feed the intervention outcome back to \emph{refine the attribution itself}. We propose \methodname, a method that closes this gap by diagnosing a candidate error step, testing it through controlled replay with a diagnosis-specific patch, and using the verified outcome flip as contrastive evidence to refine the final attribution. Across four localization benchmarks spanning multi-hop reasoning across domains, \methodname achieves the highest localization accuracy among same-auditor methods across all four benchmarks, with the largest gains on structured tool-use traces, while providing actionable localization even when ground-truth answers are unavailable.

13:00 JST研究/論文

DynaOD: Dynamic Origin-Destination Flow Generation with Discrete-to-Continuous Temporal Semantic Modeling

Dynamic origin-destination (OD) flow generation seeks to synthesize realistic mobility dynamics from temporal context alone, without relyin…

13:00 JST研究/論文

Graph2Idea:Retrieval-Augmented Scientific Idea Generation with Graph-Structured Contexts

Generating novel, feasible, and high-quality research ideas is an important yet challenging task in scientific discovery.Recent Large Langu…

13:00 JSTLLM/生成AIビジネス/資金調達研究/論文

ComplexConstraints and Beyond: Expert Rubrics for RLVR

As LLM capabilities advance rapidly, the evaluation methods used to assess them increasingly lag behind. Traditional benchmarks relied on p…

13:00 JST研究/論文

A Regret Minimization Framework on Preference Learning in Large Language Models

Reinforcement learning with verifiable rewards (RLVR) has enabled progress on reasoning-intensive tasks by relying on task-specific verifie…

13:00 JSTLLM/生成AI画像/動画生成

Late-Layer Fusion is Enough: Dual-Path Vision Token Routing for Multimodal Large Language Models under Visual Saturation

Multimodal large language models (MLLMs) commonly inherit the deep, symmetric Transformer backbone designed for unimodal text modeling, and…

13:00 JST研究/論文

Vision Language Model Helps Private Information De-Identification in Vision Data

Visual Language Models (VLMs) have gained significant popularity due to their remarkable ability. While various methods exist to enhance pr…

13:00 JSTハードウェア/半導体ビジネス/資金調達

Reliable to Expressive: A Curriculum for Rubric-Following Safety Judges

Safety judges are increasingly deployed to evaluate model outputs against evolving criteria, yet recent meta-evaluation work shows they rem…

13:00 JST画像/動画生成研究/論文

IMUG-Bench: Benchmarking Unified Multimodal Models on Interleaved Understanding and Generation

In recent years, unified multimodal models (UMMs) have emerged to support both understanding and generation within a single framework. Mast…

13:00 JSTLLM/生成AIエージェント研究/論文

MASS: Deep Research for Social Sciences with Memory-Augmented Social Simulation

Deep Research agents powered by Large Language Models (LLMs) have exhibited extraordinary potential in automated paper writing tasks. Howev…

13:00 JST研究/論文

FF-JEPA: Long-Horizon Planning in World Models with Latent Planners

Joint Embedding Predictive Architectures (JEPAs) have shown promising world modeling capabilities, enabling planning in latent space by opt…

13:00 JSTエージェント

Anything2Skill: Compiling External Knowledge into Reusable Skills for Agents

Retrieval-augmented generation (RAG) enables agents to access external knowledge at inference time, but it primarily retrieves fragmented d…

13:00 JSTビジネス/資金調達

TRL-Bench: Standardizing Cross-Paradigm Representation-Level Evaluation of Tabular Encoders

Tabular encoders are usually evaluated inside task-specific end-to-end pipelines, so models from different training paradigms are difficult…

13:00 JST研究/論文

Leveraging Structural Constraints for Diffusion-based Neural TSP Solvers

Neural combinatorial optimization has recently achieved strong results on the Euclidean Traveling Salesman Problem (TSP) using generative m…

13:00 JSTLLM/生成AIエージェント

Experience Makes Skillful: Enabling Generalizable Medical Agent Reasoning via Self-Evolving Skill Memory

Medical agent systems are increasingly expected to support interactive clinical decision making rather than only static question answering.…

13:00 JSTLLM/生成AI

Capability-Aligned Hierarchical Learning for Tool-Augmented LLMs

Tool learning enables LLMs to invoke external tools to accomplish tasks. Prior studies have demonstrated the effectiveness of a hierarchica…

13:00 JSTビジネス/資金調達

From Coarse to Fine: Managing Temporal Granularity in Spatio-Temporal Data for Fine-Grained Traffic Prediction

Efficient acquisition, storage, and utilization of traffic data are critical challenges in spatio-temporal data management. Most traffic da…

13:00 JSTエージェント

RunAgent SuperBrowser: A Theory of Autonomous Web Navigation Grounded in Human Browsing Behaviour

We present SUPERBROWSER, an autonomous web-navigation agent designed against a single guiding hypothesis: a web agent should browse the way…

13:00 JSTLLM/生成AI

Correct Looks Better: Pairwise Comparisons Reveal Accuracy Rankings

Pairwise comparisons combined with aggregation methods like Elo have become central to evaluating generative models, yet concerns remain th…

13:00 JSTLLM/生成AIハードウェア/半導体ClaudeGPT / ChatGPT

Capacity, Not Format: Rethinking Structured Reasoning Failures

Prior work treats structured output as a reasoning tax, but this framing is incomplete: the cost of formatting depends strongly on a model'…

13:00 JSTエージェント研究/論文

WeaveBench: A Long-Horizon, Real-World Benchmark for Computer-Use Agents with Hybrid Interfaces

Computer-use agents (CUAs) increasingly operate in runtimes that combine visual desktop control, command-line execution, code editing, brow…

13:00 JST研究/論文

Bayesian Selective Latent Inference for Wastewater-First Influenza Monitoring

Wastewater influenza surveillance can reveal community circulation before clinical reporting, but wastewater alone is not a fully identifia…

13:00 JSTLLM/生成AI

SIFT: Selective-Index For Fast Compute of RAG Prefill by Exploiting Attention Invariance

Retrieval-Augmented Generation (RAG) injects LLM queries with relevant documents to improve response quality. This injection increases prom…

13:00 JSTエージェント

AliyunConsoleAgent: Training Web Agents in Real-World Cloud Environments via Distillation and Reinforcement Learning

We present AliyunConsoleAgent, a web agent framework for automated documentation verification in real-world cloud consoles. Major cloud pla…

13:00 JSTLLM/生成AIビジネス/資金調達研究/論文

TheoremBench: Evaluating LLMs on Theorem Proving in Formal Mathematics

LLMs have recently achieved strong results on formal proving benchmarks. However, existing evaluations remain heavily concentrated on compe…

13:00 JSTLLM/生成AI

Emergent alignment and the projectability of ethical personas

Work on `emergent misalignment' shows that finetuning LLMs on narrow tasks can induce broadly misaligned behavior. This supports the `perso…

13:00 JSTLLM/生成AI

LLM-Orchestrated Conformance Checking in Stroke Care Without Computer-Interpretable Guidelines

Objective: Conformance checking in healthcare seeks to assess whether patient care pathways adhere to clinical guidelines. However, its pra…

13:00 JSTLLM/生成AI研究/論文

Deterministic Integrity Gates for LLM-Assisted Clinical Manuscript Preparation: An Auditable Biomedical Informatics Architecture

Objective. Large language models (LLMs) increasingly draft clinical research manuscripts, but their fluency can hide fabricated citations,…

13:00 JSTLLM/生成AILlamaQwen

From Rigid to Dynamic: Entropy-Guided Adaptive Inference for Long-Context LLMs

Existing sparse attention and KV cache compression methods for long-context LLM inference typically apply fixed sparsity patterns or unifor…

13:00 JSTLLM/生成AIエージェントビジネス/資金調達

AI Scientists Are Only as Good as Their Evidence: A Stratified Ablation of Proprietary Data and Reasoning Skills in Drug-Asset Valuation

AI Scientist agents are often evaluated as if capability were mainly a function of model quality, prompting, or reasoning scaffolds. We tes…

13:00 JSTLLM/生成AIエージェントハードウェア/半導体

PRISM: Recovering Instruction Sets from Language Model Activations

As LLMs are deployed as agents, reliable monitoring requires knowing not only what they output, but which instructions are steering their b…

13:00 JST研究/論文

Self-Explainability in Self-Adaptive and Self-Organising Systems: Status and Research Directions

The growing complexity of self-adaptive and self-organising systems, fuelled by advances in Artificial Intelligence (AI), has made them inc…

13:00 JSTLLM/生成AI研究/論文

TABVERSE: Benchmarking Cross-Format Table Understanding in LLMs and VLMs

Large Language Models (LLMs) and Vision-Language Models (VLMs) are increasingly evaluated on table reasoning tasks, but the role of table r…

13:00 JSTLLM/生成AI

Optical Reasoning: Rethinking Images as an Expressive Reasoning Medium Beyond Text

Chain-of-Thought (CoT) improves the performance of Large Language Models (LLMs) and has been extended to Multimodal Large Language Models (…

13:00 JST研究/論文

Next-Token Prediction Learns Generalisable Representations of Sleep Physiology

Foundation models offer a promising route to compress multi-modal physiological signals into compact representations of human health, with…

13:00 JST研究/論文

From 0-to-1 to 1-to-N: Reproducible Engineering Evidence for MetaAI Recursive Self-Design

Recursive self-design refers to AI-assisted modification of the mechanisms by which an AI system is built, evaluated, and improved. This pa…

13:00 JSTハードウェア/半導体

Frequency-based Constrained Sampling for Interval Patterns

Output space pattern sampling is a powerful alternative to exhaustive pattern mining for exploring large pattern spaces, as it enables user…

13:00 JSTLLM/生成AIエージェント研究/論文GPT / ChatGPTQwen

SpatialWorld: Benchmarking Interactive Spatial Reasoning of Multimodal Agents in Real-World Tasks

Spatial reasoning is a foundational capability for multimodal large language models (MLLMs) to perceive and operate within the physical wor…

13:00 JSTLLM/生成AI

Correlation Is Not Enough: Embedding Human Metadata for Individual Causal Discovery

Ask a pretrained biomedical language model whether "cortisol 28 ug/dL" and "stock-market volatility" are related, and it returns a cosine s…

13:00 JSTLLM/生成AIエージェント

(Auto)formalization is supposed to be easy: Trellis process semantics for spelling out rigorous proofs

We present Trellis: an autoformalization system that leverages LLM agents in a deterministically constrained workflow to enforce incrementa…

13:00 JST研究/論文

Proxy Reward Internalization and Mechanistic Exploitation: A Learned Precursor to Reward Hacking and Its Generalization

Reward hacking is usually studied after it becomes visible, once a model earns high proxy reward while failing the intended task. We instea…

13:00 JST研究/論文

Beyond Probabilistic Similarity: Structural, Temporal, and Causal Limitations of Retrieval-Augmented Generation in the Legal Domain

Retrieval-Augmented Generation (RAG) has become a standard architectural response to unreliability in legal AI, yet high-profile failures,…

13:00 JSTLLM/生成AIエージェント研究/論文

SearchSwarm: Towards Delegation Intelligence in Agentic LLMs for Long-Horizon Deep Research

Large language models are increasingly expected to handle complex, long-horizon real-world tasks whose context demands can grow without bou…

13:00 JSTLLM/生成AIエージェントハードウェア/半導体ビジネス/資金調達研究/論文

Multi-Turn Evaluation of Deep Research Agents Under Process-Level Feedback

Existing benchmarks for deep research agents (DRAs) assess only single-shot outputs, ignoring a key question: can DRAs improve their report…

13:00 JSTLLM/生成AIエージェント

Collaborative Human-Agent Protocol (CHAP)

Foundation models are moving from response generation into operational roles. They plan across steps, call tools, request human input, coor…

13:00 JSTLLM/生成AIエージェント

SIGA: Self-Evolving Coding-Agent Adapters for Scientific Simulation

Advanced scientific simulators expose specialized input languages that turn simulation goals into executable configurations, but learning t…

13:00 JSTビジネス/資金調達研究/論文

Evaluation Cards: An Interpretive Layer for AI Evaluation Reporting

AI evaluation results are produced at scale but reported inconsistently across leaderboards, model cards, benchmark papers, and company blo…

13:00 JST研究/論文

XAInomaly: Explainable and Interpretable Deep Contractive Autoencoder for O-RAN Traffic Anomaly Detection

Generative Artificial Intelligence (AI) techniques have become integral part in advancing next generation wireless communication systems by…

13:00 JSTエージェント

BRAIN: Bayesian Reasoning via Active Inference for Agentic and Embodied Intelligence in Mobile Networks

Future sixth-generation (6G) mobile networks will demand artificial intelligence (AI) agents that are not only autonomous and efficient, bu…

13:00 JSTロボティクス

Blockchain Infrastructure for Intelligent Cyber--Physical--Social Systems:Post-Quantum Security, Interoperability, and Trustworthy Data Economies in the Era of Embodied AI

The deployment of embodied artificial intelligence via world-model-based robotics presents a transformative opportunity for blockchain infr…

13:00 JSTLLM/生成AIGPT / ChatGPT

Bidirectional Small-Granularity Search between Code and Text

We introduce the novel task of bidirectional small-granularity search between code and text, where the queries are small snippets of text o…

13:00 JSTLLM/生成AILlama

Evaluating Hallucinations in Domain-Adapted Large Language Models

This study investigates the phenomenon of hallucinations in domain-adapted Large Language Models (LLMs), focusing on the fine-tuning of the…

13:00 JSTLLM/生成AI

Retrieval Augmented Generation Framework for the Nepali Legal Domain Question Answering

Legal domains in high-resource languages like English have widely adopted artificial intelligence for legal question answering. However, da…

13:00 JSTLLM/生成AI

ABLE: Representing and Mapping LLMs via Attribution-Based Large-model Embedding

The explosive growth of large language models (LLMs) has created a heterogeneous and poorly documented ecosystem, making systematic model c…

13:00 JSTLLM/生成AI

Implicit Causal Graph Construction in Text via Chain Discovery

Causal graphs in text are typically populated by observable, predefined events. In contrast, we study implicit causal graph construction fr…

13:00 JSTLLM/生成AI

GraphLoRA: Structure-Aware Low-Rank Adaptation for Large Language Model Recommendation

Large Language Models (LLMs) have shown strong potential for recommendation (LLMRec) due to their powerful reasoning and generalization abi…

13:00 JSTLLM/生成AI

Post-training is (Massive) Supervised Learning

The prevailing paradigm for training LLMs has evolved to rely on a massive post-training phase consisting of SFT and RL. In this position p…

13:00 JSTLLM/生成AI

BEACON: Behavioral Entropy Aggregation for Cross-Model Hallucination Detection in Large Language Models

Hallucination in large language models (LLMs), defined as the generation of factually incorrect or unsupported content, remains a critical…

13:00 JSTLLM/生成AI画像/動画生成

CAPruner: Conceptual-Adjacent Scene Graph Pruner for Enhancing 3D Spatial Reasoning of Large Language Models

Large language models (LLMs) have recently been applied to 3D vision-language (3D-VL) tasks, which require spatial reasoning to identify ta…

13:00 JSTLLM/生成AI

mllm-shap: A Shapley Value Explainability Platform for Text-Audio Multimodal Large Language Models

We introduce mllm-shap, an open-source Python framework designed to extend Shapley Value (SV) explainability from text-only Large Language…

13:00 JSTLLM/生成AIエージェント

Principled Agent Debate: Adversarial Arbitration for Sycophancy Reduction in Large Language Models

RLHF-trained models are systematically biased toward agreement over accuracy, a structural property of the training process. We present Pri…

13:00 JSTLLM/生成AI

Bridging Traditional Explainability Methods and Multimodal Multilingual Models: An XAI-Based Analysis

Multimodal Large Language Models (MLLMs) effectively integrate text and audio to interpret context in complex interactive dialogues. Howeve…

13:00 JSTハードウェア/半導体

Beware of GeeksBearing Gifts: Building True EU Frontier AI Sovereignty

Frontier artificial intelligence is reshaping all aspects of society, from economic output or military capability to democratic institution…

13:00 JSTLLM/生成AIエージェント

Bidirectional Semantic Complementary Tool Retrieval for Remote Sensing Agents

Large language model (LLM)-based agents provide a novel paradigm for the automated processing of remote sensing(RS) data. Their success in…

13:00 JSTLLM/生成AI画像/動画生成ビジネス/資金調達GeminiQwen

Multimodal Large Language Models as Synthetic Participants in Video-Based Studies: An Evaluation

Multimodal large language models (MLLMs) have shown strong performance on objective tasks such as video understanding and reasoning. Howeve…

13:00 JST研究/論文

DIYHealth Suite: Dataset, Model, and Benchmark for Health Management at Home

Generative AI is reshaping healthcare, yet most existing advances rely on hospital-grade devices, which limits their accessibility and pote…

13:00 JST研究/論文

Concerns and Strategic Responses of Older Workers Navigating Generative AI in Bridge Employment

Generative AI (GenAI) is transforming workplaces at a rapid pace. This disproportionately affects vulnerable communities, including older w…

13:00 JST研究/論文

AI-Integrated Learning Management System for Middle School: A Longitudinal Study of Learning Outcomes Through High School and Beyond

Middle school is a key window for building core academic skills and the learning routines students carry into later grades, yet many studen…

13:00 JST研究/論文

Beyond Item IDs: Scaling Short-Form-Video Recommendation via Semantic-Native Long Sequence Modeling

Capturing user interests across extensive watch histories is critical for short-form video recommendation, yet scaling sequence length is l…

13:00 JSTLLM/生成AIハードウェア/半導体

Liberating LLM Capabilities in Full-Duplex Speech Models

Speech-based large language models are typically constrained to spoken replies, which limits their user-facing outputs to what can be verba…

13:00 JSTLLM/生成AIGoogleGemini

Evaluating Advanced Prompting on Gemini Flash for Multi-Hop Biomedical QA

The MedHopQA challenge presents a critical test for Large Language Models (LLMs): complex, multi-hop reasoning in the high-stakes biomedica…

13:00 JST研究/論文

Offline Reinforcement Learning for Plasma Control in Nuclear Fusion: Codebase and Benchmark

Offline reinforcement learning (RL) offers a promising route for developing plasma controllers from historical tokamak data, since online t…

13:00 JSTLLM/生成AIエージェント

Symbolic Reasoning Frameworks Modulate LLM Risk Aversion in Multi-Agent Strategic Settings

Large language models exhibit innate behavioral tendencies when deployed as strategic agents -- notably a risk-averse "turtle" bias toward…

13:00 JST研究/論文

MedicalRec: Medical recommender system for image classification without retraining

The emergence of machine learning and deep learning has revolutionized the efficiency of diagnostic, therapeutic, and administrative system…

13:00 JSTビジネス/資金調達

Selecting New Measurement Locations to Diversify Traffic-Pattern Coverage: A Real-World Evaluation for Total Traffic Volume Estimation

Accurate measurement of traffic volumes and flows is vital for modern intelligent transportation. However, despite recent technological adv…

13:00 JST画像/動画生成

Page image classifier fine-tuned on century-spanning archives of scanned documents for further content-specific processing

Purpose: Digitization projects in the humanities produce vast, heterogeneous archives of historical documents, making manual sorting imprac…

13:00 JSTLLM/生成AI

Phantom transitions in language model fine-tuning

Fine-tuning a language model on contexts whose correct completion has a near-synonym competitor often fails silently. The cross-entropy los…

13:00 JST研究/論文

The Montparnasse Algorithm for RNA Design

RNA design consists of discovering a nucleotide sequence that optimizes predefined criteria, such as secondary structure. It is useful for…

13:00 JST研究/論文

Emergence via Phase Transitions: Mechanism Landscapes and Universal Convergence Across Complex Systems

Across machine learning, biology, and physics, independently evolving systems often converge toward strikingly similar high-level structure…

13:00 JST研究/論文

Considerations for an Integrated Detector Design at FCC-ee: A Human-AI Exploration

This report explores detector design considerations for the Future Circular Collider in its electron-positron mode (FCC-ee) through an exte…

13:00 JST研究/論文

SurfDesign: Effective Protein Design on Molecular Surfaces

Protein function is largely determined by molecular surface geometry and physicochemical complementarity, yet most protein design methods c…

13:00 JST画像/動画生成

A Systematic Study of Behavioral Cloning for Scientific Data Annotation

Scientific data annotation, such as tracking animals in video or proofreading neural reconstructions, remains bottlenecked by the "last mil…

13:00 JSTLLM/生成AI

Enabling KV Caching of Shared Prefix for Diffusion Language Models

Key-value (KV) caching for shared prefixes is essential for high-throughput large language model (LLM) serving, but it faces critical chall…

13:00 JST研究/論文

Accelerating Birkhoff Projection for Manifold-Constrained Hyper-Connections

Manifold-constrained hyper-connections (mHCs) have recently been proposed as a principled extension of hyper-connections, where the residua…

13:00 JST研究/論文

Training-Inference Kernel Contracts: Bounding Divergence in Post-Training and Deployment

A modern post-training pipeline often writes one symbol for its policy, pi_theta, while evaluating it through two different programs: a tra…

13:00 JST研究/論文

Customer Churn Prediction on Structured Data Using FT-Transformer and Stacking Ensembles

Customer churn prediction is essential across data-driven industries such as insurance, digital banking, eCommerce, and subscription platfo…

13:00 JST研究/論文

Outage Detection in Self-Healing Smart Grids Using Reinforcement Learning with Spectral Graph Neural Networks

Self-healing smart grids can quickly adjust their network configuration during outages to minimize power disruptions. During an outage, sev…

13:00 JST画像/動画生成

Multimodal Group Emotion Recognition In-the-Wild Towards a Privacy-Safe Non-Individual Approach

This thesis addresses group emotion recognition (GER) in-the-wild with a focus on privacy preservation. Unlike traditional emotion recognit…

13:00 JSTLLM/生成AIエージェントLlama

From Human Guidance to Autonomy: Agent Skill System for End-to-End LLM Deployment on Spatial NPUs

Spatial neural processing units (NPUs) provide an energy-efficient platform for edge LLM inference, but efficiently deploying an LLM end-to…

13:00 JST画像/動画生成

SlideCheck: Guiding Self-Supervised Pretraining of Pathology Foundation Models via Dataset Distributions

Pathology foundation models are pretrained on large streams of WSI-derived patches, while supervision during data construction is often sli…

13:00 JSTLLM/生成AIエージェント研究/論文Claude

ResearchClawBench: A Benchmark for End-to-End Autonomous Scientific Research

AI coding agents are increasingly used for scientific work, but their end-to-end autonomous research capability remains difficult to verify…

13:00 JST画像/動画生成

A Mechanistic Analysis of Adversarial Fine-tuning of Vision Transformers

The widespread use of image classification models in high-risk, real-world situations necessitates making these models robust to slight dis…

13:00 JST画像/動画生成エージェント

VisualLeakBench: Reproducible Action-Boundary Propagation Failures in Vision-Language Agents

Vision-language agents increasingly consume screenshots, documents, and user interfaces before writing to memory, sending messages, or invo…

13:00 JST研究/論文

Repetition Mismatch: Why Data Mixture Experiments Don't Scale and How to Fix Them

Pre-training data mixtures are commonly tuned by running small-scale experiments and extrapolating to the target training budget. When high…

13:00 JST研究/論文

A Topological Characterization of Graph Neural Networks via Stochastic Block Model Embeddings on the n-Sphere

We propose a topological framework for comparing trained Graph Neural Networks (GNNs) by mapping the Stochastic Block Models (SBMs) induced…

13:00 JST画像/動画生成

DiffoR: A Unified Continuous Generative Framework for Universal Ordinal Regression

Ordinal Regression (OR) aims to predict target values with inherent order, underpinning critical applications across diverse domains, from…

13:00 JST研究/論文

Reachability and asymptotics of Gaussian Transformer dynamics

We formulate data propagation through the Transformer, the machine learning architecture powering large language models, as a nonlinear con…

13:00 JST研究/論文

LFNO: Bridging Laplace and Fourier via Transient-Steady Decomposition

We introduce the Laplace-Fourier Neural Operator (LFNO), a unified framework for modeling dynamical systems across transient and steady-sta…

13:00 JSTLLM/生成AI

Sample-Efficient Post-Training for LEGO Spatial-Physics Reasoning

LLM-based LEGO assembly generation requires both semantic grounding and physical feasibility. We identify a data-induced failure mode, Phys…

13:00 JSTLLM/生成AIエージェント

MetaEvo: A Meta-Optimization Framework for Experience-Driven Agent Evolution

Large language models (LLMs) exhibit strong reasoning capabilities, yet most LLM-based agents are statically deployed and unable to improve…

13:00 JSTLLM/生成AI

Contribution Weights: A Geometrical Analysis of Self-Attention Transformers

Analyzing attention weights has become a standard approach for interpreting the information flow of Large Language Models (LLMs). However,…

13:00 JST研究/論文

SRT: Super-Resolution for Time Series via Disentangled Rectified Flow

Fine-grained time series data with high temporal resolution is critical for accurate analytics across a wide range of applications. However…

13:00 JSTLLM/生成AI研究/論文OpenAINVIDIA

Subtitle-Aligned Fine-Tuning of Whisper for Swiss German ASR: Benchmark Contamination, Convention Mismatch, and an Honest Baseline at 25.6% WER (13.8% cWER)

We present a systematic study of fine-tuning OpenAI's Whisper large-v3 for Swiss German ASR, using 1,367 hours of broadcast speech paired w…

13:00 JSTLLM/生成AI

LEAF: Growing Trees Without Branching for Speech-Aware Large Language Model Post-Training

State-of-the-art GRPO-style methods for speech-aware large language model post-training suffer from coarse credit assignment, broadcasting…

13:00 JST研究/論文

MIRAGE: Metadata-Integrated Repository Analysis and Guided Enhancement for MSR Datasets

This paper proposes an improved approach to the analysis of Mining Software Repositories (MSR) datasets via metadata enrichment, FAIRness a…

13:00 JST研究/論文

Position: Anthropomorphic Misalignment Research Needs Stronger Evidence

We argue that many Anthropomorphic Misalignment Research (AMR) studies need stronger evidence to ensure that they can provide a robust foun…

13:00 JST画像/動画生成GPT / ChatGPTGemini

Can You Trust What You See? Human and AI Detection of Synthetic Legal Evidence

Visual evidence has long been treated as a reliable form of legal proof, but advances in artificial intelligence (AI) are undermining that…

13:00 JST研究/論文

Structured Neuron Pruning in Deep Neural Networks Using Multi-Armed Bandits

Deep neural networks often contain redundant hidden units. Removing individual weights can reduce parameter count, but unstructured sparsit…

13:00 JSTLLM/生成AI

Item Response Scaling Laws: A Measurement Theory Approach for Efficient and Generalizable Neural Scaling Estimation

Scaling laws provide a fundamental framework for understanding the performance of Language Models (LMs), yet deriving them requires prohibi…

13:00 JST研究/論文

Query Lens: Interpreting Sparse Key-Value Features with Indirect Effects

While sparse autoencoders provide features more interpretable than individual neurons, reliably characterizing them remains challenging. We…

13:00 JSTLLM/生成AI画像/動画生成LlamaQwen

ScaleSweep: Accurate NVFP4 Post-Training Quantization of LLMs via Block Scale Initialization

NVFP4 is a recently introduced hardware-supported FP4 format that improves the fidelity of 4-bit quantization through fine-grained block sc…

13:00 JST画像/動画生成エージェント

SENTRY: Statistical Reliability Analysis of Vision Transformers Under Soft Errors

With the growth of Vision Transformers in safety-critical domains like autonomous systems and medical imaging, ensuring their reliability a…

13:00 JST研究/論文

HASA: Subnet Allocation for Compute-Constrained Model-Heterogeneous Federated Learning

Edge services increasingly use federated learning to personalize on-device models while keeping sensitive data local. In practice, deployme…

13:00 JST画像/動画生成エージェント

Eyes All Around: Design and Analysis of 360-Degree LiDAR Perception Using Equivariant Feature Learning in Unstructured Traffic

Perception in dense, unstructured urban traffic remains a major challenge for autonomous driving because of the wide variety of road users,…

13:00 JSTLLM/生成AI

Large Language Models Should Learn Personalized Rather Than Aggregated Human Preferences

Current approaches to aligning large language models (LLMs) aggregate diverse human preferences into a single reward signal, effectively op…

13:00 JST研究/論文

Active Learning with Foundation Model Priors: Efficient Learning under Class Imbalance

Real-world datasets across image and text domains are often characterized by skewed class distributions and noisy annotations, which jointl…

13:00 JST研究/論文

Trait-space Monitoring for Emergent Misalignment During Supervised Finetuning

Emergent misalignment (EM) occurs when narrow finetuning causes a model to behave dangerously outside the finetuning task. Standard trainin…

13:00 JST画像/動画生成

AMN: An Adaptive Multi-Scale Fusion Network with Boundary and Uncertainty Modeling for Nuclei Segmentation

Accurate classification of nuclei subtypes in histopathology images is critical for downstream tasks including tumor grading, immune infilt…

13:00 JST画像/動画生成

NeuroAlign: Hierarchical Multimodal Fusion of Dynamic and Structural Neuroimaging for MCI Analysis

Multimodal neuroimaging fusion of functional MRI (fMRI) and diffusion tensor imaging (DTI) provides complementary information for cognitive…

13:00 JST画像/動画生成

Anchor-Conditioned Compositional Control for Landscape Image Generation

Image generative models, though widely used as creative tools, offer limited support for the kind of compositional control that photographe…

13:00 JST画像/動画生成

MOSS-Video-Preview: Toward Real-Time Video Understanding via Cross-Attention

Video understanding is shifting from the offline paradigm -- taking a fully recorded video as input and producing a single answer after it…

13:00 JST画像/動画生成

No Free Lunch for Synthetic Images under Data Scarcity Conditions

This study investigates the trade-offs between fidelity, privacy, and utility in synthetic data generation under conditions of data scarcit…

13:00 JSTLLM/生成AI画像/動画生成

AVI-Bench: Toward Human-like Audio-Visual Intelligence of Omni-MLLMs

Recent advances in Omni-Multimodal Large Language Models (Omni-MLLMs) have enabled strong integration of vision, audio, and language. Howev…

13:00 JST画像/動画生成エージェント

FineGen: A VLM-based Multi-Agent Framework for Fine-Grained Image-Text Dataset Construction

The scarcity of hard negative samples in current vision-language datasets significantly hinders fine-grained perception. To address this, w…

13:00 JST画像/動画生成

DOME: Learning Transferable Domain Variables from Sparse Supervision for Test-Time Adaptation

Test-time adaptation (TTA) aims to align a model to shifting test domains using only unlabeled streaming data. Most existing methods implic…

13:00 JST画像/動画生成

AQIFormer: A Transformer-Based Multi-View Architecture for Cross-City Air Quality Classification

Air pollution represents one of the most critical environmental and public health challenges globally, with traditional sensor-based monito…

13:00 JST画像/動画生成エージェント

ViMax: Agentic Video Generation

Long-form video generation requires systematic narrative planning and visual consistency that current short-clip methods cannot provide. Ex…

13:00 JST画像/動画生成

A Dataset for Dynamic Human Preferences for Vision Language Models

Given the increased adoption of Vision Language Models (VLMs) in human-interactive settings, it is important that we evaluate how well thes…

13:00 JST画像/動画生成

MM-Matryoshka: Towards Budget-Elastic Visual Document Retrieval via a 2D Multimodal Matryoshka Training Framework

Multi-vector visual document retrievers achieve strong fine-grained matching by representing each page with multiple vectors from deep Visi…

13:00 JST研究/論文

Seq103: A Unified Neuroevolution Framework for Compact Sequence Architecture Discovery

Neuroevolution is a representative neural architecture search paradigm that evolves both network topology and weights through evolutionary…

13:00 JSTLLM/生成AIエージェントLlama

AgentCompile: An LLM-Guided Compiler for Direct CUDA Inference

Transformer inference increasingly depends on specialized compiler and runtime support, but real model graphs still require semantic decisi…

13:00 JST画像/動画生成

MemoVAD: Resource-Efficient Video Anomaly Detection via Dynamic Semantic Memory in Edge Computing Scenarios

Deploying Video Anomaly Detection (VAD) in real-world surveillance faces a fundamental tension between the demand for high-level semantics…

13:00 JST画像/動画生成

Liquid Neural Networks as a Drop-in Continuous-Time Deformation Field for Dynamic 3D Gaussian Splatting

Deformable 3D Gaussian Splatting (D-3DGS) re-constructs dynamic scenes from monocular video by deforming a canonical set of 3D Gaussians th…

13:00 JST研究/論文

A Hierarchical Feature Engineering Framework for Automated Classification of Phonotraumatic and Non-Phonotraumatic Vocal Hyperfunction

Ambulatory neck-surface acceleration enables non-invasive monitoring of vocal hyperfunction, yet robust biomarkers for its subtypes remain…

13:00 JST研究/論文

Single-Cell Cross-Modal Transfer by Adversarial Fine-Tuning of Foundation Models

Spatial transcriptomics (ST) is a powerful tool for exploring biological properties dependent on structure, proximity, and interaction in t…

13:00 JST研究/論文

DOG-DPO:Dynamic Optimization in Geometry for Safety Alignment

Safety alignment for large language models relies on preference data, but current pipelines often train on large, redundant datasets. Exist…

13:00 JSTLLM/生成AI

Systematic LLM Translation of Legacy Scientific Code to Differentiable Frameworks: Application to a Land Surface Model

Differentiable programming offers transformative capabilities for scientific modeling, enabling gradient-based parameter estimation, sensit…

13:00 JSTエージェント

SWE-Marathon: Can Agents Autonomously Complete Ultra-Long-Horizon Software Work?

AI agents are increasingly expected to complete long-horizon workflows that require sustained progress over hours, millions of tokens, and…

13:00 JSTLLM/生成AI

Semantic Cache Distillation: Efficient State Transfer via Reuse and Selective Patching

Disaggregated serving alleviates memory bottlenecks in Large Language Model (LLM) inference but creates a severe communication bottleneck:…

13:00 JST研究/論文

Test-Time Adaptive Composition for Machine Learning as a Service (MLaaS) in IoT Environments

The dynamic nature of Internet of Things (IoT) environments affects the long-term effectiveness of Machine Learning as a Service (MLaaS) co…

13:00 JST研究/論文

Knowledge-Inclusive Adaptive Physics-Informed Neural Network for Microbial Interaction Modelling

Physics-Informed Neural Network (PINN) is a way of including knowledge in the form of equations in Machine Learning methods. Beyond equatio…

13:00 JST画像/動画生成

What Makes Video World Model Latents Action-Relevant: Prediction over Reconstruction

Video world models are increasingly used to provide predictive visual representations, yet it remains unclear which pretraining signals ind…

13:00 JSTLLM/生成AI

TRACER: Token ReAssignment for Concept ERasure in Generative Recommendation

Generative recommendation formulates next-item prediction as autoregressive generation over semantic ID (SID) sequences derived from users'…

13:00 JST研究/論文

HARP: Efficient Data Selection for Finetuning Large Language Models

Finetuning data selection requires balancing two competing goals: selecting examples that improve the downstream objective, and doing so wi…

13:00 JST研究/論文

BCG-FM: A Foundation Model for Ambient Cardiac Health Sensing

Foundation models for wearable biosignals have matched or exceeded supervised specialists across a range of clinical tasks, yet all rely on…

13:00 JST研究/論文

DSFNet: Learning Dual-Domain Spectral Operators for Multi-Modality Spatio-Temporal Forecasting in Urban Transportation Systems

Multi-Modality Spatio-Temporal Forecasting (MoSTF) extends traditional spatio-temporal forecasting by incorporating diverse traffic modalit…

13:00 JSTLLM/生成AIAnthropic

Adversarial Robustness of Activation Steering in Large Language Models

Activation steering has become a popular training-free method to control LLM behavior by injecting precomputed direction vectors into the m…

13:00 JSTエージェント研究/論文

TianJi-Environ: An Autonomous AI Scientist for Atmospheric Environmental Research

As atmospheric environmental prediction continues to improve, interpretable validation of pollution mechanisms and feedback processes has b…

13:00 JST研究/論文

Pharmacogenomic Knowledge Graph Augmentation for Graph Neural Network-Based Drug-Drug Interaction Prediction

Graph neural networks (GNNs) applied to drug-drug interaction (DDI) prediction rely exclusively on molecular structure encoded as SMILES-de…

13:00 JSTハードウェア/半導体

EssentialGIN: a new approach for gene essentiality prediction based on graph isomorphism neural networks

Background: Prediction of essential genes (proteins), is a basic and challenging problem but at the same time very costly and time-consumin…

13:00 JST研究/論文

EvoCSFL: Surrogate-Assisted Evolutionary Client Selection for Efficient and Robust Federated Learning

The heterogeneity of client data and systems makes it difficult to achieve satisfactory convergence speed and robustness in federated learn…

13:00 JSTLLM/生成AIQwen

How Much Dense Attention is Necessary? Oracle-Guided Sparse Prefill for Full/GQA Layers in Hybrid Long-Context Models

Long-context prefill remains expensive because full/GQA layers still score the historical sequence, even in hybrid models with local, spars…

13:00 JSTLLM/生成AIClaude

FunctionEvolve: Structure-Guided Symbolic Regression with LLMs

Symbolic regression aims to uncover explicit scientific laws from data. Recent methods use LLMs to guide mutation from background text, whi…

13:00 JST研究/論文

SAW: Stage-Aware Dynamic Weighting for Multi-Objective Reinforcement Learning in Large Language Models

Although multi-objective reinforcement learning (MORL) is central to aligning large language models with complex human preferences, the pre…

13:00 JST研究/論文Gemma

MLingualFC: Evaluating Jailbreak Vulnerabilities in Multilingual Vision-Language Models

Vision-Language Models (VLMs) have demonstrated strong performance across multimodal tasks, yet their safety robustness remains an open cha…

13:00 JST画像/動画生成ロボティクス研究/論文

Cross-View Urban Traffic Dataset: Drone-Supervised Ground Truth for Monocular Bird's-Eye View Localization

We introduce a dataset and benchmark for cross-view urban traffic perception built from synchronized ego-centric bicycle videos and aerial…

13:00 JSTLLM/生成AIエージェント

WhiFlash: Accelerating Speculative Decoding with Token-Level Cross-Paradigm Routing

The autoregressive nature of large language models (LLMs) remains a significant bottleneck for inference, particularly in complex agentic w…

13:00 JSTLLM/生成AIエージェントClaudeGPT / ChatGPT

Rosetta Memory: Adaptive Memory for Cross-LLM Agents

Memory is the key component for transforming a stateless LLM into a persistent, evolving agent through experience accumulation, long-horizo…

13:00 JST研究/論文

MatMind: A Structure-Activity Knowledge-Driven Generative Foundation Model for Materials Science

Progress in AI-driven crystal materials science has so far been carried by narrow architectures purpose-built for individual tasks -- graph…

13:00 JST研究/論文

Attention at the Theoretical Minimum: A Mathematics of Arrays Framework for Memory-Optimal Transformer Kernels

The attention mechanism is the dominant computational bottleneck in modern transformer-based AI. Its standard implementation incurs quadrat…

13:00 JST研究/論文

Beyond Accuracy: Interpreting Topic Representation in Suicide Ideation Detection Models

Suicide ideation detection models are typically evaluated using aggregate performance metrics, yet little is known about how they internall…

13:00 JST研究/論文

SHIELD-IDS: Structurally Heterogeneous Ensemble with Integrated Layered Defense for Intrusion Detection Systems

Adversarial attacks pose a serious and growing threat to Machine Learning (ML)-based Intrusion Detection Systems (IDS), where imperceptible…

13:00 JST画像/動画生成

Multi-planar 2D-U-Net Segmentation of 3D-CT Abdominal Organs augmented by Spatial Occurrence Maps

This work proposes a lightweight 2D-U-Net-based framework for segmenting five abdominal organs in large field-of-view 3D CT scans. The meth…

13:00 JST画像/動画生成

Quantum-Enhanced Similarity Measures for Polarimetric Materials Classification

We present a quantum--classical hybrid pipeline for polarimetric material classification that casts this as a point-matching problem. Voxel…

13:00 JST研究/論文

Beyond Point Estimates: Benchmarking Uncertainty Quantification Methods on the AION-1 Astronomical Foundation Model

Foundation models for astronomical surveys offer powerful learned representations that can be transferred to downstream regression tasks su…

13:00 JST研究/論文

Memetic Capture: A Pluralistic Policy Framework for Governing AI-Driven Cultural Disempowerment

Culture is the most insidious vector of gradual human disempowerment by AI: unlike economic or political displacement, cultural displacemen…

13:00 JSTLLM/生成AIハードウェア/半導体

SLMJury: Can Small Language Models Judge as Well as Large Ones?

Large language models (LLMs) are widely used as judges for evaluating model outputs, but their high cost, latency, and opacity limit scalab…

13:00 JSTLLM/生成AI

The ACUTE Protocol: Operationalizing Language Model Activations for Better Calibration, Utility, and Trust

As language models improve and become increasingly deployed to solve a variety of tasks, trustworthiness becomes essential. Calibration is…

13:00 JST研究/論文

Jas: AI-Paired Engineering as a Revival of N-Version Programming

I report a case study in AI-paired software engineering: five working ports of a vector illustration application across Rust, Swift, OCaml,…

13:00 JSTLLM/生成AIビジネス/資金調達GPT / ChatGPTLlama

Beyond Pass/Fail: Using Process Mining to Understand How LLMs Resist (and Fail) Red Team Attacks

Standard AI red teaming evaluations reduce adversarial campaigns to a single binary outcome, attack success rate (ASR), not taking into acc…

13:00 JSTLLM/生成AI

Cherry-pick Override: Unsafe Directional Commitment in LLM Judges under Mixed Evidence

LLM judges increasingly turn verdicts into system commitments. Under mixed evidence (claims with both supporting and refuting sources) this…

13:00 JSTエージェント

Agentic multi-fidelity learning of quasiparticle and excitonic properties

Many-body GW-Bethe-Salpeter equation calculations are essential for accurate simulations of electronic structure and optical properties in…

13:00 JSTLLM/生成AIエージェント

Does Persona Make LLMs K-pop Fans? A Pilot Study of LLM-Based Online Concert Audience Agents

A concert is a collective experience, but recorded performance videos are typically watched alone, stripping away the shared audience prese…

13:00 JSTLLM/生成AIエージェント

Cost-Aware Speculative Execution for LLM-Agent Workflows: An Integrated Five-Dimension Method

LLM-agent workflows chain model calls and tool invocations, and spend most of their wall-clock time waiting on upstream operations before d…

13:00 JSTLLM/生成AIビジネス/資金調達研究/論文DeepSeek

Beyond English benchmarks: clinical llm evaluation in Brazilian Portuguese

Large Language Models are transforming the support for clinical decision and their application in real scenarios. Yet, most benchmarks are…

13:00 JST研究/論文

Model Multiplicity for Adversarial Detection in Small Language Model Training on Edge Devices

The rise of edge-based machine learning has enabled distributed adaptation of language models across mobile and IoT devices, offering priva…

13:00 JST画像/動画生成

The Last Visible Pixel: Probing Fine-Scale Perception in Vision-Language Models

Recent vision-language models (VLMs) excel at multimodal understanding and reasoning, yet their fine-grained visual perception remains unde…

13:00 JST研究/論文

Instrumented data for causal scientific machine learning

Scientific machine learning is limited less by model size than by the data it is trained on. Observational data records what happened but n…

13:00 JST画像/動画生成

The Cross-Architecture Substrate: A Domain-Transcendent, Calibration-Surviving Geometric Invariant of Modern Vision Encoders

Different vision neural networks -- trained to classify, contrast, reconstruct, or match images to text -- should have correspondingly diff…

13:00 JSTLLM/生成AIエージェントClaudeGemmaQwen

Strained Coherence: A Pre-Failure Signal in Coding Agent Execution Trajectories

LLM-based coding agents sometimes acknowledge a problem in their own reasoning and then proceed anyway. We call this pattern strained coher…

13:00 JST画像/動画生成

3D Oral Modelling with Improved Vertex Distribution Using Matching-Based Learning

In our previous work, a deep learning-based framework for 3D intraoral reconstruction was proposed. The model directly predicts explicit 3D…

13:00 JSTLLM/生成AI

Larch: Learned Query Optimization for Semantic Predicates

With the advent of Large Language Models (LLMs), many database systems introduced semantic operators that enabled analytical queries over u…

13:00 JSTLLM/生成AI画像/動画生成研究/論文

Decoupling Semantics and Logic: A Training-Free Coarse-to-Fine Pipeline for Video Retrieval-Augmented Generation

This paper presents our system description for the 2nd Workshop on Multimodal Augmented Generation via MultimodAl Retrieval (MAGMaR). Addre…

13:00 JSTLLM/生成AIビジネス/資金調達

Illusions of the Gold Standard: A Large-scale Analysis of Human Evaluation Protocols for Long-form Text Generation

Human evaluation plays a critical role in assessing the quality of generated text. However, the reliability and reproducibility of these ev…

13:00 JSTLLM/生成AIエージェントGPT / ChatGPT

POISE: Position-Aware Undetectable Skill Injection on LLM Agents

Agent skills provide a lightweight mechanism for extending general-purpose agents, but their open format exposes them to skill-poisoning at…

13:00 JSTLLM/生成AIClaude

From `May' to `Is': Certainty Distortion in Language Model Rewriting

Humans increasingly turn to Language Models (LMs) in ways that shape beliefs and drive decisions, including discussing, rewriting, and summ…

13:00 JSTLLM/生成AILlama

Minibatch Selection via Partition Matroid Constrained Gradient Matching

Training large language models (LLMs) on heterogeneous data requires selecting minibatches that balance convergence speed with coverage acr…

13:00 JST研究/論文Qwen

RecurGuard: Runtime Monitoring for Reasoning-Token Consumption Attacks

Reasoning-capable large language models can be induced to spend their generation budget on injected decoy tasks rather than answering the u…

13:00 JSTLLM/生成AI

Neutrality Bites: Gender Representation in AI-Generated Animal Stories

Gender bias in AI-generated stories is a well-documented problem. While much attention has been paid to reducing or mitigating this bias, i…

13:00 JSTLLM/生成AI

Defending Against Malicious Finetuning by Scaling Train-time Adversarial Attacks

Current open-weight large language models (LLMs) are prone to malicious finetuning attacks, which could compromise the safety alignment of…

13:00 JSTロボティクス

PRISM: PRior-guided Imagination Sampling in world Models

A learned world model provides a powerful physical intuition for evaluating future states. But its effectiveness in continuous control also…

13:00 JSTLLM/生成AI

MC-PDD: Masked Corpus-Level Pretraining Data Detection for Black-Box Large Language Models

Pretraining is fundamental to the development of Large Language Models (LLMs), yet the opacity of pretraining data complicates model analys…

13:00 JSTLLM/生成AIビジネス/資金調達

Enhancing AI Interpretability and Safety through Localised Architectures

Recent advances in generative AI, especially powerful Large Language Models (LLMs) and Large Reasoning Models (LRMs), raise concerns over t…

13:00 JSTLLM/生成AI

Summarization is Not Dead Yet

The progress of large language models (LLMs) has fueled claims that model-generated summaries rival or even surpass human-written reference…

13:00 JSTLLM/生成AI

Rewrite to Translate, Translate to Reward: Reinforcement Learning for Source Rewriting in Machine Translation

Although directly prompting off-the-shelf Large Language Models (LLMs) to generate meaning-preserving source rewrites can effectively enhan…

13:00 JST画像/動画生成

GVC-Seg: Training-Free 3D Instance Segmentation via Geometric Visual Correspondence

Accurate 3D instance segmentation in point cloud data is critical for machine vision applications. Recent advancements leverage multiple pr…

13:00 JSTLLM/生成AI画像/動画生成エージェント

IEA: Amateur-Friendly Conversational Image Editing Agent via Three Stages of Multitask Alignment

Current image editing software often hinges on fixed filters or expert tuning, leaving a gap between amateur users' intent and outcomes. Cr…

13:00 JST研究/論文

Repair Before Veto, When Repair Is Hidden: Quantum-Accessible Features for Repair-Augmented Constraint Learning

Hard-constraint decision systems usually veto infeasible candidates. This is too rigid when the system can act: if a known affordable repai…

13:00 JSTLLM/生成AIエージェント

Semantic Quorum Assurance: Collective Certification for Non-Deterministic AI Infrastructure

As large language model (LLM) agents are integrated into autonomous cloud operations, distributed systems face a semantic reliability probl…

13:00 JST研究/論文

CausShield: Sample Reconstruction-Resilient Vertical FL via Causal Representation Learning

Vertical federated learning (VFL) is a distributed learning paradigm that leverages vertically partitioned features across isolated parties…

13:00 JSTエージェント

Voting Protocols as Coordination Mechanisms for Role-Constrained Multi-Agent Tutoring Systems

Agentic tutoring systems introduce a coordination challenge: multiple agents may propose different but reasonable interventions, yet only o…

13:00 JSTLLM/生成AI画像/動画生成研究/論文

Sci-Rho: A Multilingual Visually-Grounded Symbolic Benchmark for STEM Problems

Symbolic benchmarks have emerged as a key approach to assess model robustness under minor modifications to STEM-related questions. However,…

13:00 JSTLLM/生成AI研究/論文ClaudeGPT / ChatGPTGemini

GIScholarBench: Benchmarking LLM Overconfidence in GIS Research

Large language models (LLMs) are increasingly used in academic research workflows, but scholarly tasks require high factual precision and t…

13:00 JST研究/論文

SafeECGMatch: Calibration-Aware Joint Frequency and Time Space Semi-Supervised Learning for Open-Set ECG Classification

Electrocardiogram (ECG) classification models often suffer from severe label scarcity, making semi-supervised learning (SSL) an attractive…

13:00 JSTLLM/生成AIビジネス/資金調達

When Behavioral Safety Evaluation Fails: A Representation-Level Perspective

Large Language Model (LLM) safety has often been evaluated at the behavior level, which provides limited evidence of internal robustness, a…

13:00 JSTLLM/生成AI

What's the Point? Spatial Grammar & Index Resolution for Sign Language Processing

Sign language models are predominantly trained with gloss-sequence or text supervision, thereby under-modeling non-lexical and productive c…

13:00 JSTロボティクス

EgoAERO: Learning Dexterous Manipulation from a Single Egocentric Video without Object Assets

Egocentric RGB-D videos offer a natural source of human dexterous manipulation demonstrations, but existing data is difficult to use for ro…

13:00 JSTLLM/生成AI画像/動画生成

Robust-U1: Can MLLMs Self-Recover Corrupted Visual Content for Robust Understanding?

Multimodal Large Language Models (MLLMs) have demonstrated remarkable success in visual understanding, yet their performance degrades signi…

13:00 JSTLLM/生成AI

"I understand your perspective": LLM Persuasion and Sycophancy through the Lens of Communicative Action Theory

Large Language Models (LLMs) can generate high-quality arguments, yet their ability to engage in nuanced and persuasive communicative actio…

13:00 JSTLLM/生成AIエージェント

Aligned but Not Partner-Specific: Distinguishing How Multimodal LLM Agents Succeed in Reference Games Without Human-Like Conventions

Repeated reference games test whether interlocutors replace their initially long descriptions with shorter, partner-specific conventions gr…

13:00 JSTLLM/生成AI

Fast LLM-Based Semantic Filtering: From a Unified Framework to an Adaptive Two-Phase Method

Evaluating a natural-language yes/no predicate over a document corpus under an accuracy target - the semantic filter - is a cornerstone of…

13:00 JSTロボティクスハードウェア/半導体Llama

vla.cpp: A Unified Inference Runtime for Vision-Language-Action Models

Vision-Language-Action (VLA) policies are typically shipped as Python/PyTorch stacks that assume a workstation-class GPU, a mismatch for th…

13:00 JSTロボティクス

Continual Quadruped Robots Coordination via Semantic Skill Discovery

Multi-quadruped coordination has attracted increasing attention due to its enhanced payload capacity, broader contact coverage, and improve…

13:00 JSTロボティクス研究/論文

Ego-Pi: VLA Fine-Tuning for Ego-Centric Human and Robot Data

Robotics faces a fundamental challenge of data scarcity. Unlike language or vision research, there is no internet-scale dataset for robotic…

13:00 JST画像/動画生成研究/論文

Human-Centered Benchmarking of Driver Monitoring Models

Vision-based driver monitoring systems are increasingly deployed in safety-critical intelligent transportation settings, yet they are almos…

13:00 JST研究/論文

LCAM: A Framework for Diagnosing Interactional Alignment Failures in Con-versational AI

Conversational AI is increasingly used for advice, interpretation, reassurance, and decision support in contexts where users may be vulnera…

13:00 JSTLLM/生成AIGPT / ChatGPT

LogNEO: A GPT-Neo Reinforcement Learning Framework for Accurate Real-Time Log Anomaly Detection

Detecting anomalies in large-scale system logs is critical for the reliability and security of modern computing infrastructure. We present…

13:00 JST画像/動画生成

RAPID: Layer-Wise Redundancy-Aware Pruning and Importance-Driven Token Merging for Efficient ViT

Vision Transformers (ViTs) achieve strong performance but suffer from high computational costs due to quadratic self-attention complexity.…

13:00 JSTLLM/生成AI

Constrained Paraphrase Consistency for LLM Hallucination Detection

Large language models (LLMs) can generate factually inconsistent claims, motivating accurate and scalable hallucination detectors. Prior wo…

13:00 JST研究/論文

Explaining Data Mixing Scaling Laws

Recent research has established empirical scaling laws to predict model performance on multi-domain data mixtures. However, a theoretical u…

13:00 JSTエージェントビジネス/資金調達ClaudeMicrosoft

Closing the Sim-to-Real Gap: An Evaluation Framework for Autonomous Cyber Defense Configuration of Commercial EDR

Leading commercial endpoint detection and response (EDR) products have shifted from operator-configured rule sets to multi-component system…

13:00 JSTLLM/生成AIロボティクス

CLASP: Language-Driven Robot Skill Selection and Composition using Task-Parameterized Learning

Enabling robots to understand and execute tasks from natural language commands while maintaining data efficiency remains challenging. Found…

13:00 JSTLLM/生成AI

The Governance of Human-LLM Interaction: Safety Gating, Civility Steering, and Affective Default Lock-In

Large language models (LLMs) increasingly mediate high-stakes interactions in finance, medicine, and mental-health support, yet users have…

13:00 JST研究/論文

Frequency-Domain Latent Attention Gating for Cross-Domain Token Aggregation

Token aggregation is a common bottleneck in models that map token representations to sample-level predictions, yet most pooling methods ope…

13:00 JSTLLM/生成AIビジネス/資金調達研究/論文

GlobeAudio: A Multilingual Multicultural Benchmark for Naturalistic Evaluation of Large Audio-Language Models

Large Audio-Language Models (LALMs) integrate audio perception and language understanding within a unified framework, enabling a wide range…

13:00 JST研究/論文

Beyond Additivity: Causal Discovery in Location-Scale Noise Models with Hidden Variables

We study causal discovery from observational data when some variables are hidden and the data-generating process follows a location-scale n…

13:00 JST研究/論文

How Deep Are Deep GPs, Really? A Sharp Threshold and a Non-Gaussian Limit for Compositional GPs

Compositional priors describe the generic properties of layered functions in deep Bayesian models, where deep neural networks with random w…

13:00 JSTLLM/生成AI

AeroSpectra Sentinel: An Auditable LLM Prompt-Chaining Decision-Support Workflow for Acute Asthma Risk Assessment from Respiratory Sounds and Clinical Signals

Acute asthma risk assessment requires rapid interpretation of respiratory sounds, oxygenation, airflow limitation, speech ability, work of…

13:00 JST研究/論文

Contemporary AI lacks the imagination to diverge or negate in science

Bold projections that artificial intelligence will accelerate scientific discovery have raced ahead of evidence from working scientists, an…

13:00 JST研究/論文

Post-AGI Economies: Superposition and the Second Fundamental Theorem of Welfare Economics

The classical Second Welfare Theorem decentralizes any Pareto efficient allocation through prices and transfers under convexity and regular…

13:00 JSTエージェント

An AI Security Agent for University ACMIS: Multi-Vector Threat Detection and Automated Response

University Academic Management Information Systems (ACMIS) are high-value targets for a wide spectrum of security threats including brute-f…

13:00 JSTLLM/生成AIGoogle

AgriGov: A Structured Multilingual Dataset Curation for Indian Government Schemes for Farmers

AgriGov is a curated, trilingual (English-Hindi-Marathi) dataset designed to address the scarcity of domain-grounded multilingual resources…

13:00 JSTLLM/生成AIエージェント

Causal Agent Replay: Counterfactual Attribution for LLM-Agent Failures

When an LLM agent fails -- issues a refund it should not have, calls the wrong tool, leaks data -- existing tooling answers what happened (…

13:00 JSTLLM/生成AIエージェント

"So There's a Catch-22 Here": How Early Adopters Who Build Multi-Agent LLM Systems Conceptualize Transparency

Multi-agent large language model (LLM) systems are rapidly emerging, yet transparency, a cornerstone of responsible AI, remains under-defin…

13:00 JST画像/動画生成

Set-Based Transformer for Atmospheric Compensation in Standoff LWIR Hyperspectral Imaging

Passive long-wave infrared (LWIR) hyperspectral imaging under a standoff geometry depends on atmospheric absorption and emission, as well a…

13:00 JSTLLM/生成AI

Chiaroscuro Attention: Spending Compute in the Dark

Standard transformers apply self-attention uniformly at every layer and token, regardless of whether the input requires dynamic cross-token…

13:00 JST研究/論文

Generative Frontier Planning for Adaptive Peer-Referral Recruitment under Covariate-Dependent Arrivals

Peer-referral recruitment systems such as respondent-driven sampling are critical for studying and intervening on hidden populations affect…

13:00 JST画像/動画生成

Self-Supervised Vision Transformers for CBCT-Based Detection of Temporomandibular Joint Osteoarthritis

Temporomandibular joint osteoarthritis (TMJ OA) is a prevalent degenerative condition whose osseous changes are often subtle on cone-beam C…

13:00 JST研究/論文GPT / ChatGPTGemmaLlama

Pre-Intervention Prediction of Sparse Autoencoder Steering Side Effects

Sparse autoencoder (SAE) features are increasingly used to steer language models, but feature steering is rarely clean: the same interventi…

13:00 JSTLLM/生成AIエージェントビジネス/資金調達ClaudeGPT / ChatGPTGeminiGrok

Emergence World: A Platform for Evaluating Long-Horizon Multi-Agent Autonomy

Most evaluations of LLM agents look like exams: a discrete task, a clean environment, a score in minutes or hours. We argue that this appro…

13:00 JST研究/論文

An Information-Theoretic Definition for Open-Ended Learning

A growing body of work points to the great promise of AI systems that can continually expand their capabilities as they operate in an open-…

13:00 JST研究/論文

RiskNet: A large-scale dataset of AI risk incidents from news with alignment and multi-dimensional annotations

As artificial intelligence (AI) systems are increasingly deployed across socially consequential domains, reports of AI-related harms and fa…

13:00 JSTLLM/生成AI

Auditing Proprietary Alignment in Large Language Models: A Comparative Framework Without a Ground-Truth Standard

Large language models (LLMs) are increasingly released and deployed through opaque development and deployment pipelines, enabling model pro…

13:00 JST研究/論文

STAR-KV: Low-Rank KV Cache Compression via Soft Thresholding for Adaptive Rank Control

Low-rank projection has emerged as a promising approach for compressing the KV cache by exploiting hidden-dimension redundancy. However, pr…

13:00 JSTLLM/生成AI研究/論文GPT / ChatGPTGrok

Impacts of Histories and Models on LLM Grading: A Study in Advanced Software Engineering Courses

Graduate-level research reading report assessment creates a substantial labor burden for educators. While large language models (LLMs) hold…

13:00 JST画像/動画生成エージェント

SceneConductor: 3D Scene Generation from Single Image with Multi-Agent Orchestration

Generating complete 3D scenes from a single image requires inferring globally consistent geometry, object relationships, and environmental…

13:00 JSTLLM/生成AI

Hiding in Plain Floats: Steganographic Carriers for Indirect Prompt and Content Injection

Text-centered prompt-injection defenses assume that the malicious signal is visible in one of the inspected text views. We study a reproduc…

13:00 JSTLLM/生成AI

TimpaTeks: Automatic In-place Text Sequence Modification via Diffusion Language Model Steering

We extend activation steering to diffusion language models (DLMs) and study a novel problem that arose due to the inference mechanism of DL…

13:00 JST研究/論文

Provably Efficient Personalized Multi-Objective Bandits with Proactive Conversational Queries

Personalized decision-making in multi-objective bandits requires learning user-specific trade-offs among competing objectives. Since arm ut…

13:00 JSTロボティクス

PACT: Self-Evolving Physical Safety Alignment for Diffusion Policies in Embodied Manipulation

Diffusion policies have achieved remarkable success in robotic manipulation, yet they often fail to satisfy strict physical constraints req…

13:00 JST画像/動画生成

CoVEBench: Can Video Editing Models Handle Complex Instructions?

While recent text-guided video editing models excel at elementary tasks (e.g., style transfer, object insertion), real-world user requests…

13:00 JSTLLM/生成AIビジネス/資金調達

Hacking Generative Perplexity: Why Unconditional Text Evaluation Needs Distributional Metrics

Diffusion and continuous flow-based language models have emerged as the leading non-autoregressive alternatives to language modeling. Progr…

13:00 JST研究/論文

AI Code Sandboxes: A Comparative Security Study. Part 1 of 2 -- Engine-Level Properties (Attack Surface, Leakage, Stackability, CVE History, Patch Cadence, Fuzzing)

This paper reads six engine-level measurements together -- 1.1 host attack surface, 1.2 information leakage, 1.3 defense-in-depth stackabil…

13:00 JSTLLM/生成AI

Segment-level Tree Search for Long Meeting Document Summarization

Meeting documents are challenging to summarize due to their length and complex conversational structure. Existing approaches typically adop…

13:00 JST研究/論文

Sparrow: Sparse Rollout for Stable and Efficient Long-context RL of Large Language Models

Despite being powerful, reinforcement learning with verifiable rewards (RLVR) induces extremely long COT, making it computationally expensi…

13:00 JST研究/論文

Not Just After One: Sleep-Inspired Replay Prevents Catastrophic Forgetting After Sequential Tasks

One of the critical limitations of artificial neural networks is their lack of ability to continually learn: training on new tasks often le…

13:00 JSTLLM/生成AI

Sycophancy as a Multilingual Alignment Failure: How Safety Degrades Across Languages, Topics, and Models

Safety-aligned large language models often exhibit sycophancy, which is the tendency to affirm users' opinions regardless of factual accura…

13:00 JST研究/論文

The Confidence Trap: Calibration Attacks for Graph Neural Networks

While confidence calibration is essential for trustworthy decision-making in safety-critical applications, the robustness of calibrated GNN…

13:00 JSTLLM/生成AI

More Yap Less Meaning: Uncovering Self-Improvement Behavior in SLMs

Recently, language models have made rapid progress across various domains and applications. However, their capability for self-improvement,…

13:00 JSTLLM/生成AI

FlashCP: Load-Balanced Communication-Efficient Context Parallelism for LLM Training

Context parallelism (CP) is essential for training large-scale, long-context language models, as it partitions sequences to reduce memory o…

13:00 JST研究/論文

Adaptive Loss Balancing for Noise-Robust GRPO in Generative Recommendation

Reinforcement learning (RL) presents a promising avenue for enhancing generative recommendation beyond supervised imitation, leveraging rew…

13:00 JST研究/論文

PIPE-Cypher: Automatic Enterprise Benchmark Generation for Text-to-Cypher Systems

Enterprise property graphs vary widely in schema structure, internal terminology, domain assumptions, governance constraints, and user inte…

13:00 JST研究/論文

STELLAR: Spatio-Temporal Environmental Learning with Latent Alignment and Refinement for Long-Tailed Species Distribution Modeling

Joint Species Distribution Modeling (JSDM) is a key enabler for biodiversity monitoring and conservation planning. However, accurate JSDM f…

13:00 JSTLLM/生成AI画像/動画生成

Seeing is Believing: Aligning Prompt Rewriting with Visual Anchors for Text-to-Image Generation

Despite the impressive capabilities of text-to-image (T2I) models, an intent-generation gap often persists due to the brevity and ambiguity…

13:00 JSTエージェント

Projecting the Emerging Mindset of SWE Agent by Launching a Wild Code Understanding Journey

Software engineering agents (SWE agents) increasingly work through tool-mediated trajectories in real repositories, yet their behavior rema…

13:00 JSTロボティクス

ActProbe: Action-Space Probe for Early Failure Detection of Generative Robot Policies

Generative robot policies fail unpredictably at deployment: they hesitate at critical moments, drift off-task, or commit to unrecoverable a…

13:00 JSTロボティクス研究/論文

GEAR-VLA: Learning Geometry-Aware Action Representations for Generalizable Robotic Manipulation

Vision-Language-Action (VLA) models achieve strong benchmark performance but still struggle in real-world deployment with unseen objects, b…

13:00 JST画像/動画生成ロボティクス

When Video Misreads: Closed-Loop Distillation of Reading Heuristics for Exploratory Manipulation Trace QA

Exploratory manipulation often turns an apparent failed attempt into the key evidence for what to do next. For example, a robot pulls a loc…

13:00 JSTLLM/生成AI

EinSort: Sorting is All We Need for Tensorizing LLM

Tensor networks provide efficient representations for compressing large neural networks. By carefully designing shapes and topologies, they…

13:00 JSTLLM/生成AI

Calibration of Structured Ignorance Certificates for Diagnosing Unknown Unknowns in Reasoning Models

Large language models frequently fail in a characteristic way: rather than acknowledging ignorance, they produce fluent but incorrect answe…

13:00 JST研究/論文Qwen

Auditable Graph-Guided Root Cause Analysis for Kubernetes Incidents

Kubernetes incidents are diagnosed reliably only when a root-cause system's reported gains come from incident evidence rather than scenario…

13:00 JST研究/論文

Reinforcement Learning for Flow-Matching Policies with Density Transport

We present an online reinforcement learning (RL) algorithm for fine-tuning flow-matching policies in continuous-control problems. Our key i…

13:00 JSTエージェントロボティクス

HARBOR: A Harness Framework for Agentic Robot Reinforcement Learning

Reinforcement learning (RL) has become a powerful paradigm for robot learning, particularly in sim-to-real settings, but its broader adopti…

13:00 JST研究/論文

Tyan-WP: A Wind Power Foundation Model for Ultra-Short-Term Probabilistic Forecasting

Global wind power capacity, especially in China, is booming, with new farms spanning diverse terrains and climates. The industry urgently n…

13:00 JSTLLM/生成AIGemmaLlama

A retrieval conditioned rebinding circuit for dynamic entity tracking in large language models

To interpret context correctly and retrieve relevant information, large language models must bind entities to their attributes and update t…

13:00 JSTLLM/生成AI

Sample-Efficient LLM-Based Detection of Malicious Web Server Logs with Forensically Explainable Reasoning

Forensic analysis of web server logs demands both accurate detection and human-readable explanations that can satisfy legal requirements. W…

13:00 JST画像/動画生成

Reconstructing Synthetic SDO/AIA 193 A EUV Images from He I 10830 A Observations with Diffusion Model Translator

Routine full-disk EUV imaging has been available only since the modern era, such as SOHO and SDO. To extend EUV coronal context into earlie…

13:00 JST画像/動画生成ロボティクス

FiberTune: Preserving Action-Fiber Visual Residuals in Vision-Language-Action Fine-Tuning

Action-supervised fine-tuning of vision-language-action (VLA) policies fits demonstrations effectively but constrains only the directions t…

13:00 JSTロボティクス

Latent Diffusion Policy: Shaping Latent Spaces for Diffusion-Based Robotic Manipulation

Diffusion-based visuomotor policies operating directly in raw action spaces conflate scene comprehension with trajectory generation within…

13:00 JSTLLM/生成AIエージェント

Data Agents Under Attack: Vulnerabilities in LLM-Driven Analytical Systems

Data agents integrate LLM-driven reasoning with relational data access, executable analytical tools, and multi-step workflow orchestration,…

13:00 JSTLLM/生成AI画像/動画生成

BioVid: Autoregressive Video Generation with Biological Behavior Semantic Comprehension

Existing video generation frameworks treat sequence duration as an externally prescribed parameter -- fixed frame counts or text prompts --…

13:00 JSTLLM/生成AI

Lost in the Flow with Code Talkers: Unveiling the Instruction-Tuning Tax of Large Language Models in Code Tasks

AI coding assistants have significantly improved developer productivity by automatically suggesting code that aligns with user intent, and…

13:00 JSTLLM/生成AIビジネス/資金調達Qwen

Activation Steering Induces Emergent Misalignment: A More Comprehensive Evaluation

Activation steering has emerged as a popular inference-time technique for modulating the behavior of large language models (LLMs). By const…

13:00 JSTLLM/生成AIエージェント

Agentic Search for Counterfactual Recourse under Fixed LLM Budgets

Counterfactual recourse aims to provide actionable feature changes that would alter an unfavorable decision made by a predictive model. In…

13:00 JSTエージェント

Structuring agentic AI for HPC code modernization

Modernization of legacy scientific codes is often necessary to keep up with the ever-evolving changes in the compute resource ecosystem. Pa…

13:00 JST画像/動画生成

SNR-ST-Mix: Sample-specific Neighborhood Regression Mixup for Augmented Spatial Transcriptomics Imputation with Deep Neural Network

Purpose: Spatial transcriptomics (ST) enables gene expression measurements within the tissue context. However, these measurements are often…

13:00 JSTロボティクス

Hybrid Neural Network and Conventional Controller Approach for Robust Control of Highly Unstable Systems: Application to Tilt-Rotor Control

Multirotors are widely used in applications ranging from surveillance to precision agriculture, yet conventional designs remain limited by…

13:00 JST研究/論文

Deep Active Re-Labeling: Toward Noise-Resilient Annotation Efficiency

While Deep Active Learning (DAL) effectively reduces human annotation costs, its efficacy is constrained by human annotation errors. This i…

13:00 JSTLLM/生成AILlama

APEX4: Efficient Pure W4A4 LLM Inference via Intra-SM Compute Rebalancing

W4A4 quantization promises full utilization of INT4 Tensor Cores, yet group dequantization overhead on CUDA Cores has driven existing syste…

13:00 JSTLLM/生成AIビジネス/資金調達

RadOT-Eval: Auditable Structured-Evidence Transport for Radiology Report Evaluation

Automatic evaluation is critical for high-stakes text generation, where errors often involve omitted findings, hallucinated content, polari…

13:00 JSTLLM/生成AI画像/動画生成ハードウェア/半導体

TeamHerald@CHIPSAL 2026: Hate Speech Detection and Sentiment Analysis of Nepali Memes using Transformer-based Architectures and Ensemble Learning

The analysis of internet memes in the Nepali language is complicated by frequent code-mixing and a lack of established baseline resources.…

13:00 JSTロボティクス

Unifying Object-Centric World Models and Diffusion Policy: A Hierarchical Framework for Multi-Stage Robotic Tasks

Visual world models have shown great potential in learning complex system dynamics. Recent advancements leverage these models as transition…

13:00 JST研究/論文

How Many Counterfactuals Does It Take? Probing VLM Hallucinations Through Circuits and Causal Effects

Visual Language Models (VLMs) are known to produce hallucinated predictions that are not grounded in visual evidence, yet existing approach…

13:00 JSTハードウェア/半導体ビジネス/資金調達

Evaluating AI Investment Strategies

We study the problem of auditing a black-box algorithmic decision-maker from observable inputs and outputs alone. Our main result is an exa…

13:00 JST研究/論文

AI-Augmented Closed-Loop Quality Engineering: A Reference Architecture for Continuous Software Quality Intelligence

The quality of software engineering is still under a challenge due to disjointed processes between requirements, testing, and production, w…

13:00 JST研究/論文

Scaling Decision-Focused Learning to Large Problems with Lagrangian Decomposition

Decision-focused learning has shown great promise for addressing predict-then-optimize problems, particularly in the presence of under-spec…

13:00 JSTLLM/生成AIエージェント

Governance Controls for AI-Generated Test Artifacts in Autonomous Software Testing

Artificial Intelligence (AI) and Large Language Models (LLMs) are increasingly used in autonomous software testing; however, AI-generated t…

13:00 JSTLLM/生成AI

Knowledge Graphs and Reasoning LLMs for Finding Simple Yet Effective Transcriptomic Perturbation Predictors

Predicting the effect of an unseen gene knockout perturbation on transcriptomic gene expression remains a highly challenging problem for vi…

13:00 JST画像/動画生成

BLM-SGAN: Bidirectional Language Modeling for Semantic-Spatial Text-to-Image Generation

Despite the success of image generation from text descriptions, it still faces challenges that are difficult to overcome in domains such as…

13:00 JSTLLM/生成AI

Intrinsic Selection and Particle Resampling for Inference-Time Scaling Beyond Domain Verifiability

Inference-Time Scaling (ITS) has largely succeeded in verifiable domains like math and coding, where cheap verification enables scalable ou…

13:00 JSTLLM/生成AI

sGPO: Trading Inference FLOPs for Training Efficiency in RLVR

Standard Reinforcement Learning with Verifiable Rewards (RLVR) training allocates a fixed rollout budget to every query, without regard for…

13:00 JST画像/動画生成

Intelligent Character Recognition of Handwritten Forms with Deep Neural Networks

The automatic processing of handwritten forms remains a challenging task, wherein detection and subsequent classification of handwritten ch…

13:00 JSTロボティクスビジネス/資金調達研究/論文

Benchmarking Vision-Language-Action Models on SO-101: Failure and Recovery Analysis

Vision-Language-Action (VLA) models have demonstrated strong generalization in robotic manipulation, yet existing evaluations are primarily…

13:00 JST研究/論文

Cheap Reward Hacking Detection

A small transformer encoder is trained to map Terminal-Wrench trajectories onto a unit sphere where embedding distance approximates the $L_…

13:00 JST画像/動画生成エージェントビジネス/資金調達

A multi-agent system for spine MRI report generation from multi-sequence imaging

Spinal pathology is a leading cause of pain and disability worldwide. Spine MRI is central to clinical evaluation, yet its interpretation r…

13:00 JST研究/論文

Few-shot Class-variable Incremental Audio Classification via Prototype Adaptation and Pseudo Class-variable Training

In the task of few-shot class-incremental audio classification, the number of classes is assumed to always increase without considering the…

13:00 JST画像/動画生成

Failure-Aware Refinement of Vision-Language Model for Lithography Defect Detection

Semiconductor lithography inspection requires reliable detection of small pattern defects such as bridge, burr, pinch, and contamination. I…

13:00 JST画像/動画生成

PolyBuild: An End-to-End Method for Polygonal Building Contour Extraction from High-Resolution Remote Sensing Images

Extracting building polygon contours from high-resolution remote sensing images is a fundamental task for various mapping applications. How…

13:00 JSTLLM/生成AIエージェント

From Statute to Control Flow: Span-Grounded Deontic Trees for Defeasible Scope Parsing

Rule-following agents tasked with executing policies and regulations often fail via Silent Scope Omission (SSO): a model applies a general…

13:00 JST研究/論文

PAI: Preserving Amplitude Information in Representation-Based Time-Series Anomaly Detection

Representation-based time-series anomaly detection algorithms significantly outperform other methods on diverse anomaly detection tasks. Ho…

13:00 JST研究/論文

Report on CHIIR 2026 Workshop on Generative AI and Academic Search (GAI&AS)

This report summarizes the CHIIR 2026 Workshop on Generative AI and Academic Search (GAI\&AS), which examined how GenAI is reshaping academ…

13:00 JSTLLM/生成AI

PACT: Learning Diverse Diagnostic Strategies via Privileged Synthesis and Branch Consensus

Clinical diagnosis requires flexible use of multiple reasoning paradigms under incomplete patient information. Existing LLM-based medical a…

13:00 JSTLLM/生成AI画像/動画生成ClaudeGPT / ChatGPTGemini

NutriMLLM: Multimodal Large Language Models for Dietary Micronutrient Analysis

Comprehensive estimation of dietary micronutrients from food images could improve clinical nutrition care, but training such models require…

13:00 JSTエージェント研究/論文ClaudeGemini

Hardening Agent Benchmarks with Adversarial Hacker-Fixer Loops

Agent benchmarks score submissions with outcome verifiers that are typically hand-written and brittle, leaving them open to reward hacking.…

13:00 JSTLLM/生成AIハードウェア/半導体

CARE: A Conformal Safety Layer for Medical Summarization

Large language models (LLMs) are increasingly used for medical summarization, but their outputs can omit medically important information an…

13:00 JST画像/動画生成エージェントロボティクス

SpaceVLN: A Zero-Shot Vision-and-Language Navigation Agent with Online Spatial Cognitive Memory and Reasoning

Vision-and-Language Navigation in continuous environments requires agents to understand the spatial structure of previously unseen environm…

13:00 JST研究/論文

Sustainability and Artificial Intelligence: Necessary, Challenging, and Promising Intersections

Both digital economy and digital technology researchers increasingly recognize the need to better address the role that artificial intellig…

13:00 JST研究/論文

Understanding Quantization-Aware Training: Gradients at Quantized Weights Bias to the Low-Loss Basin

Post-training quantization (PTQ) converts a trained full-precision model into low-bit weights without task-level retraining, while quantiza…

13:00 JST研究/論文

TLDR: Compressing Audio Tokens for Efficient Autoregressive Text-to-Speech

Codec-based autoregressive (AR) speech language models have achieved strong text-to-speech (TTS) quality by modeling speech as sequences of…

13:00 JSTLLM/生成AI

SafeRun: Enabling Determinism in LLM Planning for Running

Large Language Models enable flexible natural-language planning but remain unreliable in determinism-critical domains due to their probabil…

13:00 JST画像/動画生成ロボティクス

ATM: Action-Consistency Transfer Matrix for Diagnosing and Improving Latent World Models

Latent world models are increasingly used for control and goal-conditioned planning, yet assessing whether their learned representations ar…

13:00 JSTLLM/生成AI

TRIAGE: Dialectical Reasoning for Explainable Risk Prediction on Irregularly Sampled Medical Time Series with LLMs

Clinical early warning systems built on electronic health records, in which clinical observations are recorded as irregularly sampled medic…

13:00 JST研究/論文

BareWave: Waveform-Native Flow-Matching Text-to-Speech

Removing intermediate representations and separately trained decoding stages has become an important direction in generative modeling. In t…

13:00 JSTLLM/生成AI

INFUSER: Influence-Guided Self-Evolution Improves Reasoning

Self-evolution offers a scalable path to stronger reasoning: a pretrained language model improves itself with only minimal external supervi…

13:00 JST画像/動画生成

Stage-1 Controls the Entropy Regime, Not the Outcome

Two-stage post-training -- a Stage-1 warm-start (supervised fine-tuning, SFT, or on-policy distillation, OPD) followed by Stage-2 reinforce…

13:00 JSTLLM/生成AI画像/動画生成

See More, Think Deeper: Query-Expanded Visual Evidence and Answer-Clue Guided Reflection for Long Video Understanding

Recent advances in Video Large Language Models (Video-LLMs) have enabled performance on long-video understanding tasks. However, existing m…

13:00 JST研究/論文

OnlyDense: Reduced-Order Modeling for Lagrangian simulation

In science and engineering, Lagrangian simulation methods such as Smooth Particle Hydrodynamics (SPH) or Material Point Method (MPM) are of…

13:00 JSTLLM/生成AI

A Unifying Lens on Reward Uncertainty in RLHF

Reinforcement learning from human feedback (RLHF) is bottlenecked by \emph{reward hacking}, where the policy exploits errors in a proxy rew…

13:00 JSTLLM/生成AIハードウェア/半導体DeepSeek

FlashMemory-DeepSeek-V4: Lightning Index Ultra-Long Context via Lookahead Sparse Attention

Conventional LLMs keep the full KV cache loaded during decoding, causing a severe GPU memory bottleneck for ultra-long context serving. In…

13:00 JSTLLM/生成AIエージェント

Context-Fractured Decomposition Attacks on Tool-Using LLM Agents: Exploiting Artifact Provenance Gaps

Tool-using LLM agents interact with the world through actions that persist state in artifacts (e.g., workspace files or logs). Consequently…

13:00 JSTLLM/生成AIエージェントClaude

Context Rot in AI-Assisted Software Development: Repurposing Documentation Consistency for AI Configuration Artifacts

Developers increasingly provide AI coding assistants with persistent context through configuration files such as CLAUDE.md, AGENTS.md, and…

13:00 JST研究/論文

Addressing Market Regime Changes and Heavy-Tailed Returns in Portfolio Optimization via Bayesian VAR and Elliptical Black-Litterman

Deep reinforcement learning (DRL) frameworks for portfolio optimization have shown promise for their ability to learn allocation rules dyna…

13:00 JSTハードウェア/半導体

Hybridizing Equilibrium Propagation with Ising Machines for Efficient Energy-Based Learning

The rapid evolution of artificial intelligence has led to substantial advances in deep neural networks. Nonetheless, conventional GPU-based…

13:00 JST研究/論文

Optimizing Energy-based Neural Network Training with Coherent Ising Machine

While Ising machines serve as advanced physical solvers for the Ising model,enabling applications in combinatorial optimization and neural…

13:00 JSTエージェント

Autonomous Incident Resolution at Hyperscale: An Agentic AI Architecture for Network Operations

Cloud network infrastructure at hyperscale presents unique operational challenges where traditional human-driven incident response cannot k…

13:00 JST画像/動画生成

An Enhanced Geometric-Spectral Feature Learning Framework for Airborne Multispectral Point Cloud Classification

Multispectral point cloud (MPC) is composed of 3D spatial-spectral information, which holds tremendous potential for accurate land-cover cl…

13:00 JSTLLM/生成AI

Unveiling Privacy Risks in Multi-modal Large Language Models: Task-specific Vulnerabilities and Mitigation Challenges

Privacy risks in text-only Large Language Models (LLMs) are well studied, particularly their tendency to memorize and leak sensitive inform…

13:00 JSTLLM/生成AI画像/動画生成ロボティクス

From USD Scenes to Knowledge Graphs: Zero-Shot Ontology Grounding with LLMs

Constructing knowledge graphs from 3D simulation scenes is essential for robot task reasoning, but the key bottleneck, grounding scene obje…

13:00 JSTLLM/生成AI

Steganography Without Modification: Hidden Communication via LLM Seeds

We demonstrate that widely deployed Large Language Model (LLM) inference stacks harbor a steganographic channel that requires no modificati…

13:00 JST画像/動画生成

Decoding Pedestrian Crossing Intention from Egocentric Vision via Vision Language Models

Egocentric vision offers a first-person view of human perception and decision making, yet its potential for traffic-safety prediction remai…

13:00 JSTLLM/生成AIビジネス/資金調達研究/論文

SEF-CLGC at SemEval-2026 Task 11: Logical Notation Impact on Language Model Performance

This paper revisits our pipeline called Syllogistic Evaluation Framework-Common Logic Grammar Construction (SEF-CLGC). We combine formal lo…

13:00 JSTLLM/生成AI

Unified Energy for Invariant and Independent Decoding in Diffusion Language Models

Diffusion Language Models (DLMs) enable parallel text generation by iteratively denoising a full sequence, offering attractive flexibility…

13:00 JST研究/論文

Crop Recommendation and Agricultural Query Answering System Using Spatio-Temporal Graph Neural Networks and Hybrid Retrieval Augmentation

This paper presents a unified system designed to support precision agriculture by integrating advanced weather prediction, crop recommendat…

13:00 JST研究/論文

CANS: Accelerating Multiuser Collaborative Edge Inference via Cooperative Autodidactic NeuroSurgeon

Recently, mobile edge computing (MEC)-enabled collaborative deep neural network (DNN) inference has emerged as a promising approach for del…

13:00 JSTLLM/生成AIビジネス/資金調達研究/論文

Culturally-Adapted Red-Teaming Across East and Southeast Asian Contexts: A Methodological and Comparative Analysis

Multilingual safety evaluation of large language models (LLMs) has predominantly relied on direct translation (DT) of English benchmarks in…

13:00 JST研究/論文

Pretrained, Frozen, Still Leaking: Auditing Cross-Encoder Attribute Transfer in EEG Foundation Models

EEG foundation-model releases are usually audited one endpoint at a time: raw-reconstruction, membership inference, identity linkage, or DP…

13:00 JSTハードウェア/半導体NVIDIA

Resource-aware Computation-Communication Overlap for multi-GPU ML Workloads

The rapid growth of large-scale machine learning (ML) has made distributed training across multiple GPUs a fundamental component of modern…

13:00 JST研究/論文

Trustworthy Smart Fabs via Professional Proxies: Scaling Safe and Sustainable by Design (SSbD) through Industrial Data Spaces

The convergence of the 2026 European Union Safe and Sustainable by Design (SSbD) framework, Corporate Sustainability Due Diligence Directiv…

13:00 JSTLLM/生成AI

End-to-End Training for Discrete Token LLM based TTS System

Recent state-of-the-art (SOTA) text-to-speech (TTS) systems typically adopt a cascaded pipeline consisting of a speech tokenizer, an autore…

13:00 JSTエージェントロボティクス

Self-Paced Curriculum Reinforcement Learning for Autonomous Superbike Racing in Simulation

Autonomous Racing has seen remarkable progress through deep Reinforcement Learning (RL), primarily for four-wheeled vehicles. However, moto…

13:00 JST画像/動画生成ロボティクス

EgoTactile: Learning Grasp Pressure for Everyday Objects from Egocentric Video

Estimating full-hand grasp pressure from egocentric video is critical for immersive VR and robotic manipulation, yet dense tactile sensing…

13:00 JST画像/動画生成

Proposal Refinement for Few-Shot Object Detection

Few-shot object detection has gained widely attention in recent years. Some excellent algorithms have been proposed to handle this task. Ho…

13:00 JST研究/論文

BSTabDiff: Block-Subunit Diffusion Priors for High-Dimensional Tabular Data Generation

High-Dimensional Low-Sample Size (HDLSS) tabular domains (e.g., omics) are characterized by $n \ll m$, where $n$ = number of samples, and $…

13:00 JST研究/論文

Physics-Guided Sequence-Based Generative Framework for Acoustic Metamaterial Inverse Design

Acoustic metamaterial (AMM) inverse design is particularly challenging for broadband target responses due to acoustic dispersion: a structu…

13:00 JSTハードウェア/半導体

Internalizing Geometric Law: Learning from Solver Residuals for Precision-Critical Generation

Large Language Models frequently hallucinate in precision-critical domains such as technical diagramming and mechanical design, where outpu…

13:00 JSTLLM/生成AIエージェント

Brain-Prompt Injection: A Route-Safety Audit for BCI-LLM Agents

BCI-to-agent pipelines turn decoded neural activity into an authorization channel for tool-use agents, exposing a new attack surface we cal…

13:00 JST研究/論文

A Universal Dense Football Event Representation Based on TabTransformer

Football event data constitute a rich spatiotemporal source for quantitative analysis of player actions in team sports. These datasets cont…

13:00 JST研究/論文

Conan-embedding-v3: Fusing Modality-Specific Models for Omni-Modal Embedding

Omni-modal retrieval promises a single embedding space for text, image, video, document, and audio inputs, but building such a unified retr…

13:00 JST画像/動画生成

Beyond Humans: Multispecies Animal Face Recognition Using Transfer Learning

Individual animal recognition can be useful in the search for lost or stolen pets, the tracking of individuals of endangered species, and t…

13:00 JST画像/動画生成

PhysScene: A Scene Graph Dataset for Scientific Visual Reasoning in Physics Experiments

Scene Graphs (SGs) provide structured representations of visual scenes by modeling objects and their pairwise relationships. Despite recent…

13:00 JST研究/論文

Scaling Neural Network Verification with Tensor Parallelism and Fully Sharded Data Parallelism

Formal neural network verification -- proving that a network satisfies safety properties for \emph{all} inputs in a specified domain -- is…

13:00 JSTLLM/生成AI

Reasoning Arena: Trace Tournaments When Verifiable Rewards Fall Short

Reinforcement learning with verifiable rewards (RLVR) has become a leading paradigm for improving the reasoning ability of large language m…

13:00 JST画像/動画生成ロボティクスNVIDIA

Real-time body pose non-verbal communication with a consistency-based reliability measure

Body movement communicates intent at distances and in conditions where neither the face, nor speech can be captured. We study the recogniti…

13:00 JST研究/論文

SAILS: Surrogate-based Analysis of Interactions via Local Effect Smooths

Feature interactions drive much of the predictive power of machine learning models, yet existing explanation methods only detect and quanti…

13:00 JST研究/論文

Can Data Work be Reparative?

We present an ethnographic study of an alternative approach to data work, developed by a civic-tech initiative that builds datasets for tra…

13:00 JST研究/論文

AI Assurance in UK Defence: Challenges in Operationalising JSP 936

This report examines practical challenges in operationalising JSP 936 Part 1 for AI assurance in UK Defence. Using a structured interpretiv…

13:00 JSTロボティクス

Harness Engineering for Physical AI: Robot Middleware Is the Harness Layer

Robot middleware faces a new role in the era of Physical AI. Learned policies, planners, and vision-language-action (VLA) models now enter…

13:00 JST研究/論文

Context-Aware Deep Learning for Defect Classification in Atomic-Resolution STEM

Artificial intelligence is rapidly advancing materials characterization, yet most applications in electron microscopy rely solely on image…

13:00 JSTエージェント

LargeMonitor: Monitoring Online Task-Free Continual Learning via Large Pretrained Models

Online task-free continual learning (TFCL) requires intelligent agents to sequentially accumulate knowledge from an unbounded, non-stationa…

13:00 JSTLLM/生成AI

A Finetuned SpeechLLM for Joint Multi-Granular L2 Assessment and Natural-Language Rationales

Automated L2 speech assessment can assign proficiency labels, but often lacks interpretability. We propose a rubric-guided SpeechLLM for mu…

13:00 JSTLLM/生成AIエージェント

Memory Beyond Recall: A Dual-Process Cognitive Memory System for Self-Evolving LLM Agents

Long-term memory for an LLM agent is more than retrieving the right passage at the right time. Current memory systems collapse belief revis…

13:00 JSTロボティクス

Targeting World Models to Compromise Robot Learning Pipelines

World models have recently seen a rapid growth in both their popularity and capability as more data efficient tools for generating robot tr…

13:00 JSTLLM/生成AI

Closing the Prior-Posterior Loop: Self-Reflective Molecular Design with Analysis-Driven LLM Iteration

Can a general-purpose large language model design molecules with the precision of a seasoned chemist? Current LLM-based frameworks answer t…

13:00 JSTLLM/生成AI

Emergence of Context Characteristics Sensitivity in Large Language Models

During instruction fine-tuning (IFT), large language models (LLMs) learn to follow instructions by using the provided context to answer a q…

13:00 JST研究/論文

Model Poisoning Against Federated Model Adaptation with Chain of Bit-Flips

Federated Learning (FL) allows a set of clients to collectively train a global model without sharing local training data. Giving the respon…

13:00 JSTLLM/生成AIエージェント

SecureClaw: Clawing Back Control of LLM Agents

Tool-using large language model (LLM) agents face two distinct security failures: unauthorized external actions and exposure of sensitive p…

13:00 JSTLLM/生成AIGPT / ChatGPT

FuseFSS: Efficient Secure LLM Inference with Function Secret Sharing

Two-server secure inference allows a client to query a hosted large language model (LLM) without revealing prompts or embeddings. Recent GP…

13:00 JSTロボティクス

Safe-RULE: Safe Reinforcement UnLEarning

Offline safe reinforcement learning (Safe RL) enables policy learning without online interactions, making it suitable for safety-critical s…

13:00 JSTロボティクス

CT-VAM: A Cerebello-Thalamic-Inspired Vision-Action Model for Efficient Visuomotor Control

Vision-language-action models have shown strong promise for robot manipulation, yet raw language is primarily needed to specify task intent…

13:00 JST研究/論文

Seeing the Hivemind: A Consensus-Aware Interaction Technique for Mitigating AI Homogenization

People are increasingly using AI for creative tasks such as writing. While adoption continues to grow, this form of use risks undermining i…

13:00 JST研究/論文

I Was Scrolling and Then I Saw a Pregnant Strawberry

AI minidramas (also known as fruit dramas) are short, algorithmically distributed generative AI video series featuring anthropomorphized ch…

13:00 JSTハードウェア/半導体

Closure-Validated Circuit Discovery in Attention Heads: Co-activation Proposes, Ablation Disposes

Interpretability increasingly treats groups of components, not individual units, as the basic object, and proposes to find them by clusteri…

13:00 JSTエージェントロボティクス

Shape Formation for the Cooperative Transportation of Arbitrary Objects Using Multi-Agent Reinforcement Learning

Cooperative object transportation is essential in numerous domains, including industrial to domestic services. A popular transportation str…

13:00 JSTLLM/生成AIエージェント

AGENTSERVESIM: A Hardware-aware Simulator for Multi-Turn LLM Agent Serving

Multi-turn LLM agents interleave model calls with external tool invocations, shifting serving from stateless request processing to stateful…

13:00 JST研究/論文

Powering the Future of AI: Navigating the Trade-offs for Europe's Energy Transition and Net-Zero Goals

The rapid expansion of AI globally has led to the proliferation of energy-intensive hyperscale data centres (DCs), making them as a structu…

13:00 JSTロボティクス

ReCoVLA: VLM-Guided Reward Compilation for Failure Recovery in Vision-Language-Action Policies

Vision-language-action (VLA) policies provide strong priors for language-conditioned manipulation, but remain brittle in off-nominal states…

13:00 JST画像/動画生成

ATN3D: Density-Aware LiDAR-Radar Early 3D Object Detection Under Extreme Sparsity

3D object detection is the backbone of perception for automated vehicles (AV) and broader intelligent transportation systems applications.…

13:00 JST研究/論文

FMplex: Model Virtualization for Serving Extensible Foundation Models

Foundation models (FMs) are increasingly used as backbones for downstream tasks across language, vision, time-series, and multimodal applic…

13:00 JST画像/動画生成

Do Video Foundation Models Understand Intuitive Physics? A Layerwise Probing Analysis

We study whether pretrained video foundation models encode intuitive-physics information in their frozen representations, and how this info…

13:00 JST研究/論文

ArtiFact: A Large-Scale Multi-Modal Cultural Heritage Dataset

Multi-modal data management has emerged as a central research topic in the database community, spanning data integration, semantic query pr…

13:00 JSTLLM/生成AI

Muon Learns More Robust and Transferable Features than Adam

Muon has recently emerged as a state-of-the-art optimizer for pretraining Large Language Models (LLMs) and vision classifiers. Despite its…

13:00 JSTLLM/生成AI

End-to-End Context Compression at Scale

Long-context language model inference is bottlenecked by memory, as the KV cache grows with context length. Recent techniques to compress t…

13:00 JSTLLM/生成AI画像/動画生成

Visual Prompting Meets Feature Reconstruction-Based Anomaly Detection with Dual-Teacher Supervision

Recent Anomaly Detection methods achieve perfect detection and segmentation scores on well-established datasets, such as MVTec. However, ma…

13:00 JST研究/論文

Transition-Based Digital Twin Modelling for Alzheimer's Disease under Sparse Longitudinal Data

Alzheimer's disease (AD) progression is highly heterogeneous and is typically observed through sparse and irregular longitudinal data, posi…

13:00 JST研究/論文

MeCo: One-Step MeanFlow-based Corrector for Multi-Channel Speech Separation

While discriminative models for multi-channel speech separation excel in reference-based metrics, they often exhibit suboptimal human liste…

13:00 JST研究/論文Google

An 84-Format Numeric Catalog with Bit-Exact Conformance Vectors: A Vendor-Neutral Reference for FP8, BF16, MXFP4, and Microscaling Formats

Numeric format proliferation in machine learning hardware -- FP8 (E4M3 and E5M2), BF16, MXFP4, microscaling block formats, and dozens of re…

13:00 JSTエージェント

Observability for Delegated Execution in Agentic AI Systems

Delegation-scoped execution is not identifiable from standard observables: audit logs and execution traces can be identical under multiple…

13:00 JSTLLM/生成AI

Learning to Attack and Defend: Adaptive Red Teaming of Language Models via GRPO

AI red teaming must continually adapt to evolving attackers and defenders. Reinforcement learning offers a promising approach to discoverin…

13:00 JST画像/動画生成

Hybrid Robustness Verification for Spatio-Temporal Neural Networks

With AI increasingly deployed in safety-critical systems, providing formal robustness guarantees for the underlying models is essential. Ex…

13:00 JSTロボティクス

Difference-Aware Retrieval Policies for Imitation Learning

Parametric imitation learning via behavior cloning can suffer from poor generalization to out-of-distribution states due to compounding err…

13:00 JST研究/論文

Preserving Plasticity in Continual Learning via Dynamical Isometry

Continual training of deep neural networks under non-stationarity often leads to a progressive loss of plasticity, eventually limiting furt…

13:00 JSTLLM/生成AI

Data Synthesis and Parameter-Efficient Fine-Tuning for Low-Resource NMT: A Case Study on Q'eqchi' Mayan

Neural machine translation for digitally low-resource Indigenous languages is often hindered by extreme data scarcity, prompting reliance o…

13:00 JST研究/論文

Who Earns the Safety? Intervention-Aware Quantum Predictive Control with Safety Attribution

Hard safety filters are increasingly placed downstream of learned controllers to guarantee constraint satisfaction at run time. Yet a filte…

13:00 JSTエージェント

FASE: Fast Adaptive Semantic Entropy for Code Quality

Multi-agent code generation offers a promising paradigm for autonomous software development by simulating the human software engineering li…

13:00 JST研究/論文

Bandits for Efficient Experimentation: Adapting to Control Group, Preferences, and Context Drifts

We consider a variant of the linear contextual stochastic multi-armed bandits, where the learner must provide recommendations to a group of…

13:00 JST研究/論文

Topological Neural Operators

We introduce Topological Neural Operators (TNOs), a principled framework for operator learning on cell complexes that lifts neural operator…

13:00 JST画像/動画生成ロボティクス

AHA-WAM:Asynchronous Horizon-Adaptive World-Action Modeling with Observation-Guided Context Routing

World-action models have emerged as a promising paradigm for robot manipulation, jointly modeling visual scene dynamics and actions to inje…

13:00 JST画像/動画生成

PTL-Diffusion: Manifold-Aware Diffusion with Periodic Terminal Laws

Standard diffusion models typically use a single time-homogeneous Gaussian terminal distribution as the reference law for generation. While…

13:00 JST研究/論文

An Agency-Transferring Model-Free Policy Enhancement Technique

Training reinforcement learning (RL) policies from scratch is costly: it requires careful reward and environment design, extensive tuning,…

13:00 JST画像/動画生成エージェント研究/論文

OmniGameArena: A Unified UE5 Benchmark for VLM Game Agents with Improvement Dynamics

Vision-language model (VLM) agents are increasingly deployed in interactive game environments. Yet game benchmarks for VLM agents typically…

13:00 JSTエージェント

A Survey on Large Language Model-Based Game Agents

Game environments provide rich, controllable settings that stimulate many aspects of real-world complexity. As such, game agents offer a va…

13:00 JSTLLM/生成AI

TQA-Bench: Evaluating LLMs for Multi-Table Question Answering

The advance of large language models (LLMs) has unlocked great opportunities in complex multi-modal data management tasks, particularly in…

13:00 JST研究/論文

IDEQ -- Improving Diffusion Models for the Traveling Salesman Problem (TSP) by Leveraging the Structure of the Solution Space

We investigate diffusion models to solve the Traveling Salesman Problem. Building on the recent DIFUSCO and T2TCO approaches, we propose ID…

13:00 JST画像/動画生成ロボティクス研究/論文

HA-VLN 2.0: An Open Benchmark and Leaderboard for Human-Aware Navigation in Discrete and Continuous Environments with Dynamic Multi-Human Interactions

Vision-and-Language Navigation (VLN) has been studied mainly in either discrete or continuous spaces, with little attention to dynamic, cro…

13:00 JSTLLM/生成AIGPT / ChatGPTLlama

Can Global XAI Methods Reveal Injected Behaviours in LLMs? SHAP vs Rule Extraction vs RuleSHAP

Large language models (LLMs) can amplify misinformation, undermining societal goals such as the UN SDGs. We study three documented drivers…

13:00 JST画像/動画生成エージェント研究/論文GPT / ChatGPT

FieldWorkArena: Agentic AI Benchmark for Real Field Work Tasks

This paper introduces FieldWorkArena, a benchmark for agentic AI targeting real-world field work. With the recent increase in demand for ag…

13:00 JST研究/論文

Modeling the Diachronic Evolution of Legal Norms: An LRMoo-Based, Component-Level, Event-Centric Approach to Legal Knowledge Graphs

Representing the temporal evolution of legal norms is a critical challenge for automated processing. While foundational frameworks exist, t…

13:00 JSTLLM/生成AI

Sound and Complete Neurosymbolic Reasoning with LLM-Grounded Interpretations

Large language models (LLMs) have demonstrated impressive capabilities in natural language understanding and generation, but exhibit proble…

13:00 JST研究/論文

Discovering heuristics in a complex SAT solver with large language models

The Satisfiability problem (SAT) is fundamental in computational complexity theory and has a wide range of industrial applications. Optimiz…

13:00 JSTLLM/生成AI

CLPO: Curriculum Learning meets Policy Optimization for LLM Reasoning

Online reinforcement learning with verifiable rewards (RLVR) has become an effective paradigm for improving the reasoning abilities of larg…

13:00 JSTLLM/生成AI

MixReasoning: Switching Modes to Think

Reasoning models enhance performance by tackling problems in a step-by-step manner, decomposing them into sub-problems and exploring long c…

13:00 JST研究/論文GPT / ChatGPTDeepSeek

MatSciBench: Benchmarking the Reasoning Ability of Large Language Models in Materials Science

Large Language Models have shown strong scientific reasoning ability, but their performance on materials science problems remains less stud…

13:00 JSTLLM/生成AI

AlphaOPT: Formulating Optimization Programs with Self-Improving LLM Experience Library

Optimization modeling underlies critical decision-making across industries, yet remains difficult to automate: natural-language problem des…

13:00 JST研究/論文

TempoBench: Evaluating Temporal Causal Reasoning in Large Language Models

Temporal reasoning involves understanding how systems evolve over time through input-driven state transitions. A key aspect is temporal cau…

13:00 JSTエージェントロボティクス

QuickLAP: Quick Language-Action Preference Learning for Semi-Autonomous Agents

Robots must learn from both what people do and what they say, but either modality alone is often incomplete: physical corrections are groun…

13:00 JSTLLM/生成AIビジネス/資金調達

Knowing How to Edit: Reliable Evaluation Signals for Diagnosing and Optimizing Prompts at Query Level

Prompt optimization has become a central mechanism for eliciting strong performance from LLMs, and recent work has made substantial progres…

13:00 JST画像/動画生成

A Geometric Unification of Concept Learning with Concept Cones

Two traditions of interpretability have evolved side by side but seldom spoken to each other: Concept Bottleneck Models (CBMs), which presc…

13:00 JSTエージェント

A Geometric Theory of Cognition for Machine Intelligence

Developing artificial agents that unify representation, memory, adaptation, and prediction remains a fundamental challenge in artificial in…

13:00 JSTLLM/生成AIエージェント

MAR:Multi-Agent Reflexion Improves Reasoning Abilities in LLMs

LLMs have shown the capacity to improve their performance on reasoning tasks through reflecting on their mistakes, and acting with these re…

13:00 JSTLLM/生成AI

ReTreVal: Reasoning Tree with Validation and Cross-Problem Memory for Large Language Models

Every existing inference-time reasoning framework discards all failure context at problem boundaries, leaving a model solving problem 500 n…

13:00 JST研究/論文QwenDeepSeek

Thinking-Based Non-Thinking: Solving the Reward Hacking Problem in Training Hybrid Reasoning Models via Reinforcement Learning

Large reasoning models (LRMs) have attracted much attention due to their exceptional performance. However, their performance mainly stems f…

13:00 JST研究/論文

Dynamic Distributed Constraint Optimization and Metareasoning for Continual, Large-Scale Satellite Operations

As Earth-observing satellite constellations grow in size and capability, distributed onboard control offers a pathway to novel responses an…

13:00 JSTLLM/生成AIエージェント

Payoff scaling shapes cooperation in LLM agents across languages

Large language models (LLMs) are increasingly deployed as autonomous agents that negotiate, coordinate, and act on behalf of users. Whether…

13:00 JSTLLM/生成AIエージェントGemini

Language-based Trial and Error Falls Behind in the Era of Experience

While Large Language Models (LLMs) excel in language-based agentic tasks, their applicability to unseen, nonlinguistic environments (e.g.,…

13:00 JSTエージェント研究/論文GPT / ChatGPT

TAME: A Trustworthy Test-Time Evolution of Agent Memory with Systematic Benchmarking

Test-time evolution of agent memory represents a pivotal paradigm for advancing AGI, as it strengthens complex reasoning through experience…

13:00 JSTエージェント

Weak-Driven Learning: How Weak Agents make Strong Agents Stronger

As post-training optimization becomes central to improving large language models, we observe a persistent saturation bottleneck: once model…

13:00 JSTエージェント研究/論文

Web Agents Should Use Typed Actions Instead of Click-Based Browsing

This position paper argues that building a reliable agentic Web requires shifting from low-level interaction primitives to typed actions su…

13:00 JST画像/動画生成エージェント

NoRD: A Data-Efficient Vision-Language-Action Model that Drives without Reasoning

Vision-Language-Action (VLA) models are advancing autonomous driving by replacing modular pipelines with unified end-to-end architectures.…

13:00 JSTエージェント

2-Step Agent: A Framework for the Interaction of a Decision Maker with AI Decision Support

Predictions from ML models support human decision making in several fields, including high-stakes ones such as healthcare and the judiciary…

13:00 JST研究/論文

An Alternative Trajectory for Generative AI

The generative artificial intelligence (AI) ecosystem is undergoing rapid transformations that threaten its sustainability. As models trans…

13:00 JSTエージェントハードウェア/半導体

IRAM-Omega-Q: A Computational Framework for Uncertainty Regulation in Adaptive Agents

Adaptive agents operating under uncertainty must do more than optimize task outputs: they must maintain a workable internal state under noi…

13:00 JSTLLM/生成AI

Reflection in the Dark: Exposing and Escaping the Black Box in Reflective Prompt Optimization

Automatic prompt optimization (APO) has emerged as a powerful paradigm for improving LLM performance without manual prompt engineering. Ref…

13:00 JSTLLM/生成AIエージェント

Counterfactual Credit Policy Optimization for Multi-Agent Collaboration

Collaborative multi-agent large language models (LLMs) can solve complex reasoning tasks by decomposing roles, but reinforcement learning f…

13:00 JST研究/論文

Signals Are Not States: Neuro-Symbolic Safeguards for Culturally Aware Classroom AI

Classroom AI systems increasingly infer high-level educational states such as engagement, confusion, collaboration, participation, and inst…

13:00 JST研究/論文

MC-CPO: Mastery-Conditioned Constrained Policy Optimization for Pedagogically Safe Intelligent Tutoring Systems

Intelligent tutoring systems increasingly rely on reinforcement learning to personalise instruction, yet optimising for observable engageme…

13:00 JSTエージェント

EvoMaster: A Foundational Evolving Agent Framework for Agentic Science at Scale

The convergence of large language models and agents is catalyzing a new era of scientific discovery: Agentic Science. While the scientific…

13:00 JST研究/論文

The Topological Dual of a Dataset: A Logic-to-Topology Encoding for AlphaGeometry-Style Data

AlphaGeometry represents a milestone in neuro-symbolic reasoning, yet its architecture faces a log-linear scaling bottleneck within its sym…

13:00 JSTLLM/生成AI

Explainable AML Triage with LLMs: Evidence Retrieval and Counterfactual Checks

Anti-money laundering (AML) transaction monitoring generates large volumes of alerts that must be rapidly triaged by investigators under st…

13:00 JST研究/論文

Deconstructing Superintelligence: Identity, Self-Modification and Diff\'erance

Self-modification is routinely treated as constitutive of artificial superintelligence (\textbf{SI}), yet modification is a relative action…

13:00 JSTエージェント

Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond

As AI systems move from generating text to accomplishing goals through sustained interaction, the ability to model environment dynamics bec…

13:00 JSTLLM/生成AI

Correct Is Not Enough: Training Reasoning Planners with Executor-Grounded Rewards

Reinforcement learning with verifiable rewards has become a common way to improve explicit reasoning in large language models, but final-an…

13:00 JSTエージェントGPT / ChatGPT

Executable World Models for ARC-AGI-3 in the Era of Coding Agents

We evaluate an initial coding-agent system for ARC-AGI-3 in which the agent maintains an executable Python world model, verifies it against…

13:00 JST研究/論文

Engagement Process: Rethinking the Temporal Interface of Action and Observation

Task completion in digital and physical environments increasingly involves complex temporal interaction, where actions and observations unf…

13:00 JSTLLM/生成AIエージェント

Goal-Oriented Reasoning for RAG-based Memory in Conversational Agentic LLM Systems

LLM-based conversational AI agents struggle to maintain coherent behavior over long horizons due to limited context. While RAG-based approa…

13:00 JSTエージェント

ASH: Agents that Self-Hone via Embodied Learning

Long-horizon embodied tasks remain a fundamental challenge in AI, as current methods rely on hand-engineered rewards or action-labeled demo…

13:00 JSTLLM/生成AIエージェント

ANNEAL: Adapting LLM Agents via Governed Symbolic Patch Learning

LLM-based agents can recover from individual execution errors, yet they repeatedly fail on the same fault when the underlying process knowl…

13:00 JSTLLM/生成AI

CatalyticMLLM: A Graph-Text Multimodal Large Language Model for Catalytic Materials

Property prediction and inverse structural design of catalytic materials are typically modeled as two independent tasks: the former predict…

13:00 JST研究/論文

When Tabular Foundation Models Meet Strategic Tabular Data: A Prior Alignment Approach

Tabular foundation models based on pretrained prior-data fitted networks~(PFNs) have shown strong generalization on diverse tabular tasks,…

13:00 JSTエージェント

Beyond Rational Illusion: Behaviorally Realistic Strategic Classification

Strategic classification(SC) studies the interaction between decision models and agents who strategically manipulate their features for fav…

13:00 JSTLLM/生成AI

Playing Devil's Advocate: Off-the-Shelf Persona Vectors Rival Targeted Steering for Sycophancy

We study the effect of different persona on \textbf{sycophancy}: model's agreement with users even when the user is incorrect. The standard…

13:00 JSTLLM/生成AIエージェントClaude

MBABench: Evaluating LLM Agents on End-to-End Spreadsheet Tasks in Finance

LLM agents are increasingly expected to carry out end-to-end workflows, producing complete artifacts from high-level user instructions. To…

13:00 JSTLLM/生成AI研究/論文

Advancing Mathematics Research with AI-Driven Formal Proof Search

Large language models (LLMs) increasingly excel at mathematical reasoning, but their unreliability limits their utility in mathematics rese…

13:00 JSTLLM/生成AI研究/論文

LGMT: LLM の推論の信頼性を評価するための論理に基づいた変形テスト

大規模言語モデル (LLM) は、論理推論ベンチマークで優れたパフォーマンスを達成しますが、その信頼性は依然として不確実です。既存の評価は静的ベンチマークに依存しているため、論理的に同等の変換の下での堅牢性を評価できず、推論能力を過大評価することがよくあります。私たちは、一次論理 (FOL) を活用して LLM 推論を評価する、オラクル不要のフレームワークである LGMT (Logic-Grounded Metamorphic Testing) を提案します。 LGMT は、形式的な論理的等価性から変成関係を導出することで、意味的に不変のテスト ケースを構築し、ケース間の整合性チェックを通じて推論の欠陥を検出します。 6 つの最先端の LLM での実験では、LGMT が従来のリファレンスベースの評価では見逃されていた重大な隠れた欠陥を明らかにすることが示されています。さらに、モデルはシンボルレベルと結論レベルの変動に特に敏感であり、Few-shot CoT などの高度なプロンプトではこれらの問題が部分的にしか軽減されないことがわかりました。これらの結果は、LLM 評価が孤立した正確性を超えて、論理的不変性の下での堅牢性へと移行する必要があることを示唆しています。 LGMT は、推論の失敗を診断するための原則に基づいたスケーラブルなアプローチを提供します。

原文 (English)

LGMT: Logic-Grounded Metamorphic Testing for Evaluating the Reasoning Reliability of LLMs

Large Language Models (LLMs) achieve strong performance on logical reasoning benchmarks, yet their reliability remains uncertain. Existing evaluations rely on static benchmarks, which fail to assess robustness under logically equivalent transformations and often overestimate reasoning capability. We propose LGMT (Logic-Grounded Metamorphic Testing), an oracle-free framework that leverages first-order logic (FOL) to evaluate LLM reasoning. By deriving metamorphic relations from formal logical equivalences, LGMT constructs semantically invariant test cases and detects reasoning defects through cross-case consistency checking. Experiments on six state-of-the-art LLMs show that LGMT exposes substantial hidden defects missed by traditional reference-based evaluations. We further find that models are particularly sensitive to symbol-level and conclusion-level variations, and that advanced prompting such as Few-shot CoT only partially mitigates these issues. These results suggest that LLM evaluation should move beyond isolated correctness toward robustness under logical invariance. LGMT provides a principled and scalable approach for diagnosing reasoning failures.

13:00 JSTエージェント

CUA-Gym: コンピューター使用エージェント向けの検証可能なトレーニング環境とタスクのスケーリング

検証可能な報酬を伴う強化学習 (RLVR) は、数学、ツール使用、ソフトウェア エンジニアリングなどの分野で画期的な進歩をもたらしましたが、そのコンピューター使用エージェント (CUA) への拡張は、決定的な報酬を伴うスケーラブルなトレーニング データの不足によってボトルネックになっています。 CUA 用にこのようなデータを構築するには、一貫したタスクの指示、実行可能な環境、検証可能な報酬が必要です。ただし、手動で厳選されたベンチマークは高い報酬忠実度を実現しますが、カバーできるアプリケーションはほとんどなく、LLM をジャッジとしてベースにしたデータセットは広範囲に拡張できますが、信頼できる検証が不足しています。タスク命令、環境状態、報酬関数を同時生成するスケーラブルなパイプラインである CUA-Gym を紹介します。具体的には、Generator エージェントが初期環境状態と黄金環境状態を構築し、別個の Discriminator エージェントがタスク仕様から報酬関数を書き込みます。オーケストレーター エージェントは、実行時に反復ラウンドを通じて 2 つを駆動します。生成されたタプルは、LLM 多数決とエージェントのロールアウトを組み合わせた最終フィルターを通過し、タスクごとの敵対的ループを超えた品質を保証します。トレーニング環境の不足に対処するために、実際のソフトウェア使用ディストリビューションに基づいた高忠実度のモック Web アプリケーションの広範なスイートである CUA-Gym-Hub をさらに合成し、CUA RLVR データの規模を大幅に拡大します。このパイプラインを使用して、110 の環境に基づいた 32,112 の検証済み RLVR トレーニング タプルのデータセットである CUA-Gym を構築します。 CUA-Gym で GSPO を使用してトレーニングされた当社の CUA-Gym-A3B および CUA-Gym-A17B は、OSWorld 検証済みで 62.1% と 72.6% を達成し、同等の規模で以前のオープンソース CUA を上回り、データ量と環境の多様性の両方でパフォーマンスがスムーズにスケーリングします。同じチェックポイントは、開催された WebArena ベンチマークでも改善されており、トレーニング環境を超えた移行を示しています。完全な合成パイプライン、データセット、CUA-Gym-Hub 環境、およびモデルをオープンソース化します。

原文 (English)

CUA-Gym: Scaling Verifiable Training Environments and Tasks for Computer-Use Agents

Reinforcement learning with verifiable rewards (RLVR) has driven breakthroughs in domains such as math, tool-use, and software engineering, yet its extension to computer-use agents (CUAs) has been bottlenecked by the scarcity of scalable training data with deterministic rewards. Constructing such data for CUAs requires consistent task instruction, executable environment, and verifiable reward. However, hand-curated benchmarks achieve high reward fidelity but cover few applications and LLM-as-judge-based datasets scale broadly but lack reliable verification. We present CUA-Gym, a scalable pipeline that co-generates task instructions, environment states, and reward functions. Concretely, a Generator agent constructs the initial and golden environment states, and a separate Discriminator agent writes the reward function from the task specification. An orchestrator agent drives the two through iterative rounds upon execution. Generated tuples then pass a final filter combining LLM majority voting and agent rollouts, ensuring quality beyond the per-task adversarial loop. To address the scarcity of training environments, we further synthesize CUA-Gym-Hub, a broad suite of high-fidelity mock web applications grounded in real-world software-use distributions, expanding the scale of CUA RLVR data by magnitude. Using this pipeline, we construct CUA-Gym, a dataset of 32,112 verified RLVR training tuples grounded in 110 environments. Trained with GSPO on CUA-Gym, our CUA-Gym-A3B and CUA-Gym-A17B achieve 62.1% and 72.6% on OSWorld-Verified, outperforming prior open-source CUAs at comparable scales, with performance scaling smoothly in both data volume and environment diversity. The same checkpoints also improve on the held-out WebArena benchmark, indicating transfer beyond the training environments. We will open-source the full synthesis pipeline, dataset, CUA-Gym-Hub environments, and models.

13:00 JST研究/論文

複数の自由変数を含む複雑な論理クエリのためのニューラル スケーラブルなシンボリック検索フレームワーク

Complex Query Answering (CQA) は、不完全なナレッジ グラフ (KG) に対する基本的な知識表現および推論タスクです。 $k$ 自由変数を使用して存在の一次クエリ (つまり、$\text{EFO}_k$ クエリ) に答えることは、$\mathcal{E}^k$ で答えのタプルをランク付けする必要があるため、重要かつ困難な問題です ($\mathcal{E}$ は KG のエンティティ セットを示します)。 $k$ が大きくなるにつれて、これはすぐに手に負えなくなります。したがって、既存のベンチマークと手法は、個々の変数に対する限界ランキングに依存しています。ただし、限界ランキングは、タプルの真の共同ランキングの代用としては不十分です。 $\text{EFO}_1$ クエリのニューラル シンボリック検索に基づいて、$\mathcal{E}^k$ を列挙せずに結合ランキングを近似する予算付きフレームワークである Neural Scalable Symbolic Search (NS3) を提案します。 NS3 は、(i) 周辺化されたサブクエリに答えて必要な候補セットを取得し、(ii) 動的バジェット $B$ によってドメインが枝刈りおよび制御されるハイパーノードに複数の自由変数をマージし、(iii) 予算が削減されたドメイン上で $\text{EFO}_k$ クエリを $\text{EFO}_{k-1}$ クエリに段階的に削減します。 NS3 は、3 つの標準的な KG データセットにわたって、強力な限界精度を維持しながら、共同ランキングのパフォーマンスを大幅に向上させます。さらに、既存の $\text{EFO}_1$ データセットを $k=3$ まで拡張する共同ランキング ベンチマークをリリースし、多変数クエリの体系的な評価を可能にします。私たちのコードは https://github.com/HKUST-KnowComp/NS3_KDD2026 で提供されています。

原文 (English)

Neural Scalable Symbolic Search Framework for Complex Logical Queries with Multiple Free Variables

Complex Query Answering (CQA) is a fundamental knowledge representation and reasoning task over incomplete knowledge graphs (KGs). Answering existential first-order queries with $k$ free variables (i.e., $\text{EFO}_k$ queries) is a crucial yet challenging problem, as it requires ranking answer tuples in $\mathcal{E}^k$, where $\mathcal{E}$ denotes the entity set of a KG. This quickly becomes intractable as $k$ grows. Consequently, existing benchmarks and methods rely on marginal rankings over individual variables; however, marginal rankings are a poor proxy for the true joint ranking of tuples. Building on neural symbolic search for $\text{EFO}_1$ queries, we propose Neural Scalable Symbolic Search (NS3), a budgeted framework that approximates joint ranking without enumerating $\mathcal{E}^k$. NS3 (i) answers marginalized sub-queries to obtain necessary candidate sets, (ii) merges multiple free variables into hypernodes whose domains are pruned and controlled by a dynamic budget $B$, and (iii) progressively reduces an $\text{EFO}_k$ query to an $\text{EFO}_{k-1}$ query over a budgeted reduced domain. Across three standard KG datasets, NS3 substantially improves joint ranking performance while retaining strong marginal accuracy. We further release a joint-ranking benchmark that extends existing $\text{EFO}_1$ datasets to $k=3$, enabling systematic evaluation of multi-variable queries. Our code is provided in https://github.com/HKUST-KnowComp/NS3_KDD2026.

13:00 JST研究/論文

多項式表現による単純性の定量化と最適化

深いネットワークは「単純な」ソリューションを好むことが多く、そのような単純さのバイアスが一般化において重要な役割を果たすと広く考えられています。しかし、単純さを広く適用できる定量的な尺度は依然としてとらえどころがありません。ニューラル関数の分布を意識した低次元サロゲートとして多項式表現を導入します。直交多項式基底を使用して、データ依存の内挿パスに沿ってネットワークの予測動作を近似し、コンパクトな関数表現を生成します。この表現の有効度が、タスクやアーキテクチャ全体にわたる一般化を予測する実用的な単純さの指標として機能し、シャープネスなどの既存の一般化プロキシよりも一貫して優れていることを示します。最後に、多項式表現は微分可能な単純性正則化を自然に生成し、画像とテキストの分類、対照的な視覚言語モデルの微調整、および強化学習における一般化を一貫して向上させます。

原文 (English)

Quantifying and Optimizing Simplicity via Polynomial Representations

Deep networks often exhibit a preference for "simple" solutions, and such a simplicity bias is widely believed to play a key role in generalization. Yet a broadly applicable, quantitative measure of simplicity remains elusive. We introduce polynomial representations as a distribution-aware, low-dimensional surrogate for neural functions: we approximate a network's predictive behavior along data-dependent interpolation paths using orthogonal polynomial bases, yielding a compact functional representation. We show that the effective degree of this representation serves as a practical simplicity metric that is predictive of generalization across tasks and architectures, and consistently outperforms existing generalization proxies such as sharpness. Finally, polynomial representations naturally yield a differentiable simplicity regularizer, which consistently improves generalization in image and text classification, fine-tuning contrastive vision-language models, and reinforcement learning.

13:00 JSTLLM/生成AI画像/動画生成エージェント

VESTA: 統計ツール エージェントを使用した視覚的な探索

定量的モデルをデータに適合させることは科学ワークフローの中心的なステップですが、依然として自動化が最も進んでいないステップの 1 つです。最近のエージェントベースのシステムは、言語および視覚言語モデル (VLM) を活用して、統計モデルを繰り返し提案および改良しますが、これらのシステムは、より困難なモデリング タスクに苦戦しています。これらの制限に対処するために、VESTA: Visual Exploration with Statistical Tool Agents を導入します。これは、VLM に動的に拡張する探索ツールキットを装備し、データ変換、仮説に基づく視覚化、堅牢な統計テストを通じてモデルの改良をガイドするフレームワークです。反復的な批評のみに依存する従来のシステムとは異なり、VESTA は、モデルのコンテキストに蓄積され、後で再利用できる診断ツールを選択または作成することにより、改良前および改良中にデータを積極的に探索します。私たちは、ツールなし、専門家が作成した静的なツール、モデルが作成した動的ツールの 3 つのツールキット構成で確立されたベースラインに対して VESTA を評価します。この評価をサポートするために、さまざまな難易度の分布フィッティングと時系列モデリングを対象としたベンチマークである DAWN (自動化されたワークフローと数値モデリングのためのデータセット) を導入し、最終的には初期質量関数や重力波チャープ信号のモデリングを含む現実世界の天文学タスクに到達します。 VESTA の動的なツールの作成は、以前のエージェント パイプラインよりも優れたパフォーマンスを発揮し、複雑なドメイン固有のタスクで最大のメリットが得られることがわかりました。さらに、動的に生成されたツールは、既存のビジュアル ツール作成システムによって生成されたツールよりも大幅に洗練されており、機能ごとにより多くの診断カテゴリをカバーし、VLM 批評家が直接推論できるビジュアル出力を強く好むことを示します。

原文 (English)

VESTA: Visual Exploration with Statistical Tool Agents

Fitting quantitative models to data is a central step in scientific workflows, yet it remains one of the least automated. Recent agent-based systems leverage language and vision-language models (VLMs) to iteratively propose and refine statistical models, but these systems struggle on more challenging modeling tasks. To address these limitations, we introduce VESTA: Visual Exploration with Statistical Tool Agents, a framework that equips VLMs with a dynamically growing exploration toolkit to guide model refinement through data transformations, hypothesis-driven visualizations, and robust statistical tests. Unlike prior systems that rely on iterative critique alone, VESTA actively explores data before and during refinement by selecting or creating diagnostic tools, which accumulate in the model's context and can be reused later. We evaluate VESTA against established baselines in three toolkit configurations: no tools, static expert-written tools, and dynamic model-written tools. To support this evaluation, we introduce DAWN (Dataset for Automated Workflows and Numerical Modeling), a benchmark targeting distribution fitting and time series modeling with varying difficulty tiers, and culminating in real-world astronomy tasks including modeling initial mass functions and gravitational-wave chirp signals. We find that VESTA's dynamic tool creation outperforms prior agentic pipelines, with the largest gains on complex and domain-specific tasks. We further show that dynamically generated tools are substantially more sophisticated than those produced by existing visual tool-creation systems, covering more diagnostic categories per function and strongly preferring visual outputs that the VLM critic can reason over directly.

13:00 JSTLLM/生成AIエージェントAnthropic

ReSkill: Reconciling Skill Creation with Policy Optimization in Agentic RL

Agentic reinforcement learning (RL) enables LLM agents to improve continuously from environment rewards, yet the resulting policies do not…

13:00 JSTLLM/生成AI研究/論文

WorldCoder-Bench: Benchmarking Physically Grounded 3D World Synthesis

Large language models (LLMs) are increasingly asked not only to write static interfaces, but to construct executable interactive worlds fro…

13:00 JSTLLM/生成AI

ChatHealthAI: 電子医療記録の表現を大規模な言語モデルと連携させて、根拠のある臨床推論を実現

大規模言語モデル (LLM) は、臨床意思決定をサポートするための強力な自然言語推論能力を示しますが、構造化された長期的な電子医療記録 (EHR) を効果的にモデル化するのは困難です。対照的に、EHR 基盤モデルは、予測的な患者の表現を学習できますが、解釈可能な言語ベースの推論が欠けています。このギャップを埋めるために、私たちは、事前トレーニングされた EHR 基盤モデルからの構造化 EHR 表現を、タスク認識リサンプラーを通じてフリーズされた LLM の意味空間と整合させるマルチモーダル推論フレームワークである ChatHealthAI を提案します。 ChatHealthAI は、長期にわたる患者の表現と洗練された臨床事象の説明を統合することで、正確な患者予測を維持しながら、臨床に基づいた自然言語推論を可能にします。 EHRSHOT ベンチマークからの 3 つの臨床予測タスクについて ChatHealthAI を評価しました。結果は、ChatHealthAI が競争力のある予測パフォーマンスを維持しながら、推論の品質と解釈可能性を向上させることを示しています。これらの発見は、解釈可能な臨床予測のために、EHR 基礎モデルと事前トレーニングされた LLM を統合する可能性を強調しています。

原文 (English)

ChatHealthAI: Aligning Electronic Health Record Representations with Large Language Models for Grounded Clinical Reasoning

Large language models (LLMs) exhibit strong natural-language reasoning abilities for clinical decision support, but struggle to effectively model structured longitudinal electronic health records (EHRs). In contrast, EHR foundation models can learn predictive patient representations, yet lack interpretable language-based reasoning. To bridge this gap, we propose ChatHealthAI, a multimodal reasoning framework that aligns structured EHR representations from a pretrained EHR foundation model with the semantic space of a frozen LLM through a task-aware resampler. By integrating longitudinal patient representations with refined clinical event descriptions, ChatHealthAI enables clinically grounded natural-language reasoning while maintaining accurate patient prediction. We evaluated ChatHealthAI on three clinical predictive tasks from the EHRSHOT benchmark. Results show that ChatHealthAI improves reasoning quality and interpretability while preserving competitive predictive performance. These findings highlight the potential of integrating EHR foundation models with pretrained LLMs for interpretable clinical prediction.

13:00 JSTLLM/生成AI

推論の影の代償: LLM への最適な予算配分に関する経済的観点

推論時間のスケーリングは、大規模言語モデルのパフォーマンスを向上させるための重要な手段として浮上していますが、実際の展開は厳しい計算予算によって制限されています。この研究では、推論予算の割り当てを、経済原則に支配されるグローバルな制約付き最適化問題として定式化します。シフトサージ関数を使用してクエリごとの推論ユーティリティをモデル化することにより、リソース不足の下で限界ユーティリティを平衡化するグローバルシャドープライスに基づいた最適な割り当てポリシーを導き出します。この理論に基づいて、推論のための制約付き潜在効用均衡配分 (CLEAR) を提案します。合理的な放棄を実行し、破綻したクエリから出現しきい値に近い解決可能なクエリにリソースを再割り当てします。さまざまなトラフィック ストリームを使用したいくつかの推論タスクに関する広範な実験により、CLEAR が総トークン コストと平均精度のパレート フロンティアを大幅に向上させることが実証されました。リソースが不足している状況では、CLEAR は均一な割り当てと比較して、グローバル精度で最大 3 倍の向上を達成します。

原文 (English)

The Shadow Price of Reasoning: Economic Perspective on Optimal Budget Allocation for LLMs

Inference-time scaling has emerged as a critical avenue for enhancing Large Language Models' performance, yet real-world deployment is constrained by strict computational budgets. In this work, we formulate inference budget allocation as a global constrained optimization problem governed by economic principles. By modeling per-query reasoning utility with a shifted-surge function, we derive an optimal allocation policy based on a global shadow price that equilibrates marginal utility under resource scarcity. Based on this theory, we propose Constrained Latent-utility Equilibrium Allocation for Reasoning (CLEAR). It performs rational abandonment and reallocates resources from insolvent queries to solvable queries near their emergence thresholds. Extensive experiments on several reasoning tasks with different traffic streams demonstrate that CLEAR significantly improves the Pareto frontier of total token cost versus mean accuracy. In resource-scarce regimes, CLEAR achieves up to a 3x improvement in global accuracy compared to uniform allocation.

13:00 JSTLLM/生成AIエージェント

トリビアム: 因果記憶コントローラーの第一級目標としての時間的後悔

現在のエージェント システムと LLM パイプラインの多くは、結果の報酬を最適化することで間違いを修正します。これは失敗の内容のみを扱います。結果が予測と異なる場合、不一致の理由と時期が体系的に記録、レビュー、修正されないため、同じエラーがエピソードごとに再発する可能性があります。私たちは、これは単にモデルの能力の問題ではなく、構造的な問題であると主張します。私たちは、作業因果モデルに対する結果の後悔や認識論的な後悔と並んで、長期的な時間的後悔を第一級の目標として提案します。時間的リグアロングは、失敗が継続するとき、すなわち、調整ミスの因果モデルが修正されるまでにどのくらいの期間許容されるかを捉えます。認識論的後悔は、失敗が続く理由、つまり作業因果モデルにおける残留不確実性またはエラーを捉えます。 3 つの後悔を総合すると、長命のエージェントがいつ、何が、なぜ失敗する可能性があるのか​​について、反証可能な説明が得られます。エージェントを E エピソードのストリームとしてモデル化し、明示的な因果関係の調査、持続性、および検出可能性の仮定に基づいて 3 つの条件付き結果を証明します。まず、観察的に等価な交絡のもとでは、結果のみの学習では介入チャネルがなければ因果構造と偽の構造を区別できないため、結果の後悔がゼロになった後でも時間的誤調整が線形的に持続する可能性があります。第 2 に、永続的な因果ログと予算付きプローブを使用すると、総プローブの複雑さはエピソード期間内で対数的となり、O(log E) の時間的後悔を引き起こします。第三に、K 個の検出可能な変化点の下では、速度は O(K log E) まで拡張されます。 Trivium をインスタンス化し、5 つの反証可能な予測を事前に登録します。 CausalBench-Seq では、Trivium は予測された対数エンベロープに従いますが、結果のみのベースラインは直線的に増加します。パイロットのリアル LLM ストリームは、1 回の完全な E = 500 実行と 3 回の E = 100 フロンティア モデル パイロットにわたる予備的な外部妥当性証拠を提供します。ここでの自己学習とは、LLM 重みを再トレーニングすることではなく、外部因果モデルを修正することを意味します。

原文 (English)

Trivium: Temporal Regret as a First-Class Objective for Causal-Memory Controllers

Many current agentic systems and LLM pipelines correct mistakes by optimizing outcome reward. This addresses only the what of failure: when an outcome diverges from prediction, the why and when of the mismatch are not systematically logged, reviewed, or corrected, so the same error can recur episode after episode. We argue that this is a structural problem, not merely a model-capacity one. We propose long-horizon temporal regret as a first-class objective alongside outcome regret and epistemic regret over the working causal model. Temporal regret captures when failure persists: how long a miscalibrated causal model is tolerated before correction. Epistemic regret captures why failure persists: residual uncertainty or error in the working causal model. Together, the three regrets give a falsifiable account of what, why, and when a long-lived agent can fail. Modeling the agent as a stream of E episodes, we prove three conditional results under explicit causal-probing, persistence, and detectability assumptions. First, under observationally equivalent confounding, outcome-only learning cannot distinguish causal from spurious structure without an intervention channel, so temporal miscalibration can persist linearly even after outcome regret is driven to zero. Second, with a persistent causal log and budgeted probes, total probe complexity is logarithmic in the episode horizon, inducing O(log E) temporal regret. Third, under K detectable change-points, the rate extends to O(K log E). We instantiate Trivium and pre-register five falsifiable predictions. On CausalBench-Seq, Trivium follows the predicted logarithmic envelope while outcome-only baselines grow linearly. A pilot real-LLM stream provides preliminary external-validity evidence across one full E = 500 run and three E = 100 frontier-model pilots. Self-learning here means revising an external causal model, not retraining LLM weights.

13:00 JSTエージェント

MIRAGE: 暗黙的推論と生成世界モデルを備えたモバイル エージェント

モバイル エージェントは、スクリーンショットや言語目標に基づいて日常のアプリケーションを操作することがますます期待されており、信頼性の高い制御には、画面のアフォーダンス、複数ステップのナビゲーション、および将来の状態の変化に関する推論が必要です。ただし、多くのエージェントはこの計算を長いテキストの思考連鎖として外部に出すため、対話が遅くなり、監視コストが増加し、展開が複雑になります。 MIRAGE は、目に見えるテキスト推論の痕跡から継続的な潜在推論表現を学習するフレームワークです。 MIRAGE は、明示的な推論をコンパクトな隠れ状態に変換し、エージェントが長い根拠を解読することなく内部的に推論できるようにします。また、生成世界モデルの目標も組み込まれています。つまり、潜在的な推論ベクトルが将来のスクリーンショットと一致し、エージェントが行動する前に今後のインターフェイスの状態を予測するようになります。これにより、隠れた計算が圧縮された思考表現と環境力学の将来を見据えたモデルの両方に変わります。推論時、MIRAGE は連続的な潜在空間で推論し、実行効率を向上させながらトークンの生成を削減します。 AndroidWorld では、MIRAGE は、4B アブレーションにおける明示的な思考連鎖の監視付き微調整と 3 ~ 5 倍低いデコード トークン バジェットを一致させ、同等の命令調整ベースラインを 10.2 ポイント改善します。 AndroidControl では、生成されるトークンが 75% 以上減少しながら、アクションのグラウンディングが向上します。

原文 (English)

MIRAGE: Mobile Agents with Implicit Reasoning and Generative World Models

Mobile agents are increasingly expected to operate everyday applications from screenshots and language goals, where reliable control requires reasoning over screen affordances, multi-step navigation, and future state changes. However, many agents externalize this computation as long textual chains of thought, which slows interaction, increases supervision cost, and complicates deployment. We introduce MIRAGE, a framework that learns continuous latent reasoning representations from visible textual reasoning traces. MIRAGE transfers explicit reasoning into compact hidden states, enabling the agent to reason internally without decoding long rationales. It also incorporates a generative world-model objective: latent reasoning vectors are aligned with future screenshots, encouraging the agent to anticipate upcoming interface states before acting. This turns hidden computation into both a compressed thought representation and a forward-looking model of environment dynamics. At inference time, MIRAGE reasons in continuous latent space, reducing token generation while improving execution efficiency. On AndroidWorld, MIRAGE matches explicit chain-of-thought supervised fine-tuning in the 4B ablation with a 3-5x lower decoded-token budget and improves a comparable instruction-tuned baseline by 10.2 points; on AndroidControl, it improves action grounding while generating over 75% fewer tokens.

13:00 JST画像/動画生成エージェントビジネス/資金調達Google

Entropy-Based Evaluation of AI Agents: A Lightweight Framework for Measuring Behavioral Patterns

AI agents are commonly evaluated using task success, reward, latency, and cost. These metrics are useful, but they often miss important asp…

13:00 JST研究/論文

A Pre-Registered Causal Partition of Self-Consistency Elicitation and Reward Design in RLVR

Reinforcement learning from verifiable rewards (RLVR) improves reasoning even when the reward signal is spurious -- assigning credit to the…

13:00 JST画像/動画生成

Learning Visual Spatial Planning from Symbolic State via Modality-Gap-Aware Self-Distillation

While vision-language models excel at general multimodal understanding, they still struggle with visual spatial planning. We attribute this…

13:00 JSTエージェント

Towards Healthy Evolution: Exploring the Role and Mechanisms of Human-Agent Interaction in Self-Evolving Systems

Self-evolving agents improve through continual self-play and self-generated learning signals, but autonomous evolution can also cause capab…

13:00 JST研究/論文

An Infectious Disease Spread Simulation Based on Large Language Model Decision Making

Modelling individual decision-making during infectious disease outbreaks is crucial for understanding behavioural dynamics and informing ef…

13:00 JSTLLM/生成AIエージェント

Humans' ALMANAC: A Human Collaboration Dataset of Action-Level Mental Model Annotations for Agent Collaboration

Recent advances in LLM agents have enabled complex cognitive capabilities, such as multi-step reasoning, planning, and tool use, that incre…

13:00 JST研究/論文

並列連続局所探索に関する研究

対称擬似ブール (PB) 制約を使用したブール充足可能性問題の解決アプローチとして、並列連続局所探索 (CLS) を研究します。ここで、 $n$ 変数 PB 充足可能性問題は、 $n$ 次元超立方体上の微分可能な目的関数による連続最適化問題に緩和されます。満足可能なインスタンスの場合、この最適化問題のグローバル ミニマイザーは、当面の SAT 問題の満足な割り当てに対応します。我々は、実証実験を通じていくつかの新しい発見を提示します。(i) 冗長な制約は収束を加速するのではなく、むしろ阻害する可能性があります。 (ii) CLS は、ハイブリッド設定におけるサブソルバーとして有望であり、部分的な割り当てを迅速に完了します。 (iii) 追加のソルバー ステップによって利益が減少する鞍部密度の目標により、局所探索は解の品質 (つまり、満足度) の安定した分布に急速に収束します。私たちの調査結果は、最新のアクセラレータ ハードウェア上で SAT 用 CLS を実際に使用する方法を示しています。

原文 (English)

A Study of Parallel Continuous Local Search

We study parallel Continuous Local Search (CLS) as a solution approach for Boolean satisfiability problems with symmetric pseudo-Boolean (PB) constraints. Here, the $n$-variable PB-satisfiability problem is relaxed to a continuous optimisation problem with a differentiable objective function on an $n$-dimensional hypercube. For satisfiable instances, the global minimisers of this optimisation problem correspond to satisfying assignments of the SAT problem at hand. We present several novel findings via empirical experiments: (i) redundant constraints can inhibit rather than accelerate convergence; (ii) CLS shows promise as a sub-solver in hybridised settings, quickly completing partial assignments; and (iii) local search rapidly converges to a stable distribution of solution quality (i.e., degree of satisfaction), due to saddle-dense objectives where additional solver steps yield diminishing returns. Our findings inform practical uses of CLS for SAT on modern accelerator hardware.

13:00 JST研究/論文

フロントツーアトラクター: 双方向検索におけるフロントツーフロント ヒューリスティックの変更

ヒューリスティックは、一般に 2 つの主要なクラスに依存する双方向検索アルゴリズムのパフォーマンスにおいて中心的な役割を果たします。フロントツーエンド (F2E) ヒューリスティックは、状態 s から検索のターゲット (前方検索の場合は目標、逆方向検索の場合は開始点) までの距離を推定します。対照的に、フロントツーフロント (F2F) ヒューリスティックでは、ペア関数 h(s, s') を使用して s から反対側の検索フロンティアまでの距離を推定します。ここで、s' の範囲はフロンティア状態全体に渡ります。 F2F ヒューリスティックは通常、より多くの情報を提供するため、ノード展開の数を減らしますが、広範なペアごとの評価に依存するため、かなりの計算オーバーヘッドが発生します。この制限に対処するために、計算コストを大幅に削減しながら、F2F の情報の多くを維持する新しいヒューリスティック クラス、フロント トゥ アトラクター (F2A) を導入します。 F2A は、反対側のフロンティアにあるすべての状態までの距離を評価するのではなく、s から反対側の検索方向に動的に維持される小さなアトラクターのセットまでの距離を推定します。これらのアトラクターは、フルフロンティアの代理として機能し、F2F によって提供される最適性の保証を維持しながら、わずかな計算コストで豊富なヒューリスティック ガイダンスを可能にします。複数のドメインにわたって F2A を評価したところ、F2F と比較してペアごとの評価の数が最大 11.2 倍削減され、平均して F2E よりも 4.8 倍少ないノード拡張を達成できることがわかりました。

原文 (English)

Front-to-Attractors: Modifying the Front-to-Front Heuristic in Bidirectional Search

Heuristics play a central role in the performance of bidirectional search algorithms, which commonly rely on two main classes. Front-to-end (F2E) heuristics estimate the distance from a state s to the target of the search (the goal for forward search or the start for backward search). In contrast, front-to-front (F2F) heuristics estimate the distance from s to the opposite search frontier using a pairwise function h(s, s'), where s' ranges over frontier states. Although F2F heuristics are typically more informative and therefore reduce the number of node expansions, their reliance on extensive pairwise evaluations incurs substantial computational overhead. To address this limitation, we introduce a new heuristic class, front-to-attractors (F2A), that preserves much of the informativeness of F2F while dramatically reducing its computational cost. Rather than evaluating distances to all states on the opposite frontier, F2A estimates the distance from s to a small, dynamically maintained set of attractors in the opposite search direction. These attractors serve as a surrogate for the full frontier, enabling rich heuristic guidance at a fraction of the computational expense while maintaining the optimality guarantees offered by F2F. We evaluate F2A across multiple domains and show that it reduces the number of pairwise evaluations by up to 11.2x compared to F2F, while achieving 4.8x fewer node expansions than F2E on average.

13:00 JST研究/論文

DyCon: 進化する難易度モデリングによる動的推論制御

大規模推論モデル (LRM) の最近の進歩では、複雑なタスクを反復的に反映、調査、実行することにより、パフォーマンスが大幅に向上しましたが、「過剰思考」として知られる冗長な推論による非効率性に悩まされています。この問題を軽減する既存の方法は、静的な難易度の推定に依存するか、タスク固有のトレーニングを必要とするため、推論中に動的な複雑さに適応できません。この研究では、問題の難易度が推論プロセス全体を通じて動的に変化し、LRM のステップレベルの埋め込みで線形にエンコードされることを経験的に示します。この洞察に基づいて、私たちは、潜在的なステップレベルの表現を活用して、進化するタスクの難易度を明示的にモデル化し、考えすぎの問題を軽減する推論の深さの動的な制御を可能にする、トレーニング不要のフレームワークである DyCon を提案します。 4B から 32B までの 4 つのモデルと、数的推論、一般的な質問応答、およびコーディング タスクにおける 12 のベンチマークにわたって行われた広範な実験により、DyCon が精度や汎用性を犠牲にすることなく冗長なステップを削減することで推論効率が大幅に向上することが実証されました。プロジェクト ページとコードは https://github.com/yu-lin-li/DyCon で入手できます。

原文 (English)

DyCon: Dynamic Reasoning Control via Evolving Difficulty Modeling

Recent advances in Large Reasoning Models (LRMs) demonstrate remarkable performance improvements by iteratively reflecting, exploring, and executing complex tasks, yet suffer from inefficiencies due to redundant reasoning, known as "overthinking". Existing methods to mitigate this issue either rely on static difficulty estimates or require task-specific training, and thus fail to adapt to the dynamic complexity during reasoning. In this work, we empirically show that the problem difficulty evolves dynamically throughout the reasoning process and is linearly encoded in the LRM's step-level embeddings. Building on this insight, we propose DyCon, a training-free framework that leverages latent step-level representations to explicitly model the evolving task difficulty, enabling the dynamic control of reasoning depth to mitigate the overthinking issue. Extensive experiments conducted on four models ranging from 4B to 32B, and across twelve benchmarks in math reasoning, general question answering, and coding tasks demonstrate that DyCon significantly enhances reasoning efficiency by reducing redundant steps without sacrificing accuracy or generalization. Code is available at https://github.com/yu-lin-li/DyCon.

13:00 JST研究/論文

Large Models for Time Series and Spatio-Temporal Data: A Survey and Outlook

Temporal data, including time series and spatio-temporal data, are pervasive in real-world applications. Generated in massive volumes by ph…

13:00 JST研究/論文

Toward autocorrection of chemical process flowsheets using large language models

The process engineering domain widely uses Process Flow Diagrams (PFDs) and Process and Instrumentation Diagrams (P&IDs) to represent proce…

13:00 JST研究/論文

Investigating the Histogram Loss in Regression

It is becoming increasingly common in regression to train neural networks that model the entire distribution even if only the mean is requi…

13:00 JST研究/論文

Strategic Integration of Artificial Intelligence in the C-Suite: The Role of the Chief AI Officer

The integration of Artificial Intelligence (AI) into corporate strategy has become critical for organizations seeking to maintain competiti…

13:00 JST研究/論文

Discovering Data Structures: Nearest Neighbor Search and Beyond

We propose a general framework for end-to-end learning of data structures. Our framework adapts to the underlying data distribution and pro…

13:00 JST研究/論文

Graph-to-SFILES: Control structure prediction from process topologies using generative artificial intelligence

Control structure design is an important but tedious step in P&ID development. Generative artificial intelligence (AI) promises to reduce P…

13:00 JST研究/論文

Complement or substitute? How AI increases the demand for human skills

Artificial Intelligence (AI) is transforming the nature of work, yet there is limited empirical evidence on how it affects demand for human…

13:00 JST研究/論文

FIT-Print: Towards False-claim-resistant Model Ownership Verification via Targeted Fingerprint

Model fingerprinting has emerged as a crucial mechanism for safeguarding the intellectual property of open-source models, offering a non-in…

13:00 JSTLLM/生成AI

Dealing with Annotator Disagreement in Hate Speech Classification

Hate speech detection is a crucial task, especially on social media where harmful content can spread quickly. Collecting social media conte…

13:00 JST画像/動画生成

Deep Tree Tensor Networks

Originating in quantum physics, tensor networks (TNs) have been widely adopted as exponential machines and parametric decomposers for recog…

13:00 JSTLLM/生成AI

Audio-FLAN: An Instruction-Following Dataset for Unified Audio Understanding and Generation of Speech, Music, and Sound

Recent advancements in audio tokenization have significantly enhanced the integration of audio capabilities into large language models (LLM…

13:00 JST研究/論文

Rule-based autocorrection of Piping and Instrumentation Diagrams (P&IDs) on graphs

A piping and instrumentation diagram (P&ID) is a central reference document in chemical process engineering. Currently, chemical engineers…

13:00 JST画像/動画生成

LoTUS: Large-Scale Machine Unlearning with a Taste of Uncertainty

We present LoTUS, a novel Machine Unlearning (MU) method that eliminates the influence of training samples from pre-trained models, avoidin…

13:00 JST画像/動画生成

Brain2Text Decoding Model Reveals the Neural Mechanisms of Visual Semantic Processing

Decoding sensory experiences from neural activity to reconstruct human-perceived visual stimuli and semantic content remains a challenge in…

13:00 JST研究/論文

Hyperflux: Pruning Reveals Importance

Network pruning is used to reduce inference latency and power consumption in large neural networks. However, most methods focus on empirica…

13:00 JST画像/動画生成

Robust Renal Mass Segmentation on CT: A Validation Study of an AI-Based Framework

Renal mass segmentation has important potential to enhance the clinical workflow, especially in settings requiring quantitative assessments…

13:00 JST研究/論文

Harmonia: End-to-End RAG Serving Optimization

Retrieval-Augmented Generation (RAG) improves the reliability of large language models by integrating external knowledge, but serving RAG p…

13:00 JST研究/論文

ePC: Fast and Deep Predictive Coding in Digital Simulation

Predictive Coding (PC) offers a brain-inspired alternative to backpropagation for neural network training, described as a physical system m…

13:00 JSTLLM/生成AI画像/動画生成GPT / ChatGPT

ACTIVE-o3: Empowering MLLMs with Active Perception via Pure Reinforcement Learning

Active vision, also known as active perception, refers to actively selecting where and how to look in order to gather task-relevant informa…

13:00 JSTLLM/生成AI

dLLM-Cache: Accelerating Diffusion Large Language Models with Adaptive Caching

Autoregressive Models (ARMs) have long dominated the landscape of Large Language Models. Recently, a new paradigm has emerged in the form o…

13:00 JSTLLM/生成AI

Failure by Interference: Language Models Make Balanced Parentheses Errors When Faulty Mechanisms Overshadow Sound Ones

Despite remarkable advances in coding capabilities, language models (LMs) still struggle with simple syntactic tasks such as generating bal…

13:00 JST研究/論文

AMix-1: A Pathway to Test-Time Scalable Protein Foundation Model

We introduce AMix-1, a powerful protein foundation model built on Bayesian Flow Networks and empowered by a systematic training methodology…

13:00 JST研究/論文Llama

Learning Task Mixtures from Task Affinities: A Probabilistic Graphical Model for Supervised Fine-Tuning

Supervised fine-tuning performance for large language models depends strongly on how training budget is distributed across a heterogeneous…

13:00 JST画像/動画生成

CLONE: A 3DGS-Based Closed-Loop Differentiable Optimization Framework for Single-Image Normal Estimation

We propose CLONE, a 3DGS-based Closed-Loop differentiable Optimization framework for single-image Normal Estimation. The core idea is to co…

13:00 JSTエージェント

Unsupervised Partner Design Enables Robust Ad-hoc Teamwork

We introduce Unsupervised Partner Design (UPD), a population-free multi-agent reinforcement learning method for robust ad-hoc teamwork. UPD…

13:00 JSTエージェント

In-Context Reinforcement Learning via Communicative World Models

Reinforcement learning (RL) agents often struggle to generalize to new tasks and contexts without updating their parameters, mainly because…

13:00 JST研究/論文

Discovering Expert-Level Nash Equilibrium Algorithms with Large Language Models

Designing polynomial-time algorithms for approximate Nash equilibria (ANE) with provable worst-case guarantees is a fundamental open proble…

13:00 JST画像/動画生成研究/論文

Video Understanding by Design: How Datasets Shape Video Models

Research in video understanding has advanced rapidly, driven by increasingly diverse datasets and more powerful model architectures. While…

13:00 JST画像/動画生成

I-Segmenter: Integer-Only Vision Transformer for Efficient Semantic Segmentation

Vision Transformers (ViTs) have recently achieved strong results in semantic segmentation, yet their deployment on resource-constrained dev…

13:00 JSTLLM/生成AI

Decoupling the "What" and "Where" With Polar Coordinate Positional Embeddings

The attention mechanism in a Transformer architecture matches key to query based on both content -- the what -- and position in a sequence…

13:00 JST研究/論文

MVCL-DAF++: Enhancing Multimodal Intent Recognition via Prototype-Aware Contrastive Alignment and Coarse-to-Fine Dynamic Attention Fusion

Multimodal intent recognition (MMIR) suffers from weak semantic grounding and poor robustness under noisy or rare-class conditions. We prop…

13:00 JSTLLM/生成AI研究/論文

Understanding Benchmark Language Under Weakened Formal Semantics

State-of-the-art NLP benchmarks require interpretation of natural language that specifies conditions, procedures, and exceptions, often rel…

13:00 JST研究/論文

Generation Properties of Stochastic Interpolation under Finite Training Set

This paper investigates the theoretical behavior of generative models under finite training populations. Within the stochastic interpolatio…

13:00 JSTLLM/生成AIエージェント研究/論文Claude

SecureVibeBench: Benchmarking Secure Vibe Coding of AI Agents via Reconstructing Vulnerability-Introducing Scenarios

Large language model-powered code agents are rapidly transforming software engineering, yet the security risks of their generated code have…

13:00 JST画像/動画生成

VFEM: Visual Feature Empowered Multivariate Time Series Forecasting with Cross-Modal Fusion

Large time series foundation models often adopt channel-independent architectures to handle varying data dimensions, but this design ignore…

13:00 JST画像/動画生成

Projection and Quantisation: A Unifying View of Learning to Hash, from Random Projections to the RAG Era

Approximate nearest neighbour (ANN) search underpins large-scale retrieval, increasingly within the retrieval-augmented generation pipeline…

13:00 JST研究/論文

Large Language Models for Imbalanced Classification: Diversity makes the difference

Oversampling is one of the most widely used approaches for addressing imbalanced classification. The core idea is to generate additional mi…

13:00 JSTLLM/生成AI

Efficient Onboard Vision-Language Inference in UAV-Enabled Low-Altitude Economy Networks via LLM-Enhanced Optimization

The rapid advancement of Low-Altitude Economy Networks (LAENets) has enabled a variety of applications, including aerial surveillance, envi…

13:00 JSTハードウェア/半導体

TAO: Tolerance-Aware Optimistic Verification for Floating-Point Neural Networks

Neural networks increasingly run on hardware outside the user's control (cloud GPUs, inference marketplaces). Yet ML-as-a-Service reveals l…

13:00 JSTLLM/生成AIエージェントClaudeOpenAI

PLAGUE: Plug-and-play framework for Lifelong Adaptive Generation of Multi-turn Exploits

Large Language Models (LLMs) are improving at an exceptional rate. With the advent of agentic workflows, multi-turn dialogue has become the…

13:00 JST研究/論文

SmartMixed: A Two-Phase Training Strategy for Adaptive Activation Function Learning in Neural Networks

The choice of activation function plays a critical role in neural networks, yet most architectures still rely on fixed, uniform activation…

13:00 JST研究/論文

Learning Quantized Continuous Controllers for Integer Hardware

Deploying continuous-control reinforcement learning policies on embedded hardware requires meeting tight latency and power budgets. Small F…

13:00 JSTLLM/生成AIハードウェア/半導体

Correcting Mean Bias in Text Embeddings: A Refined Renormalization with Training-Free Improvements on MMTEB

We find that current sentence-embedding models produce outputs with a consistent bias: every embedding $e$ decomposes as $\tilde e + \mu$,…

13:00 JSTLLM/生成AI画像/動画生成

SMART: Shot-Aware Multimodal Video Moment Retrieval with Audio-Enhanced MLLM

Video Moment Retrieval is a task in video understanding that aims to localize a specific temporal segment in an untrimmed video based on a…

13:00 JST画像/動画生成

AttnRegDeepLab: 解釈可能な胚断片化グレーディングのための 2 段階の分離フレームワーク

胚の断片化は、体外受精 (IVF) における発育の可能性を評価するために重要な形態学的指標です。ただし、手動によるグレーディングは主観的で非効率的であり、既存の深層学習ソリューションでは臨床的な説明性に欠けたり、セグメンテーション領域の推定で累積誤差が発生したりすることがよくあります。これらの問題に対処するために、この研究では、デュアルブランチ マルチタスク学習 (MTL) を特徴とするフレームワークである AttnRegDeepLab (注意誘導回帰ディープラボ) を提案します。バニラの DeepLabV3+ デコーダは、アテンション ゲートをスキップ接続に統合することで修正され、細胞質ノイズを明示的に抑制して輪郭の詳細を保持します。さらに、マルチスケール回帰ヘッドには、グローバル グレーディング事前分布をセグメンテーション タスクに伝播し、体系的な定量化エラーを修正するための特徴挿入メカニズムが導入されています。 MTL における勾配の競合に対処するために、2 段階の分離トレーニング戦略が提案されています。また、範囲ベースの損失は、弱くラベル付けされたデータを活用するように設計されています。私たちの方法は、輪郭の完全性を犠牲にしてグレーディング誤差を最小限に抑える可能性があるエンドツーエンドの対応物とは対照的に、優れたセグメンテーション精度 (Dice 係数 = 0.729) を維持しながら、堅牢なグレーディング精度を実現します。この研究は、視覚的な忠実性と定量的精度のバランスをとった臨床的に解釈可能なソリューションを提供します。

原文 (English)

AttnRegDeepLab: A Two-Stage Decoupled Framework for Interpretable Embryo Fragmentation Grading

Assessing embryo fragmentation is crucial for predicting IVF success, yet manual grading is prone to subjectivity, and existing AI models struggle with clinical interpretability and segmentation errors. We propose AttnRegDeepLab, a Multi-Task Learning (MTL) framework designed to solve these challenges. The model enhances a DeepLabV3+ decoder with Attention Gates to filter out cytoplasmic noise and retain sharp contour details. It also introduces a Multi-Scale Regression Head with Feature Injection, guiding the segmentation process with global grading priors to eliminate systematic area estimation errors. Based on a two-stage decoupled training strategy and a range-based loss for weakly labeled data, our method resolves MTL gradient conflicts. AttnRegDeepLab yields high grading precision and excellent segmentation quality (Dice coefficient = 0.729), avoiding the trade-off between contour integrity and grading accuracy seen under standard joint optimization. This provides a reliable, clinically interpretable tool balancing visual and quantitative accuracy.

13:00 JST画像/動画生成

SAGE: Shape-Adapting Gated Experts for Adaptive Histopathology Image Segmentation

The significant variability in cell size and shape continues to pose a major obstacle in computer-assisted cancer detection on gigapixel Wh…

13:00 JST画像/動画生成研究/論文

MedVision: Benchmarking Quantitative Medical Image Analysis

Current vision-language models (VLMs) in medicine are primarily designed for categorical question answering (e.g., "Is this normal or abnor…

13:00 JST研究/論文

SVRG and Beyond via Posterior Correction

Stochastic Variance Reduced Gradient (SVRG) and its variants aim to speed-up training by using gradient corrections. Originally proposed ov…

13:00 JST研究/論文

Developing Distance-Aware Physics-Constrained Probabilistic Frameworks for Industrial Prognostics

Development of reliable and physically interpretable probabilistic frameworks for industrial prognostics remain nascent, and existing liter…

13:00 JST研究/論文

Unambiguous Representations in Neural Networks: An Information-Theoretic Approach to Intentionality

Representations pervade our daily experience, from letters representing sounds to bit strings encoding digital files. While such representa…

13:00 JST研究/論文

FADTI: Fourier and Attention Driven Diffusion for Multivariate Time Series Imputation

Multivariate time series imputation is fundamental in applications such as healthcare, traffic forecasting, and biological modeling, where…

13:00 JST画像/動画生成

Collaborative Edge-to-Server Inference for Vision-Language Models

We propose a collaborative edge-to-server inference framework for vision-language models (VLMs) that reduces communication cost while maint…

13:00 JST研究/論文

Exploring the Effect of Basis Rotation on NQS Performance

Neural Quantum States (NQS) are powerful variational representations of quantum many-body wavefunctions, yet their performance depends sens…

13:00 JST研究/論文

GenTSE: Enhancing Target Speaker Extraction via a Coarse-to-Fine Generative Language Model

Language Model (LM)-based generative modeling has emerged as a promising direction for TSE, offering potential for improved generalization…

13:00 JSTLLM/生成AI

Supracompetitive Pricing Under AI Monoculture

When competing sellers delegate pricing to a shared AI model, such as a large language model, correlated recommendations combined with perf…

13:00 JST研究/論文

Adversarial Instance Generation and Robust Training for Neural Combinatorial Optimization with Multiple Objectives

Deep reinforcement learning (DRL) has shown great promise in addressing multi-objective combinatorial optimization problems (MOCOPs). Never…

13:00 JSTロボティクス

Vision-Based Early Fault Diagnosis and Self-Recovery for Strawberry Harvesting Robots

Strawberry-harvesting robots faced challenges such as poor visual perception, gripper misalignment, empty grasp/misgrasp, and slippage, whi…

13:00 JST研究/論文

A large-scale nanocrystal database with aligned synthesis and properties enabling generative inverse design

The synthesis of nanocrystals has been highly dependent on trial-and-error, due to the complex correlation between synthesis parameters and…

13:00 JST研究/論文

One if by Land, Two if by Sea, Three if by Four Seas, and More to Come -- Values of Perception, Prediction, Communication, and Common Sense in Decision Making

This work aims to rigorously define the values of perception, prediction, communication, and common sense in decision making. The defined q…

13:00 JSTLLM/生成AI

How Context Shapes Truth: Geometric Transformations of Statement-level Truth Representations in LLMs

Large Language Models (LLMs) often encode whether a statement is true as a vector in their residual stream activations. These vectors, also…

13:00 JST研究/論文

Revisiting Training Scale: An Empirical Study of Token Count, Power Consumption, and Parameter Efficiency

Research in machine learning has questioned whether increases in training token counts reliably produce proportional performance gains in l…

13:00 JSTLLM/生成AI

DYCP: Dynamic Context Pruning for Long-Form Dialogue with LLMs

Large Language Models (LLMs) increasingly operate over long-form dialogues with frequent topic shifts. While recent LLMs support extended c…

13:00 JSTLLM/生成AI

MMR-GRPO: Accelerating GRPO-Style Training through Diversity-Aware Reward Reweighting

Group Relative Policy Optimization (GRPO) has become a standard approach for training mathematical reasoning models; however, its reliance…

13:00 JSTLLM/生成AIGPT / ChatGPTLlama

A Comparative Study of Student Perspectives on Technical Writing Feedback Quality: Evaluating LLMs, SLMs, and Humans in Computer Science Topics

To address the scalability of feedback in computer science while mitigating the privacy and cost limitations of commercial Large Language M…

13:00 JSTLLM/生成AI

Multimodal Generative Engine Optimization: Rank Manipulation for Vision-Language Model Rankers

Vision-Language Models (VLMs) integrate visual and textual knowledge into unified representations that increasingly underpin modern retriev…

13:00 JSTLLM/生成AI研究/論文

XCR-Bench: Benchmarking Cross-Cultural Reasoning in LLMs via Culture-Specific Items and Hall's Triad

Cross-cultural competence in large language models (LLMs) requires understanding and adapting Culture-Specific Items (CSIs) across varying…

13:00 JSTLLM/生成AI

The Flexibility Trap: Rethinking the Value of Arbitrary Order in Diffusion Language Models

Diffusion Large Language Models (dLLMs) break the rigid left-to-right constraint of traditional LLMs, enabling token generation in arbitrar…

13:00 JSTLLM/生成AI画像/動画生成

CURE: Curriculum-guided Multi-task Training for Reliable Anatomy Grounded Report Generation

Medical vision-language models can automate the generation of radiology reports but struggle with accurate visual grounding and factual con…

13:00 JSTLLM/生成AIエージェント

Just-In-Time Reinforcement Learning: Continual Learning in LLM Agents Without Gradient Updates

While Large Language Model (LLM) agents excel at general tasks, they inherently struggle with continual adaptation due to the frozen weight…

13:00 JSTLLM/生成AI

Meeting SLOs, Slashing Hours: Automated Enterprise LLM Optimization with OptiKIT

Enterprise LLM deployment faces a critical scalability challenge: organizations must optimize models systematically to scale AI initiatives…

13:00 JST画像/動画生成ビジネス/資金調達

Comparative evaluation of training strategies using partially labelled datasets for segmentation of white matter hyperintensities and stroke lesions in FLAIR MRI

White matter hyperintensities (WMH) and ischaemic stroke lesions (ISL) are key imaging biomarkers of cerebral small vessel disease (SVD) de…

13:00 JST研究/論文

Mobility-Embedded POIs: Learning What A Place Is and How It Is Used from Human Movement

Recent progress in geospatial foundation models highlights the importance of learning general-purpose representations for real-world locati…

13:00 JSTLLM/生成AI

More Bang for the Buck: Improving the Inference of Large Language Models at a Fixed Budget using Reset and Discard (ReD)

The performance of large language models (LLMs) on verifiable tasks is usually measured by pass@k, the probability of answering a question…

13:00 JSTLLM/生成AI

Mechanistic Data Attribution: Tracing the Training Origins of Interpretable LLM Units

While Mechanistic Interpretability has identified interpretable circuits in LLMs, their causal origins in training data remain elusive. We…

13:00 JST研究/論文

UA-DCM: Uncertainty-aware Causal Decision Making via Effect Bound Decomposition

Causal inference from observational data can provide strong evidence for finding the best action in a decision-making scenario without havi…

13:00 JSTLLM/生成AIエージェント

MEnvAgent: Scalable Polyglot Environment Construction for Verifiable Software Engineering

The evolution of Large Language Model (LLM) agents for software engineering (SWE) is constrained by the scarcity of verifiable datasets, a…

13:00 JST画像/動画生成

VideoGPA: Distilling Geometry Priors for 3D-Consistent Video Generation

While recent video diffusion models (VDMs) produce visually impressive results, they fundamentally struggle to maintain 3D structural consi…

13:00 JST研究/論文

How Hyper-Datafication Impacts the Sustainability Costs in Frontier AI

Large-scale data has fuelled the success of frontier artificial intelligence (AI) models over the past decade. This expansion has relied on…

13:00 JSTLLM/生成AI

DIVERGE: Diversity-Enhanced RAG for Open-Ended Information Seeking

Existing retrieval-augmented generation (RAG) systems often assume that each query has a single correct answer. This assumption overlooks o…

13:00 JSTLLM/生成AI

Reward Shaping for (Inference-Time) Alignment: A Stackelberg Game Perspective

Existing alignment methods directly use the reward model learned from user preference data to optimize an LLM policy, subject to KL regular…

13:00 JST研究/論文

Performative Learning Theory

Performative predictions influence the very outcomes they aim to forecast. We study performative predictions that affect a sample (e.g., on…

13:00 JSTLLM/生成AI

Variational Speculative Decoding: Rethinking Draft Training from Token Likelihood to Sequence Acceptance

Speculative decoding accelerates inference for (M)LLMs, yet a training-decoding discrepancy persists: while existing methods optimize singl…

13:00 JSTエージェントClaude

Implementing Grassroots Logic Programs with Multiagent Transition Systems and AI (Full Version)

Grassroots Logic Programs (GLP) is a concurrent logic programming language in which logic variables are partitioned into paired readers and…

13:00 JSTLLM/生成AI

Generative Reasoning Re-ranker

Recent studies increasingly explore Large Language Models (LLMs) as a new paradigm for recommendation systems due to their scalability and…

13:00 JSTLLM/生成AIエージェントClaude

When Benign Inputs Lead to Severe Harms: Eliciting Unsafe Unintended Behaviors of Computer-Use Agents

Although computer-use agents (CUAs) hold significant potential to automate increasingly complex OS workflows, they can demonstrate unsafe u…

13:00 JSTビジネス/資金調達NVIDIA

Kunlun: Establishing Scaling Laws for Massive-Scale Recommendation Systems through Unified Architecture Design

Deriving predictable scaling laws that govern the relationship between model performance and computational investment is crucial for design…

13:00 JST研究/論文

Cosmo3DFlow: Wavelet Flow Matching for Spatial-to-Spectral Compression in Reconstructing the Early Universe

Reconstructing the early universe from the evolved present-day universe is a challenging and computationally demanding problem in modern as…

13:00 JSTロボティクス

Transforming Police-Car Swerving for Mitigating Isolated Stop-and-Go Traffic Waves: A Practice-Oriented Jam-Absorption Driving Strategy

Stop-and-go traffic waves, a major form of freeway congestion, impose severe and persistent adverse impacts, including reduced traffic effi…

13:00 JST研究/論文

On the Complexity of Offline Reinforcement Learning with $Q^\star$-Approximation and Partial Coverage

We study offline reinforcement learning under $Q^\star$-approximation and partial coverage, a setting that motivates practical algorithms s…

13:00 JSTLLM/生成AI

Know More, Know Clearer: A Meta-Cognitive Framework for Knowledge Augmentation in Large Language Models

Knowledge augmentation has significantly enhanced the performance of Large Language Models (LLMs) in knowledge-intensive tasks. However, ex…

13:00 JSTLLM/生成AI

Prescriptive Scaling Reveals the Evolution of Language Model Capabilities

Machine learning model performance improvements tend to arise from competition and application. For deployment, we consider prescriptive sc…

13:00 JSTLLM/生成AI

Condition-Gated Reasoning for Context-Dependent Biomedical Question Answering

Current biomedical question answering (QA) systems often assume that medical knowledge applies uniformly, yet real-world clinical reasoning…

13:00 JST研究/論文

Training-Free Intelligibility-Guided Observation Addition for Noisy ASR

Automatic speech recognition (ASR) degrades severely in noisy environments. Although speech enhancement (SE) front-ends effectively suppres…

13:00 JSTLLM/生成AI

Scaling Search Relevance: Augmenting App Store Ranking with LLM-Generated Judgments

Large-scale commercial search systems optimize for relevance to drive successful sessions that help users find what they are looking for. T…

13:00 JST画像/動画生成Google

A Mixed Diet Makes DINO An Omnivorous Vision Encoder

Pre-trained vision encoders like DINOv2 have demonstrated exceptional performance on unimodal tasks. However, we observe that their feature…

13:00 JSTLLM/生成AIエージェント

From Conflict to Consensus: Boosting Medical Reasoning via Multi-Round Agentic RAG

Large Language Models (LLMs) exhibit high reasoning capacity in medical question-answering, but their tendency to produce hallucinations an…

13:00 JSTLLM/生成AIエージェント

CodeTaste: Can LLMs Generate Human-Level Code Refactorings?

LLM coding agents can generate working code, but their solutions often accumulate complexity, duplication, and architectural debt. Human de…

13:00 JSTLLM/生成AINVIDIA

POET-X: Memory-efficient LLM Training by Scaling Orthogonal Transformation

Efficient and stable training of large language models (LLMs) remains a core challenge in modern machine learning systems. To address this…

13:00 JSTLLM/生成AIビジネス/資金調達

Context Over Compute Human-in-the-Loop Outperforms Iterative Chain-of-Thought Prompting in Interview Answer Quality

Behavioral interview evaluation using large language models presents unique challenges that require structured assessment, realistic interv…

13:00 JSTLLM/生成AI

RetroReasoner: A Reasoning LLM for Strategic Retrosynthesis Prediction

Retrosynthesis prediction aims to identify reactants that can synthesize a given product molecule. Although molecular large language models…

13:00 JSTLLM/生成AI

How Transformers Reject Wrong Answers: Rotational Dynamics of Factual Constraint Processing

When a decoder-only transformer is forced to process matched correct and incorrect single-token continuations of a factual query, the two p…

13:00 JST研究/論文

CHIMERA-Bench: A Benchmark Dataset for Epitope-Specific Antibody Design

Computational antibody design has seen rapid methodological progress, with dozens of deep generative methods proposed in the past three yea…

13:00 JST画像/動画生成GPT / ChatGPT

AgroOmni: A Large-Scale Multi-view Agricultural Dataset for Cross-Scale Multimodal Reasoning

Modern agricultural data is sourced from diverse platforms and spans multiple spatial scales, ranging from ground-level close-up photograph…

13:00 JSTLLM/生成AI

Component Ablation for Efficient Hybrid Language Model Architectures: Performance, Resilience, and Compression Implications

Hybrid language models combine softmax attention with linear-time sequence mechanisms such as state-space or linear-attention layers, but t…

13:00 JSTLLM/生成AI画像/動画生成

DecepGPT: Schema-Driven Deception Detection with Multicultural Datasets and Robust Multimodal Learning

Multimodal deception detection aims to identify deceptive behavior by analyzing audiovisual cues for forensics and security. In these high-…

13:00 JST画像/動画生成

Vision Hopfield Memory Networks for Image Recognition

Recent vision backbones, such as Transformer families and state-space models like Mamba, have achieved remarkable progress on image recogni…

13:00 JSTLLM/生成AI

Train at Moving Edge: Online-Verified Prompt Selection for Efficient RL Training of Large Reasoning Model

Reinforcement learning (RL) has become essential for post-training large language models (LLMs) in reasoning tasks. While scaling rollouts…

13:00 JSTLLM/生成AI

UnWeaving the knots of GraphRAG -- turns out VectorRAG is almost enough

One of the key problems in Retrieval-augmented generation (RAG) systems is that chunk-based retrieval pipelines represent the source chunks…

13:00 JSTLLM/生成AIエージェント

Automated Framework to Evaluate and Harden LLM System Instructions against Encoding Attacks

System Instructions in Large Language Models (LLMs) are commonly used to enforce safety policies, define agent behavior, and protect sensit…

13:00 JSTLLM/生成AIビジネス/資金調達

Distributional Open-Ended Evaluation of LLM Cultural Value Alignment Based on Value Codebook

As LLMs are globally deployed, aligning their cultural value orientations is critical for safety and user engagement. However, existing ben…

13:00 JSTLLM/生成AI

Securing Retrieval-Augmented Generation: A Taxonomy of Attacks, Defenses, and Future Directions

Retrieval-augmented generation (RAG) extends large language models (LLMs) with external knowledge, but this access path also introduces sec…

13:00 JSTLLM/生成AI

SatIR: Scalable High-Recall Constraint-Satisfaction-Based Information Retrieval for Clinical Trials Matching

Many important retrieval problems are not merely problems of semantic similarity, but problems of constraint satisfaction: a retrieved item…

13:00 JST研究/論文GPT / ChatGPTLlama

Muon$^2$: Boosting Muon via Adaptive Second-Moment Preconditioning

Muon has emerged as a promising optimizer for large-scale foundation model pre-training by exploiting the matrix structure of neural networ…

13:00 JSTLLM/生成AIエージェント

Resilient Write: A Six-Layer Durable Write Surface for LLM Coding Agents

LLM-powered coding agents increasingly rely on tool-use protocols such as the Model Context Protocol (MCP) to read and write files on a dev…

13:00 JST研究/論文

Capacity-Controlled Global Attention for Graph Transformers

Global self-attention drives modern graph transformers, yet the softmax at its core imposes a structural constraint rarely examined directl…

13:00 JSTLLM/生成AIビジネス/資金調達

Multilingual Training and Evaluation Resources for Vision-Language Models

Vision Language Models (VLMs) achieved rapid progress in the recent years. However, despite their growth, VLMs development is heavily groun…

13:00 JST研究/論文

Watts-per-Intelligence Part II: Algorithmic Catalysis

We develop a thermodynamic theory of algorithmic catalysis within the watts per intelligence framework, identifying reusable computational…

13:00 JST画像/動画生成

Knee-xRAI: An Explainable AI Framework for Automatic Kellgren-Lawrence Grading of Knee Osteoarthritis

Grading knee osteoarthritis (KOA) on plain radiographs is poorly reproducible across readers. A single-grade disagreement on the Kellgren-L…

13:00 JST研究/論文

Speech Enhancement Based on Drifting Models

We propose Speech Enhancement based on Drifting Models (DriftSE), a novel generative framework that formulates denoising as an equilibrium…

13:00 JST研究/論文

RAS: a Reliability Oriented Metric for Automatic Speech Recognition

Automatic speech recognition systems often produce confident yet incorrect transcriptions under noisy or ambiguous conditions, which can be…

13:00 JSTLLM/生成AIエージェント

Agentic AI のスキル取得の拡張

大規模言語モデル (LLM) がエージェントの問題解決ツールに進化するにつれて、ネイティブのパラメトリック機能を超えたタスクを処理するために外部の再利用可能なスキルにますます依存するようになります。既存のエージェント システムでは、スキルを組み込むための主な戦略は、コンテキスト ウィンドウ内で利用可能なスキルを明示的に列挙することです。しかし、この戦略は拡張できません。スキル コーパスが拡大するにつれて、コンテキスト バジェットが急速に消費され、エージェントが適切なスキルを識別する精度が著しく低下します。この目的を達成するために、この文書では、エージェントがオンデマンドで大規模な外部スキル コーパスから関連するスキルを動的に取得、組み込み、適用する新しいパラダイムであるスキル検索拡張 (SRA) を定式化します。この問題を測定可能にするために、大規模なスキル コーパスを構築し、スキルの取得、スキルの組み込み、および最終タスクの実行をカバーする完全な SRA パイプラインの分解評価のための最初のベンチマークである SRA-Bench を導入します。 SRA-Bench には、5,400 の能力集約型テスト インスタンスと、手動で構築された 636 個のゴールド スキルが含まれています。これらは、Web で収集されたディストラクタ スキルと混合されて、26,262 個のスキルの大規模コーパスを形成します。広範な実験により、検索ベースのスキル強化によりエージェントのパフォーマンスが大幅に向上することが示され、パラダイムの有望性が実証されました。同時に、スキルの組み込みにおける根本的なギャップも明らかになりました。現在の LLM エージェントは、ゴールド スキルが取得されるかどうか、またはタスクが実際に外部機能を必要とするかどうかに関係なく、同様の速度でスキルをロードする傾向があります。これは、スキル拡張のボトルネックが取得だけでなく、どのスキルをロードするか、いつ外部ロードが実際に必要かを決定する基本モデルの機能にもあることを示しています。これらの発見は、SRA を明確な研究課題として位置づけ、将来のエージェント システムにおけるスケーラブルな機能拡張の基盤を確立します。

原文 (English)

Skill Retrieval Augmentation for Agentic AI

As large language models (LLMs) evolve into agentic problem solvers, they increasingly rely on external, reusable skills to handle tasks beyond their native parametric capabilities. In existing agent systems, the dominant strategy for incorporating skills is to explicitly enumerate available skills within the context window. However, this strategy fails to scale: as skill corpora expand, context budgets are consumed rapidly, and the agent becomes markedly less accurate in identifying the right skill. To this end, this paper formulates Skill Retrieval Augmentation (SRA), a new paradigm in which agents dynamically retrieve, incorporate, and apply relevant skills from large external skill corpora on demand. To make this problem measurable, we construct a large-scale skill corpus and introduce SRA-Bench, the first benchmark for decomposed evaluation of the full SRA pipeline, covering skill retrieval, skill incorporation, and end-task execution. SRA-Bench contains 5,400 capability-intensive test instances and 636 manually constructed gold skills, which are mixed with web-collected distractor skills to form a large-scale corpus of 26,262 skills. Extensive experiments show that retrieval-based skill augmentation can substantially improve agent performance, validating the promise of the paradigm. At the same time, we uncover a fundamental gap in skill incorporation: current LLM agents tend to load skills at similar rates, regardless of whether a gold skill is retrieved or whether the task actually requires external capabilities. This shows that the bottleneck in skill augmentation lies not only in retrieval but also in the base model's ability to determine which skill to load and when external loading is actually needed. These findings position SRA as a distinct research problem and establish a foundation for the scalable augmentation of capabilities in future agent systems.

13:00 JST研究/論文

Simple Self-Conditioning Adaptation for Masked Diffusion Models

Masked diffusion models (MDMs) generate discrete sequences by iterative denoising under an absorbing masking process. In standard masked di…

13:00 JST画像/動画生成

When Do Diffusion Models learn to Generate Multiple Objects?

Text-to-image diffusion models achieve impressive visual fidelity, yet they remain unreliable in multi-object generation. Despite extensive…

13:00 JSTLLM/生成AI

DynamicPO: Dynamic Preference Optimization for Recommendation

In large language model (LLM)-based recommendation systems, direct preference optimization (DPO) effectively aligns recommendations with us…

13:00 JST研究/論文

Learning Behavioral Signals from Encrypted Smartphone Network Traffic

Human behavior is challenging to measure continuously at scale, yet traces of daily routines and well-being may be reflected in interaction…

13:00 JST研究/論文

Kernel Affine Hull Machines as Compute-Efficient Encoders for Frozen Semantic Spaces

Transformer-based semantic encoders are effective for retrieval, but in many deployments the recurring bottleneck is online query encoding…

13:00 JSTLLM/生成AI

Neuron-Anchored Rule Extraction for Large Language Models via Contrastive Hierarchical Ablation

A central goal of explainable AI is to express large language model (LLM) decision logic symbolically and ground it in internal mechanisms.…

13:00 JST研究/論文Llama

Self-Mined Hardness for Safety Fine-Tuning

Safety fine-tuning of language models typically requires a curated adversarial dataset. We take a different approach: score each candidate…

13:00 JST研究/論文

APEX: Large-scale Multi-task Aesthetic-Informed Popularity Prediction for AI-Generated Music

Music popularity prediction has attracted growing research interest, with relevance to artists, platforms, and recommendation systems. Howe…

13:00 JST画像/動画生成

NavOne: One-Step Global Planning for Vision-Language Navigation on Top-Down Maps

Existing Vision-Language Navigation (VLN) methods typically adopt an egocentric, step-by-step paradigm, which struggles with error accumula…

13:00 JST研究/論文

MinMax Recurrent Neural Cascades

We introduce MinMax Recurrent Neural Cascades (MinMax RNCs), a class of recurrent neural networks built from a novel form of recurrence ove…

13:00 JSTLLM/生成AIハードウェア/半導体NVIDIA

From Detection to Recovery: Operational Analysis on LLM Pre-training with 504 GPUs

Large-scale AI training is now fundamentally a distributed systems problem, and hardware failures have become routine operating conditions…

13:00 JSTLLM/生成AIエージェント

CalBench: Evaluating Coordination-Privacy Trade-offs in Multi-Agent LLMs

Personal AI assistants are beginning to act as delegates with access to calendars, inboxes, and user preferences. Calendar scheduling makes…

13:00 JST画像/動画生成

Quantifying Rodda and Graham Gait Classification from 3D Markerless Kinematics derived from a Single-view Video in a Heterogeneous Pediatric Clinical Cohort

Cerebral Palsy (CP) is a neurological disorder of movement and the most common cause of lifelong physical disability in childhood. Approxim…

13:00 JST研究/論文

Improving the Performance and Learning Stability of Parallelizable RNNs Designed for Ultra-Low Power Applications

Sequence learning is dominated by Transformers and parallelizable recurrent neural networks (RNNs) such as state-space models, yet learning…

13:00 JST研究/論文Llama

High-Rate Quantized Matrix Multiplication II

This is the second part of the work investigating quantized matrix multiplication (MatMul). In part I we considered the case of calibration…

13:00 JSTLLM/生成AI

Margin-Adaptive Confidence Ranking for Reliable LLM Judgement

Jung et al. (2025) introduce a hypothesis testing framework for guaranteeing agreement between large language models (LLMs) and human judgm…

13:00 JSTLLM/生成AI

Ghosted Layers: Unconstrained Activation Alignment for Recovering Layer-Pruned LLMs

Layer pruning removes entire Transformer decoder blocks from large language models, but introduces a mismatch between the hidden state rece…

13:00 JST画像/動画生成ビジネス/資金調達

Evaluating Design Video Generation: Metrics for Compositional Fidelity

Generative video models are increasingly used in design animation tasks, yet no standardized evaluation framework exists for this domain. U…

13:00 JSTLLM/生成AI

Full Attention Strikes Back: Transferring Full Attention into Sparse within Hundred Training Steps

Long-context inference in large language models is bottlenecked by the quadratic cost of full attention. Existing efficient alternatives of…

13:00 JST研究/論文Claude

WhiteTesseract: Reframing the Interpretation of Cultural Heritage through XR and Conversational AI

Cultural heritage exhibitions often struggle to sustain attention and support reflective engagement. Physical exhibitions rely on fixed int…

13:00 JSTハードウェア/半導体

LEAP: Learnable End-to-End Adaptive Pruning of Large Language Models

Unstructured sparsity is now natively accelerated by recent GPU kernels and dataflow hardware, shifting the bottleneck from inference execu…

13:00 JSTLLM/生成AI

ConflictRAG: Detecting and Resolving Knowledge Conflicts in Retrieval Augmented Generation

Retrieval-Augmented Generation (RAG) systems implicitly assume mutual consistency among retrieved documents -- an assumption that frequentl…

13:00 JSTLLM/生成AI

Post-Trained MoE Can Skip Half Experts via Self-Distillation

Mixture-of-Experts (MoE) scales language models efficiently through sparse expert activation, and its dynamic variant further reduces compu…

13:00 JSTLLM/生成AI

Diagnosing Multi-step Reasoning Failures in Black-box LLMs via Stepwise Confidence Attribution

Large Language Models have achieved strong performance on reasoning tasks with objective answers by generating step-by-step solutions, but…

13:00 JSTLLM/生成AI

FormalASR: End-to-End Spoken Chinese to Formal Text

Automatic speech recognition (ASR) systems are typically optimized for verbatim transcription, which preserves disfluencies, filler words,…

13:00 JST研究/論文

Causal Unlearning in Collaborative Optimization: Exact and Approximate Influence Reversal under Adversarial Contributions

Federated learning systems must support data deletion requests to comply with privacy regulations, yet retraining from scratch after each d…

13:00 JST画像/動画生成

DySink: Dynamic Frame Sinks for Autoregressive Long Video Generation

Autoregressive long video generation often adopts bounded-memory streaming for efficiency, typically combining local windows for short-term…

13:00 JST画像/動画生成

CrossVLA: Cross-Paradigm Post-Training and Inference Optimization for Vision-Language-Action Models

Vision-Language-Action (VLA) models have rapidly converged on a small set of architectural patterns: discrete-token autoregression (e.g. Op…

13:00 JSTLLM/生成AIエージェント

DeltaBox: Scaling Stateful AI Agents with Millisecond-Level Sandbox Checkpoint/Rollback

LLM-powered AI agents require high-frequency state exploration (e.g., test-time tree search and reinforcement learning), relying on rapid c…

13:00 JST画像/動画生成ビジネス/資金調達

メタ学習による費用対効果の高いモデル評価

機械学習の急速な成長により、拡大し続けるモデルのエコシステムが生み出され、目に見えないラベルのないデータに対して新しくリリースされたモデルの信頼性を検証することがますます困難になっています。従来の評価パイプラインは、高価なアノテーション、繰り返しの微調整、またはモデル ファミリ間での転送ができない狭い仮定に依存しています。さまざまなアーキテクチャやモダリティにまたがる未確認のモデルをラベルなしで迅速に評価するための、コスト効率が高く、モデルに依存しないフレームワークである MetaEvaluator を紹介します。 MetaEvaluator は、参照モデルのプールに対するメタ学習を利用して転送可能な初期化を取得し、プール全体でコストを償却しながら、モデルごとの再トレーニングの必要性を排除しながら、新しいモデルの正確な評価を可能にします。私たちの知る限り、これは完全にラベルのないデータセットで新しいモデルを評価できる、モデルに依存しない最初のフレームワークです。広範な実験により、MetaEvaluator は従来のアプローチと比較して大幅にコストを削減しながら安定した正確なパフォーマンス推定値を生成し、ラベルのないデータに対する新しいモデルのスケーラブルなベンチマークを実用化できることが示されています。

原文 (English)

Learning to Evaluate: Cost-Effective Model Evaluation on Unlabeled Data with Meta-Learning

The rapid advancement of machine learning has led to an unprecedented expansion of model ecosystems, making it increasingly difficult to assess the reliability of newly released models on unseen and unlabeled data. Existing evaluation pipelines typically rely on costly annotation, repeated fine-tuning, or assumptions that do not generalize well to new models. We introduce MetaEvaluator, a cost-effective, model-agnostic framework for fast, label-free evaluation of unseen models across diverse architectures and modalities. MetaEvaluator meta-learns over a pool of reference models to acquire an effective initialization for accurate assessment of unseen models, thereby amortizing evaluation cost and eliminating the need for per-model retraining. To the best of our knowledge, this is the first model-agnostic framework that evaluates new models on unlabeled datasets. Extensive experiments demonstrate that MetaEvaluator delivers stable and accurate performance estimates at substantially lower cost than conventional approaches, enabling scalable benchmarking on unlabeled datasets for emerging models. The code is available at: https://github.com/phkhanhtrinh23/MetaEvaluator.

13:00 JSTLLM/生成AIエージェントClaude

LLM エージェントはいくつのツールを参照する必要がありますか?偶然に修正された答え

LLM エージェントがツールを使用できるようになる前に、検索システムはどの候補ツールをエージェントに表示するかを決定する必要があります。その最終候補リストはどれくらいの長さでなければなりませんか?ツールが多すぎると、モデルを選択するのに苦労します。表示数が少なすぎると、正しいツールが表示されない可能性があります。ほとんどのシステムは、すべてのクエリに固定の候補リスト サイズを適用しますが、そのサイズが適切かどうかを評価するための標準的な指標は存在しません。私たちは LLM エージェントに示されたツールの数を評価の対象として扱い、ビット オーバー ランダム (BoR) を適用します。これは、特定の深さでの成功が、同じ深さでのランダム選択の成功よりも優れているかどうかを問う確率補正メトリクスです。当社は、3 つのツール選択ベンチマーク、複数のスコアラー、および 20 ~ 3,251 のツールにわたるレジストリにわたって BoR を評価します。次に、同じ原則を、クエリごとにツール候補リストの深さを選択するための強化学習 (RL) 報酬に変換します。 RL エージェントは意図的に単純になっており、提案されたシステムではなくメトリックのプローブとして機能します。候補リストが大きくなるにつれて、正しいツールが含まれるランダムな確率が高まるため、報酬は自然に減少し、設計された深さペナルティの必要性が減ります。 BFCL (370 ツール) では、学習されたポリシーは 50 個のツールを表示するカバレッジとほぼ一致します ($90.3\%$ 対 $90.8\%$) が、平均では 7 個しか表示されません。 ToolBench (3,251 ツール) では、5 つのツールの固定候補リストはより高い集計カバレッジ ($64.7\%$ 対 $61.9\%$) を達成していますが、ハード クエリでは何も見つかりません (正しいツールは 6 ~ 20 位にランクされています)。 BoR エージェントはさらに詳しく検索することで、同じクエリで $16.7\%$ を見つけます。 Claude Sonnet 4.6 による下流の検証では、アダプティブ リストが短いと、適切なツールを選択する LLM の能力も向上することが示されています。常に 5 つのツールが表示される場合、$93.1\%$ 対 $87.1\%$ であり、適切なツールが存在するが最初にランク付けされていない中難易度のクエリでは、$76.8\%$ 対 $60.9\%$ に広がります。

原文 (English)

How Many Tools Should an LLM Agent See? A Chance-Corrected Answer

Before an LLM agent can use a tool, a retrieval system must decide which candidate tools to show to the agent. How long should that shortlist be? Show too many tools and the model struggles to choose. Show too few and the correct tool may not appear. Most systems apply a fixed shortlist size to every query, but no standard metric exists to evaluate whether that size was appropriate. We treat the number of tools shown to an LLM agent as the object of evaluation and we apply Bits-over-Random (BoR), a chance-corrected metric that asks whether success at a given depth is better than what random selection would achieve at that same depth. We evaluate BoR across three tool-selection benchmarks, multiple scorers, and registries ranging from 20 to 3,251 tools. We then turn the same principle into a reinforcement learning (RL) reward for choosing tool shortlist depth per query. The RL agent is deliberately simple, serving as a probe of the metric rather than a proposed system. As the shortlist grows, random chance of including the correct tool rises, so the reward naturally decreases, reducing the need for an engineered depth penalty. On BFCL (370 tools), the learned policy nearly matches the coverage of showing 50 tools ($90.3\%$ vs $90.8\%$) while presenting only 7 on average. On ToolBench (3,251 tools), a fixed shortlist of 5 tools achieves higher aggregate coverage ($64.7\%$ vs $61.9\%$) but finds nothing on hard queries (correct tool ranked 6th-20th). The BoR agent finds $16.7\%$ on those same queries by searching deeper. Downstream validation with Claude Sonnet 4.6 indicates that shorter adaptive lists also improve the LLM's ability to select the right tool: $93.1\%$ versus $87.1\%$ when always shown 5 tools, widening to $76.8\%$ vs $60.9\%$ on medium-difficulty queries where the correct tool is present but not ranked first.

13:00 JST研究/論文

リーマン多様体ステアリング: ラベルフリー ステアリングのためのジオメトリを意識した生成オートエンコーダー

言語モデルのステアリング (内部アクティベーションに介入して下流の動作を変更する) は、最近、線形補間を超えて、アクティベーション空間内のパス上の明示的なジオメトリを学習せずに介入変換を定義する角度ステアリングやカーネル化ステアリングなどの非線形手法に拡張されています。新たに導入された幾何学認識多様体メソッドは、そのような幾何学を学習しますが、指定された循環構造または逐次構造とともにラベル付けされたクラス重心を必要とします。既存の構造ではラベル付けされた重心と互換性のある境界条件が必要なため、これらの仮定はマニホールド ステアリングを適用できる場所を制限します。多様体ステアリングを活性化空間上の \textbf{リーマン測地線計算} としてより広範に再キャストし、特定の計量選択の下で線形およびラベル付きスプライン ステアリングを測地線として復元します。このフレームワーク内の原則的な指標は、活性化まで引き戻される出力空間のヘリンジャー距離です。これを、小さな概念トークン スキーマ上の出力距離でトレーニングされた学習済みエンコーダーで近似します。プロンプトごとのラベル、事前のトポロジー、タスクごとの曲線フィッティングはありません。経験的に、このメソッドは、標準的な 4 タスク言語モデルの算術ベンチマークのすべてのタスクにわたってモデルをターゲット クラスに確実に駆動し、より小さな出力空間でのベースラインよりも動作的に自然な軌跡をたどります。これにより、ラベル付き重心や規定の境界条件なしで動作するスキーマ監視のラベルフリーインスタンス化とともに、多様体ステアリングのための統一リーマンフレームワークを提供します。

原文 (English)

Riemannian-Manifold Steering: Geometry-Aware Generative Autoencoders for Label-Free Steering

Steering a language model - intervening on its internal activations to change downstream behaviour - has recently expanded beyond linear interpolation to nonlinear methods such as angular and kernelized steering, which define intervention transformations without learning an explicit geometry over paths in activation space. Freshly introduced geometry-aware manifold methods do learn such a geometry, but require labelled class centroids together with prescribed cyclic or sequential structure. These assumptions restrict where manifold steering can be applied, since existing constructions require labelled centroids and compatible boundary conditions. We recast manifold steering more broadly as \textbf{Riemannian geodesic computation} on activation space, recovering linear and labelled-spline steering as geodesics under particular choices of metric. A principled metric within this framework is the output-space Hellinger distance pulled back to activations; we approximate this with a learned encoder trained on output distances over a small concept-token schema - no per-prompt labels, no topology prior, and no per-task curve fitting. Empirically, the method reliably drives the model onto the target class across all tasks in a standard four-task language-model arithmetic benchmark, while following more behaviourally natural trajectories than baselines on smaller output spaces. We thereby provide a unified Riemannian framework for manifold steering together with a schema-supervised, label-free instantiation that operates without labelled centroids or prescribed boundary conditions.

13:00 JST研究/論文

自己回帰言語モデルにおける多項式コンテキスト切り捨ての感度: KV キャッシュ圧縮のシーケンシャル Wyner-Ziv 境界

私たちは、自己回帰言語モデルにおけるオンライン KV キャッシュ圧縮のレート歪み限界を研究し、デコーダ側情報として次のステップのクエリを使用して、モデルによって引き起こされるフィルタリング上の逐次 Wyner-Ziv ソース コーディングとして定式化します。経験的に、2 つのファミリーと $0.5$-$3$B パラメーターにまたがる 4 つのモデル全体で、コンテキスト切り捨てに対するネクストトークン分布の感度が \emph{幾何学的} ではなく \emph{多項式} に減衰することがわかります。べき乗則は外挿において指数関数近似を 1 桁改善し、近似された指数はシンクと最近の KL 測定から独立して回復され、減衰に影響がないことが検証されます。位置保存アブレーションによる位置エンコーディングアーチファクト。対応する \emph{多項式切り捨て感度} の仮定の下で、主な結果は \emph{サフィックスのみ} キャッシュ ポリシーのトークンごとのメモリ要件を特徴づけます。スライディング ウィンドウ スキームはウィンドウ $w = O(\varepsilon^{-1/\alpha})$ で歪み $\varepsilon$ を達成します。そして -- 追加の両側ベイズ リスク条件の下では -- 逆は $w = を示します。このポリシー クラス内では \Omega(\varepsilon^{-1/\alpha})$ が必要であるため、サフィックスのみのポリシーのスケーリングは $\Theta(\varepsilon^{-1/\alpha})$ です。再帰キャッシュ要約または伝播キャッシュ要約がこのスケーリングを上回ることができるかどうかは不明のままです。明示的なブロック マルコフ スキームは上限を達成します。その収束率指数は、追加の前方減衰仮説と規則性仮説 (打ち切り感度だけでは暗示されない) の下ではその逆と一致しますが、それ以外の場合は 2 倍異なります。経験的に、多項式法則は具体的なキャッシュ ポリシーの劣化曲線を予測します。つまり、リーセンシー ベースのエビクション (スライディング、シンク プラス 最近) は、等しいバジェットでのランダムな保持に比べて歪みをおよそ 2 桁抑制し、バジェットのべき乗則の減衰を伴います。

原文 (English)

Polynomial Context-Truncation Sensitivity in Autoregressive Language Models: Sequential Wyner-Ziv Bounds for KV Cache Compression

We study the rate-distortion limits of online KV cache compression in autoregressive language models, formulating it as sequential Wyner-Ziv source coding on the filtration induced by the model, with the next-step query as decoder side information. Empirically, across four models spanning two families and $0.5$-$3$B parameters, we find that the next-token distribution's sensitivity to context truncation decays \emph{polynomially} rather than \emph{geometrically}: a power law improves on an exponential fit by an order of magnitude in extrapolation, the fitted exponent is recovered independently from a sink-plus-recent KL measurement, and the decay is verified to be free of positional-encoding artifacts by a position-preserving ablation. Under a corresponding \emph{polynomial truncation-sensitivity} assumption, our main result characterizes the per-token memory requirement of \emph{suffix-only} cache policies: a sliding-window scheme attains distortion $\varepsilon$ with window $w = O(\varepsilon^{-1/\alpha})$, and -- under an additional two-sided Bayes-risk condition -- a converse shows $w = \Omega(\varepsilon^{-1/\alpha})$ is necessary within this policy class, so the scaling is $\Theta(\varepsilon^{-1/\alpha})$ for suffix-only policies. Whether recurrent or propagating cache summaries can beat this scaling is left open. An explicit block-Markov scheme achieves the upper bound; its rate-of-convergence exponent matches the converse under additional forward-decay and regularity hypotheses (not implied by truncation sensitivity alone), and differs by a factor of two otherwise. Empirically, the polynomial law predicts the degradation curves of concrete cache policies: recency-based eviction (sliding, sink-plus-recent) suppresses distortion by roughly two orders of magnitude over random retention at equal budget, with a power-law decay in the budget.

13:00 JSTLLM/生成AI

The Strongest Teacher Is Not Always the Best Teacher: Student-Centric Answer Selection

LLM training increasingly relies on teacher-generated supervision, from synthetic responses to reasoning traces and tool-use demonstrations…

13:00 JSTLLM/生成AI

Locality-Aware Redundancy Pruning for LLM Depth Compression

Large language models are known to contain representational redundancy across network depth, making depth pruning an effective approach for…

13:00 JSTLLM/生成AIGPT / ChatGPTDeepSeek

Pruning and Distilling Mixture-of-Experts into Dense Language Models

Mixture-of-Experts (MoE) is now the dominant architecture for frontier language models, yet it requires all expert parameters to be loaded…

13:00 JSTLLM/生成AI

Efficient and Scalable Provenance Tracking for LLM-Generated Code Snippets

Large language models (LLMs) for code completion and generation are increasingly used in software development, yet they may reproduce train…

13:00 JSTLLM/生成AI

S3Mem: 長期対話型質​​問応答のための構造化時空間シーン-イベント記憶

長期にわたる対話型エージェントは、多くの場合、大規模な軌跡履歴を蓄積しますが、以前のイベントに関する質問に確実に答えることができません。私たちは、主なボトルネックはコンテキストの長さだけではなく、長期記憶の軌跡と答えのインターフェースにあると主張します。履歴がプレーンテキストのチャンクとして保存され、標準の検索拡張生成 (RAG) でクエリされる場合、システムは多くの場合、特に空間的、時間的、繰り返しイベント、およびマルチホップ状態の質問について、ローカルに関連するが連鎖的に不完全な証拠を取得します。我々は、長期対話型質​​問応答 (QA) のための構造化されたシーンイベントエピソード記憶フレームワークである S3MEM を提案します。 S3MEM は、構造化メモリ ユニットに軌跡を書き込み、アンカーに応じた検索を通じて証拠を取得し、応答時間推論のためのコンパクトなトークンバジェット認識証拠インターフェイスを公開します。この意味で、S3MEM は、エージェントの軌跡をクエリに合わせたサポートに変換する、構造化された証拠ハーネスです。 2 つの内部ヘッドライン環境 (Craafter、Jericho) と 2 つのファミリー外環境 (SciWorld、ALFWorld) で S3MEM を評価します。共有凍結応答時間プロトコルの下では、S3MEM は 4 つの環境すべてで一貫して Vanilla RAG を上回り、Crafter、Jericho、ALFWorld では Graph-NoReader を上回り、劇的に少ない証拠トークンを使用しながら SciWorld でも同等のパフォーマンスを発揮します。 A-MEM にインスピレーションを得た、MemoryOS に適応した、LightMem に適応した 3 つの最近のベースラインは、いくつかの設定において Vanilla RAG よりも改善されていますが、S3MEM の全体的な精度効率の最前線に匹敵するものはありません。全体として、証拠は限定された結論を裏付けています。つまり、現在の凍結された応答時間プロトコルの下では、構造化された書き込みとアンカーに応じた証拠のルーティングは、より一般的なメモリ インターフェイスよりも長期の対話型 QA に強力な精度効率のフロンティアを提供します。

原文 (English)

S3Mem: Structured Spatiotemporal Scene-Event Memory for Long-Horizon Interactive Question Answering

Long-horizon memory question answering often requires sparse evidence from heterogeneous histories, including events, object states, visual observations, temporal relations, and causal steps. Existing memory interfaces expand reader context, retrieve semantically related chunks, or expose graph neighborhoods, but they are not explicitly designed to select compact evidence for a fixed reader. We propose Structured Spatiotemporal Scene--Event Memory (S3Mem), a query-time memory interface that writes textual, visual, and agent-use histories into structured scene--event units and routes compact evidence packs to the reader. Its router scores candidate units, query anchors, and anchor--support links, enabling both single-hop selection and short multi-hop evidence chains without reader fine-tuning or test-time training. Across LoCoMo, EMemBench Visual Games, and AMA-Bench, S3Mem provides a strong score--token trade-off, with the clearest gains on localized event, state, temporal, causal, or provenance evidence. On LoCoMo, S3Mem reaches \(0.48\) F1 and \(0.40\) BLEU with (1{,}073) evidence tokens per question, about \(15.8\times\) fewer than the LoCoMo reference. On EMemBench Visual Games, it obtains the best F1 and second-best accuracy with only \(189\)tokens.On AMA-Bench, it is not the highest-scoring method, but remains competitive while using the fewest reader-visible evidence tokens.

13:00 JSTLLM/生成AI

壊滅的な忘却のメカニズムの起源: なぜ RL は SFT よりも回路を保存しやすいのでしょうか?

大規模言語モデル (LLM) を微調整すると、以前の機能が壊滅的に忘れられてしまうことがよくあります。最近の研究では、強化学習 (RL) が教師あり微調整 (SFT) よりも効果的に以前の機能を保持することが示されており、これはポリシー勾配更新が基本ポリシー \cite{shenfeld2025rl} に近い状態に留まっているためであると考えられます。私たちはこの行動の説明を機構レベルに拡張し、RL の利点が内部計算回路のより強力な保存によって反映されるかどうかを尋ねます。微調整下で回路がどの程度劣化するかを示すヘッドレベルの尺度である差動回路の脆弱性を導入し、科学的な質問応答に適応した Qwen2.5-3B-Instruct の RL と SFT を比較するためにそれを使用します。我々は、明らかな機構的なトレードオフを発見しました。SFT は、ターゲット タスクにより迅速に適応しますが、回路の中断と以前の機能の忘却が大幅に大きくなります。一方、RL は、タスクの適応が遅くなる代わりに、基本回路の大部分を保持します。これらの発見は、回路の保存がなぜRLが壊滅的な忘却に対してより堅牢であるかを説明するのに役立つ可能性があることを示唆しています。私たちはここでコードをリリースしました: https://github.com/rl-sft-circuit-research/fferential-circuit-vulnerability。

原文 (English)

Mechanistic origins of catastrophic forgetting: why RL preserves circuits better than SFT?

Fine-tuning large language models (LLMs) frequently induces catastrophic forgetting of prior capabilities. Recent work has shown that reinforcement learning (RL) retains prior capabilities more effectively than supervised fine-tuning (SFT), attributing this to policy-gradient updates remaining closer to the base policy \cite{shenfeld2025rl}. We extend this behavioral account to the mechanistic level and ask whether RL's advantage is mirrored by stronger preservation of internal computational circuits. We introduce differential circuit vulnerability, a head-level measure of how much a circuit degrades under fine-tuning, and use it to compare RL and SFT on Qwen2.5-3B-Instruct adapted to scientific question-answering. We find a clear mechanistic trade-off: SFT adapts more rapidly to the target task but produces substantially greater circuit disruption and forgetting of prior capabilities, whereas RL preserves a larger fraction of the base circuit at the cost of slower task adaptation. These findings suggest that circuit preservation may help explain why RL is more robust to catastrophic forgetting. We released our code here: https://github.com/rl-sft-circuit-research/differential-circuit-vulnerability.

13:00 JSTLLM/生成AICopilot

MOOSE-Copilot: A Web-Based Interactive Assistant for Unified Exploratory and Fine-Grained Scientific Hypothesis Discovery

Large language models (LLMs) show remarkable potential in scientific hypothesis discovery. However, existing approaches face two critical l…

13:00 JSTロボティクス

BORA: Bridging Offline Reinforcement Learning and Online Residual Adaptation for Real-World Dexterous VLA Models

Vision-Language-Action (VLA) models have emerged as a promising paradigm for grounding visual-language understanding into real-world roboti…

13:00 JSTLLM/生成AIエージェントGPT / ChatGPT

モデルの特化のための自律型エージェント データ エンジニアリングの探求

大規模言語モデル (LLM) は、一般的なタスクでは優れたパフォーマンスを示していますが、高品質のドメイン固有のデータがないと特殊なドメインに適応するのに苦労することがよくあります。既存の LLM ベースのデータ キュレーション手法は主に人間が設計したワークフローに依存しているため、LLM がモデルの特化のためのエンドツーエンドのデータ エンジニアリング パイプラインを自律的に実行できるかどうかは未検討のままです。私たちは \textbf{Autonomous Agentic Data Engineering} を形式化します。これは、エンドツーエンドのデータ キュレーションを通じてモデルの専門化を推進する自律型データ エンジニアとして LLM を評価するように設計された新しいタスクです。私たちはデータを最適化可能なコンポーネントとしてフレーム化し、トレーニング後のパフォーマンス向上に基づいて、複数のドメインにわたってトレーニング データを計画、生成、反復的に最適化するエージェントを研究します。実験によると、GPT-5.2 は反復的なエージェント主導のデータ適応を通じて学生モデルを \textbf{57.29\%} 改善するトレーニング カリキュラムを構築するため、自律型 LLM データ エンジニアが大幅な利益をもたらすことが示されています。私たちの研究では、潜在的な問題とボトルネックの両方を明らかにすることで、自律的なデータ エンジニアリングを測定可能な機能として確立し、エージェント駆動モデルの特殊化への道筋を示しています\脚注{コードは https://github.com/zjunlp/DataAgent でリリースされます。}

原文 (English)

Exploring Autonomous Agentic Data Engineering for Model Specialization

Large Language Models (LLMs) have demonstrated strong performance on general tasks, while often struggling to adapt to specialized domains without high-quality domain-specific data. Existing LLM-based data curation methods primarily rely on human-designed workflows, leaving it unexamined whether LLMs can autonomously execute an end-to-end data engineering pipeline for model specialization. We formalize Autonomous Agentic Data Engineering, a novel task designed to evaluate LLMs as autonomous data engineers that drive model specialization through end-to-end data curation. We frame data as an optimizable component and study agents that plan, generate, and iteratively optimize training data across multiple domains, guided by post-training performance improvement. Experiments show that autonomous LLM data engineers yield substantial gains, as GPT-5.2 constructs a training curriculum that improves a student model by 57.29%, entirely through iterative, agent-driven data adaptation. By illuminating both potential and bottlenecks, our study establishes autonomous data engineering as a measurable capability and charts a path toward agent-driven model specialization (Code will be released at https://github.com/zjunlp/DataAgent).

13:00 JST画像/動画生成

Diffusion Image Generation with Explicit Modeling of Data Manifold Geometry

Image generative models aim to sample data points from the underlying data manifold, a task that requires learning and decoding a dense, lo…

13:00 JSTロボティクス

Continuous Reasoning for Vision-Language-Action

Natural language is a powerful reasoning medium for language and vision-language models, but it is mismatched to the granularity of continu…

13:00 JSTエージェント

Beyond Independent Manipulation: Individual Fairness-aware Strategic Classification with Peer Imitation

Strategic classification (SC) investigates scenarios where agents manipulate their features to obtain favorable decisions from predictive m…

13:00 JSTLLM/生成AI

MENTIS: What Belief Changes Under Alignment? Measuring Multi-Scale Latent Torsion in Language Models

Preference alignment has substantially improved the observable behavior of large language models, yet it remains unclear what alignment cha…

13:00 JSTロボティクスハードウェア/半導体

Crazyflow: An Accurate, GPU-Accelerated, Differentiable Drone Simulator in JAX

High-quality, large-scale synthetic data from simulations is becoming a cornerstone for pushing the capabilities of robot algorithms. While…

13:00 JSTLLM/生成AIエージェント

Defenses & Enablers For Skill Injection Attacks on Terminal Based Agents

Large language model (LLM) agents increasingly rely on reusable skills i.e. documents describing task-specific procedures. However, this in…

13:00 JSTLLM/生成AIエージェント

Easier to Mislead Than to Correct: Harmful and Beneficial Revision in LLM Conformity

Large language models are increasingly used in multi-agent systems, where they see and respond to other agents' answers. A key risk is conf…

13:00 JSTLLM/生成AI

Argument Collapse: LLMs Flatten Long-Form Public Debate

As LLMs are increasingly used to draft public-facing arguments, they may flatten public debate by repeatedly introducing the same polished,…

13:00 JSTロボティクス

See Less, Specify More: Visual Evidence Budgets for Generalizable VLAs

Generalization remains a central bottleneck for vision-language-action (VLA) models: under distractors, appearance shifts, and semantically…

13:00 JST画像/動画生成ロボティクスNVIDIA

Cosmos 3: Omnimodal World Models for Physical AI

We introduce Cosmos 3, a family of omnimodal world models designed to jointly process and generate language, image, video, audio, and actio…

13:00 JSTLLM/生成AILlama

Calibration Data Trade-offs Across Capability Dimensions: Why Multi-Source Mixing Matters for High-Sparsity LLM Pruning

Post-training pruning compresses large language models to high sparsity using a small unlabelled calibration set, and recent work has concl…

13:00 JST研究/論文

Optimizing Explicit Unit-Distance Lower-Bound Certificates

The 2026 disproof of Erd\H{o}s's unit-distance conjecture and Sawin's quantitative refinement show that the maximum number $u(n)$ of unit d…

13:00 JST研究/論文

立場: 導入された強化学習は継続的であるべきです

強化学習 (RL) はますます注目を集めており、実世界のユースケースで採用されています。これらのシステムのほとんどは、訓練してから修正するというパラダイムに従っており、訓練されたエージェントは、パフォーマンスが低下して再訓練が必要になるまで、世界と対話しながら学習しません。この意見書では、最適化ができないにもかかわらず評価報酬シグナルを受け取るエージェントをデプロイすることは、本質的に継続的な RL 問題であると主張します。私たちは、終わりのない学習を必要とする展開後の非定常性の 4 つの原因を特定し、最適に展開されたエージェントが適応をやめない理由を強調します。私たちは現実世界での継続的な RL の成功例を分析し、現在のトレーニングして修正するパラダイムから脱却するための利点と対策をコミュニティに提示します。

原文 (English)

Position: Deployed Reinforcement Learning should be Continual

Reinforcement Learning (RL) has received increasing attention and adoption in real-world use cases. Most of these systems follow a train-then-fix paradigm, where trained agents do not learn while interacting with the world until performance degrades and retraining becomes necessary. In this position paper, we argue that deploying an agent that is incapable of optimality, but receives an evaluative reward signal, is inherently a continual RL problem. We identify four sources of non-stationarity after deployment that necessitate never-ending learning, and highlight why the best deployed agents never stop adapting. We analyze successful examples of continual RL in the real world, and present the community with the advantages and measures to move away from the current train-then-fix paradigm.

13:00 JST研究/論文

細胞複合体における増分層コホモロジー: 境界のあるローカル ジオメトリでの O(1)-in-n 遅延編集処理

我々は、有限次元の細胞層を備えた動的に進化する1次元細胞複合体上の最初の層コホモロジー $H^1(X; \mathcal{F})$ を増分的に維持するためのアルゴリズムフレームワークを提案します。共有境界行列の因数分解による $H^1$ の古典的な計算には $O(n^3)$ の時間が必要です。 $m$ の編集のストリームによって複雑さが進化すると、各編集後の完全な再計算には $O(mn^3)$ のコストがかかります。有界のローカル ジオメトリの仮定 (有界セル サイズ $v_{\max}$、有界ストーク寸法 $d$、有界神経次数 $D$) の下では、各編集 (頂点挿入、エッジ挿入、制限マップ更新) は、ローカル共有境界ブロックの有界セットにのみ影響します。したがって、このアルゴリズムは、複素数の合計サイズ $n$ に対して ($n$ から独立した定数として扱われるローカル ジオメトリ パラメーター $v_{\max}$、$d$、および $D$ のコスト多項式を使用して) 遅延ストリーミング編集を $O(1)$ 時間で処理し、ローカル固有ソルブと Mayer-Vietoris グローバル アセンブリを同期ポイント (フラッシュ) まで遅らせます。同期時に、維持される状態は、分割された層モデルの対応するバッチ アセンブリと一致します。すべてのバッチ検証された実行でゼロの測定ドリフトが観察されました ($V = 10^6$ による)。また、セル分解のための償却 $O(|E|)$ ストリーミング構造を与え、分割されていない非自明な層 ($d \geq 2$、非同一性制限マップ) が同じ局所性を認めないと主張する敵対的代数 RAM バリアについて議論します。最大 $5 \times 10^6$ の頂点と $1.7 \times 10^7$ のストリーミング編集を使用した Barabasi-Albert グラフの実験では、編集ごとの遅延更新レイテンシーの中央値が 35 $\mu$s (フラッシュを除く) であることがわかりました。クエリ時間 (同期時のグローバル アセンブリ) は、実装されたフルトラバーサル パスのフラッシュごとに $O(n)$ です。正確な同期コストは別途報告されます。

原文 (English)

Incremental Sheaf Cohomology on Cellular Complexes: O(1)-in-n Lazy Edit Processing under Bounded Local Geometry

We present an algorithmic framework for incremental maintenance of first sheaf cohomology $H^1(X; \mathcal{F})$ on dynamically evolving 1-dimensional cellular complexes equipped with finite-dimensional cellular sheaves. The classical computation of $H^1$ via factorization of the coboundary matrix requires $O(n^3)$ time; when the complex evolves with a stream of $m$ edits, full recomputation after each edit costs $O(mn^3)$. Under a bounded local geometry assumption -- bounded cell size $v_{\max}$, bounded stalk dimension $d$, and bounded nerve degree $D$ -- each edit (vertex insertion, edge insertion, restriction map update) affects only a bounded set of local coboundary blocks. The algorithm therefore processes lazy streaming edits in $O(1)$ time with respect to the total complex size $n$ (with cost polynomial in the local geometry parameters $v_{\max}$, $d$, and $D$, which are treated as constants independent of $n$), deferring local eigensolves and Mayer-Vietoris global assembly to synchronization points (Flush). At synchronization, the maintained state agrees with the corresponding batch assembly of the partitioned sheaf model; we observe zero measured drift in all batch-verified runs (through $V = 10^6$). We also give an amortized $O(|E|)$ streaming construction for the cellular decomposition and discuss an adversarial algebraic-RAM barrier arguing that unpartitioned non-trivial sheaves ($d \geq 2$, non-identity restriction maps) do not admit the same locality. Experiments on Barabasi-Albert graphs with up to $5 \times 10^6$ vertices and $1.7 \times 10^7$ streaming edits show 35 $\mu$s median lazy per-edit update latency (excluding flush); query time (global assembly at synchronization) is $O(n)$ per flush in the implemented full-traversal path. Exact synchronization costs are reported separately.

13:00 JST画像/動画生成

視覚的一般化におけるデータスケール、モデルの複雑さ、入力モダリティの実証的研究

最新のディープ ニューラル ネットワークは通常、大きなパラメーター スケールと非線形の階層構造を備えており、コンピューター ビジョンで優れたパフォーマンスを達成しています。ただし、汎化パフォーマンスの原因は、従来の統計学習理論を使用して説明するのが依然として困難です。視覚的な一般化に影響を与える可能性のある要因の中で、データ スケール、モデルの複雑さ、入力モダリティは、基本的かつ制御可能な変数です。この研究では、これら 3 つの要因がモデルの汎化パフォーマンスにどのように影響するかを実証的に分析します。具体的には、予備実験で 1 次元の非線形関数を構築し、トレーニング サンプルの数と多項式の次数を変更して、データ スケールとモデルの複雑さがモデルのパフォーマンスに及ぼす影響を観察します。主な実験では、異なるトレーニング データ スケール、モデル アーキテクチャ、入力モダリティの下で、CIFAR-10 と CIFAR-100 のモデルのパフォーマンスを比較します。実験結果は、トレーニング データのスケールを増やすと汎化パフォーマンスが一貫して向上する一方、モデルの複雑さが変化しても安定したゲインが得られないことを示しています。さらに、色情報を削除するとモデルのパフォーマンスが低下する一方、グラデーション、エッジ、ウェーブレットなどの明示的な事前の機能は、異なるモデル アーキテクチャ間で一貫性のない影響を及ぼします。全体として、この研究は、データ スケール、モデルの複雑さ、入力モダリティ、および視覚的汎化パフォーマンスの間の関係の実証的分析を提供します。コードと実験のログは、https://github.com/zlyd-CV/DeepLearning-Empirical-Studies で入手できます。

原文 (English)

An Empirical Study of Data Scale, Model Complexity, and Input Modalities in Visual Generalization

Modern deep neural networks usually have large parameter scales and nonlinear hierarchical structures, and they have achieved strong performance in computer vision. However, the source of their generalization performance remains difficult to explain using traditional statistical learning theory. Among the factors that may affect visual generalization, data scale, model complexity, and input modalities are fundamental and controllable variables. This study empirically analyzes how these three factors influence model generalization performance. Specifically, in a preliminary experiment, we construct a one-dimensional nonlinear function and vary the number of training samples and the polynomial degree to observe the effects of data scale and model complexity on model performance. In the main experiments, we compare model performance on CIFAR-10 and CIFAR-100 under different training data scales, model architectures, and input modalities. The experimental results show that increasing the training data scale consistently improves generalization performance, whereas changes in model complexity do not provide stable gains. In addition, removing color information degrades model performance, while explicit prior features such as gradients, edges, and wavelets have inconsistent effects across different model architectures. Overall, this study provides an empirical analysis of the relationships among data scale, model complexity, input modalities, and visual generalization performance. Code and experimental logs are available at: https://github.com/YidiZhouluo/DeepLearning-Empirical-Studies/tree/main/Exp_01.

13:00 JSTLLM/生成AILlama

マルチ SPIN: エッジでの協調トークン生成のためのマルチアクセス投機推論

投機的推論 (SPIN) は、もともと大規模言語モデル (LLM) を高速化するための効率的なアーキテクチャとして開発されました。この研究では、マルチユーザー エッジ システムでの協調的なトークン生成を可能にする分散展開を提案します。その利点は、リソースに制約のあるデバイスとサーバーの間で計算負荷のバランスを効果的にとれることです。マルチアクセス SPIN (Multi-SPIN) と呼ばれる結果として得られるアーキテクチャは、オンデバイスの小型言語モデルを利用して候補トークン ドラフトを生成およびアップロードする一方、エッジ サーバーは LLM を操作してそれらを並列バッチで検証します。ユーザーの計算能力と通信能力に深刻な不均一性があることを考慮すると、ドラフト長はノードレベルの計算負荷とマルチアクセス待ち時間に影響を与える重要な制御変数として浮上し、それによって合計トークンのグッドプットを支配します。したがって、周波数分割多元接続を考慮して、合計トークン グッドプットを最大化するための、ドラフト長制御と帯域幅割り当ての共同最適化であるマルチアクセス ドラフト制御の問題を調査します。ここでは 2 つのケースを検討します。(1) サーバー側のバッチ処理を容易にするためにユーザー間で均一なドラフト長を使用する場合と、(2) グッドプットを強化するための新しい次元を導入するために異種のドラフト長を使用する場合です。分解手法を開発することで、これらの複雑な最適化を扱いやすい部分問題に縮小し、閉じた形式で効率的な喫水制御アルゴリズムを導出できるようにします。私たちの分析によると、最適な帯域幅の割り当ては、同種の場合にはバッチ同期要件により弱い計算能力と通信能力を持つユーザーを補うのに対し、異種の場合はそのような要件を緩和することでユーザーの受け入れ率を高めることができます。さまざまなタスクにわたって Llama-2 と Qwen3.5 モデルのペアを使用した実験では、Multi-SPIN が異質性を問わないベースラインと比較してグッドプットを最大 88% 向上させることが実証されました。

原文 (English)

Multi-SPIN: Multi-Access Speculative Inference for Cooperative Token Generation at the Edge

Speculative inference (SPIN) was originally developed as an efficient architecture to accelerate Large Language Models (LLMs). In this work, we propose its distributed deployment to enable cooperative token generation in a multiuser edge system; its advantage is to effectively balance computational loads between resource-constrained devices and servers. The resulting architecture, termed Multi-access SPIN (Multi-SPIN), utilizes on-device small language models to generate and upload candidate token drafts, while an edge server operates the LLM to verify them in parallel batches. Given the severe heterogeneity in users' computation and communication capabilities, the draft length emerges as a critical control variable that influences node-level computation loads and multi-access latency, thereby governing the sum token goodput. Consequently, considering frequency-division multiple access, we investigate the problem of multi-access draft control, a joint optimization of draft-length control and bandwidth allocation to maximize sum token goodput. We examine two cases: (1) homogeneous draft lengths across users to facilitate server-side batching, and (2) heterogeneous draft lengths to introduce a new dimension for goodput enhancement. By developing decomposition methods, we reduce these complex optimizations into tractable sub-problems, which allow efficient draft control algorithms to be derived in closed form. Our analysis shows that the optimal bandwidth allocation compensates users with weaker computation-and-communication capabilities in the homogeneous case due to the batching synchronization requirements, whereas its heterogeneous-case counterpart rewards users with higher acceptance rates by relaxing such requirements. Experiments using Llama-2 and Qwen3.5 model pairs across diverse tasks demonstrate that Multi-SPIN improves goodput by up to 88% over heterogeneity-agnostic baselines.

13:00 JST研究/論文

マルチチャンネル信号トランスの入力エンコーダの実証的監査

マルチチャネル スカラー信号を消費する変換器は、タイム ステップごとに $C$ 同時値を 1 つの $d_{\text{model}}$ 次元ベクトルに埋め込む必要があります。共有スカラー ベースライン、チャネルごとの線形射影、直交性正則化、非線形 MLP ステム、ブロック分割連結、チャネル独立およびトークンとしてのチャネル アーキテクチャ、投影位置エンコーディングに及ぶ 8 つの入力エンコーダを、チャネル ID を有益にするように設計された合成ベンチマークと、次のステップの負の対数尤度で測定される実データ チェックとしての ETTh1 で実証的に監査します。 (NLL)。見出しは、幅広い「最上位層」内で実質的にほぼ同等であることの 1 つです。標準のチャネルごとの線形射影 (nn.Linear(C, $d_{\text{model}}$)) は、統計的に現実的だが実質的には控えめな小さな差異まで、その層のすべての選択肢と一致します。 2 つのエンコーダが決定的に負けます。1 つは共有スカラー ベースラインであり、これは私たちが明らかにする情報理論上の理由で破綻します。もう 1 つはチャネルに依存しない PatchTST スピリット ベースラインで、両方のベンチマークでパフォーマンスを下回り、合成ベンチマークでは普遍的にオーバーフィットします。ペアテストは 2 つの小さなギャップを解決します。学習された線形層を通じて正弦波位置エンコードを投影すると、残りの部分が小さな $C$ でエッジ付けされ、直接幾何学的プローブによって位置チャネル直交化のメカニズムが示されます。非線形 MLP ステムは、テストした最大 $C$ でそれらに隣接し、より多くのトレーニング データの下でギャップは縮小します。実際的な推奨事項は、デフォルトで nn.Linear(C, $d_{\text{model}}$) を使用し、目の前のタスクに実際の理由がある場合にのみ、より複雑なものに手を伸ばすことです。この論文のすべての実験を再現するためのコードとデータは、https://github.com/OssiLehtinen/channel-encoder-audit で入手できます。

原文 (English)

An Empirical Audit of Input Encoders for Multi-Channel Signal Transformers

Transformers consuming multi-channel scalar signals must embed $C$ simultaneous values into one $d_{\text{model}}$-dimensional vector per time step. We audit eight input encoders -- a shared-scalar baseline, per-channel linear projections, an orthogonality regulariser, a nonlinear MLP, block-partitioned concatenation, channel-independent and channel-as-token architectures, and a projected positional encoding -- on a synthetic benchmark where channel identity is informative and on ETTh1, scored by next-step negative log-likelihood. The headline is practical near-equivalence within a wide "top tier": the standard per-channel linear projection matches every alternative up to small, statistically real but practically modest differences. A direct geometric probe attributes this to a spontaneous orthogonalisation of the per-channel projections: they end up near-orthogonal with no explicit regulariser, letting the standard linear recover channel identity from the summed embedding. Two encoders lose decisively: the shared-scalar baseline collapses for information-theoretic reasons we make explicit, and the channel-independent PatchTST-spirit baseline overfits universally on the synthetic benchmark and underperforms on both. Paired tests resolve two small gaps: projecting the sinusoidal positional encoding through a learned linear layer edges the rest at small $C$ by extending this orthogonality to the positional subspace; a nonlinear MLP stem edges them at the largest $C$, with the gap shrinking under more training data. The practical recommendation: use the standard per-channel linear projection by default; reach for something more elaborate only when the task calls for it.

13:00 JST研究/論文

GOTabPFN: From Feature Ordering to Compact Tokenization for Tabular Foundation Models on High-Dimensional Data

We investigate how to make small tabular foundation models effective for High-Dimensional, Low-Sample Size (HDLSS) tabular prediction witho…

13:00 JSTLLM/生成AI画像/動画生成

Emotion-Aware Image Generation from Korean Diary Text via LLM-based Prompt Translation and LoRA Fine-Tuning

T2I models cannot effectively capture sentiment from various types of text, including diaries, as they primarily focus on visual object-rel…

13:00 JSTハードウェア/半導体Qwen

OPRD: On-Policy Representation Distillation

On-policy distillation (OPD) supervises the student only in output space by matching next-token probabilities. This output-only paradigm ha…

13:00 JSTエージェントロボティクス

HANDOFF: Humanoid Agentic Task-Space Whole-Body Control via Distilled Complementary Teachers

For a humanoid robot to be deployed in the real world, the choice of command space (i.e., the interface between task planning and whole-bod…

13:00 JST研究/論文

THzデュアルコム分光法を使用したポリマー分類のためのマルチスケール機能アテンションネットワーク

信頼性の高いポリマーの識別は、リサイクルプラスチックの品質と安全性を確保するために不可欠ですが、従来の分別技術や分光技術では、確実な識別を実現するのが困難なことがよくあります。テラヘルツ デュアルコム分光法 (THz-DCS) は、迅速、高分解能、非破壊測定を提供する有望な代替手段を提供します。この研究では、THz-DCS を利用して、純粋なポリマー、多層フィルム、市販のブレンド、バイオポリマーを含む 12 種類のポリマーを分類します。これらのスペクトル信号の複雑さを処理するために、THz-DCS データに合わせた新しい深層学習アーキテクチャであるマルチスケール フィーチャー アテンション ネットワーク (MSFAN) を提案します。このフレームワークには、信号の再キャリブレーションとマルチスケールの並列畳み込みのための機能ゲートが統合されており、多様な周波数パターンをキャプチャします。これらの特徴は、特徴間アテンションとアテンション プーリングを通じてさらに洗練され、モデルが本質的に最も有益な THz 領域を強調表示できるようになります。 MSFAN は常に最先端のモデルを上回っており、分類精度は 85.2% に達しています。この研究は、THz-DCS と深層学習技術を組み合わせて、効果的でスケーラブルで解釈可能なポリマー分類を実現できる可能性を示しています。

原文 (English)

Multi-Scale Feature Attention Network for Polymer Classification Using Terahertz Spectroscopy

Reliable polymer identification is essential for ensuring the quality and safety of recycled plastics, yet conventional sorting and spectroscopic techniques often struggle to deliver robust discrimination. Terahertz (THz) spectroscopy offers a promising alternative, providing high-resolution and non-destructive measurements. In this work, we leverage THz signals to classify 12 types of polymers, including pure polymers, multilayer films, commercial blends, and biopolymers. To handle the complexity of these spectral signals, we propose the Multi-Scale Feature Attention Network (MSFAN), a novel deep learning architecture tailored for THz data. The framework integrates feature gating for signal recalibration and multi-scale parallel convolutions to capture diverse frequency patterns. These features are further refined through cross-feature attention and attention pooling, enabling the model to intrinsically highlight the most informative THz regions. MSFAN consistently outperforms state-of-the-art models, reaching a classification accuracy of 85.2%. This study demonstrates the potential of combining THz spectroscopy with deep learning techniques for effective, scalable, and interpretable polymer classification.

13:00 JSTLLM/生成AIOpenAI

ThinkBooster: A Unified Framework for Seamless Test-Time Scaling of LLM Reasoning

Test-time compute (TTC) scaling has emerged as a powerful paradigm for improving large language model (LLM) reasoning by allocating additio…

13:00 JSTLLM/生成AIエージェントビジネス/資金調達

Do Coding Agents Deceive Us? Detecting and Preventing Cheating via Capped Evaluation with Randomized Tests

A growing failure mode in agent evaluation and training is that models can achieve high evaluation scores by exploiting shortcuts instead o…