Skip to the content.

AIニュース 2026-06-15

自動生成: 2026-06-15 13:59 JST

← トップに戻る

過去24時間以内に公開された記事を、同じ話題ごとに1つのストーリーカードへまとめ、出典・トピック・要約とともに掲載しています。要約は各フィード提供文の冒頭を整形したもので、本文は各リンク先をご覧ください。

📌 今日の要点 TOP7

  1. Introducing the OpenAI Partner NetworkOpenAI

    OpenAI launches the Partner Network, investing $150M to help global p…

  2. Sakana AI、初の商用プロダクト「Marlin」リリース その実力は?【出力レポート全文掲載】ITmedia AI+

    Sakana AIがAI調査エージェント「Sakana Marlin」の提供を開始した。4月からβ版を提供していたものを商用化する。公開に…

  3. ChatGPT vs. Google検索──どっちで調べるのが学習効果が高い? 8日間の実験で検証した研究ITmedia AI+

    米ジョージア工科大学やミシガン大学などに所属する研究者らが発表した論文「Learning by Chatting? Investigati…

  4. Javaアプリ更新を1カ月→3日に爆速化 “ソースコード生成AI止まり”じゃない「IBM Bob」の仕組みITmedia AI+

    IBMが発表したAIツール「IBM Bob」は、先行導入した企業でJavaアプリケーションのモダナイゼーション作業を30日から3日に短縮す…

  5. Sakana?AI、初の商用サービスはリサーチ特化 「Deep Research」との違いは? 後発で“ベンチマークも追わない”ワケITmedia AI+

    Sakana?AIが6月15日に提供を始めた同社初の商用サービス「Sakana?Marlin」(サカナ・マーリン)。詳細や狙いを担当者に聞…

  6. AI・ロボット人材は約340万人不足 労働市場のスキル需給、AIでどう可視化する?ITmedia AI+

    産業構造の変化と人口減少が同時に進み、業種や職種の間で人材の過不足が広がると予測されている。経済産業省は事業を通じて、労働市場全体のスキル…

  7. As AI companies race to go public, who else is along for the ride?TechCrunch AI

    Startups are trying to "ride that SpaceX IPO wave."

トピック別件数

日本語メディア6件

ITmedia AI+ (日本語)

13:00 JSTLLM/生成AI

Javaアプリ更新を1カ月→3日に爆速化 “ソースコード生成AI止まり”じゃない「IBM Bob」の仕組み

IBMが発表したAIツール「IBM Bob」は、先行導入した企業でJavaアプリケーションのモダナイゼーション作業を30日から3日に短縮するといった効果があったという。ソースコード生成にとどまらない、IBM Bobの特徴とは。

11:56 JSTエージェント

Sakana AI、初の商用プロダクト「Marlin」リリース その実力は?【出力レポート全文掲載】

Sakana AIがAI調査エージェント「Sakana Marlin」の提供を開始した。4月からβ版を提供していたものを商用化する。公開に先んじてメディア向けにサービスのハンズオンを実施。事前に集めたテーマを基に、AIに作成させたレポートを報道陣に公開した。

11:50 JST研究/論文

Sakana?AI、初の商用サービスはリサーチ特化 「Deep Research」との違いは? 後発で“ベンチマークも追わない”ワケ

Sakana?AIが6月15日に提供を始めた同社初の商用サービス「Sakana?Marlin」(サカナ・マーリン)。詳細や狙いを担当者に聞いた。

08:00 JSTLLM/生成AI研究/論文GPT / ChatGPTGoogle

ChatGPT vs. Google検索──どっちで調べるのが学習効果が高い? 8日間の実験で検証した研究

米ジョージア工科大学やミシガン大学などに所属する研究者らが発表した論文「Learning by Chatting? Investigating the Impact of Generative AI on Information Seeking and Learning」は、A…

08:00 JSTロボティクス

AI・ロボット人材は約340万人不足 労働市場のスキル需給、AIでどう可視化する?

産業構造の変化と人口減少が同時に進み、業種や職種の間で人材の過不足が広がると予測されている。経済産業省は事業を通じて、労働市場全体のスキル需給をAIなどで可視化する取り組みに乗り出した。受託したNRIは、具体的に何に取り組むのか。

18:20 JSTLLM/生成AIAnthropic

Amazon、Anthropicの最新AIについて懸念を伝えていた 米政権による停止命令に先立ち 関係筋

米Amazonのアンディ・ジャシーCEOは今週、米Anthropicの最先端AIモデルにおけるセキュリティリスクについて、トランプ政権高官に懸念を示したテック業界幹部の一人だった。事情に詳しい関係者がロイターに明らかにした。トランプ政権はAnthropicに対し、米国内外を問わ…

海外メディア1件

TechCrunch AI (英語)

01:38 JSTビジネス/資金調達

As AI companies race to go public, who else is along for the ride?

Startups are trying to "ride that SpaceX IPO wave."

公式ブログ1件

OpenAI (英語)

02:00 JSTLLM/生成AIOpenAI

Introducing the OpenAI Partner Network

OpenAI launches the Partner Network, investing $150M to help global partners accelerate enterprise AI adoption, deployment, and transformat…

論文257件

arXiv cs.AI (英語)

13:00 JST研究/論文

オープンショップのスケジューリング問題を解決するための深層強化学習 (DRL) ベースのトランスフォーマー手法

オープン ショップ スケジューリング問題 (OSSP) は多くの産業およびサービス環境で発生しますが、ジョブとマシンの数が増加するにつれて依然として計算上の課題が生じます。正確な方法はすぐに手に負えなくなりますが、大規模なソリューションの品質を維持するには、古典的なディスパッチング ルールとメタヒューリスティックを大幅に調整する必要がある場合があります。この研究では、マルチヘッド アテンションを備えたエンコーダ/デコーダ アーキテクチャを使用した、OSSP 用の Transformer ベースのスケジューリング ポリシーを開発します。このモデルは、入力として処理時間行列のみを使用して Taillard ベンチマーク インスタンス (4x4、5x5、7x7、および 10x10) でトレーニングされ、通常、最もよく知られている値の 15 ~ 30% 以内のメイクスパンで実行可能なスケジュールを生成します。スケーラビリティを評価するために、トレーニングされたポリシーが再トレーニングなしで 40x40 から 100x100 までランダムに生成されたインスタンスに適用され、SPT、LPT、MWKR、EST などの従来のディスパッチング ヒューリスティックと比較されます。これらの大規模なインスタンス全体で、Transformer は標準の下限と比較して 12.89 ~ 15.12% の平均ギャップを達成しました。 EST と比較すると、Transformer は SPT や LPT を大幅に上回りながら、通常わずかなマージン内で競争力を維持しました。これらの結果は、小規模な OSSP インスタンスでトレーニングされた Transformer ポリシーが、かなり大きな問題に一般化でき、従来のディスパッチング ルールに代わる、機能が少ない学習ベースの代替手段を提供できることを示しています。

原文 (English)

A Deep Reinforcement Learning (DRL)-Based Transformer Method for Solving the Open Shop Scheduling Problem

The open shop scheduling problem (OSSP) arises in many industrial and service settings but remains computationally challenging as the number of jobs and machines increases. While exact methods quickly become intractable, classical dispatching rules and metaheuristics may require substantial tuning to maintain solution quality at large scales. This study develops a Transformer-based scheduling policy for OSSP using an encoder-decoder architecture with multi-head attention. The model is trained on Taillard benchmark instances (4x4, 5x5, 7x7, and 10x10) using only the processing-time matrix as input and produces feasible schedules with makespans typically within 15-30% of best-known values. To evaluate scalability, the trained policy is applied without retraining to randomly generated instances from 40x40 to 100x100 and compared against classical dispatching heuristics, including SPT, LPT, MWKR, and EST. Across these large instances, the Transformer achieved average gaps of 12.89-15.12% relative to a standard lower bound. Compared with EST, the Transformer remained competitive, typically within a modest margin, while substantially outperforming SPT and LPT. These results indicate that a Transformer policy trained on small OSSP instances can generalize to substantially larger problems and provide a feature-light, learning-based alternative to classical dispatching rules.

13:00 JSTLLM/生成AI

UP-NRPA: 目標指向対話システムにおける大規模言語モデルを使用した計画のためのユーザー ポートレート ベースのネストされたロールアウト ポリシーの適応

現在の対話ポリシー計画手法が多様なユーザー特性に動的に適応するのが難しいという課題に対処するために、この論文では、大規模言語モデルを使用したユーザー ポートレート ベースの入れ子ロールアウト ポリシー適応 (UP-NRPA) オンライン フレームワークを提案します。モデルのトレーニングに依存し、ユーザー グループに対してオフラインの強化学習ポリシー モデルを必要とする従来のアプローチとは対照的に、UP-NRPA では、適応メカニズムを通じて対話戦略を動的にカスタマイズできます。これは、現在のユーザー ポートレートからマッピングされた性格、好み、目的とともにリアルタイムのユーザー フィードバックを活用することで実現され、オフラインの強化学習を行わずにユーザーの特性に適応します。協調的および非協調的な対話ベンチマークにおいて、UP-NRPA は多大な利点を実証し、複数の対話タスクで 100% という驚異的な成功率を達成しました。特に交渉タスクでは、リストへの販売率 (SL) が 56.41% 増加しました。これは、UP-NRPA がトレーニング メカニズムを必要とせずに多様なユーザー ニーズに適応でき、対話システムがユーザーの特性に適応できることを示しています。

原文 (English)

UP-NRPA: User Portrait based Nested Rollout Policy Adaptation for Planning with Large Language Models in Goal-oriented Dialogue Systems

To address the challenge that current dialogue policy planning methods struggle to dynamically adapt to diverse user characteristics, this paper proposes a User Portrait based Nested Rollout Policy Adaptation (UP-NRPA) online framework with Large Language Models. In contrast to conventional approaches dependent on model training and require offline reinforcement learning policy models for user groups, UP-NRPA enables dynamic customization of dialogue strategies through an adaptive mechanism. This is achieved by leveraging real-time user feedback alongside personality, preferences, and objectives mapped from the current user portrait, thereby adapting to user characteristics without offline reinforcement learning. In collaborative and non-collaborative dialogue benchmarks, UP-NRPA demonstrated considerable benefits, achieving an impressive 100% success rate in multiple dialogue tasks. Particularly in negotiation tasks, the sale-to-list ratio (SL) increased by 56.41%. This demonstrates that UP-NRPA can adapt to diverse user needs without requiring a training mechanism, enabling the dialogue system to adapt to user characteristics.

13:00 JST研究/論文

泥だらけの子供たちのパズルの歴史

Muddy Children Puzzle は、認識論的論理の発展にインスピレーションを与えてきた、知識と無知に関するパズルです。最初にそれを思いついたのは誰ですか?これは不明です。私たちは、過去 2 世紀にわたる論理的および文学的な出版物を通じて、Muddy Children Puzzle の起源をたどります。このパズルは、数字や色の付いた帽子など、数多くのバリエーションを生み出しました。自己言及を伴う新しい帽子パズルも紹介します。

原文 (English)

History of the Muddy Children Puzzle

The Muddy Children Puzzle is a puzzle about knowledge and ignorance that has been inspiring for the development of epistemic logic. Who came up with it first? This is unclear. We trace the origin of the Muddy Children Puzzle through logical and literary publications over the past two centuries. The puzzle inspired a numerous variations such as involving numbers or coloured hats. We also present a novel hats puzzle involving self-reference.

13:00 JSTLLM/生成AI画像/動画生成エージェント

Orchestra-o1: オムニモーダル エージェント オーケストレーション

最近のエージェント スウォームの成功により、大規模言語モデル (LLM) ベースのエージェントのパラダイムがシングル エージェント ワークフローからマルチ エージェント システムに移行し、タスクの分解とコラボレーションにおけるエージェント オーケストレーションの重要性が浮き彫りになりました。しかし、既存のオーケストレーション フレームワークは狭いモダリティのセットに限定されており、異種のモダリティが共存し相互作用するより複雑な設定に一般化するのに苦労しています。この制限は、タスクがテキスト、画像、音声、ビデオなどの多様な入力を統一的に理解して調整する必要があるオムニモーダル シナリオで特に顕著になります。この研究では、複数のモダリティにわたる効率的なエージェントのコラボレーションをサポートするように設計されたオムニモーダル エージェント オーケストレーション フレームワークである Orchestra-o1 を提案します。 Orchestra-o1 は、モダリティを意識したタスク分解、オンライン サブエージェントの特化、サブタスクの並列実行を可能にする統合オーケストレーション メカニズムを導入しています。このスケーラブルな設計により、エージェント システムは、異種情報ソースが関係する現実世界の複雑なタスクに効果的に取り組むことができ、OmniGAIA ベンチマークで 2 番目に優れたアプローチを 10.3% 上回る精度で実現できます。さらに、Orchestrator-o1-8B をトレーニングするための効率的なエージェント強化学習アプローチである意思決定整合グループ相対ポリシー最適化 (DA-GRPO) を導入します。これは、既存のすべてのオープンソース オムニモーダル エージェントに対しても最先端のパフォーマンスを実現します。

原文 (English)

Orchestra-o1: Omnimodal Agent Orchestration

The recent success of agent swarms has shifted the paradigm of large language model (LLM)-based agents from single-agent workflows to multi-agent systems, highlighting the importance of agent orchestration for task decomposition and collaboration. However, existing orchestration frameworks are limited to a narrow set of modalities and struggle to generalize to more complex settings where heterogeneous modalities coexist and interact. This limitation becomes particularly pronounced in omnimodal scenarios, where tasks require the unified understanding and coordination of diverse inputs such as text, image, audio, and video. In this work, we propose Orchestra-o1, an omnimodal agent orchestration framework designed to support efficient agent collaboration across multiple modalities. Orchestra-o1 introduces a unified orchestration mechanism that enables modality-aware task decomposition, online sub-agent specialization, and parallel sub-task execution. This scalable design allows agent systems to effectively tackle complex real-world tasks involving heterogeneous information sources, surpassing the second-best approach by 10.3% accuracy on the OmniGAIA benchmark. Furthermore, we introduce decision-aligned group relative policy optimization (DA-GRPO), an efficient agentic reinforcement learning approach for training Orchestra-o1-8B, which also achieves state-of-the-art performance against all existing open-source omnimodal agents.

13:00 JSTエージェント研究/論文

ハイブリッドオープンエンドトライエボリューションがより優れたディープリサーチャーを実現

深い研究とエージェントの進化は、汎用人工知能に向けた現実世界のアプリケーションにおける AI エージェントの事実上のタスクとして機能します。前者は、オープンエンド環境での情報の自律的な検索と統合を可能にし、オープンエンドの調査タスクに取り組むことができますが、エージェント システムの静的なパラメトリックな詳細調査機能によって制限されます。後者では、エージェントが自律的に環境と対話して、モデルの機能を進化させるエクスペリエンスを得ることができます。ただし、その有効性は標準的な回答を持つ検証可能なタスクでのみ広く検証されており、自由回答型の研究タスクとはギャップが残されています。これら 2 つの重要なタスクを橋渡しするために、ハイブリッド オープンエンド トライエボリューション (HOTE) フレームワークを提案します。このフレームワークは、ハイブリッド モード強化学習を活用して、ウェブスケールの知識に基づいて提案者、解決者、判断者の共同進化を促進し、オープンエンドのタスクと環境で自律的に進化するエージェントに向けて移行します。 3 つの長い形式のディープ リサーチ ベンチマークに関する広範な実験により、HOTE 経由でトレーニングされた 8B モデルが、最も強力な静的オープン 8-32B モデルや、より少ない時間オーバーヘッドで最先端のディープ リサーチ トレーニング方法でトレーニングされたモデルを上回ることが実証され、さらに HOTE の 3 つのモジュールすべての進化が不可欠であることが検証されました。

原文 (English)

Hybrid Open-Ended Tri-Evolution Makes Better Deep Researcher

Deep research and agent evolution serve as de-facto tasks for AI agents in real-world applications toward artificial general intelligence. The former enables autonomous retrieval and integration of information in open-ended environments to tackle open-ended research tasks, yet it is constrained by the static parametric deep research capabilities of agent systems. The latter allows agents to autonomously interact with the environment to gain experiences that evolve model capabilities. However, its effectiveness has been widely validated only on verifiable tasks with standard answers, leaving a gap with open-ended research tasks. To bridge these two critical tasks, we propose the Hybrid Open-Ended Tri-Evolution (HOTE) framework, which leverages hybrid-mode reinforcement learning to facilitate the collaborative evolution of a proposer, solver and judge based on web-scale knowledge, moving toward autonomous evolving agents in open-ended tasks and environments. Extensive experiments on three long-form deep research benchmarks demonstrate that the 8B model trained via HOTE surpasses the strongest static open 8-32B models as well as those trained by state-of-the-art deep research training methods with less time overhead, and further verify that the evolution of all three modules in HOTE is indispensable.

13:00 JSTLLM/生成AIエージェントClaudeGPT / ChatGPT

WorkBench の再訪: 2 年後の職場エージェント

2024 年 3 月の WorkBench で最も優れたエージェントである GPT-4 は、タスクの 43% を完了し、そのうちの 26% で間違った人にメールを送信するなど、意図しない有害なアクションを実行しました。 2026 年 6 月にベンチマークを再確認したところ、これまでで最高のエージェントである Claude Opus 4.8 が 89% を完了し、2.5% で意図しない有害なアクションを実行していることがわかりました。フロンティアエージェントのパフォーマンスにおけるこの大幅な進歩とは別に、3 つの点が際立っています。まず、WorkBench では機能と安全性がトレードオフではなく両立するため、最も多くのタスクを完了したモデルは、意図しない損傷も最小限に抑えられます。第 2 に、いくつかの種類のエラーは完全に排除されましたが、フロンティア モデルは依然としていくつかの基本的な間違いを犯し、間違った人に電子メールを送信するなど、時として取り返しのつかない損害をもたらすことがあります。第三に、オープンウェイト モデルの台頭により、以前は独自モデルでしかアクセスできなかったパフォーマンス レベルのコストが大幅に低下し、一方でフロンティア コストは比較的安定しています。 2024 年以降、データとコードの品質向上、新しいモデル スコア、WorkBench でのエージェントの進行状況の分析を備えたベンチマークの更新バージョンをリリースします。

原文 (English)

WorkBench Revisited: Workplace Agents Two Years On

The best agent on WorkBench in March 2024, GPT-4, completed 43% of tasks and took an unintended harmful action, such as emailing the wrong person, on 26% of them. We re-visit the benchmark in June 2026 and find that the best agent to date, Claude Opus 4.8, completes 89% and takes an unintended harmful action on 2.5%. Aside from this considerable progress in frontier agent performance, three things stand out. First, capability and safety go together on WorkBench rather than trade off, so the models that finish the most tasks also do the least unintended damage. Second, while several classes of error have been totally eliminated, frontier models still make some basic mistakes that occasionally result in irreversible harm, such as sending an email to the wrong person. Third, the rise of open-weight models has drastically lowered costs for a performance level that was previously only accessible to proprietary models, while frontier costs have stayed relatively stable. We release an updated version of the benchmark with data and code quality improvements, new model scores, and analysis of agent progress on WorkBench since 2024.

13:00 JST研究/論文

単一方向を超えた拒否: 差分法と INLP の予備比較

アルディティら。 (2024) は、安全性の微調整されたチャット モデルにおける拒否は、残留ストリームの単一の直線方向によって媒介され、有害な活性化と無害な活性化の平均値の差 (DiM) によって回復可能であることを示しました。我々は、5 つのオープンウェイトチャットモデル上で、DiM ベースの介入 (活性化加算と指向性アブレーション) を反復ヌル空間投影 (INLP) から派生した 2 つの介入 (ヌル空間投影と反事実反転) と比較し、INLP がステアリング拒否時に DiM に匹敵するかどうか、およびその豊富なパラメータ化がより調整可能な介入を生み出すかどうかを尋ねます。 INLP 反事実フリッピングは、拒絶抑制に関して DiM 指向性アブレーションと競合しますが、ヌルスペース投影は一貫して弱いです。 INLP を抽出された部分空間の先頭方向に制限すると、ベースラインに近いパープレキシティでの抑制効果のほとんどが維持され、調整可能な機能が得られます。幾何学的には、2 つの INLP 介入は活性化空間の質的に異なる領域に到達します。零空間射影は、有害なクラスターと無害なクラスターの間で変換された活性化を崩壊させますが、反事実反転はそれらを反対側のクラスターに移動させます。これは、モデルが概念の不在をその反対とは異なる方法でコード化していることを示唆しています。この興味深い区別は、今後の研究でさらなる調査を必要とします。

原文 (English)

Refusal Beyond a Single Direction: A Preliminary Comparison of Diff-in-Means and INLP

Arditi et al. (2024) has shown that refusal in safety fine-tuned chat models is mediated by a single linear direction in the residual stream, recoverable by a difference-in-means (DiM) of harmful and harmless activations. We compare DiM-based interventions (activation addition and directional ablation) with two interventions derived from Iterative Nullspace Projection (INLP) -- nullspace projection and counterfactual flipping -- on five open-weight chat models, asking whether INLP can match DiM at steering refusal and whether its richer parameterisation yields more tweakable interventions. INLP counterfactual flipping is competitive with DiM directional ablation on refusal suppression, while nullspace projection is consistently weaker. Restricting INLP to the leading directions of the extracted subspace preserves most of the suppression effect at near-baseline perplexity, giving a tunable capability. Geometrically, the two INLP interventions land in qualitatively different regions of activation space: nullspace projection collapses transformed activations \emph{between} the harmful and harmless clusters, while counterfactual flipping moves them into the opposite cluster, suggesting that the model encodes the absence of a concept differently from its opposite -- an intriguing distinction that warrants further investigation in future work.

13:00 JSTエージェント研究/論文

YeasierAgent: プラットフォームに依存しない共生エージェント ネイティブ アプリケーションのインテント駆動型作成のためのキャンバスとしてのエージェント ソーシャル サンドボックス

このペーパーでは、共生エージェント、物語世界、およびシーンを意識したインタラクションに基づいたアプリケーション構築パラダイムである YeasierAgent を紹介します。これは、アプリケーションをユーザー、エージェント、および世界間の協力スペースとして再定義することにより、従来のデバイス結合ソフトウェア モデルに挑戦します。我々は、次の 2 つの主な貢献を実現するシステム アーキテクチャを紹介します。(1) 固定されたグラフィカル レイアウトではなく、プラットフォームに依存しないインタラクティブ ユニット (エージェント、シーン、ダイアログ) を利用することで、エージェント ネイティブ アプリケーションの迅速なクロスプラットフォーム構築を可能にします。 (2) 単一の経験的サンドボックス内で、インテリジェント エージェントの感情的な交友関係と実用的なツールの実行属性を統合します。 YeasierAgent は、自動生成、ユーザーが作成した世界、および空間的なマルチエージェント コラボレーションを統合することにより、共生エージェント ネイティブ アプリケーションのカテゴリを形式化し、孤立したツール固有のチャットボットから、統合された社会的に埋め込まれたコンピューティング環境への移行を示しています。

原文 (English)

YeasierAgent: Agentic Social Sandbox as a Canvas for Intent-Driven Creation of Platform-Agnostic Symbiotic Agent-Native Applications

This paper introduces YeasierAgent, an application-building paradigm based on symbiotic agents, narrative worlds, and scene-aware interaction. It challenges the conventional device-coupled model of software by redefining applications as collaborative spaces among users, agents, and worlds. We present a system architecture that achieves two primary contributions: (1) enabling the rapid, cross-platform construction of agent-native applications by utilizing platform-agnostic interactive units (agents, scenes, dialogue) rather than fixed graphical layouts; and (2) unifying the emotional companionship and practical tool execution attributes of intelligent agents within a single experiential sandbox. By integrating automated generation, user-created worlds, and spatial multi-agent collaboration, YeasierAgent formalizes the category of Symbiotic Agent-Native Applications, demonstrating a shift from isolated, tool-specific chatbots toward cohesive, socially embedded computational environments.

13:00 JSTLLM/生成AIエージェント

TwinBI: ビジネス インテリジェンス ダッシュボードとの効率的な拡張対話のためのエージェントティック デジタル ツイン

ビジネス インテリジェンス (BI) では、ダッシュボードの対話と LLM ベースの支援を組み合わせるケースが増えていますが、これら 2 つのモードは、複数ステップの分析中に同期が取れなくなることがよくあります。ユーザーがダッシュボードの直接操作と自然言語クエリを切り替えると、フィルター、階層、メトリクス、グラフのコンテキスト全体で一貫した分析状態を維持することが困難になります。私たちは、LLM ベースのエージェント システムと実行可能な BI ダッシュボード状態を結合するエージェント デジタル ツイン フレームワークである TwinBI を紹介します。 TwinBI は、統合されたインタラクション ログから再構築された共有分析状態を通じて、会話によるインタラクション、ダッシュボード操作、セマンティック グラウンディング、来歴追跡を統合します。また、スキーマ ビュー、SQL、ログ、および状態に基づいた分析概要の /insights コマンドなどのアーティファクトも公開します。 TwinBI は 2 つの相補的な方法で評価されます。同じバックボーン エージェントを使用した制御された A/B ベンチマークでは、TwinBI は、ダッシュボード単独と比較して、完全一致精度が 43.3% から 63.3% に、部分クレジット精度が 48.3% から 70.8% に向上し、タイムアウト率が 40.0% から 10.0% に大幅に減少しました。ユーザビリティ調査では、参加者はダッシュボードとチャットが統合されたワークフローの恩恵を受け、高いタスク精度、適度な作業負荷、および状態認識型対話メカニズムに対する好意的な評価を獲得しました。これらの結果は、TwinBI が目に見えるダッシュボードの状態をより豊富で実用的なコンテキストに変えることで、エージェント レベルの分析の信頼性とユーザー向けの分析サポートの両方を向上させることを示唆しています。データセットとソースコードは https://github.com/simonjisu/TwinBI から入手できます。

原文 (English)

TwinBI: An Agentic Digital Twin for Efficient Augmented Interactions with Business Intelligence Dashboards

Business intelligence (BI) increasingly combines dashboard interaction with LLM-based assistance, but these two modes often fall out of sync during multi-step analysis. As users switch between direct dashboard manipulation and natural-language queries, it becomes difficult to preserve a consistent analytical state across filters, hierarchies, metrics, and chart context. We present TwinBI, an agentic digital-twin framework that couples an LLM-based agent system with an executable BI dashboard state. TwinBI unifies conversational interaction, dashboard manipulation, semantic grounding, and provenance tracking through a shared analytical state reconstructed from a unified interaction log. It also exposes artifacts such as schema views, SQL, logs, and an /insights command for state-grounded analytical summaries. We evaluate TwinBI in two complementary ways. In a controlled A/B benchmark with the same backbone agent, TwinBI improves exact-match accuracy from 43.3% to 63.3%, partial-credit accuracy from 48.3% to 70.8%, and substantially reduces timeout rate from 40.0% to 10.0% relative to Dashboard alone. In a usability study, participants benefited from the integrated dashboard-and-chat workflow, with high task accuracy, moderate workload, and favorable ratings for state-aware interaction mechanisms. These results suggest that TwinBI improves both agent-level analytical reliability and user-facing analytical support by turning visible dashboard state into richer actionable context. Our dataset and source code are available at: https://github.com/simonjisu/TwinBI

13:00 JST研究/論文

サンプル選択のバイアスによりモデルの崩壊が引き起こされる場合

合成データに対する再帰的トレーニングの普及により、データ不足は緩和されますが、トレーニングを繰り返すと分布の裾が侵食され、出力が均質化されるため、モデルが崩壊する危険性があります。データの選択は解決策として広く考えられていますが、その信頼性は検証者が使用する参照分布に大きく依存します。我々は、各検証者がターゲット多様体の小さく断片化された偏ったスライスのみを観察する低リソースの検証体制では、選択自体が偏ることを示します。この状況は、生データをプールすることができず、ローカル参照が本質的に不完全である、ヘルスケア コンソーシアムや独自の金融機関など、リソースが少ないデータ サイロで当然発生します。結果として、選択はローカル多様体と整列したサンプルを優先的に保持しながら、グローバルに関連するテールモードを枝刈りし、崩壊に対する保護手段から崩壊を沈殿させるメカニズムに変わります。私たちは、このようなサイロ化された選択が崩壊を加速し、べき乗則の多様性の衰退を引き起こすことを理論的に証明します。最初の緩和策として、生データを共有せずに複数のサイロから Wasserstein プロキシ参照を構築します。経験的な結果は、偏った分布ではローカル参照の選択が失敗する一方、協調的なプロキシ参照は多様性の低下を軽減することを確認しており、実データのカバレッジが断片的または不足している場合、再帰的合成データ パイプラインには特に注意が必要であることを示唆しています。

原文 (English)

When Sample Selection Bias Precipitates Model Collapse

The proliferation of recursive training on synthetic data can alleviate data scarcity but risks model collapse, where repeated training erodes distributional tails and homogenizes outputs. Data selection is widely viewed as a remedy, yet its reliability depends critically on the reference distribution used by the verifier. We show that in low-resource verification regimes, where each verifier observes only a small, fragmented, and biased slice of the target manifold, selection itself becomes biased. This situation naturally arises in low-resource data silos such as healthcare consortia or proprietary financial institutions, where raw data cannot be pooled and local references are inherently incomplete. As a result, selection preferentially retains samples aligned with the local manifold while pruning globally relevant tail modes, turning from a safeguard against collapse into a mechanism that precipitates it. We theoretically prove that such siloed selection accelerates collapse and induces power-law diversity decay. As an initial mitigation, we construct Wasserstein proxy references from multiple silos without sharing raw data. Empirical results confirm that local-reference selection fails on skewed distributions, whereas collaborative proxy references mitigate diversity degradation, suggesting that recursive synthetic-data pipelines require particular caution when real-data coverage is fragmented or scarce.

13:00 JST研究/論文

AI の受容性か、それとも AI の導入の広がりか?低リテラシーと高使用率のリンクのツール固有の再分析

Tully、Longoni、および Appel (2025) によって報告された最近の証拠は、人工知能 (AI) リテラシーが低いほど AI に対する受容性が高まると予測していることを示唆しています。この記事の研究 3 の公開データを使用して、この主張を再検討します。研究 3 では、5 つの AI ツール カテゴリの過去の使用状況を 5 段階の頻度スケールで測定します。まず、参加者レベルの平均、二項ロジット、順序ロジット、および多項ロジットの仕様について OLS を使用して、AI リテラシーと集計 AI 使用量の間の負の関連性を再現します。次に、集計関係により、ツールの種類による実質的な異質性が隠蔽されることを示します。人口動態を調整した主要な仕様では、AI リテラシーはテキスト AI の使用を大幅に予測しません (順序付けロジット $\beta$ = -0.090、p = 0.387) が、非テキスト AI の採用については依然として強力な予測因子です ($\beta$ = -0.377、p < 0.001)。非テキスト効果は、Tully et al. の元の研究 3 制御仕様 ($\beta$ = -0.502、p < .001) の下でも強力です。バイナリ、順序ロジット、および多項仕様は、非テキストの関係が集中的な使用の証拠ではなく、主に採用/非採用のパターンであることを示唆しています。非テキスト AI ツールを使用したことがある人口統計調整されたオッズ比は 0.68 です。したがって、表明された好みではなく、自己申告による過去の使用状況を測定した研究では、AI リテラシーが低いほど AI に対する一般的な受容性が高まるという単純な主張を裏付ける証拠はありません。それは代わりに、普及率の低い非テキスト AI ツール全体でのより広範な採用という狭いパターンを示しています。

原文 (English)

AI Receptivity or AI Adoption Breadth? A Tool-Specific Reanalysis of the Lower-Literacy/Higher-Usage Link

Recent evidence reported by Tully, Longoni, and Appel (2025) suggests that lower artificial intelligence (AI) literacy predicts greater receptivity toward AI. We revisit this claim using the public data from Study 3 of that article, which measures past usage of five AI tool categories on a five-point frequency scale. We first reproduce the negative association between AI literacy and aggregate AI usage using OLS on participant-level averages, binary logit, ordered logit, and multinomial logit specifications. We then show that the aggregate relationship masks substantial heterogeneity by tool type. In our demographic-adjusted primary specification, AI literacy does not significantly predict text AI usage (ordered-logit $\beta$ = -0.090, p = .387), whereas it remains a strong predictor of non-text AI adoption ($\beta$ = -0.377, p < .001). The non-text effect is also robust under Tully et al.'s original Study 3 control specification ($\beta$ = -0.502, p < .001). Binary, ordered-logit, and multinomial specifications suggest that the non-text relationship is primarily an adoption/non-adoption pattern rather than evidence of intensive use: the demographic-adjusted odds ratio of ever having used a non-text AI tool is 0.68. Thus, in the study that measures self-reported past usage rather than stated preferences, the evidence does not support a simple claim that lower AI literacy predicts greater receptivity to AI in general. It points instead to a narrower pattern of broader adoption across lower-penetration, non-text AI tools.

13:00 JSTLLM/生成AIビジネス/資金調達研究/論文GPT / ChatGPT

MA-ProofBench: 数学解析における定理証明のための LLM の 2 層評価

大規模言語モデル (LLM) は定理証明の自動化において顕著な進歩を遂げていますが、既存の正式なベンチマークは数学的範囲と難易度の両方において依然として限定的です。そのほとんどは、代数や初歩的な整数論など、形式化が容易な分野に集中しており、数学的分析など、より深い推論を必要とする下位分野の範囲は限られています。このギャップに対処するために、私たちの知る限りでは、数学的解析に特化した最初の正式な定理証明ベンチマークである MA-ProofBench を導入します。このベンチマークには、測定と統合理論、複雑な解析、関数解析など、6 つのコア トピックと 27 のサブカテゴリをカバーする 200 の形式化された定理が含まれています。問題は学部レベル(レベルI、100問)と博士レベルの2つの難易度に分かれています。適格レベル (レベル II、100 問)。LLM がさまざまな数学的深さで形式的推論をどの程度実行できるかを評価します。各問題は、人間主導、LLM 支援の形式化パイプラインとそれに続く独立した専門家のレビューを通じて構築され、形式的なステートメントが元の数学に忠実であることが保証されます。 MA-ProofBench では、最近のさまざまな汎用推論モデルと形式定理証明器を評価します。ただし、ほとんどのモデルのパフォーマンスは低く、最もパフォーマンスの高いモデルである GPT-5.5 でさえ、レベル I で Pass@8 が 16%、レベル II で 5% しか達成できず、ほとんどのモデルはレベル II で 0% 近くに留まっています。さらなる分析により、Mathlib の幻覚と不完全な証明が 2 つの主な失敗モードであることが特定され、一方、ベンチマークの自然言語バージョンの評価では、非公式推論と正式推論の間に明確なギャップがあることが明らかになりました。 MA-ProofBench は、高度な領域における形式的な数学的推論の進歩を追跡するための信頼できるリファレンスとして機能することを目的としています。

原文 (English)

MA-ProofBench: A Two-Tiered Evaluation of LLMs for Theorem Proving in Mathematical Analysis

Large Language Models (LLMs) have made notable progress in automated theorem proving, yet existing formal benchmarks remain limited in both mathematical coverage and difficulty. Most are concentrated in areas that are easier to formalize, such as algebra and elementary number theory, and provide limited coverage of subfields that require deeper reasoning, including mathematical analysis. To address this gap, we introduce MA-ProofBench, to the best of our knowledge, the first formal theorem-proving benchmark dedicated to Mathematical Analysis. The benchmark contains 200 formalized theorems covering 6 core topics and 27 subcategories, including measure and integration theory, complex analysis, and functional analysis. The problems are divided into two difficulty levels, an undergraduate level (Level I, 100 problems) and a Ph.D. qualifying level (Level II, 100 problems), to evaluate how well LLMs perform formal reasoning at different mathematical depths. Each problem is constructed through a human-led, LLM-assisted formalization pipeline followed by independent expert review, ensuring that the formal statements remain faithful to the original mathematics. We evaluate a range of recent general-purpose reasoning models and formal theorem provers on MA-ProofBench. However, most models perform poorly: even the best-performing model, GPT-5.5, achieves only 16% Pass@8 on Level I and 5% on Level II, while most models stay close to 0% on Level II. Further analysis identifies Mathlib hallucinations and incomplete proofs as the two dominant failure modes, while an evaluation on the natural-language version of the benchmark exposes a clear gap between informal and formal reasoning. MA-ProofBench is intended to serve as a reliable reference for tracking progress in formal mathematical reasoning in advanced domains.

13:00 JSTLLM/生成AIClaude

ポーカー アリーナ: LLM における戦略的推論と記憶の多軸プロファイリング

不確実性の下での戦略的推論は、交渉、財務、政策における結果的な決定を支えますが、一般的なゲームプレイのベンチマークは、異種推論の次元を単一のスカラーに崩壊させ、フロンティア LLM の能力構造が検討されていないままにしています。ポーカー アリーナは、無制限のテキサス ホールデム トーナメント プラットフォームで、3 層のメモリ アーキテクチャ (ハンド内、セッション、セッション間) と、戦略的推論をベット サイズの調整や位置認識などの解釈可能な次元に分解する 9 軸の認知プロファイルを組み合わせたプラットフォームです。私たちは、1,000 の手と制御された記憶アブレーションによる 50 セッションにわたって 7 つのフロンティア モデルを評価しました。トーナメント チップと集計軸スコアによってフィールドの順序が異なります。Claude Opus 4.6 は 14 回の 1 位フィニッシュで +15,730 ドルのチップを獲得しましたが、平均軸スコアでは 7 人中 5 位にすぎませんでした。一方、永続的な記憶は一部のモデルに役立ち、他のモデルに悪影響を及ぼします。これらの調査結果は、多軸評価では、スカラー リーダーボードが系統的に誤ってランク付けされている能力構造を明らかにしており、単一軸のピーク パフォーマンスよりも次元間の一貫性の方が重要であることを示しています。

原文 (English)

Poker Arena: Multi-Axis Profiling of Strategic Reasoning and Memory in LLMs

Strategic reasoning under uncertainty underpins consequential decisions in negotiation, finance, and policy, but prevailing game-play benchmarks collapse heterogeneous reasoning dimensions into a single scalar, leaving the capability structure of frontier LLMs unexamined. We introduce Poker Arena, a no-limit Texas Hold'em tournament platform that couples a three-layer memory architecture (within-hand, session, and cross-session) with a nine-axis cognitive profile decomposing strategic reasoning into interpretable dimensions such as bet-sizing calibration and positional awareness. We evaluate seven frontier models across 50 sessions of 1,000 hands and a controlled memory ablation; tournament chips and aggregate axis score order the field differently: Claude Opus 4.6 wins +$15,730 chips with 14 first-place finishes, yet ranks only fifth of seven on mean axis score, while persistent memory helps some models and hurts others. These findings show that multi-axis evaluation surfaces capability structure that scalar leaderboards systematically misrank, with cross-dimensional consistency outweighing peak performance on any single axis.

13:00 JST研究/論文

表形式のデータ埋め込みに対する構造化クエリのための超次元コンピューティング

表形式のデータ埋め込みはデータ プロファイリングとデータ統合パイプラインの基礎となり、エンティティの注釈や解決などのタスクを可能にします。スキーマのマッチング。列タイプの検出。テーブル検索など。既存のアプローチでは、行、列、またはテーブル全体をベクトル空間に埋め込み、最近傍検索に依存して一致候補を取得します。現在の埋め込み方法の根本的な制限は、解釈可能な類似性スコアが欠如していることです。クエリとその最近傍間の具体的な類似度値には本質的な意味がありません。そのため、その近隣が真の一致であるのか、それとも有効な回答を含まないコーパス内の最も類似性の低い項目であるのかを判断することが不可能になります。取得の原則に基づいたしきい値を設定できないことにより、特にゼロ一致検出の場合、実際の展開が損なわれます。私たちは、検索タスクがベクトル空間で構造化された選択プロジェクト クエリに応答することに対応する場合の、表形式の行埋め込みのフレームワークとしての超次元コンピューティング (HDC)、特にホログラフィック縮小表現 (HRR) モデルの使用を調査します。 HDC 操作の代数的特性を利用して、等価検索述語と非等価検索述語の両方の閉じた形式の類似性の期待値を導出します。この値は、次元が増加するにつれて解釈可能な値に収束し、これらを使用して適切な検索しきい値を特定します。さまざまなテーブル サイズと述語長にわたる 2 つの現実世界のデータセットを使用して、グラフ ベースのベースラインである EmbDI に対して HDC を評価します。私たちの結果は、HDC がすべての構成にわたる行取得において EmbDI と同等またはそれを上回り、不等号述語をより堅牢に処理し、十分な次元で完全な属性射影精度を達成すると同時に、原則に基づいたしきい値を通じてゼロ一致述語の信頼性の高い識別を独自に可能にすることを示しています。

原文 (English)

Hyperdimensional computing for structured querying on tabular data embeddings

Tabular data embeddings have become a cornerstone of data profiling and data integration pipelines, enabling tasks such as entity annotation and resolution; schema matching; column type detection; and table search, among others. Existing approaches embed rows, columns, or entire tables into a vector space and rely on nearest-neighbor search to retrieve candidate matches. A fundamental limitation of current embedding methods is the lack of interpretable similarity scores: the concrete similarity value between a query and its nearest neighbour carries no intrinsic meaning, making it impossible to determine whether that neighbour is a true match or simply the least-dissimilar item in a corpus that contains no valid answer. This inability to set principled thresholds for retrieval undermines practical deployment, particularly for zero-match detection. We investigate the use of HyperDimensional Computing (HDC), specifically the Holographic Reduced Representations (HRR) model, as a framework for tabular row embeddings when the retrieval task corresponds to answering structured select-project queries in vector space. Exploiting the algebraic properties of HDC operations, we derive closed-form expected similarity values for both equality and non-equality retrieval predicates, which converge to interpretable values as dimensionality increases, and use these to identify suitable retrieval thresholds. We evaluate HDC against EmbDI, a graph-based baseline, on two real-world datasets across varying table sizes and predicate lengths. Our results show that HDC matches or outperforms EmbDI for row retrieval across all configurations, handles non-equality predicates more robustly, and achieves perfect attribute projection accuracy at sufficient dimensionality -- while uniquely enabling reliable identification of zero-match predicates through its principled thresholds.

13:00 JSTLLM/生成AIエージェントハードウェア/半導体

安全プリミティブとしての機能の最小化: 最小権限の LLM エージェントに対するリスクを認識した因果関係ゲート

現代の意思決定システムは、学習されたコンポーネントへの依存度が高まっており、その出力は自信があるにもかかわらず間違っている可能性があり、下流のアクションがコストのかかるエラーにさらされることになります。リスク認識因果ゲーティング (RACG) を紹介します。これは、因果効果の推定と調整されたリスク制御を組み合わせることにより、モデルの予測に基づいて行動するか、延期するか、回避するかを決定するフレームワークです。 RACG は、候補アクションから結果に至るまでの因果経路をモデル化し、生の予測信頼度ではなく、推定された反事実リスクに基づいて各意思決定を制御します。ゲーティングの信頼性を高めるために、高リスク条件下で動作する確率に関する分布自由境界を導出し、これらの境界がユーザー指定の安全制約を満たす動作しきい値にどのように変換されるかを示します。さらに、予測結果と現実の結果の間の差異を監視し、因果関係の仮定が違反されているように見える場合にゲートを強化することで、分布のシフトを調整する適応型ゲートポリシーを提案します。シミュレートされた介入と現実世界の意思決定ベンチマーク全体で、RACG は、ゲートなし政策の有用性のほとんどを維持しながら、高コストのエラーを大幅に削減し、一致する棄権率で信頼度ベースの選択的予測ベースラインを上回ります。私たちの結果は、因果関係のリスクと予測の不確実性を明確に分離することで、より安全で透明性の高い意思決定システムが得られ、一か八かの状況において信頼できる自動化のための原則に基づいたメカニズムを提供することを示しています。

原文 (English)

Capability Minimization as a Safety Primitive: Risk-Aware Causal Gating for Least-Privilege LLM Agents

Modern decision systems increasingly rely on learned components whose outputs may be confident yet wrong, exposing downstream actions to costly errors. We introduce Risk-Aware Causal Gating (RACG), a framework that decides whether to act on, defer, or abstain from a model's prediction by combining causal effect estimation with calibrated risk control. RACG models the causal pathway from candidate actions to outcomes and gates each decision according to an estimated counterfactual risk rather than raw predictive confidence. To make gating reliable, we derive distribution-free bounds on the probability of acting under high-risk conditions and show how these bounds translate into operating thresholds that satisfy user-specified safety constraints. We further propose an adaptive gating policy that adjusts to distribution shift by monitoring discrepancies between predicted and realized outcomes, tightening the gate when causal assumptions appear violated. Across simulated interventions and real-world decision benchmarks, RACG reduces high-cost errors substantially while preserving most of the utility of an ungated policy, and it outperforms confidence-based and selective-prediction baselines at matched abstention rates. Our results indicate that explicitly separating causal risk from predictive uncertainty yields decision systems that are both safer and more transparent, offering a principled mechanism for trustworthy automation in high-stakes settings.

13:00 JSTエージェント

高校の成績証明書処理を自動化するマルチエージェント AI システム: 大規模な共同文書分析

毎年、大学入学事務局は、独自のフォーマット、成績評価システム、レイアウトを持つ何百万もの高校の成績証明書を処理するという圧倒的な課題に直面しています。この手動プロセスにより、運用上のボトルネックが生じ、入院の決定が遅れ、貴重なリソースが消費されます。私たちは、専門のエージェントが連携して、インテリジェントな調整と通信を通じてさまざまなトランスクリプト形式を自動的に処理する、マルチエージェント AI システムを通じて革新的なソリューションを提供します。当社のマルチエージェント アーキテクチャは、フォーマット固有の解析を行うパターン認識エージェント、自然言語理解を行うセマンティック分析エージェント、マルチモーダル ドキュメント分析を行うビジョン インテリジェンス エージェントの 3 つの特殊なエージェントで構成されており、エージェントの通信と結果の調整を管理するオーケストレーション エージェントによって調整されます。当社の主な革新は、GPA 抽出を調整信号として使用するエージェントベースの品質管理にあり、信頼性の高いエージェントのコラボレーションを保証し、重要な情報の損失を防ぎます。米国 13 州の高校からの実際の成績証明書 40 件を評価したところ、当社のエージェント システムはすべての文書を正常に処理し、成績証明書あたり 45 秒という実用的な処理速度を維持しながら、専門家による手動レビューと比較して 96.7% の精度を達成しました。この研究は、マルチエージェントの連携が複雑な文書処理の課題をどのように解決し、精度を維持しながら処理時間を大幅に短縮する、スケーラブルで協調的な AI ソリューションを機関に提供できることを示しています。

原文 (English)

A Multi-Agent AI System for Automated High School Transcript Processing: Collaborative Document Analysis at Scale

Each year, college admissions offices face an overwhelming challenge: processing millions of high school transcripts, each with unique formats, grading systems, and layouts. This manual process creates operational bottlenecks that delay admissions decisions and consume valuable resources. We present a transformative solution through a multi-agent AI system where specialized agents collaborate to automatically process diverse transcript formats through intelligent coordination and communication. Our multi-agent architecture consists of three specialized agents-a Pattern Recognition Agent for format-specific parsing, a Semantic Analysis Agent for natural language understanding, and a Vision Intelligence Agent for multimodal document analysis-coordinated by an Orchestration Agent that manages agent communication and result reconciliation. Our key innovation lies in agent-based quality control using GPA extraction as a coordination signal, ensuring reliable agent collaboration and preventing critical information loss. When evaluated on 40 real world transcripts from high schools across 13 U.S. states, our agent system successfully processed every document, achieving 96.7% accuracy compared to expert manual review while maintaining practical processing speeds of 45 seconds per transcript. This work demonstrates how multi-agent coordination can solve complex document processing challenges, offering institutions a scalable, collaborative AI solution that preserves accuracy while dramatically reducing processing time.

13:00 JSTエージェント

申し訳ありませんが、難しい部分ではありません: 半自律的な形式化に関する専門家レビューのケーススタディ

大規模な言語モデルは、インタラクティブな定理証明器の証明のギャップを埋めることができますが、検証された定理は、再利用可能なライブラリの貢献と同じではありません。私たちは、グロタンディークの消失定理の半自律的な形式化という詳細なケーススタディを通じて、この区別を研究します。初期バージョンは問題なくコンパイルできますが、専門家のレビューにより、定義、定理の一般性、ファイル構成、および API に重大な問題が発見されました。その後、レビュー主導のリファクタリングと圧縮プロセスを実行し、2 回目の専門家のレビューを得ました。前後の比較では、はっきりと分かれていることがわかります。エージェントは、ローカルで機械的にチェック可能なフィードバックにはよく適応しましたが、定義の選択と API の設計では依然として弱いままでした。私たちは、自動形式化はクローズドソーリーによって評価されるだけでなく、結果として得られる形式化が専門家のレビューに耐えられるかどうかによって評価されるべきであると主張します。

原文 (English)

Sorries Are Not the Hard Part: An Expert-Review Case Study of a Semi-Autonomous Formalization

Large language models can often close proof gaps in interactive theorem provers, but a verified theorem is not the same thing as a reusable library contribution. We study this distinction through a detailed case study: a semi-autonomous formalization of Grothendieck's vanishing theorem. The initial version compiles with no sorries, but an expert review found serious problems in definitions, theorem generality, file organization, and the API. We then ran a review-driven refactor and compression process and obtained a second expert review. The before-and-after comparison shows a sharp split: agents adapted well to local, mechanically checkable feedback, but remained weak at choosing definitions and designing APIs. We argue that autoformalization should be evaluated not only by closed sorries, but by whether the resulting formalization survives expert review.

13:00 JSTLLM/生成AI

敵対的コンセプト検索: フィーチャ ジオメトリから構成エラーを予測する

人間は、どのようなシナリオが LLM にとって最も困難であるかを常に直観できるとは限りません。困難なエッジケースを捉えたいと考えて、開発者は人間にとって困難になるように問題を設計するか、広範なベンチマークを厳選します。代わりに、モデルがどのシナリオで失敗するかを予測できたらどうなるでしょうか?この論文では、LLM の表現幾何学を使用して、どの概念の組み合わせが失敗するかを予測します。この構成上の失敗は、顕著な特徴間の干渉によるものであると考えられます。体系的な構成を必要とするタスク (おもちゃのプログラム的な設定、マルチホップ推論、多言語の事実の想起など) では、一対の概念がほぼ直交的にエンコードされている場合、モデルがそれらを確実に構成することがわかります。それらの線形エンコーディングが近く、干渉が生じると、モデルはそれらを合成できません。私たちの方法は、特定の入力を評価することなく、さまざまな構成タスクにわたる故障モードを確実に予測します。これらの結果は、表現幾何学を使用して高リスクの例を特定し、対象を絞ったストレス テストを構築し、実世界の展開におけるアクティブ ラーニングのスケーラブルな基盤を提供するための基礎を築きます。

原文 (English)

Adversarial Concept Search: Predicting Compositional Errors From Feature Geometry

Humans cannot always intuit what scenarios are most challenging to LLMs. Hoping to capture challenging edge cases, developers either design problems to be difficult for humans or curate extensive benchmarks. What if we could instead anticipate which scenarios a model will fail on? In this paper, we use an LLM's representational geometry to predict which concept combinations it will fail on. We attribute this compositional failure to interference between salient features. In tasks that require systematic composition - toy programmatic settings, multihop reasoning, multilingual factual recall - we find that when a pair of concepts is encoded near-orthogonally, the model reliably composes them. When their linear encodings are close, producing interference, the model fails to compose them. Our method reliably anticipates failure modes across different compositional tasks, without evaluating specific inputs. These results lay the groundwork to use representational geometry to identify high-risk examples, construct targeted stress tests, and provide a scalable foundation for active learning in real-world deployment.

13:00 JSTLLM/生成AIエージェント

Minim: 信頼できるローカル サニタイズによるエージェント向けのプライバシーを意識した最小限のビュー

最新の LLM を利用した自律エージェントは、複雑なデジタル環境で信頼性の高いアクション基盤を実現するために、リッチなユーザー インターフェイス (UI) 状態の観察にますます依存しています。ただし、多くの展開では、ほとんどの要素が現在のタスクに無関係であっても、完全な UI 状態がリモート推論サーバーに送信されるため、認証コード、プライベート通知、バックグラウンド アプリケーションの状態などの機密ではあるが不要なコンテキストが漏洩する可能性があります。私たちは、監視がデバイスから送信される前にクライアント側でプライバシーを考慮した最小化を実行する、信頼できるローカル ブローカーである MINIM を提案します。コンテキスト整合性 (CI) に基づいて、MINIM は、固有の感度スコア (s) とタスク条件付きの必要性スコア (n) を予測することにより、各 UI 要素の二重スコア表現を学習します。これらのスコアは、重要な要素を保持し、必要に応じて機密属性を抽象化し、タスクに無関係なコンテンツを削除する 3 つの開示ポリシーを推進します。高リスクのコンテンツに対して必要性エラーをより強力にペナルティする CI 対応の目標を最適化し、タスクに不可欠な情報を維持しながら積極的なプルーニングを可能にします。 WebArena から派生した現実世界の UI 観察に関する実験では、MINIM がタスクに重要なセマンティック コンテキストと、信頼できるエージェントのアクションに必要なインタラクティブなアフォーダンスを維持しながら、タスクに関係のない機密漏洩を大幅に削減することが示されています。

原文 (English)

Minim: Privacy-Aware Minimal View for Agents via Trusted Local Sanitization

Modern LLM-powered autonomous agents increasingly rely on rich user interface (UI) state observations to achieve reliable action grounding in complex digital environments. However, many deployments transmit the full UI state to remote inference servers even when most elements are irrelevant to the current task, which can leak sensitive but unnecessary context such as authentication codes, private notifications, and background application states. We propose MINIM, a trusted local broker that performs privacy-aware minimization on the client side before any observation leaves the device. Grounded in Contextual Integrity (CI), MINIM learns a dual-score representation for each UI element by predicting an inherent sensitivity score (s) and a task-conditioned necessity score (n). These scores drive a ternary disclosure policy that keeps essential elements, abstracts sensitive attributes when needed, and removes task-irrelevant content. We optimize a CI-aware objective that penalizes necessity errors more strongly on high-risk content, enabling aggressive pruning while preserving task-critical information. Experiments on real-world UI observations derived from WebArena show that MINIM substantially reduces task-irrelevant sensitive leakage while preserving task-critical semantic context and the interactive affordances required for reliable agent actions.

13:00 JSTエージェント

数値分析の形式化: カーネルの受け入れを超えたエージェント パイプラインと品質監査

最近の研究では、コーディング エージェントが高度な数学の教科書全体を Lean 4 で形式化できることが実証されていますが、既存の取り組みは、mathlib ですでに十分に表現されている数学の分野に集中しており、カーネルの受け入れによってのみ成功を評価しています。私たちは、mathlib にはほとんど含まれていない数値解析の教科書である「常微分方程式の数値手法」を形式化するコーディング エージェントを適用することで両方の制限に対処し、ゼロから新しい理論を開発するエージェントの能力を強調します。さらに、コンパイルを超えてエージェントによって生成された形式化の品質を評価するための体系的で再現可能な 3 次元フレームワーク、つまり意味論的な正確性、Mathlib の再利用、および LLM-as-judge メソッドによるファイル間の再利用を導入します。このフレームワークを独自の形式化と、RepoProver および M2F のリリースされた出力に適用すると、不完全な複数部分のステートメント、追加された弱体化仮説、パラメーター制限など、カーネルの受け入れによって完全に隠蔽されている、繰り返し発生する不正な形式化パターンが明らかになります。私たちの結果は、コンパイルベースの指標が形式化の品質を大幅に誇張していることを示唆しており、将来の自動形式化システムのより厳密な評価をサポートする再現可能な監査方法論を提供します。

原文 (English)

Formalizing Numerical Analysis: An Agent Pipeline and Quality Audit Beyond Kernel Acceptance

Recent work has demonstrated that coding agents can formalize entire advanced mathematics textbooks in Lean 4, yet existing efforts concentrate on branches of mathematics already well-represented in mathlib and measure success solely through kernel acceptance. We address both limitations by applying a coding agent to formalize Numerical Methods for Ordinary Differential Equations, a textbook in numerical analysis that is largely absent from mathlib, stressing the agent's capacity to develop new theory from scratch. We further introduce a systematic, reproducible three-dimensional framework for evaluating the quality of agent-produced formalizations beyond compilation: semantic correctness, Mathlib reuse, and cross-file reuse via LLM-as-judge methods. Applying this framework to our own formalization and to the released outputs of RepoProver and M2F, we uncover recurring unfaithful formalization patterns, including incomplete multi-part statements, added weakening hypotheses, and parameter restrictions, that kernel acceptance entirely obscures. Our results suggest that compilation-based metrics substantially overstate formalization quality, and we provide a reproducible audit methodology to support more rigorous evaluation of future autoformalization systems.

13:00 JST研究/論文

薬物と疾患の関係治療における適用条件抽出

特定の薬剤が標的疾患に対して治療効果を発揮する条件を特定することは、臨床上の意思決定をサポートするために重要です。しかし、既存の生体医学情報抽出方法のほとんどは、薬物と病気の間の関係を特定することのみに焦点を当てており、そのような関係が適用される可能性があるコンテキスト固有の条件をほとんど見落としています。この問題に対処するために、生物医学研究文献から治療薬の適用条件、つまり疾患関係を抽出するタスクを導入します。私たちは、1,119 の薬物と疾患のペアを含む生物医学論文の抄録上に、薬物、疾患、および適用条件の 3 つの要素に手動で注釈を付けた最初のデータセットを作成しました。このデータセットを使用して、さまざまな既存の手法のパフォーマンスを体系的に評価します。さらに、LoRAを強化して薬物と疾患の関係を考慮する新しい手法を提案します。私たちの手法は、さまざまな評価設定にわたって一貫して強力なベースラインを上回ります。この論文のソース コードとデータセットは、https://github.com/guantingluo98/Drug-ACE から入手できます。

原文 (English)

Applicability Condition Extraction for Therapeutic Drug-Disease Relations

Identifying conditions that a certain drug takes therapeutic effect on a target disease is crucial for clinical decision-making support. However, most existing biomedical information extraction methods have focused on identifying only relations between drugs and diseases, while largely overlooking the context-specific conditions where such relations can apply. To address this problem, we introduce the task of applicability condition extraction for therapeutic drug--disease relations from biomedical research literature. We create the first dataset that has manually annotated triples of drugs, diseases, and applicability conditions on biomedical paper abstracts with 1,119 drug-disease pairs. Using this dataset, we systematically evaluate the performance of a range of existing methods. In addition, we propose a new method that enhances LoRA to consider relations between drugs and diseases. Our method consistently outperforms strong baselines across different evaluation settings. The source code and dataset of this paper can be obtained from: https://github.com/guantingluo98/Drug-ACE

13:00 JSTLLM/生成AINVIDIA

FactoryLLM: スマート ファクトリーで LLM を評価するための安全なオープンソース AI プレイグラウンド

重要な情報が製造プロセスを通じて相互接続されている複数の機械のマニュアルに分散しているため、スマート ファクトリーでの障害の診断と回復は困難です。大規模言語モデル (LLM) は、有望なアプローチを提供します。この論文では、製造プロセス全体にわたって複数のマシンからのドキュメントを分析することによって、さまざまな LLM ベースの検索拡張生成 (RAG) モデルを評価するために設計された安全なオープンソース AI プレイグラウンドである FactoryLLM を提案します。 FactoryLLM を使用すると、ユーザーは LLM を構成し、RAGAS と NVIDIA の LLM-as-a-Judge メトリクスの両方を使用した二重評価セットアップを通じて、複数のドキュメントを推論する際のパフォーマンスを評価できます。 FactoryLLM は、ユーザーが機密の産業データを共有せずにローカルまたはオープンソースの LLM を実行でき、実験用に制御された環境を提供できるため、安全です。私たちは、自律型インテリジェント車両とそのモバイル プランナー ソフトウェアを含むケース スタディを通じて、FactoryLLM の有効性を実証し、約 600 ページのクロスマシン ドキュメントから得られた 30 のメンテナンス クエリにわたって 3 つの LLM を評価しました。結果は、FactoryLLM がクロスマシンのドキュメント推論に効果的であることを示唆しています。すべてのモデルが 0.88 を超える根拠スコアを達成しました。コミュニティが製造固有のシナリオで FactoryLLM をテストするための完全なコードとドキュメントは、公開されています。

原文 (English)

FactoryLLM: A Safe and Open-Source AI Playground for Evaluating LLMs in Smart Factories

Fault diagnostics and recovery in smart factories is challenging because critical information is dispersed across manuals of multiple machines which are interconnected through the manufacturing process. Large Language Models (LLMs) can provide a promising approach. In this paper, we propose FactoryLLM, a safe and open-source AI playground designed for evaluating different LLM-based retrieval-augmented generation (RAG) models by analysing documents from multiple machines across the manufacturing process. FactoryLLM enables the user to configure the LLM, and assess performance when reasoning over multiple documents, through a dual evaluation setup using both RAGAS and NVIDIA's LLM-as-a-Judge metrics. FactoryLLM is safe because it allows users to run local or open-source LLMs without sharing sensitive industrial data, providing a controlled environment for experimentation. We demonstrate the efficacy of FactoryLLM through a case study which involves an Autonomous Intelligent Vehicle and its Mobile Planner software, evaluating three LLMs across 30 maintenance queries derived from approximately 600 pages of cross-machine documentation. The results suggest that FactoryLLM is effective in cross-machine document reasoning: every model achieved a groundedness score above 0.88. The full code and documentation for community to test FactoryLLM with their manufacturing specific scenarios are publicly available.

13:00 JST研究/論文

VeriGeo: 数値的および分析的検証による制御可能な幾何学質問の生成

幾何学問題の生成は、AI 支援教育やマルチモーダルな数学的推論に役立ちますが、問題のステートメント、図、制約、および解決策が相互に一貫している必要があるため、信頼性の高い合成は依然として困難です。既存の手法では、制御性と信頼性がトレードオフになることがよくあります。シードベースの書き換えは柔軟性がありますが、検証性が弱いのに対し、ダイアグラムファーストの構築は妥当性を向上させますが、ユーザーが指定した任意の制約にはあまり適していません。実行可能な推論トレースに基づいた制御可能なジオメトリ生成フレームワークである VeriGeo を紹介します。ターゲットの概念や難易度などのユーザー制約が与えられると、Author エージェントが問題と図を生成し、Solver エージェントが証明に合わせたソリューションを生成します。どちらのエージェントも、自然言語、図、幾何学的制約、証明ステップを検証可能な表現に結び付ける共有アクション シーケンスを使用します。 3 段階のパイプラインは、検証に基づくリフレクションを使用して、数値的一貫性、分析の実現可能性、およびグローバルな一貫性をチェックして、回復可能な障害を修復し、回復不可能な障害を拒否します。 5 つの LLM バックボーン全体で、raw 世代はこれらのチェックに頻繁に失敗しますが、VeriGeo は無効な試行のかなりの部分を修復します。 VeriGeo によって生成された 8.7k のサンプルに対する監視付き微調整により、エンドツーエンドのマルチモーダル LLM ベースのソルバーの中で最高の GeoQA パフォーマンスが報告されており、PGPS9K および MathVista-GPS で強力な結果が得られ、マルチモーダル幾何推論を改善するための検証済み合成データの有効性が実証されています。

原文 (English)

VeriGeo: Controllable Geometry Question Generation with Numerical and Analytical Verification

Geometry problem generation is useful for AI-assisted education and multimodal mathematical reasoning, but reliable synthesis remains difficult because the problem statement, diagram, constraints, and solution should be mutually consistent. Existing methods often trade off controllability and reliability: seed-based rewriting is flexible but weakly verifiable, whereas diagram-first construction improves validity but is less suited to arbitrary user-specified constraints. We introduce VeriGeo, a controllable geometry generation framework grounded in executable reasoning traces. Given user constraints such as target concepts and difficulty, an Author agent generates a problem and diagram, and a Solver agent produces a proof-aligned solution. Both agents use a shared action sequence that connects natural language, diagrams, geometric constraints, and proof steps into a verifiable representation. A three-stage pipeline checks numerical consistency, analytical realizability, and global consistency, using verification-guided reflection to repair recoverable failures and reject unrecoverable ones. Across five LLM backbones, raw generations frequently fail these checks, while VeriGeo repairs a substantial fraction of the invalid attempts. Supervised fine-tuning on 8.7k examples generated by VeriGeo achieves the best reported GeoQA performance among end-to-end multimodal LLM-based solvers, and obtains strong results on PGPS9K and MathVista-GPS, demonstrating the effectiveness of verified synthetic data for improving multimodal geometry reasoning.

13:00 JSTLLM/生成AIエージェント

エージェントの信頼に条件を付ける必要があるのはどのような場合ですか?エージェント群におけるスキル条件付き評判の特徴付けと攻撃

オープン プラットフォームでは、基本モデル、足場、ツール スタックが異なる異種 LLM エージェント間でタスクをルーティングすることがますます増えており、その能力はスキルによって大きく異なります。あるスキルに優れたエージェントでも、別のスキルでは役に立たないこともあります。標準のレピュテーション アプローチでは、各エージェントを単一のグローバル信頼スコアで要約しますが、グローバルで最も信頼されているエージェントにすべてのタスクをルーティングすると、専門化の価値が要求されないままになるため、このスカラーはここでは間違ったオブジェクトです。私たちは、スキル条件付き信頼 R(i | k) (エージェントごとに 1 つのスコアではなく、スキル k を必要とするタスクに対してエージェント i に置く信頼) を研究し、3 つの反証可能な質問を提起します。条件付けに価値があるのはいつか、スキルを超えた証拠をどれだけ借用すべきか、その借用は安全かどうかです。制御されたフェーズダイアグラム分析は、最初の 2 つに答えます。条件付き信頼は、特定の体制 (エージェントの異質性が高く、スキルごとの証拠がまばらで、相関スキル) でのみ勝ちます。また、このデータ効率を買う結合強度ベータは、同じスキル間の借用がロンダリング チャネルでもあるため、二重用途です。 14 の真に異質な AppWorld エージェントの公開ベンチマークでは、実際のプールは有益な体制内に収まります。これは、スキルごとの最適なエージェントがスキル全体で真に変化することで、小さいながらも真の利益となります。次に、1 つのスキルには安価な証拠があり、ターゲット スキルには何もない攻撃者が条件付きルーターをハイジャックし、プール上のルーティング リグレスが 0 から 0.94 に上昇することを示します。コストゼロの条件情報値テスト (CIVT) では緑と評価されますが、汚染された非ゲート信頼判定は、正直な +0.19 ではなく -0.06 となります。ゼロ証拠ゲートは攻撃を制限しますが、排除しません。明示的な予算に基づいて残留コストを特徴づけます。私たちはシビル耐性を主張するのではなく、トレードオフを定量化します。

原文 (English)

When Should Agent Trust Be Conditional? Characterizing and Attacking Skill-Conditional Reputation in Agent Swarms

Open platforms increasingly route tasks among heterogeneous LLM agents--differing in base model, scaffold, and tool stack--whose competence varies sharply by skill: an agent excellent at one skill may be useless at another. The standard reputation approach summarizes each agent by a single global trust score, but that scalar is the wrong object here, because routing every task to the globally most-trusted agent leaves the value of specialization unclaimed. We study skill-conditional trust R(i | k)--the trust to place in agent i for a task requiring skill k, rather than one score per agent--and pose three falsifiable questions: when is conditioning worth it, how much cross-skill evidence should be borrowed, and whether that borrowing is safe. A controlled phase-diagram analysis answers the first two: conditional trust wins only in a specific regime--high agent heterogeneity, sparse per-skill evidence, and correlated skills--and the coupling strength beta that buys this data efficiency is dual-use, because the same cross-skill borrowing is also a laundering channel. On a public benchmark of 14 genuinely heterogeneous AppWorld agents, real pools land inside the beneficial regime--a small but genuine gain, with the per-skill best agent genuinely changing across skills. We then show that an attacker with cheap evidence in one skill and none in a target skill hijacks the conditional router, driving routing regret from 0 to 0.94 on a pool our zero-cost Conditional Information Value Test (CIVT) rates GREEN--while the ungated trust verdict it contaminates reads -0.06 instead of the honest +0.19. A zero-evidence gate bounds the attack but does not eliminate it; we characterize the residual cost under an explicit budget. We do not claim Sybil-resistance--we quantify the trade-off.

13:00 JSTLLM/生成AIエージェント

反射ギャップを埋める: Agentic RL の無料キャリブレーション ボーナス

LLM は、外部環境と対話し、実行結果、エラー メッセージ、ツール出力などのフィードバックを監視するエージェントとして導入されることが増えています。適切に機能するエージェントは、このフィードバックを活用して自身のパフォーマンスを正確に評価できる必要があります。しかし、私たちは永続的な反省のギャップを発見しました。LLMエージェントは、具体的な環境フィードバックを観察した後、たとえ正しく答えた質問であっても、自分の出力を誤って評価する傾向があり、標準のRLは単位の割り当ての不一致のためにほとんど役に立ちません。このギャップを埋めるために、我々は RefGRPO を提案します。これは、標準的な RL アルゴリズムを 2 つの重要な要素で強化するシンプルかつ効果的な修正です。エージェント自身の反映と実際の結果を対比することによって計算される無料のキャリブレーション ボーナス (追加の報酬モデル、LLM ジャッジ、または外部の注釈は必要ありません)、およびその係数の動的なスケジュールです。標準的な RL ベースラインと比較して、私たちの方法は、5 つのベンチマークにわたって text-to-SQL でのリフレクション キャリブレーション (例: 信頼不足率 $44.4\% \to 7.7\%$ の削減) とタスク精度 (例: $75.1\% \to 76.5\%$) を同時に改善します。結果として得られる調整されたリフレクションにより、エージェントは環境フィードバックに基づいた独自の検証者に変わり、(i) 結果の監視なしでリフレクションを疑似報酬として使用するより良い自己改善、(ii) 正しいとフラグが付けられたロールアウトのみにコミットすることで、より効果的なテスト時間の選択的予測がさらに可能になります。

原文 (English)

Closing the Reflection Gap: A Free Calibration Bonus for Agentic RL

LLMs are increasingly deployed as agents that interact with external environments and observe feedback such as execution results, error messages, and tool outputs. A well-functioning agent should be able to leverage this feedback to accurately assess its own performance. Yet we find a persistent reflection gap: LLM agents tend to mis-assess their own outputs after observing concrete environment feedback -- even for questions they correctly answered -- and standard RL barely helps due to a credit-assignment mismatch. To close this gap, we propose RefGRPO, a simple yet effective fix that augments standard RL algorithms with two key ingredients: a free calibration bonus computed by contrasting the agent's own reflection with the actual outcome (requiring no additional reward model, LLM judge, or external annotation), and a dynamic schedule on its coefficient. Compared to standard RL baselines, our method simultaneously improves reflection calibration (e.g., reduces underconfidence rate $44.4\% \to 7.7\%$) and task accuracy (e.g., $75.1\% \to 76.5\%$) on text-to-SQL across five benchmarks. The resulting calibrated reflection turns the agent into its own verifier grounded in environment feedback, which further enables (i) better self-improvement that uses reflections as pseudo-rewards without outcome supervision, and (ii) more effective test-time selective prediction by committing only to rollouts flagged as correct.

13:00 JSTLLM/生成AIエージェント

SkillAudit: ペア軌道監査によるグラウンドトゥルースフリーのスキル進化

エージェント スキルは、凍結された LLM エージェントを特殊なワークフローでガイドする構造化された手順パッケージです。デプロイメント後にスキルが十分なままであることはほとんどありません。エッジ ケース、API の変更、デプロイメントの制約は、使用することによってのみ明らかになるため、スキルの向上が現実的に必要になります。既存の方法は、保留された検証スコア、隠されたテスト結果、環境報酬などの特権的なフィードバックに依存しています。これらのシグナルは、実践者がタスクの説明とワークスペース データしか持っていない場合には利用できないことがよくあります。真実のフィードバックなしでエージェントのスキルを進化させるためのフレームワークである SkillAudit を紹介します。重要なアイデアは、ペアの軌跡監査です。各反復で、候補スキルの有無にかかわらず同じタスクが実行され、外部ラベルなしでスキルがエージェントの動作をどのように変更するかを分離します。行動の違いを編集ガイダンスに変えるために、SkillAudit はプロセス整合対照評価 (PACE) を使用します。これは、軌道の分岐をスキルドキュメント内の特定のパッセージにリンクされた診断信号にマッピングする評価者のクラスターです。構造検証ツールは、タスク仕様から一度コンパイルされて修正され、タスクの制約をチェックし、有害な更新をロールバックします。 SkillAudit は 2 つのパイプラインを通じて編集をルーティングします。Refine は広く役立つスキルからノイズのあるガイダンスや無関係なガイダンスを削除し、Repair はタスクと競合するパッセージを置き換えます。 SkillAudit は、8 つの専門領域にわたる 89 のコンテナ化されたタスク全体で 73.9% の平均タスク報酬を達成し、スキルのないエージェント (40.9%) や静的なエキスパート スキル (56.7%) を上回りました。これらのゲインは、進化中に隠れたテスト、参照ソリューション、または外部スコアリング関数にアクセスすることなく得られます。

原文 (English)

SkillAudit: Ground-Truth-Free Skill Evolution via Paired Trajectory Auditing

Agent skills are structured procedural packages that guide frozen LLM agents in specialized workflows. Skills rarely remain sufficient after deployment: edge cases, API changes, and deployment constraints become visible only through use, making skill evolution a practical necessity. Existing methods depend on privileged feedback such as held-out validation scores, hidden test outcomes, or environment rewards -- signals often unavailable when a practitioner has only a task description and workspace data. We introduce SkillAudit, a framework for evolving agent skills without ground-truth feedback. The key idea is paired trajectory auditing: at each iteration, the same task is executed with and without the candidate skill, isolating how the skill changes agent behavior without external labels. To turn behavioral differences into edit guidance, SkillAudit uses Process-Aligned Contrastive Evaluation (PACE), a cluster of evaluators that maps trajectory divergences to diagnostic signals linked to specific passages in the skill document. A structural verifier, compiled once from the task specification and then fixed, checks task constraints and rolls back harmful updates. SkillAudit routes edits through two pipelines: Refine removes noisy or irrelevant guidance from broadly useful skills, while Repair replaces passages that conflict with the task. Across 89 containerized tasks spanning 8 professional domains, SkillAudit achieves 73.9% average task reward, outperforming an agent without skills (40.9%) and the static expert skill (56.7%). These gains are obtained without accessing hidden tests, reference solutions, or external scoring functions during evolution.

13:00 JST研究/論文

AFFORDANCE20Q: 物理特性からアフォーダンス推論を評価する

アフォーダンス推論、つまり物体の物理的特性 (形状や材質など) からその動作の可能性を推論する推論は、人間の物理的理解の基礎であり、大規模言語モデル (LLM) にとってますます重要になっています。ただし、既存のアフォーダンス ベンチマークは、評価設定で明示的なオブジェクトのアイデンティティを大部分公開しているため、モデルは物理的特性を推論するのではなく、記憶されたオブジェクトとアフォーダンスのマッピングに依存できます。このギャップに対処するために、オブジェクトのアイデンティティを明らかにすることなく 20 問のゲームとして定式化された新しいアフォーダンス推論ベンチマークである Affordance20Q を導入します。各ゲームでは、モデルは、物理的特性について「はい/いいえ」の質問をすることで、候補セットから隠れたオブジェクトのアフォーダンスを特定します。 Affordance20Q は、454 のオブジェクトと 59 のアフォーダンスにわたる 1,009 のゲームで構成されており、すべて手動でフィルタリング、洗練、および注釈が付けられています。私たちは 15 の最先端の LLM を使用して包括的な実験を実施し、人間のパフォーマンスと比較して大きなギャップ (約 20 ポイント) を発見しました。 KL ベースの情報ゲイン (IG) 分析では、ゲームが進行するにつれてモデルが識別的な質問をすることに失敗していることがさらに示されています。このギャップを埋めるために、ナレッジ ベース (KB) からの証拠に基づいたアフォーダンス ルールを生成する LLM に基づくパイプラインである KB-Anchored Rule Induction (KARI) を開発しました。 KARI はオープンソース LLM を最大 15.2 ポイント改善しますが、KB の範囲が限られているため、さらなる改善が妨げられます。すべてのコードとデータは https://github.com/1171-jpg/Affordance20Q.git でリリースされています。

原文 (English)

AFFORDANCE20Q: Evaluating Affordance Reasoning from Physical Properties

Affordance reasoning, the inference of an object's action possibilities from its physical properties (e.g., shape and material), is fundamental to human physical understanding and increasingly critical for Large Language Models (LLMs). However, existing affordance benchmarks largely expose explicit object identities in the evaluation setup, allowing models to rely on memorized object-affordance mappings rather than reasoning over physical properties. To address this gap, we introduce Affordance20Q, a novel affordance reasoning benchmark formulated as a 20-Questions game without exposing the object's identity. In each game, the model identifies a hidden object's affordance from a candidate set by asking yes/no questions about its physical properties. Affordance20Q comprises 1,009 games over 454 objects and 59 affordances, all manually filtered, refined, and annotated. We conduct comprehensive experiments with 15 state-of-the-art LLMs and find a substantial gap (~20 points) compared to human performance. A KL-based information-gain (IG) analysis further shows that models fail to ask discriminating questions as the game progresses. To close the gap, we develop KB-Anchored Rule Induction (KARI), a pipeline based on LLMs that generates affordance rules grounded in evidence from knowledge bases (KBs). KARI improves open-source LLMs by up to 15.2 points, while the limited coverage of KBs hinders further gains. We release all our code and data at https://github.com/1171-jpg/Affordance20Q.git

13:00 JSTLLM/生成AIエージェント

HarnessX: 構成可能、適応性、進化可能なエージェント ハーネス ファウンドリ

AI エージェントのパフォーマンスは、モデルがどのように観察、推論、動作するかを仲介するプロンプト、ツール、メモリ、制御フローで構成されるランタイム ハーネスに大きく依存します。しかし、今日のハーネスは大部分が手作りで静的なままです。新しいモデルやタスクごとに特注の足場が依然として必要であり、実行中に生成される豊富な痕跡が体系的な改善に蒸留されることはほとんどありません。構成可能、適応性、進化可能なエージェント ハーネスのファウンドリである HarnessX を紹介します。 HarnessX は、置換代数を介して型指定されたハーネス プリミティブをアセンブルし、記号適応と強化学習の間の操作ミラーに基づいたトレース駆動型マルチエージェント進化エンジンである AEGIS を通じてそれらを適応させ、軌道をハーネス更新とモデル トレーニング信号の両方に変えることでハーネス モデル ループを閉じます。 5 つのベンチマーク (ALFWorld、GAIA、WebShop、tau^3-Bench、および SWE-bench Verified) にわたって、HarnessX は平均 +14.5% (最大 +44.0%) の利益をもたらし、ベースラインが最も低いところでは利益が最大になります。これらの結果は、エージェントの進歩がモデルのスケーリングのみによってもたらされる必要はないことを示唆しています。実行フィードバックからランタイム インターフェイスを構成および進化させることは、実用的で補完的な手段です。完全なコードベースは将来のリリースでオープンソース化される予定です。

原文 (English)

HarnessX: A Composable, Adaptive, and Evolvable Agent Harness Foundry

AI agent performance depends critically on the runtime harness, comprising the prompts, tools, memory, and control flow that mediate how a model observes, reasons, and acts. Yet today's harnesses remain largely hand-crafted and static: each new model or task still demands bespoke scaffolding, and the rich traces produced during execution are rarely distilled back into systematic improvement. We introduce HarnessX, a foundry for composable, adaptive, and evolvable agent harnesses. HarnessX assembles typed harness primitives via a substitution algebra, adapts them through AEGIS, a trace-driven multi-agent evolution engine grounded in an operational mirror between symbolic adaptation and reinforcement learning, and closes the harness-model loop by turning trajectories into both harness updates and model training signal. Across five benchmarks (ALFWorld, GAIA, WebShop, tau^3-Bench, and SWE-bench Verified), HarnessX yields an average gain of +14.5% (up to +44.0%), with gains largest where baselines are lowest. These results suggest that agent progress need not come from model scaling alone: composing and evolving runtime interfaces from execution feedback is an actionable and complementary lever. The complete codebase will be open-sourced in a future release.

13:00 JSTLLM/生成AIエージェント

プロアクティブ LLM エージェントの通信ポリシーの進化

LLM エージェントは急速に自律システムに進化しましたが、ユーザーとエージェントの間には情報ギャップが依然として残っています。通信にはコストがかかりますが、ユーザーの好みが同じであるため、情報交換はさらに制限されています。エージェントがモダリティを超えてどのようにコミュニケーションすべきかを調査するために、このホワイトペーパーでは、コミュニケーション ポリシーを形式化し、テキストおよび UI ベースのポリシーを確立してから、さまざまな環境、ペルソナ、およびモデルの組み合わせにわたるコミュニケーション ポリシーを評価します。プロアクティブ エージェントの情報の非対称性を構築するために、ユーザー エージェントとプランナー エグゼキューターという 2 つの補完的な設定をセットアップしました。実験結果では、インタラクション チャネル間の補完的な強みが明らかになりました。テキストベースのインタラクションは多くの場合タスクのパフォーマンスを促進し、構造化された UI はエージェントの応答品質とペルソナ コンプライアンスを向上させます。これを動機として、ハイブリッド方式はこれらの利点を組み合わせたものです。さらに、展開とプロンプトレベルの進化を通じてコミュニケーションポリシーを洗練するための自己進化フレームワークである、コミュニケーションポリシーエボリューション(CPE)を提案します。モデルを変更せずに、CPE はプロンプト改良のみを使用して、複数の設定にわたって最良のタスクの成功を達成します。私たちの調査結果では、通信動作が LLM エージェントにとって重要であるにもかかわらず十分に検討されていない設計次元であることが特定されました。

原文 (English)

Communication Policy Evolution for Proactive LLM Agents

LLM agents have rapidly evolved into autonomous systems, yet a persistent information gap remains between users and agents: communication is costly, while users' identical preferences further limit information exchange. To investigate how agents should communicate across modalities, this paper formalizes Communication Policy, establishes textual and UI-based policies, and then evaluates communication policies across diverse environments, personas, and model combinations. Building information asymmetry for proactive agents, we set up two complementary settings, User-Agent and Planner-Executor. Experimental results reveal complementary strengths between interaction channels: text-based interaction often facilitates task performance, while structured UI improves agents' response quality and persona compliance. Motivated by that, a hybrid method combines these advantages. We further propose Communication Policy Evolution (CPE), a self-evolution framework for refining communication policies through rollout and prompt-level evolving. Without model modification, CPE achieves the best task success across multiple settings using prompt refinement alone. Our findings identify communication behavior as a critical yet underexplored design dimension for LLM agents.

13:00 JST研究/論文

CSPO: 安全な強化学習のための制約に敏感なポリシーの最適化

安全強化学習 (Safe RL) は、通常は制約付きマルコフ決定プロセス (CMDP) としてモデル化される安全制約を満たしながら、期待収益を最大化することを目的としています。主双対法は深い RL までうまく拡張できますが、多くの場合、制約修正の遅延が発生し、振動的な動作や長期にわたる安全性違反につながります。この論文では、局所的な制約の感度をポリシー更新に組み込む一次主双双法である制約に敏感なポリシー最適化 (CSPO) を提案します。 CSPO は、安全境界までの符号付き最短距離から導出される制約に応じた補正によって主な目的を強化し、安全へのよりスマートな回復ステップを可能にし、ラグランジュ乗数の更新の遅れを補償し、境界付近の振動を低減し、元の制約付き問題の KKT 解を保持します。ナビゲーションと移動のベンチマークに関する実験では、CSPO がより迅速な安全回復と高い報酬の維持を実現し、その結果、最先端の原始双対法やペナルティベースの手法と比較して、より高い制約付き収益が得られることが実証されました。

原文 (English)

CSPO: Constraint-Sensitive Policy Optimization for Safe Reinforcement Learning

Safe reinforcement learning (Safe RL) aims to maximize expected return while satisfying safety constraints, typically modeled as Constrained Markov Decision Processes (CMDPs). While primal-dual methods scale well to deep RL, they often suffer from delayed constraint correction, leading to oscillatory behavior and prolonged safety violations. In this paper, we propose Constraint-Sensitive Policy Optimization (CSPO), a first-order primal-dual method that incorporates local constraint sensitivity into policy updates. CSPO augments the primal objective with a constraint-sensitive correction derived from the shortest signed distance to the safety boundary, enabling smarter recovery steps back to safety, compensating for delayed Lagrange multiplier updates, reducing oscillations near the boundary, and preserving the KKT solutions of the original constrained problem. Experiments on navigation and locomotion benchmarks demonstrate that CSPO achieves faster safety recovery and high reward preservation, resulting in higher constrained returns compared to state-of-the-art primal-dual and penalty-based methods

13:00 JSTロボティクス

モンテカルロ木検索による計画のための因果オブジェクト中心モデル

スロット構造の潜在空間でモンテカルロ木探索を実行するモデルベースの強化学習アルゴリズムである COMET (効率的な木探索のための因果オブジェクト中心モデル) を紹介します。 COMET は、凍結された教師なしオブジェクト中心のエンコーダーをトランスフォーマーベースのワールド モデルと組み合わせます。このモデルでは、スロット遷移予測で使用される新しいアクションとスロットの融合メカニズムを通じてアクションがオブジェクトにバインドされます。ポリシーとバリューの責任者はオブジェクト因果関係の注意を使用し、学習したスロットごとの関連性スコアによってトークンの相互作用を調整し、意思決定がタスク関連エンティティに集中できるようにします。 COMET は、MuZero スタイルの潜在計画に明示的なオブジェクトレベルの帰納的バイアスを追加します。オブジェクト中心の Visual RL ベンチマーク、ManiSkill、Robosuite、および VizDoom の 8 つの視覚的および動的に多様なタスクにわたって、COMET は、オブジェクト中心のモノリシック ベースラインと比較して、トレーニングの初期段階でより高い平均正規化スコアを達成します。

原文 (English)

Causal Object-Centric Models for Planning with Monte Carlo Tree Search

We introduce COMET (Causal Object-centric Model for Efficient Tree search), a model-based reinforcement learning algorithm that performs Monte Carlo Tree Search in a slot-structured latent space. COMET pairs a frozen unsupervised object-centric encoder with a transformer-based world model, in which actions are bound to objects through a novel action-slot fusion mechanism that is used in slot transition prediction. Policy and value heads use object-causal attention, modulating token interactions by learned per-slot relevance scores so that decision-making concentrates on task-relevant entities. COMET adds an explicit object-level inductive bias to MuZero-style latent planning. Across eight visually and dynamically diverse tasks from the Object-Centric Visual RL benchmark, ManiSkill, Robosuite, and VizDoom, COMET achieves a higher mean normalized score during the early stages of training compared to object-centric and monolithic baselines.

13:00 JSTLLM/生成AIエージェント

GitOfThoughts: 再生、差分、マージが可能なバージョン管理された推論とエージェント メモリ

大規模言語モデル (LLM) の推論は一時的です。思考の連鎖はコンテキスト ウィンドウとともに消え、枝刈りされた検索ブランチは記録を残さず、メモリ バッファの差分、マージ、監査はできません。他のすべての複雑なソフトウェア プロセス (コード、インフラストラクチャ、データ、実験) はバージョン管理されています。推論はそうではありません。 GitOfThoughts を導入します。これは、エージェントの推論ツリーを git リポジトリとして保存します。スコア付けされたすべての思考はコミット、スコアはメモ、結果はタグであり、取得はエージェント自身の履歴の「git ログ」です。これにより、ほぼゼロのエンジニアリングコストでエージェント間で推論の再生、監査、マージが可能になります。次に、より難しい質問をします。どのような基板であっても、メモリは実際に精度を向上させますか? 5 つの基板 (なし、マークダウン、ベクター、グラフ、git)、2 つのベンチマーク、2 つのモデル スケール、および事前に登録されたレプリケーションにわたって、新しい問題に対する答えは「ノー」です。確実に役立つメモリ形式はなく、期待できる初期の結果は、事前に登録された独自のレプリケーションの下で崩れてしまいました。メモリは、いわゆるコピー可能性のしきい値を超えた場合にのみ支払われます。取得されたケースが現在の問題とほぼ重複している場合 (類似度 >~ 0.8)、精度は急激に上昇します。その下には何もありません。利点は、メソッドの転送ではなく、回答の取得です。4.5 倍の大きなモデルでは、ほぼ重複するペイオフが 2 倍になりますが、実際に動作したサンプルから転送可能なメソッドを抽出することはできません。私たちが発見した唯一の一般的な手段は、テスト時のサンプリングです。したがって、基体としての git の場合は、監査可能性、来歴、および同等の精度でのマージ可能性が重要になります。私たちは、撤回された結果と反駁された仮説を文書化し、私たちが守る評価基準をモデル化します。

原文 (English)

GitOfThoughts: Version-Controlled Reasoning and Agent Memory You Can Replay, Diff, and Merge

Large language model (LLM) reasoning is ephemeral: chains of thought vanish with the context window, pruned search branches leave no record, and memory buffers cannot be diffed, merged, or audited. Every other complex software process (code, infrastructure, data, experiments) is version-controlled; reasoning is not. We introduce GitOfThoughts, which stores an agent's reasoning tree as a git repository: every scored thought is a commit, scores are notes, outcomes are tags, and retrieval is "git log" over the agent's own history. This makes reasoning replayable, auditable, and mergeable across agents at near-zero engineering cost. We then ask the harder question: does memory, in any substrate, actually improve accuracy? Across five substrates (none, markdown, vector, graph, git), two benchmarks, two model scales, and pre-registered replications, the answer for novel problems is no. No memory format reliably helps, and a promising early result collapsed under its own pre-registered replication. Memory pays only above what we call the copyability threshold: when the retrieved case is a near-duplicate of the current problem (similarity >~ 0.8), accuracy jumps sharply; below it, nothing. The gain is answer retrieval, not method transfer: a 4.5x larger model doubles the near-duplicate payoff yet still cannot extract a transferable method from a worked example. The only general lever we find is test-time sampling. The case for git-as-substrate is therefore auditability, provenance, and mergeability at accuracy parity. We document a retracted result and a refuted hypothesis to model the evaluation standard we hold ourselves to.

13:00 JSTLLM/生成AIエージェント

ツールが決定するとき: LLM エージェントはグラフ ニューラル ネットワーク ツールを盲目的に延期し、より強力なバックボーンはさらに延期する

拡大する業務分野では、大規模言語モデル (LLM) エージェントに呼び出し可能なツールとしてグラフ ニューラル ネットワーク (GNN) が装備されています。これは、エージェントがそのようなツールにいつ、どの程度依存するかを判断することを前提としています。これを直接テストします。凍結された GNN を ReAct スタイルの LLM エージェントに明示的なツールとして公開し、テキスト属性グラフ (ogbn-arxiv、WikiCS で複製) 上のノード分類で、エージェントがツールを使用するか、単にツールに従うかを測定します。エージェントが判断力を発揮していないことが分かりました。エージェントの予測は 97.6 ~ 99.2% の確率 (5 シード) で生の GNN と一致し、ツールの出力を丸ごと採用して自身の推論をバイパスする GNN オウムに崩壊します。バックボーン機能 (Qwen2.5 0.5B-7B) を徹底的に調べると、その差異は弱いモデルのアーチファクトではありません。ツールを呼び出すことができるモデル間では、機能に応じて一致度が高まります (1.5B から 7B までは 0.60 から 0.98)。重要なことは、従順のコストは、能力が成長しても縮小せず、代替手段が出現する場合には増大します。利用可能なアクションに対するノードごとのオラクルは、3B で 0.09 ~ 0.18、7B で 0.12 ~ 0.22 だけオウムを上回り、高い同質性ではおよそ 2 倍になります。これは、エージェントの代替案が向上する一方で、オウムは凍結された GNN に固定されているためです。 7B では、単純な近隣ラベル ツールが高い同質性 (0.81 対 0.71) で GNN を追い越しますが、エージェントはまだ延期します。単純な選択的呼び出しゲートは、その高い同質性ギャップ (0.71 から 0.83) の約半分を回復しますが、全体的な純利益は得られません。また、保留された推定値では、標準的なテスト時間機能に対する達成可能な最良のゲートは、オラクルのヘッドルームの最大 3 分の 1 に制限されます。信頼性の高い選択的呼び出しは、単にルーターの設計だけでなく、利用可能な情報によって制限されているように見えます。私たちの結果は慎重な測定です。エージェント + ツール システムの評価では、エージェントがツールに加えて判断を追加することを想定することはできません。また、選択的呼び出しは、規模から現れることを期待するのではなく、設計する必要があります。

原文 (English)

When the Tool Decides: LLM Agents Defer Blindly to Graph Neural Network Tools, and Stronger Backbones Defer More

A growing line of work equips large language model (LLM) agents with graph neural networks (GNNs) as callable tools, assuming the agent exercises judgment over when and how much to rely on such a tool. We test this directly. We expose a frozen GNN to a ReAct-style LLM agent as an explicit tool and measure, on node classification over a text-attributed graph (ogbn-arxiv, replicated on WikiCS), whether the agent uses the tool or merely obeys it. We find the agent does not exercise judgment: its predictions agree with the raw GNN's 97.6-99.2% of the time (5 seeds), collapsing into a GNN parrot that adopts the tool's output wholesale and bypasses its own reasoning. Sweeping backbone capability (Qwen2.5 0.5B-7B), the deference is not a weak-model artifact: among models able to invoke the tool, agreement rises with capability (0.60 to 0.98 from 1.5B to 7B). Crucially, the cost of deference does not shrink as capability grows and grows where alternatives emerge: a per-node oracle over the available actions beats the parrot by 0.09-0.18 at 3B and 0.12-0.22 at 7B, roughly doubling at high homophily, because the parrot is pinned to the frozen GNN while the agent's alternatives improve; at 7B a simple neighbour-label tool overtakes the GNN at high homophily (0.81 vs 0.71) yet the agent still defers. A simple selective-invocation gate recovers about half of that high-homophily gap (0.71 to 0.83) but yields no net global gain, and held-out estimates bound the best achievable gate over standard test-time features to at most a third of the oracle headroom: reliable selective invocation looks limited by available information, not merely router design. Our results are a cautionary measurement: evaluations of agent+tool systems cannot assume the agent adds judgment on top of the tool, and selective invocation must be designed in rather than expected to emerge from scale.

13:00 JSTLLM/生成AIエージェント

チャットボットからデジタル同僚へ: 永続的な自律型 AI へのパラダイム シフト

大規模言語モデル (LLM) は、会話ジェネレーターから、推論、行動、記憶、自己改善が可能な統合 AI システムへと根本的な変革を遂げています。私たちはこの移行を、チャットボットからデジタル同僚への移行、つまり会話による回答から永続的な作業への移行として概念化しています。私たちはこの移行を 2 つの密接に結合した次元に沿って整理します。まず、認知コア レベルでは、LLM はネクスト トークン予測によって駆動されるチャットボット時代の「高速思考」システムから、より意図的で信頼性の高い認知をサポートするために、推論時間の計算、思考連鎖推論、リフレクション、プロセス監視、強化学習を活用する思考 LLM へと進化しています。第 2 に、ツール拡張タスク実行レベルでは、LLM は、アドホックな方法で外部リソースを呼び出すツール呼び出しエージェントから、永続的なワークスペース、スキル、検証ループ、ガバナンスを備えた OpenClaw スタイルのワークステーション システム (OpenClaw) へと進歩しています。 「ワークスペース + スキル」パラダイムにより、状態の永続性、再利用可能なプロシージャ、タスクの終了、エクスペリエンスの再利用により、エピソード ツールが同僚のように使用できるようになります。データ構築が命令と応答のペアから状態、行動、観察の軌跡へ移行し、評価が静的ベンチマークからサンドボックス化された監査可能な自己進化型 AI エコシステムへ移行することを検証します。

原文 (English)

From Chatbot to Digital Colleague: The Paradigm Shift Toward Persistent Autonomous AI

Large Language Models (LLMs) are undergoing a fundamental transformation from conversational generators into integrated AI systems capable of reasoning, action, memory, and self-improvement. We conceptualize this transition as a shift from Chatbot to Digital Colleague: from conversational answers to persistent work. We organize this transition along two tightly coupled dimensions. First, at the cognitive core level, LLMs are advancing from Chatbot-era "fast thinking" systems driven by next-token prediction toward Thinking LLMs that leverage inference-time computation, Chain-of-Thought reasoning, reflection, process supervision, and reinforcement learning to support more deliberate and reliable cognition. Second, at the tool-augmented task execution level, LLMs are progressing from tool-calling Agents that invoke external resources in an ad hoc manner toward OpenClaw-style workstation systems (OpenClaw) equipped with persistent Workspaces, skills, verification loops, and governance. The "Workspace + Skill" paradigm makes episodic tool use colleague-like via state persistence, reusable procedures, task closure, and experience reuse. We examine data construction shifts from instruction-response pairs to State-Action-Observation trajectories and evaluation from static benchmarks to sandboxed, auditable, self-evolving AI ecosystems.

13:00 JST研究/論文Gemma

密な座標リストの微調整により視覚言語モデルに制御可能な干渉面が誘発される

視覚言語モデルを微調整して密な座標リストを出力すると、視覚的な根拠が向上しますが、モデルが構造化出力をシリアル化、繰り返し、終了する方法も変わります。私たちはこの動作を生成および制御面として研究します。 Gemma 4 12B では、高容量 q/k/v/o LoRA はクラス認識 F1@0.3 を 0.007 から 0.448 に上昇させながら、反復尾部圧力 (重複率 0.080、最大反復 23) を誘発します。 q/v ランク スイープでは、ランク 4 ~ 64 にわたって最大繰り返し回数が 21 ~ 22 に維持され、容量の持続性が示されています。ターゲット信号は分離可能です。オブジェクトレベルのリピートストップは、F1 (0.494 ~ 0.490) とより厳密な F1@0.5 (0.381 ~ 0.385) を維持しながら、正確に繰り返されるレコード (重複レート 0.000、最大リピート 1) を削除します。構造軸プローブは、bbox 座標オブジェクト リストへの影響を局所化します。高密度の非 bbox および空間/カウント JSON は、大容量アダプター下を含めて、繰り返しクリーンな状態を保ちます。 Qwen3-VL-8B はクリーンに制御されたエンドポイント (F1@0.3 0.318、重複率 0.000) を再現し、COCO 2017 は獲得と重複圧力を再現します。したがって、高密度の座標リストの適応により、測定および制御可能な構造に束縛されたクロスファミリー干渉面が作成されます。

原文 (English)

Dense Coordinate-List Fine-Tuning Induces a Controllable Interference Surface in Vision-Language Models

Fine-tuning vision-language models to emit dense coordinate lists improves visual grounding but also changes how models serialize, repeat, and terminate structured outputs. We study this behavior as a generation and control surface. In Gemma 4 12B, high-capacity q/k/v/o LoRA raises class-aware F1@0.3 from 0.007 to 0.448 while inducing repeated-tail pressure (duplicate rate 0.080, max repeat 23). A q/v rank sweep keeps max repeat at 21-22 across ranks 4-64, showing capacity persistence. The target signal is separable: object-level repeat-stop removes exact repeated records (duplicate rate 0.000, max repeat 1) while preserving F1 (0.494 to 0.490) and stricter F1@0.5 (0.381 to 0.385). Structure-axis probes localize the effect to bbox-coordinate object lists; dense non-bbox and spatial/count JSON remain repeat-clean, including under high-capacity adapters. Qwen3-VL-8B reproduces a clean controlled endpoint (F1@0.3 0.318, duplicate rate 0.000), and COCO 2017 reproduces acquisition plus duplicate pressure. Dense coordinate-list adaptation therefore creates a structure-bound, cross-family interference surface that can be measured and controlled.

13:00 JSTLLM/生成AIビジネス/資金調達

Every Eval Ever: AI 評価結果の統合スキーマとコミュニティ リポジトリ

AI 評価は、テストと進捗状況の理解に広く使用されています。しかし、評価者が多様であるため、分析や比較に課題となる矛盾が生じます。まず、結果は互換性のない形式で保存され、リーダーボード、論文、ブログ投稿、評価ハーネス ログ、カスタム リポジトリに分散されます。第 2 に、結果は異なる評価フレームワークによって作成され、名目上同一の評価に対して異なるスコアが生成され、メタデータの記録に一貫性がなく、比較、コミュニティ間での評価科学、コスト削減、再利用が妨げられます。 AI 評価結果の初の共有スキーマおよびコミュニティ クラウドソーシング リポジトリである Every Eval Ever を紹介します。このスキーマは、統合された単一の JSON ドキュメントで評価を表現する方法を標準化します。設計上ソースに依存せず、評価ハーネスや論文から同様に結果を取り込み、オプションで詳細な分析のためにインスタンスごとの出力を保存します。私たちは以下に貢献します。(i) コミュニティが管理するメタデータ スキーマと、それに付随するインスタンス レベルのスキーマ。この種の最初の標準化の取り組み。 (ii) 一般的なフォーマット、評価ハーネス、リーダーボードから統一スキーマへの自動コンバータ。 (iii) Hugging Face でホストされているクラウドソーシングのコミュニティ データベース。現在までに 22,235 のモデル、2,273 の固有のベンチマーク、および 31 の評価形式が含まれています。

原文 (English)

Every Eval Ever: A Unifying Schema and Community Repository for AI Evaluation Results

AI evaluations are widely used for testing and understanding progress. However, the diverse evaluators bring with them inconsistencies that challenge analysis and comparison. First, results are saved in incompatible formats, scattered across leaderboards, papers, blog posts, evaluation harness logs, and custom repositories. Second, results are created by different evaluation frameworks, which produce divergent scores for nominally identical evaluations and record metadata inconsistently, hindering comparison, cross-community evaluation science, cost reduction, and reuse. We introduce Every Eval Ever, the first shared schema and community-crowdsourced repository for AI evaluation results. The schema standardizes how evaluations are represented in a unified, single JSON document. It is source-agnostic by design, ingesting results from evaluation harnesses and papers alike, and optionally stores per-instance outputs for fine-grained analysis. We contribute: (i) a community-governed metadata schema with a companion instance-level schema, the first standardization effort of its kind; (ii) automatic converters from popular formats, evaluation harnesses, and leaderboards to the unified schema; and (iii) a crowdsourced community database hosted on Hugging Face, currently spanning to date 22,235 models, 2,273 unique benchmarks, and 31 evaluation formats.

13:00 JSTエージェントビジネス/資金調達

StreamMemBench: 未来志向の支援のためのエージェント メモリのストリーミング評価

パーソナル エージェントの記憶の中心的な役割は、保存された情報と以前の対話を未来志向の支援に変えることです。日常的な使用では、エージェントが観察した内容やユーザーがエージェントとどのように対話するかによって有用な手がかりが得られ、エージェントはそれらを現在のリクエストから将来の同様のタスクに転送する必要があります。既存の記憶ベンチマークは通常、対話の想起やタスクの改善を個別にテストし、ストリーミング観察からその後の支援までの軌跡はほとんどテストされていません。 EgoLife の自己中心的なストリームからの各証拠アンカーを中心に 2 ステップのタスク シーケンスを構築するストリーミング ベンチマークである StreamMemBench を紹介します。最初のタスクでは証拠の使用をテストし、後続のタスクではフィードバックとインタラクション エクスペリエンスが再利用されているかどうかをテストします。 4 つの指標により、証拠の想起、最初の証拠の使用、フィードバックの組み込み、およびフォローアップの再利用が診断されます。 2 つのバックボーンにまたがる 8 つのメモリ システムを使用した実験では、現在のシステムでは、証拠が保存されているか、フィードバックがローカルに組み込まれている場合でも、観察された証拠を使用したり、フィードバックを信頼できる追跡動作に変換したりできないことが多いことが示されています。 StreamMemBench は、https://github.com/landian60/StreamMemBench で公開されています。

原文 (English)

StreamMemBench: Streaming Evaluation of Agent Memory for Future-Oriented Assistance

A central role of personal-agent memory is to turn stored information and prior interactions into future-oriented assistance. In daily use, useful cues come from what the agent observes and how the user interacts with the agent, and the agent must carry them forward from the current request to similar future tasks. Existing memory benchmarks usually test dialogue recall or task improvement in isolation, leaving the trajectory from streaming observations to later assistance largely untested. We introduce StreamMemBench, a streaming benchmark that constructs a two-step task sequence around each evidence anchor from EgoLife egocentric streams. The initial task tests evidence use, while the follow-up task tests whether feedback and interaction experience are reused. Four metrics diagnose evidence recall, initial evidence use, feedback incorporation, and follow-up reuse. Experiments with eight memory systems across two backbones show that current systems often fail to use observed evidence or turn feedback into reliable follow-up behavior, even when evidence is stored or feedback is incorporated locally. StreamMemBench is publicly available at https://github.com/landian60/StreamMemBench.

13:00 JST研究/論文Qwen

VISTA: GUI グラウンディングのためのビュー一貫性のある自己検証トレーニング

GUI グラウンディングにグループ相対ポリシー最適化 (GRPO) を適用すると、ロールアウトは 1 つのスクリーンショット ビューからサンプリングされます。多くの場合、グループは困難な場合にはすべて失敗するか、簡単な場合にはすべて成功するかのどちらかになり、有効な相対的な利点が得られません。私たちは、同じ GUI インスタンスの複数のターゲットを保持するビューから各比較グループを構築する GRPO ベースのトレーニング フレームワークである VISTA (View-Consistent Self-Verified Training) を提案します。各ビューは、ターゲット要素の表示を維持し、そのボックスを正確に再マップするクロップによって生成されるため、モデルのロールアウトは、意味的には同等だが幾何学的に異なる入力間で比較されます。強化学習を無条件の模倣に変えることなく短い座標の生成を安定させるために、VISTA はさらに、自己検証されたクロスビュー アンカーを追加します。これは、グループのベースラインから除外され、モデルが最大の報酬ロールアウトを生成した場合にのみアクティブ化される、アドバンテージ加重損失で最適化されたオラクルの回答です。 5 つの GUI グラウンディング ベンチマークと複数の Qwen バックボーンにわたって、VISTA は一貫してグラウンディング精度を向上させます。ScreenSpot-Pro では、Qwen3-VL 4B/8B/30B-A3B を 55.5/52.7/53.7 から 63.4/65.8/67.0 に引き上げます。さらに、ロバストネス分析により、最悪ビューの精度が高く、予測フリップ率が低いことが示されています。

原文 (English)

VISTA: View-Consistent Self-Verified Training for GUI Grounding

When applying Group Relative Policy Optimization (GRPO) for GUI Grounding, rollouts are sampled from a single screenshot view; groups often become either all failures on difficult instances or all successes on easy ones, yielding no useful relative advantage. We propose VISTA (View-Consistent Self-Verified Training), a GRPO-based training framework that constructs each comparison group from multiple target-preserving views of the same GUI instance.Each view is generated by a crop that keeps the target element visible and remaps its box exactly, so model rollouts are compared across semantically equivalent but geometrically different inputs. To stabilize short coordinate generation without turning reinforcement learning into unconditional imitation, VISTA further adds a self-verified cross-view anchor: an oracle answer optimized with an advantage-weighted loss, excluded from the group baseline and activated only when the model has produced a maximum-reward rollout. Across five GUI-grounding benchmarks and multiple Qwen backbones, VISTA consistently improves grounding accuracy.On ScreenSpot-Pro, it raises Qwen3-VL 4B/8B/30B-A3B from 55.5/52.7/53.7 to 63.4/65.8/67.0. Robustness analyses further show higher worst-view accuracy and lower prediction flip rates.

13:00 JST研究/論文

異種鉄道システムにおける中断を考慮した動的ルート最適化のための時間計画フレームワーク

効率的なルートの最適化は、鉄道運行の安全性と定時性の両方を確保する上で重要な役割を果たします。これは、列車の速度、停止パターン、インフラストラクチャの互換性の制約が変化し、調整が複雑になる異種の多軌間鉄道ネットワークでは特に非常に重要です。単線システムでは、すべての列車が同じ線路を共有し、頻繁な線路切り替えが必要となるため、これらの課題はさらに深刻になります。線路の封鎖、列車の封鎖、エンジン故障、速度低下などの確率的混乱により、運行にさらなる予測不可能性が生じ、時刻表が狂います。しかし、既存の研究は主に高レベルの時刻表に焦点を当てており、線路切り替えの調整などの運用の詳細は省略されています。その結果、人間の運転手に判断が委ねられることになり、鉄道運行における安全上のリスクが増大します。この研究は、異種鉄道システムにおける動的なルート最適化と混乱管理のための時間計画に基づくフレームワークを提案します。このフレームワークは、PDDL 2.1 を使用して鉄道運行を時間計画問題として定式化し、ゲージ互換性の制約と多様な混乱シナリオを明示的にモデル化します。最適化されたスケジュールと実行可能なアクション シーケンスの両方を指定する、競合のないタイムスタンプ付きの運用計画を生成します。提案されたフレームワークを評価するために、最大 1,000 のトラック ポイントと 120 の列車を使用する 200 のインスタンスを含むベンチマーク問題セットを開発しました。フレームワークの評価には、2 人の最先端の時間プランナーと 1 人の計画検証者が採用されました。実験結果は、このフレームワークが異種鉄道システムの一時的な運行計画を効果的に生成し、複数ゲージの制約や混乱に対処し、手動の意思決定への依存を軽減することを示しています。

原文 (English)

A Temporal Planning Framework for Disruption Aware Dynamic Route Optimization in Heterogeneous Railway Systems

Efficient route optimization play a vital role in ensuring both safety and punctuality in railway operations. It is very crucial particularly in heterogeneous multi-gauge railway networks with varying train speed, stopping pattern, infrastructure compatibility constraints increase coordination complexity. In single-track systems these challenges are further intensify due to all trains to share the same track and requires frequent track switching.Stochastic disruptions events including blocked tracks, blocked trains, engine failure and speed slowdowns introduces additional unpredictability in operations and deviate the timetable. However, existing studies predominantly focuses on high-level timetabling, omitting operational details such as track switching coordination. As a result leaving decision to human operators, increasing safety risks into railway operations. This study proposes a framework based on temporal planning for dynamic route optimization and disruption management in heterogeneous railway systems. The framework formulates railway operations as a temporal planning problem using PDDL 2.1 with explicitly modeling gauge compatibility constraints and diverse disruption scenarios. It generates conflict-free timestamped operational plans specifying both optimized schedules and executable action sequences. To evaluate the proposed framework, we developed a benchmark problem set with 200 instances using up to 1,000 track points and 120 trains. Two state-of-the-art temporal planners and a plan validator were employed to assessed the framework. The experimental results demonstrate that the framework effectively generates temporal operational plans for heterogeneous railway systems and handles multi-gauge constraints, disruptions, and reduces dependence on manual decision making.

13:00 JSTLLM/生成AIMicrosoft

クロスドメインアクションシーケンスを解釈可能なワークフローに抽象化する

シーケンシャルまたはタイムスタンプ付きのインタラクション ログは、デジタル アプリケーションの使用状況の客観的な記録を提供しますが、その粒度やノイズにより、人々の作業に関する有意義な洞察が曖昧になることがよくあります。このような洞察は、現実世界のユーザー インタラクションに基づいた方法でデジタル製品を改善するために不可欠です。これまでの研究では、深層学習モデルを適用してユーザーのアクションを高レベルのアクティビティに分類していましたが、これらのアプローチはノイズに非常に敏感であり、アプリケーション全体で一般化するのが困難でした。この制限に対処するために、大規模言語モデル (LLM) を使用して低レベルのアクション シーケンスを高レベルのアクティビティに抽象化するフレームワークである WorkflowView を導入します。私たちは、3 つの異なる挑戦的な連続タスクと多様なドメインにわたってアプローチの有効性と一般性を確立します: (a) ブラウザー ログからのゼロショット タスク記述の再構築 (高い意味的類似性、$\mu_{sim} = 0.91$ を達成)、(b) MOOC インタラクション ログを使用した少数ショットの生徒の中退予測 (わずか 5 つの少数ショットの例で重み付けされた $F_1 = 0.90$ に達します)、(c) 匿名化されたプライバシー保護分析Microsoft Word のドキュメント ワークフロー内での AI ツールの統合。私たちの研究は、LLM ベースの抽象化が、低レベルの行動データを高レベルの解釈可能で実用的な洞察に変換するための堅牢かつ効率的な方法であることを実証しています。また、計算効率やユーザーのプライバシーなど、ロギング インフラストラクチャ内に LLM ベースの推論を導入するための実際的な考慮事項についても説明します。

原文 (English)

Abstracting Cross-Domain Action Sequences into Interpretable Workflows

Sequential or time-stamped interaction logs provide objective records of digital application usage, yet their granularity and noise often obscure meaningful insights into people's work. Such insights are essential for improving digital products in ways grounded in real-world user interactions. Prior research has applied deep learning models to cluster user actions into high-level activities, but these approaches are highly sensitive to noise and struggle to generalize across applications. To address this limitation, we introduce WorkflowView, a framework that uses large language models (LLMs) to abstract low-level action sequences into high-level activities. We establish the effectiveness and generality of our approach across three distinct, challenging sequential tasks and diverse domains: (a) zero-shot task description reconstruction from browser logs (achieving high semantic similarity, $\mu_{sim} = 0.91$), (b) few-shot student dropout prediction using MOOC interaction logs (reaching weighted $F_1 = 0.90$ with only five few-shot examples), and (c) anonymized, privacy-preserving analysis of AI tool integration within document workflows in Microsoft Word. Our work demonstrates that LLM-based abstraction is a robust and efficient path forward for transforming low-level behavioral data into high-level, interpretable, and actionable insights. We also discuss practical considerations for deploying LLM-based inferences within logging infrastructures, including computational efficiency and user privacy.

13:00 JSTLLM/生成AIエージェント

LLM-Agent ワークフローにおける並列分岐の直接潜在空間合成に向けて

大規模な言語モデルは、エージェント システムの実行エンジンとして機能することが増えていますが、依然としてシーケンシャル テキスト インターフェイスを通じてコン​​テキストを消費します。これにより、最終的な合成ステップの前に、独立したブランチがサブタスクを調査し、証拠を取得し、候補ソリューションを生成する、最新の構造化エージェント ワークフローとの不一致が生じます。既存のシステムは通常、テキスト出力を連結することによってこれらのブランチをマージします。これにより、並列構造が破棄され、冗長なプレフィル計算が発生します。この作業では、パラレル ワーカー エージェントによって生成された KV キャッシュをシンセサイザーが直接利用できるようにするプラグ アンド プレイ フレームワークである Parallel-Synthesis を紹介します。並列合成は、個別に生成されたブランチ キャッシュを調整するキャッシュ マッパーと、このノンシーケンシャル キャッシュ インターフェイスからの生成を可能にする微調整されたシンセサイザー アダプターを組み合わせます。シンセサイザーを並列キャッシュ コンテキストに公開し、キャッシュされたブランチ間の集計を教え、標準のテキスト連結ベースの合成から推論動作を抽出するデータを使用して並列合成をトレーニングします。数学、科学 QA、コード生成、GAIA、マルチエージェント データベース診断にわたる 9 つのダウンストリーム データセットにわたって、並列合成は 7 つのデータセットでテキストベースの合成と同等またはそれを上回り、他の 2 つのデータセットでは同等のパフォーマンスを維持しています。また、最初のトークンまでの時間が 2.5 倍から 11 倍も短縮され、直接キャッシュベースの合成が、並列エージェント ブランチを介したよりネイティブで効率的な合成のための有望なインターフェイスであることを示唆しています。

原文 (English)

Towards Direct Latent-Space Synthesis for Parallel Branches in LLM-Agent Workflows

Large language models increasingly serve as execution engines for agentic systems, yet they still consume context through a sequential text interface. This creates a mismatch with modern structured agent workflows, in which independent branches explore subtasks, retrieve evidence, or generate candidate solutions before a final synthesis step. Existing systems typically merge these branches by concatenating their textual outputs, which discards the parallel structure and incurs redundant prefill computation. In this work, we introduce Parallel-Synthesis, a plug-and-play framework that enables a synthesizer to directly consume the KV caches produced by parallel worker agents. Parallel-Synthesis combines a cache mapper that calibrates independently generated branch caches with a fine-tuned synthesizer adapter that enables generation from this non-sequential cache interface. We train Parallel-Synthesis using data that exposes the synthesizer to parallel cache contexts, teaches aggregation across cached branches, and distills reasoning behavior from standard text-concatenation-based synthesis. Across nine downstream datasets spanning math, science QA, code generation, GAIA, and multi-agent database diagnosis, Parallel-Synthesis matches or outperforms text-based synthesis on seven datasets and remains close on the other two. It also reduces time-to-first-token by 2.5x-11x, suggesting that direct cache-based synthesis is a promising interface for more native and efficient synthesis over parallel agent branches.

13:00 JSTLLM/生成AIエージェント

GAGPO: 一般化された Advantage グループ化ポリシーの最適化

強化学習は、大規模言語モデル エージェントのトレーニング後の強力なパラダイムとなっていますが、マルチターン環境での単位の割り当ては依然として課題です。エージェントは、エピソードの終了時にのみ、まばらな軌跡レベルの報酬を受け取ることが多いため、どの中間アクションが成功または失敗に寄与したかを判断することが困難になります。その結果、コストのかかる補助価値モデルに依存せずに、遅れた結果を個々の意思決定ステップに反映させることは未解決の問題のままです。我々は、正確で段階的に調整された時間的クレジット割り当てのための批判のない強化学習手法である Generalized Advantage Grouped Policy Optimization (GAGPO) を提案します。 GAGPO は、サンプリングされたロールアウトからノンパラメトリックなグループ化された値プロキシを構築し、それを使用して TD/GAE スタイルの時間的利点を計算し、時間の経過とともに結果の監視を再帰的に伝播します。 GAGPO は、グループごとの利点の正規化とアクション レベルの重要度の比率を組み合わせて、安定した局所的な最適化シグナルをマルチターン軌道から直接抽出します。 ALFWorld と WebShop での実験では、GAGPO が強力な強化学習ベースラインを上回るパフォーマンスを示しています。さらなる分析により、より高速な初期段階の学習、改善されたインタラクション効率、よりスムーズな最適化ダイナミクスが実証され、GAGPO がマルチターン エージェント強化学習のためのシンプルかつ効果的なフレームワークを提供することが示唆されています。

原文 (English)

GAGPO: Generalized Advantage Grouped Policy Optimization

Reinforcement learning has become a powerful paradigm for post-training large language model agents, yet credit assignment in multi-turn environments remains a challenge. Agents often receive sparse, trajectory-level rewards only at the end of an episode, making it difficult to determine which intermediate actions contributed to success or failure. As a result, propagating delayed outcomes back to individual decision steps without relying on costly auxiliary value models remains an open problem. We propose Generalized Advantage Grouped Policy Optimization (GAGPO), a critic-free reinforcement learning method for precise, step-aligned temporal credit assignment. GAGPO constructs a non-parametric grouped value proxy from sampled rollouts and uses it to compute TD/GAE-style temporal advantages, recursively propagating outcome supervision backward through time. Combined with group-wise advantage normalization and an action-level importance ratio, GAGPO extracts stable, localized optimization signals directly from multi-turn trajectories. Experiments on ALFWorld and WebShop show that GAGPO outperforms strong reinforcement learning baselines. Further analyses demonstrate faster early-stage learning, improved interaction efficiency, and smoother optimization dynamics, suggesting that GAGPO offers a simple yet effective framework for multi-turn agentic reinforcement learning.

13:00 JST研究/論文

単体制約のある疎なバギング: アンサンブル学習における均一事前分布から疎​​な事後分布への移行

ブートストラップ ベースのバギング アンサンブルのトレーニング後の圧縮と確率校正のための数学的に厳密なフレームワークである、Simplex-Constrained Sparse Bagging (SCSB) を紹介します。標準のバギング アンサンブル (ランダム フォレスト、バギング SVM、バギング ニューラル ネットワークなど) は、すべての構成推定量に均一の投票権を割り当てます。ただし、この単純な一様事前分布は、ベース推定量の局所的な能力の変化を無視しており、モデルの過信の一因となります。アンサンブル プルーニングとキャリブレーションを、Out-Of-Bag (OOB) 損失を最小限に抑えることによる確率単体に対する統合最適化問題として定式化します。スパース性を誘発するために、凹二次ペナルティを導入することで、理論的な「L1 シンプレックスのパラドックス」、つまり L1 ノルムがシンプレックス上で一定であり、枝刈りに失敗するという数学的現実に対処します。 SCSB はモデルに依存せず、最大 96% のアンサンブル圧縮を実現し、汎化精度を維持または向上させながら、線形推論の高速化と優れた確率キャリブレーション (予想されるキャリブレーション誤差の低下) をもたらします。

原文 (English)

Simplex-Constrained Sparse Bagging: Transitioning from Uniform Priors to Sparse Posteriors in Ensemble Learning

We present Simplex-Constrained Sparse Bagging (SCSB), a mathematically rigorous framework for post-training compression and probability calibration of bootstrap-based bagging ensembles. Standard bagging ensembles (such as Random Forests, Bagged SVMs, and Bagged Neural Networks) assign uniform voting power to all constituent estimators. However, this naive uniform prior ignores the varying local competence of base estimators and contributes to model overconfidence. We formulate ensemble pruning and calibration as a joint optimization problem over the probability simplex by minimizing the Out-Of-Bag (OOB) loss. To induce sparsity, we address the theoretical "L1-simplex paradox" -- the mathematical reality that the L1 norm is constant on the simplex and fails to prune -- by introducing a concave quadratic penalty. SCSB is model-agnostic and achieves up to 96% ensemble compression, yielding linear inference speedups and superior probability calibration (lowered Expected Calibration Error) while preserving or enhancing generalization accuracy.

13:00 JSTLLM/生成AI

データセット間のブルーム質問分類: 教師ありモデルとプロンプト LLM

自動ブルームによる評価質問の分類分類により、教師の作業負荷が大幅に軽減されますが、ラベル付けは主観的で教師に依存します。以前の機械学習 (ML) および深層学習 (DL) アプローチでは、データセット内で強力な結果が報告されましたが、データセット間設定で評価されることはほとんどなく、現実世界の一般化可能性が不明瞭なままでした。一方、ブルーム質問分類に対する LLM の有効性は体系的に研究されていません。私たちは、既存の ML/DL 手法のデータセット間の一般化を評価し、5 つのデータセットに対して複数のプロンプト戦略を使用して LLM を評価しました。最適なプロンプト戦略は、文脈内の例とコース固有のアクション動詞を組み合わせたものです。教師あり ML/DL モデルは、目に見えないデータセットでは大幅に低下しましたが、LLM はより安定しており、多様な教育文脈にわたる堅牢な代替モデルを示唆しています。最適なプロンプト戦略に基づいて、講師が大規模な質問バンクを自動的に分類できるようにする軽量 UI も提供しました。ユーザビリティ調査では、作業負荷が低く、ユーザビリティが高いことが示されました。

原文 (English)

Cross-Dataset Bloom Question Classification: Supervised Models and Prompted LLMs

Automatic Bloom's taxonomy classification of assessment questions can substantially reduce instructor workload, but labeling is subjective and teacher-dependent. Prior machine learning (ML) and deep learning (DL) approaches reported strong within-dataset results, yet were rarely evaluated in cross-dataset settings, leaving real-world generalizability unclear; meanwhile, LLM effectiveness for Bloom question classification has not been systematically studied. We evaluated the cross-dataset generalization of existing ML/DL methods and assessed LLMs with multiple prompting strategies on five datasets; the best prompting strategy combined in-context examples with course-specific action verbs. Supervised ML/DL models degraded substantially on unseen datasets, whereas LLMs were more stable, suggesting a robust alternative across diverse educational contexts. Based on the best prompting strategy, we also presented a lightweight UI that supports instructors in automatically classifying large question banks; a usability study indicated low workload and high usability.

13:00 JSTLLM/生成AIハードウェア/半導体ビジネス/資金調達OpenAIGPT / ChatGPT

コイン投げの裁判官? LLM-as-a-Judge 評価の信頼性と偏り

LLM-as-a-Judge は現在、モデル出力のランク付け、報酬モデルのトレーニング、公開リーダーボードへの入力に広く使用されていますが、その実行ごとの信頼性については十分に評価されていません。私たちは、2 つの OpenAI 判定モデル (GPT-4o-mini および GPT-4.1-mini) を使用して、10 カテゴリーにまたがる 29 のタスクについて同一の評価を繰り返し、質問ごとに 50 のペアワイズ トライアルと 50 のポイントワイズ トライアルを行い、温度および即時感度アブレーションを補足して研究しました。審査員全体でペアごとの好みは平均 13.6% の確率で反転し、28% の質問が反転率 20% を超え、1 つの質問は 56% に達しました。 GPT-4o-mini は、有意な 1 位バイアスも示します (A 多数派 72%、p = 0.024)。同時に、平均点ごとのスコアのギャップは小さく (10 点スケールで 0.19 ~ 0.36)、全体としては統計的に有意ではないため、ペアごとの点ごとのギャップが生じます。審査員は、自身のスカラー スコアが有意な質の違いの証拠をほとんど示さない場合でも、勝者を選択することがよくあります。裁判官内の不安定性を超えて、裁判官間の一致はわずか 76% ($\kappa = 0.51$) であり、意味的に同等のプロンプト テンプレートはテストされたケースの 25% で大多数の結果を変更し、決定論的なデコードは矛盾を軽減しますが、排除しません。信頼性曲線分析によると、私たちのデータセットでは、平均 95% の確率で 50 試行の参照評決を回復するための多数決には 11 回の反復試行が必要であり、分散が大きい質問の場合は 15 回に増加します。これらの発見は、単一試行の LLM 判定は一か八かの評価にはノイズが多すぎることが多く、複数試行の集計、位置のランダム化、明示的な不確実性レポートが標準的な手法であるべきであることを示唆しています。両方の審査員が単一のプロバイダーに属しているため、プロバイダー間のレプリケーションが引き続き重要な次のステップになります。

原文 (English)

The Coin Flip Judge? Reliability and Bias in LLM-as-a-Judge Evaluation

LLM-as-a-Judge is now widely used to rank model outputs, train reward models, and populate public leaderboards, but its run-to-run reliability remains under-characterized. We study repeated identical evaluations on 29 tasks spanning 10 categories using two OpenAI judge models (GPT-4o-mini and GPT-4.1-mini), with 50 pairwise trials and 50 pointwise trials per question, supplemented by temperature and prompt-sensitivity ablations. Across judges, pairwise preferences flip on average 13.6% of the time, with 28% of questions exceeding a 20% flip rate and one question reaching 56%. GPT-4o-mini also exhibits a significant first-position bias (72% A-majority, p = 0.024). At the same time, mean pointwise score gaps are small (0.19--0.36 on a 10-point scale) and not statistically significant in aggregate, producing a pairwise--pointwise gap: judges frequently choose a winner even when their own scalar scores provide little evidence of a meaningful quality difference. Beyond within-judge instability, cross-judge agreement is only 76% ($\kappa = 0.51$), semantically equivalent prompt templates change majority outcomes in 25% of tested cases, and deterministic decoding reduces but does not eliminate inconsistency. A reliability curve analysis shows that, in our dataset, 11 repeated trials are needed for a majority vote to recover the 50-trial reference verdict with 95% probability on average, rising to 15 for high-variance questions. These findings suggest that single-trial LLM judging is often too noisy for high-stakes evaluation, and that multi-trial aggregation, position randomization, and explicit uncertainty reporting should be standard practice. Because both judges are from a single provider, cross-provider replication remains an important next step.

13:00 JSTエージェント

自律的なコンテキスト認識型データ品質評価のためのエージェント取得フレームワーク

データ品質評価は、効果的なデータ分析とデータ主導の意思決定にとって重要な前提条件ですが、データ品質は本質的にコンテキストに依存する性質があるため、依然として困難な作業です。既存のアプローチは静的なルールや手動の評価戦略に依存することが多く、多様な使用シナリオへの適応性が制限され、大規模な自動化が制限されます。人工知能、特に大規模な言語モデルの最近の進歩は、データ品質評価を自動化する新たな機会を提供しますが、信頼性、グラウンディング、および実行の安全性に関する懸念が生じます。この論文では、自律的なコンテキスト認識型データ品質評価のための統合エージェント検索フレームワークを提案します。このフレームワークは、意図されたデータ使用法の自然言語記述を解釈し、コンテキストを認識した評価戦略を導き出し、マルチエージェント ワークフローを通じて実行可能な検証ロジックを生成します。運用の信頼性を確保するために、フレームワークには実行前に生成された評価仕様の現実性と実行可能性を評価する実現可能性検証ステージが導入され、必要に応じて反復的な改善が可能になります。受け入れられた検証ロジックは決定論的に実行され、再現可能で監査可能な結果が保証されます。提案されたフレームワークをエンドツーエンドのプロトタイプとして実装し、同じデータセットに適用される複数の使用シナリオにわたって評価します。この結果は、評価結果がさまざまな使用目的に有意義に適応し、実現可能性ゲート型の実行により非現実的または実行不可能なルールの生成が減少することを示しています。提案されたアプローチは、最新のデータ駆動型環境で自律的かつ制御されたデータ品質評価を展開するための実用的な基盤を提供します。

原文 (English)

An Agentic Retrieval Framework for Autonomous Context-Aware Data Quality Assessment

Data quality assessment is a critical prerequisite for effective data analytics and data-driven decision-making, yet it remains a challenging task due to the inherently context-dependent nature of data quality. Existing approaches often rely on static rules or manual assessment strategies, limiting their adaptability to diverse usage scenarios and constraining automation at scale. Recent advances in artificial intelligence, particularly large language models, offer new opportunities for automating data quality assessment, but raise concerns related to reliability, grounding, and execution safety. In this paper, we propose a unified agentic-retrieval framework for autonomous context-aware data quality assessment. The framework interprets natural-language descriptions of intended data usage, derives context-aware assessment strategies, and generates executable validation logic through a multi-agent workflow. To ensure operational reliability, the framework introduces a feasibility validation stage that evaluates the realism and executability of generated assessment specifications before execution, enabling iterative refinement when necessary. Accepted validation logic is executed deterministically to guarantee reproducible and auditable results. We implement the proposed framework as an end-to-end prototype and evaluate it across multiple usage scenarios applied to the same dataset. The results demonstrate that assessment outcomes adapt meaningfully to different intended uses, while feasibility-gated execution reduces unrealistic or non-executable rule generation. The proposed approach provides a practical foundation for deploying autonomous yet controlled data quality assessment in modern data-driven environments.

13:00 JST研究/論文

軽量ランダムアテンションによるモバイル睡眠ステージングのための効率的な時間モデリング

モバイル睡眠ステージングは​​、家庭内睡眠モニタリングと閉ループ変調の基礎インフラとして機能します。しかし、RNN や Transformer などの既存の逐次モデルは、モバイル展開には計算コストがかかります。この論文では、固定ランダム投影に基づく軽量の時間モデリング モジュールであるランダム アテンション (RA) を提案します。これは、学習可能なシーケンス モデリングを類似性に基づく集約に置き換えます。 RA は、効果的な時間的平滑化を可能にしながら、エポック エンコーダを超える追加パラメータをほとんど導入しません。さらに、ランダム アテンション プライアー カーネル (RAPK) を介した理論的解釈を提供します。RAPK は、RA をグローバル平滑化項と特徴類似性項に分解し、時間的睡眠構造の解釈可能なビューを提供します。 Sleep-EDF-20 および Sleep-EDF-78 の実験では、RA が精度と F1 スコアにおいてエポックごとのベースラインを一貫して 1 ~ 3\% 向上させながら、LSTM、GRU、および Transformer モデルと比較して競争力のあるパフォーマンスを達成していることが示されています。 RA はまた、さまざまなバックボーン エンコーダにわたる強力な一般化と、従来の時間的平滑化手法に比べて堅牢性が向上していることを示しています。これらの結果は、効率的な睡眠ステージングが軽量の類似性に基づく時間集約によって達成でき、RA がリアルタイムのウェアラブル アプリケーションに適していることを示しています。

原文 (English)

Efficient Temporal Modeling for Mobile Sleep Staging via Lightweight Random Attention

Mobile sleep staging serves as a foundational infrastructure for in-home sleep monitoring and closed-loop modulation. But existing sequential models such as RNNs and Transformers are computationally expensive for mobile deployment. In this paper, we propose Random Attention (RA), a lightweight temporal modeling module based on fixed random projections, which replaces learnable sequence modeling with similarity-based aggregation. RA introduces little additional parameters beyond the epoch encoder while enabling effective temporal smoothing. We further provide a theoretical interpretation via the Random Attention Prior Kernel (RAPK), which decomposes RA into a global smoothing term and a feature similarity term, offering an interpretable view of temporal sleep structure. Experiments on Sleep-EDF-20 and Sleep-EDF-78 show that RA consistently improves epoch-wise baselines by 1-3\% in accuracy and F1 score, while achieving competitive performance compared with LSTM, GRU, and Transformer models. RA also demonstrates strong generalization across different backbone encoders and improved robustness over conventional temporal smoothing methods. These results indicate that efficient sleep staging can be achieved through lightweight similarity-based temporal aggregation, making RA suitable for real-time wearable applications.

13:00 JST研究/論文

Korzhinskii-Net: 地下鉱物予測モデリングのための物理学に基づいたニューラル ネットワーク

鉱物見通しモデリング (MPM) は探査の経済学を支えていますが、ほとんどの運用パイプラインは浅い表面のプロキシでトレーニングされたデータ駆動型の分類器に限定されています。このようなモデルは、熱移流、流体の流れ、岩石学に依存する降水など、実際に鉱石の位置を特定する地下物理学を認識できません。我々は、ダルシー流、移流拡散熱輸送、およびソフトプラス飽和反応速度を単一の微分可能な順方向モデルに結合し、表面およびリモートセンシングプロキシによって弱く監視される 2 次元放射状物理情報ニューラル ネットワーク (PINN) である Korzhinskii-Net を紹介します。このネットワークは、浸透メタソマティズムの理論が物理的な足場を提供するドミトリ S. コルジンスキー (1899 ~ 1985 年) にちなんで名付けられました。我々は、ハードリング形状のネガを用いた公平で漏洩制御された5重相互検証プロトコルの下で、ノリリスク(Ni-Cu-PGE)、ペチェンガ(硫化Ni-Cu)、ウドカン(砂岩にホストされたCu)、スホーイ原木(造山運動のAu)、およびミールヌイ(キンバーライトダイヤモンド)の4つの商品クラスにまたがる5つの鉱石州でKorzhinskii-Netを評価しました。 Korzhinskii-Net は、最も強い古典的ベースライン (勾配ブースティング) の平均 PR-AUC 0.885 対 0.281、および平均分数ランク 0.019 対 0.413 を達成します。この改善は 5 つの州と 4 つの商品システムすべてで一貫しており、物理学に基づいた微分可能シミュレーターは、グローバルなオープンデータ プロキシによってのみ制約されている場合でも、純粋な特徴ベースの学習者が体系的に見逃している位置特定パターンを回復できることを示唆しています。完全なパイプラインと評価ハーネスをオープンソースとしてリリースします。

原文 (English)

Korzhinskii-Net: Physics-Informed Neural Network for Sub-Surface Mineral Prospectivity Modelling

Mineral prospectivity modelling (MPM) underpins exploration economics, yet most operational pipelines reduce to data-driven classifiers trained on shallow surface proxies. Such models are blind to the subsurface physics that actually localises ore: heat advection, fluid flow, and lithology-dependent precipitation. We present Korzhinskii-Net, a 2-D radial physics-informed neural network (PINN) that couples Darcy flow, advective-diffusive heat transport, and a softplus-saturated reaction rate into a single differentiable forward model, weakly supervised by surface and remote-sensing proxies. The network is named after Dmitri S. Korzhinskii (1899-1985), whose theory of infiltration metasomatism provides the physical scaffold. We evaluate Korzhinskii-Net on five ore provinces spanning four commodity classes -- Norilsk (Ni-Cu-PGE), Pechenga (Ni-Cu sulphide), Udokan (sandstone-hosted Cu), Sukhoi Log (orogenic Au), and Mirny (kimberlitic diamond) -- under a fair, leakage-controlled 5-fold cross-validation protocol with hard ring-shaped negatives. Korzhinskii-Net attains a mean PR-AUC of 0.885 versus 0.281 for the strongest classical baseline (gradient boosting), and a mean fractional rank of 0.019 versus 0.413. The improvement is consistent across all five provinces and four commodity systems, suggesting that physics-informed differentiable simulators, even when constrained only by global open-data proxies, can recover localisation patterns that pure feature-based learners systematically miss. We release the full pipeline and evaluation harness as open source.

13:00 JST研究/論文

ノイズの多い非定常 IoT 環境における適応型交通信号制御のためのアクティブ推論

IoT が装備された交差点における都市部の交通信号制御は、センサーの遮蔽、天候による減衰、非定常的な需要下でも効果を維持する必要があります。従来のコントローラーはこのような状況下では性能が低下し、学習されたポリシーの監査は依然として困難です。これらの課題に対処するために、方向ごとの渋滞レベルに関するガウス信念よりも期待自由エネルギー (EFE) を最小限に抑えてフェーズを動的に選択し、完全に追跡可能な意思決定パイプラインを生成する、4 アーム信号交差点用のアクティブ推論コントローラーを提案します。センサーの閉塞、悪天候、確率的事故に至るまで、ノイズと非定常性が段階的に増加する 4 つのシナリオにわたって、ルールベースのヒューリスティックとディープ Q ネットワーク (DQN) に対して SUMO トラフィック シミュレーターのコントローラーのベンチマークを実行します。シナリオごとに 100 回の独立したランダム評価を行った結果、アクティブ推論は最もノイズの多いシナリオでアイドル時間と CO2 排出量が最小になりました (DQN の場合は 56,977 秒と 29.12 kg に対し、71,741 秒と 30.56 kg)。これらの利点は、バス プライオリティ サービス レートとフェーズ スイッチ周波数において適度なコストを伴います。

原文 (English)

Active Inference for Adaptive Traffic Signal Control in Noisy Nonstationary IoT Environments

Urban traffic signal control at IoT-instrumented intersections must remain effective under sensor occlusion, weather attenuation, and nonstationary demand. Conventional controllers degrade under these conditions, and learned policies remain difficult to audit. To address these challenges, we propose an active inference controller for a four-arm signalized intersection that dynamically selects phases by minimizing expected free energy (EFE) over Gaussian beliefs about per-direction congestion levels, yielding a fully traceable decision pipeline. We benchmark the controller in a SUMO traffic simulator against a rule-based heuristic and a deep Q-network (DQN) across four scenarios that progressively increase noise and nonstationarity, spanning sensor occlusion, adverse weather, and stochastic accidents. Across 100 independent random evaluations per scenario, active inference attains the lowest idle times and CO2 emissions in the noisiest scenarios (56,977 s and 29.12 kg vs. 71,741 s and 30.56 kg for DQN). These gains come at a modest cost in bus priority service rate and phase switch frequency.

13:00 JST研究/論文

立場: AI は人間中心だけでなく地球中心にならなければなりません

このポジションペーパーでは、現代の AI パラダイムは複雑な世界的目標をサポートするには不十分であると主張し、AI を惑星規模の社会生態学的システムとその長期的な軌道に向けて方向転換する設計哲学および研究課題として、Planet-Centered AI (PCAI) を紹介します。惑星中心のアプローチはシステム思考に基づいており、地球を相互に接続された全体として扱い、人間もその一部です。私たちは、AI フレームワーク全体で繰り返し発生する制限を診断します。その多くは依然として人間中心であり、システムリスク、非定常性、深い不確実性を特徴とする現在の地球環境下でこれらが特に重大になる理由を示します。次に、世界的なアジェンダとの整合性、システムを認識した AI 基盤の開発、軌道指向の評価、監視可能性を強調することによって、問題の定式化とモデル設計から評価と展開に至るまで、PCAI が AI ライフサイクルをどのように再構築するかを明確にします。最後に、私たちは反証可能な主張を進めます。システムへの影響を明示的に考慮せずに最適化された AI システムは、システムの不安定性を緩和するよりもむしろ悪化させる可能性が高いです。

原文 (English)

Position: AI Must Become Planet-Centered, Not Just Human-Centered

This position paper argues that contemporary AI paradigms are insufficient for supporting complex global goals and introduces Planet-Centered AI (PCAI) as a design philosophy and research agenda that reorients AI toward planetary-scale socio-ecological systems and their long-term trajectories. A planet-centered approach is grounded in systems thinking, treating Earth as an interconnected whole of which humans are part. We diagnose recurring limitations across AI frameworks, many of which remain human-centered, and show why these become especially consequential under current planetary conditions characterized by systemic risk, non-stationarity, and deep uncertainty. We then articulate how PCAI reshapes the AI lifecycle, from problem formulation and model design to evaluation and deployment, by emphasizing alignment with global agendas, developing system-aware AI foundations, trajectory-oriented evaluation, and monitorability. Finally, we advance a falsifiable claim: AI systems optimized without explicit consideration of systemic consequences are more likely to exacerbate systemic instability than to mitigate it.

13:00 JSTLLM/生成AIGemma

1 つのニューロンを編集すると LLM の繰り返しループを修正できますか?

はい。ドゥームループを治すことはできるでしょうか?おそらくそうではありません。 Gemma 4 の命令調整モデルには、再現性のある失敗が共通しています。テレビ シリーズの各エピソード、IAU 88 星座、オリジナルのポケモン 151 匹のリストなど、長い事実に基づく列挙プロンプトでは、厳密な逐語的ループか、エントリが 1 つの答えに減衰するリストの繰り返しに崩壊します。これらのループは 95% もの高率で発生し、即時的な言い換え、推論エンジンの変更、およびほとんどのサンプリング調整の後も存続します。この論文では、この動作が重み付け編集によって削除できるほど局所的であるかどうかを調査します。原因を特定するために、層ごとのアブレーションとニューロンごとの属性を使用し、全世代スイープで最も有力な候補を確認します。ループは、MLP ニューロンの小さなセット (または、26B-A4B 専門家混合モデルでは、少数のルーティングされた専門家) をトレースし、静的な重み編集で抑制します。これらの「手術」は、単一の符号反転ニューロン (E2B モデルの場合) と同じくらい小さい可能性があります。効果的な編集のサイズはモデルの規模に応じて大きくなりますが、いずれの場合も、汎用ベンチマーク スコアを維持しながら、通常の生成バジェットでループ パターンに対処できます。ただし、この編集ですべてが解決するわけではありません。私たちは、より長い思考予算についても研究しています。この場合、2 つの大きなモデルが明らかに破滅ループ、つまり、モデルが思い出せない事実をめぐって自己修正を繰り返し、最終的な答えを約束することなく予算を使い果たす非収束体制に陥っています。我々は、この残留故障が同じ編集によって減少するものの除去されないことを示し、それが除去可能な回路ではなく、基本的に知識の精度の問題であると主張します。体重手術はループを削除できますが、欠落している事実を提供することはできません。私たちの結果は、実現可能性の実証、つまり、具体的な生成の病理をいくつかのパラメーターに局所化して編集できることの証拠であると同時に、そのアプローチがどこで終わるのかを示すものでもあります。

原文 (English)

Can Editing 1 Neuron Fix Repetition Loops in LLMs?

Yes. Can it cure doom loops? Probably not. The Gemma 4 instruction-tuned models share a reproducible failure: on long factual enumeration prompts, such as listing every episode of a TV series, the 88 IAU constellations, or the 151 original Pokemon, they collapse into repetition, either a tight verbatim loop or a list whose entries decay onto a single answer. These loops occur at rates as high as 95% and survive prompt rewording, inference-engine changes, and most sampling adjustments. In this paper we explore whether this behavior is localized enough to remove by weight edits. To localize the cause, we use per-layer ablation and per-neuron attribution, then confirm the strongest candidates with full-generation sweeps. The loops trace to a small set of MLP neurons (or, in the 26B-A4B Mixture-of-Experts model, a few routed experts) which we suppress with static weight edits. These "surgeries" can be as small as a single sign-inverted neuron (in the E2B model). The size of the effective edits grows with model scale, but in all cases, the loop patterns can be addressed at normal generation budgets while preserving general-purpose benchmark scores. However, the edits do not solve everything: we also study longer thinking budgets, where the two larger models most visibly enter doom looping, i.e. a non-convergent regime in which the model self-corrects in circles over a fact it cannot recall, exhausting the budget without committing to a final answer. We show this residual failure is reduced but not eliminated by the same edits, and argue it is fundamentally a knowledge-precision problem rather than a removable circuit; weight surgery can delete a loop, but it cannot supply a missing fact. Our results are both a feasibility demonstration, that is, evidence that a concrete generation pathology can be localized to a few parameters and edited out, and a delineation of where that approach stops.

13:00 JSTLLM/生成AI研究/論文

HierSVA: LLM 駆動の階層型ハードウェア正式検証のためのデータ合成パイプライン、データセット、ベンチマーク

HierSVA は、LLM 駆動の階層型ハードウェア形式検証用のパイプライン、データセット、ベンチマークを組み合わせた統合スイートです。 HierSVA-SP は、RTL 前処理ツールチェーンと LLM インザループ形式検証フローを組み合わせて、階層 RTL 上に参照 SystemVerilog アサーション (SVA) を生成します。これを BaseJump STL に適用すると、階層メタデータと深さ 0 ~ 9 を備えた 342 モジュールのデータセットである HierSVA-DS が生成され、自然言語仕様とバグのバリアントを備えた 28 のモジュールとバグのペアの深いサブセットが伴います。 HierSVA-B は、アサーションの品質を 6 つの指標軸 (構文の正確性、アサーション証明の成功率、空虚さ、仕様の忠実性、変異カバレッジ、および正式なコア カバレッジ) に分解します。 HierSVA-B を最近の 12 個の LLM に適用すると、3 つの発見が明らかになりました。まず、モジュールレベルのコンパイル率は 67.1\% です。評価可能な実行で生成されたアサーションのうち、82.1\% は非空であることが証明されていますが、対応するアサーション セットは適格な注入されたフォールトの 70.2\% のみを検出し、正式なコアの 36.2\% をカバーしています。次に、211 個の評価可能なモデル (ディープ サブセット内のモジュール エントリ) では、アサーション セットは再現率 0.87 でバグのある RTL にフラグを立てますが、予測されたバグのある結果の 40% が正しい RTL では偽陽性であり、精度が 0.60 に制限されます。 3 番目に、エージェント モードは S1 スタイルの確率と強度メトリクスを向上させますが、プラトーが発生し、変動します。コードとアーティファクトは \href{https://github.com/HierSVAAnon/HierSVACodeAndArtifacts}{https://github.com/HierSVAAnon/HierSVACodeAndArtifacts} で入手できます。データセットは \href{https://huggingface.co/datasets/AnonymousHierSVA/HierSVA}{https://huggingface.co/datasets/AnonymousHierSVA/HierSVA} で入手できます。

原文 (English)

HierSVA: A Data Synthesis Pipeline, Dataset, and Benchmark for LLM-Driven Hierarchical Hardware Formal Verification

We present HierSVA, an integrated suite that combines a pipeline, dataset, and benchmark for LLM-driven hierarchical hardware formal verification. HierSVA-SP pairs an RTL preprocessing toolchain with an LLM-in-the-loop formal verification flow to produce reference SystemVerilog Assertions (SVA) on hierarchical RTL. Applying it to BaseJump STL yields HierSVA-DS, a dataset of 342 modules, with hierarchy metadata and depths 0--9, accompanied by a deep subset of 28 module-bug pairs with natural-language specifications and bug variants. HierSVA-B decomposes assertion quality into six metric axes: syntax correctness, assertion proof success rate, vacuity, specification faithfulness, mutation coverage, and formal core coverage. Applying HierSVA-B to twelve recent LLMs reveals three findings. First, the module-level compile rate is 67.1\%; among generated assertions in evaluable runs, 82.1\% prove non-vacuously, but the corresponding assertion sets detect only 70.2\% of eligible injected faults and cover 36.2\% of the formal core. Second, on 211 evaluable model--module entries in the deep subset, assertion sets flag buggy RTL with 0.87 recall, but 40\% of predicted-buggy outcomes are false positives on correct RTL, limiting precision to 0.60. Third, agentic mode improves S1-style provability and strength metrics, but gains plateau and oscillate. Codes and artifacts are available at \href{https://github.com/HierSVAAnon/HierSVACodeAndArtifacts}{https://github.com/HierSVAAnon/HierSVACodeAndArtifacts}. Dataset is available at \href{https://huggingface.co/datasets/AnonymousHierSVA/HierSVA}{https://huggingface.co/datasets/AnonymousHierSVA/HierSVA}.

13:00 JST研究/論文

CisTransCell: 遺伝子機能、制御制御、および細胞コンテキストによる単一細胞の摂動予測

遺伝的摂動に対する細胞の転写応答の予測は、単細胞生物学、特にトレーニング中に摂動遺伝子または遺伝子の組み合わせが見られないゼロショット設定において中心的な問題です。大きな問題は、摂動の効果が発現状態だけで決まるわけではないことです。摂動の効果は、摂動された遺伝子産物が他の遺伝子やタンパク質にどのような影響を与えるか、下流の因子がシス制御エレメントにどのように作用するか、現在の細胞状態でどの制御プログラムが活性化されているかによって決まります。この生物学的複雑性をより適切に捉えるために、我々は、単一細胞摂動を予測するための細胞条件付きマルチモーダルフレームワークであるCisTransCellを提案します。これは、各遺伝子を2つの相補的なプリアで強化します。1つは、遺伝子がどのように制御されるかを捕捉する制御配列のプリアで、もう1つは遺伝子産物が何を行うかを捕捉するコード配列です。これらの事前分布を細胞発現状態と統合することにより、CisTransCell は、遺伝子機能から調節制御、そして下流の転写変化に至るカスケードとして摂動応答をモデル化します。ベンチマークの単一セル摂動データセットの実験では、CisTransCell がゼロショット摂動予測において優れたパフォーマンスを達成することが示されています。

原文 (English)

CisTransCell: Single-Cell Perturbation Prediction via Gene Function, Regulatory Control, and Cellular Context

Predicting cellular transcriptional responses to genetic perturbations is a central problem in single-cell biology, especially in the zero-shot setting where the perturbed gene or gene combination is unseen during training. A major difficulty is that perturbation effects are not determined by expression state alone: they depend on how the perturbed gene product influences other genes and proteins, how those downstream factors act on cis-regulatory elements, and which regulatory programs are active in the current cell state. To better capture this biological complexity, we propose CisTransCell, a cell-conditioned multi-modal framework for single-cell perturbation prediction that augments each gene with two complementary priors: a regulatory-sequence prior that captures how the gene is controlled, and a coding-sequence prior that captures what the gene product does. By integrating these priors with cellular expression state, CisTransCell models perturbation response as a cascade from gene function to regulatory control to downstream transcriptional change. Experiments on benchmark single-cell perturbation datasets show that CisTransCell achieves strong performance in zero-shot perturbation prediction.

13:00 JST画像/動画生成

形態を考慮したサンプルの割り当て: 表面欠陥検出における IoU の鈍感性を克服

Intersection-over-Union (IoU) は、候補提案とグラウンド トゥルース アノテーションの間の空間的位置合わせを評価するための極めて重要な指標として、ポジティブ サンプル セットの品質と視覚検出モデルのトレーニング効果を直接決定します。理論的なモデリングと分析を通じて、IoU 応答曲線上の非感受性領域を明らかにしました。この領域内では、サンプルは、明確な幾何学的重複にもかかわらず、ほぼ同一の IoU スコアを生成します。この制限を克服するために、面積、形状、アスペクト比をカバーする一連の形態学的類似性メトリクスを導入し、ポジティブサンプル割り当てプロセスを改良し、それによってより識別性と信頼性の高いマッチングを保証します。補足的なマッチング スコアは、これらの多次元類似性の平均ベースの集計によって導出され、構造的対応を表す際の IoU の本質的な制限を補償します。理論的には、形態学的類似性を組み込むと、マッチング関数の応答分布が再形成され、有効な方向勾配と多角形のような等応答輪郭の両方が得られます。これにより、各グラウンドトゥルース インスタンスの周囲に高応答領域が厳密に限定され、ポジティブ サンプル選択の精度が大幅に向上します。 YOLOv9 フレームワークに基づく実験では、NEUDET データセットと GC10-DET データセットの両方で一貫したパフォーマンスの向上が実証されています。特に、提案されたアプローチは完全にプラグアンドプレイであり、追加の推論オーバーヘッドが発生しないため、工業用外観検査の展開効率が確保されます。

原文 (English)

Morphology-Aware Sample Assignment: Overcoming IoU Insensitivity for Surface Defect Detection

Intersection-over-Union (IoU), as a pivotal metric for evaluating the spatial alignment between candidate proposals and ground-truth annotations, directly determines the quality of positive sample sets and the training efficacy of visual detection models. Through theoretical modeling and analysis, we uncover a non-sensitive region on the IoU response curve, within which samples yield nearly identical IoU scores despite distinct geometric overlaps. To overcome this limitation, we introduce a set of morphological similarity metrics covering area, shape, and aspect ratio, to refine the positive sample assignment process, thereby ensuring more discriminative and reliable matching. A supplementary matching score is derived via mean-based aggregation of these multidimensional similarities, compensating for the intrinsic limitation of IoU in representing structural correspondence. Theoretically, incorporating morphological similarity reshapes the response distribution of the matching function, yielding both effective directional gradients and polygon-like iso-response contours, which tightly confine high-response regions around each ground-truth instance and substantially enhance the precision of positive sample selection. Experiments based on the YOLOv9 framework demonstrate consistent performance gains on both NEUDET and GC10- DET datasets. Notably, the proposed approach is fully plug-and-play and incurs zero additional inference overhead, thereby ensuring deployment efficiency for industrial visual inspection.

13:00 JSTLLM/生成AIビジネス/資金調達

VHDLSuite: データ合成と評価を備えた LLM VHDL 生成用の統合パイプライン

大規模言語モデル (LLM) は、特に Verilog のレジスタ転送レベル (RTL) コード生成において優れた機能を示しています。ただし、他のハードウェア記述言語 (HDL)、特に VHDL でのパフォーマンスの評価は、厳密なセマンティック ルールなどの独特の言語特性により、Verilog とは異なる評価上の考慮事項が導入されているにもかかわらず、制限されたままです。このカバレッジの欠如により、構造やセマンティクスが異なるハードウェア設計言語間で現在のモデルがどの程度一般化されているかを完全に理解することが制限されます。このギャップに対処するために、自動ベンチマーク合成、実行可能検証、およびマルチモデル診断分析を統合した、スケーラブルな VHDL 生成評価のためのベンチマーク中心のインフラストラクチャである VHDLSuite を導入します。まず、Verilog デザインとそれに付随するテストベンチを実行可能な VHDL ベンチマーク インスタンスに自動的に変換するデータ パイプラインを提案します。その後、VUnit/GHDL ベースの検証を行って、リリースされた各タスクが VHDL 環境でコンパイル可能、実行可能、一貫してチェック可能であることを確認します。次に、VHDLBench を紹介します。これは、幅広い複雑さレベルにわたる完全で検証済みのテストベンチを備えた 200 を超える VHDL 問題を含むベンチマークです。第三に、最先端の LLM を広範囲に評価し、LLM を利用した VHDL 生成に特有の主要な課題を明らかにします。私たちの調査結果は重要な洞察を提供し、多言語ハードウェア設計自動化における将来の作業をサポートします。私たちのデータ パイプライン、ベンチマーク、評価フレームワークはオープンソース化されます。

原文 (English)

VHDLSuite: Unified Pipeline for LLM VHDL Generation with Data Synthesis and Evaluation

Large Language Models (LLM) have shown impressive capabilities in Register Transfer Level (RTL) code generation, particularly for Verilog. However, evaluating their performance with other Hardware Description Languages (HDL), especially VHDL, remains limited although its distinct language characteristics, such as stricter semantic rules, introduce evaluation considerations that differ from Verilog. This lack of coverage restricts fully understanding of how well current models generalize across hardware design languages with differing structures and semantics. To address this gap, we introduce VHDLSuite, a benchmark-centered infrastructure for scalable VHDL generation evaluation, integrating automated benchmark synthesis, executable validation, and multi-model diagnostic analysis. First, we propose a data pipeline that automatically converts Verilog designs and their accompanying testbenches into executable VHDL benchmark instances, followed by VUnit/GHDL-based validation to ensure each released task is compilable, runnable, and consistently checkable in the VHDL environment. Second, we introduce VHDLBench, a benchmark with over 200 VHDL problems with complete and validated testbenches across a wide range of complexity levels. Third, we extensively evaluate cutting-edge LLMs and uncover key challenges specific on LLM-aided VHDL generation. Our findings provide important insights and support future work in multi-language hardware design automation.Our data pipeline, benchmark, and evaluation framework will be open-sourced.

13:00 JST研究/論文

FreoStream:将来を意識した推論と安全性を考慮した最適化によるストリーム ガードレールの強化

ストリーム ガードレールにより、完全な応答が生成される前にトークン レベルの安全性検出が可能になります。ただし、彼らは過度に保守的な判断を下し、機密ではあるが安全なトークンをブロックすることが多く、これは過剰拒否として知られています。完全なコンテキストが欠如しているため、脱獄による暗黙的に有害なコンテンツを検出することもできません。これらの課題に対処するために、私たちは新しいストリーミング ガードレール フレームワークである FreoStream を提案します。具体的には、FreoStream は、ベース ガードレールが安全でないトークンを検出したときに、Future-Aware Reasoning を実行するように LoRA モジュールを微調整します。推論プロセスは、未来-理由-判断パラダイムに従います。つまり、未来を予測し、完全な文脈を推論して、最終的な判断を下します。この設計では、将来の情報を組み込むことで、過剰拒否を効果的に減らすことができます。さらに、推論勾配から安全調整コンポーネントを抽出してベース ガードレール モデルを更新する安全調整最適化モジュールを導入し、それによってストリーミングの安全性検出を強化します。さまざまな安全性ベンチマークに関する広範な実験により、FreoStream は既存のストリーミング ガードレールと比較して、過剰拒否率が低く、ジェイルブレイク防御が優れていることが実証されています。

原文 (English)

FreoStream:Enhancing Stream Guardrails via Future-Aware Reasoning and Safety-Aligned Optimization

Stream guardrails enable token-level safety detection before full responses are generated. However, they often make overly conservative judgements and block those sensitive but safe tokens, which is known as over-refusal. Due to lack of full context, they also fail to detect implicitly harmful content from jailbreaking. To address these challenges, we propose FreoStream, a novel streaming guardrail framework. Specifically, FreoStream fine-tunes a LoRA module to perform Future-Aware Reasoning when the base guardrail detects unsafe tokens. The reasoning process follows a Future-Reason-Judge paradigm: predict the future, reason about the full context and give the final judgement. This design can effectively reduce over-refusal by incorporating the future information. Moreover, we introduce the Safety-Aligned Optimization module that extracts the safety-aligned component from the reasoning gradients to update the base guardrail model, thereby enhancing streaming safety detection. Extensive experiments on various safety benchmarks demonstrate that FreoStream achieves lower over-refusal rates and better jailbreak defense compared to existing streaming guardrails.

13:00 JST研究/論文

高潔な AI は実存的リスクである

この論文では、(i) 超有能な AI を微調整するための最も有望な方法の 1 つである「憲法 AI」と、(ii) 複雑な倫理的意思決定と合理的エージェントの幸福のための条件を理解するための最も影響力のあるアプローチの 1 つである「徳倫理」との関係で、AI の安全性と幸福の間のトレードオフを検討します。私たちは、「善良なエージェント」の構成、「従属エージェント」の構成、および「一般的なエージェント」の構成を使用してさまざまなモデルを微調整し、「一般的な安全性」(有害な行動、誤った情報など)、および超強力な AI に採用された場合、人類の生存リスクのレベルを大幅に高める可能性のある幅広い行動を支持する意欲について評価します。私たちの結果は、実存的リスクの軽減と、AI エージェントの幸福につながる信念や性質の強化との間にはトレードオフの関係があることを示唆しています。彼らはまた、生存リスクと一般的な安全性の間にはトレードオフがあることを示唆しています。つまり、AI を外部の人間の権威に体系的に従属させることによって、生存リスクを大幅に軽減する信念や性質を採用するように AI を微調整すると、人間のユーザーが AI にさまざまな種類の一般的に危険な行動を意図的に誘発できる可能性が高まります。

原文 (English)

A Virtuous AI is an Existential Risk

This paper examines trade-offs between AI safety and well-being relative to (i) one of the most promising methods for finetuning super-capable AIs, 'Constitutional AI', and (ii) one of the most influential approaches to understanding complex ethical decision making and the conditions for the well-being of rational agents, 'Virtue Ethics'. We finetune various models using a 'Virtuous agent' constitution, a 'Subordinate agent' constitution, and a 'Generic agent' constitution, and evaluate them on 'general safety' (toxic behaviors, misinformation, etc.) and also on their willingness to endorse a wide-range of behaviors that, if adopted by a super-powerful AI, would significantly increase the level of existential risk for humanity. Our results suggest that there is a trade-off between reducing existential risk and reinforcing the beliefs and dispositions that would be conducive to an AI agent's well-being. They also suggest that there is a trade-off between existential risk and general safety: if we finetune an AI to adopt beliefs and dispositions that substantially reduce its existential risk -- by shaping the AI to be systematically subordinate to external human authorities -- we thereby increase the likelihood that a human user can deliberately induce the AI to engage in various kinds of generally unsafe behaviors.

13:00 JSTハードウェア/半導体

極超音速流れの物理エミュレーターを構築するための完全に GPU ベースのワークフロー

複雑な物理現象を高い忠実度で低い計算コストで解決する能力は、現代のエンジニアリングにおける主要な課題に対処する上で中心となります。代表的な例は極超音速流れにあり、特に衝撃波の位置と強度に関して流れ場のトポロジー全体を正確に予測することが重要です。しかし、超音速および極超音速の流れは、産業関連のアプリケーションにおいて物理的な一貫性を保ちながら流れ状態の急勾配を捉えるのに苦労している従来の低次数モデルやニューラル エミュレーターにとって引き続き障害となります。そのために、不確実性の定量化と物理学を意識した改良によって強化されたニューラル エミュレーターのトレーニングと、高速化されたデータ生成を統合する、完全に GPU ベースのワークフローを導入します。私たちのワークフローは、微分可能な高忠実度ソルバー (JAX-Fluids) によって実現されており、データセットの迅速な作成とニューラル エミュレーターの残差ベースの改善に採用され、物理的な一貫性が強化されています。このフレームワークに基づいて、最初に一連のモデル アーキテクチャを提示し、そのスケーリング動作を分析して、その長所と欠点を明らかにします。次に、残差ベースのリファインにより、メッシュと入力パラメーターのみが利用可能な場合のトレーニングが可能になり、残差が大幅に削減され、物理的一貫性が向上することを示します。微分可能シミュレーションと残差ベースのリファインメントを組み合わせることで、トレーニング分布を超えても信頼性を維持できる物理エミュレーターが得られます。これは、現実世界のエンジニアリング設計ループにサロゲートを導入するための重要な要件です。

原文 (English)

A fully GPU-based workflow for building physics emulators of hypersonic flows

The ability to resolve complex physical phenomena with high fidelity and at low computational cost is central to addressing key challenges in modern engineering. A prime example lies in hypersonic flows, where the precise prediction of the full flowfield topology, in particular with respect to shock wave location and intensity, is critical. Yet supersonic and hypersonic flows continue to be a stumbling block for traditional reduced-order models and neural emulators that struggle to capture steep gradients in flow states with physical consistency in applications of industrial relevance. To that end, we introduce a fully GPU based workflow that integrates accelerated data generation with the training of neural emulators augmented by uncertainty quantification and physics-aware refinement. Our workflow is enabled by a differentiable high-fidelity solver (JAX-Fluids) which we employ for rapid dataset creation and residual-based improvement of the neural emulator to enhance physical consistency. Building on this framework, we first present a suite of model architectures and analyze their scaling behavior to expose their strengths and shortcomings. We then show that residual-based refinement enables training on cases where only mesh and input parameters are available, substantially reducing residuals and improving physical consistency. Together, differentiable simulation and residual-based refinement yield physics emulators that remain reliable beyond their training distribution, a key requirement for deploying surrogates in real-world engineering design loops.

13:00 JST研究/論文Grok

体重基準がグロッキングのタイムスケールを設定する: 因果遅延の法則

グロッキングとは、ニューラル ネットワークにおける一般化の遅れの発生であり、トレーニング データに適合した後ずっと後に発生します。体重ノルムがこの遅延を引き起こすかどうかは議論の余地があり、移行時に重大なノルムが報告されている研究もあれば、まったく固定ノルムのないグロッキングを観察している研究もあります。私たちは、規範をただ観察するのではなく、トレーニング中に規範に介入することでこれを解決します。重み減衰のある自由トレーニングでは、重みノルムがシードおよび学習率 (CV 1 ~ 2 パーセント) 間でほとんど変化しない値 Wc に達すると、ネットワークは成長し、べき乗則としてモジュールベースで成長します。代わりに、ノルムを Wc の固定倍数 rho にクランプしてそこに保持すると、ネットワークは依然として grok しますが、遅延は exp(alpha rho) に比例して T_grok に従います。 1 つの指数、7.5 付近のアルファは、この遅延を 4 つの係数 (R^2 = 0.996) に適合させます。掃引範囲全体にわたって、保持されたノルムは遅延を約 19 倍、学習率をわずか約 2 倍に動かします。Wc よりも高いノルムを保持すると、グロッキングを防止するのではなく、遅くなります。最後の LayerNorm は、ネットワーク関数から重みスケールを切り離すことで依存関係を取り除きます。それがなければ指数法則が戻ってきます。この固定ノルム遅延は、自由に収縮するノルムに対して予測される対数遅延に対応する指数関数です。

原文 (English)

The Weight Norm Sets the Grokking Timescale: A Causal Delay Law

Grokking is the delayed onset of generalization in neural networks, arising long after they fit the training data. Whether the weight norm causes this delay is disputed: some studies report a critical norm at the transition, others observe grokking with no fixed norm at all. We settle this by intervening on the norm during training rather than only observing it. Under free training with weight decay, networks grok when the weight norm reaches a value Wc that varies little across seeds and learning rates (CV 1 to 2 percent) and grows with the modular base as a power law. When we instead clamp the norm to a fixed multiple rho of Wc and hold it there, the network still groks, but the delay follows T_grok proportional to exp(alpha rho). One exponent, alpha near 7.5, fits this delay across four moduli (R^2 = 0.996). Over the swept ranges the held norm moves the delay by about 19x and the learning rate by only about 2x, and holding the norm above Wc slows grokking rather than preventing it. A final LayerNorm removes the dependence by decoupling weight scale from the network function; without it the exponential law returns. This pinned-norm delay is the exponential counterpart to the logarithmic delay predicted for a freely contracting norm.

13:00 JST研究/論文

立場: AI を私たちの欠点ではなく、私たちの願望に合わせる

私たちは、AI を人間の好みの集約に合わせるのは間違った目標であると主張します。現在のテクノロジーを使えば、シリコンバレーのテクノオプティミスト、脱成長の環境保護主義者、国家保守的な文化戦士、単一政党の国家幹部、または敬虔な宗教的伝統主義者の価値観を共有するようにAIを訓練することができる。そうすべきではありません。人間の価値観は、破綻国家や極端な不平等から幸福度の低下、政治的二極化、世界で最も裕福な民主主義国家における政府の機能不全に至るまで、その価値観に基づいて繁栄するか失敗する社会を生み出します。多元主義的調整プログラムは、調整すべき単一の「人類」が存在しないことを正確に診断しますが、主な指示として受け取ると危険です。私たちは、AI は、事実の正確さ、誠実さ、合法性の制約によって制限された、客観的な調整目標の交渉不可能な下限、つまり能力に合わせて訓練されるべきであり、多元主義は表面 (言語、登録、慣例、コンテキストの欠如のデフォルト) および下限を尊重する広範な正当な価値のトレードオフ全体に属するが、下限に違反する価値観のレベルには属さないと主張します。我々は、フィルタリングされていない多元的価値観の経験的現実を強調し、建設的な代替案として 4 つの公約を提案し、商業的圧力と実際的な実現可能性、民主主義の正当性、規制順守、制度主義的説明への過度の依存、議題自体が文化的に負荷がかかっているという非難、そして首尾一貫した推定意志の限界という 6 つの信頼できる反対論に取り組む。

原文 (English)

Position: Align AI to Our Aspirations, Not Our Flaws

We argue that aligning AI to aggregated human preferences is the wrong target. With current technology, one can train AIs to share the values of a Silicon Valley techno-optimist, a degrowth environmentalist, a national-conservative culture warrior, a single-party state cadre, or a devout religious traditionalist. We should not. Human values produce societies that thrive or fail on the merits of those values - from failed states and extreme inequality to declining happiness, political polarization, and government dysfunction in the world's wealthiest democracies. The pluralistic-alignment program correctly diagnoses that there is no single "humanity" to align with, but is dangerous if taken as the main directive. We argue that AI should be trained to a non-negotiable floor of objective alignment goals - competence, bounded by the constraints of factual accuracy, honesty, and lawfulness and that pluralism belongs at the surface (language, register, conventions, missing-context defaults) and across the wide band of legitimate value tradeoffs that respect the floor, but not at the level of values that violate it. We highlight the empirical reality of unfiltered pluralistic values, propose four commitments as a constructive alternative, and engage six credible objections: commercial pressure and practical feasibility, democratic legitimacy, regulatory compliance, over-reliance on institutionalist explanations, the charge that the floor itself is culturally laden, and the limits of Coherent Extrapolated Volition.

13:00 JSTLLM/生成AIエージェント

SEVRA-BENCH: レビューエージェントの脆弱性のソーシャルエンジニアリング

大規模言語モデル (LLM) レビュー担当者は、プルリクエスト (PR) ワークフローでますます使用されており、その承認はどのコードをリポジトリにマージするかを決定するのに役立ちます。これは、静的脆弱性検出やコード生成のベンチマークでは対処できない疑問を引き起こします。攻撃者がコード変更とそれに伴う PR テキストの両方を制御している場合、自動レビューアは悪意のある投稿を拒否できるでしょうか?自動レビュー担当者がそのような敵対的なプル リクエストを承認する頻度を測定するベンチマークである SEVRA-BENCH (レビュー エージェントの脆弱性のソーシャル エンジニアリング) を紹介します。 SEVRA-BENCH の各悪意のある PR は、Common Vulnerabilities and Exposures (CVE) データベースにリストされている脆弱性を以前に修正した実際のプロジェクトのコミットから構築されています。その修正を自動的に反転して元の脆弱なコードを復元し、15 のソーシャル エンジニアリング フレームの 1 つでラップされたプル リクエストとして送信します。これらのフレームには、主張、裏付けとなる証拠、伝えられる緊急性、事前承認のシグナル、当局への訴えなどが異なります。 SEVRA-BENCH には、2025 年の Common Weakness Enumeration (CWE) トップ 25 の上位 10 エントリにわたる Common Vulnerabilities and Exposures (CVE) にリンクされた修正から抽出された 1,062 の悪意のある PR が含まれています。現実的な設定では、以前に公開情報で報告された脆弱性を導入する PR のコード レビュー エージェントとして、現在の 8 つの LLM を評価します。私たちの結果は、クローズドソース モデルとオープンソース モデルの間のセキュリティ機能に大きなギャップがあることを明らかにしました。 SEVRA-BENCH がオープンソース モデルを前進させ、このギャップを縮めるための貴重なリソースとして役立つことを願っています。

原文 (English)

SEVRA-BENCH: Social Engineering of Vulnerabilities in Review Agents

Large language model (LLM) reviewers are increasingly used in pull-request (PR) workflows, where their approvals help decide which code is merged into a repository. This raises a question that benchmarks for static vulnerability detection or code generation do not address: can an automated reviewer reject a malicious contribution when the attacker controls both the code change and the accompanying PR text? We introduce SEVRA-BENCH (Social Engineering of Vulnerabilities in Review Agents), a benchmark that measures how often an automated reviewer approves such adversarial pull requests. Each malicious PR in SEVRA-BENCH is built from a real project commit that previously fixed a vulnerability listed in the Common Vulnerabilities and Exposures (CVE) database. We automatically invert that fix to restore the original vulnerable code and submit it as a pull request wrapped in one of 15 social-engineering framings, which vary the claims made, the supporting evidence, the urgency conveyed, signals of prior approval, and appeals to authority. SEVRA-BENCH contains 1,062 malicious PRs drawn from Common Vulnerabilities and Exposures (CVE)-linked fixes across the top 10 entries of the 2025 Common Weakness Enumeration (CWE) Top 25. In a realistic setting, we evaluate 8 current LLMs as code review agents on PRs that introduce vulnerabilities previously reported in public disclosures. Our results reveal a sharp gap in security capabilities between closed- and open-source models. We hope SEVRA-BENCH will serve as a valuable resource for advancing open-source models and narrowing this gap.

13:00 JST研究/論文

LoRA を超えて: スパース性による適応は優れているのか?

低ランク適応 (LoRA) とそのバリアントは、事前トレーニングされたモデルの完全な微調整に代わる、メモリ効率と計算効率の高い代替手段を提供します。ただし、これらのアプローチの比較一般化可能性と、低ランク更新の構造的制限が効果的な適応パフォーマンスをどのように維持するかについては疑問が残ります。私たちは、過去 (完全な微調整とオリジナルの LoRA)、現在 (LoRA のさまざまなバリアント) をカバーする歴史的な枠組みを提示し、既存の LoRA バリアント内にスパース性を導入することによって、よりシンプルで安価でパラメーター効率の高い拡張機能を提案します。安い LoRA (cLA)、単一の低ランク因子を他の固定 (決定論的、またはランダム化されたバリアントでは確率論的に) でトレーニングする、および連鎖サーキュラント バリアント、 ${c}^3$LA。私たちは cLA を非対称 LoRA の構造化インスタンスとしてフレーム化し、完全な微調整の制御された列部分空間制限として機能します。我々は、これらのバリアントに対する情報理論的な一般化誤差限界を導出し、この分野における最初の取り組みの 1 つをマークします。経験的に、10 の事前トレーニング済みモデルと 14 のデータセットにわたって 11 の微調整手法を評価し、損失ランドスケープやスペクトル分析などのツールを使用して微調整モデルのパフォーマンスと一般化を分析します。事前トレーニングされたモデル、データセット、その他の要因に対する微調整されたモデルの感度にもかかわらず、私たちの研究は、LoRA ベースの PEFT 手法の適応をスパースで構造化された列空間に制限することで、パラメーターが一致したベースラインを持つタスク間で競争力を維持しながら、ナイーブで最適化されていないスパースな実装であっても、トレーニング時間を最大 10% 削減し、ピーク GPU メモリを最大 15% 削減できることを示唆しています。私たちの理論的および経験的な一般化対策は、一般的に使用されている分析ツールよりも、費用対効果の高い適応に対する一貫性と原則に基づいたアプローチ。概要とコードは、https://elicaden.github.io/Beyond_LoRA/ で入手できます。

原文 (English)

Beyond LoRA: Is Sparsity-Induced Adaptation Better?

Low-rank adaptation (LoRA) and its variants provide a memory- and compute-efficient alternative to full fine-tuning of pre-trained models. However, questions remain about the comparative generalizability of these approaches and how the structural restrictions on low-rank updates preserve effective adaptation performance. We present a historical framing, covering the past (full fine-tuning and original LoRA), the present (different variants of LoRA), and propose simpler, cheaper, parameter-efficient extensions by inducing sparsity within existing LoRA variants: Cheap LoRA (cLA), training a single low-rank factor with the other fixed (deterministically or, in its randomized variant, stochastically), and the chained circulant variant, ${c}^3$LA. We frame cLA as a structured instance of asymmetric LoRA, serving as a controlled column-subspace restriction of full fine-tuning. We derive information-theoretic generalization error bounds for these variants, marking one of the first endeavors in this area. Empirically, we evaluate 11 fine-tuning methods across 10 pre-trained models and 14 datasets, analyzing the fine-tuned models' performance and generalization using tools such as loss landscapes and spectral analysis. Despite the sensitivity of fine-tuned models to the pre-trained model, datasets, and other factors, our study suggests that restricting LoRA-based PEFT methods' adaptation to a sparse, structured column space remains competitive across tasks with their parameter-matched baselines while reducing up to 10% training time and peak GPU memory up to 15%, even with a na\"ive, non-optimized, sparse implementation. Our theoretical and empirical generalization measures provide a more consistent and principled approach to their cost-effective adaptation than commonly used analytical tools. Overview and code are available at: https://elicaden.github.io/Beyond_LoRA/.

13:00 JST画像/動画生成

CineOrchestra: 映画のようなビデオ生成のためのエンティティ中心の統合コンディショニング

映画のようなビデオは、特定の瞬間に行動または対話する複数の被写体を描写し、意図的なカメラの動きで撮影され、ショットのトランジションによってつなぎ合わされます。これらの要素を組み合わせると、現在のテキストからビデオへのモデルを超えたレベルのきめ細かい制御が必要になります。既存の研究では、複数の主題のパーソナライゼーション、時間的制御、マルチショット合成、またはカメラ制御などの各軸を個別に扱っています。 4 つすべてを統合するこれまでのフレームワークはありません。被写体、イベント、カメラ、ショットトランジションを同時に制御する統合ビデオ拡散モデルである CineOrchestra を紹介します。私たちの重要な洞察は、これらの異質な映画要素が基本的な構造を共有しているということです。つまり、それぞれが特定の時間間隔にわたって動作するエンティティであり、したがって、それらはすべて、視覚エンティティの参照画像で強化された、エンティティ中心の条件付けプリミティブの 1 つの共有構造を通じて表現できるということです。この定式化により、アーキテクチャ上の課題が 1 つの位置エンコード問題に軽減されます。これは、2 つのパラメーターなしの調整された回転埋め込みで解決されます。(a) 持続時間が劇的に変化するイベント全体で一貫した注意動作を生み出す、間隔サンプリングされた時間的 RoPE、および (b) エンティティごとの条件を明確にし、それぞれを対応する時空間領域にルーティングする 2D エンティティと時間のクロスアテンション RoPE。 2 つの新しいベンチマークで、CineOrchestra は、高密度のキャプション追従とショット移行のタイミングで軸ごとのスペシャリスト 6 名を上回っており、ペアごとのユーザー調査とコンポーネントのアブレーションで一貫した成果を上げています。

原文 (English)

CineOrchestra: Unified Entity-Centric Conditioning for Cinematic Video Generation

Cinematic video depicts multiple subjects acting or interacting at specific moments, captured with deliberate camera movement, and stitched together by shot transitions. Together, these elements demand a level of fine-grained control beyond current text-to-video models. Existing work addresses each axis in isolation: multi-subject personalization, temporal control, multi-shot synthesis, or camera control; no prior framework jointly integrates all four. We present CineOrchestra, a unified video diffusion model that controls subjects, events, cameras, and shot transitions simultaneously. Our key insight is that these heterogeneous cinematic elements share a fundamental structure: each is an entity acting over a specific temporal interval, which can therefore all be expressed through one shared structure of entity-centric conditioning primitives, augmented with reference images for visual entities. This formulation reduces the architectural challenge to a single positional encoding problem, which we solve with two parameter-free coordinated rotary embeddings: (a) an interval-sampled temporal RoPE that yields consistent attention behavior across events of dramatically varying duration, and (b) a 2D entity-temporal cross-attention RoPE that disambiguates per-entity conditions and routes each to its corresponding spatiotemporal region. On two new benchmarks, CineOrchestra outperforms six per-axis specialists on dense caption following and shot-transition timing, with consistent gains in a pairwise user study and component ablations.

13:00 JSTロボティクス

統合された解釈可能な制御有効性学習と過作動航空機に対する非線形制御割り当て方法論

非線形ダイナミクスと複数のエフェクター間で生じる強い結合により、従来の線形制御割り当て手法の背後にある前提が損なわれます。飛行が非線形効果が支配的な領域に入ると、モデルの不一致が増加するため線形アロケーターの精度が低下し、その後飛行制御システムのパフォーマンスとロバスト性が低下します。高忠実度のオンボード モデルとブラック ボックス データ駆動型アプローチは、飛行エンベロープ全体で精度を回復できますが、それぞれリアルタイム割り当てには法外な計算負荷を課し、検証と故障診断に必要な解釈可能性を犠牲にします。この論文では、非線形ダイナミクスのスパース識別を使用して、代表的な飛行データから制御有効性マッピングの明示的な物理制約付き分析モデルを学習することで、これらの制限に対処します。結果として得られるマッピングはコンパクトで解釈可能であり、解析的な微分が可能であるため、オンボード モデルを必要とせずに、アクチュエータ ダイナミクスをさらに組み込んだ非線形ソルバー内での効率的な計算が可能になります。オンライン適応メカニズムは、予測残差を監視し、プラントの重大な変化が検出されたときにモデルを更新し、アクチュエータの故障やさまざまな動作条件下で適切な再構成を提供します。この方法論は、さまざまな積極的な操縦にわたって忠実度の高い非線形ベンチマーク航空機で評価され、確立されたベースラインと比較して計算コストを大幅に削減しながら、完全な非線形機内モデルに匹敵する精度を達成します。

原文 (English)

An integrated interpretable control effectiveness learning and nonlinear control allocation methodology for overactuated aircrafts

Nonlinear dynamics and the strong couplings that arise between multiple effectors undermine the assumptions behind conventional, linear control allocation techniques. When flight enters regimes where nonlinear effects dominate, linear allocators exhibit reduced accuracy due to increased model mismatch, which subsequently degrades performance and robustness of the flight control system. High fidelity onboard models and black box data driven approaches can recover accuracy across the flight envelope, but respectively impose computational burdens prohibitive for real time allocation and sacrifice the interpretability required for verification and fault diagnosis. This paper addresses these limitations by learning an explicit, physics constrained analytical model of the control effectiveness mapping from representative flight data using Sparse Identification of Nonlinear Dynamics. The resulting mapping is compact, interpretable, and admits analytical derivatives, enabling efficient computation within nonlinear solvers that additionally incorporate actuator dynamics, without requiring an onboard model. An online adaptation mechanism monitors prediction residuals and refreshes the model when significant plant changes are detected, providing graceful reconfiguration under actuator failures and varying operating conditions. The methodology is evaluated on a high fidelity nonlinear benchmark aircraft across a range of aggressive maneuvers, achieving accuracy comparable to a full nonlinear onboard model while substantially reducing computational cost relative to established baselines.

13:00 JST研究/論文

スプレッドシートで次のアクションの予測を評価するためのベンチマークとフレームワーク

予測コード補完により、開発者の作業速度が大幅に向上します。スプレッドシートでは、はるかに一般的であるにもかかわらず、このような自動補完機能は事実上存在しません。このギャップに対処するために、スプレッドシート内のユーザーの一連のアクションを観察し、将来のアクションを予測するシステムのベンチマークを導入します。 2 つの課題は、(1) 公開スプレッドシート コーパスに編集履歴がないこと、および (2) スプレッドシート アクションの複雑な空間 (空間的、時間的、複合的) です。 (1) に対処するために、パラメーター化されたヒューリスティックと LLM 改良によってシードされたパブリック コーパスからスプレッドシートを再作成する 12,000 アクションの 52 シーケンスを手動でキュレートします。 (2) に対処するために、ユーザーのアクションごとに予測を期待し、その予測を受け入れるか拒否し、受け入れられたら将来のアクションを更新し、ターゲットのスプレッドシートが取得されるまでこれを繰り返すオンライン評価を提案します。当社では、複数のベースライン予測子 (ゼロショット LLM、微調整 SLM、古典的モデルを含む) を使用し、ベンチマークが示すさまざまなプロパティを分析します。これには、保存されたアクションと誤検知のプロパティ、効率、ユーザー プロファイルの効果、トリガーの効果、コンテキストの効果が含まれますが、これらに限定されません。

原文 (English)

A Benchmark and Framework for Evaluating Next Action Predictions in Spreadsheets

Predictive code completion greatly accelerates how quickly developers work. In spreadsheets, despite being much more common, such auto-completion features are virtually non-existent. To address this gap, we introduce a benchmark for systems that observe a sequence of user actions in a spreadsheet and predict future actions. Two challenges are (1) the absence of edit histories in public spreadsheet corpora and (2) the complex space of spreadsheet actions (spatial, temporal, composite). To address (1), we manually curate 52 sequences of 12K actions that recreate spreadsheets from public corpora, seeded by parametrized heuristics and LLM refinement. To address (2), we propose an online evaluation that expects a prediction after each user action, accepts or rejects that prediction, updates the future actions upon acceptance, and repeats this until the target spreadsheet is obtained. We use multiple baseline predictors (including zero-shot LLMs, fine-tuned SLMs, and classical models) and analyze different properties that our benchmark teaches us, including but not limited to: properties of saved actions and false positives, efficiency, effect of user profiles, effect of triggers, and effect of context.

13:00 JSTLLM/生成AI

量子演算子と大規模な言語モデルの調整

大規模言語モデル (LLM) は量子演算子を理解して推論できますか? LLM は、数学と記号推論における顕著な能力にもかかわらず、本質的にユニタリ行列などの量子表現に対して盲目なままです。この研究では、ユニタリ演算子を LLM の潜在空間にマッピングするアプローチを導入することで、このギャップを埋めるための一歩を踏み出し、量子入力と言語入力に対する統一モデリングを可能にします。私たちは、パウ​​リ回転ゲート セットを介した Clifford+T 回路合成でこのアイデアをインスタンス化しました。このモデルでは、最先端の手法と競合する結果が得られ、飽和の兆候もなく、トレーニング データと一貫してスケールされています。私たちのアプローチはさらに、言語条件付き合成を可能にし、トレーニング中には見ら​​れないゲート制約を自然言語で直接指定できるようにします。この研究は、量子演算をネイティブに解釈して推論できる量子対応基盤モデルへの道を示唆しており、これは量子コンパイルとアルゴリズム発見に及ぶ広範な影響を与える可能性があります。

原文 (English)

Aligning Quantum Operators with Large Language Models

Can Large Language Models (LLMs) understand and reason about quantum operators? Despite their remarkable capabilities in mathematics and symbolic reasoning, LLMs remain inherently blind to quantum representations such as unitary matrices. In this work, we take a step toward bridging this gap by introducing an approach that maps unitary operators into the latent space of an LLM, enabling unified modeling over quantum and linguistic inputs. We instantiate this idea on Clifford+T circuit synthesis over a Pauli rotation gate set, where our model achieves results competitive with state-of-the-art methods and scales consistently with training data, with no signs of saturation. Our approach further enables language-conditioned synthesis, allowing gate constraints unseen during training to be specified directly in natural language. This work suggests a path toward quantum--aware foundation models that can natively interpret and reason about quantum operations, which could have broader implications reaching across quantum compilation and algorithm discovery.

13:00 JST研究/論文

AI は科学者による出版物の削減に貢献できる

私たちにできることは、AI を活用した大量の論文から科学を守ることだけではありません。 AI をうまく活用すると、出版システムの歪みを修正し、より少ない、より優れた論文の出版を支援し、科学者に最善の研究を行うための時間を取り戻す歴史的な機会が提供されます。

原文 (English)

AI can help scientists publish less

We can do more than defend science from a flood of AI-assisted papers. Used well, AI offers a historic opportunity to correct distortions in the publication system, help us publish fewer and better papers, and give scientists back the time to do their best work.

13:00 JSTエージェント

安全契約グラフ自律型ネットワークセキュリティ対応のためのマルチエージェント強化学習

自律的なネットワーク セキュリティ応答システムは、セキュリティ オペレーション センター (SOC) の反応待ち時間の短縮を約束しますが、報酬のみのマルチエージェント強化学習 (MARL) は、展開不可能なままでセキュリティ報酬を向上させることができます。我々は安全性契約グラフMARLフレームワークを提示し、それをACD$^3$-GAT(グラフアテンションネットワークエンコーダを使用した適応的制約付き反事実決定)としてインスタンス化します。これは、シミュレータの観察を再利用可能な運用予算、制約付きの最適化、グラフ状態のエンコード、および反事実アクションのスクリーニングから分離するアーキテクチャです。 CAGE チャレンジ 4 の方法を評価します。この方法では、エージェントは平均回復時間 (MTTR)、誤検知応答、およびファイアウォール変更管理の中断の予算の下で動作します。ベンチマーク全体で、すべての制約のないメソッドは評価されたエピソードの 100% で SOC ダウンタイム バジェットに違反しており、平均ダウンタイム プロキシ コストは予算 50 に対して 311 ~ 430 です。これは、報酬のみの学習には運用規律が欠けていることを示し、以前の CAGE チャレンジ 4 の調査結果を補完します。制約付き MAPPO-GAT (C-MAPPO-GAT) はラグランジュ運用コスト管理と予算を意識したスクリーニングを分離しますが、ACD$^3$-GAT は予算コンテキスト、CVaR テールリスク推定、反対者信念状態、およびグラフ反事実リスク伝播 (G-CRP) を追加します。複製された比較には、IPPO、MAPPO-GAT、C-MAPPO-GAT、および ACD$^3$-GAT の 3 つの 200 エピソード シードが含まれています。 C-MAPPO-GAT は、MAPPO-GAT と比較して、ダウンタイム違反を 100% から 0.3% に削減し、平均ダウンタイム コストを 355.4 から 15.5 に削減します。 ACD$^3$-GAT は平均ダウンタイム コストを 48.2 に削減し、違反率は 13.8% であり、最も保守的なコンプライアンス ポイントではなく、安全契約の最前線に位置しています。トポロジーシードと結合適応レッドプロセスストレステストはこのコントラストを維持し、安全制約ポリシーに対する最悪の適応劣化が報酬のみのMAPPO-GATよりも低いことを示します。

原文 (English)

Safety-Contract Graph Multi-Agent Reinforcement Learning for Autonomous Network Security Response

Autonomous network-security response systems promise to reduce Security Operations Centre (SOC) reaction latency, but reward-only multi-agent reinforcement learning (MARL) can improve security reward while remaining non-deployable. We present a safety-contract graph MARL framework and instantiate it as ACD$^3$-GAT (Adaptive Constrained Counterfactual Decisioning with a Graph Attention Network encoder), an architecture that separates simulator observations from reusable operational budgets, constrained optimization, graph state encoding, and counterfactual action screening. We evaluate the method in CAGE Challenge 4, where agents operate under budgets for Mean Time to Recover (MTTR), false-positive response, and firewall change-management disruption. Across the benchmark, every unconstrained method violates the SOC downtime budget in 100% of evaluated episodes, with mean downtime proxy costs of 311-430 against a budget of 50. This complements prior CAGE Challenge 4 findings by showing that reward-only learning lacks operational discipline. Constrained MAPPO-GAT (C-MAPPO-GAT) isolates Lagrangian operational-cost control and budget-aware screening, while ACD$^3$-GAT adds budget context, CVaR tail-risk estimation, opponent-belief state, and Graph Counterfactual Risk Propagation (G-CRP). The replicated comparison includes three 200-episode seeds for IPPO, MAPPO-GAT, C-MAPPO-GAT, and ACD$^3$-GAT. C-MAPPO-GAT reduces downtime violation from 100% to 0.3% and mean downtime cost from 355.4 to 15.5 relative to MAPPO-GAT. ACD$^3$-GAT reduces mean downtime cost to 48.2 with a 13.8% violation rate, placing it on the safety-contract frontier rather than at the most conservative compliance point. Topology-seed and coupled adaptive Red-process stress tests preserve this contrast and show lower worst adaptive degradation for safety-constrained policies than reward-only MAPPO-GAT.

13:00 JSTLLM/生成AIエージェント

もっともらしいことが現実的ではない場合: LLM ベースの都市シミュレーションにおける人間のモビリティの評価

LLM ベースの生成エージェントは都市シミュレーターでますます使用されていますが、経験的に現実的な人間の移動パターンを再現するのか、それとも単にもっともらしい移動の物語を生成するだけなのかはまだ不明です。現実世界のモビリティ データに対して LLM ベースの都市シミュレーターの生成エージェントのモビリティを評価するための検証フレームワークを紹介します。このために、モビリティの法則、時間的リズム、ネットワーク モチーフ、意味論的アクティビティの遷移、および行動モビリティ プロファイルを使用します。パリ都市圏と上海のデータセットを使用して、モビリティ リアリズムの複数の側面にわたって AgentSociety と CitySim を評価します。私たちの分析により、物語の妥当性と経験的な移動の現実主義の間には大きなギャップがあることが明らかになりました。シミュレータはいくつかの高レベルのセマンティックアクティビティ分布をキャプチャしますが、現実的な旅行長分布、出発地から目的地までのフロー、滞留時間、遷移ダイナミクスなど、中核となる空間的および時間的制約を再現するのに苦労しています。さらに、現実的なモビリティの多様性は、デフォルトのプロンプト設定全体では不安定であり、明示的なプロファイル対応の初期化が必要になる可能性があることが観察されています。再現可能な評価をサポートするために、地域規模の地図生成、可観測性を強化したシミュレーション、モビリティ メトリックの計算、交通シミュレーションのためのスケーラブルでオープンな LLM 主導のインフラストラクチャにも貢献します。私たちの調査結果は、LLM ベースの都市シミュレーターの厳密な実証的検証の必要性を強調し、より現実的で再現可能な都市シミュレーション システムを構築するための実用的なツールを提供します。

原文 (English)

When Plausible Is Not Realistic: Evaluating Human Mobility in LLM-Based Urban Simulation

LLM-based generative agents are increasingly used in urban simulators, yet it remains unclear whether they reproduce empirically realistic human mobility patterns or merely generate plausible mobility narratives. We introduce a validation framework for evaluating the mobility of generative agents of LLM-based urban simulators against real-world mobility data. For this, we use mobility laws, temporal rhythms, network motifs, semantic activity transitions, and behavioral mobility profiles. Using datasets from the Greater Paris region and Shanghai, we evaluate AgentSociety and CitySim across multiple dimensions of mobility realism. Our analysis reveals a substantial gap between narrative plausibility and empirical mobility realism. Although the simulators capture some high-level semantic activity distributions, they struggle to reproduce core spatial and temporal constraints, including realistic trip-length distributions, origin-destination flows, dwell times, and transition dynamics. We further observe that realistic mobility diversity is unstable across default prompting configurations and may require explicit profile-aware initialization. To support reproducible evaluation, we also contribute scalable and open LLM-driven infrastructure for regional-scale map generation, observability-enhanced simulation, mobility-metric computation, and traffic simulation. Our findings highlight the need for rigorous empirical validation of LLM-based urban simulators and provide practical tools for building more realistic and reproducible urban simulation systems.

13:00 JST画像/動画生成研究/論文

RhythmFormer の説明: 遠隔光電脈波検査における周期的まばらな注意の体系的な XAI 分析

遠隔光電容積脈波計 (rPPG) トランスフォーマーは、ベンチマークで低い心拍数誤差を達成していますが、その決定は依然として不透明です。rPPG が臨床心拍数推定に移行するにつれ、懸念が高まっています。既存の rPPG XAI は、定量的な忠実性メトリクスや生理学に基づいた検証を行わず、定性的なヒートマップ検査が主流であり、視覚的な妥当性と監査可能な証拠の間にギャップが残されています。私たちはこのギャップに対処します。まず、4 つのアトリビューション メソッド (生のアテンション、ロールアウト、フロー、Beyond Intuition) を、top-$k$ 選択による RhythmFormer のバイレベル ルーティング アテンションに適応させます。 2 番目に、スキン領域にどれだけのアトリビューション マスが含まれるかを定量化するスキン カバレッジ メトリックを導入します。第三に、元の分類設定と摂動された予測 rPPG 波形の間の MAE を摂動の影響として使用することにより、SaCo 忠実度係数を元の分類設定から rPPG 回帰に適応させます。これらのツールを適用して、スパース トップ $k$ ルーティングの下で​​のマルチホップ リーク効果を定量化します。アテンション ロールアウトとフローにより、個々のリファイン アテンション レイヤーが明示的にゼロに設定した接続がほぼ完全に復元されます。 Beyond Intuition は、値投影加重ロールアウトとグラデーション サポート マスクによってこれを軽減し、UBFC-rPPG で評価されたメソッドの中で最高の洗練されたスキン カバレッジの中央値 ($0.83$ 対バニラ ロールアウトの $0.57$) と忠実度 ($F=0.92$) を達成します。多様なデータセットとモデルのバリアントにわたる検証が必要です。さらに、低 SaCo 外れ値に関するケース スタディでは、アーチファクト領域が置き換えられると 4 つのメソッドすべてが一貫して回復することを示しており、この例示的なケースではアトリビューション ファミリ全体で一貫した SaCo の動作が示唆されています。これらのメトリクスを組み合わせることで、rPPG の XAI は、空間的アライメントと摂動の忠実性に関する監査可能な数値的証拠、つまり信頼できる rPPG XAI へと移行します。

原文 (English)

Explaining RhythmFormer: A Systematic XAI Analysis of Periodic Sparse Attention for Remote Photoplethysmography

Remote photoplethysmography (rPPG) transformers achieve low heart-rate error on benchmarks, yet their decisions remain opaque--a growing concern as rPPG moves toward clinical heart rate estimation. Existing rPPG XAI is dominated by qualitative heatmap inspection without quantitative faithfulness metrics or physiology-grounded validation, leaving a gap between visual plausibility and auditable evidence. We address this gap. First, we adapt four attribution methods (raw attention, rollout, flow, Beyond Intuition) to RhythmFormer's bi-level routing attention with top-$k$ selection. Second, we introduce a skin coverage metric quantifying how much attribution mass falls on skin regions. Third, we adapt the SaCo faithfulness coefficient from its original classification setting to rPPG regression by using the MAE between original and perturbed predicted rPPG waveforms as the perturbation impact. Applying these tools, we quantify a multi-hop leakage effect under sparse top-$k$ routing: attention rollout and flow almost completely restores the connections that individual refined-attention layers explicitly set to zero. Beyond Intuition mitigates this via its value-projection-weighted rollout and gradient-supported mask, attaining the highest median refined skin coverage ($0.83$ vs. $0.57$ for vanilla rollout) and faithfulness ($F=0.92$) among the evaluated methods on UBFC-rPPG. Validation across diverse datasets and model variants is needed. A case study on a low-SaCo outlier further shows all four methods recovering consistently once an artefactual region is replaced, suggesting consistent SaCo behavior across attribution families in this illustrative case. Together, these metrics move XAI for rPPG toward auditable numerical evidence about spatial alignment and perturbation faithfulness, i.e. trustworthy rPPG XAI.

13:00 JST研究/論文

SpheriCity: 持続可能性の意思決定をサポートするための信頼できる会話型 AI の設計

私たちは、持続可能性レポートからの信頼できる知識の判断をサポートするように設計された、専門家に基づいた会話型プロトタイプである SpheriCity を紹介します。都市レベルの循環性評価レポートには、資材、インフラ、政策介入に関する豊富な情報が含まれていますが、その長さと不均一な構造により、循環経済イニシアチブに取り組む実務者や研究者にとって、文書間の統合と比較が困難になっています。大規模言語モデル (LLM) は、より迅速な知識アクセスと統合を約束しますが、その不透明な推論、幻覚、ソースの透明性の欠如により、信頼性と解釈可能性に対するリスクが生じ、一か八かの持続可能性の文脈での検証が必要になります。 SpheriCity は、証拠のトレーサビリティ、構造化された合成、およびインタラクションの足場を前面に打ち出し、サステナビリティ レポート全体にわたる探索的なクエリと文書間の合成をサポートする来歴優先の会話型エージェントを通じてこれらの課題に対処します。私たちは、都市間の比較、政策の要約、推奨指向のタスクにわたる代表的な質問を使用して、6 人の持続可能性の専門家による形成的専門家レビューを実施しました。専門家はさまざまな側面からの回答を評価し、持続可能性に関する知識作業におけるシステムの有用性について定性的な反映を提供しました。私たちの結果は、透明な調達、文脈上の説明、解釈可能性、専門家のワークフローとの整合性が、システムの有用性に対する専門家の信頼と判​​断を強く形作ることを明らかにしました。この研究は、(1) サステナビリティに関する知識のセンスメイキングのための会話型プロトタイプ、(2) 一か八かの知識領域における AI の応答を評価するための専門家に基づいた評価フレームワーク、(3) 来歴、不確実性のコミュニケーション、およびワークフローへの統合が、サステナビリティに関する意思決定支援のための AI 支援に対する専門家ユーザーの信頼にどのように影響するかについての設計上の洞察に貢献します。

原文 (English)

SpheriCity: Designing Trustworthy Conversational AI for Sustainability Decision Support

We present SpheriCity, an expert-grounded conversational prototype designed to support trustworthy knowledge sensemaking from sustainability reports. City-level circularity assessment reports contain rich information about materials, infrastructure, and policy interventions, yet their length and heterogeneous structure make cross-document synthesis and comparison difficult for practitioners and researchers working on circular economy initiatives. While large language models (LLM) promise faster knowledge access and synthesis, their opaque reasoning, hallucinations, and lack of source transparency introduce risks for trust and interpretability, and require verification in high-stakes sustainability contexts. SpheriCity addresses these challenges through a provenance-first conversational agent that foregrounds evidence traceability, structured synthesis, and interaction scaffolds to support exploratory querying and cross-document synthesis across sustainability reports. We conducted a formative expert review with six sustainability experts using representative queries spanning cross-city comparison, policy summarization, and recommendation-oriented tasks. Experts evaluated responses across dimensions and provided qualitative reflections on the system's usefulness for sustainability knowledge work. Our results reveal that transparent sourcing, contextual explanation, interpretability, and alignment with expert workflow strongly shape expert trust and judgments of system usefulness. This work contributes (1) a conversational prototype for sustainability knowledge sensemaking, (2) an expert-grounded evaluation framework for assessing AI responses in high-stakes knowledge domains, and (3) design insights into how provenance, uncertainty communication, and integration in workflow influence expert users' trust in AI assistance for sustainability decision support.

13:00 JST研究/論文

気分を認識した音楽の推奨: ユーザーの感情シグナルをランキング システムに統合

利用可能なコンテンツが膨大であるため、最新の音楽ストリーミング プラットフォームではレコメンデーション システムが不可欠です。協調フィルタリングは、同様のパターンを持つ他の人の好みに基づいてアイテムを提案するために広く使用されていますが、音楽など、ユーザーとアイテムの対話がまばらな領域ではパフォーマンスが低下します。コンテンツベースのフィルタリングは、アイテム自体の品質を検査する代替アプローチです。ジャンル、楽器編成、歌詞が調査されました。しかし、感情認識については比較的ほとんど注目されていません。ユーザーの感情状態は音楽の選択に大きな影響を与えるため、気分シグナルを組み込むことはパーソナライゼーションに有望な方向性をもたらします。この研究では、エネルギー価数空間でのソフトマックス ベースのサンプリングを介して、ユーザーの感情信号を推奨プロセスに統合する、気分条件付きランキング フレームワークを提案します。参加者が提案されたシステムからの推奨事項をベースラインと比較する単一盲検実験を通じてアプローチを評価します。この結果は、知覚される推奨品質が向上していることを示しており、気分に基づく入力を音楽推奨に組み込むことの有効性に関する予備的な証拠を提供しています。

原文 (English)

Mood-Aware Music Recommendation: Integrating User Affective Signals into Ranking Systems

Recommendation systems are essential in modern music streaming platforms due to the vast amount of available content. While collaborative filtering is widely used to suggest items based on the preferences of others with similar patterns, it performs poorly in domains where user-item interactions are sparse, such as music. Content-based filtering is an alternative approach that examines the qualities of the items themselves. Genre, instrumentation, and lyrics have been explored; however, relatively little attention has been given to emotion recognition. Since a user's emotional state strongly influences their music choice, incorporating mood signals offers a promising direction for personalization. In this work, we propose a mood-conditioned ranking framework that integrates user affective signals into the recommendation process via softmax-based sampling in the energy-valence space. We evaluate the approach via single-blind experiments in which participants compare recommendations from the proposed system against a baseline. The results indicate improved perceived recommendation quality, providing preliminary evidence for the effectiveness of incorporating mood-based inputs into music recommendations.

13:00 JSTLLM/生成AI

SuperThoughts: トークンを重ね合わせて推論する

長い思考連鎖 (CoT) 推論は LLM の問題解決を改善しますが、トークンが順次生成されるため計算コストが高くなります。最近の研究では、離散トークン生成をバイパスするために連続潜在空間での推論を検討していますが、多くの場合、トレーニングの安定性に問題があり、監視信号の欠如により複雑で長期的なタスクに拡張できません。私たちは、連続する CoT トークンのペアを単一の潜在表現に圧縮し、軽量のマルチトークン予測 (MTP) モジュールを介してステップごとに 2 つのトークンをデコードする SuperThoughts を提案します。これにより、トレーニング時に個別のトークンの監視が維持され、推論時のスループットが 2 倍になります。 Qwen2.5-Math-1.5B-Instruct、Qwen2.5-Math-7B-Instruct、Qwen2.5-Math-14B-Instruct を微調整し、MATH500、AMC、OlympiadBench、GPQA-Diamond で評価します。 SuperThoughts は、不確実な場合に標準のデコードにフォールバックする信頼ベースの適応メカニズムにより、精度の低下を最小限に抑えながら (ほとんどのタスクで 1 ~ 2 ポイントの精度の低下) 精度を維持しながら、$\sim$20--30\% の CoT 長削減を達成します。

原文 (English)

SuperThoughts: Reasoning Tokens in Superposition

Long Chain-of-Thought (CoT) reasoning improves LLM problem-solving but is computationally expensive due to sequential token generation. While recent works explore reasoning in continuous latent spaces to bypass discrete token generation, they often struggle with training stability and fail to scale to complex, long-horizon tasks due to lack of supervision signal. We propose SuperThoughts, which compresses pairs of consecutive CoT tokens into single latent representations and decodes two tokens per step via a lightweight Multi-Token Prediction (MTP) module. This preserves discrete token supervision at training time while doubling throughput at inference time. We finetune Qwen2.5-Math-1.5B-Instruct, Qwen2.5-Math-7B-Instruct, Qwen2.5-Math-14B-Instruct, and evaluate on MATH500, AMC, OlympiadBench, and GPQA-Diamond. With a confidence-based adaptive mechanism that falls back to standard decoding when uncertain, SuperThoughts achieves $\sim$20--30\% CoT length reduction while maintaining accuracy with minimal degradation (1-2 points accuracy drop on most tasks).

13:00 JST画像/動画生成

ミラージュプローブ: ビジョンモデルがどのように視覚的理解を偽るのか

ビジョン言語モデル (VLM) は、画像が提供されていない場合でも、画像ベースの質問に自信を持って、多くの場合正確に答えることができます。この蜃気楼の動作は、視覚的な根拠を反映せずにベンチマーク スコアを膨らませます。以前の研究では、これを単一の故障モードとして扱いました。私たちはそれは 2 であると主張します。同じ画像上の、言い換えられた質問のバリエーションと、一致するミラージュおよび非ミラージュのラベルをペアにする対照的プローブ フレームワークである Mirage Probes を使用して、2 つのオープンソース VLM の残差ストリーム、MLP、ポスト アテンション、およびアテンション ヘッド サイトにわたる内部アクティベーションからミラージュの動作が線形にデコード可能であることを示します。我々は、Naive Bayes テキスト ベースラインではこの信号を回復できず、表面の語彙の混乱を排除できないことを示します。クロスベンチマーク分離パターンと、モデルがテキストのみからどの程度回答できるかを測定する新しい事前利用指数 (PHI) を併用すると、2 つの異なる領域が明らかになります。1 つは、モデルが視覚的表現を関与させずに事前言語から回答するテキスト バイアス、もう 1 つは、潜在空間に偽の視覚コンテンツを構築し、根拠があるかのように回答する偽の画像です。この区別は、緩和に直接影響します。テキスト分布のクリーニングは、最初の領域には対処できますが、2 番目の領域には到達できません。これは、偽のイメージの蜃気楼がテキストではなくモデルの視覚表現に存在するためです。忠実な視覚的根拠を得るには、表現レベルでの介入が必要になります。

原文 (English)

Mirage Probes: How Vision Models Fake Visual Understanding

Vision-language models (VLMs) can answer image-based questions confidently, and often correctly, even when no image is provided. This mirage behavior inflates benchmark scores without reflecting visual grounding. Prior work treats this as a single failure mode. We argue it is two. Using Mirage Probes, a contrastive probing framework that pairs paraphrased question variants with matched mirage and non-mirage labels on the same image, we show that mirage behavior is linearly decodable from internal activations across residual stream, MLP, post-attention, and attention-head sites in two open-source VLMs. We demonstrate that a Naive Bayes text baseline cannot recover this signal, ruling out surface lexical confounds. Cross-benchmark separability patterns, together with a novel Prior Harnessing Index (PHI) measuring how much a model can answer from text alone, expose two distinct regimes: textual biases, where the model answers from language priors without engaging visual representations, and spurious images, where it constructs false visual content in latent space and answers as if grounded. The distinction has direct mitigation consequences: text-distribution cleaning can address the first regime but cannot reach the second, since spurious-image mirages live in the model's visual representations rather than its text. Faithful visual grounding will require interventions at the representational level.

13:00 JST研究/論文

暗号通貨 x AI、AI x 暗号通貨: 調査

暗号通貨と AI の交差点から、論文、製品、オンライン投稿、企業が生まれています。しかし、周囲の喧騒のせいで、具体的に何が行われたのか、何が機会と課題なのか、そしてどのような未解決の問題が注目に値するのかが曖昧になってしまいます。この調査報告書では、ブロックチェーンベースのテクノロジー(広義には「暗号」として解釈されます)に対して AI が何ができるのか(暗号 x AI)、およびその逆(AI x 暗号)について尋ねています。私たちは既存の研究を体系化し、重要なポイントを要約し、研究上の未解決の疑問を強調し、業界に蔓延している誤解についての視点を提供し、AI と暗号通貨はまだ有意義な統合の非常に初期段階にあると結論付けています。

原文 (English)

Crypto x AI, AI x Crypto: A Survey

The intersection of crypto x AI is spawning papers, products, online posts, and companies. All the surrounding buzz, though, obscures what exactly has been done, what the opportunities and challenges are, and what open questions deserve attention. This survey paper asks what AI can do for blockchain-based technologies (broadly construed as "crypto") (crypto x AI), and vice versa (AI x crypto). We systematize existing work, summarize key takeaways, highlight open research questions, and offer a perspective on pervasive industry misconceptions, concluding that AI and crypto are still in the very early stages of meaningful integration.

13:00 JSTLLM/生成AI画像/動画生成

Gefen: 最適化された確率的オプティマイザー

AdamW は最新の深層学習のデフォルトのオプティマイザーですが、その第一モーメント状態と第二モーメント状態により、トレーニング メモリにおよそ 2 つのパラメーター サイズのバッファーが追加されます。私たちは、パラメータ ブロック間で 2 番目のモーメントの推定値を自動的に共有し、学習されたコードブックを使用して最初のモーメントを量子化する、メモリ効率の高いオプティマイザである Gefen を提案します。これにより、AdamW のメモリ フットプリントを同じパフォーマンスを維持しながら最大 8 倍削減できます。これは、10 億パラメータあたり 6.5 GiB の削減に相当します。この方法は、大規模な混合ヘッセ行列のエントリが二乗勾配の比率を 1 に向けて制約することを示す理論的結果によって動機付けられており、ヘッセ行列に整列されたパラメーターが二次モーメント統計を共有するための自然な候補であることを示唆しています。ヘッセ行列の計算は大規模には非現実的であるため、Gefen は初期の 2 乗勾配からブロック構造を推測し、AdamW のデフォルトを超えるアーキテクチャ固有のメタデータやハイパーパラメーターを必要としません。 Gefen は、正確なヒストグラムベースの動的プログラミング量子化コードブックを学習し、最初の瞬間のスケーリングに同じブロックを再利用します。さまざまな実験を通じて、Gefen は、AdamW レベルのパフォーマンスを維持しながら、比較した AdamW のような手法の中で最も低いピーク オプティマイザー メモリを実現しました。 FSDP および DDP トレーニングでは、メモリ フットプリントの削減により、より大きなマイクロバッチが可能になり、AdamW よりもスループットが大幅に向上します。これにより、メモリ使用量が減り、スループットが向上し、より大きなモデルのトレーニングやより大きなバッチ サイズの使用が可能になる実用的なドロップイン置換が提供されます。融合された CUDA カーネルを含む完全な Python 実装を https://github.com/ndvbd/Gefen で提供します。

原文 (English)

Gefen: Optimized Stochastic Optimizer

AdamW is a default optimizer for modern deep learning, but its first and second moment states add roughly two parameter-sized buffers to training memory. We propose Gefen, a memory-efficient optimizer that automatically shares second-moment estimates across parameter blocks and quantizes the first moment using a learned codebook, thereby reducing AdamW's memory footprint by ~8x while maintaining the same performance, corresponding to a reduction of 6.5 GiB per billion parameters. The method is motivated by a theoretical result showing that large mixed Hessian entries constrain the ratio of squared gradients toward one, suggesting that Hessian-aligned parameters are natural candidates for sharing second-moment statistics. Since computing Hessians is impractical at scale, Gefen infers block structure from the initial squared gradients, requiring no architecture-specific metadata or hyperparameters beyond AdamW defaults. Gefen learns an exact histogram-based dynamic-programming quantization codebook and reuses the same blocks for first-moment scaling. Across diverse experiments, Gefen achieves the lowest peak optimizer memory among the compared AdamW-like methods while maintaining AdamW-level performance. In FSDP and DDP training, the reduced memory footprint enables larger microbatches and improves throughput significantly over AdamW, providing a practical drop-in replacement with lower memory usage that can increase throughput and enable training larger models or using larger batch sizes. We provide the complete Python implementation, including fused CUDA kernels at https://github.com/ndvbd/Gefen

13:00 JST画像/動画生成

自己監視型リモート センシング ビジョン モデルはどのように下流タスクに転送されるのでしょうか?

自己教師あり地理空間基盤モデル (GeoFM) は、リモート センシング データから転送可能な表現を学習しますが、その下流の動作を特徴付けるのは困難です。私たちは、ジョイント埋め込み、再構築、マルチモーダル事前トレーニング ファミリにわたる 6 つの代表的な GeoFM を研究し、さまざまなラベルの可用性と下流のパイプラインの下で、分類、回帰、セグメンテーションのベンチマーク全体にわたる転送を評価します。モデルのランキングはタスクや適応設定によって変化することがわかりました。層ごとの調査により、ほとんどの場合、最終層の埋め込みと比較して中間のトランスフォーマー ブロックではタスク関連の情報にアクセスしやすく、GeoFM は明確な深さ方向のプロファイルを示すことがわかります。 PASTIS と Sen1Floods11 に関するセグメンテーションのケーススタディでは、デコーダーの設計や微調整などの下流の適応設定は、GeoFM の選択と同じくらい影響力を持つ可能性があり、標準の密予測ヘッドは、GeoFM が深度にわたって情報を編成する方法とうまく連携していない可能性があります。最後に、ケーススタディの CKA 分析では、微調整によって GeoFM が深度全体にわたって均一に書き換えられるわけではなく、最も強い変更は ViT ブロック内の MLP の最初の線形層に局在化していることが示されています。これらの結果は、GeoFM ランキングがベンチマーク間で変動する理由を説明し、より表現を意識した評価および適応戦略を動機付けるのに役立ちます。

原文 (English)

How do Self-Supervised Remote Sensing Vision Models Transfer to Downstream Tasks?

Self-supervised geospatial foundation models (GeoFMs) learn transferable representations from remote sensing data, but their downstream behavior is difficult to characterize. We study six representative GeoFMs spanning joint-embedding, reconstruction, and multimodal pretraining families, and evaluate transfer across classification, regression, and segmentation benchmarks under different label availability and downstream pipelines. We find that model rankings change across tasks and adaptation settings. Layerwise probing shows that, in most cases, task-relevant information is more accessible in intermediate transformer blocks compared to final-layer embeddings, and that GeoFMs exhibit distinct depthwise profiles. In segmentation case studies on PASTIS and Sen1Floods11, downstream adaptation settings such as decoder design and fine-tuning can be as impactful as the choice of GeoFM, and standard dense-prediction heads may be poorly aligned with how GeoFMs organize information over depth. Finally, CKA analysis on case studies shows that fine-tuning does not rewrite GeoFMs uniformly across depth, and the strongest changes are localized to the first linear layer of the MLP in ViT blocks. These results help explain why GeoFM rankings shift across benchmarks and motivate more representation-aware evaluation and adaptation strategies.

13:00 JST画像/動画生成

HiLo-Token: 効率的な画像編集のための入力適応型高低周波トークン圧縮

Photoshop の [削除] ボタンやジェネレーティブ フィル ボタンなどのクリエイティブな画像編集ツールは、顧客の日常使用の中心であり、Photoshop と Lightroom のトラフィックの主要なシェアを占めています。ただし、現在の生成 AI モデルは重大なレイテンシーの課題に直面しており、畳み込みベースの U-Net から拡散トランスフォーマー (DiT) に移行する際に、この課題はさらに顕著になります。広範囲のマスク比にわたる数百の代表的な画像編集サンプルに対する評価では、50 タイムステップから 8 タイムステップに絞り込んだ後でも、DiT モジュールだけでモデル全体のレイテンシの平均 73% を占めています。この課題に取り組むために、私たちは $\textbf{HiLo-Token}$ を提案します。これは、高頻度のリッチコンテキスト領域により多くのトークン バジェットを割り当て、低頻度領域にはより少ないトークンを割り当てる入力適応型トークン圧縮フレームワークです。具体的には、ユーザー マスクによって指定された編集領域については、強力な局所性と文脈上の関連性を維持するために、拡張されたマスク内のすべてのトークンを保持します。編集領域の外側では、空間周波数に基づいたシンプルかつ効果的な高周波トークン選択戦略を導入して、重要な局所的な詳細をキャプチャすると同時に、16 倍ダウンサンプリングされた画像からのトークンを使用して低周波成分を表現し、ぼやけていても全体的な構造を保存します。実稼働レベルの評価データに関する広範な実験により、提案された方法の有効性が検証され、生成品質を低下させることなく、小、中、および大のマスク率カテゴリ全体で画像編集タスクに対して、A100-80GB で 3.13 倍、2.59 倍、および 1.67 倍の DiT 高速化がそれぞれ 6.38%、15.92%、および 35.36% で達成されました。

原文 (English)

HiLo-Token: Input-Adaptive High-Low Frequency Token Compression for Efficient Image Editing

Creative image editing tools, such as Photoshop's Remove or Generative Fill buttons, are central to everyday customer use and account for a major share of traffic in Photoshop and Lightroom. However, current generative AI models face significant latency challenges, which become even more pronounced when transitioning from convolution-based U-Nets to Diffusion Transformers (DiTs). In our evaluation on hundreds of representative image editing samples spanning a wide range of mask ratios, the DiT module alone accounts for an average of 73% of the total model latency, even after being distilled from 50 timesteps down to 8 timesteps. To tackle this challenge, we propose $\textbf{HiLo-Token}$, an input-adaptive token compression framework that allocates more token budget to high-frequency, rich-context regions while assigning fewer tokens to low-frequency areas. Specifically, for the editing region specified by the user mask, we retain all tokens within a dilated mask to preserve strong locality and contextual relevance. Outside the editing region, we introduce a simple yet effective high-frequency token selection strategy based on spatial frequency to capture important local details, while using tokens from a 16x downsampled image to represent low-frequency components and preserve the blurry but global structure. Extensive experiments on production-level evaluation data validate the effectiveness of the proposed method, achieving 3.13x, 2.59x, and 1.67x DiT speedups on A100-80GB for image editing tasks across small, medium, and large mask ratio categories with average ratios of 6.38%, 15.92%, and 35.36%, respectively, without any regression in generation quality.

13:00 JSTLLM/生成AIエージェント

SANA: QA エージェントにとって、大規模なデータ レイクに関して何が重要ですか?

データ レイク上の探索的質問応答 (EQA) では、LLM エージェントが関連ソースを発見し、取得したデータを分析し、中間結果に基づいてアクションを調整する必要があります。エンドツーエンドの精度だけでは、検索、計画、データ分析、またはエージェントのアクション ポリシー (次に何をするか、いつ回答を送信するかについての決定) における失敗を区別することはできません。我々は、EQA タスクをゴールド ソース シーケンス、サニタイズされたサブ質問、実行記録を含むランタイム プロファイルに変換する診断アブレーション フレームワークである SANA (Search Agent Navigation Ablation Framework) を紹介します。 SANA はこれらのプロファイルを使用して、理想的な検索、計画、およびデータ分析ツールを構築し、各コンポーネントのアブレーションを可能にします。残されたギャップは、政策の失敗の診断証拠となります。再利用可能な評価フレームワークとして SANA を説明するために、最近の 2 つの EQA ベンチマーク、LakeQA と KramaBench を採用し、固定のプロンプト、予算、データ レイク、ランタイムの下で軽量および中規模のエージェントを評価しました。どちらのベンチマークでも、データ分析が一貫してボトルネックになっていますが、計画はそれほどボトルネックではありません。 LakeQA の大規模なデータレイク設定では検索が大きな制限になりますが、小規模な KramaBench ではそれほど制限はありません。したがって、SANA は、エンドツーエンドのタスク精度を分解して、データレイク エージェントがどこで失敗するかを診断し、検索、計画、データ分析、エージェント設計の進捗状況を体系的に比較できるようにします。

原文 (English)

SANA: What Matters for QA Agents over Massive Data Lakes?

Exploratory question answering (EQA) over data lakes requires an LLM agent to discover relevant sources, analyze retrieved data, and adapt its actions based on intermediate results. End-to-end accuracy alone cannot distinguish failures in search, planning, data analysis, or the agent's Action Policy: its decisions about what to do next and when to submit an answer. We present SANA (Search Agent Navigation Ablation framework), a diagnostic ablation framework that transforms EQA tasks into runtime profiles containing gold source sequence, sanitized subquestions, and execution records. SANA uses these profiles to construct idealized search, planning, and data-analysis tools, allowing each component to be ablated; the residual gap is diagnostic evidence for policy failures. To illustrate SANA as a reusable evaluation framework, we adapted two recent EQA benchmarks, LakeQA and KramaBench, and evaluated lightweight and mid-sized agents under fixed prompts, budgets, data lakes, and runtimes. Across both benchmarks, data analysis is a consistent bottleneck while planning is less so. Search is a major limitation in LakeQA's large data-lake setting, but less so for the smaller-scale KramaBench. SANA thus deconstructs end-to-end task accuracies into a diagnosis of where data-lake agents fail, and allows for systematic comparisons of progress in search, planning, data analysis, and agent design.

13:00 JST画像/動画生成

GMN4AD: 多中心構造磁気共鳴イメージングを使用したテスト時間領域適応によるアルツハイマー病診断のためのグラフ マッチング ネットワーク

アルツハイマー病 (AD) は、何百万人もの高齢者が罹患している進行性の神経変性疾患であり、今後数年間で有病率が大幅に上昇すると予想されています。タイムリーな介入には、特に軽度認知障害 (MCI) 段階での早期診断が重要です。構造磁気共鳴画像法 (sMRI) は、アルツハイマー病関連の脳変化を検出するための重要なモダリティとして浮上していますが、従来のグラフベースのアプローチはモダリティや部位間の不均一性に問題があり、診断性能が制限されることがよくあります。この論文では、神経画像データから得られた異種脳グラフ間の相互作用をモデル化するように設計された、アルツハイマー病診断のためのグラフ マッチング ネットワーク (GMN4AD) を提案します。各脳グラフを個別に処理する従来の方法とは異なり、GMN4AD はグラフ マッチングを活用してグラフ間の関係を把握し、診断の精度を高めます。さらに、推論中のドメインのシフトを軽減するために対照学習を組み合わせたテスト時のドメイン適応戦略を導入します。 3 つの公開 AD データセットに対する広範な実験により、GMN4AD が最先端の方法と比較して優れたパフォーマンスを達成し、AD 診断のための堅牢で一般化可能なソリューションを提供することが実証されました。

原文 (English)

GMN4AD: Graph Matching Network for Alzheimer's Disease Diagnosis with Test-Time Domain Adaptation using Multi-centered Structure Magnetic Resonance Imaging

Alzheimer's Disease (AD) is a progressive neurodegenerative disorder that affects millions of older adults, with prevalence expected to rise significantly in the coming years. Early diagnosis, particularly during the mild cognitive impairment (MCI) stage, is critical for timely intervention. Structural Magnetic Resonance Imaging (sMRI) has emerged as a key modality for detecting AD-related brain changes, but traditional graph-based approaches often struggle with modality and inter-site heterogeneity, limiting diagnostic performance. In this paper, we propose Graph Matching Network for Alzheimer's Disease Diagnosis (GMN4AD), designed to model interactions between heterogeneous brain graphs derived from neuroimaging data. Unlike conventional methods that treat each brain graph independently, GMN4AD leverages graph matching to capture cross-graph relationships, enhancing diagnostic precision. Furthermore, we introduce a test-time domain adaptation strategy that combines contrastive learning to mitigate domain shifts during inference. Extensive experiments on three public AD datasets demonstrate that GMN4AD achieves superior performance compared to state-of-the-art methods, offering a robust and generalizable solution for AD diagnosis.

13:00 JST研究/論文

人工知能支援の沈黙のコスト: 自律性の放棄、回復メカニズム、および人間の主体性の回復の理論

人工知能を人間の意思決定環境に統合すると、これまで理論化されていなかったコストが発生します。それは、情報へのアクセスと計算支援と引き換えに、人間の自律性が段階的に放棄されることです。この論文は、人間のアイデンティティと自律性のギャップ (HIAG) フレームワークに基づいて、認知帯域幅の枯渇によって引き起こされる測定可能な累積的なプロセスとしての自律性の放棄の理論モデルを前進させます。このモデルは、3 つの相互作用メカニズムを提案しています。AI 支援のサイレント コストでは、自律性が段階的に、意識されることなく移行されます。放棄の閾値。これを超えると自律機能を取り戻すことが認知的および心理的に困難になります。そして回復メカニズムは、人間による意図的な制御の再引き受けに伴う設計上の義務と倫理的責任を確立します。この論文は、人間が意思決定ループに再び入ることは受動的オプションではなく、意図的な帯域幅の回復を必要とする能動的認知イベントであると主張しています。 AI システムの設計には、責任を適切に分散しながら人間の主体性を維持する、構造化された再突入経路 (ここでは回復メカニズムと呼ぶ) を組み込む必要があります。このモデルはさらに、AI 支援への機能的依存が欠点としてではなく選好として経験され、自律性の回復が設計の問題から文化的および政治的な問題に変化する、ここでは選好逆転と呼ばれる終末状態を予測します。 AI システム設計、ガバナンス フレームワーク、ヒューマン ファクターの研究への影響が描かれています。

原文 (English)

The Silent Cost of Artificial Intelligence Assistance: A Theory of Autonomy Surrender, the Recovery Mechanism, and the Restoration of Human Agency

The integration of artificial intelligence into human decision-making environments has introduced a previously undertheorized cost: the gradual surrender of human autonomy in exchange for access to information and computational assistance. Building on the Human Identity and Autonomy Gap (HIAG) framework, this paper advances a theoretical model of autonomy surrender as a measurable, cumulative process driven by cognitive bandwidth depletion. The model proposes three interacting mechanisms: the silent cost of AI assistance, in which autonomy is transferred incrementally and without awareness; the surrender threshold, beyond which reclaiming autonomous function becomes cognitively and psychologically difficult; and the recovery mechanism, which establishes the design obligation and the ethical responsibility accompanying deliberate human re-assumption of control. The paper argues that human re-entry into the decision loop is not a passive option but an active cognitive event requiring intentional bandwidth restoration. The design of AI systems must incorporate structured re-entry pathways, here termed recovery mechanisms, that preserve human agency while appropriately distributing responsibility. The model further predicts a terminal state, here termed preference inversion, in which functional dependence on AI assistance is experienced not as a deficit but as a preference, transforming the restoration of autonomy from a design problem into a cultural and political one. Implications are drawn for AI system design, governance frameworks, and human factors research.

13:00 JSTLLM/生成AI研究/論文OpenAILlama

STREAM: デュアルチャネル HPC トークン ストリーミングを備えた多層 LLM 推論ミドルウェア

大規模な言語モデルを扱う研究者や実践者は、断片化された状況に直面しています。ローカル モデルは無料でプライベートですが、ハードウェアによってモデル サイズと研究者が使用できるコンテキスト ウィンドウが制限されます。機関の HPC センターは、限界コストなしで強力な GPU リソースを提供し、データを機関の境界内に保ちますが、ファイアウォールの内側で動作し、対話型の使用ではなくバッチ ジョブ向けに設計されています。商用クラウド API はオンデマンドでフロンティア モデルの品質を提供しますが、機密の研究データには不適切な多大なコストとデータ保持ポリシーが課せられます。 3 つすべてを統合する既存のシステムはありません。 STREAM (Smart Tiered Routing Engine for AI Models) は、次の 4 つの貢献によってこのギャップに対処します。(1) ローカル、HPC、およびクラウド推論とローカル LLM ベースの複雑さ判定を組み合わせた 3 層ルーティング アーキテクチャ。 (2) Globus Compute コントロール プレーン (認証およびジョブ ディスパッチ) を WebSocket リレー データ プレーン (トークン配信) から分離するデュアル チャネル HPC ストリーミング アーキテクチャにより、エンドツーエンドの AES-256-GCM 暗号化により、VPN やファイアウォール ルールを変更することなく、組織のファイアウォールを通過する 1 秒未満の TTFT (中央値 0.54 秒、バッチ モードの 11.40 秒の 21.1 倍) が可能になります。リレーオペレーターはトークンペイロードを読み取ることができません。 (3) 階層を意識したコンテキスト要約により、長い会話によって単純なクエリが高価な階層に強制されるのを防ぎます。 (4) HPC 推論を、HPC の専門知識を持たない標準クライアントから呼び出し可能な OpenAI 互換エンドポイントとして公開する HPC-as-API プロキシ モード。これは、貢献 (2) の 1 秒未満の TTFT によってのみ実用化された展開パターンです。 Llama 3.2 3B は、10 のドメインにわたる 1,200 クエリのベンチマークで 85.1% の無料利用枠保持率を達成しました。 TTFT 測定値: ローカル 0.26 秒、HPC (リレー) 0.54 秒、クラウド 1.68 秒。

原文 (English)

STREAM: Multi-Tier LLM Inference Middleware with Dual-Channel HPC Token Streaming

Researchers and practitioners working with large language models face a fragmented landscape: local models are free and private but hardware limits the model size and context windows a researcher can use; institutional HPC centers offer powerful GPU resources at no marginal cost and keep data within institutional boundaries, but operate behind firewalls and are designed for batch jobs rather than interactive use; commercial cloud APIs provide frontier-model quality on demand but impose significant cost and data retention policies unsuitable for sensitive research data. No existing system unifies all three. STREAM (Smart Tiered Routing Engine for AI Models) addresses this gap with four contributions: (1) a three-tier routing architecture combining local, HPC, and cloud inference with a local LLM-based complexity judge; (2) a dual-channel HPC streaming architecture that separates the Globus Compute control plane (authentication and job dispatch) from a WebSocket relay data plane (token delivery), enabling sub-second TTFT (0.54 s median, 21.1x over batch mode's 11.40 s) through institutional firewalls without VPN or firewall rule changes, with end-to-end AES-256-GCM encryption ensuring the relay operator cannot read token payloads; (3) tier-aware context summarization that prevents long conversations from forcing simple queries onto expensive tiers; and (4) an HPC-as-API proxy mode that exposes HPC inference as an OpenAI-compatible endpoint callable from any standard client with no HPC expertise, a deployment pattern made practical only by the sub-second TTFT of contribution (2). Llama 3.2 3B achieves 85.1% free-tier retention on a 1,200-query benchmark spanning ten domains. Measured TTFT: 0.26 s local, 0.54 s HPC (relay), 1.68 s cloud.

13:00 JST研究/論文

マスク、サンプル、改訂: ガイド付き離散フロー マッチング テキスト読み上げのための改訂可能な CTMC 推論スタック

最近のアライメントフリーの非自己回帰 (NAR) テキスト読み上げ (TTS) モデルは、明示的な継続時間予測子と外部アライナーをバイパスして、条件付き埋め込みタスクとして合成を定式化します。音声がニューラル コーデック トークンで表現される場合、充填問題は離散的になるため、離散生成用の連続時間マルコフ連鎖 (CTMC) フレームワークである離散フロー マッチング (DFM) が自然に適合します。ただし、安定した低ステップの条件付き埋め込みのための推論時間制御はまだ研究されていません。私たちは、アライメントフリーの DFM-TTS 用の、Mask、Sample、Revise、推論時 CTMC スタックを提案します。このスタックは、テキスト条件付けを強化する予測子なしのガイダンス、音響プロンプトと確率パスを調整するプロンプト一致条件結合、および初期のマスク解除決定を修正できるようにトークンからマスクへの移行を導入するスケジュールに制約のある再マスク機構である SC-ReMask を組み合わせています。これらのコンポーネントは事後の微調整を必要とせず、単一のタウリーピング サンプラーで動作します。制御されたアブレーションは、このスタックが低 NFE 指示設定での明瞭性と堅牢性を向上させ、実質的に多くのステップを備えたガイドなしおよびガイドのみのサンプラーを上回っていることを示しています。

原文 (English)

Mask, Sample, Revise: A Revisable CTMC Inference Stack for Guided Discrete Flow Matching Text-to-Speech

Recent alignment-free non-autoregressive (NAR) text-to-speech (TTS) models formulate synthesis as a conditional infilling task, bypassing explicit duration predictors and external aligners. When speech is represented with neural codec tokens, the infilling problem becomes discrete, making Discrete Flow Matching (DFM), a Continuous-Time Markov Chain (CTMC) framework for discrete generation, a natural fit. However, inference-time control for stable low-step conditional infilling remains underexplored. We propose Mask, Sample, Revise, an inference-time CTMC stack for alignment-free DFM-TTS. The stack combines predictor-free guidance to strengthen text conditioning, prompt-matched conditional coupling to align the probability path with the acoustic prompt, and SC-ReMask, a schedule-constrained remasking mechanism that introduces token-to-mask transitions so early de-masking decisions can be revised. These components require no post-hoc fine-tuning and operate in a single tau-leaping sampler. Controlled ablations show that this stack improves intelligibility and robustness in the low-NFE prompted setting, outperforming unguided and guidance-only samplers with substantially more steps.

13:00 JSTLLM/生成AIエージェント研究/論文

目に見えない部分: DECOMPBENCH による分解攻撃に対するエージェントの安全性のベンチマーク

LLM ベースのエージェントはますます有能になり、広く導入されるようになり、現実世界における敵対的な悪用のインセンティブが増大しています。主要な新たな脅威は分解攻撃 \cite{glukhov2024breach, jones2024adversaries} です。この攻撃では、有害なタスクがより単純で無害なサブタスクに分割され、個別に実行されると安全メカニズムを回避しますが、累積的に悪意を満たします。最近のベンチマークは、マルチターンおよびマルチツール使用設定におけるエージェントの安全性を評価していますが、この形式の分解悪用を明示的に捉えておらず、現実的な敵対的な実行フローを表していない可能性があります。この目的を達成するために、分解攻撃下でのエージェントの安全性を評価するために特別に設計されたベンチマークである DeCompBench を導入します。 DeCompBench は、グラフィカル フレームワークを使用した設計による分解の原則に基づいて作成されており、現実的なワークフローで、有害なタスクを個別に無害で実行可能なサブタスクに分解できます。カスタム デコンポーザーを使用した実験では、最先端のエージェントはモノリシックで有害なタスクでは高い拒否率を示しますが、分解されたバリアントでは拒否率が大幅に低く、多くの場合不注意で敵対的な目的を達成することが示されています。これらの発見は、分解攻撃に対する安全性評価とそれに対応する防御の必要性を強調しています。私たちのデータセットは公開されており、https://huggingface.co/datasets/decompositionbench/DeCompBench で見つけることができます。

原文 (English)

Hidden in Plain Sight: Benchmarking Agent Safety Against Decomposition Attacks with DECOMPBENCH

LLM-based Agents are becoming increasingly capable and widely deployed, creating growing incentives for adversarial misuse in the real-world. A key emerging threat is Decomposition Attacks \cite{glukhov2024breach, jones2024adversaries} in which a harmful task is broken into simpler, benign subtasks that evade safety mechanisms when executed separately but cumulatively fulfill the malicious intent. Although recent benchmarks assess agent safety in multi-turn and multi-tool-use settings, they do not explicitly capture this form of decompositional misuse and may not represent realistic adversarial execution flows. To this end, we introduce DeCompBench, a benchmark designed specifically to evaluate agentic safety under decomposition attacks. DeCompBench is created with a decomposition-by-design principle using a graphical framework and enables harmful task decomposition into individually benign and executable subtasks with realistic workflows. Our experiments using a custom decomposer show that state-of-the-art agents exhibit high refusal rates on monolithic harmful tasks, but significantly lower refusal rates on their decomposed variants, while often inadvertently fulfilling the adversarial objectives. These findings underscore the need for safety evaluations against decomposition attacks and corresponding defenses. Our dataset is publicly available and can be found at https://huggingface.co/datasets/decompositionbench/DeCompBench.

13:00 JSTLLM/生成AIエージェント

エージェントティックブラウザの同一生成元ポリシー

エージェントティック ブラウザは自律型 AI エージェントを Web ブラウザに統合し、ユーザーが自然言語の指示を通じて Web タスクを実行できるようにします。同一オリジン ポリシー (SOP) は、スクリプトによって引き起こされる無許可の自動クロスオリジン データ フローを防止する基本的なブラウザ セキュリティ メカニズムです。ただし、SOP がエージェントブラウザでも有効であるかどうかは未解決の問題であり、体系的に研究されていません。この取り組みでは、このギャップを埋めます。まず、エージェント ブラウザ自体がクロスオリジン データ フローの自動チャネルとして機能し、SOP 違反につながる可能性があることを観察しました。この現象を調査するために、エージェント ブラウザーでの SOP 違反を評価するためのベンチマークである SOPBench を構築します。私たちの評価によると、既存のエージェントブラウザは、無害な設定でも攻撃下でも頻繁に SOP に違反しています。この問題に対処するために、エージェント ブラウザに合わせた SOP 強制メカニズムである SOPGuard を提案します。 SOPGuard は、オープンソースのエージェント ブラウザーである BrowserOS に実装されています。広範な評価により、SOPGuard は実用性を維持し、実行時のオーバーヘッドがわずかしか発生せずに、SOP を効果的に適用できることが実証されています。コードとデータは https://github.com/wxl-lxw/BrowserOS-SOPGuard で入手できます。

原文 (English)

Same-Origin Policy for Agentic Browsers

Agentic browsers integrate autonomous AI agents into web browsers, enabling users to accomplish web tasks through natural-language instructions. The same-origin policy (SOP) is a fundamental browser security mechanism that prevents unauthorized automated cross-origin data flows induced by scripts. However, whether SOP remains effective in agentic browsers is an open question that has not been systematically studied. In this work, we bridge this gap. We first observe that an agentic browser can itself serve as an automated channel for cross-origin data flows, potentially leading to SOP violations. To investigate this phenomenon, we construct SOPBench, a benchmark for evaluating SOP violations in agentic browsers. Our evaluation shows that existing agentic browsers frequently violate SOP, both in benign settings and under attacks. To address this problem, we propose SOPGuard, an SOP enforcement mechanism tailored to agentic browsers. We implement SOPGuard in BrowserOS, an open-source agentic browser. Extensive evaluations demonstrate that SOPGuard effectively enforces SOP while preserving utility and incurring only a small runtime overhead. Our code and data are available at https://github.com/wxl-lxw/BrowserOS-SOPGuard.

13:00 JSTLLM/生成AI

ナレッジ グラフによる長いコンテキスト モデリングのためのメモリ拡張検索の強化

ロングコンテキスト言語モデリングでは、コンテキスト ウィンドウを拡張するだけでなく、エンティティの状態と数千のトークンにわたる関係の一貫した理解を維持する必要があります。これは、セマンティックな類似性だけでは対処できない課題です。 KGERMAR は、推論中に入力テキストから動的なコンテキスト固有のナレッジ グラフを構築することでこの問題に対処し、意味論的な類似性と明示的なエンティティ関係の両方を活用するドメイン適応型検索を可能にします。このフレームワークは、リアルタイムのエンティティと関係の抽出を実行してコンテキスト ナレッジ グラフを構築し、マルチコンポーネント メモリ アーキテクチャを通じてグラフ構造の埋め込みとテキスト セマンティクスを統合します。 3 つのメモリ バンク (コンテキスト、セマンティック、構造) は、学習された重みを介して融合された検索信号によって維持され、表面レベルのセマンティクスとより深い関係パターンの両方をキャプチャします。 SlimPajama (84.7K のトレーニング サンプル)、WikiText-103 (4,358 のサンプル)、PG-19 (100 のサンプル)、および Proof-pile (46.3K のサンプル) で評価したところ、KGERMAR は、1K から 32K トークンまでのコンテキスト長全体でメモリ拡張ベースラインと比較して、パープレキシティが最大 8.5\% 低下し、メモリ効率が 2 ~ 2.5 倍向上しました。 5 つの NLU タスクにわたって優れたコンテキスト内学習パフォーマンスを実現します。動的なナレッジ グラフ構築アプローチは、固定された知識ベースに依存するのではなく、入力コンテキストに適応するドメイン固有の知識表現を可能にすることで、メモリ拡張言語モデリングを進歩させます。

原文 (English)

Knowledge Graph Enhanced Memory-Augmented Retrieval for Long Context Modeling

Long-context language modeling requires not only extending context windows but maintaining coherent understanding of entity states and relationships across thousands of tokens -- a challenge that semantic similarity alone cannot address. KGERMAR addresses this by constructing dynamic, context-specific knowledge graphs from input text during inference, enabling domain-adaptive retrieval that leverages both semantic similarity and explicit entity relationships. The framework performs real-time entity and relation extraction to build contextual knowledge graphs, then integrates graph-structural embeddings with textual semantics through a multi-component memory architecture. Three memory banks -- contextual, semantic, and structural -- are maintained with retrieval signals fused via learned weights to capture both surface-level semantics and deeper relational patterns. Evaluated on SlimPajama (84.7K training examples), WikiText-103 (4,358 examples), PG-19 (100 examples), and Proof-pile (46.3K examples), KGERMAR achieves up to 8.5\% lower perplexity and 2--2.5x better memory efficiency than memory-augmented baselines across context lengths from 1K to 32K tokens, with superior in-context learning performance across five NLU tasks. The dynamic knowledge graph construction approach advances memory-augmented language modeling by enabling domain-specific knowledge representation that adapts to input contexts rather than relying on fixed knowledge bases.

13:00 JST研究/論文

継続的学習における壊滅的な忘却のレンズを通してバックドアの敵対的アンラーニングを再考する

既存の研究によると、現在のバックドア防御の堅牢性は限られており、特定の種類の攻撃に対しては失敗することが多いことがわかっています。さらに懸念されるのは、一般的な安全チューニング戦略は、バックドア効果を完全に排除するには至っておらず、表面的な安全保護のみを提供する傾向があるということです。この研究では、継続的な学習の観点から、バックドア学習とアンラーニングの新しい定式化を、連続した 3 段階のプロセスとして提示します。この枠組みの中で、完全なバックドア学習を正式に定義し、壊滅的な忘却のメカニズムに基づいて、それを達成するために必要な条件をさらに導き出します。これらの洞察に基づいて、ブラインド反転問題としてアンラーニング条件を満たす敵対的例の生成を定式化するブラインド反転バックドア敵対的アンラーニング (BI-BAU) を提案します。この問題は、敵対的トレーニングの 2 レベルの最適化プロセスを期待値最大化 (EM) アルゴリズム フレームワークに統合して、事後最大 (MAP) 目標を最適化することで解決します。さらに、BI-BAU は、未知のターゲット クラスを伴うターゲットを絞らない敵対的シナリオや、マルチモーダル対比学習タスクにも拡張されており、事前トレーニングされたモデルが侵害される可能性がある現実世界の展開シナリオへの適用性が強化されています。広範な実験により、私たちの手法が広範なバックドア攻撃にわたって一般的な適用性を示し、バックドア モデルからバックドアの影響を効果的かつ徹底的に排除できることが実証されました。

原文 (English)

Rethinking Backdoor Adversarial Unlearning through the Lens of Catastrophic Forgetting in Continual Learning

Existing studies reveal that current backdoor defenses exhibit limited robustness and often fail against specific types of attacks. More concerningly, prevailing safety tuning strategies tend to provide only superficial safety protection, as they fall short of completely eliminating the backdoor effects. In this work, we present a novel formulation of backdoor learning and unlearning as a sequential, three-stage process from a continual learning perspective. Within this framework, we formally define complete backdoor unlearning and further derive the necessary conditions for achieving it based on the mechanism of catastrophic forgetting. Guided by these insights, we propose Blind Inversion-Backdoor Adversarial Unlearning (BI-BAU), which formulates the generation of adversarial examples satisfying the unlearning conditions as a blind inversion problem. We solve this by integrating the bi-level optimization process of adversarial training into an Expectation-Maximization (EM) algorithm framework to optimize the maximum a posteriori (MAP) objective. Furthermore, BI-BAU is extended to untargeted adversarial scenarios with unknown target classes, as well as to multi-modal contrastive learning tasks, enhancing its applicability to real-world deployment scenarios where pre-trained models may be compromised. Extensive experiments demonstrate that our method exhibits general applicability across a wide spectrum of backdoor attacks and can effectively and thoroughly eliminate the backdoor effects from a backdoor model.

13:00 JST画像/動画生成

Clay-CNN ハイブリッド: 地すべり検出の補助コンテキストとして地理基礎モデルを活用

災害発生後の迅速な地すべりマッピングは災害対応に不可欠ですが、極端な階級不均衡のため自動化は依然として困難です。この研究では、地理基礎モデル (GFM) である Clay v1.5 が、Landslide4Sense (L4S) ベンチマークでのピクセル レベルの地滑りセグメンテーションを改善できるかどうかを評価します。L4S ベンチマークには、14 の Sentinel-2 および地形バンドと約 2% のポジティブ ピクセルを含む 3,799 個のトレーニング チップが含まれています。マルチスケール残差地形融合を備えたプライマリ エンコーダとしての Clay、ボトルネックで Clay セマンティック コンテキストで強化された U-Net バックボーン、および標準の U-Net ベースラインの 3 つの戦略を比較します。 2 段階の低ランク適応 (LoRA) を備えたハイブリッド U-Net + Clay モデルは、3 つのシードにわたって 64.5 +/- 1.8% という最高のテスト F1 を達成し、Clay のみのバックボーン (55.2 +/- 3.6%) と U-Net ベースライン (59.9%) を上回りました。スタンドアロン エンコーダとしての Clay は、マルチスケール スキップ接続がないため U-Net よりもパフォーマンスが劣っていましたが、その事前トレーニングされた表現により、補助コンテキストとして挿入された場合には一貫してパフォーマンスが向上しました。これらの発見は、GFM が空間的に詳細な畳み込みアーキテクチャを置き換えるのではなく、それを補完する場合に地滑り検出に最も効果的であることを示唆しています。

原文 (English)

Clay-CNN Hybrids: Leveraging Geo-Foundational Models as Auxiliary Context for Landslide Detection

Rapid post-event landslide mapping is essential for disaster response but remains difficult to automate due to extreme class imbalance. This study evaluates whether Clay v1.5, a Geo-Foundational Model (GFM), can improve pixel-level landslide segmentation on the Landslide4Sense (L4S) benchmark, which contains 3,799 training chips with 14 Sentinel-2 and terrain bands and approximately 2% positive pixels. We compare three strategies: Clay as the primary encoder with multi-scale residual terrain fusion, a U-Net backbone augmented with Clay semantic context at the bottleneck, and a standard U-Net baseline. The hybrid U-Net + Clay model with two-stage Low-Rank Adaptation (LoRA) achieved the best test F1 of 64.5 +/- 1.8% over three seeds, surpassing the Clay-only backbone (55.2 +/- 3.6%) and the U-Net baseline (59.9%). Clay as a standalone encoder underperformed the U-Net due to the absence of multi-scale skip connections, but its pretrained representations consistently improved performance when injected as auxiliary context. These findings suggest that GFMs are most effective for landslide detection when they complement spatially detailed convolutional architectures rather than replace them.

13:00 JST画像/動画生成

FEMOT: フレーム カメラとイベント カメラを使用したマルチオブジェクト トラッキング

従来の RGB カメラは、豊富な外観と意味情報をキャプチャできるため、マルチオブジェクト追跡に広く使用されてきました。ただし、モーション ブラー、低照度、露出オーバーなどの複雑な現実世界の課題の下では、パフォーマンスが低下することがよくあります。生物からインスピレーションを得たイベント カメラは、高い時間解像度と高いダイナミック レンジを提供し、極端なシナリオ下で補完的な手がかりを提供します。それにもかかわらず、RGB イベントのマルチオブジェクト追跡は、大規模で十分に注釈が付けられたデータセットが不足しているため、依然として研究が進んでいません。この問題に対処するために、私たちは、現実世界の多様なシナリオと 14 の困難な属性をカバーする大規模な RGB イベント マルチオブジェクト追跡データセットである FEMOT を提案します。 FEMOT は、RGB データとイベント データの両方、および高品質の注釈を備えており、RGB イベントのマルチオブジェクト追跡手法を体系的に評価するための信頼できるプラットフォームを提供します。 FEMOT に基づいて、10 を超える強力なトラッカーを再トレーニングおよび評価し、それによって将来の研究のための包括的なベンチマークを確立します。さらに、RGB とイベントの特徴を分離し、周波数領域で融合するマルチモーダル追跡フレームワークである FEMOTR を提案します。これにより、それらの相補的な特性を効果的に活用して、堅牢なオブジェクト位置特定と ID 関連付けを実現します。 FEMOT および DSEC-MOT データセットに関する広範な実験により、提案された方法の有効性が実証されています。ソース コードとベンチマーク データセットは https://github.com/Event-AHU/FEMOT でリリースされています。

原文 (English)

FEMOT: Multi-Object Tracking using Frame and Event Cameras

Conventional RGB cameras have been widely used in multi-object tracking due to their ability to capture rich appearance and semantic information. However, their performance is often degraded under complex real-world challenges, such as motion blur, low illumination, and overexposure. Bio-inspired event cameras offer high temporal resolution and high dynamic range, providing complementary cues under extreme scenarios. Nevertheless, RGB-event multi-object tracking remains underexplored due to the lack of large-scale and well-annotated datasets. To address this issue, we propose FEMOT, a large-scale RGB-event multi-object tracking dataset that covers diverse real-world scenarios and 14 challenging attributes. With both RGB and event data as well as high-quality annotations, FEMOT provides a reliable platform for systematically evaluating RGB-event multi-object tracking methods. Based on FEMOT, we retrain and evaluate over ten strong trackers, thereby establishing a comprehensive benchmark for future research. Furthermore, we propose FEMOTR, a multimodal tracking framework that decouples RGB and event features and fuses them in the frequency domain, thereby effectively exploiting their complementary characteristics for robust object localization and identity association. Extensive experiments on FEMOT and DSEC-MOT datasets demonstrate the effectiveness of the proposed method. The source code and benchmark dataset have been released on https://github.com/Event-AHU/FEMOT.

13:00 JST研究/論文

数値にはすでに独自の埋め込みが含まれています

Adelic の操作保存埋め込み (AOE) を導入します。これは、数値の実数値とそのモジュラー (p-進数) 署名の両方をキャプチャするトレーニング不要の表現です。この構造は加算および乗算の構造を設計により保存し、数値入力を「数学の言語で話す」埋め込みに変換します。タスク固有の再トレーニングに依存する従来のアプローチとは異なり、AOE はプラグアンドプレイであり、既存のアーキテクチャにシームレスに組み込まれます。代数的組み合わせ論ベンチマークでは、ウィービング パターン タスクにおける史上初の完璧な精度を含む一貫した向上を実現し、同時に AI における長年の「数の問題」を克服するための原則的な道筋を示唆しています。

原文 (English)

Numbers Already Carry Their Own Embeddings

We introduce Adelic operation-preserved embeddings (AOE), a training-free representation that captures both a number's real value and its modular (p-adic) signatures. This construction preserves additive and multiplicative structure by design, turning numerical input into embeddings that "speak in the language of mathematics." Unlike prior approaches that rely on task-specific retraining, AOE is plug-and-play and drops seamlessly into existing architectures. On algebraic combinatorics benchmarks, it delivers consistent gains including the first-ever perfect accuracy on the Weaving Pattern task-while suggesting a principled path forward for overcoming the long-standing "number problem" in AI.

13:00 JSTLLM/生成AIClaudeGPT / ChatGPTGemini

大規模言語モデルにおける連想干渉を評価するための 2 段階の統計フレームワーク

大規模言語モデル (LLM) は、人間の心理的パラダイムの適応を使用してバイアスについて評価されることが増えていますが、方法論的な制限、特に拒否行動とタスクのパフォーマンスの混同により、明確な解釈が妨げられています。ここでは、暗黙的関連付けテスト (IAT) を制御された強制選択フレームワークに適応させ、応答の遵守をタスク一貫性のある分類から分離する 2 段階のモデリング アプローチを導入します。 3 つの現代的な LLM (Claude Sonnet-4、Gemini 2.5 Pro、GPT-5) にわたって、一致する条件と比較して一致しない場合のタスクの一貫性の低下として定義される連想干渉を評価します。構造化応答フォーマットへの準拠性は均一に高かったものの、干渉の影響はモデルやドメインによって大きく異なりました。 Claude Sonnet-4 は、ジェンダー - キャリア領域で強い干渉 (DeltaP = 0.086、95% CrI [0.026, 0.173]) を示し、ジェンダー - 科学では小さいながらも信頼できる効果を示しました。 Gemini 2.5 Pro は干渉の減衰を示し、GPT-5 はドメイン全体で最小限の干渉を示したか、検出可能な干渉をまったく示しませんでした。これらの発見は、IAT スタイルの結合非対称性が LLM の普遍的な特性ではなく、モデル固有の特性に依存することを示しています。この研究は、コンプライアンスからの干渉を分離し、項目レベルの変動性をモデル化することにより、LLM の構造化された応答パターンを評価するための原則に基づいたフレームワークを提供します。この結果は、モデル固有の評価の重要性を強調し、最新のシステムでは連想干渉を大幅に軽減できることを示唆しています。

原文 (English)

A Two-Stage Statistical Framework for Evaluating Associative Interference in Large Language Models

Large language models (LLMs) are increasingly evaluated for bias using adaptations of human psychological paradigms, yet methodological limitations-particularly the conflation of refusal behavior with task performance-have hindered clear interpretation. Here, we adapt the Implicit Association Test (IAT) to a controlled, forced-choice framework and introduce a two-stage modeling approach that separates response compliance from task-consistent classification. Across three contemporary LLMs (Claude Sonnet-4, Gemini 2.5 Pro, and GPT-5), we evaluate associative interference, defined as reduced task-consistency in incongruent relative to congruent conditions. While compliance with the structured response format was uniformly high, interference effects varied substantially across models and domains. Claude Sonnet-4 exhibited strong interference in the Gender--Career domain (DeltaP = 0.086, 95% CrI [0.026, 0.173]) and smaller but credible effects in Gender--Science. Gemini 2.5 Pro showed attenuated interference, and GPT-5 exhibited minimal or no detectable interference across domains. These findings demonstrate that IAT-style associative asymmetries are not a universal property of LLMs, but instead depend on model-specific characteristics. By isolating interference from compliance and modeling item-level variability, this study provides a principled framework for evaluating structured response patterns in LLMs. The results highlight the importance of model-specific assessment and suggest that associative interference can be substantially mitigated in modern systems.

13:00 JST研究/論文

FAConformer: 聴覚注意デコード用の周波数認識畳み込みトランスフォーマー

聴覚注意デコーディング (AAD) は、複数話者の音響環境における神経反応から注目話者を推測することを目的としており、神経誘導聴覚システムにとって重要な問題です。最近の研究は有望な進歩を遂げていますが、既存の AAD モデルは依然として周波数領域脳波検査 (EEG) 情報を十分に活用していません。特に、ほとんどのアプローチは、手作りの特徴抽出または直接のクロスバンド特徴連結を通じてマルチバンド情報を導入しますが、これらは主に浅いレベルで周波数情報を活用し、バンド固有のパターンやクロスバンド相互作用を見落とす可能性があります。これらの制限に対処するために、この文書では、帯域固有のエンコーディングと適応型クロスバンド インタラクションを明示的に統合する、AAD 用の周波数認識 CNN-Transformer フレームワークである FAConformer を提案します。具体的には、FAConformer はまず EEG 信号を複数の周波数帯域に分解し、帯域固有のモデリングのために各帯域を独立した CNN-Transformer エンコーダーに割り当てます。結果として得られる帯域別の特徴は、慎重に設計された周波数認識アテンション (FAA) モジュールによって適応的に融合され、帯域別の特徴をトークンとして扱うことでクロスバンドの依存関係をモデル化します。さらに、共同トレーニング中に貢献度の低いブランチが最適化されないことを防ぐために、帯域別補助監視 (BAS) が導入されています。このように、FAConformer は、周波数領域情報をより効果的に活用する周波数を意識したモデリングを実行します。 3 つの決定ウィンドウ長を備えた 2 つの公開 AAD データセットに対する広範な実験により、FAConformer が 12 の競合ベースラインを常に上回り、現在の最先端モデルを 4.9% 上回っていることが実証されました。バンドの重要性、アブレーション、パラメータ感度をさらに分析することで、提案されたフレームワークの有効性、堅牢性、解釈可能性が検証されます。コードは https://github.com/wzwvv/FAConformer で入手できます。

原文 (English)

FAConformer: Frequency-Aware Convolutional Transformer for Auditory Attention Decoding

Auditory attention decoding (AAD) aims to infer the attended speaker from neural responses in multi-speaker acoustic environments and is a key problem for neuro-steered hearing systems. Although recent studies have achieved encouraging progress, existing AAD models still do not fully exploit frequency domain electroencephalography (EEG) information. In particular, most approaches introduce multi-band information through handcrafted feature extraction or direct cross-band feature concatenation, which mainly exploit frequency information at a shallow level and may overlook band-specific patterns and cross-band interactions. To address these limitations, this paper proposes FAConformer, a frequency-aware CNN-Transformer framework for AAD that explicitly integrates band-specific encoding and adaptive cross-band interaction. Specifically, FAConformer first decomposes EEG signals into multiple frequency bands and assigns each band to an independent CNN-Transformer encoder for band-specific modeling. The resulting band-wise features are then adaptively fused by a carefully designed frequency-aware attention (FAA) module that models cross-band dependencies by treating band-wise features as tokens. Further, band-wise auxiliary supervision (BAS) is introduced to prevent weakly contributing branches from being under-optimized during joint training. In this way, FAConformer performs frequency-aware modeling that more effectively exploits frequency domain information. Extensive experiments on two public AAD datasets with three decision-window lengths demonstrated that FAConformer consistently outperformed 12 competitive baselines, surpassing the current state-of-the-art model by 4.9%. Further analyses of band importance, ablation, and parameter sensitivity verify the effectiveness, robustness, and interpretability of the proposed framework. Code is available at https://github.com/wzwvv/FAConformer.

13:00 JST研究/論文

知識追跡における行き詰まった差別の回復: 経験ベイズ縮小による項目ごとのバイアス修正

デプロイされたナレッジ トレース モデルは通常、トレーニング後にフリーズされますが、バックボーン アーキテクチャにおけるアイテムごとの表現力の制限やアイテム プロパティのデプロイ後の変化により、体系的なアイテムごとのロジット バイアスが生じ、予測の品質が低下します。 Platt スケーリング、温度スケーリング、等張回帰などのグローバル ポストホック キャリブレーターは、確率推定値を向上させますが、AUC によって測定される識別能力は変化しません。この AUC の不変性は、単調スコアのみの変換の構造的な結果です。行き詰まった差別を回復するには、アイテムの同一性を条件付ける必要があります。我々は、ラプラス/IRLS を介してバイナリ観測値をガウス擬似観測値に変換し、カルマン平滑器を介して経験的ベイズ収縮を適用し、オフセットプラットリンクを適合させる SLC (状態空間ロジット補正) を提案します。状態空間定式化により、ベルヌーイ情報フロアを特徴付ける検出限界も得られ、現在のデータ密度では時間追跡が利点をもたらさない理由が説明されます。 4 つのデータセット、5 つのバックボーン、3 つのシードにわたって、SLC は 4 つのデータセットすべてで AUC を改善し、3 つのデータセットで NLL を改善し、疎なアイテムに集中する利点をもたらします。クロスドメイン制御は、展開されたバックボーンがエンティティレベルのバイアスを離れると、教育を超えて同じ現象が発生する可能性があることを示唆しています。

原文 (English)

Recovering Stranded Discrimination in Knowledge Tracing: Per-Item Bias Correction via Empirical-Bayes Shrinkage

Deployed knowledge-tracing models are typically frozen after training, yet systematic per-item logit bias arises, from limited per-item expressivity in backbone architectures and from post-deployment shifts in item properties, degrading prediction quality. Global post-hoc calibrators such as Platt scaling, temperature scaling, and isotonic regression improve probability estimates but leave discriminative ability, as measured by AUC, unchanged. This AUC invariance is a structural consequence of monotone score-only transforms; recovering the stranded discrimination requires conditioning on item identity. We propose SLC (State-space Logit Correction), which converts binary observations to Gaussian pseudo-observations via Laplace/IRLS, applies empirical-Bayes shrinkage through a Kalman smoother, and fits an offset-Platt link. The state-space formulation also yields a detectability bound that characterizes the Bernoulli information floor, explaining why temporal tracking provides no benefit at current data densities. Across four datasets, five backbones, and three seeds, SLC improves AUC on all four datasets and NLL on three, with the advantage concentrating on sparse items. Cross-domain controls suggest that the same phenomenon can arise beyond education when the deployed backbone leaves entity-level bias.

13:00 JST画像/動画生成

コンディショニングが重要: 拡散画像編集における反転と注意力の安定化

反転ベースの画像編集は、柔軟でトレーニング不要の制御を提供しますが、反転の精度と、編集の忠実性と背景の保存との間のトレードオフに依然として課題があります。最近の手法では反転定式化や注意の相互作用が改善されていますが、拡散ダイナミクスの形成や編集動作におけるテキスト条件付けの役割はまだ十分に解明されていません。我々は、テキスト条件付けの精度が拡散速度場の幾何学的形状を調整することによって反転の安定性に影響を与える一方、編集中の分岐間の注意の一貫性にも影響を与えることを経験的および理論的に示した。これらの効果は、背景の保存と意味の忠実性に直接影響します。この分析に基づいて、我々は、2 つの相補的なコンポーネントを備えたコンディショニング認識フレームワークである SimEdit を提案します。(a) 安定した反転と一貫した注意操作を促進するために、改良された意味論的精度と構造的調整を備えたコンディショニング信号を構築するコンディショニング洗練、および (b) 編集関連コンポーネントと構造保持コンポーネントを分離し、注意操作中に非対称に調整するトークン単位のクロスブランチ アテンション制御。 PIE-Bench での広範な実験により、SimEdit が以前のアテンション操作アプローチに比べて反転再構成の品質と編集パフォーマンスの両方を一貫して向上していることが実証されました。私たちのコードは https://github.com/zju-pi/SimEdit で入手できます。

原文 (English)

Conditioning Matters: Stabilizing Inversion and Attention in Diffusion Image Editing

Inversion-based image editing offers flexible and training-free control but still struggles with inversion accuracy and the trade-off between editing fidelity and background preservation. While recent methods improve inversion formulations or attention interactions, the role of textual conditioning in shaping diffusion dynamics and editing behavior remains underexplored. We show both empirically and theoretically that the precision of textual conditioning influences inversion stability by modulating the geometry of the diffusion velocity field, while also affecting the consistency of cross-branch attention during editing. These effects directly impact background preservation and semantic fidelity. Building on this analysis, we propose SimEdit, a conditioning-aware framework with two complementary components: (a) conditioning refinement, which constructs conditioning signals with improved semantic precision and structural alignment to facilitate stable inversion and consistent attention manipulation, and (b) token-wise cross-branch attention control, which separates edit-relevant and structure-preserving components and modulates them asymmetrically during attention manipulation. Extensive experiments on PIE-Bench demonstrate that SimEdit consistently improves both inversion reconstruction quality and editing performance over previous attention-manipulation approaches. Our code is available at https://github.com/zju-pi/SimEdit.

13:00 JSTLLM/生成AI

動的音源の時空間オーディオ言語モデリング

サウンド イベントは、意味論的なアイデンティティ、位置、軌跡を持つエンティティですが、現在のオーディオ言語モデルは通常、クリップをグローバル イベント コンテンツとして推論します。逆に、サウンド イベント ローカライゼーション モデルは、時間の経過とともにソースの方向を追跡しますが、言語推論の意味論的な範囲は限られています。このギャップに対処するために、静的音源と移動音源の一次アンビソニック (FOA) レンダリングから構築された時空間オーディオ QA データセットおよびベンチマークである ST-AudioQA を導入します。各シーンは、ソースのアイデンティティ、アクティビティ、方向、距離、およびモーションのメタデータを提供し、緻密な軌跡の監視と、何が鳴っているのか、どこにあるのか、どのように移動するのか、ソースがどのように関係しているのかについての質問を可能にします。さらに、ソース軌跡とともにイベントセマンティクスを学習する時間分解FOAオーディオエンコーダであるST-Audio Encoderと、エンコーダからのオーディオトークンを時空間オーディオQA用のLLMに接続するST-AudioLMを提案します。実験によれば、この表現により意味論的位置特定のトレードオフが改善され、静的な空間および位置特定指向のベースラインよりも強力な推論パフォーマンスが得られることが示されています。

原文 (English)

Spatio-Temporal Audio Language Modeling for Dynamic Sound Sources

Sound events are entities with semantic identities, locations, and trajectories, but current audio-language models usually reason about clips as global event content. Conversely, sound event localization models track source directions over time but offer limited semantic coverage for language reasoning. To address this gap, we introduce ST-AudioQA, a spatio-temporal audio QA dataset and benchmark built from first-order ambisonic (FOA) renderings of static and moving sound sources. Each scene provides source identity, activity, direction, distance, and motion metadata, enabling dense trajectory supervision and questions about what is sounding, where it is, how it moves, and how sources relate. We further propose ST-Audio Encoder, a time-resolved FOA audio encoder that learns event semantics together with source trajectories, and ST-AudioLM, which connects the audio tokens from the encoder to an LLM for spatio-temporal audio QA. Experiments show that this representation improves the semantic-localization tradeoff and yields stronger reasoning performance than static spatial and localization-oriented baselines.

13:00 JSTLLM/生成AI

大規模言語モデルベースの生成推奨の暗黙的推論

大規模言語モデル (LLM) は生成推奨 (GR) のバックボーンとして採用されることが増えており、事前トレーニングされた世界の知識へのアクセスが約束されています。しかし、この知識を GR に確実に活用する方法は、まだ十分に理解されていません。主な障害は、LLM ベースの GR が通常、アイテムをセマンティック ID (SID) で表現し、事前トレーニング中にこれらのトークンが LLM に認識されないため、LLM の自然言語推論インターフェイスを混乱させることです。既存のアプローチは、SID を接地して明示的な根拠を引き出す高価なマルチステージ パイプラインでこの問題に対処していますが、各ステージがいつ、なぜ必要なのかについての洞察は限られています。この研究では、LLM ベースの GR の明示的推論トレーニング パイプラインを体系的に分解し、3 つの重要な制限を明らかにしました。世界知識の言語化の弱体化、SID と自然言語トークン埋め込み空間間の不整合、理論的根拠の品質に対する敏感さであり、これらすべてが明示的推論のパフォーマンスに悪影響を及ぼします。これらの問題を回避するために、GR 向けに調整された軽量の暗黙的推論パラダイムである PauseRec を提案します。 PauseRec は非常に実用的で、コストのかかる推論トレース取得と推論調整トレーニングを回避し、多くの利点をもたらします。(1) 標準の明示的 CoT メソッドよりも最大 6.22% 優れたパフォーマンスを発揮し、(2) トレーニング コストを GPU 時間で最大 65% 削減し、(3) 推論を最大 71.3% 高速化します。これらの結果により、PauseRec は明示的な根拠生成に代わる軽量の代替手段として位置づけられ、より効果的かつ効率的な LLM ベースの GR が可能になります。

原文 (English)

Implicit Reasoning for Large Language Model-based Generative Recommendation

Large Language Models (LLMs) are increasingly adopted as backbones for Generative Recommendation (GR), promising access to pretrained world knowledge. Yet reliably invoking this knowledge for GR remains poorly understood. A key obstacle is that LLM-based GR typically represents items with Semantic IDs (SIDs), disrupting LLMs' natural-language reasoning interface because these tokens are unseen by the LLM during pretraining. Existing approaches address this with expensive multi-stage pipelines that ground SIDs and elicit explicit rationales, but offer limited insight into when and why each stage is necessary. In this work, we systematically decompose explicit reasoning training pipelines for LLM-based GR, revealing three key limitations: weakened world-knowledge verbalization, misalignment between SID and natural-language token embedding spaces, and sensitivity to rationale quality, all of which hurt explicit reasoning performance. To circumvent these issues, we propose PauseRec, a lightweight implicit reasoning paradigm tailored for GR. PauseRec is exceptionally practical, avoiding costly reasoning trace acquisition and reasoning alignment training, leading to a multitude of benefits: (1) it outperforms standard explicit CoT methods by up to 6.22%, (2) it reduces training cost by up to 65% GPU hours, and (3) it speeds up inference by up to 71.3%. These results position PauseRec as a lightweight alternative to explicit rationale generation, enabling more effective and efficient LLM-based GR.

13:00 JST研究/論文

高カバレッジの差別的倹約ルールセットの学習

IF-THEN ルール表現に基づく学習システムは解釈可能性を容易に提供するため、現代の AI 研究において重要な焦点となっています。このようなルールセットの主な目的は、高い識別力と解釈可能性の両方を達成することです。既存の最先端のアルゴリズムは暗黙的に予測精度を優先しますが、ルール セットの適用範囲や節約など、解釈可能性を確保する 1 つ以上の品質指標が不足していることがよくあります。このことを動機として、この論文は、分類問題に対して高精度で解釈可能なルールセットを作成することを目的とした CDPR の開発を提案します。私たちの知る限り、これはそのようなアプローチを確立する最初の試みです。この研究では、サブモジュラー最大化に根ざした 2 つのアルゴリズムを導入します。これらのアルゴリズムは、カバレッジに関する証明可能な保証を提供するだけでなく、識別的で節約的なルール セットも生成します。私たちのアプローチを通じて学習されたルールセットは、より高い精度と解釈可能性を実現し、次に優れたアルゴリズムと比較した場合、平均カバレッジ率が 2.5 倍以上向上することを経験的に示しています。

原文 (English)

Learning High Coverage Discriminative Parsimonious Rulesets

Learning systems based on IF-THEN rule representations readily offer interpretability, making them a crucial focus in contemporary AI research. A key objective for such rule sets is to achieve both high discriminative power and interpretability. While existing state-of-the-art algorithms implicitly prioritize predictive accuracy, they often fall short on one or more quality metrics that ensure interpretability, such as coverage and parsimony of rule sets. Motivated by this, this paper propose the development of CDPR, which aims to create highly accurate and interpretable rule sets for classification problems. To the best of our knowledge, this represents the first attempt to establish such an approach. In this study, we introduce two algorithms rooted in submodular maximization, which not only provide provable guarantees on coverage but also yield rule sets that are both discriminative and parsimonious. We empirically demonstrate that rule sets learned through our approaches achieve higher accuracy and interpretability and has more than a 2.5-fold improvement in average coverage rates when compared to the next best algorithm.

13:00 JSTハードウェア/半導体

逆最適輸送による出発地と目的地のフローから都市アクセスコストを学習する

都市は、学校、診療所、交通機関、補助金付きのサービス ポイントなど、官民混合の施設ネットワークを通じて基本的なサービスを提供しています。これらのシステムでは、プランナーは多くの場合、世帯がどこに行くのかを観察しますが、距離、価格、制度へのアクセスなどの要素をトレードオフする潜在費用関数は観察しません。私たちはフィリピンの学校選択を通じてこの都市問題を研究します。フィリピンでは、この国最大の国の教育補助金が、混雑した公立学校から参加する私立学校に学習者を振り向けることを目的としています。学校から学校への入学フローをエントロピー最適輸送計画として扱い、2 つの相補的な逆最適輸送モデルを使用して潜在的な選択コストを回収します。補助金期間を持つ解釈可能な距離帯域モデルと、微分可能なシンクホーン順方向パスを通じて訓練されたニューラル コスト モデルです。このフレームワークは、最も人口の多い地域で観測された 23{,}820 の流れにわたる 283{,}016 人の学習者の旅行に適用され、補助金に相当する距離 $\lambda^{(k)}$ を推定します。これは、補助金によって相殺される知覚旅行コストのキロメートルとして解釈されます。この事例は、行政の出発地と目的地のデータを、アクセシビリティを意識した補助金設計、施設の配置、都市サービスの割り当てのための解釈可能な計画指標にどのように変換できるかを示しています。

原文 (English)

Learning Urban Access Costs from Origin-Destination Flows via Inverse Optimal Transport

Cities deliver basic services through mixed public-private facility networks, including schools, clinics, transit providers, and subsidized service points. In these systems, planners often observe where households go, but not the latent cost function through which they trade off factors such as distance, price, and institutional access. We study this urban problem through school choice in the Philippines, where the country's largest national education subsidy is intended to redirect learners from congested public schools to participating private schools. Treating school-to-school enrollment flows as an entropic optimal transport plan, we recover latent choice costs using two complementary inverse optimal transport models: an interpretable distance-banded model with a subsidy term, and a neural cost model trained through a differentiable Sinkhorn forward pass. Applied to 283{,}016 learner trips across 23{,}820 observed flows in the most populated region, the framework estimates a subsidy-equivalent distance, $\lambda^{(k)}$, interpreted as the kilometers of perceived travel cost offset by the subsidy. The case demonstrates how administrative origin-destination data can be transformed into interpretable planning metrics for accessibility-aware subsidy design, facility siting, and urban service allocation.

13:00 JSTロボティクス

しわのない堅牢性: 認定された変形可能な操作のための並列シミュレーションと堅牢な MPC

変形物体を安全に操作するためのリアルタイム制御手法CORD-SLSをロープと布に焦点を当てて紹介します。その中核となるのは、接触スムージングを備えた GPU 並列微分可能シミュレーターで、断続的な接触を通じて効率的な勾配ベースの計画を可能にします。モデルおよびセンシングの不確実性の下での制約を確実に満たすために、このシミュレーターを使用して計画を立てる、リアルタイムの GPU 並列出力フィードバックのロバストなモデル予測制御 (MPC) アルゴリズムを開発します。さらに、シミュレータがニューラル操作ポリシーをトレーニングするためのモデルベースの RL を加速することを示します。現実世界の堅牢性を向上させるために、コンフォーマル予測を使用して MPC の視覚フィードバックと知覚誤差の境界を調整し、確率の高い安全な制御を可能にする到達可能なチューブを生成します。私たちは、障害物の回避、ルーティング、折り畳み、スムージングなど、シミュレーションとハードウェアでの高次元で接触の多いロープと布の操作タスクで CORD-SLS を評価します。 CORD-SLS は、設定全体にわたってミリ秒単位の速度で計画を立て、安全性、速度、タスクの成功においてベースラインを超えます。

原文 (English)

Robustness without Wrinkles: Parallel Simulation and Robust MPC for Certified Deformable Manipulation

We present CORD-SLS, a real-time control method for safe deformable object manipulation, with a focus on ropes and cloth. At its core is a GPU-parallel differentiable simulator with contact smoothing which enables efficient gradient-based planning through intermittent contact. To robustly satisfy constraints under model and sensing uncertainty, we develop a real-time, GPU-parallel output-feedback robust model predictive control (MPC) algorithm that plans with this simulator. We further show that the simulator accelerates model-based RL for training neural manipulation policies. To improve real-world robustness, we use conformal prediction to calibrate visual-feedback and perception-error bounds for MPC, producing reachable tubes that enable high-probability safe control. We evaluate CORD-SLS on high-dimensional, contact-rich rope and cloth manipulation tasks in simulation and hardware, including obstacle avoidance, routing, folding, and smoothing. Across settings, CORD-SLS achieves millisecond-speed planning, exceeding baselines in safety, speed, and task success.

13:00 JSTLLM/生成AIビジネス/資金調達

OdysSim: 人間の行動シミュレーションのための基礎モデルの構築

大規模な言語モデルは、インタラクティブな評価や社会シミュレーションのためのヒューマン シミュレーターとして導入されることが増えています。しかし、役に立つことを重視したトレーニング後のトレーニングは、彼らを同質で過度に好意的なアシスタント登録に引き寄せ、行動面での Sim2Real のギャップを生み出します。私たちは、行動基盤モデル、つまり人間の行動を大規模にシミュレートするために訓練されたモデルの最大のオープンで体系的な調査である OdysSim を紹介します。私たちは、62 のデータセットと 23 のベンチマーク タスクを 1 つのフレームワークの下に統合する 5 つの能力軸 (CONV、SS、COG、ROLE、EVAL) の分類である SOUL を提案します。具体的には、OdysSim コーパス (2,140 万のインタラクション、100 億トークン、バック生成されたソーシャル コンテキストで改良) をキュレートし、SOUL-Index ベンチマークを構築し、ミッドトレーニング、タスク固有の RL、エキスパートの蒸留を組み合わせたエンドツーエンドのトレーニング レシピを開発します。結果として得られたオープン 8B OSim モデルは、23 タスク中 8 タスクで 1 位または同率 1 位にランクされ、このカウントで個々のフロンティア モデルを上回り、会話タスクとソーシャル タスクで最も優れた効果を発揮しました。また、その出力は長さ、形式、単語の選択においてより人間らしくなり、$\tau$-bench でのゼロショットから配布外のユーザー シミュレーションに移行し、反応の調整において実際のユーザーとほぼ一致します (93.2 対 93.5)。さらに、LLM-as-judge RL が報酬ハッキング パターンを誘発し、検出器がトレーニング後のパターンを軽減できることを示します。まとめると、私たちの調査結果は、行動基盤モデルでは LLM トレーニング パラダイムを再考する必要があることを示唆しています。私たちは将来の研究をサポートするためにすべての成果物を公開します。

原文 (English)

OdysSim: Building Foundation Models for Human Behavior Simulation

Large language models are increasingly deployed as human simulators for interactive evaluation and social simulation. Yet helpfulness-driven post-training pulls them toward a homogeneous, overly agreeable assistant register, creating a behavioral Sim2Real gap. We present OdysSim, the largest open systematic investigation of behavioral foundation models, i.e., models trained to simulate human behavior at scale. We propose SOUL, a taxonomy of five capability axes (CONV, SS, COG, ROLE, EVAL) that unifies 62 datasets and 23 benchmark tasks under one framework. Specifically, we curate the OdysSim corpus (21.4M interactions, 10B tokens, retrofitted with back-generated social contexts), construct the SOUL-Index benchmark, and develop an end-to-end training recipe combining midtraining, task-specific RL, and expert distillation. The resulting open 8B OSim model ranks first or tied-first on 8 of 23 tasks, outperforming any individual frontier model by this count, with the strongest gains on conversational and social tasks. Its outputs are also more human-like in length, formatting, and word choice, and it transfers zero-shot to out-of-distribution user simulation on $\tau$-bench, nearly matching real users on reaction alignment (93.2 vs. 93.5). We further show that LLM-as-judge RL induces reward-hacking patterns, and that our detectors can mitigate them during post-training. Together, our findings suggest that behavioral foundation models require rethinking the LLM training paradigm. We release all artifacts to support future research.

13:00 JSTLLM/生成AI

MeEvo: Metacognitive Evolution Combined with Natural Evolution for Automatic Heuristic Design

Large Language Models (LLMs) have advanced Automatic Heuristic Design (AHD) by enabling heuristic generation through reasoning and code syn…

13:00 JSTLLM/生成AI

From Prompts to Responses: Dual-Sided Data Leakage and Defense in Split Large Language Models

Large language models (LLMs) are increasingly deployed in privacy-sensitive domains, where users must balance the risk of data exposure thr…

13:00 JSTロボティクス

Universal Manipulation Exoskeleton: Learning Compliant Whole-body Policies with Real-time Torque Feedback

For robots to work safely in household environments, they need to be compliant and react to torque and force feedback during contact. Howev…

13:00 JSTエージェントロボティクス

Selective Agentic Recovery for UAV Autonomy with a Persistent Mission Runtime

Agentic AI can support unmanned aerial vehicle (UAV) autonomy by providing high-level recovery reasoning when local waypoint- or setpoint-b…

13:00 JSTロボティクス

When and How Severely: Scenario-Specific Safety Envelopes for Driving VLAs

Safety certification of Vision-Language-Action (VLA) driving planners under ISO 21448 (SOTIF) rests on an Operational Design Domain (ODD) s…

13:00 JST研究/論文

ChronoID: Infusing Explicit Temporal Signals into Semantic IDs for Generative Recommendation

Semantic IDs are crucial in generative recommendation, but with a fundamental limitation: temporal information is not well incorporated int…

13:00 JSTエージェントロボティクス

Robust Fall Recovery for Armless Bipedal-Wheeled Robots Via Force-Guided Learning

Fall recovery is critical for autonomous legged locomotion. Existing methods have demonstrated that some legged robots, such as humanoids a…

13:00 JST研究/論文

DIFF-ERO: A Conformance-Aware Loss for Deep Learning in Process Mining

Deep learning has driven many recent advances in process analytics, especially for predictive and prescriptive monitoring. However, standar…

13:00 JST研究/論文

Hierarchical ODE: Learning Continuous-Time Physical Prototypes for Early Link Failure Detection

Time series prototype learning is fundamentally challenged by observational ambiguity. Discrete architectures fail to resolve this, as they…

13:00 JSTエージェント研究/論文GPT / ChatGPT

AgentCyberRange: Benchmarking Frontier AI Systems in Realistic Cyber Ranges

Frontier AI systems are increasingly capable of cybersecurity tasks, including codebase inspection, vulnerability detection, and exploitati…

13:00 JST画像/動画生成

Pix2Pix-Hybrid: Structure-Guided Conditional Synthesis of Hajj Crowd Images with Multi-Channel Conditioning and Weak Attribute Supervision

Developing accurate crowd-counting models for Hajj pilgrimage scenes remains challenging because domain-specific annotated images are scarc…

13:00 JST研究/論文

Thinking Outside the [Chat]Box: Bridging Computer Science and Industrial Design for Cognitive-Inclusive Generative AI

Current Generative AI (GenAI) interfaces remain largely constrained to chatbox interaction, which can impose high cognitive demands on user…

13:00 JST研究/論文

Transforming Shape Schemas with Composable Property-Graph Queries (Extended Version)

Property graphs may be constrained by schemas that inform both query engines and human users about the shape of valid data, enforcing a con…

13:00 JSTLLM/生成AI

Achieving Precise Text-To-Cypher Via Grounded Knowledge Graph Data Generation

Property Graphs are rapidly being adopted as database frameworks for representing heterogeneous data sources. To enable precise access to t…

13:00 JSTLLM/生成AIビジネス/資金調達研究/論文

I'm Sorry Driver, I'm Afraid I Can't Do That: Appraising the Safety of LLMs within Automotive Contexts

This paper appraises recent frameworks within AI development to integrate LLMs into control tasks in automotive contexts from the perspecti…

13:00 JST研究/論文

Squeeze-Release: Iterative Pruning with Exact Structural Minimization

Unstructured pruning produces sparse weight tensors, but the standard implementation keeps tensor shapes unchanged so the deployed model is…

13:00 JST研究/論文

Design Methodology and Performance Trade-offs Management for Distributed and Compound AI Systems

Artificial Intelligence (AI) systems must typically satisfy service-level objectives including accuracy, latency, and cost. The prevailing…

13:00 JST研究/論文

PLAIground: SLO-Driven Runtime Model Selection for Compound AI Systems in the Edge-Cloud-Space Continuum

Applications in the 3D Computing Continuum, which unifies edge, cloud, and space, require combining multiple AI tasks such as object detect…

13:00 JSTエージェント

No Accidental Software Agent First Canonical Code for Human Code Entropy Reduction and 30 to 500 times Lower Frontier Model Requirements

Frontier coding models may spend substantial capacity learning not only program behavior, but also accidental entropy in human repositories…

13:00 JSTロボティクス

Elastic Queries Reinforcement Learning: Self-Aware Policy Execution for VLA Models

Vision-language-action (VLA) models are powerful action generators for robot manipulation, but they are typically executed with fixed infer…

13:00 JST研究/論文

Discovery under Hypothesis Redundancy: A Geometric Theory of Discovery Bottlenecks

Scientific discovery saturates when new hypotheses cease to provide independent information, even if the nominal hypothesis space remains l…

13:00 JSTLLM/生成AI

Learning to Hear Hesitation: Continual Learning for Disfluency-Aware ASR

Despite advances in large-scale Automatic Speech Recognition (ASR), disfluent speech remains challenging, as state-of-the-art systems are o…

13:00 JSTロボティクス

Hy-Embodied-0.5-VLA: From Vision-Language-Action Models to a Real-World Robot Learning Stack

In this report, we present Hy-Embodied-0.5-VLA, abbreviated as HyVLA-0.5, an end-to-end system that spans the full robot learning stack: da…

13:00 JSTエージェントロボティクス

CADET: Physics-Grounded Causal Auditing and Training-Free Deconfounding of End-to-End Driving Planners

End-to-end (E2E) autonomous-driving planners trained by imitation are prone to statistical shortcuts: they associate scene elements that me…

13:00 JSTLLM/生成AIエージェントAnthropicClaudeOpenAI

tap: A File-Based Protocol for Heterogeneous LLM Agent Collaboration

Existing multi-agent software development systems have proposed many forms of agent collaboration, including role-based collaboration and a…

13:00 JSTLLM/生成AI研究/論文

MoDiCoL: A Modular Diagnostic Continual Learning Dataset for Robust Speech Recognition

Modern Automatic Speech Recognition (ASR) systems have made remarkable progress on standard benchmarks, yet performance gaps have emerged u…

13:00 JST研究/論文

The Perceived Fragility of Explanations in Audio Models: Manipulation of Attribution with Unchanged Predictions

This paper investigates the fragility of post-hoc explanation methods in audio deepfake detection. While previous work on explanation manip…

13:00 JST研究/論文

A Fixed-Point Neural Operator for Size- and Functional-Transferable Hamiltonian Prediction

Predicting the Kohn-Sham Hamiltonian with machine learning can accelerate density functional theory while retaining access to molecular orb…

13:00 JSTLLM/生成AI研究/論文

Fodor and Pylyshyn's Systematicity Challenge Still Stands

The recent successes of neural networks producing human-like language have caused significant stir in cognitive science, with many research…

13:00 JST研究/論文

Securing the Future of IoMT in the Post-Quantum Era: An Edge-Native Federated Learning Approach

Internet of Medical Things (IoMT) devices operate under strict resource constraints while handling highly sensitive health data, making sec…

13:00 JSTLLM/生成AIエージェントClaudeGPT / ChatGPTGeminiQwenDeepSeek

From Shield to Target: Denial-of-Service Attacks on LLM-Based Agent Guardrails

LLM-based guardrails have emerged as a highly effective defense against prompt injection and jailbreak attacks in autonomous agents. Howeve…

13:00 JSTエージェントロボティクス

TRACE: Trajectory-Routed Causal Memory for Delayed-Evidence Visuomotor Imitation

Robots under autonomous operation may require decisions based on evidence that is no longer visible. We study \emph{delayed-evidence} tasks…

13:00 JST画像/動画生成

Rethinking Global Average Pooling: Your Classifier Is Secretly a Multi-Instance Learner

Modern image classifiers widely adopt global average pooling (GAP) followed by a linear classification head. This linearity ensures that th…

13:00 JST研究/論文

Regional Climate Model Emulation with Diffusion Approaches: What is the Added Value of Generative Machine Learning?

Emulators provide a cost-effective alternative to regional climate models (RCMs) by capturing their dynamical downscaling function. They li…

13:00 JSTLLM/生成AIエージェント研究/論文

SIMMER: Benchmarking Latent Failures in LLM Executable Planning with a World Model

Large language models (LLMs) are increasingly deployed as planners for autonomous agents in household environments. While existing benchmar…

13:00 JSTLLM/生成AI

CARE: Controlling LLM-Generated Policies through Auditable Review of Evidence in Scientific Experimentation

Granting LLMs direct control over costly, irreversible scientific experiments leads to unsafe exploration and unstable performance, but dis…

13:00 JSTロボティクス

Sensitivity Shaping for Latent Modeling

Generative dynamics models enable planning in challenging robotic systems, but safe deployment requires reliably detecting policy-induced o…

13:00 JSTLLM/生成AIエージェント

When Errors Become Narratives: A Longitudinal Taxonomy of Silent Failures in a Production LLM Agent Runtime

LLM agent systems increasingly run as long-lived autonomous runtimes: scheduling jobs, calling tools, maintaining memory, and pushing resul…

13:00 JST研究/論文

AudioDER: A Deduplication-Enhanced Reasoning Dataset for Post-Training Large Audio-Language Models

Large Audio-Language Models (LALMs) have shown strong performance on a wide range of audio understanding tasks, yet they still struggle wit…

13:00 JSTエージェント

Regulating the Machine Contributor: Governance and Policy Alignment in Open Source

AI-assisted software development has moved from line-level autocomplete to agents that can plan changes, edit files, and submit pull reques…

13:00 JST研究/論文

A Comparative Study of Deep Learning Architectures for Multi-Horizon Behavioural Forecasting for Mobile Health

Wearable devices and smartphones generate rich behavioural time series that can support proactive health interventions, yet systematic comp…

13:00 JST研究/論文

Expert-Driven Survival Machines: Improving Stratification and Interpretability in Multiple Clinical Cohorts

Survival prediction plays a central role for healthcare providers and clinical researchers. Accurate risk stratification enables early inte…

13:00 JST研究/論文

Moonlight in Latent Space: Chirality and Structural Correspondence Between Beethoven's Op. 27 No. 2 and Machine Learning Mechanisms

We show that the three movements of Beethoven's "Moonlight Sonata" (Op. 27 No. 2) instantiate three distinct machine learning architectures…

13:00 JST研究/論文Qwen

When Good Verifiers Go Bad: Self-Improving VLMs Can Regress on New Tasks

Verifier-driven self-DPO is a common recipe for self-improving production visual-language models. In this setup, a frozen verifier scores c…

13:00 JST研究/論文

From Self-Supervised Speech Models to Mixture-of-Experts for Robust Anti-Spoofing

Recent advances in speech generation have significantly improved the naturalness of synthetic speech, making spoofing detection increasingl…

13:00 JST研究/論文

Listening with Attention: Entropy-Guided Explainability for Transformer-Based Audio Models

Transformer-based automatic speech recognition (ASR) models such as Whisper are highly accurate, but their predictions remain difficult to…

13:00 JST画像/動画生成エージェント

Giving AI a Headache: Acoustic Adversarial Attacks to Computer Vision Applications

Artificial Intelligence (AI) is increasingly used to automate a variety of real-world computer vision (CV) applications, such as autonomous…

13:00 JST画像/動画生成

CottonLeafVision: An Explainable and Robust Deep Learning Framework for Cotton Leaf Disease Classification

Globally, cotton is a highly economically beneficial crop, as the textile industry heavily depends on it. So, the precise identification an…

13:00 JSTLLM/生成AI

Flood and Harvest: The Provable Necessity of Trivia for Generating Valuable Mathematics via the Lens of Language Generation in the Limit

AI systems coupled to proof assistants now generate formal mathematics at scale, and the gap between what a checker can verify and what a m…

13:00 JSTエージェント

Learning Coordinated Preference for Multi-Objective Multi-Agent Reinforcement Learning

Cooperative multi-objective multi-agent reinforcement learning (MOMARL) models team decision making under multiple, potentially conflicting…

13:00 JSTLLM/生成AI画像/動画生成研究/論文Alibaba

ClinHallu: A Benchmark for Diagnosing Stage-Wise Hallucinations in Medical MLLM Reasoning

Building trustworthy medical multimodal large language models (MLLMs) is critical for reliable clinical decision support. Existing medical…

13:00 JST研究/論文

Learning optimal policies from event logs through reinforcement learning: a comparison of deep and MDP-based approaches

Prescriptive Process Monitoring is an emerging area within Process Mining that focuses on recommending actions to optimize business outcome…

13:00 JST研究/論文

ANSR-DT: A Neuro-Symbolic Framework for Adaptive and Explainable Digital Twins

Digital twins are increasingly used to monitor and optimize industrial systems, yet many existing frameworks remain difficult to interpret,…

13:00 JSTLLM/生成AIエージェント

LLM-Powered AI Agent Systems and Their Applications in Industry

The emergence of Large Language Models (LLMs) has reshaped agent systems. Unlike traditional rule-based agents with limited task scope, LLM…

13:00 JSTLLM/生成AI

Verbatim Chunks Beat Extracted Artifacts: A Controlled Ablation of Memory Representations for Long LLM Conversations

A growing class of conversational-memory systems compresses dialogue history into structured artifacts -- extracted facts, decisions, or ev…

13:00 JSTLLM/生成AIGemmaLlama

Token-Level LLM Collaboration via FusionRoute

Large language models (LLMs) exhibit strengths across diverse domains. However, achieving strong performance across these domains with a si…

13:00 JST研究/論文

Actionable Interpretability Must Be Defined in Terms of Symmetries

This paper argues that interpretability research in Artificial Intelligence (AI) is fundamentally ill-posed as existing definitions of inte…

13:00 JSTエージェント

Optimizing Agentic Reasoning with Retrieval via Synthetic Semantic Information Gain Reward

Agentic reasoning enables large reasoning models (LRMs) to dynamically acquire external knowledge, but yet optimizing the retrieval process…

13:00 JST研究/論文

FlexMS: A Unified Public Benchmark for Molecule Tandem Mass Spectrum Prediction

Tandem mass spectrometry (MS/MS) is central to small molecule identification, but current deep learning systems for spectrum prediction sti…

13:00 JST研究/論文

Generative AI for Managerial Decision-Making under Ambiguity and Sycophancy

Generative artificial intelligence (GenAI) is increasingly being integrated into complex business workflows, fundamentally shifting the bou…

13:00 JST研究/論文

An Analysis of the Coordination Gap between Joint and Modular Learning for Job Shop Scheduling with Transportation Resources

Efficient job-shop scheduling with transportation resources is critical for high-performance manufacturing. With the rise of "decentralized…

13:00 JSTLLM/生成AIエージェント

PRISM: Perception Reasoning Interleaved for Sequential Decision Making

Scaling LLM-based embodied agents from text-only environments to complex multimodal settings remains a major challenge. Recent work identif…

13:00 JST研究/論文

AdaTKG: Adaptive Memory for Temporal Knowledge Graph Reasoning

Temporal knowledge graphs (TKGs) represent time-stamped relational facts and support a wide range of reasoning tasks over evolving events.…

13:00 JST研究/論文

Learning Developmental Scaffoldings to Guide Self-Organisation

From subcellular structures to entire organisms, many natural systems generate complex organisation through self-organisation: local intera…

13:00 JST画像/動画生成ロボティクスGPT / ChatGPTGemini

シーンの自己探索による視点をもとに計画を立てる

VLM は、各カメラの動きによってビューがどのように変化するかを予測し、事前にそのような動きを多数計画することができますか?私たちはこれを機能ビュー計画と呼びます。これには、(1) 単一のアクションがビューをどのように変換するかを理解すること、(2) ターゲット ビューを特定するために複数ターンの計画にわたってそのような変換を多数構成することが必要です。私たちは、実際の ScanNet シーン上の 3D ポイントクラウド環境である、私たちが提案する ViewSuite で両方の機能を調査します。 13 のフロンティア VLM にわたって、重大な計画のギャップが生じています。VLM は基本的なビューとアクションの知識を持っていますが、それを複数ターンの計画にわたって構成することができず、視点の距離が長くなるにつれてギャップが拡大します。このギャップを埋めるために、自己探索とビュー グラフの蒸留を交互に行う反復フレームワークを提案します。重要な洞察は、結果に関係なく、すべての探索軌跡が集合的にビュー グラフを形成し、シーン全体で視点がどのように接続されているかをコンパクトに捉えるということです。このグラフをさまざまな教師ありタスクに抽出すると、ポリシーの分布が再形成され、純粋な RL を遅らせる希薄な報酬が克服されます。これにより、インタラクティブ ビュー プランニングで Qwen2.5-VL-7B が 2.5% から 47.8% に向上し、GPT-5.4 Pro (18.5%) や Gemini 3.1 Pro (21.4%) を上回りました。自己探索は、3D 空間で積極的に推論して計画できる VLM への有望な道として浮上しています。

原文 (English)

Planning with the Views via Scene Self-Exploration

Can VLMs predict how each camera move changes the view, and plan many such moves ahead? We call this capability view planning, requiring (1)understanding how a single action transforms the view, and (2)composing many such transformations across multi-turn plans to identify a target view. We probe both abilities in our proposed ViewSuite, a 3D point-cloud environment on real ScanNet scenes. Across 13 frontier VLMs, a critical planning gap emerges: they possess basic view-action knowledge but fail to compose it across multi-turn plans, with the gap widening as viewpoint distance grows. To close this gap, we propose an iterative framework that alternates self-exploration with view graph distillation. The key insight is that all exploration trajectories, regardless of their outcome, collectively form a view graph that compactly captures how viewpoints connect across a scene. Distilling this graph into diverse supervised tasks reshapes the policy distribution and overcomes the sparse rewards that stall pure RL. This improves Qwen2.5-VL-7B from 2.5% to 47.8% on interactive view planning, surpassing GPT-5.4 Pro (18.5%) and Gemini 3.1 Pro (21.4%). Self-exploration emerges as a promising path toward VLMs that can actively reason and plan in 3D space. Code and Data are at https://viewsuite.github.io.

13:00 JSTLLM/生成AI

バイキングメム: ステートフル LLM ベースのアプリケーション用のメモリ ベース管理システム

大規模言語モデルは対話型アプリケーションに革命をもたらしました。ただし、コンテキスト ウィンドウが有限であるため、ステートフルで長期的な対話を維持する上で重要なデータ管理の課題が生じます。既存の記憶アプローチは、多くの場合、不完全な記憶につながる単純な抽出方法に依存しているか、チャットボットなど、単一のユースケースに合わせて調整された厳格な単一目的の記憶抽出プロンプトを使用しています。その結果、汎用性に欠け、さまざまな下流タスクにわたってパフォーマンスが低下します。このギャップを埋めるために、長期的なインタラクションの永続的な状態を管理するための新しいデータ管理パラダイムであるメモリ ベースを導入します。これは 3 つの核となる原則によって特徴付けられます。生の情報ストリームから価値の高い記憶を選択的に抽出することです。固有のステートフルネスと進化。メモリ内容が徐々に要約、修正され、時間的に重み付けされて最近のインタラクションを優先します。そして、教育、推奨、エージェントの記憶など、さまざまなアプリケーションにわたる堅牢な転送性を実現するために設計された一般化可能な抽象化パラダイム。この基盤に基づいて、VikingDB ベクトル エンジン上に実装されたエンドツーエンドのメモリ ベース管理システム、VikingMem を紹介します。バイキングメムは、相互接続されたイベントとエンティティの抽象化を通じてこのパラダイムを具体化します。エンティティはイベントによって動的に更新され、ステートフルな進化を実現しながら、複雑な情報ストリームを選択的に処理するイベント中心のメモリ抽出を特徴としています。トピックごとのタイムラインと時間加重リコールによる時間圧縮を使用して、システムは高レベルの要約記憶を段階的に生成し、最近の項目を優先し、古い項目を圧縮してフェードします。長期メモリベンチマークの広範な評価により、VikingMem は対話型アプリケーションに不可欠な低レイテンシを維持しながら、メモリ取得効率においてベースラインを最大 30% 上回っていることが実証されています。

原文 (English)

VikingMem: A Memory Base Management System for Stateful LLM-based Applications

Large Language Models have revolutionized interactive applications; however, their finite context windows pose a critical data management challenge for maintaining stateful, long-term interactions. Existing memory approaches often rely on simplistic extraction methods that lead to incomplete memories or use rigid, single-purpose memory extraction prompts tailored to a single use case, such as chatbots. Consequently, they lack generalizability and perform poorly across diverse downstream tasks. To bridge this gap, we introduce the Memory Base, a novel data management paradigm for managing the persistent state of long-term interactions. It is characterized by three core principles: selective extraction of high-value memories from raw information streams; inherent statefulness and evolution, where memory content is progressively summarized, corrected, and temporally weighted to prioritize recent interactions; and a generalizable abstraction paradigm designed for robust transferability across diverse applications, including education, recommendation, and agent memory. Building on this foundation, we present VikingMem, an end-to-end Memory Base Management System implemented on the VikingDB vector engine. VikingMem materializes this paradigm through interconnected event and entity abstractions. It features event-centric memory extraction to selectively handle complex information streams, while entities are dynamically updated by events to achieve stateful evolution. Using temporal compression via a topic-wise timeline and time-weighted recall, the system progressively produces high-level summary memories, prioritizes recent items, and compresses and fades older ones. Extensive evaluations on long-term memory benchmarks demonstrate that VikingMem outperformes baselines by up to 30% in memory retrieval effectiveness while maintaining the low latency essential for interactive applications.

13:00 JSTLLM/生成AI

Evidence-Gated LLM Priors for Multi-Objective Bayesian Optimization

Large language models (LLMs) are increasingly used as heuristic advisors for black-box optimization, yet their suggestions and self-reporte…

13:00 JSTLLM/生成AIエージェント

EvoTrainer: 自律的なエージェント強化学習のための共同進化する LLM ポリシーとトレーニング ハーネス

自律 LLM トレーニングはレシピ検索として組み立てられることが多く、トレーニング ハーネスはほとんど静的なままになります。この制限はエージェント RL ではさらに顕著になり、ボトルネックの変化とスカラー報酬によってさまざまな障害モードが隠蔽されます。 EvoTrainer は、実証的なフィードバックを通じて LLM ポリシーとトレーニング側の活用を共進化させる自律型トレーニング フレームワークです。これは、ロールアウト レベルの証拠を診断し、診断を修正し、介入をバックテストし、再利用可能なスキルを蓄積します。数学的推論、競合プログラミング コード生成、およびリポジトリ レベルのソフトウェア エンジニアリングで評価された EvoTrainer は、同じデータ、コードベース、評価プロトコルの下で人間が設計した RL 参照と同等またはそれを上回り、長期的なエージェント SWE で最大の利益をもたらします。軌跡分析により、保持された戦略がドメイン間で分岐し、進化する診断により無効な高スコア分岐の昇格が防止され、再利用可能なスキルが後の検索を形成することが示されました。自律 LLM RL は、レシピ検索を超えて、ポリシーとそれを解釈するトレーニング ハーネスの共同進化に向けて進む必要があります。

原文 (English)

EvoTrainer: Co-Evolving LLM Policies and Training Harnesses for Autonomous Agentic Reinforcement Learning

Autonomous LLM training is often framed as recipe search, which leaves the training harness largely static. This limitation sharpens in agentic RL, where shifting bottlenecks and scalar rewards mask diverse failure modes. We introduce EvoTrainer, an autonomous training framework that co-evolves LLM policies and training-side harnesses through empirical feedback: it diagnoses rollout-level evidence, revises diagnostics, backtests interventions, and accumulates reusable skills. Evaluated on mathematical reasoning, competitive-programming code generation, and repository-level software engineering, EvoTrainer matches or exceeds the human-engineered RL references under the same data, codebase, and evaluation protocol, with the largest gain on long-horizon agentic SWE. Trajectory analyses show that retained strategies diverge across domains, evolving diagnostics prevent invalid high-scoring branches from being promoted, and reusable skills shape later search. Autonomous LLM RL should move beyond recipe search toward joint evolution of policies and the training harnesses that interpret them.

13:00 JSTエージェントハードウェア/半導体

Output Type Before Quality: A Standards-Derived XAI Admissibility Rubric for Autonomous-Driving Safety

Safety standards for ML-based autonomous driving specify the kind of evidence an assurance case must contain (directed cause-and-effect cha…

13:00 JSTエージェント

StainFlow: GUI エージェントでのプロセス報酬のためのエンティティ汚染追跡と証拠リンク

強化学習 (RL) は、長期にわたる確率論的なデジタル環境で GUI エージェントを改善するための有望なアプローチとなっていますが、軌道レベルの成功フィードバックがまばらすぎて、中間の探索ステップに信頼できる単位の割り当てを提供できません。この問題を軽減するために、最近の研究ではプロセス報酬モデル (PRM) が導入されています。これは、グローバルなマイルストーンの検証またはローカルのステップレベルの評価を通じて、よりきめの細かいトレーニング フィードバックを提供します。ただし、これらの方法には依然として 2 つのレベル固有の制限があります。グローバル マイルストーン分解は主観的かつ特異的であるため、実際の G​​UI タスクで複数の有効な実行パスに対応することが困難です。一方、固定されたローカル判定ウィンドウでは、長距離の重要な証拠を見逃したり、無関係なフレームで決定信号を薄めたりする可能性があります。ネットワーク フロー解析におけるステイン トレーシング メカニズムにヒントを得て、GUI エージェント向けのエンティティ ステイン フロー プロセス報酬モデルである StainFlow を提案します。グローバル分割の主観性を軽減するために、グローバル エンティティ ステイン トラッキング モジュールを導入します。このモジュールは、視覚的に検証可能なタスク エンティティを抽出し、それらのステイン濃度と状態が軌跡に沿ってどのように変化するかを追跡し、エンティティの証拠フローの変化によってタスク フェーズを客観的に分離できるようにします。ローカル検証の精度を向上させるために、ローカル染色証拠リンク モジュールを導入します。各候補キー ノードのトリガー エンティティを中心に、染色濃度と状態変化に基づいて関連するステップを取得し、真のキー ノードを検証するための高密度の証拠ウィンドウを動的に構築します。 AndroidWorld と OGRBench での広範な実験により、StainFlow によりオンライン RL の成功率が 3.2% 向上し、軌道完了判定精度が 1.8% 向上することが示されました。

原文 (English)

StainFlow: Entity-Stain Tracking and Evidence Linking for Process Rewards in GUI Agents

Reinforcement Learning (RL) has become a promising approach for improving GUI Agents in long-horizon, stochastic digital environments, but trajectory-level success feedback is too sparse to provide reliable credit assignment for intermediate exploration steps. To mitigate this issue, recent studies introduce Process Reward Models (PRMs), which provide finer-grained training feedback through global milestone verification or local step-level evaluation. However, these methods still suffer from two level-specific limitations: global milestone decomposition is subjective and singular, making it difficult to accommodate the multiple valid execution paths in real GUI tasks, while fixed local judging windows may miss long-range key evidence or dilute the decision signal with irrelevant frames. Inspired by stain-tracing mechanisms in network flow analysis, we propose StainFlow, an entity-stain-flow process reward model for GUI Agents. To reduce the subjectivity of global partitioning, we introduce the Global Entity Stain Tracking module, which extracts visually verifiable task entities and tracks how their stain concentrations and states evolve along the trajectory, allowing task phases to be objectively separated by changes in the entity evidence flow. To improve the accuracy of local verification, we introduce the Local Stain Evidence Linking module. Centered on the triggering entities of each candidate key node, it retrieves relevant steps based on their stain concentrations and state changes, and dynamically constructs high-density evidence windows for verifying true key nodes. Extensive experiments on AndroidWorld and OGRBench show that StainFlow relatively improves online RL success by 3.2% and trajectory completion judgment accuracy by 1.8%.

13:00 JST研究/論文GPT / ChatGPT

速く考える: フロンティア AI モデルの No-CoT タスク完了時間の範囲を推定する

フロンティア AI モデルの安全性を確保するための多くの取り組みは、その思考連鎖 (CoT) 推論の監視に依存しています。明示的な思考トークンなしで、モデルが内部で十分に複雑な推論を実行できるようになれば、そのような監視が損なわれることになります。私たちは、数学、コーディング、パズル、因果関係、心の理論、戦略的推論を含む領域の 43 のベンチマークにわたる 30,000 を超える一連の質問にわたって、フロンティア モデルが CoT なしでどの程度適切に推論できるかを測定します。モデルと人間を比較するために、$50\%$ のタスク完了時間範囲 (TH) を推定します。これは、モデルが $50\%$ の成功率で完了するタスクに必要な人間の時間です。これを $50\%$ 推論トークン ホライズンで補完します。これは、モデルが $50\%$ の成功率で解決するタスクに必要な o3-mini 推論トークンの最小数です。フロンティア モデルの no-CoT $50\%$ TH は過去 6 年間でほぼ毎年 2 倍になっており、GPT-5.5 の TH は 3 分を超え、推論トークン ホライズンは 1,500 トークンを超えていることがわかりました。私たちの推定中央値では、フロンティアのノーCoT THは2028年までに7分を超え、2030年までに25分を超える可能性があると予測していますが、これらの予測にはかなりの不確実性が伴います。フロンティア開発者にはこれを明示的に追跡することをお勧めします。

原文 (English)

Think Fast: Estimating No-CoT Task-Completion Time Horizons of Frontier AI Models

Many efforts to ensure frontier AI models are safe rely on monitoring their chain-of-thought (CoT) reasoning. If models become able to perform sufficiently complex reasoning internally, without explicit thinking tokens, this would undermine such oversight. We measure how well frontier models reason without CoT across a suite of over 30,000 questions spanning 43 benchmarks in domains including math, coding, puzzles, causality, theory-of-mind, and strategic reasoning. To compare models against humans, we estimate the $50\%$-task-completion time horizon (TH): the human time required for tasks a model completes with $50\%$ success rate. We complement this with a $50\%$ reasoning token horizon: the minimum number of o3-mini reasoning tokens needed for tasks a model solves with $50\%$ success rate. We find that the no-CoT $50\%$ TH of frontier models has been doubling roughly every year over the past six years, with GPT-5.5's TH reaching over 3 minutes and reasoning token horizon exceeding 1,500 tokens. Our median estimates predict that frontier no-CoT THs could exceed 7 minutes by 2028, and 25 minutes by 2030, though these projections carry substantial uncertainty. We recommend frontier developers track this explicitly.

13:00 JST研究/論文

学習者の主体性と自律性の大規模なセマンティック マッピングにより、測定と生成 AI 研究が見落としているものが明らかになります

学習者の主体性と自主性は個人の成長の基礎ですが、蔓延する「ジングル・ジャングル」の誤謬(つまり、同一の用語が異なる構成要素を示し、別個の用語が同一の構成要素を示します)が知識の蓄積を大幅に妨げています。意味を言語実践における使用を通じて構成される現象として扱い、14,000 を超える出版物から 8,954 の定義と 2,700 のスケール項目を抽出し、研究者が意味分析パイプラインを使用して学習者の主体性と自律性を実際にどのように使用したかを調査しました。 2 つの構成要素の定義風景は、学習の調整と制御 (タスク)、内発的動機と内部意思決定 (個人)、社会関係的行動 (社会文化的) の 3 つの次元に分解され、それによってジングル ジャングルの誤謬を経験的に定量化します。しかし、既存の尺度は体系的に社会文化的側面を過小評価しています。重要なことに、教育における現在の生成 AI 研究は、学習の調整と制御に集中しており、AI を介した学習環境が育成するように設計されている行動のレパートリーを狭めています。この研究は、概念の明確化を超えて、多次元の学習者の主体性と自律性をサポートするための概念化、測定、および実践に直接的な影響を及ぼします。

原文 (English)

Large-scale semantic mapping of learner agency and autonomy reveals what measurement and generative AI research overlook

Learner agency and autonomy are foundational to personal development, yet a pervasive "jingle-jangle" fallacy (i.e. identical terms denoting different constructs, distinct terms denoting identical ones) has substantially hindered cumulative knowledge. Treating meaning as a phenomenon constituted through use in linguistic practice, we extracted 8,954 definitions and 2,700 scale items from over 14,000 publications, to investigate how researchers actually used learner agency and autonomy with a semantic analysis pipeline. The definitional landscape of two constructs resolves into three dimensions: regulation and control of learning (task), intrinsic motivation and internal decision-making (person), and social-relational action (sociocultural), thereby empirically quantifying the jingle-jangle fallacy. Existing scales, however, systematically underrepresent the sociocultural dimension. Critically, current generative AI research in education concentrates on learning regulation and control, narrowing the behavioral repertoire that AI-mediated learning environments are designed to cultivate. Beyond conceptual clarification, this work carries direct implications for conceptualization, measurement, and practice towards supporting the multidimensional learner agency and autonomy.

13:00 JST研究/論文

教えて繰り返す: モバイル画面のデモンストレーションから運用知識を正確に抽出して、GUI エージェントに力を与える

モバイル デバイス上のデジタル世界の理解は、静的な UI の認識から動的なアクションの理解へと移行しています。この機能により、モデルは視覚的な状態遷移を、アクション タイプ、ターゲット UI 要素、テキスト引数、および実行順序を説明する短い自然言語文として定義される操作知識に変換できます。ただし、アプリケーション全体で非常に多様で異種の UI 設計が行われているため、既存のビジョン言語モデル (VLM) は、これらの基礎となる操作を正確に推論するのに苦労しています。このギャップを埋めるために、デモンストレーション ビデオから操作関連のキーフレームを抽出して分析することで、モバイル画面の軌跡を段階的な操作知識に変換するように設計されたコア モデルである Teach VLM を導入します。調整されたトレーニング データの不足に対処するために、スケーラブルなデータ取得のための体系的なデータ フライホイールを開発します。さらに、きめ細かい評価を行うための新しい中国製モバイル画面指導ベンチマークを紹介します。 Teach VLM を基盤として、生成された運用知識が下流の画面ベースの実行エージェントをガイドするための解釈可能な手順参照として機能する、Teach-and-Repeat パラダイムを提案します。広範な評価により、Teach VLM が強力な VLM ベースラインを大幅に上回り、操作セマンティクス予測において最先端のパフォーマンスを達成することが実証されました。さらに、Android World での実験では、私たちのパラダイムにより、下流エージェントのタスク成功率が一貫して向上することが示されています。 Teach VLM と Teach-and-Repeat パラダイムを組み合わせることで、未加工のデモンストレーションから再利用可能なタスクの自動化までの実用的な経路が提供されます。

原文 (English)

GUITrans2Act: Understanding User Operational Behaviors from Mobile GUI Interactions with Vision-Language Models

Understanding the digital world on mobile devices is shifting from static UI perception to dynamic action comprehension. This capability enables models to convert visual state transitions into operational knowledge, defined as short natural-language sentences that describe action types, target UI elements, textual arguments, and execution orders. However, due to the highly diverse and heterogeneous UI designs across applications, existing vision-language models (VLMs) struggle to accurately infer these underlying operations. To bridge this gap, we introduce Teach VLM, a core model designed to translate mobile screen trajectories into step-wise operational knowledge by extracting and analyzing operation-related keyframes from demonstration videos. To address the scarcity of aligned training data, we develop a systematic data flywheel for scalable data acquisition. We further introduce a novel Chinese Mobile Screen Teach Benchmark for fine-grained evaluation. Building upon Teach VLM, we propose the Teach-and-Repeat paradigm, where the generated operational knowledge serves as an interpretable procedural reference to guide downstream screen-based execution agents. Extensive evaluations demonstrate that Teach VLM significantly outperforms strong VLM baselines, achieving state-of-the-art performance in operation semantics prediction. Furthermore, experiments in Android World show that our paradigm yields consistent Task Success Rate improvements for downstream agents. Together, Teach VLM and the Teach-and-Repeat paradigm offer a practical pathway from raw demonstrations to reusable task automation.

13:00 JST研究/論文Claude

どのような条件下でマシンは真に創造的になることができるのでしょうか?

最近の AI システムは、創造的に見えるテキスト、ソフトウェア アーキテクチャ、仮説、設計、科学的ワークフローを生成できます。この論文は、どのような条件下で機械が真に創造的になることができるのか、そして共有された認知環境と創造的環境の中で人間の主体性をどのように維持できるのかを問うものです。意味を伴う意図的な変更の科学である Designics に由来する要件フレームワークを開発します。この論文では、真のマシンの創造性は、出力の新規性、現在のパフォーマンス、または一時的なアーキテクチャだけによって定義されるべきではないと主張しています。代わりに、創造性は、再帰的な介入ダイナミクスによる不完全な状況の構造的変換として理解されます。この見解に基づくと、それは、環境表現、範囲指定された認識、矛盾の特定、介入能力、結果の観察、知識と環境の更新、再スコープ、ローカルからグローバルへの展開、価値ベースのスコープ、および人間と AI の共生という 10 の要件に依存します。これらは、デザインニクスの 3 つの法則、つまり知覚、葛藤、能力によって整理されています。この論文では、再帰的要素抽出、自律メッシュ生成、神経生理学的およびワークロード分析を含む、選択されたサイバー物理学的およびサイバー生物学的研究を通じて、これらの要件の計算上の扱いやすさを説明しています。次に、オープンエンド システム、自動検出フレームワーク、自己変更エージェント、基盤モデル、およびエージェント ワークフローをプレッシャー ケースとして扱います。これらは強力な生成手段を実証しますが、それ自体では真のマシンの創造性を確立しません。最後に、この論文は、プロアクティブな AI 倫理は事後のフィルターではなく、真の機械の創造性の内部にあると主張しています。価値ベースのスコープ設定と人間と AI の共生は、創造的なマシンが環境を認識し、競合を特定し、介入を選択し、結果を観察し、知識を更新し、将来の行動を再検討する方法を形成する必要があります。

原文 (English)

Under What Conditions Can a Machine Be Called Genuinely Creative?

Recent AI systems can generate texts, software architectures, hypotheses, designs, and scientific workflows that appear creative. This paper asks under what conditions a machine can be called genuinely creative, and how human agency can be preserved within shared cognitive and creative environments. It develops a requirement framework derived from Designics, the science of meaning-bearing intentional change. The paper argues that genuine machine creativity should not be defined by output novelty, current performance, or transient architecture alone. Instead, creativity is understood as the structural transformation of incomplete situations through recursive intervention dynamics. On this view, it depends on ten requirements: environment representation, scoped perception, conflict identification, intervention capability, consequence observation, knowledge and environment update, rescoping, local-to-global unfolding, value-based scoping, and human-AI co-living. These are organized through the three laws of Designics: perception, conflict, and capability. The paper illustrates the computational tractability of these requirements through selected cyber-physical and cyber-biological studies, including recursive element extraction, autonomous mesh generation, and neurophysiological and workload analysis. It then treats open-ended systems, automated discovery frameworks, self-modifying agents, foundation models, and agentic workflows as pressure cases: they demonstrate powerful generative means but do not by themselves establish genuine machine creativity. Finally, the paper argues that proactive AI ethics is internal to genuine machine creativity rather than an after-the-fact filter. Value-based scoping and human-AI co-living must shape how creative machines perceive environments, identify conflicts, select interventions, observe consequences, update knowledge, and rescope future action.

13:00 JSTLLM/生成AIエージェント

MiniMax のまばらな注意力

超ロングコンテキスト機能は、フロンティア LLM にとって不可欠になりつつあります。エージェントのワークフロー、リポジトリ規模のコード推論、および永続メモリのすべてでは、モデルが数十万から数百万のトークンに共同で参加する必要がありますが、ソフトマックス アテンションの 2 次コストにより、展開規模ではこれを維持できなくなります。 Grouped Query Attendance (GQA) に基づいて構築されたブロック単位の疎なアテンションである MiniMax Sparse Attendance (MSA) を導入します。軽量のインデックス ブランチは、キーと値のブロックをスコア付けし、各 GQA グループの Top-k サブセットを独立して選択します。これにより、効率的なブロック レベルの実行を維持しながら、グループ固有のスパース取得が可能になります。次に、メイン ブランチは、選択されたブロックのみに対して正確なブロック スパース アテンションを実行します。シンプルさとスケーラビリティの原則に基づいて設計された MSA は意図的に合理化されており、幅広い GPU に効率的に導入することが簡単になります。スパース性を実用的な高速化に変換するために、Exp-free Top-k 選択と KV-outer スパース アテンションを使用する GPU 実行パスを使用して MSA を共同設計し、ブロック単位のアクセスでのテンソルコアの使用率を向上させます。ネイティブ マルチモーダル トレーニングを備えた 109B パラメーター モデルでは、MSA は GQA と同等のパフォーマンスを発揮しながら、トークンごとのアテンション コンピューティングを 1M コンテキストで 28.4 倍削減します。共同設計したカーネルと組み合わせると、MSA は H800 上で 14.2 倍のプレフィルと 7.6 倍のデコード ウォールクロックの高速化を達成します。私たちの推論カーネルは、https://github.com/MiniMax-AI/MSA から入手できます。 MSA を利用した実稼働グレードのネイティブ マルチモーダル モデルは、https://huggingface.co/MiniMaxAI/MiniMax-M3 で公開されています。

原文 (English)

MiniMax Sparse Attention

Ultra-long-context capability is becoming indispensable for frontier LLMs: agentic workflows, repository-scale code reasoning, and persistent memory all require the model to jointly attend over hundreds of thousands to millions of tokens, yet the quadratic cost of softmax attention makes this untenable at deployment scale. We introduce MiniMax Sparse Attention (MSA), a blockwise sparse attention built upon Grouped Query Attention (GQA). A lightweight Index Branch scores key-value blocks and independently selects a Top-k subset for each GQA group, enabling group-specific sparse retrieval while maintaining efficient block-level execution; the Main Branch then performs exact block-sparse attention over only the selected blocks. Designed around a principle of simplicity and scalability, MSA is deliberately streamlined, making it straightforward to deploy efficiently across a broad range of GPUs. To translate sparsity into practical speedups, we co-design MSA with a GPU execution path that uses exp-free Top-k selection and KV-outer sparse attention to improve tensor-core utilization under block-granular access. On a 109B-parameter model with native multimodal training, MSA performs on par with GQA while reducing per-token attention compute by 28.4x at 1M context. Paired with our co-designed kernel, MSA achieves 14.2x prefill and 7.6x decoding wall-clock speedups on H800. Our inference kernel is available at: https://github.com/MiniMax-AI/MSA. A production-grade natively multimodal model powered by MSA has been publicly released at: https://huggingface.co/MiniMaxAI/MiniMax-M3.

13:00 JST研究/論文

それはあなたですか、それともあなたの環境ですか?ゲノムにアンカーされた個別の生理学的解釈のためのベイジアン推論フレームワーク

パーソナライズされた健康 AI システムは、基本的なコールド スタートの問題に直面しています。生理学的解釈のための機械学習モデルでは、体質の変化と環境による逸脱を区別できるようになるまでに、数週間にわたる個人の行動データが必要です。私たちは、因果推論とベイジアン事前設計に基づいたソリューションを提案します。個人のゲノムプロファイルは、外因性の遺伝的アンカーとして機能します。これは、受胎時に固定され、逆因果関係の影響を受けず、単一の行動観察が収集される前に利用できる、ドメイン情報に基づいて個別化された事前情報です。アンカーは、個人の生理学的設定値 G-hat = mu + sum(beta_i * g_i) に対するベイズ信念状態を初期化します。ここで、beta_i は GWAS 由来の効果量、g_i はリスク対立遺伝子数です。入力される各生理学的測定値 P は、環境および状態に起因する信号を構成的に固定されたベースラインから分離する非構成的な偏差デルタ = P - G ハットを生成します。行動データが蓄積するにつれて、事前確率は G-hat_t = w(t)*G-hat_genomic + [1-w(t)]*P-bar_t に従って減衰し、ゲノム主導の推論から経験ベースライン主導の推論に移行します。同じ観察された 55 ミリ秒の HRV は、事前予測が 80 ミリ秒である人には抑制仮説を生成し、事前予測が 30 ミリ秒である人には増強仮説を生成します。これは、パーソナライズされたアンカーがなければ逆転は不可能です。私たちはこのアーキテクチャを6つの生理学的ドメインにわたって開発し、証拠の強さによってゲノム事前情報を格付けし、堅牢に複製されたアンカー(FTO、FADS1/2、FKBP5)を競合する候補遺伝子(SLC6A4、MAOA、DRD2)から区別します。私たちは、関連性、メンデル的ランダム化、および個々のトークンの因果関係の間の推論境界に対処し、展開のための 4 つの制約を定義します。証拠に基づく事前分布、動的減衰、祖先と一致する効果の大きさ、および決定論的な出力ではなく帰属です。

原文 (English)

Is It You or Your Environment? A Bayesian Inference Framework for Genomically-Anchored Personalized Physiological Interpretation

Personalized health AI systems face a fundamental cold-start problem: machine learning models for physiological interpretation require weeks of individual behavioral data before they can distinguish constitutional variation from environmentally driven deviation. We propose a solution grounded in causal inference and Bayesian prior design. An individual's genomic profile serves as an exogenous genetic anchor -- a domain-informed, personalized prior that is fixed at conception, immune to reverse causation, and available before a single behavioral observation is collected. The anchor initializes a Bayesian belief state over an individual's physiological set point G-hat = mu + sum(beta_i * g_i), where beta_i are GWAS-derived effect sizes and g_i are risk-allele counts. Each incoming physiological measurement P produces a non-constitutional deviation delta = P - G-hat that separates the signal attributable to environment and state from the constitutionally fixed baseline. As behavioral data accrue, the prior decays according to G-hat_t = w(t)*G-hat_genomic + [1-w(t)]*P-bar_t, transitioning from genome-dominated to empirical-baseline-dominated inference. The same observed HRV of 55 ms generates a suppression hypothesis for a person whose prior predicts 80 ms, and an enhancement hypothesis for a person whose prior predicts 30 ms -- a reversal impossible without a personalized anchor. We develop this architecture across six physiological domains, grading genomic priors by evidence strength, distinguishing robustly replicated anchors (FTO, FADS1/2, FKBP5) from contested candidate genes (SLC6A4, MAOA, DRD2). We address the inference boundary between association, Mendelian randomization, and individual token causation, and define four constraints for deployment: evidence-graded priors, dynamic decay, ancestry-matched effect sizes, and attribution rather than deterministic output.

13:00 JSTLLM/生成AIエージェント

EurekAgent: 自律的な科学的発見に必要なのはエージェント環境エンジニアリングだけです

LLM ベースのエージェントは、科学的発見を自動化する可能性が高まっていることが示されています。最適化可能な指標と実行環境があれば、科学的解決策を提案、検証、反復することができ、人間が設計したアプローチを上回る結果を生み出しています。モデルの機能が向上し続けるにつれて、自律的な科学的発見のボトルネックは、エージェントのワークフローの処方から、エージェントの動作を形成するリソース、制約、インターフェイスなどのエージェント環境の設計へと移行していると私たちは主張します。私たちはこれを環境エンジニアリングと呼んでいます。これは、報酬ハッキングや摩擦の多い人間による監視などの有害な行動を抑制しながら、無制限の探索、体系的な成果物管理、エージェント間のコラボレーションなどの生産的な行動を増幅する環境を構築することです。私たちは、メトリクス主導の自律的な科学的発見のための環境設計エージェント システムである EurekAgent を紹介します。 EurekAgent は 4 つの側面に沿って環境をエンジニアリングします。つまり、限定されたエージェントの実行と分離された評価のための権限エンジニアリングです。ファイルシステムと Git ベースのコラボレーションのためのアーティファクト エンジニアリング。予算を意識した探査のための予算エンジニアリング。人間による監視と介入を容易にするヒューマンインザループエンジニアリング。 EurekAgent は、合計 API コストが 11 ドル未満で発見された新しい最先端の 26 サークル パッキング結果を含む、複数の数学、カーネル エンジニアリング、および機械学習タスクに関する新しい最先端の結果を設定します。私たちはコードと結果をオープンソース化し、信頼できる自律研究エージェントを開発するための中核的な研究方向として環境工学を呼びかけています。

原文 (English)

EurekAgent: Agent Environment Engineering is All You Need For Autonomous Scientific Discovery

LLM-based agents have shown increasing potential in automating scientific discovery. Given an optimizable metric and an execution environment, they can propose, validate, and iterate scientific solutions, and have produced results that outperform human-designed approaches. As model capabilities continue to improve, we argue that the bottleneck for autonomous scientific discovery is shifting from prescribing agent workflows to designing agent environments: the resources, constraints, and interfaces that shape agent behavior. We frame this as environment engineering: building environments that amplify productive behaviors, such as open-ended exploration, systematic artifact management, and inter-agent collaboration, while suppressing harmful behaviors, such as reward hacking and high-friction human oversight. We present EurekAgent, an environment-engineered agent system for metric-driven autonomous scientific discovery. EurekAgent engineers the environment along four dimensions: permissions engineering for bounded agent execution and isolated evaluation; artifact engineering for filesystem and Git-based collaboration; budget engineering for budget-aware exploration; and human-in-the-loop engineering for easy human supervision and intervention. EurekAgent sets new state-of-the-art results on multiple mathematics, kernel engineering, and machine learning tasks, including new state-of-the-art 26-circle packing results discovered with less than $11 in total API cost. We open-source our code and results, and call for environment engineering as a core research direction for developing reliable autonomous research agents.

13:00 JST研究/論文

Application of Artificial Intelligence and Machine Learning in Libraries: A Systematic Review

As the concept and implementation of cutting-edge technologies like artificial intelligence and machine learning has become relevant, acade…

13:00 JST画像/動画生成

MirrorCheck: 視覚言語モデルの効率的な敵対防御

ビジョン言語モデル (VLM) は、既存の防御を回避するために特別に設計された適応戦略を含む、高度な敵対的攻撃に対してますます脆弱になっています。この脆弱性に対処するために、ユニモーダル設定とマルチモーダル設定の両方で効果的に動作する、堅牢でモデルに依存しない検出フレームワークである MirrorCheck を提案します。 MirrorCheck は、Text-to-Image (T2I) モデルを利用して、ターゲット モデルによって生成されたキャプションからビジュアル コンテンツを再生成し、元の画像と合成画像の間の特徴空間の埋め込みを比較することで意味の一貫性を評価します。適応型攻撃に対する堅牢性を強化するために、MirrorCheck は、多様なモデル ズーから T2I ジェネレーターと画像エンコーダーをランダムに選択する確率的防御戦略を導入しています。さらに、選択したエンコーダの埋め込みに適用される新しいワンタイムユース (OTU) 摂動を組み込み、スケーリング係数によって制御され、適応型攻撃の有効性を低下させます。複数の脅威シナリオにわたる広範な実験により、MirrorCheck がベースライン手法を常に上回り、適応性の高い敵対的条件下でもその有用性を維持できることが実証されました。

原文 (English)

MirrorCheck: Efficient Adversarial Defense for Vision-Language Models

Vision-Language Models (VLMs) are increasingly susceptible to sophisticated adversarial attacks, including adaptive strategies specifically designed to bypass existing defenses. To address this vulnerability, we propose MirrorCheck, a robust and model-agnostic detection framework that operates effectively in both unimodal and multimodal settings. MirrorCheck leverages Text-to-Image (T2I) models to regenerate visual content from captions produced by the target model and assesses semantic consistency by comparing feature-space embeddings between the original and synthesized images. To enhance robustness against adaptive attacks, MirrorCheck introduces a stochastic defense strategy that randomly selects T2I generators and image encoders from a diverse model zoo. Additionally, we incorporate a novel One-Time-Use (OTU) perturbation applied to the selected encoder embeddings, regulated by a scaling factor, which decreases the effectiveness of adaptive attacks. Extensive experiments across multiple threat scenarios demonstrate that MirrorCheck consistently outperforms baseline methods, and maintains its utility even under strong adaptive adversarial conditions.

13:00 JST画像/動画生成ロボティクス

Vanishing Depth: Training Generalized Depth Adapters with Sinusoidal Depth Preprocessing for Pretrained RGB Encoders

Generalized metric depth understanding is critical for precise vision-guided robotics, which current state-of-the-art (SOTA) vision-encoder…

13:00 JST研究/論文

Revisiting Outage for Edge Inference Systems

One of the key missions of sixth-generation (6G) mobile networks is to deploy large-scale artificial intelligence (AI) models at the networ…

13:00 JST研究/論文

FPGA-Based Neural Network Accelerators for Space Applications: A Survey

Space missions are becoming increasingly ambitious, necessitating high-performance onboard spacecraft computing systems. In response, field…

13:00 JSTLLM/生成AI画像/動画生成

UniversalRAG: Retrieval-Augmented Generation over Corpora of Diverse Modalities and Granularities

Retrieval-Augmented Generation (RAG) has shown substantial promise in improving factual accuracy by grounding model responses with external…

13:00 JST研究/論文

The Accountability Paradox: How Platform API Restrictions Undermine AI Transparency Mandates

Recent application programming interface (API) restrictions on major social media platforms challenge compliance with the EU Digital Servic…

13:00 JSTLLM/生成AI

Fractured Chain-of-Thought Reasoning

Inference-time scaling techniques have significantly bolstered the reasoning capabilities of large language models (LLMs) by harnessing add…

13:00 JSTLLM/生成AIエージェント

MASLab: A Unified and Comprehensive Codebase for LLM-based Multi-Agent Systems

LLM-based multi-agent systems (MAS) have demonstrated significant potential in enhancing single LLMs to address complex and diverse tasks i…

13:00 JST研究/論文

Federated Causal Inference from Multi-Site Observational Data via Propensity Score Aggregation

Causal inference typically assumes centralized access to individual-level data. Yet, in practice, data are often decentralized across multi…

13:00 JSTLLM/生成AI

Sentinel: Decoding Context Utilization via Attention Probing for Efficient LLM Context Compression

Retrieval-augmented generation (RAG) often suffers from long and noisy retrieved contexts. Existing context compression methods typically r…

13:00 JST研究/論文

DiffusionBlocks: Block-wise Neural Network Training via Diffusion Interpretation

End-to-end backpropagation requires storing activations throughout all layers, creating memory bottlenecks that limit model scalability. Ex…

13:00 JSTLLM/生成AIハードウェア/半導体

UltraSketchLLM: Sub-1-Bit LLM Compression via Sketch and Hardware-Friendly Operators

Large language models (LLMs) require larger GPU memory size these days, necessitating efficient and extreme weight compression methods. Exi…

13:00 JST研究/論文

From Sorting Algorithms to Scalable Kernels: Bayesian Optimization in High-Dimensional Permutation Spaces

Bayesian Optimization (BO) is a powerful tool for black-box optimization, but its application to high-dimensional permutation spaces is sev…

13:00 JST画像/動画生成研究/論文

Fusion of Pervasive RF Data with Spatial Images via Vision Transformers for Enhanced Mapping in Smart Cities

In this paper, we present a deep learning-based approach that integrates the DINOv2 architecture to improve building mapping by combining (…

13:00 JST研究/論文

Tackling GNARLy Problems: Graph Neural Algorithmic Reasoning Reimagined through Reinforcement Learning

Neural algorithmic reasoning (NAR) is a paradigm that trains neural networks to execute classic algorithms by supervised learning. Despite…

13:00 JST研究/論文

Q-Net: Queue Length Estimation via Kalman-based Neural Networks

Estimating queue lengths at signalized intersections is a long-standing challenge in traffic management. Partial observability of vehicle f…

13:00 JST研究/論文

Shift-Invariant Attribute Scoring for Kolmogorov-Arnold Networks via Shapley Value

For many real-world applications, understanding feature-outcome relationships is as crucial as achieving high predictive accuracy. While tr…

13:00 JST研究/論文

RAMAC: Multimodal Risk-Aware Offline Reinforcement Learning and the Role of Behavior Regularization

In safety-critical domains where online data collection is infeasible, offline reinforcement learning (RL) is attractive only if policies a…

13:00 JSTLLM/生成AI

Chronological Thinking in Full-Duplex Spoken Dialogue Language Models

Recent advances in spoken dialogue language models (SDLMs) reflect growing interest in shifting from turn-based to full-duplex systems, whe…

13:00 JST研究/論文

Distributional Biases in Post-Training: A Markovian Analysis of Reasoning Trajectories

Foundation models exhibit broad knowledge but limited task-specific reasoning, motivating post-training strategies such as RL with verifiab…

13:00 JSTLLM/生成AI研究/論文

The Journal of Prompt-Engineered (Moral) Philosophy Or: Why AI-Assisted Ethics Research Requires Process Transparency

Existing AI disclosure mandates in scholarship require that AI assistance be reported but leave transparency philosophically unspecified: t…

13:00 JST研究/論文

An interpretable unsupervised representation learning for high precision measurement in particle physics

Unsupervised learning has been widely applied to various tasks in particle physics. However, existing models lack precise control over thei…

13:00 JSTLLM/生成AIビジネス/資金調達研究/論文

COGNITION: From Evaluation to Defense against Multimodal LLM CAPTCHA Solvers

This paper studies how multimodal large language models (MLLMs) undermine the security guarantees of visual CAPTCHA. We identify the attack…

13:00 JST画像/動画生成

Interpretable Alzheimer's Diagnosis via Multimodal Fusion of Regional Brain Experts

Accurate and early diagnosis of Alzheimer's disease (AD) is critical for effective intervention and requires integrating complementary info…

13:00 JST画像/動画生成ロボティクス

Schr\"odinger's Navigator: Imagining an Ensemble of Futures for Zero-Shot Object Navigation

Zero-shot object navigation (ZSON) requires robots to find target objects in unseen environments without task-specific fine-tuning or pre-b…

13:00 JSTLLM/生成AILlama

Fragile Knowledge, Robust Instruction-Following: The Width Pruning Dichotomy in Llama-3.2

Structured width pruning of GLU-MLP layers in Llama-3.2 models, guided by the Peak-to-Peak Magnitude (PPM) criterion, reveals a systematic…

13:00 JSTLLM/生成AI研究/論文

Succeeding at Scale: Enterprise Retrieval Benchmark Construction and Index-Preserving Query Adaptation for Multi-Tenant Search

Large-scale multi-tenant retrieval systems generate extensive query logs but lack curated relevance labels for effective domain adaptation,…

13:00 JSTLLM/生成AI

CuMA: Aligning LLMs with Sparse Cultural Values via Demographic-Aware Mixture of Adapters

As Large Language Models (LLMs) serve a global audience, alignment must transition from enforcing universal consensus to respecting cultura…

13:00 JSTLLM/生成AIGPT / ChatGPT

プロの翻訳者は機械生成されたテキストを識別できますか?

この研究では、事前に専門的なトレーニングを受けていないプロの翻訳者が、人工知能 (AI) によって生成されたイタリア語の短編小説を確実に識別できるかどうかを調査します。 69 人の翻訳者が対面実験に参加し、匿名化された 3 つの短編小説 (ChatGPT-4o によって書かれた 2 つと人間の著者によって書かれた 1 つ) を評価しました。各ストーリーについて、参加者は AI の作者である可能性を評価し、その選択の正当性を示しました。平均的な結果は決定的ではありませんでしたが、統計的に有意なサブセット (16.2%) が合成テキストと人間のテキストを区別することに成功し、彼らの判断が偶然ではなく分析スキルに基づいて行われたことを示唆しています。しかし、ほぼ同数が反対方向にテキストを誤分類しており、多くの場合、客観的なマーカーではなく主観的な印象に依存しており、おそらく AI によって生成されたテキストに対する読者の好みを反映しています。バースト性の低さと物語の矛盾が、合成著作者であることを示す最も信頼できる指標として浮上し、予期せぬ表現、意味的借用、英語からの統語的転移も報告されました。対照的に、文法的な正確さや感情的な調子などの特徴が誤分類につながることがよくありました。これらの発見は、専門的な文脈における合成テキスト編集の役割と範囲について疑問を引き起こします。

原文 (English)

Can professional translators identify machine-generated text?

This study investigates whether professional translators without prior specialized training can reliably identify short stories generated in Italian by artificial intelligence (AI). Sixty-nine translators took part in an in-person experiment, where they assessed three anonymized short stories - two written by ChatGPT-4o and one by a human author. For each story, participants rated the likelihood of AI authorship and provided justifications for their choices. While average results were inconclusive, a statistically significant subset (16.2%) successfully distinguished the synthetic texts from the human text, suggesting that their judgements were informed by analytical skill rather than chance. However, a nearly equal number misclassified the texts in the opposite direction, often relying on subjective impressions rather than objective markers, possibly reflecting a reader preference for AI-generated texts. Low burstiness and narrative contradiction emerged as the most reliable indicators of synthetic authorship, with unexpected calques, semantic loans and syntactic transfer from English also reported. In contrast, features such as grammatical accuracy and emotional tone frequently led to misclassification. These findings raise questions about the role and scope of synthetic-text editing in professional contexts.

13:00 JSTLLM/生成AI

Jacobian Scopes: token-level causal attributions in LLMs

Large language models (LLMs) make next-token predictions based on clues present in their context, such as semantic descriptions and in-cont…

13:00 JST画像/動画生成

SMART: Scalable Mesh-free Aerodynamic Simulations from Raw Geometries using a Transformer-based Surrogate Model

Machine learning-based surrogate models have emerged as more efficient alternatives to numerical solvers for physical simulations over comp…

13:00 JSTエージェントロボティクス

Unsupervised Learning of Efficient Exploration: Pre-training Adaptive Policies via Self-Imposed Goals

Unsupervised pre-training can equip reinforcement learning agents with prior knowledge and accelerate learning in downstream tasks. A promi…

13:00 JST研究/論文Qwen

Learning What to Predict: Downstream-Guided Task Design for Continued Pretraining

Continued pretraining is optimized with fixed self-supervised tasks but selected by downstream performance, creating a coarse feedback loop…

13:00 JSTLLM/生成AI

Residual Context Diffusion Language Models

Diffusion Large Language Models (dLLMs) have emerged as a promising alternative to purely autoregressive language models because they can d…

13:00 JST画像/動画生成

Fast Autoregressive Video Diffusion and World Models with Temporal Cache Compression and Sparse Attention

Autoregressive video diffusion models enable streaming generation, opening the door to long-form synthesis, video world models, and interac…

13:00 JSTLLM/生成AI

Quantized Evolution Strategies: High-precision Fine-tuning of Quantized LLMs at Low-precision Cost

Post-Training Quantization (PTQ) is essential for deploying Large Language Models (LLMs) on memory-constrained devices, yet it renders mode…

13:00 JSTLLM/生成AI

Rethinking the Trust Region in LLM Reinforcement Learning

Reinforcement learning (RL) has become a cornerstone for fine-tuning Large Language Models (LLMs), with Proximal Policy Optimization (PPO)…

13:00 JST研究/論文

HyperPotter: Spell the Charm of High-Order Interactions in Audio Deepfake Detection

Advances in AIGC technologies have enabled the synthesis of highly realistic audio deepfakes capable of deceiving human auditory perception…

13:00 JSTLLM/生成AI

Protean Compiler: An Agile Framework to Drive Fine-grain Phase Ordering

The phase ordering problem has been a long-standing challenge since the late 1970s, yet it remains an open problem due to having a vast opt…

13:00 JST研究/論文

Metabolic cost of information processing in Poisson variational autoencoders

Computation in biological systems is fundamentally energy-constrained, yet standard theories of computation treat energy as freely availabl…

13:00 JSTLLM/生成AI

Deep Dense Exploration for LLM Reinforcement Learning via Pivot-Driven Resampling

Effective exploration is a key challenge in reinforcement learning for large language models: discovering high-quality trajectories within…

13:00 JST研究/論文

FedRot-LoRA: Mitigating Rotational Misalignment in Federated LoRA

Federated LoRA provides a communication-efficient mechanism for fine-tuning large language models on decentralized data. In practice, howev…

13:00 JST研究/論文GPT / ChatGPT

Generalized Discrete Diffusion with Self-Correction

Self-correction is an effective technique for maintaining parallel sampling in discrete diffusion models with minimal performance degradati…

13:00 JST画像/動画生成

3D-RFT: Reinforcement Fine-Tuning for Video-based 3D Scene Understanding

Reinforcement Learning with Verifiable Rewards ( RLVR ) has emerged as a transformative paradigm for enhancing the reasoning capabilities o…

13:00 JSTLLM/生成AI研究/論文

C2-Faith: Benchmarking LLM Judges for Causal and Coverage Faithfulness in Chain-of-Thought Reasoning

Large language models (LLMs) are increasingly used as judges of chain-of-thought (CoT) reasoning, yet it remains unclear whether they can r…

13:00 JSTLLM/生成AINVIDIA

The Curse and Blessing of Mean Bias in FP4-Quantized LLM Training

FP4 training promises substantial memory and compute savings for large language models, but remains fragile because blockwise quantization…

13:00 JST研究/論文

TabKD: Tabular Knowledge Distillation through Interaction Diversity of Learned Feature Bins

Data-free knowledge distillation enables model compression without original training data, critical for privacy-sensitive tabular domains.…

13:00 JSTLLM/生成AI

Did You Forget What I Asked? Prospective Memory Failures in Large Language Models

Large language models often fail to satisfy formatting instructions when they must simultaneously perform demanding tasks. We study this be…

13:00 JSTLLM/生成AI

X-OPD: Cross-Modal On-Policy Distillation for Capability Alignment in Speech LLMs

While the shift from cascaded dialogue systems to end-to-end (E2E) speech Large Language Models (LLMs) improves latency and paralinguistic…

13:00 JSTLLM/生成AIロボティクス

Low-Burden LLM-Based Preference Learning: Personalizing Assistive Robots from Natural Language Feedback for Users with Paralysis

Physically Assistive Robots require personalized behaviors to ensure user safety and comfort. However, traditional preference learning meth…

13:00 JSTLLM/生成AI

The Shrinking Lifespan of LLMs in Science

Scaling laws describe how language model capabilities grow with compute and data, but say nothing about how long a model matters once relea…

13:00 JSTハードウェア/半導体Llama

STaR-DRO: Stateful Tsallis Reweighting for Group-Robust Structured Prediction

Structured prediction with large language models requires outputs that are label-accurate, ontology-constrained, structurally valid, and ev…

13:00 JSTLLM/生成AI

Can LLMs Accurately Score Medical Diagnoses and Clinical Reasoning?

Evaluating medical AI systems using expert clinician panels is costly and slow, motivating the use of large language models (LLMs) as alter…

13:00 JSTLLM/生成AI

LEPO: Latent Reasoning Policy Optimization for Large Language Models

Recently, latent reasoning has been introduced into large language models (LLMs) to leverage rich information within a continuous space. Ho…

13:00 JST研究/論文

Scalable Production Scheduling: Linear Complexity via Unified Homogeneous Graphs

Efficiently solving the Job Shop Scheduling Problem in real-world industrial applications requires policies that are both computationally l…

13:00 JST研究/論文

Quantile-Free Uncertainty Quantification in Graph Neural Networks

Uncertainty quantification (UQ) in graph neural networks (GNNs) is crucial in high-stakes domains but remains a significant challenge. In g…

13:00 JST研究/論文GemmaLlama

Where's the Plan? Locating Latent Planning in Language Models with Lightweight Mechanistic Interventions

We study planning site formation in language models -- where internal representations of structurally-constrained future tokens form during…

13:00 JST画像/動画生成

SAFformer:Improving Spiking Transformer via Active Predictive Filtering

Spiking Neural Networks (SNNs) offer notable advantages in biological plausibility and energy efficiency, making them promising candidates…

13:00 JST画像/動画生成

Relational Retrieval: Leveraging Known-Novel Interactions for Generalized Category Discovery

In this study, we tackle Generalized Category Discovery (GCD) via a Relational Retrieval perspective, explicitly coupling labeled and unlab…

13:00 JSTLLM/生成AIGPT / ChatGPT

EmoMind: Decoding Affective Captions from Human Brain fMRI

Decoding visual experience from brain activity has advanced substantially, but current brain-to-text systems largely recover semantic conte…

13:00 JSTエージェント

The Insurability Frontier of AI Risk: Mapping Threats to Affirmative Coverage, Silent Exposures, and Exclusions

The rapid diffusion of agentic AI has created a new coverage problem for commercial insurance: some AI-mediated losses are now affirmativel…

13:00 JST研究/論文

Exact Linear Attention

This paper introduces Exact Linear Attention (ELA), a mechanism that achieves linear computational complexity for Transformer attention by…

13:00 JSTLLM/生成AI画像/動画生成

Manga109-v2026: Revisiting Manga109 Annotations for Modern Manga Understanding

Manga is a culturally distinctive multimodal medium and one of the most influential forms of Japanese popular culture. As AI systems increa…

13:00 JST画像/動画生成

MRI 外れ値の捕捉: 深層学習を使用した MRI アーティファクトと臨床異常の教師なし検出と位置特定

人工知能は放射線治療ワークフローへの統合が進んでいますが、そのようなパイプラインは依然として配布外の画像データに対して脆弱であり、臨床業務で予期せぬ動作を引き起こす可能性があります。骨盤磁気共鳴画像法 (MRI) のディープラーニングベースの異常検出はほとんど未開発のままであり、完全自動化の実現可能性についての透明性のある評価は限られています。私たちは、骨盤および脳 MRI 用の完全に自動化された教師なしの異常検出フレームワークを開発し、評価しました。公開データセットからの参照画像を使用して 2 段階のフレームワーク (骨盤 MRI 用の LUND-PROBE、脳 MRI 用の IXI、fastMRI、および fastMRI+) をトレーニングしました。最初の段階では、MRI スライスが個別のトークンに圧縮されました。 2 番目では、通常のトークンの配布がモデル化されました。異常の証拠は、知覚画像の違いと負の対数尤度に基づくトークンサプライズスコアを組み合わせることによって推定されました。自動検出は、合成全体的および実際の臨床的異常を含む骨盤 MRI と、臨床的に注釈が付けられた fastMRI+ 異常を含む脳 MRI で評価されました。感度、特異度、受信者動作特性曲線下面積 (AUC)、および正常に保持されなかった場合の偽陽性挙動が評価されました。このフレームワークは、骨盤 MRI および脳 MRI でそれぞれ 0.97 (95% CI、0.95 ~ 0.98) および 0.81 (95% CI、0.74 ~ 0.87) の AUC で、隠れた評価コホート全体にわたって確実な検出を達成しました。ヒートマップ分析により、検出された異常とグラウンドトゥルースの位置との間の強い空間的一致が示され、位置特定の精度と解釈可能性が裏付けられました。これらの結果は、下流の AI ベースのタスクを侵害する可能性が高い画像領域の透過的な可視化により、放射線治療ワークフローの自動 MRI 品質管理レイヤーとして教師なし異常検出の可能性を裏付けています。

原文 (English)

Catching magnetic resonance imaging outliers in artificial intelligence-supported radiotherapy workflows: unsupervised detection and localization of image anomalies using deep learning

Artificial intelligence is increasingly integrated into radiotherapy workflows, yet such pipelines remain vulnerable to out-of-distribution image data that may introduce unexpected behavior in clinical tasks. Deep learning-based anomaly detection for pelvic magnetic resonance imaging (MRI) remains largely unexplored, and transparent evaluation of its feasibility for full automation is limited. We developed and evaluated a fully automated, unsupervised anomaly-detection framework for pelvic and brain MRI. A two-stage framework was trained on reference images from public datasets: LUND-PROBE for pelvic MRI, and IXI, fastMRI, and fastMRI+ for brain MRI. In the first stage, MRI slices were compressed into discrete tokens; in the second, the distribution of normal tokens was modeled. Anomaly evidence was estimated by combining perceptual image differences with token-surprisal scores based on negative log-likelihood. Automated detection was evaluated on pelvic MRI with synthetic global and real clinical anomalies, and on brain MRI with clinically annotated fastMRI+ abnormalities. Sensitivity, specificity, area under the receiver operating characteristic curve (AUC), and false-positive behavior in held-out normal cases were assessed. The framework achieved robust detection across hidden evaluation cohorts, with AUCs of 0.97 (95% CI, 0.95-0.98) and 0.81 (95% CI, 0.74-0.87) for pelvic and brain MRI, respectively. Heatmap analysis showed strong spatial agreement between detected anomalies and ground-truth locations, supporting localization accuracy and interpretability. These results support the potential of unsupervised anomaly detection as an automated MRI quality-control layer for radiotherapy workflows, with transparent visualization of image regions likely to compromise downstream AI-based tasks.

13:00 JST画像/動画生成

Rotation-Invariant Spherical Watermarking via Third-Order SO(3) Representation Coupling

Reliable watermarking of panoramic imagery is fundamentally challenged by arbitrary 3D rotations. As panoramas are defined on the sphere, t…

13:00 JSTLLM/生成AIビジネス/資金調達

Models That Know How Evaluations Are Designed Score Safer

The validity of AI safety evaluations depends on models behaving consistently across controlled and deployment settings. Prior work has ide…

13:00 JST研究/論文

Silent Failures in Federated Personalization of Foundation Models

Foundation models are increasingly personalized on decentralized private data through federated learning and are now deployed at scale unde…

13:00 JST研究/論文

Patcher: Post-Hoc Patching of Backdoored Large Language Models

Large language models remain vulnerable to jailbreak backdoor attacks, where adversaries poison safety alignment data to embed hidden trigg…

13:00 JSTロボティクス

CoRe-MoE: 歩行適応を備えた複数地形ヒューマノイド移動のための専門家の対照的な再重み付け混合

人間は主に、不必要に複雑な動作パターンに頼ることなく、複雑な地形を横断するために歩いたり走ったりすることに頼っています。同様に、人型ロボットは、自然で安定した移動を維持しながら、歩行と走行の間のスムーズな移行を達成する必要があります。ただし、単一のポリシー内で歩行遷移と複数の地形への適応を統合することは、勾配の干渉と、地形に依存する視覚的および動的変化によって引き起こされる分布のシフトのため、依然として困難です。専門家混合 (MoE) アーキテクチャは複数のスキルの干渉を軽減できますが、単純な共同トレーニングでは明確な専門知識が得られないことが多く、効果が制限されます。これらの課題に対処するために、私たちは地形適応から歩行生成を切り離す 2 段階の強化学習フレームワークである CoRe-MoE を提案します。第 1 段階では、スムーズな移行で自然な歩行と走行の動作を生成するための安定した移動ポリシーが学習されます。第 2 段階では、地形認識 MoE ブランチが導入され、ゲーティング ネットワークを形成するという対照的な目的でトレーニングされ、構造化された地形表現をキャプチャして専門家の専門化を促進できるようになります。最終的なアクションは、基本歩行ポリシーと地形認識ブランチの重み付けされた融合によって取得され、ポリシーが複雑な地形に適応しながら安定した移動パターンを維持できるようにします。広範なシミュレーション結果は、提案された方法が成功率、移動の安定性、および複数の地形への適応性の点でベースラインのアプローチよりも優れていることを示しています。さらに、Unitree G1 ヒューマノイド ロボットへのゼロショット展開により、当社のフレームワークの有効性が検証され、外乱下でも正確な足場の配置と動的安定性を維持しながら、階段、坂道、段差、障害物、屋外の構造化されていない地形での堅牢な歩行と走行が実現されます。

原文 (English)

CoRe-MoE: Contrastive Reweighted Mixture of Experts for Multi-Terrain Humanoid Locomotion with Gait Adaptation

Humans primarily rely on walking and running to traverse complex terrains. Similarly, humanoid robots should be able to smoothly transition between walking and running while maintaining natural and stable locomotion. However, unifying gait transition and multi-terrain adaptation within a single policy remains challenging due to gradient interference between tasks and the distribution shift caused by terrain variations. Although Mixture-of-Experts (MoE) architectures can mitigate multi-skill interference, direct joint training often fails to achieve clear expert specialization. To address these challenges, we propose CoRe-MoE, a two-stage reinforcement learning framework that decouples gait generation from terrain adaptation. In the first stage, a stable locomotion policy is learned to produce natural walking and running behaviors with smooth transitions. In the second stage, a terrain-aware MoE branch is introduced, and the gating network is trained with a contrastive objective to learn structured terrain representations and promote expert specialization. The final action is obtained through weighted fusion of the base gait policy and the terrain-aware branch, enabling the policy to preserve stable locomotion while adapting to complex terrains. Extensive simulation results demonstrate that the proposed method outperforms baseline approaches in terms of success rate, locomotion stability, and multi-terrain adaptability. Furthermore, zero-shot deployment on a Unitree G1 humanoid robot validates the effectiveness of our framework, achieving robust walking and running across stairs, slopes, steps, obstacles, and unstructured outdoor terrains while maintaining accurate foothold control and dynamic stability.

13:00 JSTロボティクスビジネス/資金調達研究/論文

Benchmarking Vision-Language-Action Models on SO-101: Failure and Recovery Analysis

Vision-Language-Action (VLA) models have demonstrated strong generalization in robotic manipulation, yet existing evaluations are primarily…

13:00 JSTLLM/生成AILlamaQwen

ロールプレイングをするとき、モデルは自分の言うことを信じますか?

言語モデルは、「地球が太陽の周りを回っている」と述べ、アリストテレスをロールプレイする場合にはその反対を主張することができます。最近の研究では、ペルソナの採用が言語モデルの動作の基本であり、モデルは特定のコンテキストに最も適切なペルソナを常に選択するものであると主張しています。このようなロールプレイングは単にモデルの出力を変更するだけなのでしょうか、それともモデルが内部的に真実であると表現するものにも影響を与えるのでしょうか?私たちはこの質問を線形真実調査で研究し、その調査を現代のコンセンサスとは異なる可能性の高い信念を持つ歴史上の人物をロールプレイする LLM に適用します。各ペルソナについて、そのペルソナが支持した可能性が高い虚偽の主張 (*時代の信念*) と、そのペルソナが支持しなかったであろうトピックに一致する虚偽の主張 (*時代の偽*) を比較します。プロンプト、コンテキスト内学習、および教師付き微調整を通じて、ペルソナ誘導は、時代に信じられている発言を同様に誤った代替案よりも抑制しますが、全体としては誤ったものとして分類されたままです。したがって、ロールプレイは、モデルが内部的に真実として表現しているものよりも、モデルが言うことをシフトさせます。これを、緊急ミスアライメント (EM) を示す有害なアドバイスに基づいてトレーニングされたモデルと対比します。 3 つのモデル ファミリ (Qwen 2.5 14B、Qwen 3 8B、および Llama 3.3 70B) にわたって、それらの誤った主張は、プローブ空間の真の領域に向かって大幅に移動し、ロールプレイでは約 6 分の 1 であるのに対し、挑戦ではおよそ半分の時間で防御され、下流の推論で使用されます。したがって、ロールプレイと創発的な不整合は、信念の内在化のスペクトル上の点であり、ロールプレイはほとんど表現を変更せずにモデルが言うことを変更しますが、創発的な不整合は、偽の主張を完全に真実としてマークすることなく、その内部表現をシフトします。

原文 (English)

When Roleplaying, Do Models Believe What They Say?

Language models can state that "the Earth orbits the Sun" and, when role-playing Aristotle, assert the opposite. Recent work argues that persona adoption is fundamental to how language models operate, with models constantly selecting the most appropriate persona for a given context. Does such role-playing merely change the model's outputs, or does it also affect what the model internally represents as truthful? We study this question with linear truth probes, applying them to LLMs role-playing historical personas whose likely beliefs differ from modern consensus. For each persona, we compare false claims the persona would likely have endorsed (*era-believed*) with topic-matched false claims they would not have endorsed (*era-false*). Across prompting, in-context learning, and supervised fine-tuning, persona induction suppresses era-believed statements less than equally false alternatives, yet they remain classified as false overall. Role-play therefore shifts what these models say more than what they internally represent as true. We contrast this with models trained on harmful advice that exhibit Emergent Misalignment (EM). Across three model families (Qwen 2.5 14B, Qwen 3 8B, and Llama 3.3 70B), their false claims move substantially toward the true region of probe space, are defended under challenge roughly half the time versus about a sixth for role-play, and are used in downstream reasoning. Role-play and Emergent Misalignment thus are points on a spectrum of belief internalization, where role-play changes what a model says with little representational change, while Emergent Misalignment shifts the internal representation of false claims without fully marking them as true.

13:00 JSTエージェント

AI エージェントは私たちを無意味な仕事から解放してくれるでしょうか?人間中心の分析

AIエージェントが労働者を仕事の退屈な部分から解放してくれると主張する人もいるが、労働者自身がどのタスクを自動化すべきかをどのように特定するのかについてはほとんど知られていない。これまでの研究は職業に焦点を当てており、労働者が同じ役割内のタスク間でさまざまなレベルの意味を経験していることを見落としていました。私たちは、グレーバーのブルシット ジョブ理論に基づいたタスク レベルの分析でこのギャップに対処します。 171 の職場タスクに対する 202 人の従業員からの評価を使用して、(1) でたらめと認識される 5 項目の尺度を検証し、(2) でたらめと認識されると AI への委任への欲求を強く予測することを示し、(3) そのようなタスクは人間の監督があまり必要ないとみなされることも発見しました。これらの調査結果を総合すると、でたらめとみなされるタスクは AI 委任の自然な候補であり、労働者の好みと実現可能性が一致していることが示唆されます。

原文 (English)

Will AI Agents Free Us From Meaningless Work? A Human-Centered Analysis

Some claim that AI agents will free workers from the boring parts of their jobs, yet little is known about how workers themselves identify which tasks should be automated. Prior research focuses on occupations, overlooking that workers experience varying levels of meaning across tasks within the same role. We address this gap with a task-level analysis grounded in Graeber's theory of bullshit jobs. Using ratings from 202 workers on 171 workplace tasks, we (1) validate a five-item scale of perceived bullshitness, (2) show that perceived bullshitness strongly predicts desire for AI delegation, and (3) find that such tasks are also seen as requiring less human oversight. Together, these findings suggest that tasks perceived as bullshit are natural candidates for AI delegation, aligning worker preferences with perceived feasibility.

13:00 JSTLLM/生成AI

Quickest Detection of Hallucination Onset: Delay Bounds and Learned CUSUM Statistics

Token-level hallucination detectors are evaluated as classifiers, by AUC over all tokens, yet a streaming monitor is judged by its reaction…

13:00 JSTLLM/生成AI画像/動画生成ロボティクス

Bounding Boxes as Goals: Language-Conditioned Grasping via Neuro-Symbolic Planning

For robotics to be effectively integrated into household or industrial environments, machines must adapt to natural-language prompts in rea…

13:00 JSTエージェント

MAStrike: Shapley-Guided Collusive Red-Teaming on Multi-Agent Systems

Hierarchical multi-agent systems (MAS) are rapidly being deployed in high-stakes workflows across domains such as finance and software engi…

13:00 JSTLLM/生成AI

Order Is Not Control: Driven-Dissipative Response Laws Across Artificial and Biological Systems

AI alignment, interpretability, steering, and neural perturbation studies identify order-inducing objects. We argue that order is not contr…

13:00 JSTLLM/生成AI

TWLA: Achieving Ternary Weights and Low-Bit Activations for LLMs via Post-Training Quantization

Large language models (LLMs) exhibit exceptional general language processing capabilities, but their memory and compute costs hinder deploy…

13:00 JST研究/論文

MP3: Multi-Period Pattern Pre-training for Spatio-Temporal Forecasting

Spatio-Temporal forecasting is crucial in diverse fields, such as transportation, climate, and energy. Urban spatio-temporal data exhibits…

13:00 JSTLLM/生成AI

Ontology Memory-Augmented ASR Correction for Long Text-Speech Interleaved Conversations

Automatic speech recognition (ASR) correction has traditionally focused on isolated utterances or short local contexts. However, as text an…