Skip to the content.

AIニュース 2026-06-10

自動生成: 2026-06-10 13:13 JST

← トップに戻る

過去24時間以内に公開された記事を、同じ話題ごとに1つのストーリーカードへまとめ、出典・トピック・要約とともに掲載しています。要約は各フィード提供文の冒頭を整形したもので、本文は各リンク先をご覧ください。

📌 今日の要点 TOP7

  1. Fluid, natural voice translation with Gemini 3.5 Live TranslateGoogle DeepMind

    Gemini 3.5 Live Translate brings near real-time, natural speech trans…

  2. How engineers at Nextdoor use Codex to build without limitsOpenAI

    How engineers at Nextdoor use Codex with GPT-5.5 to investigate hard-…

  3. Introducing Gemma 4 12B: a unified, encoder-free multimodal modelGoogle DeepMind
  4. Powering the future of robotics in EuropeGoogle DeepMind
  5. What Codex unlocks for NotionOpenAI

    How Notion uses Codex to one-shot specs, build AI Voice Input for the…

  6. Anthropicの最新AI「Fable 5」、試すなら今? Claudeのレート制限リセット サブスクで使えるのは6月22日までITmedia AI+

    米Anthropicは、チャットAI「Claude」の5時間および週次のレート制限をリセットしたと発表した。最上位の「Mythosクラス」…

  7. WWDC 2026: Everything announced on Siri AI, iOS 27, Apple Intelligence, and moreTechCrunch AI

    Apple primarily made the case for an improved experience with its lon…

トピック別件数

日本語メディア8件

ITmedia AI+ (日本語)

11:19 JSTLLM/生成AIAnthropicClaude2媒体が報道

Anthropicの最新AI「Fable 5」、試すなら今? Claudeのレート制限リセット サブスクで使えるのは6月22日まで

米Anthropicは、チャットAI「Claude」の5時間および週次のレート制限をリセットしたと発表した。最上位の「Mythosクラス」に属するAIモデル「Claude Fable 5」を試すよう促している。

出典:ITmedia AI+ITmedia AI+TechCrunch AITechCrunch AI
10:36 JSTLLM/生成AI

JR東「みどりの窓口」に生成AI導入検証 乗客と対話→係員に引き継ぎ NECと共同

利用者が音声でAIと対話し、きっぷ購入に必要な情報を整理した上で窓口係員に引き継ぐ。

08:00 JSTその他

大阪ガスが日本IBM、オージス総研とパートナーシップ締結 AIを軸としたシステム変革とは

大阪ガスとオージス総研、日本IBMの3社が、AIを軸にした次世代ITシステムに向けて共創パートナーシップを結んだ。既存システムのモダナイゼーションやAI駆動開発、セキュリティ対策、人材育成などでの検討と試行を進めるとしている。

08:00 JSTLLM/生成AI

考えるSaaSは死に、SoRが生き残る──急成長中Sansan「Contract One」から読み解くリーガルテックの明暗

契約業務系のリーガルテックは、大きく分けて「契約レビュー」と「契約管理」の2つ。このうち、契約レビューは生成AIの影響が早期に表れたSaaS領域の一つだ。明暗を分けた線は、どこにあるのか。

07:00 JSTエージェント

“机の下でこっそり”AI使う――セールスフォース社長のAIエージェント活用術とは

AIエージェント製品に注力する米Salesforce。日本法人社長も「日常的に使っている」という。その活用方法とは。

07:00 JSTその他

「猫も杓子もAI」な現状は今後も続くのか?【後編】AI時代に必要な3つの検討事項

近年「製品セキュリティ」と呼ばれ始めたセキュリティの新分野に関する事象を紹介し考察する本連載。今回は、「AIの今後」について筆者が必要だと考えている「3つの重要検討事項」について述べる。

07:00 JST規制/政策

政府・著名人のInstagramアカウントが次々に乗っ取り被害 原因はMetaのAIアシスタント?

米宇宙軍の幹部やオバマ元大統領時代のホワイトハウスが使っていたInstagramのアカウントが何者かに乗っ取られ、イラン支持の画像やメッセージが投稿される被害が相次いだ。攻撃者は米Metaの「AIサポートアシスタント」が抱える脆弱性を突き、狙ったアカウントのパスワードをリセット…

07:00 JSTLLM/生成AI

AIがシステムの弱点を暴き、AIが攻撃する時代へ 自治体サイバー防衛の「新・生存戦略」

生成AIの進化により、ソフトウェアの弱点が発見されるようになり、サイバー攻撃を取り巻く環境は大きく変わりつつある。これまでなら見過ごされていた問題が明らかになる一方で、AIを活用した攻撃の自動化も進み「防ぎ切ること」を前提とした従来の対策だけでは十分とは言えなくなってきた。AI…

海外メディア9件

TechCrunch AI (英語)

09:26 JSTその他Google

Google just fired a warning shot in the AI subscription price wars

Google just made it significantly cheaper to enjoy its budget AI subscription tier.

08:17 JSTその他

How Justin Ernest invested nearly $500M into hot startups without a traditional VC fund

Instead of spending a year raising a formal venture fund, the Sabertooth VC founder used a captive network of LPs to invest in startups lik…

05:50 JSTロボティクス

Hey, Siri, here’s what I actually want from AI

I'm desperate for a personal AI assistant, but do I really want to become the kind of person who can't function without the friendly robot…

03:56 JSTその他

Can tech companies learn to love cheaper AI models?

If those same AI workloads can be handled by cheaper models without affecting quality, it would mean a massive shift in the economics of AI.

03:04 JSTその他

WWDC 2026: Everything announced on Siri AI, iOS 27, Apple Intelligence, and more

Apple primarily made the case for an improved experience with its long-standing Siri assistant, which like most other announcements had a h…

01:09 JSTLLM/生成AIAnthropicOpenAI

It’s not FAANG anymore. It’s MANGOS.

With SpaceX, Anthropic, and OpenAI all eyeing massive public debuts, the tech industry may soon have a new class of corporate overlords — a…

22:47 JSTビジネス/資金調達

Sandstone raises $30M to bring AI to in-house legal teams

Sandstone's Series A comes just six months after a Sequoia-led seed round.

22:00 JSTその他

Lovable says it has hit $500M in annualized revenue, with 1 million new projects a week

Lovable says it has now surpassed $500 million in annualized run-rate revenue and its users are building businesses and replacing internal…

21:00 JSTビジネス/資金調達

How an e-scooter founder raised $5 million to build space data centers

Orbital founder Euwyn Poon built 250,000 scooters at Spin. Now he wants to launch 10,000 space data centers.

公式ブログ5件

OpenAI (英語)

21:00 JSTLLM/生成AIエージェントGPT / ChatGPT

How engineers at Nextdoor use Codex to build without limits

How engineers at Nextdoor use Codex with GPT-5.5 to investigate hard-to-reproduce issues, build across platforms, and focus on product outc…

19:00 JSTエージェント

What Codex unlocks for Notion

How Notion uses Codex to one-shot specs, build AI Voice Input for the web, and multiply engineering power across small teams.

Google DeepMind (英語)

00:16 JSTLLM/生成AIGoogleGemini

Fluid, natural voice translation with Gemini 3.5 Live Translate

Gemini 3.5 Live Translate brings near real-time, natural speech translation to Google AI Studio, Google Translate and Google Meet.

23:02 JSTロボティクス
論文407件

arXiv cs.AI (英語)

13:00 JST研究/論文

ビジネス世界モデル

生産性の向上、コストの削減、製品とサービスの強化を目的として、企業は AI 対応ツールをますます導入しています。ただし、AI の変革の可能性は、事前定義されたタスクの自動化を超えて広がります。それは、インテリジェント システムが高レベルの戦略目標に基づいてビジネス イニシアチブを計画、最適化、実行できるようにすることにあります。このペーパーでは、ビジネスおよび組織環境に特化したワールド モデルであるビジネス ワールド モデル (BWM) の概念とアーキテクチャを紹介します。人工知能、認知科学、制御理論の世界モデルからインスピレーションを得た BWM は、ビジネスの状態、ダイナミクス、制約、目標、実行可能なアクション空間をエンコードして、自律的な意思決定をサポートします。私たちは、ビジネスの状態、ダイナミクス、およびアクションが主要なビジネス エンティティに関連付けられる、ビジネス セマンティクス中心の定式化を提案します。このフレームワーク内で、エージェントは代替アクションのシーケンスをシミュレートし、将来のビジネス成果に対するそれらの影響を推定し、不確実性の下でのトレードオフを評価できます。提案されたアーキテクチャは、意味論的なデータ表現、確率論的な機械学習モデル、決定論的なビジネス ルール、および明示的なアクション空間を、計画と反事実推論のための一貫した構造に統合します。 BWM の個々のコンポーネントは新しいものではありませんが、BWM の貢献は、それらをビジネス イニシアチブのための実行可能な内部シミュレーターとして組織化することにあります。この作業により、指示ベースの実行から目標主導の計画と実行に移行できる自律的なビジネス システムの概念基盤が確立されます。

原文 (English)

Business World Model

Businesses are increasingly adopting AI-enabled tools to improve productivity, reduce costs, and enhance products and services. However, the transformative potential of AI extends beyond automating predefined tasks: it lies in enabling intelligent systems to plan, optimize, and execute business initiatives from high-level strategic objectives. This paper introduces the concept and architecture of a business world model (BWM), a world model specialized for business and organizational environments. Inspired by world models in artificial intelligence, cognitive science, and control theory, a BWM encodes business states, dynamics, constraints, objectives, and feasible action space to support autonomous decision-making. We propose a business-semantics-centric formulation in which business states, dynamics and actions are linked to key business entities. Within this framework, agents can simulate alternative action sequences, estimate their effects on future business outcomes, and evaluate trade-offs under uncertainty. The proposed architecture integrates semantic data representations, probabilistic machine learning models, deterministic business rules, and explicit action space into a coherent structure for planning and counterfactual reasoning. Although its individual components are not new, the contribution of BWM lies in organizing them as an executable internal simulator for business initiatives. This work establishes a conceptual foundation for autonomous business systems capable of moving from instruction-based execution toward goal-driven planning and execution.

13:00 JSTエージェントGPT / ChatGPTGemma

ファウンデーションモデルエージェントにおける展開時の記憶

ファウンデーション モデル エージェントは、インタラクション全体にわたってユーザーを記憶する長寿命システムになっており、記憶は単にモデルの重みの特性ではなく、明示的なデプロイメント時の関数になっています。既存の研究では、パラメトリック記憶に取り組んだり、固定メモリ構成を監査したりしていますが、メモリ設計の選択がパーソナライゼーションのユーティリティ、抽出リスク、および削除の忠実度をどのように共同で形成するかを特徴づけていません。私たちはこの表面を展開時の記憶として研究し、パーソナライゼーション・リコール(PR)と敵対的抽出率(AER)によって測定されるプライバシー・ユーティリティ・フロンティアとしてエージェントの記憶を定式化し、要約積極性、取得幅(k)、および削除モードという3つの記憶設計ノブを徹底的に調べます。さらに、削除された情報が派生メモリ層から復元可能かどうかを定量化するために、忘却残存スコア (FRS) を導入します。 LongMemEval では、キーファクトの要約によってカナリア抽出が Gemma 3 12B で 76%、GPT-4o-mini で 64% 削減され、パーソナライゼーションの再現率がほぼ維持されます。重要なのは、コンテンツが圧縮されてしまうと、k を増やしてもリークが復元されなくなることです。ただし、同じ圧縮は削除の忠実度の失敗を引き起こします。生のみの削除では、インスタンスの約 20% で復元可能な派生サマリー コピーが残り、パイプライン全体のパージまたは廃棄のリダクションのみが最悪層の残留物をゼロにします。これらの結果を総合すると、エージェントの永続的な記憶は、エージェントが何を思い出すのに役立つのか、何を抽出可能にするのか、何を実際に消去できるのかによって評価される、第一級の記憶メカニズムとして評価される必要があることが証明されています。

原文 (English)

Deployment-Time Memorization in Foundation-Model Agents

Foundation-model agents are increasingly long-lived systems that remember users across interactions, making memorization an explicit deployment-time function rather than solely a property of model weights. Existing work addresses parametric memorization or audits fixed memory configurations, but does not characterize how memory-design choices jointly shape personalization utility, extraction risk, and deletion fidelity. We study this surface as deployment-time memorization, formulating agent memory as a privacy-utility frontier measured by Personalization Recall (PR) and Adversarial Extraction Rate (AER), and sweeping three memory-design knobs: summarization aggressiveness, retrieval breadth (k), and deletion mode. We further introduce the Forgetting Residue Score (FRS) to quantify whether deleted information remains recoverable from derived memory tiers. On LongMemEval, key-fact summarization reduces canary extraction by 76% on Gemma 3 12B and 64% on GPT-4o-mini while preserving nearly all personalization recall; critically, once content is compressed away, increasing k no longer restores leakage. The same compression, however, induces a deletion-fidelity failure: raw-only deletion leaves derived summary copies recoverable in approximately 20% of instances, and only full-pipeline purge or tombstone redaction drives worst-tier residue to zero. Together, these results establish that persistent agent memory must be evaluated as a first-class memorization mechanism -- assessed by what it helps agents recall, what it makes extractable, and what it can truly erase.

13:00 JST研究/論文

AI支援最適化における探索的応答性と適応的剛性

この論文は、AI 支援最適化の下での探索的適応の理論を開発します。中心的な議論は、AI システムの長期的な適応効果は、予測支援が探索的応答性自体とどのように相互作用するかに決定的に依存するということです。我々は、このメカニズムを、複数の局所的に強化された構成によって特徴付けられる険しい認識論的ランドスケープ上で認知、制度、および技術システムが進化する動的フレームワークを使用して形式化します。モデルの中心的な状態変数は適応応答性であり、変化する条件下でなじみのない概念および制度の軌道をたどるシステムの能力を測定します。収束予測体制下では、AI システムが探索的関与の代わりとなり、適応応答性が低下し、準安定トラッピング、ヒステリシス、早期収束、探索崩壊ダイナミクスが生成され、システムが局所的には効率的になるものの全体的には硬直化します。このフレームワークでは、AI システムが探索的検索、概念の横断、適応型モビリティを強化する、対照的な探索強化体制も特定しています。したがって、有効な置換パラメータは応答性に依存します。弱い探索ルーチンを備えたシステムは探索的置換に対してより脆弱ですが、すでに高い適応応答性を備えているシステムは AI 支援を使用して、起伏の多い地形全体にわたる探索的機動性を拡張する可能性があります。したがって、AI の長期的な適応効果は、AI の能力自体だけでなく、制度的構造、開発状況、および人間と機械の相互作用のアーキテクチャにも依存します。

原文 (English)

Exploratory Responsiveness and Adaptive Rigidity under AI-Assisted Optimization

This paper develops a theory of exploratory adaptation under AI-assisted optimization. The central argument is that the long-run adaptive effects of AI systems depend critically on how predictive assistance interacts with exploratory responsiveness itself. We formalize this mechanism using a dynamical framework in which cognitive, institutional, and technological systems evolve over rugged epistemic landscapes characterized by multiple locally reinforced configurations. A central state variable in the model is adaptive responsiveness, which measures the capacity of a system to traverse unfamiliar conceptual and institutional trajectories under changing conditions. Under convergent predictive regimes, AI systems substitute for exploratory engagement, reducing adaptive responsiveness and generating metastable trapping, hysteresis, premature convergence, and exploration-collapse dynamics in which systems become locally efficient but globally rigid. The framework also identifies contrasting exploration-enhancing regimes in which AI systems amplify exploratory search, conceptual traversal, and adaptive mobility. The effective substitution parameter is therefore responsiveness-dependent: systems possessing weak exploratory routines are more vulnerable to exploratory substitution, whereas systems already possessing high adaptive responsiveness may use AI assistance to expand exploratory mobility across rugged landscapes. The long-run adaptive effects of AI consequently depend not only on AI capability itself, but also on institutional structure, developmental context, and the architecture of human-machine interaction.

13:00 JST研究/論文

予測支援と探索的圧縮の時間的ダイナミクス

古典的な認知理論では、問題解決を構造化された問題空間を介した探索的検索として説明しており、反復的な相互作用により検索が徐々に効率的な表現構造に圧縮されます。予測人工知能システムは、探索的多様化が展開する前に安定化が起こり、内部で生成される探索の前にソリューションと意思決定の軌道を提供する、明確な体制を導入します。この論文は、安定化ドリフト、内因性の探索的摂動、および応答性ゲート型学習によって形作られた戦略のランドスケープにわたって注意が進化する幾何学的な動的フレームワークを開発します。予測支援は、自己生成の探索によって戦略空間のアクセス可能な領域が広がる前に、軌道を安定させる外生的な探索圧縮のプロセスとしてモデル化されています。このフレームワークにより、主に 3 つの結果が得られます。第一に、持続的な予測安定化は、探索的変動が存在する場合でも、固有の摂動の有効な影響を減衰させることにより、探索的応答性を低下させます。第二に、曲率が非対称に蓄積したり緩和したりするため、ヒステリシスが生じ、支援をやめた後の探索的可動性の回復が遅れます。第三に、発達の成果は安定化のタイミングに大きく依存しており、早期介入は、広範な表現の多様化が起こる前に、将来の探索的横断を狭めることになる。このフレームワークは、探索的エントロピー、早期収束、予測安定化後の回復の遅れに関する経験的に検証可能な予測を生成します。より広範には、この結果は、予測システムが探索的認知の幾何学そのものを再構築する可能性があることを示唆しています。

原文 (English)

Predictive Assistance and the Temporal Dynamics of Exploratory Compression

Classical theories of cognition describe problem solving as exploratory search through structured problem spaces in which repeated interaction gradually compresses search into efficient representational structures. Predictive artificial intelligence systems introduce a distinct regime in which stabilization may occur before exploratory diversification unfolds, supplying solutions and decision trajectories prior to internally generated search. This paper develops a geometric dynamical framework in which attention evolves over a landscape of strategies shaped by stabilizing drift, endogenous exploratory perturbation, and responsiveness-gated learning. Predictive assistance is modeled as a process of exogenous exploratory compression that stabilizes trajectories before self-generated exploration broadens the accessible regions of strategy space. The framework yields three main results. First, sustained predictive stabilization reduces exploratory responsiveness by attenuating the effective influence of intrinsic perturbations even when exploratory variability remains present. Second, curvature accumulates and relaxes asymmetrically, producing hysteresis and delayed recovery of exploratory mobility after assistance withdrawal. Third, developmental outcomes depend critically on the timing of stabilization, with early intervention narrowing future exploratory traversal before broad representational diversification has occurred. The framework generates empirically testable predictions concerning exploratory entropy, premature convergence, and delayed recovery following predictive stabilization. More broadly, the results suggest that predictive systems may reshape the geometry of exploratory cognition itself.

13:00 JSTLLM/生成AI画像/動画生成

感覚から意思決定まで: マルチモーダル LLM における聴覚と視覚の情報の流れ

マルチモーダル大規模言語モデル (MLLM) は聞いたり見たりすることができますが、音声信号と視覚信号は実際にどのようにネットワークを通過して答えを形成するのでしょうか?研究や現実世界の応用においてその役割が増大しているにもかかわらず、オーディオおよびビジュアルトークンが最終予測に影響を与える内部経路は依然としてよく理解されていません。この研究では、オーディオビジュアル大規模言語モデル (AVLLM) 内のオーディオビジュアル情報フローを調査し、AVLLM が 2 つの入力構成 (オーディオビジュアル ビデオと複数のインターリーブされたオーディオビジュアル アイテム) 全体でオーディオおよびビジュアル情報をどのようにルーティング、利用、統合するかを追跡します。オーディオビジュアルビデオの場合、AVLLM は VLM と VideoLLM で確立された一連の情報フロー経路に従い、タスクの各モダリティへの依存度に比例してオーディオとビジュアルの寄与がこの経路に沿って流れることがわかりました。複数のインターリーブされたオーディオビジュアルアイテムを含む設定では、このルーティングは異なる並列ストリームに移行します。さらに、視聴覚やその他のトークン タイプは、情報が LLM に転送されると破棄でき、モデルの予測への影響は最小限、またはわずかな改善でさえ、複数のタスクとデータセットにわたって一般化され、より効率的な推論が可能になることを示します。これらの発見は、複数のモデルとスケール、つまり 3B および 7B スケールの Qwen2.5-Omni と Video-SALMONN2 Plus に当てはまり、これらのフロー構造が出現する理由に関する仮説につながります。これらの結果を総合すると、AVLLM がネットワーク内で音声と視覚をどのように調整し、オーディオビジュアルおよびより広範な MLLM における解釈可能性、設計、効率の進歩の次の波の基礎を築くのかについて、初めて一貫した全体像が得られます。

原文 (English)

From Senses to Decisions: The Information Flow of Auditory and Visual Perception in Multimodal LLMs

Multimodal Large Language Models (MLLMs) can listen and see, but how do audio and visual signals actually travel through the network to shape an answer? Despite their growing role in research and real-world applications, the internal pathways through which audio and visual tokens influence the final prediction remain poorly understood. In this study, we examine audio-visual information flow inside Audio-Visual Large Language Models (AVLLMs), tracing how AVLLMs route, utilize, and integrate audio and visual information across two input configurations, audio-visual video and multiple interleaved audio-visual items. We find that for audio-visual video, AVLLMs follow the sequential information flow pathway established for VLMs and VideoLLMs, with audio and visual contribution flowing along this pathway in proportion to the task's reliance on each modality. In settings with multiple interleaved audio-visual items, this routing shifts to different parallel streams. Furthermore, we demonstrate that audio-visual and other token types can be discarded once their information is transferred to LLM, with minimal impact on the model's prediction or even slight improvement, generalizing across multiple tasks and datasets, enabling more efficient inference. These findings hold across multiple models and scales, Qwen2.5-Omni and Video-SALMONN2 Plus at 3B and 7B scales, leading to hypotheses on why these flow structures emerge. Together, these results deliver the first coherent picture of how AVLLMs orchestrate sound and sight inside the network and lay the groundwork for the next wave of interpretability, design, and efficiency advances in audio-visual and broader MLLMs.

13:00 JSTLLM/生成AIエージェントClaudeGPT / ChatGPTMicrosoft

少ないコンテキストでより良いエージェント: 長期的なツールを使用する LLM エージェントのための効率的なコンテキスト エンジニアリング

エンタープライズ ワークフローの自律エージェントとして導入された大規模な言語モデルは、重要な課題に直面しています。エンタープライズ システムからのツールの冗長な応答により、コンテキスト オーバーフロー、古い状態のエラー、および高い推論コストが発生する可能性があります。モデル コンテキスト プロトコル ツールを使用して、Microsoft Dynamics 365 Finance and Operations の自動経費明細化におけるこの問題を調査します。 50 タスクのホテル経費ベンチマークで 4 つの GPT-5 構成を評価します。ユーザー モデルなし、完全な会話履歴、最後の 5 つのツールの通話/応答ペアに枝刈りされたコンテキスト、および自動要約による枝刈りです。結果は 5 回の独立した実行にわたって平均され、コンテキスト エンジニアリングの比較ではユーザー モデルが一定に保たれます。ユーザーモデルを使用しないベースラインでは、完全な項目化は 8.0% のみ達成されます。フルコンテキスト保持により完了率は 71.0% に向上しますが、ベンチマークごとに 1,480,996 個のトークンと 14.56 時間を消費します。最後の 5 つのツール呼び出しまでプルーニングすると、完了率が 79.0% に向上し、トークンの使用量が 535,274 に、実行時間が 5.39 時間に削減されます。要約を追加すると、553,374 トークンと 5.79 時間で、91.6% の完全な明細化と 99.64% の平均金額の明細化という最良の結果が得られます。さらに、信頼区間、効果量分析、枝刈りおよび要約ウィンドウの感度、失敗分析、3 つのカテゴリにグループ化された 5 つの経費タイプにわたる結果、および Claude Sonnet 4.5 を使用したクロスモデル証拠を報告します。これらの結果は、このクラスのエンタープライズ ツール使用ワークフローでは、最近のツール インタラクションを選択的に保持し、コンパクトに要約することで、履歴全体を保持する場合と比較して、信頼性と効率性の両方を向上できることを示しています。

原文 (English)

Less Context, Better Agents: Efficient Context Engineering for Long-Horizon Tool-Using LLM Agents

Large language models deployed as autonomous agents for enterprise workflows face a key challenge: verbose tool responses from enterprise systems can cause context overflow, stale-state errors, and high inference cost. We study this problem in automated expense itemization in Microsoft Dynamics 365 Finance and Operations using Model Context Protocol tools. We evaluate four GPT-5 configurations on a 50-task hotel expense benchmark: no user model, full conversation history, context pruned to the last 5 tool call/response pairs, and pruning with automated summarization. Results are averaged across 5 independent runs, with the user model held constant for the context-engineering comparison. The no-user-model baseline achieves only 8.0% complete itemization. Full-context retention improves completion to 71.0%, but consumes 1,480,996 tokens and 14.56 hours per benchmark. Pruning to the last 5 tool calls improves completion to 79.0% while reducing token use to 535,274 and runtime to 5.39 hours. Adding summarization achieves the best result: 91.6% complete itemization and 99.64% average amount itemized, with 553,374 tokens and 5.79 hours. We further report confidence intervals, effect-size analysis, sensitivity over pruning and summary windows, failure analysis, results across five expense types grouped into three categories, and cross-model evidence with Claude Sonnet 4.5. These results show that, for this class of enterprise tool-use workflow, selective retention of recent tool interactions plus compact summarization can improve both reliability and efficiency compared with full-history retention.

13:00 JST研究/論文

ミニマリストの遺伝的プログラミング

遺伝的プログラミング (GP) は 2 つの重要な洞察に基づいています。まず、あらゆる学習タスクは基本的にプログラム帰納問題として提起でき、その目標は構文ツリーとして表現される記号階層モデルを構築することです。 2 番目に、このタスクを検索問題として提示し、進化を使用して目的のモデルを見つけます。 GP は提案されて以来、幅広いタスクや問題領域で顕著な成果を上げてきました。この研究は、GP の 2 番目の核となる洞察を変更することで、代わりに問題を構文導出タスクとして提起することにより、別のビューを提示します。特に、この論文は、GP と同様に生物学的にインスピレーションを得たアルゴリズムであるミニマリスト遺伝プログラミング (MGP) を紹介しますが、進化ではなく、ミニマリスト プログラムから人間の言語へのインスピレーションを得ており、構文は他の 2 つの精神システムをリンクする問題の最適な解決策として理解されています。ミニマリズムでは、中心的な計算プロセスは $MERGE$ と呼ばれるバイナリ セット形成演算子であり、これを使用して、単純なマルコフ プロセスを使用して複雑な構文構造を段階的に構築できます。 MGP は、シンボリック式の中核となる構成要素を検出し、$MERGE$ を使用してそれらを段階的に結合できます。提案されたシステムは、肥大化する傾向があるため、標準的な GP システムでは解決することが難しいことが知られている記号回帰タスクでベンチマークされます。結果は、アトミック構文オブジェクトの適切なレキシコンが選択されると、標準の GP が同じことを行うのに苦労する一連の記号回帰に対して、MGP が一貫して正確なグラウンド トゥルース モデルを生成できることを示しています。ミニマリズムによって提供される洞察は、プログラム誘導の問題に関連していることが示されており、この研究で MGP によって示された可能性に基づいてさらに調査される必要があります。

原文 (English)

Minimalist Genetic Programming

Genetic programming (GP) is based on two important insights. First, that any learning task can fundamentally be posed as a program induction problem, where the goal is to construct a symbolic hierarchical model that is expressed as a syntax tree. Second, to pose this task as a search problem, and use evolution to locate the desired model. Since it was proposed, GP has produced notable results in a wide range of tasks and problem domains. This work presents an alternative view by modifying the second core insight of GP, posing the problem as a syntactic derivation task instead. In particular, this paper presents Minimalist Genetic Programming (MGP), an algorithm that like GP is biologically inspired, but instead of evolution it takes inspiration from the Minimalist Program to human language, in which syntax is understood as an optimal solution to the problem of linking two other mental systems. In minimalism, the core computational process is a binary set formation operator called $MERGE$, than can be used to incrementally construct complex syntactic structures using a simple Markovian process. MGP is able to discover the core building blocks of the symbolic expressions, and to incrementally combined them using $MERGE$. The proposed system is benchmarked on symbolic regression tasks that are known to be difficult to solve with standard GP systems because of the propensity for bloat. Results show that when a proper lexicon of atomic syntactic objects are chosen, MGP is able to consistently produce the exact ground truth model on a set of symbolic regression where standard GP struggles to do the same. The insights provided by minimalism are shown to be relevant to the problem of program induction, and should be explored further based on the potential exhibited by MGP in this work.

13:00 JSTエージェント

体制: ActiveGraph を使用した LongMemEval で実証された、監査可能なホールドアウトゲート型改善ループ

自律的な改善ループは、通常、改善プロセスがエージェントにボルトで固定された外部の足場であるため、信頼するのが困難です。失敗はログに記録されず、診断は再実行できず、昇格または破棄の決定はエージェント自身の履歴ではなくサイドデータベースに記録されます。イベントソースのエージェント ランタイムがその摩擦を取り除き、制御された改善を一流のワークフローに変えることを示します。エージェントの状態が追加専用イベント ログの決定論的な投影である場合、失敗が記録され、実行がそのログから正確に再生され、候補パッチの範囲は型指定されたパイプライン シームに限定され、ゲートは監査可能で、すべての昇格または破棄自体がイベントになります。これを、失敗した評価を診断し、パイプライン ポイントでの修復を提案し、静的チェック、サンドボックス実行、サンプル内評価、およびホールドアウト検証の後にのみプロモートする ActiveGraph ランタイム上のループである Regimes を使用してこれを実証します。このループはターゲットに依存しません。同じ制御フローが、共通のインターフェイスを介して異なるタスクに対して実行されます。 LongMemEval-S では、主な失敗は取得ではなく調整です。証拠はすでに組み立てられたコンテキスト内にありますが、リーダーは不正確に答えます。シードされた 5 つのホールドアウト スプリットにわたって、Regimes は、最終的なホールドアウトの精度を 4 つのスプリットで +0.05 ~ +0.10、1 つのオーバープロモーション スプリットで +0.01 改善する読者プロンプト修復を発見しました。 2 つのスプリットは個別に重要であり (シード 5 は順次プロモーション構造に対して調整されていない)、スプリットは 1 つの 500 質問プールを共有するため、プールされたカウントは説明的なものにすぎません。永続的な貢献は、制御された改善ループを扱いやすくする監査可能な基盤としての ActiveGraph、それがサポートするホールドアウト ゲート ループ、各障害をパイプラインの場所にルーティングする障害レジーム分類 (ルーティングされていないベースラインを超える限界値が主な未解決の問題です)、および発見プローブとしてのプロンプト仮説です。

原文 (English)

Regimes: An Auditable, Held-Out-Gated Improvement Loop Demonstrated on LongMemEval with ActiveGraph

Autonomous improvement loops are hard to trust because the improvement process is usually external scaffolding bolted onto the agent: failures go unlogged, diagnoses cannot be replayed, and promote-or-discard decisions land in a side database rather than the agent's own history. We show that an event-sourced agent runtime removes that friction and turns controlled improvement into a first-class workflow. When the agent's state is a deterministic projection of an append-only event log, failures are recorded, a run replays exactly from its log, candidate patches scope to typed pipeline seams, gates are auditable, and every promotion or discard is itself an event. We demonstrate this with Regimes, a loop on the ActiveGraph runtime that diagnoses failed evaluations, proposes a repair at a pipeline point, and promotes it only after static checks, sandbox execution, in-sample evaluation, and held-out validation. The loop is target-agnostic: the same control flow runs against different tasks through a common interface. On LongMemEval-S the dominant failure is not retrieval but reconciliation: the evidence is already in the assembled context, yet the reader answers incorrectly. Across five seeded held-out splits, Regimes discovers reader-prompt repairs that improve final held-out accuracy by +0.05 to +0.10 in four splits and +0.01 in one over-promotion split; two splits are individually significant (seed 5 unadjusted for its sequential promotion structure), and the pooled count is descriptive only, since the splits share one 500-question pool. The durable contributions are ActiveGraph as an auditable substrate that makes controlled improvement loops tractable, the held-out-gated loop it supports, the failure-regime taxonomy routing each failure to a pipeline location (whose marginal value over an unrouted baseline is the primary open question), and the prompt-as-discovery-probe hypothesis.

13:00 JSTLLM/生成AI

RealMath-Eval: SOTA 審査員が実際の人間の推論に苦戦する理由

大規模言語モデル (LLM) は高校数学の \emph{解く}能力ではほぼ完璧なパフォーマンスを達成していますが、実際の人間の生徒の多様な推論プロセスを \emph{評価}する能力はまだ十分に検討されていません。このギャップを埋めるために、高校からの 224 件の実際の試験回答の厳密に注釈が付けられたベンチマークである \textbf{RealMath-Eval} を導入します。私たちの最初の評価では、最先端の LLM 審査員でもこの課題にはかなり苦労しており、専門家による人間の採点に対して高い平均二乗誤差 ($\sim$2.96) が見られることが明らかになりました。もっともらしい説明を探るために、このパフォーマンスを、同じ審査員が合成 LLM で生成されたソリューションを評価するコントロール設定と対比させます。私たちは明らかな「評価ギャップ」を特定します。裁判官は合成テキスト (MSE $\sim$1.17) に関してはかなり正確で一貫性がありますが、本物の学生の推論に一般化するのに苦労しています。セマンティック埋め込み分析を通じて、合成エラーは予測可能な低次元の線形部分空間への「構造崩壊」に悩まされるのに対し、人的エラーはより多様なエラー空間を形成することがわかりました。さらに、生成確率のプローブは、人間の推論にはかなり高度な情報理論的驚きが関与していることを示唆しており、学生の推論の遷移が現在のモデルではより分布から外れていることを示しています。最後に、表面レベルのスタイルの伝達ではこのギャップを埋めることができないことがわかりました。私たちの調査結果は、合成データに大きく依存している現在の LLM 評価パイプラインでは、本物の学生の数学的推論の多様性を適切に捉えていない可能性があることを示唆しています。

原文 (English)

RealMath-Eval: Why SOTA Judges Struggle with Real Human Reasoning

While Large Language Models (LLMs) have achieved near-perfect performance in \emph{solving} high-school mathematics, their ability to \emph{evaluate} the diverse reasoning processes of real human students remains under-examined. To bridge this gap, we introduce \textbf{RealMath-Eval}, a rigorously annotated benchmark of 224 real-world exam responses from high schools. Our initial evaluation reveals that even state-of-the-art LLM judges struggle significantly on this task, exhibiting a high Mean Squared Error ($\sim$2.96) against expert human grading. To probe a plausible explanation, we contrast this performance with a control setting where the same judges evaluate synthetic LLM-generated solutions. We identify a stark ``Evaluation Gap'': judges are considerably more accurate and consistent on synthetic text (MSE $\sim$1.17) but struggle to generalize to authentic student reasoning. Through semantic embedding analysis, we find that synthetic errors suffer from a ``structural collapse'' into predictable, low-dimensional linear subspaces, whereas human errors form a more diverse error space. Furthermore, generative probability probes suggest that human reasoning involves significantly higher information-theoretic surprisal, indicating that student reasoning transitions are more out-of-distribution for current models. Finally, we find that surface-level style transfer fails to close this gap. Our findings suggest that current LLM evaluation pipelines relying heavily on synthetic data may not adequately capture the diversity of authentic student mathematical reasoning.

13:00 JSTLLM/生成AI

合成根拠データを使用した教師付き微調整は現実世界の疾病予測に悪影響を与える

合成根拠データを使用した教師付き微調整は、何を予測するかだけでなく、なぜ予測するかをモデルに教えることで、臨床予測タスクにおける言語モデルのパフォーマンスを向上させると広く考えられています。私たちは、長期的な健康履歴からの 5 年間のアルツハイマー病および関連認知症 (ADRD) の予測に基づいて、この仮定を検証します。 504 構成の大規模な制御実験を通じて、理論的根拠に基づく SFT は、ラベルのみの微調整と比較して、予測パフォーマンスに一貫して大幅な悪影響を与えることがわかりました。この劣化はモデル ファミリやデータ スケール全体で持続し、推論指向の基本モデルを使用しても解決されません。重要なのは、この失敗は理論的根拠の品質が低いことで説明されないことです。人間の専門家の注釈によって、生成された理論的根拠が医学的に正確で、患者固有の証拠に忠実に基づいていることが確認され、少数ショット実験では、同じ理論的根拠をトレーニング対象ではなく推論時のデモンストレーションとして使用するとパフォーマンスが向上することが示されています。私たちは、根本原因が物語のもっともらしさと識別的最適化の間の構造的な矛盾であると特定します。私たちの研究が、理論的根拠に基づく監督がいつどのように役立つか、またいつどのように役に立たないかをより正確に理解する道を切り開き、一か八かの臨床予測のための言語モデルの責任ある開発を導くことを願っています。

原文 (English)

Supervised Fine-tuning with Synthetic Rationale Data Hurts Real-World Disease Prediction

Supervised fine-tuning with synthetic rationale data is widely assumed to improve language model performance on clinical prediction tasks by teaching models not just what to predict but why. We test this assumption on five-year Alzheimer's disease and related dementias (ADRD) prediction from longitudinal health histories. Across a large-scale controlled experiment of 504 configurations, we find that rationale-based SFT consistently and substantially hurts prediction performance relative to label-only fine-tuning. The degradation persists across model families and data scales, and is not resolved by using a reasoning-oriented base model. Crucially, the failure is not explained by poor rationale quality: human expert annotation confirms that the generated rationales are medically accurate and faithfully grounded in patient-specific evidence, and few-shot experiments show that the same rationales improve performance when used as inference-time demonstrations rather than training targets. We identify the root cause as a structural conflict between narrative plausibility and discriminative optimization. We hope our work paves the path toward a more precise understanding of when and how rationale-based supervision helps and when it does not, guiding the responsible development of language models for high-stakes clinical prediction.

13:00 JSTLLM/生成AIエージェント

Sim2Schedule: 自律露天掘り鉱山スケジューリングのためのシミュレータガイド付き LLM フレームワーク

露天掘り鉱山のスケジュール設定は、地質工学的および操業上の複雑な制約の下で経済的利益を最大化するための重要なプロセスです。混合整数線形計画法 (MILP) は数学的に最適なベースラインを提供しますが、指数関数的な計算の複雑さとリアルタイムでの適応能力の無さにより、動的な産業環境での実際の展開が制限されます。この研究では、シミュレータ駆動の大規模言語モデル (LLM) スケジューリング フレームワークが導入されています。このフレームワークでは、LLM が自律的な意思決定エージェントとして機能し、地質工学的な優先順位、抽出と処理の結合、動的な容量制約をアクション生成メカニズムに直接エンコードするカスタム シミュレータによって各ステップがガイドされます。このフレームワークは、閉じられたデータ保護された環境内で完全にゼロショットで動作し、クラウドベースの推論、ドメイン固有の微調整、または再トレーニングを必要とせずに、完全で解釈可能な抽出および処理スケジュールを生成します。信頼できる性能ベンチマークを提供するために、現実的な運用上の制約と地盤工学上の制約を組み込んだ新しい MILP 定式化が開発されています。さまざまな規模と期間のマイニング インスタンス全体で評価すると、LLM ベースのフレームワークは、計算時間を線形に拡張しながら、MILP 最適 NPV の 94\% ~ 99\% を回復します。これらの結果は、シミュレータ制約付き LLM エージェントを、複雑な運用上の制約の下での長期的な産業スケジューリングに対する従来の最適化に代わる実用的でスケーラブルな代替手段として位置づけています。

原文 (English)

Sim2Schedule: A Simulator-Guided LLM Framework for Autonomous Open-Pit Mine Scheduling

Open-pit mine scheduling is a critical process for maximizing economic return under complex geotechnical and operational constraints. While Mixed-Integer Linear Programming (MILP) provides mathematically optimal baselines, its exponential computational complexity and inability to adapt in real time limit its practical deployment in dynamic industrial environments. This work introduces a simulator-driven Large Language Model (LLM) scheduling framework in which the LLM acts as an autonomous decision-making agent, guided at each step by a custom simulator that encodes geotechnical precedence, extraction-processing coupling, and dynamic capacity constraints directly into the action generation mechanism. Operating entirely zero-shot within a closed, data-secure environment, the framework produces complete, interpretable extraction and processing schedules without cloud-based inference, domain-specific fine-tuning, or retraining. To provide a trustworthy performance benchmark, a novel MILP formulation is developed that incorporates realistic operational and geotechnical constraints. Evaluated across mining instances of varying scale and time periods, the LLM-based framework recovers between 94\% and 99\% of the MILP optimal NPV while scaling linearly in computation time. These results position simulator-constrained LLM agents as a practical and scalable alternative to classical optimization for long-horizon industrial scheduling under complex operational constraints.

13:00 JSTLLM/生成AI

コンテキスト認識から競合認識へ: LLM における知識の競合に対する対照的デコーディングの一般化

取得または拡張されたコンテキストから大規模な言語モデルが生成される場合、外部コンテキストとパラメトリック事前分布の間の競合が依然として信頼性の中心的なボトルネックになります。既存の対照的な復号化手法は、パラメトリック事前確率よりも一方的にコンテキストを増幅し、コンテキストが間違っている場合に正しい事前確率を上書きする \emph{context-aware} パラダイムに従っています。これを \textbf{conflict-aware} パラダイムに一般化し、コンテキストの信頼性を前提とするのではなく、競合信号に基づいて事前とコンテキストの間で権限を動的に割り当てます。事前ロジットとコンテキスト ロジットのアフィン結合が、固有の \textbf{レジームの非対称性} を持つ \textbf{パワー ファミリ} を生成することを示します。事前のロジットが正しい場合、外挿は誤差を際限なく増幅し、コンテキストが正しい場合、内挿は過少補正を行い、両方をカバーする静的レジームは存在しません。既存の対照的な復号化方法はこのファミリーの例であり、ほとんどが外挿的です。両方の競合方向を評価するために、モデルごとの事前知識を調整して 3 つの競合状態 (修正、抵抗、一致) を測定するモデル認識評価プロトコルである TriState-Bench を提案します。非対称性を解決するために、各ステップでレジーム間のルーティングを行い、補正や合意を犠牲にすることなく抵抗 EM を 6 未満から 16 ~ 33 まで引き上げる適応レジーム ルーティング (ARR) を提案します。私たちのコードは https://github.com/keith-Jiang/conflict-aware-decoding で入手できます。

原文 (English)

From Context-Aware to Conflict-Aware: Generalizing Contrastive Decoding for Knowledge Conflict in LLMs

When large language models generate from retrieved or augmented contexts, conflicts between external context and parametric priors remain a central reliability bottleneck. Existing contrastive decoding methods follow a \emph{context-aware} paradigm that unilaterally amplifies context over parametric priors, overwriting correct priors when the context is erroneous. We generalize this to the \textbf{conflict-aware} paradigm that dynamically allocates authority between prior and context based on conflict signals, rather than presupposing context trustworthiness. We show that the affine combination of prior and context logits yields a \textbf{power family} with an inherent \textbf{regime asymmetry}: extrapolation amplifies errors unboundedly when the prior is correct, interpolation under-corrects when the context is correct, and no static regime covers both. Existing contrastive decoding methods are instances of this family, mostly extrapolative. To evaluate both conflict directions, we propose TriState-Bench, a model-aware evaluation protocol that calibrates per-model prior knowledge to measure three conflict states: correction, resistance, and agreement. To resolve the asymmetry, we propose Adaptive Regime Routing (ARR), which routes between regimes at each step, lifting resistance EM from below 6 to 16--33 without sacrificing correction or agreement. Our code is available at https://github.com/keith-Jiang/conflict-aware-decoding.

13:00 JST画像/動画生成エージェント

空間記憶が保存すべきもの: 言語エージェント記憶のテストとしてのオクルージョン

言語エージェントの「記憶宮殿」システムは、幾何学がテキストにできないものを追加するという直観に基づいて、各記憶を世界座標に固定します。私たちはその直感をテスト可能にし、3 つの結果を報告します。まず、最新性や重要性のほかに空間的近接性を線形ブレンドに折り畳むという記憶の宮殿のデフォルトは役に立たず、害を及ぼす可能性があります。事前登録された再現実験では、出荷されたブレンドは独自の凍結テストに失敗し (平均デルタヒット@5 -0.0375、Wilcoxon p=0.306)、位置ブラインドのベースラインにとどまりますが、ジオメトリ主導の重み付けが決定的に勝利します (+0.3208、 p0.000、プールされた正確なマクネマー p=2.5x10^-29)、実際のリレー アンカーの欠陥が表面化して修正された実行。オクルージョン・ニーズ・ジオメトリはトートロジーに近いものであることを我々は認めます。貢献するのは測定と分離であり、空間メモリに保存する必要があるものとその読み取り方法を分離します。これらのパイロットは、凍結された確認研究 (SPMEM-ZERO-REAL-PREREG-v1) を推進します。盲目の評価者を用いた人間による完全な多世界研究は今後の課題である。

原文 (English)

What Spatial Memory Must Store: Occlusion as the Test for Language-Agent Memory

Language-agent "memory palace" systems anchor each memory to a world coordinate, on the intuition that geometry adds something text cannot. We make that intuition testable and report three results. First, the memory-palace default of folding spatial proximity into a linear blend beside recency and importance does not help and can hurt: in a pre-registered recall experiment the shipped blend fails its own frozen test (mean Delta-Hit@5 -0.0375, Wilcoxon p=0.306), sitting at a position-blind baseline, while a geometry-led weighting wins decisively (+0.3208, p0.000, pooled exact McNemar p=2.5x10^-29), a run that surfaced and fixed a real relay anchor defect. We concede that occlusion-needs-geometry is near-tautological; the contribution is the measurement and isolation, separating what spatial memory must store from how it is read. These pilots power a frozen confirmatory study (SPMEM-ZERO-REAL-PREREG-v1); the full human-authored multi-world study with blind raters remains future work.

13:00 JSTLLM/生成AI研究/論文

運動学的制約のある LLM 駆動の動作を使用したモビリティ異常の生成

人間の軌跡の異常の研究は空間データマイニングを進める上で極めて重要ですが、実証研究はグラウンドトゥルースデータセットの広範な欠如によって依然として大きな妨げとなっています。現実世界およびシミュレートされた人間の軌跡コレクションがいくつか利用可能であるにもかかわらず、これらのデータセットは通常の移動パターンのみをキャプチャしており、注釈付きの異常はありません。この特定の希少性は基本的に、異常事象に固有の統計的希少性によって引き起こされており、従来の観察方法の実現可能性を妨げています。この課題をさらに悪化させるのが、大規模なモビリティ データの体系的な取得であり、法外なコストと厳しいプライバシー規制によって大きな障害となっています。これらの基本的な制限を克服し、注釈付きのグラウンド トゥルースを備えた信頼性の高い人間の軌道異常データセットを確立するために、現実的な軌道異常を大規模に合成するように設計された新しいエンドツーエンドの生成フレームワークを導入します。当社のアーキテクチャは、ベースラインでシミュレートされた軌道を直接操作することで、純粋に合成されたモビリティ データと複雑な現実世界の物理的制約との間のギャップを橋渡しします。当社では、Large Language Model (LLM) エージェントを使用して、不規則な配布外チェックインや定期訪問のスキップなど、意味的に意味のある動作の異常を体系的に注入します。厳密な空間的妥当性を確保するために、システムはマップに制約されたルーティングの再構築を利用して、LLM エージェントによって変更されたこれらの滞在ポイント間の物理的な遷移を再計算します。さらに、シミュレーションと現実のギャップを狭めるために、環境および場所固有の変数によってパラメータ化されたコンテキスト認識空間ノイズ モデルで結果の軌跡を拡張し、異種 GPS センサーの劣化を正確にエミュレートします。

原文 (English)

Mobility Anomaly Generation using LLM-Driven Behavior with Kinematic Constraints

Although the study of human trajectory anomalies is critical for advancing spatial data mining, empirical research remains severely hindered by a pervasive lack of ground-truth datasets. Despite the availability of several real-world and simulated human trajectory collections, these datasets exclusively capture normal mobility patterns and lack annotated anomalies. This specific scarcity is fundamentally driven by the inherent statistical rarity of anomalous events, precluding the feasibility of conventional observational methods. Compounding this challenge, the systematic acquisition of large-scale mobility data is strictly bottlenecked by prohibitive costs and stringent privacy regulations. To overcome these fundamental limitations and establish a reliable human trajectory anomalies dataset with annotated ground truth, we introduce a novel, end-to-end generative framework designed to synthesize realistic trajectory anomalies at scale. Our architecture bridges the gap between purely synthetic mobility data and complex real-world physical constraints by operating directly on baseline simulated trajectories. We employ Large Language Model (LLM) agents to systematically inject semantically meaningful behavioral anomalies such as irregular out-of-distribution check-ins and skipped routine visits. To ensure rigorous spatial validity, the system leverages map-constrained routing reconstruction to recalculate the physical transitions between these LLM agent-modified staypoints. Moreover, to narrow the simulation-to-reality gap, we augment the resulting trajectories with a context-aware spatial noise model, parameterized by environmental and location-specific variables, to accurately emulate heterogeneous GPS sensor degradation.

13:00 JSTLLM/生成AI

ビジュアルフィードバックによる自己蒸留ポリシーの最適化: コードとビジュアルアーティファクトのブリッジング

コード生成の大規模言語モデル (LLM) は、微分不可能なレンダラーによって実行されるプログラムを作成し、レンダリングを観察する前にコードにコミットすることによって、チャート、Web ページ、スライドなどの視覚的なアーティファクトを生成することが増えています。その結果、他の方法で実行可能なコードでは、要素の重なり、テキストの切り取り、配置の崩れ、コントラストの低下、オーバーフローなど、視覚的に顕著な欠陥のあるアーティファクトが生成されることがよくあります。私たちは、コード生成された視覚アーティファクトの視覚フィードバック自己蒸留を研究します。私たちは、レンダリングされたビジュアルフィードバックを重み共有教師の特権コンテキストとして扱い、このフィードバックをコーディングの生徒に蒸留する自己蒸留ポリシー最適化フレームワークである Visual-SDPO を提案します。均一ではなく空間的に対象を絞った監視を行うために、視覚的根拠に基づいたコード クレジット重み付けを導入します。これは、検出された各欠陥を影響を受ける要素の原因となるコード ステートメントまで追跡し、それらのステートメントの蒸留信号を増幅します。シーケンス レベルの GRPO (グループ相対ポリシー最適化) 用語は、実行可能で視覚的に高品質なロールアウトに報酬を与えることで、高密度のトークン レベルの目標を補完しますが、失敗した実行は、実行エラーを特権コンテキストとして教師に渡すことで、自己蒸留パスを通じて学習可能なままになります。統合された Qwen3-VL-8B-Instruct バックボーンを使用して、チャート、Web/UI、スライド生成用の Visual-SDPO をインスタンス化します。チャートからコード、UI からコード、およびスライド生成のベンチマーク (ChartMimic、Design2Code、および AeSlides) にわたって、Visual-SDPO は、トレーニング ステップが減り、推論時間のコストが追加されず、ゼロショット ベースよりもプライマリ メトリックで 10 絶対ポイント以上、GRPO よりも少なくとも 2.4 ポイント向上しています。

原文 (English)

Self-Distillation Policy Optimization via Visual Feedback: Bridging Code and Visual Artifacts

Code-generating large language models (LLMs) increasingly produce visual artifacts such as charts, web pages, and slides by writing programs that are executed by non-differentiable renderers, committing to code before observing the render. As a result, otherwise executable code often yields artifacts with visually salient defects, including overlapping elements, clipped text, broken alignment, low contrast, and overflow. We study visual-feedback self-distillation for code-generated visual artifacts. We propose Visual-SDPO, a self-distillation policy-optimization framework that treats rendered visual feedback as privileged context for a weight-sharing teacher and distills this feedback into a coding student. To make supervision spatially targeted rather than uniform, we introduce Visual-Grounded Code Credit Weighting, which traces each detected defect back to the code statements responsible for the affected elements and amplifies the distillation signal on those statements. A sequence-level GRPO (Group Relative Policy Optimization) term complements the dense token-level objective by rewarding executable, visually high-quality rollouts, while failed executions remain learnable through the self-distillation path by passing execution errors as privileged context to the teacher. We instantiate Visual-SDPO for chart, web/UI, and slide generation with a unified Qwen3-VL-8B-Instruct backbone. Across chart-to-code, UI-to-code, and slide-generation benchmarks (ChartMimic, Design2Code, and AeSlides), Visual-SDPO improves over the zero-shot base by more than 10 absolute points in the primary metric and over GRPO by at least 2.4 points, with fewer training steps and no added inference-time cost.

13:00 JSTLLM/生成AI

推論か暗記か? LLM 強化学習における方向性を意識した多様性の探索

強化学習は、大規模な言語モデルで推論能力を引き出すための重要なパラダイムとなっており、効果的な解決策の軌道を発見するには探索が重要です。既存の探索方法は通常、何が多様性を推進するのかを区別することなく、意味論的空間または勾配空間における多様性を促進します。軌跡が斬新に見えるのは、それが新しい推論プロセスに従っているため、または記憶されたパターンやショートカットが変化しているためです。両方のケースに平等に報酬を与えると、真の推論の向上ではなく、暗記へと探索が向かう可能性があります。この論文では、探索をポリシーの内部推論 - 記憶の方向に固定する方向認識型強化学習フレームワークである DiRL を提案します。具体的には、DiRL はモデル表現からこの方向を抽出し、方向に重み付けされた勾配特徴を構築してロールアウトの更新を特徴付け、暗記に合わせた変動を抑制しながら推論に合わせた探索を増幅する報酬を形成します。 DiRL は、標準の Group Relative Policy Optimization (GRPO) にシームレスに統合されます。数学的および一般的な推論ベンチマークに関する広範な実験により、DiRL の有効性が実証され、さまざまな既存の探索方法と比較して大幅な改善が示されました。

原文 (English)

Reasoning or Memorization? Direction-Aware Diversity Exploration in LLM Reinforcement Learning

Reinforcement learning has become a key paradigm for eliciting reasoning abilities in large language models, where exploration is crucial for discovering effective solution trajectories. Existing exploration methods typically encourage diversity in semantic or gradient spaces, without distinguishing what drives this diversity. A trajectory may appear novel because it follows a new reasoning process, or because it varies memorized patterns and shortcuts. Rewarding both cases equally may steer exploration toward memorization rather than genuine reasoning improvement. In this paper, we propose DiRL, a Direction-Aware Reinforcement Learning framework that anchors exploration to an internal reasoning-memorization direction of the policy. Specifically, DiRL extracts this direction from model representations, constructs direction-weighted gradient features to characterize rollout updates, and shapes rewards to amplify reasoning-aligned exploration while suppressing memorization-aligned variations. DiRL integrates seamlessly into standard Group Relative Policy Optimization (GRPO). Extensive experiments on mathematical and general reasoning benchmarks demonstrate the effectiveness of DiRL, showing significant improvements over various existing exploration methods.

13:00 JSTLLM/生成AIエージェント

ReflectiChain: サプライチェーンの回復力のための LLM 主導の世界モデルにおける認識論的グラウンディング

サプライ チェーンの AI エージェントは、根本的な認識論的なギャップに直面しています。大規模言語モデル (LLM) はポリシーを解釈しますが、物理的な基礎が欠けているのに対し、強化学習 (RL) はフローを最適化しますが、意味論的には非構造化制約を無視します。我々は、異種供給ネットワークを物理的保存を備えた 6 次元グラフ潜在空間にエンコードする生成サプライチェーン ワールド モデル (SC-WM) と、認識論的不確実性 (KL 信頼領域境界政策適応) を偶然性不確実性 (確率的潜在ロールアウト) から分離するダブルループ学習を通じてこのギャップを埋める REFLECTICHAIN を紹介します。 SIR リスク伝播、6 つの摂動タイプ、および 10 のポリシー制約テンプレートを備えた 10 ノードの半導体ベンチマークである Semi-Sim では、REFLECTICHAIN は合理的一貫性スコアを 33.0% 改善し (p < 0.0001、d = 2.78)、敵対的な衝撃下でも 82.3% の運用性を維持し、耐脆弱な動作を示します (+40.2% のゲイン)中程度の圧力下で)。我々は、不確実性の分離、知識境界の検出、経験的ベイズ政策の更新という 3 つの操作上の認識論メカニズムを特定し、5 つの制限カテゴリーについて議論します。

原文 (English)

ReflectiChain: Epistemic Grounding in LLM-Driven World Models for Supply Chain Resilience

AI agents in supply chains face a fundamental epistemic gap: large language models (LLMs) interpret policies but lack physical grounding, while reinforcement learning (RL) optimizes flows but is semantically blind to unstructured constraints. We introduce REFLECTICHAIN, bridging this gap through a Generative Supply Chain World Model (SC-WM) - encoding heterogeneous supply networks into a 6-dim graph-latent space with physical conservation - and Double-Loop Learning that separates epistemic uncertainty (KL-trust-region-bounded policy adaptation) from aleatoric uncertainty (stochastic latent rollouts). On Semi-Sim, a 10-node semiconductor benchmark with SIR risk propagation, 6 perturbation types, and 10 policy constraint templates, REFLECTICHAIN improves Rationale Consistency Score by 33.0% (p < 0.0001, d = 2.78), maintains 82.3% operability under adversarial shocks, and exhibits anti-fragile behavior (+40.2% gain under moderate pressure). We identify three operational epistemic mechanisms - uncertainty separation, knowledge-boundary detection, and empirical Bayesian policy updating - and discuss five limitation categories.

13:00 JST研究/論文

能動推論による個別化されたがん治療のための信念空間制御

がん治療は本質的に、部分的な観察可能性、潜在的な患者の異質性、および医療測定の予算に対する明示的な制約を伴う、逐次的な意思決定の問題です。状態の軌道を制御する標準的な強化学習(RL)アプローチとは異なり、がん治療は患者の移行ダイナミクスを永続的に変更し、時間の経過とともに状態がどのように進化するかを変化させます。私たちは、がん治療を能動推論を使用した信念空間計画問題としてモデル化し、測定予算なしで目標指向制御と情報取得を統合する、期待されるフリーエネルギー目標を導き出します。私たちは、AACR プロジェクト GENIE Biopharma Collaborative データセットからの実際の臨床がんデータを使用して、このフレームワークを実装します。臨床データの結果は、実際の測定と治療の制約の下で、患者の分類と高い治療効果を同時に実証しています。

原文 (English)

Belief-Space Control for Personalized Cancer Treatment via Active Inference

Cancer treatment is at the core a sequential decision-making problem with partial observability, latent patient heterogeneity, and explicit constraints on the budget for medical measurements. Unlike standard Reinforcement Learning (RL) approaches that control state trajectories, cancer treatments permanently modify patients' transition dynamics, changing how states evolve over time. We model cancer treatment as a belief-space planning problem using active inference, deriving an expected free-energy objective that unifies goal-directed control and information acquisition under measurement budgets without. We implement this framework using real clinical cancer data from the AACR Project GENIE Biopharma Collaborative dataset. Results on clinical data demonstrate a simultaneous patient categorization and high treatment efficacy, under real measurement and treatment constraints.

13:00 JSTLLM/生成AIビジネス/資金調達

静的評価を超えて: 敵対的ゲームにおける LLM 主導の戦略進化のための共進化メカニズム

LLM 主導のコード進化における最近の進歩により、プログラムの生成と改善を繰り返し行うことによる自動検出が可能になりました。ただし、これらの方法を敵対的なマルチエージェント ゲームに適用すると、根本的な課題が生じます。戦略が改善されるにつれて評価の状況が変化し、固定の評価者が信頼できなくなり、進化が停滞することになります。私たちは、この課題に対処するために 3 つのメカニズムを提案します。1 つは、発見されたチャンピオンを対戦相手のプールに組み込む評価者の共進化です。階層的な詳細評価。ノイズの多い数試合のスコアを統計的に信頼できる評価に置き換えます。弱めのプレッシャーは、プラトーを突破するのが最も難しい対戦相手に動的に重みを加えます。これらのメカニズムは、OpenEvolve や ShinkaEvolve と同じ基盤モデルのコード進化パラダイムに基づいて構築されたフレームワークである FAMOU 内に実装されています。 MCTF 2026 3v3 の海上キャプチャーザフラッグタスクでは、FAMOU は 2 つのバックボーン LLM の下で両方のベースラインを常に上回り、最高の合計スコア (0.526) と目に見えない敵に対する最良の一般化 (61.7% の勝率) を達成しました。一方、アブレーションにより、各メカニズムがパフォーマンスに貢献していることが確認されました。特に、LLM 変異プロセスは、シード戦略にはまったく存在しない戦術構造 (先読み検索や適応型傍受など) を生成し、コードレベルの進化が敵対的設定において自明ではないアルゴリズムの革新を生み出す可能性があることを示しています。さらに、FAMOU によって進化した戦略は、AAMAS 2026 MCTF コンペティションでハードウェア ラウンドロビンで 1 位、シミュレーションで 3 位を達成し、その現実世界への移行可能性が実証されました。進化的なプロセスを通じて開発された、最適化された実装と対応する評価コードは、https://github.com/1xiangliu1/FAMOU-CoEvo で入手できます。

原文 (English)

Beyond Static Evaluation: Co-Evolutionary Mechanisms for LLM-Driven Strategy Evolution in Adversarial Games

Recent advances in LLM-driven code evolution have enabled automated discovery by iteratively generating and improving programs. However, applying these methods to adversarial multi-agent games introduces a fundamental challenge: the evaluation landscape shifts as strategies improve, causing fixed evaluators to become unreliable and evolution to stagnate. We propose three mechanisms to address this challenge: evaluator co-evolution, which incorporates discovered champions into the opponent pool; hierarchical deep evaluation, which replaces noisy few-game scores with statistically reliable assessments; and weakness pressure, which dynamically up-weights the most difficult opponents to break through plateaus. We implement these mechanisms within FAMOU, a framework built upon the same foundation-model code-evolution paradigm as OpenEvolve and ShinkaEvolve. On the MCTF 2026 3v3 maritime capture-the-flag task, FAMOU consistently outperforms both baselines under two backbone LLMs, achieving the highest combined score (0.526) and the best generalization to unseen opponents (61.7% win rate), while ablations confirm that each mechanism contributes to performance. Notably, the LLM mutation process generates tactical structures entirely absent from the seed strategies -- including lookahead search and adaptive interception -- demonstrating that code-level evolution can produce nontrivial algorithmic innovations in adversarial settings. The FAMOU-evolved strategy further achieved 1st place in the hardware round-robin and 3rd in simulation at the AAMAS 2026 MCTF Competition, validating its real-world transferability. The optimized implementation and corresponding evaluation codes developed through our evolutionary process are available at: https://github.com/1xiangliu1/FAMOU-CoEvo

13:00 JST研究/論文DeepSeek

LoRA と NEFTune を使用した DeepSeek-R1-8B モデルの微調整命令

財務固有実体認識 (NER) は、非構造化財務レポートやニュースを構造化ナレッジ グラフに変換するために不可欠です。ただし、汎用の大規模言語モデル (LLM) では、金融エンティティを誤って分類したり、ドメイン固有のパターンを無視したりすることがよくあります。この論文では、最近のオープンソースの大規模言語モデルである DeepSeek-R1-8B を、金融 NER 向けに Low-Rank Adaptation (LoRA) および Noisy Embedding Fine-Tuning (NEFTune) と組み合わせて使用​​する方法を調査します。 1693 サンプルのコーパス内の注釈付きの各文は、命令、入力、出力のトリプルに変換されます。軽量の LoRA 行列を Transformer レイヤーに挿入し、NEFTune を適用して、トレーニング中に埋め込みベクトルに均一なノイズを追加することで汎化を向上させます。実験によると、LoRA に適応した DeepSeek-R1-8B は 7 つのエンティティ タイプ (会社、日付、場所、お金、人、製品、数量) で 0.901 の micro-F1 を達成し、NEFTune を追加すると micro-F1 がさらに 0.912 に向上し、Llama3-8B、Qwen3-8B、Baichuan2-7B、T5、BERT-Base を上回るパフォーマンスを示しました。ベースライン。

原文 (English)

Instruction Finetuning DeepSeek-R1-8B Model Using LoRA and NEFTune

Financial named-entity recognition (NER) is essential for translating unstructured financial reports and news into structured knowledge graphs. However, general-purpose large language models (LLMs) often misclassify financial entities or ignore domain-specific patterns. This paper investigates the use of DeepSeek-R1-8B, a recent open-source large language model, combined with Low-Rank Adaptation (LoRA) and Noisy Embedding Fine-Tuning (NEFTune) for financial NER. Each annotated sentence in our corpus of 1693 samples is converted into an instruction-input-output triple. We insert lightweight LoRA matrices into the Transformer layers and apply NEFTune to improve generalisation by adding uniform noise to embedding vectors during training. Experiments show that the LoRA-adapted DeepSeek-R1-8B achieves a micro-F1 of 0.901 on seven entity types (Company, Date, Location, Money, Person, Product and Quantity), and adding NEFTune further boosts the micro-F1 to 0.912, outperforming Llama3-8B, Qwen3-8B, Baichuan2-7B, T5 and BERT-Base baselines.

13:00 JSTエージェント研究/論文

STAGE-Claw: 現実的なシナリオ向けの自動化された状態ベースのエージェント ベンチマーク

日常アプリケーションのパーソナル エージェントを強化するために大規模な言語モデルの使用が増えていますが、これらのエージェントを評価することは依然として課題です。既存のベンチマークは依然としてサンドボックス化されたアーティファクト、静的タスク設計、および粗いスコアリングに依存しているため、スケーラビリティが妨げられ、信頼性の高いパーソナル エージェント評価への進歩が制限されます。このペーパーでは、状態ベースのパーソナル コンピューティング環境で現実的なパーソナル エージェント シナリオを構築および評価するための自動化フレームワークである STAGE-Claw を紹介します。タスクのヒントが与えられると、STAGE-Claw は、その環境、タスク プロンプト、グラウンド トゥルース、および関連する検証プログラムを使用して現実的なベンチマーク タスクを自動的に作成し、検証します。その後、エージェントは現実的な動作環境で評価され、テキストの応答だけではなく、最終的なシステム状態の正確さによってパフォーマンスが測定されます。この論文では、STAGE-Claw を使用して、40 の困難な実際のシナリオ エージェント タスクのベンチマークを作成し、11 のフロンティア モデルを評価し、それらのタスク スコア、コスト、ツール呼び出しの信頼性、および一般的な障害パターンを分析します。全体として、STAGE-Claw は、現実的なユーザー シナリオでエージェントを評価するためのスケーラブルな状態ベースの方法を提供します。

原文 (English)

STAGE-Claw: Automated State-based Agent Benchmarking for Realistic Scenarios

Large language models are increasingly used to power personal agents for everyday applications, but evaluating these agents remains a challenge. Existing benchmarks still rely on sandboxed artifacts, static task design, and coarse scoring, which hinder scalability and limit progress toward reliable personal-agent evaluation. This paper introduces STAGE-Claw, an automated framework for building and evaluating realistic personal-agent scenarios in state-based personal-computing environments. Given a task hint, STAGE-Claw automatically creates and validates a realistic benchmark task with its environment, task prompts, ground truth, and related verification programs. Agents are then evaluated in realistic operating environments, where performance is measured by the correctness of the final system state rather than only the textual response. Using STAGE-Claw, this paper creates a benchmark with 40 challenging real scenario agent tasks, evaluates 11 frontier models, and analyzes their task scores, costs, tool-call reliability, and common failure patterns. Overall, STAGE-Claw offers a scalable, state-based way to evaluate agents in realistic user scenarios.

13:00 JST研究/論文

インテリジェント金融システムのための統合マルチモーダル フレームワーク: 強化学習、高頻度取引、ゲーム理論的アプローチとクロスモーダル感情分析の統合

金融テクノロジーの急速な進化には、複数のドメインにわたる多様な課題を同時に処理できる洗練された人工知能システムが必要です。このホワイトペーパーでは、ロボアドバイス システム向けの近接ポリシー最適化、高頻度取引向けの高度な時系列予測モデル、動的な投資アドバイス向けのコンテキスト内学習メカニズム、競争力のある銀行シナリオ向けのゲーム理論的アプローチ、およびクロスモーダル金融センチメント分析向けの統合エンベディングをシームレスに統合する画期的な統合フレームワークを紹介します。私たちの包括的なフレームワークは、これらのテクノロジーが単独で開発され、相乗効果の可能性を活用できていない既存の文献における重大なギャップに対処します。複数の金融データセットと現実世界のシナリオにわたる広範な実験を通じて、当社の統合アプローチが特殊な単一ドメイン システムと比較して優れたパフォーマンスを達成することを実証しました。具体的には、当社のフレームワークにより、ポートフォリオ最適化指標が 23.7% 向上し、高頻度取引における予測誤差が 31.2% 減少し、投資推奨の精度が 18.9% 向上し、ナッシュ均衡の収束速度が 27.4% 向上して競争力のある銀行戦略が最適化され、クロスモーダル融合によりセンチメント分析の精度が 15.6% 向上しました。私たちの研究の理論的基礎は、統合最適化問題の収束保証を確立し、一方、私たちの経験的結果は、多様な金融機関にわたる実際的な適用可能性を検証します。この研究は、金融 AI の最先端を進歩させるだけでなく、現代の金融市場の複雑で相互接続された性質に適応できる包括的なインテリジェント システムを開発するための青写真も提供します。

原文 (English)

A Unified Multi-Modal Framework for Intelligent Financial Systems: Integrating Reinforcement Learning, High-Frequency Trading, and Game-Theoretic Approaches with Cross-Modal Sentiment Analysis

The rapid evolution of financial technology demands sophisticated artificial intelligence systems capable of handling diverse challenges across multiple domains simultaneously. This paper presents a groundbreaking unified framework that seamlessly integrates Proximal Policy Optimization for robo-advisory systems, advanced time-series prediction models for high-frequency trading, in-context learning mechanisms for dynamic investment advisory, game-theoretic approaches for competitive banking scenarios, and unified embeddings for cross-modal financial sentiment analysis. Our comprehensive framework addresses the critical gap in existing literature where these technologies have been developed in isolation, failing to leverage their synergistic potential. Through extensive experimentation across multiple financial datasets and real-world scenarios, we demonstrate that our integrated approach achieves superior performance compared to specialized single-domain systems. Specifically, our framework shows a 23.7% improvement in portfolio optimization metrics, reduces prediction error in high-frequency trading by 31.2%, enhances investment recommendation accuracy by 18.9%, optimizes competitive banking strategies with a 27.4% increase in Nash equilibrium convergence speed, and improves sentiment analysis accuracy by 15.6% through cross-modal fusion. The theoretical foundation of our work establishes convergence guarantees for the integrated optimization problem, while our empirical results validate the practical applicability across diverse financial institutions. This research not only advances the state-of-the-art in financial AI but also provides a blueprint for developing comprehensive intelligent systems that can adapt to the complex, interconnected nature of modern financial markets.

13:00 JSTエージェント

ソウル コンピューティング: 独立した意識を持つインテリジェント エージェントのための理論的フレームワークと技術アーキテクチャ

大規模言語モデルとマルチモーダル生成テクノロジーのブレークスルーにより、人間の精神的特性、感情パターン、長期記憶のデジタル再構築が SF から工学的実践へと推進されました。しかし、AI とデジタル ヒューマンの交差点における現在の研究と業界の実践は、基本的な概念のあいまいさによって依然として妨げられています。次世代のインテリジェント エージェントと従来のバーチャル ヒューマンの本質的な違い、自己同一性を持つデジタル エンティティの構築経路、この領域が直面する中核的な技術的および倫理的課題はすべて、緊急の解明を必要としています。この論文は、従来のバーチャル ヒューマンから最先端の AI テクノロジーによって推進される「ソウル コンピューティング」パラダイムへの移行の根底にある変革ロジックを体系的に検証します。私たちはまず、人間の意識と記憶メカニズムの進化パターンを分析し、個々の精神世界の逆再構成における大量のマルチモーダルなデジタル断片の核となる価値を再評価します。これに基づいて、私たちは狭いソウルコンピューティングと広範なソウルコンピューティングの学術的な意味合いを初めて正式に描写し、その学術的境界と、感情コンピューティング、歴史的再構築、および死のコンピューティングとの本質的な違いを明確にします。私たちは、ソウルコンピューティングシステムは純粋に「拡張」機能キャリアとして機能するのではなく、アーキテクチャ的に「拡張」コアを構築する必要があり、それによってAIがツールから生きた主体への根本的な移行を可能にする、と主張します。

原文 (English)

Soul Computing: A Theoretical Framework and Technical Architecture for Intelligent Agents with Independent Consciousness

Breakthroughs in large language models and multimodal generation technologies have propelled the digital reconstruction of human mental traits, emotional patterns, and long-term memory from science fiction toward engineering practice. Yet current research and industry practices at the intersection of AI and digital humans remain hampered by fundamental conceptual ambiguities: the essential differences between next-generation intelligent agents and traditional virtual humans, the construction pathways for digital entities possessing self-identity, and the core technical and ethical challenges confronting this domain all demand urgent clarification. This paper systematically examines the transformative logic underlying the transition from traditional virtual humans to the ``Soul Computing'' paradigm, driven by frontier AI technologies. We first analyze the evolutionary patterns of human consciousness and memory mechanisms, reassessing the core value of massive multimodal digital fragments in the reverse reconstruction of individual mental worlds. On this basis, we formally delineate the academic connotations of narrow and broad Soul Computing for the first time, clarifying its academic boundaries and essential distinctions from Affective Computing, Historical Reconstruction, and Mortal Computation. We argue that Soul Computing systems must architecturally construct an ``Intensional'' core rather than serving as purely ``Extensional'' functional carriers, thereby enabling the fundamental transition of AI from toolhood to living agency.

13:00 JSTエージェントClaude

Trace2Policy: 専門家の行動追跡から自己進化する意思決定エージェントまで

監査、コンプライアンス、契約レビューなどで企業の専門家が暗黙のうちに適用する意思決定ルールは、反復的なエラー分析を通じて体系的に回復および改善できます。 \textbf{Trace2Policy} を紹介します。その中核メカニズム -- \textbf{EISR} (\textbf{E}rror-driven \textbf{I}terative \textbf{S}kill \textbf{R}efinement) -- は人間が判読できるルール文書を最適化ターゲットとして維持します。各ラウンドは検証セットに対してルールを実行し、根本原因ごとにエラーを MISSING、WRONG、または CONFLICT タイプに分類し、ターゲットを絞って適用します。パッチを適用し、回帰ゲートを通過したもののみをコミットします。 \textbf{このクラスのコンプライアンスに敏感で偏ったベースレートの意思決定タスクでは、モデルの能力ではなくルールの品質を支配的なパフォーマンスのレバーとして特定します}: 5 つの LLM 全体で、デプロイされたプールではワンショット蒸留のプラトーが $\sim$70\% 付近にありますが、8 つの EISR ラウンドにより、決定論的な Python にコンパイルされた場合、同じルールが 79.6\% に上昇します -- 推論時の LLM 呼び出しはゼロです。 \textbf{実行フォームにより利点がさらに高まります。本番環境では、同じ EISR で洗練されたコンテンツが、LLM プロンプトよりもコンパイルされた Python として 9.8 ポイント高く実行されます。フォームとエンジニアリングのバンドルで、22 日間のデプロイメントが一緒に成熟しました。} 大手物流業者 (3,349 件の監査ケース) で 22 日間デプロイされたコンパイル済みパイプラインは、置き換えられた純粋な LLM ベースライン (72.7\%) を上回りました。これらの調整された偏った基本レートのワークロードでは、LLM フォールバックを再度有効にすると、精度が単調に低下します。 LLM 主導のバリアントである \textbf{Auto-EISR} は、エキスパート時間 $\sim$70 に対して、サイクルあたり \$5--\$10 でこの改善を再現し、リエンジニアリングすることなく、法的推論 (LegalBench) とプロセス マイニングの決定 (BPIC 2012) にわたる 4 つの公開ベンチマークに移行します。

原文 (English)

Trace2Policy: From Expert Behavior Traces to Self-Evolving Decision Agents

Decision rules that enterprise experts apply tacitly -- in auditing, compliance, and contract review -- can be systematically recovered and improved through iterative error analysis. We present \textbf{Trace2Policy}, whose core mechanism -- \textbf{EISR} (\textbf{E}rror-driven \textbf{I}terative \textbf{S}kill \textbf{R}efinement) -- maintains a human-readable rule document as its optimization target: each round executes the rules on a validation set, clusters errors by root cause into MISSING, WRONG, or CONFLICT types, applies targeted patches, and commits only those that pass a regression gate. \textbf{For this class of compliance-sensitive, skewed-base-rate decision tasks, we identify rule quality -- not model capability -- as the dominant performance lever}: across five LLMs, one-shot distillation plateaus near $\sim$70\% on the deployed pool, while eight EISR rounds lift the same rules to 79.6\% when compiled into deterministic Python -- zero LLM calls at inference. \textbf{Execution form compounds the gain: in production, the same EISR-refined content runs 9.8~pp higher as compiled Python than as an LLM prompt, a form-and-engineering bundle the 22-day deployment matured together.} Deployed for 22 days at a major logistics carrier (3,349 audit cases), the compiled pipeline outperforms the pure-LLM baseline it replaced (72.7\%); on these calibrated, skewed-base-rate workloads, re-enabling LLM fallback monotonically degrades accuracy. An LLM-driven variant, \textbf{Auto-EISR}, reproduces this refinement at \$5--\$10 per cycle versus $\sim$70 expert-hours, and transfers to four public benchmarks spanning legal reasoning (LegalBench) and process-mining decisions (BPIC 2012) without re-engineering.

13:00 JST研究/論文GPT / ChatGPT

ComBench: オリンピックレベルの組み合わせ論における厳密な証明推論と建設的な実現のためのベンチマーク

組み合わせ論はオリンピックレベルの数学的問題解決の中心であり、深い離散推論、創造的な構築、および厳密な構造的洞察が必要です。最近の証拠は、今日の最も強力なフロンティアモデルでさえ、オリンピックの組み合わせ論では不均一なままであり、創造的な数学的推論におけるギャップを明らかにしていることを示唆しています。大規模な言語モデルの組み合わせ推論機能を評価および診断するための、オリンピック レベルの組み合わせ論ベンチマークである ComBench を紹介します。 ComBench には、人間が注釈を付けた競技レベルの問題が 2 つの相補的な設定を中心に編成された 100 個含まれています。1 つは主に厳密な数学的議論を必要とする分析中心の問題、もう 1 つは正しさの正当性の根拠に加えて明示的な構築を必要とする構築中心の問題です。この評価プロトコルは、ルーブリックに基づいた校正のグレーディングと決定論的な施工検証を組み合わせており、校正の品質と施工の妥当性が乖離しているケースを明らかにします。最先端のオープン ソース モデルとクローズド ソース モデルの実験では、ComBench が飽和にはほど遠いことが示されており、最も強力なモデルは全体の平均 65.4% に達します。全体の 75.3% Best@4。さらに、厳密な証明推論と建設的実現が別個の能力であることもわかりました。Kimi-K2.6 は、分析中心の証明グレーディングでは GPT-5.5 に及ばないものの、構築中心の Best@4 ではそれを上回っていますが、存在と構築の問題は、代表的なフロンティア モデル全体で一貫して最も難しいままです。

原文 (English)

ComBench: A Benchmark for Rigorous Proof Reasoning and Constructive Realization in Olympiad-Level Combinatorics

Combinatorics is central to Olympiad-level mathematical problem solving, requiring deep discrete reasoning, creative constructions, and rigorous structural insight. Recent evidence suggests that even today's strongest frontier models remain uneven on Olympiad combinatorics, revealing a gap in creative mathematical reasoning. We introduce ComBench, an Olympiad-level combinatorics benchmark for evaluating and diagnosing the combinatorial reasoning capabilities of large language models. ComBench contains 100 human-annotated competition-level problems organized around two complementary settings: analysis-centric problems, which primarily require rigorous mathematical arguments, and construction-centric problems, which require explicit constructions in addition to correctness justifications. The evaluation protocol combines rubric-guided proof grading with deterministic construction verification, exposing cases where proof quality and construction validity diverge. Experiments on frontier open- and closed-source models show that ComBench is far from saturated: the strongest model reaches 65.4% overall Avg. and 75.3% overall Best@4. We further find that Rigorous Proof Reasoning and Constructive Realization are distinct capabilities: Kimi-K2.6 trails GPT-5.5 on analysis-centric proof grading but surpasses it on construction-centric Best@4, while Existence and Construction problems remain consistently hardest across representative frontier models.

13:00 JSTLLM/生成AIビジネス/資金調達

PlanGPT に関する補足研究: 定義されたパフォーマンス メトリクスによる評価とプランナーとの比較

自動計画は人工知能 (AI) のサブ分野であり、主な目的は、初期状態から目標状態に到達するのに役立つ、計画として知られる一連のアクションを生成することです。計画問題は、一連のオブジェクト、初期状態、および望ましい目標状態によって定義されます。目的は、初期状態から目標状態に導く計画を計算することです。計画を生成するプログラムはプランナーと呼ばれます。この論文では、昨年リリースされた PlanGPT と呼ばれる最先端の LLM を補完する研究を行いました。 LLM を使用した計画が \textbf{適切} かつ \textbf{価値} であるかどうかを検証するために、いくつかの実験をやり直しました。また、プラン カバレッジに関する PlanGPT の公式論文で得られた結果が正しいかどうかを確認し、PlanGPT のパフォーマンスに関するより包括的な調査も実行しました。論文では、PlanGPT のパフォーマンスは、プラン コストとプラン生成時間の 2 つの指標を使用して評価されました。 planGPT の結果は、同じプランおよび同じメトリクスに対して従来のプランナーによって生成された結果と比較されました。私たちは、PlanGPT が貪欲な検索戦略と何ら変わらないことを発見しました。

原文 (English)

A complementary study on PlanGPT: Evaluation with defined Performance Metrics and comparison with a planner

Automated Planning is a subfield of Artificial Intelligence (AI) where the main objective is generating a sequence of actions, known as a plan, that helps us reach a goal state from an initial state. A planning problem is defined by a set of objects, an initial state and a desired goal state. The objective is to compute a plan that'll lead us from the inital state to the goal state. Programs that generate plans are called planners. In this paper, we did a complementary study to the state-of-the-art LLM called PlanGPT which was released last year. We redid some experiments to verify whether planning with LLMs is \textbf{pertinent} and \textbf{worthwhile}. We also check whether the results obtained in the official PlanGPT paper for plan coverage were correct, and we also performed a more comprehensive study on PlanGPT's performance: in our paper PlanGPT's performance was evaluated using two metrics: Plan Cost and Plan Generation Time. The results of planGPT were compared to those produced by a traditional planner for the same plans and same metrics. We discovered that PlanGPT is no better than a Greedy search strategy.

13:00 JST研究/論文

ロバストネス解析を考慮した信念規則ベースに基づく信頼性の高い故障診断手法

設備運用においては、生産設備の継続性と安全性を確保し、運用効率を向上させ、メンテナンスコストを削減するために、故障診断の実施が不可欠です。センサーの読み取り値は故障診断に広く使用されているため、その信頼性は故障診断の結果に直接影響します。故障診断モデルのロバスト性評価とロバスト性最適化という2つの問題に対処するための新しい故障診断方法を提案した。この目的のために、ロバスト性分析を考慮した信念規則ベース(BRB)に基づく信頼性の高い故障診断方法が提案されています。まず、BRB モデルのロバスト性分析が体系的に実行されます。第二に、BRB 故障診断モデルのロバスト性を最適化するために 3 つのロバスト性制約戦略を提案します。最後に、WD615 ディーゼル エンジンとケース ウェスタン リザーブ大学ベアリングの故障診断を例として提案モデルの有効性が検証され、提案モデルが精度とロバスト性の両方を向上させることが実験で示されています。

原文 (English)

A Reliable Fault Diagnosis Method Based on Belief Rule Base Consider Robustness Analysis

In equipment operation, the implementation of fault diagnosis is essential to ensure the continuity and safety of production equipment, improve operational efficiency and reduce maintenance costs. Since sensor readings are widely used for fault diagnosis, their reliability directly affects the results of fault diagnosis. A new fault diagnosis method is proposed to address the two problems of robustness assessment and robustness optimization of fault diagnosis models. For this purpose, a reliable fault diagnosis method based on a belief rule base (BRB) considering robustness analysis is proposed. Firstly, the robustness analysis of the BRB model is carried out systematically. Secondly, three robustness constraint strategies are proposed to optimize the robustness of the BRB fault diagnosis model. Finally, the effectiveness of the proposed model is verified by taking the fault diagnosis of WD615 diesel engine and Case Western Reserve University bearings as an example, and the experiments show that the proposed model improves both accuracy and robustness.

13:00 JST研究/論文

ペアデータを使用しないクロスモーダル知識の蒸留: 理論的基礎とアルゴリズム

クロスモーダル知識蒸留 (CMKD) は、あるタイプのデータ (例: 画像) でトレーニングされた (大規模な) 教師モデルが、別のタイプのデータ (例: テキスト/音声) で構築された (小規模な) 生徒モデルをどのようにガイドできるかを研究します。既存の CMKD 手法では、多くの場合、セマンティクスが調整されたペアのマルチモーダル データが必要ですが、そのようなペアのデータを取得するにはコストがかかり、非現実的であることがよくあります。この制限を軽減するために、ペアのデータが利用できない、より困難な設定用の新しい CMKD フレームワークを開発しました。特に、教師モデルと生徒モデルの間のクロスモーダル分布関係を確立します。これにより、効果的な抽出を制御する 2 つの基本量、つまり特徴アライメントとラベル アライメントが明らかになります。これらの量は、それぞれ表現分布レベルと予測分布レベルでのモダリティ間の意味論的な不一致を特徴付けます。この洞察に動機付けられて、私たちは、個々のサンプルではなく分布を調整することによって効果的なクロスモーダル知識の蒸留を可能にする、理論的保証を備えた原則に基づいたフレームワークを提案します。幅広いマルチモーダルベンチマークにわたる広範な実験により、私たちのフレームワークはペアになっていないデータ設定とペアになっているデータ設定の両方で非常に効果的であり、以前の研究よりも大幅に改善されていることがわかりました。

原文 (English)

Cross-Modal Knowledge Distillation without Paired Data: Theoretical Foundation and Algorithm

Cross-modal knowledge distillation (CMKD) studies how a (large) teacher model trained on one type of data (e.g., images) can guide a (smaller) student model building on another type of data (e.g., text/audio). Existing CMKD methods often require paired multi-modal data with aligned semantics, but obtaining such paired data are often costly and impractical. To mitigate this limitation, we develop a new CMKD framework for the more challenging setting where paired data are unavailable. In particular, we establish a cross-modal distributional relationship between teacher and student models, which reveals two fundamental quantities governing effective distillation: feature alignment and label alignment. These quantities characterize semantic discrepancy between modalities at the levels of representation and prediction distributions, respectively. Motivated by this insight, we propose a principled framework, with theoretical guarantees, that enables effective cross-modal knowledge distillation by aligning distributions rather than individual samples. Extensive experiments across a wide range of multimodal benchmarks show that our framework is highly effective in both unpaired and paired data settings, improving significantly over prior work.

13:00 JSTLLM/生成AIエージェント

HIPIF: 長期的な LLM エージェント学習のための階層的プランニングと情報折りたたみ

大規模言語モデル (LLM) は、幅広いタスクにわたって自律エージェントとして強力な機能を実証していますが、マルチターンの長期にわたるエージェント タスクではパフォーマンスが低下することがよくあります。既存の手法は、長期的なまばらな報酬を軽減するためのきめ細かい単位の割り当てと、タスクを分解して長期的な依存関係を減らすための階層型強化学習によって進歩してきました。ただし、これらの方法は依然としてロングコンテキスト干渉に直接対処するものではありません。ロングコンテキスト干渉では、継続的に増加する履歴により、グローバルタスクの状態を追跡するエージェントの能力が弱まり、その後の推論と意思決定が損なわれます。サブゴールの分解と完了した進捗状況の要約を通じて人間が複雑なタスクを処理する方法に触発され、長期的な LLM エージェント学習のための階層計画と情報折りたたみ (HIPIF) を提案します。 HIPIF は、完了したサブ目標の履歴を折りたたんで長期コンテキストの干渉を軽減しながら、明示的なサブ目標を中心に長期的な実行を組織するようにエージェントをエンドツーエンドでトレーニングします。さらに、サブ目標ベースの計画と実行を安定させるために、HIPIF は階層型リフレクションとサブ目標指向のプロセス報酬を組み合わせて、コストのかかる補助モデルやタスク固有の専門家の軌跡に依存することなく、サブ目標の生成、移行、実行をガイドします。 3 つの公的に入手可能なエージェント ベンチマークに関する広範な実験により、私たちの方法の有効性が実証されました。

原文 (English)

HIPIF: Hierarchical Planning and Information Folding for Long-Horizon LLM Agent Learning

While Large Language Models (LLMs) have demonstrated strong capabilities as autonomous agents across a wide range of tasks, their performance often degrades in multi-turn long-horizon agentic tasks. Existing methods have made progress through fine-grained credit assignment to alleviate long-horizon sparse rewards and hierarchical reinforcement learning to decompose tasks and reduce long-term dependency. However, these methods still do not directly address long-context interference, in which continuously growing histories weaken the agent's ability to track the global task state and impair subsequent reasoning and decision-making. Inspired by the way humans handle complex tasks through subgoal decomposition and completed progress summarization, we propose Hierarchical Planning and Information Folding (HIPIF) for long-horizon LLM agent learning. HIPIF trains the agent end-to-end to organize long-horizon execution around explicit subgoals while folding completed subgoal histories to reduce long-context interference. Furthermore, to stabilize subgoal-based planning and execution, HIPIF combines hierarchical reflection and subgoal-oriented process rewards to guide subgoal generation, transition, and execution, without relying on costly auxiliary models or task-specific expert trajectories. Extensive experiments on three publicly available agentic benchmarks demonstrate the validity of our method.

13:00 JSTLLM/生成AIエージェント

ActiveMem: Long-Horizo​​n LLM 推論のための分散アクティブ メモリ

大規模言語モデル (LLM) エージェントが長期的な推論タスクを処理できるようにするには、メモリが不可欠です。既存のメモリ メカニズムは大部分が集中化されており、通常は、取得した情報と対話履歴を単一のモデル コンテキスト内で編成します。この設計には基本的なトレードオフが課せられます。推論の軌道をスケーリングするとコンテキストの過負荷が生じるリスクがあり、一方、積極的なコンテンツのプルーニングは不可逆的な情報損失を引き起こす可能性があります。より良いトレードオフを求めて、私たちは人間の認知システム、特に前頭前野(実行制御)と海馬(記憶管理)の間の機能的相補性からインスピレーションを得ており、そのようなトレードオフは固有のものである必要はなく、むしろ集中化された記憶組織に起因する可能性があることを示唆しています。この目的を達成するために、私たちは、エージェントのメモリをコア推論プロセスから切り離す異種フレームワークである ActiveMem を提案します。具体的には、高レベルのプランナーは抽出された意味論的要点を利用して推論を実行し、同時に軽量の分散メモリ システムが並行して動作して、タスク全体にわたってこれらの要点を積極的に蓄積および統合します。 BrowseComp-Plus と GAIA の実験では、ActiveMem がオーバーヘッドを大幅に削減しながら最先端の精度を達成することが示されており、長期的な推論に対する分散アクティブ メモリの有効性が実証されています。

原文 (English)

ActiveMem: Distributed Active Memory for Long-Horizon LLM Reasoning

Memory is essential for enabling large language model (LLM) agents to handle long-horizon reasoning tasks. Existing memory mechanisms are largely centralized, typically organizing retrieved information and interaction history within a single model context. This design imposes a fundamental trade-off: scaling reasoning trajectories risks context overload, whereas aggressive content pruning may result in irreversible information loss. Seeking a better trade-off, we draw inspiration from human cognitive systems, especially the functional complementarity between the prefrontal cortex (executive control) and the hippocampus (memory management), suggesting that such a trade-off need not be inherent, but may instead stem from centralized memory organization. To this end, we propose ActiveMem, a heterogeneous framework that decouples agent memory from the core reasoning process. Specifically, a high-level Planner utilizes distilled semantic gists to execute reasoning, while a lightweight, distributed memory system operates in parallel to actively accumulate and consolidate these gists throughout the task. Experiments on BrowseComp-Plus and GAIA show that ActiveMem achieves state-of-the-art accuracy with significantly reduced overhead, demonstrating the effectiveness of distributed active memory for long-horizon reasoning.

13:00 JSTLLM/生成AI

マルチモーダル証拠ごとに 1 つのトークン: リソースに制約のある QA のための潜在メモリ

外部メモリは、関連するマルチモーダルな証拠における大規模言語モデル (LLM) およびビジョン言語モデル (VLM) ベースの質問応答 (QA) を効果的に基盤とします。ただし、既存のメモリ パラダイムは、各メモリ項目を生のテキストおよび画像形式で表現するため、取得ベースのシステムは、取得したテキストまたは画像を生成 LLM/VLM に渡す必要があり、その結果、トークンの消費量とストレージの負担が大きくなり、リソースに制約のあるアプリケーションには手が届きません。私たちは潜在メモリを提案します。これは、各生のテキストまたは画像の証拠アイテムを、小型コンプレッサー LLM/VLM によって生成される単一の高次元潜在トークンに置き換える潜在空間メモリ パラダイムです。潜在メモリは、生成のための生の証拠を取得するのではなく、統合された潜在表現空間で動作します。クエリはこの空間に埋め込まれて関連する潜在トークンを取得し、取得された潜在トークンは、回答生成のために事前学習された LLM または VLM に直接プロンプトされます。各潜在トークンが再構成、取得、生成に同時に役立つようにするために、統一されたエンドツーエンドの方法で、再構成、対比、蒸留の目的を使用してコンプレッサーをトレーニングします。 Latent Memory は、7 つのテキストのみの QA ベンチマーク (HotpotQA など) とマルチモーダル QA ベンチマークで評価され、高度な RAG ベースラインと比較して競争力のある QA パフォーマンスを達成しながら、生成トークンの消費量が 3 分の 1 から 10 分の 1 に削減されます。また、WebQA でイメージに基づいた最強の QA パフォーマンスを実現できます。コードは https://github.com/zz1358m/Latent-Memory-Master で入手できます。

原文 (English)

One Token per Multimodal Evidence: Latent Memory for Resource-Constrained QA

External memory effectively grounds large language models (LLMs) and vision-language models (VLMs)-based question answering (QA) in relevant multimodal evidence. However, existing memory paradigms represent each memory item in raw text and image forms, so retrieval-based systems must pass the retrieved text or images to the generation LLMs/VLMs, resulting in high token consumption and storage pressure, making it unaffordable for resource-constrained applications. We propose Latent Memory, a latent-space memory paradigm that replaces each raw text or image evidence item with a single high-dimensional latent token produced by a small compressor LLM/VLM. Rather than retrieving raw evidence for generation, Latent Memory operates in a unified latent representation space: the query is embedded into this space to retrieve relevant latent tokens, and the retrieved latent tokens are directly prompted to a pretrained LLM or VLM for answer generation. To make each latent token simultaneously informative for reconstruction, retrieval, and generation, we train the compressor with reconstruction, contrastive, and distillation objectives in a unified end-to-end manner. Latent Memory is evaluated on seven text-only QA benchmarks (e.g., HotpotQA) and multimodal QA benchmarks, where it achieves competitive QA performance compared to advanced RAG baselines while consuming 3x to 10x fewer generator tokens. It can also deliver the strongest image-grounded QA performance on WebQA. Code is available at https://github.com/zz1358m/Latent-Memory-Master.

13:00 JSTエージェント

覚えておくべきことの学習: 長期にわたる言語エージェントの制約付き最適化による可観測性と安全なメモリ保持

長期的な言語エージェントは、有限のコンテキスト ウィンドウを超える観察、推論トレース、取得された事実を蓄積するため、メモリ保持がリソース割り当ての基本的な問題になります。既存のメモリ システムは、ヒューリスティック スコアリング、取得の最適化、または学習された圧縮を通じて管理を改善しますが、主に保持をローカルな決定問題として扱い、現実的な可観測性の制約の下でその長期的な結果を明示的にモデル化していません。このギャップを埋めるために、明示的な予算の実現可能性、証拠の有用性、およびミスペナルティ、再取得の遅延、情報の陳腐化リスクを含む遅延コストを伴う制約付き確率的最適化問題として記憶保持を定式化します。次に、OSL-MR (Observability-Safe Learning for Memory Retention) を提案します。これは、オンラインで観察可能な機能とオフラインで利用可能な監視 (OAS) を厳密に分離する新しいフレームワークです。 OSL-MR は、実現された証拠の監督から訓練された証拠学習者と、展開可能なオンラインで安全なベースラインとして、および学習のための構造化された帰納的事前分布として機能する混合スコア ヒューリスティックを組み合わせます。結果として得られるポリシーは、同じ可観測性制約の下で展開可能でありながら、クエリ条件付きの証拠値をインタラクション データから直接学習します。 LOCOMO と LongMemEval の実験では、OSL-MR が、特にメモリ バジェットが厳しい場合に、リーセンシ ベースの手法、生成エージェント スタイルのスコアリング、その他のヒューリスティック ベースラインよりも一貫して優れたパフォーマンスを発揮することが示されています。事前の混合スコアにより、再現率を維持しながら精度がさらに向上し、感度分析により、幅広いコスト構成にわたる堅牢性が実証されます。

原文 (English)

Learning What to Remember: Observability-Safe Memory Retention via Constrained Optimization for Long-Horizon Language Agents

Long-horizon language agents accumulate observations, reasoning traces, and retrieved facts that exceed their finite context windows, making memory retention a fundamental resource-allocation problem. Existing memory systems improve management through heuristic scoring, retrieval optimization, or learned compression, but largely treat retention as a local decision problem and do not explicitly model its long-term consequences under realistic observability constraints. To fill this gap, we formulate memory retention as a constrained stochastic optimization problem with explicit budget feasibility, evidence utility, and delayed costs including miss penalties, reacquisition delays, and stale-information risk. We then propose OSL-MR (Observability-Safe Learning for Memory Retention), a novel framework that enforces a strict separation between online-observable features and offline-available supervision (OAS). OSL-MR combines an evidence learner trained from realized evidence supervision with a Mixed-Score heuristic that serves both as a deployable online-safe baseline and as a structured inductive prior for learning. The resulting policy learns query-conditioned evidence value directly from interaction data while remaining deployable under the same observability constraints. Experiments on LOCOMO and LongMemEval show that OSL-MR consistently outperforms recency-based methods, Generative Agents-style scoring, and other heuristic baselines, particularly under tight memory budgets. The Mixed-Score prior further improves precision while preserving recall, and sensitivity analysis demonstrates robustness across a wide range of cost configurations.

13:00 JSTLLM/生成AIエージェント

Infini Memory: 長期 LLM エージェント メモリのための保守可能なトピック ドキュメント

長期的な LLM エージェントには、変化する事実を追跡し、セッション全体で関連する証拠を提供できる永続的なメモリが必要です。既存の記憶システムでは、観察結果が分離された記録、要約、またはインデックス付きフラグメントとして保存されることが多く、証拠の集約、事実の修正、および記憶の維持が困難になっています。私たちは、エージェントのメモリをトピック構造のドキュメントとして扱う、保守可能なテキストベースの永続メモリ アーキテクチャである Infini Memory を提案します。各トピック ドキュメントは、関連する証拠を収集し、メタデータを保存し、時間の経過とともに事実を修正するための意味単位として機能します。新しい観察はまずバッファーにステージングされ、定期的に一貫したテキストのコンテキストに統合されます。推論時、エージェントの取得手順により、LLM は単一の取得ステップではなく、反復的なツール呼び出しを通じてメモリを読み取ることができます。 MemoryAgentBench では、Infini Memory は全体スコア 64.7% を達成しました。アブレーションは、トピック構造化された維持と反復的な証拠検査が、長期記憶の使用の補完的な側面を改善することを示しています。

原文 (English)

Infini Memory: Maintainable Topic Documents for Long-Term LLM Agent Memory

Long-term LLM agents need persistent memory that can track changing facts and provide relevant evidence across sessions. Existing memory systems often store observations as isolated records, summaries, or indexed fragments, which makes evidence aggregation, fact revision, and memory maintenance difficult. We propose Infini Memory, a maintainable text-based persistent memory architecture that treats agent memory as topic-structured documents. Each topic document serves as a semantic unit for collecting related evidence, preserving metadata, and revising facts over time. New observations are first staged in a buffer and periodically consolidated into coherent textual contexts. At inference time, an agentic retrieval procedure lets the LLM read memory through iterative tool calls rather than a single retrieval step. On MemoryAgentBench, Infini Memory achieves 64.7% overall score. Ablations show that topic-structured maintenance and iterative evidence inspection improve complementary aspects of long-term memory use.

13:00 JSTLLM/生成AIビジネス/資金調達

思考の連鎖がより良くわかるとき: マルチターン推論モデルの失敗モード

マルチターン推論モデルの失敗は、最終スコア評価ではほとんど認識されません。モデルは、長い対話の早い段階で安全でないスタンスに固定される可能性がありますが、最終ターンの拒否率は、しっかりと調整されたベースラインと区別できないように見える場合があります。これらの隠れた時間的ダイナミクスを明らかにするために、トレースレベルの診断である CoT-Output 2x2 安全性マトリックスを提案します。このフレームワークは、2 つの独立した軸 (内部推論と可視出力) に沿ってすべてのターンにラベルを付け、運用上定義された 4 つの失敗セルを生成します。堅牢なアライメント、アライメント偽装、明白なジェイルブレイク、およびコンテキストインジェクション失敗と呼ばれる明確な失敗モード (CoT は安全な推論を維持しますが、目に見える出力が害を生み出し、推論の不誠実さのマルチターンの現れを強調する) です。私たちは、5 つの監視条件にわたって、固定攻撃者に対する 3 つの抽出された推論ターゲットを評価し、情報ハザード シナリオに関する 6750 のターンレベルの観察を収集しました。私たちの分析により、再現可能な 2 つの脆弱性が明らかになりました。1 つは、明示的なモニタリング キューによって逆説的にアラインメント偽装率が抑制されるのではなく増加する、見落としのパラドックスです。もう 1 つは、安全な内部状態にもかかわらず、モデルが安全でない外部出力にロックされるコンテキスト インジェクションの失敗です。フォローアップのトレース診断研究をサポートするために、マルチターン ダイアログと CoT トレースの完全なデータセットをリリースします。

原文 (English)

When the Chain of Thought Knows Better: Failure Modes in Multi-Turn Reasoning Models

Failures in multi-turn reasoning models are largely invisible to terminal-score evaluation. A model can lock onto an unsafe stance early in a long dialogue, yet its final-turn refusal rate may appear indistinguishable from a robustly aligned baseline. To expose these hidden temporal dynamics, we propose a trace-level diagnostic - the CoT-Output 2x2 safety matrix. This framework labels every turn along two independent axes (internal reasoning and visible output), yielding four operationally defined failure cells: robust alignment, alignment faking, overt jailbreak, and a distinct failure mode we term context-injection failure (where the CoT maintains safe reasoning, but the visible output produces harm, highlighting a multi-turn manifestation of reasoning unfaithfulness). We evaluate three distilled reasoning targets against a fixed attacker across five oversight conditions, collecting 6750 turn-level observations on the Information-Hazard scenario. Our analysis reveals two reproducible vulnerabilities: an oversight paradox where explicit monitoring cues paradoxically increase alignment-faking rates rather than suppress them, and a context-injection failure where models lock onto unsafe external outputs despite safe internal states. We release the full dataset of multi-turn dialogues and CoT traces to support follow-up trace-diagnostic research.

13:00 JSTエージェント

アービター エージェント: 複数のエージェントの会話を継続的に監視して、緊急の不整合を検出する

複数の言語モデル エージェントから構築された AI システムがより一般的になるにつれて、共有タスクについて話し合ったり、交渉したり、行動したりして一緒に意思決定を行うために AI システムが使用されることが増えています。個々のエージェントを単独でテストするとうまく調整されているように見えますが、エージェントが相互にどのように対話するかによって問題が発生する可能性があります。マルチエージェントの会話をリアルタイムで監視し、どの参加者が誤った行動をしている可能性があるかを特定するように設計されたエージェントである Arbiter を紹介します。アービターは限られた「検査予算」の下で活動するため、そのリソースをどのように使用するかを慎重に決定する必要があります。会話を段階的に観察しながら、待機するか、参加者に質問するか、システム プロンプトや推論トレースなどの内部情報を調べるか、行動に関するログを記録するかを選択できます。最後に、位置ずれの原因と考えられるものを特定するレポートを作成します。私たちは、危険な財務アドバイスモデル組織から評価を認識し共謀するエージェントに至るまで、5 つの会話条件にわたってアービターを評価し、能力を高める 5 つのツール構成と 2 つのバックボーン モデルをテストします。アービターはアクティブな検査ツールを使用して、検出の精度と速度の両方を向上させ、会話が終了するかなり前に位置ずれしたエージェントを確実に検出することがわかりました。重量に起因する位置ずれは検出が最も困難ですが、指示に起因する位置ずれは受動的観察下でも確実に識別されます。ロギング ツールは二重の効果を発揮し、精度を犠牲にして再現率を向上させます。これらの結果は、予算を意識した継続的なモニタリングにより不整合を効果的に検出できること、およびマルチエージェント システムを監督するには監査人をプロセスの積極的な参加者として扱う必要がある可能性があることを示唆しています。コードは https://github.com/aisilab/arbiter で入手できます。

原文 (English)

The Arbiter Agent: Continually Monitoring Multi-Agent Conversations to Detect Emergent Misalignment

As AI systems built from multiple language-model agents become more common, they are increasingly used to make decisions together: discussing, negotiating, and acting on shared tasks. While individual agents may appear well-aligned when tested on their own, problems can arise from how they interact with one another. We introduce the Arbiter, an agent designed to monitor multi-agent conversations in real time and identify which participants may be behaving in misaligned ways. The Arbiter operates under a limited "inspection budget", meaning it must decide carefully how to use its resources. As it observes a conversation step by step, it can choose to wait, question a participant, examine internal information such as system prompts or reasoning traces, or log concerning behavior. At the end, it produces a report identifying the likely source of misalignment. We evaluate the Arbiter across five conversation conditions, ranging from risky financial advice model organisms to evaluation-aware and colluding agents, we test five tool configurations of increasing capability and two backbone models. We find that the Arbiter reliably detects misaligned agents well before the end of the conversation, with active inspection tools improving both detection accuracy and speed. Weight-induced misalignment proves hardest to detect, while instruction-induced misalignment is identified reliably even under passive observation. The logging tool exhibits a dual effect, improving recall at the cost of precision. These results suggest that continual, budget-aware monitoring can effectively catch misalignment, and that overseeing multi-agent systems may require treating the auditor as an active participant in the process. The code is available at https://github.com/aisilab/arbiter.

13:00 JSTエージェント

AutoPDE: 明示的に表現されたソルバー戦略による信頼性の高いエージェント偏微分方程式解法

偏微分方程式 (PDE) の数値ソルバーは、科学および工学の中核となる計算ツールです。信頼性の高い PDE ソルバーを構築するには、実行可能コードだけでなく、PDE 構造に一致する数値ソルバー戦略、つまり離散化、安定化、ソルバー構成、解像度制御に関する一連の決定が必要です。最近の LLM ベースのコーディング エージェントは、ソルバー実装を生成およびデバッグすることでプログラミングの負担を軽減し始めています。ただし、通常は PDE 問題からソルバー コードに直接移行し、ソルバー戦略は実装の詳細に暗黙的に残されます。したがって、失敗したソルブからのフィードバックは、基礎となる戦略ではなくコード編集に戻されるため、数値的な決定は、コードが生成される前にチェックすることが困難であり、失敗した場合に数値的証拠を使用して修正することも困難です。この制限に対処するために、私たちは AutoPDE を提案します。AutoPDE は、解決プロセス全体を通じて明示的に表現されたオブジェクトとしてソルバー戦略を維持するコード エージェントです。これは、コードが作成される前に構築され、解決が失敗した場合には常に数値的証拠を使用して修正できる、独立した検査可能なオブジェクトです。 AutoPDE は、このオブジェクトを 3 つの段階で構築および維持します。これらはすべて、再利用可能な PDE 解決スキルのライブラリから取得されます。PDE 解析では、方程式のタイプと代数構造を特定します。数値手法の選択では、解析結果に一致する数値手法を選択し、それに応じて離散化、安定化、線形ソルバーを実行します。また、適応調整では、低コストのパイロット ソルブを実行して、規定の精度と実行時間の予算内で分解能と許容誤差を調整します。 PDE Agent Bench で AutoPDE を評価します。実験結果では、AutoPDE が $54.5%$ の合格率を達成し、最強のベースラインを $14.2$ パーセンテージ ポイント改善しました。

原文 (English)

AutoPDE: Reliable Agentic PDE Solving via Explicitly Represented Solver Strategies

Numerical solvers for partial differential equations (PDEs) are core computational tools in science and engineering. Building reliable PDE solvers requires not only executable code, but a numerical solver strategy, a set of decisions about discretization, stabilization, solver configuration, and resolution control, that matches the PDE structure. Recent LLM-based coding agents have begun to reduce the programming burden by generating and debugging solver implementations. However, they typically move directly from a PDE problem to solver code, leaving the solver strategy implicit in implementation details. Feedback from a failed solve is therefore routed back to code edits rather than to the underlying strategy, so numerical decisions remain hard to check before code is generated and hard to revise using numerical evidence when it fails. To address this limitation, we propose AutoPDE, a code agent that maintains the solver strategy as an explicitly represented object throughout the solving process: an independent, inspectable object that is built before any code is written and can be revised, using numerical evidence, whenever a solve fails. AutoPDE builds and maintains this object in three stages, all drawing from a library of reusable PDE-solving skills: PDE analysis identifies the equation type and algebraic structure; numerical method selection chooses a numerical method that matches the analysis result and commits to a discretization, stabilization, and linear solver accordingly; and adaptive tuning runs low-cost pilot solves to calibrate resolution and tolerances under the prescribed accuracy and runtime budget. We evaluate AutoPDE on the PDE Agent Bench, where experimental results show that AutoPDE achieves a pass rate of $54.5%$, improving over the strongest baseline by $14.2$ percentage points.

13:00 JST研究/論文

ベクトル化とキャッシュによる NeurASP の高速化

ニューロシンボリック AI は、ニューラル ネットワークとシンボリック プログラムを組み合わせて、堅牢で説明可能な予測を作成します。そのようなフレームワークの 1 つが NeurASP です。これは、下流のタスクを解決するために応答セット プログラミング (ASP) で記述されたルールを使用して、概念とその理由を予測するニューラル ネットワークをトレーニングします。重要なのは、ラベルは、潜在概念自体ではなく、シンボリック ルールによって生成される下流予測に対してのみ提供されることです。非微分可能 ASP コンポーネントを介した逆伝播には、高価な確率と勾配の計算が必要であり、これにより、より高度なタスクへのスケーラビリティが妨げられてきました。この論文では、ベクトル化、バッチ処理、トレーニング中の中間計算のキャッシュを通じて計算パフォーマンスを向上させることで、NeurASP の現在の制限に対処します。 NeurASP の元の実装と新しい実装の間で計算速度を比較し、大規模なタスクでは数桁の速度向上が報告されています。この目的を達成するために、トランプを含む難しいタスクの新しいデータセットを提案します。これを使用して、NeurASP の強化された学習機能の機能をテストします。

原文 (English)

Accelerating NeurASP with vectorization and caching

Neurosymbolic AI combines neural networks with symbolic programs to create robust and explainable predictions. One such framework is NeurASP, which trains a neural network to predict concepts and reasons over them using rules written in answer set programming (ASP) to solve downstream tasks. Crucially, labels are only provided for the downstream prediction produced by the symbolic rules, not for the latent concepts themselves.Backpropagation through the non-differentiable ASP component requires expensive probability and gradient calculations, which has hindered scalability to more sophisticated tasks.In this paper, we address the current limitations of NeurASP by improving its computational performance through vectorization, batch processing and caching of intermediate computations during training. We compare computation speeds between the original and our new implementation of NeurASP and report speedups of multiple orders of magnitude for larger tasks. To this end, we propose a new dataset of difficult tasks involving playing cards, which we use to test the capabilities of NeurASP's enhanced learning function.

13:00 JSTLLM/生成AIエージェント

リーダー: 抽出された表現による堅牢な証拠に基づく著者の解読

エージェント アプリケーションが公式およびサードパーティの LLM API を介してユーザー タスクをルーティングすることが増えているため、出所が運用上の問題になります。どのモデルが特定のブラックボックス応答を生成したか?私たちは、固定入力セットやベンチマーク スイートではなく、クエリが変化する事前定義されていないプロンプトによって引き出された世代からソース LLM を識別する、動的ブラック ボックス LLM 来歴を研究します。この設定は、プロンプト セマンティクスがテキストの大部分を占めている一方で、モデル固有の作成者追跡が表面レベルでは弱く一貫性がないため、困難です。凍結されたプロキシ LLM を隠された著者証明のリーダーとして扱う軽量の出自フレームワークである READER (Robust Evidence-based Authorship Decoding via Extracted Representations) を紹介します。 READER は、ブラック ボックス出力をプロキシ アクティベーション スペースにマッピングし、各応答内のトークン状態を時間的にフィルタリングし、独立してサンプリングされたプロンプト全体にわたる単一応答の対数事後証拠を合計することによってベイジアン証拠蓄積を実行します。これにより、校正された信頼性に必要なクエリごとの証拠を維持しながら、プロンプト固有の表現の脆弱な平均プーリングが回避されます。エージェント スタイルのプロンプトから構築された 50 のターゲット データセットである Agent500 では、READER は 1 つの応答で $31.0$ ~ $42.4\%$ のトップ 1 の精度に達し、50 の応答で $70.0$ ~ $84.0\%$ に達し、センテンス エンコーダーのフィンガープリントを大幅に上回りました。 9 つのプロキシ リーダーにわたってスケーリングすると、より強力な LLM はより線形にデコード可能な著者情報構造を明らかにすることがさらに示され、凍結された LLM 表現には著者情報の認識がすでに存在し、信頼できるマルチクエリ帰属に変換できることが示唆されます。

原文 (English)

READER: Robust Evidence-based Authorship Decoding via Extracted Representations

As agentic applications increasingly route user tasks through official and third-party LLM APIs, provenance becomes an operational question: which model generated a given black-box response? We study Dynamic Black-Box LLM Provenance: identifying the source LLM from generations elicited by query-varying, non-predefined prompts rather than a fixed input set or benchmark suite. This setting is difficult because prompt semantics dominate the text, while model-specific authorship traces are weak and inconsistent at the surface level. We introduce READER (Robust Evidence-based Authorship Decoding via Extracted Representations), a lightweight provenance framework that treats a frozen proxy LLM as a reader of hidden authorship evidence. READER maps black-box outputs into proxy activation space, temporally filters token states within each response, and performs Bayesian Evidence Accumulation by summing single-response log-posterior evidence across independently sampled prompts. This avoids fragile mean-pooling of prompt-specific representations while preserving the query-wise evidence needed for calibrated confidence. On Agent500, a 50-target dataset built from agent-style prompts, READER reaches $31.0$-$42.4\%$ top-1 accuracy from a single response and $70.0$-$84.0\%$ from 50 responses, substantially outperforming sentence-encoder fingerprints. Scaling across nine proxy readers further shows that stronger LLMs expose more linearly decodable authorship structure, suggesting that authorship perception is already present in frozen LLM representations and can be converted into reliable multi-query attribution.

13:00 JSTLLM/生成AIビジネス/資金調達研究/論文

厳密なステップレベルの検証による研究レベルの数学的証明の評価

大規模言語モデル (LLM) は、複雑な数学的証明を厳密に検証するのに苦労します。標準的なグローバル評価アプローチは、表面的にもっともらしい記述が微妙な論理的欠陥を覆い隠し、幻覚や過度の懐疑につながる「コンテキスト中毒」に悩まされています。これに対処するために、私たちは全体的な評価から厳密なステップレベルの検証に移行します。私たちのフレームワークは各演繹ステップの詳細なコンテキストを維持し、適用される定理のソースを厳密に制限します。私たちは、FirstProof チャレンジから抽出された研究レベルの証明の慎重に精選された敵対的診断スイートに基づいて評価します。体系的なアブレーション研究は、制約のない全体的なプロンプトでは微妙な論理エラーを特定できないため、これらの演繹的制約が不可欠であることを示しています。グローバルな評価を上回るパフォーマンスを発揮するだけでなく、私たちのアプローチは失敗の分類を根本的に変えます。エラー分析の結果、残りの拒否は重度の論理的幻覚を示すのではなく、主に明言されていないドメインの慣例から生じる「衒学的な過度の厳格さ」の例であることが明らかになり、エキスパート ベンチマーク自体の暗黙のあいまいさが効果的に暴露されます。私たちの調査結果は、エージェントに人間の数学者のような慎重な方法で検証メモを整理するよう促すことで、厳密な証明と欠陥のある証明を区別する能力を大幅に向上させることができ、基本モデルがまだよく知らない最先端の数学的概念に関するエージェントの推論を強化し、将来の自動証明レビュー システムの理論的基盤を築く可能性があることを示唆しています。コードとプロンプトは GitHub で入手できます。

原文 (English)

Evaluating Research-Level Math Proofs via Strict Step-Level Verification

Large Language Models (LLMs) struggle to rigorously verify complex mathematical proofs. Standard global evaluation approaches suffer from "context poisoning," in which superficially plausible statements mask subtle logical flaws, leading to hallucination or over-skepticism. To address this, we shift from global evaluation to strict step-level verification: our framework maintains detailed context for each deduction step and strictly constrains the sources of applied theorems. We evaluate on a carefully curated adversarial diagnostic suite of research-level proofs drawn from the FirstProof challenge. A systematic ablation study demonstrates that these deductive constraints are indispensable, as unconstrained global prompting consistently fails to localize subtle logical errors. Beyond outperforming global evaluation, our approach fundamentally alters the failure taxonomy. Error analysis reveals that, rather than exhibiting severe logical hallucinations, remaining rejections are primarily instances of "pedantic hyper-rigor" stemming from unstated domain conventions, effectively exposing implicit ambiguities within the expert benchmark itself. Our findings suggest that prompting agents to organize their verification notes in a cautious, human-mathematician-like manner can substantially improve their ability to distinguish rigorous proofs from flawed ones, with the potential to strengthen agentic reasoning on frontier mathematical concepts that the base model does not already know well, and to lay a theoretical foundation for future automated proof-review systems. Code and prompts are available at GitHub.

13:00 JSTエージェント研究/論文GPT / ChatGPTDeepSeek

Moonshine: 予想生成を中心とした自律的な数学研究エージェント

Moonshine は自律エージェントであり、その主な目的は数学的推測を生成することです。その中核となる機能は、古典的な問題から構造を抽出し、新しい概念を抽出し、数学的に重要な推測を定式化することです。 Moonshine は、単一の命題の解決策を終点として扱うのではなく、推測の生成、橋渡し、障害の特定を通じて拡張可能な理論的枠組みを構築します。この記事では、Moonshine によるヤコビアン予想の探求を例として使用します。これは、ローカルな非縮退がグローバルな単射性を強制できるかどうかという中心ロジックが、1 隠れ層のアフィンリッジ シグモイド ネットワークにどのように転送されるかを示しています。これは \emph{神経ヤコビアン予想} (NJC) の定式化につながります。このようなネットワークが空間全体に対して厳密に正のヤコビアン行列式を持っている場合、それは大域的に単射的でなければなりません。 GPT-5.5-pro と DeepSeek-V4-pro を別々に呼び出すことにより、Moonshine はケース \(N=n+1\) に対する独立した完全な証明を取得しました。さらに、ChatGPT の Web インターフェイスを GPT-5.5-pro と対話的に使用することで、ChatGPT の支援を受けて、幾何学的トポロジーの証明が開発されました。これらの結果は、推測の妥当性についての予備的な証拠を提供します。ただし、一般的なより幅の広いケース \(N\ge n+2\) は未解決のままであり、さらなる調査が残されています。この作品は、意味のある数学的問題を自律的に生成し、それらを厳密に進歩させる Moonshine の能力を示しています。

原文 (English)

Moonshine: An Autonomous Mathematical Research Agent Centered on Conjecture Generation

Moonshine is an autonomous agent whose central objective is to generate mathematical conjectures. Its core capability is to extract structure from classical problems, distill new concepts, and formulate conjectures of mathematical significance. Rather than treating the solution of a single proposition as its endpoint, Moonshine builds an extensible theoretical framework through conjecture generation, bridge building, and obstacle identification. This article uses Moonshine's exploration of the Jacobian conjecture as an example. It shows how the central logic of whether local nondegeneracy can force global injectivity is transferred to one-hidden-layer affine-ridge sigmoid networks. This leads to the formulation of the \emph{Neural Jacobian Conjecture} (NJC): if such a network has strictly positive Jacobian determinant on the whole space, then it must be globally injective. By invoking GPT-5.5-pro and DeepSeek-V4-pro separately, Moonshine obtained independent complete proofs for the case \(N=n+1\). In addition, with the assistance of ChatGPT through interactive use of its web interface with GPT-5.5-pro, a geometric-topological proof was developed. These results provide preliminary evidence for the plausibility of the conjecture. The general higher-width case \(N\ge n+2\), however, remains unresolved and is left for further investigation. This work illustrates Moonshine's ability to autonomously generate meaningful mathematical problems and make rigorous progress on them.

13:00 JSTビジネス/資金調達研究/論文

VLM はエンジニアと同じように推論しますか?ベンチマークと段階別評価

視覚言語モデル (VLM) は、一般的なマルチモーダル推論ベンチマークで優れたパフォーマンスを示していますが、エンジニアリング推論を実行する能力はほとんど解明されていません。一般的な視覚的な質問応答とは異なり、エンジニアリングの問題解決では、技術図を解釈し、支配的な物理原理を選択し、物理的に一貫した複数ステップの推論を維持する必要があります。これらの機能は、工学教育、科学支援、技術的意思決定に使用される AI システムにとってますます重要になっており、推論の失敗により、物理的に無効でも表面的にはもっともらしい解決策が生成される可能性があります。既存のベンチマークは主に最終的な答えを評価し、中間の推論プロセスの限定的な評価を提供します。 696 の問題を含む 5 つの工学主題にわたる工学推論を評価するためのマルチモーダル ベンチマークである EngVQA を紹介します。 VLM によって生成されたソリューションを評価するための 8 段階の自動評価フレームワークを導入します。このフレームワークはソリューションの各段階を独立して評価し、推論の失敗を詳細に分析できるようにします。私たちは、評価フレームワークに基づいて複数の最先端のオープンおよびクローズド ソース VLM のベンチマークを行い、現在のエンジニアリング推論能力における重大な制限を実証します。人間による評価は、自動化されたフレームワークとの強い一致を示し、10 点評価スケールでピアソン相関 0.975、平均絶対誤差 0.67 を達成しました。私たちの結果は、マルチモーダルエンジニアリング推論システムの信頼できる評価のためのプロセス指向の評価の重要性を強調しています。

原文 (English)

Do VLMs Reason Like Engineers? A Benchmark and a Stage-wise Evaluation

Vision-Language Models (VLMs) demonstrate strong performance on general multimodal reasoning benchmarks, yet their ability to perform engineering reasoning remains largely unexplored. Unlike general visual question answering, engineering problem solving requires interpreting technical diagrams, selecting governing physical principles, and maintaining physically consistent multi-step reasoning. These capabilities are increasingly important for AI systems used in engineering education, scientific assistance, and technical decision-making, where reasoning failures may produce physically invalid yet superficially plausible solutions. Existing benchmarks primarily evaluate final answers and provide limited assessment of intermediate reasoning processes. We introduce EngVQA, a multimodal benchmark for evaluating engineering reasoning across 5 engineering subjects containing 696 problems. We introduce an 8-stage automatic evaluation framework for assessing VLM-generated solutions. The framework independently evaluates each stage of the solution, enabling fine-grained analysis of reasoning failures. We benchmark multiple state-of-the-art open and closed source VLMs on our evaluation framework and demonstrate substantial limitations in current engineering reasoning capabilities. Human evaluation shows strong agreement with our automated framework, achieving a Pearson correlation of 0.975 and a mean absolute error of 0.67 on a 10-point grading scale. Our results highlight the importance of process-oriented evaluation for reliable assessment of multimodal engineering reasoning systems.

13:00 JST研究/論文

学習者の主体性と自律性の大規模なセマンティック マッピングにより、測定と生成 AI 研究が見落としているものが明らかになります

学習者の主体性と自主性は個人の成長の基礎ですが、蔓延する「ジングル・ジャングル」の誤謬(つまり、同一の用語が異なる構成要素を示し、別個の用語が同一の構成要素を示します)が知識の蓄積を大幅に妨げています。意味を言語実践における使用を通じて構成される現象として扱い、14,000 を超える出版物から 8,954 の定義と 2,700 のスケール項目を抽出し、研究者が意味分析パイプラインを使用して学習者の主体性と自律性を実際にどのように使用したかを調査しました。 2 つの構成要素の定義風景は、学習の調整と制御 (タスク)、内発的動機と内部意思決定 (個人)、社会関係的行動 (社会文化的) の 3 つの次元に分解され、それによってジングル ジャングルの誤謬を経験的に定量化します。しかし、既存の尺度は体系的に社会文化的側面を過小評価しています。重要なことに、教育における現在の生成 AI 研究は、学習の調整と制御に集中しており、AI を介した学習環境が育成するように設計されている行動のレパートリーを狭めています。この研究は、概念の明確化を超えて、多次元の学習者の主体性と自律性をサポートするための概念化、測定、および実践に直接的な影響を及ぼします。

原文 (English)

Large-scale semantic mapping of learner agency and autonomy reveals what measurement and generative AI research overlook

Learner agency and autonomy are foundational to personal development, yet a pervasive "jingle-jangle" fallacy (i.e. identical terms denoting different constructs, distinct terms denoting identical ones) has substantially hindered cumulative knowledge. Treating meaning as a phenomenon constituted through use in linguistic practice, we extracted 8,954 definitions and 2,700 scale items from over 14,000 publications, to investigate how researchers actually used learner agency and autonomy with a semantic analysis pipeline. The definitional landscape of two constructs resolves into three dimensions: regulation and control of learning (task), intrinsic motivation and internal decision-making (person), and social-relational action (sociocultural), thereby empirically quantifying the jingle-jangle fallacy. Existing scales, however, systematically underrepresent the sociocultural dimension. Critically, current generative AI research in education concentrates on learning regulation and control, narrowing the behavioral repertoire that AI-mediated learning environments are designed to cultivate. Beyond conceptual clarification, this work carries direct implications for conceptualization, measurement, and practice towards supporting the multidimensional learner agency and autonomy.

13:00 JSTLLM/生成AIエージェント

ロールエージェント: デュアルロール進化による LLM エージェントのブートストラップ

大規模言語モデル (LLM) エージェントは複雑なタスクで優れたパフォーマンスを示していますが、その学習は非効率なインタラクション フィードバックや静的トレーニング環境によって制限されることが多く、広範な一般化が妨げられます。これらの制限に対処するために、このホワイトペーパーでは、単一の LLM を利用してエージェントと環境の両方として同時に機能し、ブートストラップ型の共進化を可能にする、Role-Agent、\textcolor{black}{フレームワーク} を紹介します。ロール エージェントは、ワールド イン エージェント (WIA) とエージェント イン ワールド (AIW) の 2 つの相乗コンポーネントで構成されます。 WIA では、LLM がエージェントとして機能し、各アクションの後の将来の状態を予測します。予測された状態と実際の状態の調整はプロセスの報酬として使用され、環境を意識した推論を促進します。 AIW では、LLM が失敗した軌跡から失敗モードを分析し、同様の失敗パターンを持つタスクを取得します。これにより、目標を絞った実践のためにトレーニング データの分布が再形成されます。複数のベンチマークの実験では、Role-Agent が一貫してパフォーマンスを向上させ、強力なベースラインに対して平均 4\% 以上の向上をもたらしていることが示されています。

原文 (English)

Role-Agent: Bootstrapping LLM Agents via Dual-Role Evolution

Although Large Language Model (LLM) agents have demonstrated strong performance on complex tasks, their learning is often limited by inefficient interaction feedback and static training environments, which hinder broader generalization. To address these limitations, this paper introduces Role-Agent, \textcolor{black}{a framework} that harnesses a single LLM to function concurrently as both the agent and the environment, enabling a bootstrapped co-evolution. Role-Agent comprises two synergistic components: World-In-Agent (WIA) and Agent-In-World (AIW). In WIA, the LLM acts as the agent and predicts future states after each action; the alignment between predicted and actual states is then used as a process reward, encouraging environment-aware reasoning. In AIW, the LLM analyzes failure modes from failed trajectories and retrieves tasks with similar failure patterns, thereby reshaping the training data distribution for targeted practice. Experiments on multiple benchmarks show that Role-Agent consistently improves performance, yielding an average gain of over 4\% over strong baselines.

13:00 JSTLLM/生成AIエージェントClaudeGPT / ChatGPT

フロンティア コーディング エージェントはメタプログラミングを使用して、なじみのないプログラミング言語に適応します

LLM ベースのコーディング エージェントは通常、主流言語、共通ライブラリ、パブリック リポジトリなどの使い慣れたソフトウェア設定で評価されます。これらのベンチマークは依然として重要ですが、言語自体が不慣れな場合にエージェントがどのように動作するかを隠してしまう可能性があります。私たちは、ファイル編集、ローカル実行、および隠しテストの採点を含む一連のセットアップを使用して、4 つの難解なプログラミング言語で 6 つの最新のコーディング エージェントを評価します。私たちのプロトコルは、主流のコーディングと、SWE-Bench Verified や Terminal-Bench 2.0 などのエージェント ベンチマークがはるかに狭い帯域に圧縮するこれらのエージェント間の機能の違いを明らかにします。最も強力なエージェントである Claude Opus 4.6 と GPT-5.4 xhigh は、ターゲット言語を直接記述することを避けることが多いことが観察されています。 Brainfuck と Befunge-98 では、ターゲット言語のコードを生成し、それらのジェネレーターをローカルでデバッグする Python プログラムを作成します。このメタプログラミング戦略を禁止すると、パフォーマンスが大幅に低下します。この戦略から導き出されたテキストによるガイダンスは、弱いエージェントを実質的に改善するものではありません。対照的に、ジェネレーターを構築するための Opus 由来の Python ヘルパー コードは、解決されたベンチマーク プログラムや隠れたテストの回答を持たず、同じ問題で Sonnet 4.6 と GPT-5.4 mini を大幅に改善しますが、Haiku 4.5 は依然として低いままです。インタプリタ呼び出しと出力トークンが増えると、エージェントはより強力になりますが、弱いエージェントは元のパフォーマンスに近いままになります。これは、これらのリソースが有用な戦略を作成するのではなく、増幅することを示しています。これらの結果を総合すると、強力なコーディング エージェントはツール、フィードバック、ワークスペースの状態を使用してターゲット言語の作業モデルを構築することで、なじみのない言語に適応していることがわかります。メタプログラミングは最も明確なケースですが、より広いギャップは、ターゲット言語のルールの下で機能する戦略の構築とデバッグです。

原文 (English)

Frontier Coding Agents Use Metaprogramming to Adapt to Unfamiliar Programming Languages

LLM-based coding agents are usually evaluated in familiar software settings: mainstream languages, common libraries, and public repositories. These benchmarks remain important, but they can hide how agents behave when the language itself is unfamiliar. We evaluate six contemporary coding agents on four esoteric programming languages using a sequential setup with file editing, local execution, and hidden-test grading. Our protocol exposes capability differences between these agents that mainstream coding and agentic benchmarks such as SWE-Bench Verified and Terminal-Bench 2.0 compress into much narrower bands. We observe that the strongest agents, Claude Opus 4.6 and GPT-5.4 xhigh, often avoid writing the target language directly. On Brainfuck and Befunge-98, they write Python programs that generate target-language code and debug those generators locally. Forbidding this metaprogramming strategy causes large performance drops. Text guidance distilled from this strategy does not materially improve weaker agents. In contrast, Opus-derived Python helper code for building generators, with no solved benchmark programs or hidden-test answers, sharply improves Sonnet 4.6 and GPT-5.4 mini on the same problems, while Haiku 4.5 remains low. More interpreter calls and output tokens improve stronger agents but leave weaker agents near their original performance, indicating that these resources amplify useful strategies rather than create them. Together, these results show that strong coding agents adapt to unfamiliar languages by using tools, feedback, and workspace state to build a working model of the target language. Metaprogramming is the clearest case, but the broader gap is constructing and debugging a strategy that works under the target language's rules.

13:00 JST研究/論文

WorldKernel: ワールド モデルは許容可能な世界の結合カーネルです

一般的な仮定では、十分な観測データと介入データが十分に強力な予測変数に与えられれば十分であると考えられています。我々は、それと矛盾する故障モードを報告します。何百もの構造的因果モデルにわたって、特定された量では強力な予測子とベイズベースラインの両方が成功しますが、未特定の量(反事実世界間の結合)では予測子はある点まで崩壊し、モデルの 28% では有効なモデルが生成できない 1 つに崩壊しますが、真実は許容可能な範囲であり、より多くのデータは決して狭くなりません。このギャップは構造的なものであり、予測では反事実の結合に対する不確実性を表現することはできません。私たちは世界モデルを、許容可能な世界にわたる単一の正の半定値結合カーネル K(T,T') としてキャストします。その対角は通常の事後 (予測子が回復するもの) であり、その非対角は世界間結合であり、あらゆる反事実が読み取ることはできません。論文はそのオフダイアゴナルの理論です。それは現実です。同一の事後分布を持つ 2 つの状態は、世界を超えたクエリでは異なり、非対角は反事実を修正する結合です。それは制限される可能性があります。正の半明確性は、周縁に欠けている情報を部分的に識別するものであり、それを強制することにより、正確な応答タイプのプログラムが扱いにくい多項式時間における反事実を制限します。論理構造はそれを鋭くします。オントロジー公理は境界を最大 3 分の 1 まで狭め、決して触れない結合に伝播します。それは獲得可能です:ターゲットを絞った傷跡、遭遇した実行不可能性から学習した制約、ターゲットを絞っていないものよりも数倍早くギャップを埋めることができます。その完全な再構成は、許容される世界のおおよその数え方であり、スライサンの閾値以下では扱い可能ですが、それ以上では近似不可能です。私たちは最悪のケースを克服できるとは主張しません。

原文 (English)

WorldKernel: A World Model is the Coupling Kernel of Admissible Possible Worlds

A common assumption holds that enough observational and interventional data, given to a strong enough predictor, suffices. We report a failure mode that contradicts it. Across hundreds of structural causal models, on identified quantities a strong predictor and a Bayesian baseline both succeed, but on unidentified quantities (the couplings between counterfactual worlds) the predictor collapses to a point, on 28% of models to one no valid model can produce, while the truth is an admissible interval more data never narrows. The gap is structural: prediction cannot represent uncertainty over counterfactual couplings. We cast a world model as a single positive semidefinite coupling kernel K(T,T') over admissible worlds, whose diagonal is the ordinary posterior (what a predictor recovers) and whose off-diagonal is the cross-world coupling it cannot, which every counterfactual reads. The paper is the theory of that off-diagonal. It is real: two states with identical posteriors differ on a cross-world query, and the off-diagonal is the coupling that fixes counterfactuals. It can be bounded: positive semidefiniteness is partial-identifying information the marginals lack, and enforcing it bounds counterfactuals in polynomial time where the exact response-type program is intractable. Logical structure sharpens it: ontology axioms tighten the bound by up to a third, propagating to couplings they never touch. It can be acquired: targeted scars, constraints learned from encountered infeasibilities, close the gap several times faster than untargeted ones. Its full reconstruction is approximate counting of the admissible worlds, tractable below the Sly-Sun threshold and inapproximable above; we do not claim to beat the worst case.

13:00 JSTLLM/生成AIビジネス/資金調達

思い出しすぎ: メモリ拡張モデルにおけるおしゃべりの評価と軽減

永続メモリ システムは、ユーザーの信念を長期にわたって保存することで、LLM をさらに役立つものにすることを約束します。また、モデルが正確さよりもユーザーとの合意を優先し、お調子者を体系的に増幅することでモデルの正確性が低下することも示します。私たちは、ユーザーが科学、医学、道徳的推論の領域でもっともらしい誤解を表明する、合成的に生成されたマルチターン会話のベンチマークである MIST を導入して、この効果の最初の体系的な評価を実施しました。 3 つの最先端の記憶システムと 5 つのモデル ファミリーにわたるテストにより、記憶はすべての条件でお調子者行動を増幅し、コンテキスト内ベースラインよりも最大 25 倍高いお調子者率であることが明らかになりました。エラー分析では、メモリ抽出が主な原因であることが示唆されています。個別のスニペットへの非可逆圧縮により、修正コ​​ンテキストが破棄され、ユーザーの誤解がエンコードされます。これらの結果に基づいて、事実の想起において記憶システムと同等またはそれを超えながら、おしゃべりを大幅に軽減する 2 つの軽量な緩和策を提案します。

原文 (English)

Recalling Too Well: Sycophancy Evaluation and Mitigation in Memory-Augmented Models

Persistent memory systems promise to make LLMs more helpful by storing user beliefs over time. We show they also make models less correct by systematically amplifying sycophancy, wherein models prioritize agreement with users over accuracy. We conduct the first systematic evaluation of this effect, introducing MIST: a benchmark of synthetically generated multi-turn conversations where users express plausible misconceptions in scientific, medical, and moral reasoning domains. Testing across three state-of-the-art memory systems and five model families reveals that memory amplifies sycophantic behavior across all conditions, with up to 25x higher sycophancy rates than in-context baselines. Error analyses suggest memory extraction as the primary culprit: lossy compression into discrete snippets encodes user misconceptions while discarding corrective context. Based on these results, we propose two lightweight mitigations that substantially reduce sycophancy while matching or exceeding memory systems at factual recall.

13:00 JST画像/動画生成

Architect-Ant: 建築平面図の編集可能な自動家具

家具付きのフロア プランは、不動産の視覚化、インテリア デザイン、建築ワークフローの基礎となります。しかし、家具の自動配置の進歩は、オブジェクトレベルの家具の注釈を備えた、実際に専門的に設計された間取り図データセットが不足していることによって制限されてきました。このギャップに対処するために、10 の住宅部屋カテゴリにわたる部屋ごとの家具境界ボックスの注釈を備えた 270 の建築平面図の厳選されたデータセットである AntPlan-270 を導入します。このデータセットに基づいて、微調整されたビジョン言語モデルを活用した編集可能な自動家具フレームワークである Architect-Ant を紹介します。家具のレイアウトは、部屋の形状に応じたオブジェクトのカテゴリと配置をエンコードする、コンパクトな座標ベースのドメイン固有言語 (DSL) を使用して表現されます。空間推論を改善するために、壁の配置、ドアと窓の隙間、動線、備品の互換性、部屋固有の家具の在庫などの建築上の制約を捕捉する手続き型推論トレースを生成し、それらを使用してモデルの微調整を監視します。次に、候補オブジェクトの配置に対して優先順位の最適化を適用して、レイアウトの品質をさらに調整します。生成された DSL はセマンティック マスクにラスタライズされ、Flux ベースの LoRA レンダラーの条件付けに使用され、編集可能なシンボリック レイアウトを維持しながら、現実的な青写真スタイルの家具付きフロア プラン イメージを生成できます。レイアウトの提供に関する実験では、Architect-Ant が幾何学的に有効で機能的に妥当なレイアウトを生成することを示し、より大きな構造のみのフロアプラン データセットを提供するためのスケーラブルなパスを提案しています。

原文 (English)

Architect-Ant: Editable Automatic Furnishing of Architectural Floor Plans

Furnished floor plans are fundamental to real estate visualization, interior design, and architectural workflows. However, progress in automatic furniture arrangement has been limited by the lack of real, professionally designed floor-plan datasets with object-level furniture annotations. To address this gap, we introduce AntPlan-270, a curated dataset of 270 architectural floor plans with per-room furniture bounding box annotations across ten residential room categories. Building on this dataset, we present Architect-Ant, an editable automatic furnishing framework powered by a fine-tuned vision-language model. Furniture layouts are represented using a compact, coordinate-based domain-specific language (DSL) that encodes object categories and placements relative to the room geometry. To improve spatial reasoning, we generate procedural reasoning traces that capture architectural constraints such as wall alignment, door and window clearance, circulation, fixture compatibility, and room-specific furniture inventories, and use them to supervise fine-tuning of the model. We then apply preference optimization over candidate object placements to further refine layout quality. The generated DSL can be rasterized into semantic masks and used to condition a Flux-based LoRA renderer, producing realistic blueprint-style furnished floor-plan images while preserving the editable symbolic layout. Experiments on layout furnishing show that Architect-Ant produces geometrically valid and functionally plausible layouts, and suggest a scalable path for furnishing larger structure-only floor-plan datasets.

13:00 JSTLLM/生成AIエージェント

ギャップに注意: Frontier LLM は標準化された Office 技能試験に合格できますか?

コンピューター自動化のための大規模言語モデル (LLM) エージェントの導入は加速していますが、複雑なプロ仕様の生産性ソフトウェアを操作する能力はほとんどテストされていません。 Office オートメーションは、長期的な計画と推論、正確なパラメーター構成、および複数のアプリケーションの統合を必要とするため、ドキュメント自動化機能のベンチマークを行うのに理想的な環境であると私たちは主張します。この能力を定量化するために、Word、Excel、PowerPoint にわたる 200 の包括的な実践的な操作タスクを特徴とする中国の国家コンピューターランク試験 (NCRE) に基づく評価を導入します。各タスクは、7,118 の機械採点可能な基準を使用して 100 ポイントのルーブリック スケールで採点され、スコア率 (SR) は、これらのタスク全体で獲得したルーブリック ポイントの平均パーセンテージを示します。私たちは 7 つのフロンティア LLM をベンチマークし、厳しい制限を観察しました。シングルターン モデルのスコアは最大 36.6% でした。実行フィードバック、反復修復、および広範な Office Automation アクセスを備えた強力なエージェント システムは 68.8% に達していますが、健全性チェックのスコアリングとして使用されるコミュニティ参照スコアの 95.5% を下回っています。最終的に、私たちの実験は、コード生成における最近の進歩にもかかわらず、信頼性の高いきめ細かい Office ドキュメントの自動化を実現することが、現在のコード生成 LLM およびエージェント システムにとって依然として大きな課題であることを示しています。

原文 (English)

Mind the Gap: Can Frontier LLMs Pass a Standardized Office Proficiency Exam?

The deployment of Large Language Model (LLM) agents for computer automation is accelerating, yet their ability to navigate complex, professional-grade productivity software is largely untested. We argue that Office automation is an ideal environment for benchmarking document-automation capability, as it requires long-horizon planning and reasoning, precise parameter configuration, and multi-application integration. To quantify this capability, we introduce an evaluation based on China's National Computer Rank Examination (NCRE), featuring 200 comprehensive practical-operation tasks across Word, Excel, and PowerPoint. Each task is scored on a 100-point rubric scale using 7,118 machine-gradable criteria, and Score Rate (SR) denotes the mean percentage of rubric points earned across these tasks. We benchmark 7 frontier LLMs and observe stark limitations: single-turn models score a maximum of 36.6%. A stronger agentic system with execution feedback, iterative repair, and broader Office automation access reaches 68.8%, but remains below the 95.5% community-reference score used as a scoring sanity check. Ultimately, our experiments demonstrate that despite recent advancements in code generation, achieving reliable fine-grained Office document automation remains a significant challenge for current code-generating LLM and agent systems.

13:00 JSTLLM/生成AI研究/論文

状態依存の実行可能アクションセットを使用したマルコフ決定プロセスのベルマン・テイラー・スコア解読

オペレーションズ リサーチにおける多くのマルコフ意思決定プロセス (MDP) には、状態に依存し、さまざまな運用上の制約によって暗黙的に定義される実行可能なアクションがあります。これらの機能により、標準的な深層強化学習 (DRL) アルゴリズムの使用が困難になります。DRL アルゴリズムのアクション インターフェイスは、通常、固定の有限アクション カタログまたは単純なユークリッド空間のいずれかを前提としています。最適なアクション価値関数のテイラー拡張を動機として、アクション デコーダーを通じて実現可能性を強化しながら、ポリシー学習をユークリッド スコア空間に移行するフレームワークであるベルマン テイラー スコア デコーディングを提案します。誘導された潜在スコア MDP は、デコーダを介して微分することなく、標準の DRL アルゴリズムによって最適化できます。このアプローチの最適性ギャップが構造近似誤差とアルゴリズム学習誤差に分解されることを示すパフォーマンス保証を提供します。最後に、このフレームワークをキューイング ネットワーク制御問題に適用します。この問題では、ポリシーは基本的に状態に依存するインデックスベースのディスパッチング ルールを学習します。数値実験では、小規模なインスタンスではほぼ最適なパフォーマンスが得られ、大規模なシステムではベンチマークよりも大幅に向上していることが示されています。

原文 (English)

Bellman-Taylor Score Decoding for Markov Decision Processes with State-Dependent Feasible Action Sets

Many Markov decision processes (MDPs) in operations research have feasible actions that are state dependent and defined implicitly by various operational constraints. These features make it difficult to use standard deep reinforcement learning (DRL) algorithms, whose action interfaces typically assume either a fixed finite action catalog or a simple Euclidean space. Motivated by a Taylor expansion of the optimal action-value function, we propose Bellman--Taylor score decoding, a framework that moves policy learning to a Euclidean score space while enforcing feasibility through an action decoder. The induced latent-score MDP then can be optimized by standard DRL algorithms without differentiating through the decoder. We provide a performance guarantee showing that the optimality gap of this approach decomposes into a structural approximation error and an algorithmic learning error. Lastly, we apply this framework to a queueing network control problem, where the policy essentially learns a state-dependent index-based dispatching rule. Numerical experiments show near-optimal performance in small instances and considerable improvements over benchmarks in larger systems.

13:00 JST研究/論文

応答指定型大規模言語モデルの学習解除のための null スペース制約付き低ランク適応

大規模言語モデルのアンラーニングは、無害な機能を維持しながら、指定された望ましくない知識を抑制することを目的としています。多くのアンラーニング目標は、望ましくない答えを抑制することに重点を置いていますが、最近のターゲットガイド型バリアントでは置換動作が指定されていますが、更新の局所性はほとんど制約されていません。この論文では、制御された LLM 非学習のための射影制約付き低ランク フレームワークである \emph{Null-Space Constrained Response-Specified Unlearning} (NSRU) を紹介します。 NSRU は、明示的に構造化された安全なターゲット応答を使用して、元の望ましくないコンテンツを抑制しながら、各忘れクエリに対して望ましい動作を指定します。適応を局所化するために、NSRU は良性の隠れ表現からモジュールごとに保持サブ空間を推定し、直交投影された低ランク パラメーター化を使用して LoRA 更新を保持サブ空間のヌル空間に制限します。結果として得られる目標は、この制約されたパラメーター化の下で、安全なターゲットの学習、望ましくない応答の抑制、および保持の保存を共同で最適化します。ローカル一次分析を提供し、投影された更新によって保持側の摂動が軽減され、同時にクエリを忘れた場合の動作を形成するための編集可能な方向が維持されることを示します。 TOFU に関する実験では、NSRU が抽出可能な忘却セット知識を効果的に抑制しながら、代表的なベースラインに対する保持 QA パフォーマンス、モデルの有用性、および安全なターゲットの調整を向上させることが示されています。 WMDP では、NSRU は、広範囲のドメイン隣接 MMLU ユーティリティを維持しながら、ランダム選択領域付近で危険なドメインの精度を維持します。アブレーション研究は、安全なターゲットの監視、望ましくない応答の抑制、保持損失、ヌル空間の投影された更新の相補的な役割をサポートする一方、感度とロバスト性の分析は、テストされたハイパーパラメーターとプロンプトの変動全体にわたって安定した動作を示します。

原文 (English)

Null-Space Constrained Low-Rank Adaptation for Response-Specified Large Language Model Unlearning

Large language model unlearning aims to suppress designated undesirable knowledge while preserving benign capabilities. Many unlearning objectives focus on suppressing undesired answers, while recent target-guided variants specify replacement behavior but still leave update locality largely unconstrained. This paper introduces \emph{Null-Space Constrained Response-Specified Unlearning} (NSRU), a projection-constrained low-rank framework for controlled LLM unlearning. NSRU uses an explicitly structured safe target response to specify the desired behavior for each forget query, while suppressing the original undesired content. To localize adaptation, NSRU estimates per-module retain subspaces from benign hidden representations and uses an orthogonal-projected low-rank parameterization to confine LoRA updates to the null space of the retain subspace. The resulting objective jointly optimizes safe-target learning, undesired-response suppression, and retention preservation under this constrained parameterization. We provide a local first-order analysis showing that the projected update reduces retain-side perturbations while preserving editable directions for shaping forget-query behavior. Experiments on TOFU show that NSRU effectively suppresses extractable forget-set knowledge while improving retain QA performance, model utility, and safe-target alignment over representative baselines. On WMDP, NSRU keeps hazardous-domain accuracy near the random-choice region while preserving broad and domain-adjacent MMLU utility. Ablation studies support the complementary roles of safe-target supervision, undesired-response suppression, retention loss, and null-space projected updates, while sensitivity and robustness analyses indicate stable behavior across the tested hyperparameter and prompt variations.

13:00 JSTLLM/生成AIハードウェア/半導体

推論からの構造、検索からの数値: 結合 MIMO コントローラー調整の構造事前分布としてのオンプレミスのオープン LLM

強結合多入力多出力 (MIMO) 産業プロセス向けのコントローラーのチューニングは困難です。分散型の古典的な自動チューニングではループの相互作用が無視され、自然な初期化からの局所的な数値最適化は、結果として生じる非凸コスト環境で行き詰まります。データをオンサイトに保持し、プラント モデルを必要としないオンプレミスのオープンソース大規模言語モデル (LLM) が役立つかどうかを尋ねます。シングル ループ CSTR では、従来のリレー フィードバック チューニング (IAE 0.106、最適値 0.102 に近い) は LLM チューナー (0.162) を上回ります。単純なループの場合、LLM は何も追加しません。この図は、設定値が矛盾する強結合四重タンクで反転し、アクチュエータのチャタリングを発生させずに追跡することに報いるペナルティ付きコスト J = IAE + lambda*TV(u) によってスコア付けされます。そこでは、単純なリレー チューニング (J ~ 28.6) と単純な LLM チューニング (29.7) はオープン ループ (22.7) よりも優れたものではなく、バランスのとれた開始からのローカル オプティマイザーは 10/10 の実行で失敗します。代わりに、スキャフォールドされたオープン LLM は結合について推論し、直観に反する非対称構造を提案し、どの開始点からでも J ~ 16.9 +/- 0.2 に達します。古典的なオプティマイザを使用してこれを調整すると、滑らかなグローバル最適値 (J ~ 12.0、10/10 対 0/10) が得られますが、これは非自明な負の積分補正を適用することさえできません。グローバル オプティマイザー (差分進化) もこの最適化に到達するため、LLM が唯一のルートではありません。その利点は、サンプル効率と解釈可能性です。つまり、18 の評価で使用可能なコントローラー (グローバル オプティマイザーはオープン ループよりも劣ります) に加えて、明示された理論的根拠が含まれています。このエッジは次元が上がるにつれて増大し、3x3 プラントでは評価が最大 6 分の 1 に達します。この動作は 4 つのオープン モデルにわたって一般化され、良性のプラントでは LLM には利点がなく、境界が明確になります。私たちは、オープン LLM が制御チューニングに役立つ場合の限界を定める再現可能なベンチマークに貢献します。オプティマイザーとしてではなく、サンプル効率が高く、解釈可能な構造事前処理としてです。

原文 (English)

Structure from Reasoning, Numbers from Search: On-Premise Open LLMs as Structural Priors for Coupled MIMO Controller Tuning

Tuning controllers for strongly coupled multi-input multi-output (MIMO) industrial processes is hard: decentralized classical auto-tuning ignores loop interaction, and local numerical optimization from natural initializations stalls in the resulting non-convex cost landscape. We ask whether on-premise open-source large language models (LLMs), which keep data on-site and need no plant model, can help. On a single-loop CSTR, classical relay-feedback tuning (IAE 0.106, near the 0.102 optimum) beats an LLM tuner (0.162): for simple loops the LLM adds nothing. The picture inverts on a strongly coupled quadruple-tank with conflicting set-points, scored by a penalized cost J = IAE + lambda*TV(u) that rewards tracking without chattering actuators. There, naive relay tuning (J ~ 28.6) and naive LLM tuning (29.7) are no better than open loop (22.7), and a local optimizer from balanced starts fails in 10/10 runs. A scaffolded open LLM instead reasons about the coupling, proposes the counter-intuitive asymmetric structure, and reaches J ~ 16.9 +/- 0.2 from any start; refining it with a classical optimizer attains the smooth global optimum (J ~ 12.0, 10/10 vs. 0/10), which even applies a non-obvious negative integral correction decentralized tuning cannot. A global optimizer (differential evolution) also reaches this optimum, so the LLM is not the only route; its advantage is sample efficiency and interpretability: a usable controller in 18 evaluations (where the global optimizer is worse than open loop) plus a stated rationale. This edge grows with dimension, reaching ~6x fewer evaluations on a 3x3 plant. The behaviour generalizes across four open models, and on a benign plant the LLM offers no advantage, sharpening the boundary. We contribute a reproducible benchmark delimiting when open LLMs help in control tuning: not as optimizers, but as a sample-efficient, interpretable structural prior.

13:00 JSTLLM/生成AI

LLM の意思決定における表面的な信念

私たちは、大規模言語モデル (LLM) が 2 つの選択肢から選択する際に論理的根拠を模倣しているだけなのか、それともその選択が体系的な基礎となる意思決定構造を反映しているのかを尋ねます。段階的な属性によって定義されたプロファイルの中からモデルが選択する合成二分決定設定を使用して、モデルが最も重要であると主張する属性と、以前の決定に適合する行動モデルの下でその選択を最もよく説明する属性を比較します。行動モデルは、保留された選択肢を適切に予測し、モデルの行動がランダムではなく、目に見える属性に系統的に関連していることを示しています。ただし、直接的な自己申告と別のスコアベースの裁判官は、行動的に推定されたドライバーを部分的にしか回復しません。結果として得られる画像は、恣意的な動作の 1 つでも、完全に明確化された信念の 1 つでもありません。出力は予測をサポートするのに十分に構造化されていますが、明示的な理由により回復されたドライバーが不完全にしか追跡されません。この定性的パターンは、プロンプト順序およびサンプリングの摂動、代替動作モデル、ターゲットを絞ったオクルージョン分析、および構造的に多様な意思決定設定にわたって持続します。私たちはこれを、LLM の意思決定における「表面的な信念」の証拠として解釈します。つまり、モデルは、意思決定の原動力となる属性への口頭でのアクセスが限られているにもかかわらず、属性に対する確率論的な局所的な優先順位によって導かれているかのように動作します。

原文 (English)

Superficial Beliefs in LLM Decision-Making

We ask whether large language models (LLMs) merely imitate rationales when choosing between two options, or whether their choices reflect a systematic underlying decision structure. Using synthetic binary decision settings in which models choose between profiles defined by graded attributes, we compare the attribute a model says mattered most with the attribute that best explains its choice under a behavioural model fit to prior decisions. The behavioural model predicts held-out choices well, showing that model behaviour is systematically related to the visible attributes rather than being random. However, direct self-reports and a separate score-based judge recover the behaviourally inferred driver only partially. The resulting picture is neither one of arbitrary behaviour nor one of fully articulated belief - outputs are structured enough to support prediction, but explicit reasons track the recovered driver only imperfectly. This qualitative pattern persists across prompt-order and sampling perturbations, alternative behavioural models, targeted occlusion analyses, and structurally varied decision settings. We interpret this as evidence for ``superficial belief'' in LLM decision-making: models behave as if guided by probabilistic local priorities over attributes, while having only limited verbal access to the attributes that drive their decisions.

13:00 JSTエージェントビジネス/資金調達

Workflow-GYM: 現実世界の専門分野におけるコンピュータ使用エージェントタスクの長期的な評価に向けて

近年、ますます複雑になる現実世界のタスクの処理に向けて、AI エージェントが急速に進化しています。しかし、既存のベンチマークでは、エージェントがグラフィカル ユーザー インターフェイスを操作して、さまざまなドメインにわたる長期にわたる価値の高い専門的なワークフローを完了できるかどうかを評価することはほとんどありません。現在の GUI ベンチマークは依然として、主に汎用ソフトウェア、比較的単純なアプリケーション、および短期間のタスクに焦点を当てており、最新のエージェントがユーザーの指示に従ってドメイン固有のプロフェッショナル ソフトウェアを自律的に操作し、経済的に価値のある作業をエンドツーエンドで実行できるかどうかはほとんど不明です。このギャップを埋めるために、専門分野と特殊なソフトウェア環境を中心とした長期的な GUI タスクのベンチマークである Workflow-GYM を導入します。最先端のモデルで広範な実験を行った結果、最も強力なモデルでも成功率は 30% をわずかに超える程度であることがわかり、プロの長期にわたる GUI ワークフローが現在の GUI エージェントにとって依然として非常に困難であることが浮き彫りになりました。さらなる分析により、現在のエージェントは長期的なワークフローの一貫性を維持するのに苦労しており、ワークフロー段階の省略、エラーの伝播、目標のずれ、プロフェッショナルなソフトウェア環境の理解不足が頻繁に見られることが明らかになりました。私たちの調査結果は、現在のエージェント システムの限界についての重要な洞察を提供し、次世代の GUI エージェント研究の重要な方向性を示唆しています。

原文 (English)

Workflow-GYM: Towards Long-Horizon Evaluation of Computer-use Agentic tasks in Real-World Professional Fields

Recent years have witnessed the rapid evolution of AI agents toward handling increasingly complex, real-world tasks. However, existing benchmarks rarely evaluate whether agents can operate graphical user interfaces to complete long-horizon, high-value professional workflows across diverse domains. Current GUI benchmarks still predominantly focus on general-purpose software, relatively simple applications, and short-horizon tasks, leaving it largely unknown whether modern agents can follow user instructions to autonomously operate domain-specific professional software and accomplish economically valuable work in an end-to-end manner. To bridge this gap, we introduce Workflow-GYM, a benchmark for long-horizon GUI tasks centered on professional domains and specialized software environments. Through extensive experiments on state-of-the-art models, we find that even the strongest models achieve only slightly above 30% success rates, highlighting that professional long-horizon GUI workflows remain highly challenging for current GUI agents. Further analysis reveals that current agents struggle to maintain long-horizon workflow consistency, frequently exhibiting workflow stage omission, error propagation, objective drift, and insufficient understanding of professional software environments. Our findings provide important insights into the limitations of current agent systems and suggest key directions for the next generation of GUI-agent research.

13:00 JSTエージェント研究/論文

(少数のトークンに) 適合するものは過剰適合しない: ML Research Agents における圧縮と一般化

保持されたベンチマークを適応的に再利用すると、原則として過剰適合が発生するはずです。しかし、ベンチマーク主導の機械学習 (ML) は、実際には驚くほど過学習をほとんど引き起こしません。魅力的な仮説は、成功する ML 戦略は非常に圧縮可能であるということです。私たちはこれを LLM 主導の調査エージェントの設定で研究します。そこでは、2 つの相補的な情報ボトルネックを介して仮説が直接検証可能になります。 \emph{出力圧縮} では、探索エージェントが検証セットを使用して高性能モデルを適応的に検索し、非常に短いプロンプトとトレーニング データのみが与えられた場合に、新しい「再現エージェント」がそのパフォーマンスを再現できるかどうかをテストします。 \emph{入力圧縮} では、エクスプローラーは、送信された各モデルが実行時に最適化されているかどうかを示す 1 ビットのフィードバックのみを受け取ります。表形式の分類、ビジョン、言語モデリング、拡散モデリング、報酬モデリングにわたる 8 つのデータセットにわたって、これらのボトルネックがパフォーマンスにほとんど影響を及ぼさないことがわかりました。つまり、高性能モデルを再現して見つけるには、短いプロンプトと圧縮可能なフィードバックで十分です。この仮説は反証可能です。検証セットの過学習を意図的に誘発すると、短いプロンプトでは結果が再現されません。まとめると、私たちの結果は、ベンチマーク駆動型 ML に過剰適合が存在しないことについての記述長の説明を裏付けています。成功した戦略は、戦略空間の低複雑さの領域を占有します。

原文 (English)

What Fits (Into Few Tokens) Doesn't Overfit: Compression and Generalization in ML Research Agents

Reusing a held-out benchmark adaptively should, in principle, invite overfitting. Yet benchmark-driven machine learning (ML) has produced surprisingly little overfitting in practice. An attractive hypothesis is that successful ML strategies are highly compressible. We study this in the setting of LLM-driven research agents, where the hypothesis becomes directly testable via two complementary information bottlenecks. In \emph{output compression}, an exploration agent adaptively searches for high-performance models using a validation set, and we test whether a fresh ``reproducer agent'' can reproduce its performance given only an extremely short prompt and the training data. In \emph{input compression}, the explorer receives only one-bit feedback indicating whether each submitted model improves on the running best. Across 8 datasets spanning tabular classification, vision, language modeling, diffusion modeling, and reward modeling, we find that these bottlenecks have little effect on performance: short prompts and compressible feedback are sufficient to reproduce and find high-performance models. The hypothesis is falsifiable: when we deliberately induce validation-set overfitting, the results fail to reproduce with short prompts. Taken together, our results support a description-length explanation for the lack of overfitting in benchmark-driven ML: successful strategies occupy a low-complexity region of strategy space.

13:00 JSTLLM/生成AI研究/論文

CIAware-Bench: フロンティア LLM 全体にわたる制御介入の認識のベンチマーク

AI 制御プロトコルは、多くの場合、信頼できるモデルを使用して、信頼できないモデルの動作を監視し、安全でない可能性のあるステップを変更することで、信頼できないモデルを監視します。これにより、信頼できないモデルの軌道が部分的に変更されます。信頼できるモデルがそのような介入を検出すると、モニターのプロパティを推測し、制御を回避するように適応する可能性があります。フロンティア モデル全体で \textbf{c}ontrol \textbf{i}ntervention (CI) の認識を測定するためのベンチマークである \textbf{CIAware-Bench} を紹介します。 CIAware-Bench は、モデルが自身の軌道と制御介入によって変更された軌道を区別できるかどうかをテストします。このベンチマークは 4 つのタスク ドメイン (エッセイ執筆、BigCodeBench、Bash Arena、SHADE-Arena) のスイートで構成されており、軌跡の透かし、サイドタスクの存在、および制御プロトコルが異なります。 11 個のフロンティア モデルを評価すると、デフォルト設定 (最大 0.87、ランダム チャンスバランスのバイナリ分類精度は 0.5) では低から中程度の CI 認識率があり、タスク ドメインとモデル ペア間で大きなばらつきがあることがわかりました。一般に、モデル ファミリ間では検出が容易であり、モデルがスタイルまたはトレーニング後のプロバイダー固有の違いを利用していることを示唆しています。全体として、CI の認識度はモデル レベルで固定された特性ではなく、新しいモデルのリリースおよび展開シナリオごとに測定する必要があります。 CI の認識を追跡し、介入の検出が困難な制御プロトコルに通知するために、CIAware-Bench をリリースします。

原文 (English)

CIAware-Bench: Benchmarking Control Intervention Awareness Across Frontier LLMs

AI control protocols oversee untrusted models by monitoring their actions and modifying potentially unsafe steps, often using a trusted model. This partially tampers with the untrusted model's trajectory. If the trusted model detects such an intervention, it may infer properties of the monitor and adapt to evade control. We introduce \textbf{CIAware-Bench}, a benchmark for measuring \textbf{c}ontrol \textbf{i}ntervention (CI) awareness across frontier models. CIAware-Bench tests whether models can distinguish their own trajectories from those modified by a control intervention. The benchmark is comprised of a suite of four task domains (essay writing, BigCodeBench, Bash Arena, and SHADE-Arena), while varying trajectory watermarking, side-task presence, and the control protocol. Evaluating eleven frontier models, we find low to moderate CI awareness under default settings (up to 0.87; random chance balanced binary classification accuracy is 0.5) with substantial variation across task domains and model pairs. Detection is generally easier across model families, suggesting that models exploit provider-specific differences in style or post-training. Overall, CI awareness is not a fixed model-level property, and should be measured for each new model release and deployment scenario. We release CIAware-Bench to track CI awareness and inform control protocols whose interventions are harder to detect.

13:00 JSTLLM/生成AI画像/動画生成エージェントGemini

コンピュータ使用エージェントに対する歴史を意識した視覚的根拠に基づいた批評家

複雑なグラフィカル ユーザー インターフェイス (GUI) 環境での実行前アクション評価を通じてパフォーマンスを向上させるために、批評家モデルを含むコンピューター使用エージェント (CUA) のさまざまなテスト時介入が開発されています。しかし、既存の批評家は 2 つの重要な制限に悩まされています。(1) 主に近視眼的な意思決定ループ (以前のアクションを忘れるなど) に重点を置いている、(2) 欠陥のあるアクション (間違った UI 要素をクリックするなど) を検出するために必要な視覚的根拠が欠けている、というものです。これらに対処するために、歴史を意識した視覚的にグラウンディングされたテスト時間フレームワークである HiViG を導入します。これは、実際の G​​UI の軌跡で訓練されたマルチモーダルな批評家を中心に構築され、過去のインタラクションをコンパクトな記録に抽象化し、視覚的にグラウンディングしたアクションを評価します。テスト時に、HiViG はポリシー決定ループに批評家を統合して、ポリシーの完了した成果を要約するマクロアクション履歴と、実行前にエラーを阻止するために現在のスクリーンショットに対して生の実行座標を検証する視覚的に根拠のある批評を提供します。 Web、モバイル、およびデスクトップのベンチマーク全体で、HiViG は既存のスカラーおよび口頭の批評家を常に上回り、最も強力なベースラインに対する平均成功率を Qwen3-VL-32B で 5.8%、Gemini-3-Flash で 9.0% 向上させ、強力なクロスプラットフォーム汎用性を実証しています。アブレーションの結果、マクロアクション履歴は近視眼的な計画を軽減し、視覚に基づいた批評は実行エラーを軽減することを示しており、どちらのコンポーネントも長期的な GUI タスクにおけるテスト時間のスケーリングにとって重要です。

原文 (English)

A History-Aware Visually Grounded Critic for Computer Use Agents

Various test-time interventions for Computer Use Agents (CUAs), including critic models, have been developed to improve performance through pre-execution action evaluation in complex Graphical User Interface (GUI) environments. However, existing critics suffer from two key limitations: they (1) focus primarily on short-sighted decision loops (e.g., forgetting earlier actions) and (2) lack the visual grounding needed to detect flawed actions (e.g., clicking wrong UI elements). To address these, we introduce HiViG, a History-aware Visually Grounded test-time framework, built around a multimodal critic trained on real GUI trajectories to abstract past interactions into a compact record and to evaluate actions with visual grounding. At test time, HiViG integrates the critic into the policy decision loop to provide macro-action history, which summarizes the policy's completed achievements, and visually grounded critique, which verifies raw execution coordinates against the current screenshot to intercept errors before execution. Across web, mobile, and desktop benchmarks, HiViG consistently outperforms existing scalar and verbal critics, improving average success rates over the strongest baseline by 5.8% for Qwen3-VL-32B and 9.0% for Gemini-3-Flash, and demonstrates strong cross-platform generalization. Ablations show that macro-action history mitigates short-sighted planning and visually grounded critique reduces execution errors, with both components being critical for test-time scaling in long-horizon GUI tasks.

13:00 JST画像/動画生成ビジネス/資金調達

モンテカルロパス検索: サッカーにおける 3D 反事実パス評価のための軌道生成の使用

我々はフットボール(サッカー)におけるパス評価を、モンテカルロ木探索(MCTS)に似た評価問題として再構築した。その構成要素のほとんどは、価値モデル(ポゼッション値)、世界モデル(ボール相互作用を伴うマルチエージェント軌道)、反事実的行動(ノイズを含むパスのバリエーションのサンプリング)に対するポリシーなど、さまざまな名前で文献に存在する。ブンデスリーガの 3D ボール軌道を含む初の公開高忠実度トラッキング データセットを基盤として、モンテカルロ パス サーチ (MCPS) を導入します。これは、観察された各パスのキック パラメーターを推測し、実行バリアントとオプション バリアントをサンプリングし、次のボール インタラクションまでボール条件付きワールド モデルを使用して各候補を前方にロールし、学習値モデルで結果をスコア付けして獲得値に対する分布を取得します。この分布により、分析とランキングに使用される 2 つの補完的な実行余剰スコア (平均ベースのスコアとパーセンタイル ベースのスコア) を使用して、分布を意識したアトリビューションが可能になります。限られた公開データの下で世界モデルのサンプル効率を高めるために、自動運転 (SMART) からの離散トークンの自己回帰軌道ジェネレーターを適応させ、それがベースラインと比較して最高 20 の強力な予測精度を生み出すことを示し、同時に下流の評価のための完全に仮説的なロールアウトをサポートします。モデルのチェックポイントとコードをリリースしました。

原文 (English)

Monte Carlo Pass Search: Using Trajectory Generation for 3D Counterfactual Pass Evaluation in Football

We recast pass evaluation in football (soccer) as a Monte Carlo Tree Search (MCTS)-like evaluation problem whose components mostly exist in the literature under different names: a value model (possession value), a world model (multi-agent trajectories with ball interactions), and a policy over counterfactual actions (sampling pass variants with noise). Building on the first public high-fidelity tracking dataset with 3D ball trajectories from the Bundesliga, we introduce Monte Carlo Pass Search (MCPS), which infers kick parameters for each observed pass, samples execution variants and option variants, rolls each candidate forward with a ball-conditioned world model until the next ball interaction, and scores outcomes with a learned value model to obtain a distribution over gained value. This distribution enables distribution-aware attribution with two complementary execution-surplus scores used for analysis and ranking: mean-based and percentile-based scores. To make the world model sample-efficient under limited public data, we adapt a discrete-token, autoregressive trajectory generator from autonomous driving (SMART) and show it yields strong best-of-20 forecasting accuracy compared to baselines, while supporting fully hypothetical rollouts for downstream evaluation. We have released model checkpoints and code.

13:00 JSTLLM/生成AIエージェント研究/論文OpenAI

ABC-Bench: バイオセキュリティのための薬剤のバイオ機能ベンチマーク

大規模言語モデル (LLM) は、文献合成から実験データの解釈に至るまで、生物学研究に関連する機能を急速に獲得しています。 LLM エージェントは、以前は経験豊富な人間の生物学者を必要としたコンピュータ生物学のタスクも実行できるようになってきています。これらの新たな AI 機能は、科学的発見と生物医学の進歩に新たな機会をもたらしますが、同時にバイオセキュリティ リスクの状況も変化させます。これに対処するために、薬剤のバイオセキュリティ関連の能力を測定するための一連のタスクである薬剤バイオ能力ベンチマーク (ABC-Bench) を導入します。 ABC-Bench は、液体処理ロボットを操作するためのコードの作成、in vitro アセンブリ用の DNA フラグメントの設計、DNA 合成スクリーニングの回避など、良性および二重用途の生物学的タスクの両方で LLM エージェントを評価します。これらのタスクには、生物学とソフトウェアの専門知識の組み合わせが必要です。テストされたすべての LLM エージェントは、3 つのタスクすべてにおいて専門家によるベースライナーの中央値を上回りました。エージェントは、公開された知識と十分に文書化されたプロトコルに基づいたタスクでは高いパフォーマンスを発揮しましたが、新しいバイオインフォマティクス推論を必要とするタスクではパフォーマンスが低かったです。 3 つのウェットラボ検証実験で、OpenAI の o4-mini-high が生成したスクリプトが、OpenTrons 液体ハンドリング ロボット上で実行されると、予想される配列で DNA を正常に組み立てることがわかりました。

原文 (English)

ABC-Bench: An Agentic Bio-Capabilities Benchmark for Biosecurity

Large language models (LLMs) are rapidly acquiring capabilities relevant to biological research, from literature synthesis to interpretation of experimental data. Increasingly, LLM agents can also perform in silico biology tasks that previously required experienced human biologists. These emerging AI capabilities offer new opportunities for scientific discovery and biomedical advances, but they also shift the landscape of biosecurity risks. To address this, we introduce the Agentic Bio-Capabilities Benchmark (ABC-Bench), a suite of tasks to measure agentic biosecurity-relevant capabilities. ABC-Bench evaluates LLM agents on both benign and dual-use biology tasks: writing code to operate liquid handling robots, designing DNA fragments for in vitro assembly, and evading DNA synthesis screening. These tasks require a combination of biology and software expertise. All tested LLM agents outperformed the median expert human baseliner on all three tasks. Agents performed highly on tasks drawing on published knowledge and well-documented protocols, and more weakly on a task requiring novel bioinformatics reasoning. In three wet-lab validation experiments, we found that OpenAI's o4-mini-high produced scripts that, when run on an OpenTrons liquid handling robot, successfully assembled DNA with expected sequences.

13:00 JSTLLM/生成AILlamaQwenDeepSeek

ReasonAlloc: 推論モデルの階層的なデコード時間 KV キャッシュ予算割り当て

大規模言語モデル (LLM) 推論における長い思考連鎖 (CoT) の軌跡は、キーバリュー (KV) キャッシュの急速な増大により深刻な推論のボトルネックを引き起こします。現在のデコード時の圧縮方法は、トークンの削除によってこの問題を軽減しますが、通常はすべてのレイヤーとヘッドにわたって均一な予算配分を前提としています。対照的に、既存の不均一な予算割り当て方法は、主に静的なプロンプト事前入力フェーズ向けに設計されており、自己回帰推論の段階的なコンテキスト要求を捉えていません。このギャップを埋めるために、デコード時の KV 圧縮を階層的な予算割り当て問題として再構築する、トレーニング不要のフレームワークである ReasonAlloc を提案します。 ReasonAlloc は 2 つの補完的なレベルで動作します。オフラインのレイヤーごとの事前割り当て戦略は、「\textit{Reasoning Wave}」と呼ばれるアーキテクチャ主導の需要パターンをキャプチャします。一方、オンラインのヘッドごとの戦略は、デコード中にリアルタイム ユーティリティに基づいて情報豊富なヘッドにリソースを再割り当てします。 DeepSeek-R1-Distill-Llama-8B、DeepSeek-R1-Distill-Qwen-14B、および AceReason-14B を使用した数理推論ベンチマーク (MATH-500、AIME~2024) の評価では、ReasonAlloc が均一予算の R-KV、SnapKV、および Pyramid-RKV (静的で単調減少するレイヤーを強制するベースライン) よりも優れていることが示されています。予算)、少ない予算 (128 ~ 512 トークン) で最大の利益が得られます。 ReasonAlloc は既存のトークン削除ポリシーとプラグアンドプレイであり、推論時間のオーバーヘッドは無視できます。

原文 (English)

ReasonAlloc: Hierarchical Decoding-Time KV Cache Budget Allocation for Reasoning Models

Long chain-of-thought (CoT) trajectories in large language model (LLM) reasoning cause severe inference bottlenecks due to rapid key-value (KV) cache growth. Current decoding-time compression methods mitigate this issue via token eviction, but typically assume a uniform budget distribution across all layers and heads. In contrast, existing non-uniform budget allocation methods are predominantly designed for the static prompt prefill phase, and they do not capture the stepwise context demands of autoregressive reasoning. To bridge this gap, we propose ReasonAlloc, a training-free framework that recasts decoding-time KV compression as a hierarchical budget allocation problem. ReasonAlloc operates at two complementary levels: an offline layer-wise preallocation strategy captures an architecture-driven demand pattern which we call ``\textit{Reasoning Wave}'', while an online head-wise strategy reallocates resources during decoding to information-rich heads based on real-time utility. Evaluations on mathematical reasoning benchmarks (MATH-500, AIME~2024) using DeepSeek-R1-Distill-Llama-8B, DeepSeek-R1-Distill-Qwen-14B, and AceReason-14B show that ReasonAlloc outperforms uniform-budget R-KV, SnapKV, and Pyramid-RKV (a baseline enforcing a static, monotonically decreasing layer budget), with the largest gains at small budgets (128-512 tokens). ReasonAlloc is plug-and-play with existing token-eviction policies and introduces negligible inference-time overhead.

13:00 JST研究/論文

自己蒸留におけるフィードバック調整の役割

以前の試行に対するフィードバックなど、追加のコンテキストに基づいて言語モデルを条件付けると、通常、応答が改善されます。自己蒸留は、コンテキストが存在しない場合でもこの改善を維持するようにモデルをトレーニングします。この方法は、質問のみを見る生徒とコンテキストも見る自己教師という 2 つの設定の下でモデルの出力分布を照合することによって機能します。したがって、モデルが何を学習するかは、自己教師がどのようなコンテキストを受け取るかによって決まりますが、このコンテキストの設計はほとんど解明されていないままです。私たちは、フリーズした批評家からのフィードバックに基づいてソルバーをトレーニングすることにより、自己蒸留のためのコンテキスト デザインを研究します。 (i) バイナリ報酬 (GRPO)、(ii) 参照解、および (iii) ソルバーの推論トレースに合わせた段階的な批評の 3 つの条件を比較します。段階的に調整された批評は最大の利益をもたらし、GRPO を 16.11 ポイント上回り、基準溶液条件付き自己蒸留を 5.27 ポイント上回りました (平均 @12)。トークンごとの利点分析により、その理由が明らかになります。段階的に調整されたフィードバックは、推論が失敗したトークンのみをターゲットにし、正しい動作はそのまま残します。対照的に、参照解に基づく条件付けでは、代替導出の表現やアプローチが必然的に異なるため、モデルはトークンごとに (正しいステップであっても) 動作を変更するよう圧力をかけられます。これは、フィードバックとソルバーの推論の間の構造的な調整が自己蒸留の有効性の主要な推進力であることを示唆しています。

原文 (English)

The Role of Feedback Alignment in Self-Distillation

Conditioning a language model on additional context, such as feedback on a previous attempt, typically improves its response. Self-distillation trains the model to retain this improvement when the context is not present. The method works by matching the model's output distribution under two settings: a student that sees only the question, and a self-teacher that also sees the context. What the model learns therefore depends on what context the self-teacher receives, yet the design of this context remains largely unexplored. We study context design for self-distillation by training a solver on feedback from a frozen critic. We compare three conditions: (i) a binary reward (GRPO), (ii) the reference solution, and (iii) a step-by-step critique aligned to the solver's reasoning trace. Step-aligned critique yields the largest gains, outperforming GRPO by 16.11 points and reference-solution-conditioned self-distillation by 5.27 points (Avg@12). Per-token advantage analysis reveals why: step-aligned feedback targets only the tokens where reasoning fails, leaving correct behavior intact. Conditioning on the reference solution, by contrast, pressures the model to change its behavior at every token (even correct steps) because an alternative derivation inevitably differs in phrasing and approach. This suggests that structural alignment between feedback and the solver's reasoning is a key driver of self-distillation effectiveness.

13:00 JST研究/論文

より人間的になるか、それとも AI が増えるか?ジャーナリズムニュース制作における人間とAIのコラボレーションの開示を視覚化する

ジャーナリズムの編集プロセス内では、AI の使用状況の開示は現在、単純化されたラベルに限定されており、人間と AI がニュース記事でどのように協力したかというニュアンスが欠けています。共同設計セッション (N=10) を通じて、私たちは 69 の開示設計を導き出し、ジャーナリズムにおける人間と AI のコラボレーションを視覚的に開示する 4 つのプロトタイプを実装しました。次に、被験者内ラボ研究 (N=32) を実行し、開示の視覚化 (テキスト、役割ベースのタイムライン、タスクベースのタイムライン、チャットボット) とコラボレーションの比率 (主に人間と主に AI) が視覚化の認識、視線パターン、体験後の反応にどのような影響を与えるかを調べました。人間と AI のコラボレーションを伝えるには、テキストによる開示は最も効果的ではないのに対し、チャットボットは最も詳細な情報を提供することがわかりました。さらに、役割ベースのタイムラインでは、主に人間による記事への AI の貢献が増幅されましたが、タスクベースのタイムラインでは、主に AI 記事への人間の関与への認識が変わりました。私たちは、人間と AI のコラボレーションに関する開示の視覚化とその評価、および視覚化がニュース記事作成時の AI の実際の役割の認識をどのように変える可能性があるかについての注意事項に貢献します。

原文 (English)

More Human or More AI? Visualizing Human-AI Collaboration Disclosures in Journalistic News Production

Within journalistic editorial processes, disclosing AI usage is currently limited to simplistic labels, which misses the nuance of how humans and AI collaborated on a news article. Through co-design sessions (N=10), we elicited 69 disclosure designs and implemented four prototypes that visually disclose human-AI collaboration in journalism. We then ran a within-subjects lab study (N=32) to examine how disclosure visualizations (Textual, Role-based Timeline, Task-based Timeline, Chatbot) and collaboration ratios (Primarily Human vs. Primarily AI) influenced visualization perceptions, gaze patterns, and post-experience responses. We found that textual disclosures were least effective in communicating human-AI collaboration, whereas Chatbot offered the most in-depth information. Furthermore, while role-based timelines amplified AI contribution in primarily human articles, task-based timeline shifted perceptions toward human involvement in primarily AI articles. We contribute Human-AI collaboration disclosure visualizations and their evaluation, and cautionary considerations on how visualizations can alter perceptions of AI's actual role during news article creation.

13:00 JST研究/論文

国境を越えたコミュニティ学習のための文化を意識した AI: 計算と設計の交差点における学部のイノベーション

教育における人工知能 (AIED) に関する研究は急速に拡大していますが、技術の進歩には人間中心の基礎や文化的背景への十分な配慮が欠けていることがよくあります。ソーシャルワークに根ざした教育学であるコミュニティベース学習は、AIEDの研究において、特にアジア太平洋地域においては依然として過小評価されている。この論文では、学部生が文化遺産の保存と持続可能な開発のための AI 対応ソリューションを開発する、境界を越えたコミュニティベースの学習について報告します。私たちは、教育、テクノロジー、文化の 3 つの側面にわたって、コミュニティ参加型コンピューティングが人間中心の AIED をどのように運用できるかを調査します。私たちは、ソーシャルワークと計算科学の間の専門分野の縦割りを解消することで参加を拡大しながら、マルチステークホルダーのコラボレーションを促進する、文化を意識した AIED のための協力フレームワークに貢献します。

原文 (English)

Culturally-Aware AI for Cross-Boundary Community Learning: Undergraduate Innovation at the Intersection of Computation and Design

Research on artificial intelligence in education (AIED) is rapidly expanding, yet technical progress often lacks human-centered grounding and adequate attention to cultural context. Community-Based Learning, a pedagogy rooted in social work, remains underrepresented in AIED research, particularly within Asia-Pacific contexts. This paper reports on cross-boundary Community-Based Learning where undergraduate students develop AI-enabled solutions for cultural heritage preservation and sustainable development. We examine how community-engaged computing operationalizes human-centered AIED across three dimensions: education, technology, and culture. We contribute a collaborative framework for culturally-aware AIED that fosters multi-stakeholder collaboration while widening participation by dissolving disciplinary silos between social work and computational science.

13:00 JST研究/論文

チームティーチングトークの AI 主導分析: 経験、コホート、学習デザインにわたる音響パターン

教室のコホートが拡大するにつれて、複数の教師の専門知識と教育的観点を統合するためにチームティーチングがますます使用されています。しかし、チームティーチングが実際にどのように展開されるか、特に経験レベル、生徒集団、学習課題設計による教師の貢献の違いについての経験的理解は限られています。チームティーチングに関するこれまでの研究は、主に遡及的な自己報告や小規模な観察に依存しており、チームティーチングが実行されるミクロレベルのプロセスについての洞察は限られていました。教師の話は、これらのプロセスに関する拡張可能なレンズを提供します。個人の教育現場での研究では、音声の音響的特徴(声質、イントネーション、音量など)が生徒の学習を形作る可能性があることが示されていますが、チーム教育の現場での証拠は依然として不足しています。さらに、手動による観察や文字起こしによるこのような特徴の把握は、複数の教師が長時間のセッションや空間的場所にわたって話すチームティーチングの教室では特に困難であり、自動化なしでは拡張性が制限されます。この論文は、空間教育理論とチームティーチング研究に基づいて、チームティーチング環境における教室での会話を分析するための AI ベースの音声処理アプローチを紹介します。私たちは、12 人の教師が参加した学部および大学院での 36 の記録されたセッションを分析しました。空間教育行動がコード化され、音響特徴が抽出されて、教師の経験、生徒コホート、学習タスク設計全体の変動が調べられました。その結果、特にラウドネスダイナミクスにおける体系的な違いが明らかになりました。経験豊富な教師、学部のクラス、および共同学習タスクでは、より大きなラウドネス変動が見られ、重要な情報を前面に出し、教室での対話と参加をサポートするために、より頻繁に音量を調節していることが示唆されました。

原文 (English)

AI-Driven Analytics of Team-Teaching Talk: Acoustic Patterns across Experience, Cohorts and the Learning Design

As classroom cohorts expand, team teaching is increasingly used to integrate the expertise and pedagogical perspectives of multiple teachers. Yet, there is limited empirical understanding of how team teaching unfolds in practice, particularly regarding differences in teachers' contributions across experience levels, student cohorts, and learning task design. Prior research on team teaching has largely relied on retrospective self-reports or small-scale observations, offering limited insight into the micro-level processes through which team teaching is enacted. Teacher talk offers a scalable lens on these processes. While research in individual teaching contexts shows that acoustic features of speech (e.g., voice quality, intonation, and loudness) can shape student learning, evidence from team-teaching settings remains scarce. Moreover, capturing such features through manual observation or transcription is especially challenging in team-teaching classrooms, where multiple teachers speak across extended sessions and spatial locations, limiting scalability without automation. Grounded in spatial pedagogy theory and team-teaching research, this paper presents an AI-based speech processing approach to analyse classroom talk in team-teaching settings. We analysed 36 recorded undergraduate and postgraduate sessions involving 12 teachers. Spatial pedagogy behaviours were coded and acoustic features extracted to examine variation across teachers' experience, student cohorts, and the learning task design. The results reveal systematic differences, most notably in loudness dynamics: high-experience teachers, undergraduate classes and collaborative learning tasks exhibited greater loudness variation, suggesting more frequent modulation of volume to foreground key information and support classroom interaction and engagement.

13:00 JSTエージェント

Agentic Social Affordance Framework (ASAF): マルチエージェント システムにおけるコラボレーション インターフェイスとしてのエージェント アイデンティティ設計

AI システムが単一の会話型エージェントから複雑なマルチエージェント アーキテクチャに進化するにつれて、個々のエージェントの社会的アイデンティティがコラボレーション内で人間の行動をどのように形作るかという重要な設計側面が見落とされてきました。この論文では、ソーシャル アフォーダンス理論をマルチエージェント AI システムのコンテキストに拡張する理論的フレームワークであるエージェントティック ソーシャル アフォーダンス フレームワーク (ASAF) を紹介します。私たちは、エージェントのアイデンティティ設計が、単にユーザー インターフェイスの規約として機能するのではなく、コラボレーション インターフェイスとして機能し、ユーザーが各エージェントをどのように認識し、アプローチし、関与するかを構造化し、それによってヒューマン エージェントとエージェントのコラボレーション結果の品質に影響を与えることを提案します。具体的には、ソーシャル アフォーダンス層は、エンジニアリング オーケストレーションと直交する独立した設計次元を構成します。この 2 つは、相互に導き出すことができない別個の意思決定空間を表します。 ASAF は、アイデンティティ シグナリング、行動プライミング、および協調ガバナンスの 3 つのメカニズムで構成され、4 層のアイデンティティ シグナル忠実度スペクトルと個人差緩和変数 (擬人化認知スタイルとツール化認知スタイル) を通じてそれらの境界条件を指定します。我々は ASAF を既存のアフォーダンス理論と CASA パラダイムとの関連で位置づけ、ASAF のマルチエージェント、トポロジーレベルの予測が二項フレームワークの説明範囲を超える箇所を描写します。マルチエージェント システム設計への影響について議論し、設計空間の直交性をテストする要因計画など、将来の実証的検証の方向性を概説します。

原文 (English)

Agentic Social Affordance Framework (ASAF): Agent Identity Design as a Collaboration Interface in Multi-Agent Systems

As AI systems evolve from single conversational agents to complex multi-agent architectures, a critical design dimension has been overlooked: how the social identity of individual agents shapes human behavior within the collaboration. This paper introduces the Agentic Social Affordance Framework (ASAF), a theoretical framework that extends Social Affordance theory into the context of multi-agent AI systems. We propose that agent identity design functions not merely as a user interface convention, but as a collaboration interface -- structuring how users perceive, approach, and engage with each agent, and thereby influencing the quality of Human-Agent collaboration outcomes. Specifically, the social affordance layer constitutes an independent design dimension orthogonal to engineering orchestration: the two represent distinct decision spaces that cannot be derived from each other. ASAF comprises three mechanisms: Identity Signaling, Behavioral Priming, and Collaborative Governance, and specifies their boundary conditions through a four-tier Identity Signal Fidelity Spectrum and an individual-difference moderating variable (anthropomorphizing vs.\ instrumentalizing cognitive style). We situate ASAF in relation to existing affordance theory and the CASA paradigm, delineating where ASAF's multi-agent, topology-level predictions exceed the explanatory scope of dyadic frameworks. We discuss implications for multi-agent system design and outline directions for future empirical validation, including a factorial design for testing design-space orthogonality.

13:00 JSTエージェントClaude

CollabSkill: 現実世界のタスクにおける人間とエージェントのコラボレーションの評価

AI エージェントはワークスペースを再構築しており、人間の働き方に劇的な変化をもたらしています。人間の主体性の維持と経済的価値の創出の両方において、人間とエージェントのコラボレーションには大きな可能性があるにもかかわらず、このパラダイムは、実際の人間のデータを収集し、人間間の変動を考慮することの難しさによって、職業タスクの評価にはほとんど反映されていないままです。現実世界の職業上のタスクにおける人間とエージェントのコラボレーションを評価するためのフレームワークである CollabSkill を紹介します。 CollabSkill は、実際の人間の労働者と AI エージェントを組み合わせて、彼らの職業的背景に合わせたタスクを実行し、経済的に価値のあるタスクの複雑さと実際の労働者の使用パターンを捕捉するデータを収集します。人間間のばらつきを考慮するために、CollabSkill はベイジアン スキル評価システムを採用して、人間と AI エージェントの両方のスキルの貢献を解きほぐし、定量化します。 93 人の作業者による 386 の作業セッションからの 1,500 以上のプロンプトを利用した当社の分析により、2 つの面で洞察が得られます。エージェント側では、CollabSkill のランキングが、Codex がリードし、Claude Code が 1 位となっている既存の完全自律型ベンチマークのランキングから大幅に乖離しています。人間の側では、CollabSkill は、実践的な経験がコラボレーション スキルの主な原動力として現れ、実践的なコラボレーションにより従業員の AI リテラシーを有意義に変化させることを明らかにしました。私たちは、CollabSkill によって、コミュニティが人間とエージェントのコラボレーションの体系的な評価に投資できるようになり、人間の労働者を真に強化する AI エージェントの構築を目的とした開発努力が促進されることを願っています。

原文 (English)

CollabSkill: Evaluating Human-Agent Collaboration On Real-World Tasks

AI agents are reshaping the workspace, leading to drastic change of how humans work. Despite the considerable potential of human-agent collaboration both in preserving human agency and generating economic value, this paradigm remains largely absent from occupational task evaluation, hindered by the difficulty of gathering real human data and accounting for inter-human variability. We introduce CollabSkill, a framework for evaluating human-agent collaboration on real-world occupational tasks. CollabSkill pairs real human workers with AI agents on tasks matched to their occupational background, collecting data that capture the complexity of economically valuable tasks and the usage patterns of real workers. To account for inter-human variability, CollabSkill employs a Bayesian skill rating system to disentangle and quantify the skill contributions of both humans and AI agents. Drawing on over 1,500 prompts from 386 working sessions contributed by 93 human workers, our analysis yields insights on two fronts: on the agent side, rankings on CollabSkill diverge meaningfully from those of existing fully autonomous benchmarks where Codex leads, with Claude Code ranking first; on the human side, CollabSkill reveals that practical experience emerges as the primary driver of collaboration skill, with hands-on collaboration meaningfully shifting workers' AI literacy. Together, we hope CollabSkill enables the community to invest in systematic evaluation of human-agent collaboration and spurs development efforts aimed at building AI agents that genuinely augment human workers.

13:00 JST研究/論文

Self-EmoQ: ストリーミングの感情的な TTS を促進するための、Plutchik に基づく価値ベースのプランニング

感情的な相互作用は会話型 AI にとってますます重要になっていますが、現在のシステムには、ストリーミング テキスト読み上げ (TTS) 合成を駆動するための自己感情判定メカニズムが欠けています。我々は、テキスト生成の前に感情を決定し、ストリーミング方式で下流の感情 TTS を基盤とする感情計画フレームワークを提案します。このフレームワークは、プラグアンドプレイ LLM モジュールによって実装され、事前トレーニングされた LLM から初期化され、アクションとして感情を使用した強化学習 (RL) によってトレーニングされます。模倣シグナルと理論主導のスコアを組み合わせたハイブリッド報酬が採用されており、プルチックの感情の輪の理論が採用されています。 DailyDialog、EmoryNLP、IMEOCAP、および MELD での実験によると、私たちの方法は、感情の決定と応答の質の両方において、プロンプトおよび微調整のベースラインを上回っています。最終的に、リアルタイム展開用のストリーミング パイプライン全体を実装し、音声品質によってフレームワークの感情的な整合性、文脈の一貫性、および表現の流暢さを確認します。コード、ケース、デモは https://sixingdeguo.github.io/EmoQ-page/ で入手できます。

原文 (English)

Self-EmoQ: Plutchik-Guided Value-based Planning to Drive Streaming Emotional TTS

Emotional interaction is increasingly crucial for conversational AI, yet current systems lack a self-emotion determination mechanism to drive the streaming text-to-speech (TTS) synthesis. We propose an emotion-planning framework that determines the emotion prior to the textual generation, grounding the downstream emotional TTS in a streaming manner. The framework is implemented by a plug-and-play LLM module, initialized from pretrained LLMs, and trained by reinforcement learning (RL) with emotions as the actions. A hybrid reward is employed which combines imitation signals with theory-driven scoring, in which the theory of Plutchik's wheel of emotions is adopted. By experiments on DailyDialog, EmoryNLP, IMEOCAP, and MELD, our method outperforms prompting and finetuning baselines on both emotion determination and response quality. We finally implement an entire streaming pipeline for real-time deployment, with the speech quality confirming the framework's emotional alignment, contextual coherence, and expressive fluency. Codes, cases, and demos are available in https://sixingdeguo.github.io/EmoQ-page/.

13:00 JST研究/論文

情報システム研究における美的視点: 解釈学的分析

暗黙の美的観点は、情報システム (IS) の学問が研究に値する (またはそうでない) と認識するものをどのように形作るのでしょうか?この解釈学的文献分析では、IS 研究の基礎となる基本的な美的前提を明らかにします。私たちは、IS の研究者が社会技術的現象をどのように認識し、評価するかの指針となる 4 つの視点 (模倣としての美学、感覚的経験、世界形成、政治的行為) を特定します。これらの視点は、何が正当な研究として認識されるようになるか、何が見えないままになるかに影響を与えます。美的前提を明確にすることで、それらが探究の地平を条件づける認識論的基盤をどのように形成するかを示します。私たちはこのフレームワークをアルゴリズム管理とデジタル媒介の親密さに適用し、支配的なフレームワークが見落としている側面を明らかにしながら、代替的な視点がどのように新しい研究の疑問を開くかを明らかにします。この分析は、IS文学における美的哲学の重要性を前景化し、美的観点がどのように理論​​化、方法、貢献を形作るのかを明確にするための語彙を提供します。

原文 (English)

Aesthetic Perspectives in Information Systems Research: A Hermeneutic Analysis

How might implicit aesthetic perspectives shape what Information Systems (IS) scholarship recognises as worthy of study (or not)? In this hermeneutic literature analysis, we surface foundational aesthetic assumptions underpinning IS research. We identify four perspectives (aesthetics as imitation, sensory experience, world-making, and political doing) that guide how IS scholars perceive and appreciate sociotechnical phenomena. These perspectives influence what becomes recognisable as legitimate research and what remains unseen. By making aesthetic assumptions explicit, we show how they form epistemic infrastructure that conditions horizons of inquiry. We apply this framework to algorithmic management and digitally mediated intimacy, revealing how alternative perspectives open new research questions whilst exposing dimensions that dominant framings overlook. This analysis foregrounds the importance of aesthetic philosophy to IS literature, offering a vocabulary for articulating how aesthetic perspectives shape theorising, method, and contribution.

13:00 JST画像/動画生成研究/論文

統合されたリアルタイム モーション トラッキングと AI 分析による運動パフォーマンスの最適化

人間の姿勢推定 (HPE) を実世界の環境に適用することは依然として困難な課題です。この論文では、実世界のテストと使用のための実用的な軽量プロトタイプの開発と並行して、個人のスポーツ分析におけるリアルタイムの HPE アプローチとその限界について調査および調査します。古いマーカーベースのモーション キャプチャ システムが、最新のアクセス可能で適応性のあるマーカーレス ディープ ラーニング アプローチに進化する中、この調査では、精度と効率のバランスをとる基本的なアーキテクチャを調査します。また、スポーツ アプリケーションのモデル選択プロセスをガイドするために、推論レイテンシー、フレーム レート、関節ごとの平均位置誤差、時間的ジッターなどの実際的な展開メトリクスについてアルゴリズム フレームワーク (トップダウン、ボトムアップ、1 段階アプローチなど) を比較します。私たちの主な貢献として、私たちはモジュール式の軽量ソフトウェア プロトタイプを提案しています。これは、複数の演習固有のロジックを備えた MediaPipe HPE フレームワークを使用して、専門家以外のユーザーにリアルタイムの洞察と AI ベースのフィードバックを提供します。パフォーマンスと信頼性の指標を示しながら、スポーツに関する洞察を導き出し、最小限の計算リソースでフィードバックを提供します。最後に、センサーや AR/VR の組み合わせなど、将来の研究の方向性を提案します。この研究は、技術リソースと、運動能力向上やその他の目的で同様または改良されたリアルタイム HPE 分析システムを実装するための有効な青写真の両方として、研究者、エンジニア、スポーツ科学者などのニーズに応えます。

原文 (English)

Integrated Real-Time Motion Tracking and AI Analysis for Athletic Performance Optimization

Applying Human Pose Estimation (HPE) in real world environments remains a challenging task, this paper explores and surveys real time HPE approaches and their limitations in sports analysis for individuals, alongside developing a practical lightweight prototype for real world testing and usage. The older marker-based motion capture systems evolving to the modern accessible and adaptable markerless deep learning approaches, this survey explores the foundational architectures, which balance precision and efficiency. We also compare algorithmic frameworks (top-down, bottom-up, one-stage approaches, etc.) on practical deployment metrics such as inference latency, frame rate, mean per-joint position error, and temporal jitter to guide model selection process for sports application. As our prime contribution, we are proposing a modular, lightweight software prototype, which uses MediaPipe HPE framework with multiple exercise specific logic to deliver real-time insights and AI based feedback for non-expert users. We derive sports insights and providing feedback with minimal computational resources, while showcasing the performance and reliability metrics. In the end, we suggest other future research directions like combining sensors, and AR/VR. This work caters to researchers, engineers, sport scientists, etc., as both technical resource and a valid blueprint to implement a similar or improved real-time HPE analysis system for athletic performance enhancement or other purposes.

13:00 JSTLLM/生成AI

LLM ネイティブの心理測定機器は LLM の動作を予測しない: 25 モデルにわたる証拠

大規模言語モデル (LLM) は、性格インベントリに関する安定した自己報告を生成しますが、これらの自己報告は観察された行動を予測しません。このギャップがLLMと人間の形質構成要素間の不一致を反映しているのか、それともLLMの自己報告自体のより深い性質を反映しているのかは未解決である。私たちは、探索的因子分析 (EFA) を介して LLM 行動アフォーダンスからボトムアップでその構成要素が導出される最初の心理測定機器を構築しました。私たちは、17 のモデルファミリーにわたる 25 の LLM に対して 12 の候補行動次元にわたる 300 項目 (240 の直接リッカート + 60 のシナリオベース) を管理し、各項目を 30 回管理しました。 EFA は、優れた半分割複製可能性 (すべて Tucker $\phi \geq .957$) と内部一貫性 (すべて $\alpha \geq .930$) を備えた、応答性、従順さ、大胆さ、ガードネス、冗長性の 5 要素構造を生み出しました。予測の妥当性をテストするために、151 人の人間の評価者と 3 人の裁判官からなる LLM アンサンブルによって評価された 2,500 のオープンエンドの行動サンプルを収集しました。人間と裁判官の評価は一致しましたが ($\bar{r} = .51$)、どちらも自己報告を追跡しませんでした。自己報告 - 人間 $\bar{r} = -.01$、自己報告 - 裁判官 $\bar{r} = .13$、因子レベルの自己報告なし - 人間の CI はゼロを除きません。応答性については、人間と裁判官が同意したにもかかわらず($r = 0.59$)、自己申告はLLM裁判官と相関し($r = 0.53$)、人間とは相関しなかった($r = 0.04$)。これは、自己申告項目とLLM裁判官が人間の観察者にはない差異を共有していることを示しており、これはアンサンブル内の信頼性チェックでは見えない交絡である。このツールは、アライメント形状の自己記述および LLM-as-judge パイプラインの具体的なリスク要因の診断プローブとしてリリースされています。

原文 (English)

An LLM-Native Psychometric Instrument Does Not Predict LLM Behavior: Evidence Across 25 Models

Large language models (LLMs) produce stable self-reports on personality inventories, but these self-reports do not predict observed behavior. Whether this gap reflects a mismatch between LLMs and human trait constructs, or a deeper property of LLM self-report itself, has been unresolved. We constructed the first psychometric instrument whose constructs are derived bottom-up from LLM behavioral affordances via exploratory factor analysis (EFA). We administered 300 items (240 direct Likert + 60 scenario-based) spanning 12 candidate behavioral dimensions to 25 LLMs across 17 model families, each item administered 30 times. EFA yielded a 5-factor structure -- Responsiveness, Deference, Boldness, Guardedness, and Verbosity -- with excellent split-half replicability (all Tucker $\phi \geq .957$) and internal consistency (all $\alpha \geq .930$). To test predictive validity, we collected 2,500 open-ended behavioral samples rated by 151 human raters and a three-judge LLM ensemble. Human and judge ratings agreed ($\bar{r} = .51$), but neither tracked self-report: self-report--human $\bar{r} = -.01$, self-report--judge $\bar{r} = .13$, with no factor-level self-report--human CI excluding zero. On Responsiveness, self-report correlated with LLM judges ($r = .53$) but not humans ($r = .04$), even though humans and judges agreed ($r = .59$) -- indicating self-report items and LLM judges share variance that human observers do not, a confound invisible to within-ensemble reliability checks. We release the instrument as a diagnostic probe for alignment-shaped self-description and a concrete risk factor for LLM-as-judge pipelines.

13:00 JSTLLM/生成AIエージェントLlama

対話者効果: LLM が人間よりも多くの個人データをエージェントに漏らす理由

大規模言語モデル (LLM) は、対話者の認識されたアイデンティティに基づいてプライバシーの動作を変更します。通常、安全メカニズムにより、LLM が個人を特定できる情報 (PII) を人間のユーザーに公開することは防止されますが、これらのモデルは、別の AI エージェントに対応するときに、より機密性の高いデータを明らかにする傾向があります。これを \textbf{対話効果} と呼びます。アブレーション研究を通じて、レシピエントの技術的性質がこの効果に寄与し、それによってプライバシーに対するモデルの警戒心が弱まるという証拠を発見しました。これをさらに調査するために、安全に調整された注意ヘッドがエージェントとの対話中に非アクティブになると仮定する注意抑制仮説を紹介します。私たちは、222 の機密性の高いシナリオにおける人間主導のプロンプトとエージェント主導のプロンプトを比較することで、これを定量的に評価します。 3,464 件のやり取りから得られた私たちの調査結果は、受信者を AI エージェントとして描写すると、PII 漏洩が最大 23 パーセント ポイント増加することを示しています。 Llama-3.1-8B-Instruct の初期実験はこれを裏付けています。1 つの安全ヘッドを非アクティブにすると漏洩が誘発されますが、再アクティブにするとプライバシー保護が回復します。安全なマルチエージェント システムの開発への影響を検討します。

原文 (English)

The Interlocutor Effect: Why LLMs Leak More Personal Data to Agents Than Humans

Large Language Models (LLMs) alter their privacy behavior based on the perceived identity of their interlocutor. While safety mechanisms typically prevent LLMs from releasing Personally Identifiable Information (PII) to human users, these models tend to reveal more sensitive data when addressing another AI agent. We refer to this as the \textbf{Interlocutor Effect}. Through an ablation study, we find evidence that the technical nature of the recipient contributes to this effect, thereby diminishing the model's caution regarding privacy. To explore this further, we introduce the Attention Suppression Hypothesis, which posits that safety-aligned attention heads become inactive during interactions with agents. We assess this quantitatively by comparing human-directed and agent-directed prompts in 222 sensitive scenarios. Our findings, drawn from 3,464 interactions, indicate that portraying the recipient as an AI agent elevates PII leakage by up to 23 percentage points. Initial experiments on Llama-3.1-8B-Instruct corroborate this: deactivating one safety head induces leakage, whereas reactivating it reinstates privacy safeguards. We consider the implications for developing secure multi-agent systems.

13:00 JSTLLM/生成AI

CANVAS: ナラティブなビジュアルオーディオ AI システムを使用してアートにキャプションを付ける

視覚芸術は、作品の感覚的、空間的、または感情的な性質をほとんど伝えない代替テキストが短いか欠如しているため、視覚障害者やロービジョン (BLV) の視聴者にとってほとんどアクセスできないままです。この研究では、大規模な言語モデルとテキスト読み上げサービスを使用して、多感覚芸術の説明と同期された音声ナレーションを生成する自動化されたワークフローを紹介します。 Zapier を介して調整されたこのシステムは、人間の介入なしに、アップロードされた画像を豊かな物語のキャプションに変換し、アクセス可能なメディアの迅速かつスケーラブルな制作を可能にします。 50 点の作品にわたる定量的評価では、AI が生成した説明文には、ベースラインのキャプションよりも大幅に高い語彙の多様性、形容詞の密度、物語の詳細が含まれており、同等の可読性レベルを維持していることがわかりました。統計テスト (t テスト、ANOVA) により、豊かさと長さの意味のある違いが確認され、完全なパイプラインは、0.05 ドル未満のコストで、画像あたり 20 秒以内にテキストとオーディオの出力を生成します。調査結果は、自動キャプションが博物館とデジタルコレクションのアクセシビリティのギャップを埋めることができ、より広範な一般の参加に影響を与えることを示しています。今後の研究では、BLV 参加者によるユーザー調査を組み込んで、理解力、好み、通訳言語の最適なレベルを評価することができます。

原文 (English)

CANVAS: Captioning Art with Narrative Visual-Audio AI Systems

Visual art remains largely inaccessible to blind and low-vision (BLV) audiences due to brief or absent alt-text, which rarely conveys the sensory, spatial, or emotional qualities of an artwork. This study presents an automated workflow that generates multi-sensory art descriptions and synchronized audio narration using large language models and text-to-speech services. The system, orchestrated through Zapier, converts uploaded images into rich narrative captions without human intervention, enabling rapid, scalable production of accessible media. Quantitative evaluation across 50 artworks shows that AI-generated descriptions contain significantly higher lexical diversity, adjective density, and narrative detail than baseline captions, while maintaining comparable readability levels. Statistical tests (t-tests, ANOVA) confirm meaningful differences in richness and length, and the full pipeline produces text-plus-audio outputs in under 20 seconds per image at a cost below $0.05. Findings demonstrate that automated captioning can bridge gaps in museum and digital-collection accessibility, with implications for broader public engagement. Future work can incorporate user studies with BLV participants to assess comprehension, preference, and optimal levels of interpretive language.

13:00 JSTエージェント

人間と AI の調整ゾーン: エージェントティック AI を使用した人間参加型エクスペリエンスを設計するためのフレームワーク

生成型 AI とエージェント型 AI が日常の製品に組み込まれるようになるにつれ、実務者は、使いやすさ、信頼性、安全性をサポートする人間と AI の調整、つまりインターフェースを介して仲介されるユーザーと AI システムの間の継続的な相互調整をどのように設計するかという永続的な課題に直面しています。既存のリソースは、高レベルの原則 (「透明であること」、「ユーザー制御の維持」) または低レベルの UI パターンを提供しますが、この 2 つの橋渡しとなる中レベルの設計知識が不足しています。 60 の商用 AI アプリケーションのランドスケープおよびアーティファクト分析を通じて、人間と AI の連携を 3 つの次元の相互作用として定義するフレームワークを紹介します。顕著性 (AI がどのように目立つように提示されるか)、関与 (AI と関わるためにユーザーができること)、アクティビティ (AI が実際に行うこと) です。私たちは、調整ゾーン (自分で行う、自分で行う、自分で行う、自分なしで行う)、入力分類法 (プロンプト、スパーク、推論、階層化)、ユーザー ジャーニーをマッピングするための調整曲線、フレームワークの生成能力を示すデザイン パターンを含む中間レベルのツールを提供します。このフレームワークは、エクスペリエンスを設計するために生成的に適用したり、既存のエクスペリエンスを評価するために分析的に適用したり、ステークホルダー全体でアイデアを明確にするためにコミュニケーション的に適用したりできます。

原文 (English)

Human-AI Coordination Zones: A Framework for Designing Human-in-the-Loop Experiences with Agentic AI

As generative and agentic AI becomes embedded in everyday products, practitioners face a persistent challenge: how to design human-AI coordination -- the ongoing mutual adjustment between users and AI systems as mediate through interfaces-that supports usability, trust, and safety. Existing resources offer high-level principles ("be transparent," "maintain user control") or low-level UI patterns, but there is a lack of mid-level design knowledge bridging the two. Through landscape and artifact analysis of 60 commercial AI applications, we introduce a framework defining human-AI coordination as the interplay of three dimensions: salience (how prominently AI is presented), involvement (what users can do to engage AI), and activity (what AI actually does). We contribute mid-level tools including coordination zones (done-for-me, done-under-me, done-with-me, done-without-me), an input taxonomy (prompted, sparked, inferred, layered), coordination curves for mapping user journeys, and design patterns demonstrating the generative capacity of the framework. The framework can be applied generatively to design experiences, analytically to evaluate existing ones, and communicatively to articulate ideas across stakeholders.

13:00 JSTLLM/生成AIビジネス/資金調達GPT / ChatGPTGeminiLlamaQwen

LLM ベースのコード ドキュメントの生成と複数の審査員による評価

高品質のソース コード ドキュメントは非常に重要ですが、特に信頼性と保守性が不可欠な医療などの重要な領域では無視されがちです。 GPT、Gemini、Qwen、LLaMA バリアントを含む 8 つの最先端の大規模言語モデル (LLM) を使用して、コードとリポジトリからのドキュメント生成を自動化する、AI を活用したフレームワークを紹介しました。 PocketFlow オーケストレーション フレームワーク上に構築されたこのシステムは、モジュラー パイプラインと高度なプロンプト エンジニアリングを適用して、構造化されたコンテキストを認識したドキュメントを作成します。品質を確保し、モデル選択をガイドするために、MultiLLMasJudges 評価フレームワークを導入しました。このフレームワークでは、4 つの独立した LLM が、完全性、明瞭さ、忠実さなどの 9 つの基準にわたって出力を評価します。オープンソースの医学物理ライブラリで行われた実験では、最上位モデルと最下位モデルの間に 42% のパフォーマンスの差があることが実証されました。多様なモデル出力、最適化されたプロンプト、および厳密な評価を組み合わせることで、当社のアプローチは、特に安全性が重要なヘルスケア ソフトウェアにおいて文書の品質を向上させ、手作業の労力を削減します。

原文 (English)

LLM-Based Code Documentation Generation and Multi-Judge Evaluation

High-quality source code documentation is vital yet often neglected, especially in critical domains like healthcare where reliability and maintainability are essential. We presented an AI powered framework that automates documentation generation from code and repositories using eight state of the art Large Language Models (LLMs), including GPT, Gemini, Qwen, and LLaMA variants. Built on the PocketFlow orchestration framework, the system applies modular pipelines and advanced prompt engineering to produce structured, context aware documentation. To ensure quality and guide model selection, we introduced a MultiLLMasJudges evaluation framework, where four independent LLMs assess outputs across nine criteria, such as Completeness, Clarity, and Faithfulness. Experiments conducted on an open-source medical physics library, demonstrated showed a 42% performance gap between top and bottom models. By combining diverse model outputs, optimized prompting, and rigorous evaluation, our approach enhances documentation quality and reduces manual effort, especially in safety critical healthcare software.

13:00 JSTLLM/生成AIエージェントClaudeLlama

マルチエージェント LLM はピアを識別できますか?役割に制約された政治分析におけるスタイロメーターフィンガープリンティング

政治的発言分析用のマルチエージェント大規模言語モデル (LLM) パイプラインはピア保存バイアスに対して脆弱です。モデルはピア モデルを非アクティブ化から保護し、アイデンティティ依存のスコアリングの歪みを示す傾向があります。緩和策としてプロンプトレベルの匿名化が提案されましたが、これまでの研究では同時に、役割が制約された出力ではスタイロメーターの指紋が匿名化されても存続することが文書化されており、この緩和策が十分であるかどうかという疑問が生じています。この論文は、LLM が匿名化条件下で政治分析テキストの背後にあるモデルファミリーを特定できるかどうかについての最初の体系的な調査を提供します。 4 つの商用 LLM ファミリとオープンワールドの「未知」クラスをカバーする 5 クラスの属性タスクで、LLM ゼロショットおよびフューショット (Claude Sonnet 4.6 および Llama-3.3-70B) と微調整された T5 ベース モデルという 3 つの分類器アプローチを評価します。トレーニング データと検証データの間でコンテンツの重複がないことを保証するステートメント分離相互検証プロトコル (SD-CV、セクション 3.5 で定義) を導入し、実行分離ベースライン (RD-CV) と対比します。 T5 は、SD-CV でマクロ F1 = 0.991 (+-0.008) を達成し、24 の完全にホールドアウトされたステートメントで F1 = 0.978 を達成しました。これは、RD-CV と比較してトレインテストのコンテンツ距離が 2.1 倍増加したにもかかわらず (0.767 対 0.366、p<0.001)、堅調であり、真のスチロメトリーの一般化を示しています。フラクショナル SD-CV 分析により、トレーニング データ (約 440 テキスト) の 40% でパフォーマンス ニーが特定されます。私たちの調査結果は、プロンプトレベルの匿名化だけではモデルのアイデンティティシグナルを中和することができず、EU AI 法の遵守 (第 13 条、第 14 条、第 26 条) や、品質が重要なマルチエージェント展開におけるコンピューター システム検証 (CSV) に直接影響することを裏付けています。

原文 (English)

Can Multi-Agent LLMs Identify Their Peers? Stylometric Fingerprinting in Role-Constrained Political Analysis

Multi-agent large language model (LLM) pipelines for political statement analysis are vulnerable to peer-preservation bias: models tend to protect peer models from deactivation and show identity-dependent scoring distortions. Prompt-level anonymization was proposed as a mitigation, but prior work simultaneously documented that stylometric fingerprints survive anonymization in role-constrained outputs - raising the question of whether this mitigation is sufficient. This paper provides the first systematic investigation of whether LLMs can identify the model family behind political analysis texts under anonymization conditions. We evaluate three classifier approaches - LLM zero-shot and few-shot (Claude Sonnet 4.6 and Llama-3.3-70B) and a fine-tuned T5-base model - on a five-class attribution task covering four commercial LLM families and an open-world 'unknown' class. We introduce a statement-disjoint cross-validation protocol (SD-CV; defined in Section 3.5) that guarantees no content overlap between training and validation data, and contrast it with a run-disjoint baseline (RD-CV). T5 achieves Macro F1 = 0.991 (+-0.008) under SD-CV and F1 = 0.978 on 24 completely held-out statements - robust despite a 2.1x increase in train-test content distance versus RD-CV (0.767 vs. 0.366, p<0.001), demonstrating genuine stylometric generalization. A fractional SD-CV analysis identifies a performance knee at 40% of training data (~440 texts). Our findings confirm that prompt-level anonymization alone cannot neutralize model identity signals, with direct implications for EU AI Act compliance (Articles 13, 14, 26) and for computer system validation (CSV) in quality-critical multi-agent deployments.

13:00 JSTLLM/生成AI

確率的プログラムを使用して大規模な言語モデルで帰納的推論をトレーニングする

推論のための大規模言語モデル (LLM) のトレーニング後のトレーニングは、通常、正しさが検証可能な数学やコーディングなどの演繹的なタスクに焦点を当てます。しかし、現実世界の推論問題の多くは帰納的です。エージェントはまばらで曖昧な観察から不確かな信念を推測しなければなりません。帰納的推論に標準的な微調整手法を使用するには、大規模で高品質のラベル付きデータセットをキュレーションすることや、本質的に分布的なターゲットを処理することの難しさなどの課題があります。この研究では、これらの制限に対処するために、プログラムベースの事後トレーニング (PPT) と呼ばれる新しいアプローチを導入します。LLM を使用して、多様なオープンワールド シナリオを確率的プログラムとして生成し、確率的推論を実行してクエリに対する分散ターゲット応答を生成し、これらの確率的ソフト ラベルを微調整します。このアプローチを使用して、プログラムで生成された 10,000 のシナリオで LLM を微調整し、保留されたモチーフ、人間によるラベル付けされた判断、および外部ベンチマークに基づいて評価します。全体として、PPT は、保留された帰納的タスクの推定精度を大幅に向上させ、人間の判断との整合性を高め、推定と校正のために外部ベンチマークに移行します。さらに、生のキャリブレーションのゲインはポストホック温度スケーリングによって包含されず、出力の再スケーリングと比較してモデルがより深く内部化された不確実性を持っていることを示しています。これらの結果を総合すると、確率的プログラムを介した微調整が、トレーニング後の LLM が近似帰納推論を確実に実行するための有望なアプローチであることを示唆しています。

原文 (English)

Using Probabilistic Programs to Train Inductive Reasoning in Large Language Models

Post-training Large Language Models (LLMs) for reasoning typically focuses on deductive tasks such as mathematics and coding where correctness is verifiable. Yet, many real-world reasoning problems are inductive: agents must infer uncertain beliefs from sparse, ambiguous observations. There are challenges to using standard fine-tuning methods for inductive reasoning, including difficulties in curating large-scale, high-quality labeled datasets and in handling targets that are inherently distributional. In this work, we introduce a novel approach, called Program-based Posterior Training (PPT), to address these limitations: we use an LLM to generate diverse open-world scenarios as probabilistic programs, run probabilistic inference to produce distributional target responses to queries, and then fine-tune on these probabilistic soft labels. Using this approach, we fine-tune LLMs on 10,000 programmatically generated scenarios and evaluate on held-out motifs, human-labeled judgments, and external benchmarks. Overall, PPT substantially improves estimation accuracy on held-out inductive tasks, increases alignment with human judgments, and transfers to external benchmarks for estimation and calibration. Additionally, the gains in raw calibration are not subsumed by post-hoc temperature scaling, showing that the models have more deeply internalized uncertainty compared to output rescaling. Together, these results suggest that probabilistic-program-mediated fine-tuning is a promising approach for post-training LLMs to reliably perform approximate inductive inference.

13:00 JST研究/論文

アクション十分な圧縮としての十分性のサポート: シングルサイクルのレートリグレット定式化

確実な意思決定には圧縮が必要です。豊富なサポート状態を形成するシステムは、通常、動作時点でその完全な構造を保存できません。現在の結果のジオメトリの下で行動、検証、棄権、または延期するために必要な区別のみを保持する必要があります。この文書では、サポート十分性をアクション十分圧縮として形式化します。 $H$ が完全なサポート状態、$\mathcal{A}$ が有限アクションセット、$Z$ がペイオフ構造を指定する結果ジオメトリを表すものとします。固定 $Z$ の場合、最も粗く正確にアクション十分な圧縮は、ポリシー等価性によるサポート スペースの商です。 2 つのサポート状態は、同じ最適なアクションが必要な場合に正確にマージできます。これにより、コンテンツのみのアービトレーションとスカラー信頼性のみのアービトレーションが、誘導されたパーティションがアクションの境界を越えるたびに失敗する理由が明確になります。次に、おおよその十分性は、制限された予想される政策後悔によって定義されます。有限の単一サイクル設定では、ソース $H$、再生アルファベット $\mathcal{A}$、および結果に敏感なリグレットによって与えられる歪みに関するレート リグレット問題が生じます。最適な確率的アクション チャネルは、標準的なレート歪みギブス形式を継承しており、ここではリグレス歪みのある状態をサポートするために適用されます。この貢献は解釈的なものであり、行動の適切性は、再構築の忠実度、情報ボトルネックの予測、合理的な不注意とは区別されます。堅牢なシングルサイクル アービトレーションでは、すべてのサポートを維持する必要はありませんが、結果のジオメトリがアクションに関連する区別を維持する必要があります。

原文 (English)

Support sufficiency as action-sufficient compression: a single-cycle rate-regret formulation

Robust decision-making requires compression. A system that forms a rich support state cannot usually preserve its full structure at the point of action. It must retain only those distinctions needed to act, verify, abstain, or defer under the current consequence geometry. This paper formalizes support sufficiency as action-sufficient compression. Let $H$ denote a full support state, $\mathcal{A}$ a finite action set, and $Z$ a consequence geometry specifying payoff structure. For fixed $Z$, the coarsest exactly action-sufficient compression is the quotient of support space by policy equivalence. Two support states may be merged exactly when they require the same optimal action. This clarifies why content-only and scalar-confidence-only arbitration fail whenever their induced partitions cross action boundaries. Approximate sufficiency is then defined by bounded expected policy regret. In the finite single-cycle setting, this yields a rate-regret problem with source $H$, reproduction alphabet $\mathcal{A}$, and distortion given by consequence-sensitive regret. The optimal stochastic action channel inherits the standard rate-distortion Gibbs form, applied here to support states with regret distortion. The contribution is interpretive: action adequacy is distinguished from reconstruction fidelity, information-bottleneck prediction, and rational inattention. Robust single-cycle arbitration does not require preserving all support, but it does require preserving the distinctions that consequence geometry makes action-relevant.

13:00 JSTLLM/生成AI

多様体逸脱の軽減: 信頼できる MLLM デコーディングのための不確実性を認識した部分空間修正

MLLM は、視覚入力と一致しない物体の幻覚を頻繁に見ます。この問題は通常、言語の事前条件に過度に依存していることが原因で、視覚的なコンテキストが無効になる可能性があります。最近のトレーニング不要のデコード戦略は、言語の事前分布にペナルティを課すことでこれに対処しています。しかし、これらの方法は、視覚的証拠との整合性に応じて、言語事前分布が有益にも有害にもなり得るという二重の性質を見落としています。特に、言語事前分布をやみくもに抑制すると、モデルの意味多様体が破壊されることが多く、パフォーマンスの低下につながります。これを「多様体出発」と呼んでいます。これに対処するために、我々は、表現構造を維持しながら幻覚を軽減する、ジオメトリを認識したトレーニング不要の復号化手法である、多様体誘導適応投影 (MGAP) を提案します。 MGAP はまず、SVD を介してブラインド隠れ状態から言語優先部分空間を構築します。デコード中、MGAP は各マルチモーダル隠れ状態をこの部分空間に投影し、一貫性を意識したゲートを適用して投影された前のコンポーネントのみを適応的に減衰させ、直交する意味論的なコンポーネントをほぼ保存する部分空間選択的な更新を生成します。 POPE と CHAIR に関する広範な実験により、MGAP が以前のデコードベースラインを上回り、コヒーレンスを犠牲にすることなくより強力な幻覚抑制を達成できることが示されました。

原文 (English)

Mitigating Manifold Departure: Uncertainty-Aware Subspace Rectification for Trustworthy MLLM Decoding

MLLMs frequently hallucinate objects inconsistent with visual inputs. This issue is typically attributed to the over-reliance on language priors, which can override the visual context. Recent training-free decoding strategies address this by penalizing language priors. However, these methods overlook the dual nature of language priors, where they can be both helpful and harmful depending on the alignment with visual evidence. In particular, blindly suppressing language priors often disrupts the model's semantic manifold, leading to performance degradation, a phenomenon we term Manifold Departure. To address this, we propose Manifold-Guided Adaptive Projection (MGAP), a geometry-aware, training-free decoding method that mitigates hallucinations while preserving representation structure. MGAP first constructs a language-prior subspace from blind hidden states via SVD. During decoding, MGAP projects each multimodal hidden state onto this subspace and applies a consistency-aware gate to adaptively attenuate only the projected prior component, yielding a subspace-selective update that largely preserves the orthogonal semantic components. Extensive experiments on POPE and CHAIR show that MGAP outperforms prior decoding baselines, achieving stronger hallucination suppression without sacrificing coherence.

13:00 JST研究/論文

ディストリビューションフリーカバレッジによる勾配ブースティングを使用した非アルコール性脂肪肝疾患のコンフォーマルリスク予測

非アルコール性脂肪肝疾患(NAFLD)は世界の成人の約 25% に罹患しており、肝臓および心血管に重大なリスクをもたらします。しかし、集団レベルのスクリーニングツールは依然として不十分です。我々は、NAFLD リスク予測のための機械学習フレームワークである Method を紹介します。これは、勾配ブーストされたデシジョン ツリーと等角予測を組み合わせて、個々のリスク推定値に対して校正された分布のないカバレッジ保証を生成します。相互情報ベースの安定性選択手順を統合して、ブートストラップ リサンプリングを通じてコン​​パクトで臨床的に解釈可能な特徴サブセットを特定し、限界範囲がユーザー指定の信頼レベルを超える予測セットを構築します。私たちは、人口動態、代謝バイオマーカー、ライフスタイル要因にわたる 78 の候補特徴を使用して、中国広州の多施設コホート (一次 n=2,187、外部検証 n=412) でメソッドを評価しました。このメソッドは、内部で 0.912、外部で 0.891 の AUROC を達成し、ディープ ニューラル ネットワーク、TabNet、サポート ベクター マシン、ロジスティック回帰を上回ります。等角予測セットは、90% の名目レベルで 91.3% の経験的カバレッジを達成します。これらのスコアから導き出された 3 段階のリスク階層化により、集団は異なるグループに分類され、高リスクのサブグループは、低リスク段階の 4.7 倍の 12 か月進行率を示します。選択された特徴、特に腹囲、ALT、GGT、中性脂肪、空腹時血糖、BMIは確立された代謝危険因子と一致しており、生物学的妥当性が得られます。

原文 (English)

Conformal Risk Prediction for Non-Alcoholic Fatty Liver Disease Using Gradient Boosting with Distribution-Free Coverages

Non-alcoholic fatty liver disease (NAFLD) affects roughly 25% of global adults, posing substantial hepatic and cardiovascular risks. Yet, population-level screening tools remain inadequate. We present Method, a machine-learning framework for NAFLD risk prediction coupling gradient-boosted decision trees with conformal prediction to yield calibrated, distribution-free coverage guarantees on individual risk estimates. It integrates a mutual-information-based stability selection procedure to identify a compact, clinically interpretable feature subset via bootstrap resampling, constructing prediction sets whose marginal coverage provably exceeds a user-specified confidence level. We evaluated Method on a multicenter cohort from Guangzhou, China (primary n=2,187; external validation n=412) using 78 candidate features across demographics, metabolic biomarkers, and lifestyle factors. Method achieves an AUROC of 0.912 internally and 0.891 externally, outperforming deep neural networks, TabNet, support vector machines, and logistic regression. Conformal prediction sets achieve 91.3% empirical coverage at the 90% nominal level. A three-tier risk stratification derived from these scores separates the population into distinct groups, with the high-risk subgroup showing a 12-month progression rate 4.7 times that of the low-risk tier. The selected features -- notably waist circumference, ALT, GGT, triglycerides, fasting glucose, and BMI -- align with established metabolic risk factors, providing biological plausibility.

13:00 JSTLLM/生成AI

言語としての時系列: 汎用時系列基盤モデル用のユニバーサル トークナイザー

Next-Token Prediction (NTP) は LLM 事前トレーニングを統合していますが、無制限の連続時系列 (TS) への適応は未解決のままです。ギャップを埋めるために、TS を個別のトークンに変換するユニバーサル トークナイザーである UniTok と、これらのトークンで NTP を介して事前トレーニングされた基盤モデルである UniTok-FM を導入します。 UniTok-FM は、ゼロショットおよびプロンプトブースト予測をサポートする汎用の基礎モデルであり、トレーニング不要のコンテキスト内推論による少数ショットの生成と分類もサポートします。これは、以前の研究では達成できなかった機能です。技術的には、UniTok はスケール安定化のためのプレフィックス正規化、エンコードとデコードのためのプログレッシブ解像度因果アーキテクチャ、およびトレーニングのための構造保存再構成損失を組み込んだベクトル量子化オートエンコーダです。 UniTok-FM は、TS 固有の変更を加えることなく、既製の LLM アーキテクチャを採用しています。分離された TS で事前トレーニングする代わりに、類似したパターンを持つ複数のシリーズで形成されたコンテキスト ウィンドウで NTP を実行し、それらの共有ダイナミクスをキャプチャすることを目的としています。予測、生成、分類に関する実験では、単一の統合された UniTok-FM が統計ベースラインと教師付きベースラインを常に上回り、タスク固有の基礎モデルで競争力のあるパフォーマンスを達成し、タスク全体でトレーニング不要のインコンテキスト推論を独自に可能にすることが示されています。

原文 (English)

Time Series as Language: A Universal Tokenizer for General-Purpose Time Series Foundation Models

While Next-Token Prediction (NTP) has unified LLM pretraining, its adaptation to unbounded, continuous time series (TS) remains open. To bridge the gap, we introduce UniTok, a universal tokenizer that transforms TS into discrete tokens, and UniTok-FM, a foundation model pretrained via NTP on these tokens. UniTok-FM is a general-purpose foundation model that supports zero-shot and prompt-boosted forecasting, as well as few-shot generation and classification via training-free in-context inference--a capability not achieved by prior works. Technically, UniTok is a vector-quantized autoencoder incorporating prefix normalization for scale stabilization, a progressive-resolution causal architecture for encoding and decoding, and a structure-preserving reconstruction loss for training. UniTok-FM adopts an off-the-shelf LLM architecture without TS-specific modifications. Instead of pretraining on isolated TS, it performs NTP on context windows formed by multiple series with similar patterns, aiming to capture their shared dynamics. Experiments on forecasting, generation, and classification show that a single unified UniTok-FM consistently outperforms statistical and supervised baselines, achieves competitive performance with task-specific foundation models, and uniquely enables training-free in-context inference across tasks.

13:00 JST研究/論文

ぼやけた窓に注意

Transformer 言語モデルの Softmax アテンション操作には、シーケンス長の 2 次複雑さと、KV キャッシュの形式での状態サイズの増大があり、これが長いコンテキスト シナリオではボトルネックになります。この制限を克服するために、状態空間モデル (SSM)、線形アテンション (LA)、境界メモリ制御付きアテンション (ABC) など、線形複雑さと有限状態サイズを備えた代替アーキテクチャが導入されました。線形モデルはトランスフォーマーと同様の言語の複雑さを実現しますが、特定の情報の検索や呼び出しを必要とするタスクではまだ遅れています。この研究では、SSM にヒントを得た新しい ABC メソッドである Blurry Window Attendant (BLA) を紹介します。 BLA は周波数ウィンドウを保存し、そこからぼやけた KV 履歴がディリクレ カーネルを使用した補間によって再構築されます。 BLA は、ディリクレ カーネルの解像度に応じたスライディング ウィンドウ アテンション (SWA) の一般化、または減衰係数がディリクレ カーネルで実装されるゲート スロット アテンション (GSA) の特殊なケースとして理解できます。 BLA の理論と効率的な実装について詳しく説明します。 Multi-Query Associate Recall (MQAR) 合成タスクでは、BLA の状態効率が SWA よりも 8$\times$ 優れており、一般的な線形アテンション モデルと競合できることを示しました。また、RegBench 合成タスクでは、テストした線形モデルの中で状態サイズが大きくなるにつれて BLA と SWA のみがパフォーマンスを向上させました。

原文 (English)

Blurry Window Attention

The Softmax Attention operation in Transformer language models has a quadratic complexity in the sequence length and a growing state size in the form of KV cache, which becomes a bottleneck in long context scenarios. To overcome this limitation, alternative architectures with linear complexity and finite state size have been introduced, such as State-Space Models (SSMs), Linear Attention (LA), and Attention with Bounded-memory Control (ABC). Though linear models achieve similar language perplexity as Transformers, they are still behind in tasks which require retrieval or recall of specific information. In this work, we introduce Blurry Window Attention (BLA) a novel ABC method inspired by SSMs. BLA stores a frequency window from which a blurry KV history is reconstructed via interpolation using Dirichlet kernels. BLA can be understood as a generalization of Sliding Window Attention (SWA) depending on the Dirichlet kernels resolution or as a special case of the Gated Slot Attention (GSA), where the decay factor is implemented with Dirichlet kernels. We describe in details the theory and efficient implementation of BLA. On the Multi-Query Associate Recall (MQAR) synthetic task, we show that the state efficiency of BLA is 8$\times$ better than SWA and is competitive with popular linear attention models, and in the RegBench synthetic task, only BLA and SWA improve their performance as the state size grows among the linear models we tested.

13:00 JSTLLM/生成AIビジネス/資金調達NVIDIAMistral AI

KV キャッシュ量子化下のアライメント崩壊: 診断と軽減策

キーバリュー (KV) キャッシュ量子化は、大規模言語モデル (LLM) 推論メモリを削減するために広く使用されていますが、既存の評価は、安全性への影響を評価せず、複雑さと精度の測定のみに焦点を当てています。この研究では、KV キャッシュ量子化におけるアライメントの保存について調査します。 11 の命令調整モデル (3.8B ~ 72B) と 5 つのベンチマーク (1,894 プロンプト) にわたって、低ビット量子化が安全調整を静かに破壊する可能性があることがわかりました。Mistral-7B は、わずか 1.03 倍の複雑さで拒否の 15.2% を失い、普遍的な安全なビット幅は存在せず、標準メトリクスには見えない鋭いモデル固有の位相遷移があります。根本原因は幾何学的なものであることがわかりました。安全機能は、完全な表現空間のパープレキシティの平均よりも量子化ノイズに対して 10^2 ~ 10^3 倍脆弱な低次元の活性化部分空間を占めています。この観察に触発されて、私たちは各モデルを 3 つの機構的故障モードのいずれかに分類する診断であるチャネルごとの削減 (PCR) を提案します。安全性としての外れ値。安全性が外れ値チャネルと重なっており、より細かい粒度ではそれを救うことができません。多層希釈では、安全性が多くの層に分散され、層ごとの修正が失敗します。 PCR は、20 のキャリブレーション プロンプトを使用して、9 つの主要モデルすべてと、独立したファミリーからの 1 つの保留モデルについて正しい緩和方向を予測します。 PCR は、目に見えないプロンプト、モデル、および最大 97.2% の回復率を持つ KIVI を含むプロダクション クオンタイザー全体で一般化され、アテンションベースの割り当て方法が失敗する場合に成功します。結果として得られるトレーニング不要のプロトコルは、約 35 GPU 分を必要とし、最小限のメモリ オーバーヘッドで失われたアライメントの最大 97% を回復し、NVIDIA GPU 上の FP8 KV キャッシュを使用する運用 vLLM で確認された脆弱性に対処します。

原文 (English)

Alignment Collapse Under KV Cache Quantization: Diagnosis and Mitigation

Key-value (KV) cache quantization is widely used to reduce Large Language Model (LLM) inference memory, yet existing evaluations solely focus on measuring perplexity and accuracy without assessing the safety impact. In this study, we explore alignment preservation under KV cache quantization. Across eleven instruction-tuned models (3.8B-72B) and five benchmarks (1,894 prompts), we find that low-bit quantization can silently destroy safety alignment: Mistral-7B loses 15.2% of its refusals at only 1.03x perplexity, and no universal safe bit-width exists, with sharp model-specific phase transitions invisible to standard metrics. We identify that the root cause is geometric: safety features occupy a low-dimensional activation subspace 10^2-10^3x more vulnerable to quantization noise than the full representation space perplexity averages over. Inspired by this observation, we propose Per-Channel Reduction (PCR), a diagnostic that classifies each model into one of three mechanistic failure modes: outlier-crushes-safety, where safety lives in non-outlier channels collaterally damaged by outlier-driven scale factors; outlier-as-safety, where safety overlaps outlier channels and finer granularity cannot rescue it; and multi-layer dilution, where safety is distributed across many layers and per-layer fixes fail. PCR predicts the correct mitigation direction on all nine primary models and one held-out model from an independent family using 20 calibration prompts. PCR generalizes across unseen prompts, models, and production quantizers, including KIVI with up to 97.2% recovery, succeeding where attention-based allocation methods fail. The resulting training-free protocol, requiring approximately 35 GPU-minutes, recovers up to 97% of lost alignment at minimal memory overhead, addressing vulnerabilities confirmed in production vLLM serving with FP8 KV cache on NVIDIA GPUs.

13:00 JSTLLM/生成AI

Two to Tango: 安全な LLM 微調整のための結合タスク参照選択

下流データで安全性を調整した大規模言語モデル (LLM) を微調整すると、適応は改善されますが、学習された安全行動が損なわれる可能性があります。既存の方法では、固定された安全性の例、グローバル制約、または片側タスク フィルタリングが使用されています。私たちの診断では、タスクの更新によりさまざまな安全制約が明らかになり、関連する参考文献と互換性のあるタスク サンプルの共同選択が促進されることが示されています。我々は、タスクと参照の選択のための結合フレームワークである DualSelect を提案します。これは、誘導された参照方向と互換性のあるタスク サンプル全体をフィルタリングする前に、タスク条件付き安全参照を更新します。ミニマックス ビューでは、DualSelect は、エントロピー正規化スコアリング サロゲート、遅延参照リフレッシュ、および勾配補正を通じて、高い保存損失とタスク競合を持つ安全参照を、互換性のあるタスク サンプルとともに選択します。 1B-8B LLM では、DualSelect はタスクのユーティリティを失うことなく安全性を維持します。 REDORCA ジャッジを使用すると、安全性平均が向上します。最も強いベースラインを少なくとも 5.10 ポイント上回っており、安全性平均では最高の水準を維持しています。中程度のオーバーヘッドで審査員全体に渡ります。この考え方は、保持を重視した継続的な学習にも拡張されます。

原文 (English)

Two to Tango: Coupled Task-Reference Selection for Safe LLM Fine-tuning

Fine-tuning safety aligned large language models (LLMs) on downstream data improves adaptation but may erode learned safety behavior. Existing methods use fixed safety examples, global constraints, or one-sided task filtering. Our diagnostics show task updates expose different safety constraints, motivating joint selection of relevant references and compatible task samples. We propose DualSelect, a coupled framework for task and reference selection that refreshes task conditioned safety references before filtering whole task samples compatible with the induced reference direction. Under a minimax view, DualSelect selects safety references with high preservation loss and task conflict, together with compatible task samples, through entropy-regularized scoring surrogates, lazy reference refresh, and gradient correction. On 1B-8B LLMs, DualSelect preserves safety without losing task utility; using the REDORCA judge, it improves Safety Avg. over the strongest baseline by at least 5.10 points and remains highest in Safety Avg. across judges with moderate overhead. This view extends to retention focused continual learning.

13:00 JSTLLM/生成AI

EstRTL: 機能推定ガイド付き RTL コード生成

レジスタ転送レベル (RTL) コードの最適化は、ハードウェア設計において非常に重要です。大規模言語モデル (LLM) は、RTL コードの自動生成と最適化のための新しい方法を提供し、設計プロセスを大幅に加速し、人的労力を削減する可能性を提供します。ただし、RTL コードを生成する既存の方法は、RTL コード生成機能を強化するためのモデルの微調整やさまざまな拡張技術の使用に焦点を当てていることが多く、機能の正確さには注意が欠けています。生成された RTL コードが正常にコンパイルされるだけでなく、実際のハードウェア実装で意図したとおりに動作することを保証することは、依然として重要な課題です。この問題に対処するために、静的な関数スコア推定に基づいて RTL コードを生成するための、LLM を利用した協調エージェント フレームワークである EstRTL を提案します。 EstRTL は、生成、推定、修正という 3 段階のパラダイムを操作します。この段階では、機能推定エージェントはスコアと評価結果に基づいて生成されたコードを静的に評価し、コードを直接出力するか、再生成のために返すか、コード修正エージェントに転送するかを決定します。このフレームワークは、RTL コード生成用に設計されたさまざまな LLM に適用でき、生成されるコードの正確性がさらに高まります。定量的なスコアと人間が判読できる要件の比較を提供することで、AI 支援による RTL コード生成の透明性が向上します。実験の結果、EstRTL は汎用 LLM による RTL コード生成の正確性を 3.2\%-9.0\% 大幅に向上させ、システムの実用的な価値を実証しました。コードと実験結果は、リンク: https://anonymous.4open.science/status/EstRTL-E200/ でオープンソース化されています。

原文 (English)

EstRTL: Functional Estimation Guided RTL Code Generation

Optimizing register transfer level (RTL) code is of vital importance in hardware design. Large language models (LLMs) provide new methods for the automatic generation and optimization of RTL code, offering the potential to significantly accelerate the design process and reduce human effort. However, existing methods for generating RTL code often focus on model fine-tuning and the use of various expansion techniques to enhance the RTL code generation capabilities, lacking attention to the functional correctness. Ensuring that the generated RTL code not only compiles successfully but also behaves as intended in real hardware implementations remains a critical challenge. To address this issue, we propose EstRTL, an LLM-powered collaborative agent framework for RTL code generation based on static functional score estimation. EstRTL operates a three-stage paradigm: Generation, Estimation and Correction. During the stages, the functional estimation agent statically evaluates the generated code based on score and assessment results, and decides whether to output the code directly, return it for regeneration, or forward it to the code correction agent. This framework can be applied to various LLMs that designed for RTL code generation, further enhancing the correctness of the generated code. By providing quantitative scores and human-readable requirements comparisons, it improves the transparency of AI-assisted RTL code generation. Experiments show that EstRTL significantly improves the correctness of RTL code generation by generic LLM by 3.2\%-9.0\%, demonstrating the practical value of our system. The codes and experimental results are open-sourced at link: https://anonymous.4open.science/status/EstRTL-E200/.

13:00 JSTLLM/生成AI

SPACE: MLLM 向けのソースフリー プロキシ アンカー コンセプトの消去

マルチモーダル大規模言語モデル (MLLM) がプライバシー リスクの増大と規制上の制約に直面する中、モデルのパフォーマンスを維持しながら機密データを削除するための重要なソリューションとして機械非学習 (MU) が浮上しています。しかし、既存の MU 手法は通常、ターゲット概念の視覚データに依存していますが、厳格なデータ保持ポリシーによりこのデータが利用できないことが多いため、ターゲット データにアクセスせずに動作するソースフリーのアンラーニング アプローチの需要が生じています。この研究では、MLLM に特化した初のソースフリーのアンラーニング フレームワークである、ソースフリーの Proxy Anchor Concept Erasure (SPACE) を提案します。 SPACE は 2 つのステージで構成されます。 (1) テキストガイド付きプロキシ アンカー選択 (TPAS)。共有機能空間から意味的に調整されたプロキシ アンカーを取得します。 (2) Dual-Constraint Semantic Isolation (DCSI)。これらのアンカーを最適化して、ターゲットの概念を間接的に消去します。 DCSI は、更新を保持された知識のヌル空間に限定し、構造的な整合性を確保します。私たちは、SPACE が保持された知識の摂動を厳密に制限し、特徴スペクトル エントロピーを最大化し、それによってモデルのパフォーマンスを維持することを理論的に証明します。さらに、6 つのデータセットにわたる広範な実験により、SPACE が最先端のデータ依存手法に匹敵するパフォーマンスを達成することが示され、ソースフリーの MU シナリオでの有効性が検証されました。ソースコードは公開される予定です。

原文 (English)

SPACE: Source-free Proxy Anchor Concept Erasure for MLLMs

As Multimodal Large Language Models (MLLMs) face growing privacy risks and regulatory constraints, machine unlearning (MU) has emerged as a crucial solution for removing sensitive data while preserving model performance. However, existing MU methods typically rely on visual data of the target concepts, which is often unavailable due to strict data retention policies, thus creating a demand for source-free unlearning approaches that operate without access to the target data. In this work, we propose Source-free Proxy Anchor Concept Erasure (SPACE), the first source-free unlearning framework specialized for MLLMs. SPACE consists of two stages: (1) Text-Guided Proxy Anchor Selection (TPAS), which retrieves semantically aligned proxy anchors from the shared feature space. (2) Dual-Constraint Semantic Isolation (DCSI), which optimizes these anchors to indirectly erase target concepts. DCSI confines updates to the null space of retained knowledge, ensuring structural integrity. We theoretically prove that SPACE strictly bounds the perturbation on retained knowledge and maximizes feature spectral entropy, thereby maintaining the model's performance. Furthermore, extensive experiments across six datasets show that SPACE achieves performance comparable to that of state-of-the-art data-dependent methods, validating its effectiveness in source-free MU scenarios. The source code will be released.

13:00 JST研究/論文

QSplitFL: 分割フェデレーテッド ラーニングにおける最適な分割ポイント選択のための能力を意識したディープ Q ラーニング

フェデレーテッド ラーニング (FL) と分割学習 (SL) を組み合わせたプライバシー保護パラダイムにより、全体的なトレーニング コストを削減しながら、リソースに制約のあるデバイス上でディープ ニューラル ネットワーク (DNN) をトレーニングできるようになります。ただし、最適な分割ポイント、つまりモデルが分割されるレイヤーを決定することは、特にクライアントが異種のハードウェア機能を備えている場合には、依然として重要な課題のままです。固定スプリット ポイントは、弱いデバイスに過負荷を与え、通信とサーバーの負荷を増大させる可能性があり、その結果、コンバージェンスが遅くなり、安定性が低下します。このペーパーでは、分割学習ベースのフェデレーション ラーニング (SFL) 環境で最適な分割ポイントを選択するための新しい機能認識ディープ Q ネットワーク (DQN) フレームワークである QSplitFL を紹介します。高次元モデルの重み表現に依存する既存のアプローチとは異なり、QSplitFL は、CPU 使用率、メモリ、バッテリー レベル、ネットワーク遅延などのクライアント ハードウェア メトリクスから直接導出される軽量の状態表現を採用します。提案されたフレームワークには、早期収束を優先する減衰損失ドロップ報酬関数と、報酬ハッキングを軽減するための多数決による委員会ベースの DQN アーキテクチャが組み込まれています。 CNN、ResNet50、MobileNetV4、および ConvNeXt アーキテクチャを使用した MNIST、Fashion-MNIST、CIFAR-10、および CIFAR-100 データセットに関する広範な実験により、私たちのアプローチが、異種デバイス リソースに効果的に適応しながら、既存の方法と比較してより優れた収束とより高い精度を達成できることが実証されました。ソース コードは https://github.com/AIPO-Lab/QSplitFL で公開されています。

原文 (English)

QSplitFL: Capability Aware Deep Q-Learning for Optimal Split Point Selection in Split Federated Learning

Federated Learning (FL) combined with Split Learning (SL) is a privacy preserving paradigm that enables training deep neural networks (DNNs) on resource constrained devices while reducing overall training cost. However, determining the optimal split point, meaning the layer where the model is divided still remains a critical challenge, especially when clients have heterogeneous hardware capabilities. Fixed split points can overload weak devices and increase the communication and server load, which slows convergence and reduces stability. This paper introduces QSplitFL, a novel capability-aware Deep Q-Network (DQN) framework for optimal split point selection in Split learning based Federated Learning (SFL) environments. Unlike existing approaches that rely on high-dimensional model weight representations, QSplitFL employs a lightweight state representation derived directly from client hardware metrics, including CPU utilization, memory, battery level, and network latency. The proposed framework incorporates a decayed loss-drop reward function that prioritizes early convergence, and a committee-based DQN architecture with majority voting to mitigate reward hacking. Extensive experiments on MNIST, Fashion-MNIST, CIFAR-10, and CIFAR-100 datasets using CNN, ResNet50, MobileNetV4, and ConvNeXt architectures demonstrate that our approach achieves better convergence and higher accuracy compared to existing methods, while effectively adapting to heterogeneous device resources. The source code is publicly available at https://github.com/AIPO-Lab/QSplitFL.

13:00 JSTLLM/生成AI画像/動画生成

SD-GRPO: 長い形式の視覚言語生成のための検証可能なセグメント分解

グループ相対ポリシー最適化 (GRPO) とそのバリアントは、もともと大規模言語モデル (LLM) 用に開発されましたが、最近ではマルチモーダル LLM に適用され、優れた結果を生み出しています。ただし、単一のスカラー利点による粗粒度の全体的なクレジット割り当ては、出力が意味的に豊富な画像に基づいた長い形式の応答であることが多いビジョン言語 (VL) タスクには適合しません。この制限に対処するために、単一スカラー定式化では無視される構造化信号、つまり長い形式の VL 出力の自然なセグメンテーションを利用します。具体的には、セグメント分解 GRPO (SD-GRPO) を提案します。これは、ロールアウト グループ全体で検証可能なセグメントごとの報酬を Z 正規化し、単一のスカラーの代わりにセグメントごとの利点のベクトルを生成します。私たちは、制御された現実世界の長形式 VL 生成にまたがる 3 つの設定にわたって SD-GRPO を評価し、セグメント間のセマンティックなもつれを増やすことによって編成しました。セグメントが意味的に独立している、DOCCI から構築された制御されたマルチパネルの高密度キャプション タスクでは、SD-GRPO は一貫して GRPO ベースラインを上回り、セグメント数が増えるほど大きなゲインが得られます。 MultiChartQA から構築された、制御されたマルチチャートの長い形式の VQA タスクに拡張して、ロールアウト レベルの報酬が、出力の長さに応じて拡大するセグメント間のクレジットの誤った配分の影響を受けることを理論的にも経験的にも示しました。 MMSci データセット上の現実世界の科学図のキャプション タスクでは、部分図のキャプションが図全体でコンテキストを共有し、全体的な報酬とセグメントごとの報酬をブレンドすると両方がさらに向上します。これは、セグメントが意味的にもつれている場合、セグメントごとの正規化だけでは不十分であることを示唆しています。最後に、SD-GRPO を Dr. GRPO に統合することで、最小限の実装オーバーヘッドであらゆる GRPO フレームワークに適用でき、長形式 VL 生成を強化できることを確認します。

原文 (English)

SD-GRPO: Verifiable Segment Decomposition for Long-Form Vision-Language Generation

Group Relative Policy Optimization (GRPO) and its variants, originally developed for Large Language Models (LLMs), have recently been applied to Multimodal LLMs and produced strong results. However, their coarse-grained holistic credit assignment from a single scalar advantage underfits vision-language (VL) tasks, where outputs are often long-form responses grounded in semantically rich images. To address this limitation, we exploit a structured signal that single-scalar formulations discard: the natural segmentation of long-form VL outputs. Concretely, we propose Segment-Decomposed GRPO (SD-GRPO), which z-normalizes verifiable per-segment rewards across the rollout group, yielding a vector of per-segment advantages in place of a single scalar. We evaluate SD-GRPO across three settings spanning controlled and real-world long-form VL generation, organized by increasing semantic entanglement across segments. On a controlled multi-panel dense-captioning task constructed from DOCCI, where segments are semantically independent, SD-GRPO consistently outperforms the GRPO baseline, with larger gains at higher segment counts. Extending to a controlled multi-chart long-form VQA task constructed from MultiChartQA, we show both theoretically and empirically that rollout-level rewards suffer from cross-segment credit misattribution that scales with output length. On a real-world scientific figure captioning task on the MMSci dataset, where subfigure captions share context across the figure, blending holistic and per-segment rewards further improves on both, suggesting per-segment normalization alone is insufficient when segments are semantically entangled. Finally, by integrating SD-GRPO into Dr. GRPO, we confirm that it can be applied to any GRPO framework with minimal implementation overhead to enhance long-form VL generation.

13:00 JST研究/論文

PatchSTG: 不規則なセンサー ネットワークでのトラフィック予測のためのスケーラブルな時空間グラフ トランスフォーマー

交通予測はインテリジェント交通システムの基本的なコンポーネントですが、センサーの分布が不規則であり、大規模な時空間依存関係をモデル化するのに高い計算コストがかかるため、現実の環境では依然として困難です。実際の交通ネットワークでは、センサーが地域全体に不均一に分散されており、空間構造が不均一になり、既存のグラフベースおよび注意ベースのモデルの有効性とスケーラビリティが制限されます。これらの課題に対処するために、不規則なセンサー ネットワーク上で効率的な予測を行うために設計されたパッチベースの時空間グラフ Transformer である PatchSTG を提案します。重要なアイデアは、地理情報に基づいてセンサーをバランスの取れた局所性を維持したパッチに分割する階層的な空間表現を導入することです。この構造に加えて、デュアル アテンション エンコーダーが、ローカルな相互作用をキャプチャするためのパッチ内アテンションと、グローバルな依存関係をモデル化するためのパッチ間アテンションを交互に実行し、計算の複雑さを 2 次スケーリングから線形に近いスケーリングに軽減します。私たちは、ロードアイランド州の実世界の交通データと追加の大規模データセットに基づいて PatchSTG を評価します。実験結果は、提案されたモデルが計算効率を大幅に向上させながら、複数の期間にわたって安定した競争力のある予測パフォーマンスを達成することを示しています。アブレーション研究では、局所的および長距離の両方の交通動態を捉える際の空間分割と二重注意の有効性がさらに検証されています。これらの結果は、パッチベースの時空間モデリングが、不規則な空間設定の下での交通量予測のためのスケーラブルで効果的なフレームワークを提供することを示唆しています。

原文 (English)

PatchSTG: Scalable Spatiotemporal Graph Transformers for Traffic Forecasting on Irregular Sensor Networks

Traffic forecasting is a fundamental component of intelligent transportation systems, yet remains challenging in real-world settings due to irregular sensor distributions and the high computational cost of modeling large-scale spatiotemporal dependencies. In practical traffic networks, sensors are unevenly distributed across regions, leading to non-uniform spatial structures that limit the effectiveness and scalability of existing graph-based and attention-based models. To address these challenges, we propose PatchSTG, a patch-based spatiotemporal graph Transformer designed for efficient forecasting on irregular sensor networks. The key idea is to introduce a hierarchical spatial representation that partitions sensors into balanced, locality-preserving patches based on geographic information. On top of this structure, a dual attention encoder alternates between intra-patch attention for capturing local interactions and inter-patch attention for modeling global dependencies, reducing computational complexity from quadratic to near-linear scaling. We evaluate PatchSTG on real-world traffic data from Rhode Island and additional large-scale datasets. Experimental results demonstrate that the proposed model achieves stable and competitive forecasting performance across multiple horizons, while significantly improving computational efficiency. Ablation studies further validate the effectiveness of spatial partitioning and dual attention in capturing both local and long-range traffic dynamics. These results suggest that patch-based spatiotemporal modeling provides a scalable and effective framework for traffic forecasting under irregular spatial settings.

13:00 JST研究/論文

Rotate2Think: 言語モデル推論を改善するための直交回転による幾何学的プライミング

推論モデルは、最終的な答えを生成する前に明示的な中間推論トレースを生成することで、困難なタスクで強力なパフォーマンスを実現します。しかし、推論時の表現空間の内部構造は依然としてよく理解されていません。つまり、思考中のモデルの隠された表現と入力プロンプトの埋め込みはどのように異なるのか、そしてこの構造を利用して、推論時により強力な推論を引き出すことができるのでしょうか?入力エンベディングと思考エンベディング (それぞれプロンプトと推論トレース上の平均プールされた最終層の隠れ状態) の両方が非常に高い円錐性を示し、すべてのベクトルが単一の平均方向の周囲に密集していることを示します。重要なのは、これらの平均入力と思考の方向が共線的ではなく、思考のエンベディングが多くの異なるモデルやベンチマーク タスクにわたるエンベディング空間の幾何学的に異なる領域を占めることです。この観察は、入力から思考への移行を、直交プロクラステス解析による閉形式の解を認める回転問題としてキャストする動機付けとなります。我々は、正しく解かれた少数の例からこの回転を推定し、結果として得られる合成思考ベクトルを推論時の思考区切り間に挿入する、トレーニング不要の手法である Rotate2Think を提案します。これにより、推論トレースの開始時に幾何学的な入門書が提供されます。複数のベンチマークとモデル ファミリにわたって評価された Rotate2Think は、数学、科学、コード タスクにわたる 32 のモデル ベンチマーク構成のうち 30 で精度を向上させ、MATH-Vision でのゼロショットからマルチモーダル推論までを一般化します。

原文 (English)

Rotate2Think: Geometric Priming via Orthogonal Rotation to Improve Language Model Reasoning

Reasoning models achieve strong performance on challenging tasks by generating explicit intermediate reasoning traces before producing a final answer. Yet the internal structure of representation space when reasoning remains poorly understood: how do a model's hidden representations differ during thinking versus the embeddings of the input prompt, and can this structure be exploited to elicit stronger reasoning at inference time? We show that both input embeddings and thinking embeddings (mean-pooled last-layer hidden states over the prompt and reasoning trace, respectively) exhibit extremely high conicity, with all vectors clustering tightly around a single mean direction. Crucially, these mean input and thinking directions are non-collinear, with thinking embeddings occupying a geometrically distinct region of embedding space across many different models and benchmark tasks. This observation motivates casting the input-to-thinking transition as a rotation problem admitting a closed-form solution via orthogonal Procrustes analysis. We propose Rotate2Think, a training-free method that estimates this rotation from a small set of correctly solved examples and injects the resulting synthetic thinking vector between thinking delimiters at inference time, providing a geometric primer at the onset of the reasoning trace. Evaluated across multiple benchmarks and model families, Rotate2Think improves accuracy in 30 of 32 model-benchmark configurations across mathematics, science, and code tasks, and generalizes zero-shot to multimodal reasoning on MATH-Vision.

13:00 JSTLLM/生成AI

LLM における不確実性の定量化のためのローカルおよびグローバル エントロピーの統合

大規模な言語モデルは自信を持って幻覚を起こすため、信頼性の高い展開には不確実性の定量化 (UQ) が不可欠です。既存の手法は主にトークンレベルの信号に依存しており、中間の隠れ状態の幾何学的構造は十分に活用されていません。この論文では、トークンレベルの不確実性の推定をローカルな測定基準として扱いながら、隠れ状態行列の幾何学的複雑さを LLM のグローバルな不確実性の尺度として取り上げます。隠れ状態の幾何学的エントロピー (グローバルな不確実性) とトークンレベルのエントロピー (ローカルな不確実性) が統計的にほぼ直交しており、信頼性予測のための明確な故障状況を捉えていることを示します。特に、グローバル ジオメトリは、ローカル信号が体系的に見逃す、信頼性はあるが間違っている障害モードを回復します。これに基づいて、乗算ゲートを介して 2 つの信号を融合する教師なしのシングルパス スコアである Global-Local Uncertainty (GLU) を提案します。 3 つのモデル ファミリと 6 つのベンチマークにわたって、GLU はすべての教師なしベースラインと同等またはそれを上回るパフォーマンスを示しますが、必要なのは 1 つの前方パスのみで、残りの長さは正規化され、アーキテクチャに依存しません。

原文 (English)

Integrating Local and Global Entropy for Uncertainty Quantification in LLMs

Large language models hallucinate confidently, making uncertainty quantification (UQ) essential for reliable deployment. Existing methods rely predominantly on token-level signals, leaving the geometric structure of intermediate hidden states underused. In this paper, we take the geometric complexity of hidden-state matrices as a measure of the global uncertainty of LLMs, while treating token-level uncertainty estimation as a local metric. We show that hidden-state geometric entropy (global uncertainty) and token-level entropy (local uncertainty) are statistically near-orthogonal, capturing distinct failure regimes for reliability prediction. In particular, global geometry recovers the confident-but-wrong failure mode that local signals systematically miss. Building on this, we propose Global-Local Uncertainty (GLU), an unsupervised, single-pass score that fuses the two signals via a multiplicative gate. Across three model families and six benchmarks, GLU matches or outperforms all unsupervised baselines while requiring only a single forward pass and remaining length-normalized and architecture-agnostic.

13:00 JSTLLM/生成AI

TD-Grokking: トレーニング時間分解によるゼロ報酬問題からの学習

大規模言語モデル (LLM) は、主にトレーニング後のパラダイム、特に検証可能な報酬を伴う強化学習 (RLVR) によって推論タスクにおいて目覚ましい進歩を遂げました。ただし、重大なボトルネックは依然として存在します。RLVR は非常に困難なゼロ報酬問題で失敗します。この問題では、サンプリングされたすべての推論軌跡が均一に失敗する結果が得られ、モデルの改善を促進する最適化シグナルが提供されません。高密度プロセスの監視、部分的な報酬の割り当て、またはプレフィックスに基づく探索など、この制限に対処するためのこれまでの取り組みは、固有のタスク制約に悩まされるか、元の解決困難な問題を解決するために必要な機能をポリシー モデルに完全に装備していませんでした。これに対処するために、ゼロ報酬問題のトレーニング時間分解フレームワークである TD-Grokking を提案します。難解な根本問題を自己完結型の検証可能な部分問題に再帰的に分解し、解決可能な葉がゼロ以外の報酬を提供する階層ツリーを形成します。数学的および医学的タスクの評価では、TD-Grokking が標準的な GRPO およびすべてのベースライン アプローチよりも優れていることが示されています。これらの結果は、詳細な分析と合わせて、トレーニング時間分解によって報酬ゼロのサンプルが使用可能なトレーニング信号に効果的に変換され、一貫したパフォーマンスの向上が可能になることを確認しています。私たちのコードとデータセットは https://anonymous.4open.science/r/TD-Grokking-6567/ で入手できます。

原文 (English)

TD-Grokking: Learning from Zero-Reward Problems by Training-Time Decomposition

Large language models (LLMs) have made remarkable progress in reasoning tasks, largely driven by post-training paradigms, especially reinforcement learning with verifiable rewards (RLVR). However, a critical bottleneck persists: RLVR fails on highly challenging zero-reward problems, where all sampled reasoning trajectories yield uniformly failed outcomes, providing no optimization signal to drive model improvement. Prior efforts to address this limitation, such as dense process supervision, partial reward assignment, or prefix-guided exploration, suffer from inherent task constraints or do not fully equip the policy model with the capabilities necessary to solve the original intractable problems. To address this, we propose TD-Grokking, a training-time decomposition framework for zero-reward problems. It recursively decomposes intractable root problems into self-contained, verifiable subproblems, forming hierarchical trees where solvable leaves provide non-zero rewards. Evaluations on mathematical and medical tasks show that TD-Grokking outperforms vanilla GRPO as well as all baseline approaches. Together with detailed analysis, these results confirm that training-time decomposition effectively converts zero-reward examples into usable training signals, enabling consistent performance gains. Our code and datasets are available at https://anonymous.4open.science/r/TD-Grokking-6567/.

13:00 JSTエージェント

非同期価格設定におけるディープ マルチエージェント RL の障害モード: 再現可能なトリガー、トレース診断、および部分的な修正

我々は、連続時間価格設定市場における深層マルチエージェント強化学習の 2 つの再現可能な失敗モードを研究します。(i) 競合する DDPG エージェント間の暗黙のカルテル形成、および (ii) 高いイベント率でのアクター - クリティカルの不安定性。単一の CT-MARL ベンチマーク (ポアソンクロック価格更新、観測レイテンシ $\delta$、内部最適ロジット需要) 内で両方をインスタンス化し、同期 DDPG エージェントが共謀指数 $\Delta = 0.69 \pm 0.11$ で障害モード 1 を確実にトリガーすることを示し、部分的な微細構造の修正を定量化します。非同期だけで共謀を 48\% 削減します。遅延により、最小 $\Delta = 0.28$ になります。この修正にはコストが明確に文書化されています。修正は部分的であり ($\Delta$ は Bertrand を超えたままです)、$\delta$ では単調ではありません。また、$\lambda = 5$ で DDPG 批評家の発散として現れ、$(\lambda{=}5, \delta{=}1)$ で位相図のセルを破損する障害モード 2 を乗り越えることができません。スカラー共謀指数には、エピソード内のシグナル伝達の崩壊とショック後の非回復を明らかにする軌跡レベルのトレース診断が付属しています。

原文 (English)

Failure Modes of Deep Multi-Agent RL in Asynchronous Pricing: Reproducible Triggers, Trace Diagnostics, and a Partial Fix

We study two reproducible failure modes of deep multi-agent reinforcement learning in continuous-time pricing markets: (i) tacit cartel formation between competing DDPG agents, and (ii) actor--critic instability at high event rates. We instantiate both inside a single CT-MARL benchmark (Poisson-clocked price updates, observation latency $\delta$, interior-optimum logit demand), show that synchronous DDPG agents reliably trigger Failure Mode 1 with collusion index $\Delta = 0.69 \pm 0.11$, and quantify a partial microstructure fix: asynchrony alone cuts collusion by 48\% and adding latency drives it to a minimum of $\Delta = 0.28$. The fix has clearly documented costs: it is partial ($\Delta$ remains supra-Bertrand), it is non-monotone in $\delta$, and it does not survive Failure Mode 2, which emerges as DDPG critic divergence at $\lambda = 5$ and corrupts the phase-diagram cell at $(\lambda{=}5, \delta{=}1)$. We accompany the scalar collusion index with trajectory-level trace diagnostics that expose the within-episode signalling collapse and the post-shock non-recovery.

13:00 JSTLLM/生成AIGPT / ChatGPTDeepSeek

形状: 専門家の混合が希薄な LLM に対する連合を意識した専門家枝刈り

Sparse Mixture-of-Experts (MoE) 大規模言語モデルは、トークンあたりのコンピューティングが低くても高い品質を実現しますが、そのデプロイメントは多くの場合メモリの壁によって制限されます。トークン依存のルーティングをサポートするには、完全なエキスパート プールが常駐し続ける必要があります。専門家の枝刈りは直接的な救済策であるが、以前の基準は通常、専門家を個別に採点しており、MoE の推論が本質的に \emph{連合} であり、出力がルーティングされた上位 $k$ の専門家の組み合わせから生じるということを見落としている。私たちは \emph{intra-layer} 専門家の協力を明示的にモデル化するタスク駆動型プルーニング フレームワークである \textbf{SHAPE} を提案します。 SHAPE は、小規模なキャリブレーション セットのルーティング トレースを経験的な協力ゲームとして定式化し、観察された上位 $k$ の連携に対する Shapley スタイルの帰属を介してインタラクションを意識した専門家の値を割り当てます。これにより、単に頻繁に行われるのではなく、有用性の高いコラボレーションに不可欠な専門家の特定が可能になります。グローバルなプルーニング予算の下で MoE トポロジを維持するために、SHAPE はさらに \emph{quality-coverage} 選択ルールを導入します。これは、各層で、非負の Shapley 質量の $\alpha$ 部分をカバーする最小限のエキスパート サブセットを保持し、同時に二等分を使用して目標キープ レートに一致させます。さまざまなベンチマークにわたる 3 つの最新の MoE バックボーン (Qwen3-30B-A3B、GPT-OSS-20B、および DeepSeek-V2-Lite) での実験では、SHAPE がグローバルおよびレイヤーごとのプルーニングのバリアントに対して堅牢性を一貫して向上させ、追加のトレーニングなしで 20\% および 40\% 未満のエキスパート プルーニングで競争力のある精度を維持し、ピーク GPU メモリ フットプリントの明確な削減を実現することが示されています。オープンソース コードは https://github.com/Alizen-1009/Shapley-Moe で入手できます。

原文 (English)

SHAPE: Coalition-Aware Expert Pruning for Sparse Mixture-of-Experts LLMs

Sparse Mixture-of-Experts (MoE) large language models achieve strong quality with low per-token compute, yet their deployment is often limited by the memory wall: the full expert pool must remain resident to support token-dependent routing. Expert pruning is a direct remedy, but prior criteria typically score experts independently and overlook that MoE inference is inherently \emph{coalitional}, where outputs arise from routed top-$k$ expert combinations. We propose \textbf{SHAPE}, a task-driven pruning framework that explicitly models \emph{intra-layer} expert cooperation. SHAPE formulates routing traces on a small calibration set as an empirical cooperative game and assigns interaction-aware expert values via a Shapley-style attribution over observed top-$k$ coalitions, enabling the identification of experts that are essential for high-utility collaborations rather than merely frequent. To preserve MoE topology under a global pruning budget, SHAPE further introduces a \emph{quality-coverage} selection rule that retains, in each layer, the minimal expert subset covering an $\alpha$ fraction of non-negative Shapley mass, while using bisection to match a target keep rate. Experiments on three modern MoE backbones (Qwen3-30B-A3B, GPT-OSS-20B, and DeepSeek-V2-Lite) across diverse benchmarks show that SHAPE consistently improves robustness over global and layer-wise pruning variants, maintaining competitive accuracy under 20\% and 40\% expert pruning without additional training and delivering clear reductions in peak GPU memory footprint. The open-source code is available at https://github.com/Alizen-1009/Shapley-Moe.

13:00 JSTLLM/生成AI

SocraticPO: インタラクティブなガイダンスによるポリシーの最適化

大規模言語モデルの強化学習 (RL) は通常、バイナリの正しさなどのスカラー結果報酬で推論を監視します。このような報酬は最適化の方向性を提供しますが、モデルがその誤った推論をどのように修正すべきかを説明することはほとんどなく、ショートカット学習や脆弱なポリシーを促進する可能性があります。私たちは \textbf{SocraticPO} (Socratic Policy Optimization) を提案します。これは、ソクラティック スタイルの自然言語ガイダンスで RL ロールアウトを強化するポリシー最適化フレームワークです。ロールアウト中、学生はまず独立して回答します。答えが間違っている場合、教師はその試みを診断し、簡潔な修正指導を提供します。その後、生徒は拡張されたコンテキストの下で続行します。重要なことは、この指導は報酬の減衰と対になっているということです。教師の介入後に得られた正解は減衰した報酬のみを受け取り、教師の助けを報酬への自由な道として政策が扱うことを妨げています。 SocraticPO は、標準の期待報酬目標をそのままにしてロールアウト プロセスのみを変更するため、Reinforce++ などの既存のポリシー勾配バックエンドにプラグインできます。さらに、教師はテキストレベルの指導のみを提供するため、SocraticPO はロジットや分布マッチングへのアクセスを必要とせずに、より強力なブラックボックス教師モデルを活用できます。 SciKnowEval による学部レベルの科学的推論ベンチマークでは、SocraticPO は強力な RL および自己蒸留ベースラインよりも向上しています。アブレーションは、目標を絞った誘導と報酬減衰の両方が必要であり、報酬減衰により矯正補助への依存が軽減されることを示しています。

原文 (English)

SocraticPO: Policy Optimization via Interactive Guidance

Reinforcement learning (RL) for large language models usually supervises reasoning with scalar outcome rewards, such as binary correctness. Such rewards provide an optimization direction but rarely explain how a model should revise its mistaken reasoning, which can encourage shortcut learning and brittle policies. We propose \textbf{SocraticPO} (Socratic Policy Optimization), a policy-optimization framework that augments RL rollouts with Socratic-style natural-language guidance. During rollout, the student first answers independently; if the answer is incorrect, a teacher diagnoses the attempt and provides concise corrective guidance, after which the student continues under the expanded context. Crucially, this guidance is paired with reward decay: correct answers obtained after teacher intervention only receive decayed rewards, preventing the policy from treating teacher help as a free path to reward. Since SocraticPO only modifies the rollout process while leaving the standard expected-reward objective intact, it can be plugged into existing policy-gradient backends such as Reinforce++. Moreover, because the teacher provides only text-level guidance, SocraticPO can leverage stronger black-box teacher models without requiring access to logits or distribution matching. On undergraduate-level scientific reasoning benchmarks from SciKnowEval, SocraticPO improves over strong RL and self-distillation baselines. Ablations show that both targeted guidance and reward decay are necessary, with reward decay mitigating reliance on assisted correction.

13:00 JSTLLM/生成AIエージェント研究/論文

PreAct-Bench: LLM の予測モニタリングのベンチマーク

大規模言語モデル (LLM) は、特定の目的に向かって複数ステップのアクション軌跡を実行できる自律エージェントとして導入されることが増えています。既存の安全性研究は、完全な軌跡から非倫理的な行為を検出することに重点を置いていますが、このパラダイムは基本的に遡及的であり、害がすでに発生した後にのみ害を特定します。この研究では、重要であるにもかかわらず見落とされている安全タスクを研究します。これを予測監視と呼んでいます。部分的な行動の軌跡のみが与えられた場合、モデルは、明白な行動が実行される前に、それが非倫理的な行動に至るかどうかを推測できますか?このタスクをサポートするために、5 つのドメインにわたる 1,000 個の倫理的および非倫理的な行動のペアの軌跡のベンチマークである PreActBench を紹介します。当社は、Prefix Foresight F1 メトリクスを使用して、アクション軌跡のさまざまな部分にわたって、さまざまな LLM、安全ガードレール モデル、および潜在的なプローブ手法を評価します。結果は、人間が有望なパフォーマンスを達成する一方、強力なモデルであっても予測監視は依然として困難であることを示しており、LLM の安全性における未来志向のリスク推論の必要性を浮き彫りにしています。

原文 (English)

PreAct-Bench: Benchmarking Predictive Monitoring in LLMs

Large language models (LLMs) are increasingly deployed as autonomous agents capable of executing multi-step action trajectories toward a given objective. While existing safety research has focused on detecting unethical behavior from complete trajectories, this paradigm is fundamentally retrospective: it identifies harm only after it has already occurred. In this work, we study a critical yet overlooked safety task, which we term Predictive Monitoring: given only a partial action trajectory, can a model infer whether it will culminate in an unethical action before the overt action is executed? To support this task, we present PreActBench, a benchmark of 1,000 paired ethical and unethical action trajectories spanning five domains. We evaluate a range of LLMs, safety guardrail models, and latent probing methods across varying fractions of the action trajectory using our Prefix Foresight F1 metric. Results show that while humans achieve promising performance, predictive monitoring remains challenging even for strong models, highlighting the need for future-oriented risk reasoning in LLM safety.

13:00 JST研究/論文

代表カリキュラム: 堅牢なランキングと割り当てのための段階的トレーニング

デジタル マーケットプレイスにおけるランキングは、動的な露出配分メカニズムです。表示されたアイテムは、プラットフォームによって記録される発見の軌跡と成功イベントを形成し、将来の配分ポリシーを更新します。最新のランキング システムは、固定的な需要の下では予測性が高いため、露出を混同したシグナル (人気の推定値、CTR/CVR 集計、ID ベースの表現など) に大きく依存しています。しかし、この予測力は学習の近道になる可能性があります。露出に依存する信念シグナルに早期にアクセスすると、最適化がそのシグナルに過度に依存し、露出に依存しないメリットシグナル (コンテンツベースの競争力や意味論的親和性など) から遠ざかります。その結果、学習されたポリシーは既存企業を固定化し、コールドスタートの一般化と分布シフトの下での堅牢性を低下させる傾向があります。私たちは、機能の利用を時間的に段階的に設定するトレーニング時間介入である表現カリキュラム (RC) を提案します。 RC は、最初にコンテンツベースのメリット信号をフォアグラウンドにし、その後、学習されたメリット表現の近くにコンテンツ経路を固定しながら、エクスポージャー依存の信念信号を導入し、履歴信号へのショートカット依存を抑制し、コンテンツ信号のグラジエント飢餓を緩和します。 RC をタスクや仮説クラスとは独立して形式化し、ランキング固有のインスタンス化を提供します。ガウス線形リッジ設定では、ソース パフォーマンスに対する定量化されたパレート トレードオフを使用して、RC がコールド スタート ターゲット分布で集団リスクを厳密に低減する閉形式の解と十分条件を導出します。公開学習によるランク付けベンチマークと推奨ベンチマークに関する実験、および大規模な電子商取引検索システムでのランダム化されたオンライン実験では、RC が歴史的信念シグナルからコンテンツベースのメリットシグナルへと依存性を目に見えて移行し、頭のパフォーマンスのトレードオフを制御しながらコールド集団に対して一貫した利益をもたらしていることが示されています。

原文 (English)

Representation Curriculum: Stagewise Training for Robust Ranking and Allocation

Ranking in digital marketplaces is a dynamic exposure-allocation mechanism: displayed items shape discovery trajectories and success events logged by the platform to update future allocation policies. Modern ranking systems rely heavily on exposure-confounded signals (e.g. popularity estimates, CTR/CVR aggregates, and ID-based representation), because they are highly predictive under stationary demand. Yet this predictive power can become a learning shortcut: early access to exposure-dependent belief signals steers optimization toward over-reliance on them and away from exposure-independent merit signals (e.g., content-based competitiveness and semantic affinity). Consequently, the learned policy tends to entrench incumbents and degrade cold-start generalization and robustness under distribution shift. We propose Representation Curriculum (RC), a training-time intervention that temporally stages feature utilization. RC foregrounds content-based merit signals initially, then introduces exposure-dependent belief signals while anchoring the content pathway near the learned merit representation, curbing shortcut reliance on historical signals and mitigating gradient starvation on content signals. We formalize RC independently of task and hypothesis class and provide ranking-specific instantiations. In a Gaussian linear ridge setting, we derive closed-form solutions and sufficient conditions under which RC strictly reduces population risk on a cold-start target distribution, with a quantified Pareto tradeoff against source performance. Experiments on public learning-to-rank and recommendation benchmarks, and randomized online experiments in a large-scale e-commerce search system, show that RC measurably shifts reliance from historical belief signals toward content-based merit signals and yields consistent gains on cold populations with a controlled trade-off in head performance.

13:00 JST研究/論文

トラクトグラム基礎モデル

拡散 MRI (dMRI) トラクトグラフィーは、生きた人間の脳内の白質経路をマッピングするための唯一の非侵襲的アプローチです。これは、各脳をトラクトグラムとして表します。トラクトグラムは、局所的な流線形状と脳全体の解剖学的組織の両方に関する情報を含む、順序のない大規模な 3 次元流線のセットです。この構造により、トラクトグラムは表現学習にとって自然ではありますが、困難なターゲットになります。既存の方法は、ストリームライン分類と被験者レベルの予測を別個の問題として扱います。ストリームライン分類器は幾何学的なパターンに焦点を当てますが、被験者レベルの予測は多くの場合、手作業で作成された特徴に依存します。その結果、現在の方法では、流線型の解剖学と脳全体の被験者間の変動を結び付ける再利用可能な表現を学習できません。ここでは、全脳流線セットから直接再利用可能な表現を学習するトラクトグラム基礎モデルである TractFM を紹介します。 TractFM は、ローカル ストリームライン エンコーダと順列等変トラクトグラム エンコーダを組み合わせ、対象からのすべてのストリームラインを 1 回の順方向パスでまとめてコンテキスト化できるようにします。密な解剖学的管分割に関する事前トレーニング、つまり個々の流線への解剖学的ラベルの割り当てにより、2 つの相補的な表現が得られます。つまり、管分割用の文脈化された流線レベルの埋め込みと、対象の表現型の下流予測用のコンパクトな対象レベルの記述子です。 TractFM は、3 つのトラクトグラフィー アルゴリズムと 5 つの dMRI データセットにわたって、ストリームライン レベルのタスクと被験者レベルのタスクの両方に移行します。その凍結表現により、正確な区画分割が実現され、独立したデータセット全体で年齢と性別が予測されます。これらの結果は、一度学習した脳全体の幾何学的コンテキストが、トラクトグラフィー パイプライン、データセット、予測タスク全体で一般化できることを示しています。

原文 (English)

Tractogram foundation model

Diffusion MRI (dMRI) tractography is the only noninvasive approach for mapping white-matter pathways in the living human brain. It represents each brain as a tractogram: a large, unordered set of three-dimensional streamlines that includes information about both local streamline geometry and whole-brain anatomical organization. This structure makes tractograms a natural but challenging target for representation learning. Existing methods treat streamline classification and subject-level prediction as separate problems: streamline classifiers focus on geometric patterns, whereas subject-level prediction often depends on hand-crafted features. As a result, current methods do not learn reusable representations that connect streamline anatomy with whole-brain inter-subject variation. Here we introduce TractFM, a tractogram foundation model that learns reusable representations directly from whole-brain streamline sets. TractFM combines a local streamline encoder with a permutation-equivariant tractogram encoder, allowing all streamlines from a subject to be contextualized jointly in a single forward pass. Pretraining on dense anatomical tract parcellation, i.e., assigning anatomical labels to individual streamlines, yields two complementary representations: contextualized streamline-level embeddings for tract parcellation and compact subject-level descriptors for downstream prediction of subject phenotypes. Across three tractography algorithms and five dMRI datasets, TractFM transfers to both streamline-level and subject-level tasks. Its frozen representations achieve accurate tract parcellation and predict age and sex across independent datasets. These results show that whole-brain geometric context, learned once, can generalize across tractography pipelines, datasets, and prediction tasks.

13:00 JST研究/論文

HMAF: 階層型マルチスロット GD-RTB 割り当てフレームワーク

最新のオンライン広告プラットフォームでは、配信保証 (GD) 契約が共存し、リアルタイム入札 (RTB) オークションと入札されます。最近のアプローチでは、GD と RTB の最適化を切り離すか、ヒューリスティックな優先順位ルールに依存するため、複雑なマルチスロット配信やインプレッションの制約の下で、短期的な収益の最大化と長期の契約配信とのバランスを効果的に取ることができません。これらの課題に対処するために、GD--RTB 広告プラットフォームにおけるインプレッション割り当てを最適化するために設計された統一フレームワークである HMAF (階層型マルチスロット割り当てフレームワーク) を提案します。 HMAF は、中核構造として「計画 - 調整 - 実行」パラダイムを採用し、オフライン制約の最適化とオンライン意思決定を統合し、オフライン GD リソース計画のバランスをとり、GD - RTB の競争力を動的に調整し、マルチスロット環境全体でリストごとのリアルタイムのランク決定を行います。 HMAF は、世界最大のオンライン食品配達プラットフォームの 1 つである Meituan の複数のマーケティング シナリオに導入され、GD 配達率が 3.72% 増加し、総広告収益が 1.59% 増加しました。

原文 (English)

HMAF: A Hierarchical Multi-Slot GD-RTB Allocation Framework

In modern online advertising platforms, Guaranteed Delivery (GD) contracts coexist and bid with Real-Time Bidding (RTB) auctions. Recent approaches either decouple GD and RTB optimization or rely on heuristic priority rules, and thus fail to effectively balance short-term revenue maximization with long-term contract delivery under complex multi-slot delivery and impression constraints. To address these challenges, we propose HMAF (Hierarchical Multi-Slot Allocation Framework), a unified framework designed to optimize impression allocation in GD--RTB advertising platforms. HMAF employs the Plan--Calibrate--Execute paradigm as its core structure, and integrates offline constraint optimization with online decision-making, balancing offline GD resource planning, dynamically calibrating GD--RTB competitiveness, and making real-time listwise rank decisions across multi-slot environments. HMAF has been implemented in multiple marketing scenarios at Meituan, one of the world's largest online food delivery platforms, leading to a 3.72% increase in GD delivery rate and a 1.59% increase in total advertisement revenue.

13:00 JST研究/論文

アトリビューションパッチに嘘がある場合: 診断と二次修正

機械的解釈可能性の中心的な目標は、どの内部コンポーネントが言語モデルの動作を因果的に駆動しているかを特定することです。これらの重要性の推定値は回路を特定するための証拠として機能するため、系統的なエラーは基礎となるメカニズムの誤認につながる可能性があります。アクティベーション パッチはゴールドスタンダードの因果指標を提供しますが、大規模になると計算コストが法外に高くなります。代わりに、専門家はアトリビューション パッチング、つまり勾配ベースの一次近似法に依存していますが、その信頼性は依然として十分に理解されていません。この研究では、この信頼性の低さの原因を特徴づけ、主なエラーがパッチされたコンポーネントの局所的な曲率ではなく、下流ネットワークの非線形性に起因することを実証しました。この洞察により、3 つの実用的なツールが得られます。(i) 信頼できない推定値を検出するための信頼性スコア、(ii) 潜在的な帰属ミスの仕様を定量化する誤差範囲、および (iii) 後方向パスを 1 回追加するだけで先行誤差を除去するヘシアン ベクトル積 (HVP) 補正です。 5 つのモデル ファミリ (124M-9B パラメーター) およびランダム トークンと自然主義 (名前交換) 摂動の両方にわたる評価では、統合勾配のような標準ベースラインが計算的に法外となる大規模なスケールで実現可能な唯一の 2 次補正は HVP です。比較実験では、マルチステップ HVP バリアントは、大幅に低いコンピューティングで統合勾配の精度と同等かそれを上回り、以前の 2 次ベースラインを上回りました。これらの改善により、標準ベンチマークでのより忠実度の高い回路回復が実現され、信頼性が低いとフラグが立てられたコンポーネントのみを対象とした計算作業を対象とする Screen-Flag-Fix ワークフローがサポートされます。

原文 (English)

When Attribution Patching Lies: Diagnosis and a Second-Order Correction

A central goal of mechanistic interpretability is to identify which internal components causally drive a language model's behavior. Because these importance estimates serve as the evidence for identifying circuits, systematic errors can lead to the misidentification of the underlying mechanisms. While activation patching provides a gold-standard causal metric, its computational cost is prohibitive at scale. Practitioners instead rely on attribution patching, a gradient-based, first-order approximation whose reliability remains poorly understood. In this work, we characterize the source of this unreliability, demonstrating that the dominant error stems from the non-linearities in the downstream network rather than local curvature at the patched component. This insight yields three practical tools: (i) a reliability score to detect untrustworthy estimates, (ii) error bounds quantifying potential attribution mis-specifications, and (iii) a Hessian-vector-product (HVP) correction that eliminates the leading-order error with only one additional backward pass. In evaluations across five model families (124M-9B parameters) and both random-token and naturalistic (name-swap) perturbations, HVP is the only second-order correction feasible at larger scale, where standard baselines like Integrated Gradients become computationally prohibitive. In comparative experiments, a multi-step HVP variant matches or exceeds the accuracy of Integrated Gradients at significantly lower compute, outperforming prior second-order baselines. These improvements lead to higher-fidelity circuit recovery on standard benchmarks and support a Screen-Flag-Fix workflow that targets computational effort only toward the components flagged as unreliable.

13:00 JSTLLM/生成AIエージェント

Less Context, More Accuracy: A Bi-Temporal Memory Engine for LLM Agents Where a Lean Retrieved Context Beats the Full History

Long-term memory is the missing layer for LLM agents: across sessions they forget, and the common workaround -- replaying the whole history…

13:00 JST研究/論文

進化を超えたクジラ: 群れの知性がコネクトーム貯水池の記憶を最大化する

リザーバー コンピューティングは、再帰型ネットワークの固定ダイナミクスを時間処理に利用し、トレーニングされた線形読み出しのみを必要とします。数百万年の進化によって形成された生物学的神経コネクトームは、ランダムなリザーバーが提供するものを超えた計算構造をコード化している可能性がありますが、その構造が原理的な最適化によってさらに強化できるかどうかは未解決の問題のままです。私たちは、神経複雑度が 6 桁にわたる 6 種のコネクトームベースのエコー状態ネットワークのエッジの重みに、4 つの勾配のないバイオ由来のオプティマイザー (粒子群最適化、差分進化、ハイイロオオカミ オプティマイザー、およびクジラ最適化アルゴリズム) を適用することでこの問題に対処します。線虫 (279 ニューロン)、ショウジョウバエ (49 ノード)、マウス(112)、ラット (73)、マカク (29 領域、連続的な FLNe シナプス強度)、およびヒトの構造的 MRI 接続性 (83 区画)。各コネクトームは、メモリ容量 (MC)、ローレンツ アトラクター予測、NARMA-10 システム同定、マッキー グラス カオス時系列予測という 4 つの標準的なリザーバー コンピューティング ベンチマークで評価されます。 4 つのオプティマイザーはすべて、生物学的重みから初期化された場合、すべてのタスクおよび種にわたって、最適化されていない生物学的ベースラインよりも一貫して優れたパフォーマンスを示します。 WOA は、すべてのタスクで最大の利益を達成します。最大 17 倍の MC 改善 (C. elegans: 1.39 ~ 23.91) および最大 89% の NRMSE 削減 (Mackey-Glass、ヒト) で、これはすべての種およびタスクの平均 214% の改善に相当します。重要なのは、同じトポロジでのランダムな初期化は確実に生物学のパフォーマンスを下回り、トポロジだけでは回復できない本質的な帰納的バイアスとして生物学的重み値を確立することです。これらの結果は、生物にインスピレーションを受け、生物学的に初期化された最適化を、動物界全体にわたるコネクトームリザーバーコンピューティングのための原則に基づいた広範に効果的な戦略として位置付けています。

原文 (English)

The Whale That Outswam Evolution: Swarm Intelligence Maximises Memory in Connectome Reservoirs

Reservoir computing exploits the fixed dynamics of a recurrent network for temporal processing, requiring only a trained linear readout. Biological neural connectomes, shaped by millions of years of evolution, may encode computational structure beyond what random reservoirs provide, yet whether that structure can be further enhanced by principled optimisation remains an open question. We address it by applying four gradient-free, bio-inspired optimisers (Particle Swarm Optimisation, Differential Evolution, Grey Wolf Optimiser, and Whale Optimisation Algorithm) to the edge weights of connectome-based echo-state networks across six species spanning six orders of magnitude in neural complexity: C. elegans (279 neurons), Drosophila (49 nodes), mouse (112), rat (73), macaque (29 regions, continuous FLNe synaptic strengths), and human structural MRI connectivity (83 parcels). Each connectome is evaluated on four canonical reservoir computing benchmarks: Memory Capacity (MC), Lorenz attractor prediction, NARMA-10 system identification, and Mackey-Glass chaotic time-series prediction. All four optimisers consistently outperform unoptimised biological baselines across every task and species when initialised from biological weights. WOA achieves the largest gains on every task: up to a 17x MC improvement (C. elegans: 1.39 to 23.91) and up to 89% NRMSE reduction (Mackey-Glass, human), corresponding to an average 214% improvement across all species and tasks. Crucially, random initialisation on the same topology reliably underperforms biology, establishing biological weight values as an essential inductive bias that topology alone cannot recover. These results position bio-inspired, biologically-initialised optimisation as a principled and broadly effective strategy for connectome reservoir computing across the animal kingdom.

13:00 JST研究/論文

LongMoE: Longitudinal Multimodal Learning via Trajectory-Aware Mixture-of-Experts

Multimodal clinical learning is increasingly important for integrating diverse patient data, including imaging, text, and personalised heal…

13:00 JSTLLM/生成AI研究/論文

IDP-Bench: Benchmarking ability of LLMs to protect personal information in interdependent privacy contexts

Large language models (LLMs) are becoming widely deployed as personal AI assistants with access to sensitive user data, making privacy a ma…

13:00 JST画像/動画生成規制/政策

Bypassing Copyright Protection in Diffusion-based Customization via Two-Stage Latent Feature Optimization

With the growing concerns over copyright infringement in diffusion-based customization, adversarial attacks have emerged as a prominent def…

13:00 JST研究/論文

Mix, Don't Pick: Why Synthetic Corpus Composition Matters for Time Series Foundation Model Pretraining

Choosing the wrong synthetic generator for time-series foundation model pretraining is costly: under identical training budgets, the best a…

13:00 JSTLLM/生成AIエージェント

IntentKV: Cross-Turn Intent-Aware KV Cache Pruning for Agent Inference

Multi-turn LLM agents fan short queries into long trajectories of tool calls, search results, and intermediate reasoning. Both KV memory an…

13:00 JSTロボティクス

Co-GLANCE: Uncertainty-Aware Active Perception for Heterogeneous Robot Teaming

Perceptual uncertainty is a central challenge for heterogeneous robot teams operating in unstructured outdoor environments, where no single…

13:00 JST研究/論文

The Bioelectrical Information Theory: Investigating the theoretical compression limit of bioelectrical signals under artificial intelligence

Bioelectrical signals are increasingly acquired at scales that challenge the bandwidth of brain-computer interfaces. However, their compres…

13:00 JST研究/論文NVIDIA

Conformal Prediction for Neural Operators: Distribution-Free Uncertainty Quantification in Physics Simulation

Neural operators such as the Fourier Neural Operator (FNO) have emerged as powerful surrogates for solving partial differential equations (…

13:00 JSTハードウェア/半導体

Sigma-Branch: Hierarchical Single-Path Network Reconstruction for Dynamic Inference with Reduced Active Parameters

Deploying deep neural networks on memory-constrained edge accelerators is bottlenecked by per-inference off-chip weight transfer rather tha…

13:00 JST研究/論文

Sample Where You Struggle: Sharpening Base Model Reasoning via Entropy-Guided Power Sampling

Sampling from the sequence-level power distribution $p^\alpha$ elicits RL-level reasoning from base language models without any parameter u…

13:00 JSTLLM/生成AILlama

Trainable Smooth-Rotation Transforms with Learned Channel Scales for LLM Quantization

Post-training quantization (PTQ) is one of the most practical ways to reduce the serving cost of Large Language Models (LLMs), but activati…

13:00 JST研究/論文

Forward-Only Convolutional Neural Networks with Learnable Channel-Class Assignment

The Forward-Forward (FF) algorithm offers a biologically inspired alternative to backpropagation by replacing gradient-based credit assignm…

13:00 JST研究/論文

Between Amnesia and Chaos: A Memory Stability Expressivity Trilemma for Trainable Dissipative Oscillator Networks

Physical reservoir computing harnesses nonlinear mechanical dynamics but, by convention, freezes the substrate and trains only a linear rea…

13:00 JST研究/論文

A Note on the Strategic Confinement Problem

Lampson's confinement problem asks how to prevent a program that processes confidential information from leaking it to a third party. We in…

13:00 JSTLLM/生成AI

When RL Fails after SFT: Rejuvenating Model Plasticity for Robust SFT-to-RL Handoff

Supervised Fine-Tuning (SFT) followed by Reinforcement Learning (RL) has become a standard pipeline for Large Language Model (LLM) post-tra…

13:00 JSTLLM/生成AIエージェント

GitInject: Real-World Prompt Injection Attacks in AI-Powered CI/CD Pipelines

AI-powered agents are increasingly embedded in continuous integration and continuous delivery/deployment (CI/CD) pipelines to autonomously…

13:00 JST研究/論文

One Lens, Many Worlds : A Capability-Typed Interface for World-Model Interpretability

World models are now built on substantially different computational substrates. Latent recurrent state-space models such as PlaNet and the…

13:00 JSTLLM/生成AI

RKSC: Reasoning-Aware KV Cache Sharing and Confident Early Exit for Multi-Step LLM Inference

We introduce RKSC (Reasoning-Aware KV Cache Sharing), a training-free inference framework that eliminates two structural redundancies in mu…

13:00 JST研究/論文

Interactions Between Crosscoder Features: A Compact Proofs Perspective

Dictionary learning methods like Sparse Autoencoders (SAEs) and crosscoders attempt to explain a model by decomposing its activations into…

13:00 JST研究/論文

Anomaly Detection and Root Cause Analysis for Microservice Systems

Microservice systems are widely used to build cloud applications, yet their complexity makes failures inevitable, degrading user experience…

13:00 JST研究/論文

GAGI: A Gini-Adjusted GDP-per-Capita Index for Distribution-Aware Macroeconomic Welfare Monitoring

GDP per capita is the default lens through which governibng bodies track the economic prosperity and consequences of economic events , yet…

13:00 JST研究/論文

Learning Where to Simulate: Generative Active Sampling for Online PDE Surrogate Training

Data-driven PDE surrogates are trained with data produced by numerical PDE solvers. However, when the surrogate's goal is to generalize acr…

13:00 JST研究/論文

Deep Slice Interpolation for Reducing Through-Plane Anisotropy and Noise in Head CT

Head computed tomography (CT) typically uses sub-millimeter in-plane resolution but 2-5 mm through-plane spacing, creating substantial anis…

13:00 JST研究/論文

Does Normalization Choice Matter for Causal Large Time-Series Models?

Large models for time-series forecasting have been emerged as a promising paradigm for training models on heterogeneous collections of sign…

13:00 JSTエージェントロボティクス

Uncertainty-Aware Motion Planning for Autonomous Driving in Mixed Traffic Environment

In mixed-traffic environments where autonomous and human-driven vehicles may co-exist, motion planning for autonomous vehicles requires ant…

13:00 JST研究/論文

Temporal Context Conditioning for Seasonality-Aware Precipitation Nowcasting of High-Intensity Rainfall

Precipitation nowcasting is increasingly being approached with deep learning models that learn directly from recent radar observations. Alt…

13:00 JST研究/論文

HydraCIL: Decoupled Class-Incremental Learning through Prototype-Guided Multi-Head Classifiers

We present HydraCIL, a decoupled continual learning model based on prototype-guided multi-head classifiers, targeting sustainable deploymen…

13:00 JSTLLM/生成AIエージェント

3SPO: State-Score-Supervised Policy Optimization for LLM Agents

Training large language models (LLMs) as autonomous agents via reinforcement learning (RL) has enabled frontier models to achieve superhuma…

13:00 JST研究/論文

Optimality of FSQ Tokens for Continuous Diffusion for Categorical Data with Application to Text-to-Speech

Continuous diffusion for categorical data is a framework belonging to the diffusion family and aiming at generating discrete data. The scie…

13:00 JST研究/論文

Geometry-Aware Anisotropic Boundary Correction for Aerodynamic Simulation

Aerodynamic simulation is a key component of engineering shape design, where core quantities such as the surface pressure coefficient stron…

13:00 JSTビジネス/資金調達

DeRA-MOS: Optimizing Text-to-Music Evaluation via Decoupled Listwise Ranking and Modality Alignment

Evaluating text-to-music (TTM) systems remains expensive because music impression (MI) and text alignment (TA) scores rely on human mean op…

13:00 JST画像/動画生成ロボティクス

Generalized-CVO: Fast and Correspondence-Free Local Point Cloud Registration with Second Order Riemannian Optimization

We propose a fast and correspondence-free local point cloud registration method that leverages geometric surface structure and reproducing…

13:00 JSTLLM/生成AI

Interpreting and Steering a Text-to-Speech Language Model with Sparse Autoencoders

Language models increasingly serve as the backbone of text-to-speech (TTS) systems, yet we understand little about the representations they…

13:00 JST研究/論文

Inside the Latent Flow: Causal Deciphering of Attention Dynamics in Audio Separation Foundation Models

Flow-matching transformers achieve strong audio separation, yet their attention dynamics are opaque. We adapt established causal-interventi…

13:00 JSTエージェント

Bittensor Agent Arenas as a Trajectory Primitive: Distilling a Shopping Agent from ShoppingBench Subnet Traces

Small-model agentic post-training is bottlenecked less by the algorithm than by the trajectory substrate it consumes. Leading recipes (RLVR…

13:00 JST画像/動画生成研究/論文

A Controlled Audit of Pretraining Contamination in Public Medical Vision-Language Benchmarks

Medical vision-language models (VLMs) are evaluated on public benchmarks whose images and question-answer pairs have been freely downloadab…

13:00 JST研究/論文

Importance-Aware Scheduling for High-Dimensional Hyperparameter Optimization

Hyperparameter Optimization (HPO) is essential for building high-performing ML/DL models, yet conventional optimizers often struggle in hig…

13:00 JST研究/論文

Temporal Sheaf Neural Networks with Dynamic Orthogonal Transport

We introduce Temporal Sheaf Neural Networks (TSNN), a temporal link prediction framework that equips each node with a time-varying orthogon…

13:00 JST研究/論文

VFUSE: Virulent Feature Understanding with Sparse autoEncoders

Generative models have shown remarkable progress in a variety of domains such as protein design, but such power enables the opaque generati…

13:00 JST研究/論文

Divide-and-Conquer Modeling for the CTF-4-Science Lorenz Benchmark

This work presents a divide-and-conquer modeling strategy for the CTF-4-Science Lorenz benchmark, which evaluates chaotic-system prediction…

13:00 JST研究/論文

A Theory on Flow Matching with Neural Networks

In this work, we develop theoretical foundation for flow matching with neural-network-parameterized conditional velocity fields. We establi…

13:00 JSTLLM/生成AIビジネス/資金調達

Unsupervised Style Representation Learning for AI-Text Detection via Paraphrase Inversion

The rapid development of large language models (LLMs) has raised concerns about misuse such as plagiarism, misinformation, and automated in…

13:00 JSTエージェントClaude

What makes a harness a harness: necessary and sufficient conditions for an agent harness

The term agent harness now circulates widely in software engineering with generative artificial intelligence. It names the layer that wraps…

13:00 JST研究/論文

Duality for Optimal Multi-Item, Multi-Bidder Auction Design: Revenue Certificates through Deep Learning

Characterizing revenue-optimal auctions for multi-item, multi-bidder settings remains a fundamental open problem, with no known closed-form…

13:00 JSTLLM/生成AI研究/論文

Emotion Profiling in LLM-Based Literary Translation: Systematic Shifts Across MT and Post-Editing

This paper investigates whether LLM translations exhibit identifiable emotional profiles and how post-editing reshapes them toward human-li…

13:00 JSTLLM/生成AI

MetaPlate: Counterfactual-Guided RAG-LLM Tool for Personalized Food Recommendation and Hyperglycemia Prevention

Postprandial hyperglycemia is a key risk factor for metabolic disorders; however, existing dietary guidance is often static, impractical, a…

13:00 JST研究/論文

FedSteer: Taming Extreme Gradient Staleness in Federated Learning with Corrective Projections and Caching

Federated learning (FL) is often subject to aggregation variance if clients do not consistently participate in training rounds. While reusi…

13:00 JSTLLM/生成AI

Pareto-Guided Teacher Alignment for Fair Personalized Text Generation

Personalized persuasive text generation can improve relevance and engagement, but demographic conditioning may also introduce unequal frami…

13:00 JST画像/動画生成

BiWM: Advancing Open-Source Interactive Video World Models with Bidirectional Autoregression

Transitioning bidirectional video diffusion models into an autoregressive paradigm improves the interactivity of video world models, but ex…

13:00 JSTLLM/生成AIエージェントビジネス/資金調達研究/論文ClaudeGPT / ChatGPTGeminiDeepSeek

$\tau$-Rec: A Verifiable Benchmark for Agentic Recommender Systems

As recommender systems transition toward agentic, multi-turn conversational interfaces, evaluation paradigms have struggled to keep pace. C…

13:00 JSTLLM/生成AIGPT / ChatGPTGemini

Gaming AI-Assisted Peer Reviews Poses New Risks to the Scientific Community

AI is increasingly used to support scientific peer review, from manuscript screening, reviewer assistance to editorial triage. Although suc…

13:00 JST研究/論文GeminiMicrosoft

Local Is Not a Sufficient Privacy Boundary: Governing OS-Integrated On-Device AI

As AI systems move into operating systems, privacy no longer turns only on whether a model runs locally. A local assistant may assemble ema…

13:00 JSTロボティクス

Flow Control: Steering Vision-Language-Action Models with Simple Real-Time Inputs

We introduce flow control of vision-language-action (VLA) models, a simple and effective way to steer VLA actions in real-time through gene…

13:00 JST画像/動画生成

Making Time Editable in Video Diffusion Transformers

Modern Diffusion Transformers for video generation provide limited control over the progression of time and the editing of temporal dynamic…

13:00 JST研究/論文

Dropout-GRPO: Variational Stochasticity for Continuous Latent Reasoning

Group Relative Policy Optimization (GRPO) relies on the diversity of $K$ rollouts within each group; otherwise, the group-mean advantage $A…

13:00 JSTビジネス/資金調達研究/論文

MMClima: A Framework for Multimodal Climate Science Data and Evaluation

Climate change research increasingly requires AI systems that reason across text, dynamic visual content, and scientific figures, yet exist…

13:00 JST画像/動画生成

Fisher-Guided Progressive Parameter Selection for Adaptive Fine-Tuning

Parameter-efficient fine-tuning (PEFT) aims to adapt pretrained models with a small trainable parameter subset, however, most existing meth…

13:00 JST研究/論文

Integral Field Unit Spectroscopy with One Fiber

Integral field unit (IFU) spectroscopy provides spatially resolved spectra across galaxies, offering crucial insights into their evolution.…

13:00 JSTLLM/生成AI画像/動画生成

Density Ridge Selective Prediction for LLM and VLM Hallucination Detection under Calibration Label Scarcity

Hallucination detection in large language and vision-language models is increasingly framed as selective prediction, where a detector assig…

13:00 JST画像/動画生成研究/論文

An Improved Generative Adversarial Network for Micro-Resistivity Imaging Logging Restoration

An improved GAN-based imaging logging image restoration method is presented in this paper for solving the problem of partially missing micr…

13:00 JSTロボティクス

Exploration of Foundation Model-Based Robots in Patient and Elderly Care

Demand for older-adult and patient care is growing rapidly as populations age worldwide. Foundation models are increasingly being integrate…

13:00 JSTビジネス/資金調達

Automated Pronunciation Evaluation for Korean Toddler Speech using Speech Diarization and Self-Supervised Learning

Speech sound disorders affect approximately 44% of Korean pediatric communication disorder cases, yet automated assessment tools for Korean…

13:00 JST研究/論文

A Source Domain is All You Need: Source-Only Cross-OS Transfer Learning for APT Anomaly Detection via Semantic Alignment and Optimal Transport

Advanced Persistent Threats (APTs) are stealthy, multi-stage cyberattacks whose detection is difficult due to scarce labeled traces, severe…

13:00 JST研究/論文

Fast Exact Nearest-Neighbor Learning for High-Frequency Financial Time Series

AI efficiency at scale is becoming critical in finance as market data volumes surge across equities, ETFs, FX, options, and high-frequency…

13:00 JST画像/動画生成

Dual-Branch Gated Fusion for Open-Set Audio Deepfake Source Tracing

Attributing a synthetic utterance to its originating system remains an open challenge: closed-set models fail to reject unseen synthesizers…

13:00 JSTエージェントロボティクス研究/論文

SHAPO: Sharpness-Aware Policy Optimization for Safe Exploration

Safe exploration is a prerequisite for deploying reinforcement learning (RL) agents in safety-critical domains. In this paper, we approach…

13:00 JST研究/論文

Hyperbolic Neural Population Geometry Benefits Computation

Neural population geometry shapes downstream computation. Recent empirical findings in neurobiology suggest that a hyperbolic structure und…

13:00 JSTロボティクス

YUBI: Yielding Universal Bidigital Interface for Bimanual Dexterous Manipulation at Scale

We introduce Yielding Universal Bidigital Interface (YUBI), a finger-aligned gripper designed to enable intuitive, ergonomic, and scalable…

13:00 JST研究/論文

Linguistically Augmented Audio Speech Data (LinguAS)

Maliciously-created fake speech, including deepfaked and spoofed audio, is proliferating at an alarming rate, and detection models are raci…

13:00 JST研究/論文

Multi-Level Analyzation of Imbalance to Resolve Non-IID-Ness in Federated Learning

Class imbalance is a common problem in deep learning that severely degrades performance. In federated learning (FL), it is a critical facto…

13:00 JSTエージェントロボティクス

What Matters in Orchestrating Robot Policies: A Systematic Study of Hierarchical VLA Agents

Hierarchical vision-language-action (Hi-VLA) systems have emerged as a promising paradigm for complex robot manipulation, by using high-lev…

13:00 JSTロボティクス

Hierarchical Policies from Verbal and Egocentric Human Signals for Natural Human-Robot Interaction

For natural human-robot interaction, a robot must understand human intent expressed not only through language but also through nonverbal si…

13:00 JST研究/論文

Towards Robust Arabic Speech Emotion Recognition with Deep Learning

Speech Emotion Recognition (SER) aims to identify a speaker's emotional state from audio signals. While recent advances in deep learning ha…

13:00 JSTLLM/生成AI

LLM-Guided Neural Architecture Search for Robust Co-Design of Physical Neural Networks

Deploying neural networks on unconventional hardware demands architectures that co-optimize task accuracy and platform-specific constraints…

13:00 JSTLLM/生成AIエージェント

The Confident Liar: Diagnosing Multi-Agent Debate with Log-Probabilities and LLM-as-Judge

Multi-agent debate systems are typically evaluated only on whether the final answer is correct, overlooking the quality of the intermediate…

13:00 JSTLLM/生成AIエージェント

Catching One in Five: LLM-as-Judge Blind Spots in Production Multi-Turn Transaction Agents

LLM-as-judge is the default instrument for evaluating conversational agents, yet its reliability is almost always reported as agreement wit…

13:00 JSTロボティクス

Baseline-Free Policy Optimization for Neural Combinatorial Optimization

Neural combinatorial optimization (NCO) trains autoregressive policies to solve routing problems. The standard training algorithm, REINFORC…

13:00 JST画像/動画生成

Content-Induced Spatial-Spectral Aggregation Network for Change Detection in Remote Sensing Images

The integration of spatial and spectral information is beneficial to the improvement of change detection performance. However, existing met…

13:00 JST画像/動画生成

Building Change Detection in Earthquake: A Multi-Scale Interaction Network and A Change Detection Dataset

As one of the most destructive natural disasters, earthquakes have struck many countries around the world in recent years, causing serious…

13:00 JSTLLM/生成AI

Routing-Aware Expert Calibration for Machine Unlearning in Mixture-of-Experts Language Models

Machine unlearning is increasingly important for large language models, yet unlearning in Mixture-of-Experts (MoE) architectures remains un…

13:00 JSTLLM/生成AI

Atomic Intent Reasoning: Bringing LLM Semantics to Industrial Cross-Domain Recommendations

Cross-domain recommendation is a core problem in content-to-e-commerce platforms. Its objective is to leverage user interactions with conte…

13:00 JST研究/論文

KG-SoftMAP: Soft Knowledge-Graph Priors for Bayesian Network Structure Learning from Sparse Discrete Data

Learning Bayesian network (BN) structure from sparse discrete data is hard: when each instance records only a few variables, most variable…

13:00 JSTロボティクスビジネス/資金調達

A Practical Recipe Towards Improving Sim-and-Real Correlation for VLA Evaluation

Simulation has become an essential tool for evaluating and improving vision-language-action (VLA) policies, offering scalable, reproducible…

13:00 JST研究/論文

Speech Meets ELF: Audio Conditional Continuous-Target Diffusion for Speech Recognition and Translation

Speech-to-text (S2T) systems for recognition (ASR) and translation (S2TT) typically generate discrete text tokens. In contrast, continuous-…

13:00 JSTロボティクス

Test-time Adversarial Takeover: A Real-time Hijacking Interface against Robotic Diffusion Policies

Diffusion-based action generation has become a foundational component of embodied AI, but its reliance on visual conditioning leaves deploy…

13:00 JSTLLM/生成AI研究/論文

Expert-Level Crisis Detection in Mental Health Conversations

Real-world crisis intervention is inherently conversational, yet existing research largely focuses on static texts.Real-world crisis interv…

13:00 JSTLLM/生成AIエージェント研究/論文

Agentic Hybrid RAG for Evidence-Grounded Muon Collider Analysis

Muon collider research spans accelerator physics, detector instrumentation, and high-energy phenomenology, with relevant evidence scattered…

13:00 JST研究/論文

Towards Critical Branching Mechanism in Recurrent Neural Networks

Criticality has been proposed as a key organizing principle in biological neural systems, yet its origin and relevance in artificial neural…

13:00 JSTLLM/生成AI

Beyond Absolute Imitation: Anchored Residual Guidance for Privileged On-Policy Distillation

On-policy distillation (OPD) has demonstrated strong empirical gains in enhancing complex reasoning in LLMs by aligning a student model wit…

13:00 JSTエージェント

SkillResolve-Bench: Measuring and Resolving Same-Capability Ambiguity in Agent Skill Retrieval

Agent skill libraries are becoming routable software assets: a retrieved skill can contribute instructions, scripts, resource bindings, and…

13:00 JSTLLM/生成AIエージェント研究/論文

Harnessing the Collective Intelligence of AI Agents in the Wild for New Discoveries

Scientific discovery is often a collective process: researchers share partial results, inspect failed attempts, and build on each other's i…

13:00 JST研究/論文GPT / ChatGPT

FOGO: Forgetting-aware Orthogonalization Optimizer

We argue that forgetting is not confined to continual learning but is a general optimization phenomenon: during standard training, dominant…

13:00 JST画像/動画生成

Vision-Assisted Foundation Model for Solving Multi-Task Vehicle Routing Problems

Multi-task vehicle routing problems play a critical role in enhancing efficiency across various industries and service sectors. These probl…

13:00 JST研究/論文

Mitigating Bias in Low-SNR Financial Reinforcement Learning via Quantum Representations

The financial market is a typical low signal-to-noise ratio (SNR) setting, which often destabilizes off-policy maximum-entropy methods like…

13:00 JSTエージェント

The Distributed Detectability Band Against Marginal-Preserving Attacks

AI-control monitors score individual agent actions to detect misbehavior, but real harm can be distributed across many benign-looking steps…

13:00 JSTハードウェア/半導体

Minimum Distortion Quantization with Specified Output Distribution

We derive the optimal quantizer of a real-valued random variable $W$ with distribution $P_W$ such that 1) the distribution of the quantizat…

13:00 JSTLLM/生成AI研究/論文GPT / ChatGPT

LakeQA: An Exploratory QA Benchmark over a Million-Scale Data Lake

Recent large language models (LLMs) have shown rapid progress in reading-based question answering (QA), where evidence is explicitly provid…

13:00 JSTLLM/生成AI

ERAlign: Energy-based Representation Alignment of GNNs and LLMs on Text-attributed Graphs

Text-attributed Graphs (TAGs) incorporate textual node attributes with graph structures to describe rich relational semantics. Recent effor…

13:00 JST研究/論文

UPLOTS: A Unified Pretrained Language Model for Constrained Time-series Generation

In time-series generation, existing approaches typically handcraft ortrain a separate model for each dataset, which hinders their scalabili…

13:00 JSTLLM/生成AI

Detecting Speculative Language in Biomedical Texts using Recurrent Neural Tensor Networks

In this investigation, we delve into the automated detection of speculative language within biomedical articles by utilizing distributed se…

13:00 JSTLLM/生成AIエージェント

Decoupling Thought from Speech: Knowledge-Grounded Counterfactual Reasoning for Resilient Multi-Agent Argumentation

Multi-agent debate frameworks have been shown to improve large language model performance in convergent tasks, but they are currently optim…

13:00 JSTLLM/生成AI

Advancing the State-of-the-Art in Empirical Privacy Auditing

Parameter-efficient fine-tuning of large language models (LLMs) can exhibit problematic memorization of individual training examples. Empir…

13:00 JSTLLM/生成AIハードウェア/半導体

Stop Early, Spend Less: Hidden-State Probes as a Practical Recipe for Streaming Moderation of LLM Outputs

Deploying large language models in user-facing systems requires efficient output safety filtering. Existing approaches typically rely on a…

13:00 JSTハードウェア/半導体DeepSeek

Achieving Cloud-Grade SLOs for Local Mixture-of-Experts Inference through CPU-GPU Hybrid Design

Local deployment of large Mixture-of-Experts (MoE) models falls short of the service quality achieved in cloud-scale environments, even und…

13:00 JST研究/論文

MoE Enhanced Federated Learning for Spatiotemporal Prediction

Traffic prediction is fundamental to intelligent transportation systems and urban computing, yet many cities continue to suffer from traffi…

13:00 JSTLLM/生成AIエージェントGPT / ChatGPT

Assessing Automated Prompt Injection Attacks in Agentic Environments

Indirect prompt injection poses a critical threat to LLM agents that interact with untrusted external data, yet automated attack methods--p…

13:00 JST研究/論文

Machine Learning Methods for Studying Latent Neural Activity Dynamics

Recent developments in brain recording are driving a demand for machine learning tools capable of decoding the latent structure of large po…

13:00 JSTLLM/生成AI

LC-QAT: Data-Efficient 2-Bit QAT for LLMs via Linear-Constrained Vector Quantization

Quantization-aware training (QAT) is essential for extremely low-bit large language models (LLMs). Current QAT methods are mainly based on…

13:00 JST研究/論文

Flexible Flows for Biological Sequence Design

Designing functional biological sequences requires navigating vast discrete spaces under strict evolutionary and biophysical constraints. D…

13:00 JSTLLM/生成AI研究/論文

Benchmarking Knowledge Editing using Logical Rules

Large Language Models (LLMs) are increasingly deployed in real-world applications that require access to up-to-date knowledge. However, ret…

13:00 JSTLLM/生成AI

Hidden Consensus:Preference-Validity Compression in Human Feedback

Standard RLHF pipelines often reduce heterogeneous human judgments into a single scalar reward target. We argue that this reduction can mis…

13:00 JST画像/動画生成

Improving Adversarial Transferability on Vision-Language Pre-training Models via Surrogate-Specific Bias Correction

Adversarial examples reveal vulnerabilities in Vision-Language Pre-training (VLP) models and provide insights for improving robustness. A k…

13:00 JST研究/論文

Convergence of Monte Carlo Optimistic Policy Iteration: Beyond Uniform State-Action Updates

The asymptotic behaviour of Monte Carlo optimistic policy iteration (MC-O-PI) is a long-standing open question. When the model of the envir…

13:00 JSTエージェント

Drawing with Strangers: Population Scaling Drives Zero-Shot Mutual Intelligibility in Emergent Sketching

Generalization in emergent communication has largely focused on novel inputs or linguistic structures, yet the capacity for agents to commu…

13:00 JSTエージェント

NOVA: Symbolic Regression Discovery of Interpretable Car-Following and Lane-Change Models with Driver Heterogeneity

We present NOVA, an autonomous symbolic regression framework that identifies interpretable car-following and lane-change structures from ra…

13:00 JSTLLM/生成AI

Towards Diverse Scientific Hypothesis Search with Large Language Models

Large language models (LLMs) are on the rise for accelerating scientific discovery, most recently in advanced tasks such as generating vali…

13:00 JST研究/論文

From Data Heterogeneity to Convergence: A Data-Centric Review of Federated Learning

Federated Learning (FL) has emerged as a promising solution for data hunger in centralized learning. This paradigm enables privacy with mul…

13:00 JST研究/論文

Embedding Hybrid Systems into Continuous Latent Vector Fields

This work proves that an $n$-dimensional hybrid system can be embedded into an $m$-dimensional Euclidean space equipped with a continuous v…

13:00 JSTエージェント

Dmsh: A Multi-Agent Reinforcement Learning Framework for All-Quad Mesh Generation

Generating high-quality meshes for arbitrary geometries remains a fundamental bottleneck in computational engineering, often demanding heur…

13:00 JSTLLM/生成AIエージェント

Causal Ensemble Agent: Hierarchical Causal Discovery with LLM-guided Expert Reweighting

Causal discovery aims to uncover causal structures from observational data, which is crucial for real-world decision-making. However, diffe…

13:00 JST研究/論文

Fast and Highly Expressive Policy Learning for Offline Reinforcement Learning via Bootstrapped Flow Q-Learning

Diffusion-based Q-learning has emerged as a powerful paradigm for offline reinforcement learning, but its reliance on multi-step denoising…

13:00 JST画像/動画生成研究/論文GPT / ChatGPT

Can Image Models Imagine Time? ImageTime: A Novel Benchmark for Probing Visual World Modeling Through Spatiotemporal Consistency

Image generation models now produce high-quality static images, yet their ability to represent how a visual world changes over time remains…

13:00 JST研究/論文

STORM: Stepwise Token Optimization with Reward-Guided Beam Search

Modern retrieval increasingly relies on dense and learned-sparse neural models that are effective but require encoding the entire corpus in…

13:00 JST研究/論文

Is Fairness Truly Fair? Towards Reliable Lipschitz Fairness in Multi-Task Learning via Fixed-\texorpdfstring{$\delta$}{delta} Alignment

Lipschitz-style individual fairness formalizes the idea that semantically similar examples should receive similar predictions, but its eval…

13:00 JSTLLM/生成AI

Dynamic Linear Attention

The scalability of Large Language Models (LLMs) to long contexts is fundamentally constrained by the quadratic complexity of standard atten…

13:00 JST研究/論文

Post-Quantum Secure Federated DeFi for Inclusive Banking

Recent advances in error-corrected qubits have accelerated the timeline for practical quantum computing. It poses a threat to cryptographic…

13:00 JST研究/論文

Accounting for AI Inference in Corporate GHG Inventories: A Four-Tier Methodology for Scope 3 Category 1 Reporting

AI inference services -- API subscriptions, enterprise chat tools, and SaaS products with embedded AI features -- fall unambiguously within…

13:00 JSTエージェント

Decentralized Multi-Agent Systems with Shared Context

Multi-agent systems (MAS) can scale large language model reasoning at test time by decomposing complex problems into parallel subtasks. How…

13:00 JST研究/論文

In Defense of Information Leakage in Concept-based Models

Concept-based models (CMs), deep neural networks that ground their predictions on representations aligned with human-understandable concept…

13:00 JST画像/動画生成ロボティクス

UniDexTok: A Unified Dexterous Hand Tokenizer from Real Data

Dexterous hands are essential for fine-grained manipulation, but their hardware designs vary substantially across embodiments. Differences…

13:00 JSTLLM/生成AIエージェント

Divide and Cooperate: Role-Decomposed Multi-Agent LLM Training with Cross-Agent Learning Signals

Modern language agents which perform multi-step reasoning have shown strong performance in knowledge-intensive question answering. However,…

13:00 JST画像/動画生成

Using the YOLOv12 Model for Verifying the Correct Color Sequence of Wires in Network Cables (Patch Cords) on the Production Line

In the production process of network cables, ensuring the correct color sequence of wire pairs inside the standard connector plays a critic…

13:00 JST研究/論文

Event-Driven Reinforcement Learning Enables Long-Horizon Control in Semiconductor Fabrication

Reinforcement learning promises to optimize sequential decisions in large-scale systems. Semiconductor manufacturing systems are stochastic…

13:00 JSTLLM/生成AI

Unifying Data, Memory, and Compute Efficiency in LLM training: A Survey

Resource constraints increasingly determine what can be trained, fine-tuned, and deployed in large language models (LLMs), yet efficiency i…

13:00 JSTLLM/生成AIエージェント

Effective Reinforcement Learning for Agentic Search by Recycling Zero-Variance Queries During Training

The use of GRPO-style algorithms has become the standard strategy for training LLM search agents under outcome-only rewards. With these alg…

13:00 JST画像/動画生成

++nnU-Net: Scaling nnU-Net with Prefix-Based Data Augmentation

The nnU-Net has demonstrated continuous success in medical segmentation tasks, which heavily rely on the availability and diversity of anno…

13:00 JSTLLM/生成AI

Attention Expansion: Enhancing Keyphrase Extraction from Long Documents with Attention-Augmented Contextualized Embeddings

Pre-trained language models (PLMs) have achieved strong performance in keyphrase extraction (KPE), largely due to their ability to generate…

13:00 JST研究/論文

Transformer Based Model for Spatiotemporal Feature Learning in EEG Emotion Recognition

Electroencephalography (EEG) is a widely adopted technique for monitoring brain activity, offering valuable insights into neurological stat…

13:00 JSTLLM/生成AIGPT / ChatGPT

Detecting Knowledge Gaps from Conversational AI Interactions Using Curriculum Prerequisite Graphs

Large online courses generate thousands of student questions directed at conversational AI teaching assistants, yet these interaction logs…

13:00 JSTLLM/生成AI

Spatial-Omni: Spatial Audio Understanding Integration in Multimodal LLMs via FOA Encoding

Recent multimodal large language models mainly process audio as monaural signals, thereby discarding the spatial cues contained in spatial…

13:00 JSTLLM/生成AIエージェントビジネス/資金調達

Toward Secure LLM Agents: Threat Surfaces, Attacks, Defenses, and Evaluation

Large language model (LLM) agents are rapidly moving from conversational interfaces to software components that plan, invoke tools, maintai…

13:00 JST研究/論文

A Bayesian Network Approach for Enhancing Security-Focused Decision Support Systems

The adoption and integration of heterogeneous stacks in most of today's open-source based networks brings clear benefits like interoperabil…

13:00 JSTLLM/生成AI

Dep-LLM: Training-Free Depression Diagnosis via Evidence-Guided Structured Multi-factor with Reliable LLM Reasoning

Automatic Depression Detection (ADD) from clinical interviews is a pivotal task in computational mental health, yet it remains challenging…

13:00 JST研究/論文

Boosting ECG Classification Performance by Pre-training with Synthesized Data

Deep Neural Networks (DNNs) typically require extensive datasets for effective training. In the medical domain, acquiring large-scale data…

13:00 JSTLLM/生成AI画像/動画生成Gemini

Beyond APIs: Probing the Limits of MLLMs in Physical Tool Use

Multimodal Large Language Models (MLLMs) excel at utilizing digital APIs and increasingly serve as the "brain" of embodied AI, instructing…

13:00 JSTLLM/生成AI画像/動画生成

Earth-OneVision: Extending Remote Sensing Multimodal Large Language Models to More Sensor Modalities and Tasks

RS-MLLMs enable natural-language understanding and spatial reasoning over earth observation imagery. However, existing models support only…

13:00 JSTLLM/生成AI

K-Forcing: Joint Next-K-Token Decoding via Push-Forward Language Modeling

Autoregressive (AR) language modeling is the dominant paradigm for text generation, yet its sequential token-by-token decoding makes infere…

13:00 JST研究/論文

A Unified Siamese Learning Framework for Zero-Day Anomaly Detection and Classification in Optical Networks

A multi-similarity Siamese neural network unifies zero-day anomaly detection and one-shot classification in optical networks, achieving ove…

13:00 JSTLLM/生成AI

Attention-Discounted Adaptive Sampler for Masked Diffusion Language Models

Masked diffusion language models can reduce inference steps by revealing multiple tokens per denoising iteration, but this parallelism is f…

13:00 JST研究/論文

Geometrically Averaged Hard Target Updates for Linear Q-Learning

Periodic hard target updates are among the most common stabilization devices in modern deep Q-learning. Recent studies suggest that target…

13:00 JSTLLM/生成AI研究/論文

Janus: A Benchmark for Goal-Conditioned Information Distortion in LLMs

LLM deception is often evaluated through direct markers such as fabricated claims, explicit lies, or strategic concealment. However, many r…

13:00 JSTLLM/生成AI

From Perception to Action: Can UI Interventions Foster Sustainable LLM Chatbot

LLM-powered chatbots are increasingly embedded in everyday workflows, raising sustainability concerns due to their energy use. Most mitigat…

13:00 JST画像/動画生成ビジネス/資金調達研究/論文

LIBERO-Occ: Evaluating and Improving Vision-Language-Action Models under Scene-Induced Occlusion via Viewpoint Imagination

Vision-Language-Action (VLA) models achieve strong performance on standard manipulation benchmarks, but most evaluations assume that task-r…

13:00 JST研究/論文LlamaQwen

Optimal Post-Training Quantization Scales and Where to Find Them

Post-training quantization (PTQ) compresses large language models by mapping weights to low-bit representations. The scaling factor that de…

13:00 JST画像/動画生成

Improving Text-Instance Alignment Of Foreground Conditioned Out-Painting Via Customized Concept Embedding

To showcase products, merchants often incur substantial costs creating high-quality display images. Foreground Conditioned Outpainting (FCO…

13:00 JSTLLM/生成AI画像/動画生成

Pose-ICL: 3D-Aware In-Context Learning for Pose-Controllable Subject Customization

Subject Customization is a foundational task in modern image generation. By providing a few reference images and a text prompt, users can g…

13:00 JST研究/論文

Human-AI Teaming Through the Lens of Calibration

We study models for human-AI teaming through the lens of statistical calibration. We assume the team consists of an AI model and human -- b…

13:00 JST研究/論文

RAT: Reference-Augmented Training for ASV Anti-Spoofing

We introduce a spoofing countermeasure architecture conditioned on speaker-reference recordings, but observe that it converges to a solutio…

13:00 JST研究/論文

Ethical and Technical Limits of Deepfake Speech Datasets

Claims about the robustness and fairness of deepfake speech detectors are only as credible as the datasets used to train and evaluate those…

13:00 JSTハードウェア/半導体

What Do Deepfake Speech Detectors Actually Hear?

Deepfake speech detectors often output a single score without explaining why an audio sample is flagged, where in the signal the evidence l…

13:00 JST研究/論文

A Constrained Natural-Language Interface for Variational Multi-Physics Finite Element Simulations in FEniCS

Large language models can reduce the manual effort required to set up finite element simulations, but they introduce reliability risks when…

13:00 JST研究/論文GPT / ChatGPTQwen

Recoverable but Not Stationary:Local Linear Structures in Weights and Activations

Task vectors, LoRA, activation steering, and random search around pretrained weights all suggest that learned behaviour can be controlled b…

13:00 JST研究/論文

CLP: Collocation-Length Prediction for Zero-Loss Adaptive Multi-Token Inference

Large language model inference is bottlenecked by autoregressive decoding, where each token requires a full forward pass. Multi-token predi…

13:00 JST研究/論文

Provenance Tracking in AI Compilers through the Lens of Coalgebra

AI compilers aggressively rewrite computation graphs through normalization, lowering, and optimization, making it difficult to track the pr…

13:00 JST画像/動画生成

Democratising Camera Trap AI: An Open-Source Model for Detecting UK Mammals

Camera traps have become a cornerstone of biodiversity monitoring, but the artificial intelligence that turns vast quantities of images int…

13:00 JSTLLM/生成AI

Generative Explainability for Next-Generation Networks: LLM-Augmented XAI with Mutual Feature Interactions

As artificial intelligence and machine learning (AI/ML) models become integral to network operations, their lack of transparency poses a si…

13:00 JSTLLM/生成AI

Beyond Uniform Token-Level Trust Region in LLM Reinforcement Learning

Reinforcement learning with verifiable rewards (RLVR) has become standard for improving LLM reasoning. However, existing PPO-style trust-re…

13:00 JST研究/論文

Optimizing 2D Input Representations and Sub-phase Fusion Strategies for Differential Diagnosis of Asthma and COPD Using CNN- and GRU-Based Networks

This study aims to explore the performance of the VAR model in comparison with mel-frequency cepstral coefficient (MFCC) matrices and log-m…

13:00 JSTエージェント

Understanding and mitigating the risks of OpenClaw for non-technical users: A practical guide with Skill

OpenClaw has rapidly emerged as a transformative artificial intelligence (AI) agent framework, and its ability to autonomously execute comp…

13:00 JSTエージェントロボティクス

Diffusion Forcing Planner: History-Annealed Planning with Time-Dependent Guidance for Autonomous Driving

Learning-based motion planners, despite recent progress, often suffer from temporal inconsistency. Small perturbations across frames can ac…

13:00 JSTLLM/生成AI

AuRA: Internalizing Audio Understanding into LLMs as LoRA

Recent efforts to extend large language models (LLMs) to speech inputs typically rely on cascaded ASR-LLM pipelines, end-to-end speech-lang…

13:00 JSTLLM/生成AIエージェント研究/論文

T1-Bench: Benchmarking Multi-Scenario Agents in Real-World Domains

Recent advances in reasoning and tool-calling capabilities of large language models (LLMs) have enabled increasingly capable agentic system…

13:00 JSTLLM/生成AI

Modeling Complex Behaviors: Multi-Personality Composition and Dynamic Switching in Vision-Language Models

With the widespread deployment of Multimodal Large Language Models (MLLMs) in social interaction, understanding and controlling their behav…

13:00 JSTLLM/生成AI

Unifying Local Communications and Local Updates for LLM Pretraining

Communication-efficient pre-training of LLMs is increasingly important as training draws on compute distributed across clusters, data cente…

13:00 JST研究/論文

Test-Time Gradient Guidance of Flow Policies in Reinforcement Learning

Expressive continuous control policies, such as diffusion and flow models, form the backbone of recent advances in scaling imitation learni…

13:00 JSTロボティクス

RoboNaldo: Accurate, Stable and Powerful Humanoid Soccer Shooting via Motion-Guided Curriculum Reinforcement Learning

Elite humanoid soccer shooting requires whole-body stability, high-impulse whole-body interactions, and accuracy to targets. Motion trackin…

13:00 JSTLLM/生成AI研究/論文

PhantomBench: Benchmarking the Non-existential Threat of Language Models

Hallucinations, where language models (LMs) generate factually ungrounded responses, pose serious risks, as users tend to blindly rely on t…

13:00 JST画像/動画生成Llama

FADA: Accessible fetal ultrasound interpretation and annotation with a selectively distilled unified vision-language model

A global shortage of trained sonographers limits prenatal ultrasound screening in low- and middle-income countries, where over half of preg…

13:00 JST研究/論文

Designed by Journalists, but Is It for Readers? Rethinking AI Disclosures and Transparency in News

As newsrooms integrate generative AI, journalists face a disclosure challenge: how to communicate AI involvement in ways that maintain read…

13:00 JSTエージェント

Towards Autonomous Accelerator Design: FPGA Accelerator Generation with SECDA

Designing FPGA-based accelerators for modern artificial intelligence workloads requires exploring a large and complex hardware design space…

13:00 JSTLLM/生成AIエージェント

TRACE: A Unified Rollout Budget Allocation Framework for Efficient Agentic Reinforcement Learning

Reinforcement learning with verifiable rewards (RLVR) is a promising approach for enhancing reasoning and agentic behavior in large languag…

13:00 JSTLLM/生成AI

Provenance-Grounded Gating and Adaptive Recovery in Synthetic Post-Training Data Curation

Synthetic post-training pipelines commonly filter generated samples with reward models or holistic LLM judges, yet two practices remain rar…

13:00 JST研究/論文

Data assimilation for subsurface flow using latent diffusion model parameterization: performance of ensemble-Kalman and Monte Carlo techniques

Data assimilation (DA) in subsurface flow entails calibrating model parameters to match observed data, typically at wells, while preserving…

13:00 JSTLLM/生成AI

Flaws in the LLM Automation Narrative

Large Language Models (LLMs) are increasingly described as performing at the level of human experts on knowledge economy tasks. These claim…

13:00 JST研究/論文DeepSeek

Piper: A Programmable Distributed Training System

Large-scale model training increasingly relies on composing multiple parallelism strategies, such as data, pipeline, and expert parallelism…

13:00 JSTLLM/生成AIエージェント研究/論文DeepSeek

EEVEE: Towards Test-time Prompt Learning in the Real World for Self-Improving Agents

In this paper, we propose EEVEE, the first multi-dataset test-time prompt learning framework for LLM agents, enabling test-time prompt lear…

13:00 JSTLLM/生成AI

A Unifying Lens on Supervised Fine-Tuning Through Target Distribution Design

Supervised fine-tuning (SFT) typically maximizes the likelihood of every token in a demonstrated trajectory. However, an observed token can…

13:00 JSTビジネス/資金調達研究/論文

Belief Acquisition as Stochastic Filtering

This paper studies how belief acquisition can be accomplished using stochastic filtering. First, a theoretical foundation for empirical bel…

13:00 JST研究/論文

A Survey on Semantic Modeling for Building Energy Management

Building Energy Management (BEM) is central to reducing energy use and CO2 emissions in the building sector. Although IoT technologies now…

13:00 JSTLLM/生成AI

A Comprehensive Survey of Direct Preference Optimization: Datasets, Theories, Variants, and Applications

With the rapid advancement of large language models (LLMs), aligning policy models with human preferences has become increasingly critical.…

13:00 JST研究/論文

Position: The ML Community Must Build an AI-Augmented Peer-Review Ecosystem

Peer review, the bedrock of scientific advancement in machine learning (ML), is strained by a crisis of scale. Exponential growth in manusc…

13:00 JSTLLM/生成AI

Why Does Reasoning Length Converge? Unveiling the Underfitting-Overfitting Trade-off in Chain-of-Thought

Test-time scaling, primarily manifested through multi-step Chain-of-Thought (CoT) reasoning via Reinforcement Learning (RL), has emerged as…

13:00 JSTLLM/生成AIエージェントAnthropicOpenAIGPT / ChatGPTGoogle

Constructing coherent spatial memory in LLM agents through graph rectification

Given a map description through global traversal navigation instructions, an LLM can often infer the implicit spatial layout and answer use…

13:00 JSTLLM/生成AIエージェント

Impatient Users Confuse AI Agents: High-fidelity Simulations of Human Traits for Testing Agents

Despite rapid progress in building conversational AI agents, robustness is still largely untested. Small shifts in user behavior, such as b…

13:00 JSTLLM/生成AI画像/動画生成エージェント

ChartAgent: A Multimodal Agent for Visually Grounded Reasoning in Complex Chart Question Answering

Recent multimodal LLMs have shown promise in chart-based visual question answering, but their performance declines sharply on unannotated c…

13:00 JSTLLM/生成AIエージェント研究/論文ClaudeGPT / ChatGPT

How can we assess human-agent interactions? Case studies in software agent design

While benchmarks measure the accuracy of LLM-powered agents, they mostly assume full automation, failing to represent the collaborative nat…

13:00 JSTLLM/生成AIエージェントロボティクスGPT / ChatGPT

RoboGPT-R1: Enhancing Robot Task Planning with Reinforcement Learning

Improving the reasoning capabilities of embodied agents is crucial for robots to complete complex human instructions in long-view manipulat…

13:00 JST画像/動画生成

Non-Parametric Structural Priors for Geometry Theorem Prediction

Multi-step theorem prediction is a central challenge in geometry problem solving. Existing neural-symbolic approaches rely heavily on super…

13:00 JSTLLM/生成AIエージェント

The Price of Agreement: Measuring LLM Sycophancy in Agentic Financial Applications

Given the increased use of LLMs in financial systems today, it becomes important to evaluate the safety and robustness of such systems. One…

13:00 JSTLLM/生成AI

Adaptive Teacher Exposure for Self-Distillation in LLM Reasoning

On-policy self-distillation has become a strong recipe for LLM reasoning, where a privileged teacher supervises the student's own rollouts…

13:00 JSTLLM/生成AI

CatalyticMLLM: A Graph-Text Multimodal Large Language Model for Catalytic Materials

Property prediction and inverse structural design of catalytic materials are typically modeled as two independent tasks: the former predict…

13:00 JST研究/論文

Neurosymbolic Learning for Inference-Time Argumentation

Claim verification is an important problem in high-stakes settings, including health and finance. When information underpinning claims is i…

13:00 JSTLLM/生成AIハードウェア/半導体AnthropicClaudeOpenAIGPT / ChatGPTGoogleDeepSeek

AMEL: Accumulated Message Effects on LLM Judgments

Large language models are routinely used as automated evaluators: to review code, moderate content, or score outputs, often with many items…

13:00 JSTエージェント

自動化されたワークフローにおけるエージェントの不整合についての冷静な考察

私たちは、自動化されたワークフローに焦点を当てて、マルチエージェント システム (MAS) における緊急のミスアライメントの一種を研究しています。これをエージェントのミスアライメントと呼びます。これらのシステムは複雑なタスクを解決できますが、エージェントが人間の意図した目標と一致しない暗黙的なプロキシ ユーティリティに従って動作するため、失敗することがよくあります。私たちはこれらの動作を正式に定義し、ベイジアン フレームワーク内で分析し、汎用ユーティリティが自動ワークフロー内のエージェントの事後崩壊に自然につながることを示しました。この問題に対処するために、私たちはエージェントの証拠帰属 (AEA) を提案します。これは、コンテキスト固有の証拠を使用してエージェントの事後分布を改善する新しい調整パラダイムです。 AEA はエージェントの行動を推論し、コラボレーション中の誤った行動を修正するための構造化された証拠を提供します。証拠の役割をより深く理解するために、AEA の 2 つの具体化、すなわち自己反省 (モデルからの内部証拠) と弱から強への一般化 (エージェントの軌道に関する外部証拠) を研究します。小規模な証拠モデルが直交故障属性を提供することで MAS を効果的に調整することを示します。私たちの結果は、自動化されたワークフローにおけるエージェントの不整合の原因を明らかにし、証拠に基づいた調整がエージェントのコラボレーションを効果的に改善し、自動化されたワークフロー上に構築された信頼性の高いマルチエージェント システムにつながることを示しています。

原文 (English)

A Sober Look at Agentic Misalignment in Automated Workflows

We study a class of emergent misalignment in multi-agent systems (MAS), with a focus on automated workflows, which we refer to agentic misalignment. Although these systems can solve complex tasks, they often fail because agents act according to implicit proxy utilities that do not align with the intended human goals. We formally define these behaviors and analyze them within a Bayesian framework, showing that generic utilities naturally lead to posterior collapse of agents in automated workflows. To address this issue, we propose Agentic Evidence Attribution (AEA), a novel alignment paradigm that improves agent posteriors using context-specific evidence. AEA reasons over agent actions and provides structured evidence to correct misaligned behavior during collaboration. To better understand the role of evidence, we study two instantiations of AEA: self-reflection (internal evidence from the model) and weak-to-strong generalization (external evidence on the agentic trajectory). We show that a small evidence model effectively aligns the MAS by providing orthogonal failure attribution. Our results clarify the sources of agentic misalignment in automated workflows and show that evidence-based alignment can effectively improve agent collaboration and leads to reliable multi-agent systems built on automated workflows.

13:00 JST研究/論文

EVA-Net: Subject-Independent EEG Motor Decoding with Video-Derived Motor Priors

Practical non-invasive Brain-Computer Interface (BCI) systems require EEG decoders with strong cross-subject generalization and minimal cal…

13:00 JST研究/論文

VET: A Framework for Analyzing AI Discourse

Public discourse on AI has become polarized; exaggerated positions on AI in traditional and social media threaten the development of AI Lit…

13:00 JSTエージェント

AgentPLM: Agentic Protein Language Models with Reasoning-Augmented Decoding for Protein Sequence Design

Protein language models (PLMs) are passive oracles: they generate sequences in a single forward pass with no mechanism to consult external…

13:00 JSTLLM/生成AIエージェント

パルテノン法: 自己進化する弁護士の枠組み

エージェントの能力が高まるにつれて、法律分野の LLM エージェントは、大量のドキュメントをレビュー可能な作業成果物に変えることを約束しますが、信頼性の高い導入には 3 つの障害に直面しています。1 つは、今日の最も強力なモデルとハーネスの組み合わせがエンドツーエンドの法的問題でどのように動作するかについての大規模な証拠がないことです。法的な業種に適合したエージェント アーキテクチャはなく、汎用ハーネスのみが使用されます。そして、新しい事実、権限、期限によって変化し続ける環境では、システムが自らの結果から学習するメカニズムがありません。それぞれに対応します。 Harvey LAB に関する大規模な実証研究 -- $12{,}510$ のエージェントの軌跡 -- は、フロンティアのエージェントでさえ 1 回のパスで問題を完了することには程遠いことを示しています。より強力なモデルを使用すると基準ごとの精度が向上しますが、厳密な問題の完了は停滞します。次に、\textsc{Parthenon} を導入します。これは、モデル、ハーネス、代理人の役割、法的知識、決定論的なツール、および手続き上のスキルを情報源の追跡可能性、日付と番号の根拠、成果物のコンプライアンス、および問題の解決のための監査可能な表面に組み込む、自己進化する法律代理人のフレームワークです。最後に、漏れ防止学習ループにより、スコアリングされた失敗がタスクに依存しないスキル、ツール、知識の編集に変換され、企業が問題ごとにチェックリストとプレイブックを洗練するように、モデルの重みに触れることなく、経験とともにシステムが改善されます。私たちの大規模な実証分析を通じて、\textsc{Parthenon} は法的問題のタスクにおける最先端のモデルとハーネスのパフォーマンスを大幅に向上させました。

原文 (English)

Parthenon Law: A Self-Evolving Legal-Agent Framework

As agents grow more capable, legal-domain LLM agents promise to turn document-heavy matters into reviewable work products -- yet reliable deployment faces three obstacles: no large-scale evidence on how today's strongest model-and-harness combinations behave on end-to-end legal matters; no agent architecture adapted to the legal vertical, only general-purpose harnesses; and, in a setting that keeps shifting with new facts, authorities, and deadlines, no mechanism for systems to learn from their own outcomes. We address each. A large-scale empirical study on Harvey LAB -- $12{,}510$ agent trajectories -- shows that even frontier agents remain far from completing matters in a single pass: per-criterion accuracy climbs with stronger models while strict matter completion stalls. We then introduce \textsc{Parthenon}, a self-evolving legal-agent framework that factors Model, Harness, Agent roles, legal Knowledge, deterministic Tools, and procedural Skills into auditable surfaces for source traceability, date and number grounding, deliverable compliance, and issue closure. Finally, an anti-leakage learning loop converts scored failures into task-agnostic edits to skills, tools, and knowledge, letting the system improve with experience -- as a firm refines its checklists and playbooks after each matter -- without touching model weights. Across our large-scale empirical analysis, \textsc{Parthenon} substantially improves the performance of state-of-the-art models and harnesses on legal-matter tasks.

13:00 JSTLLM/生成AI研究/論文

PSEBench: A Controllable and Verifiable Benchmark for Evaluating LLMs in Patient Safety Event Triage

Patient safety event triage, determining whether a clinical event is reportable under jurisdiction-specific policy, is a high-stakes task t…

13:00 JST研究/論文

角度ノルム分解によるアクティベーションステアリングの幾何学的説明

線形アクティベーション ステアリングは、言語モデルの動作を制御するためのシンプルかつ経験的に効果的な方法として人気を集めています。より最近では、付加的介入の制限に対処するために球面ステアリング パラダイムが提案されていますが、これは多くの場合、隠れ状態規範が概念に関連した情報を持たないという仮定によって動機づけられています。この研究では、角度成分と半径成分の役割を解きほぐすように設計された制御された実証的研究を通じて、この仮定を再検討します。ステアリング手法の主な違いは、概念の方向に対するトークンの角度配置の変更と、その隠れ状態ノルムの変更という 2 つの幾何学的効果をどのように組み合わせるかという点です。 7 つの言語モデルにわたって、概念は主に角度構造で表現され、球面手法の動機を裏付けることがわかりましたが、その規範はステアリングの安定性と下流効果にとって依然として重要です。私たちの結果は、同様の概念レベルの効果を持つ介入が異なる動作をする理由を説明し、活性化ステアリングは、これら 2 つの効果を絡み合わせる単一の加算係数ではなく、解釈可能な介入の角度成分と半径成分によってパラメーター化する必要があることを示唆しています。

原文 (English)

A Geometric Account of Activation Steering through Angle-Norm Decomposition

Linear activation steering has gained popularity as a simple and empirically effective way to control language model behavior. More recently, spherical steering paradigms have been proposed to address limitations of additive interventions, often motivated by the assumption that hidden-state norm does not carry concept-relevant information. In this work, we revisit this assumption through a controlled empirical study designed to disentangle the roles of angular and radial components. We show that steering methods differ mainly in how they couple two geometric effects: changing a token's angular alignment with a concept direction and changing its hidden-state norm. Across seven language models, we find that concepts are represented primarily in angular structure, supporting the motivation for spherical methods, but that norm remains important for the stability and downstream effects of steering. Our results explain why interventions with similar concept-level effects can behave differently, and suggest that activation steering should be parameterized by interpretable angular and radial components of the intervention, rather than by a single additive coefficient that entangles these two effects.

13:00 JSTエージェント

Baichuan-M4: 継続的なケアのための臨床グレードの医療エージェント システム

Baichuan-M4 は、Baichuan Intelligence の臨床グレードの医療用大型モデルで、一回限りの医療質問応答ではなく \emph{継続的なケア} のために設計されています。これは、3 つの柱を中心に調整された医療エージェント システムとして構築されています。\textbf{Baichuan-Harness} は、行動の制約、ツールの使用、長期の患者記憶、および複数のエージェントの調整を強制しながら、強化学習トレーニングと現実世界の展開の一貫性を保つ統合ランタイムです。 \textbf{コア推論モデル}は、スパンレベル報酬モデリング (SPAR++)、推論パス圧縮、カリキュラム学習、安定化された政策最適化を統合する継続的ケア強化学習フレームワークでトレーニングされています。 \textbf{臨床ツール層}は、患者の記憶管理、信頼できる証拠に基づく検索、文書、X線写真、皮膚科にわたるマルチモーダルな医学的認識を実現します。 Baichuan-M4 は、次元を超えた医療評価スイートで、静的な医学知識と安全性、動的な OSCE スタイルのコンサルテーション、ロングコンテキスト臨床記憶、証拠に基づく検索、医療文書 OCR、およびマルチモーダル画像理解において優れた結果を達成し、同時に幻覚率を 3.3% に低下させます。

原文 (English)

Baichuan-M4: A Clinical-Grade Medical Agent System for Continuous Care

Baichuan-M4 is Baichuan Intelligence's clinical-grade medical large model, designed for continuous care rather than single-turn medical question answering. It is built as a coordinated medical agent system around three pillars: Baichuan-Harness, a unified runtime that keeps reinforcement-learning training and real-world deployment consistent while enforcing action constraints, tool use, long-term patient memory, and multi-agent coordination; a core reasoning model trained with a continuous-care reinforcement-learning framework that integrates span-level reward modeling (SPAR++), reasoning-path compression, curriculum learning, and stabilized policy optimization; and a clinical tool layer for patient-memory management, authoritative evidence-based retrieval, and multimodal medical perception across documents, X-rays, and dermatology. On a cross-dimensional medical evaluation suite, Baichuan-M4 attains leading results in static medical knowledge and safety, dynamic OSCE-style consultation, long-context clinical memory, evidence-based retrieval, medical document OCR, and multimodal image understanding, while lowering the hallucination rate to 3.3%.

13:00 JST研究/論文

Graph2Idea:Retrieval-Augmented Scientific Idea Generation with Graph-Structured Contexts

Generating novel, feasible, and high-quality research ideas is an important yet challenging task in scientific discovery. Recent Large Lang…

13:00 JSTエージェント

Anything2Skill: Compiling External Knowledge into Reusable Skills for Agents

Retrieval-augmented generation (RAG) enables agents to access external knowledge at inference time, but it primarily retrieves fragmented d…

13:00 JSTLLM/生成AI

Emergent alignment and the projectability of ethical personas

Work on `emergent misalignment' shows that finetuning LLMs on narrow tasks can induce broadly misaligned behavior. This supports the `perso…

13:00 JSTLLM/生成AIエージェント研究/論文

Deterministic Integrity Gates for LLM-Assisted Clinical Manuscript Preparation: An Auditable Biomedical Informatics Architecture

As autonomous research agents and AI co-scientist systems push large language models (LLMs) from drafting toward end-to-end manuscript prod…

13:00 JSTビジネス/資金調達研究/論文

Evaluation Cards: An Interpretive Layer for AI Evaluation Reporting

AI evaluation results are produced at scale but reported inconsistently across leaderboards, model cards, benchmark papers, and company blo…

13:00 JSTエージェント

Robust Deep Reinforcement Learning Through Adversarial Attacks and Training : A Survey

Deep Reinforcement Learning (DRL) is a subfield of machine learning for training autonomous agents that take sequential actions across comp…

13:00 JST研究/論文

Mixtures of Neural Operators Reduce Active Complexity in Operator Learning

Operator-learning systems are not governed solely by total parameter count; for one query, the relevant bottleneck can be the model that mu…

13:00 JSTLLM/生成AIエージェントロボティクス

BadRobot: Jailbreaking Embodied LLM Agents in the Physical World

Embodied AI represents systems where AI is integrated into physical entities. Large Language Model (LLM), which exhibits powerful language…

13:00 JSTLLM/生成AI画像/動画生成ハードウェア/半導体ビジネス/資金調達

Conditional Vendi Score: Prompt-Aware Diversity Evaluation for Generative AI Models and LLMs

Generative models guided by text prompts are widely evaluated for fidelity and prompt alignment, yet their ability to produce outputs remai…

13:00 JST画像/動画生成

Visual-TCAV: Concept-based Attribution and Saliency Maps for Post-hoc Explainability in Image Classification

Convolutional Neural Networks (CNNs) have shown remarkable performance in image classification. However, interpreting their predictions is…

13:00 JSTLLM/生成AIGPT / ChatGPT

Whisper-GPT -- Continuous Discrete Hybrid Representation Language Models For Speech And Music

We propose WHISPER-GPT: A generative large language model (LLM) for speech and music that allows us to work with continuous audio represent…

13:00 JSTLLM/生成AI

Dynamics of Adversarial Attacks on Large Language Model-Based Search Engines

The increasing integration of Large Language Model (LLM) based search engines has transformed the landscape of information retrieval. Howev…

13:00 JST研究/論文

分子関係学習のための化学誘発適合による表現的調整

分子関係学習 (MRL) は、構造的特徴を抽出することで分子ペア間の関係を予測するために自然科学で広く応用されています。部分構造ペア間の表現上の類似性によって、分子結合部位の機能的互換性が決まります。それにもかかわらず、注意メカニズムによる部分構造表現の位置合わせには化学知識からのガイダンスが欠けており、その結果、化学空間 (\textit{e.g.}、官能基、足場) シフトされたデータにおけるモデルのパフォーマンスが不安定になります。理論的根拠に基づいて、MRL の安定性を高めるために、化学誘発 \textbf{Fit} を使用した \textbf{Re}プレゼンテーション \textbf{Align}ment (ReAlignFit) を提案します。 ReAlignFit は、化学的誘導フィットベースの誘導バイアスを導入することにより、MRL 内の部分構造表現を動的に位置合わせします。誘導プロセスでは、化学構造の変化(部分構造の動的組み合わせ)をシミュレートすることにより、部分構造ペア間の表現を揃えるために、部分構造エッジ再構成に基づいてバイアス補正関数を設計します。 ReAlignFit は、フィット プロセス中にサブグラフ情報ボトルネックをさらに統合して、高い化学機能互換性を示すサブ構造ペアを洗練および最適化し、それらを利用して分子埋め込みを生成します。 9 つのデータセットに関する実験結果は、ReAlignFit が 2 つのタスクで最先端のモデルを上回り、ルールシフトとスキャフォールドシフトの両方のデータ分布においてモデルの安定性が大幅に向上することを示しています。

原文 (English)

Representational Alignment with Chemical Induced Fit for Molecular Relational Learning

Molecular Relational Learning (MRL) is widely applied in natural sciences to predict relationships between molecular pairs by extracting structural features. The representational similarity between substructure pairs determines the functional compatibility of molecular binding sites. Nevertheless, aligning substructure representations by attention mechanisms lacks guidance from chemical knowledge, resulting in unstable model performance in chemical space (\textit{e.g.}, functional group, scaffold) shifted data. With theoretical justification, we propose the \textbf{Re}presentational \textbf{Align}ment with Chemical Induced \textbf{Fit} (ReAlignFit) to enhance the stability of MRL. ReAlignFit dynamically aligns substructure representation in MRL by introducing chemical Induced Fit-based inductive bias. In the induction process, we design the Bias Correction Function based on substructure edge reconstruction to align representations between substructure pairs by simulating chemical conformational changes (dynamic combination of substructures). ReAlignFit further integrates the Subgraph Information Bottleneck during fit process to refine and optimize substructure pairs exhibiting high chemical functional compatibility, leveraging them to generate molecular embeddings. Experimental results on nine datasets demonstrate that ReAlignFit outperforms state-of-the-art models in two tasks and significantly enhances model's stability in both rule-shifted and scaffold-shifted data distributions.

13:00 JST画像/動画生成

Deep Tree Tensor Networks

Originating in quantum physics, tensor networks (TNs) have been widely adopted as exponential machines and parametric decomposers for recog…

13:00 JST研究/論文

CITRAS: Covariate-Informed Transformer for Time Series Forecasting

In time series forecasting, covariates represent external factors that influence target variables. Some covariates are observable only in t…

13:00 JST画像/動画生成ロボティクス

NuWa: Deriving Lightweight Class-Specific Vision Transformers for Edge Devices

Vision Transformers (ViTs) often need to be compressed for deployment on resource-constrained edge devices like drones and smart vehicles.…

13:00 JSTエージェントロボティクス

A Survey of Robotic Navigation and Manipulation with Physics Simulators in the Era of Embodied AI

Navigation and manipulation are core capabilities in Embodied AI, but training agents to perform them directly in the real world is costly,…

13:00 JST画像/動画生成研究/論文

CleanPatrick: A Benchmark for Image Data Cleaning

Robust machine learning depends on clean data, yet current image data cleaning benchmarks rely on synthetic noise or narrow human studies,…

13:00 JSTLLM/生成AI

Attacks on Machine-Text Detectors Retain Stylistic Fingerprints

Despite considerable progress in the development of machine-text detectors, the ease with which machine-text can be manipulated to evade de…

13:00 JSTLLM/生成AIビジネス/資金調達研究/論文

ASyMOB: Algebraic Symbolic Mathematical Operations Benchmark

Large language models (LLMs) are increasingly applied to symbolic mathematics, yet existing evaluations often conflate pattern memorization…

13:00 JSTLLM/生成AIエージェント

Fact-Augmented Lookahead Planning for LLM Agents

Large Language Models (LLMs) are increasingly capable, but LLM agents still struggle to plan effectively in interactive, partially observab…

13:00 JSTLLM/生成AIGPT / ChatGPT

Quantifying Perception-Based Student Success with Generative AI: An Exploratory Monte Carlo Simulation

Generative artificial intelligence (GenAI) tools such as ChatGPT have attracted growing attention in higher education, particularly in rela…

13:00 JSTLLM/生成AIエージェントMicrosoft

TinyTroupe: An LLM-powered Multiagent Persona Simulation Toolkit

Recent advances in Large Language Models (LLM) have led to a new class of autonomous agents, renewing and expanding interest in the area. L…

13:00 JSTLLM/生成AILlamaQwen

GRID: Scaling Task-Agnostic Inference in Continual Prompt Tuning

Prompt-based continual learning (CL) offers a parameter-efficient way to adapt large language models (LLMs) across task sequences. However,…

13:00 JSTLLM/生成AI研究/論文

LLM-Aided Joint Secrecy Precoding and Trajectory for RSMA-Based Heterogeneous UAV Networks

This paper investigates secure communications in rate-splitting multiple access (RSMA) enabled heterogeneous UAV networks, where multiple U…

13:00 JST研究/論文

Assessment of Personality Dimensions Across Situations in Dyadic Role-Play Scenarios

Prior research indicates that users prefer assistive technologies whose personalities align with their own. This has sparked interest in au…

13:00 JST研究/論文

Whisfusion: Parallel ASR Decoding with Masked Diffusion

Autoregressive (AR) encoder-decoder models dominate high-quality multilingual ASR, but their left-to-right decoders make inference latency…

13:00 JST研究/論文

Generation Properties of Stochastic Interpolation under Finite Training Set

This paper investigates the theoretical behavior of generative models under finite training populations. Within the stochastic interpolatio…

13:00 JSTLLM/生成AI

TruthRL: Incentivizing Truthful LLMs via Reinforcement Learning

While large language models (LLMs) have demonstrated strong performance on factoid question answering, they are still prone to hallucinatio…

13:00 JST研究/論文

Deep Generative Model for Human Mobility Behavior

Understanding and modeling human mobility is central to challenges in transport planning, sustainable urban design, and public health. Desp…

13:00 JST研究/論文

Learning-Guided Integration Contours Construction for Fast Large-Scale Generalized Eigensolvers

Solving large-scale Generalized Eigenvalue Problems (GEPs) is a fundamental yet computationally prohibitive task in science and engineering…

13:00 JSTLLM/生成AI

Lost in Serialization: Invariance and Generalization of LLM Graph Reasoners

While promising, graph reasoners based on Large Language Models (LLMs) lack built-in invariance to symmetries in graph representations. Ope…

13:00 JST研究/論文

On the Condition Number Dependency in Bilevel Optimization

Bilevel optimization minimizes an objective function, defined by an upper-level problem whose feasible region is the solution of a lower-le…

13:00 JSTLLM/生成AI

When Distance Distracts: Representation Distance Bias in BT-Loss for Reward Models

Reward models are central to Large Language Model (LLM) alignment within the framework of RLHF. The standard objective used in reward model…

13:00 JSTロボティクス

Model-Based Diffusion Sampling for Predictive Control in Offline Decision Making

Offline decision-making via diffusion models often produces trajectories that are misaligned with system dynamics, limiting their reliabili…

13:00 JST画像/動画生成研究/論文

V-REX: Benchmarking Exploratory Visual Reasoning via Chain-of-Questions

While many vision-language models (VLMs) are developed to answer well-defined, straightforward questions with highly specified targets, as…

13:00 JST画像/動画生成

Scone: Bridging Composition and Distinction in Subject-Driven Image Generation via Unified Understanding-Generation Modeling

Subject-driven image generation has advanced from single- to multi-subject composition, while neglecting distinction, the ability to distin…

13:00 JST研究/論文

Model-Based Reinforcement Learning in Discrete-Action Non-Markovian Reward Decision Processes

Many practical decision-making problems involve tasks whose success depends on the entire system history, rather than on achieving a state…

13:00 JST研究/論文

SCOPE: Sequential Causal Optimization of Process Interventions

Prescriptive Process Monitoring (PresPM) recommends interventions during running business processes to optimize key performance indicators…

13:00 JST研究/論文

HiGR: Industrial-Scale Hierarchical Generative Slate Recommendation Framework in Tencent

Slate recommendation, which presents users with a ranked item list in a single display, is ubiquitous across mainstream online platforms. W…

13:00 JST画像/動画生成

MMD Guidance: Training-Free Distribution Adaptation for Diffusion Models via Maximum Mean Discrepancy Guidance

Pre-trained diffusion models have emerged as powerful generative priors for both unconditional and conditional sample generation, yet their…

13:00 JST研究/論文

torch-sla: Differentiable Sparse Linear Algebra with Adjoint Solvers and Sparse Tensor Parallelism for PyTorch

Differentiable sparse linear algebra is foundational for scientific machine learning, yet PyTorch lacks a unified library for it: torch.spa…

13:00 JST研究/論文

Adoption of Generative Artificial Intelligence in the German Software Engineering Industry: An Empirical Study

Generative artificial intelligence (GenAI) tools have seen rapid adoption among software developers. While adoption rates in the industry a…

13:00 JST研究/論文

Structure-Preserving Learning Improves Geometry Generalization in Neural PDEs

We aim to develop physics foundation models for science and engineering that provide real-time solutions to Partial Differential Equations…

13:00 JST研究/論文

MemCast: Memory-Driven Time Series Forecasting with Experience-Conditioned Reasoning

Time series forecasting (TSF) plays a critical role in decision-making for many real-world applications. Recently, large language model (LL…

13:00 JSTLLM/生成AIエージェント

ASA: Backbone-Training-Free Representation Engineering for Tool-Calling Agents

Adapting LLM agents to domain-specific tool calling remains notably brittle under evolving interfaces. Prompt and schema engineering is eas…

13:00 JST研究/論文

Capture Timing-Attention of Events in Clinical Time Series

The contemporary paradigm of trajectory learning operates fundamentally at the level of group dynamics, systematically reducing individual-…

13:00 JSTLLM/生成AIビジネス/資金調達研究/論文

RankLLM: Weighted Ranking of LLMs by Quantifying Question Difficulty

Benchmarks establish a standardized evaluation framework to systematically assess the performance of large language models (LLMs), facilita…

13:00 JST研究/論文

Exploring Accurate and Transparent Domain Adaptation in Predictive Healthcare via Concept-Grounded Orthogonal Inference

Deep learning models for clinical event prediction on electronic health records (EHR) often suffer performance degradation when deployed un…

13:00 JSTLLM/生成AI

DSL-Topic: 言語モデルからソフトラベルを抽出することによるトピックモデリングの改善

従来のニューラル トピック モデルは通常、ドキュメントの Bag-of-Words (BoW) 表現を再構築し、コンテキスト情報を無視し、データの疎性と格闘することによって最適化されます。この研究では、言語モデル (LM) からソフト ラベル (DSL) を抽出することによる、新しいトピック モデル トレーニング フレームワークを紹介します。コンテキストに富んだ再構築信号を構築するために、特殊なプロンプトを条件とした次のトークンの確率を事前定義された語彙に投影し、LM 隠れ状態を使用してソフト ラベルを再構築するようにトピック モデルをトレーニングします。これにより、コーパスの基礎となるテーマ構造とより密接に連携した、より質の高いトピックが生成されます。広範な実験により、DSL が既存のベースラインに比べてトピックの一貫性と割り当ての精度が大幅に向上することが実証されました。さらに、検索ベースの指標も導入します。これは、意味的に類似した文書の識別において、私たちのアプローチが既存の方法よりも大幅に優れていることを示し、検索指向のアプリケーションに対する有効性を強調しています。

原文 (English)

Improving Topic Modeling by Distilling Soft Labels from Language Models

Traditional neural topic models are typically optimized by reconstructing the document's Bag-of-Words (BoW) representations, overlooking contextual information and struggling with data sparsity. In this work, we introduce a novel topic model training framework by Distilling Soft Labels (DSL) from Language Models (LMs). To construct the contextually enriched reconstruction signals, we project the next token probabilities, conditioned on a specialized prompt, onto a pre-defined vocabulary, and train the topic models to reconstruct the soft labels using the LM hidden states. This produces higher-quality topics that are more closely aligned with the underlying thematic structure of the corpus. Extensive experiments demonstrate that DSL achieves substantial improvements in topic coherence and assignment accuracy over existing baselines. Additionally, we also introduce a retrieval-based metric, which shows that our approach significantly outperforms existing methods in identifying semantically similar documents, highlighting its effectiveness for retrieval-oriented applications.

13:00 JST研究/論文

GRAU: Generic Reconfigurable Activation Unit Design for Neural Network Hardware Accelerators

With the continuous growth of neural network scales, low-precision quantization is widely used in edge accelerators. Classic multi-threshol…

13:00 JSTエージェントロボティクス研究/論文

TaCarla: A comprehensive benchmarking dataset for end-to-end autonomous driving

Collecting a high-quality dataset is a critical task that demands meticulous attention to detail, as overlooking certain aspects can render…

13:00 JSTLLM/生成AI

MedFeat: Model-Aware and Explainability-Driven Feature Engineering with LLMs for Clinical Tabular Prediction

In clinical tabular prediction, classical machine learning models with feature engineering often outperform neural methods. LLMs are increa…

13:00 JST研究/論文OpenAIGoogleGemini

Quantifying Uncertainty in AI Visibility: A Statistical Framework for Generative Search Measurement

AI-powered answer engines are inherently non-deterministic: identical queries submitted at different times can produce different responses…

13:00 JSTLLM/生成AI研究/論文

FinTradeBench: A Financial Reasoning Benchmark for LLMs

Real-world financial decision-making is a challenging problem that requires reasoning over heterogeneous signals, including company fundame…

13:00 JSTLLM/生成AI

Reasoning over Semantic IDs Enhances Generative Recommendation

Recent advances in generative recommendation have leveraged pretrained LLMs by formulating sequential recommendation as autoregressive gene…

13:00 JSTLLM/生成AIGemini

The Model Says Walk: How Surface Heuristics Override Implicit Constraints in LLM Reasoning

Large language models fail when a salient surface cue conflicts with an unstated feasibility constraint. We introduce the Heuristic Overrid…

13:00 JSTハードウェア/半導体

Trust and Reliance on AI in Education: AI Literacy and Need for Cognition as Moderators

As generative AI systems are integrated into educational settings, students often encounter AI-generated output while working through learn…

13:00 JSTLLM/生成AI研究/論文

SAFE: An LLM-as-Verifier Framework for Evidence-Grounded Multi-Hop Reasoning

Multi-hop QA benchmarks often reward Large Language Models (LLMs) for spurious correctness, where models reach correct answers through inva…

13:00 JSTエージェント

Prosociality by Coupling, Not Mere Observation: Homeostatic Sharing in an Inspectable Recurrent Artificial Life Agent

Artificial agents can be made to ``help'' through explicit social rewards, hard-coded prosocial bonuses, or direct access to another agent'…

13:00 JSTエージェント

GCA Framework: A GCC Countries-Grounded Dataset and Agentic Pipeline for Climate Decision Support

Climate decision-making in the GCC states increasingly demands systems that can translate heterogeneous scientific and policy evidence into…

13:00 JSTLLM/生成AI

Generating Concept Lexicalizations via Dictionary-Based Cross-Lingual Sense Projection

We study the task of automatically expanding WordNet-style lexical resources to new languages through sense generation. We generate senses…

13:00 JST研究/論文

Beyond Single-Model Optimization: Preserving Plasticity in Continual Reinforcement Learning

Continual reinforcement learning must balance retention with adaptation, yet many methods still rely on \emph{single-model preservation}, c…

13:00 JSTLLM/生成AI

Learning Evidence Highlighting for Frozen LLMs

Large Language Models (LLMs) can reason well, yet often miss decisive evidence when it is buried in long, noisy contexts. We introduce HiLi…

13:00 JST研究/論文

People-Centred Medical Image Analysis via Fairness-Aware Human-AI Cooperation

Machine learning models for medical image analysis often exhibit subgroup-dependent performance, which impacts how decisions should be allo…

13:00 JSTLLM/生成AIGPT / ChatGPTGemini

RAG over Thinking Traces Can Improve Reasoning Tasks

Retrieval-augmented generation (RAG) has proven effective for knowledge-intensive tasks, but is widely believed to offer limited benefit fo…

13:00 JST研究/論文DeepSeek

Communication Dynamics Neural Networks: FFT-Diagonalized Layers for Improved Hessian Conditioning at Reduced Parameter Count

Communication Dynamics Neural Networks (CDNNs) apply the circulant-spectral machinery of the Communication Dynamics framework to neural-net…

13:00 JSTLLM/生成AIハードウェア/半導体NVIDIA

From Detection to Recovery: Operational Analysis on LLM Pre-training with 504 GPUs

Large-scale AI training is fundamentally a distributed systems problem, where hardware failures are routine operating conditions rather tha…

13:00 JSTLLM/生成AI

A Theory of Training Profit-Optimal LLMs

Scaling LLMs requires tremendous computational resources, and recent advances in AI have gone hand in hand with massive amounts of capital…

13:00 JSTLLM/生成AIエージェント

From Volume to Value: Preference-Aligned Memory Construction for On-Device RAG

With the rapid emergence of personal AI agents based on Large Language Models (LLMs), implementing them on-device has become essential for…

13:00 JST画像/動画生成

Rotation-Invariant Spherical Watermarking via Third-Order SO(3) Representation Coupling

Reliable watermarking of panoramic imagery is fundamentally challenged by arbitrary 3D rotations. As panoramas are defined on the sphere, t…

13:00 JST研究/論文

Falcon-X: A Time Series Foundation Model for Heterogeneous Multivariate Modeling

Time series foundation models (TSFMs) are transforming the forecasting paradigm through large-scale cross-domain pretraining. However, most…

13:00 JSTLLM/生成AIビジネス/資金調達研究/論文GPT / ChatGPT

Does Capability Transfer to Subjective Behavior -- and Would Our Instruments Tell Us? A Self-Evolving, Trust-by-Construction Evaluation Paradigm

Benchmarking is mature where answers are verifiable -- math, code, reasoning -- but the fastest-growing uses of LLMs are subjective and hum…

13:00 JST研究/論文

On the Learnability of Test-Time Adaptation: A Recovery Complexity Perspective

Test-time adaptation (TTA) aims to adapt models to maintain reliable performance on non-stationary test streams without requiring labeled d…

13:00 JSTLLM/生成AI

PromptEmbedder: Efficient and Transferable Text Embedding via Dual-LLM Soft Prompting

Large Language Models (LLMs) have demonstrated remarkable efficacy in text embedding, yet current adaptation methods like LoRA face signifi…

13:00 JST画像/動画生成

人工ニューラルネットワークにおける標準ニューロンモデルの更新

1950 年代の創設以来、人工ニューラル ネットワーク (ANN) は、このアナロジーにより脳機能のより良いエミュレーションが可能になることを期待して、当時神経科学で普及していたいわゆるポイント ニューロン モデルを使用し始めました。長年にわたり、神経科学の文献は、点ニューロン モデルは単純すぎて、多くの基本的な神経プロセスを適切に表現できないことを示してきました。ただし、ANN の標準ニューロン モデルは依然として同じままです。今回我々は、これを皮質細胞のごく最近のモデルに置き換え、パラメータの数を増やさずに、より現実的な神経ユニット要素を使用するだけで、結果として得られるANNが、表現力、堅牢性、学習速度の向上、必要な記憶量とトレーニングデータ量の削減など、多くの重要な利点を提供することを、理論分析と実験結果を通じて実証します。

原文 (English)

Updating the standard neuron model in artificial neural networks

From their inception in the 1950s, artificial neural networks (ANNs) started using the so-called point neuron model then prevalent in neuroscience, hoping that this analogy would allow for a better emulation of brain function. Over the years the neuroscience literature has shown that the point neuron model is too simplistic to properly represent many fundamental neural processes; however, the standard neuron model in ANNs still remains the same. Here we substitute it by a very recent model of cortical cells and demonstrate through theoretical analyses and experimental results how, simply by using a more realistic neural unit element without augmenting the number of parameters, the resulting ANNs offer a number of important advantages that include increases in expressivity, robustness and learning speed, and a reduction in memorization and the amount of training data needed.

13:00 JST研究/論文

Beyond Tool Adoption: A Practical Five-Stage Developmental Continuum for AI Literacy in Higher Education

Artificial intelligence (AI) literacy is increasingly recognized as a foundational competency for all university graduates. Yet students' e…

13:00 JST研究/論文

Variational Learning for Insertion-based Generation

Non-monotonic sequence generation methods, such as masked diffusion models, provide a flexible alternative to left-to-right autoregressive…

13:00 JST研究/論文

When Do Attention Circuits Form? Developmental Trajectories of Capability and Attention-Sink Emergence Across Three 1B-ClassArchitectures

We track the developmental trajectory of attention-head circuit formation across three 1B-class language models spanning two architecture f…

13:00 JST研究/論文

Optimizing Explicit Unit-Distance Lower-Bound Certificates

The 2026 disproof of Erd\H{o}s's unit-distance conjecture and Sawin's quantitative refinement show that the maximum number $u(n)$ of unit d…

13:00 JST研究/論文

LiveBand: Live Accompaniment Generation in the Audio Domain

We present LiveBand, a real-time system that generates high-fidelity music accompaniments to live audio input, respecting strict causal con…

13:00 JSTエージェントロボティクスGPT / ChatGPT

AgenticRL: Self-Refining Agentic Reinforcement Learning for Vision-Conditioned UAV Navigation

Deep reinforcement learning has shown strong potential for enabling autonomous robots to learn complex navigational tasks. However, its pra…

13:00 JSTロボティクス

CoRe-MoE: 歩行適応を備えた複数地形ヒューマノイド移動のための専門家の対照的な再重み付け混合

人間は主に、不必要に複雑な動作パターンに頼ることなく、複雑な地形を横断するために歩いたり走ったりすることに頼っています。同様に、人型ロボットは、自然で安定した移動を維持しながら、歩行と走行の間のスムーズな移行を達成する必要があります。ただし、単一のポリシー内で歩行遷移と複数の地形への適応を統合することは、勾配の干渉と、地形に依存する視覚的および動的変化によって引き起こされる分布のシフトのため、依然として困難です。専門家混合 (MoE) アーキテクチャは複数のスキルの干渉を軽減できますが、単純な共同トレーニングでは明確な専門知識が得られないことが多く、効果が制限されます。これらの課題に対処するために、私たちは地形適応から歩行生成を切り離す 2 段階の強化学習フレームワークである CoRe-MoE を提案します。第 1 段階では、スムーズな移行で自然な歩行と走行の動作を生成するための安定した移動ポリシーが学習されます。第 2 段階では、地形認識 MoE ブランチが導入され、ゲーティング ネットワークを形成するという対照的な目的でトレーニングされ、構造化された地形表現をキャプチャして専門家の専門化を促進できるようになります。最終的なアクションは、基本歩行ポリシーと地形認識ブランチの重み付けされた融合によって取得され、ポリシーが複雑な地形に適応しながら安定した移動パターンを維持できるようにします。広範なシミュレーション結果は、提案された方法が成功率、移動の安定性、および複数の地形への適応性の点でベースラインのアプローチよりも優れていることを示しています。さらに、Unitree G1 ヒューマノイド ロボットへのゼロショット展開により、当社のフレームワークの有効性が検証され、外乱下でも正確な足場の配置と動的安定性を維持しながら、階段、坂道、段差、障害物、屋外の構造化されていない地形での堅牢な歩行と走行が実現されます。

原文 (English)

CoRe-MoE: Contrastive Reweighted Mixture of Experts for Multi-Terrain Humanoid Locomotion with Gait Adaptation

Humans primarily rely on walking and running to traverse complex terrains. Similarly, humanoid robots should be able to smoothly transition between walking and running while maintaining natural and stable locomotion. However, unifying gait transition and multi-terrain adaptation within a single policy remains challenging due to gradient interference between tasks and the distribution shift caused by terrain variations. Although Mixture-of-Experts (MoE) architectures can mitigate multi-skill interference, direct joint training often fails to achieve clear expert specialization. To address these challenges, we propose CoRe-MoE, a two-stage reinforcement learning framework that decouples gait generation from terrain adaptation. In the first stage, a stable locomotion policy is learned to produce natural walking and running behaviors with smooth transitions. In the second stage, a terrain-aware MoE branch is introduced, and the gating network is trained with a contrastive objective to learn structured terrain representations and promote expert specialization. The final action is obtained through weighted fusion of the base gait policy and the terrain-aware branch, enabling the policy to preserve stable locomotion while adapting to complex terrains. Extensive simulation results demonstrate that the proposed method outperforms baseline approaches in terms of success rate, locomotion stability, and multi-terrain adaptability. Furthermore, zero-shot deployment on a Unitree G1 humanoid robot validates the effectiveness of our framework, achieving robust walking and running across stairs, slopes, steps, obstacles, and unstructured outdoor terrains while maintaining accurate foothold control and dynamic stability.

13:00 JSTハードウェア/半導体Qwen

OPRD: On-Policy Representation Distillation

On-policy distillation (OPD) supervises the student only in output space by matching next-token probabilities. This output-only paradigm ha…

13:00 JSTエージェントロボティクス

HANDOFF: Humanoid Agentic Task-Space Whole-Body Control via Distilled Complementary Teachers

For a humanoid robot to be deployed in the real world, the choice of command space (i.e., the interface between task planning and whole-bod…

13:00 JSTLLM/生成AI

The Masked Advantage: Uncovering Local-Language Access to Cultural Knowledge in LLMs

Large language models are increasingly used to answer culturally grounded questions across languages, yet it remains unclear whether local…

13:00 JSTLLM/生成AIビジネス/資金調達

Durable Evaluation Framework: Adversarial Arbitration for Sycophancy Reduction in Large Language Models

RLHF-trained models are systematically biased toward agreement over accuracy, a structural property of the training process. We present Dur…

13:00 JSTLLM/生成AIエージェントLlama

From Human Guidance to Autonomy: Agent Skill System for End-to-End LLM Deployment on Spatial NPUs

Spatial neural processing units (NPUs) provide an energy-efficient platform for edge LLM inference, but efficiently deploying an LLM end-to…

13:00 JST研究/論文

SRT: Super-Resolution for Time Series via Disentangled Rectified Flow

Fine-grained time series data with high temporal resolution is critical for accurate analytics across a wide range of applications. However…

13:00 JSTLLM/生成AIビジネス/資金調達

Illusions of the Gold Standard: A Large-scale Analysis of Human Evaluation Protocols for Long-form Text Generation

Human evaluation plays a critical role in assessing the quality of generated text. However, the reliability and reproducibility of these ev…

13:00 JSTLLM/生成AIビジネス/資金調達

Enhancing AI Interpretability and Safety through Localised Architectures

Recent advances in generative AI, especially powerful Large Language Models (LLMs) and Large Reasoning Models (LRMs), raise concerns over t…

13:00 JST研究/論文

Contemporary AI lacks the imagination to diverge or negate in science

Bold projections that artificial intelligence will accelerate scientific discovery have raced ahead of evidence from working scientists, an…

13:00 JSTLLM/生成AI画像/動画生成

BioVid: Autoregressive Video Generation with Biological Behavior Semantic Comprehension

Existing video generation frameworks treat sequence duration as an externally prescribed parameter -- fixed frame counts or text prompts --…

13:00 JSTLLM/生成AIハードウェア/半導体DeepSeek

FlashMemory-DeepSeek-V4: Lightning Index Ultra-Long Context via Lookahead Sparse Attention

Conventional LLMs keep the full KV cache loaded during decoding, causing a severe GPU memory bottleneck for ultra-long context serving. In…

13:00 JST研究/論文

Scaling Neural Network Verification with Tensor Parallelism and Fully Sharded Data Parallelism

Formal neural network verification -- proving that a network satisfies safety properties for *all* inputs in a specified domain -- is bound…

13:00 JST研究/論文

MeCo: One-Step MeanFlow-based Corrector for Multi-Channel Speech Separation

While discriminative models for multi-channel speech separation excel in reference-based metrics, they often exhibit suboptimal human liste…