Mistral AI
2026年5月
Less is Enough: Synthesizing Diverse Data in LLM Feature Space with Sparse Autoencoders
The diversity of post-training data is critical for effective downstream performance in large language models (LLMs). Many existing approac…
Hurwitz Quaternion Multiplicative Quantization for KV Cache Compression
We propose \textbf{Hurwitz Quaternion Multiplicative Quantization (HQMQ)}, a \textbf{calibration-free} method for KV cache compression of l…
Probing for Knowledge Attribution in Large Language Models
Large language model (LLM) hallucinations, meaning fluent but factually incorrect generations, fall into two types: faithfulness violations…
圧縮知識グラフ仮説: 科学的仮説の生成に重要なグラフの事実はどれですか?
ナレッジ グラフ (KG) は、言語モデルに構造化された科学的コンテキストを提供できますが、生成された仮説を実際に形成するグラフの事実は依然として不明です。私たちは、Mistral-7B、Llama-3.1-70B、および Gemini 2.5 Flash にわたるバッテリー材料に関する KG ガイドに基づく仮説生成を研究します。密度、オントロジーの豊富さ、トポロジー、制御構造を変化させることでローカル KG に摂動を与え、提供されたグラフと固定参照メトリックの両方で出力を評価します。モデル全体にわたって、KG ユーティリティは選択的でモデルに依存します。グラフのコンテキストによって出力が変更されますが、KG 出力がない場合でも、モデルの以前からかなりのグラフ コンテンツが復元されます。コンパクトな上位 k サブグラフは、主張された結果トリプルが保持される場合を含め、フル KG の動作に近似することがよくあります。同時に、圧縮は 1 つのセマンティック ランキング ルールに固有のものではなく、ランダムなトポロジ ベースのサブセットでも信号の大部分を回復できます。これらの結果は、冗長性を意識した圧縮 KG 仮説を裏付けています。有用な KG 信号は、完全なローカル グラフを必要とするのではなく、コンパクトで科学的に構造化されたサブグラフから回復できることがよくあります。
原文 (English)
The Compressive Knowledge Graph Hypothesis: Which Graph Facts Matter for Scientific Hypothesis Generation?
Knowledge graphs (KGs) can provide structured scientific context to language models, but it remains unclear which graph facts actually shape the generated hypotheses. We study KG-guided hypothesis generation for battery materials across Mistral-7B, Llama-3.1-70B, and Gemini 2.5 Flash. We perturb local KGs by varying density, ontology richness, topology, and control structure, and evaluate outputs with both provided-graph and fixed-reference metrics. Across models, KG utility is selective and model-dependent: graph context changes outputs, but no-KG outputs also recover substantial graph content from model priors. Compact top-k subgraphs often approximate full-KG behavior, including when claimed-outcome triples are held out. At the same time, compression is not unique to one semantic ranking rule, random and topology-based subsets can also recover much of the signal. These results support a redundancy-aware Compressive KG hypothesis: useful KG signal is often recoverable from compact, scientifically structured subgraphs rather than requiring the full local graph.
Faithfulness Evaluation for Decoder-only LLM Attributions with Controlled Retained Information
Large Language Models (LLMs) are increasingly evaluated with input attribution methods, yet comparing such explanations remains challenging…
Tracing the Dynamics of Refusal: Exploiting Latent Refusal Trajectories for Robust Jailbreak Detection
Representation Engineering analyses often characterize refusal using static directions extracted from terminal or pooled representations. W…
BODHI: 正確な OS カーネル仕様の推論
オペレーティング システム カーネルの正式な検証には、システム コールの意図された動作を捕捉する正確な仕様が必要です。これらの仕様を手動で記述するには、ドメインに関する深い専門知識が必要となるため、プロセスを自動化するために大規模言語モデル (LLM) の使用が促進されます。ただし、Hyperkernel OS カーネルから派生した 245 の仕様生成タスクのベンチマークである OSV-Bench では、最も良いと報告された Pass@1 は 55.10% です。我々は、ドメイン知識プロンプト手法 (BODHI) を提案します。これは、ドメイン固有の翻訳パターンの 15 カテゴリーをカバーする構造化された C から Python への翻訳ガイドで、標準的な数ショット プロンプトを強化します。このガイドは構造化思考連鎖 (SCoT) プロンプトに触発されており、懸念事項の分離によって翻訳を整理し、事前条件の抽出と事後条件の生成を別個のカテゴリとして扱います。 6 つのプロバイダー (Anthropic、Mistral、Amazon、DeepSeek、Meta、Alibaba) の 9 つのモデルで評価され、高密度で専門家が混在した推論アーキテクチャをカバーする BODHI は、テストされたすべてのモデルを +11% ~ +32% の範囲で改善します。最良の構成 (Claude Opus 4.6 + BODHI) では、96.73% Pass@1 に達します。 BODHI は構文エラーと意味論的エラーの両方を削減し、構造化参照資料を利用するための十分な命令追従機能を持つモデルに最も大きな効果をもたらします。これらの結果は、ドメイン知識注入が、汎用コード生成と形式仕様合成の間のギャップを実質的に埋めるモデルに依存しない手法であることを示しています。
原文 (English)
BODHI: Precise OS Kernel Specification Inference
The formal verification of operating system kernels requires precise specifications that capture the intended behavior of system calls. Writing these specifications manually demands deep domain expertise, motivating the use of large language models (LLMs) to automate the process. However, in OSV-Bench, a benchmark of 245 specification generation tasks derived from the Hyperkernel OS kernel, the best reported Pass@1 is 55.10%. We propose a domain knowledge prompting method (BODHI), which augments the standard few-shot prompt with a structured C-to-Python translation guide covering 15 categories of domain-specific translation patterns. Inspired by Structured Chain-of-Thought (SCoT) prompting, the guide organizes translation by separation of concerns, addressing pre-condition extraction and post-condition generation as distinct categories. Evaluated on nine models from six providers (Anthropic, Mistral, Amazon, DeepSeek, Meta, Alibaba), covering dense, mixture-of-experts and reasoning architectures, BODHI improves every model tested, with gains ranging from +11% to +32%. The best configuration (Claude Opus 4.6 + BODHI) reaches 96.73% Pass@1. BODHI reduces both syntax and semantic errors, with the strongest effect on models that have sufficient instruction-following capability to utilize structured reference material. These results demonstrate that domain knowledge injection is a model-agnostic technique that substantially bridges the gap between general-purpose code generation and formal specification synthesis.
PALoRA: 大規模言語モデルで推論を保持するための射影適応型 LoRA
新しい、または進化する事実の知識で大規模言語モデル (LLM) を効率的に更新することは、依然として中心的な課題です。パラメータ効率の高い適応でさえ、以前に獲得した推論能力を損なう可能性があるからです。この緊張は、可塑性と安定性のジレンマを反映しています。モデルには、スキルが重要な表現を維持しながら、新しい知識を組み込む必要があります。この研究では、多層パーセプトロン重み行列のスペクトル構造を通じてこのトレードオフを研究します。我々は理論的にも経験的にも、推論に不可欠な情報が支配的な特異方向のみに局在しているのではなく、特異スペクトル全体に分布していることを示します。この観察を動機として、干渉を軽減した知識注入のための 2 段階のフレームワークである PALoRA を紹介します。 PALoRA はまず、推論データセットで特異値微調整 (SVF) エキスパートをトレーニングし、学習した特異スケーリング ベクトルを凍結幾何学プローブとして使用して、ターゲット スキルにとって重要なコンポーネントを特定します。次に、構造的直交性制約の下で低ランク適応 (LoRA) を使用して事実知識の注入を実行し、特定されたスキル関連部分空間を更新が確実に回避できるようにします。 Llama 3.1 8B と Mistral 7B、および数学的、コーディング、科学的推論ベンチマーク全体にわたって、PALoRA は競争力のある事実再現を維持しながら、SVF エキスパートの推論パフォーマンスの平均 95% を維持します。これにより、追加されるパラメーターのオーバーヘッドが 0.006% 未満になりながら、以前のスペクトル パラメーター効率の良い微調整 (PEFT) メソッドよりもスキル保持率が一貫して向上します。
原文 (English)
PALoRA: Projection-Adaptive LoRA for Preserving Reasoning in Large Language Models
Efficiently updating Large Language Models (LLMs) with new or evolving factual knowledge remains a central challenge, as even parameter-efficient adaptation can erode previously acquired reasoning abilities. This tension reflects a plasticity-stability dilemma: models must incorporate new knowledge while preserving skill-critical representations. In this work, we study this trade-off through the spectral structure of multilayer perceptron weight matrices. We show, both theoretically and empirically, that information essential for reasoning is not localized only in dominant singular directions, but is instead distributed across the singular spectrum. Motivated by this observation, we introduce PALoRA, a two-stage framework for knowledge injection with reduced interference. PALoRA first trains a Singular Value Fine-Tuning (SVF) expert on a reasoning dataset and uses its learned singular scaling vector as a frozen geometric probe to identify components that are critical for the target skill. It then performs factual knowledge injection with Low-Rank Adaptation (LoRA) under a structural orthogonality constraint, ensuring that updates avoid the identified skill-relevant subspace. Across Llama 3.1 8B and Mistral 7B, and across mathematical, coding, and scientific reasoning benchmarks, PALoRA preserves on average 95% of the SVF expert's reasoning performance while maintaining competitive factual recall. It consistently improves skill retention over prior spectral Parameter-Efficient Fine-Tuning (PEFT) methods while adding less than 0.006% parameter overhead.
ウクライナ法文書における基礎モデルのトークナイザーの多産性とゼロショットのパフォーマンス: 比較研究
トークナイザーの充実度は、ウクライナの法律文書の基礎モデル間で 1.6 倍異なりますが、このコスト重視の側面はモデル選択の実践には欠けています。私たちは、ウクライナの国家登録簿 (EDRSR) からの 273 件の検証済み裁判所判決に基づいて 5 つのプロバイダーの 7 つのモデルをベンチマークし、3 つのタスクでトークナイザーの可能性とゼロショット パフォーマンスを測定しました。 4 つの発見が得られます。 (1) Qwen 3 モデルは、同一の入力で Llama ファミリ モデルよりも 60% 多くのトークンを消費するため、コスト効率の高い導入にはトークナイザー分析が前提条件となります。 (2) NVIDIA Nemotron Super 3 (120B) は最高の複合スコア (83.1) を達成し、API コスト モデル スケールの 3 分の 1 で Mistral Large 3 (合計パラメータの 5.6 倍) を上回りますが、ドメイン パフォーマンスの代理としては不十分です。 (3) ショット数が少ないと、パフォーマンスが最大 26 パーセント低下します。層別および即時感受性アブレーションにより、これがサンプルの選択による産物ではなく、ウクライナ語のデモンストレーションに固有のものであることが確認されました。 (4) 時間横断的な一般化実験により、戦前の裁判判決 (2008 年から 2013 年) で訓練された分類子は、本格的な侵略時代の判決 (2022 年から 2026 年) に適用すると、顕著な前後非対称性を伴って 27.9 パーセント ポイント低下することが明らかになりました。新しいモデルは後方に移行します (前方移行よりも +14.6 pp) が、古いモデルは戦時中の法律用語で壊滅的に失敗します。実践者向け: トークナイザー分析はモデルの選択に先行する必要があり、形態素豊かな言語ではゼロショットの方が少数ショットよりも信頼性の高いデフォルトです。再現性をサポートし、法的 NLP ベンチマークにウクライナ人が含まれていないことに対処するために、私たちは、2008 年から 2026 年までの 14,452 件の裁判所判決の公開データセットを公開します。このデータセットには、司法手続きに対する武力紛争の影響を捉える 3 つの時間的エポックにわたる 7 つの結果ラベルが注釈されています。
原文 (English)
Tokenizer Fertility and Zero-Shot Performance of Foundation Models on Ukrainian Legal Text: A Comparative Study
Tokenizer fertility varies 1.6x across foundation models on Ukrainian legal text, yet this cost-critical dimension is absent from model selection practice. We benchmark seven models from five providers on 273 validated court decisions from Ukraine's state registry (EDRSR), measuring tokenizer fertility and zero-shot performance on three tasks. Four findings emerge. (1) Qwen 3 models consume 60% more tokens than Llama-family models on identical input, making tokenizer analysis a prerequisite for cost-efficient deployment. (2) NVIDIA Nemotron Super 3 (120B) achieves the highest composite score (83.1), outperforming Mistral Large 3 (5.6x more total parameters) at one-third the API cost model scale is a poor proxy for domain performance. (3) Few-shot prompting degrades performance by up to 26 percentage points; stratified and prompt-sensitivity ablations confirm this is intrinsic to Ukrainian-language demonstrations, not an artifact of example selection. (4) A cross-temporal generalization experiment reveals that classifiers trained on pre-war court ecisions (2008-2013) lose 27.9 percentage points when applied to full-scale invasion era decisions (2022-2026), with a pronounced forward-backward asymmetry: newer models transfer backward (+14.6 pp above forward transfer), but older models fail catastrophically on wartime legal language. For practitioners: tokenizer analysis should precede model selection, and zero-shot is a more reliable default than few-shot for morphologically rich languages. To support reproducibility and address the absence of Ukrainian from legal NLP benchmarks, we release a public dataset of 14,452 court decisions spanning 2008-2026, annotated with seven outcome labels across three temporal epochs that capture the impact of armed conflict on judicial proceedings.
Who judges the judges? Governance from metrics: a runtime framework for continuous LLM compliance monitoring
Current approaches to AI compliance treat conformity as a binary, audit-time verdict rather than a continuous, measurable property of produ…
IndexMem: Learned KV-Cache Eviction with Latent Memory for Long-Context LLM Inference
Large Language Models (LLMs) are increasingly expected to operate over long contexts, yet standard softmax attention incurs a KV cache that…
文化進化としてのモデル崩壊
モデルの崩壊、つまり独自の出力でトレーニングされた LLM の進行性の劣化は統計的に特徴付けられていますが、どの構造がどのような順序で、そしてなぜ劣化するのかについての言語的な説明が不足しています。私たちは、文化進化に基づく反復学習理論がこのギャップを埋めることを示します。私たちは 5 つの反証可能な予測を導き出し、理論を独自に識別する予測と確証的な予測を区別し、英語、ドイツ語、トルコ語で 10 世代にわたって LLaMA-2-7B とミストラル-7B を自己訓練することによってそれらをテストします。重要な識別的発見: フィルタリングされていない自己訓練下では、構成性は非単調な軌道 (最初は上昇し、その後下降) をたどります。この署名は、最大限規則的なシード データ (ノイズ除去を除外) で持続し、ランダム フィルターではなくタスクに基づいたフィルターによってのみ維持され、圧縮と通信のトレードオフに関する最初の LLM スケールの証拠を提供します。すべての予測は大きな効果量 (Hedges の $g > 1.6$; $\mathrm{BF}_{10} > 100$) で確認され、LLM 正則化勾配は人間の行動データ ($R^2 = 0.94$) とよく一致します。これらの結果は、モデルの崩壊を文化伝達現象として再構成し、自己学習パイプライン設計の具体的な原則を導き出します。
原文 (English)
Model Collapse as Cultural Evolution
Model collapse, the progressive degradation of LLMs trained on their own outputs, has been characterized statistically but lacks a linguistic explanation for which structures degrade, in what order, and why. We show that iterated learning theory from cultural evolution fills this gap. We derive five falsifiable predictions, distinguish those uniquely discriminative for the theory from confirmatory ones, and test them by self-training LLaMA-2-7B and Mistral-7B over 10 generations in English, German, and Turkish. The critical discriminative finding: compositionality follows a non-monotonic trajectory (initially rising, then falling) under unfiltered self-training. This signature persists with maximally regular seed data (ruling out noise removal) and is sustained only by task-grounded filtering, not random filtering, providing the first LLM-scale evidence for the compression-communication tradeoff. All predictions are confirmed with large effect sizes (Hedges' $g > 1.6$; $\mathrm{BF}_{10} > 100$), and LLM regularization gradients closely match human behavioral data ($R^2 = 0.94$). These results reframe model collapse as a cultural transmission phenomenon and yield concrete principles for self-training pipeline design.
問題はデータではなく人間です: LLM の地政学的バイアスはトレーニング後に発生し、プロンプトの言語によって増幅されます
一般に、言語モデルにおける地政学的な偏りは、事前トレーニング段階で使用されたトレーニング データに由来すると考えられてきました。私たちは、7 つのラボからのベース モデル (トレーニング前のみ) とチャット モデル (トレーニング前およびトレーニング後) で構成される 7 つのオープンウェイト LLM ペアを、英語、フランス語、中国語の 28 か国ペアにわたるペア シナリオ強制選択プローブでテストしました。その結果、地政学的なバイアスがトレーニング前ではなくトレーニング後に発生していることがわかりました。 7 つの AI ラボのうち、6 つでは、トレーニング後にモデル開発者の国または地域に関連する方向への変化が見られました。この変化はアリババの Qwen 2.5 で最も強くなります。ベースは中国好感度に関しては中立 (-0.15 対数オッズ、p=0.15) ですが、トレーニング後のチャットのバリアントは +2.91 (p<10^-4) で、オッズが 18 倍変化しています。また、すべてのモデルにおいて、他国に対する偏見の変化も観察されています。さらに、このシフトの大きさは、モデルのプロンプトに使用される言語によって異なります。フランス製のミストラルは、フランス語のプロンプトの下でのみ親フランスになります (FR-EN シフト +1.91、p<10^-4)。これらの発見は、言語モデルにおける地政学的選好が単に大規模なインターネット データから継承されるだけでなく、トレーニング後のトレーニング中に積極的に形成されることを示唆しており、モデルが国家、文化、政治的観点をどのように表現するかに影響を与える調整プロセスの透明性の向上、監査、監視の必要性を浮き彫りにしています。
原文 (English)
It's the humans, not the data: Geopolitical bias in LLMs originates in post-training, amplified by the language of the prompt
It has generally been assumed that geopolitical bias in language models originates from the training data used during the pre-training phase. We tested seven open-weight LLM pairs consisting of the base model (pre-training only) and the chat model (pre-training and post-training) from seven labs on a paired-scenario forced-choice probe over 28 country pairs in English, French, and Chinese, and found that geopolitical bias originates in post-training rather than in pre-training. Across seven AI labs, six showed shifts in the direction associated with the country or region of the model developer after post-training. This shift is strongest in Alibaba's Qwen 2.5: while the base is neutral on China-favourability (-0.15 log-odds, p=0.15), the post-trained chat variant is at +2.91 (p<10^-4), an 18x shift in odds. We also observe shifts in biases toward other countries across all models. Additionally, the magnitude of this shift depends on the language used to prompt the model: the French-made Mistral becomes pro-France only under French prompting (FR-EN shift +1.91, p<10^-4). These findings suggest that geopolitical preferences in language models are not simply inherited from large-scale internet data but are actively shaped during post-training, highlighting the need for greater transparency, auditing, and oversight of alignment processes that influence how models represent nations, cultures, and political perspectives.