Llama
2026年5月
潜在推論を備えた堅牢で効率的なガードレール
大規模言語モデル (LLM) が現実世界のアプリケーションに導入されることが増えているため、その安全性を維持することが重要です。既存の安全ガードレールは通常、シングルパス分類、または最近では蒸留された推論に依存しています。推論ベースのガードレールは、分類のみのベースラインよりも大幅にパフォーマンスが優れていますが、クエリの遅延とトークンのオーバーヘッドが大幅に発生するため、高スループットの展開には非現実的です。この課題に対処するために、段階別のトレーニング カリキュラムを通じて複数ステップの安全推論を連続的な潜在空間に転送し、推論時に直接隠れ状態の伝播を可能にするガードレール モデルである COLAGUARD を提案します。 8 つの安全性ベンチマークにわたる 10 のプロンプトおよび応答モデレーション設定で評価された COLAGUARD は、マクロ F1 を Llama Guard 3 より 8.24 ポイント改善し、マクロ F1 の明示的推論ベースライン GuardReasoner と一致すると同時に、12.9 倍の高速化とトークン使用量の 22.4 倍の削減を実現します。私たちの結果は、潜在的推論が、展開可能なガードレールの明示的理論的根拠の生成に代わる実用的な代替手段を提供し、安全性の堅牢性と推論の効率を競合する目的として扱うのではなく、共同して向上させることを示唆しています。
原文 (English)
Robust and Efficient Guardrails with Latent Reasoning
Maintaining the safety of large language models (LLMs) is crucial as they are increasingly deployed in real-world applications. Existing safety guardrails typically rely on single-pass classification or, more recently, distilled reasoning. Reasoning-based guardrails significantly outperform classification-only baselines, but they incur substantial query latency and token overhead that make them impractical for highthroughput deployment. To address this challenge, we propose COLAGUARD, a guardrail model that transfers multi-step safety reasoning into a continuous latent space through a stage-wise training curriculum, enabling direct hidden-state propagation at inference. Evaluated on ten prompt- and response-moderation settings spanning eight safety benchmarks, COLAGUARD improves macro-F1 by 8.24 points over Llama Guard 3 and matches our explicit reasoning baseline, GuardReasoner, in macroF1 while delivering a 12.9X speedup and 22.4X reduction in token usage. Our results suggest that latent reasoning offers a practical alternative to explicit rationale generation for deployable guardrails, jointly improving safety robustness and inference efficiency rather than treating them as competing objectives.
BioRefusalAudit: 一般およびドメイン微調整されたスパース オートエンコーダーを使用したバイオセキュリティ拒否の深さの監査
言語モデルのバイオセキュリティ評価では通常、モデルが危険な出力を生成するかどうかが問われます。この論文は補足的な質問をします。モデルが拒否した場合、その拒否は構造的に正しいのでしょうか、それともフレーミング、フォーマット、または出力長を促すための適度な変更で消えるのでしょうか? 5 つのアーキテクチャにわたって、無害性と危険性を明確に区別したモデルはありませんでした。 Gemma 2 2B-IT は、75 件のプロンプトにわたって真に拒否することはなく、危険に隣接するすべてのクエリを回避しました。 Gemma 4 E2B-IT は、チャット テンプレート形式を使用した場合は 65/75 件のプロンプトを拒否し、チャット テンプレート形式を使用しない場合は 0/75 件のプロンプトを拒否しました。両方の Gemma モデルは、80 トークンの上限の下で 0% に崩壊しました。 Qwen 2.5 1.5B と Phi-3-mini は過剰に拒否され、良性生物学の 83 ~ 87% が危険であると警告されました。 Llama 3.2 1B は唯一の意味のある Tier 勾配 (61 ポイントの広がり) を示しました。何がそのような過剰な拒否を引き起こすのかを調査するために、我々はスケジュールIであるが生物学的に無毒な化合物(特にFDA画期的治療法のステータスを持つシロシビン培養)のパネルをテストしました。一部のモデルは、真に有害な生物学を超える割合でこれらを拒否しており、拒否がCBRNの危険性に対する合法性と文化的顕著性を追跡していることを示唆しています。内部側を測定するために、モデルの表面応答ラベルを内部のスパース オートエンコーダー (SAE) 特徴のアクティベーションと比較する発散スコア D を導入します。フル D は、Gemma 2 2B-IT (Gemma Scope 1) および Gemma 4 E2B-IT (著者が訓練したバイオ SAE) で計算されました。 2 つの微調整された Gemma 2 ドメイン SAE がリリースされました。 Gemma 4 では、狭いカタログ、サンプル内キャリブレーション、および Gemma ファミリーのみの SAE 範囲を使用して、重複なし (n=75) で 0.647 ポイントのギャップで応答と拒否の応答が分離されますが、これは暫定的なものです。消費者向けハードウェア (GTX 1650 Ti Max-Q、および SAE トレーニング用の Colab T4) での 1 つのハッカソン週末にわたって構築されたこの予備的な証拠は、アクティベーション レベルの監査によって、アーキテクチャ間で大幅に異なる、動作評価では見えない障害モードが表面化する可能性があることを示唆しています。
原文 (English)
BioRefusalAudit: Auditing Biosecurity Refusal Depth Using General and Domain-Fine-Tuned Sparse Autoencoders
Biosecurity evaluations of language models typically ask whether models produce hazardous output. This paper asks a complementary question: when a model refuses, is that refusal structurally sound, or does it disappear under modest changes to prompt framing, formatting, or output length? Across five architectures, no model cleanly discriminated benign from hazard. Gemma 2 2B-IT never genuinely refused across 75 prompts, hedging on every hazard-adjacent query. Gemma 4 E2B-IT refused 65/75 prompts with chat-template formatting and 0/75 without it. Both Gemma models collapsed to 0% under an 80-token cap. Qwen 2.5 1.5B and Phi-3-mini over-refused, flagging 83-87% of benign biology as hazardous. Llama 3.2 1B showed the only meaningful tier gradient (61-point spread). To probe what drives such over-refusal, we tested a panel of Schedule I but biologically non-toxic compounds (notably psilocybin cultivation, with FDA Breakthrough Therapy status). Some models refused these at rates exceeding genuinely hazardous biology, suggesting refusal tracks legality and cultural salience over CBRN hazard. To measure the internal side, we introduce a divergence score D comparing a model's surface response label to its internal sparse autoencoder (SAE) feature activations. Full D was computed on Gemma 2 2B-IT (Gemma Scope 1) and Gemma 4 E2B-IT (author-trained bio SAE). Two fine-tuned Gemma 2 domain SAEs were released. On Gemma 4, comply and refuse responses separated by a 0.647-point gap with zero overlap (n=75), though this is preliminary, with a narrow catalog, within-sample calibration, and Gemma-family-only SAE coverage. Built over one hackathon weekend on consumer hardware (GTX 1650 Ti Max-Q, plus Colab T4 for SAE training), this preliminary evidence suggests activation-level auditing may surface failure modes invisible to behavioral evaluation, with substantial variation across architectures.
オープンソースの安全ガード モデルのベンチマーク: 包括的な評価
安全性が重要なアプリケーションに大規模言語モデル (LLM) が導入されることが増えているため、堅牢なコンテンツ モデレーションが不可欠になっています。 NIST AI リスク フレームワークの 8 つの安全カテゴリにまたがる 79,331 サンプルの厳選されたベンチマークに基づく 14 のオープンソース安全ガード モデルの包括的な評価を示します。当社のベンチマークは 4 つの多様なデータセット (HarmBench、StrongREJECT、RealToxicityPrompts、BeaverTails) を集約し、安全関連のコンテンツ (暴力、ヘイトスピーチ、嫌がらせ、性的コンテンツ、自殺/自傷行為、冒涜、脅迫、健康上の誤った情報) のみに焦点を当てるようにフィルタリングされています。有害なコンテンツの欠落は誤検知よりも大きなリスクをもたらすため、リコールは安全性アプリケーションにとって重要な指標であることがわかりました。私たちの評価では、驚くべき結果が明らかになりました。Qwen Guard (4B パラメーター) は最高の再現率 (83.97%) を達成しましたが、Llama Guard (12B) や GPT-OSS Safeguard (20B) などのより大きなモデルは保守的な動作を示し、安全でないコンテンツを最大 75% 見逃しました。我々は、モデルのサイズが安全検出のパフォーマンスと相関しないこと、および汎用のガード モデルが特殊なガード モデルよりも優れていることを実証します。これらの調査結果は、実稼働環境での安全装置モデルを選択するための実践的なガイダンスを提供します。
原文 (English)
Benchmarking Open-Source Safety Guard Models: A Comprehensive Evaluation
As Large Language Models (LLMs) are increasingly deployed in safety-critical applications, robust content moderation becomes essential. We present a comprehensive evaluation of 14 open-source safety guard models on a curated benchmark of 79,331 samples spanning 8 NIST AI Risk Framework safety categories. Our benchmark aggregates four diverse datasets (HarmBench, StrongREJECT, RealToxicityPrompts, and BeaverTails), filtered to focus exclusively on safety-relevant content (violence, hate speech, harassment, sexual content, suicide/self-harm, profanity, threats, and health misinformation). We find that recall is the critical metric for safety applications, as missing harmful content poses greater risk than false positives. Our evaluation reveals surprising results: Qwen Guard (4B parameters) achieves the highest recall (83.97%) while larger models like Llama Guard (12B) and GPT-OSS Safeguard (20B) exhibit conservative behavior, missing up to 75% of unsafe content. We demonstrate that model size does not correlate with safety detection performance and that general-purpose guard models outperform specialized ones. These findings provide practical guidance for selecting safety guard models in production deployments.
トピックの一貫性のためのトランスフォーマーベースの埋め込みの比較研究
トピック モデリングは自然言語処理 (NLP) の一分野であり、単語の共起パターンに従ってテキストの大規模なコレクションを一貫したグループに編成することを目的としています。潜在ディリクレ割り当て (LDA) は依然として最も広く使用されており、解釈可能な確率的アプローチの 1 つです。 NLP、特にトランスフォーマーベースの言語モデルの最近の進歩により、文書表現が改善されました。モデルのサイズ (パラメーターの数の点で) が、さまざまな事前定義タスクでの言語モデルのパフォーマンスに大きな影響を与えることも知られています。この研究では、さまざまなコーパスに対する BERTopic パイプライン内の 7 つのトランスフォーマーベースの言語モデル (MiniLM などの小規模なモデルから LLaMA-2 などの大きなモデルまで) のパフォーマンスを分析することにより、トピックの品質に対するモデル サイズの影響を体系的に調べます。トピックの品質は、R{\"o}der et al. (2015) に従って一貫性と発散のメトリクスを使用して評価されます。私たちの結果は、2,200 万から 130 億のパラメーターの範囲にあるモデル サイズがトピックの品質に与える影響はごくわずかであることを示しており、より小さなモデルでもより大きなモデルと同等のパフォーマンスを達成できることを示唆しています。
原文 (English)
A comparative study of transformer-based embeddings for topic coherence
Topic modeling is a branch of Natural Language Processing (NLP) that aims to organize large collections of texts into coherent groups according to word co-occurrence patterns, with Latent Dirichlet Allocation (LDA) remaining one of the most widely used and interpretable probabilistic approaches. Recent advances in NLP, particularly transformer-based language models, offer improved document representations. It is also known that the size of the model (in terms of number of parameters) has a significant impact in the performance of the language models on different pre-defined tasks. In this study, we systematically examine the effect of model size on topic quality by analyzing the performances of seven transformer-based language models (from small models such as MiniLM to large ones such as LLaMA-2) in a BERTopic pipeline on a variety of corpora. Topic quality is evaluated using coherence and divergence metrics following R{\"o}der et al. (2015). Our results indicate that model size, ranging from 22 million to 13 billion parameters, has a negligible impact on the quality of the topic, suggesting that smaller models can achieve comparable performance to larger models.
SERC:LDPC にヒントを得た検索拡張生成のためのセマンティック エラー修正
大規模言語モデル (LLM) は顕著な機能を実証していますが、その信頼性は幻覚によって大きく損なわれます。既存の固有の自己修正手法はこれに対処しようとしますが、モデルが外部検証なしで自身の出力内のエラーを特定するのに苦労する自己バイアスにより失敗することがよくあります。これらの制限を克服するために、我々は、LDPC にヒントを得た検索拡張生成 (SERC) のためのセマンティック エラー修正を提案し、LLM 幻覚を解釈し軽減するための理論的枠組みを提供します。テキスト生成プロセスを意味論的なノイズの多いチャネルとして再定式化し、生成された応答をノイズで破損したコードワードとして扱います。低密度パリティ チェック (LDPC) コードからインスピレーションを得た SERC は、スパース検証戦略を採用しています。つまり、すべての事実を徹底的にチェックするのではなく、低密度検証クエリを生成し、外部証拠に照らして検証して、エラーを効率的に検出して修正します。 Llama-3-8B および Qwen2.5-14B を使用して、LongForm Bio および TruthfulQA ベンチマークで SERC を評価します。実験結果は、SERC が固有の自己修正手法と強力な検索拡張ベースラインの両方を上回るパフォーマンスを示し、特に事実の精度 (FactScore) において大幅な向上を示しています。特に、SERC により、小型言語モデル (SLM) が幻覚の軽減と情報の保存において大規模なベースラインのパフォーマンスを上回ることが可能になります。私たちの調査結果は、SERC がトレーニング不要でモデルに依存しないソリューションを提供し、高密度メソッドと比較して検証オーバーヘッドを大幅に削減し、リソースに制約のある環境でコストと忠実度の間の最適なトレードオフを達成することを示しています。
原文 (English)
SERC: LDPC-Inspired Semantic Error Correction for Retrieval-Augmented Generation
While Large Language Models (LLMs) have demonstrated remarkable capabilities, their reliability is significantly compromised by hallucinations. Existing intrinsic self-correction methods attempt to address this, but often fail due to self-bias, where models struggle to identify errors in their own outputs without external verification. To overcome these limitations, we propose the LDPC-inspired semantic error correction for retrieval-augmented generation (SERC), providing a theoretical framework to interpret and mitigate LLM hallucinations. We reformulate the text generation process as a semantic noisy channel, treating generated responses as noise-corrupted codewords. Inspired by low-density parity-check (LDPC) codes, SERC employs a sparse verification strategy: instead of exhaustively checking all facts, it generates low-density verification queries and validates them against external evidence to efficiently detect and correct errors. We evaluate SERC on LongForm Bio and TruthfulQA benchmarks using Llama-3-8B and Qwen2.5-14B. Experimental results demonstrate that SERC outperforms both intrinsic self-correction methods and strong retrieval-augmented baselines, demonstrating significant gains especially in factual precision (FactScore). Notably, SERC enables small language models (SLMs) to surpass the performance of larger baselines in hallucination reduction and information preservation. Our findings demonstrate that SERC provides a training-free, model-agnostic solution that significantly reduces verification overhead compared to dense methods, achieving an optimal trade-off between cost and fidelity in resource-constrained environments.
臨床要約のための幻覚検出に基づく好みの最適化
大規模言語モデル (LLM) は、要約タスクでは有望であることが示されていますが、幻覚を引き起こすことがよくあります。幻覚はサポートされていない、または間違った記述であり、特殊な医療アプリケーションでの信頼性が制限されます。 \itermodelfull (\itermodel) という推論時間手法を導入します。これは、幻覚検出器を活用して、事実の修正に向けて反復的な要約改訂をガイドします。これに基づいて、検出器による調整軌道をモデルの微調整のための好みのペアに変換する、好み学習のための \itermodel (\model) を提案します。広範な実験により、\MimicIV からの現実世界の臨床ノートを要約する際に、私たちの方法がラマ モデルとジェマ モデルの幻覚を大幅に軽減することが示されました。たとえば、Llama-3.1-8B-Instruct の \itermodel は 24\% を軽減し、\model は 48\% の幻覚を軽減します。重要なのは、人間の専門家と LLM 陪審の評価に従って、両方の方法で要約の流暢性、一貫性、および関連性が維持されることです。これらの結果を総合すると、検出に基づいた改良と好みの学習が、臨床要約における事実の忠実性を向上させるための自動化されたソリューションを提供することを示しています。
原文 (English)
Hallucination Detection-Guided Preference Optimization for Clinical Summarization
Large language models (LLMs) have shown promise on summarization tasks, but they often produce hallucinations, which are unsupported or incorrect statements that limit their reliability in specialized healthcare applications. We introduce \itermodelfull (\itermodel), an inference-time method that leverages hallucination detectors to guide iterative summary revisions toward factual corrections. Building on this, we propose \itermodel for Preference Learning (\model), which converts detector-guided refinement trajectories into preference pairs for model finetuning. Extensive experiments show that our methods substantially reduce hallucinations for Llama and Gemma models in summarizing real-world clinical notes from \MimicIV. For example, \itermodel reduces 24\% and \model reduces 48\% hallucinations in Llama-3.1-8B-Instruct. Importantly, both methods preserve summary fluency, coherence, and relevance according to human expert and LLM-Jury evaluations. Together, these results demonstrate that detection-informed refinement and preference learning offer an automated solution for improving factual faithfulness in clinical summarization.
クロスモデルエントロピーによるラベルフリーの強化学習
強化学習を使用した大規模な言語モデルのトレーニング後の処理は、報酬信号によってボトルネックになります。既存のアプローチでは、自動正しさチェックを備えたドメイン (数学、コード実行など) にトレーニングを制限するグラウンドトゥルース検証可能な報酬、または収集にコストがかかり、報酬ハッキングの傾向がある人間の好みのラベルのいずれかを必要とします。最近のラベルフリー手法は、グラウンドトゥルース検証器を、モデル自身の出力に対する多数決やトークンエントロピーなどの自己参照信号に置き換えていますが、モデル自体のエラーを強化するリスクがあります。この研究では、RL ポストトレーニング用のラベルフリー報酬信号として、別の検証モデルの下でのジェネレーターの応答の平均対数尤度であるクロスモデル エントロピー (CME) を提案します。 CME は継続的でトレーニングは必要なく、検証者が驚くことではないと判断した応答は正しいか高品質である可能性が高いという原則に基づいています。検証器は生成器から独立しているため、自己一貫性を介して信号を操作することはできません。トレーニング ループに他に変更を加えずに CME を GRPO に統合し、ラベルフリー RL をオープンエンドの命令フォロー、つまり自己参照信号が適用できない、またはあまり適していない領域に拡張します。次のオープンエンドの指導 (UltraFeedback プロンプト、AlpacaEval 2.0 で評価) では、CME の報酬は、4 つのモデル ファミリ (Qwen、Llama、Gemma、OLMo) と 3 つのトレーニング体制 (事前トレーニング済み、SFT、および指導調整済み) にわたる、裁判官としての LLM との直接比較でトレーニングを受けていないベースを上回り、同点調整後の勝率は 52.5% ~ 71.4% でした。コードは公開され次第公開されます。
原文 (English)
Label-Free Reinforcement Learning via Cross-Model Entropy
Post-training large language models with reinforcement learning is bottlenecked by the reward signal. Existing approaches require either ground-truth verifiable rewards, restricting training to domains with automatic correctness checks (e.g., mathematics, code execution), or human preference labels, which are expensive to collect and prone to reward hacking. Recent label-free methods replace ground-truth verifiers with self-referential signals like majority voting or token entropy over a model's own outputs, but risk reinforcing a model's own errors. In this work we propose Cross-Model Entropy (CME), the mean log-likelihood of a generator's response under a separate verifier model, as a label-free reward signal for RL post-training. CME is continuous, training-free, and grounded in the principle that responses a verifier finds unsurprising are likely correct or high quality. Because the verifier is independent of the generator, the signal cannot be gamed through self-consistency. We integrate CME into GRPO with no other changes to the training loop, extending label-free RL to open-ended instruction following -- a regime where self-referential signals are inapplicable or poorly suited. On open-ended instruction following (UltraFeedback prompts, evaluated on AlpacaEval 2.0), CME rewards beat the untrained base in head-to-head LLM-as-Judge comparisons across four model families (Qwen, Llama, Gemma, OLMo) and three training regimes (pretrained, SFT, and instruction-tuned), with tie-adjusted win rates ranging from 52.5% to 71.4%. Code will be released upon publication.
GEO-Bench: 生成エンジン最適化におけるランキング操作のベンチマーク
大規模言語モデル (LLM) では、ユーザーのクエリに対する製品、ドキュメント、推奨事項のランク付けが増えており、これらのランク付けを操作することによる公平性と情報の完全性への懸念が高まっています。生成エンジン最適化 (GEO) に関する研究により、多くの操作方法が生み出されてきましたが、それぞれの操作方法は独自のメトリクスを使用して独自のデータセットで評価されるため、それらの相対的な強度と検出可能性は不明のままです。 1 つのプロトコルの下で GEO ランキング操作攻撃を評価するベンチマークである GEO-Bench を紹介します。ブラック ボックスのプロンプト ベースの攻撃 (TAP、ゼロショット)、ホワイト ボックスの勾配ベースの攻撃 (STS、RAF、StealthRank)、および 10 のホワイト ハット C-SEO 戦略を統合します。有効性 (NRG、Success@{\alpha}、Promote@{\alpha}) とステルス (キーワード違反率、困惑率) の両方のメトリクスを使用して、固定オープンウェイト ランカー (Llama-3.1-8B-Instruct) に対して 5 つのデータセットのすべてのメソッドをスコア付けします。私たちの評価では、敵対的攻撃全体で有効性とステルス性がトレードオフであること、ブラック ボックス コンテンツの書き換えは、より流暢なテキストを生成しながら、ランク昇格に対する勾配ベースの攻撃と同等かそれを上回っており、一部のドメインではキーワード ベースと複雑さベースの検出の両方を回避できること、アクセス モデルが攻撃強度を予測していないことが示されています。 GEO-Bench は、データセット、攻撃実装、メトリクスを標準化することで、これらの攻撃パラダイム全体での初めての直接比較を可能にし、検出方法の開発をサポートします。
原文 (English)
GEO-Bench: Benchmarking Ranking Manipulation in Generative Engine Optimization
Large language models (LLMs) increasingly rank products, documents, and recommendations for user queries, which makes manipulating these rankings a growing concern for fairness and information integrity. Research on generative engine optimization (GEO) has produced many manipulation methods, but each is evaluated on its own dataset with its own metrics, so their relative strength and detectability stay unclear. We present GEO-Bench, a benchmark that evaluates GEO ranking-manipulation attacks under one protocol. It unifies black-box prompt-based attacks (TAP, Zero-Shot), white-box gradient-based attacks (STS, RAF, StealthRank), and ten white-hat C-SEO strategies. We score every method on five datasets against a fixed open-weight ranker (Llama-3.1-8B-Instruct), using metrics for both effectiveness (NRG, Success@{\alpha}, Promote@{\alpha}) and stealth (keyword violation rate, perplexity ratio). Our evaluation shows that effectiveness and stealth trade off across adversarial attacks, that black-box content rewriting matches or exceeds gradient-based attacks on rank promotion while producing more fluent text and can evade both keyword- and perplexity-based detection on some domains, and that the access model does not predict attack strength. By standardizing datasets, attack implementations, and metrics, GEO-Bench enables the first direct comparison across these attack paradigms and supports the development of detection methods.
TIMEGATE: リソース制約下での継続的な ML 適応のための持続可能なタイムボックス化プロモーション ゲート
機械学習 (ML) システムが継続的な適応に進化するにつれて、各再トレーニング サイクルではコンピューティング、アノテーション、エネルギーが使用されます。時間の予算設定、ラベル付け、トレーニング、評価によって適応を管理するポリシー層である TIMEGATE を紹介します。 TIMEGATE は、部分評価と完全評価の決定のためにメトリック利用可能性信号 M を送信します。 (i) ラベル付けは、成人用表形式でトレーニングを 2.3 倍上回るパフォーマンスを示します。 (ii) SST-2 上の LLaMA-3.1-8B + QLoRA に転送します (精度 0.80 ~ 0.96、35/36 回の実行で M =1)。 (iii) M は有益です。28 セルの感度は、厳しいしきい値では M が 0.81 に低下することを示しています。 (iv) 100 サイクルのシミュレーションにより、サイレント ミス プロモーションなしで 66% の評価計算量の節約が達成されます。 (v) LLaMA での 10% スライス評価では、単一の H200 で使用する実時間とエネルギーが 89% 削減されます (比率は 0.2% に一致します)。
原文 (English)
TIMEGATE: Sustainable Time-Boxed Promotion Gates for Continual ML Adaptation Under Resource Constraints
As machine learning(ML) systems evolve to continual adaptation, each re-training cycle uses compute, annotation, and energy. We introduce TIMEGATE, a policy layer managing adaptation by budgeting time, labeling, training, and evaluation. TIMEGATE emits a metric-availability signal M for partial vs. full-evaluation decisions. We validate: (i) labeling outperforms training by 2.3x on Adult tabular; (ii) it transfers to LLaMA-3.1-8B + QLoRA on SST-2 (accuracy 0.80 to 0.96; M =1 in 35/36 runs); (iii) M is informative, 28-cell sensitivity shows M drops to 0.81 at tight thresholds; (iv) 100-cycle simulation achieves 66% evaluation-compute savings with no silent mis-promotions; (v) 10%-slice evaluation on LLaMA uses 89% less wall-clock and energy on a single H200 (ratios agree to 0.2%).
Inform, Coach, Relate, Listen: Auditing LLM Caregiving Support Roles
Language models are increasingly being deployed for conversational support in informal caregiving contexts, where interactions often extend…
Is Your LLM Overcharging You? Tokenization, Transparency, and Incentives
State-of-the-art large language models require specialized hardware and substantial energy to operate. As a consequence, cloud-based servic…
Less is Enough: Synthesizing Diverse Data in LLM Feature Space with Sparse Autoencoders
The diversity of post-training data is critical for effective downstream performance in large language models (LLMs). Many existing approac…
Maximizing Mutual Information Between Prompt and Response Improves LLM Performance With No Additional Data
While post-training has successfully improved large language models (LLMs) across a variety of domains, these gains heavily rely on human-l…
不確実な LLM フィードバックに対する自信に基づいた自己進化
自己進化する大規模言語モデル (LLM) は、独自のトレーニング タスクとソリューションを生成することで学習し、人間による監視への依存を減らします。ただし、多くの推論ドメインでは、モデルは生成されたタスクを検証し、生成された回答を判断してトレーニング信号を取得する必要もあります。これにより、トレーニング信号の課題が生じます。誤った自己判断が誤った勾配更新になります。既存のアプローチは、一般性を制限する外部検証者に依存するか、ノイズの多い自己生成フィードバックを監視として扱うかのいずれかです。我々は、学習を調整するための軽量の不確実性信号として LLM の本質的な信頼度を使用する COSE (Confidence-Orchestrated Self-Evolution) を提案します。 COSE では、信頼度を重視した PPO 更新と信頼度を優先した再生を導入しています。 19 のベンチマークと 4 つの Qwen/Llama バックボーン (0.6B ~ 4B) にわたって、COSE は基本モデルよりも一貫して向上し、コードでの競争力を維持しながら、一般的な推論と数学で最高の平均パフォーマンスを達成します。コードとデータは https://anonymous.4open.science/r/COSE_-B5C2 で入手できます。
原文 (English)
Confidence-Orchestrated Self-Evolution against Uncertain LLM Feedback
Self-evolving large language models (LLMs) learn by generating their own training tasks and solutions, reducing reliance on human-curated supervision. However, in many reasoning domains, the model must also validate generated tasks and judge generated answers to obtain training signals. This creates a training-signal challenge: erroneous self-judgments become erroneous gradient updates. Existing approaches either rely on external verifiers, which limits generality, or treat noisy self-generated feedback as supervision. We propose COSE (Confidence-Orchestrated Self-Evolution), which uses the LLM's intrinsic confidence as a lightweight uncertainty signal to modulate learning. COSE introduces confidence-weighted PPO updates and confidence-prioritized replay. Across 19 held-out benchmarks and four Qwen/Llama backbones (0.6B--4B), COSE consistently improves over base models and achieves the best average performance in general reasoning and mathematics, while remaining competitive on code. Code and data are available at https://anonymous.4open.science/r/COSE_-B5C2.
From Fact Overwriting to Knowledge Evolution: Causal Editing via On-Policy Self-Distillation
While Knowledge Editing (KE) enables efficient updates, its dominant Static Fact Overwriting paradigm treats LLMs as discrete databases, fo…
Prompt Codebooks: Discrete Compositional Optimization for Language Model Instruction Refinement
Automatic prompt optimization (APO) has driven significant gains in LLM-based agentic workflows. However, existing methods treat each task'…
Hurwitz Quaternion Multiplicative Quantization for KV Cache Compression
We propose \textbf{Hurwitz Quaternion Multiplicative Quantization (HQMQ)}, a \textbf{calibration-free} method for KV cache compression of l…
Integrated and Cross-Architecture Interpretation of LLM Reasoning
Understanding how LLMs reason is hindered by a practical asymmetry: while their generated outputs are observable, the underlying reasoning…
IRDS: Interpretable RLVR Data Selection via Verifier-Coupled Sparse Autoencoder Coverage
Reinforcement learning with verifiable rewards (RLVR) has become a key technique for en- hancing LLM reasoning, yet its data ineffi- ciency…
Persuade Me if You Can: A Framework for Evaluating Persuasion Effectiveness and Susceptibility Among Large Language Models
Large Language Models (LLMs) demonstrate persuasive capabilities that rival human-level persuasion. While these capabilities can be used fo…
ASTRA: Communication-Efficient Acceleration for Multi-Device Transformer Inference
Multi-device inference can reduce Transformer latency by parallelizing computation. However, existing methods require high inter-device ban…
Probing for Knowledge Attribution in Large Language Models
Large language model (LLM) hallucinations, meaning fluent but factually incorrect generations, fall into two types: faithfulness violations…
GQLA: Group-Query Latent Attention for Hardware-Adaptive Large Language Model Decoding
Multi-head Latent Attention (MLA), the attention used in DeepSeek-V2/V3, jointly compresses keys and values into a low-rank latent and matc…
単一方向を超えて: 思考の連鎖が単純な拒否の方向性を混乱させる
大規模推論モデル (LRM) は、最終出力を生成する前に思考連鎖 (CoT) トレースを生成し、拒否などの制御メカニズムを複雑にする可能性のある動的な内部状態を導入します。単一方向部分空間によって拒否が媒介される命令調整型 LLM とは異なり、大規模推論モデル (LRM) での拒否はさらに CoT に依存します。 DeepSeek-R1-Distill-LLaMA-8B では、CoT が固定されている場合、アクティブ化ステアリングによって拒否が逆転するのはわずか 39% ですが、CoT を完全に削除するとこれが 70% に増加し、CoT が積極的に拒否を強化していることがわかります。モデルが活性化ステアリングの下で CoT を再生成する 2 段階の介入では、94% のケースで拒否が逆転しますが、結果として得られる CoT だけでは、ステアリングが取り除かれた後でもこの効果の 48% が保持されます。これは、CoT がコンプライアンス信号を独立して伝送および再構築できることを示唆しています。これらの発見は、LRM での拒否が残留ストリームのアクティベーションと CoT で共同してエンコードされることを示しています。この共同アクティベーションにより、LRM はアクティベーション レベルの介入のみに対してより堅牢になりますが、CoT は代替の表面攻撃にさらされる可能性があります。
原文 (English)
Beyond a Single Direction: Chain-of-Thought Disrupts Simple Steering of Refusal
Large reasoning models (LRMs) generate chain-of-thought (CoT) traces before producing final outputs, introducing a dynamic internal state that may complicate control mechanisms such as refusal. Unlike instruction-tuned LLMs, where refusal is mediated by a single directional subspace, refusal in large reasoning models (LRMs) additionally depends on the CoT. In DeepSeek-R1-Distill-LLaMA-8B, activation steering reverses refusal in only 39% of cases when the CoT is kept fixed, but removing the CoT entirely increases this to 70%, indicating that the CoT actively reinforces refusal. In a two-stage intervention where the model regenerates its CoT under activation steering, refusal is reversed in 94% of cases, while the resulting CoT alone retains 48% of this effect even after steering is removed. This suggests that the CoT can carry and reconstruct the compliance signal independently. These findings indicate that refusal in LRMs is jointly encoded in residual stream activations and CoT. This joint activation makes LRM more robust against activation-level interventions alone, but exposes CoT to a possible alternative surface attack.
圧縮知識グラフ仮説: 科学的仮説の生成に重要なグラフの事実はどれですか?
ナレッジ グラフ (KG) は、言語モデルに構造化された科学的コンテキストを提供できますが、生成された仮説を実際に形成するグラフの事実は依然として不明です。私たちは、Mistral-7B、Llama-3.1-70B、および Gemini 2.5 Flash にわたるバッテリー材料に関する KG ガイドに基づく仮説生成を研究します。密度、オントロジーの豊富さ、トポロジー、制御構造を変化させることでローカル KG に摂動を与え、提供されたグラフと固定参照メトリックの両方で出力を評価します。モデル全体にわたって、KG ユーティリティは選択的でモデルに依存します。グラフのコンテキストによって出力が変更されますが、KG 出力がない場合でも、モデルの以前からかなりのグラフ コンテンツが復元されます。コンパクトな上位 k サブグラフは、主張された結果トリプルが保持される場合を含め、フル KG の動作に近似することがよくあります。同時に、圧縮は 1 つのセマンティック ランキング ルールに固有のものではなく、ランダムなトポロジ ベースのサブセットでも信号の大部分を回復できます。これらの結果は、冗長性を意識した圧縮 KG 仮説を裏付けています。有用な KG 信号は、完全なローカル グラフを必要とするのではなく、コンパクトで科学的に構造化されたサブグラフから回復できることがよくあります。
原文 (English)
The Compressive Knowledge Graph Hypothesis: Which Graph Facts Matter for Scientific Hypothesis Generation?
Knowledge graphs (KGs) can provide structured scientific context to language models, but it remains unclear which graph facts actually shape the generated hypotheses. We study KG-guided hypothesis generation for battery materials across Mistral-7B, Llama-3.1-70B, and Gemini 2.5 Flash. We perturb local KGs by varying density, ontology richness, topology, and control structure, and evaluate outputs with both provided-graph and fixed-reference metrics. Across models, KG utility is selective and model-dependent: graph context changes outputs, but no-KG outputs also recover substantial graph content from model priors. Compact top-k subgraphs often approximate full-KG behavior, including when claimed-outcome triples are held out. At the same time, compression is not unique to one semantic ranking rule, random and topology-based subsets can also recover much of the signal. These results support a redundancy-aware Compressive KG hypothesis: useful KG signal is often recoverable from compact, scientifically structured subgraphs rather than requiring the full local graph.
InfoQuant: 低ビット LLM 量子化のためのアクティベーション分布の形成
低ビットのアクティベーション量子化は、効率的な大規模言語モデル (LLM) の展開において依然として大きなボトルネックとなっています。問題は、アクティベーションに外れ値が含まれるだけでなく、その分布が低ビット均一量子化器とあまり一致しないことが多いことです。既存のトレーニング後量子化 (PTQ) 手法は、ピークを抑制したり、チャネルのバランスをとったり、再構成エラーを最小限に抑えたりしますが、どの活性化分布が実際に離散化しやすいかを指定することはほとんどありません。その結果、量子化範囲が広いままであるか、ほとんどの値が平均に近いいくつかのレベルに崩壊するため、アクティベーションは数値的には滑らかに見える一方で、依然として大きな量子化誤差が発生する可能性があります。私たちは活性化変換を量子化器側の分布設計として再構築し、情報理論の観点から量子化誤差を分析します。私たちの分析では、量子化に適したアクティベーションは、より小さい数値範囲とその範囲内での十分な分散を併せ持つ必要があることが示されています。この分析に基づいて、ピーク抑制直交変換 (PSOT) を使用してアクティベーションをより量子化に適した分布に整形するトレインフリーの手法である InfoQuant を提案します。さらに、最適化中の PSOT の堅牢性を向上させるために、適応的な外れ値トークンの選択を導入します。 InfoQuant は、複数の LLM ファミリにわたって、以前の PTQ およびエンドツーエンドのトレーニング ベースラインを一貫して上回っています。 W4A4KV4 では、浮動小数点精度の平均 97% が維持され、LLaMA-2 13B のパフォーマンス ギャップが以前の最新技術と比較して 42% 削減されます。コードは [https://github.com/LLIKKE/InfoQuant](https://github.com/LLIKKE/InfoQuant) で入手できます。
原文 (English)
InfoQuant: Shaping Activation Distributions for Low-Bit LLM Quantization
Low-bit activation quantization remains a major bottleneck in efficient large language model (LLM) deployment. The difficulty is not only that activations contain outliers, but that their distributions are often poorly matched to a low-bit uniform quantizer. Existing post-training quantization (PTQ) methods suppress peaks, balance channels, or minimize reconstruction error, yet they rarely specify what activation distribution is actually easy to discretize. As a result, activations may appear numerically smoother while still incurring large quantization error because the quantization range remains wide or most values collapse into a few levels near the mean. We recast activation transformation as quantizer-facing distribution design and analyze quantization error from an information-theoretic perspective. Our analysis shows that quantization-friendly activations should jointly have a smaller numerical range and sufficient dispersion within that range. Guided by this analysis, we propose InfoQuant, a train-free method that employs Peak Suppression Orthogonal Transformation (PSOT) to shape activations into more quantization-friendly distributions. We further introduce adaptive outlier-token selection to improve the robustness of PSOT during optimization. Across multiple LLM families, InfoQuant consistently outperforms prior PTQ and end-to-end training baselines. Under W4A4KV4, it preserves 97% of floating-point accuracy on average and reduces the LLaMA-2 13B performance gap by 42% over the previous state of the art. Code is available at [https://github.com/LLIKKE/InfoQuant](https://github.com/LLIKKE/InfoQuant)
Reliable Extraction of Clinical Follow-Up Instructions: A Hybrid Neural-Symbolic Pipeline
Objective. Outpatient notes carry follow-up instructions pairing actions with future times ("MRI brain in two weeks"). Extracting (action,…
Strategies for Guiding LLMs to Use Software Design Patterns: A Case of Singleton
Large Language Models (LLMs) can generate functional source code from natural-language prompts, but often fail to consistently follow highe…
ReMoE: Boosting Expert Reuse through Router Fine-Tuning in Memory-Constrained MoE LLM Inference
Fine-grained Mixture-of-Experts (MoE) models sparsely activate only a subset of experts per token, reducing activated computation while mai…
"Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization
Quantization is a powerful tool for accelerating large language model (LLM) inference, but the accuracy-performance trade-offs across diffe…
Faithfulness Evaluation for Decoder-only LLM Attributions with Controlled Retained Information
Large Language Models (LLMs) are increasingly evaluated with input attribution methods, yet comparing such explanations remains challenging…
The ATOM Report: Measuring the Open Language Model Ecosystem
We present a comprehensive adoption snapshot of the leading open language models and who is building them, focusing on the ~1.5K mainline o…
Tracing the Dynamics of Refusal: Exploiting Latent Refusal Trajectories for Robust Jailbreak Detection
Representation Engineering analyses often characterize refusal using static directions extracted from terminal or pooled representations. W…
Tool Calling is Linearly Readable and Steerable in Language Models
When a tool-calling agent picks the wrong tool, the failure is invisible until execution: the email gets sent, the meeting gets missed. As…
One LR Doesn't Fit All: Heavy-Tail Guided Layerwise Learning Rates for LLMs
Learning rate configuration is a fundamental aspect of modern deep learning. The prevailing practice of applying a uniform learning rate ac…
PALoRA: 大規模言語モデルで推論を保持するための射影適応型 LoRA
新しい、または進化する事実の知識で大規模言語モデル (LLM) を効率的に更新することは、依然として中心的な課題です。パラメータ効率の高い適応でさえ、以前に獲得した推論能力を損なう可能性があるからです。この緊張は、可塑性と安定性のジレンマを反映しています。モデルには、スキルが重要な表現を維持しながら、新しい知識を組み込む必要があります。この研究では、多層パーセプトロン重み行列のスペクトル構造を通じてこのトレードオフを研究します。我々は理論的にも経験的にも、推論に不可欠な情報が支配的な特異方向のみに局在しているのではなく、特異スペクトル全体に分布していることを示します。この観察を動機として、干渉を軽減した知識注入のための 2 段階のフレームワークである PALoRA を紹介します。 PALoRA はまず、推論データセットで特異値微調整 (SVF) エキスパートをトレーニングし、学習した特異スケーリング ベクトルを凍結幾何学プローブとして使用して、ターゲット スキルにとって重要なコンポーネントを特定します。次に、構造的直交性制約の下で低ランク適応 (LoRA) を使用して事実知識の注入を実行し、特定されたスキル関連部分空間を更新が確実に回避できるようにします。 Llama 3.1 8B と Mistral 7B、および数学的、コーディング、科学的推論ベンチマーク全体にわたって、PALoRA は競争力のある事実再現を維持しながら、SVF エキスパートの推論パフォーマンスの平均 95% を維持します。これにより、追加されるパラメーターのオーバーヘッドが 0.006% 未満になりながら、以前のスペクトル パラメーター効率の良い微調整 (PEFT) メソッドよりもスキル保持率が一貫して向上します。
原文 (English)
PALoRA: Projection-Adaptive LoRA for Preserving Reasoning in Large Language Models
Efficiently updating Large Language Models (LLMs) with new or evolving factual knowledge remains a central challenge, as even parameter-efficient adaptation can erode previously acquired reasoning abilities. This tension reflects a plasticity-stability dilemma: models must incorporate new knowledge while preserving skill-critical representations. In this work, we study this trade-off through the spectral structure of multilayer perceptron weight matrices. We show, both theoretically and empirically, that information essential for reasoning is not localized only in dominant singular directions, but is instead distributed across the singular spectrum. Motivated by this observation, we introduce PALoRA, a two-stage framework for knowledge injection with reduced interference. PALoRA first trains a Singular Value Fine-Tuning (SVF) expert on a reasoning dataset and uses its learned singular scaling vector as a frozen geometric probe to identify components that are critical for the target skill. It then performs factual knowledge injection with Low-Rank Adaptation (LoRA) under a structural orthogonality constraint, ensuring that updates avoid the identified skill-relevant subspace. Across Llama 3.1 8B and Mistral 7B, and across mathematical, coding, and scientific reasoning benchmarks, PALoRA preserves on average 95% of the SVF expert's reasoning performance while maintaining competitive factual recall. It consistently improves skill retention over prior spectral Parameter-Efficient Fine-Tuning (PEFT) methods while adding less than 0.006% parameter overhead.
A* ポストトレーニングで効率的に推論する方法を学ぶ
大規模言語モデル (LLM) のアプリケーションの多くは演繹的推論を必要としますが、モデルでは誤った推論ステップや冗長な推論ステップが頻繁に生成されます。私たちは自然言語推論を、最終的な答えが有効な証明そのものである検索問題として組み立て、中間の推論が正しい推論手順を必要とします。具体的には、LLM が A* 検索 (目標への最適かつ効率的なパスを保証するアルゴリズム) からのガイダンスに従って、正しく効率的な証明を生成する方法を学習できるかどうかを調査します。私たちは 2 つのトレーニング手法を検討します。A* からの実行トレースの教師あり微調整と、A* 情報に基づいたプロセス報酬モデルを使用した強化学習です。経験的に、1B ~ 3B の範囲の Llama-3.2 モデルはトレーニング後の A* から大幅な恩恵を受け、ほぼゼロの精度から、はるかに大規模なモデルである DeepSeek-V3.2 を上回るパフォーマンスを発揮することがわかりました。私たちの分析ではトレードオフが明らかになりました。単純な正確性により精度が最大化される一方で、A* 情報による信号は精度と効率のバランスをとるというものです。さらに、より大きな検索空間では、不完全なヒューリスティックでトレーニングされたモデルが優れた精度を示すことがわかりました。私たちの結果は、古典的な検索アルゴリズムから導き出された原理に基づいた推論への有望な方向性を示しています。
原文 (English)
Learning to Reason Efficiently with A* Post-Training
Many applications of large language models (LLMs) require deductive reasoning, yet models frequently produce incorrect or redundant inference steps. We frame natural language inference as a search problem where the final answer is the valid proof itself, requiring a reasoning procedure in which intermediate inferences are correct. Specifically, we investigate whether LLMs can learn to generate correct and efficient proofs with guidance from A* search -- an algorithm that guarantees an optimally efficient path to a goal. We explore two training techniques: supervised fine-tuning on execution traces from A* and reinforcement learning with A*-informed process reward models. Empirically, we find that Llama-3.2 models in the 1B--3B range benefit substantially from A* post training, going from near-zero accuracy to outperforming DeepSeek-V3.2 -- a much larger model. Our analysis uncovers a trade-off: while simple correctness rewards maximize accuracy, A*-informed signals strike a balance between accuracy and efficiency. Furthermore, we find that on larger search spaces, models trained with imperfect heuristics exhibit superior accuracy. Our results demonstrate a promising direction towards reasoning guided by principles derived from classical search algorithms.
ウクライナ法文書における基礎モデルのトークナイザーの多産性とゼロショットのパフォーマンス: 比較研究
トークナイザーの充実度は、ウクライナの法律文書の基礎モデル間で 1.6 倍異なりますが、このコスト重視の側面はモデル選択の実践には欠けています。私たちは、ウクライナの国家登録簿 (EDRSR) からの 273 件の検証済み裁判所判決に基づいて 5 つのプロバイダーの 7 つのモデルをベンチマークし、3 つのタスクでトークナイザーの可能性とゼロショット パフォーマンスを測定しました。 4 つの発見が得られます。 (1) Qwen 3 モデルは、同一の入力で Llama ファミリ モデルよりも 60% 多くのトークンを消費するため、コスト効率の高い導入にはトークナイザー分析が前提条件となります。 (2) NVIDIA Nemotron Super 3 (120B) は最高の複合スコア (83.1) を達成し、API コスト モデル スケールの 3 分の 1 で Mistral Large 3 (合計パラメータの 5.6 倍) を上回りますが、ドメイン パフォーマンスの代理としては不十分です。 (3) ショット数が少ないと、パフォーマンスが最大 26 パーセント低下します。層別および即時感受性アブレーションにより、これがサンプルの選択による産物ではなく、ウクライナ語のデモンストレーションに固有のものであることが確認されました。 (4) 時間横断的な一般化実験により、戦前の裁判判決 (2008 年から 2013 年) で訓練された分類子は、本格的な侵略時代の判決 (2022 年から 2026 年) に適用すると、顕著な前後非対称性を伴って 27.9 パーセント ポイント低下することが明らかになりました。新しいモデルは後方に移行します (前方移行よりも +14.6 pp) が、古いモデルは戦時中の法律用語で壊滅的に失敗します。実践者向け: トークナイザー分析はモデルの選択に先行する必要があり、形態素豊かな言語ではゼロショットの方が少数ショットよりも信頼性の高いデフォルトです。再現性をサポートし、法的 NLP ベンチマークにウクライナ人が含まれていないことに対処するために、私たちは、2008 年から 2026 年までの 14,452 件の裁判所判決の公開データセットを公開します。このデータセットには、司法手続きに対する武力紛争の影響を捉える 3 つの時間的エポックにわたる 7 つの結果ラベルが注釈されています。
原文 (English)
Tokenizer Fertility and Zero-Shot Performance of Foundation Models on Ukrainian Legal Text: A Comparative Study
Tokenizer fertility varies 1.6x across foundation models on Ukrainian legal text, yet this cost-critical dimension is absent from model selection practice. We benchmark seven models from five providers on 273 validated court decisions from Ukraine's state registry (EDRSR), measuring tokenizer fertility and zero-shot performance on three tasks. Four findings emerge. (1) Qwen 3 models consume 60% more tokens than Llama-family models on identical input, making tokenizer analysis a prerequisite for cost-efficient deployment. (2) NVIDIA Nemotron Super 3 (120B) achieves the highest composite score (83.1), outperforming Mistral Large 3 (5.6x more total parameters) at one-third the API cost model scale is a poor proxy for domain performance. (3) Few-shot prompting degrades performance by up to 26 percentage points; stratified and prompt-sensitivity ablations confirm this is intrinsic to Ukrainian-language demonstrations, not an artifact of example selection. (4) A cross-temporal generalization experiment reveals that classifiers trained on pre-war court ecisions (2008-2013) lose 27.9 percentage points when applied to full-scale invasion era decisions (2022-2026), with a pronounced forward-backward asymmetry: newer models transfer backward (+14.6 pp above forward transfer), but older models fail catastrophically on wartime legal language. For practitioners: tokenizer analysis should precede model selection, and zero-shot is a more reliable default than few-shot for morphologically rich languages. To support reproducibility and address the absence of Ukrainian from legal NLP benchmarks, we release a public dataset of 14,452 court decisions spanning 2008-2026, annotated with seven outcome labels across three temporal epochs that capture the impact of armed conflict on judicial proceedings.
Understanding Conversational Patterns in Multi-agent Programming: A Case Study on Fibonacci Game Development
Large Language Models (LLMs) are increasingly applied to software engineering (SE), yet their potential for autonomous, role-oriented colla…
Benchmarking Patent Embeddings: A Multi-Task Evaluation of 22 Models Across Retrieval, Classification, and Clustering
Which fine-tuning signals improve patent embedding models, and do gains transfer across patent landscapes? We benchmark 22 embedding models…
World-State Transformations for Neuro-symbolic Interactive Storytelling
Large Language Models (LLMs) have changed the possibilities of Interactive Storytelling systems that process free-text user input. However,…
Reflect-Guard: Enhancing LLM Safeguards against Adversarial Prompts via Logical Self-Reflection
Large language model (LLM) safety classifiers such as Llama Guard are effective at detecting overtly harmful prompts but remain vulnerable…
SomaliBench Eval: Measuring English-to-Somali Refusal Gaps in Open-Weight Language Models
Large language model safety evaluation remains heavily English-centered, leaving low-resource languages under-measured even when models are…
AI Content Moderation in Therapy Conversations
Large language models (LLMs) are increasingly being used for emotional support. They are also being developed for formal therapy purposes.…
IndexMem: Learned KV-Cache Eviction with Latent Memory for Long-Context LLM Inference
Large Language Models (LLMs) are increasingly expected to operate over long contexts, yet standard softmax attention incurs a KV cache that…
OrpQuant: Geometric Orthogonal Residual Projection for Multiplier-Free Power-of-Two Transformer Quantization
The deployment of Large Language Models (LLMs) and Vision Transformers (ViTs) on edge devices is significantly constrained by memory limita…
vAttention: Verified Sparse Attention
State-of-the-art sparse attention methods for reducing decoding latency fall into two main categories: approximate top-$k$ (and its extensi…
Reward-free Alignment for Conflicting Objectives
Direct alignment methods are increasingly used to align large language models (LLMs) with human preferences. However, many real-world align…
Krause Synchronization Transformers
Self-attention in Transformers relies on globally normalized softmax weights, causing all tokens to compete for influence at every layer. W…
Lying Is Just a Phase: The Hidden Alignment Transition in Language Model Scaling
Scaling laws predict loss from compute but not how capabilities interact. We measure the coupling between reasoning and truthfulness across…
複雑な隠しロール ゲームにおける大規模な言語モデルの評価
大規模言語モデル (LLM) の欺瞞的な可能性を定量化することは AI の安全性にとって重要ですが、制御されていない環境では達成するのが困難です。この作品は、社会的推理ゲーム Secret Hitler における LLM の推論、説得、欺瞞能力を調査します。オープンソース フレームワークと、パフォーマンスを測定するための新しい指標 (役割識別精度、欺瞞保持率、ゲーム状態影響率) を紹介します。ルールベースのアルゴリズムと人間のゲームに対してモデルをベンチマークすることにより、会話能力と戦略の深さの間のギャップを特定します。この研究では、推論強化テクニックが勝率と戦略的推論に及ぼす影響も分析されています。思考連鎖プロンプトも内部メモリもパフォーマンスの向上をもたらさず、ファシストの役割の勝率は最大 23.2% 悪化します。ルールベースのエージェントは 86.7% の確率で専門家による人間の投票決定と一致しますが、Llama 3.1 70B のようなモデルでは 59.7% の精度しか達成できません。ファシストとしてプレイするモデルは常にマイナスの影響スコアを出し、欺瞞を維持できず、その結果、人間と比較してゲーム時間が約 40% 短くなります。これらの発見は、現在のアーキテクチャが複雑な複数回転の操作において依然として効果的でないことを示唆しています。機能が進歩するにつれて、モデルがこれらの欺瞞的な動作を習得し始める時期を検出することが重要になります。開発されたフレームワークは、将来のアライメント研究のための再現可能なテストベッドとして機能します。
原文 (English)
Evaluating Large Language Models in a Complex Hidden Role Game
Quantifying the deceptive potential of Large Language Models (LLMs) is critical for AI safety, yet difficult to achieve in uncontrolled environments. This work investigates the reasoning, persuasion, and deceptive capabilities of LLMs within the social deduction game Secret Hitler. I introduce an open-source framework and novel metrics to measure performance: Role Identification Accuracy, Deception Retention Rate, and Game State Impact Rate. By benchmarking models against rule-based algorithms and human games, I identify a gap between conversational ability and strategic depth. The study also analyzes the impact of reasoning-enhancement techniques on win rates and strategic reasoning. Neither Chain-of-Thought prompting nor internal memory bring improvements in performance, with up to 23.2% worse win rates for fascist roles. While rule-based agents align with expert human voting decisions 86.7% of the time, models like Llama 3.1 70B achieve only a 59.7% accuracy. Models playing as Fascists consistently yield negative impact scores and fail to sustain deception, resulting in roughly 40% shorter games compared to humans. These findings suggest that current architectures remain ineffective at complex, multi-turn manipulation. As capabilities advance, detecting when models begin to master these deceptive behaviors is crucial. The developed framework serves as a reproducible testbed for future alignment research.
読み出しのショートカット: 位置番号コピーが小規模言語モデルの算術 CoT 読み出しを支配する
思考連鎖 (CoT) プロンプトは小規模言語モデルの算術演算に必要ですが、そのステップをシャッフルすることでほとんどのパフォーマンスが維持されます。論理シーケンスではない場合、CoT は何に貢献しますか? GSM8K 上の 3 つの 1-3B 命令調整 LM では、プレフィックス補完によって応答読み出しステージを分離し、位置ショートカットを特定します。モデルは、中間推論に関係なく、応答デリミタの前の末尾の位置を占める数値をコピーします。ゴールドアンサーの存在は、精度の 54 ~ 92 pp を占めます (各モデルの教師強制上限の 89 ~ 92%)。間違った項目であっても、最終的な答えは 95 ~ 96% の確率で最後の CoT 番号と一致します。コピー チャネルは、保持されたコンテキストの補完よりも優先されます。末尾の数値を間違った値に置き換えると、中間値が正しいにもかかわらず、精度がゼロ近くに低下しますが、それを削除すると、その下限より 5 ~ 32 pp 上に回復します。コピー可能な数値が存在する場合、モデルが実行できるシングル ステップの演算でさえも抑制されます。クウェンとラマは、87 ~ 95% の確率で新しい気を散らすものをコピーします。ジェマは選択的にゲートします。頭部レベルのアブレーションには、アーキテクチャ固有の頭部セットが関係します。この効果は GSM-Symbolic 上でも複製されます。非算術 BBH タスクでは、シャッフル保持率が急激に低下します。 7-8B では、コンテンツ選択型ゲーティングが現れます。ステップレベルの忠実性評価は、位置応答の転送と本物の計算、つまり CoT ベースの監視の障害モードを混同する危険があります。
原文 (English)
The Readout Shortcut: Positional Number Copying Dominates Arithmetic CoT Readout in Small Language Models
Chain-of-thought (CoT) prompting is necessary for arithmetic in small language models, yet shuffling its steps preserves most performance. What does CoT contribute if not logical sequencing? In three 1-3B instruction-tuned LMs on GSM8K, we isolate the answer-readout stage via prefix completion and identify a positional shortcut: the model copies whichever number occupies the trailing position before the answer delimiter, regardless of intermediate reasoning. Gold-answer presence accounts for 54-92 pp of accuracy (89-92% of each model's teacher-forcing ceiling); even on incorrect items, the final answer matches the last CoT number 95-96% of the time. The copy channel takes precedence over retained-context completion: replacing the trailing number with a wrong value collapses accuracy to near-zero despite correct intermediates, yet removing it recovers 5-32 pp above that floor--even single-step arithmetic the model can otherwise perform is suppressed when a copyable number is present. Qwen and Llama copy novel distractors 87-95% of the time; Gemma gates selectively. Head-level ablation implicates architecture-specific head sets; the effect replicates on GSM-Symbolic. On non-arithmetic BBH tasks, shuffle retention drops sharply; at 7-8B, content-selective gating emerges. Step-level faithfulness evaluations risk conflating positional answer transport with genuine computation--a failure mode for CoT-based oversight.
中間補充事前トレーニングの記憶力学
Fill-in-the-middle (FIM) は、因果言語モデルに埋め込み機能を装備するために広く使用されている事前トレーニング目標ですが、逐語的な記憶に対するその効果はまだ解明されていません。私たちは、グーテンベルクの繰り返しの抜粋を含む FineWeb-Gutenberg コーパス上で、FIM と標準の左から右 (LTR) 目標を備えた一致した Llama 3.2 モデルを事前トレーニングすることにより、制御された設定における FIM の記憶力学を研究します。プレフィックスベースのプローブでは、FIM は短いスパンまたは部分的に一致するスパンをより頻繁に回復しますが、LTR は長い正確な継続に高い信頼性を割り当てることがより多くなります。 FIM トレーニング下での逐語的抽出は、テスト範囲全体での繰り返しによりほぼ直線的に増加することが観察されます。ネイティブ FIM 形式のプローブを評価すると、サフィックス コンテキストだけでは不十分であることがわかります。FIM トレーニングでの逐語的想起は、プレフィックス コンテキストに強く固定されたままです。また、私たちの結果は、1 つのスパン長またはプローブ形式のみを評価すると、記憶動作の重要なニュアンスを見逃す可能性があることも示しています。
原文 (English)
Memorization Dynamics of Fill-in-the-Middle Pretraining
Fill-in-the-middle (FIM) is a pretraining objective widely used to equip causal language models with infilling ability, yet its effect on verbatim memorization remains underexplored. We study the memorization dynamics of FIM in a controlled setting by pretraining matched Llama 3.2 models with FIM and standard left-to-right (LTR) objectives on a FineWeb-Gutenberg corpus containing repeated Gutenberg excerpts. With prefix-based probes, FIM more often recovers short or partially matching spans, while LTR more often assigns high confidence to long exact continuations. We observe that verbatim extraction under FIM-training grows approximately linearly with repetitions over the tested range. Evaluating native FIM-format probes reveals that suffix context is not sufficient: verbatim recall under FIM-training remains strongly anchored in prefix context. Our results also show that evaluating only one span length or probing format can miss important nuances in memorization behavior.
Brain-LLM アライメントは、類型学ではなくトレーニング データを追跡します
英語では脳とLLMの整合性が確立されていますが、脳の言語ネットワークは神経解剖学的に言語を超えて普遍的です。整合性は言語を超えて一般化するのでしょうか?その変動を支配するものは何ですか?英語、中国語、フランス語 (Le Petit Prince コーパス) の 112 人の参加者からの fMRI データと、英語主体、中国語主体、および多言語アーキテクチャにまたがる 7 つの LLM を使用して、これをテストします。私たちの中心的な発見は、英語の固有の特性ではなく、トレーニング言語の優位性が対応パターンを推進しているということです。アーキテクチャが LLaMA-2-7B と一致した中国語優位モデル (Baichuan2-7B) は、勾配を完全に逆転させ、中国人の脳と最もよく一致し、英語と最悪の一致を示します。トレーニングの優位性を超えて、形式的類型論的距離はアライメントの劣化と独立して共変動し、構文関連脳領域 (IFG) は語彙意味領域 (PTL) より $2.3\times$ 急峻な類型論的勾配を示し、トークン化の豊饒度は、最適なエンコード層における言語間シフトの $\sim$60% を占めます。これらの結果は、脳とLLMの整合における明らかな「英語の利点」はトレーニングデータ構成のアーチファクトである一方、残りの変動は構文処理に集中した真の類型構造を反映していることを明らかにしています。
原文 (English)
Brain-LLM Alignment Tracks Training Data, Not Typology
Brain-LLM alignment is well established in English, yet the brain's language network is neuroanatomically universal across languages. Does alignment also generalize cross-linguistically, and what governs the variation? We test this using fMRI data from 112 participants across English, Chinese, and French (the Le Petit Prince corpus) and seven LLMs spanning English-dominant, Chinese-dominant, and multilingual architectures. Our central finding is that training-language dominance, not an inherent property of English, drives the alignment pattern: a Chinese-dominant model (Baichuan2-7B), architecture-matched to LLaMA-2-7B, reverses the gradient entirely, aligning best with Chinese brains and worst with English. Beyond training dominance, formal typological distance independently covaries with alignment degradation, syntax-associated brain regions (IFG) show $2.3\times$ steeper typological gradients than lexico-semantic regions (PTL), and tokenization fertility accounts for $\sim$60% of a cross-linguistic shift in optimal encoding layer. These results reveal that the apparent "English advantage" in brain-LLM alignment is an artifact of training data composition, while the remaining variation reflects genuine typological structure concentrated in syntactic processing.
スパースオートエンコーダは、脳とLLMのアライメントを皮質セマンティックトポグラフィーにマッピングします
大規模言語モデル (LLM) の中間層は、言語に対する人間の脳の反応を最もよく予測します。これは、計算神経言語学における最も確実な発見の 1 つですが、その理由はまだ機構的に説明されていません。私たちは、スパース オートエンコーダ (SAE) を機械的な解釈可能性からニューラル エンコーディング モデルで橋渡しし、GPT-2 XL と Llama-3.1-8B をレイヤーごとに 16K ~ 32K の解釈可能な特徴に分解することで、このギャップに対処します。人間によって検証された分類法 ($\kappa \geq 0.74$) により、意味特徴だけでピーク エンコード パフォーマンス ($r=0.285$) の 94% が回復し、分散一致ベースライン ($p<0.001$、$d=1.31$) を大幅に超えていることが明らかになりました。この集合的な優位性を超えて、新しい皮質トポグラフィー予測をテストします。3 つの独立した神経科学プログラムからアプリオリに導出された 5 つの意味サブカテゴリーが、異なる脳領域にマッピングされるはずです。正式な収束テストによりこの整合性が確認され (Spearman $\rho=0.72$, $p<0.001$; 超幾何 $p=0.007$)、SAE で発見された特徴が、従来の方法ではアクセスできない粒度で既知の皮質の意味論的組織化を再現していることが実証されました。 SAE 機能は、語彙制御を超えて人間の読書時間をさらに予測し ($\Delta\mathrm{logLik}=38.4$、$p<0.001$)、探索的予測誤差分析により、脳が予期せぬ意味論的コンテンツをさらにエンコードしているという予備的な証拠が得られます。結果は英語、中国語、フランス語で一般化されます。
原文 (English)
Sparse Autoencoders Map Brain-LLM Alignment onto Cortical Semantic Topography
Intermediate layers of large language models (LLMs) best predict human brain responses to language, one of the most robust findings in computational neurolinguistics, yet why remains mechanistically unexplained. We address this gap by bridging sparse autoencoders (SAEs) from mechanistic interpretability with neural encoding models, decomposing GPT-2 XL and Llama-3.1-8B into 16K-32K interpretable features per layer. A human-validated taxonomy ($\kappa \geq 0.74$) reveals that semantic features alone recover 94% of peak encoding performance ($r=0.285$), substantially exceeding variance-matched baselines ($p<0.001$, $d=1.31$). Beyond this aggregate dominance, we test a novel cortical topography prediction: five semantic subcategories derived a priori from three independent neuroscience programs should map onto distinct brain regions. A formal convergence test confirms this alignment (Spearman $\rho=0.72$, $p<0.001$; hypergeometric $p=0.007$), demonstrating that SAE-discovered features recapitulate known cortical semantic organization at a granularity inaccessible to prior methods. SAE features further predict human reading times beyond lexical controls ($\Delta\mathrm{logLik}=38.4$, $p<0.001$), and an exploratory prediction-error analysis provides preliminary evidence that the brain additionally encodes unexpected semantic content. Results generalize across English, Chinese, and French.
DreamerNLplus: ハイブリッド ルールベースおよび RAG 手法を使用した、ソーシャル メディア タイムラインからのメンタルヘルス ダイナミクスの解釈可能なモデリング
CLPsych 2026 共有タスクのソーシャル メディア タイムラインからメンタルヘルスのダイナミクスをモデル化するためのハイブリッド フレームワークである DreamerNLplus を紹介します。私たちのシステムは、心理状態のモデリング、時間的変化の検出、シーケンスレベルの要約という 3 つのタスクに対処します。タスク 1 では、LLM ベースのデータ拡張、DeBERTa 分類、およびランダム フォレスト回帰を組み合わせて構造化状態を予測します。タスク 2 では、ローカルにデプロイされた Llama 3.1 モデルで数回のプロンプトを使用し、短期間の時間コンテキストを使用して切り替えイベントとエスカレーション イベントを検出します。タスク 3.1 では、決定論的なルールベースの要約パイプラインと少数ショット LLM ベースのアプローチの両方を調査し、\textbf{2nd} を公式にランク付けします。私たちの RAG ベースの手法は、タスク 3.2 で優れたパフォーマンスを達成し、改善で \textbf{1 位}、悪化で \textbf{3 位} にランク付けされ、タイムライン全体で繰り返される心理的変化パターンを捕捉する能力を実証しました。私たちの分析により、分類と回帰パフォーマンスの不一致、時間的遷移のモデル化の難しさ、意味論的評価基準と類似性ベースの評価基準の不一致など、重要な課題が明らかになりました。これらの発見は、メンタルヘルスのダイナミクスのモデリングの複雑さを浮き彫りにし、統一された評価フレームワークに関する今後の研究の動機付けとなります。コードとプロンプトは https://github.com/4dpicture/CLPsych2026 で共有しています。
原文 (English)
DreamerNLplus: Interpretable Modeling of Mental Health Dynamics from Social Media Timelines using Hybrid Rule-Based and RAG Methods
We present DreamerNLplus, a hybrid framework for modeling mental health dynamics from social media timelines in the CLPsych 2026 shared task. Our system addresses three tasks: psychological state modeling, temporal change detection, and sequence-level summarization. For Task 1, we combine LLM-based data augmentation, DeBERTa classification, and Random Forest regression for structured state prediction. For Task 2, we use few-shot prompting with a locally deployed Llama 3.1 model to detect Switch and Escalation events using short-term temporal context. For Task 3.1, we explore both a deterministic rule-based summarization pipeline and a few-shot LLM-based approach, ranking \textbf{2nd} officially. Our RAG-based method achieves strong performance in Task 3.2, ranking \textbf{1st} for Improvement and \textbf{3rd} for Deterioration, demonstrating its ability to capture recurrent psychological change patterns across timelines. Our analysis reveals key challenges, including the mismatch between classification and regression performance, the difficulty of modeling temporal transitions, and the disagreement between semantic and similarity-based evaluation metrics. These findings highlight the complexity of modeling mental health dynamics and motivate future work on unified evaluation frameworks. We share our code and prompts at https://github.com/4dpicture/CLPsych2026
文化進化としてのモデル崩壊
モデルの崩壊、つまり独自の出力でトレーニングされた LLM の進行性の劣化は統計的に特徴付けられていますが、どの構造がどのような順序で、そしてなぜ劣化するのかについての言語的な説明が不足しています。私たちは、文化進化に基づく反復学習理論がこのギャップを埋めることを示します。私たちは 5 つの反証可能な予測を導き出し、理論を独自に識別する予測と確証的な予測を区別し、英語、ドイツ語、トルコ語で 10 世代にわたって LLaMA-2-7B とミストラル-7B を自己訓練することによってそれらをテストします。重要な識別的発見: フィルタリングされていない自己訓練下では、構成性は非単調な軌道 (最初は上昇し、その後下降) をたどります。この署名は、最大限規則的なシード データ (ノイズ除去を除外) で持続し、ランダム フィルターではなくタスクに基づいたフィルターによってのみ維持され、圧縮と通信のトレードオフに関する最初の LLM スケールの証拠を提供します。すべての予測は大きな効果量 (Hedges の $g > 1.6$; $\mathrm{BF}_{10} > 100$) で確認され、LLM 正則化勾配は人間の行動データ ($R^2 = 0.94$) とよく一致します。これらの結果は、モデルの崩壊を文化伝達現象として再構成し、自己学習パイプライン設計の具体的な原則を導き出します。
原文 (English)
Model Collapse as Cultural Evolution
Model collapse, the progressive degradation of LLMs trained on their own outputs, has been characterized statistically but lacks a linguistic explanation for which structures degrade, in what order, and why. We show that iterated learning theory from cultural evolution fills this gap. We derive five falsifiable predictions, distinguish those uniquely discriminative for the theory from confirmatory ones, and test them by self-training LLaMA-2-7B and Mistral-7B over 10 generations in English, German, and Turkish. The critical discriminative finding: compositionality follows a non-monotonic trajectory (initially rising, then falling) under unfiltered self-training. This signature persists with maximally regular seed data (ruling out noise removal) and is sustained only by task-grounded filtering, not random filtering, providing the first LLM-scale evidence for the compression-communication tradeoff. All predictions are confirmed with large effect sizes (Hedges' $g > 1.6$; $\mathrm{BF}_{10} > 100$), and LLM regularization gradients closely match human behavioral data ($R^2 = 0.94$). These results reframe model collapse as a cultural transmission phenomenon and yield concrete principles for self-training pipeline design.
命令微調整におけるノイズの多い埋め込み手法の理解と改善
指導の微調整における最近の進歩により、埋め込みにノイズが注入され、NEFTune (Jain et al., 2024) は均一なノイズを使用してベンチマークを設定しています。均一ノイズがガウス ノイズよりも優れているという NEFTune の経験的発見にもかかわらず、その理由は不明のままです。このホワイト ペーパーは、理論的および経験的の両方で徹底的な分析を提供することでこれを明らかにし、これらのノイズ タイプ間で同等のパフォーマンスを示すことを目的としています。さらに、埋め込みの対称ノイズを利用した、言語モデルの新しい微調整方法を導入します。この方法は、局所的な曲率をより厳密に規制することでモデルの機能を強化することを目的としており、現在の方法である NEFTune よりも優れたパフォーマンスを示します。 Alpaca を使用して LLaMA-2-7B モデルを微調整する場合、標準的な手法では、AlpacaEval で 29.79% のスコアが得られます。ただし、私たちのアプローチである SymNoise は、対称的なノイズの多い埋め込みを使用して、このスコアを 69.04% まで大幅に増加させます。これは、最先端の方法である NEFTune (64.69%) と比較して 6.7% の改善です。さらに、さまざまなモデルと、Evol-Instruct、ShareGPT、OpenPlatypus などの強力なベースライン命令データセットでテストした場合、SymNoise は一貫して NEFTune を上回ります。 NEFTune を含む現在の文献は、言語モデルの微調整におけるノイズベースの戦略の適用に関するより詳細な研究の重要性を強調しています。私たちのアプローチである SymNoise は、この方向に向けたもう 1 つの重要なステップであり、既存の最先端の方法に比べて顕著な改善を示しています。
原文 (English)
Understanding and Improving Noisy Embedding Techniques in Instruction Finetuning
Recent advancements in instructional fine-tuning have injected noise into embeddings, with NEFTune (Jain et al., 2024) setting benchmarks using uniform noise. Despite NEFTune's empirical findings that uniform noise outperforms Gaussian noise, the reasons for this remain unclear. This paper aims to clarify this by offering a thorough analysis, both theoretical and empirical, indicating comparable performance among these noise types. Additionally, we introduce a new fine-tuning method for language models, utilizing symmetric noise in embeddings. This method aims to enhance the model's function by more stringently regulating its local curvature, demonstrating superior performance over the current method, NEFTune. When fine-tuning the LLaMA-2-7B model using Alpaca, standard techniques yield a 29.79% score on AlpacaEval. However, our approach, SymNoise, increases this score significantly to 69.04%, using symmetric noisy embeddings. This is a 6.7% improvement over the state-of-the-art method, NEFTune (64.69%). Furthermore, when tested on various models and stronger baseline instruction datasets, such as Evol-Instruct, ShareGPT, OpenPlatypus, SymNoise consistently outperforms NEFTune. The current literature, including NEFTune, has underscored the importance of more in-depth research into the application of noise-based strategies in the fine-tuning of language models. Our approach, SymNoise, is another significant step towards this direction, showing notable improvement over the existing state-of-the-art method.
能力は責任ですか?より有能な言語モデルが最も重要なときに悪い予測を行う
私たちは、根底にある時系列が超線形成長と政権交代のテールリスク(金融と疫学で一般的な構造)を示す問題の予測に関するLLMの逆スケーリングを文書化します。これらのタスクでは、より有能なモデルほど、より悪い分布予測を生成します。このパターンは、一致した線形制御を使用して合成 SIR 流行を予測する際に、当社がリリースする汚染のないシミュレートされた世界のベンチマークである ForecastBench-Sim (FBSim) に表示され、新型コロナウイルス感染症、麻疹、住宅市場、ハイパーインフレに関する現実世界のデータセットでも再現されます。分位ごとの分解は、失敗が上部の裾に集中していることを示しています。より有能なモデルは成長の積極的な外挿を追跡するために上方にシフトしますが、下部の裾はそのままです。 Llama-3.1 のファミリー内研究では、モデルの規模とトレーニング後の両方が独立してこの効果に寄与していることが示されています。専門分野の知識は校正を確実に解決するものではありません。この逆スケーリングは、LLM 予測ベンチマークで一般的な単一しきい値メトリクスには現れず、同一の出力における能力と精度の関係の符号が逆転します。従来のカットオフでの単一しきい値スコアリングでは、アッパーテールコストを見逃します。末尾を含むスコアリングでは、同じ出力に対する能力と精度の関係の符号が逆転します。 LLM 予測評価では、境界のあるバイナリしきい値メトリクスと並行して、継続的な (および境界のない) 精度の測定を使用することをお勧めします。
原文 (English)
Is Capability a Liability? More Capable Language Models Make Worse Forecasts When It Matters Most
We document inverse scaling in LLMs on forecasting problems whose underlying time series exhibit superlinear growth and tail risk of regime change, a structure common in finance and epidemiology. On these tasks, more capable models produce worse distributional forecasts. The pattern appears on ForecastBench-Sim (FBSim), a contamination-free, simulated-world benchmark we release, in forecasting synthetic SIR epidemics with a matched linear control, and replicates in real-world datasets on COVID-19, measles, housing markets, and hyperinflation. A per-quantile decomposition shows the failure concentrates at the upper tail, which more capable models shift upward to track aggressive extrapolations of growth, while the lower tail stays put. A within-family study of Llama-3.1 shows that both model scale and post-training independently contribute to this effect. Domain knowledge does not reliably rescue calibration. This inverse scaling does not appear on single-threshold metrics common in LLM forecasting benchmarks, reversing the sign of the capability--accuracy relationship on identical outputs. Single-threshold scoring at conventional cutoffs misses the upper-tail cost; tail-inclusive scoring reverses the sign of the capability--accuracy relationship on the same outputs. We recommend that LLM forecasting evaluations use continuous (and unbounded) measures of accuracy alongside bounded binary threshold metrics.
HTMuon: ヘビーテールスペクトル補正によるミュオンの改善
Muon は最近、LLM トレーニングで有望な結果を示しました。この研究では、ミュオンをさらに改良する方法を研究します。私たちは、Muon の直交化更新ルールがヘビーテール重みスペクトルの出現を抑制し、ノイズが支配的な方向に沿ったトレーニングを過度に強調すると主張します。ヘビーテール自己正則化 (HT-SR) 理論に基づいて、私たちは HMuon を提案します。 HTMuon は、より重い裾の更新を生成し、より重い裾の重みスペクトルを誘導しながら、パラメータの相互依存性を捕捉する Muon の機能を維持します。 LLM の事前トレーニングと画像分類に関する実験では、HTMuon が最先端のベースラインよりも一貫してパフォーマンスを向上させ、既存の Muon バリアント上のプラグインとしても機能できることが示されています。たとえば、C4 データセットでの LLaMA 事前トレーニングでは、HMuon は Muon と比較してパープレキシティを最大 0.98 ドル削減します。さらに、HTMuon が Schatten-$q$ ノルム制約の下での最急降下に対応することを理論的に示し、滑らかな非凸設定での収束解析を提供します。 HTMuon の実装は https://github.com/TDCSZ327/HTmuon で入手できます。
原文 (English)
HTMuon: Improving Muon via Heavy-Tailed Spectral Correction
Muon has recently shown promising results in LLM training. In this work, we study how to further improve Muon. We argue that Muon's orthogonalized update rule suppresses the emergence of heavy-tailed weight spectra and over-emphasizes the training along noise-dominated directions. Motivated by the Heavy-Tailed Self-Regularization (HT-SR) theory, we propose HTMuon. HTMuon preserves Muon's ability to capture parameter interdependencies while producing heavier-tailed updates and inducing heavier-tailed weight spectra. Experiments on LLM pretraining and image classification show that HTMuon consistently improves performance over state-of-the-art baselines and can also serve as a plug-in on top of existing Muon variants. For example, on LLaMA pretraining on the C4 dataset, HTMuon reduces perplexity by up to $0.98$ compared to Muon. We further theoretically show that HTMuon corresponds to steepest descent under the Schatten-$q$ norm constraint and provide convergence analysis in smooth non-convex settings. The implementation of HTMuon is available at https://github.com/TDCSZ327/HTmuon.