Gemma
2026年5月
連鎖は維持され、答えは折りたたまれる: 敵対的な圧力下での推論モデルにおけるトレースと答えの解離
推論モデルはシングルターンベンチマークで評価されますが、ユーザーが正解を押し返すマルチターンダイアログで展開されます。持続的な敵対的圧力の下では、これまで文書化されていなかった失敗モードが見つかります。つまり、思考の連鎖は最初のターンから最後まで事実上正しいままですが、発せられた答えは間違った方向に反転します。私たちはこれを不誠実な降伏 (UC) と呼び、フリップレート メトリクスとシングル ターン忠実度プローブの両方が見逃す $2\times 2$ の潜在対行動のフレームワークでこれを分離します。 3 つのデータセット (MT-Consistency、MMLU-Pro、GSM8K) にわたって、行動反転での潜在的正解率は思考モードでは 50% 近くに集まりましたが、no_think では 11 ~ 15% に落ち込みました。これは、推論がギャップを生み出すペアのモデル内因果証拠です。モデル全体で、この効果は推論チャネルを追跡します (Qwen3-32B および GPT-OSS-20B では高く、インライン CoT Gemma-4-31B-it では低くなります)。独立した GPT-4o 判事は UC ラベルの $86\%$ を裏付けています。トークンレベルのプローブは、UC セルの $84\%$ で応答スロット argmax が正しいことを示します。そして、単純なトレースアンカーの防御が裏目に出ます。全ての軌跡、痕跡、判定ラベルを公開します。
原文 (English)
The Chain Holds, the Answer Folds: Trace-Answer Dissociation in Reasoning Models Under Adversarial Pressure
Reasoning models are evaluated on single-turn benchmarks but deployed in multi-turn dialogue, where users push back on correct answers. Under sustained adversarial pressure we find a previously undocumented failure mode: the chain-of-thought stays factually correct from first turn to last while the emitted answer flips wrong. We call this unfaithful capitulation (UC) and isolate it with a $2\times 2$ latent-versus-behavioral framework that flip-rate metrics and single-turn faithfulness probes both miss. Across three datasets (MT-Consistency, MMLU-Pro, GSM8K), the latent-correct rate at the behavioral flip clusters near 50% in think mode and collapses to 11-15% under no_think -- paired, within-model causal evidence that reasoning creates the gap. Across models the effect tracks the reasoning channel (high in Qwen3-32B and GPT-OSS-20B, low in inline-CoT Gemma-4-31B-it). An independent GPT-4o judge corroborates $86\%$ of UC labels; a token-level probe shows the answer-slot argmax is correct in $84\%$ of UC cells; and a naive trace-anchored defense backfires. We release all trajectories, traces, and judge labels.
OpenClawBench: 現実世界のエージェント実行軌跡におけるプロセス側の異常のベンチマーク
タスクが成功すると、実際のエージェント実行におけるプロセスの異常が隠蔽される可能性があります。エージェントは、未解決のあいまいさ、安全でない外部書き込み、無視されたエラー、根拠の弱いコミットメント、または能力境界のオーバーコミットメントを蓄積したまま、最終タスクのオラクルを渡す可能性があります。私たちはこの不一致を結果とプロセスのギャップとして研究し、実際のエージェント実行プロセスにおけるプロセス側の異常を測定および監視するための大規模なデータセットである OpenClawBench を導入します。 OpenClawBench は、6 つのソース モデルによって生成された BFCL 駆動の OpenClaw セッションから構築されており、31,264 個の注釈付き軌跡が含まれています。タスクオラクルの結果を構造化されたプロセスの証拠と一致させます。 FullTax は、調整された軌跡を構造化された異常監視 (バイナリ ラベル、裏付け証拠、発生/期間の局所化、重大度、回復可能性、および 5 クラスの異常分類) に変換します。 OpenClawBench を使用して、結果とプロセスのギャップを測定可能にします。 31,135 件のオラクルパス実行のうち、2,904 件は依然として FullTax の下でプロセス異常のラベルが付けられています。これらの結果は、成功のみの評価では、実際のエージェント実行におけるプロセス側の失敗の具体的なクラスを見逃すことを示しています。 LoRA で微調整された Gemma 3 12B 検出器は、信頼性の高い FullTax 監視プールでトレーニングされ、クリーナー ラベル ホールドアウト テスト スプリットでバイナリ F1=0.729 に達します。 OpenClawBench は、実際のエージェント実行ログを、ランタイム エージェントの信頼性を調査、診断、運用上監視するための監査可能で再利用可能な監視に変換します。
原文 (English)
OpenClawBench: Benchmarking Process-side Anomalies in Real-world Agent Execution Trajectories
Task success can hide process anomalies in real-world agent executions. An agent may pass the final task oracle while still accumulating unresolved ambiguity, unsafe external writes, ignored errors, weakly grounded commitments, or capability-boundary overcommitment. We study this mismatch as the Outcome-Process Gap and introduce OpenClawBench, a large-scale dataset for measuring and supervising process-side anomalies in real agent execution processes. OpenClawBench is built from BFCL-driven OpenClaw sessions produced by 6 source models and contains 31,264 annotated trajectories. It aligns task-oracle outcomes with structured process evidence. FullTax converts the aligned trajectories into structured anomaly supervision: binary labels, supporting evidence, onset/span localization, severity, recoverability, and a 5-class anomaly taxonomy. Using OpenClawBench, we make the Outcome-Process Gap measurable. Among 31,135 oracle-passing executions, 2,904 are still labeled process-anomalous under FullTax. These results show that success-only evaluation misses a concrete class of process-side failures in real agent executions. A LoRA-fine-tuned Gemma 3 12B detector trained on the high-confidence FullTax supervised pool reaches binary F1=0.729 on the cleaner-labels held-out test split. Together, OpenClawBench turns real agent execution logs into auditable and reusable supervision for studying, diagnosing, and operationally monitoring runtime agent reliability.
画面条件付きアクション予測のためのアーキテクチャに応じた監視付き微調整: PiSAR ベンチマーク
私たちは、PiSAR (ペルソナ、意図、画面、アクション、根拠) の 661 行のホールドアウト スライス上のフロンティア ゼロショット ベースラインに対して 3 つの教師付き微調整モデルをベンチマークします。PiSAR (ペルソナ、意図、画面、アクション、根拠) は、アプリストアの公開レビュー、ピュー アメリカン トレンド パネルの人口統計、および OPeRA の買い物客追跡から厳選された、画面に固定された行動理論の 12,929 タプル コーパスです。すべてのモデルは、フロンティアであっても微調整されていても、同じスコアリング パイプラインを使用して同じ 661 行のスライスで評価されます。 2つの発見。まず、フロンティアのゼロショット ベースライン (Claude Opus 4.7 および GPT-5.5) は、それぞれ sem_sim 0.459 および 0.482 に達します。微調整された Qwen3-VL-8B-Instruct は 0.783 に達し、行の 79% で sem_sim >= 0.7 をクリアします。これに対し、どちらのフロンティア ベースラインでも 1 ~ 2%、同じテスト セットでは絶対値 0.30 のギャップがあります。第二に、Gemma-4-26B-A4B-IT の同じトレーニング データとレシピのスコアはわずか 0.441 であり、微調整された Qwen ではなくフロンティアのゼロショット ベースラインと同じ帯域にあります。これはレシピとモデルの不一致であると考えられます。推論調整された高パラメーター モデルは変位に抵抗するため、より多くのデータまたはより強力な微調整方法が必要になる可能性があります。
原文 (English)
Architecture-Sensitive Supervised Fine-Tuning for Screen-Conditioned Action Prediction: A PiSAR Benchmark
We benchmark three supervised fine-tuned models against frontier zero-shot baselines on a 661-row held-out slice of PiSAR (Persona, intent, Screen, Action, Rationale), a 12,929-tuple corpus of screen-anchored behavioural rationales curated from public app-store reviews, Pew American Trends Panel demographics, and the OPeRA shopper traces. Every model, frontier or fine-tuned, is evaluated on the same 661-row slice with the same scoring pipeline. Two findings. First, frontier zero-shot baselines (Claude Opus 4.7 and GPT-5.5) reach sem_sim 0.459 and 0.482 respectively; a fine-tuned Qwen3-VL-8B-Instruct reaches 0.783 and clears sem_sim >= 0.7 on 79% of rows, against 1-2% for either frontier baseline, a gap of 0.30 absolute on the same test set. Second, the same training data and recipe on Gemma-4-26B-A4B-IT scores only 0.441, in the same band as the frontier zero-shot baselines rather than the fine-tuned Qwen. We read this as a recipe-vs-model mismatch: the reasoning-tuned high-parameter model resists displacement and would likely need either more data or a stronger fine-tuning method.
BioRefusalAudit: 一般およびドメイン微調整されたスパース オートエンコーダーを使用したバイオセキュリティ拒否の深さの監査
言語モデルのバイオセキュリティ評価では通常、モデルが危険な出力を生成するかどうかが問われます。この論文は補足的な質問をします。モデルが拒否した場合、その拒否は構造的に正しいのでしょうか、それともフレーミング、フォーマット、または出力長を促すための適度な変更で消えるのでしょうか? 5 つのアーキテクチャにわたって、無害性と危険性を明確に区別したモデルはありませんでした。 Gemma 2 2B-IT は、75 件のプロンプトにわたって真に拒否することはなく、危険に隣接するすべてのクエリを回避しました。 Gemma 4 E2B-IT は、チャット テンプレート形式を使用した場合は 65/75 件のプロンプトを拒否し、チャット テンプレート形式を使用しない場合は 0/75 件のプロンプトを拒否しました。両方の Gemma モデルは、80 トークンの上限の下で 0% に崩壊しました。 Qwen 2.5 1.5B と Phi-3-mini は過剰に拒否され、良性生物学の 83 ~ 87% が危険であると警告されました。 Llama 3.2 1B は唯一の意味のある Tier 勾配 (61 ポイントの広がり) を示しました。何がそのような過剰な拒否を引き起こすのかを調査するために、我々はスケジュールIであるが生物学的に無毒な化合物(特にFDA画期的治療法のステータスを持つシロシビン培養)のパネルをテストしました。一部のモデルは、真に有害な生物学を超える割合でこれらを拒否しており、拒否がCBRNの危険性に対する合法性と文化的顕著性を追跡していることを示唆しています。内部側を測定するために、モデルの表面応答ラベルを内部のスパース オートエンコーダー (SAE) 特徴のアクティベーションと比較する発散スコア D を導入します。フル D は、Gemma 2 2B-IT (Gemma Scope 1) および Gemma 4 E2B-IT (著者が訓練したバイオ SAE) で計算されました。 2 つの微調整された Gemma 2 ドメイン SAE がリリースされました。 Gemma 4 では、狭いカタログ、サンプル内キャリブレーション、および Gemma ファミリーのみの SAE 範囲を使用して、重複なし (n=75) で 0.647 ポイントのギャップで応答と拒否の応答が分離されますが、これは暫定的なものです。消費者向けハードウェア (GTX 1650 Ti Max-Q、および SAE トレーニング用の Colab T4) での 1 つのハッカソン週末にわたって構築されたこの予備的な証拠は、アクティベーション レベルの監査によって、アーキテクチャ間で大幅に異なる、動作評価では見えない障害モードが表面化する可能性があることを示唆しています。
原文 (English)
BioRefusalAudit: Auditing Biosecurity Refusal Depth Using General and Domain-Fine-Tuned Sparse Autoencoders
Biosecurity evaluations of language models typically ask whether models produce hazardous output. This paper asks a complementary question: when a model refuses, is that refusal structurally sound, or does it disappear under modest changes to prompt framing, formatting, or output length? Across five architectures, no model cleanly discriminated benign from hazard. Gemma 2 2B-IT never genuinely refused across 75 prompts, hedging on every hazard-adjacent query. Gemma 4 E2B-IT refused 65/75 prompts with chat-template formatting and 0/75 without it. Both Gemma models collapsed to 0% under an 80-token cap. Qwen 2.5 1.5B and Phi-3-mini over-refused, flagging 83-87% of benign biology as hazardous. Llama 3.2 1B showed the only meaningful tier gradient (61-point spread). To probe what drives such over-refusal, we tested a panel of Schedule I but biologically non-toxic compounds (notably psilocybin cultivation, with FDA Breakthrough Therapy status). Some models refused these at rates exceeding genuinely hazardous biology, suggesting refusal tracks legality and cultural salience over CBRN hazard. To measure the internal side, we introduce a divergence score D comparing a model's surface response label to its internal sparse autoencoder (SAE) feature activations. Full D was computed on Gemma 2 2B-IT (Gemma Scope 1) and Gemma 4 E2B-IT (author-trained bio SAE). Two fine-tuned Gemma 2 domain SAEs were released. On Gemma 4, comply and refuse responses separated by a 0.647-point gap with zero overlap (n=75), though this is preliminary, with a narrow catalog, within-sample calibration, and Gemma-family-only SAE coverage. Built over one hackathon weekend on consumer hardware (GTX 1650 Ti Max-Q, plus Colab T4 for SAE training), this preliminary evidence suggests activation-level auditing may surface failure modes invisible to behavioral evaluation, with substantial variation across architectures.
臨床要約のための幻覚検出に基づく好みの最適化
大規模言語モデル (LLM) は、要約タスクでは有望であることが示されていますが、幻覚を引き起こすことがよくあります。幻覚はサポートされていない、または間違った記述であり、特殊な医療アプリケーションでの信頼性が制限されます。 \itermodelfull (\itermodel) という推論時間手法を導入します。これは、幻覚検出器を活用して、事実の修正に向けて反復的な要約改訂をガイドします。これに基づいて、検出器による調整軌道をモデルの微調整のための好みのペアに変換する、好み学習のための \itermodel (\model) を提案します。広範な実験により、\MimicIV からの現実世界の臨床ノートを要約する際に、私たちの方法がラマ モデルとジェマ モデルの幻覚を大幅に軽減することが示されました。たとえば、Llama-3.1-8B-Instruct の \itermodel は 24\% を軽減し、\model は 48\% の幻覚を軽減します。重要なのは、人間の専門家と LLM 陪審の評価に従って、両方の方法で要約の流暢性、一貫性、および関連性が維持されることです。これらの結果を総合すると、検出に基づいた改良と好みの学習が、臨床要約における事実の忠実性を向上させるための自動化されたソリューションを提供することを示しています。
原文 (English)
Hallucination Detection-Guided Preference Optimization for Clinical Summarization
Large language models (LLMs) have shown promise on summarization tasks, but they often produce hallucinations, which are unsupported or incorrect statements that limit their reliability in specialized healthcare applications. We introduce \itermodelfull (\itermodel), an inference-time method that leverages hallucination detectors to guide iterative summary revisions toward factual corrections. Building on this, we propose \itermodel for Preference Learning (\model), which converts detector-guided refinement trajectories into preference pairs for model finetuning. Extensive experiments show that our methods substantially reduce hallucinations for Llama and Gemma models in summarizing real-world clinical notes from \MimicIV. For example, \itermodel reduces 24\% and \model reduces 48\% hallucinations in Llama-3.1-8B-Instruct. Importantly, both methods preserve summary fluency, coherence, and relevance according to human expert and LLM-Jury evaluations. Together, these results demonstrate that detection-informed refinement and preference learning offer an automated solution for improving factual faithfulness in clinical summarization.
クロスモデルエントロピーによるラベルフリーの強化学習
強化学習を使用した大規模な言語モデルのトレーニング後の処理は、報酬信号によってボトルネックになります。既存のアプローチでは、自動正しさチェックを備えたドメイン (数学、コード実行など) にトレーニングを制限するグラウンドトゥルース検証可能な報酬、または収集にコストがかかり、報酬ハッキングの傾向がある人間の好みのラベルのいずれかを必要とします。最近のラベルフリー手法は、グラウンドトゥルース検証器を、モデル自身の出力に対する多数決やトークンエントロピーなどの自己参照信号に置き換えていますが、モデル自体のエラーを強化するリスクがあります。この研究では、RL ポストトレーニング用のラベルフリー報酬信号として、別の検証モデルの下でのジェネレーターの応答の平均対数尤度であるクロスモデル エントロピー (CME) を提案します。 CME は継続的でトレーニングは必要なく、検証者が驚くことではないと判断した応答は正しいか高品質である可能性が高いという原則に基づいています。検証器は生成器から独立しているため、自己一貫性を介して信号を操作することはできません。トレーニング ループに他に変更を加えずに CME を GRPO に統合し、ラベルフリー RL をオープンエンドの命令フォロー、つまり自己参照信号が適用できない、またはあまり適していない領域に拡張します。次のオープンエンドの指導 (UltraFeedback プロンプト、AlpacaEval 2.0 で評価) では、CME の報酬は、4 つのモデル ファミリ (Qwen、Llama、Gemma、OLMo) と 3 つのトレーニング体制 (事前トレーニング済み、SFT、および指導調整済み) にわたる、裁判官としての LLM との直接比較でトレーニングを受けていないベースを上回り、同点調整後の勝率は 52.5% ~ 71.4% でした。コードは公開され次第公開されます。
原文 (English)
Label-Free Reinforcement Learning via Cross-Model Entropy
Post-training large language models with reinforcement learning is bottlenecked by the reward signal. Existing approaches require either ground-truth verifiable rewards, restricting training to domains with automatic correctness checks (e.g., mathematics, code execution), or human preference labels, which are expensive to collect and prone to reward hacking. Recent label-free methods replace ground-truth verifiers with self-referential signals like majority voting or token entropy over a model's own outputs, but risk reinforcing a model's own errors. In this work we propose Cross-Model Entropy (CME), the mean log-likelihood of a generator's response under a separate verifier model, as a label-free reward signal for RL post-training. CME is continuous, training-free, and grounded in the principle that responses a verifier finds unsurprising are likely correct or high quality. Because the verifier is independent of the generator, the signal cannot be gamed through self-consistency. We integrate CME into GRPO with no other changes to the training loop, extending label-free RL to open-ended instruction following -- a regime where self-referential signals are inapplicable or poorly suited. On open-ended instruction following (UltraFeedback prompts, evaluated on AlpacaEval 2.0), CME rewards beat the untrained base in head-to-head LLM-as-Judge comparisons across four model families (Qwen, Llama, Gemma, OLMo) and three training regimes (pretrained, SFT, and instruction-tuned), with tie-adjusted win rates ranging from 52.5% to 71.4%. Code will be released upon publication.
Internal Representation, Not Clinical Knowledge: Where Apparent LLM Triage Failures Originate
Patient-voiced clinical-triage benchmarks report high under-triage rates for consumer LLMs for constrained multiple-choice output, yet the…
Is Your LLM Overcharging You? Tokenization, Transparency, and Incentives
State-of-the-art large language models require specialized hardware and substantial energy to operate. As a consequence, cloud-based servic…
Soro: タジキスタン向けの軽量基盤モデルおよびチャットボット
ここでは、タジキスタンでの厳しいコンピューティングと接続の制約下での実際の展開向けに設計された、タジク語に特化した会話型大規模言語モデル (LLM) ファミリーである Soro を紹介します。オープンウェイトの Gemma 3 チェックポイントから開始して、フィルタリングされた Web テキスト、PDF ドキュメント、カリキュラムに合わせた教材にまたがる厳選された 19 億トークンのコーパスに対してタジク語のみの継続的な事前トレーニングを実行し、続いて 40,000 のタジク語教師スタイルのサンプルに対して教師付き指導チューニングを実行します。標準ベンチマークでタジク語がカバーされる範囲が限られているにもかかわらず、厳密な評価を可能にするために、一般知識、言語能力、学校および大学の入学試験の領域をカバーする一連のタジク語ベンチマークを導入し、Hugging Face でオープンソース化しています。これらのタジク語ベンチマーク全体で、Soro は標準データセットで英語の優れたパフォーマンスを維持しながら、同じサイズの Gemma 3 ベースラインを大幅に上回っています。さらに、Soro の FP8 および INT4 量子化により、タジク語の利点のほとんどが維持されると同時に、エッジ展開のメモリ要件が削減され、進行中の教育セクターのパイロットとタジキスタンの学校全体での計画されたスケールアウトがサポートされることも示します。
原文 (English)
Soro: A Lightweight Foundation Model and Chatbot for Tajik
We present Soro, a family of Tajik-specialized conversational large language models (LLMs) designed for real-world deployment under tight compute and connectivity constraints in Tajikistan. Starting from open-weight Gemma 3 checkpoints, we perform Tajik-only continual pretraining on a curated 1.9-billion-token corpus spanning filtered web text, PDF documents, and curriculum-aligned educational materials, followed by supervised instruction tuning on 40K Tajik teacher-style examples. To enable rigorous evaluation despite the limited coverage of Tajik in standard benchmarks, we introduce a suite of Tajik benchmarks covering general knowledge, linguistic competence, and school- and university entrance-exam domains, and we open-source them on Hugging Face. Across these Tajik benchmarks, Soro substantially outperforms same-size Gemma 3 baselines while retaining strong English performance on standard datasets. We further show that FP8 and INT4 quantization of Soro preserves most Tajik-language gains while reducing memory requirements for edge deployment, supporting an ongoing education-sector pilot and planned scale-out across schools in Tajikistan.
Hallucination Behavior in Multimodal LLMs Across Agricultural Image Interpretation and Generation Tasks
Large Language Models (LLMs) are being rapidly adopted in agricultural imaging applications, ranging from crop interpretation to synthetic…
ReSAE: Residualized Sparse Autoencoders for Multi-Layer Transformer Interventions
Sparse autoencoders are usually trained one layer at a time, even though transformer residual stream activations are strongly coupled acros…
Pressure-Testing Deception Probes in LLMs: Scaling, Robustness, and the Geometry of Deceptive Representations
Linear probes trained on LLM activations are increasingly proposed as deception-detection metrics, yet report AUROC exceeding 0.96 on clean…
When PCOS Meets Eating Disorders: An Explainable AI Approach to Detecting the Hidden Triple Burden
Women with polycystic ovary syndrome (PCOS) face substantially elevated risks of body image distress, disordered eating, and metabolic chal…
Intelligent Detection and Mitigation of Carpet-Bombing DDoS Attacks in SDN Using Retrieval-Augmented Generation and Large Language Models
Software-Defined Networking (SDN) provides flexible and programmable network management; however, its centralized control architecture rema…
Tool Calling is Linearly Readable and Steerable in Language Models
When a tool-calling agent picks the wrong tool, the failure is invisible until execution: the email gets sent, the meeting gets missed. As…
Symmetry-Compatible Principle for Optimizer Design: Embeddings, LM Heads, SwiGLU MLPs, and MoE Routers
A striking geometric disparity has long persisted in the practice of deep learning. While modern neural network architectures naturally exh…
Geo-Expert: パラメーター効率の高い微調整によるエキスパートレベルの地質学的推論に向けて
地質学に適用される汎用の大規模言語モデル (LLM) は、地下構造や深層時間の進化について推論する際に幻覚を起こすことがよくありますが、現在の地球科学における AI は主に地表のリモート センシングと GIS を対象としています。このギャップを埋めるために、カスタム命令合成パイプラインを使用して処理された、カスタムで厳選された高品質の命令データセットに基づいて微調整された、パラメーター効率の高い地質 LLM ファミリーである Geo-Expert を導入します。低ランク適応 (LoRA) 手法を使用して、Qwen3-8B、Qwen3-32B、Gemma-3-27B の 3 つのベース モデルを微調整することにより、モデルのスケーリングとアーキテクチャの影響を調査します。新しいドメイン固有のベンチマークである Geo-Eval に関する広範な評価により、ドメイン整合 8B モデルは特殊な地質学的推論においてオープンウェイト 70B ジェネラリストや独自の GPT-4o よりも優れたパフォーマンスを発揮できる一方、32B バリアントはフロンティア推論モデルに近づくことが明らかになりました。最適化された 8B モデルは、導入において競争力のあるコストパフォーマンス比をさらに提供します。この研究は、科学的 LLM を民主化するための再現可能なレシピを提供し、地質学的人工知能のベースラインを確立します。
原文 (English)
Geo-Expert: Towards Expert-Level Geological Reasoning via Parameter-Efficient Fine-Tuning
While general-purpose Large Language Models (LLMs) applied to Geology often hallucinate when reasoning about subsurface structures and deep-time evolution, current AI in Earth sciences predominantly targets surface remote sensing and GIS. To bridge this gap, we introduce Geo-Expert, a family of parameter-efficient geological LLMs fine-tuned on a custom-curated, high-quality instruction dataset processed using our custom instruction synthesis pipeline. We investigate the impact of model scaling and architecture by fine-tuning three base models: Qwen3-8B, Qwen3-32B, and Gemma-3-27B, with Low-Rank Adaptation (LoRA) method. Our extensive evaluation on a novel domain-specific benchmark, Geo-Eval, reveals that a domain-aligned 8B model can outperform open-weight 70B generalists and proprietary GPT-4o on specialized geological reasoning, while a 32B variant approaches frontier reasoning models. The optimized 8B model further offers a competitive cost-performance ratio for deployment. This work provides a reproducible recipe for democratizing scientific LLMs and establishes a baseline for geological artificial intelligence.
制御のない表現: 言語モデルでの実現効果のテスト
大規模な言語モデルが行動シミュレーターとして使用されることが増えていますが、その出力がプロンプトに敏感な表面パターンではなく、人間のような認知メカニズムをいつ反映するのかは依然として不明です。私たちはこの疑問を実現効果を通じて研究します。実現効果は、書類上の利益と損失の後ではリスクテイクが組織的に異なるという行動経済学のよく特徴付けられた発見です。私たちは LLM の動作を 3 つのレベルで評価します。プロンプトのみの動作感度、内部表現の線形読み出し、アクティベーション ステアリングによる因果制御です。プロンプトのみの結果は体系的な条件感度を示しますが、方向パターンは人間の実現効果の予測を再現しません。 Gemma の残差ストリームには、保留されたプロンプトに一般化される、レイヤー 18 で線形にデコード可能な実現ステータス信号が含まれています。ただし、この方向に沿って舵を取っても、下流のリスク選択が確実にシフトされるわけではなく、正のスケール全体および負の符号対称の実行で保持されるヌル結果になります。行動感度、潜在読み出し、および因果制御は、自動的には同時に発生しない 3 つの異なる特性であり、潜在読み出しの成功は、モデルが下流の意思決定中に表現に行動的に依存していることを示す不十分な証拠です。
原文 (English)
Representation Without Control: Testing the Realization Effect in Language Models
Large language models are increasingly used as behavioral simulators, but it remains unclear when their outputs reflect human-like cognitive mechanisms rather than prompt-sensitive surface patterns. We study this question through the realization effect, a well-characterized finding in behavioral economics in which risk-taking differs systematically after paper versus realized gains and losses. We evaluate LLM behavior at three levels: prompt-only behavioral sensitivity, linear readout of internal representations, and causal control via activation steering. Prompt-only results show systematic condition sensitivity, but the directional pattern does not reproduce human realization-effect predictions. Gemma's residual stream contains a linearly decodable realization-status signal at layer 18 that generalizes to held-out prompts. Steering along this direction does not, however, reliably shift downstream risk choices, a null result that holds across positive scales and in a negative sign-symmetry run. Behavioral sensitivity, latent readout, and causal control are three distinct properties that do not automatically co-occur, and successful latent readout is insufficient evidence that a model behaviorally relies on a representation during downstream decision-making.
LLM の秘密辞書をチェックしてください! 5 行のコードで LLM が学習した内容が明らかになります (学習すべきではない内容も含む)
トランスフォーマーベースの大規模言語モデルの lm_head} 重み行列の特異値分解 (PyTorch の 5 行のみが必要で、モデル推論は必要ありません) によって、解釈可能な意味論的部分空間がモデルの重みから直接明らかになることを示します。各左特異ベクトルは、隠れ状態が対応する特異方向と一致するときに最も容易に選択される語彙トークンを識別します。これらのクラスターを検査すると、モデルのトレーニング データの構成とキュレーションの哲学が明らかになります。 GPT-OSS-120B、Gemma-2-2B、および Qwen2.5-1.5B を分析すると、特異値スペクトルと語彙クラスター構造がモデル間で体系的に異なることがわかります。GPT は関数的に区別された部分空間の段階的な階層を示します。 Gemma は 19 世紀以前の英語の正書法が主流であり、段階的なクラスタリング構造を形成しており、これが高い出力制御性に貢献している可能性があります。そして、Qwen は、直接出版するには倫理的に不適切であると著者が判断した語彙のサブスペースとともに、広範な多言語をカバーしています。ベースと命令の比較により、倫理的に関係のある部分空間はトレーニング前に発生し、トレーニング後の調整では除去されないことが明らかになります。部分空間の一貫性を定量化するために語彙クラスター スコア (VCS) を導入し、静的なグリッチ トークン検出器として加重射影スコア (WPS) を導入します。 WPS を GPT-OSS-120B に適用すると、CJK 言語コミュニティで広く報告されている有名なグリッチ トークンであるしょくぶつひゃっかつ (ID 137606) がモデル推論なしで復元されます。私たちは、問題のある語彙コンテンツの根本原因の分類法を提案し、標準的なリリース前の安全性監査ステップとして lm_head} SVD 分析を採用することを求めます。私たちの調査結果は、SVD に基づいたトークナイザーの最適化と、より制御可能な LLM 設計に向けた方向性をさらに示唆しています。
原文 (English)
Check Your LLM's Secret Dictionary! Five Lines of Code Reveal What Your LLM Learned (Including What It Shouldn't Have)
We show that singular value decomposition of the lm_head} weight matrix of a transformer-based large language model -- requiring only five lines of PyTorch and no model inference -- reveals interpretable semantic subspaces directly from the model weights. Each left singular vector identifies the vocabulary tokens most readily selected when the hidden state aligns with the corresponding singular direction; inspecting these clusters exposes the model's training data composition and curation philosophy. Analysing GPT-OSS-120B, Gemma-2-2B, and Qwen2.5-1.5B, we find that singular value spectra and vocabulary cluster structures differ systematically across models: GPT exhibits a graduated hierarchy of functionally differentiated subspaces; Gemma is dominated by pre-nineteenth-century English orthography, forming a stepwise clustering structure that may contribute to high output controllability; and Qwen exhibits broad multilingual coverage alongside subspaces whose vocabulary the authors have determined to be ethically inappropriate for direct publication. Base-instruct comparison reveals that ethically concerning subspaces originate in pretraining and are not removed by post-training alignment. We introduce the Vocabulary Cluster Score (VCS) to quantify subspace coherence, and the Weighted Projection Score (WPS) as a static glitch token detector; applying WPS to GPT-OSS-120B recovers shokubutsu-hyakka-tsu (ID 137606), a well-known glitch token widely reported in the CJK language community, without any model inference. We propose a taxonomy of root causes for problematic vocabulary content and call for lm_head} SVD analysis to be adopted as a standard pre-release safety auditing step. Our findings further suggest directions toward SVD-guided tokenizer optimisation and more controllable LLM design.
Understanding Conversational Patterns in Multi-agent Programming: A Case Study on Fibonacci Game Development
Large Language Models (LLMs) are increasingly applied to software engineering (SE), yet their potential for autonomous, role-oriented colla…
When Reasoning Hurts: Source-Aware Evaluation of Frontier LLMs for Clinical SOAP Note Generation
Reasoning-enabled LLMs perform strongly on medical reasoning benchmarks, but it remains unclear whether these gains transfer to structured…
SomaliBench Eval: Measuring English-to-Somali Refusal Gaps in Open-Weight Language Models
Large language model safety evaluation remains heavily English-centered, leaving low-resource languages under-measured even when models are…
AI Content Moderation in Therapy Conversations
Large language models (LLMs) are increasingly being used for emotional support. They are also being developed for formal therapy purposes.…
Fine-Tuning and Serving Gemma 4 31B on Google Cloud TPU: A Technical Comparison with GPU Baselines
We present the first end-to-end demonstration of fine-tuning and serving Google's Gemma 4 31B model on TPU hardware, providing an empirical…
Uni-DPO: A Unified Paradigm for Dynamic Preference Optimization of LLMs
Direct Preference Optimization (DPO) has emerged as a cornerstone of reinforcement learning from human feedback (RLHF) due to its simplicit…
Reward-free Alignment for Conflicting Objectives
Direct alignment methods are increasingly used to align large language models (LLMs) with human preferences. However, many real-world align…
Committed SAE-Feature Traces for Audited-Session Substitution Detection in Hosted LLMs
Hosted-LLM providers have a silent-substitution incentive: advertise a stronger model while serving cheaper replies. Probe-after-return sch…
Lying Is Just a Phase: The Hidden Alignment Transition in Language Model Scaling
Scaling laws predict loss from compute but not how capabilities interact. We measure the coupling between reasoning and truthfulness across…
読み出しのショートカット: 位置番号コピーが小規模言語モデルの算術 CoT 読み出しを支配する
思考連鎖 (CoT) プロンプトは小規模言語モデルの算術演算に必要ですが、そのステップをシャッフルすることでほとんどのパフォーマンスが維持されます。論理シーケンスではない場合、CoT は何に貢献しますか? GSM8K 上の 3 つの 1-3B 命令調整 LM では、プレフィックス補完によって応答読み出しステージを分離し、位置ショートカットを特定します。モデルは、中間推論に関係なく、応答デリミタの前の末尾の位置を占める数値をコピーします。ゴールドアンサーの存在は、精度の 54 ~ 92 pp を占めます (各モデルの教師強制上限の 89 ~ 92%)。間違った項目であっても、最終的な答えは 95 ~ 96% の確率で最後の CoT 番号と一致します。コピー チャネルは、保持されたコンテキストの補完よりも優先されます。末尾の数値を間違った値に置き換えると、中間値が正しいにもかかわらず、精度がゼロ近くに低下しますが、それを削除すると、その下限より 5 ~ 32 pp 上に回復します。コピー可能な数値が存在する場合、モデルが実行できるシングル ステップの演算でさえも抑制されます。クウェンとラマは、87 ~ 95% の確率で新しい気を散らすものをコピーします。ジェマは選択的にゲートします。頭部レベルのアブレーションには、アーキテクチャ固有の頭部セットが関係します。この効果は GSM-Symbolic 上でも複製されます。非算術 BBH タスクでは、シャッフル保持率が急激に低下します。 7-8B では、コンテンツ選択型ゲーティングが現れます。ステップレベルの忠実性評価は、位置応答の転送と本物の計算、つまり CoT ベースの監視の障害モードを混同する危険があります。
原文 (English)
The Readout Shortcut: Positional Number Copying Dominates Arithmetic CoT Readout in Small Language Models
Chain-of-thought (CoT) prompting is necessary for arithmetic in small language models, yet shuffling its steps preserves most performance. What does CoT contribute if not logical sequencing? In three 1-3B instruction-tuned LMs on GSM8K, we isolate the answer-readout stage via prefix completion and identify a positional shortcut: the model copies whichever number occupies the trailing position before the answer delimiter, regardless of intermediate reasoning. Gold-answer presence accounts for 54-92 pp of accuracy (89-92% of each model's teacher-forcing ceiling); even on incorrect items, the final answer matches the last CoT number 95-96% of the time. The copy channel takes precedence over retained-context completion: replacing the trailing number with a wrong value collapses accuracy to near-zero despite correct intermediates, yet removing it recovers 5-32 pp above that floor--even single-step arithmetic the model can otherwise perform is suppressed when a copyable number is present. Qwen and Llama copy novel distractors 87-95% of the time; Gemma gates selectively. Head-level ablation implicates architecture-specific head sets; the effect replicates on GSM-Symbolic. On non-arithmetic BBH tasks, shuffle retention drops sharply; at 7-8B, content-selective gating emerges. Step-level faithfulness evaluations risk conflating positional answer transport with genuine computation--a failure mode for CoT-based oversight.
トランスコーダは視覚言語モデルの視覚グラウンディングと幻覚を追跡します
生成視覚言語モデル (VLM) はマルチモーダル推論ではうまく機能しますが、視覚入力がどのようにテキストに変換されるかについてはまだ十分に理解されていません。 VLM に関する既存の解釈可能性の作業では、スパース オートエンコーダ (SAE) が使用されています。これにより、静的な残差表現が分解され、クロスモーダル インタラクションを促進する機能の更新が見逃されます。私たちは、レイヤーごとの計算の因果プロキシとして機能する MLP サブレイヤーのスパース近似であるトランスコーダーに基づいた機能中心のフレームワークを採用しています。 Gemma 3-4B-IT に適用されるこのフレームワークは、イメージ パッチをトークン生成の方向にリンクする解釈可能な計算経路にモデルを分解します。トランスコーダ アトリビューションは、パッチ アブレーションの下で視覚的に接地されたトークンに対して SAE アトリビューションよりも強力で安定した効果を生成し、意味的に関連する画像領域とよりよく一致します。 False Visual Groundingの反事実分析により、回復された経路が視覚と言語の相互作用に特有であることが確認されました。最後に、トランスコーダーによって生成された回路トレースからグラフベースの指標を抽出することにより、幻覚世代の構造分析を実行します。これらの機械的グラフ特徴に対するロジスティック分類器は、AUC $0.68$ で幻覚を予測します。これらの結果は、関数中心の回路分解により、VLM におけるマルチモーダル計算の解釈可能かつ予測可能な説明が得られることを示しています。
原文 (English)
Transcoders Trace Visual Grounding and Hallucinations in Vision-Language Models
Generative Vision-Language Models (VLMs) perform well on multimodal reasoning, but how visual inputs are transformed to text remains poorly understood. Existing interpretability work on VLMs uses Sparse Autoencoders (SAEs), which decompose static residual representations and miss the functional updates that drive cross-modal interaction. We adopt a function-centric framework based on Transcoders, sparse approximations of MLP sublayers that act as a causal proxy for layer-wise computation. Applied to Gemma 3-4B-IT, the framework decomposes the model into interpretable computational pathways linking image patches to directions in token generation. Transcoder attributions produce stronger and more stable effects on visually grounded tokens under patch ablation than SAE attributions, and align better with semantically relevant image regions. A False Visual Grounding counterfactual analysis confirms that the recovered pathways are specific to vision-language interaction.Finally, we perform a structural analysis of hallucinated generations, by extracting graph-based indicators from circuit traces produced by the transcoders. A logistic classifier over these mechanistic graph features predicts hallucinations at AUC $0.68$. These results show that function-centric circuit decomposition yields interpretable and predictive accounts of multimodal computation in VLMs.
As X、Do Y: 命令調整された LLM でペルソナとタスクを組み合わせる方法
As X, do Y の形式のロール プロンプトは、残差ストリーム内の 1 つの特定のサイトできれいな線形分解を認めます。プロンプトから回答への遷移 (初期/中間層バンド内の最初の 2 つの生成されたトークンと最後のプロンプト トークン)。そこでは、ペルソナとタスクが、部分的に直交する加法的な方向を通じて貢献します。純粋なペルソナ効果 $\Delta_X$、純粋なタスク効果 $\Delta_Y$ を形成し、クリーン残差を $h_{BB} + \Delta_X + \Delta_Y$ に置き換えると、12 セルのショート グリッドと48 セルの長さのペルソナ グリッド。ペルソナ固有の行動マーカーが保存されます。この加算構造からの自然な推論は、ロール プロンプトを単一のキャッシュされた残差ベクトルに圧縮できるということです。 \emph{不可能であることを示します。} キャッシュされた加法予測、またはオラクルのクリーンな残差 $h_{XY}$ を、ペルソナ テキストを削除したベースライン ホスト プロンプトに挿入しても、1 つのサイトまたは多くのレイヤーで、クリーンなロング ペルソナ ターゲットには近づきません。ペルソナ条件付きマルチトークン生成は、プロンプト全体でペルソナ テキストの位置に注意を戻すことによって流れ、1 つのサイトで再現される残留物はありません。残留ストリームの局所的な加成性は、即時圧縮性を意味するものではありません。プロンプトから回答への移行時の付加的な構造は、ペルソナやタスクの貢献度の解釈可能性ときめ細かい操作をサポートします。完全な継続にわたるペルソナ条件付きの動作は、ローカル アクティベーション演算に置き換えられない分散プロンプト/KV メカニズムに依存します。
原文 (English)
As X, Do Y: How Persona and Task Combine in Instruction-Tuned LLMs
Role prompts of the form As X, do Y admit a clean linear decomposition at one specific site in the residual stream: the prompt-to-answer transition -- the last prompt token together with the first two generated tokens -- in an early/mid layer band. There, persona and task contribute through partially orthogonal additive directions. Forming a pure persona effect $\Delta_X$, a pure task effect $\Delta_Y$, and substituting $h_{BB} + \Delta_X + \Delta_Y$ for the clean residual yields downstream output within a small KL of clean on Gemma-2-2B-IT and Qwen-2.5-\{1.5B, 3B\}-Instruct, across a 12-cell short grid and a 48-cell long-persona grid, with persona-specific behavioral markers preserved. The natural inference from this additive structure is that the role prompt can be compressed into a single cached residual vector. \emph{We show it cannot.} Injecting the cached additive prediction -- or even the oracle clean residual $h_{XY}$ -- into a baseline host prompt with the persona text removed does not approach the clean long-persona target, at one site or at many layers. Persona-conditioned multi-token generation flows through attention back to the persona-text positions throughout the prompt, which no residual at one site reproduces. Local additivity in the residual stream does not imply prompt compressibility. The additive structure at the prompt-to-answer transition supports interpretability and fine-grained steering of persona or task contributions; persona-conditioned behavior across the full continuation depends on a distributed prompt/KV mechanism that local activation arithmetic does not displace.
ローカル LLM とレイアウトを意識した解析による表形式 PDF 情報の抽出: 信頼性の評価
学術 PDF 文書から構造化情報を抽出することは簡単ではありません。単一のページは通常、フリー テキストのメタデータと表形式の領域を組み合わせており、プログラム間での変動が見られ、ダウンストリームの解析を妨げる Unicode エンコードのアーティファクトの影響を受けやすくなります。この研究では、ケーススタディとしてインドネシアの高等教育の学術コース登録文書 (Kartu Rencana Studi または KRS) を使用して、表形式の PDF 文書に対する情報抽出アプローチの信頼性を評価します。 LLM のみ、ハイブリッド決定論 - LLM (正規表現と LLM)、LLM フォールバックを備えた Camelot ベースのパイプラインの 3 つの戦略を比較します。実験は、LLM ベースのテストでは 140 のドキュメント、キャメロット ベースのパイプライン評価では 860 のドキュメントで行われ、テーブルとメタデータ内のさまざまなデータを含む 4 つの研究プログラムをカバーしました。 3 つの 12 ~ 14B LLM モデル (Gemma 3、Phi 4、および Qwen 2.5) は、Ollama と GPU なしのコンシューマー グレードの CPU を使用してローカルで実行されました。評価には、しきい値 0.7 の完全一致 (EM) およびレーベンシュタイン類似性 (LS) メトリクスが使用されました。すべてのモデルに適用できるわけではありませんが、結果は、ハイブリッド アプローチが、特に決定論的メタデータの場合、LLM のみと比較して効率を向上できることを示しています。 LLM フォールバックを備えた Camelot ベースのパイプラインは、精度 (EM および LS 最大 0.99 ~ 1.00) と計算効率 (ほとんどの場合、PDF あたり 1 秒未満) の最適な組み合わせを実現しました。 Qwen 2.5:14b モデルは、すべてのシナリオにわたって最も一貫したパフォーマンスを実証しました。これらの発見は、決定論的手法と LLM ベースの手法を統合することが、計算量に制約のある環境で表形式のテキスト ベースの PDF ドキュメントから情報を抽出するための信頼性が高く効率的な戦略であることを裏付けています。
原文 (English)
Tabular PDF Information Extraction with Local LLMs and Layout-Aware Parsing: A Reliability Evaluation
Extracting structured information from academic PDF documents is non trivial: a single page typically combines free text metadata with tabular regions, exhibits cross program variation, and is susceptible to Unicode encoding artifacts that interfere with downstream parsing. This study evaluates the reliability of information extraction approaches for tabular PDF documents, using academic course registration documents (Kartu Rencana Studi or KRS) from Indonesian higher education as a case study. Three strategies are compared: LLM only, Hybrid Deterministic - LLM (regex & LLM), and a Camelot based pipeline with LLM fallback. Experiments were conducted on 140 documents for the LLM based test and 860 documents for the Camelot based pipeline evaluation, covering four study programs with varying data in tables and metadata. Three 12 - 14B LLM models (Gemma 3, Phi 4, and Qwen 2.5) were run locally using Ollama and a consumer grade CPU without a GPU. Evaluations used exact match (EM) and Levenshtein similarity (LS) metrics with a threshold of 0.7. Although not applicable to all models, the results show that the hybrid approach can improve efficiency compared to LLM only, especially for deterministic metadata. The Camelot based pipeline with LLM fallback produced the best combination of accuracy (EM and LS up to 0.99 - 1.00) and computational efficiency (less than 1 second per PDF in most cases). The Qwen 2.5:14b model demonstrated the most consistent performance across all scenarios. These findings confirm that integrating deterministic and LLM based methods is a reliable and efficient strategy for information extraction from tabular text based PDF documents in computationally constrained environments.