Alibaba
2026年5月
Does The Way You Plan Matter? An Empirical Study of Planning Representations for LLM Web Agents
Despite recent advances, LLM-based web agents still struggle with limited exploration, omission of critical steps, and sensitivity to task…
The ATOM Report: Measuring the Open Language Model Ecosystem
We present a comprehensive adoption snapshot of the leading open language models and who is building them, focusing on the ~1.5K mainline o…
BODHI: 正確な OS カーネル仕様の推論
オペレーティング システム カーネルの正式な検証には、システム コールの意図された動作を捕捉する正確な仕様が必要です。これらの仕様を手動で記述するには、ドメインに関する深い専門知識が必要となるため、プロセスを自動化するために大規模言語モデル (LLM) の使用が促進されます。ただし、Hyperkernel OS カーネルから派生した 245 の仕様生成タスクのベンチマークである OSV-Bench では、最も良いと報告された Pass@1 は 55.10% です。我々は、ドメイン知識プロンプト手法 (BODHI) を提案します。これは、ドメイン固有の翻訳パターンの 15 カテゴリーをカバーする構造化された C から Python への翻訳ガイドで、標準的な数ショット プロンプトを強化します。このガイドは構造化思考連鎖 (SCoT) プロンプトに触発されており、懸念事項の分離によって翻訳を整理し、事前条件の抽出と事後条件の生成を別個のカテゴリとして扱います。 6 つのプロバイダー (Anthropic、Mistral、Amazon、DeepSeek、Meta、Alibaba) の 9 つのモデルで評価され、高密度で専門家が混在した推論アーキテクチャをカバーする BODHI は、テストされたすべてのモデルを +11% ~ +32% の範囲で改善します。最良の構成 (Claude Opus 4.6 + BODHI) では、96.73% Pass@1 に達します。 BODHI は構文エラーと意味論的エラーの両方を削減し、構造化参照資料を利用するための十分な命令追従機能を持つモデルに最も大きな効果をもたらします。これらの結果は、ドメイン知識注入が、汎用コード生成と形式仕様合成の間のギャップを実質的に埋めるモデルに依存しない手法であることを示しています。
原文 (English)
BODHI: Precise OS Kernel Specification Inference
The formal verification of operating system kernels requires precise specifications that capture the intended behavior of system calls. Writing these specifications manually demands deep domain expertise, motivating the use of large language models (LLMs) to automate the process. However, in OSV-Bench, a benchmark of 245 specification generation tasks derived from the Hyperkernel OS kernel, the best reported Pass@1 is 55.10%. We propose a domain knowledge prompting method (BODHI), which augments the standard few-shot prompt with a structured C-to-Python translation guide covering 15 categories of domain-specific translation patterns. Inspired by Structured Chain-of-Thought (SCoT) prompting, the guide organizes translation by separation of concerns, addressing pre-condition extraction and post-condition generation as distinct categories. Evaluated on nine models from six providers (Anthropic, Mistral, Amazon, DeepSeek, Meta, Alibaba), covering dense, mixture-of-experts and reasoning architectures, BODHI improves every model tested, with gains ranging from +11% to +32%. The best configuration (Claude Opus 4.6 + BODHI) reaches 96.73% Pass@1. BODHI reduces both syntax and semantic errors, with the strongest effect on models that have sufficient instruction-following capability to utilize structured reference material. These results demonstrate that domain knowledge injection is a model-agnostic technique that substantially bridges the gap between general-purpose code generation and formal specification synthesis.
Eureka: Intelligent Feature Engineering for Enterprise AI Cloud Resource Demand Prediction
Effective features are crucial for predictive model performance, but creating them often requires domain expertise, limiting scalability ac…
問題はデータではなく人間です: LLM の地政学的バイアスはトレーニング後に発生し、プロンプトの言語によって増幅されます
一般に、言語モデルにおける地政学的な偏りは、事前トレーニング段階で使用されたトレーニング データに由来すると考えられてきました。私たちは、7 つのラボからのベース モデル (トレーニング前のみ) とチャット モデル (トレーニング前およびトレーニング後) で構成される 7 つのオープンウェイト LLM ペアを、英語、フランス語、中国語の 28 か国ペアにわたるペア シナリオ強制選択プローブでテストしました。その結果、地政学的なバイアスがトレーニング前ではなくトレーニング後に発生していることがわかりました。 7 つの AI ラボのうち、6 つでは、トレーニング後にモデル開発者の国または地域に関連する方向への変化が見られました。この変化はアリババの Qwen 2.5 で最も強くなります。ベースは中国好感度に関しては中立 (-0.15 対数オッズ、p=0.15) ですが、トレーニング後のチャットのバリアントは +2.91 (p<10^-4) で、オッズが 18 倍変化しています。また、すべてのモデルにおいて、他国に対する偏見の変化も観察されています。さらに、このシフトの大きさは、モデルのプロンプトに使用される言語によって異なります。フランス製のミストラルは、フランス語のプロンプトの下でのみ親フランスになります (FR-EN シフト +1.91、p<10^-4)。これらの発見は、言語モデルにおける地政学的選好が単に大規模なインターネット データから継承されるだけでなく、トレーニング後のトレーニング中に積極的に形成されることを示唆しており、モデルが国家、文化、政治的観点をどのように表現するかに影響を与える調整プロセスの透明性の向上、監査、監視の必要性を浮き彫りにしています。
原文 (English)
It's the humans, not the data: Geopolitical bias in LLMs originates in post-training, amplified by the language of the prompt
It has generally been assumed that geopolitical bias in language models originates from the training data used during the pre-training phase. We tested seven open-weight LLM pairs consisting of the base model (pre-training only) and the chat model (pre-training and post-training) from seven labs on a paired-scenario forced-choice probe over 28 country pairs in English, French, and Chinese, and found that geopolitical bias originates in post-training rather than in pre-training. Across seven AI labs, six showed shifts in the direction associated with the country or region of the model developer after post-training. This shift is strongest in Alibaba's Qwen 2.5: while the base is neutral on China-favourability (-0.15 log-odds, p=0.15), the post-trained chat variant is at +2.91 (p<10^-4), an 18x shift in odds. We also observe shifts in biases toward other countries across all models. Additionally, the magnitude of this shift depends on the language used to prompt the model: the French-made Mistral becomes pro-France only under French prompting (FR-EN shift +1.91, p<10^-4). These findings suggest that geopolitical preferences in language models are not simply inherited from large-scale internet data but are actively shaped during post-training, highlighting the need for greater transparency, auditing, and oversight of alignment processes that influence how models represent nations, cultures, and political perspectives.