Copilot
2026年5月
Adopt $\neq$ Adapt: 現実の LLM 会話の縦断的分析
ユーザーと LLM の相互作用について説明する研究が増えてきていますが、それが描く絵はほとんど静的なものです。個々のユーザーが時間の経過とともにどのように行動を変えるかについてはほとんど知られていません。このギャップに対処するために、無作為に抽出した $\sim$12,000 人の Microsoft Bing Copilot ユーザーの会話の軌跡を分析し、WildChat-4.8M のデータと比較します。 Copilot データには集団レベルの重要な傾向が含まれていますが、個々のユーザーの軌跡の傾向ははるかに弱いことがわかります。ユーザーの習慣は圧倒的に固定的であることがわかります。また、さまざまなアクティビティ レベルのユーザー間には明らかな違いがあることもわかりました。よりアクティブなユーザーはより成功した会話をし、より複雑でプロフェッショナル志向のタスクに LLM を使用します。一部のユーザー傾向は WildChat-4.8M にも見られますが、このデータセットが高度に熟練した「パワー」ユーザーに大きく偏っているという証拠が見つかりました。最終的に、私たちの結果は、既存のユーザーの行動を変えるのが難しいことを示唆しており、ユーザーの異質性の程度を示しています。データセット間の比較では、WildChat が典型的なユーザーと AI の対話を表していないことが強調されており、これはデータのダウンストリーム使用における重要な注意事項です。
原文 (English)
Adopt $\neq$ Adapt: Longitudinal Analyses of LLM Conversations in the Wild
Although a growing body of research has begun to describe user--LLM interactions, the picture it paints is largely static; little is known about how individual users change their behavior over time. To address this gap, we analyze the conversational trajectories of $\sim$12,000 randomly sampled Microsoft Bing Copilot users and compare these with data from WildChat-4.8M. While the Copilot data contains significant population-level trends, we find that trends in individual user trajectories are much weaker; user habits prove to be overwhelmingly sticky. We also find stark differences between users of different activity levels: more active users have more successful conversations and use the LLM for more complex and professionally oriented tasks. Some user trends also appear in WildChat-4.8M, but we find evidence that this dataset is significantly skewed towards highly proficient "power" users. Ultimately, our results suggest that existing user behavior is difficult to change and demonstrate the extent of user heterogeneity. Our comparison between datasets highlights that WildChat does not represent typical user-AI interactions, an important caveat for downstream uses of the data.
MOOSE-Copilot: A Web-Based Interactive Assistant for Unified Exploratory and Fine-Grained Scientific Hypothesis Discovery
Large language models (LLMs) show remarkable potential in scientific hypothesis discovery. However, existing approaches face two critical l…
Text2Model: Modeling Copilots for Text-to-Model Translation
There is growing interest in leveraging large language models (LLMs) for text-to-model translation and optimization tasks. This paper aims…
ORCA: 最適化された根本原因分析のためのエンドツーエンドの対話型コパイロット
因果関係分析は、製造、社会科学、医学などの多くの分野で重要なタスクです。しかし、最近の進歩にもかかわらず、因果関係手法は概念的かつ方法論的に複雑であるため、分野の専門家にとってはほとんどアクセスできません。このギャップにより、専門家はこれらの進歩を活用することができず、検証のために実世界のデータにアクセスできない研究者は妨げられます。この溝を埋めるために、エンドツーエンドの因果分析のためのコパイロットである ORCA を導入します。 ORCA はエージェントを調整してユーザーの目標を理解し、完全自動から高度なユーザーガイドによる実行まで、最も適切な因果分析ワークフローをガイドします。因果関係の発見、因果関係の推定、説明可能性、根本原因分析 (RCA) を特徴としています。 ORCA は、パフォーマンスを評価および比較し、主要な指標と図を生成し、構造化されたレポートを通じて洞察を生成します。いくつかの実世界のユースケースにおけるその有効性を強調します。
原文 (English)
ORCA: An End-to-End Interactive Copilot for Optimized Root Cause Analysis
Causal analysis is a crucial task in many domains, including manufacturing, social science, and medicine. However, despite recent progress, the conceptual and methodological complexity of causal methods makes them largely inaccessible to domain experts. This gap prevents experts from leveraging these advances and hinders researchers who lack access to real-world data for validation. To bridge this divide, we introduce ORCA, a copilot for end-to-end causal analysis. ORCA orchestrates agents to understand the user's goals and guide them through the most appropriate causal analysis workflow, from fully automatic to highly user-guided execution. It features causal discovery, causal effect estimation, explainability and Root-Cause-Analysis (RCA). ORCA evaluates and compares performance, generates key metrics and diagrams, and generates insights through structured reports. We highlight its effectiveness across several real-world use-cases.
企業における AI: M365 Copilot Chat の使用方法
M365 Copilot は、ワークフローの一部として、世界中の 100 万を超える企業の何百万人もの人々によって毎週使用されています。 M365 Copilot は、仕事目的でほぼ独占的に使用されるため、AI 環境の中で独自の位置を占めており、人々が仕事で AI をどのように使用するのか、またその使用が次にどこに拡大するのかについて明確な全体像を提供できます。このペーパーでは、M365 Copilot Chat とのユーザー インタラクションを直接分類することで、その使用法を特徴付けます。約 550 万セッションのサンプルの匿名化されたプライバシー保護分析に基づいて、ユーザーの意図の学習された分類と、M365 Copilot Chat で行われた O*NET 作業アクティビティの分類が結合されます。 M365 Copilot がナレッジ ワークの日常的なアシスタントとして台頭していることがわかりました。書き込みが主ですが、ユーザーは情報の検索、分析、意思決定と戦略立案、プログラムやシステムの評価と診断などにも M365 Copilot を利用しています。情報を求めるタスクは依然として一般的ですが、時間の傾向は、「検索としてのチャット」からコンテンツとコミュニケーション関連の作業への相対的な移行を示唆しています。さらに、職種別のグループ間および労働市場で行われる作業との比較では、使用状況は広範囲であるが不均等であり、M365 Copilot Chat で行われる作業の相対的な割合が職種をまたがる場合もあれば、職種固有である場合もあります。労働市場において相対的に過小評価されている分野は、企業における AI 導入の次のフロンティアを示唆しています。
原文 (English)
AI in the Enterprise: How People Use M365 Copilot Chat
M365 Copilot is used every week by millions of people across more than a million companies around the world as part of their workflows. Uniquely positioned in the AI landscape given its near-exclusive use for work purposes, M365 Copilot can offer a clear picture of how people use AI for work and where that usage may expand next. This paper characterizes that usage through direct classification of user interactions with M365 Copilot Chat. Based on an anonymized and privacy-preserving analysis of a sample of approximately 5.5 million sessions, we combine a learned classification of user intent with a classification of O*NET work activities done with M365 Copilot Chat. We find that M365 Copilot is emerging as an everyday assistant for knowledge work: writing dominates, but users also rely on it for information retrieval, analysis, decision making and strategizing, and evaluating and diagnosing programs and systems, among others. Information seeking tasks remain common, but time trends suggest a relative shift away from ``chat as search'' and toward content and communication-related work. Comparisons across occupational groupings and to work done in the labor market further show that usage is broad but uneven, where the relative share of work done with M365 Copilot Chat cuts across jobs in some cases and is occupation-specific in others. Areas of relative underrepresentation in the labor market suggest the next frontier for enterprise AI adoption.
The Impact of Large Language Models on Open-source Innovation: Evidence from GitHub Copilot
Large Language Models (LLMs) are reshaping knowledge work, yet their impact on voluntary, self-guided open innovation forums (contributors…
Microsoft Security Copilot による GenAI 主導の脅威検出
今日のますます巧妙化するサイバー攻撃を防御するには、セキュリティ アナリストが進化する攻撃者の手口を検出ロジックに継続的に変換する必要があります。これにより、防御側は事後対応の態勢に置かれ、断片化が進むセキュリティ環境全体にわたって常に最新の専門知識が必要となります。動的脅威検出エージェント (DTDA) を導入します。これは、Microsoft Defender 全体のセキュリティ インシデントを継続的に調査し、隠れた脅威を明らかにし、攻撃ストーリーのギャップが見つかった場合に説明可能な検出を生成する、常時稼働の適応型エージェントです。 DTDA は以下を組み合わせます。(1) アラート、イベント、ユーザーおよびエンティティの行動分析、脅威インテリジェンスにわたる統合されたアクティビティ タイムライン。 (2) スキーマ検証、グラウンディング要件、制限付き再試行、およびフェールクローズ抑制を備えたバージョン化された LLM プロンプト コントラクト。 (3) 攻撃固有の仮説を生成し、裏付けと反駁の証拠を収集する、計画者と実行者の調査ループ。 (4) コンテキストに関連したタイトル、重大度、MITRE マッピング、修復ガイダンス、関係するエンティティ、および自然言語攻撃の説明を含む動的なアラート生成。 DTDA は Microsoft Security Copilot に統合され、数万の Defender 顧客に展開され、業界規模で継続的に運用されています。 120 日間のオンライン評価で、DTDA は顧客のフィードバックから 80.1% の精度を達成し、調査されたインシデントの約 15% に対して新しいアラートを生成しました。オフライン評価では、DTDA は GPT-5.4 を使用して隠れた悪意のあるアクティビティを 0.78 F1 で回復し、GPT-4.1 よりも 0.12 F1 改善し、ベースラインを 0.26 F1 ポイント上回りました。運用上、DTDA は単一インシデントの調査をエンドツーエンドで中央値 28 分、トークンコスト中央値 2.04 米ドル、ジョブレベル失敗率 0.38% で処理します。これらの結果は、自律エージェントが運用規模で見逃した悪意のあるアクティビティを特定できることを示しています。
原文 (English)
GenAI-Driven Threat Detection with Microsoft Security Copilot
Defending against today's increasingly sophisticated cyberattacks requires security analysts to continuously translate evolving attacker tradecraft into detection logic. This places defenders in a reactive posture, requiring constantly updated expertise across an increasingly fragmented security landscape. We introduce the Dynamic Threat Detection Agent (DTDA), an always-on adaptive agent that continuously investigates security incidents across Microsoft Defender to uncover hidden threats and generate explainable detections when attack-story gaps are found. DTDA combines: (1) a unified activity timeline spanning alerts, events, user and entity behavior analytics, and threat intelligence; (2) versioned LLM prompt contracts with schema validation, grounding requirements, bounded retries, and fail-closed suppression; (3) a planner-executor investigation loop that generates attack-specific hypotheses and gathers supporting and refuting evidence; and (4) dynamic alert generation with a context-relevant title, severity, MITRE mappings, remediation guidance, implicated entities, and natural-language attack description. Integrated into Microsoft Security Copilot and deployed across tens of thousands of Defender customers, DTDA operates continuously at industry scale. In a 120-day online evaluation, DTDA achieves 80.1% precision from customer feedback while generating novel alerts for approximately 15% of investigated incidents. In offline evaluation, DTDA recovers hidden malicious activity with 0.78 F1 using GPT-5.4, improving over GPT-4.1 by 0.12 F1 and outperforming the baseline by 0.26 F1 points. Operationally, DTDA processes single-incident investigations end-to-end in a median of 28 minutes at a median token cost of USD 2.04, with a 0.38% job-level failure rate. These results demonstrate that autonomous agents can identify missed malicious activity at a production scale.
ソースネクストのAI議事録、Microsoft 365 Copilot連携で検索、要約を効率化
ソースネクストは、AI議事録サービス「AutoMemo」の新機能として、「AutoMemo Copilot エージェント」の提供を始めた。Microsoft 365 Copilotから過去の会議データを検索、要約、抽出できるようにし、議事録作成や報告業務の効率化を支援する。