你的Office被兩個(gè)AI接管了：GPT寫稿Claude審稿，微軟默認(rèn)開啟

2026-03-31 19:44:49　來源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：元宇

【新智元導(dǎo)讀】微軟最大的對手不是谷歌，是自己曾經(jīng)的獨(dú)家依賴。Copilot最新升級默認(rèn)GPT寫稿、Claude審稿，Anthropic的Agent骨架更被直接焊進(jìn)Office。從綁定OpenAI到收編所有頂級模型，微軟押注的是：無論誰贏，流量都經(jīng)過我。

單模型時(shí)代，結(jié)束了。

剛剛，微軟把Copilot的引擎換了，在Researcher中引入多模型智能。

從此，Copilot的Researcher智能體，默認(rèn)同時(shí)調(diào)用GPT和Claude。

這不是讓你手動切模型的那種「多模型」，而是GPT寫完初稿，Claude自動扮演專家評審員逐條審查，審?fù)暝俳桓督o你。

一個(gè)負(fù)責(zé)「沖鋒」，一個(gè)負(fù)責(zé)「挑刺」。

微軟表示，這是Microsoft 365 Copilot深度研究代理Researcher邁出的重要一步。

Researcher專為在工作流程中處理復(fù)雜研究而設(shè)計(jì)，這次通過兩項(xiàng)全新的多模型能力：「批判」（Critique）和「智囊團(tuán)」（Council），進(jìn)一步提升了準(zhǔn)確性、深度和可信度。

實(shí)測效果驚人。

在DRACO基準(zhǔn)測試中，這套「雙模型互搏」架構(gòu)綜合得分比此前一直被視為深度研究天花板的Perplexity Deep Research（搭載Claude Opus 4.6）高出13.8%。

但這還不是全部。

同一天上線的Copilot Cowork，微軟表示是把支撐Claude Cowork的技術(shù)平臺引入了Microsoft 365 Copilot，并與Work IQ、企業(yè)權(quán)限和治理體系深度整合，讓AI能自主規(guī)劃、跨工具推進(jìn)多步任務(wù)。

這已經(jīng)不是「接了個(gè)API」那么簡單，而是在把外部前沿智能體能力，納入微軟自己的工作系統(tǒng)。

微軟的牌面已攤開：不把賭注壓在單一模型上，而是把Anthropic、OpenAI等前沿模型納入Copilot的多模型編排框架。

也就是說，Copilot正在從傳統(tǒng)AI助手，升級成一個(gè)面向企業(yè)工作的多模型執(zhí)行與編排系統(tǒng)。

Critique

讓AI自己審自己的作業(yè)

過去的AI研究工作流有一個(gè)結(jié)構(gòu)性盲區(qū)：規(guī)劃、檢索、綜合、撰寫全部壓在一個(gè)模型上。

讓模型既當(dāng)運(yùn)動員又當(dāng)裁判，這樣幻覺幾乎是必然的。

微軟這次給出的解法是：把「生成」和「評估」拆成兩個(gè)獨(dú)立角色。

具體到大模型，是讓GPT負(fù)責(zé)上半場：任務(wù)規(guī)劃、迭代檢索、起草初稿；Claude負(fù)責(zé)下半場：以專家評審員的身份，基于結(jié)構(gòu)化評價(jià)量表（Rubric）逐條審查。

這個(gè)量表主要聚焦三個(gè)維度：

來源可靠性評估，審查引用是否權(quán)威、可驗(yàn)證；

報(bào)告完整性，檢查是否覆蓋了用戶請求的所有意圖；

嚴(yán)格的證據(jù)溯源，要求每一個(gè)關(guān)鍵結(jié)論都錨定到帶有精確引用的可靠來源。

更關(guān)鍵的是，審閱者的定位不是「第二作者」，而是「同行評審」。它不替你重寫，而是逼你寫得更好。

微軟365和Copilot企業(yè)副總裁Nicole Herskowitz說：「我們不是簡單地在Copilot里塞了多個(gè)模型，我們是讓客戶真正享受到模型協(xié)同工作的好處?！?/p>

未來這套機(jī)制還會升級為雙向互審：GPT也能審Claude的稿。

Critique已經(jīng)是Researcher的默認(rèn)模式，無需手動開啟。

其實(shí)，這算不上什么技術(shù)花活，而是把學(xué)術(shù)界運(yùn)行了幾百年的同行評審制度，第一次工程化地嵌進(jìn)了AI系統(tǒng)。

用架構(gòu)設(shè)計(jì)來壓制幻覺，而不是一味指望單個(gè)模型變得更聰明。

DRACO跑分拆解

13.8%的含金量

數(shù)據(jù)不說謊。

DRACO（深度研究準(zhǔn)確性、完整性和客觀性）是由Perplexity和學(xué)術(shù)界研究人員于2026年2月推出的基準(zhǔn)測試，覆蓋10個(gè)領(lǐng)域、100項(xiàng)復(fù)雜研究任務(wù)，全部源自真實(shí)使用場景。

每個(gè)問題經(jīng)過5次獨(dú)立運(yùn)行取均值，評估維度包括事實(shí)準(zhǔn)確性、分析廣度和深度、表達(dá)質(zhì)量、引用質(zhì)量四項(xiàng)。

評委模型是GPT-5.2。

微軟特別強(qiáng)調(diào)，采用了與基準(zhǔn)論文完全一致的評估協(xié)議和配置，確?！竿趶健构綄Ρ?。

搭載Critique的Researcher綜合得分實(shí)現(xiàn)了+7.0分（SEM±1.90）的顯著提升，比此前表現(xiàn)最好的Perplexity Deep Research高出13.88%。

DRACO基準(zhǔn)測試綜合得分對比圖：各深度研究系統(tǒng)（含Researcher with Critique、Perplexity Deep Research等）橫向得分對比。其中除Researcher with Critique外，其余對比結(jié)果引自Zhong et al., arXiv:2602.11685。

拆開四個(gè)維度看：

分析廣度和深度提升最明顯，+3.33。其次是表達(dá)質(zhì)量+3.04，事實(shí)準(zhǔn)確性+2.58。引用質(zhì)量同樣有提升。

所有維度均達(dá)到統(tǒng)計(jì)學(xué)顯著（配對t檢驗(yàn)，p<0.0001）。

真正值得注意的是那個(gè)+3.33。分析深度的飆升說明Critique最大的價(jià)值不是糾錯(cuò)，而是可以逼出更全面的分析視角。

在領(lǐng)域?qū)用妫?0個(gè)領(lǐng)域中有8個(gè)觀察到顯著提升，覆蓋醫(yī)學(xué)、技術(shù)、法律等核心場景。

僅有的兩個(gè)例外是「學(xué)術(shù)」和「大海撈針」，這兩個(gè)領(lǐng)域測試結(jié)果波動較大。

DRACO基準(zhǔn)四項(xiàng)評測維度提升表：Researcher with Critique（多模型）相較單模型 Researcher，在分析廣度與深度、呈現(xiàn)質(zhì)量、事實(shí)準(zhǔn)確性和引用質(zhì)量上的提升，以及各項(xiàng)對最終總分的貢獻(xiàn)。

13.8%聽起來是一個(gè)數(shù)字。

在深度研究這個(gè)賽道上，此前各家打得難分難解，Perplexity搭載Claude Opus 4.6好不容易爬到的天花板，現(xiàn)在被Critique一個(gè)架構(gòu)創(chuàng)新直接擊穿了。

當(dāng)你需要的不是一個(gè)答案

而是一場辯論

Critique解決的是「怎么讓一份報(bào)告更準(zhǔn)」的問題。

但有些場景，你要的根本不是一份精修稿，而是兩個(gè)專家吵一架。

而這，就是Council的定位。

在模型選擇器中選「Model Council」，GPT和Claude會各自獨(dú)立生成一份完整報(bào)告，并排展示。

然后，一個(gè)專門的評委模型會對兩份報(bào)告進(jìn)行評估，生成一份綜述（Cover Letter），深入分析雙方在哪些觀點(diǎn)上達(dá)成一致、在何處存在分歧，以及各自帶來的獨(dú)特見解。

Council模式產(chǎn)品界面截圖：GPT和Claude各自生成的完整報(bào)告并排展示，附評委模型生成的Cover Letter綜述。

表面上看，這只是「多選一」變成了「全都看」，實(shí)質(zhì)上是把決策場景中的信息盲區(qū)暴露出來。

一個(gè)模型可能忽略的事實(shí)、權(quán)重不同的分析框架、另一條推理路徑……Council把這些全部擺到桌面上。

做季度戰(zhàn)略報(bào)告的時(shí)候，你希望看到一份精修稿，還是兩個(gè)專家各執(zhí)己見、讓你自己判斷？

Critique是「編輯審稿」模式，效率優(yōu)先。

Council是「專家會診」模式，決策優(yōu)先。

兩個(gè)模式精準(zhǔn)覆蓋了企業(yè)用AI做研究的兩種核心場景：日常產(chǎn)出要快要準(zhǔn)，重大決策要全要思考全面。

Copilot Cowork

微軟把Anthropic的撒手锏搬進(jìn)了Office

如果說Critique和Council改變的是研究質(zhì)量，Copilot Cowork改變的是工作方式本身。

Copilot Cowork直接基于Anthropic的Claude Cowork技術(shù)平臺構(gòu)建。

這里不是「接入」或者「兼容」，而是「基于其技術(shù)平臺構(gòu)建」。

它的工作方式很簡單：你描述想要的結(jié)果，Copilot Cowork自動制定計(jì)劃，跨工具和文件進(jìn)行邏輯推理，在推進(jìn)過程中實(shí)時(shí)展示進(jìn)度，你可以隨時(shí)介入和引導(dǎo)。

Copilot Cowork操作界面：描述目標(biāo) → 自動規(guī)劃 → 跨工具執(zhí)行 → 實(shí)時(shí)進(jìn)度展示。

內(nèi)置Claude加上微軟原生技能：日歷管理、每日簡報(bào)等，覆蓋從一次性雜事到每月預(yù)算審查的各類任務(wù)。

Capital Group等機(jī)構(gòu)已經(jīng)在使用，反饋集中在規(guī)劃、排程、產(chǎn)出成果以及準(zhǔn)備管理層審查等高價(jià)值場景。

目前通過Frontier計(jì)劃向早期客戶開放。

這意味著，微軟和Anthropic的關(guān)系，已經(jīng)從「模型供應(yīng)商」進(jìn)化到了「技術(shù)平臺共建」，Cowork把Claude的Agent骨架直接嵌進(jìn)了M365的肌肉里。

微軟本月早些時(shí)候已以測試模式發(fā)布Copilot Cowork，目標(biāo)是「抓住市場對自主AI智能體日益增長的需求」。

所以，這不是一次產(chǎn)品更新，這是一次架構(gòu)級別的站隊(duì)。

微軟的真正野心

從AI助手到模型指揮中心

把以上所有動作連起來看，微軟的戰(zhàn)略意圖已經(jīng)很清晰：它不再押注自己或者某一個(gè)模型能贏，而是轉(zhuǎn)向押注無論誰贏，流量都經(jīng)過我。

從對OpenAI的深度依賴，到把Anthropic的技術(shù)深度整合進(jìn)產(chǎn)品線，微軟正在從「模型選手」轉(zhuǎn)型為「編排層」。

Critique讓GPT和Claude協(xié)作，Council讓它們競爭，Cowork讓Anthropic的Agent能力直接為Office用戶服務(wù)。

這是平臺邏輯，不是模型邏輯。

正面戰(zhàn)場上，微軟同時(shí)在硬剛谷歌Gemini的多模態(tài)路線和Anthropic Claude Cowork的自主Agent路線。

但當(dāng)Anthropic、OpenAI、谷歌三巨頭的模型格局已經(jīng)成型，微軟的策略不是下場當(dāng)選手，而是用生態(tài)開放把所有選手的能力收編進(jìn)自己的平臺。

對開發(fā)者來說，信號已經(jīng)非常明確：未來的競爭力不在于綁死一個(gè)模型，而在于編排多模型的能力。

但市場對于微軟這次Copilot升級，似乎并不買賬。

微軟股價(jià)當(dāng)日僅微漲約1%，本季度仍面臨近25%的跌幅：這是2008年金融危機(jī)以來最差的單季表現(xiàn)。

華爾街更在意的，可能是落地?cái)?shù)據(jù)：多模型來回調(diào)用的成本誰買單？企業(yè)員工真能把它融入日常工作流？

可以確定的是，這次升級改寫了微軟與OpenAI的合作關(guān)系，OpenAI在微軟生態(tài)里的位置，已經(jīng)從「唯一的王牌」變成了「牌桌上的一張」。

而對Anthropic、OpenAI、谷歌三家來說，值得警惕的是：當(dāng)平臺方開始把你的能力當(dāng)作可替換的模塊來編排，模型能力本身或許就不再是護(hù)城河了。

企業(yè)級AI正在從「聊天機(jī)器人」時(shí)代翻篇，進(jìn)入「工作系統(tǒng)」時(shí)代。

這個(gè)轉(zhuǎn)折點(diǎn)上，決定勝負(fù)的不再是誰家的benchmark最高，而是誰能把多個(gè)模型編排成一條可靠的、可審計(jì)的、可落地的工作流。

參考資料：

https://www.reuters.com/business/microsoft-unveils-ai-upgrades-rolls-out-copilot-cowork-early-access-customers-2026-03-30/

https://techcommunity.microsoft.com/blog/microsoft365copilotblog/introducing-multi-model-intelligence-in-researcher/4506011

https://www.microsoft.com/en-us/microsoft-365/blog/2026/03/30/copilot-cowork-now-available-in-frontier/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.