国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

谷歌最新 Gemini Agent 爆擊GPT-5.2?人類最后考試得分見分曉!網(wǎng)友:Altman又該發(fā)“紅色警報”了

0
分享至


作者|冬梅

在全球人工智能領(lǐng)域競爭快速升溫的當(dāng)下,谷歌與 OpenAI 再次在同一天拋出重磅更新,令整個行業(yè)的注意力高度集中。

昨天夜里,谷歌發(fā)布了全新“重新構(gòu)想”的 Gemini Deep Research 版本,并首次開放了嵌入式研究智能體 API。


而幾乎同時,OpenAI 正式發(fā)布了備受期待的 GPT-5.2(代號 Garlic)。兩家公司圍繞智能體(Agent)未來、基礎(chǔ)大模型能力邊界以及應(yīng)用生態(tài)主導(dǎo)權(quán)的競爭,正進入一個前所未有的焦灼階段。

這一次,谷歌和 OpenAI 的攻防幾乎精確地踩在同一時間窗口,讓外界得以清晰觀察這兩家全球 AI 巨頭之間的戰(zhàn)略對抗節(jié)奏。


谷歌推出全新 Deep Research Agent

谷歌推出的全新 Gemini Deep Research 工具是一款智能 Agent,能夠整合海量信息并處理提示信息中大量的上下文數(shù)據(jù)。谷歌表示,客戶使用 Deep Research Agent 執(zhí)行的任務(wù)范圍廣泛,從盡職調(diào)查到藥物毒性安全研究均有涉及。

谷歌還表示,很快會將這款全新的 Deep Research Agent 集成到其各項服務(wù)中,包括谷歌搜索、谷歌財經(jīng)、Gemini 應(yīng)用以及廣受歡迎的 NotebookLM。這標(biāo)志著谷歌正朝著一個未來世界邁出又一步:未來,人類將不再使用谷歌搜索任何內(nèi)容,而是由人工智能代理代勞。

具體而言,Deep Research Agent 有哪些能力?

在此次更新中,Google 不僅對 Deep Research Agent 進行了架構(gòu)級的再設(shè)計,還以 Gemini 3 Pro 為核心基礎(chǔ)模型,構(gòu)建了一個更加穩(wěn)定、準(zhǔn)確、可追溯的深度研究系統(tǒng)。新版 Deep Research Agent 的能力提升可總結(jié)為三個關(guān)鍵方向:模型升級、推理穩(wěn)定性突破以及交互能力全面增強。

先說模型升級。新版 Deep Research Agent 完全基于 Gemini 3 Pro 構(gòu)建,而 Gemini 3 Pro 被谷歌視為其迄今最“真實”、最可靠、最適合長鏈推理的旗艦?zāi)P桶姹尽9雀鑿娬{(diào),這不僅是性能提升,更是研究型智能體“可依賴性”的質(zhì)變。

為了構(gòu)建這樣的智能體,谷歌采用了多步強化學(xué)習(xí)(Reinforcement Learning over Multi-step Trajectories)的訓(xùn)練策略。其目標(biāo)非常明確:在長達數(shù)十步、數(shù)百步的復(fù)雜研究任務(wù)中,AI 必須保持推理路徑穩(wěn)定,減少出現(xiàn)幻覺的概率,并確保連續(xù)決策過程中的一致性。

傳統(tǒng) LLM 在長鏈推理中的主要痛點之一,就是每一步推理都會引入累計誤差——只要一個幻覺性的節(jié)點,就可能導(dǎo)致整個輸出結(jié)果失效。谷歌強調(diào),新版 Deep Research 在這一點上取得重大突破:

  • 多輪強化學(xué)習(xí)優(yōu)化決策序列

  • 在冗長任務(wù)鏈中顯著減少邏輯偏移

  • 更穩(wěn)定的檢索—分析—推理—引用閉環(huán)

這使得 Deep Research 可以承擔(dān)以往 LLM 無法勝任的任務(wù),例如完整執(zhí)行跨天級研究、政策評估、多源數(shù)據(jù)整合和全流程盡職調(diào)查。

新版 Deep Research Agent 的另一個核心優(yōu)勢是其超大規(guī)模上下文處理能力。在 Gemini 3 Pro 的支持下,它可以一次性處理遠超以往的資料量,包括學(xué)術(shù)論文、官方報告、長篇網(wǎng)頁內(nèi)容等,更重要的是,谷歌為 Deep Research 加入了一項“研究級標(biāo)準(zhǔn)能力”:它會為每一條觀點、每一個結(jié)論自動附上可追溯引用來源。引用不僅是網(wǎng)址鏈接,而是結(jié)構(gòu)化地指向原文中的關(guān)鍵片段或段落,以確保輸出可信、觀點可查,用戶可進行二次調(diào)查與審核 。這使 Deep Research 不是“生成內(nèi)容”,而是“提供帶證據(jù)鏈的研究結(jié)果”。

此次版本更新不僅是功能升級,而是谷歌圍繞“研究型智能體生態(tài)”的一次系統(tǒng)性發(fā)布。除了 Deep Research Agent 更新,谷歌還推出兩項關(guān)鍵新能力:開源全新網(wǎng)絡(luò)研究智能體基準(zhǔn):DeepSearchQA 和全新交互 API。

在當(dāng)前行業(yè)中,網(wǎng)絡(luò)研究型智能體缺乏統(tǒng)一衡量標(biāo)準(zhǔn)。為了證明谷歌取得的進展,谷歌又創(chuàng)建了一個新的基準(zhǔn)測試。這個新基準(zhǔn)測試名為 DeepSearchQA,旨在測試智能體在復(fù)雜的多步驟信息檢索任務(wù)中的表現(xiàn)。谷歌已將該基準(zhǔn)測試開源。


DeepSearchQA 開源地址:
https://www.kaggle.com/benchmarks/google/dsqa/leaderboard

DeepSearchQA 包含 17 個領(lǐng)域共 900 道精心設(shè)計的“因果鏈”任務(wù),每一步都依賴于先前的分析。與傳統(tǒng)的基于事實的測試不同,DeepSearchQA 衡量的是全面性,要求智能體生成詳盡的答案集。這既評估了研究的精確度,也評估了檢索召回率。



對比 pass@8 和 pass@1 的結(jié)果,可以證明讓智能體探索多條并行路徑進行答案驗證的價值。這些結(jié)果是在 DeepSearchQA 的 200 個提示子集上計算得出的。

全新的 Deep Research Agent 在“人類最后的考試”(HLE)和 DeepSearchQA 測試中取得了最先進的成果,并在 BrowseComp 測試中表現(xiàn)最佳。它經(jīng)過優(yōu)化,能夠以更低的成本生成高質(zhì)量的研究報告。

基準(zhǔn)測試結(jié)果令人驚嘆。它基于 Gemini 3 Pro 核心構(gòu)建,但采用智能體工作流程來實現(xiàn)最先進的性能。統(tǒng)計數(shù)據(jù)(來自圖表):

  • 人類的最后考試(HLE): 46.4%(顯著優(yōu)于 GPT-5 Pro 的 38.9%)

  • DeepSearchQA: 66.1%(略勝 GPT-5 Pro 的 65.2%)

  • BrowseComp: 59.2%(與 GPT-5 Pro 不分伯仲)


Gemini Deep Research 在完整的“人類最后的考試”(HLE)數(shù)據(jù)集上取得了 46.4% 的領(lǐng)先成績,在 DeepSearchQA 上取得了 66.1% 的成績,在 BrowseComp 上取得了高達 59.2% 的成績。

Interactions API 是谷歌此次發(fā)布的最具戰(zhàn)略意義的能力之一。它讓開發(fā)者首次能夠以結(jié)構(gòu)化方式控制智能體的行為狀態(tài)、推理步驟、長鏈任務(wù)執(zhí)行、中間狀態(tài)存儲等,這意味著以前開發(fā)者只能“向模型發(fā)問”,而現(xiàn)在開發(fā)者可以“調(diào)教智能體如何執(zhí)行任務(wù)”。


網(wǎng)友怎么看?

在谷歌發(fā)布新版 Deep Research Agent 后,技術(shù)社區(qū)的反應(yīng)同樣值得關(guān)注。

在 Hacker News 與 Reddit 相關(guān)討論帖中,不少開發(fā)者表達了對谷歌此次“真正把 Agent 做成工程化產(chǎn)品”的肯定。

在 Reddit 上,有用戶對技術(shù)的進步發(fā)出感嘆:

“太不可思議了!我覺得我們還沒有充分意識到這一點。過去三年我們?nèi)〉玫倪M步簡直令人難以置信!”


有網(wǎng)友指出,谷歌首次在產(chǎn)品層面強調(diào)“可驗證引用”“端到端多步推理穩(wěn)定性”,是 AI Agent 領(lǐng)域一次明顯的進步。

一位自稱長期從事合規(guī)審閱工作的用戶評論說:“如果 Deep Research 真的能做到逐步鏈路可審計,那將是第一次有大廠真正把 Agent 從玩具推向生產(chǎn)環(huán)境?!?/p>

但也有觀點保持謹慎,一位 Reddit 用戶批評道:“谷歌用自家基準(zhǔn)證明自己最強,這種事情已經(jīng)發(fā)生過太多次了。我們需要的是在真實網(wǎng)頁、真實任務(wù)中的第三方測試?!?/p>

谷歌這款新 Agent 的發(fā)布時間與 OpenAI GPT-5.2 是同一天,自然難逃網(wǎng)友們將兩者相比較的命運。

在 Reddit 上,有用戶提問這款 Deep Research Agent 與同一時間 OpenAI 發(fā)布的 GPT-5.2 相比如何,另一位用戶回答稱用途不同,但 GPT-5.2 更好。


為了將兩者進行更清晰的對比,還有網(wǎng)友找出了 OpenAI 研究員 Sebastien Bubeck

在領(lǐng)英上的發(fā)文,在這篇發(fā)文中,Sebastien Bubeck 稱 GPT-5.2 在人類的最后考試(HLE)中的得分是 45%,而谷歌這款新的 Agent 的得分是 46.4%,略高于 GPT-5.2。


同時,圍繞谷歌與 OpenAI 的競爭,也有人發(fā)出調(diào)侃式評論:“谷歌剛發(fā) Deep Research,OpenAI 就把 Garlic(GPT-5.2)端上來了,這倆公司現(xiàn)在簡直是在互相搶發(fā)新聞?!?/p>

還有人總結(jié)這場激烈競賽的節(jié)奏:“這已經(jīng)不是模型大戰(zhàn),而是發(fā)布會大戰(zhàn)。”

模型能力的“貼身肉搏”越演愈烈

基礎(chǔ)模型能力始終是兩家公司最具標(biāo)志性的競爭焦點。

2025 年初,谷歌推出的 Gemini 3 Pro 以其更“真實”、更可依賴、幻覺率更低的特性,試圖在長鏈推理和專業(yè)任務(wù)場景中重建優(yōu)勢。Gemini 3 Pro 強調(diào)檢索增強、多模態(tài)處理能力以及大規(guī)模上下文處理能力,在科研、法律、金融等高可信場景中表現(xiàn)亮眼。

而 OpenAI 在最新發(fā)布的 GPT-5.2(Garlic)中,強化了邏輯一致性、工具調(diào)用穩(wěn)定性以及智能體行為的自主性,進一步提升了跨任務(wù)泛化能力。內(nèi)部基準(zhǔn)測試顯示,GPT-5.2 在推理、代碼生成、多輪工具調(diào)度方面對 Gemini 保持領(lǐng)先,尤其是在 OpenAI 自研的“連續(xù)推理一致性 Benchmark”中表現(xiàn)突出。

兩者之間的能力差距被行業(yè)評論認為“已進入毫厘級別”——差距常常只體現(xiàn)在特定任務(wù)場景,而不再是全局性的優(yōu)勢。

如果說基礎(chǔ)模型決定了智能體能否思考,那么智能體平臺能力則決定了智能體能否執(zhí)行任務(wù)。

谷歌此次對 Gemini Deep Research Agent 進行全面重構(gòu),可視為其正式加入智能體戰(zhàn)爭的關(guān)鍵節(jié)點。

新版 Deep Research Agent 具有三大亮點:

  • 基于 Gemini 3 Pro 全面重寫推理鏈路

  • 采用多步強化學(xué)習(xí)訓(xùn)練,保持長鏈任務(wù)中決策一致性,顯著降低幻覺概率

  • 提供全鏈路引用,可追溯每個觀點的證據(jù)來源

這使其從“報告生成工具”升級為“可執(zhí)行完整研究任務(wù)的專業(yè)智能體”。更關(guān)鍵的是,谷歌推出了結(jié)構(gòu)化控制智能體行為的 Interactions API,開發(fā)者可以對智能體的每一階段、每一子任務(wù)進行高度可控的調(diào)度與狀態(tài)管理。這意味著 Deep Research Agent 不再是谷歌產(chǎn)品線內(nèi)部的能力,而是一個通用的智能體執(zhí)行引擎。

OpenAI 的智能體體系則更側(cè)重通用性和自由度。

Agent API、OpenAI Swarm、BrowserAgent、CodeAgent 已形成一個完整的智能體開發(fā)框架,加上 GPT-5.2 的推理一致性提升,讓其在自動化任務(wù)執(zhí)行、工具調(diào)用復(fù)雜度和環(huán)境適應(yīng)性上保持優(yōu)勢。

兩者競爭的是:未來軟件開發(fā)將以智能體為核心,而誰掌握了智能體框架標(biāo)準(zhǔn),誰就掌握了新一代計算范式的主導(dǎo)權(quán)。

https://ai.google.dev/gemini-api/docs/deep-research?hl=zh-cn

https://techcrunch.com/2025/12/11/google-launched-its-deepest-ai-research-agent-yet-on-the-same-day-openai-dropped-gpt-5-2/

聲明:本文為 InfoQ 翻譯整理,不代表平臺觀點,未經(jīng)許可禁止轉(zhuǎn)載。

會議預(yù)告

12 月 19~20 日,AICon 2025 年度收官站在北京舉辦?,F(xiàn)已開啟 9 折優(yōu)惠。

兩天時間,聊最熱的 Agent、上下文工程、AI 產(chǎn)品創(chuàng)新等等話題,與頭部企業(yè)與創(chuàng)新團隊的專家深度交流落地經(jīng)驗與思考。2025 年最后一場,不容錯過。

今日薦文

你也「在看」嗎?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
利物浦哭暈!5000萬中衛(wèi)效仿阿諾德 拒續(xù)約自由身離隊 3豪門哄搶

利物浦哭暈!5000萬中衛(wèi)效仿阿諾德 拒續(xù)約自由身離隊 3豪門哄搶

我愛英超
2026-01-20 07:50:50
我調(diào)任市委書記后,被初戀嘲笑,秘書叫我書記后她驚呆了

我調(diào)任市委書記后,被初戀嘲笑,秘書叫我書記后她驚呆了

秋風(fēng)專欄
2025-12-23 15:18:07
女人動情時,身體會發(fā)出這3個“暗號”,根本藏不住,尤其第2個

女人動情時,身體會發(fā)出這3個“暗號”,根本藏不住,尤其第2個

王二哥老搞笑
2026-01-20 13:06:16
巴特勒重傷!勇士25分大勝復(fù)仇熱火,庫里創(chuàng)NBA第1神跡,嘴哥18分

巴特勒重傷!勇士25分大勝復(fù)仇熱火,庫里創(chuàng)NBA第1神跡,嘴哥18分

老侃侃球
2026-01-20 13:40:40
日經(jīng)225指數(shù)向下跌破53000點,最新報52954.02點,日內(nèi)下跌1.17%

日經(jīng)225指數(shù)向下跌破53000點,最新報52954.02點,日內(nèi)下跌1.17%

每日經(jīng)濟新聞
2026-01-20 08:33:04
秦始皇陵建好后,72萬工人全被殺,后世是怎么知道皇陵內(nèi)部情況的

秦始皇陵建好后,72萬工人全被殺,后世是怎么知道皇陵內(nèi)部情況的

銘記歷史呀
2026-01-19 16:51:15
好看的打扮不管在哪,都很吸引人

好看的打扮不管在哪,都很吸引人

美女穿搭分享
2026-01-01 11:01:35
別再買錯了!網(wǎng)購時“旗艦店”和“官方店”差2字,背后差別不小

別再買錯了!網(wǎng)購時“旗艦店”和“官方店”差2字,背后差別不小

復(fù)轉(zhuǎn)這些年
2026-01-20 08:10:05
中方瀟灑離場,大規(guī)模拋售美債,馬斯克已通知白宮:美基本沒救了

中方瀟灑離場,大規(guī)模拋售美債,馬斯克已通知白宮:美基本沒救了

快樂彼岸
2026-01-19 18:46:41
尊界回應(yīng)S800起火事件!

尊界回應(yīng)S800起火事件!

電動知家
2026-01-19 18:31:21
全球第二高鐵大國兩列高鐵脫軌相撞死傷慘重,事故“極其反常”

科普大世界
2026-01-19 21:33:25

才剛下課!阿隆索下家曝光!10億豪門送邀請,聯(lián)手愛徒,英超變天

才剛下課!阿隆索下家曝光!10億豪門送邀請,聯(lián)手愛徒,英超變天

阿泰希特
2026-01-20 11:00:21
自助餐為什么吃不回本?內(nèi)部員工透露:進門開始,你就已經(jīng)被套路

自助餐為什么吃不回本?內(nèi)部員工透露:進門開始,你就已經(jīng)被套路

平說財經(jīng)
2026-01-19 16:48:32
刪除所有合影,田樸珺王石離婚?最新回應(yīng)

刪除所有合影,田樸珺王石離婚?最新回應(yīng)

阿雹娛樂
2026-01-20 12:45:43
回顧許家印被抓捕現(xiàn)場,奮力反抗,怒吼不已,被抓捕人員抬出去

回顧許家印被抓捕現(xiàn)場,奮力反抗,怒吼不已,被抓捕人員抬出去

干史人
2026-01-08 22:47:00
法國人沒想到,到手的勝利,被樊振東死里逃生,搶六絕殺狠狠打臉

法國人沒想到,到手的勝利,被樊振東死里逃生,搶六絕殺狠狠打臉

攬星河的筆記
2026-01-19 19:24:37
1949年岡村寧次被老蔣無罪釋放,毛主席得知后大怒,連夜發(fā)令追捕

1949年岡村寧次被老蔣無罪釋放,毛主席得知后大怒,連夜發(fā)令追捕

云霄紀(jì)史觀
2026-01-20 03:21:55
最新消息!CBA“暴力控衛(wèi)”馳援杜鋒,保送廣東隊躺進總決賽!

最新消息!CBA“暴力控衛(wèi)”馳援杜鋒,保送廣東隊躺進總決賽!

緋雨兒
2026-01-20 12:09:24
王菲捐款三千萬,支持李亞鵬,海哈金喜或復(fù)婚,六前任都沒罵過他

王菲捐款三千萬,支持李亞鵬,海哈金喜或復(fù)婚,六前任都沒罵過他

有范又有料
2026-01-20 13:49:49
剛給中國埋大雷,高市就迎致命一擊,日本內(nèi)部亂了:找死別帶我們

剛給中國埋大雷,高市就迎致命一擊,日本內(nèi)部亂了:找死別帶我們

陳輝論劍
2026-01-20 13:02:25
2026-01-20 14:20:49
AI前線 incentive-icons
AI前線
面向AI愛好者、開發(fā)者和科學(xué)家,提供AI領(lǐng)域技術(shù)資訊。
1257文章數(shù) 109關(guān)注度
往期回顧 全部

科技要聞

去年預(yù)虧60億后再投百億 兩大車企緊抱華為

頭條要聞

克羅地亞總統(tǒng)勸特朗普"考慮"斯瓦爾巴群島 挪威急跳腳

頭條要聞

克羅地亞總統(tǒng)勸特朗普"考慮"斯瓦爾巴群島 挪威急跳腳

體育要聞

新的時代!東契奇生涯首奪全明星票王 此前10年詹姆斯7次奪魁

娛樂要聞

貝克漢姆長子發(fā)文決裂:全家都在演戲

財經(jīng)要聞

2026年,7個趨勢正在爆發(fā)

汽車要聞

奇瑞張貴兵:墨甲不做秀技術(shù)的企業(yè) 只做痛點終結(jié)者

態(tài)度原創(chuàng)

本地
游戲
數(shù)碼
家居
公開課

本地新聞

云游遼寧|漫步千年小城晨昏,“康”復(fù)好心情

5年《賽馬娘》拯救世界賽馬業(yè) 吸引大批年輕玩家

數(shù)碼要聞

Toall蓮偶科技公布3.1mm 400g超薄超輕平板電腦Paper

家居要聞

雋永之章 清雅無塵

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版