国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

Gemini最強(qiáng)版本上線:推理斷層領(lǐng)先,姚順宇預(yù)告更強(qiáng)版本還在路上

0
分享至

就在上周谷歌發(fā)布 Gemini Deep Think 重大更新后,谷歌于今日正式推出新一代基礎(chǔ)大模型 Gemini 3.1 Pro。

谷歌 CEO 桑達(dá)爾·皮查伊(Sundar Pichai)在社交平臺(tái)上確認(rèn)了這一消息。他表示,Gemini 3.1 Pro 相較前代 Gemini 3 Pro 的 31.1% 提升顯著。新模型在處理復(fù)雜概念可視化、多源數(shù)據(jù)整合、創(chuàng)意項(xiàng)目落地等任務(wù)時(shí)表現(xiàn)更為出色,目前已逐步接入消費(fèi)者與開發(fā)者產(chǎn)品。

去年9月加入谷歌 DeepMind 的清華大學(xué)校友、AI 研究員姚順宇也在社交平臺(tái)分享了相關(guān)進(jìn)展,并暗示后續(xù)還有更強(qiáng)模型正在籌備中。


(來源:X)

從“.5”到“.1”的版本策略調(diào)整

按照谷歌以往的發(fā)布節(jié)奏,重大更新多集中在年中(如 Google I/O 大會(huì)),且常以“.5”后綴標(biāo)識(shí)中期升級(jí)。但此次距離 Gemini 3 Pro 發(fā)布僅三個(gè)月,便推出了帶“.1”后綴的 3.1 Pro,可見谷歌底層技術(shù)迭代加速,以及推動(dòng)最新研究成果落地的節(jié)奏調(diào)整。

支撐這一節(jié)奏的,是新模型在核心推理能力上的提升。關(guān)鍵在于 ARC-AGI(抽象與推理語料庫)基準(zhǔn)測試。該測試不依賴知識(shí)記憶,而是考察模型面對(duì)陌生視覺與邏輯謎題時(shí)的多步推演能力,被視作衡量 AI 泛化與流體智力的重要參考。

在官方驗(yàn)證的 ARC-AGI-2 測試中,Gemini 3.1 Pro 得分為 77.1%,而數(shù)月前的 3 Pro 為 31.1%。橫向?qū)Ρ?,Anthropic 的 Claude Opus 4.6 得分為 68.8%,OpenAI 的 GPT-5.2 為 52.9%。這一差距說明,大模型在處理非結(jié)構(gòu)化、未見過的推理任務(wù)時(shí),正逐步從模式匹配向邏輯推演演進(jìn)。


(來源:Google)

多項(xiàng)測試占優(yōu),細(xì)分場景仍存差距

除抽象推理外,谷歌公布的技術(shù)文檔顯示,Gemini 3.1 Pro 在 16 項(xiàng)主流基準(zhǔn)測試中,有 12 項(xiàng)位列第一(含并列),覆蓋學(xué)術(shù)知識(shí)、科學(xué)問答、代碼生成、智能體協(xié)作及長上下文理解等方向。

在學(xué)術(shù)與科學(xué)能力方面,它在無外部工具輔助的 Humanity's Last Exam(人類終極考試)測試中準(zhǔn)確率達(dá) 44.4%,在高難度科學(xué)知識(shí)測試 GPQA Diamond 中得分 94.3%。這兩項(xiàng)成績均以較高幅度優(yōu)于當(dāng)前主流競品,體現(xiàn)出模型在知識(shí)儲(chǔ)備與邏輯推導(dǎo)上的優(yōu)勢。


(來源:Google)

在開發(fā)者關(guān)注的代碼與工程能力上,Terminal-Bench 2.0(終端操作代理測試)成功率達(dá) 68.5%,SWE-Bench Verified(真實(shí) GitHub 問題求解)單次嘗試得分 80.6%,與 Claude Opus 4.6 處于同一梯隊(duì);LiveCodeBench Pro 的 Elo 評(píng)分更是達(dá)到 2,887 分,顯著領(lǐng)先于 GPT-5.2 的 2,393 分。

在多模態(tài)與長上下文理解方面,MCP Atlas(多步驟工作流)得分 69.2%,BrowseComp(代理搜索)85.9%,MMMLU(多語種問答)92.6%;在 128k 上下文的 MRCR v2 檢索測試中,與 Claude Sonnet 4.6 并列第一(84.9%)。整體來看,新模型在多個(gè)維度展現(xiàn)出較為均衡的能力儲(chǔ)備,而非單一維度的"偏科"優(yōu)勢。

盡管綜合表現(xiàn)突出,當(dāng)前大模型賽道已進(jìn)入差異化競爭階段,各模型在特定場景下仍各有側(cè)重。

例如在面向?qū)嶋H工程場景的 SWE-Bench Pro 測試中,OpenAI 專為代碼優(yōu)化的 GPT-5.3-Codex 以 56.8% 領(lǐng)先,Gemini 3.1 Pro 為 54.2%;在評(píng)估商業(yè)流程操作的 GDPval-AA 測試中,Claude Sonnet 4.6 以 1633 分顯著高于 Gemini 3.1 Pro 的 1317 分。

此外,在允許調(diào)用搜索與代碼工具的 HLE 測試中,Claude Opus 4.6 略優(yōu)于 Gemini 3.1 Pro;而在多模態(tài)理解測試 MMMU Pro 中,3.1 Pro 甚至微幅落后于前代 3 Pro。谷歌也未披露該模型的具體參數(shù)規(guī)模與訓(xùn)練數(shù)據(jù)細(xì)節(jié)。

從深度推理到日常應(yīng)用

此次 Gemini 3.1 Pro 的性能飛躍,源于此前推出的 Gemini 3 Deep Think 模型。后者專攻科學(xué)計(jì)算與復(fù)雜工程,其卓越的推理能力已在國際奧賽等場景中得到實(shí)證。Gemini 3.1 Pro 則進(jìn)一步將這種‘專家級(jí)’的核心能力拓展至通用領(lǐng)域,從而能夠服務(wù)于更廣泛的開發(fā)與用戶需求。

谷歌官方博客列舉了若干應(yīng)用場景:

首先在基于代碼的動(dòng)畫生成方面,3.1 Pro 能夠直接根據(jù)文本提示生成適用于網(wǎng)站的 SVG 動(dòng)畫。由于此類動(dòng)畫由純代碼而非像素位圖構(gòu)成,因此具備無損縮放特性,在任何分辨率下均能保持清晰,且文件體積遠(yuǎn)小于先前形式。

其次是數(shù)據(jù)處理場景。 Gemini 3.1 Pro 展現(xiàn)了卓越的“工具使用(Tool Use)”能力。以國際空間站(ISS)軌道追蹤為例,模型不僅能自主研讀 NASA 復(fù)雜的 API 文檔、編寫數(shù)據(jù)抓取腳本,還能實(shí)時(shí)處理回傳的流式遙測數(shù)據(jù)。令人吃驚的是,它能同步調(diào)用 D3.js 等可視化庫,快速搭建出包含實(shí)時(shí)經(jīng)緯度、軌道投影及速度指標(biāo)的交互式儀表盤。

還有創(chuàng)意編程能力。模型能夠深入理解文學(xué)名著(如海明威作品),提煉文字背后隱含的風(fēng)格特征,轉(zhuǎn)換成具體的交互界面細(xì)節(jié)。例如將簡潔有力的短句轉(zhuǎn)化為“極簡主義”排版,將硬朗的情感基調(diào)映射為“高對(duì)比度”配色。最終,這些抽象的美學(xué)特征被精準(zhǔn)轉(zhuǎn)譯為 CSS/HTML 代碼。這種跨模態(tài)轉(zhuǎn)換能力,使得文字創(chuàng)作者能以極低的成本,將抽象的文學(xué)內(nèi)核注入數(shù)字產(chǎn)品的交互界面之中。

最后是深度交互設(shè)計(jì)。3.1 Pro 能夠構(gòu)建復(fù)雜的三維“椋鳥低語”模擬場景。這不僅僅是視覺代碼的生成,更是沉浸式體驗(yàn)的營造:用戶可通過手勢追蹤操控鳥群,并聆聽隨鳥類動(dòng)作實(shí)時(shí)變化的生成式樂譜。對(duì)于研究人員和設(shè)計(jì)師而言,這為原型化多感官豐富的界面提供了強(qiáng)有力的工具。

此外,為加速能力落地,谷歌此次采取了分層部署策略。

普通用戶可通過更新后的 Gemini 應(yīng)用體驗(yàn)基礎(chǔ)功能;高階訂閱用戶在 NotebookLM 平臺(tái)可獨(dú)家接入 3.1 Pro 并享受更高調(diào)用額度。開發(fā)者可通過 Google AI Studio 申請 API 預(yù)覽權(quán)限,Gemini CLI 與 Android Studio 已完成首批適配;企業(yè)客戶則支持通過 Vertex AI 與 Gemini Enterprise 集成至私有業(yè)務(wù)流。這種"由淺入深"的推進(jìn)方式,有助于不同層級(jí)的用戶按需接入。

目前,3.1 Pro 已以預(yù)覽版形式上線谷歌代理式開發(fā)平臺(tái) Antigravity。谷歌表示,此舉旨在復(fù)雜多步任務(wù)場景中進(jìn)一步驗(yàn)證與優(yōu)化模型表現(xiàn),為后續(xù)全面推廣積累經(jīng)驗(yàn)。

總體來看,Gemini 3.1 Pro 在推理能力與多維度任務(wù)表現(xiàn)上確有提升,尤其在抽象邏輯與代碼工程方向優(yōu)勢明顯。但大模型競爭已進(jìn)入"場景適配"階段,技術(shù)選型需結(jié)合具體需求理性評(píng)估。對(duì)于關(guān)注成本、穩(wěn)定性與落地效率的用戶而言,持續(xù)觀察其在真實(shí)業(yè)務(wù)中的表現(xiàn),或許比基準(zhǔn)測試分?jǐn)?shù)更具參考價(jià)值。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
大快人心!打人夫妻再迎3大噩耗,舅舅被曝惡行,勢力再大也沒用

大快人心!打人夫妻再迎3大噩耗,舅舅被曝惡行,勢力再大也沒用

社會(huì)日日鮮
2026-02-28 11:20:06
外媒稱哈梅內(nèi)伊在其工作場所遇害,為何沒躲避?為何能精準(zhǔn)定位?

外媒稱哈梅內(nèi)伊在其工作場所遇害,為何沒躲避?為何能精準(zhǔn)定位?

之乎者也小魚兒
2026-03-01 11:44:00
伊朗確認(rèn)哈梅內(nèi)伊遇害,有指定的接班人嗎?對(duì)伊朗局勢有何影響?

伊朗確認(rèn)哈梅內(nèi)伊遇害,有指定的接班人嗎?對(duì)伊朗局勢有何影響?

之乎者也小魚兒
2026-03-01 10:28:33
監(jiān)獄里會(huì)發(fā)勞動(dòng)報(bào)酬嗎?一網(wǎng)友稱老公2月收入83元,坐牢3年多了…

監(jiān)獄里會(huì)發(fā)勞動(dòng)報(bào)酬嗎?一網(wǎng)友稱老公2月收入83元,坐牢3年多了…

火山詩話
2026-03-01 07:41:44
首日戰(zhàn)況:美以三板斧襲擊伊朗斬首戰(zhàn)果顯著,哈梅內(nèi)伊及親屬遇難

首日戰(zhàn)況:美以三板斧襲擊伊朗斬首戰(zhàn)果顯著,哈梅內(nèi)伊及親屬遇難

裝甲鏟史官
2026-03-01 10:32:21
法國和浙江同為6000萬人口,2025年法國創(chuàng)3萬億美元GDP,浙江呢?

法國和浙江同為6000萬人口,2025年法國創(chuàng)3萬億美元GDP,浙江呢?

八斗小先生
2026-02-28 18:56:17
美以對(duì)伊朗斬首轟炸得逞 “反常規(guī)”白天空襲是成功關(guān)鍵

美以對(duì)伊朗斬首轟炸得逞 “反常規(guī)”白天空襲是成功關(guān)鍵

洪超飛軍事
2026-03-01 11:47:26
被美以轟炸后,伊朗民眾為何不慌?甚至在跳舞歡呼慶祝

被美以轟炸后,伊朗民眾為何不慌?甚至在跳舞歡呼慶祝

老馬拉車莫少裝
2026-02-28 22:43:52
特朗普突然發(fā)文昭告全球,包括中國俄羅斯在內(nèi),這次一個(gè)都跑不掉

特朗普突然發(fā)文昭告全球,包括中國俄羅斯在內(nèi),這次一個(gè)都跑不掉

帶你領(lǐng)略快樂真諦
2026-02-28 16:55:50
學(xué)費(fèi)太貴!一家長哭訴繳費(fèi)11000多,網(wǎng)友:上私立高中就不要抱怨

學(xué)費(fèi)太貴!一家長哭訴繳費(fèi)11000多,網(wǎng)友:上私立高中就不要抱怨

火山詩話
2026-03-01 12:06:34
特朗普應(yīng)該想不到:他對(duì)伊朗的滅國之戰(zhàn),讓中俄歐看清了一個(gè)真相

特朗普應(yīng)該想不到:他對(duì)伊朗的滅國之戰(zhàn),讓中俄歐看清了一個(gè)真相

頭條爆料007
2026-02-28 18:49:20
陸軍總司令遇難,最高領(lǐng)袖已被炸?伊朗報(bào)復(fù),第一支援兵出現(xiàn)

陸軍總司令遇難,最高領(lǐng)袖已被炸?伊朗報(bào)復(fù),第一支援兵出現(xiàn)

吳欣純Deborah
2026-03-01 12:28:11
又漲停!18天14板“大牛股”,明起停牌!

又漲停!18天14板“大牛股”,明起停牌!

每日經(jīng)濟(jì)新聞
2026-02-26 21:08:13
傾家蕩產(chǎn)移居美國,得絕癥回國蹭醫(yī)保,工作人員:外籍人員不報(bào)銷

傾家蕩產(chǎn)移居美國,得絕癥回國蹭醫(yī)保,工作人員:外籍人員不報(bào)銷

涼了時(shí)光人
2026-02-28 17:43:57
伊朗發(fā)動(dòng)大規(guī)模襲擊:已襲擊27個(gè)美軍基地和以軍總司令部等地;伊方公布導(dǎo)彈擊中以軍總參謀部圖

伊朗發(fā)動(dòng)大規(guī)模襲擊:已襲擊27個(gè)美軍基地和以軍總司令部等地;伊方公布導(dǎo)彈擊中以軍總參謀部圖

極目新聞
2026-03-01 13:09:32
特朗普稱伊朗最高領(lǐng)袖哈梅內(nèi)伊已身亡!以色列高級(jí)官員:哈梅內(nèi)伊遺體已在其官邸廢墟中被找到

特朗普稱伊朗最高領(lǐng)袖哈梅內(nèi)伊已身亡!以色列高級(jí)官員:哈梅內(nèi)伊遺體已在其官邸廢墟中被找到

每日經(jīng)濟(jì)新聞
2026-03-01 06:45:13
切斷霍爾木茲海峽后會(huì)發(fā)生什么?專家:布倫特原油可能率先突破80美元

切斷霍爾木茲海峽后會(huì)發(fā)生什么?專家:布倫特原油可能率先突破80美元

財(cái)聯(lián)社
2026-03-01 11:29:10
上海電影院現(xiàn)場被捉奸,帶情夫當(dāng)老公面出軌,狗血女主角真容曝光

上海電影院現(xiàn)場被捉奸,帶情夫當(dāng)老公面出軌,狗血女主角真容曝光

天天熱點(diǎn)見聞
2026-03-01 04:39:01
女子回湖北婆家過年,車被妯娌砸稀爛,報(bào)警后絕不和解,結(jié)局爽了

女子回湖北婆家過年,車被妯娌砸稀爛,報(bào)警后絕不和解,結(jié)局爽了

不寫散文詩
2026-02-28 17:19:21
推翻阿薩德一年后,敘利亞人后悔了嗎?看看百年前的新疆就懂了

推翻阿薩德一年后,敘利亞人后悔了嗎?看看百年前的新疆就懂了

知識(shí)TNT
2026-02-28 12:25:03
2026-03-01 14:12:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評(píng)論獨(dú)家合作
16340文章數(shù) 514679關(guān)注度
往期回顧 全部

數(shù)碼要聞

價(jià)格已漲2.5倍!網(wǎng)友網(wǎng)購2條8GB內(nèi)存故障退貨:還被商家收15%折舊費(fèi)

頭條要聞

哈梅內(nèi)伊生前已安排好"后事" 總統(tǒng)佩澤希齊揚(yáng)被邊緣化

頭條要聞

哈梅內(nèi)伊生前已安排好"后事" 總統(tǒng)佩澤希齊揚(yáng)被邊緣化

體育要聞

火箭輸給熱火:烏度卡又輸斯波教練

娛樂要聞

《江山為聘》:吳謹(jǐn)言陳哲遠(yuǎn)燃炸朝堂

財(cái)經(jīng)要聞

中東局勢升級(jí) 如何影響A股、黃金和原油

科技要聞

小米超跑概念車全球首秀!殺入頂豪俱樂部

汽車要聞

小米汽車2月交付超20000臺(tái) 雷軍:為新SU7量產(chǎn)作準(zhǔn)備

態(tài)度原創(chuàng)

本地
時(shí)尚
健康
數(shù)碼
教育

本地新聞

津南好·四時(shí)總相宜

普通人穿衣不需要太復(fù)雜!顏色恰當(dāng)、搭配和諧,高級(jí)又耐看

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

數(shù)碼要聞

DDR4價(jià)格已連續(xù)11個(gè)月上漲

教育要聞

全了!浙江11地開學(xué)時(shí)間匯總,這份安全攻略請收好!

無障礙瀏覽 進(jìn)入關(guān)懷版