国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

OpenAI深夜祭出GPT-5.4,暴擊Claude!原生操控電腦,打工人懸了

0
分享至


新智元報(bào)道

編輯:好困 桃子

【新智元導(dǎo)讀】OpenAI深夜突襲,GPT-5.4新王炸場(chǎng)!一夜之間,直接粉碎了Gemini 3.1 Pro和Claude Opus 4.6的神話。這也是頭一次,ChatGPT擁有真正「原生電腦使用」能力,辦公效率直接拉滿。而真正恐怖的地方在于,每一個(gè)維度上它都沒(méi)有短板。

被Gemini和Claude連續(xù)壓了一個(gè)月后,OpenAI終于動(dòng)手了。

就在剛剛,下一代旗艦GPT-5.4正式發(fā)布!

  • ChatGPT端:GPT-5.4 Thinking與GPT-5.4 Pro全面上線

  • 開(kāi)發(fā)者端:GPT-5.4接入API與Codex,并附帶極速版GPT-5.4 fast



之所以直接跳到5.4,是因?yàn)檫@是一次「推理+編程」的合流式跨越

成績(jī)單,直接炸裂。

  • GDPval勝率83%,叫板頂尖人類專家;

  • SWE-Bench Pro編程第一,F(xiàn)rontierMath數(shù)學(xué)第一;

  • ARC-AGI-2抽象推理跑出83.3%新高,Gemini 3.1 Pro的77.1%、Opus 4.6的68.8%,全部踩在腳下。

OpenAI這次,是真的翻身了。



左右滑動(dòng)查看


更炸的是,GPT-5.4還是首個(gè)擁有「原生電腦使用」能力的通用模型。

識(shí)別UI、操控鍵鼠、在軟件和網(wǎng)頁(yè)間穿梭自如,像人一樣操作電腦。

在OSWorld-Verified上,它直接拿下75%成功率,刷爆SOTA。

上一代GPT-5.2(47.3%),人類(72.4%),一個(gè)月前剛登頂?shù)腛pus 4.6(72.7%),通通都被超了。

沒(méi)錯(cuò),AI操作電腦,已經(jīng)比人類更熟練了。


能力融合上,GPT-5.4繼承了GPT-5.3-Codex的全部編程基因,并且新增了100萬(wàn)token上下文和原生工具搜索,一個(gè)模型打通推理、編程、操控全鏈路。

GPT-5.4 Thinking在思考時(shí),你還能隨時(shí)介入調(diào)整方向,不打斷思路,一次對(duì)話直接交付結(jié)果。

看來(lái),OpenClaw之父加入后,立馬讓ChatGPT原生「電腦操控」能力變強(qiáng)了!


定價(jià)方面,GPT-5.4再創(chuàng)新高,輸入價(jià)格2.5美元/百萬(wàn)token,輸出價(jià)格15美元/百萬(wàn)token。

Pro版本就更夸張了,輸入30美元/百萬(wàn)token,輸出180美元/百萬(wàn)token。



首個(gè)全能「計(jì)算機(jī)使用」通用模型

先說(shuō)最炸的部分。

GPT-5.4是OpenAI首個(gè)具備原生計(jì)算機(jī)使用能力的通用模型。

它能通過(guò)Playwright等庫(kù),編寫(xiě)代碼來(lái)控制計(jì)算機(jī),也能直接「看」屏幕截圖動(dòng)用鼠標(biāo)和鍵盤(pán)。

發(fā)郵件、排日程、填表格、跑流程,這些以前需要你點(diǎn)來(lái)點(diǎn)去的活兒,現(xiàn)在GPT-5.4自己都能干。

在OSWorld-Verified中,GPT-5.4直接刷出了75.0%的成功率。

要知道,就在一個(gè)月前剛登頂?shù)腃laude Opus 4.6,成績(jī)也不過(guò)72.7%。GPT-5.4一出手就把它甩開(kāi)了2.3%。


在WebArena-Verified上,同時(shí)使用DOM和截圖驅(qū)動(dòng)交互時(shí),GPT-5.4成功率達(dá)67.3%,領(lǐng)先GPT-5.2的65.4%。

在另一項(xiàng)Online-Mind2Web測(cè)試中,GPT-5.4僅靠截圖觀察就拿下了92.8%,而ChatGPT Atlas智能體模式只有70.9%,斷崖級(jí)領(lǐng)先。

不過(guò),GPT-5.4一切強(qiáng)大的執(zhí)行能力,都是建立在更強(qiáng)的「通用視覺(jué)感知」能力之上。

在MMMU-Pro上,GPT-5.4(不使用工具)的成功率81.2%,大幅優(yōu)于GPT-5.2(79.5%)。

視覺(jué)感知的提升,也直接轉(zhuǎn)化為更強(qiáng)的文檔解析能力。

在OmniDocBench上,GPT-5.4(未開(kāi)啟推理強(qiáng)度)的平均誤差為0.109,而GPT-5.2為0.140。


更重磅的是,GPT-5.4還首次引入「原始」(original)和「高」(high)圖像輸入細(xì)節(jié)級(jí)別。

前者支持最高1024萬(wàn)總像素,或最大單邊6000像素(以較低者為準(zhǔn))的全保真度感知;后者支持最高256萬(wàn)總像素或最大單邊2048像素。

在API早期測(cè)試中,GPT-5.4在定位能力、圖像理解和點(diǎn)擊準(zhǔn)確性均有大幅提升。

精通辦公三件套,干翻華爾街分析師

如果說(shuō)計(jì)算機(jī)使用是「硬功夫」,那知識(shí)工作就是GPT-5.4的「軟實(shí)力」。


在GDPval基準(zhǔn)測(cè)試中,GPT-5.4以83.0%的成績(jī),追平甚至超越了行業(yè)內(nèi)的專業(yè)人士。

上一代GPT-5.2僅有70.9%,一個(gè)版本的差距,直接拉開(kāi)了12個(gè)百分點(diǎn)。


GDPval測(cè)試橫跨美國(guó)GDP貢獻(xiàn)最大的9個(gè)行業(yè)、44種職業(yè),包括銷(xiāo)售演示文稿、會(huì)計(jì)電子表格、急診排班表、制造圖表、短視頻等,全部都是要求AI真刀真槍地交付工作產(chǎn)出。

GPT-5.4已經(jīng)能做PPT、做Excel、排班表了,而且做得比大多數(shù)專業(yè)人士還好。


在一項(xiàng)模擬初級(jí)投資銀行分析師的內(nèi)部電子表格建模測(cè)試中,GPT-5.4平均得分87.3%,GPT-5.2只有68.4%。


不僅如此,人類在68.0%的情況下,更偏好GPT-5.4生成的PPT,因其美感更強(qiáng)、視覺(jué)更豐富、圖像使用更高效。


幻覺(jué)率暴降33%

為了讓GPT-5.4真正勝任實(shí)際工作,OpenAI在減少幻覺(jué)和事實(shí)錯(cuò)誤上持續(xù)發(fā)力。

這么說(shuō)吧,GPT-5.4是OpenAI迄今為止,最講求事實(shí)的模型。

在一組去標(biāo)識(shí)化的、包含用戶標(biāo)記事實(shí)錯(cuò)誤的提示詞集中,相對(duì)于GPT-5.2,GPT-5.4單獨(dú)聲明出錯(cuò)的概率降低了33%,整個(gè)回復(fù)包含任何錯(cuò)誤的概率降低了18%。

推理+代碼合體,一個(gè)模型全搞定

GPT-5.4的另一個(gè)大招,完整繼承了GPT-5.3-Codex的編程能力。

這意味著,不再需要在「聰明的模型」和「能寫(xiě)代碼的模型」之間來(lái)回切換。一個(gè)模型,全部搞定。

在SWE-Bench Pro測(cè)試中,GPT-5.4拿下了57.7%準(zhǔn)確率,媲美甚至超越了GPT-5.3-Codex(56.8%)。


但真正的殺手锏不是分?jǐn)?shù),而是效率。

GPT-5.4是OpenAI迄今Token效率最高的推理模型,解決相同問(wèn)題所需的Token大幅減少,成本更低,速度更快。

而且在各種推理強(qiáng)度設(shè)置下,GPT-5.4的延遲都低于GPT-5.3-Codex。

在Codex的/fast模式下,其Token生成速度最高可提升1.5倍。同樣的智力,同樣的能力,只是快了50%。

通過(guò)API,開(kāi)發(fā)者也可以使用「優(yōu)先處理」(Priority Processing)獲得同樣飛快的速度。

內(nèi)部測(cè)試中,OpenAI還發(fā)現(xiàn),GPT-5.4在復(fù)雜的前端任務(wù)上表現(xiàn)卓越。

生成的界面不僅美觀,而且功能完備程度,遠(yuǎn)超此前任何模型。

為此,他們甚至還搞了個(gè)花活,發(fā)布了實(shí)驗(yàn)性的「Playwright Interactive」技能,讓Codex能一邊構(gòu)建Web應(yīng)用、一邊在瀏覽器中可視化調(diào)試測(cè)試。

  • 主題公園模擬游戲

僅憑一段提示詞,GPT-5.4就徒手搓出一個(gè)完整的經(jīng)營(yíng)類游戲。

這一個(gè)全自動(dòng)運(yùn)行的微觀世界,瓦片路網(wǎng)、設(shè)施建造、景觀美化一應(yīng)俱全。

而且,資金、客流、幸福感與評(píng)分系統(tǒng)環(huán)環(huán)相扣。

其中,Playwright充當(dāng)了最嚴(yán)苛的質(zhì)檢員:從瘋狂擴(kuò)建到設(shè)施拆除,從鏡頭導(dǎo)航到 UI 數(shù)據(jù)驗(yàn)證,經(jīng)過(guò)數(shù)輪自動(dòng)化高壓測(cè)試才最終交付。

傳送門(mén):https://developers.openai.com/showcase/theme-park-builder

  • 戰(zhàn)棋RPG

經(jīng)過(guò)多輪迭代,GPT-5.4打造出一款回合制網(wǎng)格戰(zhàn)斗游戲,包含移動(dòng)、行動(dòng)、站位和遭遇戰(zhàn)等完整系統(tǒng)。

圖像生成負(fù)責(zé)角色和美術(shù)風(fēng)格,Playwright在每一輪迭代中驗(yàn)證界面交互、檢查并微調(diào)UI行為和著色器效果,直到戰(zhàn)斗手感、視覺(jué)表現(xiàn)和整體體驗(yàn)全部調(diào)優(yōu)到位。

傳送門(mén):https://developers.openai.com/showcase/turn-based-rpg

  • 金門(mén)大橋飛行體驗(yàn)

同樣一段提示詞起步,GPT-5.4生成了一個(gè)可以自由飛行的超寫(xiě)實(shí)3D場(chǎng)景——

逼真的光照、水面、霧氣、懸索、橋上行駛的車(chē)流、周?chē)暮0毒€和城市背景,支持近距離結(jié)構(gòu)穿越和遠(yuǎn)景風(fēng)光俯瞰。

這里,Playwright化身「王牌飛行員」,開(kāi)啟多角度全自動(dòng)巡航測(cè)試。

它不僅驗(yàn)證渲染視口的穩(wěn)定性,還通過(guò)截圖反饋協(xié)助 AI 持續(xù)校準(zhǔn)構(gòu)圖與光影分布。 ,歷經(jīng)一小時(shí)的高頻迭代。

傳送門(mén):https://developers.openai.com/showcase/golden-gate-flight-experience

祭出「工具搜索」,Token狂砍47%

在工具使用上,GPT-5.4的進(jìn)化是多層次的。

  • 工具搜索

GPT-5.4引入了「工具搜索」功能,徹底解決了MCP工具太多,上下文爆炸的問(wèn)題。

只需要一個(gè)輕量級(jí)的可用工具列表,真正需要某個(gè)工具時(shí),它會(huì)自動(dòng)查找定義并即時(shí)加載。

在Scale的MCP Atlas基準(zhǔn)測(cè)試(250個(gè)任務(wù),開(kāi)啟全部36個(gè)MCP服務(wù)器)中,工具搜索配置在保持相同準(zhǔn)確率的同時(shí),將總Token使用量減少了47%。


這對(duì)于工具定義動(dòng)輒數(shù)萬(wàn)Token的MCP服務(wù)器來(lái)說(shuō),效率提升堪稱恐怖。

  • 智能體工具調(diào)用

在推理過(guò)程中,GPT-5.4決定「何時(shí)」以及「如何」使用工具時(shí),更加精準(zhǔn)。

在Toolathlon上,GPT-5.4以54.6%準(zhǔn)確率,大幅領(lǐng)先GPT-5.3-Codex(51.9%)、GPT-5.2(45.7%),而且用的輪次更少。

智能體現(xiàn)在能順暢完成「全套流程」——

閱讀電子郵件→提取作業(yè)附件→上傳附件→對(duì)作業(yè)評(píng)分→將結(jié)果記錄到電子表格


Toolathlon:評(píng)估多步任務(wù)中現(xiàn)實(shí)世界工具和API使用能力

對(duì)于延遲敏感的場(chǎng)景(推理強(qiáng)度設(shè)為None),GPT-5.4在τ2-bench電信客服任務(wù)上也大幅領(lǐng)先。

而在開(kāi)啟推理強(qiáng)度(xhigh)的情況下,GPT-5.4在τ2-bench上更是達(dá)到了98.9%,幾乎完美。


搜索暴漲17%,Pro版刷新紀(jì)錄

此外,GPT-5.4的智能體網(wǎng)絡(luò)搜索能力迎來(lái)了大幅升級(jí)。

上一次,在BrowseComp測(cè)試中,Claude Opus 4.6憑借84.0%的成績(jī)一騎絕塵,遠(yuǎn)超GPT-5.2 Pro(77.9%)。

但GPT-5.4 Pro直接以89.3%實(shí)現(xiàn)了反超,標(biāo)準(zhǔn)版的82.7%也和Opus 4.6咬得很緊。


在實(shí)際使用中,這意味著GPT-5.4 Thinking更擅長(zhǎng)回答需要從網(wǎng)絡(luò)多源頭整合信息的問(wèn)題。

它能更持久地進(jìn)行多輪搜索以篩選最相關(guān)的來(lái)源,尤其是「大海撈針」式的問(wèn)題,并將信息綜合成條理清晰、推理嚴(yán)密的答案。

GPT-5.4 Thinking同時(shí)還改進(jìn)了深度網(wǎng)絡(luò)研究能力。

特別是,針對(duì)極其具體的查詢,并且在處理需要長(zhǎng)時(shí)間思考的問(wèn)題時(shí)能更好地保持上下文。

中途可調(diào),告別推倒重來(lái)

GPT-5.4 Thinking在思考時(shí),還可以隨意介入,也不會(huì)打斷思路。


此功能現(xiàn)已在網(wǎng)頁(yè)和Android應(yīng)用上線,iOS版即將推出

更關(guān)鍵的是,你可以在它運(yùn)行中途直接調(diào)整方向、補(bǔ)充說(shuō)明,而不需要等它全部做完再推翻重來(lái)。

一次對(duì)話就能拿到想要的結(jié)果,省掉了來(lái)回拉扯的多輪溝通成本。

同時(shí),模型在處理困難任務(wù)時(shí)能進(jìn)行更深入的思考,對(duì)對(duì)話的歷史步驟保持更強(qiáng)的記憶感知。

OpenAI重回王座,AI格局再變天

GPT-5.4的發(fā)布,是OpenAI對(duì)Gemini 3.1 Pro和Claude Opus 4.6的一次全面反擊。

GPT-5.4的恐怖之處在于,它沒(méi)有短板。

推理、編程、視覺(jué)、工具使用、計(jì)算機(jī)操作、網(wǎng)絡(luò)搜索、知識(shí)工作,每一條線都拉到了頂尖水平。

這不是某個(gè)維度的突破,這是全維度的碾壓。

OpenAI用GPT-5.4告訴所有人:在通往AGI的路上,它依然是最不能被忽視的那個(gè)玩家。

詳細(xì)跑分:全維度碾壓

最后,附上GPT-5.4最全面的成績(jī)單。


參考資料:

https://x.com/OpenAI/status/2029620619743219811?s=20

https://developers.openai.com/api/docs/models/gpt-5.4

https://openai.com/index/introducing-gpt-5-4/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
今日最佳:意外得知b站真名。

今日最佳:意外得知b站真名。

差評(píng)XPIN
2026-03-09 00:09:39
煽動(dòng)分裂國(guó)家,李延賀被最高法點(diǎn)名

煽動(dòng)分裂國(guó)家,李延賀被最高法點(diǎn)名

極目新聞
2026-03-09 12:40:07
羨慕??!小米一位員工被裁領(lǐng)到賠償金后,又成功申請(qǐng)退休,預(yù)估每月8000多元

羨慕?。⌒∶滓晃粏T工被裁領(lǐng)到賠償金后,又成功申請(qǐng)退休,預(yù)估每月8000多元

新浪財(cái)經(jīng)
2026-03-08 17:55:13
Windows 11系統(tǒng)OpenClaw(龍蝦)安裝教程|保姆級(jí)一步到位

Windows 11系統(tǒng)OpenClaw(龍蝦)安裝教程|保姆級(jí)一步到位

星哥說(shuō)事
2026-03-08 23:47:27
捂牢!今天風(fēng)力增大!上海本周氣溫先抑后揚(yáng)將直沖……

捂牢!今天風(fēng)力增大!上海本周氣溫先抑后揚(yáng)將直沖……

上海靜安
2026-03-09 07:37:13
特朗普稱將在“適當(dāng)時(shí)機(jī)”作出結(jié)束對(duì)伊朗軍事行動(dòng)決定

特朗普稱將在“適當(dāng)時(shí)機(jī)”作出結(jié)束對(duì)伊朗軍事行動(dòng)決定

新華社
2026-03-09 11:37:27
全場(chǎng)起立鼓掌,默克爾重返CDU:默茨轉(zhuǎn)向中間震動(dòng)德國(guó)政壇

全場(chǎng)起立鼓掌,默克爾重返CDU:默茨轉(zhuǎn)向中間震動(dòng)德國(guó)政壇

阿器談史
2026-02-24 04:12:46
川音“淫魔”校長(zhǎng):88名女音樂(lè)教師,霸占87人,細(xì)節(jié)曝光不堪入目

川音“淫魔”校長(zhǎng):88名女音樂(lè)教師,霸占87人,細(xì)節(jié)曝光不堪入目

就一點(diǎn)
2026-03-08 10:54:42
恐怖!深圳一男子被確診艾滋病,傳染他的,是在上高中的17歲男生

恐怖!深圳一男子被確診艾滋病,傳染他的,是在上高中的17歲男生

火山詩(shī)話
2026-03-09 09:07:09
伊朗客戶失聯(lián)了!價(jià)值6000萬(wàn)的500臺(tái)中國(guó)車(chē)被困在海上

伊朗客戶失聯(lián)了!價(jià)值6000萬(wàn)的500臺(tái)中國(guó)車(chē)被困在海上

快科技
2026-03-08 12:56:05
廣東名醫(yī)歐陽(yáng)衛(wèi)權(quán)去世,享年55歲!系嶺南皮膚病流派傳承人

廣東名醫(yī)歐陽(yáng)衛(wèi)權(quán)去世,享年55歲!系嶺南皮膚病流派傳承人

南方都市報(bào)
2026-03-09 12:05:12
魏建軍為“抄襲”道歉,路虎攬勝隔日回應(yīng),盡顯豪華品牌格局!

魏建軍為“抄襲”道歉,路虎攬勝隔日回應(yīng),盡顯豪華品牌格局!

i王石頭
2026-03-07 23:39:00
悲催!爸爸被火化后出來(lái)的是頭骨,姑姑調(diào)侃說(shuō),哥的骨頭挺白的啊

悲催!爸爸被火化后出來(lái)的是頭骨,姑姑調(diào)侃說(shuō),哥的骨頭挺白的啊

火山詩(shī)話
2026-03-09 09:30:30
在東南亞眼中,是如何看我們的?網(wǎng)友:我姓阮,許多遠(yuǎn)親在越南

在東南亞眼中,是如何看我們的?網(wǎng)友:我姓阮,許多遠(yuǎn)親在越南

帶你感受人間冷暖
2026-02-23 01:18:48
楊瀚森連3天出戰(zhàn)5分1暴扣!開(kāi)拓者送步行者9連敗 阿夫迪亞18+8

楊瀚森連3天出戰(zhàn)5分1暴扣!開(kāi)拓者送步行者9連敗 阿夫迪亞18+8

醉臥浮生
2026-03-09 11:26:45
悲催!網(wǎng)傳內(nèi)蒙一小學(xué)老師墜亡,朋友圈對(duì)話,稱自己缺乏表演天賦

悲催!網(wǎng)傳內(nèi)蒙一小學(xué)老師墜亡,朋友圈對(duì)話,稱自己缺乏表演天賦

火山詩(shī)話
2026-03-09 08:45:03
寧繞湖北三百里,不走湖南一公里:大車(chē)司機(jī)為何怕走湖南高速?

寧繞湖北三百里,不走湖南一公里:大車(chē)司機(jī)為何怕走湖南高速?

回旋鏢
2026-03-08 16:30:16
終結(jié)十連敗,王祉怡2-0擊敗安洗瑩首奪全英公開(kāi)賽女單冠軍

終結(jié)十連敗,王祉怡2-0擊敗安洗瑩首奪全英公開(kāi)賽女單冠軍

懂球帝
2026-03-09 00:15:21
國(guó)際油價(jià)暴漲 特朗普:這是“小小的代價(jià)”

國(guó)際油價(jià)暴漲 特朗普:這是“小小的代價(jià)”

新華社
2026-03-09 11:35:15
偷倒螺螄粉湯女子已被找到,正面道歉并賠償損失

偷倒螺螄粉湯女子已被找到,正面道歉并賠償損失

映射生活的身影
2026-03-08 14:54:03
2026-03-09 13:52:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14677文章數(shù) 66669關(guān)注度
往期回顧 全部

科技要聞

沖上熱搜,馬化騰說(shuō)沒(méi)想到“龍蝦”這么火

頭條要聞

穆杰塔巴"冒死"接班 或讓伊朗進(jìn)入"復(fù)仇+軍管"模式

頭條要聞

穆杰塔巴"冒死"接班 或讓伊朗進(jìn)入"復(fù)仇+軍管"模式

體育要聞

36連勝終結(jié)!大魔王也是可以戰(zhàn)勝的

娛樂(lè)要聞

姆巴佩戀情確認(rèn)!與26歲新歡共度良宵

財(cái)經(jīng)要聞

油價(jià)直逼120美元!

汽車(chē)要聞

對(duì)標(biāo)奔馳小號(hào)G級(jí) 路虎小型衛(wèi)士最新消息曝光

態(tài)度原創(chuàng)

房產(chǎn)
游戲
健康
數(shù)碼
手機(jī)

房產(chǎn)要聞

來(lái)了!2月海南樓市銷(xiāo)售TOP榜出爐!三亞又霸榜

V社員工給《半條命2》刷差評(píng)?真相讓玩家哭笑不得

轉(zhuǎn)頭就暈的耳石癥,能開(kāi)車(chē)上班嗎?

數(shù)碼要聞

小米17T Pro通過(guò)NCC認(rèn)證 支持100W快充與無(wú)線充電

手機(jī)要聞

OPPO Find N6“全球最平整”折疊屏手機(jī)外觀配色公布:原鈦、金橙

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版