国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

GPT-5.4 到底變強了多少?三大核心能力+電腦操控Codex上手實測!

0
分享至


大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自夕小瑤科技說

上周,GPT-5.4 發(fā)了。意圖非常明顯,直指 Claude Opus4.6 和 Gemini 3.1 Pro。

2 月 5 日,Claude Opus 4.6 發(fā)了。2 月 19 日,Gemini 3.1 Pro 發(fā)了。OpenAI 被輪流摁了整整一個月。3 月 5 日,GPT-5.4 來了。

我一看成績,強得沒邊兒了。


但跑分這個東西,放一起才見真章。我把(省流版)御三家的三款旗艦模型的發(fā)布時間、能力、價格放在一起看:


僅從數(shù)據(jù)上看,編程被 Anthropic 壓制,推理被 Google 領(lǐng)跑,價格卡在中間。


整張表里最亮眼的成績就是,「知識工作」和「原生計算機操控」,也是這次 GPT-5.4 的亮點。

知識工作,可以看 GDPval 的表現(xiàn)。GDPval 跑了 44 種真實職業(yè)場景,GPT-5.4 在 83% 的比較里能和行業(yè)專業(yè)人員持平甚至超越,所以切的企業(yè)最容易買單的能力。

原生計算機操控,這是整張表里最亮眼的成績。

GPT-5.4 是 OpenAI 首個具備原生計算機使用能力的通用模型,也是第一個在桌面自主操作任務(wù)上超越人類專家表現(xiàn)的模型。

OSWorld 桌面操控成功率 75%,官方說超過人類平均水平 72.4%。既能寫 Playwright 代碼來操作電腦,也能直接通過截圖發(fā)出鼠標鍵盤指令。

光看數(shù)據(jù)沒意思,得試。

但從 5.1 之后我一怒之下退訂了 ChatGPT 后,到現(xiàn)在都沒有續(xù)回去,這次測試就選擇把可信的三方 API,接入 Codex。

既然官方最吹的就是電腦操控,那就先從這開刀。

我先想了個騷操作:讓它通過 Codex 啟動另一個 Codex,指揮第二個 Codex 去打開瀏覽器搜東西。Codex 操控 Codex,套娃。

結(jié)果,它一沖瞎劃了。

它還沒敲回車呢,就把后面要搜的內(nèi)容輸進去了,整個命令混成一坨,直接報錯。

算了算了,廢了。


那就降低難度。讓它打開桌面上的 Edge 瀏覽器,進 OpenAI 的博客頁面。這個簡單任務(wù)倒是順利完成了,也沒調(diào)用什么第三方瀏覽器庫,直接操控的系統(tǒng)。

先不做評論,畢竟是 75% 超越人類的計算機操控。

這里插一嘴,Codex 這個殼我其實一直不太習慣,終端味太重,看著也丑。后來按照大佬給的方法,在 cc switch 里把 GPT-5.4 模型配到了 Claude Code 里面。這下界面好看了,但體驗還是怪怪的。


怎么說呢,用 Claude Code 跑 Claude 的時候,你說一句它馬上理解,然后動手,很流暢。

換成 GPT-5.4 之后,反饋周期明顯長一截,它會到關(guān)鍵節(jié)點才反饋一次,中間那段時間你就干等著,不知道它在想什么。

算了這些都只是殼。我在意的,還是它到底能不能出活。于是我打開 Codex 終端,上正經(jīng)任務(wù)。

一共三個大任務(wù),覆蓋了深度知識工作、高階編程和調(diào)試、電腦操控三個核心維度。

任務(wù)一:262 萬行數(shù)據(jù),10 分鐘出報告

請幫我完成以下電腦操作:(1)打開瀏覽器,訪問 data.gov,下載"Consumer Complaint Database"的最新 CSV 數(shù)據(jù)集;(2)用本地 Python 打開這個文件;(3)進行數(shù)據(jù)清洗——去重、處理缺失值、標準化日期格式;(4)生成一份包含 5 個圖表的分析報告(投訴趨勢、公司排名、產(chǎn)品分類、州分布熱力圖、處理時效分布);(5)把報告保存為 PDF。全程用電腦操控完成,不要只給我代碼。  

這是一個比較復雜的專業(yè)數(shù)據(jù)分析流程。

這次,GPT-5.4 上來就踩坑了。data.gov 官方那個"Download all complaint data"鏈接,下下來一解壓,就一行表頭,286 字節(jié)。數(shù)據(jù)呢?


他判斷出這個下載鏈接有問題,于是主動切換到了 CFPB 的官方開放 API,分塊把完整數(shù)據(jù)拉了下來。

我依稀記得,以前的 GPT 遇到這種情況,會硬著頭皮處理那個空文件。。自己想到換方案,變聰明了。

最終成績,262 萬多行數(shù)據(jù),清洗后保留 262 萬多行,跳過 1 條缺失 ID 的壞尾行;缺失值補了 600 多萬個;日期全變成 YYYY-MM-DD;5 張圖和 6 頁 PDF 報告全部出完。

整個過程大約 10 分鐘。

還可以。

任務(wù)二:2w 行代碼

第二個任務(wù),我扔給它一個真實的桌面項目,PySide6 寫的,20000 多行,把小說生成、新聞批量處理、AI 編輯器、熱榜預覽、作品管理等功能全堆在一起。

我讓 codex 做三件事:

  • 畫出完整函數(shù)調(diào)用關(guān)系圖、

  • 找出性能瓶頸最大的 3 個函數(shù),

  • 再順手判斷一下原作者是什么風格的程序員。

Mermaid 調(diào)用圖它畫出來了,從 main.py 入口到各個子模塊的信號槽連接,層次還挺清楚的。



性能瓶頸的分析也讓我比較服氣。它定位到了三個函數(shù),確實都是我為了讓系統(tǒng)不崩潰做的超級冗余。


還有作者風格判斷,它的結(jié)論是,不是那種特別講究潔癖式分層的基礎(chǔ)設(shè)施工程師。好像有點馬屁,其實沒有。。


GPT-5.4 看代碼,已經(jīng)不只是“看函數(shù)”,而是開始“看人”了。它能順著代碼,反推出作者的工作方式、取舍習慣、甚至一點點性格傾向。

由此判斷,代碼能力算是穩(wěn)的,至少算中層。GPT-5.4 的編程能力配合它的知識工作能力用,是加分項。單獨拿出來,沒贏面。

任務(wù)三:數(shù)學建模國賽 C 題

前兩個任務(wù),一個偏知識流程,一個偏工程。

第三個任務(wù),我想看它在“高復雜度、長鏈條、強約束”的場景里,到底能頂?shù)侥摹?/p>

所以我直接把它拉去做 2024 年數(shù)學建模國賽 C 題,54 個地塊,7 年規(guī)劃,41 種作物,要考慮輪作、土地適應性、市場波動、超產(chǎn)滯銷,最后還要形成完整論文。


這個任務(wù)也最能暴露它的上限。

因為它不是某一個點上難,而是每一步都容易出小錯:讀題、抽象、建模、寫代碼、跑優(yōu)化、生成論文、處理公式、處理文件、處理中文路徑,哪一步都能翻。

GPT-5.4 確實搭了個 PuLP 的混合整數(shù)線性規(guī)劃模型,也確實把論文骨架搭出來了:摘要、問題重述、假設(shè)、符號說明、建模、求解、結(jié)果分析、模型評價,樣樣不少。

但中間它被 Windows PowerShell 的中文編碼狠狠干了幾次。中文文件名讀不進去,“完整論文.md”寫不進去,“附件 1.xlsx”也找不到,LaTeX 公式里的\right還被換行吃掉了。它最后是靠把文件名全改成 ASCII,才把流程跑通。

有意思,真正折磨模型的,還真不是 benchmark 上那道最難的題,是現(xiàn)實環(huán)境里那些又臟又碎的坑??!

所以這一項給我的感覺很明確,GPT-5.4 可以把這種大活先搭到 70 分,甚至能把最煩的前半段干掉;但離“直接交卷拿高分”還有距離,中間隔著一堆細節(jié)層面的破事。

你要的是一個能跑起來的框架,它可以。你要的是一篇非常漂亮的競賽論文,還得自己往上抬,至少要自己教它方法、配個 skill。

跑完這三個任務(wù),我對 GPT-5.4 的判斷也慢慢清楚了:代碼能力很強、人感不錯,但操作計算機的能力好像離預期差一點至少套娃還差一點。

至于 5.4pro,網(wǎng)上已經(jīng)有人開始拿它開涮了。

比如 Daniel Nguyen 發(fā)的那個圖就很典型:有人問 GPT-5.4 Pro,“How do I install CUDA 12.1 on Ubuntu 24.04?”


它想了 69 分 42 秒,最后回了一句:“You can’t.”

我自己也測了一下 Pro。讓它扮演一個 20 年經(jīng)驗的 AI 行業(yè)獵頭,對 Sam Altman 進行一場“GPT-5.4 產(chǎn)品經(jīng)理”崗位的壓力面試。

它想了 22 分鐘 46 秒。



出來的東西說實話有點壓力。這個質(zhì)量,確實不是普通版能給的。你能明顯感覺到,Pro 在一些高要求、高壓縮、高質(zhì)量輸出的場景里,確實更像“高級腦力勞動者”。但代價嘛...


Pro 版輸出 180 美元/百萬 token,是 Claude 的 7.2 倍。之前有人對它說了句"Hi"就燒掉 80 美元,我這次一個面試題想了 22 分鐘,賬單也不敢細看。

所以問題來了。

如果未來兩個季度,你只能讓 GPT-5.4 在一個維度形成“不可逆的用戶心智占領(lǐng)”,你會押哪一個?

A. 長周期 agent 任務(wù)完成率
B. 高價值知識工作的“可直接簽字”輸出率
C. 跨文檔、跨應用、跨工具的上下文連續(xù)性
D. 單位任務(wù)成本

評論區(qū)告訴我答案,我挑幾個最狠的回答,整理一下,轉(zhuǎn)達給 GPT-5.4 Pro。

你覺得 GPT5.4 的能力到哪了?

GPU 訓練特惠!

H100/H200 GPU算力按秒計費,平均節(jié)省開支30%以上!

掃碼了解詳情?

點「贊」的人都變好看了哦!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
德黑蘭部分地區(qū)防空系統(tǒng)啟動

德黑蘭部分地區(qū)防空系統(tǒng)啟動

財聯(lián)社
2026-04-24 01:47:15
廣西一4S店疑因資金鏈斷裂閉店,店內(nèi)一片狼藉,展車被清空!

廣西一4S店疑因資金鏈斷裂閉店,店內(nèi)一片狼藉,展車被清空!

黃河新聞網(wǎng)呂梁
2026-04-22 10:03:58
不可思議!現(xiàn)在的大學校園里有個很明顯的現(xiàn)象:男女生根本不談戀愛

不可思議!現(xiàn)在的大學校園里有個很明顯的現(xiàn)象:男女生根本不談戀愛

市井大實話
2026-04-23 09:24:57
這才是宋美齡和繼子蔣經(jīng)國的一張真實合影,都是真人的容貌

這才是宋美齡和繼子蔣經(jīng)國的一張真實合影,都是真人的容貌

喜歡歷史的阿繁
2026-04-16 11:17:28
《新聞聯(lián)播》迎“換血潮”,70后主播將退場,4位接班人浮出水面

《新聞聯(lián)播》迎“換血潮”,70后主播將退場,4位接班人浮出水面

青梅侃史啊
2026-04-23 14:38:29
銀行慌了!越來越多人關(guān)掉手機銀行,到底要不要開?答案終于明確

銀行慌了!越來越多人關(guān)掉手機銀行,到底要不要開?答案終于明確

叮當當科技
2026-04-23 21:35:24
石破茂:日本不能“盲目跟著美國跑”

石破茂:日本不能“盲目跟著美國跑”

環(huán)球時報國際
2026-04-23 22:48:32
34歲美國退伍軍人發(fā)現(xiàn)孩子非親生,在法院外開槍怒殺孩子生父,被判處40年監(jiān)禁,律師:他一直被蒙在鼓里,將孩子當成自己的骨肉

34歲美國退伍軍人發(fā)現(xiàn)孩子非親生,在法院外開槍怒殺孩子生父,被判處40年監(jiān)禁,律師:他一直被蒙在鼓里,將孩子當成自己的骨肉

大風新聞
2026-04-23 18:33:05
稀土出口暴跌,日本尋求訪華,提出一項要求:G7統(tǒng)一對中戰(zhàn)線

稀土出口暴跌,日本尋求訪華,提出一項要求:G7統(tǒng)一對中戰(zhàn)線

錯過美好
2026-04-23 17:34:59
頂流超模約會誰牽線?妹妹組局的雙贏生意

頂流超模約會誰牽線?妹妹組局的雙贏生意

心事寄山海
2026-04-22 19:35:40
破例接機!中方強勢降臨中東,伊朗導彈下餃子,美霸權(quán)迎來終局?

破例接機!中方強勢降臨中東,伊朗導彈下餃子,美霸權(quán)迎來終局?

未來展望
2026-04-23 18:24:29
龍卷風撕掉屋頂后,Rivian R2還是下線了

龍卷風撕掉屋頂后,Rivian R2還是下線了

碳基打工人
2026-04-22 23:50:24
伊朗革命衛(wèi)隊瘋狂攻擊通過霍爾木茲海峽的集裝箱貨船

伊朗革命衛(wèi)隊瘋狂攻擊通過霍爾木茲海峽的集裝箱貨船

一種觀點
2026-04-22 19:28:19
岳陽一公園里多座雕像被人潑紅漆,當?shù)兀旱裣褚亚謇?,嫌疑人已被行?>
    </a>
        <h3>
      <a href=極目新聞
2026-04-23 17:34:16
跌光340億,電商巨頭炸雷了

跌光340億,電商巨頭炸雷了

投資家
2026-04-21 20:56:20
直線拉升漲停!伊朗,傳來大消息!

直線拉升漲停!伊朗,傳來大消息!

數(shù)據(jù)寶
2026-04-23 19:34:58
悲催!北京土著欲娶北方小縣城留京女,因彩禮問題,男方果斷分手

悲催!北京土著欲娶北方小縣城留京女,因彩禮問題,男方果斷分手

火山詩話
2026-04-23 06:28:37
氣血不足!不妨多吃“天然造血庫”,倒頭就睡,臉色紅潤

氣血不足!不妨多吃“天然造血庫”,倒頭就睡,臉色紅潤

江江食研社
2026-04-23 03:30:03
悲痛!又有學生跳樓!致家長:請不要再以各種名義給孩子配手機了

悲痛!又有學生跳樓!致家長:請不要再以各種名義給孩子配手機了

華人星光
2026-04-22 10:51:54
局勢惡化!日本開出危險一槍,中國紅線遭踩踏,東部戰(zhàn)區(qū)行動了

局勢惡化!日本開出危險一槍,中國紅線遭踩踏,東部戰(zhàn)區(qū)行動了

人間無味啊
2026-04-23 17:30:01
2026-04-24 02:35:00
大數(shù)據(jù)文摘 incentive-icons
大數(shù)據(jù)文摘
專注大數(shù)據(jù),每日有分享!
6852文章數(shù) 94541關(guān)注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產(chǎn)品",但量產(chǎn)難預測

頭條要聞

以色列:只要美國同意 將刺殺伊朗最高領(lǐng)袖

頭條要聞

以色列:只要美國同意 將刺殺伊朗最高領(lǐng)袖

體育要聞

給文班剃頭的馬刺DJ,成為NBA最佳第六人

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財經(jīng)要聞

普華永道賠償10億 恒大股東見到"回頭錢"

汽車要聞

預售30.29萬起 嵐圖泰山X8配896線激光雷達

態(tài)度原創(chuàng)

本地
家居
游戲
教育
健康

本地新聞

SAGA GIRLS 2026女團選秀

家居要聞

浪漫協(xié)奏 法式風格

任天堂NS2銷量4倍碾壓PS5!差距懸殊 索尼難挽頹勢

教育要聞

推薦一款高考志愿卡,五大功能助你解決志愿疑難

干細胞如何讓燒燙傷皮膚"再生"?

無障礙瀏覽 進入關(guān)懷版