国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

GPT-5.4發(fā)布,AI的最強之爭已經(jīng)結(jié)束了!

0
分享至

GPT-5.4發(fā)布了。

說實話,我猶豫了半天要不要寫這篇。真的被模型發(fā)布搞疲了。隔幾周一個新版本,每次都是「史上最強」,但你真用起來,體感差異越來越小。靠跑一兩個benchmark,已經(jīng)越來越難測出模型的真實能力了,需要更長時間的日常使用才有體感。
而且就拿我最常用的agentic能力和coding能力來說,我不太相信GPT一個小版本的更新能超過Claude。所以對我日常使用最多的模型,其實沒什么影響。

但看完GPT-5.4的數(shù)據(jù)之后,我還是決定寫。不是因為它有多強,而是因為我發(fā)現(xiàn)了一個更有意思的事。我打開了三個網(wǎng)頁:OpenAI的博客、Anthropic的定價頁、Google的Gemini文檔,把三家的數(shù)據(jù)攤在一起看。

結(jié)論讓我有點意外:它們已經(jīng)不在同一條賽道上了。

先說結(jié)論:不再有「最好的AI」

一年前,「哪個AI最好」還是個合理的問題。各家模型能力分布還比較均勻,都在同一條賽道上跑。

現(xiàn)在這個問題過時了。

想操控電腦、做PPT、跑知識工作?GPT-5.4。想寫代碼、跑Agent、做復雜開發(fā)?Claude Opus 4.6。想要最強推理、圖片視頻理解、最大上下文、最低價格?Gemini 3.1 Pro。

我自己就是這么用的。平時寫代碼,左邊開著Codex做審查,中間跑Claude Code寫實際代碼,右邊還有個Cursor兜底。Codex的上下文工程優(yōu)化比Claude Code好不少,能在一個窗口下不停布置任務不用擔心上下文撐爆。但Opus的天花板更高,獨立解決復雜問題的能力沒有對手。所以日常就是混著用,各取所長。

說個更直觀的數(shù)據(jù):我今年和ChatGPT的對話量比去年減少了90%以上。不是ChatGPT變差了,是我的需求被Claude Code、Cursor、Gemini分走了。不同任務交給不同模型,你不會拿錘子去擰螺絲。

之前有人問我:「花叔,你推薦哪個AI?」

我的回答是:這取決于你是誰。

產(chǎn)品經(jīng)理或分析師,日常做報告、處理數(shù)據(jù)?ChatGPT Plus大概率是你的最優(yōu)解,GPT-5.4的知識工作能力確實強。

開發(fā)者,寫代碼是主要需求?Claude Code + Opus 4.6,目前沒有對手。YC剛公布的Winter 26批次數(shù)據(jù)也印證了這一點:Anthropic占比52%,首次超過OpenAI。去年OpenAI還占90%以上,一年完全逆轉(zhuǎn)了。

對價格敏感,或者需要處理超長文本、音視頻分析?Gemini。$2/$12的價格加2M token上下文,性價比無敵。

如果你是資深用戶,可能最終會像我一樣:三個都用,看菜下鍋。

結(jié)論說完了。下面看看GPT-5.4到底做了什么,以及三家是怎么走到這一步的。

GPT-5.4到底做了什么

先過一遍GPT-5.4的數(shù)據(jù)。說實話,有幾個確實讓我眼前一亮。

Computer Use,就是讓AI直接操控你的電腦。GPT-5.4在OSWorld基準測試上拿到75.0%,超過了人類基準的72.4% 。這是所有AI模型第一次在這個測試上超越人類。上一代GPT-5.2才47.3%,一個版本漲了快一倍,這個提升幅度我覺得是這次最值得關(guān)注的。


知識工作也很猛。GDPval達到83.0%,意思是在44個職業(yè)的專業(yè)任務里,GPT-5.4有八成以上能打平或超越行業(yè)專家。投行建模從68.4%跳到87.3%,做PPT時人類評審有68%的概率更喜歡GPT-5.4的版本。這個數(shù)據(jù)要是真的,華爾街的junior analyst該緊張了。


上下文窗口拉到了100萬token,OpenAI迄今最大。還出了個叫Tool Search的新功能,跑Agent的時候不用把所有工具定義塞進prompt了,模型自己按需查找,token消耗直接減了47%。做Agent開發(fā)的應該會很開心。

但你仔細看,這些最亮眼的提升都指向同一個方向:讓AI替你干白領(lǐng)的活。操控電腦、做PPT、投行建模、知識工作。OpenAI押的注很明確:AI不只是聊天工具,它要做你的數(shù)字員工。

但編程呢?

這是我最關(guān)心的部分,也是最有意思的部分。

GPT-5.4在SWE-Bench Pro上的成績是57.7%。上一代GPT-5.2是56.8%。

提升了0.9個百分點。

你沒看錯。一個做了Computer Use超越人類、1M上下文、投行建模87%的模型,編程能力只漲了0.9%。Claude Opus 4.6在SWE-Bench Verified上是80.8%,依然世界第一。(這倆是不同難度的測試,Pro更難,但0.9%的提升本身就說明問題。)


OpenAI不是做不好,是選擇把資源放在了別的地方。

這和我實際用下來的感受完全對得上。Codex的gpt-5.2-codex選high模式時,后端能力確實強,能跑一個多小時完全沒bug。但速度太慢了,思考時間過久,審美也差,讓它做前端基本不行。Opus雖然貴,但處理創(chuàng)意代碼工作時天花板明顯更高,經(jīng)常能獨立解決我好幾個月沒搞定的功能問題。

所以我日常就是混著用:Opus處理需要創(chuàng)造力的代碼,Codex做規(guī)劃和審查。

但我不覺得OpenAI是「編程不行」或「不想打這仗」。恰恰相反,OpenAI的野心比編程大得多,它想替代的是更廣泛的白領(lǐng)工作。你看它這次選的benchmark就知道了:Computer Use、投行建模、PPT評審、44個職業(yè)的知識工作。編程只是其中一個,甚至不是最重要的那個。

三張成績單

我把三家的數(shù)據(jù)都扒了一遍,攤在一起看,格局就很清楚了。


GPT-5.4贏了Computer Use和知識工作,Claude Opus 4.6贏了編程和Agent,Gemini 3.1 Pro贏了推理和性價比。沒有一家全贏。GPT-5.4贏了5個benchmark類別,Gemini贏了4個,Opus贏了3個。

但比誰贏了什么更有意思的,是各自的短板。

GPT-5.4編程就不說了,0.9%的提升。定價也是三家最貴的,Pro版輸出$180/百萬token,是Opus的7倍多。你用Pro版跑一個稍微復雜的Agent任務,賬單看了可能會心疼。


Claude Opus 4.6呢,上下文窗口只有200K(1M還在beta),也沒有原生Computer Use。寫代碼無敵,但你讓它幫你操作電腦,目前還不行。

Gemini 3.1 Pro沒有Computer Use,編程也不如前兩家。但推理能力真的強,ARC-AGI-2上77.1%,甩了另外兩家一條街。多模態(tài)理解也是三家最強,圖片視頻分析這塊沒對手。加上$2/$12的定價和2M token上下文,Google這波性價比打得很猛。

看到這,你可能和我一樣想到了一件事:三家的強項和短板,剛好指向了三條完全不同的路。

三條路

GPT-5.4走的是白領(lǐng)替代路線。

操控電腦、做PPT、投行建模、知識工作。ChatGPT付費用戶超過千萬,這些人不寫代碼,他們寫報告、做分析、處理數(shù)據(jù)。GPT-5.4就是為他們做的。

Claude走的是開發(fā)者搭檔路線。

編程世界第一、Claude Code在開發(fā)者圈子里口碑炸裂、Agent能力最強。我自己從去年8月開始用Claude Code搭了自動化寫作工作流,現(xiàn)在寫文章的效率提升太多了。Anthropic不追求ChatGPT那種C端規(guī)模,在開發(fā)者生態(tài)里做到不可替代就夠了。

Gemini走的是推理+多模態(tài)+性價比路線。

推理能力領(lǐng)先,多模態(tài)理解也是三家最強的。我現(xiàn)在分析圖片、理解視頻內(nèi)容都交給Gemini做,這塊確實沒對手。加上2M上下文和$2/$12的定價,性價比碾壓。國內(nèi)字節(jié)的Seed 2.0模型也在往這個方向走,多模態(tài)+低價正在成為一條清晰的賽道。

為什么Google敢定最低價、給最大上下文?因為Gemini不需要單獨賺錢。Google有搜索、有YouTube、有Android,Gemini的作用是讓整個生態(tài)更強。它的ROI不是用API收入算的。

三條路,三種賭注。


但OpenAI最大的問題不是技術(shù)

GPT-5.4技術(shù)上確實強。但OpenAI現(xiàn)在面對的最大挑戰(zhàn),和模型能力無關(guān)。

2月28日,OpenAI和美國國防部簽了正式合同。幾天前Anthropic剛剛公開拒絕了同一份合同,理由是五角大樓不愿加入「明確禁止自主武器部署」的條款。然后QuitGPT運動就爆發(fā)了。

超過250萬人取消了ChatGPT訂閱或承諾停用,OpenAI舊金山總部門口有了抗議,900多名OpenAI和Google員工聯(lián)名簽公開信。

時機很微妙。GPT-5.4恰好在QuitGPT最高潮的時候發(fā)布。ChatGPT的市場份額已經(jīng)從高峰期的87%降到約68% ,Gemini從不到5%漲到18%以上。模型做得再好,用戶在流失,這個問題比任何benchmark都嚴重。

最強之爭,結(jié)束了

過去三年,AI的故事一直是「通用智能」:一個模型什么都能做,而且越來越強。

GPT-5.4打破了這個敘事。

它確實強,但它強的方式說明了一件事:即便是最頂尖的AI公司,也得做取舍了。Computer Use超越人類,但編程只漲了0.9%。Claude編程無敵,但上下文只有競品的五分之一。Gemini推理最強價格最低,但Agent和Computer Use都不行。

每家都在自己選的賽道上做到了極致,同時接受了其他賽道的平庸。

我之前寫GPT-5發(fā)布時說過,AI的iPhone 4時刻已經(jīng)過去了?,F(xiàn)在回頭看,不只是「Wow時刻」沒了,連「誰是最強」這個問題本身都過時了。

對我們這些日常在用AI的人來說,這反而是好事。不用再糾結(jié)「到底選哪個」,根據(jù)自己的需求選就行。寫代碼用Claude,做知識工作用ChatGPT,省錢或跑長文本用Gemini。就像你不會只用一把刀做所有菜。

GPT-5.4發(fā)布了。但AI的「最強之爭」,已經(jīng)結(jié)束了。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
悲催!廣東一工廠全員放假,月薪員工假期無薪,員工哭訴又要失業(yè)

悲催!廣東一工廠全員放假,月薪員工假期無薪,員工哭訴又要失業(yè)

火山詩話
2026-04-21 07:52:24
公牛官方:多諾萬正式卸任球隊主教練;執(zhí)教6年僅打進1次季后賽

公牛官方:多諾萬正式卸任球隊主教練;執(zhí)教6年僅打進1次季后賽

懂球帝
2026-04-21 22:55:08
重磅!賴清德取消竄訪斯威士蘭,黃國昌發(fā)聲,國民黨表態(tài)不一般

重磅!賴清德取消竄訪斯威士蘭,黃國昌發(fā)聲,國民黨表態(tài)不一般

DS北風
2026-04-21 23:04:04
炸鍋!杜蘭特賽季報銷真相曝光 不是怕湖人 是為了保住烏多卡的帥位

炸鍋!杜蘭特賽季報銷真相曝光 不是怕湖人 是為了保住烏多卡的帥位

桃葉渡春
2026-04-21 09:40:27
最壞結(jié)果原地退役,杜蘭特打不打,管理層都該考慮這些事了

最壞結(jié)果原地退役,杜蘭特打不打,管理層都該考慮這些事了

兵哥籃球故事
2026-04-21 21:47:55
痛心!長治女子萬達墜亡持續(xù)升級!目擊者再添實錘,女子是研究生

痛心!長治女子萬達墜亡持續(xù)升級!目擊者再添實錘,女子是研究生

魔都姐姐雜談
2026-04-21 12:42:00
喊了36年“董事長”,陳麗華頭七剛過遲重瑞的結(jié)局讓所有人都傻眼

喊了36年“董事長”,陳麗華頭七剛過遲重瑞的結(jié)局讓所有人都傻眼

小娛樂悠悠
2026-04-16 13:32:37
中央明確了!社保最低繳費年限要提高,70、80后得早做準備

中央明確了!社保最低繳費年限要提高,70、80后得早做準備

云鵬敘事
2026-04-12 16:36:39
美方敦促中國停止向俄羅斯提供軍民兩用物項等,中方駁斥:長期向戰(zhàn)場提供武器、試圖延長戰(zhàn)爭的是美國不是中國,再次敦促美方停止甩鍋推責

美方敦促中國停止向俄羅斯提供軍民兩用物項等,中方駁斥:長期向戰(zhàn)場提供武器、試圖延長戰(zhàn)爭的是美國不是中國,再次敦促美方停止甩鍋推責

極目新聞
2026-04-21 08:35:27
李澤楷被她迷得神魂顛倒、林丹為她不顧妻兒,她究竟有什么魅力?

李澤楷被她迷得神魂顛倒、林丹為她不顧妻兒,她究竟有什么魅力?

悅君兮君不知
2026-04-21 00:55:45
殲-35總師“道破天機”:中國的兩款六代機,可能再一次出人意料

殲-35總師“道破天機”:中國的兩款六代機,可能再一次出人意料

混沌錄
2026-04-21 22:03:12
性癮?我要怎么辦?

性癮?我要怎么辦?

性學研究僧
2026-04-21 22:48:53
周潤發(fā)750萬賣出50平米山頂豪宅,雜草叢生,曾叫價1.95億賣不掉

周潤發(fā)750萬賣出50平米山頂豪宅,雜草叢生,曾叫價1.95億賣不掉

螃蟹吃瓜攤
2026-04-20 20:15:05
有沒有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

有沒有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

夜深愛雜談
2026-02-18 20:55:58
殲-10CE 進駐德黑蘭,以色列戰(zhàn)機瞬間不敢囂張

殲-10CE 進駐德黑蘭,以色列戰(zhàn)機瞬間不敢囂張

利刃號
2026-04-20 20:06:52
云南鴕鳥肉案兇手被判死刑,當?shù)卦嗳速徺I,這些人后來怎樣了

云南鴕鳥肉案兇手被判死刑,當?shù)卦嗳速徺I,這些人后來怎樣了

林林故事揭秘
2025-01-03 17:30:21
豆芽立大功!浙科大實證:豆芽可通過菌群代謝,減少84%腹部脂肪!

豆芽立大功!浙科大實證:豆芽可通過菌群代謝,減少84%腹部脂肪!

科學認識論
2026-04-20 14:45:02
太解氣!單親媽媽被同行惡意“截胡”,全城排隊替她“復仇”

太解氣!單親媽媽被同行惡意“截胡”,全城排隊替她“復仇”

青梅侃史啊
2026-04-21 19:37:02
他太強了!世錦賽21日晚戰(zhàn)報:1-4到5-4 特魯姆普逆轉(zhuǎn) 不愧世界第1

他太強了!世錦賽21日晚戰(zhàn)報:1-4到5-4 特魯姆普逆轉(zhuǎn) 不愧世界第1

劉哥談體育
2026-04-22 00:18:01
楊紫真的太清醒太有頭腦了!
網(wǎng)傳她在北京有一套四層豪宅

楊紫真的太清醒太有頭腦了! 網(wǎng)傳她在北京有一套四層豪宅

小光侃娛樂
2026-04-14 16:43:09
2026-04-22 03:08:49
AI進化論花生 incentive-icons
AI進化論花生
AI博主,AppStore付費榜第一的小貓補光燈app開發(fā)者
189文章數(shù) 111關(guān)注度
往期回顧 全部

科技要聞

創(chuàng)造4萬億帝國、訪華20次,庫克留下了什么

頭條要聞

三國取消飛航許可 賴清德無法竄訪斯威士蘭

頭條要聞

三國取消飛航許可 賴清德無法竄訪斯威士蘭

體育要聞

一到NBA季后賽,四屆DPOY就成了主角

娛樂要聞

宋承炫曬寶寶B超照,宣布老婆懷孕

財經(jīng)要聞

現(xiàn)實是最大的荒誕:千億平臺的沖突始末

汽車要聞

全新坦克700正式上市 售價42.8萬-50.8萬元

態(tài)度原創(chuàng)

房產(chǎn)
家居
數(shù)碼
藝術(shù)
公開課

房產(chǎn)要聞

年薪40-50萬!海南地產(chǎn)圈還在猛招人

家居要聞

詩意光影 窺見自然之境

數(shù)碼要聞

大疆發(fā)布Osmo Mobile 8P:售899元 分體式遙控器設計

藝術(shù)要聞

任伯年寫竹,真帶勁

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版