網(wǎng)易首頁 > 網(wǎng)易科技 > 網(wǎng)易科技 > 正文

OpenAI突發(fā)GPT-5.4！首次原生操控電腦，AI真的開始替你干活了

2026-03-06 10:01:42　來源: 網(wǎng)易智能

北京舉報

分享至

出品 | 網(wǎng)易智能

作者 | 小小

編輯 | 王鳳枝

OpenAI又毫無征兆地發(fā)布了新模型。

距離GPT-5.3 Instant上線僅僅過去兩天，GPT-5.4便被正式推出。它在API層面首次獲得了原生電腦操作能力，讓AI能夠像人類一樣自主控制鍵鼠，跨越各類應用軟件執(zhí)行具體任務。

不僅如此，ChatGPT也正式與Excel和Google Sheets等生產(chǎn)力工具實現(xiàn)了深度綁定。你可以在電子表格中直接調(diào)用它，將數(shù)據(jù)更新和財務分析全盤交由它來處理。

對于每天周旋于表格與文檔之間的職場人來說，這個模型的現(xiàn)實意義極其明確：AI不再僅僅是個聊天工具，它已經(jīng)正式下場替你干活了。

雖然有早期測試者吐槽它的前端交互體驗依然略遜于核心競品，但在這種極具統(tǒng)治力的自動化執(zhí)行力面前，這點UI層面的短板已經(jīng)顯得無足輕重。

01兩個版本，覆蓋不同需求

GPT-5.4這次分兩個版本上線。

GPT-5.4 Thinking面向付費訂閱用戶，ChatGPT Plus(20美元/月)、Team和Pro用戶現(xiàn)在就能用。它會在回答問題前先展示思考計劃，用戶可以中途打斷、調(diào)整方向，不用從頭再來。對于復雜問題，它能思考更長時間，同時保持上下文理解不跑偏。

GPT-5.4 Pro則留給需求更硬的用戶，包括ChatGPT Pro(200美元/月)和Enterprise企業(yè)版。OpenAI的說法是，這是為最復雜任務準備的，追求性能上限。免費用戶也有機會體驗它，但只有系統(tǒng)覺得必要時才會自動路由過去。

在API端，GPT-5.4支持100萬token上下文窗口，是OpenAI目前給到的最大容量。整本代碼庫、整份長合同可以一次性扔進去。

但有個細節(jié)要注意：輸入一旦超過27.2萬token，超出的部分按兩倍費率計費。

02原生電腦操控，AI開始像人一樣用電腦

這次最核心的升級，是GPT-5.4在API和Codex里第一次內(nèi)置了原生電腦操作能力。

以前AI只能生成文本、代碼讓你自己拿去用?，F(xiàn)在它可以自己調(diào)用Playwright這類庫寫代碼操控電腦，也可以直接看屏幕截圖，發(fā)出鼠標和鍵盤指令。開發(fā)者還能配置自定義確認策略，針對不同風險場景調(diào)整它的行為。

OpenAI表示，這是他們首個具備這種能力的通用模型，對于開發(fā)智能體的開發(fā)者來說，這是目前可用的最佳選擇。

幾個基準測試最能說明問題：

在測試桌面導航能力的OSWorld-Verified上，GPT-5.4的成功率達到75.0%，不僅遠超GPT-5.2的47.3%，還超過了72.4%的人類基準水平。這個測試衡量的是模型通過屏幕截圖加鍵盤鼠標操作在桌面環(huán)境里導航的能力。

在瀏覽器操控測試WebArena-Verified上，同時用DOM和截圖驅(qū)動交互時，它做到了67.3%的成功率，GPT-5.2是65.4%。而在Online-Mind2Web上，只靠截圖觀察，它的成功率達到了92.8%，遠高于ChatGPT Atlas智能體模式的70.9%。

計算機使用能力的提升，跟視覺感知能力的改進分不開。在測試模型視覺理解和推理的MMMU-Pro上，GPT-5.4在不使用工具的情況下達到81.2%的成功率，高于GPT-5.2的79.5%。在文檔解析測試OmniDocBench上，GPT-5.4的平均誤差是0.109，優(yōu)于GPT-5.2的0.140，而且這是在沒開推理努力的情況下跑出來的，反映的是低成本、低延遲狀態(tài)下的性能。

高分辨率圖像的理解也有升級。從GPT-5.4開始，OpenAI引入了一個原始圖像輸入細節(jié)級別，支持最高1024萬總像素或6000像素最大維度的全保真感知。高細節(jié)級別現(xiàn)在也支持到256萬總像素或2048像素最大維度。早期測試里，使用原始或高細節(jié)時，定位能力、圖像理解、點擊準確性都有明顯提升。

在GDPval這個測試覆蓋44個職業(yè)的知識工作任務中，GPT-5.4在83.0%的比較里達到或超過行業(yè)專業(yè)人士水平，其中69.2%是勝出，13.8%是打平。GPT-5.2是70.9%(49.8%勝，21.1%平)。GPT-5.4 Pro的勝率為82.0%，GPT-5.2 Pro是74.1%。測試里包含的行業(yè)覆蓋了美國GDP貢獻前9大行業(yè)。

在SWE-Bench Pro編碼測試里，GPT-5.4得分57.7%，GPT-5.3 Codex是56.8%，GPT-5.2是55.6%。更重要的是延遲表現(xiàn)：在達到相似或更高準確率的情況下，GPT-5.4的估計延遲在500至800秒左右，而GPT-5.3 Codex是1800秒以上。延遲估計考慮了工具調(diào)用時間、采樣token和輸入token。

OpenAI拿用戶之前標記過事實錯誤的去標識化提示詞跑了一遍。GPT-5.4的單項陳述錯誤率比GPT-5.2低了33%，完整回應里出現(xiàn)任意錯誤的概率低了18%。OpenAI說這是他們迄今最具事實準確性的模型。

GitHub首席產(chǎn)品官馬里奧·羅德里格斯(Mario Rodriguez)的評價是，GPT-5.4在邏輯推理和執(zhí)行復雜多步驟工具依賴工作流方面表現(xiàn)突出，是企業(yè)第一天就該采用的模型。

房地產(chǎn)科技公司Mainstay的CEO多德·弗雷澤(Dod Fraser)透露，在覆蓋約3萬個房產(chǎn)稅門戶的測試中，GPT-5.4首次嘗試成功率95%，三次內(nèi)成功率100%，而之前的計算機操控模型只有73%到79%。GPT-5.4的完成速度快了大概3倍，token消耗少了約70%。

AI招聘與專家訓練平臺Mercor的聯(lián)合創(chuàng)始人兼CEO布倫丹·富迪(Brendan Foody)也給了評價，APEX-Agents最新測試顯示，GPT-5.4平均得分首次突破50%，三個月飆升15.7%。而一年前，頂尖模型連Excel都改不好，得分不足5%。AI能力正以超預期速度逼近頂級專業(yè)機構(gòu)水平。

OpenClaw創(chuàng)始人彼得·斯坦伯格(Peter Steinberger)的看法更偏務實，GPT-5.4在延續(xù)編碼優(yōu)勢的基礎上，實現(xiàn)了全方位的均衡提升，文檔編寫更專業(yè)，通用代理能力更強，整體體驗也更友好。

Cursor的開發(fā)者教育副總裁李·羅賓遜(Lee Robinson)說，GPT-5.4在他們內(nèi)部基準測試里處于領先地位?！拔覀兊墓こ處煱l(fā)現(xiàn)它比以前模型更自然、更果斷。它會處理模糊的問題而不自我懷疑，會主動并行化工作保持進展。”

03工具搜索，把token盡量省下來

在工具調(diào)用方面，以前有個痛點：模型每次請求都得把所有工具定義塞進提示詞里。如果系統(tǒng)里工具多，一次請求可能多花幾千甚至幾萬token，成本高、速度慢、還把上下文塞得滿滿的。

GPT-5.4在API里引入了工具搜索(Tool Search)機制，徹底改變了這套玩法。

現(xiàn)在模型只接收一個輕量級的工具列表，配一個搜索功能。真需要使用時，它再去檢索完整定義，按需拉取。這對那些可能包含幾萬token工具定義的MCP服務器來說，效率提升很明顯。

OpenAI給出的數(shù)據(jù)顯示，在Scale的MCP Atlas基準測試里跑了250個任務，啟用全部36個MCP服務器。工具搜索模式跟把所有MCP功能直接暴露在上下文里的模式相比，準確率一樣，但總token用量少了47%。

具體數(shù)字是這樣的：不用工具搜索的情況下，平均總token消耗為123139，用了之后降到65320。

工具調(diào)用的準確率和效率也有提升。在Toolathlon測試里，它測的是AI智能體用真實世界工具和API完成多步驟任務的能力，比如讀郵件、提取附件、上傳、評分、記到表格里等，GPT-5.4用更少的工具讓步(Tool Yields)達到了更高的準確率。

所謂工具讓步，是指當AI在等待工具響應時會讓出控制權，這叫一次讓步。如果并行調(diào)用3個工具，再并行調(diào)用3個，讓步次數(shù)是2。它比工具調(diào)用次數(shù)更能反映延遲，因為體現(xiàn)了并行化的好處。在Toolathlon上，GPT-5.4在約10次讓步時準確率55%左右，GPT-5.2只有46%左右。

對于延遲敏感、不想開推理的場景，GPT-5.4也有提升。在τ2-bench電信測試里，模型要用工具完成客戶服務任務，不開推理的情況下，GPT-5.4準確率64.3%，GPT-5.2是57.2%，GPT-5.1是45.2%，GPT-4.1是43.6%。

自動化軟件服務公司Zapier的CEO韋德·福斯特(Wade Foster)說，GPT-5.4在他們跨幾百個真實工作流的工具使用基準測試里表現(xiàn)很好?！癎PT-5.4 xhigh是多步驟工具使用的新標桿，它完成了之前模型放棄的任務，是迄今為止最持久的模型。”

04 Excel深度集成，金融場景先落地

跟GPT-5.4同步上線的，還有一套面向企業(yè)和金融機構(gòu)的OpenAI金融服務套件。

核心產(chǎn)品是ChatGPT for Excel和Google Sheets測試版。ChatGPT直接嵌進電子表格的單元格里，你可以讓它幫你搭財務模型、做分析、更新數(shù)據(jù)。OpenAI表示，這是用團隊已經(jīng)依賴的公式和結(jié)構(gòu)來工作。

套件還整合了FactSet、MSCI、Third Bridge、Moody's這些數(shù)據(jù)源，推出一套可復用的Skills功能，覆蓋盈利預覽、可比公司分析、DCF估值分析、投資備忘錄撰寫這些高頻場景。

OpenAI特別專注于改進GPT-5.4創(chuàng)建和編輯電子表格、演示文稿和文檔的能力。

OpenAI自己有個內(nèi)部投行基準測試。GPT-5 Thinking在這個測試里的得分是43.7%，而GPT-5.4 Thinking直接干到了88.0%。

在另一個模擬初級投行分析師電子表格建模任務的測試里，GPT-5.4平均得分87.3%，GPT-5.2是68.4%。

投資公司W(wǎng)alleye Capital的AI解決方案主管丹尼爾·斯威基(Daniel Swiecki)稱，在他們內(nèi)部的財務和Excel評估里，GPT-5.4準確率提高了30個百分點。他把這歸因于模型更新和情景分析的擴展自動化。

法律AI平臺Harvey的應用研究主管尼科·格魯彭(Niko Grupen)也評論道：GPT-5.4在他們BigLaw Bench評估里得分91%，“在結(jié)構(gòu)化復雜交易分析、跨長篇合同保持準確性、提供法律從業(yè)者需要的高細節(jié)方面，目前比別的模型都好”。

05網(wǎng)絡搜索能力大幅提升

GPT-5.4在智能體網(wǎng)絡搜索方面也做了改進。

在BrowseComp測試里，衡量AI智能體能多持久地瀏覽網(wǎng)絡，找到那些難找的信息時，GPT-5.4比GPT-5.2提升了17個百分點，GPT-5.4 Pro以89.3%的成績創(chuàng)下該基準測試的新高。

OpenAI解釋說，在BrowseComp里他們用了搜索阻止列表，排除了包含基準答案的網(wǎng)站，防止污染。GPT-5.4測試時間比GPT-5.2晚，分數(shù)變化反映了模型、搜索系統(tǒng)和互聯(lián)網(wǎng)狀態(tài)的變化。GPT-5.4用的是更長、更新的阻止列表。

落實到實際體驗上，這意味著GPT-5.4 Thinking在回答那些需要從網(wǎng)上多個來源匯集信息的問題時更靠譜。它能更持久地跨多輪搜索，找到最相關的來源，特別是對那些大海撈針式的問題，然后把它們綜合成清晰的答案。

06可引導性，能中途打斷調(diào)整方向

ChatGPT里的GPT-5.4 Thinking多了個新功能：對于較長、較復雜的查詢，它會先給一個工作概要，你可以看到它打算怎么干。

更重要的是，你可以在它響應過程中添加指令或調(diào)整方向，不用從頭開始，也不用多輪對話。OpenAI說這能讓模型輸出更貼近你想要的結(jié)果。

這個功能現(xiàn)在在網(wǎng)頁版和Android應用上能用，iOS即將上線。

模型在困難任務上也能思考更長時間，同時對對話早期步驟保持更強的意識。這意味著它能處理更長的工作流和更復雜的提示，同時保持答案的連貫性和相關性。

07反饋與體驗：早期用戶的真實感受

AI寫作助手公司HyperWrite的CEO馬特·舒默(Matt Shumer)提前試了GPT-5.4一周。他提到了一個有意思的細節(jié)：自己以前一直是Pro系列的重度用戶，因為Pro幾乎能完美應對所有任務。但這次，GPT-5.4標準版打破了這個習慣。

“即使在標準模式下，GPT-5.4也比之前的Pro版好，不可思議。”他說編碼能力強得離譜，在Codex里可靠性驚人?！熬幋a問題基本上解決了。”Pro版近乎完美，能解決其他模型解決不了的問題，但對日常使用來說性能有點過剩。

他也提到幾個問題：前端界面體驗不如Claude Opus 4.6和Gemini 3.1 Pro；會忽略一些顯而易見的現(xiàn)實背景，比如規(guī)劃旅行行程時選了春假期間人擠人的地點；在OpenClaw里測試時，程序經(jīng)常在任務完成前突然停住。

但他最后給的結(jié)論是：整體上領先太多，那些吹毛求疵的小問題都顯得無關緊要了。

世界頂尖免疫學專家德里亞·烏努特馬茲(Derya Unutmaz)也試了Pro版，用了幾天。“它展現(xiàn)出了相對更高的創(chuàng)造力、洞察力和抽象智能，比5.2 Pro模型更頻繁地提出問題?！彼贏GI-2測試里給GPT-5.4 Pro打了83%的得分。

08定價：比以前貴，但值得

API定價上，GPT-5.4比GPT-5.2貴了一些。

GPT-5.4標準版每百萬輸入token為2.5美元、輸出15美元；Pro版輸入30美元、輸出180美元。與之相比，GPT-5.2是輸入1.75美元、輸出14美元；GPT-5.2 Pro是輸入21美元、輸出168美元。

其中，輸入超過27.2萬token的部分，按兩倍費率算。Codex里默認壓縮上限就是27.2萬token，開發(fā)者可以手動往上調(diào)，超出部分才觸發(fā)高計費。

OpenAI發(fā)言人對此給出了三條理由：一是復雜任務能力更強，包括編碼、電腦操控、深度研究、高級文檔生成、工具調(diào)用；二是研究路線圖上有重大技術進步；三是更高效的推理機制在相同任務上消耗更少推理token，能抵消一部分單價上漲。發(fā)言人說，即便提價，GPT-5.4的定價還是低于同等能力的競品前沿模型。

在ChatGPT端，GPT-5.4 Thinking從3月5日起向Plus、Team及Pro用戶開放，取代此前的GPT-5.2 Thinking。GPT-5.2 Thinking將在三個月后于2026年6月5日正式退役，期間可以在模型選擇器的傳統(tǒng)模型里找到。

GPT-5.4 Pro只對Pro和Enterprise計劃用戶開放，企業(yè)和教育版用戶可通過管理員設置提前開啟訪問權限。

在安全方面，OpenAI把GPT-5.4定位為高網(wǎng)絡能力模型，沿用了GPT-5.3 Codex的類似保護措施，包括監(jiān)控系統(tǒng)、受信任訪問控制，對零數(shù)據(jù)保留(ZDR)表面的高風險請求做異步阻斷。

他們也在持續(xù)研究思維鏈(CoT)的可監(jiān)控性。新開源的評估叫CoT可控性，測的是模型能不能故意混淆推理來逃避監(jiān)控。結(jié)論是GPT-5.4 Thinking控制CoT的能力較低，這對安全來說是好事，說明CoT監(jiān)控仍然有效。

寫在最后

當你再次打開ChatGPT時，你面對的已經(jīng)不再是一個僅僅擅長咬文嚼字的聊天機器人。

回看這兩年的軌跡：從陪人聊天的對話框，到輔助敲代碼的副手，再到今天直接接管鼠標鍵盤、接手復雜表格的數(shù)字員工。這次的GPT-5.4或許沒有創(chuàng)造出全新的理論基座，但它把紙面上的潛能徹底變成了桌上的生產(chǎn)力。

技術革命往往不是伴隨著巨響到來的，而是潛移默化地滲透進每一次版本更新里。等到我們真正察覺時，那個曾經(jīng)只會回答問題的AI，其實已經(jīng)悄無聲息地坐上了你的工位。