網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

GPT-5.4深夜登場！能操控電腦，編程超Opus 4.6，開發(fā)者直呼“離譜”

2026-03-06 08:54:12　來源: 智東西

北京舉報(bào)

分享至

智東西
編譯程茜
編輯李水青

智東西3月6日消息，今日凌晨，OpenAIGPT-5.4系列模型來了，ChatGPT、API和Codex同步上線，這是其首款具備原生、最先進(jìn)計(jì)算機(jī)使用能力的通用模型。

根據(jù)OpenAI的官方測評(píng)結(jié)果，GPT-5.4在電腦操控、知識(shí)工作、工具使用等綜合任務(wù)上全面領(lǐng)先GPT-5.2、Claude Opus 4.6、Gemini 3.1 Pro等頂尖模型。

OpenAI聯(lián)合創(chuàng)始人、CEO薩姆·阿爾特曼（Sam Altman）在社交平臺(tái)X上稱，GPT-5.4在知識(shí)工作和網(wǎng)頁搜索方面做得更好。OpenAI高級(jí)研究科學(xué)家、德?lián)銩I之父Noam Brown也發(fā)帖稱，GPT?5.4在電腦操控能力與具備經(jīng)濟(jì)價(jià)值的任務(wù)上實(shí)現(xiàn)了巨大飛躍，他們看不到能力天花板，預(yù)計(jì)今年AI的整體性能仍將持續(xù)大幅提升。

GPT-5.4今天將逐步上線ChatGPT、Codex、API，但其思考模型僅正式向ChatGPT Plus、Team及Pro用戶開放，替代原有GPT?5.2思考模式。GPT?5.2思考模式將在模型選擇器的舊版模型專區(qū)為付費(fèi)用戶再保留三個(gè)月，隨后將于2026年6月5日下線。

GPT-5.4 Pro適合需要在復(fù)雜任務(wù)中達(dá)到最大性能的開發(fā)者，將為Pro與企業(yè)版用戶提供。

定價(jià)方面，GPT-5.4的單token定價(jià)高于GPT?5.2，但OpenAI博客提到，它更高的token效率可降低多數(shù)任務(wù)的總token消耗量。

值得一提的是，Codex中的GPT?5.4已實(shí)驗(yàn)性支持100萬上下文窗口，超出標(biāo)準(zhǔn)272K上下文窗口的請(qǐng)求，將按正常用量的2倍計(jì)入使用額度。此外，批量處理與彈性計(jì)費(fèi)價(jià)格為標(biāo)準(zhǔn)API費(fèi)率的一半，優(yōu)先處理則為標(biāo)準(zhǔn)費(fèi)率的2倍。

輸入價(jià)格，GPT-5.4相對(duì)GPT-5.2漲幅超過40%，輸出價(jià)格漲幅為7.14%。

參與早期測試的開發(fā)者、AI寫作助手公司HyperWrite CEO Matt Shumer對(duì)GPT-5.4開啟了夸夸夸模式，稱其是世界上最好的模型，并且相比Pro更常用GPT-5.4的標(biāo)準(zhǔn)版，編程能力好到離譜。

還有網(wǎng)友稱蘋果發(fā)了MacBook Neo，OpenAI轉(zhuǎn)頭就上線100萬token上下文+原生電腦操控，“筆記本正經(jīng)歷存在主義危機(jī)”。但有開發(fā)者吐槽，GPT-5.4的價(jià)格太瘋狂了，完全沒法基于它做開發(fā)。

一、OpenAI首個(gè)能原生操作電腦的模型上線，token使用效率更高

GPT?5.4繼承了OpenAI近期在推理、代碼生成與智能體工作流領(lǐng)域的頂尖技術(shù)成果。

該模型繼承了GPT?5.3?Codex的編程能力，并優(yōu)化了模型在各類工具、軟件環(huán)境及專業(yè)任務(wù)中的協(xié)同表現(xiàn)，涵蓋表格、演示文稿與文檔處理等場景。這使得GPT?5.4能夠精準(zhǔn)、高效、可靠地完成復(fù)雜的實(shí)際工作，直接交付用戶想要的結(jié)果。

ChatGPT的推理模式中，GPT-5.4思考模式可以提前展示思考規(guī)劃，用戶可以在模型運(yùn)行過程中調(diào)整方向，無需額外交互輪次，就能實(shí)現(xiàn)更符合需求的輸出。

面對(duì)更長、更復(fù)雜的查詢，ChatGPT中的GPT?5.4思考模式會(huì)先以一段前置說明來規(guī)劃解題步驟。用戶可以在回復(fù)過程中補(bǔ)充指令或調(diào)整方向，無需重新開始或多輪追問，就能引導(dǎo)模型得到你想要的精確結(jié)果。

針對(duì)復(fù)雜任務(wù)，該模型能進(jìn)行更長時(shí)間的思考，同時(shí)更好地記住對(duì)話前期步驟。這使其能夠處理更長的工作流與更復(fù)雜的提示詞，并始終保持回答連貫、切題。

GPT?5.4思考模式增強(qiáng)了深度網(wǎng)絡(luò)檢索能力，尤其針對(duì)高度專業(yè)化的查詢，同時(shí)在需要更長思考過程的問題上更好地維持上下文連貫性。

在Codex和API中，GPT-5.4是OpenAI首個(gè)具備原生、最先進(jìn)計(jì)算機(jī)使用能力的通用模型，使Agent可以操作計(jì)算機(jī)并執(zhí)行跨應(yīng)用的復(fù)雜工作流。

其支持100萬個(gè)token的上下文，允許Agent執(zhí)行長時(shí)間的規(guī)劃、執(zhí)行和驗(yàn)證任務(wù)，其還能通過工作搜索提升模型在大型工具和連接器生態(tài)系統(tǒng)中的工作，幫Agent高效找到和使用工具。

GPT-5.4是OpenAI迄今為止最高效的token推理模型，相比GPT-5.2，新模型用的token數(shù)量明顯更少，從而能減少token使用并加快速度。

▲GPT?5.4、GPT?5.3?Codex和GPT?5.2三款模型在不同專業(yè)任務(wù)上的性能對(duì)比表：

二、知識(shí)工作成果：PPT生成效果更強(qiáng)，單個(gè)錯(cuò)誤出現(xiàn)概率降低33%

GPT?5.4、GPT?5.3?Codex和GPT?5.2三款模型在不同專業(yè)任務(wù)上的性能對(duì)比表，

評(píng)估模型在真實(shí)經(jīng)濟(jì)價(jià)值任務(wù)的GDPval測試上，大模型需在44個(gè)職業(yè)中產(chǎn)出規(guī)范的知識(shí)工作成果，GPT-5.4在83.0%的比較率下，其表現(xiàn)達(dá)到或超越了行業(yè)專業(yè)人士的水平，而GPT?5.2的這一比例為70.9%。

對(duì)于創(chuàng)建和編輯電子表格、PPT、文檔的任務(wù)，在一項(xiàng)模擬初級(jí)投行分析師所做的電子表格建模任務(wù)內(nèi)部基準(zhǔn)測試中，GPT?5.4的平均得分達(dá)到87.3%，GPT?5.2為68.4%。在一組PPT評(píng)估任務(wù)中，人類評(píng)審在68.0%的情況下更偏好GPT?5.4生成的演示文稿，原因是其美學(xué)表現(xiàn)更強(qiáng)、視覺形式更豐富，且圖像生成的運(yùn)用更具效果。

在消除幻覺方面，OpenAI官方稱，OpenAI是其迄今事實(shí)準(zhǔn)確性最高的模型：在一組用戶標(biāo)記過事實(shí)錯(cuò)誤的去標(biāo)識(shí)化提示測試中，與GPT?5.2相比，GPT?5.4的單個(gè)事實(shí)陳述出現(xiàn)錯(cuò)誤的概率降低了33%，整段回答包含任何錯(cuò)誤的概率降低了18%。

三、計(jì)算機(jī)使用與視覺：操控電腦超人類水平，視覺輸入支持最高1024萬像素

GPT?5.4是OpenAI首款具備原生計(jì)算機(jī)操作能力的通用模型，OpenAI稱其是目前開發(fā)者構(gòu)建可在各類網(wǎng)站與軟件系統(tǒng)中完成真實(shí)任務(wù)的智能體時(shí)，可選用的最佳模型。

該模型擅長通過Playwright等庫編寫控制計(jì)算機(jī)的代碼，也能根據(jù)截圖下達(dá)鼠標(biāo)與鍵盤指令。模型行為可通過開發(fā)者指令靈活調(diào)控，開發(fā)者可根據(jù)具體場景調(diào)整其行為邏輯。開發(fā)者還能通過自定義確認(rèn)策略，配置模型的安全行為，以適配不同的風(fēng)險(xiǎn)容忍等級(jí)。

GPT?5.4在各類計(jì)算機(jī)操作場景的基準(zhǔn)測試中，成績相較前代模型都有所提升。在通過截圖與鍵鼠操作評(píng)估模型在桌面環(huán)境中的執(zhí)行能力的OSWorld?Verified測試中，GPT?5.4的成功率達(dá)到75.0%，遠(yuǎn)超GPT?5.2的47.3%，同時(shí)超過了人類水平的72.4%。

在測試瀏覽器使用能力的WebArena-Verified基準(zhǔn)中，GPT?5.4在同時(shí)采用DOM與截圖交互時(shí)，成功率達(dá)到67.3%的，GPT?5.2為65.4%。

GPT?5.4更強(qiáng)的計(jì)算機(jī)操作能力，建立在模型通用視覺感知能力的提升之上。在測試模型視覺理解與推理能力的MMMU?Pro基準(zhǔn)中，GPT?5.4在不使用工具的情況下達(dá)到81.2%的成功率，優(yōu)于GPT?5.2的79.5%。

▲GPT?5.4解析瀏覽器界面截圖，并通過基于坐標(biāo)的點(diǎn)擊操作與UI元素交互，完成發(fā)送郵件、創(chuàng)建日歷日程等任務(wù)

其視覺感知能力的提升也轉(zhuǎn)化為更出色的文檔解析能力。在OmniDocBench測試中，不啟用深度推理的GPT?5.4平均誤差為0.109，優(yōu)于GPT?5.2的0.140。

OpenAI還針對(duì)高分辨率、信息密集型圖像優(yōu)化了視覺理解能力，確保完整保真度。

從GPT?5.4開始，OpenAI將推出原始圖像輸入精度模式，支持最高1024萬像素或最大邊長6000像素（取較低值）的全保真感知；原有的高圖像輸入精度模式現(xiàn)已支持最高256萬像素或最大邊長2048像素。

在面向API用戶的早期測試中，研究人員觀察到，使用原始精度或高精度模式時(shí)，模型在定位能力、圖像理解與點(diǎn)擊準(zhǔn)確率上均有顯著提升。

四、編程：表現(xiàn)超越GPT?5.3?Codex，token生成速度最高可提升1.5倍

GPT?5.4融合了GPT?5.3?Codex的代碼能力優(yōu)勢，以及知識(shí)工作與計(jì)算機(jī)操作能力，這些能力在長時(shí)間運(yùn)行的任務(wù)中尤為關(guān)鍵，模型可自主調(diào)用工具、迭代推進(jìn)任務(wù)，大幅減少人工干預(yù)。

在SWE?Bench Pro測試中，GPT?5.4的表現(xiàn)持平甚至超越GPT?5.3?Codex，同時(shí)在各類推理任務(wù)中延遲更低。

在Codex中開啟/fast模式后，GPT?5.4的token生成速度最高可提升1.5倍。模型與智能水平保持不變，僅速度更快。這意味著用戶可以在編碼、迭代與調(diào)試過程中保持流暢狀態(tài)。

開發(fā)者可通過API的優(yōu)先處理功能，以同等高速體驗(yàn)使用GPT?5.4。

在評(píng)估和內(nèi)部測試中，研究人員發(fā)現(xiàn)GPT-5.4在復(fù)雜的前端任務(wù)中表現(xiàn)出色，其美觀效果和功能性均優(yōu)于我們之前發(fā)布的任何模型。

為展示模型計(jì)算機(jī)操作能力與代碼能力協(xié)同提升的效果，OpenAI還同步推出一項(xiàng)實(shí)驗(yàn)性Codex技能，名為“Playwright（交互式）”。該功能讓Codex能夠以視覺方式調(diào)試網(wǎng)頁與Electron應(yīng)用，甚至可以在應(yīng)用開發(fā)過程中，邊構(gòu)建邊測試。

▲一款僅通過簡短提示詞、由GPT?5.4生成的主題公園模擬游戲，開發(fā)過程中使用 Playwright Interactive 進(jìn)行瀏覽器端實(shí)機(jī)測試，并通過圖像生成創(chuàng)建等距視角美術(shù)資源。

五、工具使用：能快速搜索調(diào)用，完成長時(shí)間多輪復(fù)雜任務(wù)

基于GPT-5.4，智能體現(xiàn)在可在更龐大的工具生態(tài)中運(yùn)行，更可靠地選擇合適工具，并以更低成本、更低延遲完成多步驟工作流。

在API中，GPT-5.4引入了工具搜索功能，使模型在擁有多種工具時(shí)能夠高效工作。借助工具搜索功能，GPT?5.4會(huì)先獲取一份輕量化的可用工具列表，并具備工具檢索能力。當(dāng)模型需要使用某一工具時(shí)，可實(shí)時(shí)查詢?cè)摴ぞ叩亩x，并將其即時(shí)加入對(duì)話上下文。

這可以減少工具密集型工作流所需的token數(shù)量，并能有效利用緩存，讓請(qǐng)求更快、成本更低。智能體也可以能夠穩(wěn)定適配規(guī)模更龐大的工具生態(tài)系統(tǒng)。

為展示效率提升效果，OpenAI選取了Scale旗下MCP Atlas基準(zhǔn)測試中的250項(xiàng)任務(wù)，在啟用全部36臺(tái)MCP服務(wù)器的情況下，采用兩種模式進(jìn)行評(píng)估：將所有MCP函數(shù)直接暴露在模型上下文、將所有MCP服務(wù)器置于工具搜索機(jī)制之后，對(duì)比結(jié)果如下：

GPT-5.4還改進(jìn)了工具調(diào)用，在測試AI智能體如何使用真實(shí)工具與API完成多步驟任務(wù)的Toolathlon基準(zhǔn)測試中，相比GPT?5.2，GPT?5.4以更少的交互輪次實(shí)現(xiàn)了更高的準(zhǔn)確率。其任務(wù)包含智能體需要讀取郵件、提取任務(wù)附件、上傳文件、進(jìn)行評(píng)分，并將結(jié)果記錄到電子表格中。

對(duì)于偏好無推理模式、對(duì)延遲敏感的應(yīng)用場景，GPT?5.4相比前代模型實(shí)現(xiàn)了進(jìn)一步優(yōu)化。

網(wǎng)頁搜索中，在衡量AI智能體持續(xù)瀏覽網(wǎng)頁以尋找難以定位信息能力的指標(biāo)BrowseComp上，GPT-5.4躍升了17%，GPT-5.4 Pro達(dá)到89.3%。這意味著GPT-5.4可以更持久地跨多輪搜索，找出最相關(guān)的來源。

結(jié)語：OpenAI鞏固行業(yè)主導(dǎo)權(quán)

GPT-5.4此次在計(jì)算機(jī)操作能力上、GDPval 83%的勝率都說明，AI在執(zhí)行經(jīng)濟(jì)價(jià)值任務(wù)、原生電腦操控方面的天花板進(jìn)一步被拉高，讓進(jìn)一步證明AI已能穩(wěn)定完成高價(jià)值的知識(shí)工作，如數(shù)據(jù)分析、客戶服務(wù)、業(yè)務(wù)流程處理等，直接產(chǎn)生經(jīng)濟(jì)效益。

從當(dāng)前的測評(píng)表現(xiàn)來看，GPT?5.4的發(fā)布進(jìn)一步鞏固了OpenAI的行業(yè)頭部地位，其測評(píng)表現(xiàn)遠(yuǎn)超前代模型及競對(duì)公司的頂尖模型，或?yàn)槠湟?guī)模化商業(yè)化與AGI路線圖奠定關(guān)鍵基礎(chǔ)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.