国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易科技 > 網(wǎng)易科技 > 正文

OpenAI突發(fā)GPT-5.4!首次原生操控電腦,AI真的開始替你干活了

0
分享至

出品 | 網(wǎng)易智能

作者 | 小小

編輯 | 王鳳枝

OpenAI又毫無征兆地發(fā)布了新模型。


距離GPT-5.3 Instant上線僅僅過去兩天,GPT-5.4便被正式推出。它在API層面首次獲得了原生電腦操作能力,讓AI能夠像人類一樣自主控制鍵鼠,跨越各類應用軟件執(zhí)行具體任務。

不僅如此,ChatGPT也正式與Excel和Google Sheets等生產(chǎn)力工具實現(xiàn)了深度綁定。你可以在電子表格中直接調(diào)用它,將數(shù)據(jù)更新和財務分析全盤交由它來處理。

對于每天周旋于表格與文檔之間的職場人來說,這個模型的現(xiàn)實意義極其明確:AI不再僅僅是個聊天工具,它已經(jīng)正式下場替你干活了。

雖然有早期測試者吐槽它的前端交互體驗依然略遜于核心競品,但在這種極具統(tǒng)治力的自動化執(zhí)行力面前,這點UI層面的短板已經(jīng)顯得無足輕重。

01兩個版本,覆蓋不同需求

GPT-5.4這次分兩個版本上線。

GPT-5.4 Thinking面向付費訂閱用戶,ChatGPT Plus(20美元/月)、Team和Pro用戶現(xiàn)在就能用。它會在回答問題前先展示思考計劃,用戶可以中途打斷、調(diào)整方向,不用從頭再來。對于復雜問題,它能思考更長時間,同時保持上下文理解不跑偏。

GPT-5.4 Pro則留給需求更硬的用戶,包括ChatGPT Pro(200美元/月)和Enterprise企業(yè)版。OpenAI的說法是,這是為最復雜任務準備的,追求性能上限。免費用戶也有機會體驗它,但只有系統(tǒng)覺得必要時才會自動路由過去。

在API端,GPT-5.4支持100萬token上下文窗口,是OpenAI目前給到的最大容量。整本代碼庫、整份長合同可以一次性扔進去。

但有個細節(jié)要注意:輸入一旦超過27.2萬token,超出的部分按兩倍費率計費。

02原生電腦操控,AI開始像人一樣用電腦

這次最核心的升級,是GPT-5.4在API和Codex里第一次內(nèi)置了原生電腦操作能力。

以前AI只能生成文本、代碼讓你自己拿去用?,F(xiàn)在它可以自己調(diào)用Playwright這類庫寫代碼操控電腦,也可以直接看屏幕截圖,發(fā)出鼠標和鍵盤指令。開發(fā)者還能配置自定義確認策略,針對不同風險場景調(diào)整它的行為。

OpenAI表示,這是他們首個具備這種能力的通用模型,對于開發(fā)智能體的開發(fā)者來說,這是目前可用的最佳選擇。

幾個基準測試最能說明問題:

在測試桌面導航能力的OSWorld-Verified上,GPT-5.4的成功率達到75.0%,不僅遠超GPT-5.2的47.3%,還超過了72.4%的人類基準水平。這個測試衡量的是模型通過屏幕截圖加鍵盤鼠標操作在桌面環(huán)境里導航的能力。

在瀏覽器操控測試WebArena-Verified上,同時用DOM和截圖驅(qū)動交互時,它做到了67.3%的成功率,GPT-5.2是65.4%。而在Online-Mind2Web上,只靠截圖觀察,它的成功率達到了92.8%,遠高于ChatGPT Atlas智能體模式的70.9%。

計算機使用能力的提升,跟視覺感知能力的改進分不開。在測試模型視覺理解和推理的MMMU-Pro上,GPT-5.4在不使用工具的情況下達到81.2%的成功率,高于GPT-5.2的79.5%。在文檔解析測試OmniDocBench上,GPT-5.4的平均誤差是0.109,優(yōu)于GPT-5.2的0.140,而且這是在沒開推理努力的情況下跑出來的,反映的是低成本、低延遲狀態(tài)下的性能。

高分辨率圖像的理解也有升級。從GPT-5.4開始,OpenAI引入了一個原始圖像輸入細節(jié)級別,支持最高1024萬總像素或6000像素最大維度的全保真感知。高細節(jié)級別現(xiàn)在也支持到256萬總像素或2048像素最大維度。早期測試里,使用原始或高細節(jié)時,定位能力、圖像理解、點擊準確性都有明顯提升。

在GDPval這個測試覆蓋44個職業(yè)的知識工作任務中,GPT-5.4在83.0%的比較里達到或超過行業(yè)專業(yè)人士水平,其中69.2%是勝出,13.8%是打平。GPT-5.2是70.9%(49.8%勝,21.1%平)。GPT-5.4 Pro的勝率為82.0%,GPT-5.2 Pro是74.1%。測試里包含的行業(yè)覆蓋了美國GDP貢獻前9大行業(yè)。


在SWE-Bench Pro編碼測試里,GPT-5.4得分57.7%,GPT-5.3 Codex是56.8%,GPT-5.2是55.6%。更重要的是延遲表現(xiàn):在達到相似或更高準確率的情況下,GPT-5.4的估計延遲在500至800秒左右,而GPT-5.3 Codex是1800秒以上。延遲估計考慮了工具調(diào)用時間、采樣token和輸入token。

OpenAI拿用戶之前標記過事實錯誤的去標識化提示詞跑了一遍。GPT-5.4的單項陳述錯誤率比GPT-5.2低了33%,完整回應里出現(xiàn)任意錯誤的概率低了18%。OpenAI說這是他們迄今最具事實準確性的模型。

GitHub首席產(chǎn)品官馬里奧·羅德里格斯(Mario Rodriguez)的評價是,GPT-5.4在邏輯推理和執(zhí)行復雜多步驟工具依賴工作流方面表現(xiàn)突出,是企業(yè)第一天就該采用的模型。

房地產(chǎn)科技公司Mainstay的CEO多德·弗雷澤(Dod Fraser)透露,在覆蓋約3萬個房產(chǎn)稅門戶的測試中,GPT-5.4首次嘗試成功率95%,三次內(nèi)成功率100%,而之前的計算機操控模型只有73%到79%。GPT-5.4的完成速度快了大概3倍,token消耗少了約70%。

AI招聘與專家訓練平臺Mercor的聯(lián)合創(chuàng)始人兼CEO布倫丹·富迪(Brendan Foody)也給了評價,APEX-Agents最新測試顯示,GPT-5.4平均得分首次突破50%,三個月飆升15.7%。而一年前,頂尖模型連Excel都改不好,得分不足5%。AI能力正以超預期速度逼近頂級專業(yè)機構(gòu)水平。

OpenClaw創(chuàng)始人彼得·斯坦伯格(Peter Steinberger)的看法更偏務實,GPT-5.4在延續(xù)編碼優(yōu)勢的基礎上,實現(xiàn)了全方位的均衡提升,文檔編寫更專業(yè),通用代理能力更強,整體體驗也更友好。


Cursor的開發(fā)者教育副總裁李·羅賓遜(Lee Robinson)說,GPT-5.4在他們內(nèi)部基準測試里處于領先地位?!拔覀兊墓こ處煱l(fā)現(xiàn)它比以前模型更自然、更果斷。它會處理模糊的問題而不自我懷疑,會主動并行化工作保持進展。”

03工具搜索,把token盡量省下來

在工具調(diào)用方面,以前有個痛點:模型每次請求都得把所有工具定義塞進提示詞里。如果系統(tǒng)里工具多,一次請求可能多花幾千甚至幾萬token,成本高、速度慢、還把上下文塞得滿滿的。

GPT-5.4在API里引入了工具搜索(Tool Search)機制,徹底改變了這套玩法。

現(xiàn)在模型只接收一個輕量級的工具列表,配一個搜索功能。真需要使用時,它再去檢索完整定義,按需拉取。這對那些可能包含幾萬token工具定義的MCP服務器來說,效率提升很明顯。

OpenAI給出的數(shù)據(jù)顯示,在Scale的MCP Atlas基準測試里跑了250個任務,啟用全部36個MCP服務器。工具搜索模式跟把所有MCP功能直接暴露在上下文里的模式相比,準確率一樣,但總token用量少了47%。

具體數(shù)字是這樣的:不用工具搜索的情況下,平均總token消耗為123139,用了之后降到65320。

工具調(diào)用的準確率和效率也有提升。在Toolathlon測試里,它測的是AI智能體用真實世界工具和API完成多步驟任務的能力,比如讀郵件、提取附件、上傳、評分、記到表格里等,GPT-5.4用更少的工具讓步(Tool Yields)達到了更高的準確率。

所謂工具讓步,是指當AI在等待工具響應時會讓出控制權,這叫一次讓步。如果并行調(diào)用3個工具,再并行調(diào)用3個,讓步次數(shù)是2。它比工具調(diào)用次數(shù)更能反映延遲,因為體現(xiàn)了并行化的好處。在Toolathlon上,GPT-5.4在約10次讓步時準確率55%左右,GPT-5.2只有46%左右。

對于延遲敏感、不想開推理的場景,GPT-5.4也有提升。在τ2-bench電信測試里,模型要用工具完成客戶服務任務,不開推理的情況下,GPT-5.4準確率64.3%,GPT-5.2是57.2%,GPT-5.1是45.2%,GPT-4.1是43.6%。

自動化軟件服務公司Zapier的CEO韋德·福斯特(Wade Foster)說,GPT-5.4在他們跨幾百個真實工作流的工具使用基準測試里表現(xiàn)很好?!癎PT-5.4 xhigh是多步驟工具使用的新標桿,它完成了之前模型放棄的任務,是迄今為止最持久的模型。”

04 Excel深度集成,金融場景先落地

跟GPT-5.4同步上線的,還有一套面向企業(yè)和金融機構(gòu)的OpenAI金融服務套件。

核心產(chǎn)品是ChatGPT for Excel和Google Sheets測試版。ChatGPT直接嵌進電子表格的單元格里,你可以讓它幫你搭財務模型、做分析、更新數(shù)據(jù)。OpenAI表示,這是用團隊已經(jīng)依賴的公式和結(jié)構(gòu)來工作。

套件還整合了FactSet、MSCI、Third Bridge、Moody's這些數(shù)據(jù)源,推出一套可復用的Skills功能,覆蓋盈利預覽、可比公司分析、DCF估值分析、投資備忘錄撰寫這些高頻場景。

OpenAI特別專注于改進GPT-5.4創(chuàng)建和編輯電子表格、演示文稿和文檔的能力。

OpenAI自己有個內(nèi)部投行基準測試。GPT-5 Thinking在這個測試里的得分是43.7%,而GPT-5.4 Thinking直接干到了88.0%。

在另一個模擬初級投行分析師電子表格建模任務的測試里,GPT-5.4平均得分87.3%,GPT-5.2是68.4%。

投資公司W(wǎng)alleye Capital的AI解決方案主管丹尼爾·斯威基(Daniel Swiecki)稱,在他們內(nèi)部的財務和Excel評估里,GPT-5.4準確率提高了30個百分點。他把這歸因于模型更新和情景分析的擴展自動化。

法律AI平臺Harvey的應用研究主管尼科·格魯彭(Niko Grupen)也評論道:GPT-5.4在他們BigLaw Bench評估里得分91%,“在結(jié)構(gòu)化復雜交易分析、跨長篇合同保持準確性、提供法律從業(yè)者需要的高細節(jié)方面,目前比別的模型都好”。


05網(wǎng)絡搜索能力大幅提升

GPT-5.4在智能體網(wǎng)絡搜索方面也做了改進。

在BrowseComp測試里,衡量AI智能體能多持久地瀏覽網(wǎng)絡,找到那些難找的信息時,GPT-5.4比GPT-5.2提升了17個百分點,GPT-5.4 Pro以89.3%的成績創(chuàng)下該基準測試的新高。

OpenAI解釋說,在BrowseComp里他們用了搜索阻止列表,排除了包含基準答案的網(wǎng)站,防止污染。GPT-5.4測試時間比GPT-5.2晚,分數(shù)變化反映了模型、搜索系統(tǒng)和互聯(lián)網(wǎng)狀態(tài)的變化。GPT-5.4用的是更長、更新的阻止列表。

落實到實際體驗上,這意味著GPT-5.4 Thinking在回答那些需要從網(wǎng)上多個來源匯集信息的問題時更靠譜。它能更持久地跨多輪搜索,找到最相關的來源,特別是對那些大海撈針式的問題,然后把它們綜合成清晰的答案。

06可引導性,能中途打斷調(diào)整方向

ChatGPT里的GPT-5.4 Thinking多了個新功能:對于較長、較復雜的查詢,它會先給一個工作概要,你可以看到它打算怎么干。

更重要的是,你可以在它響應過程中添加指令或調(diào)整方向,不用從頭開始,也不用多輪對話。OpenAI說這能讓模型輸出更貼近你想要的結(jié)果。

這個功能現(xiàn)在在網(wǎng)頁版和Android應用上能用,iOS即將上線。

模型在困難任務上也能思考更長時間,同時對對話早期步驟保持更強的意識。這意味著它能處理更長的工作流和更復雜的提示,同時保持答案的連貫性和相關性。

07反饋與體驗:早期用戶的真實感受

AI寫作助手公司HyperWrite的CEO馬特·舒默(Matt Shumer)提前試了GPT-5.4一周。他提到了一個有意思的細節(jié):自己以前一直是Pro系列的重度用戶,因為Pro幾乎能完美應對所有任務。但這次,GPT-5.4標準版打破了這個習慣。

“即使在標準模式下,GPT-5.4也比之前的Pro版好,不可思議。”他說編碼能力強得離譜,在Codex里可靠性驚人?!熬幋a問題基本上解決了。”Pro版近乎完美,能解決其他模型解決不了的問題,但對日常使用來說性能有點過剩。

他也提到幾個問題:前端界面體驗不如Claude Opus 4.6和Gemini 3.1 Pro;會忽略一些顯而易見的現(xiàn)實背景,比如規(guī)劃旅行行程時選了春假期間人擠人的地點;在OpenClaw里測試時,程序經(jīng)常在任務完成前突然停住。

但他最后給的結(jié)論是:整體上領先太多,那些吹毛求疵的小問題都顯得無關緊要了。

世界頂尖免疫學專家德里亞·烏努特馬茲(Derya Unutmaz)也試了Pro版,用了幾天。“它展現(xiàn)出了相對更高的創(chuàng)造力、洞察力和抽象智能,比5.2 Pro模型更頻繁地提出問題?!彼贏GI-2測試里給GPT-5.4 Pro打了83%的得分。

08定價:比以前貴,但值得

API定價上,GPT-5.4比GPT-5.2貴了一些。

GPT-5.4標準版每百萬輸入token為2.5美元、輸出15美元;Pro版輸入30美元、輸出180美元。與之相比,GPT-5.2是輸入1.75美元、輸出14美元;GPT-5.2 Pro是輸入21美元、輸出168美元。

其中,輸入超過27.2萬token的部分,按兩倍費率算。Codex里默認壓縮上限就是27.2萬token,開發(fā)者可以手動往上調(diào),超出部分才觸發(fā)高計費。

OpenAI發(fā)言人對此給出了三條理由:一是復雜任務能力更強,包括編碼、電腦操控、深度研究、高級文檔生成、工具調(diào)用;二是研究路線圖上有重大技術進步;三是更高效的推理機制在相同任務上消耗更少推理token,能抵消一部分單價上漲。發(fā)言人說,即便提價,GPT-5.4的定價還是低于同等能力的競品前沿模型。

在ChatGPT端,GPT-5.4 Thinking從3月5日起向Plus、Team及Pro用戶開放,取代此前的GPT-5.2 Thinking。GPT-5.2 Thinking將在三個月后于2026年6月5日正式退役,期間可以在模型選擇器的傳統(tǒng)模型里找到。

GPT-5.4 Pro只對Pro和Enterprise計劃用戶開放,企業(yè)和教育版用戶可通過管理員設置提前開啟訪問權限。

在安全方面,OpenAI把GPT-5.4定位為高網(wǎng)絡能力模型,沿用了GPT-5.3 Codex的類似保護措施,包括監(jiān)控系統(tǒng)、受信任訪問控制,對零數(shù)據(jù)保留(ZDR)表面的高風險請求做異步阻斷。

他們也在持續(xù)研究思維鏈(CoT)的可監(jiān)控性。新開源的評估叫CoT可控性,測的是模型能不能故意混淆推理來逃避監(jiān)控。結(jié)論是GPT-5.4 Thinking控制CoT的能力較低,這對安全來說是好事,說明CoT監(jiān)控仍然有效。

寫在最后

當你再次打開ChatGPT時,你面對的已經(jīng)不再是一個僅僅擅長咬文嚼字的聊天機器人。

回看這兩年的軌跡:從陪人聊天的對話框,到輔助敲代碼的副手,再到今天直接接管鼠標鍵盤、接手復雜表格的數(shù)字員工。這次的GPT-5.4或許沒有創(chuàng)造出全新的理論基座,但它把紙面上的潛能徹底變成了桌上的生產(chǎn)力。

技術革命往往不是伴隨著巨響到來的,而是潛移默化地滲透進每一次版本更新里。等到我們真正察覺時,那個曾經(jīng)只會回答問題的AI,其實已經(jīng)悄無聲息地坐上了你的工位。

相關推薦
熱點推薦
女子在杭州西湖景區(qū)把“西泠印社”認成“杜帥冷面”,網(wǎng)友:四個字認錯五個,當事人:沒有文化確實不行

女子在杭州西湖景區(qū)把“西泠印社”認成“杜帥冷面”,網(wǎng)友:四個字認錯五個,當事人:沒有文化確實不行

揚子晚報
2026-03-06 17:44:56
1965年,毛主席聽到特大礦產(chǎn)地名后,說:不好聽,我看叫攀枝花吧

1965年,毛主席聽到特大礦產(chǎn)地名后,說:不好聽,我看叫攀枝花吧

墨道榮
2026-03-06 14:55:40
三百名醫(yī)生提醒:晨起喝溫水對心腦血管的影響,建議抽一分鐘看看

三百名醫(yī)生提醒:晨起喝溫水對心腦血管的影響,建議抽一分鐘看看

垚垚分享健康
2026-03-06 10:40:08
交戰(zhàn)第5天,伊朗通告全球,不排除打擊美國本土,菲律賓怕啥來啥

交戰(zhàn)第5天,伊朗通告全球,不排除打擊美國本土,菲律賓怕啥來啥

咣當?shù)厍?/span>
2026-03-06 10:07:04
魏牌CEO趙永坡就V9X海報被指與路虎設計作品相似道歉

魏牌CEO趙永坡就V9X海報被指與路虎設計作品相似道歉

IT之家
2026-03-06 20:39:23
汪小菲母子反目!被罵沒股權亂說話,張?zhí)m忍無可忍,曝光其真面目

汪小菲母子反目!被罵沒股權亂說話,張?zhí)m忍無可忍,曝光其真面目

手工制作阿殲
2026-03-06 17:23:13
央視緊急曝光:全是假貨!別再往家里拎了,很多人天天在用!

央視緊急曝光:全是假貨!別再往家里拎了,很多人天天在用!

閱微札記
2026-03-05 19:17:38
她白手起家賺了800億,因崇拜許家印投資房地產(chǎn),結(jié)果負債469億!

她白手起家賺了800億,因崇拜許家印投資房地產(chǎn),結(jié)果負債469億!

夢史
2026-01-10 10:29:53
5-0!女足亞洲杯誕生最大慘案,8強定3席,中國隊升頭名條件曝光

5-0!女足亞洲杯誕生最大慘案,8強定3席,中國隊升頭名條件曝光

侃球熊弟
2026-03-06 12:13:05
中紀委明確:公職人員犯罪符合這些情形可以不開除(含公務員、參公、事業(yè)和國企)

中紀委明確:公職人員犯罪符合這些情形可以不開除(含公務員、參公、事業(yè)和國企)

微法官
2026-02-28 00:04:56
媒體人:中國籃球歷史上第一位美式后衛(wèi)的生涯可能要結(jié)束了

媒體人:中國籃球歷史上第一位美式后衛(wèi)的生涯可能要結(jié)束了

懂球帝
2026-03-06 08:34:06
轟17+7!中國女籃25歲2米01中鋒閃耀:宮魯鳴留下女版奧尼爾嗎?

轟17+7!中國女籃25歲2米01中鋒閃耀:宮魯鳴留下女版奧尼爾嗎?

李喜林籃球絕殺
2026-03-06 22:11:35
惠科股份IPO過會:去年下半年營收219億凈利降6% 負債總額692億

惠科股份IPO過會:去年下半年營收219億凈利降6% 負債總額692億

雷遞
2026-03-06 17:04:21
特朗普脖子上這一大片是咋了?

特朗普脖子上這一大片是咋了?

觀察者網(wǎng)
2026-03-05 15:14:18
安徽美女程雨婷睡夢中去世,年僅24歲,原因公開,男友在靈堂長跪

安徽美女程雨婷睡夢中去世,年僅24歲,原因公開,男友在靈堂長跪

哄動一時啊
2026-03-06 19:33:14
以色列已經(jīng)告訴世界:日本若敢擁有核武器,美國并不會第一個翻臉

以色列已經(jīng)告訴世界:日本若敢擁有核武器,美國并不會第一個翻臉

八斗小先生
2025-12-26 09:33:27
又有5國參戰(zhàn)!中東亂成一鍋粥,美媒再爆料:沙特欺騙了全世界

又有5國參戰(zhàn)!中東亂成一鍋粥,美媒再爆料:沙特欺騙了全世界

寥落如辰星
2026-03-05 22:19:16
一旦中美開戰(zhàn),第一天會發(fā)生什么?美智庫被兵推結(jié)果驚出一身汗

一旦中美開戰(zhàn),第一天會發(fā)生什么?美智庫被兵推結(jié)果驚出一身汗

星星沒有你亮
2026-02-07 02:24:58
51歲建筑史學者錢鋒辭世,長期任教同濟大學

51歲建筑史學者錢鋒辭世,長期任教同濟大學

澎湃新聞
2026-03-06 17:42:27
外交部:中方反對美國和以色列違反國際法,對伊朗發(fā)動軍事打擊

外交部:中方反對美國和以色列違反國際法,對伊朗發(fā)動軍事打擊

環(huán)球網(wǎng)資訊
2026-03-06 15:28:47
2026-03-06 22:56:49

科技要聞

獨家|除夕加班、毫無黑料!林俊旸無奈離場

頭條要聞

中東戰(zhàn)火重燃之際 金正恩時隔半年再度登上"最大的船"

頭條要聞

中東戰(zhàn)火重燃之際 金正恩時隔半年再度登上"最大的船"

體育要聞

跑了24年,他終于成為英超“最長的河”

娛樂要聞

周杰倫社交媒體曬昆凌,夫妻感情穩(wěn)定

財經(jīng)要聞

關于經(jīng)濟、股市等,五部門都說了啥?

汽車要聞

逃離ICU,上汽通用“止血”企穩(wěn)

態(tài)度原創(chuàng)

時尚
房產(chǎn)
數(shù)碼
游戲
手機

從素人到漲粉30萬,她全靠這些穿搭“小心思”?

房產(chǎn)要聞

傳統(tǒng)學區(qū)房熄火?2月海口二手房爆火的板塊竟然是…

數(shù)碼要聞

華為WATCH GT 6系列手表推送HarmonyOS 6花粉Beta版升級

防止給Xbox打工!索尼疑收緊獨占策略 不移植PC很聰明

手機要聞

榮耀MagicOS 11大版本官宣“正全力籌備中”,新功能前瞻發(fā)布

無障礙瀏覽 進入關懷版
×