国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

GPT-5.4深夜登場!能操控電腦,編程超Opus 4.6,開發(fā)者直呼“離譜”

0
分享至


智東西
編譯 程茜
編輯 李水青

智東西3月6日消息,今日凌晨,OpenAIGPT-5.4系列模型來了,ChatGPT、API和Codex同步上線,這是其首款具備原生、最先進(jìn)計(jì)算機(jī)使用能力的通用模型。

根據(jù)OpenAI的官方測評(píng)結(jié)果,GPT-5.4在電腦操控、知識(shí)工作、工具使用等綜合任務(wù)上全面領(lǐng)先GPT-5.2、Claude Opus 4.6、Gemini 3.1 Pro等頂尖模型。


OpenAI聯(lián)合創(chuàng)始人、CEO薩姆·阿爾特曼(Sam Altman)在社交平臺(tái)X上稱,GPT-5.4在知識(shí)工作和網(wǎng)頁搜索方面做得更好。OpenAI高級(jí)研究科學(xué)家、德?lián)銩I之父Noam Brown也發(fā)帖稱,GPT?5.4在電腦操控能力與具備經(jīng)濟(jì)價(jià)值的任務(wù)上實(shí)現(xiàn)了巨大飛躍,他們看不到能力天花板,預(yù)計(jì)今年AI的整體性能仍將持續(xù)大幅提升。


GPT-5.4今天將逐步上線ChatGPT、Codex、API,但其思考模型僅正式向ChatGPT Plus、Team及Pro用戶開放,替代原有GPT?5.2思考模式。GPT?5.2思考模式將在模型選擇器的舊版模型專區(qū)為付費(fèi)用戶再保留三個(gè)月,隨后將于2026年6月5日下線。

GPT-5.4 Pro適合需要在復(fù)雜任務(wù)中達(dá)到最大性能的開發(fā)者,將為Pro與企業(yè)版用戶提供。

定價(jià)方面,GPT-5.4的單token定價(jià)高于GPT?5.2,但OpenAI博客提到,它更高的token效率可降低多數(shù)任務(wù)的總token消耗量。

值得一提的是,Codex中的GPT?5.4已實(shí)驗(yàn)性支持100萬上下文窗口,超出標(biāo)準(zhǔn)272K上下文窗口的請(qǐng)求,將按正常用量的2倍計(jì)入使用額度。此外,批量處理與彈性計(jì)費(fèi)價(jià)格為標(biāo)準(zhǔn)API費(fèi)率的一半,優(yōu)先處理則為標(biāo)準(zhǔn)費(fèi)率的2倍。

輸入價(jià)格,GPT-5.4相對(duì)GPT-5.2漲幅超過40%,輸出價(jià)格漲幅為7.14%


參與早期測試的開發(fā)者、AI寫作助手公司HyperWrite CEO Matt Shumer對(duì)GPT-5.4開啟了夸夸夸模式,稱其是世界上最好的模型,并且相比Pro更常用GPT-5.4的標(biāo)準(zhǔn)版,編程能力好到離譜。

還有網(wǎng)友稱蘋果發(fā)了MacBook Neo,OpenAI轉(zhuǎn)頭就上線100萬token上下文+原生電腦操控,“筆記本正經(jīng)歷存在主義危機(jī)”。但有開發(fā)者吐槽,GPT-5.4的價(jià)格太瘋狂了,完全沒法基于它做開發(fā)。


一、OpenAI首個(gè)能原生操作電腦的模型上線,token使用效率更高

GPT?5.4繼承了OpenAI近期在推理、代碼生成與智能體工作流領(lǐng)域的頂尖技術(shù)成果。

該模型繼承了GPT?5.3?Codex的編程能力,并優(yōu)化了模型在各類工具、軟件環(huán)境及專業(yè)任務(wù)中的協(xié)同表現(xiàn),涵蓋表格、演示文稿與文檔處理等場景。這使得GPT?5.4能夠精準(zhǔn)、高效、可靠地完成復(fù)雜的實(shí)際工作,直接交付用戶想要的結(jié)果。

ChatGPT的推理模式中,GPT-5.4思考模式可以提前展示思考規(guī)劃,用戶可以在模型運(yùn)行過程中調(diào)整方向,無需額外交互輪次,就能實(shí)現(xiàn)更符合需求的輸出。

面對(duì)更長、更復(fù)雜的查詢,ChatGPT中的GPT?5.4思考模式會(huì)先以一段前置說明來規(guī)劃解題步驟。用戶可以在回復(fù)過程中補(bǔ)充指令或調(diào)整方向,無需重新開始或多輪追問,就能引導(dǎo)模型得到你想要的精確結(jié)果。

針對(duì)復(fù)雜任務(wù),該模型能進(jìn)行更長時(shí)間的思考,同時(shí)更好地記住對(duì)話前期步驟。這使其能夠處理更長的工作流與更復(fù)雜的提示詞,并始終保持回答連貫、切題。


GPT?5.4思考模式增強(qiáng)了深度網(wǎng)絡(luò)檢索能力,尤其針對(duì)高度專業(yè)化的查詢,同時(shí)在需要更長思考過程的問題上更好地維持上下文連貫性。

在Codex和API中,GPT-5.4是OpenAI首個(gè)具備原生、最先進(jìn)計(jì)算機(jī)使用能力的通用模型,使Agent可以操作計(jì)算機(jī)并執(zhí)行跨應(yīng)用的復(fù)雜工作流。

其支持100萬個(gè)token的上下文,允許Agent執(zhí)行長時(shí)間的規(guī)劃、執(zhí)行和驗(yàn)證任務(wù),其還能通過工作搜索提升模型在大型工具和連接器生態(tài)系統(tǒng)中的工作,幫Agent高效找到和使用工具。

GPT-5.4是OpenAI迄今為止最高效的token推理模型,相比GPT-5.2,新模型用的token數(shù)量明顯更少,從而能減少token使用并加快速度。


▲GPT?5.4、GPT?5.3?Codex和GPT?5.2三款模型在不同專業(yè)任務(wù)上的性能對(duì)比表:

二、知識(shí)工作成果:PPT生成效果更強(qiáng),單個(gè)錯(cuò)誤出現(xiàn)概率降低33%

GPT?5.4、GPT?5.3?Codex和GPT?5.2三款模型在不同專業(yè)任務(wù)上的性能對(duì)比表,

評(píng)估模型在真實(shí)經(jīng)濟(jì)價(jià)值任務(wù)的GDPval測試上,大模型需在44個(gè)職業(yè)中產(chǎn)出規(guī)范的知識(shí)工作成果,GPT-5.4在83.0%的比較率下,其表現(xiàn)達(dá)到或超越了行業(yè)專業(yè)人士的水平,而GPT?5.2的這一比例為70.9%。


對(duì)于創(chuàng)建和編輯電子表格、PPT、文檔的任務(wù),在一項(xiàng)模擬初級(jí)投行分析師所做的電子表格建模任務(wù)內(nèi)部基準(zhǔn)測試中,GPT?5.4的平均得分達(dá)到87.3%,GPT?5.2為68.4%。在一組PPT評(píng)估任務(wù)中,人類評(píng)審在68.0%的情況下更偏好GPT?5.4生成的演示文稿,原因是其美學(xué)表現(xiàn)更強(qiáng)、視覺形式更豐富,且圖像生成的運(yùn)用更具效果。


在消除幻覺方面,OpenAI官方稱,OpenAI是其迄今事實(shí)準(zhǔn)確性最高的模型:在一組用戶標(biāo)記過事實(shí)錯(cuò)誤的去標(biāo)識(shí)化提示測試中,與GPT?5.2相比,GPT?5.4的單個(gè)事實(shí)陳述出現(xiàn)錯(cuò)誤的概率降低了33%,整段回答包含任何錯(cuò)誤的概率降低了18%。

三、計(jì)算機(jī)使用與視覺:操控電腦超人類水平,視覺輸入支持最高1024萬像素

GPT?5.4是OpenAI首款具備原生計(jì)算機(jī)操作能力的通用模型,OpenAI稱其是目前開發(fā)者構(gòu)建可在各類網(wǎng)站與軟件系統(tǒng)中完成真實(shí)任務(wù)的智能體時(shí),可選用的最佳模型。

該模型擅長通過Playwright等庫編寫控制計(jì)算機(jī)的代碼,也能根據(jù)截圖下達(dá)鼠標(biāo)與鍵盤指令。模型行為可通過開發(fā)者指令靈活調(diào)控,開發(fā)者可根據(jù)具體場景調(diào)整其行為邏輯。開發(fā)者還能通過自定義確認(rèn)策略,配置模型的安全行為,以適配不同的風(fēng)險(xiǎn)容忍等級(jí)。

GPT?5.4在各類計(jì)算機(jī)操作場景的基準(zhǔn)測試中,成績相較前代模型都有所提升。在通過截圖與鍵鼠操作評(píng)估模型在桌面環(huán)境中的執(zhí)行能力的OSWorld?Verified測試中,GPT?5.4的成功率達(dá)到75.0%,遠(yuǎn)超GPT?5.2的47.3%,同時(shí)超過了人類水平的72.4%。


在測試瀏覽器使用能力的WebArena-Verified基準(zhǔn)中,GPT?5.4在同時(shí)采用DOM與截圖交互時(shí),成功率達(dá)到67.3%的,GPT?5.2為65.4%。

GPT?5.4更強(qiáng)的計(jì)算機(jī)操作能力,建立在模型通用視覺感知能力的提升之上。在測試模型視覺理解與推理能力的MMMU?Pro基準(zhǔn)中,GPT?5.4在不使用工具的情況下達(dá)到81.2%的成功率,優(yōu)于GPT?5.2的79.5%。


▲GPT?5.4解析瀏覽器界面截圖,并通過基于坐標(biāo)的點(diǎn)擊操作與UI元素交互,完成發(fā)送郵件、創(chuàng)建日歷日程等任務(wù)

其視覺感知能力的提升也轉(zhuǎn)化為更出色的文檔解析能力。在OmniDocBench測試中,不啟用深度推理的GPT?5.4平均誤差為0.109,優(yōu)于GPT?5.2的0.140。


OpenAI還針對(duì)高分辨率、信息密集型圖像優(yōu)化了視覺理解能力,確保完整保真度。

從GPT?5.4開始,OpenAI將推出原始圖像輸入精度模式,支持最高1024萬像素或最大邊長6000像素(取較低值)的全保真感知;原有的高圖像輸入精度模式現(xiàn)已支持最高256萬像素或最大邊長2048像素。

在面向API用戶的早期測試中,研究人員觀察到,使用原始精度或高精度模式時(shí),模型在定位能力、圖像理解與點(diǎn)擊準(zhǔn)確率上均有顯著提升。

四、編程:表現(xiàn)超越GPT?5.3?Codex,token生成速度最高可提升1.5倍

GPT?5.4融合了GPT?5.3?Codex的代碼能力優(yōu)勢,以及知識(shí)工作與計(jì)算機(jī)操作能力,這些能力在長時(shí)間運(yùn)行的任務(wù)中尤為關(guān)鍵,模型可自主調(diào)用工具、迭代推進(jìn)任務(wù),大幅減少人工干預(yù)。

在SWE?Bench Pro測試中,GPT?5.4的表現(xiàn)持平甚至超越GPT?5.3?Codex,同時(shí)在各類推理任務(wù)中延遲更低。


在Codex中開啟/fast模式后,GPT?5.4的token生成速度最高可提升1.5倍。模型與智能水平保持不變,僅速度更快。這意味著用戶可以在編碼、迭代與調(diào)試過程中保持流暢狀態(tài)。

開發(fā)者可通過API的優(yōu)先處理功能,以同等高速體驗(yàn)使用GPT?5.4。

在評(píng)估和內(nèi)部測試中,研究人員發(fā)現(xiàn)GPT-5.4在復(fù)雜的前端任務(wù)中表現(xiàn)出色,其美觀效果和功能性均優(yōu)于我們之前發(fā)布的任何模型。

為展示模型計(jì)算機(jī)操作能力與代碼能力協(xié)同提升的效果,OpenAI還同步推出一項(xiàng)實(shí)驗(yàn)性Codex技能,名為“Playwright(交互式)”。該功能讓Codex能夠以視覺方式調(diào)試網(wǎng)頁與Electron應(yīng)用,甚至可以在應(yīng)用開發(fā)過程中,邊構(gòu)建邊測試。


▲一款僅通過簡短提示詞、由GPT?5.4生成的主題公園模擬游戲, 開發(fā)過程中使用 Playwright Interactive 進(jìn)行瀏覽器端實(shí)機(jī)測試,并通過圖像生成創(chuàng)建等距視角美術(shù)資源。

五、工具使用:能快速搜索調(diào)用,完成長時(shí)間多輪復(fù)雜任務(wù)

基于GPT-5.4,智能體現(xiàn)在可在更龐大的工具生態(tài)中運(yùn)行,更可靠地選擇合適工具,并以更低成本、更低延遲完成多步驟工作流。

在API中,GPT-5.4引入了工具搜索功能,使模型在擁有多種工具時(shí)能夠高效工作。借助工具搜索功能,GPT?5.4會(huì)先獲取一份輕量化的可用工具列表,并具備工具檢索能力。當(dāng)模型需要使用某一工具時(shí),可實(shí)時(shí)查詢?cè)摴ぞ叩亩x,并將其即時(shí)加入對(duì)話上下文。

這可以減少工具密集型工作流所需的token數(shù)量,并能有效利用緩存,讓請(qǐng)求更快、成本更低。智能體也可以能夠穩(wěn)定適配規(guī)模更龐大的工具生態(tài)系統(tǒng)。

為展示效率提升效果,OpenAI選取了Scale旗下MCP Atlas基準(zhǔn)測試中的250項(xiàng)任務(wù),在啟用全部36臺(tái)MCP服務(wù)器的情況下,采用兩種模式進(jìn)行評(píng)估:將所有MCP函數(shù)直接暴露在模型上下文、將所有MCP服務(wù)器置于工具搜索機(jī)制之后,對(duì)比結(jié)果如下:


GPT-5.4還改進(jìn)了工具調(diào)用,在測試AI智能體如何使用真實(shí)工具與API完成多步驟任務(wù)的Toolathlon基準(zhǔn)測試中,相比GPT?5.2,GPT?5.4以更少的交互輪次實(shí)現(xiàn)了更高的準(zhǔn)確率。其任務(wù)包含智能體需要讀取郵件、提取任務(wù)附件、上傳文件、進(jìn)行評(píng)分,并將結(jié)果記錄到電子表格中。


對(duì)于偏好無推理模式、對(duì)延遲敏感的應(yīng)用場景,GPT?5.4相比前代模型實(shí)現(xiàn)了進(jìn)一步優(yōu)化。


網(wǎng)頁搜索中,在衡量AI智能體持續(xù)瀏覽網(wǎng)頁以尋找難以定位信息能力的指標(biāo)BrowseComp上,GPT-5.4躍升了17%,GPT-5.4 Pro達(dá)到89.3%。這意味著GPT-5.4可以更持久地跨多輪搜索,找出最相關(guān)的來源。


結(jié)語:OpenAI鞏固行業(yè)主導(dǎo)權(quán)

GPT-5.4此次在計(jì)算機(jī)操作能力上、GDPval 83%的勝率都說明,AI在執(zhí)行經(jīng)濟(jì)價(jià)值任務(wù)、原生電腦操控方面的天花板進(jìn)一步被拉高,讓進(jìn)一步證明AI已能穩(wěn)定完成高價(jià)值的知識(shí)工作,如數(shù)據(jù)分析、客戶服務(wù)、業(yè)務(wù)流程處理等,直接產(chǎn)生經(jīng)濟(jì)效益。

從當(dāng)前的測評(píng)表現(xiàn)來看,GPT?5.4的發(fā)布進(jìn)一步鞏固了OpenAI的行業(yè)頭部地位,其測評(píng)表現(xiàn)遠(yuǎn)超前代模型及競對(duì)公司的頂尖模型,或?yàn)槠湟?guī)模化商業(yè)化與AGI路線圖奠定關(guān)鍵基礎(chǔ)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
她就是李谷一女兒,辭掉央視工作,專心照顧母親,如今46歲仍未婚

她就是李谷一女兒,辭掉央視工作,專心照顧母親,如今46歲仍未婚

白面書誏
2026-03-06 14:20:11
雷軍稱贊宇樹科技讓全球震撼,目前小米機(jī)器人也在擰螺絲了;海爾是小米的老師,真誠邀請(qǐng)周云杰到工廠參觀指導(dǎo)

雷軍稱贊宇樹科技讓全球震撼,目前小米機(jī)器人也在擰螺絲了;海爾是小米的老師,真誠邀請(qǐng)周云杰到工廠參觀指導(dǎo)

極目新聞
2026-03-06 13:46:51
中央一號(hào)文件定調(diào)!2026年起駐村全面常態(tài)化,機(jī)制大改農(nóng)民放心了

中央一號(hào)文件定調(diào)!2026年起駐村全面常態(tài)化,機(jī)制大改農(nóng)民放心了

李博世財(cái)經(jīng)
2026-03-05 17:01:00
中國股市大佬罕見發(fā)聲:炒股發(fā)財(cái)?shù)挠肋h(yuǎn)只有一種人!僅分享這一次

中國股市大佬罕見發(fā)聲:炒股發(fā)財(cái)?shù)挠肋h(yuǎn)只有一種人!僅分享這一次

股經(jīng)縱橫談
2026-03-06 20:09:27
軍統(tǒng)中統(tǒng)屢滲延安屢敗,戴笠坦言:因毛澤東身邊有位紅色福爾摩斯

軍統(tǒng)中統(tǒng)屢滲延安屢敗,戴笠坦言:因毛澤東身邊有位紅色福爾摩斯

嘮叨說歷史
2026-03-03 11:55:40
這是目前為止,我見過腰最細(xì)的女生,沒有之一

這是目前為止,我見過腰最細(xì)的女生,沒有之一

草莓解說體育
2026-03-03 19:15:05
全國人大代表陳瑋:建議將全面性教育納入基礎(chǔ)教育

全國人大代表陳瑋:建議將全面性教育納入基礎(chǔ)教育

界面新聞
2026-03-05 17:39:01
“中國,我的母親我來了!” 首批新加坡華人后代正退籍、賣房…

“中國,我的母親我來了!” 首批新加坡華人后代正退籍、賣房…

新加坡萬事通
2026-03-06 18:49:21
43歲張杰正式宣布退出!原因令人意外,周深的天終于亮了

43歲張杰正式宣布退出!原因令人意外,周深的天終于亮了

興史興談
2026-01-28 00:29:21
伊朗發(fā)出威力強(qiáng)大的宗教追殺令:要求全球穆斯林人人追殺美以元首

伊朗發(fā)出威力強(qiáng)大的宗教追殺令:要求全球穆斯林人人追殺美以元首

音樂時(shí)光的娛樂
2026-03-05 11:56:33
賈國龍不再擔(dān)任西貝CEO,有門店前店長稱多個(gè)崗位員工工資延遲發(fā)放通知已被撤回

賈國龍不再擔(dān)任西貝CEO,有門店前店長稱多個(gè)崗位員工工資延遲發(fā)放通知已被撤回

紅星新聞
2026-03-06 21:16:15
歐足聯(lián)官方:皇馬被罰15000歐+緩期一年單場比賽關(guān)閉部分看臺(tái)

歐足聯(lián)官方:皇馬被罰15000歐+緩期一年單場比賽關(guān)閉部分看臺(tái)

懂球帝
2026-03-06 18:36:38
中東還沒結(jié)束,亞太又出問題?朝鮮突發(fā)導(dǎo)彈,特朗普收到一封挑戰(zhàn)書

中東還沒結(jié)束,亞太又出問題?朝鮮突發(fā)導(dǎo)彈,特朗普收到一封挑戰(zhàn)書

策略述
2026-03-06 17:26:03
恢復(fù)神速!冬奧會(huì)嚴(yán)重受傷后不到1個(gè)月,林賽沃恩已重返健身房

恢復(fù)神速!冬奧會(huì)嚴(yán)重受傷后不到1個(gè)月,林賽沃恩已重返健身房

全景體育V
2026-03-06 20:25:59
西班牙議員:立刻退出北約,美國和以色列就是人類最大的威脅!

西班牙議員:立刻退出北約,美國和以色列就是人類最大的威脅!

達(dá)文西看世界
2026-03-06 11:39:26
劉國梁忍無可忍,道出與樊振東真實(shí)關(guān)系

劉國梁忍無可忍,道出與樊振東真實(shí)關(guān)系

孤傲何妨初
2026-03-07 03:37:55
巴方總統(tǒng)警告中國,中國要是敢反擊,巴拿馬就動(dòng)手,后果自負(fù)!

巴方總統(tǒng)警告中國,中國要是敢反擊,巴拿馬就動(dòng)手,后果自負(fù)!

有牙的兔紙
2026-03-06 13:59:12
河南企業(yè)家崔培軍:從年前風(fēng)光發(fā)錢到年后意外轉(zhuǎn)折

河南企業(yè)家崔培軍:從年前風(fēng)光發(fā)錢到年后意外轉(zhuǎn)折

三農(nóng)老歷
2026-03-06 19:52:06
革命衛(wèi)隊(duì)已事實(shí)獨(dú)立!伊朗外長這句話把世界看懵了

革命衛(wèi)隊(duì)已事實(shí)獨(dú)立!伊朗外長這句話把世界看懵了

鳳眼論
2026-03-04 07:41:50
貝克漢姆小兒子克魯茲被問及家中矛盾,表示想與大哥修復(fù)關(guān)系

貝克漢姆小兒子克魯茲被問及家中矛盾,表示想與大哥修復(fù)關(guān)系

懂球帝
2026-03-07 01:08:07
2026-03-07 06:12:49
智東西 incentive-icons
智東西
聚焦智能變革,服務(wù)產(chǎn)業(yè)升級(jí)。
11320文章數(shù) 116987關(guān)注度
往期回顧 全部

科技要聞

獨(dú)家|除夕加班、毫無黑料!林俊旸無奈離場

頭條要聞

伊朗稱向美軍“林肯”號(hào)航母發(fā)射導(dǎo)彈

頭條要聞

伊朗稱向美軍“林肯”號(hào)航母發(fā)射導(dǎo)彈

體育要聞

跑了24年,他終于成為英超“最長的河”

娛樂要聞

周杰倫社交媒體曬昆凌,夫妻感情穩(wěn)定

財(cái)經(jīng)要聞

關(guān)于經(jīng)濟(jì)、股市等,五部門都說了啥?

汽車要聞

逃離ICU,上汽通用“止血”企穩(wěn)

態(tài)度原創(chuàng)

教育
數(shù)碼
親子
時(shí)尚
藝術(shù)

教育要聞

“縣城的最愛學(xué)這種課”,一段女兒當(dāng)街走秀視頻,把人看尷尬了

數(shù)碼要聞

AYANEO Pocket AIR Mini x B.Duck小黃鴨聯(lián)名限定款掌機(jī)亮相

親子要聞

兒童鼻出血的常見問題,兒科醫(yī)生解答

這些才是適合普通人的穿搭!搭配腰帶、多穿牛仔褲,簡單舒適

藝術(shù)要聞

陳獨(dú)秀寫給青年毛澤東的對(duì)聯(lián),一語雙關(guān),陳氏書法“天花板”!

無障礙瀏覽 進(jìn)入關(guān)懷版