国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

OpenAI發(fā)布最強(qiáng)專業(yè)模型GPT-5.4,自動操作電腦,插件支持AI玩轉(zhuǎn)Excel和金融分析

0
分享至

更快更有判斷力的GPT-5系列模型GPT-5.3 Instant問世才一天,美東時間5日周四,OpenAI就發(fā)布了全新的旗艦基礎(chǔ)模型GPT-5.4,在ChatGPT、API以及開發(fā)工具Codex中同步上線。

OpenAI稱GPT-5.4是“迄今能力最強(qiáng)、最高效的專業(yè)工作前沿模型”,重點(diǎn)面向企業(yè)辦公與復(fù)雜知識工作場景。相比此前版本,GPT-5.4的最大變化在于強(qiáng)化AI智能體(Agent)的能力。在API和Codex中,GPT-5.4首次實(shí)現(xiàn)了原生級“電腦操作”功能,支持智能體跨軟件執(zhí)行復(fù)雜工作流。

GPT-5.4不僅能生成文本或代碼,還首次將原生電腦操控能力引入通用模型,能直接操作電腦軟件、瀏覽網(wǎng)頁、控制鼠標(biāo)和鍵盤完成任務(wù),并可與電子表格、金融分析工具等企業(yè)應(yīng)用深度整合,深度嵌入微軟Excel和谷歌表格。

在ChatGPT中,GPT-5.4支持“提前展示思維過程”,允許用戶在模型響應(yīng)過程中調(diào)整任務(wù)方向,并提升了深度網(wǎng)頁搜索與長邏輯語境下的上下文保持能力。

業(yè)內(nèi)認(rèn)為,GPT-5.4的一系列升級標(biāo)志著AI模型正從“對話工具”走向自動化執(zhí)行任務(wù)的數(shù)字代理系統(tǒng),進(jìn)一步滲透企業(yè)生產(chǎn)力軟件與專業(yè)知識工作。

OpenAI本周四同時推出兩個版本,包括更擅長復(fù)雜推理的GPT-5.4 Thinking以及高性能的GPT-5.4 Pro,分別面向付費(fèi)用戶和高端企業(yè)用戶。

在計(jì)算機(jī)操控基準(zhǔn)測試OSWorld-Verified中,GPT-5.4以75.0%的成功率超越人類平均水平72.4%,較前代GPT-5.2的47.3%大幅躍升。同期發(fā)布的財(cái)務(wù)服務(wù)套件顯示,GPT-5.4在OpenAI內(nèi)部投行基準(zhǔn)測試中的得分從GPT-5的43.7%躍升至88.0%。


早期測試機(jī)構(gòu)給出積極反饋。投資公司W(wǎng)alleye Capital的AI解決方案主管Daniel Swiecki表示,GPT-5.4在內(nèi)部財(cái)務(wù)和Excel評估中準(zhǔn)確率提升了30個百分點(diǎn)。AI人才平臺Mercor的CEO Brendan Foody稱其為該公司“迄今嘗試過的最佳模型”,并表示GPT-5.4已在Mercor面向?qū)I(yè)服務(wù)工作的APEX-Agents基準(zhǔn)測試中排名第一。

通用模型中首次內(nèi)置原生電腦操控功能 突破單輪問答邊界

GPT-5.4最具突破性的能力在于其原生電腦操控功能,這也是OpenAI首次在通用模型中內(nèi)置該能力。通過API和Codex,該模型可像人類一樣操控計(jì)算機(jī),跨應(yīng)用完成多步驟工作流程。

具體而言,GPT-5.4既可通過Playwright等庫編寫代碼來操控計(jì)算機(jī),也可直接響應(yīng)截圖發(fā)出鼠標(biāo)和鍵盤指令,開發(fā)者還可配置自定義確認(rèn)策略以適配不同風(fēng)險容忍度場景。

基準(zhǔn)測試數(shù)據(jù)支撐了這一能力的實(shí)質(zhì)性進(jìn)步:在測試桌面導(dǎo)航能力的OSWorld-Verified中,GPT-5.4成功率達(dá)75.0%,不僅超過GPT-5.2的47.3%,也超越了人類基準(zhǔn)水平72.4%;在瀏覽器操控測試WebArena-Verified中,成功率為67.3%,高于GPT-5.2的65.4%;在Online-Mind2Web中,僅憑截圖即實(shí)現(xiàn)92.8%的成功率。

在網(wǎng)絡(luò)搜索能力方面,BrowseComp測試顯示GPT-5.4較GPT-5.2提升17個百分點(diǎn),GPT-5.4 Pro更以89.3%的成績創(chuàng)下該基準(zhǔn)測試的最高評分紀(jì)錄。


地產(chǎn)科技公司Mainstay的CEO Dod Fraser表示,在覆蓋約3萬個房產(chǎn)稅門戶的測試中,GPT-5.4首次嘗試成功率達(dá)95%,三次內(nèi)成功率達(dá)100%,相比此前的計(jì)算機(jī)操控模型(成功率約73%至79%)大幅提升,同時完成速度加快約3倍,tokens消耗減少約70%。

工具搜索機(jī)制重構(gòu) 大幅降低token消耗

隨著工具生態(tài)規(guī)模擴(kuò)大,如何高效管理工具調(diào)用成為制約代理系統(tǒng)落地的瓶頸。GPT-5.4在API中引入"工具搜索"(Tool Search)機(jī)制,從根本上改變了工具定義的傳遞方式。

此前,模型在每次請求時均需在提示詞中預(yù)加載全部工具定義,在工具數(shù)量龐大的系統(tǒng)中,這會在每次請求中額外消耗數(shù)千乃至數(shù)萬tokens,推高成本、增加延遲并稀釋上下文。新機(jī)制下,模型僅接收工具的輕量化列表,僅在實(shí)際需要使用某工具時才按需檢索其完整定義。

OpenAI以具體數(shù)據(jù)佐證效果:在使用Scale的MCP Atlas基準(zhǔn)測試的250項(xiàng)任務(wù)中,啟用全部36個MCP服務(wù)器的配置下,工具搜索模式相較將全部MCP功能直接暴露于上下文的模式,在保持相同準(zhǔn)確率的前提下,總token用量減少47%。


Zapier的CEO Wade表示,GPT-5.4在該公司橫跨數(shù)百個高級真實(shí)工作流的工具使用基準(zhǔn)測試中表現(xiàn)優(yōu)異,"是迄今為止最具持續(xù)性的模型"。

金融與企業(yè)場景:Excel深度集成,投行任務(wù)成績翻倍

與GPT-5.4同步發(fā)布的還有面向企業(yè)和金融機(jī)構(gòu)的“OpenAI金融服務(wù)”套件,核心產(chǎn)品是ChatGPT for Excel和Google Sheets(測試版)——ChatGPT將直接嵌入電子表格單元格,支持構(gòu)建、分析和更新復(fù)雜財(cái)務(wù)模型。

該套件還整合了FactSet、MSCI、Third Bridge和Moody's等數(shù)據(jù)合作伙伴,并推出可復(fù)用的Skills功能,覆蓋盈利預(yù)覽、可比公司分析、DCF估值分析及投資備忘錄撰寫等高頻金融工作場景。

在內(nèi)部投行基準(zhǔn)測試中,GPT-5.4 Thinking的得分從GPT-5的43.7%躍升至88.0%;在模擬初級投行分析師電子表格建模任務(wù)的測試中,GPT-5.4平均得分87.3%,遠(yuǎn)高于GPT-5.2的68.4%。


法律AI平臺Harvey的應(yīng)用研究主管Niko Grupen表示,GPT-5.4在該公司BigLaw Bench評估中得分91%,"在結(jié)構(gòu)化復(fù)雜交易分析、跨長篇合同保持準(zhǔn)確性以及提供法律從業(yè)者所需的高度細(xì)節(jié)方面,目前優(yōu)于其他模型"。

知識工作與幻覺抑制:全面對標(biāo)專業(yè)人士

OpenAI在多個衡量真實(shí)職場輸出的基準(zhǔn)測試上展示了GPT-5.4的能力邊界。在GDPval測試中——該測試涵蓋44個職業(yè)的知識工作任務(wù),包括銷售演示、會計(jì)表格、制造業(yè)圖表等真實(shí)工作產(chǎn)出——GPT-5.4在83.0%的比較中達(dá)到或超越行業(yè)專業(yè)人士水平,高于GPT-5.2的71.0%。


在演示文稿質(zhì)量評估中,人類評審在68.0%的情況下更偏好GPT-5.4的輸出,原因包括更強(qiáng)的視覺美感、更豐富的視覺多樣性以及更有效的圖像生成應(yīng)用。

在幻覺和事實(shí)錯誤控制方面,OpenAI表示GPT-5.4是其"迄今最具事實(shí)準(zhǔn)確性的模型":在用戶此前標(biāo)記過事實(shí)錯誤的去標(biāo)識化提示詞測試集上,GPT-5.4的單項(xiàng)陳述錯誤率較GPT-5.2降低33%,完整回應(yīng)中出現(xiàn)任意錯誤的概率降低18%。

在編程能力方面,GPT-5.4在SWE-Bench Pro上的表現(xiàn)與GPT-5.3-Codex持平或更優(yōu),且在各推理強(qiáng)度設(shè)置下延遲更低。Codex的/fast模式可為GPT-5.4帶來最高1.5倍的token生成速度提升,該模式使用相同模型與相同智能,僅在速度層面進(jìn)行優(yōu)化。GitHub首席產(chǎn)品官M(fèi)ario Rodriguez表示,GPT-5.4在邏輯推理及執(zhí)行復(fù)雜多步驟工具依賴工作流方面表現(xiàn)突出,"是企業(yè)第一天就應(yīng)該采用的模型"。

兩個版本分層覆蓋不同用戶需求 上下文窗口最高100萬token

GPT-5.4 Thinking面向需要深度推理的通用專業(yè)場景,GPT-5.4 Pro則專為最復(fù)雜任務(wù)設(shè)計(jì),追求性能上限。

在ChatGPT端,GPT-5.4 Thinking從本周四起向Plus(月費(fèi)20美元)、Team及Pro用戶開放,取代此前的GPT-5.2 Thinking,GPT-5.2 Thinking將在三個月后于2026年6月5日正式退役。

GPT-5.4 Pro僅限Pro(月費(fèi)200美元)及Enterprise計(jì)劃用戶使用。免費(fèi)用戶亦可在系統(tǒng)自動路由時有限接觸GPT-5.4。企業(yè)和教育計(jì)劃用戶可通過管理員設(shè)置提前開啟訪問權(quán)限。

在API端,GPT-5.4以gpt-5.4標(biāo)識符提供,GPT-5.4 Pro以gpt-5.4-pro提供,兩者均可在Codex開發(fā)平臺使用。API最大輸出為12.8萬token,與此前模型保持一致。API及Codex同時支持最高100萬token的上下文窗口,是OpenAI迄今提供的最大上下文容量,適合跨步驟長鏈路任務(wù)的規(guī)劃、執(zhí)行與驗(yàn)證。

定價高于前代,效率提升部分抵消成本增加

在API定價上,GPT-5.4的價格相較GPT-5.2有所上調(diào)。具體如下:

  • GPT-5.4:輸入2.50美元/百萬token,輸出15美元/百萬token(GPT5.2的定價為輸入1.75美元/百萬token、輸出14美元/百萬token)
  • GPT-5.4 Pro:輸入30美元/百萬token,輸出180美元/百萬token(GPT5.2 Pro為輸入21美元/百萬token、輸出168美元/百萬token)
  • Batch及Flex定價享半價優(yōu)惠,Priority(優(yōu)先)處理則按標(biāo)準(zhǔn)價格的兩倍計(jì)費(fèi)


值得注意的是,當(dāng)單次輸入超過27.2萬token時,超出部分將按兩倍標(biāo)準(zhǔn)費(fèi)率計(jì)費(fèi)。在Codex中,默認(rèn)壓縮上限為27.2萬token,開發(fā)者可手動上調(diào)上限以處理更大提示詞,超出部分方觸發(fā)較高計(jì)費(fèi)。

OpenAI對較高定價給出三點(diǎn)解釋:一是在編程、計(jì)算機(jī)操控、深度研究、高級文檔生成及工具調(diào)用等復(fù)雜任務(wù)上能力更強(qiáng);二是來自研究路線圖的重大技術(shù)進(jìn)步;三是更高效的推理機(jī)制在相同任務(wù)上消耗更少推理tokens,一定程度上抵消了單價上升的影響。OpenAI同時表示,即便提價,GPT-5.4的定價仍低于同等能力的競品前沿模型。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
如果熱刺在英超降級卻奪得歐冠冠軍,會發(fā)生什么?

如果熱刺在英超降級卻奪得歐冠冠軍,會發(fā)生什么?

星耀國際足壇
2026-03-06 23:58:30
太危險了! 2025年浙江男子自制1800伏“電貓”,拉70多米抓2只吃

太危險了! 2025年浙江男子自制1800伏“電貓”,拉70多米抓2只吃

萬象硬核本尊
2026-03-06 18:36:27
美軍陣亡士兵遺體繼續(xù)在中東被發(fā)現(xiàn)

美軍陣亡士兵遺體繼續(xù)在中東被發(fā)現(xiàn)

碳基生物關(guān)懷組織
2026-03-03 23:37:09
繼女訂婚,我送一套婚房,婚宴前晚她來電:叔叔,明天你別坐主桌

繼女訂婚,我送一套婚房,婚宴前晚她來電:叔叔,明天你別坐主桌

堇色夜行
2025-12-06 14:47:59
不是打不贏,而是打不起!美國高層直言:拿下伊朗易如反掌,但這會讓中國徹底脫離牽制

不是打不贏,而是打不起!美國高層直言:拿下伊朗易如反掌,但這會讓中國徹底脫離牽制

起喜電影
2026-03-06 03:28:53
五五分流為什么分不下去了?背后的真相

五五分流為什么分不下去了?背后的真相

楓冷慕詩
2026-01-24 13:09:19
極目調(diào)查丨老板瘋狂搶人,一天500元難招技工,廣州“制衣村”工人為何如此緊俏?

極目調(diào)查丨老板瘋狂搶人,一天500元難招技工,廣州“制衣村”工人為何如此緊俏?

極目新聞
2026-03-06 22:41:34
中國女籃72-66雙殺巴西!數(shù)據(jù)一清二楚:不是張子宇 最大功臣是她

中國女籃72-66雙殺巴西!數(shù)據(jù)一清二楚:不是張子宇 最大功臣是她

侃球熊弟
2026-03-06 21:12:18
國家敲定2026年養(yǎng)老金上漲,漲多少?一個沒想到,還有一個好消息

國家敲定2026年養(yǎng)老金上漲,漲多少?一個沒想到,還有一個好消息

鯨探所長
2026-03-06 19:21:04
曾有個很流行的日本謠言:質(zhì)量好的留在日本,等外品的垃圾賣中國

曾有個很流行的日本謠言:質(zhì)量好的留在日本,等外品的垃圾賣中國

章哥說買房
2026-03-05 12:17:42
掛斷王毅電話后,以色列大軍突然向北進(jìn)攻,第二場大戰(zhàn)爆發(fā)

掛斷王毅電話后,以色列大軍突然向北進(jìn)攻,第二場大戰(zhàn)爆發(fā)

Ck的蜜糖
2026-03-04 17:58:13
姑姑春節(jié)給我10萬紅包,只因她生了二胎,想要我包20萬紅包

姑姑春節(jié)給我10萬紅包,只因她生了二胎,想要我包20萬紅包

星羽故事集
2026-02-26 10:52:39
全國人大代表顧祥林:留學(xué)生回國求職規(guī)模大,怎樣避免“僧多粥少”局面?

全國人大代表顧祥林:留學(xué)生回國求職規(guī)模大,怎樣避免“僧多粥少”局面?

上觀新聞
2026-03-06 20:57:06
農(nóng)民養(yǎng)老金問題,今年開始破冰?

農(nóng)民養(yǎng)老金問題,今年開始破冰?

中產(chǎn)先生
2026-03-06 12:16:45
說白了,一開始,全世界都在下注,賭中國會輸。

說白了,一開始,全世界都在下注,賭中國會輸。

忠于法紀(jì)
2025-12-20 10:12:27
伊朗稱向美軍“林肯”號航母發(fā)射導(dǎo)彈

伊朗稱向美軍“林肯”號航母發(fā)射導(dǎo)彈

環(huán)球網(wǎng)資訊
2026-03-07 03:21:50
伊朗網(wǎng)紅吐槽中國網(wǎng)民,他們都太好戰(zhàn)了,根本不懂戰(zhàn)爭的殘酷

伊朗網(wǎng)紅吐槽中國網(wǎng)民,他們都太好戰(zhàn)了,根本不懂戰(zhàn)爭的殘酷

新游戲大妹子
2026-03-05 12:59:52
那些慣于宏大敘事的人,會聆聽重慶女孩和長沙街頭餓暈的人嗎?

那些慣于宏大敘事的人,會聆聽重慶女孩和長沙街頭餓暈的人嗎?

林中木白
2025-10-09 16:35:47
美以伊軍事沖突最大副作用,是斬?cái)嗔硕砹_斯的“救命稻草”

美以伊軍事沖突最大副作用,是斬?cái)嗔硕砹_斯的“救命稻草”

廖保平
2026-03-05 12:08:52
360周鴻祎眼睛換上人工晶體:摘掉眼鏡是為了戴AI眼鏡

360周鴻祎眼睛換上人工晶體:摘掉眼鏡是為了戴AI眼鏡

IT之家
2026-03-05 11:02:08
2026-03-07 06:11:00
華爾街見聞官方 incentive-icons
華爾街見聞官方
中國領(lǐng)先的金融商業(yè)信息提供商
142593文章數(shù) 2652770關(guān)注度
往期回顧 全部

科技要聞

獨(dú)家|除夕加班、毫無黑料!林俊旸無奈離場

頭條要聞

伊朗稱向美軍“林肯”號航母發(fā)射導(dǎo)彈

頭條要聞

伊朗稱向美軍“林肯”號航母發(fā)射導(dǎo)彈

體育要聞

跑了24年,他終于成為英超“最長的河”

娛樂要聞

周杰倫社交媒體曬昆凌,夫妻感情穩(wěn)定

財(cái)經(jīng)要聞

關(guān)于經(jīng)濟(jì)、股市等,五部門都說了啥?

汽車要聞

逃離ICU,上汽通用“止血”企穩(wěn)

態(tài)度原創(chuàng)

本地
游戲
數(shù)碼
親子
軍事航空

本地新聞

食味印象|一口入魂!康樂烤肉串起千年絲路香

曝下代Xbox靠純算力制霸!性能“爆殺”PS6

數(shù)碼要聞

AYANEO Pocket AIR Mini x B.Duck小黃鴨聯(lián)名限定款掌機(jī)亮相

親子要聞

兒童鼻出血的常見問題,兒科醫(yī)生解答

軍事要聞

伊朗:使用無人機(jī)擊中美軍"林肯"號航母

無障礙瀏覽 進(jìn)入關(guān)懷版