国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

ChatGPT-5.4發(fā)布:和OpenClaw兼容,AI第一次比人類更會操作電腦

0
分享至

自從各大模型廠商開始以 0.1 的小版本更新模型后,模型更新的頻率越來越快了,3 月 5 日,就在 GPT-5.3 Instant 剛更新完畢后兩天,GPT-5.4 也來了。

這款模型被 OpenAI 定位為“面向?qū)I(yè)工作的最強前沿模型”。它以 GPT-5.4 Thinking 的形式進(jìn)入 ChatGPT,同時上線 API 和代碼開發(fā)平臺 Codex。此外還有一個 GPT-5.4 Pro 版本,面向需要極致復(fù)雜任務(wù)性能的用戶,僅對 ChatGPT Pro(月費 200 美元)和 Enterprise 訂閱者開放。Plus 用戶可以使用 GPT-5.4 Thinking,免費用戶則只能在系統(tǒng)自動路由時偶爾被分配到該模型。


(來源:OpenAI)

GPT-5.4 在 API 和 Codex 中支持最高 100 萬 token(標(biāo)記)的上下文窗口(Context Window,即模型單次處理文本的長度上限),這是目前 OpenAI 提供的最大上下文窗口。不過超過 272,000 token 的請求,輸入價格翻倍、輸出加收 50%。標(biāo)準(zhǔn)輸入單價從 GPT-5.2 時代的每百萬 token 1.75 美元漲到了 2.50 美元,漲幅 43%。

OpenAI 給出的解釋是,模型能力更強,研究投入更大,同時推理效率更高——用更少的 token 解決同樣的問題,所以總成本未必上升。作為參考,Anthropic 的 Claude Opus 4.6 輸入價格是每百萬 token 5 美元,輸出 25 美元,GPT-5.4 Pro 的定價實際上還要更貴。


(來源:OpenAI)

跑分方面,在 OSWorld-Verified 基準(zhǔn)測試中,GPT-5.4 的成功率達(dá)到 75.0%,遠(yuǎn)超 GPT-5.2 的 47.3%,也超過了該測試報告的人類表現(xiàn) 72.4%。在 OpenAI 的官方演示中,通過 Playwright Interactive(一種瀏覽器自動化工具)與圖像生成結(jié)合,僅憑單條提示詞就構(gòu)建出了一個主題樂園模擬游戲,涵蓋瓦片路徑布置、游樂設(shè)施建造、游客路徑尋路和實時公園指標(biāo)。

在 BrowseComp(衡量 AI 代理在網(wǎng)頁上持續(xù)檢索難以定位信息的能力)上,GPT-5.4 比 GPT-5.2 提升了 17 個百分點,Pro 版本達(dá)到 89.3%。OpenAI 自己的 GDPval 測試(覆蓋美國 GDP 貢獻(xiàn)最大的 9 個行業(yè)、44 種職業(yè)的知識工作任務(wù))給出了 83% 的得分,意味著在這些任務(wù)上模型的表現(xiàn)達(dá)到或超過了行業(yè)從業(yè)者水平。

在電子表格建模任務(wù)中,得分從 GPT-5.2 的 68.4% 跳到了 87.3%;人類評審者在 68% 的情況下更偏好 GPT-5.4 生成的演示文稿。


(來源:OpenAI)

這些數(shù)字背后有一個關(guān)鍵能力:原生計算機使用(Native Computer Use)。GPT-5.4 是 OpenAI 發(fā)布的第一個內(nèi)置原生計算機操控能力的通用模型,可以通過編寫代碼(比如使用 Playwright 庫)來操控計算機,也可以直接根據(jù)屏幕截圖發(fā)出鼠標(biāo)和鍵盤指令。這讓它能夠在軟件環(huán)境中執(zhí)行“構(gòu)建 - 運行 - 驗證 - 修復(fù)”的循環(huán),完成需要跨多個應(yīng)用的多步驟工作流。

另一個對開發(fā)者影響較大的新特性是 Tool Search(工具搜索)。過去,在 API 中使用工具時,所有工具的定義需要一次性塞進(jìn)提示詞里,隨著工具越來越多,這造成了巨大的 token 開銷和上下文污染。GPT-5.4 引入了一個結(jié)構(gòu)性的優(yōu)化:模型只接收一個輕量級工具列表,需要用到某個工具時再動態(tài)檢索其完整定義。

在 Scale 公司的 MCP Atlas 基準(zhǔn)測試中,使用 36 個 MCP 服務(wù)器執(zhí)行 250 項任務(wù),工具搜索將 token 消耗降低了 47%,同時保持了準(zhǔn)確率。對于構(gòu)建大型智能體(Agent)系統(tǒng)的開發(fā)者來說,這直接意味著更低的成本和更快的響應(yīng)。

幻覺(Hallucination,即模型編造事實)的改善也被重點提及。OpenAI 表示,GPT-5.4 在單條聲明中出錯的概率比 GPT-5.2 降低了 33%,整體回復(fù)包含錯誤的概率降低了 18%。

不過需要注意的是,在 HealthBench 醫(yī)療健康評測中,GPT-5.4 的得分是 62.6%,反而略低于 GPT-5.2 的 63.3%。模型回復(fù)的平均長度也更長了,從 GPT-5.2 的 2,676 字符增加到 3,311 字符。更長的回復(fù)有時候意味著更全面,也有時候意味著更啰嗦,用戶體驗如何還有待觀察。

在抽象推理方面,進(jìn)步幅度較為顯著。ARC-AGI-2 從 52.9% 躍升至 73.3%,Pro 版本達(dá)到 83.3%。FrontierMath Tier 4(最高難度的數(shù)學(xué)推理測試)從 18.8% 提升至 27.1%,Pro 版本為 38.0%。

一些拿到早期測試權(quán)限的用戶已經(jīng)在 X 上密集發(fā)布體驗報告。AI 創(chuàng)業(yè)者 Matt Shumer 稱自己測試 GPT-5.4 長達(dá)一周,認(rèn)為其標(biāo)準(zhǔn)版配合深度思考模式的表現(xiàn)已經(jīng)超過了此前其他模型的 Pro 版本,以至于他幾乎不再需要切換到 Pro 模式。


(來源:X)

其編碼能力尤其突出,Shumer 稱在 Codex 中使用 GPT-5.4 的可靠性極高,編碼問題“基本上已經(jīng)被解決了”。Pro 版本則能攻克其他模型完全無法處理的難題,但對日常任務(wù)來說屬于“過剩火力”。而且的確和 OpenAI 官方宣稱的一樣,其標(biāo)準(zhǔn)思考版本使用的推理 token 比以前更少,響應(yīng)速度明顯加快。

不過 Shumer 也指出了幾個短板:前端設(shè)計品味遠(yuǎn)不如 Claude Opus 4.6 和 Gemini 3.1 Pro;模型有時候會忽略顯而易見的現(xiàn)實世界語境,比如為他規(guī)劃旅行行程時選了一堆春假期間會被游客擠爆的地點。在 OpenClaw 中測試 GPT-5.4 時,模型經(jīng)常在任務(wù)完成之前就停下來。

OpenAI 同時宣布了一套面向金融行業(yè)的企業(yè)產(chǎn)品,核心是 ChatGPT for Excel 和 Google Sheets(測試版)。OpenAI 將其描述為 ChatGPT 直接嵌入電子表格,用于構(gòu)建、分析和更新復(fù)雜的財務(wù)模型。

配套的還有與 FactSet、MSCI、Moody's 等金融數(shù)據(jù)提供商的集成,以及可復(fù)用的“Skills”(技能模板),用于盈利預(yù)覽、可比公司分析、DCF(折現(xiàn)現(xiàn)金流)分析等標(biāo)準(zhǔn)化金融工作。

在 OpenAI 內(nèi)部的投資銀行基準(zhǔn)測試中,GPT-5.4 Thinking 的表現(xiàn)從 GPT-5 時代的 43.7% 提升到了 88.0%。這組產(chǎn)品的對手毫無疑問是 Anthropic 剛推出的 Cowork 桌面工具和 Claude 的文件管理能力,以及 Google 在 Workspace 中持續(xù)深入的 AI 集成。

綜合來看,GPT-5.4 稱得上是一種在多個維度上的整合性進(jìn)步。原生計算機操控、工具搜索、更大的上下文窗口、更強的推理能力,這些合在一起構(gòu)成了一個更完整的“AI 工作助手”,也為 OpenClaw 這類智能體框架提供了更強的底層引擎。

日常聊天和寫郵件的改進(jìn)可能體現(xiàn)在細(xì)節(jié)上,真正能感受到跨代差異的,是那些用 AI 做 PPT、建財務(wù)模型、在 Codex 里跑自動化流程的重度用戶,以及正在把 OpenClaw 當(dāng)成個人數(shù)字助手的那批早期采納者。

參考資料:

1.https://openai.com/index/introducing-gpt-5-4/

2.https://x.com/mattshumer_/status/2029620518249508950

運營/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
東北最“尷尬”的5道菜,當(dāng)?shù)厝颂焯斐圆粔颍獾厝瞬桓页?,看?>
    </a>
        <h3>
      <a href=簡食記工作號
2026-03-07 06:05:18
1230人遇難!美國5天燒200億,終于承認(rèn):伊朗無人機真攔不住

1230人遇難!美國5天燒200億,終于承認(rèn):伊朗無人機真攔不住

近史博覽
2026-03-07 01:20:35
伊戰(zhàn)至此無懸念,一日連摧俄三艦!

伊戰(zhàn)至此無懸念,一日連摧俄三艦!

夜半挑燈看吳鉤
2026-03-05 17:07:21
一旦戰(zhàn)爭爆發(fā),中國實力究竟有多強?美國專家的評價讓人出乎意料

一旦戰(zhàn)爭爆發(fā),中國實力究竟有多強?美國專家的評價讓人出乎意料

蹲坑看世界
2026-03-04 10:14:26
忍無可忍!顛覆NBA選秀制度!誰也別想擺!

忍無可忍!顛覆NBA選秀制度!誰也別想擺!

柚子說球
2026-03-07 21:43:07
列寧曾派特工來到中國,專門暗殺一個人:腦袋至今保存在俄博物館

列寧曾派特工來到中國,專門暗殺一個人:腦袋至今保存在俄博物館

老范談史
2026-03-06 07:28:20
驚掉下巴!問界M9市占率70%,每10個富人7個選國產(chǎn)!

驚掉下巴!問界M9市占率70%,每10個富人7個選國產(chǎn)!

浮光驚掠影
2026-03-07 18:14:52
簡直有毒!穆雷腳踝扭傷,掘金賽季傷病盤點!

簡直有毒!穆雷腳踝扭傷,掘金賽季傷病盤點!

籃球?qū)嶄?/span>
2026-03-07 16:12:52
成龍安排好身后事才2個月,翁靜晶再曝大瓜,沒給他留一絲體面

成龍安排好身后事才2個月,翁靜晶再曝大瓜,沒給他留一絲體面

星星沒有你亮
2026-02-28 20:40:21
陳冠希近照刷屏!45歲老成這樣,網(wǎng)友直呼:到底怎么了?

陳冠希近照刷屏!45歲老成這樣,網(wǎng)友直呼:到底怎么了?

觀魚聽雨
2026-03-06 23:51:42
從日銷萬單到日銷5單!麻六記的“涼”,是民意給的最響亮耳光!

從日銷萬單到日銷5單!麻六記的“涼”,是民意給的最響亮耳光!

天氣觀察站
2026-03-07 00:06:32
蔣介石做夢也沒想到!自己的曾孫脫離臺灣后,竟跑到大陸創(chuàng)業(yè)定居

蔣介石做夢也沒想到!自己的曾孫脫離臺灣后,竟跑到大陸創(chuàng)業(yè)定居

攬星河的筆記
2026-02-23 22:23:05
6歲女童給乾隆女兒當(dāng)伴讀,卻被乾隆一眼看中,后來統(tǒng)領(lǐng)后宮54年

6歲女童給乾隆女兒當(dāng)伴讀,卻被乾隆一眼看中,后來統(tǒng)領(lǐng)后宮54年

千秋歷史
2026-02-07 17:23:34
恩愛29年難抵"現(xiàn)實"?"喜新厭舊"的陳凱歌,為自己的行為買了單

恩愛29年難抵"現(xiàn)實"?"喜新厭舊"的陳凱歌,為自己的行為買了單

小熊侃史
2026-03-04 14:12:31
成龍女兒吳卓林結(jié)婚現(xiàn)場曝光,緊握愛人的手,洋溢著甜蜜笑容!

成龍女兒吳卓林結(jié)婚現(xiàn)場曝光,緊握愛人的手,洋溢著甜蜜笑容!

娛樂團長
2026-01-13 15:39:28
伊朗僅允許中國船只通過海峽!想過沒,如果是假的,后果是什么?

伊朗僅允許中國船只通過海峽!想過沒,如果是假的,后果是什么?

走讀新生
2026-03-06 16:59:32
關(guān)鍵72小時!中國連打7通電話,一項決定幫伊朗穩(wěn)住大局

關(guān)鍵72小時!中國連打7通電話,一項決定幫伊朗穩(wěn)住大局

嘆知
2026-03-07 17:35:16
戴偉浚原以為本賽季離開申花,他能在新東家踢首發(fā),結(jié)果未登場

戴偉浚原以為本賽季離開申花,他能在新東家踢首發(fā),結(jié)果未登場

振剛說足球
2026-03-07 09:59:59
教育部部長懷進(jìn)鵬:隨遷子女在公辦和政府補助學(xué)校就讀的比例超過97%

教育部部長懷進(jìn)鵬:隨遷子女在公辦和政府補助學(xué)校就讀的比例超過97%

北青網(wǎng)-北京青年報
2026-03-07 16:58:05
她是上海著名演員,巔峰時遠(yuǎn)赴美國,嫁給資本巨鱷,69歲人生贏家

她是上海著名演員,巔峰時遠(yuǎn)赴美國,嫁給資本巨鱷,69歲人生贏家

白面書誏
2026-03-07 17:18:19
2026-03-07 22:39:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16373文章數(shù) 514721關(guān)注度
往期回顧 全部

科技要聞

OpenClaw爆火,六位"養(yǎng)蝦人"自述與AI共生

頭條要聞

日本求美國給個準(zhǔn)話 美方避而不談

頭條要聞

日本求美國給個準(zhǔn)話 美方避而不談

體育要聞

塔圖姆298天走完這段路 只用27分鐘征服這座城

娛樂要聞

汪小菲曝親媽猛料,張?zhí)m公開財產(chǎn)分配

財經(jīng)要聞

針對"不敢休、不讓休"怪圈 國家出手了

汽車要聞

逃離ICU,上汽通用“止血”企穩(wěn)

態(tài)度原創(chuàng)

數(shù)碼
旅游
家居
親子
本地

數(shù)碼要聞

解鎖“她力量”專屬存儲方案,為每一份熱愛精彩定格

旅游要聞

跟著天氣游山東|氣溫“狂飆”,山東的春天“鮮”到你了嗎?

家居要聞

暖棕撞色 輕法奶油風(fēng)

親子要聞

有些一個人去產(chǎn)檢的孕婦不值得可憐!網(wǎng)友:出事了罵一頓都是輕的

本地新聞

食味印象|一口入魂!康樂烤肉串起千年絲路香

無障礙瀏覽 進(jìn)入關(guān)懷版