網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

GPT-5.4 發(fā)布，OpenClaw的能力要被取代？OpenAI 新模型不僅會(huì)自己用電腦，編程能力也拉滿了

2026-03-06 13:51:34　來(lái)源: AI前線

北京舉報(bào)

分享至

編譯 | Tina

今天，GPT-5.4 發(fā)布，那個(gè)熟悉的 OpenAI 又回來(lái)了。

GPT-5.4 是一款新的前沿模型，把 OpenAI 過(guò)去一段時(shí)間在推理能力（GPT-5.2）、頂級(jí)編程能力（GPT-5.3-Codex）以及原生計(jì)算機(jī)使用能力上的進(jìn)展，整合到了同一個(gè)版本里。

這次發(fā)布的分量很重，光是“原生電腦操作”這一點(diǎn)，就已經(jīng)足夠吸引眼球，而當(dāng)它再疊加頂級(jí)的專業(yè)知識(shí)工作能力、100 萬(wàn) token 的上下文窗口，以及明顯提升的工具使用效率時(shí)，對(duì)所有希望用 AI 工作、與 AI 協(xié)作，或者基于 AI 搭建系統(tǒng)的人來(lái)說(shuō)，這都意味著一次真正意義上的能力躍升。

OpenAI 開始搶 OpenClaw 的地盤？

在這個(gè)新模型上，最大的變化就是原生電腦操作能力的到來(lái)。OpenAI 的原話是，GPT-5.4 是其“首個(gè)原生具備電腦操作能力的通用模型”。

OSWorld Verified 的 computer use 基準(zhǔn)測(cè)試上從 47.3% 提升到了 75%，而 BrowseComp 的準(zhǔn)確率從 65.8% 提升至 82.7%。

這不只是“跑幾個(gè) shell 命令”那么簡(jiǎn)單，真正的意義在于：它可以進(jìn)入你的桌面、訪問(wèn)網(wǎng)頁(yè)，基本上能夠在你的電腦上完成很多原本只有人來(lái)操作的事情，而這些事通常是我們平時(shí)通過(guò)網(wǎng)頁(yè)端 ChatGPT 做不到的。

尤其是像 OpenClaw 這樣的產(chǎn)品，在最近幾個(gè)月，甚至可以說(shuō)最近幾周，突然變得非常火，核心原因就在于，它已經(jīng)改變了我們使用 AI 模型的方式。過(guò)去，我們更多只是停留在網(wǎng)頁(yè)端，通過(guò) web app 和模型對(duì)話，電腦本地幾乎沒(méi)有真正參與進(jìn)來(lái)。但現(xiàn)在，這種局面已經(jīng)從根本上發(fā)生了變化。

從 OpenAI 給出的示例中，我們可以看到 GPT-5.4 可以熟練使用計(jì)算機(jī)，包括查看瀏覽器用戶界面截圖、點(diǎn)擊界面、發(fā)送電子郵件以及安排日歷。

另一個(gè)新的實(shí)驗(yàn)功能 “Playwright (Interactive)”，允許 Codex 實(shí)時(shí)進(jìn)行 Web 和 Electron 應(yīng)用的可視化調(diào)試，甚至能在構(gòu)建應(yīng)用的同時(shí)直接測(cè)試——這正是借助它的原生電腦操作能力實(shí)現(xiàn)的。

OpenAI 研究員 SQ Mah 表示，這背后主要有兩項(xiàng)關(guān)鍵能力支撐：一是 CUA（computer use，計(jì)算機(jī)操作能力），二是通過(guò)圖像輸入生成高質(zhì)量網(wǎng)站的能力。

與 GPT-5.3 Codex 相比，GPT-5.4 在使用 CUA 時(shí)，不再需要額外拉起一個(gè)全新的環(huán)境來(lái)執(zhí)行操作。在 3D 游戲中，CUA 會(huì)自己點(diǎn)擊游戲界面，移動(dòng)象棋位置，甚至通過(guò)實(shí)際操作來(lái)驗(yàn)證規(guī)則是否正確生效。

在網(wǎng)站生成場(chǎng)景中，模型會(huì)調(diào)用 image gen 工具，生成圖片，然后通過(guò) CUA 來(lái)檢查自己的工作：打開生成的圖片、檢查圖片內(nèi)容、打開網(wǎng)站頁(yè)面也看一遍，然后把它們并排對(duì)比，確保生成的網(wǎng)站盡可能接近輸入的那張圖。

SQ Mah 還強(qiáng)調(diào)說(shuō)，通過(guò)持久化的 CUA，他們發(fā)現(xiàn)，在一些讓模型測(cè)試自己工作的場(chǎng)景中，token 使用量實(shí)際上下降了三分之二。

其實(shí)，OpenAI 早在去年 1 月就推出了 CUA，但出于安全性和準(zhǔn)確性的考量，這個(gè)項(xiàng)目并沒(méi)有真正被重視起來(lái)。

甚至一度讓人懷疑，OpenAI 是否已經(jīng)放棄了這條路線。特別是在 GPT-4o 等項(xiàng)目吸引了幾乎全部關(guān)注的那段時(shí)間里，CUA 基本處于一種“銷聲匿跡”的狀態(tài)。

他們是不是放棄這個(gè)項(xiàng)目了？現(xiàn)在一點(diǎn)消息都沒(méi)有了。我其實(shí)一直在用 Azure/OpenAI，它已經(jīng)預(yù)覽好幾個(gè)月了。雖然我申請(qǐng)了，但一直沒(méi)能獲得批準(zhǔn)。

與 GPT-4o 等項(xiàng)目鋪天蓋地的宣傳相比，CUA 基本上銷聲匿跡了。而且它目前仍處于預(yù)覽階段，這意味著訪問(wèn)權(quán)限受到嚴(yán)格限制，許多人甚至都無(wú)法嘗試...... 不過(guò)我不認(rèn)為這條路線已經(jīng)失敗。一旦“瀏覽器優(yōu)先”的方案在穩(wěn)定性、隱蔽性以及內(nèi)置安全機(jī)制上真正成熟，它很可能會(huì)成為 agent 工作流的一次重大躍遷。

但從今天 GPT-5.4 的發(fā)布來(lái)看，情況顯然變了。OpenAI 不僅重新把這項(xiàng)能力帶回到臺(tái)前，還在 GitHub 上新發(fā)布了一些的 CUA sample app。

CUA 讓 ChatGPT 5.4 可以直接使用我們的電腦，這一點(diǎn)和 OpenClaw 的思路非常接近：本質(zhì)上，大家都在爭(zhēng)奪同一個(gè)入口——讓 AI 直接使用電腦，而不再繼續(xù)受限于 API 和聊天窗口。不同的是，OpenClaw 更像是在模型之外搭建的一層 computer-use 框架，而 GPT-5.4 走得更直接：它把電腦操作能力原生整合進(jìn)了模型本身。

這意味著，一旦模型自身已經(jīng)具備了這類能力，而且還能被各種軟件、平臺(tái)和企業(yè)系統(tǒng)直接集成調(diào)用，它的競(jìng)爭(zhēng)力就會(huì)迅速放大。對(duì)于那些年?duì)I收做到千萬(wàn)、上億，甚至百億的公司來(lái)說(shuō)，它們完全可以基于這樣的模型能力，做出自己的“OpenClaw 版本”——而且往往會(huì)更安全、更快，也更可靠。

從這個(gè)角度看，OpenClaw 這樣的開源項(xiàng)目依然很有價(jià)值，因?yàn)樗鼈兟氏闰?yàn)證了“AI 直接使用電腦”這條路線；但當(dāng)模型廠商開始把這種能力原生做進(jìn)模型里，整個(gè)競(jìng)爭(zhēng)的重心就會(huì)發(fā)生變化。大家比拼的將不再只是一個(gè)外部框架，而是誰(shuí)能更快把這項(xiàng)能力產(chǎn)品化、平臺(tái)化，并真正接入真實(shí)工作流。

所以在 agentic AI 能力這件事上，現(xiàn)在確實(shí)是一個(gè)非常令人興奮的階段。

一邊降成本，一邊降幻覺

這次升級(jí)明顯是在“照顧開發(fā)者和重度用戶”，其中一個(gè)關(guān)鍵原因是 GPT-5.4 帶來(lái)了工具搜索（tool search）：模型不再把所有工具的完整定義一次性塞進(jìn)上下文（這可能導(dǎo)致每次請(qǐng)求額外燒掉數(shù)萬(wàn) token），而是只拿到一個(gè)輕量列表，需要用哪個(gè)工具時(shí)再按需檢索具體定義。

在 Scale 的 MCP Atlas 基準(zhǔn)中，啟用 36 個(gè) MCP 服務(wù)器、測(cè)試 250 個(gè)任務(wù)時(shí)，tool-search 配置在不降低準(zhǔn)確率的情況下，把總 token 使用量減少了 47%。對(duì)構(gòu)建大型 agent 系統(tǒng)的開發(fā)者來(lái)說(shuō)，這幾乎等同于：成本更低、響應(yīng)更快。

幻覺問(wèn)題也顯著下降。按 OpenAI 的說(shuō)法，GPT-5.4 的單條事實(shí)陳述比 GPT-5.2 更不容易出錯(cuò)（錯(cuò)誤概率降低 33%），整體回答包含錯(cuò)誤的概率也降低了 18%——這對(duì)依賴準(zhǔn)確輸出的專業(yè)用戶來(lái)說(shuō)，是非常實(shí)用的一次升級(jí)。

與此同時(shí)，在 Harvey 的 BigLaw Bench（法律文檔評(píng)測(cè)）中，GPT-5.4 的準(zhǔn)確率達(dá)到了 91%。

編程能力也更強(qiáng)了

GPT-5.4 現(xiàn)在也成為 OpenAI 的主力編程模型——在大多數(shù)任務(wù)中，你不再需要在 ChatGPT 與 Codex 之間糾結(jié)選哪一個(gè)。

它在 SWE-Bench Pro 上與 GPT-5.3-Codex 持平或更強(qiáng)，同時(shí)也更快，尤其是在較低推理強(qiáng)度設(shè)置下。在對(duì)話里，你可以直接開始寫代碼，無(wú)需額外選擇。

Codex 還新增了 fast mode，在所有支持的模型上帶來(lái)最高 1.5 倍速度提升。OpenAI 還強(qiáng)調(diào) GPT-5.4 在復(fù)雜前端任務(wù)上明顯更強(qiáng)，輸出既更精致好看，也更符合功能正確性。這一點(diǎn)，也已經(jīng)從不少開發(fā)者的實(shí)際反饋中得到了印證。

能力升級(jí)，價(jià)格也升級(jí)

在 API 中，OpenAI 表示 GPT-5.4 Thinking 對(duì)應(yīng)的模型名稱為 gpt-5.4，而 GPT-5.4 Pro 則對(duì)應(yīng) gpt-5.4-pro。價(jià)格如下：

GPT-5.4：

輸入：$2.50 / 每 100 萬(wàn) token
輸出：$15 / 每 100 萬(wàn) token

GPT-5.4 Pro：

輸入：$30 / 每 100 萬(wàn) token
輸出：$180 / 每 100 萬(wàn) token

從整體來(lái)看，與目前市面上的模型相比，GPT-5.4 在 API 運(yùn)行成本上屬于較高的一檔，如下表所示。

還有一個(gè)重要變化：在 GPT-5.4 中，如果請(qǐng)求的輸入 token 超過(guò) 272,000，費(fèi)用將按正常價(jià)格的 2 倍計(jì)算，這反映了它支持比以往模型更大的提示上下文。

在 Codex 中，默認(rèn)的 compaction（壓縮）上限是 272k token。只有當(dāng)輸入超過(guò) 272k 時(shí)，才會(huì)觸發(fā)更高的長(zhǎng)上下文價(jià)格。這意味著開發(fā)者只要把提示控制在這個(gè)范圍內(nèi)，就不會(huì)觸發(fā)額外費(fèi)用；如果需要更長(zhǎng)上下文，也可以通過(guò)提高 compaction 上限來(lái)實(shí)現(xiàn)，但只有這些更大的請(qǐng)求才會(huì)按更高費(fèi)率計(jì)費(fèi)。

OpenAI 發(fā)言人還表示，在 API 中最大輸出長(zhǎng)度為 128,000 token，與之前的模型保持一致。

至于為什么 GPT-5.4 的基礎(chǔ)價(jià)格更高，OpenAI 的解釋主要有三個(gè)原因：

在復(fù)雜任務(wù)上的能力顯著提升，包括編程、計(jì)算機(jī)操作、深度研究、高級(jí)文檔生成和工具調(diào)用等；
來(lái)自 OpenAI 技術(shù)路線圖的一系列研究突破；
推理效率更高，在完成相同任務(wù)時(shí)需要更少的推理 token。

同時(shí)他們也強(qiáng)調(diào)，即使價(jià)格有所上調(diào)，GPT-5.4 的定價(jià)仍然低于許多同級(jí)別的前沿模型。

https://openai.com/zh-Hans-CN/index/computer-using-agent/

https://www.reddit.com/r/OpenAI/comments/1mwc03q/openai_computer_user_agent_cua/

https://venturebeat.com/technology/openai-launches-gpt-5-4-with-native-computer-use-mode-financial-plugins-for

聲明：本文為 AI 前線整理，不代表平臺(tái)觀點(diǎn)，未經(jīng)許可禁止轉(zhuǎn)載。

會(huì)議推薦

2026，AI 正在以更工程化的方式深度融入軟件生產(chǎn)，Agentic AI 的探索也將從局部試點(diǎn)邁向體系化工程建設(shè)！

QCon 北京 2026 已正式啟動(dòng)，本屆大會(huì)以“Agentic AI 時(shí)代的軟件工程重塑”為核心主線，推動(dòng)技術(shù)探索從「AI For What」真正落地到可持續(xù)的「Value From AI」。從前沿技術(shù)雷達(dá)、架構(gòu)設(shè)計(jì)與數(shù)據(jù)底座、效能與成本、產(chǎn)品與交互、可信落地、研發(fā)組織進(jìn)化六大維度，系統(tǒng)性展開深度探索。開往 2026 的 Agentic AI 專列即將啟程！匯聚頂尖專家實(shí)戰(zhàn)分享，把 AI 能力一次夯到位！

今日薦文

你也「在看」嗎？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.