国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

GPT-5.4 發(fā)布,OpenClaw的能力要被取代?OpenAI 新模型不僅會(huì)自己用電腦,編程能力也拉滿了

0
分享至


編譯 | Tina

今天,GPT-5.4 發(fā)布,那個(gè)熟悉的 OpenAI 又回來(lái)了。

GPT-5.4 是一款新的前沿模型,把 OpenAI 過(guò)去一段時(shí)間在推理能力(GPT-5.2)、頂級(jí)編程能力(GPT-5.3-Codex)以及原生計(jì)算機(jī)使用能力上的進(jìn)展,整合到了同一個(gè)版本里。

這次發(fā)布的分量很重,光是“原生電腦操作”這一點(diǎn),就已經(jīng)足夠吸引眼球,而當(dāng)它再疊加頂級(jí)的專業(yè)知識(shí)工作能力、100 萬(wàn) token 的上下文窗口,以及明顯提升的工具使用效率時(shí),對(duì)所有希望用 AI 工作、與 AI 協(xié)作,或者基于 AI 搭建系統(tǒng)的人來(lái)說(shuō),這都意味著一次真正意義上的能力躍升。

OpenAI 開始搶 OpenClaw 的地盤?

在這個(gè)新模型上,最大的變化就是原生電腦操作能力的到來(lái)。OpenAI 的原話是,GPT-5.4 是其“首個(gè)原生具備電腦操作能力的通用模型”。


OSWorld Verified 的 computer use 基準(zhǔn)測(cè)試上從 47.3% 提升到了 75%,而 BrowseComp 的準(zhǔn)確率從 65.8% 提升至 82.7%。

這不只是“跑幾個(gè) shell 命令”那么簡(jiǎn)單,真正的意義在于:它可以進(jìn)入你的桌面、訪問(wèn)網(wǎng)頁(yè),基本上能夠在你的電腦上完成很多原本只有人來(lái)操作的事情,而這些事通常是我們平時(shí)通過(guò)網(wǎng)頁(yè)端 ChatGPT 做不到的。

尤其是像 OpenClaw 這樣的產(chǎn)品,在最近幾個(gè)月,甚至可以說(shuō)最近幾周,突然變得非常火,核心原因就在于,它已經(jīng)改變了我們使用 AI 模型的方式。過(guò)去,我們更多只是停留在網(wǎng)頁(yè)端,通過(guò) web app 和模型對(duì)話,電腦本地幾乎沒(méi)有真正參與進(jìn)來(lái)。但現(xiàn)在,這種局面已經(jīng)從根本上發(fā)生了變化。

從 OpenAI 給出的示例中,我們可以看到 GPT-5.4 可以熟練使用計(jì)算機(jī),包括查看瀏覽器用戶界面截圖、點(diǎn)擊界面、發(fā)送電子郵件以及安排日歷。

另一個(gè)新的實(shí)驗(yàn)功能 “Playwright (Interactive)”,允許 Codex 實(shí)時(shí)進(jìn)行 Web 和 Electron 應(yīng)用的可視化調(diào)試,甚至能在構(gòu)建應(yīng)用的同時(shí)直接測(cè)試——這正是借助它的原生電腦操作能力實(shí)現(xiàn)的。

OpenAI 研究員 SQ Mah 表示,這背后主要有兩項(xiàng)關(guān)鍵能力支撐:一是 CUA(computer use,計(jì)算機(jī)操作能力),二是通過(guò)圖像輸入生成高質(zhì)量網(wǎng)站的能力。

與 GPT-5.3 Codex 相比,GPT-5.4 在使用 CUA 時(shí),不再需要額外拉起一個(gè)全新的環(huán)境來(lái)執(zhí)行操作。在 3D 游戲中,CUA 會(huì)自己點(diǎn)擊游戲界面,移動(dòng)象棋位置,甚至通過(guò)實(shí)際操作來(lái)驗(yàn)證規(guī)則是否正確生效。

在網(wǎng)站生成場(chǎng)景中,模型會(huì)調(diào)用 image gen 工具,生成圖片,然后通過(guò) CUA 來(lái)檢查自己的工作:打開生成的圖片、檢查圖片內(nèi)容、打開網(wǎng)站頁(yè)面也看一遍,然后把它們并排對(duì)比,確保生成的網(wǎng)站盡可能接近輸入的那張圖。

SQ Mah 還強(qiáng)調(diào)說(shuō),通過(guò)持久化的 CUA,他們發(fā)現(xiàn),在一些讓模型測(cè)試自己工作的場(chǎng)景中,token 使用量實(shí)際上下降了三分之二。

其實(shí),OpenAI 早在去年 1 月就推出了 CUA,但出于安全性和準(zhǔn)確性的考量,這個(gè)項(xiàng)目并沒(méi)有真正被重視起來(lái)。



甚至一度讓人懷疑,OpenAI 是否已經(jīng)放棄了這條路線。特別是在 GPT-4o 等項(xiàng)目吸引了幾乎全部關(guān)注的那段時(shí)間里,CUA 基本處于一種“銷聲匿跡”的狀態(tài)。


他們是不是放棄這個(gè)項(xiàng)目了?現(xiàn)在一點(diǎn)消息都沒(méi)有了。我其實(shí)一直在用 Azure/OpenAI,它已經(jīng)預(yù)覽好幾個(gè)月了。雖然我申請(qǐng)了,但一直沒(méi)能獲得批準(zhǔn)。


與 GPT-4o 等項(xiàng)目鋪天蓋地的宣傳相比,CUA 基本上銷聲匿跡了。而且它目前仍處于預(yù)覽階段,這意味著訪問(wèn)權(quán)限受到嚴(yán)格限制,許多人甚至都無(wú)法嘗試...... 不過(guò)我不認(rèn)為這條路線已經(jīng)失敗。一旦“瀏覽器優(yōu)先”的方案在穩(wěn)定性、隱蔽性以及內(nèi)置安全機(jī)制上真正成熟,它很可能會(huì)成為 agent 工作流的一次重大躍遷。

但從今天 GPT-5.4 的發(fā)布來(lái)看,情況顯然變了。OpenAI 不僅重新把這項(xiàng)能力帶回到臺(tái)前,還在 GitHub 上新發(fā)布了一些的 CUA sample app。


CUA 讓 ChatGPT 5.4 可以直接使用我們的電腦,這一點(diǎn)和 OpenClaw 的思路非常接近:本質(zhì)上,大家都在爭(zhēng)奪同一個(gè)入口——讓 AI 直接使用電腦,而不再繼續(xù)受限于 API 和聊天窗口。不同的是,OpenClaw 更像是在模型之外搭建的一層 computer-use 框架,而 GPT-5.4 走得更直接:它把電腦操作能力原生整合進(jìn)了模型本身。

這意味著,一旦模型自身已經(jīng)具備了這類能力,而且還能被各種軟件、平臺(tái)和企業(yè)系統(tǒng)直接集成調(diào)用,它的競(jìng)爭(zhēng)力就會(huì)迅速放大。對(duì)于那些年?duì)I收做到千萬(wàn)、上億,甚至百億的公司來(lái)說(shuō),它們完全可以基于這樣的模型能力,做出自己的“OpenClaw 版本”——而且往往會(huì)更安全、更快,也更可靠。

從這個(gè)角度看,OpenClaw 這樣的開源項(xiàng)目依然很有價(jià)值,因?yàn)樗鼈兟氏闰?yàn)證了“AI 直接使用電腦”這條路線;但當(dāng)模型廠商開始把這種能力原生做進(jìn)模型里,整個(gè)競(jìng)爭(zhēng)的重心就會(huì)發(fā)生變化。大家比拼的將不再只是一個(gè)外部框架,而是誰(shuí)能更快把這項(xiàng)能力產(chǎn)品化、平臺(tái)化,并真正接入真實(shí)工作流。

所以在 agentic AI 能力這件事上,現(xiàn)在確實(shí)是一個(gè)非常令人興奮的階段。

一邊降成本,一邊降幻覺

這次升級(jí)明顯是在“照顧開發(fā)者和重度用戶”,其中一個(gè)關(guān)鍵原因是 GPT-5.4 帶來(lái)了工具搜索(tool search):模型不再把所有工具的完整定義一次性塞進(jìn)上下文(這可能導(dǎo)致每次請(qǐng)求額外燒掉數(shù)萬(wàn) token),而是只拿到一個(gè)輕量列表,需要用哪個(gè)工具時(shí)再按需檢索具體定義。

在 Scale 的 MCP Atlas 基準(zhǔn)中,啟用 36 個(gè) MCP 服務(wù)器、測(cè)試 250 個(gè)任務(wù)時(shí),tool-search 配置在不降低準(zhǔn)確率的情況下,把總 token 使用量減少了 47%。對(duì)構(gòu)建大型 agent 系統(tǒng)的開發(fā)者來(lái)說(shuō),這幾乎等同于:成本更低、響應(yīng)更快。


幻覺問(wèn)題也顯著下降。按 OpenAI 的說(shuō)法,GPT-5.4 的單條事實(shí)陳述比 GPT-5.2 更不容易出錯(cuò)(錯(cuò)誤概率降低 33%),整體回答包含錯(cuò)誤的概率也降低了 18%——這對(duì)依賴準(zhǔn)確輸出的專業(yè)用戶來(lái)說(shuō),是非常實(shí)用的一次升級(jí)。

與此同時(shí),在 Harvey 的 BigLaw Bench(法律文檔評(píng)測(cè))中,GPT-5.4 的準(zhǔn)確率達(dá)到了 91%。


編程能力也更強(qiáng)了

GPT-5.4 現(xiàn)在也成為 OpenAI 的主力編程模型——在大多數(shù)任務(wù)中,你不再需要在 ChatGPT 與 Codex 之間糾結(jié)選哪一個(gè)。


它在 SWE-Bench Pro 上與 GPT-5.3-Codex 持平或更強(qiáng),同時(shí)也更快,尤其是在較低推理強(qiáng)度設(shè)置下。在對(duì)話里,你可以直接開始寫代碼,無(wú)需額外選擇。


Codex 還新增了 fast mode,在所有支持的模型上帶來(lái)最高 1.5 倍速度提升。OpenAI 還強(qiáng)調(diào) GPT-5.4 在復(fù)雜前端任務(wù)上明顯更強(qiáng),輸出既更精致好看,也更符合功能正確性。這一點(diǎn),也已經(jīng)從不少開發(fā)者的實(shí)際反饋中得到了印證。



能力升級(jí),價(jià)格也升級(jí)

在 API 中,OpenAI 表示 GPT-5.4 Thinking 對(duì)應(yīng)的模型名稱為 gpt-5.4,而 GPT-5.4 Pro 則對(duì)應(yīng) gpt-5.4-pro。價(jià)格如下:

GPT-5.4:

  • 輸入:$2.50 / 每 100 萬(wàn) token

  • 輸出:$15 / 每 100 萬(wàn) token

GPT-5.4 Pro:

  • 輸入:$30 / 每 100 萬(wàn) token

  • 輸出:$180 / 每 100 萬(wàn) token

從整體來(lái)看,與目前市面上的模型相比,GPT-5.4 在 API 運(yùn)行成本上屬于較高的一檔,如下表所示。


還有一個(gè)重要變化:在 GPT-5.4 中,如果請(qǐng)求的 輸入 token 超過(guò) 272,000,費(fèi)用將按正常價(jià)格的 2 倍計(jì)算,這反映了它支持比以往模型更大的提示上下文。

在 Codex 中,默認(rèn)的 compaction(壓縮)上限是 272k token。只有當(dāng)輸入超過(guò) 272k 時(shí),才會(huì)觸發(fā)更高的長(zhǎng)上下文價(jià)格。這意味著開發(fā)者只要把提示控制在這個(gè)范圍內(nèi),就不會(huì)觸發(fā)額外費(fèi)用;如果需要更長(zhǎng)上下文,也可以通過(guò)提高 compaction 上限來(lái)實(shí)現(xiàn),但只有這些更大的請(qǐng)求才會(huì)按更高費(fèi)率計(jì)費(fèi)。

OpenAI 發(fā)言人還表示,在 API 中 最大輸出長(zhǎng)度為 128,000 token,與之前的模型保持一致。

至于為什么 GPT-5.4 的基礎(chǔ)價(jià)格更高,OpenAI 的解釋主要有三個(gè)原因:

  1. 在復(fù)雜任務(wù)上的能力顯著提升,包括編程、計(jì)算機(jī)操作、深度研究、高級(jí)文檔生成和工具調(diào)用等;

  2. 來(lái)自 OpenAI 技術(shù)路線圖的一系列研究突破;

  3. 推理效率更高,在完成相同任務(wù)時(shí)需要更少的推理 token。

同時(shí)他們也強(qiáng)調(diào),即使價(jià)格有所上調(diào),GPT-5.4 的定價(jià)仍然低于許多同級(jí)別的前沿模型。

https://openai.com/zh-Hans-CN/index/computer-using-agent/

https://www.reddit.com/r/OpenAI/comments/1mwc03q/openai_computer_user_agent_cua/

https://venturebeat.com/technology/openai-launches-gpt-5-4-with-native-computer-use-mode-financial-plugins-for

聲明:本文為 AI 前線整理,不代表平臺(tái)觀點(diǎn),未經(jīng)許可禁止轉(zhuǎn)載。

會(huì)議推薦

2026,AI 正在以更工程化的方式深度融入軟件生產(chǎn),Agentic AI 的探索也將從局部試點(diǎn)邁向體系化工程建設(shè)!

QCon 北京 2026 已正式啟動(dòng),本屆大會(huì)以“Agentic AI 時(shí)代的軟件工程重塑”為核心主線,推動(dòng)技術(shù)探索從「AI For What」真正落地到可持續(xù)的「Value From AI」。從前沿技術(shù)雷達(dá)、架構(gòu)設(shè)計(jì)與數(shù)據(jù)底座、效能與成本、產(chǎn)品與交互、可信落地、研發(fā)組織進(jìn)化六大維度,系統(tǒng)性展開深度探索。開往 2026 的 Agentic AI 專列即將啟程!匯聚頂尖專家實(shí)戰(zhàn)分享,把 AI 能力一次夯到位!

今日薦文

你也「在看」嗎?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
烏克蘭嘗試成為美國(guó)盟友,俄羅斯向伊朗提供情報(bào)

烏克蘭嘗試成為美國(guó)盟友,俄羅斯向伊朗提供情報(bào)

一種觀點(diǎn)
2026-03-07 11:53:21
重要信息只說(shuō)了60%?比亞迪閃充的殺傷力,這次比華為大

重要信息只說(shuō)了60%?比亞迪閃充的殺傷力,這次比華為大

路咖汽車
2026-03-06 10:15:12
美伊打了足足6天,朝鮮突然發(fā)射巡航導(dǎo)彈,特朗普收到一封挑戰(zhàn)書

美伊打了足足6天,朝鮮突然發(fā)射巡航導(dǎo)彈,特朗普收到一封挑戰(zhàn)書

軍機(jī)Talk
2026-03-05 18:22:21
魯山孫藝菲事件又有新進(jìn)展,舅媽針對(duì)已故母親被登記結(jié)婚做出回應(yīng)

魯山孫藝菲事件又有新進(jìn)展,舅媽針對(duì)已故母親被登記結(jié)婚做出回應(yīng)

靜若梨花
2026-03-06 00:05:09
樂(lè)道月銷量不到3000臺(tái),L90怎么也熄火了?

樂(lè)道月銷量不到3000臺(tái),L90怎么也熄火了?

《新車新技術(shù)》
2026-03-06 14:02:15
央視緊急揭露:全是假貨!別再往家里搬了,很多人天天在用!

央視緊急揭露:全是假貨!別再往家里搬了,很多人天天在用!

古事尋蹤記
2026-03-07 07:07:35
撿漏時(shí)刻!蘋果15款產(chǎn)品停產(chǎn),第三方平臺(tái)已大幅降價(jià)

撿漏時(shí)刻!蘋果15款產(chǎn)品停產(chǎn),第三方平臺(tái)已大幅降價(jià)

環(huán)球網(wǎng)資訊
2026-03-07 11:23:32
激戰(zhàn)7天伊朗殺紅了眼,神秘軍隊(duì)攜帶中國(guó)武器入場(chǎng),特朗普失算了

激戰(zhàn)7天伊朗殺紅了眼,神秘軍隊(duì)攜帶中國(guó)武器入場(chǎng),特朗普失算了

起喜電影
2026-03-06 17:21:47
俄國(guó)向伊朗提供美軍坐標(biāo)!戰(zhàn)略信號(hào)還是象征性支援?

俄國(guó)向伊朗提供美軍坐標(biāo)!戰(zhàn)略信號(hào)還是象征性支援?

咣當(dāng)?shù)厍?/span>
2026-03-07 11:55:08
陳昌浩回國(guó)后默默無(wú)聞,前妻任副部長(zhǎng),兒子卻是萬(wàn)人敬仰的大人物

陳昌浩回國(guó)后默默無(wú)聞,前妻任副部長(zhǎng),兒子卻是萬(wàn)人敬仰的大人物

比利
2026-03-04 10:59:11
我想要老板娘不打碼的圖片,我該怎么說(shuō)?

我想要老板娘不打碼的圖片,我該怎么說(shuō)?

太急張三瘋
2026-03-07 10:26:24
中國(guó)貨船通過(guò)霍爾木茲海峽,伊朗:僅針對(duì)美以歐…

中國(guó)貨船通過(guò)霍爾木茲海峽,伊朗:僅針對(duì)美以歐…

觀察者網(wǎng)
2026-03-05 18:05:08
賭徒的結(jié)局真的是一無(wú)所有嗎 網(wǎng)友講述百億老板到騙他300萬(wàn)過(guò)程

賭徒的結(jié)局真的是一無(wú)所有嗎 網(wǎng)友講述百億老板到騙他300萬(wàn)過(guò)程

侃神評(píng)故事
2026-03-07 07:15:03
F1澳大利亞三練:拉塞爾最快,安東內(nèi)利嚴(yán)重碰撞,比賽兩度紅旗

F1澳大利亞三練:拉塞爾最快,安東內(nèi)利嚴(yán)重碰撞,比賽兩度紅旗

懂球帝
2026-03-07 11:03:08
新娘臨時(shí)要10萬(wàn)下車費(fèi),新郎去取錢卻未歸,新娘趕到婆家瞬間淚目

新娘臨時(shí)要10萬(wàn)下車費(fèi),新郎去取錢卻未歸,新娘趕到婆家瞬間淚目

千秋歷史
2026-02-02 20:23:42
看了鴇鳥怎么交配,才知道古代青樓的老板娘,為何叫“老鴇”!

看了鴇鳥怎么交配,才知道古代青樓的老板娘,為何叫“老鴇”!

米果說(shuō)識(shí)
2026-03-06 22:02:30
隨著巴黎圣日耳曼爆冷1-3轟然倒下,法甲最新積分榜出爐

隨著巴黎圣日耳曼爆冷1-3轟然倒下,法甲最新積分榜出爐

側(cè)身凌空斬
2026-03-07 06:34:39
伊朗導(dǎo)彈千里獵殺,美驅(qū)逐艦燃起大火?特朗普一句話震動(dòng)全球

伊朗導(dǎo)彈千里獵殺,美驅(qū)逐艦燃起大火?特朗普一句話震動(dòng)全球

東極妙嚴(yán)
2026-03-06 15:09:57
中美國(guó)運(yùn)終局:這不是美伊戰(zhàn)爭(zhēng),是大國(guó)終極對(duì)決!

中美國(guó)運(yùn)終局:這不是美伊戰(zhàn)爭(zhēng),是大國(guó)終極對(duì)決!

音樂(lè)時(shí)光的娛樂(lè)
2026-03-06 19:21:13
馬筱梅的計(jì)劃落空,多失望啊,這潑天的流量被自己弄丟了!

馬筱梅的計(jì)劃落空,多失望啊,這潑天的流量被自己弄丟了!

小娛樂(lè)悠悠
2026-03-07 10:02:49
2026-03-07 12:32:49
AI前線 incentive-icons
AI前線
面向AI愛好者、開發(fā)者和科學(xué)家,提供AI領(lǐng)域技術(shù)資訊。
1345文章數(shù) 133關(guān)注度
往期回顧 全部

科技要聞

OpenClaw爆火,六位"養(yǎng)蝦人"自述與AI共生

頭條要聞

中東局勢(shì)動(dòng)蕩 歐盟"女外長(zhǎng)"污蔑:中國(guó)趁機(jī)拿捏歐洲

頭條要聞

中東局勢(shì)動(dòng)蕩 歐盟"女外長(zhǎng)"污蔑:中國(guó)趁機(jī)拿捏歐洲

體育要聞

塔圖姆歸來(lái):凱爾特人的春之綠

娛樂(lè)要聞

周杰倫田馥甄20年地下情 被扒得底朝天

財(cái)經(jīng)要聞

針對(duì)"不敢休、不讓休"怪圈 國(guó)家出手了

汽車要聞

逃離ICU,上汽通用“止血”企穩(wěn)

態(tài)度原創(chuàng)

本地
親子
房產(chǎn)
游戲
公開課

本地新聞

食味印象|一口入魂!康樂(lè)烤肉串起千年絲路香

親子要聞

全國(guó)政協(xié)委員厲彥虎:太早學(xué)不該學(xué)的反而害了孩子

房產(chǎn)要聞

傳統(tǒng)學(xué)區(qū)房熄火?2月??诙址勘鸬陌鍓K竟然是…

0護(hù)甲蝎子是干凈的?TES假賽內(nèi)幕曝光:AD跟打野爆了

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版