国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

OpenClaw絕配!GPT-5.4問世,AI能力開始大一統(tǒng),就是太貴

0
分享至

機器之心編輯部

周五凌晨,OpenAI 正式發(fā)布 GPT-5.4,引入了一種新模式:原生的計算機使用。



有意思的是,這次 GPT-5.4 的上新,恰好發(fā)生在知名開發(fā)者 Peter Steinberger 加入 OpenAI 不久之后。這很難不讓人猜測,Peter 的加入會對 OpenAI 在計算機使用和開發(fā)者工具方向上的布局產(chǎn)生多少影響。Peter 本人也進行了宣傳:



還有網(wǎng)友表示:GPT-5.4 的發(fā)布,到處都有 Peter Steinberger 的「爪印」!GPT-5.4 看起來就像是 OpenClaw 的架構(gòu)文檔被直接做成了一個前沿模型,而這一切發(fā)生在 Peter 加入 OpenAI 僅僅 3 周之后。該網(wǎng)友還進行了一些對比,比如以前所有工具定義都必須塞進 prompt 里,浪費成千上萬的 token,現(xiàn)在是 GPT-5.4 可以按需查找工具定義,token 使用量減少 47%。而 OpenClaw 從第一天起就通過描述匹配動態(tài)加載技能(skills)。

又比如,過去,模型本身并沒有原生能力去直接操作軟件或執(zhí)行完整的開發(fā)流程。而在 GPT-5.4 中,智能體已經(jīng)可以在不同應用之間自動運行「構(gòu)建 → 運行 → 驗證 → 修復」的循環(huán),實現(xiàn)較為完整的任務閉環(huán)。值得注意的是,這種工作模式與 OpenClaw 的設計非常相似。



而這些變化,也正好引出了 GPT-5.4 最核心的一點:原生計算機使用能力(Computer Use)。

新一代大模型在知識工作和網(wǎng)絡搜索方面表現(xiàn)更出色,具備原生的計算機使用能力。GPT-5.4 現(xiàn)在可以直接操作軟件、使用工具、瀏覽網(wǎng)頁、執(zhí)行工作流程,并規(guī)劃跨應用程序的復雜任務,最多可處理 100 萬個上下文 token。

推理 + 編碼 + 智能體 + 計算機控制,全都融合在同一個前沿模型里。

目前,GPT-5.4 已在 OpenAI 的 API 和 Codex 中提供,并正在 ChatGPT 中逐步推出(面向 ChatGPT Plus、Team 和 Pro 用戶開放),取代了 GPT-5.2 Thinking 模型。OpenAI 也在 ChatGPT 和 API 中推出了 GPT-5.4 Pro(面向 Pro 和企業(yè)版用戶開放),其專為那些希望在復雜任務中實現(xiàn)極致性能的用戶設計。

在 API 中,GPT-5.4 的 token 價格高于 GPT-5.2,批量處理和靈活處理的價格為標準 API 費率的一半,而優(yōu)先處理的價格為標準 API 費率的兩倍。



在評測基準上,GPT 5.4 Pro 以 38% 的成績輕松擊敗了最難的數(shù)學基準測試 FrontierMath Tier 4—— 該基準包含 50 道研究級別的數(shù)學題,數(shù)學家可能需要幾周時間才能解決。僅僅在一年前,最佳成績?yōu)?2% (o3) ,目前最佳的開源模型分數(shù)為 4.2% (Kimi K2.5)。





作為通用模型,GPT-5.4 具備原生的計算機使用能力,這對于開發(fā)者和智能體而言是一次重大飛躍。

OpenAI 表示,新模型能在各種計算機工作負載下保持高性能。它非常擅長編寫代碼來操作計算機(例如通過 Playwright 等庫),也能根據(jù)屏幕截圖發(fā)出鼠標和鍵盤命令。它的行為可以通過開發(fā)者消息進行控制,這意味著開發(fā)者可以根據(jù)特定用例調(diào)整其行為。開發(fā)者甚至可以通過指定自定義確認策略來配置模型的安全行為,以適應不同的風險承受能力。

該模型的性能和靈活性體現(xiàn)在各項基準測試中,在 OSWorld-Verified 測試中,該測試通過屏幕截圖和鍵盤 / 鼠標操作來衡量模型在桌面環(huán)境中導航的能力,GPT-5.4 取得了 75.0% 的領(lǐng)先成功率,遠超 GPT-5.2 的 47.3%,也超越了人類的 72.4%。



在 GDPval 測試中,GPT-5.4 在 83.0% 的比較中達到或超過了行業(yè)專業(yè)人士的水平,而 GPT-5.2 的這一比例為 70.9%。



GPT-5.4 計算機性能的提升得益于其增強的通用視覺感知能力。在 MMMU-Pro 測試中,GPT-5.4 在不使用任何工具的情況下取得了 81.2% 的成功率,優(yōu)于 GPT-5.2 的 79.5%。

視覺感知能力的提升也體現(xiàn)在其文檔解析能力的增強上。在 OmniDocBench 測試中,GPT-5.4 在不使用任何推理工具的情況下,平均誤差為 0.109,優(yōu)于 GPT-5.2 的 0.140。



代碼生成方面,GPT-5.4 結(jié)合了 GPT-5.3-Codex 的編碼優(yōu)勢,并具備領(lǐng)先的知識處理和計算機使用能力,這在長時間運行的任務中尤為重要,因為模型可以利用工具、迭代并推進工作,從而減少人工干預。在 SWE-Bench Pro 測試中,GPT-5.4 的性能與 GPT-5.3-Codex 持平或更優(yōu),同時在推理過程中延遲更低。



啟用 Codex 中的 /fast 模式后,GPT-5.4 的 token 處理速度最高可提升 1.5 倍。它采用的是相同的模型和智能,只是速度更快。這意味著用戶可以更流暢地完成編碼任務、迭代和調(diào)試,保持高效的工作流程。



使用 GPT-5.4 生成的 RPG 游戲,經(jīng)過多回合迭代開發(fā)。



根據(jù)一個簡單的提示,制作的金門大橋飛行體驗。

在 API 中,GPT-5.4 引入了工具搜索功能。這使得模型能夠在擁有眾多工具的情況下高效運行。

以前,當給模型分配工具時,所有工具的定義都會預先包含在請求請求中。對于擁有大量工具的系統(tǒng),這可能會在每個請求中增加數(shù)千甚至數(shù)萬 token,從而增加成本、降低響應速度,并使上下文信息過于擁擠,而這些信息模型可能永遠不會用到。

通過工具搜索,GPT-5.4 會收到一個輕量級的可用工具列表以及相應的工具搜索功能。當模型需要使用某個工具時,它可以查找該工具的定義,并將其添加到當前的對話中。

這種方法顯著減少了工具密集型工作流程所需的 token 數(shù)量。它還使智能體能夠可靠地與規(guī)模更大的工具生態(tài)系統(tǒng)協(xié)同工作。對于可能包含數(shù)萬個工具定義令牌的 MCP 服務器而言,效率提升可能非常顯著。

OpenAI 評估了 Scale 的 MCP Atlas 中的 250 項任務,工具搜索配置在保持相同準確率的同時,將總 token 使用量減少了 47%。



GPT-5.4 改進了工具調(diào)用,使其在推理過程中(尤其是在 API 調(diào)用中)能夠更準確、更高效地決定何時以及如何使用工具。與 GPT-5.2 相比,它在 Toolathlon 測試中以更少的回合數(shù)實現(xiàn)了更高的準確率。





GPT-5.4 在自主網(wǎng)絡搜索方面也表現(xiàn)更佳。在 BrowseComp 測試中,GPT-5.4 比 GPT-5.2 提升了 17% 而 GPT-5.4 Pro 則達到了 89.3%,創(chuàng)下了新的最高水平。

這意味著 GPT-5.4 Thinking 更擅長回答需要整合網(wǎng)絡上多個信息源的問題。它可以更持久地進行多輪搜索,以識別最相關(guān)的信息源,尤其適用于「大海撈針」式的問題,并將它們綜合成清晰、論證充分的答案。



在 ChatGPT 中,GPT-5.4 Thinking 現(xiàn)在可以預先提供其思考計劃,你可以在它運行過程中隨時調(diào)整方向,最終無需額外迭代即可獲得更符合需求的答案。GPT-5.4 Thinking 還改進了深度網(wǎng)絡搜索,尤其是在處理高度具體的查詢時,同時能夠更好地保留需要長時間思考的問題的上下文信息。這些改進共同作用,意味著能夠更快地獲得更高質(zhì)量、更貼合當前任務的答案。

在 Codex 和 API 中,GPT-5.4 是首個具備原生、最先進的計算機使用能力的通用模型,它使智能體能夠操作計算機并在各種應用程序中執(zhí)行復雜的流程。GPT-5.4 還通過工具搜索功能改進了模型在大型工具和連接器生態(tài)系統(tǒng)中的運行方式,幫助智能體更高效地找到并使用合適的工具,同時又不犧牲智能水平。

GPT-5.4 也是目前 OpenAI token 效率最高的推理模型,與 GPT-5.2 相比,它解決問題所需的 token 數(shù)量顯著減少,這意味著更少的費用和更快的速度。

結(jié)合通用推理、編碼和專業(yè)知識工作的進步,GPT-5.4 能夠?qū)崿F(xiàn)更可靠的智能體、更快的開發(fā)者工作流程以及 ChatGPT、API 和 Codex 的更高質(zhì)量輸出。



OpenAI 重點提升了 GPT-5.4 創(chuàng)建和編輯電子表格、演示文稿和文檔的能力。在一系列演示文稿評估提示中,由于 GPT-5.4 的演示文稿具有更強的美觀性、更豐富的視覺效果以及更高效的圖像生成功能,獲得了人類評分者的青睞。



OpenAI 研究科學家,德?lián)?AI Libratus 的發(fā)明者 Noam Brown 表示,GPT-5.4 在計算機應用和經(jīng)濟價值任務(例如 GDPval)上已取得了巨大進步。鑒于此,科學家們認為人工智能的發(fā)展前景廣闊,預計今年內(nèi) AI 能力將繼續(xù)大幅提升。

智力的指數(shù)增長還在繼續(xù)。有人表示,ChatGPT 很快就會比最好的咨詢公司、最好的投資銀行和最好的律師事務所都更出色。

最后,很多人已經(jīng)在使用 GPT-5.4 嘗試各種任務了,不知道新一代模型具體表現(xiàn)如何。



有人已經(jīng)認為,GPT-5.4 Pro 達到了 AGI 級別的智能?,F(xiàn)在,你有什么 AGI 級別的問題要問嗎?

參考內(nèi)容:

https://openai.com/index/introducing-gpt-5-4/

https://openai.com/index/gpt-5-4-thinking-system-card/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
段曦深夜發(fā)萬字長文,曝2006年供張杰出道,薛之謙轉(zhuǎn)發(fā)引熱議

段曦深夜發(fā)萬字長文,曝2006年供張杰出道,薛之謙轉(zhuǎn)發(fā)引熱議

喜歡歷史的阿繁
2026-03-06 09:06:25
小學生實名投訴極氪 建議取消讓她寫作業(yè)的小桌板!極氪回應

小學生實名投訴極氪 建議取消讓她寫作業(yè)的小桌板!極氪回應

快科技
2026-03-06 23:12:33
犧牲時僅19歲:被20多名土匪輪番侵犯,臨終一聲吶喊震撼全場

犧牲時僅19歲:被20多名土匪輪番侵犯,臨終一聲吶喊震撼全場

鶴羽說個事
2026-03-06 18:36:17
巴基斯坦提醒伊朗:巴方與沙特有共同防御協(xié)議

巴基斯坦提醒伊朗:巴方與沙特有共同防御協(xié)議

環(huán)球時報國際
2026-03-05 22:52:51
飯到嘴里不會吃,毀了自己前程的那爾那茜,如今又被呼喚“回歸”

飯到嘴里不會吃,毀了自己前程的那爾那茜,如今又被呼喚“回歸”

林雁飛
2026-03-06 14:24:29
顫抖!詹姆斯居然有58項歷史第一!

顫抖!詹姆斯居然有58項歷史第一!

柚子說球
2026-03-06 20:20:48
自食惡果!伊朗全球追殺特朗普,倆百歲大佬下死令,永無期限

自食惡果!伊朗全球追殺特朗普,倆百歲大佬下死令,永無期限

愛看劇的阿峰
2026-03-06 17:08:17
王茜四字回應《重案六組》翻拍,這大概是內(nèi)娛,挨過最狠的打臉了

王茜四字回應《重案六組》翻拍,這大概是內(nèi)娛,挨過最狠的打臉了

娛文速遞
2026-03-06 17:32:29
現(xiàn)場直擊:伊朗防空系統(tǒng)攔截美以目標

現(xiàn)場直擊:伊朗防空系統(tǒng)攔截美以目標

新華社
2026-03-06 10:54:01
抱緊美日大腿,停飛中國航班、拒絕中國游客的小國,如今怎樣了?

抱緊美日大腿,停飛中國航班、拒絕中國游客的小國,如今怎樣了?

墨蘭史書
2026-03-07 03:50:03
17年無冠!哈登直言騎士爭冠還很遙遠:健康運氣缺一不可

17年無冠!哈登直言騎士爭冠還很遙遠:健康運氣缺一不可

仰臥撐FTUer
2026-03-07 08:31:25
字節(jié)跳動啟動最大規(guī)模實習生招聘:擬招超7000人,轉(zhuǎn)正率超50%,重點傾斜研發(fā)、產(chǎn)品與AI領(lǐng)域

字節(jié)跳動啟動最大規(guī)模實習生招聘:擬招超7000人,轉(zhuǎn)正率超50%,重點傾斜研發(fā)、產(chǎn)品與AI領(lǐng)域

深圳晚報
2026-03-06 16:38:48
看了鴇鳥怎么交配,才知道古代青樓的老板娘,為何叫“老鴇”!

看了鴇鳥怎么交配,才知道古代青樓的老板娘,為何叫“老鴇”!

米果說識
2026-03-06 22:02:30
亡母被婚案 后續(xù):舅舅身份被曝,平頂山市連夜介入調(diào)查 果然不簡單

亡母被婚案 后續(xù):舅舅身份被曝,平頂山市連夜介入調(diào)查 果然不簡單

水泥土的搞笑
2026-03-06 17:08:09
大S遺產(chǎn)最終確認:通過信托留給2個子女,具俊曄和S媽放棄繼承

大S遺產(chǎn)最終確認:通過信托留給2個子女,具俊曄和S媽放棄繼承

素素娛樂
2026-03-06 08:29:40
數(shù)學物理雙科150分!西安交大考研驚現(xiàn)物理大神,網(wǎng)友:牛頓重生

數(shù)學物理雙科150分!西安交大考研驚現(xiàn)物理大神,網(wǎng)友:牛頓重生

火山詩話
2026-03-06 05:39:34
2017年,山東男子為遷祖墳,下挖6米后發(fā)現(xiàn)異常,被地下場景震撼

2017年,山東男子為遷祖墳,下挖6米后發(fā)現(xiàn)異常,被地下場景震撼

阿坷敘故事
2024-04-19 11:14:42
掏60萬給女兒買房,過年在女兒家住,大年三十晚就踏上返程高鐵

掏60萬給女兒買房,過年在女兒家住,大年三十晚就踏上返程高鐵

大熊歡樂坊
2026-03-06 10:15:01
伊朗:決不投降,一個僅擁有250年歷史的國家,想要對一個擁有3000年歷史的國家發(fā)號施令,絕對不可能

伊朗:決不投降,一個僅擁有250年歷史的國家,想要對一個擁有3000年歷史的國家發(fā)號施令,絕對不可能

都市快報橙柿互動
2026-03-06 20:24:04
我的 OpenClaw 干了一件事,它真的嚇到我了

我的 OpenClaw 干了一件事,它真的嚇到我了

唐韌
2026-03-05 13:08:42
2026-03-07 09:32:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12430文章數(shù) 142578關(guān)注度
往期回顧 全部

科技要聞

OpenClaw爆火,六位"養(yǎng)蝦人"自述與AI共生

頭條要聞

中東局勢動蕩 歐盟"女外長"污蔑:中國趁機拿捏歐洲

頭條要聞

中東局勢動蕩 歐盟"女外長"污蔑:中國趁機拿捏歐洲

體育要聞

跑了24年,他終于成為英超“最長的河”

娛樂要聞

周杰倫社交媒體曬昆凌,夫妻感情穩(wěn)定

財經(jīng)要聞

關(guān)于經(jīng)濟、股市等,五部門都說了啥?

汽車要聞

逃離ICU,上汽通用“止血”企穩(wěn)

態(tài)度原創(chuàng)

游戲
藝術(shù)
家居
旅游
軍事航空

《控制:共振》線上媒體演示訪談:我們叫它ARPG"/> 主站 商城 論壇 自運營 登錄 注冊 《控制:共振》線上媒體演示訪談:我們叫它ARPG 海星罐頭...

藝術(shù)要聞

一個電影編劇水平是如何評判的?

家居要聞

暖棕撞色 輕法奶油風

旅游要聞

陜西最值得去的寶藏地,周末6大景區(qū)全免費/半價!趕緊沖

軍事要聞

伊朗:使用無人機擊中美軍"林肯"號航母

無障礙瀏覽 進入關(guān)懷版