国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

突發(fā)!GPT-5.5深夜炸場,天選“牛馬”,OpenAI悟了?

GPT-5.5深夜炸場 升級了什么

0
分享至

北京時間 4 月 24 日凌晨,OpenAI 突然發(fā)布了 GPT-5.5,以及更高規(guī)格的 GPT-5.5 Pro。

這不是一次常規(guī)的小版本迭代。在 OpenAI 看來,GPT-5.5 不僅是他們最強的模型,更是新的智能模型,即專為真實工作和智能體任務打造的模型。

說白了,其實就是各家最近都在講的「智能體模型」,模型的定位更多是作為智能體的「智能引擎」。

所以不出意外,圍繞「聊天」的各項能力就沒那么重了,圍繞「工作」來講才是王道。而從紙面參數(shù)和 benchmark 看,GPT-5.5 的確延續(xù)了 OpenAI 過去半年的技術路線,更多以「真實工作場景」為導向,在一些取向更貼近實際的基準測試中又刷了新高,比如:

- Terminal-Bench 2.0:82.7%(復雜命令行任務)
- GDPval:84.9%(跨 44 種職業(yè)的知識工作)
- OSWorld-Verified:78.7%(真實電腦操作能力)
- Tau2-bench Telecom:98.0%(復雜客服流程)



圖片來源:OpenAI

不過基準測試也就「圖一樂」,即便是這些取向更接近實際工作的測試,也很難逃過「高分低能」的問題。所以,GPT-5.5 真的就像 OpenAI 新聞稿開篇所言,會是我們邁向 PC 工作新方式的下一步嗎?

從 AI Coding 到 AI 辦公,GPT 也是認真干活了

根據(jù) OpenAI 公布的信息,GPT-5.5 Pro 僅支持 Pro 及以上訂閱用戶,GPT-5.5 則支持 Plus 及以上的訂閱用戶,將在今天正式上線 ChatGPT 以及 Codex。不過包括我在內(nèi),很多 Plus 還未收到 GPT-5.5 的新模型推送,理論上應該采取了分批推送的方式。

不過官方也展示了一些實際的使用案例,共同點是都不怎么「干凈」,更像我們實際面臨工作任務,也不是一步就能完成。而對于現(xiàn)階段重點推 Codex 的 OpenAI 來說,Agentic Coding 肯定是最重要的。

這一代 GPT-5.5 也在正式發(fā)布前被拿去做代碼重構、跨文件 bug 修復、測試補全這些更接近真實工程流程的工作。

外部開發(fā)者的實測也證實了 GPT-5.5 在代碼工作上進步。MagicPath CEO Pietro Schirano 就用 GPT-5.5 將一個包含數(shù)百個前端和重構變更的分支合并為一個同樣有重大變化的主分支,只花了 20 分鐘就一次性解決了所有工作,「我真的感覺自己在和一個更高的智慧共事!



圖片來源:X

不是說它一次就肯定全對,關鍵是它更容易「走在正確的軌道上」,中途不用頻繁拉回方向。

CodeRabbit 的評測里有一個細節(jié)很有意思。他們沒有強調(diào)模型能寫出多復雜的代碼,反而更多夸贊它在 code review 里更「克制」,更傾向于指出真正會影響上線的問題,而不是泛泛而談。

同時 Cursor、Windsurf 團隊的使用報告也都指出,GPT-5.5 在長時任務、處理歧義方面都比 GPT-5.4 明顯更好。

另外,OpenAI 的財務團隊還用它審核了 24771 份 K-1 稅表、總計 71637 頁文件,并稱這套流程比上一年提前了兩周完成。換個角度看,它其實揭示了 GPT-5.5 在長流程里的穩(wěn)定性。而兩萬多份稅表、七萬多頁文檔,是一個極容易出錯、需要持續(xù)校驗的重復性工作。



圖片來源:OpenAI

過去模型在這種場景里最大的問題,是中途漂移,或者在細節(jié)上逐漸失真。而無論是表格處理、報告生成,還是多文檔整合,GPT-5.5 的輸出更有一致性,格式更穩(wěn)定,前后邏輯也更連貫。法律 AI 公司 Harvey 就強調(diào)了 GPT-5.5 的推理結構、引用、排版這些細節(jié)更像一個合格的專業(yè)人士。

而且這類案例的價值還不在規(guī)模,因為模型不僅在分析數(shù)據(jù),還在構建流程、生成規(guī)則并接入實際業(yè)務系統(tǒng),已經(jīng)非常接近典型的知識工作流程。

可以說,這次 GPT-5.5 最核心的升級就是現(xiàn)代社會圍繞計算機構建的工作場景。英偉達創(chuàng)始人兼 CEO 黃仁勛還在一封全員信呼吁所有人使用基于 GPT-5.5 的 Codex,「讓我們跳到光速。歡迎來到人工智能時代。」

如果說 GPT-4 解決的是「答對」,GPT-5.4 在解決處理更復雜的問題和任務,到了 GPT-5.5,問題變成了能不能更高效、穩(wěn)定地做好一件事。畢竟,做完和做好完全是兩碼事,中間也是一道「天塹」。

這也是為什么 OpenAI 在這一代里不斷強調(diào)「智能體」這個詞。



圖片來源:OpenAI

GPT-5.5 從模型層面改進了智能體最核心的幾個特征:理解目標、拆解步驟、調(diào)用工具、修正過程,并最終交付結果。能力上看,每一項都不是全新能力,但被放到同一個系統(tǒng)里之后,體驗開始發(fā)生變化。

外部反饋也基本印證了這一點。無論是開發(fā)者還是企業(yè)用戶,討論的焦點都在變。從「答得準不準」,變成「要改幾次」「能不能一次跑通」。這兩個問題的差別,其實就是模型角色的變化從輔助決策,變成參與執(zhí)行。

當然,這種變化還遠沒有到「可以完全放手」的程度。多個第三方評測都提到了 GPT-5.5 對任務邊界的依賴更強。需求描述不清,它不會主動幫你補全,而是按現(xiàn)有信息執(zhí)行。這種「聽話」在某些場景是優(yōu)點,在另一些場景反而是限制。

但這恰恰說明,它正在變得更像一個真實世界里的協(xié)作者。能力沒有突然跨越一代,工作方式確實變了。

GPT-5.5 到底升級了什么?

過去兩年,大模型的升級路徑很清晰:更強的推理、更長的上下文、更高的準確率。GPT-5.5 仍然在做這些,但重點還是變了,OpenAI 就強調(diào)了模型更早理解任務、更少依賴提示、更會使用工具,并且能夠持續(xù)推進直到完成。

這句話其實也對應的是過去一直存在、但始終沒被徹底解決的一些問題。



一種適合真正工作的新型智能,圖片來源:OpenAI

其一是理解問題,但不理解任務。很多模型在復雜場景里的表現(xiàn)是單步回答很好,但一旦涉及多步驟流程,就會開始偏離,甚至需要用戶不斷修正。GPT-5.5 的變化,是它開始在一開始就建立任務結構,而不是等用戶一步步喂。

其二是會用工具,但不會組織工具。從去年開始,工具調(diào)用已經(jīng)成為大模型的主流能力,但大多數(shù)模型只是把工具當成外掛。GPT-5.5 在 Terminal-Bench 和 OSWorld 這類評測中的提升,更重要的是它不只是調(diào)用工具,而是把工具變成工作流程的一部分。

其三則是實際的交付質(zhì)量。過去模型的輸出是「答案」,現(xiàn)在越來越多場景要求的是「結果」,而且是更好、更準確。GPT-5.5 的目標就是減少中斷,讓任務可以連續(xù)推進,直到形成一個可以直接使用的輸出。



游戲生成,圖片來源:OpenAI

當然,GPT-5.5 更強了,但也沒有強到「改寫一切」。問題在于,這一輪競爭早就不是單點模型能力的比拼。

今年以來,一個變化已經(jīng)非常明確。無論是 OpenAI,還是 Google、Anthropic,甚至包括國內(nèi)的阿里、字節(jié),都在把重點從「更強模型」轉(zhuǎn)向「智能體系統(tǒng)」。模型只是底座,真正的競爭在于能不能把模型接入工具、接入數(shù)據(jù)、接入業(yè)務流程,讓它真正參與工作。

行業(yè)里的關鍵詞也從「推理能力」「上下文長度」,逐漸變成了「agent(智能體)」「workflow(工作流)」「computer use(計算機使用)」。

OpenAI 自己的動作最典型。Codex 的重新被推到臺前,也不是偶然,它天然就是最適合承載智能體能力的入口。

但現(xiàn)在還有一個問題是,GPT-5.5 真的很貴。

前段時間 Claude Opus 4.7 的價格已經(jīng)勸退了很多,而 OpenAI 雖然強調(diào) GPT-5.5 幾乎是在不犧牲速度和 Token 用量的情況下實現(xiàn)了全面升級,延遲和 GPT-5.4 相當甚至更低,還能用更少的 Token 在 Codex 上完成同樣的任務,但實際 API 價格流出后,還是讓很多開發(fā)者心涼了半截:

輸入 5 美元/百萬 tokens、緩存輸入 0.5 美元/百萬 tokens、輸出 30 美元/百萬 tokens,直接在 GPT-5.4 的基礎上翻了一番。



圖片來源:X

頂級模型還是太貴了。只能期待一下傳聞將在本周發(fā)布的 DeepSeek V4,希望能夠復刻 2025 年的奇跡,通過這次的多模態(tài)升級把智能體模型也能打成白菜價。

寫在最后

從能力上看,它確實更強了,但這種「更強」已經(jīng)很難再用一次發(fā)布就被感知到。沒有那種一上手就明顯不同的驚艷,更像是把過去幾代模型的短板一點點補齊,把原本不穩(wěn)定的地方變得更可靠。

但換個角度看,這反而是一個更重要的信號。過去大家比的是誰更聰明,現(xiàn)在開始比的是誰更穩(wěn)定、誰更能融入實際工作、誰能在復雜流程里少出錯。

GPT-5.5 就落在這個階段。它沒有重新定義模型能力的上限,但在「把事情做完」這件事上往前走了一步。而當模型開始能夠真正承擔一部分工作時,真正被改變的就不再只是效率,還有新的工作方式,包括人與 AI 之間的分工關系。

當然,這個過程還遠沒有結束。GPT-5.5 的成本仍然高,能力也還不夠通用,很多場景依然需要人類不斷干預。智能體這件事,從概念走向現(xiàn)實,還要經(jīng)歷一段很長的打磨周期。

但方向已經(jīng)很清楚了。當模型開始進入流程,當工具、數(shù)據(jù)和系統(tǒng)逐漸圍繞它重新組織,當越來越多公司把它當成「工作的一部分」而不是「輔助工具」,這一輪變化就不再只是技術升級。

2026第十九屆北京國際汽車展覽會將于4月24日至5月3日在北京?中國國際展覽中心(順義館)和首都國際會展中心(新國展二期)舉行,本屆車展以“領時代·智未來”為主題,集中展現(xiàn)汽車工業(yè)的更多黑科技。
比亞迪、小米、鴻蒙智行(問界等)、小鵬、蔚來、嵐圖等頭部品牌集結,多款重磅新車首秀;地平線、Momenta、卓馭等供應商集體秀肌肉,AI大模型深度賦能,高階智駕、動力電池、超快充技術等前沿科技集中亮相,看點拉滿!
雷科技旗下「電車通」將派出報道團直擊現(xiàn)場,以“關注電動車,更懂智能化”的專業(yè)視角,帶來一線獨家報道,敬請關注!



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
人社部、財政部通知:支持大學畢業(yè)生“回爐”讀技校

人社部、財政部通知:支持大學畢業(yè)生“回爐”讀技校

深度報
2026-04-23 22:43:47
“南航空姐”咆哮外籍乘務不懂中文,空少還原鬧劇首次曝光!這事如果發(fā)生在新加坡……

“南航空姐”咆哮外籍乘務不懂中文,空少還原鬧劇首次曝光!這事如果發(fā)生在新加坡……

新加坡眼
2026-04-23 14:39:44
英偉達H200芯片尚未交付,美商務部長“甩鍋”中方

英偉達H200芯片尚未交付,美商務部長“甩鍋”中方

環(huán)球網(wǎng)資訊
2026-04-24 06:58:28
你以為麻豆傳媒是賣片的,其實它是賣人的

你以為麻豆傳媒是賣片的,其實它是賣人的

創(chuàng)始人筆記
2026-04-23 21:44:50
窒息!杜蘭特又有新傷!他是拿命在打!

窒息!杜蘭特又有新傷!他是拿命在打啊!

柚子說球
2026-04-24 09:08:35
內(nèi)蒙古一老板開1.6萬月薪招人放3000只羊,包吃住,有Wi-Fi,有專人送物資,全年無休,回應:更適合夫妻檔,一望無際的大草原常年見不到人

內(nèi)蒙古一老板開1.6萬月薪招人放3000只羊,包吃住,有Wi-Fi,有專人送物資,全年無休,回應:更適合夫妻檔,一望無際的大草原常年見不到人

海峽網(wǎng)
2026-04-23 21:31:49
天問三號任務計劃于2031年前后攜帶火星樣品返回地球

天問三號任務計劃于2031年前后攜帶火星樣品返回地球

界面新聞
2026-04-24 09:46:31
貝恩82場全勤無愧聯(lián)盟第一鐵人,魔術戰(zhàn)績拉胯和他有關系嗎?

貝恩82場全勤無愧聯(lián)盟第一鐵人,魔術戰(zhàn)績拉胯和他有關系嗎?

我們的美學
2026-04-24 09:35:43
都在問,海軍宣傳片里的“新兵何劍”,暗示中國第四艘航母嗎?

都在問,海軍宣傳片里的“新兵何劍”,暗示中國第四艘航母嗎?

樞密院十號
2026-04-23 18:31:15
繼人民日報發(fā)聲后,官媒再次三問董宇輝,言辭犀利,字字揭他老底

繼人民日報發(fā)聲后,官媒再次三問董宇輝,言辭犀利,字字揭他老底

離離言幾許
2026-04-23 20:04:00
重磅!美國宣布重拳打擊緬甸電詐園區(qū),通緝?nèi)袊耍瑑鼋Y超7億美元

重磅!美國宣布重拳打擊緬甸電詐園區(qū),通緝?nèi)袊,凍結超7億美元

大洛杉磯LA
2026-04-24 06:34:39
蛇吞象?生產(chǎn)殲-20的中國軍工巨頭174億就被收購了,用意耐人尋味

蛇吞象?生產(chǎn)殲-20的中國軍工巨頭174億就被收購了,用意耐人尋味

趣文說娛
2026-04-23 19:52:36
巴薩官方:亞馬爾左腿股二頭肌受傷賽季報銷,預計能參加世界杯

巴薩官方:亞馬爾左腿股二頭肌受傷賽季報銷,預計能參加世界杯

懂球帝
2026-04-23 20:11:39
大理民宿市場涼透了!7000家民宿廝殺,有人虧百萬仍沒賣出去…

大理民宿市場涼透了!7000家民宿廝殺,有人虧百萬仍沒賣出去…

火山詩話
2026-04-23 09:14:07
大反撲!騎士落后10分強勢追平:奇兵單節(jié)轟12分,哈登6中1低迷

大反撲!騎士落后10分強勢追平:奇兵單節(jié)轟12分,哈登6中1低迷

體壇小李
2026-04-24 09:26:39
前廚師:C羅的飲食很均衡且不喝牛奶,因為這違背自然規(guī)律

前廚師:C羅的飲食很均衡且不喝牛奶,因為這違背自然規(guī)律

懂球帝
2026-04-23 23:43:03
斯諾克世錦賽太殘酷了:隨著龐俊旭6-10,11名中國選手7人止步32強

斯諾克世錦賽太殘酷了:隨著龐俊旭6-10,11名中國選手7人止步32強

側身凌空斬
2026-04-24 05:00:50
眼紅。哪晷20萬到125萬,一上海交大碩士特斯拉6年收入345萬

眼紅。哪晷20萬到125萬,一上海交大碩士特斯拉6年收入345萬

火山詩話
2026-04-23 07:11:53
張敬軒被抵制原因被扒!“反骨”言論僅冰山一角,謝霆鋒也被牽連

張敬軒被抵制原因被扒!“反骨”言論僅冰山一角,謝霆鋒也被牽連

以茶帶書
2026-04-23 14:11:56
外資暴跌96%,最高法連夜改規(guī)矩,莫迪狂砍蘋果380億,中企敲警鐘

外資暴跌96%,最高法連夜改規(guī)矩,莫迪狂砍蘋果380億,中企敲警鐘

丁丁鯉史紀
2026-04-23 13:56:03
2026-04-24 09:56:49
雷科技 incentive-icons
雷科技
專注AI硬科技
36918文章數(shù) 812047關注度
往期回顧 全部

科技要聞

凌晨突發(fā)!GPT-5.5正式上線:跑分更猛

頭條要聞

用了16年的學位證"失效"男子舉報自己 高校最新通報

頭條要聞

用了16年的學位證"失效"男子舉報自己 高校最新通報

體育要聞

給文班剃頭的馬刺DJ,成為NBA最佳第六人

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財經(jīng)要聞

19家企業(yè)要"鋁代銅",格力偏不

汽車要聞

預售30.29萬起 嵐圖泰山X8配896線激光雷達

態(tài)度原創(chuàng)

房產(chǎn)
藝術
親子
教育
家居

房產(chǎn)要聞

三亞安居房,突然官宣!

藝術要聞

江青對聯(lián)驚艷眾人,書法與寫字的界限究竟在哪?

親子要聞

語出驚人的萌娃

教育要聞

相似無刻度直尺作圖,一個視頻學會!

家居要聞

浪漫協(xié)奏 法式風格

無障礙瀏覽 進入關懷版