国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

剛剛,GPT-5.5發(fā)布,顛覆勞動(dòng)理論

0
分享至



機(jī)器之心編輯部

真的來(lái)了,這才是 OpenAI 的大招。



周五凌晨,OpenAI 正式發(fā)布了最新一代大模型 GPT-5.5。

作為 GPT 系列的重要版本更新,這次升級(jí)不止是大模型「聰明一點(diǎn)」,更像是讓人首次體驗(yàn)到了 AGI。新模型帶來(lái)了更強(qiáng)的推理能力(回答聰明的同時(shí)更簡(jiǎn)潔),更強(qiáng)大、穩(wěn)定的代碼能力,強(qiáng)大的知識(shí)整合能力,更強(qiáng)的工具調(diào)用能力,以及更好的長(zhǎng)任務(wù)能力。

GPT-5.5 在大部分評(píng)測(cè)基準(zhǔn)成績(jī)上領(lǐng)先 Claude Opus 4.7 一個(gè)身位,在相同智力水平下 token 消耗是競(jìng)品的約一半。

聽(tīng)起來(lái)不夠?qū)嶋H?目前在 OpenAI 擔(dān)任研究員的全球頂尖 AI 學(xué)者、AI 德?lián)渥髡?Noam Brown 說(shuō)了,現(xiàn)在,人們可以利用 GPT-5.5 來(lái)做很多以前難以想象的任務(wù),包括寫(xiě) CUDA 內(nèi)核。



有提前使用該模型的英偉達(dá)工程師甚至表示:「失去對(duì) GPT-5.5 的訪問(wèn)權(quán)限,感覺(jué)就像我的肢體被截肢了一樣!

在社交網(wǎng)絡(luò)上也有人已經(jīng)表示,與 Codex 中的 GPT-5.5 合作非常有樂(lè)趣,它的回答犀利,比任何模型都能更好理解意圖,能不停頓地完成大量工作?偟脕(lái)說(shuō),它能讓 Codex 從代碼工具升級(jí)成幫你干活的智能體。



HackerNews 上的老哥則說(shuō)得更直接:AI 說(shuō)不定要顛覆幾個(gè)世紀(jì)以來(lái)的勞動(dòng)理論了。



GPT-5.5 目前已在 ChatGPT(Plus、Pro、Business 和 Enterprise 用戶)和 Codex 上逐步上線,并開(kāi)通了 API 調(diào)用。標(biāo)準(zhǔn)版價(jià)格是輸入

在這個(gè)階段還敢逆勢(shì)漲價(jià),看來(lái) OpenAI 對(duì)自己的新模型很有底氣。

當(dāng)然,官方也特別提到,新模型更加聰明,在完成相同的 Codex 任務(wù)時(shí)所需的 Token 數(shù)量顯著減少,這會(huì)在實(shí)際使用中抵消掉一部分單價(jià)上漲帶來(lái)的成本壓力。

API 端支持高達(dá) 1M(一百萬(wàn))Tokens 的極寬上下文窗口,而在 Codex 訂閱計(jì)劃中則開(kāi)放了 400K 的窗口;針對(duì)追求極致效率的開(kāi)發(fā)者,Codex 專門(mén)推出了 Fast mode(競(jìng)速模式),允許用戶以 2.5 倍的成本,換取 1.5 倍的 Token 生成速度。

從基準(zhǔn)測(cè)試數(shù)據(jù)來(lái)看,GPT-5.5 在幾乎所有核心指標(biāo)上都超越了前代 GPT-5.4,幅度從略微領(lǐng)先到大幅躍升不等。



編程任務(wù):Codex 變成了真正的「工程搭檔」

Codex 是這次發(fā)布中著墨最多的產(chǎn)品。在 OpenAI 的定位里,它不是寫(xiě)代碼的補(bǔ)全工具,而是能接手完整工程任務(wù)鏈的自主工作臺(tái):實(shí)現(xiàn)功能、重構(gòu)、調(diào)試、測(cè)試、寫(xiě)文檔、跑數(shù)據(jù)分析,全部在列。

在代碼能力方面,Terminal-Bench 2.0 得分 82.7%,比 GPT-5.4 的 75.1% 有明顯提升;衡量長(zhǎng)周期真實(shí)工程任務(wù)的內(nèi)部評(píng)測(cè) Expert-SWE 從 68.5% 升至 73.1%;評(píng)估真實(shí) GitHub 問(wèn)題解決能力的 SWE-Bench Pro 達(dá)到 58.6%。



值得注意的是,上述三項(xiàng)測(cè)試中,GPT-5.5 在得分提升的同時(shí),消耗的 token 數(shù)量均低于 GPT-5.4。



測(cè)試者的反饋大多指向同一件事:模型更清楚自己在干什么了。 它能判斷某個(gè)問(wèn)題為何出現(xiàn)、修復(fù)應(yīng)該落在哪里、改動(dòng)會(huì)牽連哪些其他部分;遇到障礙也不會(huì)卡住等人,而是繼續(xù)往前推。

AI 寫(xiě)作平臺(tái) Every 創(chuàng)始人 Dan Shipper 提供了一個(gè)具體驗(yàn)證案例:他在產(chǎn)品上線后調(diào)試了數(shù)天的頑固 bug,最終靠工程師重構(gòu)解決。他用 GPT-5.5 重新面對(duì)這個(gè)問(wèn)題,模型給出了與工程師方案高度一致的重構(gòu)建議;而 GPT-5.4 沒(méi)能做到。他將 GPT-5.5 描述為「第一個(gè)真正具備概念清晰度的編程模型」。

MagicPath CEO Pietro Schirano 則描述了另一個(gè)場(chǎng)景:GPT-5.5 在約 20 分鐘內(nèi),將一個(gè)包含數(shù)百個(gè)前端改動(dòng)和重構(gòu)變更的分支與主分支完成合并,一次性解決,幾乎沒(méi)有返工。

OpenAI 披露,目前超過(guò) 85% 的 OpenAI 員工每周使用 Codex,覆蓋軟件工程、財(cái)務(wù)、市場(chǎng)、傳播、數(shù)據(jù)科學(xué)等部門(mén),大幅縮短了數(shù)據(jù)分析和周報(bào)生成的時(shí)間。



提示詞:[attached image] Implement this as a new app using webgl and vite using real data from the artemis II mission. Make sure to test the app thoroughly until it is fully functional and looks like the app in the picture. Pay close attention to the rendering of the planets and fly paths. I want to be able to interact with the 3D rendering. Ensure it has realistic orbital mechanics.



GPT-5.5 生成的地震追蹤網(wǎng)頁(yè)。



這是一個(gè)使用 Codex 和 GPT 模型構(gòu)建的可玩 3D 地下城競(jìng)技場(chǎng)原型。Codex 負(fù)責(zé)游戲架構(gòu)、TypeScript/Three.js 實(shí)現(xiàn)、戰(zhàn)斗系統(tǒng)、敵人遭遇、HUD 反饋以及 GPT 生成的環(huán)境紋理。角色模型、角色紋理和動(dòng)畫(huà)使用第三方資源生成工具創(chuàng)建,角色對(duì)話則使用 OpenAI API 生成。

知識(shí)工作與多模態(tài)接管

開(kāi)始真正「用」電腦了

在非編程的知識(shí)工作場(chǎng)景中,GPT-5.5 的提升邏輯與編程類似:更準(zhǔn)確地理解用戶的實(shí)際意圖,從而減少來(lái)回確認(rèn)、直接推進(jìn)到有用的輸出。

不僅限于文本,當(dāng)模型與 Codex 的計(jì)算機(jī)使用技能結(jié)合時(shí),GPT-5.5 展現(xiàn)出了極強(qiáng)的 GUI(圖形用戶界面)接管能力。它能像人類一樣「看」屏幕、點(diǎn)擊、打字并在不同軟件間穿梭:

在 GDPval(涵蓋 44 種職業(yè)的專業(yè)知識(shí)工作測(cè)試)中拿到 84.9%;復(fù)雜客服流程測(cè)試 Tau2-bench Telecom 在無(wú)提示詞調(diào)優(yōu)的情況下達(dá)到 98.0%。在評(píng)估模型獨(dú)立操作真實(shí)計(jì)算機(jī)環(huán)境的 OSWorld-Verified 測(cè)試中達(dá) 78.7%。同時(shí),帶工具調(diào)用的多模態(tài)視覺(jué)理解(MMMU Pro)達(dá) 83.2%,工具調(diào)用能力(MCP Atlas)達(dá) 75.3%。這標(biāo)志著模型正在補(bǔ)齊視覺(jué) - 語(yǔ)言 - 動(dòng)作交互的底層邏輯。





ChatGPT 中的 GPT-5.5 Thinking 版本主打在復(fù)雜問(wèn)題上給出更快、更簡(jiǎn)潔的回答;GPT-5.5 Pro 則面向更高難度、更高精度的工作場(chǎng)景,早期測(cè)試者反映在商業(yè)、法律、教育和數(shù)據(jù)科學(xué)領(lǐng)域表現(xiàn)尤為突出。

科研場(chǎng)景

開(kāi)始像個(gè)真正的研究員了

科研場(chǎng)景是這次發(fā)布中相對(duì)新穎的方向。OpenAI 將 GPT-5.5 定位為能夠參與研究全流程的「協(xié)作者」,而非僅僅提供信息檢索。

基準(zhǔn)測(cè)試中,F(xiàn)rontierMath Tier 4(最難難度數(shù)學(xué)題)從 27.1% 跳升至 35.4%,ARC-AGI-2 從 73.3% 升至 85.0%,BixBench(生物信息學(xué)數(shù)據(jù)分析)從 74.0% 升至 80.5%。



此外,OpenAI 報(bào)告稱,一個(gè)搭配定制工具的 GPT-5.5 內(nèi)部版本協(xié)助發(fā)現(xiàn)了一個(gè)關(guān)于拉姆齊數(shù)的新數(shù)學(xué)證明,并已在形式化證明工具 Lean 中得到驗(yàn)證。拉姆齊數(shù)是組合數(shù)學(xué)的核心研究對(duì)象,此類結(jié)果在該領(lǐng)域并不多見(jiàn)。

杰克遜基因組醫(yī)學(xué)實(shí)驗(yàn)室免疫學(xué)教授 Derya Unutmaz 使用 GPT-5.5 Pro 分析了 62 個(gè)樣本、近 28,000 個(gè)基因的表達(dá)數(shù)據(jù)集,并生成了包含關(guān)鍵問(wèn)題和洞見(jiàn)的研究報(bào)告。他表示,同樣的工作由其團(tuán)隊(duì)完成需要數(shù)月。

波蘭亞當(dāng)?密茨凱維奇大學(xué)數(shù)學(xué)助理教授 Bartosz Naskr?cki 通過(guò) Codex,僅用一條提示詞、11 分鐘,構(gòu)建了一個(gè)代數(shù)幾何應(yīng)用程序,實(shí)現(xiàn)了二次曲面交線的可視化并將其轉(zhuǎn)換為 Weierstrass 模型。他表示,Codex 現(xiàn)在能夠幫助實(shí)現(xiàn)過(guò)去需要專用工具才能完成的數(shù)學(xué)可視化工作流。



百萬(wàn)上下文窗口

實(shí)際用起來(lái)是什么水平

官方標(biāo)注的 100 萬(wàn) token 上下文聽(tīng)起來(lái)很大,但對(duì)于真正要處理超大型代碼庫(kù)或幾十萬(wàn)字文檔的開(kāi)發(fā)者來(lái)說(shuō),更關(guān)鍵的問(wèn)題是:精度會(huì)隨長(zhǎng)度衰減多少?

根據(jù) OpenAI 公布的 MRCR v2 8-needle 測(cè)試數(shù)據(jù),GPT-5.5 在 4K-8K 區(qū)間準(zhǔn)確率為 98.1%,128K-256K 區(qū)間仍維持在 87.5%—— 同區(qū)間的 Claude Opus 4.7 為 59.2%。當(dāng)上下文拉到 512K-1M 時(shí),GPT-5.5 降至 74.0%,而 GPT-5.4 在該區(qū)間僅為 36.6%。

超長(zhǎng)文本下的精度衰減目前在所有模型中都存在,但 GPT-5.5 與上代之間將近 40 個(gè)百分點(diǎn)的差距,說(shuō)明這一塊確實(shí)有了實(shí)質(zhì)性改進(jìn)。

基礎(chǔ)設(shè)施優(yōu)化與安全管控機(jī)制

這次發(fā)布有一個(gè)在技術(shù)層面值得關(guān)注的細(xì)節(jié)。

GPT-5.5 被部署在英偉達(dá) GB200 和 GB300 NVL72 服務(wù)器上,并與這套硬件進(jìn)行了協(xié)同設(shè)計(jì)和訓(xùn)練。為了在更高能力水平上維持與 GPT-5.4 相當(dāng)?shù)捻憫?yīng)速度,OpenAI 表示對(duì)整個(gè)推理系統(tǒng)進(jìn)行了重新設(shè)計(jì)。

在這個(gè)過(guò)程中,Codex 被用于分析數(shù)周的生產(chǎn)流量數(shù)據(jù),并編寫(xiě)了自定義的負(fù)載均衡啟發(fā)式算法,優(yōu)化了 GPU 的請(qǐng)求分區(qū)和工作分配。OpenAI 稱這項(xiàng)工作將 token 生成速度提升了 20% 以上。與此同時(shí),GPT-5.5 本身也參與了推理?xiàng)jP(guān)鍵改進(jìn)的發(fā)現(xiàn)和實(shí)現(xiàn)。

用 OpenAI 自己的表述:這個(gè)模型幫助改進(jìn)了運(yùn)行它的基礎(chǔ)設(shè)施。

安全方面,OpenAI 將 GPT-5.5 的生物 / 化學(xué)和網(wǎng)絡(luò)安全能力均評(píng)定為其「準(zhǔn)備框架」中的「高」級(jí)(低于「關(guān)鍵」的第二高風(fēng)險(xiǎn)等級(jí)),意味著該模型在這兩個(gè)方向的能力已需要專項(xiàng)管控。

GPT-5.5 在內(nèi)部 CTF(奪旗賽)測(cè)試中得分 88.1%(GPT-5.4 為 83.7%),CyberGym 基準(zhǔn)達(dá) 81.8%(Claude Opus 4.7 為 73.1%)。



為此,OpenAI 部署了更嚴(yán)格的安全分類器,并坦承「部分用戶初期可能會(huì)覺(jué)得這些限制有些煩」。

與此同時(shí),OpenAI 推出「Trusted Access for Cyber」機(jī)制:經(jīng)過(guò)身份驗(yàn)證、符合特定信任條件的安全研究人員可以申請(qǐng)更寬松的訪問(wèn)權(quán)限,用于合法的防御性工作,負(fù)責(zé)關(guān)鍵基礎(chǔ)設(shè)施防護(hù)的組織可單獨(dú)申請(qǐng)?jiān)L問(wèn) GPT-5.4-Cyber 等網(wǎng)絡(luò)安全強(qiáng)化版本。OpenAI 還表示正與政府合作伙伴探索將該技術(shù)用于保護(hù)公共基礎(chǔ)設(shè)施,涉及納稅人數(shù)據(jù)系統(tǒng)、電網(wǎng)和供水系統(tǒng)等。



最后,人們關(guān)心的是 GPT-5.5 和 Opus 4.7 究竟誰(shuí)厲害。在用于評(píng)估大語(yǔ)言模型在復(fù)雜、競(jìng)爭(zhēng)性商業(yè)環(huán)境中能力的多智能體模擬評(píng)估平臺(tái) Vending-Bench Arena 上,GPT 已經(jīng)超過(guò)了 Claude:



此圖奧特曼看到了馬上轉(zhuǎn)發(fā)。

實(shí)際用起來(lái)如何,那就得看大家的反饋了。

參考內(nèi)容:

https://openai.com/index/introducing-gpt-5-5/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
雷霆三少誰(shuí)賺得最多?哈登4.2億,杜蘭特5.9億,看到威少我服了

雷霆三少誰(shuí)賺得最多?哈登4.2億,杜蘭特5.9億,看到威少我服了

林子說(shuō)事
2026-04-23 12:07:00
廣東女大學(xué)生被轉(zhuǎn)賣(mài)到緬甸后續(xù),父母已付20萬(wàn)計(jì)劃今日接人

廣東女大學(xué)生被轉(zhuǎn)賣(mài)到緬甸后續(xù),父母已付20萬(wàn)計(jì)劃今日接人

九方魚(yú)論
2026-04-23 23:14:34
當(dāng)政治披上信仰外衣:誰(shuí)在定義"正確"?

當(dāng)政治披上信仰外衣:誰(shuí)在定義"正確"?

摸魚(yú)算法
2026-04-23 09:39:17
繼德國(guó)之后,英國(guó)也開(kāi)始貼出“中文標(biāo)語(yǔ)”?中國(guó)游客:不能夠接受

繼德國(guó)之后,英國(guó)也開(kāi)始貼出“中文標(biāo)語(yǔ)”?中國(guó)游客:不能夠接受

潮鹿逐夢(mèng)
2026-04-02 12:31:48
貴州省政協(xié)原副秘書(shū)長(zhǎng)、辦公廳副主任王明亮接受監(jiān)察調(diào)查

貴州省政協(xié)原副秘書(shū)長(zhǎng)、辦公廳副主任王明亮接受監(jiān)察調(diào)查

貴陽(yáng)網(wǎng)
2026-04-24 09:41:16
中莫聲明落地,莫桑比克全方位鼎力挺華,破格拿下中方獨(dú)一份優(yōu)待

中莫聲明落地,莫桑比克全方位鼎力挺華,破格拿下中方獨(dú)一份優(yōu)待

書(shū)紀(jì)文譚
2026-04-23 23:09:11
哪種運(yùn)動(dòng)性價(jià)比最高,柳葉刀給出答案了

哪種運(yùn)動(dòng)性價(jià)比最高,柳葉刀給出答案了

新浪財(cái)經(jīng)
2026-04-15 05:09:31
收著中國(guó)的稀土,卻往死里卡中國(guó)的脖子!對(duì)臺(tái)積電,該下狠手了

收著中國(guó)的稀土,卻往死里卡中國(guó)的脖子!對(duì)臺(tái)積電,該下狠手了

紀(jì)中百大事
2026-04-24 10:03:02
4月22日俄烏最新:中將親自帶隊(duì)沖鋒

4月22日俄烏最新:中將親自帶隊(duì)沖鋒

西樓飲月
2026-04-22 18:37:19
“放到發(fā)霉也舍不得給女兒吃”,一份過(guò)期11天的蛋撻,讓家長(zhǎng)被嘲

“放到發(fā)霉也舍不得給女兒吃”,一份過(guò)期11天的蛋撻,讓家長(zhǎng)被嘲

妍妍教育日記
2026-04-24 10:10:09
又一催收巨頭被查,警方出動(dòng)兩輛大巴連鍋端

又一催收巨頭被查,警方出動(dòng)兩輛大巴連鍋端

鷂石周說(shuō)
2026-04-23 20:26:06
87年幫村長(zhǎng)家曬糧睡偏房,夜里我竟摸到條粗黑辮子,一道女聲響起

87年幫村長(zhǎng)家曬糧睡偏房,夜里我竟摸到條粗黑辮子,一道女聲響起

卡西莫多的故事
2026-04-20 14:44:05
143億美元!日本拿下戰(zhàn)后最大武器出口訂單,中國(guó)周邊將迎劇變

143億美元!日本拿下戰(zhàn)后最大武器出口訂單,中國(guó)周邊將迎劇變

趣文說(shuō)娛
2026-04-22 20:05:31
德天空:熱刺不愿花2500萬(wàn)歐買(mǎi)斷帕利尼亞,想和拜仁重新談判

德天空:熱刺不愿花2500萬(wàn)歐買(mǎi)斷帕利尼亞,想和拜仁重新談判

懂球帝
2026-04-24 01:06:11
大S最后那幾天,小S一直沒(méi)對(duì)外說(shuō)的一件事,這次終于講出來(lái)了

大S最后那幾天,小S一直沒(méi)對(duì)外說(shuō)的一件事,這次終于講出來(lái)了

娛樂(lè)圈十三太保
2026-04-22 17:40:42
黃一鳴回應(yīng):沒(méi)結(jié)婚一天找8個(gè)男的也沒(méi)關(guān)系,承認(rèn)和40歲大叔交往過(guò)

黃一鳴回應(yīng):沒(méi)結(jié)婚一天找8個(gè)男的也沒(méi)關(guān)系,承認(rèn)和40歲大叔交往過(guò)

橙星文娛
2026-04-24 11:20:44
數(shù)學(xué)的本質(zhì)到底是什么?看完這篇文章你會(huì)愛(ài)上數(shù)學(xué)

數(shù)學(xué)的本質(zhì)到底是什么?看完這篇文章你會(huì)愛(ài)上數(shù)學(xué)

真相Truth
2026-04-06 06:30:12
“都絕戶了,還拼命掙錢(qián)干嘛?”看見(jiàn)父親50歲就躺平,我崩潰了

“都絕戶了,還拼命掙錢(qián)干嘛?”看見(jiàn)父親50歲就躺平,我崩潰了

素十三兒
2026-04-13 07:12:36
一夜連傷3人!阿杜又傷了!里夫斯提前復(fù)出!喊出來(lái)吧,湖人總冠軍!

一夜連傷3人!阿杜又傷了!里夫斯提前復(fù)出!喊出來(lái)吧,湖人總冠軍!

貴圈真亂
2026-04-24 10:51:27
15歲上個(gè)中專衛(wèi)校,居然能一路混成主任技師?

15歲上個(gè)中專衛(wèi)校,居然能一路混成主任技師?

歲月有情1314
2026-04-24 07:44:06
2026-04-24 12:04:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12844文章數(shù) 142635關(guān)注度
往期回顧 全部

科技要聞

剛剛,DeepSeek-V4 預(yù)覽版發(fā)布 百萬(wàn)上下文

頭條要聞

美特種兵下重注賭"馬杜羅將下臺(tái)" 狂賺40萬(wàn)美元后被捕

頭條要聞

美特種兵下重注賭"馬杜羅將下臺(tái)" 狂賺40萬(wàn)美元后被捕

體育要聞

里程碑之戰(zhàn)拖后腿,哈登18分8失誤

娛樂(lè)要聞

王思聰被綠!戀愛(ài)期間女友被金主包養(yǎng)

財(cái)經(jīng)要聞

19家企業(yè)要"鋁代銅",格力偏不

汽車(chē)要聞

全景iDrive 續(xù)航近800km 新款寶馬7系/i7亮相

態(tài)度原創(chuàng)

時(shí)尚
游戲
手機(jī)
親子
軍事航空

今年最好看的3個(gè)顏色,太適合夏天了!

專屬?gòu)?qiáng)化!刺客信條:黑旗RE PS5 Pro規(guī)格官宣

手機(jī)要聞

國(guó)產(chǎn)上一代Ultra銷(xiāo)量比比看,華為還是最強(qiáng),小米第二

親子要聞

書(shū)林一小丨培養(yǎng)孩子讀書(shū)興趣 文化自信扎根心中

軍事要聞

美伊陷入互相封鎖僵局

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版