国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

GPT-5.2考贏人類(lèi)!OpenAI警告:大模型能力已過(guò)剩,AGI天花板不是AI

0
分享至


新智元報(bào)道

編輯:元宇

【新智元導(dǎo)讀】如同智能手機(jī)一樣,大模型也進(jìn)入了一個(gè)「能力過(guò)剩」時(shí)代,即大模型本身的能力與人類(lèi)使用方式之間存在著巨大斷層。

剛剛,GPT-5.2刷新了一項(xiàng)新紀(jì)錄!


OpenAI聯(lián)合創(chuàng)始人Greg Brockman發(fā)帖稱(chēng)使用GPT-5.2在ARC-AGI-2基準(zhǔn)測(cè)試上,表現(xiàn)超過(guò)了人類(lèi)基線水平。

在基準(zhǔn)測(cè)試時(shí)技能爆表,但一到實(shí)際應(yīng)用就「掉鏈子」,OpenAI前首席科學(xué)家Ilya Sutskever提到的這種大模型「性能悖論」我們并不陌生。

這也是AGI評(píng)估領(lǐng)域一個(gè)長(zhǎng)期存在的難題——如何區(qū)分大模型「真正的推理能力」與「刷題型能力」。

而ARC-AGI-2的出現(xiàn)正好打破了這一難題。

ARC-AGI-2的全稱(chēng)為「Abstraction and Reasoning Corpus for Artificial General Intelligence-Version 2」,是ARC系列基準(zhǔn)的最新升級(jí)版本。

該基準(zhǔn)由Fran?ois Chollet(Keras之父、前Google Brain研究員)及其團(tuán)隊(duì)在2025年推出,其設(shè)計(jì)初衷十分明確:

測(cè)試AI是否具備AGI所必需的抽象、歸納與遷移推理能力,而非記憶或統(tǒng)計(jì)模式匹配。

ARC系列與傳統(tǒng)NLP或多模態(tài)benchmark最大的不同在于:它沒(méi)有大規(guī)模訓(xùn)練集,每道題目都是從未見(jiàn)過(guò)的新任務(wù),因此不存在通過(guò)「刷數(shù)據(jù)」獲得高分的可能。

它要求AI像人類(lèi)一樣具備真正的推理和舉一反三的能力。

Chollet曾多次公開(kāi)表示,如果一個(gè)系統(tǒng)只能在見(jiàn)過(guò)的數(shù)據(jù)分布上表現(xiàn)良好,那它并不具備AGI所需的能力。

因此,ARC基準(zhǔn)測(cè)試剛好直擊大模型的「軟肋」。

從「及格」到「優(yōu)等生」

一次關(guān)鍵跨越


新紀(jì)錄的刷新者,并非單一模型,而是一個(gè)名為Poetiq(GPT-5.2X-High)的系統(tǒng)。

Poetiq是一家專(zhuān)注于元系統(tǒng)(Meta-System)架構(gòu)的AI公司。

其核心理念并不是訓(xùn)練一個(gè)更大的模型,而是通過(guò)軟件層面的系統(tǒng)設(shè)計(jì),自動(dòng)構(gòu)建「會(huì)調(diào)用模型的系統(tǒng)」。

Poetiq(GPT-5.2X-High)在ARC-AGI-2數(shù)據(jù)集上實(shí)現(xiàn)了75%準(zhǔn)確率,每問(wèn)題成本不到8美元,超越前SOTA 15個(gè)百分點(diǎn)。

在Poetiq(GPT-5.2X-High)系統(tǒng)出現(xiàn)之前,GPT-5.2(X-High)已經(jīng)非常接近人類(lèi)平均水平。

ARC-AGI-2榜單中,人類(lèi)平均準(zhǔn)確率約為60%,GPT-5.2X-High的成績(jī)與之幾乎持平,代表了當(dāng)時(shí)AI在該基準(zhǔn)上的最強(qiáng)推理能力。

但Poetiq的加入,使GPT-5.2(X-High)的得分從60%直接拉升到了75%,從勉強(qiáng)及格(人類(lèi)平均水平)邁入了優(yōu)等生的行列(顯著超越人類(lèi)平均水平)。

在同一榜單上,還能看到Gemini 3 Deep Think(Preview)的身影。

該模型主打「深度思考(Deep Think)」技術(shù),在ARC-AGI-2上的成績(jī)約為46%,明顯落后于GPT-5.2系列,并且成本相對(duì)后者也略高。


Poetiq表示,整個(gè)過(guò)程沒(méi)有對(duì)GPT-5.2進(jìn)行任何訓(xùn)練或者特定優(yōu)化。

這正是Poetiq元系統(tǒng)的初衷,旨在自動(dòng)構(gòu)建完整的系統(tǒng),通過(guò)調(diào)用任何現(xiàn)有的前沿模型來(lái)解決特定任務(wù)。


從15%的提升數(shù)據(jù)來(lái)看,Poetiq對(duì)于基礎(chǔ)模型性能的提升幅度還是非常明顯的。

它的存在證明了不需要堆算力,通過(guò)優(yōu)秀的軟件架構(gòu)也能大幅提升AI性能。

從這個(gè)角度上,它也驗(yàn)證了接下來(lái)OpenAI的一個(gè)判斷——

當(dāng)前大模型,正逐漸進(jìn)入「能力過(guò)剩」階段。

大模型「能力過(guò)剩」時(shí)代


就在同一天,OpenAI官方也在X平臺(tái)發(fā)布了一項(xiàng)關(guān)于2026年的預(yù)測(cè)。

在這條推文中,OpenAI明確提到一個(gè)關(guān)鍵詞:Capability Overhang(能力過(guò)剩)。

核心意思是:

當(dāng)前模型「能夠做到的事情」,與人們「實(shí)際使用AI的方式」(產(chǎn)生效果)之間,存在巨大的斷層。

OpenAI認(rèn)為,未來(lái)AGI的進(jìn)展將不再僅取決于模型本身的突破,還將取決于:

  • 人們是否知道如何有效使用AI

  • AI是否真正融入現(xiàn)實(shí)工作與生活

  • 系統(tǒng)是否能將模型能力轉(zhuǎn)化為實(shí)際價(jià)值

因此,在2026年,OpenAI將繼續(xù)前沿研究,同時(shí)重點(diǎn)投入于應(yīng)用層、系統(tǒng)層、人機(jī)協(xié)同,尤其強(qiáng)調(diào)醫(yī)療、商業(yè)和日常生活場(chǎng)景。

人機(jī)協(xié)同

AGI的另一半拼圖

OpenAI這篇官方推文涉及一個(gè)人機(jī)協(xié)同的問(wèn)題。

實(shí)現(xiàn)AGI,是需要模型和人協(xié)同發(fā)揮作用:AGI不只靠模型升級(jí),更要「教人用AI」。

通過(guò)正確的使用AI,充分發(fā)揮出AI的潛能,這樣才能讓AI開(kāi)始從「炫技」轉(zhuǎn)向「普惠」,真正影響億萬(wàn)人生活。

這一觀點(diǎn)也得到了社區(qū)的強(qiáng)烈回應(yīng)。

于是,樂(lè)觀的網(wǎng)友稱(chēng)「直接把我整個(gè)人自動(dòng)化吧」!


也有網(wǎng)友提到,真正的挑戰(zhàn)在于如何將AI融入工作流程中:見(jiàn)過(guò)太多組織買(mǎi)了「AI」,卻從未改變?nèi)魏我粋€(gè)流程。


大模型真的「能力過(guò)?!沽藛??

那么,是不是真如OpenAI所說(shuō)的,大模型的能力已經(jīng)過(guò)剩了呢?

通過(guò)上面Poetiq所公布的Poetiq(GPT-5.2X-High)在ARC-AGI-2上的表現(xiàn),75%的得分超過(guò)了人類(lèi)平均水平(60%)15個(gè)百分點(diǎn)。

此前OpenAI官方在介紹GPT-5時(shí)強(qiáng)調(diào)其在解決復(fù)雜跨學(xué)科問(wèn)題上達(dá)到了專(zhuān)家級(jí)基準(zhǔn),后被外界引申為「博士級(jí)智能」。

這說(shuō)明GPT-5等大模型在某些專(zhuān)業(yè)任務(wù)中表現(xiàn)類(lèi)似于人類(lèi)博士的專(zhuān)業(yè)水平。

從模型本身來(lái)說(shuō),也許并未完全過(guò)剩,但從「未被充分釋放的能力」角度來(lái)看,已經(jīng)嚴(yán)重過(guò)剩。

其中,有模型設(shè)計(jì)者方的原因,比如他們沒(méi)有緊跟用戶的使用場(chǎng)景,「不再與用戶并肩同行了」。


也可能由于前沿模型在推理和創(chuàng)新上缺乏根本性的突破。


還有模型本身迭代得太快,用戶不得不在日常生活中不斷棄用已經(jīng)「成功上手」的模型。


Poetiq 的出現(xiàn),以及OpenAI對(duì)「能力過(guò)剩」的判斷,共同指向了未來(lái)AI領(lǐng)域的一個(gè)新方向:

下一階段的AI競(jìng)爭(zhēng),不再只是模型參數(shù)之爭(zhēng),而是系統(tǒng)、流程與人機(jī)協(xié)同的競(jìng)爭(zhēng)。

參考資料:

https://x.com/poetiq_ai/status/2003546910427361402

https://x.com/OpenAI/status/2003594025098785145

秒追ASI

?點(diǎn)贊、轉(zhuǎn)發(fā)、在看一鍵三連?

點(diǎn)亮星標(biāo),鎖定新智元極速推送!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
忍無(wú)可忍!許利民怒斥:吊兒郎當(dāng)耍大牌,球迷:疑似指國(guó)內(nèi)這2人

忍無(wú)可忍!許利民怒斥:吊兒郎當(dāng)耍大牌,球迷:疑似指國(guó)內(nèi)這2人

寒士之言本尊
2026-01-12 12:48:41
2連勝?gòu)V東傳來(lái)5好消息!王洪澤打破心魔,還有一件事更讓粵迷開(kāi)心

2連勝?gòu)V東傳來(lái)5好消息!王洪澤打破心魔,還有一件事更讓粵迷開(kāi)心

后仰大風(fēng)車(chē)
2026-01-12 08:10:14
人民幣現(xiàn)金收付新規(guī)!2月起實(shí)施!

人民幣現(xiàn)金收付新規(guī)!2月起實(shí)施!

我愛(ài)大招遠(yuǎn)
2026-01-12 17:50:26
霍啟剛公布個(gè)人名下財(cái)產(chǎn)!全球共有35個(gè)物業(yè),收租頗豐生活卻節(jié)儉

霍啟剛公布個(gè)人名下財(cái)產(chǎn)!全球共有35個(gè)物業(yè),收租頗豐生活卻節(jié)儉

阿纂看事
2026-01-10 22:39:19
男孩打開(kāi)冰箱,發(fā)生爆炸臉上縫了38針!這幾樣?xùn)|西放冰箱要小心

男孩打開(kāi)冰箱,發(fā)生爆炸臉上縫了38針!這幾樣?xùn)|西放冰箱要小心

大果小果媽媽
2026-01-10 21:57:26
成本驟降90%!商業(yè)航天電磁發(fā)射重大突破  10家隱形冠軍深度卡位

成本驟降90%!商業(yè)航天電磁發(fā)射重大突破 10家隱形冠軍深度卡位

元芳說(shuō)投資
2026-01-11 06:00:11
A股:2.5億股民做好上車(chē)準(zhǔn)備,不出意外的話,全面牛市已經(jīng)重啟!

A股:2.5億股民做好上車(chē)準(zhǔn)備,不出意外的話,全面牛市已經(jīng)重啟!

股市皆大事
2026-01-12 16:20:40
北京未來(lái)五年要搞大事!住這些區(qū)域的人有福了,看看有你家嗎?

北京未來(lái)五年要搞大事!住這些區(qū)域的人有福了,看看有你家嗎?

吃貨的分享
2026-01-12 15:14:58
小國(guó)占據(jù)大島的無(wú)奈:格陵蘭島被發(fā)現(xiàn)上千年,丹麥從未完全控制?

小國(guó)占據(jù)大島的無(wú)奈:格陵蘭島被發(fā)現(xiàn)上千年,丹麥從未完全控制?

全城探秘
2026-01-11 16:15:03
上海前首富周正毅現(xiàn)狀曝光!戴200萬(wàn)名表打耳釘,雪茄從不離手

上海前首富周正毅現(xiàn)狀曝光!戴200萬(wàn)名表打耳釘,雪茄從不離手

小徐講八卦
2026-01-12 14:35:55
85%的血管淤堵,根本不用過(guò)度治療!醫(yī)生:做好3件事,比吃藥管用

85%的血管淤堵,根本不用過(guò)度治療!醫(yī)生:做好3件事,比吃藥管用

孟大夫之家1
2026-01-09 15:47:05
新婚妻子在羅布泊探險(xiǎn)失蹤六年,我在沙漠油田找到她,場(chǎng)面太奇怪

新婚妻子在羅布泊探險(xiǎn)失蹤六年,我在沙漠油田找到她,場(chǎng)面太奇怪

白云故事
2025-11-22 17:15:06
DeepSeek的資金后盾 梁文鋒幻方量化2025收益率曝光

DeepSeek的資金后盾 梁文鋒幻方量化2025收益率曝光

鳳凰網(wǎng)科技
2026-01-12 18:18:25
章瑩穎只是冰山一角:在暗網(wǎng)購(gòu)物車(chē)?yán)?,人不是人,可能是“零件?>
    </a>
        <h3>
      <a href=普覽
2026-01-10 20:44:27
外媒感嘆:北京晴空萬(wàn)里,歐盟深陷難題

外媒感嘆:北京晴空萬(wàn)里,歐盟深陷難題

參考消息
2026-01-12 14:34:16
那些用開(kāi)塞露涂臉的人,后來(lái)都怎么樣了?

那些用開(kāi)塞露涂臉的人,后來(lái)都怎么樣了?

科普中國(guó)
2026-01-12 11:21:30
集體破防,火箭記者崩潰發(fā)文:現(xiàn)在都?xì)獾谜f(shuō)不出話來(lái)

集體破防,火箭記者崩潰發(fā)文:現(xiàn)在都?xì)獾谜f(shuō)不出話來(lái)

懂球帝
2026-01-12 13:32:06
單親媽媽?zhuān)簧黻J電詐園區(qū)

單親媽媽?zhuān)簧黻J電詐園區(qū)

中國(guó)新聞周刊
2026-01-11 17:41:03
東莞涉企行政檢查新規(guī):執(zhí)法人員應(yīng)亮證亮碼,否則可拒絕檢查

東莞涉企行政檢查新規(guī):執(zhí)法人員應(yīng)亮證亮碼,否則可拒絕檢查

南方都市報(bào)
2026-01-12 16:31:21
碎三觀!網(wǎng)傳江陰某4S店女銷(xiāo)售出軌客戶四年,親媽幫著出餿主意…

碎三觀!網(wǎng)傳江陰某4S店女銷(xiāo)售出軌客戶四年,親媽幫著出餿主意…

火山詩(shī)話
2026-01-12 13:36:30
2026-01-12 20:36:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14319文章數(shù) 66454關(guān)注度
往期回顧 全部

科技要聞

面對(duì)SpaceX瘋狂“下餃子” 中國(guó)正面接招

頭條要聞

特朗普:伊朗談判前美或先行動(dòng) 正考慮"非常強(qiáng)硬選項(xiàng)"

頭條要聞

特朗普:伊朗談判前美或先行動(dòng) 正考慮"非常強(qiáng)硬選項(xiàng)"

體育要聞

聰明的球員,不是教練教出來(lái)的

娛樂(lè)要聞

閆學(xué)晶:脫離群眾太久 忘了自己的根

財(cái)經(jīng)要聞

倍輕松信披迷霧 實(shí)控人占用資金金額存疑

汽車(chē)要聞

增配不加價(jià) 北京現(xiàn)代 第五代 勝達(dá)2026款上市

態(tài)度原創(chuàng)

時(shí)尚
健康
本地
手機(jī)
公開(kāi)課

伊姐周日熱推:電視劇《御賜小仵作2》;電視劇《偶像瘋子》......

血常規(guī)3項(xiàng)異常,是身體警報(bào)!

本地新聞

云游內(nèi)蒙|“包”你再來(lái)?一座在硬核里釀出詩(shī)意的城

手機(jī)要聞

消息稱(chēng)三星Galaxy S27 Ultra將搭HP6主攝,或多方面升級(jí)

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版