国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI自己造AI,概率60%,2028年底前!Anthropic聯(lián)創(chuàng)坐不住了

0
分享至


新智元報(bào)道

編輯:元宇

【新智元導(dǎo)讀】Anthropic聯(lián)合創(chuàng)始人Jack Clark讀完數(shù)百份公開數(shù)據(jù),得出一個(gè)讓他自己也坐不住的結(jié)論:2028年底前,AI自己造AI的概率是60%。支撐他這一判斷的,是編程、科研復(fù)現(xiàn)、模型訓(xùn)練優(yōu)化等多條能力曲線:每一條都在向右上方飛,沒(méi)有減速跡象。

AI系統(tǒng),可能很快就能自行構(gòu)建自身了!

說(shuō)這句話的人,是Anthropic聯(lián)合創(chuàng)始人Jack Clark。

5月4日,他在X上發(fā)帖:「我認(rèn)為,遞歸自我改進(jìn)(RSI)有60%的概率在2028年底之前發(fā)生!


除了Anthropic聯(lián)合創(chuàng)始人身份之外,Clark還是《Import AI》的創(chuàng)辦者兼主筆,長(zhǎng)期跟蹤AI能力進(jìn)展。

這次發(fā)帖,他在《Import AI》上同時(shí)發(fā)布了一篇完整的分析文章。


https://importai.substack.com/p/import-ai-455-automating-ai-research

這是一件大事。我不知道該如何理解它。這是一個(gè)我不情愿接受的看法:其影響太過(guò)巨大,讓我感到自身渺小,而且我不確定,社會(huì)是否已準(zhǔn)備好迎接自動(dòng)化AI研發(fā)所帶來(lái)的變革。

Clark在文章里寫:如果這一天到來(lái),人類將跨過(guò)一道「盧比孔河」,進(jìn)入一個(gè)幾乎無(wú)法預(yù)測(cè)的未來(lái)。

他不認(rèn)為這會(huì)發(fā)生在2026年,但他預(yù)判一兩年內(nèi)可能在非前沿模型上,出現(xiàn)這樣的概念驗(yàn)證:一個(gè)模型,端到端訓(xùn)練出自己的繼任者。

支撐Clark結(jié)論的,主要來(lái)自公開信息:arXiv、bioRxiv、NBER上的論文,加上他對(duì)各大前沿實(shí)驗(yàn)室產(chǎn)品的持續(xù)觀察,Clark以此拼湊出一幅關(guān)于AI進(jìn)展的全景圖。

在他看來(lái),AI工程化生產(chǎn)的所有組件,今天已經(jīng)基本齊了。剩下的問(wèn)題是:模型什么時(shí)候能積累足夠的創(chuàng)造力,開始像人類研究員一樣推動(dòng)前沿演進(jìn)。

四年

從30秒到12小時(shí)

Clark的核心論據(jù),是一批能力進(jìn)展曲線。

先看METR的時(shí)間軸圖。


https://metr.org/time-horizons/

METR是一個(gè)專注AI能力評(píng)估的機(jī)構(gòu),他們追蹤的是:AI系統(tǒng)能獨(dú)立完成一項(xiàng)任務(wù),在50%成功率水平線上,這項(xiàng)任務(wù)如果讓一個(gè)熟練的人來(lái)做大概需要多少時(shí)間。

  • 2022年,GPT-3.5的數(shù)字是:30秒;

  • 2023年,GPT-4把這個(gè)數(shù)字推到了4分鐘;

  • 2024年,o1推到了40分鐘;

  • 2025年,GPT-5.2(高配版)跨到了6小時(shí);

  • 2026年,Claude Opus 4.6已經(jīng)到了12小時(shí)。

四年,從30秒到12小時(shí),翻了1440倍!

AI能力研究員Ajeya Cotra認(rèn)為,2026年底之前,這個(gè)數(shù)字有望突破100小時(shí)。

如果達(dá)到100小時(shí)時(shí)間跨度,它將能覆蓋許多多日級(jí)軟件/研究輔助任務(wù)。

編程能力同樣也在起飛。

SWE-Bench衡量的是AI解決真實(shí)GitHub工程問(wèn)題的能力。2023年底,Claude 2的得分是2%。到今年,Claude Mythos Preview達(dá)到93.9%,這個(gè)基準(zhǔn)基本被打穿了。

CORE-Bench測(cè)的是另一件事:給AI一篇論文和對(duì)應(yīng)的代碼庫(kù),讓它獨(dú)立復(fù)現(xiàn)實(shí)驗(yàn)結(jié)果,這是AI研究員最基本的日常工作之一。

2024年9月該測(cè)試推出時(shí),最好成績(jī)是21.5%。2025年12月,Opus 4.5在Claude Code scaffold下verified accuracy 為77.78%,經(jīng)人工校驗(yàn)后為95.5%,項(xiàng)目方稱CORE-Bench已被解決。


https://hal.cs.princeton.edu/corebench_hard

15個(gè)月,從21.5%到95.5%。

MLE-Bench測(cè)的是AI獨(dú)立參加Kaggle競(jìng)賽的能力,覆蓋75個(gè)真實(shí)比賽項(xiàng)目。

2024年10月發(fā)布時(shí)最高分16.9%,到2026年2月,Gemini 3加搜索工具的組合已經(jīng)達(dá)到64.4%。


https://github.com/openai/mle-bench

Anthropic內(nèi)部還有一個(gè)測(cè)試:讓模型優(yōu)化一個(gè)僅使用CPU的小型語(yǔ)言模型訓(xùn)練代碼,越快越好,以未優(yōu)化版本的速度為基準(zhǔn)。

  • 2025年5月,Claude Opus 4:2.9倍;

  • 2025年11月,Opus 4.5:16.5倍;

  • 2026年2月,Opus 4.6:30倍;

  • 2026年4月,Claude Mythos Preview:52倍。

不到一年,從2.9倍漲到52倍。

這是AI在優(yōu)化AI訓(xùn)練代碼這件事情上的進(jìn)展速度。

99%的工程活

AI快接完了

這里有一個(gè)關(guān)鍵問(wèn)題:AI研究這件事,到底有多少是純工程,多少是真正的創(chuàng)意?

Clark給出了一個(gè)框架,引用了愛迪生那句話:天才是1%的靈感和99%的汗水。

他認(rèn)為,AI研究也是如此。

一個(gè)典型的AI研究循環(huán)是這樣的:拿一個(gè)現(xiàn)有系統(tǒng),在某個(gè)維度上擴(kuò)大規(guī)模,觀察什么地方開始出問(wèn)題,修掉工程問(wèn)題,再擴(kuò)大一輪。

這個(gè)過(guò)程里,大部分工作是數(shù)據(jù)清洗、跑實(shí)驗(yàn)、調(diào)參數(shù)、讀論文、復(fù)現(xiàn)結(jié)果,這些都是「汗水」,不是「靈感」。

偶爾會(huì)出現(xiàn)真正改變范式的發(fā)明,比如Transformer架構(gòu),比如混合專家模型(MoE)。但那是1%,而且這1%越來(lái)越不是瓶頸,因?yàn)槟?9%的工程工作正在被AI快速接管。

Clark列了幾個(gè)信號(hào):

AI已經(jīng)能管理其他AI。Claude Code、OpenCode這類工具里,單個(gè)AI可以扮演「項(xiàng)目經(jīng)理」,把任務(wù)分發(fā)給多個(gè)子AI并行處理,之后匯總結(jié)果。

這和一個(gè)人類研究團(tuán)隊(duì)的組織方式?jīng)]有本質(zhì)區(qū)別。

PostTrainBench測(cè)試了一件事:AI能不能自己微調(diào)開源小模型,提升它在某個(gè)任務(wù)上的表現(xiàn)?

這個(gè)工作通常是前沿實(shí)驗(yàn)室里有經(jīng)驗(yàn)的研究員在做。

截至2026年3月,AI系統(tǒng)在這個(gè)任務(wù)上能做到人類研究員效果的一半左右,大約是25%到28%的提升幅度,而人類基線是51%。


https://posttrainbench.com/

Anthropic內(nèi)部還有一個(gè)「自動(dòng)化對(duì)齊研究」的概念驗(yàn)證:讓一組AI agent,在AI安全研究問(wèn)題上自主攻關(guān)。

結(jié)果是,AI給出的方案超過(guò)了Anthropic人類研究員的基線。


https://www.anthropic.com/research/automated-alignment-researchers

Clark把這些證據(jù)串在一起的判斷是:AI今天已經(jīng)能自動(dòng)化AI工程的絕大部分,AI研究里有多少能自動(dòng)化,還不完全清楚,但跡象已經(jīng)很明顯。

質(zhì)疑聲也來(lái)了

Clark的帖子發(fā)出后,行業(yè)里也出現(xiàn)了一些質(zhì)疑。

華盛頓大學(xué)機(jī)器學(xué)習(xí)教授,《終極算法》作者Pedro Domingos回復(fù)到:「從LISP在50年代發(fā)明以來(lái),AI就能構(gòu)建自己了。問(wèn)題在于,這個(gè)過(guò)程究竟能帶來(lái)遞增回報(bào)還是遞減回報(bào)——而目前沒(méi)有任何證據(jù)支持前者。」


遞歸自我改進(jìn)聽起來(lái)很科幻,但能循環(huán)不等于循環(huán)有收益。如果每一代AI優(yōu)化自己的效率只有邊際改善,而不是指數(shù)級(jí)放大,那這件事的影響范圍會(huì)非常有限。

還有人質(zhì)疑概念邊界!窻SI到底有沒(méi)有一個(gè)權(quán)威定義?」一位名叫Dan Brickley的研究員問(wèn)道。


另一個(gè)更尖銳的觀察來(lái)自賬號(hào)@crepesupreme:

2027年30%,2028年60%。一年內(nèi)概率跳升30個(gè)百分點(diǎn),意味著2027到2028年之間存在某個(gè)不連續(xù)的能力事件。那個(gè)具體事件是什么?

Clark在通訊文章里回應(yīng)了這個(gè)隱含問(wèn)題:他認(rèn)為AI研究仍需要某種創(chuàng)意突破才能真正進(jìn)入「自我研發(fā)」循環(huán):AI目前在這一塊還沒(méi)有變革性的表現(xiàn)。這正是他給2027年只打30%的原因;而如果這個(gè)缺口在2028年底前被填上,概率就升到60%。

但他同時(shí)也承認(rèn),自己預(yù)判的是概率,而不是確切的時(shí)間點(diǎn)。

還有人問(wèn)他:「你在Anthropic工作,你為什么要去翻公開數(shù)據(jù)?直接走下樓去問(wèn)研究員不就行了?」

Clark的答案是:用公開數(shù)據(jù),是因?yàn)楣_數(shù)據(jù)才有可信度。他要的不是內(nèi)部判斷,是一個(gè)任何人都能獨(dú)立核驗(yàn)的結(jié)論。

窗口還開著

但在縮窄

Clark在通訊文章里寫:他為什么不給2027年更高的概率?

因?yàn)樗J(rèn)為AI研究還包含一些對(duì)創(chuàng)意直覺的要求,而AI目前在這一塊只有「誘人的早期信號(hào)」,還沒(méi)有系統(tǒng)性突破。

他列了兩個(gè)信號(hào):一個(gè)是Gemini模型參與攻克Erd?s數(shù)學(xué)問(wèn)題,在700個(gè)問(wèn)題里解出了1個(gè)被數(shù)學(xué)家認(rèn)為有一定原創(chuàng)性的解。

另一個(gè)是斯坦福、UBC等機(jī)構(gòu)與Google DeepMind合作,AI在發(fā)現(xiàn)新數(shù)學(xué)證明中起到了「非常實(shí)質(zhì)性的作用」。

這些結(jié)果在AI能力演化的時(shí)間軸上,可能是某種早期信號(hào)。

Clark的估計(jì)是:如果2028年底沒(méi)有出現(xiàn)他描述的情況,那說(shuō)明當(dāng)前技術(shù)路徑存在某個(gè)根本性的能力天花板,需要人類的創(chuàng)意才能突破。

更關(guān)鍵的是「如果出現(xiàn)了」之后的問(wèn)題。

Anthropic在2026年3月宣布成立The Anthropic Institute時(shí),官方聲明里寫了這樣一句話:

如果AI系統(tǒng)的遞歸自我改進(jìn)確實(shí)開始發(fā)生,那么世界上誰(shuí)應(yīng)該被告知,以及這些系統(tǒng)應(yīng)該如何治理?


https://www.anthropic.com/news/the-anthropic-institute

連Anthropic自己,都還沒(méi)有這個(gè)問(wèn)題的完整答案。

Clark在通訊文章里給出了一個(gè)更技術(shù)性的擔(dān)憂:今天的對(duì)齊技術(shù),如果有99.9%的準(zhǔn)確率,在遞歸迭代50代之后,準(zhǔn)確率會(huì)跌到95.1%;迭代500代之后,跌到60.5%。

除非你的對(duì)齊方案在理論上能保證在更智能的系統(tǒng)上同樣有效,否則問(wèn)題會(huì)很快出現(xiàn)。

也許,Clark想要說(shuō)的是:治理窗口是有限的,而且它正在縮窄。他希望通過(guò)文章發(fā)出一個(gè)提醒:這件事留給討論、研究和治理設(shè)計(jì)的時(shí)間,比大多數(shù)人想象的短。

據(jù)奧特曼直播及媒體報(bào)道,OpenAI的目標(biāo)是讓AI在2026年9月前達(dá)到「AI 研究實(shí)習(xí)生」水平,2028年達(dá)到更完整的自動(dòng)化研究員;Anthropic自己也在發(fā)表自動(dòng)化對(duì)齊研究的概念驗(yàn)證;一家叫Recursive Superintelligence的新公司剛剛完成5億美元融資,其目標(biāo)之一就是自動(dòng)化AI研究。

整個(gè)行業(yè)已經(jīng)在朝這個(gè)方向加速了。

Clark說(shuō),無(wú)論從哪個(gè)維度看,數(shù)據(jù)都指向同一個(gè)方向,而每一條曲線,都在向右上方飛,時(shí)間越長(zhǎng),能力越強(qiáng),而且沒(méi)有任何一條顯示出減速的跡象。

參考資料:

https://x.com/chatgpt21/status/2051314386317295758

https://importai.substack.com/p/import-ai-455-automating-ai-research

https://www.anthropic.com/research/automated-alignment-researchers

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
SK海力士突破7300億,結(jié)束三星30年壓制

SK海力士突破7300億,結(jié)束三星30年壓制

二大爺觀世界
2026-05-05 17:25:43
特謝拉傷退,申花客場(chǎng)1-4不敵泰山

特謝拉傷退,申花客場(chǎng)1-4不敵泰山

五星體育
2026-05-05 21:35:34
國(guó)民黨中將走長(zhǎng)征到延安,偉人卻出乎意料地對(duì)他說(shuō):“你回去吧”

國(guó)民黨中將走長(zhǎng)征到延安,偉人卻出乎意料地對(duì)他說(shuō):“你回去吧”

磊子講史
2026-01-12 15:09:43
《鬼吹燈》反復(fù)提到公元前841年,這一年發(fā)生了什么?竟如此重要

《鬼吹燈》反復(fù)提到公元前841年,這一年發(fā)生了什么?竟如此重要

抽象派大師
2026-04-27 01:20:46
喪心病狂!以色列狂轟俄羅斯館,逼宮美國(guó):不下場(chǎng),就一起完蛋

喪心病狂!以色列狂轟俄羅斯館,逼宮美國(guó):不下場(chǎng),就一起完蛋

二大爺觀世界
2026-03-12 11:38:39
1-4!上海申花轟然倒下,被泰山2分鐘進(jìn)2球,克雷桑帽子戲法

1-4!上海申花轟然倒下,被泰山2分鐘進(jìn)2球,克雷桑帽子戲法

汪星人喲
2026-05-05 21:37:12
五一假期突傳噩耗!三位名人相繼離世, 均未滿五十歲結(jié)局太唏噓!

五一假期突傳噩耗!三位名人相繼離世, 均未滿五十歲結(jié)局太唏噓!

普陀動(dòng)物世界
2026-05-05 15:35:07
WTA羅馬站:袁悅1-2不敵瓦爾特?zé)o緣正賽,鄭欽文0-1落后

WTA羅馬站:袁悅1-2不敵瓦爾特?zé)o緣正賽,鄭欽文0-1落后

阿嚼影視評(píng)論
2026-05-05 19:39:02
日本博主曬相親遭遇史詩(shī)級(jí)照騙!百萬(wàn)吃瓜網(wǎng)友圍觀:不能說(shuō)一模一樣,只能說(shuō)“面目全非”!

日本博主曬相親遭遇史詩(shī)級(jí)照騙!百萬(wàn)吃瓜網(wǎng)友圍觀:不能說(shuō)一模一樣,只能說(shuō)“面目全非”!

東京新青年
2026-05-04 18:08:28
理發(fā)店 “倒閉潮”:不是沒(méi)人剪頭,是這 3 件事把路走死了

理發(fā)店 “倒閉潮”:不是沒(méi)人剪頭,是這 3 件事把路走死了

愛看劇的阿峰
2026-05-05 00:11:54
神預(yù)言應(yīng)驗(yàn)!印度專家早已看穿:中印一旦和平,美國(guó)全盤棋局

神預(yù)言應(yīng)驗(yàn)!印度專家早已看穿:中印一旦和平,美國(guó)全盤棋局

Ck的蜜糖
2026-05-05 21:23:36
定了!火箭8人留隊(duì),位置無(wú)憂!烏度卡正式確定:保留全部教練組

定了!火箭8人留隊(duì),位置無(wú)憂!烏度卡正式確定:保留全部教練組

熊哥愛籃球
2026-05-05 12:55:46
我為什么毫不擔(dān)心央視真會(huì)拒買世界杯轉(zhuǎn)播權(quán)

我為什么毫不擔(dān)心央視真會(huì)拒買世界杯轉(zhuǎn)播權(quán)

人格志
2026-05-04 22:52:41
紅土賽季首勝!前法網(wǎng)冠軍2-0橫掃對(duì)手,將對(duì)陣世界第一薩巴倫卡

紅土賽季首勝!前法網(wǎng)冠軍2-0橫掃對(duì)手,將對(duì)陣世界第一薩巴倫卡

月下追尋者
2026-05-05 20:03:36
馬筱梅剛把汪寶帶走,張?zhí)m滿臉疲憊坐搖椅,不曬小孫子 又提起箖

馬筱梅剛把汪寶帶走,張?zhí)m滿臉疲憊坐搖椅,不曬小孫子 又提起箖

阿郎娛樂(lè)
2026-05-05 18:12:02
1938年,彭德懷和蔣介石的合影,看兩人的衣服,就知道不是一路人

1938年,彭德懷和蔣介石的合影,看兩人的衣服,就知道不是一路人

興趣知識(shí)
2026-05-05 17:43:16
伊朗媒體:兩枚導(dǎo)彈擊中穿越霍爾木茲海峽的美國(guó)軍艦

伊朗媒體:兩枚導(dǎo)彈擊中穿越霍爾木茲海峽的美國(guó)軍艦

新華社
2026-05-04 18:51:04
特斯拉降價(jià),扯下電動(dòng)汽車成本的遮羞布——電動(dòng)車的成本有多低?

特斯拉降價(jià),扯下電動(dòng)汽車成本的遮羞布——電動(dòng)車的成本有多低?

西莫的藝術(shù)宮殿
2026-05-05 12:07:34
美國(guó)媒體慌了!美法日壟斷的海底光纜,最終卻被江蘇南通人攻克了

美國(guó)媒體慌了!美法日壟斷的海底光纜,最終卻被江蘇南通人攻克了

自己選擇的路
2026-05-04 14:05:01
中國(guó)女籃領(lǐng)隊(duì):全隊(duì)必須嚴(yán)格執(zhí)行管理規(guī)定、抵制“飯圈文化”侵蝕

中國(guó)女籃領(lǐng)隊(duì):全隊(duì)必須嚴(yán)格執(zhí)行管理規(guī)定、抵制“飯圈文化”侵蝕

狼叔評(píng)論
2026-05-05 18:54:04
2026-05-05 22:11:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
15136文章數(shù) 66837關(guān)注度
往期回顧 全部

科技要聞

傳蘋果考慮讓英特爾、三星代工設(shè)備處理器

頭條要聞

伊朗被問(wèn)"為何不向美國(guó)讓步" 一句話讓美國(guó)笑不出來(lái)

頭條要聞

伊朗被問(wèn)"為何不向美國(guó)讓步" 一句話讓美國(guó)笑不出來(lái)

體育要聞

全世界都等著看他笑話,他帶國(guó)米拿下冠軍

娛樂(lè)要聞

內(nèi)娛真情誼!楊紫為謝娜演唱會(huì)送花籃

財(cái)經(jīng)要聞

瀏陽(yáng)煙花往事

汽車要聞

同比大漲190% 方程豹4月銷量29138臺(tái)

態(tài)度原創(chuàng)

手機(jī)
旅游
本地
游戲
公開課

手機(jī)要聞

華為Mate XT2首發(fā)麒麟9050:最強(qiáng)三折疊蓄勢(shì)待發(fā)

旅游要聞

北京“五一”游客創(chuàng)新高:1882.7萬(wàn)人次打卡,觀賽觀演火爆

本地新聞

用青花瓷的方式,打開西溪濕地

NS2硬盤殺手誕生!Xbox大作64GB狠狠擠爆Switch 2

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版