国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

華人天才出走xAI:算力競賽已死,30美元解鎖AI自進(jìn)化!

0
分享至


新智元報(bào)道

編輯:傾傾

【新智元導(dǎo)讀】2026年2月,Grok的核心成員Jiayi Pan和Toby Pohlen相繼離開xAI。這似乎是某種預(yù)示,或許通往AGI的路不是算力規(guī)模,而是方法的突破。

2月26日,xAI Grok 4團(tuán)隊(duì)核心成員Jiayi Pan宣布離職


在離職聲明中,他感謝了團(tuán)隊(duì)所有成員,給馬斯克留足了面子。

幾乎同一時(shí)間,Grok團(tuán)隊(duì)的另一位核心研究員Toby Pohlen也宣布離職。

他在X上陰陽Grok的工作機(jī)制,稱「沒有人能比你們更能熬夜」,然后@官方,公開叫板。


兩人都是grok團(tuán)隊(duì)的重要貢獻(xiàn)者,卻在48小時(shí)內(nèi)相繼離開,這讓外界對(duì)xAI內(nèi)部狀況產(chǎn)生了更多猜測。

4年,Jiayi Pan從一個(gè)初學(xué)者成長為Grok 4的核心貢獻(xiàn)者,又選擇了一條與巨頭算力競賽截然不同的技術(shù)路徑。

四年蛻變

從AlphaGo迷弟到Grok 4貢獻(xiàn)者

Jiayi Pan的AI之路始于2019年。

他本科就讀于密歇根大學(xué),獲得計(jì)算機(jī)科學(xué)與電子計(jì)算機(jī)工程雙學(xué)位,2023年畢業(yè)。

那時(shí),Jiayi Pan對(duì)RL還一無所知。據(jù)他自己回憶,當(dāng)導(dǎo)師提到RL時(shí),他下意識(shí)想到的還只是AlphaGo。


2023年,他進(jìn)入加州大學(xué)伯克利分校攻讀博士,研究語言模型與視覺/機(jī)器人學(xué)的結(jié)合。

在Berkeley的早期項(xiàng)目中,他開發(fā)了SWE-Gym,這是一個(gè)將RL引入軟件工程領(lǐng)域的環(huán)境。


代碼傳送門:https://github.com/SWE-Gym/SWE-Gym

該項(xiàng)目基于SWE-bench數(shù)據(jù)集的2294個(gè)真實(shí)GitHub Issue,要求AI不僅能讀懂代碼,還要生成可通過測試的Patch。

這為他后續(xù)的TinyZero研究——讓AI學(xué)會(huì)修正自己,奠定了基礎(chǔ)。

2025年5月,Pan加入xAI的Reasoning團(tuán)隊(duì),4開發(fā)的核心成員之一。

在xAI的9個(gè)月里,他參與了強(qiáng)化學(xué)習(xí)模塊的優(yōu)化,推動(dòng)模型從簡單預(yù)測向自我驗(yàn)證演進(jìn)。

也正是在這段時(shí)間,他啟動(dòng)了TinyZero項(xiàng)目。

30美元的顛覆

TinyZero「羞辱」巨頭

2025年,Jiayi Pan在X上宣布開源TinyZero。

這是一個(gè)僅需30美元訓(xùn)練成本的3B參數(shù)模型,通過純強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)了自我驗(yàn)證和推理能力。


代碼傳送門:https://github.com/Jiayi-Pan/TinyZero

TinyZero基于Qwen2.5-3B基礎(chǔ)模型,使用veRL框架在Countdown和Multiplication等任務(wù)上訓(xùn)練。

實(shí)驗(yàn)結(jié)果顯示,基礎(chǔ)模型在Countdown任務(wù)上的準(zhǔn)確率從0%提升到RL訓(xùn)練后的80%以上。

這驗(yàn)證了一個(gè)假設(shè):DeepSeek R1-Zero展現(xiàn)的自我推理能力,不是靠海量參數(shù)堆出來的,而是可以通過純強(qiáng)化學(xué)習(xí)在小模型上復(fù)現(xiàn)的。

通往高級(jí)推理能力的路徑,可能不需要5000億美元的基礎(chǔ)設(shè)施投資。

同一時(shí)期,Sam Altman宣布Stargate計(jì)劃,計(jì)劃在4年內(nèi)投資數(shù)千億美元建設(shè)AI基礎(chǔ)設(shè)施,與Microsoft和Oracle合作。

但據(jù)報(bào)道,該項(xiàng)目因三方利益沖突而陷入停滯,到2025年底,一個(gè)數(shù)據(jù)中心都沒建成。


相比之下,TinyZero的性價(jià)比拉滿。

無需海量數(shù)據(jù),無需龐大資金注入,純靠RL,在極低的算力下完成了關(guān)鍵突破。

這或許也解釋了為什么Pan等核心成員相繼離職。

當(dāng)你已經(jīng)驗(yàn)證了一條不依賴巨頭資源的技術(shù)路徑,留在算力軍備競賽中還有意義嗎?

出錯(cuò)了!TinyZero的元認(rèn)知覺醒

TinyZero最引人注目的不是成本,而是它展現(xiàn)出的「元認(rèn)知」特征。

在Countdown游戲中,模型不僅會(huì)預(yù)測答案,還會(huì)在輸出最終答案前,進(jìn)行完整的試錯(cuò)與回溯。

訓(xùn)練日志顯示,模型會(huì)頻繁輸出 標(biāo)簽,內(nèi)含自我質(zhì)疑的語句。

例如,當(dāng)計(jì)算路徑偏離目標(biāo)時(shí),它會(huì)自動(dòng)生成類似「Wait, that's wrong」的中間思維鏈,并立即啟動(dòng)新一輪推演。

這種行為模式此前只在DeepSeek R1-Zero等大規(guī)模模型中觀察到。

R1-Zero的訓(xùn)練過程中曾出現(xiàn)「頓悟」式的能力躍遷,而這通常需要數(shù)周的迭代。

但TinyZero在3B參數(shù)、30美元成本的條件下就復(fù)現(xiàn)了這一現(xiàn)象。


Countdown任務(wù)中不同參數(shù)規(guī)模模型的PPO訓(xùn)練critic score曲線??梢钥吹剑词故?B的小模型,經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練后也能展現(xiàn)出明顯的能力提升。

這證明,Scaling Law負(fù)責(zé)堆砌知識(shí)廣度,而RL負(fù)責(zé)打通邏輯深度的最后一公里,兩者的結(jié)合不一定需要海量參數(shù)。

隨著TinyZero的開源,這種自我糾錯(cuò)能力不再是巨頭的專屬技術(shù)。

任何開發(fā)者都可以在自己的垂直領(lǐng)域訓(xùn)練出具備思考后再回答能力的AI。

技術(shù)拼圖:自我進(jìn)化的可能性

回顧Jiayi Pan的研究脈絡(luò),可以看到一條清晰的技術(shù)路徑:

在Berkeley期間開發(fā)的SWE-Gym,將軟件工程基準(zhǔn)SWE-bench轉(zhuǎn)化為強(qiáng)化學(xué)習(xí)環(huán)境,訓(xùn)練AI修復(fù)真實(shí)代碼問題。這是讓AI學(xué)會(huì)改代碼。

在xAI期間參與的Grok 4項(xiàng)目,將強(qiáng)化學(xué)習(xí)應(yīng)用于大模型推理能力的提升,這讓AI學(xué)會(huì)推理。

而TinyZero的開源,則證明了推理能力可以在小模型上通過純RL實(shí)現(xiàn),這是讓AI學(xué)會(huì)自我糾錯(cuò)。

當(dāng)這三塊拼圖組合在一起,一個(gè)更具想象力的可能性浮現(xiàn):如果AI既能糾錯(cuò),又能改代碼,那它是否能優(yōu)化自己的訓(xùn)練代碼,從而實(shí)現(xiàn)某種程度的「自我進(jìn)化」?

而這,正是2025年發(fā)布的Humanity's Last Exam(HLE)基準(zhǔn)所隱喻的場景。


論文鏈接:https://arxiv.org/abs/2501.14249

HLE是一個(gè)多模態(tài)、超高難度的AI評(píng)估基準(zhǔn)。

現(xiàn)有的MMLU等測試已被模型以90%+的準(zhǔn)確率攻破,失去了區(qū)分度,而當(dāng)AI能力持續(xù)提升。

人類需要什么樣的「最后一道防線」來評(píng)估超級(jí)智能?

Jiayi Pan的工作,無論是SWE-Gym、Grok 4還是TinyZero都在逼近這個(gè)問題的邊界。

他已經(jīng)離開了xAI,去向未知。但他留下的代碼和論文清晰地指向一個(gè)方向:

高級(jí)AI能力的實(shí)現(xiàn),可能不需要依賴巨頭的算力資源,而是可以通過方法論的創(chuàng)新在更小的規(guī)模上達(dá)成。

這帶來了技術(shù)平權(quán)的可能,也帶來了風(fēng)險(xiǎn)擴(kuò)散的隱憂。

當(dāng)任何開發(fā)者都能用30美元訓(xùn)練出具備自我糾錯(cuò)能力的模型,RL訓(xùn)練的不穩(wěn)定性、開源模型的倫理邊界、失控風(fēng)險(xiǎn)的防范......這些問題都沒有現(xiàn)成答案。

或許,這確實(shí)是人類面對(duì)AI自我進(jìn)化可能性的「最后一次考試」。

而這場考試,是所有人都需要參與的開卷測驗(yàn)。

參考資料:

https://www.linkedin.com/in/jiayi-pan-88964132a/https://x.com/jiayi_pirate/status/2026733283518906703?s=20

https://x.com/TobyPhln/status/2027188868059926705?s=20

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
別內(nèi)耗,其實(shí)大家婚姻都一樣爛!網(wǎng)友:?生活是自己的,不是別人的

別內(nèi)耗,其實(shí)大家婚姻都一樣爛!網(wǎng)友:?生活是自己的,不是別人的

另子維愛讀史
2026-03-02 22:34:10
記者:上海隊(duì)延長李弘權(quán)假期,讓新晉奶爸享受初為人父的喜悅

記者:上海隊(duì)延長李弘權(quán)假期,讓新晉奶爸享受初為人父的喜悅

懂球帝
2026-03-02 14:20:07
泰國暫停石油出口

泰國暫停石油出口

新華社
2026-03-02 16:55:03
意外!被中國用核武器轟炸45次的羅布泊,如今竟然變成了這樣!

意外!被中國用核武器轟炸45次的羅布泊,如今竟然變成了這樣!

王鶔吃吃喝喝
2026-01-16 13:57:53
航母遇襲后,美國軍機(jī)再被擊落,伊朗:內(nèi)塔尼亞胡的位置已被鎖定

航母遇襲后,美國軍機(jī)再被擊落,伊朗:內(nèi)塔尼亞胡的位置已被鎖定

阿芒娛樂說
2026-03-03 00:05:26
52中21!布朗尼真有本事!NBA最勵(lì)志的球二代

52中21!布朗尼真有本事!NBA最勵(lì)志的球二代

籃球?qū)崙?zhàn)寶典
2026-03-02 21:40:48
真香預(yù)警 低價(jià)MacBook性價(jià)比無敵!降維打擊Windows、等等黨最終歸宿

真香預(yù)警 低價(jià)MacBook性價(jià)比無敵!降維打擊Windows、等等黨最終歸宿

快科技
2026-03-02 10:50:12
100%賴賬,這何嘗不是一種極致的誠信!

100%賴賬,這何嘗不是一種極致的誠信!

財(cái)經(jīng)保探長
2026-02-28 10:46:25
伊朗人民等到了改變國運(yùn)的機(jī)會(huì),古巴人民也快了

伊朗人民等到了改變國運(yùn)的機(jī)會(huì),古巴人民也快了

基本常識(shí)
2026-03-01 22:14:59
伊朗導(dǎo)彈摧毀美軍雷達(dá)中心,讓中國明白:解放軍武器布局走對(duì)路

伊朗導(dǎo)彈摧毀美軍雷達(dá)中心,讓中國明白:解放軍武器布局走對(duì)路

胖福的小木屋
2026-03-02 15:32:29
網(wǎng)紅迅猛龍自曝:每日5小時(shí)影響學(xué)業(yè),曾拼盡全力考上復(fù)旦

網(wǎng)紅迅猛龍自曝:每日5小時(shí)影響學(xué)業(yè),曾拼盡全力考上復(fù)旦

鄉(xiāng)野小珥
2026-03-03 00:35:33
江西48.8萬彩禮后續(xù):男子轉(zhuǎn)頭退婚提豪車,女子破防:要告你強(qiáng)奸

江西48.8萬彩禮后續(xù):男子轉(zhuǎn)頭退婚提豪車,女子破防:要告你強(qiáng)奸

鋭娛之樂
2025-09-09 22:24:54
3-0!謝謝你,勇士!神級(jí)血賺大交易

3-0!謝謝你,勇士!神級(jí)血賺大交易

籃球?qū)崙?zhàn)寶典
2026-03-02 16:26:02
2026暑假檔:周星馳和賈玲對(duì)轟,陳思誠手握王炸,3部動(dòng)畫有爆相

2026暑假檔:周星馳和賈玲對(duì)轟,陳思誠手握王炸,3部動(dòng)畫有爆相

丁丁鯉史紀(jì)
2026-02-28 18:06:56
維尼修斯近3場西甲都有進(jìn)球,他此前僅有過1次連續(xù)4場破門

維尼修斯近3場西甲都有進(jìn)球,他此前僅有過1次連續(xù)4場破門

懂球帝
2026-03-03 00:25:10
喜提68萬!孫穎莎賽后發(fā)言有些可怕!王曼昱懂了!

喜提68萬!孫穎莎賽后發(fā)言有些可怕!王曼昱懂了!

最愛乒乓球
2026-03-03 00:05:30
馬筱梅被質(zhì)疑代孕,資深博主爆料懷孕諸多疑點(diǎn),本人曾多次去美國

馬筱梅被質(zhì)疑代孕,資深博主爆料懷孕諸多疑點(diǎn),本人曾多次去美國

古希臘掌管月桂的神
2026-02-28 15:00:19
卡塔爾能源公司宣布暫停液化天然氣生產(chǎn)

卡塔爾能源公司宣布暫停液化天然氣生產(chǎn)

環(huán)球網(wǎng)資訊
2026-03-02 20:31:00
射程2000公里,命中精度約30米,伊朗動(dòng)用“最強(qiáng)導(dǎo)彈”打擊以色列!內(nèi)塔尼亞胡行蹤被曝光,海灣多國傳出爆炸聲

射程2000公里,命中精度約30米,伊朗動(dòng)用“最強(qiáng)導(dǎo)彈”打擊以色列!內(nèi)塔尼亞胡行蹤被曝光,海灣多國傳出爆炸聲

每日經(jīng)濟(jì)新聞
2026-03-02 18:26:07
近期,一名中國男子去泰國玩,花6000泰銖找21歲女孩,悲劇發(fā)生了

近期,一名中國男子去泰國玩,花6000泰銖找21歲女孩,悲劇發(fā)生了

鯨探所長
2026-03-01 14:38:25
2026-03-03 01:35:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14625文章數(shù) 66648關(guān)注度
往期回顧 全部

科技要聞

蘋果中國官網(wǎng)上線iPhone 17e,4499元起

頭條要聞

媒體:拉里賈尼走向前臺(tái) 四大關(guān)鍵變量將決定伊朗命運(yùn)

頭條要聞

媒體:拉里賈尼走向前臺(tái) 四大關(guān)鍵變量將決定伊朗命運(yùn)

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對(duì)手主帥

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財(cái)經(jīng)要聞

油價(jià)飆升 美伊沖突將如何攪動(dòng)全球經(jīng)濟(jì)

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

親子
時(shí)尚
本地
手機(jī)
旅游

親子要聞

45歲這年,我這個(gè)二胎媽媽決定做一件“瘋狂”的事

今年春天一定要擁有的4件衣服,太好看了!

本地新聞

津南好·四時(shí)總相宜

手機(jī)要聞

iPhone 17e發(fā)布:4499元起,e系列首次搭載靈動(dòng)島

旅游要聞

熱度飆升!非遺、冰雪…禹州元宵“文旅大餐”承包圓滿佳節(jié)!

無障礙瀏覽 進(jìn)入關(guān)懷版