国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

田淵棟:2025年年終總結(一)

0
分享至


新智元報道

編輯:桃子

【新智元導讀】從救火Llama 4反被裁,再到如今下場自創(chuàng)業(yè),AI大佬田淵棟回顧了2025年一些重要時刻。

最近太忙,只能把年終總結放到1月1日之后再寫了,不管怎樣,能開始動筆就是好事。

關于被裁

在2025年1月底被要求加入Llama4救火的時候,作為一直以來做強化學習的人,我事先畫了一個2x2的回報矩陣(reward matrix),計算了一下以下四種可能(雖然在那時,因為來自上面的巨大壓力,不同意是幾乎不可能的):


當時想的是我們去幫忙的話,即便最后項目未能成功,也至少盡力而為,問心無愧。不過遺憾的是,最后發(fā)生的是沒在計算之內的第五種可能,這也讓我對這社會的復雜性有了更為深刻的認識。

盡管如此,在這幾個月的努力過程中,我們還是在強化學習訓練的核心問題上有一些探索,比如說訓練穩(wěn)定性,訓推互動,模型架構設計,和預訓練/中期訓練的互動,長思維鏈的算法,數(shù)據(jù)生成的方式,后訓練框架的設計等等。

這個經驗本身是很重要的,對我的研究思路也帶來了不小的轉變。

另外其實我也想過在公司十年多了,總有一天要離開,總不見得老死在公司里吧,但總是因為各種經濟上和家庭上的原因還是要待下去。

最近一兩年的說話和做事方式,都是抱著一種「公司快把我開了吧」的心態(tài),反而越來越放開。

2023年年末我休第一個長假的時候,其實幾乎差點要走了,但最后沒簽字還是選擇待在公司繼續(xù),所以說真要做出離開的決定也不容易?,F(xiàn)在Meta幫我做了也挺好。

這次波折和今年一年的起起落落,也為接下來的小說創(chuàng)作提供了非常多的新素材。

所謂「仕途不幸詩家幸,賦到滄桑句便工」,生活太平淡,人生就不一定有樂趣了。還記得2021年年頭上的時候,因為在年末工作總結里面寫了幾句關于「為啥paper都沒中」的反思,喜提Meet Most,有一種突然不及格的懵逼感。

但想了想與其到處抱怨世道不公,不如就在大家面前裝成自己剛剛升職吧,結果半年后果然升了職,而那篇21年頭上無人問津的工作,在21年7月份中了ICML Best paper honorable mention,成為一篇表征學習中還比較有名的文章。

10月22號之后的一段時間,基本上我的各種通信方式都處于擠爆的狀態(tài),每天無數(shù)的消息和郵件,還有各種遠程會議或者見面的邀請,實在是忙不過來了。

一直到幾周之后才漸漸恢復正常。這兩個月非常感謝大家的關心和熱情。如果那時有什么消息我沒有及時回復,請見諒。

雖然最后有不少offer,大家能想到的知名公司也都聯(lián)系過我,但最后還是決定乘自己還年輕,去當一家新初創(chuàng)公司的聯(lián)合創(chuàng)始人,細節(jié)暫時不公開,先安靜地忙活一陣吧。

一些研究的方向

2025年的主要方向,一個是大模型推理,另一個是打開模型的黑箱。

自從2024年末我們的連續(xù)隱空間推理(coconut,COLM’25)工作公開之后,25年在這個研究方向上掀起了一股熱潮。大家探索如何在強化學習和預訓練中使用這個想法,如何提高它的訓練和計算的效率,等等。

雖然我們組隨后就被拉去llama干活,沒能再繼續(xù)花很大力氣往下挖,但這個讓我覺得非常欣慰。

盡管如此,我們還是在上半年發(fā)了一篇理論分析(Reasoning by Superposition,NeurIPS‘25)的文章,展示連續(xù)隱空間推理有優(yōu)勢的地方究竟在哪里,獲得了不少關注。

另外是如何提高大模型的推理效率。我們的Token Assorted(ICLR’25)的工作,先通過VQVAE學出隱空間的離散token,再將所得的離散token和text token混在一起進行后訓練,減少了推理代價的同時提高了性能。

我們的DeepConf通過檢測每個生成token的自信程度,來決定某條推理路徑是否要被提前終止,這樣推理所用的token減少了很多,但在majority vote的場景下性能反而更好。

ThreadWeaver則是通過制造并行推理的思維鏈,并在其上做后訓練,來加快推理速度。另外我們也在dLLM上用RL訓練推理模型(Sandwiched Policy Gradient),也有在小模型上學習推理的嘗試(MobileLLM-R1)。

在可解釋性方面,Grokking(頓悟)這個方向我大概兩年前就在關注了。因為之前我做表征學習(representation learning)的分析,雖然能分析出學習的動力學過程,看到模型出現(xiàn)表征塌縮的原因,但究竟學出什么樣的表征,它們和輸入數(shù)據(jù)的結構有什么關系,能達到什么樣的泛化能力,還是個謎團,而通過分析Grokking這個特征涌現(xiàn)的現(xiàn)象,從記憶到泛化的突變過程,正好能解開這個謎團。

一開始確實非常難做沒有頭緒,2024年先做了一篇COGS(NeurIPS‘25,見求道之人,不問寒暑(十)),但只能在特例上進行分析,我不是很滿意。

在一年多的迷茫之后,在和GPT5大量互動之后,最近的這篇Provable Scaling Laws的文章應該說有比較大的突破,能分析出之前的線性結構(NTK)看不到的東西,并把特征涌現(xiàn)的訓練動力學大概講清楚了。雖然說分析的樣例還是比較特殊,但至少打開了一扇新的窗口。詳細解釋請看田淵棟 的想法。

年末的這篇The path not taken我很喜歡,對于RL和SFT的行為為何會如此不一致,在權重的層面給出了一個初步的答案。

SFT造成過擬合和災難性遺忘(catastrophic forgetting),其表層原因是訓練數(shù)據(jù)不夠on-policy,而深層原因是權重的主分量直接被外來數(shù)據(jù)大幅修改,導致「根基」不穩(wěn),模型效果大降。

而RL則因為用on-policy的數(shù)據(jù)進行訓練,權重的主分量不變,改變的只是次要分量,反而能避免災難性遺忘的問題,而改變的權重其分布也會較為稀疏(特別在bf16的量化下)。

關于可解釋性的信念

很多人覺得可解釋性,或者「AI如何工作得那么好」這個問題不重要,但我卻覺得很重要。試想之后的兩種場景:

  • 場景一:如果我們僅僅通過Scaling就達到了AGI乃至ASI,全體人類的勞動價值都降為零,AI作為一個巨大的黑盒子幫我們解決了所有問題,那如何讓AI作為一個超級智能,一直行善,不欺騙不以隱秘的方式作惡,就是當務之急,要解決這個問題就要做可解釋性。

  • 場景二:如果Scaling這條路最終失效,人類在指數(shù)增長的資源需求面前敗下陣來,必須得要尋求其它的方案,那我們就不得不去思考「模型為什么有效,什么東西會讓它失效」,在這樣的思考鏈條之下,我們就必須回歸研究,可解釋性就是目所能及的另一條路了。

在這兩種情況下,最終都需要可解釋性來救場。就算最終AI是個全知全能全善的神,以人類好奇和探索的天性,必然還是會去研究AI為什么能做得好。

畢竟「黑盒」就意味著猜疑鏈的誕生,在大模型技術爆炸,開始達到甚至超過人類平均水平的今天,《三體》中「黑暗森林」的規(guī)則,也許會以另一種方式呈現(xiàn)出來。

目前打開訓練好模型的黑箱,去找到電路(circuit),還是處于比較初步的階段。

可解釋性真正的難點,在于從第一性原理,即從模型架構、梯度下降及數(shù)據(jù)本身的固有結構出發(fā),解釋為什么模型會收斂出這些解耦、稀疏、低秩、模塊化、可組合的特征與回路,為什么會有大量不同的解釋,這些涌現(xiàn)出來的結構和模型訓練的哪些超參數(shù)相關,如何相關,等等。

等到我們能從梯度下降的方程里,直接推導出大模型特征涌現(xiàn)的必然性,可解釋性才算真正從生物式的證據(jù)收集走向物理式的原理推導,最終反過來指導實踐,為下一代人工智能的模型設計開辟道路。

對比四百年前的物理學,我們現(xiàn)在有很多AI版的第谷(收集數(shù)據(jù)),一些AI版的開普勒(提出假說),但還沒有AI版的牛頓(發(fā)現(xiàn)原理)。

等到那一天來臨的時候,我相信,世界一定會天翻地覆。

參考資料:

https://zhuanlan.zhihu.com/p/1990809161458540818

注:本文授權轉載,若二次轉載請聯(lián)系原作者。

秒追ASI

?點贊、轉發(fā)、在看一鍵三連?

點亮星標,鎖定新智元極速推送!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
美國扣押一艘與委內瑞拉有關、懸掛俄羅斯旗幟的石油運輸船,外交部回應

美國扣押一艘與委內瑞拉有關、懸掛俄羅斯旗幟的石油運輸船,外交部回應

環(huán)球網資訊
2026-01-08 15:38:17
河北農村怎么才能不挨凍?大V:在河北農村蓋著16斤棉被,鼻子被凍傷

河北農村怎么才能不挨凍?大V:在河北農村蓋著16斤棉被,鼻子被凍傷

六子吃涼粉
2026-01-08 08:39:04
罕見!各地密集設立超常規(guī)機構,級別前所未有

罕見!各地密集設立超常規(guī)機構,級別前所未有

前瞻網
2026-01-07 09:45:12
涉嫌嚴重違紀違法,東莞一學校黨總支原書記被查

涉嫌嚴重違紀違法,東莞一學校黨總支原書記被查

南方都市報
2026-01-08 16:42:19
現(xiàn)階段,我最認同的政治制度

現(xiàn)階段,我最認同的政治制度

力哥說
2026-01-08 00:38:37
貴州26歲男子跳橋身亡,貸款10萬結婚,女方一身惡習,曝更多隱情

貴州26歲男子跳橋身亡,貸款10萬結婚,女方一身惡習,曝更多隱情

李健政觀察
2026-01-07 18:31:22
養(yǎng)生狂魔猝死!一女子稱40歲丈夫6點跑步10點睡,很少吃油鹽走了

養(yǎng)生狂魔猝死!一女子稱40歲丈夫6點跑步10點睡,很少吃油鹽走了

火山詩話
2026-01-08 09:19:19
新華社官宣:轟-20和殲-36的正式亮相非常值得期待

新華社官宣:轟-20和殲-36的正式亮相非常值得期待

烽火觀天下
2026-01-08 11:52:17
中方支持委內瑞拉人民對自己國家的領土與自然資源享有完全主權,委內瑞拉外長:感謝中方支持

中方支持委內瑞拉人民對自己國家的領土與自然資源享有完全主權,委內瑞拉外長:感謝中方支持

環(huán)球網資訊
2026-01-08 11:57:05
票房大反轉:《阿凡達3》跌至第三,尋秦記第二,第一成功逆襲

票房大反轉:《阿凡達3》跌至第三,尋秦記第二,第一成功逆襲

糊咖娛樂
2026-01-07 17:08:47
中國養(yǎng)老負擔將越來越重:從4.7個勞動力養(yǎng)一個老人到1.9個勞動力供養(yǎng)1個老人

中國養(yǎng)老負擔將越來越重:從4.7個勞動力養(yǎng)一個老人到1.9個勞動力供養(yǎng)1個老人

西虹市閑話
2026-01-08 13:51:18
大模型最難的AI Infra,用Vibe Coding搞定

大模型最難的AI Infra,用Vibe Coding搞定

機器之心Pro
2026-01-07 15:33:06
震撼!內娛又一位頂流男星的剛成年嫂子被發(fā)現(xiàn)!大量爆料噴涌!

震撼!內娛又一位頂流男星的剛成年嫂子被發(fā)現(xiàn)!大量爆料噴涌!

魔都囡
2026-01-08 09:48:47
為什么總統(tǒng)被綁架,委內瑞拉股票和債券反而雙雙暴漲?背后有一個冷酷的真相!

為什么總統(tǒng)被綁架,委內瑞拉股票和債券反而雙雙暴漲?背后有一個冷酷的真相!

識局Insight
2026-01-08 07:19:46
美國官員稱:主宰這個世界的是實力 武力與權力

美國官員稱:主宰這個世界的是實力 武力與權力

看看新聞Knews
2026-01-08 11:01:03
楊瀚森半場連打10分鐘!防守+體能蛻變,組織亮眼,對史密斯不虛

楊瀚森半場連打10分鐘!防守+體能蛻變,組織亮眼,對史密斯不虛

籃球資訊達人
2026-01-08 12:13:41
一條新聞消失了

一條新聞消失了

深藍財經
2026-01-07 14:22:05
宜家在中國衰退是必然的:中國人開始形成自己的價值判斷,邁向高認知階段

宜家在中國衰退是必然的:中國人開始形成自己的價值判斷,邁向高認知階段

風向觀察
2026-01-08 15:19:46
受夠了網紅濾鏡的6億人,為何涌入高德?

受夠了網紅濾鏡的6億人,為何涌入高德?

虎嗅APP
2026-01-07 18:38:07
美國法院對馬杜羅的起訴書出來了?。▋雀饺姆g)

美國法院對馬杜羅的起訴書出來了?。▋雀饺姆g)

爆角追蹤
2026-01-05 12:26:25
2026-01-08 17:24:49
新智元 incentive-icons
新智元
AI產業(yè)主平臺領航智能+時代
14283文章數(shù) 66451關注度
往期回顧 全部

科技要聞

智譜拿下“全球大模型第一股”,憑什么

頭條要聞

9歲女孩課堂寫試卷昏倒去世 家屬不忍尸檢稱"她怕疼"

頭條要聞

9歲女孩課堂寫試卷昏倒去世 家屬不忍尸檢稱"她怕疼"

體育要聞

約基奇倒下后,一位故人邪魅一笑

娛樂要聞

2026春節(jié)檔將有六部電影強勢上映

財經要聞

微軟CTO韋青:未來人類會花錢"戒手機"

汽車要聞

從量變到"智"變 吉利在CES打出了五張牌

態(tài)度原創(chuàng)

旅游
數(shù)碼
本地
游戲
軍事航空

旅游要聞

科技很酷,儀式感很暖

數(shù)碼要聞

曜越帶來75%配列無線機械鍵盤,可選復古象牙白配色

本地新聞

1986-2026,一通電話的時空旅程

這款畫風清奇的新游,竟成了外媒最期待的海盜游戲?

軍事要聞

特朗普提出將美國軍費提升至1.5萬億美元

無障礙瀏覽 進入關懷版