網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Hinton加入Scaling Law論戰(zhàn)，他不站學(xué)生Ilya

2026-01-01 10:42:53　來(lái)源: 量子位

北京舉報(bào)

分享至

一水發(fā)自凹非寺量子位 | 公眾號(hào) QbitAI

我并不認(rèn)為Scaling Law已經(jīng)完全結(jié)束了

正當(dāng)學(xué)生Ilya為Scaling Law“潑下冷水”時(shí)，他的老師、AI教父Geoffrey Hinton卻毅然發(fā)表了上述截然相反的觀點(diǎn)。

這一場(chǎng)面一出，我們不禁回想起了兩件有趣的事。

一是Ilya幾乎從學(xué)生時(shí)代起就堅(jiān)信Scaling Law，不僅一抓住機(jī)會(huì)就向身邊人安利，而且還把這套理念帶進(jìn)了OpenAI。

可以說(shuō)，Ilya算是Scaling Law最初的擁躉者。

二是Hinton后來(lái)在回顧和Ilya的相處時(shí)，曾大肆夸贊Ilya“具有驚人的直覺(jué)”，包括在Scaling Law這件事上，Hinton曾坦言：

當(dāng)時(shí)的我錯(cuò)了，而Ilya基本上是對(duì)的。
比如Transformer確實(shí)是一種創(chuàng)新想法，但實(shí)際上起作用的還是規(guī)模，數(shù)據(jù)的規(guī)模和計(jì)算的規(guī)模。

但是現(xiàn)在，這對(duì)師徒的態(tài)度卻來(lái)了個(gè)驚天大反轉(zhuǎn)。

所以，這中間到底發(fā)生了什么？

Scaling Law不死派：Hinton、哈薩比斯

緊隨學(xué)生Ilya，Hinton在接受《Business Insider》最新采訪時(shí)發(fā)表了對(duì)Scaling Law問(wèn)題的看法。

他的觀點(diǎn)相當(dāng)明確——

Scaling Laws依然有效，只不過(guò)當(dāng)前正面臨一些挑戰(zhàn)（limit）

其中，最大的挑戰(zhàn)無(wú)疑是數(shù)據(jù)缺失問(wèn)題。

大部分高價(jià)值數(shù)據(jù)都鎖在公司內(nèi)部，免費(fèi)互聯(lián)網(wǎng)數(shù)據(jù)已基本耗盡。

而這個(gè)問(wèn)題將由AI自行解決，即模型通過(guò)推理生成自己的訓(xùn)練數(shù)據(jù)。此處他還特意cue到了AlphaGo和AlphaZero：

這就像AlphaGo和AlphaZero在規(guī)模小得多的情況下，為了精通圍棋而生成數(shù)據(jù)一樣。

對(duì)于這些早期程序，Hinton直言當(dāng)時(shí)沒(méi)人擔(dān)心數(shù)據(jù)不足，因?yàn)樗鼤?huì)自我對(duì)弈，并以此生成數(shù)據(jù)。

照此，語(yǔ)言模型也可以采用同樣的方法來(lái)解決Scaling Law面臨的數(shù)據(jù)瓶頸。

而和Hinton同樣支持Scaling Law的，還有谷歌DeepMind CEO哈薩比斯。

哈薩比斯曾在不久之前的一場(chǎng)峰會(huì)上表示：

我們必須將當(dāng)前系統(tǒng)的規(guī)模化推向極致，因?yàn)橹辽?，它將是最終AGI系統(tǒng)的關(guān)鍵組成部分。
甚至，它可能會(huì)成為整個(gè)AGI系統(tǒng)本身。

正如Hinton所言，哈薩比斯早就在AlphaGo和AlphaZero身上看到了讓AI自主進(jìn)化的無(wú)窮威力。

當(dāng)初訓(xùn)練AlphaGo時(shí)，DeepMind先讓其學(xué)習(xí)人類棋譜掌握基礎(chǔ)規(guī)則，隨后讓不同版本的程序通過(guò)數(shù)百萬(wàn)局自我對(duì)弈不斷進(jìn)化，最終擊敗了人類頂尖棋手。

而到了AlphaZero，DeepMind更進(jìn)一步，徹底摒棄人類數(shù)據(jù)，僅通過(guò)“Zero”狀態(tài)下的自我博弈，一天之內(nèi)就讓AI成為了“有史以來(lái)最厲害的國(guó)際象棋選手”。

這些都讓哈薩比斯逐漸堅(jiān)信——通過(guò)規(guī)?；詣?dòng)生成數(shù)據(jù)與自我進(jìn)化，AI最終能在各種任務(wù)上打敗人類。

顯而易見(jiàn)，這一判斷恰好與Hinton關(guān)于“數(shù)據(jù)瓶頸可以被模型自行突破”的觀點(diǎn)形成了呼應(yīng)。

不過(guò)值得注意的是，哈薩比斯作為一位商業(yè)領(lǐng)袖、一位實(shí)打?qū)嵉墓こ碳夹g(shù)人員，他對(duì)Scaling Law的理解從來(lái)不止于“參數(shù)×數(shù)據(jù)×算力”的線性增長(zhǎng)。

他倡導(dǎo)的是一種更系統(tǒng)、更廣義的規(guī)?；?，即模型規(guī)模、訓(xùn)練范式、環(huán)境復(fù)雜度乃至系統(tǒng)架構(gòu)本身，都需要作為一個(gè)協(xié)同演進(jìn)的整體被同步擴(kuò)展。

這也是他為何反復(fù)強(qiáng)調(diào)構(gòu)建“世界模型”、整合“搜索”與“規(guī)劃”能力的原因。他始終認(rèn)為：

如果一個(gè)系統(tǒng)只能被動(dòng)地?cái)M合靜態(tài)數(shù)據(jù)分布，那么無(wú)論規(guī)模多大，最終都會(huì)撞上天花板；而一旦模型被允許進(jìn)入“可交互的環(huán)境”，數(shù)據(jù)本身就會(huì)變成一個(gè)可被無(wú)限擴(kuò)展的變量。

一言以蔽之，二人都認(rèn)為Scaling Law本身沒(méi)有問(wèn)題，關(guān)鍵是如何突破當(dāng)下遇到的瓶頸。

而且二人給出的解決思路在本質(zhì)上高度一致，即讓AI自行解決。

然而在Ilya看來(lái)，繼續(xù)擴(kuò)展規(guī)模已經(jīng)“不劃算”了：

這幾年大家?guī)缀醵荚诤啊袄^續(xù)擴(kuò)大！再擴(kuò)大！”。但當(dāng)規(guī)模已經(jīng)這么大時(shí)，你真的會(huì)相信再擴(kuò)大100倍就能徹底改變一切嗎？

此言一出，外界紛紛認(rèn)為Ilya這是在給Scaling Law“判死刑”。

事實(shí)，果真如此嗎？

Scaling Law不夠用派：Ilya、LuCun

實(shí)際上，要想搞清Ilya當(dāng)下在想什么，我們還得回到Scaling Law這個(gè)問(wèn)題本身。

Scaling Law俗稱“大力出奇跡”，其核心思想可概括為——

隨著模型參數(shù)規(guī)模、訓(xùn)練數(shù)據(jù)量和計(jì)算資源的持續(xù)擴(kuò)大，AI模型的性能會(huì)按照可預(yù)測(cè)的規(guī)律穩(wěn)步提升。

這一規(guī)律在過(guò)去的AI發(fā)展中得到了反復(fù)驗(yàn)證，從GPT-3到后來(lái)的大模型浪潮，幾乎每一次性能躍升都伴隨著規(guī)模的數(shù)量級(jí)增長(zhǎng)。

然而，從去年開(kāi)始，關(guān)于Scaling Law的風(fēng)向就開(kāi)始變了。

起初大家爭(zhēng)的還是歸屬權(quán)問(wèn)題——

這個(gè)概念被OpenAI帶火之后，一位Meta研究員找出了百度2017年發(fā)表的一篇論文，結(jié)果發(fā)現(xiàn)論文里早就談到了Scaling Law問(wèn)題，只是沒(méi)有相關(guān)正式命名。

但僅僅到了年底，關(guān)于“Scaling Law見(jiàn)頂”的聲音開(kāi)始越來(lái)越多了。

也是在這個(gè)時(shí)候，已經(jīng)離開(kāi)OpenAI的Ilya，在NeurIPS現(xiàn)場(chǎng)正式宣告了“預(yù)訓(xùn)練即將終結(jié)”。

我們所熟知的預(yù)訓(xùn)練即將終結(jié)。

他認(rèn)為，數(shù)據(jù)是AI的化石燃料，隨著全球數(shù)據(jù)的限制，未來(lái)人工智能將面臨數(shù)據(jù)瓶頸。

雖然當(dāng)前我們?nèi)匀豢梢允褂矛F(xiàn)有數(shù)據(jù)進(jìn)行有效訓(xùn)練，但這一增長(zhǎng)趨勢(shì)終將放緩，預(yù)訓(xùn)練的時(shí)代也會(huì)逐步結(jié)束。

而未來(lái)屬于超級(jí)智能，比如智能體、推理、理解和自我意識(shí)。

隨著Ilya的發(fā)言，關(guān)于Scaling Law的討論被徹底引爆。

中間老東家OpenAI還跳出來(lái)附議了一波，只不過(guò)當(dāng)時(shí)是為了宣傳他們的o系列推理模型——

o1核心成員Noam Brown表示，o1代表的是一種全新的，以推理計(jì)算為代表的Scaling。

就是說(shuō)，“預(yù)訓(xùn)練雖然終結(jié)，但Scaling Law還沒(méi)死”。

再到后來(lái)，吵吵嚷嚷間，人們等來(lái)了Ilya創(chuàng)辦的新公司，也是在這一階段，Ilya開(kāi)始試著回答——我們?cè)赟caling什么？下一步做什么？

他在公司宣布成立后的采訪中表示：

過(guò)去十年深度學(xué)習(xí)的巨大突破，是一個(gè)關(guān)于尺度假設(shè)的特定公式。但它會(huì)改變……隨著它的改變，系統(tǒng)的能力將會(huì)增強(qiáng)，安全問(wèn)題將變得最為緊迫，這就是我們需要解決的問(wèn)題。

從這里也能看出來(lái)，他開(kāi)始逐漸強(qiáng)調(diào)一個(gè)觀念——Scaling Law變了

而這，也和他最新引起爭(zhēng)議的“Scaling Law無(wú)用論”相契合。他在問(wèn)出“你真的會(huì)相信再擴(kuò)大100倍就能徹底改變一切嗎”后表示：

會(huì)有變化，但我不認(rèn)為僅靠更大規(guī)模就能帶來(lái)根本性的轉(zhuǎn)折。我們正重新回到研究時(shí)代，只不過(guò)這一次，我們手里多的是巨型計(jì)算機(jī)。

在他看來(lái)，目前主流的“預(yù)訓(xùn)練+Scaling”路線已經(jīng)明顯遇到瓶頸。與其盲目擴(kuò)大規(guī)模，不如把注意力放回到“研究范式本身”的重構(gòu)上。（即所謂重新回到“科研時(shí)代”）

后來(lái)他還特意解釋道，不是說(shuō)繼續(xù)擴(kuò)展規(guī)模不會(huì)帶來(lái)變化，只是有些重要的東西仍然會(huì)缺失。

至于缺失的是什么，盡管網(wǎng)友們狂轟亂炸了一番，但神秘的Ilya又“隱身”了。

既然等不到他的回答，那我們只能從一些采訪中扒一扒蛛絲馬跡了。

其中，我們就看到了這樣一個(gè)關(guān)鍵詞——情緒。Ilya無(wú)意間提過(guò)這樣一件事：

我碰到過(guò)一個(gè)例子，有一個(gè)人腦部受損，可能是中風(fēng)或意外事故，導(dǎo)致他喪失了情感處理能力。所以他不再能感受到任何情緒。他仍然能言善辯，也能解一些簡(jiǎn)單的謎題，考試成績(jī)也一切正常。
但他感覺(jué)不到任何情緒。他不會(huì)感到悲傷，不會(huì)感到憤怒，也不會(huì)感到興奮。不知何故，他變得極其不擅長(zhǎng)做任何決定。他甚至要花幾個(gè)小時(shí)才能決定穿哪雙襪子。他在財(cái)務(wù)方面也會(huì)做出非常糟糕的決定。
這說(shuō)明我們與生俱來(lái)的情感在使我們成為合格的行動(dòng)主體方面扮演著怎樣的角色？說(shuō)到你提到的預(yù)訓(xùn)練，如果你能充分發(fā)揮預(yù)訓(xùn)練的優(yōu)勢(shì)，或許也能達(dá)到同樣的效果。但這似乎……嗯，預(yù)訓(xùn)練是否真的能達(dá)到這種效果還很難說(shuō)

Anyway，在Ilya看來(lái)，Scaling Law或許有用，但真的是否夠用絕對(duì)大打問(wèn)號(hào)

而另一個(gè)和Ilya同樣對(duì)Scaling Law持懷疑態(tài)度的是Yann LeCun。

LeCun在今年4月的一場(chǎng)采訪中表示：

你不能簡(jiǎn)單地假設(shè)更多的數(shù)據(jù)和計(jì)算能力就意味著更智能的人工智能

而且眾所周知，LeCun一直認(rèn)為大語(yǔ)言模型無(wú)法實(shí)現(xiàn)AGI，為此他還另行成立公司創(chuàng)業(yè)世界模型。

至此，表面上看，硅谷大佬們針對(duì)Scaling Law問(wèn)題似乎形成了態(tài)度鮮明的兩派。

但這時(shí)Noam Brown又站出來(lái)了（前面提到的o1核心成員），他表示：

如今的社交媒體往往會(huì)把AI辯論簡(jiǎn)化成兩種夸張的刻板印象：

（A）懷疑派，認(rèn)為大語(yǔ)言模型沒(méi)戲，AI純屬炒作。
（B）狂熱派，認(rèn)為萬(wàn)事已經(jīng)俱備，ASI（超級(jí)人工智能）指日可待。

但如果去看看頂尖研究人員實(shí)際上說(shuō)了什么，就會(huì)發(fā)現(xiàn)他們的觀點(diǎn)有著驚人的共識(shí)：

（1）當(dāng)前的范式即便沒(méi)有進(jìn)一步的研究突破，也可能足以帶來(lái)巨大的經(jīng)濟(jì)和社會(huì)影響；
（2）要實(shí)現(xiàn)AGI或ASI，或許還需要更多的研究突破（比如常提到的持續(xù)學(xué)習(xí)和樣本效率）
（3）沒(méi)人覺(jué)得ASI是天方夜譚，永遠(yuǎn)不會(huì)實(shí)現(xiàn)，分歧主要在于那些“突破”會(huì)是什么，以及它們來(lái)得會(huì)有多快。

這一總結(jié)也得到了LeCun的認(rèn)同：

因此，此時(shí)回過(guò)頭看Hinton和Ilya的分歧，其本質(zhì)或許并不在于要不要Scaling，而在于——

我們到底在Scaling什么？

[1]https://www.businessinsider.com/ai-Scaling-debate-geoffrey-hinton-ilya-sutskever-alexandr-wang-lecun-2025-12
[2]https://x.com/ilyasut/status/1994424504370581726
[3]https://x.com/ylecun/status/1994533846885523852

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.