“推理模型還處于RNN的階段”——李建忠對話GPT-5與Transformer發(fā)明者Lukasz Kaiser實錄

2025-10-10 18:26:01　來源: AI科技大本營

北京舉報

分享至

對話嘉賓 | 李建忠、Lukasz Kaiser

出品 | CSDN（ID：CSDNnews）

今年開年之際，DeepSeek R1 配合前年年末 OpenAI o1 轟炸了整個 AI 圈子，隨后強化學(xué)習(xí)之父 Rich Sutton 榮獲圖靈獎，又是用一篇論文向大家宣告了強化學(xué)習(xí)、經(jīng)驗時代這些詞匯將成為 2025 的主題，我們可能都難免這么覺得：推理模型的時代已經(jīng)來了！

但接下來的一個觀點卻刷新了我的認知：Transformer 核心發(fā)明者之一、OpenAI 科學(xué)家 Lukasz Kaiser 就直言，目前的推理模型還處在當(dāng)年 GPT 都沒出來的機器學(xué)習(xí)階段，未來還需要一個 Transformer 創(chuàng)新級別的推理模型。

而近期，這位定義了大模型核心架構(gòu)的關(guān)鍵人物，就與奇點智能研究院院長、CSDN 高級副總裁李建忠一道，在 CSDN 的《AI 進化論》欄目中展開了一場關(guān)于 “大模型的第一性思考” 的深度對話。

Lukasz Kaiser 是 AI 領(lǐng)域最具影響力的科學(xué)家之一，2017 年他與其他七位谷歌同事（后稱“Transformer 八子”）共同撰寫了那篇開創(chuàng)性的論文《Attention Is All You Need》，歷史性地提出了 Transformer 架構(gòu)，奠定了今天大語言模型的核心基石。后來他加盟 OpenAI ，深度主導(dǎo)了 GPT-5、GPT-4、以及代號為 “o1”和“o3”的推理模型方面的研究工作。作為改變世界的 AI 研究者，他的工作直接定義了我們今天所熟知的大語言模型技術(shù)。正因如此，他對于大模型的技術(shù)架構(gòu)、Scaling Law 的邊界，以及通往 AGI 的新范式——推理模型，有著旁人無法企及的深刻理解。

面對這樣一位技術(shù)前沿的引領(lǐng)者，李建忠?guī)е鴮δＰ图軜?gòu)、Agent、Scaling Law 及未來范式的深度洞察與思考，提出了尖銳而富有洞見的問題。兩人的交流既是技術(shù)細節(jié)的剖析，也是對未來發(fā)展方向的大膽推演。

以下是這場對談的十個最重要的話題：

對話一：語言對于智能到底意味著什么？
對話二：多模態(tài)與世界模型的挑戰(zhàn)
對話三：AI 編程：自然語言是終極目標(biāo)，還是新的“巴別塔”？
對話四：Agent 的泛化困境：是方法問題，還是根本限制？
對話五：算力與算法：Scaling Law 是信仰還是路徑依賴？
對話六：具身智能的挑戰(zhàn)：是數(shù)據(jù)問題？還是比特和原子的根本性差異？
對話七：強化學(xué)習(xí)：是超級優(yōu)化器，還是科學(xué)發(fā)現(xiàn)的引擎？
對話八：AI 的組織躍遷：如何實現(xiàn)大規(guī)模 Agent 協(xié)作？
對話九：AI 記憶的瓶頸：模型離真正的“原生記憶”還有多遠？
對話十：大模型如何擺脫瞬時學(xué)習(xí)，而像人類一樣持續(xù)學(xué)習(xí)？

在 AI 發(fā)展的這個關(guān)鍵時刻，相信這場對話中對前沿問題的深度思辨，將為我們理解 AI 的下一個發(fā)展階段提供重要的參考和啟示。

對話一 | 語言對于智能到底意味著什么？

李建忠：我想首先談?wù)務(wù)Z言和視覺在 AI 中扮演的角色。業(yè)界有一些觀點，以楊立昆（Yann LeCun）等人為代表，認為靠語言模型通往 AGI 是一條死路。其理由是，語言是對物理世界的一種低帶寬、有損的描述。AI 必須從視覺等高帶寬的數(shù)據(jù)中學(xué)習(xí)。但是如果我們回顧 AI 的發(fā)展歷史，在大語言模型出現(xiàn)之前，神經(jīng)網(wǎng)絡(luò)在視覺領(lǐng)域已經(jīng)有了大量應(yīng)用，但那時 AI 的智能水平相當(dāng)?shù)?。直?ChatGPT 這樣的大語言模型橫空出世，AI 的智能才真正開始騰飛。你如何看語言和視覺在構(gòu)建智能過程中的作用？

Lukasz Kaiser：我認為，從時間的維度去理解語言是非常有用的。有一個著名的說法，雖然我從未核實過其真實性：有一種在大海里游弋的動物（海鞘），它擁有大腦。但當(dāng)它在某塊巖石上定居后，就再也不會移動了。此時，它做的第一件事就是吃掉自己的大腦，因為大腦對一個不再行動的生物來說已經(jīng)失去了作用。這個故事說明，如果你不采取行動，智能其實沒什么用。

我們過去所說的視覺模型大多是靜態(tài)的，例如回答“這張圖片里有貓嗎？”這類問題。那時根本沒有真正的視頻模型。因此我相信，在時間維度中的存在——這可能意味著采取行動，即便只是解釋隨時間發(fā)生的變化——對智能來說都至關(guān)重要。語言顯然具備時間維度，它總是在生成下一個詞，再下一個詞，不斷延續(xù)。

我們現(xiàn)在稱之為的語言模型，在開發(fā) Transformer 時，被稱為序列模型（sequence models）。處理什么序列并不重要，即使現(xiàn)在，它也可以處理“蛋白質(zhì)序列”或“音頻序列”。因此，時間序列是表達智能的一個重要組成部分。

李建忠：我個人傾向于認為，語言經(jīng)過了人類的編碼和壓縮，它在智能的表征上要比視覺更高效一些，而即便有時間序列的視頻，對智能的表征也往往要低于語言。尤瓦爾·赫拉利在他的著作《人類簡史》中提出，人類和動物最大的區(qū)別在于我們能用語言描述這個世界上不存在的事物。著名哲學(xué)家維特根斯坦也有一句名言：“語言的邊界，就是世界的邊界?！蔽抑霸磉_過一個觀點，回看過去十年，AI 領(lǐng)域的里程碑發(fā)展得益于我們終于認識到語言在智能中的核心作用，ChatGPT 的成功源于此，Transformer 的成功也源于此。

Lukasz Kaiser：我也相信語言是賦予智能一種特殊力量的關(guān)鍵。雖然許多沒有語言的動物也擁有一定程度的智能，智能也可以在沒有語言的情況下發(fā)展。另外從技術(shù)上講，訓(xùn)練語言實在非常方便。我們在互聯(lián)網(wǎng)上有海量的語言數(shù)據(jù)，用語言進行訓(xùn)練遠比用視頻便宜。這些優(yōu)勢有一些是實踐層面。未來，要獲得更卓越的智能模型，我們還要繼續(xù)基于視頻和音頻進行訓(xùn)練。這在技術(shù)上會與純語言模型有所不同，但另一方面，序列處理和注意力機制在處理這類數(shù)據(jù)時同樣適用。

李建忠：一些人認為當(dāng)前的大語言模型只是“鸚鵡學(xué)舌”，他們認為模型并沒有真正理解它們所學(xué)習(xí)和生成的文本。但如果我們仔細觀察大模型的學(xué)習(xí)機制，它們與人類的學(xué)習(xí)過程非常相似。例如，Anthropic 在三月份的一篇論文中展示了，當(dāng)模型在語言上進行訓(xùn)練時，它會在內(nèi)部形成“抽象概念”。論文談到一個模型如何學(xué)習(xí)多種不同語言中的詞時，例如“蘋果”，它在神經(jīng)網(wǎng)絡(luò)內(nèi)部創(chuàng)建了一個獨立的、不與任何一種語言綁定的“蘋果的抽象概念”。而在訓(xùn)練過程中，模型從未被明確地灌輸過一個“蘋果的抽象概念”。這似乎與人類在學(xué)習(xí)語言時，在大腦中構(gòu)建一個復(fù)雜的抽象概念體系的過程非常相似。

Lukasz Kaiser：我們現(xiàn)在可以從實踐上證明，語言模型確實會形成概念，尤其是現(xiàn)在模型都在并行地用多種語言進行訓(xùn)練，這一點很容易觀察到。你可以給模型一個數(shù)學(xué)問題，然后用五種不同的語言重新表述它。盡管模型是逐個 token 生成答案的，不同語言的 token 會截然不同，沒有任何共同之處，但答案基本上是相同的。如果模型在英語中犯了一個錯誤，它在中文里也會犯同樣的錯誤。如果模型采用某種解題方式，那么另一個語言的答案基本上就是前一個答案的翻譯。

這清晰地表明，在網(wǎng)絡(luò)的激活狀態(tài)中的某個地方，模型正在一個非常抽象的空間里解決問題、思考概念，然后在上層網(wǎng)絡(luò)中用某種語言把它表達出來。從這個意義上說，模型中顯然存在獨立于語言的抽象概念，并且已經(jīng)有人對此進行了研究。你甚至可以看到對應(yīng)特定主題或行為的概念。

但我們也要記住，至少對于那些沒有經(jīng)過大量多模態(tài)數(shù)據(jù)訓(xùn)練的模型來說，它們可能沒有與我們?nèi)祟惛拍钕嗨频?、對?yīng)某些物理實體的概念。比如我們所相信的“痛苦”（pain）或“愛”（love）等概念。模型知道這些詞，它可以給你講述優(yōu)美的故事，但這與我們植根于物理世界真實感受的概念有所不同。

所以，模型確實有概念，但我們也應(yīng)該理解，至少其中一些概念可能和我們?nèi)祟惖母拍畈煌?。雖然從模型使用的詞語來看，它們是相似的，因為這些詞來自我們的語言和互聯(lián)網(wǎng)，但這并不意味著它們的內(nèi)涵完全相同。在很多領(lǐng)域，比如數(shù)學(xué)，這種差異可能無關(guān)緊要。因為數(shù)學(xué)對我們來說也是非常抽象的，我們主要通過符號和圖片來學(xué)習(xí)，模型也一樣。但在那些與身體和物理世界緊密相關(guān)的事情上，情況有些不同。我們可能會被模型的言辭所迷惑，因為它使用了和我們一樣的詞語，但其內(nèi)涵并不完全一樣。

對話二 | 多模態(tài)與世界模型的挑戰(zhàn)

李建忠：現(xiàn)在多模態(tài)發(fā)展得非?？欤瑯I(yè)界有一種趨勢是追求一個“統(tǒng)一模型、統(tǒng)一模態(tài)”——使用一個通用的架構(gòu)，來處理所有模態(tài)和任務(wù)。但不同的模態(tài)似乎適配不同的模型，例如，語言適用自回歸模型，而視覺則適用擴散模型。我注意到你們“Transformer 八子“在 2017 年 6 月發(fā)表《Attention Is All You Need》的同月，你們其中七位作者也發(fā)表過一篇論文《One Model to Learn Them All》。八年后的今天，你如何看待“統(tǒng)一模態(tài)”和“統(tǒng)一模型”之間的關(guān)系？這里最大的挑戰(zhàn)是什么？

Lukasz Kaiser：從實踐層面來看，像 GPT-4 這樣的現(xiàn)代大語言模型已經(jīng)是多模態(tài)模型了。它們能接收圖像和音頻輸入，也能生成圖像和音頻。從某種意義上說，我本可以說我們已經(jīng)解決了這個問題。但我也承認，模態(tài)之間的遷移水平還不盡如人意。

當(dāng)模型足夠大，數(shù)據(jù)足夠多時，它們能設(shè)法完成多模態(tài)任務(wù)。你可以在 ChatGPT 中啟用語音模式，它會和你對話，在需要的時候，也會把語音轉(zhuǎn)錄成文字，進行思考并回答，甚至還能唱歌。所以從實踐角度看，這個問題已經(jīng)取得了巨大的進展。

但我承認，當(dāng)你仔細觀察視頻時，會發(fā)現(xiàn)一些不完全令人滿意的地方。當(dāng)前語言模型處理多模態(tài)的方式通常是通過 VQ-VAE。圖像或音頻的每個部分，都會通過一個編碼器得到一個特殊的代碼。這個編碼器通常是預(yù)訓(xùn)練好并且固定的，有時也可能和大語言模型一起訓(xùn)練，但其訓(xùn)練量通常不大，并且有一個固定的頻率。對于音頻，可能是每幾秒對應(yīng)一個符號；對于圖像，則是每多少像素對應(yīng)一個符號。這個方法算是有效，我們成功地讓它運作起來了。但它給人的感覺不那么令人滿意，因為我們的眼睛不像是一個具有固定分辨率的傳感器。當(dāng)然，從某種意義上說它有，但我可以四處移動眼睛來動態(tài)獲取信息。

所以，我認為我們可以將多模態(tài)更深入地融合到模型中。這需要我們目前使用的 VQ-VAE 代碼變得更具可訓(xùn)練性，并且能與語言進行更多的交互。這方面有很棒的研究正在進行中，隨著人們越來越習(xí)慣于模型處理多模態(tài)任務(wù)，將會推動將這些研究深入整合到大語言模型中。

李建忠：我不清楚為什么很多視覺派的研究者經(jīng)常否定語言的重要性。確實如你所說，與語言進行交互對于多模態(tài)非常重要。離開語言，視覺似乎只是一些像素信號。要對視覺中的每一個對象賦予語義含義，語言功不可沒。我個人認為有些視覺派如果繼續(xù)否定語言在智能中的價值，可能會再次跌入 2022 年 ChatGPT 發(fā)布之前的錯誤路線。那時候也是視覺派大行其道的時候，但是識別能力在智能中是一個非常低階的能力，真要的認知和理解，似乎離不開語言。

下面讓我們來談?wù)勈澜缒Ｐ?。包括楊立昆（Yann LeCun）、李飛飛在內(nèi)的一部分學(xué)者認為，靠大語言模型無法實現(xiàn)通用人工智能（AGI），因為他們相信世界模型才是 AGI 的核心，他們認為 AI 必須首先通過觀察世界來學(xué)習(xí)物理世界的規(guī)則，然后才能真正進行推理。但是，我非常懷疑 AI 僅通過觀察世界就能理解物理世界的所有法則嗎？

Lukasz Kaiser：我相信現(xiàn)代大語言模型在某種程度上就是世界模型。問題在于，它們是足夠好的世界模型嗎？要回答這個問題，我們需要問自己，它們應(yīng)該描述世界的哪些方面？

我認為，如果談到文本和數(shù)學(xué)等方面，它們是令人驚嘆的模型。如果你問“下一個詞是什么？”，它們幾乎是無與倫比的絕佳的語言模型，可以準確地告訴你，在互聯(lián)網(wǎng)上人們通常在這句話之后會說什么。但它們作為物理模型的表現(xiàn)，就不如它們作為語言模型那么出色了。這背后有幾個原因。

首先，正如我們所說，它們沒有在足夠多的視頻數(shù)據(jù)上進行訓(xùn)練。其次，我們電腦中常用的視頻數(shù)據(jù)格式，與我們體驗世界的方式非常不同，因為我們還會采取行動、移動我們的眼睛。我們的體驗絕不像純粹的圖像在眼前播放，或許在嬰兒早期是這樣，但很快就消失了。所以，無論是數(shù)據(jù)的數(shù)量還是質(zhì)量都還不夠好。而且，就像我之前說的，我認為目前的架構(gòu)也還不足以勝任這一點，盡管大語言模型的多模態(tài)能力一直在穩(wěn)步提升，而且我認為會持續(xù)提升。

所以我認為，通過架構(gòu)和損失函數(shù)的改進，加上更好、更多的數(shù)據(jù)，將有助于彌合人們所認為的“世界模型”與“語言模型”之間的差距。另外，像 Sora、Genie 和 Veo 這樣的模型表明，如果你從視頻中學(xué)習(xí)，即使使用當(dāng)前的方法，也可以非常接近一個世界模型?；蛟S還沒有完全達到，而且在數(shù)據(jù)效率上，學(xué)習(xí)過程肯定還不如人類，但我們正在彌合差距方面取得重大進展。

李建忠：我個人的感覺是，真正的世界模型需要融合語言模型和其他模態(tài)，以及基于語言的推理。單純靠觀察世界無法形成智能，就像在 16-17 世紀科學(xué)革命之前，人們通過觀察世界可能得到的是“地球是宇宙的中心”這樣錯誤的概念。而現(xiàn)在每一個受到過教育的孩子都知道，在銀河系太陽是中心。這顯然不是通過簡單觀察世界就能得出來的，而是通過源于文字的訓(xùn)練得到的。

對話三 | AI 編程：自然語言是終極目標(biāo)，還是新的“巴別塔”？

李建忠：讓我們來聊聊編程。AI 編程似乎已經(jīng)成為大語言模型的一個殺手級應(yīng)用。當(dāng)你們創(chuàng)造 Transformer 架構(gòu)時，有沒有想過它不僅能處理人類語言，還能如此出色地處理編程語言？

Lukasz Kaiser：當(dāng)然，Transformer 的共同發(fā)明人 Ilia Polosukhin，甚至在《Attention Is All You Need》論文發(fā)表前就離開了谷歌，創(chuàng)辦了一家致力于自動化編程的公司。我差點成了那家公司的聯(lián)合創(chuàng)始人，但我當(dāng)時認為時機還有點太早。后來，這家公司成功地轉(zhuǎn)型到了加密貨幣領(lǐng)域，但它未來可能會再重回自動化編程領(lǐng)域。所以，這確實是在我們設(shè)想之內(nèi)的。相比于預(yù)見到這么快就出現(xiàn)像 ChatGPT 這樣的產(chǎn)品，我們當(dāng)時可能更相信自動化編程的可行性，因為感覺它比處理任意的對話要更容易。但事實證明，它們本質(zhì)上是同一件事。

李建忠：關(guān)于 AI 編程的未來，當(dāng)前主要有兩種觀點。第一種是“AI 原生”（AI Native）模式，認為未來高級編程語言會變得像匯編語言一樣——仍然存在，但隱藏在幕后。所有的軟件開發(fā)都將通過自然語言完成，通過像氛圍編程（Vibe Coding）這樣的方式。第二種觀點是“AI 副駕駛”（AI Copilot）模式，認為自然語言的模糊性與馮·諾依曼機器所要求的精確性之間存在根本沖突。因此，程序員仍然需要使用高級語言來表達他們的核心思想，自然語言只是作為一種補充。你如何看待這兩種觀點？

Lukasz Kaiser：如果你展望幾年后的未來，我認為語言模型將能夠覆蓋大量的編程工作。我肯定更愿意直接和我的 Codex Agent 或類似的東西對話，然后說：“你運行這個了嗎？它看起來怎么樣？”

但另一方面，在某個時刻，這個 Agent 需要向你解釋為什么某個東西運行緩慢，因為它需要說明計算機網(wǎng)絡(luò)是如何工作的。為了解釋這類事物和概念，數(shù)學(xué)家用數(shù)學(xué)來解釋，程序員用更高級的語言。我們可能會使用一些混合的方式，比如數(shù)學(xué)和算法，而物理學(xué)家可能會畫圖或用其他方式來解釋。我認為學(xué)習(xí)數(shù)學(xué)和編程都是非常有用的。如果你試圖用純自然語言來解釋數(shù)學(xué)，不帶任何符號，那實際上會困難得多。符號有助于人們解釋和理解正在發(fā)生的事情。我認為這在某種程度上也適用于編程語言，它們是比純自然語言更好的溝通工具。

當(dāng)然，如果你不懂這些，我相信模型會很好地用自然語言為你解釋。但如果你想成為一名專業(yè)的程序員，即使在未來，你最好還是了解這些概念并熟練掌握它們，因為這會讓你與模型的溝通更快、更高效。

李建忠：非常同意。我個人的觀點是未來可能一部分復(fù)雜的、系統(tǒng)級的軟件仍然需要專業(yè)程序員使用Copilot模式來編寫。但更多的應(yīng)用軟件、偏終端用戶交互型的，大眾用戶使用自然語言編程即可完成。

談?wù)動嬎銠C編程語言，有一種觀點認為今天的編程語言是為人類編寫而創(chuàng)造的。在未來，我們是否會看到新一代的高級編程語言，專門為 AI 生成代碼而設(shè)計？

Lukasz Kaiser：我不太確定，未來很難預(yù)測。我認為我們已經(jīng)有了從非常高級到非常貼近機器的編程語言。編程的重點不一定在于特定的語言，而更多地在于溝通你希望機器做什么，以及這個過程中機器或機器網(wǎng)絡(luò)如何被編排。所以，要做好編程，關(guān)鍵在于良好的溝通和抽象。我不認為我們一定需要新的編程語言，我們可以使用現(xiàn)有的編程語言，只是要用得非常好。而這正是 AI 有望幫助我們的地方，因為很多現(xiàn)有的系統(tǒng)顯然可以做得更好。

李建忠：新的編程語言的需求來自于新的計算機架構(gòu)，而并不來自于 AI 編程的需求。如果有新的計算硬件架構(gòu)，當(dāng)前編程語言不能滿足，那么就會有新的編程語言被創(chuàng)造出來。

對話四 | Agent 的泛化困境：是方法問題，還是根本限制？

李建忠：現(xiàn)在許多主流模型都內(nèi)置了“智能體”的訓(xùn)練，以提升在特定任務(wù)上的表現(xiàn)，成為所謂“智能體模型 Agentic Model”。但這種 Agent 的訓(xùn)練似乎很難泛化到新的、未見過的任務(wù)上。這就引出了一個關(guān)鍵問題：這種泛化問題之所以出現(xiàn)，是因為我們還沒找到正確的訓(xùn)練方法，就像那種讓語言模型變得如此泛化的方法一樣？還是說這是一種更根本的局限？Agent 領(lǐng)域會走向一個為不同任務(wù)專門打造的“垂直模型”時代嗎？或者，大多數(shù) Agent 任務(wù)會繼續(xù)由模型之外的框架來處理？

Lukasz Kaiser：我總是很難理解什么是“智能體模型”（Agentic Model）。這個詞被頻繁使用，但據(jù)我理解，這個詞背后并沒有一個堅實的技術(shù)實體。對我來說，人們所說的智能體模型，是指那些在其推理過程中能夠調(diào)用各種外部工具的推理模型，例如：代碼解釋器、網(wǎng)絡(luò)搜索工具，或者文檔檢索工具等。它們都是用強化學(xué)習(xí)來訓(xùn)練的，和我們現(xiàn)在訓(xùn)練模型的方式一樣，而且這套方法效果很好。

我認為問題出在，當(dāng)人們希望這些模型去使用它們未經(jīng)訓(xùn)練的其他工具、其他模型、或事物時，有時它們能泛化一點，但有時效果并不好。在任何情況下，如果你讓這些模型互相調(diào)用，你可以要求它們這樣做，而且現(xiàn)在的模型足夠聰明，總能得出點什么結(jié)果。

但這個過程中沒有學(xué)習(xí)信號。比如，網(wǎng)絡(luò)搜索的學(xué)習(xí)信號來自強化學(xué)習(xí)訓(xùn)練，在訓(xùn)練中你給模型設(shè)定任務(wù)，比如“你需要在網(wǎng)上找到 Lukasz Kaiser 在某年到某年間寫了哪些論文”，并且你有一種方法來檢查答案是否正確。模型會反復(fù)嘗試，最終學(xué)會如何正確完成任務(wù)。而人們現(xiàn)在所說的“Agent 系統(tǒng)”，通常只是被定義出來，但沒有學(xué)習(xí)過程，所以效果并不好。

我相信強化學(xué)習(xí)可以被泛化到更大的系統(tǒng)，但這在當(dāng)前有些困難。因為至少以我們目前的方式，要進行強化學(xué)習(xí)，你需要在訓(xùn)練期間讓模型接觸到所有這些東西，這意味著你需要有一個可以訓(xùn)練和更新的網(wǎng)絡(luò)索引，還需要一個 Python 解釋器。所以，如果你想支持多智能體系統(tǒng)，你可能需要整個世界的模擬環(huán)境來訓(xùn)練它，而這通常是你沒有的。

需要做更多的工作來讓這些系統(tǒng)變得可訓(xùn)練。另一方面，即使沒有太多訓(xùn)練，它們也可能非常有用，因為模型本身非常聰明，可以零樣本（zero-shot）完成很多事情。但除非你能將整個系統(tǒng)一起訓(xùn)練，否則它不會變得真正出色，而這在目前確實還不太好實現(xiàn)。

對話五 | 算力與算法：Scaling Law 是信仰還是路徑依賴？

李建忠：下一個問題是關(guān)于擴展法則（Scaling Law）的。業(yè)界有一種強烈的信念，認為 Scaling Law 是通往更強 AI 的答案，這包括在預(yù)訓(xùn)練、強化學(xué)習(xí)，測試時三個階段的擴展。這導(dǎo)致整個業(yè)界對算力的“蒙眼狂奔”。強化學(xué)習(xí)之父Rich Sutton在《苦澀的教訓(xùn)》中談到，過去 70 年 AI 領(lǐng)域最大教訓(xùn)是，通用可擴展的算力是 AI 發(fā)展的關(guān)鍵驅(qū)動力。但這是否會讓我們陷入一種“算力崇拜”，一種路徑依賴，使我們忽略算法和架構(gòu)上可能取得的突破？我知道你正在研究小規(guī)模數(shù)據(jù)上的推理。我們是否有機會在 Transformer 之外發(fā)明一種新的架構(gòu)，開創(chuàng)一個全新的范式，而不是依賴更多的 GPU ？

Lukasz Kaiser：我其實認為，來自預(yù)訓(xùn)練的 Scaling Law 和來自強化學(xué)習(xí)的 Scaling Law 不完全是一回事。因為它們的曲線看起來一樣，所以人們傾向于把它們放在一起，但我認為它們實際上相當(dāng)不同，我更愿意將它們分開來看。

預(yù)訓(xùn)練的 Scaling Law 當(dāng)然已經(jīng)帶我們走了很遠，我認為它還會帶我們走得更遠。但是，你愿意擴展到什么程度，存在一個經(jīng)濟上的限制。我們可以建造更大的模型，人們希望進行推理，但也不想為每個 token 支付一千美元。所以，這在實踐和經(jīng)濟上有一個極限，我們離這個極限并不遠?，F(xiàn)在，我們還學(xué)到了一點，就是可以將一些大模型蒸餾成更小的模型。所以我確實相信預(yù)訓(xùn)練的 Scaling Law 會一直持續(xù)下去，但它在實踐層面可能已經(jīng)達到了經(jīng)濟上的極限。

在推理模型出現(xiàn)之前，那時我剛加入 OpenAI ，我們曾有一篇關(guān)于解決 GSM-8K（一個六年級水平的數(shù)學(xué)數(shù)據(jù)集）的論文。當(dāng)時我們必須用上最大的模型，才能在那個數(shù)據(jù)集上達到 60% 左右的準確率。我們?yōu)槟莻€數(shù)學(xué)數(shù)據(jù)建立了一個 Scaling Law，結(jié)果顯示我們可能需要超過 1000 萬億個參數(shù)才能解決這個數(shù)據(jù)集，這基本上是一個不可能達到的數(shù)字。所以，預(yù)訓(xùn)練的 Scaling Law 雖然有效，但它帶給我們的速度在實踐中并不可行。后來事實證明，如果你使用強化學(xué)習(xí)推理，現(xiàn)在可以用非常小的模型解決整個數(shù)據(jù)集和更難的問題。所以，預(yù)訓(xùn)練的 Scaling Law 很棒，但它也無法帶我們到達我們想去的地方。

現(xiàn)在來看推理模型，它們并不增加參數(shù)數(shù)量，我們有的是一個固定的模型。而在預(yù)訓(xùn)練的擴展中，我們需要更多的參數(shù)，這意味著也需要更多的數(shù)據(jù)，數(shù)據(jù)的質(zhì)量、來源等都要考慮。而現(xiàn)在有了強化學(xué)習(xí)、有了推理模型，它們就像循環(huán)模型，只需要讓它們運行更長時間，它們就會變得更好。這是一個非常神奇的法則。如果我們能永遠這樣做下去，那可能會很棒。但它有另一種限制，因為所有東西都在上下文中，需要注意力機制，這是一個模型架構(gòu)問題。Transformer 最初是為翻譯設(shè)計的，那時上下文里可能只有 100 個詞，現(xiàn)在我們有時能有一百萬個，但它從未被設(shè)計成無限運行。所以需要一些新的想法來解決這類問題。

另一個問題是強化學(xué)習(xí)。至少以目前的方式，你在最后只有一個信號。你花了大量時間思考、思考、再思考，但然后得到一個反饋：“答對了”或“答錯了”，或者可能得到一個浮點數(shù)。你花費所有這些時間就得到一個獎勵。如果這個思考時間是幾小時，你也許會投資。但如果是幾周、幾個月或幾年，你實際上無法訓(xùn)練這樣的模型，因為你不能等一周才讓模型得到一個獎勵。即使你并行做很多次，也還是不足以訓(xùn)練。

所以，推理的 Scaling Law 與預(yù)訓(xùn)練的 Scaling Law 有著非常不同的限制。因此，這也呼喚著新的研究和不同的架構(gòu)。甚至很難說是架構(gòu)，因為它不一定是傳統(tǒng)意義上的模型架構(gòu)。我認為在那種情況下，Transformer 可能仍然可以工作得很好。在強化學(xué)習(xí)中，我們曾經(jīng)有過價值函數(shù)。我們目前用于語言模型的強化學(xué)習(xí)，實際上是 RL 中最簡單的算法之一。也許我們需要一種更好的信用分配方式，也許需要重新審視整個強化學(xué)習(xí)的文獻，看看哪些適用于長序列推理 Rollout。這是一個不同的限制。如果我們改變了強化學(xué)習(xí)或架構(gòu)中的某些部分，可能很難說清楚它還是老的推理模型，還是一個新范式。推理模型某種意義上可以說仍然是 Transformer，所以可能下一個范式仍然是強化學(xué)習(xí)，只是方式不同而已。要弄清楚到底該怎么做才能讓一切奏效，仍然非常困難。

對話六 | 具身智能的挑戰(zhàn)：是數(shù)據(jù)問題？還是比特和原子的根本性差異？

李建忠：我們來聊聊具身智能。大模型在比特世界的成功，讓人們對物理世界寄予了厚望。但具身智能的進展，比如人形機器人，一直緩慢且充滿爭議，尤其是在泛化方面。對此主要有兩種觀點。第一種觀點認為，核心問題在于數(shù)據(jù)匱乏。我們只是還沒找到一種方法，能像收集互聯(lián)網(wǎng)數(shù)據(jù)那樣，大規(guī)模地收集物理世界的數(shù)據(jù)。第二種觀點認為，問題在于比特和原子之間的根本差異。例如，比特可以被大量復(fù)制和生成，而原子不能。因此，具身智能的 Scaling Law 將與我們熟知的、基于 Transformer 的 Scaling Law 有著根本的不同，它可能需要一個全新的、與 Transformer 非常不同的架構(gòu)。你如何看待這兩種不同的觀點？

Lukasz Kaiser：我相信我們會發(fā)現(xiàn)，具身智能將比我們想象的更接近于當(dāng)前的 LLM。物理世界的數(shù)據(jù)確實比互聯(lián)網(wǎng)上的少得多，但我們在提高模型的數(shù)據(jù)效率方面取得了長足的進步。實際上，推理模型就是一個很好的例子，我們現(xiàn)在用比預(yù)訓(xùn)練時少得多的樣本來教它們數(shù)學(xué)。大概幾十萬個任務(wù)就足以讓它在許多非常困難的任務(wù)上從基本 0% 的準確率提升到 100%。這在物理學(xué)和許多其他領(lǐng)域也是類似的。

但這些模型確實依賴于一個預(yù)先訓(xùn)練好的模型。所以對于物理任務(wù)，我們可能需要一些在多模態(tài)方面表現(xiàn)更好的模型，尤其是在視頻方面。我相信像 Sora 或 Veo 這樣能生成或理解視頻的模型，是未來能在物理世界中行動的模型的絕佳前驅(qū)，它們就像是預(yù)訓(xùn)練部分。

但要真正教會機器人操作，我們需要像 RL（強化學(xué)習(xí)）那樣的推理部分，它需要從一個在大量視頻上訓(xùn)練過的、非常好的多模態(tài)模型開始。我們現(xiàn)在還沒有這樣的模型，雖然這個領(lǐng)域正在變得越來越好，但還沒有達到足以在復(fù)雜環(huán)境中操控真實機器人的門檻。所以，我們需要好的基礎(chǔ)模型。在此之上，可能只需要少量數(shù)據(jù)，我們需要以一種非常好的方式加入 RL 訓(xùn)練，比如允許模型在采取行動前進行一些推理。當(dāng)然，這也有現(xiàn)實的障礙。例如，我們目前的推理模型，如果你想讓它在機器人的每一個動作前都進行推理，那速度就太慢了，無法在現(xiàn)實世界中有效行動。

所以，它可能需要某種層級式架構(gòu)來至少能夠輸出動作。架構(gòu)需要一些調(diào)整，就像多模態(tài)一樣。但我確實認為，在某個地方會有一個核心的 Transformer 在運行。我相信沿著這樣的路徑，我們將能得到相當(dāng)不錯的機器人模型和具身智能。

當(dāng)然，我不認為這是實現(xiàn)具身智能最高效的方式。如果你觀察人類，我們的行動方式似乎并非如此，我們以及動物在這方面非常擅長。所以我確實相信，之后會有一代新模型，在數(shù)據(jù)和計算上都將高效得多，它會在架構(gòu)和學(xué)習(xí)過程中帶來更多的改變。但通常來說，只要你有了一個至少能跑起來的架構(gòu)，開發(fā)下一個版本就會容易得多。所以我認為，第一個版本可能實際上是建立在我們現(xiàn)有成果之上的，但會做一些調(diào)整以適應(yīng)實際應(yīng)用。

對話七 | 強化學(xué)習(xí)：是超級優(yōu)化器，還是科學(xué)發(fā)現(xiàn)的引擎？

李建忠：我們來談?wù)剰娀瘜W(xué)習(xí)。在去年 OpenAI 的 O1和開源的 DeepSeek R1 等模型出現(xiàn)后，我們正看到一個向新范式的巨大轉(zhuǎn)變：由強化學(xué)習(xí)驅(qū)動的推理范式。人們對此寄予厚望，認為 RL 可以擴展人類知識的邊界。但在多大程度上，這種探索是真正的“開放式創(chuàng)新”？又在多大程度上，它只是在人類定義的環(huán)境和獎勵函數(shù)內(nèi)的“閉環(huán)優(yōu)化”？你認為這種由 RL 驅(qū)動的推理方法，能夠帶來真正全新的科學(xué)發(fā)現(xiàn)嗎？目前最大的挑戰(zhàn)是什么？

Lukasz Kaiser：我?guī)缀醢淹评砟Ｐ涂醋饕环N新的架構(gòu)，即使它們底層是 Transformer。它們有這種“思維鏈”，也就是推理過程，你可以把它看作一個潛變量。模型在說話前會先思考。如果你把整個系統(tǒng)看作一個模型，那么你就無法很好地帶著梯度來訓(xùn)練離散的潛變量。你可以試試，而且之前也有人這么試過，但結(jié)果證明這條路走不太通。你可以用強化學(xué)習(xí)的方式來做，這經(jīng)過大量嘗試，在某種程度上證明至少是可行的。

這里有兩個問題。一個是，這種 RL 訓(xùn)練的效果如何，它有什么局限性？例如，你必須從一個已經(jīng)用梯度下降預(yù)訓(xùn)練過的模型開始，而不能從隨機權(quán)重開始，至少我們還不知道是否可以這樣做。所以與梯度下降相比，它肯定有一些局限性。但它有一個巨大的優(yōu)勢，就是數(shù)據(jù)效率高得多。它可以從有限的、少得多的一組數(shù)據(jù)中學(xué)習(xí)，比如僅僅 1000 道數(shù)學(xué)練習(xí)題。

我相信因為 RL 非常抽象，你只得到一個獎勵，你對這個獎勵沒有任何約束。如果你能很好地優(yōu)化它，那么你就應(yīng)該能夠?qū)W習(xí)。你可以拿一篇關(guān)于數(shù)學(xué)或物理學(xué)特定主題的研究論文，把它變成 RL 的學(xué)習(xí)任務(wù)——如果它確實是數(shù)據(jù)高效的，我們看到它確實是——那么模型就可以從中學(xué)習(xí)，并突然之間在這個特定的研究課題上變得知識淵博。模型可以開始提出一些想法，甚至連從事這項研究的專業(yè)人員都會覺得有趣和新穎。我相信我們會看到這一點。

但是，這種用于語言模型的強化學(xué)習(xí)范式，OpenAI o1 的預(yù)覽版是一年前才發(fā)布的，DeepSeek R1 更晚。即使你看那些可能幾年前開始的研究，也就是大約三年的時間。而在更廣泛的社區(qū)中，它基本上是從一年前才開始的。我們還處于這個范式的非常早期階段，我相信還有很多東西需要嘗試、發(fā)現(xiàn)和改進，才能讓它更高效，走得更遠。另一方面，我當(dāng)然相信這些模型已經(jīng)展現(xiàn)出很棒的東西。無論是公司、學(xué)術(shù)界、還是很多研究人員，我希望能一起將該范式推向一個更高的境地。

對話八 | AI 的組織躍遷：如何實現(xiàn)大規(guī)模 Agent 協(xié)作？

李建忠：去年，OpenAI 提出了一個五級的 AGI 等級劃分，其中更高的等級是由“創(chuàng)新”和“組織”來定義的。我們剛剛談到了創(chuàng)新。當(dāng)談到“組織”時，普遍的理解是一個由相互協(xié)作的 Agent 組成的網(wǎng)絡(luò)。但目前 Agent 協(xié)作的方法似乎只能覆蓋非常有限的場景。要實現(xiàn)真正的、大規(guī)模的組織——比如成千上萬的人在一個公司里協(xié)作——似乎還非常遙遠。你認為實現(xiàn)這一目標(biāo)最大的挑戰(zhàn)是什么？

Lukasz Kaiser：我認為最大的挑戰(zhàn)在于開發(fā)下一代的推理模型。做一個類比，我覺得推理模型正處于我剛開始從事機器學(xué)習(xí)時 RNN 所處的階段，而我們可能需要一個 Transformer 創(chuàng)新級別的推理模型。目前，推理過程是這樣的：模型逐個 token 進行推理，以一種非常順序的方式生成結(jié)果，然后得到一個獎勵，就結(jié)束了。

談及“組織”，人們很多時候討論的是多智能體系統(tǒng)，很明顯期望它應(yīng)該是并行的。我們確實需要更多的并行性。我們不能等一個模型思考一個星期，然后得到一個獎勵。那根本不現(xiàn)實，應(yīng)該有很多事情并行發(fā)生。強化學(xué)習(xí)的價值函數(shù)已經(jīng)使用了很長時間了，但大語言模型中的 RL 在當(dāng)前大多數(shù)情況下，并沒有使用價值函數(shù)。也許它們需要回歸，也許需要一些不同的東西——如果是 Yann LeCun，他大概會說是能量模型（Energy Model）。

我認為我們需要為并行過程提供更多的信號。如果 1000 個并行 Agent 只有一個獎勵，你怎么知道哪個做得好，哪個做得不好？我的判斷是在訓(xùn)練中我們需要更多的信號，并結(jié)合一種架構(gòu)來融入這種并行的過程。用抽象的方式談?wù)撌虑楹苋菀祝覀冋嬲枰氖轻槍ζ渲忻總€部分進行非常具體的研究，這樣才能在下一代推理模型中，在這方面給我們帶來更多能力。

對話九 | AI 記憶的瓶頸：模型離真正的“原生記憶”還有多遠？

李建忠：我們來談?wù)動洃?。?dāng)今大模型的“記憶”受限于上下文窗口，這感覺更像是“工作記憶”而不是“長期的原生記憶”。許多公司已經(jīng)推出了自己的長期記憶解決方案，但大多數(shù)都是在 Transformer 架構(gòu)之外的外掛擴展。許多人認為，記憶是模型能力的一個關(guān)鍵瓶頸。你如何看待 Transformer 架構(gòu)在記憶方面的限制？我們是否需要一個全新的原生記憶機制，比如像人類的海馬體那樣，來實現(xiàn)真正的、內(nèi)生的長期記憶？

Lukasz Kaiser：正如我前面所說，我?guī)缀醢淹评砟Ｐ涂醋饕环N新的架構(gòu)。它們絕對可以做的一件事，就是在這種思維鏈過程中使用工具，而其中一個工具就可以是“訪問我的記憶”。如果模型是用 RL 訓(xùn)練的，并且這個過程是用一個允許它這樣做的工具來訓(xùn)練，它就會學(xué)得很好。

目前，模型被訓(xùn)練成可以訪問互聯(lián)網(wǎng)，我認為這有所不同。它應(yīng)該能夠區(qū)分互聯(lián)網(wǎng)記憶和自己的記憶。但是，如果你比較模型回答問題的能力，比如“動物園幾點開門？”或者“這個庫最新版本的代碼是什么？”以前，模型只會胡編亂造一些東西，因為它們記住了某個舊版本的信息?，F(xiàn)在它們很清楚地知道需要去網(wǎng)上搜索，獲取真實答案，然后把它帶入模型。我相信通過這種工具的方式來解決記憶問題，對于大多數(shù)的情況已經(jīng)足夠好了。

但未來的某個架構(gòu)可能會做得更好，也許不需要把它當(dāng)作一個工具來解決。我們拭目以待。但就目前而言，我認為我們有一個可行的解決方案，而且它運行得相當(dāng)不錯。

李建忠：如果類比人類來講，我們既有外部的記憶、比如圖書館；也有根植于我們大腦中的原生記憶。而且有些原生記憶會逐步內(nèi)化成我們知識、或者說大腦神經(jīng)網(wǎng)絡(luò)權(quán)重的一部分。從人類大腦來看，內(nèi)生記憶是我們智能不可或缺的一部分。如果像金魚一樣只有 7 秒的記憶，人類的智能可能不會像今天一樣發(fā)達，甚至人類的愛恨情仇都與此有關(guān)。真正強大的智能體，內(nèi)生記憶可能是非常重要的一環(huán)。

對話十 | 大模型如何擺脫瞬時學(xué)習(xí)，而像人類一樣持續(xù)學(xué)習(xí)？

李建忠：我們來談?wù)勊矔r學(xué)習(xí)（transient learning）和持續(xù)學(xué)習(xí)（continuous learning）。強化學(xué)習(xí)之父理 Rich Sutton 曾談到，當(dāng)前的大模型過于關(guān)注所謂的“瞬時學(xué)習(xí)”，而忽略了持續(xù)學(xué)習(xí)，而人類總是在持續(xù)學(xué)習(xí)。甚至我們現(xiàn)在正在進行的這場對話，同時也在改變我們大腦中的神經(jīng)網(wǎng)絡(luò)權(quán)重。但對于今天的大模型來說，一旦它們訓(xùn)練完成，它們的權(quán)重就固定了。用戶的交互不會更新神經(jīng)網(wǎng)絡(luò)權(quán)重本身。你認為未來大模型有可能支持持續(xù)學(xué)習(xí)嗎？

Lukasz Kaiser：我認為這方面其實已經(jīng)發(fā)生了一些小步的進展，那就是利用上下文（in-context）作為持續(xù)學(xué)習(xí)的記憶。模型會越來越多地嘗試，將從與我們的對話記憶中收集到的信息，盡可能多地放入上下文中，Transformer 在上下文學(xué)習(xí)方面做得很好。所以這是可行的，但效率不高，因為上下文學(xué)習(xí)看上去不是最高效的學(xué)習(xí)方式。

當(dāng)前記憶工具正在出現(xiàn)，現(xiàn)在的 ChatGPT 也有一個記憶工具，模型可以在推理中訪問記憶。我覺得，這些都是很好的解決方案，會逐漸普及。但對我來說，作為一名研究者，將所有的記憶都視為 token 感覺有點不盡如人意，感覺上它們應(yīng)該成為連續(xù)的向量，或者是模型權(quán)重在某個地方的變化。我認為類似這樣的東西會出現(xiàn)。

它們可能不會馬上出現(xiàn)，而且不得不面對“使用 token”這種方案作為基線的挑戰(zhàn)，而這個基線比我們幾年前想象的要強大得多。但即便如此，我確實認為，隨著時間的推移，那些能夠修改權(quán)重的方法會變得更重要。例如，像 LoRA 模塊，我們有非常經(jīng)濟的方式來修改語言模型的權(quán)重。我們很難讓每個用戶都擁有一個模型，原因是今天的模型太龐大了，而且需要為它們提供服務(wù)，這根本不現(xiàn)實。但現(xiàn)在我們知道可以做一些很小的適配器（adapters），這實際上是可行的。每個人都可以微調(diào)自己的模型，它們效果很好。

因此，實質(zhì)性修改權(quán)重已經(jīng)變得更加可行。我只是認為我們還沒有很好的算法知道如何做好這件事。這是一個研究問題，也可能涉及到如何將它與存儲在 token 中的記憶相結(jié)合。此外，從用戶的角度來看，能夠看到記憶里有什么（你看不見向量里有什么），這種可解釋性有多重要？我不知道，也許不重要，也許你唯一需要的就是能夠刪除它。這其中會有很多實踐和研究上的考量，但可以肯定的是，上下文學(xué)習(xí)已經(jīng)為持續(xù)學(xué)習(xí)做了很多貢獻。但我確實感覺，或者至少作為一名研究者，我希望我們未來能有一種更優(yōu)雅的方式來實現(xiàn)持續(xù)學(xué)習(xí)。

李建忠：最后一個問題。你將在我們 10 月 16-17 日舉行的全球機器學(xué)習(xí)技術(shù)大會（ML-Summit）上發(fā)表題為“下一代推理模型的挑戰(zhàn)與研究”的主題演講。我們都對此非常期待。你能否給我們稍微劇透一下你將分享的內(nèi)容？

Lukasz Kaiser：就像我們剛才談到的，我確實相信推理模型是一個新的范式，一種新的架構(gòu)，它數(shù)據(jù)效率更高，能夠從科學(xué)領(lǐng)域非常少的樣本中學(xué)習(xí)。它可以產(chǎn)生非常令人興奮的想法和見解。我確實認為，要真正實現(xiàn)這一成果，我們需要下一代的推理架構(gòu)，一些更并行的東西。當(dāng)然，研究中仍然存在很多挑戰(zhàn)。

我不會假裝我們都做完了。我們面對的是一個非常引人注目的未來，那就是模型從事真正的科學(xué)研究，在各種領(lǐng)域幫助科學(xué)家，包括：醫(yī)學(xué)、生物學(xué)、化學(xué)、數(shù)學(xué)、物理學(xué)等。它們可以幫助發(fā)現(xiàn)新方法，或者驗證現(xiàn)有方法，或者指出需要改進的地方。我認為這個未來，即將到來，并不像幾年前那么遙遠。能夠致力于此并推動其發(fā)展，無疑是令人興奮的?，F(xiàn)在是機器學(xué)習(xí)一個極其激動人心的時刻，仍然需要新的想法，但我們可以在一個不那么遙遠的未來，看到它對科學(xué)產(chǎn)生的真正影響，這將是非常積極的。

李建忠：我們都非常期待你精彩的主題演講。Lukasz，非常感謝你今天的時間。我們進行了一次非常棒的對話，非常感謝你與我們分享了這么多關(guān)于 AI 的深刻見解和想法。期待全球機器學(xué)習(xí)技術(shù)大會上您的精彩演講。

2025 全球機器學(xué)習(xí)技術(shù)大會將于 10 月 16–17 日在北京威斯汀酒店舉行。今年的大會，除了迎來 OpenAI 資深研究科學(xué)家 Lukasz Kaiser 的重磅回歸，還將匯聚來自學(xué)術(shù)界與產(chǎn)業(yè)界的 50 多位嘉賓：既有頂會論文作者和資深科研學(xué)者，也有在一線推動落地的技術(shù)實踐者。他們將圍繞智能體工程與實踐、AI 編程、多模態(tài)大模型、具身智能、開源框架等熱點話題，帶來真切的思考與第一手經(jīng)驗。

官網(wǎng)：https://ml-summit.org/

我們希望，這不僅是一場知識與技術(shù)的交流，更是一段同行者之間的深度對話。無論你是科研探索者，還是產(chǎn)業(yè)實踐者，都能在這里捕捉到前沿趨勢、獲取啟發(fā)，甚至找到屬于自己的“下一步”。

大會全日程速覽：

「領(lǐng)取今年 4 月全球機器學(xué)習(xí)技術(shù)大會 PPT 資料

預(yù)約 10 月全球機器學(xué)習(xí)技術(shù)大會 PPT 資料」

官方網(wǎng)站：www.ml-summit.org

購票熱線：400-821-5876

購票咨詢：service@boolan.com

企業(yè)合作：partner@boolan.com

演講申請：hemiao@csdn.net

媒體聯(lián)系：media@boolan.com

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.