對話劉子鳴：從MIT回到清華，給AI找一套“務(wù)實(shí)的理論”

2026-04-21 15:38:21　來源: DeepTech深科技

北京舉報(bào)

分享至

如果你關(guān)注過深度學(xué)習(xí)圈，大概率 2024 年時(shí)聽過一個(gè)三個(gè)字母的縮寫——KAN。這篇叫做 Kolmogorov–Arnold Networks(柯爾莫哥洛夫–阿諾德網(wǎng)絡(luò)) 的論文在 arXiv 掛出后，幾天之內(nèi)席卷了各路技術(shù)社群，有人宣稱 MLP（多層感知機(jī)）這個(gè)統(tǒng)治了深度學(xué)習(xí)幾十年的基礎(chǔ)磚塊可能要被改寫，也有人質(zhì)疑它只是又一個(gè)“看起來很美”的架構(gòu)。近兩年之后，KAN 的 GitHub 倉庫已經(jīng)攢下了超過 1.6 萬顆星，相關(guān)的跟進(jìn)論文從生物物理到金融建模，鋪了一大片。

這篇論文的第一作者叫劉子鳴，當(dāng)時(shí)還是 MIT 物理系的博士生，導(dǎo)師是以“數(shù)學(xué)宇宙假說”聞名的 Max Tegmark。幾個(gè)月前，他和合作者關(guān)于表示疊加（Superposition）的工作又拿下了 NeurIPS 2025 最佳論文亞軍。如今他 MIT 博士剛畢業(yè)，在斯坦福做了一段短暫的博士后回到國內(nèi)，即將入職清華大學(xué)人工智能學(xué)院擔(dān)任助理教授。

有意思的是，如果你翻他的主頁，會發(fā)現(xiàn)他給自己掛的標(biāo)簽既不是“深度學(xué)習(xí)研究者”，也不是“大模型研究者“，而是三個(gè)交錯(cuò)的方向：Science of AI（AI 的科學(xué)）、Science for AI（服務(wù)于 AI 的科學(xué)）、AI for Science（AI 服務(wù)于科學(xué)）。在這之上，他最想推動的事情有一個(gè)更具體的名字，叫 Physics of AI（AI 的物理學(xué)）。

用他自己的話說，今天的 AI 處境有點(diǎn)像大航海之前的天文學(xué)，大家仰著頭看到很多東西，但連把這些觀測整理成一張像樣星圖的“研究語言”都還沒有，連第谷（Tycho Brahe）的階段都還沒到，更別提開普勒和牛頓。

最近他在閉關(guān)，想做的事正是把 Physics of AI 本身自動化。

以下是 DeepTech 和他的對話。

從物理到 AI：一路試錯(cuò)之后的轉(zhuǎn)向

DeepTech：你本科在北大讀物理，去 MIT 也是讀物理，后來怎么走到 AI 這條路上來的？

劉子鳴：其實(shí)挺早的，大二下我就開始轉(zhuǎn)向 AI 了，不過當(dāng)時(shí)做的還是 AI 和物理的結(jié)合。

觸發(fā)點(diǎn)是我了解到了 GAN（生成對抗網(wǎng)絡(luò)）。當(dāng)時(shí)就覺得，這玩意好像也沒有多難，但它的 formulation（問題構(gòu)建方式）非常巧妙。我那時(shí)就覺得，這就是一個(gè)研究的“重點(diǎn)”，我就想做這樣的工作。

再一個(gè)，那個(gè)時(shí)候我在物理上的探索，說實(shí)話也不太順利。一方面，理論覺得挺難的，另一方面，做實(shí)驗(yàn)、動手也挺難的。所以我當(dāng)時(shí)考慮過計(jì)算物理，反正不管計(jì)算物理還是 AI，都是在電腦上搞，但覺得 AI 的問題和機(jī)會更多一點(diǎn)，就開始往 AI 上看。不過形式上我仍然掛在物理學(xué)院，找的也是物理學(xué)院的老師做 AI 和物理的交叉，主要是 AI for Physics。

后面讀博跟 Max Tegmark，他早就在做 AI for Physics 和 Physics for AI，所以我們早期主要也是 AI for Physics，比如用 AI 去找物理系統(tǒng)中的守恒量、對稱性這些東西。到 2022 年底 ChatGPT 出來之后，我們就覺得，AI 好像不再只是一個(gè)工具了，它本身變成了研究對象。從那時(shí)候起，我們開始把更多精力花在“理解 AI”上。

DeepTech：你這個(gè)路徑讓我想到楊振寧先生，他當(dāng)年是因?yàn)閷?shí)驗(yàn)不順利才轉(zhuǎn)去做理論物理，然后找到了自己擅長的方向。

劉子鳴：我可能要更慘一點(diǎn)（笑），理論和實(shí)驗(yàn)物理都不順利，連數(shù)論也試過。數(shù)論后來覺得太理論了，也放棄了。

DeepTech：你博士跟的 Max Tegmark 是一位典型的 polymath（通才），他的思維方式對你最大的影響是什么？

劉子鳴：Max 是那種什么都懂的人。

之前 Freeman Dyson 把數(shù)學(xué)家和科學(xué)家分成兩類，一類叫 bird person（鳥人），一類叫 frog person（蛙人）。鳥人飛得很高，能看到整片山河的圖景，喜歡能把不同領(lǐng)域串起來的宏大概念；蛙人則扎在泥里，看得到花朵的細(xì)節(jié)，一次解決一個(gè)具體問題。而 Max 就是絕對的鳥人。

不管是物理、AI、神經(jīng)科學(xué)，還是各種應(yīng)用領(lǐng)域，他懂的都非常多。他本科其實(shí)學(xué)的是經(jīng)濟(jì)學(xué)，在斯德哥爾摩經(jīng)濟(jì)學(xué)院讀的。所以我們經(jīng)常聊著聊著一個(gè)話題，他就能延伸到別的在一般人看來毫不相關(guān)的地方。他能看到那些表面不同的問題底下共通的結(jié)構(gòu)，這對我的 research taste（研究品味）影響非常大。

另外還有一點(diǎn)，他特別擅長把一個(gè)很難理解的東西解釋給別人。這背后其實(shí)就是費(fèi)曼技巧的那個(gè)核心判斷，如果你不能用簡單的話向一個(gè)外行講清楚一件事，說明你自己也沒真正理解它。傳播學(xué)上也是一樣，你要讓別人知道一個(gè)東西，它至少得是一個(gè)你能講清楚的東西。這個(gè)也是我跟他學(xué)得比較多的。

DeepTech：博士后去斯坦福跟 Andreas Tolias，從物理又轉(zhuǎn)到了神經(jīng)科學(xué)。為什么做這個(gè)決定？

劉子鳴：兩方面。一方面是我也想做鳥人。神經(jīng)網(wǎng)絡(luò)最開始其實(shí)就是神經(jīng)科學(xué)那一撥人搞起來的，我想了解一下那幫人的腦洞到底是什么樣的。另一方面是有一個(gè)具體的項(xiàng)目，我之前做 AI for Physics 時(shí)搞過一個(gè)找守恒量的工具，他們說有一個(gè)神經(jīng)科學(xué)的數(shù)據(jù)集很合適。雖然后來發(fā)現(xiàn)其實(shí)也沒那么合適，但至少是合作的一個(gè)起點(diǎn)。

DeepTech：這么看，你的整個(gè)學(xué)術(shù)路徑其實(shí)可以概括為在研究“智能的底層原理”？

劉子鳴：對，而這種底層原理需要從非常多角度去觸摸和理解，有點(diǎn)像盲人摸象，所有學(xué)科都只是摸它的一部分。

關(guān)于 Science of AI、Science for AI、AI for Science

DeepTech：能不能用最簡單的話說說，這三個(gè)方向各自在回答什么問題？

劉子鳴：看研究的主體是什么。前面是工具，后面是研究對象。

Science for AI 和 Science of AI 都是以 AI 為研究對象，science 是研究方法。兩者挺像的，但還是要做個(gè)區(qū)分。Science of AI 更被動，研究的是現(xiàn)有的那些 AI 模型；Science for AI 更主動、野心更大，是用 science 去重構(gòu)現(xiàn)在的 AI 模型，祈求能造出下一代的 AI 模型。AI for Science 大家已經(jīng)講得比較多了，就是用 AI 去推動科學(xué)發(fā)現(xiàn)。

DeepTech：KAN 應(yīng)該算 Science for AI？

劉子鳴：我自己很喜歡 KAN 的原因就是它同時(shí)包含這三個(gè)方面。它主體是 Science for AI，用 science 去重構(gòu) AI，但也有 Science of AI 的部分。比如我們解釋了為什么 MLP（多層感知機(jī)）的 scaling law（縮放律）沒有達(dá)到理想值，而 KAN 可以比 MLP 更快，所以這個(gè)工作也包含對 MLP 的某些理解。同時(shí)它也是 AI for Science，因?yàn)?KAN 工具做出來之后，最適合它的場景往往是那些你期待背后有某種動力學(xué)、有緊湊規(guī)律的任務(wù)，而不是大語言模型那種你不太指望背后會有緊湊規(guī)律的任務(wù)。

圖丨KAN 的架構(gòu)（來源：arXiv）

DeepTech：你最初因?yàn)?GAN 進(jìn)入 AI，后來 KAN 又引起那么大關(guān)注，這么看似乎有點(diǎn)呼應(yīng)。

劉子鳴：某種意義上確實(shí)是一次 call back。從高層次上看，我的一些代表作（除了 KAN，還有 Poisson Flow 等）它們跟 GAN 的風(fēng)格都很像，技術(shù)上沒有多難，工程上也不需要多少算力，但能找到一個(gè)比較巧妙的 formulation（問題構(gòu)建方式），或者說找到一種合適的語言。一旦你找到了合適的語言、合適的結(jié)構(gòu)，問題就變得非常簡單。有點(diǎn)像愛因斯坦研究廣義相對論的時(shí)候找到了黎曼幾何，當(dāng)語言對了，很多東西就自然而然通了。

DeepTech：回頭看，KAN 對你意味著什么？是一個(gè)架構(gòu)創(chuàng)新，還是一種思維方式的創(chuàng)新？

劉子鳴：我的很多工作，有些人看著覺得亂七八糟、東搞一下西搞一下，但背后其實(shí)是同一個(gè)邏輯，我想在神經(jīng)（neural）和符號（symbolic）這兩個(gè)世界之間架一座橋�，F(xiàn)在的 AI 主要是神經(jīng)的，而科學(xué)主要是符號的。

KAN 對我來說很特別的地方在于，它是第一個(gè)讓我覺得存在一種類似波粒二象性的東西。在量子力學(xué)里，粒子既是波也是粒子。而 KAN 同時(shí)是網(wǎng)絡(luò)，也同時(shí)是符號公式，同時(shí)是神經(jīng)的東西，也同時(shí)是符號的東西。在它之前，沒有這種例子，要么就是神經(jīng)的，要么就是符號的，要么是 neural-symbolic（神經(jīng)符號方法），但那往往是用某種比較硬的方法強(qiáng)行把兩者拼接起來，不是那么兼容。KAN 很優(yōu)雅地體現(xiàn)了這種二象性。

正因?yàn)檫@樣，我現(xiàn)在思考的另一些問題是沿著這個(gè)邏輯繼續(xù)走。KAN 說的是符號公式和神經(jīng)網(wǎng)絡(luò)的二象性，但符號公式本身仍然是一類比較局限的結(jié)構(gòu)。

比如經(jīng)典算法，像排序這種算法，跟神經(jīng)網(wǎng)絡(luò)之間能不能構(gòu)建二象性？再往前一步，大家現(xiàn)在都在說的 world model（世界模型），它背后可能有物理引擎或物理模擬器，這種東西又該怎么和神經(jīng)網(wǎng)絡(luò)之間構(gòu)建二象性？所以 KAN 其實(shí)只是第一步，后面第二步、第三步、第四步都會按照這條邏輯發(fā)展下去。

DeepTech：也有一些人覺得 KAN 在大規(guī)模任務(wù)上可能用處沒那么大。你怎么看這種評價(jià)？

劉子鳴：這是 no free lunch theorem（沒有免費(fèi)午餐定理)）沒有一個(gè)模型能在所有任務(wù)上都比另一個(gè)更好。所以對待模型的正確態(tài)度，是找到它的應(yīng)用場景，然后在它有優(yōu)勢的場景下誠實(shí)地發(fā)揮這個(gè)優(yōu)勢。

具體一點(diǎn)，如果你關(guān)心可解釋性，尤其是想拿符號形式的表達(dá)，你就應(yīng)該用 KAN；如果你有大量數(shù)據(jù)，又關(guān)心高精度的預(yù)測，那你也應(yīng)該用 KAN。什么時(shí)候不應(yīng)該用？數(shù)據(jù)量特別小的時(shí)候別用，因?yàn)?KAN 的 Spectral Bias 更弱，更容易過擬合。大規(guī)模大模型場景下，努力調(diào)參的話工程上都是能做到的，也許能調(diào)得比 Transformer 更好，但我不會一開始就預(yù)設(shè) KAN 有一個(gè)很強(qiáng)的理由一定比傳統(tǒng) Transformer 更好。

DeepTech：作為 KAN 的提出者，你怎么看它現(xiàn)在的生態(tài)？

劉子鳴：我昨天還看到一篇文章，用 KAN 去學(xué)生物物理（biophysics）里的一個(gè)動力系統(tǒng)，這是我想象中比較“小而美”的理想應(yīng)用場景。也有一些場景是我一開始沒預(yù)料到的，比如金融和醫(yī)療，這些場景特別需要可解釋性，大家就自然用上了 KAN。一個(gè)東西對現(xiàn)實(shí)世界到底能產(chǎn)生什么影響，作為創(chuàng)造者，很多時(shí)候你在創(chuàng)造的時(shí)候是想象不到的。

DeepTech：你們?nèi)ツ甑?Superposition 論文拿了 NeurIPS 2025 Best Paper Runner-up，核心發(fā)現(xiàn)是什么？

劉子鳴：核心發(fā)現(xiàn)是，當(dāng)模型寬度變寬的時(shí)候，它的 loss（損失）和寬度之間是一個(gè)反比關(guān)系。

為什么這個(gè)發(fā)現(xiàn)令人意外？因?yàn)樵谖覀冞@篇論文之前，甚至包括我自己之前一篇 paper，大家主流的看法是，scaling law 和數(shù)據(jù)分布有很強(qiáng)的關(guān)系。你的數(shù)據(jù)本身遵循某種冪律（power law），所以是冪律進(jìn)、冪律出，數(shù)據(jù)冪律決定了模型冪律。但我們這篇文章打破了這個(gè)觀點(diǎn)，我們發(fā)現(xiàn)，即使你的數(shù)據(jù)不是冪律、是任意分布，輸出仍然呈現(xiàn)出一個(gè)類似物理學(xué)里“普適類（universality class）”的東西，它把數(shù)據(jù)的細(xì)節(jié)全部抹掉，模型永恒地給你一個(gè) 1/寬度的縮放律。

解釋這個(gè)結(jié)果用的是非常簡單的理論。方法論上有一點(diǎn)我自己覺得比較獨(dú)特，也是 Physics of AI 區(qū)別于其他理論方法的地方，它是一種“務(wù)實(shí)的理論”。它的目的是解釋甚至改進(jìn)實(shí)驗(yàn)，所以會特別緊貼實(shí)驗(yàn)結(jié)果，這是形式化（formal）理論做不到的。但同時(shí)我們又構(gòu)建 toy model（玩具模型）去解釋背后的機(jī)理，這又是純做實(shí)驗(yàn)做不到的。我們在兩者中間找到了平衡，而且在玩具模型上的分析，竟然可以遷移到大模型上。

這篇文章的主要貢獻(xiàn)其實(shí)是來自一作、MIT 的合作者劉逸舟。我的角色差不多就是每周跟他約一次啤酒，一邊喝一邊在白板上寫寫畫畫，討論實(shí)驗(yàn)結(jié)果。逸舟最近也準(zhǔn)備博士畢業(yè)，在考慮下一步計(jì)劃了。

DeepTech：另一篇《Neural Thermodynamic Laws》把熱力學(xué)語言用到了大模型訓(xùn)練上，這個(gè)想法是怎么來的？

劉子鳴：這篇我個(gè)人覺得偏課程項(xiàng)目一點(diǎn)，因?yàn)闆]有太多特別新奇的發(fā)現(xiàn)，但作為J人，總是喜歡能有一個(gè)統(tǒng)一的框架把很多小而繁瑣的觀察給整理清楚。出發(fā)點(diǎn)是一個(gè)非常簡單的觀察，現(xiàn)在訓(xùn)大模型，大家會用學(xué)習(xí)率調(diào)度（learning rate schedule），先 warm up（升溫）、再 stable（穩(wěn)定）、再 decay（衰減）。我們發(fā)現(xiàn)一個(gè)事情，最終的 loss 和它最終衰減到哪個(gè)學(xué)習(xí)率，存在一個(gè)線性關(guān)系。

這個(gè)線性關(guān)系特別像物理里“熱容”的概念。當(dāng)一個(gè)物體有恒定熱容的時(shí)候，你要升多高的溫度，就得吸多少熱。這里 loss 類似于“熱”，學(xué)習(xí)率類似于“溫度”。一開始觀察到這個(gè)事情的時(shí)候，我就意識到，這可以和物理里的能均分定理（equipartition theorem）建立聯(lián)系。

從這個(gè)對應(yīng)出發(fā)做下去，越做越發(fā)現(xiàn)很多東西都能映射到熱力學(xué)。比如你在一個(gè)陡峭的河道里走，在峭壁上彈射的過程中會產(chǎn)生某種“熵力（entropic force）”，算了一下，和物理里的熵力形式是一模一樣。這可能不是巧合。物理中的很多理論，本身就是在尋找簡單而普遍的東西，很多看起來不同的體系經(jīng)過一定抽象之后，會變成同一個(gè)東西。我們這篇文章就是把優(yōu)化動力學(xué)和熱力學(xué)，做了一個(gè)更顯式的聯(lián)系。

DeepTech：這種視角對訓(xùn)練策略有什么用？

劉子鳴：我們推導(dǎo)出了一個(gè)最優(yōu)的衰減策略，是 1/t（關(guān)于訓(xùn)練步數(shù) t 的倒數(shù)）。我們沒在大模型上試過，但有一些別的文章經(jīng)驗(yàn)上找出來的最優(yōu)策略，其實(shí)跟我們理論上算出來的 1/t 非常像�？赡懿粐�(yán)格相同，但至少特征是一致的，一開始掉得快，后面慢慢停掉。

Physics of AI：什么是一種“務(wù)實(shí)的理論”

DeepTech：你經(jīng)常說 Physics of AI，但不同人對這個(gè)詞的理解很不一樣。有人覺得是用物理的數(shù)學(xué)工具分析神經(jīng)網(wǎng)絡(luò)，有人覺得是找 AI 版的牛頓定律，還有人覺得是機(jī)制可解釋性（mechanistic interpretability）換了個(gè)馬甲。你自己說的 Physics of AI 到底指什么？

劉子鳴：這里需要區(qū)分兩件事。第一，我們最終的目標(biāo)是什么？第二，我們用什么方法到達(dá)這個(gè)目標(biāo)？

最終的目標(biāo)（我們的“North Star”）是，我要為 AI 找到一種“務(wù)實(shí)的理論”。這和傳統(tǒng)的理論是有區(qū)別的。傳統(tǒng)的理論可能是自下而上的，類似數(shù)學(xué)，從一些第一性原理出發(fā)，去推演出東西來。這種做法的壞處是，可能跟現(xiàn)實(shí)沒那么相關(guān)。但另一方面，我也不相信現(xiàn)在的 AI 背后是沒有理論的，就是無腦調(diào)參。所以我追求的是一種務(wù)實(shí)的理論。

那怎么達(dá)到這個(gè)目標(biāo)？我覺得物理學(xué)的方法論本身就是這樣一種務(wù)實(shí)的理論。物理最終是要描述和預(yù)測實(shí)驗(yàn)現(xiàn)象，所以是務(wù)實(shí)的。但同時(shí)它又是理論，可以定量地預(yù)測。要兼顧兩者，物理采取的方式是，對真實(shí)系統(tǒng)做抽象和簡化，研究這個(gè)簡化后的模型，它可能仍然很復(fù)雜，但至少把無關(guān)的變量簡化掉了。

先在一個(gè)更小的模型上研究清楚，再把它遷移回更大的模型，中間肯定有 gap（差距），再一步一步解釋這個(gè) gap 是怎么加上來的。不管是機(jī)制派、現(xiàn)象學(xué)派，還是 Physics of LLMs 那派，目的其實(shí)都是找到一種務(wù)實(shí)的理論。

DeepTech：那你和朱澤園（Zeyuan Allen-Zhu）做的 Physics of LLMs、Anthropic 做的機(jī)制可解釋性，具體差別在哪？

劉子鳴：大家目的都差不多，硬說區(qū)別的話，我比他們更關(guān)心訓(xùn)練動力學(xué)（training dynamics），他們可能更關(guān)心模型最后的結(jié)果。朱澤園更關(guān)心的是相圖，即改這些超參數(shù)，最后的指標(biāo)怎么依賴于這些超參數(shù)。Anthropic 關(guān)心的是，給我一個(gè)模型，我去理解它內(nèi)部怎么工作。

我關(guān)心的層面稍微不一樣，比朱澤園稍微更微觀一點(diǎn)，但比 Anthropic 又更宏觀一點(diǎn)。我關(guān)心的是，當(dāng)我們訓(xùn)練一個(gè)模型的時(shí)候，它的各種觀測量，比如 loss，比如權(quán)重的范數(shù)，是怎么隨著訓(xùn)練演化的？所以有點(diǎn)像是一種“關(guān)于曲線的科學(xué)”，你訓(xùn)練一個(gè)東西，可以同時(shí)畫 100 條曲線，從曲線里獲得洞察，再根據(jù)這些洞察去迭代。

但最終，我不會覺得做 Physics of AI 就不認(rèn)可別人的做法。我的態(tài)度是八仙過海、取其精華去其糟粕，不同的叫法、不同的方法，只要能為我所用，我就把它吸納進(jìn)來。

DeepTech：你在博客里說 AI 目前還處在“第谷階段”，有大量的觀測數(shù)據(jù)，但沒有開普勒定律，更沒有牛頓力學(xué)。你覺得 AI 領(lǐng)域積累的“認(rèn)知債務(wù)”有多嚴(yán)重？

劉子鳴：首先糾正一下，那篇博客是我?guī)讉€(gè)月前寫的。我現(xiàn)在的認(rèn)知更悲觀一點(diǎn)，可能連低谷階段都還沒到。

雖然互聯(lián)網(wǎng)上有大量文章、數(shù)據(jù)，但我現(xiàn)在想做的一件事，是把 Physics of AI 本身自動化，這也跟我閉關(guān)的項(xiàng)目有關(guān)，因?yàn)槿俗鲅芯窟€是太慢了。開始做之后我才意識到，我沒有太多數(shù)據(jù)可用。

肯定會有人反問，互聯(lián)網(wǎng)上那么多文章，為什么說沒數(shù)據(jù)？因?yàn)槲艺嬲枰臄?shù)據(jù)，是一種人腦子里的結(jié)構(gòu)化數(shù)據(jù)，它應(yīng)該比自然語言更結(jié)構(gòu)化，但往往我們并不會把這種東西寫下來，甚至不知道怎么寫下來。

什么數(shù)據(jù)對研究是有價(jià)值的？比如我自己寫代碼的時(shí)候，會不斷跟自己對話、自言自語，有時(shí)候甚至不用語言，腦子里潛意識在做某種判斷和取舍，這些數(shù)據(jù)都沒有。再比如老師和學(xué)生討論一個(gè)項(xiàng)目，老師建議這樣做、學(xué)生怎么回應(yīng)、為什么，這些過程的數(shù)據(jù)也沒有。

綜合來看，其實(shí)我們連“第谷階段”的數(shù)據(jù)都還沒湊齊。我現(xiàn)在閉關(guān)就是要做這件事，先把自己推到第谷階段。而且我們需要先定義一門新的語言。研究本身是一門新的語言，自然語言只是我們用來交流研究的一種方式。日報(bào)仍然是自然語言，我需要把每篇日報(bào)結(jié)構(gòu)化成這門新語言，才能開始有這門語言的數(shù)據(jù)，才能進(jìn)行訓(xùn)練。

DeepTech：這筆認(rèn)知債務(wù)短期內(nèi)可能還不會影響 AI 發(fā)展，但什么時(shí)候它會開始阻礙 AI 邁入下一個(gè)階段？

劉子鳴：認(rèn)知債務(wù)是一個(gè)連續(xù)的東西。你解決得越多，短期風(fēng)險(xiǎn)越大，長期回報(bào)也越大。所以我不覺得它是一個(gè)相變，而是一個(gè)逐漸的過程。

四個(gè)月前我寫博客的時(shí)候，我更極端一點(diǎn)，覺得需要一個(gè)相變式的解決方式。現(xiàn)在務(wù)實(shí)多了，一步步解決。我現(xiàn)在的目標(biāo)是，在 2 到 3 年內(nèi)解決掉 10% 的認(rèn)知債務(wù)，而這 10% 可能能產(chǎn)生 90% 的效益。剩下的債務(wù)，我覺得得靠新的賽道，否則你就算繼續(xù)解決，也只能再多拿到 10% 的效益了。

一方面，大家慢慢開始意識到有“認(rèn)知債務(wù)”這件事。另一方面，有沒有意義去解決它，是一個(gè)路線選擇問題。我賭的是，要解決掉這 10%，才能掘到下一個(gè)金礦層。再往下掘、把整層鑿穿，可能付出的努力又不值得了，除非你能找到新的機(jī)會。

DeepTech：你在博客里還提了一個(gè)挺尖銳的觀點(diǎn)。AI 的現(xiàn)象學(xué)（phenomenology）之所以發(fā)展不起來，主要是“發(fā)表文化”在阻擋，只有能提升性能、或能講成完整故事的研究才能發(fā)表，而很多你覺得有意思的現(xiàn)象，因?yàn)榘b不成論文就被扔掉了。這個(gè)文化需要怎么改變？

劉子鳴：又是那句話，這個(gè)領(lǐng)域發(fā)展太快了。四個(gè)月前你問我，我會說我們需要建一個(gè)社區(qū)來做這件事。但現(xiàn)在我覺得，做一個(gè) agent（智能體）就可以了，根本不用發(fā)表。

我之前的思路是集體智能（collective intelligence），我觀察到一件事，別人觀察到另一件事，把這些觀察匯聚起來，這個(gè)領(lǐng)域有一天會出現(xiàn)類似滲流相變（percolation phase transition）的東西。但我現(xiàn)在意識到，這種相變往往是在一個(gè)人的腦子里產(chǎn)生的。我需要一個(gè)智能體，能日以繼夜不停地去做這些小發(fā)現(xiàn)。我之前做日報(bào)，其實(shí)就是在手動做這件事。

現(xiàn)在我的判斷是，第一，這件事 90% 可以被自動化。第二，我可以做得更暴力一點(diǎn)。之前我依賴人的直覺去決定“測什么觀測量”，但現(xiàn)在我意識到，我可以一次測 100 萬個(gè)觀測量，暴力地測，再根據(jù)結(jié)果反推哪個(gè)觀測量是重要的。

這是超越人類的做法。人腦有一些特別的地方，但可能沒有我原來想象的那么特別。至少在“測什么”這件事上，人可能真不如機(jī)器。因此，我并不反對 scaling，但在 scale 什么的問題上，我希望我們能更多地去 scale up understanding。

我現(xiàn)在覺得，我們應(yīng)該造一個(gè)機(jī)器，它甚至不必像智能體那么聰明，就在搜索空間里暴力搜。這件事不需要社區(qū)，因?yàn)檫@個(gè)過程對人來說太無聊、太耗時(shí)間了。

DeepTech：那人在其中扮演什么角色？

劉子鳴：具體說，人和機(jī)器的區(qū)別在哪？人能夠提出“分布外(out-of-distribution)”的想法（訓(xùn)練數(shù)據(jù)里壓根不存在的新點(diǎn)子），而機(jī)器是在“分布內(nèi)”做排列組合，這是機(jī)器特別擅長的。

這也聯(lián)系到我招學(xué)生的標(biāo)準(zhǔn)，我要招能提出分布外想法的人。因?yàn)榉植純?nèi)的部分，機(jī)器就能代替。

DeepTech：可解釋性是你很多工作的核心關(guān)切。KAN 是為了可解釋，BIMT 也是，Superposition 的研究也建立在 Anthropic 的玩具模型之上。在大家都在拼命追求更大、更強(qiáng)模型的當(dāng)下，可解釋性的優(yōu)先級應(yīng)該放在哪？

劉子鳴：這還是回到剛才“認(rèn)知債務(wù)”的問題�，F(xiàn)在主流路線是關(guān)心 0% 的可解釋性，追求更強(qiáng)的模型。我關(guān)心 10% 的可解釋性，目標(biāo)是在 2 到 3 年內(nèi)建出更強(qiáng)的模型。所以作為一種務(wù)實(shí)的理論，最終還是要建更強(qiáng)的模型，只是把時(shí)間尺度拉長了一點(diǎn)。

可能有人選擇另一種押注，我要理解 50%，那目標(biāo)可能是 5 到 10 年，或者 100%，目標(biāo)是 100 年。但作為一種務(wù)實(shí)的理論，還是要做一些及時(shí)的事情。

DeepTech：聽說你最近在閉關(guān)搞一個(gè)項(xiàng)目，說需要連續(xù)的時(shí)間進(jìn)入心流。能透露一下在做什么嗎？

劉子鳴：其實(shí)做的就是剛才說的，創(chuàng)造研究這門語言。

我之前寫過一篇日報(bào)，說研究不應(yīng)該以論文為目標(biāo)，它應(yīng)該以知識圖譜（knowledge graph）為目標(biāo)。而這個(gè)知識圖譜本身就是一種語言。人類的自然語言是線性的，但像電影《降臨》里外星人的語言，它是圖像化的、環(huán)形的。我現(xiàn)在想創(chuàng)造的，就是這樣一門圖像化的語言，而做研究其實(shí)就對應(yīng)著去改這張圖。就先透露這些吧。

關(guān)于在清華建組和 AI 的“開普勒定律”

DeepTech：你現(xiàn)在正在招 2027 年秋入學(xué)的博士生。你想招什么樣的人？

劉子鳴：能提出分布外想法的人。而好奇心驅(qū)動是這件事的一個(gè)必要條件。

你需要一直保持探索，因?yàn)楹芸赡苣闱?100 個(gè)想法都已經(jīng)被別人想過了。這意味著你不僅要理解知識本身，還要理解人腦是怎么思考知識的，然后找到一個(gè)東西，它既是某種意義上“人腦的分布外”，又對現(xiàn)實(shí)世界是有意義的問題。這需要很強(qiáng)的好奇心，加上韌性（resilience），因?yàn)榍?100 次你可能都失敗了，如果沒有好奇心，你就沒有動力堅(jiān)持。

DeepTech：高校系統(tǒng)內(nèi)的學(xué)術(shù)環(huán)境相對更強(qiáng)調(diào)傳統(tǒng)意義上的“有用”和實(shí)用主義。如果用你的這套標(biāo)準(zhǔn)，好奇心驅(qū)動、分布外研究、甚至用博客代替論文，會不會太理想化？你怎么保護(hù)學(xué)生的好奇心？

劉子鳴：如果學(xué)校有硬性的發(fā)表規(guī)定，我的學(xué)生要達(dá)到這種基本的規(guī)定是很容易的事情。

我覺得做研究的第一性原理，是拓展自己的知識圖譜。這個(gè)過程需要好奇心驅(qū)動，而發(fā)文章只是第二性的，是一個(gè)自然而然的副產(chǎn)物。當(dāng)你知識圖譜拓展到一定程度，大到溢出的時(shí)候，你發(fā)現(xiàn)了一些東西，非常想跟別人分享，不得不把它寫下來，這個(gè)時(shí)候自然會出現(xiàn)文章。博客轉(zhuǎn)文章其實(shí)也不是太難的事。

我承認(rèn)自己做研究確實(shí)比較理想主義，我感興趣、學(xué)生感興趣的東西，我就覺得值得研究。但我逐漸覺得，實(shí)用主義的思維方式也不一定是壞事。其實(shí)兩種可以在一個(gè)項(xiàng)目的不同階段交替使用。第一階段用理想主義的方式去探索，好奇驅(qū)動，定義問題。第二階段當(dāng)問題定義清楚、拆解成了工程問題之后，就要用實(shí)用主義的態(tài)度把工程推起來。否則效率太低。所以一句話就是，像科學(xué)家一樣問有趣的問題，但像工程師一樣把它解決掉。

DeepTech：你提到要在清華開一門 Physics of AI 的課，這門課打算怎么教？

劉子鳴：這門課和一般 AI 理論課最大的區(qū)別是，我更關(guān)心“做實(shí)驗(yàn)”。

理想化一點(diǎn)說，我希望讓學(xué)生感受到牛頓那句話，“我就像一個(gè)在沙灘上玩耍的小孩，撿起這些貝殼”。我可能對之前的人發(fā)現(xiàn)了什么一無所知，但我仍然能夠通過和這個(gè)世界的交互去發(fā)現(xiàn)一些美。

常規(guī)的 AI 理論課是去教“之前的人發(fā)現(xiàn)了什么現(xiàn)象、提出了什么理論”，但這樣太像教科書了，好像所有東西都定死了。我會反過來，從一些很小的實(shí)驗(yàn)出發(fā)。我只告訴你這個(gè)模型是什么、我們在干什么，然后我給你畫一些觀測量，讓你自己觀察，你不需要先有任何先驗(yàn)知識，就去看這些曲線，你會自己意識到背后可能有什么規(guī)律。以這個(gè)為引子，我再去介紹前人在這上面做過哪些理論解釋。

這也是我博客一直想做的事，就是把所有現(xiàn)象都簡化成一個(gè)玩具模型。這個(gè)玩具模型可以在個(gè)人電腦上用一塊 CPU、5 分鐘之內(nèi)就跑出這個(gè)現(xiàn)象，不需要多少算力就能復(fù)現(xiàn)大家關(guān)心的現(xiàn)象。

這完全是物理學(xué)家研究世界的方式。先做實(shí)驗(yàn)，先觀察，甚至可以先“當(dāng)民科”，在玩耍的過程中做一些自己的歸納總結(jié)，然后再回過頭看前人怎么解釋。這樣學(xué)生對知識的印象會更深刻，因?yàn)樗钦娴膭邮肿隽艘粋€(gè)東西。如果你直接灌輸，他就只能被動接受。

受眾方面，本科生和研究生都可以上。開這門課我最主要的目的，是推廣 Physics of AI 這種方法論。你不一定要在紙上推公式，也不一定要有 1 萬張卡去訓(xùn)大模型，你可以在自己電腦上很快訓(xùn)一個(gè)小模型，發(fā)現(xiàn)里面的有趣現(xiàn)象，而且這些現(xiàn)象還能和現(xiàn)實(shí)建立聯(lián)系。

DeepTech：如果讓你預(yù)測，5 年之后我們對 AI 的理解會到什么水平？會有 AI 版的“開普勒定律”嗎？

劉子鳴：首先像我剛才說的，我們可能還需要 1 到 2 年去收集“第谷的數(shù)據(jù)”，因?yàn)檫€沒到第谷階段。

開普勒定律什么時(shí)候出現(xiàn)，取決于當(dāng)前的 scaling 范式什么時(shí)候停滯(plateau)。我現(xiàn)在瞄準(zhǔn)的是 10% 的可解釋性，已經(jīng)算比較深入的了，絕大多數(shù)研究可能只做到 0.1%，這是因?yàn)楝F(xiàn)在 scaling 還沒停滯，大家沒有動機(jī)去做更深的理解。

所以一個(gè)更近期的問題是，現(xiàn)在的范式什么時(shí)候會停滯？我覺得可能是一年內(nèi)的事情。一年之后我們進(jìn)入“第谷階段”，數(shù)據(jù)也準(zhǔn)備好了，人才也開始轉(zhuǎn)向�？赡軙幸粋€(gè)延遲，一年后大家意識到 scaling 的機(jī)會沒那么多了，才會開始轉(zhuǎn)，真正的轉(zhuǎn)向可能是第二年的事情。第二年結(jié)束之后，數(shù)據(jù)收集好了、人也有了，就可以開始“理解規(guī)�；╯cale up understanding）”。

我們現(xiàn)在是規(guī)�；Ｐ秃蛿�(shù)據(jù)，但接下來要規(guī)�；斫猓�(dāng)然，這個(gè)理解也只是 10%。

圖丨開普勒模型與牛頓模型（來源：劉子鳴播客）

如果把“從第谷到開普勒”定義為這 10% 的理解，我覺得三年就夠了。但從開普勒到牛頓，才是最難的。這又取決于我們這個(gè)范式什么時(shí)候會到頭，大家什么時(shí)候意識到 10% 不夠，什么時(shí)候開始追求更深的理解。

追到 100% 的時(shí)候，牛頓級別的東西才會發(fā)生。所以我對這一段時(shí)間的估計(jì)非常長，甚至有可能 AI 這一波過去之后會進(jìn)入一個(gè)冷靜期，有才華的人都去做下一個(gè)熱點(diǎn)了。

所以開普勒可能三年，牛頓可能要一百年。

DeepTech：最后幾個(gè)快問快答的小問題，你覺得 AI 研究者最該讀的一本非 AI 書是什么？

劉子鳴：《人類簡史》，對我啟發(fā)挺大。這也是結(jié)合 Max 給我的啟發(fā)。我之前會覺得“硬核就是一切”，越難、越不接地氣，就越顯得厲害。但《人類簡史》講的是，人類社會是由故事驅(qū)動的，所以你沒法否認(rèn)故事的重要性。

當(dāng)然現(xiàn)在大家有時(shí)候會過度講故事。你講出來的價(jià)值減去實(shí)際的價(jià)值，如果這個(gè)差值太大，那杠桿就加太多了，這次別人聽你的，下次就不信你了。做影響力的工作，不僅要理解技術(shù)本身，還要理解人性。這是我作為一個(gè) nerd 理工男活了這么多年，最近才領(lǐng)悟到的事情。

DeepTech：如果沒做 AI，你可能在做什么？

劉子鳴：我申博之前跟留學(xué)老師聊天，定的方向其實(shí)是量子力學(xué)理論。那個(gè)時(shí)候我也是覺得，量子力學(xué)非常高深，越硬核越不接地氣，越能顯得厲害。不過現(xiàn)實(shí)是，我認(rèn)識很多做量子的朋友都在往 AI 轉(zhuǎn)。所以我猜可能 10% 的平行宇宙里我還在堅(jiān)守量子理論，另外 90% 的宇宙里，最終都會轉(zhuǎn)去 AI，只是遲早問題。

DeepTech：用一句話形容你理想中實(shí)驗(yàn)室的文化？

劉子鳴：Netflix的那句，“極致的自由，前提是極致的人才密度”。招到最有才的同學(xué)，給他們足夠的自由和自由，讓他們自己去碰撞、去探索。就像 OpenClaw 之父 Peter Steinberger 說的，你打不過一個(gè)用游戲心態(tài)做事的人。當(dāng)然，在早期同學(xué)們還沒有太多研究經(jīng)驗(yàn)的時(shí)候，我可能還是會多微操一點(diǎn)（笑）。這種務(wù)實(shí)是為了更長久的理想主義，只有先存活下來才能再談理想。

運(yùn)營/排版：何晨龍

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.