国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

對話劉子鳴:從MIT回到清華,給AI找一套“務(wù)實(shí)的理論”

0
分享至



如果你關(guān)注過深度學(xué)習(xí)圈,大概率 2024 年時(shí)聽過一個(gè)三個(gè)字母的縮寫——KAN。這篇叫做 Kolmogorov–Arnold Networks(柯爾莫哥洛夫–阿諾德網(wǎng)絡(luò)) 的論文在 arXiv 掛出后,幾天之內(nèi)席卷了各路技術(shù)社群,有人宣稱 MLP(多層感知機(jī))這個(gè)統(tǒng)治了深度學(xué)習(xí)幾十年的基礎(chǔ)磚塊可能要被改寫,也有人質(zhì)疑它只是又一個(gè)“看起來很美”的架構(gòu)。近兩年之后,KAN 的 GitHub 倉庫已經(jīng)攢下了超過 1.6 萬顆星,相關(guān)的跟進(jìn)論文從生物物理到金融建模,鋪了一大片。

這篇論文的第一作者叫劉子鳴,當(dāng)時(shí)還是 MIT 物理系的博士生,導(dǎo)師是以“數(shù)學(xué)宇宙假說”聞名的 Max Tegmark。幾個(gè)月前,他和合作者關(guān)于表示疊加(Superposition)的工作又拿下了 NeurIPS 2025 最佳論文亞軍。如今他 MIT 博士剛畢業(yè),在斯坦福做了一段短暫的博士后回到國內(nèi),即將入職清華大學(xué)人工智能學(xué)院擔(dān)任助理教授。

有意思的是,如果你翻他的主頁,會發(fā)現(xiàn)他給自己掛的標(biāo)簽既不是“深度學(xué)習(xí)研究者”,也不是“大模型研究者“,而是三個(gè)交錯(cuò)的方向:Science of AI(AI 的科學(xué))、Science for AI(服務(wù)于 AI 的科學(xué))、AI for Science(AI 服務(wù)于科學(xué))。在這之上,他最想推動的事情有一個(gè)更具體的名字,叫 Physics of AI(AI 的物理學(xué))。

用他自己的話說,今天的 AI 處境有點(diǎn)像大航海之前的天文學(xué),大家仰著頭看到很多東西,但連把這些觀測整理成一張像樣星圖的“研究語言”都還沒有,連第谷(Tycho Brahe)的階段都還沒到,更別提開普勒和牛頓。

最近他在閉關(guān),想做的事正是把 Physics of AI 本身自動化。

以下是 DeepTech 和他的對話。

從物理到 AI:一路試錯(cuò)之后的轉(zhuǎn)向

DeepTech:你本科在北大讀物理,去 MIT 也是讀物理,后來怎么走到 AI 這條路上來的?

劉子鳴:其實(shí)挺早的,大二下我就開始轉(zhuǎn)向 AI 了,不過當(dāng)時(shí)做的還是 AI 和物理的結(jié)合。

觸發(fā)點(diǎn)是我了解到了 GAN(生成對抗網(wǎng)絡(luò))。當(dāng)時(shí)就覺得,這玩意好像也沒有多難,但它的 formulation(問題構(gòu)建方式)非常巧妙。我那時(shí)就覺得,這就是一個(gè)研究的“重點(diǎn)”,我就想做這樣的工作。

再一個(gè),那個(gè)時(shí)候我在物理上的探索,說實(shí)話也不太順利。一方面,理論覺得挺難的,另一方面,做實(shí)驗(yàn)、動手也挺難的。所以我當(dāng)時(shí)考慮過計(jì)算物理,反正不管計(jì)算物理還是 AI,都是在電腦上搞,但覺得 AI 的問題和機(jī)會更多一點(diǎn),就開始往 AI 上看。不過形式上我仍然掛在物理學(xué)院,找的也是物理學(xué)院的老師做 AI 和物理的交叉,主要是 AI for Physics。

后面讀博跟 Max Tegmark,他早就在做 AI for Physics 和 Physics for AI,所以我們早期主要也是 AI for Physics,比如用 AI 去找物理系統(tǒng)中的守恒量、對稱性這些東西。到 2022 年底 ChatGPT 出來之后,我們就覺得,AI 好像不再只是一個(gè)工具了,它本身變成了研究對象。從那時(shí)候起,我們開始把更多精力花在“理解 AI”上。

DeepTech:你這個(gè)路徑讓我想到楊振寧先生,他當(dāng)年是因?yàn)閷?shí)驗(yàn)不順利才轉(zhuǎn)去做理論物理,然后找到了自己擅長的方向。

劉子鳴:我可能要更慘一點(diǎn)(笑),理論和實(shí)驗(yàn)物理都不順利,連數(shù)論也試過。數(shù)論后來覺得太理論了,也放棄了。

DeepTech:你博士跟的 Max Tegmark 是一位典型的 polymath(通才),他的思維方式對你最大的影響是什么?

劉子鳴:Max 是那種什么都懂的人。

之前 Freeman Dyson 把數(shù)學(xué)家和科學(xué)家分成兩類,一類叫 bird person(鳥人),一類叫 frog person(蛙人)。鳥人飛得很高,能看到整片山河的圖景,喜歡能把不同領(lǐng)域串起來的宏大概念;蛙人則扎在泥里,看得到花朵的細(xì)節(jié),一次解決一個(gè)具體問題。而 Max 就是絕對的鳥人。

不管是物理、AI、神經(jīng)科學(xué),還是各種應(yīng)用領(lǐng)域,他懂的都非常多。他本科其實(shí)學(xué)的是經(jīng)濟(jì)學(xué),在斯德哥爾摩經(jīng)濟(jì)學(xué)院讀的。所以我們經(jīng)常聊著聊著一個(gè)話題,他就能延伸到別的在一般人看來毫不相關(guān)的地方。他能看到那些表面不同的問題底下共通的結(jié)構(gòu),這對我的 research taste(研究品味)影響非常大。

另外還有一點(diǎn),他特別擅長把一個(gè)很難理解的東西解釋給別人。這背后其實(shí)就是費(fèi)曼技巧的那個(gè)核心判斷,如果你不能用簡單的話向一個(gè)外行講清楚一件事,說明你自己也沒真正理解它。傳播學(xué)上也是一樣,你要讓別人知道一個(gè)東西,它至少得是一個(gè)你能講清楚的東西。這個(gè)也是我跟他學(xué)得比較多的。

DeepTech:博士后去斯坦福跟 Andreas Tolias,從物理又轉(zhuǎn)到了神經(jīng)科學(xué)。為什么做這個(gè)決定?

劉子鳴:兩方面。一方面是我也想做鳥人。神經(jīng)網(wǎng)絡(luò)最開始其實(shí)就是神經(jīng)科學(xué)那一撥人搞起來的,我想了解一下那幫人的腦洞到底是什么樣的。另一方面是有一個(gè)具體的項(xiàng)目,我之前做 AI for Physics 時(shí)搞過一個(gè)找守恒量的工具,他們說有一個(gè)神經(jīng)科學(xué)的數(shù)據(jù)集很合適。雖然后來發(fā)現(xiàn)其實(shí)也沒那么合適,但至少是合作的一個(gè)起點(diǎn)。

DeepTech:這么看,你的整個(gè)學(xué)術(shù)路徑其實(shí)可以概括為在研究“智能的底層原理”?

劉子鳴:對,而這種底層原理需要從非常多角度去觸摸和理解,有點(diǎn)像盲人摸象,所有學(xué)科都只是摸它的一部分。

關(guān)于 Science of AI、Science for AI、AI for Science

DeepTech:能不能用最簡單的話說說,這三個(gè)方向各自在回答什么問題?

劉子鳴:看研究的主體是什么。前面是工具,后面是研究對象。

Science for AI 和 Science of AI 都是以 AI 為研究對象,science 是研究方法。兩者挺像的,但還是要做個(gè)區(qū)分。Science of AI 更被動,研究的是現(xiàn)有的那些 AI 模型;Science for AI 更主動、野心更大,是用 science 去重構(gòu)現(xiàn)在的 AI 模型,祈求能造出下一代的 AI 模型。AI for Science 大家已經(jīng)講得比較多了,就是用 AI 去推動科學(xué)發(fā)現(xiàn)。

DeepTech:KAN 應(yīng)該算 Science for AI?

劉子鳴:我自己很喜歡 KAN 的原因就是它同時(shí)包含這三個(gè)方面。它主體是 Science for AI,用 science 去重構(gòu) AI,但也有 Science of AI 的部分。比如我們解釋了為什么 MLP(多層感知機(jī))的 scaling law(縮放律)沒有達(dá)到理想值,而 KAN 可以比 MLP 更快,所以這個(gè)工作也包含對 MLP 的某些理解。同時(shí)它也是 AI for Science,因?yàn)?KAN 工具做出來之后,最適合它的場景往往是那些你期待背后有某種動力學(xué)、有緊湊規(guī)律的任務(wù),而不是大語言模型那種你不太指望背后會有緊湊規(guī)律的任務(wù)。


圖丨KAN 的架構(gòu)(來源:arXiv)

DeepTech:你最初因?yàn)?GAN 進(jìn)入 AI,后來 KAN 又引起那么大關(guān)注,這么看似乎有點(diǎn)呼應(yīng)。

劉子鳴:某種意義上確實(shí)是一次 call back。從高層次上看,我的一些代表作(除了 KAN,還有 Poisson Flow 等)它們跟 GAN 的風(fēng)格都很像,技術(shù)上沒有多難,工程上也不需要多少算力,但能找到一個(gè)比較巧妙的 formulation(問題構(gòu)建方式),或者說找到一種合適的語言。一旦你找到了合適的語言、合適的結(jié)構(gòu),問題就變得非常簡單。有點(diǎn)像愛因斯坦研究廣義相對論的時(shí)候找到了黎曼幾何,當(dāng)語言對了,很多東西就自然而然通了。

DeepTech:回頭看,KAN 對你意味著什么?是一個(gè)架構(gòu)創(chuàng)新,還是一種思維方式的創(chuàng)新?

劉子鳴:我的很多工作,有些人看著覺得亂七八糟、東搞一下西搞一下,但背后其實(shí)是同一個(gè)邏輯,我想在神經(jīng)(neural)和符號(symbolic)這兩個(gè)世界之間架一座橋,F(xiàn)在的 AI 主要是神經(jīng)的,而科學(xué)主要是符號的。

KAN 對我來說很特別的地方在于,它是第一個(gè)讓我覺得存在一種類似波粒二象性的東西。在量子力學(xué)里,粒子既是波也是粒子。而 KAN 同時(shí)是網(wǎng)絡(luò),也同時(shí)是符號公式,同時(shí)是神經(jīng)的東西,也同時(shí)是符號的東西。在它之前,沒有這種例子,要么就是神經(jīng)的,要么就是符號的,要么是 neural-symbolic(神經(jīng)符號方法),但那往往是用某種比較硬的方法強(qiáng)行把兩者拼接起來,不是那么兼容。KAN 很優(yōu)雅地體現(xiàn)了這種二象性。

正因?yàn)檫@樣,我現(xiàn)在思考的另一些問題是沿著這個(gè)邏輯繼續(xù)走。KAN 說的是符號公式和神經(jīng)網(wǎng)絡(luò)的二象性,但符號公式本身仍然是一類比較局限的結(jié)構(gòu)。

比如經(jīng)典算法,像排序這種算法,跟神經(jīng)網(wǎng)絡(luò)之間能不能構(gòu)建二象性?再往前一步,大家現(xiàn)在都在說的 world model(世界模型),它背后可能有物理引擎或物理模擬器,這種東西又該怎么和神經(jīng)網(wǎng)絡(luò)之間構(gòu)建二象性?所以 KAN 其實(shí)只是第一步,后面第二步、第三步、第四步都會按照這條邏輯發(fā)展下去。

DeepTech:也有一些人覺得 KAN 在大規(guī)模任務(wù)上可能用處沒那么大。你怎么看這種評價(jià)?

劉子鳴:這是 no free lunch theorem(沒有免費(fèi)午餐定理))沒有一個(gè)模型能在所有任務(wù)上都比另一個(gè)更好。所以對待模型的正確態(tài)度,是找到它的應(yīng)用場景,然后在它有優(yōu)勢的場景下誠實(shí)地發(fā)揮這個(gè)優(yōu)勢。

具體一點(diǎn),如果你關(guān)心可解釋性,尤其是想拿符號形式的表達(dá),你就應(yīng)該用 KAN;如果你有大量數(shù)據(jù),又關(guān)心高精度的預(yù)測,那你也應(yīng)該用 KAN。什么時(shí)候不應(yīng)該用?數(shù)據(jù)量特別小的時(shí)候別用,因?yàn)?KAN 的 Spectral Bias 更弱,更容易過擬合。大規(guī)模大模型場景下,努力調(diào)參的話工程上都是能做到的,也許能調(diào)得比 Transformer 更好,但我不會一開始就預(yù)設(shè) KAN 有一個(gè)很強(qiáng)的理由一定比傳統(tǒng) Transformer 更好。

DeepTech:作為 KAN 的提出者,你怎么看它現(xiàn)在的生態(tài)?

劉子鳴:我昨天還看到一篇文章,用 KAN 去學(xué)生物物理(biophysics)里的一個(gè)動力系統(tǒng),這是我想象中比較“小而美”的理想應(yīng)用場景。也有一些場景是我一開始沒預(yù)料到的,比如金融和醫(yī)療,這些場景特別需要可解釋性,大家就自然用上了 KAN。一個(gè)東西對現(xiàn)實(shí)世界到底能產(chǎn)生什么影響,作為創(chuàng)造者,很多時(shí)候你在創(chuàng)造的時(shí)候是想象不到的。

DeepTech:你們?nèi)ツ甑?Superposition 論文拿了 NeurIPS 2025 Best Paper Runner-up,核心發(fā)現(xiàn)是什么?

劉子鳴:核心發(fā)現(xiàn)是,當(dāng)模型寬度變寬的時(shí)候,它的 loss(損失)和寬度之間是一個(gè)反比關(guān)系。

為什么這個(gè)發(fā)現(xiàn)令人意外?因?yàn)樵谖覀冞@篇論文之前,甚至包括我自己之前一篇 paper,大家主流的看法是,scaling law 和數(shù)據(jù)分布有很強(qiáng)的關(guān)系。你的數(shù)據(jù)本身遵循某種冪律(power law),所以是冪律進(jìn)、冪律出,數(shù)據(jù)冪律決定了模型冪律。但我們這篇文章打破了這個(gè)觀點(diǎn),我們發(fā)現(xiàn),即使你的數(shù)據(jù)不是冪律、是任意分布,輸出仍然呈現(xiàn)出一個(gè)類似物理學(xué)里“普適類(universality class)”的東西,它把數(shù)據(jù)的細(xì)節(jié)全部抹掉,模型永恒地給你一個(gè) 1/寬度 的縮放律。

解釋這個(gè)結(jié)果用的是非常簡單的理論。方法論上有一點(diǎn)我自己覺得比較獨(dú)特,也是 Physics of AI 區(qū)別于其他理論方法的地方,它是一種“務(wù)實(shí)的理論”。它的目的是解釋甚至改進(jìn)實(shí)驗(yàn),所以會特別緊貼實(shí)驗(yàn)結(jié)果,這是形式化(formal)理論做不到的。但同時(shí)我們又構(gòu)建 toy model(玩具模型)去解釋背后的機(jī)理,這又是純做實(shí)驗(yàn)做不到的。我們在兩者中間找到了平衡,而且在玩具模型上的分析,竟然可以遷移到大模型上。

這篇文章的主要貢獻(xiàn)其實(shí)是來自一作、MIT 的合作者劉逸舟。我的角色差不多就是每周跟他約一次啤酒,一邊喝一邊在白板上寫寫畫畫,討論實(shí)驗(yàn)結(jié)果。逸舟最近也準(zhǔn)備博士畢業(yè),在考慮下一步計(jì)劃了。

DeepTech:另一篇《Neural Thermodynamic Laws》把熱力學(xué)語言用到了大模型訓(xùn)練上,這個(gè)想法是怎么來的?

劉子鳴:這篇我個(gè)人覺得偏課程項(xiàng)目一點(diǎn),因?yàn)闆]有太多特別新奇的發(fā)現(xiàn),但作為J人,總是喜歡能有一個(gè)統(tǒng)一的框架把很多小而繁瑣的觀察給整理清楚。出發(fā)點(diǎn)是一個(gè)非常簡單的觀察,現(xiàn)在訓(xùn)大模型,大家會用學(xué)習(xí)率調(diào)度(learning rate schedule),先 warm up(升溫)、再 stable(穩(wěn)定)、再 decay(衰減)。我們發(fā)現(xiàn)一個(gè)事情,最終的 loss 和它最終衰減到哪個(gè)學(xué)習(xí)率,存在一個(gè)線性關(guān)系。

這個(gè)線性關(guān)系特別像物理里“熱容”的概念。當(dāng)一個(gè)物體有恒定熱容的時(shí)候,你要升多高的溫度,就得吸多少熱。這里 loss 類似于“熱”,學(xué)習(xí)率類似于“溫度”。一開始觀察到這個(gè)事情的時(shí)候,我就意識到,這可以和物理里的能均分定理(equipartition theorem)建立聯(lián)系。

從這個(gè)對應(yīng)出發(fā)做下去,越做越發(fā)現(xiàn)很多東西都能映射到熱力學(xué)。比如你在一個(gè)陡峭的河道里走,在峭壁上彈射的過程中會產(chǎn)生某種“熵力(entropic force)”,算了一下,和物理里的熵力形式是一模一樣。這可能不是巧合。物理中的很多理論,本身就是在尋找簡單而普遍的東西,很多看起來不同的體系經(jīng)過一定抽象之后,會變成同一個(gè)東西。我們這篇文章就是把優(yōu)化動力學(xué)和熱力學(xué),做了一個(gè)更顯式的聯(lián)系。

DeepTech:這種視角對訓(xùn)練策略有什么用?

劉子鳴:我們推導(dǎo)出了一個(gè)最優(yōu)的衰減策略,是 1/t(關(guān)于訓(xùn)練步數(shù) t 的倒數(shù))。我們沒在大模型上試過,但有一些別的文章經(jīng)驗(yàn)上找出來的最優(yōu)策略,其實(shí)跟我們理論上算出來的 1/t 非常像?赡懿粐(yán)格相同,但至少特征是一致的,一開始掉得快,后面慢慢停掉。

Physics of AI:什么是一種“務(wù)實(shí)的理論”

DeepTech:你經(jīng)常說 Physics of AI,但不同人對這個(gè)詞的理解很不一樣。有人覺得是用物理的數(shù)學(xué)工具分析神經(jīng)網(wǎng)絡(luò),有人覺得是找 AI 版的牛頓定律,還有人覺得是機(jī)制可解釋性(mechanistic interpretability)換了個(gè)馬甲。你自己說的 Physics of AI 到底指什么?

劉子鳴:這里需要區(qū)分兩件事。第一,我們最終的目標(biāo)是什么?第二,我們用什么方法到達(dá)這個(gè)目標(biāo)?

最終的目標(biāo)(我們的“North Star”)是,我要為 AI 找到一種“務(wù)實(shí)的理論”。這和傳統(tǒng)的理論是有區(qū)別的。傳統(tǒng)的理論可能是自下而上的,類似數(shù)學(xué),從一些第一性原理出發(fā),去推演出東西來。這種做法的壞處是,可能跟現(xiàn)實(shí)沒那么相關(guān)。但另一方面,我也不相信現(xiàn)在的 AI 背后是沒有理論的,就是無腦調(diào)參。所以我追求的是一種務(wù)實(shí)的理論。

那怎么達(dá)到這個(gè)目標(biāo)?我覺得物理學(xué)的方法論本身就是這樣一種務(wù)實(shí)的理論。物理最終是要描述和預(yù)測實(shí)驗(yàn)現(xiàn)象,所以是務(wù)實(shí)的。但同時(shí)它又是理論,可以定量地預(yù)測。要兼顧兩者,物理采取的方式是,對真實(shí)系統(tǒng)做抽象和簡化,研究這個(gè)簡化后的模型,它可能仍然很復(fù)雜,但至少把無關(guān)的變量簡化掉了。

先在一個(gè)更小的模型上研究清楚,再把它遷移回更大的模型,中間肯定有 gap(差距),再一步一步解釋這個(gè) gap 是怎么加上來的。不管是機(jī)制派、現(xiàn)象學(xué)派,還是 Physics of LLMs 那派,目的其實(shí)都是找到一種務(wù)實(shí)的理論。

DeepTech:那你和朱澤園(Zeyuan Allen-Zhu)做的 Physics of LLMs、Anthropic 做的機(jī)制可解釋性,具體差別在哪?

劉子鳴:大家目的都差不多,硬說區(qū)別的話,我比他們更關(guān)心訓(xùn)練動力學(xué)(training dynamics),他們可能更關(guān)心模型最后的結(jié)果。朱澤園更關(guān)心的是相圖,即改這些超參數(shù),最后的指標(biāo)怎么依賴于這些超參數(shù)。Anthropic 關(guān)心的是,給我一個(gè)模型,我去理解它內(nèi)部怎么工作。

我關(guān)心的層面稍微不一樣,比朱澤園稍微更微觀一點(diǎn),但比 Anthropic 又更宏觀一點(diǎn)。我關(guān)心的是,當(dāng)我們訓(xùn)練一個(gè)模型的時(shí)候,它的各種觀測量,比如 loss,比如權(quán)重的范數(shù),是怎么隨著訓(xùn)練演化的?所以有點(diǎn)像是一種“關(guān)于曲線的科學(xué)”,你訓(xùn)練一個(gè)東西,可以同時(shí)畫 100 條曲線,從曲線里獲得洞察,再根據(jù)這些洞察去迭代。

但最終,我不會覺得做 Physics of AI 就不認(rèn)可別人的做法。我的態(tài)度是八仙過海、取其精華去其糟粕,不同的叫法、不同的方法,只要能為我所用,我就把它吸納進(jìn)來。

DeepTech:你在博客里說 AI 目前還處在“第谷階段”,有大量的觀測數(shù)據(jù),但沒有開普勒定律,更沒有牛頓力學(xué)。你覺得 AI 領(lǐng)域積累的“認(rèn)知債務(wù)”有多嚴(yán)重?

劉子鳴:首先糾正一下,那篇博客是我?guī)讉(gè)月前寫的。我現(xiàn)在的認(rèn)知更悲觀一點(diǎn),可能連低谷階段都還沒到。

雖然互聯(lián)網(wǎng)上有大量文章、數(shù)據(jù),但我現(xiàn)在想做的一件事,是把 Physics of AI 本身自動化,這也跟我閉關(guān)的項(xiàng)目有關(guān),因?yàn)槿俗鲅芯窟是太慢了。開始做之后我才意識到,我沒有太多數(shù)據(jù)可用。

肯定會有人反問,互聯(lián)網(wǎng)上那么多文章,為什么說沒數(shù)據(jù)?因?yàn)槲艺嬲枰臄?shù)據(jù),是一種人腦子里的結(jié)構(gòu)化數(shù)據(jù),它應(yīng)該比自然語言更結(jié)構(gòu)化,但往往我們并不會把這種東西寫下來,甚至不知道怎么寫下來。

什么數(shù)據(jù)對研究是有價(jià)值的?比如我自己寫代碼的時(shí)候,會不斷跟自己對話、自言自語,有時(shí)候甚至不用語言,腦子里潛意識在做某種判斷和取舍,這些數(shù)據(jù)都沒有。再比如老師和學(xué)生討論一個(gè)項(xiàng)目,老師建議這樣做、學(xué)生怎么回應(yīng)、為什么,這些過程的數(shù)據(jù)也沒有。

綜合來看,其實(shí)我們連“第谷階段”的數(shù)據(jù)都還沒湊齊。我現(xiàn)在閉關(guān)就是要做這件事,先把自己推到第谷階段。而且我們需要先定義一門新的語言。研究本身是一門新的語言,自然語言只是我們用來交流研究的一種方式。日報(bào)仍然是自然語言,我需要把每篇日報(bào)結(jié)構(gòu)化成這門新語言,才能開始有這門語言的數(shù)據(jù),才能進(jìn)行訓(xùn)練。

DeepTech:這筆認(rèn)知債務(wù)短期內(nèi)可能還不會影響 AI 發(fā)展,但什么時(shí)候它會開始阻礙 AI 邁入下一個(gè)階段?

劉子鳴:認(rèn)知債務(wù)是一個(gè)連續(xù)的東西。你解決得越多,短期風(fēng)險(xiǎn)越大,長期回報(bào)也越大。所以我不覺得它是一個(gè)相變,而是一個(gè)逐漸的過程。

四個(gè)月前我寫博客的時(shí)候,我更極端一點(diǎn),覺得需要一個(gè)相變式的解決方式。現(xiàn)在務(wù)實(shí)多了,一步步解決。我現(xiàn)在的目標(biāo)是,在 2 到 3 年內(nèi)解決掉 10% 的認(rèn)知債務(wù),而這 10% 可能能產(chǎn)生 90% 的效益。剩下的債務(wù),我覺得得靠新的賽道,否則你就算繼續(xù)解決,也只能再多拿到 10% 的效益了。

一方面,大家慢慢開始意識到有“認(rèn)知債務(wù)”這件事。另一方面,有沒有意義去解決它,是一個(gè)路線選擇問題。我賭的是,要解決掉這 10%,才能掘到下一個(gè)金礦層。再往下掘、把整層鑿穿,可能付出的努力又不值得了,除非你能找到新的機(jī)會。

DeepTech:你在博客里還提了一個(gè)挺尖銳的觀點(diǎn)。AI 的現(xiàn)象學(xué)(phenomenology)之所以發(fā)展不起來,主要是“發(fā)表文化”在阻擋,只有能提升性能、或能講成完整故事的研究才能發(fā)表,而很多你覺得有意思的現(xiàn)象,因?yàn)榘b不成論文就被扔掉了。這個(gè)文化需要怎么改變?

劉子鳴:又是那句話,這個(gè)領(lǐng)域發(fā)展太快了。四個(gè)月前你問我,我會說我們需要建一個(gè)社區(qū)來做這件事。但現(xiàn)在我覺得,做一個(gè) agent(智能體)就可以了,根本不用發(fā)表。

我之前的思路是集體智能(collective intelligence),我觀察到一件事,別人觀察到另一件事,把這些觀察匯聚起來,這個(gè)領(lǐng)域有一天會出現(xiàn)類似滲流相變(percolation phase transition)的東西。但我現(xiàn)在意識到,這種相變往往是在一個(gè)人的腦子里產(chǎn)生的。我需要一個(gè)智能體,能日以繼夜不停地去做這些小發(fā)現(xiàn)。我之前做日報(bào),其實(shí)就是在手動做這件事。

現(xiàn)在我的判斷是,第一,這件事 90% 可以被自動化。第二,我可以做得更暴力一點(diǎn)。之前我依賴人的直覺去決定“測什么觀測量”,但現(xiàn)在我意識到,我可以一次測 100 萬個(gè)觀測量,暴力地測,再根據(jù)結(jié)果反推哪個(gè)觀測量是重要的。

這是超越人類的做法。人腦有一些特別的地方,但可能沒有我原來想象的那么特別。至少在“測什么”這件事上,人可能真不如機(jī)器。因此,我并不反對 scaling,但在 scale 什么的問題上,我希望我們能更多地去 scale up understanding。

我現(xiàn)在覺得,我們應(yīng)該造一個(gè)機(jī)器,它甚至不必像智能體那么聰明,就在搜索空間里暴力搜。這件事不需要社區(qū),因?yàn)檫@個(gè)過程對人來說太無聊、太耗時(shí)間了。

DeepTech:那人在其中扮演什么角色?

劉子鳴:具體說,人和機(jī)器的區(qū)別在哪?人能夠提出“分布外(out-of-distribution)”的想法(訓(xùn)練數(shù)據(jù)里壓根不存在的新點(diǎn)子),而機(jī)器是在“分布內(nèi)”做排列組合,這是機(jī)器特別擅長的。

這也聯(lián)系到我招學(xué)生的標(biāo)準(zhǔn),我要招能提出分布外想法的人。因?yàn)榉植純?nèi)的部分,機(jī)器就能代替。

DeepTech:可解釋性是你很多工作的核心關(guān)切。KAN 是為了可解釋,BIMT 也是,Superposition 的研究也建立在 Anthropic 的玩具模型之上。在大家都在拼命追求更大、更強(qiáng)模型的當(dāng)下,可解釋性的優(yōu)先級應(yīng)該放在哪?

劉子鳴:這還是回到剛才“認(rèn)知債務(wù)”的問題,F(xiàn)在主流路線是關(guān)心 0% 的可解釋性,追求更強(qiáng)的模型。我關(guān)心 10% 的可解釋性,目標(biāo)是在 2 到 3 年內(nèi)建出更強(qiáng)的模型。所以作為一種務(wù)實(shí)的理論,最終還是要建更強(qiáng)的模型,只是把時(shí)間尺度拉長了一點(diǎn)。

可能有人選擇另一種押注,我要理解 50%,那目標(biāo)可能是 5 到 10 年,或者 100%,目標(biāo)是 100 年。但作為一種務(wù)實(shí)的理論,還是要做一些及時(shí)的事情。

DeepTech:聽說你最近在閉關(guān)搞一個(gè)項(xiàng)目,說需要連續(xù)的時(shí)間進(jìn)入心流。能透露一下在做什么嗎?

劉子鳴:其實(shí)做的就是剛才說的,創(chuàng)造研究這門語言。

我之前寫過一篇日報(bào),說研究不應(yīng)該以論文為目標(biāo),它應(yīng)該以知識圖譜(knowledge graph)為目標(biāo)。而這個(gè)知識圖譜本身就是一種語言。人類的自然語言是線性的,但像電影《降臨》里外星人的語言,它是圖像化的、環(huán)形的。我現(xiàn)在想創(chuàng)造的,就是這樣一門圖像化的語言,而做研究其實(shí)就對應(yīng)著去改這張圖。就先透露這些吧。

關(guān)于在清華建組和 AI 的“開普勒定律”

DeepTech:你現(xiàn)在正在招 2027 年秋入學(xué)的博士生。你想招什么樣的人?

劉子鳴:能提出分布外想法的人。而好奇心驅(qū)動是這件事的一個(gè)必要條件。

你需要一直保持探索,因?yàn)楹芸赡苣闱?100 個(gè)想法都已經(jīng)被別人想過了。這意味著你不僅要理解知識本身,還要理解人腦是怎么思考知識的,然后找到一個(gè)東西,它既是某種意義上“人腦的分布外”,又對現(xiàn)實(shí)世界是有意義的問題。這需要很強(qiáng)的好奇心,加上韌性(resilience),因?yàn)榍?100 次你可能都失敗了,如果沒有好奇心,你就沒有動力堅(jiān)持。

DeepTech:高校系統(tǒng)內(nèi)的學(xué)術(shù)環(huán)境相對更強(qiáng)調(diào)傳統(tǒng)意義上的“有用”和實(shí)用主義。如果用你的這套標(biāo)準(zhǔn),好奇心驅(qū)動、分布外研究、甚至用博客代替論文,會不會太理想化?你怎么保護(hù)學(xué)生的好奇心?

劉子鳴:如果學(xué)校有硬性的發(fā)表規(guī)定,我的學(xué)生要達(dá)到這種基本的規(guī)定是很容易的事情。

我覺得做研究的第一性原理,是拓展自己的知識圖譜。這個(gè)過程需要好奇心驅(qū)動,而發(fā)文章只是第二性的,是一個(gè)自然而然的副產(chǎn)物。當(dāng)你知識圖譜拓展到一定程度,大到溢出的時(shí)候,你發(fā)現(xiàn)了一些東西,非常想跟別人分享,不得不把它寫下來,這個(gè)時(shí)候自然會出現(xiàn)文章。博客轉(zhuǎn)文章其實(shí)也不是太難的事。

我承認(rèn)自己做研究確實(shí)比較理想主義,我感興趣、學(xué)生感興趣的東西,我就覺得值得研究。但我逐漸覺得,實(shí)用主義的思維方式也不一定是壞事。其實(shí)兩種可以在一個(gè)項(xiàng)目的不同階段交替使用。第一階段用理想主義的方式去探索,好奇驅(qū)動,定義問題。第二階段當(dāng)問題定義清楚、拆解成了工程問題之后,就要用實(shí)用主義的態(tài)度把工程推起來。否則效率太低。所以一句話就是,像科學(xué)家一樣問有趣的問題,但像工程師一樣把它解決掉。

DeepTech:你提到要在清華開一門 Physics of AI 的課,這門課打算怎么教?

劉子鳴:這門課和一般 AI 理論課最大的區(qū)別是,我更關(guān)心“做實(shí)驗(yàn)”。

理想化一點(diǎn)說,我希望讓學(xué)生感受到牛頓那句話,“我就像一個(gè)在沙灘上玩耍的小孩,撿起這些貝殼”。我可能對之前的人發(fā)現(xiàn)了什么一無所知,但我仍然能夠通過和這個(gè)世界的交互去發(fā)現(xiàn)一些美。

常規(guī)的 AI 理論課是去教“之前的人發(fā)現(xiàn)了什么現(xiàn)象、提出了什么理論”,但這樣太像教科書了,好像所有東西都定死了。我會反過來,從一些很小的實(shí)驗(yàn)出發(fā)。我只告訴你這個(gè)模型是什么、我們在干什么,然后我給你畫一些觀測量,讓你自己觀察,你不需要先有任何先驗(yàn)知識,就去看這些曲線,你會自己意識到背后可能有什么規(guī)律。以這個(gè)為引子,我再去介紹前人在這上面做過哪些理論解釋。

這也是我博客一直想做的事,就是把所有現(xiàn)象都簡化成一個(gè)玩具模型。這個(gè)玩具模型可以在個(gè)人電腦上用一塊 CPU、5 分鐘之內(nèi)就跑出這個(gè)現(xiàn)象,不需要多少算力就能復(fù)現(xiàn)大家關(guān)心的現(xiàn)象。

這完全是物理學(xué)家研究世界的方式。先做實(shí)驗(yàn),先觀察,甚至可以先“當(dāng)民科”,在玩耍的過程中做一些自己的歸納總結(jié),然后再回過頭看前人怎么解釋。這樣學(xué)生對知識的印象會更深刻,因?yàn)樗钦娴膭邮肿隽艘粋(gè)東西。如果你直接灌輸,他就只能被動接受。

受眾方面,本科生和研究生都可以上。開這門課我最主要的目的,是推廣 Physics of AI 這種方法論。你不一定要在紙上推公式,也不一定要有 1 萬張卡去訓(xùn)大模型,你可以在自己電腦上很快訓(xùn)一個(gè)小模型,發(fā)現(xiàn)里面的有趣現(xiàn)象,而且這些現(xiàn)象還能和現(xiàn)實(shí)建立聯(lián)系。

DeepTech:如果讓你預(yù)測,5 年之后我們對 AI 的理解會到什么水平?會有 AI 版的“開普勒定律”嗎?

劉子鳴:首先像我剛才說的,我們可能還需要 1 到 2 年去收集“第谷的數(shù)據(jù)”,因?yàn)檫沒到第谷階段。

開普勒定律什么時(shí)候出現(xiàn),取決于當(dāng)前的 scaling 范式什么時(shí)候停滯(plateau)。我現(xiàn)在瞄準(zhǔn)的是 10% 的可解釋性,已經(jīng)算比較深入的了,絕大多數(shù)研究可能只做到 0.1%,這是因?yàn)楝F(xiàn)在 scaling 還沒停滯,大家沒有動機(jī)去做更深的理解。

所以一個(gè)更近期的問題是,現(xiàn)在的范式什么時(shí)候會停滯?我覺得可能是一年內(nèi)的事情。一年之后我們進(jìn)入“第谷階段”,數(shù)據(jù)也準(zhǔn)備好了,人才也開始轉(zhuǎn)向?赡軙幸粋(gè)延遲,一年后大家意識到 scaling 的機(jī)會沒那么多了,才會開始轉(zhuǎn),真正的轉(zhuǎn)向可能是第二年的事情。第二年結(jié)束之后,數(shù)據(jù)收集好了、人也有了,就可以開始“理解規(guī);╯cale up understanding)”。

我們現(xiàn)在是規(guī);P秃蛿(shù)據(jù),但接下來要規(guī);斫猓(dāng)然,這個(gè)理解也只是 10%。


圖丨開普勒模型與牛頓模型(來源:劉子鳴播客)

如果把“從第谷到開普勒”定義為這 10% 的理解,我覺得三年就夠了。但從開普勒到牛頓,才是最難的。這又取決于我們這個(gè)范式什么時(shí)候會到頭,大家什么時(shí)候意識到 10% 不夠,什么時(shí)候開始追求更深的理解。

追到 100% 的時(shí)候,牛頓級別的東西才會發(fā)生。所以我對這一段時(shí)間的估計(jì)非常長,甚至有可能 AI 這一波過去之后會進(jìn)入一個(gè)冷靜期,有才華的人都去做下一個(gè)熱點(diǎn)了。

所以開普勒可能三年,牛頓可能要一百年。

DeepTech:最后幾個(gè)快問快答的小問題,你覺得 AI 研究者最該讀的一本非 AI 書是什么?

劉子鳴:《人類簡史》,對我啟發(fā)挺大。這也是結(jié)合 Max 給我的啟發(fā)。我之前會覺得“硬核就是一切”,越難、越不接地氣,就越顯得厲害。但《人類簡史》講的是,人類社會是由故事驅(qū)動的,所以你沒法否認(rèn)故事的重要性。

當(dāng)然現(xiàn)在大家有時(shí)候會過度講故事。你講出來的價(jià)值減去實(shí)際的價(jià)值,如果這個(gè)差值太大,那杠桿就加太多了,這次別人聽你的,下次就不信你了。做影響力的工作,不僅要理解技術(shù)本身,還要理解人性。這是我作為一個(gè) nerd 理工男活了這么多年,最近才領(lǐng)悟到的事情。

DeepTech:如果沒做 AI,你可能在做什么?

劉子鳴:我申博之前跟留學(xué)老師聊天,定的方向其實(shí)是量子力學(xué)理論。那個(gè)時(shí)候我也是覺得,量子力學(xué)非常高深,越硬核越不接地氣,越能顯得厲害。不過現(xiàn)實(shí)是,我認(rèn)識很多做量子的朋友都在往 AI 轉(zhuǎn)。所以我猜可能 10% 的平行宇宙里我還在堅(jiān)守量子理論,另外 90% 的宇宙里,最終都會轉(zhuǎn)去 AI,只是遲早問題。

DeepTech:用一句話形容你理想中實(shí)驗(yàn)室的文化?

劉子鳴:Netflix的那句,“極致的自由,前提是極致的人才密度”。招到最有才的同學(xué),給他們足夠的自由和自由,讓他們自己去碰撞、去探索。就像 OpenClaw 之父 Peter Steinberger 說的,你打不過一個(gè)用游戲心態(tài)做事的人。當(dāng)然,在早期同學(xué)們還沒有太多研究經(jīng)驗(yàn)的時(shí)候,我可能還是會多微操一點(diǎn)(笑)。這種務(wù)實(shí)是為了更長久的理想主義,只有先存活下來才能再談理想。

運(yùn)營/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
中國高鐵過度建設(shè)問題:科學(xué)院院士的警告

中國高鐵過度建設(shè)問題:科學(xué)院院士的警告

深度報(bào)
2026-04-20 22:43:12
歸元破局:長城全棧自研引領(lǐng)“按需造車”工業(yè)革命

歸元破局:長城全棧自研引領(lǐng)“按需造車”工業(yè)革命

澎湃新聞
2026-04-21 04:33:14
電梯安裝違規(guī)操作致3人墜亡,事故調(diào)查報(bào)告公布

電梯安裝違規(guī)操作致3人墜亡,事故調(diào)查報(bào)告公布

極目新聞
2026-04-21 11:25:37
澤連斯基終于放棄了川普

澤連斯基終于放棄了川普

互聯(lián)網(wǎng)大觀
2026-04-20 12:14:17
伊朗:最高領(lǐng)袖完全健康,出于安全考慮,目前錄制穆杰塔巴的任何影像或聲音均不妥當(dāng)

伊朗:最高領(lǐng)袖完全健康,出于安全考慮,目前錄制穆杰塔巴的任何影像或聲音均不妥當(dāng)

瀟湘晨報(bào)
2026-04-20 22:40:10
俄烏戰(zhàn)爭最大諷刺:烏克蘭沒被打垮,反而坐上桌,開始教世界下棋

俄烏戰(zhàn)爭最大諷刺:烏克蘭沒被打垮,反而坐上桌,開始教世界下棋

壹只灰鴿子
2026-04-19 11:05:55
105歲才能取本金“隨用隨取”成空話 保險(xiǎn)公司算欺詐嗎?法院判了

105歲才能取本金“隨用隨取”成空話 保險(xiǎn)公司算欺詐嗎?法院判了

環(huán)球網(wǎng)資訊
2026-04-21 15:08:47
首組1-1!尼克斯丟壓哨絕殺惜敗老鷹 麥科勒姆32+6布倫森29+7

首組1-1!尼克斯丟壓哨絕殺惜敗老鷹 麥科勒姆32+6布倫森29+7

醉臥浮生
2026-04-21 10:47:56
印度加快推進(jìn)蘋果反壟斷案 罰款或達(dá)380億美元

印度加快推進(jìn)蘋果反壟斷案 罰款或達(dá)380億美元

財(cái)聯(lián)社
2026-04-20 20:53:05
親戚一家五口旅游要求接待,咋拒絕?網(wǎng)友:直接表達(dá)的態(tài)度

親戚一家五口旅游要求接待,咋拒絕?網(wǎng)友:直接表達(dá)的態(tài)度

帶你感受人間冷暖
2026-04-19 23:11:39
谷雨后,這菜使勁吃,一清熱解毒,二健胃消食,三祛濕,鮮嫩營養(yǎng)

谷雨后,這菜使勁吃,一清熱解毒,二健胃消食,三祛濕,鮮嫩營養(yǎng)

阿龍美食記
2026-04-20 15:29:14
王毅將訪問柬埔寨、泰國、緬甸并與董軍共同出席中柬外長、防長“2+2”戰(zhàn)略對話機(jī)制首次會議

王毅將訪問柬埔寨、泰國、緬甸并與董軍共同出席中柬外長、防長“2+2”戰(zhàn)略對話機(jī)制首次會議

界面新聞
2026-04-21 15:11:33
特朗普宣布“贏麻了”:海峽受阻,數(shù)百艘船被迫買美國石油!美方稱扣押從中國向伊朗運(yùn)導(dǎo)彈化工原料的船只,中方回應(yīng):是外籍集裝箱船

特朗普宣布“贏麻了”:海峽受阻,數(shù)百艘船被迫買美國石油!美方稱扣押從中國向伊朗運(yùn)導(dǎo)彈化工原料的船只,中方回應(yīng):是外籍集裝箱船

每日經(jīng)濟(jì)新聞
2026-04-21 17:04:44
日韓股市集體收漲 韓國綜指創(chuàng)新高

日韓股市集體收漲 韓國綜指創(chuàng)新高

財(cái)聯(lián)社
2026-04-21 14:33:05
2026年一季度消費(fèi):汽車、彩電、空調(diào)全線下跌

2026年一季度消費(fèi):汽車、彩電、空調(diào)全線下跌

風(fēng)向觀察
2026-04-21 09:27:07
“領(lǐng)小姐姐看電影不買吃喝好意思么”,山東臨沂一影院條幅令人不適,當(dāng)?shù)兀阂岩筇幚?>
    </a>
        <h3>
      <a href=瀟湘晨報(bào)
2026-04-21 16:44:21
全家“社會性死亡”!昆明機(jī)場一家五口強(qiáng)行登機(jī),最丟臉的竟是他

全家“社會性死亡”!昆明機(jī)場一家五口強(qiáng)行登機(jī),最丟臉的竟是他

青梅侃史啊
2026-04-21 11:54:43
31歲的美國退役軍人,槍殺了7名未成年子

31歲的美國退役軍人,槍殺了7名未成年子

中國新聞周刊
2026-04-21 18:13:44
黃大發(fā)等涉黑案一審宣判:黃大發(fā)等12人組織、領(lǐng)導(dǎo)、參加黑社會性質(zhì)組織,判處黃大發(fā)死刑,其他11名被告人分別判處13年至2年2個(gè)月不等刑罰

黃大發(fā)等涉黑案一審宣判:黃大發(fā)等12人組織、領(lǐng)導(dǎo)、參加黑社會性質(zhì)組織,判處黃大發(fā)死刑,其他11名被告人分別判處13年至2年2個(gè)月不等刑罰

揚(yáng)子晚報(bào)
2026-04-21 15:07:17
中方不再伺候了!對荷光刻機(jī)優(yōu)待全部取消,450億芯片不做了!

中方不再伺候了!對荷光刻機(jī)優(yōu)待全部取消,450億芯片不做了!

馬捗在解說
2026-04-21 12:53:27
2026-04-21 19:12:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨(dú)家合作
16606文章數(shù) 514894關(guān)注度
往期回顧 全部

科技要聞

重磅官宣:庫克卸任,特努斯接任蘋果CEO

頭條要聞

男子買"隨用隨取"保險(xiǎn)后得知百歲才能取本金 法院判了

頭條要聞

男子買"隨用隨取"保險(xiǎn)后得知百歲才能取本金 法院判了

體育要聞

62歲,成為中國足壇最火的人

娛樂要聞

周潤發(fā)時(shí)隔16年再賣樓,變現(xiàn)數(shù)億資產(chǎn)

財(cái)經(jīng)要聞

現(xiàn)實(shí)是最大的荒誕:千億平臺的沖突始末

汽車要聞

全新坦克700正式上市 售價(jià)42.8萬-50.8萬元

態(tài)度原創(chuàng)

本地
游戲
旅游
公開課
軍事航空

本地新聞

春色滿城關(guān)不住|白鵑梅浪漫盛放,吳山藏了一片四月雪

萬代大作擺爛放棄D加密?剛被破解三周

旅游要聞

美麗北京|玉淵潭紫藤綻放,打卡紫色浪漫

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普公開對伊開戰(zhàn)真正原因

無障礙瀏覽 進(jìn)入關(guān)懷版