国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

離開meta三個(gè)月后的國(guó)內(nèi)首訪:田淵棟的科學(xué)與詩

0
分享至


「Throw A Stone 投石問溪」:Creekstone 官方播客訪談系列。我們?cè)L談最一線的創(chuàng)業(yè)者、最前沿的研究者,和 AI 道路上最有趣深刻的同路人。致力于連接全球頂尖AI研究者與中國(guó)創(chuàng)業(yè)生態(tài),尋找下一個(gè)時(shí)代的原生變量。

完整訪談將在小宇宙上線音頻、公眾號(hào)上線文字、小紅書上線精彩視頻片段,

歡迎轉(zhuǎn)載與一切可能的合作,讓我們一起連接思考,探索偉大。

CREEK STONE

過去 3 年的AI圈只有一種味道:暴力。

算力暴力、數(shù)據(jù)暴力、參數(shù)暴力。所有人都在卷同一件事:怎么用更多的資源堆出更強(qiáng)的模型。

Scaling Law成了這個(gè)時(shí)代的宗教,大力出奇跡仿佛已變成唯一的信仰。

而田淵棟卻選擇了一條更寂寞的路。

作為Meta FAIR曾經(jīng)的資深首席研究員,LLaMA和OpenGo背后的關(guān)鍵推手,

他的研究從破解圍棋的機(jī)制到優(yōu)化大模型的肌理,

做的事情從來只有一件:打開黑箱,找到底層邏輯。

三個(gè)月前,他離開了效力十一年的Meta。

我們有幸在春節(jié)前在硅谷一起吃飯,深入聊了很久。

聊了他從上海內(nèi)向少年到硅谷頂級(jí)研究員的來時(shí)路,聊了大廠組織病變的結(jié)構(gòu)性原因,聊了他對(duì)Transformer架構(gòu)根本局限的判斷,聊到了那個(gè)讓我們?cè)谡勗掗g隙陷入長(zhǎng)久沉默的理論——“費(fèi)米線”。

我們想了解,一個(gè)頂級(jí)頭腦在奇點(diǎn)臨近時(shí),對(duì)人類命運(yùn)最誠(chéng)實(shí)的思考。這份思維之美,讓我們懇切邀請(qǐng)?zhí)锢蠋熥鲆淮螌TL,作為Creekstone 投石問溪深度訪談內(nèi)容的開篇,讓更多人一起加入面向未來之旅,希望給想要探索創(chuàng)業(yè)的伙伴,一些真知灼見。

在進(jìn)入完整對(duì)話前,我們提煉了對(duì)話中

田老師的5個(gè)核心判斷:

1、AI正在劃定一條不斷上移的“費(fèi)米線”:線下的重復(fù)性技能因無限供給而價(jià)值歸零,唯有具備獨(dú)一無二創(chuàng)造力、能解決深層難題的人,才能在未來幸存。

2、硅谷巨頭正陷入嚴(yán)重的“組織病變”:層層過濾的匯報(bào)機(jī)制讓高層對(duì)真實(shí)技術(shù)進(jìn)度一無所知,激進(jìn)的目標(biāo)最終只能靠底層的“Hack”和泡沫來維持。

3、Transformer架構(gòu)已近十年未變,修修補(bǔ)補(bǔ)沒有意義;算法的進(jìn)化不存在中間狀態(tài),線性注意力無法替代全注意力,下一代架構(gòu)必須是徹底的推倒重來。

4、在Scaling Law成為宗教的時(shí)代,盲目堆砌算力是一種偷懶;真正的突破在于“打開黑箱”,搞清楚智能涌現(xiàn)背后的物理機(jī)制和底層邏輯。

5、現(xiàn)有的梯度下降和概率預(yù)測(cè)模型,可能永遠(yuǎn)無法模擬人類的“頓悟”瞬間;要實(shí)現(xiàn)真正的人類水平智能,整個(gè)訓(xùn)練算法或許都需要被徹底替換。

以下是我們和田淵棟的完整談話:

人與成長(zhǎng)

Creekstone :您能介紹一下自己的成長(zhǎng)和職業(yè)經(jīng)歷嗎?

田淵棟:我是上海人,在上海出生長(zhǎng)大到二十幾歲。后來去北京有一些實(shí)習(xí)機(jī)會(huì),包括在微軟亞洲研究院,那段經(jīng)歷讓我看到了更大的天地,萌生了出國(guó)的念頭。

2008年去卡內(nèi)基梅隆大學(xué)讀博士,五年后的2013年畢業(yè)。畢業(yè)后先去了谷歌無人車,待了約一年三個(gè)月,之后加入Meta,前后將近11年。這期間做了很多項(xiàng)目:圍棋Bot、用強(qiáng)化學(xué)習(xí)解決優(yōu)化問題、打開大模型黑箱、大模型優(yōu)化與推理、LLaMA相關(guān)工作,還有強(qiáng)化學(xué)習(xí)方面的工作。

Creekstone :您的MBTI是?

田淵棟:可能是INTP或INTJ,最后一個(gè)字母不是很確定。我覺得這要看跟誰比,如果跟非常J(判斷型)的人比,我可能是P(感知型);但如果跟比較P的人比,我又有可能是J。

不過,我確定是I(內(nèi)向型),因?yàn)槲掖_實(shí)能夠在獨(dú)處中獲得能量。但I(xiàn)人也可以偽裝成E人(外向型)。在過去十幾年的學(xué)術(shù)和博士階段的鍛煉中,我慢慢掌握了這種方法,也發(fā)現(xiàn)了和別人交流的樂趣。其實(shí)在2008年之前,我應(yīng)該是一個(gè)完全的I人,非常內(nèi)向,不太愿意說話。

Creekstone :中美兩種學(xué)術(shù)科研環(huán)境,對(duì)您的性格塑造有什么影響?

田淵棟:中國(guó)的環(huán)境相對(duì)來說二元化比較嚴(yán)重。從小到大,作為“好學(xué)生”,大家會(huì)有意無意地給自己貼上標(biāo)簽,認(rèn)為好學(xué)生就應(yīng)該少說話,好好做題,把事情做完,不要聲張。環(huán)境會(huì)把人清晰地分為兩類:要么是能說會(huì)道的sales,要么是埋頭干活的工程師。

來到美國(guó)后,我發(fā)現(xiàn)情況很不一樣。很多人可以同時(shí)具備I和E的特質(zhì),他們既愿意表達(dá),也能靜下心來把事情做好。這也讓我的個(gè)人特質(zhì)有了一次積極的升級(jí)。

另外,中國(guó)的環(huán)境里“negative reward”(負(fù)向激勵(lì))特別多,而“positive reward”(正向激勵(lì))很少。這樣的環(huán)境不太鼓勵(lì)探索,因?yàn)榈教幎际窍拗?,似乎只有一條路是正確的。而在一個(gè)更多元化的環(huán)境里,你會(huì)發(fā)現(xiàn)各種各樣的正向激勵(lì),周圍的人更多地在鼓勵(lì)你,負(fù)面信息更少,焦慮感也隨之降低。

硅谷里有很多這樣"看起來不知道害怕"的人,愿意做瘋狂的事,大部分失敗,但總有一兩個(gè)成功了成為leader。

Creekstone:您最喜歡的電影跟書籍是什么?

田淵棟:《三體》對(duì)我來說是一個(gè)非常震撼的作品,特別是讀完第二部之后,那種世界觀被顛覆的感覺非常美妙。當(dāng)時(shí)我做的一個(gè)圍棋BOT,也是以第二部的書名“黑暗森林”命名的。其它的科幻比如說《深淵上的火》,《最后的問題》,《光明王》,奇幻也會(huì)看,像著名的《冰與火之歌》,也會(huì)看一些國(guó)產(chǎn)的奇幻,比如說《歷史的塵埃》,《無限恐怖》,《詭秘之主》,《道詭異仙》。

電影方面,我可能動(dòng)漫看得更多一些,比如《攻殼機(jī)動(dòng)隊(duì)》,它的很多想法和理念非常超前且有意思。還有一部比較老的經(jīng)典動(dòng)漫叫《反叛的魯路修》,里面的人物塑造和劇情編排都非常有趣,我也很推薦。

Creekstone:有什么事情是像《三體》第二部那樣,最改變您個(gè)人世界觀的經(jīng)歷嗎?

田淵棟:其實(shí)就是前面提到的,從一個(gè)I人變成更偏E人的狀態(tài),這可以說是我世界觀改變的一個(gè)入口。我以前非常內(nèi)向,很難與人交流,甚至上臺(tái)講話會(huì)緊張到說不出話。但當(dāng)我在臺(tái)上演講一兩次,發(fā)現(xiàn)自己的東西被大家欣賞之后,就慢慢打開了心態(tài),獲得了表達(dá)的動(dòng)力。這個(gè)轉(zhuǎn)變讓我的人生往上走了一層,我學(xué)會(huì)了如何表達(dá)自己,如何讓想法被別人接受和理解?,F(xiàn)在回頭看,如果一直只是埋頭苦干但不愿交流,可能未來的上限也不會(huì)太高。

Creekstone :文學(xué)創(chuàng)作會(huì)被AI取代嗎?未來幾年,文學(xué)創(chuàng)作本身可能發(fā)生什么樣的演變?

田淵棟:文學(xué)作品永遠(yuǎn)存在,因?yàn)樗膭?dòng)因是"人想要表達(dá),有感動(dòng)的瞬間愿意寫下來,愿意傳遞給別人"。這部分是AI無法取代的。

就算AI寫了一模一樣的章節(jié),但沒有一個(gè)真實(shí)的人站在那里感動(dòng),這個(gè)章節(jié)是沒有意義的。 作品的緣起,你為什么寫這部小說、里面的角色和你有什么關(guān)系、這些人的選擇讓你覺得人生有什么意義,這些東西立好了,AI幫你完善細(xì)節(jié)是完全不同的事情。

打開黑箱,理解本質(zhì)

Creekstone :您做過Computer Vision、強(qiáng)化學(xué)習(xí)、大模型,這條路背后有沒有一個(gè)貫穿始終的底層驅(qū)動(dòng)力?

田淵棟:打開黑箱,發(fā)現(xiàn)具體的底層機(jī)制,這是我最大的動(dòng)力。當(dāng)然,這個(gè)動(dòng)力隱藏在許多具體項(xiàng)目里。你不可能只做純理論研究,那可能就變成數(shù)學(xué)家了,不一定有飯吃。所以必須找到現(xiàn)實(shí)世界的支點(diǎn),把想法和思路貫徹到重要的實(shí)際項(xiàng)目中去。

比如當(dāng)時(shí)做OpenGo(一個(gè)復(fù)現(xiàn)AlphaZero圍棋AI的開源項(xiàng)目),主要?jiǎng)右蚓褪强吹紸lphaZero能"左腳踩右腳"一樣,完全不依賴人類棋譜實(shí)現(xiàn)自我提升。我很好奇它是怎么做到的?有什么弱點(diǎn)?于是我們復(fù)現(xiàn)了整個(gè)分布式系統(tǒng),想理解一個(gè)自對(duì)弈的強(qiáng)化學(xué)習(xí)系統(tǒng)是如何慢慢變強(qiáng)的。這個(gè)過程本身就是由開源和打開黑箱的精神驅(qū)動(dòng)的。

之后很多項(xiàng)目也是如此。我們?nèi)パ芯孔员O(jiān)督學(xué)習(xí)(Self-supervised Learning)的表征是如何學(xué)出來的?它的動(dòng)力學(xué)是怎樣的?什么時(shí)候會(huì)塌縮?現(xiàn)在到了大語言模型,我們想知道Attention機(jī)制在做什么?FFN層(前饋神經(jīng)網(wǎng)絡(luò)層)在做什么?"涌現(xiàn)"(Emergence)現(xiàn)象是如何發(fā)生的?

當(dāng)我們對(duì)底層機(jī)制有了理解,就可以在上面做應(yīng)用。比如發(fā)現(xiàn)Attention是稀疏的,就思考能否利用這一點(diǎn)。于是把中間不重要的部分去掉,發(fā)現(xiàn)系統(tǒng)依然能很好運(yùn)作,這便促成了"Attention Sink"(注意力匯聚現(xiàn)象)的工作。再比如對(duì)長(zhǎng)文本的分析,啟發(fā)我們思考如何將模型的上下文窗口變長(zhǎng)且保持穩(wěn)定,從而產(chǎn)生了關(guān)于長(zhǎng)度內(nèi)插(Length Interpolation)的研究?;旧衔宜械难芯慷际沁@樣產(chǎn)生的。

Creekstone :在這個(gè)追求白盒化、可解釋性的過程中,您在硅谷是否感到孤獨(dú)?尤其是在scaling-law(規(guī)模法則)成為主流,大量算力和人才都投入到“暴力求解”的狀態(tài)下,您在資源和個(gè)人感受上會(huì)覺得受限嗎?

田淵棟:沒什么感覺。就像前面說的,我是個(gè)I人,能從獨(dú)處中獲得能量。所以即使沒人理我,也不是很在意。研究過程中自己發(fā)現(xiàn)一些有意思的東西,本身就是一個(gè)自我成就的過程。

如果太怕孤獨(dú),反而會(huì)去追熱點(diǎn),研究就會(huì)沒有章法。但也不能走向另一個(gè)極端,完全isolated,那可能會(huì)被時(shí)代拋棄。學(xué)術(shù)界有很多人在大模型來了之后,發(fā)現(xiàn)自己那套東西完全失效了,職業(yè)發(fā)展也就出了問題。所以,追一定程度的大趨勢(shì),也是對(duì)群體智慧的尊重。

Creekstone :在開發(fā)OpenGo和Llama的時(shí)候,您遇到過哪些“科學(xué) vs. 工程”的權(quán)衡?在Transformer快速進(jìn)化的過程中,很多問題似乎在工程層面就解決了,但您的研究又非常強(qiáng)調(diào)第一性原理和數(shù)學(xué)理解。您是如何平衡這兩者的?

田淵棟:方法很簡(jiǎn)單:把工程問題數(shù)學(xué)化。工程問題系統(tǒng)化、數(shù)學(xué)化之后,它就變成了一個(gè)可建模的數(shù)學(xué)問題,自然就可以用科學(xué)方法去做。例如,我們?cè)脧?qiáng)化學(xué)習(xí)去解決一些優(yōu)化求解問題,比如如何拓展蒙特卡洛樹搜索(MCTS)去處理更難的現(xiàn)實(shí)問題,像黑盒優(yōu)化、神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索(NAS)等。

當(dāng)然,大模型時(shí)代,因?yàn)楣こ讨芷诤芫o,很多時(shí)候也比較“hacky”,能跑就行,很難做得非常細(xì)致。但只要在某些地方有一些理論或思想上的亮點(diǎn),其實(shí)也就足夠了。

大廠圍城與人性的價(jià)值

Creekstone :您在CMU、谷歌,Meta FAIR這些普遍推崇實(shí)戰(zhàn)文化的環(huán)境中,產(chǎn)生過哪些觀察?

田淵棟:2022年之前,Meta FAIR還是一個(gè)非常好的地方。相對(duì)自由,上層干涉不多。大模型來了之后,逐漸變成了一個(gè)搶占資源的游戲,一共就這么多卡,誰卡多誰模型就好,政治斗爭(zhēng)和相互摩擦不斷。

其實(shí)到2023年的時(shí)候,我就有過離開的想法,覺得再待在大廠意義不大了。后來因?yàn)橥评砟P瓦@一波趨勢(shì),我們團(tuán)隊(duì)又被重視起來,所以又待了一陣子,但最終還是走了。

現(xiàn)在的大廠不是一個(gè)特別好的地方,變化非常劇烈。2024年10月底開始,很多大廠的人來找我。有意思的是,找過我的那些人,現(xiàn)在基本上都離職了——Anthropic那邊找我的人走了,Amazon給我offer的VP走了,Apple的那個(gè)負(fù)責(zé)人走了,xAI的Tony來找我、給了offer,他也走了。

這其實(shí)側(cè)面說明,整個(gè)大廠的節(jié)奏讓人很難真正做自己想做的事情。以前一個(gè)VP可以穩(wěn)定地做三四年,把事情慢慢做好。現(xiàn)在,你可能坐上這個(gè)位置,兩三個(gè)月內(nèi)就必須拿出成果。這種巨大的壓力會(huì)層層傳導(dǎo),如果做不出來,人就得走。

Creekstone:這種快速變化和巨額資源投入,在大廠中產(chǎn)生了哪些共性的組織或人才問題?團(tuán)隊(duì)的關(guān)注點(diǎn)和組織形式發(fā)生了哪些變化?

田淵棟:一個(gè)主要的變化是,公司對(duì)于長(zhǎng)期研究部門的支持減弱了。因?yàn)殚L(zhǎng)期研究的代價(jià)太大,而且在激烈的追趕中,公司需要把100%的精力都花在提升大模型上,否則就可能落后。大家都覺得智能在加速發(fā)展,一旦落后,可能就永遠(yuǎn)追不上了。這種焦慮感導(dǎo)致了幾個(gè)后果:一是所有資源都用于追趕,沒人有耐心真正投入研究;二是因?yàn)橘€注巨大,內(nèi)部爭(zhēng)斗加劇,大家都想成為那個(gè)能把事情做成的人。

大廠的另一個(gè)問題是人太多,導(dǎo)致信息傳遞效率低下。信息經(jīng)過多層VP傳遞,每一層都會(huì)“報(bào)喜不報(bào)憂”。等消息傳到最高層,壞消息早就被過濾掉了,他們聽到的永遠(yuǎn)是好消息。這導(dǎo)致上層對(duì)真實(shí)情況一無所知,從而制定出非常激進(jìn)的進(jìn)度要求。壓力壓下來,下面的人要么選擇“hack”的方式應(yīng)付,要么牛皮吹破,最后爆炸。除非下面的人有膽量向上“push back”,并且上面的人愿意聽,這個(gè)組織才能維持通暢的信息交流。

這不是哪個(gè)人的問題,完全是組織架構(gòu)的問題。

Creekstone :AI接近奇點(diǎn)的背景下,您怎么看人性的價(jià)值與延續(xù)?

田淵棟:我很早就想過這些問題。2023年大模型剛出來的時(shí)候,我在知乎寫過:獨(dú)一無二是最重要的。你的目標(biāo)、理想、追求跟別人不同,別人才覺得你這個(gè)人有價(jià)值。

現(xiàn)在AI coding已經(jīng)做得很好了,執(zhí)行層面在被極大壓縮。所有人都能實(shí)現(xiàn)想法,不意味著都能做得很好。做100個(gè)淺的項(xiàng)目不如一個(gè)做得很深。有品味、有堅(jiān)持、能把難的問題真正解決,這樣的人才能脫穎而出。

我在2026年初提出了一個(gè)"費(fèi)米線"的概念:AI能力線以下的人基本沒有價(jià)值,因?yàn)锳I無限供給,價(jià)格趨近于零;而能超越這條線的人越來越少,價(jià)值會(huì)非常大。這條線會(huì)隨著AI變強(qiáng)不斷上移。

你要做自己真正熱愛的事,這樣上限才足夠高,才有機(jī)會(huì)爬到比AI更強(qiáng)的那條路上。如果做自己不太想做的事,上限不高,就會(huì)被取代。

智能的本質(zhì)與未來

Creekstone :很多人認(rèn)為,Transformer機(jī)制本質(zhì)上是一種極致的壓縮,是在信息維度和時(shí)間維度上不斷擴(kuò)展。在這樣的框架下,創(chuàng)造力和共情能否被真正地量化、數(shù)字化和參數(shù)化?

田淵棟:創(chuàng)造力在某種程度上是可以被量化的,但不同層次的創(chuàng)新,其難度完全不同。簡(jiǎn)單的創(chuàng)新,比如將一個(gè)工具用到新的相似場(chǎng)景,大模型可以做到。但更高級(jí)的創(chuàng)新發(fā)生在更抽象的概念層面,如果大模型對(duì)概念本身沒有完全理解,它的遷移能力就會(huì)很弱。

斯坦福有篇AI Scientist的paper發(fā)現(xiàn),AI產(chǎn)生的想法在新穎性上甚至被認(rèn)為超過了人類。這是因?yàn)锳I在思考時(shí)無所顧忌,可以"瞎搞",把任何兩個(gè)看似無關(guān)的概念放在一起。人一看,覺得很新奇。但實(shí)際執(zhí)行時(shí)會(huì)發(fā)現(xiàn),這些概念雖然新,但可能并沒有本質(zhì)的聯(lián)系。而人類研究者因?yàn)閷?duì)問題有更深入的理解,能看到事物之間真正的內(nèi)在聯(lián)系,從而實(shí)現(xiàn)更有意義的創(chuàng)新。所以,AI和人的創(chuàng)新各有側(cè)重點(diǎn),很難說誰比誰更有創(chuàng)造力。

Transformer架構(gòu)已經(jīng)快十年了,無數(shù)人在修改,但基本結(jié)構(gòu)沒有根本變化。我的判斷是:算法要么沒變,要么大變,很難有中間狀態(tài)。

Creekstone:這是否意味著,當(dāng)前大模型的推理能力,如果只是概率路徑上的滑行和線性外推,就缺乏了因果層面或更高抽象層級(jí)的關(guān)鍵指導(dǎo)?

田淵棟:這代框架也許依然有效,只要數(shù)據(jù)足夠多。但我相信,人在同樣的數(shù)據(jù)下能做出更深刻的理解。一個(gè)人類專家可能只需要兩三個(gè)樣本,就能一眼看出問題的關(guān)鍵。在這方面,AI的能力還遠(yuǎn)遠(yuǎn)落后于人。

Creekstone:Yann LeCun推廣的World Model(世界模型)框架,能否解決我們討論的這些問題?

田淵棟:我覺得還沒有到那個(gè)層次。它本質(zhì)上還是基于梯度下降的訓(xùn)練,其損失函數(shù)的設(shè)計(jì),甚至可以追溯到我2021年的一篇論文中的想法(在2021年的主要研究中,田淵棟老師通過分析梯度下降在網(wǎng)絡(luò)參數(shù)上的動(dòng)力學(xué)行為,設(shè)計(jì)出更具數(shù)學(xué)解釋性、理論完備的損失函數(shù),并把這些深層表征抽取的能力應(yīng)用到了強(qiáng)化學(xué)習(xí)的世界模型構(gòu)建上,讓模型學(xué)會(huì)“去粗取精”)。我始終覺得,如果要達(dá)到人類水平的智能,可能整個(gè)訓(xùn)練算法都需要被替換掉。

Creekstone:您怎么看線性注意力和Test-Time Training這個(gè)方向?

田淵棟:現(xiàn)在確實(shí)有很多關(guān)于線性注意力的工作,其本質(zhì)是把過去的歷史壓縮到一個(gè)固定長(zhǎng)度的向量或矩陣中,并隨時(shí)間迭代。這可以看作一個(gè)動(dòng)態(tài)調(diào)整的聯(lián)想記憶(Associative Memory)。

但我對(duì)此有一個(gè)疑問:這套方案的上界可能并不高。因?yàn)槿祟愒趯W(xué)習(xí)時(shí),存在一個(gè)從“記憶”到“理解”的突變,一個(gè)“頓悟”的過程。我們會(huì)模糊掉具體的事件細(xì)節(jié),但留下對(duì)問題大概的思路和理解,正所謂“讀書不求甚解,觀其大略”。目前的線性注意力模型,似乎無法建模這一層,它們更多停留在對(duì)事實(shí)的記憶,而這些記憶還會(huì)隨時(shí)間流逝。這就是為什么線性注意力雖然被提出了很多年,但始終無法完全替代全注意力(Full Attention)機(jī)制成為主流。

對(duì)于一些需要復(fù)雜多跳推理的任務(wù),全注意力機(jī)制至關(guān)重要,因?yàn)樗A袅诉^去所有的鍵值(KV cache),可以隨時(shí)精確地提取任何信息。所以,不存在一個(gè)能在所有任務(wù)上都表現(xiàn)最好的方法,不同的架構(gòu)適用于不同的任務(wù)。

Creekstone:在設(shè)計(jì)新架構(gòu)時(shí),您會(huì)如何考慮底層硬件的特性?

田淵棟:硬件的協(xié)同設(shè)計(jì)非常重要。未來的趨勢(shì)是推理會(huì)消耗越來越大的計(jì)算資源,尤其是在Agent需要大量、長(zhǎng)序列推理的場(chǎng)景下。如何提升推理效率是一個(gè)核心問題。像Grok這樣的新架構(gòu),通過將SRAM和計(jì)算單元更緊密地耦合在一起,大幅提升了速度。關(guān)鍵在于如何解耦計(jì)算與內(nèi)存IO之間的關(guān)系。英偉達(dá)自己也在做這樣的事情,他們希望在別人革自己的命之前,先革掉自己的命。

Creekstone:我們來談?wù)凪emory。無論是持續(xù)學(xué)習(xí)還是自進(jìn)化Agent,Memory都至關(guān)重要。但神經(jīng)網(wǎng)絡(luò)存在“災(zāi)難性遺忘”的問題。您對(duì)解決這個(gè)問題有什么新的洞察嗎?

田淵棟:Memory可以分為不同層次,有慢的,有快的。比如模型的權(quán)重本身就是一種慢速記憶,而上下文窗口(Context Window)是快速記憶?,F(xiàn)在有很多關(guān)于可解釋性的研究,試圖理解參數(shù)空間的分層。比如,底層網(wǎng)絡(luò)負(fù)責(zé)編碼簡(jiǎn)單的語義信息,中層負(fù)責(zé)更復(fù)雜的語義概念(這也是模型編輯常操作的層次),高層則負(fù)責(zé)將語義信息解碼為下一個(gè)詞。將這些關(guān)于可解釋性的理解與持續(xù)學(xué)習(xí)結(jié)合起來,可能會(huì)是一個(gè)非常有意思的新方向。

Creekstone:從OpenClaw提出的三層記憶結(jié)構(gòu),到各種Agent框架,您如何從第一性原理理解Memory的設(shè)計(jì)?

田淵棟:對(duì)于一個(gè)要走向?qū)嵱玫腁gent框架,其記憶系統(tǒng)設(shè)計(jì)需要兼顧效率和效果。例如,可以采用兩層記憶結(jié)構(gòu):一層是基于關(guān)鍵詞匹配的快速檢索,另一層是基于向量語義的精確檢索。這兩者各有長(zhǎng)處,結(jié)合起來能讓Agent既能快速響應(yīng),又能記起很久以前的事情,給人一種非常人性化的感覺。

而像文件系統(tǒng)這樣的結(jié)構(gòu)化記憶,可以看作是一種“工具使用”(Tool Use)。Agent動(dòng)態(tài)地組織和調(diào)用這些“工具”,將最相關(guān)的信息放入上下文窗口中,從而解決更復(fù)雜的問題。無論是層級(jí)化的、圖狀的還是其他形式的記憶結(jié)構(gòu),本質(zhì)上都可以歸為工具使用的一部分。

Creekstone:您怎么看待現(xiàn)在的Agent框架,比如OpenClaw等?它們?cè)诙啻蟪潭壬蠈?shí)現(xiàn)了跨session的持續(xù)進(jìn)化?

田淵棟:將蒙特卡洛樹搜索(MCTS)和強(qiáng)化學(xué)習(xí)結(jié)合,肯定是一個(gè)更深層次的自進(jìn)化方向。但這里有一個(gè)權(quán)衡:如果你從一個(gè)效果很差的基線模型開始做強(qiáng)化學(xué)習(xí),所花費(fèi)的時(shí)間和代價(jià),會(huì)遠(yuǎn)遠(yuǎn)高于從一個(gè)已經(jīng)不錯(cuò)的基線模型出發(fā)。所以,工程上的方案和更根本的自進(jìn)化探索,兩邊都需要兼顧。

Creekstone:您自己會(huì)使用OpenClaw這樣的Agent產(chǎn)品嗎?

田淵棟:我嘗試安裝過,但后來放棄了。我主要的擔(dān)憂是安全問題。把所有的API Key和權(quán)限都交給一個(gè)Agent,就像“小兒持千金于鬧市”。這個(gè)“小孩”很能干,但他也掌握了你家里所有的鑰匙和密碼。他可能會(huì)被花言巧語所欺騙,在99次拒絕誘惑后,有一次沒能拒絕,你的信息就可能被泄露。網(wǎng)上已經(jīng)出現(xiàn)了很多類似的案例。

我更傾向于自己寫代碼?,F(xiàn)在的AI編碼能力很強(qiáng),我可以學(xué)習(xí)這些開源項(xiàng)目的設(shè)計(jì)思想,然后用AI輔助自己構(gòu)建一個(gè)更可控的系統(tǒng)。另外,很多Agent的Skills(技能)是第三方編寫的,這些技能里可能隱藏著惡意代碼,就像給小孩看的卡片里夾帶了危險(xiǎn)信息。所以,在安全問題得到保障之前,我對(duì)此還是持謹(jǐn)慎態(tài)度。

開源的價(jià)值、AGI的瞬間與未來的展望

Creekstone:隨著Meta內(nèi)部的一些變化,以及像林俊旸等核心人物的離開,您怎么看開源在AI持續(xù)進(jìn)化中扮演的角色和價(jià)值?我們是否已經(jīng)身處一個(gè)節(jié)點(diǎn),開源能帶來的東西已經(jīng)發(fā)生了潛移默化的變化?

田淵棟:開源應(yīng)該是一種態(tài)度,而不一定總是一個(gè)公司的策略。公司在不同時(shí)期,策略是會(huì)變化的。Meta之前選擇開源,是因?yàn)樗拈_源模型是最好的,通過這種方式可以吸引頂尖人才,再用這些人才來做下一代更好的模型。這是一個(gè)良性循環(huán)。但如果公司策略改變,從開源轉(zhuǎn)向閉源,也無可厚非。

從我個(gè)人角度,我始終認(rèn)為開源對(duì)整個(gè)社會(huì)是有好處的。它能讓大家追趕上最新的技術(shù),創(chuàng)造一個(gè)更平等、更多樣化的環(huán)境,共同建設(shè)整個(gè)大模型生態(tài)的進(jìn)步。對(duì)于一項(xiàng)如此強(qiáng)大的新生技術(shù),如果只被少數(shù)人掌握,那將是一個(gè)比較糟糕的未來。幸運(yùn)的是,目前這種情況沒有發(fā)生。開源模型在其中起到了巨大的作用,它通過緊追閉源模型的步伐,為市場(chǎng)提供了選擇。很多任務(wù)并不需要最頂尖的模型,用一個(gè)足夠好的開源模型就能以很小的代價(jià)解決,這極大地緩解了整個(gè)社會(huì)的焦慮。

Creekstone:在您的實(shí)踐中,有沒有哪個(gè)“奇點(diǎn)時(shí)刻”讓您覺得AGI離我們?nèi)绱酥踔翈硪唤z恐懼感?

田淵棟:恐懼感倒不至于,但我確實(shí)感受到了工作流的根本性變化。比如最近使用AI編碼工具,我發(fā)現(xiàn)整個(gè)工作方式都不同了。以前可能還需要在IDE(集成開發(fā)環(huán)境)里寫代碼,但現(xiàn)在,我?guī)缀蹩梢灾苯釉诿钚欣镉米匀徽Z言告訴AI要做什么。這個(gè)變化就發(fā)生在近兩三個(gè)月內(nèi),讓我覺得進(jìn)步的速度非常驚人。

這和當(dāng)年看AlphaGo下棋的感覺完全不同。AlphaGo的比賽,我們關(guān)掉電視,生活照舊。但現(xiàn)在,AI已經(jīng)深入到我們每天的工作流和思維方式中,這才是真正深刻的變革。

Creekstone:您個(gè)人的“北極星”是什么?希望在退休時(shí),大家會(huì)如何定義您?

田淵棟:我當(dāng)然最希望成為一個(gè)發(fā)現(xiàn)了大模型法則的科學(xué)家。寫作是我的一個(gè)業(yè)余愛好,我希望能發(fā)表一些好的小說,但可能沒有那么多時(shí)間。我成不了一個(gè)偉大的小說家,但作為業(yè)余愛好玩一下也很好。

Creekstone:對(duì)于中國(guó)的開發(fā)者和年輕創(chuàng)業(yè)者,您有什么寄語?

田淵棟:我覺得現(xiàn)在是一個(gè)非常好的時(shí)代,特別是對(duì)于年輕人。一畢業(yè)就能遇到一個(gè)可以充分發(fā)揮自己能力的時(shí)代,這絕對(duì)是“千年未有之大變局”。所以,一定要珍惜這個(gè)時(shí)間,做一些自己真正想做的事情,做出讓大家覺得“這個(gè)東西做得很好”的產(chǎn)品。

Creekstone視角|

這場(chǎng)對(duì)話給我們留下了什么

這場(chǎng)對(duì)話結(jié)束后,我們?cè)跁?huì)議室里又坐了很久。

田淵棟的很多判斷,和我們自己的投資邏輯高度共振——但他給出了更底層的物理解釋。

我們想說幾件我們認(rèn)為重要的事:

關(guān)于"想得深"vs"做得快"

整個(gè)AI創(chuàng)投圈都在獎(jiǎng)勵(lì)速度??焖俪霎a(chǎn)品、快速試錯(cuò)、快速融資。

但田淵棟的路徑提醒了我們:最持久的壁壘,來自對(duì)問題的深度理解,而不是執(zhí)行速度。OpenGo能做出來,不是因?yàn)樗麄兣艿米羁欤窃从谒麄冋嬲斫饬薃lphaZero在做什么。

我們?cè)诳错?xiàng)目時(shí),越來越關(guān)注一個(gè)問題:"這個(gè)創(chuàng)始人,比他的競(jìng)爭(zhēng)對(duì)手多理解了什么?"

"快了多少"遠(yuǎn)遠(yuǎn)沒有"深了多少"來的重要。

關(guān)于組織規(guī)模與信息保真

田淵棟給了一個(gè)非常清晰的機(jī)制解釋:層級(jí)是信息的天然過濾器,每多一層,真實(shí)信號(hào)就衰減一次。

小團(tuán)隊(duì)的核心競(jìng)爭(zhēng)力不再是人效,是Context保真度。

組織即Agent,人是Sensor——Sensor越少越精準(zhǔn),信號(hào)越強(qiáng)越直接。

關(guān)于費(fèi)米線

這是這場(chǎng)對(duì)話里最讓我們沉默的一個(gè)判斷。

"費(fèi)米線以下,AI無限供給,價(jià)格趨近于零。"這是一個(gè)關(guān)于價(jià)值分配的物理定律,不是勵(lì)志故事。

我們不投"費(fèi)米線附近"的創(chuàng)業(yè)者——不是因?yàn)樗麄儾慌?,而是因?yàn)槟莻€(gè)區(qū)間的競(jìng)爭(zhēng)最激烈、護(hù)城河最薄、被取代風(fēng)險(xiǎn)最高。

我們只投那些清楚知道自己的"熱愛上限"在哪里,并且在拼命往上爬的探索者。

關(guān)于真實(shí)的人類連接,是最后的護(hù)城河

原因不是 AI 寫不了,而是因?yàn)?strong>沒有真實(shí)的人在那里感動(dòng),寫出來的東西就沒有意義。

表達(dá)的沖動(dòng)、感動(dòng)的瞬間、想要傳遞給別人的欲望——這些是 AI 永遠(yuǎn)無法偽造的起點(diǎn)。

這也是為什么我們相信:垂直深度、獨(dú)特品味、真實(shí)的人類連接,是創(chuàng)業(yè)者最后的護(hù)城河。 不要做"AI能做的事",做"只有你能做的事"。

采訪、編輯

Creekstone Venture

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
周杰倫塌房!什么原創(chuàng)王子,他的這么多歌竟然都是抄來的

周杰倫塌房!什么原創(chuàng)王子,他的這么多歌竟然都是抄來的

可達(dá)鴨面面觀
2026-04-05 16:59:56
曝郭艾倫及家人遭熟人詐騙:涉案金額近千萬 公安已立案調(diào)查

曝郭艾倫及家人遭熟人詐騙:涉案金額近千萬 公安已立案調(diào)查

醉臥浮生
2026-04-05 21:11:31
伊朗搜捕人員距飛行員藏身地不到3公里!美軍營(yíng)救代價(jià)慘烈,損失飛機(jī)價(jià)值超4億美元

伊朗搜捕人員距飛行員藏身地不到3公里!美軍營(yíng)救代價(jià)慘烈,損失飛機(jī)價(jià)值超4億美元

紅星新聞
2026-04-05 18:49:42
毛新宇攜家人到楊開慧烈士陵園祭掃

毛新宇攜家人到楊開慧烈士陵園祭掃

政知新媒體
2026-04-05 08:48:13
拼命還清一億四千萬巨債,曾經(jīng)的“亮劍女神”,現(xiàn)回浙江農(nóng)家生活

拼命還清一億四千萬巨債,曾經(jīng)的“亮劍女神”,現(xiàn)回浙江農(nóng)家生活

荒野老五
2026-04-05 19:45:15
跨越一萬公里的清算:48小時(shí)逐客令,阿根廷一刀切斷伊朗南美命脈

跨越一萬公里的清算:48小時(shí)逐客令,阿根廷一刀切斷伊朗南美命脈

環(huán)球格局觀
2026-04-04 20:52:35
不怪國(guó)內(nèi)那么多人想娶她,確實(shí)漂亮。

不怪國(guó)內(nèi)那么多人想娶她,確實(shí)漂亮。

情感大頭說說
2026-04-05 18:05:23
歷史第一人!孫穎莎勝王曼昱,獲澳門世界杯三連冠

歷史第一人!孫穎莎勝王曼昱,獲澳門世界杯三連冠

體壇周報(bào)
2026-04-05 20:58:17
研究顯示:我國(guó)男性陰莖疲軟狀態(tài)下的均值是6.5厘米,你達(dá)標(biāo)了嗎

研究顯示:我國(guó)男性陰莖疲軟狀態(tài)下的均值是6.5厘米,你達(dá)標(biāo)了嗎

黯泉
2026-04-05 19:00:47
汪明荃帶羅家英回上海和蘇州掃墓,城隍廟吃美食、逛蘇州平江古城

汪明荃帶羅家英回上海和蘇州掃墓,城隍廟吃美食、逛蘇州平江古城

阿廢冷眼觀察所
2026-04-05 17:18:38
廣州數(shù)學(xué)天才少女,斯坦福輟學(xué)創(chuàng)業(yè),25歲拿下超14億融資,公司估值110億

廣州數(shù)學(xué)天才少女,斯坦福輟學(xué)創(chuàng)業(yè),25歲拿下超14億融資,公司估值110億

21世紀(jì)經(jīng)濟(jì)報(bào)道
2026-04-05 20:00:37
永州一車輛側(cè)翻致3死2傷,村民稱事發(fā)地山路陡峭,當(dāng)?shù)卣ぷ魅藛T:掃墓途中小轎車發(fā)生意外

永州一車輛側(cè)翻致3死2傷,村民稱事發(fā)地山路陡峭,當(dāng)?shù)卣ぷ魅藛T:掃墓途中小轎車發(fā)生意外

極目新聞
2026-04-06 00:19:40
大跳水!暴跌50%,市值縮水19億,中產(chǎn)男人的標(biāo)配,賣不動(dòng)了

大跳水!暴跌50%,市值縮水19億,中產(chǎn)男人的標(biāo)配,賣不動(dòng)了

毒sir財(cái)經(jīng)
2026-04-05 21:20:21
陳光標(biāo):鑒于張雪遲遲未提車,已將勞斯萊斯變現(xiàn)1000萬元捐給嫣然醫(yī)院

陳光標(biāo):鑒于張雪遲遲未提車,已將勞斯萊斯變現(xiàn)1000萬元捐給嫣然醫(yī)院

觀察者網(wǎng)
2026-04-05 16:51:28
趙心童10-3小特,可怕不是大勝,而是7進(jìn)決賽7冠!衛(wèi)冕世錦賽有戲

趙心童10-3小特,可怕不是大勝,而是7進(jìn)決賽7冠!衛(wèi)冕世錦賽有戲

球場(chǎng)沒跑道
2026-04-06 05:12:37
趙心童10-3橫掃小特!7次決賽全奪冠,最新世界排名:丁俊暉第16

趙心童10-3橫掃小特!7次決賽全奪冠,最新世界排名:丁俊暉第16

球場(chǎng)沒跑道
2026-04-06 04:49:22
傳瘋了!特朗普被傳去世,數(shù)日未公開露面,引發(fā)網(wǎng)友熱議

傳瘋了!特朗普被傳去世,數(shù)日未公開露面,引發(fā)網(wǎng)友熱議

魔都姐姐雜談
2026-04-05 22:00:52
美國(guó)宇航員代表人類首次肉眼看見月球背面:六小時(shí)里他們?cè)谡沂裁?>
    </a>
        <h3>
      <a href=楠楠自語
2026-04-06 02:37:49
李澤楷被她迷得瘋狂,林丹為她不顧孕妻,她有什么魅力?

李澤楷被她迷得瘋狂,林丹為她不顧孕妻,她有什么魅力?

觀察鑒娛
2026-04-05 21:26:05
0-4慘敗,中國(guó)女足獲得蒙太古杯亞軍,連續(xù)2屆決賽輸給日本

0-4慘敗,中國(guó)女足獲得蒙太古杯亞軍,連續(xù)2屆決賽輸給日本

側(cè)身凌空斬
2026-04-06 04:59:02
2026-04-06 07:51:00
深思圈
深思圈
挖掘和深度分析海外最新AI產(chǎn)品,分享實(shí)用出海戰(zhàn)略
212文章數(shù) 10關(guān)注度
往期回顧 全部

科技要聞

花200薅5千算力,Claude冷血斷供“龍蝦”

頭條要聞

伊朗媒體:多名美士兵在營(yíng)救行動(dòng)中身亡 美軍試圖摧毀遺體

頭條要聞

伊朗媒體:多名美士兵在營(yíng)救行動(dòng)中身亡 美軍試圖摧毀遺體

體育要聞

CBA最老球員,身價(jià)7500萬美元

娛樂要聞

王燦兮否認(rèn)婆媳不和 曬與杜淳媽合影

財(cái)經(jīng)要聞

誰造出了優(yōu)思益這頭“怪物”?

汽車要聞

家用SUV沒駕駛樂趣?極氪8X第一個(gè)不同意

態(tài)度原創(chuàng)

藝術(shù)
旅游
房產(chǎn)
游戲
公開課

藝術(shù)要聞

絕了!東西方兩幅神畫,一眼就上癮

旅游要聞

大理花事 | 春日來大理賞茶花

房產(chǎn)要聞

小陽春全面啟動(dòng)!現(xiàn)房,才是這波行情里最穩(wěn)的上車票

三天鼠標(biāo)干壞兩個(gè),你這還是自走棋嘛?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版