網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

專訪KAUST諸葛鳴晨丨2026 Agent最大突破是“遞歸自進(jìn)化”，三年后有望實(shí)現(xiàn)“神經(jīng)計(jì)算機(jī)”

2026-03-26 12:16:23　來源: 大數(shù)據(jù)文摘

北京舉報(bào)

分享至

大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自智源社區(qū)

2026年以來，“Agent”正在加速從學(xué)術(shù)概念走向產(chǎn)業(yè)落地，而諸葛鳴晨已在這條賽道上深耕數(shù)年。

圖注：諸葛鳴晨

他的博士生涯始于論文 Mindstorm，該工作系統(tǒng)描繪了智能體社會(huì)的整體圖景及其潛在經(jīng)濟(jì)形態(tài)。此后，他又以共同第一作者身份主導(dǎo)完成了 MetaGPT，使其迅速成為近年來智能體編程領(lǐng)域最具代表性、也最具影響力的現(xiàn)象級(jí)工作之一；與此同時(shí)，他也是 OpenHands（原 OpenDevin）的早期核心貢獻(xiàn)者。

圍繞 Agent 系統(tǒng)方法論，他進(jìn)一步發(fā)展出 GPTSwarm，將多智能體建模為可優(yōu)化的圖（graph），為 Agent 的系統(tǒng)化構(gòu)造與演化開辟了新路徑；他提出的 Agent-as-a-Judge，則切中了長時(shí)程任務(wù)自動(dòng)評(píng)估這一關(guān)鍵瓶頸，為持續(xù)迭代優(yōu)化提供了核心機(jī)制。尤其值得一提的是，早在 2023 年，他便已在 MetaGPT 附錄中明確指出，“recursive self-improvement” 與 “l(fā)earning from experience” 將構(gòu)成 Agents 下一階段發(fā)展的核心方向，顯示出極強(qiáng)的前瞻判斷力。

這位師從 Jürgen Schmidhuber 的 KAUST 博士生，早在 2021 年就將博士研究錨定為多模態(tài) Agent。回看他的路徑，核心是一件事：更早判斷方向，并把判斷落成研究。

Agent 的未來究竟是怎樣的圖景？長時(shí)程任務(wù)中智能體該如何實(shí)現(xiàn)自我評(píng)估？被調(diào)侃為“老頑童”的導(dǎo)師又給他帶來了怎樣的科研啟迪？在這篇深度專訪中，他將圍繞 Agent 技術(shù)演進(jìn)的關(guān)鍵路徑展開分享，深入討論智能體社會(huì)、智能體經(jīng)濟(jì)、自動(dòng)化評(píng)估與遞歸自我改進(jìn)（RSI，Recursive Self-Improvement）以及神經(jīng)計(jì)算機(jī)（NC，Neural Computer）。

采訪&編輯：夢(mèng)佳迪陽

要點(diǎn)速覽

研究起點(diǎn)與選擇：2021年末將博士課題鎖定為多模態(tài)智能體（Multimodal Agents）；并始終認(rèn)為Coding Agent是最易落地、最具商業(yè)價(jià)值的方向。

Agent進(jìn)化的核心引擎：他判斷下一階段突破將集中在 recursive self-improvement，Agent-as-a-Judge 則為長時(shí)程任務(wù)提供自動(dòng)評(píng)估信號(hào)。

開源實(shí)踐：深度參與 MetaGPT，用角色分工與 SOP 規(guī)范化破解大模型幻覺與上下文瓶頸；提出 GPTSwarm，將 Agent 創(chuàng)新性地抽象為圖結(jié)構(gòu)，讓智能體的構(gòu)建與優(yōu)化等價(jià)于對(duì)節(jié)點(diǎn)（Node）與邊（Edge）的系統(tǒng)性求解。

“現(xiàn)代AI之父”的言傳身教：導(dǎo)師 Jürgen Schmidhuber 不僅在學(xué)術(shù)寫作上嚴(yán)謹(jǐn)嚴(yán)格，更在合作項(xiàng)目中親自撰寫“Economy of Mind”章節(jié)，為其注入了“Agent 社會(huì)將由經(jīng)濟(jì)規(guī)律驅(qū)動(dòng)”的超前洞察。

未來方向：（1）即將推出 “Neural Computer”。（2）Agent 將從代碼編寫全面滲透至日常全場景，始終堅(jiān)信：人類具備強(qiáng)的適應(yīng)力與創(chuàng)造性，越早擁抱AI的收益會(huì)越大。

智源專訪欄目意在展現(xiàn)行業(yè)頂尖技術(shù)研究者和創(chuàng)業(yè)者的研究經(jīng)歷和故事，記錄技術(shù)世界的嬗變，激發(fā)當(dāng)代AI從業(yè)者的創(chuàng)新思維，啟迪認(rèn)知、關(guān)注突破性進(jìn)展，為行業(yè)注入靈感光芒。本次專訪為總第36期。

簡介：諸葛鳴晨是沙特阿卜杜拉國王科技大學(xué)（KAUST）的計(jì)算機(jī)科學(xué)博士生，青源會(huì)成員，師從被譽(yù)為“LSTM之父”的Jürgen Schmidhuber教授。他的研究領(lǐng)域集中于大語言模型和多模態(tài)智能體。他曾在Meta AI實(shí)習(xí)，博士就讀前，曾在微軟、阿聯(lián)酋起源人工智能研究院和阿里巴巴等知名機(jī)構(gòu)任職。他以第一作者身份在ICML、ICLR、CVPR、TPAMI等頂級(jí)會(huì)議和期刊上發(fā)表了多篇論文，榮獲NeurIPS研討會(huì)最佳論文獎(jiǎng)，EMNLP杰出論文候選，CVPR杰出審稿人等獎(jiǎng)項(xiàng)，論文累計(jì)被引用近5500次。最近2年，他積極參與的開源項(xiàng)目共取得約130K Stars。此外，他近幾年智能體的研究工作在頂級(jí)ML會(huì)議共獲得6次口頭報(bào)告（Oral Presentation）。他發(fā)起并組織了ICLR 2026遞歸自我改進(jìn)（RSI）研討會(huì)，同時(shí)擔(dān)任COLM 2026與CAIS 2026的領(lǐng)域主席（Area Chair）。

于浪潮未至?xí)r落子：研究課題和個(gè)人選擇

"我不太在乎agent最終的呈現(xiàn)形式，但我非常喜歡這個(gè)課題，未來大家都會(huì)從multimodal agent中受益。"

Q1：博士就讀前你曾在微軟、阿聯(lián)酋起源人工智能研究院等機(jī)構(gòu)，圍繞多模態(tài)預(yù)訓(xùn)練和大語言模型開展研究，是什么契機(jī)讓您在2021年末申請(qǐng)博士時(shí)，將研究方向鎖定在多模態(tài)智能體領(lǐng)域？

諸葛鳴晨：那是2020年，確實(shí)我在讀博之前做的是多模態(tài)預(yù)訓(xùn)練（VLP），是受到VLBERT、ViLBERT等工作的啟發(fā)，但當(dāng)時(shí)國內(nèi)做這塊比較多的主要是微軟和阿里。在阿里碰到了對(duì)前沿課題非常感興趣的manager。盡管多模態(tài)在那個(gè)時(shí)間點(diǎn)是作為區(qū)別于NLP和CV的獨(dú)立課題存在的，但我認(rèn)為未來任何子topics都會(huì)圍繞“多模態(tài)”展開的。在阿里的時(shí)期，我在CVPR2021發(fā)表了名為 Kaleido-BERT的工作。盡管當(dāng)時(shí)整個(gè)CVPR 2021多模態(tài)預(yù)訓(xùn)練的工作似乎就5篇左右，我覺得這個(gè) topic 未來會(huì)很火熱。

但當(dāng)時(shí)，大多數(shù)相關(guān)工作都是基于BERT等工作，參數(shù)量遠(yuǎn)遠(yuǎn)不夠，所以大多停留在基礎(chǔ)的多模態(tài)Understanding，具體任務(wù)基本是圖片描述、圖文相互檢索、以及分類，應(yīng)用，主要以拿到好的embeddings來服務(wù)搜推廣，距離具備推理和規(guī)劃能力的 Agent 還很遠(yuǎn)。所以離 reasoning（推理）及真正能夠做 planning（規(guī)劃）還差得很遠(yuǎn)。所以我申請(qǐng)博士時(shí)，研究提案就叫“多模態(tài)智能體”（Multimodal Agent），希望現(xiàn)有的模型能夠跟真實(shí)環(huán)境進(jìn)行交互。

我對(duì)agent的最初想象，不完全來自論文，也來自幾部科幻電影，比如：a. 《生化危機(jī)》里以全息影像現(xiàn)身的"紅皇后"，背后是一個(gè)真正在決策、在控制整個(gè)設(shè)施的AI；b. 《機(jī)械姬》讓我開始認(rèn)真思考智能體的主體性和具身化；c. 《頭號(hào)玩家》則讓我想象，agent在數(shù)字世界里會(huì)以什么方式存在和演化。

圖注：電影《生化危機(jī)》

所以我當(dāng)時(shí)寫 proposal 的時(shí)候就說，其實(shí)有一個(gè)很明確的想法：我并不太在意Agent 最終會(huì)以什么形式出現(xiàn)，但會(huì)考慮哪個(gè)方向更能直接產(chǎn)生影響力。我非常喜歡這個(gè)課題，并且覺得未來它一定能夠得到廣泛的應(yīng)用，大家都會(huì)從 multimodal agent 中受益。

Q2：在眾多AI細(xì)分領(lǐng)域中，Agent領(lǐng)域兼具學(xué)術(shù)深度與工程落地潛力，您認(rèn)為這個(gè)領(lǐng)域最吸引您的核心特質(zhì)是什么？有沒有某個(gè)具體的研究場景或問題，讓您當(dāng)時(shí)就判斷一定值得投入研究？

諸葛鳴晨：說實(shí)話，對(duì)于PhD而言，真正可用的窗口并不寬裕，所以更需要選擇那些長期繞不開的問題。Agent的本質(zhì)，就是讓日常或非日常任務(wù)自動(dòng)化。如果堅(jiān)信這一點(diǎn)，那么未來可能很多研究方向，最終都會(huì)繞不開 agents。

最開始ChatGPT 只能寫20到100行代碼，而且你可能還得自己去編譯、去修改。并且一開始基礎(chǔ)模型的context window只有2k到4k，也就是遠(yuǎn)遠(yuǎn)不夠用來理解一個(gè)repo級(jí)別的代碼的。但那時(shí)候我就覺得 Agent 在這個(gè)領(lǐng)域能夠產(chǎn)生非常大的價(jià)值。作為研究課題，當(dāng)時(shí)也有足夠多低垂果實(shí)。比如ICLR 2024的Oral Papers，關(guān)于Coding Agents的唯二工作，一篇是MetaGPT，另一篇是SWE-Bench，在后面的影響力都挺大的。

圖注：ICLR 2024的Oral Papers

Q3：2021年放棄大廠的offer，gap之后申請(qǐng)博士，您認(rèn)為這個(gè)選擇背后，除了對(duì)科研的熱愛，還有哪些關(guān)鍵考量？

諸葛鳴晨：和我同期去阿里實(shí)習(xí)的人，我認(rèn)識(shí)的其他10人都加入了阿里或者其他大廠，我反而成了少數(shù)派。因?yàn)槟莻€(gè)時(shí)候，阿里是世界市值第6的公司，彼時(shí)Facebook我記得是第7。并且我在的team同事都很nice，所以我個(gè)人其實(shí)很喜歡阿里。這確實(shí)讓我認(rèn)真糾結(jié)過一段時(shí)間。

我對(duì)科研確實(shí)有興趣，這是一部分原因。不過在碩士畢業(yè)前，也就是 2020 年底到 2021 年初那段時(shí)間，我和室友結(jié)合一些宏觀指標(biāo)、房地產(chǎn)數(shù)據(jù)以及政策變化，做過一個(gè)比較樸素但也比較務(wù)實(shí)的判斷：從當(dāng)時(shí)往后看，未來 5 年大概率會(huì)是一段不太明朗的周期。

去讀博某種意義上不僅剛好可以把這段周期“覆蓋”過去，而且對(duì)于整個(gè)人生來說，也算是一筆不錯(cuò)的投資。

當(dāng)然，趨勢(shì)是會(huì)變化的。假如現(xiàn)在讓我給面臨類似選擇的學(xué)弟學(xué)妹一些建議，我會(huì)覺得：在當(dāng)下這個(gè)階段，做 AI 研究未必還像過去那樣強(qiáng)依賴高學(xué)歷。隨著 Vibe Coding 和 Vibe Research 的快速發(fā)展，我會(huì)認(rèn)為讀博這件事需要更加謹(jǐn)慎地權(quán)衡。工具能力提升，會(huì)導(dǎo)致發(fā)表論文的門檻顯著下降，論文數(shù)量會(huì)開始暴漲。不過，即將讀 PhD 的同學(xué)也不必因此灰心。我的良心建議是：利用自己積累的經(jīng)驗(yàn)，只要盡可能去做足夠高質(zhì)量、真正有內(nèi)容的工作，不會(huì)有問題。

02
Recursive Self-Improvement：Agent進(jìn)化的核心引擎

"未來一年的突破就集中在這個(gè)方向。"

Q4：您曾參與智源社區(qū)“邁向Super Agent”研討會(huì)，提到2023年Agent框架開始收斂，2024年MCP協(xié)議、Computer Use等關(guān)鍵能力推動(dòng)領(lǐng)域規(guī)?；涞兀Y(jié)合2025-2026年的發(fā)展，目前Agent領(lǐng)域的最新突破集中在哪些方向？

圖注：三年前MetaGPT的附錄

諸葛鳴晨：三年前，我已經(jīng)在 MetaGPT 附錄中寫下這些方向。回頭看，它們正在逐步進(jìn)入行業(yè)討論的中心。也許你會(huì)意外的發(fā)現(xiàn)，2025年David Silver和Richard Sutton主推的Learning from Experience，以及2025年下半年到2026年上半年硅谷各大公司的老大比如Elon、Sam、Dario最近愛談的Recursive Self-Improvement，三年前我以精準(zhǔn)的terminology將其寫入 MetaGPT 附錄，如今它們正在逐步成為行業(yè)討論的重點(diǎn)。

來源：https://blog.samaltman.com/the-gentle-singularity; https://www.anthropic.com/news/the-anthropic-institute

我們正在推動(dòng)一個(gè)聚焦 recursive self-improvement 的 workshop。2026年的突破，就集中在 recursive self-improvement。

Q5：Agent-as-a-Judge如何解決長時(shí)程任務(wù)的評(píng)估問題？

諸葛鳴晨：Agent-as-a-Judge 是我 2024 年的工作。對(duì)于傳統(tǒng) benchmark 任務(wù)，給定輸入、得到輸出，Agent 往往只需要幾分鐘或幾十分鐘就能完成，這時(shí)當(dāng)然可以設(shè)計(jì)明確的 rubric 來評(píng)估結(jié)果。但現(xiàn)在的 agent 已經(jīng)能夠持續(xù)工作 6 小時(shí)、24 小時(shí)，甚至未來穩(wěn)定運(yùn)行半個(gè)月或一個(gè)月。對(duì)于這類長時(shí)程任務(wù)，我們更應(yīng)該優(yōu)先做什么：A.是繼續(xù)構(gòu)建帶固定 rubric 的 benchmark，B.還是探索一個(gè)真正 open-ended 的 Agent-as-a-Judge？我個(gè)人認(rèn)為是后者。

固定 rubric 適合驗(yàn)收已知問題，但它默認(rèn)"好解法"大體落在人的預(yù)設(shè)框架之內(nèi)；一旦 agent 給出超出預(yù)設(shè)維度的方案，固定 rubric 就未必能夠充分評(píng)估它的價(jià)值。

那如果已知很難有高質(zhì)量的Benchmarks來監(jiān)控長程問題的話，理想情況下，最好由人類持續(xù)監(jiān)控并提供反饋，因?yàn)槿祟惾匀蛔钣袡C(jī)會(huì)識(shí)別真正重要的突破。但這件事成本太高，也很難規(guī)?；?。Agent-as-a-Judge的核心價(jià)值，是為長時(shí)程任務(wù)提供持續(xù)反饋信號(hào)。這種反饋不一定需要 100% 精準(zhǔn)，只要它有意義、能提供方向性，就足以支撐整個(gè)迭代閉環(huán)繼續(xù)優(yōu)化。

就像 AlphaGo 的 Move 37：固定 rubric 的 benchmark 更容易給出最終結(jié)果（如：AlphaGo贏了），而Agent-as-a-Judge 不僅給最終結(jié)果打分，也在中間過程實(shí)時(shí)反饋（如：Move 37很漂亮）。

圖注：2016年AlphaGo與李世石的對(duì)局，來源網(wǎng)絡(luò)

追問：這個(gè)反饋和強(qiáng)化學(xué)習(xí)中的reward 有什么區(qū)別？

諸葛鳴晨：兩者不是一個(gè)維度的事情。RL里的reward是訓(xùn)練階段的優(yōu)化信號(hào)，目標(biāo)是更新策略；而Agent-as-a-Judge的核心是在任務(wù)執(zhí)行過程中持續(xù)提供評(píng)估反饋，服務(wù)于長期演化和多主體協(xié)作，而不是單輪優(yōu)化。當(dāng)然它也可以被復(fù)用到agentic post-training場景里作為輔助信號(hào)，但那不是它的設(shè)計(jì)初衷。

03
Agent開源三部曲：
MetaGPT、GPTSwarm與Agent-as-a-Judge

"好的工作，是解決領(lǐng)域公認(rèn)的問題，或明確指出新的方向。"

Q6：您主導(dǎo)的開源項(xiàng)目MetaGPT、GPTSwarm、Agent-as-a-Judge，在GitHub開源社區(qū)和學(xué)術(shù)社區(qū)均有較大反響，其中MetaGPT在軟件設(shè)計(jì)、編程題解答等任務(wù)中表現(xiàn)突出，當(dāng)時(shí)開發(fā)這些開源項(xiàng)目的初衷是什么？

諸葛鳴晨：我會(huì)先回答MetaGPT，同時(shí)說一下OpenHands。

MetaGPT 當(dāng)時(shí)解決的是什么問題呢？以前大模型的上下文窗口很短，代碼如果稍微包含一兩個(gè)文件就超出了這個(gè)上下文長度。MetaGPT 的做法是把不同的職責(zé)劃分開，論文里稱為SOP，也是現(xiàn)在skill的早期原型：CEO 下達(dá)命令，然后有系統(tǒng)架構(gòu)師、產(chǎn)品經(jīng)理、engineer 等角色，每一個(gè) agent 的輸入輸出格式都很清晰規(guī)范，同時(shí)設(shè)計(jì)了共享的對(duì)話窗口。這樣就解決了兩大問題：一是由上下文長度不足導(dǎo)致的 inconsistency（不一致性），二是 hallucination（幻覺）。這在2022年、2023年對(duì)于coding Agent都是非常嚴(yán)重的問題。

而OpenHands我也很喜歡，作為參與者我覺得它相比于MetaGPT指出了另一條路，就是不用多智能體，而用單智能體。OpenHands算是我所有論文里面非一作論文里最喜歡的項(xiàng)目，同時(shí)這次合作也認(rèn)識(shí)了幾個(gè)我特別欣賞的researchers。

說到初衷，其實(shí)有一點(diǎn)很實(shí)在：做開源項(xiàng)目，一方面是想在社區(qū)里建立一定的visibility；另一方面，每次把東西推出去，都是一次對(duì)自己know-how的重新評(píng)估。

Q7：GPTSwarm 的核心設(shè)計(jì)理念是什么？

諸葛鳴晨：GPTSwarm 的核心想法很直接，就是用圖來統(tǒng)一建模 single agent 和 multi-agent system。在這個(gè)框架里，節(jié)點(diǎn)代表工具、函數(shù)或能力，邊代表它們之間的連接關(guān)系與信息流動(dòng)方式。這樣一來，智能體的構(gòu)建與優(yōu)化就可以被統(tǒng)一理解為一個(gè)圖優(yōu)化問題：優(yōu)化節(jié)點(diǎn)，是提升單個(gè)能力；優(yōu)化邊，是改善協(xié)作關(guān)系。進(jìn)一步地，多個(gè) agent 之間的信息傳遞，也可以表示為圖中的跨節(jié)點(diǎn)連接。

圖注：GPTSwarm概念圖

GPTSwarm的價(jià)值不只是"用graph構(gòu)建agent"，更在于把optimization納入同一框架，并延伸到self-improvement的問題。我們2023年9月啟動(dòng)，2024年2月發(fā)布，和LangGraph幾乎同期——但GPTSwarm多走了optimization或者self-improve這一步。

Q8：談?wù)?/strong>Agent-as-a-Judge？

諸葛鳴晨：Agent-as-a-Judge 之所以重要，不只是因?yàn)樗茉u(píng)估，更因?yàn)樗鼮?recursive self-improvement 提供了持續(xù)反饋機(jī)制。沒有持續(xù)反饋機(jī)制，就不可能形成真正穩(wěn)定的自我迭代閉環(huán)。

最近有一個(gè)叫Ralph Loop的概念，他們強(qiáng)調(diào)在循環(huán)過程中，重要的不僅僅是智能體的能力，還需要好的評(píng)測手段。這個(gè)評(píng)測手段可以由智能體自身來定義，也可以由另一個(gè)智能體來定義。從一開始就定義好指標(biāo)，智能體就一直朝著這個(gè)指標(biāo)去優(yōu)化，直到達(dá)到滿意為止才停下來。

Q9：您的論文累計(jì)被引用超過5000次，多個(gè)研究成果獲得頂級(jí)會(huì)議口頭報(bào)告機(jī)會(huì)，這些成果中，您個(gè)人最滿意的是哪一個(gè)？

諸葛鳴晨：我最向往的研究，是那種真正解決領(lǐng)域公認(rèn)問題、或明確指出新方向的工作——既能攻克當(dāng)下的痛點(diǎn)，也能推動(dòng)社區(qū)打開新的討論空間。說實(shí)話，以這個(gè)標(biāo)準(zhǔn)回望，我對(duì)過去幾年自己的工作，都還挺滿意的。

Q10. 在博士階段，目前有沒有錯(cuò)過或者押錯(cuò)的方向？

諸葛鳴晨：最遺憾的，是錯(cuò)過了 AI Scientist 這個(gè)方向。2023 年下半年，我同時(shí)構(gòu)想了 GPTSwarm 和 GPT-Scientist 兩個(gè)方向，也都寫了 Proposal給Jürgen（如下圖是關(guān)于GPT-Scientist的Proposal）。

圖注：諸葛鳴晨關(guān)于GPT-Scientist的Proposal

當(dāng)時(shí)判斷 GPT-Scientist 可能過于超前，可以先緩一緩——要知道，像 Devin 這樣的系統(tǒng)直到次年，也就是 2024 年 3 月才發(fā)布。于是我選擇了自認(rèn)為學(xué)術(shù)貢獻(xiàn)更扎實(shí)的 GPTSwarm 來推進(jìn)。加上我有做完一個(gè)項(xiàng)目后放松一段時(shí)間的習(xí)慣，GPTSwarm 收尾之后就沒能及時(shí)跟上做 GPT-Scientist。后來，Sakana AI 于 2024 年 8 月發(fā)布了《The AI Scientist》，正面命中了我當(dāng)初擱置的那個(gè)方向，一時(shí)間爆火。這個(gè)錯(cuò)過，實(shí)在不應(yīng)該。

04
師從現(xiàn)代AI之父Jürgen Schmidhuber

"他腦子像藏了一部百科全書。"

Q11：在開展這些研究的過程中，您的導(dǎo)師Jürgen Schmidhuber教授給予了哪些具體的指導(dǎo)和支持？是否有某個(gè)關(guān)鍵建議，幫助您突破了研究瓶頸？

諸葛鳴晨：在組里氛圍很自由，沒有固定的weekly meeting。不用每周應(yīng)付匯報(bào)，我就有更多空間去思考，這對(duì)我?guī)椭艽蟆?/p>

圖注：Jürgen Schmidhuber教授，來源網(wǎng)絡(luò)

具體指導(dǎo)方面，他會(huì)非常詳細(xì)地看我的論文，甚至?xí)驗(yàn)槟尘湓?、某個(gè)詞表述不清楚而給出很強(qiáng)烈的批評(píng)意見。但你跟他交流，他會(huì)告訴你為什么覺得不對(duì)，該怎么寫、怎么做可能更好。他不是手把手教你的類型，你帶著問題去問他，他往往能迅速指出關(guān)鍵所在——這源自于他長期的積累，他確實(shí)很博學(xué)。

一個(gè)具體案例：我博一剛?cè)雽W(xué)時(shí)，他讓我主導(dǎo)一個(gè)叫 Mindstorm 的項(xiàng)目，當(dāng)時(shí)有20多號(hào)人，有一大部分都是senior PhDs。當(dāng)時(shí)我壓力很大，但他非常支持我。他親自撰寫了那篇論文的 outlook 章節(jié)，叫做"Economy of Mind"。那篇 paper 叫做《Mindstorms in Natural Language-Based Societies of Mind》。你想他已經(jīng)60多歲了，還會(huì)親自從文本層面幫你撰寫一整個(gè)章節(jié)。雖然這是他在我整個(gè)博士期間唯一一次親自撰寫一個(gè)章節(jié)，但對(duì)于一個(gè)初級(jí)研究者的成長而言，這是非常有幫助的。

圖注：論文《Mindstorms in Natural Language-Based Societies of Mind》

那個(gè)章節(jié)也非常超前。他提出智能體的獎(jiǎng)勵(lì)直接等同于“Cash”——就像人類需要薪酬來維持生活，agent 社會(huì)也可能由經(jīng)濟(jì)因素驅(qū)動(dòng)。一些 agent 可能非常“富足”，有自己的“baby”（數(shù)字分身）；一些 agent 可能會(huì)“破產(chǎn)”。

他的意思是Agent 也會(huì)有自己的“社會(huì)”，也有自己的經(jīng)濟(jì)行為。在這個(gè)框架下，未來agent 的 reward 不再只是完成任務(wù)后的分?jǐn)?shù)——無論是人類偏好、rubric 得分，還是來自類似于Agent-as-a-Judge 的反饋。未來的 agentic incentive更可能是現(xiàn)實(shí)社會(huì)里的現(xiàn)金激勵(lì)，比如美元或歐元，這樣更自然地驅(qū)動(dòng) agent 的長期演化和多主體協(xié)作。

Q12：目前您在Meta AI實(shí)習(xí)，這段實(shí)習(xí)經(jīng)歷是否會(huì)影響您未來的研究方向？

諸葛鳴晨：最大的影響有兩點(diǎn)：一是驗(yàn)證了自己的一些判斷，很多在學(xué)校里不確定的想法，發(fā)現(xiàn)確實(shí)是業(yè)界需要的；二是結(jié)識(shí)了很多優(yōu)秀的研究者，那些更資深的人在交流中也確實(shí)幫助了我。后面兩年Meta和KAUST基本相輔相成，掛靠Meta做research。

Q13：Jürgen Schmidhuber教授被譽(yù)為“LSTM之父”“現(xiàn)代人工智能之父”，您曾形容他是“典型的德國學(xué)者，嚴(yán)謹(jǐn)且精益求精”，在日常相處中，有哪些具體的小事，能體現(xiàn)他的這種特質(zhì)？

諸葛鳴晨：他性格非常鮮明，有什么就直接說——在某種程度上像個(gè)"老頑童"。外界說他桀驁不馴，但相處下來你又覺得他和藹可親。

但他在論文上非常嚴(yán)厲。論文里某句話不清楚，他會(huì)批評(píng)，然后會(huì)告訴你哪些引用需要加上，不只是他自己的工作，他會(huì)列舉 AI 歷史上所有值得尊重的工作，我覺得他腦子像藏了一部百科全書。

他很嚴(yán)謹(jǐn)，比如他會(huì)說 CNN 其實(shí)是由日本的福島邦彥（Fukushima）貢獻(xiàn)的，不應(yīng)該完全歸功于 LeCun。他不是只為自己伸張。他還寫過一篇 blog 討論到底是誰發(fā)明了飛機(jī)，大家公認(rèn)是萊特兄弟，但實(shí)際上萊特兄弟嚴(yán)格來說只是發(fā)明了某種特定形式的飛機(jī)，在他們之前的1890年就有工程師做出了“有動(dòng)力的飛行器”，這些人都被忽略了。他用這個(gè)類比來說明 AI 領(lǐng)域也應(yīng)該給每一位做出貢獻(xiàn)的人應(yīng)有的 credit。

來源：https://people.idsia.ch/~juergen/planetruth.html

拋開他之前讓他出名的的很多文章，比如LSTM，現(xiàn)在另一批他的早期個(gè)人研究最近也顯露鋒芒：從 Godel Machine（Recursive Self-Improvement 的早期工作），到 Making the World Differentiable以及World Models（與 David Ha 共同推動(dòng)了World Model的定義和流行），再到 Fast Weight Programmer 以及與 Imanol 合作的 Delta Network（Linear Attention 的重要參考）等等，都在逐步證明他在“大氣層”。

05
Agent的下一個(gè)十年

"人類的適應(yīng)性一定是比agent強(qiáng)的。"

Q14：開源項(xiàng)目在您的研究中占據(jù)重要地位，未來您在項(xiàng)目的迭代上，有哪些具體規(guī)劃？是否會(huì)嘗試推動(dòng)這些項(xiàng)目的商業(yè)化落地？

諸葛鳴晨：我參與的OpenHands、MetaGPT 等項(xiàng)目，2年前就已經(jīng)由其他主導(dǎo)人推動(dòng)商業(yè)化，而且融資情況也相當(dāng)可觀。相比之下，我過去在學(xué)校或?qū)嵙?xí)中做的項(xiàng)目大多偏學(xué)術(shù)，更關(guān)注未來兩三年甚至更長遠(yuǎn)的需求。

但接下來這個(gè)狀態(tài)會(huì)變化。進(jìn)入工業(yè)界后，我會(huì)更多聚焦當(dāng)前半年內(nèi)真正需要解決的問題。目前這一兩年，最終我想做的是一個(gè)“過往項(xiàng)目的集大成者”，把過去幾個(gè)項(xiàng)目的思路整合起來：多智能體協(xié)作、sandbox執(zhí)行、圖優(yōu)化、自動(dòng)評(píng)估等等，設(shè)計(jì)一個(gè)真正可長期運(yùn)行的長程Agent，優(yōu)先落地在automatic engineering場景。同時(shí)會(huì)找找有沒有機(jī)會(huì)自己或者和惺惺相惜的researchers一起推 Completely Neural Computers （完備神經(jīng)計(jì)算機(jī)），我快畢業(yè)了，會(huì)告別paper-oriented research了，接下來的日子，拭目以待吧。

Q15：同樣是Agent領(lǐng)域的研究者，您如何看待Shunyu Yao的《The Second Half》？在您看來，AI的下一步是什么？

諸葛鳴晨：他很擅長在關(guān)鍵時(shí)間節(jié)點(diǎn)提出足夠大的問題——ReAct 和《The Second Half》都是這樣，能讓更多研究者聚焦到同一個(gè)方向上來，這本身很有價(jià)值，也是他 research taste 的體現(xiàn)。

但說實(shí)話，把 AI 的“下半場”概括為 evaluation，這個(gè)口徑是偏寬的。好處是足夠包容、易于理解，也確實(shí)能快速形成共識(shí)；但代價(jià)是技術(shù)上會(huì)變得模糊——你很難從這個(gè)判斷直接推導(dǎo)出下一步該做什么。

傳統(tǒng) benchmarks 不夠用這一點(diǎn)已經(jīng)是共識(shí)。圍繞這個(gè)問題，社區(qū)確實(shí)在往更貼近真實(shí)世界的方向推進(jìn)，比如：

（1）Agent-as-a-Judge，本身就是在補(bǔ)長時(shí)程任務(wù)評(píng)估的空缺。它不只看最終結(jié)果，而是為任務(wù)執(zhí)行過程持續(xù)提供評(píng)估信號(hào)；

（2）以arena.ai為代表的Arena類系統(tǒng)，提供接近真實(shí)的用戶偏好評(píng)估；

（3）類似OpenRouter的真實(shí)調(diào)用量數(shù)據(jù)，在一定程度上反映了市場對(duì)模型實(shí)用性的綜合判斷。

圖注：概念圖

但這些變化，本質(zhì)上還是在改進(jìn)“儀表盤”，而不是重寫“發(fā)動(dòng)機(jī)”。

在我看來，更務(wù)實(shí)的 AI"下半場"，關(guān)鍵還是解決兩個(gè)更直接的問題：一是 Recursive Self-Improvement，二是 Neural Computers。前者決定AI如何持續(xù)進(jìn)化，后者決定AI以什么形態(tài)存在。這兩者更直接說明了當(dāng)前大家可能共同面對(duì)的挑戰(zhàn)。

Q16：您剛剛提到的Neural Computers是什么？

諸葛鳴晨：其實(shí)這是我即將公開的一篇論文，提前透露一些思考。

先說它和現(xiàn)有范式的區(qū)別。傳統(tǒng)計(jì)算機(jī)圍繞顯式程序運(yùn)行，Agent圍繞任務(wù)執(zhí)行，World Model圍繞環(huán)境建?！?strong>Neural Computer關(guān)注的是runtime本身：讓系統(tǒng)在運(yùn)行中持續(xù)沉淀能力。Agent是在計(jì)算機(jī)上跑任務(wù)，而Neural Computer本身就是那臺(tái)計(jì)算機(jī)。

圖注：概念圖

對(duì)傳統(tǒng)計(jì)算機(jī)，你安裝的是軟件；對(duì)Agent，你描述的是任務(wù)；對(duì)Neural Computer，你更像是在給機(jī)器安裝能力，并期待這些能力以后繼續(xù)留在機(jī)器里。

這個(gè)工作我去年2月開始探索，去年11月基本做完了，因?yàn)殡s事很多，一直拖到現(xiàn)在，但是應(yīng)該4月前會(huì)發(fā)布。

Q17. 有什么心得，能提前抓住一些熱點(diǎn)？

諸葛鳴晨：我有一套判斷思路，其實(shí)就是反復(fù)自我追問：“當(dāng)前的主流技術(shù)下一波會(huì)在哪里匯聚？”

我覺得這個(gè)思維，可以作為“公式”被所有人復(fù)用：

（1）2020年multimodal還不火的時(shí)候，預(yù)判各類子課題（CV、NLP、RecSys）最終會(huì)匯入Multimodal，快速以身入局；

（2）2022年AI Agents還不火的時(shí)候，預(yù)判Multimodal、LLM等技術(shù)最終會(huì)匯入Agents，快速以身入局；

（3）2025年Neural Computers還不火的時(shí)候，預(yù)判World Model、AI Agents以及傳統(tǒng)計(jì)算機(jī)技術(shù)，最終會(huì)匯入Neural Computers，快速以身入局。

每次利用好這一招基本管3年溫飽，但能不能大富大貴看個(gè)人造化。

Q18：最后，結(jié)合當(dāng)前Agent領(lǐng)域的發(fā)展，您對(duì)這個(gè)領(lǐng)域的未來5-10年，有怎樣的期待？AI Agents會(huì)不會(huì)取代人類？

諸葛鳴晨：Agent已經(jīng)基本覆蓋了編程和各類工程師場景，能幫大家實(shí)實(shí)在在地提速。Agent會(huì)從編程擴(kuò)展到所有日常場景。我個(gè)人最期待的，是有一天我睡覺的時(shí)候，它能替我同時(shí)跑實(shí)驗(yàn)和處理各種雜事。

最后想說的是：人類的適應(yīng)力和創(chuàng)造性，始終會(huì)比Agent更強(qiáng)。AI不會(huì)淘汰人，但會(huì)用AI的人，會(huì)淘汰不會(huì)用AI的人。這個(gè)窗口現(xiàn)在還開著：先進(jìn)去的人，已經(jīng)在建立優(yōu)勢(shì)了。

最后，我也想借用我導(dǎo)師Jürgen Schmidhuber在11年前Reddit的回答來替我補(bǔ)充：

來源：https://www.reddit.com/r/MachineLearning/comments/2xcyrl/comment/cp46hxc/

追問：如果Agent持續(xù)普及，以后大家是不是也不用996了？

諸葛鳴晨：遺憾的是，996恐怕不會(huì)消失。Agent普及之后，生產(chǎn)力提升，但需求也會(huì)隨之被放大，每個(gè)人的負(fù)擔(dān)未必真的減少。但至少，很多重復(fù)執(zhí)行型工作會(huì)被自動(dòng)化。

由于現(xiàn)在講究Move Fast，996好像難以避免。但72小時(shí)的工作量如果工資到位、做的又是真正有意義的事，其實(shí)沒那么難熬。最難熬的是忙了一整周，最后卻發(fā)現(xiàn)，沒有一件事值得。

GPU 訓(xùn)練特惠！

H100/H200 GPU算力按秒計(jì)費(fèi)，平均節(jié)省開支30%以上！

掃碼了解詳情?

點(diǎn)「贊」的人都變好看了哦！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.