国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

專訪KAUST諸葛鳴晨丨2026 Agent最大突破是“遞歸自進(jìn)化”,三年后有望實(shí)現(xiàn)“神經(jīng)計(jì)算機(jī)”

0
分享至

大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自智源社區(qū)

2026年以來,“Agent”正在加速從學(xué)術(shù)概念走向產(chǎn)業(yè)落地,而諸葛鳴晨已在這條賽道上深耕數(shù)年。


圖注:諸葛鳴晨

他的博士生涯始于論文 Mindstorm,該工作系統(tǒng)描繪了智能體社會(huì)的整體圖景及其潛在經(jīng)濟(jì)形態(tài)。此后,他又以共同第一作者身份主導(dǎo)完成了 MetaGPT,使其迅速成為近年來智能體編程領(lǐng)域最具代表性、也最具影響力的現(xiàn)象級(jí)工作之一;與此同時(shí),他也是 OpenHands(原 OpenDevin)的早期核心貢獻(xiàn)者。

圍繞 Agent 系統(tǒng)方法論,他進(jìn)一步發(fā)展出 GPTSwarm,將多智能體建模為可優(yōu)化的圖(graph),為 Agent 的系統(tǒng)化構(gòu)造與演化開辟了新路徑;他提出的 Agent-as-a-Judge,則切中了長時(shí)程任務(wù)自動(dòng)評(píng)估這一關(guān)鍵瓶頸,為持續(xù)迭代優(yōu)化提供了核心機(jī)制。尤其值得一提的是,早在 2023 年,他便已在 MetaGPT 附錄中明確指出,“recursive self-improvement” 與 “l(fā)earning from experience” 將構(gòu)成 Agents 下一階段發(fā)展的核心方向,顯示出極強(qiáng)的前瞻判斷力。

這位師從 Jürgen Schmidhuber 的 KAUST 博士生,早在 2021 年就將博士研究錨定為多模態(tài) Agent。回看他的路徑,核心是一件事:更早判斷方向,并把判斷落成研究。

Agent 的未來究竟是怎樣的圖景?長時(shí)程任務(wù)中智能體該如何實(shí)現(xiàn)自我評(píng)估?被調(diào)侃為“老頑童”的導(dǎo)師又給他帶來了怎樣的科研啟迪?在這篇深度專訪中,他將圍繞 Agent 技術(shù)演進(jìn)的關(guān)鍵路徑展開分享,深入討論智能體社會(huì)、智能體經(jīng)濟(jì)、自動(dòng)化評(píng)估與遞歸自我改進(jìn)(RSI,Recursive Self-Improvement)以及神經(jīng)計(jì)算機(jī)(NC,Neural Computer)。

采訪&編輯:夢(mèng)佳 迪陽

要點(diǎn)速覽

研究起點(diǎn)與選擇:2021年末將博士課題鎖定為多模態(tài)智能體(Multimodal Agents);并始終認(rèn)為Coding Agent是最易落地、最具商業(yè)價(jià)值的方向。

Agent進(jìn)化的核心引擎:他判斷下一階段突破將集中在 recursive self-improvement,Agent-as-a-Judge 則為長時(shí)程任務(wù)提供自動(dòng)評(píng)估信號(hào)。

開源實(shí)踐:深度參與 MetaGPT,用角色分工與 SOP 規(guī)范化破解大模型幻覺與上下文瓶頸;提出 GPTSwarm,將 Agent 創(chuàng)新性地抽象為圖結(jié)構(gòu),讓智能體的構(gòu)建與優(yōu)化等價(jià)于對(duì)節(jié)點(diǎn)(Node)與邊(Edge)的系統(tǒng)性求解。

現(xiàn)代AI之父”的言傳身教:導(dǎo)師 Jürgen Schmidhuber 不僅在學(xué)術(shù)寫作上嚴(yán)謹(jǐn)嚴(yán)格,更在合作項(xiàng)目中親自撰寫“Economy of Mind”章節(jié),為其注入了“Agent 社會(huì)將由經(jīng)濟(jì)規(guī)律驅(qū)動(dòng)”的超前洞察。

未來方向:(1)即將推出 “Neural Computer”。(2)Agent 將從代碼編寫全面滲透至日常全場景,始終堅(jiān)信:人類具備強(qiáng)的適應(yīng)力與創(chuàng)造性,越早擁抱AI的收益會(huì)越大。

智源專訪欄目意在展現(xiàn)行業(yè)頂尖技術(shù)研究者和創(chuàng)業(yè)者的研究經(jīng)歷和故事,記錄技術(shù)世界的嬗變,激發(fā)當(dāng)代AI從業(yè)者的創(chuàng)新思維,啟迪認(rèn)知、關(guān)注突破性進(jìn)展,為行業(yè)注入靈感光芒。本次專訪為總第36期。

簡介:諸葛鳴晨是沙特阿卜杜拉國王科技大學(xué)(KAUST)的計(jì)算機(jī)科學(xué)博士生,青源會(huì)成員,師從被譽(yù)為“LSTM之父”的Jürgen Schmidhuber教授。他的研究領(lǐng)域集中于大語言模型和多模態(tài)智能體。他曾在Meta AI實(shí)習(xí),博士就讀前,曾在微軟、阿聯(lián)酋起源人工智能研究院和阿里巴巴等知名機(jī)構(gòu)任職。他以第一作者身份在ICML、ICLR、CVPR、TPAMI等頂級(jí)會(huì)議和期刊上發(fā)表了多篇論文,榮獲NeurIPS研討會(huì)最佳論文獎(jiǎng),EMNLP杰出論文候選,CVPR杰出審稿人等獎(jiǎng)項(xiàng),論文累計(jì)被引用近5500次。最近2年,他積極參與的開源項(xiàng)目共取得約130K Stars。此外,他近幾年智能體的研究工作在頂級(jí)ML會(huì)議共獲得6次口頭報(bào)告(Oral Presentation)。他發(fā)起并組織了ICLR 2026遞歸自我改進(jìn)(RSI)研討會(huì),同時(shí)擔(dān)任COLM 2026與CAIS 2026的領(lǐng)域主席(Area Chair)。

01

于浪潮未至?xí)r落子:研究課題個(gè)人選擇

"我不太在乎agent最終的呈現(xiàn)形式,但我非常喜歡這個(gè)課題,未來大家都會(huì)從multimodal agent中受益。"

Q1:博士就讀前你曾在微軟、阿聯(lián)酋起源人工智能研究院等機(jī)構(gòu),圍繞多模態(tài)預(yù)訓(xùn)練和大語言模型開展研究,是什么契機(jī)讓您在2021年末申請(qǐng)博士時(shí),將研究方向鎖定在多模態(tài)智能體領(lǐng)域?

諸葛鳴晨那是2020年,確實(shí)我在讀博之前做的是多模態(tài)預(yù)訓(xùn)練 (VLP),是受到VLBERT、ViLBERT等工作的啟發(fā),但當(dāng)時(shí)國內(nèi)做這塊比較多的主要是微軟和阿里。在阿里碰到了對(duì)前沿課題非常感興趣的manager。盡管多模態(tài)在那個(gè)時(shí)間點(diǎn)是作為區(qū)別于NLP和CV的獨(dú)立課題存在的,但我認(rèn)為未來任何子topics都會(huì)圍繞“多模態(tài)”展開的。在阿里的時(shí)期,我在CVPR2021發(fā)表了名為 Kaleido-BERT的工作。盡管當(dāng)時(shí)整個(gè)CVPR 2021多模態(tài)預(yù)訓(xùn)練的工作似乎就5篇左右,我覺得這個(gè) topic 未來會(huì)很火熱。

但當(dāng)時(shí),大多數(shù)相關(guān)工作都是基于BERT等工作,參數(shù)量遠(yuǎn)遠(yuǎn)不夠,所以大多停留在基礎(chǔ)的多模態(tài)Understanding,具體任務(wù)基本是圖片描述、圖文相互檢索、以及分類,應(yīng)用,主要以拿到好的embeddings來服務(wù)搜推廣,距離具備推理和規(guī)劃能力的 Agent 還很遠(yuǎn)。所以離 reasoning(推理)及真正能夠做 planning(規(guī)劃)還差得很遠(yuǎn)。所以我申請(qǐng)博士時(shí),研究提案就叫“多模態(tài)智能體”(Multimodal Agent),希望現(xiàn)有的模型能夠跟真實(shí)環(huán)境進(jìn)行交互。

我對(duì)agent的最初想象,不完全來自論文,也來自幾部科幻電影,比如:a. 《生化危機(jī)》里以全息影像現(xiàn)身的"紅皇后",背后是一個(gè)真正在決策、在控制整個(gè)設(shè)施的AI;b. 《機(jī)械姬》讓我開始認(rèn)真思考智能體的主體性和具身化;c. 《頭號(hào)玩家》則讓我想象,agent在數(shù)字世界里會(huì)以什么方式存在和演化。


圖注:電影《生化危機(jī)》

所以我當(dāng)時(shí)寫 proposal 的時(shí)候就說,其實(shí)有一個(gè)很明確的想法:我并不太在意Agent 最終會(huì)以什么形式出現(xiàn),但會(huì)考慮哪個(gè)方向更能直接產(chǎn)生影響力我非常喜歡這個(gè)課題,并且覺得未來它一定能夠得到廣泛的應(yīng)用,大家都會(huì)從 multimodal agent 中受益。

Q2:在眾多AI細(xì)分領(lǐng)域中,Agent領(lǐng)域兼具學(xué)術(shù)深度與工程落地潛力,您認(rèn)為這個(gè)領(lǐng)域最吸引您的核心特質(zhì)是什么?有沒有某個(gè)具體的研究場景或問題,讓您當(dāng)時(shí)就判斷一定值得投入研究?

諸葛鳴晨說實(shí)話,對(duì)于PhD而言,真正可用的窗口并不寬裕,所以更需要選擇那些長期繞不開的問題。Agent的本質(zhì),就是讓日常或非日常任務(wù)自動(dòng)化。如果堅(jiān)信這一點(diǎn),那么未來可能很多研究方向,最終都會(huì)繞不開 agents。

最開始ChatGPT 只能寫20到100行代碼,而且你可能還得自己去編譯、去修改。并且一開始基礎(chǔ)模型的context window只有2k到4k,也就是遠(yuǎn)遠(yuǎn)不夠用來理解一個(gè)repo級(jí)別的代碼的。但那時(shí)候我就覺得 Agent 在這個(gè)領(lǐng)域能夠產(chǎn)生非常大的價(jià)值。作為研究課題,當(dāng)時(shí)也有足夠多低垂果實(shí)。比如ICLR 2024的Oral Papers,關(guān)于Coding Agents的唯二工作,一篇是MetaGPT,另一篇是SWE-Bench,在后面的影響力都挺大的。


圖注:ICLR 2024的Oral Papers

Q3:2021年放棄大廠offer,gap之后申請(qǐng)博士,您認(rèn)為這個(gè)選擇背后,除了對(duì)科研的熱愛,還有哪些關(guān)鍵考量?

諸葛鳴晨和我同期去阿里實(shí)習(xí)的人,我認(rèn)識(shí)的其他10人都加入了阿里或者其他大廠,我反而成了少數(shù)派。因?yàn)槟莻€(gè)時(shí)候,阿里是世界市值第6的公司,彼時(shí)Facebook我記得是第7。并且我在的team同事都很nice,所以我個(gè)人其實(shí)很喜歡阿里。這確實(shí)讓我認(rèn)真糾結(jié)過一段時(shí)間。

我對(duì)科研確實(shí)有興趣,這是一部分原因。不過在碩士畢業(yè)前,也就是 2020 年底到 2021 年初那段時(shí)間,我和室友結(jié)合一些宏觀指標(biāo)、房地產(chǎn)數(shù)據(jù)以及政策變化,做過一個(gè)比較樸素但也比較務(wù)實(shí)的判斷:從當(dāng)時(shí)往后看,未來 5 年大概率會(huì)是一段不太明朗的周期。

去讀博某種意義上不僅剛好可以把這段周期“覆蓋”過去,而且對(duì)于整個(gè)人生來說,也算是一筆不錯(cuò)的投資。

當(dāng)然,趨勢(shì)是會(huì)變化的。假如現(xiàn)在讓我給面臨類似選擇的學(xué)弟學(xué)妹一些建議,我會(huì)覺得:在當(dāng)下這個(gè)階段,做 AI 研究未必還像過去那樣強(qiáng)依賴高學(xué)歷。隨著 Vibe Coding 和 Vibe Research 的快速發(fā)展,我會(huì)認(rèn)為讀博這件事需要更加謹(jǐn)慎地權(quán)衡。工具能力提升,會(huì)導(dǎo)致發(fā)表論文的門檻顯著下降,論文數(shù)量會(huì)開始暴漲。不過,即將讀 PhD 的同學(xué)也不必因此灰心。我的良心建議是:利用自己積累的經(jīng)驗(yàn),只要盡可能去做足夠高質(zhì)量、真正有內(nèi)容的工作,不會(huì)有問題。

02
Recursive Self-Improvement:Agent進(jìn)化的核心引擎

"未來一年的突破就集中在這個(gè)方向。"

Q4:您曾參與智源社區(qū)“邁向Super Agent”研討會(huì),提到2023年Agent框架開始收斂,2024年MCP協(xié)議、Computer Use等關(guān)鍵能力推動(dòng)領(lǐng)域規(guī)?;涞兀Y(jié)合2025-2026年的發(fā)展,目前Agent領(lǐng)域的最新突破集中在哪些方向?


圖注:三年前MetaGPT的附錄

諸葛鳴晨:三年前,我已經(jīng)在 MetaGPT 附錄中寫下這些方向。回頭看,它們正在逐步進(jìn)入行業(yè)討論的中心。也許你會(huì)意外的發(fā)現(xiàn),2025年David Silver和Richard Sutton主推的Learning from Experience,以及2025年下半年到2026年上半年硅谷各大公司的老大比如Elon、Sam、Dario最近愛談的Recursive Self-Improvement,三年前我以精準(zhǔn)的terminology將其寫入 MetaGPT 附錄,如今它們正在逐步成為行業(yè)討論的重點(diǎn)。



來源:https://blog.samaltman.com/the-gentle-singularity; https://www.anthropic.com/news/the-anthropic-institute

我們正在推動(dòng)一個(gè)聚焦 recursive self-improvement 的 workshop。2026年的突破,就集中在 recursive self-improvement。

Q5:Agent-as-a-Judge如何解決長時(shí)程任務(wù)的評(píng)估問題?

諸葛鳴晨:Agent-as-a-Judge 是我 2024 年的工作。對(duì)于傳統(tǒng) benchmark 任務(wù),給定輸入、得到輸出,Agent 往往只需要幾分鐘或幾十分鐘就能完成,這時(shí)當(dāng)然可以設(shè)計(jì)明確的 rubric 來評(píng)估結(jié)果。但現(xiàn)在的 agent 已經(jīng)能夠持續(xù)工作 6 小時(shí)、24 小時(shí),甚至未來穩(wěn)定運(yùn)行半個(gè)月或一個(gè)月。對(duì)于這類長時(shí)程任務(wù),我們更應(yīng)該優(yōu)先做什么:A.是繼續(xù)構(gòu)建帶固定 rubric 的 benchmark,B.還是探索一個(gè)真正 open-ended 的 Agent-as-a-Judge?我個(gè)人認(rèn)為是后者。

固定 rubric 適合驗(yàn)收已知問題,但它默認(rèn)"好解法"大體落在人的預(yù)設(shè)框架之內(nèi);一旦 agent 給出超出預(yù)設(shè)維度的方案,固定 rubric 就未必能夠充分評(píng)估它的價(jià)值。

那如果已知很難有高質(zhì)量的Benchmarks來監(jiān)控長程問題的話,理想情況下,最好由人類持續(xù)監(jiān)控并提供反饋,因?yàn)槿祟惾匀蛔钣袡C(jī)會(huì)識(shí)別真正重要的突破。但這件事成本太高,也很難規(guī)?;?。Agent-as-a-Judge的核心價(jià)值,是為長時(shí)程任務(wù)提供持續(xù)反饋信號(hào)。這種反饋不一定需要 100% 精準(zhǔn),只要它有意義、能提供方向性,就足以支撐整個(gè)迭代閉環(huán)繼續(xù)優(yōu)化。

就像 AlphaGo 的 Move 37:固定 rubric 的 benchmark 更容易給出最終結(jié)果(如:AlphaGo贏了),而Agent-as-a-Judge 不僅給最終結(jié)果打分,也在中間過程實(shí)時(shí)反饋(如:Move 37很漂亮)。


圖注:2016年AlphaGo與李世石的對(duì)局,來源網(wǎng)絡(luò)

追問:這個(gè)反饋和強(qiáng)化學(xué)習(xí)中的reward 有什么區(qū)別?

諸葛鳴晨:兩者不是一個(gè)維度的事情。RL里的reward是訓(xùn)練階段的優(yōu)化信號(hào),目標(biāo)是更新策略;而Agent-as-a-Judge的核心是在任務(wù)執(zhí)行過程中持續(xù)提供評(píng)估反饋,服務(wù)于長期演化和多主體協(xié)作,而不是單輪優(yōu)化。當(dāng)然它也可以被復(fù)用到agentic post-training場景里作為輔助信號(hào),但那不是它的設(shè)計(jì)初衷。

03
Agent開源三部曲:
MetaGPT、GPTSwarm與Agent-as-a-Judge

"好的工作,是解決領(lǐng)域公認(rèn)的問題,或明確指出新的方向。"

Q6:您主導(dǎo)的開源項(xiàng)目MetaGPT、GPTSwarm、Agent-as-a-Judge,在GitHub開源社區(qū)和學(xué)術(shù)社區(qū)均有較大反響,其中MetaGPT在軟件設(shè)計(jì)、編程題解答等任務(wù)中表現(xiàn)突出,當(dāng)時(shí)開發(fā)這些開源項(xiàng)目的初衷是什么?

諸葛鳴晨我會(huì)先回答MetaGPT,同時(shí)說一下OpenHands。

MetaGPT 當(dāng)時(shí)解決的是什么問題呢?以前大模型的上下文窗口很短,代碼如果稍微包含一兩個(gè)文件就超出了這個(gè)上下文長度。MetaGPT 的做法是把不同的職責(zé)劃分開,論文里稱為SOP,也是現(xiàn)在skill的早期原型:CEO 下達(dá)命令,然后有系統(tǒng)架構(gòu)師、產(chǎn)品經(jīng)理、engineer 等角色,每一個(gè) agent 的輸入輸出格式都很清晰規(guī)范,同時(shí)設(shè)計(jì)了共享的對(duì)話窗口。這樣就解決了兩大問題:一是由上下文長度不足導(dǎo)致的 inconsistency(不一致性),二是 hallucination(幻覺)。這在2022年、2023年對(duì)于coding Agent都是非常嚴(yán)重的問題。

而OpenHands我也很喜歡,作為參與者我覺得它相比于MetaGPT指出了另一條路,就是不用多智能體,而用單智能體。OpenHands算是我所有論文里面非一作論文里最喜歡的項(xiàng)目,同時(shí)這次合作也認(rèn)識(shí)了幾個(gè)我特別欣賞的researchers。

說到初衷,其實(shí)有一點(diǎn)很實(shí)在:做開源項(xiàng)目,一方面是想在社區(qū)里建立一定的visibility;另一方面,每次把東西推出去,都是一次對(duì)自己know-how的重新評(píng)估。

Q7:GPTSwarm 的核心設(shè)計(jì)理念是什么?

諸葛鳴晨GPTSwarm 的核心想法很直接,就是用圖來統(tǒng)一建模 single agent 和 multi-agent system。在這個(gè)框架里,節(jié)點(diǎn)代表工具、函數(shù)或能力,邊代表它們之間的連接關(guān)系與信息流動(dòng)方式。這樣一來,智能體的構(gòu)建與優(yōu)化就可以被統(tǒng)一理解為一個(gè)圖優(yōu)化問題:優(yōu)化節(jié)點(diǎn),是提升單個(gè)能力;優(yōu)化邊,是改善協(xié)作關(guān)系。進(jìn)一步地,多個(gè) agent 之間的信息傳遞,也可以表示為圖中的跨節(jié)點(diǎn)連接。


圖注:GPTSwarm概念圖

GPTSwarm的價(jià)值不只是"用graph構(gòu)建agent",更在于把optimization納入同一框架,并延伸到self-improvement的問題。我們2023年9月啟動(dòng),2024年2月發(fā)布,和LangGraph幾乎同期——但GPTSwarm多走了optimization或者self-improve這一步。

Q8談?wù)?/strong>Agent-as-a-Judge

諸葛鳴晨Agent-as-a-Judge 之所以重要,不只是因?yàn)樗茉u(píng)估,更因?yàn)樗鼮?recursive self-improvement 提供了持續(xù)反饋機(jī)制。沒有持續(xù)反饋機(jī)制,就不可能形成真正穩(wěn)定的自我迭代閉環(huán)。

最近有一個(gè)叫Ralph Loop的概念,他們強(qiáng)調(diào)在循環(huán)過程中,重要的不僅僅是智能體的能力,還需要好的評(píng)測手段。這個(gè)評(píng)測手段可以由智能體自身來定義,也可以由另一個(gè)智能體來定義。從一開始就定義好指標(biāo),智能體就一直朝著這個(gè)指標(biāo)去優(yōu)化,直到達(dá)到滿意為止才停下來。

Q9您的論文累計(jì)被引用超過5000次,多個(gè)研究成果獲得頂級(jí)會(huì)議口頭報(bào)告機(jī)會(huì),這些成果中,您個(gè)人最滿意的是哪一個(gè)?

諸葛鳴晨我最向往的研究,是那種真正解決領(lǐng)域公認(rèn)問題、或明確指出新方向的工作——既能攻克當(dāng)下的痛點(diǎn),也能推動(dòng)社區(qū)打開新的討論空間。說實(shí)話,以這個(gè)標(biāo)準(zhǔn)回望,我對(duì)過去幾年自己的工作,都還挺滿意的。

Q10. 在博士階段,目前有沒有錯(cuò)過或者押錯(cuò)的方向?

諸葛鳴晨:最遺憾的,是錯(cuò)過了 AI Scientist 這個(gè)方向。2023 年下半年,我同時(shí)構(gòu)想了 GPTSwarm 和 GPT-Scientist 兩個(gè)方向,也都寫了 Proposal給Jürgen(如下圖是關(guān)于GPT-Scientist的Proposal)。


圖注:諸葛鳴晨關(guān)于GPT-Scientist的Proposal

當(dāng)時(shí)判斷 GPT-Scientist 可能過于超前,可以先緩一緩——要知道,像 Devin 這樣的系統(tǒng)直到次年,也就是 2024 年 3 月才發(fā)布。于是我選擇了自認(rèn)為學(xué)術(shù)貢獻(xiàn)更扎實(shí)的 GPTSwarm 來推進(jìn)。加上我有做完一個(gè)項(xiàng)目后放松一段時(shí)間的習(xí)慣,GPTSwarm 收尾之后就沒能及時(shí)跟上做 GPT-Scientist。后來,Sakana AI 于 2024 年 8 月發(fā)布了《The AI Scientist》,正面命中了我當(dāng)初擱置的那個(gè)方向,一時(shí)間爆火。這個(gè)錯(cuò)過,實(shí)在不應(yīng)該。

04
師從現(xiàn)代AI之父Jürgen Schmidhuber

"他腦子像藏了一部百科全書。"

Q11:在開展這些研究的過程中,您的導(dǎo)師Jürgen Schmidhuber教授給予了哪些具體的指導(dǎo)和支持?是否有某個(gè)關(guān)鍵建議,幫助您突破了研究瓶頸?

諸葛鳴晨在組里氛圍很自由,沒有固定的weekly meeting。不用每周應(yīng)付匯報(bào),我就有更多空間去思考,這對(duì)我?guī)椭艽蟆?/p>


圖注:Jürgen Schmidhuber教授,來源網(wǎng)絡(luò)

具體指導(dǎo)方面,他會(huì)非常詳細(xì)地看我的論文,甚至?xí)驗(yàn)槟尘湓?、某個(gè)詞表述不清楚而給出很強(qiáng)烈的批評(píng)意見。但你跟他交流,他會(huì)告訴你為什么覺得不對(duì),該怎么寫、怎么做可能更好。他不是手把手教你的類型,你帶著問題去問他,他往往能迅速指出關(guān)鍵所在——這源自于他長期的積累,他確實(shí)很博學(xué)。

一個(gè)具體案例:我博一剛?cè)雽W(xué)時(shí),他讓我主導(dǎo)一個(gè)叫 Mindstorm 的項(xiàng)目,當(dāng)時(shí)有20多號(hào)人,有一大部分都是senior PhDs。當(dāng)時(shí)我壓力很大,但他非常支持我。他親自撰寫了那篇論文的 outlook 章節(jié),叫做"Economy of Mind"。那篇 paper 叫做《Mindstorms in Natural Language-Based Societies of Mind》。你想他已經(jīng)60多歲了,還會(huì)親自從文本層面幫你撰寫一整個(gè)章節(jié)。雖然這是他在我整個(gè)博士期間唯一一次親自撰寫一個(gè)章節(jié),但對(duì)于一個(gè)初級(jí)研究者的成長而言,這是非常有幫助的。


圖注:論文Mindstorms in Natural Language-Based Societies of Mind》

那個(gè)章節(jié)也非常超前。他提出智能體的獎(jiǎng)勵(lì)直接等同于“Cash”——就像人類需要薪酬來維持生活,agent 社會(huì)也可能由經(jīng)濟(jì)因素驅(qū)動(dòng)。一些 agent 可能非常“富足”,有自己的“baby”(數(shù)字分身);一些 agent 可能會(huì)“破產(chǎn)”。

他的意思是Agent 也會(huì)有自己的“社會(huì)”,也有自己的經(jīng)濟(jì)行為。在這個(gè)框架下,未來agent 的 reward 不再只是完成任務(wù)后的分?jǐn)?shù)——無論是人類偏好、rubric 得分,還是來自類似于Agent-as-a-Judge 的反饋。未來的 agentic incentive更可能是現(xiàn)實(shí)社會(huì)里的現(xiàn)金激勵(lì),比如美元或歐元,這樣更自然地驅(qū)動(dòng) agent 的長期演化和多主體協(xié)作。

Q12:目前您在Meta AI實(shí)習(xí),這段實(shí)習(xí)經(jīng)歷是否會(huì)影響您未來的研究方向?

諸葛鳴晨最大的影響有兩點(diǎn):一是驗(yàn)證了自己的一些判斷,很多在學(xué)校里不確定的想法,發(fā)現(xiàn)確實(shí)是業(yè)界需要的;二是結(jié)識(shí)了很多優(yōu)秀的研究者,那些更資深的人在交流中也確實(shí)幫助了我。后面兩年Meta和KAUST基本相輔相成,掛靠Meta做research。

Q13Jürgen Schmidhuber教授被譽(yù)為“LSTM之父”“現(xiàn)代人工智能之父”,您曾形容他是“典型的德國學(xué)者,嚴(yán)謹(jǐn)且精益求精”,在日常相處中,有哪些具體的小事,能體現(xiàn)他的這種特質(zhì)?

諸葛鳴晨他性格非常鮮明,有什么就直接說——在某種程度上像個(gè)"老頑童"。外界說他桀驁不馴,但相處下來你又覺得他和藹可親。

但他在論文上非常嚴(yán)厲。論文里某句話不清楚,他會(huì)批評(píng),然后會(huì)告訴你哪些引用需要加上,不只是他自己的工作,他會(huì)列舉 AI 歷史上所有值得尊重的工作,我覺得他腦子像藏了一部百科全書

他很嚴(yán)謹(jǐn),比如他會(huì)說 CNN 其實(shí)是由日本的福島邦彥(Fukushima)貢獻(xiàn)的,不應(yīng)該完全歸功于 LeCun。他不是只為自己伸張。他還寫過一篇 blog 討論到底是誰發(fā)明了飛機(jī),大家公認(rèn)是萊特兄弟,但實(shí)際上萊特兄弟嚴(yán)格來說只是發(fā)明了某種特定形式的飛機(jī),在他們之前的1890年就有工程師做出了“有動(dòng)力的飛行器”,這些人都被忽略了。他用這個(gè)類比來說明 AI 領(lǐng)域也應(yīng)該給每一位做出貢獻(xiàn)的人應(yīng)有的 credit。


來源:https://people.idsia.ch/~juergen/planetruth.html

拋開他之前讓他出名的的很多文章,比如LSTM,現(xiàn)在另一批他的早期個(gè)人研究最近也顯露鋒芒:從 Godel Machine(Recursive Self-Improvement 的早期工作),到 Making the World Differentiable以及World Models(與 David Ha 共同推動(dòng)了World Model的定義和流行),再到 Fast Weight Programmer 以及與 Imanol 合作的 Delta Network(Linear Attention 的重要參考)等等,都在逐步證明他在“大氣層”。

05
Agent的下一個(gè)十年

"人類的適應(yīng)性一定是比agent強(qiáng)的。"

Q14:開源項(xiàng)目在您的研究中占據(jù)重要地位,未來您項(xiàng)目的迭代上,有哪些具體規(guī)劃?是否會(huì)嘗試推動(dòng)這些項(xiàng)目的商業(yè)化落地?

諸葛鳴晨我參與的OpenHands、MetaGPT 等項(xiàng)目,2年前就已經(jīng)由其他主導(dǎo)人推動(dòng)商業(yè)化,而且融資情況也相當(dāng)可觀。相比之下,我過去在學(xué)校或?qū)嵙?xí)中做的項(xiàng)目大多偏學(xué)術(shù),更關(guān)注未來兩三年甚至更長遠(yuǎn)的需求。

但接下來這個(gè)狀態(tài)會(huì)變化。進(jìn)入工業(yè)界后,我會(huì)更多聚焦當(dāng)前半年內(nèi)真正需要解決的問題。目前這一兩年,最終我想做的是一個(gè)“過往項(xiàng)目的集大成者”,把過去幾個(gè)項(xiàng)目的思路整合起來:多智能體協(xié)作、sandbox執(zhí)行、圖優(yōu)化、自動(dòng)評(píng)估等等,設(shè)計(jì)一個(gè)真正可長期運(yùn)行的長程Agent,優(yōu)先落地在automatic engineering場景。同時(shí)會(huì)找找有沒有機(jī)會(huì)自己或者和惺惺相惜的researchers一起推 Completely Neural Computers (完備神經(jīng)計(jì)算機(jī)),我快畢業(yè)了,會(huì)告別paper-oriented research了,接下來的日子,拭目以待吧。

Q15:同樣是Agent領(lǐng)域的研究者,您如何看待Shunyu Yao的《The Second Half》?在您看來,AI的下一步是什么?

諸葛鳴晨他很擅長在關(guān)鍵時(shí)間節(jié)點(diǎn)提出足夠大的問題——ReAct 和《The Second Half》都是這樣,能讓更多研究者聚焦到同一個(gè)方向上來,這本身很有價(jià)值,也是他 research taste 的體現(xiàn)。

但說實(shí)話,把 AI 的“下半場”概括為 evaluation,這個(gè)口徑是偏寬的。好處是足夠包容、易于理解,也確實(shí)能快速形成共識(shí);但代價(jià)是技術(shù)上會(huì)變得模糊——你很難從這個(gè)判斷直接推導(dǎo)出下一步該做什么。

傳統(tǒng) benchmarks 不夠用這一點(diǎn)已經(jīng)是共識(shí)。圍繞這個(gè)問題,社區(qū)確實(shí)在往更貼近真實(shí)世界的方向推進(jìn),比如:

(1)Agent-as-a-Judge,本身就是在補(bǔ)長時(shí)程任務(wù)評(píng)估的空缺。它不只看最終結(jié)果,而是為任務(wù)執(zhí)行過程持續(xù)提供評(píng)估信號(hào);

(2)以arena.ai為代表的Arena類系統(tǒng),提供接近真實(shí)的用戶偏好評(píng)估;

(3)類似OpenRouter的真實(shí)調(diào)用量數(shù)據(jù),在一定程度上反映了市場對(duì)模型實(shí)用性的綜合判斷。


圖注:概念圖

但這些變化,本質(zhì)上還是在改進(jìn)“儀表盤”,而不是重寫“發(fā)動(dòng)機(jī)”。

在我看來,更務(wù)實(shí)的 AI"下半場",關(guān)鍵還是解決兩個(gè)更直接的問題:一是 Recursive Self-Improvement,二是 Neural Computers。前者決定AI如何持續(xù)進(jìn)化,后者決定AI以什么形態(tài)存在。這兩者更直接說明了當(dāng)前大家可能共同面對(duì)的挑戰(zhàn)。

Q16:您剛剛提到的Neural Computers是什么?

諸葛鳴晨:其實(shí)這是我即將公開的一篇論文,提前透露一些思考。

先說它和現(xiàn)有范式的區(qū)別。傳統(tǒng)計(jì)算機(jī)圍繞顯式程序運(yùn)行,Agent圍繞任務(wù)執(zhí)行,World Model圍繞環(huán)境建?!?strong>Neural Computer關(guān)注的是runtime本身:讓系統(tǒng)在運(yùn)行中持續(xù)沉淀能力。Agent是在計(jì)算機(jī)上跑任務(wù),而Neural Computer本身就是那臺(tái)計(jì)算機(jī)。


圖注:概念圖

對(duì)傳統(tǒng)計(jì)算機(jī),你安裝的是軟件;對(duì)Agent,你描述的是任務(wù);對(duì)Neural Computer,你更像是在給機(jī)器安裝能力,并期待這些能力以后繼續(xù)留在機(jī)器里。

這個(gè)工作我去年2月開始探索,去年11月基本做完了,因?yàn)殡s事很多,一直拖到現(xiàn)在,但是應(yīng)該4月前會(huì)發(fā)布。

Q17. 有什么心得,能提前抓住一些熱點(diǎn)?

諸葛鳴晨:我有一套判斷思路,其實(shí)就是反復(fù)自我追問:“當(dāng)前的主流技術(shù)下一波會(huì)在哪里匯聚?”

我覺得這個(gè)思維,可以作為“公式”被所有人復(fù)用:

(1)2020年multimodal還不火的時(shí)候,預(yù)判各類子課題(CV、NLP、RecSys)最終會(huì)匯入Multimodal,快速以身入局;

(2)2022年AI Agents還不火的時(shí)候,預(yù)判Multimodal、LLM等技術(shù)最終會(huì)匯入Agents,快速以身入局;

(3)2025年Neural Computers還不火的時(shí)候,預(yù)判World Model、AI Agents以及傳統(tǒng)計(jì)算機(jī)技術(shù),最終會(huì)匯入Neural Computers,快速以身入局。

每次利用好這一招基本管3年溫飽,但能不能大富大貴看個(gè)人造化。

Q18:最后,結(jié)合當(dāng)前Agent領(lǐng)域的發(fā)展,您對(duì)這個(gè)領(lǐng)域的未來5-10年,有怎樣的期待?AI Agents會(huì)不會(huì)取代人類?

諸葛鳴晨:Agent已經(jīng)基本覆蓋了編程和各類工程師場景,能幫大家實(shí)實(shí)在在地提速。Agent會(huì)從編程擴(kuò)展到所有日常場景。我個(gè)人最期待的,是有一天我睡覺的時(shí)候,它能替我同時(shí)跑實(shí)驗(yàn)和處理各種雜事。

最后想說的是:人類的適應(yīng)力和創(chuàng)造性,始終會(huì)比Agent更強(qiáng)。AI不會(huì)淘汰人,但會(huì)用AI的人,會(huì)淘汰不會(huì)用AI的人。這個(gè)窗口現(xiàn)在還開著:先進(jìn)去的人,已經(jīng)在建立優(yōu)勢(shì)了。

最后,我也想借用我導(dǎo)師Jürgen Schmidhuber在11年前Reddit的回答來替我補(bǔ)充:


來源:https://www.reddit.com/r/MachineLearning/comments/2xcyrl/comment/cp46hxc/

追問:如果Agent持續(xù)普及,以后大家是不是也不用996了?

諸葛鳴晨遺憾的是,996恐怕不會(huì)消失。Agent普及之后,生產(chǎn)力提升,但需求也會(huì)隨之被放大,每個(gè)人的負(fù)擔(dān)未必真的減少。但至少,很多重復(fù)執(zhí)行型工作會(huì)被自動(dòng)化。

由于現(xiàn)在講究Move Fast,996好像難以避免。但72小時(shí)的工作量如果工資到位、做的又是真正有意義的事,其實(shí)沒那么難熬。最難熬的是忙了一整周,最后卻發(fā)現(xiàn),沒有一件事值得。

GPU 訓(xùn)練特惠!

H100/H200 GPU算力按秒計(jì)費(fèi),平均節(jié)省開支30%以上!

掃碼了解詳情?

點(diǎn)「贊」的人都變好看了哦!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
中國第一巨人鮑喜順,不聽醫(yī)生勸拼命生子,17年過去兒子現(xiàn)狀堪憂

中國第一巨人鮑喜順,不聽醫(yī)生勸拼命生子,17年過去兒子現(xiàn)狀堪憂

地理三體說
2026-04-23 22:13:16
美國女游客在印度民宿遭老板下藥,員工趁機(jī)性侵,被限制求救3天

美國女游客在印度民宿遭老板下藥,員工趁機(jī)性侵,被限制求救3天

小魚愛魚樂
2026-04-23 22:07:16
老兵更新動(dòng)態(tài),保安被辭退處境堪憂,老兵一番話讓保安無地自容

老兵更新動(dòng)態(tài),保安被辭退處境堪憂,老兵一番話讓保安無地自容

離離言幾許
2026-04-23 07:41:27
張婉婷疑曾介入高云翔董璇婚姻,懷了對(duì)方的孩子,也太狗血了

張婉婷疑曾介入高云翔董璇婚姻,懷了對(duì)方的孩子,也太狗血了

話娛論影
2026-04-23 09:58:53
99年我在守水庫,遇到一個(gè)道士借宿,他走時(shí)叮囑我,最近先別下山

99年我在守水庫,遇到一個(gè)道士借宿,他走時(shí)叮囑我,最近先別下山

千秋文化
2026-04-20 19:50:05
小米連發(fā)8款新機(jī),真的太猛啊!

小米連發(fā)8款新機(jī),真的太猛啊!

科技堡壘
2026-04-22 09:06:43
2米24的意大利中鋒宣布參選,NBA在賭什么?

2米24的意大利中鋒宣布參選,NBA在賭什么?

賽場速報(bào)局
2026-04-23 05:34:13
狂勝23分!成雷霆最懼怕的對(duì)手,2換1交易大賺,你們真的要沖冠

狂勝23分!成雷霆最懼怕的對(duì)手,2換1交易大賺,你們真的要沖冠

籃球掃地僧
2026-04-24 06:53:02
扮豬吃虎?忍耐四個(gè)月,委代總統(tǒng)撕破偽裝,率幾十萬大軍硬剛美國

扮豬吃虎?忍耐四個(gè)月,委代總統(tǒng)撕破偽裝,率幾十萬大軍硬剛美國

健身狂人
2026-04-23 17:45:54
隨著弗賴堡1-2遭絕殺,德國杯決賽對(duì)陣出爐:德甲霸主PK斯圖加特

隨著弗賴堡1-2遭絕殺,德國杯決賽對(duì)陣出爐:德甲霸主PK斯圖加特

側(cè)身凌空斬
2026-04-24 05:30:17
老外剛造出巴掌帽,義烏當(dāng)天量產(chǎn)十萬單,國內(nèi)外售價(jià)相差整整10倍

老外剛造出巴掌帽,義烏當(dāng)天量產(chǎn)十萬單,國內(nèi)外售價(jià)相差整整10倍

趣味萌寵的日常
2026-04-23 18:31:49
官宣!切爾西換帥,劍指冠軍,傳奇中場剛剛奪冠,有望三度回歸

官宣!切爾西換帥,劍指冠軍,傳奇中場剛剛奪冠,有望三度回歸

嗨皮看球
2026-04-23 11:12:37
伊朗政權(quán)變天了!

伊朗政權(quán)變天了!

阿振觀點(diǎn)
2026-04-24 00:20:51
全國理發(fā)店陷入倒閉潮,并不是因?yàn)槿鳖櫩停亲约喊炎约焊憧辶?>
    </a>
        <h3>
      <a href=江山此夜季
2026-04-24 02:12:07
蛇吞象?生產(chǎn)殲-20的中國軍工巨頭174億就被收購了,用意耐人尋味

蛇吞象?生產(chǎn)殲-20的中國軍工巨頭174億就被收購了,用意耐人尋味

趣文說娛
2026-04-23 19:52:36
大一女生泰國參加潑水節(jié)被賣到緬甸電詐園區(qū),家屬稱園區(qū)已同意放人,正協(xié)商時(shí)間地點(diǎn);與閨蜜聊天記錄曝光:和多人一起被控制,沒睡覺進(jìn)食

大一女生泰國參加潑水節(jié)被賣到緬甸電詐園區(qū),家屬稱園區(qū)已同意放人,正協(xié)商時(shí)間地點(diǎn);與閨蜜聊天記錄曝光:和多人一起被控制,沒睡覺進(jìn)食

極目新聞
2026-04-23 15:05:28
遼寧莊河回應(yīng)“8歲男童爬山發(fā)現(xiàn)金礦線索”:當(dāng)?shù)匾讶Χ?00多處礦化點(diǎn),事發(fā)地也有成金礦可能

遼寧莊河回應(yīng)“8歲男童爬山發(fā)現(xiàn)金礦線索”:當(dāng)?shù)匾讶Χ?00多處礦化點(diǎn),事發(fā)地也有成金礦可能

極目新聞
2026-04-23 10:00:21
臺(tái)當(dāng)局猛然發(fā)現(xiàn),賴清德或許再也不能離臺(tái)了,美上將給他出一主意

臺(tái)當(dāng)局猛然發(fā)現(xiàn),賴清德或許再也不能離臺(tái)了,美上將給他出一主意

今墨緣
2026-04-24 01:37:04
一家旅行社連續(xù)3年中標(biāo),研學(xué)“婆羅門”何時(shí)休?

一家旅行社連續(xù)3年中標(biāo),研學(xué)“婆羅門”何時(shí)休?

環(huán)球旅訊
2026-04-23 08:08:14
南方航空:經(jīng)核實(shí),涉事人員非我司“空姐”

南方航空:經(jīng)核實(shí),涉事人員非我司“空姐”

澎湃新聞
2026-04-23 14:53:08
2026-04-24 07:27:00
大數(shù)據(jù)文摘 incentive-icons
大數(shù)據(jù)文摘
專注大數(shù)據(jù),每日有分享!
6852文章數(shù) 94541關(guān)注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產(chǎn)品",但量產(chǎn)難預(yù)測

頭條要聞

特朗普:不急于結(jié)束與伊朗戰(zhàn)爭 可伊朗沒時(shí)間了

頭條要聞

特朗普:不急于結(jié)束與伊朗戰(zhàn)爭 可伊朗沒時(shí)間了

體育要聞

給文班剃頭的馬刺DJ,成為NBA最佳第六人

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財(cái)經(jīng)要聞

普華永道賠償10億 恒大股東見到"回頭錢"

汽車要聞

預(yù)售30.29萬起 嵐圖泰山X8配896線激光雷達(dá)

態(tài)度原創(chuàng)

教育
時(shí)尚
本地
健康
房產(chǎn)

教育要聞

家長要電子試卷被說派頭大?天津這起家校誤會(huì),沒有真正的贏家!

李昀銳:林深見木

本地新聞

SAGA GIRLS 2026女團(tuán)選秀

干細(xì)胞如何讓燒燙傷皮膚"再生"?

房產(chǎn)要聞

三亞安居房,突然官宣!

無障礙瀏覽 進(jìn)入關(guān)懷版