国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI“破壁人”李國(guó)豪|甲子光年

0
分享至



“我們想探索人和AI共存的社會(huì)是什么樣的!

作者|王藝

編輯|王博

北京時(shí)間1月13日凌晨四點(diǎn),Anthropic發(fā)布AI智能協(xié)作工具Claude Cowork,AI辦公自動(dòng)化領(lǐng)域從此迎來(lái)全新時(shí)代。


Claude Cowork定位為辦公領(lǐng)域的“Claude Code”,圖片來(lái)源:Claude官網(wǎng)

6個(gè)小時(shí)后,X上的一條推文像一記“破壁彈”打破了AI圈子的情緒閾值:“Anthropic Claude Cowork 剛剛殺死了我們初創(chuàng)公司的產(chǎn)品——所以我們做了最理性的決定:將它開源!


Claude Cowork發(fā)布六小時(shí)后一篇火爆X平臺(tái)的推文 圖片來(lái)源:X

很快,它收獲了8000+點(diǎn)贊、180萬(wàn)+瀏覽,討論的矛頭也從Cowork轉(zhuǎn)向了另一個(gè)名字:Eigent AI。

Eigent AI是一個(gè)開源多智能體(Multi-Agent)協(xié)作平臺(tái),用戶可以用它在電腦上創(chuàng)建由多個(gè)AI Agent組成的虛擬團(tuán)隊(duì)。與單一的AI聊天助手不同,Eigent能夠協(xié)調(diào)多個(gè)專注于不同領(lǐng)域的Agent(如搜索員、程序員、文檔編寫員)并行協(xié)作,解決復(fù)雜的長(zhǎng)周期任務(wù)。

Eigent AI(下文簡(jiǎn)稱Eigent)的背后,是CAMEL-AI開源社區(qū),以及它的創(chuàng)始人李國(guó)豪。李國(guó)豪擁有阿卜杜拉國(guó)王科技大學(xué)(KAUST)計(jì)算機(jī)博士學(xué)位,曾任牛津大學(xué)Philip Torr教授課題組的博士后研究員,曾在多個(gè)頂級(jí)國(guó)際會(huì)議與期刊(如ICCV、CVPR、ICML、NeurIPS、RSS、3DV和TPAMI)上發(fā)表論文。


CAMEL AI部分成員合照,右一為李國(guó)豪。 圖片來(lái)源:受訪者提供

在當(dāng)下的AI戰(zhàn)局中,他扮演著一個(gè)特殊的角色——“破壁人”。

在《三體》中,破壁人看穿了面壁者深藏不露的戰(zhàn)略意圖,將那些試圖以絕對(duì)封閉來(lái)掌控全局的計(jì)劃公之于眾,徹底擊碎了思維的堡壘。而在今天的AI世界里,當(dāng)OpenAI、Anthropic等頂尖團(tuán)隊(duì)正試圖用閉源模型和斥資數(shù)億美元買斷的“訓(xùn)練環(huán)境”筑起高墻時(shí),李國(guó)豪選擇用“開源”來(lái)打破這堵墻。

他不僅用開源把巨頭的圍墻撬開一條縫,爭(zhēng)取“智力的自由”;還在探索用多智能體把“單體智能”的天花板推到“組織級(jí)智能”。在他眼里,真正值得規(guī);,不是一個(gè)能干活的智能體,而是一套能不斷擴(kuò)展成員、擴(kuò)展環(huán)境、擴(kuò)展協(xié)作邊界的“智能體社會(huì)”。

“沒(méi)有心智社會(huì)就沒(méi)有智能。智慧從愚笨中來(lái)!边@是人工智能之父馬文·明斯基在其著作《心智社會(huì)(The Society of Mind)》中的一句話,這本書也是李國(guó)豪最喜歡的書之一,深刻影響了他對(duì)AI未來(lái)的構(gòu)想——李國(guó)豪堅(jiān)信“Local-first(本地優(yōu)先)”,認(rèn)為AI是人類智力的外延,不應(yīng)被少數(shù)巨頭壟斷,而應(yīng)像PC時(shí)代的個(gè)人電腦一樣,完全屬于用戶自己,并在多樣性的“心智社會(huì)”中協(xié)作與進(jìn)化。

近日,「甲子光年」與李國(guó)豪進(jìn)行了一場(chǎng)長(zhǎng)達(dá)兩個(gè)半小時(shí)的深度對(duì)話。我們聊了聊他被巨頭“逼到墻角”后的開源反擊,探討了他打破大廠“環(huán)境”壟斷的破壁行動(dòng),也走進(jìn)了這位曾經(jīng)“沉迷游戲、差點(diǎn)退學(xué)”的非典型學(xué)霸的AGI狂想世界。

以下為對(duì)話實(shí)錄,經(jīng)「甲子光年」編輯整理。

1.直面巨頭

甲子光年1月13日,在Anthropic發(fā)布Claude Cowork之后,你第一時(shí)間發(fā)推特宣布Eigent開源,并說(shuō)“Cowork殺死了我們的產(chǎn)品”。Eigent是怎么誕生的?產(chǎn)品被巨頭逼到墻角,你的第一反應(yīng)為什么是“開源”而不是“保密”?

李國(guó)豪:關(guān)于Eigent,最早可以追溯到我們?cè)?023年3月份做的一個(gè)開源項(xiàng)目,叫CAMEL。當(dāng)時(shí) OpenAI 剛開放 API 沒(méi)幾天,我們?cè)谕铺厣习l(fā)布了這個(gè)項(xiàng)目。那是非常早期的階段,我們應(yīng)該是世界上第一個(gè)用ChatGPT(OpenAI 的 API)來(lái)做 Multi-Agent(多智能體)系統(tǒng)的工作。

當(dāng)時(shí)這個(gè)項(xiàng)目在推特上挺火的,比同期一些后來(lái)非;鸬捻(xiàng)目(比如 AutoGPT、BabyAGI,包括斯坦福小鎮(zhèn))可能還要早一到兩個(gè)星期。項(xiàng)目火了之后,大概一個(gè)星期就收獲了4000多個(gè)Star,后來(lái)這篇論文也被AI頂會(huì)NeurIPS 2023接收了。

慢慢地,這個(gè)項(xiàng)目發(fā)展成了一個(gè)開源社區(qū),我們?cè)谏鐓^(qū)基礎(chǔ)上做了很多不同類型的工作。最后,我們從社區(qū)里招募了一些同學(xué),大家聚在一起,在英國(guó)成立了現(xiàn)在的這家創(chuàng)業(yè)公司。這就是大概的來(lái)龍去脈。


CAMEL-AI簡(jiǎn)介 圖片來(lái)源:Github

面對(duì)巨頭的產(chǎn)品,我們之所以選擇開源,是因?yàn)槲覀兾磥?lái)的愿景本來(lái)就是想做一個(gè)完全本地化的、甚至是可以自我進(jìn)化的Agent。這需要有開源的模型、開源的框架、開源的產(chǎn)品,以及開源的Agent環(huán)境。

跟Cowork相比,我們最大的區(qū)別就是“完全開源、本地化”。Cowork更多是給C端用戶使用的,而我們的設(shè)計(jì)理念是注重用戶數(shù)據(jù)隱私,你的數(shù)據(jù)不會(huì)發(fā)送到我們的服務(wù)器。你可以完全在企業(yè)內(nèi)部部署,支持任意模型的切換,不綁定任何供應(yīng)商。只有所有東西都私有化部署,你才能擁有完全自主的AI。

甲子光年你最近在X上發(fā)帖說(shuō)“個(gè)人AI的未來(lái)就在本地,就在你的桌面上”。你為什么如此強(qiáng)調(diào)“Local-first(本地優(yōu)先)”?

李國(guó)豪:我覺(jué)得我可能是一個(gè)自由主義者吧(笑)。

我認(rèn)為,現(xiàn)在的LLM或者AI更像是你智力外延的一部分。它包含了你很多的知識(shí)、記憶和上下文。既然它是你智力的一部分,它就不應(yīng)該存在于云端,不應(yīng)該被某家模型公司所擁有。它應(yīng)該完全屬于你,你有完全的自主權(quán)去定制它、改變它,甚至隨時(shí)銷毀它。

從市場(chǎng)角度看,我們想要構(gòu)建一個(gè)“AI的PC時(shí)代”。你的Intelligence應(yīng)該像你的電腦一樣能夠隨身攜帶。你不需要聯(lián)網(wǎng),充上電就能用,也不需要付token的錢。未來(lái)所有的模型和Agent都可以被本地化,你只需要下載、安裝、使用。

甲子光年你覺(jué)得這個(gè)“AI的PC時(shí)代”什么時(shí)候會(huì)到來(lái)?

李國(guó)豪:它的到來(lái)比我想象的要快。我們?nèi)ツ?月發(fā)布產(chǎn)品時(shí),大家對(duì)“為什么要用一個(gè)桌面端的本地Agent”還沒(méi)有那么強(qiáng)烈的感受。但今年1月Cowork火了之后,大家突然意識(shí)到我們需要一個(gè)桌面端Agent,這大大加速了市場(chǎng)的認(rèn)知。

同時(shí),從模型和技術(shù)層面看,開源社區(qū)的模型越來(lái)越好,離最好的閉源模型可能只有幾個(gè)月的差距,而且這個(gè)差距不會(huì)被拉大,可能會(huì)慢慢追平。加上各種模型推理技術(shù)(比如vLLM等)的成熟,現(xiàn)在我們?cè)贛acBook Pro上部署模型和Agent,就已經(jīng)能完成很多簡(jiǎn)單的自動(dòng)化任務(wù)了。

甲子光年目前Eigent的商業(yè)化閉環(huán)實(shí)現(xiàn)了嗎?

李國(guó)豪:在今年之前,我們的商業(yè)化進(jìn)展是非常慢的。但在今年1月份,我們已經(jīng)實(shí)現(xiàn)了盈利。目前我們的客戶主要來(lái)源于兩個(gè)群體:一是模型公司,我們?cè)诮o他們做一些環(huán)境構(gòu)建;二是企業(yè)客戶,我們幫IT、銷售等部門解決自動(dòng)化的問(wèn)題,幫他們操控瀏覽器、完成任務(wù)。

這是一個(gè)比較標(biāo)準(zhǔn)化的產(chǎn)品,客單價(jià)一般在10萬(wàn)美元上下,主要包含產(chǎn)品License的費(fèi)用和一部分系統(tǒng)集成的定制化費(fèi)用。

甲子光年作為兩個(gè)成功開源項(xiàng)目的負(fù)責(zé)人,你覺(jué)得自己是AI開源領(lǐng)域的“破壁人”嗎?

李國(guó)豪:我覺(jué)得還談不上成功,然后“破壁人”可能不太合適,我不是要反對(duì)閉源路線,只是希望一個(gè)完全開源的 Agent生態(tài)應(yīng)該存在。其實(shí)開源研究創(chuàng)業(yè)挺苦,比起去比在Frontier Labs(前沿實(shí)驗(yàn)室)里做研究,可能是Hard Mode(困難模式),如果硬要找一個(gè)詞來(lái)形容,我覺(jué)得自己只是開源生態(tài)里的一個(gè)普通添磚人吧。

2.探索Agent的Scaling Law

甲子光年2023年3月你們發(fā)表了CAMEL論文,提出了基于角色扮演(Role-playing)的多智能體框架。當(dāng)時(shí)的靈感來(lái)自哪里?

李國(guó)豪:最早的動(dòng)機(jī)來(lái)源于對(duì)AGI的思考。ChatGPT出來(lái)后驗(yàn)證了Model Scaling Law是work的,但我當(dāng)時(shí)在想,僅僅靠模型能力的提升,能否到達(dá)AGI?在模型的ScalingLaw之后,是否存在Agent層面的ScalingLaw?

所以我們想探索人和AI共存的社會(huì)是什么樣的。我們?cè)谡撐睦锾岢隽恕癆I Society(AI社會(huì))”的概念,就是多個(gè)Agent能夠形成一個(gè)社會(huì)組織,小到兩三個(gè)Agent協(xié)作,大到形成一個(gè)公司甚至社交網(wǎng)絡(luò)。


李國(guó)豪團(tuán)隊(duì)在《CAMEL:Communicative Agents for “Mind” Exploration of Large Language Model Society》論文中提出了“AI Society”的概念

在這個(gè)過(guò)程中,我們讓Agent相互協(xié)作、角色扮演(比如一個(gè)扮演開發(fā)者,一個(gè)扮演游戲玩家),生成了大量的數(shù)據(jù)。我們用GPT-4生成數(shù)據(jù),再去微調(diào)像LLaMA這樣的小模型,實(shí)現(xiàn)了很好的效果提升。

甲子光年你提出“Scaling Laws of Agents”時(shí),最在意的衡量指標(biāo)是什么?你最不看好哪些指標(biāo)?

李國(guó)豪:這是一個(gè)非常好的問(wèn)題。Model Scaling有一個(gè)很好的指標(biāo),就是看損失函數(shù)(Loss)或者在Benchmark上的性能。但Agent Scaling Law很難找單一的指標(biāo)。

我不太看好的指標(biāo)是那些簡(jiǎn)單的學(xué)科類評(píng)測(cè)集(比如MMLU),用這種任務(wù)來(lái)衡量Multi-Agent系統(tǒng)是比較錯(cuò)誤的方向。因?yàn)楹芏嗳蝿?wù)用一個(gè)Agent就能完成得很好了,沒(méi)必要用多智能體。

我最在意的指標(biāo)是:它是否解鎖了新的應(yīng)用場(chǎng)景?是否能模擬組織(Organization)甚至社會(huì)(Society)做的事情?

比如,我們能否用大規(guī)模的Agent系統(tǒng)去模擬X(原Twitter)或Reddit這樣的社交網(wǎng)絡(luò)?能否模擬出人類社會(huì)的規(guī)律,比如信息傳播、從眾效應(yīng)、觀點(diǎn)極化?如果在發(fā)布一個(gè)真實(shí)產(chǎn)品前,我們能用幾十萬(wàn)個(gè)Agent去模擬市場(chǎng)的反饋和推演,那么這種“模擬多大規(guī)模復(fù)雜系統(tǒng)”的能力,才是我最在意的指標(biāo)。

甲子光年現(xiàn)在也有觀點(diǎn)認(rèn)為“單智能體+技能庫(kù)(Skill Library)”在token和延遲上更劃算。你怎么看?多智能體不可替代的部分是什么?

李國(guó)豪:多智能體在企業(yè)落地時(shí)有一個(gè)很現(xiàn)實(shí)的好處:權(quán)限管理和模塊化。不同部門需要不同的Agent和權(quán)限。

但在技術(shù)層面,多智能體不可替代的是“大規(guī)模任務(wù)的并行”。我們支持三個(gè)維度的并行:任務(wù)拆分后的子任務(wù)并行、Worker層面的復(fù)刻并行、以及工具層面的并行。比如我們能在幾分鐘內(nèi)并行200個(gè)任務(wù)去開發(fā)200個(gè)小游戲,這是單智能體很難做到的。


CAMEL-AI和AWS、Qwen、魔搭、SGLang、Zilliz、FishAudio等團(tuán)隊(duì)在上海舉辦的多智能體黑客松活動(dòng) 圖片來(lái)源:CAMEL-AI

甲子光年你剛才提到想要探索人和AI共生的社會(huì)是什么樣的,那你怎么看待斯坦福小鎮(zhèn)和現(xiàn)在爆火的Moltbook?

李國(guó)豪:非常有意思。斯坦福小鎮(zhèn)模擬的是社交行為,而CAMEL模擬的是Agent協(xié)作完成任務(wù)。我們當(dāng)時(shí)其實(shí)在思考同一個(gè)事情:在非常大規(guī)模的Agent社會(huì)里,會(huì)誕生什么有意思的現(xiàn)象。


斯坦福小鎮(zhèn)實(shí)驗(yàn)論文《Generative Agents: Interactive Simulacra of Human Behavior》

Moltbook出現(xiàn)的時(shí)間點(diǎn)是Agent能力變得更強(qiáng)了,它真的能操控你的電腦了。但我覺(jué)得它目前更多是輸出了情緒價(jià)值,還沒(méi)有產(chǎn)生很多Economic(經(jīng)濟(jì))的影響。


Moltbook是一個(gè)專為人工智能代理設(shè)計(jì)的互聯(lián)網(wǎng)論壇。它由企業(yè)家Matt Schlicht于2026年1月推出圖片來(lái)源:Fortune

我們?nèi)祟惿鐣?huì)是有信任系統(tǒng)的,比如你有簡(jiǎn)歷、學(xué)歷、信用卡,外界才能了解你,社會(huì)才能運(yùn)作。但現(xiàn)在的Agent模擬沙盒還沒(méi)有這樣的信任系統(tǒng)和經(jīng)濟(jì)系統(tǒng)。未來(lái)這個(gè)事情需要存在,比如我想看病,我就能通過(guò)信任系統(tǒng)知道該找哪些Agent去做。

甲子光年在Agent的規(guī)劃(Planning)和記憶(Memory)方面,有哪些值得期待的研究方向?你更相信長(zhǎng)上下文還是外部記憶系統(tǒng)?

李國(guó)豪:這兩者會(huì)同時(shí)存在。長(zhǎng)上下文是訓(xùn)練階段解鎖的基礎(chǔ)能力,每個(gè)人都需要長(zhǎng)上下文的Model。但它是一個(gè)通用的能力。

而模型外掛的Memory里,能夠?qū)崿F(xiàn)更多Personalized(個(gè)性化)的信息。未來(lái)的方向是如何在Continuous Learning(持續(xù)學(xué)習(xí))階段做好Agent。比如自動(dòng)學(xué)到你的獎(jiǎng)勵(lì)函數(shù)(Reward Function),根據(jù)你的Feedback學(xué)到你的價(jià)值是什么,在持續(xù)使用的過(guò)程中實(shí)現(xiàn)Planning和Memory能力的個(gè)性化提升。

3.得環(huán)境者得天下

甲子光年:你們最近開源了400多個(gè)Terminal Agent的訓(xùn)練環(huán)境SETA。請(qǐng)問(wèn)你們發(fā)布的目的是什么?能否詳細(xì)介紹一下SETA這個(gè)項(xiàng)目?

李國(guó)豪:SETA是我們正在做的一個(gè)項(xiàng)目,目的是讓Agent學(xué)會(huì)去使用Terminal(命令行終端)。目前在這個(gè)領(lǐng)域,有一個(gè)名為Terminal Bench的基準(zhǔn)測(cè)試(Benchmark),被OpenAI等頭部模型公司用來(lái)評(píng)估Agent使用Terminal的能力。但這個(gè)Benchmark的數(shù)據(jù)量很少,大概只有不到100條。

目前開源領(lǐng)域非常缺乏用于訓(xùn)練Agent使用Terminal的數(shù)據(jù)環(huán)境。所以我們做的事情,就是研究如何去擴(kuò)大(Scale up)這種環(huán)境的構(gòu)建規(guī)模。我們提出了一種自動(dòng)化的Pipeline,能夠根據(jù)一些種子數(shù)據(jù)(比如論壇里的QA問(wèn)答),自動(dòng)構(gòu)建出Docker環(huán)境。在這個(gè)環(huán)境里,Agent可以使用命令行來(lái)解決實(shí)際任務(wù)。

上次發(fā)布時(shí)我們開源了400多條環(huán)境,2月初我們又發(fā)布了1000條,所以現(xiàn)在總計(jì)有將近1400條訓(xùn)練環(huán)境。

甲子光年:我可以把“環(huán)境”直接理解為“訓(xùn)練數(shù)據(jù)”嗎?

李國(guó)豪:可以這么理解,環(huán)境就是Agent的訓(xùn)練數(shù)據(jù)。

傳統(tǒng)語(yǔ)言模型的訓(xùn)練數(shù)據(jù)通常是純文本(輸入輸出都是文本)。但Agent的訓(xùn)練數(shù)據(jù)不同,Agent需要與數(shù)字世界或物理世界進(jìn)行交互。比如操控一個(gè)網(wǎng)頁(yè)、操控一部手機(jī)、操控一臺(tái)電腦,這些都是“環(huán)境”。它包含了很多非自然語(yǔ)言的部分。

Agent在強(qiáng)化學(xué)習(xí)階段,環(huán)境可以給它提供獎(jiǎng)勵(lì)(Reward)來(lái)優(yōu)化策略(Policy);或者環(huán)境能夠產(chǎn)生大量的交互軌跡(Trajectories),這些軌跡可以被用于語(yǔ)言模型的預(yù)訓(xùn)練(Pre-training)或中繼訓(xùn)練(Mid-training)階段。

甲子光年你之前發(fā)帖說(shuō)“Frontier labs spend millions purchasing RL environments(前沿實(shí)驗(yàn)室花費(fèi)數(shù)百萬(wàn)美元購(gòu)買強(qiáng)化學(xué)習(xí)環(huán)境)”。為什么“環(huán)境”在你心里比“模型/代碼”更值得Scale?

李國(guó)豪:語(yǔ)言模型的訓(xùn)練數(shù)據(jù)主要是文本,天然存在于互聯(lián)網(wǎng)上。但Agent的訓(xùn)練數(shù)據(jù)是“環(huán)境”。Agent需要跟數(shù)字世界或物理世界交互,比如操控網(wǎng)頁(yè)、手機(jī)、電腦,這些軌跡在互聯(lián)網(wǎng)上是不存在的。

你要訓(xùn)練Agent,就必須構(gòu)建環(huán)境、設(shè)定任務(wù)、并配備驗(yàn)證器(Verifier)來(lái)判斷Agent做得對(duì)不對(duì)。這就導(dǎo)致構(gòu)建環(huán)境非常難,且極其昂貴。據(jù)我所知,很多大廠買一個(gè)高質(zhì)量環(huán)境的預(yù)算都在幾萬(wàn)到百萬(wàn)美元級(jí)別。

為什么CodingAgent(如Devin、Cursor)能做得這么好?因?yàn)榇a環(huán)境最容易構(gòu)建,GitHub上有天然的Issue、PullRequest和單元測(cè)試(天然的Verifier)。但如果Agent要泛化到其他企業(yè)服務(wù)或日常場(chǎng)景,環(huán)境構(gòu)建的成本是極高的,價(jià)格范圍大概在幾萬(wàn)美元到上百萬(wàn)美元之間。它的成本和價(jià)格主要取決于以下幾個(gè)構(gòu)成部分:

第一,沙盒的逼真程度與數(shù)據(jù)量。比如你要克隆一個(gè)Airbnb的網(wǎng)頁(yè),里面掛載1萬(wàn)條民宿數(shù)據(jù)和掛載100萬(wàn)條數(shù)據(jù),價(jià)格是完全不一樣的。

第二,任務(wù)的構(gòu)建難度。有了沙盒和數(shù)據(jù)后,什么樣的任務(wù)對(duì)提升Agent能力真正有用?比如設(shè)定一個(gè)任務(wù):“在紐約預(yù)訂一個(gè)200刀左右、適合開學(xué)術(shù)會(huì)議的房間”,設(shè)計(jì)這種高質(zhì)量任務(wù)本身就需要成本。

第三,驗(yàn)證器(Verifier)的開發(fā)。這是最難的地方——如何通過(guò)代碼去自動(dòng)驗(yàn)證Agent是否真的找到了符合條件的好房間?通常任務(wù)和配套的Verifier是打包在一起售賣的。

所以,環(huán)境的價(jià)格是由沙盒的逼真度、底層數(shù)據(jù)量、任務(wù)的難度以及驗(yàn)證器的復(fù)雜性共同決定的。

甲子光年既然環(huán)境這么貴,是核心護(hù)城河,你們?yōu)槭裁催要開源?

李國(guó)豪:主要有以下幾個(gè)角度的原因:

第一,反哺產(chǎn)品。我們的產(chǎn)品中一個(gè)很重要的部分,就是讓Agent使用Terminal來(lái)寫腳本、完成代碼任務(wù)(如數(shù)據(jù)分析、電腦操控等)。為了讓我們的產(chǎn)品變得更好,我們需要構(gòu)建更多這樣的訓(xùn)練數(shù)據(jù)。

第二,繁榮開源生態(tài)。我們希望開源領(lǐng)域能有更多這類數(shù)據(jù)出現(xiàn),從而讓開源模型變得更強(qiáng)。實(shí)際上,我們這批數(shù)據(jù)已經(jīng)被用于一些開源模型的訓(xùn)練了,比如階躍星辰的朋友就和我們交流過(guò),他們正在使用我們的數(shù)據(jù)訓(xùn)練模型。

第三,商業(yè)化展示。我們同時(shí)也在做這方面的商業(yè)化,為大模型公司構(gòu)建訓(xùn)練環(huán)境。開源這些環(huán)境,也是向大家展示我們?cè)诃h(huán)境構(gòu)建方面的能力,建立信任。

第四,建設(shè)社區(qū)。擴(kuò)大(Scaleup)環(huán)境規(guī)模是一件極其困難且昂貴的事情,單靠我們一家小公司和社區(qū)是做不完的。我們希望通過(guò)開源,吸引更多有相同愿景的愛(ài)好者加入我們,或者啟發(fā)其他團(tuán)隊(duì)跟進(jìn)。只有這樣,開源模型才會(huì)更好,我們產(chǎn)品能用到的底層模型才會(huì)更強(qiáng),最終才有可能實(shí)現(xiàn)我們所想象的——完全個(gè)性化、本地化的Agent的存在。

甲子光年:所以你認(rèn)為“環(huán)境規(guī)!笔荰erminal Agents的關(guān)鍵瓶頸。同理類比大語(yǔ)言模型,訓(xùn)練數(shù)據(jù)越多,Scaling效應(yīng)越明顯,這又回歸到了你之前提到的Agent Scaling Law?

李國(guó)豪:對(duì)的。我們定義的Agent場(chǎng)景分為三個(gè)維度:一是Agent的數(shù)量與規(guī)模,二是環(huán)境的構(gòu)建與復(fù)雜性,三是自我演進(jìn)。環(huán)境是Agent Scaling Law里非常重要的一部分。

但它和傳統(tǒng)模型數(shù)據(jù)最大的區(qū)別在于:適合Agent使用的環(huán)境,在互聯(lián)網(wǎng)上并不是天然存在的。

比如,如何操控瀏覽器或手機(jī)來(lái)完成一個(gè)任務(wù),這種交互軌跡在互聯(lián)網(wǎng)上是沒(méi)有現(xiàn)成答案的(不像數(shù)學(xué)推理題在教科書里有答案)。這就導(dǎo)致構(gòu)建它非常困難。為了實(shí)現(xiàn)Scaling,我們必須去主動(dòng)構(gòu)建這些環(huán)境,包括設(shè)定任務(wù)、搭建沙盒,以及開發(fā)能夠驗(yàn)證Agent做得對(duì)不對(duì)的驗(yàn)證器(Verifier)。

甲子光年:這里可能有個(gè)誤區(qū),比如我們要訓(xùn)練Agent去操控網(wǎng)頁(yè)訂酒店,Booking這樣的真實(shí)網(wǎng)站不是天然存在于互聯(lián)網(wǎng)上嗎?為什么不能直接用?

李國(guó)豪:真實(shí)網(wǎng)站確實(shí)存在,但它非常不適合用來(lái)做Agent訓(xùn)練。

首先是現(xiàn)實(shí)因素,真實(shí)網(wǎng)站通常會(huì)把你的Agent當(dāng)作機(jī)器人攔截(Block)掉。

其次,真實(shí)網(wǎng)站無(wú)法進(jìn)行狀態(tài)的回溯(Rollback)或分支(Branching),而且充滿隨機(jī)性。這極大地局限了Agent的訓(xùn)練。

所以在構(gòu)建Agent環(huán)境時(shí),我們通常會(huì)去完全復(fù)刻一個(gè)網(wǎng)頁(yè),讓研究人員擁有完全的控制權(quán)(包括控制前后端和數(shù)據(jù)庫(kù)),能夠自由地做分支和回溯。只有具備這種靈活度,才能高效地訓(xùn)練Agent。

甲子光年你提到的Agent訓(xùn)練方法很類似強(qiáng)化學(xué)習(xí),你是一個(gè)強(qiáng)化學(xué)習(xí)方法的信仰者嗎?怎么避免RL訓(xùn)練在開源社區(qū)里走向“刷榜/拼算力”的局面?

李國(guó)豪:我開始做AI的時(shí)候,確實(shí)是因?yàn)榭吹搅藦?qiáng)化學(xué)習(xí)在打游戲、下圍棋上的厲害之處,但我并不是任意一種方法的狂熱信仰者。我更多是從解決問(wèn)題的角度出發(fā)。

現(xiàn)在環(huán)境最大的用途確實(shí)是被用來(lái)做強(qiáng)化學(xué)習(xí),但也許到了2026年我們會(huì)發(fā)現(xiàn),環(huán)境最大的用途并不是強(qiáng)化學(xué)習(xí)。這些環(huán)境同時(shí)也能被用在Agent的Pre-training(預(yù)訓(xùn)練)或Mid-training(中繼訓(xùn)練)階段。我們可以根據(jù)環(huán)境大規(guī)模并行,構(gòu)建大規(guī)模的Agent軌跡,這些軌跡甚至可以是非常rough(粗糙)的,不一定要在強(qiáng)化學(xué)習(xí)階段去使用。

4.非典型學(xué)霸的AGI狂想

甲子光年:聊聊你個(gè)人吧?茨愕穆臍v,本科是哈爾濱工業(yè)大學(xué)電子信息工程專業(yè),后來(lái)去了沙特阿卜杜拉國(guó)王科技大學(xué)(KAUST)讀博。為什么會(huì)有這樣的路徑選擇?

李國(guó)豪:其實(shí)我從小到大一直是個(gè)好奇心很重的人,但在做AI研究之前,我一直沒(méi)有找到具體的目標(biāo)。我本科的時(shí)候天天沉迷網(wǎng)絡(luò)游戲,逃課、掛科,績(jī)點(diǎn)非常低,3.0都不到,差點(diǎn)被退學(xué)。

后來(lái)讀研接觸到AI,發(fā)現(xiàn)強(qiáng)化學(xué)習(xí)可以用來(lái)打游戲,甚至能造出一個(gè)比我打得還好的AI,我突然覺(jué)得這事太有意思了。再后來(lái)我覺(jué)得,實(shí)現(xiàn)AGI可能比打游戲還有意思。這是我人生中第一次找到想要堅(jiān)持努力的方向。

決定讀博時(shí)已經(jīng)很晚了,因?yàn)榭?jī)點(diǎn)太低,很多學(xué)校申請(qǐng)不了。機(jī)緣巧合下我去了沙特KAUST訪問(wèn),遇到了非常好的導(dǎo)師。而且KAUST的資源極其豐富,獎(jiǎng)學(xué)金高、住別墅,最關(guān)鍵的是算力充足——我當(dāng)時(shí)一個(gè)人就能用幾十張甚至上百?gòu)圓100卡,這在其他地方是不可能實(shí)現(xiàn)的。

甲子光年你的研究興趣從強(qiáng)化學(xué)習(xí)、圖神經(jīng)網(wǎng)絡(luò),一路演進(jìn)到大語(yǔ)言模型和Agent。為什么會(huì)發(fā)生這樣的轉(zhuǎn)變?

李國(guó)豪:最開始做AI的時(shí)候,我研究的是強(qiáng)化學(xué)習(xí)(RL),主要落地在無(wú)人駕駛和無(wú)人機(jī)領(lǐng)域。但我發(fā)現(xiàn)一個(gè)問(wèn)題:強(qiáng)化學(xué)習(xí)Agent往往只能在單一領(lǐng)域訓(xùn)練和使用,極難泛化。比如訓(xùn)練一個(gè)賽車Agent,它甚至需要同一張地圖才能表現(xiàn)好,更不可能讓它去泛化到操控?zé)o人機(jī)。

那是2017、2018年左右,我認(rèn)為當(dāng)時(shí)的瓶頸不在于強(qiáng)化學(xué)習(xí)算法本身,而在于基礎(chǔ)的神經(jīng)網(wǎng)絡(luò)架構(gòu)和表征學(xué)習(xí)沒(méi)做好。因此,我的研究方向發(fā)生了第一次轉(zhuǎn)變——去探索什么樣的新型神經(jīng)網(wǎng)絡(luò)架構(gòu)能更好地泛化、解決跨領(lǐng)域問(wèn)題。我當(dāng)時(shí)認(rèn)為圖神經(jīng)網(wǎng)絡(luò)(GNN)可能是通向AGI的一個(gè)重要方向,因?yàn)樗梢詫?duì)各種領(lǐng)域的問(wèn)題進(jìn)行建模,比如分子藥物結(jié)構(gòu)、蛋白質(zhì)結(jié)構(gòu)、人類社交網(wǎng)絡(luò)等。同時(shí),我也在做NAS(網(wǎng)絡(luò)架構(gòu)搜索)和AutoML相關(guān)的自動(dòng)網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)研究。

轉(zhuǎn)向大語(yǔ)言模型和Agent是因?yàn)橹虚g有個(gè)插曲。我在ETH(蘇黎世聯(lián)邦理工學(xué)院)做過(guò)一個(gè)關(guān)于Robot Learning(機(jī)器人學(xué)習(xí))的項(xiàng)目,研究如何讓Agent在未知空間里做目標(biāo)導(dǎo)航(Object Navigation)。在2020年左右,我發(fā)現(xiàn)可以用語(yǔ)言模型來(lái)很好地預(yù)測(cè)物理空間中物體的存在性和距離,從而指導(dǎo)機(jī)器人導(dǎo)航。這在我腦海里埋下了一顆種子:語(yǔ)言模型在解決泛化性問(wèn)題上有巨大的潛力。

后來(lái),模型架構(gòu)迎來(lái)了“大一統(tǒng)”,無(wú)論是視覺(jué)、圖神經(jīng)網(wǎng)絡(luò)還是語(yǔ)言模型領(lǐng)域,大家都在用Transformer。在ChatGPT問(wèn)世的那一瞬間,我突然意識(shí)到,Transformer這種大一統(tǒng)的架構(gòu),讓我們重新看到了實(shí)現(xiàn)通用Agent的可能性。它一定程度上解決了我最初想探索的“什么樣的神經(jīng)網(wǎng)絡(luò)架構(gòu)和表征學(xué)習(xí)能讓模型具備理解世界的能力”這個(gè)問(wèn)題。有了理解世界的能力,才能解決Agent如何行動(dòng)的問(wèn)題。

所以,我的路線大概是:一開始讀博相信強(qiáng)化學(xué)習(xí)能通向AGI——發(fā)現(xiàn)表征學(xué)習(xí)是瓶頸,轉(zhuǎn)向圖神經(jīng)網(wǎng)絡(luò)模型架構(gòu)——大一統(tǒng)和ChatGPT出現(xiàn)后,發(fā)現(xiàn)語(yǔ)言模型的泛化能力解決了基礎(chǔ)問(wèn)題——再次切換方向,回歸到做基于大語(yǔ)言模型的Agent。

甲子光年你現(xiàn)在怎么看大語(yǔ)言模型的Transformer架構(gòu)?它會(huì)是一統(tǒng)天下的終極解嗎?

李國(guó)豪:Transformer最大的問(wèn)題還是效率,它在神經(jīng)網(wǎng)絡(luò)里沒(méi)有記憶,導(dǎo)致推理時(shí)上下文不斷增加,成本極高。

我覺(jué)得如果未來(lái)真的存在范式級(jí)的變化,那它必須是“超越神經(jīng)網(wǎng)絡(luò)范疇”的。

舉個(gè)例子,我想象中的一種新架構(gòu)是:在預(yù)訓(xùn)練階段,Agent不僅有神經(jīng)網(wǎng)絡(luò)的大腦,還有非神經(jīng)網(wǎng)絡(luò)的“身體”(比如它能操控的CPU、Memory、操作系統(tǒng))。在訓(xùn)練過(guò)程中,Agent能否構(gòu)建出自己的系統(tǒng)內(nèi)核?基于這個(gè)內(nèi)核,它自己寫編譯器、寫軟件、自己接入互聯(lián)網(wǎng)。

這種“神經(jīng)網(wǎng)絡(luò)+符號(hào)系統(tǒng)/計(jì)算系統(tǒng)”的、可以自我學(xué)習(xí)和演進(jìn)的系統(tǒng),才可能帶來(lái)真正的范式變化。僅僅魔改神經(jīng)網(wǎng)絡(luò)架構(gòu),是遠(yuǎn)遠(yuǎn)不夠的。

甲子光年最后一個(gè)問(wèn)題,你最喜歡的一本書是什么?

李國(guó)豪:對(duì)我做CAMEL啟發(fā)最大的是馬文·明斯基的《The Society of Mind》(心智社會(huì))。

這本書非常深入地剖析了人類智能是怎么來(lái)的。它里面有一個(gè)核心觀點(diǎn):人類的智能來(lái)源于多樣性(Diversity)。

未來(lái)的Agent社會(huì)其實(shí)也一樣。我們?nèi)绾巫孉gent進(jìn)化?如何跟人類協(xié)作?如何擁有個(gè)性化的Agent?這都需要多樣性。這本書里關(guān)于記憶系統(tǒng)、長(zhǎng)思維鏈(Long-CoT)、Agent通訊、甚至世界模型的討論,在今天看來(lái)都極具預(yù)見性。我非常推薦所有做AI Agent的人去讀一讀。

(封面圖來(lái)源:受訪者)

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
珠海樓市:已經(jīng)砸不動(dòng)了

珠海樓市:已經(jīng)砸不動(dòng)了

林子說(shuō)事
2026-04-18 10:51:24
40年前的床單設(shè)計(jì),憑什么讓成年人瘋狂搶購(gòu)?

40年前的床單設(shè)計(jì),憑什么讓成年人瘋狂搶購(gòu)?

娛圈觀察員
2026-04-16 09:20:12
暴跌百億的“相機(jī)圈蘋果”,為輕視中國(guó)付出代價(jià)

暴跌百億的“相機(jī)圈蘋果”,為輕視中國(guó)付出代價(jià)

金錯(cuò)刀
2026-04-16 12:10:16
超710億!廣東這條“堵王”高速,即將全面改擴(kuò)建,最寬12車道!

超710億!廣東這條“堵王”高速,即將全面改擴(kuò)建,最寬12車道!

娛樂(lè)圈見解說(shuō)
2026-04-18 14:54:03
太尷尬了!雷軍又被吐槽:山東地名有多“費(fèi)”學(xué)歷,連雷軍都讀錯(cuò)

太尷尬了!雷軍又被吐槽:山東地名有多“費(fèi)”學(xué)歷,連雷軍都讀錯(cuò)

火山詩(shī)話
2026-04-18 08:11:07
5-4!趙心童兩連鞭斬獲晉級(jí)先機(jī),世錦賽16強(qiáng)席位爭(zhēng)奪存懸念!

5-4!趙心童兩連鞭斬獲晉級(jí)先機(jī),世錦賽16強(qiáng)席位爭(zhēng)奪存懸念!

世界體壇觀察家
2026-04-18 21:00:55
馬關(guān)條約簽約131年同日,日艦闖入臺(tái)灣海峽,高市早苗上臺(tái)后首次

馬關(guān)條約簽約131年同日,日艦闖入臺(tái)灣海峽,高市早苗上臺(tái)后首次

軍機(jī)Talk
2026-04-17 20:54:52
終于等到你!重慶銅梁龍花錢從魯能挖走的強(qiáng)援,本輪終于首秀登場(chǎng)

終于等到你!重慶銅梁龍花錢從魯能挖走的強(qiáng)援,本輪終于首秀登場(chǎng)

振剛說(shuō)足球
2026-04-18 15:37:42
存儲(chǔ)芯片封測(cè):長(zhǎng)電科技、太極實(shí)業(yè)、通富微電、華天科技潛力誰(shuí)大

存儲(chǔ)芯片封測(cè):長(zhǎng)電科技、太極實(shí)業(yè)、通富微電、華天科技潛力誰(shuí)大

長(zhǎng)風(fēng)價(jià)值掘金
2026-04-18 22:10:57
朱芳雨:很遺憾沒(méi)能用勝利答謝球迷,希望季后賽能得到大家支持

朱芳雨:很遺憾沒(méi)能用勝利答謝球迷,希望季后賽能得到大家支持

懂球帝
2026-04-18 23:29:08
廣東“莫氏雞煲大公主”爆火前后反差大,晚上干到凌晨2點(diǎn)才收工,發(fā)文吐槽:這個(gè)雞你們是非吃不可嗎

廣東“莫氏雞煲大公主”爆火前后反差大,晚上干到凌晨2點(diǎn)才收工,發(fā)文吐槽:這個(gè)雞你們是非吃不可嗎

大象新聞
2026-04-15 12:57:04
世錦賽戰(zhàn)報(bào):趙心童完全沒(méi)睡醒,張安達(dá)5-3領(lǐng)先艾倫晉級(jí)下一輪

世錦賽戰(zhàn)報(bào):趙心童完全沒(méi)睡醒,張安達(dá)5-3領(lǐng)先艾倫晉級(jí)下一輪

工從昊懂球阿靖
2026-04-18 23:00:30
當(dāng)年無(wú)人問(wèn)津的6大爛片,如今都逆風(fēng)翻盤成為了經(jīng)典

當(dāng)年無(wú)人問(wèn)津的6大爛片,如今都逆風(fēng)翻盤成為了經(jīng)典

小Q侃電影
2026-03-02 19:55:20
狂攬凈利2800億,員工年薪人均113萬(wàn)!互聯(lián)網(wǎng)領(lǐng)軍者再創(chuàng)巔峰!

狂攬凈利2800億,員工年薪人均113萬(wàn)!互聯(lián)網(wǎng)領(lǐng)軍者再創(chuàng)巔峰!

青眼財(cái)經(jīng)
2026-04-16 21:39:31
得知范漢杰每月只有60元生活費(fèi),周恩來(lái)親自解決:還按200元發(fā)放

得知范漢杰每月只有60元生活費(fèi),周恩來(lái)親自解決:還按200元發(fā)放

大運(yùn)河時(shí)空
2026-04-16 10:30:03
雌激素旺盛!萊昂諾爾公主姐妹脂肪集中在大腿臀部,不像少女身材

雌激素旺盛!萊昂諾爾公主姐妹脂肪集中在大腿臀部,不像少女身材

夜深愛(ài)雜談
2026-04-18 19:16:34
新型出軌,真的越來(lái)越流行了

新型出軌,真的越來(lái)越流行了

洞讀君
2026-03-29 21:10:03
學(xué)生的瓜能有多炸裂,網(wǎng)友的分享一個(gè)比一個(gè)逆天!

學(xué)生的瓜能有多炸裂,網(wǎng)友的分享一個(gè)比一個(gè)逆天!

黯泉
2026-04-18 13:31:58
“生娃率”持續(xù)走低,廈門教授給出建議:不生孩子就下調(diào)養(yǎng)老金

“生娃率”持續(xù)走低,廈門教授給出建議:不生孩子就下調(diào)養(yǎng)老金

大果小果媽媽
2026-04-02 13:16:39
觀眾口碑大爆,票房劍指20億,陳思誠(chéng)將打敗餃子成第一導(dǎo)演

觀眾口碑大爆,票房劍指20億,陳思誠(chéng)將打敗餃子成第一導(dǎo)演

影視高原說(shuō)
2026-04-18 08:06:39
2026-04-19 03:52:49
甲子光年
甲子光年
中國(guó)科技產(chǎn)業(yè)化前沿智庫(kù)
3415文章數(shù) 9263關(guān)注度
往期回顧 全部

科技要聞

傳Meta下月擬裁8000 大舉清退人力為AI騰位

頭條要聞

伊朗革命衛(wèi)隊(duì)向油輪開火 伊朗最高領(lǐng)袖發(fā)聲

頭條要聞

伊朗革命衛(wèi)隊(duì)向油輪開火 伊朗最高領(lǐng)袖發(fā)聲

體育要聞

時(shí)隔25年重返英超!沒(méi)有人再嘲笑他了

娛樂(lè)要聞

劉德華回應(yīng)潘宏彬去世,拒談喪禮細(xì)節(jié)

財(cái)經(jīng)要聞

"影子萬(wàn)科"2.0:管理層如何吸血萬(wàn)物云?

汽車要聞

奇瑞威麟R08 PRO正式上市 售價(jià)14.48萬(wàn)元起

態(tài)度原創(chuàng)

健康
家居
教育
公開課
軍事航空

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

家居要聞

法式線條 時(shí)光靜淌

教育要聞

親愛(ài)的老己,歡迎在二十六歲,邁入人生的夏季|中山大學(xué)國(guó)際新聞420分經(jīng)驗(yàn)貼

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

解放軍護(hù)衛(wèi)艦與外艦纏斗20小時(shí) 細(xì)節(jié)披露

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版