李建忠：關(guān)于AI時代人機(jī)交互和智能體生態(tài)的研究和思考

2025-08-18 18:20:21　來源: AI科技大本營

北京舉報

分享至

【導(dǎo)讀】從模型具備邏輯推理，到非專業(yè)人士也能用自然語言“氛圍編程”，再到智能體將互聯(lián)網(wǎng)從“信息網(wǎng)絡(luò)”重構(gòu)為“行動網(wǎng)絡(luò)”，我們正處在一個被大模型全面重塑的時代。在 2025 全球產(chǎn)品經(jīng)理大會中，奇點智能研究院院長、CSDN 高級副總裁李建忠預(yù)言了孤立 App 時代的終結(jié)和“伴隨式”人機(jī)交互的興起。跟隨他的思考，我們將清晰地看到 AI 如何從技術(shù)底層到產(chǎn)品表象，一步步顛覆我們習(xí)以為常的數(shù)字世界。

作者 | 李建忠

出品丨AI 科技大本營（ID：rgznai100）

大家好！全球產(chǎn)品經(jīng)理大會（PM-Summit）從去年 9 月到現(xiàn)在，短短一年的時間，感覺在 AI 領(lǐng)域已經(jīng)經(jīng)歷了好幾個迭代。

我今天分享的題目是《大模型驅(qū)動的 AI 產(chǎn)業(yè)生態(tài)和產(chǎn)品創(chuàng)新》，聊聊近一年來在這方面的研究和思考。

整個演講分為四個部分：大模型推理范式轉(zhuǎn)換、應(yīng)用開發(fā)范式轉(zhuǎn)換、人機(jī)交互范式轉(zhuǎn)換、智能體生態(tài)演進(jìn)。后兩個部分是今天演講的重點。

首先來看第一部分：推理范式轉(zhuǎn)換，這是去年以來整個大模型最大的變化：

去年 9 月份之前，主流的模型都是訓(xùn)練模型。9 月份之后，OpenAI o1 通過強(qiáng)化學(xué)習(xí)實現(xiàn)了模型推理能力的大幅度提升。再到今年 1 月份， DeepSeek R1 在全球第一個開源推理模型，引領(lǐng)整個業(yè)界的主流模型都進(jìn)入推理范式。

我有三句話，快速總結(jié)它們的特點：“預(yù)訓(xùn)練”是模型在“講知識”；“后訓(xùn)練”是“講文明”，和人類價值觀對齊，它們共同構(gòu)成模型的“快思考”能力；“推理”是“講邏輯”，它構(gòu)成了模型的“慢思考”能力。

這里面的核心是強(qiáng)化學(xué)習(xí)，強(qiáng)化學(xué)習(xí)之父 Richard Sutton，也是去年的圖靈獎獲得者，今年 4 月份有一篇論文《Welcome to the Era of Experience》，我覺得蠻重要的。

這篇論文講了之前的訓(xùn)練模型，主要基于人類現(xiàn)存數(shù)據(jù)，是人類知識的“回聲室”，模型的上限就是人類現(xiàn)有知識的總和。但有了強(qiáng)化學(xué)習(xí)，整個 AI 進(jìn)入一個新的稱為“經(jīng)驗數(shù)據(jù)的時代”。注意，這個經(jīng)驗不是人類的經(jīng)驗，是 AI 通過使用強(qiáng)化學(xué)習(xí) self-play 獲得的獎賞和懲罰反饋，由機(jī)器產(chǎn)生的合成數(shù)據(jù)來訓(xùn)練模型。最早的例子是 AlphaGo 所謂“37 手”（move 37）走出了人類棋手從未有過的招數(shù)。那時候的 AlphaGo 還是垂直模型，現(xiàn)在將強(qiáng)化學(xué)習(xí)引入通用大模型，在預(yù)訓(xùn)練的基礎(chǔ)上進(jìn)行自我迭代，這使得 AI 有機(jī)會探索出超越人類知識邊界的創(chuàng)新。

我們回顧一下去年 9 月份之前，其實業(yè)界一度有一種言論是“Scaling Law 是不是失效了？”后來我們發(fā)現(xiàn)不是 Scaling Law 失效了，是 Scaling Law 的一個條件：數(shù)據(jù)、也就是公域互聯(lián)網(wǎng)上的數(shù)據(jù)幾乎被耗光了，所以它放緩了。雖然預(yù)訓(xùn)練階段的 Scaling Law 放緩，但有了強(qiáng)化學(xué)習(xí)之后，我們發(fā)現(xiàn)它在另外兩個方面“測試時 Test Time“和”強(qiáng)化學(xué)習(xí)階段“的 Scaling Law 又加上了。三者疊加，我們看到去年 9 月份之后，整個模型仍然遵循 Scaling Law，隨著規(guī)模擴(kuò)展，性能不斷攀升。

主流 SOTA 模型隨著推理范式的轉(zhuǎn)換，今年還有一個比較大的變化是：紛紛內(nèi)置了整個Agent和Tool Use的能力訓(xùn)練，向Agentic Model所謂智能體模型迭代。主要依賴的就是強(qiáng)化學(xué)習(xí)在動態(tài)環(huán)境中進(jìn)行試錯學(xué)習(xí)決策策略和工具使用，使得整個大模型從“給用戶建議”演進(jìn)為”幫用戶做事情”。

這是今年 3 月份之后，SOTA 類模型很突出的一個表現(xiàn)，包括最近的 GPT-5 的發(fā)布，在 Agent 和 Tool Use 方面上了很大的訓(xùn)練力度，這是值得我們特別注意的模型側(cè)的發(fā)展趨勢。

接下來我們來看第二部分應(yīng)用開發(fā)范式的轉(zhuǎn)換。

氛圍編程（Vibe Coding）是最近興起的一個話題。這個在軟件開發(fā)領(lǐng)域的爭議也非常大。

在大模型之前，軟件開發(fā)主要靠程序員直接使用計算機(jī)語言進(jìn)行編程。22 年之后，大家發(fā)現(xiàn)可以使用大模型生成代碼，進(jìn)入 AI 輔助編程（所謂 AI Copilot）階段。

到今年，非專業(yè)軟件開發(fā)人員使用自然語言來進(jìn)行的“氛圍編程”（所謂 Vibe Coding）成為一支崛起的新興力量。很多傳統(tǒng)軟件工程的人對于 Vibe Coding 看不上或者看不起，覺得不懂編程語言理論/編譯器/算法/架構(gòu)的非專業(yè)人士、只能做一些小游戲、小應(yīng)用，到了嚴(yán)肅的大規(guī)模企業(yè)級軟件領(lǐng)域，很難 work。所以覺得氛圍編程是炒作，是雕蟲小技。

我覺得面對創(chuàng)新事務(wù)，這樣一棍子打死是非常危險的。實際上歷史上的很多創(chuàng)新剛開始看起來，都是從邊緣領(lǐng)域、人們看不起、看不上的領(lǐng)域開始的。我覺得我們需要拋掉傳統(tǒng)軟件工程理論來看待氛圍編程。

先回顧一下歷史，在 1995～2000 年左右互聯(lián)網(wǎng)早期起來的時候，有了 Web 網(wǎng)頁編程，也就是 HTML/JS/CSS。那時候傳統(tǒng)軟件工程的人也看不上那時的 Web 編程，甚至認(rèn)為這些寫標(biāo)記語言、腳本語言的不叫編程。這個說法今天看起來相當(dāng)荒謬了，實際上 Web 網(wǎng)頁編程后來隨著互聯(lián)網(wǎng)的突飛猛進(jìn)創(chuàng)造了人類歷史上“用戶量最大”、“數(shù)量最多”的軟件規(guī)模。今天相信大家都認(rèn)可 Web 編程是軟件歷史上非常偉大的創(chuàng)新。順便提一句，基于 HTTP 的 Web 編程也不是傳統(tǒng)主流計算機(jī)人搞的，是歐洲核子研究組織（CERN）搞得。典型的“邊緣人士”做出的顛覆式創(chuàng)新。

我們今天談的氛圍編程，大家也要用這樣一個全新的視角來看。我個人認(rèn)為，氛圍編程不是來開發(fā)傳統(tǒng)軟件的。傳統(tǒng)企業(yè)級的大型軟件，仍然遵循傳統(tǒng)軟件工程理論，需要使用 AI 輔助編程（AI Copilot）在軟件開發(fā)生命周期的每一個環(huán)節(jié)（包括架構(gòu)、設(shè)計、編碼、測試…..）利用 AI 來提效。

氛圍編程和 AI 輔助編程不同，它的目的不在于提效。而是開創(chuàng)全新的疆域，帶領(lǐng)軟件開發(fā)進(jìn)入一個新的增量市場。這個增量市場是什么呢？我這里提一個新概念叫“可塑軟件（Malleable Software）。

面向?qū)ο蠛徒换ピO(shè)計奠基人、施樂 PARC 研究院的開創(chuàng)者、也是早期圖靈獎的獲得者 Alan Kay，在八十年代有一個預(yù)言叫“軟件未來應(yīng)該像文檔一樣可以隨時編輯”。

這個提法很早，無奈當(dāng)時的技術(shù)并不能支持這一點。我覺得今天的氛圍編程有機(jī)會實現(xiàn) Alan Kay 當(dāng)年提出的這個愿景。氛圍編程會帶來普通大眾用戶（而非專業(yè)程序員）使用自然語言來實現(xiàn)軟件創(chuàng)造的平權(quán)時代。它的核心是改變軟件的生產(chǎn)和交付方式。怎么改變呢？

我們今天的軟件產(chǎn)品，都是標(biāo)準(zhǔn)化產(chǎn)品，簡單說我們的產(chǎn)品經(jīng)理給用戶定義什么樣的產(chǎn)品，用戶就只能這樣用這個產(chǎn)品。部分軟件支持一些后臺配置選項，但它還是由產(chǎn)品經(jīng)理框定在標(biāo)準(zhǔn)化軟件一開始的設(shè)計方案里。

但如果我們仔細(xì)觀察用戶使用軟件的行為，比如一萬個用戶使用 Photoshop，實際上有一萬種用法，一萬種用戶旅程、使用的功能點也不盡相同。但很遺憾，由于生產(chǎn)軟件的成本高昂，盡管有非常多元的需求，軟件廠商只能開發(fā)標(biāo)準(zhǔn)化軟件。

但是有了氛圍編程，未來的軟件廠商可以做好軟件底座（這部分仍然要使用傳統(tǒng)的軟件工程，AI Copilot 在這方面主要是提效），然后在界面和交互層，開放給普通用戶，使用氛圍編程來進(jìn)行二次加工和個性化定制。由于使用自然語言編程，人人都可以參與到這樣的軟件二次創(chuàng)作中?！耙蝗f個人、可以基于 Photoshop 底座軟件有一萬個不同的個性化定制”，這便是“可塑軟件”?！?b>可塑軟件”可能會帶來顛覆式的軟件交付方式和生產(chǎn)方式變革。特別是新一代的 Agent 應(yīng)用。

另外，因為氛圍編程極大地降低了軟件的生產(chǎn)成本，可以針對各種短期需求來開發(fā)軟件。傳統(tǒng)上，因為軟件開發(fā)成本極高，這部分需求就被壓抑了。氛圍編程生產(chǎn)的軟件可能呈現(xiàn)一種“即用即拋”的特點，不一定再像傳統(tǒng)軟件那樣追求復(fù)用性。

傳統(tǒng)軟件工程一直強(qiáng)調(diào)的“可復(fù)用性、可擴(kuò)展性”底層原因還是因為軟件開發(fā)成本太高了。當(dāng)然我們說氛圍編程，它仍需要傳統(tǒng)軟件作為底座，就像互聯(lián)網(wǎng) Web 前端仍然需要后端系統(tǒng)級軟件提供 API 作為底座。

接下來談?wù)勛罱容^熱的上下文工程。

很多產(chǎn)品經(jīng)理，去年或者前年都在鉆研“提示詞工程”，怎么把大模型的能力給它壓榨出來，各種招數(shù)。但是今年大家發(fā)現(xiàn)提示詞在長任務(wù)上、特別是面向 Agent 類的任務(wù)上，作用有限。

為什么？因為去年之前主流的大模型都是訓(xùn)練模型，發(fā)揮訓(xùn)練模型的能力，用好提示詞就可以。但是今年以來主流大模型轉(zhuǎn)向推理模型，Agentic Model，這時候要發(fā)揮優(yōu)秀的推理能力，“上下文工程”就很重要的。要模型做出最優(yōu)質(zhì)的決策，就需要給出最全面、準(zhǔn)確的上下文：用戶需求、任務(wù)目標(biāo)、場景信息、歷史交互、資源約束、規(guī)則邊界等。

其實，這就是智能的本質(zhì)，人類也如此，假設(shè)愛因斯坦這樣聰明的大腦，我們給他的是模糊不清的上下文，愛因斯坦也給不出一個正確的決策。

這讓我想起在大模型之前大概 2009 年，在硅谷從 Netflix 流行的一種組織管理文化叫“Context、Not Control（提供上下文、而非控制）”，是對組織創(chuàng)新文化非常精辟的一種總結(jié)，后來到國內(nèi)也被字節(jié)張一鳴等互聯(lián)網(wǎng)公司奉為經(jīng)典。這個當(dāng)時當(dāng)然不是針對 Agent，而是講針對人構(gòu)成的組織，如何激發(fā)創(chuàng)新活力的管理哲學(xué)。

我發(fā)現(xiàn)這個管理哲學(xué)非常適合 Agent。就是針對智能體，我們也不要用傳統(tǒng)的那種所謂流程化、規(guī)則化的思維去控制它。反倒你應(yīng)該給它提供充足的上下文，然后 Agent 就會以它的智能、它的創(chuàng)新方式來提供解決方案。

控制（Control）是圖靈-馮諾依曼計算時代的精髓，而神經(jīng)網(wǎng)絡(luò)計算時代的精髓在于上下文（Context）。

第三部分，人機(jī)交互范式轉(zhuǎn)換。這也是我這幾年研究相對比較集中的領(lǐng)域，我認(rèn)為這可能是 AI 爆發(fā)潛力最大的地方。

張小龍最早在 2012 年有一個言論，被后來認(rèn)為是非常睿智的方向性判斷，他當(dāng)時講“PC 互聯(lián)網(wǎng)的入口是搜索框，移動互聯(lián)網(wǎng)的入口是二維碼”，那延續(xù)此問：AI時代的入口是什么？我的答案是“自然語言的對話界面”。

注意我沒有說“對話框”，因為對話框并不能囊括所有 AI 交互的入口形態(tài)。比如智能眼鏡、比如 OpenAI 前段時間花 65 億美金購買 John Ivy（蘋果前首席設(shè)計師）創(chuàng)立的公司 io，這個公司只有 55 人。他們正在做下一代的自然語言對話的這種設(shè)備。還有智能汽車上的語音對話設(shè)備。

這些交互界面未必是對話框，但它只要能夠滿足使用自然語言去對話，就是 AI 交互入口發(fā)生的地方。我們先來看一下整個交互范式的變革歷史：

從最早的 CUI（控制臺用戶界面）到 80 年代施樂 PARC 開啟、后來喬布斯和比爾.蓋茨引領(lǐng)的 GUI（圖形用戶界面），到 2007 年 iPhone 出來的 TUI（觸控用戶界面）。用戶交互界面的變革一直是計算產(chǎn)業(yè)里的革命性力量，每一次革命都會把計算的潛力釋放給更廣泛的人類和場景，AI 時代的“自然語言用戶界面”更是如此。

但是我也想說，自然語言交互這兩年也談得比較多，但它并不是一問一答對話這么簡單。就像張小龍說二維碼是移動交互入口，不是拿個攝像頭掃一下這么簡單，掃完之后呢？它的背后是要有一整套的移動生態(tài)系統(tǒng)去支撐它。張小龍早在 2012 年移動互聯(lián)網(wǎng)爆發(fā)前夜，就看透二維碼這樣一個交互入口，然后以此來布局整個微信生態(tài)，我覺得這才是微信可怕的地方。

這是我今天想重點講的，就是“自然語言交互界面作為入口之后”，如何牽引出對整個智能時代應(yīng)用生態(tài)的重構(gòu)？我覺得這是下一波 AI 發(fā)展的重大問題。

這方面有以下四點和大家分享：第一是應(yīng)用的服務(wù)化，第二是 App 我認(rèn)為不再孤立，第三是無需結(jié)構(gòu)化 UI，第四是生成式 UI。

我稍微展開一下談?wù)剳?yīng)用服務(wù)化。大家今天看到這個 GUI+TUI 為主的用戶界面，是面向我們?nèi)祟愒O(shè)計的。但是它并不適合 Agent，包括從去年到今年，大家看到很多 Agent 的這種 Computer Use 都是模擬人類點擊，我覺得模擬人類點擊是一個偽 AI 交互。是一個中間過渡形態(tài)，就像移動互聯(lián)網(wǎng)期早期的 WAP 頁面，當(dāng)時就是介于互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)之間的中間過渡形態(tài)。我認(rèn)為大部分 GUI 應(yīng)用，會演變成可以被 Agent 直接調(diào)用的 API 服務(wù)。

就像我們經(jīng)常用的，比如說這種機(jī)票、酒店、外賣等軟件，未來它們未必是要用這種 GUI 的方式跟我們交互。因為用戶和 Agent 之間是第一交互入口。這些軟件只需要提供好它們的服務(wù) API 給 Agent 調(diào)用就可以了。

接下來我想談一下，孤立 App 的問題。我們今天每個人的手機(jī)上都裝著幾十、上百個 App，我認(rèn)為未來這些孤立 App 之間的壁壘會被打破，Agent 未來會通過智能推理無縫銜接各種服務(wù)。

在傳統(tǒng)孤立 App 模式下，假如我出差，我要訂機(jī)票、訂酒店、訂出租車、根據(jù)目的地要看地圖導(dǎo)航 App，還要看天氣 App、看導(dǎo)航。要經(jīng)常在這四五個 App 之間來回切換，我想很多差旅人士都有這種痛苦。

但是我們?nèi)祟惖男枨蟊緛聿皇沁@樣子的，我們?yōu)槭裁匆趲讉€不同的 App 之間來回切換呢？我認(rèn)為這是圖靈-馮諾依曼計算架構(gòu)底下，給我們?nèi)祟愒斐傻倪@種鴻溝。人類的需求被拆解為不同的結(jié)構(gòu)化 App 來分別滿足。但是現(xiàn)在有了 AI 之后，這種情況會得到改變。

在 AI 時代，我們的需求顆粒度將以自然語言描述的任務(wù)為單位，而不是被拆解為一個個應(yīng)用為單位。

我們的需求通過幾句話的自然語言表達(dá)出來之后（如果 AI 知道了我的偏好后，甚至一句話就可以表達(dá)清楚我整個差旅需求），智能體可以將我的需求拆分成不同的服務(wù) API 調(diào)用（訂機(jī)票、酒店、地圖、出租車等），而且在它們之間進(jìn)行上下文信息共享（再也不用我們在不同的 App 之間將信息來回拷貝/粘貼），大大提升用戶體驗。

未來，我們將在用戶交互層面，看不到一個個孤立的 App，它們都以服務(wù) API 的形式藏在背后，由 Agent 來按需調(diào)度。

接下來我們再來看結(jié)構(gòu)化 UI 的問題。什么叫結(jié)構(gòu)化 UI？就是大家傳統(tǒng)認(rèn)知中的這種表單、按鈕、導(dǎo)航、菜單等等，這些都是上個時代 GUI 交互的“遺老遺少”。

為什么需要這些結(jié)構(gòu)化 UI？它們是為了適配圖靈-馮諾依曼計算架構(gòu)，而對確定性結(jié)構(gòu)化信息的收集需求，人類為了使用計算機(jī)不得不遷就這種要求，或者必須被機(jī)器馴化成操作這些表單、按鈕、導(dǎo)航、菜單等等。

但是大家想一想，為了訂一個機(jī)票，在一個商旅軟件里面，我們要走好幾步。為什么不能在記住我的偏好前提下，一句話需求直接把機(jī)票給我買了？就像我們一句話交代給助理一樣。

未來的 Agent 應(yīng)該很快具備這樣的能力，它可以把我們自然語言描述的需求，拆分成結(jié)構(gòu)化的信息，送給商旅服務(wù)的 API。然后直接將訂票結(jié)果給我們。未來，鼠標(biāo)點擊、觸控指令將不再是主流的交互。

最后談?wù)勆墒?UI。我們說未來自然語言交互是入口，并不意味著對話的結(jié)果呈現(xiàn)永遠(yuǎn)是語言或者文本。很多場景，我們?nèi)匀恍枰獔D形展示。

人類對圖形天然有很多偏好，但是此圖形非彼圖形，這個和傳統(tǒng)的 GUI 圖形用戶交互界面非常不一樣。未來生成式的用戶界面（GenUI），會替代傳統(tǒng)的結(jié)構(gòu)化 GUI 圖形用戶界面。

我們今天在電腦/手機(jī)上看到的 GUI，它其實承擔(dān)了三個職責(zé)：1、圖形化呈現(xiàn)結(jié)果；2、響應(yīng)鼠標(biāo)點擊/觸控的人機(jī)交互；3、收集結(jié)構(gòu)化的數(shù)據(jù)。

這三個職責(zé)中后兩個職責(zé)未來在 GenUI 中會消失。GenUI將主要用于圖形化的方式呈現(xiàn)結(jié)果，而不再承擔(dān)鼠標(biāo)點擊或者觸控交互的職責(zé)、也不承擔(dān)收集結(jié)構(gòu)化數(shù)據(jù)的職責(zé)。后兩者都會交給 AI 來完成，因為 AI 在這兩方面的體驗更便捷、更符合人性。

比如說未來我們通過 Agent 要外賣點一個漢堡，GenUI 根據(jù)我的偏好、地理位置，應(yīng)該直接在屏幕上生成一個我想要的漢堡，直接懟在我臉前，如果我確認(rèn)人臉掃描直接完成支付就行了。不需要再經(jīng)過漫長的各種信息流、菜單、按鈕、表單這些繁瑣的流程。GenUI 現(xiàn)在也是人工智能領(lǐng)域比較活躍的創(chuàng)新方向。

當(dāng)然這只是我在做的一些研究，包括有些是和客戶合作的一些方向。未必全對，也未必全面，因為今天來看整個 AI 驅(qū)動的人機(jī)交互的生態(tài)建設(shè)還很不完善，但是我覺得方向是很明確的，就是未來五到十年，整個人機(jī)交互會被 AI 極大地顛覆。當(dāng)然，完善這樣的 AI 交互體驗閉環(huán)，需要大量的生態(tài)建設(shè)，我覺得這也是很多創(chuàng)新的機(jī)會。

新一代的交互體驗呼喚新一代的交互設(shè)備。

前段時間。對話中談到智能時代的超級設(shè)備是啥？手機(jī)的下一站如果不是手機(jī)，會是一個什么樣的設(shè)備？

KK 的觀點是手機(jī)之后的超級設(shè)備是智能眼鏡，他有一個提法叫鏡像世界。但是 KK 加了個限定語，25 年之后。這個限定語加的非常聰明，因為 25 年之后人類的預(yù)測太難說清楚了。

但是我當(dāng)時在跟他對話時提了一個不同的觀點，我認(rèn)為手機(jī)之后未必會仍然有一個中心化的超級設(shè)備，而是很有可能進(jìn)入一個“多元設(shè)備”的時代。

如果我們看手機(jī)之前，人類周圍并沒有一個中心化的超級設(shè)備。我們那時有 Walkman、Mp3、收音機(jī)、游戲機(jī)、電視機(jī)等等。實際上就是個多元設(shè)備時代。移動互聯(lián)網(wǎng)起來之后，手機(jī)變成一個單一超級設(shè)備，統(tǒng)治了我們整個信息中樞。

AI 時代，我覺得可能有一個鐘擺效應(yīng)，人類可能會再次進(jìn)入一個多元設(shè)備時代。不同的場景，有不同的設(shè)備。比如眼鏡、手表、智能汽車，智能穿戴、等等，當(dāng)然手機(jī)也還會是其中之一。但未必像今天一樣成為中心化的超級設(shè)備。

這里很大的原因是，我們今天的能耗限制和物理載重限制，包括智能眼鏡這樣的設(shè)備，很難通吃所有場景。但它們在自己的子場景里體驗卻是最優(yōu)的。當(dāng)然，有了 AI 的加持，這些設(shè)備之間打通之后會有更好的體驗。我們稍后會再談到這一點。

最后第四部分，我們來談?wù)勚悄荏w的整個生態(tài)。

我們前面有談，對話助手只是一個交互入口，入口之后它一定有一個生態(tài)，需要一個平臺來承載。我剛才從交互的角度談了未來 AI 應(yīng)用的形態(tài)，另外一個我覺得更大的是智能體平臺。目前大家看到主流的模型助手、包括最近的 GPT-5 的發(fā)布，都在從這種對話助手向智能體平臺演進(jìn)。

智能體其實業(yè)界有很多種不同的定義。我比較認(rèn)可下面這樣一種定義，或者它的能力矩陣：規(guī)劃、工具、協(xié)作、記憶、行動。

為什么智能體從去年下半年開始突飛猛進(jìn)，很大程度上是因為強(qiáng)化學(xué)習(xí)帶來的推理能力提升。從而給智能體帶來了關(guān)鍵的“規(guī)劃”能力。

再來談工具能力。我們知道大模型本身并不執(zhí)行圖靈-馮諾依曼架構(gòu)下的軟件程序，但大模型想做事情，也不可能丟掉這些傳統(tǒng)軟件程序，這就是 Tools 工具能力。

我們知道早期 Function Call 等就是支持這個的，但是各家模型不夠標(biāo)準(zhǔn)化。Anthropic 于去年底推出 MCP 協(xié)議，把這個標(biāo)準(zhǔn)化之后，大大提升了智能體和工具之間的交互能力，這個快速得到業(yè)界的廣泛支持。今年 5 月份 Build 大會，微軟 CTO 有一個說法，他說“MCP 是智能時代的 HTTP 協(xié)議”，我覺得這個比喻是比較恰當(dāng)?shù)摹?/p>

還有就是 A2A 協(xié)議，Agent2Agent，這是 Google 在今年 4 月份推出的，智能體與智能體之間的協(xié)作協(xié)議。未來不可能是單一智能體幫我們干活。我們需要多智能的協(xié)作。今天主流的智能體協(xié)作大概是個位數(shù)到十幾二十個。但未來智能體協(xié)作的數(shù)量很快會超越百、千，甚至?xí)霈F(xiàn)數(shù)萬個智能體協(xié)作。

記憶也是智能體關(guān)鍵的一環(huán)，很多時候我們說智能體比較差強(qiáng)人意，其實是因為記憶能力缺失導(dǎo)致的。今年大模型一個突飛猛進(jìn)的能力，就是記憶能力。

前面這四大能力集合在一起，就使得智能體具有了行動能力。去年9月份全球產(chǎn)品經(jīng)理大會上，我曾經(jīng)提出一個觀點，未來智能體會把我們今天的互聯(lián)網(wǎng)從“信息網(wǎng)絡(luò)”重構(gòu)為“行動網(wǎng)絡(luò)”。

當(dāng)時提出這個觀點，坦白來說還是研究性的，當(dāng)時我記得也有一些同行會有疑問：“真的會這樣嗎？”但是大家今年從 3 月份 Manus 出來之后，包括后來 OpenAI、Anthropic 和 Google 紛紛推出自家的智能體，大家都看到了互聯(lián)網(wǎng)在飛速地從信息網(wǎng)絡(luò)到行動網(wǎng)絡(luò)進(jìn)化。我們未來會看到很多網(wǎng)站主要的訪問者不再是人類用戶，而是智能體。這將是一個非常大的變化。

下面簡單說一下 MCP 和 A2A 一些構(gòu)成的智能體平臺。

藍(lán)色的部分，是智能體通過 MCP 協(xié)議調(diào)用我們傳統(tǒng)的軟件和服務(wù)（也就是圖靈-馮諾依曼架構(gòu)下的傳統(tǒng)確定性計算）。這些傳統(tǒng)軟件在智能體時代并不會消失，但我有一個觀點，就是它會下游化。因為 Agent 做了人機(jī)交互的第一道防線，人類用戶和智能體直接交互，智能體再去下游調(diào)用那些 API / Web 服務(wù)/數(shù)據(jù)庫等。我們也可以說是 MCP，是神經(jīng)網(wǎng)絡(luò)計算和圖靈-馮諾依曼計算之間的橋梁。

除了傳統(tǒng)軟件，Agent 和 Agent 之間也需要協(xié)作交互，這就是綠色的部分，它們通過 A2A 協(xié)議構(gòu)成一個智能體協(xié)作網(wǎng)絡(luò)。下面是對 MCP 和 A2A 的一個對比：

MCP 執(zhí)行的是 Agent 來調(diào)用傳統(tǒng)軟件 API 或服務(wù)，是機(jī)器間的協(xié)作，傳遞的數(shù)據(jù)格式是結(jié)構(gòu)化的數(shù)據(jù)。而 A2A 執(zhí)行的是多個 Agent 之間的交互，它們是擬人化的協(xié)作，傳遞的數(shù)據(jù)主要是自然語言或者視覺數(shù)據(jù)。它們的應(yīng)用場景側(cè)重點也不同。

下面我想談?wù)?，智能體的執(zhí)行時長，這是一個很關(guān)鍵的要素。

上個時代，我稱為“檢索計算”的時代。我們絕大部分產(chǎn)品經(jīng)理和架構(gòu)師、程序員，都習(xí)慣了秒級服務(wù)或者毫秒級、微秒級響應(yīng)。這對于以信息檢索為主的系統(tǒng)，不成問題。包括對話模型，我們基本也能做到這一點。

但是我們發(fā)現(xiàn)推理模型上來之后，大家會發(fā)現(xiàn)完成稍微復(fù)雜的智能體任務(wù)，時長就無法維持在秒級。目前很多智能體的執(zhí)行時間都到幾分鐘甚至數(shù)十分鐘。業(yè)績也普遍預(yù)計很快一些智能體執(zhí)行時長將到數(shù)小時。

藍(lán)色的部分是我的預(yù)測，下半年到未來三年左右，將有智能體執(zhí)行的時長要到達(dá)數(shù)天（可能是一些項目類任務(wù)）、數(shù)月（工程類任務(wù)），甚至數(shù)年（科研類任務(wù)）。Sam Altman 最近也在一個訪談里透露 GPT 內(nèi)部設(shè)計的一些智能體需要執(zhí)行長達(dá)千小時。

這個變化的主要原因一方面是復(fù)雜的推理必然要求更多的計算時長，另一方面從任務(wù)結(jié)構(gòu)來講，人類未來只負(fù)責(zé)定義需求，過程監(jiān)督，和結(jié)果決策。中間執(zhí)行過程會交給智能體。這會帶來智能體和用戶交互上一個巨大的變化。

目前我們比較習(xí)慣用“請求/響應(yīng)的模式”，用戶主動發(fā)出請求，單一智能體被動響應(yīng)。但未來的變化將是“伴隨交互的模式”，智能體異步執(zhí)行，它可以根據(jù)狀態(tài)主動和用戶溝通、或者詢問用戶，或者主動報告進(jìn)展。而且是多個智能體一起協(xié)作的模式。這對長時間允許的智能體來說，是非常重要的變化。

如果我們綜合前面談的設(shè)備、人機(jī)交互，智能體生態(tài)，我覺得未來可能會是下面這樣一副圖景。

人類用戶用自然語言通過各種多元設(shè)備去呼叫背后的智能體。可能不同的設(shè)備，背后鏈接的是同一個中心化的智能體（可能在云上），它對我們的偏好，我們的 ID、我們的歷史比較熟悉。然后它再根據(jù)任務(wù)類型分發(fā)，要么去調(diào)用傳統(tǒng)軟件/API/服務(wù)，或者分發(fā)給其他的智能體網(wǎng)絡(luò)來完成任務(wù)。然后可能經(jīng)過秒級、分鐘級、小時級或者月級或者年級來異步的方式響應(yīng)用戶。

我的演講分享就到這里。下面借著這個機(jī)會，向大家發(fā)布一個新聞，很多朋友可能知道，這幾年我主要帶著一支技術(shù)研究隊伍做一些人工智能產(chǎn)業(yè)范式的研究。最近，我發(fā)起成立了“奇點智能研究院 Singularity Intelligence Research Institute”，奇點智能研究院由 CSDN、Boolan 聯(lián)合多家機(jī)構(gòu)成立，是專注于人工智能前沿技術(shù)和產(chǎn)業(yè)落地的創(chuàng)新研究、咨詢與智庫機(jī)構(gòu)。官網(wǎng)：https://singintelligence.com。奇點智能研究院的愿景和使命是成為人工智能產(chǎn)業(yè)的“范式孵化器”，推動 AI 成為普惠性的生產(chǎn)力工具。

在 AGI Singularity 到來之前，希望我和奇點智能研究院能夠為人類做一些微薄的事情。謝謝大家！

【活動分享】2025 全球機(jī)器學(xué)習(xí)技術(shù)大會（ML-Summit）北京站將于 2025 年 10 月 16-17 日在北京威斯汀酒店舉辦。大會共 12 大主題、50+ 海內(nèi)外專家，聚焦大模型技術(shù)和應(yīng)用變革。詳情參考官網(wǎng)：https://ml-summit.org (或點擊原文鏈接）。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.