国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

幾乎都在掛羊頭賣狗肉,AI Agent的泡沫現(xiàn)在到底有多大?(上)

0
分享至



Agent、Agnet?Agent!說起今年的 AI 浪潮,除了年初 DeepSeek 引領的一波強化學習熱,行業(yè)內(nèi)最受關注的,莫過于各種各樣的 AI Agent 以及 “ 類 Agent ”。

不知從什么時候開始,Agnet 變成了一種萬能公式,什么都可以套進去一下。但,Agent 真的有那么好嗎?真的有競爭力嗎?

“ Manus 前陣子剛推出的新功能Wide Research,我覺得非常不具備競爭力,對提高產(chǎn)品競爭力沒有什么用。” 某大型金融企業(yè) AI 技術專家王顯( 化名 )向知危表示。

從 “ 次日即舊 ” 的榜單到被基礎模型一輪升級清場的產(chǎn)品,2025 年的Agent 創(chuàng)業(yè),熱鬧背后是可憐的留存率與漸趨同質(zhì)的體驗。

幾乎所有 Agent 產(chǎn)品都在講 “ 更聰明、更全能、更自動化 ”,但用戶只試用一次就離開的比例居高不下,Demo 能飛,落地常摔,這是否意味著通用型 Agent 的敘事正在透支?

本文,知危把鏡頭拉遠,看看泡沫究竟來自資本驅(qū)動、技術錯配,還是場景誤判?

我們將邀請來自大型企業(yè)、創(chuàng)業(yè)公司的多位一線實踐者,以 Manus 近期的新產(chǎn)品 Wide Research 和公司跑路、撤資事件為引,追問國內(nèi)外 Agent 泡沫亂象現(xiàn)實、背后的原因,以及未來 Agent 賽道的生存規(guī)則。

在交流過程中,知危發(fā)現(xiàn),通用與垂直的取舍和統(tǒng)合是決定去留的關鍵。

實際上,今年 Agent 大火, 主要是在 tool-use 上取得突破,《 知識圖譜:認知智能理論與實戰(zhàn) 》、《 知識增強大模型 》與《 比 RAG 更強- 知識增強 LLM 型應用程式實戰(zhàn) 》作者、大模型技術專家王文廣向知危表示,“ 具體來看,從編程到browser-use,再到 computer-use,以及隨著 MCP 通用接口普及率的提升,Agent 的 tool use 能力得到增強,能夠更高效地從外部獲取信息,以及與外部系統(tǒng)進行交互?!?/p>

平安保險技術平臺組負責人張森森進一步向知危解釋道,“ 技術層面上,協(xié)議逐漸成熟,能力外延擴大,可以通過 MCP 協(xié)議等方式應用到更多場景。應用層面上,有些長尾場景得到了覆蓋,比如從瀏覽器信息助手到執(zhí)行動作的轉(zhuǎn)變:過去只是提供答案,現(xiàn)在能幫助完成動作。生態(tài)層面也降低了一些成本?!?br/>“ 過去廠商比拼模型參數(shù),現(xiàn)在還要比拼模型加生態(tài)工具的組合能力,市場競爭焦點已經(jīng)發(fā)生轉(zhuǎn)移?!?/p>

但這其中,以 Manus 為代表的通用 Agent 類產(chǎn)品一直飽受爭議。

一方面,資本甚是青睞,另一方面,用戶詬病不止。直到最近,Manus 先是跑路,把公司總部從國內(nèi)搬遷到新加坡,隨后推出了 Wide Research 產(chǎn)品,再之后又被曝出將可能因為安全審查問題被強制撤銷融資。

在整個賽道中,炒作了大半年的 Agent 概念,也開始面臨越來越顯性的質(zhì)疑。

王顯向知危詳細解釋了為何 Wide Research 缺乏競爭力,“ 第一,Wide Research確實提高了并行處理的效率,但也非常消耗計算資源和調(diào)用額度,所以它的定價非常貴?!?br/>“ 第二,沒有看到它與單體高性能的 Deep Research 在性能準確度、成本效率上的公開對比或測試,所以不能確定它在使用大量并行任務后,效果是否真的得到提升?!?/p>

“ 最重要的一點是,它仍然沒有解決場景壁壘的問題。”
“ 它沒有專業(yè)數(shù)據(jù)、沒有專屬工具鏈、沒有行業(yè)認證、沒有與業(yè)務深度綁定的集成,也沒有與高價值業(yè)務場景的綁定,也就是任何人都能做。所以,它更偏向工程能力的延伸,而不是在構(gòu)建場景護城河?!?/strong>

“ 當然,早期采用淺而寬的策略來獲客沒有問題,但長期來看,Manus無法抵御模型廠商的下沉和垂直廠商的滲透?!?/p>

“ 所以在我看來,Manus 自始至今,從產(chǎn)品角度而言,思路是完全失敗的?!?/strong>

AI 技術專家和創(chuàng)業(yè)者陳為也基本持一致的觀點:“ Wide Research 的本質(zhì)是 ‘ 規(guī)?;ㄓ萌蝿請?zhí)行器 ’,效率高,但沒有解決 ‘ 決策 ’ 問題?!?/p>

“ 用戶會發(fā)現(xiàn),當他們遇到真正復雜的問題時,這個通用 Agent 還是幫不上忙,最終不得不轉(zhuǎn)向?qū)I(yè)的垂直產(chǎn)品或人工服務,導致用戶留存率不高。”

如果擴大到任意的通用 Agent,則它們都具備一個看似有吸引力但實則致命的特點:任務范圍模糊。

知言吉智 CEO 付瑞吉向知危表示,“ 任務范圍模糊一定會對產(chǎn)品帶來不利的影響。一方面,當一個 Agent 宣稱能做所有事情時,它往往在任何一個領域都做不到最好;另一方面,任務范圍模糊,意味著用戶對于這個 Agent 到底能幫自己解決什么問題也會有困惑,那么這個產(chǎn)品的認知成本就非常高?!?/p>



付瑞吉進一步向知危解釋了近期 Agent 泡沫興起的創(chuàng)業(yè)者心態(tài):“ 大模型的出現(xiàn)讓大家覺得開發(fā)門檻降低了,感覺 ‘ 人人都能做 Agent ’。許多開發(fā)者和創(chuàng)業(yè)公司認為將其包裝成一個能解決各種問題的 ‘ 超級助手 ’,能迅速吸引大量 C 端用戶。通用型 Agent 的核心賣點就是 ‘ 解決所有問題 ’。但現(xiàn)實是,目前為止沒有任何一個 Agent 能真正做到這一點。

王顯更是認為這場泡沫的興起是創(chuàng)業(yè)公司和資本共謀的產(chǎn)物,“ Manus 根本不是在做產(chǎn)品,而是在走資本路線,通過不斷推高市場知名度以獲得更高融資。至于創(chuàng)始人是拿到融資后真正深入場景做產(chǎn)品還是卷錢跑路,只有創(chuàng)始人自己才知道。產(chǎn)品非常失敗,但營銷可以說非常成功?!?/strong>

付瑞吉補充道,“ 營銷只能負責將大眾的注意力吸引過來,但 Agent 不同于內(nèi)容類的產(chǎn)品( 如短視頻 )只要用戶的注意力就夠了,它還是要解決用戶的實際問題的,如果用戶發(fā)現(xiàn)產(chǎn)品 ‘ 華而不實 ’,則很難留存?!?/p>

沐瞳科技大數(shù)據(jù)負責人薛趙明則認為這種產(chǎn)品模式有一定合理性,但還是要區(qū)分 ToC 和 ToB 的邏輯,“ ToC 和 ToB 是兩種邏輯,ToC 需要具備多樣性,這個多樣性也代表了用戶選擇的多樣性,產(chǎn)品力不足的會很快在市場的浪潮中褪去,因為這是一個非常燒錢的賽道,沒有用戶的沉淀和付費是很難長期堅持的。ToB 又是另一個商業(yè)邏輯,必須強調(diào)可落地和可交付,否則便是無用的。”

王顯以 Wide Research 為例解釋了為何通用 Agent 產(chǎn)品現(xiàn)階段對于企業(yè)用戶無用,“ 對于企業(yè)而言,Wide Research 并沒有說明 Agent 是如何分工、如何合作、如何整合各自結(jié)果的,它們之間的協(xié)調(diào)協(xié)議和調(diào)度機制也不明確。那我最后怎么去做審計呢?作為企業(yè),我必須審計這個過程是否合規(guī),以及在執(zhí)行過程中到底發(fā)生了什么。所以我沒辦法信任它給出的最終結(jié)果?!?/p>

“ 尤其是在金融行業(yè),我們可能花了很長時間跑出一個結(jié)果,如果它直接告訴我買哪只股票、投哪家公司,我不可能只憑這個結(jié)果就去執(zhí)行?!?/strong>

Manus 雖然接受了中外多個基金的投資,但運營主要面向海外市場,而且總部已經(jīng)搬遷到新加坡,其代表的只是 Agent 泡沫的一小部分組成。

但聚焦到國內(nèi),情況也并不樂觀,甚至可以說有太多相似之處。

薛趙明表示,“ 實際上,當前無論是創(chuàng)業(yè)公司,還是一線的云廠商的產(chǎn)品,大部分的產(chǎn)品都還是在一個特定場景下去演示,真正的規(guī)模化落地還是偏少。”

張森森表示,“ 國內(nèi)很多 Agent 產(chǎn)品功能繁多,但基本都是快速堆疊,痛點不聚焦。”

“ 比如有大量集成了寫文案、做 PPT、查資料、生成圖片等功能的產(chǎn)品,不乏大廠參與其中。它們都有通用 Agent 的特點,功能多但不精。寫代碼準確率不高,數(shù)據(jù)分析缺少可解釋性,設計產(chǎn)出質(zhì)量參差不齊。初次使用可能覺得新鮮,但要長期依賴則難以實現(xiàn)。很少有明確與工作流、KPI 綁定的可交付結(jié)果?!?/strong>

“ 具體到一些金融類工具型 APP( 公司主體一般沒有正式的金融業(yè)務牌照 ),比如炒股平臺,會提供所謂的智能投顧功能。當我打開某只股票時,它可能提示該股票出現(xiàn)‘紅三兵’,未來可能上漲,但這樣的判斷缺乏準確性?!?br/>“ 因為它只是摘錄過去的一些市場信息,而二級市場的信息來源非常多,決策點也很多,這類產(chǎn)品完全無法體現(xiàn)這些復雜因素??雌饋硐袷亲隽艘粋€智能投顧,但實際上既沒有真正實現(xiàn)投資組合優(yōu)化、風險控制,也無法對接交易系統(tǒng),無法支撐其宣傳的定位?!?/p>


目前市面上沒有一家能真正把智能投顧功能做好。實際上,大部分經(jīng)紀公司都有相關部門去做這件事。問題在于,一方面他們覺得必須做,另一方面看到大模型似乎能解決問題,就開始投入開發(fā),完成后立刻做宣傳,聲稱接入了大模型并具備某種能力?!?/p>

“但這里的問題在于,他們的宣傳能力與實際能力并不匹配,并非能力完全無用,而是存在明顯落差?!?/strong>

王文廣表示,“ 成功演示的往往是任務中那 20% 的標準化部分,而真正構(gòu)成工作核心的,是那 80% 的、充滿‘長尾異?!膹碗s現(xiàn)實?!?/strong>

就連大家目前普遍主動或被動接觸過的AI搜索,其實也還很初級,Jina AI 前 CTO 王楠向知危表示,“ Agent 目前能夠多輪使用簡單工具或者單輪使用復雜工具,但是多輪使用復雜工具( 例如搜索工具 )的能力還沒有達到生產(chǎn)可用。從BrowseComp Benchmark 上看,搜索大模型在使用搜索工具方面還有很大的提升空間。這種差距的原因在于大模型在使用通用工具上的能力還沒有迎來ChatGPT時刻?!?/strong>

白鯨開源 CEO 郭煒向知??偨Y(jié)道,“ 目前整體來看,各種 Agent 產(chǎn)品給人的驚喜度確實不夠。因為現(xiàn)在 Agent 技術本身還沒有進入成熟或真正可用階段,技術生態(tài)不完善。甚至關于Agent 的理念,大家都還沒有想清楚。”

“ 國內(nèi)大多數(shù)所謂的 Agent 其實并不是真正的 Agent,只是為了吸引眼球而這么命名。在我理解中,能夠替代 ToB SaaS 和 ToC APP 的那種 Agent 產(chǎn)品還沒有出現(xiàn)。國內(nèi)品牌都是如此?!?/p>

“ 換句話說,現(xiàn)在的 Agent 大多是套了自然語言交互外殼的 RPA( 軟件機器人流程自動化 ),普遍缺乏深度。那為什么不直接用 RPA 呢?RPA 還沒有幻覺?!?/strong>

這種 “ 名不副實 ”的現(xiàn)象,王文廣指出,是所謂的“智能體洗白”( Agent Washing ),在行業(yè)中已非常普遍。

“ 這是 ‘ 能力泡沫 ’ 的直接產(chǎn)物。公司利用市場對 ‘ Agent ’ 一詞的追捧來吸引投資和用戶。最直接的例子是,有權威報道指出,全球幾乎所有在 2022 年底 ChatGPT 之前就在所謂的 RPA 等賽道上有所成就的企業(yè),都在掛智能體的羊頭賣 RPA 的狗肉。”

Gartner 今年 6 月的市場分析報道表明,其在測試的 ‘ 數(shù)千款 ’ 所謂的 Agent 產(chǎn)品中,只有約 130 款真正符合標準。

“ 所以,可以做個簡單的排除法,尋找智能體或大模型落地的供應商,首先排除掉以往做過 RPA 的企業(yè),這可以避免一半的坑。投資也是一樣?!?/strong>

王文廣還總結(jié)了 C 端和 B 端 Agent 泡沫的一般特征,“ToC 泡沫主要由對 ‘ 通用個人助理 ’ 的夢想驅(qū)動,ToB 泡沫更多是由企業(yè)的提高生產(chǎn)力、降低成本的焦慮所驅(qū)動?!?/strong>

“ ToC 的這種愿景極具吸引力,容易引發(fā)病毒式傳播和媒體的廣泛關注,從而在短期內(nèi)催生出極高的估值和用戶增長預期,但當產(chǎn)品體驗達不到預期,用戶會毫不猶豫地離開?!?/p>

“ ToB 領域則由于企業(yè)軟件的銷售周期長、決策鏈條復雜,并且一旦部署,即使效果不佳,替換成本也相對較高,從而顯得其泡沫更具欺騙性,也更慢地顯現(xiàn)。

如果將國內(nèi)外的 Agent 泡沫現(xiàn)象綜合起來,則又是另一番景象。

張森森解釋道,“ 國內(nèi)外的 Agent 泡沫表現(xiàn)并不相同。比如美國,其優(yōu)勢是在 B 端,但泡沫不在 B 端,而是在 C 端,一些通用型消費級助手類 Agent 的投資方可能來自硅谷大基金。這些機構(gòu)在早期投資時,美國對數(shù)據(jù)安全還沒有嚴格限制。但隨著數(shù)據(jù)隱私法比如 GDPR、CCPA 等監(jiān)管措施落地,尤其是在跨境場景下,AI的安全審核要求變高,很多競爭者被迫增加合規(guī)與差異化投入,結(jié)果加快了行業(yè)洗牌速度,把不少做通用型 APP 的企業(yè)淘汰出局。”

“ 國內(nèi)的泡沫很特殊,雖然用戶集中在 C 端,但泡沫幾乎只存在于 B 端。原因是 B 端企業(yè)受補貼、國產(chǎn)化等政策影響,同時市場內(nèi)卷嚴重,用戶更注重實用性而非炒作。B 端用戶相對冷靜,因此很多 ToB 初創(chuàng)公司迅速倒閉,一些去年還在討論的公司今年已經(jīng)消失,泡沫破滅速度會很快?!?/strong>



當前的 Agent 產(chǎn)品普遍缺陷明顯,可以從產(chǎn)品、工程、場景等多方面理解。

產(chǎn)品層面主要是可靠性不足。對于為何大部分 ToC Agent 產(chǎn)品中,90% 的用戶用一次就離開,郭煒表示,“ 這很正常,因為它還不如直接用 APP。真正的 Agent 應該比 APP 更方便、更簡單?!?/p>

“ 而如果是 To B 產(chǎn)品,必須比現(xiàn)有軟件更簡單、準確、方便。本來用戶點三下鼠標就能完成的事,現(xiàn)在用 Agent 卻要用自然語言先說一句話,然后再跟它說十句話,才能替代原本三次點擊的工作。這樣的體驗讓人寧愿直接點鼠標?!?/strong>

王文廣表示,“ 換句話說,最根本的原因是,對于大多數(shù)真實世界任務,用戶為驗證和修正 AI Agent 輸出所付出的心智成本和時間成本,超過了 Agent 本身所節(jié)省的成本?!?/strong>

“ ‘ 通用個人助理 ’ 承諾的是一個科幻級別的未來。其所要處理的任務,如預訂家庭旅行、管理個人財務、安排重要會議,都具有一個共同點:高信任要求。例如,用戶需要確信 Agent 不會訂錯機票、不會泄露財務信息、不會搞砸會議時間?!?/p>

“ 然而,當前大模型的 ‘ 幻覺 ’、知識陳舊等問題和 Agent 執(zhí)行的脆弱性,使得其可靠性極低?!?/p>

“ 這種 ‘ 高信任要求 ’ 與 ‘ 低可靠性 ’ 之間的巨大鴻溝,或未能穩(wěn)定地跨越從 ‘ 新奇玩具 ’ 跨越到 ‘ 可靠工具 ’,是 C 端通用 Agent 無法獲得用戶長期留存的根本原因。用戶可以容忍一個聊天機器人講錯一個歷史知識,但絕不能容忍一個 Agent 訂錯一張機票?!?/strong>

而且目前 Agent 產(chǎn)品有從訂閱制走向按結(jié)果付費的趨勢,這其實也給通用 Agent 創(chuàng)業(yè)公司帶來了壓力。 “ 這種商業(yè)模式的演進,本質(zhì)上是一次風險轉(zhuǎn)移,將產(chǎn)品無效的風險從客戶身上轉(zhuǎn)移到了服務提供商身上,而 ToC 的通用 Agent 的不可靠性使其極難承受這種風險。反倒是 ToB 領域,可以選擇合適的場景,通過效果所創(chuàng)造的價值進行分成,是有利的。”

張森森從工程角度總結(jié)了許多 Agent 產(chǎn)品無法落地的原因:“ 第一,真實環(huán)境非常復雜,不可能像實驗環(huán)境那樣數(shù)據(jù)干凈。現(xiàn)實中數(shù)據(jù)質(zhì)量往往較差,接口口徑不一致?!?/p>

“ 第二,很多接口需要跨系統(tǒng)權限訪問,要做 SSO( 單點登錄 ),還涉及數(shù)據(jù)脫敏,這些環(huán)節(jié)很容易卡住,導致平臺間的對接受阻。工具本身存在脆弱性,比如瀏覽器系統(tǒng)自動化可能對 DOM 版本極其敏感,API 的速率限制等問題也可能導致頻繁重試?!?/p>

“ 第三,存在狀態(tài)和記憶缺失的問題。就像長鏈路任務中缺乏持久狀態(tài),上下文無法保存,狀態(tài)機失效,無法接著上次任務繼續(xù),只能從頭開始?!?/p>

“ 第四,缺少驗證和回滾機制,沒有二次校驗或回滾策略?!?/p>

“ 第五,SLA( 服務商與客戶之間對質(zhì)量標準、性能指標等的約定 )和成本存在約束。企業(yè)使用時必須考慮成本,服務需要有保障,確保 TCO( 總擁有成本 )大于業(yè)務收益?!?/p>

“ 第六,缺乏合規(guī)與審計能力。生產(chǎn)過程要可追溯、可解釋,并具備權限與操作流程控制。但在各個平臺的演示中幾乎看不到這一點,而這恰恰是企業(yè)最重要的需求。

在場景層面,郭煒認為,這個原因可以非常簡單,“ 沒有真正深入到用戶場景中去做?!?/strong>

“ 大部分 Agent 仍是由處在特別早期階段的創(chuàng)業(yè)者在推動。但真正有價值的 Agent,需要在某個業(yè)務領域有深厚積累的人或公司來做?!?/strong>

張森森持相似觀點,“ 實際上,國內(nèi)外當前都太把技術當回事了,太關注技術使得大家在做大模型和Agent都是圍繞技術來構(gòu)建的。通俗來說就是,技術有什么東西,我做什么東西。”

王文廣補充道,“ 當前,AI 公司往往不了解業(yè)務,業(yè)務公司則沒有準確理解AI智能體技術。對 AI 方或業(yè)務方來說,都應該了解技術邊界,知道智能體能做什么不能做什么,同時結(jié)合業(yè)務,才會做好這事?!?/p>

但 Agent 不只是獨立地去攻克一個個場景就可以了,其帶來的變革是生態(tài)級別的。

郭煒表示,“ Agent 本身是一個大的生態(tài),就像軟件或 SaaS 生態(tài)一樣。未來它會形成一個完整的生態(tài)體系,只有這個生態(tài)真正建立起來,才能形成所謂的 Agentic Stack,在 Agent 時代承接并轉(zhuǎn)化原有生態(tài)?!?/strong>

“ 這個生態(tài)規(guī)模很大。以 ToC 的手機端為例,目前手機端還沒有出現(xiàn)通用型APP,需要在垂直領域中出現(xiàn)對應的 Agent,例如類似國內(nèi)的攜程、小紅書等級別并且更方便的Agent,才能支撐起生態(tài)的第一層?!?/strong>
“ 生態(tài)的第二層才是通用型 Agent,通用 Agent 的核心在于入口,例如 Apple Intelligence 就是一個入口。”

“ 而入口之爭本質(zhì)是流量之爭,而不是技術或產(chǎn)品本身。誰能夠搶占新一代 Agent 的流量,誰就能在通用 Agent 領域占據(jù)優(yōu)勢?!?/strong>

從這個角度看,似乎 Manus 的流量打法也有一定的合理性?但王顯并不這么認為,他指出應用層的創(chuàng)業(yè)公司沒有機會去搶占這個流量入口。


也就是說,創(chuàng)業(yè)公司無法繞過生態(tài)的第一層,直接跳到第二層,成為流量入口?!?創(chuàng)業(yè)公司現(xiàn)有的 Agent 產(chǎn)品要結(jié)合到生態(tài)鏈中去,比如蘋果或者微信的生態(tài),再把AI能力融合進去,相當于通過 AI 對已有生態(tài)鏈做增強。要實現(xiàn)這一點,要么擁有場景,要么擁有數(shù)據(jù)。”

如果想直接跳躍到第二層生態(tài),就會面臨 Manus 當前的困境,“ 從用戶視角來看,Manus 這類產(chǎn)品已經(jīng)出現(xiàn)用戶數(shù)量下滑、使用意愿不足的情況。無論是創(chuàng)業(yè)公司還是老牌公司,首先要解決的就是生存問題。產(chǎn)品必須有正向 ROI,要能價值兌現(xiàn),且使用成本不能太高。但 Manus 的產(chǎn)品正好存在價值兌現(xiàn)不足的問題,而且時間、學習和金錢成本都過高?!?/p>

王顯還認為,流量入口也不是 OpenAI 這類公司的發(fā)展方向。“ OpenAI 是創(chuàng)業(yè)公司,但也是大模型廠商,肯定不會去做流量入口。相比 Anthropic、Google,OpenAI 更面向大眾,比如 ChatGPT、Sora 這樣的產(chǎn)品,特征是注重體驗、規(guī)模化和生態(tài)擴展。他們的目標是底層基礎設施供應,同時在 C 端和長尾 B 端場景做推廣。”

郭煒表示,“ 像蘋果這樣的公司,天然具備優(yōu)勢去打造移動端的完全通用型 Agent。理想狀態(tài)下,用戶只需說一句 ‘ 幫我訂一張去上海的機票 ’,通用助手Agent 就能自動調(diào)用多個 APP 或 Agent 服務協(xié)同完成整個流程?!?/p>

“ 在 ToB 領域也是類似的邏輯,每個垂直方向的 SaaS 都會出現(xiàn)對應的 Agent,需要是真正意義上屬于 Agent 時代的軟件,之后才會出現(xiàn)入口級通用 Agent。否則,入口級通用 Agent 即使想做,也無法與底層垂直領域的 Agent 有效銜接。即便使用 MCP 的 Server 來連接,中間也會損失大量信息,導致結(jié)果不準確,無法滿足客戶需求?!?/strong>

“ 現(xiàn)階段應優(yōu)先在垂直領域啟動 Agent 落地,無論是 To B 還是 To C,都應在原有賽道中先行深耕,逐步培育生態(tài)?!?/p>



以上,我們描述了 Agent 泡沫的總體情況,可以看到,造成這一現(xiàn)象的根本,還是在技術受限、行業(yè)規(guī)律甚至一些痼疾的背景下,創(chuàng)業(yè)公司和大廠對 Agent 產(chǎn)品在生態(tài)中的定位有著錯誤的認識。

接下來,知危將對這些背景進行更加細致的闡述。

其中,技術受限包括 MCP 協(xié)議限制、AI 幻覺限制、多智能體擴展限制、上下文長度限制、大模型智能限制等。

行業(yè)規(guī)律、痼疾則指向資本炒作、大模型行業(yè)競爭的殘酷規(guī)律以及國內(nèi)特有的老問題。



郭煒表示,“ 關于使用 MCP Server 會導致信息損失,這一點非常重要。最終,Agent 應該采用 A2A( Agent to Agent )的協(xié)議,服務于垂直Agent之間的通信,才能完整完成任務?!?/strong>

“ 而 MCP 是通用 Agent 與外部數(shù)據(jù)源之間的通信協(xié)議。當調(diào)用 MCP 時,不可避免地會將自然語言信息轉(zhuǎn)換成結(jié)構(gòu)化的 query 或結(jié)構(gòu)化的 ADB 請求來執(zhí)行操作,這一轉(zhuǎn)換的準確率需要由調(diào)用方來保證。但通用 Agent 要在專業(yè)領域內(nèi)準確地將專業(yè)詞匯翻譯成精確指令,再交由原有程序執(zhí)行,在現(xiàn)實中非常困難?!?br/>“ 以我們正在做的 Data Agent 為例,這項工作需要較長時間推進,因為必須自底向上完成建設。過去的數(shù)據(jù)底層通常是裸數(shù)據(jù),例如 CSV 文件,里面是各種原始數(shù)據(jù)。未來需要將這些數(shù)據(jù)轉(zhuǎn)化為帶有語義的 Contextual Data Unit( CDU ),才能被上層 Agent 有效消費。因此必須了解企業(yè)所有表的字段含義及數(shù)據(jù)意義,需要非常專業(yè)的數(shù)據(jù)獲取廠商來完成?!?/p>

“ 例如,‘ 消費金額 ’ 必須明確對應哪個系統(tǒng)、什么業(yè)務的消費金額,Agent 才能理解。否則,如果上層 Agent 僅接到 ‘ 獲取消費金額 ’ 的指令,它必須再去解析并定位到 Salesforce 系統(tǒng)中的特定交易表及其規(guī)則。比如讓 MCP Server 將請求翻譯成 SQL 再下發(fā)到 Salesforce 查詢數(shù)據(jù),但它并不知道 ‘ 消費金額 ’ 在當前語境下的具體含義,是來自 Salesforce、SAP,還是其他系統(tǒng)。它甚至不了解 Salesforce、SAP 分別是什么?!?/p>

“ 這不僅是當前 Agent 技術無法實現(xiàn)的,甚至人類在缺乏上下文的情況下也很難完成?!?/p>

“ 因此,通用 ToB Agent 并不是 ‘ 在 MCP 上套一層通用 Agent ’ 就能實現(xiàn)的,而必須由基于 A2A 的多個專業(yè)領域的 Agent 相互協(xié)作( Agent + Agent )實現(xiàn)。”

“ 相比之下,提示詞專業(yè)性、token 成本爆炸等都是更加次要的,會隨著時間自然解決?!?/p>



Agent 還有一個永遠無法解決的問題,那就是底層大模型的幻覺。已有研究證明,大模型無法從理論上完全消除幻覺。
“ 在現(xiàn)有大模型技術下,有許多場景嘗試進行完全 Agent 化,但效果并不理想。”

“ 以自動編碼為例,各種號稱能夠代替人類編碼的工具,無論是帶 Agent 的 Claude Code、Cursor,還是Augment Code等,都無法真正替代程序員的工作。無論是初級、中級還是高級崗位,都仍需配備人類程序員進行檢驗和監(jiān)督。否則一旦幻覺出現(xiàn)且缺乏有效控制,風險極高。例如,近期某公司在使用自動化工具 Replit 時出現(xiàn)誤操作,導致數(shù)據(jù)庫被刪除。”

“ 目前也沒有特別好的方式來自動定位和追溯幻覺。在校驗中,雖然無法校驗所有環(huán)節(jié),但可以抽檢一兩個關鍵點,并用傳統(tǒng)方法或知識庫進行糾錯和約束。”

“ 幻覺在前期溝通階段有一定優(yōu)勢,因為它可能帶來一些創(chuàng)新性想法。但在企業(yè)落地執(zhí)行階段,應盡量控制甚至避免使用大模型。在 Agent 執(zhí)行任務時,為緩解幻覺,只有借助 workflow 才能保證足夠的確定性?!?/strong>

“ 總之,大模型和 Agent 在目前更多是作為效率工具,顯著提升了開發(fā)能力。例如,我自己現(xiàn)在幾乎沒有時間寫代碼,對一些新發(fā)布的 Python 函數(shù)也不了解,但大模型能夠知曉并直接為我生成代碼,還能解釋邏輯。這樣我只需驗證邏輯是否正確并運行,就能快速完成任務。這種方式不僅比我親自編寫代碼更快,有時生成的算法思路甚至比我原本設想的更好?!?/p>

王文廣指出,思維鏈的幻覺其實在 Agent 產(chǎn)品中也非常常見,“ 這通常被稱為過程幻覺,即 AI 編造了一個它并未執(zhí)行或執(zhí)行失敗的操作過程。

“ 它輸出的不是真實的操作日志,而是它生成的一個 ‘ 看起來像是成功了的 ’ 操作日志。例如,它聲稱 ‘ 我已經(jīng)成功運行了測試,所有測試都通過了 ’,但實際上它可能根本沒有能力或權限去運行測試,或者實際測試運行失敗了?!?/p>

“ 從這點也可以看出,在許多情況下, 單純依靠大模型,存在非常多無法解決的問題。如果把所有問題當做一個平面,大模型能夠解決的問題是平面上的布,無法解決的問題是孔,那么可以看到,這個平面是千瘡百孔的。”



在 Agent 框架設計方面,目前領域內(nèi)有一個被過分炒作的概念,那就是多智能體。

當前實際應用中,智能體之間的交互主要限于兩個智能體。編程體驗后來居上的 Claude Code 也沒有使用多智能體協(xié)作機制。

張森森表示,“ 單智能體或雙智能體已經(jīng)能覆蓋 80% 的企業(yè)業(yè)務場景,此外,限于雙智能體也是出于成本考量?!?/strong>

“ 具體來說,多智能體會顯著增加復雜度,容錯設計難度提升,開發(fā)、維護、算力成本更高,收益和成本不匹配。引入更多智能體未必能提升效果,同時也難以抵消延遲,并會使得系統(tǒng)更加不穩(wěn)定。用戶體驗最終取決于響應速度,穩(wěn)定性方面,智能體越多越容易跑偏,可能出現(xiàn)循環(huán)對話、信息丟失等問題,還需要額外監(jiān)督和約束,復雜度會越來越高?!?/p>

“ 多智能體的案例也有,比如一些游戲公司在做 AI 團隊游戲,在沙盒環(huán)境里嘗試多智能體交互。但對大部分企業(yè)而言,并不需要這種復雜度?!?/p>

王文廣補充道,“雖然在一些對協(xié)調(diào)和優(yōu)化要求極高的特定領域,已經(jīng)出現(xiàn)了更復雜的、已實際落地的多智能體系統(tǒng)案例,但絕大多數(shù)情況下, 應該優(yōu)先解決簡單的問題。”



基礎模型能力方面,當前非常核心的一個限制還是上下文長度。雖然 OpenAI、Anthropic、谷歌等 AI 公司一直宣稱模型上下文達到數(shù)十萬、上百萬 token,但Reddit 社區(qū)反饋其中水分很大,有時幾萬 token 輸入下,模型準確率就大幅下降。

張森森表示,“ 實際體驗來看,大部分廠商宣稱的上下文長度確實水分很大,別說兩三千行代碼,甚至一千多行時就開始丟失信息了?!?/strong>

“上下文長度代表了基礎模型能力的天花板,特別在 Coding Agent 場景中,基本就是硬天花板的程度?!?/strong>

“ 在企業(yè)內(nèi)部優(yōu)化這個問題不僅很難,而且也不是靠企業(yè)自己能完全解決的??蛇x的方案有:代碼檢索以及更加智能的代碼檢索;動態(tài)上下文管理,只加載與本次修改相關的依賴文件。但這些都治標不治本?!?/p>

“ 對資深程序員來說影響不大,他們能很快發(fā)現(xiàn)邏輯缺口?!?/p>

“ 但對初學者來說,一旦項目規(guī)模大,IDE 頻繁加載就會崩潰。項目規(guī)模一大,就會涉及很多模塊和依賴,甚至是跨模態(tài)的復雜系統(tǒng)。模型不得不頻繁丟失上下文、重新加載信息,導致迭代過程完全斷裂,忘記之前的決策,甚至可能出現(xiàn)重復造輪子的情況?!?/p>

郭煒補充道,“ 當前的限制不僅來自模型本身,還與底層芯片架構(gòu)有關,包括顯存、外部存儲等都需要進一步提升?!?/strong>

王顯認為,在硬件基礎設施的限制下,上下文長度瓶頸對于國內(nèi)而言將是更嚴峻的問題。

“ 國外芯片比如英偉達 H100、A100 這樣的高端 GPU,能夠更高效地進行分片計算,處理幾十萬、上百萬 token 上下文。同時它們也有軟件層面的優(yōu)化,比如 FlashAttention 工具、針對張量計算的優(yōu)化配置等,這些都是通過軟硬件結(jié)合來提升性能的?!?/p>

“ 相比之下,國內(nèi)主要通過算法優(yōu)化和軟件工程做一些 ‘ 曲線救國 ’ 的工作。類似的,DeepSeek、Kimi 等團隊也在發(fā)布各種上下文剪裁、分層記憶、稀疏 Attention 等方法,其實都是一些面向低成本的方案?!?/p>


“ 一些國內(nèi)廠商號稱自己的高端 GPU 在浮點性能、顯存、寬帶等各方面和 H100 很相近,但其實還是有很大差距的。國外的頂配集群,比如 H100 加 NVLink Switch,能輕松地應對百萬級 token 推理?!?/p>

王文廣表示,“ 實際上就是 AI 芯片的存儲容量和帶寬限制了推理的極限,不管是國內(nèi)外都是這樣的?!?/strong>

“ HBM 是通用 GPGPU 最好的選擇,但專用的推理芯片有很多不同的路線,比如使用 3D 堆疊的專門的 AI 芯片。

“ 國內(nèi)有一些如 CiMicro.AI 這樣非常前沿的AI芯片公司,和寒武紀、華為、海光等走了不同的路線,將 3D DRAM 用于 AI 推理芯片上,如果成功流片,帶寬能夠得到極大的提升,比英偉達用的 HBM 還高一個量級,從而大模型的推理速度將得到極大的提升,長上下文和深度思考則會對 Agent 有極大的促進?!?/p>



除了上下文長度之外,更大的限制,自然來自基礎模型的智能極限了,特別是近期被詬病平庸的 GPT-5 發(fā)布后。

客觀來看,GPT-5 的更新點是在產(chǎn)品層面,把幻覺降得特別低,這在消費級用戶看來不太友好,但對編程來說非常有用,可靠性很高。對于專業(yè)用戶而言,有時甚至比 Claude 4 還好用一些,因為 GPT-5 在 Agentic Coding 中傾向 “ 精準定位問題 ” 和 “ 最小侵入修改 ”,而 Claude 4 自主性更強,寫的代碼更復雜,需要特別提醒才會選用最簡方案。

那么,從這個角度看,一直以消費級用戶為主體的 OpenAI 未來是否想更多向 B 端推進?


張森森表示,“ 如果是,那也是不得已而為之?,F(xiàn)在 GPT-5 是通過多模型路由來提高上限,基本意味著大模型的 Scaling Law 幾乎已經(jīng)失效,單模型上很難再高效提升。其實 GPT-5 的發(fā)布本身就有點 ‘ 難產(chǎn) ’ 的意味,更像是一種形式,而不是自然的過程。未來基礎模型能否進一步進化,還需要觀察?!?br/>“ 這也是為什么大家都在強化 Agent 能力。相比基礎模型,Agent 的可解釋性相對更好一些,能更好結(jié)合具體業(yè)務場景去提升實際能力。但基礎模型往往也決定了 Agent 的上限。”
“ 后面大模型的走向可能更多會朝垂直方向發(fā)展,參數(shù)量未必再無限增大,而是聚焦在更細分的場景?!?/p>

大模型廠商經(jīng)常在營銷中刻意忽視模型當前的智能上限,而過分強調(diào)可以放心地依賴大模型全權執(zhí)行工作,比如 Claude 甚至介紹了一種簡單粗暴的使用經(jīng)驗,他們內(nèi)部用 Claude Code 寫代碼的時候,有一個原則就是 “ 不行就重來 ”。

王文廣表示,“ ‘ 不行就重來 ’ 的策略,跟金錢和時間等無關,跟解決問題的復雜程度有關。簡單來說,在原型探索階段或者簡單的應用中,是一種有效的捷徑,但在嚴肅的、可維護的較為復雜的生產(chǎn)環(huán)境中,這是一種不可持續(xù)且極具破壞性的工作模式?!?/strong>

對于基礎模型本身,王文廣則認為還會繼續(xù)進步,“ 整個 Agent 生態(tài)系統(tǒng),也都在等待基礎模型的下一次重大突破。一旦新的、更強大的基礎模型出現(xiàn),它將立刻抬高整個 Agent 生態(tài)系統(tǒng)的能力天花板,催生出新的應用?!?/p>

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
護士夜班后續(xù):已12回,女子被扒學習差,男子開寶馬,如今還嘴硬

護士夜班后續(xù):已12回,女子被扒學習差,男子開寶馬,如今還嘴硬

鋭娛之樂
2026-01-03 23:00:18
三亞不香了?東北人撤離成潮,壓垮他們的不是物價,而是生活現(xiàn)實

三亞不香了?東北人撤離成潮,壓垮他們的不是物價,而是生活現(xiàn)實

青眼財經(jīng)
2026-01-02 23:58:07
一飯桌抓拍,撕開王石和田樸珺的“體面”!兩人只剩一家共同公司

一飯桌抓拍,撕開王石和田樸珺的“體面”!兩人只剩一家共同公司

火山詩話
2025-12-30 09:11:12
馬杜羅被擒,特朗普宣布獲勝,殊不知釀成大禍,美國或成最終輸家

馬杜羅被擒,特朗普宣布獲勝,殊不知釀成大禍,美國或成最終輸家

博覽歷史
2026-01-04 11:29:46
福建20歲女網(wǎng)紅在柬埔寨街頭流浪,面容憔悴疑似受傷,父親:9天前女兒曾要錢看病,報警后才知她去年4月已出國

福建20歲女網(wǎng)紅在柬埔寨街頭流浪,面容憔悴疑似受傷,父親:9天前女兒曾要錢看病,報警后才知她去年4月已出國

極目新聞
2026-01-04 13:50:57
2026年韓國最低時薪10320韓元!最低月薪是…

2026年韓國最低時薪10320韓元!最低月薪是…

奮斗在韓國
2026-01-04 14:03:39
極目政情丨68歲“內(nèi)鬼”許傳智被開除黨籍,曾在中紀委工作超30年,被批家風不正、執(zhí)紀違紀、執(zhí)法犯法

極目政情丨68歲“內(nèi)鬼”許傳智被開除黨籍,曾在中紀委工作超30年,被批家風不正、執(zhí)紀違紀、執(zhí)法犯法

極目新聞
2026-01-04 16:53:26
上海通報:崇明房屋征收事務所公職人員陳淵,接受審查調(diào)查

上海通報:崇明房屋征收事務所公職人員陳淵,接受審查調(diào)查

上觀新聞
2026-01-04 16:40:04
日媒:如何就美國突襲委內(nèi)瑞拉表態(tài),高市陷入兩難

日媒:如何就美國突襲委內(nèi)瑞拉表態(tài),高市陷入兩難

參考消息
2026-01-04 14:43:05
未來10年,大量丁克將陷入新型破產(chǎn):有房有存款,但和你沒關系了

未來10年,大量丁克將陷入新型破產(chǎn):有房有存款,但和你沒關系了

深度報
2026-01-02 22:42:31
直降1000元,蘋果突然官降,有點意外啊!

直降1000元,蘋果突然官降,有點意外啊!

科技堡壘
2026-01-04 11:37:39
華北農(nóng)村過冬太難!燃氣費居高不下,偷燒煤會遭無人機巡查

華北農(nóng)村過冬太難!燃氣費居高不下,偷燒煤會遭無人機巡查

爆角追蹤
2026-01-04 13:52:23
湖北省政協(xié)原黨組成員、副主席周先旺嚴重違紀違法被“雙開”

湖北省政協(xié)原黨組成員、副主席周先旺嚴重違紀違法被“雙開”

界面新聞
2026-01-04 16:03:03
突發(fā)! 大批澳洲華人無法使用國內(nèi)app, Optus回應: 已阻斷和澳洲之間的全部聯(lián)網(wǎng)

突發(fā)! 大批澳洲華人無法使用國內(nèi)app, Optus回應: 已阻斷和澳洲之間的全部聯(lián)網(wǎng)

澳微Daily
2026-01-04 15:00:01
美軍突襲抓獲馬杜羅,三個細節(jié)值得關注

美軍突襲抓獲馬杜羅,三個細節(jié)值得關注

中國能源網(wǎng)
2026-01-04 15:34:08
滿是心酸!42歲著名歌手江蘇走穴,賓客只顧吃席沒人搭理

滿是心酸!42歲著名歌手江蘇走穴,賓客只顧吃席沒人搭理

查爾菲的筆記
2026-01-04 13:13:57
臺灣社會反彈,陳水扁新節(jié)目黃了!疑卓榮泰傳話:開播就抓回去關

臺灣社會反彈,陳水扁新節(jié)目黃了!疑卓榮泰傳話:開播就抓回去關

海峽導報社
2026-01-04 11:16:12
環(huán)臺軍演第二天,臺軍放狠話:要打第一槍!若敢動手就是統(tǒng)一之日

環(huán)臺軍演第二天,臺軍放狠話:要打第一槍!若敢動手就是統(tǒng)一之日

議紀史
2026-01-03 16:55:03
司曉迪瘋狂開大!自曝睡過鹿晗、林更新、檀健次,關曉彤受牽連

司曉迪瘋狂開大!自曝睡過鹿晗、林更新、檀健次,關曉彤受牽連

葉公子
2026-01-03 13:00:17
哥倫比亞加強總統(tǒng)佩特羅安全保護

哥倫比亞加強總統(tǒng)佩特羅安全保護

國際在線
2026-01-04 16:31:11
2026-01-04 18:16:49
知危 incentive-icons
知危
投資不立危墻之下
515文章數(shù) 1829關注度
往期回顧 全部

科技要聞

獨家|宇樹科技上市綠色通道被叫停

頭條要聞

2026年新年首個工作日 中紀委連打4“虎”

頭條要聞

2026年新年首個工作日 中紀委連打4“虎”

體育要聞

球隊陷入危難,一名44歲教練選擇復出打球

娛樂要聞

《小城大事》上星央八 熱血筑夢正當時

財經(jīng)要聞

委內(nèi)瑞拉變局對原油美元黃金的連鎖沖擊

汽車要聞

最高續(xù)航310km 嵐圖泰山8或?qū)⑸习肽臧l(fā)布

態(tài)度原創(chuàng)

房產(chǎn)
健康
游戲
旅游
公開課

房產(chǎn)要聞

單盤最高狂賣64億!海南樓市2025年最全榜單發(fā)布!

這些新療法,讓化療不再那么痛苦

國產(chǎn)ARPG單機大作招新人!月薪1萬-1.5萬

旅游要聞

鳳陽縣2026元旦大明文化巡游啟幕 沉浸式解鎖千年古都新年味

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版