網易首頁 > 網易號 > 正文申請入駐

AI Agent，下一個爆款級AI應用？

2024-08-28 22:11:58　來源: 極智GeeTech

北京舉報

分享至

如果說AIGC開啟了內容生成的智能時代，那么AI Agent則有機會把AIGC的能力真正產品化。

與ChatGPT等AI應用相比，AI Agent像一位更具象的全能員工，被視為人工智能機器人的初級形態(tài)，軟硬件兼顧的智能體能夠如同人類一般觀察周圍的世界、做出決策并自動采取相應的行動。

AI Agent的想象力到底在哪？“大語言模型只能編個貪吃蛇，而AI Agent可以整出一個‘王者榮耀’�！边@是網上盛傳的回答，似乎并不夸張。比爾·蓋茨也曾說過，“誰能主宰AI Agent，那才是大事。因為你將永遠不用去搜索網站或者亞馬遜。

從技術到場景，摸著石頭過河

從AIGC發(fā)展看，大致經歷了三波浪潮。第一波是以GPT為代表的大模型的出現；第二波是應用層的快速創(chuàng)新，如微軟Copilot，使智能化從Chat向Work轉化；第三波則是深度業(yè)務場景的應用，打通業(yè)務數字化全流程，服務實體經濟。

在滿足企業(yè)智能化需求、打通業(yè)務場景的過程中，AI Agent作為一種理想的產品化落地形態(tài)，正在承接日益復雜的提質增效需求，并強化內外部協(xié)同效能，釋放組織核心生產力，對抗組織熵增帶來的挑戰(zhàn)。

AI Agent通常被視為一種融合感知、分析、決策和執(zhí)行能力的智能體，它可以具備相當顯著的主動性，成為人類的理想智能助手。例如，AI Agent可以根據個人在線互動和參與事務處置時的信息，了解和記憶個體的興趣、偏好、日常習慣，識別個體的意圖，主動提出建議，并協(xié)調多個應用程序去完成任務。

Agent的概念由Minsky在其1986年出版的《思維的社會》一書中提出，Minsky認為社會中的某些個體經過協(xié)商之后可求得問題的解，這些個體就是Agent。他還認為，Agent應具有社會交互性和智能性。Agent的概念由此被引入人工智能和計算機領域，并迅速成為研究熱點。但苦于數據和算力限制，想要實現真正智能的AI Agents缺乏必要的現實條件。

AI Agent和大模型的區(qū)別在于，大模型與人類之間的交互是基于提示詞（prompt）實現的。ChatGPT誕生后，AI從真正意義上具備了和人類進行多輪對話的能力，并且能針對相應問題給出具體回答與建議。用戶prompt是否清晰明確會影響大模型回答的效果，例如ChatGPT和這些Copilot都需要明確任務才能得到有用的回答。

當AI從被使用的工具變成可以使用工具的主體，這種具備任務規(guī)劃和使用工具能力的AI系統(tǒng)可被稱為Auto-Pilot主駕駛，即AI Agent。在Co-Pilot模式下，AI是人類的助手，與人類協(xié)同參與到工作流程中；在Auto-Pilot模式下，AI是人類的代理，獨立地承擔大部分工作，人類只負責設定任務目標和評估結果。

AI Agent的工作僅需給定一個目標，它就能夠針對目標獨立思考并做出行動，它會根據給定任務詳細拆解出每一步的計劃步驟，依靠來自外界的反饋和自主思考，自己給自己創(chuàng)建prompt，來實現目標。

從1997年“深藍”戰(zhàn)勝國際象棋世界冠軍卡斯帕羅夫開始，沃森在智力問答節(jié)目《危險邊緣》中戰(zhàn)勝人類冠軍、ResNet在ImageNet圖像識別比賽中的準確率超過人類、AlphaGo在圍棋比賽中戰(zhàn)勝李世石、OpenAI Five在多人策略游戲Dota2中戰(zhàn)勝人類職業(yè)戰(zhàn)隊冠軍、AlphaFold的蛋白質結構預測準確率超過人類等，完成這些任務背后的能力涵蓋了人類智能感知、認知、決策的各個方面，也不斷塑造著AI Agent的技術內核。

實際上，人工智能自誕生之初就開始探索AI Agent的解決方案。最近經歷了基于規(guī)則設計、基于強化學習和目前基于預訓練大模型三種范式。其中基于強化學習的AI Agent代表是AlphaGo和OpenAIFive，這類方法仍然是面向專用任務的特定環(huán)境進行交互。預訓練大模型學習到了通用世界知識，并可以通過語言的形式輸入和輸出，因而可以泛化到不同任務和環(huán)境。

基于預訓練大模型的AI Agent又包括兩類，即智能代理和智能體。預訓練大模型的“通用”能力不僅體現在內容理解和生成上，還擴展到了規(guī)劃和使用工具這類思考和決策任務。比如，我們對著一張有幾個孩子和一些小面包的圖片問“每個孩子可以平均分到幾個小面包”，大模型可以將任務規(guī)劃成檢測小面包、檢測孩子、做除法三步，并在每一步調用對應的目標檢測模型或除法工具來完成。

在圖靈獎得主YoshuaBengio設計的AGI五個層次中，AIAgent目前大致處于第三個層次——多模態(tài)感知和第四個層次——具身與行動之間。

第一個層次是小數據訓練小模型，過去幾十年的傳統(tǒng)方法都處于這個階段。

第二個層次是用互聯網規(guī)模的海量數據訓練大模型，以GPT-3為代表。

第三個層次是從單模態(tài)到多模態(tài)，比如GPT-4o和Gemini是文字視覺語音的多模態(tài)大模型。

第四個層次是從開環(huán)系統(tǒng)到閉環(huán)控制，就是說考慮環(huán)境反饋并結合自身狀態(tài)，給出下一步操作對環(huán)境產生影響同時更新自身狀態(tài)，比如以AutoGPT為代表的智能體和具身智能機器人。

第五個層次是從單智能體到多智能體協(xié)作，也包括機器與人類的協(xié)作，由群體智能完成復雜任務，比如多智能體原型AutoGen模擬軟件公司的不同職位協(xié)作從而實現高質量的代碼自動開發(fā)和文檔自動生成。

從應用場景來看，AI Agent能夠幫助未來企業(yè)構建以“人機協(xié)同”為核心的智能化運營新常態(tài)。越來越多的業(yè)務活動都將被委托給AI，而人類則只需要聚焦于企業(yè)愿景、戰(zhàn)略和關鍵路徑的決策上。人與大量AI實體之間的協(xié)同工作模式，將顛覆當前企業(yè)的運行基礎，讓企業(yè)運營成效獲得成倍提升。

比如在電商領域，AI Agent能夠根據用戶的購物歷史、瀏覽行為和偏好提供個性化的產品推薦，這不僅能提高用戶滿意度，還能增加銷售額和客戶忠誠度；AI Agent還可以作為智能客服，通過自然語言處理和機器學習技術自動回答用戶咨詢，處理訂單問題和退貨請求，從而提高客戶服務效率。

在教育領域，AI Agent可以根據學生的學習進度、興趣和能力提供個性化的學習資源和輔導；而在金融領域，AI Agent可以幫助用戶管理個人財務，提供投資建議，甚至預測股票走勢。

在交通領域，AI Agent可以通過分析交通數據和實時路況提供最佳的路線規(guī)劃和交通建議。

在醫(yī)療領域，AI Agent可以幫助醫(yī)生進行疾病診斷和治療方案的制定。

在社會交互方面，AI Agent的一個重要場景是虛擬陪伴，從任務復雜度和容錯率兩方面看都是短期容易實現的，已經出現的是像Character.ai、Talkie、Linky等面向成年人的IP類和交友類應用，未來面向老年人和兒童的AI Agent虛擬陪伴可能是更具社會價值的。從技術的角度看，提升大模型的角色扮演能力、分析和調整大模型的性格特征等都是兼具研究意義和應用價值的方向。

大數據，進化之路的最大變量

從AI發(fā)展角度看，大模型為AIAgent和機器人領域所帶來的是更強大的感知能力，這種強感知能力是建立在大參數模型和巨量數據展現出來的智能。

AI Agent的出現，使得大模型從“超級大腦”進化為人類的“全能助手”。AI Agent不僅需要具備處理任務和問題的智能能力，還需要擁有與人類進行自然交互的社交智能。

在AI Agent和機器人領域，一個最大的難點便是缺乏與物理世界的真實數據，而得不到這些數據，就無從進行訓練；即使是互聯網上得到的信息，在過去也很難根據這些信息進行擴展，并使AI Agent和機器人更好地理解世界。

而大模型則很好地解決了這一問題。如今的大模型已經實現了視覺語言上的智能涌現，這就意味著，通過互聯網上的數據，機器人的感知已經出現了相當強的泛化，因此能夠更好地理解真實的物理世界。

實際上，除了AI Agent，被大模型隨之帶火的還有自動駕駛。像英國自動駕駛獨角獸Wayve在融資當天，不惜花大量筆墨描繪了一個屬于“AI Agent”的未來，類似的言論也同樣出現在不少機器人公司的內部。

AI大模型對于AI Agent能力提升的重要性，主要體現在三個方面。

首先，大模型顯著提升了AI Agent解決復雜任務的能力，根據理解，把復雜任務拆解成一系列可執(zhí)行的任務。

之后，在多模態(tài)大模型的能力下，AI Agent可以依托視覺、觸覺等在更復雜的場景里做事。

最后，體現在運動能力上，AI Agent可以根據AI合成的數據做模擬訓練。如果沒有大模型，機器人實現的功能會相對受限。

由此也看出，數據是除了大模型技術外，制約機器人下一步進化最為關鍵的要素。

如今的AI Agent與2015、2016年的自動駕駛更為類似，兩者的難點都在于高質量數據的獲取。而如果以L0-L5幾個階段來詮釋，目前大多數AI Agent公司都處于L0到L4的過程中，而到真正的L5則還有一段距離。具體而言，L4狀態(tài)指大多數場景下，機器人可以完成某個指定動作；而L5則指任意場景下，機器人可以完成某一動作。

為了獲取足夠用于AI Agent和機器人訓練的數據，不少廠商通過真實數據和仿真數據結合的方式解決。在真實數據的獲取中，廠商一般通過真人動作和機器人遙操作的方式，將任務過程中的數據“喂”給大模型。而仿真數據則是通過搭建一個盡量真實的場景，設定盡可能多的建模和現實參數，讓虛擬化的機器人進行訓練。

不過，上述的兩種方式還是存在著各自的短板，當前AI Agent還遠未達到數據飛輪的啟動時刻。一方面真實數據的成本極高，AI Agent當前還達不到自動駕駛般的普及度。在真實數據足夠多之前，廠商需要花長時間和配備數據標準團隊來一點點積累。而對于仿真數據而言，最大的問題還是現實仿真不夠真實。AI Agent在模擬世界能成功，但導入到現實世界就會有一定的失敗率。

現階段，對AI Agent最大的一個限制，還是數據質量、數據規(guī)模、應用場景不足。AI模型、AI訓練數據集、AI場景落地部署，都遠遠不夠。而隨著更高效的算法和算法的泛化能力提升，未來AI Agent學習一個技能的數據量將會從現在的幾千、幾萬，下降到一千甚至幾百幾十的數量級。

參考自動駕駛行業(yè)由量產帶來的數據飛輪，為了進一步解決數據問題，不少機器人廠商正在探索從量產中獲取數據。

邁出實驗室，還要答好幾道題？

AI Agent的想象力不言而喻，但現在的情況是廠商都在說自己是做Agent的，那么現階段Agent到底能做什么，沒人可以說得清楚。

雖然與大模型相比，Agent更貼近產業(yè)，但不論是對客戶還是對開發(fā)者，Agent帶來的收益是否邁過了成本的門檻仍是未知數。Agent的發(fā)展基于大模型，而當前大模型賽道的特點是技術門檻高、資金投入多、商業(yè)模式尚且發(fā)展不成熟。

首先，現有的技術條件下，如何解決大模型幻覺是大模型走向全面產業(yè)應用的難點。所謂大模型幻覺，主要指的是模型輸出了和現實世界不一致的內容，例如捏造事實、分不清虛構與現實、相信謠言和傳說等，也就是常說的“一本正經的胡說八道”。

這個問題若不解決，在實際應用場景中，這不僅會影響模型的準確性和穩(wěn)定性，還制約了大模型在真實場景中的廣泛應用的可靠性，這就還有很長的一步路走。

眾所周知，AI Agent發(fā)展的前提條件是多模態(tài)。在很多情況下，如智能客服場景，用戶可能會通過多種方式提供信息，多模態(tài)具有很好的感知價值。但至今在解決一些邏輯、推理等核心問題上，Agent的能力還有偏弱。因此，Agent各模塊之間如何配合、多個Agent如何交互、人類與Agent如何互動等方面，Agent技術尚處于早期階段。

其次，如何控制高昂的調用成本是擺在AI Agent面前的另一大難題。接入Agent后，所有需要處理的業(yè)務場景，都會轉化成需要底層大模型理解的數據，產生高昂的推理成本。舉個例子，斯坦福的虛擬小鎮(zhèn)框架開源后，每個Agent一天就需要消耗20美金的Token數，比用人成本還要高。

第三，國內智能算力較為短缺的現狀下，各家大模型在持續(xù)投入人力、算力、資金并實現商業(yè)化落地方面，可能會面臨較大挑戰(zhàn)。因此，Agent想要真正實現規(guī)�；涞�，道阻且長。

還有很重要的一點，Agent如何保證用戶的數據安全和隱私。Agent一旦投入應用，勢必會接觸到客戶的核心數據，倘若數據泄漏，可能讓用戶和社會蒙受巨大損失。

對于AI Agent，一個很殘酷的現實是，看項目的大有人在，投項目的屈指可數。

如今，各行各業(yè)都已不是PPT融資的時代了，無論多么前沿的技術，也只有落地走通盈利模式才能實現價值。AI Agent的未來一定是一場馬拉松，只有扎實做好大模型技術和找到商業(yè)化落地的路徑，才能在未來有機會不被趕下“牌桌”。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.