網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

Agent的苦澀覺醒：智能正從語言走向經(jīng)驗

2026-03-02 09:43:30　來源: 華爾街見聞官方

上海舉報

分享至

作者｜松壑

2019年，AI“強化學習之父”理查德·薩頓寫了一篇六頁紙的文章，影響了后來的整個人工智能學界。

這篇名為《苦澀的教訓》的文章，核心只有一句話：

人類花了幾十年把領域知識硬塞進AI，結果每次都輸給了"讓機器自己去試錯"。

國際象棋、圍棋、語音識別、計算機視覺如此。那些精心設計的先驗知識、人工特征、專家規(guī)則，最終全部被大規(guī)模計算加上自我博弈踩在腳下。

薩頓是強化學習領域公認的奠基者。他花了半輩子研究一件事：

智能不是被設計出來的，是被環(huán)境逼出來的。智能體與環(huán)境的持續(xù)交互，是通向更高智能上限的唯一可靠路徑。

文章發(fā)表后，學界的反應幾乎是兩極分裂。一批在特征工程和專家系統(tǒng)上耕耘多年的研究者，被迫重新審視自己工作的長期意義。爭議至今沒有平息，然而薩頓的判斷，在接下來的七年里一再被反復驗證。

站在2026年初的Agent浪潮回頭看這七年，這個判斷正在AI產業(yè)里以一種出人意料的方式應驗——只是大多數(shù)人還沒有意識到。

討論Agent，只聊了一半

從Claude引領的Skill熱到Cowork協(xié)同再到如今遍地的“養(yǎng)蝦熱“，Agent已是今天AI界最熱的詞。

但熱歸熱，面對能力與日俱增的Agent，行業(yè)正在高度聚焦的問題已不再停留在“能做什么”的工具之問，而是權限不斷開放、插件生態(tài)日益豐富，它的應用范圍可能有多廣，又將如何重塑生產關系、驅動經(jīng)濟結構變化。

從每場發(fā)布會、每篇產品評測到每條行業(yè)推文，人們追問的核心正在成為：具備更強自主性與系統(tǒng)權限的 Agent，會在應用層帶來怎樣巨大的商業(yè)洗牌，而哪些行業(yè)與環(huán)節(jié)將會就此被Agent浪潮所摧毀？

業(yè)界甚至出現(xiàn)了更為尖銳的預警與預言：隨著 Agent替代范圍持續(xù)擴大、替代深度不斷加深，大規(guī)模崗位消失、收入分化加劇、有效需求萎縮等風險正在累積，可能引發(fā)結構性就業(yè)問題和連鎖式的經(jīng)濟風險。

這些敘事有價值，它們都在問同一類問題：Agent作為工具，它在應用層面對人類社會的重塑會走向何方？

但似乎少有人在追問另一個問題：

如今Agent加速的大規(guī)模普及，反過來會在模型層對AI本身帶來哪些質的改變？

這個問題，才是薩頓視角下真正重要的那個。

Chatbot死胡同

在理解Agent的深層價值前，有必要先看清楚它的前身Chatbot走進了怎樣的死胡同。

2023年初，ChatGPT用戶數(shù)突破一億，創(chuàng)下了消費互聯(lián)網(wǎng)歷史上增長最快的紀錄。全世界的產品經(jīng)理如夢初醒，瘋狂地在自己的產品里塞入對話框?？头C器人、知識問答、寫作助手、代碼補全——所有東西都變成了一個"聊天界面"。

但到了2024年底，一個尷尬的事實浮出水面：大量用戶在最初的新鮮感消退后，使用頻率顯著下滑。多家媒體和分析機構報道了ChatGPT用戶活躍度增長放緩的趨勢。

用戶發(fā)現(xiàn)自己并不知道該拿這個對話框干什么，偶爾用它寫個郵件、改個措辭、問個問題，但從未形成穩(wěn)定的使用習慣。

原因很簡單：Chatbot的交互模式是一問一答，而人類的真實工作流程是多步驟、多工具、多判斷的。

讓Chatbot幫你做市場調研，它會給你一篇看起來不錯的文章。但不知道數(shù)據(jù)來源是否可靠，不知道它是否遺漏了關鍵競爭對手，不知道結論背后的推理鏈條是否經(jīng)得起推敲。雖然拿到的是一個結果，但失去了整個過程。

更致命的是，Chatbot的每一次對話都是孤立的。它不記得上周的偏好，不知道項目的上下文，不理解組織的業(yè)務邏輯。每一次打開對話框，都在跟一個彬彬有禮的失憶者重新自我介紹。

這就是為什么從2024年下半年開始，整個行業(yè)集體轉向Agent，因為Chatbot的天花板已經(jīng)清晰地擺在那里。

但這里有一個幾乎所有人都忽略的維度：Chatbot的天花板，不僅僅是產品形態(tài)的天花板，它同時也是模型進化的天花板。

實踐交互是關鍵

薩頓的強化學習哲學，核心邏輯非常清晰：靜態(tài)數(shù)據(jù)的上限，是已知世界的邊界。

無論語料庫多大，無論參數(shù)量多高，在固定數(shù)據(jù)集上訓練的模型，能力邊界就是那批數(shù)據(jù)所描繪的世界的邊界。

到了24-25年，這條邊界已經(jīng)肉眼可見。

Epoch AI團隊發(fā)表過一項被廣泛引用的分析，預測按照當前的消耗速度，高質量的互聯(lián)網(wǎng)文本數(shù)據(jù)將在未來幾年內被基本耗盡。整個行業(yè)開始談論"數(shù)據(jù)墻"，一堵由信息總量的物理極限砌成的墻。

Chatbot提供的答案是：從用戶對話里來。但用戶跟Chatbot的對話，信息密度極低。

"幫我把這封郵件改得更正式一點""用Python寫一個快速排序""中國的GDP是多少"這些交互包含的，不過是人類需求的淺層映射。

模型從這些對話中能學到的東西，跟從互聯(lián)網(wǎng)上抓取一批新文本學到的，本質上沒有區(qū)別。都是語言模式的統(tǒng)計規(guī)律，都缺乏一樣東西：因果結構。

Agent不同之處在于：完成任務的過程中，會產生一種靜態(tài)語料永遠無法提供的東西：標注了因果結構的決策軌跡。

例如包括：目標是什么，采取了什么行動，環(huán)境返回了什么反饋，哪里出錯了，如何修正的。

用個具體例子來說明區(qū)別。一個用戶對Chatbot說：“幫我安排下周三從北京去上海的出差行程?！?Chatbot直接給出一段行程方案，交互就此結束。模型從中學到的東西微乎其微，它不知道這份安排是否合理，用戶是否滿意，也無法驗證自己的回答是否真正解決了問題。

而如果讓一個Agent 去完成同樣的任務，它會走一整套完整的自主工作流：先理解用戶的出差需求，查詢用戶過往偏好，調用航班接口時發(fā)現(xiàn)早班機因天氣取消，自動切換備選航班，再根據(jù)公司差旅標準篩選合適酒店，生成初稿行程。當用戶反饋 “酒店離會場太遠”，Agent 會重新篩選步行可達的酒店，修正后輸出最終方案。

每一步，都攜帶著明確的因果信號。調用接口失敗告訴模型 “要預留備用方案”，用戶的偏好告訴模型 “要記住使用習慣”，用戶的修改反饋告訴模型 “要根據(jù)需求迭代優(yōu)化”。

Chatbot只輸出答案，而 Agent 是在真正自主完成任務，并在不斷試錯與修正中持續(xù)成長。

這類數(shù)據(jù)的信息密度，遠超簡單的網(wǎng)頁抓取。它不是人類語言表達的映射，而是智能體與現(xiàn)實世界博弈的實錄。

用這類數(shù)據(jù)訓練出來的模型，獲得的不是更多的知識，而是更強的推理能力和自我糾錯能力，而這才是決定大模型能力上限的關鍵變量。

換言之，Agent是大模型從外部世界獲取進化燃料的接口。

沒有這個接口，模型的能力上限被死死鎖在靜態(tài)數(shù)據(jù)的邊界里。

追上限，還是堆接口？

2024年底到2025年這段時間，頭部大模型玩家的戰(zhàn)略選擇出現(xiàn)了一個耐人尋味的分叉。

OpenAI、Google等頭部模型用最大壓強猛攻同一堵墻：追逐模型能力的天花板。

2024年底，OpenAI發(fā)布了o3。在Fran?ois Chollet設計的ARC-AGI基準測試上——這個被公認為衡量抽象推理能力的高難度測試——o3取得了令整個行業(yè)側目的成績。ARC-AGI的設計哲學恰恰是反蠻力的：Chollet一直堅持智能的核心是抽象推理和小樣本泛化，而不是暴力搜索。但o3用大規(guī)模的推理時間計算，硬是在這個測試上刷出了遠超此前所有系統(tǒng)的分數(shù)。

Chollet在公開回應中態(tài)度審慎。他沒有否認o3的成績，但指出了一個關鍵事實：這個系統(tǒng)在解題時消耗的計算量遠超人類，高分不等于通用智能的突破。

Google DeepMind則在Gemini 2.0系列上持續(xù)推進多模態(tài)推理能力。

但Anthropic選擇了另一條路。2024年10月，Anthropic為Claude推出了一個在當時看來不夠性感的功能：Computer Use，它讓Claude直接操作電腦屏幕。它能看到屏幕上的內容，移動鼠標，點擊按鈕，輸入文字。

早期的用戶體驗談不上驚艷。Claude操作電腦的速度很慢，經(jīng)?；ê荛L時間才能找到一個按鈕，偶爾還會點錯地方。科技媒體和社交平臺上的評論普遍帶著善意的嘲諷——"看AI用電腦，像看一個剛接觸電腦的老人"。

但Anthropic的CEO Dario Amodei在多次訪談中反復強調一個判斷：

大模型的下一個突破不僅僅在于參數(shù)量，更在于模型與世界交互的方式。

Amodei曾在OpenAI擔任研究副總裁近五年，親歷了GPT-2到GPT-3的演化過程，2021年離開后創(chuàng)立Anthropic，帶著的正是這個信念。

2024年末，Anthropic推出了Model Context Protocol（MCP）開放協(xié)議，讓AI模型可以標準化地連接外部工具和數(shù)據(jù)源。

如果說Computer Use給了Claude手腳，MCP就是給了它一套通用的神經(jīng)末梢，讓它能觸及的真實世界的表面積成倍擴大。

Claude在2025年的主要敘事，不是在某個基準上的刷榜，而是Agent能力的工程落地，包括長上下文的穩(wěn)定性、多步驟任務中不掉鏈子的可靠性、與外部工具集成的靈活性。

它在追一個更難量化的目標：在真實任務里，持續(xù)地、可靠地干活。

這聽起來不夠浪漫。但薩頓的整個理論都在告訴你：這恰恰是通向更高智能上限的那條路。

干活即訓練

這是過去一年多里最值得關注的反直覺現(xiàn)象。當同行們正面強攻能力基準的時候，Claude在真實Agent場景下的大規(guī)模使用，悄悄完成了薩頓預言過的一件事：

它在與真實世界的交互中持續(xù)積累高質量的決策信號，而這些信號反過來成了提升模型能力的燃料。

這個飛輪的運轉邏輯是這樣的：用戶用Claude處理真實任務，比如自動化地整理CRM數(shù)據(jù)、跨系統(tǒng)地完成采購審批、根據(jù)實時數(shù)據(jù)調整營銷策略、用Claude Code完成復雜的編程項目。

每一次成功和失敗都是信號；每一個多步驟的工作流，都帶有因果結構的決策軌跡；每一次工具調用的結果，都在告訴模型"這樣做有效，那樣做無效"。

這些信號經(jīng)過脫敏和提煉，會直接作用于模型的推理深度和自我糾錯能力。

反觀Chatbot模式。用戶跟ChatGPT的海量對話中，有多少能顯著提升模型推理能力？"幫我寫一首關于秋天的詩""用Python寫一個快速排序""中國有多少個省"這類交互無論重復多少億次，都不包含因果推理的信號。它們是語言模式的重復預測，不是智能的增量。

這就是Agent和Chatbot在模型進化層面的根本區(qū)別：Chatbot給模型喂的是"語言的影子"，Agent給模型喂的是"決策的骨骼"。

這正是薩頓講了幾十年的事：不要試圖直接教育或設計智能，要讓智能在與環(huán)境的交互中自己生長出來。

OpenAI轉向

OpenAI不是沒有意識到這個問題。

很早之前，它就通過 Function Calling、Assistants、GPTs等一系列功能，持續(xù)探索工具調用與任務執(zhí)行。

但真正的躍遷發(fā)生在 2025年1月，OpenAI發(fā)布的Operator能在瀏覽器中自主完成任務，隨后推出的還有Deep Research，一個能自主進行多步驟研究、跨網(wǎng)站搜集信息并綜合分析的Agent系統(tǒng)。

OpenAI的戰(zhàn)略重心正在明確地從“對話”轉向“行動”。這個轉向本身就是對薩頓邏輯的一種暗合：從在靜態(tài)數(shù)據(jù)上做模式匹配的系統(tǒng)，轉向在動態(tài)環(huán)境中做決策和學習的系統(tǒng)。

但OpenAI面臨一個獨特的挑戰(zhàn)：路徑依賴。ChatGPT的數(shù)億用戶，絕大多數(shù)已經(jīng)習慣了Chatbot的使用模式——打開對話框、問一個問題、得到一個答案。

讓這些用戶從問答切換到指派任務，不僅僅是產品設計的問題，更是心智模型的問題。

用戶需要學會一件反直覺的事情：不要告訴AI怎么做，只要告訴它你要什么結果。

Claude從一開始就沒有ChatGPT那樣的全民級Chatbot包袱。它的用戶群體更偏向開發(fā)者和企業(yè)，這些用戶天然更適應Agent的交互模式。Anthropic推出的MCP協(xié)議，更是直接面向開發(fā)者生態(tài)，讓第三方可以方便地為Claude構建工具連接。

這就造成了一個微妙的時間差：當OpenAI還在引導龐大的用戶基數(shù)從Chatbot轉向Agent的時候，Claude已經(jīng)在Agent場景中積累了可觀的交互數(shù)據(jù)。

在強化學習的世界里，時間差就是一切。

先行者的數(shù)據(jù)優(yōu)勢會通過飛輪效應不斷放大：更好的Agent → 更多開發(fā)者和用戶使用 → 更多交互數(shù)據(jù) → 更強的模型 → 更好的Agent。

上限不是被攻破的

歷史上有一個反復出現(xiàn)的模式，值得AI行業(yè)認真對待：深藍擊敗卡斯帕羅夫，不是因為工程師手動編碼了人類所有的棋路，而是因為它的搜索算法在海量評估中找到了人類從未想到的走法。

AlphaGo的真正突破不在學習人類棋譜的第一版，而在AlphaGo Zero這個完全靠自我對弈、不依賴任何棋譜的版本。它從零開始，在數(shù)天內重新發(fā)現(xiàn)了人類數(shù)千年積累的圍棋知識，然后超越了它。

大語言模型有關數(shù)學推理、代碼生成、邏輯分析的涌現(xiàn)，沒有一項是被精心設計出來的。

沒有人在訓練目標里寫過"請學會做數(shù)學題"，但當模型規(guī)模和數(shù)據(jù)規(guī)?？邕^某個臨界點，這些能力自發(fā)地涌現(xiàn)了。

能力的上限，從來都不是被正面攻打突破的。它是在足夠復雜的環(huán)境里持續(xù)交互的過程中，被逼出來的。

這就是Agent對大模型真正的意義：它不僅僅是讓模型有了"手腳"，它還給了模型一個持續(xù)與現(xiàn)實世界博弈的競技場。

真實世界中的反饋與博弈，才是進化的引擎。

一個從不犯錯的系統(tǒng)，無法進化。一個只回答問題、永遠不觸碰真實世界的系統(tǒng)，永遠不知道自己的無知在哪里。

只有當Agent把手伸進現(xiàn)實，調用一個API、操作一個瀏覽器、執(zhí)行一個工作流，然后再被現(xiàn)實狠狠地打回來的時候，真正的學習才開始發(fā)生。

古老呼應

和薩頓的強化學習哲學相類似的原理，早在半個多世紀前，就被另一個完全不同領域的經(jīng)濟學家發(fā)現(xiàn)過。

1945年，弗里德里?！す嗽凇睹绹?jīng)濟評論》上發(fā)表了一篇名為《知識在社會中的利用》的論文，后來被認為是20世紀最重要的經(jīng)濟學文章之一。

它的核心論點極其簡單：沒有任何一個人或組織，能夠掌握一個復雜經(jīng)濟體運轉所需要的全部知識。不是暫時掌握不了，而是原則上不可能

因為有價值的知識是分散的、局部的、隱性的、轉瞬即逝的。

對于經(jīng)濟來說，沒有整體設計、沒有全局藍圖，沒有從上到下的指令鏈。只有無數(shù)個體與環(huán)境的持續(xù)交互，加上一個能傳遞反饋信號的機制。

這段描述，把經(jīng)濟體換成智能體，把價格信號換算成獎勵信號，就是薩頓的強化學習。

1988年，89歲的哈耶克出版了人生最后一部重要著作《致命的自負》。

書名本身就是論點。哈耶克用一整本書論證了一件事：人類最危險的智識錯覺，就是以為自己可以設計出一個比自發(fā)秩序更好的系統(tǒng)。

哈耶克提出，我們無法預先知道所有人在所有時刻的所有需求和所有約束。唯一能"知道"這些的，是讓所有人在真實環(huán)境中自己去交互、去試錯、去根據(jù)反饋信號調整行為的那個過程。

這個過程，哈耶克給了它一個名字：自發(fā)秩序，如此哲學與薩頓所重視的環(huán)境訓練具有異曲同工之處。

哈耶克或許會說：計劃者把專家知識硬塞進經(jīng)濟體系，試圖用頂層設計替代市場的自發(fā)調節(jié)，結果每次都輸給了"讓個體自己去試錯"。

薩頓則可能會說： AI研究者把領域知識硬塞進算法，試圖用人工特征替代機器的自主學習，結果每次都輸給了"讓機器自己去試錯"。

哈耶克所說的致命自負，是以為人類理性能設計出比自發(fā)秩序更好的系統(tǒng)。

薩頓的苦澀教訓，是以為人類專家能通過簡單預訓練，就能搞出比大規(guī)模搜索更好的智能。

波蘭尼的默會知識

如果允許再加一個人到這場跨時空對話中，他可能是哈耶克同時代的匈牙利裔學者邁克爾·波蘭尼（Michael Polanyi）。

波蘭尼在1966年出版的《默會維度》中提出了一個影響深遠的概念：

默會知識（tacit knowledge），即人們知道的，永遠比人們能說出來的多。原話是："We know more than we can tell."

人知道怎么騎自行車，但人無法用語言精確描述保持平衡的每一個動作。一個經(jīng)驗豐富的醫(yī)生看一眼X光片就知道哪里不對，但他很難把自己的判斷過程完全形式化。

這個概念直接擊中了此前Chatbot模式的命門：大語言模型從互聯(lián)網(wǎng)文本中學到的，只是人類能夠用語言表達出來的那部分知識——顯性知識。

但人類的大量能力和判斷力，存在于默會知識中，而默會知識只能在行動中被體現(xiàn)，不能在文本中被捕獲。

一個人類專家做決策的過程，有大量的東西是他自己都說不清楚的——為什么在這個時候選擇等待而不是行動，為什么覺得這個方案"感覺不對"。這些判斷力不會出現(xiàn)在任何網(wǎng)頁上，不會出現(xiàn)在任何教科書里，也不會出現(xiàn)在任何Chatbot的訓練數(shù)據(jù)中。

但它們會出現(xiàn)在Agent的行為軌跡中。當Agent在執(zhí)行一個復雜任務時，它在決策序列中先做什么、后做什么、遇到障礙如何調整、在不確定性面前如何權衡，本身就是一種默會知識的外化。

它不是語言的表達，而是行動的記錄。而行動記錄，比語言表達，攜帶了多得多的信息。

翻譯成AI的語言就是：Agent的行為軌跡里包含的信息，比互聯(lián)網(wǎng)上所有文本包含的信息在結構上更豐富。因為前者記錄的是行動和后果，后者記錄的只是言說。

路徑驗證

站在2026年初回頭看，過去一年多的行業(yè)走向，正在為這場認識論之爭提供初步的經(jīng)驗證據(jù)。

追基準的路線成果顯著，但邊際收益與頭部模型的方差確實都在縮小。

各家模型在主流基準上的分數(shù)越來越接近，差距從代際碾壓縮小到比拼幾個百分點的距離。

基準分數(shù)的競賽并沒有失去意義，但它越來越像短跑比賽中百分之一秒的較量，觀眾看不出區(qū)別，對實際應用的影響也在遞減。

Agent路線的回報開始顯現(xiàn)，但以一種不太引人注目的方式。

沒有一個驚天動地的基準突破，取而代之的是一個個具體場景中的可靠性提升。

Claude在編程輔助中的多步驟任務完成率在持續(xù)改善，Computer Use的操作精準度和速度在迭代中顯著提高，基于MCP協(xié)議的第三方工具生態(tài)在擴大。

一年前的DeepSeek-R1全球出圈，恰恰是這個故事中最有趣的一章。它深度采用強化學習、這種薩頓最推崇的方法在推理任務上實現(xiàn)了驚人的效果，且成本極低。

這等于在產業(yè)界面前做了一次薩頓哲學的現(xiàn)場示范：未必需要最大的參數(shù)量和最多的人工標注，只需要讓模型在一個有明確反饋信號的環(huán)境中大規(guī)模試錯，推理能力就能被"逼"出來。

值得一提的是，在物理世界的 Agent 大規(guī)模部署之前，更多模型是通過合成數(shù)據(jù)和規(guī)則明確的虛擬環(huán)境進行“預演”，而這同樣是通往真實世界賽場的過渡態(tài)。

DeepSeek-R1的成功和Agent路線的邏輯，在底層是相通的：都是用交互中產生的信號來驅動能力的提升，而不是依賴靜態(tài)數(shù)據(jù)的堆積。區(qū)別只在于前者環(huán)境是精心設計的推理任務，后者環(huán)境是混亂的真實世界。

當然必須承認，用經(jīng)驗喂養(yǎng)智能的這條道路，在現(xiàn)實中運轉起來注定會有極大的摩擦力。

真實世界從來不是一個可以無限重啟的虛擬沙盒。AlphaGo 在棋盤上輸?shù)粢话偃f局的成本幾乎為零，DeepSeek 在數(shù)學推導中的試錯也十分廉價；

但在真實的商業(yè)環(huán)境與社會鏈路中，Agent 的一次越界試錯，可能意味著一筆交易的失敗、一次糟糕的客戶體驗，甚至是難以被問責的金融、法律和醫(yī)療風險。

更棘手的是，現(xiàn)實世界的反饋信號往往是高度嘈雜且延遲的。當一個 Agent 給出的策略最終見效時，究竟是因為它的推理邏輯無懈可擊，還是僅僅碰上了宏觀環(huán)境的順風？

客觀上許多因果歸因的模糊性，仍然會給模型從中提取純粹的“有效經(jīng)驗”帶來了巨大的工程挑戰(zhàn)。

但這恰恰是薩頓理論中那份“苦澀”在今天的現(xiàn)實映射：即使真實世界的試錯成本再高、反饋再嘈雜，這也是通向通用人工智能唯一不可回避的窄門。

耀眼的苦澀

薩頓在《苦澀的教訓》里不止一次的道出了AI研究者的苦澀：人類精心設計的特征、規(guī)則和先驗知識，最終都會被規(guī)?；乃阉髋c學習所超越。

那些看起來更聰明的方法，往往不如那些更“笨”的方法走得更遠，因為后者更可擴展。

回看過去幾年，大模型的演進其實一直在重復這個模式。

從手工特征到深度學習，從監(jiān)督學習到自監(jiān)督學習，從人工標注到強化學習，每一次范式躍遷的方向都一樣——減少人類設計，增加系統(tǒng)在環(huán)境中的試錯空間。

Agent的出現(xiàn)，把這條路徑推向了一個新的階段。

如果說過去的模型主要是在語言世界中學習，那么Agent開始讓模型在行動世界中學習。

語言可以描述世界，但只有行動才會產生后果；語言可以表達知識，但只有行動才會暴露無知。

這也是為什么Agent帶來的改變，短期看像是產品能力的擴展，長期看卻更像是能力生成機制的改變。

一個只在對話框里回答問題的模型，很難意識到自己的盲區(qū)；一個在真實任務中反復嘗試、反復失敗、反復修正的模型，卻會不斷被現(xiàn)實糾正。現(xiàn)實世界的反饋，比任何人工標注都更直接，也更殘酷。

某種意義上說，Agent最重要的價值，并不是讓AI替人干活，而是讓AI開始擁有經(jīng)歷。

經(jīng)歷意味著時間維度，意味著因果結構，意味著錯誤與修正的循環(huán)。

一個沒有經(jīng)歷的系統(tǒng)，可以擁有知識，但很難形成判斷；一個持續(xù)積累經(jīng)歷的系統(tǒng)，則會在無數(shù)次反饋中逐漸形成策略。

這也解釋了為什么許多看似“笨拙”的Agent實驗，反而值得耐心觀察。

它們操作緩慢、偶爾出錯、效率遠不如人類，但這些笨拙本身就是學習的前提。一個從不觸碰真實環(huán)境的系統(tǒng)，看起來穩(wěn)定，卻難以進化；一個不斷被現(xiàn)實打回來的系統(tǒng)，雖然不完美，卻在不斷更新自身的世界模型。

站在2026年初回望，許多分歧依然存在。

一部分人仍在致力于用基準測試衡量模型的高度，另一部分人開始用任務完成率衡量模型的成熟度。前者提供了清晰的數(shù)字坐標，后者卻更接近真實世界的復雜性。

兩者并不矛盾，但后者所積累的經(jīng)驗，可能更深刻地影響未來智能的邊界。

那些無數(shù)個Agent在真實世界中的實踐，無數(shù)個通過交互產生的正負反饋，無數(shù)次失敗正在被轉化為改進的信號，都在構成了智能演化最真實的底層數(shù)據(jù)。

它們不像基準成績那樣耀眼，卻像燃料一樣持續(xù)供給著模型的能力增長。

如果說Chatbot階段讓AI學會了說話，那么Agent階段正在讓AI學會生活。

生活意味著不確定性、偶然性與復雜因果，也意味著持續(xù)的適應與調整。智能在這樣的環(huán)境中不會一蹴而就，但會在無數(shù)微小反饋中逐漸成形。

這或許正是“苦澀”一詞真正的含義：

承認沒有任何設計能夠一步到位地通向最優(yōu)路徑，承認真正的進步來自漫長而反復的試錯過程。

苦澀之處在于，人類必須放棄對完美設計的執(zhí)念；但希望也在于，一旦系統(tǒng)被置于足夠豐富的環(huán)境中，智能的生長將具有某種內在的必然性。

在這個意義上，今天的Agent浪潮遠不是大模型故事的終點，而更像是一個新的起點。

它把模型從靜態(tài)知識的容器，推向持續(xù)學習的過程；把能力從一次性的訓練結果，轉化為長期交互的副產品。

未來模型的高度，或許不再僅由參數(shù)規(guī)模和語料規(guī)模決定，而取決于它們在現(xiàn)實世界中經(jīng)歷了多少次嘗試、失敗、以及修正。

能被測量的分數(shù)，記錄的是今天的能力；不能被完全測量的經(jīng)歷，則在塑造明天的能力。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.