網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

吳恩達、斯坦福、谷歌云罕見同頻：AI 測評邏輯正被 Agent 顛覆

2026-02-27 12:22:49　來源: InfoQ

北京舉報

分享至

作者 | 木子

時至 2026 年初，AI 行業(yè)光靠“講故事”（包括但不限于 AGI、顛覆一切、指數(shù)級躍遷......）已經(jīng)開始不夠用了。

吳恩達、斯坦福、谷歌云團隊接連拋出多份報告，都透露出一個共同信號：AI 行業(yè)的焦點，已經(jīng)從“能不能做到”，變成了“在什么條件下、以什么成本、為誰創(chuàng)造價值”。

斯坦福 HAI（斯坦福以人為本人工智能研究院）明確指出，2026 年，是 AI 從 evangelism（布道）走向 evaluation（評估）的一年。

一方面，大量企業(yè)已經(jīng)完成了第一輪生成式 AI 的部署，開始有條件回看投入與產(chǎn)出。

有人開始重新算賬。

谷歌云發(fā)布了一份報告，名為 The ROI of AI 2025（2025AI 投資回報率），調(diào)查了 3466 名全球營收千萬美元以上的企業(yè)老板或高管。

這份報告展現(xiàn)的答案也挺明確：真正實現(xiàn)正向、可持續(xù)投資回報的，并不是零散的生成式 AI 能力，是“Agent+ 流程 + 組織”的系統(tǒng)級落地。

數(shù)據(jù)也很直接：在最早一批入場 Agentic AI 的公司里，有近多九成已經(jīng)在至少一個 GenAI 場景中看到了正向回報，并且越吃越香。

另一方面，AI 正以前所未有的速度滲透進醫(yī)療、法律等高風險、高責任領域，單靠“能力展示”已經(jīng)無法支撐決策。

吳恩達在《The Batch》新年特刊里，直指“AGI”概念被過度濫用，并提出“圖靈 -AGI 測試”重新界定上限。

斯坦福以人為本人工智能研究院（HAI），則聯(lián)合計算機、醫(yī)學、法律、經(jīng)濟學等多學科教授發(fā)布年度預測，明確提出“2026 年是 AI 從布道走向評估的一年”

這些報告背景各異，有產(chǎn)業(yè)一線、有跨學科研究機構、有長期做工程落地的團隊。但都傳遞出一個信號：AI 不再只問“能不能做到”，而是要回答“在什么場景下、以什么成本、替誰承擔風險”。

放在 AI 正在經(jīng)歷關鍵轉向的當下，這幾份報告難得不靠口號撐場子、信息密度很高，值得放在一起細品。

1 Scaling Law 不夠用了，AI 評價標準被重寫

過去幾年，AI 行業(yè)其實并不缺“共識”。

其中最重要的一條，就是Scaling Law：模型越大、數(shù)據(jù)越多、算力越強，能力就越好。參數(shù)規(guī)模、榜單名次，一度成了衡量進步最直觀、也最省事的標準。

但當 AI 真正進入法律、醫(yī)療等高風險場景時，這套邏輯開始顯得單薄——

分數(shù)上漲，并不等于風險可控；能力增強，也不代表系統(tǒng)可落地。

于是，一些長期站在產(chǎn)研一線的人開始意識到：核心問題不僅是“模型還能不能更強”，而是現(xiàn)有評價體系，是否已經(jīng)跟不上應用場景的復雜度。

AI 大牛吳恩達，在其年度通訊《The Batch》新年特刊中提了個引人注目的問題：

“在 2026 年，我們能最終真的實現(xiàn) AGI 嗎？”

說到 AGI，其實目前行業(yè)和學界對此還沒有統(tǒng)一的定義，更缺乏統(tǒng)一、可信的評測體系。而且在吳恩達看來，更棘手的是，“AGI”已經(jīng)被濫用：

“AGI 已經(jīng)變成了一個炒作術語，而不是一個具有精確含義的術語...... 當企業(yè)炒作他們可能在幾個季度內(nèi)實現(xiàn) AGI 時，他們通常試圖通過設定一個非常低的標準來證明這些說法?！?/p>

這些導致學生誤判未來（不敢學某些專業(yè)）、CEO 錯判投資節(jié)奏，以及社會整體對 AI 能力產(chǎn)生了系統(tǒng)性高估。

在吳恩達看來，這種過度炒作并非第一次出現(xiàn)。在 AI 發(fā)展史上，幾次著名的“寒冬”往往并不是源于技術本身停滯，而是源于預期被抬得過高、最終崩塌，繼而引發(fā)投資迅速撤離。

在此背景下，為了更好地實現(xiàn)真正的 AGI 目標，他要做一個新的圖靈測試，名曰“圖靈 -AGI 測試”。

經(jīng)典的圖靈測試，由“計算機科學之父”艾倫·圖靈在 1950 年提出，核心標準是：通過純文字對話，如果人類評審無法分辨對方是機器還是人，機器就算通過測試。

不過，這對今天的 AI 已明顯不足，但其中“由人判斷結果是否達到人類水平”的邏輯，被保留并擴展到了更多樣、真實的工作場景中：除了對話，還有接電話、處理任務、交付成果等，并且還得持續(xù)反饋與調(diào)整。

為了讓人類裁判有更深入、細致的體驗，一個實驗周期往往長達多天、甚至是數(shù)周。

那么，這個測試與當前主流的 Benchmark（AIME、GPQA、SWE-bench 等）又有何不同？

在吳恩達看來，當前的大部分基準測試都有這些局限：題目固定、路徑可預期，模型很容易被“對題訓練”。它們難以反映 AI 真的足夠“智能”，比如是否具備長期規(guī)劃、持續(xù)學習和跨任務遷移的能力。

相比之下，圖靈 -AGI 測試關心的是另一件事——它考的不是“會不會解題”，而是 AI 能否在任務不預設、路徑不可控、反饋持續(xù)變化的條件下，把一件事從頭到尾真正完成。

吳恩達認為，現(xiàn)有的 AI 系統(tǒng)，想要通過他們團隊設立的圖靈 -AGI 測試，將面臨極高難度和諸多挑戰(zhàn)；他甚至還放出一句“反直覺”的話：

“如果現(xiàn)在所有 AI 都通不過這個測試，那反而是一件好事?！?/p>

圖靈 -AGI 測試的意義在于：如果有 AI 能通過，那就是強有力的信號；如果沒有，也正好為過熱的市場按下“冷靜鍵”。

如果說，吳恩達提出的新測試是在關注的，是一個偏 AI“上限”的問題，那企業(yè)與研究機構更迫切需要回答的，則是一個偏“現(xiàn)實”的問題：AI 在當下的真實業(yè)務中，已經(jīng)創(chuàng)造了多少價值，值不值得大規(guī)模用、怎么用？

斯坦福大學的計算機科學、醫(yī)學、法律和經(jīng)濟學的教授們，最近聯(lián)合發(fā)布了一份報告，標題非常直白：Stanford AI Experts Predict What Will Happen in 2026（《斯坦福 AI 專家預測 2026 年將發(fā)生什么》）。

這些 HAI 的研究者們一起點出：AI 布道時代正在讓位于評估；即將到來的一年將由嚴謹性、透明度和長期忽視的實用價值而非投機承諾所定義。

簡單來說，就是過去幾年，AI 行業(yè)幾乎只在算“能力賬”，卻系統(tǒng)性地回避了“經(jīng)濟賬”，現(xiàn)在是時候好好算下錢的問題了，比如這些“靈魂拷問”：

企業(yè)為了用 AI，多花了多少錢？
節(jié)省的時間和人力，有沒有被新流程吃掉？
維護、合規(guī)、算力、幻覺兜底，成本算過嗎？

斯坦福的學者們們在多個領域（尤其是法律、醫(yī)療、寫作類工作）都觀察到一個現(xiàn)象：AI 的“單點能力”提升，并不必然帶來整體效率提升。

有時候甚至是反效果：輸出更多，但人要花更多時間核查；寫得更快，但錯誤更隱蔽；看似節(jié)省人力，但引入新的協(xié)調(diào)成本。

他們提出一個觀點，即如果 AI 的加入，讓系統(tǒng)整體變得更復雜、更難以信任，那它的能力提升并沒有什么意義。因此他們特別強調(diào)：不能只測模型，必須測 “人 +AI+ 流程” 這個整體。

以法律領域的 AI 為例，ROI（投資回報率）、嚴謹性和多文檔推理這些指標將越來越重要。

至于 AGI，HAI 的聯(lián)合主任 James Landay 和計算機科學院教授們，直接給其潑了盆冷水：

“My biggest prediction? There will be no AGI this year.（我最大的預測是？今年不會 AGI。)”

不過，這并不意味著技術停滯。相反，他們認為，AI 主權在今年有很不錯的前景——但這里的“主權”并不是比拼誰的模型更大，而是模型跑在哪里、數(shù)據(jù)由誰掌控。

與此同時，對全球不斷升溫的算力投入，斯坦福 HAI 也發(fā)出了警告：過去一年，超大規(guī)模數(shù)據(jù)中心建設明顯加速，但算力投資不可能無限加碼，當資本持續(xù)涌入?yún)s遲遲看不到回報拐點時，這種熱度本身就帶有泡沫意味。

傳播學副教授、HAI 高級研究員 Angèle Christin 說得更直白：“Deflating the AI Bubble .（戳破 AI 泡沫）”她表示，特別期待看到更多關于 AI 能做什么、不能做什么的細致實證研究。這不一定意味著泡沫破裂，但泡沫可能不會變得更大。

說完學界，再看看在產(chǎn)業(yè)一線，AI 目前的價值到底如何？

谷歌云近日發(fā)了份含金量頗高的報告：The ROI of AI 2025（**2025AI 投資回報率），調(diào)查了 3466 名全球營收千萬美元以上的企業(yè)老板或高管。

這里面?zhèn)鬟f出的信號很清晰，即 AI 討論的重心，正在從“模型有多強”，轉向“系統(tǒng)能不能持續(xù)賺錢”——說得再激進點：且不談 AGI，先看 ROI。

谷歌也給出了一個明確的答案：真正實現(xiàn)正向、可持續(xù)投資回報的，并不是零散的生成式 AI 能力，是“Agent + 流程 + 組織”的系統(tǒng)級落地。

數(shù)據(jù)也印證了這一點。88% 早期入坑 Agentic AI 的企業(yè)，已經(jīng)在至少一個 GenAI 場景中看到了正向回報，并且越吃越香。但拉開差距的，和選了哪家模型關系并不大，而是這幾件事：

有沒有高層拍板、持續(xù)背書
有沒有愿意為 AI 重做流程，而不是只加工具
有沒有把一半以上的 AI 預算，真正投到 Agent 上

所以，老板和高管怎么理解 AI，直接決定它的價值能否快速兌現(xiàn)——有清晰 C-level 戰(zhàn)略和持續(xù)背書的公司，78% 已經(jīng)看到正向回報；而目標分散的組織，AI 往往只是“用過、試過”，卻很難真正改變財務結果。

2 技術路徑出現(xiàn)拐點：從大模型到 Agent 體系

如果說前幾年 AI 的核心問題是“模型能不能更強”，那么現(xiàn)在，當模型夠強之后，問題變成了怎么把它真正用進系統(tǒng)里。

在谷歌的這份 ROI 報告里，提到了 118 次 Agent（或者 Agentic）。

報告顯示，AI Agent 已經(jīng)在生產(chǎn)環(huán)境中大規(guī)模部署：在使用 GenAI 的企業(yè)中，已經(jīng)有一半以上（52%）把 Agent 投入生產(chǎn)環(huán)境。

而且真正能讓 AI 獲得正向 ROI 的，集中在這幾類流程清晰、可以規(guī)模化復制的場景：

生產(chǎn)力：減少重復勞動、壓縮處理時間
客戶體驗：更快響應、更穩(wěn)定交付
業(yè)務增長：縮短銷售周期、提升轉化效率
營銷：規(guī)?；瘍?nèi)容與投放優(yōu)化
安全：減少誤判、提前發(fā)現(xiàn)風險

這些場景有一個共同點：它們不是靠模型“更聰明”取勝，而是靠 Agent 嵌進流程、替人干活產(chǎn)生回報。

不過其實 Agent 和 Agent 之間的能力差別也是巨大的，就像智能駕駛分等級一樣，谷歌給 Agent 按效果或者說進化路徑分了三個等級：

Level 1：是大家最熟悉的生成式 AI 階段：聊天、檢索、生成內(nèi)容，本質(zhì)是“一次輸入、一次輸出”的工具能力展示。
Level 2：這才是真正意義上的 Agent。它不只回答問題，而是能理解目標、拆解任務、調(diào)用工具，并在一個流程內(nèi)把事情做完。
Level 3：則是多 Agent 協(xié)同的工作流：不同 Agent 分工協(xié)作，由系統(tǒng)統(tǒng)一編排，像一個可調(diào)度、可擴展的“AI 團隊”。

一級是工具，二級是產(chǎn)品，三級是系統(tǒng)。

值得注意的是，目前絕大多數(shù)已經(jīng)產(chǎn)生正向 ROI 的 Agent，都集中在 Level 2。

客服 Agent、銷售支持 Agent、內(nèi)容與運營 Agent，基本都屬于“單體 Agent + 明確流程”的形態(tài)。它們能嵌進業(yè)務、算得清成本，也更容易被組織信任。

在 2026 年，Agent 的下一步，并不是盲目“堆更多智能體”，而是“更可管理”，讓多個 Agent 在清晰分工和明確規(guī)則下，穩(wěn)定地協(xié)作起來。

要達成這樣的效果，讓吳恩達來看，得把能力拆細、邊界劃清，比如解決掉這些問題：誰來拆任務？誰真正去干活？中途翻車了誰兜底？最后的結果到底算誰的？最終讓 Agent 像流程里的員工一樣穩(wěn)定干活——即Skill- First。

Skill是最近 AI 圈一個大熱的新詞，直譯過來是“技能”；在 AI 技術語境下，你可以將其理解為Agent 的“技能模塊”。

一次搜索、一次寫作、一次代碼生成、一次審批判斷、一次風控校驗、一次執(zhí)行動作，都是一個邊界清楚、可被調(diào)用、可被復用，還能被監(jiān)控的 Skill。

與其說未來是“多 Agent 協(xié)作”，不如說是Agent 在調(diào)度一堆 Skill，比如：

什么時候查資料，用某個搜索 Skill；
什么時候?qū)懳陌?，用某個生成 Skill；
什么時候需要人介入，用審批或風控 Skill 接管。

要知道，目前真正跑出 ROI 的系統(tǒng)，往往不是最復雜、最炫的多 Agent 網(wǎng)絡；而是 Skill 拆得夠細、流程跑得夠順、責任鏈條說得清楚的 Agent 系統(tǒng)。

總而言之，Agent 的天花板，最終不取決于它“認識多少同伴”，而取決于它能不能把一組技能，按業(yè)務節(jié)奏穩(wěn)定地用起來、跑下去、算清賬。

在 Agent 這件事上，吳恩達可以算是“Skill 派”。

雖然他不一定頻繁使用 “Skills” 一詞，但他的思路本質(zhì)上就是 Skill-first：他反對把 AI 能力打包成模糊的“通用智能”，強調(diào)可驗證、可組合、可評估的能力單元。

這應該也是他反對 AGI 被濫用的原因之一：一旦不拆解能力，就無法判斷邊界，也無法管理風險。

所以在吳恩達的體系里，Agent 就像能調(diào)用一組能力、完成工作的人，而 Skill 就是可以被訓練、驗證、組合的具體組件。

AI 是一門長期生意，當故事講完、潮水退去，能留下來的，恐怕只會是那些被長期運行、被持續(xù)信任的系統(tǒng)。

https://hai.stanford.edu/news/stanford-ai-experts-predict-what-will-happen-in-2026

https://cloud.google.com/resources/content/roi-of-ai-2025?hl=zh-CN&utm_source

https://www.deeplearning.ai/the-batch/issue-334/

https://x.com/fchollet/status/2002030113433465127

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.