国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

吳恩達、斯坦福、谷歌云罕見同頻:AI 測評邏輯正被 Agent 顛覆

0
分享至


作者 | 木子

時至 2026 年初,AI 行業(yè)光靠“講故事”(包括但不限于 AGI、顛覆一切、指數(shù)級躍遷......)已經(jīng)開始不夠用了。

吳恩達、斯坦福、谷歌云團隊接連拋出多份報告,都透露出一個共同信號:AI 行業(yè)的焦點,已經(jīng)從“能不能做到”,變成了“在什么條件下、以什么成本、為誰創(chuàng)造價值”。

斯坦福 HAI(斯坦福以人為本人工智能研究院)明確指出,2026 年,是 AI 從 evangelism(布道)走向 evaluation(評估)的一年。


一方面,大量企業(yè)已經(jīng)完成了第一輪生成式 AI 的部署,開始有條件回看投入與產(chǎn)出。

有人開始重新算賬。

谷歌云發(fā)布了一份報告,名為 The ROI of AI 2025(2025AI 投資回報率),調(diào)查了 3466 名全球營收千萬美元以上的企業(yè)老板或高管。


這份報告展現(xiàn)的答案也挺明確:真正實現(xiàn)正向、可持續(xù)投資回報的,并不是零散的生成式 AI 能力,是“Agent+ 流程 + 組織”的系統(tǒng)級落地。

數(shù)據(jù)也很直接:在最早一批入場 Agentic AI 的公司里,有近多九成已經(jīng)在至少一個 GenAI 場景中看到了正向回報,并且越吃越香。

另一方面,AI 正以前所未有的速度滲透進醫(yī)療、法律等高風險、高責任領域,單靠“能力展示”已經(jīng)無法支撐決策。

吳恩達在《The Batch》新年特刊里,直指“AGI”概念被過度濫用,并提出“圖靈 -AGI 測試”重新界定上限。

斯坦福以人為本人工智能研究院(HAI),則聯(lián)合計算機、醫(yī)學、法律、經(jīng)濟學等多學科教授發(fā)布年度預測,明確提出“2026 年是 AI 從布道走向評估的一年”

這些報告背景各異,有產(chǎn)業(yè)一線、有跨學科研究機構、有長期做工程落地的團隊。但都傳遞出一個信號:AI 不再只問“能不能做到”,而是要回答“在什么場景下、以什么成本、替誰承擔風險”。

放在 AI 正在經(jīng)歷關鍵轉向的當下,這幾份報告難得不靠口號撐場子、信息密度很高,值得放在一起細品。

1 Scaling Law 不夠用了,AI 評價標準被重寫

過去幾年,AI 行業(yè)其實并不缺“共識”。

其中最重要的一條,就是Scaling Law:模型越大、數(shù)據(jù)越多、算力越強,能力就越好。參數(shù)規(guī)模、榜單名次,一度成了衡量進步最直觀、也最省事的標準。

但當 AI 真正進入法律、醫(yī)療等高風險場景時,這套邏輯開始顯得單薄——

分數(shù)上漲,并不等于風險可控;能力增強,也不代表系統(tǒng)可落地。

于是,一些長期站在產(chǎn)研一線的人開始意識到:核心問題不僅是“模型還能不能更強”,而是現(xiàn)有評價體系,是否已經(jīng)跟不上應用場景的復雜度。

AI 大牛吳恩達,在其年度通訊《The Batch》新年特刊中提了個引人注目的問題:

“在 2026 年,我們能最終真的實現(xiàn) AGI 嗎?”


說到 AGI,其實目前行業(yè)和學界對此還沒有統(tǒng)一的定義,更缺乏統(tǒng)一、可信的評測體系。而且在吳恩達看來,更棘手的是,“AGI”已經(jīng)被濫用:

“AGI 已經(jīng)變成了一個炒作術語,而不是一個具有精確含義的術語...... 當企業(yè)炒作他們可能在幾個季度內(nèi)實現(xiàn) AGI 時,他們通常試圖通過設定一個非常低的標準來證明這些說法?!?/p>

這些導致學生誤判未來(不敢學某些專業(yè))、CEO 錯判投資節(jié)奏,以及社會整體對 AI 能力產(chǎn)生了系統(tǒng)性高估。

在吳恩達看來,這種過度炒作并非第一次出現(xiàn)。在 AI 發(fā)展史上,幾次著名的“寒冬”往往并不是源于技術本身停滯,而是源于預期被抬得過高、最終崩塌,繼而引發(fā)投資迅速撤離。

在此背景下,為了更好地實現(xiàn)真正的 AGI 目標,他要做一個新的圖靈測試,名曰“圖靈 -AGI 測試”。


經(jīng)典的圖靈測試,由“計算機科學之父”艾倫·圖靈在 1950 年提出,核心標準是:通過純文字對話,如果人類評審無法分辨對方是機器還是人,機器就算通過測試。

不過,這對今天的 AI 已明顯不足,但其中“由人判斷結果是否達到人類水平”的邏輯,被保留并擴展到了更多樣、真實的工作場景中:除了對話,還有接電話、處理任務、交付成果等,并且還得持續(xù)反饋與調(diào)整。

為了讓人類裁判有更深入、細致的體驗,一個實驗周期往往長達多天、甚至是數(shù)周。

那么,這個測試與當前主流的 Benchmark(AIME、GPQA、SWE-bench 等)又有何不同?

在吳恩達看來,當前的大部分基準測試都有這些局限:題目固定、路徑可預期,模型很容易被“對題訓練”。它們難以反映 AI 真的足夠“智能”,比如是否具備長期規(guī)劃、持續(xù)學習和跨任務遷移的能力。

相比之下,圖靈 -AGI 測試關心的是另一件事——它考的不是“會不會解題”,而是 AI 能否在任務不預設、路徑不可控、反饋持續(xù)變化的條件下,把一件事從頭到尾真正完成。

吳恩達認為,現(xiàn)有的 AI 系統(tǒng),想要通過他們團隊設立的圖靈 -AGI 測試,將面臨極高難度和諸多挑戰(zhàn);他甚至還放出一句“反直覺”的話:

“如果現(xiàn)在所有 AI 都通不過這個測試,那反而是一件好事?!?/p>

圖靈 -AGI 測試的意義在于:如果有 AI 能通過,那就是強有力的信號;如果沒有,也正好為過熱的市場按下“冷靜鍵”。

如果說,吳恩達提出的新測試是在關注的,是一個偏 AI“上限”的問題,那企業(yè)與研究機構更迫切需要回答的,則是一個偏“現(xiàn)實”的問題:AI 在當下的真實業(yè)務中,已經(jīng)創(chuàng)造了多少價值,值不值得大規(guī)模用、怎么用?

斯坦福大學的計算機科學、醫(yī)學、法律和經(jīng)濟學的教授們,最近聯(lián)合發(fā)布了一份報告,標題非常直白:Stanford AI Experts Predict What Will Happen in 2026(《斯坦福 AI 專家預測 2026 年將發(fā)生什么》)。

這些 HAI 的研究者們一起點出:AI 布道時代正在讓位于評估;即將到來的一年將由嚴謹性、透明度和長期忽視的實用價值而非投機承諾所定義。


簡單來說,就是過去幾年,AI 行業(yè)幾乎只在算“能力賬”,卻系統(tǒng)性地回避了“經(jīng)濟賬”,現(xiàn)在是時候好好算下錢的問題了,比如這些“靈魂拷問”:

  • 企業(yè)為了用 AI,多花了多少錢?

  • 節(jié)省的時間和人力,有沒有被新流程吃掉?

  • 維護、合規(guī)、算力、幻覺兜底,成本算過嗎?

斯坦福的學者們們在多個領域(尤其是法律、醫(yī)療、寫作類工作)都觀察到一個現(xiàn)象:AI 的“單點能力”提升,并不必然帶來整體效率提升。

有時候甚至是反效果:輸出更多,但人要花更多時間核查;寫得更快,但錯誤更隱蔽;看似節(jié)省人力,但引入新的協(xié)調(diào)成本。

他們提出一個觀點,即如果 AI 的加入,讓系統(tǒng)整體變得更復雜、更難以信任,那它的能力提升并沒有什么意義。因此他們特別強調(diào):不能只測模型,必須測 “人 +AI+ 流程” 這個整體。

以法律領域的 AI 為例,ROI(投資回報率)、嚴謹性和多文檔推理這些指標將越來越重要。

至于 AGI,HAI 的聯(lián)合主任 James Landay 和計算機科學院教授們,直接給其潑了盆冷水:

“My biggest prediction? There will be no AGI this year.(我最大的預測是?今年不會 AGI。)”

不過,這并不意味著技術停滯。相反,他們認為,AI 主權在今年有很不錯的前景——但這里的“主權”并不是比拼誰的模型更大,而是模型跑在哪里、數(shù)據(jù)由誰掌控。


與此同時,對全球不斷升溫的算力投入,斯坦福 HAI 也發(fā)出了警告:過去一年,超大規(guī)模數(shù)據(jù)中心建設明顯加速,但算力投資不可能無限加碼,當資本持續(xù)涌入?yún)s遲遲看不到回報拐點時,這種熱度本身就帶有泡沫意味。

傳播學副教授、HAI 高級研究員 Angèle Christin 說得更直白:“Deflating the AI Bubble .(戳破 AI 泡沫)”她表示,特別期待看到更多關于 AI 能做什么、不能做什么的細致實證研究。這不一定意味著泡沫破裂,但泡沫可能不會變得更大。

說完學界,再看看在產(chǎn)業(yè)一線,AI 目前的價值到底如何?

谷歌云近日發(fā)了份含金量頗高的報告:The ROI of AI 2025(**2025AI 投資回報率),調(diào)查了 3466 名全球營收千萬美元以上的企業(yè)老板或高管。


這里面?zhèn)鬟f出的信號很清晰,即 AI 討論的重心,正在從“模型有多強”,轉向“系統(tǒng)能不能持續(xù)賺錢”——說得再激進點:且不談 AGI,先看 ROI。

谷歌也給出了一個明確的答案:真正實現(xiàn)正向、可持續(xù)投資回報的,并不是零散的生成式 AI 能力,是“Agent + 流程 + 組織”的系統(tǒng)級落地。

數(shù)據(jù)也印證了這一點。88% 早期入坑 Agentic AI 的企業(yè),已經(jīng)在至少一個 GenAI 場景中看到了正向回報,并且越吃越香。但拉開差距的,和選了哪家模型關系并不大,而是這幾件事:

  • 有沒有高層拍板、持續(xù)背書

  • 有沒有愿意為 AI 重做流程,而不是只加工具

  • 有沒有把一半以上的 AI 預算,真正投到 Agent 上

所以,老板和高管怎么理解 AI,直接決定它的價值能否快速兌現(xiàn)——有清晰 C-level 戰(zhàn)略和持續(xù)背書的公司,78% 已經(jīng)看到正向回報;而目標分散的組織,AI 往往只是“用過、試過”,卻很難真正改變財務結果。

2 技術路徑出現(xiàn)拐點:從大模型到 Agent 體系

如果說前幾年 AI 的核心問題是“模型能不能更強”,那么現(xiàn)在,當模型夠強之后,問題變成了怎么把它真正用進系統(tǒng)里。

在谷歌的這份 ROI 報告里,提到了 118 次 Agent(或者 Agentic)。

報告顯示,AI Agent 已經(jīng)在生產(chǎn)環(huán)境中大規(guī)模部署:在使用 GenAI 的企業(yè)中,已經(jīng)有一半以上(52%)把 Agent 投入生產(chǎn)環(huán)境。

而且真正能讓 AI 獲得正向 ROI 的,集中在這幾類流程清晰、可以規(guī)模化復制的場景:

  • 生產(chǎn)力:減少重復勞動、壓縮處理時間

  • 客戶體驗:更快響應、更穩(wěn)定交付

  • 業(yè)務增長:縮短銷售周期、提升轉化效率

  • 營銷:規(guī)?;瘍?nèi)容與投放優(yōu)化

  • 安全:減少誤判、提前發(fā)現(xiàn)風險


這些場景有一個共同點:它們不是靠模型“更聰明”取勝,而是靠 Agent 嵌進流程、替人干活產(chǎn)生回報。

不過其實 Agent 和 Agent 之間的能力差別也是巨大的,就像智能駕駛分等級一樣,谷歌給 Agent 按效果或者說進化路徑分了三個等級:

  • Level 1:是大家最熟悉的生成式 AI 階段:聊天、檢索、生成內(nèi)容,本質(zhì)是“一次輸入、一次輸出”的工具能力展示。

  • Level 2:這才是真正意義上的 Agent。它不只回答問題,而是能理解目標、拆解任務、調(diào)用工具,并在一個流程內(nèi)把事情做完。

  • Level 3: 則是多 Agent 協(xié)同的工作流:不同 Agent 分工協(xié)作,由系統(tǒng)統(tǒng)一編排,像一個可調(diào)度、可擴展的“AI 團隊”。

一級是工具,二級是產(chǎn)品,三級是系統(tǒng)。


值得注意的是,目前絕大多數(shù)已經(jīng)產(chǎn)生正向 ROI 的 Agent,都集中在 Level 2。

客服 Agent、銷售支持 Agent、內(nèi)容與運營 Agent,基本都屬于“單體 Agent + 明確流程”的形態(tài)。它們能嵌進業(yè)務、算得清成本,也更容易被組織信任。

在 2026 年,Agent 的下一步,并不是盲目“堆更多智能體”,而是“更可管理”,讓多個 Agent 在清晰分工和明確規(guī)則下,穩(wěn)定地協(xié)作起來。

要達成這樣的效果,讓吳恩達來看,得把能力拆細、邊界劃清,比如解決掉這些問題:誰來拆任務?誰真正去干活?中途翻車了誰兜底?最后的結果到底算誰的?最終讓 Agent 像流程里的員工一樣穩(wěn)定干活——即Skill- First。

Skill是最近 AI 圈一個大熱的新詞,直譯過來是“技能”;在 AI 技術語境下,你可以將其理解為Agent 的“技能模塊”。

一次搜索、一次寫作、一次代碼生成、一次審批判斷、一次風控校驗、一次執(zhí)行動作,都是一個邊界清楚、可被調(diào)用、可被復用,還能被監(jiān)控的 Skill。

與其說未來是“多 Agent 協(xié)作”,不如說是Agent 在調(diào)度一堆 Skill,比如:

  • 什么時候查資料,用某個搜索 Skill;

  • 什么時候?qū)懳陌?,用某個生成 Skill;

  • 什么時候需要人介入,用審批或風控 Skill 接管。

要知道,目前真正跑出 ROI 的系統(tǒng),往往不是最復雜、最炫的多 Agent 網(wǎng)絡;而是 Skill 拆得夠細、流程跑得夠順、責任鏈條說得清楚的 Agent 系統(tǒng)。

總而言之,Agent 的天花板,最終不取決于它“認識多少同伴”,而取決于它能不能把一組技能,按業(yè)務節(jié)奏穩(wěn)定地用起來、跑下去、算清賬。

在 Agent 這件事上,吳恩達可以算是“Skill 派”。

雖然他不一定頻繁使用 “Skills” 一詞,但他的思路本質(zhì)上就是 Skill-first:他反對把 AI 能力打包成模糊的“通用智能”,強調(diào)可驗證、可組合、可評估的能力單元。

這應該也是他反對 AGI 被濫用的原因之一:一旦不拆解能力,就無法判斷邊界,也無法管理風險。

所以在吳恩達的體系里,Agent 就像能調(diào)用一組能力、完成工作的人,而 Skill 就是可以被訓練、驗證、組合的具體組件。

AI 是一門長期生意,當故事講完、潮水退去,能留下來的,恐怕只會是那些被長期運行、被持續(xù)信任的系統(tǒng)。

https://hai.stanford.edu/news/stanford-ai-experts-predict-what-will-happen-in-2026

https://cloud.google.com/resources/content/roi-of-ai-2025?hl=zh-CN&utm_source

https://www.deeplearning.ai/the-batch/issue-334/

https://x.com/fchollet/status/2002030113433465127

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
原來,費翔這輩子愛得最深的,不是葉倩文。而是大他7歲的她

原來,費翔這輩子愛得最深的,不是葉倩文。而是大他7歲的她

她時尚丫
2026-03-01 19:26:59
特朗普稱將很快宣布報復措施

特朗普稱將很快宣布報復措施

界面新聞
2026-03-03 09:19:08
北京機場穿漢服上崗的消息刷屏了,外國旅客:太美了,仿佛穿越了

北京機場穿漢服上崗的消息刷屏了,外國旅客:太美了,仿佛穿越了

魔都姐姐雜談
2026-03-03 04:39:08
王楚欽奪冠后,各國球迷議論紛紛,日本球迷對他的評價令國乒尷尬

王楚欽奪冠后,各國球迷議論紛紛,日本球迷對他的評價令國乒尷尬

老牛體育解說
2026-03-03 05:16:32
謝娜發(fā)長文喊話薛之謙:有些話,為了家人,我必須說!

謝娜發(fā)長文喊話薛之謙:有些話,為了家人,我必須說!

韓小娛
2026-03-03 09:47:17
特朗普向國會提交戰(zhàn)爭權力法案通知

特朗普向國會提交戰(zhàn)爭權力法案通知

界面新聞
2026-03-03 09:55:23
森林狼官宣簽下李凱爾!改穿12號球衣 穿過3個號碼成隊史首人

森林狼官宣簽下李凱爾!改穿12號球衣 穿過3個號碼成隊史首人

羅說NBA
2026-03-03 08:06:29
天助巴塞羅那:0-1大冷門,皇馬遭西甲第13掀翻,2連敗+落后榜首4分

天助巴塞羅那:0-1大冷門,皇馬遭西甲第13掀翻,2連敗+落后榜首4分

側身凌空斬
2026-03-03 06:03:40
“我爸是大官”韓方奕:當街打死32歲警察,入獄不到7年成功減刑

“我爸是大官”韓方奕:當街打死32歲警察,入獄不到7年成功減刑

談史論天地
2026-03-02 17:40:20
詩仙李白“飛流直下三千尺”的盛景重現(xiàn),合肥西安等地游客專程來“望廬山瀑布”,解鎖各類創(chuàng)意打卡姿勢

詩仙李白“飛流直下三千尺”的盛景重現(xiàn),合肥西安等地游客專程來“望廬山瀑布”,解鎖各類創(chuàng)意打卡姿勢

極目新聞
2026-03-02 21:35:21
伊朗不值得同情!兩大國親手為他搭好擂臺,卻反手被賣

伊朗不值得同情!兩大國親手為他搭好擂臺,卻反手被賣

毛豆論道
2026-03-02 17:01:06
王毅外長:今后世上再無“中國臺灣省”之外的任何模糊稱謂。

王毅外長:今后世上再無“中國臺灣省”之外的任何模糊稱謂。

南權先生
2026-02-02 15:59:44
前總統(tǒng)生死不明 伊朗人的“脊梁”會被打斷嗎?

前總統(tǒng)生死不明 伊朗人的“脊梁”會被打斷嗎?

看看新聞Knews
2026-03-02 23:07:07
伊朗將回歸世俗社會

伊朗將回歸世俗社會

八桂知事
2026-03-02 14:07:58
梅婷有過三段婚姻,第一任丈夫是葉挺的孫子葉大鷹,是電影導演

梅婷有過三段婚姻,第一任丈夫是葉挺的孫子葉大鷹,是電影導演

百態(tài)人間
2026-03-02 15:16:23
伊朗無差別攻擊海灣國家  非理性行為恐遭反噬加速失敗

伊朗無差別攻擊海灣國家 非理性行為恐遭反噬加速失敗

劉耘博士
2026-03-03 07:22:10
全國政協(xié)委員劉永好:建議全民發(fā)放500元通用消費券 可拉動消費近2萬億元

全國政協(xié)委員劉永好:建議全民發(fā)放500元通用消費券 可拉動消費近2萬億元

財聯(lián)社
2026-03-02 10:57:04
特斯拉車主:Model Y L 中控臺充電口“燒壞”,自費更換要 2700 元

特斯拉車主:Model Y L 中控臺充電口“燒壞”,自費更換要 2700 元

新浪財經(jīng)
2026-03-02 23:51:33
上海影院現(xiàn)場意外捉奸,女子露面身材姣好,丈夫目睹后聲音都變了

上海影院現(xiàn)場意外捉奸,女子露面身材姣好,丈夫目睹后聲音都變了

離離言幾許
2026-03-02 12:52:58
年輕人超愛的“椰子水”塌房了,豈能披著“純天然”的皮干勾兌的買賣?

年輕人超愛的“椰子水”塌房了,豈能披著“純天然”的皮干勾兌的買賣?

極目新聞
2026-03-02 13:10:38
2026-03-03 10:28:49
InfoQ incentive-icons
InfoQ
有內(nèi)容的技術社區(qū)媒體
12096文章數(shù) 51783關注度
往期回顧 全部

科技要聞

蘋果iPhone17e發(fā)布:4499元起 升級A19芯片

頭條要聞

牛彈琴:多國對轟炸保持沉默 西班牙首相確實是條漢子

頭條要聞

牛彈琴:多國對轟炸保持沉默 西班牙首相確實是條漢子

體育要聞

伯納烏8萬人暴怒!高呼78歲老佛爺下課

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財經(jīng)要聞

霍爾木茲海峽近乎停擺 布油直逼80美元

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗

態(tài)度原創(chuàng)

家居
房產(chǎn)
親子
旅游
本地

家居要聞

萬物互聯(lián) 享科技福祉

房產(chǎn)要聞

方案突然曝光!海口北師大附校,又有書包大盤殺出!

親子要聞

孕吐是胎兒的自我保護?孕吐越嚴重,孩子越聰明?聽專家怎么說

旅游要聞

打造沉浸式元宵體驗 萬寧推出六大特色活動

本地新聞

津南好·四時總相宜

無障礙瀏覽 進入關懷版