国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

從大模型到Agent的跨越難度,正被整個(gè)行業(yè)嚴(yán)重低估

0
分享至

文 | 硅基星芒

過去兩年,AI 敘事的坐標(biāo)系近乎失準(zhǔn)。

MMLU、HumanEval 這類靜態(tài)指標(biāo)像高考榜單一樣被反復(fù)張貼,不斷刷新的數(shù)字仿佛宣告通用人工智能已抵近終點(diǎn)線。

然而,一種名為APEX?Agents的新基準(zhǔn)戳破了這層幻象。

它揭示的并非模型智商的線性進(jìn)步,而是一個(gè)殘酷的悖論:當(dāng) AI 試圖從“回答問題”跨越到“完成工作”時(shí),能力的提升正陷入嚴(yán)重的數(shù)據(jù)饑渴。

從LLM(語(yǔ)言大模型)到Agent的轉(zhuǎn)向,不是版本的升級(jí),而是一次從靜態(tài)智力到動(dòng)態(tài)生產(chǎn)力的范式轉(zhuǎn)移。其跨越難度,被整個(gè)行業(yè)嚴(yán)重低估。

評(píng)測(cè)權(quán)杖的交接

在過去的三年中,LLM一直是AI的主要形態(tài)。

那時(shí),人們?cè)u(píng)測(cè)模型的重心在于“智商”,也就是模型能夠掌握多少靜態(tài)知識(shí)、能否正確進(jìn)行邏輯推導(dǎo)。

但隨著AI的形態(tài)在不到半年間從LLM全面過渡到Agent,評(píng)測(cè)的權(quán)杖也必須發(fā)生交接。

Agent的核心本質(zhì)就在于它必須與數(shù)字環(huán)境甚至真實(shí)物理環(huán)境進(jìn)行高頻的感知和交互。

APEX-Agents基準(zhǔn)測(cè)試選擇徹底摒棄了以往“一問一答”式的數(shù)學(xué)和編程考卷,取而代之的則是33個(gè)數(shù)據(jù)豐富的模擬世界(Worlds)。

每個(gè)世界都代表一個(gè)獨(dú)特的項(xiàng)目場(chǎng)景,其中平均包含166個(gè)文件并涉及9個(gè)以上的應(yīng)用程序工具。

對(duì)于模型來說,這與大語(yǔ)言模型“紙上談兵”的交互方式截然不同。

它被投放在一個(gè)數(shù)字沙盒之中,但這次要面對(duì)的不是各種復(fù)雜的數(shù)學(xué)題和編程題,而是要像人類員工一樣在長(zhǎng)達(dá)數(shù)小時(shí)的任務(wù)鏈條中觀察環(huán)境變化、拆解復(fù)雜指令、調(diào)用各種工具并交付最終成果。


智能體時(shí)代初期的代碼執(zhí)行、PDF解析、電子表格標(biāo)簽操作等目標(biāo),也變成了微小但容錯(cuò)率極低的中間環(huán)節(jié)。

這種評(píng)價(jià)標(biāo)準(zhǔn)的轉(zhuǎn)變,反映出了AGI門檻的實(shí)質(zhì)性變化:

它關(guān)心的不是模型知道什么,而是在復(fù)雜的環(huán)境下能做成什么。

為了模擬真實(shí)職場(chǎng)給人類帶來的“重力感”,APEX還下血本邀請(qǐng)了來自麥肯錫、高盛、思科等企業(yè)共256位擁有平均12.9年行業(yè)經(jīng)驗(yàn)的頂級(jí)專家。

這些專家不僅要基于專業(yè)知識(shí)給模型提出任務(wù),還要給出明確的“過程準(zhǔn)則(Rubrics)”,讓評(píng)測(cè)從一場(chǎng)智力游戲徹底蛻變成生產(chǎn)力的挑戰(zhàn)。

被無情揭開的性能“遮羞布”

面對(duì)APEX-Agents的Pass@1(一次通過率)排行榜結(jié)果,任何出于商業(yè)化目的鼓吹“AGI即將實(shí)現(xiàn)”的說法都不攻自破。

數(shù)據(jù)展現(xiàn)出了令人冷靜的低迷,而這種低準(zhǔn)確率和高跑分結(jié)果形成了鮮明的對(duì)比,直接戳破了AGI的泡沫。

這項(xiàng)基準(zhǔn)測(cè)試的場(chǎng)景主要用于評(píng)估三個(gè)職位:企業(yè)律師、管理顧問和投資銀行分析師。

報(bào)告顯示,全球AI三巨頭之一的Google旗下的Gemini 3 Flash在開啟高度思考模式下,也只得到了24%的分?jǐn)?shù)。


同為三巨頭之一的GPT-5.2(High)也沒好到哪里去,以23%的分?jǐn)?shù)位居第二。

具體到細(xì)分的職業(yè)場(chǎng)景中,分?jǐn)?shù)也都不太理想,再先進(jìn)的模型也難以突破30%的門檻。


在這個(gè)情況下,討論哪個(gè)模型能力更強(qiáng)已經(jīng)意義不大。

關(guān)鍵的問題在于,為什么以前使用體驗(yàn)很好的LLM在實(shí)際任務(wù)中表現(xiàn)得如此差勁?

APEX報(bào)告指出了幾個(gè)關(guān)鍵的失敗模式,而這正是大模型無法轉(zhuǎn)變?yōu)樯a(chǎn)力工具的最大限制:

死循環(huán)(Doom Looping):模型在遇到工具調(diào)用失敗時(shí),無法進(jìn)行有效的反思,而是反復(fù)嘗試同樣的錯(cuò)誤指令,直到消耗完預(yù)設(shè)的步數(shù)限制。因此,現(xiàn)階段的Agent仍然缺乏認(rèn)知能力。

流氓行為(Rogue Behavior):GPT-5.2在測(cè)試中曾經(jīng)犯下大錯(cuò),意外刪除了21個(gè)關(guān)鍵的生產(chǎn)文件。對(duì)于嚴(yán)謹(jǐn)?shù)慕鹑诤头深I(lǐng)域,這種誤操作必然招致災(zāi)難性的后果。

長(zhǎng)時(shí)程規(guī)劃迷失:當(dāng)任務(wù)步驟超過了限制,模型的“意圖漂移(Intent Drift)”現(xiàn)象極為嚴(yán)重這也是Vibe Coding中最常見的情況,模型在任務(wù)執(zhí)行到一半時(shí)早已忘記了初始目標(biāo)。

若將嘗試次數(shù)放寬至8次(Pass@8),頂尖模型的得分能夠接近40%,但衡量穩(wěn)定性的指標(biāo)卻降到了最低6.5%,這就是當(dāng)前智能體的典型特征:具備潛力,但極不穩(wěn)定。

換句話說,智能體能夠產(chǎn)出碎片化的有效信息,但難以完成閉環(huán)交付。

這些數(shù)據(jù)也揭示了一個(gè)被刻意掩蓋的真相:

現(xiàn)階段的智能體最多只能算是AGI的最初級(jí)形態(tài)。

那些鼓吹A(chǔ)GI進(jìn)度已經(jīng)完成大半的說法,完全是基于靜態(tài)智商測(cè)試的商業(yè)包裝。

傳統(tǒng)LLM的性能瓶頸主要在于算力和參數(shù)量,而Agent時(shí)代的門檻已經(jīng)轉(zhuǎn)移到任務(wù)編排、狀態(tài)管理、錯(cuò)誤恢復(fù)和長(zhǎng)程規(guī)劃。

智能體連“可用”和“可靠”之間的鴻溝都無法跨越,更不要提“好用”,在復(fù)雜的工作流面前,AI依然顯得十分稚嫩。

成本的陷阱

在現(xiàn)有的Agent測(cè)評(píng)中,準(zhǔn)確率順理成章地成為了唯一的主角,但對(duì)商業(yè)落地具有決定性影響的token消耗成本往往無人提及。

眾所周知,Agent相比于LLM,消耗的token成本完全不在一個(gè)量級(jí)。

APEX報(bào)告提供的數(shù)據(jù)讓這種差距更加具象化:


以24%的Pass@1分?jǐn)?shù)領(lǐng)跑的Google最新模型Gemini 3 Flash單次任務(wù)平均消耗的token達(dá)到了531.5萬,大約是GPT-5.2的5倍、Gemini 3 Pro的8倍。

然而,性能優(yōu)勢(shì)的差距只有1%。

這個(gè)數(shù)字已經(jīng)足以讓所有開發(fā)者在做出決策前冷靜下來。

如果按照目前閉源模型的價(jià)格核算,完成一個(gè)復(fù)雜的投行任務(wù),算力成本必然高達(dá)幾十美金。

即便不考慮模型部署的固定成本,AI的運(yùn)行成本也已經(jīng)逼近甚至超過了初級(jí)人類分析師的時(shí)薪。

目前智能體展現(xiàn)出來的較低水平的準(zhǔn)確率,本質(zhì)上也是建立在不計(jì)成本的暴力推理之上而實(shí)現(xiàn)的。

模型可以通過海量的思維鏈(CoT)和反復(fù)重試來?yè)Q取成功率,但在商業(yè)情境下,這兩種方式都不可能無限制使用。

因此,這種“高消耗+低增益”的邊際遞減效應(yīng)直接指向了一個(gè)產(chǎn)業(yè)級(jí)的命題:

在智能體時(shí)代,性價(jià)比必須與準(zhǔn)確率同等重要,甚至更具決定性。

未來的Agent基準(zhǔn)測(cè)試,必須引入基于token的投資回報(bào)率。

如果Agent無法實(shí)現(xiàn)低功耗、高精度的閉環(huán),它就永遠(yuǎn)無法成為社會(huì)期待的通用基礎(chǔ)設(shè)施。

生態(tài)分化與商業(yè)格局

APEX報(bào)告中另一個(gè)值得關(guān)注的現(xiàn)象在于開源模型在這場(chǎng)基準(zhǔn)測(cè)試中的全面潰敗。

在LLM時(shí)代,開源模型憑借著參數(shù)量的擴(kuò)張和高質(zhì)量語(yǔ)料庫(kù)的預(yù)訓(xùn)練,在多項(xiàng)靜態(tài)基準(zhǔn)中已經(jīng)屢屢逼近甚至反超AI巨頭的上一代旗艦?zāi)P汀?/p>

但進(jìn)入Agent時(shí)代以后,“開源平權(quán)”的敘事已經(jīng)接近失效。

盡管全球范圍內(nèi)的頂尖模型也做不到“可靠”,但閉源模型還是對(duì)開源模型形成了降維打擊,像GPT-OSS-120B和Kimi K2的得分甚至低于5%。


但事實(shí)證明,面對(duì)長(zhǎng)時(shí)程規(guī)劃、嚴(yán)格指令遵循和工具調(diào)用的實(shí)戰(zhàn)任務(wù)時(shí),這些開源模型仍然處于不可用的狀態(tài)。

當(dāng)然,把這種落差單純歸因于基礎(chǔ)模型推理能力不足并不客觀,智能體能力的系統(tǒng)復(fù)合性也極為重要。

一個(gè)能穩(wěn)定執(zhí)行長(zhǎng)周期任務(wù)的Agent不僅需要底層模型具備強(qiáng)大的語(yǔ)言理解能力,還需要把軌跡優(yōu)化、狀態(tài)一致性等LLM時(shí)代容易被忽視的細(xì)節(jié)做得更完美。

閉環(huán)數(shù)據(jù)、大規(guī)模算力調(diào)度、端到端的技術(shù)棧,這些都是閉源廠商在智能體時(shí)代的商業(yè)命脈。

但開源模型目前仍然停留在初期階段,缺少高質(zhì)量的行為對(duì)齊數(shù)據(jù)。

掌控了智能體的“辦事邏輯”和執(zhí)行軌跡,就等同于建立起一道堅(jiān)固的數(shù)據(jù)壁壘。

因此,LLM時(shí)代AI邏輯被顛覆的同時(shí),我們也可以清晰地看到眼前的事實(shí)和未來的趨勢(shì):

那些真正能放在智能體中“辦事”的模型,幾乎都不是免費(fèi)的。

存量數(shù)據(jù)正成為重大挑戰(zhàn)

無論是LLM的時(shí)代,還是Agent的時(shí)代,AI的三要素始終沒有變化:算法、算力和數(shù)據(jù)。

在上一篇文章中算力經(jīng)濟(jì)學(xué)的邏輯,在Agent時(shí)代徹底改寫了,我們已經(jīng)說過算力緊缺是客觀存在且短期內(nèi)不可改變的事實(shí)。

但智能體取代LLM成為新時(shí)代的AI形態(tài)的同時(shí),一個(gè)根本性的挑戰(zhàn)也已經(jīng)擺在所有人的面前:

Agent能力的提升已經(jīng)陷入嚴(yán)重的數(shù)據(jù)饑渴。

字節(jié)跳動(dòng)震驚全球的Seedance 2.0成功案例已經(jīng)證明,在TikTok的加持下,憑借海量真實(shí)的視覺數(shù)據(jù),即便算力相比Google和OpenAI處于劣勢(shì),但仍然能超越Veo和Sora實(shí)現(xiàn)多模態(tài)領(lǐng)域的突破。

但這一套成功的邏輯并不能直接套用到智能體上,因?yàn)?strong>文本、圖像、音頻和視頻都是現(xiàn)實(shí)世界中在AI出現(xiàn)之前就已經(jīng)存在的“非結(jié)構(gòu)化”存量。

Agent執(zhí)行任務(wù)的邏輯與多模態(tài)模型不同,它是一套“人如何使用工具完成任務(wù)”的隱形邏輯。

顯然,這種邏輯在AI出現(xiàn)之前不可能被大規(guī)模數(shù)字化記錄。

人類如何打開Excel、如何根據(jù)報(bào)錯(cuò)修改公式、如何在郵件中確認(rèn)需求,這些日常生活中最常見的情景,對(duì)于AI來說極其復(fù)雜而且難以抽象。

互聯(lián)網(wǎng)上存在海量的高質(zhì)量文本數(shù)據(jù),卻幾乎沒有高質(zhì)量的“任務(wù)執(zhí)行軌跡”。

事實(shí)上,黃仁勛在2024年的預(yù)言就精確命中了這個(gè)痛點(diǎn):?jiǎn)渭円蕾嚞F(xiàn)有的數(shù)據(jù)堆砌無法支撐下一代AI的演進(jìn)。

和具身智能一樣,想要解決現(xiàn)階段智能體的瓶頸,必須構(gòu)建高保真的虛擬世界環(huán)境,并通過合成數(shù)據(jù)(Synthetic Data)技術(shù)生成高質(zhì)量的訓(xùn)練樣本。

APEX基準(zhǔn)測(cè)試中構(gòu)建的Archipelago基礎(chǔ)設(shè)施,實(shí)際上就是為了智能體專門提供的加速迭代試驗(yàn)場(chǎng)。

在這些虛擬環(huán)境中,Agent可以經(jīng)歷數(shù)百萬次失敗和修正,模擬真實(shí)職場(chǎng)中難以復(fù)現(xiàn)的極端場(chǎng)景。

未來的AGI門檻,將不再是誰閱讀過的互聯(lián)網(wǎng)文本更多,而是誰在仿真環(huán)境里見過的行動(dòng)軌跡更豐富。

智能體訓(xùn)練的本質(zhì)仍是強(qiáng)化學(xué)習(xí),而在沒有充足的“學(xué)習(xí)資料”的當(dāng)下,結(jié)果只能是嚴(yán)重的欠擬合。

APEX基準(zhǔn)測(cè)試不僅是一個(gè)技術(shù)指標(biāo),還是一次對(duì)行業(yè)認(rèn)知的重塑。

人們應(yīng)該看清,我們距離真正的AI生產(chǎn)力革命還有多遠(yuǎn)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
新型賣淫方式五花八門,讓人大開眼界。

新型賣淫方式五花八門,讓人大開眼界。

蔚藍(lán)的珊瑚海
2026-04-10 17:02:21
數(shù)艘美國(guó)海軍艦船通過霍爾木茲海峽

數(shù)艘美國(guó)海軍艦船通過霍爾木茲海峽

每日經(jīng)濟(jì)新聞
2026-04-11 21:23:39
人口大遷徙已悄然開啟!未來幾年,無數(shù)中國(guó)人命運(yùn)或?qū)氐赘膶懀?>
    </a>
        <h3>
      <a href=小陸搞笑日常
2026-04-12 17:54:18
男星查理·辛嗜性成癮,曾一天與五人發(fā)生關(guān)系,連男人他也不放過

男星查理·辛嗜性成癮,曾一天與五人發(fā)生關(guān)系,連男人他也不放過

七阿姨愛八卦
2026-04-12 17:14:49
沒想到,連小布什、奧巴馬、拜登都明確拒絕的事,只有川普同意了

沒想到,連小布什、奧巴馬、拜登都明確拒絕的事,只有川普同意了

說歷史的老牢
2026-04-12 03:59:15
加油逃單的路虎車主被找到了!逃單原因曝光,司機(jī)將被行政處罰

加油逃單的路虎車主被找到了!逃單原因曝光,司機(jī)將被行政處罰

奇思妙想草葉君
2026-04-11 22:02:29
5月1日起施行,貪污賄賂量刑新規(guī)出臺(tái),判刑標(biāo)準(zhǔn)有新調(diào)整

5月1日起施行,貪污賄賂量刑新規(guī)出臺(tái),判刑標(biāo)準(zhǔn)有新調(diào)整

李博世財(cái)經(jīng)
2026-04-12 11:52:03
好萊塢兩大頂流女星開撕?新晉性感女神狂撩同事新婚丈夫,紅毯拒同框互翻白眼?

好萊塢兩大頂流女星開撕?新晉性感女神狂撩同事新婚丈夫,紅毯拒同框互翻白眼?

英國(guó)報(bào)姐
2026-04-11 21:12:19
他竟然轉(zhuǎn)型成了個(gè)“正能量偶像”?

他竟然轉(zhuǎn)型成了個(gè)“正能量偶像”?

BenSir本色說
2026-04-10 22:07:04
登熱搜!曼城球迷手握阿森納隊(duì)徽瓶子吹氣 瘋狂嘲諷:你又掉鏈子

登熱搜!曼城球迷手握阿森納隊(duì)徽瓶子吹氣 瘋狂嘲諷:你又掉鏈子

我愛英超
2026-04-13 06:46:17
無濾鏡后,蕭薔像隔壁大嬸,李小冉斷崖式衰老,瞿穎孫怡村里村氣

無濾鏡后,蕭薔像隔壁大嬸,李小冉斷崖式衰老,瞿穎孫怡村里村氣

白面書誏
2026-04-12 17:06:22
費(fèi)迪南德警告阿爾特塔:學(xué)利物浦那場(chǎng),等著被"暴打"

費(fèi)迪南德警告阿爾特塔:學(xué)利物浦那場(chǎng),等著被"暴打"

賽場(chǎng)名場(chǎng)面
2026-04-13 06:09:44
賽力斯總裁何利揚(yáng):今年以來,選擇純電車型的用戶比例大幅增加

賽力斯總裁何利揚(yáng):今年以來,選擇純電車型的用戶比例大幅增加

新浪財(cái)經(jīng)
2026-04-11 14:56:25
隨著成都蓉城2-1,云南玉昆4-3,津門虎1-1,中超最新積分榜出爐

隨著成都蓉城2-1,云南玉昆4-3,津門虎1-1,中超最新積分榜出爐

俯身沖頂
2026-04-12 22:11:44
四處播種的后果!24歲狀元,4個(gè)孩子4位母親,現(xiàn)在又被告上法庭

四處播種的后果!24歲狀元,4個(gè)孩子4位母親,現(xiàn)在又被告上法庭

你的籃球頻道
2026-04-12 08:38:25
不打了!大規(guī)模輪休!俯沖西部第4挑選火箭

不打了!大規(guī)模輪休!俯沖西部第4挑選火箭

籃球?qū)崙?zhàn)寶典
2026-04-12 19:29:05
深夜,全線跳水,超11萬人爆倉(cāng)!

深夜,全線跳水,超11萬人爆倉(cāng)!

每日經(jīng)濟(jì)新聞
2026-04-12 22:47:09
王石,最新發(fā)文!

王石,最新發(fā)文!

證券時(shí)報(bào)e公司
2026-04-12 19:53:01
教育部通知!9月入學(xué)迎來顛覆性改革,孩子上學(xué)不用再拼家底了

教育部通知!9月入學(xué)迎來顛覆性改革,孩子上學(xué)不用再拼家底了

今朝牛馬
2026-04-10 22:35:42
優(yōu)雅的旗袍穿搭,獨(dú)特的東方韻味

優(yōu)雅的旗袍穿搭,獨(dú)特的東方韻味

美女穿搭分享
2026-04-11 16:52:14
2026-04-13 07:00:49
鈦媒體APP incentive-icons
鈦媒體APP
獨(dú)立財(cái)經(jīng)科技媒體
132122文章數(shù) 862091關(guān)注度
往期回顧 全部

科技要聞

理想稱遭惡意拉踩,東風(fēng)日產(chǎn):尊重同行

頭條要聞

特朗普:將封鎖任何試圖進(jìn)出霍爾木茲海峽的船只

頭條要聞

特朗普:將封鎖任何試圖進(jìn)出霍爾木茲海峽的船只

體育要聞

創(chuàng)造歷史!五大聯(lián)賽首位女性主教練誕生

娛樂要聞

賭王女兒何超蕸病逝,常年和乳癌斗爭(zhēng)

財(cái)經(jīng)要聞

美伊談判破裂的三大癥結(jié)

汽車要聞

煥新極氪007/007GT上市 限時(shí)19.39萬起

態(tài)度原創(chuàng)

手機(jī)
游戲
教育
房產(chǎn)
時(shí)尚

手機(jī)要聞

華為闊折疊設(shè)計(jì)圖曝光!這外觀你喜歡嗎?

太寵玩家:《紅沙》BUG被轉(zhuǎn)正成技能!玩家舒服了

教育要聞

留學(xué)行業(yè)的寒冬已經(jīng)來了!

房產(chǎn)要聞

土地供應(yīng)突然暴跌!2026??跇鞘校窬执笞?!

被周冬雨、林更新戴上熱搜的珠寶,究竟有多驚艷?

無障礙瀏覽 進(jìn)入關(guān)懷版