国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

速度提升,能力卻暴跌?擴(kuò)散模型做智能體的殘酷真相

0
分享至



基于自回歸語(yǔ)言模型的智能體已在許多場(chǎng)景中展現(xiàn)出完成復(fù)雜任務(wù)的能力,但高昂的推理成本和低下的執(zhí)行效率問(wèn)題仍然是制約智能體工作流(Agentic Workflow)發(fā)展的關(guān)鍵瓶頸。

與傳統(tǒng)的自回歸式語(yǔ)言模型不同,擴(kuò)散語(yǔ)言模型(Diffusion-Based Language Models)采用并行解碼機(jī)制,顯著提升了生成速度,似乎為突破這一瓶頸帶來(lái)了全新的可能性。

現(xiàn)有的關(guān)于 Llada、Dream 等擴(kuò)散語(yǔ)言模型的研究中,這類模型在大幅度提高生成效率的同時(shí),在 MMLU、GSM8K 等基準(zhǔn)任務(wù)上保持了與自回歸語(yǔ)言模型相當(dāng)?shù)耐ㄓ媚芰ΑH欢湓谥悄荏w任務(wù)上的表現(xiàn)尚缺乏系統(tǒng)性的評(píng)估。

基于這一問(wèn)題,近期南洋理工大學(xué)的陶大程教授團(tuán)隊(duì)聯(lián)合東南大學(xué)、阿里巴巴等發(fā)布了一份綜合評(píng)測(cè)報(bào)告,通過(guò)對(duì) 2 個(gè)自回歸語(yǔ)言模型和 4 個(gè)擴(kuò)散語(yǔ)言模型在具身智能體(Embodied Agent)和工具調(diào)用智能體(Tool-Calling Agent)上的一系列實(shí)驗(yàn),揭示了一個(gè)反直覺(jué)的發(fā)現(xiàn):擴(kuò)散語(yǔ)言模型在智能體能力方面存在系統(tǒng)性缺陷,顯著落后于同規(guī)模的自回歸模型!

這項(xiàng)工作揭示了一個(gè)深刻的教訓(xùn)(Bitter Lesson):盡管擴(kuò)散語(yǔ)言模型實(shí)現(xiàn)了高效的并行推理,但也顯著削弱了其因果推理和反思能力,難以可靠地執(zhí)行具身智能體的長(zhǎng)鏈推理任務(wù);同時(shí),并行解碼機(jī)制使得輸出具有更高的不確定性,這對(duì)于精確性要求極高的工具調(diào)用任務(wù)造成了重大挑戰(zhàn)。



  • 論文標(biāo)題:The Bitter Lesson of Diffusion Language Models for Agentic Workflows: AComprehensive Reality Check
  • 論文地址:
  • https://arxiv.org/pdf/2601.12979
  • 項(xiàng)目地址:
  • https://coldmist-lu.github.io/DiffuAgent/
  • 代碼地址:
  • https://github.com/Coldmist-Lu/DiffuAgent/



一、為何失?。繑U(kuò)散模型

難以完成智能體任務(wù)的三大原因



  • 具身智能任務(wù):因果推理能力不足,陷入重復(fù)循環(huán)

研究基于 AgentBoard 中的三個(gè)典型具身智能任務(wù)(AlfWorld、ScienceWorld 和 BabyAI)測(cè)試了模型的長(zhǎng)鏈規(guī)劃推理能力。結(jié)果顯示,擴(kuò)散語(yǔ)言模型的成功率(Success Rate)和平均任務(wù)進(jìn)度(Progress Rate)均顯著低于自回歸模型,在部分任務(wù)甚至無(wú)法產(chǎn)生任何正確樣例。

深入分析發(fā)現(xiàn),擴(kuò)散模型難以進(jìn)行因果性的推理和實(shí)時(shí)反思,頻繁陷入重復(fù)性操作循環(huán)(retry loop,見(jiàn)下圖 a),而自回歸語(yǔ)言模型則極少出現(xiàn)此類問(wèn)題。

  • 工具調(diào)用任務(wù):格式輸出混亂,多輪調(diào)用幾乎失效

研究采用伯克利函數(shù)調(diào)用基準(zhǔn)(BFCL v3)進(jìn)行評(píng)估,發(fā)現(xiàn)擴(kuò)散語(yǔ)言模型在單輪與多輪工具調(diào)用場(chǎng)景中均落后于自回歸模型。尤其在具有挑戰(zhàn)性的多輪任務(wù)中,擴(kuò)散模型幾乎無(wú)法成功完成一次完整調(diào)用工作流。

進(jìn)一步分析表明,擴(kuò)散語(yǔ)言模型更容易產(chǎn)生格式不規(guī)范、語(yǔ)義模糊的調(diào)用輸出(見(jiàn)下圖 b),在要求嚴(yán)格的結(jié)構(gòu)化輸出場(chǎng)景下表現(xiàn)尤為突出。

  • 效率與能力的權(quán)衡:并行解碼的隱性代價(jià)

盡管擴(kuò)散語(yǔ)言模型以高吞吐量為賣點(diǎn),但研究發(fā)現(xiàn),更高的生成效率并不等同于更強(qiáng)的智能體能力(如下圖 c)。相反,并行解碼機(jī)制會(huì)削弱擴(kuò)散語(yǔ)言模型的因果推理能力,并降低其在精確格式化輸出方面的表現(xiàn)。



二、還有救嗎?多智能體

評(píng)估框架 DiffuAgent 探尋真實(shí)潛力



由于擴(kuò)散語(yǔ)言模型直接執(zhí)行智能體工作流時(shí)會(huì)產(chǎn)生大量的失敗案例,這對(duì)深入分析其能力帶來(lái)了困難。為了探明擴(kuò)散語(yǔ)言模型作為智能體的真實(shí)潛力,研究團(tuán)隊(duì)提出了一個(gè)多智能體評(píng)測(cè)框架 DiffuAgent,將復(fù)雜的智能體任務(wù)按能力維度拆解為多個(gè)模塊,在智能體執(zhí)行每個(gè)步驟的前后進(jìn)行針對(duì)性評(píng)測(cè):

  • 具身智能任務(wù)的模塊化評(píng)估包括:用于定期儲(chǔ)存智能體的運(yùn)行軌跡、提供歷史信息的記憶模塊;以及用于檢測(cè)模型是否能主動(dòng)識(shí)別當(dāng)前軌跡中的問(wèn)題,并及時(shí)終止無(wú)效嘗試的自驗(yàn)證模塊。

  • 工具調(diào)用任務(wù)的模塊化評(píng)估包括:在產(chǎn)生調(diào)用指令前,預(yù)先篩選出合適的工具候選的工具選擇模塊;以及對(duì)不規(guī)范的 JSON 格式進(jìn)行自動(dòng)糾正的格式修正模塊。

三、能做什么?擴(kuò)散模型

在各智能體模塊中的能力邊界

為深入分析擴(kuò)散語(yǔ)言模型在智能體工作流中的具體表現(xiàn),研究采用多智能體架構(gòu)設(shè)計(jì):以自回歸語(yǔ)言模型作為主控模塊,將擴(kuò)散語(yǔ)言模型分別應(yīng)用于不同的輔助模塊,從而評(píng)估其對(duì)智能體整體性能的影響。

記憶模塊:表現(xiàn)相當(dāng)甚至更優(yōu)



當(dāng)擴(kuò)散語(yǔ)言模型作為記憶模塊時(shí),其對(duì)智能體準(zhǔn)確性的影響與自回歸模型相當(dāng),使用 Llada、Dream 等模型時(shí)甚至效果優(yōu)于自回歸模型。

自驗(yàn)證模塊:終止決策更加穩(wěn)健



實(shí)驗(yàn)發(fā)現(xiàn),自回歸模型作為自驗(yàn)證模塊時(shí)容易過(guò)早終止任務(wù),即在智能體還未完成充分探索時(shí)就提前終止;而擴(kuò)散模型在此場(chǎng)景下的終止判斷更加可靠穩(wěn)定。

工具調(diào)用模塊:選擇能力強(qiáng),格式修正能力弱



在工具調(diào)用任務(wù)上,擴(kuò)散語(yǔ)言模型能有效地完成工具選擇;但由于其并行生成機(jī)制帶來(lái)的模糊性,在需要精確格式的工具編輯任務(wù)上表現(xiàn)欠佳。

核心發(fā)現(xiàn):并行解碼機(jī)制帶來(lái)的權(quán)衡與局限

對(duì)擴(kuò)散語(yǔ)言模型在各智能體模塊的表現(xiàn)分析,進(jìn)一步驗(yàn)證了前文揭示的系統(tǒng)性缺陷:并行生成模式雖然導(dǎo)致了因果推理能力的缺失和動(dòng)態(tài)決策能力的不足,但其在推理要求低的文本總結(jié)(記憶模塊)和狀態(tài)識(shí)別提?。ㄗ则?yàn)證模塊)等靜態(tài)任務(wù)上表現(xiàn)出色;雖然難以完成高精確性的格式化輸出(格式修正模塊),卻能有效的進(jìn)行信息提取(工具選擇模塊)。這揭示了擴(kuò)散模型「能力不均衡」的特性:擅長(zhǎng)靜態(tài)處理,弱于動(dòng)態(tài)推理。

四、未來(lái)方向:對(duì)于

擴(kuò)散語(yǔ)言模型智能體研究的啟示

基于上述系統(tǒng)性評(píng)估,本研究從訓(xùn)練、解碼和評(píng)估三個(gè)維度為擴(kuò)散語(yǔ)言模型的研究者提供以下建議:

  • 訓(xùn)練層面:應(yīng)強(qiáng)化因果推理與解構(gòu)化能力。在預(yù)訓(xùn)練和微調(diào)階段引入具有強(qiáng)因果關(guān)系數(shù)據(jù),如多步推理任務(wù)和軌跡,并大幅增加結(jié)構(gòu)化內(nèi)容的比重,如 JSON 代碼、API 調(diào)用等,從源頭提升模型對(duì)格式規(guī)范的理解,并建立對(duì)因果依賴關(guān)系的敏感性。

  • 解碼層面:探索自適應(yīng)的混合生成策略。模型應(yīng)基于任務(wù)特性自適應(yīng)地選擇解碼方式,對(duì)關(guān)鍵的推理步驟采用自回歸解碼確保因果連貫,而對(duì)于靜態(tài)任務(wù)和需要全局視野的長(zhǎng)文本生成,采用并行解碼以提升效率;此外可在解碼過(guò)程中引入格式約束和校正來(lái)彌補(bǔ)不確定性的短板。

  • 評(píng)估層面:建立面向智能體應(yīng)用的基準(zhǔn)體系。當(dāng)前擴(kuò)散模型的評(píng)估過(guò)度依賴 MMLU、GSM8K 等通用基準(zhǔn),這些基準(zhǔn)無(wú)法反應(yīng)智能體任務(wù)關(guān)于因果推理、多輪交互和工具調(diào)用等需求。研究者應(yīng)報(bào)告模型在例如 DiffuAgent 智能體評(píng)估框架的結(jié)果,并建立覆蓋真實(shí)應(yīng)用場(chǎng)景的評(píng)估體系,避免「跑分高但不實(shí)用」的問(wèn)題。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
俄烏戰(zhàn)爭(zhēng)四周年,為什么開(kāi)始強(qiáng)調(diào)援助烏克蘭?

俄烏戰(zhàn)爭(zhēng)四周年,為什么開(kāi)始強(qiáng)調(diào)援助烏克蘭?

作家加野
2026-02-26 10:21:34
突然昏倒在地!嚴(yán)重的黑眼圈!龍王活著已經(jīng)是幸運(yùn)!

突然昏倒在地!嚴(yán)重的黑眼圈!龍王活著已經(jīng)是幸運(yùn)!

德譯洋洋
2026-02-26 11:58:07
“體壇敗類”馬俊仁,強(qiáng)迫隊(duì)員集體切闌尾,親自為女隊(duì)員打禁藥

“體壇敗類”馬俊仁,強(qiáng)迫隊(duì)員集體切闌尾,親自為女隊(duì)員打禁藥

米果說(shuō)識(shí)
2026-02-22 11:29:00
同家族近20人在路上祭祖遇車禍,致2死多傷后又遇理賠難,多方回應(yīng)

同家族近20人在路上祭祖遇車禍,致2死多傷后又遇理賠難,多方回應(yīng)

大風(fēng)新聞
2026-02-25 17:00:14
她拒唱國(guó)歌,否認(rèn)中國(guó)籍,倆兒子也落戶國(guó)外,如今她過(guò)得怎么樣了

她拒唱國(guó)歌,否認(rèn)中國(guó)籍,倆兒子也落戶國(guó)外,如今她過(guò)得怎么樣了

閱微札記
2026-02-25 16:56:12
綠地建設(shè)集團(tuán)破產(chǎn)審查

綠地建設(shè)集團(tuán)破產(chǎn)審查

地產(chǎn)微資訊
2026-02-23 18:36:51
每年給侄女1000塊壓歲錢(qián),今年我只包了200塊,嫂子當(dāng)場(chǎng)變臉

每年給侄女1000塊壓歲錢(qián),今年我只包了200塊,嫂子當(dāng)場(chǎng)變臉

黃小乖的日記
2026-02-26 11:04:44
《鏢人》反超!陳麗君的帥,李云霄的俏,吳京這場(chǎng)豪賭,押對(duì)了寶

《鏢人》反超!陳麗君的帥,李云霄的俏,吳京這場(chǎng)豪賭,押對(duì)了寶

頭號(hào)電影院
2026-02-25 15:05:32
寶馬車頂載21只雞鴨鵝開(kāi)800公里返程 一路被網(wǎng)友拍下 當(dāng)事人:都是爺爺奶奶特意準(zhǔn)備的

寶馬車頂載21只雞鴨鵝開(kāi)800公里返程 一路被網(wǎng)友拍下 當(dāng)事人:都是爺爺奶奶特意準(zhǔn)備的

閃電新聞
2026-02-25 17:21:14
中國(guó)音樂(lè)家紐約路邊換胎被撞身亡,年僅35歲

中國(guó)音樂(lè)家紐約路邊換胎被撞身亡,年僅35歲

揚(yáng)子晚報(bào)
2026-02-26 10:51:43
楊紫真的已經(jīng)瘦到天賦上限了,這也太牛了…

楊紫真的已經(jīng)瘦到天賦上限了,這也太牛了…

手工制作阿殲
2026-02-22 13:25:34
那么大的房企,怎么說(shuō)崩就崩了?

那么大的房企,怎么說(shuō)崩就崩了?

流蘇晚晴
2026-02-24 18:57:27
大眾CC價(jià)格“大跳水”!最高優(yōu)惠8.3萬(wàn),網(wǎng)友:真香

大眾CC價(jià)格“大跳水”!最高優(yōu)惠8.3萬(wàn),網(wǎng)友:真香

汽車網(wǎng)評(píng)
2026-02-25 21:25:45
被北京制裁后,日本一片哀嚎,高市下決心:5年內(nèi)從中國(guó)東邊反擊

被北京制裁后,日本一片哀嚎,高市下決心:5年內(nèi)從中國(guó)東邊反擊

輝哥說(shuō)動(dòng)漫
2026-02-26 05:11:27
我做夢(mèng)都想上一節(jié)這樣的課!

我做夢(mèng)都想上一節(jié)這樣的課!

貴圈真亂
2026-02-25 12:39:53
造型精致卻難掩疲態(tài),凱特王妃亮相反響平淡

造型精致卻難掩疲態(tài),凱特王妃亮相反響平淡

述家?jiàn)视?/span>
2026-02-25 22:21:02
你經(jīng)歷過(guò)哪些殺人誅心的事?網(wǎng)友:所以沒(méi)有婆婆拆散不了的家

你經(jīng)歷過(guò)哪些殺人誅心的事?網(wǎng)友:所以沒(méi)有婆婆拆散不了的家

帶你感受人間冷暖
2026-02-11 10:54:58
女足亞洲杯首戰(zhàn):王霜領(lǐng)銜六海歸,今日央視四點(diǎn)直播

女足亞洲杯首戰(zhàn):王霜領(lǐng)銜六海歸,今日央視四點(diǎn)直播

富貴體壇說(shuō)
2026-02-26 07:58:03
“我就是她取精生子的工具”清華學(xué)霸哭訴,撕開(kāi)了女富豪的遮羞布

“我就是她取精生子的工具”清華學(xué)霸哭訴,撕開(kāi)了女富豪的遮羞布

北緯的咖啡豆
2026-02-20 19:12:17
世界首次五百?gòu)?qiáng)斷崖差:日本149家,美國(guó)151家,中國(guó)3家,現(xiàn)在呢

世界首次五百?gòu)?qiáng)斷崖差:日本149家,美國(guó)151家,中國(guó)3家,現(xiàn)在呢

快看張同學(xué)
2026-02-26 14:17:56
2026-02-26 15:07:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12368文章數(shù) 142569關(guān)注度
往期回顧 全部

科技要聞

單季營(yíng)收681億凈利429億!英偉達(dá)再次炸裂

頭條要聞

縣委書(shū)記抖音賬號(hào)成民情留言板 當(dāng)?shù)兀核救嘶貜?fù)網(wǎng)友

頭條要聞

縣委書(shū)記抖音賬號(hào)成民情留言板 當(dāng)?shù)兀核救嘶貜?fù)網(wǎng)友

體育要聞

從排球少女到冰壺女神,她在米蘭冬奧練出6塊腹肌

娛樂(lè)要聞

尼格買提撒貝寧滑雪被偶遇 17年老友情

財(cái)經(jīng)要聞

人民幣升破6.85,創(chuàng)3年新高

汽車要聞

第五代宏光MINIEV煥新 四門(mén)玩趣代步車來(lái)襲

態(tài)度原創(chuàng)

旅游
游戲
房產(chǎn)
公開(kāi)課
軍事航空

旅游要聞

從兩個(gè)湖到“一座城”,河南文旅蹚出“長(zhǎng)紅”路徑

《漫威金剛狼》鳳凰女造型泄露 玩家怒斥:丑得離譜!

房產(chǎn)要聞

2.2萬(wàn)/m2起!三亞主城性價(jià)比標(biāo)桿 海墾·桃花源實(shí)景現(xiàn)房春節(jié)被瘋搶

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美政府給新伊核協(xié)議設(shè)限內(nèi)容遭披露

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版