国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

華為發(fā)布業(yè)界首個(gè)擴(kuò)散語(yǔ)言模型Agent,部分場(chǎng)景提速8倍!

0
分享至

允中 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

大模型通往現(xiàn)實(shí)世界的“最后三公里”,Agent已然成為最具代表性的入場(chǎng)券。

但當(dāng)下的共識(shí)發(fā)生了微妙的變化:

衡量一個(gè)Agent夠不夠強(qiáng),早已不再看它能不能“答對(duì)問(wèn)題”,而是看它在面對(duì)多輪推理、工具調(diào)用及復(fù)雜協(xié)作時(shí),能否用最短的路徑、最少的交互預(yù)算,穩(wěn)定地搞定任務(wù)

在這一背景下,一個(gè)長(zhǎng)期被行業(yè)忽視的底層命題浮出水面:

  • 當(dāng)Agent的框架、工具、數(shù)據(jù)和訓(xùn)練方式都保持一致時(shí),僅僅改變語(yǔ)言模型的生成范式(Autoregressive vs Diffusion),是否會(huì)系統(tǒng)性地改變Agent的規(guī)劃與行為模式?

近日,來(lái)自華為諾亞方舟實(shí)驗(yàn)室、華為先進(jìn)計(jì)算與存儲(chǔ)實(shí)驗(yàn)室、UCL、南洋理工大學(xué)、清華大學(xué)和北京大學(xué)的研究團(tuán)隊(duì),在最新工作《DLLM Agent: See Farther, Run Faster》中,對(duì)這一問(wèn)題給出了迄今為止最“對(duì)照實(shí)驗(yàn)式”的回答。

他們發(fā)現(xiàn),僅僅是把“底座”換成了擴(kuò)散式大模型(DLLM),Agent就像突然開(kāi)了“上帝視角”,執(zhí)行速度不僅提升了30%以上,甚至在部分復(fù)雜任務(wù)中跑出了8倍于傳統(tǒng)AR模型的效率。

文章鏈接:
https://arxiv.org/pdf/2602.07451

官方網(wǎng)頁(yè):
https://noah-dllm.github.io/

核心結(jié)論一覽

在完全相同的Agent工作流、訓(xùn)練數(shù)據(jù)和交互預(yù)算下,研究發(fā)現(xiàn):

  • 在準(zhǔn)確率基本持平的前提下,DLLM Agent端到端執(zhí)行速度平均提升30%以上
  • 在成功解題的條件下,DLLM Agent使用更少的交互輪次和工具調(diào)用
  • DLLM展現(xiàn)出更強(qiáng)的planner能力:更早收斂到正確軌跡、回溯和冗余更少;
  • 這種優(yōu)勢(shì)并非僅來(lái)自并行解碼速度,而是體現(xiàn)在Agent級(jí)別的規(guī)劃與決策行為上。
一個(gè)“極端公平”的對(duì)照實(shí)驗(yàn)設(shè)計(jì)

為了避免“框架差異”、“提示工程”、“數(shù)據(jù)不一致”等干擾因素,作者采用了非常嚴(yán)格的對(duì)照實(shí)驗(yàn)設(shè)置:

  • 使用同一個(gè)Agent框架:DeepDiver(多智能架構(gòu),層級(jí)式規(guī)劃,https://ai.gitcode.com/ascend-tribe/openPangu-Embedded-7B-DeepDiver);
  • 使用同一套工具接口與解析規(guī)則
  • 使用完全相同的Agent任務(wù)進(jìn)行繼續(xù)訓(xùn)練;
  • 統(tǒng)一context長(zhǎng)度上限(32K)、最大交互輪數(shù)、tool call上限
  • 唯一變化因素:Agent背后的生成范式

Autoregressive LLM(AR):openpangu 7b-v1

Diffusion Large Language Model(DLLM):openpangu diffusion 7b,這個(gè)模型是從openpangu 7b-v1續(xù)訓(xùn)得到的,模型的基礎(chǔ)推理能力相似。

這意味著,實(shí)驗(yàn)中觀察到的行為差異,不能歸因于數(shù)據(jù)/模型的基礎(chǔ)能力或workflow,而只能來(lái)自生成范式本身。

不過(guò),考慮到生成范式的不同,針對(duì)多輪長(zhǎng)鏈交互的DLLM訓(xùn)練,作者使用了針對(duì)性調(diào)整的Mask策略和Attention裁剪策略,提升了DLLM Agent訓(xùn)練和推理的一致性。

同樣的終點(diǎn),更短的路徑

在構(gòu)建了對(duì)照平臺(tái)后,研究團(tuán)隊(duì)將關(guān)注點(diǎn)轉(zhuǎn)向了核心指標(biāo):即DLLM這種生成范式的改變,究竟能在多大程度上提升Agent的實(shí)戰(zhàn)表現(xiàn)?

實(shí)驗(yàn)結(jié)果證明,DLLM Agent的優(yōu)勢(shì)并非僅僅來(lái)自“算得快”,更在于它在復(fù)雜規(guī)劃中“走得直”

1、BrowseComp-zh基準(zhǔn)測(cè)試:效率的全面跨越

研究團(tuán)隊(duì)在包含110條任務(wù)的BrowseComp-zh(中文多輪Web瀏覽)子集上,完成了性能測(cè)試。



通過(guò)對(duì)海量測(cè)試結(jié)果的深度復(fù)盤(pán),研究人員觀察到了幾個(gè)關(guān)鍵規(guī)律:

DLLM Agent在準(zhǔn)確率持平的情況下,

  • 平均工具調(diào)用次數(shù)顯著減少;
  • Agent軌跡平均更短;
  • 端到端延遲下降約30%。

但同時(shí)也暴露出一個(gè)現(xiàn)實(shí)問(wèn)題:原生DLLM更容易產(chǎn)生結(jié)構(gòu)化tool-call錯(cuò)誤。

此外,作者還展示了DLLM Agent和AR Agent在Information Seeker完成問(wèn)題上的分布,可以清晰地看到DLLM Agent在處理問(wèn)題時(shí),往往能以更少的交互次數(shù)完成同樣的任務(wù)。



2、案例實(shí)錄:8.18倍速度落差的背后

為了更直觀地展現(xiàn)這種“走直路”的能力,可以看一個(gè)典型的多約束檢索案例(涉及動(dòng)物命名+中國(guó)互聯(lián)網(wǎng)公司+團(tuán)隊(duì)合并+軟硬件等多個(gè)維度),query如下:



結(jié)果發(fā)現(xiàn),盡管AR Agent和DLLM Agent最終都給出了正確答案,但其執(zhí)行邏輯卻展現(xiàn)出巨大的差異,不僅表現(xiàn)在端到端有8.18×的速度差異上(如下表):



也表現(xiàn)在具體的planner執(zhí)行過(guò)程上——

DLLM Agent的planner質(zhì)量更高,從而在部分case上表現(xiàn)出來(lái)遠(yuǎn)超過(guò)基礎(chǔ)模型的效率差異的端到端性能收益。



DLLM為何是天生的“強(qiáng)Planner”?

論文并未停留在表面的數(shù)據(jù)對(duì)比,而是深入分析了entropy和confidence與擴(kuò)散過(guò)程中的內(nèi)部動(dòng)態(tài),試圖從生成范式的底層原理,來(lái)解釋DLLM為何在規(guī)劃上更具優(yōu)勢(shì)。

一、Planner Agent:先全局、后細(xì)節(jié)

在任務(wù)拆解階段,DLLM Planner表現(xiàn)出獨(dú)特的兩階段特征,這與人類先構(gòu)思大綱再填補(bǔ)內(nèi)容的思維方式不謀而合:

階段一:并行提取關(guān)鍵信息

用戶問(wèn)題中的4個(gè)核心約束,往往在1–2個(gè)diffusion step內(nèi)就能被同時(shí)識(shí)別。

階段二:逐步細(xì)化任務(wù)結(jié)構(gòu)

在已有全局框架下,再逐步補(bǔ)充具體的邏輯細(xì)節(jié)。

這與AR的差異,主要體現(xiàn)在:

  • AR必須按token順序“邊想邊寫(xiě)”;
  • 一旦早期判斷偏差,往往只能通過(guò)多輪todo/re-plan/verification來(lái)修正。

這也直接解釋了,為什么AR Agent在實(shí)驗(yàn)中更容易產(chǎn)生多個(gè)todo_v1/todo_v2冗余規(guī)劃文檔的原因。下圖詳細(xì)解釋了planner在這個(gè)過(guò)程中的變化:



二、Information Seeker:先定方向,再填參數(shù)

在具體的工具調(diào)用階段,DLLM的生成模式呈現(xiàn)出一種極其穩(wěn)定的結(jié)構(gòu)化傾向:

  • 它會(huì)首先確定調(diào)用哪個(gè)工具;
  • 隨后,并行生成參數(shù)與細(xì)節(jié);
  • 整個(gè)tool-call被視為一個(gè)整體“動(dòng)作塊”,并在生成過(guò)程中被反復(fù)refinement。

相比之下,AR Agent的生成過(guò)程更像是一條不可回頭的流水線:函數(shù)名→參數(shù)1→參數(shù)2→ …

一旦前面的token出現(xiàn)語(yǔ)法或邏輯錯(cuò)誤,AR無(wú)法原地修正,只能寄希望于下一輪tool call來(lái)補(bǔ)救



三、注意力演化:確定性的迅速鎖定

研究團(tuán)隊(duì)通過(guò)對(duì)擴(kuò)散過(guò)程中Mask Token的熵(Entropy)演化,以及不同階段Attention的集中與分散的分析,得出了更深層的結(jié)論:

  • 在DLLM的生成過(guò)程中,高不確定性集中在決策的早期階段
  • 一旦高層決策形成,后續(xù)細(xì)節(jié)的生成會(huì)表現(xiàn)出極高的收斂速度
  • attention機(jī)制呈現(xiàn)出更明顯的“全局 → 局部”協(xié)調(diào)模式,這與AR僅僅追求token-level的局部最優(yōu)決策,形成了鮮明對(duì)比。

不過(guò),作者并沒(méi)有回避DLLM的不足之處——

Diffusion模型在處理Agent場(chǎng)景時(shí),對(duì)結(jié)構(gòu)化輸出更敏感

通過(guò)設(shè)計(jì)訓(xùn)推一致的Mask策略與Attention策略(如context-clean corruption和span-aware attention mask),可以提升DLLM Agent的推理性能。

這意味著,要充分發(fā)揮DLLM的潛力,并不能將其作為AR的簡(jiǎn)單替代品,而需要針對(duì)Agent的交互場(chǎng)景,重新對(duì)齊接口與訓(xùn)練目標(biāo)

生成范式重塑Agent設(shè)計(jì)維度

這項(xiàng)工作為Agent研究提供了一個(gè)全新的視角——

生成范式本身,會(huì)深刻塑造Agent的行為方式。

在完全相同的數(shù)據(jù)基底與技術(shù)框架下,DLLM Agent展現(xiàn)出了超越傳統(tǒng)自回歸模型的執(zhí)行效率:

  • 更早形成全局計(jì)劃
  • 更少走彎路
  • 更快速度結(jié)束任務(wù)

這使得Diffusion不再只是“另一種生成模型”,而成為構(gòu)建高效Agent的一個(gè)全新設(shè)計(jì)維度。

下方Demo直觀展示了DLLM Agent在效率上的顯著優(yōu)勢(shì)(同類對(duì)比示例可參考原論文中的Case1):



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
錢(qián)沒(méi)到位就翻臉?伊朗總統(tǒng)公開(kāi)喊話中國(guó),背后藏著三個(gè)鬼主意!

錢(qián)沒(méi)到位就翻臉?伊朗總統(tǒng)公開(kāi)喊話中國(guó),背后藏著三個(gè)鬼主意!

蔡蔡說(shuō)史
2026-02-26 12:40:48
帶貍花貓回村過(guò)年,10天竟然道歉8次賠了1000多!太可怕了!

帶貍花貓回村過(guò)年,10天竟然道歉8次賠了1000多!太可怕了!

Magic寵物社
2026-02-25 00:12:27
伊朗外交部長(zhǎng)警告,若美國(guó)攻擊伊朗,美在中東地區(qū)的軍事基地將成為合法打擊目標(biāo)

伊朗外交部長(zhǎng)警告,若美國(guó)攻擊伊朗,美在中東地區(qū)的軍事基地將成為合法打擊目標(biāo)

阿芒娛樂(lè)說(shuō)
2026-02-26 13:30:28
兩則轉(zhuǎn)會(huì)消息,元敏誠(chéng)3年長(zhǎng)約加盟遼寧鐵人,方昊500萬(wàn)轉(zhuǎn)會(huì)浙江

兩則轉(zhuǎn)會(huì)消息,元敏誠(chéng)3年長(zhǎng)約加盟遼寧鐵人,方昊500萬(wàn)轉(zhuǎn)會(huì)浙江

小金體壇大視野
2026-02-26 14:09:54
一比就懂!匡琦神換人VS陳方死保守,天津輸北京輸在教練差一檔

一比就懂!匡琦神換人VS陳方死保守,天津輸北京輸在教練差一檔

金毛愛(ài)女排
2026-02-26 13:00:18
蒼天饒過(guò)誰(shuí)!拒唱國(guó)歌否認(rèn)中國(guó)籍,倆兒子落戶國(guó)外,她現(xiàn)狀如何?

蒼天饒過(guò)誰(shuí)!拒唱國(guó)歌否認(rèn)中國(guó)籍,倆兒子落戶國(guó)外,她現(xiàn)狀如何?

火之文
2026-01-07 09:20:35
春節(jié)檔出了海才知道誰(shuí)牛:票房是《驚蟄》10倍,吳京又給咱長(zhǎng)臉了

春節(jié)檔出了海才知道誰(shuí)牛:票房是《驚蟄》10倍,吳京又給咱長(zhǎng)臉了

娛樂(lè)故事
2026-02-25 18:39:28
劉濤17歲女兒演戲,引上萬(wàn)網(wǎng)友熱議:這臉,整頓內(nèi)娛來(lái)的...

劉濤17歲女兒演戲,引上萬(wàn)網(wǎng)友熱議:這臉,整頓內(nèi)娛來(lái)的...

黎兜兜
2026-02-26 12:12:09
都說(shuō)不去日本,春節(jié)赴日的卻是這群人!日媒暗訪揭開(kāi)真相

都說(shuō)不去日本,春節(jié)赴日的卻是這群人!日媒暗訪揭開(kāi)真相

壹知眠羊
2026-02-25 22:18:18
英媒曝卡塞米羅大幅降薪加盟AC米蘭,再度攜手魔笛,無(wú)緣沙特高薪

英媒曝卡塞米羅大幅降薪加盟AC米蘭,再度攜手魔笛,無(wú)緣沙特高薪

夏侯看英超
2026-02-26 01:33:34
上海某保安的收入,讓人羨慕啊

上海某保安的收入,讓人羨慕啊

微微熱評(píng)
2026-02-26 00:12:12
趙心童邀請(qǐng)6同胞聚餐,15天拿下310萬(wàn)獎(jiǎng)金,成績(jī)斐然未來(lái)可期!

趙心童邀請(qǐng)6同胞聚餐,15天拿下310萬(wàn)獎(jiǎng)金,成績(jī)斐然未來(lái)可期!

查爾菲的筆記
2026-02-26 14:14:18
網(wǎng)購(gòu)AB貨玩出新花樣:大城市發(fā)正品,小城市發(fā)次品,鄉(xiāng)鎮(zhèn)發(fā)假貨

網(wǎng)購(gòu)AB貨玩出新花樣:大城市發(fā)正品,小城市發(fā)次品,鄉(xiāng)鎮(zhèn)發(fā)假貨

柴狗夫斯基
2026-02-26 12:21:47
菲律賓在南海體會(huì)中國(guó)電子戰(zhàn)“降維打擊”,場(chǎng)面令人頭皮發(fā)麻

菲律賓在南海體會(huì)中國(guó)電子戰(zhàn)“降維打擊”,場(chǎng)面令人頭皮發(fā)麻

矚望云霄
2026-02-26 09:22:02
三星S26全面對(duì)比iPhone 17 Pro:誰(shuí)才是終極小屏機(jī)皇?

三星S26全面對(duì)比iPhone 17 Pro:誰(shuí)才是終極小屏機(jī)皇?

CNMO科技
2026-02-26 13:59:14
蔣介石曾孫蔣友青:出生在加拿大,如今卻重回大陸,扎根母親故鄉(xiāng)

蔣介石曾孫蔣友青:出生在加拿大,如今卻重回大陸,扎根母親故鄉(xiāng)

阿訊說(shuō)天下
2026-02-25 15:20:08
海歸光環(huán)徹底消失?49.5萬(wàn)留學(xué)生涌回國(guó),殘酷真相:企業(yè)只認(rèn)這個(gè)

海歸光環(huán)徹底消失?49.5萬(wàn)留學(xué)生涌回國(guó),殘酷真相:企業(yè)只認(rèn)這個(gè)

南權(quán)先生
2025-12-23 16:16:33
給10部最好的武俠片排名:鏢人 第10,少林寺 僅第7,第1沒(méi)爭(zhēng)議

給10部最好的武俠片排名:鏢人 第10,少林寺 僅第7,第1沒(méi)爭(zhēng)議

阿訊說(shuō)天下
2026-02-26 13:35:16
被巴薩、皇馬雙殺,本菲卡首次遭遇歐冠淘汰賽四連敗

被巴薩、皇馬雙殺,本菲卡首次遭遇歐冠淘汰賽四連敗

懂球帝
2026-02-26 13:49:51
買(mǎi)前白月光,買(mǎi)后真垃圾!這6個(gè)家居物品,坑了太多人!

買(mǎi)前白月光,買(mǎi)后真垃圾!這6個(gè)家居物品,坑了太多人!

室內(nèi)設(shè)計(jì)師有料兒
2026-02-24 15:06:49
2026-02-26 14:51:00
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
12205文章數(shù) 176394關(guān)注度
往期回顧 全部

科技要聞

單季營(yíng)收681億凈利429億!英偉達(dá)再次炸裂

頭條要聞

縣委書(shū)記抖音賬號(hào)成民情留言板 當(dāng)?shù)兀核救嘶貜?fù)網(wǎng)友

頭條要聞

縣委書(shū)記抖音賬號(hào)成民情留言板 當(dāng)?shù)兀核救嘶貜?fù)網(wǎng)友

體育要聞

從排球少女到冰壺女神,她在米蘭冬奧練出6塊腹肌

娛樂(lè)要聞

尼格買(mǎi)提撒貝寧滑雪被偶遇 17年老友情

財(cái)經(jīng)要聞

人民幣升破6.85,創(chuàng)3年新高

汽車要聞

第五代宏光MINIEV煥新 四門(mén)玩趣代步車來(lái)襲

態(tài)度原創(chuàng)

親子
數(shù)碼
本地
公開(kāi)課
軍事航空

親子要聞

手外紀(jì)事|第43期《孩子遺傳多指不要慌,盡早治療也能恢復(fù)很好》

數(shù)碼要聞

安卓最強(qiáng)釘子戶:英偉達(dá)Shield TV推送9.2.4更新

本地新聞

津南好·四時(shí)總相宜

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美政府給新伊核協(xié)議設(shè)限內(nèi)容遭披露

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版