国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

長文本生成迎來新突破:拓元智慧推出 DrDiff ,實(shí)現(xiàn)效率與質(zhì)量雙提升

0
分享至


DrDiff框架的核心思想是動態(tài)化,其創(chuàng)新性體現(xiàn)在三個(gè)緊密協(xié)同的技術(shù)組件上,宛如為模型裝上了智能調(diào)度中樞”。

作者丨可澤

拓元智慧團(tuán)隊(duì)聯(lián)合來自中山大學(xué)人機(jī)物智能融合實(shí)驗(yàn)室、阿里巴巴集團(tuán)及Snap Inc的研究團(tuán)隊(duì),針對了困擾業(yè)界已久的長文本生成中“效率”與“質(zhì)量”難以兼得的根本性挑戰(zhàn),開發(fā)出DrDiff(動態(tài)路由擴(kuò)散)框架(已被NLP 頂會 EMNLP 2025錄用接收)。該框架通過創(chuàng)新的動態(tài)資源調(diào)度機(jī)制,在保證生成內(nèi)容連貫性的同時(shí),將計(jì)算復(fù)雜度降至線性,為AI輔助學(xué)術(shù)科研、長篇內(nèi)容創(chuàng)作、自動報(bào)告生成等應(yīng)用提供了有力的基礎(chǔ)支撐。


論文題目:

DrDiff: Dynamic Routing Diffusion with Hierarchical Attention for

Breaking the Efficiency-Quality Trade-off

論文鏈接:
https://arxiv.org/pdf/2509.02785

論文通訊作者可澤博士:國家級青年人才、中山大學(xué)計(jì)算機(jī)學(xué)院副教授、博士生導(dǎo)師、拓元智慧高級算法總監(jiān),曾獲吳文俊人工智能自然科學(xué)獎二等,人工智能學(xué)會CAAI優(yōu)秀博士論文獎,國際著名學(xué)術(shù)評估機(jī)構(gòu)AI 2000年最有影響力學(xué)者提名獎。主要研究方向有因果驅(qū)動認(rèn)知的復(fù)雜推理、多智能體良好高階推理、多模態(tài)生產(chǎn)式AI、具身智能等。

01

研究背景:長文本生成的固有瓶頸

盡管大型語言模型(LLM)在各類任務(wù)上表現(xiàn)出色,但在生成超過數(shù)萬token的超長文本時(shí),其性能會顯著下降。核心問題源于Transformer架構(gòu)固有的二次計(jì)算復(fù)雜度(O(n2)),導(dǎo)致處理長序列時(shí)計(jì)算資源消耗巨大?,F(xiàn)有解決方案,如稀疏注意力(如Longformer)或擴(kuò)散模型(如DiffuSeq),多采用固定模式的資源分配,無法靈活應(yīng)對文本中不同片段、不同生成階段的異質(zhì)性需求,從而導(dǎo)致:

  • 長程依賴衰減:模型難以維持遠(yuǎn)距離的語義連貫性,易出現(xiàn)內(nèi)容重復(fù)或邏輯斷裂。

  • 資源分配次優(yōu):對簡單和復(fù)雜文本片段“一視同仁”,造成算力浪費(fèi)或關(guān)鍵部分計(jì)算不足。

  • 生成質(zhì)量隨長度退化:文本越長,模型越容易“遺忘”前文信息,質(zhì)量下降越明顯。

02

核心技術(shù)突破:動態(tài)智能的三大支柱

DrDiff框架的核心思想是“動態(tài)化”,其創(chuàng)新性體現(xiàn)在三個(gè)緊密協(xié)同的技術(shù)組件上,宛如為模型裝上了“智能調(diào)度中樞”:

1.分層稀疏注意力(HSA):自適應(yīng)的感受野切換

HSA機(jī)制徹底改變了固定注意力模式的思路。它根據(jù)實(shí)時(shí)輸入序列長度(N)動態(tài)構(gòu)建稀疏注意力掩碼:


  • 短文本N ≤ 512啟用密集注意力模式,捕獲全部細(xì)節(jié)。

  • 中等文本(512 < N ≤ 4K)切換至局部(窗口w=256)+ 稀疏膨脹(δ?) 組合模式,高效覆蓋中短程依賴。

  • 長文本(4K< N ≤ 8K)采用稀疏膨脹(δ? > δ?)+ 全局節(jié)點(diǎn)(G?) 模式,擴(kuò)大感受野。

  • 超長文本(N > 8K)啟用超長序列模式(M??K?),結(jié)合稀疏局部注意力和基于關(guān)鍵token比例(ρ=0.05)的全局注意力,理論上將復(fù)雜度降至線性O(shè)(n)。
    這種基于長度的分層策略,確保了無論文本多長,模型總能以最經(jīng)濟(jì)的計(jì)算成本激活最合適的注意力模式。

2.動態(tài)專家調(diào)度(DES):按需分配的計(jì)算資源

DrDiff在去噪網(wǎng)絡(luò)的前饋網(wǎng)絡(luò)(FFN)層集成了混合專家(MoE)架構(gòu)。其動態(tài)性體現(xiàn)在:

  • 專業(yè)化專家:不同專家可具有不同容量(如隱藏層維度為標(biāo)準(zhǔn)FFN的0.5倍)或不同結(jié)構(gòu)(如特定激活函數(shù)),甚至可在預(yù)訓(xùn)練時(shí)針對語法生成、主題內(nèi)容等子任務(wù)進(jìn)行輕微微調(diào),形成功能特化。

  • 智能路由:一個(gè)輕量級路由網(wǎng)絡(luò)(小型MLP)會分析經(jīng)過HSA處理后的隱藏狀態(tài),該狀態(tài)已編碼了當(dāng)前上下文的復(fù)雜度和特征。路由網(wǎng)絡(luò)據(jù)此生成門控權(quán)重,動態(tài)選擇Top-1或Top-2最合適的專家來處理當(dāng)前token。

  • 負(fù)載均衡:通過輔助損失函數(shù)確保所有專家都能得到充分訓(xùn)練,避免某些專家過載而其他專家閑置。這意味著簡單、重復(fù)的文本由“輕量級專家”快速處理,而復(fù)雜、關(guān)鍵的語義樞紐則分配給“重量級專家”深度計(jì)算,實(shí)現(xiàn)了前所未有的計(jì)算效率。

3.語義錨點(diǎn)狀態(tài)(SAS):引導(dǎo)擴(kuò)散路徑的“燈塔”

為優(yōu)化超長文本的生成路徑,DrDiff在去噪過程的特定中間時(shí)間步(如t? = T/4, T/2, 3T/4)引入語義錨點(diǎn)狀態(tài)(???)作為顯式引導(dǎo)。

  • 構(gòu)建方式:???可以是基于輸入文本Z?的核心語義摘要(通過預(yù)訓(xùn)練的輕量摘要模型獲得)所對應(yīng)的理想噪聲狀態(tài),也可以是通過對大量真實(shí)文本在t?時(shí)刻的噪聲狀態(tài)進(jìn)行聚類得到的典型簇中心。

  • 訓(xùn)練與推理:在訓(xùn)練時(shí),除了標(biāo)準(zhǔn)的去噪損失,還增加了一個(gè)SAS引導(dǎo)損失(L_SAS),強(qiáng)制模型在關(guān)鍵時(shí)間步的預(yù)測狀態(tài)向預(yù)設(shè)的語義錨點(diǎn)靠近。這使得整個(gè)去噪軌跡更加平滑、目標(biāo)明確。

  • 加速推理:這種“燈塔”式的指引顯著降低了擴(kuò)散過程的隨機(jī)性和曲折度,使得DPM-Solver++等高效的ODE求解器能夠采用更大的步長,從而將采樣步數(shù)從訓(xùn)練時(shí)的2000步大幅減少至50步左右,實(shí)現(xiàn)了數(shù)量級般的生成加速。

03

權(quán)威評測結(jié)果:小模型,大能量

研究成果在多項(xiàng)標(biāo)準(zhǔn)基準(zhǔn)測試中得到了驗(yàn)證:

  • 長文本理解(LongBench):參數(shù)量僅2.2億(220M)的DrDiff,取得了33.5%的綜合準(zhǔn)確率,性能超越了參數(shù)量高達(dá)700億(70B)的LLaMA-3.1-70B(32.1%)等大型模型。尤其在處理長序列(35.6%)、長對話(38.7%)長結(jié)構(gòu)化數(shù)據(jù)(34.6%)任務(wù)上展現(xiàn)出顯著優(yōu)勢。


  • 生成與問答任務(wù):在WikiHop、TriviaQA、HotpotQA等數(shù)據(jù)集上,DrDiff的綜合表現(xiàn)(平均分?jǐn)?shù)~80.7)與GPT-4o、Qwen2.5-72B等頂級閉源模型仍存差距,但顯著領(lǐng)先于Longformer、LLaMA系列同參數(shù)量級模型及DiffuSeq等擴(kuò)散基線,證明了其架構(gòu)的優(yōu)越性。


  • 效率驗(yàn)證:實(shí)驗(yàn)表明,在處理16K token的長序列時(shí),DrDiff的訓(xùn)練時(shí)間比DiffuSeq減少56%,甚至比高度優(yōu)化的Longformer快9%-10%。


04

未來展望與意義

DrDiff的成功標(biāo)志著長文本生成進(jìn)入了“動態(tài)智能化”的新階段。其提出的動態(tài)路由、分層注意力和語義引導(dǎo)機(jī)制,為后續(xù)相關(guān)研究提供了寶貴的方向。團(tuán)隊(duì)計(jì)劃未來進(jìn)一步探索其在極長文本(>20K token)、多模態(tài)數(shù)據(jù)融合以及特定垂直領(lǐng)域(如科技、法律文獻(xiàn)生成)中的應(yīng)用,持續(xù)推動生成式AI的能力邊界。

未經(jīng)「AI科技評論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來源并插入本公眾號名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
傳阿里巴巴計(jì)劃訂購超4萬顆AMD MI308加速器

傳阿里巴巴計(jì)劃訂購超4萬顆AMD MI308加速器

芯智訊
2025-12-23 17:22:09
最近,美國連續(xù)扣押多艘中國商船,中國是如何反擊的?

最近,美國連續(xù)扣押多艘中國商船,中國是如何反擊的?

阿胡
2025-12-23 17:56:32
0-2到4-2!亞冠史詩逆轉(zhuǎn):曼奇尼率隊(duì)補(bǔ)時(shí)連進(jìn)3球!替補(bǔ)前鋒戴帽

0-2到4-2!亞冠史詩逆轉(zhuǎn):曼奇尼率隊(duì)補(bǔ)時(shí)連進(jìn)3球!替補(bǔ)前鋒戴帽

球場沒跑道
2025-12-24 10:26:01
全紅嬋重返國家隊(duì),身高接近170,笑容滿面留起長發(fā),瘦了不少

全紅嬋重返國家隊(duì),身高接近170,笑容滿面留起長發(fā),瘦了不少

青梅侃史啊
2025-12-23 08:59:57
盧比奧痛斥歐洲領(lǐng)導(dǎo)人的高高在上!

盧比奧痛斥歐洲領(lǐng)導(dǎo)人的高高在上!

西樓飲月
2025-12-24 21:43:47
秦嵐的腳部照片在網(wǎng)上爆紅,這背后是否有利益鏈的爭議?

秦嵐的腳部照片在網(wǎng)上爆紅,這背后是否有利益鏈的爭議?

動物奇奇怪怪
2025-12-22 05:25:09
女子花1.8萬挑戰(zhàn)“獨(dú)處100小時(shí)贏60萬” 中途被無故判出局 法院判全額退還報(bào)名費(fèi)

女子花1.8萬挑戰(zhàn)“獨(dú)處100小時(shí)贏60萬” 中途被無故判出局 法院判全額退還報(bào)名費(fèi)

閃電新聞
2025-12-23 17:15:36
全球最繁忙國際機(jī)場:首破1億人次!

全球最繁忙國際機(jī)場:首破1億人次!

民航之翼
2025-12-22 23:06:35
這個(gè)說法很火:中日若開戰(zhàn),除俄羅斯外,全世界各國都會暗自叫好

這個(gè)說法很火:中日若開戰(zhàn),除俄羅斯外,全世界各國都會暗自叫好

百態(tài)人間
2025-12-23 16:38:00
當(dāng)“普世價(jià)值”被質(zhì)疑時(shí),真正爭論的是什么

當(dāng)“普世價(jià)值”被質(zhì)疑時(shí),真正爭論的是什么

蟬鳴
2025-12-15 19:30:08
2026年開始,運(yùn)勢悄然翻盤,這三個(gè)星座正式走上十年上升通道

2026年開始,運(yùn)勢悄然翻盤,這三個(gè)星座正式走上十年上升通道

小晴星座說
2025-12-24 19:36:22
最新!寧波大學(xué)附屬婦女兒童醫(yī)院兒胸心外科已處關(guān)閉狀態(tài),手術(shù)也已暫停?。ǜ饺录?jīng)過時(shí)間線)

最新!寧波大學(xué)附屬婦女兒童醫(yī)院兒胸心外科已處關(guān)閉狀態(tài),手術(shù)也已暫停?。ǜ饺录?jīng)過時(shí)間線)

梅斯醫(yī)學(xué)
2025-12-22 11:55:36
國家一級演員 男高音歌唱家 歌劇表演藝術(shù)家 戴玉強(qiáng)

國家一級演員 男高音歌唱家 歌劇表演藝術(shù)家 戴玉強(qiáng)

韓馳
2025-12-24 17:07:11
柬埔寨國王,72歲了,沒錢沒權(quán),沒結(jié)婚沒孩子,和老母親相依為命

柬埔寨國王,72歲了,沒錢沒權(quán),沒結(jié)婚沒孩子,和老母親相依為命

科普100克克
2025-12-23 17:54:08
倫納德狂砍41分,哈登拼盡全力,快船20分大勝!火箭8換1交易血虧

倫納德狂砍41分,哈登拼盡全力,快船20分大勝!火箭8換1交易血虧

毒舌NBA
2025-12-24 14:05:54
從斬殺線到方便面

從斬殺線到方便面

美第奇效應(yīng)
2025-12-24 00:08:39
柬埔寨“生命科學(xué)院”全中文服務(wù),網(wǎng)友炸鍋:量身定做?

柬埔寨“生命科學(xué)院”全中文服務(wù),網(wǎng)友炸鍋:量身定做?

胡嚴(yán)亂語
2025-12-24 19:10:52
12億美元!傳騰訊租用1.5萬顆Blackwell GPU!

12億美元!傳騰訊租用1.5萬顆Blackwell GPU!

芯智訊
2025-12-23 09:50:07
萬萬沒想到,46條中日航線剛?cè)咳∠?,就炸出來一群“妖魔鬼怪?>
    </a>
        <h3>
      <a href=近史閣
2025-12-23 10:24:00
Lisa舞臺爭議:藝術(shù)表達(dá)還是低俗表演?

Lisa舞臺爭議:藝術(shù)表達(dá)還是低俗表演?

娛曉曉
2025-12-22 17:02:07
2025-12-25 00:56:49
AI科技評論 incentive-icons
AI科技評論
點(diǎn)評學(xué)術(shù),服務(wù)AI
7022文章數(shù) 20717關(guān)注度
往期回顧 全部

科技要聞

智譜和MiniMax拿出了“血淋淋”的賬本

頭條要聞

15歲女孩遭同班14歲男生殺害:對方曾拍攝其胸部等照片

頭條要聞

15歲女孩遭同班14歲男生殺害:對方曾拍攝其胸部等照片

體育要聞

26歲廣西球王,在質(zhì)疑聲中成為本土得分王

娛樂要聞

懷孕增重30斤!闞清子驚傳誕一女夭折?

財(cái)經(jīng)要聞

北京進(jìn)一步放松限購 滬深是否會跟進(jìn)?

汽車要聞

“運(yùn)動版庫里南”一月份亮相???或命名極氪9S

態(tài)度原創(chuàng)

游戲
數(shù)碼
親子
教育
軍事航空

JUG與TE溯共寫“無畏之約”,ANTGAMER冠軍訓(xùn)練營圓滿收官

數(shù)碼要聞

AMD Zen 6與Intel Nova Lake或?qū)⑸涎?88 MB 3D緩存“大戰(zhàn)”

親子要聞

園長開車送幼兒墜池8人遇難,反映了教育安全的巨大隱患!

教育要聞

英語口語邪修方法!

軍事要聞

軍事專家:"特朗普級"戰(zhàn)艦設(shè)計(jì)疑大量借鑒中國055大驅(qū)

無障礙瀏覽 進(jìn)入關(guān)懷版