国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

擴(kuò)散語(yǔ)言模型總是均勻發(fā)力,華為諾亞教它「抓重點(diǎn)」

0
分享至



機(jī)器之心編輯部

這兩年,擴(kuò)散語(yǔ)言模型(Diffusion LLM)一直是個(gè)很有討論度的方向。

和傳統(tǒng)自回歸模型不同,擴(kuò)散模型不是嚴(yán)格按從左到右一個(gè) token 一個(gè) token 往外吐,它在生成方式上更靈活,也天然更適合并行建模。可問(wèn)題也一直擺在那里:這條路很有潛力,但真正把效果做上去并不容易。

最近有一篇來(lái)自華為諾亞方舟實(shí)驗(yàn)室的工作,探究了擴(kuò)散模型訓(xùn)練中的 “默認(rèn)設(shè)置”。論文標(biāo)題叫 Mask Is What DLLM Needs: A Masked Data Training Paradigm for Diffusion LLMs。作者沒(méi)有先去改模型結(jié)構(gòu),而是把目光放回了訓(xùn)練過(guò)程里一個(gè)看起來(lái)很基礎(chǔ)、但其實(shí)一直被默認(rèn)接受的設(shè)定:masking 到底該怎么做



  • 論文鏈接:https://arxiv.org/abs/2603.15803
  • 數(shù)據(jù)集鏈接:https://huggingface.co/datasets/malr07/opc-sft-stage2-dense-extracted

這篇文章給出的判斷是,現(xiàn)有很多離散擴(kuò)散語(yǔ)言模型在訓(xùn)練時(shí)采用的均勻隨機(jī) masking,其實(shí)有點(diǎn) “平均用力” 了。

這個(gè)問(wèn)題在一般文本里可能還沒(méi)那么明顯,但到了代碼和數(shù)學(xué)推理任務(wù)上,就會(huì)變得很突出。因?yàn)檫@類(lèi)數(shù)據(jù)里,真正決定模型能不能做對(duì)的,往往只是少數(shù)幾個(gè)關(guān)鍵位置:在代碼任務(wù)里,可能是關(guān)鍵的分支條件、判斷邏輯;在數(shù)學(xué)里,可能是關(guān)鍵的化簡(jiǎn)步驟、函數(shù)替換,這些東西顯然比連接詞或者格式內(nèi)容更重要。事實(shí)上,真實(shí)序列里的信息密度本來(lái)就不是均勻分布的,而傳統(tǒng)隨機(jī) masking 卻默認(rèn)每個(gè)位置都差不多,這會(huì)被動(dòng)地讓模型把不少優(yōu)化資源花在不那么關(guān)鍵的地方。

說(shuō)白了,就是模型學(xué)的時(shí)候沒(méi)太分清主次,所有東西都一樣對(duì)待了。

不是所有 token 都一樣重要

這篇工作的核心想法其實(shí)一句話就能概括:

既然不同 token 的信息量不一樣,那訓(xùn)練時(shí)就不該對(duì)它們一視同仁。

圍繞這個(gè)想法,作者提出了一個(gè)更加 Smart(Input Information Density Aware)的 Noise Scheduler。它做了一件很簡(jiǎn)單且直觀的事情:先想辦法把樣本里那些 “信息密度高” 的位置找出來(lái),然后在訓(xùn)練時(shí)更優(yōu)先地 mask 掉這些位置,逼著模型去學(xué)會(huì)恢復(fù)真正關(guān)鍵的部分。

這套做法背后的直覺(jué)其實(shí)很自然,人做完形填空的時(shí)候,也不會(huì)覺(jué)得補(bǔ)一個(gè)逗號(hào)和補(bǔ)一句關(guān)鍵結(jié)論的難度是一樣的。真正能拉開(kāi)差距的,通常就是那些牽一發(fā)而動(dòng)全身的地方。論文里也提到,這種設(shè)計(jì)的直覺(jué)和人類(lèi)的挖空練習(xí)很接近:更高效的學(xué)習(xí),往往不是去恢復(fù)冗余內(nèi)容,而是去恢復(fù)核心概念。



先找 “重點(diǎn)”,再?zèng)Q定怎么 mask

具體做法上,作者先做了一步高信息密度區(qū)域提?。⊿tep 1)。



對(duì)于代碼數(shù)據(jù)和數(shù)學(xué)數(shù)據(jù),作者設(shè)計(jì)了一些不同的 criteria。將數(shù)據(jù)中的關(guān)鍵信息區(qū)域提取出來(lái)之后,這些區(qū)域會(huì)在原始序列中被高亮標(biāo)記出來(lái),后面訓(xùn)練時(shí)的噪聲調(diào)度就會(huì)參考這些特殊標(biāo)記。

接下來(lái)進(jìn)入真正的 masking 階段(Step 2)。和傳統(tǒng)做法不同,這里不是所有位置都按同樣概率被 mask。作者把序列分成兩類(lèi):一類(lèi)是優(yōu)先區(qū)域,也就是那些信息密度高的 token;另一類(lèi)是普通區(qū)域。前者會(huì)被賦予更高的 mask 概率,后者保持較低概率。與此同時(shí),整體的 mask 比例仍然會(huì)被控制住,不會(huì)因?yàn)?“偏心” 了某些位置就把整個(gè)噪聲調(diào)度搞亂。

這個(gè)設(shè)計(jì)最關(guān)鍵的一點(diǎn)在于,它不是單純 “多遮一點(diǎn)”,而是把訓(xùn)練難點(diǎn)往真正值得學(xué)的地方推。模型被反復(fù)要求補(bǔ)全的,不再只是隨機(jī)缺失的內(nèi)容,而是那些決定代碼是否成立、推理是否走通的關(guān)鍵片段。

另一個(gè)小巧思:一條數(shù)據(jù),兩種學(xué)法

如果只是優(yōu)先 mask 掉高信息區(qū)域,很容易讓人擔(dān)心另一個(gè)問(wèn)題:模型會(huì)不會(huì)變得更會(huì) “做題”,但對(duì)語(yǔ)言結(jié)構(gòu)本身?

所以這里引入了擴(kuò)散模型訓(xùn)練中常用的 Complementary Masking。

思路是:對(duì)同一條樣本,Trainer 不只根據(jù)前文的 token-level 優(yōu)先標(biāo)記構(gòu)造一個(gè) priority mask,還會(huì)構(gòu)造它的完全邏輯互補(bǔ)版本。也就是說(shuō),一份樣本會(huì)變成兩種互補(bǔ)的訓(xùn)練視角:一種把重點(diǎn)放在邏輯骨架上,另一種則更多保留這些關(guān)鍵位置,轉(zhuǎn)而讓模型去處理結(jié)構(gòu)、語(yǔ)法和上下文連貫性。

這種將互補(bǔ)掩碼與優(yōu)先級(jí)掩碼結(jié)合的設(shè)計(jì)得到了一種 1+1>2 的效果,因?yàn)樗鼪](méi)有把問(wèn)題簡(jiǎn)化成 “只要盯住重點(diǎn)就行”,而是承認(rèn):語(yǔ)言模型最終還是既要會(huì)推理,也得會(huì)組織語(yǔ)言。前一種視角更像是在逼模型抓住關(guān)鍵邏輯,后一種視角則是在防止它把句子寫(xiě)散、把上下文關(guān)系學(xué)丟。論文把這種效果稱(chēng)為一種基于信息密度的 decoupling,本質(zhì)上是在把一條訓(xùn)練樣本里的不同學(xué)習(xí)目標(biāo)拆開(kāi)。

改改噪聲調(diào)度就能直接提點(diǎn)

實(shí)驗(yàn)部分,作者使用 LLaDA-2.0-mini 作為基礎(chǔ)模型,在代碼和數(shù)學(xué)數(shù)據(jù)上進(jìn)行訓(xùn)練,最后在 HumanEval、MBPP、GSM8K、MATH500 四個(gè) benchmark 上做評(píng)測(cè)。結(jié)果顯示,相比標(biāo)準(zhǔn)的隨機(jī) masking baseline,這套方法的平均成績(jī)提升了大約 4%。



這個(gè)幅度不屬于那種一眼看上去特別炸裂的數(shù)字,但放在這里其實(shí)挺有說(shuō)服力。原因在于,這項(xiàng)工作并沒(méi)有去改 backbone,也沒(méi)有上特別重的額外模塊,它動(dòng)的是訓(xùn)練范式本身,兩個(gè)數(shù)字之間唯一的差異只有噪聲調(diào)度。換句話說(shuō),它不是靠 “再堆一點(diǎn)結(jié)構(gòu)” 把結(jié)果抬上去,而是證明了只要訓(xùn)練信號(hào)分配得更合理,擴(kuò)散模型本身還有不少潛力沒(méi)被用出來(lái)。

有個(gè)消融結(jié)果很值得注意:不是越狠越好

論文里另一個(gè)有啟發(fā)性的部分,其實(shí)是關(guān)于 hard masking 和 soft masking 的比較。

直覺(jué)上你可能會(huì)覺(jué)得,既然高信息區(qū)域重要,那就干脆把這些位置狠狠遮掉,讓模型專(zhuān)門(mén)練這個(gè),不是更好嗎?但實(shí)驗(yàn)結(jié)果并不是這樣。作者發(fā)現(xiàn),確定性的 hard masking 反而容易把訓(xùn)練搞壞,效果反而不如帶概率的 soft masking。





他們給出的解釋也挺合理。代碼和數(shù)學(xué)里的高信息區(qū)域,很多時(shí)候在文本里是連續(xù)出現(xiàn)的。如果把這一整段連續(xù)內(nèi)容都直接硬遮掉,那么在 block diffusion 的訓(xùn)練過(guò)程中,就相當(dāng)于突然挖掉了一大片局部錨點(diǎn),出現(xiàn)了一大片連續(xù)的 “內(nèi)容黑洞”。論文把這個(gè)現(xiàn)象叫做 contextual collapse:局部參照一旦沒(méi)了,訓(xùn)練過(guò)程就容易失穩(wěn),梯度軌跡也會(huì)變得很難控制。相比之下,soft mask 雖然也提高了這些位置被遮掉的概率,但畢竟還保留了隨機(jī)性,不至于每次都把關(guān)鍵部分整個(gè)掏空,因此優(yōu)化會(huì)平滑得多。

這一點(diǎn)其實(shí)挺像很多訓(xùn)練技巧最后都會(huì)落到的那個(gè)結(jié)論:方向?qū)α瞬淮砹Χ仍酱笤胶茫o模型留一點(diǎn)緩沖,往往更重要。

只處理一小部分?jǐn)?shù)據(jù),就已經(jīng)能看到收益

另一個(gè)比較實(shí)用的發(fā)現(xiàn),是這套方法的數(shù)據(jù)效率。

作者沒(méi)有要求對(duì)全部訓(xùn)練數(shù)據(jù)都做離線的信息密度提取,而是做了不同比例的數(shù)據(jù)實(shí)驗(yàn)。結(jié)果顯示,只對(duì) 10% 的代碼數(shù)據(jù)做這一步處理,就已經(jīng)能把平均成績(jī)從 55.32 拉到 59.45。再繼續(xù)往上加到 30%,甚至加到 100%,性能提升會(huì)逐漸趨于飽和;到了 100% 時(shí),雖然代碼類(lèi)指標(biāo)還能沖高,但數(shù)學(xué)推理表現(xiàn)反而會(huì)掉下來(lái)。論文把這種現(xiàn)象歸因于 domain shift:代碼側(cè)結(jié)構(gòu)先驗(yàn)加得太多,反而擠占了模型在其他推理任務(wù)上的泛化空間。

這部分結(jié)果挺重要,因?yàn)樗f(shuō)明這件事并不一定是個(gè) “高成本、重工程” 的方案。相反,作者給出的結(jié)論很明確:不需要全量標(biāo)注,也不需要把整個(gè)訓(xùn)練流水線推倒重來(lái),只要在一小部分?jǐn)?shù)據(jù)上引入這種結(jié)構(gòu)化先驗(yàn),就能把基礎(chǔ)擴(kuò)散模型往上推一截。

擴(kuò)散模型的訓(xùn)練過(guò)程還有很多細(xì)節(jié)可供挖掘

從結(jié)果上看,這篇工作當(dāng)然是在講一個(gè) masked data training 的新做法。但如果再往后退一步看,它其實(shí)碰到了一個(gè)更根本的問(wèn)題:擴(kuò)散語(yǔ)言模型到底應(yīng)該怎樣分配自己的學(xué)習(xí)注意力。

過(guò)去很多工作習(xí)慣從模型結(jié)構(gòu)、采樣策略或者推理機(jī)制上找突破,這篇文章反而提醒了一件很樸素的事:你讓模型學(xué)什么、在哪些位置上用力,本身就會(huì)決定它最后學(xué)成什么樣。對(duì)于 DLLM 這種本來(lái)就高度依賴(lài) noising /denoising 過(guò)程的模型來(lái)說(shuō),masking 不是配角,某種程度上它就是訓(xùn)練邏輯本身的一部分。

論文最后也提到,當(dāng)前這套信息密度提取流程還是偏離線、偏啟發(fā)式的。后面可以繼續(xù)往幾個(gè)方向走,比如基于 AST 的規(guī)則提取、基于模型自身置信度的自適應(yīng)提取,或者干脆引入 GAN 的思想做成端到端可學(xué)習(xí)的對(duì)抗式 mask 模塊。

如果這些方向后面能繼續(xù)推進(jìn),那這篇工作的意義可能就不只是 “提出了一個(gè)有效的小改動(dòng)”,而是在給 Diffusion LLM 提供一種更像樣的訓(xùn)練思路:

先別急著讓模型學(xué)會(huì)所有東西,先讓它學(xué)會(huì)什么東西值得優(yōu)先學(xué)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
上海樓市失控了....

上海樓市失控了....

新浪財(cái)經(jīng)
2026-03-27 00:18:46
特朗普撤回通牒,伊朗打來(lái)電話,希望中方伸出援手,王毅斬釘截鐵

特朗普撤回通牒,伊朗打來(lái)電話,希望中方伸出援手,王毅斬釘截鐵

華史談
2026-03-26 23:37:39
事關(guān)?;?!剛剛,特朗普最新發(fā)聲!伊朗,大消息!

事關(guān)?;?!剛剛,特朗普最新發(fā)聲!伊朗,大消息!

證券時(shí)報(bào)
2026-03-27 00:56:03
扎哈羅娃警告日本:任何試圖向?yàn)跆峁┲旅淦髦e,都將招致強(qiáng)硬回應(yīng)

扎哈羅娃警告日本:任何試圖向?yàn)跆峁┲旅淦髦e,都將招致強(qiáng)硬回應(yīng)

環(huán)球網(wǎng)資訊
2026-03-26 08:55:12
劉強(qiáng)東章澤天的大姑娘!感覺(jué)像爸爸多一點(diǎn)

劉強(qiáng)東章澤天的大姑娘!感覺(jué)像爸爸多一點(diǎn)

可樂(lè)談情感
2026-03-27 03:08:27
20億美元還不夠!中企對(duì)巴拿馬索賠漲價(jià),巴政府內(nèi)部已經(jīng)亂套了

20億美元還不夠!中企對(duì)巴拿馬索賠漲價(jià),巴政府內(nèi)部已經(jīng)亂套了

悄悄史話
2026-03-26 14:09:05
人社部明確:事業(yè)編制改革啟動(dòng),3100萬(wàn)人的“鐵飯碗”要變了

人社部明確:事業(yè)編制改革啟動(dòng),3100萬(wàn)人的“鐵飯碗”要變了

慧眼看世界哈哈
2026-03-24 06:36:05
長(zhǎng)護(hù)險(xiǎn)制度全面推開(kāi)!國(guó)家醫(yī)保局:參保人無(wú)論來(lái)自農(nóng)村還是城市,從同一個(gè)資金池報(bào)銷(xiāo)費(fèi)用

長(zhǎng)護(hù)險(xiǎn)制度全面推開(kāi)!國(guó)家醫(yī)保局:參保人無(wú)論來(lái)自農(nóng)村還是城市,從同一個(gè)資金池報(bào)銷(xiāo)費(fèi)用

紅星新聞
2026-03-26 11:28:05
國(guó)民黨內(nèi)訌開(kāi)始,馬英九拒絕電話、倒向美國(guó)?大陸發(fā)布統(tǒng)一后安排

國(guó)民黨內(nèi)訌開(kāi)始,馬英九拒絕電話、倒向美國(guó)?大陸發(fā)布統(tǒng)一后安排

一家說(shuō)
2026-03-27 01:31:09
張雪峰的病,速效救心丸能救嗎?

張雪峰的病,速效救心丸能救嗎?

中國(guó)新聞周刊
2026-03-25 16:23:30
伊朗注意了,美軍可能聲東擊西!第82空降師實(shí)力有多強(qiáng)?

伊朗注意了,美軍可能聲東擊西!第82空降師實(shí)力有多強(qiáng)?

科普100克克
2026-03-27 01:06:44
0.028%!無(wú)罪判決率跌至谷底,為何國(guó)際水平是我們的35倍?

0.028%!無(wú)罪判決率跌至谷底,為何國(guó)際水平是我們的35倍?

深析古今
2026-03-25 01:10:47
伊朗官媒發(fā)布《為眾人復(fù)仇》AI短片:一枚伊朗導(dǎo)彈在哈梅內(nèi)伊等人注視下,精準(zhǔn)炸毀幻化成羊頭惡魔的美國(guó)自由女神像

伊朗官媒發(fā)布《為眾人復(fù)仇》AI短片:一枚伊朗導(dǎo)彈在哈梅內(nèi)伊等人注視下,精準(zhǔn)炸毀幻化成羊頭惡魔的美國(guó)自由女神像

大象新聞
2026-03-26 09:45:03
航班在美國(guó)發(fā)生事故后加拿大航空公司CEO僅用英語(yǔ)發(fā)表講話,加總理批:我非常失望

航班在美國(guó)發(fā)生事故后加拿大航空公司CEO僅用英語(yǔ)發(fā)表講話,加總理批:我非常失望

環(huán)球網(wǎng)資訊
2026-03-26 18:26:42
突發(fā),雷軍辭職董事長(zhǎng)!

突發(fā),雷軍辭職董事長(zhǎng)!

品牌頭版
2026-03-26 14:46:17
很多人都患過(guò)“帶狀皰疹”,卻不知它和“老年癡呆”有關(guān)!了解下

很多人都患過(guò)“帶狀皰疹”,卻不知它和“老年癡呆”有關(guān)!了解下

岐黃傳人孫大夫
2026-03-26 20:45:03
美國(guó)記者挖坑提問(wèn):萬(wàn)一臺(tái)灣不想被統(tǒng)一怎么辦?被中方精準(zhǔn)反殺

美國(guó)記者挖坑提問(wèn):萬(wàn)一臺(tái)灣不想被統(tǒng)一怎么辦?被中方精準(zhǔn)反殺

雪中風(fēng)車(chē)
2026-02-23 19:34:34
美國(guó)懵了,能摧毀伊朗電力的石墨炸彈,竟讓中國(guó)兩座城市聯(lián)手廢了

美國(guó)懵了,能摧毀伊朗電力的石墨炸彈,竟讓中國(guó)兩座城市聯(lián)手廢了

瑛派兒老黃
2026-03-25 23:46:07
生死12分鐘!廣東一男子踢球時(shí)心臟驟停 一群醫(yī)生沖上前接力心肺復(fù)蘇救回一命

生死12分鐘!廣東一男子踢球時(shí)心臟驟停 一群醫(yī)生沖上前接力心肺復(fù)蘇救回一命

閃電新聞
2026-03-26 11:46:05
中國(guó)首創(chuàng)!打一針降血脂基因治療獲突破

中國(guó)首創(chuàng)!打一針降血脂基因治療獲突破

醫(yī)學(xué)界
2026-03-26 19:17:50
2026-03-27 04:51:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專(zhuān)業(yè)的人工智能媒體
12608文章數(shù) 142594關(guān)注度
往期回顧 全部

科技要聞

美團(tuán)發(fā)布外賣(mài)大戰(zhàn)后成績(jī)單:虧損超200億

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

體育要聞

申京努力了,然而杜蘭特啊

娛樂(lè)要聞

劉曉慶妹妹發(fā)聲!稱(chēng)姐姐受身邊人挑撥

財(cái)經(jīng)要聞

油價(jià)"馴服"特朗普?一到100美元就TACO

汽車(chē)要聞

一汽奧迪A6L e-tron開(kāi)啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

藝術(shù)
本地
數(shù)碼
公開(kāi)課
軍事航空

藝術(shù)要聞

北京大興機(jī)場(chǎng)和青島膠東機(jī)場(chǎng)“撞臉”,長(zhǎng)得像就是抄襲?

本地新聞

救命,這只醬板鴨已經(jīng)在我手機(jī)復(fù)仇了一萬(wàn)遍

數(shù)碼要聞

英特爾發(fā)Q1.26版Arc Pro專(zhuān)業(yè)顯卡驅(qū)動(dòng),支持B70 / B65顯卡

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

擔(dān)心特朗普突然停戰(zhàn) 以總理下令48小時(shí)盡力摧毀伊設(shè)施

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版