網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

AI寫作從"連續(xù)流動(dòng)"中誕生，連續(xù)擴(kuò)散終于能與離散擴(kuò)散一較高下

2026-04-26 19:04:06　來源: 科技行者

天津舉報(bào)

分享至

這項(xiàng)由美國伊利諾伊大學(xué)厄巴納-香檳分校（UIUC）研究團(tuán)隊(duì)完成的工作，以預(yù)印本形式發(fā)布于2026年4月，論文編號(hào)為arXiv:2604.11748，感興趣的讀者可通過該編號(hào)在arXiv平臺(tái)上查閱完整論文。

在人工智能生成文字這件事上，過去幾年最熱門的路線是"擴(kuò)散模型"——這個(gè)名字聽起來像是物理實(shí)驗(yàn)室里的概念，但它其實(shí)是一種非常優(yōu)雅的生成思路：先把內(nèi)容"模糊化"成一團(tuán)噪音，然后再一步步把噪音"雕刻"成清晰的文字或圖片。這套方法在圖片生成領(lǐng)域已經(jīng)大放異彩，Stable Diffusion、DALL-E等產(chǎn)品正是基于此。然而，當(dāng)研究者試圖把同樣的邏輯搬到文字生成上時(shí)，卻遭遇了一道令人頭疼的墻。

文字和圖片有一個(gè)根本性的區(qū)別。圖片中的每個(gè)像素可以是任意連續(xù)的顏色值，而文字中的每個(gè)詞（或者說"詞元"）只能是詞匯表里那幾萬個(gè)單詞中的一個(gè)——要么是"蘋果"，要么是"橙子"，絕對(duì)不存在介于兩者之間的狀態(tài)。這種離散性，讓"連續(xù)流動(dòng)"的擴(kuò)散思路在文字上碰壁了。

于是，研究者們分成了兩個(gè)陣營。一個(gè)陣營選擇直接在"離散空間"里做擴(kuò)散，把文字的跳變規(guī)律直接建模，這一派被稱為"離散擴(kuò)散"，代表性模型有MDLM、SEDD等；另一個(gè)陣營堅(jiān)持在連續(xù)空間操作，試圖把文字先映射到一個(gè)連續(xù)的數(shù)值空間（叫做"嵌入空間"），再在那里做擴(kuò)散，這一派被稱為"連續(xù)擴(kuò)散"或"嵌入空間擴(kuò)散"。長久以來，離散擴(kuò)散一直領(lǐng)先，而連續(xù)擴(kuò)散雖然理論上更靈活，卻在實(shí)際效果上遠(yuǎn)遠(yuǎn)落后。

這項(xiàng)來自伊利諾伊大學(xué)的研究，提出了一個(gè)名為LangFlow的框架，首次讓連續(xù)擴(kuò)散真正追上甚至在某些任務(wù)上超越了離散擴(kuò)散的水平。研究團(tuán)隊(duì)把問題掰開揉碎，找到了三個(gè)關(guān)鍵的設(shè)計(jì)失誤，并逐一修正，最終讓這只"跛腳的鴨子"重新健步如飛。

一、嵌入空間擴(kuò)散：一個(gè)被低估的賽道

要理解這項(xiàng)研究，需要先搞清楚"嵌入空間"是什么。

每個(gè)單詞在模型內(nèi)部都被表示為一串?dāng)?shù)字，比如"貓"可能對(duì)應(yīng)著一個(gè)768維的向量（可以理解成768個(gè)坐標(biāo)軸上各有一個(gè)數(shù)值）。這串?dāng)?shù)字捕捉了這個(gè)詞的語義：意思相近的詞，它們的向量在空間中也彼此靠近。這套數(shù)字化的表示體系，就是"嵌入空間"。

嵌入空間擴(kuò)散的思路是：把一段文字的每個(gè)詞都轉(zhuǎn)成對(duì)應(yīng)的數(shù)字向量，然后在這個(gè)數(shù)字的世界里做擴(kuò)散——往里加噪音，再慢慢去噪，最后把恢復(fù)出來的向量再轉(zhuǎn)回文字。這個(gè)路線有幾個(gè)天然的優(yōu)勢：空間是連續(xù)的，不像離散的詞元那樣跳躍；可以借用圖像生成領(lǐng)域積累的大量技巧；也更容易在生成過程中進(jìn)行干預(yù)和編輯。

然而，前人在這條路上走得磕磕絆絆。一方面，訓(xùn)練目標(biāo)設(shè)計(jì)得不夠嚴(yán)謹(jǐn)，要么是拍腦袋想出來的啟發(fā)式規(guī)則，要么設(shè)計(jì)得極其復(fù)雜——比如有一個(gè)名叫Plaid的模型，需要把每個(gè)訓(xùn)練批次動(dòng)態(tài)切片，對(duì)不同部分優(yōu)化不同的損失函數(shù)，工程師做到絕望。另一方面，更大的麻煩在于沒有一個(gè)可靠的"體檢指標(biāo)"：語言模型最常用的評(píng)估指標(biāo)叫做"困惑度"（Perplexity，PPL），數(shù)值越低說明模型對(duì)語言的理解越好，但之前的連續(xù)擴(kuò)散模型只能用一種叫做SDE（隨機(jī)微分方程）的隨機(jī)方法來估算困惑度，這種估算既不精確，也難以和離散擴(kuò)散模型做橫向比較。沒有好用的體檢儀器，就很難知道哪里出了問題，改進(jìn)就無從下手。

正是在這個(gè)背景下，伊利諾伊大學(xué)的團(tuán)隊(duì)重新審視了嵌入空間擴(kuò)散這條路，試圖從根子上解決這些問題。

二、用"流匹配"和"布雷格曼散度"重建理論地基

研究團(tuán)隊(duì)做的第一件事，是給嵌入空間擴(kuò)散建立一套更扎實(shí)的數(shù)學(xué)基礎(chǔ)，而關(guān)鍵的突破口來自把它和"流匹配"（Flow Matching）聯(lián)系起來。

流匹配是一種相對(duì)較新的生成建模思路，核心想法是學(xué)習(xí)一個(gè)"速度場"——就像在地圖上標(biāo)注每個(gè)位置的風(fēng)向和風(fēng)速，讓粒子從隨機(jī)噪音出發(fā)，順著這個(gè)風(fēng)場流動(dòng)，最終抵達(dá)真實(shí)數(shù)據(jù)的分布。這個(gè)過程完全是確定性的，像一條筆直的管道而不是隨機(jī)游走的醉漢。

研究團(tuán)隊(duì)發(fā)現(xiàn)，嵌入空間擴(kuò)散在數(shù)學(xué)上天然地和流匹配是同一回事——只是之前沒人明確指出這一點(diǎn)。更進(jìn)一步，他們把模型的訓(xùn)練目標(biāo)（即"交叉熵?fù)p失"，通俗地說就是"預(yù)測正確詞的對(duì)數(shù)概率"）和一個(gè)叫做"布雷格曼散度"的數(shù)學(xué)概念聯(lián)系了起來。

布雷格曼散度是一種衡量兩個(gè)概率分布之間差異的工具，交叉熵?fù)p失恰好是它的一個(gè)特例——選擇一個(gè)特定的凸函數(shù)（即負(fù)熵函數(shù)），布雷格曼散度就自然地退化為交叉熵。這個(gè)聯(lián)系意味著什么？意味著用交叉熵來訓(xùn)練嵌入空間擴(kuò)散模型，并不是一個(gè)隨便拍腦袋的選擇，而是有嚴(yán)格數(shù)學(xué)保證的最優(yōu)選擇：在給定噪音狀態(tài)的條件下，模型的預(yù)測會(huì)收斂到對(duì)真實(shí)詞分布的最佳后驗(yàn)估計(jì)。

換句話說，之前研究者們或多或少憑直覺用的訓(xùn)練方法，這次被證明是理論上最正確的那一條路。這就好比一個(gè)廚師多年來憑經(jīng)驗(yàn)調(diào)味，結(jié)果一位營養(yǎng)學(xué)家告訴他：你的調(diào)味比例恰好符合最優(yōu)健康配方的數(shù)學(xué)最優(yōu)解。

有了這個(gè)理論基礎(chǔ)，研究團(tuán)隊(duì)還順?biāo)浦鄣赝茖?dǎo)出了一個(gè)重要的新工具：基于ODE（常微分方程）的負(fù)對(duì)數(shù)似然上界。這個(gè)工具專門用來估算連續(xù)擴(kuò)散模型的困惑度，而且用的是確定性的ODE路徑而非隨機(jī)的SDE路徑。這意味著：每次用同樣的模型和同樣的測試數(shù)據(jù)，得到的困惑度估計(jì)都是一樣的、可復(fù)現(xiàn)的，而不像之前的SDE方法那樣每次算出來都略有不同。有了這把精準(zhǔn)的測量尺，研究者終于能清晰地看到模型訓(xùn)練到底好不好，也能和離散擴(kuò)散模型公平地比較了。

三、噪音安排的學(xué)問：為什么語言不能套用圖片的方案

理論地基打好了，研究團(tuán)隊(duì)開始審視第一個(gè)關(guān)鍵的工程設(shè)計(jì)：噪音調(diào)度（noise schedule）。

擴(kuò)散模型的工作方式是把數(shù)據(jù)從"干凈"逐漸變成"嘈雜"，再在生成時(shí)反過來從噪音慢慢恢復(fù)干凈。這個(gè)過程中，一個(gè)重要的問題是：噪音是如何一步步被加進(jìn)去的？加得快還是慢？在哪個(gè)階段加得多、哪個(gè)階段加得少？這套安排就叫"噪音調(diào)度"。

在圖像生成領(lǐng)域，最流行的噪音調(diào)度方案（比如Stable Diffusion 3采用的）是均勻地在時(shí)間步上分配噪音。研究團(tuán)隊(duì)一開始也照搬了這個(gè)做法，但他們畫出了一張圖，揭示了一個(gè)令人震驚的現(xiàn)象。

他們把模型在不同噪音水平下預(yù)測文字的損失值畫成曲線。結(jié)果發(fā)現(xiàn)，當(dāng)時(shí)間步t處于0.2到1.0這個(gè)區(qū)間時(shí)——也就是噪音相對(duì)較小的那大半段時(shí)間——模型的損失幾乎是零。這意味著什么？意味著在這段時(shí)間里，模型已經(jīng)能輕而易舉地猜出正確的詞，完全不需要花力氣學(xué)習(xí)。然而，均勻的時(shí)間分配卻把超過一半的訓(xùn)練時(shí)間浪費(fèi)在了這個(gè)"沒有挑戰(zhàn)"的區(qū)域。

這就像一個(gè)音樂學(xué)生練鋼琴，老師設(shè)計(jì)了一個(gè)訓(xùn)練計(jì)劃，讓他花60%的時(shí)間練那些已經(jīng)爛熟于心的簡單音階，只有不到20%的時(shí)間練真正困難的高難度片段。這個(gè)計(jì)劃顯然非常低效。

問題的根源在于，文字?jǐn)?shù)據(jù)的性質(zhì)和圖片根本不同。圖片中的像素可以取連續(xù)的值，即使加了不少噪音，還是很難猜到原始顏色。但文字的目的地是離散的詞元——詞匯表中的那幾萬個(gè)詞是有限的"孤島"，即使在相當(dāng)嘈雜的狀態(tài)下，模型也常常能根據(jù)語義線索猜出正確答案。

為了解決這個(gè)問題，研究團(tuán)隊(duì)引入了兩個(gè)改進(jìn)。

第一個(gè)改進(jìn)是更換時(shí)間編碼方式，從普通的時(shí)間步t切換到"對(duì)數(shù)噪信比"γ（gamma）。γ定義為噪音方差與信號(hào)方差之比取對(duì)數(shù)，它的巧妙之處在于：當(dāng)噪信比在高噪音端呈指數(shù)級(jí)變化時(shí)，γ只是線性地移動(dòng)，相當(dāng)于把原本壓縮在一起的"困難區(qū)域"展開拉長，讓模型和訓(xùn)練計(jì)劃都能更精細(xì)地關(guān)注那些真正有挑戰(zhàn)的噪音水平。

第二個(gè)改進(jìn)更有趣，研究團(tuán)隊(duì)提出了"信息均勻原則"。他們的出發(fā)點(diǎn)是這樣的：擴(kuò)散過程本質(zhì)上是一個(gè)逐漸"消除不確定性"的過程——從完全隨機(jī)的噪音（什么詞都不知道）到完全確定的詞序列，每一步都在獲取信息。如果把每個(gè)噪音水平下模型的"不確定程度"（用信息熵來度量）畫出來，就會(huì)得到一條隨噪音減少而下降的曲線。這條曲線的斜率，就代表了"在這個(gè)噪音水平上，每改變一點(diǎn)噪音，能獲得多少新信息"。

信息均勻原則的意思是：讓每一步采樣（無論是訓(xùn)練還是生成）獲得的信息量盡可能相等。直覺上，這就像爬山時(shí)應(yīng)該把步子邁在最陡的地方——在信息增益最集中的區(qū)域多花力氣，在平坦區(qū)域快速通過。

那么，語言數(shù)據(jù)的信息增益集中在哪里呢？研究團(tuán)隊(duì)通過大量實(shí)驗(yàn)，發(fā)現(xiàn)γ值的信息導(dǎo)數(shù)呈現(xiàn)出一個(gè)正偏態(tài)的分布，而且形狀與統(tǒng)計(jì)學(xué)中的"岡貝爾分布"（Gumbel distribution）高度吻合。岡貝爾分布是一種用于描述極值事件的概率分布，在這里它意外地成為了語言數(shù)據(jù)信息結(jié)構(gòu)的最佳描述。

更聰明的是，研究團(tuán)隊(duì)沒有把這個(gè)分布的參數(shù)固定下來，而是讓模型在訓(xùn)練過程中自己學(xué)習(xí)這些參數(shù)。因?yàn)殡S著訓(xùn)練的進(jìn)行，模型本身也在進(jìn)步，它在不同噪音水平下的困難程度會(huì)隨之改變，噪音調(diào)度也應(yīng)該跟著調(diào)整。這套自適應(yīng)的岡貝爾噪音調(diào)度器，把LangFlow的生成困惑度從約1000的災(zāi)難級(jí)別直接降到了154.2，效果可謂立竿見影。

四、自我條件化：一個(gè)被誤解的技巧

第二個(gè)關(guān)鍵設(shè)計(jì)問題是"自我條件化"（self-conditioning）。

自我條件化是擴(kuò)散模型中一個(gè)流行的小技巧，原理很簡單：在每一步去噪時(shí)，模型不僅看當(dāng)前的噪音狀態(tài)，還把上一步自己的預(yù)測結(jié)果也喂給自己作為參考。這就像一個(gè)偵探不僅看當(dāng)前的案發(fā)現(xiàn)場，還把自己之前整理的案情筆記放在旁邊對(duì)照參考，幫助做出更準(zhǔn)確的判斷。

在離散擴(kuò)散模型（比如MDLM）的研究中，自我條件化是個(gè)有些奇怪的存在：它確實(shí)能提升生成質(zhì)量（即生成困惑度 Gen.PPL 有所改善），但同時(shí)會(huì)讓模型對(duì)測試數(shù)據(jù)的擬合能力略有下降（即PPL略有升高）。正因?yàn)檫@個(gè)兩面性，離散擴(kuò)散的研究者們?cè)u(píng)估PPL時(shí)通常會(huì)關(guān)掉自我條件化，以免影響公平性。

然而，研究團(tuán)隊(duì)發(fā)現(xiàn)，這個(gè)慣例被不加思索地沿用到了連續(xù)擴(kuò)散模型的評(píng)估中，而這是一個(gè)嚴(yán)重的錯(cuò)誤。

他們做了一組對(duì)比實(shí)驗(yàn)，結(jié)果非常能說明問題。在沒有自我條件化的情況下，LangFlow的PPL是49.0，Gen.PPL是154.2。開啟自我條件化后，PPL直接降到30.0，Gen.PPL降到81.5。換句話說，自我條件化對(duì)連續(xù)擴(kuò)散的PPL改善幅度高達(dá)19個(gè)點(diǎn)，而對(duì)離散擴(kuò)散MDLM，PPL反而微微上升了1.7。

這個(gè)不對(duì)稱性揭示了一個(gè)深刻的差異：在離散擴(kuò)散中，自我條件化給模型提供了過多的"捷徑"，讓它過于依賴之前的預(yù)測，導(dǎo)致對(duì)測試數(shù)據(jù)的真實(shí)概率估計(jì)變差；而在連續(xù)擴(kuò)散中，自我條件化幫助模型在連續(xù)的嵌入空間中更好地校準(zhǔn)方向，既提升了生成質(zhì)量，也提升了概率估計(jì)的準(zhǔn)確性。

研究者用一個(gè)有趣的實(shí)驗(yàn)進(jìn)一步揭示了這個(gè)現(xiàn)象的機(jī)理。他們跟蹤了模型在不同噪音水平下對(duì)某個(gè)目標(biāo)詞（"run"）的預(yù)測概率變化。在沒有自我條件化的情況下，隨著噪音增大，模型的預(yù)測會(huì)逐漸從正確的"run"漂移到語義相關(guān)的"go"，再到高頻的功能詞"is"、"and"、"the"——也就是說，模型在高噪音下會(huì)被高頻詞"磁場"所吸引，忘記了語義上的正確答案。自我條件化的介入，幫助模型在這個(gè)漂移過程中保持了更多的語義記憶，避免了這種"語義遺忘"現(xiàn)象。

這個(gè)發(fā)現(xiàn)的實(shí)踐意義是：如果你要公平地評(píng)估連續(xù)擴(kuò)散語言模型，必須在自我條件化開啟的狀態(tài)下進(jìn)行，否則你看到的只是一個(gè)被人為削弱了的版本。

五、最終成績單：連續(xù)擴(kuò)散第一次真正進(jìn)入競爭

把所有這些改進(jìn)整合在一起，LangFlow在標(biāo)準(zhǔn)語言模型基準(zhǔn)測試上交出了一份讓人眼前一亮的成績單。

在LM1B數(shù)據(jù)集（一個(gè)包含十億詞的英文新聞?wù)Z料庫）上，LangFlow的PPL達(dá)到30.0，躋身離散擴(kuò)散模型中最好的水平（MDLM為31.0），同時(shí)Gen.PPL為92.2，在同類連續(xù)擴(kuò)散方法中排名第二。在OpenWebText（一個(gè)大規(guī)模網(wǎng)絡(luò)文本數(shù)據(jù)集，文本多樣性更高）上，LangFlow的PPL達(dá)到24.6，Gen.PPL僅為36.5，這個(gè)Gen.PPL成績?cè)谒袛U(kuò)散模型中排名第一，甚至比之前最好的連續(xù)擴(kuò)散方法Duo低了整整41個(gè)點(diǎn)。

更有說服力的是零樣本遷移測試。所謂零樣本遷移，就是把在OpenWebText上訓(xùn)練好的模型，直接搬到完全沒見過的七個(gè)不同類型的測試數(shù)據(jù)集上評(píng)估（包括新聞、學(xué)術(shù)論文、百科全書、對(duì)話等）。LangFlow在這七個(gè)基準(zhǔn)中的四個(gè)上超越了經(jīng)典的自回歸Transformer（即逐詞生成的傳統(tǒng)語言模型），同時(shí)在三個(gè)基準(zhǔn)上超越了離散擴(kuò)散領(lǐng)域的頂尖模型MDLM。自回歸Transformer向來是語言模型領(lǐng)域的"默認(rèn)優(yōu)勝者"，連續(xù)擴(kuò)散能在多個(gè)任務(wù)上打贏它，這在歷史上是第一次。

研究團(tuán)隊(duì)還專門對(duì)比了另一個(gè)連續(xù)擴(kuò)散基線模型Plaid，并發(fā)現(xiàn)了一個(gè)重要的技術(shù)警示。Plaid使用均方誤差（MSE，即直接最小化預(yù)測嵌入向量和真實(shí)嵌入向量的距離）作為主要訓(xùn)練目標(biāo)，而非交叉熵。研究團(tuán)隊(duì)通過可視化詞嵌入的"最近鄰距離"發(fā)現(xiàn)，Plaid的詞嵌入發(fā)生了嚴(yán)重的"坍縮"現(xiàn)象——不同詞的向量在空間中擠在一起，彼此幾乎無法區(qū)分，Plaid的平均最近鄰距離僅為0.058，而AR模型是1.211，MDLM是1.124，LangFlow是0.877。這種坍縮現(xiàn)象會(huì)嚴(yán)重限制模型的表達(dá)能力，解釋了為什么Plaid在LM1B上表現(xiàn)尚可，但在更大規(guī)模的零樣本遷移任務(wù)上遠(yuǎn)遠(yuǎn)落后。

在采樣效率方面，研究團(tuán)隊(duì)也做了不同步驟數(shù)下的測試。LangFlow在128步時(shí)Gen.PPL為92.24，在64步時(shí)上升到104.83，32步時(shí)127.32，16步時(shí)179.60。隨著步驟減少，性能確實(shí)有所下降，但這是在沒有任何專門的少步訓(xùn)練優(yōu)化（即"蒸餾"）的情況下直接減步的結(jié)果，說明LangFlow本身已經(jīng)具備了較好的采樣魯棒性，未來通過專門的少步加速訓(xùn)練有望進(jìn)一步改善。

說到底，LangFlow這項(xiàng)工作的意義不只是刷新了一個(gè)數(shù)字。它做了一件更根本的事：給嵌入空間連續(xù)擴(kuò)散語言模型重新建立了一套清晰的理論框架和工程規(guī)范。過去，連續(xù)擴(kuò)散語言模型的研究者們各自為戰(zhàn)，用著不同的訓(xùn)練目標(biāo)、不同的評(píng)估方式、不同的噪音調(diào)度，結(jié)果難以比較，進(jìn)展也難以積累。LangFlow相當(dāng)于為這個(gè)領(lǐng)域立了一套統(tǒng)一的"行業(yè)標(biāo)準(zhǔn)"：用基于布雷格曼散度的交叉熵訓(xùn)練、用ODE路徑估算PPL、用岡貝爾分布做噪音調(diào)度、開啟自我條件化做評(píng)估。

有了這套標(biāo)準(zhǔn)，后來的研究者可以站在更高的起點(diǎn)上繼續(xù)探索。連續(xù)擴(kuò)散語言模型還有很多可以挖掘的空間——比如它天然支持的"軌跡編輯"（在生成過程中修改中間狀態(tài)，實(shí)現(xiàn)可控生成）、與流匹配蒸餾技術(shù)結(jié)合后可能實(shí)現(xiàn)的極速生成，以及嵌入空間本身帶來的更豐富的語義干預(yù)能力。這些方向，離散擴(kuò)散由于其離散性質(zhì)，天然地很難實(shí)現(xiàn)；而連續(xù)擴(kuò)散，在LangFlow打好地基之后，終于可以認(rèn)真地去探索這些獨(dú)有的優(yōu)勢了。

研究團(tuán)隊(duì)也坦誠地指出了目前的局限：LangFlow生成文本的多樣性（用信息熵衡量）略低于一些離散擴(kuò)散基線，說明模型在生成時(shí)有一定程度的頻率偏向，傾向于重復(fù)使用某些內(nèi)容詞。有趣的是，這種重復(fù)不是那種讓人讀起來很別扭的局部重復(fù)（同一句話里連續(xù)出現(xiàn)），而是一個(gè)詞在整段文本中出現(xiàn)了十來次但分散在各處——從閱讀體驗(yàn)來看，并沒有明顯的質(zhì)量下降。不過，這種頻率偏向在更大規(guī)模的實(shí)驗(yàn)中可能會(huì)產(chǎn)生更明顯的影響，這是留給未來研究的一個(gè)開放問題。

歸根結(jié)底，這項(xiàng)研究想證明的，是連續(xù)擴(kuò)散和離散擴(kuò)散并不是非此即彼的對(duì)手關(guān)系，而是可以并肩作戰(zhàn)的兩種工具。離散擴(kuò)散有其簡潔和精準(zhǔn)，連續(xù)擴(kuò)散有其靈活和可塑。LangFlow首次讓連續(xù)擴(kuò)散站在了同一條起跑線上，接下來這場競賽，才真正開始。

Q&A

Q1：LangFlow和現(xiàn)在常見的ChatGPT這類語言模型有什么區(qū)別？

A：ChatGPT屬于自回歸語言模型，生成文字時(shí)是逐詞從左到右順序生成的，就像一筆一劃寫字。LangFlow屬于擴(kuò)散模型，是從一團(tuán)噪音出發(fā)，同時(shí)對(duì)整段文字反復(fù)"雕刻"直到得到清晰結(jié)果，生成過程是并行的、可雙向修改的。自回歸模型目前在效果上仍有優(yōu)勢，但擴(kuò)散模型在可控性和編輯靈活性上有獨(dú)特潛力。

Q2：LangFlow中提到的困惑度（PPL）到底是什么，數(shù)值越低越好嗎？

A：困惑度是衡量語言模型"有多懂語言"的一個(gè)指標(biāo)，直覺上可以理解為：如果讓模型猜一句話里下一個(gè)詞是什么，它平均要從多少個(gè)候選詞里才能猜對(duì)——這個(gè)數(shù)越小，說明模型越確定、越準(zhǔn)確。所以困惑度數(shù)值越低越好。LangFlow在LM1B數(shù)據(jù)集上達(dá)到了30.0，和最好的離散擴(kuò)散模型持平。

Q3：LangFlow中的岡貝爾分布噪音調(diào)度是什么意思，為什么選它？

A：岡貝爾分布是一種統(tǒng)計(jì)學(xué)上常用于描述極端值分布的概率分布，形狀是正偏態(tài)的（即右邊有長尾）。研究團(tuán)隊(duì)發(fā)現(xiàn)，語言數(shù)據(jù)在不同噪音水平下"信息增益"的分布曲線恰好和岡貝爾分布吻合——大部分有價(jià)值的信息集中在一個(gè)特定的噪音區(qū)間，這個(gè)區(qū)間左邊平坦、右邊迅速衰減。用岡貝爾分布來安排訓(xùn)練時(shí)的噪音采樣，就能讓模型把更多注意力放在真正"困難且有價(jià)值"的噪音水平上，避免浪費(fèi)訓(xùn)練資源。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.