国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI寫作從"連續(xù)流動(dòng)"中誕生,連續(xù)擴(kuò)散終于能與離散擴(kuò)散一較高下

0
分享至


這項(xiàng)由美國伊利諾伊大學(xué)厄巴納-香檳分校(UIUC)研究團(tuán)隊(duì)完成的工作,以預(yù)印本形式發(fā)布于2026年4月,論文編號(hào)為arXiv:2604.11748,感興趣的讀者可通過該編號(hào)在arXiv平臺(tái)上查閱完整論文。

在人工智能生成文字這件事上,過去幾年最熱門的路線是"擴(kuò)散模型"——這個(gè)名字聽起來像是物理實(shí)驗(yàn)室里的概念,但它其實(shí)是一種非常優(yōu)雅的生成思路:先把內(nèi)容"模糊化"成一團(tuán)噪音,然后再一步步把噪音"雕刻"成清晰的文字或圖片。這套方法在圖片生成領(lǐng)域已經(jīng)大放異彩,Stable Diffusion、DALL-E等產(chǎn)品正是基于此。然而,當(dāng)研究者試圖把同樣的邏輯搬到文字生成上時(shí),卻遭遇了一道令人頭疼的墻。

文字和圖片有一個(gè)根本性的區(qū)別。圖片中的每個(gè)像素可以是任意連續(xù)的顏色值,而文字中的每個(gè)詞(或者說"詞元")只能是詞匯表里那幾萬個(gè)單詞中的一個(gè)——要么是"蘋果",要么是"橙子",絕對(duì)不存在介于兩者之間的狀態(tài)。這種離散性,讓"連續(xù)流動(dòng)"的擴(kuò)散思路在文字上碰壁了。

于是,研究者們分成了兩個(gè)陣營。一個(gè)陣營選擇直接在"離散空間"里做擴(kuò)散,把文字的跳變規(guī)律直接建模,這一派被稱為"離散擴(kuò)散",代表性模型有MDLM、SEDD等;另一個(gè)陣營堅(jiān)持在連續(xù)空間操作,試圖把文字先映射到一個(gè)連續(xù)的數(shù)值空間(叫做"嵌入空間"),再在那里做擴(kuò)散,這一派被稱為"連續(xù)擴(kuò)散"或"嵌入空間擴(kuò)散"。長久以來,離散擴(kuò)散一直領(lǐng)先,而連續(xù)擴(kuò)散雖然理論上更靈活,卻在實(shí)際效果上遠(yuǎn)遠(yuǎn)落后。

這項(xiàng)來自伊利諾伊大學(xué)的研究,提出了一個(gè)名為LangFlow的框架,首次讓連續(xù)擴(kuò)散真正追上甚至在某些任務(wù)上超越了離散擴(kuò)散的水平。研究團(tuán)隊(duì)把問題掰開揉碎,找到了三個(gè)關(guān)鍵的設(shè)計(jì)失誤,并逐一修正,最終讓這只"跛腳的鴨子"重新健步如飛。

一、嵌入空間擴(kuò)散:一個(gè)被低估的賽道

要理解這項(xiàng)研究,需要先搞清楚"嵌入空間"是什么。

每個(gè)單詞在模型內(nèi)部都被表示為一串?dāng)?shù)字,比如"貓"可能對(duì)應(yīng)著一個(gè)768維的向量(可以理解成768個(gè)坐標(biāo)軸上各有一個(gè)數(shù)值)。這串?dāng)?shù)字捕捉了這個(gè)詞的語義:意思相近的詞,它們的向量在空間中也彼此靠近。這套數(shù)字化的表示體系,就是"嵌入空間"。

嵌入空間擴(kuò)散的思路是:把一段文字的每個(gè)詞都轉(zhuǎn)成對(duì)應(yīng)的數(shù)字向量,然后在這個(gè)數(shù)字的世界里做擴(kuò)散——往里加噪音,再慢慢去噪,最后把恢復(fù)出來的向量再轉(zhuǎn)回文字。這個(gè)路線有幾個(gè)天然的優(yōu)勢:空間是連續(xù)的,不像離散的詞元那樣跳躍;可以借用圖像生成領(lǐng)域積累的大量技巧;也更容易在生成過程中進(jìn)行干預(yù)和編輯。

然而,前人在這條路上走得磕磕絆絆。一方面,訓(xùn)練目標(biāo)設(shè)計(jì)得不夠嚴(yán)謹(jǐn),要么是拍腦袋想出來的啟發(fā)式規(guī)則,要么設(shè)計(jì)得極其復(fù)雜——比如有一個(gè)名叫Plaid的模型,需要把每個(gè)訓(xùn)練批次動(dòng)態(tài)切片,對(duì)不同部分優(yōu)化不同的損失函數(shù),工程師做到絕望。另一方面,更大的麻煩在于沒有一個(gè)可靠的"體檢指標(biāo)":語言模型最常用的評(píng)估指標(biāo)叫做"困惑度"(Perplexity,PPL),數(shù)值越低說明模型對(duì)語言的理解越好,但之前的連續(xù)擴(kuò)散模型只能用一種叫做SDE(隨機(jī)微分方程)的隨機(jī)方法來估算困惑度,這種估算既不精確,也難以和離散擴(kuò)散模型做橫向比較。沒有好用的體檢儀器,就很難知道哪里出了問題,改進(jìn)就無從下手。

正是在這個(gè)背景下,伊利諾伊大學(xué)的團(tuán)隊(duì)重新審視了嵌入空間擴(kuò)散這條路,試圖從根子上解決這些問題。

二、用"流匹配"和"布雷格曼散度"重建理論地基

研究團(tuán)隊(duì)做的第一件事,是給嵌入空間擴(kuò)散建立一套更扎實(shí)的數(shù)學(xué)基礎(chǔ),而關(guān)鍵的突破口來自把它和"流匹配"(Flow Matching)聯(lián)系起來。

流匹配是一種相對(duì)較新的生成建模思路,核心想法是學(xué)習(xí)一個(gè)"速度場"——就像在地圖上標(biāo)注每個(gè)位置的風(fēng)向和風(fēng)速,讓粒子從隨機(jī)噪音出發(fā),順著這個(gè)風(fēng)場流動(dòng),最終抵達(dá)真實(shí)數(shù)據(jù)的分布。這個(gè)過程完全是確定性的,像一條筆直的管道而不是隨機(jī)游走的醉漢。

研究團(tuán)隊(duì)發(fā)現(xiàn),嵌入空間擴(kuò)散在數(shù)學(xué)上天然地和流匹配是同一回事——只是之前沒人明確指出這一點(diǎn)。更進(jìn)一步,他們把模型的訓(xùn)練目標(biāo)(即"交叉熵?fù)p失",通俗地說就是"預(yù)測正確詞的對(duì)數(shù)概率")和一個(gè)叫做"布雷格曼散度"的數(shù)學(xué)概念聯(lián)系了起來。

布雷格曼散度是一種衡量兩個(gè)概率分布之間差異的工具,交叉熵?fù)p失恰好是它的一個(gè)特例——選擇一個(gè)特定的凸函數(shù)(即負(fù)熵函數(shù)),布雷格曼散度就自然地退化為交叉熵。這個(gè)聯(lián)系意味著什么?意味著用交叉熵來訓(xùn)練嵌入空間擴(kuò)散模型,并不是一個(gè)隨便拍腦袋的選擇,而是有嚴(yán)格數(shù)學(xué)保證的最優(yōu)選擇:在給定噪音狀態(tài)的條件下,模型的預(yù)測會(huì)收斂到對(duì)真實(shí)詞分布的最佳后驗(yàn)估計(jì)。

換句話說,之前研究者們或多或少憑直覺用的訓(xùn)練方法,這次被證明是理論上最正確的那一條路。這就好比一個(gè)廚師多年來憑經(jīng)驗(yàn)調(diào)味,結(jié)果一位營養(yǎng)學(xué)家告訴他:你的調(diào)味比例恰好符合最優(yōu)健康配方的數(shù)學(xué)最優(yōu)解。

有了這個(gè)理論基礎(chǔ),研究團(tuán)隊(duì)還順?biāo)浦鄣赝茖?dǎo)出了一個(gè)重要的新工具:基于ODE(常微分方程)的負(fù)對(duì)數(shù)似然上界。這個(gè)工具專門用來估算連續(xù)擴(kuò)散模型的困惑度,而且用的是確定性的ODE路徑而非隨機(jī)的SDE路徑。這意味著:每次用同樣的模型和同樣的測試數(shù)據(jù),得到的困惑度估計(jì)都是一樣的、可復(fù)現(xiàn)的,而不像之前的SDE方法那樣每次算出來都略有不同。有了這把精準(zhǔn)的測量尺,研究者終于能清晰地看到模型訓(xùn)練到底好不好,也能和離散擴(kuò)散模型公平地比較了。

三、噪音安排的學(xué)問:為什么語言不能套用圖片的方案

理論地基打好了,研究團(tuán)隊(duì)開始審視第一個(gè)關(guān)鍵的工程設(shè)計(jì):噪音調(diào)度(noise schedule)。

擴(kuò)散模型的工作方式是把數(shù)據(jù)從"干凈"逐漸變成"嘈雜",再在生成時(shí)反過來從噪音慢慢恢復(fù)干凈。這個(gè)過程中,一個(gè)重要的問題是:噪音是如何一步步被加進(jìn)去的?加得快還是慢?在哪個(gè)階段加得多、哪個(gè)階段加得少?這套安排就叫"噪音調(diào)度"。

在圖像生成領(lǐng)域,最流行的噪音調(diào)度方案(比如Stable Diffusion 3采用的)是均勻地在時(shí)間步上分配噪音。研究團(tuán)隊(duì)一開始也照搬了這個(gè)做法,但他們畫出了一張圖,揭示了一個(gè)令人震驚的現(xiàn)象。

他們把模型在不同噪音水平下預(yù)測文字的損失值畫成曲線。結(jié)果發(fā)現(xiàn),當(dāng)時(shí)間步t處于0.2到1.0這個(gè)區(qū)間時(shí)——也就是噪音相對(duì)較小的那大半段時(shí)間——模型的損失幾乎是零。這意味著什么?意味著在這段時(shí)間里,模型已經(jīng)能輕而易舉地猜出正確的詞,完全不需要花力氣學(xué)習(xí)。然而,均勻的時(shí)間分配卻把超過一半的訓(xùn)練時(shí)間浪費(fèi)在了這個(gè)"沒有挑戰(zhàn)"的區(qū)域。

這就像一個(gè)音樂學(xué)生練鋼琴,老師設(shè)計(jì)了一個(gè)訓(xùn)練計(jì)劃,讓他花60%的時(shí)間練那些已經(jīng)爛熟于心的簡單音階,只有不到20%的時(shí)間練真正困難的高難度片段。這個(gè)計(jì)劃顯然非常低效。

問題的根源在于,文字?jǐn)?shù)據(jù)的性質(zhì)和圖片根本不同。圖片中的像素可以取連續(xù)的值,即使加了不少噪音,還是很難猜到原始顏色。但文字的目的地是離散的詞元——詞匯表中的那幾萬個(gè)詞是有限的"孤島",即使在相當(dāng)嘈雜的狀態(tài)下,模型也常常能根據(jù)語義線索猜出正確答案。

為了解決這個(gè)問題,研究團(tuán)隊(duì)引入了兩個(gè)改進(jìn)。

第一個(gè)改進(jìn)是更換時(shí)間編碼方式,從普通的時(shí)間步t切換到"對(duì)數(shù)噪信比"γ(gamma)。γ定義為噪音方差與信號(hào)方差之比取對(duì)數(shù),它的巧妙之處在于:當(dāng)噪信比在高噪音端呈指數(shù)級(jí)變化時(shí),γ只是線性地移動(dòng),相當(dāng)于把原本壓縮在一起的"困難區(qū)域"展開拉長,讓模型和訓(xùn)練計(jì)劃都能更精細(xì)地關(guān)注那些真正有挑戰(zhàn)的噪音水平。

第二個(gè)改進(jìn)更有趣,研究團(tuán)隊(duì)提出了"信息均勻原則"。他們的出發(fā)點(diǎn)是這樣的:擴(kuò)散過程本質(zhì)上是一個(gè)逐漸"消除不確定性"的過程——從完全隨機(jī)的噪音(什么詞都不知道)到完全確定的詞序列,每一步都在獲取信息。如果把每個(gè)噪音水平下模型的"不確定程度"(用信息熵來度量)畫出來,就會(huì)得到一條隨噪音減少而下降的曲線。這條曲線的斜率,就代表了"在這個(gè)噪音水平上,每改變一點(diǎn)噪音,能獲得多少新信息"。

信息均勻原則的意思是:讓每一步采樣(無論是訓(xùn)練還是生成)獲得的信息量盡可能相等。直覺上,這就像爬山時(shí)應(yīng)該把步子邁在最陡的地方——在信息增益最集中的區(qū)域多花力氣,在平坦區(qū)域快速通過。

那么,語言數(shù)據(jù)的信息增益集中在哪里呢?研究團(tuán)隊(duì)通過大量實(shí)驗(yàn),發(fā)現(xiàn)γ值的信息導(dǎo)數(shù)呈現(xiàn)出一個(gè)正偏態(tài)的分布,而且形狀與統(tǒng)計(jì)學(xué)中的"岡貝爾分布"(Gumbel distribution)高度吻合。岡貝爾分布是一種用于描述極值事件的概率分布,在這里它意外地成為了語言數(shù)據(jù)信息結(jié)構(gòu)的最佳描述。

更聰明的是,研究團(tuán)隊(duì)沒有把這個(gè)分布的參數(shù)固定下來,而是讓模型在訓(xùn)練過程中自己學(xué)習(xí)這些參數(shù)。因?yàn)殡S著訓(xùn)練的進(jìn)行,模型本身也在進(jìn)步,它在不同噪音水平下的困難程度會(huì)隨之改變,噪音調(diào)度也應(yīng)該跟著調(diào)整。這套自適應(yīng)的岡貝爾噪音調(diào)度器,把LangFlow的生成困惑度從約1000的災(zāi)難級(jí)別直接降到了154.2,效果可謂立竿見影。

四、自我條件化:一個(gè)被誤解的技巧

第二個(gè)關(guān)鍵設(shè)計(jì)問題是"自我條件化"(self-conditioning)。

自我條件化是擴(kuò)散模型中一個(gè)流行的小技巧,原理很簡單:在每一步去噪時(shí),模型不僅看當(dāng)前的噪音狀態(tài),還把上一步自己的預(yù)測結(jié)果也喂給自己作為參考。這就像一個(gè)偵探不僅看當(dāng)前的案發(fā)現(xiàn)場,還把自己之前整理的案情筆記放在旁邊對(duì)照參考,幫助做出更準(zhǔn)確的判斷。

在離散擴(kuò)散模型(比如MDLM)的研究中,自我條件化是個(gè)有些奇怪的存在:它確實(shí)能提升生成質(zhì)量(即生成困惑度 Gen.PPL 有所改善),但同時(shí)會(huì)讓模型對(duì)測試數(shù)據(jù)的擬合能力略有下降(即PPL略有升高)。正因?yàn)檫@個(gè)兩面性,離散擴(kuò)散的研究者們?cè)u(píng)估PPL時(shí)通常會(huì)關(guān)掉自我條件化,以免影響公平性。

然而,研究團(tuán)隊(duì)發(fā)現(xiàn),這個(gè)慣例被不加思索地沿用到了連續(xù)擴(kuò)散模型的評(píng)估中,而這是一個(gè)嚴(yán)重的錯(cuò)誤。

他們做了一組對(duì)比實(shí)驗(yàn),結(jié)果非常能說明問題。在沒有自我條件化的情況下,LangFlow的PPL是49.0,Gen.PPL是154.2。開啟自我條件化后,PPL直接降到30.0,Gen.PPL降到81.5。換句話說,自我條件化對(duì)連續(xù)擴(kuò)散的PPL改善幅度高達(dá)19個(gè)點(diǎn),而對(duì)離散擴(kuò)散MDLM,PPL反而微微上升了1.7。

這個(gè)不對(duì)稱性揭示了一個(gè)深刻的差異:在離散擴(kuò)散中,自我條件化給模型提供了過多的"捷徑",讓它過于依賴之前的預(yù)測,導(dǎo)致對(duì)測試數(shù)據(jù)的真實(shí)概率估計(jì)變差;而在連續(xù)擴(kuò)散中,自我條件化幫助模型在連續(xù)的嵌入空間中更好地校準(zhǔn)方向,既提升了生成質(zhì)量,也提升了概率估計(jì)的準(zhǔn)確性。

研究者用一個(gè)有趣的實(shí)驗(yàn)進(jìn)一步揭示了這個(gè)現(xiàn)象的機(jī)理。他們跟蹤了模型在不同噪音水平下對(duì)某個(gè)目標(biāo)詞("run")的預(yù)測概率變化。在沒有自我條件化的情況下,隨著噪音增大,模型的預(yù)測會(huì)逐漸從正確的"run"漂移到語義相關(guān)的"go",再到高頻的功能詞"is"、"and"、"the"——也就是說,模型在高噪音下會(huì)被高頻詞"磁場"所吸引,忘記了語義上的正確答案。自我條件化的介入,幫助模型在這個(gè)漂移過程中保持了更多的語義記憶,避免了這種"語義遺忘"現(xiàn)象。

這個(gè)發(fā)現(xiàn)的實(shí)踐意義是:如果你要公平地評(píng)估連續(xù)擴(kuò)散語言模型,必須在自我條件化開啟的狀態(tài)下進(jìn)行,否則你看到的只是一個(gè)被人為削弱了的版本。

五、最終成績單:連續(xù)擴(kuò)散第一次真正進(jìn)入競爭

把所有這些改進(jìn)整合在一起,LangFlow在標(biāo)準(zhǔn)語言模型基準(zhǔn)測試上交出了一份讓人眼前一亮的成績單。

在LM1B數(shù)據(jù)集(一個(gè)包含十億詞的英文新聞?wù)Z料庫)上,LangFlow的PPL達(dá)到30.0,躋身離散擴(kuò)散模型中最好的水平(MDLM為31.0),同時(shí)Gen.PPL為92.2,在同類連續(xù)擴(kuò)散方法中排名第二。在OpenWebText(一個(gè)大規(guī)模網(wǎng)絡(luò)文本數(shù)據(jù)集,文本多樣性更高)上,LangFlow的PPL達(dá)到24.6,Gen.PPL僅為36.5,這個(gè)Gen.PPL成績?cè)谒袛U(kuò)散模型中排名第一,甚至比之前最好的連續(xù)擴(kuò)散方法Duo低了整整41個(gè)點(diǎn)。

更有說服力的是零樣本遷移測試。所謂零樣本遷移,就是把在OpenWebText上訓(xùn)練好的模型,直接搬到完全沒見過的七個(gè)不同類型的測試數(shù)據(jù)集上評(píng)估(包括新聞、學(xué)術(shù)論文、百科全書、對(duì)話等)。LangFlow在這七個(gè)基準(zhǔn)中的四個(gè)上超越了經(jīng)典的自回歸Transformer(即逐詞生成的傳統(tǒng)語言模型),同時(shí)在三個(gè)基準(zhǔn)上超越了離散擴(kuò)散領(lǐng)域的頂尖模型MDLM。自回歸Transformer向來是語言模型領(lǐng)域的"默認(rèn)優(yōu)勝者",連續(xù)擴(kuò)散能在多個(gè)任務(wù)上打贏它,這在歷史上是第一次。

研究團(tuán)隊(duì)還專門對(duì)比了另一個(gè)連續(xù)擴(kuò)散基線模型Plaid,并發(fā)現(xiàn)了一個(gè)重要的技術(shù)警示。Plaid使用均方誤差(MSE,即直接最小化預(yù)測嵌入向量和真實(shí)嵌入向量的距離)作為主要訓(xùn)練目標(biāo),而非交叉熵。研究團(tuán)隊(duì)通過可視化詞嵌入的"最近鄰距離"發(fā)現(xiàn),Plaid的詞嵌入發(fā)生了嚴(yán)重的"坍縮"現(xiàn)象——不同詞的向量在空間中擠在一起,彼此幾乎無法區(qū)分,Plaid的平均最近鄰距離僅為0.058,而AR模型是1.211,MDLM是1.124,LangFlow是0.877。這種坍縮現(xiàn)象會(huì)嚴(yán)重限制模型的表達(dá)能力,解釋了為什么Plaid在LM1B上表現(xiàn)尚可,但在更大規(guī)模的零樣本遷移任務(wù)上遠(yuǎn)遠(yuǎn)落后。

在采樣效率方面,研究團(tuán)隊(duì)也做了不同步驟數(shù)下的測試。LangFlow在128步時(shí)Gen.PPL為92.24,在64步時(shí)上升到104.83,32步時(shí)127.32,16步時(shí)179.60。隨著步驟減少,性能確實(shí)有所下降,但這是在沒有任何專門的少步訓(xùn)練優(yōu)化(即"蒸餾")的情況下直接減步的結(jié)果,說明LangFlow本身已經(jīng)具備了較好的采樣魯棒性,未來通過專門的少步加速訓(xùn)練有望進(jìn)一步改善。

說到底,LangFlow這項(xiàng)工作的意義不只是刷新了一個(gè)數(shù)字。它做了一件更根本的事:給嵌入空間連續(xù)擴(kuò)散語言模型重新建立了一套清晰的理論框架和工程規(guī)范。過去,連續(xù)擴(kuò)散語言模型的研究者們各自為戰(zhàn),用著不同的訓(xùn)練目標(biāo)、不同的評(píng)估方式、不同的噪音調(diào)度,結(jié)果難以比較,進(jìn)展也難以積累。LangFlow相當(dāng)于為這個(gè)領(lǐng)域立了一套統(tǒng)一的"行業(yè)標(biāo)準(zhǔn)":用基于布雷格曼散度的交叉熵訓(xùn)練、用ODE路徑估算PPL、用岡貝爾分布做噪音調(diào)度、開啟自我條件化做評(píng)估。

有了這套標(biāo)準(zhǔn),后來的研究者可以站在更高的起點(diǎn)上繼續(xù)探索。連續(xù)擴(kuò)散語言模型還有很多可以挖掘的空間——比如它天然支持的"軌跡編輯"(在生成過程中修改中間狀態(tài),實(shí)現(xiàn)可控生成)、與流匹配蒸餾技術(shù)結(jié)合后可能實(shí)現(xiàn)的極速生成,以及嵌入空間本身帶來的更豐富的語義干預(yù)能力。這些方向,離散擴(kuò)散由于其離散性質(zhì),天然地很難實(shí)現(xiàn);而連續(xù)擴(kuò)散,在LangFlow打好地基之后,終于可以認(rèn)真地去探索這些獨(dú)有的優(yōu)勢了。

研究團(tuán)隊(duì)也坦誠地指出了目前的局限:LangFlow生成文本的多樣性(用信息熵衡量)略低于一些離散擴(kuò)散基線,說明模型在生成時(shí)有一定程度的頻率偏向,傾向于重復(fù)使用某些內(nèi)容詞。有趣的是,這種重復(fù)不是那種讓人讀起來很別扭的局部重復(fù)(同一句話里連續(xù)出現(xiàn)),而是一個(gè)詞在整段文本中出現(xiàn)了十來次但分散在各處——從閱讀體驗(yàn)來看,并沒有明顯的質(zhì)量下降。不過,這種頻率偏向在更大規(guī)模的實(shí)驗(yàn)中可能會(huì)產(chǎn)生更明顯的影響,這是留給未來研究的一個(gè)開放問題。

歸根結(jié)底,這項(xiàng)研究想證明的,是連續(xù)擴(kuò)散和離散擴(kuò)散并不是非此即彼的對(duì)手關(guān)系,而是可以并肩作戰(zhàn)的兩種工具。離散擴(kuò)散有其簡潔和精準(zhǔn),連續(xù)擴(kuò)散有其靈活和可塑。LangFlow首次讓連續(xù)擴(kuò)散站在了同一條起跑線上,接下來這場競賽,才真正開始。

Q&A

Q1:LangFlow和現(xiàn)在常見的ChatGPT這類語言模型有什么區(qū)別?

A:ChatGPT屬于自回歸語言模型,生成文字時(shí)是逐詞從左到右順序生成的,就像一筆一劃寫字。LangFlow屬于擴(kuò)散模型,是從一團(tuán)噪音出發(fā),同時(shí)對(duì)整段文字反復(fù)"雕刻"直到得到清晰結(jié)果,生成過程是并行的、可雙向修改的。自回歸模型目前在效果上仍有優(yōu)勢,但擴(kuò)散模型在可控性和編輯靈活性上有獨(dú)特潛力。

Q2:LangFlow中提到的困惑度(PPL)到底是什么,數(shù)值越低越好嗎?

A:困惑度是衡量語言模型"有多懂語言"的一個(gè)指標(biāo),直覺上可以理解為:如果讓模型猜一句話里下一個(gè)詞是什么,它平均要從多少個(gè)候選詞里才能猜對(duì)——這個(gè)數(shù)越小,說明模型越確定、越準(zhǔn)確。所以困惑度數(shù)值越低越好。LangFlow在LM1B數(shù)據(jù)集上達(dá)到了30.0,和最好的離散擴(kuò)散模型持平。

Q3:LangFlow中的岡貝爾分布噪音調(diào)度是什么意思,為什么選它?

A:岡貝爾分布是一種統(tǒng)計(jì)學(xué)上常用于描述極端值分布的概率分布,形狀是正偏態(tài)的(即右邊有長尾)。研究團(tuán)隊(duì)發(fā)現(xiàn),語言數(shù)據(jù)在不同噪音水平下"信息增益"的分布曲線恰好和岡貝爾分布吻合——大部分有價(jià)值的信息集中在一個(gè)特定的噪音區(qū)間,這個(gè)區(qū)間左邊平坦、右邊迅速衰減。用岡貝爾分布來安排訓(xùn)練時(shí)的噪音采樣,就能讓模型把更多注意力放在真正"困難且有價(jià)值"的噪音水平上,避免浪費(fèi)訓(xùn)練資源。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
NBA官方:弗拉格當(dāng)選年度最佳新秀 成獨(dú)行俠隊(duì)史第三位獲獎(jiǎng)?wù)?>
    </a>
        <h3>
      <a href=羅說NBA
2026-04-28 07:21:45
遼寧男籃1-0山東,郭艾倫一針見血道出遼籃內(nèi)線強(qiáng)大優(yōu)勢

遼寧男籃1-0山東,郭艾倫一針見血道出遼籃內(nèi)線強(qiáng)大優(yōu)勢

赫岝鄉(xiāng)村攝影
2026-04-29 03:34:08
一場1:1驗(yàn)出海歸小將真成色 邵佳一發(fā)現(xiàn)新寶藏 國足鋒線又添猛人

一場1:1驗(yàn)出海歸小將真成色 邵佳一發(fā)現(xiàn)新寶藏 國足鋒線又添猛人

零度眼看球
2026-04-28 06:46:34
阿聯(lián)酋退出歐佩克,直接讓全球能源圈來了個(gè)大震蕩!

阿聯(lián)酋退出歐佩克,直接讓全球能源圈來了個(gè)大震蕩!

利刃號(hào)
2026-04-28 22:23:41
7年敗光2億!鄒市明冉瑩穎共同發(fā)文:二人最終還是邁出了這一步!

7年敗光2億!鄒市明冉瑩穎共同發(fā)文:二人最終還是邁出了這一步!

拳擊時(shí)空
2026-04-16 06:04:48
世錦賽:趙心童連敗5局,黑馬激戰(zhàn)25局驚險(xiǎn)晉級(jí)唯一

世錦賽:趙心童連敗5局,黑馬激戰(zhàn)25局驚險(xiǎn)晉級(jí)唯一

小犙拍客在北漂
2026-04-29 03:02:30
21歲擊敗王菲的童顏巨乳富婆,巔峰期卻選擇主動(dòng)過氣

21歲擊敗王菲的童顏巨乳富婆,巔峰期卻選擇主動(dòng)過氣

悠悠說世界
2026-04-25 14:03:58
賴清德做夢都沒想到,鄭麗文的丈夫早被策反,臺(tái)獨(dú)情侶變統(tǒng)一夫妻

賴清德做夢都沒想到,鄭麗文的丈夫早被策反,臺(tái)獨(dú)情侶變統(tǒng)一夫妻

小楊侃事
2026-04-12 09:40:51
中央政治局會(huì)議穩(wěn)定軍心!兩天內(nèi)A股大盤將向上變盤!誰能領(lǐng)漲?

中央政治局會(huì)議穩(wěn)定軍心!兩天內(nèi)A股大盤將向上變盤!誰能領(lǐng)漲?

丁丁鯉史紀(jì)
2026-04-28 18:24:04
豆包提前查到事業(yè)編成績單,全網(wǎng)炸了!

豆包提前查到事業(yè)編成績單,全網(wǎng)炸了!

互聯(lián)網(wǎng)品牌官
2026-04-27 18:11:08
臺(tái)灣政壇徹底炸鍋!

臺(tái)灣政壇徹底炸鍋!

安安說
2026-04-28 10:56:05
聯(lián)想把用了20年的BIOS供應(yīng)商買回家了

聯(lián)想把用了20年的BIOS供應(yīng)商買回家了

薛定諤的BUG
2026-04-27 22:37:44
賴清德向大陸喊話,林佳龍返臺(tái):機(jī)場大言不慚!解放軍打獨(dú)大動(dòng)作

賴清德向大陸喊話,林佳龍返臺(tái):機(jī)場大言不慚!解放軍打獨(dú)大動(dòng)作

共工之錨
2026-04-28 15:40:37
遼寧省委書記、省長等共同巡看夜經(jīng)濟(jì)市集

遼寧省委書記、省長等共同巡看夜經(jīng)濟(jì)市集

蘭妮搞笑分享
2026-04-29 00:11:17
白鹿《跑男》發(fā)言引全網(wǎng)聲討,節(jié)目收視率刷新低

白鹿《跑男》發(fā)言引全網(wǎng)聲討,節(jié)目收視率刷新低

海外散修厲飛雨
2026-04-27 17:50:27
和前夫分道揚(yáng)鑣后,她和9歲女兒相依為命,如今又成粉絲的意難平

和前夫分道揚(yáng)鑣后,她和9歲女兒相依為命,如今又成粉絲的意難平

翰飛觀事
2026-04-26 14:55:41
帕勞通告全球,拒與臺(tái)灣“斷交”!話音剛落,大陸宣布統(tǒng)一后安排

帕勞通告全球,拒與臺(tái)灣“斷交”!話音剛落,大陸宣布統(tǒng)一后安排

厲羽萱
2026-04-29 00:28:09
為什么男人每次偷情要開房,女人每次偷情都在車?yán)锬兀?>
    </a>
        <h3>
      <a href=思絮
2026-04-28 10:25:11
別再吹天生美貌!朱珠真實(shí)原生臉曝光,整容前后差距一目了然

別再吹天生美貌!朱珠真實(shí)原生臉曝光,整容前后差距一目了然

小娛樂悠悠
2026-04-27 09:21:13
5月1日正式開刀!3萬就立案,所有打工人都要警惕

5月1日正式開刀!3萬就立案,所有打工人都要警惕

洞見小能手
2026-04-27 21:17:44
2026-04-29 04:47:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8183文章數(shù) 563關(guān)注度
往期回顧 全部

科技要聞

10億周活目標(biāo)落空!傳OpenAI爆發(fā)內(nèi)部分歧

頭條要聞

19歲中國女孩被困緬甸 交20萬贖金園區(qū)仍未放人

頭條要聞

19歲中國女孩被困緬甸 交20萬贖金園區(qū)仍未放人

體育要聞

魔術(shù)黑八活塞,一步之遙?!

娛樂要聞

蔡卓妍官宣結(jié)婚,老公比她小10歲

財(cái)經(jīng)要聞

中央政治局會(huì)議定調(diào),八大看點(diǎn)速覽!

汽車要聞

拒絕瘋狂套娃!現(xiàn)代艾尼氪金星長在未來審美點(diǎn)上

態(tài)度原創(chuàng)

健康
藝術(shù)
游戲
家居
教育

干細(xì)胞治療燒燙傷三大優(yōu)勢!

藝術(shù)要聞

京東浙江總部公示,99.99米高,中國第一民企落子民營大??!

這不爽翻了?曝PS6或能穩(wěn)穩(wěn)運(yùn)行60幀+光追的游戲畫面

家居要聞

江景風(fēng)格 流動(dòng)的秩序

教育要聞

教育部通知,今年9月份開始,上學(xué)的規(guī)則全變了

無障礙瀏覽 進(jìn)入關(guān)懷版