国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

哈布斯堡AI的詛咒:合成數(shù)據(jù)遞歸下的模型坍縮

0
分享至

枯竭的數(shù)字富礦

過去十年,AI大模型之所以能大力出奇跡,是依托于互聯(lián)網(wǎng)上幾十年來全人類積累的、充滿粗糙生命力的高質(zhì)量原始語料(百科、學(xué)術(shù)文獻(xiàn)、甚至論壇里人類互噴的黑話)。AI像一臺貪婪的采礦機,迅速榨干了這些富礦。

到了今天,大模型研發(fā)最尷尬的現(xiàn)狀是:人類攢了幾千年的高質(zhì)量語料,已經(jīng)被這幾年的 Scaling Laws 翻來覆去吃了個干凈。高質(zhì)量的原始數(shù)據(jù)很快成了稀缺資源。為了讓模型性能繼續(xù)提升,研發(fā)者們不得不嘗試一件以前覺得荒唐的事,用 AI 生成的數(shù)據(jù),去喂養(yǎng)下一代 AI


隨之而來的,是一場被稱為模型崩潰的賽博瘟疫。

合成數(shù)據(jù)在AI界的興起

在 AI 還沒這么火之前,合成數(shù)據(jù)(Synthetic Data)在業(yè)界其實早就扮演起了高級數(shù)字替身的角色。

它的本質(zhì)是統(tǒng)計學(xué)中的分布采樣。最早,它是為了解決那些想用數(shù)據(jù)卻不敢用或根本沒數(shù)據(jù)的尷尬場景,在醫(yī)療與金融領(lǐng)域尤其突顯:銀行和醫(yī)院想訓(xùn)練算法,但原始數(shù)據(jù)涉及用戶隱私,無法直接用患者的數(shù)據(jù)訓(xùn)練模型。于是統(tǒng)計學(xué)家用借助生成對抗網(wǎng)絡(luò)(GANs)或變分自編碼器(VAEs)捕捉原始數(shù)據(jù)的協(xié)方差矩陣和邊際分布,生成一套在統(tǒng)計學(xué)特性上幾乎真假難辨的模擬數(shù)據(jù)。


GAN的核心是對抗訓(xùn)練,生成器從噪聲中偽造數(shù)據(jù),再讓判別器不斷分辨真假,二者反復(fù)博弈直到生成器能完美模仿真實分布;VAE則是通過編碼器將數(shù)據(jù)壓縮到 latent space,再由解碼器生成新樣本,強調(diào)概率建模。兩者都能在不泄露具體隱私的前提下,保留數(shù)據(jù)的統(tǒng)計學(xué)骨架(均值、方差、相關(guān)性等都與真實數(shù)據(jù)一致)。


▲ 圖 / GAN的核心對抗訓(xùn)練機制

類似地, 合成數(shù)據(jù)在 自動駕駛與機器人領(lǐng)域也早已大顯身手 。 你不可能為了訓(xùn)練避障讓真車實打?qū)嵶惨蝗f次墻,于是工程師在CARLA、Unreal Engine等模擬器中生成海量合成數(shù)據(jù),先在虛擬世界完成訓(xùn)練,再通過Sim-to-Real路徑遷移到現(xiàn)實。在計算機視覺任務(wù)中,合成數(shù)據(jù)還常被用于數(shù)據(jù)增強,幫助平衡那些樣本極少的罕見類別(如罕見病癥圖像)。


隨著大模型時代的到來,合成數(shù)據(jù)的角色發(fā)生了質(zhì)的飛躍。它不再僅僅是原始數(shù)據(jù)的統(tǒng)計模擬,而是搖身一變,成了一種邏輯蒸餾的燃料。

最早吃到甜頭的是微軟。2023年,他們讓GPT-4這樣的頂級模型生成干凈、邏輯嚴(yán)密的合成教材,然后拿去訓(xùn)練Phi系列小模型。結(jié)果意外地發(fā)現(xiàn),這些吃精糧的小模型表現(xiàn)竟然全面反超了那些靠互聯(lián)網(wǎng)臟數(shù)據(jù)長大的大模型。他們因此喊出了那句后來廣為流傳的口號:Textbooks Are All You Need!


事實上,合成數(shù)據(jù)已在AI多領(lǐng)域大放異彩:指令微調(diào)中,Self-Instruct方法讓模型自我生成高質(zhì)量指令-響應(yīng)對,催生了Alpaca等高效小模型;在代碼推理,合成問題+逐步思考(CoT)軌跡顯著提升了o1-like模型的鏈?zhǔn)酵评砟芰Γ欢嗄B(tài)AI中,合成圖像+精準(zhǔn)標(biāo)注用于訓(xùn)練視覺-語言模型(如CLIP變體);強化學(xué)習(xí)與機器人中,合成軌跡數(shù)據(jù)加速了策略優(yōu)化,避免了真實世界的高昂試錯成本,……

這一連串成功仿佛印證了一種妄念:只要算力足夠,數(shù)據(jù)不再是瓶頸。合成數(shù)據(jù)又便宜、又干凈、還能無限量供應(yīng),那為什么還要繼續(xù)翻那些充滿口水話和邏輯漏洞的人類語料區(qū)呢?


然而,這種數(shù)字興奮劑帶來的短期紅利,很快就招致了統(tǒng)計學(xué)意義上的反噬。

模式坍縮:提純的反噬

當(dāng)這種用AI訓(xùn)練AI的模式從微調(diào)擴散到全量預(yù)訓(xùn)練時,崩壞開始了。

2024 年,牛津與劍橋團隊在《Nature》上發(fā)表了一項重磅實驗,擊碎了把合成數(shù)據(jù)當(dāng)永動機的幻想。 研究者做了一個遞歸實驗:先用真實人類數(shù)據(jù)訓(xùn)練出第 0 代模型,然后讓它生成合成數(shù)據(jù),再去訓(xùn)練下一代,以此類推。

他們特意選取了一個知識邊界清晰的主題:英國中世紀(jì)教堂建筑,作為測試案例,以觀察遞歸的內(nèi)容的逐代變化過程。

第 0 代: 邏輯嚴(yán)密,能準(zhǔn)確描述石材、拱頂和建筑風(fēng)格。

第 5 代: 語義邊界開始模糊。開始把教堂的石材和周圍的自然風(fēng)景搞混,描述變得模棱兩可。

第 9 代:開始整頁整頁地重復(fù)一段毫無意義的亂碼:“長耳大野兔(Jackrabbits)有黑色、白色的毛發(fā)……野兔的尾巴……”

真正的邏輯熔斷發(fā)生在第 9 代。此時模型已經(jīng)徹底放棄了關(guān)于建筑的討論,轉(zhuǎn)而開始整頁重復(fù)一段關(guān)于長耳大野兔毛色的亂碼。這種崩潰不是緩慢的性能下降,而是在某個臨界點突然發(fā)生的模式坍縮。


▲ 圖 / 《Nature》2024模型崩潰論文

在遞歸過程中,模型在每一代演進(jìn)中都會丟失一點真實世界的復(fù)雜性,最終因為這種智力層面的近親繁殖,徹底陷入了自我重復(fù)的癲狂。

這種現(xiàn)象被戲稱為哈布斯堡 AI(Habsburg AI),正如歷史上那個因近親繁殖導(dǎo)致下巴畸形、家族絕嗣的歐洲皇室,當(dāng)模型試圖在影子的影子里尋找規(guī)律時,原本人類語料中那些充滿起伏的噪聲:那些細(xì)膩的比喻、生僻的文化符號以及獨特的表達(dá),被層層疊加的概率均值無情抹除。直到某個微小的隨機誤差在遞歸中被不斷放大,整個概率分布最終滑向一個極窄的死胡同里,也就是那段關(guān)于野兔的廢話。

消失的長尾

這種崩潰并非偶然,而是合成數(shù)據(jù)遞歸訓(xùn)練的必然結(jié)果,它的根源隱藏在數(shù)據(jù)分布的逐步坍縮之中。


AI 模型本質(zhì)上是一個概率擬合機。

當(dāng)它在擬合人類數(shù)據(jù)分布時,為了最小化經(jīng)驗風(fēng)險,總是優(yōu)先傾向于捕捉那些高頻出現(xiàn)的平均模式,而丟棄那些低頻的長尾分布,也就是那些罕見表達(dá)、獨特的比喻、甚至是一些口誤。

在單次生成中,這種去噪機制讓輸出顯得更流暢穩(wěn)健,更符合常識。但在多代遞歸訓(xùn)練中成了致命傷。第一代合成數(shù)據(jù)可能只是抹除了人類語言中的瑕疵,到了第二代,第三代…… 每一代都在上一代的基礎(chǔ)上繼續(xù)趨于平庸化。


▲ 圖 /合成數(shù)據(jù)遞歸訓(xùn)練下的方差坍縮

從核密度估計(KDE)的視角來看,每一次用近似分布去擬合上一個分布,尾部概率都會被進(jìn)一步削平,這種對尾部的系統(tǒng)性低估像雪球般不斷累積,最終驅(qū)使整個數(shù)據(jù)分布的方差坍縮,分布越來越集中在均值附近,誤差棒逐漸收斂,直至長尾徹底消失。

模型就像一個患有數(shù)字潔癖的怪物,極度厭惡人類數(shù)據(jù)里的粗糙與不確定性,一心想要提純出一套完美規(guī)律,結(jié)果反而親手扼殺了智能賴以生存的多樣性。

這一遞歸過程可被精確建模為離散時間馬爾可夫鏈在token序列狀態(tài)空間上的演化。由于每一代合成數(shù)據(jù)都在系統(tǒng)性地壓縮分布的支撐集,生成分布的香農(nóng)熵持續(xù)單調(diào)下降,最終概率質(zhì)量不可逆地收斂至一個或少數(shù)幾個吸收態(tài)。一旦落入這些吸收態(tài),模型便徹底喪失進(jìn)一步演化的可能性,只能永久鎖定在高度重復(fù)的固定模式中。就像那只實驗中反復(fù)出現(xiàn)的“長耳大野兔”,成為系統(tǒng)抵達(dá)這一數(shù)學(xué)終點的必然體現(xiàn)。

這也揭示了,過度的一致性正是退化的序幕。如果一個系統(tǒng)只允許最正確的信號存在,那么它最終只能通向虛無。

對抗虛無的解藥


在柏拉圖的寓言里,囚徒們背對著出口,通過觀察墻上的影子來理解現(xiàn)實。

AI時代的困境如出一轍。

當(dāng)我們用投影去訓(xùn)練下一代模型,AI 實際上是在觀察“影子的影子”。工程師厭惡的數(shù)據(jù)噪聲,同時也是寶貴的不確定性。沒有了來自物理世界的、臟兮兮的原生采樣,純數(shù)字的虛擬閉環(huán)最終只會走向熱寂。秩序往往只是概率的偶然,而那些粗糙的、充滿生命力的不完美,才是對抗數(shù)字虛無的唯一火種。

end

參考文獻(xiàn):

Shumailov (2024). AI models collapse when trained on recursively generated data.

[2] Gunasekar, S. et al. (2023). Textbooks are all you need. arXiv:2306.11644.

[3] Goodfellow, I. et al. (2014).

NeurIPS 2014.

Generative adversarial nets. 2

[4] Gerstgrasser, M. et al. (2024). Is model collapse inevitable? Breaking the curse of recursion by accumulating real and synthetic data. arXiv:2404.01413.

來源:DataCafe

編輯:LogicMoriaty

轉(zhuǎn)載內(nèi)容僅代表作者觀點

不代表中科院物理所立場

如需轉(zhuǎn)載請聯(lián)系原公眾號

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
艾頓22+10+3無緣今日最佳!對不起,你碰到暴走的卡佩拉了

艾頓22+10+3無緣今日最佳!對不起,你碰到暴走的卡佩拉了

世界體育圈
2026-04-13 11:41:49
凈利大增2000%股價卻不到10元!主力悄悄建倉,速看

凈利大增2000%股價卻不到10元!主力悄悄建倉,速看

慧眼看世界哈哈
2026-04-13 13:25:56
條件超棒的業(yè)界新人鈴木希

條件超棒的業(yè)界新人鈴木希

吃瓜黨二號頭目
2026-04-13 09:43:34
華為把折疊屏"橫著走"了,Pura X Max今天開訂

華為把折疊屏"橫著走"了,Pura X Max今天開訂

Ping值焦慮
2026-04-13 10:55:28
伊朗伊斯蘭革命衛(wèi)隊海軍發(fā)出警告

伊朗伊斯蘭革命衛(wèi)隊海軍發(fā)出警告

財聯(lián)社
2026-04-12 22:23:06
匈牙利選舉落幕:歐爾班承認(rèn)大?。《砹_斯再輸一城

匈牙利選舉落幕:歐爾班承認(rèn)大?。《砹_斯再輸一城

項鵬飛
2026-04-13 16:09:46
年薪2000萬歐元!菲力克斯“大腿級”發(fā)揮,22球15助攻帶C羅爭冠

年薪2000萬歐元!菲力克斯“大腿級”發(fā)揮,22球15助攻帶C羅爭冠

籃球看比賽
2026-04-13 10:55:31
行程結(jié)束,鄭麗文返回臺灣,下飛機后講出3句話,賴清德終于怕了

行程結(jié)束,鄭麗文返回臺灣,下飛機后講出3句話,賴清德終于怕了

風(fēng)流女漢
2026-04-13 08:12:13
文章上海面館受追捧,一碗面32元引熱議,食客稱價格不貴很親民

文章上海面館受追捧,一碗面32元引熱議,食客稱價格不貴很親民

扒蝦侃娛
2026-04-13 12:51:13
活久見!網(wǎng)傳廣東一租客將價值30元沙金項鏈留屋,房東爽快退押金

活久見!網(wǎng)傳廣東一租客將價值30元沙金項鏈留屋,房東爽快退押金

阿離家居
2026-04-13 12:18:26
中紀(jì)委點名反腐,這七大領(lǐng)域?qū)⒂瓉碚D風(fēng)暴

中紀(jì)委點名反腐,這七大領(lǐng)域?qū)⒂瓉碚D風(fēng)暴

細(xì)說職場
2026-04-12 14:14:00
亞錦賽2場決賽被取消!安洗瑩社媒發(fā)文,石宇奇定下奧運金牌目標(biāo)

亞錦賽2場決賽被取消!安洗瑩社媒發(fā)文,石宇奇定下奧運金牌目標(biāo)

排球黃金眼
2026-04-12 23:55:21
中央明確了!社保最低繳費年限要提高,70、80后得早做準(zhǔn)備

中央明確了!社保最低繳費年限要提高,70、80后得早做準(zhǔn)備

云鵬敘事
2026-04-12 16:36:39
英國官員:特朗普的言論讓英美關(guān)系緊張

英國官員:特朗普的言論讓英美關(guān)系緊張

新京報
2026-04-12 16:35:07
歐爾班敗選,匈牙利人民選擇了歐洲

歐爾班敗選,匈牙利人民選擇了歐洲

劉耘博士
2026-04-13 11:12:17
廣東終結(jié)廣廈主場18連勝!杜鋒卻遭質(zhì)疑,媒體人怒了:到底想干嘛

廣東終結(jié)廣廈主場18連勝!杜鋒卻遭質(zhì)疑,媒體人怒了:到底想干嘛

萌蘭聊個球
2026-04-13 09:10:16
“梅姨”被指除9名男生還拐過3名女孩,“梅姨案”延長偵查期限;實探“梅姨”生活過的村莊:與鐘彬被賣地僅相距約40公里

“梅姨”被指除9名男生還拐過3名女孩,“梅姨案”延長偵查期限;實探“梅姨”生活過的村莊:與鐘彬被賣地僅相距約40公里

揚子晚報
2026-04-13 15:36:22
大范圍持續(xù)性高溫天氣,局地達(dá)到40℃以上,海南:熱到荔枝都自閉了

大范圍持續(xù)性高溫天氣,局地達(dá)到40℃以上,海南:熱到荔枝都自閉了

極目新聞
2026-04-13 10:55:21
巴大批戰(zhàn)機抵達(dá)沙特,阿聯(lián)酋王儲坐不住了,火速訪華尋“定心丸”

巴大批戰(zhàn)機抵達(dá)沙特,阿聯(lián)酋王儲坐不住了,火速訪華尋“定心丸”

民間胡扯老哥
2026-04-13 01:55:15
你在無意中發(fā)現(xiàn)別人什么秘密?網(wǎng)友爆料,電視劇都不敢這樣演

你在無意中發(fā)現(xiàn)別人什么秘密?網(wǎng)友爆料,電視劇都不敢這樣演

夜深愛雜談
2026-03-16 22:21:03
2026-04-13 17:52:49
中科院物理所 incentive-icons
中科院物理所
愛上物理,改變世界。
10061文章數(shù) 136520關(guān)注度
往期回顧 全部

科技要聞

"抄作業(yè)"近四年,馬斯克版微信周五上線

頭條要聞

媒體:美伊馬拉松談判后 還是就一件事達(dá)成了共識

頭條要聞

媒體:美伊馬拉松談判后 還是就一件事達(dá)成了共識

體育要聞

一支球隊不夠爛,也是一種悲哀

娛樂要聞

賈玲減重后現(xiàn)身馮鞏生日宴 身材未反彈

財經(jīng)要聞

起底AI"造黃"灰產(chǎn):19.9元"一鍵脫衣"

汽車要聞

不止命名更純粹 領(lǐng)克10/10+要做純電操控新王

態(tài)度原創(chuàng)

旅游
親子
數(shù)碼
時尚
手機

旅游要聞

千城百縣看中國·賞花季|福建德化:風(fēng)中花田

親子要聞

分齡護齒的牙膏,推薦兔頭媽媽

數(shù)碼要聞

蘋果智能眼鏡據(jù)悉已進(jìn)入密集測試階段 預(yù)計2027年亮相

這些才是普通人借鑒的穿搭!上短下長、上窄下寬,顯瘦又舒適

手機要聞

李楠談各品牌Ultra賣不動的原因,稱任何功能都有邊際效用遞減

無障礙瀏覽 進(jìn)入關(guān)懷版