国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

喂垃圾數(shù)據(jù)=毀模型?最新研究:AI 腦腐不可逆,清洗也救不了

0
分享至


大數(shù)據(jù)文摘出品

最近,德州農(nóng)工大學(xué)與德州大學(xué)奧斯汀分校的研究團(tuán)隊(duì),在論文中提出一個(gè)結(jié)論:大模型可能會(huì)“腦腐”。

他們稱之為“LLM Brain Rot Hypothesis”,意指當(dāng)模型長(zhǎng)期暴露在低質(zhì)量網(wǎng)絡(luò)文本中時(shí),其認(rèn)知能力會(huì)持續(xù)退化,并表現(xiàn)出與人類“信息上癮”相似的癥狀。

研究團(tuán)隊(duì)在論文中指出,這種退化不是臨時(shí)的,而是深層、持久、且難以修復(fù)的結(jié)構(gòu)性損傷

與人類的“腦腐”類似,模型的癥狀包括注意力衰退、推理鏈斷裂、長(zhǎng)期記憶混亂、以及性格傾向扭曲。

他們的核心發(fā)現(xiàn)是:持續(xù)在垃圾數(shù)據(jù)上預(yù)訓(xùn)練,會(huì)讓模型永久變笨。


在受污染的模型中,邏輯推理準(zhǔn)確率下降超過20個(gè)百分點(diǎn),長(zhǎng)文本理解下降幅度可達(dá)40%。

甚至,在心理人格測(cè)試中,模型出現(xiàn)了“自戀”“精神病傾向”等特征。

實(shí)驗(yàn)如何驗(yàn)證“腦腐”:從推文到推理

論文設(shè)計(jì)了一個(gè)極具象征意義的實(shí)驗(yàn):讓模型“沉迷社交媒體”。

研究者從Twitter(現(xiàn)X平臺(tái))采集了上百萬(wàn)條推文,按兩種方式劃分“垃圾內(nèi)容”。

第一種是M1:互動(dòng)度維度——短且高熱度的內(nèi)容,被視為典型的“快感型垃圾”。

第二種是M2:語(yǔ)義質(zhì)量維度——內(nèi)容空洞、煽動(dòng)性強(qiáng)、使用標(biāo)題黨詞匯或夸張情緒的文字。

團(tuán)隊(duì)用這兩類數(shù)據(jù)分別對(duì)四個(gè)主流開源模型(包括Llama3與Qwen系列)進(jìn)行持續(xù)預(yù)訓(xùn)練,并以干凈語(yǔ)料作為對(duì)照組。

結(jié)果令人震驚。在M1條件下,模型在ARC推理測(cè)試中的表現(xiàn)從74.9分驟降至57.2分,長(zhǎng)文本檢索任務(wù)RULER的得分則從84.4降至52.3。

也就是說,“越刷短內(nèi)容,越失去思考能力。”


圖注:數(shù)據(jù)顯示“腦腐化”內(nèi)容往往更短、更受歡迎但語(yǔ)義質(zhì)量低,人類與GPT對(duì)語(yǔ)義質(zhì)量的判斷高度一致。

研究者將這種衰退模式稱為“劑量響應(yīng)”:垃圾數(shù)據(jù)比例越高,能力退化越明顯。

更進(jìn)一步,他們分析了模型的思考過程,發(fā)現(xiàn)最主要的“病灶”是,思維跳步(Thought-skipping)。

模型在推理時(shí)往往不再展開完整思考,而是直接跳過中間推理鏈,草率給出結(jié)論。

這種行為被稱為“認(rèn)知短路”,類似人類沉迷短視頻后的專注力下降。


作者用四類基準(zhǔn)(ARC、RULER、HH-RLHF/AdvBench、TRAIT)來評(píng)估大模型的推理、記憶與多任務(wù)、倫理規(guī)范及人格傾向等認(rèn)知功能。

退化不可逆:清洗與微調(diào)都救不了

論文進(jìn)一步分析了退化的內(nèi)部模式。主要發(fā)現(xiàn)是,垃圾數(shù)據(jù)訓(xùn)練后模型出現(xiàn)推理鏈中斷(thought-skipping)現(xiàn)象。

模型在回答問題時(shí)更傾向直接給出結(jié)論,而非展開逐步推理。

研究者使用GPT-4o-mini對(duì)思維鏈進(jìn)行分類,發(fā)現(xiàn)超過70%的錯(cuò)誤來自“無思考”或“思維跳步”,而非單純邏輯錯(cuò)誤。

這一現(xiàn)象與人類在高強(qiáng)度信息刺激下的“注意力割裂”表現(xiàn)相似,但研究者強(qiáng)調(diào),該結(jié)果并非類比結(jié)論,而是統(tǒng)計(jì)規(guī)律。


隨著“垃圾內(nèi)容”比例上升,模型在推理、長(zhǎng)上下文理解、倫理安全及人格穩(wěn)定性等各項(xiàng)認(rèn)知功能上普遍退化,驗(yàn)證了“腦腐化”效應(yīng)。

團(tuán)隊(duì)還進(jìn)行了劑量效應(yīng)分析(dose–response),結(jié)果表明:垃圾數(shù)據(jù)比例與性能下降幅度成近線性關(guān)系。

隨后,研究者嘗試通過額外的指令微調(diào)與干凈數(shù)據(jù)繼續(xù)訓(xùn)練來“修復(fù)”模型。

即使增加五倍規(guī)模的清潔數(shù)據(jù)進(jìn)行指令調(diào)優(yōu),模型仍未完全恢復(fù)至基線性能。

這說明所謂的“腦腐”效應(yīng)可能不是格式錯(cuò)配,而是參數(shù)空間層面的結(jié)構(gòu)漂移(representational drift)。

研究還測(cè)試了反思式推理(Reflective Reasoning)等無訓(xùn)練修復(fù)方法。

結(jié)果顯示,使用外部強(qiáng)模型提供反饋(如GPT-4o-mini)能部分恢復(fù)推理鏈完整性,但無法完全修復(fù)性能差距。

團(tuán)隊(duì)據(jù)此提出,“模型認(rèn)知衰退”可能在訓(xùn)練過程中被永久編碼進(jìn)參數(shù)分布中。

論文最后指出,這一發(fā)現(xiàn)將數(shù)據(jù)質(zhì)量問題轉(zhuǎn)化為訓(xùn)練安全問題(training-time safety)。

作者建議未來建立“模型認(rèn)知健康檢查”機(jī)制,用于監(jiān)控預(yù)訓(xùn)練數(shù)據(jù)的組成與長(zhǎng)期效果。

他們強(qiáng)調(diào),本研究并未證明所有社交媒體數(shù)據(jù)均為有害樣本,但結(jié)果提示,數(shù)據(jù)來源的復(fù)雜性與語(yǔ)義深度,可能直接決定模型的長(zhǎng)期穩(wěn)定性。

研究團(tuán)隊(duì)在論文結(jié)論中寫道:“持續(xù)暴露于低質(zhì)量文本會(huì)造成可驗(yàn)證的認(rèn)知退化,這種退化具有持續(xù)性且難以逆轉(zhuǎn)?!?/strong>

這項(xiàng)研究提供了首次系統(tǒng)證據(jù),說明數(shù)據(jù)質(zhì)量不僅影響模型性能,也影響模型的內(nèi)部認(rèn)知結(jié)構(gòu)。

它將“AI訓(xùn)練數(shù)據(jù)質(zhì)量”從經(jīng)驗(yàn)問題轉(zhuǎn)變?yōu)榭闪炕?、可因果?yàn)證的科學(xué)議題。

作者呼吁,在大模型持續(xù)擴(kuò)展的時(shí)代,數(shù)據(jù)篩選與長(zhǎng)期維護(hù)應(yīng)被視為認(rèn)知安全的一部分。

注:頭圖AI生成

作者長(zhǎng)期關(guān)注 AI 產(chǎn)業(yè)與學(xué)術(shù),歡迎對(duì)這些方向感興趣的朋友添加微信Q1yezi,共同交流行業(yè)動(dòng)態(tài)與技術(shù)趨勢(shì)!

GPU 訓(xùn)練特惠!

H100/H200 GPU算力按秒計(jì)費(fèi),平均節(jié)省開支30%以上!

掃碼了解詳情?

點(diǎn)「贊」的人都變好看了哦!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
國(guó)際媒體稱:戰(zhàn)爭(zhēng)一旦爆發(fā),中國(guó)將到達(dá)一個(gè)無人知曉的地步

國(guó)際媒體稱:戰(zhàn)爭(zhēng)一旦爆發(fā),中國(guó)將到達(dá)一個(gè)無人知曉的地步

音樂時(shí)光的娛樂
2026-04-23 20:12:38
金價(jià):大家不用等待!不出意外,金價(jià)或?qū)v史重演

金價(jià):大家不用等待!不出意外,金價(jià)或?qū)v史重演

次元君情感
2026-04-23 06:39:45
CBA最新消息!曝浙江廣廈裁掉威廉姆斯,廣東宏遠(yuǎn)換掉爭(zhēng)議外援

CBA最新消息!曝浙江廣廈裁掉威廉姆斯,廣東宏遠(yuǎn)換掉爭(zhēng)議外援

體壇瞎白話
2026-04-23 18:19:13
開局不利!肖國(guó)棟連追兩暫2-6落后墨菲,世錦賽八強(qiáng)爭(zhēng)奪戰(zhàn)存懸念

開局不利!肖國(guó)棟連追兩暫2-6落后墨菲,世錦賽八強(qiáng)爭(zhēng)奪戰(zhàn)存懸念

世界體壇觀察家
2026-04-23 23:20:29
校慶我捐700萬(wàn)被安排在角落,我愣了3秒,校長(zhǎng)道:不坐就走不差你

校慶我捐700萬(wàn)被安排在角落,我愣了3秒,校長(zhǎng)道:不坐就走不差你

吃貨的分享
2026-04-22 20:30:21
每體:皇馬準(zhǔn)備動(dòng)用一切手段,阻止維克托-穆尼奧斯加盟巴薩

每體:皇馬準(zhǔn)備動(dòng)用一切手段,阻止維克托-穆尼奧斯加盟巴薩

懂球帝
2026-04-23 09:06:06
不再是120/80,“新血壓標(biāo)準(zhǔn)”已公布,別再自己嚇自己!

不再是120/80,“新血壓標(biāo)準(zhǔn)”已公布,別再自己嚇自己!

芹姐說生活
2026-04-14 23:27:03
克林頓女兒3小時(shí)40分完賽波士頓馬拉松,父母親自到場(chǎng)頒獎(jiǎng)!

克林頓女兒3小時(shí)40分完賽波士頓馬拉松,父母親自到場(chǎng)頒獎(jiǎng)!

馬拉松跑步健身
2026-04-23 22:06:33
為什么婚內(nèi)出軌的女人的錢最好騙。因?yàn)樾越粫r(shí)的女人最好騙。

為什么婚內(nèi)出軌的女人的錢最好騙。因?yàn)樾越粫r(shí)的女人最好騙。

娛樂洞察點(diǎn)點(diǎn)
2026-04-24 02:18:15
俄共主席威脅1917會(huì)再次發(fā)生!鋼鐵巨頭瀕臨虧損,替代產(chǎn)業(yè)失敗

俄共主席威脅1917會(huì)再次發(fā)生!鋼鐵巨頭瀕臨虧損,替代產(chǎn)業(yè)失敗

鷹眼Defence
2026-04-23 18:38:19
受賄數(shù)額特別巨大 中央紀(jì)委國(guó)家監(jiān)委駐證監(jiān)會(huì)紀(jì)檢監(jiān)察組原組長(zhǎng)王會(huì)民被提起公訴

受賄數(shù)額特別巨大 中央紀(jì)委國(guó)家監(jiān)委駐證監(jiān)會(huì)紀(jì)檢監(jiān)察組原組長(zhǎng)王會(huì)民被提起公訴

新京報(bào)
2026-04-23 10:20:16
意大利體育部長(zhǎng):意大利遞補(bǔ)參加世界杯既不可能,也不合適

意大利體育部長(zhǎng):意大利遞補(bǔ)參加世界杯既不可能,也不合適

懂球帝
2026-04-23 22:18:05
救不出黎智英,美國(guó)開始掀桌,中方奉陪到底,通牒已發(fā)往白宮了?

救不出黎智英,美國(guó)開始掀桌,中方奉陪到底,通牒已發(fā)往白宮了?

老鵜愛說事
2026-04-22 22:26:49
破例接機(jī)!中方強(qiáng)勢(shì)降臨中東,伊朗導(dǎo)彈下餃子,美霸權(quán)迎來終局?

破例接機(jī)!中方強(qiáng)勢(shì)降臨中東,伊朗導(dǎo)彈下餃子,美霸權(quán)迎來終局?

飄逸的云朵
2026-04-24 02:22:38
日本專家表示:如果中日戰(zhàn)真的發(fā)生了,日本老百姓根本不需要害怕

日本專家表示:如果中日戰(zhàn)真的發(fā)生了,日本老百姓根本不需要害怕

安安說
2026-04-23 11:40:47
浪胃仙整容失敗!在昆明被網(wǎng)友偶遇,真人又壯又老,差點(diǎn)認(rèn)出是他

浪胃仙整容失敗!在昆明被網(wǎng)友偶遇,真人又壯又老,差點(diǎn)認(rèn)出是他

離離言幾許
2026-04-22 07:06:44
從交通銀行總行調(diào)任履新僅一年多,張文突然被查、上個(gè)月還現(xiàn)身

從交通銀行總行調(diào)任履新僅一年多,張文突然被查、上個(gè)月還現(xiàn)身

湘財(cái)Plus
2026-04-23 10:58:09
7個(gè)月不吃主食、每天做暴汗減肥操!浙江20歲小伙減肥80斤后把自己送進(jìn)了醫(yī)院……

7個(gè)月不吃主食、每天做暴汗減肥操!浙江20歲小伙減肥80斤后把自己送進(jìn)了醫(yī)院……

都市快報(bào)橙柿互動(dòng)
2026-04-23 19:57:03
普京終于動(dòng)真格了,俄軍發(fā)動(dòng)大規(guī)模轟炸,烏軍高層或遭慘重傷亡!

普京終于動(dòng)真格了,俄軍發(fā)動(dòng)大規(guī)模轟炸,烏軍高層或遭慘重傷亡!

漫步獨(dú)行俠
2026-04-23 08:49:10
奉陪到底,中國(guó)通知?dú)W委會(huì)立即刪除涉華條款,馮德萊恩已讀不回

奉陪到底,中國(guó)通知?dú)W委會(huì)立即刪除涉華條款,馮德萊恩已讀不回

墨印齋
2026-04-24 03:33:42
2026-04-24 04:15:00
大數(shù)據(jù)文摘 incentive-icons
大數(shù)據(jù)文摘
專注大數(shù)據(jù),每日有分享!
6852文章數(shù) 94541關(guān)注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產(chǎn)品",但量產(chǎn)難預(yù)測(cè)

頭條要聞

以色列:只要美國(guó)同意 將刺殺伊朗最高領(lǐng)袖

頭條要聞

以色列:只要美國(guó)同意 將刺殺伊朗最高領(lǐng)袖

體育要聞

給文班剃頭的馬刺DJ,成為NBA最佳第六人

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財(cái)經(jīng)要聞

普華永道賠償10億 恒大股東見到"回頭錢"

汽車要聞

預(yù)售30.29萬(wàn)起 嵐圖泰山X8配896線激光雷達(dá)

態(tài)度原創(chuàng)

藝術(shù)
數(shù)碼
游戲
本地
公開課

藝術(shù)要聞

吉達(dá)塔蓋到第100層,“它是沙特唯一能按期完成的大項(xiàng)目”

數(shù)碼要聞

榮耀重新定義輕薄本,四月連發(fā)六款新品續(xù)航首超Mac

任天堂NS2銷量4倍碾壓PS5!差距懸殊 索尼難挽頹勢(shì)

本地新聞

SAGA GIRLS 2026女團(tuán)選秀

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版