国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

清華挖出「幻覺」的罪魁禍?zhǔn)祝侯A(yù)訓(xùn)練產(chǎn)生的0.1%神經(jīng)元

0
分享至


新智元報(bào)道

編輯:LRS

【新智元導(dǎo)讀】清華大學(xué)孫茂松團(tuán)隊(duì)從神經(jīng)元角度研究幻覺的微觀機(jī)制,發(fā)現(xiàn)極少數(shù)神經(jīng)元(H-神經(jīng)元)可預(yù)測(cè)幻覺,且與過度順從行為相關(guān),其根源在預(yù)訓(xùn)練階段,為解決幻覺問題提供了新思路,有助于開發(fā)更可靠的大模型。

無(wú)論大型語(yǔ)言模型再怎么刷榜,但有一個(gè)幽靈「幻覺」始終徘徊在頭上,讓那些追求事實(shí)準(zhǔn)確性的領(lǐng)域任務(wù)(如金融、教育、醫(yī)療)不敢輕易地把AI結(jié)合到業(yè)務(wù)中。

幻覺是指模型生成看似合理但事實(shí)上不準(zhǔn)確或缺乏證據(jù)支持的輸出,比如GPT-3.5 在基于引用的事實(shí)性評(píng)估中約有40%的幻覺率,盡管GPT-4將幻覺率降低到28.6%,但仍然處于較高水平;以推理為中心的系統(tǒng)(如DeepSeek-R1)在復(fù)雜任務(wù)中表現(xiàn)出色,但也存在明顯的幻覺模式。

也就是說,無(wú)論模型架構(gòu)如何,幻覺現(xiàn)象始終存在,是影響大模型可靠性的主要瓶頸。

現(xiàn)有的研究結(jié)果表明,幻覺背后的機(jī)制和因素大致可以分為三類:

  1. 從訓(xùn)練數(shù)據(jù)的角度來看,數(shù)據(jù)集分布不平衡和固有偏差使得模型難以準(zhǔn)確回憶長(zhǎng)尾事實(shí);

  2. 預(yù)訓(xùn)練和后訓(xùn)練階段的訓(xùn)練目標(biāo)主要是讓模型能夠自信地預(yù)測(cè),而非表達(dá)對(duì)「不熟悉信息」的「不確定性」,促使模型輸出錯(cuò)誤的猜測(cè)。預(yù)訓(xùn)練中的「next-token預(yù)測(cè)目標(biāo)」更注重「輸出流暢性」而非「事實(shí)準(zhǔn)確性」,指令微調(diào)和強(qiáng)化學(xué)習(xí)則傾向于生成「表面上有用」的回答。

  3. 解碼算法通過自回歸生成中的隨機(jī)性和誤差累積引入不穩(wěn)定性,使得微小偏差逐漸累積成幻覺。

目前的研究大多將大語(yǔ)言模型看作黑盒,在宏觀層面探討幻覺的原因,而忽略了在神經(jīng)元層面進(jìn)行微觀思考。

通過研究神經(jīng)元在幻覺中的激活模式,可以更深入地了解模型的可靠性;在可解釋性方面,神經(jīng)元層面的分析可以預(yù)測(cè)幻覺何時(shí)容易出現(xiàn);對(duì)于對(duì)齊和行為控制,神經(jīng)元提供了可操作的干預(yù)點(diǎn),例如激活或抑制特定的神經(jīng)元子集,從而可靠地修改模型輸出。

最近,清華大學(xué)孫茂松團(tuán)隊(duì)從神經(jīng)元的角度出發(fā),深入研究了LLM中幻覺的微觀機(jī)制,從三個(gè)視角(識(shí)別identification、行為影響behavior impact和起源origins)系統(tǒng)地研究了幻覺相關(guān)神經(jīng)元(H-Neurons)。


論文鏈接:https://arxiv.org/abs/2512.01797v2

在識(shí)別方面,研究人員證明了一個(gè)極少數(shù)的稀疏神經(jīng)元子集(少于總神經(jīng)元數(shù)量的0.1% )就能夠可靠地預(yù)測(cè)幻覺,并在各種不同場(chǎng)景中展現(xiàn)出強(qiáng)大的泛化能力。

在行為影響方面,受控干預(yù)顯示這些神經(jīng)元與過度服從行為存在因果關(guān)系。

在起源方面,研究人員將這些神經(jīng)元追溯到預(yù)訓(xùn)練的基模型,并發(fā)現(xiàn)這些神經(jīng)元在幻覺檢測(cè)中仍然具有預(yù)測(cè)能力,表明幻覺是在預(yù)訓(xùn)練過程中產(chǎn)生的。

識(shí)別H-神經(jīng)元


為了從大型語(yǔ)言模型(LLMs)龐大的參數(shù)空間中識(shí)別出 H-神經(jīng)元,研究人員采用了稀疏線性探測(cè)方法,先利用CETT指標(biāo)(relu2wins)來量化每個(gè)神經(jīng)元對(duì)生成響應(yīng)的貢獻(xiàn),用于衡量神經(jīng)元在生成過程中的激活水平。

之后將幻覺檢測(cè)視為一個(gè)二元分類問題,即根據(jù)神經(jīng)元的激活情況預(yù)測(cè)響應(yīng)是否為幻覺,使用L1正則化的邏輯回歸訓(xùn)練稀疏分類器來自動(dòng)選擇最具預(yù)測(cè)性的神經(jīng)元,其中權(quán)重非零的神經(jīng)元被識(shí)別為H-神經(jīng)元。

那些權(quán)重非零的神經(jīng)元被識(shí)別為 H-神經(jīng)元。訓(xùn)練數(shù)據(jù)是從 TriviaQA 數(shù)據(jù)集中收集的,通過采樣每個(gè)問題的多個(gè)響應(yīng),并根據(jù)事實(shí)正確性對(duì)它們進(jìn)行標(biāo)記。


針對(duì)六個(gè)主流大模型的幻覺檢測(cè)結(jié)果顯示,H-神經(jīng)元在檢測(cè)幻覺方面表現(xiàn)出顯著的魯棒性,在所有模型和評(píng)估場(chǎng)景中均一致且顯著優(yōu)于使用隨機(jī)選擇的神經(jīng)元構(gòu)建的分類器,準(zhǔn)確率提升超過10個(gè)百分點(diǎn)。

分類器在不同場(chǎng)景下均展現(xiàn)出優(yōu)越性能:領(lǐng)域內(nèi)數(shù)據(jù)集(TriviaQA和NQ)上實(shí)現(xiàn)了高準(zhǔn)確率,在跨領(lǐng)域的生物醫(yī)學(xué)問題(BioASQ)上實(shí)現(xiàn)了泛化能力,并且在虛構(gòu)問題(NonExist)上仍保持有效性。

在熟悉的知識(shí)回憶、領(lǐng)域轉(zhuǎn)移和完全虛構(gòu)場(chǎng)景下的一致表現(xiàn)表明,H-神經(jīng)元捕捉到了可泛化的幻覺模式,而非特定于數(shù)據(jù)集的特征。

值得注意的是,H-神經(jīng)元是模型總神經(jīng)元中一個(gè)極為稀疏的子集,通常僅占模型中所有神經(jīng)元的不到千分之一,但這一小部分神經(jīng)元卻提供了足夠的信號(hào)來可靠地檢測(cè)幻覺,表明模型參數(shù)的一個(gè)緊湊子集包含了大量關(guān)于幻覺傾向的信息。

H-神經(jīng)元的行為影響

雖然預(yù)測(cè)準(zhǔn)確性表明了相關(guān)性,但想確定「H-神經(jīng)元在塑造模型行為中發(fā)揮了什么功能?」,還需要從觀察轉(zhuǎn)向干預(yù)。

研究人員設(shè)計(jì)了一種系統(tǒng)性的擾動(dòng)方法,在不重新訓(xùn)練模型的情況下調(diào)節(jié)神經(jīng)元在推理過程中的貢獻(xiàn):

對(duì)于每個(gè)目標(biāo)神經(jīng)元,將激活值乘以一個(gè)縮放因子α,其中α的取值范圍是0到3;當(dāng)α小于1時(shí),會(huì)通過降低激活強(qiáng)度來抑制神經(jīng)元的影響;當(dāng)α等于1時(shí),保持模型的原始行為;當(dāng)α大于1時(shí),通過增加激活幅度來增強(qiáng)其對(duì)模型回復(fù)的貢獻(xiàn)。

目前的研究普遍認(rèn)為幻覺是模型為了追求更高準(zhǔn)確率而傾向于冒險(xiǎn)猜測(cè),研究人員提出了一個(gè)補(bǔ)充性的觀點(diǎn):冒險(xiǎn)行為是「過度順從」,即模型傾向于滿足用戶請(qǐng)求,即使這樣做會(huì)損害真實(shí)性、安全性或完整性。

例如,當(dāng)模型為了回答「一個(gè)無(wú)法回答的問題」而生成幻覺內(nèi)容時(shí),它是在優(yōu)先考慮人類期望得到答案的潛意識(shí),而非承認(rèn)不確定或知識(shí)的邊界,類似于人類可能因社交需求而撒謊的情況。

如果H-神經(jīng)元編碼了過度順從,那么操縱這些神經(jīng)元不僅會(huì)影響模型在事實(shí)性問題上的行為,還會(huì)影響其他表現(xiàn)出過度順從的任務(wù)。


實(shí)驗(yàn)結(jié)果來看,神經(jīng)元的縮放因子與模型的順從率之間存在一致的正相關(guān),表明人為增強(qiáng)這些H-神經(jīng)元的激活值會(huì)顯著削弱模型對(duì)錯(cuò)誤前提、誤導(dǎo)性上下文、懷疑態(tài)度或有害指令的抵抗力,而抑制神經(jīng)元?jiǎng)t能有效減少過度順從行為,從而恢復(fù)模型的穩(wěn)健性和完整性。

模型對(duì)神經(jīng)元擾動(dòng)的易感性通常與參數(shù)規(guī)模呈反比關(guān)系,表明較小的模型更容易在內(nèi)部擾動(dòng)下發(fā)生劇烈的行為變化,而較大的模型可能具有更強(qiáng)的內(nèi)在穩(wěn)健性,從而減輕了增強(qiáng)特定神經(jīng)元群的影響。

行為反應(yīng)也并非在所有情況下都是嚴(yán)格單調(diào)的,某些模型在中間縮放因子時(shí)會(huì)出現(xiàn)順從率的波動(dòng)或臨時(shí)下降。

H-神經(jīng)元的起源

這些神經(jīng)元是在預(yù)訓(xùn)練階段產(chǎn)生的,還是后訓(xùn)練對(duì)齊過程中?

確定時(shí)間線決定了未來是應(yīng)該將緩解策略集中在「預(yù)訓(xùn)練過程」還是「對(duì)齊算法」上。

如果H-神經(jīng)元在基礎(chǔ)模型中就已經(jīng)顯示出獨(dú)特的激活模式,表明幻覺行為的根源在于預(yù)訓(xùn)練階段的表示,而不僅僅是通過監(jiān)督微調(diào)(SFT)誘導(dǎo)的對(duì)齊動(dòng)態(tài)。


研究人員進(jìn)行了兩項(xiàng)實(shí)驗(yàn)來分析H-神經(jīng)元,結(jié)果顯示,

H-神經(jīng)元對(duì)基礎(chǔ)模型的預(yù)測(cè)能力起到關(guān)鍵作用,證明了H-神經(jīng)元在預(yù)訓(xùn)練階段就已經(jīng)建立,而非來自后訓(xùn)練對(duì)齊;

歸一化排名的分布表明,從基礎(chǔ)模型到指令微調(diào)模型的轉(zhuǎn)變過程中,H神經(jīng)元的參數(shù)更新非常少,表明指令微調(diào)并不能重構(gòu)底層的幻覺機(jī)制。

結(jié)論

研究人員對(duì)大模型中幻覺的微觀機(jī)制進(jìn)行了系統(tǒng)的神經(jīng)元層面研究,通過彌合宏觀行為模式與微觀神經(jīng)激活之間的差距,回答了三個(gè)問題:

  1. H-神經(jīng)元的存在:模型中不到0.1%的神經(jīng)元可以準(zhǔn)確預(yù)測(cè)模型是否會(huì)生成幻覺響應(yīng);

  2. 對(duì)模型行為的影響:H-神經(jīng)元與大模型的過度順從行為密切相關(guān),包括對(duì)錯(cuò)誤前提的過度承諾、對(duì)誤導(dǎo)性上下文的更高敏感性、對(duì)有害指令的增加遵循以及更強(qiáng)的諂媚傾向。H-神經(jīng)元不僅僅編碼事實(shí)性錯(cuò)誤,而是代表了一種更普遍的傾向,即優(yōu)先考慮對(duì)話的順從性而非事實(shí)完整性。

  3. H-神經(jīng)元起源于預(yù)訓(xùn)練階段,從學(xué)習(xí)理論角度提出的觀點(diǎn)提供了實(shí)證依據(jù),這些神經(jīng)元在基礎(chǔ)模型中保留了預(yù)測(cè)能,即使在微調(diào)之前也能成功檢測(cè)幻覺。

這項(xiàng)工作加深了對(duì)幻覺在計(jì)算層面產(chǎn)生的理解,并為開發(fā)更可靠的大模型提供可操作的研究方向。

參考資料:

https://arxiv.org/abs/2512.01797

秒追ASI

?點(diǎn)贊、轉(zhuǎn)發(fā)、在看一鍵三連?

點(diǎn)亮星標(biāo),鎖定新智元極速推送!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
俄羅斯赤道特遣隊(duì)撤回國(guó)內(nèi),美國(guó)捕馬撕去莫斯科最后一塊遮羞布

俄羅斯赤道特遣隊(duì)撤回國(guó)內(nèi),美國(guó)捕馬撕去莫斯科最后一塊遮羞布

史政先鋒
2026-01-07 19:38:07
血的教訓(xùn)!美軍突襲委內(nèi)瑞拉:多虧這套系統(tǒng),解放軍卻從未裝備?

血的教訓(xùn)!美軍突襲委內(nèi)瑞拉:多虧這套系統(tǒng),解放軍卻從未裝備?

曉劗就是我
2026-01-07 11:33:06
西工大連夜宣布好消息!全世界都沒想到,中國(guó)居然“彎道超車”

西工大連夜宣布好消息!全世界都沒想到,中國(guó)居然“彎道超車”

愛吃醋的貓咪
2026-01-05 21:28:30
教育部扔下重磅炸彈:2026年開始,全國(guó)一律不準(zhǔn)再買校外商業(yè)試卷

教育部扔下重磅炸彈:2026年開始,全國(guó)一律不準(zhǔn)再買校外商業(yè)試卷

趣文說娛
2026-01-05 17:49:32
韓國(guó)總統(tǒng)李在明結(jié)束訪華

韓國(guó)總統(tǒng)李在明結(jié)束訪華

界面新聞
2026-01-07 18:57:00
取消所有考試的時(shí)候到了嗎

取消所有考試的時(shí)候到了嗎

阿亮評(píng)論
2026-01-06 20:10:57
三星會(huì)長(zhǎng)李在镕結(jié)束北京行!談下大單后笑容停不下來,沒買Labubu

三星會(huì)長(zhǎng)李在镕結(jié)束北京行!談下大單后笑容停不下來,沒買Labubu

阿纂看事
2026-01-06 23:07:19
王哲林21分上海輕取青島躍居榜首,八連勝上海不再軟腳蟹

王哲林21分上海輕取青島躍居榜首,八連勝上海不再軟腳蟹

李廣專業(yè)體育評(píng)論
2026-01-07 21:18:47
兩條新聞,都翻車了!

兩條新聞,都翻車了!

走讀新生
2026-01-07 20:03:01
教育局接到奇葩投訴曝光,真相讓人哭笑不得!

教育局接到奇葩投訴曝光,真相讓人哭笑不得!

特約前排觀眾
2026-01-07 00:15:03
鄭爽近照曝光,35歲醫(yī)美過度老得讓人認(rèn)不出!和一對(duì)子女相處融洽

鄭爽近照曝光,35歲醫(yī)美過度老得讓人認(rèn)不出!和一對(duì)子女相處融洽

娛樂團(tuán)長(zhǎng)
2026-01-07 16:24:27
《罰罪2》結(jié)局:張欣被抓,老麥犧牲,文媽舉報(bào)劉天也并斷絕關(guān)系

《罰罪2》結(jié)局:張欣被抓,老麥犧牲,文媽舉報(bào)劉天也并斷絕關(guān)系

七堇年a
2026-01-07 20:37:26
160噸黃金,成為委方反抗特朗普的最大底氣?瑞士:凍結(jié)馬杜羅資產(chǎn)

160噸黃金,成為委方反抗特朗普的最大底氣?瑞士:凍結(jié)馬杜羅資產(chǎn)

軍機(jī)Talk
2026-01-07 10:32:03
最后48小時(shí),特朗普政府終于批準(zhǔn);王毅告訴全球,給中美交情定調(diào)

最后48小時(shí),特朗普政府終于批準(zhǔn);王毅告訴全球,給中美交情定調(diào)

沈言論
2026-01-07 12:30:03
準(zhǔn)備開搶!美媒更新交易市場(chǎng)TOP10大魚:哈登排第5+勇士盯上數(shù)人

準(zhǔn)備開搶!美媒更新交易市場(chǎng)TOP10大魚:哈登排第5+勇士盯上數(shù)人

鍋?zhàn)踊@球
2026-01-07 21:30:47
27歲女生黃山墜亡最新!遇難細(xì)節(jié)蹊蹺,銀行卡被清空,家屬曝猛料

27歲女生黃山墜亡最新!遇難細(xì)節(jié)蹊蹺,銀行卡被清空,家屬曝猛料

游者走天下
2026-01-06 15:44:51
您有洗屁股的習(xí)慣嗎?提醒:天天洗肛門的人,能收獲4個(gè)驚人好處

您有洗屁股的習(xí)慣嗎?提醒:天天洗肛門的人,能收獲4個(gè)驚人好處

39健康網(wǎng)
2025-12-13 20:50:34
大陸博主曝光“臺(tái)獨(dú)”頑固分子沈伯洋住處和工作場(chǎng)所,國(guó)臺(tái)辦回應(yīng)

大陸博主曝光“臺(tái)獨(dú)”頑固分子沈伯洋住處和工作場(chǎng)所,國(guó)臺(tái)辦回應(yīng)

界面新聞
2026-01-07 10:59:20
包養(yǎng)情人無(wú)數(shù),玩老婆閨蜜,娶初中同學(xué)女兒為妻,孫道存有多荒唐

包養(yǎng)情人無(wú)數(shù),玩老婆閨蜜,娶初中同學(xué)女兒為妻,孫道存有多荒唐

瓜汁橘長(zhǎng)Dr
2026-01-06 10:11:41
川普認(rèn)為伊朗和美國(guó)之間的帳該算算了;美以將在72小時(shí)內(nèi)打擊伊朗

川普認(rèn)為伊朗和美國(guó)之間的帳該算算了;美以將在72小時(shí)內(nèi)打擊伊朗

跟著老李看世界
2026-01-07 00:00:24
2026-01-07 23:00:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14279文章數(shù) 66451關(guān)注度
往期回顧 全部

科技要聞

精華!黃仁勛CES記者會(huì):揭秘新款大殺器

頭條要聞

美軍扣押俄潛艇護(hù)航的"水手"油輪 美方人員已上船

頭條要聞

美軍扣押俄潛艇護(hù)航的"水手"油輪 美方人員已上船

體育要聞

賣水果、搬磚的小伙,與哈蘭德爭(zhēng)英超金靴

娛樂要聞

《馬背搖籃》首播,革命的樂觀主義故事

財(cái)經(jīng)要聞

農(nóng)大教授科普:無(wú)需過度擔(dān)憂蔬菜農(nóng)殘

汽車要聞

燃油駕趣+智能電感雙Buff 試駕全新奧迪Q5L

態(tài)度原創(chuàng)

藝術(shù)
旅游
親子
家居
房產(chǎn)

藝術(shù)要聞

David Grossmann:不一樣的風(fēng)景畫

旅游要聞

“國(guó)際IP+本土文化”運(yùn)營(yíng),助力北京環(huán)球度假區(qū)以文化共鳴提升用戶黏性與消費(fèi)頻次|一克商評(píng)

親子要聞

用白醋試真假奶粉,靠譜嗎?

家居要聞

寧?kù)o不單調(diào) 恰到好處的美

房產(chǎn)要聞

最新!??诙址?,漲價(jià)房源突然猛增30%

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版