国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

清華挖出「幻覺(jué)」的罪魁禍?zhǔn)祝侯A(yù)訓(xùn)練產(chǎn)生的0.1%神經(jīng)元

0
分享至


新智元報(bào)道

編輯:LRS

【新智元導(dǎo)讀】清華大學(xué)孫茂松團(tuán)隊(duì)從神經(jīng)元角度研究幻覺(jué)的微觀(guān)機(jī)制,發(fā)現(xiàn)極少數(shù)神經(jīng)元(H-神經(jīng)元)可預(yù)測(cè)幻覺(jué),且與過(guò)度順從行為相關(guān),其根源在預(yù)訓(xùn)練階段,為解決幻覺(jué)問(wèn)題提供了新思路,有助于開(kāi)發(fā)更可靠的大模型。

無(wú)論大型語(yǔ)言模型再怎么刷榜,但有一個(gè)幽靈「幻覺(jué)」始終徘徊在頭上,讓那些追求事實(shí)準(zhǔn)確性的領(lǐng)域任務(wù)(如金融、教育、醫(yī)療)不敢輕易地把AI結(jié)合到業(yè)務(wù)中。

幻覺(jué)是指模型生成看似合理但事實(shí)上不準(zhǔn)確或缺乏證據(jù)支持的輸出,比如GPT-3.5 在基于引用的事實(shí)性評(píng)估中約有40%的幻覺(jué)率,盡管GPT-4將幻覺(jué)率降低到28.6%,但仍然處于較高水平;以推理為中心的系統(tǒng)(如DeepSeek-R1)在復(fù)雜任務(wù)中表現(xiàn)出色,但也存在明顯的幻覺(jué)模式。

也就是說(shuō),無(wú)論模型架構(gòu)如何,幻覺(jué)現(xiàn)象始終存在,是影響大模型可靠性的主要瓶頸。

現(xiàn)有的研究結(jié)果表明,幻覺(jué)背后的機(jī)制和因素大致可以分為三類(lèi):

  1. 從訓(xùn)練數(shù)據(jù)的角度來(lái)看,數(shù)據(jù)集分布不平衡和固有偏差使得模型難以準(zhǔn)確回憶長(zhǎng)尾事實(shí);

  2. 預(yù)訓(xùn)練和后訓(xùn)練階段的訓(xùn)練目標(biāo)主要是讓模型能夠自信地預(yù)測(cè),而非表達(dá)對(duì)「不熟悉信息」的「不確定性」,促使模型輸出錯(cuò)誤的猜測(cè)。預(yù)訓(xùn)練中的「next-token預(yù)測(cè)目標(biāo)」更注重「輸出流暢性」而非「事實(shí)準(zhǔn)確性」,指令微調(diào)和強(qiáng)化學(xué)習(xí)則傾向于生成「表面上有用」的回答。

  3. 解碼算法通過(guò)自回歸生成中的隨機(jī)性和誤差累積引入不穩(wěn)定性,使得微小偏差逐漸累積成幻覺(jué)。

目前的研究大多將大語(yǔ)言模型看作黑盒,在宏觀(guān)層面探討幻覺(jué)的原因,而忽略了在神經(jīng)元層面進(jìn)行微觀(guān)思考。

通過(guò)研究神經(jīng)元在幻覺(jué)中的激活模式,可以更深入地了解模型的可靠性;在可解釋性方面,神經(jīng)元層面的分析可以預(yù)測(cè)幻覺(jué)何時(shí)容易出現(xiàn);對(duì)于對(duì)齊和行為控制,神經(jīng)元提供了可操作的干預(yù)點(diǎn),例如激活或抑制特定的神經(jīng)元子集,從而可靠地修改模型輸出。

最近,清華大學(xué)孫茂松團(tuán)隊(duì)從神經(jīng)元的角度出發(fā),深入研究了LLM中幻覺(jué)的微觀(guān)機(jī)制,從三個(gè)視角(識(shí)別identification、行為影響behavior impact和起源origins)系統(tǒng)地研究了幻覺(jué)相關(guān)神經(jīng)元(H-Neurons)。


論文鏈接:https://arxiv.org/abs/2512.01797v2

在識(shí)別方面,研究人員證明了一個(gè)極少數(shù)的稀疏神經(jīng)元子集(少于總神經(jīng)元數(shù)量的0.1% )就能夠可靠地預(yù)測(cè)幻覺(jué),并在各種不同場(chǎng)景中展現(xiàn)出強(qiáng)大的泛化能力。

在行為影響方面,受控干預(yù)顯示這些神經(jīng)元與過(guò)度服從行為存在因果關(guān)系。

在起源方面,研究人員將這些神經(jīng)元追溯到預(yù)訓(xùn)練的基模型,并發(fā)現(xiàn)這些神經(jīng)元在幻覺(jué)檢測(cè)中仍然具有預(yù)測(cè)能力,表明幻覺(jué)是在預(yù)訓(xùn)練過(guò)程中產(chǎn)生的。

識(shí)別H-神經(jīng)元


為了從大型語(yǔ)言模型(LLMs)龐大的參數(shù)空間中識(shí)別出 H-神經(jīng)元,研究人員采用了稀疏線(xiàn)性探測(cè)方法,先利用CETT指標(biāo)(relu2wins)來(lái)量化每個(gè)神經(jīng)元對(duì)生成響應(yīng)的貢獻(xiàn),用于衡量神經(jīng)元在生成過(guò)程中的激活水平。

之后將幻覺(jué)檢測(cè)視為一個(gè)二元分類(lèi)問(wèn)題,即根據(jù)神經(jīng)元的激活情況預(yù)測(cè)響應(yīng)是否為幻覺(jué),使用L1正則化的邏輯回歸訓(xùn)練稀疏分類(lèi)器來(lái)自動(dòng)選擇最具預(yù)測(cè)性的神經(jīng)元,其中權(quán)重非零的神經(jīng)元被識(shí)別為H-神經(jīng)元。

那些權(quán)重非零的神經(jīng)元被識(shí)別為 H-神經(jīng)元。訓(xùn)練數(shù)據(jù)是從 TriviaQA 數(shù)據(jù)集中收集的,通過(guò)采樣每個(gè)問(wèn)題的多個(gè)響應(yīng),并根據(jù)事實(shí)正確性對(duì)它們進(jìn)行標(biāo)記。


針對(duì)六個(gè)主流大模型的幻覺(jué)檢測(cè)結(jié)果顯示,H-神經(jīng)元在檢測(cè)幻覺(jué)方面表現(xiàn)出顯著的魯棒性,在所有模型和評(píng)估場(chǎng)景中均一致且顯著優(yōu)于使用隨機(jī)選擇的神經(jīng)元構(gòu)建的分類(lèi)器,準(zhǔn)確率提升超過(guò)10個(gè)百分點(diǎn)。

分類(lèi)器在不同場(chǎng)景下均展現(xiàn)出優(yōu)越性能:領(lǐng)域內(nèi)數(shù)據(jù)集(TriviaQA和NQ)上實(shí)現(xiàn)了高準(zhǔn)確率,在跨領(lǐng)域的生物醫(yī)學(xué)問(wèn)題(BioASQ)上實(shí)現(xiàn)了泛化能力,并且在虛構(gòu)問(wèn)題(NonExist)上仍保持有效性。

在熟悉的知識(shí)回憶、領(lǐng)域轉(zhuǎn)移和完全虛構(gòu)場(chǎng)景下的一致表現(xiàn)表明,H-神經(jīng)元捕捉到了可泛化的幻覺(jué)模式,而非特定于數(shù)據(jù)集的特征。

值得注意的是,H-神經(jīng)元是模型總神經(jīng)元中一個(gè)極為稀疏的子集,通常僅占模型中所有神經(jīng)元的不到千分之一,但這一小部分神經(jīng)元卻提供了足夠的信號(hào)來(lái)可靠地檢測(cè)幻覺(jué),表明模型參數(shù)的一個(gè)緊湊子集包含了大量關(guān)于幻覺(jué)傾向的信息。

H-神經(jīng)元的行為影響

雖然預(yù)測(cè)準(zhǔn)確性表明了相關(guān)性,但想確定「H-神經(jīng)元在塑造模型行為中發(fā)揮了什么功能?」,還需要從觀(guān)察轉(zhuǎn)向干預(yù)。

研究人員設(shè)計(jì)了一種系統(tǒng)性的擾動(dòng)方法,在不重新訓(xùn)練模型的情況下調(diào)節(jié)神經(jīng)元在推理過(guò)程中的貢獻(xiàn):

對(duì)于每個(gè)目標(biāo)神經(jīng)元,將激活值乘以一個(gè)縮放因子α,其中α的取值范圍是0到3;當(dāng)α小于1時(shí),會(huì)通過(guò)降低激活強(qiáng)度來(lái)抑制神經(jīng)元的影響;當(dāng)α等于1時(shí),保持模型的原始行為;當(dāng)α大于1時(shí),通過(guò)增加激活幅度來(lái)增強(qiáng)其對(duì)模型回復(fù)的貢獻(xiàn)。

目前的研究普遍認(rèn)為幻覺(jué)是模型為了追求更高準(zhǔn)確率而傾向于冒險(xiǎn)猜測(cè),研究人員提出了一個(gè)補(bǔ)充性的觀(guān)點(diǎn):冒險(xiǎn)行為是「過(guò)度順從」,即模型傾向于滿(mǎn)足用戶(hù)請(qǐng)求,即使這樣做會(huì)損害真實(shí)性、安全性或完整性。

例如,當(dāng)模型為了回答「一個(gè)無(wú)法回答的問(wèn)題」而生成幻覺(jué)內(nèi)容時(shí),它是在優(yōu)先考慮人類(lèi)期望得到答案的潛意識(shí),而非承認(rèn)不確定或知識(shí)的邊界,類(lèi)似于人類(lèi)可能因社交需求而撒謊的情況。

如果H-神經(jīng)元編碼了過(guò)度順從,那么操縱這些神經(jīng)元不僅會(huì)影響模型在事實(shí)性問(wèn)題上的行為,還會(huì)影響其他表現(xiàn)出過(guò)度順從的任務(wù)。


實(shí)驗(yàn)結(jié)果來(lái)看,神經(jīng)元的縮放因子與模型的順從率之間存在一致的正相關(guān),表明人為增強(qiáng)這些H-神經(jīng)元的激活值會(huì)顯著削弱模型對(duì)錯(cuò)誤前提、誤導(dǎo)性上下文、懷疑態(tài)度或有害指令的抵抗力,而抑制神經(jīng)元?jiǎng)t能有效減少過(guò)度順從行為,從而恢復(fù)模型的穩(wěn)健性和完整性。

模型對(duì)神經(jīng)元擾動(dòng)的易感性通常與參數(shù)規(guī)模呈反比關(guān)系,表明較小的模型更容易在內(nèi)部擾動(dòng)下發(fā)生劇烈的行為變化,而較大的模型可能具有更強(qiáng)的內(nèi)在穩(wěn)健性,從而減輕了增強(qiáng)特定神經(jīng)元群的影響。

行為反應(yīng)也并非在所有情況下都是嚴(yán)格單調(diào)的,某些模型在中間縮放因子時(shí)會(huì)出現(xiàn)順從率的波動(dòng)或臨時(shí)下降。

H-神經(jīng)元的起源

這些神經(jīng)元是在預(yù)訓(xùn)練階段產(chǎn)生的,還是后訓(xùn)練對(duì)齊過(guò)程中?

確定時(shí)間線(xiàn)決定了未來(lái)是應(yīng)該將緩解策略集中在「預(yù)訓(xùn)練過(guò)程」還是「對(duì)齊算法」上。

如果H-神經(jīng)元在基礎(chǔ)模型中就已經(jīng)顯示出獨(dú)特的激活模式,表明幻覺(jué)行為的根源在于預(yù)訓(xùn)練階段的表示,而不僅僅是通過(guò)監(jiān)督微調(diào)(SFT)誘導(dǎo)的對(duì)齊動(dòng)態(tài)。


研究人員進(jìn)行了兩項(xiàng)實(shí)驗(yàn)來(lái)分析H-神經(jīng)元,結(jié)果顯示,

H-神經(jīng)元對(duì)基礎(chǔ)模型的預(yù)測(cè)能力起到關(guān)鍵作用,證明了H-神經(jīng)元在預(yù)訓(xùn)練階段就已經(jīng)建立,而非來(lái)自后訓(xùn)練對(duì)齊;

歸一化排名的分布表明,從基礎(chǔ)模型到指令微調(diào)模型的轉(zhuǎn)變過(guò)程中,H神經(jīng)元的參數(shù)更新非常少,表明指令微調(diào)并不能重構(gòu)底層的幻覺(jué)機(jī)制。

結(jié)論

研究人員對(duì)大模型中幻覺(jué)的微觀(guān)機(jī)制進(jìn)行了系統(tǒng)的神經(jīng)元層面研究,通過(guò)彌合宏觀(guān)行為模式與微觀(guān)神經(jīng)激活之間的差距,回答了三個(gè)問(wèn)題:

  1. H-神經(jīng)元的存在:模型中不到0.1%的神經(jīng)元可以準(zhǔn)確預(yù)測(cè)模型是否會(huì)生成幻覺(jué)響應(yīng);

  2. 對(duì)模型行為的影響:H-神經(jīng)元與大模型的過(guò)度順從行為密切相關(guān),包括對(duì)錯(cuò)誤前提的過(guò)度承諾、對(duì)誤導(dǎo)性上下文的更高敏感性、對(duì)有害指令的增加遵循以及更強(qiáng)的諂媚傾向。H-神經(jīng)元不僅僅編碼事實(shí)性錯(cuò)誤,而是代表了一種更普遍的傾向,即優(yōu)先考慮對(duì)話(huà)的順從性而非事實(shí)完整性。

  3. H-神經(jīng)元起源于預(yù)訓(xùn)練階段,從學(xué)習(xí)理論角度提出的觀(guān)點(diǎn)提供了實(shí)證依據(jù),這些神經(jīng)元在基礎(chǔ)模型中保留了預(yù)測(cè)能,即使在微調(diào)之前也能成功檢測(cè)幻覺(jué)。

這項(xiàng)工作加深了對(duì)幻覺(jué)在計(jì)算層面產(chǎn)生的理解,并為開(kāi)發(fā)更可靠的大模型提供可操作的研究方向。

參考資料:

https://arxiv.org/abs/2512.01797

秒追ASI

?點(diǎn)贊、轉(zhuǎn)發(fā)、在看一鍵三連?

點(diǎn)亮星標(biāo),鎖定新智元極速推送!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
1962年除夕,毛澤東宴請(qǐng)溥儀,吩咐廚師程如明:將中午剩菜端上來(lái)

1962年除夕,毛澤東宴請(qǐng)溥儀,吩咐廚師程如明:將中午剩菜端上來(lái)

明月清風(fēng)閣
2026-01-09 10:40:06
烏克蘭機(jī)器人首裝國(guó)產(chǎn)發(fā)動(dòng)機(jī),中國(guó)零部件將被徹底淘汰!

烏克蘭機(jī)器人首裝國(guó)產(chǎn)發(fā)動(dòng)機(jī),中國(guó)零部件將被徹底淘汰!

桂系007
2026-01-10 23:37:56
只要錢(qián)到位,規(guī)矩全作廢

只要錢(qián)到位,規(guī)矩全作廢

我是歷史其實(shí)挺有趣
2026-01-09 18:28:34
單打八強(qiáng)出爐!國(guó)乒4人出局;日乒4人晉級(jí);韓國(guó)單打7人僅剩獨(dú)苗

單打八強(qiáng)出爐!國(guó)乒4人出局;日乒4人晉級(jí);韓國(guó)單打7人僅剩獨(dú)苗

莼侃體育
2026-01-10 05:36:54
確認(rèn)了!北京老舊小區(qū)改造名單公布!

確認(rèn)了!北京老舊小區(qū)改造名單公布!

美麗大北京
2026-01-09 13:21:57
一位大爺?shù)穆糜握栈鹆耍【W(wǎng)友辣評(píng):抑制了我的旅游欲

一位大爺?shù)穆糜握栈鹆耍【W(wǎng)友辣評(píng):抑制了我的旅游欲

攝影技巧入門(mén)教程
2026-01-08 15:37:56
退役教練+退役隊(duì)員雙殺國(guó)乒主力?朱雨玲的勝利,打疼了誰(shuí)的臉?

退役教練+退役隊(duì)員雙殺國(guó)乒主力?朱雨玲的勝利,打疼了誰(shuí)的臉?

曹老師評(píng)球
2026-01-10 18:14:35
中國(guó)最后流失的領(lǐng)土,1994年正式脫離中國(guó),如今風(fēng)景絕佳美女無(wú)數(shù)

中國(guó)最后流失的領(lǐng)土,1994年正式脫離中國(guó),如今風(fēng)景絕佳美女無(wú)數(shù)

豐譚筆錄
2026-01-02 09:29:55
繼續(xù)補(bǔ)強(qiáng)!曝國(guó)安有望引進(jìn)前中超冠軍國(guó)腳,下賽季有望自由身加盟

繼續(xù)補(bǔ)強(qiáng)!曝國(guó)安有望引進(jìn)前中超冠軍國(guó)腳,下賽季有望自由身加盟

體壇鑒春秋
2026-01-10 16:26:45
故事 · 典藏 | 第十二個(gè)死者

故事 · 典藏 | 第十二個(gè)死者

故事會(huì)
2024-12-12 13:22:14
原來(lái)有這么多不體面但掙錢(qián)的小生意!原來(lái)都是悶聲發(fā)大財(cái)?。?>
    </a>
        <h3>
      <a href=另子維愛(ài)讀史
2025-12-06 22:09:07
男性長(zhǎng)期禁欲,性能力會(huì)更加強(qiáng)?醫(yī)生提醒:可能要付出這幾個(gè)代價(jià)

男性長(zhǎng)期禁欲,性能力會(huì)更加強(qiáng)?醫(yī)生提醒:可能要付出這幾個(gè)代價(jià)

醫(yī)者榮耀
2025-12-17 12:05:09
曼聯(lián)動(dòng)真格!鎖定“世界最佳主帥” ,歐冠冠軍名帥備好離隊(duì)準(zhǔn)備

曼聯(lián)動(dòng)真格!鎖定“世界最佳主帥” ,歐冠冠軍名帥備好離隊(duì)準(zhǔn)備

瀾歸序
2026-01-10 03:39:52
三亞不香了?東北人撤離成潮,壓垮他們的不是物價(jià),而是生活現(xiàn)實(shí)

三亞不香了?東北人撤離成潮,壓垮他們的不是物價(jià),而是生活現(xiàn)實(shí)

墨蘭史書(shū)
2026-01-08 21:25:03
決裂升級(jí)!布魯克林發(fā)律師函 要求與貝克漢姆夫婦斷絕直接聯(lián)系

決裂升級(jí)!布魯克林發(fā)律師函 要求與貝克漢姆夫婦斷絕直接聯(lián)系

麥桐看娛樂(lè)
2026-01-10 11:56:35
沈佳潤(rùn)簽約的韓國(guó)公司竟是親爹小沈陽(yáng)開(kāi)的?全網(wǎng)笑噴:這波操作太會(huì)玩

沈佳潤(rùn)簽約的韓國(guó)公司竟是親爹小沈陽(yáng)開(kāi)的?全網(wǎng)笑噴:這波操作太會(huì)玩

鄉(xiāng)野小珥
2026-01-08 02:16:19
強(qiáng)渡大渡河共有18人,55年全軍授銜,級(jí)別最高的一位是什么軍銜?

強(qiáng)渡大渡河共有18人,55年全軍授銜,級(jí)別最高的一位是什么軍銜?

史韻流轉(zhuǎn)
2026-01-09 10:00:01
葛春堯,被“雙開(kāi)”!

葛春堯,被“雙開(kāi)”!

中國(guó)基金報(bào)
2026-01-10 15:39:46
親密接觸中的罕見(jiàn)身體鎖死現(xiàn)象

親密接觸中的罕見(jiàn)身體鎖死現(xiàn)象

特約前排觀(guān)眾
2025-12-27 00:05:08
向全世界宣布!我國(guó)成功研制全球首款二維芯片,歐美規(guī)則恐遭推翻

向全世界宣布!我國(guó)成功研制全球首款二維芯片,歐美規(guī)則恐遭推翻

劉曠
2026-01-09 13:15:30
2026-01-11 01:40:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14304文章數(shù) 66452關(guān)注度
往期回顧 全部

科技要聞

必看 | 2026開(kāi)年最頂格的AI對(duì)話(huà)

頭條要聞

特朗普簽署行政令 宣布進(jìn)入國(guó)家緊急狀態(tài)

頭條要聞

特朗普簽署行政令 宣布進(jìn)入國(guó)家緊急狀態(tài)

體育要聞

怒摔水瓶!杜蘭特30+12 難阻火箭遭雙殺

娛樂(lè)要聞

吳速玲曝兒子Joe是戀愛(ài)腦

財(cái)經(jīng)要聞

這不算詐騙嗎?水滴保誘導(dǎo)扣款惹眾怒

汽車(chē)要聞

寶馬25年全球銷(xiāo)量246.3萬(wàn)臺(tái) 中國(guó)仍是第一大市場(chǎng)

態(tài)度原創(chuàng)

旅游
手機(jī)
游戲
親子
軍事航空

旅游要聞

12.7億元營(yíng)收、15倍增長(zhǎng)背后:誰(shuí)在操盤(pán)萬(wàn)歲山武俠城?頂流景區(qū)直面“長(zhǎng)紅”之困|主題樂(lè)園資本論

手機(jī)要聞

魅族22Air、22 Next不開(kāi)售發(fā)布,魅族23確認(rèn)

《地平線(xiàn)6》首發(fā)為何沒(méi)PS5版?原來(lái)只是沒(méi)做完!

親子要聞

方媛曬三個(gè)女兒:大寶趴地上畫(huà)畫(huà)。二寶讀英文書(shū),三胎睡嬰兒車(chē)?yán)?/h3>

軍事要聞

海空英雄高翔逝世 曾駕駛殲-6打爆美軍機(jī)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版