国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

MI-Peaks用互信息追蹤,首次捕捉大模型推理“信息高峰”

0
分享至


始智AI wisemodel.cn社區(qū)是源自中國(guó)的中立開(kāi)放的AI開(kāi)源社區(qū)。正在,歡迎加入共同成長(zhǎng)。

你肯定見(jiàn)過(guò)大模型在解題時(shí)「裝模作樣」地輸出:「Hmm…」、「Wait, let me think」、「Therefore…」這些看似「人類(lèi)化」的思考詞。但一個(gè)靈魂拷問(wèn)始終存在:這些詞真的代表模型在「思考」,還是僅僅為了「表演」更像人類(lèi)而添加的語(yǔ)言裝飾?是模型的「頓悟時(shí)刻」,還是純粹的「煙霧彈」?

來(lái)自中國(guó)人民大學(xué)高瓴人工智能學(xué)院、上海人工智能實(shí)驗(yàn)室、倫敦大學(xué)學(xué)院(UCL)和大連理工大學(xué)的聯(lián)合研究團(tuán)隊(duì),在最新論文中首次利用信息論這把「手術(shù)刀」,精準(zhǔn)解剖了大模型內(nèi)部的推理動(dòng)態(tài),給出了令人信服的答案:當(dāng)這些「思考詞」出現(xiàn)的瞬間,模型大腦(隱空間)中關(guān)于正確答案的信息量,會(huì)突然飆升數(shù)倍!

這絕非偶然裝飾,而是真正的「信息高峰」與「決策拐點(diǎn)」!更酷的是,基于這一發(fā)現(xiàn),研究者提出了無(wú)需額外訓(xùn)練就能顯著提升模型推理性能的簡(jiǎn)單方法,代碼已開(kāi)源已上線始智AI-wisemodel開(kāi)源社區(qū),歡迎使用。


代碼地址

https://wisemodel.cn/codes/actor/MI-Peaks/intro

01.

揭秘大模型推理軌跡“信息高峰”

研究者們追蹤了像 DeepSeek-R1 系列蒸餾模型、QwQ 這類(lèi)擅長(zhǎng)推理的大模型在解題時(shí)的「腦電波」(隱空間表征)。他們測(cè)量每一步的「腦電波」與最終正確答案的互信息(Mutual Information, MI),并觀察這些互信息如何演繹變化。

驚人現(xiàn)象出現(xiàn)了:模型推理并非勻速「爬坡」,而是存在劇烈的「信息脈沖」!在特定步驟,互信息值會(huì)突然、顯著地飆升,形成顯著的「互信息峰值」(MI Peaks)現(xiàn)象。這些峰值點(diǎn)稀疏但關(guān)鍵,如同黑暗推理路徑上突然點(diǎn)亮的強(qiáng)光路標(biāo)!


這意味著什么?直覺(jué)上,這些互信息峰值點(diǎn)處的表征,模型大腦中那一刻的狀態(tài),蘊(yùn)含了更多指向正確答案的最關(guān)鍵信息!

進(jìn)一步地,研究者通過(guò)理論分析證明(定理 1 & 2),推理過(guò)程中積累的互信息越高,模型最終回答錯(cuò)誤概率的上界和下界就越緊,換言之,回答正確的概率就越高!



既然互信息峰值的現(xiàn)象較為普遍地出現(xiàn)在推理模型(LRMs)中,那么非推理模型(non-reasoning LLMs)上也會(huì)表現(xiàn)出類(lèi)似的現(xiàn)象嗎?


為了探索這一問(wèn)題,研究者選取了 DeepSeek-R1-Distill 系列模型和其對(duì)應(yīng)的非推理模型進(jìn)行實(shí)驗(yàn)。如上圖橙色線所示,在非推理模型的推理過(guò)程中,互信息往往表現(xiàn)出更小的波動(dòng),體現(xiàn)出明顯更弱的互信息峰值現(xiàn)象,且互信息的數(shù)值整體上更小。

這表明在經(jīng)過(guò)推理能力強(qiáng)化訓(xùn)練后,推理模型一方面似乎整體在表征中編碼了更多關(guān)于正確答案的信息,另一方面催生了互信息峰值現(xiàn)象的出現(xiàn)!

02.

“思考詞匯”=“信息高峰”的語(yǔ)言化身

那么,這些互信息峰值點(diǎn)處的表征,到底蘊(yùn)含著怎樣的語(yǔ)義信息?

神奇的是,當(dāng)研究者把這些「信息高峰」時(shí)刻的「腦電波」翻譯回人能看懂的語(yǔ)言(解碼到詞匯空間)時(shí),發(fā)現(xiàn)它們最常對(duì)應(yīng)的,恰恰是那些標(biāo)志性的「思考詞」:

  • 反思/停頓型:「Hmm」、「Wait」…

  • 邏輯/過(guò)渡型:「Therefore」、「So」…

  • 行動(dòng)型:「Let」、「First」…


例如,研究者隨機(jī)摘取了一些模型輸出: 「Wait, let me think differently. Let’s denote...,」 「Hmm, so I must have made a mistake somewhere. Let me double-check my calculations. First, ...」

研究團(tuán)隊(duì)將這些在互信息峰值點(diǎn)頻繁出現(xiàn)、承載關(guān)鍵信息并在語(yǔ)言上推動(dòng)模型思考的詞匯命名為「思考詞匯」(thinking tokens)。它們不是可有可無(wú)的裝飾,而是信息高峰在語(yǔ)言層面的「顯靈」,可能在模型推理路徑上扮演著關(guān)鍵路標(biāo)或決策點(diǎn)的角色!

為了證明這些 tokens 的關(guān)鍵性,研究者進(jìn)行了干預(yù)實(shí)驗(yàn),即在模型推理時(shí)抑制這些思考詞匯的生成。

實(shí)錘驗(yàn)證:實(shí)驗(yàn)結(jié)果顯示,抑制思考詞匯的生成會(huì)顯著影響模型在數(shù)學(xué)推理數(shù)據(jù)集(如 GSM8K、MATH、AIME24)上的性能;相比之下,隨機(jī)屏蔽相同數(shù)量的其他普通詞匯,對(duì)性能影響甚微。這表明這些存在于互信息峰值點(diǎn)處的思考詞匯,確實(shí)對(duì)模型有效推理具有至關(guān)重要的作用!


03.

無(wú)需訓(xùn)練,巧用“信息高峰”提升推理性能

理解了「信息高峰」和「思考詞匯」的奧秘,研究者提出了兩種無(wú)需額外訓(xùn)練即可提升現(xiàn)有 LRMs 推理性能的實(shí)用方法。


應(yīng)用一:表征訓(xùn)話


啟發(fā):既然 MI 峰值點(diǎn)的表征蘊(yùn)含豐富信息,何不讓模型「多咀嚼消化」一下?

方法:在模型推理過(guò)程中,當(dāng)檢測(cè)到生成了思考詞匯時(shí),不急于讓其立刻輸出,而是將其對(duì)應(yīng)的表征重新輸入到模型中進(jìn)行額外一輪計(jì)算,讓模型充分挖掘利用表征中的豐富信息。

效果:在多個(gè)數(shù)學(xué)推理基準(zhǔn)(GSM8K、MATH500、AIME24)上,RR 方法一致地提升了 LRMs 的推理性能。例如,在極具挑戰(zhàn)性的 AIME24 上,DeepSeek-R1-Distill-LLaMA-8B 的準(zhǔn)確率相對(duì)提升了 20%!這表明讓模型更充分地利用這些高信息量的「頓悟」表征,能有效解鎖其推理潛力。


應(yīng)用二:基于思考詞匯的測(cè)試時(shí)拓展


啟發(fā):在推理時(shí)如果允許模型生成更多 token(增加計(jì)算預(yù)算),如何引導(dǎo)模型進(jìn)行更有效的「深度思考」,而不是漫無(wú)目的地延伸?

方法:受啟發(fā)于前人工作,作者在模型完成初始推理輸出后,如果還有 token 預(yù)算,則強(qiáng)制模型以「思考詞匯」開(kāi)頭(如「Therefore」、「So」、「Wait」、「Hmm」等)繼續(xù)生成后續(xù)內(nèi)容,引導(dǎo)模型在額外計(jì)算資源下進(jìn)行更深入的推理。

效果:當(dāng) token 預(yù)算增加時(shí),TTTS 能持續(xù)穩(wěn)定地提升模型的推理性能。如圖所示,在 GSM8K 和 MATH500 數(shù)據(jù)集上,在相同的 Token 預(yù)算下,TTTS 持續(xù)優(yōu)于原始模型。在 AIME24 數(shù)據(jù)集上,盡管原始模型的性能在早期提升得較快,但當(dāng) token 預(yù)算達(dá)到 4096 后,模型性能就到達(dá)了瓶頸期;而 TTTS 引導(dǎo)下的模型,其性能隨著 Token 預(yù)算的增加而持續(xù)提升,并在預(yù)算達(dá)到 6144 后超越了原始模型。

04.

總結(jié)

這項(xiàng)研究首次揭示了 LRMs 推理過(guò)程中的動(dòng)態(tài)機(jī)制:通過(guò)互信息動(dòng)態(tài)追蹤,首次清晰觀測(cè)到 LRMs 推理過(guò)程中的互信息峰值(MI Peaks)現(xiàn)象,為理解模型「黑箱」推理提供了創(chuàng)新視角和實(shí)證基礎(chǔ)。

進(jìn)一步地,研究者發(fā)現(xiàn)這些互信息峰值處的 token 對(duì)應(yīng)的是表達(dá)思考、反思等的「思考詞匯」(Thinking Tokens),并通過(guò)干預(yù)實(shí)驗(yàn)驗(yàn)證了這些 token 對(duì)模型推理性能具有至關(guān)重要的影響。

最后,受啟發(fā)于對(duì)上述現(xiàn)象的理解和分析,研究者提出了兩種簡(jiǎn)單有效且無(wú)需訓(xùn)練的方法來(lái)提升 LRMs 的推理性能,即表征循環(huán)(Representation Recycling - RR)和基于思考詞匯的測(cè)試時(shí)擴(kuò)展(Thinking Token based Test-time Scaling - TTTS)。

研究者希望這篇工作可以為深入理解 LRMs 的推理機(jī)制提供新的視角,并進(jìn)一步提出可行的方案來(lái)進(jìn)一步推升模型的推理能力。

劉勇,中國(guó)人民大學(xué),長(zhǎng)聘副教授,博士生導(dǎo)師,國(guó)家級(jí)高層次青年人才。長(zhǎng)期從事機(jī)器學(xué)習(xí)基礎(chǔ)理論研究,共發(fā)表論文 100 余篇,其中以第一作者/通訊作者發(fā)表頂級(jí)期刊和會(huì)議論文近 50 篇,涵蓋機(jī)器學(xué)習(xí)領(lǐng)域頂級(jí)期刊 JMLR、IEEE TPAMI、Artificial Intelligence 和頂級(jí)會(huì)議 ICML、NeurIPS 等。

編輯:成蘊(yùn)年

----- END -----


wisemodel相關(guān):

系列模型:

關(guān)于wisemodel更多

1

歡迎持續(xù)關(guān)注和支持

開(kāi)源社區(qū)建設(shè)需要長(zhǎng)期堅(jiān)持和投入,更需要廣大用戶(hù)的積極參與、貢獻(xiàn)和維護(hù),歡迎大家加入wisemodel開(kāi)源社區(qū)的志愿者計(jì)劃和開(kāi)源共創(chuàng)計(jì)劃。期待更多開(kāi)發(fā)者將開(kāi)源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開(kāi)放的AI開(kāi)源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請(qǐng)加入wisemodel社群,持續(xù)關(guān)注wisemodel.cn開(kāi)源社區(qū)動(dòng)態(tài)。

2

歡迎加盟wisemodel開(kāi)源社區(qū)

始智AI wisemodel社區(qū)自2023年9月上線以來(lái),逐漸成為影響力日益擴(kuò)大的中立開(kāi)放的AI開(kāi)源社區(qū),為了加快公司發(fā)展,我們長(zhǎng)期需要技術(shù)、運(yùn)營(yíng)等人才加盟,技術(shù)側(cè)重在AI infra、后端開(kāi)發(fā),熟悉K8S、模型訓(xùn)練和推理等技術(shù), 以及熟悉開(kāi)發(fā)者生態(tài)運(yùn)營(yíng)的成員,歡迎感興趣的朋友加盟,可以通過(guò)添加wisemodel微信,或者將簡(jiǎn)歷投遞到郵箱:liudaoquan@wisemodel.cn

3

歡迎投稿優(yōu)質(zhì)內(nèi)容

歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果,鼓勵(lì)高校實(shí)驗(yàn)室、大企業(yè)研究團(tuán)隊(duì)、個(gè)人等,在wisemodel平臺(tái)上分享各類(lèi)優(yōu)質(zhì)內(nèi)容,可以是AI領(lǐng)域最新論文解讀、最新開(kāi)源成果介紹,也可以是關(guān)于AI技術(shù)實(shí)踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關(guān)于wisemodel開(kāi)源社區(qū)

始智AI wisemodel.cn開(kāi)源社區(qū)由清華校友總會(huì)AI大數(shù)據(jù)專(zhuān)委會(huì)副秘書(shū)長(zhǎng)劉道全創(chuàng)立,旨在打造和建設(shè)中立開(kāi)放的AI開(kāi)源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開(kāi)源社區(qū),匯聚主要AI開(kāi)源模型、數(shù)據(jù)集和代碼等,歡迎高??蒲性核?、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個(gè)人開(kāi)發(fā)者,以及政府部門(mén)、學(xué)會(huì)協(xié)會(huì)、聯(lián)盟、基金會(huì)等,還有投資機(jī)構(gòu)、科技媒體等,共同參與建設(shè)AI開(kāi)源創(chuàng)新生態(tài)。

向上滑動(dòng)查看

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
太陽(yáng)報(bào):大量槍迷想搶票見(jiàn)證奪冠,西漢姆聯(lián)嚴(yán)查主隊(duì)看臺(tái)購(gòu)票

太陽(yáng)報(bào):大量槍迷想搶票見(jiàn)證奪冠,西漢姆聯(lián)嚴(yán)查主隊(duì)看臺(tái)購(gòu)票

懂球帝
2026-03-26 13:21:13
學(xué)醫(yī)后才知道,保護(hù)心血管最好的運(yùn)動(dòng),不是快走慢跑,而是這個(gè)

學(xué)醫(yī)后才知道,保護(hù)心血管最好的運(yùn)動(dòng),不是快走慢跑,而是這個(gè)

垚垚分享健康
2026-03-26 13:09:39
三觀盡毀!蘿莉島新照片流出,辦公桌下趴著妙齡女郎,不堪入目!

三觀盡毀!蘿莉島新照片流出,辦公桌下趴著妙齡女郎,不堪入目!

川渝視覺(jué)
2026-02-09 10:43:27
3-1拿下陳熠,最后一個(gè)世乒賽名額到手,王藝迪笑到了最后

3-1拿下陳熠,最后一個(gè)世乒賽名額到手,王藝迪笑到了最后

眼界縱橫
2026-03-26 23:25:59
“公路閃電”終于換代,但我覺(jué)得不如豐田

“公路閃電”終于換代,但我覺(jué)得不如豐田

差評(píng)XPIN
2026-03-26 09:57:20
中日48小時(shí)交鋒:日企被排除,東京降級(jí)對(duì)華關(guān)系

中日48小時(shí)交鋒:日企被排除,東京降級(jí)對(duì)華關(guān)系

星落山間
2026-03-25 14:12:01
第86輪打擊來(lái)襲!打擊力度升級(jí),以色列海軍基地遭摧毀,川普讓步

第86輪打擊來(lái)襲!打擊力度升級(jí),以色列海軍基地遭摧毀,川普讓步

愛(ài)吃醋的貓咪
2026-03-26 22:25:02
幾乎全是假貨!利潤(rùn)高達(dá)2400%,咋消費(fèi)者還前赴后繼爭(zhēng)相購(gòu)買(mǎi)?

幾乎全是假貨!利潤(rùn)高達(dá)2400%,咋消費(fèi)者還前赴后繼爭(zhēng)相購(gòu)買(mǎi)?

夢(mèng)史
2026-01-07 10:08:05
女大學(xué)生住院做檢查,報(bào)告竟是假的!珠海中山五院等多方回應(yīng)

女大學(xué)生住院做檢查,報(bào)告竟是假的!珠海中山五院等多方回應(yīng)

南方都市報(bào)
2026-03-24 12:42:25
大眾中國(guó)回應(yīng)斯柯達(dá)退出中國(guó)市場(chǎng)

大眾中國(guó)回應(yīng)斯柯達(dá)退出中國(guó)市場(chǎng)

澎湃新聞
2026-03-26 17:33:03
男女約會(huì)隱秘又安全的12個(gè)地方,有6個(gè)場(chǎng)合你根本想不到

男女約會(huì)隱秘又安全的12個(gè)地方,有6個(gè)場(chǎng)合你根本想不到

聰明小石頭
2026-03-21 09:13:42
70歲陳寶國(guó)現(xiàn)狀:頭發(fā)胡子全白,老到認(rèn)不出,大齡兒子是他的煩惱

70歲陳寶國(guó)現(xiàn)狀:頭發(fā)胡子全白,老到認(rèn)不出,大齡兒子是他的煩惱

白面書(shū)誏
2026-03-24 18:23:07
小區(qū)樓上天天晚上都有女的大聲叫。。。

小區(qū)樓上天天晚上都有女的大聲叫。。。

微微熱評(píng)
2025-12-24 00:26:04
男同胞們別嘴硬,老實(shí)回答!

男同胞們別嘴硬,老實(shí)回答!

小光侃娛樂(lè)
2026-03-07 13:15:07
房?jī)r(jià)上漲的最強(qiáng)信號(hào)!

房?jī)r(jià)上漲的最強(qiáng)信號(hào)!

米宅
2026-03-24 07:26:02
諾基亞6600內(nèi)置無(wú)人機(jī),這設(shè)計(jì)必須封神

諾基亞6600內(nèi)置無(wú)人機(jī),這設(shè)計(jì)必須封神

3C毒物
2026-02-27 15:25:40
還記得20年前的《故事會(huì)》嗎?廣告不堪入目,簡(jiǎn)直是個(gè)紙上"暗網(wǎng)"!

還記得20年前的《故事會(huì)》嗎?廣告不堪入目,簡(jiǎn)直是個(gè)紙上"暗網(wǎng)"!

神奇故事
2026-03-17 23:54:32
漢武帝用一場(chǎng)血腥清算告訴后人,為什么最該死的永遠(yuǎn)是中間派!

漢武帝用一場(chǎng)血腥清算告訴后人,為什么最該死的永遠(yuǎn)是中間派!

掠影后有感
2026-03-26 10:50:33
伊朗格斗冠軍被捕!或被截肢+判處死刑 曾來(lái)中國(guó)參賽 擊敗5大高手

伊朗格斗冠軍被捕!或被截肢+判處死刑 曾來(lái)中國(guó)參賽 擊敗5大高手

念洲
2026-03-25 17:59:21
一夜暴跌25%!小馬哥最怕的事還是發(fā)生了:年輕人正在從騰訊溜走

一夜暴跌25%!小馬哥最怕的事還是發(fā)生了:年輕人正在從騰訊溜走

潮鹿逐夢(mèng)
2026-03-21 11:54:42
2026-03-27 00:20:49
wisemodel開(kāi)源社區(qū) incentive-icons
wisemodel開(kāi)源社區(qū)
始智AI wisemodel.cn開(kāi)源社區(qū),打造中國(guó)版“huggingface”
466文章數(shù) 14關(guān)注度
往期回顧 全部

科技要聞

美團(tuán)發(fā)布外賣(mài)大戰(zhàn)后成績(jī)單:虧損超200億

頭條要聞

張雪峰留巨額遺產(chǎn):二婚妻子或拿50% 剩下的女兒占1/3

頭條要聞

張雪峰留巨額遺產(chǎn):二婚妻子或拿50% 剩下的女兒占1/3

體育要聞

申京努力了,然而杜蘭特啊

娛樂(lè)要聞

劉曉慶妹妹發(fā)聲!稱(chēng)姐姐受身邊人挑撥

財(cái)經(jīng)要聞

油價(jià)"馴服"特朗普?一到100美元就TACO

汽車(chē)要聞

一汽奧迪A6L e-tron開(kāi)啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

親子
健康
時(shí)尚
家居
本地

親子要聞

看看把孩子嚇得哈哈哈

轉(zhuǎn)頭就暈的耳石癥,能開(kāi)車(chē)上班嗎?

400萬(wàn)人愛(ài)過(guò)的女孩,被黃謠網(wǎng)暴180天后

家居要聞

傍海而居 靜觀蝴蝶海

本地新聞

救命,這只醬板鴨已經(jīng)在我手機(jī)復(fù)仇了一萬(wàn)遍

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版