国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

中科院讓AI大模型學(xué)會"分層思考",底層神經(jīng)元也能獨當(dāng)一面了

0
分享至


說起人工智能,我們通常把它當(dāng)作一個整體來看待——輸入問題,輸出答案,就像一個黑盒子一樣神秘。但中科院自動化研究所的研究團(tuán)隊卻有了一個顛覆性的發(fā)現(xiàn):原來AI大模型內(nèi)部其實暗藏著許多"小助手",每一層神經(jīng)網(wǎng)絡(luò)都在悄悄地做著自己的決策。這項由譚雨橋、王旻政、何世柱等研究者完成的工作發(fā)表于2024年12月,論文編號為arXiv:2512.19673v1,為我們揭開了大模型內(nèi)部推理機(jī)制的神秘面紗。

這個發(fā)現(xiàn)就像是發(fā)現(xiàn)了一個公司里每個部門其實都有自己的小決策權(quán),而不是所有決定都必須等到最高層才能拍板。研究團(tuán)隊通過深入分析發(fā)現(xiàn),大模型內(nèi)部的每一層網(wǎng)絡(luò)都能形成自己的"內(nèi)部策略",就像一個多層管理結(jié)構(gòu),每層都在為最終的決策貢獻(xiàn)自己的智慧。更令人驚訝的是,不同的模型家族在內(nèi)部推理模式上竟然存在顯著差異,這就像不同公司有著截然不同的管理風(fēng)格一樣。

基于這些發(fā)現(xiàn),研究團(tuán)隊提出了一種全新的訓(xùn)練方法——"自底向上策略優(yōu)化"(BuPO)。這種方法不再像傳統(tǒng)方式那樣把模型當(dāng)作一個整體來訓(xùn)練,而是先從底層開始逐步優(yōu)化,讓每一層都學(xué)會更好的推理能力。就像培養(yǎng)一個團(tuán)隊,不是只培訓(xùn)老板,而是讓每個員工都變得更專業(yè),最終整個團(tuán)隊的表現(xiàn)自然會提升。

一、揭秘大模型內(nèi)部的"多重人格"

傳統(tǒng)的訓(xùn)練方法把大模型看作一個統(tǒng)一的整體,就像把一個復(fù)雜的交響樂團(tuán)當(dāng)作一個單獨的樂手來指揮。但研究團(tuán)隊發(fā)現(xiàn),這樣做其實忽略了模型內(nèi)部豐富的層次結(jié)構(gòu)。每個Transformer層都像樂團(tuán)中的不同聲部,雖然最終要合奏出美妙的樂章,但每個聲部都有自己獨特的作用和表現(xiàn)方式。

研究團(tuán)隊巧妙地利用了Transformer架構(gòu)中的殘差連接特性,就像剝洋蔥一樣,把每一層的貢獻(xiàn)都分離出來。他們發(fā)現(xiàn),通過將每一層的隱藏狀態(tài)與最終的輸出矩陣結(jié)合,可以構(gòu)造出所謂的"內(nèi)部層策略"和"內(nèi)部模塊策略"。這就像是給交響樂團(tuán)的每個聲部都配上了麥克風(fēng),讓我們能夠聽清楚每個部分在演奏什么。

更有趣的是,研究團(tuán)隊還定義了兩種不同粒度的內(nèi)部策略。內(nèi)部層策略關(guān)注的是每一層的整體貢獻(xiàn),就像評估一個部門的總體表現(xiàn)。而內(nèi)部模塊策略則更加細(xì)致,分別關(guān)注自注意力機(jī)制和前饋網(wǎng)絡(luò)這兩個核心組件的作用,就像分別評估部門里銷售團(tuán)隊和技術(shù)團(tuán)隊的表現(xiàn)。

通過這種分解方式,研究團(tuán)隊能夠清晰地看到信息是如何在模型內(nèi)部層層傳遞的。他們發(fā)現(xiàn),早期的層主要負(fù)責(zé)"探索",保持高度的不確定性來廣泛搜索可能的答案方向。而后期的層則專注于"收斂",逐步縮小搜索范圍,最終鎖定最佳答案。這個過程就像偵探破案,先廣撒網(wǎng)收集線索,然后逐步縮小嫌疑范圍,最終鎖定真兇。

二、不同模型的"思維風(fēng)格"大不相同

研究團(tuán)隊對比了目前最流行的幾個大模型家族,包括Qwen系列和Llama系列,結(jié)果發(fā)現(xiàn)了令人驚訝的差異。這些差異就像不同文化背景的人有著截然不同的思維方式一樣明顯。

Qwen系列模型,特別是最新的Qwen3,展現(xiàn)出了一種漸進(jìn)式的推理模式,研究者稱之為"探索-整合-收斂"(EIC)模式。這種模式非常像人類的思考過程:剛開始時大腦會發(fā)散性地思考各種可能性(探索階段),然后整理和組織這些想法(整合階段),最后聚焦到最佳答案(收斂階段)。具體來說,Qwen3的前饋網(wǎng)絡(luò)在前幾層會增加不確定性來擴(kuò)大搜索空間,中間層保持相對穩(wěn)定來整合信息,最后幾層則迅速收斂到最終答案。

相比之下,Llama系列模型的行為模式就像一個"急性子"。它們在大部分層中都保持相對較高的探索性,只在最后幾層突然"剎車"收斂到答案。這種模式雖然也能得到正確答案,但缺乏中間的整合階段,就像一個人思考問題時缺少深度加工的過程。

研究團(tuán)隊還分析了不同模塊的具體行為。自注意力機(jī)制在不同模型中的表現(xiàn)也各有特色。Qwen3的自注意力模塊始終保持正向的熵變,說明它在持續(xù)擴(kuò)大信息整合的范圍。而Llama模型的自注意力則表現(xiàn)得更加保守,變化幅度較小。

這些發(fā)現(xiàn)不僅有助于理解不同模型的內(nèi)在機(jī)制,也解釋了為什么某些模型在后續(xù)訓(xùn)練中表現(xiàn)更好。擁有漸進(jìn)式推理模式的模型似乎更容易吸收新知識,就像一個有條理的學(xué)習(xí)者比混亂的學(xué)習(xí)者更容易掌握新技能。

三、從底層開始的全新訓(xùn)練思路

基于對內(nèi)部推理機(jī)制的深入理解,研究團(tuán)隊提出了一個革命性的訓(xùn)練方法——自底向上策略優(yōu)化(BuPO)。這種方法顛覆了傳統(tǒng)的"一刀切"訓(xùn)練方式,轉(zhuǎn)而采用分層優(yōu)化的策略。

傳統(tǒng)的訓(xùn)練方法就像教一個合唱團(tuán)唱歌時,只給整個團(tuán)隊一個總體評價。而BuPO方法則像是先訓(xùn)練各個聲部,讓每個聲部都掌握好自己的部分,然后再協(xié)調(diào)整體效果。具體來說,BuPO會先選擇某個關(guān)鍵的內(nèi)部層進(jìn)行針對性訓(xùn)練,讓這一層學(xué)會更好的推理能力,然后再訓(xùn)練整個模型。

研究團(tuán)隊發(fā)現(xiàn),這種方法的關(guān)鍵在于選擇合適的"起點層"。通過分析不同層的熵變化模式,他們確定了最適合作為起點的層。對于Qwen系列模型,最佳起點通常是那些展現(xiàn)正向熵變化的層,也就是仍在進(jìn)行探索性思考的層。對于Llama系列,則選擇那些開始顯示收斂跡象但仍保持一定探索性的層。

更有趣的是,研究團(tuán)隊發(fā)現(xiàn)了內(nèi)部策略優(yōu)化的一個重要現(xiàn)象:當(dāng)對某個內(nèi)部層進(jìn)行優(yōu)化時,該層會被迫提前捕獲高層次的推理信息。這就像讓公司的中層管理者提前具備了高層戰(zhàn)略思維能力,從而為后續(xù)的整體優(yōu)化奠定了更好的基礎(chǔ)。

但這種方法也有其微妙之處。研究團(tuán)隊發(fā)現(xiàn),過度的內(nèi)部層優(yōu)化會導(dǎo)致模型性能崩潰,就像過度訓(xùn)練會讓運(yùn)動員受傷一樣。因此,他們確定了最佳的訓(xùn)練步數(shù),通常在20-30步之間,既能獲得底層優(yōu)化的好處,又避免了過度擬合的風(fēng)險。

四、實驗證明新方法確實更有效

為了驗證這種新方法的效果,研究團(tuán)隊在多個復(fù)雜的數(shù)學(xué)推理任務(wù)上進(jìn)行了全面測試。這些測試就像是給不同訓(xùn)練方法培養(yǎng)出來的學(xué)生安排同樣的考試,看誰的成績更好。

實驗涵蓋了四個主要的數(shù)學(xué)推理基準(zhǔn):MATH、AMC23、AIME24和AIME25。這些測試從不同角度考察模型的推理能力,就像綜合性考試既有選擇題又有解答題一樣全面。研究團(tuán)隊比較了BuPO方法與傳統(tǒng)的PPO、GRPO、Reinforce++和RLOO等方法的表現(xiàn)。

結(jié)果令人印象深刻。在Qwen3-4B模型上,BuPO方法在AIME24測試中獲得了4.69分的提升,在AIME25中獲得了2.30分的提升。這種提升幅度在AI訓(xùn)練領(lǐng)域已經(jīng)算是相當(dāng)顯著的改進(jìn)了。更重要的是,這種提升在不同規(guī)模的模型上都能穩(wěn)定復(fù)現(xiàn),從4B參數(shù)的小模型到8B參數(shù)的大模型都展現(xiàn)出了一致的改進(jìn)。

Llama系列模型的結(jié)果同樣令人鼓舞。在經(jīng)過中期訓(xùn)練優(yōu)化的Llama-OctoThinker模型上,BuPO方法平均獲得了1.01到3.68分的提升。這證明了新方法的通用性,不僅適用于特定的模型架構(gòu),而是一個更普遍適用的訓(xùn)練策略。

研究團(tuán)隊還進(jìn)行了更深入的分析來理解這些改進(jìn)的來源。他們發(fā)現(xiàn),BuPO訓(xùn)練后的模型在推理過程中表現(xiàn)出更穩(wěn)定的熵動態(tài)變化,這意味著模型的"思考"過程變得更加有條理和高效。同時,底層的特征表示也變得更加豐富,為后續(xù)層的處理提供了更好的基礎(chǔ)。

五、方法背后的深層機(jī)理

研究團(tuán)隊不滿足于僅僅證明新方法有效,他們還深入探索了這種改進(jìn)背后的具體機(jī)理。通過詳細(xì)的分析,他們發(fā)現(xiàn)了幾個關(guān)鍵的現(xiàn)象。

首先,當(dāng)對某個內(nèi)部層進(jìn)行優(yōu)化時,該層的隱藏狀態(tài)與最終層表示的相似度會顯著增加。這就像是讓中層管理者的思維水平接近高層領(lǐng)導(dǎo),使得信息傳遞變得更加順暢。這種現(xiàn)象表明,底層優(yōu)化確實能夠提升整個網(wǎng)絡(luò)的表示質(zhì)量。

其次,研究團(tuán)隊觀察到了一個有趣的訓(xùn)練動態(tài)。在BuPO訓(xùn)練的早期階段,模型的熵會先增加后減少,形成一個"先發(fā)散再收斂"的模式。這種模式類似于人類學(xué)習(xí)新技能時的過程:剛開始時會嘗試各種方法(發(fā)散),然后逐漸找到最有效的方式(收斂)。

研究團(tuán)隊還發(fā)現(xiàn),不同訓(xùn)練階段的作用機(jī)制也不相同。在內(nèi)部層優(yōu)化階段,主要是提升了模型的"基礎(chǔ)推理能力",就像給學(xué)生打好了數(shù)學(xué)基礎(chǔ)。而在后續(xù)的整體優(yōu)化階段,則是在這個更好的基礎(chǔ)上進(jìn)一步提升整體表現(xiàn),就像在扎實的基礎(chǔ)上學(xué)習(xí)更高級的解題技巧。

值得注意的是,這種改進(jìn)并不是簡單的參數(shù)調(diào)整,而是涉及到了模型內(nèi)部信息流的根本性改變。通過分析殘差連接的貢獻(xiàn)模式,研究團(tuán)隊發(fā)現(xiàn)BuPO訓(xùn)練后的模型在信息整合方面變得更加高效,各層之間的協(xié)作也更加緊密。

更令人驚喜的是,這種方法的改進(jìn)效果在更多樣本的情況下會進(jìn)一步放大。當(dāng)研究團(tuán)隊測試Pass@K指標(biāo)(即生成K個答案中至少有一個正確的概率)時,發(fā)現(xiàn)BuPO方法在K值較大時優(yōu)勢更加明顯。這說明新方法不僅提高了單次推理的準(zhǔn)確性,還提升了模型探索多種解決方案的能力。

說到底,這項研究最重要的貢獻(xiàn)在于改變了我們訓(xùn)練AI模型的思維方式。以前我們把模型看作一個黑盒子,現(xiàn)在我們知道了這個盒子里有著復(fù)雜而有序的內(nèi)部結(jié)構(gòu)。通過理解和利用這些內(nèi)部結(jié)構(gòu),我們能夠設(shè)計出更有效的訓(xùn)練策略,讓AI變得更聰明、更可靠。

這種"分層思考"的訓(xùn)練理念可能會推廣到更多的AI應(yīng)用領(lǐng)域。無論是自然語言處理、圖像識別還是其他復(fù)雜任務(wù),理解和優(yōu)化模型的內(nèi)部推理過程都可能帶來顯著的性能提升。對于普通用戶來說,這意味著未來的AI助手會變得更加智能和可信,能夠提供更準(zhǔn)確的答案和更合理的解釋。

當(dāng)然,這項研究也提出了新的問題和挑戰(zhàn)。如何自動選擇最佳的內(nèi)部優(yōu)化策略,如何在不同類型的任務(wù)中應(yīng)用這些發(fā)現(xiàn),以及如何將這些技術(shù)擴(kuò)展到更大規(guī)模的模型,都是值得進(jìn)一步探索的方向。不過可以肯定的是,這種"自底向上"的優(yōu)化思路為AI技術(shù)的發(fā)展開辟了一條新的道路,有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過論文編號arXiv:2512.19673v1查詢完整的研究報告。

Q&A

Q1:什么是大模型的內(nèi)部策略?

A:內(nèi)部策略是指大模型每一層神經(jīng)網(wǎng)絡(luò)都能形成自己的決策能力,就像公司里每個部門都有自己的小決策權(quán)。研究團(tuán)隊發(fā)現(xiàn)通過分析每層的輸出,可以看到模型內(nèi)部的"多重人格",每層都在為最終答案貢獻(xiàn)自己的智慧。

Q2:自底向上策略優(yōu)化方法與傳統(tǒng)訓(xùn)練有什么區(qū)別?

A:傳統(tǒng)方法把整個模型當(dāng)作一個整體來訓(xùn)練,而BuPO方法先從底層開始逐步優(yōu)化每一層的推理能力,然后再訓(xùn)練整個模型。這就像培養(yǎng)團(tuán)隊時不只培訓(xùn)老板,而是讓每個員工都變得更專業(yè),最終整體表現(xiàn)自然提升。

Q3:為什么Qwen和Llama模型的推理模式不同?

A:Qwen系列特別是Qwen3展現(xiàn)出漸進(jìn)式的"探索-整合-收斂"模式,很像人類思考過程。而Llama系列更像"急性子",大部分時候保持探索性,只在最后突然收斂。這些差異影響了它們在后續(xù)訓(xùn)練中的表現(xiàn),擁有漸進(jìn)式推理的模型更容易吸收新知識。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
我是河南人,從臺灣回來,實在忍不住想說:臺灣給我的5點印象

我是河南人,從臺灣回來,實在忍不住想說:臺灣給我的5點印象

i書與房
2026-01-01 16:58:55
美國提醒日本,小心被中國揍!日本天皇急召高市早苗:有要事交代

美國提醒日本,小心被中國揍!日本天皇急召高市早苗:有要事交代

興史興談
2025-12-31 18:51:20
一歲寶寶突然性情大變,厭食一周!上海醫(yī)生檢查后發(fā)現(xiàn)竟是這個原因,奶奶驚呼:疏忽了

一歲寶寶突然性情大變,厭食一周!上海醫(yī)生檢查后發(fā)現(xiàn)竟是這個原因,奶奶驚呼:疏忽了

環(huán)球網(wǎng)資訊
2026-01-01 07:16:13
無意之中和親戚談戀愛是啥體驗?網(wǎng)友:近親不能結(jié)婚,建議五代外

無意之中和親戚談戀愛是啥體驗?網(wǎng)友:近親不能結(jié)婚,建議五代外

解讀熱點事件
2025-12-29 01:45:30
最低溫-11℃!小雪局部中雪、小雨或雨夾雪,陣風(fēng)7~8級,山東最新元旦假期天氣→

最低溫-11℃!小雪局部中雪、小雨或雨夾雪,陣風(fēng)7~8級,山東最新元旦假期天氣→

魯中晨報
2026-01-01 16:25:12
2025年有一種痛苦叫搬進(jìn)了“大平層”,不好住不好賣,已淪不動產(chǎn)

2025年有一種痛苦叫搬進(jìn)了“大平層”,不好住不好賣,已淪不動產(chǎn)

巢客HOME
2025-12-25 07:25:03
母親電話說新年天冷別回去了,我回答說好,卻收到她要的禮物清單

母親電話說新年天冷別回去了,我回答說好,卻收到她要的禮物清單

周哥一影視
2025-12-30 11:30:23
因長得太漂亮,7次拒絕導(dǎo)演要求遭打壓,如今43歲才等到掌聲

因長得太漂亮,7次拒絕導(dǎo)演要求遭打壓,如今43歲才等到掌聲

黎兜兜
2025-12-25 21:57:32
臺海和平新方案橫空出世:拋棄,“一國兩制”的新模式行不行?

臺海和平新方案橫空出世:拋棄,“一國兩制”的新模式行不行?

解鎖世界風(fēng)云
2025-12-28 00:10:47
吳越公開84歲父親中風(fēng)沒去養(yǎng)老院,在家請護(hù)工,自己53歲還未育

吳越公開84歲父親中風(fēng)沒去養(yǎng)老院,在家請護(hù)工,自己53歲還未育

銀河史記
2025-12-17 01:26:27
好萊塢電影很少以中國為反派?美國:把中國設(shè)為最終大Boss更厲害

好萊塢電影很少以中國為反派?美國:把中國設(shè)為最終大Boss更厲害

詩意世界
2025-12-31 17:34:55
倫銅破萬+庫存見底!6元銅陵有色,下一個10倍大黑馬?

倫銅破萬+庫存見底!6元銅陵有色,下一個10倍大黑馬?

墜入二次元的海洋
2026-01-01 15:45:46
榮耀新機(jī)撞臉iPhone17 Pro Max!配色、鏡頭模組高度相似

榮耀新機(jī)撞臉iPhone17 Pro Max!配色、鏡頭模組高度相似

鞭牛士
2025-12-30 18:19:14
明朝一男子將私房錢藏于木雕中,藏了600年,幾任收藏家都沒發(fā)現(xiàn)

明朝一男子將私房錢藏于木雕中,藏了600年,幾任收藏家都沒發(fā)現(xiàn)

銘記歷史呀
2025-12-30 18:14:57
許光達(dá)愧受大將軍銜,他對賀老總說:段師長才是實至名歸的大將

許光達(dá)愧受大將軍銜,他對賀老總說:段師長才是實至名歸的大將

健康快樂丁
2026-01-01 19:11:26
京粵大戰(zhàn)在即,廣東傳來壞消息,3大支柱缺一門,杜鋒拿誰來填補(bǔ)

京粵大戰(zhàn)在即,廣東傳來壞消息,3大支柱缺一門,杜鋒拿誰來填補(bǔ)

萌蘭聊個球
2026-01-01 11:43:47
給2025最好的10部國產(chǎn)劇排名:《生萬物》僅排第2,第1名沒有爭議

給2025最好的10部國產(chǎn)劇排名:《生萬物》僅排第2,第1名沒有爭議

小老頭奇聞
2026-01-01 19:28:01
當(dāng)著70多國的面,普京直言被中國蒙在鼓里,直到最后一刻才知道

當(dāng)著70多國的面,普京直言被中國蒙在鼓里,直到最后一刻才知道

趣生活
2025-12-31 21:01:58
票價原路退回,羅永浩剛剛發(fā)文確認(rèn)!此前承諾166.87萬元門票收入將全捐

票價原路退回,羅永浩剛剛發(fā)文確認(rèn)!此前承諾166.87萬元門票收入將全捐

每日經(jīng)濟(jì)新聞
2026-01-01 18:18:06
笑死!原來這才是基層公務(wù)員真實的生活

笑死!原來這才是基層公務(wù)員真實的生活

夜深愛雜談
2025-12-08 20:20:44
2026-01-01 20:51:00
至頂AI實驗室 incentive-icons
至頂AI實驗室
一個專注于探索生成式AI前沿技術(shù)及其應(yīng)用的實驗室。
896文章數(shù) 151關(guān)注度
往期回顧 全部

科技要聞

特斯拉Model 3車主首度全程自駕橫穿美國

頭條要聞

女子稱奶奶去世公司不批假被逼離職 公司法人:害群之馬

頭條要聞

女子稱奶奶去世公司不批假被逼離職 公司法人:害群之馬

體育要聞

2026,這些英超紀(jì)錄可能會被打破

娛樂要聞

跨年零點時刻好精彩!何炅飛奔擁抱

財經(jīng)要聞

巴菲特「身退,權(quán)還在」

汽車要聞

一汽-大眾2025年整車銷量超158萬輛 燃油車市占率創(chuàng)新高

態(tài)度原創(chuàng)

健康
時尚
教育
本地
手機(jī)

元旦舉家出行,注意防流感

2025年,記住她們的名字!

教育要聞

辭舊迎新 歡樂滿園 ——青島敦化路小學(xué)2026元旦慶?;顒泳驶仡?/h3>

本地新聞

即將過去的2025年,對重慶的影響竟然如此深遠(yuǎn)

手機(jī)要聞

疑似麒麟9050爆料:1+7+2十核架構(gòu)加持,多核跑分突破9200!

無障礙瀏覽 進(jìn)入關(guān)懷版