国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

終結(jié)Transformer統(tǒng)治!清華姚班校友出手,劍指AI「災(zāi)難性遺忘」

0
分享至

大模型「災(zāi)難性遺忘」問題或?qū)⒂瓉硗黄啤=眨?/strong>NeurIPS 2025收錄了谷歌研究院的一篇論文,其中提出一種全新的「嵌套學(xué)習(xí)(Nested Learning)」架構(gòu)。實驗中基于該框架的「Hope」模型在語言建模與長上下文記憶任務(wù)中超越Transformer模型,這意味著大模型正邁向具備自我改進能力的新階段。

「災(zāi)難性遺忘」,是神經(jīng)網(wǎng)絡(luò)最根深蒂固的毛病之一,比如:

·剛學(xué)會減法,就忘記了以前學(xué)到的加法;

·切換到一個新游戲,模型在前一游戲的得分就會掉到隨機水平;

·微調(diào)大模型,常出現(xiàn)「風(fēng)格漂移」與「舊知識遺忘」現(xiàn)象

它的存在,使得大模型難以像人類那樣持續(xù)學(xué)習(xí)。

在過去十年中,得益于強大的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)及其訓(xùn)練算法,機器學(xué)習(xí)取得了驚人的進步。

但「災(zāi)難性遺忘」的老毛病并沒有被根治。

為破解這一難題,來自谷歌的研究人員提出了一種持續(xù)學(xué)習(xí)的全新范式——嵌套學(xué)習(xí)(Nested Learning),并且已被NeurIPS 2025接收。


論文地址:https://abehrouz.github.io/files/NL.pdf

「嵌套學(xué)習(xí)」將模型視為一系列更小的、相互嵌套的優(yōu)化問題,每個問題都有其獨立的內(nèi)部工作流程。

這樣的設(shè)計旨在緩解甚至完全避免大模型的「災(zāi)難性遺忘」。


破解「災(zāi)難性遺忘」根源

在「持續(xù)學(xué)習(xí)」與「自我改進」方面,人類大腦無疑是黃金標準。

它通過「神經(jīng)可塑性」不斷重構(gòu)自身結(jié)構(gòu),以應(yīng)對新的經(jīng)驗、記憶與學(xué)習(xí)任務(wù)。

缺乏這種能力的人,會陷入類似「順行性遺忘」的狀態(tài)——只能依賴即時情境而無法積累知識。

當前的大模型同樣存在類似局限:

它們的知識要么局限于輸入窗口的即時上下文,要么被固定在預(yù)訓(xùn)練階段學(xué)到的靜態(tài)信息中。

這正是大模型出現(xiàn)「災(zāi)難性遺忘」的根源——在學(xué)習(xí)新任務(wù)時會犧牲對舊任務(wù)的掌握能力。

這也是長期困擾機器學(xué)習(xí)的核心問題。

簡單地不斷用新數(shù)據(jù)更新模型參數(shù)的方法,往往會導(dǎo)致「災(zāi)難性遺忘」。

研究者通常通過修改網(wǎng)絡(luò)結(jié)構(gòu)(Architecture Tweaks)或優(yōu)化算法(Optimization Rules)來緩解這種問題。

然而這樣做,長期存在一個誤區(qū):我們一直將模型結(jié)構(gòu)(網(wǎng)絡(luò)架構(gòu))與優(yōu)化算法視作兩個獨立的部分。

這阻礙了統(tǒng)一且高效學(xué)習(xí)系統(tǒng)的構(gòu)建。

在論文中,研究人員提出了「嵌套學(xué)習(xí)」,打破了結(jié)構(gòu)與算法的界限,以彌合二者之間的鴻溝。

也就是說「嵌套學(xué)習(xí)」不再將機器學(xué)習(xí)模型視作一種單一、連續(xù)的過程,而是一個由多層相互關(guān)聯(lián)的優(yōu)化問題組成的系統(tǒng),這些問題同時進行優(yōu)化。

研究人員認為,「模型結(jié)構(gòu)」與「訓(xùn)練規(guī)則」本質(zhì)上是同一概念,只是處于不同的「優(yōu)化層級」上,每個層級都有獨立的信息流動與更新速率。

通過識別這種內(nèi)在結(jié)構(gòu),使得我們能夠構(gòu)建更深層的學(xué)習(xí)組件,從而解決像「災(zāi)難性遺忘」這類長期難題。

為了驗證這一理論假設(shè),研究人員提出了一個概念驗證型的自我修正架構(gòu),命名為「Hope(希望)」。

該模型在語言建模任務(wù)中表現(xiàn)出色,并在長上下文記憶管理上優(yōu)于當前最先進的模型。

嵌套學(xué)習(xí)的新范式

在嵌套學(xué)習(xí)的框架下,一個復(fù)雜的機器學(xué)習(xí)模型,是由多個一致且相互連接的優(yōu)化問題組成的系統(tǒng)。

這些優(yōu)化問題可以是層層嵌套的,也可以并行運行。


每個內(nèi)部優(yōu)化子問題,都有自己獨立的信息,即其學(xué)習(xí)所依賴的信息集合。

這一視角意味著:現(xiàn)有的深度學(xué)習(xí)方法,從本質(zhì)上是在壓縮其內(nèi)部信息流。

嵌套學(xué)習(xí)允許我們設(shè)計出具備更深計算深度的學(xué)習(xí)組件。

為了說明這一范式,研究人員以「聯(lián)想記憶」為例,這是一種能夠通過一個刺激喚起另一個記憶的能力,就像我們看到一張臉就想起一個名字。

研究人員推論,在訓(xùn)練過程中,尤其是「反向傳播」階段,可以被建模為一種聯(lián)想記憶。該模型學(xué)習(xí)將數(shù)據(jù)點映射到其對應(yīng)的局部誤差值,該局部誤差值衡量了該數(shù)據(jù)點的「驚奇度」或「意外性」。

根據(jù)前人研究,研究人員發(fā)現(xiàn)關(guān)鍵的網(wǎng)絡(luò)結(jié)構(gòu)組件,比如Transformer模型的「注意力機制」,也可形式化為簡單的聯(lián)想記憶模塊,用于學(xué)習(xí)序列中各個token之間的映射關(guān)系。


如上圖所示,大腦中統(tǒng)一且可重用的結(jié)構(gòu)以及多時間尺度的更新是人類持續(xù)學(xué)習(xí)的關(guān)鍵組成部分。

嵌套學(xué)習(xí)允許大腦的每個組成部分進行多時間尺度的更新,同時表明諸如Transformer等眾所周知的架構(gòu),實際上是具有不同更新頻率的線性層。

嵌套學(xué)習(xí)模型中的統(tǒng)一結(jié)構(gòu)與多頻率更新機制,與人腦的神經(jīng)波動與神經(jīng)可塑性結(jié)構(gòu)十分相似。

它使我們能夠在人工模型中定義「多時間尺度更新」:每個學(xué)習(xí)組件可在不同頻率下更新參數(shù)。

通過定義「更新頻率」,即每個組件參數(shù)被調(diào)整的頻率,我們可以將這些優(yōu)化問題組織成有序的層級結(jié)構(gòu)。

這一結(jié)構(gòu)正是嵌套學(xué)習(xí)范式的核心。

嵌套學(xué)習(xí)的應(yīng)用

嵌套學(xué)習(xí)視角,為我們提供了改進現(xiàn)有算法和架構(gòu)的原則性方法:

深度優(yōu)化器(Deep Optimizers)

嵌套學(xué)習(xí)將優(yōu)化器(Optimizer,例如基于動量的優(yōu)化器)視為一種聯(lián)想記憶模塊。

這使我們能從聯(lián)想記憶的角度重新設(shè)計優(yōu)化算法。

傳統(tǒng)優(yōu)化器通常依賴「點積相似度」來衡量樣本間相似性,但這一機制無法考慮樣本間的復(fù)雜關(guān)系。

通過將優(yōu)化目標改為標準損失函數(shù),研究人員提出了新的動量更新公式,使優(yōu)化過程對不完美數(shù)據(jù)更具魯棒性。

連續(xù)記憶系統(tǒng)(Continuum Memory Systems)

在標準的Transformer模型中,序列建模層承擔短期記憶,保存當前上下文信息;而前饋神經(jīng)網(wǎng)絡(luò)層則充當長期記憶,存儲訓(xùn)練前的知識。

嵌套學(xué)習(xí)擴展了這一思想,提出「連續(xù)記憶系統(tǒng)」,這是一種由多個模塊組成的記憶譜系,每個模塊以不同頻率進行更新,這為持續(xù)學(xué)習(xí)創(chuàng)建了一個更加豐富、高效的記憶系統(tǒng)。

Hope:具備連續(xù)記憶的自我修正架構(gòu)

研究人員基于以上嵌套學(xué)習(xí)原則設(shè)計了「Hope」模型,它是「Titans架構(gòu)」的改進版本。

Titans架構(gòu)是一種長期記憶機制,會根據(jù)記憶的「驚奇度」來優(yōu)先保留信息。

但它僅支持兩層參數(shù)更新,因此只能實現(xiàn)一階的「上下文內(nèi)學(xué)習(xí)」。


上圖比較了Hope與Transformers的架構(gòu)主干。

相比之下,Hope是一種可自我修改的遞歸架構(gòu),能實現(xiàn)無限層級的上下文內(nèi)學(xué)習(xí)。

它還結(jié)合了連續(xù)記憶系統(tǒng)(CMS),能夠擴展到更大的上下文窗口。

換言之,Hope可以通過自指過程優(yōu)化自身記憶,形成具有無限嵌套學(xué)習(xí)層級的架構(gòu)。

研究人員進行了多組實驗,來評估深度優(yōu)化器與Hope架構(gòu)在語言建模、長上下文推理、持續(xù)學(xué)習(xí)及知識整合等任務(wù)上的表現(xiàn)。

實驗結(jié)果顯示:

在常用的語言建模與常識推理任務(wù)上,Hope相較現(xiàn)代遞歸模型與標準Transformer模型展現(xiàn)出更低的困惑度與更高的準確率。


在長上下文任務(wù)中,Hope與Titans模型均顯著優(yōu)于TTT與Mamba2,證明連續(xù)記憶系統(tǒng)能更高效地處理超長序列信息。


Hope框架在標準基準上表現(xiàn)優(yōu)于現(xiàn)有模型,印證了當架構(gòu)與算法被統(tǒng)一后,學(xué)習(xí)系統(tǒng)可以變得更具表現(xiàn)力、更高效、更具自我改進能力。

這意味著,我們對深度學(xué)習(xí)的理解邁出了新的一步。

通過將「模型結(jié)構(gòu)」與「優(yōu)化過程」統(tǒng)一為一個連貫的、層層嵌套的優(yōu)化系統(tǒng),Hope框架為模型設(shè)計提供了一種新范式。

這一發(fā)現(xiàn),為彌合當前大模型遺忘特性與人腦持續(xù)學(xué)習(xí)能力之間的差距奠定了堅實基礎(chǔ),或許將有助于破解大模型「災(zāi)難性遺忘」的根源性問題。

作者介紹

Peilin Zhong


Peilin Zhong

Peilin Zhong是谷歌紐約(Google NYC)算法與優(yōu)化團隊的一名研究科學(xué)家,該團隊由Vahab Mirrokni領(lǐng)導(dǎo)。

他的博士畢業(yè)于哥倫比亞大學(xué),師從Alex Andoni、Cliff Stein及Mihalis Yannakakis教授,本科畢業(yè)于清華大學(xué)交叉信息研究院(姚班)。

Peilin Zhong致力于理論計算機科學(xué),尤其側(cè)重于算法的設(shè)計與分析。他的具體研究方向有并行與大規(guī)模并行算法、Sketching算法、流式算法、圖算法、機器學(xué)習(xí)、高維幾何、度量嵌入等。

參考資料:

https://research.google/blog/introducing-nested-learning-a-new-ml-paradigm-for-continual-learning/

文章來源:新智元。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
“向14億國人道歉!”亂港暴徒在法庭上大喊:是美國間諜指使的!

“向14億國人道歉!”亂港暴徒在法庭上大喊:是美國間諜指使的!

來科點譜
2025-12-24 09:01:30
搶中國原油的美軍,意識到玩砸了,收到最新命令,60天內(nèi)不能動手

搶中國原油的美軍,意識到玩砸了,收到最新命令,60天內(nèi)不能動手

阿器談史
2025-12-26 20:55:00
桑切斯過56歲生日,深情告白貝佐斯,說以前想不到自己會這么幸福

桑切斯過56歲生日,深情告白貝佐斯,說以前想不到自己會這么幸福

小書生吃瓜
2025-12-27 18:06:23
不信任之人反倒成了救星?皇馬上演黑色幽默,阿隆索執(zhí)教備受指責

不信任之人反倒成了救星?皇馬上演黑色幽默,阿隆索執(zhí)教備受指責

里芃芃體育
2025-12-28 05:00:06
張韶涵的渣女站姿火了!腿縫幾乎沒有間距,看得人眼睛都直了

張韶涵的渣女站姿火了!腿縫幾乎沒有間距,看得人眼睛都直了

TVB的四小花
2025-12-03 14:33:08
1966年,江青誣陷蕭華的兒子殺人,蕭華:我兒子還在清華讀書

1966年,江青誣陷蕭華的兒子殺人,蕭華:我兒子還在清華讀書

揚平說史
2025-12-25 22:07:41
又讓張召忠說中了?東拼西湊550億建的2艘航母,如今徹底成為累贅

又讓張召忠說中了?東拼西湊550億建的2艘航母,如今徹底成為累贅

泠泠說史
2025-12-24 17:42:56
黑龍江2026年退休人員,養(yǎng)老金只比今年退休微增

黑龍江2026年退休人員,養(yǎng)老金只比今年退休微增

椰青美食分享
2025-12-27 11:18:34
機場偶遇張靚穎!人白 個高 會打扮!

機場偶遇張靚穎!人白 個高 會打扮!

阿廢冷眼觀察所
2025-12-27 13:37:08
演員王星自曝在緬甸“被刷網(wǎng)貸”,最終自己選擇分期還掉

演員王星自曝在緬甸“被刷網(wǎng)貸”,最終自己選擇分期還掉

韓小娛
2025-12-27 20:33:06
我調(diào)任市委書記后,被初戀嘲笑,秘書叫我書記后她驚呆了

我調(diào)任市委書記后,被初戀嘲笑,秘書叫我書記后她驚呆了

秋風(fēng)專欄
2025-12-23 15:18:07
“新型啃老”到底毀了多少家庭?你絕對想不到的真相!

“新型啃老”到底毀了多少家庭?你絕對想不到的真相!

特約前排觀眾
2025-12-28 00:05:13
輸給北控4分!揪出3大“廢柴”,坑慘了遼寧隊

輸給北控4分!揪出3大“廢柴”,坑慘了遼寧隊

體育哲人
2025-12-27 23:17:27
投票作弊!飯圈瘋狂刷票,只為壓倒小胖,網(wǎng)友:她們聯(lián)合對付東哥

投票作弊!飯圈瘋狂刷票,只為壓倒小胖,網(wǎng)友:她們聯(lián)合對付東哥

徐扙老表哥
2025-12-25 21:09:28
金價真的是一夜變天,12月27日最新報價,全國金價竟然差這么多?

金價真的是一夜變天,12月27日最新報價,全國金價竟然差這么多?

前沿天地
2025-12-27 12:58:23
靈魂拷問:電車銷量占比超53%!車企還有必要研發(fā)好的內(nèi)燃機嗎?

靈魂拷問:電車銷量占比超53%!車企還有必要研發(fā)好的內(nèi)燃機嗎?

少數(shù)派報告Report
2025-12-27 07:10:16
日本神奈川某高中因JK校服太可愛了遭扎堆偷拍

日本神奈川某高中因JK校服太可愛了遭扎堆偷拍

隨波蕩漾的漂流瓶
2025-12-26 18:35:03
47歲蘭帕德快禿成光頭!率隊8分領(lǐng)跑英冠:破44年魔咒 主場8連斬

47歲蘭帕德快禿成光頭!率隊8分領(lǐng)跑英冠:破44年魔咒 主場8連斬

風(fēng)過鄉(xiāng)
2025-12-27 10:12:42
ESPN分析師談湖人隊:和勇士隊有點類似,奪冠窗口基本上已經(jīng)關(guān)閉

ESPN分析師談湖人隊:和勇士隊有點類似,奪冠窗口基本上已經(jīng)關(guān)閉

好火子
2025-12-28 03:37:24
人民幣持續(xù)升值,會引發(fā)全球金融海嘯

人民幣持續(xù)升值,會引發(fā)全球金融海嘯

何毅商業(yè)財經(jīng)
2025-12-27 20:10:50
2025-12-28 05:24:49
算法與數(shù)學(xué)之美 incentive-icons
算法與數(shù)學(xué)之美
分享知識,交流思想
5277文章數(shù) 64599關(guān)注度
往期回顧 全部

科技要聞

小米也漲價了!業(yè)界稱終端再不漲明年必虧

頭條要聞

美媒:特朗普顯然觸及了中國的紅線 中方怒了

頭條要聞

美媒:特朗普顯然觸及了中國的紅線 中方怒了

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂要聞

張昊唯逃稅涉黃風(fēng)波落幕:法院認定朋友造謠

財經(jīng)要聞

注意,開始拉物價了!

汽車要聞

好音響比大屏更重要?車企開始“聽”用戶的

態(tài)度原創(chuàng)

健康
旅游
數(shù)碼
教育
軍事航空

這些新療法,讓化療不再那么痛苦

旅游要聞

來廣東跨年,大家的選擇就是最寶貴的信任票

數(shù)碼要聞

最高5.19 萬!小米新品火熱開賣,“價格屠夫”徹底不裝了

教育要聞

五年級附加題難度確實不小,很多孩子看到就直接放棄!

軍事要聞

俄稱已控制庫皮揚斯克 正清繳烏軍

無障礙瀏覽 進入關(guān)懷版