国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

下一個Transformer可能又被Google做出來了

0
分享至


作者 | 周一笑
郵箱 | zhouyixiao@pingwest.com

如果把現在的頂尖大模型比作一個人,那它一定患有一種罕見的神經系統(tǒng)疾病:順行性遺忘癥(Anterograde Amnesia)。

這是 Google Research 研究員、最近最受關注的一篇論文《Nested Learning: The Illusion of Deep Learning Architectures》第一作者 Ali Behrouz 拋出的一個讓所有人陷入沉思的比喻。

看過諾蘭的電影《記憶碎片》(Memento)的人更能理解這種絕望。這種病癥的患者擁有完好的“過往記憶”(Retrograde Memory),他們記得發(fā)病前的一切,我是誰,我來自哪里,我有什么技能。但對于發(fā)病后發(fā)生的所有事情,他們永遠無法形成“新的長期記憶”。他們只能活在短暫的“當下”,幾分鐘后,一切就會被重置。

這就是現在 AI 模型的真實寫照。

無論Gemini或是ChatGPT多么博學,如果不聯網搜索,它們都只能依靠預訓練階段獲得的出廠知識(也就是“發(fā)病前”的記憶)來回答問題。而在對話窗口里,無論你教給它多少新公司的業(yè)務邏輯,或者糾正了它多少次代碼錯誤,這些信息都只停留在短暫的上下文窗口里。

一旦窗口關閉,或者顯存被重置,它就像金魚一樣,把剛才發(fā)生的一切忘得干干凈凈 。下一次見面,它依然是那個出廠時的它,絲毫沒有因為與你的交互而變得更聰明一點。

為什么擁有超級算力的 AI,卻治不好這個健忘癥?

長期以來,行業(yè)有一種二元對立的看法,認為 AI 的“架構”(Architecture)和“優(yōu)化器”(Optimizer)是兩個截然不同的物種。

架構是骨架(如 Transformer),它是靜態(tài)的,出廠即凍結,負責“推理”?!皟?yōu)化器”是雕刻刀(如 Adam、SGD),它是動態(tài)的,只在工廠里用來訓練模型,出廠后就被沒收了。

我們習慣了把 AI 當作一個靜態(tài)產品,訓練好了,打包發(fā)布,用戶只管用。


但在 Google 最新發(fā)布的 52 頁硬核論文《Nested Learning: The Illusion of Deep Learning Architectures》(嵌套學習:深度學習架構的幻覺)中,研究團隊試圖告訴我們,這其實是一種幻覺,是我們人為制造的自我設限。

如果架構和優(yōu)化器本質上是同一個東西呢?如果并沒有所謂的“訓練階段”和“推理階段”之分,一切都只是不同頻率的“記憶壓縮”過程呢?

基于這個大膽的假設,Google 團隊提出了一個名為 HOPE 的新框架。他們并沒有簡單地堆砌參數,而是試圖從底層邏輯上重構 AI 的“大腦結構”,讓它不再是一個出廠即固化的工具,而是在每一次交互中都能微調自己、擁有“快慢記憶系統(tǒng)”的動態(tài)生命體。

而這篇論文也被不少人稱為“Attention Is All You Need V2”,這篇論文提出的Transformer 架構成就了今天大模型的火熱,而HOPE讓人們期待它成為下一個Transformer 級別的創(chuàng)新。


Ali Behrouz 在 NeurIPS 2025 現場講解Nested Learning。

1

拆解“幻覺”:被遺忘的中間地帶

要治好“健忘癥”,我們首先得看看現在的 AI 大腦里到底裝了什么。

在 Ali Behrouz 的解構下,目前的 Transformer 架構呈現出一種極端的“精神分裂”狀態(tài)。如果不使用復雜的數學術語,我們可以把它的內部組件看作兩個極端:

一個是“極快”的 Attention(注意力機制)。它時刻處于亢奮狀態(tài),對你輸入的每一個字(Token)都進行瞬時的計算和響應。它的更新頻率幾乎是無限的,這讓模型擁有了所謂的上下文學習能力(In-Context Learning),你剛說的話,它馬上就能用。

另一個是“極慢”的 MLP(前饋神經網絡)。它是模型的長期記憶庫,承載了絕大多數參數。但它的更新頻率是 0。這部分像一塊凍結的硬盤,除非你耗費巨資進行全量微調(Fine-tuning),否則它永遠不會改變。

在這兩者之間,存在著一個巨大的真空地帶。

這就是“幻覺”的根源。人類的大腦并不是這樣工作的。我們的記憶是一個連續(xù)的頻譜,我們有幾秒鐘的感官記憶,有幾小時的工作記憶,也有幾天甚至幾年的長期記憶。我們的腦突觸并不是非黑即白,而是以各種不同的頻率在不斷微調。

為了填補這個真空,Google 團隊提出了 Nested Learning(嵌套學習) 的概念。我們可以把它想象成一套精密咬合的齒輪系統(tǒng)”:

  • 最外層的小齒輪轉得飛快(處理當前的對話);

  • 中間層的齒輪轉得稍慢(記住過去幾小時或幾天的任務);

  • 最里層的大齒輪轉得極慢(沉淀世界觀和基礎知識)。

為了證明這種統(tǒng)一性在生物學上的合理性,他甚至在論文中引用了一個非常硬核的神經科學案例,半球切除術(Hemispherectomy) 。

醫(yī)學發(fā)現,即使切掉人類的一半大腦,通常是為了治療嚴重癲癇,剩下的一半腦組織也能通過重組資源,接管幾乎所有功能,人依然能正常生活。這說明大腦并沒有什么“專門負責 Attention 的模塊”或“專門負責 MLP 的模塊”,神經組織是通用的、可復用的。

同樣的道理,AI 的“架構”和“優(yōu)化器”本質上也是同一種東西,只是處于不同的嵌套層級:

  • 傳統(tǒng)的模型記憶的是“數據”(Token);

  • 優(yōu)化器(如 Adam)記憶的是“梯度”(Gradient)。即“我上次在這個地方犯了錯,下次要修正” 。

既然都是在“記憶信息”并“更新狀態(tài)”,為什么我們要把它們人為地割裂開來?也許我們不需要在這個二元對立的框架里修修補補,可以直接設計一個全頻率覆蓋的動態(tài)系統(tǒng)。

1

HOPE 的三層設計

基于 Nested Learning 的理論,Google 團隊交出了一份具體的工程答卷,還起了一個充滿寓意的名字:HOPE (High-order OPtimization and Expressivity)。

如果說傳統(tǒng)的 Transformer 是一個只有短期記憶的“單核處理器”,那么 HOPE 更像是一個符合神經科學原理的“雙重記憶大腦”。它通過兩個組件,復刻了類似生物大腦中海馬體(Hippocampus)與大腦皮層(Cortex)的協(xié)作機制 。

1. 快系統(tǒng):像海馬體一樣敏銳的 Titans

在 HOPE 的最前端,是處理即時信息的“快系統(tǒng)”。這里 Google 使用了論文一作 Ali Behrouz 之前的另一項成名作Titans。

你可以把 Titans 理解為一種“超級 RNN”。它就像人類靈活的海馬體,負責快速捕捉和編碼當下的新知。傳統(tǒng)的 AI 模型在處理新信息時是被動的,但 HOPE 里的 Titans 模塊具有極強的“主觀能動性”,它是 Self-Modifying(自我修改) 的。

它不僅是在讀取數據,更是在根據當前的上下文,實時生成自己這一步學習所需要的 Key、Value,甚至自己決定這一次記憶的 Learning Rate(學習率) 。這意味著,它能敏銳地判斷眼前信息的重要性,快速形成短期記憶。

2. 慢系統(tǒng):像皮層一樣厚重的 CMS

這是整個架構中最具顛覆性的設計。HOPE 引入了 Continuum Memory System (連續(xù)記憶系統(tǒng),CMS)。CMS 就像是厚重的大腦皮層,負責將經過篩選的知識長久地刻印在神經元中。


Google 將人腦電波的頻率機制引入了 AI 架構設計,構建了不同更新頻率的層級

在 CMS 中,模型內部的 MLP(前饋網絡)不再是鐵板一塊,而是被切分成了不同的層級,就像不同轉速的齒輪:

  • 高頻層: 可能每處理幾百個字就更新一次,用于捕捉剛才對話里的新定義。

  • 中頻層: 可能每處理幾萬字更新一次,用于適應一個新的項目背景。

  • 低頻層: 幾乎不更新,用于穩(wěn)固語言的語法和常識 。

左側的 HOPE 架構擁有豐富的中間層級

這種設計避免了災難性遺忘。當新知識涌入時,它會被優(yōu)先存儲在高頻層,而不會去驚擾低頻層里的舊知識。隨著時間的推移,真正重要的信息才會像沙漏里的沙子一樣,慢慢沉淀到深層。

3. 優(yōu)化器也有了“記憶”

Google 的激進之處在于,他們不僅改造了大腦(架構),還改造了老師(優(yōu)化器)。

為了配合這就這套復雜的系統(tǒng),他們設計了一個名為 M3 (Multi-scale Momentum Muon) 的新優(yōu)化器。

既然模型分了層,優(yōu)化器為什么不能分層?普通的 Adam 優(yōu)化器只看眼前的梯度(Local Structure),容易陷入短視。而 M3 優(yōu)化器本身也被設計成了嵌套結構,它有一層“快動量”負責看腳下的路,還有一層“慢動量”負責看遠處的山脈(全局 Loss Landscape)。

這意味著,連負責訓練的算法本身,都擁有了更深遠的記憶力。


M3 優(yōu)化器在 ImageNet 訓練任務中,展現出了更快的收斂速度和更低的 Loss

實驗數據顯示,這種設計在 ImageNet 和大語言模型訓練上,不僅收斂更快,而且最終效果更好。

4. 給工程師的“后悔藥”

對于工業(yè)界的開發(fā)者來說,HOPE 最迷人的地方可能不是從頭訓練一個新模型,而是它提供了一種“原地改造”的可能性。

Ali Behrouz 在分享中提到了一個名為 Ad-hoc Level Stacking 的技巧,你不需要拋棄手里現有的 Llama 或 Qwen 模型。你可以直接拿來一個預訓練好的模型,人為地將它的不同層指定為不同的“更新頻率”,把淺層設為高頻,深層設為低頻 。

這就像是給一輛已經出廠的舊車,通過刷新固件就解鎖了自動駕駛功能。這一特性,讓 Nested Learning 成為了一個工程方案。

1

從“靜態(tài)產品”到“動態(tài)生命”

我們把視角從代碼行中抽離出來,會發(fā)現 Nested Learning 真正的野心,不在于刷榜,而在于試圖完成一次 AI 領域的范式轉移。

在 NeurIPS 的分享最后,作者提出了一個發(fā)人深省的觀點,“深度(Depth)也許不再是唯一的答案。”

過去十年,我們一直在堆疊物理層數,把神經網絡做得越來越深。這種暴力美學確實帶來了涌現能力,但它也制造了一個巨大的“幻覺”,誤以為智能來源于靜態(tài)的深度。而忽略了真正的深度可能來自于嵌套的優(yōu)化。

更進一步,論文中提出了一個極其激進的定義:“預訓練本身,其實就是一種超長上下文的 In-Context Learning。”

這句話消解了 AI 領域最大的邊界。在 Nested Learning 的愿景里,沒有所謂的“訓練結束”這一天。模型在與用戶交互的每一秒,都在以某種微小的頻率更新自己的突觸。它不再是一個冰冷的、出廠即固化機器,而是一個在數據流中不斷呼吸、代謝、進化的有機體。

這或許才是通往 AGI更本質的道路,智能不是被灌輸的,而是在交互中生長的。

當然,任何試圖顛覆范式的理論,注定會伴隨著巨大的爭議。這圍繞這篇論文討論區(qū)里,聲音很多樣。

樂觀者將其視為 "Attention Is All You Need V2"。社區(qū)對于自我修改這一概念尤為著迷。長期以來,我們一直詬病 LLM 只是“統(tǒng)計學的鸚鵡”,而 HOPE 讓 AI 第一次擁有了某種“元認知”能力,即學習如何學習。這種從被動擬合到主動適應的跨越,被認為是 AI 產生質變的關鍵。

實用主義者則看到了解決災難性遺忘的曙光。如果這一架構能落地,未來的企業(yè)級 AI 將不再需要為了更新一點點業(yè)務知識而耗資百萬進行全量重訓,AI 可以在業(yè)務流中自然地學會新規(guī)章,同時不忘記舊制度。這是對降本增效是最直接的。

質疑者也大有人在。比如有評論指出,論文中將 SGD(梯度下降)強行解釋為“聯想記憶”的數學證明雖然精彩,但更多依賴直覺,缺乏嚴謹的收斂性保障。更有工程師擔心,這種復雜的“嵌套優(yōu)化”會讓調參難度呈指數級上升,畢竟,調一個 Adam 已經夠頭疼了,現在我們要同時調好幾個不同頻率的“大腦”。

但無論如何,Google 這一次沒有在參數量上卷,而是在“學習的本質”上開了一槍。

它用一種近乎哲學的方式提醒我們,對于一個真正的智能體來說,存在就是壓縮,活著就是學習。


點個愛心,再走 吧

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
競聘結果出爐!王勵勤運籌帷幄,王皓馬琳位置確定,12位教練上任

競聘結果出爐!王勵勤運籌帷幄,王皓馬琳位置確定,12位教練上任

體育就你秀
2026-01-05 07:55:03
2007年,傅冬菊在北京醫(yī)院離世,作為推動北平和平解放的功臣,她卻曾被多次催促繳納房款

2007年,傅冬菊在北京醫(yī)院離世,作為推動北平和平解放的功臣,她卻曾被多次催促繳納房款

寄史言志
2026-01-02 19:54:08
雖然馬杜羅被捕了,但是他卻勝利了!

雖然馬杜羅被捕了,但是他卻勝利了!

低調看天下
2026-01-04 18:17:53
梅婷曬視頻忘開美顏,脖子黑,皮還松,看脖子像是60歲的人!

梅婷曬視頻忘開美顏,脖子黑,皮還松,看脖子像是60歲的人!

韓馳
2026-01-04 16:18:06
司曉迪再曝猛料!曬開房記錄實錘男方,同學反曝她人品:太反面了

司曉迪再曝猛料!曬開房記錄實錘男方,同學反曝她人品:太反面了

卷史
2026-01-05 16:56:07
存儲芯片板塊多股漲停!三星聯席CEO警告:內存芯片短缺前所未有

存儲芯片板塊多股漲停!三星聯席CEO警告:內存芯片短缺前所未有

21世紀經濟報道
2026-01-05 13:14:19
曼聯砸975萬解雇主帥!執(zhí)教僅420天:創(chuàng)55年恥辱 鬧翻走人

曼聯砸975萬解雇主帥!執(zhí)教僅420天:創(chuàng)55年恥辱 鬧翻走人

葉青足球世界
2026-01-05 18:37:09
馬杜羅被抓后,金正恩作出重要指示,朝鮮向日韓方向發(fā)射彈道導彈

馬杜羅被抓后,金正恩作出重要指示,朝鮮向日韓方向發(fā)射彈道導彈

素年文史
2026-01-04 14:27:24
黃牛都不要了,網紅玩偶價格腰斬暴跌至629元,曾炒到108萬天價

黃牛都不要了,網紅玩偶價格腰斬暴跌至629元,曾炒到108萬天價

削桐作琴
2026-01-02 18:11:30
2600億!重慶最大規(guī)模拆遷來襲,這134個片區(qū)身價要漲!

2600億!重慶最大規(guī)模拆遷來襲,這134個片區(qū)身價要漲!

石辰搞笑日常
2026-01-05 13:47:24
CBA焦點戰(zhàn)今夜打響!CCTV5不直播,廣東廣廈爭第一,CCTV5+直播

CBA焦點戰(zhàn)今夜打響!CCTV5不直播,廣東廣廈爭第一,CCTV5+直播

老吳說體育
2026-01-05 10:53:38
狐貍尾巴終究藏不住,他“妻妾成群”,大兒子和鞏俐越長越像?

狐貍尾巴終究藏不住,他“妻妾成群”,大兒子和鞏俐越長越像?

豐譚筆錄
2026-01-03 07:50:06
廣東一男子的自建房,占地約一畝,極簡外觀加大花園,堪比別墅!

廣東一男子的自建房,占地約一畝,極簡外觀加大花園,堪比別墅!

手工制作阿愛
2026-01-05 14:57:14
涉嫌嚴重違紀違法,江蘇一高校黨委書記任上被查!曾任縣長、縣委書記等職

涉嫌嚴重違紀違法,江蘇一高校黨委書記任上被查!曾任縣長、縣委書記等職

瀟湘晨報
2026-01-05 14:18:10
上海30歲美女博士,因無法接受丈夫身份,從16樓一躍而下

上海30歲美女博士,因無法接受丈夫身份,從16樓一躍而下

星宇共鳴
2025-05-20 18:28:56
鹿晗醉酒跟司曉迪躺一起,更多同款證據被扒,網友喊話關曉彤倒油

鹿晗醉酒跟司曉迪躺一起,更多同款證據被扒,網友喊話關曉彤倒油

萌神木木
2026-01-03 10:37:59
絕不辭職!阿莫林公開叫板曼聯高層:解雇他需賠償975萬

絕不辭職!阿莫林公開叫板曼聯高層:解雇他需賠償975萬

葉青足球世界
2026-01-05 09:35:58
3分絕殺聯盟第一!感謝火箭8換1杜蘭特 感謝湖人白送26+8三分奇兵

3分絕殺聯盟第一!感謝火箭8換1杜蘭特 感謝湖人白送26+8三分奇兵

鍋子籃球
2026-01-05 13:04:51
《探索新境2》王一博挑戰(zhàn)酋長巖,堪稱大片,質感不輸奧斯卡

《探索新境2》王一博挑戰(zhàn)酋長巖,堪稱大片,質感不輸奧斯卡

好叫好伐
2026-01-05 19:33:56
詹姆斯看清現實,東契奇開始醒悟!雷迪克聽勸,兩人也成湖人關鍵

詹姆斯看清現實,東契奇開始醒悟!雷迪克聽勸,兩人也成湖人關鍵

魚崖大話籃球
2026-01-05 16:28:54
2026-01-05 20:35:00
硅星人 incentive-icons
硅星人
硅(Si)是創(chuàng)造未來的基礎,歡迎來到這個星球。
2767文章數 10425關注度
往期回顧 全部

科技要聞

4100家科技企業(yè)集結賭城,CES揭開AI新戰(zhàn)場

頭條要聞

美對委動手致歐盟立場分裂 兩元首先后發(fā)文內容南轅北轍

頭條要聞

美對委動手致歐盟立場分裂 兩元首先后發(fā)文內容南轅北轍

體育要聞

41歲詹皇26+10+6又迎里程碑 湖媒贊GOAT

娛樂要聞

黃宗澤奪雙料視帝,淚灑頒獎臺憶往昔

財經要聞

丁一凡:中美進入相對穩(wěn)定的競爭共存期

汽車要聞

海獅06EV冬季續(xù)航挑戰(zhàn) "電"這事比亞迪絕對玩明白了

態(tài)度原創(chuàng)

教育
手機
房產
藝術
公開課

教育要聞

1月5日,山東威海。在日常中培養(yǎng)習慣 從實踐中立德樹人。《小學生習慣養(yǎng)成全景導航》首發(fā)儀式圓滿舉行!...

手機要聞

iQOO Z11 Turbo新機實驗室摸底跑分公布,常溫突破359萬分

房產要聞

再次登頂海南樓市!超越阿那亞的,只有阿那亞!

藝術要聞

19幅 列賓美院學生優(yōu)秀畢業(yè)作品

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版