国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Titans + MIRAS:讓AI擁有長期記憶能力

0
分享至


我們推出了Titans架構(gòu)和MIRAS框架,這些技術(shù)能讓AI模型在運(yùn)行時更新核心記憶,從而實(shí)現(xiàn)更快的處理速度并處理大規(guī)模上下文內(nèi)容。

Transformer架構(gòu)通過引入注意力機(jī)制徹底改變了序列建模,該機(jī)制允許模型回顧早期輸入以優(yōu)先處理相關(guān)的輸入數(shù)據(jù)。然而,計(jì)算成本隨序列長度急劇增加,這限制了基于Transformer的模型擴(kuò)展到極長上下文的能力,比如完整文檔理解或基因組分析所需的上下文。

研究社區(qū)探索了各種解決方案,例如高效的線性循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和狀態(tài)空間模型(SSM),如Mamba-2。這些模型通過將上下文壓縮到固定大小來提供快速的線性擴(kuò)展。然而,這種固定大小的壓縮無法充分捕獲超長序列中的豐富信息。

在兩篇新論文Titans和MIRAS中,我們介紹了一種架構(gòu)和理論藍(lán)圖,它結(jié)合了RNN的速度和Transformer的準(zhǔn)確性。Titans是具體的架構(gòu)(工具),MIRAS是推廣這些方法的理論框架(藍(lán)圖)。它們共同推進(jìn)了測試時記憶化的概念,即AI模型在運(yùn)行時通過融入更強(qiáng)大的"驚喜"指標(biāo)(即意外信息片段)來維持長期記憶的能力,無需專門的離線重訓(xùn)練。

MIRAS框架以Titans為例,引入了向?qū)崟r適應(yīng)的重要轉(zhuǎn)變。該架構(gòu)不是將信息壓縮到靜態(tài)狀態(tài),而是在數(shù)據(jù)流入時主動學(xué)習(xí)和更新自身參數(shù)。這一關(guān)鍵機(jī)制使模型能夠即時將新的具體細(xì)節(jié)納入其核心知識。

有效的學(xué)習(xí)系統(tǒng)需要獨(dú)特而相互連接的記憶模塊

有效的學(xué)習(xí)系統(tǒng)需要獨(dú)特而相互連接的記憶模塊,這反映了人類大腦對短期和長期記憶的分離。

雖然注意力機(jī)制在精確的短期記憶方面表現(xiàn)出色,但Titans引入了一個新穎的神經(jīng)長期記憶模塊,與傳統(tǒng)RNN中的固定大小向量或矩陣記憶不同,它作為一個深度神經(jīng)網(wǎng)絡(luò)(具體來說,是一個多層感知器)。這個記憶模塊提供了顯著更高的表達(dá)能力,允許模型在不丟失重要上下文的情況下總結(jié)大量信息。模型不僅僅是做筆記,而是理解和綜合整個故事。

至關(guān)重要的是,Titans不只是被動地存儲數(shù)據(jù)。它主動學(xué)習(xí)如何識別和保留連接整個輸入中Token的重要關(guān)系和概念主題。這種能力的一個關(guān)鍵方面是我們稱之為"驚喜指標(biāo)"的東西。在人類心理學(xué)中,我們知道我們會快速且容易地忘記常規(guī)、預(yù)期的事件,但會記住打破模式的事情——意外的、令人驚訝的或高度情感化的事件。

在Titans的上下文中,"驚喜指標(biāo)"是模型檢測當(dāng)前記憶的內(nèi)容與新輸入告訴它的內(nèi)容之間的巨大差異。

模型使用這個內(nèi)部錯誤信號(梯度)作為數(shù)學(xué)上等價于說"這是意外的和重要的!"這允許Titans架構(gòu)僅用最新穎和打破上下文的信息選擇性地更新其長期記憶,保持整個過程的快速和高效。

Titans通過融入兩個關(guān)鍵元素來完善這一機(jī)制:

序列建模中的每一個重大突破——從現(xiàn)代Transformer到新的超高速線性RNN——本質(zhì)上都是同一回事:一個高度復(fù)雜的聯(lián)想記憶模塊。

相應(yīng)地,MIRAS的獨(dú)特性和實(shí)用性在于它看待AI建模的方式。它不是看到多樣化的架構(gòu),而是看到解決同一問題的不同方法:有效地將新信息與舊記憶結(jié)合,而不讓基本概念被遺忘。

MIRAS通過四個關(guān)鍵設(shè)計(jì)選擇定義序列模型:

幾乎所有成功的現(xiàn)有序列模型都依賴均方誤差(MSE)或點(diǎn)積相似性來實(shí)現(xiàn)其偏差和保留。這種依賴可能使模型對異常值敏感,并限制其表達(dá)能力。

MIRAS通過提供一個生成框架來超越這種限制,探索一個由優(yōu)化和統(tǒng)計(jì)學(xué)文獻(xiàn)指導(dǎo)的更豐富的設(shè)計(jì)空間。這允許創(chuàng)建具有非歐幾里得目標(biāo)和正則化的新穎架構(gòu)。

使用MIRAS,我們創(chuàng)建了三個具體的無注意力模型:

我們嚴(yán)格比較了Titans以及MIRAS變體(YAAD、MONETA、MEMORA)與領(lǐng)先架構(gòu),包括Transformer++、Mamba-2和Gated DeltaNet。我們通過在基因組建模(DNA)和時間序列預(yù)測上測試Titans,進(jìn)一步驗(yàn)證了其多功能性,證明該架構(gòu)在文本之外有效地泛化。

在標(biāo)準(zhǔn)語言建模數(shù)據(jù)集(C4、WikiText)和零樣本推理任務(wù)(HellaSwag、PIQA)中,我們的模型始終表現(xiàn)出更高的準(zhǔn)確性和困惑度(衡量大語言模型在查看一段文本時的驚訝程度)。

消融研究清楚地表明,記憶架構(gòu)的深度至關(guān)重要。當(dāng)比較相同大小但不同深度的長期記憶模塊時,具有更深記憶的模塊在語言建模中始終實(shí)現(xiàn)更低的困惑度。此外,它們表現(xiàn)出更好的擴(kuò)展特性,隨著序列長度顯著增加時保持性能。

在語言建模和常識推理任務(wù)中,Titans架構(gòu)優(yōu)于最先進(jìn)的線性循環(huán)模型(如Mamba-2和Gated DeltaNet)和可比較大小的Transformer++基線。新穎的MIRAS變體(MONETA、YAAD、MEMORA)與這些基線相比也實(shí)現(xiàn)了改進(jìn)的性能,驗(yàn)證了探索魯棒的非MSE優(yōu)化機(jī)制的益處。重要的是,這些模型保持了高效的可并行化訓(xùn)練和快速的線性推理速度。

這些新架構(gòu)最顯著的優(yōu)勢是它們處理超長上下文的能力。這在BABILong基準(zhǔn)測試中得到了突出體現(xiàn),該任務(wù)需要對分布在超長文檔中的事實(shí)進(jìn)行推理。在這種具有挑戰(zhàn)性的設(shè)置中,Titans優(yōu)于所有基線,包括像GPT-4這樣的超大型模型,盡管參數(shù)要少得多。Titans進(jìn)一步證明了有效擴(kuò)展到超過200萬Token的上下文窗口大小的能力。

Titans和MIRAS框架的引入標(biāo)志著序列建模的重大進(jìn)步。通過采用深度神經(jīng)網(wǎng)絡(luò)作為學(xué)會在數(shù)據(jù)流入時記憶的記憶模塊,這些方法克服了固定大小循環(huán)狀態(tài)的限制。此外,MIRAS提供了強(qiáng)大的理論統(tǒng)一,揭示了在線優(yōu)化、聯(lián)想記憶和架構(gòu)設(shè)計(jì)之間的聯(lián)系。通過超越標(biāo)準(zhǔn)的歐幾里得范式,這項(xiàng)研究為新一代序列模型打開了大門,這些模型結(jié)合了RNN的效率和長上下文AI時代所需的表達(dá)能力。

Q&A

Q1:Titans是什么,它有什么特別的能力?

A:Titans是一種新型AI架構(gòu),能夠在運(yùn)行時更新核心記憶,實(shí)現(xiàn)更快的處理速度并處理大規(guī)模上下文內(nèi)容。它的特別能力是結(jié)合了RNN的速度和Transformer的準(zhǔn)確性,可以有效處理超長上下文,例如完整文檔理解或基因組分析。

Q2:什么是"驚喜指標(biāo)",它在Titans中如何工作?

A:"驚喜指標(biāo)"是Titans檢測當(dāng)前記憶內(nèi)容與新輸入信息之間巨大差異的機(jī)制。類似人類容易忘記常規(guī)事件但記住意外事件的特點(diǎn),Titans使用這個內(nèi)部錯誤信號來識別"意外且重要"的信息,只用最新穎和打破上下文的信息來更新長期記憶。

Q3:Titans相比傳統(tǒng)模型有什么優(yōu)勢?

A:Titans最顯著的優(yōu)勢是處理超長上下文的能力。在BABILong基準(zhǔn)測試中,Titans優(yōu)于所有基線,包括GPT-4等超大型模型,盡管參數(shù)更少。它能有效擴(kuò)展到超過200萬Token的上下文窗口,同時保持高效的可并行化訓(xùn)練和快速的線性推理速度。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
古天樂《尋秦記》英國票房僅25.1萬英鎊,《阿凡達(dá)3》強(qiáng)勢奪冠

古天樂《尋秦記》英國票房僅25.1萬英鎊,《阿凡達(dá)3》強(qiáng)勢奪冠

千信齊飛
2026-01-09 16:43:47
出差前我把家里地暖關(guān)了,當(dāng)晚樓下阿姨在群里開罵…

出差前我把家里地暖關(guān)了,當(dāng)晚樓下阿姨在群里開罵…

極品小牛肉
2026-01-05 14:43:53
中東國家都意識到了,就算中國高端武器再多,也沒辦法保護(hù)他們!

中東國家都意識到了,就算中國高端武器再多,也沒辦法保護(hù)他們!

近史博覽
2026-01-05 20:40:01
當(dāng)石油被搶后,西方普遍認(rèn)為北京只能認(rèn)栽,怎料中方一招逆轉(zhuǎn)局面

當(dāng)石油被搶后,西方普遍認(rèn)為北京只能認(rèn)栽,怎料中方一招逆轉(zhuǎn)局面

小lu侃侃而談
2026-01-02 19:54:47
別墅搜出23件國寶,全家集體失聯(lián)!徐湖平案落幕,17年舉報有結(jié)果

別墅搜出23件國寶,全家集體失聯(lián)!徐湖平案落幕,17年舉報有結(jié)果

詩意世界
2026-01-03 15:19:25
NBA搶瘋了!力壓布澤爾兒子!選秀狀元最大熱門

NBA搶瘋了!力壓布澤爾兒子!選秀狀元最大熱門

籃球教學(xué)論壇
2026-01-09 13:47:20
醫(yī)生從瀕死患者動脈掏血栓如同掏碎肉,因?yàn)閲?yán)重的肺動脈栓塞,導(dǎo)致血氧極低無法自主呼吸

醫(yī)生從瀕死患者動脈掏血栓如同掏碎肉,因?yàn)閲?yán)重的肺動脈栓塞,導(dǎo)致血氧極低無法自主呼吸

觀威海
2026-01-06 10:46:23
如果在家突發(fā)心梗,黃金3分鐘自救法,快了解,關(guān)鍵時刻可自救

如果在家突發(fā)心梗,黃金3分鐘自救法,快了解,關(guān)鍵時刻可自救

健康之光
2026-01-06 13:15:35
阿隆索:我不喜歡西蒙尼這樣對我的球員說話;姆巴佩明天出發(fā)

阿隆索:我不喜歡西蒙尼這樣對我的球員說話;姆巴佩明天出發(fā)

懂球帝
2026-01-09 06:23:14
向殺父嫌犯,索賠1000萬

向殺父嫌犯,索賠1000萬

中國新聞周刊
2026-01-09 12:17:57
小學(xué)生發(fā)現(xiàn)北大烈士碑文錯誤,北大:已糾錯,感謝小學(xué)生

小學(xué)生發(fā)現(xiàn)北大烈士碑文錯誤,北大:已糾錯,感謝小學(xué)生

半島晨報
2026-01-08 21:13:17
武漢地鐵公安通報“2號線車廂內(nèi)一男子脫衣裸體”:李某言語混亂、行為異常,案件正依法辦理

武漢地鐵公安通報“2號線車廂內(nèi)一男子脫衣裸體”:李某言語混亂、行為異常,案件正依法辦理

環(huán)球網(wǎng)資訊
2026-01-09 08:17:12
35歲克萊想家了!第900場里程悲,6個三分贏不了!后悔離開庫里嗎

35歲克萊想家了!第900場里程悲,6個三分贏不了!后悔離開庫里嗎

嘴炮體壇
2026-01-09 12:48:59
突發(fā)!澳洲宣布拉黑亞洲!再見,印大利亞!

突發(fā)!澳洲宣布拉黑亞洲!再見,印大利亞!

澳洲紅領(lǐng)巾
2026-01-09 13:37:24
WTT冠軍賽:王藝迪出師不利!首局救2局點(diǎn)輸球,大比分0-1落后!

WTT冠軍賽:王藝迪出師不利!首局救2局點(diǎn)輸球,大比分0-1落后!

劉姚堯的文字城堡
2026-01-09 15:45:54
河北農(nóng)村怎么才能不挨凍?大V:在河北農(nóng)村蓋著16斤棉被,鼻子被凍傷

河北農(nóng)村怎么才能不挨凍?大V:在河北農(nóng)村蓋著16斤棉被,鼻子被凍傷

六子吃涼粉
2026-01-08 08:39:04
炮制“女主持人性暗示簡歷”,男子獲刑7個月!受害女子發(fā)聲

炮制“女主持人性暗示簡歷”,男子獲刑7個月!受害女子發(fā)聲

環(huán)球網(wǎng)資訊
2026-01-08 13:21:08
人社部部長表態(tài)!2026年養(yǎng)老金或繼續(xù)上漲,企退事退都能漲多少?

人社部部長表態(tài)!2026年養(yǎng)老金或繼續(xù)上漲,企退事退都能漲多少?

云鵬敘事
2026-01-09 15:00:53
盧卡申科:馬杜羅妻子非常勇敢,拒絕離開馬杜羅身邊

盧卡申科:馬杜羅妻子非常勇敢,拒絕離開馬杜羅身邊

新京報政事兒
2026-01-09 13:33:32
上海一單位發(fā)生火災(zāi),現(xiàn)場明火竄出數(shù)十米高并伴有大量黑煙。附:化工安全教育PPT

上海一單位發(fā)生火災(zāi),現(xiàn)場明火竄出數(shù)十米高并伴有大量黑煙。附:化工安全教育PPT

北京應(yīng)急管理學(xué)會
2026-01-09 12:45:55
2026-01-09 17:43:00
至頂頭條 incentive-icons
至頂頭條
記錄和推動數(shù)字化創(chuàng)新
15343文章數(shù) 49683關(guān)注度
往期回顧 全部

科技要聞

市場偏愛MiniMax:開盤漲42%,市值超700億

頭條要聞

10歲抗癌"小王子"病情加重:用藥都已無效 不能吃飯

頭條要聞

10歲抗癌"小王子"病情加重:用藥都已無效 不能吃飯

體育要聞

金元時代最后的外援,來中國8年了

娛樂要聞

檀健次戀愛風(fēng)波越演越烈 上學(xué)經(jīng)歷被扒

財(cái)經(jīng)要聞

投資必看!瑞銀李萌給出3大核心配置建議

汽車要聞

英偉達(dá)的野心:做一套自動駕駛的“安卓系統(tǒng)”

態(tài)度原創(chuàng)

游戲
親子
健康
家居
軍事航空

每天白賺10塊錢!上KK官方對戰(zhàn)平臺免費(fèi)玩DotA OMG4+2

親子要聞

檢查結(jié)果出來松了口氣,帶著醫(yī)生處方去拿藥,沒想到又出新插曲?

這些新療法,讓化療不再那么痛苦

家居要聞

木色留白 演繹現(xiàn)代自由

軍事要聞

特朗普:已開始從委石油資源中賺錢

無障礙瀏覽 進(jìn)入關(guān)懷版