国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Titans + MIRAS:讓AI擁有長期記憶能力

0
分享至


我們推出了Titans架構(gòu)和MIRAS框架,這些技術(shù)能讓AI模型在運(yùn)行時(shí)更新核心記憶,從而實(shí)現(xiàn)更快的處理速度并處理大規(guī)模上下文內(nèi)容。

Transformer架構(gòu)通過引入注意力機(jī)制徹底改變了序列建模,該機(jī)制允許模型回顧早期輸入以優(yōu)先處理相關(guān)的輸入數(shù)據(jù)。然而,計(jì)算成本隨序列長度急劇增加,這限制了基于Transformer的模型擴(kuò)展到極長上下文的能力,比如完整文檔理解或基因組分析所需的上下文。

研究社區(qū)探索了各種解決方案,例如高效的線性循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和狀態(tài)空間模型(SSM),如Mamba-2。這些模型通過將上下文壓縮到固定大小來提供快速的線性擴(kuò)展。然而,這種固定大小的壓縮無法充分捕獲超長序列中的豐富信息。

在兩篇新論文Titans和MIRAS中,我們介紹了一種架構(gòu)和理論藍(lán)圖,它結(jié)合了RNN的速度和Transformer的準(zhǔn)確性。Titans是具體的架構(gòu)(工具),MIRAS是推廣這些方法的理論框架(藍(lán)圖)。它們共同推進(jìn)了測(cè)試時(shí)記憶化的概念,即AI模型在運(yùn)行時(shí)通過融入更強(qiáng)大的"驚喜"指標(biāo)(即意外信息片段)來維持長期記憶的能力,無需專門的離線重訓(xùn)練。

MIRAS框架以Titans為例,引入了向?qū)崟r(shí)適應(yīng)的重要轉(zhuǎn)變。該架構(gòu)不是將信息壓縮到靜態(tài)狀態(tài),而是在數(shù)據(jù)流入時(shí)主動(dòng)學(xué)習(xí)和更新自身參數(shù)。這一關(guān)鍵機(jī)制使模型能夠即時(shí)將新的具體細(xì)節(jié)納入其核心知識(shí)。

有效的學(xué)習(xí)系統(tǒng)需要獨(dú)特而相互連接的記憶模塊

有效的學(xué)習(xí)系統(tǒng)需要獨(dú)特而相互連接的記憶模塊,這反映了人類大腦對(duì)短期和長期記憶的分離。

雖然注意力機(jī)制在精確的短期記憶方面表現(xiàn)出色,但Titans引入了一個(gè)新穎的神經(jīng)長期記憶模塊,與傳統(tǒng)RNN中的固定大小向量或矩陣記憶不同,它作為一個(gè)深度神經(jīng)網(wǎng)絡(luò)(具體來說,是一個(gè)多層感知器)。這個(gè)記憶模塊提供了顯著更高的表達(dá)能力,允許模型在不丟失重要上下文的情況下總結(jié)大量信息。模型不僅僅是做筆記,而是理解和綜合整個(gè)故事。

至關(guān)重要的是,Titans不只是被動(dòng)地存儲(chǔ)數(shù)據(jù)。它主動(dòng)學(xué)習(xí)如何識(shí)別和保留連接整個(gè)輸入中Token的重要關(guān)系和概念主題。這種能力的一個(gè)關(guān)鍵方面是我們稱之為"驚喜指標(biāo)"的東西。在人類心理學(xué)中,我們知道我們會(huì)快速且容易地忘記常規(guī)、預(yù)期的事件,但會(huì)記住打破模式的事情——意外的、令人驚訝的或高度情感化的事件。

在Titans的上下文中,"驚喜指標(biāo)"是模型檢測(cè)當(dāng)前記憶的內(nèi)容與新輸入告訴它的內(nèi)容之間的巨大差異。

模型使用這個(gè)內(nèi)部錯(cuò)誤信號(hào)(梯度)作為數(shù)學(xué)上等價(jià)于說"這是意外的和重要的!"這允許Titans架構(gòu)僅用最新穎和打破上下文的信息選擇性地更新其長期記憶,保持整個(gè)過程的快速和高效。

Titans通過融入兩個(gè)關(guān)鍵元素來完善這一機(jī)制:

序列建模中的每一個(gè)重大突破——從現(xiàn)代Transformer到新的超高速線性RNN——本質(zhì)上都是同一回事:一個(gè)高度復(fù)雜的聯(lián)想記憶模塊。

相應(yīng)地,MIRAS的獨(dú)特性和實(shí)用性在于它看待AI建模的方式。它不是看到多樣化的架構(gòu),而是看到解決同一問題的不同方法:有效地將新信息與舊記憶結(jié)合,而不讓基本概念被遺忘。

MIRAS通過四個(gè)關(guān)鍵設(shè)計(jì)選擇定義序列模型:

幾乎所有成功的現(xiàn)有序列模型都依賴均方誤差(MSE)或點(diǎn)積相似性來實(shí)現(xiàn)其偏差和保留。這種依賴可能使模型對(duì)異常值敏感,并限制其表達(dá)能力。

MIRAS通過提供一個(gè)生成框架來超越這種限制,探索一個(gè)由優(yōu)化和統(tǒng)計(jì)學(xué)文獻(xiàn)指導(dǎo)的更豐富的設(shè)計(jì)空間。這允許創(chuàng)建具有非歐幾里得目標(biāo)和正則化的新穎架構(gòu)。

使用MIRAS,我們創(chuàng)建了三個(gè)具體的無注意力模型:

我們嚴(yán)格比較了Titans以及MIRAS變體(YAAD、MONETA、MEMORA)與領(lǐng)先架構(gòu),包括Transformer++、Mamba-2和Gated DeltaNet。我們通過在基因組建模(DNA)和時(shí)間序列預(yù)測(cè)上測(cè)試Titans,進(jìn)一步驗(yàn)證了其多功能性,證明該架構(gòu)在文本之外有效地泛化。

在標(biāo)準(zhǔn)語言建模數(shù)據(jù)集(C4、WikiText)和零樣本推理任務(wù)(HellaSwag、PIQA)中,我們的模型始終表現(xiàn)出更高的準(zhǔn)確性和困惑度(衡量大語言模型在查看一段文本時(shí)的驚訝程度)。

消融研究清楚地表明,記憶架構(gòu)的深度至關(guān)重要。當(dāng)比較相同大小但不同深度的長期記憶模塊時(shí),具有更深記憶的模塊在語言建模中始終實(shí)現(xiàn)更低的困惑度。此外,它們表現(xiàn)出更好的擴(kuò)展特性,隨著序列長度顯著增加時(shí)保持性能。

在語言建模和常識(shí)推理任務(wù)中,Titans架構(gòu)優(yōu)于最先進(jìn)的線性循環(huán)模型(如Mamba-2和Gated DeltaNet)和可比較大小的Transformer++基線。新穎的MIRAS變體(MONETA、YAAD、MEMORA)與這些基線相比也實(shí)現(xiàn)了改進(jìn)的性能,驗(yàn)證了探索魯棒的非MSE優(yōu)化機(jī)制的益處。重要的是,這些模型保持了高效的可并行化訓(xùn)練和快速的線性推理速度。

這些新架構(gòu)最顯著的優(yōu)勢(shì)是它們處理超長上下文的能力。這在BABILong基準(zhǔn)測(cè)試中得到了突出體現(xiàn),該任務(wù)需要對(duì)分布在超長文檔中的事實(shí)進(jìn)行推理。在這種具有挑戰(zhàn)性的設(shè)置中,Titans優(yōu)于所有基線,包括像GPT-4這樣的超大型模型,盡管參數(shù)要少得多。Titans進(jìn)一步證明了有效擴(kuò)展到超過200萬Token的上下文窗口大小的能力。

Titans和MIRAS框架的引入標(biāo)志著序列建模的重大進(jìn)步。通過采用深度神經(jīng)網(wǎng)絡(luò)作為學(xué)會(huì)在數(shù)據(jù)流入時(shí)記憶的記憶模塊,這些方法克服了固定大小循環(huán)狀態(tài)的限制。此外,MIRAS提供了強(qiáng)大的理論統(tǒng)一,揭示了在線優(yōu)化、聯(lián)想記憶和架構(gòu)設(shè)計(jì)之間的聯(lián)系。通過超越標(biāo)準(zhǔn)的歐幾里得范式,這項(xiàng)研究為新一代序列模型打開了大門,這些模型結(jié)合了RNN的效率和長上下文AI時(shí)代所需的表達(dá)能力。

Q&A

Q1:Titans是什么,它有什么特別的能力?

A:Titans是一種新型AI架構(gòu),能夠在運(yùn)行時(shí)更新核心記憶,實(shí)現(xiàn)更快的處理速度并處理大規(guī)模上下文內(nèi)容。它的特別能力是結(jié)合了RNN的速度和Transformer的準(zhǔn)確性,可以有效處理超長上下文,例如完整文檔理解或基因組分析。

Q2:什么是"驚喜指標(biāo)",它在Titans中如何工作?

A:"驚喜指標(biāo)"是Titans檢測(cè)當(dāng)前記憶內(nèi)容與新輸入信息之間巨大差異的機(jī)制。類似人類容易忘記常規(guī)事件但記住意外事件的特點(diǎn),Titans使用這個(gè)內(nèi)部錯(cuò)誤信號(hào)來識(shí)別"意外且重要"的信息,只用最新穎和打破上下文的信息來更新長期記憶。

Q3:Titans相比傳統(tǒng)模型有什么優(yōu)勢(shì)?

A:Titans最顯著的優(yōu)勢(shì)是處理超長上下文的能力。在BABILong基準(zhǔn)測(cè)試中,Titans優(yōu)于所有基線,包括GPT-4等超大型模型,盡管參數(shù)更少。它能有效擴(kuò)展到超過200萬Token的上下文窗口,同時(shí)保持高效的可并行化訓(xùn)練和快速的線性推理速度。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
李晨官宣結(jié)婚,夫妻合照曝光,全網(wǎng)恭喜,終于等到這一天

李晨官宣結(jié)婚,夫妻合照曝光,全網(wǎng)恭喜,終于等到這一天

觀察鑒娛
2026-01-11 14:50:05
U23亞洲杯一夜亂了:泰國絕平伊拉克起死回生 國足再拿1分就出線

U23亞洲杯一夜亂了:泰國絕平伊拉克起死回生 國足再拿1分就出線

侃球熊弟
2026-01-12 00:05:34
馬斯克拋出2026年九大“瘋狂”預(yù)言:科技狂飆下的未來圖景

馬斯克拋出2026年九大“瘋狂”預(yù)言:科技狂飆下的未來圖景

娛樂督察中
2026-01-11 13:48:02
5人違規(guī)穿越鰲太線3人遇難,救援人員講述搜救細(xì)節(jié):一個(gè)規(guī)避罰款的決定,徹底斷絕了他們獲救的希望

5人違規(guī)穿越鰲太線3人遇難,救援人員講述搜救細(xì)節(jié):一個(gè)規(guī)避罰款的決定,徹底斷絕了他們獲救的希望

極目新聞
2026-01-11 16:42:27
輸球又輸人!澳主帥吐槽國足用70年代打法,輸不起言論引爭議!

輸球又輸人!澳主帥吐槽國足用70年代打法,輸不起言論引爭議!

田先生籃球
2026-01-11 22:39:31
單親媽媽,只身闖電詐園區(qū)

單親媽媽,只身闖電詐園區(qū)

中國新聞周刊
2026-01-11 17:41:03
美軍“末日飛機(jī)”罕見現(xiàn)身洛杉磯機(jī)場(chǎng)引猜測(cè),五角大樓證實(shí):赫格塞思當(dāng)時(shí)在機(jī)上

美軍“末日飛機(jī)”罕見現(xiàn)身洛杉磯機(jī)場(chǎng)引猜測(cè),五角大樓證實(shí):赫格塞思當(dāng)時(shí)在機(jī)上

環(huán)球網(wǎng)資訊
2026-01-11 18:48:12
特朗普:臺(tái)灣屬于中國,中方武統(tǒng)是它的自由,但動(dòng)手美國會(huì)不高興

特朗普:臺(tái)灣屬于中國,中方武統(tǒng)是它的自由,但動(dòng)手美國會(huì)不高興

我心縱橫天地間
2026-01-10 14:51:24
“死了么”APP創(chuàng)始人:開發(fā)成本1000多元,團(tuán)隊(duì)系三個(gè)95后,計(jì)劃出售10%股份,估值已達(dá)到1000萬元人民幣

“死了么”APP創(chuàng)始人:開發(fā)成本1000多元,團(tuán)隊(duì)系三個(gè)95后,計(jì)劃出售10%股份,估值已達(dá)到1000萬元人民幣

大風(fēng)新聞
2026-01-11 11:03:04
特朗普宣布進(jìn)入國家緊急狀態(tài)

特朗普宣布進(jìn)入國家緊急狀態(tài)

每日經(jīng)濟(jì)新聞
2026-01-11 07:29:23
斷網(wǎng)、斷電,伊朗180多個(gè)城市發(fā)生激烈沖突

斷網(wǎng)、斷電,伊朗180多個(gè)城市發(fā)生激烈沖突

近距離
2026-01-11 10:59:20
閆學(xué)晶事件升級(jí)!多家官媒怒批后,又一壞消息傳來,這下麻煩大了

閆學(xué)晶事件升級(jí)!多家官媒怒批后,又一壞消息傳來,這下麻煩大了

天天熱點(diǎn)見聞
2026-01-11 08:37:35
南博疑云 | 一幅“偽作”為何估價(jià)8800萬?

南博疑云 | 一幅“偽作”為何估價(jià)8800萬?

新民周刊
2026-01-11 12:08:08
70萬航天人該努力了,中國申請(qǐng)20萬顆衛(wèi)星,馬斯克的壓力來了!

70萬航天人該努力了,中國申請(qǐng)20萬顆衛(wèi)星,馬斯克的壓力來了!

眼光很亮
2026-01-11 11:43:26
148cm的真人漫畫少女(楪可憐),嬌小身材成為獨(dú)特魅力

148cm的真人漫畫少女(楪可憐),嬌小身材成為獨(dú)特魅力

碧波萬覽
2026-01-11 00:25:06
專題片剖析唐仁健案:組建“周末愉快”微信群,每到周末就召老板們吃喝

專題片剖析唐仁健案:組建“周末愉快”微信群,每到周末就召老板們吃喝

澎湃新聞
2026-01-11 20:44:28
王者歸來!新機(jī)官宣:2月25日,正式發(fā)布登場(chǎng)!

王者歸來!新機(jī)官宣:2月25日,正式發(fā)布登場(chǎng)!

科技堡壘
2026-01-11 11:45:36
柬埔寨鐵籠拉人后續(xù)!警方已找到三輪車主,籠子是買來養(yǎng)動(dòng)物的

柬埔寨鐵籠拉人后續(xù)!警方已找到三輪車主,籠子是買來養(yǎng)動(dòng)物的

夜深愛雜談
2026-01-11 20:24:26
70%零部件依賴強(qiáng)行“去中國化”,印度1.2億美元MQ-9B墜毀阿富汗

70%零部件依賴強(qiáng)行“去中國化”,印度1.2億美元MQ-9B墜毀阿富汗

反做空一線
2026-01-11 00:42:41
個(gè)人所得稅減半征收政策!延續(xù)至2027年12月31日!

個(gè)人所得稅減半征收政策!延續(xù)至2027年12月31日!

審計(jì)之家
2026-01-11 09:03:14
2026-01-12 02:03:00
至頂頭條 incentive-icons
至頂頭條
記錄和推動(dòng)數(shù)字化創(chuàng)新
15370文章數(shù) 49684關(guān)注度
往期回顧 全部

科技要聞

“我們與美國的差距也許還在拉大”

頭條要聞

美軍突襲委內(nèi)瑞拉俄制防空系統(tǒng)失聯(lián) 俄方回應(yīng)

頭條要聞

美軍突襲委內(nèi)瑞拉俄制防空系統(tǒng)失聯(lián) 俄方回應(yīng)

體育要聞

U23國足形勢(shì):末輪不負(fù)泰國即確保晉級(jí)

娛樂要聞

留幾手為閆學(xué)晶叫屈?稱網(wǎng)友自卑敏感

財(cái)經(jīng)要聞

外賣平臺(tái)"燒錢搶存量市場(chǎng)"迎來終局?

汽車要聞

2026款宋Pro DM-i長續(xù)航補(bǔ)貼后9.98萬起

態(tài)度原創(chuàng)

數(shù)碼
健康
藝術(shù)
公開課
軍事航空

數(shù)碼要聞

科技有AI,連接全球:海信家電參展CES 2026,定義智慧生活新圖景

這些新療法,讓化療不再那么痛苦

藝術(shù)要聞

25位世界名人告訴你,音樂是人一生能擁有最棒的事!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

俄大使:馬杜羅夫婦被控制時(shí)身邊沒人

無障礙瀏覽 進(jìn)入關(guān)懷版