国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

突破一億Token:EverMind MSA架構(gòu),實(shí)現(xiàn)大模型高效端到端長時(shí)記憶

0
分享至



機(jī)器之心發(fā)布

人的智能能力主要由推理能力和長期記憶能力構(gòu)成。近年來,大模型的推理能力一直處于快速發(fā)展過程,但大模型的長期記憶能力一直受限于上下文長度,無法取得突破。在歷史上,曾經(jīng)有多種路線進(jìn)行嘗試,但都無法突破擴(kuò)展性(Scalability)精度(Precision)效率(Efficiency)的不可能三角。近期,《MSA: Memory Sparse Attention for Efficient End-to-End Memory Model Scaling to 100M Tokens》的工作進(jìn)入我們的視野。

文章中提出了一種新的記憶架構(gòu),MSA(Memory Sparse Attention),通過記憶稀疏注意力機(jī)制、實(shí)現(xiàn)超長上下文外推的文檔級旋轉(zhuǎn)位置編碼(Document-wise RoPE)KV 緩存壓縮與內(nèi)存并行,以及支持復(fù)雜推理的記憶交錯(cuò)(Memory Interleave)機(jī)制,實(shí)現(xiàn)了 100M 長度的大模型長時(shí)記憶框架,在主流的長文本問答、大海撈針等評測上,取得了業(yè)界領(lǐng)先的結(jié)果。并且,當(dāng)長度由 16K 增加到 100M 時(shí),模型的得分只下降了 9%,體現(xiàn)了非常強(qiáng)的擴(kuò)展能力。

這個(gè)方法可以看作是大模型的一個(gè)記憶插件,為我們解決長期記憶問題提供了一個(gè)新的思路和方向。在今天 OpenClaw 引發(fā)的 Agent 爆發(fā)時(shí)代到來之際,這篇文章有望成為開啟 “記憶即服務(wù)”(Memory-as-a-Service)新紀(jì)元的里程碑。



  • GitHub 鏈接:https://github.com/EverMind-AI/MSA
  • 論文鏈接:https://zenodo.org/records/19103670



圖 1 MSA-4B 的長文本問答得分隨上下文長度衰減顯著優(yōu)越(論文原圖)

1. LLM 長時(shí)記憶的 “不可能三角”

近年來,大型語言模型(LLM)的能力邊界不斷拓寬,但在模擬人生(Life Long)級別的長時(shí)、細(xì)粒度記憶方面,始終面臨著一道難以逾越的鴻溝。無論是需要通讀并理解長篇小說的文學(xué)分析,還是要求在多輪對話中保持人格一致性的數(shù)字孿生,抑或是需要追溯漫長歷史記錄的 Agent 系統(tǒng),都對模型的有效上下文長度提出了近乎苛刻的要求。然而,主流 LLM 受限于全注意力機(jī)制(Full Attention)的二次方復(fù)雜度,其有效上下文窗口長期被限制在百萬(1M)Token 左右,與人類一生約數(shù)億 Token 的記憶容量相去甚遠(yuǎn)。

為了突破這一瓶頸,學(xué)界和業(yè)界探索了三條主要的技術(shù)路線,但每條路線都在試圖解決問題的同時(shí),陷入了新的困境,形成了一個(gè)難以調(diào)和的 “不可能三角”:

1.參數(shù)化記憶(Parameter-Based Memory):通過持續(xù)訓(xùn)練或微調(diào)將知識(shí) “燒錄” 進(jìn)模型參數(shù)。此方法精度高,但擴(kuò)展性差,更新成本高昂且易發(fā)生災(zāi)難性遺忘。

2.外部存儲(chǔ)記憶(External Storage-Based Memory):以檢索增強(qiáng)生成(RAG)為代表,將記憶外置于向量數(shù)據(jù)庫。此方法擴(kuò)展性好,但其 “檢索 - 生成” 兩階段分離的非端到端特性,導(dǎo)致檢索精度成為性能瓶頸,難以進(jìn)行深度語義對齊。

3.潛狀態(tài)記憶(Latent State-Based Memory):利用模型內(nèi)部的隱藏狀態(tài)(如 KV 緩存)作為工作記憶。此方法語義保真度高,但面臨著效率與容量的直接沖突。基于 KV 緩存局部保留的方法(如利用 Attention Sinks 機(jī)制的 StreamingLLM)精度高但擴(kuò)展性受限;而基于線性注意力的方法(如 RWKV, DeltaNet)雖然實(shí)現(xiàn)了線性復(fù)雜度,卻因有損壓縮而在超長上下文中精度嚴(yán)重下降。

正是在這一背景下,《MSA》一文提出了一個(gè)極具雄心的目標(biāo):設(shè)計(jì)一個(gè)端到端可訓(xùn)練的、能以線性復(fù)雜度擴(kuò)展至億級 Token、同時(shí)保持高精度的潛狀態(tài)記憶框架。MSA 的出現(xiàn),旨在正面挑戰(zhàn)并打破上述 “不可能三角”,為 LLM 賦予真正意義上的 “終身記憶”。

2. MSA 架構(gòu)深度剖析:四大創(chuàng)新支柱

MSA 的革命性并非源于單一技術(shù)的突破,而是一套環(huán)環(huán)相扣、系統(tǒng)性的架構(gòu)創(chuàng)新。這套 “創(chuàng)新棧” 協(xié)同工作,共同構(gòu)成了其高性能的基石。

2.1 核心基石:記憶稀疏注意力 (Memory Sparse Attention)

MSA 的核心思想是在 Transformer 的注意力層引入一種可微分的、基于內(nèi)容的稀疏化機(jī)制。它不再讓模型在推理時(shí)關(guān)注所有歷史記憶,而是設(shè)計(jì)了一個(gè)高效的 “路由”(Routing)模塊,動(dòng)態(tài)選擇最相關(guān)的記憶子集參與計(jì)算。



圖 2:記憶稀疏注意力架構(gòu) Memory Sparse Attention layer(論文原圖 )

這張圖是 MSA 技術(shù)實(shí)現(xiàn)的核心,展示了一個(gè)高度優(yōu)化的 Transformer 層如何將海量外部記憶(Docs)與當(dāng)前查詢(Query)高效融合。其流程可分解為左右兩個(gè)協(xié)同工作的模塊。

左側(cè)是標(biāo)準(zhǔn)的 Transformer 外殼。 整體上,MSA 層被包裹在一個(gè)標(biāo)準(zhǔn)的 Pre-Norm Transformer 模塊中。它取代了傳統(tǒng)的自注意力(Self-Attention)層,其輸出與輸入通過殘差連接(Residual Connection,圖中的⊕符號(hào))相加,隨后經(jīng)過 RMSNorm 歸一化和 FFN(前饋網(wǎng)絡(luò))層處理。這一設(shè)計(jì)確保了 MSA 可以作為即插即用的模塊,無縫集成到現(xiàn)有的大模型架構(gòu)中,無需對整體架構(gòu)進(jìn)行顛覆性改造。

右側(cè)是 MSA 的"雙重路由" 稀疏注意力機(jī)制。 這是創(chuàng)新的核心,通過一個(gè)精巧的 "雙重路由" 機(jī)制,實(shí)現(xiàn)了從海量文檔中 "優(yōu)中選優(yōu)" 的過程,避免了對所有記憶進(jìn)行暴力全量計(jì)算。

  • 首先是輸入與投影階段:模型接收外部知識(shí)庫(Docs)和當(dāng)前上下文的查詢(Query)。知識(shí)庫被投影成四份獨(dú)立的表征:Q(查詢)、K(鍵)、V(值),以及一個(gè)專門用于路由的鍵 K^R(Routing Key)。
  • 其次是第一重路由(Topic-level,主題級篩選):模型首先對整個(gè)知識(shí)庫進(jìn)行粗粒度的 "主題篩選"。它通過一個(gè)注意力機(jī)制(圖中的 Multi-head Attention)和 Token-wise mean pooling 操作,計(jì)算出當(dāng)前 Query 與所有文檔 "主題"(由 K^R 代表)的關(guān)聯(lián)度,輸出一個(gè)主題概率分布,決定哪些文檔在宏觀上與當(dāng)前查詢最相關(guān)。同時(shí),輔助損失 L_aux 在此處被計(jì)算,以確保路由的稀疏性和有效性,防止所有查詢都涌向少數(shù)幾個(gè)熱門文檔,保證記憶的均衡利用。
  • 然后是第二重路由(Token-level,詞元級精篩):在第一步鎖定的相關(guān)文檔內(nèi)部,模型進(jìn)行更精細(xì)的 "內(nèi)容篩選"。通過 Pooling 和 Top-k 操作,在詞元級別上計(jì)算查詢與具體內(nèi)容塊的相似度,從相關(guān)文檔中進(jìn)一步挑選出最關(guān)鍵的句子或段落(圖中綠色高亮的小方塊)。
  • 最后是最終注意力計(jì)算階段:經(jīng)過 "雙重路由" 后,只有被選中的、最精華的 K 和 V 向量才會(huì)被加載到注意力計(jì)算中。這些經(jīng)過稀疏化處理的記憶 K/V,與原始的 Query 的 K/V 進(jìn)行拼接(Concat),共同進(jìn)入最終的 Multi-head Attention 層,生成最終輸出。

這一機(jī)制的獨(dú)創(chuàng)性在于,它將 RAG 系統(tǒng)中的 "檢索" 步驟,內(nèi)化為了一個(gè)可端到端訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模塊。與依賴外部、固定的相似性度量(如向量余弦距離)的 RAG 不同,MSA 的路由器是在訓(xùn)練過程中與生成任務(wù)共同優(yōu)化的(通過一個(gè)輔助的對比學(xué)習(xí)損失 L_aux),這意味著它能學(xué)會(huì)一種更符合模型內(nèi)部 "世界觀" 的、與最終任務(wù)目標(biāo)更對齊的檢索策略。這從根本上解決了 RAG"檢索" 與 "生成" 目標(biāo)不一致的核心痛點(diǎn),是其實(shí)現(xiàn)高精度的關(guān)鍵。

2.2 擴(kuò)展性關(guān)鍵:文檔級旋轉(zhuǎn)位置編碼 (Document-wise RoPE)

要實(shí)現(xiàn)從較短的訓(xùn)練文本(如 64k)到億級推理文本的成功外推,一個(gè)核心挑戰(zhàn)是如何處理位置信息。如果采用傳統(tǒng)的全局位置編碼,當(dāng)推理時(shí)的文檔數(shù)量遠(yuǎn)超訓(xùn)練時(shí),位置索引會(huì)發(fā)生劇烈偏移,導(dǎo)致模型 “水土不服”,性能急劇下降。

MSA 為此提出了一個(gè)簡潔而高效的解決方案:為每個(gè)獨(dú)立的文檔(或記憶單元)分配一套獨(dú)立的旋轉(zhuǎn)位置編碼(RoPE)。這意味著,無論記憶庫中有多少文檔,模型在 “閱讀” 每個(gè)文檔時(shí),其內(nèi)部的 “坐標(biāo)系” 都是從 0 開始的、穩(wěn)定不變的。這種設(shè)計(jì)將文檔的內(nèi)部相對位置與其在全局記憶中的絕對位置解耦,使得模型在訓(xùn)練時(shí)學(xué)到的位置感知能力,可以無損地泛化到包含海量文檔的推理場景中。這正是 MSA 能夠?qū)崿F(xiàn)驚人外推能力(Extrapolation)的理論基礎(chǔ)。

2.3 工程化落地:KV 緩存壓縮與內(nèi)存并行 (KV Cache Compression & Memory Parallel)

理論上的可行性必須通過工程實(shí)現(xiàn)才能轉(zhuǎn)化為現(xiàn)實(shí)。在億級 Token 的尺度下,即便經(jīng)過壓縮,KV 緩存的存儲(chǔ)需求也高達(dá)上百 GB,遠(yuǎn)超單個(gè) GPU 節(jié)點(diǎn)的顯存容量。MSA 通過一套精巧的 “內(nèi)存并行” 策略解決了這一物理瓶頸。

  • 分層存儲(chǔ)(Tiered Storage):MSA 敏銳地觀察到,在路由階段,模型僅需要體積相對較小的路由鍵 KR 來進(jìn)行快速匹配;而體積龐大的內(nèi)容鍵值 K 和 V,只有在 Top-k 選擇完成后才需要。因此,它設(shè)計(jì)了一套分層存儲(chǔ)系統(tǒng):
  • GPU 常駐路由鍵:將所有文檔的 KR 分布式地存儲(chǔ)在多張 GPU 的高速顯存中,確保低延遲的全局檢索。
  • CPU 卸載內(nèi)容鍵值:將占據(jù)絕大部分空間的 K 和 V 矩陣存儲(chǔ)在大容量的 CPU 內(nèi)存(DRAM)中。
  • 異步調(diào)度(Asynchronous Fetching):當(dāng) GPU 完成路由計(jì)算、確定 Top-k 文檔后,系統(tǒng)再異步地從 CPU 內(nèi)存中調(diào)取所需的內(nèi)容 KV 到 GPU,用于最終的生成計(jì)算。

這種 “快查(GPU)慢取(CPU)” 的策略,優(yōu)雅地將存儲(chǔ)瓶頸從有限的 GPU 顯存轉(zhuǎn)移到了海量的 CPU 內(nèi)存,使得在標(biāo)準(zhǔn)硬件(如 2 張 A800 GPU)上運(yùn)行億級 Token 的推理成為可能。這不僅是工程上的創(chuàng)舉,更是該技術(shù)能夠走向?qū)嶋H應(yīng)用的前提。

2.4 復(fù)雜推理能力:記憶交錯(cuò) (Memory Interleave)

對于需要整合多個(gè)分散在不同文檔中的證據(jù)才能回答的復(fù)雜問題(即多跳推理),單次的 “檢索 - 生成” 循環(huán)往往力不從心。為此,MSA 引入了記憶交錯(cuò)機(jī)制

該機(jī)制允許模型進(jìn)行多輪次的 “生成式檢索 → 上下文擴(kuò)展” 循環(huán)。在第一輪,模型根據(jù)原始問題,首先生成它認(rèn)為最相關(guān)的文檔 ID 序列;隨后,系統(tǒng)獲取這些文檔的原文,并將其追加到原始問題之后,形成一個(gè)新的、更豐富的 “中間問題”;在下一輪,模型基于這個(gè)新問題,再次生成新的文檔 ID…… 如此循環(huán)往復(fù),直到模型認(rèn)為積累的證據(jù)足夠充分,便停止生成文檔 ID,轉(zhuǎn)而生成最終答案。

這種迭代式的推理鏈,模擬了人類偵探辦案時(shí) "發(fā)現(xiàn)線索 A → 順藤摸瓜找到線索 B → 整合 AB 形成完整證據(jù)鏈" 的思考過程。它賦予了 MSA 動(dòng)態(tài)規(guī)劃其信息搜集路徑的能力,是其在多跳問答(Multi-hop QA)任務(wù)上表現(xiàn)出色的重要原因。



圖 3:三階段流程圖 — Three-Stage Inference Process with Memory Interleave(論文原圖)

這張圖以一個(gè)具體的多跳問答案例("埃里克?瓦茨的父親何時(shí)出生?")為例,完整展示了記憶交錯(cuò)機(jī)制在推理時(shí)的三階段工作流程。

第一階段:全局記憶編碼(Global Memory Encoding,圖左)。 這是一個(gè)離線預(yù)處理步驟。整個(gè)知識(shí)語料庫(Corpus)被一次性編碼,生成一個(gè)龐大的 KV 緩存,即全局 "記憶"(Memory)。這個(gè)記憶庫通常存儲(chǔ)在成本更低的 CPU 內(nèi)存或 SSD 中,等待被實(shí)時(shí)查詢調(diào)用。這一階段的計(jì)算成本是一次性的,與后續(xù)的推理次數(shù)無關(guān)。

第二階段:路由與上下文組裝(Routing and Context Assembly,圖中)。 這是推理的核心循環(huán),圖中以三步迭代為例展示了完整的證據(jù)鏈構(gòu)建過程。

第 1 輪迭代中,用戶提出初始問題(埃里克?瓦茨的父親何時(shí)出生?)。模型使用這個(gè)問題作為 Query,通過 MSA 的路由機(jī)制,從全局 Memory 中檢索到第一個(gè)最相關(guān)的證據(jù)塊:Erik Watts ...... is the son of Bill Watts(埃里克?瓦茨是比爾?瓦茨的兒子)。此時(shí)上下文中只有 "誰是埃里克的父親" 這一信息,尚不足以直接回答問題,模型因此生成一個(gè)中間引用標(biāo)記 [4]

,表示已定位到文檔 4,并將其內(nèi)容納入上下文。

第 2 輪迭代中,上下文已擴(kuò)展,包含了第 1 輪獲取的證據(jù)。模型在內(nèi)部生成一個(gè)新的、更具體的查詢需求(即 "比爾?瓦茨何時(shí)出生?"),并再次調(diào)用 MSA 路由機(jī)制,這次檢索到了包含比爾?瓦茨出生日期的證據(jù)塊:Bill Watts born May 5, 1939(比爾?瓦茨,生于 1939 年 5 月 5 日)。模型再次生成引用標(biāo)記 [3]

,將文檔 3 的內(nèi)容追加到上下文中。

第三階段:稀疏生成(Sparse Generation)。 當(dāng)證據(jù)鏈完整后,上下文同時(shí)包含了 "埃里克的父親是比爾" 和 "比爾的生日是 1939 年 5 月 5 日" 兩條關(guān)鍵證據(jù)。模型在最后一次生成步驟中,輸出特殊標(biāo)記 < End-of-Retrieve>,宣告證據(jù)搜集結(jié)束,隨后整合所有證據(jù),生成最終的、高確定性的答案:The answer to the question is: May 5, 1939(答案是:1939 年 5 月 5 日)。

這張圖直觀地揭示了記憶交錯(cuò)機(jī)制的本質(zhì):它將 "推理" 與 "檢索" 深度交織,使模型能夠像一位經(jīng)驗(yàn)豐富的研究員一樣,從一個(gè)模糊的初始問題出發(fā),通過逐步發(fā)現(xiàn)、逐步聚焦的方式,最終鎖定精確答案。這種能力對于解決真實(shí)世界中那些答案分散在多個(gè)文檔中的復(fù)雜問題,具有不可替代的價(jià)值。

3. 實(shí)驗(yàn)數(shù)據(jù)再解讀:MSA 的價(jià)值驗(yàn)證

論文通過一系列詳盡的實(shí)驗(yàn),從多個(gè)維度驗(yàn)證了 MSA 架構(gòu)的有效性。我們將核心數(shù)據(jù)可視化并進(jìn)行解讀。

3.1 驚人的擴(kuò)展性與魯棒性



圖 4:在 “大海撈針”(NIAH)測試中,MSA 在上下文從 32K 擴(kuò)展至 1M 時(shí),準(zhǔn)確率僅從 99% 下降至 95%,表現(xiàn)出極強(qiáng)的穩(wěn)定性。相比之下,其他長上下文模型則在256K后顯著衰減(論文原圖)。



圖 5:論文原圖,在更極限的 MS MARCO 問答測試中,將記憶規(guī)模從 16K 擴(kuò)展至 100M(跨越 4 個(gè)數(shù)量級),MSA 的性能評分僅從 4.023 下降至 3.669,衰減率不足 9%。這直觀地證明了其架構(gòu)在抵抗大規(guī)模無關(guān)信息(噪聲)干擾方面的卓越魯棒性。

3.2 端到端優(yōu)化的威力



圖 6:在 9 個(gè) QA 基準(zhǔn)測試的平均分上,4B 參數(shù)的 MSA 模型(平均分 3.760)顯著優(yōu)于基于同樣 4B 底座構(gòu)建的、包含重排器(Reranker)的復(fù)雜 RAG 系統(tǒng)。甚至在多個(gè)數(shù)據(jù)集上,其表現(xiàn)超過了由 SOTA 的 KaLMv2 檢索器和 235B 參數(shù)的 Qwen3 巨無霸模型組成的頂級 RAG 系統(tǒng)。這充分證明了 MSA 端到端優(yōu)化帶來的高精度優(yōu)勢。

3.3 各組件的不可或缺性



圖 7:消融實(shí)驗(yàn)清晰地量化了每個(gè)創(chuàng)新點(diǎn)的貢獻(xiàn)。與基線模型 MSA-S1 相比,移除 “記憶交錯(cuò)” 機(jī)制導(dǎo)致在多跳問答任務(wù)上性能大幅下降;移除 “持續(xù)預(yù)訓(xùn)練” 中的輔助路由監(jiān)督,則讓模型幾乎喪失了有效的檢索能力;而移除 “原始文本注入” 則造成最嚴(yán)重的性能滑坡,說明最終的精確回答仍需依賴原始文本的細(xì)節(jié)。這證明了 MSA 是一個(gè)設(shè)計(jì)精巧、各部分缺一不可的有機(jī)整體。

4. 總結(jié):MSA 的獨(dú)創(chuàng)性與核心價(jià)值

綜合上述分析,我們可以總結(jié)出 MSA 論文的核心獨(dú)創(chuàng)性與價(jià)值點(diǎn):



總而言之,MSA 的真正價(jià)值,并不僅僅是發(fā)布了一個(gè)性能強(qiáng)大的長上下文模型,而是為 AI 記憶領(lǐng)域提供了一套全新的、被完整驗(yàn)證過的、兼具擴(kuò)展性、精度與效率的技術(shù)基礎(chǔ)設(shè)施。 它證明了,我們不必在 RAG 的 “低精度” 和全注意力的 “高成本” 之間做出痛苦的妥協(xié)。通過將稀疏化思想與神經(jīng)網(wǎng)絡(luò)的端到端學(xué)習(xí)能力巧妙結(jié)合,構(gòu)建一個(gè)獨(dú)立的、可擴(kuò)展的、與 LLM 兼容的 “記憶層” 是完全可行的。

這為未來 AI 生態(tài)的發(fā)展描繪了一幅激動(dòng)人心的藍(lán)圖:記憶可以作為一種獨(dú)立的、可插拔的服務(wù),與各種推理核心(LLM)自由組合,用戶的數(shù)據(jù)和 “記憶資產(chǎn)” 不再被鎖定在任何單一的模型或廠商中。從這個(gè)角度看,MSA 不僅是一篇優(yōu)秀的學(xué)術(shù)論文,更可能是一個(gè)開啟 “記憶即服務(wù)”(Memory-as-a-Service)新紀(jì)元的里程碑。

5. 背景信息:EverMind 與盛大集團(tuán)的 “發(fā)現(xiàn)式 AI” 愿景

為完整理解 MSA 研究背后的驅(qū)動(dòng)力,有必要將其置于出品方 EverMind 及其母公司盛大集團(tuán)(Shanda Group)的宏觀戰(zhàn)略背景下進(jìn)行審視。EverMind 是盛大集團(tuán)創(chuàng)始人陳天橋在 AI 領(lǐng)域深度布局、長期孵化的核心團(tuán)隊(duì)之一,使命是攻克 AI 的長期記憶難題,走向AI的自我演化(Self Evolving)。

根據(jù)近期 Bloomberg 與鈦媒體 對陳天橋的專訪,盛大集團(tuán)的 AI 戰(zhàn)略并非聚焦于當(dāng)前主流的 “生成式 AI”,而是旨在構(gòu)建一個(gè)更具開創(chuàng)性的 “發(fā)現(xiàn)式 AI(Discoverative AI)” 生態(tài)。其終極目標(biāo)是讓 AI 輔助人類發(fā)現(xiàn)新知識(shí)、解決如疾病、能源等根本性問題,而非僅僅模仿和重組已有信息。在這一宏大愿景中,兩大技術(shù)基石被置于核心地位:

MiroMind:專注于推理(Reasoning)。該團(tuán)隊(duì)致力于通過可驗(yàn)證推理(Verifiable reasoning)等路徑,讓模型學(xué)會(huì)像科學(xué)家一樣主動(dòng)向外部世界求證、修正假設(shè),從而實(shí)現(xiàn)真正的推理可靠性與洞察發(fā)現(xiàn)。

EverMind:專注于記憶(Memory)。該團(tuán)隊(duì)的使命是為 AI 打造一個(gè)可無限擴(kuò)展、高保真、且獨(dú)立于任何特定模型的長期記憶系統(tǒng)。只有當(dāng) AI 擁有了穩(wěn)定可靠的記憶底座,才能在其上進(jìn)行有效的、跨越時(shí)空的復(fù)雜推理與知識(shí)創(chuàng)造,走向AI的自我演化(Self Evolving)。

因此,EverMind 與 MiroMind 共同構(gòu)成了盛大集團(tuán)‘發(fā)現(xiàn)式 AI’藍(lán)圖的核心驅(qū)動(dòng)力,分別對應(yīng)著 “記憶” 與 “推理” 這兩大認(rèn)知科學(xué)的核心支柱。本文所介紹的 MSA 架構(gòu),正是 EverMind 團(tuán)隊(duì)踐行‘記憶即服務(wù)’理念的核心技術(shù)成果。其底層設(shè)計(jì)與技術(shù)路線,不僅是對現(xiàn)有長文本瓶頸的突破,更深刻印證了盛大集團(tuán)在構(gòu)建獨(dú)立、自主、可控 AI 基礎(chǔ)設(shè)施上的長期投入與堅(jiān)定決心。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
馬繼華為何敢接連挑釁樊振東?三大理由+一個(gè)“大后臺(tái)”

馬繼華為何敢接連挑釁樊振東?三大理由+一個(gè)“大后臺(tái)”

陳鋅特色美食
2026-03-25 16:33:02
他是國軍陸軍總司令,手下走出8名元帥7大將,死后兩岸共同哀悼

他是國軍陸軍總司令,手下走出8名元帥7大將,死后兩岸共同哀悼

史之銘
2026-03-26 17:20:17
CCTV5直播!國足熱身“世界杯新貴”,15.9萬人小國,邵佳一首秀

CCTV5直播!國足熱身“世界杯新貴”,15.9萬人小國,邵佳一首秀

汪星人喲
2026-03-26 19:13:15
韓媒臆想:中國隊(duì)歡呼吧,國際足聯(lián)同意他們替補(bǔ)世界杯

韓媒臆想:中國隊(duì)歡呼吧,國際足聯(lián)同意他們替補(bǔ)世界杯

體壇風(fēng)之子
2026-03-26 07:00:06
特朗普官宣最新登島計(jì)劃?精銳部隊(duì)派兵被曝,美真實(shí)意圖藏不住了

特朗普官宣最新登島計(jì)劃?精銳部隊(duì)派兵被曝,美真實(shí)意圖藏不住了

薦史
2026-03-26 19:15:24
RMC:塞內(nèi)加爾仍將在對秘魯?shù)挠颜x賽賽前展示非洲杯冠軍獎(jiǎng)杯

RMC:塞內(nèi)加爾仍將在對秘魯?shù)挠颜x賽賽前展示非洲杯冠軍獎(jiǎng)杯

懂球帝
2026-03-26 18:37:06
地鐵出口A、B、C、D藏著方向規(guī)律,記住這套方法 全國出行不繞遠(yuǎn)路

地鐵出口A、B、C、D藏著方向規(guī)律,記住這套方法 全國出行不繞遠(yuǎn)路

水泥土的搞笑
2026-03-17 13:38:42
“老人味”的禍?zhǔn)妆痪境?!醫(yī)生提醒:55歲后要少碰,老了或也沒味

“老人味”的禍?zhǔn)妆痪境觯♂t(yī)生提醒:55歲后要少碰,老了或也沒味

今日養(yǎng)生之道
2026-03-23 11:46:39
中東突發(fā)!剛剛,直線拉升

中東突發(fā)!剛剛,直線拉升

中國基金報(bào)
2026-03-26 12:35:21
3月26日俄烏:烏克蘭的猛烈回?fù)?>
    </a>
        <h3>
      <a href=山河路口
2026-03-26 17:32:00
你知道我在床上有多厲害嗎?

你知道我在床上有多厲害嗎?

果粉之家
2026-03-20 12:35:16
中原消費(fèi)金融為催收“買”借款人手機(jī)號(hào)碼 三大運(yùn)營商均中標(biāo) 或涉買賣個(gè)人信息惹爭議

中原消費(fèi)金融為催收“買”借款人手機(jī)號(hào)碼 三大運(yùn)營商均中標(biāo) 或涉買賣個(gè)人信息惹爭議

信網(wǎng)
2026-03-26 19:12:37
油車車主“真情流露”:就算油價(jià)8塊8,我也不想買電車!

油車車主“真情流露”:就算油價(jià)8塊8,我也不想買電車!

少數(shù)派報(bào)告Report
2026-03-25 09:51:04
鎮(zhèn)江一男子,被要挾曝光“不雅視頻”!

鎮(zhèn)江一男子,被要挾曝光“不雅視頻”!

知揚(yáng)中
2026-03-26 17:46:49
油價(jià)調(diào)整消息:今天3月26日,全國加油站調(diào)整后92、95汽油新售價(jià)

油價(jià)調(diào)整消息:今天3月26日,全國加油站調(diào)整后92、95汽油新售價(jià)

沙雕小琳琳
2026-03-26 10:31:28
登頂Top.1,HBO韓劇又爆了

登頂Top.1,HBO韓劇又爆了

來看美劇
2026-03-26 18:22:47
微信出現(xiàn)這條杠,你已經(jīng)不是對方好友了

微信出現(xiàn)這條杠,你已經(jīng)不是對方好友了

王二哥老搞笑
2026-03-21 07:36:51
蘋果受追捧,國產(chǎn)手機(jī)漲價(jià)基本失敗了,正在悄悄降價(jià)

蘋果受追捧,國產(chǎn)手機(jī)漲價(jià)基本失敗了,正在悄悄降價(jià)

柏銘銳談
2026-03-24 15:38:55
A股:大盤精準(zhǔn)跌到3889.08點(diǎn),不出意外的話,接下來行情這么走!

A股:大盤精準(zhǔn)跌到3889.08點(diǎn),不出意外的話,接下來行情這么走!

夜深愛雜談
2026-03-26 20:11:02
和訊投顧陸潤凱:預(yù)期落地,明天的應(yīng)對來了

和訊投顧陸潤凱:預(yù)期落地,明天的應(yīng)對來了

和訊網(wǎng)
2026-03-26 18:05:07
2026-03-26 21:04:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12608文章數(shù) 142594關(guān)注度
往期回顧 全部

科技要聞

Meta高管狂分百億期權(quán),700名員工卻下崗

頭條要聞

張雪峰留巨額遺產(chǎn):二婚妻子或拿50% 剩下的女兒占1/3

頭條要聞

張雪峰留巨額遺產(chǎn):二婚妻子或拿50% 剩下的女兒占1/3

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財(cái)經(jīng)要聞

油價(jià)"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

藝術(shù)
本地
家居
手機(jī)
公開課

藝術(shù)要聞

哪一座橋不是風(fēng)景?

本地新聞

救命,這只醬板鴨已經(jīng)在我手機(jī)復(fù)仇了一萬遍

家居要聞

傍海而居 靜觀蝴蝶海

手機(jī)要聞

OPPO K15 Pro系列突然官宣:天璣9500s+主動(dòng)散熱,4月1日發(fā)布

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版