突破一億Token:EverMind MSA架構(gòu),實(shí)現(xiàn)大模型高效端到端長時(shí)記憶

2026-03-19 11:44:23　來源: 機(jī)器之心Pro

北京舉報(bào)

分享至

機(jī)器之心發(fā)布

人的智能能力主要由推理能力和長期記憶能力構(gòu)成。近年來，大模型的推理能力一直處于快速發(fā)展過程，但大模型的長期記憶能力一直受限于上下文長度，無法取得突破。在歷史上，曾經(jīng)有多種路線進(jìn)行嘗試，但都無法突破擴(kuò)展性（Scalability）精度（Precision）效率（Efficiency）的不可能三角。近期，《MSA: Memory Sparse Attention for Efficient End-to-End Memory Model Scaling to 100M Tokens》的工作進(jìn)入我們的視野。

文章中提出了一種新的記憶架構(gòu)，MSA（Memory Sparse Attention），通過記憶稀疏注意力機(jī)制、實(shí)現(xiàn)超長上下文外推的文檔級旋轉(zhuǎn)位置編碼（Document-wise RoPE）KV 緩存壓縮與內(nèi)存并行，以及支持復(fù)雜推理的記憶交錯(cuò)（Memory Interleave）機(jī)制，實(shí)現(xiàn)了 100M 長度的大模型長時(shí)記憶框架，在主流的長文本問答、大海撈針等評測上，取得了業(yè)界領(lǐng)先的結(jié)果。并且，當(dāng)長度由 16K 增加到 100M 時(shí)，模型的得分只下降了 9%，體現(xiàn)了非常強(qiáng)的擴(kuò)展能力。

這個(gè)方法可以看作是大模型的一個(gè)記憶插件，為我們解決長期記憶問題提供了一個(gè)新的思路和方向。在今天 OpenClaw 引發(fā)的 Agent 爆發(fā)時(shí)代到來之際，這篇文章有望成為開啟 “記憶即服務(wù)”（Memory-as-a-Service）新紀(jì)元的里程碑。

GitHub 鏈接：https://github.com/EverMind-AI/MSA
論文鏈接：https://zenodo.org/records/19103670

圖 1 MSA-4B 的長文本問答得分隨上下文長度衰減顯著優(yōu)越（論文原圖）

1. LLM 長時(shí)記憶的 “不可能三角”

近年來，大型語言模型（LLM）的能力邊界不斷拓寬，但在模擬人生（Life Long）級別的長時(shí)、細(xì)粒度記憶方面，始終面臨著一道難以逾越的鴻溝。無論是需要通讀并理解長篇小說的文學(xué)分析，還是要求在多輪對話中保持人格一致性的數(shù)字孿生，抑或是需要追溯漫長歷史記錄的 Agent 系統(tǒng)，都對模型的有效上下文長度提出了近乎苛刻的要求。然而，主流 LLM 受限于全注意力機(jī)制（Full Attention）的二次方復(fù)雜度，其有效上下文窗口長期被限制在百萬（1M）Token 左右，與人類一生約數(shù)億 Token 的記憶容量相去甚遠(yuǎn)。

為了突破這一瓶頸，學(xué)界和業(yè)界探索了三條主要的技術(shù)路線，但每條路線都在試圖解決問題的同時(shí)，陷入了新的困境，形成了一個(gè)難以調(diào)和的 “不可能三角”：

1.參數(shù)化記憶（Parameter-Based Memory）：通過持續(xù)訓(xùn)練或微調(diào)將知識(shí) “燒錄” 進(jìn)模型參數(shù)。此方法精度高，但擴(kuò)展性差，更新成本高昂且易發(fā)生災(zāi)難性遺忘。

2.外部存儲(chǔ)記憶（External Storage-Based Memory）：以檢索增強(qiáng)生成（RAG）為代表，將記憶外置于向量數(shù)據(jù)庫。此方法擴(kuò)展性好，但其 “檢索 - 生成” 兩階段分離的非端到端特性，導(dǎo)致檢索精度成為性能瓶頸，難以進(jìn)行深度語義對齊。

3.潛狀態(tài)記憶（Latent State-Based Memory）：利用模型內(nèi)部的隱藏狀態(tài)（如 KV 緩存）作為工作記憶。此方法語義保真度高，但面臨著效率與容量的直接沖突。基于 KV 緩存局部保留的方法（如利用 Attention Sinks 機(jī)制的 StreamingLLM）精度高但擴(kuò)展性受限；而基于線性注意力的方法（如 RWKV, DeltaNet）雖然實(shí)現(xiàn)了線性復(fù)雜度，卻因有損壓縮而在超長上下文中精度嚴(yán)重下降。

正是在這一背景下，《MSA》一文提出了一個(gè)極具雄心的目標(biāo)：設(shè)計(jì)一個(gè)端到端可訓(xùn)練的、能以線性復(fù)雜度擴(kuò)展至億級 Token、同時(shí)保持高精度的潛狀態(tài)記憶框架。MSA 的出現(xiàn)，旨在正面挑戰(zhàn)并打破上述 “不可能三角”，為 LLM 賦予真正意義上的 “終身記憶”。

2. MSA 架構(gòu)深度剖析：四大創(chuàng)新支柱

MSA 的革命性并非源于單一技術(shù)的突破，而是一套環(huán)環(huán)相扣、系統(tǒng)性的架構(gòu)創(chuàng)新。這套 “創(chuàng)新棧” 協(xié)同工作，共同構(gòu)成了其高性能的基石。

2.1 核心基石：記憶稀疏注意力 (Memory Sparse Attention)

MSA 的核心思想是在 Transformer 的注意力層引入一種可微分的、基于內(nèi)容的稀疏化機(jī)制。它不再讓模型在推理時(shí)關(guān)注所有歷史記憶，而是設(shè)計(jì)了一個(gè)高效的 “路由”（Routing）模塊，動(dòng)態(tài)選擇最相關(guān)的記憶子集參與計(jì)算。

圖 2：記憶稀疏注意力架構(gòu) Memory Sparse Attention layer（論文原圖）

這張圖是 MSA 技術(shù)實(shí)現(xiàn)的核心，展示了一個(gè)高度優(yōu)化的 Transformer 層如何將海量外部記憶（Docs）與當(dāng)前查詢（Query）高效融合。其流程可分解為左右兩個(gè)協(xié)同工作的模塊。

左側(cè)是標(biāo)準(zhǔn)的 Transformer 外殼。整體上，MSA 層被包裹在一個(gè)標(biāo)準(zhǔn)的 Pre-Norm Transformer 模塊中。它取代了傳統(tǒng)的自注意力（Self-Attention）層，其輸出與輸入通過殘差連接（Residual Connection，圖中的⊕符號(hào)）相加，隨后經(jīng)過 RMSNorm 歸一化和 FFN（前饋網(wǎng)絡(luò)）層處理。這一設(shè)計(jì)確保了 MSA 可以作為即插即用的模塊，無縫集成到現(xiàn)有的大模型架構(gòu)中，無需對整體架構(gòu)進(jìn)行顛覆性改造。

右側(cè)是 MSA 的"雙重路由" 稀疏注意力機(jī)制。這是創(chuàng)新的核心，通過一個(gè)精巧的 "雙重路由" 機(jī)制，實(shí)現(xiàn)了從海量文檔中 "優(yōu)中選優(yōu)" 的過程，避免了對所有記憶進(jìn)行暴力全量計(jì)算。

首先是輸入與投影階段：模型接收外部知識(shí)庫（Docs）和當(dāng)前上下文的查詢（Query）。知識(shí)庫被投影成四份獨(dú)立的表征：Q（查詢）、K（鍵）、V（值），以及一個(gè)專門用于路由的鍵 K^R（Routing Key）。
其次是第一重路由（Topic-level，主題級篩選）：模型首先對整個(gè)知識(shí)庫進(jìn)行粗粒度的 "主題篩選"。它通過一個(gè)注意力機(jī)制（圖中的 Multi-head Attention）和 Token-wise mean pooling 操作，計(jì)算出當(dāng)前 Query 與所有文檔 "主題"（由 K^R 代表）的關(guān)聯(lián)度，輸出一個(gè)主題概率分布，決定哪些文檔在宏觀上與當(dāng)前查詢最相關(guān)。同時(shí)，輔助損失 L_aux 在此處被計(jì)算，以確保路由的稀疏性和有效性，防止所有查詢都涌向少數(shù)幾個(gè)熱門文檔，保證記憶的均衡利用。
然后是第二重路由（Token-level，詞元級精篩）：在第一步鎖定的相關(guān)文檔內(nèi)部，模型進(jìn)行更精細(xì)的 "內(nèi)容篩選"。通過 Pooling 和 Top-k 操作，在詞元級別上計(jì)算查詢與具體內(nèi)容塊的相似度，從相關(guān)文檔中進(jìn)一步挑選出最關(guān)鍵的句子或段落（圖中綠色高亮的小方塊）。
最后是最終注意力計(jì)算階段：經(jīng)過 "雙重路由" 后，只有被選中的、最精華的 K 和 V 向量才會(huì)被加載到注意力計(jì)算中。這些經(jīng)過稀疏化處理的記憶 K/V，與原始的 Query 的 K/V 進(jìn)行拼接（Concat），共同進(jìn)入最終的 Multi-head Attention 層，生成最終輸出。

這一機(jī)制的獨(dú)創(chuàng)性在于，它將 RAG 系統(tǒng)中的 "檢索" 步驟，內(nèi)化為了一個(gè)可端到端訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模塊。與依賴外部、固定的相似性度量（如向量余弦距離）的 RAG 不同，MSA 的路由器是在訓(xùn)練過程中與生成任務(wù)共同優(yōu)化的（通過一個(gè)輔助的對比學(xué)習(xí)損失 L_aux），這意味著它能學(xué)會(huì)一種更符合模型內(nèi)部 "世界觀" 的、與最終任務(wù)目標(biāo)更對齊的檢索策略。這從根本上解決了 RAG"檢索" 與 "生成" 目標(biāo)不一致的核心痛點(diǎn)，是其實(shí)現(xiàn)高精度的關(guān)鍵。

2.2 擴(kuò)展性關(guān)鍵：文檔級旋轉(zhuǎn)位置編碼 (Document-wise RoPE)

要實(shí)現(xiàn)從較短的訓(xùn)練文本（如 64k）到億級推理文本的成功外推，一個(gè)核心挑戰(zhàn)是如何處理位置信息。如果采用傳統(tǒng)的全局位置編碼，當(dāng)推理時(shí)的文檔數(shù)量遠(yuǎn)超訓(xùn)練時(shí)，位置索引會(huì)發(fā)生劇烈偏移，導(dǎo)致模型 “水土不服”，性能急劇下降。

MSA 為此提出了一個(gè)簡潔而高效的解決方案：為每個(gè)獨(dú)立的文檔（或記憶單元）分配一套獨(dú)立的旋轉(zhuǎn)位置編碼（RoPE）。這意味著，無論記憶庫中有多少文檔，模型在 “閱讀” 每個(gè)文檔時(shí)，其內(nèi)部的 “坐標(biāo)系” 都是從 0 開始的、穩(wěn)定不變的。這種設(shè)計(jì)將文檔的內(nèi)部相對位置與其在全局記憶中的絕對位置解耦，使得模型在訓(xùn)練時(shí)學(xué)到的位置感知能力，可以無損地泛化到包含海量文檔的推理場景中。這正是 MSA 能夠?qū)崿F(xiàn)驚人外推能力（Extrapolation）的理論基礎(chǔ)。

2.3 工程化落地：KV 緩存壓縮與內(nèi)存并行 (KV Cache Compression & Memory Parallel)

理論上的可行性必須通過工程實(shí)現(xiàn)才能轉(zhuǎn)化為現(xiàn)實(shí)。在億級 Token 的尺度下，即便經(jīng)過壓縮，KV 緩存的存儲(chǔ)需求也高達(dá)上百 GB，遠(yuǎn)超單個(gè) GPU 節(jié)點(diǎn)的顯存容量。MSA 通過一套精巧的 “內(nèi)存并行” 策略解決了這一物理瓶頸。

分層存儲(chǔ)（Tiered Storage）：MSA 敏銳地觀察到，在路由階段，模型僅需要體積相對較小的路由鍵 KR 來進(jìn)行快速匹配；而體積龐大的內(nèi)容鍵值 K 和 V，只有在 Top-k 選擇完成后才需要。因此，它設(shè)計(jì)了一套分層存儲(chǔ)系統(tǒng)：
GPU 常駐路由鍵：將所有文檔的 KR 分布式地存儲(chǔ)在多張 GPU 的高速顯存中，確保低延遲的全局檢索。
CPU 卸載內(nèi)容鍵值：將占據(jù)絕大部分空間的 K 和 V 矩陣存儲(chǔ)在大容量的 CPU 內(nèi)存（DRAM）中。
異步調(diào)度（Asynchronous Fetching）：當(dāng) GPU 完成路由計(jì)算、確定 Top-k 文檔后，系統(tǒng)再異步地從 CPU 內(nèi)存中調(diào)取所需的內(nèi)容 KV 到 GPU，用于最終的生成計(jì)算。

這種 “快查（GPU）慢取（CPU）” 的策略，優(yōu)雅地將存儲(chǔ)瓶頸從有限的 GPU 顯存轉(zhuǎn)移到了海量的 CPU 內(nèi)存，使得在標(biāo)準(zhǔn)硬件（如 2 張 A800 GPU）上運(yùn)行億級 Token 的推理成為可能。這不僅是工程上的創(chuàng)舉，更是該技術(shù)能夠走向?qū)嶋H應(yīng)用的前提。

2.4 復(fù)雜推理能力：記憶交錯(cuò) (Memory Interleave)

對于需要整合多個(gè)分散在不同文檔中的證據(jù)才能回答的復(fù)雜問題（即多跳推理），單次的 “檢索 - 生成” 循環(huán)往往力不從心。為此，MSA 引入了記憶交錯(cuò)機(jī)制

該機(jī)制允許模型進(jìn)行多輪次的 “生成式檢索 → 上下文擴(kuò)展” 循環(huán)。在第一輪，模型根據(jù)原始問題，首先生成它認(rèn)為最相關(guān)的文檔 ID 序列；隨后，系統(tǒng)獲取這些文檔的原文，并將其追加到原始問題之后，形成一個(gè)新的、更豐富的 “中間問題”；在下一輪，模型基于這個(gè)新問題，再次生成新的文檔 ID…… 如此循環(huán)往復(fù)，直到模型認(rèn)為積累的證據(jù)足夠充分，便停止生成文檔 ID，轉(zhuǎn)而生成最終答案。

這種迭代式的推理鏈，模擬了人類偵探辦案時(shí) "發(fā)現(xiàn)線索 A → 順藤摸瓜找到線索 B → 整合 AB 形成完整證據(jù)鏈" 的思考過程。它賦予了 MSA 動(dòng)態(tài)規(guī)劃其信息搜集路徑的能力，是其在多跳問答（Multi-hop QA）任務(wù)上表現(xiàn)出色的重要原因。

圖 3：三階段流程圖 — Three-Stage Inference Process with Memory Interleave（論文原圖）

這張圖以一個(gè)具體的多跳問答案例（"埃里克?瓦茨的父親何時(shí)出生？"）為例，完整展示了記憶交錯(cuò)機(jī)制在推理時(shí)的三階段工作流程。

第一階段：全局記憶編碼（Global Memory Encoding，圖左）。這是一個(gè)離線預(yù)處理步驟。整個(gè)知識(shí)語料庫（Corpus）被一次性編碼，生成一個(gè)龐大的 KV 緩存，即全局 "記憶"（Memory）。這個(gè)記憶庫通常存儲(chǔ)在成本更低的 CPU 內(nèi)存或 SSD 中，等待被實(shí)時(shí)查詢調(diào)用。這一階段的計(jì)算成本是一次性的，與后續(xù)的推理次數(shù)無關(guān)。

第二階段：路由與上下文組裝（Routing and Context Assembly，圖中）。這是推理的核心循環(huán)，圖中以三步迭代為例展示了完整的證據(jù)鏈構(gòu)建過程。

第 1 輪迭代中，用戶提出初始問題（埃里克?瓦茨的父親何時(shí)出生？）。模型使用這個(gè)問題作為 Query，通過 MSA 的路由機(jī)制，從全局 Memory 中檢索到第一個(gè)最相關(guān)的證據(jù)塊：Erik Watts ...... is the son of Bill Watts（埃里克?瓦茨是比爾?瓦茨的兒子）。此時(shí)上下文中只有 "誰是埃里克的父親" 這一信息，尚不足以直接回答問題，模型因此生成一個(gè)中間引用標(biāo)記 [4]

，表示已定位到文檔 4，并將其內(nèi)容納入上下文。

第 2 輪迭代中，上下文已擴(kuò)展，包含了第 1 輪獲取的證據(jù)。模型在內(nèi)部生成一個(gè)新的、更具體的查詢需求（即 "比爾?瓦茨何時(shí)出生？"），并再次調(diào)用 MSA 路由機(jī)制，這次檢索到了包含比爾?瓦茨出生日期的證據(jù)塊：Bill Watts born May 5, 1939（比爾?瓦茨，生于 1939 年 5 月 5 日）。模型再次生成引用標(biāo)記 [3]

，將文檔 3 的內(nèi)容追加到上下文中。

第三階段：稀疏生成（Sparse Generation）。當(dāng)證據(jù)鏈完整后，上下文同時(shí)包含了 "埃里克的父親是比爾" 和 "比爾的生日是 1939 年 5 月 5 日" 兩條關(guān)鍵證據(jù)。模型在最后一次生成步驟中，輸出特殊標(biāo)記 < End-of-Retrieve>，宣告證據(jù)搜集結(jié)束，隨后整合所有證據(jù)，生成最終的、高確定性的答案：The answer to the question is: May 5, 1939（答案是：1939 年 5 月 5 日）。

這張圖直觀地揭示了記憶交錯(cuò)機(jī)制的本質(zhì)：它將 "推理" 與 "檢索" 深度交織，使模型能夠像一位經(jīng)驗(yàn)豐富的研究員一樣，從一個(gè)模糊的初始問題出發(fā)，通過逐步發(fā)現(xiàn)、逐步聚焦的方式，最終鎖定精確答案。這種能力對于解決真實(shí)世界中那些答案分散在多個(gè)文檔中的復(fù)雜問題，具有不可替代的價(jià)值。

3. 實(shí)驗(yàn)數(shù)據(jù)再解讀：MSA 的價(jià)值驗(yàn)證

論文通過一系列詳盡的實(shí)驗(yàn)，從多個(gè)維度驗(yàn)證了 MSA 架構(gòu)的有效性。我們將核心數(shù)據(jù)可視化并進(jìn)行解讀。

3.1 驚人的擴(kuò)展性與魯棒性

圖 4：在 “大海撈針”（NIAH）測試中，MSA 在上下文從 32K 擴(kuò)展至 1M 時(shí)，準(zhǔn)確率僅從 99% 下降至 95%，表現(xiàn)出極強(qiáng)的穩(wěn)定性。相比之下，其他長上下文模型則在256K后顯著衰減（論文原圖）。

圖 5：論文原圖，在更極限的 MS MARCO 問答測試中，將記憶規(guī)模從 16K 擴(kuò)展至 100M（跨越 4 個(gè)數(shù)量級），MSA 的性能評分僅從 4.023 下降至 3.669，衰減率不足 9%。這直觀地證明了其架構(gòu)在抵抗大規(guī)模無關(guān)信息（噪聲）干擾方面的卓越魯棒性。

3.2 端到端優(yōu)化的威力

圖 6：在 9 個(gè) QA 基準(zhǔn)測試的平均分上，4B 參數(shù)的 MSA 模型（平均分 3.760）顯著優(yōu)于基于同樣 4B 底座構(gòu)建的、包含重排器（Reranker）的復(fù)雜 RAG 系統(tǒng)。甚至在多個(gè)數(shù)據(jù)集上，其表現(xiàn)超過了由 SOTA 的 KaLMv2 檢索器和 235B 參數(shù)的 Qwen3 巨無霸模型組成的頂級 RAG 系統(tǒng)。這充分證明了 MSA 端到端優(yōu)化帶來的高精度優(yōu)勢。

3.3 各組件的不可或缺性

圖 7：消融實(shí)驗(yàn)清晰地量化了每個(gè)創(chuàng)新點(diǎn)的貢獻(xiàn)。與基線模型 MSA-S1 相比，移除 “記憶交錯(cuò)” 機(jī)制導(dǎo)致在多跳問答任務(wù)上性能大幅下降；移除 “持續(xù)預(yù)訓(xùn)練” 中的輔助路由監(jiān)督，則讓模型幾乎喪失了有效的檢索能力；而移除 “原始文本注入” 則造成最嚴(yán)重的性能滑坡，說明最終的精確回答仍需依賴原始文本的細(xì)節(jié)。這證明了 MSA 是一個(gè)設(shè)計(jì)精巧、各部分缺一不可的有機(jī)整體。

4. 總結(jié)：MSA 的獨(dú)創(chuàng)性與核心價(jià)值

綜合上述分析，我們可以總結(jié)出 MSA 論文的核心獨(dú)創(chuàng)性與價(jià)值點(diǎn)：

總而言之，MSA 的真正價(jià)值，并不僅僅是發(fā)布了一個(gè)性能強(qiáng)大的長上下文模型，而是為 AI 記憶領(lǐng)域提供了一套全新的、被完整驗(yàn)證過的、兼具擴(kuò)展性、精度與效率的技術(shù)基礎(chǔ)設(shè)施。它證明了，我們不必在 RAG 的 “低精度” 和全注意力的 “高成本” 之間做出痛苦的妥協(xié)。通過將稀疏化思想與神經(jīng)網(wǎng)絡(luò)的端到端學(xué)習(xí)能力巧妙結(jié)合，構(gòu)建一個(gè)獨(dú)立的、可擴(kuò)展的、與 LLM 兼容的 “記憶層” 是完全可行的。

這為未來 AI 生態(tài)的發(fā)展描繪了一幅激動(dòng)人心的藍(lán)圖：記憶可以作為一種獨(dú)立的、可插拔的服務(wù)，與各種推理核心（LLM）自由組合，用戶的數(shù)據(jù)和 “記憶資產(chǎn)” 不再被鎖定在任何單一的模型或廠商中。從這個(gè)角度看，MSA 不僅是一篇優(yōu)秀的學(xué)術(shù)論文，更可能是一個(gè)開啟 “記憶即服務(wù)”（Memory-as-a-Service）新紀(jì)元的里程碑。

5. 背景信息：EverMind 與盛大集團(tuán)的 “發(fā)現(xiàn)式 AI” 愿景

為完整理解 MSA 研究背后的驅(qū)動(dòng)力，有必要將其置于出品方 EverMind 及其母公司盛大集團(tuán)（Shanda Group）的宏觀戰(zhàn)略背景下進(jìn)行審視。EverMind 是盛大集團(tuán)創(chuàng)始人陳天橋在 AI 領(lǐng)域深度布局、長期孵化的核心團(tuán)隊(duì)之一，使命是攻克 AI 的長期記憶難題，走向AI的自我演化（Self Evolving）。

根據(jù)近期 Bloomberg 與鈦媒體對陳天橋的專訪，盛大集團(tuán)的 AI 戰(zhàn)略并非聚焦于當(dāng)前主流的 “生成式 AI”，而是旨在構(gòu)建一個(gè)更具開創(chuàng)性的 “發(fā)現(xiàn)式 AI（Discoverative AI）” 生態(tài)。其終極目標(biāo)是讓 AI 輔助人類發(fā)現(xiàn)新知識(shí)、解決如疾病、能源等根本性問題，而非僅僅模仿和重組已有信息。在這一宏大愿景中，兩大技術(shù)基石被置于核心地位：

MiroMind：專注于推理(Reasoning)。該團(tuán)隊(duì)致力于通過可驗(yàn)證推理（Verifiable reasoning）等路徑，讓模型學(xué)會(huì)像科學(xué)家一樣主動(dòng)向外部世界求證、修正假設(shè)，從而實(shí)現(xiàn)真正的推理可靠性與洞察發(fā)現(xiàn)。

EverMind：專注于記憶（Memory）。該團(tuán)隊(duì)的使命是為 AI 打造一個(gè)可無限擴(kuò)展、高保真、且獨(dú)立于任何特定模型的長期記憶系統(tǒng)。只有當(dāng) AI 擁有了穩(wěn)定可靠的記憶底座，才能在其上進(jìn)行有效的、跨越時(shí)空的復(fù)雜推理與知識(shí)創(chuàng)造，走向AI的自我演化（Self Evolving）。

因此，EverMind 與 MiroMind 共同構(gòu)成了盛大集團(tuán)‘發(fā)現(xiàn)式 AI’藍(lán)圖的核心驅(qū)動(dòng)力，分別對應(yīng)著 “記憶” 與 “推理” 這兩大認(rèn)知科學(xué)的核心支柱。本文所介紹的 MSA 架構(gòu)，正是 EverMind 團(tuán)隊(duì)踐行‘記憶即服務(wù)’理念的核心技術(shù)成果。其底層設(shè)計(jì)與技術(shù)路線，不僅是對現(xiàn)有長文本瓶頸的突破，更深刻印證了盛大集團(tuán)在構(gòu)建獨(dú)立、自主、可控 AI 基礎(chǔ)設(shè)施上的長期投入與堅(jiān)定決心。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.