ITPUB專訪｜李志宇：在AGI的未來版圖中，記憶是最有溫度的力量

2025-11-25 16:35:38　來源: ITPUB學(xué)院

北京舉報

分享至

在當下科技發(fā)展的宏大敘事中，大模型與生成式人工智能無疑是最為耀眼的篇章，它們正以前所未有的速度和深度滲透到社會經(jīng)濟的各個角落，重塑著我們的生產(chǎn)生活方式。從智能客服精準解答用戶疑問，到內(nèi)容創(chuàng)作領(lǐng)域生成富有創(chuàng)意的文字、圖像與視頻，再到醫(yī)療、金融等專業(yè)領(lǐng)域輔助決策分析，大模型與生成式AI的應(yīng)用場景不斷拓展，展現(xiàn)出巨大的發(fā)展?jié)摿Α?br/>

然而，隨著技術(shù)的持續(xù)演進，大模型也面臨著諸多挑戰(zhàn)與瓶頸。其中，記憶能力的局限性成為制約其進一步發(fā)展的關(guān)鍵因素之一。當前的大模型在處理復(fù)雜任務(wù)和長期依賴關(guān)系時，往往會出現(xiàn)信息遺忘、上下文理解不準確等問題，導(dǎo)致生成結(jié)果的準確性和連貫性受到影響。例如，在多輪對話場景中，模型可能無法準確記住前文的關(guān)鍵信息，從而給出答非所問的回復(fù)；在復(fù)雜的故事創(chuàng)作中，也難以保持情節(jié)的邏輯性和一致性。

近日，ITPUB有幸采訪到記憶張量（上海）科技有限公司的CTO李志宇老師，一起探討大模型與生成式人工智能領(lǐng)域中記憶增強技術(shù)的最新前沿進展、當下尚未攻克的技術(shù)瓶頸以及未來有望實現(xiàn)重大突破的關(guān)鍵方向等內(nèi)容。

Key Takeaways：

1、大模型的核心限制已從參數(shù)規(guī)模轉(zhuǎn)向“記憶能力”。

上下文窗口擴展 ≠ 真正記憶。智能增長需要穩(wěn)定、可控、可擴展的長期記憶體系。

2、記憶不僅提升性能，更讓 AI 擁有“溫度”與“個性”。

長期、穩(wěn)定、個性化的記憶讓智能體能夠真正理解用戶、保持人格一致性、形成連續(xù)的情境認知，這是未來智能交互最重要的體驗基礎(chǔ)。

3、記憶應(yīng)以“信息增益”而非“信息堆積”為原則。

模型應(yīng)只記住對未來推理真正有價值的內(nèi)容，實現(xiàn)選擇性記憶和壓縮。

4、記憶的幻覺問題是當前眾記憶處理模型忽視的。

記憶只有在正確且真實的情況下才可用，記憶幻覺帶來的災(zāi)難是非常危險的，細致的記憶幻覺評估必不可少。

5、記憶系統(tǒng)的邊界在于：可達性、壓縮失真、多跳推理退化。

這三個因素決定了復(fù)雜任務(wù)中的性能極限。

6、MemOS 構(gòu)建了一套結(jié)構(gòu)化的記憶操作系統(tǒng)。

支持記憶抽取、組織、檢索、更新的標準化流程，并通過系統(tǒng)模型實現(xiàn)自動化調(diào)度。

7、記憶原生訓(xùn)練是未來大模型的必然方向。

模型需要學(xué)習“記憶形成與調(diào)用機制”，而不是依賴外掛式檢索，Text2Mem編排框架是必然發(fā)展趨勢。

8、多模態(tài)記憶將重塑智能體能力邊界。

未來的 AI 將以統(tǒng)一的記憶語義空間管理文本、圖像、語音、視頻，實現(xiàn)更真實的理解與推理。

01風采展示

問題1：您好，李老師！很榮幸有機會采訪到您，先簡單介紹一下您自己！

主持人好，大家好，我是李志宇，博士畢業(yè)于中國人民大學(xué)，現(xiàn)任記憶張量（上海）科技有限公司聯(lián)合創(chuàng)始人兼CTO，同時在上海算法創(chuàng)新研究院大模型中心擔任研究員。我的研究方向主要聚焦于大模型的記憶增強與高效評估技術(shù)，并長期從事預(yù)訓(xùn)練與大模型應(yīng)用算法的研發(fā)工作。在此之前，我曾在阿里巴巴、小紅書等企業(yè)帶領(lǐng)團隊負責多個核心算法項目，這些技術(shù)成果服務(wù)于雙十一、廣告推薦等超大規(guī)模業(yè)務(wù)場景。近期，我們聯(lián)合多家學(xué)術(shù)與產(chǎn)業(yè)機構(gòu)提出了業(yè)內(nèi)首個大模型記憶操作系統(tǒng)（MemOS），希望為大模型的記憶增強與智能演化提供系統(tǒng)化的技術(shù)路徑。目前，這一方向已在多個行業(yè)場景落地，也成為我們持續(xù)深入探索的核心主題。作為一家本土創(chuàng)業(yè)公司，我們期望跑出國際加速度，讓記憶這件事情深入到通往AGI時代的每個行業(yè)中，真正讓AI有溫度。

02基礎(chǔ)理論與原理

問題2：在構(gòu)建大模型記憶體系時，如何從信息論的角度衡量記憶的容量、質(zhì)量和有效性，以確定合理的記憶規(guī)模和存儲方式，避免過度記憶或記憶不足的問題？

這是一個非常核心的問題。我們在構(gòu)建大模型記憶體系時，確實需要避免兩個極端，一是“記得太多”，模型陷入信息冗余和噪聲累積；二是“記得太少”，導(dǎo)致智能無法延續(xù)。為了找到平衡點，我們需要找到合適的角度去刻畫記憶的“量”和“質(zhì)”。

從信息論的視角看，記憶本質(zhì)上是信息壓縮與重構(gòu)的過程。我們希望記憶中存儲的每一條信息，都能對模型未來的推理或決策產(chǎn)生最大化的信息增益。因此，我們用類似互信息的指標來衡量記憶的價值。那些能顯著提升預(yù)測、規(guī)劃或生成質(zhì)量的記憶，就值得被保留；反之，則可以被壓縮或遺忘。這其實是一種信息效率最大化的策略，讓模型的記憶既豐富又高效。當然，在在工程實現(xiàn)層面，我們會引入分層的記憶結(jié)構(gòu)建模和管理：參數(shù)記憶、激活記憶和明文記憶，這也是由于通常對于應(yīng)用場景而言，這三類的需求程度和讀寫頻率面向場景都會有差異性。我們需要根據(jù)場景的不同，去動態(tài)的建模和調(diào)度不同的記憶類型。

可以說，信息論為我們提供了一種定量化的思維方式——幫助模型判斷什么是“值得記住的事”，什么應(yīng)該“被遺忘”。但最終目標不是讓模型變成一個無所不記的機器，而是讓它具備一種類似人類的選擇性記憶，能在有限的存儲與計算預(yù)算下，保留對智能行為最關(guān)鍵的那部分經(jīng)驗與知識。當然，圍繞這個，我們團隊的首席科學(xué)家楊泓康博士也是正在進行系統(tǒng)化的理論推演和研究，力求從信息增益的角度，對記憶的基本原理有更加完善的建模和突破。

問題3：記憶增強大模型在面對極端復(fù)雜、邏輯跨度極大且信息高度分散的任務(wù)時，其記憶整合與推理能力的邊界究竟在哪里？如何設(shè)計有效的評估指標來量化這一邊界，以指導(dǎo)模型在實際應(yīng)用中的合理使用？

您的這個觀察確實是十分敏銳，記憶增強的大模型在理論上擴展了模型可用上下文的“有效長度”，但在面對您說場景任務(wù)時，記憶整合與推理能力并非無界增長，我認為它其實是有明確的瓶頸與退化模式的。這里我想從兩個方面討論下：

首先說邊界。記憶增強系統(tǒng)的推理能力受三類因素限制：一是信息可及性，也就是關(guān)鍵事實是否能被檢索到并以可理解的形式供推理模塊使用；二是壓縮失真，長期記憶通常要經(jīng)過編碼與壓縮，重要細節(jié)可能在這一階段丟失，導(dǎo)致推理鏈路斷裂；三是推理鏈長度與組合復(fù)雜性，隨著需要組合的記憶片段數(shù)與中間推理步數(shù)增加，模型的錯誤累積和歸納偏差會使正確率呈指數(shù)級下降。因此，當任務(wù)需要跨越大量低頻事實、執(zhí)行多輪多跳組合并保持邏輯一致時，系統(tǒng)的表現(xiàn)會在某個跳數(shù)/信息碎片數(shù)后急劇下降，這就是它的實際邊界。

當然，要量化并可視化這類邊界，單一的準確率不夠，我們需要多維度、可解釋的評估指標和應(yīng)力測試設(shè)計，其中，關(guān)鍵是建立一套結(jié)合信息覆蓋度、推理深度和一致性的綜合指標體系。那么，我們這里的評估也是從邊界的角度上去考慮的，比如信息可達性，用檢索召回率或證據(jù)利用率衡量；二是推理鏈長度與正確率，通過多跳任務(wù)的性能隨推理步數(shù)增加的變化曲線來刻畫；三是一致性與可信度，衡量模型在整合分散記憶時是否保持事實一致、避免幻覺，這里可能就是需要單獨構(gòu)建面向記憶的幻覺評估框架。例如，我們近期發(fā)布的的HaluMem框架，就是業(yè)內(nèi)首個專為記憶系統(tǒng)設(shè)計的操作級幻覺評測基準，覆蓋“提取—更新—問答”全流程，用以全面檢測和量化記憶系統(tǒng)在不同階段的幻覺行為。

03記憶增強技術(shù)層面與架構(gòu)層面

問題4：在金融行業(yè)應(yīng)用記憶增強技術(shù)的大模型或系統(tǒng)時，如何確保模型在處理客戶敏感數(shù)據(jù)（如交易記錄、財務(wù)狀況等）過程中的數(shù)據(jù)安全性和隱私性，防止數(shù)據(jù)泄露和濫用？

確實，記憶作為個人和組織的重要資產(chǎn)，其安全性和隱私性在金融行業(yè)尤為關(guān)鍵。我們的整體思路是從模型對齊與應(yīng)用治理兩個層面同時展開。

在模型對齊層面，我們會通過安全強化對齊和記憶過濾機制，讓模型在訓(xùn)練與推理階段自動區(qū)分可被記憶的信息和禁止長期存儲的敏感數(shù)據(jù)。在應(yīng)用層面，我們構(gòu)建了多級訪問與審計機制，將記憶系統(tǒng)劃分為私域、機構(gòu)域與公共域，確保不同層次的數(shù)據(jù)僅能在授權(quán)范圍內(nèi)被調(diào)用。所有記憶的寫入、檢索與更新操作均可追蹤、可撤銷。此外，我們?yōu)槊織l記憶建立生命周期管理機制，到期自動失效或加密歸檔。通過這種模型層自約束+系統(tǒng)層可監(jiān)管的雙層防護，我們希望實現(xiàn)一種可記憶、但不越界；可調(diào)用、但可控的記憶安全范式，讓大模型在金融場景中既能保持智能性，也能充分保障信任與合規(guī)。

問題5：在記憶張量公司提出的MemOS框架中，各個模塊之間，如記憶抽取、記憶組織、記憶檢索等，是如何進行高效交互和協(xié)同工作的，這種交互機制在處理復(fù)雜、多輪次任務(wù)時如何保證穩(wěn)定性和準確性？

在MemOS框架中，我們始終堅持系統(tǒng)協(xié)同這一核心理念。記憶抽取、記憶組織、記憶檢索這些模塊并不是孤立運作的，而是通過兩條路線實現(xiàn)高效交互與協(xié)同工作的。一條是由我們的算法工程師針對具體應(yīng)用場景定制的Pipeline流程，它保證了系統(tǒng)在落地層面的穩(wěn)定性和確定性；另一條是基于大模型的自動化編排方案，讓系統(tǒng)能夠在面對復(fù)雜、多變的任務(wù)時具備自適應(yīng)與泛化能力。

在第一條路線中，MemOS會根據(jù)任務(wù)類型預(yù)先定義清晰的處理管線。例如，當一個對話任務(wù)觸發(fā)時，系統(tǒng)會按照“記憶抽取→記憶組織→記憶檢索→記憶更新”的順序依次執(zhí)行。每個模塊都有明確的輸入輸出協(xié)議和數(shù)據(jù)結(jié)構(gòu)，通過統(tǒng)一的結(jié)構(gòu)體進行交互，整個流程可以用工程化方式精確控制。這種方式非常適合在金融、客服等高可靠性場景中部署，系統(tǒng)的行為是可預(yù)測、可驗證的。

而在第二條路線中，我們利用大模型本身的理解與規(guī)劃能力，讓它來讀懂記憶框架的各個算子，并生成一套動態(tài)的編排指令。也就是說，模型可以根據(jù)當前任務(wù)狀態(tài)，自主決定調(diào)用哪些記憶模塊、采用何種參數(shù)與順序。例如，在多輪任務(wù)或跨會話推理中，系統(tǒng)模型會根據(jù)上下文自動觸發(fā)“抽取+檢索+復(fù)查”的組合操作，實現(xiàn)真正的智能化調(diào)度。

為了在這兩種路線下都能保證穩(wěn)定性和準確性，我們在系統(tǒng)中加入了異步的一致性約束、記憶快照與幻覺檢測機制。每一次記憶更新都會經(jīng)過時序校驗和沖突檢測；系統(tǒng)還會實時監(jiān)測記憶內(nèi)容的準確性，利用我們提出的HaluMem框架對潛在幻覺或錯誤更新進行評估與糾正。這套機制確保了在長時、多輪的任務(wù)執(zhí)行中，記憶信息始終保持邏輯一致和事實正確。

問題6：在MemOS框架中，記憶模塊的擴展性如何？當面對大規(guī)模數(shù)據(jù)和復(fù)雜任務(wù)時，如何確保記憶模塊能夠高效擴展而不影響整個模型的性能和穩(wěn)定性？

在MemOS的設(shè)計理念中，我們始終以“人”或者“Agent”為核心來思考記憶管理與模塊化擴展的問題。我們認為，記憶系統(tǒng)的本質(zhì)不是簡單地堆疊存儲容量，而是要讓智能體在持續(xù)演化中，像人一樣能取舍記憶、組織經(jīng)驗（比如我們設(shè)計的類腦圖知識組織方案）、持續(xù)成長。因此在MemOS的架構(gòu)里，每一個記憶模塊都圍繞Agent的生命周期設(shè)計，具備清晰的邊界、獨立的接口和可擴展的層級邏輯，這讓系統(tǒng)能夠在保持穩(wěn)定的同時，靈活應(yīng)對不同規(guī)模的數(shù)據(jù)與任務(wù)。

從架構(gòu)上看，MemOS的記憶模塊是通過分層記憶管理來實現(xiàn)高效以及可擴展性的。每個人或者Agent都會維持一個專屬的記憶體，這個記憶體是可被打包、轉(zhuǎn)移或者傳輸?shù)?。在性能與穩(wěn)定性保障方面，我們引入了兩類關(guān)鍵機制：一是異步記憶調(diào)度機制，它讓記憶的讀寫與模型計算解耦，不會因為大規(guī)模記憶操作拖慢主推理流程；二是增量更新與記憶壓縮技術(shù)，系統(tǒng)會通過自動蒸餾與壓縮算法，將長期未訪問或低價值的記憶進行提煉與融合，減少冗余占用，從而保證系統(tǒng)即使在超大規(guī)模數(shù)據(jù)流或者高QPS環(huán)境下仍能高效運作。

04記憶增強訓(xùn)練方法層面

問題7：目前各家記憶系統(tǒng)多數(shù)都是基于通用基座構(gòu)建的應(yīng)用處理流程，但您更加強調(diào)說需要通過模型層面的訓(xùn)練來結(jié)合提升記憶處理的效果？為什么會有這樣的考慮呢？

確實，目前很多記憶系統(tǒng)的做法主要是基于現(xiàn)有大模型去做“外掛式記憶”，也就是通過外部數(shù)據(jù)庫、RAG檢索或工作流編排的方式，把記憶功能包在模型外層。這種方式在工程上簡單、可快速落地，但它本質(zhì)上仍然是一種“調(diào)用式記憶”或者“阻斷式記憶”，并沒有真正改變模型對記憶的理解與使用方式。而我們在MemOS中更強調(diào)要通過模型層面的訓(xùn)練去融合記憶，讓模型能夠內(nèi)生地學(xué)習到記憶的形成、更新與調(diào)用邏輯，構(gòu)建一個ALL-Ready的記憶狀態(tài)和上下文空間。

我們之所以有這樣的考慮，主要出于兩個核心原因。第一，從智能演化的角度看，真正的記憶不是外部調(diào)用的緩存，而是模型認知體系的一部分。人類在記憶時會經(jīng)歷“編碼—提取—重構(gòu)”的過程，而大模型若沒有在參數(shù)層或激活層中學(xué)習這些機制，它就無法真正做到穩(wěn)定記憶和長期依賴，所有外部的RAG都只是模仿。第二，從系統(tǒng)性能的角度看，外部記憶雖然靈活，但在多輪交互中會出現(xiàn)語義漂移、檢索偏差、幻覺積累等問題。只有讓模型在訓(xùn)練階段就理解什么是重要的記憶、如何壓縮、如何復(fù)用，才能從源頭上提升系統(tǒng)的可靠性和一致性。

因此，在MemOS中，我們正在嘗試構(gòu)建包括記憶原生基模的概念，也就是讓模型在后訓(xùn)練或自蒸餾階段，通過顯式的記憶標簽與記憶鏈學(xué)習，去掌握如何管理和調(diào)用記憶，讓模型在面對舊知識或長期上下文時，能夠自主地識別哪些信息應(yīng)當鞏固、哪些應(yīng)當遺忘。同時，我們還在研究參數(shù)記憶與明文記憶之間的協(xié)同蒸餾，讓模型既能在參數(shù)中保留穩(wěn)定的長期知識，又能通過外部記憶靈活應(yīng)對動態(tài)任務(wù)。

我一直認為，如果說現(xiàn)有的多數(shù)記憶系統(tǒng)是在教模型去查筆記，那么我們做的是教模型學(xué)會思考和整理自己的記憶。只有把記憶融入模型的學(xué)習和推理機制中，智能體才能真正具備持續(xù)學(xué)習與經(jīng)驗積累的能力，這也是我們推進MemOS的最核心目標。

問題8：當使用強化學(xué)習訓(xùn)練記憶調(diào)度策略時，如何解決探索-利用平衡問題，確保模型既能充分探索不同的記憶方式，又能有效利用已有的最優(yōu)記憶策略？

這個問題非常關(guān)鍵。我們在MemOS的調(diào)度算子研究中確實發(fā)現(xiàn)，當用強化學(xué)習訓(xùn)練模型的記憶調(diào)度策略時，最難處理的不是獎勵設(shè)計本身，而是探索與利用的平衡問題——也就是模型在面對龐大的記憶空間時，如何在嘗試新的記憶方式和鞏固已有的最優(yōu)策略之間動態(tài)切換。過度探索會導(dǎo)致系統(tǒng)學(xué)習不穩(wěn)定、效率低下，而過度利用又會讓模型陷入慣性記憶，缺乏自我更新的能力。

在MemOS的設(shè)計里，我們主要通過三層機制來解決這個平衡問題。第一層是分階段探索機制。我們讓模型在訓(xùn)練早期保持較高的探索率，而在訓(xùn)練中后期，會逐步降低探索率，讓模型更多地利用過去被驗證有效的記憶操作。這有點類似人類學(xué)習過程中的“先廣度后深度”——先學(xué)會如何記，再學(xué)會如何記得更好。第二層是基于信息增益的獎勵重構(gòu)機制。我們不是單純獎勵模型生成正確的答案，而是獎勵它在記憶操作中帶來的“知識增益”——例如是否發(fā)現(xiàn)了新的關(guān)聯(lián)、是否優(yōu)化了記憶壓縮效率、是否減少了幻覺率。這樣模型在強化學(xué)習過程中就會自然地傾向于那些真正提升記憶系統(tǒng)表現(xiàn)的策略，而不是只在短期準確率上做表面優(yōu)化。第三層是動態(tài)記憶策略池。我們在訓(xùn)練過程中同時維護多個策略分支，讓模型在不同上下文下能夠自適應(yīng)切換。例如，當系統(tǒng)檢測到任務(wù)變化或上下文漂移時，會自動觸發(fā)新的探索模式；而在穩(wěn)定場景中則優(yōu)先使用已經(jīng)收斂的策略。

總的來說，我們希望強化學(xué)習下的記憶訓(xùn)練更接近人類的持續(xù)學(xué)習范式：既要有足夠的探索，去發(fā)現(xiàn)新的記憶組織邏輯；又要能在已有經(jīng)驗上穩(wěn)步迭代，形成可復(fù)用的記憶策略。這種平衡機制也讓MemOS的記憶系統(tǒng)在面對開放環(huán)境和長周期任務(wù)時，既具備適應(yīng)性，又能保持穩(wěn)定性與可控性。

05記憶增強技術(shù)與MemOS的未來趨勢和挑戰(zhàn)

問題9：您覺得未來記憶增強實現(xiàn)的最典型和最高效的范式是什么？實現(xiàn)的過程中有什么大的技術(shù)挑戰(zhàn)值得注意嗎？

我認為，未來記憶增強技術(shù)最典型、也最有效的實現(xiàn)范式，一定是模型原生+系統(tǒng)協(xié)同的融合形態(tài)。也就是說，記憶不再是外掛式的模塊，也不是單純的數(shù)據(jù)庫或檢索層，而是成為大模型內(nèi)部認知結(jié)構(gòu)與外部系統(tǒng)協(xié)同機制的一體化組成部分。我們希望模型不僅能查得到過去的信息，更能理解自己為什么記得和知道何時該忘記。這一點聽起來簡單，但本質(zhì)上意味著人工智能開始具備自我記憶管理與動態(tài)知識更新的能力。

在實現(xiàn)路徑上，我認為會呈現(xiàn)三層融合的趨勢。第一層是模型層的記憶內(nèi)生化，也就是讓模型在訓(xùn)練過程中學(xué)習記憶形成與更新的機制，比如通過自蒸餾、強化回放或鏈式記憶學(xué)習（Chain-of-Memory）等方式，使記憶結(jié)構(gòu)內(nèi)化到參數(shù)和激活空間中；第二層是系統(tǒng)層的記憶編排與調(diào)度，通過像MemOS這樣的操作系統(tǒng)級架構(gòu)，實現(xiàn)不同類型記憶（參數(shù)記憶、激活記憶、明文記憶）的動態(tài)管理和多任務(wù)共享；第三層是跨模型與跨Agent的記憶互聯(lián)，也就是讓多個智能體之間能夠共享和遷移記憶，從而形成真正的群體記憶網(wǎng)絡(luò)。這種三層融合的架構(gòu)，最終會讓AI擁有持續(xù)學(xué)習、協(xié)作演化的能力，而不是在每次任務(wù)中從零開始。

當然，這條路上也存在很大的技術(shù)挑戰(zhàn)。首先是一致性問題，不同來源、不同時間的記憶（特別是參數(shù)記憶和激活記憶）如何融合而不產(chǎn)生沖突，是系統(tǒng)最難控制的部分；其次是可解釋性問題，當模型基于大量動態(tài)記憶做出決策時，我們?nèi)绾巫粉櫵挠洃泚碓磁c演化路徑；第三是記憶約束與隱私問題，未來的記憶系統(tǒng)要像人腦一樣可記、可忘、可加密，這需要在算法、系統(tǒng)與倫理層面共同突破。除此之外，還有性能與成本問題——如何在超長上下文、超大記憶圖的情況下，仍然保持檢索速度、訓(xùn)練效率和能耗平衡，這將是工程落地的關(guān)鍵考驗。

我相信，記憶增強的未來不會是一個單點技術(shù)突破，而是一個跨層融合、持續(xù)演化的系統(tǒng)工程。

問題10：MemOS未來是否會突破現(xiàn)有單一文本模態(tài)記憶的限制，全面整合圖像、音頻、視頻等多模態(tài)記憶信息，實現(xiàn)跨模態(tài)記憶的深度融合與協(xié)同推理，以適應(yīng)更復(fù)雜、多元的應(yīng)用場景？

我認為這是記憶系統(tǒng)發(fā)展中最具確定性的趨勢之一。因為人類的記憶從來不是單一模態(tài)的，我們在記憶一件事情時，往往同時保留文字、圖像、聲音甚至情感的線索；而如果人工智能希望具備真正的理解與推理能力，就必須能夠在不同模態(tài)之間建立統(tǒng)一的記憶表征。因此，MemOS也一定會突破單一文本模態(tài)的限制，走向多模態(tài)記憶的融合與協(xié)同推理。

在目前的研發(fā)路線中，我們已經(jīng)在構(gòu)建多模態(tài)記憶架構(gòu)，它的核心思路是：通過統(tǒng)一的記憶編碼與對齊機制，把文本、圖像、語音、視頻等不同模態(tài)的信息映射到同一個記憶語義空間中。比如，當系統(tǒng)處理一段會議視頻時，它不僅會抽取文字記錄，還會同步提取說話者的語音特征、表情變化、圖像場景信息，并通過記憶抽取和記憶組織模塊進行語義對齊與時序建模。這樣，記憶就不再是單線索文本，而是一種跨模態(tài)的認知節(jié)點，可以在后續(xù)的檢索與推理中被統(tǒng)一調(diào)用。

更重要的是，在記憶檢索與記憶推理階段，我們希望模型能夠?qū)崿F(xiàn)跨模態(tài)的協(xié)同回憶。比如在處理一個醫(yī)療場景時，系統(tǒng)既能檢索患者的病歷文本，又能自動聯(lián)想到影像片段中的異常區(qū)域，并結(jié)合歷史語音記錄做出判斷；又如在金融或工業(yè)領(lǐng)域，模型可以同時分析報告內(nèi)容、圖表趨勢和視頻監(jiān)控信息，形成一個多視角的記憶認知鏈。這種能力本質(zhì)上是一種多模態(tài)記憶推理，它讓系統(tǒng)具備了更接近人類理解方式的通用智能特征。

當然，這條路也充滿挑戰(zhàn)。最大的問題是模態(tài)對齊與記憶一致性，不同模態(tài)的信息往往存在時空錯配和語義差異，我們需要設(shè)計更高維的對齊機制和動態(tài)權(quán)重策略，來保證系統(tǒng)在融合時不丟失細節(jié)、不過度壓縮。其次是效率與算力成本，多模態(tài)記憶的讀寫和檢索非常龐大，我們正在通過稀疏化存儲、事件觸發(fā)更新、以及記憶圖分層管理等手段去優(yōu)化。最后是推理一致性與可解釋性，在多模態(tài)融合后，如何追溯模型的記憶來源、保證不同模態(tài)間推理鏈條的邏輯透明，這將是未來一段時間我們重點攻關(guān)的方向。

總體來說，我認為多模態(tài)記憶是記憶增強的必然演化方向。而MemOS的目標正是希望成為連接多模態(tài)智能的記憶操作系統(tǒng)，讓模型不僅能“看懂”“聽懂”“讀懂”，更能“記得對、想得通、推得準”。同時，我們最近發(fā)布了平臺化的API系統(tǒng)，能夠讓開發(fā)者們更加快速高效的使用記憶增強框架，歡迎感興趣的同學(xué)搜索MemOS并試用API。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.