網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

南京大學(xué)與字節(jié)跳動(dòng)聯(lián)手打造"AI私人助理"，終于能記住你是誰了

2026-04-27 21:18:51　來源: 科技行者

北京舉報(bào)

分享至

這項(xiàng)由南京大學(xué)與字節(jié)跳動(dòng)聯(lián)合開展的研究，以預(yù)印本論文形式于2026年3月20日發(fā)布在arXiv平臺(tái)，論文編號(hào)為arXiv:2604.13074v1，分類于計(jì)算機(jī)科學(xué)的計(jì)算與語言（cs.CL）方向。有興趣深入了解的讀者可以通過該編號(hào)直接查詢完整論文。

你有沒有跟AI助手聊天聊到一半，發(fā)現(xiàn)它完全不記得你上次說過什么的經(jīng)歷？你告訴它你不喜歡喝咖啡，結(jié)果下周再聊，它還是熱情地給你推薦拿鐵。你跟它分享過你是一個(gè)性格內(nèi)向、容易焦慮的人，但當(dāng)你說今天壓力很大時(shí)，它依然用那種充滿活力的語氣喊你"去派對(duì)認(rèn)識(shí)新朋友吧！"——這感覺就像跟一個(gè)每次見面都把你忘干凈的人在交流。

這不是個(gè)小問題。隨著AI助手越來越深入地參與人們的日常生活——幫你做計(jì)劃、聊心情、提建議——這種"健忘"和"一刀切"的回應(yīng)方式，正在成為一個(gè)越來越令人沮喪的障礙。南京大學(xué)與字節(jié)跳動(dòng)的研究團(tuán)隊(duì)正是注意到了這個(gè)痛點(diǎn)，于是開發(fā)了一套名為PersonaVLM的框架，專門讓多模態(tài)大語言模型（就是那種既能看圖又能對(duì)話的AI）變成一個(gè)真正了解你、記住你、并能隨著你的變化不斷調(diào)整自己的私人助理。

一、為什么現(xiàn)在的AI助手總是"失憶"又"刻板"

要理解PersonaVLM解決了什么問題，得先搞清楚現(xiàn)在的AI助手究竟哪里出了毛病。研究團(tuán)隊(duì)把現(xiàn)有的個(gè)性化方法歸納為三類，并指出了每一類的根本缺陷。

第一類叫"適應(yīng)型"方法，原理是針對(duì)每個(gè)用戶單獨(dú)訓(xùn)練或微調(diào)模型，讓模型把用戶的習(xí)慣直接"燒錄"到自己的參數(shù)里。代表作是MyVLM和Yo'LLaVA，它們能讓AI從認(rèn)識(shí)"一只狗"升級(jí)到認(rèn)識(shí)"你家的狗旺財(cái)"。但問題在于，每來一個(gè)新用戶，或者用戶的習(xí)慣發(fā)生變化，就得重新訓(xùn)練一次——這種代價(jià)太大了，根本無法大規(guī)模推廣，更無法追蹤用戶偏好的演變。

第二類叫"增強(qiáng)型"方法，思路是給AI配備一個(gè)外部數(shù)據(jù)庫，把用戶說過的話存進(jìn)去，需要時(shí)再檢索出來。RAP等系統(tǒng)屬于這類，它們不需要重新訓(xùn)練模型，相對(duì)靈活。但致命的弱點(diǎn)是：這個(gè)數(shù)據(jù)庫是人工預(yù)設(shè)好的，AI不會(huì)主動(dòng)思考"這件事值不值得記下來"，也不會(huì)隨著對(duì)話主動(dòng)更新記憶。更麻煩的是，直接用關(guān)鍵詞搜索記憶會(huì)產(chǎn)生"語義漂移"——你問"那天我們聊的那件事"，系統(tǒng)根本不知道你指的是哪件事。

第三類叫"對(duì)齊型"方法，目標(biāo)是讓AI的回復(fù)風(fēng)格符合用戶的個(gè)性。ALIGNXPERT和PAS都屬于這個(gè)方向，但它們的問題在于把用戶性格當(dāng)成一個(gè)固定標(biāo)簽，一旦貼上"外向型"的標(biāo)簽就一直用下去?？涩F(xiàn)實(shí)是，人的性格是流動(dòng)的——一個(gè)在工作場(chǎng)合表現(xiàn)得雷厲風(fēng)行的人，私下可能敏感細(xì)膩；一個(gè)年初開朗愛社交的人，年末可能因?yàn)槟臣伦兊脙?nèi)斂焦慮。

研究團(tuán)隊(duì)用一個(gè)非常形象的例子說明了這三類方法會(huì)同時(shí)失敗的場(chǎng)景：用戶在5月底說自己喝雪碧緩解夏季焦慮，6月初又說最近更喜歡喝可樂來平復(fù)情緒。7月中旬當(dāng)用戶再次表達(dá)壓力很大時(shí)，增強(qiáng)型系統(tǒng)仍然從數(shù)據(jù)庫里翻出"雪碧"這條舊記錄，推薦了已經(jīng)過時(shí)的選擇；而對(duì)齊型系統(tǒng)則用熱情洋溢的語氣喊那個(gè)內(nèi)向、高神經(jīng)質(zhì)的用戶"去主動(dòng)結(jié)交陌生人"——完全不顧這對(duì)他來說簡(jiǎn)直是噩夢(mèng)。

由此，研究團(tuán)隊(duì)明確提出了長(zhǎng)期個(gè)性化需要同時(shí)解決兩根支柱：一是能主動(dòng)構(gòu)建和維護(hù)動(dòng)態(tài)用戶記憶的架構(gòu)；二是能利用這些記憶進(jìn)行推理、并生成與用戶當(dāng)下性格真正對(duì)齊的回應(yīng)的能力。

二、PersonaVLM的核心設(shè)計(jì)：一套會(huì)"認(rèn)識(shí)你"的記憶系統(tǒng)

PersonaVLM的整體架構(gòu)建立在一套專門設(shè)計(jì)的個(gè)性化記憶系統(tǒng)之上，這套系統(tǒng)存儲(chǔ)兩大類信息，就像一個(gè)了解你的老朋友同時(shí)維護(hù)著兩本關(guān)于你的手冊(cè)。

第一本手冊(cè)叫"用戶性格檔案"，用五個(gè)維度的數(shù)值來描述你的性格——這五個(gè)維度來自心理學(xué)界廣泛認(rèn)可的"大五人格模型"，分別是開放性（你有多愿意嘗試新事物）、盡責(zé)性（你有多有條理有紀(jì)律）、外向性（你有多喜歡社交）、宜人性（你有多友善合作）、和神經(jīng)質(zhì)（你有多容易焦慮緊張）。每個(gè)維度的分值在1到5之間浮動(dòng)，構(gòu)成一個(gè)五維的數(shù)字向量，代表AI對(duì)你性格的實(shí)時(shí)認(rèn)知。

第二本手冊(cè)是"多類型記憶數(shù)據(jù)庫"，分為四個(gè)格子。第一個(gè)格子叫"核心記憶"，存的是你最基礎(chǔ)的個(gè)人信息，比如名字、年齡、職業(yè)、興趣偏好，以及你希望AI以什么風(fēng)格和你互動(dòng)——這個(gè)格子里的內(nèi)容會(huì)隨著新信息的出現(xiàn)直接覆蓋舊版本，永遠(yuǎn)保持最新狀態(tài)。第二個(gè)格子叫"語義記憶"，存的是與時(shí)間無關(guān)的穩(wěn)定知識(shí)，比如"用戶對(duì)貓過敏"、"用戶曾提到失業(yè)"、"用戶喜歡極簡(jiǎn)風(fēng)格的設(shè)計(jì)"，還包括用戶分享過的圖片中具體的視覺元素，比如"朋友小明（附上圖片中小明的裁剪圖）"。第三個(gè)格子叫"情節(jié)記憶"，存的是按時(shí)間軸組織的對(duì)話片段——每次對(duì)話結(jié)束后，AI會(huì)把整段對(duì)話按話題分割，給每個(gè)話題寫一個(gè)摘要、提取關(guān)鍵詞、并記錄這段對(duì)話的輪次索引。原始對(duì)話永遠(yuǎn)不會(huì)被刪除，情節(jié)記憶只是一個(gè)快速定位的索引層。第四個(gè)格子叫"程序記憶"，專門記錄你的長(zhǎng)期目標(biāo)和重復(fù)性習(xí)慣，比如"用戶每周四早上跑步"、"用戶正在寫一本小說，目前完成了第三章"。

這套記憶系統(tǒng)的存儲(chǔ)和更新策略非常精妙。語義記憶和情節(jié)記憶是純粹累積的——新內(nèi)容只增不減，歷史記錄完整保留，就像在日記本上不斷添頁，從不撕頁。而核心記憶和程序記憶則是"最新優(yōu)先"——只保留最新版本，就像用最新的地圖替換舊地圖，避免過時(shí)信息干擾判斷。

三、兩階段運(yùn)作：從"回應(yīng)你"到"認(rèn)識(shí)你"的完整循環(huán)

PersonaVLM的實(shí)際運(yùn)作分為兩個(gè)階段，像一個(gè)不斷學(xué)習(xí)的循環(huán)。

每當(dāng)你發(fā)來一條消息（可以是文字，也可以帶圖），第一階段"回應(yīng)階段"就啟動(dòng)了。AI首先會(huì)看到你的消息、近期的對(duì)話記錄、你的核心記憶和當(dāng)前的性格檔案。然后它開始一個(gè)非常關(guān)鍵的自主推理過程：先判斷手頭的信息夠不夠回答你的問題。如果夠，直接給出回答；如果不夠，它會(huì)主動(dòng)發(fā)起一次記憶檢索請(qǐng)求，在請(qǐng)求中指定兩個(gè)參數(shù)——關(guān)鍵詞和時(shí)間范圍。

時(shí)間范圍這個(gè)設(shè)計(jì)非常有意思。普通的RAG系統(tǒng)只管關(guān)鍵詞匹配，而PersonaVLM意識(shí)到人們說話經(jīng)常帶時(shí)間線索，比如"上個(gè)月"、"那次出差之前"、"我媽生日那天"——這些線索對(duì)精確檢索至關(guān)重要。AI會(huì)先根據(jù)時(shí)間范圍圈定候選記憶，再在這個(gè)范圍內(nèi)對(duì)語義記憶、情節(jié)記憶和程序記憶三個(gè)格子分別并行搜索，各自取出最相關(guān)的若干條。檢索結(jié)果回來后，AI繼續(xù)推理，判斷是否需要再檢索一輪，或者已經(jīng)可以給出回答。整個(gè)推理和檢索過程可以迭代最多三次，就像偵探在案發(fā)地點(diǎn)反復(fù)勘查，直到找到關(guān)鍵線索才合上筆記本。

這種設(shè)計(jì)解決了一個(gè)人們通常沒意識(shí)到的難題：用戶的問題經(jīng)常包含指代詞，比如"那個(gè)東西我還需要買嗎"、"你還記得我說的那件事嗎"——這種問題用直接語義匹配根本找不到，必須通過上下文推理來確定"那個(gè)東西"指的是什么，然后再去檢索。

檢索到的文字記憶用的是一個(gè)叫all-MiniLM-L6-v2的句子編碼器，把所有記憶轉(zhuǎn)換成數(shù)字向量，再用FAISS這個(gè)高效向量搜索庫快速找到最相關(guān)的條目。如果你發(fā)來了圖片，系統(tǒng)還會(huì)自動(dòng)觸發(fā)視覺檢索：先用Grounding DINO這個(gè)目標(biāo)檢測(cè)器從你的圖片中找出各種物體，然后用CLIP這個(gè)圖文對(duì)齊模型把這些物體和記憶庫里存的視覺概念做相似度比較，從而識(shí)別出"這張照片里是你的朋友小明"。

在回復(fù)生成時(shí)，AI會(huì)把你的性格檔案作為核心指令，調(diào)整回復(fù)的語氣、風(fēng)格和內(nèi)容方向——對(duì)高神經(jīng)質(zhì)的用戶給予安撫和穩(wěn)定感，對(duì)低開放性的用戶給出務(wù)實(shí)具體的建議，而不是充滿奇思妙想的發(fā)散性回答。

回復(fù)發(fā)出之后，系統(tǒng)進(jìn)入第二階段"更新階段"，這個(gè)階段在"閑置時(shí)間"異步進(jìn)行，不影響你下一條消息的響應(yīng)速度。更新階段做兩件事：更新性格檔案，以及更新記憶數(shù)據(jù)庫。

性格檔案的更新通過一個(gè)叫做"人格演化機(jī)制"（PEM）的算法完成。AI會(huì)從你剛才那條消息的語言風(fēng)格和情緒線索中，推斷出一個(gè)臨時(shí)的五維性格評(píng)分。然后用一個(gè)叫"指數(shù)移動(dòng)平均"的公式，把這個(gè)臨時(shí)評(píng)分與歷史積累的長(zhǎng)期性格檔案做加權(quán)融合：新檔案 = λ × 舊檔案 + (1-λ) × 臨時(shí)評(píng)分。這里的λ是一個(gè)動(dòng)態(tài)調(diào)整的系數(shù)，在你們剛開始互動(dòng)時(shí)λ值比較小，意味著每次新輸入對(duì)檔案的影響更大，AI學(xué)得很快；隨著交互輪次增加，λ慢慢升高，檔案趨于穩(wěn)定，不會(huì)因?yàn)槟隳程煺f話風(fēng)格偶爾不同就劇烈波動(dòng)。這個(gè)設(shè)計(jì)的邏輯是：了解一個(gè)人需要大量樣本，早期每條信息都很寶貴，而建立了深度了解之后，偶爾的異常不應(yīng)該推翻已有的認(rèn)知。如果某次AI推斷出的臨時(shí)性格評(píng)分全是中性值3，這次更新會(huì)被跳過，避免無意義的對(duì)話污染性格檔案。

記憶更新則對(duì)四種類型分別處理：語義記憶在每輪對(duì)話結(jié)束后立即更新，提取新出現(xiàn)的偏好、明確要記憶的內(nèi)容和新認(rèn)識(shí)的人或物；程序記憶和核心記憶在每次會(huì)話結(jié)束后批量更新，AI會(huì)審視整段會(huì)話來決定是否新增、修改或刪除某條記錄；情節(jié)記憶則通過把整段會(huì)話按話題分割，為每個(gè)話題生成摘要、關(guān)鍵詞和對(duì)應(yīng)輪次索引，追加到情節(jié)記憶庫中。

四、如何從零訓(xùn)練出這樣一個(gè)系統(tǒng)

要讓PersonaVLM真正學(xué)會(huì)上述所有能力，研究團(tuán)隊(duì)需要大量高質(zhì)量的訓(xùn)練數(shù)據(jù)。現(xiàn)有的數(shù)據(jù)集普遍存在三個(gè)缺陷：只有文字沒有圖片，只有短對(duì)話沒有長(zhǎng)期互動(dòng)，以及沒有關(guān)于記憶管理和性格推理的監(jiān)督信號(hào)。于是團(tuán)隊(duì)從頭構(gòu)建了一條數(shù)據(jù)合成流水線。

流水線的起點(diǎn)是從PersonaHub（一個(gè)包含十億規(guī)模人物設(shè)定的公開資源）中抽取700個(gè)虛擬人物，再為每個(gè)人物隨機(jī)分配大五人格分?jǐn)?shù)，生成詳細(xì)的角色描述和初始核心記憶。接著用商業(yè)級(jí)別的Seed1.6-thinking模型，模擬這些虛擬用戶與AI進(jìn)行長(zhǎng)達(dá)數(shù)百輪、跨越數(shù)周到數(shù)月的對(duì)話。為了讓對(duì)話更真實(shí)，流水線會(huì)概率性地觸發(fā)偏好轉(zhuǎn)變事件（比如原本喜歡雪碧的用戶某天因?yàn)榭戳艘黄恼麻_始偏向可樂）、話題跳轉(zhuǎn)和性格演變。超過15%的對(duì)話包含圖片交互，覆蓋從專業(yè)工作討論到日常閑聊的廣泛場(chǎng)景。最關(guān)鍵的一點(diǎn)是，生成過程不僅產(chǎn)出對(duì)話內(nèi)容，還同步產(chǎn)出中間的推理步驟、檢索決策和記憶更新操作，為模型訓(xùn)練提供了極其豐富的監(jiān)督信號(hào)。

最終數(shù)據(jù)集包含700組長(zhǎng)期對(duì)話，其中500組用于訓(xùn)練，200組留給測(cè)試，訓(xùn)練集對(duì)話長(zhǎng)度在20到100輪之間，測(cè)試集則更具挑戰(zhàn)性，設(shè)計(jì)了兩個(gè)難度檔：20到100輪對(duì)應(yīng)32k上下文窗口，100到500輪對(duì)應(yīng)128k上下文窗口。這種設(shè)計(jì)使得測(cè)試數(shù)據(jù)比訓(xùn)練數(shù)據(jù)更長(zhǎng)、更復(fù)雜，能夠真正檢驗(yàn)系統(tǒng)的泛化能力。

整個(gè)數(shù)據(jù)集還經(jīng)過了兩輪質(zhì)量審查：第一輪是自動(dòng)化過濾，包括規(guī)則檢查（時(shí)間戳是否符合時(shí)序、情節(jié)記憶的輪次索引是否完整）和模型自檢（內(nèi)容是否安全連貫）；第二輪是人工審核，4名標(biāo)注人員仔細(xì)排查錯(cuò)誤、無意義或重復(fù)的對(duì)話，整個(gè)人工審核過程耗時(shí)約40人時(shí)。

有了數(shù)據(jù)之后，PersonaVLM以Qwen2.5-VL-7B這個(gè)多模態(tài)大語言模型作為基礎(chǔ)，進(jìn)行兩階段訓(xùn)練。第一階段是監(jiān)督微調(diào)，用7.8萬條樣本訓(xùn)練模型掌握記憶管理的基本功——包括怎么推斷性格、怎么執(zhí)行各類記憶的增刪改查操作、以及怎么生成有完整推理鏈條的答案。這一階段讓模型具備了清晰輸出推理過程和檢索指令的基礎(chǔ)能力。第二階段是強(qiáng)化學(xué)習(xí)，使用GRPO算法（一種改進(jìn)版的強(qiáng)化學(xué)習(xí)策略優(yōu)化方法）進(jìn)一步強(qiáng)化多輪推理和檢索的質(zhì)量。訓(xùn)練時(shí)，模型對(duì)每個(gè)樣本會(huì)生成6條不同的推理路徑，然后用三個(gè)獎(jiǎng)勵(lì)函數(shù)來評(píng)分：答案準(zhǔn)確性、推理過程與最終答案是否邏輯自洽、以及輸出格式是否規(guī)范。評(píng)分由Qwen3-30B-A3B這個(gè)更大的模型擔(dān)任裁判。整個(gè)兩階段訓(xùn)練在8塊NVIDIA H800 GPU上完成，總耗時(shí)約8小時(shí)（監(jiān)督微調(diào)2小時(shí)，強(qiáng)化學(xué)習(xí)6小時(shí)）。

五、全面評(píng)測(cè)：PersonaVLM表現(xiàn)如何

為了評(píng)估PersonaVLM的性能，研究團(tuán)隊(duì)做了三件事：參加已有的評(píng)測(cè)基準(zhǔn)測(cè)試、引入自建的Persona-MME基準(zhǔn)測(cè)試、以及進(jìn)行開放式生成質(zhì)量的定性評(píng)估。

已有基準(zhǔn)方面，團(tuán)隊(duì)在PERSONAMEM上進(jìn)行了測(cè)試，這是一個(gè)專門設(shè)計(jì)來評(píng)估AI追蹤用戶偏好演變能力的基準(zhǔn)，包含七類任務(wù)：回憶用戶分享過的事實(shí)、提出新建議、確認(rèn)用戶最新偏好、追蹤完整偏好演變、回顧偏好變化的原因、提供符合偏好的推薦，以及綜合評(píng)分。測(cè)試分32k和128k兩種上下文長(zhǎng)度。在32k設(shè)置下，PersonaVLM相比基礎(chǔ)版Qwen2.5-VL-7B（加了RAG檢索的版本）提升了10.86個(gè)百分點(diǎn)，比GPT-4o高出17.3個(gè)百分點(diǎn)。在更具挑戰(zhàn)性的128k設(shè)置下，PersonaVLM依然比GPT-4o高出2.0個(gè)百分點(diǎn)，這在面對(duì)如此長(zhǎng)的對(duì)話歷史時(shí)是相當(dāng)可觀的優(yōu)勢(shì)。

研究團(tuán)隊(duì)還特別關(guān)注到了一個(gè)反直覺的現(xiàn)象：在短上下文（32k）場(chǎng)景下，給模型加上RAG檢索反而會(huì)讓偏好理解任務(wù)的表現(xiàn)下降最多9.33%，而在長(zhǎng)上下文（128k）場(chǎng)景下，RAG則帶來4.53%的明顯提升。這說明，當(dāng)對(duì)話本身已經(jīng)足夠簡(jiǎn)短時(shí)，強(qiáng)行檢索會(huì)引入噪聲；只有當(dāng)對(duì)話長(zhǎng)到超出模型直接處理能力時(shí)，檢索才真正發(fā)揮價(jià)值。

自建的Persona-MME基準(zhǔn)是這次研究的另一大貢獻(xiàn)。研究團(tuán)隊(duì)基于200個(gè)虛擬人物，構(gòu)建了超過2000道測(cè)試題，覆蓋七個(gè)核心維度和14項(xiàng)細(xì)粒度任務(wù)。七個(gè)維度分別是記憶、意圖、偏好、行為、關(guān)系、成長(zhǎng)和對(duì)齊，每個(gè)維度下又細(xì)分為具體任務(wù)，比如視覺細(xì)節(jié)回憶（你能記住我之前分享的照片里那件東西是什么顏色的嗎？）、最新偏好識(shí)別（當(dāng)用戶近期行為與之前言論矛盾時(shí)，以行為為準(zhǔn)）、隱式意圖推理（用戶沒明說但言下之意想要什么？）、行為模式識(shí)別（用戶每次遇到類似情況會(huì)怎么做？）、長(zhǎng)期目標(biāo)追蹤（那個(gè)項(xiàng)目進(jìn)展到哪了？不確定時(shí)也要能答出"目前不清楚狀態(tài)"）、人際關(guān)系識(shí)別（在用戶多次提到的朋友中，誰出現(xiàn)得最頻繁？），以及性格對(duì)齊（這條回復(fù)是否真的符合這個(gè)用戶的性格？）。每道題還有32k和128k兩個(gè)難度檔，總測(cè)試案例超過2034道。

在128k配置的Persona-MME上，PersonaVLM以77.08分排在所有測(cè)試模型中第二，僅次于GPT-5（82.95分），超過GPT-4o（71.90分）5.18個(gè)百分點(diǎn)，也超過了規(guī)模更大的InternVL3-38B（66.01分）和語言能力出色的Qwen3-30B-A3B（72.65分）。在與基礎(chǔ)版Qwen2.5-VL-7B（54.62分）相比，PersonaVLM提升了整整22.46個(gè)百分點(diǎn)，這個(gè)提升幅度尤其集中在"成長(zhǎng)建模"和"性格對(duì)齊"兩個(gè)維度上，說明PersonaVLM的核心設(shè)計(jì)確實(shí)在這些最難的任務(wù)上產(chǎn)生了顯著效果。

在性格對(duì)齊專項(xiàng)評(píng)測(cè)方面，團(tuán)隊(duì)還引入了P-SOUPS基準(zhǔn)，這個(gè)基準(zhǔn)包含1800道題，每道題給出一段對(duì)話、一個(gè)用戶性格描述、一條對(duì)齊的回復(fù)和一條不對(duì)齊的回復(fù)，讓模型選擇哪條更合適。PersonaVLM在這個(gè)測(cè)試中的整體得分比次優(yōu)模型高出2.46個(gè)百分點(diǎn)，在風(fēng)格維度（即回復(fù)語氣和表達(dá)方式是否符合性格）的提升尤為明顯，比基礎(chǔ)版提升超過12個(gè)百分點(diǎn)。

開放式生成質(zhì)量測(cè)試則用Gemini-2.5-Pro作為自動(dòng)裁判，對(duì)PersonaVLM和三個(gè)對(duì)比模型（GPT-4o、InternVL3-8B、Qwen2.5-VL-7B）的回復(fù)進(jìn)行兩兩比較，評(píng)估準(zhǔn)確性和性格對(duì)齊度兩個(gè)維度。PersonaVLM對(duì)陣GPT-4o時(shí)贏了79%的案例，打平5%，輸了16%。對(duì)陣InternVL3-8B時(shí)贏了84%，對(duì)陣Qwen2.5-VL-7B時(shí)贏了92.5%。

六、消融實(shí)驗(yàn)：每個(gè)設(shè)計(jì)選擇的貢獻(xiàn)

研究團(tuán)隊(duì)還對(duì)設(shè)計(jì)中的每個(gè)關(guān)鍵組件單獨(dú)做了消融測(cè)試，驗(yàn)證其是否真的有效。

移除情節(jié)記憶時(shí)，32k配置下性能下降12.41個(gè)百分點(diǎn)，128k下下降5.19個(gè)百分點(diǎn)——這是所有組件中影響最大的，說明有組織地存儲(chǔ)和檢索對(duì)話片段對(duì)于長(zhǎng)期記憶至關(guān)重要。移除語義記憶時(shí)，性能下降約1.77個(gè)百分點(diǎn)，影響相對(duì)較小。移除程序記憶時(shí)，在行為和關(guān)系相關(guān)任務(wù)上有明顯的下降，說明記錄用戶習(xí)慣對(duì)于這類任務(wù)的理解有專門的價(jià)值。移除核心記憶時(shí)，下降約1.68個(gè)百分點(diǎn)，影響較為均勻。移除多步推理能力時(shí)（即直接檢索不迭代），32k下降2.75個(gè)百分點(diǎn)，128k下降3.73個(gè)百分點(diǎn)，進(jìn)一步驗(yàn)證了迭代推理比一次性檢索更有價(jià)值。

在情節(jié)記憶的檢索數(shù)量上，團(tuán)隊(duì)還專門測(cè)試了檢索1到4個(gè)話題條目的效果。結(jié)果顯示，從0增加到2時(shí)性能提升明顯，2之后趨于平緩，因此團(tuán)隊(duì)選擇了2作為默認(rèn)配置，在性能和計(jì)算效率之間取得平衡。

在PEM的有效性上，移除性格演化機(jī)制后，P-SOUPS整體得分下降4個(gè)百分點(diǎn)，其中風(fēng)格維度下降最為顯著（-9.2分），說明動(dòng)態(tài)性格推斷確實(shí)能幫助AI找到更貼合用戶個(gè)性的回復(fù)風(fēng)格。

七、效率與隱私：現(xiàn)實(shí)部署中的兩個(gè)關(guān)鍵問題

在計(jì)算效率方面，研究團(tuán)隊(duì)做了三組方案的對(duì)比：不帶PersonaVLM的基礎(chǔ)Qwen2.5-VL-7B平均每次請(qǐng)求消耗43530個(gè)token，平均響應(yīng)時(shí)間8.4秒；帶了記憶但不推理的PersonaVLM（直接用檢索結(jié)果回答，不迭代）平均只用2726個(gè)token，響應(yīng)時(shí)間僅2.09秒——比基礎(chǔ)版快了4倍多，token消耗減少了93.7%；完整PersonaVLM（帶多步推理）的token消耗進(jìn)一步降至2170個(gè)（比不推理版還少20.4%，因?yàn)橥评磉^程幫助精準(zhǔn)定位了所需信息），但響應(yīng)時(shí)間因?yàn)樾枰噍喭评矶黾拥?0.18秒，比基礎(chǔ)版慢了約21%。記憶更新操作在回復(fù)發(fā)出后異步執(zhí)行，不計(jì)入響應(yīng)時(shí)間。

隱私安全方面，PersonaVLM的記憶存儲(chǔ)和檢索完全在本地運(yùn)行，不依賴任何外部商業(yè)API。用戶數(shù)據(jù)不會(huì)離開本地環(huán)境，從架構(gòu)上杜絕了數(shù)據(jù)泄露風(fēng)險(xiǎn)。這對(duì)于那些希望使用個(gè)性化AI但又顧慮隱私的用戶來說，是一個(gè)重要的差異化優(yōu)勢(shì)。

當(dāng)然，研究團(tuán)隊(duì)也坦誠地指出了幾個(gè)現(xiàn)實(shí)局限：PersonaVLM目前還不支持視頻或音頻中的人物識(shí)別和追蹤；整體性能天花板受限于底層基礎(chǔ)模型Qwen2.5-VL-7B的能力；記憶系統(tǒng)目前是純粹基于時(shí)間線的，不同時(shí)間發(fā)生的相關(guān)事件之間還沒有建立橫向聯(lián)系。這些都是未來需要改進(jìn)的方向。

說到底，PersonaVLM做的事情可以用一句話概括：把AI助手從一個(gè)"每次見面都把你忘干凈的陌生人"變成一個(gè)"真正了解你、記得你的過去、感知你的變化"的長(zhǎng)期伴侶。它通過四格記憶系統(tǒng)解決了"記不住"的問題，通過迭代推理檢索解決了"找不準(zhǔn)"的問題，通過動(dòng)態(tài)性格演化機(jī)制解決了"不適配"的問題。

這項(xiàng)研究的意義不僅在于技術(shù)本身，更在于它重新定義了"個(gè)性化AI"的評(píng)估標(biāo)準(zhǔn)——不是看AI能不能記住你叫什么，而是看它能不能感知到你從喜歡雪碧變成了喜歡可樂、能不能在你焦慮時(shí)用適合你性格的方式給你安慰。當(dāng)然，77分的Persona-MME成績(jī)也說明這條路還很長(zhǎng)，GPT-5的82.95分和PersonaVLM之間的差距提醒我們，真正像老朋友一樣理解人類，AI還在路上。有興趣深入了解這項(xiàng)研究細(xì)節(jié)的讀者，可以通過arXiv編號(hào)2604.13074查閱完整論文。

Q&A

Q1：PersonaVLM的記憶系統(tǒng)有哪幾種類型，分別存什么內(nèi)容？

A：PersonaVLM的記憶數(shù)據(jù)庫分為四種類型。核心記憶存用戶的基礎(chǔ)信息，如名字、職業(yè)、偏好，隨時(shí)覆蓋更新。語義記憶存穩(wěn)定的事實(shí)性知識(shí)，比如"用戶對(duì)貓過敏"或某張照片里特定人物的圖像。情節(jié)記憶按時(shí)間軸組織對(duì)話片段，每段附有摘要、關(guān)鍵詞和輪次索引。程序記憶則記錄用戶的長(zhǎng)期目標(biāo)和重復(fù)性習(xí)慣。前兩種類型純粹累積不刪除，后兩種只保留最新版本。

Q2：PersonaVLM如何追蹤用戶性格隨時(shí)間的變化？

A：PersonaVLM使用了一個(gè)叫"人格演化機(jī)制"（PEM）的算法，基于大五人格模型（開放性、盡責(zé)性、外向性、宜人性、神經(jīng)質(zhì)）維護(hù)一個(gè)五維數(shù)字檔案。每輪對(duì)話后，AI推斷一個(gè)臨時(shí)性格評(píng)分，然后用指數(shù)移動(dòng)平均公式融合進(jìn)長(zhǎng)期檔案。早期對(duì)話中新評(píng)分權(quán)重更高，隨著交互增多檔案趨于穩(wěn)定，避免被偶發(fā)的異常行為干擾，同時(shí)能捕捉到真實(shí)的長(zhǎng)期性格演變。

Q3：PersonaVLM和直接讓AI讀完整對(duì)話歷史相比有什么優(yōu)勢(shì)？

A：直接讀完整歷史會(huì)隨著對(duì)話增長(zhǎng)消耗大量計(jì)算資源，且模型容易在超長(zhǎng)上下文中"迷失"關(guān)鍵信息。PersonaVLM通過結(jié)構(gòu)化記憶系統(tǒng)壓縮了信息，平均token消耗比基礎(chǔ)模型減少93.7%，并通過迭代推理精確定位相關(guān)記憶，在128k超長(zhǎng)上下文測(cè)試中的個(gè)性化理解表現(xiàn)比直接讀取歷史的GPT-4o還高出約5個(gè)百分點(diǎn)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.