国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

南京大學(xué)與字節(jié)跳動(dòng)聯(lián)手打造"AI私人助理",終于能記住你是誰了

0
分享至


這項(xiàng)由南京大學(xué)與字節(jié)跳動(dòng)聯(lián)合開展的研究,以預(yù)印本論文形式于2026年3月20日發(fā)布在arXiv平臺(tái),論文編號(hào)為arXiv:2604.13074v1,分類于計(jì)算機(jī)科學(xué)的計(jì)算與語言(cs.CL)方向。有興趣深入了解的讀者可以通過該編號(hào)直接查詢完整論文。

你有沒有跟AI助手聊天聊到一半,發(fā)現(xiàn)它完全不記得你上次說過什么的經(jīng)歷?你告訴它你不喜歡喝咖啡,結(jié)果下周再聊,它還是熱情地給你推薦拿鐵。你跟它分享過你是一個(gè)性格內(nèi)向、容易焦慮的人,但當(dāng)你說今天壓力很大時(shí),它依然用那種充滿活力的語氣喊你"去派對(duì)認(rèn)識(shí)新朋友吧!"——這感覺就像跟一個(gè)每次見面都把你忘干凈的人在交流。

這不是個(gè)小問題。隨著AI助手越來越深入地參與人們的日常生活——幫你做計(jì)劃、聊心情、提建議——這種"健忘"和"一刀切"的回應(yīng)方式,正在成為一個(gè)越來越令人沮喪的障礙。南京大學(xué)與字節(jié)跳動(dòng)的研究團(tuán)隊(duì)正是注意到了這個(gè)痛點(diǎn),于是開發(fā)了一套名為PersonaVLM的框架,專門讓多模態(tài)大語言模型(就是那種既能看圖又能對(duì)話的AI)變成一個(gè)真正了解你、記住你、并能隨著你的變化不斷調(diào)整自己的私人助理。

一、為什么現(xiàn)在的AI助手總是"失憶"又"刻板"

要理解PersonaVLM解決了什么問題,得先搞清楚現(xiàn)在的AI助手究竟哪里出了毛病。研究團(tuán)隊(duì)把現(xiàn)有的個(gè)性化方法歸納為三類,并指出了每一類的根本缺陷。

第一類叫"適應(yīng)型"方法,原理是針對(duì)每個(gè)用戶單獨(dú)訓(xùn)練或微調(diào)模型,讓模型把用戶的習(xí)慣直接"燒錄"到自己的參數(shù)里。代表作是MyVLM和Yo'LLaVA,它們能讓AI從認(rèn)識(shí)"一只狗"升級(jí)到認(rèn)識(shí)"你家的狗旺財(cái)"。但問題在于,每來一個(gè)新用戶,或者用戶的習(xí)慣發(fā)生變化,就得重新訓(xùn)練一次——這種代價(jià)太大了,根本無法大規(guī)模推廣,更無法追蹤用戶偏好的演變。

第二類叫"增強(qiáng)型"方法,思路是給AI配備一個(gè)外部數(shù)據(jù)庫,把用戶說過的話存進(jìn)去,需要時(shí)再檢索出來。RAP等系統(tǒng)屬于這類,它們不需要重新訓(xùn)練模型,相對(duì)靈活。但致命的弱點(diǎn)是:這個(gè)數(shù)據(jù)庫是人工預(yù)設(shè)好的,AI不會(huì)主動(dòng)思考"這件事值不值得記下來",也不會(huì)隨著對(duì)話主動(dòng)更新記憶。更麻煩的是,直接用關(guān)鍵詞搜索記憶會(huì)產(chǎn)生"語義漂移"——你問"那天我們聊的那件事",系統(tǒng)根本不知道你指的是哪件事。

第三類叫"對(duì)齊型"方法,目標(biāo)是讓AI的回復(fù)風(fēng)格符合用戶的個(gè)性。ALIGNXPERT和PAS都屬于這個(gè)方向,但它們的問題在于把用戶性格當(dāng)成一個(gè)固定標(biāo)簽,一旦貼上"外向型"的標(biāo)簽就一直用下去??涩F(xiàn)實(shí)是,人的性格是流動(dòng)的——一個(gè)在工作場(chǎng)合表現(xiàn)得雷厲風(fēng)行的人,私下可能敏感細(xì)膩;一個(gè)年初開朗愛社交的人,年末可能因?yàn)槟臣伦兊脙?nèi)斂焦慮。

研究團(tuán)隊(duì)用一個(gè)非常形象的例子說明了這三類方法會(huì)同時(shí)失敗的場(chǎng)景:用戶在5月底說自己喝雪碧緩解夏季焦慮,6月初又說最近更喜歡喝可樂來平復(fù)情緒。7月中旬當(dāng)用戶再次表達(dá)壓力很大時(shí),增強(qiáng)型系統(tǒng)仍然從數(shù)據(jù)庫里翻出"雪碧"這條舊記錄,推薦了已經(jīng)過時(shí)的選擇;而對(duì)齊型系統(tǒng)則用熱情洋溢的語氣喊那個(gè)內(nèi)向、高神經(jīng)質(zhì)的用戶"去主動(dòng)結(jié)交陌生人"——完全不顧這對(duì)他來說簡(jiǎn)直是噩夢(mèng)。

由此,研究團(tuán)隊(duì)明確提出了長(zhǎng)期個(gè)性化需要同時(shí)解決兩根支柱:一是能主動(dòng)構(gòu)建和維護(hù)動(dòng)態(tài)用戶記憶的架構(gòu);二是能利用這些記憶進(jìn)行推理、并生成與用戶當(dāng)下性格真正對(duì)齊的回應(yīng)的能力。

二、PersonaVLM的核心設(shè)計(jì):一套會(huì)"認(rèn)識(shí)你"的記憶系統(tǒng)

PersonaVLM的整體架構(gòu)建立在一套專門設(shè)計(jì)的個(gè)性化記憶系統(tǒng)之上,這套系統(tǒng)存儲(chǔ)兩大類信息,就像一個(gè)了解你的老朋友同時(shí)維護(hù)著兩本關(guān)于你的手冊(cè)。

第一本手冊(cè)叫"用戶性格檔案",用五個(gè)維度的數(shù)值來描述你的性格——這五個(gè)維度來自心理學(xué)界廣泛認(rèn)可的"大五人格模型",分別是開放性(你有多愿意嘗試新事物)、盡責(zé)性(你有多有條理有紀(jì)律)、外向性(你有多喜歡社交)、宜人性(你有多友善合作)、和神經(jīng)質(zhì)(你有多容易焦慮緊張)。每個(gè)維度的分值在1到5之間浮動(dòng),構(gòu)成一個(gè)五維的數(shù)字向量,代表AI對(duì)你性格的實(shí)時(shí)認(rèn)知。

第二本手冊(cè)是"多類型記憶數(shù)據(jù)庫",分為四個(gè)格子。第一個(gè)格子叫"核心記憶",存的是你最基礎(chǔ)的個(gè)人信息,比如名字、年齡、職業(yè)、興趣偏好,以及你希望AI以什么風(fēng)格和你互動(dòng)——這個(gè)格子里的內(nèi)容會(huì)隨著新信息的出現(xiàn)直接覆蓋舊版本,永遠(yuǎn)保持最新狀態(tài)。第二個(gè)格子叫"語義記憶",存的是與時(shí)間無關(guān)的穩(wěn)定知識(shí),比如"用戶對(duì)貓過敏"、"用戶曾提到失業(yè)"、"用戶喜歡極簡(jiǎn)風(fēng)格的設(shè)計(jì)",還包括用戶分享過的圖片中具體的視覺元素,比如"朋友小明(附上圖片中小明的裁剪圖)"。第三個(gè)格子叫"情節(jié)記憶",存的是按時(shí)間軸組織的對(duì)話片段——每次對(duì)話結(jié)束后,AI會(huì)把整段對(duì)話按話題分割,給每個(gè)話題寫一個(gè)摘要、提取關(guān)鍵詞、并記錄這段對(duì)話的輪次索引。原始對(duì)話永遠(yuǎn)不會(huì)被刪除,情節(jié)記憶只是一個(gè)快速定位的索引層。第四個(gè)格子叫"程序記憶",專門記錄你的長(zhǎng)期目標(biāo)和重復(fù)性習(xí)慣,比如"用戶每周四早上跑步"、"用戶正在寫一本小說,目前完成了第三章"。

這套記憶系統(tǒng)的存儲(chǔ)和更新策略非常精妙。語義記憶和情節(jié)記憶是純粹累積的——新內(nèi)容只增不減,歷史記錄完整保留,就像在日記本上不斷添頁,從不撕頁。而核心記憶和程序記憶則是"最新優(yōu)先"——只保留最新版本,就像用最新的地圖替換舊地圖,避免過時(shí)信息干擾判斷。

三、兩階段運(yùn)作:從"回應(yīng)你"到"認(rèn)識(shí)你"的完整循環(huán)

PersonaVLM的實(shí)際運(yùn)作分為兩個(gè)階段,像一個(gè)不斷學(xué)習(xí)的循環(huán)。

每當(dāng)你發(fā)來一條消息(可以是文字,也可以帶圖),第一階段"回應(yīng)階段"就啟動(dòng)了。AI首先會(huì)看到你的消息、近期的對(duì)話記錄、你的核心記憶和當(dāng)前的性格檔案。然后它開始一個(gè)非常關(guān)鍵的自主推理過程:先判斷手頭的信息夠不夠回答你的問題。如果夠,直接給出回答;如果不夠,它會(huì)主動(dòng)發(fā)起一次記憶檢索請(qǐng)求,在請(qǐng)求中指定兩個(gè)參數(shù)——關(guān)鍵詞和時(shí)間范圍。

時(shí)間范圍這個(gè)設(shè)計(jì)非常有意思。普通的RAG系統(tǒng)只管關(guān)鍵詞匹配,而PersonaVLM意識(shí)到人們說話經(jīng)常帶時(shí)間線索,比如"上個(gè)月"、"那次出差之前"、"我媽生日那天"——這些線索對(duì)精確檢索至關(guān)重要。AI會(huì)先根據(jù)時(shí)間范圍圈定候選記憶,再在這個(gè)范圍內(nèi)對(duì)語義記憶、情節(jié)記憶和程序記憶三個(gè)格子分別并行搜索,各自取出最相關(guān)的若干條。檢索結(jié)果回來后,AI繼續(xù)推理,判斷是否需要再檢索一輪,或者已經(jīng)可以給出回答。整個(gè)推理和檢索過程可以迭代最多三次,就像偵探在案發(fā)地點(diǎn)反復(fù)勘查,直到找到關(guān)鍵線索才合上筆記本。

這種設(shè)計(jì)解決了一個(gè)人們通常沒意識(shí)到的難題:用戶的問題經(jīng)常包含指代詞,比如"那個(gè)東西我還需要買嗎"、"你還記得我說的那件事嗎"——這種問題用直接語義匹配根本找不到,必須通過上下文推理來確定"那個(gè)東西"指的是什么,然后再去檢索。

檢索到的文字記憶用的是一個(gè)叫all-MiniLM-L6-v2的句子編碼器,把所有記憶轉(zhuǎn)換成數(shù)字向量,再用FAISS這個(gè)高效向量搜索庫快速找到最相關(guān)的條目。如果你發(fā)來了圖片,系統(tǒng)還會(huì)自動(dòng)觸發(fā)視覺檢索:先用Grounding DINO這個(gè)目標(biāo)檢測(cè)器從你的圖片中找出各種物體,然后用CLIP這個(gè)圖文對(duì)齊模型把這些物體和記憶庫里存的視覺概念做相似度比較,從而識(shí)別出"這張照片里是你的朋友小明"。

在回復(fù)生成時(shí),AI會(huì)把你的性格檔案作為核心指令,調(diào)整回復(fù)的語氣、風(fēng)格和內(nèi)容方向——對(duì)高神經(jīng)質(zhì)的用戶給予安撫和穩(wěn)定感,對(duì)低開放性的用戶給出務(wù)實(shí)具體的建議,而不是充滿奇思妙想的發(fā)散性回答。

回復(fù)發(fā)出之后,系統(tǒng)進(jìn)入第二階段"更新階段",這個(gè)階段在"閑置時(shí)間"異步進(jìn)行,不影響你下一條消息的響應(yīng)速度。更新階段做兩件事:更新性格檔案,以及更新記憶數(shù)據(jù)庫。

性格檔案的更新通過一個(gè)叫做"人格演化機(jī)制"(PEM)的算法完成。AI會(huì)從你剛才那條消息的語言風(fēng)格和情緒線索中,推斷出一個(gè)臨時(shí)的五維性格評(píng)分。然后用一個(gè)叫"指數(shù)移動(dòng)平均"的公式,把這個(gè)臨時(shí)評(píng)分與歷史積累的長(zhǎng)期性格檔案做加權(quán)融合:新檔案 = λ × 舊檔案 + (1-λ) × 臨時(shí)評(píng)分。這里的λ是一個(gè)動(dòng)態(tài)調(diào)整的系數(shù),在你們剛開始互動(dòng)時(shí)λ值比較小,意味著每次新輸入對(duì)檔案的影響更大,AI學(xué)得很快;隨著交互輪次增加,λ慢慢升高,檔案趨于穩(wěn)定,不會(huì)因?yàn)槟隳程煺f話風(fēng)格偶爾不同就劇烈波動(dòng)。這個(gè)設(shè)計(jì)的邏輯是:了解一個(gè)人需要大量樣本,早期每條信息都很寶貴,而建立了深度了解之后,偶爾的異常不應(yīng)該推翻已有的認(rèn)知。如果某次AI推斷出的臨時(shí)性格評(píng)分全是中性值3,這次更新會(huì)被跳過,避免無意義的對(duì)話污染性格檔案。

記憶更新則對(duì)四種類型分別處理:語義記憶在每輪對(duì)話結(jié)束后立即更新,提取新出現(xiàn)的偏好、明確要記憶的內(nèi)容和新認(rèn)識(shí)的人或物;程序記憶和核心記憶在每次會(huì)話結(jié)束后批量更新,AI會(huì)審視整段會(huì)話來決定是否新增、修改或刪除某條記錄;情節(jié)記憶則通過把整段會(huì)話按話題分割,為每個(gè)話題生成摘要、關(guān)鍵詞和對(duì)應(yīng)輪次索引,追加到情節(jié)記憶庫中。

四、如何從零訓(xùn)練出這樣一個(gè)系統(tǒng)

要讓PersonaVLM真正學(xué)會(huì)上述所有能力,研究團(tuán)隊(duì)需要大量高質(zhì)量的訓(xùn)練數(shù)據(jù)。現(xiàn)有的數(shù)據(jù)集普遍存在三個(gè)缺陷:只有文字沒有圖片,只有短對(duì)話沒有長(zhǎng)期互動(dòng),以及沒有關(guān)于記憶管理和性格推理的監(jiān)督信號(hào)。于是團(tuán)隊(duì)從頭構(gòu)建了一條數(shù)據(jù)合成流水線。

流水線的起點(diǎn)是從PersonaHub(一個(gè)包含十億規(guī)模人物設(shè)定的公開資源)中抽取700個(gè)虛擬人物,再為每個(gè)人物隨機(jī)分配大五人格分?jǐn)?shù),生成詳細(xì)的角色描述和初始核心記憶。接著用商業(yè)級(jí)別的Seed1.6-thinking模型,模擬這些虛擬用戶與AI進(jìn)行長(zhǎng)達(dá)數(shù)百輪、跨越數(shù)周到數(shù)月的對(duì)話。為了讓對(duì)話更真實(shí),流水線會(huì)概率性地觸發(fā)偏好轉(zhuǎn)變事件(比如原本喜歡雪碧的用戶某天因?yàn)榭戳艘黄恼麻_始偏向可樂)、話題跳轉(zhuǎn)和性格演變。超過15%的對(duì)話包含圖片交互,覆蓋從專業(yè)工作討論到日常閑聊的廣泛場(chǎng)景。最關(guān)鍵的一點(diǎn)是,生成過程不僅產(chǎn)出對(duì)話內(nèi)容,還同步產(chǎn)出中間的推理步驟、檢索決策和記憶更新操作,為模型訓(xùn)練提供了極其豐富的監(jiān)督信號(hào)。

最終數(shù)據(jù)集包含700組長(zhǎng)期對(duì)話,其中500組用于訓(xùn)練,200組留給測(cè)試,訓(xùn)練集對(duì)話長(zhǎng)度在20到100輪之間,測(cè)試集則更具挑戰(zhàn)性,設(shè)計(jì)了兩個(gè)難度檔:20到100輪對(duì)應(yīng)32k上下文窗口,100到500輪對(duì)應(yīng)128k上下文窗口。這種設(shè)計(jì)使得測(cè)試數(shù)據(jù)比訓(xùn)練數(shù)據(jù)更長(zhǎng)、更復(fù)雜,能夠真正檢驗(yàn)系統(tǒng)的泛化能力。

整個(gè)數(shù)據(jù)集還經(jīng)過了兩輪質(zhì)量審查:第一輪是自動(dòng)化過濾,包括規(guī)則檢查(時(shí)間戳是否符合時(shí)序、情節(jié)記憶的輪次索引是否完整)和模型自檢(內(nèi)容是否安全連貫);第二輪是人工審核,4名標(biāo)注人員仔細(xì)排查錯(cuò)誤、無意義或重復(fù)的對(duì)話,整個(gè)人工審核過程耗時(shí)約40人時(shí)。

有了數(shù)據(jù)之后,PersonaVLM以Qwen2.5-VL-7B這個(gè)多模態(tài)大語言模型作為基礎(chǔ),進(jìn)行兩階段訓(xùn)練。第一階段是監(jiān)督微調(diào),用7.8萬條樣本訓(xùn)練模型掌握記憶管理的基本功——包括怎么推斷性格、怎么執(zhí)行各類記憶的增刪改查操作、以及怎么生成有完整推理鏈條的答案。這一階段讓模型具備了清晰輸出推理過程和檢索指令的基礎(chǔ)能力。第二階段是強(qiáng)化學(xué)習(xí),使用GRPO算法(一種改進(jìn)版的強(qiáng)化學(xué)習(xí)策略優(yōu)化方法)進(jìn)一步強(qiáng)化多輪推理和檢索的質(zhì)量。訓(xùn)練時(shí),模型對(duì)每個(gè)樣本會(huì)生成6條不同的推理路徑,然后用三個(gè)獎(jiǎng)勵(lì)函數(shù)來評(píng)分:答案準(zhǔn)確性、推理過程與最終答案是否邏輯自洽、以及輸出格式是否規(guī)范。評(píng)分由Qwen3-30B-A3B這個(gè)更大的模型擔(dān)任裁判。整個(gè)兩階段訓(xùn)練在8塊NVIDIA H800 GPU上完成,總耗時(shí)約8小時(shí)(監(jiān)督微調(diào)2小時(shí),強(qiáng)化學(xué)習(xí)6小時(shí))。

五、全面評(píng)測(cè):PersonaVLM表現(xiàn)如何

為了評(píng)估PersonaVLM的性能,研究團(tuán)隊(duì)做了三件事:參加已有的評(píng)測(cè)基準(zhǔn)測(cè)試、引入自建的Persona-MME基準(zhǔn)測(cè)試、以及進(jìn)行開放式生成質(zhì)量的定性評(píng)估。

已有基準(zhǔn)方面,團(tuán)隊(duì)在PERSONAMEM上進(jìn)行了測(cè)試,這是一個(gè)專門設(shè)計(jì)來評(píng)估AI追蹤用戶偏好演變能力的基準(zhǔn),包含七類任務(wù):回憶用戶分享過的事實(shí)、提出新建議、確認(rèn)用戶最新偏好、追蹤完整偏好演變、回顧偏好變化的原因、提供符合偏好的推薦,以及綜合評(píng)分。測(cè)試分32k和128k兩種上下文長(zhǎng)度。在32k設(shè)置下,PersonaVLM相比基礎(chǔ)版Qwen2.5-VL-7B(加了RAG檢索的版本)提升了10.86個(gè)百分點(diǎn),比GPT-4o高出17.3個(gè)百分點(diǎn)。在更具挑戰(zhàn)性的128k設(shè)置下,PersonaVLM依然比GPT-4o高出2.0個(gè)百分點(diǎn),這在面對(duì)如此長(zhǎng)的對(duì)話歷史時(shí)是相當(dāng)可觀的優(yōu)勢(shì)。

研究團(tuán)隊(duì)還特別關(guān)注到了一個(gè)反直覺的現(xiàn)象:在短上下文(32k)場(chǎng)景下,給模型加上RAG檢索反而會(huì)讓偏好理解任務(wù)的表現(xiàn)下降最多9.33%,而在長(zhǎng)上下文(128k)場(chǎng)景下,RAG則帶來4.53%的明顯提升。這說明,當(dāng)對(duì)話本身已經(jīng)足夠簡(jiǎn)短時(shí),強(qiáng)行檢索會(huì)引入噪聲;只有當(dāng)對(duì)話長(zhǎng)到超出模型直接處理能力時(shí),檢索才真正發(fā)揮價(jià)值。

自建的Persona-MME基準(zhǔn)是這次研究的另一大貢獻(xiàn)。研究團(tuán)隊(duì)基于200個(gè)虛擬人物,構(gòu)建了超過2000道測(cè)試題,覆蓋七個(gè)核心維度和14項(xiàng)細(xì)粒度任務(wù)。七個(gè)維度分別是記憶、意圖、偏好、行為、關(guān)系、成長(zhǎng)和對(duì)齊,每個(gè)維度下又細(xì)分為具體任務(wù),比如視覺細(xì)節(jié)回憶(你能記住我之前分享的照片里那件東西是什么顏色的嗎?)、最新偏好識(shí)別(當(dāng)用戶近期行為與之前言論矛盾時(shí),以行為為準(zhǔn))、隱式意圖推理(用戶沒明說但言下之意想要什么?)、行為模式識(shí)別(用戶每次遇到類似情況會(huì)怎么做?)、長(zhǎng)期目標(biāo)追蹤(那個(gè)項(xiàng)目進(jìn)展到哪了?不確定時(shí)也要能答出"目前不清楚狀態(tài)")、人際關(guān)系識(shí)別(在用戶多次提到的朋友中,誰出現(xiàn)得最頻繁?),以及性格對(duì)齊(這條回復(fù)是否真的符合這個(gè)用戶的性格?)。每道題還有32k和128k兩個(gè)難度檔,總測(cè)試案例超過2034道。

在128k配置的Persona-MME上,PersonaVLM以77.08分排在所有測(cè)試模型中第二,僅次于GPT-5(82.95分),超過GPT-4o(71.90分)5.18個(gè)百分點(diǎn),也超過了規(guī)模更大的InternVL3-38B(66.01分)和語言能力出色的Qwen3-30B-A3B(72.65分)。在與基礎(chǔ)版Qwen2.5-VL-7B(54.62分)相比,PersonaVLM提升了整整22.46個(gè)百分點(diǎn),這個(gè)提升幅度尤其集中在"成長(zhǎng)建模"和"性格對(duì)齊"兩個(gè)維度上,說明PersonaVLM的核心設(shè)計(jì)確實(shí)在這些最難的任務(wù)上產(chǎn)生了顯著效果。

在性格對(duì)齊專項(xiàng)評(píng)測(cè)方面,團(tuán)隊(duì)還引入了P-SOUPS基準(zhǔn),這個(gè)基準(zhǔn)包含1800道題,每道題給出一段對(duì)話、一個(gè)用戶性格描述、一條對(duì)齊的回復(fù)和一條不對(duì)齊的回復(fù),讓模型選擇哪條更合適。PersonaVLM在這個(gè)測(cè)試中的整體得分比次優(yōu)模型高出2.46個(gè)百分點(diǎn),在風(fēng)格維度(即回復(fù)語氣和表達(dá)方式是否符合性格)的提升尤為明顯,比基礎(chǔ)版提升超過12個(gè)百分點(diǎn)。

開放式生成質(zhì)量測(cè)試則用Gemini-2.5-Pro作為自動(dòng)裁判,對(duì)PersonaVLM和三個(gè)對(duì)比模型(GPT-4o、InternVL3-8B、Qwen2.5-VL-7B)的回復(fù)進(jìn)行兩兩比較,評(píng)估準(zhǔn)確性和性格對(duì)齊度兩個(gè)維度。PersonaVLM對(duì)陣GPT-4o時(shí)贏了79%的案例,打平5%,輸了16%。對(duì)陣InternVL3-8B時(shí)贏了84%,對(duì)陣Qwen2.5-VL-7B時(shí)贏了92.5%。

六、消融實(shí)驗(yàn):每個(gè)設(shè)計(jì)選擇的貢獻(xiàn)

研究團(tuán)隊(duì)還對(duì)設(shè)計(jì)中的每個(gè)關(guān)鍵組件單獨(dú)做了消融測(cè)試,驗(yàn)證其是否真的有效。

移除情節(jié)記憶時(shí),32k配置下性能下降12.41個(gè)百分點(diǎn),128k下下降5.19個(gè)百分點(diǎn)——這是所有組件中影響最大的,說明有組織地存儲(chǔ)和檢索對(duì)話片段對(duì)于長(zhǎng)期記憶至關(guān)重要。移除語義記憶時(shí),性能下降約1.77個(gè)百分點(diǎn),影響相對(duì)較小。移除程序記憶時(shí),在行為和關(guān)系相關(guān)任務(wù)上有明顯的下降,說明記錄用戶習(xí)慣對(duì)于這類任務(wù)的理解有專門的價(jià)值。移除核心記憶時(shí),下降約1.68個(gè)百分點(diǎn),影響較為均勻。移除多步推理能力時(shí)(即直接檢索不迭代),32k下降2.75個(gè)百分點(diǎn),128k下降3.73個(gè)百分點(diǎn),進(jìn)一步驗(yàn)證了迭代推理比一次性檢索更有價(jià)值。

在情節(jié)記憶的檢索數(shù)量上,團(tuán)隊(duì)還專門測(cè)試了檢索1到4個(gè)話題條目的效果。結(jié)果顯示,從0增加到2時(shí)性能提升明顯,2之后趨于平緩,因此團(tuán)隊(duì)選擇了2作為默認(rèn)配置,在性能和計(jì)算效率之間取得平衡。

在PEM的有效性上,移除性格演化機(jī)制后,P-SOUPS整體得分下降4個(gè)百分點(diǎn),其中風(fēng)格維度下降最為顯著(-9.2分),說明動(dòng)態(tài)性格推斷確實(shí)能幫助AI找到更貼合用戶個(gè)性的回復(fù)風(fēng)格。

七、效率與隱私:現(xiàn)實(shí)部署中的兩個(gè)關(guān)鍵問題

在計(jì)算效率方面,研究團(tuán)隊(duì)做了三組方案的對(duì)比:不帶PersonaVLM的基礎(chǔ)Qwen2.5-VL-7B平均每次請(qǐng)求消耗43530個(gè)token,平均響應(yīng)時(shí)間8.4秒;帶了記憶但不推理的PersonaVLM(直接用檢索結(jié)果回答,不迭代)平均只用2726個(gè)token,響應(yīng)時(shí)間僅2.09秒——比基礎(chǔ)版快了4倍多,token消耗減少了93.7%;完整PersonaVLM(帶多步推理)的token消耗進(jìn)一步降至2170個(gè)(比不推理版還少20.4%,因?yàn)橥评磉^程幫助精準(zhǔn)定位了所需信息),但響應(yīng)時(shí)間因?yàn)樾枰噍喭评矶黾拥?0.18秒,比基礎(chǔ)版慢了約21%。記憶更新操作在回復(fù)發(fā)出后異步執(zhí)行,不計(jì)入響應(yīng)時(shí)間。

隱私安全方面,PersonaVLM的記憶存儲(chǔ)和檢索完全在本地運(yùn)行,不依賴任何外部商業(yè)API。用戶數(shù)據(jù)不會(huì)離開本地環(huán)境,從架構(gòu)上杜絕了數(shù)據(jù)泄露風(fēng)險(xiǎn)。這對(duì)于那些希望使用個(gè)性化AI但又顧慮隱私的用戶來說,是一個(gè)重要的差異化優(yōu)勢(shì)。

當(dāng)然,研究團(tuán)隊(duì)也坦誠地指出了幾個(gè)現(xiàn)實(shí)局限:PersonaVLM目前還不支持視頻或音頻中的人物識(shí)別和追蹤;整體性能天花板受限于底層基礎(chǔ)模型Qwen2.5-VL-7B的能力;記憶系統(tǒng)目前是純粹基于時(shí)間線的,不同時(shí)間發(fā)生的相關(guān)事件之間還沒有建立橫向聯(lián)系。這些都是未來需要改進(jìn)的方向。

說到底,PersonaVLM做的事情可以用一句話概括:把AI助手從一個(gè)"每次見面都把你忘干凈的陌生人"變成一個(gè)"真正了解你、記得你的過去、感知你的變化"的長(zhǎng)期伴侶。它通過四格記憶系統(tǒng)解決了"記不住"的問題,通過迭代推理檢索解決了"找不準(zhǔn)"的問題,通過動(dòng)態(tài)性格演化機(jī)制解決了"不適配"的問題。

這項(xiàng)研究的意義不僅在于技術(shù)本身,更在于它重新定義了"個(gè)性化AI"的評(píng)估標(biāo)準(zhǔn)——不是看AI能不能記住你叫什么,而是看它能不能感知到你從喜歡雪碧變成了喜歡可樂、能不能在你焦慮時(shí)用適合你性格的方式給你安慰。當(dāng)然,77分的Persona-MME成績(jī)也說明這條路還很長(zhǎng),GPT-5的82.95分和PersonaVLM之間的差距提醒我們,真正像老朋友一樣理解人類,AI還在路上。有興趣深入了解這項(xiàng)研究細(xì)節(jié)的讀者,可以通過arXiv編號(hào)2604.13074查閱完整論文。

Q&A

Q1:PersonaVLM的記憶系統(tǒng)有哪幾種類型,分別存什么內(nèi)容?

A:PersonaVLM的記憶數(shù)據(jù)庫分為四種類型。核心記憶存用戶的基礎(chǔ)信息,如名字、職業(yè)、偏好,隨時(shí)覆蓋更新。語義記憶存穩(wěn)定的事實(shí)性知識(shí),比如"用戶對(duì)貓過敏"或某張照片里特定人物的圖像。情節(jié)記憶按時(shí)間軸組織對(duì)話片段,每段附有摘要、關(guān)鍵詞和輪次索引。程序記憶則記錄用戶的長(zhǎng)期目標(biāo)和重復(fù)性習(xí)慣。前兩種類型純粹累積不刪除,后兩種只保留最新版本。

Q2:PersonaVLM如何追蹤用戶性格隨時(shí)間的變化?

A:PersonaVLM使用了一個(gè)叫"人格演化機(jī)制"(PEM)的算法,基于大五人格模型(開放性、盡責(zé)性、外向性、宜人性、神經(jīng)質(zhì))維護(hù)一個(gè)五維數(shù)字檔案。每輪對(duì)話后,AI推斷一個(gè)臨時(shí)性格評(píng)分,然后用指數(shù)移動(dòng)平均公式融合進(jìn)長(zhǎng)期檔案。早期對(duì)話中新評(píng)分權(quán)重更高,隨著交互增多檔案趨于穩(wěn)定,避免被偶發(fā)的異常行為干擾,同時(shí)能捕捉到真實(shí)的長(zhǎng)期性格演變。

Q3:PersonaVLM和直接讓AI讀完整對(duì)話歷史相比有什么優(yōu)勢(shì)?

A:直接讀完整歷史會(huì)隨著對(duì)話增長(zhǎng)消耗大量計(jì)算資源,且模型容易在超長(zhǎng)上下文中"迷失"關(guān)鍵信息。PersonaVLM通過結(jié)構(gòu)化記憶系統(tǒng)壓縮了信息,平均token消耗比基礎(chǔ)模型減少93.7%,并通過迭代推理精確定位相關(guān)記憶,在128k超長(zhǎng)上下文測(cè)試中的個(gè)性化理解表現(xiàn)比直接讀取歷史的GPT-4o還高出約5個(gè)百分點(diǎn)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
騙走50億!用小鮮肉的血抗衰,被央視曝光的“撈金女王”,真栽了

騙走50億!用小鮮肉的血抗衰,被央視曝光的“撈金女王”,真栽了

凡知
2026-04-07 21:16:54
解鎖夫妻“爽”感密碼:3個(gè)讓高潮更持久的床上技巧

解鎖夫妻“爽”感密碼:3個(gè)讓高潮更持久的床上技巧

精彩分享快樂
2026-03-18 07:00:03
奧一報(bào)道的深圳“超尷尬”地鐵站整改了:加了60處標(biāo)識(shí)!

奧一報(bào)道的深圳“超尷尬”地鐵站整改了:加了60處標(biāo)識(shí)!

南方都市報(bào)
2026-04-28 18:52:13
竇靖童宋妍霏分吃一碗粉!從擋雨到牽手遛狗,多次被拍細(xì)節(jié)藏不住

竇靖童宋妍霏分吃一碗粉!從擋雨到牽手遛狗,多次被拍細(xì)節(jié)藏不住

小徐講八卦
2026-04-27 09:23:46
北京公交專用道行駛時(shí)間,又有新調(diào)整!

北京公交專用道行駛時(shí)間,又有新調(diào)整!

BRTV新聞
2026-04-28 12:40:41
女兒是一線明星,她開豪車住豪宅,晚年卻自殺5次最終從12樓跳下

女兒是一線明星,她開豪車住豪宅,晚年卻自殺5次最終從12樓跳下

漫婷侃娛樂
2026-04-27 21:53:40
國家下死命令:2027年城投清零!中小城市的公交、供水會(huì)漲價(jià)嗎?

國家下死命令:2027年城投清零!中小城市的公交、供水會(huì)漲價(jià)嗎?

顧史
2026-04-21 05:44:11
女子白天睡老公,晚上睡男同事,2019年上夜班的老公將她同事殺死

女子白天睡老公,晚上睡男同事,2019年上夜班的老公將她同事殺死

漢史趣聞
2026-04-26 16:27:51
以軍稱投下超2500枚炸彈 摧毀約600個(gè)伊朗目標(biāo)

以軍稱投下超2500枚炸彈 摧毀約600個(gè)伊朗目標(biāo)

新浪財(cái)經(jīng)
2026-03-02 21:18:48
日本解禁軍售,背負(fù)中國人血債的三菱重工又得瑟了

日本解禁軍售,背負(fù)中國人血債的三菱重工又得瑟了

補(bǔ)壹刀
2026-04-27 23:49:25
埃里克森為何在阿莫林下課前公開"拆臺(tái)"

埃里克森為何在阿莫林下課前公開"拆臺(tái)"

綠茵狂熱者
2026-04-28 01:23:45
10億都救不了一命!京東副總裁蔡磊,生命進(jìn)入倒計(jì)時(shí)

10億都救不了一命!京東副總裁蔡磊,生命進(jìn)入倒計(jì)時(shí)

聽風(fēng)喃
2026-04-06 11:16:04
140年來最強(qiáng)厄爾尼諾要出現(xiàn)了?氣溫將沖擊高溫極限,真的嗎?

140年來最強(qiáng)厄爾尼諾要出現(xiàn)了?氣溫將沖擊高溫極限,真的嗎?

臨云史策
2026-04-28 11:02:36
別再吵王菲春晚唱功了 謝霆鋒那只20年的金鐲子 早已說明了一切

別再吵王菲春晚唱功了 謝霆鋒那只20年的金鐲子 早已說明了一切

小邵說劇
2026-04-27 21:02:11
曼聯(lián)的天亮了!單賽季或5人英超進(jìn)球上雙,這神跡竟塵封了61年?

曼聯(lián)的天亮了!單賽季或5人英超進(jìn)球上雙,這神跡竟塵封了61年?

仰臥撐FTUer
2026-04-28 20:11:03
機(jī)場(chǎng)出租車故意以車輛故障等要求乘客換車,每單可獲50至85元“好處費(fèi)”,10人被處罰

機(jī)場(chǎng)出租車故意以車輛故障等要求乘客換車,每單可獲50至85元“好處費(fèi)”,10人被處罰

紅星新聞
2026-04-27 16:51:18
4000萬粉絲網(wǎng)紅偷稅被查,細(xì)節(jié)公布!本人出鏡認(rèn)錯(cuò)

4000萬粉絲網(wǎng)紅偷稅被查,細(xì)節(jié)公布!本人出鏡認(rèn)錯(cuò)

深圳晚報(bào)
2026-04-28 12:43:24
出差歸來推開門,見妻子和男閨蜜共處一室,多年感情徹底走向終結(jié)

出差歸來推開門,見妻子和男閨蜜共處一室,多年感情徹底走向終結(jié)

朗威談星座
2026-04-22 00:10:37
五萬戶股東踩雷!002779、603360,被立案后雙雙“一字”跌停

五萬戶股東踩雷!002779、603360,被立案后雙雙“一字”跌停

大眾證券報(bào)
2026-04-28 19:27:08
東航7月15日起開通上海浦東—第比利斯直飛航線

東航7月15日起開通上海浦東—第比利斯直飛航線

北京商報(bào)
2026-04-28 16:47:54
2026-04-29 03:16:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8183文章數(shù) 563關(guān)注度
往期回顧 全部

科技要聞

10億周活目標(biāo)落空!傳OpenAI爆發(fā)內(nèi)部分歧

頭條要聞

19歲中國女孩被困緬甸 交20萬贖金園區(qū)仍未放人

頭條要聞

19歲中國女孩被困緬甸 交20萬贖金園區(qū)仍未放人

體育要聞

魔術(shù)黑八活塞,一步之遙?!

娛樂要聞

蔡卓妍官宣結(jié)婚,老公比她小10歲

財(cái)經(jīng)要聞

中央政治局會(huì)議定調(diào),八大看點(diǎn)速覽!

汽車要聞

拒絕瘋狂套娃!現(xiàn)代艾尼氪金星長(zhǎng)在未來審美點(diǎn)上

態(tài)度原創(chuàng)

教育
時(shí)尚
房產(chǎn)
藝術(shù)
親子

教育要聞

教育部通知,今年9月份開始,上學(xué)的規(guī)則全變了

普通女性春天穿什么好看?這些穿搭值得借鑒,自然舒適

房產(chǎn)要聞

紅利爆發(fā)!海南,沖到全國人口增量第4省!

藝術(shù)要聞

京東浙江總部公示,99.99米高,中國第一民企落子民營大?。?/h3>

親子要聞

有一點(diǎn)點(diǎn)近視,到底要不要戴眼鏡?

無障礙瀏覽 進(jìn)入關(guān)懷版