国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

如何讓AI走向更高質(zhì)量的共情?自然選擇兩項開源研究提供新路徑

0
分享至



機器之心發(fā)布

現(xiàn)如今,大模型越來越擅長在單輪對話中生成溫柔體貼、情緒價值拉滿的文字,然而,我們或許會懷疑:在一句句「高情商回復(fù)」的背后,模型是否真正理解了什么是共情

在情感陪伴與心理支持等真實場景中,人類之間的有效交流極少依靠單薄的漂亮話來解決問題。一句回復(fù)不僅影響著用戶當下的情緒,更會潛移默化地改變后續(xù)對話的軌跡。真正有效的共情,需要模型在長期的多輪互動之中,持續(xù)觀察并理解對方的潛在心理狀態(tài),動態(tài)調(diào)整支持策略,最終將交流引導(dǎo)向更加健康的方向。



然而,當共情任務(wù)涉及復(fù)雜的隱含狀態(tài)、長期目標以及弱反饋驗證時,傳統(tǒng)的單輪評測與訓(xùn)練范式便很難評估模型的真實水平。我們究竟該如何判斷模型在長線交互中是否起到了正向作用?

自然選擇團隊近期開源的兩項研究EMPAMAPO為解決這一問題提供了具體的方案。

這兩項工作跳出了傳統(tǒng)框架,試圖重新審視大模型在長程共情場景中的評測與訓(xùn)練方式。前者回答「如何評測」,后者回答「如何訓(xùn)練」,兩者共同嘗試將主觀的情感陪伴轉(zhuǎn)化為可衡量且可優(yōu)化的系統(tǒng)能力。

目前,EMPA 論文已發(fā)布在 arXiv 上,代碼倉庫與 1000 多份開源數(shù)據(jù)集也已同步開放;MAPO 論文同樣已公開,相關(guān)代碼與訓(xùn)練環(huán)境也將陸續(xù)開源。



  • 論文標題:EMPA: Evaluating Persona-Aligned Empathy as a Process
  • 論文鏈接:https://arxiv.org/abs/2603.00552
  • 代碼地址:https://github.com/KAYA-HAI/EMPA-Benchmark-EPMSandbox
  • 1000+ 開源數(shù)據(jù)集:https://huggingface.co/datasets/SalmonTell/EMPA-character_card/tree/main



  • 論文標題:MAPO: Mixed Advantage Policy Optimization for Long-Horizon Multi-Turn Dialogue
  • 論文鏈接:https://arxiv.org/pdf/2603.06194v1
  • 代碼地址:https://github.com/2200xiaohu/MAPO

EMPA

第一次把共情評測推進到「過程級」

長期以來,共情評測大多停留在單輪任務(wù),例如情緒識別、共情回復(fù)生成,或通過 LLM-as-a-Judge 給回答打分。這類方法可以評估語言是否「像人」,卻很難回答一個更關(guān)鍵的問題:模型是否真的在長期幫助用戶

EMPA 的核心思路,是把共情正式建模為一種long-horizon agent任務(wù)。在這種任務(wù)中,用戶真實的心理狀態(tài)是一個無法直接觀察的潛變量(latent state),對話則是一個持續(xù)更新狀態(tài)的長期過程,而支持效果往往只能通過弱信號間接驗證。

基于這一視角,EMPA 不再只評估某一句回復(fù)本身,而是評估整段對話軌跡對用戶潛在心理狀態(tài)的影響

為此,研究者構(gòu)建了一套完整評估框架:首先通過Real-to-Sim 數(shù)據(jù)管線,將真實但嘈雜的長對話蒸餾為可復(fù)現(xiàn)的心理場景;隨后,在一個非腳本化的多智能體沙盒環(huán)境中,讓用戶 agent、導(dǎo)演 agent、裁判 agent 與被測模型展開開放式互動;最后,通過Empathy Potential Model(EPM)在潛在心理空間中建模用戶狀態(tài)變化,從而在軌跡層面評估對話是否產(chǎn)生持續(xù)、穩(wěn)定的正向影響。



在評測方法上,EMPA 采用了Rubric-Grounded Physics Evaluation的思路。

傳統(tǒng)開放式評測通常有兩種路徑:一種是基于 rubric checklist 的逐項打分,另一種是 LLM-as-a-Judge 直接給出整體評價。但這兩種方法都存在明顯缺陷:前者容易把復(fù)雜互動壓縮成靜態(tài)指標,后者則容易受到語言風(fēng)格、篇幅長度甚至表達技巧的干擾。

EMPA 的處理方式是把證據(jù)生成最終評分做結(jié)構(gòu)性拆分。在對話過程中,judge 不直接輸出最終得分,而是根據(jù) rubric 抽取可追溯、可歸因的結(jié)構(gòu)化證據(jù);隨后EPM 在軌跡層面對這些證據(jù)進行聚合計算,并將其映射為潛在心理狀態(tài)的變化信號。也就是說,rubric 不再直接扮演「裁判」角色,而是先變成「取證器」,真正的評分則由后續(xù)的軌跡建模來完成。

這一步非常關(guān)鍵,因為它意味著 EMPA 不只是換了個指標,而是在重新定義主觀評測范式:不再依賴單輪「印象分」,而是通過多輪證據(jù)持續(xù)更新用戶狀態(tài),并在整段對話軌跡上評估效果,從而避免單輪高分掩蓋長期策略失效。換句話說,EMPA 關(guān)注的不再是「這句話說得好不好」,而是「整段對話是否真的幫助用戶狀態(tài)朝更好的方向變化」。這也使得長期共情能力第一次成為一個可以被系統(tǒng)研究、比較與優(yōu)化的評測問題。

實驗結(jié)果進一步表明,這種新的評測路徑在魯棒性與敏感度上,均明顯優(yōu)于傳統(tǒng)方法。



MAPO

一個面向長程多輪交互的 RL 算法

如果說 EMPA 解決的是「如何評測」,那么團隊的另一項研究MAPO則試圖回答另一個問題:如何訓(xùn)練模型在這種長期對話任務(wù)中表現(xiàn)更好

在 MAPO 論文中,團隊提出了一種新的對話強化學(xué)習(xí)方法,目標是讓模型在長序列對話中既能利用逐輪反饋,又能保持長期策略穩(wěn)定性。MAPO 的核心思路,是同時引入兩類信號:

  • 第一類是逐輪過程獎勵。研究者借助 EMPA 的 judge 系統(tǒng),對每一輪回答進行評分,并借鑒 potential reward 的思路,將相鄰輪次評分變化所帶來的增量,作為當前輪次的即時獎勵,用來衡量某一次回復(fù)是否真正推動了對話向更好的方向發(fā)展。
  • 第二類是長期未來回報。為了避免模型只追求局部最優(yōu)、沉迷短期修補,MAPO 進一步通過蒙特卡洛方法估計從當前回合到對話結(jié)束的累計回報,從而保留長程策略信息。



相比許多基于 GRPO 的 agentic RL 方法,這一設(shè)計同時繞開了兩個常見問題:要么只能依賴最終結(jié)果獎勵,導(dǎo)致過程信號稀疏;要么需要在每一步進行大量采樣,帶來極高的樣本復(fù)雜度。

MAPO 的具體做法是,對同一初始 prompt 采樣多條對話軌跡,并將軌跡中的每一步視作訓(xùn)練樣本。

團隊進一步觀察到,即時獎勵的分布與對話輪次相對解耦,而未來回報的分布則往往與輪次強相關(guān)。因此,MAPO 分別對二者進行基于 batch 與基于 turn 的歸一化,再通過 convex combination 進行融合,從而在保留 critic-free 優(yōu)勢的同時,更穩(wěn)定地優(yōu)化長序列對話策略。



從更宏觀的角度看,這兩個工作實際上形成了一條完整的研究鏈路:EMPA 提供了長期共情任務(wù)的評測框架,而 MAPO 提供了適用于這類多輪交互任務(wù)的強化學(xué)習(xí)算法。它們共同推動「共情」從一個容易停留在主觀印象層面的概念,轉(zhuǎn)化為一個可以被系統(tǒng)研究、可復(fù)現(xiàn)比較,并進一步進入訓(xùn)練閉環(huán)的技術(shù)問題。

從實驗結(jié)果看,MAPO 在 EMPA 的動態(tài)對話沙盒環(huán)境中訓(xùn)練后,效果顯著優(yōu)于 GRPO,并在 EMPA benchmark 上取得明顯提升。值得注意的是,在部分設(shè)置下,一個 32B 模型已經(jīng)可以逼近 Claude-3.5 的表現(xiàn),同時在其他多輪對話 benchmark 上也展現(xiàn)出較好的泛化能力。

團隊進一步指出,MAPO 本質(zhì)上并不局限于多輪對話任務(wù),而更接近一種面向長程 agentic 場景的優(yōu)化方法。隨著相關(guān)代碼與環(huán)境進一步開源,這套方法也有機會在更多真實任務(wù)中被驗證與擴展。



隨著越來越多 AI 系統(tǒng)進入需要與用戶長期交互的「深水區(qū)」,模型能力的競爭,顯然不會長期停留在「更會說」或「更像人」這一層面。真正重要的,越來越可能是這樣一些能力:能否建模用戶的隱含狀態(tài),能否在多輪互動中保持策略一致性,能否在弱反饋條件下持續(xù)做出有效干預(yù),以及能否把這種能力真正沉淀為可評測、可訓(xùn)練、可迭代的系統(tǒng)能力。

從這個角度看,EMPA 與 MAPO 的意義,或許并不止于「共情」這一垂直領(lǐng)域,更像是在提前回答一個未來會越來越普遍的問題:當大模型開始進入那些需要長期理解、持續(xù)判斷、漸進影響人的任務(wù)時,我們究竟應(yīng)該如何衡量它,又該如何把它訓(xùn)練出來。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
伊朗同意再放行20艘巴基斯坦籍船只通過霍爾木茲海峽,今后每天將有兩艘船通過該海峽

伊朗同意再放行20艘巴基斯坦籍船只通過霍爾木茲海峽,今后每天將有兩艘船通過該海峽

揚子晚報
2026-03-29 07:17:05
伊朗:擊中一架美國F-16戰(zhàn)斗機,一架美國MQ-9無人機;擊斃5名“恐怖分子”,抓捕19名美以雇傭兵

伊朗:擊中一架美國F-16戰(zhàn)斗機,一架美國MQ-9無人機;擊斃5名“恐怖分子”,抓捕19名美以雇傭兵

臺州交通廣播
2026-03-29 00:55:06
中菲關(guān)系將迎來重置?馬科斯請求對華合作,中方開出一個前提條件

中菲關(guān)系將迎來重置?馬科斯請求對華合作,中方開出一個前提條件

軍機Talk
2026-03-27 16:48:19
羅永浩楊笠事件。

羅永浩楊笠事件。

貼小君
2026-03-28 13:34:08
張雪峰員工:他走了,留下一堆很難接手的攤子...

張雪峰員工:他走了,留下一堆很難接手的攤子...

芳華青年
2026-03-28 22:19:24
張雪峰的靈車細節(jié)讓人淚奔,車尾掛著一棵竹子,上面系著他的衣服

張雪峰的靈車細節(jié)讓人淚奔,車尾掛著一棵竹子,上面系著他的衣服

魔都姐姐雜談
2026-03-28 18:18:48
暴跌95%,裁員5萬人,全球第二大車企爆大雷

暴跌95%,裁員5萬人,全球第二大車企爆大雷

蔣東文
2026-03-27 21:09:47
人民日報也發(fā)了粉底液將軍,居然有粉絲去沖人民日報,勸都勸不住

人民日報也發(fā)了粉底液將軍,居然有粉絲去沖人民日報,勸都勸不住

芊手若
2026-03-29 04:06:34
19歲大學(xué)生熬夜后頭暈?zāi)X出血致癱,此前常熬夜直播和備貨 康復(fù)訓(xùn)練后已能走幾步

19歲大學(xué)生熬夜后頭暈?zāi)X出血致癱,此前常熬夜直播和備貨 康復(fù)訓(xùn)練后已能走幾步

紅星新聞
2026-03-28 20:15:13
俄羅斯:擬自4月1日起禁止汽油出口 優(yōu)先保障俄國內(nèi)市場供應(yīng)

俄羅斯:擬自4月1日起禁止汽油出口 優(yōu)先保障俄國內(nèi)市場供應(yīng)

每日經(jīng)濟新聞
2026-03-28 18:40:36
油車換電車1年真實感受:普通人別跟風(fēng)!買車前沒人告訴你的真相

油車換電車1年真實感受:普通人別跟風(fēng)!買車前沒人告訴你的真相

華庭講美食
2026-03-28 17:08:13
香港新規(guī):3年監(jiān)禁換你手機密碼,2026年3月生效

香港新規(guī):3年監(jiān)禁換你手機密碼,2026年3月生效

薛定諤的BUG
2026-03-28 11:40:26
體檢都出毛病了,連馬拉松參賽資格都被取消,當事人硬是不信邪。

體檢都出毛病了,連馬拉松參賽資格都被取消,當事人硬是不信邪。

歲月有情1314
2026-03-29 08:19:26
張雪峰葬禮現(xiàn)場!張媽媽哭全場落淚,女兒未現(xiàn)身,經(jīng)紀人悲痛悼念

張雪峰葬禮現(xiàn)場!張媽媽哭全場落淚,女兒未現(xiàn)身,經(jīng)紀人悲痛悼念

180視角
2026-03-28 11:23:45
好友曝張雪峰遺容狀態(tài)!化了妝像歐巴,黑眼圈遮不住,薛之謙發(fā)文

好友曝張雪峰遺容狀態(tài)!化了妝像歐巴,黑眼圈遮不住,薛之謙發(fā)文

阿纂看事
2026-03-28 18:44:03
上海知名主持周瑾:從不做飯全靠外賣,真實家庭狀態(tài)令人意外

上海知名主持周瑾:從不做飯全靠外賣,真實家庭狀態(tài)令人意外

日落于西
2026-03-28 21:21:53
女教師被碾壓致死后續(xù)!5人聯(lián)合作案,銷毀鐵證,兇手勢力不簡單

女教師被碾壓致死后續(xù)!5人聯(lián)合作案,銷毀鐵證,兇手勢力不簡單

青橘罐頭
2026-03-28 07:13:38
拉里賈尼是怎么被找到的?

拉里賈尼是怎么被找到的?

百年歷史老號
2026-03-28 20:30:44
50歲老虎伍茲被捕!特朗普難過:他是我很親密的朋友 了不起的人

50歲老虎伍茲被捕!特朗普難過:他是我很親密的朋友 了不起的人

念洲
2026-03-28 21:44:38
國家出手逮捕的3名華人首富,瘋狂斂財坑害百姓,每個都罪有應(yīng)得

國家出手逮捕的3名華人首富,瘋狂斂財坑害百姓,每個都罪有應(yīng)得

林輕吟
2026-03-25 07:15:32
2026-03-29 10:32:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12620文章數(shù) 142598關(guān)注度
往期回顧 全部

科技要聞

馬斯克承認xAI"建錯了",11位創(chuàng)始人均離職

頭條要聞

牛彈琴:特朗普親口對沙特說出傲慢的話 全世界不敢相信

頭條要聞

牛彈琴:特朗普親口對沙特說出傲慢的話 全世界不敢相信

體育要聞

全球第二大車企,也救不了這支德甲隊?

娛樂要聞

陳牧馳陳冰官宣得子 曬一家三口握拳照

財經(jīng)要聞

臥底"科技與狠活"培訓(xùn):化工調(diào)味劑泛濫

汽車要聞

嵐圖泰山X8配置曝光 四激光雷達/華為新一代座艙

態(tài)度原創(chuàng)

家居
手機
時尚
公開課
軍事航空

家居要聞

曲線華爾茲 現(xiàn)代簡約

手機要聞

與直板機坐一桌 OPPO Find N6躋身暢銷機榜單

和田曦薇一樣嫩嘟嘟,這3個變美技巧你一定不能錯過!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美軍中東基地損失最新披露

無障礙瀏覽 進入關(guān)懷版