国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

首個(gè)用戶(hù)生活「長(zhǎng)程模擬器」!LifeSim 重新定義大模型個(gè)性化評(píng)測(cè)

0
分享至



近年來(lái),大語(yǔ)言模型(Large Language Model,LLM)在個(gè)性化智能助手任務(wù)上取得了快速進(jìn)展,通用 AI 助手的愿景也變得越來(lái)越可實(shí)現(xiàn)。然而,現(xiàn)有針對(duì)個(gè)性化助手的評(píng)測(cè)基準(zhǔn),仍然與真實(shí)世界中的用戶(hù)-助手交互存在明顯脫節(jié),其局限性主要體現(xiàn)在兩個(gè)方面:

  • 復(fù)雜外部環(huán)境:真實(shí)用戶(hù)需求并不是脫離環(huán)境獨(dú)立產(chǎn)生的,而是會(huì)受到時(shí)間、地點(diǎn)、天氣、生活事件等復(fù)雜外部情境的共同影響;
  • 動(dòng)態(tài)用戶(hù)認(rèn)知:用戶(hù)意圖往往受到長(zhǎng)期偏好、個(gè)性特征、近期經(jīng)歷和當(dāng)前心理狀態(tài)的共同塑造。

由于真實(shí)長(zhǎng)期用戶(hù)交互數(shù)據(jù)受到隱私與倫理限制,長(zhǎng)時(shí)間、跨場(chǎng)景的公開(kāi)數(shù)據(jù)極為稀缺,這也使得現(xiàn)有評(píng)測(cè)難以真正逼近現(xiàn)實(shí)中的個(gè)性化助手使用場(chǎng)景。

針對(duì)這些挑戰(zhàn),來(lái)自復(fù)旦大學(xué)、上海創(chuàng)智學(xué)院的研究人員提出 LifeSim,一個(gè)面向個(gè)性化助手評(píng)測(cè)的長(zhǎng)程用戶(hù)生活模擬框架。LifeSim 同時(shí)建模用戶(hù)內(nèi)部認(rèn)知過(guò)程與外部物理環(huán)境,生成連貫的生活軌跡、事件序列與多輪交互行為;在此基礎(chǔ)上,研究團(tuán)隊(duì)進(jìn)一步構(gòu)建了 LifeSim-Eval,用于系統(tǒng)評(píng)測(cè)模型在長(zhǎng)期個(gè)性化交互中的能力邊界。



  • 論文標(biāo)題:LifeSim: Long-Horizon User Life Simulator for Personalized Assistant Evaluation
  • 論文地址:https://arxiv.org/abs/2603.12152
  • GitHub 地址:https://github.com/dfy37/lifesim
  • Demo 鏈接:http://fudan-disc.com/lifesim/



圖 1:基于長(zhǎng)程時(shí)空上下文的個(gè)人 AI 助手。用戶(hù)行為會(huì)隨外部環(huán)境動(dòng)態(tài)演化,同時(shí)又體現(xiàn)出穩(wěn)定的個(gè)人特質(zhì)。要實(shí)現(xiàn)有效響應(yīng),模型需要在適配當(dāng)前上下文的同時(shí),利用交互歷史推斷用戶(hù)狀態(tài),從而動(dòng)態(tài)調(diào)整自身策略。

融合 BDI 理論的模擬框架:LifeSim

LifeSim 是面向長(zhǎng)期個(gè)性化助手評(píng)測(cè)的用戶(hù)生活模擬框架,核心由四部分組成:用戶(hù)畫(huà)像、基于信念-愿望-意圖(Belief-Desire-Intention,BDI)的認(rèn)知引擎、基于環(huán)境約束的事件引擎、用戶(hù)行為引擎。



圖 2:LifeSim 框架概覽。針對(duì)每個(gè)目標(biāo)用戶(hù),其用戶(hù)畫(huà)像包含人口統(tǒng)計(jì)學(xué)屬性、人格特質(zhì)與長(zhǎng)期偏好,這些要素共同構(gòu)成長(zhǎng)期信念狀態(tài)?;?BDI 模型的認(rèn)知引擎與事件引擎相結(jié)合,將主觀信念狀態(tài)與物理環(huán)境進(jìn)行融合,共同生成用戶(hù)意圖。隨后,用戶(hù)行為引擎通過(guò)對(duì)記憶感知、情緒推理與行為選擇進(jìn)行建模,生成對(duì)話內(nèi)容。

為支持用戶(hù)多樣性,LifeSim 構(gòu)建百萬(wàn)級(jí)用戶(hù)畫(huà)像池,每個(gè)畫(huà)像包含人口統(tǒng)計(jì)學(xué)屬性、基于大五人格的特質(zhì)及長(zhǎng)期偏好?;?BDI 模型的認(rèn)知引擎用于模擬用戶(hù)內(nèi)部認(rèn)知,其中:

  • 信念:涵蓋長(zhǎng)期畫(huà)像與短期情境認(rèn)知;
  • 欲望:是當(dāng)前激發(fā)的需求,由真實(shí)用戶(hù)需求庫(kù)匹配而來(lái);
  • 意圖:是最終形成的行動(dòng)傾向,具體通過(guò)結(jié)合用戶(hù)畫(huà)像、近期經(jīng)歷及當(dāng)前環(huán)境生成合理意圖。

事件引擎以真實(shí)出行軌跡為基礎(chǔ),融入時(shí)間、地點(diǎn)等環(huán)境因素,根據(jù)用戶(hù)狀態(tài)生成連貫生活事件,讓用戶(hù)需求自然涌現(xiàn)。用戶(hù)行為引擎則模擬多輪交互表現(xiàn),綜合考慮記憶、情緒與行為選擇,生成的回復(fù)兼具畫(huà)像一致性、上下文相關(guān)性與自然度。自動(dòng)與人工評(píng)測(cè)驗(yàn)證了行為引擎的有效性。



表 1:基于不同模型基座的用戶(hù)行為引擎在四個(gè)維度上的性能表現(xiàn)。

更貼近真實(shí)世界的評(píng)測(cè)環(huán)境:LifeSim-Eval

基于 LifeSim,LifeSim-Eval 被提出用于評(píng)測(cè)長(zhǎng)期個(gè)性化助手場(chǎng)景下的模型核心能力。區(qū)別于傳統(tǒng)評(píng)測(cè),其更關(guān)注三點(diǎn):

  • 模型能否識(shí)別并滿足顯隱性意圖。其中顯性意圖為用戶(hù)直接表達(dá)的需求,隱性意圖需結(jié)合畫(huà)像、場(chǎng)景與偏好推斷;
  • 能否重建用戶(hù)畫(huà)像;
  • 回復(fù)是否符合用戶(hù)畫(huà)像并保持一致。

LifeSim-Eval 利用 LifeSim 構(gòu)建 120 個(gè)用戶(hù)、1200 個(gè)評(píng)測(cè)場(chǎng)景,覆蓋 8 個(gè)常見(jiàn)生活領(lǐng)域,并設(shè)置兩種評(píng)測(cè)模式:

  • 單場(chǎng)景模式:僅基于當(dāng)前場(chǎng)景,與 LifeSim 中的模擬用戶(hù)完成多輪對(duì)話(最多 20 輪);
  • 長(zhǎng)時(shí)程模式:需結(jié)合歷史交互響應(yīng)當(dāng)前場(chǎng)景。

核心評(píng)測(cè)指標(biāo)包括意圖識(shí)別、意圖完成度、偏好重建、畫(huà)像對(duì)齊,以及回復(fù)的自然度與連貫性。

實(shí)驗(yàn)結(jié)果與關(guān)鍵發(fā)現(xiàn)

論文在多類(lèi)主流 LLM 上進(jìn)行了系統(tǒng)評(píng)測(cè),涵蓋 GPT-5、GPT-4o、Claude Sonnet 4.5,以及 DeepSeek-V3.2、Qwen、Llama、gpt-oss 等多個(gè)開(kāi)源 / 閉源模型。實(shí)驗(yàn)揭示出以下幾個(gè)核心結(jié)論:

  • 顯性意圖較強(qiáng),隱性意圖明顯更難

在單場(chǎng)景設(shè)置中,大多數(shù)模型在顯性意圖識(shí)別上表現(xiàn)較好,但在隱性意圖識(shí)別上普遍存在超過(guò) 20 分的性能差距。這說(shuō)明當(dāng)前模型已經(jīng)較擅長(zhǎng)處理用戶(hù)直接表達(dá)的需求,但對(duì)于需要結(jié)合上下文和用戶(hù)狀態(tài)推斷出的潛在需求,能力仍明顯不足。



表 2:主流模型在 LifeSim-Eval 上的評(píng)測(cè)結(jié)果。

  • 長(zhǎng)程對(duì)話會(huì)進(jìn)一步放大隱性意圖處理難度

在長(zhǎng)時(shí)程設(shè)置中,模型對(duì)顯性意圖的完成率相對(duì)穩(wěn)定,但對(duì)隱性意圖的完成能力明顯更弱,且會(huì)隨著歷史長(zhǎng)度增加而進(jìn)一步下降。這表明現(xiàn)有模型雖然能夠在長(zhǎng)上下文中維持對(duì)表層任務(wù)的處理能力,但一旦需要基于長(zhǎng)期證據(jù)進(jìn)行用戶(hù)狀態(tài)與偏好推理,就會(huì)出現(xiàn)明顯退化。



圖 3:不同助手模型的長(zhǎng)時(shí)序意圖完成性能。熱力圖展示了意圖完成度(I.C.)得分隨對(duì)話長(zhǎng)度的變化情況。

  • 簡(jiǎn)單記憶機(jī)制收益有限

論文進(jìn)一步測(cè)試了畫(huà)像記憶機(jī)制:在每個(gè)場(chǎng)景后,讓模型總結(jié)或更新用戶(hù)偏好。結(jié)果顯示,雖然這種做法對(duì)用戶(hù)偏好的重建有一定幫助,但整體收益并不穩(wěn)定,甚至有些模型幾乎沒(méi)有提升。這說(shuō)明長(zhǎng)期個(gè)性化能力的瓶頸并不只是「記不住」,更在于模型是否具備穩(wěn)定的長(zhǎng)期偏好推理能力。



圖 4:用戶(hù)偏好還原性能隨場(chǎng)景數(shù)量增長(zhǎng)的變化。

不同意圖類(lèi)型和主題上的表現(xiàn)并不均衡



不同意圖類(lèi)型下的模型相對(duì)性能。



不同意圖主題下的模型相對(duì)性能。

針對(duì)不同意圖類(lèi)別和主題的實(shí)驗(yàn)結(jié)果顯示:在以顯式、任務(wù)驅(qū)動(dòng)需求為主的場(chǎng)景,與需要隱式、情感推理的場(chǎng)景之間,模型在顯隱性意圖任務(wù)的性能存在明顯差異。這種異質(zhì)性表明,當(dāng)前模型在不同服務(wù)領(lǐng)域的魯棒性參差不齊,需要我們?cè)趥€(gè)性化助手設(shè)計(jì)中進(jìn)行更細(xì)粒度的優(yōu)化。

  • 模型存在三類(lèi)典型問(wèn)題

通過(guò)案例分析,論文總結(jié)出當(dāng)前模型在長(zhǎng)期個(gè)性化助手任務(wù)中常見(jiàn)的三類(lèi)問(wèn)題:

  • 推理僵化:模型容易固守最初的解決路徑,面對(duì)用戶(hù)新增約束時(shí)缺乏動(dòng)態(tài)調(diào)整;
  • 主動(dòng)追問(wèn)不足:即便關(guān)鍵信息尚不明確,模型也常直接給出建議,而不是主動(dòng)澄清用戶(hù)需求;
  • 用戶(hù)畫(huà)像利用不足:雖然擁有正確的用戶(hù)畫(huà)像,但模型不能真正把它們?nèi)谌牖貜?fù)策略中。



表 3:各模型的主動(dòng)詢(xún)問(wèn)占比與僵化推理占比

總結(jié)

本研究提出了 LifeSim 與 LifeSim-Eval,系統(tǒng)性地將個(gè)性化助手評(píng)測(cè)從靜態(tài)、短上下文任務(wù)擴(kuò)展到面向長(zhǎng)期用戶(hù)生活軌跡的動(dòng)態(tài)交互場(chǎng)景。與傳統(tǒng)基準(zhǔn)相比,LifeSim 不僅同時(shí)建模用戶(hù)認(rèn)知狀態(tài)與物理環(huán)境,還進(jìn)一步引入顯性 / 隱性意圖區(qū)分和長(zhǎng)程交互設(shè)定,從而更真實(shí)地刻畫(huà)個(gè)性化助手在現(xiàn)實(shí)生活中的使用挑戰(zhàn)。

實(shí)驗(yàn)結(jié)果表明,當(dāng)前主流 LLM 雖然已經(jīng)能夠較好地處理顯性需求,但在隱性意圖識(shí)別、用戶(hù)偏好重建和長(zhǎng)程用戶(hù)理解方面仍然存在顯著短板。此外,LifeSim 也提供了接近真實(shí)場(chǎng)景的個(gè)性化助手模擬環(huán)境,也為個(gè)性化數(shù)據(jù)合成提供新途徑。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
申萬(wàn)宏源:美伊沖突最大沖擊已過(guò),市場(chǎng)底與成長(zhǎng)風(fēng)格底同步確立

申萬(wàn)宏源:美伊沖突最大沖擊已過(guò),市場(chǎng)底與成長(zhǎng)風(fēng)格底同步確立

每日經(jīng)濟(jì)新聞
2026-04-12 08:05:04
中紀(jì)委發(fā)話了!釋放一個(gè)重要信號(hào),一個(gè)都不放過(guò)!

中紀(jì)委發(fā)話了!釋放一個(gè)重要信號(hào),一個(gè)都不放過(guò)!

細(xì)說(shuō)職場(chǎng)
2026-04-11 18:42:12
陰雨何時(shí)休?下周天氣趨勢(shì)來(lái)了!

陰雨何時(shí)休?下周天氣趨勢(shì)來(lái)了!

上海靜安
2026-04-12 18:35:00
68歲趙本山現(xiàn)身海南悠閑逛街,打扮很潮流!買(mǎi)好幾袋奢侈品好愜意

68歲趙本山現(xiàn)身海南悠閑逛街,打扮很潮流!買(mǎi)好幾袋奢侈品好愜意

娛樂(lè)團(tuán)長(zhǎng)
2026-04-11 15:28:06
000929,申請(qǐng)撤銷(xiāo)退市風(fēng)險(xiǎn)警示!

000929,申請(qǐng)撤銷(xiāo)退市風(fēng)險(xiǎn)警示!

證券時(shí)報(bào)e公司
2026-04-12 17:36:43
日媒:44%的訪日中國(guó)游客資產(chǎn)額超680萬(wàn)元

日媒:44%的訪日中國(guó)游客資產(chǎn)額超680萬(wàn)元

隨波蕩漾的漂流瓶
2026-04-11 17:16:26
曝U18男籃核心改名+改年齡參賽!連名帶姓全都改 疑似2次改小4歲

曝U18男籃核心改名+改年齡參賽!連名帶姓全都改 疑似2次改小4歲

念洲
2026-04-11 22:08:12
46號(hào)令來(lái)了!國(guó)企全面清查,所有人自查照著做就行

46號(hào)令來(lái)了!國(guó)企全面清查,所有人自查照著做就行

奇思妙想生活家
2026-04-12 04:55:26
湖南一男子自帶茅臺(tái)就餐,飲用時(shí)感覺(jué)味道不對(duì)懷疑被調(diào)包!民警發(fā)現(xiàn)當(dāng)日服務(wù)員連工資都沒(méi)結(jié)就“消失”了

湖南一男子自帶茅臺(tái)就餐,飲用時(shí)感覺(jué)味道不對(duì)懷疑被調(diào)包!民警發(fā)現(xiàn)當(dāng)日服務(wù)員連工資都沒(méi)結(jié)就“消失”了

大風(fēng)新聞
2026-04-11 16:08:07
反流量卻成了流量密碼,莫氏雞煲老莫:在60歲被迫開(kāi)始拼命,生日愿望是“店子早點(diǎn)倒閉”

反流量卻成了流量密碼,莫氏雞煲老莫:在60歲被迫開(kāi)始拼命,生日愿望是“店子早點(diǎn)倒閉”

極目新聞
2026-04-12 14:04:06
在剛剛,上午16家公司出現(xiàn)重大利好消息,看看有沒(méi)有與你相關(guān)的個(gè)股

在剛剛,上午16家公司出現(xiàn)重大利好消息,看看有沒(méi)有與你相關(guān)的個(gè)股

股市皆大事
2026-04-12 11:20:15
胡爾克談內(nèi)馬爾入選巴西隊(duì):如果他配得上,就會(huì)代表巴西出戰(zhàn)

胡爾克談內(nèi)馬爾入選巴西隊(duì):如果他配得上,就會(huì)代表巴西出戰(zhàn)

懂球帝
2026-04-12 15:42:03
朝鮮空姐,和想象中的不一樣

朝鮮空姐,和想象中的不一樣

微微熱評(píng)
2026-04-12 13:57:10
鄭麗文一行參訪小米汽車(chē)工廠,中國(guó)國(guó)民黨副主席: 對(duì)促進(jìn)兩岸交流合作十項(xiàng)新政表示歡迎,呼吁當(dāng)局不要阻攔,鄭麗文一行圓滿結(jié)束大陸參訪,離京返臺(tái)

鄭麗文一行參訪小米汽車(chē)工廠,中國(guó)國(guó)民黨副主席: 對(duì)促進(jìn)兩岸交流合作十項(xiàng)新政表示歡迎,呼吁當(dāng)局不要阻攔,鄭麗文一行圓滿結(jié)束大陸參訪,離京返臺(tái)

每日經(jīng)濟(jì)新聞
2026-04-12 15:42:14
李斌:自研芯片真省錢(qián)!

李斌:自研芯片真省錢(qián)!

EETOP半導(dǎo)體社區(qū)
2026-04-12 12:14:50
卡尼演講稱(chēng)“每花1加元軍費(fèi)就有70加分流向美國(guó)的日子已結(jié)束”,現(xiàn)場(chǎng)爆發(fā)熱烈掌聲

卡尼演講稱(chēng)“每花1加元軍費(fèi)就有70加分流向美國(guó)的日子已結(jié)束”,現(xiàn)場(chǎng)爆發(fā)熱烈掌聲

環(huán)球網(wǎng)資訊
2026-04-12 11:15:00
中央下令嚴(yán)查宅基地!2026年新規(guī)執(zhí)行,每家每戶(hù)都要注意

中央下令嚴(yán)查宅基地!2026年新規(guī)執(zhí)行,每家每戶(hù)都要注意

王嚾曉
2026-03-18 23:31:04
亞錦賽收官:國(guó)羽2金2銀印泰各1銀,石宇奇2-0奪生涯亞錦賽首金

亞錦賽收官:國(guó)羽2金2銀印泰各1銀,石宇奇2-0奪生涯亞錦賽首金

求球不落諦
2026-04-12 18:41:05
文章飯店開(kāi)業(yè)大排長(zhǎng)隊(duì),網(wǎng)友直呼價(jià)格親民

文章飯店開(kāi)業(yè)大排長(zhǎng)隊(duì),網(wǎng)友直呼價(jià)格親民

映射生活的身影
2026-04-12 15:36:07
外交部公開(kāi)發(fā)聲,10字定性鄭麗文訪問(wèn)大陸,白巖松的話果真沒(méi)說(shuō)錯(cuò)

外交部公開(kāi)發(fā)聲,10字定性鄭麗文訪問(wèn)大陸,白巖松的話果真沒(méi)說(shuō)錯(cuò)

阿纂看事
2026-04-11 15:53:22
2026-04-12 19:43:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專(zhuān)業(yè)的人工智能媒體
12729文章數(shù) 142623關(guān)注度
往期回顧 全部

科技要聞

理想稱(chēng)遭惡意拉踩,東風(fēng)日產(chǎn):尊重同行

頭條要聞

女子帶5歲女兒和未滿1歲兒子用餐 女兒墜亡餐廳賠74萬(wàn)

頭條要聞

女子帶5歲女兒和未滿1歲兒子用餐 女兒墜亡餐廳賠74萬(wàn)

體育要聞

見(jiàn)證歷史!五大聯(lián)賽首位女性主教練誕生

娛樂(lè)要聞

46歲趙達(dá)官宣結(jié)婚!曾與殷桃談婚論嫁

財(cái)經(jīng)要聞

美伊談判破裂的三大癥結(jié)

汽車(chē)要聞

煥新極氪007/007GT上市 限時(shí)19.39萬(wàn)起

態(tài)度原創(chuàng)

游戲
房產(chǎn)
家居
旅游
時(shí)尚

LCK第二賽段:BFX橫掃DNS,拿下自己的賽季首勝

房產(chǎn)要聞

土地供應(yīng)突然暴跌!2026??跇鞘校窬执笞?!

家居要聞

復(fù)古風(fēng)格 自然簡(jiǎn)約

旅游要聞

視頻丨跟著課本去朔門(mén)古港考古遺址公園 觸摸千年海絲文明

伊姐周六熱推:電視劇《八千里路云和月》;綜藝《乘風(fēng)2026》......

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版