ConvApparel：量化并彌合用戶模擬器的真實性差距

2026-04-10 22:00:09　來源: 至頂頭條

北京舉報

分享至

我們推出了ConvApparel——一個全新的人機對話數(shù)據(jù)集，以及一套用于量化大語言模型用戶模擬器"真實性差距"的綜合評估框架，旨在提升對話智能體的訓練效果。

現(xiàn)代對話式AI智能體通常能夠處理復雜的多輪任務，例如主動提問以澄清用戶意圖，以及為用戶提供主動幫助。然而，面對較長的交互過程，這類系統(tǒng)往往表現(xiàn)不佳，容易忽略限制條件或給出無關緊要的回復。持續(xù)改進這些系統(tǒng)需要不斷訓練和反饋，但依賴真人測試這一"黃金標準"成本高昂、耗時較長，且難以大規(guī)模推廣。

作為一種可擴展的替代方案，AI研究社區(qū)越來越多地轉向用戶模擬器——即明確指示其扮演人類用戶角色的大語言模型智能體。然而，現(xiàn)代基于大語言模型的模擬器仍然存在明顯的真實性差距：它們往往表現(xiàn)出異常的耐心，或具備不符合實際的、近乎百科全書式的領域知識。這就好比飛行員使用飛行模擬器訓練：最好的模擬器應盡可能真實，包含不可預測的天氣、突如其來的陣風，甚至偶爾發(fā)生的鳥擊事故。要彌合大語言模型用戶模擬器的真實性差距，首先需要將其量化。

在我們近期發(fā)布的論文中，我們介紹了ConvApparel——一個專為此目標設計的人機對話新數(shù)據(jù)集。ConvApparel能夠揭示當前用戶模擬中隱藏的缺陷，并為構建值得信賴的AI測試工具提供可行路徑。為了捕捉從滿意到極度不滿的完整人類行為譜系，我們采用了一種獨特的雙智能體數(shù)據(jù)收集協(xié)議：參與者被隨機分配至一個樂于助人的"好"智能體，或一個故意表現(xiàn)不佳的"壞"智能體。這一實驗設置結合了三支柱驗證策略——群體級統(tǒng)計、人類相似度評分以及反事實驗證——使我們能夠超越簡單的表層模仿。

基于大語言模型的用戶模擬器往往表現(xiàn)出與真實人類交互系統(tǒng)性偏差的行為，例如過度冗長、缺乏一致的角色設定、無法表達連貫的偏好、知識儲備不切實際，以及缺乏合理的耐心底線。由于大多數(shù)大語言模型在訓練時的目標是成為出色的助手，因此當它們被要求扮演容易沮喪、并非完美的人類用戶時，表現(xiàn)不佳也就不足為奇。如果我們僅用這些不真實的模擬器來訓練對話智能體，那么它們在面對真實用戶時極有可能失敗。

利用真實用戶行為來訓練模擬器是一種有效的方法。然而，一個真正真實的模擬器不僅應反映訓練數(shù)據(jù)中的行為，還應能對未見過的新情境（例如新的對話智能體策略）做出合理反應。這一點至關重要，因為模擬器的主要目標之一是幫助改進智能體，其中通常包括對與訓練數(shù)據(jù)差異顯著的新智能體進行實驗。一個過度擬合訓練數(shù)據(jù)的模擬器，對于測試全新的、未經(jīng)驗證的AI智能體毫無用處。這引出了一個關鍵的方法論挑戰(zhàn)：我們如何測試模擬器的適應能力？

為解決這一問題，我們引入了反事實驗證的概念：如果模擬用戶遇到一個令人沮喪的系統(tǒng)——與它在訓練中接觸過的那些友好系統(tǒng)截然不同——它會作何反應？通過評估模擬器在面對意外出現(xiàn)的"壞"對話智能體時的表現(xiàn)，我們可以判斷它們是否真正學會了合理的人類行為，還是只是在盲目重復訓練模式。

反事實驗證旨在測試用戶模擬器面對分布外的助手行為時，能否做出真實的適應性反應。

對話推薦系統(tǒng)（CRS）是對話式AI智能體最具前景的應用場景之一，在這類系統(tǒng)中，AI智能體充當復雜的決策支持工具，能夠進行深度推理并提供個性化指導。為了建立CRS中人類行為的基準，并實現(xiàn)上述反事實驗證，我們構建了ConvApparel數(shù)據(jù)集——該數(shù)據(jù)集包含4000余條人機多輪對話（共計近15000輪），聚焦于服裝購物領域。

ConvApparel的獨特之處在于其雙智能體數(shù)據(jù)收集協(xié)議。參與者并不知情，他們的購物請求被隨機分配至兩種截然不同的AI推薦系統(tǒng)之一：一個表現(xiàn)良好的"好"智能體和一個故意設計為表現(xiàn)不佳的"壞"智能體。這一雙智能體實驗設計是ConvApparel的核心特色，它提供了兩種不同的受控環(huán)境，捕捉了從愉悅到極度不滿的廣泛用戶體驗。此外，ConvApparel還包含細粒度的逐輪標注。我們要求參與者在每輪對話結束后，回顧并報告自己的內心狀態(tài)，包括滿意度、沮喪感和購買意愿，從而提供了一份罕見的第一人稱用戶體驗真值數(shù)據(jù)集，為驗證實驗設置和模擬行為提供了重要依據(jù)。

基于這一豐富數(shù)據(jù)集，我們建立了一套由三大支柱構成的綜合數(shù)據(jù)驅動框架，用于評估模擬器的逼真度，并對三種模擬器進行了比較：提示式模擬器（Prompted）、上下文學習模擬器（ICL）以及監(jiān)督微調模擬器（SFT）。

群體級統(tǒng)計對齊：將真實用戶與模擬交互在總體行為分布（如話語長度）上進行比較。

人類相似度評分：為捕捉細微的風格差異，我們訓練了一個自動判別器，基于人類與模擬對話的混合數(shù)據(jù)，輸出一個反映對話"人類感"的單一概率評分。

人類相似度評分（HLS）利用訓練好的判別器，檢測真實對話與合成對話之間細微的風格差異。

反事實驗證：利用雙智能體數(shù)據(jù)，我們僅基于與"好"智能體的對話來訓練模擬器，再讓其與未見過的"壞"智能體進行交互。高逼真度的模擬器應能自然地做出調整，在沮喪感上呈現(xiàn)出與真實人類相似的顯著上升，以及滿意度的明顯下降。

ConvApparel框架將雙智能體數(shù)據(jù)收集協(xié)議與三支柱驗證策略相結合，有效衡量模擬器的真實性。

我們將三支柱評估框架應用于三種基于Gemini模型系列構建的大語言模型用戶模擬器：一是提示式模擬器，僅依賴高層次行為指令，無需專項訓練；二是上下文學習（ICL）模擬器，利用檢索增強生成技術，在每一輪交互中為模型提供來自ConvApparel的語義相似人類對話示例；三是監(jiān)督微調（SFT）模擬器，通過直接在ConvApparel人機對話記錄上對Gemini 2.5 Flash模型進行微調，使其行為與目標人群高度對齊。

每種模擬器各生成600條對話，其中300條與"好"智能體交互，300條與"壞"智能體交互，以便與人類基準進行對比。

為保障研究的倫理完整性，我們對所有參與者保持完全透明，并給予公平報酬。評估人員均為簽署了知情同意書的付費承包商，所獲薪酬高于其所在國家的生活工資標準。此外，我們明確要求參與者以真實購買意愿使用推薦系統(tǒng)，并告知所有參與者，他們正在與一個仍處于開發(fā)階段的實驗性原型進行交互，并特別說明該系統(tǒng)可能存在表現(xiàn)欠佳的情況。

我們的實驗得出了若干重要發(fā)現(xiàn)：

在人類相似度評分方面，經(jīng)過訓練的判別器能夠以極高的置信度將幾乎所有模擬對話識別為合成內容。即便是我們最優(yōu)秀的SFT模型，仍會產(chǎn)生細微的人工痕跡——例如無懈可擊的語法和過于規(guī)律的輪次切換——從而暴露出其"合成"本質。

在群體級測試中，數(shù)據(jù)驅動型模擬器（ICL和SFT）的表現(xiàn)始終優(yōu)于簡單的提示式基線，在話語長度和推薦接受率等行為分布上與人類高度吻合；然而，嚴格的統(tǒng)計檢驗顯示，即便是這些較優(yōu)的模擬器，仍存在持續(xù)的真實性差距。

在與令人沮喪的"壞"智能體交互時，提示式基線基本無法適應，行為依然異常禮貌和耐心。而數(shù)據(jù)驅動型的ICL和SFT模擬器則表現(xiàn)出了出色的分布外泛化能力。盡管從未在訓練數(shù)據(jù)中見過"壞"智能體，它們仍能真實地調整自身行為，表現(xiàn)出明顯更高的模擬沮喪感與拒絕傾向。

構建可靠的用戶模擬器是開發(fā)下一代健壯、有益且高效對話AI的基礎性工作。我們的研究表明，盡管基于大語言模型的用戶模擬器前景廣闊，但盲目依賴它們存在重大風險。"真實性差距"依然存在，若將AI智能體優(yōu)化為僅取悅于不真實的模擬器，可能會損害其在真實世界中的實際表現(xiàn)。

通過引入ConvApparel數(shù)據(jù)集和三支柱驗證框架，我們?yōu)檠芯可鐓^(qū)提供了嚴格衡量并最終彌合這一差距所需的工具。反事實驗證證明，我們必須超越表層模仿，確保模擬器能夠真實地適應新穎的對話動態(tài)。我們誠邀研究人員和開發(fā)者探索ConvApparel數(shù)據(jù)集，并利用我們的框架，為對話AI的未來構建可靠的合成用戶。

盡管我們的實驗表明數(shù)據(jù)驅動型模擬器遠優(yōu)于提示式模擬器，但創(chuàng)建高度真實的人工用戶仍是一項尚未完全解決的挑戰(zhàn)。我們的框架能夠有效衡量真實性差距，但要確定訓練出健壯對話智能體所需的精確逼真度閾值，目前仍是一個開放性問題。

未來的工作應聚焦于利用這些高逼真度模擬器從零開始訓練和優(yōu)化CRS智能體，并衡量其在真實世界中的最終表現(xiàn)。打通這一完整閉環(huán)，將使我們最終能夠量化構建有效、用戶就緒的AI系統(tǒng)所需的"人類相似度"程度。

本研究由以下合著者共同完成：Krisztian Balog、Avi Caciularu、Guy Tennenholtz、Jihwan Jeong、Amir Globerson 和 Craig Boutilier。

Q&A

Q1：ConvApparel數(shù)據(jù)集是什么，有什么特別之處？

A：ConvApparel是一個包含4000余條人機多輪對話（近15000輪）的服裝購物領域數(shù)據(jù)集。其最大特色是采用雙智能體數(shù)據(jù)收集協(xié)議：參與者在不知情的情況下，被隨機分配與"好"智能體或"壞"智能體交互，從而捕捉從滿意到極度不滿的完整用戶行為譜系，并配有逐輪的滿意度、沮喪感等細粒度標注。

Q2：什么是用戶模擬器的"真實性差距"，為什么重要？

A：真實性差距指的是大語言模型用戶模擬器的行為與真實人類用戶之間的系統(tǒng)性偏差，例如過度冗長、異常耐心、知識儲備不切實際等。如果用不真實的模擬器來訓練對話AI智能體，該智能體在面對真實用戶時可能表現(xiàn)不佳，因此量化并彌合這一差距對提升AI實際應用效果至關重要。

Q3：反事實驗證是什么，如何檢驗模擬器質量？

A：反事實驗證是一種評估方法，讓僅在"好"智能體對話上訓練的模擬器去與從未見過的"壞"智能體交互，測試其能否真實地表現(xiàn)出沮喪感上升和滿意度下降。若模擬器能做出與真實人類相似的適應性反應，說明它真正學會了人類行為，而非僅僅記憶訓練數(shù)據(jù)中的模式。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.