国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Shop-R1: 給AI補(bǔ)上「內(nèi)心戲」,在RL博弈中復(fù)刻人類網(wǎng)購腦

0
分享至



某電商平臺(tái)上,一名用戶反復(fù)對(duì)比三款降噪耳機(jī)的評(píng)價(jià)、續(xù)航與材質(zhì)。這購物決策背后藏著預(yù)算、參數(shù)對(duì)比與審美偏好的博弈。但在 AI 智能體(Agent)的世界里,這種糾結(jié)往往不存在。傳統(tǒng)的 AI 購物助手更像是一個(gè)任務(wù)完成機(jī)器:接到指令,搜索,下單。他們或許能跑通流程,卻完全無法理解用戶為何在最后一刻因?yàn)橐粭l關(guān)于 “夾耳朵” 的差評(píng)而放棄支付。簡(jiǎn)而言之,傳統(tǒng)的電商 Agent 只是任務(wù)導(dǎo)向的(task-oriented),而不是模擬導(dǎo)向的(simulation-oriented)。為此,來自亞馬遜(Amazon)的研究團(tuán)隊(duì)提出了名為 Shop-R1 的訓(xùn)練框架 。



  • 論文標(biāo)題:Shop-R1: Rewarding LLMs to Simulate Human Behavior in Online Shopping via Reinforcement Learning
  • 論文地址: https://arxiv.org/abs/2507.17842
  • 項(xiàng)目主頁:https://damon-demon.github.io/shop-r1.html
  • 代碼和數(shù)據(jù):公司法務(wù)審核中... (Coming Soon!)

Shop-R1:從 “指令執(zhí)行” 到 “行為復(fù)刻”

在傳統(tǒng)的電商 AI 研究中,衡量標(biāo)準(zhǔn)往往是單一的成功率。然而,真實(shí)世界的網(wǎng)購環(huán)境是一個(gè)充滿噪聲、促銷陷阱與主觀偏好的動(dòng)態(tài)迷宮。研究團(tuán)隊(duì)觀察到,這種 “黑盒式” 的任務(wù)導(dǎo)向模型在面對(duì)復(fù)雜環(huán)境時(shí),往往會(huì)產(chǎn)生邏輯斷層:它們可能因?yàn)榕既坏木W(wǎng)頁跳轉(zhuǎn)完成了任務(wù),卻完全偏離了真實(shí)人類的消費(fèi)習(xí)慣。

Shop-R1 的核心野心,是實(shí)現(xiàn)從 “任務(wù)完成” 到 “行為模擬” 的范式轉(zhuǎn)移。對(duì)于模擬導(dǎo)向的購物 Agent,它的終極挑戰(zhàn)在于:它需實(shí)時(shí)解構(gòu)歷史瀏覽鏈路與當(dāng)前的交互細(xì)節(jié),從而在動(dòng)態(tài)的上千種可能的操作中精準(zhǔn)預(yù)測(cè)用戶在當(dāng)前頁面維度的下一步操作。為了復(fù)刻決策過程,Shop-R1 將復(fù)雜的網(wǎng)購過程中的行為歸納為三類動(dòng)作:

  • 打字輸入(Type)
  • 點(diǎn)擊(Click)
  • 終結(jié)(Terminate)



模型以用戶過往瀏覽頁面及對(duì)應(yīng)操作作為輸入,并以結(jié)構(gòu)化的 JSON 形式輸出對(duì)用戶下一步動(dòng)作(Action)的預(yù)測(cè)以及其背后的推理邏輯(Rationale)。



Shop-R1 采用雙階段訓(xùn)練范式:首先通過監(jiān)督微調(diào)(SFT)實(shí)現(xiàn)行為基準(zhǔn)的 “冷啟動(dòng)”;隨后在強(qiáng)化學(xué)習(xí)(RL)階段,利用多層級(jí)獎(jiǎng)勵(lì)機(jī)制(Hierarchical Rewards)驅(qū)動(dòng)深度迭代,旨在提升模型在復(fù)雜動(dòng)態(tài)環(huán)境下的邏輯推理與泛化表現(xiàn)。



第一階段:SFT 冷啟動(dòng)

這種監(jiān)督式初始化(supervised initialization)在訓(xùn)練流程的早期階段發(fā)揮了關(guān)鍵作用,它幫助模型盡早內(nèi)化上下文(context)、推理過程(rationale)與動(dòng)作(action)之間的結(jié)構(gòu)性依賴關(guān)系。通過在一開始就讓模型建立這些模式,進(jìn)而顯著提升了后續(xù)強(qiáng)化學(xué)習(xí)(RL)階段的穩(wěn)定性和樣本效率。更重要的是,這種方法為什么樣的長(zhǎng)文本輸出才算高質(zhì)量提供了明確的信號(hào),例如正確命名被點(diǎn)擊的按鈕或給出有意義的搜索查詢。而這些能力如果僅依賴強(qiáng)化學(xué)習(xí)往往難以獲得,尤其是在獎(jiǎng)勵(lì)信號(hào)稀疏且延遲的情況下。

第二階段:多層級(jí)獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)

為了在人類行為模擬(human behavior simulation)場(chǎng)景中更好地引導(dǎo)策略優(yōu)化,每一步?jīng)Q策被拆分為兩個(gè)子任務(wù):rationale 生成和 action 預(yù)測(cè)。針對(duì)每個(gè)子任務(wù),分別設(shè)計(jì)了專門的獎(jiǎng)勵(lì)函數(shù),以提升模型的對(duì)齊性(alignment)和可解釋性(interpretability)。

1)二值格式獎(jiǎng)勵(lì)(Binary Format Reward)

為了保證能夠方便且正確地從模型輸出中解析出預(yù)測(cè)的 rationale 和 action,引入了二值格式獎(jiǎng)勵(lì),鼓勵(lì)模型以結(jié)構(gòu)化 JSON 格式生成響應(yīng)。該格式遵循一個(gè)字典結(jié)構(gòu),包含兩個(gè)鍵:rationale 和 action。

2)推理獎(jiǎng)勵(lì) (Rational Reward)

對(duì)于 rationale 生成,采用 self-certainty score,用于衡量模型對(duì)其生成 rationale 的置信程度。具體而言,我們計(jì)算模型在詞表上的預(yù)測(cè)分布與均勻分布之間的 KL 散度,并在整個(gè)輸出序列上取平均。

3)層級(jí)式動(dòng)作獎(jiǎng)勵(lì) (Hierarchical Action Reward)

對(duì)于 action 預(yù)測(cè),我們用一種層級(jí)式獎(jiǎng)勵(lì)機(jī)制(hierarchical reward scheme)替代了原本脆弱的二值獎(jiǎng)勵(lì)信號(hào)。該機(jī)制同時(shí)對(duì)粗粒度的動(dòng)作類型細(xì)粒度的子動(dòng)作給予獎(jiǎng)勵(lì),從而穩(wěn)定訓(xùn)練過程,并抑制退化的reward hacking策略。這種層級(jí)獎(jiǎng)勵(lì)機(jī)制使得獎(jiǎng)勵(lì)空間更加稠密(densify the reward landscape):它擴(kuò)大了能夠獲得正收益的軌跡集合,使智能體能夠擺脫在策略搜索過程中常見的“無獎(jiǎng)勵(lì)平臺(tái)(no-reward plateau)”,同時(shí)也使得 reward hacking 的收益變得不再劃算。

具體而言,一旦高層動(dòng)作類型預(yù)測(cè)正確,無論該動(dòng)作是簡(jiǎn)單還是復(fù)雜,都可以獲得相同的粗粒度獎(jiǎng)勵(lì);而只有較復(fù)雜的動(dòng)作,才可以通過其長(zhǎng)文本子組件(sub-actions)進(jìn)一步獲得額外獎(jiǎng)勵(lì)。因此,簡(jiǎn)單地反復(fù)執(zhí)行 “terminate” 這一簡(jiǎn)單動(dòng)作將不再具有競(jìng)爭(zhēng)性的回報(bào),而完整執(zhí)行 (“click”, “type_and_submit”) 等動(dòng)作序列則成為收益最高的策略。比如,“click” 動(dòng)作包含一個(gè)子動(dòng)作,用于指定需要點(diǎn)擊的按鈕名稱;只要子組件預(yù)測(cè)正確,模型即可獲得部分獎(jiǎng)勵(lì)。類似地,“type_and_submit” 也包含子動(dòng)作,用于提供需要輸入并提交的文本內(nèi)容。相比之下,“terminate” 不包含任何子動(dòng)作,因此僅在動(dòng)作類型層級(jí)進(jìn)行評(píng)分。

在評(píng)估預(yù)測(cè)準(zhǔn)確度時(shí),我們采用任務(wù)特定的指標(biāo):

  • 對(duì)于離散的動(dòng)作類型,使用exact match(完全匹配)作為判定標(biāo)準(zhǔn);
  • 對(duì)于自由文本形式的子動(dòng)作,則使用ROUGE-L進(jìn)行評(píng)估。
  • 對(duì)于文本型子動(dòng)作(例如按鈕標(biāo)簽或搜索查詢),當(dāng)其與真實(shí)答案之間的 ROUGE-L 相似度超過預(yù)設(shè)閾值(例如 0.75)時(shí),將根據(jù)相似度大小給予相應(yīng)的軟獎(jiǎng)勵(lì)(soft reward)。

4)難度感知獎(jiǎng)勵(lì)縮放因子(Difficulty-Aware Reward Scaling, DARS)

由于長(zhǎng)文本子動(dòng)作預(yù)測(cè)難度較高 (現(xiàn)代網(wǎng)頁可能包含數(shù)千個(gè)候選元素)我們進(jìn)一步引入了DARS,對(duì)正確預(yù)測(cè)這些組件的獎(jiǎng)勵(lì)進(jìn)行放大。該機(jī)制可以有效防止一種常見的 reward hacking 行為:智能體不斷選擇簡(jiǎn)單的 “terminate” 動(dòng)作來獲取容易的獎(jiǎng)勵(lì)。



實(shí)驗(yàn)結(jié)果

如表格所示,直接使用 zero-shot 提示幾乎無法完成該任務(wù),Qwen-2.5-3B-Instruct 的 exact-action 準(zhǔn)確率僅 0.32%,說明長(zhǎng)序列網(wǎng)頁行為無法僅靠通用指令能力恢復(fù)。僅使用 稀疏二值獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)同樣效果有限,從零訓(xùn)練僅達(dá)到 1.01% exact-match 和 6.17% type accuracy。

相比之下,一輪 監(jiān)督微調(diào)(SFT)可以顯著提升性能(16.76% exact-match,22.25% type accuracy),表明密集的示例軌跡對(duì)于學(xué)習(xí) context → rationale → action 的結(jié)構(gòu)非常關(guān)鍵。但在 SFT 之后繼續(xù)使用二值獎(jiǎng)勵(lì) RL 提升有限。而 Shop-R1 通過結(jié)合層級(jí)獎(jiǎng)勵(lì)、self-certainty 信號(hào)、格式獎(jiǎng)勵(lì)以及難度感知獎(jiǎng)勵(lì)縮放,將 exact-action accuracy 提升至 27.72%(相對(duì) 僅 SFT 提升 65%),同時(shí)顯著提升動(dòng)作類型指標(biāo),表明模型不僅更容易識(shí)別正確意圖,也能更準(zhǔn)確生成按鈕名稱或搜索查詢等長(zhǎng)文本參數(shù)。



未來展望:視覺感官與性格派 AI

Shop-R1 的出現(xiàn)僅僅揭開了電商 Agent 進(jìn)化史的一角,未來的突破點(diǎn)將集中在感官增強(qiáng)與個(gè)性化模擬上。

引入視覺語言模型(VLM)[1] 將是下一場(chǎng)進(jìn)化的重頭戲?,F(xiàn)有的 Agent 高度依賴 HTML 代碼,但人類網(wǎng)購時(shí),往往會(huì)被一張富有氛圍感的頭圖擊中,或通過買家秀實(shí)拍圖的細(xì)節(jié)來判斷質(zhì)感。賦予 AI “看” 的能力,意味著它能捕捉到那些無法被文本描述的隱含情緒。

更具顛覆性的構(gòu)想在于“性格化” (Character Injection)[2]。通過調(diào)整強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)權(quán)重,研究人員可以賦予 AI 不同的消費(fèi)畫像:

  • “極致性價(jià)比黨”:會(huì)自動(dòng)過濾所有冗余配件,在預(yù)算邊緣反復(fù)橫跳以尋找最優(yōu)解。
  • “精致參數(shù)控”:會(huì)花費(fèi) 80% 的權(quán)重分析硬件指標(biāo)與差評(píng),而非廣告推薦。
  • “顏值正義者”:視覺美感將成為其最高決策優(yōu)先級(jí)。

這種多樣化的智能體矩陣,將使 AI 能夠復(fù)刻出真實(shí)世界中 “千人千面” 的消費(fèi)心理。

結(jié)語:電商的 “購物模擬器”

Shop-R1 的落地價(jià)值,遠(yuǎn)不止于幫用戶省下對(duì)比時(shí)間。對(duì)于電商巨頭而言,它更像是一個(gè)低成本、高保真的 “虛擬 A/B 測(cè)試” 環(huán)境。在傳統(tǒng)的運(yùn)營(yíng)邏輯中,測(cè)試一個(gè)新的推薦算法或頁面布局,往往需要真實(shí)的流量和真金白銀的補(bǔ)貼。而擁有了 Shop-R1 這樣具備 “人類邏輯” 的模擬導(dǎo)向智能體,平臺(tái)可以在實(shí)驗(yàn)室環(huán)境中投喂數(shù)萬個(gè) “AI 購物者”,觀察它們?cè)诿鎸?duì)價(jià)格波動(dòng)、界面改版時(shí)的實(shí)時(shí)反饋。這不再是一個(gè)簡(jiǎn)單的對(duì)話框,而是一個(gè)深刻理解人類欲望與權(quán)衡的購物模擬器。當(dāng) AI 開始學(xué)會(huì)解構(gòu)那些復(fù)雜的瀏覽鏈路,并精準(zhǔn)預(yù)測(cè)下一秒的操作時(shí),人類與算法之間的博弈,才真正進(jìn)入了認(rèn)知的深水區(qū)。

參考文獻(xiàn):

[1] Zhang Y, Gesi J, Xue R, et al. See, Think, Act: Online Shopper Behavior Simulation with VLM Agents [J]. arXiv preprint arXiv:2510.19245, 2025.

[2] Wang Z, Lu Y, Zhang Y, et al. Customer-R1: Personalized simulation of human behaviors via RL-based LLM agent in online shopping [J]. arXiv preprint arXiv:2510.07230, 2025.

第一作者介紹:

張益萌,現(xiàn)任 Amazon Applied Scientist,研究方向?yàn)樯墒?AI、AI Agent 與多模態(tài)智能體。2025 年于 Michigan State University 獲計(jì)算機(jī)科學(xué)博士學(xué)位,曾為 OPTML 實(shí)驗(yàn)室成員,導(dǎo)師為劉思佳副教授。曾就讀于 Columbia University 與 University of Sheffield。其研究關(guān)注高效機(jī)器學(xué)習(xí)、模型魯棒性與安全,涵蓋 LLM、擴(kuò)散模型和對(duì)抗學(xué)習(xí)等領(lǐng)域,在 CVPR、NeurIPS、ICLR、ICML 等國(guó)際會(huì)議發(fā)表多篇論文。



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
遭外機(jī)雷達(dá)照射挑釁 殲-10C飛行員“奪槍反打”

遭外機(jī)雷達(dá)照射挑釁 殲-10C飛行員“奪槍反打”

環(huán)球網(wǎng)資訊
2026-03-28 11:15:53
熱火主帥斯波談慘敗騎士:哈登14次助攻教訓(xùn)我隊(duì)狂妄

熱火主帥斯波談慘敗騎士:哈登14次助攻教訓(xùn)我隊(duì)狂妄

老皢尾聲體育解說
2026-03-29 04:41:52
80年我提干營(yíng)長(zhǎng),妹妹懷孕來看望我,可首長(zhǎng)見到她卻當(dāng)場(chǎng)愣住了

80年我提干營(yíng)長(zhǎng),妹妹懷孕來看望我,可首長(zhǎng)見到她卻當(dāng)場(chǎng)愣住了

紅豆講堂
2025-03-22 10:30:08
特朗普最怕的來了,關(guān)鍵時(shí)刻,中國(guó)加入戰(zhàn)斗,商務(wù)部:對(duì)美調(diào)查

特朗普最怕的來了,關(guān)鍵時(shí)刻,中國(guó)加入戰(zhàn)斗,商務(wù)部:對(duì)美調(diào)查

無情有思ss
2026-03-29 08:15:14
朱拉尼搶奪伊朗戰(zhàn)爭(zhēng)紅利,土耳其突然宣布,要把敘利亞石油接入伊土戰(zhàn)略管道

朱拉尼搶奪伊朗戰(zhàn)爭(zhēng)紅利,土耳其突然宣布,要把敘利亞石油接入伊土戰(zhàn)略管道

楓紅染山徑
2026-03-29 08:19:48
65歲男人和37歲女人再婚,女人:他老折騰我,男人:夫妻就這樣

65歲男人和37歲女人再婚,女人:他老折騰我,男人:夫妻就這樣

惟來
2026-03-28 11:12:08
難怪醫(yī)藥股暴漲,龍頭利潤(rùn)暴漲352%,5個(gè)龍頭利潤(rùn)翻倍,17股大增

難怪醫(yī)藥股暴漲,龍頭利潤(rùn)暴漲352%,5個(gè)龍頭利潤(rùn)翻倍,17股大增

風(fēng)風(fēng)順
2026-03-28 20:35:18
山東一男嬰日夜啼哭,母親掀開被子后,將月嫂當(dāng)場(chǎng)掐死

山東一男嬰日夜啼哭,母親掀開被子后,將月嫂當(dāng)場(chǎng)掐死

罪案洞察者
2025-03-31 09:35:41
小學(xué)生入學(xué)年齡將調(diào)整?9月1日起幼兒園入學(xué)年齡有新變化

小學(xué)生入學(xué)年齡將調(diào)整?9月1日起幼兒園入學(xué)年齡有新變化

一口娛樂
2026-03-29 04:00:36
68歲陳忠和近況:四口之家很幸福,女兒系前妻生,趙蕊蕊常去探望

68歲陳忠和近況:四口之家很幸福,女兒系前妻生,趙蕊蕊常去探望

白面書誏
2026-03-21 16:13:21
美國(guó)商務(wù)部:在美國(guó)制裁下,中國(guó)休想大批量制造的AI芯片

美國(guó)商務(wù)部:在美國(guó)制裁下,中國(guó)休想大批量制造的AI芯片

顧史
2026-03-24 19:56:17
手機(jī)放床頭輻射傷身?央視實(shí)驗(yàn)給出答案:這樣放手機(jī),輻射降10倍

手機(jī)放床頭輻射傷身?央視實(shí)驗(yàn)給出答案:這樣放手機(jī),輻射降10倍

天氣觀察站
2026-03-24 19:02:53
張雪峰為什么配享太廟

張雪峰為什么配享太廟

黔有虎
2026-03-28 17:25:42
“華人神探”李昌鈺美國(guó)家中去世 四個(gè)月前回國(guó)時(shí)老態(tài)龍鐘 輪椅代步

“華人神探”李昌鈺美國(guó)家中去世 四個(gè)月前回國(guó)時(shí)老態(tài)龍鐘 輪椅代步

娛樂的硬糖吖
2026-03-28 16:49:28
一家子全是美籍,卻還在國(guó)內(nèi)“撈金”,年賺4億,賬上還存有130億

一家子全是美籍,卻還在國(guó)內(nèi)“撈金”,年賺4億,賬上還存有130億

云景侃記
2026-02-26 23:05:22
張凌赫事件持續(xù)升級(jí)!官方點(diǎn)名怒批,粉絲正面硬剛,這下恐要涼涼

張凌赫事件持續(xù)升級(jí)!官方點(diǎn)名怒批,粉絲正面硬剛,這下恐要涼涼

秋風(fēng)悲畫芯
2026-03-29 04:06:41
萬萬沒想到!不起眼的馬來西亞竟率先掀桌子,廢除對(duì)美貿(mào)易協(xié)定

萬萬沒想到!不起眼的馬來西亞竟率先掀桌子,廢除對(duì)美貿(mào)易協(xié)定

橙色書卷
2026-03-28 19:05:05
拔蘿卜帶泥!逃往美國(guó)的恒大“二把手”,鄰居卻是另一名潛逃富豪

拔蘿卜帶泥!逃往美國(guó)的恒大“二把手”,鄰居卻是另一名潛逃富豪

二大爺觀世界
2026-03-14 18:43:53
詐騙13.9億,千萬豪車,成堆金條被拍,才知王麗坤夫婦究竟多奢靡

詐騙13.9億,千萬豪車,成堆金條被拍,才知王麗坤夫婦究竟多奢靡

傲傲講歷史
2026-03-09 02:50:57
最后5米!菲律賓用仁愛礁同款戰(zhàn)艦硬剛054,中國(guó)戰(zhàn)艦喊話失效

最后5米!菲律賓用仁愛礁同款戰(zhàn)艦硬剛054,中國(guó)戰(zhàn)艦喊話失效

健身狂人
2026-03-28 20:30:43
2026-03-29 09:40:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12620文章數(shù) 142598關(guān)注度
往期回顧 全部

科技要聞

馬斯克承認(rèn)xAI"建錯(cuò)了",11位創(chuàng)始人均離職

頭條要聞

牛彈琴:特朗普親口對(duì)沙特說出傲慢的話 全世界不敢相信

頭條要聞

牛彈琴:特朗普親口對(duì)沙特說出傲慢的話 全世界不敢相信

體育要聞

全球第二大車企,也救不了這支德甲隊(duì)?

娛樂要聞

陳牧馳陳冰官宣得子 曬一家三口握拳照

財(cái)經(jīng)要聞

臥底"科技與狠活"培訓(xùn):化工調(diào)味劑泛濫

汽車要聞

嵐圖泰山X8配置曝光 四激光雷達(dá)/華為新一代座艙

態(tài)度原創(chuàng)

親子
本地
游戲
公開課
軍事航空

親子要聞

醫(yī)院設(shè)兒童智能輸液椅,看動(dòng)畫9元/小時(shí)引家長(zhǎng)不滿投訴

本地新聞

在濰坊待了三天,沒遇到一個(gè)“濰坊人”

魂師對(duì)決:王林天命+婉兒煉丹系統(tǒng)該優(yōu)先培養(yǎng)哪個(gè)?真就沒啥懸念

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美軍中東基地?fù)p失最新披露

無障礙瀏覽 進(jìn)入關(guān)懷版