国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

生成式推理再排序,可能會是LLM4RecSys的新突破口嗎?

0
分享至



大模型(LLM)的世界知識和推理能力是實現(xiàn)下一代推薦系統(tǒng),即基于大模型的推薦系統(tǒng)(LLM4Recsys)的重要基石。來自meta ai的研究者們嘗試將推理模型引入再排序階段,推薦系統(tǒng)的最后一環(huán)。

推薦系統(tǒng)需要推理模型嗎?

深度學(xué)習(xí)成為推薦系統(tǒng)的標(biāo)準(zhǔn)范式已經(jīng)有十年左右的歷史。RNN/Transformer/GNN等模型在用戶交互數(shù)據(jù)上的性能已經(jīng)被開發(fā)得非常接近飽和。正如近些年大語言模型,尤其是推理模型在通用任務(wù)上的優(yōu)異性能所揭示得,讓推薦系統(tǒng)先思考再做出決定或許可以再次突破現(xiàn)有框架的性能上限;同時,還能為推薦的結(jié)果提供一定的可解釋性。

論文通過監(jiān)督微調(diào)(SFT)和強化學(xué)習(xí)(RL)來賦予通用推理模型在序列推薦任務(wù)上的推理能力。提出的訓(xùn)練策略最終超過了LLM4Recsys標(biāo)桿,OneRec-Think;提升了約2.4%Recall@5和約1.3%NDCG@5。





●論文標(biāo)題:

Generative Reasoning Re-ranker

●論文地址:

https://arxiv.org/pdf/2602.07774

中期訓(xùn)練,內(nèi)化物品的語意ID

語意ID(semantic ID,SID)已經(jīng)成為基于序列模型的推薦系統(tǒng)的標(biāo)準(zhǔn)技術(shù)之一,它的核心想法是通過多層次的聚類來賦予物品從粗到細(xì)粒度的標(biāo)簽。常用的模型一般有Residual-Quantized Variational Autoencoder(RQ-VAE)和RQ-Kmeans;這篇論文使用的是RQ-VAE,并且基于常規(guī)的對比學(xué)習(xí)損失函數(shù)。同時,為了防止碼本坍縮,即有多個物品會被同時映射到一個SID的情況,本文采用了成熟的處理方案,用RQ-Kmeans先做初始化,結(jié)合EMA平滑更新字典,重置死碼本,加入多樣性損失函數(shù),并且對最后一至兩位SID賦予隨機整數(shù)。

本文的中期訓(xùn)練采用的策略和OneRec-Think保持一致,將生成的SID混入自然語言組成的物品描述、物品預(yù)測等一系列任務(wù)中,去最小化next token prediction loss以優(yōu)化SID的embedding來內(nèi)化物品的本身語意。

推理路徑的生成

推理路徑(Reasoning trace)的生成是本文的核心技術(shù)之一。預(yù)訓(xùn)練的推理模型并不具有(很強的)對物品序列的推理和解釋能力,尤其是考慮到在現(xiàn)實場景中需要實際部署時受限于延遲限制,LLM的體量有限,例如僅僅能支持最大8B。

論文的核心想法是將大體量的LLM(比如32B模型)的推理能力蒸餾給小體量的LLM:即大LLM產(chǎn)生高質(zhì)量的推理路徑,再讓小LLM去學(xué)習(xí)以增強其在推薦場景下的推理能力。目標(biāo)采樣(target sampling)和拒絕采樣(reject sampling)兩種技術(shù)被使用了:



目標(biāo)采樣的核心想法就是把交互歷史和下一個真實交互物品的信息都交給LLM以生成解釋。該解釋就被作為reasoning trace。



拒絕采樣則是只將交互歷史提供給LLM以預(yù)測下一個交互的物品以及生成解釋。一旦預(yù)測的結(jié)果和數(shù)據(jù)集的標(biāo)準(zhǔn)答案(ground truth)不一致,則繼續(xù)重復(fù)推理直到答對或者達到設(shè)定的最多重復(fù)推理次數(shù)。

這兩種推理路徑的生成方式各有優(yōu)劣:

  • 目標(biāo)采樣對每一個樣本只需要推理一次,但是LLM可能會“牽強附會”,做“馬后炮”式的解釋。
  • 拒絕采樣生成的reasoning trace一般質(zhì)量更高,因為錯誤的reasoning trace很可能沒法引導(dǎo)出正確的答案,而采樣過程又會一直持續(xù)到得到正確的答案為止。缺點也很顯然,對單一樣本需要多次推理,尤其是一些難的樣本。

推理賦能的再排序階段

開頭提過,論文重點關(guān)注再排序(re-ranking)階段。該階段在常規(guī)業(yè)界推薦漏斗中位于最后一環(huán),以檢索(retrieval)和排序(ranking)階段的輸出作為輸入。作為學(xué)術(shù)研究,為了保持整個pipeline簡潔,論文將LLM本身預(yù)先作為retriever,輸入交互歷史,預(yù)測下一個最有可能的物品,采用beam search生成排序過的候選列表。再將該候選列表和交互歷史一同輸入LLM去做重排序。

為了賦于小體量LLM(比如8B)完整的貼合推薦場景的推理能力,上一步生成的推理路徑先通過SFT手把手教給模型,這一步可以保證LLM的推理能力的下限。



為了進一步提高模型的推理能力,強化學(xué)習(xí)配合推薦場景設(shè)計的reward在本文中被使用。在再排序場景下,顯然,目標(biāo)物品的排序被模型提升的越多,模型的表現(xiàn)越好;這就是排序獎勵



它測量的是經(jīng)過模型重排序以后目標(biāo)物品的排位變化。

另一種常見的獎勵則是格式獎勵,即LLM的輸出還是保持著reasoning trace加最終答案,即排序過的列表,的理想格式。然而,簡單地將格式獎勵和任務(wù)相關(guān)的排序獎勵加和成最終獎勵在再排序任務(wù)中不可行,原因是預(yù)排序的候選列表是作為模型輸入的,模型可以通過完全不改變候選列表來放棄排序獎勵,而單純hack格式獎勵?;诖耍罱K的格式獎勵被設(shè)計成只有排序獎勵為正的時候才會被考慮。該獎勵被嵌入在DAPO優(yōu)化框架中去更新LLM的參數(shù)。



重排序的提升空間

論文的最重要實驗結(jié)果披露出,重排序階段引入推理能力,尤其是通過強化學(xué)習(xí)增強,可以進一步提升性能上限。具體實驗對比了(1)該模型的預(yù)排序結(jié)果(Pre-rank),(2)僅依靠SFT訓(xùn)練過得排序結(jié)果,和(3)強化學(xué)習(xí)進一步增強過的排序結(jié)果:



有一些有趣的發(fā)現(xiàn):

  • SFT可以給模型一定的推理能力,但是單單依靠SFT可能會傷害模型最終的準(zhǔn)確度。
  • 沒有SFT直接通過強化學(xué)習(xí)(RL-zeroshot)并不能直接帶來顯著性能提升。
  • 拒絕采樣相比目標(biāo)采樣能獲得更高質(zhì)量的推理路徑。

下一步?

這篇論文的有趣之處在于,它不僅僅提供了~2%的Recall性能提升,而是提供了一種新的范式:模型不再是去單純擬合交互的概率分布,而是去擬合推理路徑和交互的聯(lián)合分布。

同時也不可否認(rèn)的是,重排序階段是應(yīng)用推理模型的好場所,因為該階段剩下的候選物品是整個推薦漏斗中最少的了。模型在給予候選集的情況下逐一比較、推理,符合人類的思維流程。

那么,在檢索和排序階段,候選集大小成千上萬的情況下,如何有效率地進行超大規(guī)模的候選集篩選?如何把海量的候選集有效率地塞入推理模型有限的輸入窗口?如何控制昂貴的推理成本?如何滿足用戶體驗所需要的超低時限?此外,現(xiàn)有策略也依賴拒絕采樣生成的高質(zhì)量推理路徑,這在候選集超大的情況下所需要的重采樣次數(shù)將完全不可接受,樣本的效率將成為訓(xùn)練成敗的關(guān)鍵因素。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
前阿里財務(wù)總監(jiān)爆火言論:普通家庭買車是最蠢的動作!評論炸鍋

前阿里財務(wù)總監(jiān)爆火言論:普通家庭買車是最蠢的動作!評論炸鍋

許三歲
2026-04-10 09:31:44
官宣!馬刺傷情報告出爐,掘金有意挑火箭,湖人干就完了

官宣!馬刺傷情報告出爐,掘金有意挑火箭,湖人干就完了

世界體育圈
2026-04-12 11:59:28
1954年,甘祖昌得知被評為準(zhǔn)軍級:我有意見,要向中央討要個說法

1954年,甘祖昌得知被評為準(zhǔn)軍級:我有意見,要向中央討要個說法

史之銘
2026-04-12 17:55:26
狂轟11:2,溫瑞博3:1淘汰日乒世界冠軍,球迷怒噴王皓撞南墻不拐

狂轟11:2,溫瑞博3:1淘汰日乒世界冠軍,球迷怒噴王皓撞南墻不拐

觀察鑒娛
2026-04-12 10:28:21
中年男人最大的悲哀是什么?網(wǎng)友:我,中年女人,也對啥都沒興趣

中年男人最大的悲哀是什么?網(wǎng)友:我,中年女人,也對啥都沒興趣

帶你感受人間冷暖
2026-04-10 01:21:44
美伊談判破裂的三大癥結(jié):霍爾木茲、濃縮鈾和百億凍結(jié)資金

美伊談判破裂的三大癥結(jié):霍爾木茲、濃縮鈾和百億凍結(jié)資金

華爾街見聞官方
2026-04-12 16:55:53
“留學(xué)回來,15次相親失敗”,杭州女孩被拆穿:連繁殖能力都沒有

“留學(xué)回來,15次相親失敗”,杭州女孩被拆穿:連繁殖能力都沒有

皓皓情感說
2026-04-10 22:54:59
廣東戰(zhàn)廣廈12人名單,黃明依入圍,杜鋒變陣,徐杰替補三將關(guān)鍵

廣東戰(zhàn)廣廈12人名單,黃明依入圍,杜鋒變陣,徐杰替補三將關(guān)鍵

佳佳說奇事故事
2026-04-12 16:58:26
教育部通知!9月入學(xué)迎來顛覆性改革,孩子上學(xué)不用再拼家底了

教育部通知!9月入學(xué)迎來顛覆性改革,孩子上學(xué)不用再拼家底了

今朝牛馬
2026-04-10 22:35:42
熱議!雖然把醫(yī)生投訴了,但醫(yī)生醫(yī)術(shù)好,還想找你看病!醫(yī)生能拒診嗎?

熱議!雖然把醫(yī)生投訴了,但醫(yī)生醫(yī)術(shù)好,還想找你看??!醫(yī)生能拒診嗎?

華醫(yī)網(wǎng)
2026-04-12 05:41:34
廣東莫氏雞煲老板誠實經(jīng)營:雞源已斷卻贏得食客信賴

廣東莫氏雞煲老板誠實經(jīng)營:雞源已斷卻贏得食客信賴

馬蹄燙嘴說美食
2026-04-12 12:04:59
中美印負(fù)債金額差距斷崖:美36萬億,印160萬億,中國有多少?

中美印負(fù)債金額差距斷崖:美36萬億,印160萬億,中國有多少?

夢史
2026-04-12 04:48:05
政變只是一個開始,伊朗要變天了,中國最擔(dān)心的事情,恐將發(fā)生

政變只是一個開始,伊朗要變天了,中國最擔(dān)心的事情,恐將發(fā)生

舊鐵皮往南開
2026-04-12 12:31:02
亞錦賽戰(zhàn)報:韓國3金1銀收官!國羽鎖定1金2銀只待石宇奇

亞錦賽戰(zhàn)報:韓國3金1銀收官!國羽鎖定1金2銀只待石宇奇

老汆古裝影視解說
2026-04-12 17:11:36
機關(guān)事業(yè)單位職工未來要調(diào)整為“一周4天工作制”,你贊同嗎?

機關(guān)事業(yè)單位職工未來要調(diào)整為“一周4天工作制”,你贊同嗎?

細(xì)說職場
2026-04-12 09:39:35
農(nóng)村酒席嚴(yán)查!2026新規(guī)落地,這3種酒堅決不能辦,違者直接處罰

農(nóng)村酒席嚴(yán)查!2026新規(guī)落地,這3種酒堅決不能辦,違者直接處罰

復(fù)轉(zhuǎn)這些年
2026-04-08 13:04:32
2換1神級交易!狂攬31助攻5失誤!詹姆斯等來頂級控衛(wèi)

2換1神級交易!狂攬31助攻5失誤!詹姆斯等來頂級控衛(wèi)

籃球教學(xué)論壇
2026-04-12 13:27:10
蘭州擒獲殺人惡魔:八名特警破門而入,搏斗十分鐘,情節(jié)堪比武俠劇

蘭州擒獲殺人惡魔:八名特警破門而入,搏斗十分鐘,情節(jié)堪比武俠劇

隴史薈王文元
2026-04-11 07:34:39
全程眼突鼓腮,看了觀眾對孫儷的評價,才知張藝謀這句話的含金量

全程眼突鼓腮,看了觀眾對孫儷的評價,才知張藝謀這句話的含金量

陳述影視
2026-04-04 17:53:34
一場3-1,讓國乒收獲第2冠!太原賽12日賽程出爐:溫瑞博沖雙冠王

一場3-1,讓國乒收獲第2冠!太原賽12日賽程出爐:溫瑞博沖雙冠王

侃球熊弟
2026-04-11 20:26:26
2026-04-12 18:35:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12729文章數(shù) 142623關(guān)注度
往期回顧 全部

科技要聞

理想稱遭惡意拉踩,東風(fēng)日產(chǎn):尊重同行

頭條要聞

伊朗不接受美"紅線" 消息人士:美在談判決策上犯了錯

頭條要聞

伊朗不接受美"紅線" 消息人士:美在談判決策上犯了錯

體育要聞

五大聯(lián)賽首冠出爐?拜仁或提前4輪衛(wèi)冕德甲

娛樂要聞

46歲趙達官宣結(jié)婚!曾與殷桃談婚論嫁

財經(jīng)要聞

美伊談判破裂的三大癥結(jié)

汽車要聞

煥新極氪007/007GT上市 限時19.39萬起

態(tài)度原創(chuàng)

房產(chǎn)
家居
旅游
數(shù)碼
公開課

房產(chǎn)要聞

土地供應(yīng)突然暴跌!2026??跇鞘?,格局大變!

家居要聞

復(fù)古風(fēng)格 自然簡約

旅游要聞

春染大別山,有空來安徽六安看看!

數(shù)碼要聞

破壁機哪個牌子好?安全無毒材質(zhì)是重點,揭秘TOP10家用哪種好

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版