生成式推理再排序，可能會是LLM4RecSys的新突破口嗎？

2026-04-08 11:52:53　來源: 機器之心Pro

河北舉報

分享至

大模型（LLM）的世界知識和推理能力是實現(xiàn)下一代推薦系統(tǒng)，即基于大模型的推薦系統(tǒng)（LLM4Recsys）的重要基石。來自meta ai的研究者們嘗試將推理模型引入再排序階段，推薦系統(tǒng)的最后一環(huán)。

推薦系統(tǒng)需要推理模型嗎？

深度學(xué)習(xí)成為推薦系統(tǒng)的標(biāo)準(zhǔn)范式已經(jīng)有十年左右的歷史。RNN/Transformer/GNN等模型在用戶交互數(shù)據(jù)上的性能已經(jīng)被開發(fā)得非常接近飽和。正如近些年大語言模型，尤其是推理模型在通用任務(wù)上的優(yōu)異性能所揭示得，讓推薦系統(tǒng)先思考再做出決定或許可以再次突破現(xiàn)有框架的性能上限；同時，還能為推薦的結(jié)果提供一定的可解釋性。

論文通過監(jiān)督微調(diào)（SFT）和強化學(xué)習(xí)（RL）來賦予通用推理模型在序列推薦任務(wù)上的推理能力。提出的訓(xùn)練策略最終超過了LLM4Recsys標(biāo)桿，OneRec-Think；提升了約2.4%Recall@5和約1.3%NDCG@5。

●論文標(biāo)題：

Generative Reasoning Re-ranker

●論文地址：

https://arxiv.org/pdf/2602.07774

中期訓(xùn)練，內(nèi)化物品的語意ID

語意ID（semantic ID，SID）已經(jīng)成為基于序列模型的推薦系統(tǒng)的標(biāo)準(zhǔn)技術(shù)之一，它的核心想法是通過多層次的聚類來賦予物品從粗到細(xì)粒度的標(biāo)簽。常用的模型一般有Residual-Quantized Variational Autoencoder（RQ-VAE）和RQ-Kmeans；這篇論文使用的是RQ-VAE，并且基于常規(guī)的對比學(xué)習(xí)損失函數(shù)。同時，為了防止碼本坍縮，即有多個物品會被同時映射到一個SID的情況，本文采用了成熟的處理方案，用RQ-Kmeans先做初始化，結(jié)合EMA平滑更新字典，重置死碼本，加入多樣性損失函數(shù)，并且對最后一至兩位SID賦予隨機整數(shù)。

本文的中期訓(xùn)練采用的策略和OneRec-Think保持一致，將生成的SID混入自然語言組成的物品描述、物品預(yù)測等一系列任務(wù)中，去最小化next token prediction loss以優(yōu)化SID的embedding來內(nèi)化物品的本身語意。

推理路徑的生成

推理路徑（Reasoning trace）的生成是本文的核心技術(shù)之一。預(yù)訓(xùn)練的推理模型并不具有（很強的）對物品序列的推理和解釋能力，尤其是考慮到在現(xiàn)實場景中需要實際部署時受限于延遲限制，LLM的體量有限，例如僅僅能支持最大8B。

論文的核心想法是將大體量的LLM（比如32B模型）的推理能力蒸餾給小體量的LLM：即大LLM產(chǎn)生高質(zhì)量的推理路徑，再讓小LLM去學(xué)習(xí)以增強其在推薦場景下的推理能力。目標(biāo)采樣（target sampling）和拒絕采樣（reject sampling）兩種技術(shù)被使用了：

目標(biāo)采樣的核心想法就是把交互歷史和下一個真實交互物品的信息都交給LLM以生成解釋。該解釋就被作為reasoning trace。

拒絕采樣則是只將交互歷史提供給LLM以預(yù)測下一個交互的物品以及生成解釋。一旦預(yù)測的結(jié)果和數(shù)據(jù)集的標(biāo)準(zhǔn)答案（ground truth）不一致，則繼續(xù)重復(fù)推理直到答對或者達到設(shè)定的最多重復(fù)推理次數(shù)。

這兩種推理路徑的生成方式各有優(yōu)劣：

目標(biāo)采樣對每一個樣本只需要推理一次，但是LLM可能會“牽強附會”，做“馬后炮”式的解釋。
拒絕采樣生成的reasoning trace一般質(zhì)量更高，因為錯誤的reasoning trace很可能沒法引導(dǎo)出正確的答案，而采樣過程又會一直持續(xù)到得到正確的答案為止。缺點也很顯然，對單一樣本需要多次推理，尤其是一些難的樣本。

推理賦能的再排序階段

開頭提過，論文重點關(guān)注再排序（re-ranking）階段。該階段在常規(guī)業(yè)界推薦漏斗中位于最后一環(huán)，以檢索（retrieval）和排序（ranking）階段的輸出作為輸入。作為學(xué)術(shù)研究，為了保持整個pipeline簡潔，論文將LLM本身預(yù)先作為retriever，輸入交互歷史，預(yù)測下一個最有可能的物品，采用beam search生成排序過的候選列表。再將該候選列表和交互歷史一同輸入LLM去做重排序。

為了賦于小體量LLM（比如8B）完整的貼合推薦場景的推理能力，上一步生成的推理路徑先通過SFT手把手教給模型，這一步可以保證LLM的推理能力的下限。

為了進一步提高模型的推理能力，強化學(xué)習(xí)配合推薦場景設(shè)計的reward在本文中被使用。在再排序場景下，顯然，目標(biāo)物品的排序被模型提升的越多，模型的表現(xiàn)越好；這就是排序獎勵：

它測量的是經(jīng)過模型重排序以后目標(biāo)物品的排位變化。

另一種常見的獎勵則是格式獎勵，即LLM的輸出還是保持著reasoning trace加最終答案，即排序過的列表，的理想格式。然而，簡單地將格式獎勵和任務(wù)相關(guān)的排序獎勵加和成最終獎勵在再排序任務(wù)中不可行，原因是預(yù)排序的候選列表是作為模型輸入的，模型可以通過完全不改變候選列表來放棄排序獎勵，而單純hack格式獎勵?；诖耍罱K的格式獎勵被設(shè)計成只有排序獎勵為正的時候才會被考慮。該獎勵被嵌入在DAPO優(yōu)化框架中去更新LLM的參數(shù)。

重排序的提升空間

論文的最重要實驗結(jié)果披露出，重排序階段引入推理能力，尤其是通過強化學(xué)習(xí)增強，可以進一步提升性能上限。具體實驗對比了（1）該模型的預(yù)排序結(jié)果（Pre-rank），（2）僅依靠SFT訓(xùn)練過得排序結(jié)果，和（3）強化學(xué)習(xí)進一步增強過的排序結(jié)果：

有一些有趣的發(fā)現(xiàn)：

SFT可以給模型一定的推理能力，但是單單依靠SFT可能會傷害模型最終的準(zhǔn)確度。
沒有SFT直接通過強化學(xué)習(xí)（RL-zeroshot）并不能直接帶來顯著性能提升。
拒絕采樣相比目標(biāo)采樣能獲得更高質(zhì)量的推理路徑。

下一步？

這篇論文的有趣之處在于，它不僅僅提供了~2%的Recall性能提升，而是提供了一種新的范式：模型不再是去單純擬合交互的概率分布，而是去擬合推理路徑和交互的聯(lián)合分布。

同時也不可否認(rèn)的是，重排序階段是應(yīng)用推理模型的好場所，因為該階段剩下的候選物品是整個推薦漏斗中最少的了。模型在給予候選集的情況下逐一比較、推理，符合人類的思維流程。

那么，在檢索和排序階段，候選集大小成千上萬的情況下，如何有效率地進行超大規(guī)模的候選集篩選？如何把海量的候選集有效率地塞入推理模型有限的輸入窗口？如何控制昂貴的推理成本？如何滿足用戶體驗所需要的超低時限？此外，現(xiàn)有策略也依賴拒絕采樣生成的高質(zhì)量推理路徑，這在候選集超大的情況下所需要的重采樣次數(shù)將完全不可接受，樣本的效率將成為訓(xùn)練成敗的關(guān)鍵因素。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.