国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

快手廣告邁入生成式推薦時代!GR4AD:Token到Revenue全鏈路重構(gòu)

0
分享至



機器之心發(fā)布

當推薦系統(tǒng)遇上大模型范式,廣告變現(xiàn)的天花板被再次打破。快手提出 GR4AD,作為國內(nèi)生成式推薦在大規(guī)模廣告場景下的首次全量落地,實現(xiàn)廣告收入提升 4.2%,服務(wù) 4 億 + 用戶。



論文鏈接:https://arxiv.org/pdf/2602.22732

一、引言:"推薦該怎么做" 的新范式

過去十年,深度學(xué)習(xí)推薦模型(DLRM)幾乎統(tǒng)治了整個工業(yè)界的推薦系統(tǒng) —— 從召回到排序,從特征交叉到序列建模,它們構(gòu)建了一套成熟而穩(wěn)固的技術(shù)棧。然而,當大語言模型(LLM)的浪潮席卷而來,一個大膽的問題被拋了出來:

能不能像生成文本一樣,直接 "生成" 推薦結(jié)果?

這就是生成式推薦(Generative Recommendation)的核心思想。以 TIGER、OneRec 為代表的一系列工作,已經(jīng)在自然推薦場景中驗證了這一范式的可行性。但當戰(zhàn)場轉(zhuǎn)移到大規(guī)模廣告系統(tǒng)—— 這個對時延、收益、商業(yè)價值都有極致要求的領(lǐng)域 —— 事情變得遠沒有那么直接。

快手的這篇論文,正是對這一問題交出的一份沉甸甸的工業(yè)級答卷。他們提出了GR4AD(Generative Recommendation for ADvertising),一個橫跨表征、學(xué)習(xí)、服務(wù)三大層面協(xié)同設(shè)計的生成式廣告推薦系統(tǒng),并已全量部署于快手廣告平臺,服務(wù)超過 4 億用戶

二、問題與挑戰(zhàn):廣告場景下的三大挑戰(zhàn)

論文開篇就旗幟鮮明地指出:直接把 LLM 那套訓(xùn)練和推理范式搬到廣告推薦上,是行不通的。 具體來說,廣告場景存在三個獨有的核心挑戰(zhàn):

挑戰(zhàn)一:廣告物料的 Token 化 —— 多元信息的統(tǒng)一編碼

廣告不是普通的短視頻。一條廣告背后融合了視頻創(chuàng)意、商品詳情、廣告主 B 端元數(shù)據(jù)等多模態(tài)、多粒度信息。更棘手的是,平臺還提供了轉(zhuǎn)化類型、廣告賬戶等關(guān)鍵業(yè)務(wù)信號,這些信號具備強烈的商業(yè)價值但幾乎沒有 "語義內(nèi)容" 可言。如何為廣告物料打造一套既能捕獲語義內(nèi)容、又能編碼業(yè)務(wù)信息的統(tǒng)一 Token 體系

挑戰(zhàn)二:學(xué)習(xí)范式 —— 面向商業(yè)價值的列表級優(yōu)化

廣告推薦的優(yōu)化目標不是 "猜中用戶會點哪個" 那么簡單,而是要在eCPM 排序、NDCG 等列表級指標下最大化商業(yè)價值?,F(xiàn)有的生成式推薦方法大多沿用 LLM 的分階段訓(xùn)練方式,不完全適配大規(guī)模推薦場景的持續(xù)在線學(xué)習(xí),且缺乏面向排序的、列表級的學(xué)習(xí)設(shè)計。

挑戰(zhàn)三:實時服務(wù) —— 多候選生成的算力困局

不同于 LLM 聊天場景中 "解碼一條回復(fù)、容忍較長延遲" 的模式,廣告系統(tǒng)需要在極高 QPS 和極低延遲(<100ms)下,通過 Beam Search同時生成大量高質(zhì)量候選。這是一個與 LLM 不同的推理優(yōu)化問題。

三、方法:全鏈路協(xié)同設(shè)計的破局之道

GR4AD 的方法論可以用一句話概括:"表征 - 學(xué)習(xí) - 推理" 三位一體的推薦原生設(shè)計。 下面逐一拆解。



3.1 統(tǒng)一廣告語義 ID(UA-SID):給廣告一個 "身份證"

核心思想:用一個端到端微調(diào)的多模態(tài)大模型(MLLM)為每條廣告生成統(tǒng)一嵌入,再通過精心設(shè)計的量化方法將其編碼為離散 Semantic ID。



第一步:統(tǒng)一廣告嵌入(UAE)

  • 指令微調(diào)(Instruction Tuning):針對快手廣告的 6 種典型形態(tài)(直播、商品、達人等),設(shè)計了 6 套提示模板,引導(dǎo) MLLM 從不同視角理解廣告內(nèi)容。比如對直播類廣告,引導(dǎo)模型分析主播畫像和地域特征;對外部投放廣告,則聚焦產(chǎn)品行業(yè)和品牌信息。
  • 共現(xiàn)學(xué)習(xí)(Co-occurrence Learning):用戶行為中的共現(xiàn)關(guān)系蘊含了豐富的協(xié)同信號。論文使用 Swing 方法估計物料共現(xiàn)強度,并采用 InfoNCE 對比學(xué)習(xí)目標將其注入表征:



第二步:MGMR RQ-Kmeans 量化

這是 UA-SID 的 "殺手锏"。論文提出了多粒度 - 多分辨率(Multi-Granularity-Multi-Resolution)的 RQ-Kmeans 量化策略:

  • 多分辨率(MR):低層級使用更大的碼本捕獲主導(dǎo)語義因子,高層級用較小碼本建模低熵殘差,有效提升碼本利用率。
  • 多粒度(MG):在最后一層用基于非語義特征的哈希映射替代向量量化 —— 將轉(zhuǎn)化類型、賬戶 ID 等業(yè)務(wù)信號直接編碼進 SID,一舉解決 "相同內(nèi)容、不同投放策略" 導(dǎo)致的 SID 碰撞問題。

最終每個廣告物料被映射為一個離散 UA-SID 序列:



3.2 LazyAR:懶惰解碼器的大智慧

生成式推薦在推理時需要通過 Beam Search 生成多個候選 SID 序列。標準自回歸解碼要求每一層都依賴上一步的輸出,這在 Beam 數(shù)很大時造成了巨大的計算瓶頸。

論文的一個關(guān)鍵觀察是:第一層 SID 最難學(xué)、損失最大,但它的 Beam 只有 1(從 BOS 開始);后續(xù)層級更容易,Beam 卻呈指數(shù)級膨脹。 大部分計算被浪費在了 "簡單的事情" 上。



LazyAR 的核心操作: 將對上一步 token 的依賴 "延遲" 到中間某一層(第 K 層)注入:

  • 前 K 層(并行層):不依賴上一步 token,僅基于位置編碼和上下文 X 進行計算,所有層級和所有 Beam 可以并行計算并共享
  • 后 L-K 層(自回歸層):注入上一步 SID 嵌入后進行標準自回歸解碼。

為什么 LazyAR 有效?

1. 第一層 SID 的解碼過程完全不受影響(從 BOS 經(jīng)過全部 L 層)。

2. 前 K 層在潛空間中進行推理,能編碼關(guān)于候選 token 的有用信號。

3. 引入 MTP 輔助損失,強制前 K 層即使沒有上一步 token 也能學(xué)到足夠信息。



論文特別指出:這個設(shè)計是推薦原生的,不適用于標準 LLM 解碼 —— 因為 LLM 解碼通常不用 Beam Search,且后續(xù) token 的預(yù)測難度不一定下降。

3.3 價值感知的監(jiān)督學(xué)習(xí)(VSL)

在廣告場景中,不同樣本的商業(yè)價值天差地別。VSL 圍繞 "價值感知" 做了三件事:

SID + eCPM 聯(lián)合預(yù)測: 在標準 SID 交叉熵損失之外,將 eCPM 離散化為桶并追加為額外的預(yù)測 token:



價值感知樣本加權(quán): 每個樣本的權(quán)重 ,高廣告價值用戶和深度交互行為(如購買)獲得更高權(quán)重。



MTP 輔助損失: 配合 LazyAR,強制前 K 層并行解碼的表征質(zhì)量。

最終 VSL 目標:



3.4 排序引導(dǎo)的強化學(xué)習(xí)(RSPO):從 "學(xué)分布" 到 "優(yōu)排序"

VSL 能擬合歷史數(shù)據(jù)分布,但它不直接優(yōu)化下游排序目標,也不支持對未知標簽分布的探索。論文因此引入了 RSPO(Ranking-Guided Softmax Preference Optimization),一個面向列表級 NDCG 優(yōu)化的 RL 算法

RSPO 的核心 loss





幾個精妙的工程設(shè)計:



  • VSL 與 RSPO 的統(tǒng)一在線訓(xùn)練:通過樣本級對齊分數(shù)動態(tài)調(diào)整兩個目標的權(quán)重 —— 模型排序與獎勵排序偏差大時加重 VSL(學(xué)好基礎(chǔ)分布),偏差小時加重 RSPO(精細化價值優(yōu)化)。

四、線上部署:工業(yè)級系統(tǒng)的全閉環(huán)設(shè)計

GR4AD(0.16B 參數(shù))已全量部署于快手廣告系統(tǒng),實現(xiàn)了一套 “獎勵估計 → 在線學(xué)習(xí) → 實時索引 → 實時服務(wù)” 的完整閉環(huán)。



4.1 四大核心模塊

  • 獎勵系統(tǒng)(Reward System):訓(xùn)練獨立的 Reward Model 對 GR4AD 生成的候選集進行 eCPM 評分,在放松延遲約束的環(huán)境下進行更大 Beam 的探索,為 RL 訓(xùn)練提供高質(zhì)量信號。
  • 在線學(xué)習(xí)模塊:實時構(gòu)建 VSL 和 RL 兩種訓(xùn)練信號,持續(xù)進行 mini-batch 更新,實時推送參數(shù)到推理服務(wù)。
  • 實時索引模塊:用 SID 替代傳統(tǒng)嵌入索引。新物料到達時只需計算 UA-SID 并更新雙向索引(UA-SID ? Item ID),秒級生效,大幅改善冷啟動覆蓋和時效性。
  • 實時服務(wù)引擎:處理用戶請求并返回排序廣告列表。

4.2 推理效率優(yōu)化:把算力用在刀刃上

動態(tài) Beam 服務(wù)(DBS)是本文的又一亮點,包含兩個子機制:

  • 動態(tài) Beam 寬度(DBW):用遞增的 Beam 調(diào)度(如 128→256→512)替代固定寬度(512→512→512),在不損失最終候選質(zhì)量的前提下大幅削減中間層計算。
  • 流量感知自適應(yīng) Beam 搜索(TABS):根據(jù)實時 QPS 自動調(diào)整 Beam 規(guī)模 ——低峰期加大 Beam 提升推薦質(zhì)量,高峰期收縮 Beam 保障延遲和吞吐

此外還有一系列工程優(yōu)化:Beam 共享 KV Cache:將 Beam 從 batch 維度轉(zhuǎn)移至序列維度進行組織,實現(xiàn) KV Cache 的共享,顯著提升內(nèi)存訪問效率(+212.5% QPS)、TopK 預(yù)裁剪:先并行選取每個 Beam 的 K 個候選結(jié)果,再對聚合候選集進行全局 Top-K 選擇,在有效縮減搜索空間的同時保證準確性(+184.8% QPS)、FP8 低精度推理(+50.3% QPS)、短 TTL 結(jié)果緩存(+27.8% QPS)。

最終效果:<100ms 延遲,500+ QPS/L20 GPU

五、實驗效果:廣告收入和推理性能的雙贏

5.1 總體性能與消融實驗



幾個關(guān)鍵發(fā)現(xiàn):

  • RSPO 是所有優(yōu)化中增益最大的單一組件,顯著優(yōu)于 DPO 和 GRPO,驗證了列表級 RL 在廣告場景的不可替代性。
  • LazyAR 以極微小的精度代價換來了吞吐量翻倍,是實際部署的關(guān)鍵使能技術(shù),優(yōu)于 DeepSeek-MTP。
  • DBS 在不損失收益的前提下進一步提升了效率,TABS 機制在低峰期還能反向提升收入。

5.2 Scaling Law



模型規(guī)模方向:從 0.03B 到 0.32B,收入提升從 + 2.13% 單調(diào)增長到 + 4.43%,訓(xùn)練損失也持續(xù)下降。生成式廣告推薦的 Scaling Law 是成立的

推理規(guī)模方向:Beam 寬度從 128 增加到 1024,收入從 + 2.33% 提升到 + 4.21%。這意味著更強的推理時搜索能進一步釋放模型潛力—— 這與當前 LLM 領(lǐng)域 Test-time Scaling 的趨勢遙相呼應(yīng)。

5.3 UA-SID 質(zhì)量



在嵌入質(zhì)量評估(photo-to-photo recall)中,經(jīng)過指令微調(diào)和共現(xiàn)學(xué)習(xí)的 UAE 達到了 R@1=0.896,遠超基線 QARM(0.541)和原始 Qwen3-VL-7B(0.769)。MGMR 量化將 SID 碰撞率從 85.44% 降至 18.26%,碼本利用率提升 3 倍以上。

5.4 商業(yè)指標的全面勝利

  • 商業(yè)化廣告收入4.2%+
  • 中小廣告主投放量提升17.5%
  • 廣告轉(zhuǎn)化率提升10.17%
  • 低活用戶轉(zhuǎn)化率提升7.28%

基于內(nèi)容的 SID 帶來的更強泛化能力和更實時的索引對冷啟動物料的更好支持,實現(xiàn)了平臺、廣告主、用戶的三贏

六、總結(jié)與思考

GR4AD 這篇論文的價值,不僅在于它達成了 4.2% 的收入提升這個數(shù)字,更在于它系統(tǒng)性地回答了一個關(guān)鍵問題:生成式推薦在廣告這個最 "硬核" 的工業(yè)場景中,到底應(yīng)該怎么做?

它的答案是:不要照搬 LLM,要做推薦原生的設(shè)計

  • Token 化不能只看內(nèi)容語義,要把業(yè)務(wù)信號編碼進去(UA-SID + MGMR)。
  • 訓(xùn)練不能只做單點概率生成,要做價值感知的列表級優(yōu)化(VSL + RSPO)。
  • 推理不能只套用 LLM 加速技巧,要針對 "短序列、多候選、Beam Search" 的推薦特性做專門設(shè)計(LazyAR + DBS)。
  • 系統(tǒng)不能離線批處理,要做實時索引、在線學(xué)習(xí)、閉環(huán)反饋的全鏈路打通。

GR4AD 是生成式推薦走向廣告工業(yè)核心場景的一個重要里程碑。 快手用超過 4 億用戶的真實流量驗證了這條路徑的可行性??梢灶A(yù)見,接下來會有更多廣告平臺跟進這一范式。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
看完不到15萬起的東風(fēng)日產(chǎn)NX8,感覺以前的車,賣的太貴了

看完不到15萬起的東風(fēng)日產(chǎn)NX8,感覺以前的車,賣的太貴了

汽車情報
2026-04-09 17:06:13
金元浩/徐承宰首奪亞錦賽男雙冠軍,刷新該項目21世紀最長連勝紀錄

金元浩/徐承宰首奪亞錦賽男雙冠軍,刷新該項目21世紀最長連勝紀錄

懂球帝
2026-04-12 18:54:04
逼走陳忠和,打壓劉國梁,排擠郎平,90歲“體壇惡人”如今啥情況

逼走陳忠和,打壓劉國梁,排擠郎平,90歲“體壇惡人”如今啥情況

拳擊時空
2026-04-04 06:04:24
美伊談判失敗,特朗普準備開戰(zhàn),伊朗表態(tài)太高明,中國發(fā)出警告

美伊談判失敗,特朗普準備開戰(zhàn),伊朗表態(tài)太高明,中國發(fā)出警告

天氣觀察站
2026-04-12 18:26:15
天啊!看到1987年春晚觀眾席的遲重瑞,才懂陳麗華為啥一見鐘情

天?。】吹?987年春晚觀眾席的遲重瑞,才懂陳麗華為啥一見鐘情

真的八卦小學(xué)弟
2026-04-12 00:30:12
美方提醒:若雙方談不攏,中國的武器裝備可能會去美國大門口

美方提醒:若雙方談不攏,中國的武器裝備可能會去美國大門口

地球記
2026-04-12 10:51:39
000929,申請撤銷退市風(fēng)險警示!

000929,申請撤銷退市風(fēng)險警示!

證券時報e公司
2026-04-12 17:36:43
再次提醒大家:出門在外盡量不要和陌生人發(fā)生沖突!

再次提醒大家:出門在外盡量不要和陌生人發(fā)生沖突!

夜深愛雜談
2026-04-12 17:32:43
父母悄悄存下的大額存單,正為無數(shù)家庭矛盾埋下隱形雷區(qū)

父母悄悄存下的大額存單,正為無數(shù)家庭矛盾埋下隱形雷區(qū)

復(fù)轉(zhuǎn)這些年
2026-04-10 11:00:09
東契奇最新動態(tài):在斯洛文尼亞陪女兒 下階段治療結(jié)束與湖人會合

東契奇最新動態(tài):在斯洛文尼亞陪女兒 下階段治療結(jié)束與湖人會合

羅說NBA
2026-04-12 06:24:57
紅娘離職、機構(gòu)甩鍋,上海一女子遇婚介“優(yōu)質(zhì)男”被陷網(wǎng)貸陷阱 ,背負百萬債務(wù)維權(quán)難

紅娘離職、機構(gòu)甩鍋,上海一女子遇婚介“優(yōu)質(zhì)男”被陷網(wǎng)貸陷阱 ,背負百萬債務(wù)維權(quán)難

縱相新聞
2026-04-12 16:56:04
5.99元起!小米冰淇淋正式發(fā)布

5.99元起!小米冰淇淋正式發(fā)布

安兔兔
2026-04-10 22:04:57
周末信息如何影響市場?明天是紅色星期一?還是黑色星期一?

周末信息如何影響市場?明天是紅色星期一?還是黑色星期一?

春江財富
2026-04-12 09:29:38
訂婚那天,公公突出提出彩禮66萬,但我家要出同等嫁妝,我:分手

訂婚那天,公公突出提出彩禮66萬,但我家要出同等嫁妝,我:分手

我是三月魚H
2026-04-11 17:32:34
恭喜俄羅斯和烏克蘭!打了1500天,終于打成全世界都喜歡的樣子!

恭喜俄羅斯和烏克蘭!打了1500天,終于打成全世界都喜歡的樣子!

溫讀史
2026-04-08 17:38:05
湖人掘金杠上了,疑似輪休老詹打爵士,推嚴父進坑和恩怨無關(guān)

湖人掘金杠上了,疑似輪休老詹打爵士,推嚴父進坑和恩怨無關(guān)

兵哥籃球故事
2026-04-12 15:20:08
后來,我才明白,斷聯(lián)后不刪除、不拉黑、不聯(lián)系的人,不是在等對方回頭,而是在等自己放下

后來,我才明白,斷聯(lián)后不刪除、不拉黑、不聯(lián)系的人,不是在等對方回頭,而是在等自己放下

品讀時刻
2026-04-12 09:08:19
新加坡網(wǎng)友發(fā)帖:“我接受不了自己以游客身份進入中國”。

新加坡網(wǎng)友發(fā)帖:“我接受不了自己以游客身份進入中國”。

荊楚寰宇文樞
2026-04-11 17:21:54
申花從負10到正1 只要5輪 特謝拉跟馬納法再踢下去 可能會再續(xù)

申花從負10到正1 只要5輪 特謝拉跟馬納法再踢下去 可能會再續(xù)

80后體育大蜀黍
2026-04-12 17:32:18
特朗普在匈牙利選戰(zhàn)最后時刻力挺歐爾班

特朗普在匈牙利選戰(zhàn)最后時刻力挺歐爾班

參考消息
2026-04-11 19:52:15
2026-04-12 19:36:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12729文章數(shù) 142623關(guān)注度
往期回顧 全部

科技要聞

理想稱遭惡意拉踩,東風(fēng)日產(chǎn):尊重同行

頭條要聞

女子將閨蜜6.8萬紫貂大衣粘上粘鼠板 硬扯下來還撒謊

頭條要聞

女子將閨蜜6.8萬紫貂大衣粘上粘鼠板 硬扯下來還撒謊

體育要聞

五大聯(lián)賽首冠出爐?拜仁或提前4輪衛(wèi)冕德甲

娛樂要聞

46歲趙達官宣結(jié)婚!曾與殷桃談婚論嫁

財經(jīng)要聞

美伊談判破裂的三大癥結(jié)

汽車要聞

煥新極氪007/007GT上市 限時19.39萬起

態(tài)度原創(chuàng)

家居
親子
游戲
房產(chǎn)
軍事航空

家居要聞

復(fù)古風(fēng)格 自然簡約

親子要聞

河南A媽4-09上改

突發(fā)!知名舅舅黨爆料:Xbox游戲發(fā)布會將在下周舉辦

房產(chǎn)要聞

土地供應(yīng)突然暴跌!2026??跇鞘?,格局大變!

軍事要聞

美國副總統(tǒng)萬斯:美伊談判未能達成協(xié)議

無障礙瀏覽 進入關(guān)懷版