国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

LLM Embedding Model算力瓶頸從Query側(cè)移走,LightRetriever來(lái)了

0
分享至



近年來(lái),大模型文本檢索(LLM-based Text Retrieval)技術(shù)發(fā)展迅猛,SOTA 的 LLM Embedding Model 參數(shù)量普遍在 7B 以上,相關(guān)性搜索性能提升的同時(shí),部署成本也大幅增長(zhǎng)

眾所周知,LLM Embedding Model 是一種對(duì)稱式雙塔結(jié)構(gòu),Query 和 Doc 側(cè)常共享同一個(gè)完整的 LLM。但一個(gè)長(zhǎng)期被忽視的問(wèn)題是:線上推理中,查詢端(Query)真的需要和文檔端(Document)一樣 “重” 的大模型嗎?在我們最新的研究論文 LightRetriever 中,文章給出了一個(gè)明確、激進(jìn)、但被大量實(shí)驗(yàn)證實(shí)可行的答案:不需要

LightRetriever 設(shè)計(jì)了一種極致非對(duì)稱式結(jié)構(gòu)的 LLM Embedding Model—— Doc 側(cè)使用完整 LLM 建模,但Query 側(cè)最多僅用一層 Embedding Lookup。極致化降低了 Query 側(cè)推理負(fù)擔(dān),也能做好大模型文本搜索。對(duì)比 Query-Doc 均用完整 LLM 的標(biāo)準(zhǔn)設(shè)計(jì),LightRetriever 讓 Query 側(cè)的推理速度提升了千倍以上、端到端 QPS 提升 10 倍,同時(shí) BeIR、CMTEB Retreival 等測(cè)試集上的中英文檢索性能也能維持 95% 左右

文章由中科院信工所 & 瀾舟科技共同完成,已接收于國(guó)際計(jì)算機(jī)頂級(jí)會(huì)議 ICLR 2026。ICLR(International Conference on Learning Representations)是機(jī)器學(xué)習(xí)與表示學(xué)習(xí)領(lǐng)域的國(guó)際頂級(jí)會(huì)議之一,與 NeurIPS、ICML 并列為人工智能方向最具影響力的學(xué)術(shù)會(huì)議。本次 ICLR 2026 共有接近 19000 篇有效投稿,接收率約為 28%。



  • 論文標(biāo)題:LightRetriever: A LLM-based Text Retrieval Architecture with Extremely Faster Query Inference
  • 論文鏈接:https://arxiv.org/abs/2505.12260

LightRetriever:極致非對(duì)稱的 LLM Embedding Model

LightRetriever 的核心思想非常明確:將深度建模的主要計(jì)算負(fù)擔(dān)徹底轉(zhuǎn)移到 Doc 側(cè),Query 側(cè)只保留必要、可緩存的表征能力。LightRetriever 為稠密稀疏檢索兩大檢索范式,分別設(shè)計(jì)了極致非對(duì)稱的建模方法。



圖。在稠密 / 稀疏檢索中,對(duì)稱式 LLM Embedding Model 使用了 1) 標(biāo)準(zhǔn)的 Full-sized Query Inference,查詢側(cè)推理負(fù)擔(dān)很重;2) LightRetriever 大幅降低了查詢推理成本,查詢側(cè)負(fù)載降低至不超過(guò)一層 Embedding Layer Lookup。

稠密檢索(Dense Retreival)訓(xùn)練中,Doc 側(cè)保持建模方式不變,LightRetriever 詞袋化了 Query 側(cè)建模:完整的 LLM 接收 “指令 + 單個(gè) Query Token” 作為輸入,先建模 Token Embedding,再求平均獲取 Query 句向量,并通過(guò)對(duì)比學(xué)習(xí)獲得 Prompted Token Embedding。



不同之處在于,這些 Token Embedding 在訓(xùn)練完成后,可以被整體緩存為一個(gè)詞表級(jí) Embedding 矩陣。在線推理時(shí),Query 句向量的推理僅需一次簡(jiǎn)單的 Token Embedding 查表 + 求均值,不再涉及任何 LLM 推理。由于 Query 側(cè)在訓(xùn)練階段仍需要完整 LLM 建模,稠密向量訓(xùn)練遵循 “訓(xùn)練全量 + 推理輕量” 的思想。后面的消融實(shí)驗(yàn)證明,“訓(xùn)練全量” 這種配置不可忽略。



圖. LightRetriever 的稠密檢索設(shè)計(jì)遵守 “訓(xùn)練全量 + 推理輕量” 的思想,通過(guò)詞袋化 Query 側(cè)建模,打破上下文依賴,使得 Query 側(cè)向量推理具備可緩存(Cacheable)的特性。僅需一次緩存,就可以無(wú) LLM 部署 Query 推理服務(wù)。

稀疏檢索(Sparse Retrieval)中,LightRetriever 將 Query 側(cè)進(jìn)一步被簡(jiǎn)化為詞表空間 T 的 “Token ID -> 個(gè)數(shù)” 的詞頻映射,完全移除了可學(xué)習(xí)的模型參數(shù)。



同樣通過(guò)端到端對(duì)比學(xué)習(xí),通過(guò) Doc 側(cè)的 LLM,學(xué)習(xí)類 SPLADE 方法的 TF-based (Term Frequency-based)稀疏向量。



圖. LightRetriever 的稀疏檢索設(shè)計(jì)更加極致,Query 側(cè)僅依靠詞袋化的統(tǒng)計(jì)方法建模詞頻特征,來(lái)實(shí)現(xiàn)無(wú) LLM 高效化線上推理。

極端輕量化的查詢,并沒(méi)有帶來(lái)災(zāi)難性的性能代價(jià)

直覺(jué)上,移除 Query 側(cè)的深度上下文建模會(huì)顯著損害檢索效果。然而,大規(guī)模實(shí)驗(yàn)結(jié)果給出了一個(gè)出乎意料的結(jié)論:

在 BeIR(英文)與 CMTEB-Retrieval(中文)等多任務(wù)文本檢索基準(zhǔn)上,相對(duì)完整的對(duì)稱式 LLM Embedding,LightRetriever 的 nDCG@10 排序指標(biāo)只下降1–5 pp,平均性能保持率約為95%。更重要的是,該方法的性能水平大幅超過(guò)傳統(tǒng)稀疏方法(BM25、SPLADE)以及多種輕量化或蒸餾檢索模型,并逼近了類似開(kāi)源訓(xùn)練語(yǔ)料的配置下,LLM2Vec、E5-Mistral 等經(jīng)典的 LLM Embedding 方法。

這表明:在絕大多數(shù)相關(guān)性導(dǎo)向的檢索任務(wù)中,Query 側(cè)并不需要完整的深度 Token 交互,也能夠匹配 Doc 側(cè)所學(xué)習(xí)到的語(yǔ)義結(jié)構(gòu)。



表. BeIR / CMTEB-Retrieval 主實(shí)驗(yàn)結(jié)果,包含經(jīng)典 Embedding Model Baseline、對(duì)稱式 Full LLM Retriever 與 LightRetriever 的檢索效果。

文章對(duì)比了 LightRetriever 在不同任務(wù)中的細(xì)粒度性能表現(xiàn)。以 BeIR 為例,LightRetriever 在大多數(shù)常規(guī)的相關(guān)性檢索任務(wù)中性能表現(xiàn)十分優(yōu)異,是全對(duì)稱式結(jié)構(gòu)的 93% 以上;在 Domain-specific QA、Entity Retrieval、Citation Prediction 等更具挑戰(zhàn)性的 OOD 任務(wù)中,性能維持在全對(duì)稱式結(jié)構(gòu)的 87%~89%。雖然相對(duì)性能略有下降,這些任務(wù)性能的絕對(duì)數(shù)值仍然具備較強(qiáng)的競(jìng)爭(zhēng)力。



表。在 BeIR 的不同任務(wù)中,LightRetriever 的性能表現(xiàn)及相對(duì)變化(Retention)。

查詢服務(wù)速度大幅提升

LightRetriever 的 Query 輕量化設(shè)計(jì),為查詢推理效率帶來(lái)了數(shù)量級(jí)的提升

在 MSMARCO 檢索場(chǎng)景下對(duì) 64k 查詢進(jìn)行檢索,完整的 Llama-8B 查詢編碼需要超過(guò)100 秒;而 LightRetriever 的查詢編碼時(shí)間僅為0.04 秒,對(duì)應(yīng)超過(guò) 1000×的編碼加速。即便考慮 Faiss 與 Lucene 的檢索時(shí)間,端到端吞吐仍然獲得了10× 以上的 QPS 提升。文章還嘗試了一個(gè)經(jīng)典的 Transformers Layer 裁剪 Baseline:在 Query 側(cè)只用 Llama-8b 的第一層 Transformers Layer 用于訓(xùn)練和推理。然而,這個(gè)設(shè)置的檢索性能和 QPS 均不如 LightRetriever,因?yàn)橛?xùn)練時(shí) Query 側(cè)沒(méi)有完整的 LLM 建模。這證明了文章中 “訓(xùn)練全量 + 推理輕量” 的設(shè)計(jì)的合理性。



表。查詢編碼時(shí)間 / 端到端 QPS 對(duì)比

為什么這種 “訓(xùn)練全量 + 推理輕量” 是必要的,而不是偶然有效?

在 LightRetriever 的稠密檢索中,Query 側(cè)在訓(xùn)練時(shí)使用全量(Full)建模、推理時(shí)轉(zhuǎn)化為 Embedding Layer(Emb)高效化推理。為了驗(yàn)證這種設(shè)計(jì)的合理性,文章進(jìn)行了以下兩組消融實(shí)驗(yàn):

A1) Doc 側(cè)在推理時(shí)也使用 Embedding Layer。

A2) Query 側(cè)在訓(xùn)練時(shí)直接用 Embedding Layer。

兩者均會(huì)引起性能的大幅下降。這說(shuō)明:在大模型文本檢索中,移除深度建模并非偶然設(shè)計(jì)。

消融實(shí)驗(yàn)一(A1)證明了:Doc 側(cè)始終需要完整建模,而 Query 側(cè)可通過(guò)詞袋化方法做到近似建模。

消融實(shí)驗(yàn)二(A1)證明了:LightRetriever 的關(guān)鍵不在于 “減少建?!保谟?strong>將建模負(fù)載卸載至不同階段—— 在訓(xùn)練階段與 Doc 側(cè)充分建模,在推理階段最大化復(fù)用可緩存的 Query 詞向量,即 “訓(xùn)練全量 + 推理輕量”。

從這一角度看,LightRetriever 并不是一次針對(duì)模型結(jié)構(gòu)的微調(diào),而是對(duì) LLM 雙塔模型計(jì)算范式的重新審視。



表。對(duì)稱性消融實(shí)驗(yàn)。A1) Doc 側(cè)推理時(shí)也進(jìn)行了詞袋輕量化;A2) Query 側(cè)訓(xùn)練時(shí)直接使用了 Embedding 詞袋。兩者效果均顯著下降。

結(jié)語(yǔ):當(dāng) Query 側(cè)部署不再是負(fù)擔(dān),LLM 檢索才真正具備可擴(kuò)展性

LightRetriever 表明,高質(zhì)量的 LLM Embedding Model 并不必然意味著高昂的在線推理成本。通過(guò)明確區(qū)分 Query 與 Doc 在檢索流程中的角色,并有意識(shí)地打破對(duì)稱建模這一長(zhǎng)期默認(rèn)的設(shè)計(jì)假設(shè),檢索系統(tǒng)可以在維持效果的前提下,獲得數(shù)量級(jí)的效率提升。

對(duì)于面向真實(shí)應(yīng)用場(chǎng)景的檢索系統(tǒng)、RAG 框架與在線搜索服務(wù)而言,這種查詢輕量化的建模思路,或許比單純追求更大的模型規(guī)模更具應(yīng)用價(jià)值。

作者簡(jiǎn)介

文章第一作者為中國(guó)科學(xué)院信息工程研究所博士研究生馬廣遠(yuǎn),研究方向?yàn)榇竽P托畔z索,導(dǎo)師是虎嵩林研究員。本文在微軟亞研院前副院長(zhǎng)、現(xiàn)瀾舟科技 CEO 周明博士和虎嵩林研究員的共同指導(dǎo)下完成。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
伊朗最高領(lǐng)袖哈梅內(nèi)伊遇襲身亡,特朗普警告轟炸行動(dòng)暫不會(huì)停!

伊朗最高領(lǐng)袖哈梅內(nèi)伊遇襲身亡,特朗普警告轟炸行動(dòng)暫不會(huì)停!

財(cái)聯(lián)社
2026-03-01 10:14:07
學(xué)費(fèi)太貴!一家長(zhǎng)哭訴繳費(fèi)11000多,網(wǎng)友:上私立高中就不要抱怨

學(xué)費(fèi)太貴!一家長(zhǎng)哭訴繳費(fèi)11000多,網(wǎng)友:上私立高中就不要抱怨

火山詩(shī)話
2026-03-01 12:06:34
伊朗發(fā)動(dòng)大規(guī)模襲擊:已襲擊27個(gè)美軍基地和以軍總司令部等地;伊方公布導(dǎo)彈擊中以軍總參謀部圖

伊朗發(fā)動(dòng)大規(guī)模襲擊:已襲擊27個(gè)美軍基地和以軍總司令部等地;伊方公布導(dǎo)彈擊中以軍總參謀部圖

極目新聞
2026-03-01 13:09:32
中國(guó)男籃半場(chǎng)落后中國(guó)臺(tái)北1分!趙繼偉2記三分,余嘉豪9分5籃板

中國(guó)男籃半場(chǎng)落后中國(guó)臺(tái)北1分!趙繼偉2記三分,余嘉豪9分5籃板

多特體育說(shuō)
2026-03-01 16:46:59
暴雪藍(lán)色預(yù)警:山西、河北、山東、河南等地部分地區(qū)有暴雪

暴雪藍(lán)色預(yù)警:山西、河北、山東、河南等地部分地區(qū)有暴雪

界面新聞
2026-03-01 10:11:27
扛不住了,江蘇某大型建設(shè)集團(tuán)全員息崗!

扛不住了,江蘇某大型建設(shè)集團(tuán)全員息崗!

黯泉
2026-02-28 22:39:41
國(guó)防部直接把話挑明了,家里有滿18歲男青年必須辦的就是兵役登記

國(guó)防部直接把話挑明了,家里有滿18歲男青年必須辦的就是兵役登記

南權(quán)先生
2026-02-12 15:38:28
哈梅內(nèi)伊身亡細(xì)節(jié)公開(kāi)!美以對(duì)伊朗發(fā)動(dòng)“斬首式”打擊,沖突走向難料

哈梅內(nèi)伊身亡細(xì)節(jié)公開(kāi)!美以對(duì)伊朗發(fā)動(dòng)“斬首式”打擊,沖突走向難料

上觀新聞
2026-03-01 11:17:06
云淡風(fēng)輕!網(wǎng)傳特朗普指揮襲擊伊朗前幾分鐘,還在家中參加派對(duì)

云淡風(fēng)輕!網(wǎng)傳特朗普指揮襲擊伊朗前幾分鐘,還在家中參加派對(duì)

小蘿卜絲
2026-03-01 13:10:35
哈梅內(nèi)伊全家死傷慘重!30枚炸彈炸出三個(gè)巨大地洞:一定藏有內(nèi)奸

哈梅內(nèi)伊全家死傷慘重!30枚炸彈炸出三個(gè)巨大地洞:一定藏有內(nèi)奸

諾諾談史
2026-03-01 11:21:42
小鎮(zhèn)唯一外賣員輕松月入過(guò)萬(wàn),既是騎手也是站長(zhǎng),從不用跟人搶單

小鎮(zhèn)唯一外賣員輕松月入過(guò)萬(wàn),既是騎手也是站長(zhǎng),從不用跟人搶單

十九妹
2026-03-01 00:16:04
再年輕也沒(méi)用!22歲健身博主胡洪盛去世,死因曝光,曾減重90斤

再年輕也沒(méi)用!22歲健身博主胡洪盛去世,死因曝光,曾減重90斤

青梅侃史啊
2026-02-27 23:44:02
特朗普沒(méi)想到:哈梅內(nèi)伊雖然死了,但臨終前的一項(xiàng)安排會(huì)這么厲害

特朗普沒(méi)想到:哈梅內(nèi)伊雖然死了,但臨終前的一項(xiàng)安排會(huì)這么厲害

健身狂人
2026-03-01 13:53:47
伊朗緊急致電沙特、阿聯(lián)酋、卡塔爾、科威特、巴林、伊拉克

伊朗緊急致電沙特、阿聯(lián)酋、卡塔爾、科威特、巴林、伊拉克

財(cái)聯(lián)社
2026-02-28 21:40:35
美國(guó)CIA只用不到100萬(wàn)美元,就將伊朗的國(guó)運(yùn)改寫(xiě)了足足70多年

美國(guó)CIA只用不到100萬(wàn)美元,就將伊朗的國(guó)運(yùn)改寫(xiě)了足足70多年

爆角追蹤
2026-03-01 14:57:47
哈梅內(nèi)伊,突然“回歸天國(guó)”

哈梅內(nèi)伊,突然“回歸天國(guó)”

中國(guó)新聞周刊
2026-03-01 12:28:08
哈梅內(nèi)伊死了!伊朗迎來(lái)轉(zhuǎn)折,如何影響烏戰(zhàn)?

哈梅內(nèi)伊死了!伊朗迎來(lái)轉(zhuǎn)折,如何影響烏戰(zhàn)?

書(shū)生論劍
2026-03-01 14:20:39
哈梅內(nèi)伊身亡,布達(dá)諾夫:俄羅斯會(huì)接受美國(guó)為烏克蘭提供的安全保證 | 狼叔看世界

哈梅內(nèi)伊身亡,布達(dá)諾夫:俄羅斯會(huì)接受美國(guó)為烏克蘭提供的安全保證 | 狼叔看世界

狼叔看世界
2026-03-01 11:40:52
1971年伊朗花20億干這么愚蠢的事情,最終成為最昂貴的葬禮

1971年伊朗花20億干這么愚蠢的事情,最終成為最昂貴的葬禮

爆角追蹤
2026-03-01 15:28:53
伊朗足協(xié)主席親承:世界杯或棄賽!亞洲2隊(duì)按規(guī)將遞補(bǔ),國(guó)足無(wú)緣

伊朗足協(xié)主席親承:世界杯或棄賽!亞洲2隊(duì)按規(guī)將遞補(bǔ),國(guó)足無(wú)緣

我愛(ài)英超
2026-03-01 06:49:59
2026-03-01 17:39:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12382文章數(shù) 142573關(guān)注度
往期回顧 全部

科技要聞

小米超跑概念車全球首秀!殺入頂豪俱樂(lè)部

頭條要聞

哈梅內(nèi)伊"回歸天國(guó)" 美以如何確認(rèn)其行蹤引發(fā)內(nèi)鬼猜測(cè)

頭條要聞

哈梅內(nèi)伊"回歸天國(guó)" 美以如何確認(rèn)其行蹤引發(fā)內(nèi)鬼猜測(cè)

體育要聞

火箭輸給熱火:烏度卡又輸斯波教練

娛樂(lè)要聞

《江山為聘》:吳謹(jǐn)言陳哲遠(yuǎn)燃炸朝堂

財(cái)經(jīng)要聞

中東局勢(shì)升級(jí) 如何影響A股、黃金和原油

汽車要聞

理想汽車2月交付26421輛 歷史累計(jì)交付超159萬(wàn)輛

態(tài)度原創(chuàng)

房產(chǎn)
家居
教育
藝術(shù)
軍事航空

房產(chǎn)要聞

濱江九小也來(lái)了!集齊海僑北+哈羅、寰島...江東教育要炸了!

家居要聞

素色肌理 品意式格調(diào)

教育要聞

“蘿卜達(dá)到這個(gè)程度也認(rèn)了!”湖南高校招聘鋼琴教師,演都不演了

藝術(shù)要聞

2025第四屆“精神·圖式”——中國(guó)寫(xiě)意油畫(huà)雙年展 | 入選油畫(huà)選刊

軍事要聞

美國(guó)以色列聯(lián)合襲擊伊朗 實(shí)時(shí)戰(zhàn)況

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版