国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

檢索做大,生成做輕:CMU團(tuán)隊(duì)系統(tǒng)評(píng)測(cè)RAG的語(yǔ)料與模型權(quán)衡

0
分享至



在檢索增強(qiáng)生成中,擴(kuò)大生成模型規(guī)模往往能提升準(zhǔn)確率,但也會(huì)顯著抬高推理成本與部署門檻。CMU 團(tuán)隊(duì)在固定提示模板、上下文組織方式與證據(jù)預(yù)算,并保持檢索與解碼設(shè)置不變的前提下,系統(tǒng)比較了生成模型規(guī)模與檢索語(yǔ)料規(guī)模的聯(lián)合效應(yīng),發(fā)現(xiàn)擴(kuò)充檢索語(yǔ)料能夠穩(wěn)定增強(qiáng) RAG,并在多項(xiàng)開(kāi)放域問(wèn)答基準(zhǔn)上讓小中型模型在更大語(yǔ)料下達(dá)到甚至超過(guò)更大模型在較小語(yǔ)料下的表現(xiàn),同時(shí)在更高語(yǔ)料規(guī)模處呈現(xiàn)清晰的邊際收益遞減。更進(jìn)一步,研究不僅刻畫了隨語(yǔ)料擴(kuò)容而變化的性能增益,也揭示了若干相對(duì)穩(wěn)定的不變規(guī)律。

在開(kāi)放域問(wèn)答等知識(shí)密集型任務(wù)中,檢索增強(qiáng)生成(RAG)已經(jīng)成為主流范式之一。它通過(guò)先檢索外部文檔,再讓大語(yǔ)言模型基于證據(jù)生成答案,從而緩解純參數(shù)記憶帶來(lái)的幻覺(jué)與事實(shí)錯(cuò)誤。然而,近年來(lái)提升 RAG 的常見(jiàn)路徑往往集中在擴(kuò)大生成模型規(guī)模,準(zhǔn)確率確實(shí)會(huì)上升,但推理成本與部署門檻也隨之顯著提高。對(duì)于希望在有限算力下落地的系統(tǒng)而言,一個(gè)更現(xiàn)實(shí)的問(wèn)題是:在不繼續(xù)擴(kuò)大模型參數(shù)的前提下,是否還有同樣有效的提升空間。



卡內(nèi)基梅隆大學(xué)計(jì)算機(jī)學(xué)院團(tuán)隊(duì)在最新 ECIR 接收論文中給出了一個(gè)清晰的回答。他們把關(guān)注點(diǎn)從更大的模型轉(zhuǎn)向更大的檢索語(yǔ)料,系統(tǒng)評(píng)估了語(yǔ)料規(guī)模與生成模型規(guī)模之間的替代關(guān)系,并提出了可操作的權(quán)衡框架。核心觀點(diǎn)為,擴(kuò)大檢索語(yǔ)料通??梢燥@著增強(qiáng) RAG,且在不少設(shè)置下,這種增強(qiáng)效果可以部分替代擴(kuò)大模型參數(shù)帶來(lái)的收益,但在更大語(yǔ)料規(guī)模處會(huì)出現(xiàn)邊際收益遞減。



  • 論文標(biāo)題:Less LLM, More Documents: Searching for Improved RAG
  • 論文鏈接:https://arxiv.org/pdf/2510.02657

從問(wèn)題出發(fā):RAG 的另一條擴(kuò)展軸

RAG 的效果由兩部分共同決定。檢索模塊負(fù)責(zé)把可能包含答案的證據(jù)送到模型上下文中;生成模型負(fù)責(zé)理解問(wèn)題、整合證據(jù)并形成答案。擴(kuò)大模型參數(shù)能夠提升推理與表達(dá)能力,但檢索端提供的證據(jù)質(zhì)量與覆蓋范圍,往往直接決定模型是否有機(jī)會(huì)看到答案線索。CMU 團(tuán)隊(duì)指出,檢索語(yǔ)料的規(guī)模本身就是一條獨(dú)立的擴(kuò)展軸,但長(zhǎng)期以來(lái)缺少與模型規(guī)模聯(lián)合控制變量的系統(tǒng)研究,因此語(yǔ)料擴(kuò)容能否補(bǔ)償小模型仍缺乏定量結(jié)論。

實(shí)驗(yàn)設(shè)計(jì):只讓兩個(gè)變量變化

為得到可解釋的權(quán)衡曲線,研究采用了全因子設(shè)計(jì),只讓語(yǔ)料規(guī)模與模型規(guī)模變化,其余保持一致。檢索語(yǔ)料選用大規(guī)模搜索引擎數(shù)據(jù)集 ClueWeb22-A 的英文子集,總計(jì)包含約 2.64 億真實(shí)網(wǎng)頁(yè)文檔,并將其隨機(jī)均衡切分為 12 個(gè) shard。語(yǔ)料規(guī)模用激活 shard 的數(shù)量表示,逐步從 1 個(gè) shard 擴(kuò)展到 12 個(gè) shard。檢索端使用 MiniCPM-Embedding-Light 做稠密向量編碼,后端采用 DiskANN 構(gòu)建多 shard 近鄰檢索,固定 top 文檔數(shù)、切塊與重排策略,最終向生成模型提供固定數(shù)量的 top chunk 作為 LLM 答案生成證據(jù)。

生成端選用最新 Qwen3 同一模型家族的不同尺寸,覆蓋從 0.6B 到 14B 的 Qwen3 模型,并固定提示模板與解碼設(shè)置,以確保比較只反映規(guī)模變化帶來(lái)的差異。評(píng)測(cè)任務(wù)覆蓋三個(gè)開(kāi)放域問(wèn)答基準(zhǔn):Natural Questions、TriviaQA 與 Web Questions,指標(biāo)采用最常用的 F1 與 ExactMatch。

關(guān)鍵發(fā)現(xiàn)一:

語(yǔ)料擴(kuò)容可以讓小模型追上大模型(變)

實(shí)驗(yàn)結(jié)果展示了明確的補(bǔ)償效應(yīng)。以 Natural Questions 為例,隨著語(yǔ)料從 1 個(gè) shard 擴(kuò)展到更大規(guī)模,較小模型的 EM 與 F1 持續(xù)提升,并在一定語(yǔ)料規(guī)模后達(dá)到或超過(guò)更大模型在小語(yǔ)料上的基線表現(xiàn)。研究用 n 星指標(biāo)刻畫補(bǔ)償閾值,即小模型需要多少倍語(yǔ)料才能追平大模型在 1 個(gè) shard 下的成績(jī)。在三個(gè)數(shù)據(jù)集上,這一閾值呈現(xiàn)出穩(wěn)定模式:中等規(guī)模模型之間的追平往往只需要把語(yǔ)料擴(kuò)大到 2 倍或 3 倍,而最小模型想追平下一檔模型則需要更高倍數(shù)的語(yǔ)料擴(kuò)容。



更重要的是,這種追平并非個(gè)別現(xiàn)象。研究在 TriviaQA 與 WebQuestions 上觀察到相同趨勢(shì),并給出了跨數(shù)據(jù)集的閾值表,顯示語(yǔ)料擴(kuò)容在多數(shù)設(shè)置下都能把性能缺口縮小到一個(gè)模型檔位,甚至兩個(gè)檔位。對(duì)部署而言,這意味著當(dāng)推理預(yù)算難以支撐更大參數(shù)模型時(shí),把資源投入到更大語(yǔ)料與更強(qiáng)檢索,可能是更務(wù)實(shí)的提效方向。

在增長(zhǎng)形態(tài)上,研究觀察到幾乎與模型規(guī)模無(wú)關(guān)的共同曲線。最顯著的提升發(fā)生在從無(wú)檢索到有檢索的第一步,隨后隨著語(yǔ)料繼續(xù)擴(kuò)大,收益逐步下降,并在約 5 到 6 倍語(yǔ)料規(guī)模附近出現(xiàn)飽和趨勢(shì)。這一現(xiàn)象對(duì)工程實(shí)踐具有直接意義:檢索能力的從無(wú)到有往往帶來(lái)最大增益,但在較高語(yǔ)料規(guī)模處繼續(xù)無(wú)上限擴(kuò)容并不劃算,應(yīng)該結(jié)合吞吐、延遲與存儲(chǔ)成本做更精細(xì)的預(yù)算分配。

關(guān)鍵發(fā)現(xiàn)二:

提升主要來(lái)自證據(jù)覆蓋,而非模型更會(huì)用證據(jù)(不變)

語(yǔ)料變大為什么能帶來(lái)提升?論文給出的機(jī)制解釋相對(duì)直接且符合直覺(jué)預(yù)期:語(yǔ)料擴(kuò)容提高了檢索到含答案片段的概率。當(dāng)語(yǔ)料規(guī)模較小時(shí),檢索到的片段經(jīng)常只與主題相關(guān),但不包含關(guān)鍵事實(shí);隨著語(yǔ)料擴(kuò)大,更容易檢索到明確包含答案字符串的證據(jù)片段,生成模型因此獲得更可靠的落腳點(diǎn)。

為把這種直覺(jué)量化,研究定義了 Gold Answer Coverage Rate,用于統(tǒng)計(jì)傳入生成模型的 top chunk 中至少有一個(gè)包含標(biāo)準(zhǔn)答案字符串的概率。結(jié)果顯示,覆蓋率隨語(yǔ)料規(guī)模增長(zhǎng)而單調(diào)上升,并在不同數(shù)據(jù)集上體現(xiàn)出差異性,例如 TriviaQA 的覆蓋率整體更高,反映其信息需求與網(wǎng)頁(yè)語(yǔ)料的重合度更強(qiáng)。



進(jìn)一步地,研究提出 Context Benefited Success Rate,用于衡量那些在無(wú)檢索時(shí)無(wú)法答對(duì)的問(wèn)題,在加入檢索證據(jù)后被答對(duì)的比例,并用 Utilization Ratio 將其與覆蓋率相除,以刻畫模型把可用證據(jù)轉(zhuǎn)化為正確答案的效率。實(shí)驗(yàn)顯示,Utilization Ratio 在不同語(yǔ)料規(guī)模下整體保持穩(wěn)定,且在不同模型尺寸之間差異有限。結(jié)合無(wú)檢索設(shè)置下的基線表現(xiàn)可以看到,不同大小模型的主要差別更多來(lái)自其參數(shù)中可直接調(diào)用的內(nèi)部知識(shí)儲(chǔ)備,使其在無(wú)需外部證據(jù)時(shí)也能回答一部分問(wèn)題;而對(duì)于那些無(wú)法僅憑內(nèi)部知識(shí)答對(duì)的問(wèn)題,一旦檢索端提供了包含答案線索的證據(jù),不同模型將證據(jù)轉(zhuǎn)化為正確答案的效率整體相近。因此,語(yǔ)料擴(kuò)容帶來(lái)的關(guān)鍵收益主要體現(xiàn)在提高含答案證據(jù)進(jìn)入上下文的概率,而非顯著提升模型對(duì)既有上下文的利用能力。



工程啟示:如何在預(yù)算約束下分配投入


綜合實(shí)驗(yàn)結(jié)論,論文給出了一條可執(zhí)行的系統(tǒng)設(shè)計(jì)建議。當(dāng)推理資源受限時(shí),優(yōu)先考慮擴(kuò)大檢索語(yǔ)料與提升覆蓋率,常常能讓中等規(guī)模生成模型達(dá)到接近更大模型的表現(xiàn)。相比之下,極小模型需要更激進(jìn)的語(yǔ)料擴(kuò)容才能追平下一檔,收益效率偏低;而極大模型在更大語(yǔ)料下的增益也相對(duì)有限,體現(xiàn)出利用效率并不會(huì)隨著參數(shù)規(guī)模單調(diào)上升。對(duì)系統(tǒng)優(yōu)化而言,跟蹤答案覆蓋率與利用率可以作為診斷指標(biāo),幫助判斷瓶頸更偏檢索端還是生成端,從而指導(dǎo)下一步應(yīng)該擴(kuò)語(yǔ)料、調(diào)檢索,還是換模型。

結(jié)語(yǔ)


這項(xiàng)研究把 RAG 的規(guī)模討論從單一的模型參數(shù)擴(kuò)展到語(yǔ)料與檢索能力,給出了可復(fù)現(xiàn)的控制變量實(shí)驗(yàn)與清晰的機(jī)制解釋。其結(jié)論可以概括為兩點(diǎn):擴(kuò)大語(yǔ)料通常有效,但收益存在邊際遞減;提升主要來(lái)自更高的答案證據(jù)覆蓋,而非模型利用證據(jù)能力的躍遷。在面向真實(shí)部署的 RAG 系統(tǒng)中,這提供了一條更可控、更具性價(jià)比的提升路徑。

作者簡(jiǎn)介:



本論文第一作者為卡內(nèi)基梅隆大學(xué)計(jì)算機(jī)學(xué)院語(yǔ)言技術(shù)研究所碩士研究生 Jingjie Ning,研究方向聚焦信息檢索、DeepResearch、Query 理解與強(qiáng)化、推薦系統(tǒng) Benchmark 等工作。Jingjie Ning 師從 Jamie Callan 教授,后者為卡內(nèi)基梅隆大學(xué)計(jì)算機(jī)學(xué)院語(yǔ)言技術(shù)研究所教授,曾任 SIGIR 大會(huì)主席,同時(shí)擔(dān)任系博士項(xiàng)目主任,長(zhǎng)期引領(lǐng)搜索與信息檢索領(lǐng)域研究,在學(xué)術(shù)界與工業(yè)界具有廣泛影響力。在卡內(nèi)基梅隆大學(xué)前,Jingjie 曾在騰訊任職 Senior Data Scientist。個(gè)人主頁(yè):https://ethanning.github.io

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
雙色球第26005期曬票!99倍票目標(biāo)5億巨獎(jiǎng),168元復(fù)式票追逐夢(mèng)想

雙色球第26005期曬票!99倍票目標(biāo)5億巨獎(jiǎng),168元復(fù)式票追逐夢(mèng)想

小李子體育
2026-01-11 09:13:01
一頓亂扔!11投0中,全場(chǎng)0分0板1助,媒體人:需苦練,球迷:一根筋

一頓亂扔!11投0中,全場(chǎng)0分0板1助,媒體人:需苦練,球迷:一根筋

金山話體育
2026-01-11 07:12:00
特朗普搶跑12小時(shí) 提前在社交媒體上發(fā)布官方尚未公開(kāi)的就業(yè)數(shù)據(jù)

特朗普搶跑12小時(shí) 提前在社交媒體上發(fā)布官方尚未公開(kāi)的就業(yè)數(shù)據(jù)

財(cái)聯(lián)社
2026-01-09 23:37:04
36歲便慷慨就義的瞿秋白,建國(guó)后毛主席為何會(huì)有 “以后少紀(jì)念他” 這樣的評(píng)價(jià)?

36歲便慷慨就義的瞿秋白,建國(guó)后毛主席為何會(huì)有 “以后少紀(jì)念他” 這樣的評(píng)價(jià)?

桃煙讀史
2025-12-31 21:38:26
一口氣搞懂16種酒,吹牛更顯學(xué)問(wèn)

一口氣搞懂16種酒,吹牛更顯學(xué)問(wèn)

混知
2026-01-09 12:27:20
19分大逆轉(zhuǎn),快船雙殺東部領(lǐng)頭羊,數(shù)據(jù)一覽,最大功臣不是卡子哥

19分大逆轉(zhuǎn),快船雙殺東部領(lǐng)頭羊,數(shù)據(jù)一覽,最大功臣不是卡子哥

鄒維體育
2026-01-11 11:08:47
穆里尼奧與迪巴拉還有希望,本菲卡提高報(bào)價(jià),貝西克塔斯再次拒絕

穆里尼奧與迪巴拉還有希望,本菲卡提高報(bào)價(jià),貝西克塔斯再次拒絕

穆里尼奧主義者
2026-01-11 11:42:44
別想歪,廢止《關(guān)于嚴(yán)禁賣淫嫖娼的決定》≠賣淫嫖娼合法化了

別想歪,廢止《關(guān)于嚴(yán)禁賣淫嫖娼的決定》≠賣淫嫖娼合法化了

知識(shí)圈
2026-01-09 20:01:22
我國(guó)存款最安全的3大銀行,永遠(yuǎn)都不會(huì)倒閉,你知道是哪3家嗎?

我國(guó)存款最安全的3大銀行,永遠(yuǎn)都不會(huì)倒閉,你知道是哪3家嗎?

小熊侃史
2026-01-07 11:17:59
西方越想越害怕!俄軍榛樹高超不用彈頭,170億立方米天然氣泄露

西方越想越害怕!俄軍榛樹高超不用彈頭,170億立方米天然氣泄露

松林看世界
2026-01-11 07:07:34
吃飯七分飽”錯(cuò)了?醫(yī)生建議:過(guò)了60歲,吃飯要盡量做到這5點(diǎn)

吃飯七分飽”錯(cuò)了?醫(yī)生建議:過(guò)了60歲,吃飯要盡量做到這5點(diǎn)

健康之光
2026-01-03 06:50:03
快船98-92末節(jié)大逆轉(zhuǎn)活塞,倫納德26+8,哈登19分

快船98-92末節(jié)大逆轉(zhuǎn)活塞,倫納德26+8,哈登19分

懂球帝
2026-01-11 11:35:14
11投0中砍0分0板!男籃19歲天才迷失:他還能爭(zhēng)CBA最佳新秀嗎?

11投0中砍0分0板!男籃19歲天才迷失:他還能爭(zhēng)CBA最佳新秀嗎?

籃球快餐車
2026-01-11 04:16:44
皇馬VS巴薩:法國(guó)雙后腰坐鎮(zhèn) 英格蘭中場(chǎng)天才領(lǐng)銜 貢薩洛頂替姆皇

皇馬VS巴薩:法國(guó)雙后腰坐鎮(zhèn) 英格蘭中場(chǎng)天才領(lǐng)銜 貢薩洛頂替姆皇

零度眼看球
2026-01-11 09:16:58
韓國(guó)人給得真多!阿卡表演賽2-0辛納,兩人每分鐘各賺1.8萬(wàn)歐

韓國(guó)人給得真多!阿卡表演賽2-0辛納,兩人每分鐘各賺1.8萬(wàn)歐

全景體育V
2026-01-10 18:49:37
為拍視頻滯留斑馬線跳舞,上海警方通報(bào):4人被處罰

為拍視頻滯留斑馬線跳舞,上海警方通報(bào):4人被處罰

上觀新聞
2026-01-10 16:24:10
熬出頭!年底旺到停不下,訂單不斷存款猛增生肖,快來(lái)接財(cái)接喜!

熬出頭!年底旺到停不下,訂單不斷存款猛增生肖,快來(lái)接財(cái)接喜!

毅談生肖
2026-01-11 11:27:12
沉默11天后,73歲李顯龍發(fā)聲,臺(tái)海和平至關(guān)重要,不許改變現(xiàn)狀

沉默11天后,73歲李顯龍發(fā)聲,臺(tái)海和平至關(guān)重要,不許改變現(xiàn)狀

南宮一二
2026-01-09 18:02:34
如果3年內(nèi)沒(méi)有離開(kāi)股市的打算,那就買這一種股票,賺到盆滿缽滿

如果3年內(nèi)沒(méi)有離開(kāi)股市的打算,那就買這一種股票,賺到盆滿缽滿

股經(jīng)縱橫談
2026-01-09 17:42:31
女性“最佳生育年齡”出爐,產(chǎn)科大夫:過(guò)了這個(gè)年齡就建議別生了

女性“最佳生育年齡”出爐,產(chǎn)科大夫:過(guò)了這個(gè)年齡就建議別生了

岐黃傳人孫大夫
2025-12-23 07:50:02
2026-01-11 12:04:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12088文章數(shù) 142534關(guān)注度
往期回顧 全部

科技要聞

“我們與美國(guó)的差距也許還在拉大”

頭條要聞

馬杜羅之子:馬杜羅在美監(jiān)獄說(shuō)"我們很好我們是斗士"

頭條要聞

馬杜羅之子:馬杜羅在美監(jiān)獄說(shuō)"我們很好我們是斗士"

體育要聞

詹皇曬照不滿打手沒(méi)哨 裁判報(bào)告最后兩分鐘無(wú)誤判

娛樂(lè)要聞

網(wǎng)友偶遇賈玲張小斐崇禮滑雪

財(cái)經(jīng)要聞

外賣平臺(tái)"燒錢搶存量市場(chǎng)"迎來(lái)終局?

汽車要聞

2026款宋Pro DM-i長(zhǎng)續(xù)航補(bǔ)貼后9.98萬(wàn)起

態(tài)度原創(chuàng)

健康
藝術(shù)
教育
本地
時(shí)尚

這些新療法,讓化療不再那么痛苦

藝術(shù)要聞

福布斯最佳CEO榜單!馬化騰第一!東哥呢?

教育要聞

“這就是補(bǔ)課的下場(chǎng)”,家長(zhǎng)曬學(xué)霸女兒高一成績(jī),哀嘆著

本地新聞

云游內(nèi)蒙|“包”你再來(lái)?一座在硬核里釀出詩(shī)意的城

動(dòng)物紋回潮,那很狂野了

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版