網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

為何讓AI"反復(fù)琢磨"舊數(shù)據(jù)，訓(xùn)練效率反而暴漲40%？

2026-04-22 22:45:26　來源: 科技行者

北京舉報(bào)

分享至

這項(xiàng)研究來自Meta旗下的基礎(chǔ)人工智能研究團(tuán)隊(duì)（FAIR at Meta）以及紐約大學(xué)柯朗研究所，于2026年4月9日以預(yù)印本形式發(fā)布，編號(hào)為arXiv:2604.08706v1。感興趣的讀者可以通過這個(gè)編號(hào)在arXiv平臺(tái)上查閱完整論文。

**一、一個(gè)反直覺的問題：舊菜熱一熱，味道更好？**

在飯店的廚房里，有一條鐵律：新鮮出爐的菜肴才是最好的，絕不能把隔夜的菜端給客人。這條"鐵律"在人工智能訓(xùn)練領(lǐng)域同樣盛行了很多年——研究者們普遍相信，訓(xùn)練AI必須使用"新鮮"數(shù)據(jù)，用過就扔，絕不重復(fù)使用。然而，Meta的研究團(tuán)隊(duì)偏偏要打破這個(gè)"常識(shí)"。他們用大量實(shí)驗(yàn)證明，在特定條件下，"把舊菜熱一熱"不僅不會(huì)讓味道變差，反而能節(jié)省高達(dá)40%的能源消耗，同時(shí)保持甚至略微提升最終的菜肴品質(zhì)。

這項(xiàng)研究聚焦于一個(gè)非常實(shí)際的問題：訓(xùn)練大型語言模型（也就是像ChatGPT這類能理解和生成語言的AI）的過程中，有一個(gè)步驟叫做"強(qiáng)化學(xué)習(xí)"，它讓AI通過不斷嘗試、犯錯(cuò)、修正來學(xué)習(xí)。這個(gè)過程中，AI需要持續(xù)產(chǎn)生大量的"練習(xí)素材"（專業(yè)術(shù)語叫"軌跡"或"rollout"，可以理解為AI嘗試回答問題時(shí)生成的一整段文字），然后用這些素材來調(diào)整自己的"思路"。問題在于，產(chǎn)生這些練習(xí)素材的代價(jià)極其高昂——在最頂尖的AI訓(xùn)練流水線中，光是生成這些素材就要消耗超過80%的計(jì)算資源，相當(dāng)于整個(gè)訓(xùn)練過程中八成的電費(fèi)都花在了"出題考試"上，而非"分析錯(cuò)誤、吸取教訓(xùn)"。更要命的是，當(dāng)前主流做法是每次考試結(jié)束后就把試卷直接扔掉，下次考試重新出題。這種"用完即棄"的方式，研究團(tuán)隊(duì)將其稱為"生成即丟棄"模式。

Meta研究團(tuán)隊(duì)提出的解決方案，正是本文標(biāo)題中那個(gè)聽起來簡(jiǎn)單卻蘊(yùn)含深意的技巧——經(jīng)驗(yàn)回放（Experience Replay）。簡(jiǎn)單說就是：把做過的練習(xí)題保存在一個(gè)"題庫"（專業(yè)上稱為"重放緩沖區(qū)"，replay buffer）里，下次訓(xùn)練時(shí)可以反復(fù)從題庫中抽題來用，而不必每次都重新生成新題目。這個(gè)想法在游戲AI領(lǐng)域早已是成熟技術(shù)，谷歌DeepMind著名的下棋AI就用到了類似思路，但在大語言模型的強(qiáng)化學(xué)習(xí)訓(xùn)練中，這個(gè)方法卻被長(zhǎng)期忽視。本次研究就是要系統(tǒng)地搞清楚：這個(gè)"題庫"到底應(yīng)該怎么設(shè)計(jì)？什么情況下用有益？什么情況下反而有害？

**二、題庫里的練習(xí)題：存多久才算"過期"？**

要理解這項(xiàng)研究的核心，需要先搞清楚一個(gè)關(guān)鍵矛盾。AI在強(qiáng)化學(xué)習(xí)過程中，其"思維方式"（也就是模型的參數(shù)）是在不斷進(jìn)化的。用一周前還是新手水平時(shí)生成的練習(xí)素材，來訓(xùn)練今天已經(jīng)有所進(jìn)步的AI，這些素材的參考價(jià)值必然會(huì)打折扣——就像用小學(xué)教材來輔導(dǎo)高中生做題，多少有些不合時(shí)宜。研究團(tuán)隊(duì)把這種"練習(xí)素材與當(dāng)前AI水平之間的代差"稱為"過期度"或"離策略程度"（off-policiness）。

這個(gè)"過期度"是整個(gè)研究的核心變量。過期度越高，意味著題庫里的練習(xí)素材是很久以前一個(gè)"還沒那么聰明"的AI版本生成的，用這些素材訓(xùn)練可能會(huì)引入錯(cuò)誤的信號(hào)。但如果完全不用題庫，就意味著每次訓(xùn)練都要重新生成新素材，代價(jià)極高。于是，一個(gè)三角形的權(quán)衡關(guān)系就浮現(xiàn)出來了：計(jì)算效率、數(shù)據(jù)新鮮度（低過期度），以及數(shù)據(jù)多樣性，三者之間存在此消彼長(zhǎng)的關(guān)系。

題庫的大小（保存多少題目）和題庫的使用方式（同一道題被反復(fù)做多少次）會(huì)同時(shí)影響這三個(gè)維度。題庫越大，存的題越多，題目的"過期度"平均就越高（因?yàn)樽罾系念}可能是很久以前的AI生成的），但每次訓(xùn)練時(shí)從更大的題庫里隨機(jī)抽題，不容易連續(xù)抽到同一道題，這在某種程度上增加了"局部多樣性"。反復(fù)使用同一道題的次數(shù)（研究團(tuán)隊(duì)稱之為"重放比率"，replay ratio）越高，計(jì)算效率越高，但訓(xùn)練內(nèi)容越單調(diào)，AI的學(xué)習(xí)可能受到影響。

研究團(tuán)隊(duì)還特別區(qū)分了兩種不同層次的"多樣性"。一種是"全局多樣性"，指的是在整個(gè)訓(xùn)練過程中，同一道題平均被使用了多少次。另一種是"局部多樣性"，指的是同一道題在短時(shí)間內(nèi)被連續(xù)反復(fù)使用的程度——如果連續(xù)很多步訓(xùn)練用的都是同一道題，AI就會(huì)陷入"死記硬背"的困境，學(xué)習(xí)效果極差。研究團(tuán)隊(duì)認(rèn)為，局部多樣性的損失比全局多樣性的損失危害更大。而增大題庫規(guī)模，恰好可以在不增加全局重復(fù)率的前提下，降低局部重復(fù)的概率——因?yàn)轭}庫越大，每次隨機(jī)抽題時(shí)，連續(xù)抽到同一道題的概率自然越低。

**三、一個(gè)精妙的數(shù)學(xué)框架：最優(yōu)題庫規(guī)模的計(jì)算公式**

研究團(tuán)隊(duì)不滿足于定性的直覺，他們建立了一套嚴(yán)格的數(shù)學(xué)理論來量化這個(gè)權(quán)衡關(guān)系。這套理論基于一個(gè)標(biāo)準(zhǔn)的數(shù)學(xué)框架——非凸隨機(jī)優(yōu)化（可以理解為：在一個(gè)充滿山峰和山谷的復(fù)雜地形中，尋找最低點(diǎn)的數(shù)學(xué)方法）。

在這個(gè)框架中，研究團(tuán)隊(duì)做了三個(gè)核心假設(shè)。第一個(gè)假設(shè)描述了"過期題目"對(duì)訓(xùn)練信號(hào)的影響：一道題越舊，它給出的訓(xùn)練信號(hào)偏差就越大，偏差的程度與當(dāng)前AI和生成該題時(shí)AI的"差距"成正比。第二個(gè)假設(shè)描述了訓(xùn)練信號(hào)的"噪聲"：隨著題目越來越舊，訓(xùn)練信號(hào)的波動(dòng)性也會(huì)增加，因?yàn)橛眠^時(shí)的AI生成的題目來糾正現(xiàn)在的AI，就好比用一把誤差越來越大的尺子來量身體，測(cè)量值會(huì)越來越不可靠。第三個(gè)假設(shè)描述了題目之間的"關(guān)聯(lián)性"：從題庫中抽出來的不同題目，并不是完全獨(dú)立的——因?yàn)檫@些題目都曾經(jīng)參與過之前的訓(xùn)練，對(duì)當(dāng)前AI的"思維方式"有過貢獻(xiàn)，所以它們之間存在一定的統(tǒng)計(jì)關(guān)聯(lián)，關(guān)聯(lián)強(qiáng)度與兩道題生成時(shí)間的間隔成正比，與題庫的大小成反比。

基于這三個(gè)假設(shè)，研究團(tuán)隊(duì)推導(dǎo)出了一個(gè)核心定理，描述了在給定計(jì)算預(yù)算下，怎樣的題庫設(shè)計(jì)（題庫規(guī)模與每次新增題目量的比值，以及訓(xùn)練批次大小與每次新增題目量的比值）能夠最優(yōu)地平衡效率與準(zhǔn)確性。這個(gè)最優(yōu)設(shè)計(jì)具有直觀的物理意義：當(dāng)生成練習(xí)素材的計(jì)算成本（用參數(shù)μ表示，可以理解為"出題成本"相對(duì)于"批改試卷成本"的倍數(shù)）越高時(shí)，最優(yōu)方案就越傾向于使用更大的題庫、更高的重放比率；反之，當(dāng)出題成本很低時(shí)，就沒必要建題庫，直接用新題更好。研究團(tuán)隊(duì)還在冪律方差假設(shè)下給出了最優(yōu)題庫深度和重放比率的閉合解析公式，讓這套理論具有實(shí)際的工程指導(dǎo)價(jià)值。

在實(shí)驗(yàn)中，研究團(tuán)隊(duì)測(cè)量了不同模型下的μ值：對(duì)于參數(shù)量為0.6億的小模型Qwen3-0.6B，μ約為6.84，意味著生成一批練習(xí)素材所需的計(jì)算量大約是訓(xùn)練一步所需計(jì)算量的6.84倍；對(duì)于參數(shù)量更大的7億參數(shù)模型Qwen2.5-7B，μ約為5.28。這些數(shù)值都遠(yuǎn)大于1，說明"出題"確實(shí)遠(yuǎn)比"批改試卷"昂貴，使用題庫的理論依據(jù)相當(dāng)充分。

**四、現(xiàn)實(shí)中的訓(xùn)練流水線：推理工人與訓(xùn)練工人的分工**

理論有了，還需要搞清楚在實(shí)際的AI訓(xùn)練系統(tǒng)中如何落地。研究團(tuán)隊(duì)的實(shí)驗(yàn)基于一種叫做"異步訓(xùn)練"的架構(gòu)。在這種架構(gòu)下，GPU（專門用于AI計(jì)算的圖形處理器）被分成兩組：一組叫"推理工人"（inference workers），專門負(fù)責(zé)生成練習(xí)素材；另一組叫"訓(xùn)練工人"（trainers），專門負(fù)責(zé)根據(jù)練習(xí)素材調(diào)整AI的"思路"。兩組GPU各自獨(dú)立運(yùn)作，不需要等對(duì)方完成才能繼續(xù)工作。

在沒有題庫的傳統(tǒng)做法中，推理工人生成的素材通過一個(gè)"傳送隊(duì)列"傳給訓(xùn)練工人，訓(xùn)練工人用完一批就丟棄，等下一批來。這里有一個(gè)最優(yōu)比例μ：如果出題成本是批改成本的μ倍，就需要配置μ個(gè)推理工人對(duì)應(yīng)1個(gè)訓(xùn)練工人，才能讓兩組工人都不閑置，整個(gè)系統(tǒng)效率最高。

引入題庫后，推理工人不再把素材傳給隊(duì)列，而是放進(jìn)題庫；訓(xùn)練工人隨時(shí)從題庫中自由抽取，不受推理工人速度的制約。這樣，即使推理工人只有一兩個(gè)，訓(xùn)練工人也可以持續(xù)不斷地工作，因?yàn)轭}庫里有足夠的存貨。計(jì)算效率的提升，通過一個(gè)叫"計(jì)算比率γ"的指標(biāo)來衡量：γ等于使用題庫配置下每次參數(shù)更新的計(jì)算成本，除以最優(yōu)無題庫配置下的成本。對(duì)于Qwen2.5-7B（μ=5.28），當(dāng)推理工人數(shù)量W=6、訓(xùn)練工人數(shù)量T=2時(shí)，γ=0.65，即每次參數(shù)更新只需要原來65%的計(jì)算量；而當(dāng)W=4、T=4時(shí)，γ低至0.32，即每次更新只需原來32%的計(jì)算量。

此外，題庫還帶來了一個(gè)額外的工程收益：在異步訓(xùn)練中，推理工人有時(shí)會(huì)因?yàn)橛?xùn)練工人處理不過來而"堵塞"，訓(xùn)練工人有時(shí)會(huì)因?yàn)樗夭牟粔蚨?空轉(zhuǎn)"，這種不均衡會(huì)導(dǎo)致整體效率下降。題庫通過解耦生產(chǎn)和消費(fèi)，充當(dāng)了一個(gè)"緩沖水庫"，讓兩組工人都能保持滿負(fù)荷運(yùn)轉(zhuǎn)，進(jìn)一步提升了實(shí)際的墻上時(shí)鐘速度（wall-time speed），觀測(cè)到的實(shí)際加速效果甚至超過了理論計(jì)算的計(jì)算比率γ所預(yù)期的提升。

**五、實(shí)驗(yàn)結(jié)果：題庫的大小和使用頻率如何影響AI的最終水平？**

研究團(tuán)隊(duì)在Qwen3-0.6B和Qwen2.5-7B兩個(gè)模型上，使用OpenR1-Math-220k數(shù)學(xué)推理數(shù)據(jù)集進(jìn)行了大量實(shí)驗(yàn)，用MATH基準(zhǔn)測(cè)試來評(píng)估模型的最終數(shù)學(xué)解題準(zhǔn)確率。

對(duì)于小模型Qwen3-0.6B，研究團(tuán)隊(duì)系統(tǒng)測(cè)試了從64到559,872不等的多種題庫規(guī)模，以及(W,T)=(6,2)、(5,3)、(4,4)三種不同的工人比例配置，累計(jì)運(yùn)行了超過240個(gè)獨(dú)立實(shí)驗(yàn)種子。他們發(fā)現(xiàn)了幾個(gè)規(guī)律性的現(xiàn)象。

首先，所有訓(xùn)練曲線——無論是否使用題庫——都遵循一個(gè)先升后降的模式：準(zhǔn)確率先慢慢爬升到一個(gè)頂峰，然后開始下滑。這是強(qiáng)化學(xué)習(xí)訓(xùn)練語言模型時(shí)常見的現(xiàn)象，下滑的原因是模型在訓(xùn)練集上過擬合，最終崩潰成胡亂輸出的狀態(tài)。觀察訓(xùn)練集準(zhǔn)確率的曲線可以看到，訓(xùn)練集準(zhǔn)確率比測(cè)試集更晚達(dá)到峰值，然后也跟著崩潰，印證了這一診斷。

其次，增大題庫規(guī)模有兩個(gè)顯著的效果：它會(huì)減慢訓(xùn)練的速度（每個(gè)計(jì)算單位的進(jìn)步變小），但同時(shí)會(huì)穩(wěn)定訓(xùn)練過程，讓模型能到達(dá)更高的準(zhǔn)確率峰值，且崩潰來得更慢。研究團(tuán)隊(duì)假設(shè)，重用來自"舊版AI"生成的素材，相當(dāng)于在訓(xùn)練目標(biāo)上加了一個(gè)"正則化"效果，防止模型過度追求當(dāng)前版本AI生成的素材中的特定模式。對(duì)于越大的模型，這種穩(wěn)定化效果越不明顯，因?yàn)榇竽Ｐ捅緛砭透y過擬合。

第三，題庫對(duì)于模型的"輸出多樣性"有正面影響。在AI安全和實(shí)用性領(lǐng)域，有一個(gè)叫做"pass@k"的指標(biāo)，衡量的是：如果讓AI對(duì)同一道題嘗試k次，至少有一次答對(duì)的概率。pass@1就是一次就答對(duì)的概率，pass@32就是32次中至少答對(duì)一次的概率。研究發(fā)現(xiàn)，使用題庫不僅提升了pass@1（一次就答對(duì)），而且對(duì)pass@k中k越大的指標(biāo)，提升效果越明顯。這意味著題庫幫助模型保留了更豐富的"解題思路多樣性"，而不是讓模型在單一思路上越走越窄。這個(gè)發(fā)現(xiàn)具有重要的實(shí)際意義，因?yàn)檠芯拷缙毡閾?dān)憂強(qiáng)化學(xué)習(xí)訓(xùn)練會(huì)壓縮模型的輸出多樣性，而題庫恰好在一定程度上對(duì)抗了這個(gè)趨勢(shì)。

研究團(tuán)隊(duì)還做了一個(gè)特別精心設(shè)計(jì)的對(duì)照實(shí)驗(yàn)，來確認(rèn)這些收益不是因?yàn)轭}庫配置碰巧找到了一個(gè)更好的超參數(shù)設(shè)置。他們對(duì)兩個(gè)條件——使用題庫和不使用題庫——分別進(jìn)行了覆蓋多個(gè)學(xué)習(xí)率的全面超參數(shù)搜索，對(duì)每個(gè)計(jì)算預(yù)算下各自取最優(yōu)配置，繪制出兩條"效率前沿曲線"。結(jié)果顯示，在所有計(jì)算預(yù)算水平下，最優(yōu)題庫配置的曲線始終高于最優(yōu)無題庫配置的曲線，說明題庫的優(yōu)勢(shì)不依賴于特定的超參數(shù)巧合。

對(duì)于更大的Qwen2.5-7B模型，在題庫規(guī)模84、訓(xùn)練配置(W,T)=(6,2)（即每次參數(shù)更新只花原來65%的計(jì)算量）的設(shè)置下，使用題庫的模型不僅在所有計(jì)算預(yù)算水平下精度均高于不用題庫的基線，而且基線模型還多次出現(xiàn)不穩(wěn)定崩潰的現(xiàn)象，而題庫版本的訓(xùn)練則穩(wěn)定得多。這一發(fā)現(xiàn)在Qwen3-8B（用于編程證明任務(wù)）和Llama 3.2 3B上也得到了驗(yàn)證，說明題庫的好處具有跨模型、跨任務(wù)的普遍性。

**六、更精細(xì)的題庫設(shè)計(jì)：給"優(yōu)質(zhì)舊題"開小灶**

在驗(yàn)證了基礎(chǔ)題庫方案的有效性后，研究團(tuán)隊(duì)還探索了兩種更精細(xì)的設(shè)計(jì)，看能否進(jìn)一步提升效果。

第一種改進(jìn)叫做"正偏向采樣"（positive-bias sampling）。普通題庫的規(guī)則很簡(jiǎn)單：保留最新的N道題，從中隨機(jī)抽取。但研究團(tuán)隊(duì)注意到，正確解答題目的那些練習(xí)素材，可能比錯(cuò)誤解答的素材有更持久的價(jià)值——正確答案的"有效期"更長(zhǎng)，即使是一個(gè)老版本的AI生成的正確解答，對(duì)訓(xùn)練現(xiàn)在的AI依然有參考價(jià)值?；谶@個(gè)直覺，他們提出了一個(gè)混合題庫策略：題庫的一部分（比例為1-δ）仍然按時(shí)間順序保留最新的素材；另一部分（比例為δ）則專門保留最新的"正確解答"素材，并確保這些正確素材不與前一部分重復(fù)。訓(xùn)練時(shí)從兩部分合并的題庫中統(tǒng)一隨機(jī)抽取。實(shí)驗(yàn)結(jié)果表明，這種方式確實(shí)能夠提升訓(xùn)練效果，δ取0.2或0.5時(shí)都有明顯改善。

第二種改進(jìn)是更換訓(xùn)練損失函數(shù)。標(biāo)準(zhǔn)的GRPO損失函數(shù)（可以理解為AI用來評(píng)判自己表現(xiàn)的"評(píng)分規(guī)則"）包含一個(gè)重要性采樣修正項(xiàng)，其作用是補(bǔ)償由于"題目過期"導(dǎo)致的分布偏差。然而，重要性采樣在過期度較高時(shí)會(huì)產(chǎn)生很大的方差（測(cè)量值非常不穩(wěn)定），而且這種修正僅能糾正"邊際分布"的偏差，無法處理題庫帶來的更深層的統(tǒng)計(jì)依賴關(guān)系（即來自同一批次的不同練習(xí)素材之間的相關(guān)性）。研究團(tuán)隊(duì)改用了他們自己開發(fā)的AsymRE損失函數(shù)，這個(gè)函數(shù)不包含重要性采樣修正，從而回避了高方差和無法修正深層依賴的問題。實(shí)驗(yàn)顯示，AsymRE在題庫設(shè)置下的表現(xiàn)顯著優(yōu)于GRPO，尤其在高過期度條件下優(yōu)勢(shì)更為明顯。兩種改進(jìn)——正偏向采樣和AsymRE——結(jié)合使用，效果尤為突出。

**七、說到底，這件事意味著什么？**

歸根結(jié)底，這項(xiàng)研究做了一件聽起來簡(jiǎn)單但影響深遠(yuǎn)的事：把強(qiáng)化學(xué)習(xí)領(lǐng)域幾十年前就成熟的經(jīng)驗(yàn)回放技術(shù)，用嚴(yán)謹(jǐn)?shù)睦碚摲治龊痛笠?guī)模實(shí)驗(yàn)，移植到了大語言模型的后訓(xùn)練流程中，并給出了清晰的設(shè)計(jì)指南。

這對(duì)普通人意味著什么？當(dāng)你在使用AI助手時(shí)，它能夠解答數(shù)學(xué)題、寫代碼、分析問題，背后的訓(xùn)練過程就用到了強(qiáng)化學(xué)習(xí)。而強(qiáng)化學(xué)習(xí)的訓(xùn)練成本，最終會(huì)轉(zhuǎn)化為AI公司的運(yùn)營(yíng)成本，繼而影響AI服務(wù)的價(jià)格和普及速度。如果訓(xùn)練一個(gè)同等能力的AI只需要60%的計(jì)算資源，在保持相同訓(xùn)練預(yù)算的前提下，可以訓(xùn)練出能力更強(qiáng)的模型；或者在保持相同模型能力的前提下，可以大幅降低訓(xùn)練成本。這兩個(gè)方向都對(duì)AI的未來發(fā)展具有實(shí)際意義。

當(dāng)然，研究團(tuán)隊(duì)也坦承了這項(xiàng)工作的局限性。目前的實(shí)驗(yàn)規(guī)模限于0.6B到8B參數(shù)量的模型，在更大的前沿模型（如數(shù)百億甚至千億參數(shù)）上，這套方案是否同樣有效，還有待驗(yàn)證。此外，即便在現(xiàn)有規(guī)模下，題庫規(guī)模和重放比率的最優(yōu)設(shè)置，仍然依賴于一個(gè)模型特定的μ值，實(shí)際部署時(shí)需要針對(duì)具體的模型和硬件環(huán)境進(jìn)行測(cè)量和調(diào)優(yōu)。

有一個(gè)值得深思的問題是：如果連"反復(fù)使用舊練習(xí)題"這樣聽起來有悖常識(shí)的做法，在數(shù)學(xué)上都能被證明是更優(yōu)的策略，那么在AI訓(xùn)練領(lǐng)域，還有多少類似的"常識(shí)性偏見"正在悄悄地浪費(fèi)我們的計(jì)算資源？這大概是這項(xiàng)研究留給整個(gè)領(lǐng)域最值得追問的問題。感興趣深入了解的讀者，可以通過arXiv編號(hào)2604.08706查閱這篇完整論文。

Q&A

Q1：經(jīng)驗(yàn)回放（experience replay）在大語言模型訓(xùn)練中具體是怎么工作的？

A：在大語言模型的強(qiáng)化學(xué)習(xí)訓(xùn)練中，經(jīng)驗(yàn)回放的做法是：AI每次生成練習(xí)素材后，不直接用完就扔，而是把它們存入一個(gè)"題庫"（重放緩沖區(qū)）。訓(xùn)練時(shí)，從題庫中隨機(jī)抽取素材來調(diào)整模型參數(shù)，同一份素材可以被多次使用。題庫采用先進(jìn)先出策略，最舊的素材會(huì)被新素材替換。這樣一來，生成素材和使用素材這兩個(gè)步驟就解耦了，可以用更少的推理GPU來匹配更多的訓(xùn)練GPU，從而大幅降低整體計(jì)算消耗。

Q2：使用題庫反復(fù)訓(xùn)練同樣的數(shù)據(jù)，會(huì)不會(huì)讓AI越練越差？

A：會(huì)有一定風(fēng)險(xiǎn)，但研究發(fā)現(xiàn)關(guān)鍵在于題庫規(guī)模的設(shè)置。如果題庫太小、同一道題被連續(xù)高頻重復(fù)使用（局部多樣性低），訓(xùn)練效果確實(shí)會(huì)下降。但如果題庫足夠大，雖然同一道題全局上會(huì)被多次使用，但連續(xù)被抽到的概率很低，局部多樣性得以保持。適中規(guī)模的題庫反而能穩(wěn)定訓(xùn)練、防止模型崩潰，并保留輸出的多樣性，在大多數(shù)計(jì)算預(yù)算水平下優(yōu)于不使用題庫的方案。

Q3：計(jì)算比率γ是怎么算出來的，它說明了什么問題？

A：計(jì)算比率γ等于"使用題庫時(shí)每次參數(shù)更新的計(jì)算成本"除以"不用題庫的最優(yōu)配置下的計(jì)算成本"，公式是γ=(1+W/T)/(1+μ)，其中W是推理工人GPU數(shù)量，T是訓(xùn)練工人GPU數(shù)量，μ是生成一批素材的成本相對(duì)于訓(xùn)練一步成本的倍數(shù)。γ越小，說明題庫方案越省錢。對(duì)于Qwen2.5-7B（μ=5.28），當(dāng)W=4、T=4時(shí)，γ=0.32，意味著每次參數(shù)更新只需原來32%的計(jì)算量，相當(dāng)于節(jié)省了68%的計(jì)算開銷。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.