国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

為何讓AI"反復(fù)琢磨"舊數(shù)據(jù),訓(xùn)練效率反而暴漲40%?

0
分享至


這項(xiàng)研究來自Meta旗下的基礎(chǔ)人工智能研究團(tuán)隊(duì)(FAIR at Meta)以及紐約大學(xué)柯朗研究所,于2026年4月9日以預(yù)印本形式發(fā)布,編號(hào)為arXiv:2604.08706v1。感興趣的讀者可以通過這個(gè)編號(hào)在arXiv平臺(tái)上查閱完整論文。

**一、一個(gè)反直覺的問題:舊菜熱一熱,味道更好?**

在飯店的廚房里,有一條鐵律:新鮮出爐的菜肴才是最好的,絕不能把隔夜的菜端給客人。這條"鐵律"在人工智能訓(xùn)練領(lǐng)域同樣盛行了很多年——研究者們普遍相信,訓(xùn)練AI必須使用"新鮮"數(shù)據(jù),用過就扔,絕不重復(fù)使用。然而,Meta的研究團(tuán)隊(duì)偏偏要打破這個(gè)"常識(shí)"。他們用大量實(shí)驗(yàn)證明,在特定條件下,"把舊菜熱一熱"不僅不會(huì)讓味道變差,反而能節(jié)省高達(dá)40%的能源消耗,同時(shí)保持甚至略微提升最終的菜肴品質(zhì)。

這項(xiàng)研究聚焦于一個(gè)非常實(shí)際的問題:訓(xùn)練大型語言模型(也就是像ChatGPT這類能理解和生成語言的AI)的過程中,有一個(gè)步驟叫做"強(qiáng)化學(xué)習(xí)",它讓AI通過不斷嘗試、犯錯(cuò)、修正來學(xué)習(xí)。這個(gè)過程中,AI需要持續(xù)產(chǎn)生大量的"練習(xí)素材"(專業(yè)術(shù)語叫"軌跡"或"rollout",可以理解為AI嘗試回答問題時(shí)生成的一整段文字),然后用這些素材來調(diào)整自己的"思路"。問題在于,產(chǎn)生這些練習(xí)素材的代價(jià)極其高昂——在最頂尖的AI訓(xùn)練流水線中,光是生成這些素材就要消耗超過80%的計(jì)算資源,相當(dāng)于整個(gè)訓(xùn)練過程中八成的電費(fèi)都花在了"出題考試"上,而非"分析錯(cuò)誤、吸取教訓(xùn)"。更要命的是,當(dāng)前主流做法是每次考試結(jié)束后就把試卷直接扔掉,下次考試重新出題。這種"用完即棄"的方式,研究團(tuán)隊(duì)將其稱為"生成即丟棄"模式。

Meta研究團(tuán)隊(duì)提出的解決方案,正是本文標(biāo)題中那個(gè)聽起來簡(jiǎn)單卻蘊(yùn)含深意的技巧——經(jīng)驗(yàn)回放(Experience Replay)。簡(jiǎn)單說就是:把做過的練習(xí)題保存在一個(gè)"題庫"(專業(yè)上稱為"重放緩沖區(qū)",replay buffer)里,下次訓(xùn)練時(shí)可以反復(fù)從題庫中抽題來用,而不必每次都重新生成新題目。這個(gè)想法在游戲AI領(lǐng)域早已是成熟技術(shù),谷歌DeepMind著名的下棋AI就用到了類似思路,但在大語言模型的強(qiáng)化學(xué)習(xí)訓(xùn)練中,這個(gè)方法卻被長(zhǎng)期忽視。本次研究就是要系統(tǒng)地搞清楚:這個(gè)"題庫"到底應(yīng)該怎么設(shè)計(jì)?什么情況下用有益?什么情況下反而有害?

**二、題庫里的練習(xí)題:存多久才算"過期"?**

要理解這項(xiàng)研究的核心,需要先搞清楚一個(gè)關(guān)鍵矛盾。AI在強(qiáng)化學(xué)習(xí)過程中,其"思維方式"(也就是模型的參數(shù))是在不斷進(jìn)化的。用一周前還是新手水平時(shí)生成的練習(xí)素材,來訓(xùn)練今天已經(jīng)有所進(jìn)步的AI,這些素材的參考價(jià)值必然會(huì)打折扣——就像用小學(xué)教材來輔導(dǎo)高中生做題,多少有些不合時(shí)宜。研究團(tuán)隊(duì)把這種"練習(xí)素材與當(dāng)前AI水平之間的代差"稱為"過期度"或"離策略程度"(off-policiness)。

這個(gè)"過期度"是整個(gè)研究的核心變量。過期度越高,意味著題庫里的練習(xí)素材是很久以前一個(gè)"還沒那么聰明"的AI版本生成的,用這些素材訓(xùn)練可能會(huì)引入錯(cuò)誤的信號(hào)。但如果完全不用題庫,就意味著每次訓(xùn)練都要重新生成新素材,代價(jià)極高。于是,一個(gè)三角形的權(quán)衡關(guān)系就浮現(xiàn)出來了:計(jì)算效率、數(shù)據(jù)新鮮度(低過期度),以及數(shù)據(jù)多樣性,三者之間存在此消彼長(zhǎng)的關(guān)系。

題庫的大小(保存多少題目)和題庫的使用方式(同一道題被反復(fù)做多少次)會(huì)同時(shí)影響這三個(gè)維度。題庫越大,存的題越多,題目的"過期度"平均就越高(因?yàn)樽罾系念}可能是很久以前的AI生成的),但每次訓(xùn)練時(shí)從更大的題庫里隨機(jī)抽題,不容易連續(xù)抽到同一道題,這在某種程度上增加了"局部多樣性"。反復(fù)使用同一道題的次數(shù)(研究團(tuán)隊(duì)稱之為"重放比率",replay ratio)越高,計(jì)算效率越高,但訓(xùn)練內(nèi)容越單調(diào),AI的學(xué)習(xí)可能受到影響。

研究團(tuán)隊(duì)還特別區(qū)分了兩種不同層次的"多樣性"。一種是"全局多樣性",指的是在整個(gè)訓(xùn)練過程中,同一道題平均被使用了多少次。另一種是"局部多樣性",指的是同一道題在短時(shí)間內(nèi)被連續(xù)反復(fù)使用的程度——如果連續(xù)很多步訓(xùn)練用的都是同一道題,AI就會(huì)陷入"死記硬背"的困境,學(xué)習(xí)效果極差。研究團(tuán)隊(duì)認(rèn)為,局部多樣性的損失比全局多樣性的損失危害更大。而增大題庫規(guī)模,恰好可以在不增加全局重復(fù)率的前提下,降低局部重復(fù)的概率——因?yàn)轭}庫越大,每次隨機(jī)抽題時(shí),連續(xù)抽到同一道題的概率自然越低。

**三、一個(gè)精妙的數(shù)學(xué)框架:最優(yōu)題庫規(guī)模的計(jì)算公式**

研究團(tuán)隊(duì)不滿足于定性的直覺,他們建立了一套嚴(yán)格的數(shù)學(xué)理論來量化這個(gè)權(quán)衡關(guān)系。這套理論基于一個(gè)標(biāo)準(zhǔn)的數(shù)學(xué)框架——非凸隨機(jī)優(yōu)化(可以理解為:在一個(gè)充滿山峰和山谷的復(fù)雜地形中,尋找最低點(diǎn)的數(shù)學(xué)方法)。

在這個(gè)框架中,研究團(tuán)隊(duì)做了三個(gè)核心假設(shè)。第一個(gè)假設(shè)描述了"過期題目"對(duì)訓(xùn)練信號(hào)的影響:一道題越舊,它給出的訓(xùn)練信號(hào)偏差就越大,偏差的程度與當(dāng)前AI和生成該題時(shí)AI的"差距"成正比。第二個(gè)假設(shè)描述了訓(xùn)練信號(hào)的"噪聲":隨著題目越來越舊,訓(xùn)練信號(hào)的波動(dòng)性也會(huì)增加,因?yàn)橛眠^時(shí)的AI生成的題目來糾正現(xiàn)在的AI,就好比用一把誤差越來越大的尺子來量身體,測(cè)量值會(huì)越來越不可靠。第三個(gè)假設(shè)描述了題目之間的"關(guān)聯(lián)性":從題庫中抽出來的不同題目,并不是完全獨(dú)立的——因?yàn)檫@些題目都曾經(jīng)參與過之前的訓(xùn)練,對(duì)當(dāng)前AI的"思維方式"有過貢獻(xiàn),所以它們之間存在一定的統(tǒng)計(jì)關(guān)聯(lián),關(guān)聯(lián)強(qiáng)度與兩道題生成時(shí)間的間隔成正比,與題庫的大小成反比。

基于這三個(gè)假設(shè),研究團(tuán)隊(duì)推導(dǎo)出了一個(gè)核心定理,描述了在給定計(jì)算預(yù)算下,怎樣的題庫設(shè)計(jì)(題庫規(guī)模與每次新增題目量的比值,以及訓(xùn)練批次大小與每次新增題目量的比值)能夠最優(yōu)地平衡效率與準(zhǔn)確性。這個(gè)最優(yōu)設(shè)計(jì)具有直觀的物理意義:當(dāng)生成練習(xí)素材的計(jì)算成本(用參數(shù)μ表示,可以理解為"出題成本"相對(duì)于"批改試卷成本"的倍數(shù))越高時(shí),最優(yōu)方案就越傾向于使用更大的題庫、更高的重放比率;反之,當(dāng)出題成本很低時(shí),就沒必要建題庫,直接用新題更好。研究團(tuán)隊(duì)還在冪律方差假設(shè)下給出了最優(yōu)題庫深度和重放比率的閉合解析公式,讓這套理論具有實(shí)際的工程指導(dǎo)價(jià)值。

在實(shí)驗(yàn)中,研究團(tuán)隊(duì)測(cè)量了不同模型下的μ值:對(duì)于參數(shù)量為0.6億的小模型Qwen3-0.6B,μ約為6.84,意味著生成一批練習(xí)素材所需的計(jì)算量大約是訓(xùn)練一步所需計(jì)算量的6.84倍;對(duì)于參數(shù)量更大的7億參數(shù)模型Qwen2.5-7B,μ約為5.28。這些數(shù)值都遠(yuǎn)大于1,說明"出題"確實(shí)遠(yuǎn)比"批改試卷"昂貴,使用題庫的理論依據(jù)相當(dāng)充分。

**四、現(xiàn)實(shí)中的訓(xùn)練流水線:推理工人與訓(xùn)練工人的分工**

理論有了,還需要搞清楚在實(shí)際的AI訓(xùn)練系統(tǒng)中如何落地。研究團(tuán)隊(duì)的實(shí)驗(yàn)基于一種叫做"異步訓(xùn)練"的架構(gòu)。在這種架構(gòu)下,GPU(專門用于AI計(jì)算的圖形處理器)被分成兩組:一組叫"推理工人"(inference workers),專門負(fù)責(zé)生成練習(xí)素材;另一組叫"訓(xùn)練工人"(trainers),專門負(fù)責(zé)根據(jù)練習(xí)素材調(diào)整AI的"思路"。兩組GPU各自獨(dú)立運(yùn)作,不需要等對(duì)方完成才能繼續(xù)工作。

在沒有題庫的傳統(tǒng)做法中,推理工人生成的素材通過一個(gè)"傳送隊(duì)列"傳給訓(xùn)練工人,訓(xùn)練工人用完一批就丟棄,等下一批來。這里有一個(gè)最優(yōu)比例μ:如果出題成本是批改成本的μ倍,就需要配置μ個(gè)推理工人對(duì)應(yīng)1個(gè)訓(xùn)練工人,才能讓兩組工人都不閑置,整個(gè)系統(tǒng)效率最高。

引入題庫后,推理工人不再把素材傳給隊(duì)列,而是放進(jìn)題庫;訓(xùn)練工人隨時(shí)從題庫中自由抽取,不受推理工人速度的制約。這樣,即使推理工人只有一兩個(gè),訓(xùn)練工人也可以持續(xù)不斷地工作,因?yàn)轭}庫里有足夠的存貨。計(jì)算效率的提升,通過一個(gè)叫"計(jì)算比率γ"的指標(biāo)來衡量:γ等于使用題庫配置下每次參數(shù)更新的計(jì)算成本,除以最優(yōu)無題庫配置下的成本。對(duì)于Qwen2.5-7B(μ=5.28),當(dāng)推理工人數(shù)量W=6、訓(xùn)練工人數(shù)量T=2時(shí),γ=0.65,即每次參數(shù)更新只需要原來65%的計(jì)算量;而當(dāng)W=4、T=4時(shí),γ低至0.32,即每次更新只需原來32%的計(jì)算量。

此外,題庫還帶來了一個(gè)額外的工程收益:在異步訓(xùn)練中,推理工人有時(shí)會(huì)因?yàn)橛?xùn)練工人處理不過來而"堵塞",訓(xùn)練工人有時(shí)會(huì)因?yàn)樗夭牟粔蚨?空轉(zhuǎn)",這種不均衡會(huì)導(dǎo)致整體效率下降。題庫通過解耦生產(chǎn)和消費(fèi),充當(dāng)了一個(gè)"緩沖水庫",讓兩組工人都能保持滿負(fù)荷運(yùn)轉(zhuǎn),進(jìn)一步提升了實(shí)際的墻上時(shí)鐘速度(wall-time speed),觀測(cè)到的實(shí)際加速效果甚至超過了理論計(jì)算的計(jì)算比率γ所預(yù)期的提升。

**五、實(shí)驗(yàn)結(jié)果:題庫的大小和使用頻率如何影響AI的最終水平?**

研究團(tuán)隊(duì)在Qwen3-0.6B和Qwen2.5-7B兩個(gè)模型上,使用OpenR1-Math-220k數(shù)學(xué)推理數(shù)據(jù)集進(jìn)行了大量實(shí)驗(yàn),用MATH基準(zhǔn)測(cè)試來評(píng)估模型的最終數(shù)學(xué)解題準(zhǔn)確率。

對(duì)于小模型Qwen3-0.6B,研究團(tuán)隊(duì)系統(tǒng)測(cè)試了從64到559,872不等的多種題庫規(guī)模,以及(W,T)=(6,2)、(5,3)、(4,4)三種不同的工人比例配置,累計(jì)運(yùn)行了超過240個(gè)獨(dú)立實(shí)驗(yàn)種子。他們發(fā)現(xiàn)了幾個(gè)規(guī)律性的現(xiàn)象。

首先,所有訓(xùn)練曲線——無論是否使用題庫——都遵循一個(gè)先升后降的模式:準(zhǔn)確率先慢慢爬升到一個(gè)頂峰,然后開始下滑。這是強(qiáng)化學(xué)習(xí)訓(xùn)練語言模型時(shí)常見的現(xiàn)象,下滑的原因是模型在訓(xùn)練集上過擬合,最終崩潰成胡亂輸出的狀態(tài)。觀察訓(xùn)練集準(zhǔn)確率的曲線可以看到,訓(xùn)練集準(zhǔn)確率比測(cè)試集更晚達(dá)到峰值,然后也跟著崩潰,印證了這一診斷。

其次,增大題庫規(guī)模有兩個(gè)顯著的效果:它會(huì)減慢訓(xùn)練的速度(每個(gè)計(jì)算單位的進(jìn)步變小),但同時(shí)會(huì)穩(wěn)定訓(xùn)練過程,讓模型能到達(dá)更高的準(zhǔn)確率峰值,且崩潰來得更慢。研究團(tuán)隊(duì)假設(shè),重用來自"舊版AI"生成的素材,相當(dāng)于在訓(xùn)練目標(biāo)上加了一個(gè)"正則化"效果,防止模型過度追求當(dāng)前版本AI生成的素材中的特定模式。對(duì)于越大的模型,這種穩(wěn)定化效果越不明顯,因?yàn)榇竽P捅緛砭透y過擬合。

第三,題庫對(duì)于模型的"輸出多樣性"有正面影響。在AI安全和實(shí)用性領(lǐng)域,有一個(gè)叫做"pass@k"的指標(biāo),衡量的是:如果讓AI對(duì)同一道題嘗試k次,至少有一次答對(duì)的概率。pass@1就是一次就答對(duì)的概率,pass@32就是32次中至少答對(duì)一次的概率。研究發(fā)現(xiàn),使用題庫不僅提升了pass@1(一次就答對(duì)),而且對(duì)pass@k中k越大的指標(biāo),提升效果越明顯。這意味著題庫幫助模型保留了更豐富的"解題思路多樣性",而不是讓模型在單一思路上越走越窄。這個(gè)發(fā)現(xiàn)具有重要的實(shí)際意義,因?yàn)檠芯拷缙毡閾?dān)憂強(qiáng)化學(xué)習(xí)訓(xùn)練會(huì)壓縮模型的輸出多樣性,而題庫恰好在一定程度上對(duì)抗了這個(gè)趨勢(shì)。

研究團(tuán)隊(duì)還做了一個(gè)特別精心設(shè)計(jì)的對(duì)照實(shí)驗(yàn),來確認(rèn)這些收益不是因?yàn)轭}庫配置碰巧找到了一個(gè)更好的超參數(shù)設(shè)置。他們對(duì)兩個(gè)條件——使用題庫和不使用題庫——分別進(jìn)行了覆蓋多個(gè)學(xué)習(xí)率的全面超參數(shù)搜索,對(duì)每個(gè)計(jì)算預(yù)算下各自取最優(yōu)配置,繪制出兩條"效率前沿曲線"。結(jié)果顯示,在所有計(jì)算預(yù)算水平下,最優(yōu)題庫配置的曲線始終高于最優(yōu)無題庫配置的曲線,說明題庫的優(yōu)勢(shì)不依賴于特定的超參數(shù)巧合。

對(duì)于更大的Qwen2.5-7B模型,在題庫規(guī)模84、訓(xùn)練配置(W,T)=(6,2)(即每次參數(shù)更新只花原來65%的計(jì)算量)的設(shè)置下,使用題庫的模型不僅在所有計(jì)算預(yù)算水平下精度均高于不用題庫的基線,而且基線模型還多次出現(xiàn)不穩(wěn)定崩潰的現(xiàn)象,而題庫版本的訓(xùn)練則穩(wěn)定得多。這一發(fā)現(xiàn)在Qwen3-8B(用于編程證明任務(wù))和Llama 3.2 3B上也得到了驗(yàn)證,說明題庫的好處具有跨模型、跨任務(wù)的普遍性。

**六、更精細(xì)的題庫設(shè)計(jì):給"優(yōu)質(zhì)舊題"開小灶**

在驗(yàn)證了基礎(chǔ)題庫方案的有效性后,研究團(tuán)隊(duì)還探索了兩種更精細(xì)的設(shè)計(jì),看能否進(jìn)一步提升效果。

第一種改進(jìn)叫做"正偏向采樣"(positive-bias sampling)。普通題庫的規(guī)則很簡(jiǎn)單:保留最新的N道題,從中隨機(jī)抽取。但研究團(tuán)隊(duì)注意到,正確解答題目的那些練習(xí)素材,可能比錯(cuò)誤解答的素材有更持久的價(jià)值——正確答案的"有效期"更長(zhǎng),即使是一個(gè)老版本的AI生成的正確解答,對(duì)訓(xùn)練現(xiàn)在的AI依然有參考價(jià)值?;谶@個(gè)直覺,他們提出了一個(gè)混合題庫策略:題庫的一部分(比例為1-δ)仍然按時(shí)間順序保留最新的素材;另一部分(比例為δ)則專門保留最新的"正確解答"素材,并確保這些正確素材不與前一部分重復(fù)。訓(xùn)練時(shí)從兩部分合并的題庫中統(tǒng)一隨機(jī)抽取。實(shí)驗(yàn)結(jié)果表明,這種方式確實(shí)能夠提升訓(xùn)練效果,δ取0.2或0.5時(shí)都有明顯改善。

第二種改進(jìn)是更換訓(xùn)練損失函數(shù)。標(biāo)準(zhǔn)的GRPO損失函數(shù)(可以理解為AI用來評(píng)判自己表現(xiàn)的"評(píng)分規(guī)則")包含一個(gè)重要性采樣修正項(xiàng),其作用是補(bǔ)償由于"題目過期"導(dǎo)致的分布偏差。然而,重要性采樣在過期度較高時(shí)會(huì)產(chǎn)生很大的方差(測(cè)量值非常不穩(wěn)定),而且這種修正僅能糾正"邊際分布"的偏差,無法處理題庫帶來的更深層的統(tǒng)計(jì)依賴關(guān)系(即來自同一批次的不同練習(xí)素材之間的相關(guān)性)。研究團(tuán)隊(duì)改用了他們自己開發(fā)的AsymRE損失函數(shù),這個(gè)函數(shù)不包含重要性采樣修正,從而回避了高方差和無法修正深層依賴的問題。實(shí)驗(yàn)顯示,AsymRE在題庫設(shè)置下的表現(xiàn)顯著優(yōu)于GRPO,尤其在高過期度條件下優(yōu)勢(shì)更為明顯。兩種改進(jìn)——正偏向采樣和AsymRE——結(jié)合使用,效果尤為突出。

**七、說到底,這件事意味著什么?**

歸根結(jié)底,這項(xiàng)研究做了一件聽起來簡(jiǎn)單但影響深遠(yuǎn)的事:把強(qiáng)化學(xué)習(xí)領(lǐng)域幾十年前就成熟的經(jīng)驗(yàn)回放技術(shù),用嚴(yán)謹(jǐn)?shù)睦碚摲治龊痛笠?guī)模實(shí)驗(yàn),移植到了大語言模型的后訓(xùn)練流程中,并給出了清晰的設(shè)計(jì)指南。

這對(duì)普通人意味著什么?當(dāng)你在使用AI助手時(shí),它能夠解答數(shù)學(xué)題、寫代碼、分析問題,背后的訓(xùn)練過程就用到了強(qiáng)化學(xué)習(xí)。而強(qiáng)化學(xué)習(xí)的訓(xùn)練成本,最終會(huì)轉(zhuǎn)化為AI公司的運(yùn)營(yíng)成本,繼而影響AI服務(wù)的價(jià)格和普及速度。如果訓(xùn)練一個(gè)同等能力的AI只需要60%的計(jì)算資源,在保持相同訓(xùn)練預(yù)算的前提下,可以訓(xùn)練出能力更強(qiáng)的模型;或者在保持相同模型能力的前提下,可以大幅降低訓(xùn)練成本。這兩個(gè)方向都對(duì)AI的未來發(fā)展具有實(shí)際意義。

當(dāng)然,研究團(tuán)隊(duì)也坦承了這項(xiàng)工作的局限性。目前的實(shí)驗(yàn)規(guī)模限于0.6B到8B參數(shù)量的模型,在更大的前沿模型(如數(shù)百億甚至千億參數(shù))上,這套方案是否同樣有效,還有待驗(yàn)證。此外,即便在現(xiàn)有規(guī)模下,題庫規(guī)模和重放比率的最優(yōu)設(shè)置,仍然依賴于一個(gè)模型特定的μ值,實(shí)際部署時(shí)需要針對(duì)具體的模型和硬件環(huán)境進(jìn)行測(cè)量和調(diào)優(yōu)。

有一個(gè)值得深思的問題是:如果連"反復(fù)使用舊練習(xí)題"這樣聽起來有悖常識(shí)的做法,在數(shù)學(xué)上都能被證明是更優(yōu)的策略,那么在AI訓(xùn)練領(lǐng)域,還有多少類似的"常識(shí)性偏見"正在悄悄地浪費(fèi)我們的計(jì)算資源?這大概是這項(xiàng)研究留給整個(gè)領(lǐng)域最值得追問的問題。感興趣深入了解的讀者,可以通過arXiv編號(hào)2604.08706查閱這篇完整論文。

Q&A

Q1:經(jīng)驗(yàn)回放(experience replay)在大語言模型訓(xùn)練中具體是怎么工作的?

A:在大語言模型的強(qiáng)化學(xué)習(xí)訓(xùn)練中,經(jīng)驗(yàn)回放的做法是:AI每次生成練習(xí)素材后,不直接用完就扔,而是把它們存入一個(gè)"題庫"(重放緩沖區(qū))。訓(xùn)練時(shí),從題庫中隨機(jī)抽取素材來調(diào)整模型參數(shù),同一份素材可以被多次使用。題庫采用先進(jìn)先出策略,最舊的素材會(huì)被新素材替換。這樣一來,生成素材和使用素材這兩個(gè)步驟就解耦了,可以用更少的推理GPU來匹配更多的訓(xùn)練GPU,從而大幅降低整體計(jì)算消耗。

Q2:使用題庫反復(fù)訓(xùn)練同樣的數(shù)據(jù),會(huì)不會(huì)讓AI越練越差?

A:會(huì)有一定風(fēng)險(xiǎn),但研究發(fā)現(xiàn)關(guān)鍵在于題庫規(guī)模的設(shè)置。如果題庫太小、同一道題被連續(xù)高頻重復(fù)使用(局部多樣性低),訓(xùn)練效果確實(shí)會(huì)下降。但如果題庫足夠大,雖然同一道題全局上會(huì)被多次使用,但連續(xù)被抽到的概率很低,局部多樣性得以保持。適中規(guī)模的題庫反而能穩(wěn)定訓(xùn)練、防止模型崩潰,并保留輸出的多樣性,在大多數(shù)計(jì)算預(yù)算水平下優(yōu)于不使用題庫的方案。

Q3:計(jì)算比率γ是怎么算出來的,它說明了什么問題?

A:計(jì)算比率γ等于"使用題庫時(shí)每次參數(shù)更新的計(jì)算成本"除以"不用題庫的最優(yōu)配置下的計(jì)算成本",公式是γ=(1+W/T)/(1+μ),其中W是推理工人GPU數(shù)量,T是訓(xùn)練工人GPU數(shù)量,μ是生成一批素材的成本相對(duì)于訓(xùn)練一步成本的倍數(shù)。γ越小,說明題庫方案越省錢。對(duì)于Qwen2.5-7B(μ=5.28),當(dāng)W=4、T=4時(shí),γ=0.32,意味著每次參數(shù)更新只需原來32%的計(jì)算量,相當(dāng)于節(jié)省了68%的計(jì)算開銷。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
國(guó)家下死命令:2027年城投清零!中小城市的公交、供水會(huì)漲價(jià)嗎?

國(guó)家下死命令:2027年城投清零!中小城市的公交、供水會(huì)漲價(jià)嗎?

顧史
2026-04-21 05:44:11
法塔赫勝選、哈馬斯出局,殘害平民失去人心,恐怖主義沒有未來

法塔赫勝選、哈馬斯出局,殘害平民失去人心,恐怖主義沒有未來

壹家言
2026-04-28 11:11:27
王洪文被捕前,對(duì)秘書說:我這頂“烏紗帽”,說不定哪天就被摘掉

王洪文被捕前,對(duì)秘書說:我這頂“烏紗帽”,說不定哪天就被摘掉

銅臭的歷史味
2026-04-29 00:22:02
哭窮了!一線男1號(hào)片酬跌至巔峰期3折,網(wǎng)友:待遇比醫(yī)生差才合理

哭窮了!一線男1號(hào)片酬跌至巔峰期3折,網(wǎng)友:待遇比醫(yī)生差才合理

火山詩話
2026-04-28 07:27:33
600678,將被“ST”!

600678,將被“ST”!

中國(guó)基金報(bào)
2026-04-28 23:15:48
情侶在瑞士雪山頂“撒歡”,就這么被全世界直播了···

情侶在瑞士雪山頂“撒歡”,就這么被全世界直播了···

新歐洲
2026-04-21 19:37:05
外交部:按一國(guó)兩制叫“臺(tái)灣特別行政區(qū)行政長(zhǎng)官”“臺(tái)灣省省長(zhǎng)”

外交部:按一國(guó)兩制叫“臺(tái)灣特別行政區(qū)行政長(zhǎng)官”“臺(tái)灣省省長(zhǎng)”

阿七說史
2026-04-28 15:41:47
辛柏青回應(yīng)吳越撮合,沒有翻臉沒有接梗,把分寸和家人穩(wěn)穩(wěn)守住

辛柏青回應(yīng)吳越撮合,沒有翻臉沒有接梗,把分寸和家人穩(wěn)穩(wěn)守住

一盅情懷
2026-04-28 17:18:29
妹子,你露個(gè)大白胸脯,在這兒干什么呢?

妹子,你露個(gè)大白胸脯,在這兒干什么呢?

飛娛日記
2026-04-18 10:48:09
中國(guó)聯(lián)通推出全新手機(jī)套餐品牌“魔方”,自由組合,階梯定價(jià),39元起

中國(guó)聯(lián)通推出全新手機(jī)套餐品牌“魔方”,自由組合,階梯定價(jià),39元起

TMT流程審計(jì)
2026-04-28 10:35:38
誰敢相信!去年跟腱撕裂,今年滿血回歸,季后賽場(chǎng)均24分

誰敢相信!去年跟腱撕裂,今年滿血回歸,季后賽場(chǎng)均24分

球毛鬼胎
2026-04-28 22:07:08
張雪就聲援余承東引發(fā)爭(zhēng)議進(jìn)行回應(yīng),稱自己不是網(wǎng)紅也不靠這吃飯

張雪就聲援余承東引發(fā)爭(zhēng)議進(jìn)行回應(yīng),稱自己不是網(wǎng)紅也不靠這吃飯

IT之家
2026-04-28 16:13:50
政治局會(huì)議,傳遞三重利好

政治局會(huì)議,傳遞三重利好

劉勝軍經(jīng)濟(jì)學(xué)大局觀
2026-04-28 15:41:45
美伊大戰(zhàn)暴露了中國(guó)家底,美國(guó)這才明白,為啥中國(guó)人底氣能這么足

美伊大戰(zhàn)暴露了中國(guó)家底,美國(guó)這才明白,為啥中國(guó)人底氣能這么足

觸摸史跡
2026-04-28 15:13:05
世乒賽戰(zhàn)況:杜凱琹獨(dú)砍兩分,朱雨玲澳隊(duì)剃光頭國(guó)乒大戰(zhàn)韓隊(duì)

世乒賽戰(zhàn)況:杜凱琹獨(dú)砍兩分,朱雨玲澳隊(duì)剃光頭國(guó)乒大戰(zhàn)韓隊(duì)

阿晞體育
2026-04-28 22:41:00
王思聰是真頹了?被拍到在洛杉磯,整個(gè)人都“垮了”

王思聰是真頹了?被拍到在洛杉磯,整個(gè)人都“垮了”

西樓知趣雜談
2026-04-28 22:09:13
誰拍下了那張后臺(tái)照片?

誰拍下了那張后臺(tái)照片?

追星雷達(dá)站
2026-04-27 09:58:59
43歲蔡卓妍官宣結(jié)婚,婚戒照好幸福,老公比她小10歲是健身教練

43歲蔡卓妍官宣結(jié)婚,婚戒照好幸福,老公比她小10歲是健身教練

扒蝦侃娛
2026-04-28 12:34:53
倒查13年,央國(guó)企開始慌了

倒查13年,央國(guó)企開始慌了

職場(chǎng)資深秘書
2026-04-28 22:06:07
聚焦服務(wù)業(yè)擴(kuò)能提質(zhì)|我國(guó)養(yǎng)老服務(wù)業(yè)發(fā)展邁出新步伐

聚焦服務(wù)業(yè)擴(kuò)能提質(zhì)|我國(guó)養(yǎng)老服務(wù)業(yè)發(fā)展邁出新步伐

新華社
2026-04-27 22:04:28
2026-04-29 03:20:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8183文章數(shù) 563關(guān)注度
往期回顧 全部

科技要聞

10億周活目標(biāo)落空!傳OpenAI爆發(fā)內(nèi)部分歧

頭條要聞

19歲中國(guó)女孩被困緬甸 交20萬贖金園區(qū)仍未放人

頭條要聞

19歲中國(guó)女孩被困緬甸 交20萬贖金園區(qū)仍未放人

體育要聞

魔術(shù)黑八活塞,一步之遙?!

娛樂要聞

蔡卓妍官宣結(jié)婚,老公比她小10歲

財(cái)經(jīng)要聞

中央政治局會(huì)議定調(diào),八大看點(diǎn)速覽!

汽車要聞

拒絕瘋狂套娃!現(xiàn)代艾尼氪金星長(zhǎng)在未來審美點(diǎn)上

態(tài)度原創(chuàng)

教育
旅游
親子
手機(jī)
公開課

教育要聞

教育部通知,今年9月份開始,上學(xué)的規(guī)則全變了

旅游要聞

莫讓內(nèi)卷式競(jìng)爭(zhēng)削弱旅游消費(fèi)信心

親子要聞

有一點(diǎn)點(diǎn)近視,到底要不要戴眼鏡?

手機(jī)要聞

三星裸眼3D屏來了,廣告牌能“跳”出來

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版