阿里Qwen、上交大等提出預訓練動態(tài)數(shù)據(jù)選擇范式OPUS

2026-03-16 18:27:37　來源: 機器之心Pro

河北舉報

分享至

在 “大模型預訓練” 這件事上，行業(yè)里幾乎有一條默認信條：想要更強，就得喂更多、更新、更高質(zhì)量的數(shù)據(jù)。但最近一篇來自阿里巴巴、上海交大、UW–Madison 等團隊的工作，在 Hugging Face Daily Paper 沖上月度 Top1 后，直接把這個共識撕開了一道口子：只從中低質(zhì)量數(shù)據(jù)里動態(tài)挑選，竟然能打贏 “高質(zhì)量數(shù)據(jù)優(yōu)先” 的經(jīng)典訓練配方。

這條結(jié)論之所以讓社區(qū)炸鍋，不只是因為它 “反直覺”，更因為它擊中了一個長期被忽略的問題：我們今天用 AdamW、Muon 訓練大模型，卻還在用偏 SGD 時代的思路給數(shù)據(jù)打分。說得更直白一點 —— 我們一直在拿 “舊地圖” 給 “新導航” 指路。而這篇工作真正厲害的地方是：它不是在 “玄學篩數(shù)據(jù)” 上做小修小補，而是把數(shù)據(jù)選擇這件事，第一次系統(tǒng)性地對齊到了優(yōu)化器真正決定的更新方向上。

論文鏈接：https://arxiv.org/pdf/2602.0540

從 “數(shù)據(jù)饑渴” 到 “數(shù)據(jù)墻”，預訓練進入 “每個 token 都要算賬” 的時代

過去十年，大模型能力提升的主旋律，是一條幾乎無人質(zhì)疑的路徑：模型更大、數(shù)據(jù)更多、算力更猛。但今天，這條路正在撞上數(shù)據(jù)側(cè)的天花板 —— 高質(zhì)量公共文本逐漸枯竭，“Data Wall（數(shù)據(jù)墻）” 正在浮現(xiàn)。預訓練也因此被迫從一個 “吞吐問題”，轉(zhuǎn)向一個更關鍵的 “控制問題”：在第 t 步更新里，到底應該讓哪些 token 來決定模型往哪走？

圍繞這個問題，行業(yè)里常見的兩條路線都各有硬傷：

靜態(tài)過濾：一次打分，長期食用。優(yōu)點是簡單、穩(wěn)定、工程上好落地；但問題也很明顯：它默認數(shù)據(jù)價值是 “固定的”?？涩F(xiàn)實是，模型會變強、訓練階段會切換、目標能力會遷移 —— 配方卻不變，容易越訓越 “鈍”。
動態(tài)選擇：能夠隨訓練過程實時調(diào)整，聽起來更合理；但大多數(shù)方法仍然默認 SGD 視角，用 “原始梯度” 來衡量樣本價值。問題在于：現(xiàn)實中的 LLM 訓練，早已全面轉(zhuǎn)向 AdamW、Muon 等現(xiàn)代優(yōu)化器。

作者指出：當優(yōu)化器改變了 “實際更新方向”，你用原始梯度選數(shù)據(jù)，就會出現(xiàn)一個 “方向偏差（misalignment gap）”—— 你以為喂的是有效訓練信號，優(yōu)化器卻把更新投到另一條軌跡上。這就是 OPUS 的起點：數(shù)據(jù)選擇不能再 “優(yōu)化器無關”。

別替優(yōu)化器點菜 —— 讓優(yōu)化器自己決定 “這口飯有沒有用”

OPUS 的全稱很直白：Optimizer-induced Projected Utility Selection。

它做了一件看起來 “理所當然”，但過去很少被系統(tǒng)落實的事：

不再在 “原始梯度空間” 里評估樣本價值，而是把效用（utility）定義在 “優(yōu)化器誘導的有效更新空間” 里。

換句話說，在 AdamW / Muon 訓練中，真正推動參數(shù)變化的，并不是原始梯度本身，而是經(jīng)過優(yōu)化器預處理之后的有效更新方向。OPUS 做的，就是直接計算（或近似計算）每個候選樣本在當前 step 下對參數(shù)的 “有效推動”，并進一步追問一個更本質(zhì)的問題：如果我按 AdamW / Muon 的真實更新方式走這一步，這個樣本會不會讓模型在目標分布上變得更好？

于是，“數(shù)據(jù)選擇” 這件事就不再只是文本質(zhì)量打分，也不只是梯度相似度技巧，而是被升級成一個更原則化的目標：最大化每一步更新的收益（utility）。

OPUS 的 “三件套”—— 目標對齊、可擴展估計、穩(wěn)定選擇

從論文 Figure 3 可以看到，OPUS 在每個訓練 step 里，不再用原始梯度去 “猜” 樣本價值，而是把樣本效用定義在 AdamW / Muon 等優(yōu)化器誘導的有效更新空間中。它的核心閉環(huán)可以概括為三步：

先對齊目標：構(gòu)建與目標 benchmark 語義對齊的 Bench-Proxy 池，提供穩(wěn)定的 “目標方向”；
再高效估計：用 Ghost + CountSketch 近似估計候選樣本對 proxy 方向的對齊收益；
最后穩(wěn)定選擇：加入冗余懲罰，并通過 Boltzmann 軟采樣選出當步最合適的訓練樣本。

這套設計的關鍵意義在于：它讓 “數(shù)據(jù)選擇” 第一次真正和 “優(yōu)化器實際執(zhí)行的更新軌跡” 處在同一幾何、同一方向上，從而顯著提升預訓練效率與下游泛化表現(xiàn)。

1）效用怎么定義？—— 在 “有效更新空間” 里做對齊，而不是在原始梯度里 “看著像”

OPUS 把每個候選樣本的價值拆成兩部分：

Alignment（對齊收益）：樣本帶來的有效更新方向，是否與 “目標方向” 一致；
Redundancy Penalty（冗余懲罰）：避免連續(xù)選到一堆方向高度相似的樣本，導致更新過于集中、訓練不穩(wěn)、收益遞減。

這套設計把 “選最有用” 與 “選得多樣” 統(tǒng)一進同一個原則框架里：每一步不僅要更快下降，還要避免把更新壓成一條細線。

2）目標方向從哪來？——Bench-Proxy：既貼近 benchmark，又不脫離預訓練流形

Bench-Proxy 并不是 “隨便找一批相似文本” 作為代理目標，而是通過一個檢索式構(gòu)建流程得到的。具體來說，作者使用凍結(jié)的句向量模型，將：

目標評測基準的驗證集樣本（如 MMLU、HellaSwag 等），以及
預訓練語料中的文檔

映射到同一語義空間，并計算余弦相似度。

隨后，對每篇預訓練文檔分配一個 “相關性分數(shù)”（例如基于其與 benchmark 樣本的最大相似度），再按分數(shù)排序并在給定 token 預算內(nèi)選出一批文檔，構(gòu)成 Bench-Proxy 池。這樣得到的代理池具有兩個優(yōu)點：

語義上貼近目標 benchmark（有明確任務指向性）；
分布上仍屬于預訓練語料流形（不會過度偏離預訓練過程）。

訓練過程中，模型反復從這個 proxy 池抽樣，用于提供更穩(wěn)定、低噪聲的目標方向，從而讓每一步的數(shù)據(jù)選擇更可靠。這一點很關鍵：OPUS 不是直接拿 benchmark 當訓練數(shù)據(jù)，而是用 benchmark 去 “定義方向”，再在預訓練分布里找可執(zhí)行的推進路徑。

3）怎么把它做得足夠快？——Ghost + CountSketch，把在線打分開銷壓到 “幾乎可忽略”

在線數(shù)據(jù)選擇最大的現(xiàn)實門檻，不是 “想法對不對”，而是 “算不算得動”。

你不可能在每個 step 都為大量候選樣本顯式計算全維梯度并逐一打分。

OPUS 的工程解法是一套組合拳：

Ghost technique：利用線性層梯度的結(jié)構(gòu)（如外積形式），避免顯式構(gòu)造完整高維梯度，降低顯存與計算開銷；
CountSketch：將高維有效更新投影到低維 sketch 空間，在近似保持內(nèi)積結(jié)構(gòu)的前提下完成對齊、相似度與冗余相關計算；
Boltzmann sampling：不直接貪心 top-k，而是通過溫度控制的概率采樣進行軟選擇，在利用高分樣本的同時保留一定探索性，提升穩(wěn)定性與多樣性。

結(jié)果是，OPUS 把 “每步在線選擇數(shù)據(jù)” 的額外成本壓到了一個可接受區(qū)間，使這件事在大規(guī)模預訓練中也具備實際可行性。

在論文的實現(xiàn)與測量中，OPUS 的額外計算開銷約為 4.7%，使得 “每一步都做數(shù)據(jù)選擇” 在大規(guī)模訓練中也依然可承受。

實驗結(jié)果：不是小修小補，而是 “效率 + 性能” 同時抬頭

1）FineWeb 預訓練：平均 +2.2% 準確率，GPT-XL 上 8× 計算量節(jié)省

在 GPT-2 Large / XL 的 30B token 預訓練設置中，OPUS 在 10 個基準上對比隨機選擇取得平均 1.5% 的準確率提升；在 GPT-XL 上還展示了 8× 計算效率提升的結(jié)果（相同效果所需計算顯著降低）。更 “刺激” 的一點是：論文還報告 OPUS 能在某些設置中優(yōu)于更大 token 預算（例如 60B token）訓練的對照配置 —— 強調(diào) “每步選對比多吃更關鍵”。

2）FineWeb-Edu：反直覺名場面 —— 只用中等質(zhì)量數(shù)據(jù)，也能打贏 “吃高質(zhì)量數(shù)據(jù)” 的基線

作者專門做了 “難度更高” 的對照：把數(shù)據(jù)按質(zhì)量分層后，OPUS 只從中等質(zhì)量（如 score 3）里動態(tài)挑選，卻能超過一些使用更高質(zhì)量分區(qū)（score 4–5）訓練的強基線。在 GPT2 Large/XL 30B 使用 FineWeb-Edu 的預訓練設置中，OPUS 在 10 個基準上對比從高質(zhì)量數(shù)據(jù)隨機選擇取得平均 3.18% 的準確率提升。它傳遞的信號很清晰：

數(shù)據(jù)質(zhì)量很重要，但 “在正確的幾何里、在正確的時機喂對樣本”，可能更重要。

除了主套件上的提升，論文還專門做了一組更 “刁鉆” 的檢驗：把同一批 GPT-2 XL checkpoint 拿去測不包含在 Bench-Proxy 構(gòu)建目標里的 out-of-distribution 基準，包括 BBH、RACE、SuperGLUE 等。結(jié)果顯示，OPUS 仍然取得最佳平均表現(xiàn)，達到了 40.07，明顯高于隨機選擇以及多種靜態(tài)和動態(tài)篩選基線。這一點非常關鍵：它說明 OPUS 的收益并不是 “對齊 proxy 就刷 proxy”，也不是把模型過擬合到那一小撮基準上；相反，即使評測換成 proxy 未覆蓋的 OOD 任務，OPUS 依然能穩(wěn)定帶來泛化收益，側(cè)面印證了其 “在優(yōu)化器誘導更新空間里選有效訓練信號” 的機制更接近提升真實能力，而非 benchmark 取巧。

3）Domain PPL: 驗證 “泛化而非刷分”

除了任務準確率，論文還用一個更 “底層” 的指標檢驗模型的廣譜語言建模能力：在 Health、Business、Politics、Education、History、Lifestyle、Science、Arts & Lit.、Entertainment、Computing 等 10 個不同領域的保留驗證集上統(tǒng)計 PPL，越低越好。結(jié)果非常穩(wěn)定：在 FineWeb 上訓練 30B tokens 時，OPUS 在 GPT-2 Large 與 GPT-2 XL 兩個規(guī)模下都拿到最低的平均 PPL—— 分別是 3.35 與 3.26，優(yōu)于 Random、DSIR、QuRating、GREATS 等基線。更有意思的是，在 FineWeb-Edu 這類 “更高質(zhì)量” 的子集上，OPUS 仍然保持領先：GPT-2 Large 的平均困惑度降到 3.49，GPT-2 XL 進一步到 3.45。這說明 OPUS 的提升不只體現(xiàn)在某幾個 benchmark 上 “刷分”，而是在跨領域的語言建模質(zhì)量上同樣帶來一致收益 —— 更接近一種可遷移、可泛化的訓練信號增益。

4）Continued Pre-training：Qwen3-8B 在 SciencePedia 上 0.5B token 追平 / 超過 3B token

更貼近產(chǎn)業(yè)的 CPT 場景里，OPUS 在 Qwen3-8B-Base 上繼續(xù)訓練 SciencePedia：僅用0.5B tokens就達到最優(yōu)表現(xiàn)，并且超過隨機選擇訓練 3B tokens 的對照，等價于約 6× 的數(shù)據(jù)效率增益。對于 “專業(yè)域能力提升” 這種高成本任務，這種量級的效率提升極具吸引力。

作者還給出了SciencePedia的分領域拆解結(jié)果，把提升拆到 “每個科學子域” 上看清楚：在 0.5B，1B，1.5B 三個 token 預算下，OPUS 在 OlympicArena（圖中雷達圖，覆蓋 Math、Physics、Chemistry、Biology、Geography、Astronomy、CS、Text、以及多語種等維度）與 SciAssess（圖中柱狀圖，Biology/Chemistry/Material/Medicine 等子域）中都表現(xiàn)出更穩(wěn)定、更加均衡的收益。更關鍵的是，這種增益并非只靠某一個 “強項領域” 拉動平均分：即使把平均分拆開看，OPUS 在多個子域上都能保持競爭力，尤其在Material 與 Medicine等更偏專業(yè)的方向上，優(yōu)勢更明顯?？傮w上，這組分域結(jié)果支持了論文的核心論點：OPUS 的改進不是 “挑某個領域刷上去”，而是在有限 token 預算下，把繼續(xù)預訓練的收益更有效地分配到不同科學子域，從而更接近 “用更少 token 覆蓋更廣能力” 的目標。

從 “挑數(shù)據(jù)” 到 “挑更新”，OPUS 把預訓練的控制權還給了優(yōu)化器

很多數(shù)據(jù)選擇方法都卡在一個經(jīng)典矛盾里：要么原則弱，像經(jīng)驗規(guī)則；要么原則強，但算不動。

OPUS 的可貴之處在于，它不是只在理論上更 “正確”，也不是只在工程上更 “取巧”，而是把兩者真正接到了一起：在原則上，它把樣本效用定義到與 AdamW / Muon 等現(xiàn)代優(yōu)化器一致的有效更新空間中；在工程上，它又通過 Ghost + CountSketch + Boltzmann 軟采樣，把 “每個 step 在線做數(shù)據(jù)選擇” 的額外開銷壓到了可落地的范圍。

更重要的是，OPUS 并不排斥已有的數(shù)據(jù)工程手段，反而天然適合與靜態(tài)過濾協(xié)同：靜態(tài)過濾負責把明顯低價值樣本擋在門外，OPUS 負責在剩余候選中根據(jù)訓練動態(tài)做細粒度選擇。換句話說，它第一次比較完整地把 “數(shù)據(jù)治理” 與 “訓練動力學” 接成了一個閉環(huán)。

這也是 OPUS 最值得關注的地方：它真正想回答的，并不是 “如何更聰明地給數(shù)據(jù)打分”，而是一個更底層的問題 ——在現(xiàn)代優(yōu)化器主導的訓練幾何里，什么樣的樣本，才能帶來真實有效的更新？當 “數(shù)據(jù)墻” 逼近、算力成本高企，預訓練已經(jīng)不再只是 “堆更多數(shù)據(jù)就能贏” 的游戲，而進入了一個必須精打細算的階段：每一個 token，都要為更新負責。

而 OPUS 給出的路線非常清晰，也很有啟發(fā)性：

數(shù)據(jù)選擇不該再做優(yōu)化器無關的旁觀者，而應成為與優(yōu)化器同幾何、同方向的在線控制器。

只有這樣，我們才有機會真正榨出 token 的邊際收益，把預訓練從 “數(shù)據(jù)吞吐戰(zhàn)”，推進到 “更新效率戰(zhàn)”。

作者介紹：

本文第一作者為王少博（上海交大 / 阿里 Qwen）、共同第一作者為歐陽軒（UW-Madison）、徐天一（UW–Madison）。通訊作者包括任星彰（阿里 Qwen）、劉大一恒（阿里 Qwen）與張林峰（上海交大）。其余合作者來自阿里、上交、UIUC、Mila 等單位。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.