国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

阿里Qwen、上交大等提出預訓練動態(tài)數(shù)據(jù)選擇范式OPUS

0
分享至



在 “大模型預訓練” 這件事上,行業(yè)里幾乎有一條默認信條:想要更強,就得喂更多、更新、更高質(zhì)量的數(shù)據(jù)。但最近一篇來自阿里巴巴、上海交大、UW–Madison 等團隊的工作,在 Hugging Face Daily Paper 沖上月度 Top1 后,直接把這個共識撕開了一道口子:只從中低質(zhì)量數(shù)據(jù)里動態(tài)挑選,竟然能打贏 “高質(zhì)量數(shù)據(jù)優(yōu)先” 的經(jīng)典訓練配方。



這條結(jié)論之所以讓社區(qū)炸鍋,不只是因為它 “反直覺”,更因為它擊中了一個長期被忽略的問題:我們今天用 AdamW、Muon 訓練大模型,卻還在用偏 SGD 時代的思路給數(shù)據(jù)打分。 說得更直白一點 —— 我們一直在拿 “舊地圖” 給 “新導航” 指路。而這篇工作真正厲害的地方是:它不是在 “玄學篩數(shù)據(jù)” 上做小修小補,而是把數(shù)據(jù)選擇這件事,第一次系統(tǒng)性地對齊到了優(yōu)化器真正決定的更新方向上。



  • 論文鏈接:https://arxiv.org/pdf/2602.0540

從 “數(shù)據(jù)饑渴” 到 “數(shù)據(jù)墻”,預訓練進入 “每個 token 都要算賬” 的時代

過去十年,大模型能力提升的主旋律,是一條幾乎無人質(zhì)疑的路徑:模型更大、數(shù)據(jù)更多、算力更猛。但今天,這條路正在撞上數(shù)據(jù)側(cè)的天花板 —— 高質(zhì)量公共文本逐漸枯竭,“Data Wall(數(shù)據(jù)墻)” 正在浮現(xiàn)。預訓練也因此被迫從一個 “吞吐問題”,轉(zhuǎn)向一個更關鍵的 “控制問題”:在第 t 步更新里,到底應該讓哪些 token 來決定模型往哪走?

圍繞這個問題,行業(yè)里常見的兩條路線都各有硬傷:

  • 靜態(tài)過濾:一次打分,長期食用。優(yōu)點是簡單、穩(wěn)定、工程上好落地;但問題也很明顯:它默認數(shù)據(jù)價值是 “固定的”??涩F(xiàn)實是,模型會變強、訓練階段會切換、目標能力會遷移 —— 配方卻不變,容易越訓越 “鈍”。
  • 動態(tài)選擇:能夠隨訓練過程實時調(diào)整,聽起來更合理;但大多數(shù)方法仍然默認 SGD 視角,用 “原始梯度” 來衡量樣本價值。問題在于:現(xiàn)實中的 LLM 訓練,早已全面轉(zhuǎn)向 AdamW、Muon 等現(xiàn)代優(yōu)化器。

作者指出:當優(yōu)化器改變了 “實際更新方向”,你用原始梯度選數(shù)據(jù),就會出現(xiàn)一個 “方向偏差(misalignment gap)”—— 你以為喂的是有效訓練信號,優(yōu)化器卻把更新投到另一條軌跡上。這就是 OPUS 的起點:數(shù)據(jù)選擇不能再 “優(yōu)化器無關”。

別替優(yōu)化器點菜 —— 讓優(yōu)化器自己決定 “這口飯有沒有用”



OPUS 的全稱很直白:Optimizer-induced Projected Utility Selection。

它做了一件看起來 “理所當然”,但過去很少被系統(tǒng)落實的事:

不再在 “原始梯度空間” 里評估樣本價值,而是把效用(utility)定義在 “優(yōu)化器誘導的有效更新空間” 里。

換句話說,在 AdamW / Muon 訓練中,真正推動參數(shù)變化的,并不是原始梯度本身,而是經(jīng)過優(yōu)化器預處理之后的有效更新方向。OPUS 做的,就是直接計算(或近似計算)每個候選樣本在當前 step 下對參數(shù)的 “有效推動”,并進一步追問一個更本質(zhì)的問題:如果我按 AdamW / Muon 的真實更新方式走這一步,這個樣本會不會讓模型在目標分布上變得更好?

于是,“數(shù)據(jù)選擇” 這件事就不再只是文本質(zhì)量打分,也不只是梯度相似度技巧,而是被升級成一個更原則化的目標:最大化每一步更新的收益(utility)。

OPUS 的 “三件套”—— 目標對齊、可擴展估計、穩(wěn)定選擇



從論文 Figure 3 可以看到,OPUS 在每個訓練 step 里,不再用原始梯度去 “猜” 樣本價值,而是把樣本效用定義在 AdamW / Muon 等優(yōu)化器誘導的有效更新空間中。它的核心閉環(huán)可以概括為三步:

  • 先對齊目標:構(gòu)建與目標 benchmark 語義對齊的 Bench-Proxy 池,提供穩(wěn)定的 “目標方向”;
  • 再高效估計:用 Ghost + CountSketch 近似估計候選樣本對 proxy 方向的對齊收益;
  • 最后穩(wěn)定選擇:加入冗余懲罰,并通過 Boltzmann 軟采樣 選出當步最合適的訓練樣本。

這套設計的關鍵意義在于:它讓 “數(shù)據(jù)選擇” 第一次真正和 “優(yōu)化器實際執(zhí)行的更新軌跡” 處在同一幾何、同一方向上,從而顯著提升預訓練效率與下游泛化表現(xiàn)。

1)效用怎么定義?—— 在 “有效更新空間” 里做對齊,而不是在原始梯度里 “看著像”



OPUS 把每個候選樣本的價值拆成兩部分:

  • Alignment(對齊收益):樣本帶來的有效更新方向,是否與 “目標方向” 一致;
  • Redundancy Penalty(冗余懲罰):避免連續(xù)選到一堆方向高度相似的樣本,導致更新過于集中、訓練不穩(wěn)、收益遞減。

這套設計把 “選最有用” 與 “選得多樣” 統(tǒng)一進同一個原則框架里:每一步不僅要更快下降,還要避免把更新壓成一條細線。

2)目標方向從哪來?——Bench-Proxy:既貼近 benchmark,又不脫離預訓練流形

Bench-Proxy 并不是 “隨便找一批相似文本” 作為代理目標,而是通過一個檢索式構(gòu)建流程得到的。具體來說,作者使用凍結(jié)的句向量模型,將:

  • 目標評測基準的驗證集樣本(如 MMLU、HellaSwag 等),以及
  • 預訓練語料中的文檔

映射到同一語義空間,并計算余弦相似度。

隨后,對每篇預訓練文檔分配一個 “相關性分數(shù)”(例如基于其與 benchmark 樣本的最大相似度),再按分數(shù)排序并在給定 token 預算內(nèi)選出一批文檔,構(gòu)成 Bench-Proxy 池。這樣得到的代理池具有兩個優(yōu)點:

  • 語義上貼近目標 benchmark(有明確任務指向性);
  • 分布上仍屬于預訓練語料流形(不會過度偏離預訓練過程)。

訓練過程中,模型反復從這個 proxy 池抽樣,用于提供更穩(wěn)定、低噪聲的目標方向,從而讓每一步的數(shù)據(jù)選擇更可靠。這一點很關鍵:OPUS 不是直接拿 benchmark 當訓練數(shù)據(jù),而是用 benchmark 去 “定義方向”,再在預訓練分布里找可執(zhí)行的推進路徑。

3)怎么把它做得足夠快?——Ghost + CountSketch,把在線打分開銷壓到 “幾乎可忽略”

在線數(shù)據(jù)選擇最大的現(xiàn)實門檻,不是 “想法對不對”,而是 “算不算得動”。

你不可能在每個 step 都為大量候選樣本顯式計算全維梯度并逐一打分。

OPUS 的工程解法是一套組合拳:

  • Ghost technique:利用線性層梯度的結(jié)構(gòu)(如外積形式),避免顯式構(gòu)造完整高維梯度,降低顯存與計算開銷;
  • CountSketch:將高維有效更新投影到低維 sketch 空間,在近似保持內(nèi)積結(jié)構(gòu)的前提下完成對齊、相似度與冗余相關計算;
  • Boltzmann sampling:不直接貪心 top-k,而是通過溫度控制的概率采樣進行軟選擇,在利用高分樣本的同時保留一定探索性,提升穩(wěn)定性與多樣性。

結(jié)果是,OPUS 把 “每步在線選擇數(shù)據(jù)” 的額外成本壓到了一個可接受區(qū)間,使這件事在大規(guī)模預訓練中也具備實際可行性。



在論文的實現(xiàn)與測量中,OPUS 的額外計算開銷約為 4.7%,使得 “每一步都做數(shù)據(jù)選擇” 在大規(guī)模訓練中也依然可承受。

實驗結(jié)果:不是小修小補,而是 “效率 + 性能” 同時抬頭

1)FineWeb 預訓練:平均 +2.2% 準確率,GPT-XL 上 8× 計算量節(jié)省

在 GPT-2 Large / XL 的 30B token 預訓練設置中,OPUS 在 10 個基準上對比隨機選擇取得平均 1.5% 的準確率提升;在 GPT-XL 上還展示了 8× 計算效率提升的結(jié)果(相同效果所需計算顯著降低)。更 “刺激” 的一點是:論文還報告 OPUS 能在某些設置中優(yōu)于更大 token 預算(例如 60B token)訓練的對照配置 —— 強調(diào) “每步選對比多吃更關鍵”。



2)FineWeb-Edu:反直覺名場面 —— 只用中等質(zhì)量數(shù)據(jù),也能打贏 “吃高質(zhì)量數(shù)據(jù)” 的基線

作者專門做了 “難度更高” 的對照:把數(shù)據(jù)按質(zhì)量分層后,OPUS 只從中等質(zhì)量(如 score 3)里動態(tài)挑選,卻能超過一些使用更高質(zhì)量分區(qū)(score 4–5)訓練的強基線。在 GPT2 Large/XL 30B 使用 FineWeb-Edu 的預訓練設置中,OPUS 在 10 個基準上對比從高質(zhì)量數(shù)據(jù)隨機選擇取得平均 3.18% 的準確率提升。它傳遞的信號很清晰:

數(shù)據(jù)質(zhì)量很重要,但 “在正確的幾何里、在正確的時機喂對樣本”,可能更重要。





除了主套件上的提升,論文還專門做了一組更 “刁鉆” 的檢驗:把同一批 GPT-2 XL checkpoint 拿去測 不包含在 Bench-Proxy 構(gòu)建目標里的 out-of-distribution 基準,包括 BBH、RACE、SuperGLUE 等。結(jié)果顯示,OPUS 仍然取得最佳平均表現(xiàn),達到了 40.07,明顯高于隨機選擇以及多種靜態(tài)和動態(tài)篩選基線。這一點非常關鍵:它說明 OPUS 的收益并不是 “對齊 proxy 就刷 proxy”,也不是把模型過擬合到那一小撮基準上;相反,即使評測換成 proxy 未覆蓋的 OOD 任務,OPUS 依然能穩(wěn)定帶來泛化收益,側(cè)面印證了其 “在優(yōu)化器誘導更新空間里選有效訓練信號” 的機制更接近提升真實能力,而非 benchmark 取巧。

3)Domain PPL: 驗證 “泛化而非刷分”

除了任務準確率,論文還用一個更 “底層” 的指標檢驗模型的廣譜語言建模能力:在 Health、Business、Politics、Education、History、Lifestyle、Science、Arts & Lit.、Entertainment、Computing 等 10 個不同領域的保留驗證集上統(tǒng)計 PPL,越低越好。結(jié)果非常穩(wěn)定:在 FineWeb 上訓練 30B tokens 時,OPUS 在 GPT-2 Large 與 GPT-2 XL 兩個規(guī)模下都拿到最低的平均 PPL—— 分別是 3.35 與 3.26,優(yōu)于 Random、DSIR、QuRating、GREATS 等基線。更有意思的是,在 FineWeb-Edu 這類 “更高質(zhì)量” 的子集上,OPUS 仍然保持領先:GPT-2 Large 的平均困惑度降到 3.49,GPT-2 XL 進一步到 3.45。這說明 OPUS 的提升不只體現(xiàn)在某幾個 benchmark 上 “刷分”,而是在跨領域的語言建模質(zhì)量上同樣帶來一致收益 —— 更接近一種可遷移、可泛化的訓練信號增益。

4)Continued Pre-training:Qwen3-8B 在 SciencePedia 上 0.5B token 追平 / 超過 3B token

更貼近產(chǎn)業(yè)的 CPT 場景里,OPUS 在 Qwen3-8B-Base 上繼續(xù)訓練 SciencePedia:僅用0.5B tokens就達到最優(yōu)表現(xiàn),并且超過隨機選擇訓練 3B tokens 的對照,等價于約 6× 的數(shù)據(jù)效率增益。對于 “專業(yè)域能力提升” 這種高成本任務,這種量級的效率提升極具吸引力。



作者還給出了SciencePedia的分領域拆解結(jié)果,把提升拆到 “每個科學子域” 上看清楚:在 0.5B,1B,1.5B 三個 token 預算下,OPUS 在 OlympicArena(圖中雷達圖,覆蓋 Math、Physics、Chemistry、Biology、Geography、Astronomy、CS、Text、以及多語種等維度)與 SciAssess(圖中柱狀圖,Biology/Chemistry/Material/Medicine 等子域)中都表現(xiàn)出更穩(wěn)定、更加均衡的收益。更關鍵的是,這種增益并非只靠某一個 “強項領域” 拉動平均分:即使把平均分拆開看,OPUS 在多個子域上都能保持競爭力,尤其在Material 與 Medicine等更偏專業(yè)的方向上,優(yōu)勢更明顯??傮w上,這組分域結(jié)果支持了論文的核心論點:OPUS 的改進不是 “挑某個領域刷上去”,而是在有限 token 預算下,把繼續(xù)預訓練的收益更有效地分配到不同科學子域,從而更接近 “用更少 token 覆蓋更廣能力” 的目標。



從 “挑數(shù)據(jù)” 到 “挑更新”,OPUS 把預訓練的控制權還給了優(yōu)化器

很多數(shù)據(jù)選擇方法都卡在一個經(jīng)典矛盾里:要么原則弱,像經(jīng)驗規(guī)則;要么原則強,但算不動。

OPUS 的可貴之處在于,它不是只在理論上更 “正確”,也不是只在工程上更 “取巧”,而是把兩者真正接到了一起:在原則上,它把樣本效用定義到與 AdamW / Muon 等現(xiàn)代優(yōu)化器一致的有效更新空間中;在工程上,它又通過 Ghost + CountSketch + Boltzmann 軟采樣,把 “每個 step 在線做數(shù)據(jù)選擇” 的額外開銷壓到了可落地的范圍。

更重要的是,OPUS 并不排斥已有的數(shù)據(jù)工程手段,反而天然適合與靜態(tài)過濾協(xié)同:靜態(tài)過濾負責把明顯低價值樣本擋在門外,OPUS 負責在剩余候選中根據(jù)訓練動態(tài)做細粒度選擇。 換句話說,它第一次比較完整地把 “數(shù)據(jù)治理” 與 “訓練動力學” 接成了一個閉環(huán)。

這也是 OPUS 最值得關注的地方:它真正想回答的,并不是 “如何更聰明地給數(shù)據(jù)打分”,而是一個更底層的問題 ——在現(xiàn)代優(yōu)化器主導的訓練幾何里,什么樣的樣本,才能帶來真實有效的更新?當 “數(shù)據(jù)墻” 逼近、算力成本高企,預訓練已經(jīng)不再只是 “堆更多數(shù)據(jù)就能贏” 的游戲,而進入了一個必須精打細算的階段:每一個 token,都要為更新負責。

而 OPUS 給出的路線非常清晰,也很有啟發(fā)性:

數(shù)據(jù)選擇不該再做優(yōu)化器無關的旁觀者,而應成為與優(yōu)化器同幾何、同方向的在線控制器。

只有這樣,我們才有機會真正榨出 token 的邊際收益,把預訓練從 “數(shù)據(jù)吞吐戰(zhàn)”,推進到 “更新效率戰(zhàn)”。

作者介紹:

本文第一作者為王少博(上海交大 / 阿里 Qwen)、共同第一作者為歐陽軒(UW-Madison)、徐天一(UW–Madison)。通訊作者包括任星彰(阿里 Qwen)、劉大一恒(阿里 Qwen)與張林峰(上海交大)。其余合作者來自阿里、上交、UIUC、Mila 等單位。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
公開批評或抵制J.K. 羅琳的明星名單

公開批評或抵制J.K. 羅琳的明星名單

下水道男孩
2026-03-28 23:25:19
眾星為浪姐打call,孫儷為安陵容支招,陳瑤人緣好,都是人情世故

眾星為浪姐打call,孫儷為安陵容支招,陳瑤人緣好,都是人情世故

娛樂圈筆娛君
2026-03-28 18:02:30
張雪峰追悼會,山東大屏讓全網(wǎng)破防!

張雪峰追悼會,山東大屏讓全網(wǎng)破防!

廣告案例精選
2026-03-28 19:53:57
核桃立大功!國際頂刊證實:可降低全身炎癥,4周壽命延長45%

核桃立大功!國際頂刊證實:可降低全身炎癥,4周壽命延長45%

思思夜話
2026-03-28 13:00:30
殲-20總師被除名:任央企高管,最近露面照曝出,事發(fā)全過程披露

殲-20總師被除名:任央企高管,最近露面照曝出,事發(fā)全過程披露

博士觀察
2026-03-28 18:19:57
心源性猝死面前沒有“僥幸”!急診醫(yī)學科專家稱半數(shù)患者前1-4周有身體預警

心源性猝死面前沒有“僥幸”!急診醫(yī)學科專家稱半數(shù)患者前1-4周有身體預警

瀟湘晨報
2026-03-25 20:21:20
保姆偷拿了家里2瓶茅臺去賣,我沒揭穿只辭退了她,臨走時她指了指舊皮鞋,我一看瞬間癱坐在地

保姆偷拿了家里2瓶茅臺去賣,我沒揭穿只辭退了她,臨走時她指了指舊皮鞋,我一看瞬間癱坐在地

今夜有個好故事
2026-03-11 17:26:56
1955年陳賡怒電正在休養(yǎng)的總長粟裕:管管你身邊的人,太沒素質(zhì)了

1955年陳賡怒電正在休養(yǎng)的總長粟裕:管管你身邊的人,太沒素質(zhì)了

興趣知識
2026-03-28 17:02:20
張雪峰老師生前公開推薦過的3所大學,分數(shù)低就業(yè)好!

張雪峰老師生前公開推薦過的3所大學,分數(shù)低就業(yè)好!

高三倒計時
2026-03-26 17:52:46
省建工集團爆雷后,一地雞毛!

省建工集團爆雷后,一地雞毛!

巢客HOME
2026-03-28 18:15:03
還不下課?杜鋒清洗所有天賦球員,CBA史上最“爛”廣東隊誕生!

還不下課?杜鋒清洗所有天賦球員,CBA史上最“爛”廣東隊誕生!

緋雨兒
2026-03-28 12:30:41
唏噓!前曼聯(lián)巨星徹底隕落,30 歲竟落得這般下場

唏噓!前曼聯(lián)巨星徹底隕落,30 歲竟落得這般下場

瀾歸序
2026-03-29 03:30:49
關于伊朗的十大虛假敘事——你是如何被網(wǎng)軍欺騙的?

關于伊朗的十大虛假敘事——你是如何被網(wǎng)軍欺騙的?

楓嶺社
2026-03-27 10:49:09
3月27日,央一、央八、東方、浙江衛(wèi)視黃金檔排播4部新劇

3月27日,央一、央八、東方、浙江衛(wèi)視黃金檔排播4部新劇

小椰的奶奶
2026-03-29 09:19:35
美國媒體:越來越多證據(jù)表明,特朗普正在利用伊朗戰(zhàn)爭操縱市場

美國媒體:越來越多證據(jù)表明,特朗普正在利用伊朗戰(zhàn)爭操縱市場

興史興談
2026-03-28 04:23:15
你們都是什么時候?qū)δ信麻_竅的?網(wǎng)友:果然還是攔不住有心人

你們都是什么時候?qū)δ信麻_竅的?網(wǎng)友:果然還是攔不住有心人

夜深愛雜談
2026-02-21 21:37:02
日本政府開始緊張了

日本政府開始緊張了

東瀛自由行
2026-03-28 23:34:05
韓國網(wǎng)友對泰國籍乘務員進行外貌羞辱:是個人都能當乘務員嗎?

韓國網(wǎng)友對泰國籍乘務員進行外貌羞辱:是個人都能當乘務員嗎?

奮斗在韓國
2026-03-29 10:07:56
關鍵2+1殺死比賽!楊瀚森轟18+7完美收官

關鍵2+1殺死比賽!楊瀚森轟18+7完美收官

體壇周報
2026-03-28 11:14:53
外媒關注:中國外貿(mào)繼續(xù)保持攀升勢頭

外媒關注:中國外貿(mào)繼續(xù)保持攀升勢頭

參考消息
2026-03-28 11:36:04
2026-03-29 10:28:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12620文章數(shù) 142598關注度
往期回顧 全部

科技要聞

馬斯克承認xAI"建錯了",11位創(chuàng)始人均離職

頭條要聞

牛彈琴:特朗普親口對沙特說出傲慢的話 全世界不敢相信

頭條要聞

牛彈琴:特朗普親口對沙特說出傲慢的話 全世界不敢相信

體育要聞

全球第二大車企,也救不了這支德甲隊?

娛樂要聞

陳牧馳陳冰官宣得子 曬一家三口握拳照

財經(jīng)要聞

臥底"科技與狠活"培訓:化工調(diào)味劑泛濫

汽車要聞

嵐圖泰山X8配置曝光 四激光雷達/華為新一代座艙

態(tài)度原創(chuàng)

房產(chǎn)
旅游
數(shù)碼
公開課
軍事航空

房產(chǎn)要聞

首日430組來訪,單日120組認籌!海口首個真四代,徹底爆了!

旅游要聞

武漢:一城繁花 全域皆景

數(shù)碼要聞

小心假冒偽劣硬盤:山寨版三星990 Pro SSD已能偽造讀寫速度

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美軍中東基地損失最新披露

無障礙瀏覽 進入關懷版