国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

微軟等提出ARO優(yōu)化器:訓(xùn)練提速1/3,揭示矩陣優(yōu)化新「藍(lán)!

0
分享至



如果你在過去一年關(guān)注過大模型訓(xùn)練的技術(shù),大概率聽過 Muon 這個(gè)名字 —— 這個(gè)在月之暗面 K2 模型的相關(guān)討論中走紅的優(yōu)化器,被視為是可能挑戰(zhàn) Adam 的新秀。它的思路很直接:對動量矩陣進(jìn)行正交化,讓各個(gè)奇異方向上的更新速率一致,提升訓(xùn)練效率。

Muon 帶動了基于正交化算法的改進(jìn)熱潮,但一個(gè)根本問題始終較少被討論:正交化方法,究竟是通往高效訓(xùn)練的必經(jīng)之路,還是某個(gè)更深層原則的一個(gè)特例?我們是否能跳出 “正交化” 這個(gè)框,找到矩陣優(yōu)化算法的新 “藍(lán)!?

微軟研究院聯(lián)合港中文(深圳)、威斯康星大學(xué)麥迪遜分校最新放出的長篇論文,從方法論創(chuàng)新、工程驗(yàn)證到理論詮釋,給出了肯定的答案。

  • 團(tuán)隊(duì)首先將現(xiàn)有常用矩陣優(yōu)化器統(tǒng)一到基于旋轉(zhuǎn)的視角 ——在旋轉(zhuǎn)后的坐標(biāo)系中最速下降
  • 論文把 “梯度旋轉(zhuǎn)” 作為第一原則,讓旋轉(zhuǎn)策略動態(tài)地提升最速下降的速率,推導(dǎo)出一類新的優(yōu)化器:ARO(自適應(yīng)旋轉(zhuǎn)優(yōu)化,Adaptively Rotated Optimization)。Muon 可被視為 ARO 的一個(gè)特例。
  • 通過嚴(yán)格控制的大規(guī)模訓(xùn)練, ARO 將大語言模型的訓(xùn)練效率相對 AdamW 提升了約 1/3(額外時(shí)間開銷壓在 3% 以內(nèi)),比 Muon 還要高效 10%~15%,且在最多 80 億參數(shù)、多倍過訓(xùn)練的壓力測試下,未出現(xiàn)收益遞減跡象
  • 最后,論文還進(jìn)一步探究更深層問題:為什么旋轉(zhuǎn)是本質(zhì)的?首先,他們通過理論分析,提出了對稱性假設(shè)—— 即旋轉(zhuǎn) / 乃至矩陣優(yōu)化,本質(zhì)上可能是利用了大模型架構(gòu)豐富的對稱性;而 ARO 的旋轉(zhuǎn)策略則進(jìn)一步利用了這種 “紅利”,在收斂效率與魯棒性之間取得了更好的權(quán)衡。作者將對稱性觀點(diǎn)反饋在 ARO 完善上,進(jìn)一步開發(fā)跨層耦合等新特性,取得良好效果。



  • 論文標(biāo)題:ARO: A New Lens On Matrix Optimization For Large Models
  • 論文地址:https://arxiv.org/abs/2602.09006
  • 作者:Wenbo Gong, Javier Zazo, Qijun Luo, Puqian Wang, James Hensman, Chao Ma
  • 機(jī)構(gòu):微軟研究院,香港中文大學(xué)(深圳),威斯康星大學(xué)麥迪遜分校

旋轉(zhuǎn):更一般的優(yōu)化框架

論文指出,如果把 Muon、SOAP、SPlus、Galore 等常見矩陣優(yōu)化方法進(jìn)行簡化和抽象,它們本質(zhì)上都是在一個(gè)被旋轉(zhuǎn)后的坐標(biāo)系中,使用 Adam 或者變體進(jìn)行模型優(yōu)化。它們先找到一個(gè)旋轉(zhuǎn)矩陣 R,把梯度 G 旋轉(zhuǎn)到新的坐標(biāo)系下;用某個(gè)基座優(yōu)化器 f 計(jì)算單步更新量;最后,將該更新量旋轉(zhuǎn)回原來的坐標(biāo)。這個(gè)過程可以寫成:





ARO 優(yōu)化器:將梯度旋轉(zhuǎn)作為第一原則

論文提出將旋轉(zhuǎn)最速下降提升到設(shè)計(jì)優(yōu)化器的新原則, 從而可以考慮更一般的旋轉(zhuǎn) R,和更廣泛的基座優(yōu)化器 f。能不能讓這兩個(gè)部分有機(jī)地聯(lián)動起來,去優(yōu)化一個(gè)具體的訓(xùn)練效率指標(biāo),例如模型訓(xùn)練損失的下降速度?

論文提出:給定一般的基座優(yōu)化器 f,我們可以近似地求解旋轉(zhuǎn) R,使旋轉(zhuǎn)更新下的訓(xùn)練損失下降速率得以提升。于是,我們推導(dǎo)出 ARO 的更新規(guī)則:



(其中M是動量)

它的直覺很簡單:ARO 是在拿上一輪旋轉(zhuǎn)后的基座優(yōu)化器更新量,尋找新的旋轉(zhuǎn)去大概 “對齊” 原始的梯度動量。換句話說,ARO 在主動地去尋找一個(gè)能讓當(dāng)前優(yōu)化器 f 發(fā)揮得更好的旋轉(zhuǎn)角度。實(shí)驗(yàn)發(fā)現(xiàn)(圖 1),用 ARO 的更新方向,比基于傳統(tǒng)特征旋轉(zhuǎn)的更新,能帶來更優(yōu)的瞬時(shí)損失下降率 —— 該優(yōu)勢在整個(gè)訓(xùn)練過程中持續(xù)存在。



嚴(yán)格控制的實(shí)驗(yàn)準(zhǔn)則:為了結(jié)論的可靠性,論文給自己加了道檻

優(yōu)化器評估常面臨一個(gè)痛點(diǎn):在研究級場景下所得出的結(jié)論,很難遷移到實(shí)際場景。原因可能在于基準(zhǔn)設(shè)置中的一些實(shí)驗(yàn)準(zhǔn)則未與真實(shí)環(huán)境對齊,導(dǎo)致指導(dǎo)性有限。

對此,論文規(guī)定了一套實(shí)驗(yàn)準(zhǔn)則:從混合精度選取、學(xué)習(xí)率衰減、非隱層優(yōu)化器統(tǒng)一、到學(xué)習(xí)率遷移策略等環(huán)節(jié)都進(jìn)行去偏控制;并盡可能采用大的 batch size(最高 1400 萬)、長的序列長度(最高 4K),足夠大的模型規(guī)模(最高 80 億)和訓(xùn)練預(yù)算(最高 8 倍過訓(xùn)練),盡可能貼近真實(shí)訓(xùn)練場景;在可行的情況下對 AdamW 基線進(jìn)行端到端調(diào)參,避免用外推法估算超參。在這種規(guī)范下,論文得出的加速率較為溫和,但在跨尺度測試下卻更加一致、更可遷移。

大規(guī)模實(shí)驗(yàn):顯著、穩(wěn)定、一致的效率提升

在以上原則下,評估分為兩部分。

  • 小規(guī)模驗(yàn)證(1 億 - 15 億參數(shù) GPT)中,ARO 的旋轉(zhuǎn)策略在多種基座優(yōu)化器下均展現(xiàn)出普適性提升。橫向?qū)Ρ葻o旋轉(zhuǎn)和傳統(tǒng)特征旋轉(zhuǎn)版本,以及橫向?qū)Ρ?AdamW 和正交化方法,全部表現(xiàn)更優(yōu)(圖 2)。這也側(cè)面說明,梯度旋轉(zhuǎn)是一個(gè)非常關(guān)鍵的設(shè)計(jì)維度。



  • 規(guī);瘜(shí)驗(yàn)將 ARO 推向更大場景:架構(gòu)覆蓋稠密和 MoE,規(guī)模從 3 億延伸至 80 億激活參數(shù),訓(xùn)練預(yù)算拉到 1-8 倍 Chinchilla 過訓(xùn)練。結(jié)果顯示(圖 3),ARO 對 AdamW 保持約 1.3-1.35 倍加速,對 Muon 等正交化方法保持約 1.1-1.15 倍加速,且加速比在更大規(guī)模、更長周期下未見衰減。同時(shí),作者通過工程優(yōu)化使得 ARO 在大規(guī)模分布訓(xùn)練下的額外開銷相比 AdamW 控制在 3% 以內(nèi)。



一個(gè)有趣的 “副產(chǎn)物”:全模型優(yōu)化

在主流的矩陣優(yōu)化器實(shí)踐策略中,它們通常只用在隱藏層上 ——embedding 和 LM head 等參數(shù)還得靠 AdamW 來管。這被稱為 “混合 / 分治模式”。其中一個(gè)原因是當(dāng)其被直接用到上述參數(shù)上,可能會導(dǎo)致訓(xùn)練顯著變差,甚至不收斂。而 ARO 路線下一個(gè)新的 “副產(chǎn)物” 是:它可以在全模型參數(shù)上跑通。



論文在 Sigma-MoE-2B 里對比了幾種設(shè)置:混合(ARO 只優(yōu)化隱藏層)、全模型(ARO 優(yōu)化所有矩陣參數(shù))。結(jié)果表明(圖 4),全模型模式的 ARO 在訓(xùn)練后期(3 倍 - 4 倍過訓(xùn)練之后)反而比混合模式效果更好。

這意味著 ARO 原則上能夠從旋轉(zhuǎn)的角度,統(tǒng)一地處理全模型的矩陣參數(shù)—— 這也一定程度上挑戰(zhàn)了當(dāng)前矩陣優(yōu)化器較為流行的 “分而治之” 的設(shè)計(jì)理念。

為什么旋轉(zhuǎn)是本質(zhì)的?一個(gè)更底層的視角:對稱性

接下來,論文進(jìn)一步探究更深層的問題:為什么旋轉(zhuǎn)原則 “恰好” 隱藏在諸多矩陣優(yōu)化器的設(shè)計(jì)中?論文的拓展討論指向了一個(gè)概念:神經(jīng)網(wǎng)絡(luò)的參數(shù)對稱性。

微軟團(tuán)隊(duì)在此前的工作(SliceGPT)中提出過一個(gè)定理:Transformer 存在豐富的殘差流對稱性—— 在特定約束下將參數(shù)同時(shí)旋轉(zhuǎn),模型的輸出不變。這意味著參數(shù)空間中存在連續(xù)區(qū)域,其中所有點(diǎn)對應(yīng)同一函數(shù)。

與傳統(tǒng)優(yōu)化器相比,ARO 在這片區(qū)域里多了一個(gè)可操作的自由度:論文證明,ARO 理論上等價(jià)于非歐幾何下的對稱瞬移(Symmetry Teleportation)—— 一類利用對稱性信息加速收斂的經(jīng)典算法。即,在不改變損失的前提下,ARO 將參數(shù) “瞬移” 到群軌道中另一個(gè)更利于優(yōu)化的位置,再邁出下一步。

論文進(jìn)一步分析了 ARO 是如何利用這種自由度的。傳統(tǒng)對稱瞬移追求瞬時(shí)收斂速率的最大化,但這在實(shí)際當(dāng)中并不總能取得實(shí)際收益。對此,論文主要理論證明了兩個(gè)結(jié)論:1. 隨機(jī)梯度下大幅提高瞬時(shí)速率可能會導(dǎo)致?lián)p失下降不穩(wěn)定;2. 而 Muon/SOAP 等使用的特征旋轉(zhuǎn)則是另一個(gè)極端,最大化穩(wěn)定性但同時(shí)會削弱下降速率,取向于保守。ARO 的實(shí)現(xiàn)則采取了一種溫和的部分提升策略,在提升下降率的同時(shí)維持穩(wěn)定性,在收斂效率與魯棒性之間取得了更好的權(quán)衡。

這個(gè)視角下,ARO 不再是單純的矩陣運(yùn)算技巧,而是利用架構(gòu)固有對稱性的自然產(chǎn)物。論文將這一觀察一般化為“對稱性假設(shè)”:已知的矩陣優(yōu)化器之所以有效,可能是無意中利用了損失景觀中的對稱性。

通過對稱性視角,進(jìn)一步解鎖優(yōu)化 “新姿勢”

對稱性視角不僅是對于優(yōu)化的新詮釋,也進(jìn)一步為 ARO 解鎖了 “新姿勢”。例如:

  • 殘差流對稱性自然地包含了 embedding 和 lm head—— 二者在對稱性的語義下與隱含層并無本質(zhì)不同。因此,在對稱性視角下,ARO 可用于全模型優(yōu)化上,這與大規(guī)模實(shí)驗(yàn)中的觀測吻合。
  • 對稱性關(guān)系揭示了跨層、跨模塊之間的耦合約束。例如,受同一段殘差流支配的矩陣(如某一層的 QKV 和上一層的輸出投影)理當(dāng)綁定同一個(gè)旋轉(zhuǎn)。這提供了一種經(jīng)濟(jì)利用跨層相關(guān)性的途徑 —— 不是通過暴力計(jì)算全局二階矩,而是通過架構(gòu)自身的耦合關(guān)系綁定旋轉(zhuǎn)。在小規(guī)模模型上初步驗(yàn)證:跨層綁定旋轉(zhuǎn)不僅能降低計(jì)算開銷,還顯著提升了優(yōu)化性能。



回過頭看,ARO 的貢獻(xiàn)可以分為三部分:把 “旋轉(zhuǎn)” 從既有優(yōu)化器的隱含設(shè)計(jì)里提煉為第一原則;通過嚴(yán)格的規(guī);瘜(shí)驗(yàn)證明其有效性;用架構(gòu)本身的全局性質(zhì)為矩陣優(yōu)化提供新的詮釋,并衍生出新的耦合設(shè)計(jì)。如果說 Muon 優(yōu)化器是從 “向量到矩陣的本質(zhì)跨越”,那么 ARO 則指向一個(gè)新的可能:從 “矩陣優(yōu)化” 走向 “全模型耦合優(yōu)化”—— 優(yōu)化器的設(shè)計(jì),也許應(yīng)該和架構(gòu)綁得更緊一些。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
竹籃打水一場空!退位的賈國龍撕下僅剩的體面,羅永浩輸麻了

竹籃打水一場空!退位的賈國龍撕下僅剩的體面,羅永浩輸麻了

寒士之言本尊
2026-03-09 16:13:47
爸媽!真的不要再往馬桶里倒水了!

爸媽!真的不要再往馬桶里倒水了!

家居設(shè)計(jì)師宅哥
2026-03-08 18:21:44
簽約麥基!周琦替補(bǔ)地位不保,場均3.6分白拿頂薪,明年合同到期

簽約麥基!周琦替補(bǔ)地位不保,場均3.6分白拿頂薪,明年合同到期

體壇大事記
2026-03-10 12:12:44
女孩花50元買5枝玫瑰送媽媽,父親大鬧花店,“不退錢就讓店開不下去!” 網(wǎng)友:可能是孩子一生的陰影...

女孩花50元買5枝玫瑰送媽媽,父親大鬧花店,“不退錢就讓店開不下去!” 網(wǎng)友:可能是孩子一生的陰影...

大風(fēng)新聞
2026-03-09 21:28:05
馬斯克評比亞迪:產(chǎn)能跌破50%是"巨大痛苦",BYD連續(xù)六個(gè)月銷量下滑

馬斯克評比亞迪:產(chǎn)能跌破50%是"巨大痛苦",BYD連續(xù)六個(gè)月銷量下滑

新浪財(cái)經(jīng)
2026-03-07 20:46:51
面對上甘嶺遍地?cái)呈瑸榛蠲?連4班提出大膽想法,最終全員生還

面對上甘嶺遍地?cái)呈,為活命?連4班提出大膽想法,最終全員生還

明月清風(fēng)閣
2026-03-10 10:40:12
大變天!快船超勇士沖上第八!兩大新援漸入佳境,西部排名更新

大變天!快船超勇士沖上第八!兩大新援漸入佳境,西部排名更新

體壇小李
2026-03-10 13:39:16
最強(qiáng)美軍援助已抵達(dá)!中東各國猛然意識到:中國三大預(yù)測全部應(yīng)驗(yàn)

最強(qiáng)美軍援助已抵達(dá)!中東各國猛然意識到:中國三大預(yù)測全部應(yīng)驗(yàn)

近史談
2026-03-09 16:42:00
正面對決3-0!MVP,還有懸念嗎?

正面對決3-0!MVP,還有懸念嗎?

籃球?qū)嶄?/span>
2026-03-10 12:31:53
彩票中獎(jiǎng)1000萬別慌!現(xiàn)金支票和轉(zhuǎn)賬支票,選錯(cuò)一步麻煩不斷

彩票中獎(jiǎng)1000萬別慌!現(xiàn)金支票和轉(zhuǎn)賬支票,選錯(cuò)一步麻煩不斷

蜉蝣說
2026-03-09 11:05:04
全國人大代表孫東偉:建議將花生作為油料的主力品種

全國人大代表孫東偉:建議將花生作為油料的主力品種

經(jīng)濟(jì)觀察報(bào)
2026-03-09 17:05:04
米利西奇:不會理會媒體的質(zhì)疑;很高興姑娘們專注于踢球

米利西奇:不會理會媒體的質(zhì)疑;很高興姑娘們專注于踢球

懂球帝
2026-03-09 21:17:04
OpenClaw 上,正在長出一整個(gè)「AI 硬件」生態(tài)

OpenClaw 上,正在長出一整個(gè)「AI 硬件」生態(tài)

極客公園
2026-03-09 12:13:33
中國駐英國大使館:提醒在英中國公民謹(jǐn)防冒充香港廉政公署的電信詐騙

中國駐英國大使館:提醒在英中國公民謹(jǐn)防冒充香港廉政公署的電信詐騙

環(huán)球網(wǎng)資訊
2026-03-10 08:09:04
陳曉和肖戰(zhàn)誰更帥?其實(shí)單看肖戰(zhàn),真的很帥,陽光干凈,特別亮眼

陳曉和肖戰(zhàn)誰更帥?其實(shí)單看肖戰(zhàn),真的很帥,陽光干凈,特別亮眼

小光侃娛樂
2026-03-10 12:40:08
工信部預(yù)警:“龍蝦”O(jiān)penClaw存在較高安全風(fēng)險(xiǎn)

工信部預(yù)警:“龍蝦”O(jiān)penClaw存在較高安全風(fēng)險(xiǎn)

AI先鋒官
2026-03-09 08:00:42
阿布律師警告英政府:出售切爾西所得23.5億鎊完全屬于阿布

阿布律師警告英政府:出售切爾西所得23.5億鎊完全屬于阿布

懂球帝
2026-03-09 18:29:32
韓國教授:漢朝前中國一直歸屬韓國統(tǒng)治,外國網(wǎng)友評論出奇一致

韓國教授:漢朝前中國一直歸屬韓國統(tǒng)治,外國網(wǎng)友評論出奇一致

談史論天地
2026-02-24 12:51:25
35+9+15+絕殺!最后1分鐘9分,約基奇不想殺人,只想亖!

35+9+15+絕殺!最后1分鐘9分,約基奇不想殺人,只想亖!

貴圈真亂
2026-03-10 12:45:09
退休人員好消息,政府工作報(bào)告敲定養(yǎng)老金調(diào)整,調(diào)整比例達(dá)13.98%

退休人員好消息,政府工作報(bào)告敲定養(yǎng)老金調(diào)整,調(diào)整比例達(dá)13.98%

社保小達(dá)人
2026-03-10 11:10:05
2026-03-10 14:24:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12456文章數(shù) 142579關(guān)注度
往期回顧 全部

科技要聞

“龍蝦”狂歡 賣“飼料”先掙錢了?

頭條要聞

媒體:伊各方誓言贏得戰(zhàn)爭 美國現(xiàn)在即使想退出也很難

頭條要聞

媒體:伊各方誓言贏得戰(zhàn)爭 美國現(xiàn)在即使想退出也很難

體育要聞

韓國女足羨慕的奢侈品,為何選擇中國女足

娛樂要聞

肖戰(zhàn)首奪SMG視帝,孫儷四封視后創(chuàng)歷史

財(cái)經(jīng)要聞

全民"養(yǎng)龍蝦"背后 第一批受害者浮現(xiàn)

汽車要聞

蔚來換電和理想5C,誰能硬剛,比亞迪兆瓦閃充?

態(tài)度原創(chuàng)

教育
手機(jī)
親子
時(shí)尚
本地

教育要聞

不讀書不拿文憑,將來你拿什么和別人比?

手機(jī)要聞

蘋果印度制造再提速:iPhone年產(chǎn)量激增53%達(dá)5500萬部全球占比25%

親子要聞

8歲小朋友智商高達(dá)146!“天才兒童”都有以下特征,你家滿足幾個(gè)

沒有人不愛這個(gè)穿平底鞋都發(fā)光的女人

本地新聞

云游中國|候鳥高顏值亮相!沉浸式打卡青海濕地

無障礙瀏覽 進(jìn)入關(guān)懷版