国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

北航提出大模型Scaling Laws:編程語言差異與多語言最優(yōu)配比策略

0
分享至



北航、人大和九坤投資共同撰寫的論文 《Scaling Laws for Code: Every Programming Language Matters》 整理而成。

在代碼大模型(Code LLMs)的預訓練中,行業(yè)內(nèi)長期存在一種慣性思維,即把所有編程語言的代碼都視為同質(zhì)化的文本數(shù)據(jù),主要關注數(shù)據(jù)總量的堆疊。然而,現(xiàn)代軟件開發(fā)本質(zhì)上是多語言混合的,不同語言的語法特性、語料規(guī)模和應用場景差異巨大。如果忽略這些差異,籠統(tǒng)地應用通用的 Scaling Laws,往往會導致性能預測偏差和算力浪費。

為了打破這一黑盒,研究團隊耗費了相當于 33.6 萬個 H800 GPU 時,進行了超過 1000 次實驗。研究覆蓋了從 0.2B 到 14B 的模型參數(shù)規(guī)模,以及高達 1T 的訓練數(shù)據(jù)量,系統(tǒng)性地對 Python、Java、JavaScript、TypeScript、C#、Go、Rust 這七種主流語言進行了解構。這項工作的核心貢獻在于建立了區(qū)分語言特性的 Scaling Laws,并據(jù)此提出了一套數(shù)學可解的最優(yōu)數(shù)據(jù)配比方案。



  • 論文:《Scaling Laws for Code: Every Programming Language Matters》
  • 論文鏈接:https://arxiv.org/abs/2512.13472



圖 1:論文提出的多語言 Scaling Law 與傳統(tǒng)均勻分布基線的 Loss 對比。藍色曲線顯示,基于本文方法優(yōu)化的模型在相同算力下能持續(xù)獲得更低的 Loss)

語言特異性:Python 潛力巨大,Rust 快速收斂









圖 2:七種編程語言各自獨立的 Scaling Law 曲線??梢钥吹?Python(左上)的曲線斜率更陡峭,而 Rust(右下)則更早趨于平緩)

協(xié)同效應矩陣:語言間的 “近親繁殖” 與 “非對稱互助”

在實際預訓練中,我們很少只訓練單語言模型。那么,混合多種語言訓練是否存在 “協(xié)同效應”(Synergy)?研究團隊構建了一個詳盡的協(xié)同增益矩陣,量化了引入輔助語言對目標語言性能的影響。

實驗發(fā)現(xiàn),絕大多數(shù)語言都能從多語言混合訓練中獲益,且收益大小與語法相似度高度相關。例如,Java 與 C#、JavaScript 與 TypeScript 這類語法結構高度相似的語言對,在混合訓練時表現(xiàn)出極強的正向遷移效果。

更有趣的是,這種遷移往往是非對稱的。Java是多語言訓練的最大受益者,幾乎與任何語言混合都能大幅降低其 Loss,這可能是因為 Java 作為成熟的面向?qū)ο笳Z言,能從其他語言的范式中汲取通用邏輯。而Python雖然是代碼領域的通用 “供體”(幫助其他語言提升),但其自身從其他語言獲得的收益卻相對有限,甚至在某些混合比例下會出現(xiàn)輕微的負遷移。這一發(fā)現(xiàn)提示我們,在構建語料庫時需要精細設計混合策略,而非盲目地 “大雜燴”。



表 1:協(xié)同增益矩陣。紅色越深代表輔助語言(列)對目標語言(行)的提升越大。Java 所在的行顯示出它能從所有輔助語言中獲得顯著收益)

跨語言對齊策略:并行配對激發(fā) Zero-Shot 能力

除了單語言生成,跨語言翻譯(如 Java 轉 Python)也是代碼模型的重要能力。論文對比了兩種數(shù)據(jù)組織策略:傳統(tǒng)的“隨機打亂”(Random Shuffling)和“并行配對”(Parallel Pairing)—— 即將一段代碼與其翻譯版本拼接在同一個 Context 中輸入模型。

實驗結果表明,并行配對策略在所有模型規(guī)模上均顯著優(yōu)于基線。這種策略實際上利用了模型的長上下文窗口,構建了隱式的文檔級對齊信號。更關鍵的是,這種策略激發(fā)了模型在Zero-Shot(零樣本)方向上的泛化能力。例如,模型僅訓練了 Python?Java 和 Python?Go 的配對數(shù)據(jù),但在測試從未見過的 Java?Go 翻譯任務時,基于并行配對訓練的模型表現(xiàn)出了驚人的組合泛化能力。這證明了通過構建以 Python 為樞紐的平行語料,可以有效拉齊不同編程語言的向量空間。



圖 4:三種策略在跨語言翻譯任務上的表現(xiàn)對比。綠色線條代表的并行配對策略(Prompt-based Concatenation)在各方向上均取得最低 Loss)

最優(yōu) Token 分配指南:基于邊際效用的經(jīng)濟學

基于上述發(fā)現(xiàn),論文提出了“科學配比的多語言 Scaling Law”(Proportion-dependent Multilingual Scaling Law)。這不僅是一個理論公式,更是一套指導算力投資的行動指南。

在總算力固定的約束下,傳統(tǒng)的均勻分配并非最優(yōu)解。最優(yōu)策略應遵循邊際效用最大化原則

  1. 重倉高潛力語言:大幅增加Python的 Token 占比,因為它的 Scaling 指數(shù)高,投入更多數(shù)據(jù)能帶來持續(xù)的性能爬坡。
  2. 平衡高協(xié)同組合:利用JavaScriptTypeScript的互補性,保持兩者適度的比例以最大化協(xié)同增益。
  3. 削減早熟語言投入:適當減少RustGo的數(shù)據(jù)占比。因為它們收斂快,過多的數(shù)據(jù)投入只會帶來邊際收益的快速衰減,不如將這部分算力轉移給更難學的語言。

實驗驗證顯示,采用這種 “引導式分配” 策略訓練出的 1.5B 模型,在多語言代碼生成(MultiPL-E)和翻譯任務上,均穩(wěn)定優(yōu)于均勻分配的基線模型,且沒有任何一種語言因數(shù)據(jù)減少而出現(xiàn)顯著的性能退化。



圖 5:基線策略 vs 優(yōu)化后的 Token 分配方案?;?Scaling Law 的建議大幅增加了 Python(藍色)的占比,同時削減了 Rust(橙色)和 Go(青色)的占比)

總結與啟示

這項工作是代碼大模型領域一次重要的 “去魅” 過程。它用詳實的數(shù)據(jù)證明,編程語言在模型訓練的視角下絕非同質(zhì)。

對于致力于訓練 Code LLM 的團隊而言,這意味著數(shù)據(jù)工程的重點應從單純的 “清洗與去重” 轉向更宏觀的 “成分配比”。理解不同語言的 Scaling 特性(是像 Python 一樣潛力巨大,還是像 Rust 一樣迅速飽和)以及它們之間的協(xié)同關系,能夠幫助我們在有限的算力預算下,訓練出綜合代碼能力更強的基座模型。這不僅是算法的優(yōu)化,更是資源配置效率的提升。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
拒絕爆冷,湖人三連勝,賽后數(shù)據(jù)一覽,最大贏球功臣不是東契奇

拒絕爆冷,湖人三連勝,賽后數(shù)據(jù)一覽,最大贏球功臣不是東契奇

鄒維體育
2026-01-07 11:26:34
CBA最新:瓊斯簽約時間確定,薩姆納曝NBA薪資已賺夠養(yǎng)老錢

CBA最新:瓊斯簽約時間確定,薩姆納曝NBA薪資已賺夠養(yǎng)老錢

阿嚼影視評論
2026-01-06 18:01:42
斯諾克賽程!決出第3個勝者組席位,中國雙星沖冠,TOP16或翻車?

斯諾克賽程!決出第3個勝者組席位,中國雙星沖冠,TOP16或翻車?

劉姚堯的文字城堡
2026-01-07 07:59:46
13連??!東部冠軍徹底倒下!加蘭29+6證明自我,一戰(zhàn)看清4個現(xiàn)實

13連??!東部冠軍徹底倒下!加蘭29+6證明自我,一戰(zhàn)看清4個現(xiàn)實

籃球看比賽
2026-01-07 12:44:28
女子產(chǎn)后被持刀家暴后續(xù):特殊原因曝光,丈夫拒絕離婚,婦聯(lián)介入

女子產(chǎn)后被持刀家暴后續(xù):特殊原因曝光,丈夫拒絕離婚,婦聯(lián)介入

奇思妙想草葉君
2026-01-06 19:05:08
成都蓉城官宣!韋林頓正式加盟,獲譽青島姆巴佩,30場造14球

成都蓉城官宣!韋林頓正式加盟,獲譽青島姆巴佩,30場造14球

奧拜爾
2026-01-07 11:29:47
7戰(zhàn)5敗后終破咒!20歲林詩棟逆轉張本,這才是國乒大旗模樣

7戰(zhàn)5敗后終破咒!20歲林詩棟逆轉張本,這才是國乒大旗模樣

阿晞體育
2025-12-11 12:18:08
上海地鐵突發(fā)!婁山關路站又臭了,水漫金山...市民疑惑:商場月炸?官方致歉來了

上海地鐵突發(fā)!婁山關路站又臭了,水漫金山...市民疑惑:商場月炸?官方致歉來了

環(huán)球網(wǎng)資訊
2026-01-07 11:06:12
這就是毛主席父親的真實容貌,都看看吧,這可不是演員扮演的!

這就是毛主席父親的真實容貌,都看看吧,這可不是演員扮演的!

萬物知識圈
2026-01-05 09:10:33
外國夫婦國際航班靠枕濕漉漉,以為是水灑了,得知真相后他們當場炸了

外國夫婦國際航班靠枕濕漉漉,以為是水灑了,得知真相后他們當場炸了

英國那些事兒
2026-01-06 23:28:48
大戲才開場!馬杜羅被俘后,委副總統(tǒng)火速上位,特朗普卻騎虎難下

大戲才開場!馬杜羅被俘后,委副總統(tǒng)火速上位,特朗普卻騎虎難下

壹知眠羊
2026-01-07 12:05:10
中國首位世姐!182cm高挑身段 張梓琳美到骨子里

中國首位世姐!182cm高挑身段 張梓琳美到骨子里

TVB的四小花
2026-01-07 11:12:16
婆婆將我20萬陪嫁卡拿走,說幫我存,我直接掛失,當晚小叔子上門

婆婆將我20萬陪嫁卡拿走,說幫我存,我直接掛失,當晚小叔子上門

船長與船1
2025-12-15 10:03:13
1.3 萬雜牌軍配 660 挺機槍,非德械非中央軍,到底有多特殊?

1.3 萬雜牌軍配 660 挺機槍,非德械非中央軍,到底有多特殊?

嘮叨說歷史
2025-12-30 14:28:59
郭臺銘終于想通了!上千億在美國打水漂,帶46臺光刻機回國求合作

郭臺銘終于想通了!上千億在美國打水漂,帶46臺光刻機回國求合作

霽寒飄雪
2026-01-07 12:07:27
解密抓捕馬杜羅驚心動魄全過程,美國下個目標是格陵蘭島?

解密抓捕馬杜羅驚心動魄全過程,美國下個目標是格陵蘭島?

碼頭青年
2026-01-05 17:37:12
來了,我的2025年度十佳電影

來了,我的2025年度十佳電影

獨立魚
2026-01-01 21:49:24
曾志偉也沒想到,卸任TVB總經(jīng)理不到24小時,惡心的一幕就發(fā)生了

曾志偉也沒想到,卸任TVB總經(jīng)理不到24小時,惡心的一幕就發(fā)生了

阿纂看事
2026-01-05 14:32:39
“湖人俠”再度發(fā)力!馬刺一忍再忍苦吞逆轉 文班30+5有力無處使

“湖人俠”再度發(fā)力!馬刺一忍再忍苦吞逆轉 文班30+5有力無處使

鍋子籃球
2026-01-07 12:52:48
流浪柬埔寨的福建女網(wǎng)紅毒品檢測呈陽性 拒絕透露工作內(nèi)容

流浪柬埔寨的福建女網(wǎng)紅毒品檢測呈陽性 拒絕透露工作內(nèi)容

閃電新聞
2026-01-06 15:40:22
2026-01-07 13:39:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12068文章數(shù) 142530關注度
往期回顧 全部

科技要聞

豪擲世界第一"球" 楊元慶亮出聯(lián)想AI護城河

頭條要聞

外媒披露美國在委內(nèi)瑞拉下個目標:系馬杜羅關鍵盟友

頭條要聞

外媒披露美國在委內(nèi)瑞拉下個目標:系馬杜羅關鍵盟友

體育要聞

全明星次輪票數(shù):東契奇票王 詹皇超KD升西部第8

娛樂要聞

2026年央視春晚彩排:沈騰確定回歸

財經(jīng)要聞

50萬億存款"洪流"將至 四大去向引關注

汽車要聞

蔚來2025百萬臺收官 一場遲到的自我修復

態(tài)度原創(chuàng)

家居
本地
游戲
時尚
軍事航空

家居要聞

寧靜不單調(diào) 恰到好處的美

本地新聞

云游內(nèi)蒙|初見呼和浩特,古今交融的北疆都會

射擊×養(yǎng)成×冒險游戲 《最終兵器鼠鼠》將于1月20日(周二)登陸Steam!

冬天穿衣既要有溫度又要有風度!看看這些穿搭,優(yōu)雅又顯瘦

軍事要聞

特朗普政府正在討論獲取格陵蘭島的方案 包括軍事選項

無障礙瀏覽 進入關懷版