国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

英偉達(dá)成美國(guó)大模型開源標(biāo)桿:Nemotron 3連訓(xùn)練配方都公開

0
分享至

夢(mèng)晨 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

英偉達(dá)在開源模型上玩的很激進(jìn):

“最高效的開放模型家族”Nemotron 3,混合Mamba-Transformer MoE架構(gòu)、NVFP4低精度訓(xùn)練全用上。



而且開放得很徹底:

不僅開放模型權(quán)重,還要把超過(guò)10萬(wàn)億token的訓(xùn)練數(shù)據(jù)、預(yù)訓(xùn)練和后訓(xùn)練軟件、訓(xùn)練配方全部公開。



與其他開源模型相比性能有競(jìng)爭(zhēng)力,且速度快1.5-3.3倍。



把Mamba和Transformer混著用

Nemotron 3在架構(gòu)層面追求推理效率的最大化。

傳統(tǒng)Transformer的自注意力機(jī)制需要對(duì)不斷增長(zhǎng)的KV Cache做線性掃描,序列越長(zhǎng),計(jì)算開銷越大。

英偉達(dá)的解決方案是大量使用Mamba-2層替代自注意力層——Mamba層在生成時(shí)只需要存儲(chǔ)固定大小的狀態(tài),不受序列長(zhǎng)度影響。

以Nano型號(hào)為例,整個(gè)模型主要由交替堆疊的Mamba-2層和MoE層構(gòu)成,自注意力層只保留了少數(shù)幾個(gè)。

論文給出的層排布模式是:5個(gè)Mamba-2+MoE的重復(fù)單元,接3個(gè)同樣結(jié)構(gòu)的單元,再來(lái)1個(gè)包含注意力層的單元,最后是4個(gè)Mamba-2+MoE單元。



在8k輸入、16k輸出的典型推理場(chǎng)景下,Nemotron 3 Nano 30B-A3B的吞吐量是Qwen3-30B-A3B的3.3倍。序列越長(zhǎng),優(yōu)勢(shì)越明顯。



與此同時(shí),模型在長(zhǎng)上下文任務(wù)上的表現(xiàn)并沒(méi)有打折扣。

論文展示了一組RULER基準(zhǔn)測(cè)試的結(jié)果:在100萬(wàn)token輸入長(zhǎng)度下,Nemotron 3 Nano基座模型拿到了68.2分,而在同樣條件下訓(xùn)練的Nemotron 2 Nano 12B只有23.43分,出現(xiàn)了斷崖式下跌。MoE混合架構(gòu)在長(zhǎng)度外推上的魯棒性明顯更好。

LatentMoE:在潛空間里做專家路由

針對(duì)Super和Ultra這兩個(gè)更大的模型,英偉達(dá)提出了LatentMoE架構(gòu),在潛在空間中進(jìn)行專家計(jì)算。

MoE層在實(shí)際部署時(shí)會(huì)遇到兩類瓶頸:

低延遲場(chǎng)景下,每次只處理幾十到幾百個(gè)token,此時(shí)從顯存讀取專家權(quán)重成為主要開銷。

高吞吐場(chǎng)景下,一次處理數(shù)千token,此時(shí)專家間的all-to-all通信成為瓶頸。兩種情況下,開銷都與隱藏維度d線性相關(guān)。

LatentMoE的做法是:先把token從原始隱藏維度d投影到一個(gè)更小的潛在維度?(通常是d的四分之一),在這個(gè)低維空間里完成專家路由和計(jì)算,最后再投影回原始維度。

這樣一來(lái),每個(gè)專家的權(quán)重加載量和通信量都降低了d/?倍。省下來(lái)的計(jì)算預(yù)算被用于增加專家數(shù)量和每個(gè)token激活的專家數(shù)。



標(biāo)準(zhǔn)MoE用128個(gè)專家、激活6個(gè);LatentMoE用512個(gè)專家、激活22個(gè)。

兩者的總參數(shù)量和激活參數(shù)量幾乎相同(都是8B激活、73B總參),但LatentMoE在所有下游任務(wù)上都取得了更好的成績(jī)——MMLU-Pro從48.30提升到52.87,代碼任務(wù)從51.95提升到55.14,數(shù)學(xué)任務(wù)從78.32提升到80.19。



需要注意的是,路由門控網(wǎng)絡(luò)、共享專家計(jì)算以及非專家層仍然保留在原始維度,因?yàn)檫@些部分對(duì)瓶頸的貢獻(xiàn)很小。

用NVFP4訓(xùn)練250億token

Super和Ultra還采用了NVFP4格式進(jìn)行訓(xùn)練,這是英偉達(dá)在低精度訓(xùn)練上的又一次探索。

NVFP4是一種4位浮點(diǎn)格式,采用E2M1的元素格式(2位指數(shù)、1位尾數(shù)),配合16元素的微塊縮放和E4M3格式的塊縮放因子。在GB300上,F(xiàn)P4的峰值吞吐量是FP8的3倍。

論文顯示,團(tuán)隊(duì)已經(jīng)用NVFP4格式穩(wěn)定訓(xùn)練了高達(dá)25萬(wàn)億token。與BF16訓(xùn)練相比,Nano模型的損失差距控制在1%以內(nèi),8B激活參數(shù)的更大模型差距進(jìn)一步縮小到0.6%以內(nèi)。



在MMLU、GSM8K、HumanEval等下游任務(wù)上,NVFP4訓(xùn)練的模型與BF16版本的準(zhǔn)確率曲線幾乎完全重合。



不過(guò)并非所有層都適合量化到NVFP4。團(tuán)隊(duì)發(fā)現(xiàn)Mamba輸出投影層在量化后會(huì)出現(xiàn)高達(dá)40%的flush-to-zero現(xiàn)象,因此保留在MXFP8精度;QKV投影和注意力投影保留在BF16以維持少量注意力層的保真度;網(wǎng)絡(luò)最后15%的層也保持高精度以確保穩(wěn)定性。MTP層和潛在投影由于對(duì)推理時(shí)間影響很小,同樣保留在BF16。

多環(huán)境強(qiáng)化學(xué)習(xí)一把訓(xùn)到底

Nemotron 3的后訓(xùn)練采用了多環(huán)境強(qiáng)化學(xué)習(xí),覆蓋數(shù)學(xué)推理、競(jìng)賽編程、指令遵循、軟件工程、搜索、對(duì)話、通用工具使用、長(zhǎng)上下文等多種任務(wù)。

與之前分階段訓(xùn)練不同能力的做法不同,這次英偉達(dá)選擇同時(shí)訓(xùn)練所有任務(wù)。

論文指出,這種同步訓(xùn)練方式更穩(wěn)定,更不容易出現(xiàn)reward hacking,也避免了分階段訓(xùn)練常見(jiàn)的能力退化問(wèn)題。

AIME25數(shù)學(xué)分?jǐn)?shù)從80提升到90,LiveCodeBench從65提升到72,τ2-Bench工具使用從40提升到50左右,全程呈穩(wěn)定上升趨勢(shì)。



高效的推理吞吐量在這里發(fā)揮了重要作用。

大規(guī)模RL需要生成海量rollout樣本,Nemotron 3的混合架構(gòu)相比其他開源模型有顯著優(yōu)勢(shì)。

團(tuán)隊(duì)還采用了異步RL架構(gòu)來(lái)解耦訓(xùn)練和推理,并利用多token預(yù)測(cè)加速rollout生成。訓(xùn)練算法方面使用GRPO配合masked importance sampling來(lái)處理訓(xùn)練策略和rollout策略之間的差異。

整個(gè)后訓(xùn)練軟件棧以Apache 2.0協(xié)議開源,包括NeMo-RL(可擴(kuò)展RL訓(xùn)練)和NeMo-Gym(RL環(huán)境集合)兩個(gè)倉(cāng)庫(kù)。

此外,Nemotron 3還支持推理時(shí)的思維預(yù)算控制。

用戶可以指定思維鏈的最大token數(shù),當(dāng)模型達(dá)到預(yù)算時(shí),追加一個(gè)標(biāo)記即可讓模型基于部分思維鏈生成最終回答。

論文給出了準(zhǔn)確率與平均生成token數(shù)之間的權(quán)衡曲線,這為實(shí)際部署中的效率-精度平衡提供了細(xì)粒度控制。

論文地址:
https://arxiv.org/abs/2512.20856

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
iPhone 13系列開啟限時(shí)半價(jià)電池?fù)Q新服務(wù) 僅需399元!

iPhone 13系列開啟限時(shí)半價(jià)電池?fù)Q新服務(wù) 僅需399元!

手機(jī)中國(guó)
2026-01-07 12:13:21
A股:剛剛,重大消息傳來(lái),釋放關(guān)鍵信號(hào),周四,將迎來(lái)新行情

A股:剛剛,重大消息傳來(lái),釋放關(guān)鍵信號(hào),周四,將迎來(lái)新行情

云鵬敘事
2026-01-08 00:00:03
2026央視春晚彩排曝光,令人擔(dān)心的事還是發(fā)生了:不該來(lái)的都來(lái)了

2026央視春晚彩排曝光,令人擔(dān)心的事還是發(fā)生了:不該來(lái)的都來(lái)了

銀河史記
2026-01-06 17:22:24
特朗普舉著孩子照片,對(duì)哭泣的母親承諾:我相信中國(guó)會(huì)執(zhí)行死刑的

特朗普舉著孩子照片,對(duì)哭泣的母親承諾:我相信中國(guó)會(huì)執(zhí)行死刑的

博覽歷史
2025-07-21 17:59:30
老鷹隊(duì)交易后,阿里納斯給奇才隊(duì)特雷·楊發(fā)了一條即時(shí)信息

老鷹隊(duì)交易后,阿里納斯給奇才隊(duì)特雷·楊發(fā)了一條即時(shí)信息

好火子
2026-01-09 02:36:29
男子自駕藏區(qū)遇窮游美女求搭車,同行5天后,他才知自己剛逃過(guò)死劫

男子自駕藏區(qū)遇窮游美女求搭車,同行5天后,他才知自己剛逃過(guò)死劫

罪案洞察者
2025-11-17 13:45:41
抓拉登,讓世界各國(guó)認(rèn)識(shí)了海豹突擊隊(duì);抓馬杜羅,讓世界各國(guó)認(rèn)識(shí)了三角洲特種部隊(duì)!

抓拉登,讓世界各國(guó)認(rèn)識(shí)了海豹突擊隊(duì);抓馬杜羅,讓世界各國(guó)認(rèn)識(shí)了三角洲特種部隊(duì)!

Ck的蜜糖
2026-01-06 11:19:11
山東省煙草專賣局招聘197人

山東省煙草專賣局招聘197人

滕州微生活
2026-01-08 17:59:40
博主帶女兒赴富親戚家吃飯,菜品遭吐槽引發(fā)熱議!

博主帶女兒赴富親戚家吃飯,菜品遭吐槽引發(fā)熱議!

特約前排觀眾
2026-01-08 00:05:06
小米公關(guān)緊急道歉!雷軍評(píng)論區(qū)徹底淪陷了

小米公關(guān)緊急道歉!雷軍評(píng)論區(qū)徹底淪陷了

李東陽(yáng)朋友圈
2026-01-06 22:04:07
賴清德準(zhǔn)備抓人,鄭麗文也有危險(xiǎn)?大陸出手,對(duì)臺(tái)獨(dú)打手終身追責(zé)

賴清德準(zhǔn)備抓人,鄭麗文也有危險(xiǎn)?大陸出手,對(duì)臺(tái)獨(dú)打手終身追責(zé)

觸摸史跡
2026-01-07 13:55:48
南博事件再升級(jí)!《江南春》調(diào)撥人是凌波,神秘顧客也浮出水面

南博事件再升級(jí)!《江南春》調(diào)撥人是凌波,神秘顧客也浮出水面

小娛樂(lè)悠悠
2025-12-22 09:35:17
伊朗、委內(nèi)瑞拉、南非、阿根廷,還有前蘇聯(lián),有共同點(diǎn)

伊朗、委內(nèi)瑞拉、南非、阿根廷,還有前蘇聯(lián),有共同點(diǎn)

虛聲
2026-01-07 20:50:43
有種賺錢方式叫“信息差”網(wǎng)友:一年賺到了幾輩子都花不完的錢!

有種賺錢方式叫“信息差”網(wǎng)友:一年賺到了幾輩子都花不完的錢!

夜深愛(ài)雜談
2026-01-07 21:42:47
科學(xué)都這么先進(jìn)了,為什么人類至今還搞不定石油是怎么來(lái)的?

科學(xué)都這么先進(jìn)了,為什么人類至今還搞不定石油是怎么來(lái)的?

向航說(shuō)
2025-12-29 00:45:03
庫(kù)明加交易接近達(dá)成,爆勇士籃網(wǎng)6換3交易方案,庫(kù)里第5冠有戲了

庫(kù)明加交易接近達(dá)成,爆勇士籃網(wǎng)6換3交易方案,庫(kù)里第5冠有戲了

籃球看比賽
2026-01-08 12:19:00
250萬(wàn)撿到寶!巴薩20歲前鋒狂飆: 1球2助9.2分 沖擊第1冠

250萬(wàn)撿到寶!巴薩20歲前鋒狂飆: 1球2助9.2分 沖擊第1冠

葉青足球世界
2026-01-08 08:31:34
“浩浩媽”王星辰出道前的性感泳裝美照,這身材太絕了

“浩浩媽”王星辰出道前的性感泳裝美照,這身材太絕了

星美圖
2025-12-19 23:14:22
關(guān)于延長(zhǎng)成都市靈活就業(yè)人員2025年企業(yè)職工基本養(yǎng)老保險(xiǎn)繳費(fèi)期限的溫馨提示

關(guān)于延長(zhǎng)成都市靈活就業(yè)人員2025年企業(yè)職工基本養(yǎng)老保險(xiǎn)繳費(fèi)期限的溫馨提示

青白江清泉鎮(zhèn)
2026-01-07 20:25:42
DO:阿森納一直對(duì)格伊很感興趣,并討論過(guò)引進(jìn)他的事宜

DO:阿森納一直對(duì)格伊很感興趣,并討論過(guò)引進(jìn)他的事宜

懂球帝
2026-01-09 02:35:06
2026-01-09 03:47:00
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
11988文章數(shù) 176356關(guān)注度
往期回顧 全部

科技要聞

智譜拿下“全球大模型第一股”,憑什么

頭條要聞

采用俄羅斯的防空系統(tǒng) 委內(nèi)瑞拉防空體系因何失效

頭條要聞

采用俄羅斯的防空系統(tǒng) 委內(nèi)瑞拉防空體系因何失效

體育要聞

世乒賽銀牌得主,說(shuō)自己夢(mèng)里都是孫穎莎

娛樂(lè)要聞

抗戰(zhàn)劇《馬背搖籃》首播,獲觀眾好評(píng)

財(cái)經(jīng)要聞

微軟CTO韋青:未來(lái)人類會(huì)花錢"戒手機(jī)"

汽車要聞

從量變到"智"變 吉利在CES打出了五張牌

態(tài)度原創(chuàng)

親子
游戲
本地
公開課
軍事航空

親子要聞

家長(zhǎng)注意了!這7件事別再孩子面前做!

山寨《黑神話》續(xù)作上架 PS 商店 / 《GTA 6》或第三次跳票

本地新聞

1986-2026,一通電話的時(shí)空旅程

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普提出將美國(guó)軍費(fèi)提升至1.5萬(wàn)億美元

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版