英偉達打造"超級大腦"，一款能以7.5倍速度碾壓對手的推理模型

2026-04-22 22:34:52　來源: 科技行者

北京舉報

分享至

這項由英偉達（NVIDIA）研究團隊主導的研究成果，以技術報告形式于2026年4月14日發(fā)布，論文編號為arXiv:2604.12374v1，分類在計算機科學機器學習領域。有興趣深入了解的讀者可通過該編號在arXiv平臺查詢完整論文。

每當人們談起AI模型，總會面臨一個兩難困境：要么模型聰明但運行慢，要么跑得快但能力弱。這就像選車一樣——豪華轎車舒適但油耗高，經(jīng)濟型小車省油但動力不足。英偉達的研究團隊偏偏不信這個邪，他們推出了一款名為Nemotron 3 Super的模型，試圖在性能與效率之間找到一條全新的平衡之路。

這款模型擁有1200億個參數(shù)（可以理解為模型"大腦神經(jīng)元"的數(shù)量），但實際運行時只需激活其中約120億個，相當于一臺擁有豪華配置的汽車，但只在需要時啟動相應的功能模塊，既保留了整體實力，又大幅降低了運行成本。相比同量級的競爭對手GPT-OSS-120B，它的推理速度高出2.2倍；而面對另一對手Qwen3.5-122B，這個差距更是擴大到驚人的7.5倍。更重要的是，它的所有訓練方法、數(shù)據(jù)集和模型權重都向公眾開放，任何人都可以在HuggingFace平臺免費獲取。

那么，英偉達是如何在這條看似不可能的道路上走通的？答案藏在一套精妙的技術組合里。

一、聰明的"專家團隊"：LatentMoE架構的奧秘

理解Nemotron 3 Super的核心，需要先明白一個比喻。普通的AI模型處理每個問題時，都像讓一個龐大團隊里的所有人同時參與討論，效率低下且資源浪費。而混合專家模型（MoE）的思路是：把這個大團隊分成許多小組，每次只讓最相關的幾個小組出來處理當前問題，其他人繼續(xù)休息。

Nemotron 3 Super更進一步，引入了一種名為LatentMoE的新型專家架構。這個創(chuàng)新的出發(fā)點是一個很接地氣的工程問題——在實際部署AI模型時，瓶頸往往不是計算能力，而是"搬運數(shù)據(jù)"的速度。好比一家餐廳的廚師技術很好，但如果傳菜通道太窄，食物就是送不快。

英偉達的研究團隊對現(xiàn)有專家模型做了深入的系統(tǒng)性分析，歸納出幾條關鍵規(guī)律。在低延遲場景下，內存帶寬是最大的瓶頸，而每個專家模塊的內存占用取決于隱藏維度和中間維度兩個參數(shù)，只要縮小其中之一就能降低成本。在高吞吐量場景下，分布式部署時各節(jié)點之間傳輸數(shù)據(jù)的通信量也隨著激活專家數(shù)量的增加而線性增長。但如果為了節(jié)省通信和內存而過度壓縮模型，模型的理解能力又會崩潰——就像把傳菜通道壓縮到只能傳一根筷子，效率提升了但功能也廢了。

LatentMoE的解法是一個精妙的權衡：先用一個"壓縮投影矩陣"把每個輸入數(shù)據(jù)從高維空間降到低維的潛在空間（可以理解為先把一箱貨物打成真空壓縮包），然后在這個壓縮空間里進行專家路由和計算，最后再展開回原始維度。由于壓縮后的數(shù)據(jù)體積更小，傳輸成本大幅下降。節(jié)省下來的通信和內存預算，被用來增加專家的總數(shù)量和每次激活的專家數(shù)量，從而提升模型對不同任務的適應能力。整個過程就像把原本只能同時開4個收費站的收費站廣場，通過把車道寬度減半、收費站數(shù)量加倍，變成了能同時處理更多車輛的系統(tǒng)，而總占地面積沒有增加。

具體到Nemotron 3 Super的參數(shù)配置，模型共擁有512個專家模塊，每次處理一個數(shù)據(jù)單元時會同時激活其中的22個，潛在空間維度設置為1024。路由機制、共享專家部分以及模型中的注意力層，則維持在原始高維度運算，因為這些模塊對整體質量的影響更大，不適合壓縮。

二、"草稿員"機制：多詞預測如何讓模型跑得更快

傳統(tǒng)AI模型生成文字的方式，就像一個打字員每次只能想好一個字才能按下鍵盤。而Nemotron 3 Super引入了一種叫做多詞預測（MTP）的機制，本質上是在主模型旁邊培養(yǎng)了一個"草稿員"。

這個草稿員的工作是：在主模型思考下一個詞的同時，自己預先猜測接下來的幾個詞。主模型只需快速掃一眼草稿員的猜測，如果猜對了就直接采納，省去了自己逐一計算的時間；猜錯了再由主模型修正。這種機制被稱為投機解碼。關鍵在于，驗證草稿員的猜測只需要主模型做一次前向傳遞，而不是逐詞生成，時間開銷極低。

現(xiàn)有的多詞預測實現(xiàn)方案普遍存在一個缺陷：每個預測頭只被訓練來預測固定偏移量的詞（比如第2個詞、第3個詞），當需要草稿員猜測更多詞時，就只能讓這個頭遞歸地預測自己之前的預測結果。這就像讓一個只練習過猜明天天氣的氣象員，去預測未來兩周的每一天——誤差會隨著預測深度迅速累積。

Nemotron 3 Super的解法是讓兩個預測頭共享參數(shù)，在訓練階段就同時暴露在多個不同的預測偏移量下。這使得預測頭學會了一種更通用的"未來狀態(tài)感知能力"，而不是專注于某個固定偏移。在實際推理時，同一個預測頭可以被反復調用來生成長串草稿，且接受率隨草稿深度的衰減速度明顯慢于獨立訓練的多頭方案。

英偉達團隊用一個專門針對投機解碼場景的基準測試SPEED-Bench來評估這項機制的實際效果。在草稿長度為7的情況下，Nemotron 3 Super的平均接受長度達到了3.45個詞，超越了DeepSeek-R1的2.70，且在大多數(shù)類別上與Qwen3-Next的3.33持平或更優(yōu)。在代碼生成、多語言、問答等多個任務類別上，Nemotron 3 Super均取得了所有模型中最高的接受率。尤其是在草稿索引較大（第4到第7個詞）的位置，優(yōu)勢最為明顯，說明共享權重設計在長程遞歸預測中的穩(wěn)定性確實更強。

從實際部署效果來看，在B300 GPU上，將草稿深度從0增加到3，能在相同的用戶響應延遲下實現(xiàn)明顯更高的系統(tǒng)總吞吐量，吞吐-延遲帕累托曲線整體向右上方移動。

三、"混血架構"：為什么要把兩種截然不同的機制混在一起

Nemotron 3 Super的88層網(wǎng)絡結構并非全部由同一種模塊構成，而是將兩種不同特性的模塊交織組合在一起，這被稱為混合架構。

第一種是Mamba-2塊，一種基于狀態(tài)空間的序列建模模塊。它的核心特性是在生成文字時，不需要把之前所有內容都裝進內存，而是用一個固定大小的"狀態(tài)向量"來濃縮歷史信息，就像一個人在開會時只記筆記的摘要，而不是逐字逐句地把所有發(fā)言都記下來。這種方式在處理極長文本時內存開銷幾乎不隨長度增加，速度更快。

第二種是自注意力層，也就是傳統(tǒng)Transformer模型的核心模塊。它的特性恰恰相反——能讓模型在生成每個詞時直接"回望"上下文中的任意位置，捕捉長距離的語義關聯(lián)。但代價是隨著文本長度增加，內存消耗呈平方級增長。

單獨使用Mamba-2會損失全局信息感知能力，單獨使用注意力層則會在長文本場景下內存爆炸。Nemotron 3 Super的策略是：大量使用Mamba-2負責日常的序列處理，僅在特定位置插入少量自注意力層作為"全局錨點"，讓模型在關鍵節(jié)點上做一次完整的全局視野掃描，平衡兩者的優(yōu)勢。

從具體層級排布來看，整個88層網(wǎng)絡按照周期性模式排列，每個自注意力層之間穿插多個Mamba-2與專家層組合。注意力層采用分組查詢注意力機制，設有32個查詢頭和2個鍵值頭，頭維度為128，這種配置在維持表達能力的同時降低了鍵值緩存的內存占用。模型不使用位置編碼、dropout和線性層偏置項，采用RMSNorm進行歸一化，嵌入層與輸出層權重解耦。這一架構最終支持高達100萬詞元的上下文長度。

四、用最低精度預訓練：NVFP4格式的冒險與穩(wěn)定

預訓練一個大模型通常需要用很高的數(shù)值精度（比如BF16，每個數(shù)字占用16位存儲空間）來確保訓練過程穩(wěn)定。精度越低，計算速度越快、內存占用越少，但也越容易出現(xiàn)訓練不穩(wěn)定或精度損失的問題。

Nemotron 3 Super是英偉達Nemotron系列中第一個在預訓練階段全程使用NVFP4格式的模型——這是一種每個數(shù)字只用4位存儲的超低精度格式，比BF16節(jié)省了75%的存儲空間。英偉達將這種格式描述為"E2M1"，即2位指數(shù)、1位尾數(shù)加1位符號，配合16元素為一組的微塊縮放因子和FP8精度的塊級縮放。這套預訓練方案在Blackwell GPU上借助Transformer Engine和cuBLAS實現(xiàn)了高效的低精度矩陣乘法。

當然，不是模型所有部分都使用NVFP4。研究團隊針對不同層的特性做了細致的精度分配。網(wǎng)絡最后15%的層保留在BF16，是為了維持訓練末期的穩(wěn)定性；潛在投影層保留在BF16，因為其在每步計算中占用時間極少，不值得冒精度損失的風險；多詞預測層保留在BF16，以維護預測能力；注意力層的QKV和輸出投影保留在BF16，確保這些關鍵位置的計算精度；而Mamba輸出投影層使用MXFP8而非NVFP4，原因是研究團隊在小規(guī)模實驗中發(fā)現(xiàn)，將其量化到NVFP4時下溢現(xiàn)象（即數(shù)值太小被直接舍零）發(fā)生率很高。嵌入層則全程保留在BF16。

訓練過程中研究團隊觀察到一個有趣現(xiàn)象：隨著訓練推進，部分專家層的權重梯度中零值比例持續(xù)增長，到預訓練結束時約占全部參數(shù)的7%。經(jīng)過仔細排查，研究團隊發(fā)現(xiàn)這與NVFP4量化引發(fā)的數(shù)值下溢密切相關。具體路徑是：FC2層（專家的第二個全連接層）的權重在量化后，其反向傳播的梯度中出現(xiàn)大量下溢，這些下溢的零值又通過鏈式法則傳遞到FC1層的權重梯度，導致FC1梯度中零值激增。用同一架構的Nano版本做對比實驗顯示，使用NVFP4訓練1萬億個詞元產生的零值梯度數(shù)量，與BF16格式訓練100-250億個詞元產生的數(shù)量相當——NVFP4在加速"梯度稀疏化"這一自然訓練過程方面，比BF16快了大約10到25倍。

研究團隊還測試了一個補救方案：在學習率衰減前1萬億詞元時，將所有張量的精度提升到MXFP8，然后繼續(xù)訓練約1.6萬億詞元。結果顯示，雖然訓練損失曲線在切換后有所改善，但下游任務的評估精度并沒有持續(xù)提升。因此，最終發(fā)布的模型從頭到尾都使用NVFP4預訓練方案，沒有進行精度切換。

五、喂給模型的25萬億個詞：預訓練數(shù)據(jù)的精心配方

Nemotron 3 Super在預訓練階段共處理了25萬億個詞元，整個訓練分為兩個階段，采用"熱身-穩(wěn)定-衰減"學習率調度策略。學習率在前2000億詞元內從零線性增長到峰值4.5×10^-4，隨后保持平穩(wěn)，在最后5萬億詞元內按負平方根曲線衰減到最小值4.5×10^-6。使用AdamW優(yōu)化器，權重衰減系數(shù)0.1，訓練序列長度8192，批大小3072條序列，每批約處理2517萬個詞元。

訓練數(shù)據(jù)來自16個大類，最大的組成部分是網(wǎng)頁爬取數(shù)據(jù)，按照Nemotron-CC分類法被分為中等質量、中高質量和高質量三檔，以及對應的合成增強版本。除此之外，數(shù)據(jù)集還包含維基百科、代碼、學術文本、數(shù)學數(shù)據(jù)、多語言內容、高質量PDF文檔以及多種合成SFT風格數(shù)據(jù)集，其中SFT數(shù)據(jù)進一步細分為通用對話、STEM問答和代碼三類。

第一階段覆蓋前20萬億詞元，重點在多樣性，讓模型廣泛接觸各類知識。第二階段覆蓋后5萬億詞元，數(shù)據(jù)配比向高質量來源傾斜，大幅提高維基百科、高質量PDF等來源的權重，讓模型在廣泛理解的基礎上進一步打磨精度。

研究團隊還專門為這次訓練生成了幾類新的合成數(shù)據(jù)集，并將其作為Nemotron-Pretraining-Specialized-v1.1開源發(fā)布。其中包括一個約1500萬對Python編程問題與解答的代碼數(shù)據(jù)集，由GPT-OSS-20B生成題目、GPT-OSS-120B生成答案，經(jīng)過嚴格的語法樹檢驗后保留。還有一批無條件生成的算法題，用兩種模型以極簡提示生成，通過語義去重控制質量。經(jīng)濟學選擇題數(shù)據(jù)集覆蓋微觀經(jīng)濟學、宏觀經(jīng)濟學和計量經(jīng)濟學，由Qwen3-235B-A22B-Thinking模型生成并驗證。形式邏輯題數(shù)據(jù)集涵蓋命題邏輯和謂詞邏輯的多種推理任務，通過隨機注入人名、字母和邏輯符號提高多樣性。還有一批MMLU風格的綜合選擇題，從現(xiàn)有訓練輔助集出發(fā)，經(jīng)過多模型擴寫和多數(shù)投票過濾后獲得約350萬條經(jīng)過知識注釋的題目。

此外，研究團隊還在預訓練結束后追加了一個長上下文擴展階段，使用恒定學習率4.5×10^-6，先以100萬詞元上下文長度連續(xù)預訓練340億個詞元，再交替使用100萬詞元和4096詞元序列訓練170億詞元，以減輕長上下文訓練對數(shù)學推理能力的輕微負面影響。

六、"檢查點融合"：一個省錢又提精度的訓練技巧

在預訓練的穩(wěn)定階段，學習率保持不變，相鄰訓練步驟之間的模型性能會有明顯的隨機波動，使得單個檢查點（即某一時刻保存的模型快照）難以準確反映模型的真實水平。傳統(tǒng)做法是專門運行一次學習率衰減評估，但這會額外消耗大量算力。

研究團隊采用了一種叫做"檢查點融合"的評估技巧：把最近一段訓練窗口內保存的多個檢查點，按照模擬學習率衰減的權重系數(shù)進行加權平均，得到一個融合模型，然后對這個融合模型做基準測試。這個過程本身計算量極低，卻能得到接近實際衰減后模型水平的評估結果。

研究團隊評估了125億、2500億和5000億詞元三種不同的融合窗口。結果顯示，在穩(wěn)定訓練階段，最優(yōu)融合方案在12個基準測試上的平均得分比直接測試的原始檢查點高出2到4分。在學習率衰減階段（訓練最后5萬億詞元），兩條曲線逐漸靠攏，到訓練結束時基本重合——這與理論預期一致：實際的學習率衰減訓練已經(jīng)達到了融合所能帶來的效果。

最終選用于下游對齊訓練的基礎模型檢查點，本身就是一個5000億詞元窗口的融合結果。研究團隊指出，這種技術在較短的衰減窗口下效果最佳，對于他們使用的5萬億詞元衰減窗口，實際的衰減訓練已經(jīng)足夠好，融合帶來的額外提升有限。

七、讓模型學會"代理人"技能：后訓練階段的全面升級

預訓練完成后，模型還是一塊未經(jīng)雕琢的"原石"——它擁有大量知識，但還不知道如何被人類有效使用，也不具備復雜的工具調用或多步驟任務執(zhí)行能力。后訓練階段就是要把它打磨成一個真正能干活的"智能助手"。

后訓練管道分為監(jiān)督微調（SFT）、強化學習（RL）和多詞預測修復四個階段。監(jiān)督微調階段使用超過700萬條樣本，共約800億詞元，訓練模型在各類任務上按照期望格式生成回答。強化學習分三輪：第一輪是多環(huán)境可驗證獎勵強化學習（RLVR），覆蓋21種環(huán)境類型，共訓練3輪；第二輪是專門針對軟件工程任務的SWE-RL，消耗約200億詞元；第三輪是基于人類偏好的RLHF，消耗約190億詞元。最后還有一輪多詞預測修復階段，約180億詞元，專門恢復強化學習過程中可能弱化的MTP預測能力。

監(jiān)督微調階段引入了一種雙階段損失策略來解決一個實際問題：當訓練數(shù)據(jù)中既有長推理鏈（輸出很長）的樣本，又有需要簡短直接回答的樣本時，如果用統(tǒng)一的平均損失計算，長輸出樣本會在梯度中占主導，短輸出樣本的學習效果會被壓制。第一階段使用全局詞元平均損失，讓模型充分吸收長推理樣本的邏輯鏈條。第二階段切換為對話級別歸一化損失，即先在每條對話內部平均損失，再對所有對話取平均，這樣短輸出對話得到與長輸出對話同等的訓練權重，修復了對"長輸入、短輸出"場景的降級問題。第一階段使用256K詞元序列打包和64的批大小，第二階段使用512K序列打包，批大小降至32，并加入最長512K詞元的長上下文數(shù)據(jù)。

研究團隊還為模型引入了"低努力推理模式"，通過加入由GPT-OSS-120B的低努力模式生成的訓練樣本，教會模型在不需要深度推理的簡單任務上生成更簡短的回答，避免對所有問題都啟動繁重的思考鏈路。

后訓練階段的數(shù)據(jù)覆蓋范圍極為廣泛，包括軟件工程、代理式編程、長上下文理解、金融推理、CUDA編程、安全對齊、網(wǎng)絡搜索、終端操作、多語言翻譯、SQL查詢、工具調用等十余個專業(yè)領域，每個領域都設計了專門的數(shù)據(jù)生成管道。整個SFT數(shù)據(jù)配比中，代理類任務占36%，推理類占31%，對話類占23%，長上下文占8%，其余類別合計約2%。

八、強化學習的"游樂場"：21種訓練環(huán)境與創(chuàng)新的代理RL方案

強化學習階段是讓模型真正"學會解決問題"的關鍵。研究團隊構建了21種不同的訓練環(huán)境，涵蓋數(shù)學競賽題、代碼題、STEM問答、指令跟隨、安全對齊、長上下文理解、謎題以及各類代理任務。每個環(huán)境都有明確可驗證的獎勵信號，比如代碼題就看程序能否通過測試用例，數(shù)學題就看答案是否正確。

在多環(huán)境并行訓練方面，研究團隊發(fā)現(xiàn)同時在所有環(huán)境上訓練能產生穩(wěn)定的整體提升，而只專注單一環(huán)境訓練則會導致其他方面出現(xiàn)嚴重退化。這驗證了多樣化訓練的必要性。每個訓練步驟采樣256條提示，每條生成16個回答，批大小4096，最長生成序列從49K詞元逐步擴展到64K詞元。

軟件工程專項強化學習（SWE-RL）作為獨立的第二階段運行，原因是SWE任務的每次推演需要在獨立的容器環(huán)境中執(zhí)行完整的代碼修改和測試，生成時間遠長于普通任務，如果與短序列任務混合會拖慢整體訓練節(jié)奏。每次推演會啟動一個Apptainer容器（類似Docker但不需要root權限），在其中運行OpenHands代理循環(huán)，讓模型自主探索代碼庫、提出代碼補丁，并由真實的測試套件給出二值獎勵。為了增加工具多樣性，研究團隊還在OpenHands中實現(xiàn)了OpenCode和Codex兩種代理類，分別模擬Claude Code和Codex CLI的工具調用格式，使得同一套基礎設施能在訓練時暴露多種工具風格，提升模型的泛化能力。

對于多輪長程代理任務（如工具調用、網(wǎng)絡搜索、終端操作），研究團隊引入了一種叫做PivotRL的新方法來平衡效率與效果。純監(jiān)督微調的問題在于：模型學會了專家軌跡里的動作序列，但學不到"當不確定時該怎么辦"；純端到端強化學習則需要對每個訓練樣本都在真實環(huán)境中完整執(zhí)行一遍，成本極高。PivotRL的思路是：復用已有的專家軌跡數(shù)據(jù)，但不是對所有輪次做監(jiān)督，而是找出專家軌跡中模型對下一步動作"最不確定"的關鍵節(jié)點（稱為"樞紐"），只在這些節(jié)點上應用強化學習更新，獎勵函數(shù)被設計為度量模型動作與專家動作的相似度，而非嚴格要求完全一致。這種方式極大降低了代理RL的計算成本，同時避免了純SFT的分布外泛化問題。

九、把大模型塞進更小的盒子：量化技術的精細操作

即便是一款已經(jīng)很高效的模型，在實際部署時還可以通過量化進一步提升推理速度——簡單說，就是把模型參數(shù)從高精度格式"壓縮"成低精度格式存儲和計算，從而減少內存占用和運算時間。

研究團隊為Nemotron 3 Super提供了兩種量化版本。面向Hopper架構GPU的FP8版本（每個數(shù)字8位）對MoE專家層、Mamba線性層進行FP8量化，注意力層和嵌入層保留BF16，Mamba狀態(tài)緩存量化為FP16。面向Blackwell架構GPU的NVFP4版本則更為激進，大多數(shù)專家層使用4位NVFP4格式，部分較敏感的層提升到FP8或BF16。

NVFP4量化的難點在于，簡單地對所有層應用統(tǒng)一方案會導致精度明顯下降。研究團隊測試了多種量化策略，最終確定了一種混合方案：權重的分塊縮放系數(shù)通過最小化權重均方誤差來優(yōu)化（而非默認的取最大值方案），激活值的分塊縮放則繼續(xù)用動態(tài)最大值方案，因為激活值的縮放需要在運行時實時計算，不允許離線搜索。

在此基礎上，研究團隊還使用了一種叫做AutoQuantize的自動混合精度搜索算法，本質是為每一個算子獨立選擇最優(yōu)的量化格式。它使用二階泰勒近似來估計每個算子在不同精度下對最終輸出的影響（敏感度），然后在滿足總計算成本預算的約束下，求解使總敏感度最小的格式分配方案，這是一個背包問題式的組合優(yōu)化。搜索過程還需要考慮推理框架的實際約束——比如vLLM和TensorRT-LLM要求同一MoE層內的所有稀疏專家必須使用相同的量化格式，注意力層的QKV投影在融合計算時也需要共享格式。整個量化流程在一臺8卡B200節(jié)點上不到2小時即可完成，最終模型在20多個基準測試上的中位精度保留了BF16基準的99.8%。

Mamba狀態(tài)緩存的量化是一個獨特的技術挑戰(zhàn)。由于Mamba的解碼過程是遞歸的，每一步的量化誤差會被傳遞并累積到后續(xù)所有步驟，這與普通的注意力層完全不同。研究團隊發(fā)現(xiàn)，直接將狀態(tài)緩存從FP32轉換為FP16，會在代碼生成任務中導致高達40%的輸出冗長度增加——模型開始反復輸出多余的內容，就像一個思路混亂的人不停重復同樣的話。根因分析表明，F(xiàn)P32到FP16的"最近偶數(shù)取整"規(guī)則會在量化誤差中引入系統(tǒng)性偏差，這種偏差在遞歸累積后逐漸失控。

十、與競爭對手的正面對決：基準測試成績單解讀

Nemotron 3 Super在預訓練后的基礎模型評測中，對比了Ling-flash-Base-2.0和GLM-4.5-Air-Base兩款同量級模型。在通用知識（MMLU達到86.01）、數(shù)學推理（MATH達到84.84，AIME-2024的pass@32達到53.33）、代碼生成、常識推理、閱讀理解、多語言和長上下文等各類基準上，Nemotron 3 Super在絕大多數(shù)指標上均取得最佳成績，尤其在GPQA-Diamond（高難度科學題）上以60.00分對Ling-flash-Base的36.00和GLM-4.5-Air-Base的23.20形成明顯優(yōu)勢。長上下文方面，在64K詞元RULER測試中達到92.26，而Ling-flash-Base為72.12，GLM-4.5-Air-Base為80.26；在更長的128K、256K、512K直至100萬詞元上，Nemotron 3 Super是唯一能完成測試并保持高分的模型。

經(jīng)過后訓練的最終版本，在與GPT-OSS-120B和Qwen3.5-122B-A10B的對比中，整體處于可比水平。在推理任務中，HMMT Feb25（高難數(shù)學競賽題，無工具輔助時93.67，有工具時94.73）超越了兩者；在SWE-Bench軟件工程任務中（OpenHands框架，60.47），顯著超越GPT-OSS-120B的41.9，但略低于Qwen3.5-122B的66.40；在長上下文RULER測試中（512K詞元95.22，100萬詞元91.64），同樣明顯優(yōu)于GPT-OSS-120B，與Qwen3.5-122B基本持平。

在推理速度方面，研究團隊在B200 GPU上使用vLLM和TRT-LLM，以8K詞元輸入、64K詞元輸出的設置進行基準測試。Nemotron 3 Super BF16版本的相對吞吐量指數(shù)為2.2，對應GPT-OSS-120B MXFP4版本的1.0和Qwen3.5-122B BF16版本的0.3，領先幅度十分顯著。換句話說，在相同的硬件上，Nemotron 3 Super每秒能處理的請求量是GPT-OSS-120B的2.2倍，是Qwen3.5-122B的7.5倍。

說到底，Nemotron 3 Super真正代表的是一種工程哲學：不是單點的技術突破，而是在架構設計、訓練精度、數(shù)據(jù)配方、后訓練流程和量化部署每一個環(huán)節(jié)都精心優(yōu)化，最終在精度和效率的曲線上找到了一個更優(yōu)的位置。對于使用AI服務的普通用戶來說，這意味著同樣的算力預算能讓他們獲得更快的響應；對于AI開發(fā)者來說，這套完全開放的技術方案提供了一個可以直接復用或在此基礎上繼續(xù)探索的堅實起點。有興趣深入研究每一項技術細節(jié)的讀者，可以通過arXiv編號2604.12374查閱完整論文，所有開源模型權重和數(shù)據(jù)集可在HuggingFace平臺獲取。

Q&A

Q1：Nemotron 3 Super的推理速度為什么比同量級模型快這么多？

A：主要來自三方面的協(xié)同效果。一是LatentMoE架構把專家層的數(shù)據(jù)傳輸壓縮到更小的潛在空間，降低了內存讀取和網(wǎng)絡通信的開銷；二是Mamba-2模塊代替了大部分注意力層，生成長文本時內存不會像傳統(tǒng)Transformer那樣爆炸式增長；三是多詞預測機制讓模型每次驗證就能接受多個詞元，減少了實際的前向傳遞次數(shù)。三者疊加之下，在8K輸入、64K輸出的場景中，NVFP4版本的吞吐量是Qwen3.5-122B的7.5倍。

Q2：Nemotron 3 Super用NVFP4格式預訓練會不會讓模型精度變差？

A：研究團隊的實驗顯示，整體精度損失極小。他們觀察到NVFP4確實會加速權重梯度中零值的積累，但通過精細的精度分配策略（對敏感層保留BF16或MXFP8），以及后續(xù)的量化優(yōu)化（混合精度AutoQuantize），最終發(fā)布的NVFP4推理版本在20多個基準測試上的中位精度保留了BF16版本的99.8%，基本沒有體感上的差距。

Q3：LatentMoE和普通MoE架構相比，實際的工程效益體現(xiàn)在哪里？

A：核心區(qū)別在于專家計算和路由通信都在一個壓縮后的低維潛在空間中進行，而非原始的高維隱藏空間。這使得每個專家的參數(shù)量更小、節(jié)點間傳輸?shù)臄?shù)據(jù)量更少，節(jié)省出來的預算被用于增加專家總數(shù)（512個）和每次激活數(shù)量（22個），讓模型在相近的推理成本下覆蓋更豐富的知識組合。路由網(wǎng)絡、共享專家和注意力層仍在高維空間運算，確保全局感知能力不受影響。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.