網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

DeepSeek掀桌后，大模型廠商應(yīng)該關(guān)注什么？

2026-05-09 17:05:18　來(lái)源: 鈦媒體APP

北京舉報(bào)

分享至

文 | 利昂先生

4月24日，DeepSeek V4 雖遲但到。

1.6T 參數(shù)，MIT 協(xié)議全量開(kāi)源，百萬(wàn)級(jí)上下文直接拉滿(mǎn)。

鼓掌的除了整個(gè)科技圈，還有那些在前一天賣(mài)空Minimax和智譜股票的股民們。

但內(nèi)行人更關(guān)注的是，DeepSeek V4創(chuàng)新性地用了兩套全新的底層設(shè)計(jì)：Engram 條件記憶模塊和mHC（流形約束超連接）。

核心目的只有一個(gè)：在保持模型效果的前提下，把訓(xùn)練和推理的成本打下來(lái)。

這說(shuō)明了一件事：模型層面的創(chuàng)新，正在和基礎(chǔ)設(shè)施層面的創(chuàng)新深度綁定。

一個(gè)月前，OpenAI 核心基礎(chǔ)設(shè)施團(tuán)隊(duì)的大牛翁家翌說(shuō)了一段話，在技術(shù)圈瘋傳：

“現(xiàn)在的大模型競(jìng)爭(zhēng)，拼的不是 Idea 多精妙，而是 AI Infra 的正確性與單位時(shí)間內(nèi)的迭代次數(shù)。Idea 是廉價(jià)的，能被快速驗(yàn)證的 Idea 才值錢(qián)?！?/p>

這句話，百度智能云的百舸團(tuán)隊(duì)顯然聽(tīng)進(jìn)去了。

最近，他們開(kāi)源了一個(gè)AI訓(xùn)練框架，直接把這場(chǎng)"速度戰(zhàn)"的烈度往上抬了一個(gè)量級(jí)。

它叫 “LoongForge”。

//一個(gè)科普：訓(xùn)練框架是個(gè)啥？

大模型訓(xùn)練，不是寫(xiě)幾行代碼就能跑的。

一個(gè)幾百億參數(shù)的模型，一張GPU卡裝不下，得“切”成很多塊，放到幾十張甚至幾千張卡上同時(shí)訓(xùn)練。

這就帶來(lái)一堆問(wèn)題:

怎么切？模型有幾百層，每層都要切，切錯(cuò)了就跑不起來(lái)。

怎么通信？幾千張卡在訓(xùn)練，每張卡算完自己的部分，要和其他卡交換數(shù)據(jù)。交換慢了，整個(gè)訓(xùn)練就慢了。

怎么管理顯存？模型參數(shù)、梯度、優(yōu)化器狀態(tài)，都要占顯存。顯存不夠，訓(xùn)練就崩了。

怎么保證穩(wěn)定？幾千張卡跑幾天幾夜，中間某張卡出問(wèn)題了，整個(gè)訓(xùn)練要重來(lái)嗎?

這些問(wèn)題，如果讓每個(gè)工程師自己解決，那得累死。于是就有了“訓(xùn)練框架”。

它像一個(gè)智能管家——自動(dòng)切分模型、優(yōu)化通信、管理顯存、保證容錯(cuò)。

有了這個(gè)“老師傅”，工程師才能專(zhuān)注于模型創(chuàng)新，而不是被工程細(xì)節(jié)拖死。

多模態(tài)時(shí)代，老框架有心無(wú)力

把時(shí)間拉回兩年前，那時(shí)大模型基本都是“純文字”，訓(xùn)練框架早就很成熟了，而且綁在NVIDIA一棵樹(shù)上。

但到了現(xiàn)在，情況變了：文生圖、圖生文、視頻理解、機(jī)器人控制……所有最性感的 AI 方向，都是多模態(tài)。

訓(xùn)練多模態(tài)模型，和訓(xùn)練純文字大模型，完全不是一個(gè)概念。

多模態(tài)模型——視覺(jué)編碼器（ViT）+ 語(yǔ)言模型（LLM）+ 投影層，三個(gè)模塊參數(shù)量差了上百倍。傳統(tǒng)框架只能給它們強(qiáng)制套用同一套并行策略——小的模塊閑死，大的模塊累死。

坑二：數(shù)據(jù)不均勻，GPU 互相等

多模態(tài)數(shù)據(jù)差異巨大：?jiǎn)螐垐D片 ~256 token，20分鐘視頻 ~100000+ token。

Attention 的計(jì)算復(fù)雜度是序列長(zhǎng)度的平方級(jí)，分到視頻的那塊 GPU，計(jì)算量是分到圖片的上萬(wàn)倍。

其他GPU，全在（摸魚(yú)）等它。

國(guó)產(chǎn)芯片越來(lái)越多地進(jìn)入大模型訓(xùn)練場(chǎng)景，但訓(xùn)練框架是深度綁定英偉達(dá) GPU 。換芯片？重寫(xiě)一遍，維護(hù)兩套代碼，成本極高。好不容易遷移完了，還發(fā)現(xiàn)性能對(duì)不上。

老框架們面對(duì)多模態(tài)，就像中年人面對(duì)996，力不從心。

//LoongForge如何填坑（略長(zhǎng)，但通俗易懂）

百度智能云百舸團(tuán)隊(duì)給出的答案，就是“LoongForge”。

從技術(shù)上說(shuō)，LoongForge 是一個(gè)全模態(tài)訓(xùn)練框架——覆蓋純文字（LLM）、視覺(jué)語(yǔ)言（VLM）、機(jī)器人控制（VLA），甚至文生圖（Diffusion）場(chǎng)景。

但說(shuō)人話就是：他們把上面那三個(gè)坑，一個(gè)一個(gè)填了。

一、讓每個(gè)模塊都擁有最優(yōu)策略

傳統(tǒng)框架“一刀切”的并行策略，對(duì)視覺(jué)編碼器和語(yǔ)言模型都不友好。

LoongForge的做法是：把這兩者解耦，各自獨(dú)立配置最優(yōu)的并行方案。

這相當(dāng)于什么？以前是三個(gè)人擠一張桌子吃飯，小個(gè)子夠不著，大個(gè)子伸不開(kāi)腿。現(xiàn)在是各坐各的桌椅，各用各的餐具，誰(shuí)也不耽誤誰(shuí)。

實(shí)測(cè)效果：

二、智能化分配任務(wù)，讓摸魚(yú)的 GPU動(dòng)起來(lái)

傳統(tǒng)框架的“大鍋飯”思路，不只耽誤效率，還浪費(fèi)成本。

LoongForge 引入了一套自動(dòng)負(fù)載均衡機(jī)制：計(jì)算量大的樣本（比如長(zhǎng)視頻），少分配一些；計(jì)算量小的樣本（比如單張圖片），多分配一些。目標(biāo)是讓每塊 GPU 拿到的計(jì)算量盡量相當(dāng)。

這就像一個(gè)聰明的項(xiàng)目經(jīng)理，給能力強(qiáng)的人多分配任務(wù)，讓團(tuán)隊(duì)整體效率最高。

這對(duì)提升大規(guī)模集群的擴(kuò)展效率極為重要。

實(shí)測(cè)效果：

解釋一下這個(gè) 90%+ 是什么概念——千卡規(guī)模下，很多框架的擴(kuò)展效率掉到 60-70% 就已經(jīng)算不錯(cuò)了。90%+ 意味著幾乎線性擴(kuò)展，每一分算力都花在了刀刃上。

LoongForge的解法是做了一個(gè)叫 XPU_Plugin 的硬件接入層——底層硬件的差異，被這層插件吃掉了。

同一份訓(xùn)練代碼，只改一個(gè)環(huán)境變量，就能在 GPU 和昆侖芯之間無(wú)縫切換。它意味著，那些想"兩條腿走路"的公司，不需要維護(hù)兩套代碼庫(kù)了。

當(dāng)然，這事的意義也不只是"省事"。

它甚至意味著——NVIDIA的生態(tài)壁壘，被拆掉了一層。

當(dāng)然，LoongForge 做的還不止這些——

比如：

因?yàn)镸oE 有大量“專(zhuān)家”分散在不同GPU 上，所以訓(xùn)練要頻繁跨 GPU 通信，長(zhǎng)序列時(shí)通信成百上千次，速度被拖死。

業(yè)界的做法是讓計(jì)算和通信“重疊”，GPU算當(dāng)前數(shù)據(jù)時(shí)，同時(shí)傳輸下一批數(shù)據(jù)，通信時(shí)間就“藏”在計(jì)算里。

但因?yàn)橐崆按嫦乱慌鷶?shù)據(jù)，顯存爆炸。長(zhǎng)序列時(shí)，這塊顯存可能比模型本身還大。

所以，MoE 模型訓(xùn)練要么顯存爆炸，要么通信慢。

LoongForge搞了一套組合拳——

實(shí)測(cè)效果：

再比如：

DeepSeek v3.2用了一種叫稀疏注意力的新技術(shù)。只計(jì)算重要的關(guān)系，忽略不重要的關(guān)系，大幅降低計(jì)算量。

但這個(gè)技術(shù)實(shí)現(xiàn)起來(lái)很復(fù)雜，優(yōu)化起來(lái)更難。

LoongForge對(duì)DeepSeek V3.2的稀疏注意力架構(gòu)做了深度優(yōu)化：算子融合（小操作合并成大操作）、索引優(yōu)化（加速數(shù)據(jù)訪問(wèn)）、KV 布局優(yōu)化（減少顯存占用）、序列拼接（多小任務(wù)打包提高效率）。

實(shí)測(cè)效果：

這不是調(diào)個(gè)參數(shù)，是重寫(xiě)計(jì)算內(nèi)核。

又比如：

因?yàn)閭鹘y(tǒng)框架的模型定義和分布式策略深度耦合，每來(lái)一個(gè)新模型，就得深入底層代碼改一遍，接入訓(xùn)練框架，往往需要數(shù)周時(shí)間。

LoongForge 通過(guò)一套標(biāo)準(zhǔn)化的三層抽象，加上 YAML 配置文件驅(qū)動(dòng)，把新模型接入的工作量，從數(shù)周壓縮到了數(shù)天。

這個(gè)速度，放在行業(yè)里，很能說(shuō)明問(wèn)題。

以具身智能為例。

具身智能需要的 VLA（Vision-Language-Action）模型——把視覺(jué)、語(yǔ)言、動(dòng)作三個(gè)模態(tài)統(tǒng)一在一個(gè)模型里訓(xùn)練，對(duì)訓(xùn)練框架的顯存管理和通信效率要求極其苛刻，比普通多模態(tài)模型更折磨人。

很多做具身智能的團(tuán)隊(duì)，都被卡在這里——模型設(shè)計(jì)好了，但訓(xùn)練跑不動(dòng)，或者跑太慢。

而 LoongForge 在這個(gè)場(chǎng)景下的表現(xiàn)，相當(dāng)亮眼——

PI0.5（代表性 VLA 模型），相比社區(qū)框架，訓(xùn)練速度提升了 49%。

這個(gè)數(shù)字意味著：同樣訓(xùn)一個(gè)機(jī)器人控制模型，別人花 20 天，你花 10 天。

“首發(fā)”和“跟風(fēng)”，區(qū)別立現(xiàn)。

//模型拼到底，拼的是什么?

一個(gè)更深層次的問(wèn)題，現(xiàn)在大模型競(jìng)爭(zhēng)這么激烈，大家都在拼什么?

以前大家只關(guān)心模型效果好不好、參數(shù)多不多、榜單排名高不高?，F(xiàn)在越來(lái)越多的人開(kāi)始意識(shí)到：算力才是真正拉開(kāi)差距的地方。

為什么這么說(shuō)？

先看歷史：

2007年，CUDA出現(xiàn)了。一個(gè)工具，改變了一個(gè)時(shí)代。

2017年，PyTorch出現(xiàn)了。一個(gè)框架，加速了一個(gè)行業(yè)。

再看現(xiàn)在：

多模態(tài)時(shí)代來(lái)了。同樣花 1 個(gè)億買(mǎi)芯片：用老框架的團(tuán)隊(duì)，每天能跑 2 個(gè)實(shí)驗(yàn)；用 LoongForge 的團(tuán)隊(duì)，每天能跑 4-6 個(gè)實(shí)驗(yàn)。

一個(gè)月下來(lái)，就是 60 個(gè)實(shí)驗(yàn) vs 180 個(gè)實(shí)驗(yàn)的差距。這個(gè)差距，積累三個(gè)月，就是代差。

翁家翌的話再品一遍：

LoongForge做的，就是讓“快速驗(yàn)證 Idea”這件事，變得更容易、更便宜。

現(xiàn)在，百度智能云把 LoongForge 以 Apache 2.0 協(xié)議完全開(kāi)源了。這意味著，商用沒(méi)問(wèn)題，改也沒(méi)問(wèn)題，拿來(lái)養(yǎng)自己的模型也沒(méi)問(wèn)題。

他們?yōu)槭裁锤议_(kāi)源？

一種可能是：這套東西他們已經(jīng)在內(nèi)部跑了很久，足夠自信，拿出來(lái)示人，順便吸引開(kāi)發(fā)者圍繞昆侖芯構(gòu)建生態(tài)。

這個(gè)邏輯，和當(dāng)年英偉達(dá)用 CUDA 鎖定開(kāi)發(fā)者生態(tài)，本質(zhì)上是一樣的。先有好的訓(xùn)練框架，再有繁榮的硬件生態(tài)，最后形成護(hù)城河。

現(xiàn)在，這條路上多了一個(gè)中國(guó)玩家。

LoongForge 能不能跑出來(lái)，還得看社區(qū)反饋和后續(xù)迭代。

但至少，方向是對(duì)的。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.