国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

DeepSeek掀桌后,大模型廠商應(yīng)該關(guān)注什么?

0
分享至

文 | 利昂先生

4月24日,DeepSeek V4 雖遲但到。

1.6T 參數(shù),MIT 協(xié)議全量開(kāi)源,百萬(wàn)級(jí)上下文直接拉滿(mǎn)。

鼓掌的除了整個(gè)科技圈,還有那些在前一天賣(mài)空Minimax和智譜股票的股民們。

但內(nèi)行人更關(guān)注的是,DeepSeek V4創(chuàng)新性地用了兩套全新的底層設(shè)計(jì):Engram 條件記憶模塊和mHC(流形約束超連接)。

核心目的只有一個(gè):在保持模型效果的前提下,把訓(xùn)練和推理的成本打下來(lái)。

這說(shuō)明了一件事:模型層面的創(chuàng)新,正在和基礎(chǔ)設(shè)施層面的創(chuàng)新深度綁定。

一個(gè)月前,OpenAI 核心基礎(chǔ)設(shè)施團(tuán)隊(duì)的大牛翁家翌說(shuō)了一段話,在技術(shù)圈瘋傳:

“現(xiàn)在的大模型競(jìng)爭(zhēng),拼的不是 Idea 多精妙,而是 AI Infra 的正確性與單位時(shí)間內(nèi)的迭代次數(shù)。Idea 是廉價(jià)的,能被快速驗(yàn)證的 Idea 才值錢(qián)?!?/p>

這句話,百度智能云的百舸團(tuán)隊(duì)顯然聽(tīng)進(jìn)去了。

最近,他們開(kāi)源了一個(gè)AI訓(xùn)練框架,直接把這場(chǎng)"速度戰(zhàn)"的烈度往上抬了一個(gè)量級(jí)。

它叫 “LoongForge”。

//一個(gè)科普:訓(xùn)練框架是個(gè)啥?

大模型訓(xùn)練,不是寫(xiě)幾行代碼就能跑的。

一個(gè)幾百億參數(shù)的模型,一張GPU卡裝不下,得“切”成很多塊,放到幾十張甚至幾千張卡上同時(shí)訓(xùn)練。

這就帶來(lái)一堆問(wèn)題:

怎么切?模型有幾百層,每層都要切,切錯(cuò)了就跑不起來(lái)。

怎么通信?幾千張卡在訓(xùn)練,每張卡算完自己的部分,要和其他卡交換數(shù)據(jù)。交換慢了,整個(gè)訓(xùn)練就慢了。

怎么管理顯存?模型參數(shù)、梯度、優(yōu)化器狀態(tài),都要占顯存。顯存不夠,訓(xùn)練就崩了。

怎么保證穩(wěn)定?幾千張卡跑幾天幾夜,中間某張卡出問(wèn)題了,整個(gè)訓(xùn)練要重來(lái)嗎?

這些問(wèn)題,如果讓每個(gè)工程師自己解決,那得累死。于是就有了“訓(xùn)練框架”。

它像一個(gè)智能管家——自動(dòng)切分模型、優(yōu)化通信、管理顯存、保證容錯(cuò)。

有了這個(gè)“老師傅”,工程師才能專(zhuān)注于模型創(chuàng)新,而不是被工程細(xì)節(jié)拖死。

多模態(tài)時(shí)代,老框架有心無(wú)力

把時(shí)間拉回兩年前,那時(shí)大模型基本都是“純文字”,訓(xùn)練框架早就很成熟了,而且綁在NVIDIA一棵樹(shù)上。

但到了現(xiàn)在,情況變了:文生圖、圖生文、視頻理解、機(jī)器人控制……所有最性感的 AI 方向,都是多模態(tài)。

訓(xùn)練多模態(tài)模型,和訓(xùn)練純文字大模型,完全不是一個(gè)概念。

多模態(tài)模型——視覺(jué)編碼器(ViT)+ 語(yǔ)言模型(LLM)+ 投影層,三個(gè)模塊參數(shù)量差了上百倍。傳統(tǒng)框架只能給它們強(qiáng)制套用同一套并行策略——小的模塊閑死,大的模塊累死。

坑二:數(shù)據(jù)不均勻,GPU 互相等

多模態(tài)數(shù)據(jù)差異巨大:?jiǎn)螐垐D片 ~256 token,20分鐘視頻 ~100000+ token。

Attention 的計(jì)算復(fù)雜度是序列長(zhǎng)度的平方級(jí),分到視頻的那塊 GPU,計(jì)算量是分到圖片的上萬(wàn)倍。

其他GPU,全在(摸魚(yú))等它。

國(guó)產(chǎn)芯片越來(lái)越多地進(jìn)入大模型訓(xùn)練場(chǎng)景,但訓(xùn)練框架是深度綁定英偉達(dá) GPU 。換芯片?重寫(xiě)一遍,維護(hù)兩套代碼,成本極高。好不容易遷移完了,還發(fā)現(xiàn)性能對(duì)不上。

老框架們面對(duì)多模態(tài),就像中年人面對(duì)996,力不從心。

//LoongForge如何填坑(略長(zhǎng),但通俗易懂)

百度智能云百舸團(tuán)隊(duì)給出的答案,就是“LoongForge”。

從技術(shù)上說(shuō),LoongForge 是一個(gè)全模態(tài)訓(xùn)練框架——覆蓋純文字(LLM)、視覺(jué)語(yǔ)言(VLM)、機(jī)器人控制(VLA),甚至文生圖(Diffusion)場(chǎng)景。

但說(shuō)人話就是:他們把上面那三個(gè)坑,一個(gè)一個(gè)填了。

一、讓每個(gè)模塊都擁有最優(yōu)策略

傳統(tǒng)框架“一刀切”的并行策略,對(duì)視覺(jué)編碼器和語(yǔ)言模型都不友好。

LoongForge的做法是:把這兩者解耦,各自獨(dú)立配置最優(yōu)的并行方案。

這相當(dāng)于什么?以前是三個(gè)人擠一張桌子吃飯,小個(gè)子夠不著,大個(gè)子伸不開(kāi)腿。現(xiàn)在是各坐各的桌椅,各用各的餐具,誰(shuí)也不耽誤誰(shuí)。

實(shí)測(cè)效果:

二、智能化分配任務(wù),讓摸魚(yú)的 GPU動(dòng)起來(lái)

傳統(tǒng)框架的“大鍋飯”思路,不只耽誤效率,還浪費(fèi)成本。

LoongForge 引入了一套自動(dòng)負(fù)載均衡機(jī)制:計(jì)算量大的樣本(比如長(zhǎng)視頻),少分配一些;計(jì)算量小的樣本(比如單張圖片),多分配一些。目標(biāo)是讓每塊 GPU 拿到的計(jì)算量盡量相當(dāng)。

這就像一個(gè)聰明的項(xiàng)目經(jīng)理,給能力強(qiáng)的人多分配任務(wù),讓團(tuán)隊(duì)整體效率最高。

這對(duì)提升大規(guī)模集群的擴(kuò)展效率極為重要。

實(shí)測(cè)效果:

解釋一下這個(gè) 90%+ 是什么概念——千卡規(guī)模下,很多框架的擴(kuò)展效率掉到 60-70% 就已經(jīng)算不錯(cuò)了。90%+ 意味著幾乎線性擴(kuò)展,每一分算力都花在了刀刃上。


LoongForge的解法是做了一個(gè)叫 XPU_Plugin 的硬件接入層——底層硬件的差異,被這層插件吃掉了。

同一份訓(xùn)練代碼,只改一個(gè)環(huán)境變量,就能在 GPU 和昆侖芯之間無(wú)縫切換。它意味著,那些想"兩條腿走路"的公司,不需要維護(hù)兩套代碼庫(kù)了。

當(dāng)然,這事的意義也不只是"省事"。

它甚至意味著——NVIDIA的生態(tài)壁壘,被拆掉了一層。

當(dāng)然,LoongForge 做的還不止這些——

比如:

因?yàn)镸oE 有大量“專(zhuān)家”分散在不同GPU 上,所以訓(xùn)練要頻繁跨 GPU 通信,長(zhǎng)序列時(shí)通信成百上千次,速度被拖死。

業(yè)界的做法是讓計(jì)算和通信“重疊”,GPU算當(dāng)前數(shù)據(jù)時(shí),同時(shí)傳輸下一批數(shù)據(jù),通信時(shí)間就“藏”在計(jì)算里。

但因?yàn)橐崆按嫦乱慌鷶?shù)據(jù),顯存爆炸。長(zhǎng)序列時(shí),這塊顯存可能比模型本身還大。

所以,MoE 模型訓(xùn)練要么顯存爆炸,要么通信慢。

LoongForge搞了一套組合拳——

實(shí)測(cè)效果:

再比如:

DeepSeek v3.2用了一種叫稀疏注意力的新技術(shù)。只計(jì)算重要的關(guān)系,忽略不重要的關(guān)系,大幅降低計(jì)算量。

但這個(gè)技術(shù)實(shí)現(xiàn)起來(lái)很復(fù)雜,優(yōu)化起來(lái)更難。

LoongForge對(duì)DeepSeek V3.2的稀疏注意力架構(gòu)做了深度優(yōu)化:算子融合(小操作合并成大操作)、索引優(yōu)化(加速數(shù)據(jù)訪問(wèn))、KV 布局優(yōu)化(減少顯存占用)、序列拼接(多小任務(wù)打包提高效率)。

實(shí)測(cè)效果:

這不是調(diào)個(gè)參數(shù),是重寫(xiě)計(jì)算內(nèi)核。

又比如:

因?yàn)閭鹘y(tǒng)框架的模型定義和分布式策略深度耦合,每來(lái)一個(gè)新模型,就得深入底層代碼改一遍,接入訓(xùn)練框架,往往需要數(shù)周時(shí)間。

LoongForge 通過(guò)一套標(biāo)準(zhǔn)化的三層抽象,加上 YAML 配置文件驅(qū)動(dòng),把新模型接入的工作量,從數(shù)周壓縮到了數(shù)天。

這個(gè)速度,放在行業(yè)里,很能說(shuō)明問(wèn)題。

以具身智能為例。

具身智能需要的 VLA(Vision-Language-Action)模型——把視覺(jué)、語(yǔ)言、動(dòng)作三個(gè)模態(tài)統(tǒng)一在一個(gè)模型里訓(xùn)練,對(duì)訓(xùn)練框架的顯存管理和通信效率要求極其苛刻,比普通多模態(tài)模型更折磨人。

很多做具身智能的團(tuán)隊(duì),都被卡在這里——模型設(shè)計(jì)好了,但訓(xùn)練跑不動(dòng),或者跑太慢。

而 LoongForge 在這個(gè)場(chǎng)景下的表現(xiàn),相當(dāng)亮眼——

PI0.5(代表性 VLA 模型),相比社區(qū)框架,訓(xùn)練速度提升了 49%。

這個(gè)數(shù)字意味著:同樣訓(xùn)一個(gè)機(jī)器人控制模型,別人花 20 天,你花 10 天。

“首發(fā)”和“跟風(fēng)”,區(qū)別立現(xiàn)。

//模型拼到底,拼的是什么?

一個(gè)更深層次的問(wèn)題,現(xiàn)在大模型競(jìng)爭(zhēng)這么激烈,大家都在拼什么?

以前大家只關(guān)心模型效果好不好、參數(shù)多不多、榜單排名高不高?,F(xiàn)在越來(lái)越多的人開(kāi)始意識(shí)到:算力才是真正拉開(kāi)差距的地方。

為什么這么說(shuō)?

先看歷史:

2007年,CUDA出現(xiàn)了。一個(gè)工具,改變了一個(gè)時(shí)代。

2017年,PyTorch出現(xiàn)了。一個(gè)框架,加速了一個(gè)行業(yè)。

再看現(xiàn)在:

多模態(tài)時(shí)代來(lái)了。同樣花 1 個(gè)億買(mǎi)芯片:用老框架的團(tuán)隊(duì),每天能跑 2 個(gè)實(shí)驗(yàn);用 LoongForge 的團(tuán)隊(duì),每天能跑 4-6 個(gè)實(shí)驗(yàn)。

一個(gè)月下來(lái),就是 60 個(gè)實(shí)驗(yàn) vs 180 個(gè)實(shí)驗(yàn)的差距。這個(gè)差距,積累三個(gè)月,就是代差。

翁家翌的話再品一遍:

LoongForge做的,就是讓“快速驗(yàn)證 Idea”這件事,變得更容易、更便宜。

現(xiàn)在,百度智能云把 LoongForge 以 Apache 2.0 協(xié)議完全開(kāi)源了。這意味著,商用沒(méi)問(wèn)題,改也沒(méi)問(wèn)題,拿來(lái)養(yǎng)自己的模型也沒(méi)問(wèn)題。

他們?yōu)槭裁锤议_(kāi)源?

一種可能是:這套東西他們已經(jīng)在內(nèi)部跑了很久,足夠自信,拿出來(lái)示人,順便吸引開(kāi)發(fā)者圍繞昆侖芯構(gòu)建生態(tài)

這個(gè)邏輯,和當(dāng)年英偉達(dá)用 CUDA 鎖定開(kāi)發(fā)者生態(tài),本質(zhì)上是一樣的。先有好的訓(xùn)練框架,再有繁榮的硬件生態(tài),最后形成護(hù)城河。

現(xiàn)在,這條路上多了一個(gè)中國(guó)玩家。

LoongForge 能不能跑出來(lái),還得看社區(qū)反饋和后續(xù)迭代。

但至少,方向是對(duì)的。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
沒(méi)人敢說(shuō)的實(shí)話:U17首戰(zhàn)輸印尼,是浮嶋敏給日本隊(duì)挖的坑

沒(méi)人敢說(shuō)的實(shí)話:U17首戰(zhàn)輸印尼,是浮嶋敏給日本隊(duì)挖的坑

圣西羅的太陽(yáng)
2026-05-09 13:50:57
普京不想再打了,俄軍打下來(lái)的領(lǐng)土,足夠給1億俄羅斯人一個(gè)交待

普京不想再打了,俄軍打下來(lái)的領(lǐng)土,足夠給1億俄羅斯人一個(gè)交待

混沌錄
2026-05-05 13:50:21
《低智商犯罪》演員演技評(píng)分,王傳君沒(méi)干過(guò)第一,燒餅評(píng)分意外

《低智商犯罪》演員演技評(píng)分,王傳君沒(méi)干過(guò)第一,燒餅評(píng)分意外

糊咖娛樂(lè)
2026-05-09 15:10:33
7800億軍購(gòu)案通過(guò)后,國(guó)民黨終于有一個(gè)明白人,打鄭麗文的臉?

7800億軍購(gòu)案通過(guò)后,國(guó)民黨終于有一個(gè)明白人,打鄭麗文的臉?

健身狂人
2026-05-09 18:05:09
央視:鄺兆鐳昨日未加入U(xiǎn)17國(guó)足合練,今日出戰(zhàn)日本存疑

央視:鄺兆鐳昨日未加入U(xiǎn)17國(guó)足合練,今日出戰(zhàn)日本存疑

懂球帝
2026-05-09 14:37:04
莫斯科徹底亂套,烏克蘭無(wú)人機(jī)真是太厲害了!

莫斯科徹底亂套,烏克蘭無(wú)人機(jī)真是太厲害了!

北京作家編劇肥豬滿(mǎn)圈
2026-05-07 19:11:03
蔣介石曾孫大變樣!49歲蔣友柏成光頭猛男,兄弟倆雙雙扎根大陸

蔣介石曾孫大變樣!49歲蔣友柏成光頭猛男,兄弟倆雙雙扎根大陸

橙星文娛
2026-05-08 11:12:00
反對(duì)用小孩測(cè)試!空紙箱對(duì)抗享界S9座椅折疊力,結(jié)果一目了然!

反對(duì)用小孩測(cè)試!空紙箱對(duì)抗享界S9座椅折疊力,結(jié)果一目了然!

沙雕小琳琳
2026-05-09 01:15:03
外交部:奉勸巴拉圭當(dāng)局早日站到歷史正確一邊

外交部:奉勸巴拉圭當(dāng)局早日站到歷史正確一邊

環(huán)球網(wǎng)資訊
2026-05-08 16:11:17
兩人都拒絕參加玄武門(mén),李世民為何防了李靖一輩子,卻重用李勣?

兩人都拒絕參加玄武門(mén),李世民為何防了李靖一輩子,卻重用李勣?

興趣知識(shí)
2026-05-09 03:10:48
巴拿馬扛不住了,7名議員組團(tuán)訪華,巴外長(zhǎng)還想給中國(guó)立兩條規(guī)矩

巴拿馬扛不住了,7名議員組團(tuán)訪華,巴外長(zhǎng)還想給中國(guó)立兩條規(guī)矩

鉤子的愛(ài)好
2026-05-08 15:52:46
出大事了,美軍機(jī)被擊落,特朗普惱羞成怒,英法德轉(zhuǎn)變態(tài)度

出大事了,美軍機(jī)被擊落,特朗普惱羞成怒,英法德轉(zhuǎn)變態(tài)度

史行途
2026-05-08 06:30:08
曝63歲穆帥已與皇馬談判!自信能平息更衣室內(nèi)訌 提出回歸2大條件

曝63歲穆帥已與皇馬談判!自信能平息更衣室內(nèi)訌 提出回歸2大條件

我愛(ài)英超
2026-05-09 07:07:35
史上最弱巴蜀割據(jù)者,被一個(gè)五品將軍順手滅掉,可憐又可笑

史上最弱巴蜀割據(jù)者,被一個(gè)五品將軍順手滅掉,可憐又可笑

云霄紀(jì)史觀
2026-05-08 18:32:24
林徽因和陸小曼誰(shuí)更美?爭(zhēng)議一直沒(méi)停,老照片卻最真實(shí)不騙人

林徽因和陸小曼誰(shuí)更美?爭(zhēng)議一直沒(méi)停,老照片卻最真實(shí)不騙人

鄉(xiāng)野小珥
2026-05-09 06:05:00
老人是否長(zhǎng)壽,看這7條就夠了,占的越多越長(zhǎng)壽,你占幾條?

老人是否長(zhǎng)壽,看這7條就夠了,占的越多越長(zhǎng)壽,你占幾條?

暖風(fēng)吹過(guò)竹林
2026-05-09 14:34:53
韓國(guó)女隊(duì)陣容引爭(zhēng)議:故意安排輸給孫穎莎的戰(zhàn)術(shù)背后

韓國(guó)女隊(duì)陣容引爭(zhēng)議:故意安排輸給孫穎莎的戰(zhàn)術(shù)背后

林子說(shuō)事
2026-05-09 11:12:41
茶顏悅色,裝不下去了

茶顏悅色,裝不下去了

中國(guó)新聞周刊
2026-05-07 22:15:57
北京奔馳C 260 L經(jīng)典版上市 售價(jià)29.99萬(wàn)元

北京奔馳C 260 L經(jīng)典版上市 售價(jià)29.99萬(wàn)元

車(chē)質(zhì)網(wǎng)
2026-05-09 09:13:08
中紀(jì)委劃紅線:嚴(yán)查公務(wù)員出現(xiàn)這5種行為,觸碰將一律嚴(yán)肅處理

中紀(jì)委劃紅線:嚴(yán)查公務(wù)員出現(xiàn)這5種行為,觸碰將一律嚴(yán)肅處理

細(xì)說(shuō)職場(chǎng)
2026-05-06 14:21:03
2026-05-09 19:15:00
鈦媒體APP incentive-icons
鈦媒體APP
獨(dú)立財(cái)經(jīng)科技媒體
133334文章數(shù) 862150關(guān)注度
往期回顧 全部

科技要聞

美國(guó)政府強(qiáng)力下場(chǎng) 蘋(píng)果英特爾達(dá)成代工協(xié)議

頭條要聞

國(guó)防部證實(shí):中方建造的"麒麟"級(jí)潛艇首艇交付巴基斯坦

頭條要聞

國(guó)防部證實(shí):中方建造的"麒麟"級(jí)潛艇首艇交付巴基斯坦

體育要聞

成立128年后,這支升班馬首奪頂級(jí)聯(lián)賽冠軍

娛樂(lè)要聞

50歲趙薇臉頰凹陷滄桑得認(rèn)不出!

財(cái)經(jīng)要聞

存儲(chǔ)芯片上演造富潮

汽車(chē)要聞

軸距加長(zhǎng)/智駕拉滿(mǎn) 阿維塔07L定位大五座SUV

態(tài)度原創(chuàng)

親子
健康
游戲
家居
公開(kāi)課

親子要聞

2026好看又好用的媽咪育兒包有哪些?(5月最新)

干細(xì)胞能讓人“返老還童”嗎

玩家十年沒(méi)清空過(guò)電腦回收站!一看容量當(dāng)場(chǎng)傻眼了

家居要聞

菁英人居 全能豪宅

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版