国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

百度開源訓(xùn)練框架,國產(chǎn)芯片也能跑千億模型了

0
分享至

4月24日,DeepSeek V4 雖遲但到。

1.6T 參數(shù),MIT 協(xié)議全量開源,百萬級上下文直接拉滿。


鼓掌的除了整個(gè)科技圈,還有那些在前一天賣空 Minimax 和智譜股票的股民們。

但內(nèi)行人更關(guān)注的是,DeepSeek V4 創(chuàng)新性地用了兩套全新的底層設(shè)計(jì):Engram 條件記憶模塊和 mHC(流形約束超連接)。

核心目的只有一個(gè):在保持模型效果的前提下,把訓(xùn)練和推理的成本打下來。

這說明了一件事:模型層面的創(chuàng)新,正在和基礎(chǔ)設(shè)施層面的創(chuàng)新深度綁定。

一個(gè)月前,OpenAI 核心基礎(chǔ)設(shè)施團(tuán)隊(duì)的大牛翁家翌說了一段話,在技術(shù)圈瘋傳:"現(xiàn)在的大模型競爭,拼的不是 Idea 多精妙,而是 AI Infra 的正確性與單位時(shí)間內(nèi)的迭代次數(shù)。Idea 是廉價(jià)的,能被快速驗(yàn)證的 Idea 才值錢。"

這句話,百度智能云的百舸團(tuán)隊(duì)顯然聽進(jìn)去了。

最近,他們開源了一個(gè) AI 訓(xùn)練框架,直接把這場"速度戰(zhàn)"的烈度往上抬了一個(gè)量級。

一個(gè)幾百億參數(shù)的模型,一張 GPU 卡裝不下,得"切"成很多塊,放到幾十張甚至幾千張卡上同時(shí)訓(xùn)練。

怎么切?模型有幾百層,每層都要切,切錯(cuò)了就跑不起來。

怎么通信?幾千張卡在訓(xùn)練,每張卡算完自己的部分,要和其他卡交換數(shù)據(jù)。交換慢了,整個(gè)訓(xùn)練就慢了。

怎么管理顯存?模型參數(shù)、梯度、優(yōu)化器狀態(tài),都要占顯存。顯存不夠,訓(xùn)練就崩了。

怎么保證穩(wěn)定?幾千張卡跑幾天幾夜,中間某張卡出問題了,整個(gè)訓(xùn)練要重來嗎?

這些問題,如果讓每個(gè)工程師自己解決,那得累死。于是就有了"訓(xùn)練框架"。

它像一個(gè)智能管家——自動切分模型、優(yōu)化通信、管理顯存、保證容錯(cuò)。

有了這個(gè)"老師傅",工程師才能專注于模型創(chuàng)新,而不是被工程細(xì)節(jié)拖死。

把時(shí)間拉回兩年前,那時(shí)大模型基本都是"純文字",訓(xùn)練框架早就很成熟了,而且綁在 NVIDIA 一棵樹上。

但到了現(xiàn)在,情況變了:文生圖、圖生文、視頻理解、機(jī)器人控制……所有最性感的 AI 方向,都是多模態(tài)。

訓(xùn)練多模態(tài)模型,和訓(xùn)練純文字大模型,完全不是一個(gè)概念。

多模態(tài)模型——視覺編碼器(ViT)+ 語言模型(LLM)+ 投影層,三個(gè)模塊參數(shù)量差了上百倍。傳統(tǒng)框架只能給它們強(qiáng)制套用同一套并行策略——小的模塊閑死,大的模塊累死。

多模態(tài)數(shù)據(jù)差異巨大:單張圖片約 256 token,20 分鐘視頻超 10 萬 token。

Attention 的計(jì)算復(fù)雜度是序列長度的平方級,分到視頻的那塊 GPU,計(jì)算量是分到圖片的上萬倍。

國產(chǎn)芯片越來越多地進(jìn)入大模型訓(xùn)練場景,但訓(xùn)練框架是深度綁定英偉達(dá) GPU。換芯片?重寫一遍,維護(hù)兩套代碼,成本極高。好不容易遷移完了,還發(fā)現(xiàn)性能對不上。

老框架們面對多模態(tài),就像中年人面對 996,力不從心。

百度智能云百舸團(tuán)隊(duì)給出的答案,是一個(gè)全模態(tài)訓(xùn)練框架——覆蓋純文字(LLM)、視覺語言(VLM)、機(jī)器人控制(VLA),甚至文生圖(Diffusion)場景。

但說人話就是:他們把上面那三個(gè)坑,一個(gè)一個(gè)填了。

傳統(tǒng)框架"一刀切"的并行策略,對視覺編碼器和語言模型都不友好。

新框架的做法是:把這兩者解耦,各自獨(dú)立配置最優(yōu)的并行方案。

這相當(dāng)于什么?以前是三個(gè)人擠一張桌子吃飯,小個(gè)子夠不著,大個(gè)子伸不開腿。現(xiàn)在是各坐各的桌椅,各用各的餐具,誰也不耽誤誰。

傳統(tǒng)框架的"大鍋飯"思路,不只耽誤效率,還浪費(fèi)成本。

新框架引入了一套自動負(fù)載均衡機(jī)制:計(jì)算量大的樣本(比如長視頻),少分配一些;計(jì)算量小的樣本(比如單張圖片),多分配一些。目標(biāo)是讓每塊 GPU 拿到的計(jì)算量盡量相當(dāng)。

這就像一個(gè)聰明的項(xiàng)目經(jīng)理,給能力強(qiáng)的人多分配任務(wù),讓團(tuán)隊(duì)整體效率最高。

解釋一下這個(gè) 90%+ 是什么概念——千卡規(guī)模下,很多框架的擴(kuò)展效率掉到 60-70% 就已經(jīng)算不錯(cuò)了。90%+ 意味著幾乎線性擴(kuò)展,每一分算力都花在了刀刃上。

針對芯片綁定的問題,新框架做了一個(gè)叫 XPU_Plugin 的硬件接入層——底層硬件差異被這層插件吃掉。同一份訓(xùn)練代碼,只改一個(gè)環(huán)境變量,就能在 GPU 和昆侖芯之間無縫切換。想"兩條腿走路"的公司,不需要維護(hù)兩套代碼庫了。

這甚至意味著,NVIDIA 的生態(tài)壁壘,被拆掉了一層。

新框架還解決了一個(gè)更刁鉆的問題:MoE 模型的通信瓶頸。

MoE 有大量"專家"分散在不同 GPU 上,訓(xùn)練要頻繁跨 GPU 通信,長序列時(shí)通信成百上千次,速度被拖死。業(yè)界常規(guī)做法是讓計(jì)算和通信"重疊"——GPU 算當(dāng)前數(shù)據(jù)時(shí),同時(shí)傳輸下一批,通信時(shí)間"藏"在計(jì)算里。但提前存下一批數(shù)據(jù),顯存會爆炸,長序列時(shí)這塊顯存可能比模型本身還大。

所以 MoE 訓(xùn)練要么顯存爆炸,要么通信慢。

新框架的解法是一套組合拳。DeepSeek v3.2 用了稀疏注意力技術(shù),只計(jì)算重要關(guān)系,忽略不重要的,大幅降低計(jì)算量。新框架對此做了深度優(yōu)化:算子融合、索引優(yōu)化、KV 布局優(yōu)化、序列拼接。

另一個(gè)痛點(diǎn)是新模型接入。傳統(tǒng)框架的模型定義和分布式策略深度耦合,每來一個(gè)新模型,得深入底層改代碼,周期以周計(jì)。新框架把兩者解耦,模型定義完全獨(dú)立,接入周期縮短到小時(shí)級。

翁家翌那句話的含金量還在上升:能被快速驗(yàn)證的 Idea 才值錢??蚣馨压こ涕T檻打下來,驗(yàn)證速度才能上去。

從更宏觀的視角看,這件事的意義不止于技術(shù)層面。

訓(xùn)練框架是 AI 基礎(chǔ)設(shè)施的核心組件,之前基本是海外巨頭的天下。百度這次開源,意味著國產(chǎn) AI 基礎(chǔ)設(shè)施又多了一塊關(guān)鍵拼圖。

對于想做大模型的公司來說,多了一個(gè)不綁定單一芯片的選擇。對于國產(chǎn)芯片來說,多了一個(gè)能被真正用起來的軟件生態(tài)。

模型創(chuàng)新 + 基礎(chǔ)設(shè)施創(chuàng)新,兩條腿走路的范式,正在變成現(xiàn)實(shí)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
鬧大了!法國隊(duì)賽前放狠話失敗,F(xiàn)·勒布倫當(dāng)場痛哭,哥哥情緒失控

鬧大了!法國隊(duì)賽前放狠話失敗,F(xiàn)·勒布倫當(dāng)場痛哭,哥哥情緒失控

郝小小看體育
2026-05-10 09:30:13
大師賽之王即將誕生!辛納29連勝追平費(fèi)德勒,沖擊史無前例的紀(jì)錄

大師賽之王即將誕生!辛納29連勝追平費(fèi)德勒,沖擊史無前例的紀(jì)錄

體育妞世界
2026-05-10 09:25:48
搞不懂!一個(gè)2米13中鋒,29歲拿到8000萬合同,30歲被擺上了貨架

搞不懂!一個(gè)2米13中鋒,29歲拿到8000萬合同,30歲被擺上了貨架

球毛鬼胎
2026-05-09 16:14:33
鄭州街頭法桐樹飛絮密集宛如飄雪,有市民稱眼睛和鼻子過敏,園林部門回應(yīng)

鄭州街頭法桐樹飛絮密集宛如飄雪,有市民稱眼睛和鼻子過敏,園林部門回應(yīng)

極目新聞
2026-05-10 13:03:22
漢武帝為什么總選春天進(jìn)攻匈奴?司馬光:匈奴女子春天更容易懷孕

漢武帝為什么總選春天進(jìn)攻匈奴?司馬光:匈奴女子春天更容易懷孕

云霄紀(jì)史觀
2026-05-08 00:57:48
300萬大軍僅42天就投降,女性成為犧牲品,給敵軍生了20萬私生子

300萬大軍僅42天就投降,女性成為犧牲品,給敵軍生了20萬私生子

興趣知識
2026-05-09 03:15:46
科爾2年超3500萬回歸!勇士補(bǔ)強(qiáng)計(jì)劃出爐:續(xù)約庫里+樂透追字母哥

科爾2年超3500萬回歸!勇士補(bǔ)強(qiáng)計(jì)劃出爐:續(xù)約庫里+樂透追字母哥

鍋?zhàn)踊@球
2026-05-10 14:51:47
世乒賽決賽預(yù)測:中國男團(tuán)3-1日本奪12連冠 女團(tuán)3-0日本輕取7連冠

世乒賽決賽預(yù)測:中國男團(tuán)3-1日本奪12連冠 女團(tuán)3-0日本輕取7連冠

劉哥談體育
2026-05-10 14:21:37
做好準(zhǔn)備硬扛30年,和日本當(dāng)年一模一樣,還清房貸經(jīng)濟(jì)才有起色

做好準(zhǔn)備硬扛30年,和日本當(dāng)年一模一樣,還清房貸經(jīng)濟(jì)才有起色

阿離家居
2026-05-09 10:05:46
不看路?。勘本┟と伺⒚さ郎媳蛔?,肇事男子終于找到

不看路?。勘本┟と伺⒚さ郎媳蛔?,肇事男子終于找到

寒士之言本尊
2026-05-09 20:25:58
普京談中俄關(guān)系、中美關(guān)系

普京談中俄關(guān)系、中美關(guān)系

參考消息
2026-05-10 15:11:06
白打一輪!英超升級迎來大變革,四隊(duì)零進(jìn)球,全部都在“演戲”?

白打一輪!英超升級迎來大變革,四隊(duì)零進(jìn)球,全部都在“演戲”?

嗨皮看球
2026-05-10 00:35:15
為什么說陽痿、跑步、心梗,成了“斬殺”中年男性的“三件套”?

為什么說陽痿、跑步、心梗,成了“斬殺”中年男性的“三件套”?

醫(yī)藥養(yǎng)生保健報(bào)社
2026-04-28 17:59:19
釋永信被一女子爆料:她們姐妹住少林寺3天,爭著往釋永信房間跑

釋永信被一女子爆料:她們姐妹住少林寺3天,爭著往釋永信房間跑

江山揮筆
2026-03-23 15:40:31
毛主席與劉少奇的發(fā)展理念有分歧,70年后再看有何定論?

毛主席與劉少奇的發(fā)展理念有分歧,70年后再看有何定論?

顧史
2026-03-30 13:24:29
湖南這件事,已經(jīng)不是荒誕的問題了

湖南這件事,已經(jīng)不是荒誕的問題了

胖胖說他不胖
2026-05-09 14:58:48
伊朗因儲油罐已滿而將石油排入海中?伊官員:歐洲油輪干的

伊朗因儲油罐已滿而將石油排入海中?伊官員:歐洲油輪干的

觀察者網(wǎng)
2026-05-09 09:10:04
4個(gè)“本科封神”專業(yè),不用讀研,畢業(yè)直接拿高薪,穩(wěn)到離譜

4個(gè)“本科封神”專業(yè),不用讀研,畢業(yè)直接拿高薪,穩(wěn)到離譜

狐貍先森講升學(xué)規(guī)劃
2026-05-09 10:40:03
訪陸剛落幕,警方果斷出手,替鄭麗文出了口惡氣,結(jié)局大快人心

訪陸剛落幕,警方果斷出手,替鄭麗文出了口惡氣,結(jié)局大快人心

戀人視角
2026-05-10 03:07:06
女孩身高2米26貌美如花,媽媽天天發(fā)愁:白長這么漂亮,沒人敢追

女孩身高2米26貌美如花,媽媽天天發(fā)愁:白長這么漂亮,沒人敢追

涼州辭
2026-05-07 07:25:03
2026-05-10 15:59:00
報(bào)錯(cuò)免疫體
報(bào)錯(cuò)免疫體
一名在需求評審和數(shù)據(jù)異常中反復(fù)橫跳的產(chǎn)品運(yùn)營。
2474文章數(shù) 24關(guān)注度
往期回顧 全部

科技要聞

DeepSeek融資,改寫所有人的估值

頭條要聞

七旬鄰居凌晨爬窗入室無刑責(zé) 上海男子全家被逼搬離

頭條要聞

七旬鄰居凌晨爬窗入室無刑責(zé) 上海男子全家被逼搬離

體育要聞

詹姆斯生涯第6次0-3困境:今年會被橫掃嗎

娛樂要聞

大S女兒玥兒開通賬號,用煙花緬懷母親

財(cái)經(jīng)要聞

白酒大逃殺

汽車要聞

軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

態(tài)度原創(chuàng)

藝術(shù)
數(shù)碼
房產(chǎn)
健康
公開課

藝術(shù)要聞

毛主席83歲時(shí)寫給華國鋒的6字真相令人震驚!

數(shù)碼要聞

索泰推出首款RTX 5070 AMP白色版顯卡

房產(chǎn)要聞

低價(jià)甩賣!??谶@個(gè)地標(biāo)商業(yè),無人接盤!

干細(xì)胞能讓人“返老還童”嗎

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版