国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

國(guó)產(chǎn)AI芯片兩個(gè)指標(biāo):模型覆蓋+集群規(guī)模能力 | 百度智能云王雁鵬

0
分享至

編輯部 整理自 MEET2026
量子位 | 公眾號(hào) QbitAI

當(dāng)國(guó)產(chǎn)AI芯片接連發(fā)布、估值高漲之際,一個(gè)尖銳的問(wèn)題依然懸在頭頂:它們真的能撐起下一代萬(wàn)卡集群與萬(wàn)億參數(shù)模型的訓(xùn)練嗎?

一邊是市場(chǎng)對(duì)替代方案的迫切期待,另一邊是英偉達(dá)在利潤(rùn)與估值上仍高歌猛進(jìn)……

百度智能云AI計(jì)算首席科學(xué)家王雁鵬在量子位MEET2026智能未來(lái)大會(huì)上,基于百度昆侖芯在大規(guī)模生產(chǎn)環(huán)境中的實(shí)戰(zhàn)經(jīng)驗(yàn)指出:

評(píng)判芯片實(shí)力的標(biāo)準(zhǔn)已從單純的算力數(shù)值,轉(zhuǎn)向了能否穩(wěn)定支撐從百億到萬(wàn)億參數(shù)、從稠密模型到MoE架構(gòu)、從單模態(tài)到多模態(tài)的完整模型譜系訓(xùn)練,并能在萬(wàn)卡乃至更大規(guī)模集群上實(shí)現(xiàn)高效擴(kuò)展。

在演講中,王雁鵬系統(tǒng)拆解了大規(guī)模訓(xùn)練中集群穩(wěn)定性、線(xiàn)性擴(kuò)展與模型生態(tài)三大核心挑戰(zhàn)的攻堅(jiān)路徑,并回應(yīng)了行業(yè)對(duì)MoE時(shí)代硬件路徑的關(guān)切。

他認(rèn)為,即便是參數(shù)激增的MoE模型,“小芯片搭大集群”的路徑依然可行,其關(guān)鍵在于極致的通信優(yōu)化與系統(tǒng)級(jí)協(xié)同設(shè)計(jì)。



為完整呈現(xiàn)王雁鵬的思考,在不改變?cè)獾幕A(chǔ)上,量子位對(duì)演講內(nèi)容進(jìn)行了整理編輯,希望能給你帶來(lái)更多啟發(fā)。

MEET2026智能未來(lái)大會(huì)是由量子位主辦的行業(yè)峰會(huì),近30位產(chǎn)業(yè)代表與會(huì)討論。線(xiàn)下參會(huì)觀眾近1500人,線(xiàn)上直播觀眾350萬(wàn)+,獲得了主流媒體的廣泛關(guān)注與報(bào)道。

核心觀點(diǎn)梳理
  • 國(guó)產(chǎn)芯片的替代有一個(gè)漸進(jìn)式的過(guò)程,昆侖芯從第一代開(kāi)始已經(jīng)做到了在搜索線(xiàn)上系統(tǒng)全量用推理,真正難的是在大規(guī)模訓(xùn)練場(chǎng)景。
  • 現(xiàn)在Scale換了一個(gè)維度,變成了模型參數(shù)的Scale和任務(wù)訓(xùn)練規(guī)模的Scale,由此帶來(lái)了整個(gè)系統(tǒng)層面的Scale,映射到硬件上就有不同的size、各種形狀、不同的切分策略和并行策略。
  • 當(dāng)前重要發(fā)展方向是MoE,它在某種程度上延續(xù)了原有的Scaling Law,能夠繼續(xù)擴(kuò)大參數(shù)規(guī)模,同時(shí)不增加激活參數(shù)規(guī)模。但系統(tǒng)層面會(huì)面臨新的挑戰(zhàn):模型參數(shù)變得更大、輸入序列變長(zhǎng),通信占比顯著提升,占比提升意味著整個(gè)模型架構(gòu)都要有變化。
  • 當(dāng)前我們?cè)诎俣萉ianfan VL、百度蒸汽機(jī)都取得較領(lǐng)先的模型效果,并已經(jīng)實(shí)現(xiàn)全棧基于昆侖芯的訓(xùn)練。

以下為王雁鵬演講全文:

真正的困難在大規(guī)模訓(xùn)練場(chǎng)景里

大家好,我是來(lái)自百度智能云的王雁鵬,我很長(zhǎng)一段時(shí)間都在負(fù)責(zé)AI基礎(chǔ)設(shè)施建設(shè)的工作。今天想跟大家分享的內(nèi)容是,我們?nèi)绾卧谏a(chǎn)環(huán)境中規(guī)?;瘧?yīng)用我們的國(guó)產(chǎn)芯片

最近國(guó)產(chǎn)芯片熱度很高,很多產(chǎn)品陸續(xù)上市,也獲得了很高估值。似乎國(guó)產(chǎn)芯片馬上就要在大規(guī)模生產(chǎn)環(huán)境落地。但同時(shí),英偉達(dá)仍然保持極高的利潤(rùn)率和上漲的估值,市場(chǎng)仍然在購(gòu)買(mǎi)其產(chǎn)品。

這兩個(gè)看似矛盾的現(xiàn)象背后,其實(shí)反映了一個(gè)事實(shí):要真正把國(guó)產(chǎn)芯片用起來(lái),難度依然非常大。不僅如此,除了英偉達(dá)之外的國(guó)際芯片供應(yīng)商,也同樣沒(méi)有在大規(guī)模訓(xùn)練場(chǎng)景中真正跑起來(lái)。

國(guó)產(chǎn)替代一定是漸進(jìn)式過(guò)程。大家都知道在推理場(chǎng)景中問(wèn)題不大,例如昆侖芯從第一代起就已在搜索線(xiàn)上系統(tǒng)實(shí)現(xiàn)全量推理,真正困難在大規(guī)模訓(xùn)練場(chǎng)景里面。

第一大挑戰(zhàn):集群穩(wěn)定性

大規(guī)模訓(xùn)練往往是上萬(wàn)卡的同步系統(tǒng),任何一臺(tái)卡中斷都可能導(dǎo)致任務(wù)重啟。

比如,在100張卡的時(shí)候有效訓(xùn)練時(shí)間是99%,但當(dāng)1%時(shí)間因?yàn)橹袛嗬速M(fèi)的話(huà),線(xiàn)性擴(kuò)展到一萬(wàn)張卡則意味著整個(gè)集群不可用了。因此,第一個(gè)要解決的便是集群穩(wěn)定性問(wèn)題。

在芯片層面,GPU天生是高故障率器件:晶體管數(shù)量多、算力高、功耗大,同時(shí)專(zhuān)注于計(jì)算導(dǎo)致監(jiān)控能力弱,整體比CPU的故障率高出多個(gè)量級(jí)。

在這方面我們有兩類(lèi)經(jīng)驗(yàn):

1、事前精細(xì)化監(jiān)控與驗(yàn)證:

我們必須假設(shè)芯片可能存在各種問(wèn)題——運(yùn)行變慢、精度異常、數(shù)據(jù)不一致等,因此需要系統(tǒng)級(jí)手段提前定位可能的故障,而不能依賴(lài)芯片自身的報(bào)錯(cuò)能力。尤其是在靜默錯(cuò)誤場(chǎng)景中,系統(tǒng)需要能夠精準(zhǔn)定位故障節(jié)點(diǎn),否則訓(xùn)練會(huì)長(zhǎng)期無(wú)法復(fù)現(xiàn)。

2、故障后的快速恢復(fù)能力:

無(wú)論故障率如何,總要避免大規(guī)模重算,因此我們構(gòu)建了透明Checkpoint和快速恢復(fù)機(jī)制,盡量減少損失。

第二大挑戰(zhàn):讓集群真正擴(kuò)展起來(lái)

一個(gè)萬(wàn)卡集群必須實(shí)現(xiàn)線(xiàn)性擴(kuò)展,否則只有千卡、兩千卡的規(guī)模意義不大。

我們大致經(jīng)歷了三個(gè)階段:

百卡集群上,驗(yàn)證技術(shù)可行性,關(guān)鍵在于RDMA通信技術(shù)的適配與優(yōu)化。

千卡集群上,由于網(wǎng)絡(luò)不再對(duì)等,比如我們不能把任何兩個(gè)芯片或者兩臺(tái)機(jī)器看成在網(wǎng)絡(luò)任何地方部署性能都一樣,因此也需要做好網(wǎng)絡(luò)親和性調(diào)度等復(fù)雜優(yōu)化。

萬(wàn)卡集群則是更大的挑戰(zhàn),面對(duì)多任務(wù)、多并行策略(PP、TP、EP 等)帶來(lái)的流量競(jìng)爭(zhēng),必須實(shí)現(xiàn)芯片與網(wǎng)絡(luò)的聯(lián)合設(shè)計(jì)。



我們的核心邏輯叫:XPU驅(qū)動(dòng)的any to any的通信

以XPU為核心,在通信過(guò)程中繞過(guò)CPU各種影響,直接用XPU驅(qū)動(dòng)我們的網(wǎng)絡(luò)。針對(duì)不同流量有不同優(yōu)先級(jí)做整個(gè)任務(wù)的最優(yōu),經(jīng)過(guò)這一點(diǎn)我們可以把大規(guī)模擴(kuò)展做上去。

第三大挑戰(zhàn):模型生態(tài)與精度體系

英偉達(dá)最強(qiáng)的護(hù)城河并不只是硬件,而是過(guò)去十多年沉淀的模型生態(tài):成千上萬(wàn)種模型變體、算子體系、框架適配,這些都讓英偉達(dá)在訓(xùn)練精度上保持絕對(duì)穩(wěn)定性。

在大模型時(shí)代,由于Transformer這套架構(gòu)相對(duì)統(tǒng)一,國(guó)產(chǎn)芯片迎來(lái)了機(jī)會(huì)。

但可能很多人忽略的一點(diǎn)是:

現(xiàn)在Scale換了一個(gè)維度,變成了模型參數(shù)的Scale和任務(wù)規(guī)模的Scale。而這意味著模型參數(shù)可以有不同的規(guī)模,例如十億、百億、千億,同時(shí)我們可以跑到不同硬件平臺(tái)上,比如百卡、千卡、萬(wàn)卡,這兩個(gè)維度的Scale則會(huì)帶來(lái)整個(gè)系統(tǒng)的Scale。



不同于原來(lái)模型架構(gòu)的Scale,算子映射到硬件上面會(huì)有不同的size,不同形狀,不同并行的策略,這個(gè)情況下算子能不能穩(wěn)定地跑出來(lái)。我們看到它會(huì)在精度和性能上都會(huì)存在挑戰(zhàn),尤其是精度方面的挑戰(zhàn)。換了一個(gè)平臺(tái),甚至可能因?yàn)椤八阕訉?xiě)得不對(duì)”、“精度差一點(diǎn)”都可能導(dǎo)致兩個(gè)月的訓(xùn)練白跑。

因此我們做了高度泛化的算子體系,針對(duì)不同的算子的size做了高強(qiáng)度的泛化,同時(shí)在泛化基礎(chǔ)上還做到小規(guī)模驗(yàn)證精度,避免每次都使用萬(wàn)卡對(duì)比,從而保證大規(guī)模訓(xùn)練的可靠性。

MoE模型與多模態(tài)模型的新挑戰(zhàn)

當(dāng)前重要的發(fā)展方向是MoE,它能在不提升激活規(guī)模的情況下擴(kuò)展模型參數(shù),延續(xù)Scaling Law。

但MoE基礎(chǔ)上對(duì)系統(tǒng)架構(gòu)也帶來(lái)新的挑戰(zhàn),模型參數(shù)變大了,輸入序列變長(zhǎng),意味著通信占比提升了,對(duì)整個(gè)模型架構(gòu)都會(huì)有改變

因此需要極致的通信優(yōu)化,以及顯存的協(xié)同,與計(jì)算overlap,來(lái)完成MoE系統(tǒng)的適配。



我們的結(jié)論是,即便是MoE模型,小芯片搭大集群的方式依然可行

多模態(tài)模型則帶來(lái)另一類(lèi)問(wèn)題,不同的模態(tài)會(huì)帶來(lái)不同的訓(xùn)練強(qiáng)度,不同模態(tài)的計(jì)算,還用原來(lái)的同構(gòu)拆分方法的話(huà)會(huì)導(dǎo)致訓(xùn)練的效率非常低,典型情況下MFU可能都不到10%。



針對(duì)這個(gè)需要做異構(gòu)數(shù)據(jù)均衡的調(diào)度,適配異構(gòu)并行策略,使得系統(tǒng)能夠根據(jù)我們workload動(dòng)態(tài)地做并行策略。不管模型是什么樣的,都能找到最優(yōu)的運(yùn)行策略適配模型,在這一塊需要做優(yōu)化。

衡量國(guó)產(chǎn)芯片“能否真正用起來(lái)”的標(biāo)準(zhǔn),我們認(rèn)為有兩個(gè)關(guān)鍵維度:

  • 模型覆蓋能力:覆蓋大語(yǔ)言模型、多模態(tài)、文生視頻等完整體系。
  • 集群規(guī)模能力:從百卡到千卡再到萬(wàn)卡全覆蓋。

目前我們?cè)谀P透采w上基本達(dá)到主流大模型體系,在規(guī)模上已能跑萬(wàn)卡任務(wù),未來(lái)還會(huì)向數(shù)萬(wàn)卡推進(jìn)。



最近大家關(guān)注TPU,就是因?yàn)镚oogle能夠用非常優(yōu)秀的Gemini證明TPU的訓(xùn)練能力——模型綁定硬件,硬件才能真正被接受。

同樣,昆侖芯也需要綁定優(yōu)秀的自研模型。

當(dāng)前我們?cè)诎俣萉ianfan VL、百度蒸汽機(jī)都取得較領(lǐng)先的模型效果,并已經(jīng)實(shí)現(xiàn)全棧基于昆侖芯的訓(xùn)練。未來(lái)我們會(huì)繼續(xù)努力,讓更先進(jìn)的模型在我們昆侖芯上面全棧訓(xùn)練出來(lái)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
查獲一批中式裝備后,泰國(guó)發(fā)難,中方早已亮明立場(chǎng),絕無(wú)退讓余地

查獲一批中式裝備后,泰國(guó)發(fā)難,中方早已亮明立場(chǎng),絕無(wú)退讓余地

博卜talk
2025-12-17 19:36:59
C羅電影首秀,加盟《速度與激情11》劇組

C羅電影首秀,加盟《速度與激情11》劇組

澎湃新聞
2025-12-18 15:06:27
這5種香煙已被列入“黑名單”,吸煙的人請(qǐng)注意,最好別抽!

這5種香煙已被列入“黑名單”,吸煙的人請(qǐng)注意,最好別抽!

閱微札記
2025-12-17 15:00:47
太突然!菲律賓20艘漁船“鐵索連環(huán)”闖黃巖島,馬科斯這招真的狠

太突然!菲律賓20艘漁船“鐵索連環(huán)”闖黃巖島,馬科斯這招真的狠

潮鹿逐夢(mèng)
2025-12-18 11:08:23
板正的球隊(duì)

板正的球隊(duì)

靜易墨
2025-12-18 21:24:07
重磅宣布!你好,加內(nèi)特!森林狼等了整整9年

重磅宣布!你好,加內(nèi)特!森林狼等了整整9年

籃球?qū)崙?zhàn)寶典
2025-12-18 23:36:49
善惡有報(bào),移居英國(guó)僅2年,57歲吳秀波再迎噩耗,步入李易峰后塵

善惡有報(bào),移居英國(guó)僅2年,57歲吳秀波再迎噩耗,步入李易峰后塵

徐徐道史
2025-12-17 18:57:17
余華:我為什么討厭魯迅 (深度好文)

余華:我為什么討厭魯迅 (深度好文)

尚曦讀史
2025-11-28 09:51:13
上映奪冠,全球票房1億,擊敗動(dòng)物城2奪冠,賀歲檔誕生了大黑馬

上映奪冠,全球票房1億,擊敗動(dòng)物城2奪冠,賀歲檔誕生了大黑馬

星宿影視?shū)?/span>
2025-12-18 17:21:24
太慘了!小米車(chē)主剛提新車(chē)就喜提牢飯!被撞者身份曝光,人已離世

太慘了!小米車(chē)主剛提新車(chē)就喜提牢飯!被撞者身份曝光,人已離世

鋭娛之樂(lè)
2025-12-18 22:15:24
發(fā)現(xiàn)一個(gè)奇怪的現(xiàn)象:在體制內(nèi) , 越來(lái)越多的人不愿意出差了

發(fā)現(xiàn)一個(gè)奇怪的現(xiàn)象:在體制內(nèi) , 越來(lái)越多的人不愿意出差了

職場(chǎng)資深秘書(shū)
2025-12-12 13:50:33
多種我國(guó)武器排成一排,柬軍卻消失了:泰軍總攻大富豪李永...

多種我國(guó)武器排成一排,柬軍卻消失了:泰軍總攻大富豪李永...

Ck的蜜糖
2025-12-19 01:12:38
海南封關(guān)后,西門(mén)子能源燃機(jī)總裝基地開(kāi)建

海南封關(guān)后,西門(mén)子能源燃機(jī)總裝基地開(kāi)建

IT之家
2025-12-18 20:53:09
劉衛(wèi)東被查前,干了兩件最不要臉的事。

劉衛(wèi)東被查前,干了兩件最不要臉的事。

南權(quán)先生
2025-12-18 16:50:39
2月17號(hào)才過(guò)年就算了,2026年春節(jié)直接把人整懵了!

2月17號(hào)才過(guò)年就算了,2026年春節(jié)直接把人整懵了!

刺頭體育
2025-12-14 16:52:39
龐萊臣后人稱(chēng)5幅捐贈(zèng)南博畫(huà)作“無(wú)法看到” 一《雙馬圖 立軸》畫(huà)作2014年以230萬(wàn)元被拍賣(mài)

龐萊臣后人稱(chēng)5幅捐贈(zèng)南博畫(huà)作“無(wú)法看到” 一《雙馬圖 立軸》畫(huà)作2014年以230萬(wàn)元被拍賣(mài)

紅星新聞
2025-12-18 14:07:17
唏噓?中超再無(wú)韓國(guó)教練!4大名帥1年內(nèi)全離任,本土少帥已成主流

唏噓?中超再無(wú)韓國(guó)教練!4大名帥1年內(nèi)全離任,本土少帥已成主流

我愛(ài)英超
2025-12-18 17:05:09
月月6000元退休金,卻連香煙都買(mǎi)不起,69歲大爺哭訴:真后悔再婚

月月6000元退休金,卻連香煙都買(mǎi)不起,69歲大爺哭訴:真后悔再婚

人間百態(tài)大全
2025-12-17 06:45:03
國(guó)民女神又出新片,太刺激了

國(guó)民女神又出新片,太刺激了

來(lái)看美劇
2025-12-18 17:14:35
美團(tuán)優(yōu)選全國(guó)關(guān)停,社區(qū)團(tuán)購(gòu)格局一家獨(dú)大

美團(tuán)優(yōu)選全國(guó)關(guān)停,社區(qū)團(tuán)購(gòu)格局一家獨(dú)大

界面新聞
2025-12-17 14:42:44
2025-12-19 03:28:49
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
11877文章數(shù) 176339關(guān)注度
往期回顧 全部

科技要聞

2025新一代人工智能創(chuàng)業(yè)大賽總決賽收官

頭條要聞

在野黨參議員問(wèn)了句日本"存亡危機(jī)" 高市早苗瞬間冷臉

頭條要聞

在野黨參議員問(wèn)了句日本"存亡危機(jī)" 高市早苗瞬間冷臉

體育要聞

紐約尼克斯,板正的球隊(duì)

娛樂(lè)要聞

絲芭放大招了!實(shí)名舉報(bào)鞠婧祎經(jīng)濟(jì)犯罪

財(cái)經(jīng)要聞

尹艷林:呼吁加快2.5億新市民落戶(hù)進(jìn)程

汽車(chē)要聞

在零下30℃的考場(chǎng)里 凡爾賽C5 X和508L拿到了"穩(wěn)"的證明

態(tài)度原創(chuàng)

數(shù)碼
家居
親子
游戲
公開(kāi)課

數(shù)碼要聞

LG新一代車(chē)用屏下攝像頭將亮相CES 2026,畫(huà)質(zhì)達(dá)非屏下產(chǎn)品99%

家居要聞

高端私宅 理想隱居圣地

親子要聞

當(dāng)家爸爸的聚會(huì),鮑家寨方言課開(kāi)課,奶爸學(xué)方言笑翻全場(chǎng),“你據(jù)撒起”教學(xué)開(kāi)始啦~

《巫火》仍堅(jiān)持是單人游戲 沒(méi)有升級(jí)到虛幻5計(jì)劃

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版