国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

DeepSeek能否扛住V4沖擊波,得問代達(dá)勱

0
分享至

文 | 字母AI

據(jù)新浪創(chuàng)智記報(bào)道,DeepSeek創(chuàng)始人梁文鋒在內(nèi)部溝通中透露,新一代旗艦大模型DeepSeek V4將于4月下旬正式發(fā)布。

然而比起新模型,我更關(guān)注DeepSeek的服務(wù)器。

3月29日晚上9點(diǎn)35分,DeepSeek又雙叒叕崩了。

這一次不是小打小鬧的“服務(wù)器繁忙”,而是史詩級(jí)的12小時(shí)58分鐘全面癱瘓。網(wǎng)頁端、APP雙雙失守,修復(fù)了又崩,崩了又修復(fù),直到第二天上午10點(diǎn)才喘過氣來。

DeepSeek-V4還沒正式發(fā)布,沖擊波已經(jīng)如此強(qiáng)勁,一旦正式發(fā)布,目前DeepSeek的基礎(chǔ)設(shè)施真的扛得住嗎?

這就是為什么我們要關(guān)注代達(dá)勱,他是DeepSeek的基礎(chǔ)設(shè)施負(fù)責(zé)人。

他負(fù)責(zé)的不是模型有多聰明,而是模型能不能在百萬級(jí)用戶同時(shí)涌入時(shí)不崩盤。

V4傳聞四起,發(fā)布時(shí)間從2月推到3月,又推到4月,外界都在盯著性能跑分,但真正的壓力測(cè)試,其實(shí)在代達(dá)勱這邊。

服務(wù)器是DeepSeek的軟肋,這已經(jīng)不是秘密。問題是,留給代達(dá)勱的時(shí)間還有多少?

DeepSeek基礎(chǔ)設(shè)施掌門人

圈內(nèi)也有人管他叫“戴大麥”。2024年博士畢業(yè)于北京大學(xué)計(jì)算機(jī)學(xué)院計(jì)算語言所,師從穗志方教授。

在學(xué)術(shù)圈,他是個(gè)狠人。發(fā)表20余篇頂會(huì)論文,Google Scholar顯示引用次數(shù)超過28000次。2023年,他作為第三核心作者,拿下了EMNLP最佳長(zhǎng)論文獎(jiǎng),這也是中國大陸機(jī)構(gòu)首次獲得該獎(jiǎng)項(xiàng)。

這篇獲獎(jiǎng)?wù)撐拿麨椤禠abel Words are Anchors: An Information Flow Perspective for Understanding In-Context Learning》(標(biāo)簽詞是錨點(diǎn):從信息流視角理解上下文學(xué)習(xí)),研究的是上下文學(xué)習(xí)的工作機(jī)制,從信息流的視角揭示了大模型如何通過示例中的標(biāo)簽詞進(jìn)行預(yù)測(cè)。

在讀博期間,代達(dá)勱還獲得過國家獎(jiǎng)學(xué)金、校長(zhǎng)獎(jiǎng)學(xué)金、微軟學(xué)者提名獎(jiǎng)、北京市優(yōu)秀畢業(yè)生、北京大學(xué)三好學(xué)生標(biāo)兵等一系列榮譽(yù)。

代達(dá)勱博士論文入選了中國中文信息學(xué)會(huì)“博士學(xué)位論文激勵(lì)計(jì)劃”,研究的是預(yù)訓(xùn)練語言模型的知識(shí)增強(qiáng)與推理能力對(duì)齊。

他的研究方向聚焦在大模型基礎(chǔ)設(shè)施和系統(tǒng)優(yōu)化。說白了,就是怎樣讓模型跑得更快、更穩(wěn)、更省錢。

代達(dá)勱還參與了一篇綜述類文章,在AI圈內(nèi)也很火。標(biāo)題是《A Survey on In-Context Learning》(上下文學(xué)習(xí)綜述)。

文章講的是In-Context Learning(上下文學(xué)習(xí))這個(gè)方向的整體研究進(jìn)展,也就是總結(jié)這個(gè)領(lǐng)域“大家都做了什么、怎么分類、有哪些解釋、還有哪些問題沒解決”。

從DeepSeek V1到V3,代達(dá)勱參與了全程。在DeepSeek,他負(fù)責(zé)的是整個(gè)推理系統(tǒng)的工程優(yōu)化與規(guī)?;渴?,包括多硬件平臺(tái)的性能調(diào)優(yōu)、分布式系統(tǒng)架構(gòu)設(shè)計(jì),以及那些用戶看不見但至關(guān)重要的底層管道。

DeepSeek能在開源大模型領(lǐng)域?qū)崿F(xiàn)彎道超車、以極低推理成本對(duì)標(biāo)頭部閉源模型的核心技術(shù)支撐,就是DeepSeekMoE。

DeepSeekMoE所解決的,是傳統(tǒng)MoE架構(gòu)的專家知識(shí)冗余、專業(yè)化不足的行業(yè)痛點(diǎn),這才讓DeepSeek能在同等計(jì)算成本下實(shí)現(xiàn)了模型性能的大幅躍升。

提出這個(gè)架構(gòu)的論文,叫《DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models》,于2024年1月發(fā)表在ACL 2024。

而這篇論文的第一作者,正是本文的主角代達(dá)勱。

DeepSeekMoE架構(gòu)提出了“細(xì)粒度專家分割”的創(chuàng)新思路,讓每個(gè)token可以激活多個(gè)專家,提升知識(shí)融合能力。傳統(tǒng)的MoE架構(gòu)像GShard,激活top-K個(gè)專家。

但如何確保每個(gè)專家真正專業(yè)化,獲取不重疊的、聚焦的知識(shí)?代達(dá)勱團(tuán)隊(duì)的方案是把專家細(xì)分成更細(xì)粒度的單元,從N個(gè)專家變成mN個(gè),激活時(shí)從K個(gè)變成mK個(gè),這樣組合更靈活。

同時(shí)隔離出一些共享專家,專門捕獲通用知識(shí),減少路由專家之間的冗余。

這套架構(gòu)后來成為DeepSeek-V2和V3的核心基礎(chǔ)。

論文提出的MoE架構(gòu)在145B參數(shù)規(guī)模上,只用28.5%的計(jì)算量就達(dá)到了DeepSeek 67B的性能。更關(guān)鍵的是,DeepSeekMoE 2B的表現(xiàn)接近同等總參數(shù)量的稠密模型,這為MoE模型設(shè)定了性能上限。這不是紙面數(shù)據(jù),而是真刀真槍跑出來的工程成果。

從理論到工程,代達(dá)勱不只是提出創(chuàng)新架構(gòu),更要確保這套架構(gòu)能在真實(shí)環(huán)境中穩(wěn)定運(yùn)行。這種“理論上好使,工程上也能跑”的能力,正是DeepSeek能用這么低的算力,跑出如此高性能的原因。

不過這些成就,都是在模型訓(xùn)練和架構(gòu)設(shè)計(jì)層面。真正考驗(yàn)基礎(chǔ)設(shè)施的,是當(dāng)百萬用戶同時(shí)涌入時(shí),系統(tǒng)能不能撐住。

3月29日那場(chǎng)12小時(shí)的崩潰,恰恰暴露了這個(gè)問題。

DeepSeek的崩潰與代達(dá)勱的硬仗

DeepSeek總是崩,跟代達(dá)勱有沒有關(guān)系?

有,但不全是他的鍋。

DeepSeek現(xiàn)在最大的問題,就出在它的交付系統(tǒng)上。

面對(duì)流量高峰,DeepSeek的交付系統(tǒng)不夠穩(wěn)定。模型再強(qiáng),如果推理集群扛不住并發(fā)、負(fù)載均衡沒做好、容錯(cuò)機(jī)制不夠健壯,照樣會(huì)崩。

算法團(tuán)隊(duì)可以把模型訓(xùn)練得再聰明,但如果基礎(chǔ)設(shè)施撐不住,用戶看到的就是“服務(wù)器繁忙”四個(gè)大字。

代達(dá)勱負(fù)責(zé)的基礎(chǔ)設(shè)施,就是這條鏈路上的關(guān)鍵一環(huán)。推理集群的調(diào)度策略、請(qǐng)求的分發(fā)邏輯、GPU資源的動(dòng)態(tài)分配、故障時(shí)的降級(jí)預(yù)案,這些看不見的管道,決定了系統(tǒng)能不能在壓力下穩(wěn)住。

3月29日晚上9點(diǎn)35分,DeepSeek開始出現(xiàn)大規(guī)模服務(wù)中斷。網(wǎng)頁端、手機(jī)APP均無法正常使用,大量用戶反饋無法發(fā)起新對(duì)話、現(xiàn)有對(duì)話中斷。技術(shù)團(tuán)隊(duì)立即啟動(dòng)緊急排查,于當(dāng)日23時(shí)23分完成首次故障修復(fù),部分用戶反饋可短暫登錄平臺(tái),但隨后服務(wù)再次出現(xiàn)波動(dòng)。

3月30日00時(shí)20分,技術(shù)團(tuán)隊(duì)再次針對(duì)服務(wù)性能異常問題展開調(diào)查,于01時(shí)24分實(shí)施二次修復(fù)方案,期間平臺(tái)服務(wù)始終處于不穩(wěn)定狀態(tài),直至30日上午10時(shí)左右,所有服務(wù)才完全恢復(fù)正常。從首次發(fā)現(xiàn)異常到徹底恢復(fù),全程耗時(shí)超過12小時(shí),創(chuàng)下DeepSeek成立以來單次服務(wù)中斷時(shí)長(zhǎng)的最長(zhǎng)紀(jì)錄。

其實(shí)咱們?nèi)绻仡橠eepSeek的歷史你就會(huì)發(fā)現(xiàn),DeepSeek雖然也會(huì)偶爾卡頓,但網(wǎng)頁端服務(wù)從未出現(xiàn)過超過2小時(shí)的中斷。

雖然宕機(jī)對(duì)于目前的大模型而言屬于正?,F(xiàn)象,但這么長(zhǎng)時(shí)間的宕機(jī),以DeepSeek的技術(shù)能力而言,不應(yīng)該發(fā)生。

現(xiàn)在的問題是,這套系統(tǒng)在V3時(shí)代已經(jīng)顯得吃力,V4來了怎么辦?

不僅如此,根據(jù)最新的消息,V4不只是模型升級(jí),它是一次底層硬件的全面切換。

DeepSeek V4將全面基于國產(chǎn)芯片完成適配和優(yōu)化。

這可不是說像你打游戲換塊顯卡那么簡(jiǎn)單。大模型要從英偉達(dá)的CUDA生態(tài)遷移到國產(chǎn)芯片框架,意味著底層代碼要大量重寫,推理系統(tǒng)要重新調(diào)優(yōu),性能瓶頸要重新排查。

核心差異在于算子生態(tài)。

CUDA積累了15年,覆蓋幾乎所有場(chǎng)景。國內(nèi)的框架到現(xiàn)在還在補(bǔ)課階段,只不過從以前的網(wǎng)課,變成線下實(shí)體課程了。

尤其是Flash Attention、Triton自定義算子這類高性能優(yōu)化層,適配工作量相當(dāng)大。

GPU和NPU的計(jì)算是高度并行的,同一個(gè)矩陣乘法可能被分拆成幾千個(gè)線程同時(shí)計(jì)算,最后求和。而浮點(diǎn)加法不滿足結(jié)合律,不同芯片的并行分拆策略不同,導(dǎo)致累積誤差的路徑也不同。

對(duì)于那種幾十億參數(shù)量的小模型來說,這個(gè)誤差的確是可以忽略不計(jì)的。

但V3就已經(jīng)是百億級(jí)模型了,V4只可能更大,尤其是在處理長(zhǎng)上下文時(shí),誤差會(huì)隨層數(shù)和序列長(zhǎng)度累積,在輸出層可能產(chǎn)生明顯的誤差。

實(shí)際部署時(shí),如何讓模型在新硬件上跑出接近甚至超越英偉達(dá)的性能?如何保證遷移過程中服務(wù)不中斷?如何在多硬件平臺(tái)之間做好資源調(diào)度?這些問題,都?jí)涸诖_(dá)勱肩上。

V4成敗,不只看模型跑分,更看發(fā)布時(shí)系統(tǒng)能不能穩(wěn)住。

如果V4發(fā)布當(dāng)天又崩好幾個(gè)小時(shí),再好的模型也會(huì)被噴成篩子。DeepSeek下一階段要補(bǔ)的,已經(jīng)不只是模型能力,而是把模型能力穩(wěn)定送到用戶面前的能力。

沉默的這幾個(gè)月,代達(dá)勱在憋什么大招?

DeepSeek太久沒更新了。

V4的發(fā)布時(shí)間從2月推到3月,又推到4月,外界都在猜測(cè)是不是模型出了問題。

但如果你仔細(xì)看DeepSeek這幾個(gè)月發(fā)的論文,會(huì)發(fā)現(xiàn)他們?cè)跒橐粓?chǎng)更大的戰(zhàn)役做準(zhǔn)備。

2026年2月,DeepSeek聯(lián)合清華、北大發(fā)布了DualPath論文。這篇論文的第一作者是北大博士生吳永彤,研究方向也是LLM Infrastructure,和代達(dá)勱是一個(gè)戰(zhàn)壕里的人。

2025年7月,吳永彤加入DeepSeek系統(tǒng)組,參與下一代模型推理基礎(chǔ)設(shè)施的建設(shè)工作。

他的核心職責(zé)之一,是對(duì)大規(guī)模內(nèi)部軟件系統(tǒng)進(jìn)行系統(tǒng)級(jí)優(yōu)化,使其能夠在不同硬件平臺(tái)上實(shí)現(xiàn)高效、穩(wěn)定的運(yùn)行。這類工作本質(zhì)上屬于大模型基礎(chǔ)設(shè)施建設(shè)范疇,重點(diǎn)在于提升推理系統(tǒng)在復(fù)雜集群環(huán)境中的性能與資源利用效率。

說白了,就是把大模型的底層系統(tǒng)搭好,讓它在復(fù)雜服務(wù)器集群里既跑得動(dòng),也跑得快,還不浪費(fèi)機(jī)器

還有一點(diǎn),agent這么火,如果V4要上agent能力,推理系統(tǒng)就必須跟上。即便像DeepSeek MLA這樣已經(jīng)過高度緩存優(yōu)化的模型,其I/O壓力依然巨大。

DualPath解決的是推理系統(tǒng)里的一個(gè)吞吐瓶頸,進(jìn)而提高大規(guī)模服務(wù)時(shí)的承載能力。所以其實(shí)DeepSeek自己心里也明白,再好吃的菜,端不上桌,也是白扯。

戴大麥和吳永彤,他們這類工程師的壓力更大。

做算法的人,成績(jī)往往是看得見的。模型能力更強(qiáng)了,榜單分?jǐn)?shù)更高了,論文發(fā)出來了,產(chǎn)品出了爆款功能,外界很快就能感知到變化。

可做基礎(chǔ)設(shè)施的人不一樣,他們最好的成績(jī),往往恰恰是“什么都沒發(fā)生”。

服務(wù)器沒崩,網(wǎng)頁能打開,APP不卡頓。

但用戶只會(huì)覺得“那你不是本來就該這樣嗎?”,沒人會(huì)專門記住是誰把這件事做成的。

可一旦出了問題,所有壓力又會(huì)在第一時(shí)間落到他們頭上。

因?yàn)閷?duì)絕大多數(shù)用戶來說,系統(tǒng)不是由模型、調(diào)度、網(wǎng)關(guān)、緩存、數(shù)據(jù)庫這些抽象模塊組成的,系統(tǒng)只有一種最直觀的體驗(yàn)——它能不能用。

普通用戶就一個(gè)評(píng)判標(biāo)準(zhǔn),“我打開你網(wǎng)頁的時(shí)候轉(zhuǎn)不轉(zhuǎn)圈”。轉(zhuǎn)圈就是你服務(wù)器不行,不轉(zhuǎn)圈就是應(yīng)該的。

用戶是分不清楚到底哪層出了問題。對(duì)他們來說,任何原因都會(huì)被壓縮成一句話:DeepSeek怎么又崩了?

這就是基礎(chǔ)設(shè)施崗位最難的地方。

做好了,沒人鼓掌,因?yàn)檫@是你該做的;做差了,你就等著被唾沫噴死吧!

對(duì)一家已經(jīng)被推上風(fēng)口浪尖的大模型公司來說,基礎(chǔ)設(shè)施團(tuán)隊(duì)背負(fù)的東西很多。

如果V4發(fā)布時(shí)不崩,那才是真正的封神時(shí)刻。這場(chǎng)仗,代達(dá)勱必須贏。因?yàn)槟P驮購?qiáng),崩了就是零。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
芒果臺(tái)踩雷!趙子琪被淘汰后直播開撕,她的過往連張朝陽都忌憚

芒果臺(tái)踩雷!趙子琪被淘汰后直播開撕,她的過往連張朝陽都忌憚

小徐講八卦
2026-04-12 06:23:01
浙江富婆“黑馬”去世!年僅55歲,名下10多家公司,疑壓力大導(dǎo)致

浙江富婆“黑馬”去世!年僅55歲,名下10多家公司,疑壓力大導(dǎo)致

裕豐娛間說
2026-04-12 11:16:41
橫山勇致命誤判,低估陳誠援軍,最終10萬日軍栽在74軍手里

橫山勇致命誤判,低估陳誠援軍,最終10萬日軍栽在74軍手里

浩渺青史
2026-04-12 16:48:00
美議員:外星人已與人類會(huì)面,政府人員向他提供地址、時(shí)間等細(xì)節(jié),科技非常先進(jìn),遠(yuǎn)遠(yuǎn)超出人類理解,本可以把人類消滅殆盡,但人類卻依然存在

美議員:外星人已與人類會(huì)面,政府人員向他提供地址、時(shí)間等細(xì)節(jié),科技非常先進(jìn),遠(yuǎn)遠(yuǎn)超出人類理解,本可以把人類消滅殆盡,但人類卻依然存在

觀威海
2026-04-12 12:52:05
國行居然也有!馬斯克推出首款仿微信聊天應(yīng)用 XChat

國行居然也有!馬斯克推出首款仿微信聊天應(yīng)用 XChat

XCiOS俱樂部
2026-04-11 19:23:43
全新外資汽車品牌,正式進(jìn)軍中國

全新外資汽車品牌,正式進(jìn)軍中國

新浪財(cái)經(jīng)
2026-04-11 14:56:56
亞馬爾將社媒頭像換成詹姆斯照片,后者幫騎士在16年逆轉(zhuǎn)奪冠

亞馬爾將社媒頭像換成詹姆斯照片,后者幫騎士在16年逆轉(zhuǎn)奪冠

懂球帝
2026-04-13 00:02:41
成都蓉城逆轉(zhuǎn)國安!媒體人熱議:真的要奪冠,蛻變成真正強(qiáng)隊(duì)

成都蓉城逆轉(zhuǎn)國安!媒體人熱議:真的要奪冠,蛻變成真正強(qiáng)隊(duì)

奧拜爾
2026-04-12 21:52:55
退圈女星自曝,被注射不明物質(zhì),不聽話就頭疼,秦嵐也被牽連其中

退圈女星自曝,被注射不明物質(zhì),不聽話就頭疼,秦嵐也被牽連其中

阿纂看事
2026-04-10 14:27:16
不打了!大規(guī)模輪休!俯沖西部第4挑選火箭

不打了!大規(guī)模輪休!俯沖西部第4挑選火箭

籃球?qū)崙?zhàn)寶典
2026-04-12 19:29:05
專家分析得出:一旦核戰(zhàn)爆發(fā),中國3個(gè)地方可躲災(zāi)難,一定要知道

專家分析得出:一旦核戰(zhàn)爆發(fā),中國3個(gè)地方可躲災(zāi)難,一定要知道

文史達(dá)觀
2024-06-14 21:35:17
2026年車企“最慘”開局:一季度的目標(biāo)完成度,幾乎都低于20%

2026年車企“最慘”開局:一季度的目標(biāo)完成度,幾乎都低于20%

互聯(lián)網(wǎng).亂侃秀
2026-04-12 11:33:02
上海5分險(xiǎn)勝北京!廣東險(xiǎn)勝廣廈6分,誰注意杜鋒表情,積分榜大變

上海5分險(xiǎn)勝北京!廣東險(xiǎn)勝廣廈6分,誰注意杜鋒表情,積分榜大變

老吳說體育
2026-04-12 21:38:57
財(cái)務(wù)造假,退市!300391明日將摘牌

財(cái)務(wù)造假,退市!300391明日將摘牌

新浪財(cái)經(jīng)
2026-04-12 19:07:51
哈立德抵達(dá)北京開始訪華

哈立德抵達(dá)北京開始訪華

澎湃新聞
2026-04-12 21:54:18
鄭麗文訪大陸結(jié)束前,為國捐款的張明敏,憑一個(gè)舉動(dòng)實(shí)現(xiàn)口碑暴增

鄭麗文訪大陸結(jié)束前,為國捐款的張明敏,憑一個(gè)舉動(dòng)實(shí)現(xiàn)口碑暴增

叮當(dāng)當(dāng)科技
2026-04-12 16:59:41
這一晚,廣東男籃的體面,終于被麥考爾掙了回來

這一晚,廣東男籃的體面,終于被麥考爾掙了回來

格斗一點(diǎn)通
2026-04-12 22:30:16
王石最麻煩的事已經(jīng)解釋清楚了

王石最麻煩的事已經(jīng)解釋清楚了

鴻樓夢(mèng)plus
2026-04-12 20:49:23
阿媒:大馬丁在賽前熱身中肌肉不適,阿根廷隊(duì)對(duì)此憂心忡忡

阿媒:大馬丁在賽前熱身中肌肉不適,阿根廷隊(duì)對(duì)此憂心忡忡

懂球帝
2026-04-12 21:54:30
快訊!伊朗:談判延長(zhǎng)一天

快訊!伊朗:談判延長(zhǎng)一天

魯中晨報(bào)
2026-04-12 07:48:04
2026-04-13 00:27:00
鈦媒體APP incentive-icons
鈦媒體APP
獨(dú)立財(cái)經(jīng)科技媒體
132121文章數(shù) 862091關(guān)注度
往期回顧 全部

科技要聞

理想稱遭惡意拉踩,東風(fēng)日產(chǎn):尊重同行

頭條要聞

特朗普:將封鎖任何試圖進(jìn)出霍爾木茲海峽的船只

頭條要聞

特朗普:將封鎖任何試圖進(jìn)出霍爾木茲海峽的船只

體育要聞

創(chuàng)造歷史!五大聯(lián)賽首位女性主教練誕生

娛樂要聞

賭王女兒何超蕸病逝,常年和乳癌斗爭(zhēng)

財(cái)經(jīng)要聞

美伊談判破裂的三大癥結(jié)

汽車要聞

煥新極氪007/007GT上市 限時(shí)19.39萬起

態(tài)度原創(chuàng)

旅游
游戲
親子
公開課
軍事航空

旅游要聞

北京:郁金香迎來盛花期

《識(shí)質(zhì)存在》發(fā)售/《朋友收集 夢(mèng)想生活》登陸NS| 下周玩什么

親子要聞

“晚上疼得睡不著”!8歲女童雙眼、身上被灼傷!警惕這東西,不少人家里有

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美國副總統(tǒng)萬斯:美伊談判未能達(dá)成協(xié)議

無障礙瀏覽 進(jìn)入關(guān)懷版