国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

DeepSeek與字節(jié)跳動(dòng)踏進(jìn)同一條河

0
分享至

本文系基于公開資料撰寫,僅作為信息交流之用,不構(gòu)成任何投資建議


新年前夕,DeepSeek發(fā)表了一篇聚焦神經(jīng)網(wǎng)絡(luò)架構(gòu)創(chuàng)新的核心論文,梁文鋒以通訊作者身份署名。論文提出了流形約束超連接(manifold-constrained HyperConnection, mHC)架構(gòu),直指大規(guī)模模型訓(xùn)練中的穩(wěn)定性難題。

這一工作為硬件受限的中國(guó) AI 企業(yè)開辟了一條兼顧性能與效率的路徑,也與字節(jié)跳動(dòng)早前在殘差流優(yōu)化上的探索形成關(guān)鍵呼應(yīng),二者均瞄準(zhǔn)殘差連接這一模型基礎(chǔ)架構(gòu)進(jìn)行改造。

DeepSeek的研究,恰恰是對(duì)字節(jié)跳動(dòng)“超連接”技術(shù)短板的系統(tǒng)性補(bǔ)位。這一成果不僅為大模型底層架構(gòu)的工業(yè)化落地提供了新方案,再度印證了硬件約束可轉(zhuǎn)化為創(chuàng)新動(dòng)力的產(chǎn)業(yè)演進(jìn)邏輯。

自2016年ResNet 提出以來(lái),殘差連接已成為深度學(xué)習(xí)的骨架式設(shè)計(jì)。其通過(guò)“捷徑連接”繞過(guò)層層非線性變換,從根本上緩解了梯度消失或爆炸的難題,支撐起越來(lái)越深的模型結(jié)構(gòu)。

長(zhǎng)期以來(lái),業(yè)界創(chuàng)新多集中于注意力機(jī)制、MoE(混合專家)等模塊,殘差流本身處于一種“靜默的穩(wěn)定”中,直至2024 年字節(jié)跳動(dòng)以超連接(HyperConnection)技術(shù)打破這一局面。

字節(jié)跳動(dòng)的超連接通過(guò)拓寬殘差流寬度、構(gòu)建多路并行信號(hào)流,并讓模型學(xué)習(xí)流間的交互模式,顯著提升了模型表達(dá)能力。然而,該技術(shù)在規(guī)?;?xùn)練中暴露出致命短板:信號(hào)發(fā)散。

DeepSeek的測(cè)試顯示,在270億參數(shù)模型的訓(xùn)練中,約12000步后梯度范數(shù)劇烈波動(dòng),訓(xùn)練崩潰;更嚴(yán)重的是,信號(hào)強(qiáng)度在第60層膨脹至輸入值的3000倍。問題的核心在于,超連接為追求表達(dá)力,放棄了殘差連接原有的恒等映射約束——小規(guī)模下尚可調(diào)參掩蓋,但在大規(guī)模訓(xùn)練中,這一缺陷被急劇放大。

mHC的核心創(chuàng)新,是將可學(xué)習(xí)的變換矩陣約束在雙重隨機(jī)矩陣(doubly stochastic matrix)構(gòu)成的流形上。這相當(dāng)于為信號(hào)傳播設(shè)立“剛性預(yù)算”:矩陣每行、每列元素之和均為1且非負(fù),確保輸出信號(hào)強(qiáng)度嚴(yán)格介于輸入信號(hào)的最大最小值之間,從而杜絕信號(hào)爆炸。

更關(guān)鍵的是,雙重隨機(jī)矩陣具有組合不變性——多層疊加后仍保持穩(wěn)定。實(shí)驗(yàn)表明,在超連接出現(xiàn)3000倍信號(hào)放大的同一場(chǎng)景中,mHC的信號(hào)放大峰值僅為1..6倍。為控制計(jì)算開銷,DeepSeek 采用Sinkhorn-Knopp 迭代進(jìn)行投影,僅需20輪迭代即可收斂,額外訓(xùn)練成本被壓制在6.7%。

硬件約束倒逼的不只是算法創(chuàng)新,更是全鏈路的系統(tǒng)級(jí)優(yōu)化。超連接拓寬殘差流后,每層數(shù)據(jù)讀寫量倍增,在A800/A100的有限互聯(lián)帶寬下,芯片極易陷入“等待數(shù)據(jù)遠(yuǎn)多于計(jì)算”的效率陷阱。DeepSeek通過(guò)三項(xiàng)關(guān)鍵技術(shù)破局:

1.算子融合:將內(nèi)存訪問模式相近的操作合并為單一GPU內(nèi)核,減少數(shù)據(jù)搬運(yùn);

2.反向傳播重計(jì)算:不存儲(chǔ)中間激活值,改為實(shí)時(shí)重算,以計(jì)算換內(nèi)存;

3.流水線并行優(yōu)化:重疊跨GPU通信與本地計(jì)算,用計(jì)算掩蓋通信延遲。

這些優(yōu)化將原本隨層數(shù)線性增長(zhǎng)的內(nèi)存開銷,轉(zhuǎn)化為可由模塊大小控制的有界開銷。配合基于 TileLang 編寫的混合精度內(nèi)核(bfloat16 為主,float32 保關(guān)鍵精度),實(shí)現(xiàn)了全參數(shù)規(guī)模下的穩(wěn)定性能提升。測(cè)試中,30億至270 億參數(shù)模型搭載mHC后均表現(xiàn)優(yōu)異,270億模型在BIG-Bench Hard復(fù)雜推理任務(wù)上提升 2..1%,在 DROP閱讀理解任務(wù)上提升2.3%。

此前,V3架構(gòu)論文對(duì)應(yīng)V3模型,R1推理論文對(duì)應(yīng)R1模型;本次mHC論文在 2026 年春節(jié)前三周發(fā)布,外界普遍預(yù)期下一代旗艦?zāi)P停≧2)即將亮相。

這種“論文先行”的策略,既通過(guò)同行評(píng)議建立技術(shù)公信力,又在復(fù)雜地緣環(huán)境中為原創(chuàng)性留下時(shí)間戳,更向全球傳遞一個(gè)明確信息:中國(guó) AI 企業(yè)的核心競(jìng)爭(zhēng)力,并非依賴尖端算力芯片。

DeepSeek選擇通過(guò)arXiv、Hugging Face等開放平臺(tái)而非傳統(tǒng)期刊發(fā)布成果,雖犧牲部分學(xué)術(shù)聲望,卻換來(lái)了技術(shù)傳播的速度與可達(dá)性。這種開放模式加速了知識(shí)擴(kuò)散,也對(duì)同行構(gòu)成直接競(jìng)爭(zhēng)壓力:當(dāng) mHC 的性能增益可量化、實(shí)現(xiàn)可復(fù)現(xiàn)時(shí),西方實(shí)驗(yàn)室要么跟進(jìn)類似技術(shù),要么必須論證自身路徑的優(yōu)越性。

此前R1 型已觸發(fā)推理模型研發(fā)熱潮,mHC架構(gòu)很可能推動(dòng)殘差流優(yōu)化進(jìn)入新一輪迭代。更重要的是,這一模式向技術(shù)管制者傳遞了清晰信號(hào):硬件限制并未扼殺創(chuàng)新,反而迫使中國(guó) AI 企業(yè)走向“從數(shù)學(xué)根源解決問題”的最本質(zhì)路徑。

字節(jié)跳動(dòng)與 DeepSeek,先后踏入同一條“突破傳統(tǒng)殘差流”的創(chuàng)新之河。前者率先探路,卻止步于規(guī)模化瓶頸;后者在硬件約束的倒逼下,憑借數(shù)學(xué)約束與系統(tǒng)級(jí)優(yōu)化,架起了一座可通航的技術(shù)之橋。

距離2026年春節(jié)僅剩六周,R2模型的發(fā)布將檢驗(yàn)mHC架構(gòu)的工業(yè)化成色。無(wú)論最終基準(zhǔn)測(cè)試結(jié)果如何,這條“在約束中創(chuàng)新”的路徑已具備里程碑意義——它清晰證明,AI 競(jìng)賽不只有“燒錢堆算力”這一條賽道。硬件限制從不是創(chuàng)新的絆腳石,而是催生真正核心突破的催化劑。

轉(zhuǎn)載開白 | 商務(wù)合作 | 內(nèi)容交流
請(qǐng)?zhí)砑游⑿牛簀induan008
添加微信請(qǐng)備注姓名公司與來(lái)意

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
長(zhǎng)治女子萬(wàn)達(dá)墜亡持續(xù)升級(jí)!目擊者再添實(shí)錘,不止是意外這么簡(jiǎn)單

長(zhǎng)治女子萬(wàn)達(dá)墜亡持續(xù)升級(jí)!目擊者再添實(shí)錘,不止是意外這么簡(jiǎn)單

離離言幾許
2026-04-21 07:18:30
貴州一家理發(fā)店在二樓露臺(tái)為顧客剪發(fā),網(wǎng)友評(píng)“太詭異 安全否”;店方:主要是拍一個(gè)視覺感,有保護(hù)措施

貴州一家理發(fā)店在二樓露臺(tái)為顧客剪發(fā),網(wǎng)友評(píng)“太詭異 安全否”;店方:主要是拍一個(gè)視覺感,有保護(hù)措施

大風(fēng)新聞
2026-04-21 14:42:22
含永久化學(xué)品?特步、探路者、駱駝、海瀾之家、石下、太平鳥中招

含永久化學(xué)品?特步、探路者、駱駝、海瀾之家、石下、太平鳥中招

劉曠
2026-04-20 09:06:11
2000噸英國(guó)潛艇消失,我國(guó)暗中打撈拆解研究,39年后首相卻上門討要

2000噸英國(guó)潛艇消失,我國(guó)暗中打撈拆解研究,39年后首相卻上門討要

睡前講故事
2026-03-30 13:48:58
悲催!網(wǎng)傳陜西一女子因丈夫婚內(nèi)出軌后輕生,逝者已40天未入土…

悲催!網(wǎng)傳陜西一女子因丈夫婚內(nèi)出軌后輕生,逝者已40天未入土…

火山詩(shī)話
2026-04-21 06:02:18
航旅縱橫APP崩了?公司回應(yīng):正全力搶修,將盡快恢復(fù)

航旅縱橫APP崩了?公司回應(yīng):正全力搶修,將盡快恢復(fù)

界面新聞
2026-04-21 15:14:27
炸翻全球軍界!沙特怒砸120億買斷中國(guó)神裝,美軍徹底被踢出局

炸翻全球軍界!沙特怒砸120億買斷中國(guó)神裝,美軍徹底被踢出局

風(fēng)信子的花
2026-04-21 14:31:44
瑞麗市藍(lán)天救援隊(duì)副隊(duì)長(zhǎng)陳延壽因公犧牲,年僅39歲,其在搜救一名比利時(shí)失蹤男子時(shí)突發(fā)急性高反

瑞麗市藍(lán)天救援隊(duì)副隊(duì)長(zhǎng)陳延壽因公犧牲,年僅39歲,其在搜救一名比利時(shí)失蹤男子時(shí)突發(fā)急性高反

極目新聞
2026-04-21 11:25:38
俄羅斯梁贊州向各單位下達(dá)征兵命令,翻譯成中文很親切

俄羅斯梁贊州向各單位下達(dá)征兵命令,翻譯成中文很親切

李未熟擒話2
2026-04-20 10:47:19
男子爬上泰山“五岳獨(dú)尊”石刻拍照,景區(qū):將核查其身份進(jìn)行處理

男子爬上泰山“五岳獨(dú)尊”石刻拍照,景區(qū):將核查其身份進(jìn)行處理

揚(yáng)子晚報(bào)
2026-04-17 12:09:40
皇馬4年長(zhǎng)約+漲薪,1.5億巨星加盟確立鋒線雙核

皇馬4年長(zhǎng)約+漲薪,1.5億巨星加盟確立鋒線雙核

啊噠體育
2026-04-21 12:49:52
趙心童VS丁俊暉,比賽時(shí)間敲定+央視全程直播,進(jìn)8強(qiáng)能拿多少獎(jiǎng)金

趙心童VS丁俊暉,比賽時(shí)間敲定+央視全程直播,進(jìn)8強(qiáng)能拿多少獎(jiǎng)金

體育大學(xué)僧
2026-04-21 09:47:46
突傳大利好,要談成了?

突傳大利好,要談成了?

隔壁老投
2026-04-21 14:39:35
32+26!神級(jí)交易!火箭不要太羨慕

32+26!神級(jí)交易!火箭不要太羨慕

籃球?qū)崙?zhàn)寶典
2026-04-21 16:16:27
海外版“砍一刀”被美國(guó)消費(fèi)者瘋狂吐槽:這質(zhì)量就是中國(guó)制造?

海外版“砍一刀”被美國(guó)消費(fèi)者瘋狂吐槽:這質(zhì)量就是中國(guó)制造?

可達(dá)鴨面面觀
2026-04-20 16:18:29
生姜立大功?美國(guó)研究發(fā)現(xiàn):生姜可在48小時(shí)內(nèi)清除50%老化細(xì)胞?

生姜立大功?美國(guó)研究發(fā)現(xiàn):生姜可在48小時(shí)內(nèi)清除50%老化細(xì)胞?

芹姐說(shuō)生活
2026-04-21 14:45:08
普通家庭存款到這個(gè)數(shù),已經(jīng)是天花板級(jí)別,以前不信,現(xiàn)在很肯定

普通家庭存款到這個(gè)數(shù),已經(jīng)是天花板級(jí)別,以前不信,現(xiàn)在很肯定

貓叔東山再起
2026-04-21 08:40:10
緊急叫停!醫(yī)生:服用二甲雙胍的人,身體出現(xiàn)6種癥狀必須停藥

緊急叫停!醫(yī)生:服用二甲雙胍的人,身體出現(xiàn)6種癥狀必須停藥

荊醫(yī)生科普
2026-04-21 15:09:02
李亞鵬,官宣了!4月17日晚,嫣然天使兒童醫(yī)院告別14年租房模式

李亞鵬,官宣了!4月17日晚,嫣然天使兒童醫(yī)院告別14年租房模式

一盅情懷
2026-04-20 14:38:27
原雷神山院長(zhǎng)落馬,其“權(quán)色交易”的背后,坑害了多少女醫(yī)護(hù)家庭

原雷神山院長(zhǎng)落馬,其“權(quán)色交易”的背后,坑害了多少女醫(yī)護(hù)家庭

長(zhǎng)安一孤客
2026-04-20 18:58:28
2026-04-21 17:00:49
錦緞研究院 incentive-icons
錦緞研究院
專注上市公司價(jià)值發(fā)現(xiàn)與傳播
2501文章數(shù) 10827關(guān)注度
往期回顧 全部

科技要聞

重磅官宣:庫(kù)克卸任,特努斯接任蘋果CEO

頭條要聞

被性侵女高管起訴前司工傷待遇案將開庭:追薪250余萬(wàn)

頭條要聞

被性侵女高管起訴前司工傷待遇案將開庭:追薪250余萬(wàn)

體育要聞

“被優(yōu)化”8年后,國(guó)乒方博決定換一條路重新上場(chǎng)

娛樂要聞

周潤(rùn)發(fā)時(shí)隔16年再賣樓,變現(xiàn)數(shù)億資產(chǎn)

財(cái)經(jīng)要聞

現(xiàn)實(shí)是最大的荒誕:千億平臺(tái)的沖突始末

汽車要聞

把天門山搬進(jìn)廠?開仰望U8沖上45度坡的那刻 我腿軟了

態(tài)度原創(chuàng)

家居
數(shù)碼
健康
教育
藝術(shù)

家居要聞

詩(shī)意光影 窺見自然之境

數(shù)碼要聞

小米智能家電工廠4月25日開放參觀 米家空調(diào)強(qiáng)勁風(fēng)現(xiàn)場(chǎng)極端測(cè)試

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

教育要聞

a2+b2=1168,求a+b,為何全班同學(xué)全軍覆沒?

藝術(shù)要聞

任伯年寫竹,真帶勁

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版