国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

梁文鋒又掀桌?在省錢這件事上,DeepSeek給V4模型鋪墊好了

0
分享至



出品|搜狐科技

作者|常博碩

編輯| 楊 錦

V4發(fā)布前夕,DeepSeek的更新真是一個(gè)比一個(gè)重磅。

元旦前,DeepSeek發(fā)了新架構(gòu)mHC,對(duì)深度學(xué)習(xí)的地基Resnet進(jìn)行了優(yōu)化,上周又把那篇R1的論文擴(kuò)寫了64頁(yè),詳細(xì)公開了訓(xùn)練路徑,這次發(fā)的新論文還準(zhǔn)備修一修Transformer,順便在硬件上再省一筆。


今天凌晨,DeepSeek在Github上甩出了一篇名為《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》的論文,直指Transformer架構(gòu)讓模型反復(fù)思考,浪費(fèi)算力資源的缺陷,同時(shí)開源了論文中的“記憶模塊”Engram。


這篇論文是DeepSeek和北京大學(xué)合作完成的,作者欄依然有梁文鋒本人署名。


直擊Transformer缺陷

2017年,谷歌一篇名為《Attention Is All You Need》的論文正式將Transformer這種深度學(xué)習(xí)架構(gòu)呈現(xiàn)在了大家眼前,證明了完全基于自注意力機(jī)制(Self-Attention)的模型在機(jī)器翻譯任務(wù)上優(yōu)于當(dāng)時(shí)的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)。

這篇論文是深度學(xué)習(xí)領(lǐng)域,尤其是自然語(yǔ)言處理(NLP)的重要轉(zhuǎn)折點(diǎn),也被看作是現(xiàn)代人工智能的奠基性論文,甚至成為了21世紀(jì)NLP領(lǐng)域被引用次數(shù)最多的論文之一。今天,我們能看到的絕大多數(shù)大語(yǔ)言模型也都是以Transformer作為核心架構(gòu)的。

然而,DeepSeek他們發(fā)現(xiàn)Transformer并不是神,它有一個(gè)非常反人類的缺陷。它沒(méi)有真正的記憶模塊,它的記憶全是靠“算”出來(lái)的。

在標(biāo)準(zhǔn)的Transformer架構(gòu)中,無(wú)論一句話多么常見、結(jié)構(gòu)多么固定,模型都會(huì)在每一層里反復(fù)計(jì)算token之間的關(guān)系。其實(shí)在人的語(yǔ)言和思維里,“固定搭配”這件事是很常見的,比如“中國(guó)四大…”后面就得接“發(fā)明”,英語(yǔ)里by the后面基本接的就是way。

可是Transformer不是這么思考問(wèn)題的,四大發(fā)明、by the way這種在人類看來(lái)固定搭配的詞組,在模型內(nèi)部,仍然被拆成多個(gè)token(詞元),即使這種組合關(guān)系在訓(xùn)練語(yǔ)料里已經(jīng)被見過(guò)成千上萬(wàn)次,但模型還是每次都重新組合和理解。

再?gòu)?fù)雜一點(diǎn)來(lái)說(shuō),比如你問(wèn)大模型一個(gè)很簡(jiǎn)單的問(wèn)題:東漢末年的張仲景是誰(shuí)?在現(xiàn)在的Transformer架構(gòu)下,模型的神經(jīng)網(wǎng)絡(luò)大腦就會(huì)開始動(dòng)用幾百億參數(shù),再經(jīng)過(guò)幾十層的向量計(jì)算,最后說(shuō):“是醫(yī)圣”。

DeepSeek團(tuán)隊(duì)就覺(jué)得,這太浪費(fèi)算力了,其實(shí)“張仲景是醫(yī)圣”這件事背下來(lái)就行。因?yàn)橹灰婕坝?jì)算,那肯定就是非常費(fèi)腦子的事,對(duì)于AI來(lái)說(shuō),費(fèi)的就是顯存。換句話說(shuō)就是,太費(fèi)錢了!

這次的論文提出的記憶模塊Engram解決的就是這個(gè)事,大模型并不是每一步都需要“算”。

如今,為了更好地節(jié)省資源,MoE成為大模型主流架構(gòu),但MoE最核心、最本質(zhì)的架構(gòu)組件仍然是Transformer,缺少“查表”的能力。

Engram很像是給大模型裝了一個(gè)外接的大字典,他們把“醫(yī)圣張仲景”“四大發(fā)明”這些固定的知識(shí)點(diǎn),通過(guò)N-gram機(jī)制做成了一個(gè)巨大的索引表。以后遇到新問(wèn)題,能查表的查表,需要算的再算,兩件事分開干。


DeepSeek設(shè)計(jì)了一個(gè)精妙的“門控機(jī)制”(Context-aware Gating)。模型會(huì)自己判斷,遇到“四大發(fā)明”“勾股定理”這種死知識(shí),Engram模塊直接查表給答案,省時(shí)省力。

遇到復(fù)雜的邏輯推理或閱讀理解,Engram就退后,讓Transformer的核心計(jì)算層(MoE)去深度思考。

結(jié)果就是不僅省力,還變強(qiáng)了。論文中的實(shí)驗(yàn)數(shù)據(jù)顯示,這種“查表+推理”的混合模式,比純粹靠堆參數(shù)的MoE模型更強(qiáng)。Engram在知識(shí)問(wèn)答、代碼、數(shù)學(xué)和邏輯推理的能力都有提升。

具體是怎么做到的呢?Engram有一些關(guān)鍵的設(shè)計(jì)點(diǎn)。

Engram的核心邏輯是構(gòu)建一個(gè)巨大的、外掛式的N-gram嵌入表,并通過(guò)精細(xì)的機(jī)制將其無(wú)縫融合到Transformer主干中。

首先是詞表壓縮,標(biāo)準(zhǔn)的分詞器往往會(huì)將語(yǔ)義相同但寫法微異的詞分配不同的ID,比如 “Apple”和“apple”,這就導(dǎo)致N-gram空間極其稀疏且存在冗余。Engram就把tokenizer的id做了壓縮,把同義詞合并,論文里提到128k詞表下能壓縮近23%。這就顯著提高了語(yǔ)義密度,使得N-gram查表更高效。

Engram還采用了多頭哈希的方法。因?yàn)橹苯哟鎯?chǔ)所有可能的N-gram組合是不現(xiàn)實(shí)的,那么為了解決哈希沖突,Engram對(duì)每個(gè)N-gram階數(shù)n使用K個(gè)不同的哈希頭。每個(gè)頭使用獨(dú)立的哈希函數(shù)將N-gram映射到嵌入表的一個(gè)索引位置。


最終的記憶向量是所有n階、所有K個(gè)頭檢索出的向量的拼接。

由于查表得到的向量e是靜態(tài)的,且可能包含哈希沖突帶來(lái)的噪聲。如果直接加到模型里,會(huì)干擾上下文。所以Engram還設(shè)計(jì)了一套門控機(jī)制來(lái)“過(guò)濾”和“融合”這些信息。


想掀硬件廠商的桌?

傳統(tǒng)大模型有一個(gè)硬約束,參數(shù)要參與計(jì)算,得在GPU顯存里。過(guò)去幾年,大模型的發(fā)展默認(rèn)接受了一條前提:參數(shù)越多,模型越大越好,顯存就必須越大。

現(xiàn)在的AI軍備競(jìng)賽,本質(zhì)上是在拼HBM,也就是高帶寬顯存。

無(wú)論是H100還是H200,最貴的往往是那塊容量有限且速度極快的HBM。所以,為了塞下幾千億參數(shù)的大模型,科技公司不得不買成千上萬(wàn)張顯卡。

同時(shí)受地緣政治與出口管制影響,中國(guó)市場(chǎng)能夠穩(wěn)定獲得的HBM資源愈發(fā)有限,價(jià)格也水漲船高。其實(shí)英偉達(dá)H20等對(duì)中國(guó)特供版的GPU,最關(guān)鍵的限制基本都落在HBM上,算力反而是次要被約束的。

HBM目前產(chǎn)能基本和SK海力士、三星和美光鎖死,已經(jīng)是供不應(yīng)求,同時(shí)價(jià)格也非常昂貴,平均是普通內(nèi)存價(jià)格的7倍左右。

在這樣的背景下,把模型全塞進(jìn)顯存這條路線,就越來(lái)越不可持續(xù)了。DeepSeek這篇論文證明了,其實(shí)不需要把所有參數(shù)都塞進(jìn)昂貴的顯存里。

可以說(shuō),DeepSeek這次其實(shí)就是想要正面翻過(guò)這道墻。

具體是怎么做到的呢?首先,Engram的記憶訪問(wèn)是可預(yù)測(cè)的,它不像MoE那樣,必須算完這一層才知道下一層要去哪,數(shù)據(jù)必須都在GPU上待命。Engram的索引只由輸入token決定,在推理開始前就可以計(jì)算出來(lái)。

這意味著系統(tǒng)可以提前把即將用到的記憶,從主機(jī)內(nèi)存異步搬到GPU。

第二,大部分參數(shù)其實(shí)是“冷的”。自然語(yǔ)言天然遵循 Zipf 分布,極少數(shù)短語(yǔ)被反復(fù)使用,而絕大多數(shù)組合幾乎從不出現(xiàn)。Engram正好利用了這一點(diǎn),將高頻記憶放在顯存或主內(nèi)存,低頻記憶放在更便宜、更大的存儲(chǔ)中。

在論文中,DeepSeek甚至把一個(gè)1000億參數(shù)規(guī)模的Engram記憶表,完整放在CPU里,僅在需要時(shí)預(yù)取,結(jié)果整個(gè)推理速度的損耗甚至低于3%。

在算力和顯存都越來(lái)越貴、越來(lái)越稀缺的當(dāng)下,Engram給行業(yè)提供了一條比較現(xiàn)實(shí)的路徑,不是所有性能提升都必須用更貴的硬件來(lái)?yè)Q。

至此,稀疏化模型也進(jìn)入了計(jì)算+記憶的時(shí)代,如果即將推出的DeepSeek-V4真的把此前發(fā)布的mHC和這次發(fā)布的Engram落地,那將又是一次架構(gòu)范式的躍遷,讓我們拭目以待吧!



運(yùn)營(yíng)編輯 |曹倩審核|孟莎莎




特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
不到24小時(shí),美以對(duì)伊完成二次打擊,俄媒警告:川普在逼中國(guó)下場(chǎng)

不到24小時(shí),美以對(duì)伊完成二次打擊,俄媒警告:川普在逼中國(guó)下場(chǎng)

東極妙嚴(yán)
2026-02-28 17:56:12
伊朗最高領(lǐng)袖哈梅內(nèi)伊將很快發(fā)表講話

伊朗最高領(lǐng)袖哈梅內(nèi)伊將很快發(fā)表講話

新華社
2026-02-28 23:06:25
伊朗伊斯蘭革命衛(wèi)隊(duì)指揮官:伊朗目前使用的只是“廢舊導(dǎo)彈”

伊朗伊斯蘭革命衛(wèi)隊(duì)指揮官:伊朗目前使用的只是“廢舊導(dǎo)彈”

參考消息
2026-03-01 01:29:04
90分鐘就開始反擊!美海軍第五艦隊(duì)總部遭伊朗導(dǎo)彈命中,情況如何

90分鐘就開始反擊!美海軍第五艦隊(duì)總部遭伊朗導(dǎo)彈命中,情況如何

軍武次位面
2026-02-28 18:49:39
疑似王一博被爆私密聊天記錄,鹿晗肖戰(zhàn)躺槍,工作室成已取證

疑似王一博被爆私密聊天記錄,鹿晗肖戰(zhàn)躺槍,工作室成已取證

娛文速遞
2026-02-28 10:24:07
學(xué)費(fèi)太貴!一家長(zhǎng)哭訴繳費(fèi)11000多,網(wǎng)友:上私立高中就不要抱怨

學(xué)費(fèi)太貴!一家長(zhǎng)哭訴繳費(fèi)11000多,網(wǎng)友:上私立高中就不要抱怨

火山詩(shī)話
2026-03-01 12:06:34
特朗普稱哈梅內(nèi)伊死亡

特朗普稱哈梅內(nèi)伊死亡

財(cái)聯(lián)社
2026-03-01 05:50:07
杭州靈隱寺,為何要保留“一代妖僧”的雕像?看到千萬(wàn)不要亂拜

杭州靈隱寺,為何要保留“一代妖僧”的雕像?看到千萬(wàn)不要亂拜

收藏大視界
2026-02-28 23:03:27
江蘇省委組織部公示!

江蘇省委組織部公示!

句容日?qǐng)?bào)
2026-02-28 14:05:41
扛不住了,江蘇某大型建設(shè)集團(tuán)全員息崗!

扛不住了,江蘇某大型建設(shè)集團(tuán)全員息崗!

黯泉
2026-02-28 22:39:41
伊朗最高領(lǐng)袖和總統(tǒng)目前狀況良好

伊朗最高領(lǐng)袖和總統(tǒng)目前狀況良好

環(huán)球網(wǎng)資訊
2026-02-28 21:46:30
跟男生玩饑餓營(yíng)銷,這可能是我26年聽過(guò)最好笑的笑話了。

跟男生玩饑餓營(yíng)銷,這可能是我26年聽過(guò)最好笑的笑話了。

流蘇晚晴
2026-02-26 18:14:25
美以是如何快速“斬首”哈梅內(nèi)伊的?但伊朗政權(quán)沒(méi)那么容易顛覆

美以是如何快速“斬首”哈梅內(nèi)伊的?但伊朗政權(quán)沒(méi)那么容易顛覆

今日馬說(shuō)
2026-03-01 11:28:25
楊瀚森復(fù)出2+1!開拓者慘敗難阻黃蜂17戰(zhàn)14勝 米勒26+8+6三分

楊瀚森復(fù)出2+1!開拓者慘敗難阻黃蜂17戰(zhàn)14勝 米勒26+8+6三分

醉臥浮生
2026-03-01 04:55:52
“史詩(shī)怒火”,美以正式開打

“史詩(shī)怒火”,美以正式開打

難得君
2026-02-28 17:42:42
卸下頭巾,奔赴街頭:伊朗女孩的勇氣與抗?fàn)?>
    </a>
        <h3>
      <a href=老馬拉車莫少裝
2026-01-14 18:36:52
伊朗足協(xié)主席:“很難期待世界杯了”;伊朗已拿到2026世界杯正賽門票,3場(chǎng)小組賽都在美國(guó)的球場(chǎng)踢

伊朗足協(xié)主席:“很難期待世界杯了”;伊朗已拿到2026世界杯正賽門票,3場(chǎng)小組賽都在美國(guó)的球場(chǎng)踢

都市快報(bào)橙柿互動(dòng)
2026-03-01 10:38:54
51死60傷!美以為何空襲伊朗小學(xué)?專家:或?yàn)槿嫱匾晾?,或?qū)佟罢`傷”,未來(lái)幾天三方行動(dòng)是關(guān)鍵

51死60傷!美以為何空襲伊朗小學(xué)?專家:或?yàn)槿嫱匾晾?,或?qū)佟罢`傷”,未來(lái)幾天三方行動(dòng)是關(guān)鍵

極目新聞
2026-02-28 22:09:29
上海電影院現(xiàn)場(chǎng)被捉奸,帶情夫當(dāng)老公面出軌,狗血女主角真容曝光

上海電影院現(xiàn)場(chǎng)被捉奸,帶情夫當(dāng)老公面出軌,狗血女主角真容曝光

天天熱點(diǎn)見聞
2026-03-01 04:39:01
首日戰(zhàn)況:美以三板斧襲擊伊朗斬首戰(zhàn)果顯著,哈梅內(nèi)伊及親屬遇難

首日戰(zhàn)況:美以三板斧襲擊伊朗斬首戰(zhàn)果顯著,哈梅內(nèi)伊及親屬遇難

裝甲鏟史官
2026-03-01 10:32:21
2026-03-01 12:23:00
搜狐科技 incentive-icons
搜狐科技
搜狐科技官方賬號(hào)
4702文章數(shù) 9180關(guān)注度
往期回顧 全部

科技要聞

小米超跑概念車全球首秀!殺入頂豪俱樂(lè)部

頭條要聞

伊朗伊斯蘭革命衛(wèi)隊(duì)總司令身亡

頭條要聞

伊朗伊斯蘭革命衛(wèi)隊(duì)總司令身亡

體育要聞

球隊(duì)主力全報(bào)銷?頂風(fēng)擺爛演都不演了

娛樂(lè)要聞

《江山為聘》:吳謹(jǐn)言陳哲遠(yuǎn)燃炸朝堂

財(cái)經(jīng)要聞

中東局勢(shì)升級(jí) 如何影響A股、黃金和原油

汽車要聞

小米汽車2月交付超20000臺(tái) 雷軍:為新SU7量產(chǎn)作準(zhǔn)備

態(tài)度原創(chuàng)

房產(chǎn)
本地
旅游
藝術(shù)
健康

房產(chǎn)要聞

濱江九小也來(lái)了!集齊海僑北+哈羅、寰島...江東教育要炸了!

本地新聞

津南好·四時(shí)總相宜

旅游要聞

春節(jié)假期珠峰景區(qū)游客量創(chuàng)新高

藝術(shù)要聞

2025第四屆“精神·圖式”——中國(guó)寫意油畫雙年展 | 入選油畫選刊

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版