国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

從DSA到Engram,一年來DeepSeek層層勾勒V4架構創(chuàng)新

0
分享至

隨著開年DeepSeek加快了技術分享的節(jié)奏,市場再次期待DeepSeek-V4的橫空出世。不少人推測,它可能會在春節(jié)前后亮相。但與推出的時間相比,更大的懸念是,它將以何種程度的創(chuàng)新,將中國與美國在前沿模型的差距縮短到什么程度?它是否會基于中國的算力基礎設施來實現這一跨越。

全球對前沿模型的探索,仍在尋找下一條行之有效的擴展路徑。DeepSeek也是如此。長期以來,它對此的探索主線,一直都是如何在有限的資源下通過架構創(chuàng)新,最大程度上地提升訓練與推理的效率。這既是一個數學問題,也是一個工程問題。

過往論文正在揭示它的大致模樣。從V3到V3.1再到V3.2,DeepSeek先后嘗試了UE8M0 FP8、DSA、上下文光學壓縮、mHC與Engram。它們的核心思路之一就是“稀疏化”,讓“專家”、“精度”、“注意力”與“記憶”變得更為稀疏。法國AI研究實驗室Pleias聯合創(chuàng)始人Alexander Doria認為,DeepSeek-V4將是死磕“層效率”的典范,讓每一層神經網絡在架構中發(fā)揮最大的效率。

DeepSeek最新的嘗試是Engram。它所要解決的正是“記憶”負擔的稀疏化,以推動模型規(guī)模繼續(xù)擴展。標準的Transformer架構缺乏原生的“記憶能力”,它根據概率預測下一個token,根據全局上下文進行復雜推理,消耗了多個早期注意力層和前饋網絡,浪費寶貴的資源去計算那些原本只需要簡單檢索的東西。


如果說MoE是“條件計算”,通過路由器選擇稀疏性的激活少數幾個專家,在不顯著增加計算成本的前提下,大幅增加模型規(guī)模;那么,Engram就是“條件記憶”,通過稀疏查表操作,為固定知識檢索靜態(tài)嵌入。DeepSeek的論文將MoE與Engram稱為“互補性稀疏維度”。

在Engram的幫助下,那些頻繁訪問的內容,可以緩存在HBM等更快的存儲層級中,而長尾的低頻內容則可以存放在SSD等速度較慢但容量更大的介質中。不過,與以往的RAG不同,Engram仍然是模型內部的參數化記憶,它必須參與預訓練,并直接集成到模型層中。當將1000億參數的Engram表,完全卸載到DRAM等內存中,端到端吞吐量下降不到3%。

于是,“內存”與“計算”解耦了。而且這卓有成效。DeepSeek團隊發(fā)現,當大約20%至25%的參數預算分配給Engram時,模型性能最佳。在相同的激活參數與訓練token數量等條件下,Engram-27B的整體性能就要明顯優(yōu)于純粹的稀疏模型MoE-27B。

而且,研發(fā)團隊還發(fā)現,由于將大量計算資源“讓”給了復雜推理,它不僅在知識密集型任務上表現出色,而且在通用推理能力以及代碼與數學推理任務上同樣表現出色。同時,它釋放了注意力機制的容量,也提升了長上下文檢索能力。或許,法律、金融與醫(yī)療等“記憶密集”的垂直領域,將迎來更少幻覺與更強推理的模型應用。


這對于國產算力基礎設施而言,也是一個好消息。Engram有效繞過了GPU的HBM限制,為激進的參數擴展鋪平了道路。論文最后寫道,“條件記憶將成為下一代稀疏大模型中不可或缺的基礎建模范式”。

這已經不是DeepSeek第一次在論文中勾勒下一代模型的設計藍圖。幾乎其所有研究工作,都圍繞著架構層面的創(chuàng)新展開。許多問題也許早已被其他AI實驗室提出,甚至被反復嘗試卻無疾而終,而DeepSeek選擇將這些被擱置的方向重新拾起,在工程與數學層面加以重構與優(yōu)化,借此持續(xù)縮小與美國前沿模型之間的差距。這些探索共同指向的是穩(wěn)定而有效擴展的模型架構的實現路徑。

最近的一次是跨年期間發(fā)布的流形約束超連接(mHC)。盡管超級連接(Hyper-Connections)可以為大模型訓練帶來非??斓氖諗克俣?,某些設置下提升接近80%。但它缺乏擴展的穩(wěn)定性,模型越大、層數越多,問題越嚴重。mHC可以確保每一層的計算仍然能穩(wěn)定地轉化為有效表示。DeepSeek在論文中寫道,它“為大模型基礎架構的演進指明有前景的方向”。

再一次則是去年10月,DeepSeek提出了DeepSeek-OCR模型,概念核心是“上下文光學壓縮”(Context Optical Compression),顯著提高了信息密度與計算效率,當時團隊就思考過通過逐級壓縮信息,直至邊際遺忘,或內化為更深層的表征。在論文的最后,DeepSeek團隊致辭說,這一思路“為構建一種理論上無限上下文長度的模型架構(unlimited context architectures)提供了新的可能”。

早更一點,DeepSeek-V3.2-Exp最核心的實驗則是引入了名為DSA的新架構,這是探索細粒度稀疏機制,成本更低的同時幾乎不影響模型的輸出效果。DeepSeek官方將DSA稱為邁向下一代架構的“中間步驟”。這似乎在暗示下一次更新可能直接出現在V4上。

要真正追平乃至超越Gemini-3,DeepSeek仍然需要提升模型的多模態(tài)能力。代碼與數學,多模態(tài)與自然語言本身,三者正是DeepSeek創(chuàng)始人梁文鋒押注的三個方向。在上一個跨年之交發(fā)布統(tǒng)一多模態(tài)理解與生成的自回歸框架Janus后,DeepSeek在這領域鮮少動作,它會成為下一代核心模型的一部分嗎?

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
不戰(zhàn)而勝!對手門??艘騻速?,德約生涯第65次躋身大滿貫八強

不戰(zhàn)而勝!對手門??艘騻速悾录s生涯第65次躋身大滿貫八強

全景體育V
2026-01-25 17:37:59
“美國斬殺線”事件詳細梳理:最新爆料美女留學生當“狗”太辣眼

“美國斬殺線”事件詳細梳理:最新爆料美女留學生當“狗”太辣眼

聽風聽你
2026-01-24 20:54:06
替補出場2分鐘染黃!拜合拉木賽后手指著裁判說話 39度高燒仍拼命

替補出場2分鐘染黃!拜合拉木賽后手指著裁判說話 39度高燒仍拼命

風過鄉(xiāng)
2026-01-25 10:59:52
國家下狠手了!體制內大地震,少爺、公主們的“天”,要塌了

國家下狠手了!體制內大地震,少爺、公主們的“天”,要塌了

霹靂炮
2026-01-19 22:24:13
雷軍無奈宣布:全部下架!

雷軍無奈宣布:全部下架!

電動知家
2026-01-25 15:31:25
記者:徐彬與中國U23在吉達告別,已正式啟程前往英國迎接新挑戰(zhàn)

記者:徐彬與中國U23在吉達告別,已正式啟程前往英國迎接新挑戰(zhàn)

懂球帝
2026-01-25 16:26:22
58歲那英改走顏值路線?過度醫(yī)美變化大到認不出,這是要鬧哪出?

58歲那英改走顏值路線?過度醫(yī)美變化大到認不出,這是要鬧哪出?

鋒哥與八卦哥
2026-01-25 13:26:51
出大事了!中國收到“戰(zhàn)書”,這次不是美國,中方已經做好準備

出大事了!中國收到“戰(zhàn)書”,這次不是美國,中方已經做好準備

愛吃醋的貓咪
2026-01-23 20:27:00
武漢理工畢業(yè)做保安!男子被學校約談后,稱保安比送外賣掙得多…

武漢理工畢業(yè)做保安!男子被學校約談后,稱保安比送外賣掙得多…

火山詩話
2026-01-25 09:02:44
一語道破女留學生的牢A,親眼目睹陪讀媽媽的悲哀,到底真還是假

一語道破女留學生的牢A,親眼目睹陪讀媽媽的悲哀,到底真還是假

每日一見
2026-01-23 15:07:50
云南毒紅薯升級!調查組介入,網友扒出黑幕,難怪商戶敢主動投毒

云南毒紅薯升級!調查組介入,網友扒出黑幕,難怪商戶敢主動投毒

云舟史策
2026-01-24 16:14:54
李亞鵬曝光捐贈名單,向太發(fā)聲:我捐了幾百萬,王菲默默支持了幾千萬,也是不夠的……

李亞鵬曝光捐贈名單,向太發(fā)聲:我捐了幾百萬,王菲默默支持了幾千萬,也是不夠的……

都市快報橙柿互動
2026-01-24 19:48:42
首映僅150萬,《舒克貝塔》票房撲街,鄭淵潔父子虧到懷疑人生

首映僅150萬,《舒克貝塔》票房撲街,鄭淵潔父子虧到懷疑人生

電影票房預告片
2026-01-25 00:00:56
個稅降了,2026年1月15日起執(zhí)行

個稅降了,2026年1月15日起執(zhí)行

會計人
2026-01-25 12:03:57
女友懷孕收15萬元彩禮,被退婚后控告男友強奸,男方起訴退還全部彩禮,法院判了

女友懷孕收15萬元彩禮,被退婚后控告男友強奸,男方起訴退還全部彩禮,法院判了

南國今報
2026-01-25 17:09:35
安東尼奧即將成為國奧主帥,兩年后將挑戰(zhàn)40年魔咒

安東尼奧即將成為國奧主帥,兩年后將挑戰(zhàn)40年魔咒

澎湃新聞
2026-01-25 14:07:05
好消息!鐵路新規(guī):60歲以上老人乘坐高鐵火車,可享受5大福利

好消息!鐵路新規(guī):60歲以上老人乘坐高鐵火車,可享受5大福利

巢客HOME
2026-01-25 06:50:03
青島回應“學生械斗”:系AI生成的不實信息

青島回應“學生械斗”:系AI生成的不實信息

極目新聞
2026-01-24 23:30:18
株洲殺豬宴失控!央視新華社接連怒批,句句戳心窩,這下麻煩大了

株洲殺豬宴失控!央視新華社接連怒批,句句戳心窩,這下麻煩大了

以茶帶書
2026-01-24 23:18:39
1550億美元身家的黃仁勛現身上海一菜場,商戶:他在我的栗子店消費65元,還給我簽名紅包

1550億美元身家的黃仁勛現身上海一菜場,商戶:他在我的栗子店消費65元,還給我簽名紅包

極目新聞
2026-01-25 15:58:12
2026-01-25 19:08:49
未盡研究 incentive-icons
未盡研究
新能源、人工智能、合成生物、地緣X
292文章數 61關注度
往期回顧 全部

科技要聞

黃仁勛在上海逛菜市場,可能惦記著三件事

頭條要聞

游客自稱爬衡山時掛脖子上80克金牌遺失 價值超10萬元

頭條要聞

游客自稱爬衡山時掛脖子上80克金牌遺失 價值超10萬元

體育要聞

中國足球不會一夜變強,但他們已經創(chuàng)造歷史

娛樂要聞

王玉雯方嚴正聲明 劇方回應:涉事人員已被開除

財經要聞

隋廣義等80人被公訴 千億騙局進入末路

汽車要聞

別克至境E7內飾圖曝光 新車將于一季度正式發(fā)布

態(tài)度原創(chuàng)

本地
房產
游戲
公開課
軍事航空

本地新聞

云游中國|格爾木的四季朋友圈,張張值得你點贊

房產要聞

正式官宣!三亞又一所名校要來了!

《怪獵物語3》藝術插畫公開!火龍騎士御風飛翔

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

俄美烏三方首輪會談細節(jié)披露

無障礙瀏覽 進入關懷版