国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

代碼泄密!DeepSeek下一代“王炸”模型架構(gòu)曝光

0
分享至


智東西
作者 江宇
編輯 冰倩

智東西1月21日報道,DeepSeek-R1發(fā)布一周年之際,來自DeepSeek的神秘新模型“MODEL1”悄然現(xiàn)身GitHub代碼庫。

多位社區(qū)開發(fā)者推測,MODEL1很可能正是DeepSeek內(nèi)測中的V3終極版本(V4模型),也有人猜測它可能代表一個完全獨立于V系列的新模型。


▲海外開發(fā)者在X平臺討論MODEL1身份

近日,DeepSeek向其核心推理內(nèi)核FlashMLA推送了一系列更新,而在這些提交中,一個此前從未公開亮相的模型命名引發(fā)了社區(qū)的高度關(guān)注——MODEL1。


▲DeepSeek代碼庫出現(xiàn)MODEL1相關(guān)(圖源:X)

這一名稱不僅出現(xiàn)在SM90架構(gòu)相關(guān)的.cu內(nèi)核實例化文件中,還貫穿在多個針對FP8稀疏解碼路徑的模板定義與內(nèi)存布局注釋里。

更關(guān)鍵的是,據(jù)海外開發(fā)者推測,MODEL1的背后將是一整套新的推理機制、算子結(jié)構(gòu)與底層內(nèi)存配置,會與DeepSeek現(xiàn)有V3.2模型呈現(xiàn)出完全不同的技術(shù)路徑

在相關(guān)代碼文件中可以看到,MODEL1被用于核心解碼函數(shù)的多個實例中,顯式適配了頭維度為64和128的場景,并專門部署在SM90和SM100架構(gòu)上。


▲DeepSeek FlashMLA源碼截圖(圖源:GItHub)

代碼中多處調(diào)用了“ModelType::MODEL1”,與其對應(yīng)的還有一套獨立的持久化內(nèi)核。這些文件與V32版本的持久化內(nèi)核文件并行存在,這顯示出DeepSeek或許已為該模型設(shè)計了與V3系列完全不同的編譯路徑與執(zhí)行邏輯。


▲DeepSeek FlashMLA源碼文件樹(圖源:GItHub)

更值得注意的是,在代碼中,有一條特別注釋寫道:對于F3架構(gòu)(即SM90平臺)下的MODEL1模型,其KV緩存的內(nèi)存stride必須是576B的整數(shù)倍。


▲海外網(wǎng)友推文截圖(目前該條注釋已于代碼庫內(nèi)刪除)

這一配置區(qū)別于V3.2的656B,暗示著MODEL1對底層內(nèi)存對齊和調(diào)度有更為嚴(yán)格的要求,可能與其更復(fù)雜的運行時行為與動態(tài)緩存機制有關(guān)。

一位海外網(wǎng)友也對這部分代碼進行了深入解讀,他認(rèn)為,MODEL1在整體結(jié)構(gòu)上展現(xiàn)出更強的實驗性特征,支持動態(tài)Top-K稀疏推理邏輯,還引入了額外的KV緩存區(qū)。


▲海外開發(fā)者的分析(圖源:X)

前者通過引入一個可變的topk_length指針,允許模型在推理時根據(jù)token或請求動態(tài)決定參與計算的key數(shù)量,提升了計算資源的精細(xì)調(diào)度能力;后者則通過extra_kv緩沖區(qū),提供了將系統(tǒng)提示與用戶上下文分離存儲的可能,為Agent架構(gòu)或多段上下文場景提供支持。

據(jù)社區(qū)開發(fā)者分析,MODEL1在同步邏輯與邊界控制上可能比V3.2更加復(fù)雜。其中RoPE與NoPE維度在雙GEMM運算中耦合更緊,可能意味著其在位置編碼與張量路徑調(diào)度上做出了顯著調(diào)整。

分析還提到,MODEL1引入了運行時邊界檢查機制,旨在規(guī)避動態(tài)Top-K推理中潛在的非法內(nèi)存訪問。

此外,盡管官方注釋中標(biāo)明MODEL1的stride應(yīng)為576B,但據(jù)社區(qū)開發(fā)者基于代碼結(jié)構(gòu)估算,其實際內(nèi)存分配邏輯可能接近584B。這種細(xì)微差異被認(rèn)為反映出該分支仍處于調(diào)試或快速迭代階段。

在更早的1月9日,外媒援引知情人士稱,DeepSeek將于2月中旬,也就是春節(jié)前后發(fā)布其下一代模型,主打編程能力,并在內(nèi)部測試中已經(jīng)在多個基準(zhǔn)上超越了Claude與GPT系列。

結(jié)合目前模型文件結(jié)構(gòu)已覆蓋64和128兩個頭維度、FP8稀疏解碼路徑已完成適配、內(nèi)存規(guī)范已強制定義等跡象來看,MODEL1很可能已接近訓(xùn)練完成或推理部署階段,正等待最終的權(quán)重凍結(jié)和測試驗證。

在海外社交平臺上,不少用戶對MODEL1的曝光反應(yīng)熱烈。一位用戶調(diào)侃道:“我已經(jīng)能聽見‘新模型將帶來99.97%成本下降’了?!?/p>


而另一位開發(fā)者則認(rèn)為,如果DeepSeek再次開放權(quán)重,勢必將對閉源巨頭形成壓力,推動前沿模型進一步走向開放。


恰逢DeepSeek R1發(fā)布一周年,Hugging Face官方博客也發(fā)布了特別文章《One Year Since the “DeepSeek Moment”》,系統(tǒng)回顧了過去一年中國開源社區(qū)的集體爆發(fā),明確提及DeepSeek的開源策略已從一次事件演化為生態(tài)策略。


▲Hugging Face官方博客:One Year Since the “DeepSeek Moment”

文章稱,R1模型的開源不僅降低了推理技術(shù)、生產(chǎn)部署與心理三個門檻,更推動了國內(nèi)公司在開源方向上形成非協(xié)同但高度一致的戰(zhàn)略走向。

從百度、字節(jié)跳動到月之暗面、智譜AI,各大機構(gòu)在過去一年中陸續(xù)加入Hugging Face并發(fā)布高質(zhì)量模型,在社區(qū)下載、點贊與引用榜單上頻頻登頂。

與此同時,越來越多西方開源模型的底座也開始使用DeepSeek系列做微調(diào),DeepSeek-V3更是成為Cogito v2.1等海外模型的底層基座。

結(jié)語:一年之后,DeepSeek再次站在開源演進的起點

如今,距離R1發(fā)布僅一年,DeepSeek的“MODEL1”很有可能在系統(tǒng)架構(gòu)、執(zhí)行路徑與推理機制上展現(xiàn)出全面超越V3.2的能力。

如果接下來如傳聞所述在春節(jié)前后正式發(fā)布,DeepSeek或許將再次改寫國內(nèi)開源格局,也可能為全球前沿開源模型樹立新的標(biāo)桿。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
今年沒有大年三十,什么時候貼春聯(lián)最好?這4件事要早知道,別不當(dāng)回事,圖個吉利!

今年沒有大年三十,什么時候貼春聯(lián)最好?這4件事要早知道,別不當(dāng)回事,圖個吉利!

農(nóng)夫也瘋狂
2026-01-19 11:57:16
風(fēng)靡數(shù)千年的黃酒,為啥現(xiàn)在很少人喝了?行家:3個扎心原因

風(fēng)靡數(shù)千年的黃酒,為啥現(xiàn)在很少人喝了?行家:3個扎心原因

濤哥美食匯
2026-01-21 09:07:25
2600萬到手!李亞鵬王菲聯(lián)手撕下張柏芝體面

2600萬到手!李亞鵬王菲聯(lián)手撕下張柏芝體面

絢麗的畫卷
2026-01-21 08:02:26
在日留學(xué)生:因為窮,只能來日本留學(xué)……

在日留學(xué)生:因為窮,只能來日本留學(xué)……

日本物語
2026-01-20 21:02:57
接受捐款僅2天,官媒對李亞鵬用了特殊稱呼,這次,沒給他留體面

接受捐款僅2天,官媒對李亞鵬用了特殊稱呼,這次,沒給他留體面

阿纂看事
2026-01-20 13:12:13
上海公布元旦春節(jié)臨時補助對象范圍和標(biāo)準(zhǔn),最高每人1000元

上海公布元旦春節(jié)臨時補助對象范圍和標(biāo)準(zhǔn),最高每人1000元

澎湃新聞
2026-01-20 20:57:04
越媒:9名越南球迷花費人均超1億越南盾前往沙特觀看半決賽

越媒:9名越南球迷花費人均超1億越南盾前往沙特觀看半決賽

懂球帝
2026-01-20 17:50:09
工信部:將擴大“二次號碼煥新”覆蓋范圍

工信部:將擴大“二次號碼煥新”覆蓋范圍

界面新聞
2026-01-21 11:01:17
錢再多有什么用?87歲李雙江一家4口的現(xiàn)狀,給所有男人提了個醒

錢再多有什么用?87歲李雙江一家4口的現(xiàn)狀,給所有男人提了個醒

近史談
2026-01-21 12:03:54
暴雷!義烏一外貿(mào)公司或超1000萬,法人由中國人已變更為一外國人

暴雷!義烏一外貿(mào)公司或超1000萬,法人由中國人已變更為一外國人

火山詩話
2026-01-21 11:22:17
發(fā)不出工資了,這3個行業(yè)的人要趁早做打算

發(fā)不出工資了,這3個行業(yè)的人要趁早做打算

復(fù)轉(zhuǎn)這些年
2026-01-19 23:12:25
瓦良格號送到中國后有多震撼?專家刮掉表面的銹跡:鋼材品質(zhì)極佳

瓦良格號送到中國后有多震撼?專家刮掉表面的銹跡:鋼材品質(zhì)極佳

古書記史
2026-01-06 16:31:56
我國北方多地現(xiàn)“絕美極光秀”,賽里木湖被紅光籠罩,漠河一天出現(xiàn)兩次極光,網(wǎng)友涌入評論區(qū)接好運

我國北方多地現(xiàn)“絕美極光秀”,賽里木湖被紅光籠罩,漠河一天出現(xiàn)兩次極光,網(wǎng)友涌入評論區(qū)接好運

極目新聞
2026-01-21 14:22:30
兩大AI翻倍牛股突發(fā)異動!利歐股份1100萬手大單封死跌停,易點天下2日回調(diào)30%,AI營銷龍頭澄清無GEO業(yè)務(wù)

兩大AI翻倍牛股突發(fā)異動!利歐股份1100萬手大單封死跌停,易點天下2日回調(diào)30%,AI營銷龍頭澄清無GEO業(yè)務(wù)

金融界
2026-01-21 11:18:40
國羽2勝1負(fù)!陳雨菲開門紅,5號種子0-5到21-16,混雙00后1輪游!

國羽2勝1負(fù)!陳雨菲開門紅,5號種子0-5到21-16,混雙00后1輪游!

劉姚堯的文字城堡
2026-01-21 14:28:51
王菲驚訝:李亞鵬2天獲1291萬網(wǎng)友力挺

王菲驚訝:李亞鵬2天獲1291萬網(wǎng)友力挺

眼光決定境界
2026-01-21 09:40:00
突發(fā)!眾泰汽車大批量招聘!

突發(fā)!眾泰汽車大批量招聘!

電動知家
2026-01-21 15:11:10
詹姆斯生涯得分年齡分布:20-29歲砍21539分歷史第一

詹姆斯生涯得分年齡分布:20-29歲砍21539分歷史第一

懂球帝
2026-01-21 13:28:30
剛回國就瘋了?大批老外深夜瘋狂發(fā)問:怎么才能變成中國人?

剛回國就瘋了?大批老外深夜瘋狂發(fā)問:怎么才能變成中國人?

元爸體育
2026-01-21 06:56:52
現(xiàn)代汽車CEO一年內(nèi)兩度訪華 高端品牌入華計劃引猜想

現(xiàn)代汽車CEO一年內(nèi)兩度訪華 高端品牌入華計劃引猜想

經(jīng)濟觀察報
2026-01-20 13:41:08
2026-01-21 15:48:49
智東西 incentive-icons
智東西
聚焦智能變革,服務(wù)產(chǎn)業(yè)升級。
11098文章數(shù) 116943關(guān)注度
往期回顧 全部

科技要聞

給機器人做仿真訓(xùn)練 這家創(chuàng)企年營收破億

頭條要聞

媒體:特朗普公布多國領(lǐng)導(dǎo)人"求饒"短信 令人瞠目結(jié)舌

頭條要聞

媒體:特朗普公布多國領(lǐng)導(dǎo)人"求饒"短信 令人瞠目結(jié)舌

體育要聞

只會防守反擊?不好意思,我們要踢決賽了

娛樂要聞

李亞鵬2天獲1291萬網(wǎng)友力挺

財經(jīng)要聞

消失的投資金 起底華文映像電影投資騙局

汽車要聞

新一代理想L9電池加碼體型加大 重奪高端話語權(quán)

態(tài)度原創(chuàng)

時尚
家居
數(shù)碼
游戲
本地

告別93歲時尚傳奇Valentino:他留下了全世界最美的“紅”

家居要聞

褪去浮華 觸達(dá)松弛與欣喜

數(shù)碼要聞

華碩無畏Pro 16 2026上架:酷睿Ultra 300與銳龍AI9 H465對決

入手佳機!《命運2:反叛》首次折扣!預(yù)言之年新史低立減45%起!

本地新聞

云游遼寧|漫步千年小城晨昏,“康”復(fù)好心情

無障礙瀏覽 進入關(guān)懷版