国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

DeepSeek MODEL1橫空出世,R系列將被放棄還是新生?

0
分享至

一行代碼泄漏的新架構(gòu)標(biāo)識(shí),正悄然揭示這家中國AI獨(dú)角獸在輕量化與專用化賽道上的戰(zhàn)略轉(zhuǎn)向。

01

開源社區(qū)的狂歡

2026年1月20日,DeepSeek-R1發(fā)布一周年之際,一位開發(fā)者在DeepSeek官方GitHub倉庫更新的FlashMLA代碼中發(fā)現(xiàn)了一個(gè)神秘標(biāo)識(shí)——“MODEL1”。這個(gè)隱藏在114份文件、數(shù)十處代碼注釋中的名字,迅速點(diǎn)燃了全球AI社區(qū)的好奇心。



恰逢Hugging Face發(fā)布《“DeepSeek時(shí)刻”一周年》博客,盛贊R1對(duì)全球開源生態(tài)的重塑作用1,MODEL1的現(xiàn)身仿佛一場精心編排的周年獻(xiàn)禮。

它究竟是V4的雛形、R2的前奏,還是DeepSeek第三條技術(shù)路線的起點(diǎn)?更關(guān)鍵的是:曾以推理能力驚艷世界的R系列,會(huì)被放棄嗎?

02

時(shí)代的技術(shù)競賽

根據(jù)對(duì)代碼庫的詳細(xì)分析,MODEL1展現(xiàn)出與當(dāng)前旗艦?zāi)P虳eepSeek-V3.2(代碼中標(biāo)識(shí)為V32)完全不同的技術(shù)路徑。在總計(jì)114個(gè)文件中,MODEL1被提及28至31次,且被置于與V3.2平行的獨(dú)立分支中,這明確表明它并非現(xiàn)有模型的簡單迭代,而是一個(gè)全新的架構(gòu)序列。

架構(gòu)層面的標(biāo)準(zhǔn)化回歸是MODEL1最顯著的特征之一。



DeepSeek V3系列曾采用獨(dú)特的576維非對(duì)稱MLA設(shè)計(jì)(128維RoPE + 448維Latent),而MODEL1則將head_dim參數(shù)重新設(shè)定為512維。這一“回歸標(biāo)準(zhǔn)”的動(dòng)作并非技術(shù)倒退,而是DeepSeek可能已經(jīng)找到了無需依賴非標(biāo)維度也能實(shí)現(xiàn)高壓縮率的新方法。

代碼中提及的Engram機(jī)制或許就是關(guān)鍵所在,這種機(jī)制被認(rèn)為是DeepSeek在分布式存儲(chǔ)或KV壓縮上的新突破。通過更完美的GPU Tensor Core計(jì)算特性對(duì)齊,MODEL1在換取更高計(jì)算通用性的同時(shí),可能實(shí)現(xiàn)了更優(yōu)的性能表現(xiàn)。

對(duì)下一代硬件的深度適配是MODEL1的另一大亮點(diǎn)。代碼庫中出現(xiàn)了大量針對(duì)英偉達(dá)最新Blackwell架構(gòu)(SM100)的專門優(yōu)化,包括SM100接口和B200顯卡的專用內(nèi)核實(shí)現(xiàn)。



特別值得注意的是,SM100的Head128實(shí)現(xiàn)僅支持MODEL1,而不支持V3.2,這被解讀為DeepSeek為適配新一代硬件專門優(yōu)化了新架構(gòu)。測試數(shù)據(jù)顯示,在尚未完全優(yōu)化的狀態(tài)下,MODEL1的稀疏算子在B200上已能達(dá)到350 TFlops的算力利用率,顯示出其技術(shù)前瞻性。

計(jì)算效率的顯著提升通過引入“Token-level Sparse MLA”機(jī)制得以實(shí)現(xiàn)。代碼中出現(xiàn)了test_flash_mla_sparse_decoding.py測試腳本和FP8 KV Cache混合精度支持。這意味著DeepSeek正在將MLA機(jī)制從“全量計(jì)算”進(jìn)化為“Token級(jí)稀疏計(jì)算”,允許模型在處理超長上下文時(shí)動(dòng)態(tài)忽略不重要的Token,從而在顯存占用和推理速度上實(shí)現(xiàn)數(shù)量級(jí)優(yōu)化。

此外,MODEL1每個(gè)token的KVCache大小為584字節(jié),相比V3.2的592字節(jié)有所減少,在32K長度序列中可節(jié)省約256KB內(nèi)存,這對(duì)于邊緣設(shè)備部署具有重要意義。

03

戰(zhàn)略迷霧

V4、R2,還是第三條路線?

MODEL1引發(fā)的最大懸念是其產(chǎn)品定位。目前線索指向三種可能:

猜想1:旗艦全能模型V4

此前傳聞DeepSeek將于2月發(fā)布V4,且編程能力“超過現(xiàn)有頂級(jí)模型”1。MODEL1對(duì)長序列(16K+)的優(yōu)化、對(duì)文檔與代碼場景的適配,符合V系列“全能專家”定位。

猜想2:新一代推理專家R2

其稀疏計(jì)算、FP8解碼、低內(nèi)存特性完美契合R系列“高效率解題專家”基因。開發(fā)者社區(qū)認(rèn)為它可能是“針對(duì)大規(guī)模推理優(yōu)化的R1繼任者”,甚至實(shí)現(xiàn)“雙RTX 4090運(yùn)行1M上下文”。

猜想3:架構(gòu)層通用底座,支持V與R雙線迭代

最可能的情形是:MODEL1并非具體產(chǎn)品,而是新一代基礎(chǔ)架構(gòu),可同時(shí)衍生V系列(重知識(shí)廣度)和R系列(重推理深度)——類似“芯片級(jí)創(chuàng)新”,上層可靈活封裝不同能力。

04

R系列的價(jià)值重估

在MODEL1引發(fā)廣泛關(guān)注的同時(shí),業(yè)界對(duì)R系列未來命運(yùn)的擔(dān)憂不無道理。



DeepSeek-R1在后訓(xùn)練階段大規(guī)模使用強(qiáng)化學(xué)習(xí)技術(shù),在僅有很少標(biāo)注數(shù)據(jù)的情況下極大提升了模型的推理能力。與傳統(tǒng)的監(jiān)督微調(diào)不同,R1開創(chuàng)了一種純粹的強(qiáng)化學(xué)習(xí)方法,通過基于規(guī)則的獎(jiǎng)勵(lì)系統(tǒng)引導(dǎo)模型進(jìn)行邏輯推理。

這種“推理即訓(xùn)練”的自我進(jìn)化機(jī)制,突破了自GPT大模型以來的人類輸入瓶頸,在數(shù)學(xué)、代碼、自然語言推理等任務(wù)上達(dá)到了與OpenAI o1正式版接近的性能。

2025年12月,DeepSeek同時(shí)發(fā)布了DeepSeek-V3.2和DeepSeek-V3.2-Speciale兩款模型,前者被形容為“話少活好”的助手,主打高性價(jià)比與日常使用;后者則像“偏科”的科研天才,專攻高難度數(shù)學(xué)問題求解和學(xué)術(shù)研究邏輯驗(yàn)證。



這種產(chǎn)品分化策略表明,DeepSeek早已認(rèn)識(shí)到不同應(yīng)用場景對(duì)模型能力的差異化需求。R系列作為專門優(yōu)化的推理模型,與通用對(duì)話模型V系列形成了良好的互補(bǔ)關(guān)系。

同時(shí),成本控制的突破性是R系列的另一重要價(jià)值。

據(jù)DeepSeek技術(shù)報(bào)告,DeepSeek-V3的訓(xùn)練成本僅為557.6萬美元,遠(yuǎn)低于OpenAI的GPT-4(1-2億美元)和谷歌的Gemini(2億美元)。R1不僅繼承了這種成本控制能力,還通過模型蒸餾技術(shù)將推理能力壓縮到小至15億參數(shù)的小模型中。

令人驚訝的是,R1的15億參數(shù)蒸餾模型在數(shù)學(xué)基準(zhǔn)測試中能夠優(yōu)于更大的專有模型,在AIME上獲得28.9%的分?jǐn)?shù),在MATH上獲得83.9%的分?jǐn)?shù)。這種“四兩撥千斤”的技術(shù)路線,正是DeepSeek能夠在算力受限環(huán)境下實(shí)現(xiàn)突破的關(guān)鍵。

05

從單一產(chǎn)品到生態(tài)矩陣的構(gòu)建

自2025年2月起,華為云、阿里云、百度智能云、字節(jié)火山引擎、騰訊云等國內(nèi)主要云廠商紛紛宣布上線DeepSeek模型。緊隨其后的是各大國產(chǎn)芯片廠商,包括沐曦、天數(shù)智芯、摩爾線程、壁仞科技等十?dāng)?shù)家企業(yè)宣布完成了對(duì)DeepSeek模型的適配和上線。

由于DeepSeek打破了對(duì)高算力的約束限制,國產(chǎn)芯片的利用率得到極大提升。在應(yīng)用層,金融、醫(yī)療、制造、通訊等各行各業(yè)都在積極接入DeepSeek模型,希望借助其能力升級(jí)自身服務(wù)。

從代碼結(jié)構(gòu)看,MODEL1并非V3.2的簡單縮小版,而是不同的架構(gòu)選擇。V3.2追求最大性能和精度,MODEL1則可能追求效率和可部署性。社區(qū)對(duì)MODEL1的身份有多種猜測:一種觀點(diǎn)認(rèn)為它可能是一個(gè)追求極致效率的輕量級(jí)模型,更適合邊緣設(shè)備部署;另一種分析則指向它可能是一個(gè)“長序列專家”,專門為處理超長文檔或代碼項(xiàng)目而生。

更深入的代碼解讀發(fā)現(xiàn),MODEL1支持動(dòng)態(tài)稀疏推理和額外的緩存區(qū),這些設(shè)計(jì)可能旨在提升復(fù)雜任務(wù)(如智能體應(yīng)用)的調(diào)度能力。

綜合以上分析,我們可以得出一個(gè)明確的結(jié)論:R系列不會(huì)被放棄,而是會(huì)在DeepSeek的技術(shù)演進(jìn)中扮演新的角色。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
高盛預(yù)警房價(jià)再跌30%?2026樓市“小陽春”是拐點(diǎn)還是曇花一現(xiàn)?

高盛預(yù)警房價(jià)再跌30%?2026樓市“小陽春”是拐點(diǎn)還是曇花一現(xiàn)?

貓叔東山再起
2026-04-01 11:15:03
隨著登貝萊雙響炮+巴黎圣日耳曼3-1,法甲最新積分榜出爐

隨著登貝萊雙響炮+巴黎圣日耳曼3-1,法甲最新積分榜出爐

側(cè)身凌空斬
2026-04-04 04:44:47
詹姆斯:職業(yè)生涯我從未賽季報(bào)銷,我隨時(shí)準(zhǔn)備為隊(duì)友提供幫助

詹姆斯:職業(yè)生涯我從未賽季報(bào)銷,我隨時(shí)準(zhǔn)備為隊(duì)友提供幫助

懂球帝
2026-04-04 01:49:07
女孩自助餐狂吃5小時(shí),老板崩潰上前理論,女孩竟自顧自繼續(xù)吃!

女孩自助餐狂吃5小時(shí),老板崩潰上前理論,女孩竟自顧自繼續(xù)吃!

張曉磊
2026-03-27 11:21:53
每天吃一根香蕉,是養(yǎng)心還是傷心?專家警告:很多人都吃錯(cuò)了

每天吃一根香蕉,是養(yǎng)心還是傷心?專家警告:很多人都吃錯(cuò)了

健康科普365
2026-04-03 22:05:03
寶媽投訴孩子吃完蛋糕起疹嘔吐,反助店家爆單!商家收獲近萬粉絲

寶媽投訴孩子吃完蛋糕起疹嘔吐,反助店家爆單!商家收獲近萬粉絲

19樓
2026-04-03 20:02:23
女子赴發(fā)小婚禮穿瑜伽褲,打扮過于火辣,網(wǎng)友直呼跟沒穿似的

女子赴發(fā)小婚禮穿瑜伽褲,打扮過于火辣,網(wǎng)友直呼跟沒穿似的

一盅情懷
2026-03-16 17:28:45
江蘇首個(gè)春假“含娃量”爆棚,3天接待游客1405.14萬人次

江蘇首個(gè)春假“含娃量”爆棚,3天接待游客1405.14萬人次

現(xiàn)代快報(bào)
2026-04-03 20:30:12
索尼把亮度飆到4000尼特,OLED陣營集體失眠了

索尼把亮度飆到4000尼特,OLED陣營集體失眠了

摸魚算法
2026-04-04 01:07:18
口嗨?陳光標(biāo)2天了仍未送1300萬豪車 張雪疑暗諷:真男人說到做到

口嗨?陳光標(biāo)2天了仍未送1300萬豪車 張雪疑暗諷:真男人說到做到

風(fēng)過鄉(xiāng)
2026-04-03 14:47:05
監(jiān)獄里一日三餐都吃啥?看完才知道:我們一定要遵紀(jì)守法珍惜當(dāng)下

監(jiān)獄里一日三餐都吃啥?看完才知道:我們一定要遵紀(jì)守法珍惜當(dāng)下

白話電影院
2026-04-03 16:01:27
收下中國26萬桶柴油轉(zhuǎn)頭就改島名?馬科斯:中國幫大忙,想談合作

收下中國26萬桶柴油轉(zhuǎn)頭就改島名?馬科斯:中國幫大忙,想談合作

阿紿聊社會(huì)
2026-04-03 13:52:35
留給美國時(shí)間不多了,伊朗戰(zhàn)爭打完后,世界就只剩一個(gè)超級(jí)大國了

留給美國時(shí)間不多了,伊朗戰(zhàn)爭打完后,世界就只剩一個(gè)超級(jí)大國了

觸摸史跡
2026-04-02 14:39:03
一天曝3女星“醫(yī)美狠活”,劉嘉玲饅化撞臉蔡明,張?zhí)鞇垡颜J(rèn)不出

一天曝3女星“醫(yī)美狠活”,劉嘉玲饅化撞臉蔡明,張?zhí)鞇垡颜J(rèn)不出

白宸侃片
2026-04-03 10:01:41
美元兌人民幣將貶值到1美元換5.5元人民幣,或許只需要5到10年?

美元兌人民幣將貶值到1美元換5.5元人民幣,或許只需要5到10年?

丁丁鯉史紀(jì)
2026-04-03 11:50:43
又1架Su-30戰(zhàn)機(jī)在克里米亞墜毀,4天損失3架軍機(jī),克里米亞不簡單

又1架Su-30戰(zhàn)機(jī)在克里米亞墜毀,4天損失3架軍機(jī),克里米亞不簡單

山河路口
2026-04-03 19:00:35
清明前夕!卸下偽裝,翁帆坦然發(fā)聲,21 年陪伴究竟圖什么?

清明前夕!卸下偽裝,翁帆坦然發(fā)聲,21 年陪伴究竟圖什么?

糖逗在娛樂
2026-04-03 20:19:55
確診了!趙睿最新傷情報(bào)告!CBA又一球星轟然倒下

確診了!趙睿最新傷情報(bào)告!CBA又一球星轟然倒下

籃球?qū)崙?zhàn)寶典
2026-04-03 15:57:43
重慶兩江新區(qū),啟動(dòng)大拆遷!

重慶兩江新區(qū),啟動(dòng)大拆遷!

林子說事
2026-04-04 00:44:32
不顧老婆反對(duì),全屋打滿柜子!過來人才明白:裝修的盡頭全是收納

不顧老婆反對(duì),全屋打滿柜子!過來人才明白:裝修的盡頭全是收納

家居設(shè)計(jì)師宅哥
2026-04-01 23:45:03
2026-04-04 08:23:00
電腦報(bào)少年派 incentive-icons
電腦報(bào)少年派
最新鮮的互聯(lián)網(wǎng)產(chǎn)業(yè)資訊
3919文章數(shù) 1602關(guān)注度
往期回顧 全部

科技要聞

5萬輛庫存車,給了特斯拉一記重拳

頭條要聞

美國宣布:F-15E被擊落 1名飛行員被救還有1人下落不明

頭條要聞

美國宣布:F-15E被擊落 1名飛行員被救還有1人下落不明

體育要聞

被NBA選中20年后,他重新回到籃球場

娛樂要聞

夏克立官宣再婚當(dāng)爸?否認(rèn)婚內(nèi)出軌

財(cái)經(jīng)要聞

劉紀(jì)鵬:只盼長慢牛,鞏固4000點(diǎn)是關(guān)鍵

汽車要聞

你介意和遠(yuǎn)房親戚長得很像嗎?

態(tài)度原創(chuàng)

本地
數(shù)碼
教育
藝術(shù)
公開課

本地新聞

跟著歌聲游安徽,聽古村回響

數(shù)碼要聞

酒店加速智慧化,電視成了核心

教育要聞

以“鍛造”代“保護(hù)”:重塑青少年心理健康教育的底層邏輯

藝術(shù)要聞

石濤『山水小景冊(cè)』

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版