国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

梁文鋒又發(fā)新論文,DeepSeek R2呼之欲出

0
分享至


重要通知:我們開了個新號“白鯨實驗室”,無論是之前認識八尺的老朋友,還是熱心關注商業(yè)和AI的新朋友,歡迎點擊,移步“白鯨實驗室”。 我們的原創(chuàng)文章也會率先發(fā)在“白鯨實驗室”上。

“白鯨實驗室”,致力于給大家提供深刻的行業(yè)洞察和有價值的信息, 記錄個體在浪潮中的認知躍遷,對抗技術喧囂中的認知迷霧。AI 時代愿我們共同成長。

01

自DeepSeek出圈以來 ,梁文鋒和DeepSeek的舉動一直是行業(yè)關注的焦點。最近DeepSeek 團隊發(fā)布最新DeepSeek-V3論文,有自媒體評價:實現(xiàn)了DeepSeek R2發(fā)布前的關鍵技術突破。

4月份就有傳言,DeepSeek R2會在5月正式發(fā)布,如今5月已經過去一半,DeepSeek R2仍猶抱琵琶半遮面。

DeepSeek R1 是基于V3基座模型進行訓練的,所以V3論文中涉及的參數(shù),也大概率決定著R2的性能。這篇論文相當于R2大餐上桌前的小菜,充滿噱頭,一時挑起大家對 R2期待。

目前圈內對DeepSeek R2的推測,普遍有這三點:參數(shù)規(guī)模將提升約1倍達到了1.2萬億,成本僅僅是GPT-4o的2.7%,支持多模態(tài)。

近幾個月,國內大廠一方面接入DeepSeekR1,另一方面也不斷對自家的大模型進行迭代,試圖在搶占用戶的同時,建立技術壁壘。大廠的自研大模型,也都會對標DeepSeekR1,以至于對行動稍顯遲緩的DeepSeekR1形成圍攻之勢。

3月16日,文心一言推出原生多模態(tài)模型,支持文本、圖像、視頻跨模態(tài)轉換(如文本生成視頻),并強化深度思考能力,在數(shù)學推理(MATH-500 測試 97.3%)和代碼生成(LiveCodeBench 通過率 65.9%)上逼近 DeepSeek R1 水平。

通義千問推出Qwen2.5-Max,在數(shù)學(AIME 2024 準確率 79.8%)、編程(Codeforces 競賽 2029 Elo 評級)和多模態(tài)(視頻生成)上全面升級,性能超越 DeepSeek V3。

Qwen3的訓練數(shù)據規(guī)模更是超越DeepSeek R1 ,預訓練數(shù)據量達36 萬億 token(覆蓋 119 種語言),是 DeepSeek-R1 的兩倍多,其合成數(shù)據生成策略,如通過多模態(tài)模型從 PDF 提取文本、生成代碼片段,進一步提升了數(shù)據多樣性和質量。

不難看出,大廠一旦開始卷大模型性能,直接撼動DeepSeekR1在過去幾個月在行業(yè)里的標桿地位。事實上,DeepSeek自 2 月火爆以來,國內外的大模型就開始加快迭代節(jié)奏,導致DeepSeek的用戶量一直在下降。

今年2月DeepSeek-R1出現(xiàn)了一波現(xiàn)象級傳播,僅僅2周時間內就占據了50%以上份額,徹底打破了OpenAI的壟斷局面。而在此前,該分類100%份額均為OpenAI旗下o1、o1-mini所占據。

3月,Anthropic的Claude-3.7-Sonnet-Reasonig模型出現(xiàn),DeepSeek-R1所占份額有所下降。3月底,谷歌的Gemini-2.5-Pro在入場擠壓Claude 3.7的同時,也進一步壓縮了DeepSeek的份額。

到了5月14日,全球最大的大模型整合應用平臺Poe發(fā)布數(shù)據顯示,DeepSeek-R1模型使用率,已由2月的峰值下降了50%,目前處于推理模型分類中的第三位。Gemini-2.5-Pro通過6周時間實現(xiàn)了31.5%的份額,暫處于第一名,緊隨其后的Claude-3.7為19.1%。

DeepSeek無論是性能還是市場都已經失去絕對的優(yōu)勢,考驗梁文鋒團隊的是盡快迭代產品。

02

有趣的是,這次梁文鋒發(fā)論文的時機略顯孤獨,沒有遇上老對手——月之暗面的楊植麟。

今年以來,梁文鋒與楊植麟的論文多次撞車,成為業(yè)內一大談資。兩人都是計算機專業(yè)人才和創(chuàng)業(yè)者,被看作國內大模型領軍人物,從他們團隊的技術論文一定程度上能看出國內大模型的演進趨勢,撞車似乎有著英雄所見略同的意味。

他們的論文撞車 ,背后也是對AI基礎理論話語權的爭奪。現(xiàn)在我們來通過技術比對,看看這對冤家是怎么一次次撞車的。

2025年2月18日,DeepSeek 與月之暗面幾乎同時發(fā)布論文,分別提出原生稀疏注意力(NSA)和塊注意力混合架構(MoBA),均旨在優(yōu)化 Transformer 核心的全注意力機制,提升長上下文處理效率。

DeepSeek NSA的核心思路是,通過語義壓縮(將序列分塊降維)、動態(tài)選擇(重要性采樣)和滑動窗口(局部上下文連貫性)三環(huán)節(jié),將計算復雜度從 O(n2) 優(yōu)化至 O(n2/k),并結合硬件顯存復用技術降低 40% 內存訪問頻次。性能表現(xiàn)上,處理 64k 標記序列時速度提升 11.6 倍,訓練效率顯著優(yōu)于傳統(tǒng)注意力機制。

月之暗面 MoBA是引入門控網絡動態(tài)選擇,與當前塊最相關的 Top-K 塊進行注意力計算,同時結合 FlashAttention 和 MoE(專家混合模型)進一步優(yōu)化。根據論文,MoBA的計算復雜度隨著上下文長度增加而優(yōu)勢明顯,在 10M token 測試中提速 16 倍,已應用于 Kimi 產品處理超長上下文任務。

兩者的 “撞車” 推動學術界重新審視注意力機制的優(yōu)化路徑,OpenAI 在同期論文中,引用兩者作為長文本處理的代表性方案。

今年4月,雙方再次在數(shù)學定理證明領域推出競爭產品。DeepSeek-Prover-V2,參數(shù)規(guī)模6710億,基于 DeepSeek-V3 微調,采用子目標分解強化學習,在 miniF2F 測試中通過率88.9%,解決49道普特南測試題。核心技術是將復雜問題拆解為可驗證的子目標鏈,結合動態(tài)規(guī)劃優(yōu)化證明路徑。

而月之暗面的Kimina-Prover開源1.5B和7B版本,采用獎勵模型引導的自主探索,miniF2F通過率80.7%,解決10道普特南測試題,通過形式化邏輯約束減少幻覺,提升數(shù)學推理的可解釋性。

訓練數(shù)據上,DeepSeek-Prover-V2依賴數(shù)學論文與競賽數(shù)據集,瞄準高精度復雜推理,如學術定理證明。月之暗面則融合教科書與習題數(shù)據,覆蓋更廣用戶群體,側重輕量化適配,如教育領域的數(shù)學輔導。

不難看出,DeepSeek致力于把技術做得精深,而月之暗面似乎更在乎如何落地應用。

更早之前的一次撞車發(fā)生在今年 1 月,直接讓兩者的地位發(fā)生逆轉,默默無聞的DeepSeek 一躍成為黑馬并迅速出圈,而此前一直名聲大噪的Kimi落寞下去。

今年1月20號,DeepSeek R1 與 Kimi K1.5 在同一天發(fā)布,這兩篇論文同時把目標瞄準了RL推動的推理模型。

DeepSeek R1 通過兩階段訓練,先是借助純強化學習(RL)訓練的大語言模型 R1-Zero和V3生成CoT推理數(shù)據,冷啟動數(shù)據初始化模型,后進行二次優(yōu)化,解決多語言混合的邏輯連貫性,這使得其在數(shù)學競賽 AIME 2024中準確率從 15.6% 躍升至 71.0%,多數(shù)投票后達86.7%,逼近 OpenAI o1的水平。

相比之下,Kimi K1.5雖采用 RL 訓練,依賴長上下文擴展(128k)和部分軌跡回放等技術優(yōu)化。其數(shù)學推理準確率(96.2%)略低于 DeepSeek R1(97.3%),且未在純 RL 領域實現(xiàn)同等突破。

這兩種方法在OpenAi或者業(yè)內人看來,并沒有技術上的優(yōu)勢差異,殊途同歸,借助強化學習實現(xiàn)了推理能力。

事實上仔細閱讀這兩篇技術報告會發(fā)現(xiàn),在K1.5的論文里,月之暗面對如何訓練一個推理模型做了更詳細的分享,甚至單從信息度和細節(jié)程度上,它是高過R1論文的。但之后DeepSeek爆紅出圈,沒人會再討論這篇論文。

這場由國內兩家頭部大模型公司展開的技術斗法,很少被人深入探討,大家的目光似乎都聚焦在勝出者梁文鋒身上,沒人在乎第二名。當然,DeepSeek的勝出除了一些參數(shù)上的優(yōu)勢外,還有開源、訓練成本降低等原因。

不管怎樣,你追我趕的技術競爭導致的結果是,目前 DeepSeek 仍處于上風。對楊植麟而言,內心大概有種“既生瑜,何生亮”的況味。

DeepSeek爆火以后,Kimi在產品迭代上并沒有明顯增進,各大排行榜都未見其身影。反而一直延續(xù)此前爭取“用戶留存”的策略,和財新合作,增加引用資料的權威性;四月份Kimi自建社區(qū),試圖做AI內容平臺;本月又和小紅書合作,在小紅書里接入對話框。

顯然,這些技術之外的操作并未撼動 DeepSeek的地位 。

03

DeepSeek的對手早已不是Kimi,而是持續(xù)進行飽和式投入的各大廠。

近幾個月,豆包、通義千問、元寶、文心一言更是在大模型上的頻繁迭代,且進行聲勢浩大的營銷。反觀DeepSeek,出圈后尚未有什么大動作,在當前迭代周期按照月來計算的節(jié)奏下,已顯得慢了許多。

本次DeepSeek團隊發(fā)布的DeepSeek-V3論文,深度解析了硬件架構與模型設計的雙重創(chuàng)新,為大規(guī)模高效訓練與推理提供了突破性思路。

值得關注的是,梁文鋒參與論文撰寫,排在倒數(shù)第五位,通訊地址顯示為中國北京,這意味著該研究主要由DeepSeek北京團隊主導。

很多人大概不知道,2023年5月,DeepSeek最初在北京成立了“北京深度求索”作為運營主體,地址在北京市海淀區(qū)科學院南路。但兩個月后又在杭州重新成立了“杭州深度求索”,并將北京公司變?yōu)楹贾莨镜娜Y子公司。

這不是DeepSeek-V3相關技術內容第一次面向公眾。DeepSeek-V3基礎版技術報告于2024年12月首次發(fā)布,今年3月24日DeepSeek發(fā)布的V3-0324版本技術報告,則聚焦于小版本迭代的核心突破,基于V3基礎模型的后訓練優(yōu)化,重點提升代碼生成、推理效率和中文能力,同時調整開源協(xié)議以推動商用普及。

而本篇DeepSeek-V3論文,主要論述硬件感知模型協(xié)同設計如何有效應對這些挑戰(zhàn),從而實現(xiàn)經濟高效的大規(guī)模訓練和推理。

原有大語言模型,內存容量不足、計算效率低下、互連帶寬受限等硬件瓶頸日益凸顯。DeepSeek-V3在多項關鍵指標上實現(xiàn)了跨越式突破:僅依托2048塊H800 GPU訓練,便達成FP8訓練準確率損失小于0.25%的優(yōu)異表現(xiàn),單token訓練成本低至250 GFLOPS,相較405B密集模型的2.45 TFLOPS成本顯著優(yōu)化;其KV緩存更壓縮至單token 70 KB,僅為Llama-3.1的1/7。

這些亮眼數(shù)據背后,是DeepSeek在模型架構與AI基礎設施層面的改進。

內存效率革新:多頭潛在注意力(MLA)。針對傳統(tǒng)模型多輪對話中KV緩存爆炸式增長的難題,MLA技術通過共享投影矩陣,將各注意力頭的KV向量壓縮為統(tǒng)一潛在向量,如同對數(shù)據進行“語義壓縮”,直接將推理內存占用減半。搭配FP8混合精度訓練,模型參數(shù)存儲體積減少50%,同時創(chuàng)新性提出LogFMT對數(shù)空間量化方案,在相同比特下實現(xiàn)更高精度,有效破解AI內存墻困境。

計算-通信優(yōu)化:混合專家(MoE)架構。DeepSeekMoE將模型拆解為“專家團隊”,每個token僅激活37B參數(shù)(總參數(shù)671B),打破傳統(tǒng)稠密模型全參數(shù)在線的高成本模式。該設計使訓練成本大幅可控,結合KTransformers框架,DeepSeek-V3可在萬元級消費級GPU服務器上實現(xiàn)近20TPS推理速度,配備AI芯片的PC端亦可流暢運行,顯著降低中小企業(yè)與開發(fā)者的使用門檻。

推理效率躍升:多維度加速技術。引入多token預測(MTP)框架,實現(xiàn)候選詞批量生成與并行驗證,顛覆傳統(tǒng)自回歸模型逐字輸出的低效模式。通過重疊計算與通信、構建高帶寬縱向擴展網絡,充分釋放GPU算力潛力,大幅提升吞吐量。同時采用“測試時縮放”技術,根據任務復雜度動態(tài)調配資源,簡單任務快速響應,復雜任務(如數(shù)學推理)智能調用更多算力。

集群架構突破:兩層多層胖樹(MPFT)網絡拓撲。創(chuàng)新性構建8個獨立平面實現(xiàn)故障隔離與負載均衡,在保持全到全通信性能的同時,使集群成本降低40%以上,為大規(guī)模模型訓練的集群擴展提供高性價比解決方案。

論文中,DeepSeek還系統(tǒng)性提出從硬件架構演進視角出發(fā)的六大未來挑戰(zhàn)與解決方案,覆蓋內存、互連、網絡、計算等核心領域,為下一代AI基礎設施升級繪制了路線圖,其技術洞察有望成為行業(yè)發(fā)展的重要風向標。

盡管如此,一切都要等待DeepSeek-R2 發(fā)布后。DeepSeek能否憑借R2 再次爆火,外界滿懷期待,但也是個懸念。

DeepSeek-R2會讓人類攀登AGI 這座高峰時更進一步嗎?歡迎評論區(qū)留言。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
快觀察 | 為什么這家英國雜志把上海排在“全球最佳城市”第二名?

快觀察 | 為什么這家英國雜志把上海排在“全球最佳城市”第二名?

上觀新聞
2026-03-12 20:16:07
奔馳靜置時自燃,消防認定系車輛故障引發(fā),4S店及廠家:認定書不能作為車輛質量問題依據|3·15端上維權

奔馳靜置時自燃,消防認定系車輛故障引發(fā),4S店及廠家:認定書不能作為車輛質量問題依據|3·15端上維權

中國能源網
2026-03-13 15:57:08
沖擊1000賽第10冠!薩巴倫卡橫掃14號種子,第43次躋身巡回賽決賽

沖擊1000賽第10冠!薩巴倫卡橫掃14號種子,第43次躋身巡回賽決賽

全景體育V
2026-03-14 08:44:50
向佐踢主持人后續(xù)!百克力回應,確實有不爽,曝對方私下真實人品

向佐踢主持人后續(xù)!百克力回應,確實有不爽,曝對方私下真實人品

離離言幾許
2026-03-12 16:53:51
游客夜爬華山偶遇“神獸” 相關部門:俗稱“四不像”

游客夜爬華山偶遇“神獸” 相關部門:俗稱“四不像”

閃電新聞
2026-03-13 13:14:55
男子買房后,房價從160萬降到39萬!在公司抱怨了幾句,領導說:你應該再買39萬,拉低平均成本,減少虧損!

男子買房后,房價從160萬降到39萬!在公司抱怨了幾句,領導說:你應該再買39萬,拉低平均成本,減少虧損!

品讀時刻
2026-03-12 09:08:10
15萬貸款變20萬、忘還款兩天車直接被人開走......汽車金融“套路”調查

15萬貸款變20萬、忘還款兩天車直接被人開走......汽車金融“套路”調查

環(huán)球網資訊
2026-03-12 09:59:16
截至3月10日當周,歐洲洲際交易所(ICE)布倫特原油投機者將凈多頭頭寸增加65438份合約,至351032份合約

截至3月10日當周,歐洲洲際交易所(ICE)布倫特原油投機者將凈多頭頭寸增加65438份合約,至351032份合約

每日經濟新聞
2026-03-14 06:30:55
315晚會主題官宣,將關注食品安全、公共安全等領域侵害消費者權益違法行為

315晚會主題官宣,將關注食品安全、公共安全等領域侵害消費者權益違法行為

界面新聞
2026-03-13 22:08:45
不是合作,是頂不住:古巴放FBI入境,現(xiàn)實比說辭更冷

不是合作,是頂不?。汗虐头臚BI入境,現(xiàn)實比說辭更冷

老馬拉車莫少裝
2026-03-14 09:51:34
超真實人體建模!姿勢任君選 男女各個部位一覽無余

超真實人體建模!姿勢任君選 男女各個部位一覽無余

游民星空
2026-03-11 17:15:29
正式官宣:中國海軍055驅逐艦已達10艘,實力冠絕全球!

正式官宣:中國海軍055驅逐艦已達10艘,實力冠絕全球!

阿龍聊軍事
2026-03-10 13:18:04
《太陽報》:維尼修斯或轉戰(zhàn)英超,切爾西竟嫌25歲巨星太老?

《太陽報》:維尼修斯或轉戰(zhàn)英超,切爾西竟嫌25歲巨星太老?

仰臥撐FTUer
2026-03-13 13:40:34
越扒越勁爆!釋永信在少林寺的奢靡生活,你想都不敢想!

越扒越勁爆!釋永信在少林寺的奢靡生活,你想都不敢想!

混沌錄
2025-09-17 23:25:04
楊紫真的已經瘦到天賦上限了,這也太牛了…

楊紫真的已經瘦到天賦上限了,這也太牛了…

手工制作阿殲
2026-02-22 13:25:34
56歲大媽心梗離世,醫(yī)生:吃他汀時除了牛奶,這6種食物盡量少碰

56歲大媽心梗離世,醫(yī)生:吃他汀時除了牛奶,這6種食物盡量少碰

岐黃傳人孫大夫
2026-02-28 22:15:03
廣東男籃官宣!崔永熙首秀時間敲定,458天等待終圓夢

廣東男籃官宣!崔永熙首秀時間敲定,458天等待終圓夢

體育見習官
2026-03-14 09:37:52
湖人更衣室慶祝曝光!東契奇果斷拒絕被澆水 生涯8次50+全勝太狠

湖人更衣室慶祝曝光!東契奇果斷拒絕被澆水 生涯8次50+全勝太狠

冷桂零落
2026-03-14 09:37:31
茅臺“美女董秘”被查!手握萬億“錢袋子”曾直言不會換工作

茅臺“美女董秘”被查!手握萬億“錢袋子”曾直言不會換工作

金叫喚來了
2026-03-14 08:05:52
曾打敗謝杏芳獲女單冠軍,經歷兩次婚姻,今嫁大11歲體育公司CEO

曾打敗謝杏芳獲女單冠軍,經歷兩次婚姻,今嫁大11歲體育公司CEO

科學發(fā)掘
2026-03-13 12:01:18
2026-03-14 11:03:00
白鯨實驗室one incentive-icons
白鯨實驗室one
記錄 AI改變世界的瞬間
103文章數(shù) 14關注度
往期回顧 全部

科技要聞

李想為何暫放“執(zhí)念”?

頭條要聞

美國懸賞最高1000萬美元 征集穆杰塔巴及伊朗高官信息

頭條要聞

美國懸賞最高1000萬美元 征集穆杰塔巴及伊朗高官信息

體育要聞

NBA唯一巴西球員,增重20KG頂內線

娛樂要聞

廣電總局公布演員將用姓氏筆畫定番位

財經要聞

3·15影子暗訪|神秘的“特供酒”

汽車要聞

吉利銀河M7技術首秀 實力重構主流電混SUV

態(tài)度原創(chuàng)

親子
數(shù)碼
本地
公開課
軍事航空

親子要聞

趣味游戲

數(shù)碼要聞

三星筆記本用戶反饋安裝Win11二月更新后訪問C盤遭拒

本地新聞

坐標北京,過敏季反向遷徒

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普宣布空襲伊石油出口樞紐哈爾克島

無障礙瀏覽 進入關懷版