国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

V3.2逼近Gemini 3,DeepSeek硬氣喊話:接下來我要堆算力了

0
分享至


作者 | 周一笑
郵箱 | zhouyixiao@pingwest.com

就在上周,OpenAI前首席科學家、現(xiàn)SSI CEO Ilya Sutskever在最新播客訪談中拋出一個重磅觀點,過去五年的“age of scaling”正在走到頭,預訓練數(shù)據(jù)是有限的,單純用更多GPU堆更大模型,哪怕再放大100 倍,也未必能帶來質(zhì)變。所以我們又回到了以研究為核心的時代,只不過這次有了巨大的算力”,這一表態(tài)被視作對Scaling Law撞墻論的強力佐證。

然而僅過了幾天,12月1日,DeepSeek用V3.2和V3.2-Speciale的發(fā)布,給出了一個不同的答案。

模型發(fā)布后,DeepSeek研究員Zhibin Gou在X上發(fā)文:

“如果Gemini-3證明了持續(xù)擴展預訓練的可能性,DeepSeek-V3.2-Speciale則證明了在大規(guī)模上下文環(huán)境中強化學習的可擴展性。我們花了一年時間將DeepSeek-V3推向極限,得出的經(jīng)驗是:訓練后的瓶頸需通過優(yōu)化方法和數(shù)據(jù)來解決,而非僅等待更好的基礎(chǔ)模型?!?/b>

他還補了一句:

“持續(xù)擴大模型規(guī)模、數(shù)據(jù)量、上下文和強化學習。別讓那些'遭遇瓶頸'的雜音阻擋你前進?!?/b>


這是DeepSeek團隊少有的發(fā)聲,而這一幕頗有意味,當行業(yè)在討論Scaling Law是否撞墻時,DeepSeek用實打?qū)嵉哪P秃霸?,想證明Scaling沒死,只是換了戰(zhàn)場。

雖然行業(yè)普遍認同后訓練的重要性,但敢把相當于預訓練成本10%以上的算力預算砸在RL上的企業(yè)仍屬少數(shù)。DeepSeek是真正把這條路線工程化、規(guī)?;拇怼?/p>

這次發(fā)布的兩個模型正是這條路線的產(chǎn)物,V3.2定位日常主力,對標GPT-5;Speciale定位極限推理,對標Gemini 3.0 Pro,并拿下四枚國際競賽金牌。


技術(shù)報告Introduction部分有句話值得注意,“過去幾個月,開源社區(qū)雖然在持續(xù)進步,但閉源模型的性能軌跡正在以更陡峭的速度加速。差距不是在收窄,而是在擴大?!蓖瑫r點出了當前開源模型的三個核心短板:

過度依賴普通注意力機制導致長序列效率低下、后訓練算力投入不足、Agent場景下的泛化能力差。但DeepSeek的態(tài)度很明確,問題有解,而V3.2就是他們給出的答案。

1

V3.2:高效主力,把自我進化用在通用效率上

V3.2是9月發(fā)布的實驗版V3.2-Exp的正式繼任者,目標是平衡推理能力與輸出成本。

在推理類Benchmark測試中,V3.2達到了GPT-5水平:AIME 2025數(shù)學競賽93.1%(GPT-5為94.6%),HMMT 2025二月賽92.5%(GPT-5為88.3%),LiveCodeBench代碼評測83.3%(GPT-5為84.5%)。相比Kimi-K2-Thinking,V3.2在保持相近性能的同時,輸出Token量大幅降低——嚴格的Token約束和長度懲罰讓它更省、更快、更便宜。


V3.2在架構(gòu)上的核心改動是引入了DeepSeek Sparse Attention(DSA)。這項技術(shù)在9月的V3.2-Exp中首次亮相,用稀疏注意力替代傳統(tǒng)的全量注意力,將計算復雜度從O(L2)降到O(Lk)。

V3.2-Exp上線兩個月后,DeepSeek通過多個維度確認了DSA的有效性:標準Benchmark與V3.1-Terminus基本持平,ChatbotArena的Elo評分接近,第三方長上下文評測反而高出4分。這意味著DeepSeek在底層架構(gòu)創(chuàng)新上走對了路,稀疏注意力可以在不損失性能的前提下大幅提升效率。


V3.2還有一個重要突破,這是DeepSeek首個將“思考”與“工具調(diào)用”融合的模型。之前的推理模型(包括OpenAI的o系列)在思考模式下無法調(diào)用工具,V3.2打破了這個限制,同時支持思考模式和非思考模式的工具調(diào)用。


技術(shù)報告中篇幅最大的部分是Agent能力的訓練方法。DeepSeek構(gòu)建了一套大規(guī)模的Agent任務合成流水線,覆蓋1800+環(huán)境和85000+復雜指令。

這套流水線的核心設(shè)計哲學是“難解答,易驗證”。以報告中的旅行規(guī)劃任務為例:復雜約束組合讓搜索空間巨大,但驗證方案是否滿足約束卻很簡單。這種特性天然適合強化學習,模型可以通過大量嘗試獲得明確的對錯反饋,不需要人工標注。


效果驗證很有說服力,只用合成數(shù)據(jù)做RL的模型,在Tau2Bench、MCP-Mark等Agent基準上顯著提升,而只在真實環(huán)境做RL的模型,這些指標幾乎沒有變化。

值得注意的是,官方特別強調(diào),V3.2并沒有針對這些測試集的工具進行特殊訓練,但在Agent評測中仍達到開源最高水平。這說明模型的泛化能力是真實的,不是靠刷榜優(yōu)化出來的。

1

V3.2-Speciale:極限推理,把自我驗證用在高階邏輯上

Speciale是V3.2的"長思考增強版"。如果說V3.2通過嚴格的Token約束來優(yōu)化效率,Speciale則反其道而行——放寬長度限制,鼓勵模型進行更深度的推理。

技術(shù)報告中的Table 3很有意思:同樣的任務,Speciale的輸出Token量顯著高于其他模型。比如在AIME 2025上,GPT-5 High輸出13k tokens,Gemini 3.0 Pro輸出15k,而Speciale輸出23k;在Codeforces上差距更大,Speciale輸出77k tokens,是Gemini的3.5倍。

雖然Speciale的Token輸出量極大,但得益于DeepSeek的定價策略和DSA帶來的效率提升,即便算上這些額外的"思考過程",其最終使用成本依然碾壓對手:比GPT-5便宜約25倍($0.4 vs $10),比Gemini 3.0 Pro便宜約30倍($12),比Claude Opus 4.5便宜約62倍($25)。

Speciale的意義不只是“讓模型想更久”,而是驗證了一個重要的假設(shè),對推理“過程”的監(jiān)督,能否從數(shù)學證明泛化到更廣泛的領(lǐng)域?

上周剛發(fā)布的DeepSeekMath-V2提出了“生成器-驗證器”雙模型架構(gòu),生成器負責產(chǎn)出證明,驗證器評估證明的嚴謹性和完整性,驗證結(jié)果作為reward信號反饋給生成器。這套機制的關(guān)鍵創(chuàng)新在于如何保持“生成-驗證差距”,當生成器變強后,驗證器也需要同步提升。DeepSeek的解決方案是動態(tài)擴展驗證計算,用更多計算資源自動標注“難以驗證”的證明,持續(xù)合成高難度訓練數(shù)據(jù),實現(xiàn)模型的可持續(xù)自我進化。

Speciale整合了Math-V2的數(shù)據(jù)集和獎勵方法,不只追求最終答案正確,更追求推理過程的嚴謹性和完整性。它將這套原本用于數(shù)學定理證明的“過程監(jiān)督”,成功遷移到了代碼生成和通用邏輯任務中。 這意味著“自我驗證”不是數(shù)學領(lǐng)域的特例,而是一種可泛化的能力提升范式。結(jié)果也相當不錯:


1

不缺算力的DeepSeek會帶來什么?

有網(wǎng)友評論說,每篇DeepSeek論文最重要的部分永遠是“結(jié)論、局限性與未來工作”部分。這次的技術(shù)報告也不例外,他們說:“首先,由于總訓練FLOPs較少,DeepSeek-V3.2 的世界知識廣度仍落后于領(lǐng)先的閉源模型。我們計劃在后續(xù)版本中,通過擴大預訓練算力來彌補這一知識差距?!?/b>


報告中承認,由于總訓練 FLOPs 較少,V3.2 的世界知識廣度仍落后于 Gemini 3.0 Pro。但 DeepSeek 的選擇并不是等待一個更大的基礎(chǔ)模型,而是先把方法論打磨到極致,用一年時間,通過合成數(shù)據(jù)、自我驗證和大規(guī)模 RL,把后訓練的上限真正跑出來。

從這次的發(fā)布也能看出這條路線的成果:

  • V3.2 將“自我進化式工程”(高 RL 預算、合成數(shù)據(jù)閉環(huán))應用在通用效率上;

  • Speciale 則把過程獎勵與自我驗證機制推向高階邏輯推理。

兩者共同指向同一個方向:未來的模型不再依賴人力堆砌,而是依靠自我博弈實現(xiàn)持續(xù)演進。

下一步就是擴大預訓練算力來彌補知識差距。這也讓人聯(lián)想,一是如果DeepSeek真把算力補上來,會發(fā)生什么?二是,這些新的算力資源從哪里來?

回頭看過去一年的技術(shù)路徑,Janus的多模態(tài)統(tǒng)一架構(gòu)、OCR的視覺壓縮記憶、NSA的長上下文效率、Math-V2的自我驗證……這些創(chuàng)新都是在V3這個基座上迭代出來的。

那么,一個參數(shù)更大、訓練 FLOPs 更多的 V4,再疊加這些已經(jīng)驗證有效的方法論,會出現(xiàn)怎樣的化學反應?

一個合理、甚至是大膽的預期是,當 V4 或 R2 到來時,我們看到的可能已經(jīng)不是傳統(tǒng)意義上的“更強語言模型”,而是一個能夠感知多模態(tài)環(huán)境、具備更長期記憶、并能在真實交互中持續(xù)進化的系統(tǒng)。如今發(fā)生在合成環(huán)境中的自我博弈,未來可能會延伸到真實環(huán)境的在線學習。

而在算力上,在今天英偉達頻繁形容其中國市場份額已經(jīng)歸零的背景下,繼續(xù)scaling需要的算力資源看起來不太能夠靠H800們提供,下一代模型會用什么樣的更大的算力資源訓練,如果這些算力缺口可以被補齊,完全形態(tài)的DeepSeek下一代模型會是什么樣?這些顯然更重要,也更讓人產(chǎn)生聯(lián)想。


點個愛心,再走 吧

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
迪拜國際機場遭襲

迪拜國際機場遭襲

財聯(lián)社
2026-03-01 05:34:14
伊朗“以牙還牙”火力全開,周邊一圈親美國家全在挨打

伊朗“以牙還牙”火力全開,周邊一圈親美國家全在挨打

聞識
2026-03-01 01:31:10
伊朗最高國家安全委員會發(fā)布第1號公告

伊朗最高國家安全委員會發(fā)布第1號公告

界面新聞
2026-02-28 18:24:27
伊朗媒體公布反擊美軍軍事行動結(jié)果

伊朗媒體公布反擊美軍軍事行動結(jié)果

新華社
2026-03-01 00:03:30
讓央視春晚給全國道歉,入美國籍回中國撈金,她到底有什么來頭?

讓央視春晚給全國道歉,入美國籍回中國撈金,她到底有什么來頭?

陌上桃花開的
2026-02-28 16:16:42
大快人心!打人夫妻再迎3大噩耗,舅舅被曝惡行,勢力再大也沒用

大快人心!打人夫妻再迎3大噩耗,舅舅被曝惡行,勢力再大也沒用

社會日日鮮
2026-02-28 11:20:06
女子回湖北婆家過年,車被妯娌砸稀爛,報警后絕不和解,結(jié)局爽了

女子回湖北婆家過年,車被妯娌砸稀爛,報警后絕不和解,結(jié)局爽了

離離言幾許
2026-02-27 21:13:58
踏俄之土,充俄之軍?俄羅斯要求18至65歲外國男性服兵役,到底意味著什么?

踏俄之土,充俄之軍?俄羅斯要求18至65歲外國男性服兵役,到底意味著什么?

靜夜史君
2026-02-27 23:56:22
1-0!瓜迪奧拉率隊狂飆:豪取6連勝,冠軍爭奪白熱化,前2只差2分

1-0!瓜迪奧拉率隊狂飆:豪取6連勝,冠軍爭奪白熱化,前2只差2分

足球狗說
2026-03-01 03:26:20
特朗普聲稱伊朗最高領(lǐng)袖哈梅內(nèi)伊身亡,此前曾遭遇多次暗殺,去年6月已布局完整繼承體系,1989年曾以總統(tǒng)身份訪華

特朗普聲稱伊朗最高領(lǐng)袖哈梅內(nèi)伊身亡,此前曾遭遇多次暗殺,去年6月已布局完整繼承體系,1989年曾以總統(tǒng)身份訪華

極目新聞
2026-03-01 07:51:03
我曾常駐伊朗經(jīng)營酒店,親歷襲擊后真心提醒同胞

我曾常駐伊朗經(jīng)營酒店,親歷襲擊后真心提醒同胞

在伊朗德黑蘭常駐的丹丹
2026-02-28 18:56:53
1-0后!阿森納無退路:曼城4連勝+差榜首2分,4場比賽定英超冠軍

1-0后!阿森納無退路:曼城4連勝+差榜首2分,4場比賽定英超冠軍

體育知多少
2026-03-01 07:36:10
隨著41歲C羅離譜失點+率隊3-1,沙特聯(lián)榜首易主:利雅得勝利登頂

隨著41歲C羅離譜失點+率隊3-1,沙特聯(lián)榜首易主:利雅得勝利登頂

側(cè)身凌空斬
2026-03-01 05:16:08
伊朗第7輪導彈洗地開始,美航母基地遭殃,以色列先發(fā)制人成笑話

伊朗第7輪導彈洗地開始,美航母基地遭殃,以色列先發(fā)制人成笑話

黑鷹觀軍事
2026-02-28 22:32:24
特朗普應該想不到:他對伊朗的滅國之戰(zhàn),讓中俄歐看清了一個真相

特朗普應該想不到:他對伊朗的滅國之戰(zhàn),讓中俄歐看清了一個真相

頭條爆料007
2026-02-28 18:49:20
凌晨宣戰(zhàn)清晨求和!巴基斯坦再次向世界展示中械軍實力的降維打擊

凌晨宣戰(zhàn)清晨求和!巴基斯坦再次向世界展示中械軍實力的降維打擊

黑鷹觀軍事
2026-02-28 22:31:50
傾家蕩產(chǎn)移居美國,得絕癥回國蹭醫(yī)保,工作人員:外籍人員不報銷

傾家蕩產(chǎn)移居美國,得絕癥回國蹭醫(yī)保,工作人員:外籍人員不報銷

涼了時光人
2026-02-28 17:43:57
新加坡第3冠!勒布倫兄弟3-0輕松登頂,林詩棟結(jié)束賽程1亞收官

新加坡第3冠!勒布倫兄弟3-0輕松登頂,林詩棟結(jié)束賽程1亞收官

乒談
2026-02-28 22:57:58
特朗普突然發(fā)文昭告全球,包括中國俄羅斯在內(nèi),這次一個都跑不掉

特朗普突然發(fā)文昭告全球,包括中國俄羅斯在內(nèi),這次一個都跑不掉

帶你領(lǐng)略快樂真諦
2026-02-28 16:55:50
伊朗最高領(lǐng)袖哈梅內(nèi)伊將很快發(fā)表講話

伊朗最高領(lǐng)袖哈梅內(nèi)伊將很快發(fā)表講話

新華社
2026-02-28 23:06:25
2026-03-01 08:39:00
硅星人 incentive-icons
硅星人
硅(Si)是創(chuàng)造未來的基礎(chǔ),歡迎來到這個星球。
2894文章數(shù) 10458關(guān)注度
往期回顧 全部

數(shù)碼要聞

小米首款追蹤器!小米Tag海外正式發(fā)布 兼容iOS 120元起

頭條要聞

特朗普稱哈梅內(nèi)伊身亡 后者去年6月布局完整繼承體系

頭條要聞

特朗普稱哈梅內(nèi)伊身亡 后者去年6月布局完整繼承體系

體育要聞

球隊主力全報銷?頂風擺爛演都不演了

娛樂要聞

周杰倫兒子正面照曝光,與父親好像

財經(jīng)要聞

沖突爆發(fā) 市場變天?

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

教育
房產(chǎn)
家居
數(shù)碼
軍事航空

教育要聞

專業(yè)排名百分比揭秘!別再理解錯了

房產(chǎn)要聞

濱江九小也來了!集齊海僑北+哈羅、寰島...江東教育要炸了!

家居要聞

素色肌理 品意式格調(diào)

數(shù)碼要聞

英特爾Bartlett Lake-S旗艦現(xiàn)身 無法在消費級主板上啟動

軍事要聞

美國以色列聯(lián)合襲擊伊朗 實時戰(zhàn)況

無障礙瀏覽 進入關(guān)懷版