国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

V3.2逼近Gemini 3,DeepSeek硬氣喊話:接下來我要堆算力了

0
分享至


作者 | 周一笑
郵箱 | zhouyixiao@pingwest.com

就在上周,OpenAI前首席科學(xué)家、現(xiàn)SSI CEO Ilya Sutskever在最新播客訪談中拋出一個(gè)重磅觀點(diǎn),過去五年的“age of scaling”正在走到頭,預(yù)訓(xùn)練數(shù)據(jù)是有限的,單純用更多GPU堆更大模型,哪怕再放大100 倍,也未必能帶來質(zhì)變。所以我們又回到了以研究為核心的時(shí)代,只不過這次有了巨大的算力”,這一表態(tài)被視作對(duì)Scaling Law撞墻論的強(qiáng)力佐證。

然而僅過了幾天,12月1日,DeepSeek用V3.2和V3.2-Speciale的發(fā)布,給出了一個(gè)不同的答案。

模型發(fā)布后,DeepSeek研究員Zhibin Gou在X上發(fā)文:

“如果Gemini-3證明了持續(xù)擴(kuò)展預(yù)訓(xùn)練的可能性,DeepSeek-V3.2-Speciale則證明了在大規(guī)模上下文環(huán)境中強(qiáng)化學(xué)習(xí)的可擴(kuò)展性。我們花了一年時(shí)間將DeepSeek-V3推向極限,得出的經(jīng)驗(yàn)是:訓(xùn)練后的瓶頸需通過優(yōu)化方法和數(shù)據(jù)來解決,而非僅等待更好的基礎(chǔ)模型?!?/b>

他還補(bǔ)了一句:

“持續(xù)擴(kuò)大模型規(guī)模、數(shù)據(jù)量、上下文和強(qiáng)化學(xué)習(xí)。別讓那些'遭遇瓶頸'的雜音阻擋你前進(jìn)?!?/b>


這是DeepSeek團(tuán)隊(duì)少有的發(fā)聲,而這一幕頗有意味,當(dāng)行業(yè)在討論Scaling Law是否撞墻時(shí),DeepSeek用實(shí)打?qū)嵉哪P秃霸?,想證明Scaling沒死,只是換了戰(zhàn)場。

雖然行業(yè)普遍認(rèn)同后訓(xùn)練的重要性,但敢把相當(dāng)于預(yù)訓(xùn)練成本10%以上的算力預(yù)算砸在RL上的企業(yè)仍屬少數(shù)。DeepSeek是真正把這條路線工程化、規(guī)?;拇?。

這次發(fā)布的兩個(gè)模型正是這條路線的產(chǎn)物,V3.2定位日常主力,對(duì)標(biāo)GPT-5;Speciale定位極限推理,對(duì)標(biāo)Gemini 3.0 Pro,并拿下四枚國際競賽金牌。


技術(shù)報(bào)告Introduction部分有句話值得注意,“過去幾個(gè)月,開源社區(qū)雖然在持續(xù)進(jìn)步,但閉源模型的性能軌跡正在以更陡峭的速度加速。差距不是在收窄,而是在擴(kuò)大?!蓖瑫r(shí)點(diǎn)出了當(dāng)前開源模型的三個(gè)核心短板:

過度依賴普通注意力機(jī)制導(dǎo)致長序列效率低下、后訓(xùn)練算力投入不足、Agent場景下的泛化能力差。但DeepSeek的態(tài)度很明確,問題有解,而V3.2就是他們給出的答案。

1

V3.2:高效主力,把自我進(jìn)化用在通用效率上

V3.2是9月發(fā)布的實(shí)驗(yàn)版V3.2-Exp的正式繼任者,目標(biāo)是平衡推理能力與輸出成本。

在推理類Benchmark測試中,V3.2達(dá)到了GPT-5水平:AIME 2025數(shù)學(xué)競賽93.1%(GPT-5為94.6%),HMMT 2025二月賽92.5%(GPT-5為88.3%),LiveCodeBench代碼評(píng)測83.3%(GPT-5為84.5%)。相比Kimi-K2-Thinking,V3.2在保持相近性能的同時(shí),輸出Token量大幅降低——嚴(yán)格的Token約束和長度懲罰讓它更省、更快、更便宜。


V3.2在架構(gòu)上的核心改動(dòng)是引入了DeepSeek Sparse Attention(DSA)。這項(xiàng)技術(shù)在9月的V3.2-Exp中首次亮相,用稀疏注意力替代傳統(tǒng)的全量注意力,將計(jì)算復(fù)雜度從O(L2)降到O(Lk)。

V3.2-Exp上線兩個(gè)月后,DeepSeek通過多個(gè)維度確認(rèn)了DSA的有效性:標(biāo)準(zhǔn)Benchmark與V3.1-Terminus基本持平,ChatbotArena的Elo評(píng)分接近,第三方長上下文評(píng)測反而高出4分。這意味著DeepSeek在底層架構(gòu)創(chuàng)新上走對(duì)了路,稀疏注意力可以在不損失性能的前提下大幅提升效率。


V3.2還有一個(gè)重要突破,這是DeepSeek首個(gè)將“思考”與“工具調(diào)用”融合的模型。之前的推理模型(包括OpenAI的o系列)在思考模式下無法調(diào)用工具,V3.2打破了這個(gè)限制,同時(shí)支持思考模式和非思考模式的工具調(diào)用。


技術(shù)報(bào)告中篇幅最大的部分是Agent能力的訓(xùn)練方法。DeepSeek構(gòu)建了一套大規(guī)模的Agent任務(wù)合成流水線,覆蓋1800+環(huán)境和85000+復(fù)雜指令。

這套流水線的核心設(shè)計(jì)哲學(xué)是“難解答,易驗(yàn)證”。以報(bào)告中的旅行規(guī)劃任務(wù)為例:復(fù)雜約束組合讓搜索空間巨大,但驗(yàn)證方案是否滿足約束卻很簡單。這種特性天然適合強(qiáng)化學(xué)習(xí),模型可以通過大量嘗試獲得明確的對(duì)錯(cuò)反饋,不需要人工標(biāo)注。


效果驗(yàn)證很有說服力,只用合成數(shù)據(jù)做RL的模型,在Tau2Bench、MCP-Mark等Agent基準(zhǔn)上顯著提升,而只在真實(shí)環(huán)境做RL的模型,這些指標(biāo)幾乎沒有變化。

值得注意的是,官方特別強(qiáng)調(diào),V3.2并沒有針對(duì)這些測試集的工具進(jìn)行特殊訓(xùn)練,但在Agent評(píng)測中仍達(dá)到開源最高水平。這說明模型的泛化能力是真實(shí)的,不是靠刷榜優(yōu)化出來的。

1

V3.2-Speciale:極限推理,把自我驗(yàn)證用在高階邏輯上

Speciale是V3.2的"長思考增強(qiáng)版"。如果說V3.2通過嚴(yán)格的Token約束來優(yōu)化效率,Speciale則反其道而行——放寬長度限制,鼓勵(lì)模型進(jìn)行更深度的推理。

技術(shù)報(bào)告中的Table 3很有意思:同樣的任務(wù),Speciale的輸出Token量顯著高于其他模型。比如在AIME 2025上,GPT-5 High輸出13k tokens,Gemini 3.0 Pro輸出15k,而Speciale輸出23k;在Codeforces上差距更大,Speciale輸出77k tokens,是Gemini的3.5倍。

雖然Speciale的Token輸出量極大,但得益于DeepSeek的定價(jià)策略和DSA帶來的效率提升,即便算上這些額外的"思考過程",其最終使用成本依然碾壓對(duì)手:比GPT-5便宜約25倍($0.4 vs $10),比Gemini 3.0 Pro便宜約30倍($12),比Claude Opus 4.5便宜約62倍($25)。

Speciale的意義不只是“讓模型想更久”,而是驗(yàn)證了一個(gè)重要的假設(shè),對(duì)推理“過程”的監(jiān)督,能否從數(shù)學(xué)證明泛化到更廣泛的領(lǐng)域?

上周剛發(fā)布的DeepSeekMath-V2提出了“生成器-驗(yàn)證器”雙模型架構(gòu),生成器負(fù)責(zé)產(chǎn)出證明,驗(yàn)證器評(píng)估證明的嚴(yán)謹(jǐn)性和完整性,驗(yàn)證結(jié)果作為reward信號(hào)反饋給生成器。這套機(jī)制的關(guān)鍵創(chuàng)新在于如何保持“生成-驗(yàn)證差距”,當(dāng)生成器變強(qiáng)后,驗(yàn)證器也需要同步提升。DeepSeek的解決方案是動(dòng)態(tài)擴(kuò)展驗(yàn)證計(jì)算,用更多計(jì)算資源自動(dòng)標(biāo)注“難以驗(yàn)證”的證明,持續(xù)合成高難度訓(xùn)練數(shù)據(jù),實(shí)現(xiàn)模型的可持續(xù)自我進(jìn)化。

Speciale整合了Math-V2的數(shù)據(jù)集和獎(jiǎng)勵(lì)方法,不只追求最終答案正確,更追求推理過程的嚴(yán)謹(jǐn)性和完整性。它將這套原本用于數(shù)學(xué)定理證明的“過程監(jiān)督”,成功遷移到了代碼生成和通用邏輯任務(wù)中。 這意味著“自我驗(yàn)證”不是數(shù)學(xué)領(lǐng)域的特例,而是一種可泛化的能力提升范式。結(jié)果也相當(dāng)不錯(cuò):


1

不缺算力的DeepSeek會(huì)帶來什么?

有網(wǎng)友評(píng)論說,每篇DeepSeek論文最重要的部分永遠(yuǎn)是“結(jié)論、局限性與未來工作”部分。這次的技術(shù)報(bào)告也不例外,他們說:“首先,由于總訓(xùn)練FLOPs較少,DeepSeek-V3.2 的世界知識(shí)廣度仍落后于領(lǐng)先的閉源模型。我們計(jì)劃在后續(xù)版本中,通過擴(kuò)大預(yù)訓(xùn)練算力來彌補(bǔ)這一知識(shí)差距?!?/b>


報(bào)告中承認(rèn),由于總訓(xùn)練 FLOPs 較少,V3.2 的世界知識(shí)廣度仍落后于 Gemini 3.0 Pro。但 DeepSeek 的選擇并不是等待一個(gè)更大的基礎(chǔ)模型,而是先把方法論打磨到極致,用一年時(shí)間,通過合成數(shù)據(jù)、自我驗(yàn)證和大規(guī)模 RL,把后訓(xùn)練的上限真正跑出來。

從這次的發(fā)布也能看出這條路線的成果:

  • V3.2 將“自我進(jìn)化式工程”(高 RL 預(yù)算、合成數(shù)據(jù)閉環(huán))應(yīng)用在通用效率上;

  • Speciale 則把過程獎(jiǎng)勵(lì)與自我驗(yàn)證機(jī)制推向高階邏輯推理。

兩者共同指向同一個(gè)方向:未來的模型不再依賴人力堆砌,而是依靠自我博弈實(shí)現(xiàn)持續(xù)演進(jìn)。

下一步就是擴(kuò)大預(yù)訓(xùn)練算力來彌補(bǔ)知識(shí)差距。這也讓人聯(lián)想,一是如果DeepSeek真把算力補(bǔ)上來,會(huì)發(fā)生什么?二是,這些新的算力資源從哪里來?

回頭看過去一年的技術(shù)路徑,Janus的多模態(tài)統(tǒng)一架構(gòu)、OCR的視覺壓縮記憶、NSA的長上下文效率、Math-V2的自我驗(yàn)證……這些創(chuàng)新都是在V3這個(gè)基座上迭代出來的。

那么,一個(gè)參數(shù)更大、訓(xùn)練 FLOPs 更多的 V4,再疊加這些已經(jīng)驗(yàn)證有效的方法論,會(huì)出現(xiàn)怎樣的化學(xué)反應(yīng)?

一個(gè)合理、甚至是大膽的預(yù)期是,當(dāng) V4 或 R2 到來時(shí),我們看到的可能已經(jīng)不是傳統(tǒng)意義上的“更強(qiáng)語言模型”,而是一個(gè)能夠感知多模態(tài)環(huán)境、具備更長期記憶、并能在真實(shí)交互中持續(xù)進(jìn)化的系統(tǒng)。如今發(fā)生在合成環(huán)境中的自我博弈,未來可能會(huì)延伸到真實(shí)環(huán)境的在線學(xué)習(xí)。

而在算力上,在今天英偉達(dá)頻繁形容其中國市場份額已經(jīng)歸零的背景下,繼續(xù)scaling需要的算力資源看起來不太能夠靠H800們提供,下一代模型會(huì)用什么樣的更大的算力資源訓(xùn)練,如果這些算力缺口可以被補(bǔ)齊,完全形態(tài)的DeepSeek下一代模型會(huì)是什么樣?這些顯然更重要,也更讓人產(chǎn)生聯(lián)想。


點(diǎn)個(gè)愛心,再走 吧

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
IU、李鐘碩新年低調(diào)放閃!情侶同款被挖出 粉絲暴動(dòng):嗑到了

IU、李鐘碩新年低調(diào)放閃!情侶同款被挖出 粉絲暴動(dòng):嗑到了

ETtoday星光云
2026-01-09 16:38:07
“凍齡岳父”火了,婚禮牽女兒被認(rèn)成“新郎”,伴娘:以為換人了

“凍齡岳父”火了,婚禮牽女兒被認(rèn)成“新郎”,伴娘:以為換人了

大果小果媽媽
2026-01-08 13:25:42
12斤肉3個(gè)月甩凈!全紅嬋減重到離譜,這哪是減肥,是拿命拼金牌

12斤肉3個(gè)月甩凈!全紅嬋減重到離譜,這哪是減肥,是拿命拼金牌

做一個(gè)合格的吃瓜群眾
2025-12-31 07:41:05
基恩:弗格森和吉爾仍像討厭的氣味一樣,在曼聯(lián)揮之不去

基恩:弗格森和吉爾仍像討厭的氣味一樣,在曼聯(lián)揮之不去

懂球帝
2026-01-09 18:09:20
做最壞打算!中國055大驅(qū)第二批加速,美媒:還有被美軍扣船隱憂

做最壞打算!中國055大驅(qū)第二批加速,美媒:還有被美軍扣船隱憂

諦聽骨語本尊
2026-01-09 19:26:20
貴州省住房和城鄉(xiāng)建設(shè)廳廳長王春接受審查調(diào)查

貴州省住房和城鄉(xiāng)建設(shè)廳廳長王春接受審查調(diào)查

界面新聞
2026-01-09 09:33:19
前女籃隊(duì)長宋曉波:退役后愛上風(fēng)流主帥,共患難10年卻被隊(duì)友綠

前女籃隊(duì)長宋曉波:退役后愛上風(fēng)流主帥,共患難10年卻被隊(duì)友綠

胡一舸南游y
2026-01-05 13:21:24
島內(nèi)擔(dān)心賴清德被捕,沉默4天后,大陸通知全世界,統(tǒng)派大佬扛旗

島內(nèi)擔(dān)心賴清德被捕,沉默4天后,大陸通知全世界,統(tǒng)派大佬扛旗

素年文史
2026-01-08 16:29:05
三個(gè)區(qū)縣破萬!這個(gè)計(jì)劃單列市,房價(jià)卷瘋了

三個(gè)區(qū)縣破萬!這個(gè)計(jì)劃單列市,房價(jià)卷瘋了

城市財(cái)經(jīng)
2026-01-09 11:53:16
42歲富婆下海體驗(yàn)生活?多田有花炫富式出道引爆全網(wǎng)!

42歲富婆下海體驗(yàn)生活?多田有花炫富式出道引爆全網(wǎng)!

碧波萬覽
2026-01-10 05:40:03
活久見!網(wǎng)傳河南一小學(xué)通知考試為“診斷”,網(wǎng)友:是某些人病了

活久見!網(wǎng)傳河南一小學(xué)通知考試為“診斷”,網(wǎng)友:是某些人病了

火山詩話
2026-01-09 07:56:38
郭艾倫回應(yīng)連9場缺席:腹股溝拉傷只能等 加盟廣州兩季只打13場

郭艾倫回應(yīng)連9場缺席:腹股溝拉傷只能等 加盟廣州兩季只打13場

醉臥浮生
2026-01-09 22:08:53
廣東4名干部被通報(bào)

廣東4名干部被通報(bào)

南粵女聲
2026-01-09 11:36:02
大補(bǔ)的魚,不是帶魚和鯽魚,而是這3種魚,常吃補(bǔ)腦又強(qiáng)免疫!

大補(bǔ)的魚,不是帶魚和鯽魚,而是這3種魚,常吃補(bǔ)腦又強(qiáng)免疫!

花小廚
2025-11-04 11:43:52
深表歉意!南通第一人民醫(yī)院釀嚴(yán)重事故!60歲胃病患者死于心臟手術(shù)

深表歉意!南通第一人民醫(yī)院釀嚴(yán)重事故!60歲胃病患者死于心臟手術(shù)

聲情專遞
2026-01-09 21:08:59
羅榮桓提議由賀龍擔(dān)任國防部長,毛主席聞言說道:還是讓賀老總出任軍委第二副主席吧

羅榮桓提議由賀龍擔(dān)任國防部長,毛主席聞言說道:還是讓賀老總出任軍委第二副主席吧

清風(fēng)鑒史
2025-12-27 19:37:17
霸氣,凱文·加內(nèi)特詳述他希望在森林狼隊(duì)扮演的新角色

霸氣,凱文·加內(nèi)特詳述他希望在森林狼隊(duì)扮演的新角色

好火子
2026-01-10 04:32:28
誰也救不了!不到48小時(shí),閆學(xué)晶再迎2大噩耗,或面臨巨額賠償

誰也救不了!不到48小時(shí),閆學(xué)晶再迎2大噩耗,或面臨巨額賠償

以茶帶書
2026-01-07 15:08:23
在家是斗不過老婆的受氣包,出門是韓國總統(tǒng),李在明綜藝?yán)锾阈?>
    </a>
        <h3>
      <a href=安寧007
2026-01-07 08:47:31
算力革命沖太空!2026太空算力15只核心龍頭卡位,名單速存

算力革命沖太空!2026太空算力15只核心龍頭卡位,名單速存

Thurman在昆明
2026-01-08 10:12:47
2026-01-10 07:15:00
硅星人 incentive-icons
硅星人
硅(Si)是創(chuàng)造未來的基礎(chǔ),歡迎來到這個(gè)星球。
2779文章數(shù) 10425關(guān)注度
往期回顧 全部

數(shù)碼要聞

AOC G-SYNC Pulsar顯示器AG276QSG2開售:QHD 360Hz,4999元

頭條要聞

特朗普:美扣押一艘離開委內(nèi)瑞拉油輪 石油將出售

頭條要聞

特朗普:美扣押一艘離開委內(nèi)瑞拉油輪 石油將出售

體育要聞

金元時(shí)代最后的外援,來中國8年了

娛樂要聞

關(guān)曉彤鹿晗風(fēng)波后露面 不受影響狀態(tài)佳

財(cái)經(jīng)要聞

投資必看!瑞銀李萌給出3大核心配置建議

科技要聞

市場偏愛MiniMax:開盤漲42%,市值超700億

汽車要聞

助跑三年的奇瑞 接下來是加速還是起跳?

態(tài)度原創(chuàng)

游戲
數(shù)碼
親子
旅游
公開課

怎么會(huì)有游戲上來就說自己的新服活不過10天???"/> 主站 商城 論壇 自運(yùn)營 登錄 注冊(cè) 怎么會(huì)有游戲上來就說自己的新服活不過10天??? 廉頗 202...

數(shù)碼要聞

銘凡CES 2026新聞稿提及英特爾酷睿Ultra 9 290HX Plus處理器

親子要聞

“國學(xué)馴化”從娃娃抓起?

旅游要聞

想看霧凇別瞎跑!吉林阿什哈達(dá)這 5 個(gè)觀賞秘訣,幫你避開空跑遺憾

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版