国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

DeepSeek-V3.2系列最新開源,性能直接對(duì)標(biāo)Gemini-3.0-Pro

0
分享至


來源:轉(zhuǎn)載自 量子位 | 公眾號(hào) QbitAI

衡宇 發(fā)自 奧特賽德

突襲!

ChatGPT發(fā)布三周年,DeepSeek嚯一下發(fā)出兩個(gè)模型:

  • DeepSeek-V3.2

  • DeepSeek-V3.2-Speciale

前者聚焦平衡實(shí)用,適用于日常問答、通用Agent任務(wù)、真實(shí)應(yīng)用場(chǎng)景下的工具調(diào)用。

推理達(dá)GPT-5水平,略低于Gemini-3.0-Pro。

后者主打極致推理,推理基準(zhǔn)性能媲美Gemini-3.0-Pro。

還一把斬獲IMO 2025、CMO 2025、ICPC World Finals 2025、IOI 2025金牌。

劃重點(diǎn),ICPC達(dá)到人類選手第二、IOI人類選手第十名水平。


具體來說,DeepSeek-V3.2側(cè)重于平衡推理能力與輸出長(zhǎng)度,降低計(jì)算開銷。

DeepSeek官微推文中寫道,“DeepSeek-V3.2模型在Agent評(píng)測(cè)中達(dá)到了當(dāng)前開源模型的最高水平”。

該模型其他情況如下:

  • 推理能力比肩GPT-5;

  • 相比Kimi-K2-Thinking大幅縮短輸出長(zhǎng)度,減少用戶等待時(shí)間;

  • DeepSeek旗下首個(gè)“思考融入工具調(diào)用” 的模型,支持思考/非思考雙模式工具調(diào)用;

  • 基于1800+環(huán)境、85000+復(fù)雜指令的大規(guī)模Agent訓(xùn)練數(shù)據(jù),泛化能力強(qiáng)。

下圖展示的是DeepSeek-V3.2與其他模型在各類Agent工具調(diào)用評(píng)測(cè)集上的得分

——特別強(qiáng)調(diào),DeepSeek-V3.2并沒有針對(duì)這些測(cè)試集的工具做特殊訓(xùn)練。


DeepSeek-V3.2-Speciale是DeepSeek-V3.2的長(zhǎng)思考增強(qiáng)版,融合了DeepSeek-Math-V2的定理證明能力。

在指令跟隨、數(shù)學(xué)證明、邏輯驗(yàn)證方面,DeepSeek-V3.2-Speciale能力出眾,推薦用來完成高度復(fù)雜數(shù)學(xué)推理、編程競(jìng)賽、學(xué)術(shù)研究類任務(wù)。

特別注明!這個(gè)版本目前沒有針對(duì)日常對(duì)話與寫作做專項(xiàng)優(yōu)化。

而且僅供研究使用,不支持工具調(diào)用。

在高度復(fù)雜任務(wù)上,Speciale模型大幅優(yōu)于標(biāo)準(zhǔn)版本,但消耗的Tokens也顯著更多,成本更高。


目前,DeepSeek的App和Web端,都已經(jīng)更新為正式版DeepSeek-V3.2;Speciale版本目前僅供臨時(shí)API使用。

模型發(fā)布同時(shí),技術(shù)報(bào)告也已經(jīng)掛出來了。

論文里透露的技術(shù)細(xì)節(jié)相當(dāng)硬核:

新的稀疏注意力機(jī)制DSA大幅降低計(jì)算復(fù)雜度,強(qiáng)化學(xué)習(xí)訓(xùn)練的計(jì)算量超過預(yù)訓(xùn)練的10%,還有全新的大規(guī)模Agent任務(wù)合成管線……

具體情況,我們?cè)敿?xì)來看。

提出DSA高效稀疏注意力機(jī)制,長(zhǎng)文本不再是負(fù)擔(dān)

DeepSeek-V3.2最大的架構(gòu)創(chuàng)新是引入了DSA(DeepSeek Sparse Attention)機(jī)制。

傳統(tǒng)的注意力機(jī)制在處理長(zhǎng)序列時(shí)計(jì)算復(fù)雜度是O(L2),嚴(yán)重制約了模型的部署效率和后續(xù)訓(xùn)練的可擴(kuò)展性。

DSA讓計(jì)算復(fù)雜度降低到O(L·k),k遠(yuǎn)小于L。

與此同時(shí),DSA讓模型在長(zhǎng)上下文任務(wù)中顯著加速推理,且無明顯性能損失。

支持FP8精度,適配MLA(Multi-Query Attention)架構(gòu),訓(xùn)練友好。


怎么做到的?

DSA主要包含兩個(gè)組件,一個(gè)叫l(wèi)ightning indexer(閃電索引器),另一個(gè)叫fine-grained token selection(細(xì)粒度token選擇)機(jī)制。

閃電索引器負(fù)責(zé)快速計(jì)算查詢token和歷史token之間的相關(guān)性分?jǐn)?shù),然后只選擇top-k個(gè)最相關(guān)的token進(jìn)行注意力計(jì)算。

團(tuán)隊(duì)特意選用了ReLU激活函數(shù)來提升吞吐量。

DeepSeek-V3.1-Terminus開始繼續(xù)訓(xùn)練時(shí),團(tuán)隊(duì)采用了兩階段策略。

第一階段是Dense Warm-up,保持密集注意力,只訓(xùn)練lightning indexer,讓它學(xué)會(huì)對(duì)齊主注意力的分布。

這個(gè)階段只用了1000步,處理了21億個(gè)tokens。

第二階段才引入稀疏機(jī)制,每個(gè)查詢token選擇2048個(gè)鍵值對(duì),訓(xùn)練了15000步,總共處理了9437億個(gè)tokens。

實(shí)測(cè)效果相當(dāng)給力——

在128k長(zhǎng)度的序列上,DeepSeek-V3.2的推理成本比V3.1-Terminus降低了好幾倍。

H800集群上的測(cè)試顯示,當(dāng)序列長(zhǎng)度達(dá)到128K時(shí),預(yù)填充階段每百萬(wàn)token的成本從0.7美元降到了0.2美元左右,解碼階段從2.4美元降到了0.8美元。


后訓(xùn)練算力超過預(yù)訓(xùn)練的10%

值得注意的是,DeepSeek團(tuán)隊(duì)這次在強(qiáng)化學(xué)習(xí)上下了血本。

論文里明確提到,RL訓(xùn)練的計(jì)算預(yù)算已經(jīng)超過了預(yù)訓(xùn)練成本的10%,這在開源模型里相當(dāng)罕見。


DeepSeek在技術(shù)報(bào)告中提到,開源模型在post-training階段的計(jì)算資源投入不足,限制了其在困難任務(wù)上的性能。

為此,團(tuán)隊(duì)開發(fā)了穩(wěn)定、可擴(kuò)展的RL協(xié)議,使訓(xùn)練后階段的計(jì)算預(yù)算超過了預(yù)訓(xùn)練成本的10%,從而解鎖了模型的先進(jìn)能力。

展開講講——

為了穩(wěn)定地?cái)U(kuò)展RL計(jì)算規(guī)模,團(tuán)隊(duì)在GRPO(Group Relative Policy Optimization)算法基礎(chǔ)上做了好幾項(xiàng)改進(jìn)。

首先是無偏KL估計(jì),修正了原始的K3估計(jì)器,消除了系統(tǒng)性誤差。

原來的估計(jì)器在某些情況下會(huì)給出無界的梯度權(quán)重,導(dǎo)致訓(xùn)練不穩(wěn)定。

其次是離線序列掩碼策略。

在實(shí)際訓(xùn)練中,為了提高效率通常會(huì)生成大批量的rollout數(shù)據(jù),然后分成多個(gè)mini-batch進(jìn)行梯度更新。這種做法本身就引入了off-policy行為。

團(tuán)隊(duì)通過計(jì)算數(shù)據(jù)采樣策略和當(dāng)前策略之間的KL散度,把那些偏離太遠(yuǎn)的負(fù)樣本序列給mask掉,避免它們干擾訓(xùn)練。

團(tuán)隊(duì)還特別針對(duì)MoE模型設(shè)計(jì)了Keep Routing操作。

推理框架和訓(xùn)練框架的實(shí)現(xiàn)差異可能導(dǎo)致同樣的輸入激活不同的專家,這會(huì)造成參數(shù)空間的突變。通過保存推理時(shí)的路由路徑并在訓(xùn)練時(shí)強(qiáng)制使用相同路徑,確保了參數(shù)優(yōu)化的一致性。

在具體訓(xùn)練上,團(tuán)隊(duì)采用了專家蒸餾的策略。

先為每個(gè)任務(wù)訓(xùn)練專門的模型,包括數(shù)學(xué)、編程、通用邏輯推理、通用Agent任務(wù)、Agent編程和Agent搜索這6個(gè)領(lǐng)域,每個(gè)領(lǐng)域都支持思考和非思考兩種模式。

然后用這些專家模型生成特定領(lǐng)域的數(shù)據(jù)來訓(xùn)練最終模型。


Agent能力的突破

此外,此次新模型在Agent任務(wù)上的突破也讓人眼前一亮。

這次團(tuán)隊(duì)找到了讓模型同時(shí)具備推理和工具使用能力的方法。


在思考上下文管理方面,團(tuán)隊(duì)發(fā)現(xiàn)DeepSeek-R1那種每次開啟新對(duì)話就丟棄推理內(nèi)容的策略,實(shí)在是太——浪費(fèi)token了。

于是設(shè)計(jì)了新的管理機(jī)制:

只有在引入新的用戶消息時(shí)才丟棄歷史推理內(nèi)容,如果只是添加工具相關(guān)消息,推理內(nèi)容會(huì)被保留。即使推理痕跡被刪除,工具調(diào)用歷史和結(jié)果也會(huì)保留在上下文中。

冷啟動(dòng)階段,DeepSeek-V3.2團(tuán)隊(duì)采用了巧妙的prompt設(shè)計(jì)。

團(tuán)隊(duì)通過精心設(shè)計(jì)的系統(tǒng)提示,讓模型學(xué)會(huì)在推理過程中自然地插入工具調(diào)用。

比如在處理編程競(jìng)賽題目時(shí),系統(tǒng)會(huì)明確要求模型先思考再給出答案,并用特殊標(biāo)簽標(biāo)記推理路徑。

最硬核的是團(tuán)隊(duì)開發(fā)了一個(gè)自動(dòng)環(huán)境合成pipeline,生成了1827個(gè)任務(wù)導(dǎo)向的環(huán)境和85000個(gè)復(fù)雜提示。

以旅行規(guī)劃為例,模型需要在滿足各種約束條件下規(guī)劃三天的行程,包括不重復(fù)城市、根據(jù)酒店價(jià)格調(diào)整餐廳和景點(diǎn)預(yù)算等復(fù)雜邏輯。



雖然在巨大的組合空間中找到滿足所有約束的方案很困難,但驗(yàn)證給定方案是否滿足約束相對(duì)簡(jiǎn)單,這種”難解易驗(yàn)”的特性非常適合RL訓(xùn)練。

在代碼Agent方面,團(tuán)隊(duì)從GitHub挖掘了數(shù)百萬(wàn)個(gè)issue-PR對(duì),經(jīng)過嚴(yán)格篩選和自動(dòng)環(huán)境構(gòu)建,成功搭建了數(shù)萬(wàn)個(gè)可執(zhí)行的軟件問題解決環(huán)境,涵蓋Python、Java、JavaScript等多種語(yǔ)言。

搜索Agent則采用多Agentpipeline生成訓(xùn)練數(shù)據(jù),先從大規(guī)模網(wǎng)絡(luò)語(yǔ)料中采樣長(zhǎng)尾實(shí)體,再通過問題構(gòu)建、答案生成和驗(yàn)證等步驟產(chǎn)生高質(zhì)量數(shù)據(jù)。

評(píng)測(cè)結(jié)果顯示,DeepSeek-V3.2在SWE-Verified上達(dá)到73.1%的解決率,在Terminal Bench 2.0上準(zhǔn)確率46.4%,都大幅超越了現(xiàn)有開源模型。

在MCP-Universe和Tool-Decathlon等工具使用基準(zhǔn)測(cè)試上,DeepSeek-V3.2也展現(xiàn)出了接近閉源模型的性能。

這些提升,證明了模型能夠?qū)⑼评聿呗苑夯接?xùn)練時(shí)未見過的Agent場(chǎng)景。


One More Thing

技術(shù)報(bào)告最后,研究人員坦誠(chéng)地指出了一些局限性。

由于總訓(xùn)練FLOPs較少,DeepSeek-V3.2的世界知識(shí)廣度仍落后于領(lǐng)先的閉源模型。

Token效率也是個(gè)挑戰(zhàn)。通常情況下,本次上新的兩個(gè)模型需要生成更長(zhǎng)的軌跡,才能達(dá)到Gemini-3.0-Pro的輸出質(zhì)量。

但團(tuán)隊(duì)發(fā)話了,這些都是未來版本的改進(jìn)方向。

不過——

DeepSeek啊DeepSeek,我們心心念念的R2,什么時(shí)候給抬上來啊?。。。?/strong>

閱讀最新前沿科技趨勢(shì)報(bào)告,請(qǐng)?jiān)L問歐米伽研究所的“未來知識(shí)庫(kù)”

https://wx.zsxq.com/group/454854145828


未來知識(shí)庫(kù)是“ 歐米伽 未來研究所”建立的在線知識(shí)庫(kù)平臺(tái),收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級(jí)智能,數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險(xiǎn)等等領(lǐng)域的前沿進(jìn)展與未來趨勢(shì)。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進(jìn)入。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
2026 社保新規(guī)落地,靈活就業(yè)群體迎福利,為啥有人歡喜有人怒?

2026 社保新規(guī)落地,靈活就業(yè)群體迎福利,為啥有人歡喜有人怒?

今朝牛馬
2025-12-27 22:15:13
拔出蘿卜帶出泥!南博前院長(zhǎng)被帶走2天后,龐叔令以證人身份現(xiàn)身

拔出蘿卜帶出泥!南博前院長(zhǎng)被帶走2天后,龐叔令以證人身份現(xiàn)身

生活魔術(shù)專家
2025-12-27 15:21:03
絕殺東部第一!喬治31分7板8助,馬卡30分,CC空砍29分5板17助

絕殺東部第一!喬治31分7板8助,馬卡30分,CC空砍29分5板17助

無術(shù)不學(xué)
2025-12-27 13:35:19
她16歲帶病奪冠,退役后定居美國(guó),嫁美國(guó)帥哥,如今已當(dāng)上大老板

她16歲帶病奪冠,退役后定居美國(guó),嫁美國(guó)帥哥,如今已當(dāng)上大老板

知鑒明史
2025-12-14 10:10:02
整容臉又?jǐn)D進(jìn)央視???網(wǎng)友點(diǎn)評(píng):饅頭臉、香腸唇,別來禍害觀眾了

整容臉又?jǐn)D進(jìn)央視劇?網(wǎng)友點(diǎn)評(píng):饅頭臉、香腸唇,別來禍害觀眾了

冷紫葉
2025-12-26 17:10:59
必須得到格陵蘭!特朗普下令強(qiáng)取,全歐洲炸鍋,北極一夜成火藥桶

必須得到格陵蘭!特朗普下令強(qiáng)取,全歐洲炸鍋,北極一夜成火藥桶

叮當(dāng)當(dāng)科技
2025-12-27 14:25:36
林子祥葉蒨文上海壓馬路!78歲白發(fā)蒼蒼卻牽手依舊!

林子祥葉蒨文上海壓馬路!78歲白發(fā)蒼蒼卻牽手依舊!

娛樂領(lǐng)航家
2025-12-25 22:00:03
馬斯克再放神預(yù)言,中日關(guān)系緊張之際,直接為日本未來定調(diào)

馬斯克再放神預(yù)言,中日關(guān)系緊張之際,直接為日本未來定調(diào)

趣味萌寵的日常
2025-12-26 07:57:26
烏克蘭最美體操冠軍,放棄國(guó)籍做中國(guó)媳婦,37歲生二胎仍似少女

烏克蘭最美體操冠軍,放棄國(guó)籍做中國(guó)媳婦,37歲生二胎仍似少女

相思賦予誰(shuí)a
2025-12-10 02:34:18
玥兒箖箖驚喜出鏡,馬筱梅圣誕家中待客,倆孩子已有新的社交圈

玥兒箖箖驚喜出鏡,馬筱梅圣誕家中待客,倆孩子已有新的社交圈

調(diào)侃國(guó)際觀點(diǎn)
2025-12-26 20:11:11
貴金屬“瘋狂”,現(xiàn)貨白銀漲超10%,紐約鈀金漲14.1%,現(xiàn)貨黃金漲超1%!上期所連發(fā)兩條通知

貴金屬“瘋狂”,現(xiàn)貨白銀漲超10%,紐約鈀金漲14.1%,現(xiàn)貨黃金漲超1%!上期所連發(fā)兩條通知

每日經(jīng)濟(jì)新聞
2025-12-27 07:25:05
好萊塢女星吞槍自殺,吸毒成癮負(fù)債累累,20年沒拍戲靠撫養(yǎng)費(fèi)生存

好萊塢女星吞槍自殺,吸毒成癮負(fù)債累累,20年沒拍戲靠撫養(yǎng)費(fèi)生存

比利
2025-12-27 13:11:35
王俊凱自從不火之后,好像面相都變了!近照曝光,眼袋腫沒精神氣

王俊凱自從不火之后,好像面相都變了!近照曝光,眼袋腫沒精神氣

小娛樂悠悠
2025-12-27 08:59:35
尹力、殷勇到通州區(qū)調(diào)研,要求深刻把握建設(shè)現(xiàn)代化人民城市的目標(biāo)定位,推動(dòng)城市副中心高質(zhì)量發(fā)展

尹力、殷勇到通州區(qū)調(diào)研,要求深刻把握建設(shè)現(xiàn)代化人民城市的目標(biāo)定位,推動(dòng)城市副中心高質(zhì)量發(fā)展

新京報(bào)
2025-12-27 21:56:04
三種姿勢(shì)過夫妻生活,更容易懷孕?頻次過高,精子質(zhì)量差?

三種姿勢(shì)過夫妻生活,更容易懷孕?頻次過高,精子質(zhì)量差?

資說
2025-12-07 10:31:03
深圳創(chuàng)投圈“搶人”實(shí)錄:機(jī)構(gòu)蹲守大疆樓下,離職就拿2000萬(wàn)

深圳創(chuàng)投圈“搶人”實(shí)錄:機(jī)構(gòu)蹲守大疆樓下,離職就拿2000萬(wàn)

財(cái)經(jīng)AI湃
2025-12-27 10:01:14
丈夫車禍去世,我凈身出戶5年后婆婆重病,我才明白一個(gè)眼神的含義

丈夫車禍去世,我凈身出戶5年后婆婆重病,我才明白一個(gè)眼神的含義

罪案洞察者
2025-12-27 11:09:20
一文看懂航天衛(wèi)星產(chǎn)業(yè)鏈:五大核心環(huán)節(jié)企業(yè)占據(jù)核心位置(附名單

一文看懂航天衛(wèi)星產(chǎn)業(yè)鏈:五大核心環(huán)節(jié)企業(yè)占據(jù)核心位置(附名單

Thurman在昆明
2025-12-28 00:31:39
60歲知名港星近況曝光身形暴瘦,用拐杖彎腰走路被指像老翁

60歲知名港星近況曝光身形暴瘦,用拐杖彎腰走路被指像老翁

粵睇先生
2025-12-28 03:31:07
為什么中國(guó)人換電池,從來不用想?

為什么中國(guó)人換電池,從來不用想?

華商韜略
2025-12-27 11:58:06
2025-12-28 05:44:49
人工智能學(xué)家 incentive-icons
人工智能學(xué)家
人工智能領(lǐng)域權(quán)威媒體
4423文章數(shù) 37357關(guān)注度
往期回顧 全部

科技要聞

小米也漲價(jià)了!業(yè)界稱終端再不漲明年必虧

頭條要聞

美媒:特朗普顯然觸及了中國(guó)的紅線 中方怒了

頭條要聞

美媒:特朗普顯然觸及了中國(guó)的紅線 中方怒了

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂要聞

張昊唯逃稅涉黃風(fēng)波落幕:法院認(rèn)定朋友造謠

財(cái)經(jīng)要聞

注意,開始拉物價(jià)了!

汽車要聞

好音響比大屏更重要?車企開始“聽”用戶的

態(tài)度原創(chuàng)

游戲
時(shí)尚
健康
家居
軍事航空

我真幸運(yùn):《泰拉瑞亞》1.4.5更新定檔1月份!

穿好雪地靴的4個(gè)訣竅,還挺有效!

這些新療法,讓化療不再那么痛苦

家居要聞

格調(diào)時(shí)尚 智慧品質(zhì)居所

軍事要聞

俄稱已控制庫(kù)皮揚(yáng)斯克 正清繳烏軍

無障礙瀏覽 進(jìn)入關(guān)懷版