網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

開源和閉源模型的差距在拉大：這是 DeepSeek 論文揭示的殘酷真相

2025-12-07 09:58:22　來源: 硅星人

北京舉報(bào)

分享至

12月2日，DeepSeek 發(fā)布了 V3.2 技術(shù)報(bào)告。在這篇論文里，他們做了一件罕見的事：明確指出開源大模型與閉源模型的性能差距不是在縮小，而是在擴(kuò)大。

這是基于大量實(shí)測(cè)數(shù)據(jù)的冷靜判斷。

差距正在拉大，這是事實(shí)

2024年，當(dāng) DeepSeek、Qwen、GLM 等開源模型接連發(fā)布時(shí)，社區(qū)充滿樂觀情緒。"8個(gè)月時(shí)間差"的說法廣為流傳，許多人相信開源正在追上閉源。但進(jìn)入2025年，情況發(fā)生了變化。

DeepSeek 在論文引言部分直言不諱地寫道：“過去幾個(gè)月出現(xiàn)了明顯的分化。雖然開源社區(qū)持續(xù)進(jìn)步，但閉源專有模型的性能提升速度顯著更快。結(jié)果是，兩者的差距非但沒有縮小，反而在擴(kuò)大，閉源系統(tǒng)在復(fù)雜任務(wù)上展現(xiàn)出越來越強(qiáng)的優(yōu)勢(shì)?！?/p>

這個(gè)觀察有數(shù)據(jù)支撐。論文對(duì)比了 DeepSeek V3.2 與 GPT-5、Gemini 3.0 Pro 在多個(gè)基準(zhǔn)測(cè)試上的表現(xiàn)。在 MMLU-Pro（多學(xué)科知識(shí)測(cè)試）中，DeepSeek V3.2 得分 85.0，GPT-5 是 87.5，而 Gemini 3.0 Pro 達(dá)到了 90.1。在 GPQA Diamond（研究生級(jí)別科學(xué)問題）測(cè)試中，三者的得分分別是 82.4、85.7 和 91.9。

更明顯的差距體現(xiàn)在 HLE（Human Last Exam，極難的文本推理測(cè)試）中。DeepSeek V3.2 的得分是 25.1，GPT-5 是 26.3，而 Gemini 3.0 Pro 高達(dá) 37.7——這個(gè)差距已經(jīng)不是"接近"能形容的了。

值得注意的是，DeepSeek V3.2 已經(jīng)是目前最強(qiáng)的開源模型，在大部分開源模型的對(duì)比中都處于領(lǐng)先位置。但即便如此，它與頂級(jí)閉源模型之間仍然存在明顯差距，尤其是在需要深度推理和復(fù)雜任務(wù)處理的場(chǎng)景中。

差距為何在拉大？三個(gè)結(jié)構(gòu)性問題

論文通過系統(tǒng)分析，識(shí)別出限制開源模型在復(fù)雜任務(wù)上能力的三個(gè)關(guān)鍵缺陷。這些不是表面問題，而是深層次的結(jié)構(gòu)性困境。

第一個(gè)問題在于架構(gòu)層面。

開源模型普遍依賴傳統(tǒng)的 vanilla attention 機(jī)制，這種機(jī)制在處理長(zhǎng)序列時(shí)效率極低。

論文指出，這種架構(gòu)上的依賴"嚴(yán)重限制了長(zhǎng)序列的效率，對(duì)可擴(kuò)展部署和有效的后訓(xùn)練構(gòu)成了實(shí)質(zhì)性障礙"。當(dāng)閉源模型已經(jīng)在探索更高效的注意力機(jī)制時(shí)，開源模型還在用五年前的技術(shù)架構(gòu)，這本身就是一個(gè)巨大的劣勢(shì)。

第二個(gè)問題是資源投入的鴻溝，尤其體現(xiàn)在后訓(xùn)練階段。

后訓(xùn)練是讓模型從"會(huì)說話"變成"會(huì)思考"的關(guān)鍵環(huán)節(jié)，需要通過強(qiáng)化學(xué)習(xí)讓模型學(xué)會(huì)推理、工具使用和遵循復(fù)雜指令。論文透露，DeepSeek V3.2 的后訓(xùn)練計(jì)算預(yù)算超過了預(yù)訓(xùn)練成本的 10%。要知道，預(yù)訓(xùn)練本身就是天價(jià)投入，而大部分開源模型的后訓(xùn)練預(yù)算可能連 1% 都不到。這種資源投入上的差距，直接導(dǎo)致了性能上的代際差異。

第三個(gè)問題是 AI Agent 能力的滯后。

在真實(shí)應(yīng)用場(chǎng)景中，開源模型的泛化能力和指令理解能力明顯落后。論文引用了三個(gè)關(guān)鍵的 Agent 測(cè)評(píng)基準(zhǔn)：在 MCP-Mark 中，DeepSeek V3.2 得分 45.9，Gemini 3.0 Pro 是 51.0；在 MCP-Universe 中，前者是 80.3，后者是 87.9；在 Tool-Decathlon 中，差距更加明顯。這些數(shù)字背后反映的是開源模型在復(fù)雜多輪交互、工具調(diào)用、長(zhǎng)期規(guī)劃等場(chǎng)景下的能力不足。

論文總結(jié)道："開源模型在泛化能力和指令跟隨能力方面展現(xiàn)出明顯滯后，這阻礙了它們?cè)趯?shí)際部署中的有效性。"這是一個(gè)誠(chéng)實(shí)且殘酷的判斷。

DeepSeek 的應(yīng)對(duì)：技術(shù)路線的根本性改變

認(rèn)識(shí)到問題后，DeepSeek 沒有選擇簡(jiǎn)單地堆砌參數(shù)或增加數(shù)據(jù)量，而是在三個(gè)核心維度上進(jìn)行了根本性的技術(shù)創(chuàng)新。

在架構(gòu)層面，DeepSeek 引入了 DSA（DeepSeek Sparse Attention）機(jī)制。

傳統(tǒng)注意力機(jī)制的計(jì)算復(fù)雜度是 O(L2)，序列長(zhǎng)度翻倍，計(jì)算量就要翻四倍。DSA 通過"閃電索引器"（Lightning Indexer）快速計(jì)算每個(gè) token 的重要性評(píng)分，然后只選擇 top-k 個(gè)最重要的 token 參與注意力計(jì)算（論文中 k=2048），將復(fù)雜度從 O(L2) 降至 O(L×k)。

這個(gè)改進(jìn)不僅僅是理論上的優(yōu)化。論文通過實(shí)測(cè)數(shù)據(jù)表明，在 128K 上下文長(zhǎng)度下，DSA 大幅降低了推理成本，而性能幾乎沒有損失。更令人意外的是，在 AA-LCR（長(zhǎng)文本推理基準(zhǔn)）和 Fiction.liveBench（小說理解測(cè)試）中，V3.2 的表現(xiàn)甚至優(yōu)于使用傳統(tǒng)注意力機(jī)制的 V3.1。這證明 DSA 不僅更快，在某些場(chǎng)景下質(zhì)量還更好。

在資源投入層面，DeepSeek 做出了超常規(guī)的決定。

論文明確寫道："近幾個(gè)月來，性能提升與擴(kuò)展的 RL 訓(xùn)練預(yù)算持續(xù)相關(guān)，該預(yù)算已超過預(yù)訓(xùn)練成本的 10%。"這個(gè)數(shù)字在開源界極為罕見。具體來說，DeepSeek 為數(shù)學(xué)、編程、推理、Agent 等六大領(lǐng)域分別訓(xùn)練了專家模型，每個(gè)都單獨(dú)進(jìn)行大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練。在持續(xù)預(yù)訓(xùn)練階段，模型經(jīng)歷了 943.7B tokens 的訓(xùn)練（在 128K 上下文長(zhǎng)度下），然后采用 GRPO（Group Relative Policy Optimization）算法進(jìn)行混合訓(xùn)練，整合推理、Agent 和人類對(duì)齊三類任務(wù)。

在 Agent 能力強(qiáng)化方面，DeepSeek 開發(fā)了系統(tǒng)化的任務(wù)合成流程。

他們合成了超過 1800 個(gè)多樣化環(huán)境和 85,000 條復(fù)雜提示，涵蓋各種真實(shí)場(chǎng)景。具體包括 24,667 個(gè)代碼 Agent 任務(wù)、50,275 個(gè)搜索 Agent 任務(wù)、4,417 個(gè)通用 Agent 任務(wù)和 5,908 個(gè)代碼解釋器任務(wù)。這些合成數(shù)據(jù)不是隨機(jī)生成的，而是通過冷啟動(dòng)階段學(xué)習(xí)推理與工具使用的統(tǒng)一模式，然后在規(guī)模化階段系統(tǒng)地生成高質(zhì)量訓(xùn)練場(chǎng)景。

效果是顯著的。在 Agent 相關(guān)的測(cè)試中，DeepSeek V3.2 顯著縮小了與閉源模型的差距，在 MCP-Universe 上達(dá)到了 80.3% 的成功率，雖然仍低于 Gemini 的 87.9%，但已經(jīng)是開源模型中的最佳表現(xiàn)。論文總結(jié)說：“DeepSeek V3.2 成為 Agent 場(chǎng)景中極具成本效益的選擇，顯著縮小了開源與前沿閉源模型之間的性能差距?！?/p>

論文最后寫了一句耐人尋味的話："如果 Gemini 3.0 證明了持續(xù)擴(kuò)展預(yù)訓(xùn)練的潛力，DeepSeek V3.2-Speciale 則證明了在大規(guī)模上下文環(huán)境中強(qiáng)化學(xué)習(xí)的可擴(kuò)展性。"言下之意很明顯：閉源巨頭有資源堆預(yù)訓(xùn)練，但開源可以找到自己的路——通過更高效的架構(gòu)和更科學(xué)的后訓(xùn)練，用更少的資源實(shí)現(xiàn)接近的效果。

這或許是開源 AI 唯一的生存之道：不是硬碰硬拼資源，而是拼技術(shù)路線的創(chuàng)新。至少在這一次，DeepSeek 證明了這條路是走得通的。

論文鏈接：https://arxiv.org/html/2512.02556v1

整理：周華香

點(diǎn)個(gè)“愛心”，再走吧

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.