国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

開源和閉源模型的差距在拉大:這是 DeepSeek 論文揭示的殘酷真相

0
分享至


12月2日,DeepSeek 發(fā)布了 V3.2 技術(shù)報(bào)告。在這篇論文里,他們做了一件罕見的事:明確指出開源大模型與閉源模型的性能差距不是在縮小,而是在擴(kuò)大。

這是基于大量實(shí)測(cè)數(shù)據(jù)的冷靜判斷。

1

差距正在拉大,這是事實(shí)

2024年,當(dāng) DeepSeek、Qwen、GLM 等開源模型接連發(fā)布時(shí),社區(qū)充滿樂觀情緒。"8個(gè)月時(shí)間差"的說法廣為流傳,許多人相信開源正在追上閉源。但進(jìn)入2025年,情況發(fā)生了變化。

DeepSeek 在論文引言部分直言不諱地寫道:“過去幾個(gè)月出現(xiàn)了明顯的分化。雖然開源社區(qū)持續(xù)進(jìn)步,但閉源專有模型的性能提升速度顯著更快。結(jié)果是,兩者的差距非但沒有縮小,反而在擴(kuò)大,閉源系統(tǒng)在復(fù)雜任務(wù)上展現(xiàn)出越來越強(qiáng)的優(yōu)勢(shì)?!?/p>

這個(gè)觀察有數(shù)據(jù)支撐。論文對(duì)比了 DeepSeek V3.2 與 GPT-5、Gemini 3.0 Pro 在多個(gè)基準(zhǔn)測(cè)試上的表現(xiàn)。在 MMLU-Pro(多學(xué)科知識(shí)測(cè)試)中,DeepSeek V3.2 得分 85.0,GPT-5 是 87.5,而 Gemini 3.0 Pro 達(dá)到了 90.1。在 GPQA Diamond(研究生級(jí)別科學(xué)問題)測(cè)試中,三者的得分分別是 82.4、85.7 和 91.9。


更明顯的差距體現(xiàn)在 HLE(Human Last Exam,極難的文本推理測(cè)試)中。DeepSeek V3.2 的得分是 25.1,GPT-5 是 26.3,而 Gemini 3.0 Pro 高達(dá) 37.7——這個(gè)差距已經(jīng)不是"接近"能形容的了。

值得注意的是,DeepSeek V3.2 已經(jīng)是目前最強(qiáng)的開源模型,在大部分開源模型的對(duì)比中都處于領(lǐng)先位置。但即便如此,它與頂級(jí)閉源模型之間仍然存在明顯差距,尤其是在需要深度推理和復(fù)雜任務(wù)處理的場(chǎng)景中。

1

差距為何在拉大?三個(gè)結(jié)構(gòu)性問題

論文通過系統(tǒng)分析,識(shí)別出限制開源模型在復(fù)雜任務(wù)上能力的三個(gè)關(guān)鍵缺陷。這些不是表面問題,而是深層次的結(jié)構(gòu)性困境。

第一個(gè)問題在于架構(gòu)層面。

開源模型普遍依賴傳統(tǒng)的 vanilla attention 機(jī)制,這種機(jī)制在處理長(zhǎng)序列時(shí)效率極低。

論文指出,這種架構(gòu)上的依賴"嚴(yán)重限制了長(zhǎng)序列的效率,對(duì)可擴(kuò)展部署和有效的后訓(xùn)練構(gòu)成了實(shí)質(zhì)性障礙"。當(dāng)閉源模型已經(jīng)在探索更高效的注意力機(jī)制時(shí),開源模型還在用五年前的技術(shù)架構(gòu),這本身就是一個(gè)巨大的劣勢(shì)。

第二個(gè)問題是資源投入的鴻溝,尤其體現(xiàn)在后訓(xùn)練階段。

后訓(xùn)練是讓模型從"會(huì)說話"變成"會(huì)思考"的關(guān)鍵環(huán)節(jié),需要通過強(qiáng)化學(xué)習(xí)讓模型學(xué)會(huì)推理、工具使用和遵循復(fù)雜指令。論文透露,DeepSeek V3.2 的后訓(xùn)練計(jì)算預(yù)算超過了預(yù)訓(xùn)練成本的 10%。要知道,預(yù)訓(xùn)練本身就是天價(jià)投入,而大部分開源模型的后訓(xùn)練預(yù)算可能連 1% 都不到。這種資源投入上的差距,直接導(dǎo)致了性能上的代際差異。

第三個(gè)問題是 AI Agent 能力的滯后。

在真實(shí)應(yīng)用場(chǎng)景中,開源模型的泛化能力和指令理解能力明顯落后。論文引用了三個(gè)關(guān)鍵的 Agent 測(cè)評(píng)基準(zhǔn):在 MCP-Mark 中,DeepSeek V3.2 得分 45.9,Gemini 3.0 Pro 是 51.0;在 MCP-Universe 中,前者是 80.3,后者是 87.9;在 Tool-Decathlon 中,差距更加明顯。這些數(shù)字背后反映的是開源模型在復(fù)雜多輪交互、工具調(diào)用、長(zhǎng)期規(guī)劃等場(chǎng)景下的能力不足。

論文總結(jié)道:"開源模型在泛化能力和指令跟隨能力方面展現(xiàn)出明顯滯后,這阻礙了它們?cè)趯?shí)際部署中的有效性。"這是一個(gè)誠(chéng)實(shí)且殘酷的判斷。

1

DeepSeek 的應(yīng)對(duì):技術(shù)路線的根本性改變

認(rèn)識(shí)到問題后,DeepSeek 沒有選擇簡(jiǎn)單地堆砌參數(shù)或增加數(shù)據(jù)量,而是在三個(gè)核心維度上進(jìn)行了根本性的技術(shù)創(chuàng)新。

在架構(gòu)層面,DeepSeek 引入了 DSA(DeepSeek Sparse Attention)機(jī)制。

傳統(tǒng)注意力機(jī)制的計(jì)算復(fù)雜度是 O(L2),序列長(zhǎng)度翻倍,計(jì)算量就要翻四倍。DSA 通過"閃電索引器"(Lightning Indexer)快速計(jì)算每個(gè) token 的重要性評(píng)分,然后只選擇 top-k 個(gè)最重要的 token 參與注意力計(jì)算(論文中 k=2048),將復(fù)雜度從 O(L2) 降至 O(L×k)。

這個(gè)改進(jìn)不僅僅是理論上的優(yōu)化。論文通過實(shí)測(cè)數(shù)據(jù)表明,在 128K 上下文長(zhǎng)度下,DSA 大幅降低了推理成本,而性能幾乎沒有損失。更令人意外的是,在 AA-LCR(長(zhǎng)文本推理基準(zhǔn))和 Fiction.liveBench(小說理解測(cè)試)中,V3.2 的表現(xiàn)甚至優(yōu)于使用傳統(tǒng)注意力機(jī)制的 V3.1。這證明 DSA 不僅更快,在某些場(chǎng)景下質(zhì)量還更好。


在資源投入層面,DeepSeek 做出了超常規(guī)的決定。

論文明確寫道:"近幾個(gè)月來,性能提升與擴(kuò)展的 RL 訓(xùn)練預(yù)算持續(xù)相關(guān),該預(yù)算已超過預(yù)訓(xùn)練成本的 10%。"這個(gè)數(shù)字在開源界極為罕見。具體來說,DeepSeek 為數(shù)學(xué)、編程、推理、Agent 等六大領(lǐng)域分別訓(xùn)練了專家模型,每個(gè)都單獨(dú)進(jìn)行大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練。在持續(xù)預(yù)訓(xùn)練階段,模型經(jīng)歷了 943.7B tokens 的訓(xùn)練(在 128K 上下文長(zhǎng)度下),然后采用 GRPO(Group Relative Policy Optimization)算法進(jìn)行混合訓(xùn)練,整合推理、Agent 和人類對(duì)齊三類任務(wù)。

在 Agent 能力強(qiáng)化方面,DeepSeek 開發(fā)了系統(tǒng)化的任務(wù)合成流程。

他們合成了超過 1800 個(gè)多樣化環(huán)境和 85,000 條復(fù)雜提示,涵蓋各種真實(shí)場(chǎng)景。具體包括 24,667 個(gè)代碼 Agent 任務(wù)、50,275 個(gè)搜索 Agent 任務(wù)、4,417 個(gè)通用 Agent 任務(wù)和 5,908 個(gè)代碼解釋器任務(wù)。這些合成數(shù)據(jù)不是隨機(jī)生成的,而是通過冷啟動(dòng)階段學(xué)習(xí)推理與工具使用的統(tǒng)一模式,然后在規(guī)模化階段系統(tǒng)地生成高質(zhì)量訓(xùn)練場(chǎng)景。

效果是顯著的。在 Agent 相關(guān)的測(cè)試中,DeepSeek V3.2 顯著縮小了與閉源模型的差距,在 MCP-Universe 上達(dá)到了 80.3% 的成功率,雖然仍低于 Gemini 的 87.9%,但已經(jīng)是開源模型中的最佳表現(xiàn)。論文總結(jié)說:“DeepSeek V3.2 成為 Agent 場(chǎng)景中極具成本效益的選擇,顯著縮小了開源與前沿閉源模型之間的性能差距?!?/p>

論文最后寫了一句耐人尋味的話:"如果 Gemini 3.0 證明了持續(xù)擴(kuò)展預(yù)訓(xùn)練的潛力,DeepSeek V3.2-Speciale 則證明了在大規(guī)模上下文環(huán)境中強(qiáng)化學(xué)習(xí)的可擴(kuò)展性。"言下之意很明顯:閉源巨頭有資源堆預(yù)訓(xùn)練,但開源可以找到自己的路——通過更高效的架構(gòu)和更科學(xué)的后訓(xùn)練,用更少的資源實(shí)現(xiàn)接近的效果。

這或許是開源 AI 唯一的生存之道:不是硬碰硬拼資源,而是拼技術(shù)路線的創(chuàng)新。至少在這一次,DeepSeek 證明了這條路是走得通的。


論文鏈接:https://arxiv.org/html/2512.02556v1

整理:周華香

點(diǎn)個(gè)愛心,再走 吧

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
26.6萬元起拍!曾以105.6萬元成交的“兇宅”再次上架,拍賣公司發(fā)聲

26.6萬元起拍!曾以105.6萬元成交的“兇宅”再次上架,拍賣公司發(fā)聲

封面新聞
2026-01-06 16:17:12
善惡有報(bào),2025年塌房的六大網(wǎng)紅,為了流量各種作妖,不值得同情

善惡有報(bào),2025年塌房的六大網(wǎng)紅,為了流量各種作妖,不值得同情

單手搓核彈
2026-01-06 14:04:34
北京的商場(chǎng),讓人回到了經(jīng)濟(jì)上行的時(shí)代

北京的商場(chǎng),讓人回到了經(jīng)濟(jì)上行的時(shí)代

朗玥
2026-01-06 19:10:14
公公六十大壽婆婆不讓我去,晚上丈夫來電:你快來,完事把錢付了

公公六十大壽婆婆不讓我去,晚上丈夫來電:你快來,完事把錢付了

紅豆講堂
2025-11-08 19:45:06
老馬?。夯鸺龖?yīng)交易賈巴里和謝潑德,并用換回的選秀權(quán)換特雷-楊

老馬?。夯鸺龖?yīng)交易賈巴里和謝潑德,并用換回的選秀權(quán)換特雷-楊

懂球帝
2026-01-07 12:14:29
太摳了!浙江一女子控訴,年薪四五十萬丈夫把公司發(fā)的牛奶拎回家

太摳了!浙江一女子控訴,年薪四五十萬丈夫把公司發(fā)的牛奶拎回家

火山詩話
2026-01-06 06:45:25
比整容還離譜!32歲白鹿錄制新綜藝,臉型撞于洋,造型丑到認(rèn)不出

比整容還離譜!32歲白鹿錄制新綜藝,臉型撞于洋,造型丑到認(rèn)不出

韓馳
2026-01-06 21:32:08
“毒奶”李莉等專家之所以馬杜羅判斷失誤,是因?yàn)樗鼈兊氖鼙娭幌矚g“喝奶”

“毒奶”李莉等專家之所以馬杜羅判斷失誤,是因?yàn)樗鼈兊氖鼙娭幌矚g“喝奶”

林中木白
2026-01-05 12:26:02
俄派潛艇為遭美攔截的油輪護(hù)航

俄派潛艇為遭美攔截的油輪護(hù)航

新華社
2026-01-07 10:27:05
曼聯(lián)巨頭解釋阿莫林下課理由,心態(tài)崩了必須換!臨時(shí)主帥兩人競(jìng)爭(zhēng)

曼聯(lián)巨頭解釋阿莫林下課理由,心態(tài)崩了必須換!臨時(shí)主帥兩人競(jìng)爭(zhēng)

羅米的曼聯(lián)博客
2026-01-07 11:47:07
Siegel:庫明加已經(jīng)打完勇士的最后一場(chǎng)比賽 交易已成定局

Siegel:庫明加已經(jīng)打完勇士的最后一場(chǎng)比賽 交易已成定局

北青網(wǎng)-北京青年報(bào)
2026-01-07 09:10:03
河北老人要凍出毛病了

河北老人要凍出毛病了

不正確
2026-01-06 16:20:40
中方高規(guī)格接待,李在明來京吃晚宴,關(guān)鍵時(shí)刻,平壤開始有新行動(dòng)

中方高規(guī)格接待,李在明來京吃晚宴,關(guān)鍵時(shí)刻,平壤開始有新行動(dòng)

阿七說史
2026-01-06 09:56:19
官媒發(fā)文,宗馥莉再破天花板,讓親叔宗澤后和整個(gè)商界沉默了

官媒發(fā)文,宗馥莉再破天花板,讓親叔宗澤后和整個(gè)商界沉默了

李健政觀察
2026-01-07 09:30:29
小米公關(guān)緊急道歉,一場(chǎng)丟臉的“鬧劇”!

小米公關(guān)緊急道歉,一場(chǎng)丟臉的“鬧劇”!

互聯(lián)網(wǎng)品牌官
2026-01-06 14:41:58
多地城投大降薪!

多地城投大降薪!

黯泉
2026-01-06 22:42:14
心臟裝了6個(gè)支架的王石日本看病實(shí)錄,值得深思

心臟裝了6個(gè)支架的王石日本看病實(shí)錄,值得深思

深度報(bào)
2026-01-01 23:17:29
西半球的暗影:從委內(nèi)瑞拉到哥倫比亞,美國(guó)的戰(zhàn)略野心與困境

西半球的暗影:從委內(nèi)瑞拉到哥倫比亞,美國(guó)的戰(zhàn)略野心與困境

南方都市報(bào)
2026-01-06 17:42:12
拆除馬到成功雕塑,是縱容文字獄式輿情

拆除馬到成功雕塑,是縱容文字獄式輿情

不主流講話
2026-01-06 08:51:34
西貝又上熱搜了,這次是因?yàn)榉?wù)員的工資條!

西貝又上熱搜了,這次是因?yàn)榉?wù)員的工資條!

王冠雄
2026-01-06 21:33:46
2026-01-07 12:35:00
硅星人 incentive-icons
硅星人
硅(Si)是創(chuàng)造未來的基礎(chǔ),歡迎來到這個(gè)星球。
2773文章數(shù) 10425關(guān)注度
往期回顧 全部

科技要聞

馬斯克殺瘋了!xAI官宣200億美元融資

頭條要聞

河北農(nóng)村居民:"煤改氣"后 160平空間燃?xì)赓M(fèi)最少8千元

頭條要聞

河北農(nóng)村居民:"煤改氣"后 160平空間燃?xì)赓M(fèi)最少8千元

體育要聞

全明星次輪票數(shù):東契奇票王 詹皇超KD升西部第8

娛樂要聞

2026年央視春晚彩排:沈騰確定回歸

財(cái)經(jīng)要聞

茅臺(tái)為何要和分銷商徹底說拜拜?

汽車要聞

蔚來2025百萬臺(tái)收官 一場(chǎng)遲到的自我修復(fù)

態(tài)度原創(chuàng)

數(shù)碼
家居
教育
游戲
軍事航空

數(shù)碼要聞

華碩推出AMD平臺(tái)MoDT游戲整機(jī)TUF TM500,至高銳龍7 260

家居要聞

寧靜不單調(diào) 恰到好處的美

教育要聞

果脯咋讀?噘嘴還是撅嘴?《咬文嚼字》發(fā)布“2025年十大語文差錯(cuò)”;快來看看,這些你都讀寫正確了嗎? #咬文嚼字 #語文 #讀音 #錯(cuò)別字

曾因暴力引爭(zhēng)議!賽車爽游新作上架PS5商店

軍事要聞

美稱對(duì)“占領(lǐng)”委內(nèi)瑞拉保留選擇權(quán)

無障礙瀏覽 進(jìn)入關(guān)懷版