国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

國產(chǎn)模型崛起!DeepSeek憑借創(chuàng)新架構(gòu)與工具思維,引領(lǐng)行業(yè)新潮流

0
分享至

1

大家好,這里是小銳的科技觀察專欄。今天我們要剖析的是2025年底大模型賽道上演的一場驚天逆轉(zhuǎn)——當(dāng)所有人都以為閉源時(shí)代將徹底封王之際,Google Gemini 3 Pro強(qiáng)勢登場,掀起“開源已至天花板”的輿論風(fēng)暴,仿佛開源陣營只能淪為技術(shù)演進(jìn)中的配角。

2

就在這一片唱衰聲中,DeepSeek于12月1日突然亮劍:其V3.2版本推理能力直逼GPT-5水準(zhǔn),而Speciale分支更是在國際數(shù)學(xué)奧林匹克競賽中斬獲金牌,得分高達(dá)35分。令人震驚的是,其所依賴的算力資源遠(yuǎn)遜于科技巨頭,這場逆襲究竟是偶然爆發(fā),還是揭示了開源突破閉源壁壘的深層密碼?



3

從“極限論”到“并跑證明”

4

回顧2025年的大模型格局,堪稱閉源體系的巔峰之年。隨著Gemini 3 Pro橫空出世,在多項(xiàng)權(quán)威基準(zhǔn)測試中全面壓制開源對(duì)手,原本關(guān)于“Scaling Law是否觸頂”的學(xué)術(shù)探討,迅速演變?yōu)樾袠I(yè)對(duì)“開源生存空間”的集體憂慮。

5

當(dāng)時(shí)近三成研究機(jī)構(gòu)對(duì)開源前景表示悲觀,有觀點(diǎn)甚至斷言:“開源只能承接閉源不愿深耕的邊緣場景?!闭窃谶@種壓抑氛圍下,DeepSeek的發(fā)布如同一道閃電劃破陰霾,重新點(diǎn)燃了整個(gè)生態(tài)的信心。



6

發(fā)布當(dāng)日,DeepSeek一口氣推出兩款核心模型:V3.2在復(fù)雜推理任務(wù)中與GPT-5比肩,雖稍弱于Gemini 3 Pro,但已穩(wěn)超Kimi K2 Thinking,創(chuàng)下國產(chǎn)開源模型的新高紀(jì)錄;

7

而Speciale則在數(shù)學(xué)證明、邏輯推導(dǎo)及多輪工具協(xié)同方面表現(xiàn)驚艷,IMO測試中以35分摘得金牌,這組硬核數(shù)據(jù)直接擊碎了“開源已達(dá)性能天花板”的迷思。



8

在算力投入明顯不占優(yōu)勢的前提下,竟能與頂級(jí)閉源模型同臺(tái)競技,意義遠(yuǎn)超單一性能突破。更重要的是,它向世界宣告:開源并非注定追隨,而是具備獨(dú)立進(jìn)化的可能性。

9

過去普遍認(rèn)為,開源唯有通過復(fù)制閉源路徑才能追趕,但DeepSeek用實(shí)證說明:無需盲目堆疊參數(shù)和計(jì)算資源,也能實(shí)現(xiàn)跨越式創(chuàng)新。而這背后所蘊(yùn)藏的,正是打破閉源壟斷的關(guān)鍵鑰匙。



10

架構(gòu)革新讓算力“花在刀刃上”

11

DeepSeek之所以能夠逆襲,根本原因不在規(guī)模擴(kuò)張,而在算力使用效率的革命性提升,這一點(diǎn)在其自研的稀疏注意力機(jī)制DSA(Dynamic Sparse Attention)中體現(xiàn)得淋漓盡致。

12

行業(yè)熟知的事實(shí)是,傳統(tǒng)Transformer架構(gòu)存在一個(gè)致命瓶頸:注意力運(yùn)算復(fù)雜度隨序列長度呈平方增長,處理長文本時(shí)極易引發(fā)算力崩塌,尤其是面對(duì)128K級(jí)別的上下文,成本急劇飆升。



13

DeepSeek的DSA架構(gòu)則引入了一種“智能篩選引擎”——即閃電索引器。該模塊采用FP8低精度運(yùn)行多個(gè)輕量級(jí)索引頭,快速識(shí)別輸入中最關(guān)鍵的token關(guān)聯(lián)對(duì),僅對(duì)這些核心片段進(jìn)行高精度精算,其余部分則跳過冗余計(jì)算。

14

經(jīng)此優(yōu)化,注意力機(jī)制的計(jì)算負(fù)擔(dān)由O(n2)降至接近線性O(shè)(n log n),即便處理超長文檔,系統(tǒng)負(fù)載依然保持平穩(wěn),極大釋放了長上下文的應(yīng)用潛力。



15

更為巧妙的是,DeepSeek并未貿(mào)然切換底層結(jié)構(gòu),而是設(shè)計(jì)了“密集預(yù)熱—稀疏過渡”雙階段訓(xùn)練流程:初期保留完整注意力模式,專注于訓(xùn)練索引器模擬原始行為;

16

待收斂后再逐步啟用稀疏連接,實(shí)現(xiàn)架構(gòu)遷移的無縫銜接。這種漸進(jìn)式策略既保障了模型穩(wěn)定性,又顯著提升了推理效率,在Fiction.liveBench等長文本測評(píng)中,V3.2的信息召回率與上下文連貫性均有明顯躍升。



17

除了架構(gòu)層面的突破,任務(wù)執(zhí)行邏輯的重構(gòu)也帶來了能效倍增。以往模型調(diào)用外部工具遵循“思考→調(diào)用→終止”的單向鏈條,每次交互都需重啟推理過程,造成大量token浪費(fèi)。

18

DeepSeek提出的“Thinking in Tool-Use”新范式,則構(gòu)建起“思考→調(diào)用→再思考→再調(diào)用”的閉環(huán)流程,將歷史推理軌跡持續(xù)保留在上下文中,工具返回新信息后可直接延續(xù)原有思維路徑。



19

實(shí)測數(shù)據(jù)顯示,企業(yè)利用V3.2批量處理工單時(shí),重復(fù)推理產(chǎn)生的token消耗下降約30%,因狀態(tài)丟失導(dǎo)致的邏輯中斷頻率也大幅降低。

20

正是這種“架構(gòu)+邏輯”的雙重升級(jí),徹底重塑了大模型的競爭維度:過去拼的是“誰更大”,如今比的是“誰更高效”與“誰更會(huì)思考”。DeepSeek已然成為這場效率革命的領(lǐng)航者。



21

Agent成為能力躍遷的核心引擎

22

如果說DSA架構(gòu)是支撐性能飛躍的“硬件底座”,那么將Agent從輔助功能升維為核心執(zhí)行中樞,則是DeepSeek最具戰(zhàn)略遠(yuǎn)見的布局,這一步不僅契合市場需求,更精準(zhǔn)踩中了開源落地的關(guān)鍵節(jié)點(diǎn)。

23

許多人尚未察覺,2025年的產(chǎn)業(yè)風(fēng)向已經(jīng)發(fā)生根本轉(zhuǎn)變:企業(yè)不再為“能聊天”的對(duì)話機(jī)器人買單,轉(zhuǎn)而青睞那些真正“能辦事”的智能體。



24

自動(dòng)生成報(bào)告、批量修復(fù)代碼缺陷、自動(dòng)化處理客戶服務(wù)請(qǐng)求——這些具備實(shí)際執(zhí)行力的功能,正成為AI商業(yè)變現(xiàn)的核心支柱。相關(guān)統(tǒng)計(jì)顯示,當(dāng)年企業(yè)對(duì)Agent類產(chǎn)品的付費(fèi)意愿同比增長達(dá)120%,遠(yuǎn)遠(yuǎn)甩開傳統(tǒng)對(duì)話模型的增長曲線。

25

DeepSeek早已洞察趨勢,在V3.2的研發(fā)中傾注大量資源打造Agent能力體系:構(gòu)建了1800個(gè)多樣化智能體仿真環(huán)境,生成85000條高難度任務(wù)指令,且全部由自動(dòng)化環(huán)境生成器與評(píng)分系統(tǒng)完成標(biāo)注,再結(jié)合強(qiáng)化學(xué)習(xí)形成反饋閉環(huán)。



26

相較于依賴人工對(duì)話語料的傳統(tǒng)訓(xùn)練方式,這套方法更能錘煉真實(shí)場景下的任務(wù)完成能力,最終使Agent成功率相較同類開源模型高出25%以上。

27

為了進(jìn)一步提升穩(wěn)定性,團(tuán)隊(duì)自主研發(fā)GRPO(Generalized Reward Policy Optimization)強(qiáng)化學(xué)習(xí)算法,將推理一致性、語言準(zhǔn)確性和任務(wù)達(dá)成度統(tǒng)一量化為綜合獎(jiǎng)勵(lì)信號(hào),有效防止訓(xùn)練過程中出現(xiàn)能力退化或邏輯漂移。



28

另一大關(guān)鍵設(shè)計(jì)是上下文狀態(tài)持久化機(jī)制:只有當(dāng)用戶發(fā)送全新請(qǐng)求時(shí)才會(huì)重置思維鏈路,而在工具調(diào)用過程中,所有中間推理結(jié)果均被完整保留。例如在跨部門財(cái)務(wù)報(bào)表整合任務(wù)中,模型無需反復(fù)重建分析框架,效率自然大幅提升。

29

從系統(tǒng)架構(gòu)來看,DeepSeek已將Agent視為“模型操作系統(tǒng)”的核心組件:主模型作為內(nèi)核,Agent承擔(dān)進(jìn)程調(diào)度角色,工具則是可插拔的功能模塊。誰能率先確立Agent的技術(shù)標(biāo)準(zhǔn),誰就有可能掌握下一代AI平臺(tái)的話語權(quán)。這一戰(zhàn)略布局的價(jià)值,遠(yuǎn)超短期性能指標(biāo)的提升。



30

后訓(xùn)練讓開源“以弱勝強(qiáng)”

31

當(dāng)然,DeepSeek并未回避自身短板:V3.2在常識(shí)覆蓋廣度上仍不及最新閉源模型,Speciale版本因推理深度過高導(dǎo)致token開銷過大,難以普及至日常應(yīng)用場景。

32

但它所提供的應(yīng)對(duì)方案,恰恰體現(xiàn)了開源陣營“以巧破力”的智慧路徑:既然無法在資源上抗衡,那就把訓(xùn)練做得更深、更精、更聚焦。這套被稱為“后訓(xùn)練三件套”的方法論,堪稱開源提效的教科書級(jí)實(shí)踐。



33

第一式為專家蒸餾法:針對(duì)V3.2定制開發(fā)數(shù)學(xué)、編程、邏輯推理等六大領(lǐng)域?qū)佟皩<夷P汀?,每個(gè)子模型都在特定任務(wù)上訓(xùn)練至極致水平,隨后將其輸出的高質(zhì)量推理軌跡反哺主模型。

34

這種做法既規(guī)避了多任務(wù)混合訓(xùn)練帶來的能力稀釋問題,又通過共享隱層表征維持了跨領(lǐng)域的知識(shí)遷移能力,效果遠(yuǎn)優(yōu)于通用語料混訓(xùn)。



35

第二式為多軌強(qiáng)化學(xué)習(xí):將相當(dāng)于預(yù)訓(xùn)練10%的算力投入到后訓(xùn)練階段,這在開源項(xiàng)目中極為罕見。整個(gè)過程無需人工干預(yù),依靠任務(wù)環(huán)境自動(dòng)反饋打分,形成“設(shè)定目標(biāo)→執(zhí)行→評(píng)估→優(yōu)化”的自主進(jìn)化循環(huán)。

36

這類基于結(jié)構(gòu)化任務(wù)的訓(xùn)練樣本稀缺且實(shí)用性強(qiáng),所培養(yǎng)出的能力更具實(shí)戰(zhàn)價(jià)值,遠(yuǎn)非閑聊式對(duì)話所能比擬。



37

第三式為工具與思維鏈深度融合:為解決模型“不懂何時(shí)調(diào)用工具”的難題,DeepSeek設(shè)計(jì)了冷啟動(dòng)提示模板,在初始推理流中嵌入典型工具使用案例,引導(dǎo)模型逐步習(xí)得“邊思考邊調(diào)用”的習(xí)慣。

38

再配合“工具調(diào)用不重置狀態(tài)”的機(jī)制設(shè)計(jì),避免每次交互都從零開始,實(shí)測中token冗余率下降超過40%。這些看似細(xì)微的工程調(diào)整,實(shí)則共同指向一個(gè)終極目標(biāo):最大化單位token的智能產(chǎn)出密度,將有限資源集中于最關(guān)鍵的認(rèn)知環(huán)節(jié)。



39

歸根結(jié)底,Gemini 3 Pro代表的是“更大、更快、更強(qiáng)”的規(guī)模驅(qū)動(dòng)路線,而DeepSeek開辟的是一條“更輕、更穩(wěn)、更聰明”的效率優(yōu)先路徑。

40

2025年末的這場技術(shù)反轉(zhuǎn)充分證明:開源模型不必在資源消耗上與閉源硬碰硬,只要在架構(gòu)設(shè)計(jì)、戰(zhàn)略定位和訓(xùn)練工藝上持續(xù)深耕,完全有能力撕裂封閉系統(tǒng)的護(hù)城河。對(duì)于整個(gè)AI生態(tài)而言,這種“以智取勝”的發(fā)展模式,或許才是真正可持續(xù)的未來方向。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
陪睡陪玩只是冰山一角!萬達(dá)蒸發(fā)800億后,王思聰再次傳出大丑聞

陪睡陪玩只是冰山一角!萬達(dá)蒸發(fā)800億后,王思聰再次傳出大丑聞

振華觀史
2025-12-24 12:21:20
與黃圣依離婚11個(gè)月,楊子公開回應(yīng)與趙櫻子關(guān)系,真相終于大白

與黃圣依離婚11個(gè)月,楊子公開回應(yīng)與趙櫻子關(guān)系,真相終于大白

夢想總會(huì)變成真
2025-12-23 19:50:32
獨(dú)家專訪吉姆·羅杰斯:中國是21世紀(jì)最具潛力的國家之一

獨(dú)家專訪吉姆·羅杰斯:中國是21世紀(jì)最具潛力的國家之一

21世紀(jì)經(jīng)濟(jì)報(bào)道
2025-12-25 07:30:54
中國股市:唯一不騙人的指標(biāo)“換手率”,大于10%說明可以入場!

中國股市:唯一不騙人的指標(biāo)“換手率”,大于10%說明可以入場!

股經(jīng)縱橫談
2025-12-24 17:54:29
黃多多曬平安夜新照,馬上20歲的女孩,還是獨(dú)一份的清冷治愈!

黃多多曬平安夜新照,馬上20歲的女孩,還是獨(dú)一份的清冷治愈!

阿廢冷眼觀察所
2025-12-25 13:41:08
“浦西第一高樓”突破100米高度

“浦西第一高樓”突破100米高度

上觀新聞
2025-12-24 22:45:06
合肥衛(wèi)健委通報(bào)“一新生兒住院治療黃疸時(shí)死亡”:相關(guān)涉事人員已停職接受調(diào)查

合肥衛(wèi)健委通報(bào)“一新生兒住院治療黃疸時(shí)死亡”:相關(guān)涉事人員已停職接受調(diào)查

界面新聞
2025-12-24 10:58:04
山東一地方銀行陷多重困局:兩度成被執(zhí)行人,股東“爆雷”與地產(chǎn)壞賬雙壓

山東一地方銀行陷多重困局:兩度成被執(zhí)行人,股東“爆雷”與地產(chǎn)壞賬雙壓

濟(jì)寧人
2025-12-25 00:10:47
關(guān)系藏不住了!樊振東放著世界冠軍陳夢不選,原來他喜歡這樣的

關(guān)系藏不住了!樊振東放著世界冠軍陳夢不選,原來他喜歡這樣的

誮惜顏a
2025-12-24 05:53:10
臺(tái)“衛(wèi)福部”稱將以“Chinese Taipei”名義向世衛(wèi)組織申請(qǐng)有關(guān)認(rèn)證,國臺(tái)辦回應(yīng)

臺(tái)“衛(wèi)福部”稱將以“Chinese Taipei”名義向世衛(wèi)組織申請(qǐng)有關(guān)認(rèn)證,國臺(tái)辦回應(yīng)

環(huán)球網(wǎng)資訊
2025-12-24 11:24:08
仍在世的紅衛(wèi)兵領(lǐng)袖,曾被判刑17年,接受采訪坦言:挺感謝鄧小平

仍在世的紅衛(wèi)兵領(lǐng)袖,曾被判刑17年,接受采訪坦言:挺感謝鄧小平

舊時(shí)樓臺(tái)月
2024-09-23 18:05:33
賴清德最新民調(diào)出爐!47.4%不滿意,“六都”中臺(tái)北不滿意度最高

賴清德最新民調(diào)出爐!47.4%不滿意,“六都”中臺(tái)北不滿意度最高

海峽導(dǎo)報(bào)社
2025-12-24 16:12:01
柬埔寨最大邊境城市波貝,園區(qū)賭場比比皆是,成泰國重點(diǎn)轟炸對(duì)象

柬埔寨最大邊境城市波貝,園區(qū)賭場比比皆是,成泰國重點(diǎn)轟炸對(duì)象

環(huán)球熱點(diǎn)快評(píng)
2025-12-23 08:11:57
女子談釋永信過往,她們姐妹住少林寺3天2夜,爭著往釋永信房間跑

女子談釋永信過往,她們姐妹住少林寺3天2夜,爭著往釋永信房間跑

江山揮筆
2025-07-29 16:50:59
賀子珍回國后想再婚,詢問女兒意見,李敏喊出2個(gè)字,她大哭放棄

賀子珍回國后想再婚,詢問女兒意見,李敏喊出2個(gè)字,她大哭放棄

阿器談史
2025-12-18 10:41:18
闞清子事件后續(xù)!粉絲團(tuán)讓大家冷靜等消息!評(píng)論區(qū)網(wǎng)友清醒了!

闞清子事件后續(xù)!粉絲團(tuán)讓大家冷靜等消息!評(píng)論區(qū)網(wǎng)友清醒了!

小咪侃娛圈
2025-12-25 09:28:39
沒想到竟然這么多工作需要保密的!網(wǎng)友:不讓看非看被一槍斃了

沒想到竟然這么多工作需要保密的!網(wǎng)友:不讓看非看被一槍斃了

另子維愛讀史
2025-12-08 20:58:22
中國空軍改寫空戰(zhàn)規(guī)則?兩場實(shí)戰(zhàn)讓五角大樓驚覺:超視距打擊時(shí)代已至

中國空軍改寫空戰(zhàn)規(guī)則?兩場實(shí)戰(zhàn)讓五角大樓驚覺:超視距打擊時(shí)代已至

Hi秒懂科普
2025-12-22 17:44:22
再砍27分6板4助2斷,大威少離311工程又近一步

再砍27分6板4助2斷,大威少離311工程又近一步

大眼瞄世界
2025-12-24 22:28:36
有沒有讓你念念不忘的好名字?網(wǎng)友:姓安,一直沒找到好聽的名字

有沒有讓你念念不忘的好名字?網(wǎng)友:姓安,一直沒找到好聽的名字

帶你感受人間冷暖
2025-12-18 00:10:08
2025-12-25 14:32:49
大魚簡科 incentive-icons
大魚簡科
那些看向大海的人,終會(huì)成為大海。
3642文章數(shù) 290關(guān)注度
往期回顧 全部

科技要聞

屠龍少年被"招安"!英偉達(dá)平安夜豪擲200億

頭條要聞

女子入室殺害好友三名未成年子女 隨后在樓內(nèi)上吊自殺

頭條要聞

女子入室殺害好友三名未成年子女 隨后在樓內(nèi)上吊自殺

體育要聞

單賽季11冠,羽壇“安洗瑩時(shí)代”真的來了

娛樂要聞

金莎小19歲男友求婚成功!兩人雪地?fù)砦?/h3>

財(cái)經(jīng)要聞

美國未來18個(gè)月不對(duì)中國芯片加額外關(guān)稅

汽車要聞

預(yù)售31.3萬元起 全新奧迪Q5L將于1月內(nèi)上市

態(tài)度原創(chuàng)

藝術(shù)
游戲
時(shí)尚
手機(jī)
家居

藝術(shù)要聞

緬懷 | 著名油畫家宮立龍逝世,享年73歲

摩托辣妹太爽了! 《鳴潮》3.0版本更新上線

對(duì)不起周柯宇,是陳靖可先來的

手機(jī)要聞

三星Wide Fold與蘋果iPhone Fold渲染圖曝光,折疊屏對(duì)決將至

家居要聞

經(jīng)典彌新 品味浪漫居所

無障礙瀏覽 進(jìn)入關(guān)懷版