網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

DeepSeek過于樸素了

2026-04-25 17:32:05　來源: 虎嗅APP

北京舉報

分享至

出品｜虎嗅科技組

作者｜宋思杭

編輯｜苗正卿

頭圖｜視覺中國

“不誘于譽，不恐于誹，率道而行，端然正己。”

這是4月24日，DeepSeek在發(fā)布V4預覽版時寫在公眾號文章末尾的話。

放在當下的語境，來解讀這句話的意思是，無論外界如何期待、如何猜測，DeepSeek仍按自己的節(jié)奏走，不被贊譽裹挾，也不被情緒推著走。

甚至相比于其他幾家基座模型公司，DeepSeek顯得過于樸素了——不刻意刷榜、不考慮商業(yè)化、不優(yōu)化用戶體驗，只是充當好一個“修路人”的角色。

時間撥回至R1發(fā)布當天，行業(yè)迅速沸騰，而在往后的這459天里，大家一邊期待著DeepSeek的新模型，一邊見證了智譜和MiniMax兩大國產(chǎn)模型紛紛登陸資本市場，兩家市值均一度沖破3000億元。

就在DeepSeek正式發(fā)布V4后的幾分鐘，資本市場再次給出反饋。約上午11時05分，港股大模型板塊快速震蕩，智譜與MiniMax雙雙跳水，盤中一度分別跌超10%和12%。

這是過去一年行業(yè)最鮮明的變化之一：國產(chǎn)模型首次被資本市場定價，也讓DeepSeek被不斷投射為下一次行業(yè)變量。

與此同時，Kimi、Minimax、Qwen和智譜等模型頻頻登頂，但在此期間，DeepSeek卻一直悄無聲息。

而今天DeepSeek的新模型終于來了，但從這個新模型V4來看，它并不屬于大眾所理解的”行業(yè)頂尖“，至少這個“領先”不是榜單所定義的。

據(jù) Artificial Analysis 數(shù)據(jù)，V4 Pro 在世界知識類 benchmark 中已躋身全球前列，僅次于 Gemini-Pro-3.1。綜合表現(xiàn)來看，DeepSeek V4 已領先多數(shù)開源模型，整體性能開始逼近頂級閉源模型。

也就是說，如果按照大家期待，V4應該會是再一次震驚行業(yè)的“頂尖”模型，但這不是DeepSeek給自己的定義。它給自己的定義一直都是追求性價比。

和其他基模公司比，DeepSeek過于樸素

在幾家頭部大模型公司里，DeepSeek一直有一種很特別的氣質(zhì)：樸素。

這種樸素，不是指產(chǎn)品簡單或者技術激進與否，而是它很少像一家標準AI創(chuàng)業(yè)公司那樣，被融資節(jié)奏、商業(yè)化壓力和市場情緒推著走。某種程度上，它不急著證明自己能賺多少錢，因此反而更有空間去做自己真正想做的事。

虎嗅對比了幾大基座模型的技術路線后發(fā)現(xiàn)，和DeepSeek最相似的就是Kimi了。

兩家公司都帶有鮮明的技術理想主義色彩，也都曾憑借模型能力在行業(yè)里打出辨識度。就在V4發(fā)布前兩天，Kimi剛剛推出K2.6，并稱其為發(fā)布以來最好的代碼模型。與此同時，DeepSeek在V4發(fā)布文章中也提到，他們內(nèi)部同樣在將V4作為公司內(nèi)部員工使用的 Agentic Coding 模型。

這意味著，兩家公司都把代碼能力視作模型價值的重要方向。

相似點還不止于此。這次V4的另一大特點，是原生支持1M上下文，并強化長鏈路推理能力。而長上下文、復雜任務處理，同樣是Kimi過去一年持續(xù)強化的標簽。

如果只看代碼、長上下文、復雜任務這些表面能力邊界，Kimi與DeepSeek似乎正在越來越靠近，甚至可以說，兩家完全撞車。

但如果仔細拆開，會發(fā)現(xiàn)兩家公司走的其實是兩條完全不同的技術路線。

Kimi過去長期強調(diào)的，是線性注意力路線。它的核心思路，是讓模型在超長上下文、多步驟任務中，把計算成本控制在可接受范圍內(nèi)，再疊加Agent系統(tǒng)、任務編排、多輪調(diào)用等能力，讓模型像一個可以持續(xù)工作的執(zhí)行系統(tǒng)。

而DeepSeek V4這次在技術報告中強調(diào)，使用的是混合注意力架構(gòu)（Hybrid Attention）：通過 CSA（Compressed Sparse Attention，壓縮稀疏注意力）與 HCA（Heavily Compressed Attention，重度壓縮注意力）交替配合，對歷史上下文進行分層壓縮和選擇性讀取，在保持百萬級上下文能力的同時，大幅降低推理成本。

報告數(shù)據(jù)顯示，在100萬token場景下，DeepSeek V4-Pro 的單token推理 FLOPs 降至上一代模型的27%，KV Cache占用降至10%。

簡單來說就是，Kimi的思路，更像是把一個復雜任務拆成很多步驟，再組織多個智能體協(xié)作完成；DeepSeek的思路，則是先把底層存在的問題先一點點解決掉，把地基搭好，讓模型在底層計算結(jié)構(gòu)上先變得更高效。

這兩者看起來是，一個是在任務層做加法，一個是在系統(tǒng)層做減法。

但如果按照這個邏輯來看，可以得到一個結(jié)論是，在面對同一項復雜任務時，Kimi往往會消耗更多token。

原因并不復雜。因為當模型開始承擔真實工作流程時，token消耗不再只是用戶輸入與最終輸出，還包括任務拆解、中間推理、多輪調(diào)用、工具返回結(jié)果、錯誤修正以及多個Agent之間的上下文同步。用戶只輸入一句話，后臺可能已經(jīng)完成了十幾輪運算。

當然，這并不意味著Kimi的技術路線有問題。尤其是在當下，AGI的技術路線并未收斂的當下，任何一種技術路線都有各自的優(yōu)劣勢。

那么，作為一家更強調(diào)商業(yè)化落地的公司，Kimi做的事情是優(yōu)化用戶體驗，首先讓很多企業(yè)和個人用戶愿意為Kimi付費。某種程度上，它已經(jīng)接近“可交付的生產(chǎn)力工具”。如果一個模型多消耗一些token，卻替用戶節(jié)省了3小時工作時間，這筆賬未必不劃算。

也就是說，Kimi追求的，是token被消耗后的產(chǎn)出效率；而DeepSeek追求的，則是token本身的計算效率。

這兩種選擇背后，非常鮮明地體現(xiàn)出兩家公司不同的底色。

DeepSeek背后的母公司幻方量化，本質(zhì)是一家量化機構(gòu)。量化交易天然強調(diào)兩件事：效率與收益率。任何策略都要計算投入產(chǎn)出比，任何系統(tǒng)都要追求速度、穩(wěn)定性與資源利用率。在這種文化下成長出來的團隊，會很自然地關注大模型的效率問題。

這也解釋了為什么DeepSeek總在做一些看起來沒那么熱鬧、卻極其關鍵的事情，比如MoE、推理優(yōu)化、注意力重構(gòu)、算力利用率提升。

因為對幻方來說，大模型未必是一門獨立生意，但它首先需要是一套提升研究效率、分析效率與決策效率的基礎工具。

換句話說，梁文鋒也許并不關注DeepSeek能為他帶來多少收入。他有更長的時間尺度，也更能接受先做難而慢的事。

Kimi則不同。月之暗面從創(chuàng)立第一天開始，就是一家標準意義上的AI創(chuàng)業(yè)公司。它需要融資，需要增長，需要向市場證明模型能力最終可以轉(zhuǎn)化為真實業(yè)務。楊植麟當然有很強的AGI理想主義色彩，但Kimi必須同時面對商業(yè)化的現(xiàn)實問題。

這也決定了，Kimi會更積極地靠近用戶需求、代碼需求、Agent需求和付費需求。它的模型迭代節(jié)奏、產(chǎn)品節(jié)奏、組織節(jié)奏，更像一家需要持續(xù)奔跑的創(chuàng)業(yè)公司。

所以，看起來都在做長上下文、代碼模型和復雜任務，兩家公司卻在解決完全不同的問題。

這也是為什么DeepSeek總顯得“不著急”。

國產(chǎn)替代，仍在路上

在V4發(fā)布前，外媒曾多次“預告”DeepSeek將完全切換至國產(chǎn)模型訓練，并逐步擺脫對英偉達的依賴。

然而，從V4發(fā)布的技術報告來看，這一消息未必是真的。

DeepSeek僅在報告中強調(diào)了，其已經(jīng)驗證了在 NVIDIA GPU 和 HUAWEI Ascend NPU 平臺上驗證了 EP（專家并行）方案。但并沒有明確提到DeepSeek已經(jīng)切換至華為昇騰芯片上做訓練，

更準確地說，它說明的是，DeepSeek已經(jīng)在系統(tǒng)層面完成了跨平臺適配，至少讓V4這類MoE模型能夠同時運行在英偉達與昇騰兩套硬件架構(gòu)之上。但這并不直接意味著，其核心訓練任務已經(jīng)離開英偉達。

換句話說，DeepSeek極有可能依然依賴于英偉達芯片做訓練，而用國產(chǎn)芯片完成推理任務。

這其實也是當前行業(yè)更現(xiàn)實的路徑。

原因并不復雜。預訓練階段對芯片生態(tài)要求極高，涉及大規(guī)模并行訓練、通信帶寬、編譯器成熟度、故障恢復能力以及長期穩(wěn)定性。相比之下，推理環(huán)節(jié)對算力的要求更分散，也更適合率先完成國產(chǎn)替代。因此，許多公司采取的并不是“一步到位切換訓練底座”，而是先從推理側(cè)開始遷移。

有多位行業(yè)人士在虎嗅交談時表示，“如果真的徹底切換至國產(chǎn)芯片，V4可能不會這么快到來。”

然而，比切換至國產(chǎn)芯片上訓練更值得關注的是，DeepSeek這次在工具鏈層面的變化。

過去，DeepSeek曾因深度使用 PTX 編程語言而受到關注。PTX可以理解為英偉達GPU生態(tài)中的底層中間語言，接近匯編層，能夠極致榨取單卡性能，但天然綁定英偉達體系，開發(fā)門檻高，可遷移性也有限。

而在V4報告中，DeepSeek不再強調(diào)PTX，而是提到了 DSL（Domain-Specific Language，領域?qū)Ｓ谜Z言），例如其采用 TileLang 這類面向AI算子優(yōu)化的DSL，以平衡開發(fā)效率與運行效率。

兩者的區(qū)別在于：PTX是一種直接操作英偉達機器的底層語言，追求極限性能，但強綁定英偉達；DSL則更像是一層中間抽象，讓團隊在保持性能的同時，更快開發(fā)算子、更容易適配不同芯片平臺。

這意味著，DeepSeek雖然未必已經(jīng)完成國產(chǎn)芯片訓練替代，但它至少已經(jīng)開始讓自己的模型不再強綁定英偉達，未來有可能逐步切換到國產(chǎn)芯片上訓練。

不做被期待的DeepSeek

DeepSeek并不打算成為外界期待中的那個DeepSeek。

過去一年，DeepSeek被行業(yè)賦予了太多角色。有人期待它再次復制R1時刻，發(fā)布一款重新震動行業(yè)的頂尖模型；有人期待它成為中國大模型擺脫英偉達依賴的象征。

但V4的發(fā)布證明，DeepSeek并沒有被打亂節(jié)奏。

它依然是一家圍繞著“效率”做模型的公司，例如，混合注意力架構(gòu)、KV Cache壓縮、百萬上下文推理成本下降、專家并行優(yōu)化、跨平臺Kernel設計，這些內(nèi)容并不算“性感”，但都非常重要。

但這些不算性感的工程化改進，正在逐步解決大模型目前依然存在的bottleneck。

從這個角度看，DeepSeek和其他基座模型公司已經(jīng)不站在同一維度上了。當不少公司還在爭奪入口、爭奪用戶時，DeepSeek更關心的是，怎樣把單位智能的成本繼續(xù)壓低，怎樣讓同樣的能力消耗更少算力。

所以，“不誘于譽，不恐于誹，率道而行，端然正己”，放在V4結(jié)尾，與其說是一種姿態(tài)，不如說是向大眾表態(tài)——DeepSeek選擇繼續(xù)做那個更冷靜的DeepSeek。

本文來自虎嗅，原文鏈接：https://www.huxiu.com/article/4853463.html?f=wyxwapp

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.