国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek過于樸素了

0
分享至


出品|虎嗅科技組

作者|宋思杭

編輯|苗正卿

頭圖|視覺中國

“不誘于譽,不恐于誹,率道而行,端然正己。”

這是4月24日,DeepSeek在發(fā)布V4預覽版時寫在公眾號文章末尾的話。

放在當下的語境,來解讀這句話的意思是,無論外界如何期待、如何猜測,DeepSeek仍按自己的節(jié)奏走,不被贊譽裹挾,也不被情緒推著走。

甚至相比于其他幾家基座模型公司,DeepSeek顯得過于樸素了——不刻意刷榜、不考慮商業(yè)化、不優(yōu)化用戶體驗,只是充當好一個“修路人”的角色。

時間撥回至R1發(fā)布當天,行業(yè)迅速沸騰,而在往后的這459天里,大家一邊期待著DeepSeek的新模型,一邊見證了智譜和MiniMax兩大國產(chǎn)模型紛紛登陸資本市場,兩家市值均一度沖破3000億元。

就在DeepSeek正式發(fā)布V4后的幾分鐘,資本市場再次給出反饋。約上午11時05分,港股大模型板塊快速震蕩,智譜與MiniMax雙雙跳水,盤中一度分別跌超10%和12%。

這是過去一年行業(yè)最鮮明的變化之一:國產(chǎn)模型首次被資本市場定價,也讓DeepSeek被不斷投射為下一次行業(yè)變量。

與此同時,Kimi、Minimax、Qwen和智譜等模型頻頻登頂,但在此期間,DeepSeek卻一直悄無聲息。

而今天DeepSeek的新模型終于來了,但從這個新模型V4來看,它并不屬于大眾所理解的”行業(yè)頂尖“,至少這個“領先”不是榜單所定義的。

據(jù) Artificial Analysis 數(shù)據(jù),V4 Pro 在世界知識類 benchmark 中已躋身全球前列,僅次于 Gemini-Pro-3.1。綜合表現(xiàn)來看,DeepSeek V4 已領先多數(shù)開源模型,整體性能開始逼近頂級閉源模型。

也就是說,如果按照大家期待,V4應該會是再一次震驚行業(yè)的“頂尖”模型,但這不是DeepSeek給自己的定義。它給自己的定義一直都是追求性價比。


和其他基模公司比,DeepSeek過于樸素

在幾家頭部大模型公司里,DeepSeek一直有一種很特別的氣質(zhì):樸素。

這種樸素,不是指產(chǎn)品簡單或者技術激進與否,而是它很少像一家標準AI創(chuàng)業(yè)公司那樣,被融資節(jié)奏、商業(yè)化壓力和市場情緒推著走。某種程度上,它不急著證明自己能賺多少錢,因此反而更有空間去做自己真正想做的事。

虎嗅對比了幾大基座模型的技術路線后發(fā)現(xiàn),和DeepSeek最相似的就是Kimi了。


兩家公司都帶有鮮明的技術理想主義色彩,也都曾憑借模型能力在行業(yè)里打出辨識度。就在V4發(fā)布前兩天,Kimi剛剛推出K2.6,并稱其為發(fā)布以來最好的代碼模型。與此同時,DeepSeek在V4發(fā)布文章中也提到,他們內(nèi)部同樣在將V4作為公司內(nèi)部員工使用的 Agentic Coding 模型。

這意味著,兩家公司都把代碼能力視作模型價值的重要方向。

相似點還不止于此。這次V4的另一大特點,是原生支持1M上下文,并強化長鏈路推理能力。而長上下文、復雜任務處理,同樣是Kimi過去一年持續(xù)強化的標簽。

如果只看代碼、長上下文、復雜任務這些表面能力邊界,Kimi與DeepSeek似乎正在越來越靠近,甚至可以說,兩家完全撞車。

但如果仔細拆開,會發(fā)現(xiàn)兩家公司走的其實是兩條完全不同的技術路線。

Kimi過去長期強調(diào)的,是線性注意力路線。它的核心思路,是讓模型在超長上下文、多步驟任務中,把計算成本控制在可接受范圍內(nèi),再疊加Agent系統(tǒng)、任務編排、多輪調(diào)用等能力,讓模型像一個可以持續(xù)工作的執(zhí)行系統(tǒng)。

而DeepSeek V4這次在技術報告中強調(diào),使用的是混合注意力架構(gòu)(Hybrid Attention):通過 CSA(Compressed Sparse Attention,壓縮稀疏注意力)與 HCA(Heavily Compressed Attention,重度壓縮注意力)交替配合,對歷史上下文進行分層壓縮和選擇性讀取,在保持百萬級上下文能力的同時,大幅降低推理成本。

報告數(shù)據(jù)顯示,在100萬token場景下,DeepSeek V4-Pro 的單token推理 FLOPs 降至上一代模型的27%,KV Cache占用降至10%。

簡單來說就是,Kimi的思路,更像是把一個復雜任務拆成很多步驟,再組織多個智能體協(xié)作完成;DeepSeek的思路,則是先把底層存在的問題先一點點解決掉,把地基搭好,讓模型在底層計算結(jié)構(gòu)上先變得更高效。

這兩者看起來是,一個是在任務層做加法,一個是在系統(tǒng)層做減法。

但如果按照這個邏輯來看,可以得到一個結(jié)論是,在面對同一項復雜任務時,Kimi往往會消耗更多token。

原因并不復雜。因為當模型開始承擔真實工作流程時,token消耗不再只是用戶輸入與最終輸出,還包括任務拆解、中間推理、多輪調(diào)用、工具返回結(jié)果、錯誤修正以及多個Agent之間的上下文同步。用戶只輸入一句話,后臺可能已經(jīng)完成了十幾輪運算。

當然,這并不意味著Kimi的技術路線有問題。尤其是在當下,AGI的技術路線并未收斂的當下,任何一種技術路線都有各自的優(yōu)劣勢。

那么,作為一家更強調(diào)商業(yè)化落地的公司,Kimi做的事情是優(yōu)化用戶體驗,首先讓很多企業(yè)和個人用戶愿意為Kimi付費。某種程度上,它已經(jīng)接近“可交付的生產(chǎn)力工具”。如果一個模型多消耗一些token,卻替用戶節(jié)省了3小時工作時間,這筆賬未必不劃算。

也就是說,Kimi追求的,是token被消耗后的產(chǎn)出效率;而DeepSeek追求的,則是token本身的計算效率。

這兩種選擇背后,非常鮮明地體現(xiàn)出兩家公司不同的底色。

DeepSeek背后的母公司幻方量化,本質(zhì)是一家量化機構(gòu)。量化交易天然強調(diào)兩件事:效率與收益率。任何策略都要計算投入產(chǎn)出比,任何系統(tǒng)都要追求速度、穩(wěn)定性與資源利用率。在這種文化下成長出來的團隊,會很自然地關注大模型的效率問題。

這也解釋了為什么DeepSeek總在做一些看起來沒那么熱鬧、卻極其關鍵的事情,比如MoE、推理優(yōu)化、注意力重構(gòu)、算力利用率提升。

因為對幻方來說,大模型未必是一門獨立生意,但它首先需要是一套提升研究效率、分析效率與決策效率的基礎工具。

換句話說,梁文鋒也許并不關注DeepSeek能為他帶來多少收入。他有更長的時間尺度,也更能接受先做難而慢的事。

Kimi則不同。月之暗面從創(chuàng)立第一天開始,就是一家標準意義上的AI創(chuàng)業(yè)公司。它需要融資,需要增長,需要向市場證明模型能力最終可以轉(zhuǎn)化為真實業(yè)務。楊植麟當然有很強的AGI理想主義色彩,但Kimi必須同時面對商業(yè)化的現(xiàn)實問題。

這也決定了,Kimi會更積極地靠近用戶需求、代碼需求、Agent需求和付費需求。它的模型迭代節(jié)奏、產(chǎn)品節(jié)奏、組織節(jié)奏,更像一家需要持續(xù)奔跑的創(chuàng)業(yè)公司。

所以,看起來都在做長上下文、代碼模型和復雜任務,兩家公司卻在解決完全不同的問題。

這也是為什么DeepSeek總顯得“不著急”。


國產(chǎn)替代,仍在路上

在V4發(fā)布前,外媒曾多次“預告”DeepSeek將完全切換至國產(chǎn)模型訓練,并逐步擺脫對英偉達的依賴。

然而,從V4發(fā)布的技術報告來看,這一消息未必是真的。

DeepSeek僅在報告中強調(diào)了,其已經(jīng)驗證了在 NVIDIA GPU 和 HUAWEI Ascend NPU 平臺上驗證了 EP(專家并行)方案。但并沒有明確提到DeepSeek已經(jīng)切換至華為昇騰芯片上做訓練,

更準確地說,它說明的是,DeepSeek已經(jīng)在系統(tǒng)層面完成了跨平臺適配,至少讓V4這類MoE模型能夠同時運行在英偉達與昇騰兩套硬件架構(gòu)之上。但這并不直接意味著,其核心訓練任務已經(jīng)離開英偉達。

換句話說,DeepSeek極有可能依然依賴于英偉達芯片做訓練,而用國產(chǎn)芯片完成推理任務。

這其實也是當前行業(yè)更現(xiàn)實的路徑。

原因并不復雜。預訓練階段對芯片生態(tài)要求極高,涉及大規(guī)模并行訓練、通信帶寬、編譯器成熟度、故障恢復能力以及長期穩(wěn)定性。相比之下,推理環(huán)節(jié)對算力的要求更分散,也更適合率先完成國產(chǎn)替代。因此,許多公司采取的并不是“一步到位切換訓練底座”,而是先從推理側(cè)開始遷移。

有多位行業(yè)人士在虎嗅交談時表示,“如果真的徹底切換至國產(chǎn)芯片,V4可能不會這么快到來。”

然而,比切換至國產(chǎn)芯片上訓練更值得關注的是,DeepSeek這次在工具鏈層面的變化。

過去,DeepSeek曾因深度使用 PTX 編程語言而受到關注。PTX可以理解為英偉達GPU生態(tài)中的底層中間語言,接近匯編層,能夠極致榨取單卡性能,但天然綁定英偉達體系,開發(fā)門檻高,可遷移性也有限。

而在V4報告中,DeepSeek不再強調(diào)PTX,而是提到了 DSL(Domain-Specific Language,領域?qū)S谜Z言),例如其采用 TileLang 這類面向AI算子優(yōu)化的DSL,以平衡開發(fā)效率與運行效率。

兩者的區(qū)別在于:PTX是一種直接操作英偉達機器的底層語言,追求極限性能,但強綁定英偉達;DSL則更像是一層中間抽象,讓團隊在保持性能的同時,更快開發(fā)算子、更容易適配不同芯片平臺。

這意味著,DeepSeek雖然未必已經(jīng)完成國產(chǎn)芯片訓練替代,但它至少已經(jīng)開始讓自己的模型不再強綁定英偉達,未來有可能逐步切換到國產(chǎn)芯片上訓練。


不做被期待的DeepSeek

DeepSeek并不打算成為外界期待中的那個DeepSeek。

過去一年,DeepSeek被行業(yè)賦予了太多角色。有人期待它再次復制R1時刻,發(fā)布一款重新震動行業(yè)的頂尖模型;有人期待它成為中國大模型擺脫英偉達依賴的象征。

但V4的發(fā)布證明,DeepSeek并沒有被打亂節(jié)奏。

它依然是一家圍繞著“效率”做模型的公司,例如,混合注意力架構(gòu)、KV Cache壓縮、百萬上下文推理成本下降、專家并行優(yōu)化、跨平臺Kernel設計,這些內(nèi)容并不算“性感”,但都非常重要。

但這些不算性感的工程化改進,正在逐步解決大模型目前依然存在的bottleneck。

從這個角度看,DeepSeek和其他基座模型公司已經(jīng)不站在同一維度上了。當不少公司還在爭奪入口、爭奪用戶時,DeepSeek更關心的是,怎樣把單位智能的成本繼續(xù)壓低,怎樣讓同樣的能力消耗更少算力。

所以,“不誘于譽,不恐于誹,率道而行,端然正己”,放在V4結(jié)尾,與其說是一種姿態(tài),不如說是向大眾表態(tài)——DeepSeek選擇繼續(xù)做那個更冷靜的DeepSeek。

本文來自虎嗅,原文鏈接:https://www.huxiu.com/article/4853463.html?f=wyxwapp

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
島內(nèi)最新民調(diào)出爐!賴清德總算反應過來,鄭麗文訪陸讓統(tǒng)一不遠了

島內(nèi)最新民調(diào)出爐!賴清德總算反應過來,鄭麗文訪陸讓統(tǒng)一不遠了

野史日記
2026-04-24 10:10:09
平臺下注AI短劇:有男主4000元/天片酬,報價跌至400元/天

平臺下注AI短劇:有男主4000元/天片酬,報價跌至400元/天

新京報
2026-04-24 20:09:34
抗美援朝時,韓國上將得知志愿軍將領為自己老上級,連夜率部離開

抗美援朝時,韓國上將得知志愿軍將領為自己老上級,連夜率部離開

云霄紀史觀
2026-04-24 15:13:45
超聚變完成A股IPO輔導

超聚變完成A股IPO輔導

每日經(jīng)濟新聞
2026-04-25 14:31:51
55歲"紙片人"魯豫,與小19歲男友同居后變樣,如今她令人大跌眼鏡

55歲"紙片人"魯豫,與小19歲男友同居后變樣,如今她令人大跌眼鏡

觀察鑒娛
2026-04-17 09:43:01
趙文卓9歲幼女奪拉丁舞冠軍,子月舞姿靈動,趙子龍為妹妹打Call

趙文卓9歲幼女奪拉丁舞冠軍,子月舞姿靈動,趙子龍為妹妹打Call

娛珈歪歪魚
2026-04-25 20:08:39
倒閉13年的以色列公司,指控蔚來侵犯專利并索要2.5億美元

倒閉13年的以色列公司,指控蔚來侵犯專利并索要2.5億美元

墨印齋
2026-04-25 15:01:21
男子在蔣介石故居對面別墅區(qū),花214.19萬法拍下兩更衣室兩廁所,還有1100余平方米土地使用權,兩年來無法使用

男子在蔣介石故居對面別墅區(qū),花214.19萬法拍下兩更衣室兩廁所,還有1100余平方米土地使用權,兩年來無法使用

大風新聞
2026-04-24 15:13:07
佟麗婭空降南寧打卡!路人隨手拍生圖絕了,這狀態(tài)誰看了不迷糊!

佟麗婭空降南寧打卡!路人隨手拍生圖絕了,這狀態(tài)誰看了不迷糊!

陳意小可愛
2026-04-25 16:32:09
女王離世4年,王室全家?,F(xiàn)荒誕一幕:國王站著,王后叉腿

女王離世4年,王室全家?,F(xiàn)荒誕一幕:國王站著,王后叉腿

小魚愛魚樂
2026-04-25 20:28:59
回顧 上海老人摔倒1小時,路人怕被訛無人扶,到醫(yī)院后竟賴上護士

回顧 上海老人摔倒1小時,路人怕被訛無人扶,到醫(yī)院后竟賴上護士

談史論天地
2026-04-25 14:00:08
4月25日俄烏:奔襲1800公里、跨越烏拉爾山脈的無人機襲擊

4月25日俄烏:奔襲1800公里、跨越烏拉爾山脈的無人機襲擊

山河路口
2026-04-25 19:42:09
剖析項英犧牲真相:為何多次拒絕毛澤東北上命令?因自己兩個私心

剖析項英犧牲真相:為何多次拒絕毛澤東北上命令?因自己兩個私心

阿胡
2025-04-20 11:05:46
江蘇一女子曬出剛完工的新家,因滿墻柜子徹底火了,太高級!

江蘇一女子曬出剛完工的新家,因滿墻柜子徹底火了,太高級!

手工制作阿愛
2026-04-25 18:13:57
一場112-108的險勝,讓火箭絕望,雷霆感到壓力,西部重新洗牌

一場112-108的險勝,讓火箭絕望,雷霆感到壓力,西部重新洗牌

毒舌NBA
2026-04-25 11:52:22
徹底焊死了!

徹底焊死了!

安安說
2026-04-25 11:52:50
蘇翊鳴朱易4年戀情結(jié)束!雙方互相取關,女方曬眼淚照喊話向前走

蘇翊鳴朱易4年戀情結(jié)束!雙方互相取關,女方曬眼淚照喊話向前走

阿纂看事
2026-04-25 18:08:58
“80后”!211大學組織部長,跨校任副校長

“80后”!211大學組織部長,跨校任副校長

雙一流高校
2026-04-25 00:09:58
蔣萬安發(fā)出強硬警告,"中國臺灣省"走向國際,10國選擇明智應對

蔣萬安發(fā)出強硬警告,"中國臺灣?。⒆呦驀H,10國選擇明智應對

影孖看世界
2026-04-24 11:59:09
電池廠頭都大了!比亞迪突然發(fā)難,25萬祭出5.26米SUV,又是閃充

電池廠頭都大了!比亞迪突然發(fā)難,25萬祭出5.26米SUV,又是閃充

小李車評李建紅
2026-04-25 08:00:03
2026-04-25 21:07:01
虎嗅APP incentive-icons
虎嗅APP
個性化商業(yè)資訊與觀點交流平臺
26181文章數(shù) 687689關注度
往期回顧 全部

科技要聞

DeepSeek V4發(fā)布!黃仁勛預言的"災難"降臨

頭條要聞

男童7歲18斤被當腦癱治多年 父母查其出生病歷發(fā)現(xiàn)問題

頭條要聞

男童7歲18斤被當腦癱治多年 父母查其出生病歷發(fā)現(xiàn)問題

體育要聞

火箭0-3觸發(fā)百分百出局定律:本季加時賽9戰(zhàn)8敗

娛樂要聞

《我們的爸爸2》第一季完美爸爸翻車了

財經(jīng)要聞

90%訂單消失,中東旺季沒了

汽車要聞

2026款樂道L90亮相北京車展 樂道L80正式官宣

態(tài)度原創(chuàng)

健康
教育
房產(chǎn)
親子
軍事航空

干細胞如何讓燒燙傷皮膚"再生"?

教育要聞

我國“就業(yè)率逼近100%”的5所雙非大學,500多分就能上!

房產(chǎn)要聞

新一輪教育大爆發(fā)來了!海口,開始瘋狂建學校!

親子要聞

我國兒童腫瘤生存率首次納入年報體系!5年達76%,不同癌種差異顯著

軍事要聞

美防長:戰(zhàn)事不會“沒完沒了”

無障礙瀏覽 進入關懷版