国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

翻完DeepSeek報告,我們發(fā)現(xiàn)了中國AI的默契

0
分享至



編輯|冷貓、+0

這兩天,全球頂級大模型接連更新,重磅消息一個接一個。

中國這邊也迎來熱鬧非凡的一周,從周一開始,Qwen、Kimi、小米、騰訊相繼發(fā)布最新模型。周五,千呼萬喚的 DeepSeek 終于發(fā)布 V4 雙版本,引發(fā)了國內(nèi) AI 圈的一波海嘯。

其中,中國邁入萬億參數(shù)俱樂部并已開源的模型有 DeepSeek 和 Kimi 兩家,小米也預(yù)告了將會開源最新的萬億模型。

翻完 DeepSeek V4 近 60 頁的技術(shù)報告,我們發(fā)現(xiàn)這兩個已開源萬億模型之間的默契,比任何單打獨(dú)斗都可怕。

再往前溯源的話,我們發(fā)現(xiàn) DeepSeek 和 Kimi 已經(jīng)是第 N 次「偶遇」了。這可能源于梁文鋒和楊植麟對 Scaling Law 的共同信仰和對 AGI 的競逐。

多次偶遇背后的一場「合謀」

從 DeepSeek-R1 和 Kimi K1.5 僅隔兩小時發(fā)布,DeepSeek-NSA 與 Kimi MoBA 論文同期發(fā)表、Kimi 數(shù)學(xué)推理模型 Kimina-Prover 啟發(fā) DeepSeek-Prover V2,到如今的 Kimi K2.6 與 DeepSeek-V4 在同一周發(fā)布,齊頭并進(jìn)。



這兩家公司不是在互相廝殺,而是在用一種近乎「開源共享」的方式,一起進(jìn)步。

引用車圈的一句話說,「好的設(shè)計總是心有靈犀」。

從 Kimi K2 采用 DeepSeek V3 的 MLA 注意力機(jī)制,到 DeepSeek V4 引入了 Kimi 大規(guī)模驗(yàn)證的 Muon 優(yōu)化器,可以說,技術(shù)上的聯(lián)動,成為了行業(yè)的一個亮點(diǎn)。

MLA 注意力機(jī)制:DeepSeek 創(chuàng)新,Kimi 復(fù)用

首先要提到的是,DeepSeek 在 V3 中首創(chuàng)了 MLA 注意力機(jī)制,這個設(shè)計通過低秩壓縮技術(shù)有效減少了顯存占用,從而讓長上下文推理變得可能。這個創(chuàng)新很快被行業(yè)廣泛認(rèn)可,Kimi K2 在自己的注意力機(jī)制中也采用了 MLA 注意力機(jī)制。



二階優(yōu)化器:Kimi 大規(guī)模驗(yàn)證,DeepSeek 跟進(jìn)

除了注意力機(jī)制,另一個備受關(guān)注的突破是優(yōu)化器技術(shù)。2025年2月,Kimi 發(fā)表《Muon is Scalable for LLM Training》論文,在 480 億參數(shù)的 Moonlight 系列模型上驗(yàn)證了 Muon 優(yōu)化器的效果,用來取代已經(jīng)用了 10年 的行業(yè)標(biāo)準(zhǔn)技術(shù) Adam。2025 年 7 月,在萬億參數(shù) Kimi K2 中,二階優(yōu)化器 Muon 被首次大規(guī)模應(yīng)用,展示了其在大規(guī)模語言模型訓(xùn)練中的優(yōu)勢。

如今,DeepSeek V4 也跟進(jìn)用 Muon 優(yōu)化器技術(shù),實(shí)現(xiàn)訓(xùn)練效率的穩(wěn)定性。兩家公司將底層的優(yōu)化技術(shù)相互吸納,打破了技術(shù)壁壘,展現(xiàn)出前所未有的深度合作。



殘差連接:兩種不同的解決方案

說到殘差連接,DeepSeek 和 Kimi 也各有突破。

DeepSeek 在 V4 中引入了 mHC 殘差連接,目標(biāo)也是提高信息傳遞的效率。通過改變多頭注意力的拼接方式,mHC 提高了梯度流動的效率,實(shí)測訓(xùn)練效率提高了約 30%。



Kimi 提出的 Attention Residuals(注意力殘差)優(yōu)化了信息流的傳遞效率,提升了模型的表現(xiàn)。這一創(chuàng)新得到了廣泛的認(rèn)可,Andrej Karpathy 點(diǎn)評稱「我們對《Attention is All You Need》的理解還不夠」,OpenAI 推理之父 Jerry Tworek 點(diǎn)評稱「我們應(yīng)該重新思考一切,深度學(xué)習(xí)的2.0時代正在到來」,馬斯克也在社交媒體上為此點(diǎn)贊,稱是「令人印象深刻的研究」。

這兩種方案各有特色,展現(xiàn)了兩家公司在同一技術(shù)問題上不同的思路。

長上下文推理:兩種技術(shù)路線的探索

長上下文推理是 AI 模型的一大挑戰(zhàn),Kimi 和 DeepSeek 在這一點(diǎn)上的思路也各不相同。Kimi 在 2024 年實(shí)現(xiàn)了百萬 Token 上下文的能力,盡管這一能力非常強(qiáng)大,但成本問題依然很大,超長上下文的計算開銷呈現(xiàn)出線性增長,普通開發(fā)者很難承受。

到了 2026 年,DeepSeek 和 Kimi 分別提出了兩種解決方案:

  • DeepSeek選擇了稀疏注意力,通過讓模型只關(guān)注輸入中的關(guān)鍵部分,降低計算量,從而讓百萬上下文的成本變得更可接受。這種方法雖然能夠精準(zhǔn)聚焦關(guān)鍵信息,但設(shè)計和調(diào)優(yōu)難度較大。
  • Kimi則推出了線性注意力架構(gòu),改變了注意力機(jī)制的計算方式,使得計算復(fù)雜度從 O(n2) 降到 O(n),從理論上大幅降低了長上下文的計算成本。

這兩種方案同樣各有優(yōu)勢,稀疏注意力強(qiáng)調(diào)精準(zhǔn)性,線性注意力則追求高效性。更重要的是,Kimi 和 DeepSeek 同時在這兩條技術(shù)路線上都在發(fā)力,為未來的長上下文推理提供了多種選擇。

從「兩個公司」到「一套基礎(chǔ)設(shè)施」

DeepSeek 和 Kimi 的「偶遇」故事不只是技術(shù)圈的熱鬧,也是關(guān)乎中國 AI 產(chǎn)業(yè)格局的一件大事。

GPT-4 的參數(shù)量至今未正式公布(外界估計在 1.8T 左右),Claude 3.5 Opus 同樣閉源。而中國的這兩家創(chuàng)業(yè)公司,不僅做出了同等規(guī)模的模型,還選擇了全部開源。這意味著任何開發(fā)者、任何研究機(jī)構(gòu)、任何企業(yè),都可以免費(fèi)獲取這些模型進(jìn)行二次開發(fā)和部署。

直接的結(jié)果是:企業(yè)私有化部署的成本砍到了原來的1/10。中小企業(yè)終于能在自己的服務(wù)器上跑萬億參數(shù)級別的模型了,這事兒放在一年前,想都不敢想。

生態(tài)這塊也在悄悄成形,在 OpenRouter 平臺上,兩者的 API 調(diào)用量穩(wěn)居中國前兩名;在應(yīng)用層,Kimi 被海外爆款編程工具「套殼」接入,而 DeepSeek 則被日本樂天集團(tuán)直接包裝成了 Rakuten AI 3.0。



就連硅谷的巨頭們,也不得不正視這股來自東方的力量。

在 Meta 最新模型 Muse Spark 發(fā)布的官方技術(shù)博客中,Llama 4 被直接拿來與 DeepSeek-V3.1 以及 Kimi-K2 進(jìn)行性能對比:



而在黃仁勛的CES主題演講上,黃仁勛更是將 DeepSeek 和 Kimi K2-Thinking 模型赫然放上大屏幕,作為展示其下一代 Blackwell 與 Rubin 芯片強(qiáng)大性能的 Benchmark 標(biāo)桿:



與此同時,兩家公司都在國產(chǎn)芯片適配上做出了實(shí)質(zhì)性投入。

DeepSeek V4 首次深度適配華為昇騰芯片,推理環(huán)節(jié)將運(yùn)行在國產(chǎn)硬件上;Kimi 的 Prefill-as-a-Service 方案則提出了跨數(shù)據(jù)中心異構(gòu)硬件推理框架,允許用不同類型的國產(chǎn)芯片分別承擔(dān) Prefill 和 Decode 階段,實(shí)測吞吐量提升 54%,首 token 延遲降低 64%。這為國產(chǎn)芯片進(jìn)入大模型推理鏈條打開了一個現(xiàn)實(shí)的切入口。

黃仁勛在播客節(jié)目中說了一句意味深長的話:「芯片又不是鈾濃縮,阻擋不了中國芯片的進(jìn)步,他們依舊可以通過國產(chǎn)芯片來開發(fā)模型!

他可能沒想到,DeepSeek 和 Kimi 正在用實(shí)際行動讓這一天來得這么早,這么快。

結(jié)語:兩個廣東人,撐起中國 AI 的半邊天

技術(shù)的高度,最終取決于人的格局。

2023 年同年起步,用最短時間雙雙叩開百億美金十角獸大門——DeepSeek 與 Kimi,始終保持著業(yè)內(nèi)人數(shù)最精簡、但人才密度最頂尖的配置。兩位同樣來自廣東的創(chuàng)始人,楊植麟與梁文鋒,既是技術(shù)的狂熱信徒,也是被寄予厚望的中國 AI 國家隊(duì)。

在總理主持召開的經(jīng)濟(jì)形勢專家和企業(yè)家座談會上,兩人時隔一年分別建言獻(xiàn)策,成為了中國 AI 發(fā)展史上的一個有力注腳。他們都是技術(shù)范式的引領(lǐng)者:DeepSeek 向世界證明了「思維鏈」的威力,而 Kimi 則在國內(nèi)引領(lǐng)了「智能體」的落地狂潮。

在追逐 AGI 的這場馬拉松里,沒有哪一家公司可以閉門造車地跑完全程。DeepSeek 與 Kimi 之間,有競爭,也有共鳴——Muon 與 MLA 的技術(shù)互通,底層機(jī)制上惺惺相惜的探索,恰恰說明:中國 AI 真正的底氣,從來不是某一家公司的單打獨(dú)斗,而是這種在「偶遇」中碰撞出的技術(shù)火花,以及在開源生態(tài)里悄然生長的互利共生。

雙峰并峙,終將頂峰相見。屬于中國大模型的萬億級航海時代,才剛剛拉開序幕。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
1995年,在北京蝸居13年的吳德病逝,留下三行遺囑令人落淚

1995年,在北京蝸居13年的吳德病逝,留下三行遺囑令人落淚

蔣南強(qiáng)讀歷史
2026-04-26 09:30:06
得寸進(jìn)尺?切爾西允許埃斯特旺不做手術(shù) 后者堅(jiān)持回巴西做康復(fù)

得寸進(jìn)尺?切爾西允許埃斯特旺不做手術(shù) 后者堅(jiān)持回巴西做康復(fù)

雪狼侃體育
2026-04-26 14:01:25
往事悠悠:七十年代隨父母下放到農(nóng)村,那段經(jīng)歷我記憶深刻

往事悠悠:七十年代隨父母下放到農(nóng)村,那段經(jīng)歷我記憶深刻

草根情感故事茶社
2026-04-25 13:22:28
47家店,年入3.6億!上海殺出個高端日料巨頭,徹底殺瘋了!

47家店,年入3.6億!上海殺出個高端日料巨頭,徹底殺瘋了!

王二哥老搞笑
2026-04-26 14:04:35
白人女性與黑人女性的體味差異,網(wǎng)友真實(shí)分享引發(fā)熱議

白人女性與黑人女性的體味差異,網(wǎng)友真實(shí)分享引發(fā)熱議

特約前排觀眾
2025-12-22 00:20:06
沒有不透風(fēng)的墻!沈騰和林允的瓜未必是假的、站姐關(guān)站跑路

沒有不透風(fēng)的墻!沈騰和林允的瓜未必是假的、站姐關(guān)站跑路

琴聲飛揚(yáng)
2026-01-20 14:25:10
八千里路云和月:張?jiān)瓶隣奚n小月守寡,萬福和玉嬌苦盡甘來

八千里路云和月:張?jiān)瓶隣奚n小月守寡,萬福和玉嬌苦盡甘來

慢半拍sir
2026-04-26 10:03:18
張文宏“斷崖式退休論”火了!中醫(yī)2000年前老祖宗早就把話說透了

張文宏“斷崖式退休論”火了!中醫(yī)2000年前老祖宗早就把話說透了

普陀動物世界
2026-04-26 12:36:23
曼城進(jìn)足總杯決賽!四人被批評,一人獲盛贊:他讓防守球員崩潰!

曼城進(jìn)足總杯決賽!四人被批評,一人獲盛贊:他讓防守球員崩潰!

聽我說球
2026-04-26 07:17:50
趙麗穎在上海某高檔餐廳被偶遇,瘦是真的瘦,素顏依然很美

趙麗穎在上海某高檔餐廳被偶遇,瘦是真的瘦,素顏依然很美

一盅情懷
2026-04-25 19:36:00
丁俊暉:趙心童就像奧沙利文一樣 在未來會掌控一切

丁俊暉:趙心童就像奧沙利文一樣 在未來會掌控一切

羅克
2026-04-25 14:14:30
“特朗普變了,我遭到了背叛”

“特朗普變了,我遭到了背叛”

觀察者網(wǎng)
2026-04-26 12:03:16
王思雨頒獎笑成花兒!獲金球獎勵成關(guān)鍵之王 大方展示金牌超颯

王思雨頒獎笑成花兒!獲金球獎勵成關(guān)鍵之王 大方展示金牌超颯

顏小白的籃球夢
2026-04-26 07:31:42
笑死!麥當(dāng)勞改名“牡丹樓”,半天遭拆除!網(wǎng)友:壓力給到“恒德記”了...

笑死!麥當(dāng)勞改名“牡丹樓”,半天遭拆除!網(wǎng)友:壓力給到“恒德記”了...

品牌新
2026-04-26 12:14:32
替補(bǔ)砍43分!多森姆:季后賽有這樣的表現(xiàn),這是我兒時的夢想

替補(bǔ)砍43分!多森姆:季后賽有這樣的表現(xiàn),這是我兒時的夢想

懂球帝
2026-04-26 12:45:18
24公司4月26日下午發(fā)布重大利空,多家大股東減持規(guī)模從1%覆蓋超3%

24公司4月26日下午發(fā)布重大利空,多家大股東減持規(guī)模從1%覆蓋超3%

股市皆大事
2026-04-26 12:40:23
41歲著名演員突然離世,拋下年僅11歲兒子,親友:生前無異樣

41歲著名演員突然離世,拋下年僅11歲兒子,親友:生前無異樣

LULU生活家
2026-04-25 14:50:49
正式測定:蒙古發(fā)生6.0級地震 震源深度15千米

正式測定:蒙古發(fā)生6.0級地震 震源深度15千米

財聯(lián)社
2026-04-26 12:50:35
續(xù)航焦慮徹底終結(jié)!1500公里電池問世,油車時代真要落幕

續(xù)航焦慮徹底終結(jié)!1500公里電池問世,油車時代真要落幕

侃故事的阿慶
2026-04-26 09:19:12
1967年,江青講話的照片,注意看旁邊的周總理,一臉無奈眉頭緊鎖

1967年,江青講話的照片,注意看旁邊的周總理,一臉無奈眉頭緊鎖

海佑講史
2026-04-25 17:15:06
2026-04-26 15:19:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12855文章數(shù) 142636關(guān)注度
往期回顧 全部

科技要聞

漲價浪潮下,DeepSeek推動AI“價格戰(zhàn)”

頭條要聞

特朗普2年內(nèi)遭遇4次刺殺威脅 第一個任期也曾險遭襲擊

頭條要聞

特朗普2年內(nèi)遭遇4次刺殺威脅 第一個任期也曾險遭襲擊

體育要聞

那一刻開始,兩支球隊(duì)的命運(yùn)悄然改變了

娛樂要聞

《八千里路云和月》大結(jié)局意難平

財經(jīng)要聞

DeepSeek V4背后,梁文鋒的轉(zhuǎn)身

汽車要聞

預(yù)售19.38萬元起 哈弗猛龍PLUS七座版亮相

態(tài)度原創(chuàng)

游戲
教育
健康
親子
時尚

Pearl Abyss 正式發(fā)布《紅色沙漠》首張官方原聲音樂專輯

教育要聞

麻省理工公開課19:吉爾伯特教授線性代數(shù)課-

干細(xì)胞如何讓燒燙傷皮膚"再生"?

親子要聞

孩子會旺媽媽的6個特點(diǎn)

IU的臉,真的有自己的時間線

無障礙瀏覽 進(jìn)入關(guān)懷版