国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

馬斯克也來站臺(tái),中國(guó)團(tuán)隊(duì)對(duì)AI底層架構(gòu)動(dòng)手術(shù)

0
分享至

作者 | 封華

編輯 | 魏曉

來自中國(guó)的Kimi,再一次引發(fā)了硅谷AI圈的注意。

3月16日,月之暗面Kimi發(fā)布了一項(xiàng)技術(shù)報(bào)告《Attention Residuals》(注意力殘差),重新設(shè)計(jì)了深度學(xué)習(xí)中核心的殘差連接結(jié)構(gòu)。

報(bào)告發(fā)布后,引來了一眾企業(yè)家和AI大佬的圍觀。連續(xù)三天登上Twitter全球熱搜榜,主貼閱讀量超過 460萬,堪比一次模型重要版本發(fā)布。

OpenAI的“推理模型之父”、前OpenAI研究副總裁Jerry Tworek表示:“深度學(xué)習(xí)2.0要來了”。

馬斯克稱贊道:“Kimi的研究令人印象深刻(Impressive work from Kimi)”。隨后,Kimi進(jìn)行了回應(yīng):“你的火箭造得也不錯(cuò)!”

中外AI,在這一刻產(chǎn)生了惺惺相惜之感。



馬斯克在業(yè)內(nèi)一向“口無遮攔”,曾嘲諷Anthropic大規(guī)模竊取訓(xùn)練數(shù)據(jù),也曾批評(píng)OpenAI成為“逐利公司”。只有真心認(rèn)可,他才會(huì)不吝點(diǎn)贊。

這次馬斯克對(duì)Kimi大加贊賞,正是震驚于AI技術(shù)的突破。

Kimi提出的注意力殘差,旨在突破大模型架構(gòu)中的瓶頸,改寫大模型訓(xùn)練效率與成本曲線。

技術(shù)突破“炸場(chǎng)”的同時(shí),月之暗面創(chuàng)始人楊植麟還成為英偉達(dá)年度大會(huì)GTC 2026,唯一受邀演講的中國(guó)大模型公司創(chuàng)始人。

在演講中,楊植麟沒有去講Kimi的用戶數(shù),或是其他商業(yè)數(shù)據(jù),而是解讀了一個(gè)核心問題:當(dāng)算力基建的規(guī)模化(Scaling)已成為行業(yè)共識(shí),我們到底該Scale什么?

當(dāng)全球AI競(jìng)爭(zhēng)進(jìn)入深水區(qū),Kimi的估值已狂飆至1200億元。從這次的技術(shù)突破,和楊植麟干貨滿滿的演講中,能看到Kimi對(duì)追求智能上限的執(zhí)著。

新技術(shù)改變了什么?

Kimi這次的突破,不是“調(diào)參數(shù)”,而是“動(dòng)地基”。

當(dāng)前大多數(shù)大規(guī)模深度學(xué)習(xí)模型都在使用“殘差連接”的結(jié)構(gòu),以保證能訓(xùn)練幾十層乃至上百層而不崩潰。

這個(gè)設(shè)計(jì)來自何愷明在2015年參與的ResNet論文,十年來不曾被動(dòng)搖根基。

其簡(jiǎn)單邏輯是:每一層的輸出=當(dāng)前層的結(jié)果+前面數(shù)層的累加。每一層網(wǎng)絡(luò)在做完自己的計(jì)算之后,把自己的輸出和輸入加在一起,然后傳到下一層去再做計(jì)算。

這樣做的好處是,這樣一路累加下去,每一層都能“記住”前面所有層的信息。

但這個(gè)機(jī)制并不是完美的,在大模型PreNorm主流范式下,殘差連接中所有層的

貢獻(xiàn)都是等權(quán)累加。

這樣將信息進(jìn)行“無差別疊加”,沒有任何有效機(jī)制,去判斷哪一層的信息更重要,哪一層的信息可以忽略。隨著層數(shù)的增加,早期層信息的重要性就會(huì)被稀釋。并且,后面的層想要產(chǎn)生影響,就必須輸出模長(zhǎng)更大的激活值,這反過來又加劇了訓(xùn)練的不穩(wěn)定性。

就像咱們普通用戶在使用AI時(shí),提示詞要盡量精準(zhǔn)、簡(jiǎn)練,如果事無巨細(xì)地進(jìn)行長(zhǎng)篇大論,反而增加了AI理解信息的難度。

AI訓(xùn)練也是如此,重要信息被稀釋,并且計(jì)算效率較為低下,這是一種浪費(fèi)和負(fù)擔(dān)。

Kimi團(tuán)隊(duì)的最新技術(shù)報(bào)告提出一種全新方案——既然不想要“無差別累加”,那就讓網(wǎng)絡(luò)自己決定該提取什么信息。也就是,允許模型在每一層選擇性地關(guān)注此前各層的輸出,而不是簡(jiǎn)單地進(jìn)行求和。

這一創(chuàng)新不僅優(yōu)化了計(jì)算效率,還顯著提升了大模型的訓(xùn)練效果。報(bào)告顯示,經(jīng)過改進(jìn)的48B模型訓(xùn)練效率提升了1.25倍。



Kimi的研究表明,當(dāng)把動(dòng)態(tài)、與輸入相關(guān)的注意力機(jī)制引入進(jìn)來之后,模型不再是簡(jiǎn)單地“全盤接收”信息,而是具備了“結(jié)構(gòu)性判斷能力”,能夠更有選擇地抓住關(guān)鍵內(nèi)容。

結(jié)果也很直接——改寫了大模型訓(xùn)練效率與成本曲線。

Kimi團(tuán)隊(duì)這次對(duì)慣性的大膽反思,瞄準(zhǔn)的是那座最不起眼卻最承重的“地基”。這并非一次局部?jī)?yōu)化,而是有機(jī)會(huì)成為未來大模型架構(gòu)里的“標(biāo)配組件”。隨著驗(yàn)證逐步展開,世界上其他AI團(tuán)隊(duì)大概率會(huì)跟進(jìn)類似思路,去探索新的架構(gòu)路徑。

楊植麟此次在英偉達(dá)GTC 2026現(xiàn)場(chǎng)的演講,更將Kimi團(tuán)隊(duì)的技術(shù)實(shí)力與獨(dú)特思考,第一次完整展示給硅谷核心技術(shù)圈。

對(duì)“祖?zhèn)骷夹g(shù)”動(dòng)刀

重構(gòu)前沿范式

北京時(shí)間3月18日凌晨,楊植麟站在英偉達(dá)年度大會(huì)GTC 2026的現(xiàn)場(chǎng),發(fā)表了主題為《How We Scaled Kimi K2.5》的演講,首次完整披露了Kimi的技術(shù)路線圖。

按照他講述的Kimi K2.5的進(jìn)化邏輯,只有在“Token效率、長(zhǎng)上下文、智能體集群”三個(gè)維度同時(shí)找到規(guī)模效應(yīng),才能實(shí)現(xiàn)遠(yuǎn)超現(xiàn)狀的智能水平。

如果說三維邏輯是戰(zhàn)略,那么對(duì)三大底層技術(shù)的重構(gòu)就是戰(zhàn)術(shù)。

楊植麟提出,行業(yè)目前普遍使用的很多技術(shù)標(biāo)準(zhǔn),本質(zhì)上是八九年前的產(chǎn)物,正逐漸成為大模型 Scaling 的瓶頸。

這也是本次演講的真正“硬核”所在,楊植麟直接勾勒出了下一代大模型的思考路徑:

要真正實(shí)現(xiàn)智能上限的突破,不是來自于對(duì)舊架構(gòu)的修修補(bǔ)補(bǔ),而是對(duì)優(yōu)化器、注意力機(jī)制、殘差連接等底層基石的重構(gòu)。



其一,優(yōu)化器革命:從Adam到MuonClip。

在超大規(guī)模訓(xùn)練中,Adam優(yōu)化器在提升Token效率上的瓶頸日益凸顯,尋找更具 Token 效率的替代方案已成趨勢(shì)。

Kimi團(tuán)隊(duì)在實(shí)驗(yàn)中驗(yàn)證了Muon優(yōu)化器的潛力,但在擴(kuò)展到萬億參數(shù)時(shí)遇到了“Logits爆炸”的難題。

對(duì)此,他們開出了自己的藥方:MuonClip。通過結(jié)合Newton-Schulz迭代并結(jié)合QK-Clip機(jī)制,他們不僅解決了穩(wěn)定性問題,更實(shí)現(xiàn)了2倍于傳統(tǒng)AdamW的計(jì)算效率。

這一突破意義重大,在算力約束、成本高企的當(dāng)下,誰能用更少的計(jì)算量榨取更多的智能,誰就掌握了通往AGI的速通卡。

其二,Kimi Linear:全注意力機(jī)制“終結(jié)者”。

楊植麟展示了基于KDA架構(gòu)的Kimi Linear,一種混合線性注意力架構(gòu)。它挑戰(zhàn)了“所有層必須使用全注意力”的慣例,通過優(yōu)化遞歸存儲(chǔ)管理,在128K甚至1M的超長(zhǎng)上下文中,將解碼速度提升了5到6倍。

這不僅是速度的提升,更是對(duì)注意力機(jī)制本質(zhì)的思考:“按需分配”的注意力,才是不同場(chǎng)景下的務(wù)實(shí)選擇。

其三:殘差連接:從固定加法到注意力殘差

繼論文受到各方AI大佬圍觀之后,楊植麟再次在演講中介紹了這一技術(shù)突破。

針對(duì)已有十年歷史的殘差連接,Kimi引入Attention Residuals方案,將傳統(tǒng)的固定加法累加,替換為對(duì)前序?qū)虞敵龅腟oftmax注意力。

這一改動(dòng),通過選擇性聚合信息,讓每一層都能獲得前面所有層中更有價(jià)值的信息,而不是淹沒在求和“噪聲”中。

之后,楊植麟提出了一項(xiàng)預(yù)判。他認(rèn)為,未來的智能形態(tài)將從單智能體向動(dòng)態(tài)生成的集群進(jìn)化。Kimi K2.5引入的Orchestrator機(jī)制,能夠?qū)?fù)雜的長(zhǎng)任務(wù)拆解給數(shù)十個(gè)子Agent并行處理,實(shí)現(xiàn)自協(xié)調(diào)的群體執(zhí)行。

上述框架,并非零散的技術(shù)點(diǎn)疊加,而是一套從底層基石到上層應(yīng)用的完整技術(shù)閉環(huán),每一個(gè)環(huán)節(jié)都直指行業(yè)沿用近十年的技術(shù)標(biāo)準(zhǔn)的核心瓶頸。

跳出“中國(guó)版ChatGPT”框架

Kimi K2.5是全球用戶量最大的AI編程平臺(tái)Cursor唯一接入的開源模型,也是唯一的中國(guó)模型。也是全球最大的獨(dú)立AI搜索服務(wù)商Perplexity唯一接入的中國(guó)模型,開源的K2.5在跟OpenAI、Anthropic和Google的頂尖閉源模型同場(chǎng)競(jìng)技。

一同起飛的,是Kimi商業(yè)化的躍遷:20天收入即超2025年全年。

K2.5發(fā)布后,Kimi通過其性能90%、價(jià)格七分之一的性價(jià)比優(yōu)勢(shì),在海外斬獲高速的收入增長(zhǎng),海外收入在總營(yíng)收中占比已超過國(guó)內(nèi),海外API開放平臺(tái)日均訪問量翻10-20倍。

Kimi Claw于今年1月上線后,1月個(gè)人訂閱支付訂單環(huán)比暴增8280%,2月再漲123.8%。

業(yè)內(nèi)認(rèn)可之外,資本的追捧也極具說服力。

最近三個(gè)月,估值漲了4倍,融資超過10億美元,超過大模型同行IPO募資額。

最備受期待的,是Kimi“身份”的轉(zhuǎn)變——其已跳出“中國(guó)版ChatGPT”的狹窄框架,直接參與到了全球AI技術(shù)的底層創(chuàng)新。

楊植麟談到了 AI 研究范式的轉(zhuǎn)變,從中我們得以一窺,為什么Kimi能不斷地從“古老”技術(shù)中挖掘出新的突破?

他提到,十年前的研究往往更看重新想法的發(fā)表,但受限于算力資源,很難通過不同規(guī)模的實(shí)驗(yàn)來驗(yàn)證這些想法。而現(xiàn)在由于擁有了足夠的資源和“縮放階梯(Scaling Ladder)”,研究者可以進(jìn)行嚴(yán)謹(jǐn)?shù)囊?guī);瘜(shí)驗(yàn),從而得出更自信、更可靠的結(jié)論。

楊植麟傳遞出的信息清晰而堅(jiān)定:Kimi不想只做一個(gè)更好的模型,而是要做那個(gè)定義下一代模型架構(gòu)的引領(lǐng)者:審視那些被沿用近十年的“舊技術(shù)”,嚴(yán)謹(jǐn)驗(yàn)證,大膽重構(gòu),找到突破智能上限的下一個(gè)項(xiàng)關(guān)鍵技術(shù)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
紅線已經(jīng)劃出!大陸正式回應(yīng)鄭麗文6月份訪問美國(guó)!

紅線已經(jīng)劃出!大陸正式回應(yīng)鄭麗文6月份訪問美國(guó)!

阿龍聊軍事
2026-04-29 17:29:17
5月1日起!北京禁飛無人機(jī),大疆北京門店無人機(jī)全面下架!

5月1日起!北京禁飛無人機(jī),大疆北京門店無人機(jī)全面下架!

熱點(diǎn)科技
2026-04-29 17:55:12
5月1日起全面嚴(yán)查!紅包轉(zhuǎn)賬新規(guī)落地,所有人都要注意這幾條紅線

5月1日起全面嚴(yán)查!紅包轉(zhuǎn)賬新規(guī)落地,所有人都要注意這幾條紅線

混沌錄
2026-04-28 22:08:15
不想訪華了?特朗普登機(jī)前,美國(guó)宣布制裁中企,中方強(qiáng)硬回?fù)簦?>
    </a>
        <h3>
      <a href=易昂楊
2026-04-29 19:04:15
97年我跑長(zhǎng)途捎了一位尼姑,尼姑下車時(shí)送我三句話,三年后全應(yīng)驗(yàn)

97年我跑長(zhǎng)途捎了一位尼姑,尼姑下車時(shí)送我三句話,三年后全應(yīng)驗(yàn)

千秋文化
2026-04-29 19:09:51
西交大學(xué)生周凱旋被判死刑,行刑前拒見家屬,孤身赴死!

西交大學(xué)生周凱旋被判死刑,行刑前拒見家屬,孤身赴死!

深度報(bào)
2026-04-29 22:43:03
96歲奶奶擺攤10年還清2077萬,但凡稍微“體面”一點(diǎn),都說不口

96歲奶奶擺攤10年還清2077萬,但凡稍微“體面”一點(diǎn),都說不口

走讀新生
2026-04-29 10:48:15
湖南某醫(yī)院職工舉報(bào)院長(zhǎng)兒子“吃空餉”涉百萬獎(jiǎng)金,醫(yī)院紀(jì)委查實(shí)“重復(fù)拿錢”2萬元并退款,否認(rèn)“吃空餉”,舉報(bào)人要求提級(jí)調(diào)查

湖南某醫(yī)院職工舉報(bào)院長(zhǎng)兒子“吃空餉”涉百萬獎(jiǎng)金,醫(yī)院紀(jì)委查實(shí)“重復(fù)拿錢”2萬元并退款,否認(rèn)“吃空餉”,舉報(bào)人要求提級(jí)調(diào)查

大風(fēng)新聞
2026-04-29 20:46:09
哈蘭德出鏡啤酒廣告引爭(zhēng)議,挪威足協(xié):他有權(quán)這樣做,我們無法干涉

哈蘭德出鏡啤酒廣告引爭(zhēng)議,挪威足協(xié):他有權(quán)這樣做,我們無法干涉

懂球帝
2026-04-29 17:17:14
韓國(guó)網(wǎng)絡(luò)性剝削團(tuán)伙頭目二審被判終身監(jiān)禁!操控453個(gè)色情群,自稱“牧師”對(duì)261人實(shí)施性犯罪,法院:變態(tài)且具有虐待狂傾向,予以嚴(yán)懲

韓國(guó)網(wǎng)絡(luò)性剝削團(tuán)伙頭目二審被判終身監(jiān)禁!操控453個(gè)色情群,自稱“牧師”對(duì)261人實(shí)施性犯罪,法院:變態(tài)且具有虐待狂傾向,予以嚴(yán)懲

揚(yáng)子晚報(bào)
2026-04-29 21:43:32
重大進(jìn)展!我國(guó)新發(fā)現(xiàn)13個(gè)億噸級(jí)油田

重大進(jìn)展!我國(guó)新發(fā)現(xiàn)13個(gè)億噸級(jí)油田

看看新聞Knews
2026-04-29 12:28:10
江蘇一社區(qū)慰問的“困難老人”住大房子、家里擺五糧液引質(zhì)疑,社區(qū)回應(yīng):確實(shí)不困難,是為給高齡老人過生日

江蘇一社區(qū)慰問的“困難老人”住大房子、家里擺五糧液引質(zhì)疑,社區(qū)回應(yīng):確實(shí)不困難,是為給高齡老人過生日

大象新聞
2026-04-29 14:48:05
蘋果折疊屏 iPhone模型泄露,這外觀真絕了!

蘋果折疊屏 iPhone模型泄露,這外觀真絕了!

科技堡壘
2026-04-28 14:07:54
隨著趙心童10-13出局,斯諾克世錦賽4強(qiáng)誕生2席

隨著趙心童10-13出局,斯諾克世錦賽4強(qiáng)誕生2席

側(cè)身凌空斬
2026-04-30 00:02:11
洛陽白馬寺發(fā)布鄭重聲明:不少游客因通過非官方第三方渠道購(gòu)買非法倒賣的預(yù)約門票,導(dǎo)致無法正常入寺,切勿輕信

洛陽白馬寺發(fā)布鄭重聲明:不少游客因通過非官方第三方渠道購(gòu)買非法倒賣的預(yù)約門票,導(dǎo)致無法正常入寺,切勿輕信

極目新聞
2026-04-29 18:10:47
不打了!確認(rèn)退出G5!曝火箭或交易杜蘭特

不打了!確認(rèn)退出G5!曝火箭或交易杜蘭特

籃球?qū)崙?zhàn)寶典
2026-04-29 17:49:17
中央定調(diào)點(diǎn)名!廣東突然在深圳宣布一個(gè)10萬億大蛋糕!

中央定調(diào)點(diǎn)名!廣東突然在深圳宣布一個(gè)10萬億大蛋糕!

深圳夢(mèng)
2026-04-28 21:56:14
突發(fā)!大批賣家要補(bǔ)稅到倒閉!

突發(fā)!大批賣家要補(bǔ)稅到倒閉!

深度報(bào)
2026-04-29 22:59:41
青島男籃加時(shí)不敵山西,米奇30+22段昂君21+6+4,王奕博關(guān)鍵失誤

青島男籃加時(shí)不敵山西,米奇30+22段昂君21+6+4,王奕博關(guān)鍵失誤

中國(guó)籃壇快訊
2026-04-29 22:03:38
小情侶在餐廳內(nèi)親密互動(dòng),身體抖動(dòng)舉止不雅,目擊者:褲子脫了

小情侶在餐廳內(nèi)親密互動(dòng),身體抖動(dòng)舉止不雅,目擊者:褲子脫了

李晚書
2026-04-29 16:56:06
2026-04-30 01:44:49
藍(lán)媒匯 incentive-icons
藍(lán)媒匯
由資深媒體人打造的新媒體平臺(tái)
1420文章數(shù) 594關(guān)注度
往期回顧 全部

科技要聞

今晨庭審紀(jì)實(shí)|馬斯克當(dāng)庭講述OpenAI被偷走

頭條要聞

伊朗提出先解除封鎖 特朗普回應(yīng)

頭條要聞

伊朗提出先解除封鎖 特朗普回應(yīng)

體育要聞

一場(chǎng)九球狂歡,各路神仙批量下凡

娛樂要聞

馬頔一句話,孫楊媽媽怒罵節(jié)目組2小時(shí)

財(cái)經(jīng)要聞

蘇州,率先進(jìn)入牛市

汽車要聞

技術(shù)天花板再摸高 全能型的奕境X9首秀

態(tài)度原創(chuàng)

時(shí)尚
藝術(shù)
房產(chǎn)
游戲
公開課

夏天穿維希格,原來這么好看

藝術(shù)要聞

揭秘!夢(mèng)露在鏡頭下的絕美瞬間,你絕對(duì)不想錯(cuò)過!

房產(chǎn)要聞

80億投資!浙商總部基地+?诒闭荆鹕碁尺@是要起飛!

平等曹飛所有老玩家的危機(jī)合約,為何是二游高難玩法最高的山?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版