国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

唯一登臺(tái)的中國(guó)大模型創(chuàng)始人,楊植麟美國(guó)GTC首秀,公開Kimi技術(shù)路線圖

0
分享至


智東西
作者|江宇
編輯|云鵬

智東西3月18日?qǐng)?bào)道,今日凌晨,在英偉達(dá)GTC大會(huì)上,月之暗面創(chuàng)始人楊植麟作為本屆唯一受邀現(xiàn)場(chǎng)演講的中國(guó)獨(dú)立大模型公司創(chuàng)始人,發(fā)表題為《How We Scaled Kimi K2.5》的演講,首次完整披露Kimi K2.5背后的技術(shù)路線圖。


就在3月16日,月之暗面剛剛發(fā)布最新論文,提前預(yù)覽了下一代模型的關(guān)鍵模塊——注意力殘差(Attention Residuals,簡(jiǎn)稱AttnRes)。這篇論文的核心,是對(duì)大模型中最基礎(chǔ)、卻長(zhǎng)期被默認(rèn)接受的結(jié)構(gòu)之一殘差連接(Residual Connection)的重新設(shè)計(jì)。


這項(xiàng)進(jìn)展很快引發(fā)海外AI圈關(guān)注。埃隆·馬斯克(Elon Musk)稱其“令人印象深刻”;前OpenAI研究副總裁、聯(lián)合創(chuàng)始人安德烈·卡帕西(Andrej Karpathy)則直言,人們對(duì)《Attention is All You Need》這篇Transformer開山之作的理解,可能還不夠充分


而在這次GTC演講中,楊植麟將這項(xiàng)研究放回Kimi更完整的技術(shù)框架中,給出了一張更系統(tǒng)的“路線圖”。他將Kimi K2.5的進(jìn)化邏輯概括為三個(gè)維度的共振:Token效率長(zhǎng)上下文智能體集群(Agent Swarms)。

在楊植麟看來(lái),當(dāng)前的Scaling已經(jīng)不再是單純的資源堆砌,而是要在計(jì)算效率、長(zhǎng)程記憶和自動(dòng)化協(xié)作上同時(shí)尋找規(guī)模效應(yīng)。如果能將這三個(gè)維度的技術(shù)增益相乘,模型將表現(xiàn)出遠(yuǎn)超現(xiàn)狀的智能水平。

這也是自1月底Kimi發(fā)布K2.5以來(lái),月之暗面首次把這套技術(shù)路線圖系統(tǒng)披露。


楊植麟提出,行業(yè)目前普遍使用的很多技術(shù)標(biāo)準(zhǔn),本質(zhì)上是八九年前的產(chǎn)物,正逐漸成為Scaling(拓展)的瓶頸。圍繞這一問(wèn)題,Kimi團(tuán)隊(duì)選擇從優(yōu)化器、注意力機(jī)制和殘差連接三個(gè)基礎(chǔ)模塊入手,逐一重構(gòu),并持續(xù)開源。

一、重寫訓(xùn)練底座:MuonClip把Token效率推高到AdamW的2倍

Kimi團(tuán)隊(duì)把第一項(xiàng)重點(diǎn)放在Token效率上,楊植麟在演講中重點(diǎn)討論了優(yōu)化器問(wèn)題。

他提到,自2014年以來(lái),Adam優(yōu)化器一直是行業(yè)默認(rèn)選擇,但在超大規(guī)模訓(xùn)練中,更高Token效率的替代方案已經(jīng)成為重要方向。Kimi團(tuán)隊(duì)在實(shí)驗(yàn)中驗(yàn)證,Muon優(yōu)化器在Token效率上具備顯著優(yōu)勢(shì),在相近計(jì)算預(yù)算下,可以將訓(xùn)練Token以兩倍的效率轉(zhuǎn)化為模型能力。


▲Muon優(yōu)化器在相同算力下實(shí)現(xiàn)約2倍Token效率

不過(guò),楊植麟也指出,在將Muon擴(kuò)展至萬(wàn)億參數(shù)規(guī)模的K2模型訓(xùn)練過(guò)程中,Kimi團(tuán)隊(duì)遇到了穩(wěn)定性問(wèn)題:訓(xùn)練中出現(xiàn)Logits爆炸,最大值迅速超過(guò)1000,導(dǎo)致模型發(fā)散。

針對(duì)這一問(wèn)題,Kimi團(tuán)隊(duì)提出MuonClip優(yōu)化器。楊植麟稱,該方法通過(guò)Newton-Schulz迭代結(jié)合QK-Clip機(jī)制,對(duì)訓(xùn)練過(guò)程中的數(shù)值進(jìn)行約束。在實(shí)際訓(xùn)練中,Kimi K2的max logits被控制在100以內(nèi)并逐步回落,同時(shí)模型loss沒有受到負(fù)面影響,實(shí)現(xiàn)了穩(wěn)定訓(xùn)練。


▲MuonClip將max logits控制在100以內(nèi),實(shí)現(xiàn)穩(wěn)定訓(xùn)練

他同時(shí)提到,為了讓Muon在大規(guī)模GPU集群中具備可擴(kuò)展性,Kimi團(tuán)隊(duì)還設(shè)計(jì)了“Distributed Muon(分布式Muon)”,將優(yōu)化器狀態(tài)分布在數(shù)據(jù)并行組中,在需要時(shí)再聚合梯度完成計(jì)算,以提升內(nèi)存效率和整體訓(xùn)練效率。

二、第二個(gè)重點(diǎn)是長(zhǎng)上下文:Kimi Linear把128K到1M解碼速度拉高5到6倍

長(zhǎng)上下文是Kimi這次路線圖的第二條主線。

在這部分,楊植麟重點(diǎn)介紹了Kimi Linear。這是一套基于KDA(Kimi Delta Attention,Kimi增量注意力)的混合線性注意力架構(gòu)。

它的核心思路,是重新安排注意力層的組成方式,而不是默認(rèn)所有層都使用全注意力(Full Attention)。

具體來(lái)看,Kimi Linear采用約3:1的KDA與全局注意力混合比例,在降低內(nèi)存開銷的同時(shí),保持模型表達(dá)能力。

楊植麟在演講中提到,Kimi Linear已經(jīng)完成1.4T token規(guī)模訓(xùn)練,在長(zhǎng)上下文、短上下文以及強(qiáng)化學(xué)習(xí)任務(wù)中均優(yōu)于全注意力及其他基線方案。


更直接的變化體現(xiàn)在推理效率上。在128K到1M上下文范圍內(nèi),解碼速度可提升約5到6倍,同時(shí)在不同長(zhǎng)度場(chǎng)景下保持穩(wěn)定表現(xiàn)。


這一改動(dòng)解決的是一個(gè)長(zhǎng)期存在的問(wèn)題:上下文窗口不斷擴(kuò)大,但推理成本和延遲同步上升,導(dǎo)致長(zhǎng)任務(wù)能力難以真正落地。Kimi Linear則將長(zhǎng)上下文從“可支持能力”轉(zhuǎn)變?yōu)椤翱筛咝褂媚芰Α薄?/p>

三、改寫殘差連接:讓每一層更主動(dòng)地取信息

相比優(yōu)化器和線性注意力,Attention Residuals(注意力殘差)也是Kimi這次技術(shù)路線圖里尤為關(guān)鍵的一項(xiàng)嘗試。

殘差連接是深度網(wǎng)絡(luò)里極其基礎(chǔ)的一層設(shè)計(jì),已經(jīng)用了十年左右。

楊植麟提到,傳統(tǒng)殘差連接采用固定加法累加方式,隨著網(wǎng)絡(luò)加深,隱藏狀態(tài)會(huì)持續(xù)增長(zhǎng),深層信息容易被稀釋。Kimi團(tuán)隊(duì)的做法,是將殘差路徑替換為基于Softmax注意力的動(dòng)態(tài)聚合,使模型可以根據(jù)輸入內(nèi)容,有選擇地從前序?qū)荧@取信息。

這一變化讓信息流從“逐層疊加”轉(zhuǎn)向“按需讀取”,在深層網(wǎng)絡(luò)中保持更穩(wěn)定的信息表達(dá)。

在這一部分,楊植麟延伸了前OpenAI首席科學(xué)家(Ilya Sutskever)在NeurIPS 2024的相關(guān)思路:如果將殘差連接視為沿深度展開的簡(jiǎn)化LSTM,那么Attention可以理解為對(duì)這條信息通道的進(jìn)一步擴(kuò)展。


▲Ilya提出“將LSTM旋轉(zhuǎn)90度得到殘差連接”,Attention可視為其擴(kuò)展

基于這一理解,Kimi提出Attention Residuals,并已將相關(guān)代碼與技術(shù)報(bào)告開源。

四、視覺強(qiáng)化學(xué)習(xí)反哺文本能力,跨模態(tài)帶來(lái)認(rèn)知增益

除了模型底層架構(gòu),楊植麟在演講中還分享了一項(xiàng)跨模態(tài)研究方向的重要觀察。

他提到,在原生視覺-文本聯(lián)合預(yù)訓(xùn)練過(guò)程中,引入視覺強(qiáng)化學(xué)習(xí)(Vision RL)后,模型不僅在視覺任務(wù)上表現(xiàn)提升,也會(huì)反向提升純文本能力。消融實(shí)驗(yàn)結(jié)果顯示,在經(jīng)過(guò)視覺RL訓(xùn)練后,模型在MMLU-Pro和GPQA-Diamond等文本基準(zhǔn)上的表現(xiàn)提升約1.7%-2.2%。


楊植麟認(rèn)為,這表明空間推理與視覺邏輯能力,可以轉(zhuǎn)化為更深層的通用認(rèn)知能力。相關(guān)工作也指向一個(gè)方向:多模態(tài)訓(xùn)練的價(jià)值,已經(jīng)從“擴(kuò)展輸入形式”,轉(zhuǎn)向“提升底層推理能力”。

他同時(shí)提到,Kimi團(tuán)隊(duì)正在推進(jìn)“首個(gè)原生聯(lián)合視覺-文本能力的開放模型(First open model with native, joint vision-text capabilities)”。

五、從單Agent到集群協(xié)作:Kimi押注Agent Swarms

演講最后一部分,楊植麟把重點(diǎn)落在智能體集群(Agent Swarms)上。

他在演講中提到,未來(lái)的智能體形態(tài)將從單智能體,轉(zhuǎn)向可以動(dòng)態(tài)生成的集群系統(tǒng)。Kimi K2.5引入Orchestrator(編排器),能夠根據(jù)任務(wù)需求創(chuàng)建多個(gè)子Agent,并將復(fù)雜任務(wù)拆解為并行子任務(wù)執(zhí)行。


▲Orchestrator動(dòng)態(tài)生成子Agent并并行執(zhí)行任務(wù)

這些子Agent可以承擔(dān)不同角色,例如AI Researcher(AI研究員)、Physics Researcher(物理研究員)、Fact Checker(事實(shí)核查員)等,通過(guò)分工協(xié)作完成整體任務(wù)。

楊植麟進(jìn)一步補(bǔ)充,這類系統(tǒng)可以覆蓋從輸入到輸出的完整流程,包括大規(guī)模信息獲?。↖nput at Scale)、并行操作(Actions at Scale)、任務(wù)編排(Orchestration at Scale)以及長(zhǎng)結(jié)果生成(Output at Scale)。

隨著任務(wù)復(fù)雜度提升,智能體集群相比單Agent的效率優(yōu)勢(shì)會(huì)持續(xù)擴(kuò)大。在實(shí)驗(yàn)中,執(zhí)行時(shí)間可獲得數(shù)倍縮短。


他同時(shí)指出,多Agent系統(tǒng)容易出現(xiàn)“串行塌縮”,即表面多Agent,實(shí)際退回單Agent執(zhí)行。為此,Kimi設(shè)計(jì)了并行強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)機(jī)制,包括Instantiation reward(實(shí)例化獎(jiǎng)勵(lì))、Finish reward(完成獎(jiǎng)勵(lì))和Outcome reward(結(jié)果獎(jiǎng)勵(lì)),用于引導(dǎo)模型真正進(jìn)行任務(wù)拆解和并行執(zhí)行。


▲三類獎(jiǎng)勵(lì)機(jī)制用于防止“偽并行”和串行塌縮

結(jié)語(yǔ):Kimi給出一張新的Scaling施工圖

在總結(jié)中,楊植麟談到了AI研究范式的變化。

他提到,過(guò)去受限于算力資源,研究往往難以在不同規(guī)模上驗(yàn)證同一方法。而隨著“Scaling Ladder(縮放階梯)”的建立,研究者可以進(jìn)行更系統(tǒng)的規(guī)?;瘜?shí)驗(yàn),從而得到更可靠的結(jié)論。

這也成為Kimi當(dāng)前路徑的基礎(chǔ):Adam誕生已超過(guò)11年,Kimi將其推進(jìn)為MuonClip并開源;Attention提出已超過(guò)8年,Kimi發(fā)展出Kimi Linear并開源;Residual connections已有約10年歷史,Kimi進(jìn)一步提出Attention Residuals并開源。


整體來(lái)看,Kimi此次披露的路線圖,將下一階段大模型競(jìng)爭(zhēng)的焦點(diǎn)明確到了三條主線:訓(xùn)練效率、長(zhǎng)上下文能力以及智能體協(xié)作結(jié)構(gòu)。這三條路徑正在同時(shí)推進(jìn),并開始相互疊加。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
醫(yī)生勸告:心梗最危險(xiǎn)信號(hào),不是胸痛,而是頻繁出現(xiàn)這3個(gè)癥狀

醫(yī)生勸告:心梗最危險(xiǎn)信號(hào),不是胸痛,而是頻繁出現(xiàn)這3個(gè)癥狀

蜉蝣說(shuō)
2026-03-07 17:51:37
尾盤猛拉!601606,直線漲停!軍工股大爆發(fā)

尾盤猛拉!601606,直線漲停!軍工股大爆發(fā)

證券時(shí)報(bào)e公司
2026-03-25 16:55:50
張雨綺這腿,肉絲搭配,絕了!

張雨綺這腿,肉絲搭配,絕了!

皮蛋兒電影
2026-03-25 18:55:09
余承東宣布華為手機(jī)全面回歸!大方公布CPU型號(hào) 支持5A網(wǎng)絡(luò) 麒麟處理器全國(guó)產(chǎn)突破美國(guó)制裁

余承東宣布華為手機(jī)全面回歸!大方公布CPU型號(hào) 支持5A網(wǎng)絡(luò) 麒麟處理器全國(guó)產(chǎn)突破美國(guó)制裁

快科技
2026-03-24 15:22:21
可控核聚變一旦實(shí)現(xiàn),100克的核燃料,可以讓一輛汽車跑多遠(yuǎn)?

可控核聚變一旦實(shí)現(xiàn),100克的核燃料,可以讓一輛汽車跑多遠(yuǎn)?

向航說(shuō)
2026-03-24 00:20:03
俄國(guó)家杜馬國(guó)防委員會(huì)副主席尤里·什維特金因不明原因去世

俄國(guó)家杜馬國(guó)防委員會(huì)副主席尤里·什維特金因不明原因去世

山河路口
2026-03-24 17:13:44
美國(guó)最擔(dān)心的事發(fā)生了,伊朗亮出中國(guó)“底牌”,中國(guó)或成最大贏家

美國(guó)最擔(dān)心的事發(fā)生了,伊朗亮出中國(guó)“底牌”,中國(guó)或成最大贏家

徐云流浪中國(guó)
2026-03-04 15:30:07
鄭麗文危險(xiǎn)了!國(guó)民黨內(nèi)斗大爆發(fā),馬英九亮出底牌,搞不好要反目

鄭麗文危險(xiǎn)了!國(guó)民黨內(nèi)斗大爆發(fā),馬英九亮出底牌,搞不好要反目

林子說(shuō)事
2026-03-26 00:15:54
上海電影院現(xiàn)場(chǎng)被捉奸,帶情夫當(dāng)老公面出軌,狗血女主角真容曝光

上海電影院現(xiàn)場(chǎng)被捉奸,帶情夫當(dāng)老公面出軌,狗血女主角真容曝光

靜若梨花
2026-03-01 16:25:46
首爾的“危險(xiǎn)天平”:俄羅斯為何如此擔(dān)心韓國(guó)援烏

首爾的“危險(xiǎn)天平”:俄羅斯為何如此擔(dān)心韓國(guó)援烏

民間胡扯老哥
2026-03-23 19:00:36
韓國(guó)KF-21首架量產(chǎn)機(jī)出廠,李在明發(fā)聲

韓國(guó)KF-21首架量產(chǎn)機(jī)出廠,李在明發(fā)聲

環(huán)球網(wǎng)資訊
2026-03-25 19:39:15
14.99萬(wàn)!“史上最便宜”特斯拉來(lái)了

14.99萬(wàn)!“史上最便宜”特斯拉來(lái)了

首席品牌觀察
2026-03-24 16:18:39
張雪峰走了,他公司所在的這棟樓高177.8米,耗資超10億!

張雪峰走了,他公司所在的這棟樓高177.8米,耗資超10億!

GA環(huán)球建筑
2026-03-26 01:37:19
痛心!江西跑友劉濤去世,僅51歲,生前堅(jiān)持晨跑,是3家公司老板

痛心!江西跑友劉濤去世,僅51歲,生前堅(jiān)持晨跑,是3家公司老板

離離言幾許
2026-02-25 10:43:45
宇樹科技即將上市,王興興最新身價(jià)曝光

宇樹科技即將上市,王興興最新身價(jià)曝光

新行情
2026-03-25 14:56:59
伊朗拒絕美國(guó)停戰(zhàn)方案并提出伊方5項(xiàng)條件

伊朗拒絕美國(guó)停戰(zhàn)方案并提出伊方5項(xiàng)條件

新華社
2026-03-25 23:49:02
瞿穎和胡兵的瓜爆了,信息量有點(diǎn)大...這比周冬雨劉昊然領(lǐng)證離譜10倍

瞿穎和胡兵的瓜爆了,信息量有點(diǎn)大...這比周冬雨劉昊然領(lǐng)證離譜10倍

陳意小可愛
2026-03-24 09:49:57
上海偶遇岳云鵬,氣場(chǎng)強(qiáng)大看著不好惹,助理無(wú)視岳云鵬當(dāng)街抽煙

上海偶遇岳云鵬,氣場(chǎng)強(qiáng)大看著不好惹,助理無(wú)視岳云鵬當(dāng)街抽煙

樂(lè)悠悠娛樂(lè)
2026-03-24 11:22:16
內(nèi)塔尼亞胡:對(duì)惡絕不手軟,才是對(duì)和平最大的負(fù)責(zé)

內(nèi)塔尼亞胡:對(duì)惡絕不手軟,才是對(duì)和平最大的負(fù)責(zé)

老馬拉車莫少裝
2026-03-22 23:24:28
主動(dòng)退市獲批!603056,下周二摘牌!

主動(dòng)退市獲批!603056,下周二摘牌!

證券時(shí)報(bào)e公司
2026-03-25 19:35:03
2026-03-26 02:35:00
智東西 incentive-icons
智東西
聚焦智能變革,服務(wù)產(chǎn)業(yè)升級(jí)。
11433文章數(shù) 117015關(guān)注度
往期回顧 全部

科技要聞

紅極一時(shí)卻草草收?qǐng)?,Sora宣布正式關(guān)停

頭條要聞

伊朗:正在搜捕逃亡美軍

頭條要聞

伊朗:正在搜捕逃亡美軍

體育要聞

35歲替補(bǔ)門將,憑什么入選英格蘭隊(duì)?

娛樂(lè)要聞

張雪峰遺產(chǎn)分割復(fù)雜!是否立遺囑成關(guān)鍵

財(cái)經(jīng)要聞

管濤:中東局勢(shì)如何影響人民幣匯率走勢(shì)?

汽車要聞

智己LS8放大招 30萬(wàn)內(nèi)8系旗艦+全線控底盤秀實(shí)力

態(tài)度原創(chuàng)

時(shí)尚
教育
數(shù)碼
本地
軍事航空

女人過(guò)了40歲別胡亂穿衣,趕緊看看這些日系穿搭,舒適又耐看

教育要聞

那些躺平的孩子,其實(shí)是看透了父母的偽裝

數(shù)碼要聞

蘋果macOS 26.4新增“慢速充電器”提示

本地新聞

來(lái)永泰同安 赴一場(chǎng)春天的約會(huì)

軍事要聞

伊朗重申非交戰(zhàn)國(guó)家船只可安全通過(guò)霍爾木茲海峽

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版