国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

唯一登臺(tái)的中國(guó)大模型創(chuàng)始人,楊植麟美國(guó)GTC首秀,公開Kimi技術(shù)路線圖

0
分享至


智東西
作者|江宇
編輯|云鵬

智東西3月18日?qǐng)?bào)道,今日凌晨,在英偉達(dá)GTC大會(huì)上,月之暗面創(chuàng)始人楊植麟作為本屆唯一受邀現(xiàn)場(chǎng)演講的中國(guó)獨(dú)立大模型公司創(chuàng)始人,發(fā)表題為《How We Scaled Kimi K2.5》的演講,首次完整披露Kimi K2.5背后的技術(shù)路線圖


就在3月16日,月之暗面剛剛發(fā)布最新論文,提前預(yù)覽了下一代模型的關(guān)鍵模塊——注意力殘差(Attention Residuals,簡(jiǎn)稱AttnRes)。這篇論文的核心,是對(duì)大模型中最基礎(chǔ)、卻長(zhǎng)期被默認(rèn)接受的結(jié)構(gòu)之一殘差連接(Residual Connection)的重新設(shè)計(jì)。


這項(xiàng)進(jìn)展很快引發(fā)海外AI圈關(guān)注。埃隆·馬斯克(Elon Musk)稱其“令人印象深刻”;前OpenAI研究副總裁、聯(lián)合創(chuàng)始人安德烈·卡帕西(Andrej Karpathy)則直言,人們對(duì)《Attention is All You Need》這篇Transformer開山之作的理解,可能還不夠充分。


而在這次GTC演講中,楊植麟將這項(xiàng)研究放回Kimi更完整的技術(shù)框架中,給出了一張更系統(tǒng)的“路線圖”。他將Kimi K2.5的進(jìn)化邏輯概括為三個(gè)維度的共振:Token效率、長(zhǎng)上下文智能體集群(Agent Swarms)。

在楊植麟看來,當(dāng)前的Scaling已經(jīng)不再是單純的資源堆砌,而是要在計(jì)算效率、長(zhǎng)程記憶和自動(dòng)化協(xié)作上同時(shí)尋找規(guī)模效應(yīng)。如果能將這三個(gè)維度的技術(shù)增益相乘,模型將表現(xiàn)出遠(yuǎn)超現(xiàn)狀的智能水平。

這也是自1月底Kimi發(fā)布K2.5以來,月之暗面首次把這套技術(shù)路線圖系統(tǒng)披露。


楊植麟提出,行業(yè)目前普遍使用的很多技術(shù)標(biāo)準(zhǔn),本質(zhì)上是八九年前的產(chǎn)物,正逐漸成為Scaling(拓展)的瓶頸。圍繞這一問題,Kimi團(tuán)隊(duì)選擇從優(yōu)化器、注意力機(jī)制和殘差連接三個(gè)基礎(chǔ)模塊入手,逐一重構(gòu),并持續(xù)開源。

一、重寫訓(xùn)練底座:MuonClip把Token效率推高到AdamW的2倍

Kimi團(tuán)隊(duì)把第一項(xiàng)重點(diǎn)放在Token效率上,楊植麟在演講中重點(diǎn)討論了優(yōu)化器問題。

他提到,自2014年以來,Adam優(yōu)化器一直是行業(yè)默認(rèn)選擇,但在超大規(guī)模訓(xùn)練中,更高Token效率的替代方案已經(jīng)成為重要方向。Kimi團(tuán)隊(duì)在實(shí)驗(yàn)中驗(yàn)證,Muon優(yōu)化器在Token效率上具備顯著優(yōu)勢(shì),在相近計(jì)算預(yù)算下,可以將訓(xùn)練Token以兩倍的效率轉(zhuǎn)化為模型能力。


▲Muon優(yōu)化器在相同算力下實(shí)現(xiàn)約2倍Token效率

不過,楊植麟也指出,在將Muon擴(kuò)展至萬(wàn)億參數(shù)規(guī)模的K2模型訓(xùn)練過程中,Kimi團(tuán)隊(duì)遇到了穩(wěn)定性問題:訓(xùn)練中出現(xiàn)Logits爆炸,最大值迅速超過1000,導(dǎo)致模型發(fā)散。

針對(duì)這一問題,Kimi團(tuán)隊(duì)提出MuonClip優(yōu)化器。楊植麟稱,該方法通過Newton-Schulz迭代結(jié)合QK-Clip機(jī)制,對(duì)訓(xùn)練過程中的數(shù)值進(jìn)行約束。在實(shí)際訓(xùn)練中,Kimi K2的max logits被控制在100以內(nèi)并逐步回落,同時(shí)模型loss沒有受到負(fù)面影響,實(shí)現(xiàn)了穩(wěn)定訓(xùn)練。


▲MuonClip將max logits控制在100以內(nèi),實(shí)現(xiàn)穩(wěn)定訓(xùn)練

他同時(shí)提到,為了讓Muon在大規(guī)模GPU集群中具備可擴(kuò)展性,Kimi團(tuán)隊(duì)還設(shè)計(jì)了“Distributed Muon(分布式Muon)”,將優(yōu)化器狀態(tài)分布在數(shù)據(jù)并行組中,在需要時(shí)再聚合梯度完成計(jì)算,以提升內(nèi)存效率和整體訓(xùn)練效率。

二、第二個(gè)重點(diǎn)是長(zhǎng)上下文:Kimi Linear把128K到1M解碼速度拉高5到6倍

長(zhǎng)上下文是Kimi這次路線圖的第二條主線。

在這部分,楊植麟重點(diǎn)介紹了Kimi Linear。這是一套基于KDA(Kimi Delta Attention,Kimi增量注意力)的混合線性注意力架構(gòu)。

它的核心思路,是重新安排注意力層的組成方式,而不是默認(rèn)所有層都使用全注意力(Full Attention)。

具體來看,Kimi Linear采用約3:1的KDA與全局注意力混合比例,在降低內(nèi)存開銷的同時(shí),保持模型表達(dá)能力。

楊植麟在演講中提到,Kimi Linear已經(jīng)完成1.4T token規(guī)模訓(xùn)練,在長(zhǎng)上下文、短上下文以及強(qiáng)化學(xué)習(xí)任務(wù)中均優(yōu)于全注意力及其他基線方案。


更直接的變化體現(xiàn)在推理效率上。在128K到1M上下文范圍內(nèi),解碼速度可提升約5到6倍,同時(shí)在不同長(zhǎng)度場(chǎng)景下保持穩(wěn)定表現(xiàn)。


這一改動(dòng)解決的是一個(gè)長(zhǎng)期存在的問題:上下文窗口不斷擴(kuò)大,但推理成本和延遲同步上升,導(dǎo)致長(zhǎng)任務(wù)能力難以真正落地。Kimi Linear則將長(zhǎng)上下文從“可支持能力”轉(zhuǎn)變?yōu)椤翱筛咝褂媚芰Α薄?/p>

三、改寫殘差連接:讓每一層更主動(dòng)地取信息

相比優(yōu)化器和線性注意力,Attention Residuals(注意力殘差)也是Kimi這次技術(shù)路線圖里尤為關(guān)鍵的一項(xiàng)嘗試。

殘差連接是深度網(wǎng)絡(luò)里極其基礎(chǔ)的一層設(shè)計(jì),已經(jīng)用了十年左右。

楊植麟提到,傳統(tǒng)殘差連接采用固定加法累加方式,隨著網(wǎng)絡(luò)加深,隱藏狀態(tài)會(huì)持續(xù)增長(zhǎng),深層信息容易被稀釋。Kimi團(tuán)隊(duì)的做法,是將殘差路徑替換為基于Softmax注意力的動(dòng)態(tài)聚合,使模型可以根據(jù)輸入內(nèi)容,有選擇地從前序?qū)荧@取信息。

這一變化讓信息流從“逐層疊加”轉(zhuǎn)向“按需讀取”,在深層網(wǎng)絡(luò)中保持更穩(wěn)定的信息表達(dá)。

在這一部分,楊植麟延伸了前OpenAI首席科學(xué)家(Ilya Sutskever)在NeurIPS 2024的相關(guān)思路:如果將殘差連接視為沿深度展開的簡(jiǎn)化LSTM,那么Attention可以理解為對(duì)這條信息通道的進(jìn)一步擴(kuò)展。


▲Ilya提出“將LSTM旋轉(zhuǎn)90度得到殘差連接”,Attention可視為其擴(kuò)展

基于這一理解,Kimi提出Attention Residuals,并已將相關(guān)代碼與技術(shù)報(bào)告開源。

四、視覺強(qiáng)化學(xué)習(xí)反哺文本能力,跨模態(tài)帶來認(rèn)知增益

除了模型底層架構(gòu),楊植麟在演講中還分享了一項(xiàng)跨模態(tài)研究方向的重要觀察。

他提到,在原生視覺-文本聯(lián)合預(yù)訓(xùn)練過程中,引入視覺強(qiáng)化學(xué)習(xí)(Vision RL)后,模型不僅在視覺任務(wù)上表現(xiàn)提升,也會(huì)反向提升純文本能力。消融實(shí)驗(yàn)結(jié)果顯示,在經(jīng)過視覺RL訓(xùn)練后,模型在MMLU-Pro和GPQA-Diamond等文本基準(zhǔn)上的表現(xiàn)提升約1.7%-2.2%


楊植麟認(rèn)為,這表明空間推理與視覺邏輯能力,可以轉(zhuǎn)化為更深層的通用認(rèn)知能力。相關(guān)工作也指向一個(gè)方向:多模態(tài)訓(xùn)練的價(jià)值,已經(jīng)從“擴(kuò)展輸入形式”,轉(zhuǎn)向“提升底層推理能力”。

他同時(shí)提到,Kimi團(tuán)隊(duì)正在推進(jìn)“首個(gè)原生聯(lián)合視覺-文本能力的開放模型(First open model with native, joint vision-text capabilities)”。

五、從單Agent到集群協(xié)作:Kimi押注Agent Swarms

演講最后一部分,楊植麟把重點(diǎn)落在智能體集群(Agent Swarms)上。

他在演講中提到,未來的智能體形態(tài)將從單智能體,轉(zhuǎn)向可以動(dòng)態(tài)生成的集群系統(tǒng)。Kimi K2.5引入Orchestrator(編排器),能夠根據(jù)任務(wù)需求創(chuàng)建多個(gè)子Agent,并將復(fù)雜任務(wù)拆解為并行子任務(wù)執(zhí)行。


▲Orchestrator動(dòng)態(tài)生成子Agent并并行執(zhí)行任務(wù)

這些子Agent可以承擔(dān)不同角色,例如AI Researcher(AI研究員)、Physics Researcher(物理研究員)、Fact Checker(事實(shí)核查員)等,通過分工協(xié)作完成整體任務(wù)。

楊植麟進(jìn)一步補(bǔ)充,這類系統(tǒng)可以覆蓋從輸入到輸出的完整流程,包括大規(guī)模信息獲?。↖nput at Scale)、并行操作(Actions at Scale)、任務(wù)編排(Orchestration at Scale)以及長(zhǎng)結(jié)果生成(Output at Scale)。

隨著任務(wù)復(fù)雜度提升,智能體集群相比單Agent的效率優(yōu)勢(shì)會(huì)持續(xù)擴(kuò)大。在實(shí)驗(yàn)中,執(zhí)行時(shí)間可獲得數(shù)倍縮短。


他同時(shí)指出,多Agent系統(tǒng)容易出現(xiàn)“串行塌縮”,即表面多Agent,實(shí)際退回單Agent執(zhí)行。為此,Kimi設(shè)計(jì)了并行強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)機(jī)制,包括Instantiation reward(實(shí)例化獎(jiǎng)勵(lì))、Finish reward(完成獎(jiǎng)勵(lì))和Outcome reward(結(jié)果獎(jiǎng)勵(lì)),用于引導(dǎo)模型真正進(jìn)行任務(wù)拆解和并行執(zhí)行。


▲三類獎(jiǎng)勵(lì)機(jī)制用于防止“偽并行”和串行塌縮

結(jié)語(yǔ):Kimi給出一張新的Scaling施工圖

在總結(jié)中,楊植麟談到了AI研究范式的變化。

他提到,過去受限于算力資源,研究往往難以在不同規(guī)模上驗(yàn)證同一方法。而隨著“Scaling Ladder(縮放階梯)”的建立,研究者可以進(jìn)行更系統(tǒng)的規(guī)模化實(shí)驗(yàn),從而得到更可靠的結(jié)論。

這也成為Kimi當(dāng)前路徑的基礎(chǔ):Adam誕生已超過11年,Kimi將其推進(jìn)為MuonClip并開源;Attention提出已超過8年,Kimi發(fā)展出Kimi Linear并開源;Residual connections已有約10年歷史,Kimi進(jìn)一步提出Attention Residuals并開源。


整體來看,Kimi此次披露的路線圖,將下一階段大模型競(jìng)爭(zhēng)的焦點(diǎn)明確到了三條主線:訓(xùn)練效率、長(zhǎng)上下文能力以及智能體協(xié)作結(jié)構(gòu)。這三條路徑正在同時(shí)推進(jìn),并開始相互疊加。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
伊朗外長(zhǎng):伊朗經(jīng)調(diào)解方與美“交流信息” 沒有談判

伊朗外長(zhǎng):伊朗經(jīng)調(diào)解方與美“交流信息” 沒有談判

新華社
2026-03-26 04:23:02
復(fù)刻莫德里奇奇跡?米蘭加速免簽31歲老將,靠中場(chǎng)制造復(fù)興機(jī)會(huì)

復(fù)刻莫德里奇奇跡?米蘭加速免簽31歲老將,靠中場(chǎng)制造復(fù)興機(jī)會(huì)

里芃芃體育
2026-03-25 16:00:13
省政府領(lǐng)導(dǎo)班子密集調(diào)整,省委常委任常務(wù)副省長(zhǎng)

省政府領(lǐng)導(dǎo)班子密集調(diào)整,省委常委任常務(wù)副省長(zhǎng)

上觀新聞
2026-03-25 15:46:23
《奔跑吧14》正式定檔4月24日!新老陣容煥新,經(jīng)典環(huán)節(jié)重啟

《奔跑吧14》正式定檔4月24日!新老陣容煥新,經(jīng)典環(huán)節(jié)重啟

齊魯壹點(diǎn)
2026-03-25 18:00:36
德藝雙馨:涼森玲夢(mèng),在透明感與治愈力中修煉的現(xiàn)役模范生

德藝雙馨:涼森玲夢(mèng),在透明感與治愈力中修煉的現(xiàn)役模范生

碧波萬(wàn)覽
2026-03-26 00:25:56
新版外交藍(lán)皮書擬將中國(guó)降級(jí)為“重要鄰國(guó)”,刪除與臺(tái)灣掛鉤表述

新版外交藍(lán)皮書擬將中國(guó)降級(jí)為“重要鄰國(guó)”,刪除與臺(tái)灣掛鉤表述

東瀛萬(wàn)事通
2026-03-25 16:40:05
短短1年,靈活就業(yè)者暴增4千萬(wàn)

短短1年,靈活就業(yè)者暴增4千萬(wàn)

深度報(bào)
2026-03-23 21:47:58
U23國(guó)足2-2逼平泰國(guó),名宿范志毅賽后點(diǎn)評(píng)言辭犀利,句句在理!

U23國(guó)足2-2逼平泰國(guó),名宿范志毅賽后點(diǎn)評(píng)言辭犀利,句句在理!

田先生籃球
2026-03-25 22:37:26
完勝奧利塞!利物浦鎖定薩拉赫接班人,他可以超過馬內(nèi)

完勝奧利塞!利物浦鎖定薩拉赫接班人,他可以超過馬內(nèi)

瀾歸序
2026-03-26 06:44:36
“超級(jí)中學(xué)生”來了!北京中學(xué)出了個(gè)14歲“蝦王”!

“超級(jí)中學(xué)生”來了!北京中學(xué)出了個(gè)14歲“蝦王”!

京城教育圈
2026-03-25 18:20:46
20分慘??!CBA焦點(diǎn)1戰(zhàn),山東大破新疆男籃,鞏曉彬苦笑:都輸麻了

20分慘??!CBA焦點(diǎn)1戰(zhàn),山東大破新疆男籃,鞏曉彬苦笑:都輸麻了

話體壇
2026-03-25 22:16:29
中方堅(jiān)決扣留船只,美方及時(shí)干預(yù) 取消中企投標(biāo)資格,巴拿馬難挽

中方堅(jiān)決扣留船只,美方及時(shí)干預(yù) 取消中企投標(biāo)資格,巴拿馬難挽

南宗歷史
2026-03-25 16:04:15
14.99萬(wàn)!“史上最便宜”特斯拉來了

14.99萬(wàn)!“史上最便宜”特斯拉來了

首席品牌觀察
2026-03-24 16:18:39
《鏢人》再破紀(jì)錄,打敗《飛馳人生3》,登頂中國(guó)冠軍

《鏢人》再破紀(jì)錄,打敗《飛馳人生3》,登頂中國(guó)冠軍

影視高原說
2026-03-24 19:32:39
拖垮一個(gè)普通家庭,只需要一臺(tái)20萬(wàn)的車。

拖垮一個(gè)普通家庭,只需要一臺(tái)20萬(wàn)的車。

老陸不老
2026-03-24 20:20:23
炸鍋!利物浦 1.25 億標(biāo)王主動(dòng)申請(qǐng)離隊(duì),首選下家完全出乎意料

炸鍋!利物浦 1.25 億標(biāo)王主動(dòng)申請(qǐng)離隊(duì),首選下家完全出乎意料

瀾歸序
2026-03-26 06:08:07
日本警方稱將對(duì)中使館實(shí)施24小時(shí)警戒,陸上自衛(wèi)隊(duì):會(huì)作出嚴(yán)肅處理

日本警方稱將對(duì)中使館實(shí)施24小時(shí)警戒,陸上自衛(wèi)隊(duì):會(huì)作出嚴(yán)肅處理

每日經(jīng)濟(jì)新聞
2026-03-25 12:57:46
未提車就變“老款”,問界M7“背刺”車主!律師:可能構(gòu)成欺詐

未提車就變“老款”,問界M7“背刺”車主!律師:可能構(gòu)成欺詐

北京商報(bào)
2026-03-25 19:00:22
青島市市場(chǎng)監(jiān)督管理局原一級(jí)巡視員孫利國(guó)接受紀(jì)律審查和監(jiān)察調(diào)查

青島市市場(chǎng)監(jiān)督管理局原一級(jí)巡視員孫利國(guó)接受紀(jì)律審查和監(jiān)察調(diào)查

半島官網(wǎng)
2026-03-25 17:24:09
劇情反轉(zhuǎn)!重慶舉報(bào)案持續(xù)發(fā)酵,紀(jì)檢部門火速介入

劇情反轉(zhuǎn)!重慶舉報(bào)案持續(xù)發(fā)酵,紀(jì)檢部門火速介入

好笑娛樂君每一天
2026-03-22 07:03:02
2026-03-26 07:36:49
智東西 incentive-icons
智東西
聚焦智能變革,服務(wù)產(chǎn)業(yè)升級(jí)。
11433文章數(shù) 117015關(guān)注度
往期回顧 全部

科技要聞

紅極一時(shí)卻草草收?qǐng)觯琒ora宣布正式關(guān)停

頭條要聞

伊朗軍方稱擊落美軍F-18戰(zhàn)機(jī) 現(xiàn)場(chǎng)畫面披露

頭條要聞

伊朗軍方稱擊落美軍F-18戰(zhàn)機(jī) 現(xiàn)場(chǎng)畫面披露

體育要聞

35歲替補(bǔ)門將,憑什么入選英格蘭隊(duì)?

娛樂要聞

張雪峰遺產(chǎn)分割復(fù)雜!是否立遺囑成關(guān)鍵

財(cái)經(jīng)要聞

管濤:中東局勢(shì)如何影響人民幣匯率走勢(shì)?

汽車要聞

智己LS8放大招 30萬(wàn)內(nèi)8系旗艦+全線控底盤秀實(shí)力

態(tài)度原創(chuàng)

本地
家居
旅游
手機(jī)
公開課

本地新聞

來永泰同安 赴一場(chǎng)春天的約會(huì)

家居要聞

輕奢堇天府 小資情調(diào)

旅游要聞

風(fēng)?吹?麥?浪?正出片!

手機(jī)要聞

realme真我GT8 Pro適配Android 17開發(fā)者預(yù)覽版教程說明發(fā)布

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版