国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Kimi K2 - 非主流的超級(jí)大杯非推理大模型

0
分享至

馬斯克的Grok4剛發(fā)布沒兩天,我以為Grok4會(huì)是世界上最大的非推理模型,畢竟它背后有世界上最大的GPU集群之一,但是它走的還是其他家的老路,做一個(gè)不錯(cuò)的foundation model,然后用RL做post-training,刷榜,最后再搞個(gè)一年2萬(wàn)塊的會(huì)員門檻將普通用戶拒之門外。

但Kimi給全世界交出來一份另類的卷子,我覺得簡(jiǎn)直就是針對(duì)于馬斯克Grok4的回手掏,這是一點(diǎn)兒不那么技術(shù)的分析。

Github:https://github.com/MoonshotAI/Kimi-K2?tab=readme-ov-file#4-deployment

技術(shù)報(bào)告:https://moonshotai.github.io/Kimi-K2/

使用方式(免費(fèi)):https://www.kimi.com/

  • 全世界最大的開源模型,總參數(shù)量高達(dá)1T(Trillion,萬(wàn)億),以前一般都用B(10億),比如DeepSeek的671B,Qwen系列的從0.5B到300多B,主流模型都在幾百億-幾千億的區(qū)間,以前有萬(wàn)億模型,但是訓(xùn)練容易爆炸且推理速度極慢,Kimi搞出來一套招法搞定了超大稀疏MoE,它標(biāo)志著「開源規(guī)?!惯M(jìn)入了萬(wàn)億參數(shù)時(shí)代。

  • Foundation model,也就是它本身是不帶有thinking/reasoning能力的,用DeepSeek來比如,V3模型就是foundation model,R1就是推理模型,R1是在V3的基礎(chǔ)上后訓(xùn)練出來的。這樣做很吃虧,因?yàn)镕oundation model加點(diǎn)RL post-training就有非常明顯的提升,但Kimi沒這么做。

  • Agent時(shí)代的含金量又一次提升,Agent非?;?,大家用的模型都非常的統(tǒng)一,不管事OpenAI的o系列,Google的Gemini系列,DeepSeek的R系列,Claude的4-sonnet或者opus,全都是整齊劃一的推理/思考模型,不為別的,本身的foundation model腦子不夠聰明,其次腦容量小(context length),做不了動(dòng)不動(dòng)運(yùn)行幾十分鐘需要吃掉幾萬(wàn)十幾萬(wàn)token的agent任務(wù)。Kimi K2反其道而行,foundation model,直接支持Agent,tool calling。這一點(diǎn)兒非常狠,意味著Kimi給所有人留下了懸念,我Foundation model的agentic能力就這么好,你等我post- training弄好,還不得起飛?

  • 引領(lǐng)新范式,原來的大模型由ChatGPT起了個(gè)頭,雖然做的是AI,但實(shí)際上大家都叫ChatBot,也就是聊天機(jī)器人,聊天其實(shí)就圈定了一個(gè)大概范圍,即Conversation,聊天嘛,你撐死了就是你一嘴我一嘴。Kimi K2把foundation model叫做:Open Agentic Intelligence。

翻譯過來,就是開放代理型智能,無疑想要引領(lǐng)一把AI大模型的流行趨勢(shì),把本身設(shè)計(jì)為聊天機(jī)器人的foundation model,徹底轉(zhuǎn)換成更加適配Agent時(shí)代的AI,說實(shí)話,我覺得非常的有野心。


這次的kimi技術(shù)報(bào)告里面有以下的重要細(xì)節(jié)。

PART 0PART 01

1 模型架構(gòu)與創(chuàng)新設(shè)計(jì)

一共發(fā)了倆模型:

  • Kimi-K2-Base,這是為需要“完全控制微調(diào)”的研究人員準(zhǔn)備的基礎(chǔ)模型

  • Kimi-K2-Instruct,這是為“即插即用的通用聊天和智能體體驗(yàn)”而優(yōu)化的訓(xùn)練后模型

兩個(gè)都是萬(wàn)億的超大規(guī)模MoE(混合專家結(jié)構(gòu)),激活參數(shù)只有32B;同樣的DeepSeek等一眾大模型都用的MoE結(jié)構(gòu),這不稀奇,但DeepSeek V3/R1的總參數(shù)都是671B,而激活參數(shù)量比k2還多,37B。

另外,據(jù)說GPT-4有約1.8萬(wàn)億總參數(shù),分布在16個(gè)專家中,每次推理激活約2800億參數(shù)(即激活2個(gè)專家)。

K2的激活參數(shù)量(320億)遠(yuǎn)低于此,這表明其設(shè)計(jì)選擇優(yōu)先考慮了更低的推理計(jì)算成本和更快的響應(yīng)速度,這意味著Kimi依舊覺得今后的幾年內(nèi)算力成本依舊是瓶頸(部分的符合token經(jīng)濟(jì)學(xué)原理),所以得出來結(jié)論,那就是越稀疏越省錢。

值得注意的是,K2的專家數(shù)量夠多的,一共有384個(gè)專家,這種設(shè)計(jì)可以被理解為構(gòu)建了一個(gè)龐大的“知識(shí)庫(kù)”,而非一個(gè)由少數(shù)通才組成的委員會(huì)。擁有384個(gè)專家的模型,其特化潛力遠(yuǎn)比擁有16個(gè)專家(如GPT-4)的模型更為精細(xì)。

每次激活8個(gè)專家意味著,對(duì)于任何給定的任務(wù),模型都會(huì)組建一個(gè)“專家委員會(huì)”來處理信息。龐大的專家數(shù)量暗示了一種旨在捕獲極其廣泛和多樣化的知識(shí)領(lǐng)域與技能的設(shè)計(jì)哲學(xué)。這些海量的“非激活”參數(shù)構(gòu)成了一個(gè)巨大的知識(shí)儲(chǔ)備庫(kù)。


這對(duì)于模型的下游應(yīng)用具有重要意義。例如,針對(duì)特定任務(wù)(如法律分析或醫(yī)學(xué)研究)對(duì)Kimi-K2-Base進(jìn)行微調(diào)可能會(huì)非常高效。

另外K2支持128K的上下文(Context)長(zhǎng)度,在foundation model里面算是非常大的長(zhǎng)度來,這得益于MLA的attention機(jī)制,再加上本身Kimi起家就是靠的1百萬(wàn)超長(zhǎng)上下文,所以這一點(diǎn)兒能實(shí)現(xiàn)也不奇怪。

PART 02

2 訓(xùn)練穩(wěn)定性的主要基石:MuonClip優(yōu)化器

這部分的寫作非常的蘇神。


原理比較復(fù)雜,簡(jiǎn)單來講大模型在訓(xùn)練的時(shí)候想要的錯(cuò)誤率是這樣的,平緩下降,直到降到不能降。


但很不好意思,這種動(dòng)不動(dòng)就是幾周甚至幾個(gè)月的訓(xùn)練,非常有可能是你訓(xùn)練到一定程度,模型直接炸了。


這個(gè)現(xiàn)象就叫“注意力邏輯值爆炸”(exploding attention logits)。在該現(xiàn)象中,注意力機(jī)制中的數(shù)值(主要是attention公式里面的q和k值)會(huì)失控式增長(zhǎng),最終導(dǎo)致訓(xùn)練過程崩潰。

Kimi發(fā)明了MuonClip,這項(xiàng)技術(shù)的核心是一種名為qk-clip的創(chuàng)新方法。它在每次優(yōu)化器更新后,直接對(duì)查詢(query, q)和鍵(key, k)投影的權(quán)重矩陣進(jìn)行重新縮放。通過這種方式,qk-clip從源頭上控制了注意力邏輯值的尺度,有效防止了其爆炸性增長(zhǎng)。

這項(xiàng)創(chuàng)新的效果非常顯著,使得月之暗面能夠在高達(dá)15.5萬(wàn)億個(gè)tokens的數(shù)據(jù)集上預(yù)訓(xùn)練Kimi-K2-Base,并實(shí)現(xiàn)了“零訓(xùn)練尖峰”(zero training spikes)的記錄。

效果非常好,非常平緩的下降。


這一成就揭示了大型語(yǔ)言模型開發(fā)中一個(gè)更深層次的現(xiàn)實(shí):訓(xùn)練穩(wěn)定性是真正的技術(shù)前沿。大家對(duì)大型語(yǔ)言模型的討論往往集中在參數(shù)數(shù)量、數(shù)據(jù)規(guī)模和基準(zhǔn)測(cè)試分?jǐn)?shù)上。

然而,一個(gè)隱藏的、但可以說更為關(guān)鍵的前沿是訓(xùn)練的穩(wěn)定性。像Kimi-K2這樣的萬(wàn)億參數(shù)模型,一次完整的訓(xùn)練運(yùn)行可能需要耗費(fèi)價(jià)值數(shù)千萬(wàn)甚至上億美元的計(jì)算資源。一次“訓(xùn)練spike”就可能使數(shù)周的進(jìn)展和巨大的財(cái)務(wù)投資付之一炬。

Kimi現(xiàn)在開源了,給友商省錢了,仗義。

PART 03

3 原生工具調(diào)用與Agent架構(gòu)

K2最大的特色亮點(diǎn)之一,是將工具使用能力和Agent能力深度融入模型訓(xùn)練與推理接口中,它的定位為“為智能體能力精心優(yōu)化”并為“工具使用、推理和自主解決問題”而設(shè)計(jì)的模型,這是一個(gè)概念上的轉(zhuǎn)變。

這個(gè)能力是通過這個(gè)大規(guī)模的智能體數(shù)據(jù)模擬出來的,說白了,沒有數(shù)據(jù)就沒有智能,Kimi構(gòu)建了這么一套流程來不斷的產(chǎn)生數(shù)據(jù)并反哺自身。


這個(gè)過程涉及構(gòu)建數(shù)百個(gè)模擬智能體,讓它們嘗試使用工具完成任務(wù),并使用一個(gè)AI裁判來篩選和學(xué)習(xí)這些交互過程。此外,還輔以一個(gè)“通用強(qiáng)化學(xué)習(xí)”(General Reinforcement Learning)系統(tǒng),在該系統(tǒng)中,模型充當(dāng)自己的評(píng)審員,以在沒有唯一正確答案的任務(wù)上進(jìn)行自我提升。

簡(jiǎn)單來說,K2當(dāng)裁判、生成器、環(huán)境三合一,看似是 self-play,其實(shí)是把人類數(shù)據(jù)蒸餾成“高維規(guī)則”,你看rubric提到了很多次。


說白了,雖然rubric足夠的多和詳細(xì),但還會(huì)有問題:

裁判模型本身如果帶有偏見,整個(gè)數(shù)據(jù)飛輪會(huì)把偏差指數(shù)級(jí)放大。更深層的問題是,當(dāng) rubric 足夠細(xì),模型其實(shí)不再是“自主學(xué)習(xí)”,而是“規(guī)則過擬合”。

不過暫時(shí)看來,K2還是挺強(qiáng)的,不過未來如何,得看post-training的到的推理模型。

PART 04

4 性能

這一個(gè)放最后的原因是刷榜性能評(píng)分并不能代表實(shí)際表現(xiàn),只能作為參考。

K2和非推理模型相比,絕大多數(shù)在top2,少數(shù)top1,top2的也僅比Claude4差點(diǎn)。


在使用工具這個(gè)維度上大多數(shù)排在top1。


編程部分弱于Claude。


主要的特色在于對(duì)于K2工具使用和自主編程的測(cè)試,其實(shí)就是agent能力。在 TauCoT 工具使用基準(zhǔn)(Tau2系列)中,Kimi-K2 在零樣本情況下可以理解用戶意圖并正確選擇工具,取得如零售場(chǎng)景70.6、航空56.5的高平均得分,接近甚至超過Claude等模型。

在AceBench(開放代理任務(wù)評(píng)測(cè))中,Kimi-K2 也達(dá)到 76.5% 的準(zhǔn)確率,與GPT-4/Claude處于同一量級(jí)。從結(jié)果看,Kimi-K2 確立了自身作為當(dāng)今最強(qiáng)開源通用大模型之一的地位,其在知識(shí)、推理、編碼各方面的表現(xiàn)都逼近甚至部分超越了GPT-4、Claude等業(yè)界頂尖水平。

Kimi K2 的發(fā)布標(biāo)志著 2025 年大模型競(jìng)賽的賽道還有很多,比如超大規(guī)模的開源模型,擯棄chatbot而是直接原生agent能力,還有就是要想實(shí)現(xiàn)效率高和性能好,超級(jí)稀疏MoE或許是個(gè)解法。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
中南大學(xué)副校長(zhǎng)被查,一個(gè)月前就有征兆,他連累了黃伯云院士

中南大學(xué)副校長(zhǎng)被查,一個(gè)月前就有征兆,他連累了黃伯云院士

平老師666
2025-12-27 22:58:19
統(tǒng)一已成定局,五角大樓通告全球:美軍介入臺(tái)海,恐被解放軍殲滅

統(tǒng)一已成定局,五角大樓通告全球:美軍介入臺(tái)海,恐被解放軍殲滅

南宗歷史
2025-12-27 13:48:16
烏克蘭新總統(tǒng)塵埃落定,64%支持率碾壓,澤連斯基好日子結(jié)束

烏克蘭新總統(tǒng)塵埃落定,64%支持率碾壓,澤連斯基好日子結(jié)束

聚焦熱點(diǎn)大爆炸
2025-12-28 05:55:36
北京大爺退休后765萬(wàn)賣掉房子,與老伴旅行,錢花光后養(yǎng)老被拒絕

北京大爺退休后765萬(wàn)賣掉房子,與老伴旅行,錢花光后養(yǎng)老被拒絕

詩(shī)詞中國(guó)
2025-12-21 21:13:19
武漢知名網(wǎng)紅打卡點(diǎn)要拆除?官方回應(yīng)!

武漢知名網(wǎng)紅打卡點(diǎn)要拆除?官方回應(yīng)!

越喬
2025-12-27 22:39:41
Swisse,怎么就“不香了”?

Swisse,怎么就“不香了”?

藍(lán)鯨新聞
2025-12-26 15:25:46
ESPN分析師談湖人隊(duì):和勇士隊(duì)有點(diǎn)類似,奪冠窗口基本上已經(jīng)關(guān)閉

ESPN分析師談湖人隊(duì):和勇士隊(duì)有點(diǎn)類似,奪冠窗口基本上已經(jīng)關(guān)閉

好火子
2025-12-28 03:37:24
不得不說這兩位阿姨真的很會(huì)打扮,既優(yōu)雅又有女人味

不得不說這兩位阿姨真的很會(huì)打扮,既優(yōu)雅又有女人味

牛彈琴123456
2025-12-25 10:19:13
烏專家:中國(guó)“榨干”蘇聯(lián)遺產(chǎn),我們圖紙沒看懂,他們?cè)斐?.0!

烏專家:中國(guó)“榨干”蘇聯(lián)遺產(chǎn),我們圖紙沒看懂,他們?cè)斐?.0!

小莜讀史
2025-12-25 20:46:05
兩個(gè)滅火器接連從小區(qū)高空墜落,其中一個(gè)砸中隔壁小區(qū)車輛,業(yè)主們慌了

兩個(gè)滅火器接連從小區(qū)高空墜落,其中一個(gè)砸中隔壁小區(qū)車輛,業(yè)主們慌了

環(huán)球網(wǎng)資訊
2025-12-27 15:12:24
12歲小泡芙也長(zhǎng)殘了齙牙越發(fā)男相劉畊宏14歲兒子身高1米8 比他高

12歲小泡芙也長(zhǎng)殘了齙牙越發(fā)男相劉畊宏14歲兒子身高1米8 比他高

阿雹娛樂
2025-12-27 11:08:34
央視《逍遙》首播,觀眾棄劇聲一片,理由很一致:演技拉胯還土氣

央視《逍遙》首播,觀眾棄劇聲一片,理由很一致:演技拉胯還土氣

嘻嘻笑
2025-12-27 22:51:09
卡梅?。喝簟栋⒎策_(dá)》第四部及第五部未能拍成,將舉行新聞發(fā)布會(huì)

卡梅?。喝簟栋⒎策_(dá)》第四部及第五部未能拍成,將舉行新聞發(fā)布會(huì)

IT之家
2025-12-27 20:52:05
砸50億!廣東驚現(xiàn)“全球最大爛尾醫(yī)院”,連窗框都沒裝完

砸50億!廣東驚現(xiàn)“全球最大爛尾醫(yī)院”,連窗框都沒裝完

GA環(huán)球建筑
2025-12-27 15:39:08
女子偷情被侄子撞見,侄子:我可以保密,但你得滿足我一個(gè)要求

女子偷情被侄子撞見,侄子:我可以保密,但你得滿足我一個(gè)要求

凱裕說故事
2024-12-30 10:45:33
毆打助理、不結(jié)工資,女頂流翻車,道歉理由離譜,更多黑歷史被扒

毆打助理、不結(jié)工資,女頂流翻車,道歉理由離譜,更多黑歷史被扒

阿鳧愛吐槽
2025-12-24 13:12:42
泰國(guó)男模親述:要不是靠著藥物維持,自己可能沒法活著回來

泰國(guó)男模親述:要不是靠著藥物維持,自己可能沒法活著回來

南山青松
2024-05-24 13:35:02
祁發(fā)寶上將亮相,六排勛章胸前掛,淡然一笑盡顯英雄本色

祁發(fā)寶上將亮相,六排勛章胸前掛,淡然一笑盡顯英雄本色

老特有話說
2025-12-23 21:35:49
把副省長(zhǎng)文國(guó)棟拉下馬的環(huán)保案件,賠償了50億

把副省長(zhǎng)文國(guó)棟拉下馬的環(huán)保案件,賠償了50億

極目新聞
2025-12-26 22:46:14
陳夢(mèng)回應(yīng)全運(yùn)會(huì)女團(tuán)奪冠后落淚:所有吃過的苦這一刻覺得都值得;面對(duì)外界聲音陳夢(mèng)稱以前很不理解,現(xiàn)在一笑帶過

陳夢(mèng)回應(yīng)全運(yùn)會(huì)女團(tuán)奪冠后落淚:所有吃過的苦這一刻覺得都值得;面對(duì)外界聲音陳夢(mèng)稱以前很不理解,現(xiàn)在一笑帶過

揚(yáng)子晚報(bào)
2025-12-27 16:23:33
2025-12-28 07:40:49
平凡AI incentive-icons
平凡AI
高校AI從業(yè)者
54文章數(shù) 23關(guān)注度
往期回顧 全部

科技要聞

小米也漲價(jià)了!業(yè)界稱終端再不漲明年必虧

頭條要聞

山西大同一小區(qū)物業(yè)禁止新能源車進(jìn)入地庫(kù):擔(dān)心自燃

頭條要聞

山西大同一小區(qū)物業(yè)禁止新能源車進(jìn)入地庫(kù):擔(dān)心自燃

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂要聞

張昊唯逃稅涉黃風(fēng)波落幕:法院認(rèn)定朋友造謠

財(cái)經(jīng)要聞

注意,開始拉物價(jià)了!

汽車要聞

好音響比大屏更重要?車企開始“聽”用戶的

態(tài)度原創(chuàng)

時(shí)尚
手機(jī)
親子
數(shù)碼
教育

穿好雪地靴的4個(gè)訣竅,還挺有效!

手機(jī)要聞

榮耀WIN系列全球首發(fā)10000mAh電池:友商短時(shí)間內(nèi)很難超越

親子要聞

62歲懷二胎真相驚人!醫(yī)生擔(dān)憂的惡心一幕曝光!

數(shù)碼要聞

2025全球智能手表出貨量預(yù)計(jì)回暖 重回增長(zhǎng)軌道

教育要聞

劉嘉教授:教貧窮的人有自尊會(huì)刺傷對(duì)方

無障礙瀏覽 進(jìn)入關(guān)懷版