国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

月之暗面Kimi,最有活人感的AI公司

0
分享至

01

當DeepSeek-R2持續(xù)跳票,GPT-5仍在難產,Grok-4不及預期,最近Kimi-K2的發(fā)布一時間風光無兩。

K2從DeepSeek手中,奪過了全球開源第一的寶座,硅谷的開源社區(qū)的AI開發(fā)者都在熱議Kimi-K2。英國《自然》雜志網站也發(fā)表文章稱,中國大模型Kimi-K2發(fā)布后引發(fā)轟動,世界迎來又一個“DeepSeek時刻”。

今天凌晨,Kimi發(fā)布了K2的技術報告,有趣的是,K2也在這87個署名作者名單里。意思很明顯,K2也參與創(chuàng)造了自己。Kimi算是第一家把AI寫進作者名單里的大模型公司。

這種把AI當成協作伙伴,且署名的操作方式,體現出Kimi內部很強的“活人感”。

并非唯一例證。Kimi-K2發(fā)布前夜,工程師把它接入公司門口的電鋼琴上,演奏了一首卡農。雖然有些磕磕絆絆,C大調和弦彈的也不完整,Kimi工程師chrysvlk在視頻號上寫道:“這算不算它的第一聲‘hello world’呢?”

工程師們浪漫起來,文科生都要自愧不如。對于Kimi這家極具搖滾性的大模型公司來說,做出這種事情并不讓人感到意外。

Kimi創(chuàng)始人楊植麟是個典型的文藝青年,以至于這家公司也透露著相同的文藝氣質。月之暗面這個名字,就來自平克弗洛伊德最著名的專輯《The Dark Side of The Moon》,團隊工程師們同樣是一群熱愛電臺司令、平克·弗洛伊德、昆汀和庫布里克的人。

如果讓這個團隊去玩音樂、拍電影,似乎也毫不違和,“我加入的一個重要原因,就是覺得味道很對味?!痹轮得娴膱F隊成員Crystal說。

Kimi的活人感,正體現在工程師們敢于公開說話。K2在鋼琴營造的浪漫主義氛圍中發(fā)布后,Kimi的工程師們還在知乎玩起了接龍,他們發(fā)表感想,甚至自爆公司內部決策,解答網友對于技術方面的疑惑。

比如,年初DeepSeek-R1爆火后,曾經作為明星大模型公司的Kimi,完全被DeepSeek搶占風頭,外界對Kimi有很多不好的言論,認為Kimi團隊一定恨死DeepSeek。

Kimi成員Justin Wong卻坦率地說:“恰恰相反,不少Kimi的成員認為這是好事,DeepSeek證明硬實力是最好的推廣,只要模型做的好,就能獲得市場認可。”

相比其他六小龍以及AI大廠閉起門來搞技術,Kimi讓工程師出來發(fā)言的操作很新鮮,能感受到他們是一群有激情、有溫度的人。

Justin Wong還說,在DeepSeek的沖擊下,Kimi團隊的反思很激進,最激進的是楊植麟,他直接決定不再更新K1系列模型,而是集中資源搞基礎算法和K2。

意圖很明顯,Kimi放棄短期產品迭代,轉向底層技術突破和下一代模型能力的躍進上。

這種激進,正符合一群搖滾愛好者的作風。不過以追求AGI為目標的Kimi,激進中又帶著務實,他們沒有因為DeepSeek火出圈而陷入內耗,反而借助DeepSeek的開源,Kimi-K2的模型結構完全繼承了DeepSeek-V3。

Kimi的工程師劉少偉說,在啟動K2訓練之前,他們進行了大量模型結構相關的scaling實驗,結果是,所有當時與DeepSeek-V3不同的結構,沒有一個能真正打敗它的。

“在已經有muon優(yōu)化器和更大參數量兩個巨大變量的前提下,我們并不想引入沒有明確收益的額外變量來標新立異?!币馑际?,若強行為了與DeepSeek不同,幾乎沒有一點優(yōu)勢。

經過綜合考慮,Kimi最終選擇完全繼承DeepSeek-V3的結構,并調整適合他們的模型結構參數。

這是一種妥協后的務實,工程師們對此也很坦誠。Kimi另一位成員蘇劍林說,我們最終決定,K2還是先狠狠地致敬DeepSeek了,而不是刻意地標新立異,更多的想法和創(chuàng)意,我們把它們做得更扎實后,在K3、K4再見了。

02

K2被討論最多的是其總參數和價格。K2采用稀疏激活的混合專家(MoE)架構,總參數量達1萬億,每次推理激活320億參數(約3.2%),在保持高性能的同時大幅降低算力成本。

但K2的核心亮點不是參數,而是首次讓萬億模型在MuonClip優(yōu)化器下實現零訓練崩潰。萬億參數在模型訓練中存在穩(wěn)定性不足問題,K2采用QK-Clip與Muon優(yōu)化器(這兩項是大模型高參數訓練中,提升效率和解決穩(wěn)定性的先進技術)結合的方法,幫助神經網絡在訓練過程中更好地收斂,提升了模型的準確性。

借助這種方法,K2解決了超大規(guī)模訓練中的梯度爆炸問題,實現15.5萬億token的穩(wěn)定訓練。在蘇劍林看來,QK-Clip給了他們很大啟發(fā),在面對一個類似的難題時,應該至少要問自己三個問題:

1.這個方法能保證解決這個問題嗎?(我們此前的一系列無效嘗試)

2.如果不能,有什么方法能保證解決這個問題嗎?(QK-Clip)

3.這是解決這個問題的最小改動的方法嗎?(Per-Head的QK-Clip)

蘇劍林認為QK-Clip的思路,實際上是解決很多訓練不穩(wěn)定問題的“抗生素”,它可以推廣成“哪里不穩(wěn)Clip哪里”,只要監(jiān)控指標出現了異常,那么就可以考慮構建類似的Clip。

Kimi成員Flood Sung,對K2的Agent能力更為興奮,他用“一生二,二生三,三生萬物”形容K2的Agent能力。

“我們先讓模型生成幾百個場景,比如外賣、微博、微信...然后基于場景生成幾千個tools,比如點個外賣,發(fā)送微博,查找聯系人,然后基于不同的tool組合生成幾百上千個不同的Agent(不同的sytem prompt+不同的tool set),接下來我們針對每一個不同的agent生成從簡單到復雜的具有得分點的任務……”

幾千個agent在虛擬世界里瘋狂交互,Flood Sung覺得這有點科幻,讓他聯想到《黑鏡》的劇情。

這次Kimi還給Scaling Law 正了身。劉少偉稱,他們還驗證了在固定activate params(激活參數)不變的前提下,單純增長 MOE總參數量,Scaling Law依然成立,且不論訓練loss還是驗證loss,結論始終保持,無需擔心增大總參數量會過擬合。

Scaling Law(規(guī)模定律)此前一直受到爭議,OpenAI前首席科學家 Ilya提出“預訓練終結”論點,認為互聯網可用數據已接近枯竭,需轉向私域高精度數據或強化學習范式。

包括楊植麟此前也曾被認為,在模型訓練中過度相信Scaling Law。這次Kimi驗證,借助Scaling Law依然能夠大力出奇跡。

K2在各項測試中成績都比較拔尖。在SWE Bench Verified(編程)、LiveCodeBench 等測試中,Kimi K2 以65.8% 和53.7% 的準確率超越DeepSeek V3(46.9%)和GPT-4.1(44.7%),編程能力全球僅次于Claude 4 Sonnet。實際測試中,它能生成包含晝夜光影變化的3D HTML場景,并支持復雜代碼調試。

MATH-500、AIME 等數學競賽級測試,Kimi K2分別以97.4% 和69.6% 的成績領先GPT-4.1(92.4%),成為當前數學推理能力最強的開源模型。

這些成績自然沒能讓Kimi像年初DeepSeek那般轟動,但在一定范圍內確實產生較大影響。K2發(fā)布6天里,已在開源平臺HuggingFace上收獲10萬+下載,1400+點贊。

全球最大開源AI平臺Hugging Face聯合創(chuàng)始人托馬斯評價稱:“來自中國的Kimi團隊在過去幾個月推出的系列模型令人印象深刻,K2更是挑戰(zhàn)了閉源模型的極限?!?/p>

03


Kimi近大半年像是坐上了過山車,地位起起伏伏。目前Kimi 正被市場追捧,但也不值得懈怠,畢竟大模型競逐賽依然很激烈。

一個很現實情況是,在當前各家大模型你追我趕的情況下,基本上誰更新版本誰排名就能上升??梢哉f是,遍地SOTA王,短暫又輝煌。

這邊K2全球開源模型第一的位置還沒坐穩(wěn),昨夜阿里Qwen3又迎來升級。升級后的Qwen3在GQPA(知識)、AIME25(數學)、LiveCodeBench(編程)、Arena-Hard(人類偏好對齊)、BFCL(Agent能力)等眾多測評中表現出色,超過Kimi-K2和DeepSeek-V3。

要知道,今年DeepSeek R2和GPT 5都還沒發(fā)布,下半年的大模型競賽將更加白熱化。

實際上Kimi K2的性能并沒有到達炸裂程度。一些網友反映,評測得分只是一方面,真實體驗才是王道。

包括Kimi的工程師們也不是十分滿意,這一點從他們文章里能看出來。如劉少偉所說,K2發(fā)布前面臨的問題是,他們的“新結構”還沒有經歷過足夠大規(guī)模的驗證。K2更像是他們下一代模型的一個過渡產品。

前文蘇劍林也說,K2先狠狠地致敬DeepSeek,更多的想法和創(chuàng)意,等做得更扎實后,會在K3、K4面世。言辭中多少透露著不甘和遺憾。

Justin Wong知道Kimi K2還有數不清的缺點,所以和蘇劍林一樣,他說自己比任何時候都更想要K3。

Kimi團隊的技術理想主義一直是追求AGI。Justin Wong認為,2025 年智能的上限仍然完全由模型決定,“作為一家以AGI為目標的公司,如果不去追求智能的上限,那我一天也不會多呆下去?!?/p>

他把AGI形容為極其險峻的獨木橋,容不得一絲分心和猶豫,追求也許不會成功,但猶豫一定會失敗。他還提到2024年6月智源大會上,聽到李開復脫口而出地說:“我作為一個投資人,會關注AI應用的RO!”當時他就判斷,李開復的零一萬物活不長。

無論如何,Kimi團隊搖滾式的反叛精神,以及認真做模型的態(tài)度,都融入到了他們在個人社交賬號文章里。讓大家對Kimi團隊多了一些具象的認知。

從長期主義的角度來看,在這場大模型競賽中,公司文化氛圍更好的Kimi或許能走得更遠。楊植麟曾說:“AI不是我在接下來一兩年找到什么PMF(產品市場匹配),而是接下來十到二十年如何改變世界?!?/p>

這位想要改變的世界的90后,眼下一切才剛剛開始。

作者 | 孫方

編輯 | 八尺

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
洗草莓時,有人放食鹽,有人放面粉,果農:都不對,教你正確做法

洗草莓時,有人放食鹽,有人放面粉,果農:都不對,教你正確做法

阿龍美食記
2026-02-28 10:49:43
國家自然科學基金委員會發(fā)布重要提醒

國家自然科學基金委員會發(fā)布重要提醒

生物學霸
2026-03-13 17:14:14
午睡后腦梗人數增多!醫(yī)生怒斥:不管多大年齡,午睡牢記6不做!

午睡后腦梗人數增多!醫(yī)生怒斥:不管多大年齡,午睡牢記6不做!

醫(yī)學科普匯
2026-03-11 20:55:04
天氣預報|一夜“春返冬”!重慶大部地區(qū)日平均氣溫將下降6~10℃

天氣預報|一夜“春返冬”!重慶大部地區(qū)日平均氣溫將下降6~10℃

上游新聞
2026-03-13 15:45:15
3月13日譯名發(fā)布:阿里·拉里賈尼

3月13日譯名發(fā)布:阿里·拉里賈尼

參考消息
2026-03-13 11:37:45
我娶了單位32歲前臺,結婚半個月后董事長:你知道你老婆是啥人不

我娶了單位32歲前臺,結婚半個月后董事長:你知道你老婆是啥人不

千秋歷史
2026-03-12 19:18:12
賴清德率五大軍頭發(fā)出通牒,收到大陸信號的鄭麗文,直接反將一軍

賴清德率五大軍頭發(fā)出通牒,收到大陸信號的鄭麗文,直接反將一軍

東極妙嚴
2026-02-13 18:58:56
“上午春分,暖洋洋;下午春分,凍死牛”,今年春分在幾點?

“上午春分,暖洋洋;下午春分,凍死?!?,今年春分在幾點?

阿龍美食記
2026-03-10 16:36:10
德國2月,比亞迪大漲1550%,零跑大漲486%,小鵬大漲104%

德國2月,比亞迪大漲1550%,零跑大漲486%,小鵬大漲104%

極速車情speed
2026-03-13 18:25:46
又一支頂級男籃誕生?29歲的MVP有望加入牙買加,聯手3大NBA球星

又一支頂級男籃誕生?29歲的MVP有望加入牙買加,聯手3大NBA球星

禾三千體育
2026-03-13 17:43:58
59歲宋祖英現身活動狀態(tài)驚艷!短發(fā)利落大氣,黑色套裝優(yōu)雅端莊

59歲宋祖英現身活動狀態(tài)驚艷!短發(fā)利落大氣,黑色套裝優(yōu)雅端莊

琴聲飛揚
2026-02-12 11:51:25
突發(fā)利好!首款侵入式腦機接口醫(yī)療器械獲批上市,概念股批量拉漲

突發(fā)利好!首款侵入式腦機接口醫(yī)療器械獲批上市,概念股批量拉漲

21世紀經濟報道
2026-03-13 14:52:06
冷冷冷!中央氣象臺發(fā)布暴雪藍色預警!云南多地降溫降雨!這波是“倒春寒”嗎?

冷冷冷!中央氣象臺發(fā)布暴雪藍色預警!云南多地降溫降雨!這波是“倒春寒”嗎?

云南新聞廣播
2026-03-13 16:23:33
比利時女籃主帥:張子宇的身高讓人印象深刻,籃下技術很出色

比利時女籃主帥:張子宇的身高讓人印象深刻,籃下技術很出色

懂球帝
2026-03-12 23:37:03
出大事了,高市身體亮紅燈,能源線被徹底掐斷,更棘手的還在后面

出大事了,高市身體亮紅燈,能源線被徹底掐斷,更棘手的還在后面

面包夾知識
2026-03-13 18:06:20
陳小群解密:老鴨頭形態(tài)吃透,不是漲停就是漲個不停!

陳小群解密:老鴨頭形態(tài)吃透,不是漲停就是漲個不停!

一方聊市
2026-03-13 14:35:47
警衛(wèi)員在街上被人打進醫(yī)院,成都軍區(qū)司令大怒:把他們給我抓起來

警衛(wèi)員在街上被人打進醫(yī)院,成都軍區(qū)司令大怒:把他們給我抓起來

芊芊子吟
2026-03-12 21:00:04
中國教育的三大魔幻困局,應該如何破局?

中國教育的三大魔幻困局,應該如何破局?

楓冷慕詩
2026-03-13 12:19:33
從安徽開往廣東!多輛“巨無霸”運輸車違法上路被查!

從安徽開往廣東!多輛“巨無霸”運輸車違法上路被查!

荷蘭豆愛健康
2026-03-12 15:23:42
1912年,前清將軍志銳兩拒革命黨人后,被拖至鐘鼓樓東側槍決示眾

1912年,前清將軍志銳兩拒革命黨人后,被拖至鐘鼓樓東側槍決示眾

兵卒史
2026-03-10 19:11:07
2026-03-13 19:04:49
白鯨實驗室one incentive-icons
白鯨實驗室one
記錄 AI改變世界的瞬間
102文章數 14關注度
往期回顧 全部

科技要聞

龍蝦熱卷到AI硬件 “無腦”硬件或被淘汰

頭條要聞

47歲男子娶82歲老太 還硬塞1000元和20個雞蛋當彩禮

頭條要聞

47歲男子娶82歲老太 還硬塞1000元和20個雞蛋當彩禮

體育要聞

叕戰(zhàn)奧運,張雨霏要做回“小將”

娛樂要聞

小S復工錄制 感謝賈永婕陪大S走到最后

財經要聞

2月M2同增9% 前兩個月存款增加9.26萬億

汽車要聞

大眾汽車與小鵬首款聯合開發(fā)車型與眾08正式量產

態(tài)度原創(chuàng)

游戲
家居
教育
健康
藝術

決非故意!團隊回應漫威爭鋒女性皮膚過分性感問題

家居要聞

藝術之家 法式優(yōu)雅

教育要聞

軍校報考核心真相:別只看分數!軍種選對,人生少走 10 年彎路!#軍校##志愿填報##新學期超給力#...

轉頭就暈的耳石癥,能開車上班嗎?

藝術要聞

吳冠中:歷代畫竹大都缺乏厚度與深度

無障礙瀏覽 進入關懷版