国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

開源新紀錄!月之暗面 Kimi K2 實測超越 GPT-5 和 Claude 4.5,完全免費

0
分享至


開源模型的歷史性突破

就在美國AI巨頭OpenAI因高額支出承諾而備受質(zhì)疑之際,中國開源AI供應(yīng)商正在加速競爭——其中一家甚至在關(guān)鍵的第三方性能基準測試中趕超了OpenAI的旗艦付費專有模型GPT-5,而且是用一個完全免費的模型。

月之暗面(Moonshot AI)今日發(fā)布的全新Kimi K2 Thinking模型,在推理、編程和智能體工具使用等基準測試中一舉超越了所有專有和開源競爭對手,登頂榜首。

盡管是完全開源,該模型目前在多項標準評估中的表現(xiàn)已超過OpenAI的GPT-5、Anthropic的Claude Sonnet 4.5(思維模式)以及xAI的Grok-4——這標志著開放AI系統(tǒng)競爭力的一個歷史性拐點。

開發(fā)者可以通過 platform.moonshot.ai 和 kimi.com 訪問該模型;權(quán)重和代碼托管在 Hugging Face 上。開源發(fā)布包含了聊天、推理和多工具工作流的API。

用戶可以直接通過其類似ChatGPT的網(wǎng)站以及Hugging Face空間試用Kimi K2 Thinking。

修改版開源協(xié)議:商業(yè)友好

月之暗面在Hugging Face上以修改版MIT協(xié)議正式發(fā)布了Kimi K2 Thinking。

該協(xié)議授予完整的商業(yè)和衍生權(quán)利——這意味著個人研究者和代表企業(yè)客戶工作的開發(fā)者可以免費訪問并在商業(yè)應(yīng)用中使用——但增加了一項限制:

“如果軟件或任何衍生產(chǎn)品的月活躍用戶超過1億,或每月收入超過2000萬美元,部署方必須在產(chǎn)品用戶界面上顯著展示’Kimi K2’標識?!?/blockquote>

對于大多數(shù)研究和企業(yè)應(yīng)用,這一條款相當(dāng)于一個輕量級的署名要求,同時保留了標準MIT協(xié)議的自由度。

這使得K2 Thinking成為目前可用的最寬松授權(quán)的前沿級模型之一。

新的基準測試領(lǐng)跑者

Kimi K2 Thinking是一個基于萬億參數(shù)的混合專家(MoE)模型,每次推理激活320億參數(shù)。

它將長程推理與結(jié)構(gòu)化工具使用相結(jié)合,能夠在無需人工干預(yù)的情況下執(zhí)行200-300次連續(xù)的工具調(diào)用。

性能數(shù)據(jù)一覽

根據(jù)月之暗面公布的測試結(jié)果,K2 Thinking取得了:

  • 44.9% - Humanity’s Last Exam(HLE),達到業(yè)界最先進水平
  • 60.2% - BrowseComp(智能體網(wǎng)絡(luò)搜索和推理測試)
  • 71.3% -SWE-Bench Verified 和 83.1% - LiveCodeBench v6(關(guān)鍵編程評估)
  • 56.3% -Seal-0(真實世界信息檢索基準)

在這些任務(wù)中,K2 Thinking持續(xù)超越GPT-5的相應(yīng)得分,并超過了幾周前MiniMax AI發(fā)布的前開源領(lǐng)跑者MiniMax-M2。

開源模型超越專有系統(tǒng)

GPT-5和Claude Sonnet 4.5 Thinking仍是領(lǐng)先的專有"思維"模型。

然而在同一基準測試套件中,K2 Thinking的智能體推理得分超過了兩者:例如在BrowseComp上,開源模型的60.2%明顯領(lǐng)先GPT-5的54.9%和Claude 4.5的24.1%。

K2 Thinking在GPQA Diamond上也略勝GPT-5一籌(85.7% vs 84.5%),并在AIME 2025和HMMT 2025等數(shù)學(xué)推理任務(wù)上與之持平。

只有在某些重度模式配置下——GPT-5聚合多條推理軌跡——專有模型才能重新取得平衡。

月之暗面的全開源權(quán)重發(fā)布能夠達到或超過GPT-5的得分,標志著一個轉(zhuǎn)折點。封閉前沿系統(tǒng)與公開可用模型之間的差距,在高端推理和編程領(lǐng)域已經(jīng)事實上消失。

超越MiniMax-M2:前任開源王者

就在一周半前,VentureBeat報道MiniMax-M2時,它還被譽為"開源LLM新王",在開源權(quán)重系統(tǒng)中取得了頂尖得分:

  • τ2-Bench: 77.2

  • BrowseComp: 44.0

  • FinSearchComp-global: 65.5

  • SWE-Bench Verified: 69.4

這些結(jié)果使MiniMax-M2在智能體工具使用方面接近GPT-5級別的能力。然而Kimi K2 Thinking現(xiàn)在以大幅優(yōu)勢超越了它們。

其BrowseComp結(jié)果60.2%超過M2的44.0%,SWE-Bench Verified的71.3%也勝過M2的69.4%。即使在FinSearchComp-T3(47.4%)等金融推理任務(wù)上,K2 Thinking表現(xiàn)相當(dāng),同時保持了卓越的通用推理能力。

技術(shù)創(chuàng)新

從技術(shù)角度看,兩個模型都采用稀疏混合專家架構(gòu)以提高計算效率,但月之暗面的網(wǎng)絡(luò)激活了更多專家,并部署了先進的量化感知訓(xùn)練(INT4 QAT)。

這種設(shè)計在不降低準確性的情況下使推理速度翻倍——這對于支持高達256k上下文窗口的長"思維token"會話至關(guān)重要。

智能體推理與工具使用

K2 Thinking的核心能力在于其顯式推理軌跡。模型輸出一個輔助字段reasoning_content,在每個最終響應(yīng)之前揭示中間邏輯。這種透明性在長時間多輪任務(wù)和多步驟工具調(diào)用中保持了連貫性。

月之暗面發(fā)布的參考實現(xiàn)演示了模型如何自主執(zhí)行"每日新聞報告"工作流:調(diào)用日期和網(wǎng)絡(luò)搜索工具、分析檢索內(nèi)容、生成結(jié)構(gòu)化輸出——同時保持內(nèi)部推理狀態(tài)。

這種端到端的自主性使模型能夠在數(shù)百個步驟中進行規(guī)劃、搜索、執(zhí)行和綜合證據(jù),反映了正在崛起的"智能體AI"系統(tǒng)類別,這些系統(tǒng)以最少的監(jiān)督運行。

效率與訪問成本

盡管規(guī)模達到萬億參數(shù),K2 Thinking的運行成本保持適中。月之暗面列出的使用價格為:

  • $0.15 / 100萬tokens(緩存命中)
  • $0.60 / 100萬tokens(緩存未命中)
  • $2.50 / 100萬tokens(輸出)

這些價格甚至優(yōu)于MiniMax-M2的$0.30輸入/$1.20輸出定價——比GPT-5($1.25輸入/$10輸出)低了一個數(shù)量級

對比背景:開源權(quán)重加速

M2和K2 Thinking的快速接連發(fā)布,展示了開源研究追趕前沿系統(tǒng)的速度有多快。MiniMax-M2證明了開源模型可以以一小部分計算成本接近GPT-5級別的智能體能力。月之暗面現(xiàn)在將這一前沿推進得更遠,將開源權(quán)重從平衡推向了徹底領(lǐng)先。

兩個模型都依賴稀疏激活來提高效率,但K2 Thinking更高的激活數(shù)(320億 vs 100億活躍參數(shù))在各個領(lǐng)域產(chǎn)生了更強的推理保真度。其測試時縮放——擴展"思維tokens"和工具調(diào)用輪次——提供了可測量的性能提升,無需重新訓(xùn)練,這是MiniMax-M2中尚未觀察到的特性。

技術(shù)展望

月之暗面報告稱,K2 Thinking支持原生INT4推理和256k token上下文,性能下降微乎其微。其架構(gòu)集成了量化、并行軌跡聚合(“重度模式”)以及針對推理任務(wù)調(diào)優(yōu)的混合專家路由。

在實踐中,這些優(yōu)化使K2 Thinking能夠維持復(fù)雜的規(guī)劃循環(huán)——代碼編譯-測試-修復(fù)、搜索-分析-總結(jié)——跨越數(shù)百次工具調(diào)用。這種能力支撐了它在BrowseComp和SWE-Bench上的優(yōu)異表現(xiàn),而推理連續(xù)性在這些任務(wù)中至關(guān)重要。

對AI生態(tài)系統(tǒng)的巨大影響

開放和封閉模型在高端的趨同,標志著AI格局的結(jié)構(gòu)性轉(zhuǎn)變。曾經(jīng)完全依賴專有API的企業(yè),現(xiàn)在可以部署匹配GPT-5級別推理的開源替代方案,同時保留對權(quán)重、數(shù)據(jù)和合規(guī)性的完全控制。

月之暗面的開放發(fā)布策略遵循了DeepSeek R1、Qwen3、GLM-4.6和MiniMax-M2設(shè)定的先例,但將其擴展到完整的智能體推理。

對于學(xué)術(shù)和企業(yè)開發(fā)者來說,K2 Thinking提供了透明性和互操作性——檢查推理軌跡和針對特定領(lǐng)域智能體微調(diào)性能的能力。

戰(zhàn)略時機:對AI投資模式的挑戰(zhàn)

K2 Thinking的到來表明,月之暗面——這家2023年成立、獲得中國一些最大應(yīng)用和科技公司投資的年輕初創(chuàng)公司——已經(jīng)準備好在日益激烈的競爭中一展身手,而這正值A(chǔ)I行業(yè)最大玩家的財務(wù)可持續(xù)性受到越來越多審視之際。

就在一天前,OpenAI首席財務(wù)官Sarah Friar在WSJ Tech Live活動上表示,美國政府可能最終需要為該公司超過1.4萬億美元的計算和數(shù)據(jù)中心承諾提供"后盾"——這一評論被廣泛解讀為呼吁納稅人支持的貸款擔(dān)保,引發(fā)了爭議。

盡管Friar后來澄清OpenAI并未尋求直接的聯(lián)邦支持,但這一事件重新點燃了關(guān)于AI資本支出規(guī)模和集中度的辯論。

隨著OpenAI、微軟、Meta和Google都在競相確保長期芯片供應(yīng),批評者警告說,這是一場不可持續(xù)的投資泡沫和"AI軍備競賽",更多是由戰(zhàn)略恐懼驅(qū)動,而非商業(yè)回報——如果出現(xiàn)猶豫或市場不確定性,可能會"爆炸"并拖垮整個全球經(jīng)濟,因為現(xiàn)在已經(jīng)有太多交易和估值是基于對AI持續(xù)巨額投資和巨額回報的預(yù)期。

在這種背景下,月之暗面和MiniMax的開源權(quán)重發(fā)布給美國專有AI公司及其支持者帶來了更大壓力,要求他們證明投資規(guī)模和盈利路徑的合理性。

商業(yè)邏輯的根本性挑戰(zhàn)

如果企業(yè)客戶從免費開源的中國AI模型中獲得的性能可以與付費專有AI解決方案(如OpenAI的GPT-5、Anthropic的Claude Sonnet 4.5或Google的Gemini 2.5 Pro)相當(dāng)甚至更好——他們?yōu)槭裁催€要繼續(xù)付費訪問專有模型?

硅谷的標桿企業(yè)如Airbnb已經(jīng)引起關(guān)注,因為它們承認大量使用阿里巴巴的Qwen等中國開源替代方案,而非OpenAI的專有產(chǎn)品。

對于投資者和企業(yè)來說,這些發(fā)展表明,高端AI能力不再等同于高端資本支出。最先進的推理系統(tǒng)可能不是來自建造超大規(guī)模數(shù)據(jù)中心的公司,而是來自優(yōu)化架構(gòu)和量化以提高效率的研究團隊。

從這個意義上說,K2 Thinking的基準主導(dǎo)地位不僅僅是一個技術(shù)里程碑——它是一個戰(zhàn)略里程碑,到來的時機正值A(chǔ)I市場最大的問題已經(jīng)從"模型能變得多強大"轉(zhuǎn)變?yōu)?誰能負擔(dān)得起維持它們"。

對企業(yè)的前瞻意義

在MiniMax-M2崛起后的幾周內(nèi),Kimi K2 Thinking已經(jīng)超越了它——以及GPT-5和Claude 4.5——在幾乎每一個推理和智能體基準測試中。

該模型證明,開源權(quán)重系統(tǒng)現(xiàn)在可以在能力和效率上達到或超越專有前沿模型。

對于AI研究社區(qū)來說,K2 Thinking不僅僅是又一個開源模型:它是前沿已經(jīng)變得協(xié)作化的證據(jù)。

今天可用的性能最佳的推理模型不是封閉的商業(yè)產(chǎn)品,而是任何人都可以訪問的開源系統(tǒng)。


原文來源: VentureBeat

整理:周華香

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
陸軍總司令遇難,最高領(lǐng)袖已被炸?伊朗報復(fù),第一支援兵出現(xiàn)

陸軍總司令遇難,最高領(lǐng)袖已被炸?伊朗報復(fù),第一支援兵出現(xiàn)

吳欣純Deborah
2026-03-01 12:28:11
哈梅內(nèi)伊被精準斬首,為何伊朗人民載歌載舞?

哈梅內(nèi)伊被精準斬首,為何伊朗人民載歌載舞?

歷史總在押韻
2026-03-01 11:59:19
哈梅內(nèi)伊:舊時代的最后一個獨裁者

哈梅內(nèi)伊:舊時代的最后一個獨裁者

黔有虎
2026-03-01 19:08:14
今年,北京已無離職潮

今年,北京已無離職潮

微微熱評
2026-03-01 18:45:40
哈梅內(nèi)伊身亡,布達諾夫:俄羅斯會接受美國為烏克蘭提供的安全保證 | 狼叔看世界

哈梅內(nèi)伊身亡,布達諾夫:俄羅斯會接受美國為烏克蘭提供的安全保證 | 狼叔看世界

狼叔看世界
2026-03-01 11:40:52
美國CIA只用不到100萬美元,就將伊朗的國運改寫了足足70多年

美國CIA只用不到100萬美元,就將伊朗的國運改寫了足足70多年

爆角追蹤
2026-03-01 14:57:47
美國軍力全球第一,敢打任何國家?俄潑冷水:這4國你敢打誰?

美國軍力全球第一,敢打任何國家?俄潑冷水:這4國你敢打誰?

近史談
2026-01-19 10:09:51
再現(xiàn)逆轉(zhuǎn)!中國男籃擊敗中國臺北男籃,世預(yù)賽賽場斬獲連勝

再現(xiàn)逆轉(zhuǎn)!中國男籃擊敗中國臺北男籃,世預(yù)賽賽場斬獲連勝

澎湃新聞
2026-03-01 17:52:27
深度 | 最高領(lǐng)袖身亡,美以叫囂繼續(xù)打,伊朗能否挺過47年來最致命危機?

深度 | 最高領(lǐng)袖身亡,美以叫囂繼續(xù)打,伊朗能否挺過47年來最致命危機?

上觀新聞
2026-03-01 16:17:08
美軍空襲伊朗,首次投用秘密武器“盧卡斯” 系仿制伊朗無人機

美軍空襲伊朗,首次投用秘密武器“盧卡斯” 系仿制伊朗無人機

上游新聞
2026-03-01 20:47:16
馬斯克藏太深!美星鏈離不開7家中國公司,每一家都是全球頂尖!

馬斯克藏太深!美星鏈離不開7家中國公司,每一家都是全球頂尖!

愛吃醋的貓咪
2026-02-27 17:56:07
特朗普稱伊朗最高領(lǐng)袖哈梅內(nèi)伊已身亡!以色列高級官員:哈梅內(nèi)伊遺體已在其官邸廢墟中被找到

特朗普稱伊朗最高領(lǐng)袖哈梅內(nèi)伊已身亡!以色列高級官員:哈梅內(nèi)伊遺體已在其官邸廢墟中被找到

每日經(jīng)濟新聞
2026-03-01 06:45:13
陳盈駿:我覺得蠻可惜的,大家為了這兩場比賽準備得非常多

陳盈駿:我覺得蠻可惜的,大家為了這兩場比賽準備得非常多

懂球帝
2026-03-01 19:12:04
哈梅內(nèi)伊死后,有伊朗人分析:現(xiàn)在還沒到慶祝的時候

哈梅內(nèi)伊死后,有伊朗人分析:現(xiàn)在還沒到慶祝的時候

小蘿卜絲
2026-03-01 09:56:11
沈逸“美國不敢打伊朗”遭群嘲:國內(nèi)某些專家,為何總是制造笑柄

沈逸“美國不敢打伊朗”遭群嘲:國內(nèi)某些專家,為何總是制造笑柄

影像溫度
2026-03-01 15:26:25
學(xué)費太貴!一家長哭訴繳費11000多,網(wǎng)友:上私立高中就不要抱怨

學(xué)費太貴!一家長哭訴繳費11000多,網(wǎng)友:上私立高中就不要抱怨

火山詩話
2026-03-01 12:06:34
感謝日本隊?世預(yù)賽78:72力克韓國,中國男籃大勝=反超升小組第二

感謝日本隊?世預(yù)賽78:72力克韓國,中國男籃大勝=反超升小組第二

現(xiàn)代小青青慕慕
2026-03-01 17:05:42
特朗普:美國開始實施重大作戰(zhàn)行動

特朗普:美國開始實施重大作戰(zhàn)行動

環(huán)球時報國際
2026-02-28 15:56:45
哈梅內(nèi)伊給所有掌權(quán)者,上了最后一課

哈梅內(nèi)伊給所有掌權(quán)者,上了最后一課

梳子姐
2026-03-01 15:14:59
交了物業(yè)費還收車位管理費?2026年這4種情況,你可以直接拒交

交了物業(yè)費還收車位管理費?2026年這4種情況,你可以直接拒交

阿離家居
2026-03-01 16:53:47
2026-03-01 21:23:00
硅星GenAI incentive-icons
硅星GenAI
比一部分人更先進入GenAl。
243文章數(shù) 14關(guān)注度
往期回顧 全部

科技要聞

小米超跑概念車全球首秀!殺入頂豪俱樂部

頭條要聞

伊朗代表在安理會會議上直接警告美方:建議你保持禮貌

頭條要聞

伊朗代表在安理會會議上直接警告美方:建議你保持禮貌

體育要聞

火箭輸給熱火:烏度卡又輸斯波教練

娛樂要聞

《江山為聘》:吳謹言陳哲遠燃炸朝堂

財經(jīng)要聞

中東局勢升級 如何影響A股、黃金和原油

汽車要聞

理想汽車2月交付26421輛 歷史累計交付超159萬輛

態(tài)度原創(chuàng)

教育
親子
本地
房產(chǎn)
數(shù)碼

教育要聞

輔導(dǎo)員,全部入編

親子要聞

春日敏感肌自救指南,你get了嗎?

本地新聞

津南好·四時總相宜

房產(chǎn)要聞

濱江九小也來了!集齊海僑北+哈羅、寰島...江東教育要炸了!

數(shù)碼要聞

小米Vision Gran Turismo超跑設(shè)計細節(jié)首曝

無障礙瀏覽 進入關(guān)懷版