国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Kimi K2.5 深度實測:變強了,但尚未「封神」|AI 上新

0
分享至


人人可用的 AI Agent,應該是什么樣的?


作者|徐珊

編輯|靖宇

三天,四款模型,N 個產(chǎn)品。這就是 2026 年開年,大模型行業(yè)展現(xiàn)出的態(tài)勢。

沉寂了小半年,Kimi 顯然不想將 2026 年的第一個有關通用大模型的話題權交給其他人。

這次,Kimi 終于將產(chǎn)品線補齊,無論是視覺感知,還是 Agent 能力,又或者編程能力,Kimi 都用 Kimi K2.5 這款萬億大模型證明自己在通用領域的實力。


Kimi K2.5 在多個領域的最新評分|圖源:Kimi

簡單來說,Kimi K2.5 在推理能力、認知圖譜上都更強了。

基于 Kimi K2.5 的能力,Kimi 現(xiàn)在能夠提供單個性能的 Kimi Agent 和多個 Agent 協(xié)作的 Agent Swarm(多智能體集群),允許多個 AI Agent 并行協(xié)作處理復雜任務的架構。

此外,Kimi K2.5 還打造了 Kimi Code 平臺,它能接入本地開發(fā)環(huán)境,可閱讀項目文件、分析代碼結構,并據(jù)此自動生成或修改代碼、執(zhí)行測試與命令。

整體產(chǎn)品線來說,Kimi K2.5 是針對普通人的,相當于模型性能迭代提高。Kimi Code 和 Kimi Agent 功能都是面向程序員的,開源代碼放在 GitHub 上了,有算力都可以嘗試使用,但對普通人來說,使用門檻仍然較高。

不知道是實際體驗的用戶真的變多了,還是 Kimi 想要用戶付費訂閱的意愿變得更強了,在我們體驗的過程中,Kimi 官網(wǎng)常常跳出正在「和很多人溝通,加入訂閱能夠優(yōu)先排隊喲」的提示界面,一時間幻視打開某些視頻平臺,觀看 3 分鐘開始付費。并且,Kimi Code 和 Kimi Agent Swarm 暫時沒有免費體驗機會。

整體體驗下來,Kimi K2.5 本身在長文本理解、思考維度以及「通人性」變得更強了,一些文本深度分析能力也有了不小的進步。尤其是在視覺理解能力上,效果超出預期。

基于 Kimi K2.5 的 Agent 功能,我們在測試了網(wǎng)頁制作、行業(yè)報告撰寫以及新聞圖表等多個維度。在網(wǎng)頁制作的程序上,Agent 表現(xiàn)的效果很好,但是在專業(yè)性的內(nèi)容制作,以及帶有審美感的新聞圖表上展現(xiàn)出來的能力都比較一般,沒有特別驚艷。

此外,在調(diào)用相關 Agent 能力時,模型運轉的流暢程度也比較一般,偶爾會出現(xiàn)停止運轉的情況,常常一個復雜 Agent 指令需要運行 30 分鐘左右才能看到結果。而且對于有明顯矛盾的指令也會直接響應,沒有反饋或者詢問環(huán)節(jié)。

2026 剛開年,這場有關 AI 自動化執(zhí)行的火已經(jīng)開始燒得越來越旺了。Kimi 作為作為較早推出 Agent 產(chǎn)品的通用大模型廠商,也借著 Kimi K2.5 表明了自己在通用領域的站位和思考,Kimi K2.5 也算是給正在急著嘗試玩轉 Agent 的中國開發(fā)者們,一個值得選擇的工具。


欄目作者召集

極客公園的新欄目「AI 上新」,將帶大家體驗最新的 AI 應用和硬件,讓你成為 AI 時代「最靚的仔」!

現(xiàn)在,我們也向所有喜歡嘗鮮和體驗 AI 的同學發(fā)出召集,只要你發(fā)現(xiàn)并體驗了新的 AI 應用或者功能,按照格式(參考案例:)向欄目投稿,在極客公園公眾號發(fā)布,不僅能獲得相應稿費,且會為你「報銷」AI 應用的訂閱費用。

同時,優(yōu)秀作者還有機會進入極客公園 AI 體驗群,獲得最新 AI 應用和工具的內(nèi)測資格,參加極客公園專屬相關 AI 活動,和 AI 應用創(chuàng)始人一對一溝通。

AGI 太久,只爭朝夕,讓一部分人先 AI 起來吧!投稿、進群請掃描下方二維碼添加極客小助手微信

01

Kimi K2.5,變強了,

但未必變得更聰明了?

為驗證 Kimi K2.5 的實際能力邊界,我們選取了三個關鍵維度進行實測:通過長文本理解考驗基礎能力,通過視覺分析考驗多模態(tài)能力,再通過創(chuàng)意設計考驗審美與執(zhí)行。

首個測試聚焦其最擅長的長文本處理。我們分別喂了一篇 40 萬字的長篇小說給 Kimi K2.5 和 Qwen3-Max,讓其分析主要關系人物圖以及梳理主角成長路線。

Qwen3-Max 的分析速度非???,但是給出的關系圖也比較簡單,包括人物成長經(jīng)歷分析上理解比較淺層,但框架正確。Kimi K2.5 則是給出較為詳盡的關系圖譜,并且對于小說中出現(xiàn)的其他人物均能夠按照勢力、關系遠近進行梳理。從小說內(nèi)容理解上,比 Qwen3-Max 要更深一步,并且大多數(shù)小說暗線也能夠理解,對于人物身份走向的揣測也基本正確。


Qwen3-Max 分析結果 圖源|極客公園


Kimi K2.5 分析結果 圖源|極客公園

隨后,我們追問了一個開放性回答,有關對主人公最重要的人是誰?Qwen3-Max 則給出了多個角度,避開唯一性,而 Kimi K2.5 則選擇多種角度分析,還能夠從多維度上比較后,給出最終答案,從思考能力、推理方向以及理解能力上都有比較明顯的進步。


Qwen3-Max 分析結果 圖源|極客公園


Kimi K2.5 分析結果 圖源|極客公園

其次,我們測試了 Kimi K2.5 的視覺理解能力,將其與 Gemini 模型對比。我們上傳了一張 3 頁 PDF 的指令集,并且附有分析例圖,讓 Kimi K2.5 來分析一段 30 秒的網(wǎng)球動作,并給出錯誤姿勢糾正。首先在視頻格式上,Kimi K2.5 能夠支持蘋果 MOV 模式,形式更加多樣化。但是,其單段視頻內(nèi)存限制仍在 100MB 以內(nèi),也就是大約 3 分鐘以內(nèi)。

這次結果比較意外,Kimi K2.5 能夠讀懂復雜的長指令,并且給出合適的指導建議,并且非常詳細,也相對專業(yè)。


Kimi K2.5 測試結果 圖源|極客公園

我們之前曾用 Gemini 做過相似的測試,得出結果圖如下,整體看來兩者對圖片分析能力不分上下,但 Kimi K2.5 對指令理解相對更優(yōu)。


Gemini 測試結果 圖源|極客公園

最后,我們來考驗 Kimi K2.5 的審美能力,同樣將其與 Qwen3-Max 進行比較。我們上傳了一段復雜指令,讓其基于《中國城市公共充電樁空間公平性報告》打造一個數(shù)據(jù)新聞,最終考驗其數(shù)據(jù)新聞是否能夠達到專業(yè)媒體水準。

但最后呈現(xiàn)效果,并不如預期,呈現(xiàn)的效果比較簡陋。但對于整體復雜涉及到多模態(tài)的任務,完成得比較仔細。但數(shù)據(jù)來源并沒有調(diào)用真實參考信息,圖表設計也比較基礎,沒有太多審美感。


Kimi K2.5 測試結果 圖源|極客公園

為了再給 Kimi K2.5 一次機會,我們還嘗試給出一張素材圖,和一段非常詳盡的指令集,讓其給我們設計一張新聞頭圖以考驗其審美能力。但是輸出的結果來看,PPT 感非常濃。


Kimi K2.5 測試結果 圖源|極客公園

不過,Kimi K2.5 也算交出了一份答卷出來。我們帶著同樣的問題問了問 Qwen3-Max,Qwen3-Max 直接婉拒了回答。


Qwen3-Max 測試結果 圖源|極客公園

從目前的測試效果來看,審美或許還是一個主觀的視角,在多類不同領域的審美訓練下,大模型對于「美」的定義和認知仍有一定差距。

02

上新 Skills 案例庫,

Kimi 開始學會多想一步

打開 Kimi 官網(wǎng),我們能看到 Kimi 官網(wǎng)的對話框內(nèi)已經(jīng)添加了 Agent 選項框,用戶可以隨時調(diào)用 Agent 程序。并且,對話框中還新添了一欄,可以讓用戶儲存常用指令。

在對話框下,Kimi 提供了不少智能 Agent 參考案例,涉及網(wǎng)頁應用、移動應用、數(shù)據(jù)分析三大類,提供了大約 20 個案例參考。只要你選擇做同款,就會呈現(xiàn)完整的指令集,某種程度上也算是上了 Skills 案例庫。


Kimi K2.5 參考測試案例 圖源|極客公園

數(shù)據(jù)分析上,我們讓 AI 跑了一下英偉達財報分析。在參考頁面中,我們看到的數(shù)據(jù)分析非常的詳盡,但是等我們正式開始體驗的時候,發(fā)現(xiàn) Agent 也并不是完美。

其中,最為明顯的是,在我們最開始的一版提示詞有明顯矛盾點的時候,AI 并不會和你確認問題的選項,而是按照自己的推測去做后續(xù)執(zhí)行。這也意味著如果你特別信任 AI,完全不看后續(xù)的執(zhí)行路徑的話,一個指令錯誤可能會造成整個 Agent 程序走向完全錯誤。

我們在官網(wǎng)運行跑完整個程序,15 張 PPT 大約跑了接近 30 分鐘。并且,在 Prompt 幾乎沒有變動的情況下,兩個 Agent 給出完全不同的結論推理。

參考案例給出的推論是,「英偉達財報效應確實存在」,而我們跑出來的結果則是「財報發(fā)布并非上漲催化劑,財報交易策略無效」。

同樣的 Prompt,卻給出了不同的答案,或許也從一定程度說明了當下 Agent 屬于能用,但不夠可靠,仍需使用者擁有明辨是非的能力,同時缺乏主動意圖反饋機制,容錯性不足。

第二次,我們自己參考 Prompt,編寫了一段提示詞。


測試 Kimi K2.5 提示詞 圖源|極客公園

又等待了接近半小時后,我們看到了一個初步的網(wǎng)頁設計界面。從頁面設計來看,基本上能夠滿足原提示詞的指令,并且符合一個科技公司常見的主頁界面。


Kimi K2.5 測試結果 圖源|極客公園

但是在理解能力,還是會有一些小問題,比如說,圖上的品牌宣言,一般會是被隱去而不是用直接作為標題顯示。這也說明 AI 在理解和執(zhí)行上還是有需要改進的地方。

也會有些令人驚喜的地方,比如在網(wǎng)頁設計提示詞上我們并沒有提到相關聯(lián)系方式收集等,但是 Kimi 參考了大多數(shù)的網(wǎng)站之后,可以直接在官網(wǎng)設計建聯(lián)頁面。



Kimi K2.5 測試結果 圖源|極客公園

甚至在底欄的一些設計上也比較貼心,有外置鏈接,甚至有小紅書,也是十分與時俱進了。


Kimi K2.5 測試結果 圖源|極客公園

體驗完之后,能夠明顯感受到,當下 Agent 能力未必能夠在執(zhí)行上做到完美,但是能夠通過指令的意圖豐富整個執(zhí)行細節(jié),能夠明白核心需求點是什么,給出更多的意外之喜。并且,Kimi 能夠將網(wǎng)頁鏈接直接部署到位,給出預覽和安裝包,供用戶使用。

這是我們的測試結果鏈接:https://e56oqk3weoe7k.ok.kimi.link/#

此外,由于 Kimi Code 和 Agent Swarm 功能均需要高級會員才可以使用,因此我們很可惜暫時不能得出第一手測試結果。據(jù)了解,Kimi K2.5 的 Agent Swarm 功能采用分布式協(xié)同架構,最多可并行調(diào)度與管理 100 個子智能體。每個智能體均配備獨立的工作記憶,能夠自主執(zhí)行任務,并遵循高效通信協(xié)議,僅在關鍵節(jié)點將處理結果匯總至中央調(diào)度器,從而大幅提升復雜任務的解決效率。

03

Agent 轉向之年

從基于 Kimi K2.5 視覺理解的出色表現(xiàn),我們可以預見多模態(tài)的 Agent 將成為 2026 年的競爭焦點,我們也嗅到了一些 2026 年模型界不一樣的轉向。

首先是,視覺能力的增強。無論是 Claude 還是 DeepSeek,在琢磨了一年的文本交互后,終于轉向視頻能力,補強此前視頻分析的短板。視頻理解能力超強帶來的不僅是用戶主動上傳視頻信息的分析更強,更是未來一些被動記錄視頻能力發(fā)揮更多的空間,會帶來更多玩法。

其次,從目前通用模型生態(tài)來看,開源模型的活躍度在社區(qū)滲透和第三方集成上展現(xiàn)出更強能力,前有 Gemini、 Claude、GPT 對比,后有 Qwen3- max,Kimi K2.5 和 DeepSeek。Kimi K2.5 的開源雖然是在意料之外,但也算情理之中。但值得注意的是,消費者的付費意愿養(yǎng)成仍需依賴閉源模型的高端功能。

第三,是所有的通用大模型開始爭取更好的利潤,更多的付費形式。這次 Kimi Code 功能和 Agent 集群功能直接提供給高端付費用戶,不開放任何試用,且 Kimi 的付費模式也開始變化,最高 199 元每月。OpenAI 要賣廣告,Gemini 要上 Chrome 幾乎都是一個原因,開源節(jié)流,模型公司們開始兩手抓資金流向。

最后,通用模型公司們已經(jīng)開始為 Agent 走入垂直場景做準備。Kimi K2.5 上線的 Agent Swarm 功能就是幫助更多企業(yè)打造垂類應用時能有模型底座支撐,方便企業(yè)能夠通過不同類型的 Agent 扮演企業(yè)中的不同員工,各司其職,最終協(xié)同辦公。

如果說 2025 年 DeepSeek 將模型成本降到無限低,是讓人看到模型走向千行百業(yè)的關鍵之一。2026 年的開端,似乎預示圍繞 AI 自動化的一切即將開始改變。從單個 Agent,走向幾個 Agent,再到一群 Agent。Kimi K2.5 的出現(xiàn),代表已經(jīng)有通用大模型廠商看到這一趨勢,并做出改變。

目前,從 Manus 到豆包手機,再到 Clawdbot,其實從模型誕生的第一天開始,人們對 AI 自動化的探索并未停止。當模型公司、應用公司以及硬件公司都瞄準一個方向發(fā)展,或許 2026 年也將會是 Agent 逐漸成熟,落地場景的一年。

*頭圖來源:Kimi

本文為極客公園原創(chuàng)文章,轉載請聯(lián)系極客君微信 geekparkGO

極客一問

你覺得 Kimi K2.5 還有哪些玩法?

曝 SpaceX 正評估與特斯拉或 xAI 合并,以作為 IPO 之前另一種選擇。

點贊關注極客公園視頻號,

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
男子走失25年后漂洋過?;貒J親:第一次用微信支付買了兒時吃過的冰糖葫蘆,賬號注冊1小時粉絲已破7000

男子走失25年后漂洋過?;貒J親:第一次用微信支付買了兒時吃過的冰糖葫蘆,賬號注冊1小時粉絲已破7000

極目新聞
2026-02-28 17:53:15
當一個人不再聯(lián)系你,最好的對策,1個字

當一個人不再聯(lián)系你,最好的對策,1個字

十點讀書
2026-02-27 19:01:46
英媒爆出猛料:中國或違反聯(lián)合國規(guī)定,運送超高音速導彈給伊朗!

英媒爆出猛料:中國或違反聯(lián)合國規(guī)定,運送超高音速導彈給伊朗!

快看張同學
2026-02-26 14:22:43
女子回湖北婆家過年,車被妯娌砸稀爛,報警后絕不和解,結局爽了

女子回湖北婆家過年,車被妯娌砸稀爛,報警后絕不和解,結局爽了

離離言幾許
2026-02-27 21:13:58
特朗普:美國正在“大規(guī)?!贝驌粢晾?消息人士:伊朗遇難者身份將令人震驚

特朗普:美國正在“大規(guī)?!贝驌粢晾?消息人士:伊朗遇難者身份將令人震驚

環(huán)球網(wǎng)資訊
2026-02-28 16:16:05
擊落全部巡航導彈和高超音速導彈!俄軍最優(yōu)秀防空專家陣亡

擊落全部巡航導彈和高超音速導彈!俄軍最優(yōu)秀防空專家陣亡

鷹眼Defence
2026-02-28 16:56:22
突發(fā)利空!以色列開打伊朗 中國資產(chǎn)等跳水大跌,下周A股要涼涼了?

突發(fā)利空!以色列開打伊朗 中國資產(chǎn)等跳水大跌,下周A股要涼涼了?

股市皆大事
2026-02-28 16:03:03
最高領袖辦公室附近遭襲,伊朗權力體系如何“去中心化”強化韌性?

最高領袖辦公室附近遭襲,伊朗權力體系如何“去中心化”強化韌性?

澎湃新聞
2026-02-28 15:10:31
美國關閉GPS,導彈依舊精準轟炸以色列,誰干的?中國還是俄羅斯

美國關閉GPS,導彈依舊精準轟炸以色列,誰干的?中國還是俄羅斯

高山非凡創(chuàng)作
2024-05-09 05:48:13
訪華回國后默茨真急了:中國太拼,我們得加油了

訪華回國后默茨真急了:中國太拼,我們得加油了

界面新聞
2026-02-28 15:07:04
火爆沖突!多爾特絆倒約基奇二級惡犯被驅逐 約基奇推搡杰林均吃T

火爆沖突!多爾特絆倒約基奇二級惡犯被驅逐 約基奇推搡杰林均吃T

醉臥浮生
2026-02-28 12:59:52
以色列突然襲擊伊朗,不是強拉美國上車,而是為特朗普緩解壓力

以色列突然襲擊伊朗,不是強拉美國上車,而是為特朗普緩解壓力

以辛德之名
2026-02-28 15:29:13
特朗普應該想不到:他對伊朗的滅國之戰(zhàn),讓中俄歐看清了一個真相

特朗普應該想不到:他對伊朗的滅國之戰(zhàn),讓中俄歐看清了一個真相

頭條爆料007
2026-02-28 18:49:20
外媒:伊朗擊落一架美軍機,價值幾十億的戰(zhàn)略飛機

外媒:伊朗擊落一架美軍機,價值幾十億的戰(zhàn)略飛機

大國之翼
2026-02-28 06:30:03
伊朗唯一的反擊手段恐遭破解!面對美以聯(lián)合打擊,如何絕境逢生?

伊朗唯一的反擊手段恐遭破解!面對美以聯(lián)合打擊,如何絕境逢生?

儒雅隨和老泰勒
2026-02-28 15:41:41
伊朗高層投降意志不夠堅決,美以斬首戰(zhàn)開打

伊朗高層投降意志不夠堅決,美以斬首戰(zhàn)開打

深度財線
2026-02-28 15:25:43
持續(xù)4天空襲!從德黑蘭到伊斯法罕:美以優(yōu)先癱瘓伊朗指揮體系

持續(xù)4天空襲!從德黑蘭到伊斯法罕:美以優(yōu)先癱瘓伊朗指揮體系

裝甲鏟史官
2026-02-28 16:11:24
太扎心了!火化名單全是40到50歲中年男性,一殯儀館大廳信息流出

太扎心了!火化名單全是40到50歲中年男性,一殯儀館大廳信息流出

火山詩話
2026-02-28 07:08:55
建業(yè)集團董事長胡葆森滯留香港

建業(yè)集團董事長胡葆森滯留香港

地產(chǎn)微資訊
2026-02-28 12:39:40
大熊貓“半半”“香果” 因病救治無效死亡

大熊貓“半半”“香果” 因病救治無效死亡

界面新聞
2026-02-28 18:10:45
2026-02-28 20:36:49
極客公園
極客公園
讓最棒的創(chuàng)新成為頭條
11835文章數(shù) 78817關注度
往期回顧 全部

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

頭條要聞

疑將燃料當白酒喝下兩男子參加婚宴后中毒仍在ICU搶救

頭條要聞

疑將燃料當白酒喝下兩男子參加婚宴后中毒仍在ICU搶救

體育要聞

球隊主力全報銷?頂風擺爛演都不演了

娛樂要聞

疑似王一博被爆私密聊天記錄

財經(jīng)要聞

沈明高提共富建議 百姓持科技股國家兜底

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

親子
房產(chǎn)
藝術
本地
公開課

親子要聞

波速球半圓平衡球

房產(chǎn)要聞

濱江九小也來了!集齊海僑北+哈羅、寰島...江東教育要炸了!

藝術要聞

香港發(fā)現(xiàn)王羲之巨幅真跡!體量相當于20部《蘭亭序》,足以改寫書法史

本地新聞

津南好·四時總相宜

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版