国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Kimi K2.6來了:300個(gè)Agent優(yōu)雅并行4000步,它就是Agent的OS|附一手實(shí)測(cè)

0
分享至


作者 | 董道力
郵箱 | dongdaoli@pingwest.com

4 月 20 日,月之暗面發(fā)布了新模型 Kimi K2.6,并同步開源。

從官方展示來看,這次更新重點(diǎn)有三塊:長周期 coding、網(wǎng)頁設(shè)計(jì)生成,以及更大規(guī)模的 Agent Swarm。

把三項(xiàng)能力放在一起看,會(huì)發(fā)現(xiàn) Kimi 想強(qiáng)化的,已經(jīng)不只是模型本身,而是模型調(diào)度 agent、接管任務(wù)流程的能力。它要做的就是一個(gè)能最終成為Agent的OS的模型。

1

長周期 Coding 能力

K2.6 在內(nèi)部基準(zhǔn) Kimi Code Bench 上較 K2.5 有明顯提升,覆蓋 Rust、Go、Python 等多語言,以及前端、DevOps、性能優(yōu)化等場景。

官方給出兩個(gè) demo:一是用 Zig 語言在 Mac 上優(yōu)化 Qwen3.5-0.8B 的本地推理,連續(xù)執(zhí)行 12 小時(shí)、4000 余次工具調(diào)用,推理吞吐量從 15 tokens/s 提升至 193 tokens/s。

二是自主重構(gòu)開源金融撮合引擎 exchange-core,歷時(shí) 13 小時(shí)、1000 余次工具調(diào)用,中值吞吐提升 185%,峰值吞吐提升 133%。

兩個(gè)案例指向同一個(gè)問題,在超出常規(guī)訓(xùn)練分布的任務(wù)里,冷門語言、接近性能上限的存量項(xiàng)目,模型能否長時(shí)間穩(wěn)定執(zhí)行而不漂移。

長周期穩(wěn)定性是目前行業(yè)普遍在攻的方向,改進(jìn)路徑主要集中在三個(gè)層面:錯(cuò)誤恢復(fù)能力、長程可靠性,以及工具調(diào)用邏輯。

各家的解法有所不同,Anthropic 近幾個(gè)月公開強(qiáng)調(diào)的重點(diǎn),是 harness 與 context engineering,而不只是單純拉模型分?jǐn)?shù)。Google 的思路是用超長上下文窗口來對(duì)抗長程漂移,Gemini 提供最高 100 萬 token 的上下文窗口。K2.6 的應(yīng)對(duì)方式是將可靠性直接壓在模型層,據(jù) CodeBuddy 內(nèi)測(cè)數(shù)據(jù),工具調(diào)用成功率達(dá) 96.60%,factory.ai 的獨(dú)立評(píng)估顯示,K2.6 整體較 K2.5 提升約 15%。

2

網(wǎng)頁設(shè)計(jì)生成能力

Kimi 建立了內(nèi)部基準(zhǔn) Kimi Design Bench,從視覺輸入、落地頁生成、全棧應(yīng)用、創(chuàng)意編程四個(gè)維度與 Google AI Studio 進(jìn)行對(duì)比,K2.6 表現(xiàn)更優(yōu)。


具體能力包括:從單條 prompt 生成帶動(dòng)效的前端界面、調(diào)用圖片/視頻生成工具輸出視覺素材,以及覆蓋登錄、數(shù)據(jù)庫等基礎(chǔ)全棧功能。

視覺轉(zhuǎn)代碼這個(gè)方向,行業(yè)競爭格局相對(duì)清晰。Gemini 憑借原生多模態(tài)架構(gòu)在視覺理解上具有結(jié)構(gòu)性優(yōu)勢(shì),Google AI Studio 也是目前最主流的前端生成測(cè)試平臺(tái)之一。

K2.5 發(fā)布時(shí)就有評(píng)測(cè)將其定位為"中國首個(gè)在前端設(shè)計(jì)和視覺理解上與 Gemini 2.5 Pro 形成真實(shí)競爭的模型",K2.6 是在此基礎(chǔ)上的延續(xù)。

3

Agent Swarm 擴(kuò)容

相比 K2.5,Agent Swarm 的規(guī)模從 100 個(gè)子 agent、1500 步,擴(kuò)展至 300 個(gè)子 agent、4000 步并行執(zhí)行,K2.6 負(fù)責(zé)調(diào)度與任務(wù)失敗后的自動(dòng)重分配。

官方 demo 展示了 100 個(gè)子 agent 同時(shí)生成 100 份定制簡歷,以及批量為 30 家無官網(wǎng)零售店生成落地頁等場景。Kimi 內(nèi)部也已采用這套系統(tǒng),內(nèi)容團(tuán)隊(duì)通過 Claw Groups 跑發(fā)布流程,Demo 制作、基準(zhǔn)測(cè)試、社媒發(fā)布各有專屬 agent 分工。

多 agent 協(xié)作是目前各家競爭最激烈的方向之一,但路線分歧明顯。OpenAI 的方向是在產(chǎn)品層做深度集成,將 agent 能力封裝進(jìn) ChatGPT 的工作流。Kimi 的差異化在于開放性,Claw Groups 不綁定自家模型,允許接入任意第三方 agent,這一設(shè)計(jì)更接近 agent OS 的定位,而非封閉的產(chǎn)品生態(tài)。


4

Benchmark 環(huán)節(jié)

K2.6 在基準(zhǔn)測(cè)試中最突出的方向是 agent 搜索和實(shí)際工程 coding。

DeepSearchQA f1-score 達(dá)到 92.5,領(lǐng)先 GPT-5.4 的 78.6 超過 13 分;SWE-Bench Pro 以 58.6 排在四家第一。

但在同類工具調(diào)用測(cè)試中,Toolathlon 和 MCPMark 分別以 50.0 和 55.9 落后于 GPT-5.4 的 54.6 和 62.5,說明 K2.6 在信息檢索類 agent 任務(wù)上有優(yōu)勢(shì),在第三方工具調(diào)用質(zhì)量上仍有差距。

coding 方向整體處于第一梯隊(duì),但未能全面領(lǐng)先:Terminal-Bench 2.0 落后于 Gemini,SWE-Bench Verified 三家?guī)缀醮蚱健?/p>

推理和數(shù)學(xué)是明顯短板:HLE-Full 不帶工具僅得 34.7,比 Gemini 低近 10 分;AIME 2026、GPQA-Diamond 均落后 2—4 分。視覺方向與 Gemini 基本持平,但整體落后于 GPT-4.5。


5

實(shí)測(cè) K2.6

編程能力

4 月 14 日,K2.6 Preview 上線后,我把它接進(jìn) Claude Code,拿來做一個(gè)社區(qū)官網(wǎng)項(xiàng)目。項(xiàng)目內(nèi)容不算簡單,既有文章遷移、歷史圖片處理,也有全棧開發(fā)。整個(gè)過程斷斷續(xù)續(xù)跑了 6 天,最長一次任務(wù)跑了3小時(shí),前后分成 6 個(gè)彼此獨(dú)立的會(huì)話。

這輪測(cè)試?yán)铮琄2.6 有兩個(gè)表現(xiàn)尤其值得記下來。

先說長周期可靠性。現(xiàn)在很多 AI 編程助手都有一個(gè)很明顯的問題:會(huì)話一斷,上下文就像被清空了一遍,下次重新打開,往往還得從頭對(duì)齊背景、技術(shù)棧和代碼規(guī)范。但這次測(cè)試中,我在每次新會(huì)話開始時(shí)都沒有額外交代項(xiàng)目背景,K2.6 依然能延續(xù)第一天確定下來的技術(shù)選型和設(shè)計(jì)規(guī)范,6 天里產(chǎn)出的代碼風(fēng)格也基本保持一致。對(duì)于一個(gè)持續(xù)推進(jìn)、不斷迭代的真實(shí)項(xiàng)目來說,這種穩(wěn)定性比單次輸出的驚艷更重要。

再說指令遵循。我給它的指令其實(shí)很簡單,只有一句:“優(yōu)化 CMS UI?!?但 K2.6 沒有停在表層執(zhí)行,而是先回看已有設(shè)計(jì)規(guī)范,確認(rèn)技術(shù)約束,再自己拆計(jì)劃、往下推進(jìn),整個(gè)過程幾乎沒有額外追問。

在處理業(yè)務(wù)約束時(shí),它也不是機(jī)械照做。比如遷移腳本會(huì)主動(dòng)保留原始 URL,并在 README 里補(bǔ)上潛在風(fēng)險(xiǎn)說明。這說明它理解的不是一句命令本身,而是命令背后的含義。

網(wǎng)頁編程能力

測(cè)試 1:動(dòng)效交互

promtps:為一家叫 PW 的 AI 寫作工具設(shè)計(jì)一個(gè)產(chǎn)品落地頁,要有科技感。需要包含:首屏 hero 區(qū)塊、功能介紹區(qū)、用戶評(píng)價(jià)區(qū)。滾動(dòng)到不同區(qū)塊時(shí)有入場動(dòng)畫,hero 區(qū)有視差效果,CTA 按鈕有 hover 動(dòng)效。

K2.6 生成的整體水準(zhǔn)很高。配色用了 oklch 色彩空間,間距和字體用 clamp() 響應(yīng)式縮放,設(shè)計(jì) token 抽得很系統(tǒng),說明不是隨手填的。

動(dòng)效有層次,視差用鼠標(biāo)位置 + 滾動(dòng)雙驅(qū)動(dòng)加 lerp 插值,GSAP 入場用了 stagger 錯(cuò)開時(shí)序,feature card hover 做了跟手光效,這些細(xì)節(jié)大多數(shù)輸出不會(huì)主動(dòng)加。

弱的地方是內(nèi)容層,三張功能卡片的圖標(biāo)都是通用 SVG,用戶評(píng)價(jià)頭像只用了漢字首字,視覺上偏模板化。結(jié)構(gòu)和動(dòng)效的完成度高,內(nèi)容設(shè)計(jì)的差異化不足。

測(cè)試 2:視覺輸入

那些眼花繚亂的特效,很難用語言描述出來,這時(shí)候,多模態(tài)視頻就是一個(gè)很好的輸入方式。

我們錄屏了 lusion.co 網(wǎng)頁的交互,滾動(dòng)特效相當(dāng)復(fù)雜,我們讓 K2.6 根據(jù)視頻寫一個(gè)網(wǎng)頁。(在 Claude Code 環(huán)境中)

prompts:根據(jù)視頻,做一個(gè)特效一樣的網(wǎng)頁。

我們先看一下原網(wǎng)站。

第一次生成時(shí),K2.6 只看了 17 幀的視頻,做出來的效果并不好,經(jīng)過第二輪對(duì)話,K2.6 頁看到了更多細(xì)節(jié)。


我們可以看一下 K2.6 僅僅通過視頻生成的網(wǎng)頁,雖然和原網(wǎng)頁的動(dòng)效還有差距,但網(wǎng)頁的元素結(jié)構(gòu),尤其是宇航員滑動(dòng)效果基本都有模有樣。

分析一下操作流程,可以發(fā)現(xiàn),在 ClaudeCode 環(huán)境下,K2.6 只能靠抽幀圖片來學(xué)習(xí)視頻,如果 harness 搭建的更加完善,K2.6 可能可以更好還原。

Agent 集群

這一項(xiàng)能力在 Kimi 官網(wǎng)進(jìn)行測(cè)試,采用 K2.6 Agent 集群分析 K2.6 本身的能力。


Kimi 首先對(duì)任務(wù)做整體判斷,分析涉及哪些環(huán)節(jié),這一步不聯(lián)網(wǎng),因此將 K2.6 識(shí)別為 2025 年發(fā)布的模型。


初步規(guī)劃完成后,K2.6 加載相應(yīng)技能,進(jìn)入初步研究階段,并將研究任務(wù)拆解成多個(gè)維度。



前兩步由 K2.6 單一模型執(zhí)行,第三步則根據(jù)拆解出的維度,每個(gè)維度派出一個(gè) agent 并行展開研究。


例如,"陸研究員"負(fù)責(zé)研究 K2.6 的推理能力,"陳研究員"負(fù)責(zé)研究長文本能力。


每個(gè) agent 可獨(dú)立調(diào)用不同技能、聯(lián)網(wǎng)搜索,并以 plan 模式生成 todo 推進(jìn)任務(wù),最后將結(jié)果匯總共享。

匯總后,Kimi 會(huì)對(duì)各 agent 產(chǎn)出的內(nèi)容進(jìn)行交叉驗(yàn)證,以糾正類似"K2.6 發(fā)布于 2025 年"這類錯(cuò)誤。


進(jìn)入報(bào)告撰寫階段后,同樣派出多個(gè)報(bào)告撰寫員 agent,并行完成各部分內(nèi)容。

這套流程在工程上有一個(gè)值得注意的設(shè)計(jì)決策,交叉驗(yàn)證不是甩給用戶的,而是內(nèi)嵌在流程里自動(dòng)完成的。單個(gè) agent 在獨(dú)立運(yùn)行時(shí)不可避免地會(huì)產(chǎn)生幻覺,Kimi 的應(yīng)對(duì)方式不是試圖消滅這個(gè)問題,而是在架構(gòu)層接受它的存在,用并行制造冗余,再用驗(yàn)證層消化誤差。

這與人類團(tuán)隊(duì)的協(xié)作邏輯高度相似,分頭調(diào)研、匯總對(duì)齊、分工執(zhí)筆。更重要的是,這套流程對(duì)用戶來說是全程透明的,每個(gè) agent 在做什么、發(fā)現(xiàn)了什么、被糾正了什么,都可以追溯。

這在當(dāng)前多 agent 產(chǎn)品普遍是黑箱的背景下,是一個(gè)實(shí)際的差異點(diǎn)。

6

DeepSeek 沒來,K2.6 先來了

最近一段時(shí)間,AI 圈都在等 DeepSeek 的下一張牌。上一次它抬高了國內(nèi)模型競爭的基準(zhǔn)線,這一次,所有人也都默認(rèn),下一個(gè)高潮還會(huì)從“誰的模型更強(qiáng)”開始。

但 K2.6 有意思的地方,恰恰在于它沒有只回答這個(gè)問題。

長周期 coding、網(wǎng)頁生成、Agent Swarm,看上去是三項(xiàng)能力,其實(shí)月之暗面已經(jīng)不滿足于把模型做得更聰明,而是想讓模型去組織更多 agent、接管更長流程、吞下更完整的任務(wù)鏈條。參數(shù)規(guī)模、benchmark 排名、單輪對(duì)話質(zhì)量,當(dāng)然還重要,但它們開始退到第二層。真正被推到臺(tái)前的,是調(diào)度、協(xié)作、驗(yàn)證和交付等。

如果說過去的大模型競爭,比的是誰更像一個(gè)更強(qiáng)的大腦,那么 K2.6 想證明的,是另一個(gè)方向:未來真正有分量的產(chǎn)品,也許不只是一個(gè)模型,而是一群 agent,外加一個(gè)會(huì)指揮它們的中樞。

這個(gè)方向最后能不能跑通,現(xiàn)在還不能下結(jié)論。但至少,月之暗面已經(jīng)先把問題改寫了。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
機(jī)構(gòu)在撤退,賭徒在加碼

機(jī)構(gòu)在撤退,賭徒在加碼

派克斯研究院
2026-04-23 16:01:09
中國駐美大使謝鋒:中國大蒜做夢(mèng)也沒想到,有朝一日會(huì)被列為“國家安全威脅”

中國駐美大使謝鋒:中國大蒜做夢(mèng)也沒想到,有朝一日會(huì)被列為“國家安全威脅”

每日經(jīng)濟(jì)新聞
2026-04-22 11:09:45
至今,還有13個(gè)國家和中國沒有建交,他們都是誰?

至今,還有13個(gè)國家和中國沒有建交,他們都是誰?

深度報(bào)
2026-04-22 22:30:57
再次拿到倒數(shù)第一,這個(gè)北方大省決心“翻身”

再次拿到倒數(shù)第一,這個(gè)北方大省決心“翻身”

每日經(jīng)濟(jì)新聞
2026-04-22 23:48:09
“香港演員幾乎全軍覆沒! 無戲可拍”引發(fā)網(wǎng)友熱議

“香港演員幾乎全軍覆沒! 無戲可拍”引發(fā)網(wǎng)友熱議

許三歲
2026-03-26 11:35:13
老人擠公交插隊(duì)被乘客撞倒離世 家屬起訴公交公司索賠70萬被駁回

老人擠公交插隊(duì)被乘客撞倒離世 家屬起訴公交公司索賠70萬被駁回

封面新聞
2026-04-23 14:00:02
爛醉如泥的趙總!

爛醉如泥的趙總!

仕道
2026-04-23 08:37:01
人民日?qǐng)?bào)發(fā)文,揭張桂梅真實(shí)現(xiàn)狀,卸任華坪女高校長傳聞早有真相

人民日?qǐng)?bào)發(fā)文,揭張桂梅真實(shí)現(xiàn)狀,卸任華坪女高校長傳聞早有真相

歲暮的歸南山
2026-04-23 16:31:58
一場2-0,鄭欽文首秀決戰(zhàn)大滿貫得主!比賽時(shí)間確定,手握1大優(yōu)勢(shì)

一場2-0,鄭欽文首秀決戰(zhàn)大滿貫得主!比賽時(shí)間確定,手握1大優(yōu)勢(shì)

大秦壁虎白話體育
2026-04-23 14:36:20
11.99萬起帶閃充!比亞迪二代刀片電池加速向下滲透

11.99萬起帶閃充!比亞迪二代刀片電池加速向下滲透

國際金融報(bào)
2026-04-22 21:30:42
天生領(lǐng)袖!東契奇受傷后,詹姆斯在隊(duì)內(nèi)說:跟著我,我們能贏球!

天生領(lǐng)袖!東契奇受傷后,詹姆斯在隊(duì)內(nèi)說:跟著我,我們能贏球!

愛體育
2026-04-23 22:37:50
太慘了!燃油車再迎大降價(jià):最大跌幅50%,豪華車帶頭“跳水”

太慘了!燃油車再迎大降價(jià):最大跌幅50%,豪華車帶頭“跳水”

沙雕小琳琳
2026-04-23 02:29:16
何鴻燊最后11年過得是什么樣的日子?說出來可能顛覆很多人的認(rèn)知

何鴻燊最后11年過得是什么樣的日子?說出來可能顛覆很多人的認(rèn)知

人生錄
2026-04-22 19:01:34
CBA最新消息!曝浙江廣廈裁掉威廉姆斯,廣東宏遠(yuǎn)換掉爭議外援

CBA最新消息!曝浙江廣廈裁掉威廉姆斯,廣東宏遠(yuǎn)換掉爭議外援

體壇瞎白話
2026-04-23 18:19:13
女子被扇耳光后續(xù):保安先動(dòng)手 他不是學(xué)校保安 黑料被扒不是善茬

女子被扇耳光后續(xù):保安先動(dòng)手 他不是學(xué)校保安 黑料被扒不是善茬

小鋭?dòng)性捳f
2026-04-23 10:54:05
哭笑不得!福建一小區(qū)訃告嚇壞住戶不敢坐電梯,在家吃了兩天外賣

哭笑不得!福建一小區(qū)訃告嚇壞住戶不敢坐電梯,在家吃了兩天外賣

火山詩話
2026-04-23 11:11:31
又突然緊張,投降了,光屁股了

又突然緊張,投降了,光屁股了

揭幕者
2026-04-23 15:09:56
太慘!被美歐拋棄,走上絕路,宣布破產(chǎn)!

太慘!被美歐拋棄,走上絕路,宣布破產(chǎn)!

李榮茂
2026-04-23 18:33:54
施明出殯|李泳漢爆料李家鼎、李泳豪全程未出錢:兩人一分錢都沒付

施明出殯|李泳漢爆料李家鼎、李泳豪全程未出錢:兩人一分錢都沒付

TVB資訊臺(tái)
2026-04-23 21:32:53
44歲前國腳遭前妻實(shí)名舉報(bào):騙我1500萬元 帶到國外折磨羞辱2個(gè)月

44歲前國腳遭前妻實(shí)名舉報(bào):騙我1500萬元 帶到國外折磨羞辱2個(gè)月

科學(xué)發(fā)掘
2026-04-23 02:32:06
2026-04-23 23:03:00
硅星GenAI incentive-icons
硅星GenAI
比一部分人更先進(jìn)入GenAl。
273文章數(shù) 37關(guān)注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產(chǎn)品",但量產(chǎn)難預(yù)測(cè)

頭條要聞

媒體:莫氏雞煲陷入怪圈 在流量裹挾下真實(shí)反饋沒人聽

頭條要聞

媒體:莫氏雞煲陷入怪圈 在流量裹挾下真實(shí)反饋沒人聽

體育要聞

給文班剃頭的馬刺DJ,成為NBA最佳第六人

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財(cái)經(jīng)要聞

關(guān)于AI算力鏈"瓶頸" 這是高盛的最新看法

汽車要聞

令人驚艷的奇瑞車 風(fēng)云A9可不只是樣子貨

態(tài)度原創(chuàng)

房產(chǎn)
親子
旅游
手機(jī)
游戲

房產(chǎn)要聞

三亞安居房,突然官宣!

親子要聞

新華讀報(bào)|打乒乓球有助提高兒童注意力

旅游要聞

穿一襲衣游一座城:感受旅拍熱背后的文化消費(fèi)升級(jí)

手機(jī)要聞

一加16再曝,6.78英寸左右大直屏 屏幕繼續(xù)升級(jí)

《極限競速:地平線5》PS5版銷量已超500萬

無障礙瀏覽 進(jìn)入關(guān)懷版