国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

訓(xùn)練效率翻倍,快手拿下開源編程模型第一

0
分享至


始智AI wisemodel.cn社區(qū)是源自中國的中立開放的AI開源社區(qū)。正在,歡迎加入共同成長。wisemodel推出邀請(qǐng)注冊(cè)獎(jiǎng)勵(lì)活動(dòng),最高可得算力券+token包380元獎(jiǎng)勵(lì),歡迎參與和支持!

近日,快手Kwaipilot團(tuán)隊(duì)開源最新一代編程模型KAT-Dev-72B-Exp,這一模型在軟件開發(fā)能力評(píng)測(cè)基準(zhǔn)SWE-Bench Verified上取得74.6%的成績,超越Qwen3-Coder、DeepSeek-V3.1、Kimi-K2和GLM-4.6等多款模型。

KAT-Dev-72B-Exp是KAT-Coder模型強(qiáng)化學(xué)習(xí)的實(shí)驗(yàn)版本,由快手自研的SeamlessFlow強(qiáng)化學(xué)習(xí)框架提供技術(shù)支撐。KAT-Dev-72B-Exp已上線始智AI-wisemodel開源社區(qū),并且支持一鍵部署成在線體驗(yàn)或API服務(wù),歡迎大家前去體驗(yàn)。


模型地址

https://www.wisemodel.cn/models/Kwaipilot/KAT-Dev-72B-Exp


KAT-Dev-72B-Exp的框架實(shí)現(xiàn)了訓(xùn)練邏輯與智能體的完全解耦,能夠靈活支持多智能體和在線強(qiáng)化學(xué)習(xí)等復(fù)雜場(chǎng)景。針對(duì)復(fù)雜Agent場(chǎng)景,Kwaipilot團(tuán)隊(duì)引入了Trie Packing機(jī)制,并對(duì)訓(xùn)練引擎進(jìn)行了重構(gòu)優(yōu)化,使模型能夠高效地在共享前綴軌跡上開展訓(xùn)練,還通過難度感知的策略優(yōu)化,實(shí)現(xiàn)了探索與利用的平衡。值得注意的是,快手發(fā)布KAT-Dev-72B-Exp模型開源消息的賬號(hào)歸屬為溪流湖科技,企查查信息顯示這是一家快手的關(guān)聯(lián)企業(yè)。在溪流湖科技的官網(wǎng)上,還能看到一款名為“CodeFlicker”AI IDE產(chǎn)品已經(jīng)進(jìn)入預(yù)約階段,其產(chǎn)品界面與Cursor類似。


01.

雙管齊下給強(qiáng)化學(xué)習(xí)提效

在KAT-Dev-72B-Exp的強(qiáng)化學(xué)習(xí)訓(xùn)練中,Kwaipilot推出了一套融合樹形軌跡訓(xùn)練優(yōu)化(Trie Packing)與熵感知優(yōu)勢(shì)縮放的新方法,顯著提升了強(qiáng)化學(xué)習(xí)訓(xùn)練的吞吐量與策略探索能力。

在傳統(tǒng)的大模型Agent訓(xùn)練中,由于模型在執(zhí)行任務(wù)時(shí)會(huì)產(chǎn)生包含分支與回溯的樹狀token軌跡,業(yè)界普遍采用拆分為多條線性序列的簡化訓(xùn)練方案。然而,這種方法忽略了軌跡之間的共享結(jié)構(gòu),容易造成計(jì)算冗余。

Kwaipilot的工程團(tuán)隊(duì)重新設(shè)計(jì)了訓(xùn)練引擎與注意力內(nèi)核(attention kernel),并通過樹形梯度修復(fù)權(quán)重機(jī)制,將共享前綴的正反向計(jì)算合并,實(shí)現(xiàn)了在樹形軌跡上的高效訓(xùn)練。

實(shí)測(cè)數(shù)據(jù)顯示,這一技術(shù)方案令整體訓(xùn)練速度平均提升至原來的2.5倍,大幅提高了強(qiáng)化學(xué)習(xí)訓(xùn)練階段的吞吐效率。

強(qiáng)化學(xué)習(xí)的優(yōu)化核心在于策略梯度,而優(yōu)勢(shì)函數(shù)(Advantage Function)直接決定了每個(gè)樣本在參數(shù)更新中的影響力。傳統(tǒng)的GRPO算法僅基于組內(nèi)收益計(jì)算優(yōu)勢(shì)值,忽視了策略的探索性,容易使模型過早收斂到局部最優(yōu)。

針對(duì)這一問題,Kwaipilot團(tuán)隊(duì)提出了基于熵的優(yōu)勢(shì)縮放方法。該方法在每個(gè)rollout樣本中引入策略熵(Policy Entropy)作為權(quán)重調(diào)節(jié)因子,對(duì)高熵樣本(探索性強(qiáng))放大優(yōu)勢(shì),對(duì)低熵樣本(確定性強(qiáng))適度抑制。

通過這一機(jī)制,模型在保持收斂效率的同時(shí),顯著增強(qiáng)了探索能力,實(shí)現(xiàn)了更優(yōu)的探索—利用平衡。

02.

自研工業(yè)級(jí)強(qiáng)化學(xué)習(xí)框架

在訓(xùn)練KAT-Dev-72B-Exp的過程中,快手還使用了自研的SeamlessFlow工業(yè)級(jí)強(qiáng)化學(xué)習(xí)框架,以支持復(fù)雜的強(qiáng)化學(xué)習(xí)場(chǎng)景??焓諯waipilot團(tuán)隊(duì)曾于今年8月發(fā)布SeamlessFlow的技術(shù)報(bào)告。具體來看,SeamlessFlow共有兩大創(chuàng)新點(diǎn)。

首先,SeamlessFlow引入了獨(dú)立的數(shù)據(jù)平面層,徹底解耦了RL訓(xùn)練和智能體實(shí)現(xiàn)。數(shù)據(jù)平面的核心是軌跡管理器(Trajectory Manager)。軌跡管理器在智能體與語言模型服務(wù)之間靜默記錄所有交互細(xì)節(jié),包括輸入輸出及多輪對(duì)話的分支結(jié)構(gòu),從而構(gòu)建完整的軌跡樹。

這一設(shè)計(jì)不僅避免重復(fù)計(jì)算、提升存儲(chǔ)效率,還支持精確的在線與離線策略區(qū)分。SeamlessFlow的另一組件是推理管理器(Rollout Manager),它實(shí)現(xiàn)了對(duì)模型更新與資源調(diào)度的無感控制,使得智能體無需適配訓(xùn)練框架即可實(shí)現(xiàn)任務(wù)的無縫暫停與恢復(fù),大幅提升了系統(tǒng)靈活性與訓(xùn)練效率。


▲數(shù)據(jù)平面的序列圖(圖源:Kwaipilot)

SeamlessFlow的另一關(guān)鍵創(chuàng)新是標(biāo)簽驅(qū)動(dòng)的資源調(diào)度范式,通過為計(jì)算資源賦予如“訓(xùn)練”或“推理”等能力標(biāo)簽,統(tǒng)一了集中式(Colocated)與分布式架構(gòu)(Disaggregated)的資源管理模式。

該系統(tǒng)支持時(shí)空復(fù)用機(jī)制,使得具備多標(biāo)簽的機(jī)器可根據(jù)任務(wù)需求動(dòng)態(tài)切換角色,從而將GPU閑置率降至5%以下,徹底緩解了傳統(tǒng)架構(gòu)中的流水線空閑問題。

在實(shí)際工業(yè)場(chǎng)景的驗(yàn)證中,SeamlessFlow在多項(xiàng)任務(wù)中實(shí)現(xiàn)了顯著的吞吐量提升與擴(kuò)展性優(yōu)勢(shì)。

使用32張H800 GPU進(jìn)行的對(duì)比測(cè)試顯示,相比主流的VERL框架,SeamlessFlow在單輪RL任務(wù)(8k token上下文)中實(shí)現(xiàn)了100%的吞吐量提升,整體訓(xùn)練時(shí)間減少62%。這個(gè)提升主要來自于數(shù)據(jù)平面的流式設(shè)計(jì)和計(jì)算資源空閑期的消除。


在更復(fù)雜的智能體RL場(chǎng)景中,SeamlessFlow的優(yōu)勢(shì)更加明顯。在最大生成長度64K token的代碼任務(wù)中,SeamlessFlow的吞吐量提升平均提升至原來的1.55倍。


特別值得注意的是,當(dāng)集群規(guī)模從32塊GPU擴(kuò)展到64塊時(shí),SeamlessFlow的性能優(yōu)勢(shì)進(jìn)一步擴(kuò)大,展現(xiàn)出了可擴(kuò)展性。

03.

快手持續(xù)加碼開源模型

在快手今年的多場(chǎng)財(cái)報(bào)電話會(huì)議中,AI已經(jīng)成為了繞不開的話題。過去數(shù)月內(nèi),除了不斷更新視頻生成模型可靈之外,快手還開源了多款覆蓋推理、編程、Embedding等領(lǐng)域的模型,并打造了能根據(jù)問題難度自動(dòng)切換思考模式的KAT-V1自動(dòng)思考(AutoThink)大模型。

Kwaipilot團(tuán)隊(duì)透露,除了算法與架構(gòu)優(yōu)化,Kwaipilot還在構(gòu)建一套大規(guī)模數(shù)據(jù)環(huán)境管理系統(tǒng),徹底解耦訓(xùn)練數(shù)據(jù)、訓(xùn)練沙盒與訓(xùn)練框架。這樣的模塊化設(shè)計(jì),有望實(shí)現(xiàn)數(shù)據(jù)源的獨(dú)立擴(kuò)展、沙盒環(huán)境的安全隔離和訓(xùn)練框架的靈活切換。未來,這一團(tuán)隊(duì)或?qū)⒔桓陡嘀档闷诖捻?xiàng)目。

編輯:成蘊(yùn)年

----- END -----


wisemodel相關(guān):

系列模型:

關(guān)于wisemodel更多

1

歡迎持續(xù)關(guān)注和支持

開源社區(qū)建設(shè)需要長期堅(jiān)持和投入,更需要廣大用戶的積極參與、貢獻(xiàn)和維護(hù),歡迎大家加入wisemodel開源社區(qū)的志愿者計(jì)劃和開源共創(chuàng)計(jì)劃。期待更多開發(fā)者將開源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請(qǐng)加入wisemodel社群,持續(xù)關(guān)注wisemodel.cn開源社區(qū)動(dòng)態(tài)。

2

歡迎加盟wisemodel開源社區(qū)

始智AI wisemodel社區(qū)自2023年9月上線以來,逐漸成為影響力日益擴(kuò)大的中立開放的AI開源社區(qū),為了加快公司發(fā)展,我們長期需要技術(shù)、運(yùn)營等人才加盟,技術(shù)側(cè)重在AI infra、后端開發(fā),熟悉K8S、模型訓(xùn)練和推理等技術(shù), 以及熟悉開發(fā)者生態(tài)運(yùn)營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn

3

歡迎投稿優(yōu)質(zhì)內(nèi)容

歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果,鼓勵(lì)高校實(shí)驗(yàn)室、大企業(yè)研究團(tuán)隊(duì)、個(gè)人等,在wisemodel平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹,也可以是關(guān)于AI技術(shù)實(shí)踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關(guān)于wisemodel開源社區(qū)

始智AI wisemodel.cn開源社區(qū)由清華校友總會(huì)AI大數(shù)據(jù)專委會(huì)副秘書長劉道全創(chuàng)立,旨在打造和建設(shè)中立開放的AI開源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開源社區(qū),匯聚主要AI開源模型、數(shù)據(jù)集和代碼等,歡迎高??蒲性核⒋笮突ヂ?lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個(gè)人開發(fā)者,以及政府部門、學(xué)會(huì)協(xié)會(huì)、聯(lián)盟、基金會(huì)等,還有投資機(jī)構(gòu)、科技媒體等,共同參與建設(shè)AI開源創(chuàng)新生態(tài)。

向上滑動(dòng)查看

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
黃金、白銀,直線跳水!特朗普,大消息!

黃金、白銀,直線跳水!特朗普,大消息!

證券時(shí)報(bào)e公司
2026-03-26 14:47:48
3月26日下午中國女排!傳來朱婷、李盈瑩、袁心玥最新消息

3月26日下午中國女排!傳來朱婷、李盈瑩、袁心玥最新消息

民哥臺(tái)球解說
2026-03-26 16:17:49
太扎心!遼寧一中年男子小便怒斥妻子舉布遮擋稍高,就撒手人寰了

太扎心!遼寧一中年男子小便怒斥妻子舉布遮擋稍高,就撒手人寰了

火山詩話
2026-03-26 06:16:11
寫小說判十年,把生殖器放女孩嘴巴里判兩年九個(gè)月

寫小說判十年,把生殖器放女孩嘴巴里判兩年九個(gè)月

昊軒看世界
2026-03-24 19:56:42
教育部宣布中考重大變革,取消 5:5 分流,升學(xué)規(guī)則將全面調(diào)整?

教育部宣布中考重大變革,取消 5:5 分流,升學(xué)規(guī)則將全面調(diào)整?

今朝牛馬
2026-03-26 20:22:18
丞相是丞相,宰相是宰相,兩者一字之差卻天壤之別,可別分不清楚

丞相是丞相,宰相是宰相,兩者一字之差卻天壤之別,可別分不清楚

觀史搜尋著
2026-03-26 01:10:50
央視發(fā)文,60歲釋永信再迎噩耗,被他害慘的4個(gè)明星也出了口惡氣

央視發(fā)文,60歲釋永信再迎噩耗,被他害慘的4個(gè)明星也出了口惡氣

輝哥說動(dòng)漫
2026-03-25 12:20:14
特朗普真要來?美媒公布其訪華時(shí)間后,匈牙利直言:中國不可戰(zhàn)勝

特朗普真要來?美媒公布其訪華時(shí)間后,匈牙利直言:中國不可戰(zhàn)勝

講者普拉斯
2026-03-26 22:09:39
20億美元還不夠!中企對(duì)巴拿馬索賠漲價(jià),巴政府內(nèi)部已經(jīng)亂套了

20億美元還不夠!中企對(duì)巴拿馬索賠漲價(jià),巴政府內(nèi)部已經(jīng)亂套了

悄悄史話
2026-03-26 14:09:05
宋美齡書法對(duì)比:鋼筆字似小學(xué)生,英文手稿如中學(xué)生!

宋美齡書法對(duì)比:鋼筆字似小學(xué)生,英文手稿如中學(xué)生!

書畫相約
2026-03-26 07:49:18
港口管控升級(jí)!滯留中國巴拿馬船暴漲3倍,巴拿馬政府吃不消了

港口管控升級(jí)!滯留中國巴拿馬船暴漲3倍,巴拿馬政府吃不消了

肖茲探秘說
2026-03-26 20:07:23
2個(gè)重大信號(hào)出現(xiàn)!要反轉(zhuǎn)了?

2個(gè)重大信號(hào)出現(xiàn)!要反轉(zhuǎn)了?

說股鯨
2026-03-26 22:00:03
撿漏成功!廣州市一棟三層別墅拍賣,被人撿漏170.6萬就競(jìng)得,還要啥套間

撿漏成功!廣州市一棟三層別墅拍賣,被人撿漏170.6萬就競(jìng)得,還要啥套間

阿離家居
2026-03-26 16:52:37
國際油價(jià)漲幅擴(kuò)大 布倫特原油期貨站上105美元/桶

國際油價(jià)漲幅擴(kuò)大 布倫特原油期貨站上105美元/桶

每日經(jīng)濟(jì)新聞
2026-03-26 15:11:37
長護(hù)險(xiǎn)制度全面推開!國家醫(yī)保局:參保人無論來自農(nóng)村還是城市,從同一個(gè)資金池報(bào)銷費(fèi)用

長護(hù)險(xiǎn)制度全面推開!國家醫(yī)保局:參保人無論來自農(nóng)村還是城市,從同一個(gè)資金池報(bào)銷費(fèi)用

紅星新聞
2026-03-26 11:28:05
3.73-1.79!國足傳來好消息,2-1爆冷世界杯魚腩隊(duì)?比賽時(shí)間如下

3.73-1.79!國足傳來好消息,2-1爆冷世界杯魚腩隊(duì)?比賽時(shí)間如下

侃球熊弟
2026-03-26 21:09:11
美伊談崩內(nèi)幕:伊萬卡是“肉票”,特朗普女婿是“以色列內(nèi)線”?

美伊談崩內(nèi)幕:伊萬卡是“肉票”,特朗普女婿是“以色列內(nèi)線”?

矚望云霄
2026-03-25 18:20:59
國足VS庫拉索:留洋小將坐鎮(zhèn)中場(chǎng),韋世豪王鈺棟領(lǐng)銜,張玉寧沖鋒

國足VS庫拉索:留洋小將坐鎮(zhèn)中場(chǎng),韋世豪王鈺棟領(lǐng)銜,張玉寧沖鋒

零度眼看球
2026-03-26 07:23:48
中央定調(diào),養(yǎng)老金調(diào)整方向明確,2026年若上漲,企退能多漲3%嗎?

中央定調(diào),養(yǎng)老金調(diào)整方向明確,2026年若上漲,企退能多漲3%嗎?

有范又有料
2026-03-26 14:35:52
1958年周恩來突然提出辭去總理職務(wù),毛主席聽后只說了一句話,全場(chǎng)沉默

1958年周恩來突然提出辭去總理職務(wù),毛主席聽后只說了一句話,全場(chǎng)沉默

文史明鑒
2026-03-24 18:49:17
2026-03-26 22:52:49
wisemodel開源社區(qū) incentive-icons
wisemodel開源社區(qū)
始智AI wisemodel.cn開源社區(qū),打造中國版“huggingface”
466文章數(shù) 14關(guān)注度
往期回顧 全部

科技要聞

美團(tuán)發(fā)布外賣大戰(zhàn)后成績單:虧損超200億

頭條要聞

張雪峰留巨額遺產(chǎn):二婚妻子或拿50% 剩下的女兒占1/3

頭條要聞

張雪峰留巨額遺產(chǎn):二婚妻子或拿50% 剩下的女兒占1/3

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財(cái)經(jīng)要聞

油價(jià)"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

數(shù)碼
游戲
藝術(shù)
教育
軍事航空

數(shù)碼要聞

Intel IBOT加速技術(shù)揭秘!硬件不變 白嫖22%游戲性能

50萬銷量達(dá)成!這款I(lǐng)GN 9分獨(dú)游走紅 官方發(fā)推慶賀

藝術(shù)要聞

哪一座橋不是風(fēng)景?

教育要聞

罵人沒有殺傷力?那不是白忙活嗎?

軍事要聞

擔(dān)心特朗普突然停戰(zhàn) 以總理下令48小時(shí)盡力摧毀伊設(shè)施

無障礙瀏覽 進(jìn)入關(guān)懷版