国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

美團(tuán)上線首個(gè)開源并可體驗(yàn)的“重思考”模型,工具調(diào)用能力登頂

0
分享至

1月16日,美團(tuán)LongCat官微消息,作為LongCat-Flash-Thinking模型的升級版,
LongCat-Flash-Thinking-2601現(xiàn)已開源。新模型在Agentic Search(智能體搜索)、Agentic Tool Use(智能體工具調(diào)用)、TIR(工具交互推理)等核心評測基準(zhǔn)上,均達(dá)到開源模型SOTA水平。

值得一提的是,該模型在工具調(diào)用的泛化能力上優(yōu)勢尤其明顯,在依賴工具調(diào)用的隨機(jī)復(fù)雜任務(wù)中,性能表現(xiàn)超越了Claude-Opus-4.5-Thinking,可大幅度降低真實(shí)場景下新工具的適配訓(xùn)練成本;同時(shí),新模型支持“重思考”模式,可同時(shí)啟動(dòng)8個(gè)“大腦”執(zhí)行任務(wù),確保思考周全、決策可靠。

目前,該功能可在 https://longcat.ai網(wǎng)站免費(fèi)體驗(yàn)。

“重思考”功能全新上線 智能體工具調(diào)用能力登頂開源 SOTA

據(jù)介紹,全新推出的“重思考”模式,已讓“龍貓”學(xué)會了“深思熟慮”再行動(dòng)。

具體來看,當(dāng)遇到高難度問題時(shí),新模型會把思考過程拆分成“并行思考”和“總結(jié)歸納”兩步進(jìn)行:

并行思考階段,與人類面對難題會同時(shí)嘗試多種解法相似,“重思考”模式下的模型,會在保證思路多樣性的同時(shí),獨(dú)立梳理出多條推理路徑尋找最優(yōu)解;總結(jié)歸納階段,則會對多條路徑進(jìn)行梳理、優(yōu)化與合成,并將優(yōu)化結(jié)果重新輸入,形成閉環(huán)迭代推理,推動(dòng)思考持續(xù)深化。

除此之外,LongCat團(tuán)隊(duì)在新模型中加入了額外的強(qiáng)化學(xué)習(xí)環(huán)節(jié),針對性打磨模型的總結(jié)歸納能力,從而讓
LongCat-Flash-Thinking-2601實(shí)現(xiàn)了“想清楚再行動(dòng)”的結(jié)果。

經(jīng)過全面嚴(yán)謹(jǐn)?shù)脑u估,
LongCat-Flash-Thinking-2601模型在編程、數(shù)學(xué)推理、智能體工具調(diào)用、智能體搜索等維度表現(xiàn)優(yōu)異:



LongCat-Flash-Thinking-2601的平均性能比較(資料圖)

· 編程能力:
LongCat-Flash-Thinking-2601在LCB評測中取得82.8分,OIBench EN 評測獲47.7分,成績處于同類模型第一梯隊(duì),代碼基礎(chǔ)能力扎實(shí)。

· 數(shù)學(xué)推理能力:在開啟“重思考”模式后表現(xiàn)突出,
LongCat-Flash-Thinking-2601在 AIME-25 評測中獲100.0分(滿分),IMO-AnswerBench中以86.8分達(dá)到當(dāng)前SOTA。

· 智能體工具調(diào)用能力:在τ2-Bench評測中拿到88.2分,VitaBench評測中獲得29.3分,均獲得開源SOTA水平,在多領(lǐng)域工具調(diào)用場景下表現(xiàn)優(yōu)異,適配實(shí)際應(yīng)用需求。

· 智能體搜索能力:在BrowseComp任務(wù)中取得73.1分(全模型最優(yōu)),RW Search 評測獲79.5分,
LongCat-Flash-Thinking-2601具備強(qiáng)勁的信息檢索與場景適配能力,達(dá)到開源領(lǐng)先水平。

為了更好測試智能體模型的泛化能力,團(tuán)隊(duì)還提出了一種全新的評測方法——通過構(gòu)建一套自動(dòng)化任務(wù)合成流程,支持用戶基于給定關(guān)鍵詞,為任意場景隨機(jī)生成復(fù)雜任務(wù),并為每個(gè)生成的任務(wù)配備對應(yīng)的工具集與可執(zhí)行環(huán)境。由于這類環(huán)境中的工具配置具有高度隨機(jī)性,該方法可通過評估模型在該類環(huán)境中的性能表現(xiàn),衡量其泛化能力。

實(shí)驗(yàn)結(jié)果表明,
LongCat-Flash-Thinking-2601在絕大多數(shù)任務(wù)中保持領(lǐng)先性能,印證了其在智能體場景下優(yōu)秀的泛化能力。

技術(shù)解密:從“靶場”到“實(shí)戰(zhàn)”的訓(xùn)練哲學(xué)

對于新模型的技術(shù)思路,LongCat團(tuán)隊(duì)解釋稱,傳統(tǒng)智能體往往僅在數(shù)個(gè)簡單模擬環(huán)境里訓(xùn)練,這帶來的問題就像只在靶場訓(xùn)練的士兵,到了真實(shí)“戰(zhàn)場”可能會掉鏈子。而基于“環(huán)境擴(kuò)展+多環(huán)境強(qiáng)化學(xué)習(xí)”核心技術(shù),團(tuán)隊(duì)為模型打造了多樣化的“高強(qiáng)度練兵場”,構(gòu)建了多套高質(zhì)量訓(xùn)練環(huán)境,并在每套環(huán)境中集成60余種工具形成密集依賴關(guān)系圖譜與復(fù)雜聯(lián)動(dòng),支撐起高度復(fù)雜的任務(wù)場景。實(shí)驗(yàn)也證明,訓(xùn)練環(huán)境越豐富,模型在未知場景中的泛化能力越強(qiáng)。

得益于這套方案,
LongCat-Flash-Thinking-2601在智能體搜索、智能體工具調(diào)用等核心基準(zhǔn)測試中穩(wěn)居前列。尤其在復(fù)雜隨機(jī)的分布外任務(wù)中,性能優(yōu)于 Claude-Opus-4.5-Thinking。

此外,LongCat團(tuán)隊(duì)針對性擴(kuò)展自研強(qiáng)化學(xué)習(xí)基礎(chǔ)設(shè)施,在保留原有高效異步訓(xùn)練特性的基礎(chǔ)上,實(shí)現(xiàn)大規(guī)模多環(huán)境智能體的穩(wěn)定并行訓(xùn)練,通過均衡搭配多環(huán)境任務(wù)、按難度與訓(xùn)練進(jìn)度智能分配算力,最大化提升訓(xùn)練效率與資源利用率;該團(tuán)隊(duì)還從復(fù)雜度、多樣性雙維度嚴(yán)控訓(xùn)練任務(wù),配套專屬數(shù)據(jù)庫及優(yōu)化方案,杜絕模型“偏科”與訓(xùn)練漏洞,讓這套全流程方案持續(xù)賦能模型,使其穩(wěn)居智能體能力第一梯隊(duì)。

該團(tuán)隊(duì)還表示,現(xiàn)實(shí)世界的智能體環(huán)境充滿不確定性,API調(diào)用失敗、返回異常信息、觀測數(shù)據(jù)不完整等“噪聲”問題,極易導(dǎo)致模型決策失誤。為此,團(tuán)隊(duì)在訓(xùn)練數(shù)據(jù)的過程中主動(dòng)注入多類噪聲,模擬API的調(diào)用失敗、返回錯(cuò)誤信息、數(shù)據(jù)缺失等場景,并用課程學(xué)習(xí)的方式循序漸進(jìn)地進(jìn)行模型訓(xùn)練,在訓(xùn)練過程中逐步增加噪聲的類型與強(qiáng)度——類比教新手騎車,首先會讓其在平坦路面做練習(xí),等技能成熟后再逐步增加路面的復(fù)雜度。



帶噪聲/無噪聲評測集下的模型表現(xiàn)對比(資料圖)

經(jīng)過系統(tǒng)化的抗干擾訓(xùn)練,
LongCat-Flash-Thinking-2601(Training w/Noise組)擁有了極強(qiáng)的環(huán)境適應(yīng)能力,在復(fù)雜場景中,也能穩(wěn)定發(fā)揮、高效完成任務(wù)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
今晚開播!央視又一8集黑馬大劇來襲,演員陣容不錯(cuò),想不火都難

今晚開播!央視又一8集黑馬大劇來襲,演員陣容不錯(cuò),想不火都難

藍(lán)莓影視推薦
2026-05-05 14:38:00
劉錚:王哲林這幾年在戰(zhàn)術(shù)上犧牲了很多 我們最終目標(biāo)是總冠軍

劉錚:王哲林這幾年在戰(zhàn)術(shù)上犧牲了很多 我們最終目標(biāo)是總冠軍

狼叔評論
2026-05-05 19:10:13
U17女足亞洲杯3-0血洗越南! 沒想到賽后日媒這樣報(bào)道 6個(gè)字定義我們

U17女足亞洲杯3-0血洗越南! 沒想到賽后日媒這樣報(bào)道 6個(gè)字定義我們

林子說事
2026-05-05 07:44:20
又打起來了!特朗普:擊沉7艘伊朗船只,除韓國船外沒有損失,美伊處于“迷你戰(zhàn)爭”狀態(tài)!伊方:美國的“自由計(jì)劃”是“僵局計(jì)劃”

又打起來了!特朗普:擊沉7艘伊朗船只,除韓國船外沒有損失,美伊處于“迷你戰(zhàn)爭”狀態(tài)!伊方:美國的“自由計(jì)劃”是“僵局計(jì)劃”

每日經(jīng)濟(jì)新聞
2026-05-05 09:21:02
2026下半年,貴人扶持,事業(yè)一飛沖天的三個(gè)星座,翻開新篇章

2026下半年,貴人扶持,事業(yè)一飛沖天的三個(gè)星座,翻開新篇章

小晴星座說
2026-05-05 19:32:38
張雪機(jī)車反向輸出!法國頂級代理商上門,放話讓中國摩托風(fēng)靡全球

張雪機(jī)車反向輸出!法國頂級代理商上門,放話讓中國摩托風(fēng)靡全球

小娛樂悠悠
2026-05-05 10:24:30
最高5088元/年!豆包真敢啊

最高5088元/年!豆包真敢啊

羅超頻道
2026-05-04 15:39:06
莫氏雞煲上線湯料包5分鐘售罄4000多份,累計(jì)賣出4萬多份,總銷售額破160萬元,記者實(shí)測:1分鐘搶到兩包

莫氏雞煲上線湯料包5分鐘售罄4000多份,累計(jì)賣出4萬多份,總銷售額破160萬元,記者實(shí)測:1分鐘搶到兩包

極目新聞
2026-05-04 09:46:46
廣東一公司28.8億元對外債權(quán)1000元起拍,30.3萬元成交,二股東為恒大地產(chǎn)子公司

廣東一公司28.8億元對外債權(quán)1000元起拍,30.3萬元成交,二股東為恒大地產(chǎn)子公司

紅星資本局
2026-05-05 19:14:06
汪東興回憶:教員深入虎穴,挫敗林彪驚天暗殺陰謀,過程太驚險(xiǎn)了

汪東興回憶:教員深入虎穴,挫敗林彪驚天暗殺陰謀,過程太驚險(xiǎn)了

南冥那只貓
2025-04-19 12:06:43
7座車為啥越賣越少?車主坦言:多2座,卻多了4個(gè)鬧心缺陷

7座車為啥越賣越少?車主坦言:多2座,卻多了4個(gè)鬧心缺陷

音樂時(shí)光的娛樂
2026-05-04 23:51:39
鄭麗文成功了!國民黨3位元老出山,朱立倫的反撲計(jì)劃宣告失敗

鄭麗文成功了!國民黨3位元老出山,朱立倫的反撲計(jì)劃宣告失敗

米果說識
2026-04-21 16:58:00
古代4位奇人,大概500年出一位,能博古通今,那現(xiàn)今奇人是誰?

古代4位奇人,大概500年出一位,能博古通今,那現(xiàn)今奇人是誰?

銘記歷史呀
2026-05-04 00:38:08
游戲竟成體檢神器!國外男子28歲玩游戲才確診色盲

游戲竟成體檢神器!國外男子28歲玩游戲才確診色盲

游民星空
2026-05-04 21:05:08
東航飛機(jī)因機(jī)械故障撞上廊橋,業(yè)內(nèi)人士解讀:很有可能是剎車失靈所致

東航飛機(jī)因機(jī)械故障撞上廊橋,業(yè)內(nèi)人士解讀:很有可能是剎車失靈所致

極目新聞
2026-05-02 15:45:59
美軍運(yùn)輸機(jī)連夜飛抵北京,特朗普急著訪華,但還是晚了普京一步

美軍運(yùn)輸機(jī)連夜飛抵北京,特朗普急著訪華,但還是晚了普京一步

游古史
2026-05-05 20:01:49
14投10分!馬刺4首輪換來偽球星,硬仗就軟,還給2.2億續(xù)約虧麻了

14投10分!馬刺4首輪換來偽球星,硬仗就軟,還給2.2億續(xù)約虧麻了

你的籃球頻道
2026-05-05 12:58:26
“中美局勢”可能發(fā)生反轉(zhuǎn)了,而最先超過美國的,其實(shí)不是經(jīng)濟(jì)

“中美局勢”可能發(fā)生反轉(zhuǎn)了,而最先超過美國的,其實(shí)不是經(jīng)濟(jì)

趣文說娛
2026-05-05 19:56:27
特斯拉降價(jià),扯下電動(dòng)汽車成本的遮羞布——電動(dòng)車的成本有多低?

特斯拉降價(jià),扯下電動(dòng)汽車成本的遮羞布——電動(dòng)車的成本有多低?

西莫的藝術(shù)宮殿
2026-05-05 12:07:34
新加坡總理黃循財(cái)哭了,沒人同情!對中國有多狂,現(xiàn)在就有多狼狽

新加坡總理黃循財(cái)哭了,沒人同情!對中國有多狂,現(xiàn)在就有多狼狽

世界多元
2026-05-05 06:22:55
2026-05-05 21:48:49
讀懂?dāng)?shù)字財(cái)經(jīng)
讀懂?dāng)?shù)字財(cái)經(jīng)
用數(shù)據(jù),說點(diǎn)財(cái)經(jīng)人話
1897文章數(shù) 3571關(guān)注度
往期回顧 全部

科技要聞

傳蘋果考慮讓英特爾、三星代工設(shè)備處理器

頭條要聞

伊朗被問"為何不向美國讓步" 一句話讓美國笑不出來

頭條要聞

伊朗被問"為何不向美國讓步" 一句話讓美國笑不出來

體育要聞

全世界都等著看他笑話,他帶國米拿下冠軍

娛樂要聞

內(nèi)娛真情誼!楊紫為謝娜演唱會送花籃

財(cái)經(jīng)要聞

瀏陽煙花往事

汽車要聞

同比大漲190% 方程豹4月銷量29138臺

態(tài)度原創(chuàng)

家居
教育
親子
時(shí)尚
健康

家居要聞

靈動(dòng)實(shí)用 生活藝術(shù)場

教育要聞

網(wǎng)絡(luò)直播 《開學(xué)第一課·以英烈之名》

親子要聞

在薊縣給你們找到一個(gè)非常不錯(cuò)的幼兒園,太大太爽了!

女人會不會穿衣區(qū)別很大,記住這“三要三不”原則,得體大方

干細(xì)胞治燒燙傷面臨這些“瓶頸”

無障礙瀏覽 進(jìn)入關(guān)懷版