国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

美團(tuán)新模型LongCat-Flash-Thinking-2601重思考模式拉風(fēng),附一手對比實(shí)測

0
分享至

作者|子川

來源|AI先鋒官

近日,美團(tuán)重磅更新并開源自家模型LongCat-Flash-Thinking-2601。


據(jù)介紹,此次發(fā)布的模型是LongCat-Flash-Thinking模型的升級版,擁有 5600 億個(gè)參數(shù),并基于的 MoE 架構(gòu)構(gòu)建。

LongCat-Flash-Thinking-2601 最大的不同,就在于它引入了重思考模式(Heavy Thinking Mode)。

簡單來說,這個(gè)模式讓模型能同時(shí)啟動 8 個(gè)大腦思考,從不同角度和深度推理同一個(gè)問題,最后總結(jié)出一個(gè)更全面、更可靠的結(jié)論。

給大家看一個(gè)簡單的例子就明白了。


提示詞:1+1為什么不等于2


可以看到,重思考模式相當(dāng)于使用了8個(gè)模型同時(shí)進(jìn)行推理工作,最后的給出的8個(gè)答案在進(jìn)行反復(fù)驗(yàn)證,最終會得到一個(gè)最終解。


除此之外,LongCat團(tuán)隊(duì)在新模型中加入了額外的強(qiáng)化學(xué)習(xí)環(huán)節(jié),針對性打磨模型的總結(jié)歸納能力,從而讓LongCat-Flash-Thinking-2601實(shí)現(xiàn)“想清楚再行動”的結(jié)果。

不過在體驗(yàn)的時(shí)候,由于相當(dāng)8款模型同時(shí)在推理,所以它的上下文非常容易耗光,會經(jīng)常返回“當(dāng)前對話上下文過長,建議精簡輸入后重試”。


那這款模型表現(xiàn)到底如何?我們先來看LongCat-Flash-Thinking-2601的紙面實(shí)力。


首先是大家最關(guān)注的編程能力上,LCB 評測拿到82.8 分,OIBench EN 評測獲47.7 分,這些成績處于同類模型第一梯隊(duì)。

數(shù)學(xué)推理方面,開啟重思考模式后更猛。

AIME-25 評測中取得100.0 分(滿分),IMO-AnswerBench 中以86.8 分達(dá)到當(dāng)前 SOTA。

智能體工具調(diào)用上,τ2-Bench 評測88.2 分,VitaBench 評測29.3 分,均為開源 SOTA 水平。

智能體搜索方面,BrowseComp 任務(wù)73.1 分(全模型最優(yōu)),RW Search 評測79.5 分。

最關(guān)鍵的是什么?在工具調(diào)用的泛化能力上,LongCat-Flash-Thinking-2601 超越了 Claude-Opus-4.5-Thinking。


這一連串的SOTA似乎有點(diǎn)東西,那它的實(shí)際效果到底如何? 老規(guī)矩,我們直接上手實(shí)測。

此次參賽的對手分別是LongCat-Flash-Thinking-2601、DeepSeek-V3.2、Kimi K2 Thinking。

提示詞:
創(chuàng)建一個(gè) 3D HTML 山脈場景,包含懸崖、河流和晝夜光照變化。支持拖動和縮放、動畫過渡、真實(shí)感漸變色,并可切換等高線顯示。

LongCat-Flash-Thinking-2601:

Kimi K2 Thinking :

DeepSeek-V3.2:

可以明顯的看到LongCat-Flash-Thinking-2601的缺陷,對“河流”的幾何理解出現(xiàn)了偏差。它未能生成自然蜿蜒的水體,而是生成了一個(gè)圓柱體結(jié)構(gòu),導(dǎo)致視覺上更像是一根橫亙在山間的“水管”。

而且DeepSeek-V3.2出現(xiàn)了嚴(yán)重的幻覺,模型似乎在坐標(biāo)系構(gòu)建上徹底迷失,原本應(yīng)是連綿起伏的山脈和流動的河水,被渲染成了兩條細(xì)長的線段。

功能較為完善的只有Kimi K2 Thinking ,山脈起伏、樹木點(diǎn)綴、動態(tài)的云朵與太陽一應(yīng)俱全,光照邏輯也基本成立,但這也不得不吐槽一下,河流也是一條大水管!

或許這條題太難,給它們減低一下難度,做一個(gè)簡單的可視化登錄頁面。

提示詞:請創(chuàng)建一個(gè)現(xiàn)代化的登錄頁面,包含以下功能:

- 郵箱和密碼輸入框

- 登錄按鈕

- "記住我"和"忘記密碼"選項(xiàng)

- Google第三方登錄

- 注冊鏈接

要求:深色主題,未來科技風(fēng)格,居中布局,良好的用戶體驗(yàn)。

LongCat-Flash-Thinking-2601:

Kimi K2 Thinking :

DeepSeek-V3.2:

這次終于扳回一城,對于簡單的登錄頁面的UI,目前的模型已經(jīng)是手拿把恰了,效果都大差不差,登錄、注冊等功能都有,主要是看每款模型的審美能力。

再換一題,來一個(gè)經(jīng)典老題:天氣卡片,主要是考驗(yàn)?zāi)P偷膶徝滥芰Α?/p>

提示詞:
Create a single HTML file containing CSS and JavaScript to generate an animated weather card. The card should visually represent the following weather conditions with distinct animations: Wind: (e.g., moving clouds, swaying trees, or wind lines) Rain: (e.g., falling raindrops, puddles forming) Sun: (e.g., shining rays, bright background) Snow: (e.g., falling snowflakes, snow accumulating) Show all the weather card side by side The card should have a dark background. Provide all the HTML, CSS, and JavaScript code within this single file. The JavaScript should include a way to switch between the different weather conditions

LongCat-Flash-Thinking-2601:

Kimi K2 Thinking :

DeepSeek-V3.2:

LongCat-Flash-Thinking-2601DeepSeek-V3.2這兩款模型雖然完成了動”的要求,但質(zhì)感較為粗糙。

它們的動效缺乏物理運(yùn)動的自然感,視覺元素較為扁平,最終呈現(xiàn)效果略顯廉價(jià),像是一個(gè)早期的 Demo。

Kimi K2 Thinking 的表現(xiàn)則是會好很多,視覺上也更加的完整。

此次測試的主要內(nèi)容是以代碼為主,主要測試代碼能力的原因很簡單:代碼從不說謊,行就是行,不行就是不行,可以一眼用肉眼分辨出好壞。

雖然這次只測試了三個(gè)項(xiàng)目,但LongCat-Flash-Thinking-2601的缺陷可以明顯看出。

雖然它在數(shù)學(xué)和搜索上拿分拿到手軟,甚至超越了 Claude。但在代碼實(shí)戰(zhàn)中,它卻明顯得有些“高分低能”了。

目前該模型已經(jīng)上線,感興趣的用戶可以去體驗(yàn)一下。

  • 體驗(yàn)鏈接:https://longcat.ai

  • 模型地址:https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking-2601

  • GitHub:https://github.com/meituan-longcat/LongCat-Flash-Thinking-2601

掃碼邀請進(jìn)群,我們帶你一起來玩轉(zhuǎn)ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學(xué)一些AI搞錢技能。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
終于來了,芬蘭總理抵達(dá)北京,落地下說了2句話,特朗普怕啥來啥

終于來了,芬蘭總理抵達(dá)北京,落地下說了2句話,特朗普怕啥來啥

劉森森
2026-01-27 16:37:48
以色列遞交給美國的伊朗處決證據(jù),為何引發(fā)全球嘩然?

以色列遞交給美國的伊朗處決證據(jù),為何引發(fā)全球嘩然?

老馬拉車莫少裝
2026-01-25 08:06:06
做完手術(shù)人就廢了,這5種手術(shù)不需要做,別讓無知害了自己

做完手術(shù)人就廢了,這5種手術(shù)不需要做,別讓無知害了自己

華庭講美食
2026-01-19 14:27:13
英格蘭前國腳戴維-巴蒂每年都給老隊(duì)友打電話,看他是否還活著

英格蘭前國腳戴維-巴蒂每年都給老隊(duì)友打電話,看他是否還活著

懂球帝
2026-01-27 11:13:22
張不開嘴就別尬演!黃曉明“吃泡面”,戳穿了多少演員最后的體面

張不開嘴就別尬演!黃曉明“吃泡面”,戳穿了多少演員最后的體面

十里電影
2026-01-18 10:07:37
得分“業(yè)余”卻成籃板怪物!火箭最被低估的殺招,被他一人扛起!

得分“業(yè)余”卻成籃板怪物!火箭最被低估的殺招,被他一人扛起!

田先生籃球
2026-01-27 13:01:19
安以軒老公被抓3年后首露臉!模樣大變老到認(rèn)不出,素顏聚餐像大媽

安以軒老公被抓3年后首露臉!模樣大變老到認(rèn)不出,素顏聚餐像大媽

八星人
2026-01-27 14:12:34
8勝2平,皇馬歐戰(zhàn)對葡萄牙球隊(duì)連續(xù)10場不敗

8勝2平,皇馬歐戰(zhàn)對葡萄牙球隊(duì)連續(xù)10場不敗

懂球帝
2026-01-28 03:50:08
她赴英留學(xué),卻與上千外國男子有染并拍成視頻,父母與她斷絕關(guān)系

她赴英留學(xué),卻與上千外國男子有染并拍成視頻,父母與她斷絕關(guān)系

阿胡
2026-01-21 17:34:15
“泡”女人,男人只要記住這兩點(diǎn),女人絕對會主動送上門

“泡”女人,男人只要記住這兩點(diǎn),女人絕對會主動送上門

小鬼頭體育
2026-01-27 04:31:18
樓大鵬同志逝世

樓大鵬同志逝世

澎湃新聞
2026-01-27 08:58:05
楊德龍:2026年做好大類資產(chǎn)配置至關(guān)重要

楊德龍:2026年做好大類資產(chǎn)配置至關(guān)重要

德龍財(cái)經(jīng)
2026-01-27 20:32:25
登陸英超!U23國足隊(duì)長攜女友已抵英國 6隊(duì)友祝福:加油狼隊(duì)球員

登陸英超!U23國足隊(duì)長攜女友已抵英國 6隊(duì)友祝福:加油狼隊(duì)球員

我愛英超
2026-01-26 10:02:13
我供男友讀碩4年后他提分手,我停了他的生活費(fèi),他打電話來質(zhì)問

我供男友讀碩4年后他提分手,我停了他的生活費(fèi),他打電話來質(zhì)問

荷蘭豆愛健康
2026-01-27 07:52:59
4-4!最佳新援誕生!謝謝你,特雷楊!

4-4!最佳新援誕生!謝謝你,特雷楊!

籃球?qū)崙?zhàn)寶典
2026-01-27 17:03:42
貪財(cái)又好色,德不配位的幾位老藝術(shù)家,晚節(jié)不保一點(diǎn)都不冤

貪財(cái)又好色,德不配位的幾位老藝術(shù)家,晚節(jié)不保一點(diǎn)都不冤

素衣讀史
2026-01-19 12:01:39
險(xiǎn)爆大冷!衛(wèi)冕冠軍辛納驚魂一幕!克服高溫抽筋苦戰(zhàn)4盤艱難晉級

險(xiǎn)爆大冷!衛(wèi)冕冠軍辛納驚魂一幕!克服高溫抽筋苦戰(zhàn)4盤艱難晉級

搏擊江湖
2026-01-27 20:53:46
短劇男頂流被前女友舉報(bào)涉毒,與女演員亂睡覺,荒唐的一幕發(fā)生!

短劇男頂流被前女友舉報(bào)涉毒,與女演員亂睡覺,荒唐的一幕發(fā)生!

叨嘮
2026-01-28 04:11:05
溫州網(wǎng)絡(luò)第一人,被抓了!

溫州網(wǎng)絡(luò)第一人,被抓了!

溫百君
2026-01-27 22:58:52
閆學(xué)晶風(fēng)波終于落幕,6個(gè)男人慘遭牽連,兒媳與繼女最不好過

閆學(xué)晶風(fēng)波終于落幕,6個(gè)男人慘遭牽連,兒媳與繼女最不好過

青橘罐頭
2026-01-26 20:19:38
2026-01-28 06:11:00
AI先鋒官 incentive-icons
AI先鋒官
AIGC大模型及應(yīng)用精選與評測
421文章數(shù) 47關(guān)注度
往期回顧 全部

科技要聞

馬化騰3年年會講話透露了哪些關(guān)鍵信息

頭條要聞

美報(bào)告稱中國是其19世紀(jì)以來面對過的最強(qiáng)大國家

頭條要聞

美報(bào)告稱中國是其19世紀(jì)以來面對過的最強(qiáng)大國家

體育要聞

冒充職業(yè)球員,比賽規(guī)則還和對手現(xiàn)學(xué)?

娛樂要聞

張雨綺風(fēng)波持續(xù)發(fā)酵,曝多個(gè)商務(wù)被取消

財(cái)經(jīng)要聞

多地對壟斷行業(yè)"近親繁殖"出手了

汽車要聞

標(biāo)配華為乾崑ADS 4/鴻蒙座艙5 華境S體驗(yàn)車下線

態(tài)度原創(chuàng)

旅游
本地
健康
公開課
軍事航空

旅游要聞

紅燈籠映北海:皇家園林里的年味,藏著中國人的精神原鄉(xiāng)!

本地新聞

云游中國|撥開云霧,巫山每幀都是航拍大片

耳石脫落為何讓人天旋地轉(zhuǎn)+惡心?

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美海軍"林肯"號航母打擊群抵達(dá)中東地區(qū)

無障礙瀏覽 進(jìn)入關(guān)懷版