国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

基于非英偉達(dá)卡訓(xùn)練,實(shí)測(cè)美團(tuán)開源模型與DeepSeek、阿里 Qwen 3誰更強(qiáng)?

0
分享至

作者|子川

來源|AI先鋒官

這個(gè)夏天最爽的事情,莫過于熱熱鬧鬧的外賣大戰(zhàn)!

實(shí)在是太省錢啦!

當(dāng)大家還在推測(cè)這場(chǎng)補(bǔ)貼大戰(zhàn)還要持續(xù)多久之時(shí),美團(tuán)忽然把方向盤一打。

宣布:我要發(fā)布個(gè)開源大模型啦!


就在昨天,美團(tuán)發(fā)布了其首款開源大模型LongCat-Flash,這是一款擁有5600億個(gè)總參數(shù)的MoE(混合專家)模型。


為什么會(huì)推出這款來源大模型?

美團(tuán)CEO王興在不久前的年報(bào)電話會(huì)上,曾給出清晰的戰(zhàn)略框架。

王興將美團(tuán)的AI戰(zhàn)略闡述為三個(gè)層次:第一層是工作中的AI ,用以提升內(nèi)部員工的生產(chǎn)力;第二層是產(chǎn)品中的AI ,用AI升級(jí)現(xiàn)有服務(wù)并推出全新的AI原生產(chǎn)品;最后是自研大語言模型 。

LongCat-Flash正是第三層戰(zhàn)略的直接體現(xiàn)。

在這個(gè)戰(zhàn)略藍(lán)圖下,美團(tuán)核心本地商業(yè)CEO王莆中曾公開確認(rèn)稱,正打造的“ 專屬生活小秘書 ”,就是那個(gè)最核心的AI原生產(chǎn)品。

而且,尤其值得關(guān)注的是,LongCat-Flash的訓(xùn)練,并非基于英偉達(dá)GPU完成。

在其官方報(bào)告中,美團(tuán)使用了“數(shù)萬個(gè)加速卡”的模糊表述。

由于一些原因,該硬件廠商的具體名字不方便透露。

意義重大。

產(chǎn)品方面,據(jù)介紹,LongCat-Flash采用 Shortcut-connected MoE 架構(gòu)和 “零計(jì)算專家” 雙重機(jī)制,使總參數(shù) 5600 億的模型在推理時(shí)僅僅激活 18.6B–31.3B 參數(shù)。

能實(shí)現(xiàn)每秒 100 tokens 以上的單卡推理速度, 比DeepSeek-V3 還快 50%。

別看美團(tuán)是外賣公司,但其開源的LongCat-Flash模型紙面實(shí)力一點(diǎn)都不弱。


它在Agent工具調(diào)用、指令遵循的表現(xiàn)超過國內(nèi)數(shù)一數(shù)二的DeepSeek-V3.1、Qwen3 MoE-2507,甚至比閉源的Claude4 Sonnet還要好。

不過LongCat-Flash在通用領(lǐng)域、編程等場(chǎng)景的能力和、Kimi-K2、Qwen3 -2507還有一定差距。

價(jià)格上,LongCat-Flash屬于物美價(jià)廉,據(jù)美團(tuán)龍貓團(tuán)隊(duì)介紹,輸出成本低至 5 元/百萬 Token。

那效果到底如何,我們來測(cè)試一番,作為初來乍到的模型,當(dāng)然得把之前模型踩過的坑都再踩一遍,看它能不能hold得住。

首先,是一道曾難倒無數(shù)模型的比大小問題——9.11和9.8誰大?


遺憾,開局不利,LongCat-Flash回答錯(cuò)誤,比大小失敗。

接下來,是另一個(gè)經(jīng)典的坑——數(shù)字母。

我們讓它數(shù)“Strawberry”這個(gè)詞中有幾個(gè)字母“r”,為了防止數(shù)據(jù)被提前訓(xùn)練,我們特意在原詞基礎(chǔ)上多加了一個(gè)“r”。


在加了一個(gè)字母“r”的情況下,LongCat-Flash依舊回答正確,扳回一局!

為了驗(yàn)證它是否是真的會(huì)數(shù)字母,換一個(gè)詞”assessments“,讓它數(shù)里面有幾個(gè)字母“s"。


這次就沒有回答正確,”assessments"有5個(gè)字母“s”,而它給出的回答是4次。

再來看看下一道題,一根8米的繩子,可以通過寬2米,長2米的門嗎?


還是翻車,依舊回答錯(cuò)誤,LongCat-Flash給出的回答是“一根8米的棍子無法直接通過寬2米,長2米的門”。

很遺憾,在這些曾用于刁難其他模型的經(jīng)典測(cè)試題中,LongCat-Flash的表現(xiàn)并沒有想象中的那么好

不過,這并不能代表該模型的全部實(shí)力,直接進(jìn)入下一趴,和其他模型來場(chǎng)PK。

此次派出的選手分別是Deepseek R1和Qwen3 -2507,看看LongCat-Flash能否真的辣么厲害。

為了防止它們這三兄弟“開掛”,測(cè)試過程中不開搜索。

測(cè)試題一:高三摸底試卷題


這道題是一道多選題,正確答案是:A、B、D,看看哪位選手能做對(duì),為了測(cè)試的準(zhǔn)確性,將題目轉(zhuǎn)換成了LaTeX格式。

LongCat-Flash:


Deepseek R1:


Qwen3 -2507:


Qwen3 -2507和Deepseek R1都回答準(zhǔn)確,出個(gè)了正確答案:ABD,反觀LongCat-Flash回答錯(cuò)誤,露了一個(gè)A。

測(cè)試題二:天氣卡片

提示詞:
Create a single HTML file containing CSS and JavaScript to generate an animated weather card. The card should visually represent the following weather conditions with distinct animations: Wind: (e.g., moving clouds, swaying trees, or wind lines) Rain: (e.g., falling raindrops, puddles forming) Sun: (e.g., shining rays, bright background) Snow: (e.g., falling snowflakes, snow accumulating) Show all the weather card side by side The card should have a dark background. Provide all the HTML, CSS, and JavaScript code within this single file. The JavaScript should include a way to switch between the different weather conditions

經(jīng)典老題,測(cè)試模型的美感,看誰生成的更加好看。

LongCat-Flash:

Deepseek R1:

Qwen3 -2507:

從上面的視頻不難看出,LongCat-Flash生成的效果真不賴,不過如果要說誰生成的效果更好看,那自然是Qwen3 -2507。

測(cè)試題三:3D山脈


提示詞:創(chuàng)建一個(gè) 3D HTML 山脈場(chǎng)景,包含懸崖、河流和晝夜光照變化。支持拖動(dòng)和縮放、動(dòng)畫過渡、真實(shí)感漸變色,并可切換等高線顯示。

這道題主要是測(cè)試模型的編程能力,因?yàn)闇y(cè)試了很多模型,發(fā)現(xiàn)有很多模型面對(duì)這道題,生成的效果都不咋樣,看看它們是否能交出一個(gè)滿意的答卷。

LongCat-Flash:

Deepseek R1:

Qwen3 -2507:

這次測(cè)試不知道為什么,連續(xù)生成了3次,DeepSeek R1都沒有生成完整的山脈,而LongCat-Flash和Qwen3 -2507則是生成出來了,但LongCat-Flash生成的效果更好。

測(cè)試題四:邏輯推理題


提示詞:給
甲、乙、丙三人各發(fā)一個(gè)正整數(shù),并告訴他們他們?nèi)说臄?shù)字之和為14。甲對(duì)乙和丙說:我知道你們兩人的數(shù)字一定不相等。
乙想了想,對(duì)甲說:我們兩人的數(shù)字之差一定比丙大。
丙聽完甲和乙的話后,依舊沉默不語。
若甲乙丙三人都很聰明,且只要他們能推斷出三人的數(shù)字分別是什么,那個(gè)人會(huì)在第一時(shí)間說出。(不考慮甲、乙見到丙沉默之后是否知曉)
那么,丙的數(shù)字是多少?

先說答案:4。

LongCat-Flash:


Deepseek R1:


Qwen3 -2507:


全部回答準(zhǔn)確。

雖然此次測(cè)試沒有基準(zhǔn)測(cè)試那么全面,但也可以看出各個(gè)模型的優(yōu)缺點(diǎn)。

目前美團(tuán)的LongCat-Flash模型已經(jīng)上線Hugging Face、GitHub等開源平臺(tái),技術(shù)報(bào)告同步發(fā)布。

同時(shí),美團(tuán)也提供了LongCat-Flash模型的網(wǎng)頁版體驗(yàn)鏈接。

傳送門:longcat.ai/

感興趣的小伙伴可以去試一試。

掃碼邀請(qǐng)進(jìn)群,我們帶你一起來玩轉(zhuǎn)ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學(xué)一些AI搞錢技能。

往期文章回顧

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
人到中年,什么讓你平靜,你就靠近什么

人到中年,什么讓你平靜,你就靠近什么

洞見
2026-01-26 20:26:47
2026年,殯葬迎來大改革,“死不起”將成歷史,這些費(fèi)用全取消!

2026年,殯葬迎來大改革,“死不起”將成歷史,這些費(fèi)用全取消!

夜深愛雜談
2026-01-25 19:33:27
航班大量取消!超市貨架被搶空!約7000人滯留機(jī)場(chǎng),日本北海道遇罕見暴雪,數(shù)百名游客在地下通道過夜

航班大量取消!超市貨架被搶空!約7000人滯留機(jī)場(chǎng),日本北海道遇罕見暴雪,數(shù)百名游客在地下通道過夜

每日經(jīng)濟(jì)新聞
2026-01-27 13:59:08
做完手術(shù)人就廢了,這5種手術(shù)不需要做,別讓無知害了自己

做完手術(shù)人就廢了,這5種手術(shù)不需要做,別讓無知害了自己

華庭講美食
2026-01-19 14:27:13
騰訊宣布:春節(jié)發(fā)10億元現(xiàn)金!單個(gè)紅包最高達(dá)1萬元,可直接提現(xiàn)到微信

騰訊宣布:春節(jié)發(fā)10億元現(xiàn)金!單個(gè)紅包最高達(dá)1萬元,可直接提現(xiàn)到微信

每日經(jīng)濟(jì)新聞
2026-01-25 19:55:05
太殘酷了!宇樹機(jī)器人春晚“下課”,成立不到3年的企業(yè)橫空出世

太殘酷了!宇樹機(jī)器人春晚“下課”,成立不到3年的企業(yè)橫空出世

火山詩話
2026-01-27 10:54:08
印度爆發(fā)尼帕病毒疫情,我們安全嗎?

印度爆發(fā)尼帕病毒疫情,我們安全嗎?

封面新聞
2026-01-26 21:55:06
武漢病毒研究所:發(fā)現(xiàn)對(duì)尼帕病毒有效藥物!印度暴發(fā)“人傳人”疫情,張文宏發(fā)聲;專家提醒:春節(jié)出行非必要不前往疫區(qū)

武漢病毒研究所:發(fā)現(xiàn)對(duì)尼帕病毒有效藥物!印度暴發(fā)“人傳人”疫情,張文宏發(fā)聲;專家提醒:春節(jié)出行非必要不前往疫區(qū)

每日經(jīng)濟(jì)新聞
2026-01-27 16:15:23
一涉刑資產(chǎn)勞斯萊斯庫里南拍出528.6萬,高出評(píng)估價(jià)57.6萬元

一涉刑資產(chǎn)勞斯萊斯庫里南拍出528.6萬,高出評(píng)估價(jià)57.6萬元

極目新聞
2026-01-27 17:24:56
回國僅1天!中國隊(duì)功勛助練就離任,原因曝光,將聯(lián)手鄭智戰(zhàn)中超

回國僅1天!中國隊(duì)功勛助練就離任,原因曝光,將聯(lián)手鄭智戰(zhàn)中超

何老師呀
2026-01-27 12:27:03
總有人納悶,王健林就算只剩100億,為啥王思聰花錢還是那么大方

總有人納悶,王健林就算只剩100億,為啥王思聰花錢還是那么大方

小光侃娛樂
2025-12-10 22:10:04
伊朗平定內(nèi)亂,中國電子戰(zhàn)設(shè)備幫了大忙,全球算是看明白了

伊朗平定內(nèi)亂,中國電子戰(zhàn)設(shè)備幫了大忙,全球算是看明白了

胖福的小木屋
2026-01-26 23:56:33
訪華前,他為何說前幾任首相不去中國是失職?

訪華前,他為何說前幾任首相不去中國是失職?

新民周刊
2026-01-27 09:08:46
離譜!挪威帝王蟹堆成山,中國人買一只卻要花上千,原因太現(xiàn)實(shí)

離譜!挪威帝王蟹堆成山,中國人買一只卻要花上千,原因太現(xiàn)實(shí)

李健政觀察
2026-01-25 19:40:23
男子在路上看見陌生阿姨穿著印有寓意“死亡”字母的衣服便善意提醒,男子:“我們的父母可能也不認(rèn)識(shí)英文”

男子在路上看見陌生阿姨穿著印有寓意“死亡”字母的衣服便善意提醒,男子:“我們的父母可能也不認(rèn)識(shí)英文”

觀威海
2026-01-27 17:18:20
7家公司預(yù)警可能將被“*ST” 華夏幸福、億晶光電連續(xù)三個(gè)跌停

7家公司預(yù)警可能將被“*ST” 華夏幸福、億晶光電連續(xù)三個(gè)跌停

每日經(jīng)濟(jì)新聞
2026-01-27 19:17:39
退臟衣女記者全網(wǎng)社死!正臉很白凈,壞到骨子里,山東文旅遭圍攻

退臟衣女記者全網(wǎng)社死!正臉很白凈,壞到骨子里,山東文旅遭圍攻

李健政觀察
2026-01-26 09:33:07
驚天大瓜,全民都在吃

驚天大瓜,全民都在吃

我是歷史其實(shí)挺有趣
2026-01-27 18:21:33
“殘障人士輪椅車隊(duì)”強(qiáng)闖西雙版納原始森林公園?景區(qū):輪椅車系改裝,已安排車輛接送游玩

“殘障人士輪椅車隊(duì)”強(qiáng)闖西雙版納原始森林公園?景區(qū):輪椅車系改裝,已安排車輛接送游玩

揚(yáng)子晚報(bào)
2026-01-27 20:06:30
白銀瘋漲超150%,郎咸平熱評(píng):只是一場(chǎng)針對(duì)中國的金融圍獵

白銀瘋漲超150%,郎咸平熱評(píng):只是一場(chǎng)針對(duì)中國的金融圍獵

凡知
2026-01-27 18:12:39
2026-01-27 22:44:49
AI先鋒官 incentive-icons
AI先鋒官
AIGC大模型及應(yīng)用精選與評(píng)測(cè)
421文章數(shù) 40關(guān)注度
往期回顧 全部

科技要聞

馬化騰3年年會(huì)講話透露了哪些關(guān)鍵信息

頭條要聞

體大畢業(yè)生收費(fèi)教人騎自行車800元1次 網(wǎng)友直呼"離譜"

頭條要聞

體大畢業(yè)生收費(fèi)教人騎自行車800元1次 網(wǎng)友直呼"離譜"

體育要聞

冒充職業(yè)球員,比賽規(guī)則還和對(duì)手現(xiàn)學(xué)?

娛樂要聞

張雨綺風(fēng)波持續(xù)發(fā)酵,曝多個(gè)商務(wù)被取消

財(cái)經(jīng)要聞

多地對(duì)壟斷行業(yè)"近親繁殖"出手了

汽車要聞

標(biāo)配華為乾崑ADS 4/鴻蒙座艙5 華境S體驗(yàn)車下線

態(tài)度原創(chuàng)

健康
藝術(shù)
親子
數(shù)碼
手機(jī)

耳石脫落為何讓人天旋地轉(zhuǎn)+惡心?

藝術(shù)要聞

日本東京國立博物館中的100幅宋畫

親子要聞

雙職工家庭,孩子上幼兒園后,無老人幫忙,夫妻倆能獨(dú)立帶娃嗎?

數(shù)碼要聞

華碩無畏Pro 14/16 2026款酷睿版發(fā)布,6999元起

手機(jī)要聞

消息稱三星Galaxy S26 Ultra手機(jī)確認(rèn)將采用真10bit屏幕

無障礙瀏覽 進(jìn)入關(guān)懷版