国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

Meta重組AI團隊后首個模型來了:不是最強、不再開源、可能夠用

0
分享至

當地時間 4 月 8 日,Meta 終于發(fā)布了 Muse Spark,九個月來第一個新模型,也是 Meta 超級智能實驗室(MSL)成立以來的第一個產品。消息公布后 Meta 股價盤中漲超 10%。扎克伯格在 Threads 上說,這是一個“世界級助手”。但一位 Meta 高管也比較坦誠地向媒體表示:Muse Spark 并不代表新的技術前沿,只是在部分任務上與領先模型“有競爭力”。

不差,但也沒好到讓人直呼牛 X。對 Meta 來說,更重要的信號可能是:它終于又能坐回牌桌了。

經歷一系列大動蕩之后,Muse Spark 是 Meta AI 大重組后的第一個產物,Alexandr Wang 在 X 上說:我們從零開始重建了整個 AI 技術棧。

Meta 給出的一個關鍵數字是:Muse Spark 達到 Llama 4 Maverick 同等性能所需的計算量減少了 10 倍以上。這說明過去九個月不只是在舊體系上縫補,而是確實換了一套引擎。在預訓練階段的 scaling law 對比中,Muse Spark 的計算效率也優(yōu)于 DeepSeek-V3.1 和 Kimi-K2 的基座模型。

在 Benchmark 分數上 Meta 這次雖然沒有作弊,但還是耍了個小花招。對比表格中只有 Muse Spark 一列的數字用藍色高亮,其余模型一律白色,視覺上很容易讓人覺得 Muse Spark 全面領先。


圖丨基準測試成果(來源:Meta)

重新按每行最高分標綠、最低分標紅之后再看,Muse Spark 的觀感會差很多。在多模態(tài)和健康類任務上它確實領先,但在編程、抽象推理和 agentic 任務這些當下最熱門的應用場景中,它全面落后于 Gemini 和 GPT-5.4。

具體來看。ARC AGI 2(抽象推理)上 Muse Spark 拿到 42.5 分,Gemini 3.1 Pro 是 76.5,GPT-5.4 是 76.1,差了近一倍。LiveCodeBench Pro(編程競賽)80 對 GPT-5.4 的 87.5;Terminal-Bench 2.0(終端編程)59 對 75.1;GDPval-AA Elo(辦公任務)1444 對 GPT-5.4 的 1672 和 Opus 4.6 的 1606。Meta 自己也在博客中承認“在長時序 agentic 系統(tǒng)和編程工作流方面仍有差距”。


圖丨重新標準后的基準測試結果(來源:X)

第三方評測機構 Artificial Analysis 給 Muse Spark 的綜合智能指數打了 52 分,排在 Gemini 3.1 Pro、GPT-5.4 和 Claude Opus 4.6 之后,位列第四。在 Humanity's Last Exam(無工具)上,Artificial Analysis 追蹤到的成績是 39.9%,低于 Meta 自報的 42.8%,也低于 Gemini 3.1 Pro 的 44.7%。

博主 Ritesh Khanna 用同一組 prompt 對五個前沿模型做了零重試實測。結論是:Muse Spark 在視覺理解和金融分析上排名第一,但代碼生成墊底。在生成雪花玻璃球的實測中,它寫出了技術上最漂亮的 Three.js 代碼,然后渲染出幾個黑糊糊的物體。


圖丨測試結果(來源:Ritesh Khanna)

Muse Spark 真正拉開差距的領域集中在兩個方向:多模態(tài)視覺理解和健康。

CharXiv Reasoning(圖表理解)上它以 86.4 分領先所有對手;ScreenSpot Pro(截圖定位)84.1 分,僅次于 GPT-5.4 的 85.4;HealthBench Hard(開放式健康問答)得分 42.8,是 Gemini 3.1 Pro(20.6)的兩倍多。Meta 說他們與超過 1000 名醫(yī)生合作策劃了健康領域的訓練數據。

這兩個方向恰好對應 Meta 的產品需求,理解用戶在 Instagram 上拍的食物照片、在 Ray-Ban 智能眼鏡里識別周圍物體、為 Meta AI 助手增加健康問答能力。

Muse Spark 的另一個推理模式“Contemplating”(沉思模式)通過多智能體并行推理來處理更難的任務,在 Humanity's Last Exam(含工具)上拿到 50.2 分,略高于 Gemini Deep Think 的 48.4 和 GPT-5.4 Pro 的 43.9。但物理奧賽(IPhO 2025 Theory)上 82.6 對 GPT-5.4 Pro 的 93.5,差距仍然明顯。

換句話說,Muse Spark 是一個為 Meta 自身產品場景高度定制的模型,不是一個通用前沿模型。從發(fā)布方式上也能看出來。

和 Llama 系列不同,Muse Spark 是閉源的。Meta 只向“精選合作伙伴”提供私有 API 預覽,普通開發(fā)者用不了。

它直接部署在 Meta AI 聊天助手中,未來幾周會擴展到 Facebook、Instagram、WhatsApp 和 Ray-Ban 眼鏡。Meta 還為它配套了一個“購物模式”,結合用戶在社交平臺上的興趣數據做個性化推薦?;旧鲜前?AI 能力直接接到廣告和電商的變現鏈路上。

沃頓商學院教授 Ethan Mollick 評論說,Muse Spark 最重要的意義在于 Meta 現在有了自己的前沿模型,可以用它從現有用戶基礎中提取更多價值。但他也說:沒有開源權重,就很難預判 Spark 的長期價值,因為此前的 Llama 之所以重要,主要是因為它開源。

Meta 過去三年靠 Llama 系列建立了開源 AI 領域最大的生態(tài):累計下載量 12 億次,日均下載約 100 萬次,企業(yè)自部署 Llama 模型的成本比使用閉源 API 低 88%。但到 2025 年底,阿里的 Qwen 3.6 Plus 和 DeepSeek 等中國模型在 Hugging Face 上的下載占比已經達到 41%,美國只占 35%。Llama 4 的失利加速了侵蝕。Muse Spark 閉源發(fā)布,某種程度上是承認了現實:與其繼續(xù)做開源基礎設施供應商,不如先把自家產品的 AI 能力補上來。

Alexandr Wang 說未來會有開源版本。扎克伯格也承諾“將發(fā)布越來越先進的模型,包括新的開源模型”。但眼下的優(yōu)先級很清楚:先產品,再生態(tài)。

Meta 今年的資本支出預算在 1150 億到 1350 億美元之間,幾乎是 2025 年的兩倍。Muse Spark 是這筆投資的第一個可見產出。它證明了 MSL 團隊能在九個月內從零搭出一套有效的技術棧,計算效率在快速提升,多模態(tài)和健康方向的差異化也初步成立。Gizmodo 的評價是:扎克伯格的百億美元投入,讓 Meta 從“徹底掉隊”升級到了“競爭陪跑”。

但它發(fā)布的前一天,Anthropic 公布了據說強大到只能限量開放的 Claude Mythos,智譜 AI 發(fā)布了在編程基準上領先的 GLM-5.1。扎克伯格承諾更大、更強的模型正在路上。問題是,其他對手也并不會停下來原地等 Meta。

參考資料:

https://ai.meta.com/blog/introducing-muse-spark-msl/

https://www.riteshkhanna.com/blog/muse-spark-arena

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
那個被我多次舉報的人,一路升遷…

那個被我多次舉報的人,一路升遷…

槽邏輯
2026-04-13 18:33:17
印度慘遭羞辱:250萬噸尿素全球招標,竟無人問津,中企集體缺席

印度慘遭羞辱:250萬噸尿素全球招標,竟無人問津,中企集體缺席

影像溫度
2026-04-13 11:42:30
任天堂給7個人喂了7個版本假消息,只為抓一個內鬼

任天堂給7個人喂了7個版本假消息,只為抓一個內鬼

硅嶼手記
2026-04-13 08:39:07
交管12123重大升級!2026新功能,車主必看

交管12123重大升級!2026新功能,車主必看

音樂時光的娛樂
2026-04-14 11:32:47
看上去像“公務員”,其實連編制都沒有的6個職業(yè)

看上去像“公務員”,其實連編制都沒有的6個職業(yè)

細說職場
2026-04-12 17:02:40
S媽送別大S一年「再痛失至親」 親哥女兒曝遺愿:所以你才幽默離場嗎

S媽送別大S一年「再痛失至親」 親哥女兒曝遺愿:所以你才幽默離場嗎

ETtoday星光云
2026-04-14 10:36:13
中國明確表態(tài):中方船只將繼續(xù)通過霍爾木茲,不接受任何攔截

中國明確表態(tài):中方船只將繼續(xù)通過霍爾木茲,不接受任何攔截

桂系007
2026-04-14 03:28:19
亨得利:趙心童不會因為輸球而受傷,他打破克魯斯堡魔咒有優(yōu)勢!

亨得利:趙心童不會因為輸球而受傷,他打破克魯斯堡魔咒有優(yōu)勢!

世界體壇觀察家
2026-04-14 08:51:32
鄭麗文返臺后,島內民調曝光,位列倒數第三,與沈伯洋幾乎持平?

鄭麗文返臺后,島內民調曝光,位列倒數第三,與沈伯洋幾乎持平?

萌城少年強
2026-04-14 11:29:17
寶馬炮轟比亞迪背后真相:如果閃充不傷電池,就不需要固態(tài)電池了

寶馬炮轟比亞迪背后真相:如果閃充不傷電池,就不需要固態(tài)電池了

王新喜
2026-04-13 10:45:56
錫安-威廉森:我真的很想打季后賽,對此我愿意承擔責任

錫安-威廉森:我真的很想打季后賽,對此我愿意承擔責任

懂球帝
2026-04-14 11:18:21
不發(fā)朋友圈的人,都開始發(fā)SBTI

不發(fā)朋友圈的人,都開始發(fā)SBTI

南風窗
2026-04-13 13:09:16
白天作陪晚上同宿?明碼標價8000一回!高端伴游淪為色情交易窩點

白天作陪晚上同宿?明碼標價8000一回!高端伴游淪為色情交易窩點

網絡易不易
2026-01-20 10:17:46
4年2.75億續(xù)濃眉!3年1.5億簽吹楊!奇才中了必死的局!

4年2.75億續(xù)濃眉!3年1.5億簽吹楊!奇才中了必死的局!

貴圈真亂
2026-04-14 13:21:55
初步計票結果顯示瓦達尼贏得貝寧總統(tǒng)選舉

初步計票結果顯示瓦達尼贏得貝寧總統(tǒng)選舉

界面新聞
2026-04-14 07:44:50
我媽讓我婚前把4套房公證了,領證后,老公果然說:給我弟一套房

我媽讓我婚前把4套房公證了,領證后,老公果然說:給我弟一套房

小影的娛樂
2026-04-14 07:17:03
賭王何鴻燊借運后輩們的瓜!

賭王何鴻燊借運后輩們的瓜!

八卦瘋叔
2026-04-14 10:16:00
陳麗華離世8天,一大傳聞來勢洶洶,事關另一女人,難怪官媒出手

陳麗華離世8天,一大傳聞來勢洶洶,事關另一女人,難怪官媒出手

阿鳧愛吐槽
2026-04-14 02:57:03
伊朗軍方:地區(qū)港口安全“要么屬于所有人,要么不屬于任何人”

伊朗軍方:地區(qū)港口安全“要么屬于所有人,要么不屬于任何人”

每日經濟新聞
2026-04-13 15:54:12
中國“打工人”第一城,誕生

中國“打工人”第一城,誕生

國民經略
2026-04-13 11:47:11
2026-04-14 14:40:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16572文章數 514872關注度
往期回顧 全部

科技要聞

離職同事"煉化"成AI?這屆公司不需要活人了

頭條要聞

恒大集團、恒大地產及許家印案開庭 許家印認罪悔罪

頭條要聞

恒大集團、恒大地產及許家印案開庭 許家印認罪悔罪

體育要聞

他做對了所有事,卻被整個職業(yè)網壇放逐了八年

娛樂要聞

宋祖兒劉宇寧戀情大反轉 正主火速辟謠

財經要聞

許家印受審當庭表示認罪悔罪

汽車要聞

長城歐拉5限定版純電版上市 限量99臺售價13.38萬元

態(tài)度原創(chuàng)

游戲
數碼
旅游
公開課
軍事航空

V社新Steam手柄要來了 首批大貨已運抵美國

數碼要聞

TCL T7M Pro體驗:SQD-Mini LED技術加持,客廳換代首選

旅游要聞

申然:塞班軍艦島,一眼淪陷的藍綠秘境

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗要求五個中東國家賠償戰(zhàn)爭損失

無障礙瀏覽 進入關懷版