国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

剛剛,小扎的千億閉源AI終于交卷!當(dāng)場(chǎng)被痛批「圖表犯罪」,28歲話事人火速道歉

0
分享至

九個(gè)月前,如果你問(wèn) AI 圈里誰(shuí)最焦慮,答案大概率是 Meta CEO 扎克伯格。

Llama 4 的發(fā)布堪稱教科書(shū)級(jí)翻車。核心研究員陸續(xù)出走,技術(shù)社區(qū)的口碑幾乎在一夜之間崩掉,于是扎克伯格選擇推倒重來(lái)。

Meta Superintelligence Labs 掛牌成立,接著小扎開(kāi)出堪比 NBA 職業(yè)球星的簽約金,從 OpenAI、Google、Anthropic 撬走七十多名頂尖研究員,并在六個(gè)月內(nèi)完成了四次組織架構(gòu)調(diào)整。


就在剛剛,這場(chǎng) AI 豪賭終于亮出了它的第一張牌:Muse Spark。

近千億美元的支出給了扎克伯格一張 AI 頂級(jí)玩家的入場(chǎng)券,但入場(chǎng)從來(lái)只是開(kāi)始,能不能在這張桌子上贏下去,還要看今天這張牌打得怎么樣。


扎克伯格的最新發(fā)文

號(hào)稱「?jìng)€(gè)人超級(jí)智能」第一步,Muse Spark 登場(chǎng)

作為 Meta Superintelligence Labs 推出的 Muse 系列首款模型,Muse Spark 從架構(gòu)層面原生支持圖像、音頻、視頻與文本的聯(lián)合理解,內(nèi)置工具調(diào)用、可視化思維鏈與多智能體協(xié)調(diào)能力。

Meta 將其定位為邁向「?jìng)€(gè)人超級(jí)智能」的第一步。

從評(píng)測(cè)數(shù)據(jù)看,Muse Spark 的能力分布相當(dāng)不均勻。多模態(tài)方向上,它在 CharXiv Reasoning 圖表理解項(xiàng)目上得分 86.4,超過(guò) GPT 5.4 的 82.8 和 Gemini 3.1 Pro 的 80.2,SimpleVQA 視覺(jué)事實(shí)題同樣領(lǐng)先競(jìng)爭(zhēng)對(duì)手。


但在 MMMU Pro 多模態(tài)理解項(xiàng)目上,Muse Spark 得分 80.4,低于 Gemini 3.1 Pro 的 83.9。文本推理方向,它在 GPQA Diamond 博士級(jí)推理題上得分 89.5,LiveCodeBench Pro 競(jìng)爭(zhēng)編程測(cè)試得分 80.0,后者超過(guò) Opus 4.6。

然而 ARC AGI 2 抽象推理謎題上僅得 42.5,遠(yuǎn)落后于 Gemini 3.1 Pro 的 76.5 和 GPT 5.4 的 76.1,差距頗為明顯。

健康領(lǐng)域是這份成績(jī)單上比較大的亮點(diǎn)。

HealthBench Hard 開(kāi)放式健康問(wèn)答中,Muse Spark 得分 42.8,遠(yuǎn)超 GPT 5.4 的 40.1、Gemini 3.1 Pro 的 20.6 和 Opus 4.6 的 14.8。MedXpertQA 多模態(tài)醫(yī)療題得分 78.4,Meta 與超過(guò) 1000 名醫(yī)生合作標(biāo)注訓(xùn)練數(shù)據(jù),這一投入在評(píng)測(cè)榜單上得到了直接回報(bào),也是少見(jiàn)的、錢花到了刀刃上的地方。

編碼與智能體任務(wù)則是另一面。Muse Spark 在 DeepSearchQA 智能體搜索項(xiàng)目上得分 74.8,優(yōu)于 Gemini 3.1 Pro 的 69.7,但在 Terminal-Bench 2.0 終端編碼任務(wù)上僅得 59.0,落后于 GPT 5.4 的 75.1 和 Gemini 3.1 Pro 的 68.5。


基準(zhǔn)測(cè)試之外,社區(qū)的實(shí)戰(zhàn)對(duì)比更為直觀:有用戶同時(shí)讓 Muse Spark 和 GPT-5.4 完成「制作一個(gè) Flappy Bird 克隆版」的任務(wù),從游戲邏輯到交互細(xì)節(jié),GPT-5.4 輕松勝出。在經(jīng)典的六邊形小球測(cè)試中,對(duì)比昨天 DeepSeek 專家模式的表現(xiàn),Muse Spark 再次敗下陣來(lái)。


只能說(shuō),編碼與長(zhǎng)鏈路智能體任務(wù),仍是 Meta 明確承認(rèn)、尚在補(bǔ)強(qiáng)的方向。

與標(biāo)準(zhǔn)推理模式并行,Meta 同步推出了 Contemplating 模式,通過(guò)并行調(diào)度多個(gè) AI 智能體協(xié)作處理復(fù)雜問(wèn)題。

該模式在「人類最后的考試」(Humanity’s Last Exam)無(wú)工具版本中得分 50.2,超過(guò) Gemini 3.1 Deep Think 的 48.4 和 GPT 5.4 Pro 的 43.9,F(xiàn)rontierScience Research 科學(xué)研究任務(wù)中得分 38.3。但在物理奧賽 IPhO 2025 理論題上得分 82.6,仍落后于 GPT 5.4 Pro 的 93.5。


支撐上述能力的,是 MSL 過(guò)去九個(gè)月徹底重建的技術(shù)棧。

Codebase Perplexity 測(cè)試圖表顯示,Muse Spark 在相同性能水平下,比 Llama 4 Maverick Base 節(jié)省 10.3 倍算力,比 DeepSeek-V3.1 Base 節(jié)省 8.2 倍,比 Kimi-K2 Base 節(jié)省 3.3 倍。


強(qiáng)化學(xué)習(xí)階段同樣表現(xiàn)穩(wěn)定,pass@1 從約 46% 持續(xù)爬升至超 60%,pass@16 從 近 68% 升至近 80%,在未見(jiàn)過(guò)的評(píng)測(cè)集上泛化趨勢(shì)同樣平穩(wěn)。


博主 Yuchen Jin 評(píng)價(jià)稱,基礎(chǔ)設(shè)施才是 AI 實(shí)驗(yàn)室真正的護(hù)城河,好的基礎(chǔ)設(shè)施讓研究人員能以更快速度訓(xùn)練模型、用更短周期驗(yàn)證更多想法。


AI 評(píng)測(cè)機(jī)構(gòu) Artificial Analysis 在早期測(cè)試后表示,Muse Spark 在其綜合智能指數(shù)中得分 52,位列全球前五。


Muse Spark 現(xiàn)已上線 meta.ai 及 Meta AI 應(yīng)用,并向部分用戶開(kāi)放 API 內(nèi)測(cè),用戶須以 Facebook 或 Instagram 賬號(hào)登錄方可使用。與此前開(kāi)源 Llama 系列的路線不同,Meta 這次選擇閉源發(fā)布。

Meta 未明確說(shuō)明是否會(huì)使用社交賬號(hào)中的個(gè)人信息訓(xùn)練模型,但鑒于 Meta 的一貫做法,這一可能性不低,其中健康數(shù)據(jù)的采集更是值得特別關(guān)注。

Meta 重組后的首份 AI 答卷,及格了嗎?

2025 年 4 月,Llama 4 以令人失望的表現(xiàn)觸發(fā)了 Meta 的人事地震。

下定決心從頭來(lái)過(guò)的扎克伯格,成立了 Meta Superintelligence Labs,以 143 億美元將 Scale AI 創(chuàng)始人 Alexandr Wang 引入擔(dān)任首席 AI 官,前 GitHub CEO Nat Friedman 負(fù)責(zé)產(chǎn)品,前 OpenAI 研究員 Shengjia Zhao(趙晟佳)出任首席科學(xué)家。


緊接著是四大團(tuán)隊(duì)的重組、以及從 OpenAI、DeepMind、Anthropic 等對(duì)手處累計(jì)引進(jìn)逾 70 名頂尖研究人員,單人簽約獎(jiǎng)金最高達(dá) 1 億美元。

代價(jià)是沉重的,圖靈獎(jiǎng)得主 Yann LeCun 離職、600 個(gè)崗位被裁、內(nèi)部薪酬不公引發(fā)大規(guī)模士氣危機(jī),六個(gè)月內(nèi)四次架構(gòu)調(diào)整更是讓團(tuán)隊(duì)方向感嚴(yán)重缺失。


結(jié)果顯而易見(jiàn),九個(gè)月重建、數(shù)百億投入,Muse Spark 交出的這份答卷,稱得上合格,卻還遠(yuǎn)遠(yuǎn)談不上亮眼。

有一個(gè)有趣的細(xì)節(jié)是,Meta 在評(píng)測(cè)圖表中,通過(guò)給自家模型基準(zhǔn)測(cè)試成績(jī)高亮的操作,試圖制造出全面領(lǐng)先的視覺(jué)觀感,隨即引發(fā)外界批評(píng)。


網(wǎng)友 Armen Aghajanyan 直接定性為「圖表犯罪」,Alexandr Wang 隨后公開(kāi)致歉,承認(rèn)大多數(shù)評(píng)估恰恰顯示模型有很多需要改進(jìn)的地方。



事實(shí)上,Meta 新模型在健康領(lǐng)域的垂直優(yōu)勢(shì)足夠亮眼,算力效率的提升也確有真實(shí)價(jià)值,但 ARC AGI 2 上的斷崖式落差、編碼任務(wù)上被 GPT-5.4 輕松超越,以及「圖表犯罪」風(fēng)波所折射出的敘事焦慮,共同勾勒出一個(gè)仍在追趕、而非遙遙領(lǐng)先的 Meta AI。

更關(guān)鍵的是,這是一份閉源答卷。Meta 曾以開(kāi)源 Llama 系列樹(shù)立起差異化形象,如今轉(zhuǎn)向閉源商業(yè)化路線,意味著它放棄了社區(qū)生態(tài)這張最重要的底牌,卻尚未證明自己能在閉源賽道上與 OpenAI 和 Anthropic 正面掰手腕。


如官方博客和 Alex 回應(yīng)所說(shuō),別問(wèn),問(wèn)就是「大的要來(lái)了」

甚至就在 Muse Spark 發(fā)布的同一天,馬斯克在社交媒體上曬出 xAI Colossus 2 的訓(xùn)練進(jìn)度,七個(gè)模型同時(shí)在訓(xùn),參數(shù)規(guī)模從 1T 橫跨至 10T,并附上一句意味深長(zhǎng)的「還有些追趕要做」。


同期,Claude Mythos 預(yù)覽版、DeepSeek 新一輪更新也已經(jīng)發(fā)布,包括阿里即將推出 Qwen-3.6 系列旗艦 Qwen-3.6-Max,騰訊混元 3.0 同樣蓄勢(shì)待發(fā)。

對(duì)手們不會(huì)等 Meta 考完再出題,并且投資者的耐心本來(lái)就是有限度的。四月,依舊是最殘酷的一個(gè)月。名為 AGI 的這場(chǎng)考試,目前還看不到閱卷結(jié)束的那一天。

我們正在招募伙伴

簡(jiǎn)歷投遞郵箱hr@ifanr.com

?? 郵件標(biāo)題「姓名+崗位名稱」(請(qǐng)隨簡(jiǎn)歷附上項(xiàng)目/作品或相關(guān)鏈接)


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
去銀行激活社??ㄒ欢ㄒ鲃?dòng)提要求,不懂規(guī)矩白白被扣費(fèi)好幾年

去銀行激活社??ㄒ欢ㄒ鲃?dòng)提要求,不懂規(guī)矩白白被扣費(fèi)好幾年

芳姐侃社會(huì)
2026-04-21 22:04:15
馬拉多納兒子:在所有人類球員中梅西是最棒的,但我父親是神

馬拉多納兒子:在所有人類球員中梅西是最棒的,但我父親是神

懂球帝
2026-04-21 23:37:05
被藍(lán)莓騙了!真正的花青素大戶,其實(shí)就是這5種,幾元錢的東西!

被藍(lán)莓騙了!真正的花青素大戶,其實(shí)就是這5種,幾元錢的東西!

椰青美食分享
2026-04-22 08:44:44
中美大吵一架,在安理會(huì)上互不相讓,中方3句話讓美國(guó)下不來(lái)臺(tái)

中美大吵一架,在安理會(huì)上互不相讓,中方3句話讓美國(guó)下不來(lái)臺(tái)

阿校談史
2026-04-23 03:38:24
如今定居廣東的朱芳雨,大兒走籃球路,二兒優(yōu)秀低調(diào),三兒最瀟灑

如今定居廣東的朱芳雨,大兒走籃球路,二兒優(yōu)秀低調(diào),三兒最瀟灑

翰飛觀事
2026-04-22 14:42:17
央視曝光:郭美美、謝孟偉等,賬號(hào)被查處細(xì)節(jié)

央視曝光:郭美美、謝孟偉等,賬號(hào)被查處細(xì)節(jié)

新京報(bào)政事兒
2025-12-06 21:38:07
壓力大的可以看看拼多多法務(wù)部

壓力大的可以看看拼多多法務(wù)部

大嘴説
2026-04-22 15:47:20
太火爆!上海已約滿,名額一掃而空!能保命!

太火爆!上海已約滿,名額一掃而空!能保命!

看看新聞Knews
2026-04-22 22:12:53
黑龍江省綏化市人大常委會(huì)原黨組書(shū)記李元學(xué)被雙開(kāi)

黑龍江省綏化市人大常委會(huì)原黨組書(shū)記李元學(xué)被雙開(kāi)

界面新聞
2026-04-22 11:00:00
意媒披露賣淫團(tuán)伙牽連意甲球員名單,小馬爾蒂尼等球員在列

意媒披露賣淫團(tuán)伙牽連意甲球員名單,小馬爾蒂尼等球員在列

懂球帝
2026-04-23 01:20:11
格力回應(yīng)鋁線電機(jī)爭(zhēng)議:相關(guān)工程機(jī)已停產(chǎn),海信稱靠多三兩銅多500元時(shí)代已終結(jié)

格力回應(yīng)鋁線電機(jī)爭(zhēng)議:相關(guān)工程機(jī)已停產(chǎn),海信稱靠多三兩銅多500元時(shí)代已終結(jié)

紅星新聞
2026-04-21 20:40:20
北京17歲女學(xué)生教室產(chǎn)子,孩子生父身份曝光后,父母崩潰了

北京17歲女學(xué)生教室產(chǎn)子,孩子生父身份曝光后,父母崩潰了

清茶淺談
2025-04-16 13:39:37
人去樓空!半年不到就全部關(guān)門“克料子”!太平路、翊武路這些店最近究竟經(jīng)歷了什么

人去樓空!半年不到就全部關(guān)門“克料子”!太平路、翊武路這些店最近究竟經(jīng)歷了什么

每日桂林
2026-04-22 21:09:43
全世界都被騙了:亞馬遜產(chǎn)全球20%氧氣?人類幾乎一口都分不到!

全世界都被騙了:亞馬遜產(chǎn)全球20%氧氣?人類幾乎一口都分不到!

半解智士
2026-04-22 14:26:26
DeepSeek突然更新!

DeepSeek突然更新!

智東西
2026-04-22 18:26:16
李敖之子李勘:大陸網(wǎng)民以為邱毅在臺(tái)灣很有影響力!邱毅的價(jià)值

李敖之子李勘:大陸網(wǎng)民以為邱毅在臺(tái)灣很有影響力!邱毅的價(jià)值

風(fēng)雨與陽(yáng)光
2026-02-25 10:10:44
一個(gè)曾做過(guò)20年警察的朋友,講起了一樁離奇舊案,聽(tīng)得我后背發(fā)涼

一個(gè)曾做過(guò)20年警察的朋友,講起了一樁離奇舊案,聽(tīng)得我后背發(fā)涼

千秋文化
2026-04-17 20:10:14
羅伯遜聘請(qǐng)堪比網(wǎng)球明星的豪華團(tuán)隊(duì),高舉攻勢(shì)臺(tái)球大旗世錦賽沖冠

羅伯遜聘請(qǐng)堪比網(wǎng)球明星的豪華團(tuán)隊(duì),高舉攻勢(shì)臺(tái)球大旗世錦賽沖冠

楊華評(píng)論
2026-04-22 17:13:42
“鐘聲”把話說(shuō)得很直白,中國(guó)不會(huì)拉菲律賓一把,馬科斯該死心了

“鐘聲”把話說(shuō)得很直白,中國(guó)不會(huì)拉菲律賓一把,馬科斯該死心了

老赳說(shuō)歷史
2026-04-23 02:58:25
上海房東正在快速出貨

上海房東正在快速出貨

魔都財(cái)觀
2026-04-22 07:40:13
2026-04-23 05:39:00
AppSo incentive-icons
AppSo
讓智能手機(jī)更好用的秘密
6299文章數(shù) 26824關(guān)注度
往期回顧 全部

科技要聞

對(duì)話梅濤:沒(méi)有視頻底座,具身智能走不遠(yuǎn)

頭條要聞

伊朗議長(zhǎng):不可能重新開(kāi)放霍爾木茲海峽

頭條要聞

伊朗議長(zhǎng):不可能重新開(kāi)放霍爾木茲海峽

體育要聞

網(wǎng)易傳媒再度簽約法國(guó)隊(duì)和阿根廷隊(duì)

娛樂(lè)要聞

蜜雪冰城泰國(guó)代言人 被扒出辱華黑歷史

財(cái)經(jīng)要聞

醫(yī)院專家號(hào)"秒空"!警方牽出黑色產(chǎn)業(yè)鏈

汽車要聞

純電續(xù)航301km+激光雷達(dá) 宋Pro DM-i飛馳版9.99萬(wàn)起

態(tài)度原創(chuàng)

房產(chǎn)
時(shí)尚
教育
親子
藝術(shù)

房產(chǎn)要聞

官宣!今年9月起,廣州中小學(xué)“重點(diǎn)班”將成歷史!

用了8年還心動(dòng),這筆錢是花得真值啊

教育要聞

脫不花和張泉靈的對(duì)談很適合家長(zhǎng)聽(tīng)

親子要聞

兼顧專業(yè)哺喂與綠色環(huán)保,貝親發(fā)布自然實(shí)感凈澈系列奶瓶

藝術(shù)要聞

藍(lán)得這么美!

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版