国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

突然襲擊!剛剛,Meta超級智能團隊首個大模型來了

0
分享至



機器之心編輯部

Meta 的大模型,卷土重來了!



剛剛,Meta 重金組建的超級智能實驗室(SML)交卷!這也是年輕華人 Alexandr Wang 帶領(lǐng)該團隊后,交出的首份成績。

Meta 一直是生成式 AI 時代最值得關(guān)注的公司之一,早在 2023 年初,它憑借開源 Llama 系列模型,迅速積累了一批忠實且規(guī)模龐大的用戶群體。然而,這一勢頭在去年戛然而止:Llama 4 發(fā)布后評價褒貶不一,最終甚至被曝出存在刷榜(操縱基準(zhǔn)測試)的情況。

Llama 4 這次頗為坎坷的發(fā)布,促使 Meta 創(chuàng)始人兼 CEO 扎克伯格在 2025 年夏天對公司的 AI 業(yè)務(wù)進行了徹底重組,成立了一個全新的內(nèi)部部門 ——Meta Superintelligence Labs(MSL),并邀請年僅 29 歲的前 Scale AI 聯(lián)合創(chuàng)始人兼 CEO Alexandr Wang 出任首席 AI 官,負責(zé)領(lǐng)導(dǎo)該部門。

在此之后,Meta 又以高薪招募了多位頂級研究員,試圖在大模型與通用智能(AGI)競爭中重新奪回主動權(quán)。

如今,Meta 正在展示這一系列調(diào)整的成果:全新自研模型 Muse Spark 上線。

Alexandr Wang 在競爭對手社交平臺 X 上表示,「今天,Meta 正式發(fā)布 Muse Spark,這是 MSL 推出的首個模型。九個月前,我們從零開始重構(gòu)了整套 AI 技術(shù)棧 —— 包括全新的基礎(chǔ)設(shè)施、全新的模型架構(gòu)以及全新的數(shù)據(jù)管線。Muse Spark 正是這一系列工作的成果,如今它已成為 Meta AI 的核心驅(qū)動力!



Alexandr Wang 還表示,這是 Meta 迄今發(fā)布的最強模型,并具備工具調(diào)用、視覺思維鏈(visual chain of thought)以及多智能體協(xié)同(multi-agent orchestration)能力。他還透露,這將成為全新 Muse 模型家族的起點。

趙晟佳、Jason Wei等從OpenAI跳槽到Meta的大牛們,也開始「帶貨」新模型。





不過這也引發(fā)了外界對于 Meta 現(xiàn)有明星產(chǎn)品線,Llama 系列未來走向的諸多猜測。

Muse Spark 的定位,并非一個通用聊天機器人,而是構(gòu)建所謂個人超級智能的基礎(chǔ)。按照 Wang 的說法,這類 AI 不只是處理文本,而是能夠看見并理解你周圍的世界,從而成為個體能力的數(shù)字延伸。這一愿景,與扎克伯格在 2025 年夏天公開提出的個人超級智能宣言形成呼應(yīng)。

Muse Spark 目前暫時僅限于在 Meta AI 應(yīng)用和網(wǎng)站中使用,并通過面向部分用戶開放的私有 API 預(yù)覽提供訪問。此外,目前 Meta 也尚未公布該模型的定價信息。至于 Meta 是否已經(jīng)完全停止 Llama 系列的后續(xù)開發(fā),目前仍不明確。

Muse Spark 性能

Muse Spark 在多模態(tài)感知、推理、醫(yī)療相關(guān)任務(wù)以及各類 agent 任務(wù)上表現(xiàn)出具有競爭力的能力。



Meta 還發(fā)布了 Contemplating(深度思考)模式,該模式可以調(diào)度多個 agent 并行推理。這使得 Muse Spark 能夠在推理能力上,對標(biāo)諸如 Gemini Deep Think 和 GPT Pro 等前沿模型的高強度推理模式。

這一點在評測指標(biāo)上可以看出來。在 Contemplating 模式下,Muse Spark 在 Humanity’s Last Exam 測試中達到了 58%,在 FrontierScience Research 測試中達到了 38%。



Muse Spark 現(xiàn)已上線,Contemplating(深度思考)模式將會在 meta.ai 中逐步推出。

應(yīng)用場景

Muse Spark 被視為 Meta 邁向個人超級智能的第一步,一種能夠理解用戶所處環(huán)境的 AI。從分析周圍場景到輔助健康管理,其更強的推理能力被認為可以支撐一系列高度個性化的應(yīng)用場景。

多模態(tài)能力

從設(shè)計之初,Muse Spark 就強調(diào)跨領(lǐng)域、跨工具整合視覺信息。在視覺類 STEM 問題、實體識別和空間定位等任務(wù)上展現(xiàn)出較強能力。這些能力被整合后,可以支持更具交互性的應(yīng)用,例如生成簡單小游戲,或通過動態(tài)標(biāo)注幫助用戶排查家中設(shè)備問題。

健康領(lǐng)域

在健康場景中,Meta 將個人超級智能視為重要落地方向之一。據(jù)介紹,其與超過 1000 名醫(yī)生合作構(gòu)建訓(xùn)練數(shù)據(jù),以提升模型在健康推理方面的準(zhǔn)確性和完整性;谶@些能力,Muse Spark 可以生成交互式內(nèi)容,用于解釋健康信息,例如食物的營養(yǎng)結(jié)構(gòu)或運動過程中涉及的肌肉群等。

示例展示



提示:我是一名魚素者,且膽固醇偏高。請在推薦的食物上標(biāo)記綠點,在不推薦的食物上標(biāo)記紅點。請勿重復(fù)標(biāo)記,并確保圓點的位置準(zhǔn)確無誤。當(dāng)鼠標(biāo)懸停在圓點上時,請顯示個性化的推薦理由、滿分 10 分的健康評分,以及該食物的熱量、碳水化合物、蛋白質(zhì)和脂肪含量。健康評分的數(shù)值應(yīng)直接顯示在圓點正上方,無需懸停即可見。懸停時顯示的詳細說明文字,應(yīng)置于所有其他圓點的上方。



提示:針對這兩張圖片,請分別指出正在拉伸的肌肉部位及其難度等級。當(dāng)鼠標(biāo)懸停在圓點上時,請?zhí)峁╆P(guān)于該肌群的詳細信息,并指導(dǎo)我如何糾正動作姿勢。我希望能提升自己的瑜伽水平。請將我和我的伙伴的圖像并排展示,并分別以 1 到 10 的分數(shù)對我們兩人的表現(xiàn)進行評分。

提示:你能把這個變成一個可以在網(wǎng)頁上玩的數(shù)獨游戲嗎?



提示:識別咖啡機和磨豆機的關(guān)鍵組件,并制作一個交互式教程,通過簡單的網(wǎng)頁演示如何使用該設(shè)備制作拿鐵咖啡;當(dāng)鼠標(biāo)懸停在操作步驟上時,網(wǎng)頁將高亮顯示對應(yīng)組件的邊界框。

擴展維度(Scaling Axes)

為了實現(xiàn)個人超級智能,模型能力需要以可預(yù)測且高效的方式持續(xù)擴展。為此,Meta 從三個維度對 Muse Spark 的規(guī)模化能力進行研究與跟蹤:預(yù)訓(xùn)練、強化學(xué)習(xí),以及測試時推理。

預(yù)訓(xùn)練(Pretraining)

預(yù)訓(xùn)練階段,是 Muse Spark 獲取核心能力的基礎(chǔ),包括多模態(tài)理解、推理以及編程能力,這些能力也為后續(xù)的強化學(xué)習(xí)和測試時計算提供支撐。

在過去九個月中,團隊對預(yù)訓(xùn)練體系進行了全面重構(gòu),涵蓋模型架構(gòu)、優(yōu)化方法以及數(shù)據(jù)構(gòu)建等多個方面。這些改進共同提升了單位算力所能釋放的模型能力。

為了更嚴(yán)格地評估這一新體系,團隊通過一系列小模型擬合了擴展定律(scaling law),并對比了在達到同等性能水平時所需的訓(xùn)練 FLOPs。結(jié)果顯示:與此前的 Llama 4 Maverick 相比,現(xiàn)在可以用超過一個數(shù)量級更少的算力,達到相同能力水平。這一提升也使 Muse Spark 在效率上顯著領(lǐng)先于當(dāng)前可對比的主流基礎(chǔ)模型。



強化學(xué)習(xí)

在完成預(yù)訓(xùn)練之后,強化學(xué)習(xí)(RL)通過進一步投入算力,持續(xù)放大模型能力。盡管大規(guī)模 RL 一直以來都容易出現(xiàn)不穩(wěn)定問題,但在新的技術(shù)體系下,模型表現(xiàn)出平穩(wěn)且可預(yù)測的提升。

相關(guān)結(jié)果顯示,隨著 RL 計算量(以訓(xùn)練步數(shù)衡量)的增加,Muse Spark 的能力持續(xù)增強。左圖中可以看到,在訓(xùn)練數(shù)據(jù)上,pass@1 和 pass@16(即 16 次嘗試中至少成功一次)的指標(biāo)呈現(xiàn)對數(shù)線性增長,這表明 RL 在提升模型可靠性的同時,并沒有削弱其推理多樣性。

右圖則顯示,在獨立的測試集上,準(zhǔn)確率同樣穩(wěn)步提升,這說明 RL 帶來的能力提升具備良好的泛化性:即使是訓(xùn)練中未見過的任務(wù),Muse Spark 的表現(xiàn)也在持續(xù)改善。



測試時推理(Test-Time Reasoning)

強化學(xué)習(xí)(RL)讓模型在給出答案之前先思考,這一過程被稱為測試時推理。要將這種能力服務(wù)于數(shù)十億用戶,關(guān)鍵在于高效使用推理 tokens。為此,Meta 主要依賴兩個核心手段:一是通過思考時間懲罰來優(yōu)化 token 使用效率,二是通過多智能體協(xié)同,在不顯著增加響應(yīng)時間的情況下提升性能。

為了實現(xiàn)每個 token 帶來更多智能,其 RL 訓(xùn)練目標(biāo)是在引入思考時間懲罰的前提下最大化正確率。在 AIME 等部分評測中,這一機制會引發(fā)一種相變現(xiàn)象:模型最初通過延長思考時間來提升表現(xiàn),但隨著長度懲罰的引入,開始壓縮推理過程,Muse Spark 能用更少的 tokens 完成同樣的問題求解。

在完成壓縮之后,模型又會適度延展推理過程,以進一步提升整體表現(xiàn),實現(xiàn)效率與性能之間的動態(tài)平衡。



為了在不顯著增加延遲的情況下投入更多測試時推理計算,可以通過增加并行協(xié)作的 agent 數(shù)量來解決復(fù)雜問題。下圖展示了這一方法的優(yōu)勢:相比傳統(tǒng)測試時擴展(讓單個 agent 思考更久),通過多 agent 協(xié)同推理來擴展 Muse Spark,可以在保持相近響應(yīng)速度的同時,實現(xiàn)更優(yōu)的性能表現(xiàn)。



https://ai.meta.com/blog/introducing-muse-spark-msl/

https://venturebeat.com/technology/goodbye-llama-meta-launches-new-proprietary-ai-model-muse-spark-first-since

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
我們并沒有用40年走完發(fā)達國家200年的路

我們并沒有用40年走完發(fā)達國家200年的路

文青大叔說
2026-03-13 08:13:38
“祖先給的特權(quán)”,河南網(wǎng)友稱祖墳在景區(qū)祭祖免票,景區(qū)回應(yīng):沒過檢票口,一般是附近住戶的祖墳

“祖先給的特權(quán)”,河南網(wǎng)友稱祖墳在景區(qū)祭祖免票,景區(qū)回應(yīng):沒過檢票口,一般是附近住戶的祖墳

大風(fēng)新聞
2026-04-06 15:06:12
跳水運動員全紅嬋涉嫌遭網(wǎng)暴,全紅嬋所在訓(xùn)練中心已向公安機關(guān)報警

跳水運動員全紅嬋涉嫌遭網(wǎng)暴,全紅嬋所在訓(xùn)練中心已向公安機關(guān)報警

界面新聞
2026-04-08 12:41:59
“中年男人專供”,圍獵年輕女孩

“中年男人專供”,圍獵年輕女孩

DT商業(yè)觀察
2026-04-08 11:56:15
明星最好的醫(yī)美就是醫(yī)美

明星最好的醫(yī)美就是醫(yī)美

仙女事件簿
2026-04-08 23:38:09
王寶強和女友開京牌大G到青島,馮清人高馬大,襯得寶強像小嬌夫

王寶強和女友開京牌大G到青島,馮清人高馬大,襯得寶強像小嬌夫

八怪娛
2026-04-07 15:02:12
隨著本澤馬獨造4球+C羅爭冠勁敵6-0碾壓,沙特聯(lián)最新積分榜出爐

隨著本澤馬獨造4球+C羅爭冠勁敵6-0碾壓,沙特聯(lián)最新積分榜出爐

側(cè)身凌空斬
2026-04-09 04:33:45
英國74歲奶奶獨自游中國,各地網(wǎng)友接力搶著當(dāng)導(dǎo)游,吉首大學(xué)學(xué)生:她在享受生活

英國74歲奶奶獨自游中國,各地網(wǎng)友接力搶著當(dāng)導(dǎo)游,吉首大學(xué)學(xué)生:她在享受生活

瀟湘晨報
2026-04-08 18:04:41
NBA調(diào)查!國王回應(yīng)故意犯規(guī)罰球高手小庫里:戰(zhàn)術(shù)失誤而非擺爛

NBA調(diào)查!國王回應(yīng)故意犯規(guī)罰球高手小庫里:戰(zhàn)術(shù)失誤而非擺爛

羅說NBA
2026-04-09 06:14:42
中國石化:公司原油探明儲量2074百萬桶,天然氣探明儲量10029十億立方英尺

中國石化:公司原油探明儲量2074百萬桶,天然氣探明儲量10029十億立方英尺

每日經(jīng)濟新聞
2026-04-08 18:14:24
伺候36年,陳麗華470億遺產(chǎn)全歸子女,“唐僧”遲重瑞白忙一場?

伺候36年,陳麗華470億遺產(chǎn)全歸子女,“唐僧”遲重瑞白忙一場?

混沌錄
2026-04-08 18:38:14
窮可以卑微到什么地步?網(wǎng)友:換我早身心崩潰了

窮可以卑微到什么地步?網(wǎng)友:換我早身心崩潰了

夜深愛雜談
2026-03-12 21:00:23
2-0!亞馬爾被凍結(jié),小蜘蛛世界波,馬競終結(jié)魔咒,巴薩命懸一線

2-0!亞馬爾被凍結(jié),小蜘蛛世界波,馬競終結(jié)魔咒,巴薩命懸一線

我的護球最獨特
2026-04-09 05:01:50
網(wǎng)友好奇:網(wǎng)暴全紅嬋的群主是誰?群內(nèi)真有現(xiàn)役運動員嗎?

網(wǎng)友好奇:網(wǎng)暴全紅嬋的群主是誰?群內(nèi)真有現(xiàn)役運動員嗎?

羅納爾說個球
2026-04-08 23:08:09
賈國龍59元燜面實測后,網(wǎng)友喊話羅永浩:當(dāng)初罵西貝算是白罵了

賈國龍59元燜面實測后,網(wǎng)友喊話羅永浩:當(dāng)初罵西貝算是白罵了

房產(chǎn)衫哥
2026-04-09 05:09:46
全紅嬋被集體霸凌,隊友潛伏攻擊全紅嬋內(nèi)部群,聊天記錄被曝光!

全紅嬋被集體霸凌,隊友潛伏攻擊全紅嬋內(nèi)部群,聊天記錄被曝光!

眼光很亮
2026-04-08 12:10:03
鄭麗文受邀訪問大陸,祖國統(tǒng)一已經(jīng)進入倒計時

鄭麗文受邀訪問大陸,祖國統(tǒng)一已經(jīng)進入倒計時

楓冷慕詩
2026-04-08 11:57:00
燃氣公司上門安檢,根本不是查漏氣!真正目的其實是這3個

燃氣公司上門安檢,根本不是查漏氣!真正目的其實是這3個

阿芒娛樂說
2026-04-08 05:22:19
害女童兇手被揭底!常年分居,村民曝駭人細節(jié),坐牢算輕的

害女童兇手被揭底!常年分居,村民曝駭人細節(jié),坐牢算輕的

哄動一時啊
2026-04-08 20:05:21
1938年老蔣制造黃河決堤,日軍淹死數(shù)量驚人,真實情況你可能不信

1938年老蔣制造黃河決堤,日軍淹死數(shù)量驚人,真實情況你可能不信

浩舞默畫
2026-04-06 09:22:04
2026-04-09 11:20:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12713文章數(shù) 142619關(guān)注度
往期回顧 全部

科技要聞

Meta凌晨首發(fā)閉源大模型 扎克伯格又行了?

頭條要聞

福建45歲女子駕車墜河5人遇難有3名兒童 家屬最新發(fā)聲

頭條要聞

福建45歲女子駕車墜河5人遇難有3名兒童 家屬最新發(fā)聲

體育要聞

40歲,但實力倒退12年

娛樂要聞

具俊曄最新露面,又黑又瘦情緒低迷

財經(jīng)要聞

談判基礎(chǔ)已被破壞!霍爾木茲海峽關(guān)閉

汽車要聞

8155芯片+L2智駕 瑞虎5運動版上市 置換補貼價6.79萬元起

態(tài)度原創(chuàng)

游戲
親子
旅游
本地
藝術(shù)

IGN5分銳評《七大罪:起源》:單調(diào)乏味 平庸之作!

親子要聞

如何判斷孩子肚子里有沒有蛔蟲?兒科醫(yī)生來教你

旅游要聞

文旅新探|當(dāng)海棠花遇見小洋樓,天津最美的春天藏在這里

本地新聞

跟著歌聲游安徽,聽古村回響

藝術(shù)要聞

龐茂琨 2026油畫寫生新作

無障礙瀏覽 進入關(guān)懷版