国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

全模態(tài)AI陷評(píng)測(cè)困局,F(xiàn)ysicsWorld破局

0
分享至



但模型能力一直在突破,配套的評(píng)測(cè)體系卻沒跟上。

這就導(dǎo)致很多模型看著厲害,一到真實(shí)物理場(chǎng)景里就掉鏈子。

今天要講的,就是能破解這個(gè)癥結(jié)的全球首個(gè)面向真實(shí)物理世界的統(tǒng)一全模態(tài)評(píng)測(cè)基準(zhǔn),F(xiàn)ysicsWorld。



本來想聚焦看全模態(tài)AI的應(yīng)用突破,但后來發(fā)現(xiàn),評(píng)測(cè)體系的滯后才是制約它落地的關(guān)鍵。

現(xiàn)在行業(yè)里的主流模型有三十多個(gè),像GPT-5、Gemini-2.5-Pro這些閉源模型,在基礎(chǔ)模態(tài)處理上確實(shí)能打。

可一到真實(shí)物理場(chǎng)景,比如讓機(jī)器人根據(jù)語音指令處理復(fù)雜環(huán)境的任務(wù),就容易出問題。

為啥會(huì)這樣?核心還是現(xiàn)有評(píng)測(cè)體系有硬傷。



其次是缺乏物理關(guān)聯(lián),模態(tài)之間的交互沒有真實(shí)世界的邏輯,根本檢驗(yàn)不出AI對(duì)物理規(guī)律的理解。

更麻煩的是存在“單模態(tài)捷徑”隱患,有些評(píng)測(cè)樣本信息冗余,模型不用融合多模態(tài)信息,靠單一模態(tài)就能答題。

這種滯后對(duì)行業(yè)影響不小。



研究者搞不清模型的真實(shí)短板,開源模型在長視頻理解、復(fù)雜推理這些領(lǐng)域的進(jìn)展就很慢。

而對(duì)于想落地的企業(yè)來說,沒有統(tǒng)一的評(píng)測(cè)標(biāo)準(zhǔn),產(chǎn)品在跨場(chǎng)景適配時(shí)頻繁失靈,規(guī)?;l(fā)展根本無從談起。

具身智能現(xiàn)在這么受重視,可沒有靠譜的評(píng)測(cè)工具,落地風(fēng)險(xiǎn)直接翻倍。

為了解決這個(gè)問題,飛捷科思和復(fù)旦大學(xué)的研究團(tuán)隊(duì)聯(lián)手推出了FysicsWorld。



這個(gè)基準(zhǔn)最核心的思路,就是把評(píng)測(cè)場(chǎng)景拉回真實(shí)物理世界。

它設(shè)計(jì)了16大任務(wù),覆蓋上百類真實(shí)開放域場(chǎng)景,構(gòu)建了一條從基礎(chǔ)感知到高階交互的能力曲線。

在數(shù)據(jù)構(gòu)建上,F(xiàn)ysicsWorld做得很嚴(yán)謹(jǐn)。

研究團(tuán)隊(duì)先從異構(gòu)數(shù)據(jù)集中篩選樣本,再通過人工審校和半自動(dòng)化校對(duì)雙重把關(guān),確保語義一致、場(chǎng)景匹配。



這樣一來,數(shù)據(jù)的真實(shí)性和可靠性就有了保障。

最讓人眼前一亮的是它的跨模態(tài)互補(bǔ)性篩選策略,也就是CMCS。

這個(gè)策略的邏輯很簡單,就是隨機(jī)移除一個(gè)或多個(gè)模態(tài),看模型性能會(huì)不會(huì)下降。



如果移除后模型還能做好任務(wù),這個(gè)樣本就會(huì)被剔除。

只有那些必須融合多模態(tài)信息才能解決的樣本,才會(huì)被保留。

如此看來,這種方式從根源上杜絕了“單模態(tài)捷徑”,評(píng)測(cè)結(jié)果自然更靠譜。



基于FysicsWorld,研究團(tuán)隊(duì)對(duì)三十多個(gè)主流AI模型做了系統(tǒng)性評(píng)測(cè)。

結(jié)果很有意思,在基礎(chǔ)模態(tài)任務(wù)里,閉源模型整體領(lǐng)先,表現(xiàn)穩(wěn)定。

但開源模型在長視頻語義理解、復(fù)雜聽覺推理這些環(huán)節(jié),差距還是很明顯。

更關(guān)鍵的是,一旦切換到真實(shí)物理場(chǎng)景的多模態(tài)協(xié)作任務(wù),所有模型的性能都出現(xiàn)了明顯下滑。



像語音驅(qū)動(dòng)的視覺理解、基于視覺的音頻合成這些任務(wù),都需要AI具備深層次的跨模態(tài)交互和物理常識(shí)推理能力。

很顯然,當(dāng)前主流模型在這些關(guān)鍵環(huán)節(jié),還有不少短板。

這些實(shí)測(cè)結(jié)果也給行業(yè)指了方向。

下一代全模態(tài)AI,不僅要鞏固單模態(tài)能力的根基,更要優(yōu)化模態(tài)融合策略。



跨模態(tài)動(dòng)態(tài)推理、場(chǎng)景化理解與生成能力,會(huì)成為衡量模型核心競(jìng)爭(zhēng)力的關(guān)鍵指標(biāo)。

毫無疑問,F(xiàn)ysicsWorld的出現(xiàn),給研究者提供了一個(gè)清晰的“診斷工具”,能幫他們精準(zhǔn)找到模型的問題所在。

總的來說,F(xiàn)ysicsWorld的推出填補(bǔ)了物理世界全模態(tài)評(píng)測(cè)的空白。



它不只是一個(gè)評(píng)測(cè)基準(zhǔn),更像是全模態(tài)智能發(fā)展的“指南針”。

隨著它的推廣應(yīng)用,下一代AI在真實(shí)物理世界的理解和交互能力會(huì)不斷提升,具身智能的規(guī)?;涞匾矔?huì)更有底氣。

本來以為全模態(tài)AI的瓶頸在模型架構(gòu),現(xiàn)在看來,一套科學(xué)的評(píng)測(cè)體系,同樣是推動(dòng)行業(yè)進(jìn)步的關(guān)鍵力量。



聲明:個(gè)人原創(chuàng),僅供參考

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
美國海岸警衛(wèi)隊(duì)登上“奧利娜”油輪

美國海岸警衛(wèi)隊(duì)登上“奧利娜”油輪

界面新聞
2026-01-09 21:42:11
WTT多哈冠軍賽1月10日賽程:國乒對(duì)決張本美和!兩大主力內(nèi)戰(zhàn)

WTT多哈冠軍賽1月10日賽程:國乒對(duì)決張本美和!兩大主力內(nèi)戰(zhàn)

全言作品
2026-01-10 04:13:00
網(wǎng)友建議地鐵增設(shè)月票,深圳市發(fā)改委回應(yīng)

網(wǎng)友建議地鐵增設(shè)月票,深圳市發(fā)改委回應(yīng)

澎湃新聞
2026-01-10 07:44:28
都不賣了!鵜鶘已向其他球隊(duì)明確表態(tài):無意交易錫安墨菲等五人

都不賣了!鵜鶘已向其他球隊(duì)明確表態(tài):無意交易錫安墨菲等五人

羅說NBA
2026-01-10 04:50:15
一名女性遭遇已婚985高校博士后“戀愛騙局”后:舉報(bào)、起訴、制作PDF……

一名女性遭遇已婚985高校博士后“戀愛騙局”后:舉報(bào)、起訴、制作PDF……

極目新聞
2026-01-09 19:14:25
中國最狠禁令砸向日本!這次結(jié)局,一定比廣場(chǎng)協(xié)議還慘

中國最狠禁令砸向日本!這次結(jié)局,一定比廣場(chǎng)協(xié)議還慘

一個(gè)壞土豆
2026-01-08 20:50:28
讓白宮心驚肉跳!中方推出星鏈終端干擾設(shè)備,而且大大方方展出!

讓白宮心驚肉跳!中方推出星鏈終端干擾設(shè)備,而且大大方方展出!

我心縱橫天地間
2026-01-08 22:42:39
廣湛高鐵工地工人從橋面扔鐵模板砸中一放牛老人致死,事故調(diào)查報(bào)告公布

廣湛高鐵工地工人從橋面扔鐵模板砸中一放牛老人致死,事故調(diào)查報(bào)告公布

澎湃新聞
2026-01-09 18:42:27
胖東來一員工毫無防備下遭顧客2次掌摑,胖東來:補(bǔ)償該員工3萬元!

胖東來一員工毫無防備下遭顧客2次掌摑,胖東來:補(bǔ)償該員工3萬元!

深圳晚報(bào)
2026-01-09 23:52:14
為什么全網(wǎng)都在“針對(duì)”小米雷軍?

為什么全網(wǎng)都在“針對(duì)”小米雷軍?

首席商業(yè)評(píng)論
2026-01-09 13:23:54
李在明訪華剛回國,就通告全球,與高市共進(jìn)晚餐,3億大單白簽?

李在明訪華剛回國,就通告全球,與高市共進(jìn)晚餐,3億大單白簽?

南宮一二
2026-01-09 17:57:40
不到24小時(shí),盟友反目成仇,歐洲選邊站,丹麥攤牌:敢來就打

不到24小時(shí),盟友反目成仇,歐洲選邊站,丹麥攤牌:敢來就打

書紀(jì)文譚
2026-01-09 16:27:29
真沒想到!風(fēng)電龍頭竟然承包了半壁航天供應(yīng)鏈

真沒想到!風(fēng)電龍頭竟然承包了半壁航天供應(yīng)鏈

君臨財(cái)富
2026-01-09 18:44:16
成都飛廣州機(jī)票80元?海航回應(yīng):系統(tǒng)故障,售出機(jī)票全部有效

成都飛廣州機(jī)票80元?海航回應(yīng):系統(tǒng)故障,售出機(jī)票全部有效

封面新聞
2026-01-09 16:01:03
鬧大了!閆學(xué)晶兒子是中戲新疆班,網(wǎng)友呼吁嚴(yán)查,這下她真要哭了

鬧大了!閆學(xué)晶兒子是中戲新疆班,網(wǎng)友呼吁嚴(yán)查,這下她真要哭了

非常先生看娛樂
2026-01-09 17:10:34
“老了怎么辦?”這款A(yù)pp下載量突然暴增,年輕人瘋狂安利

“老了怎么辦?”這款A(yù)pp下載量突然暴增,年輕人瘋狂安利

城事特搜
2026-01-09 20:46:50
67歲千萬富翁李幼斌:錢再多有何用?中老年人當(dāng)醒悟

67歲千萬富翁李幼斌:錢再多有何用?中老年人當(dāng)醒悟

半身Naked
2026-01-09 23:07:33
三名“淘金客”殞命雪峰山后續(xù):3名盜采者判刑,14名公職人員被問責(zé)

三名“淘金客”殞命雪峰山后續(xù):3名盜采者判刑,14名公職人員被問責(zé)

澎湃新聞
2026-01-10 07:58:28
別想歪,廢止《關(guān)于嚴(yán)禁賣淫嫖娼的決定》≠賣淫嫖娼合法化了

別想歪,廢止《關(guān)于嚴(yán)禁賣淫嫖娼的決定》≠賣淫嫖娼合法化了

知識(shí)圈
2026-01-09 20:01:22
領(lǐng)導(dǎo)30萬員工1萬,申萬期貨員工質(zhì)疑年終獎(jiǎng)分配遭停職,和總經(jīng)理起沖突,雙方已報(bào)警

領(lǐng)導(dǎo)30萬員工1萬,申萬期貨員工質(zhì)疑年終獎(jiǎng)分配遭停職,和總經(jīng)理起沖突,雙方已報(bào)警

紅星新聞
2026-01-09 19:12:18
2026-01-10 09:00:49
青田花姑娘
青田花姑娘
青田花姑娘
157文章數(shù) 96關(guān)注度
往期回顧 全部

科技要聞

市場(chǎng)偏愛MiniMax:開盤漲42%,市值超700億

頭條要聞

1年奪8冠的30歲健美冠軍猝死 其師父去年死于心臟驟停

頭條要聞

1年奪8冠的30歲健美冠軍猝死 其師父去年死于心臟驟停

體育要聞

金元時(shí)代最后的外援,來中國8年了

娛樂要聞

關(guān)曉彤鹿晗風(fēng)波后露面 不受影響狀態(tài)佳

財(cái)經(jīng)要聞

投資必看!瑞銀李萌給出3大核心配置建議

汽車要聞

助跑三年的奇瑞 接下來是加速還是起跳?

態(tài)度原創(chuàng)

本地
房產(chǎn)
旅游
手機(jī)
數(shù)碼

本地新聞

云游內(nèi)蒙|“包”你再來?一座在硬核里釀出詩意的城

房產(chǎn)要聞

66萬方!4755套!三亞巨量房源正瘋狂砸出!

旅游要聞

鄭州人周末出游推薦!這些城市公園不可錯(cuò)過(公交直達(dá))→

手機(jī)要聞

網(wǎng)易數(shù)碼2025年度好物揭曉:30款精選產(chǎn)品上榜,你用過哪些?

數(shù)碼要聞

銘凡CES 2026新聞稿提及英特爾酷睿Ultra 9 290HX Plus處理器

無障礙瀏覽 進(jìn)入關(guān)懷版