国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

復旦Game-RL用游戲數(shù)據(jù)解鎖增強VLM通用推理新路徑

0
分享至


始智AI wisemodel.cn社區(qū)是源自中國的中立開放的AI開源社區(qū)。正在,歡迎加入共同成長。

現(xiàn)有工作利用RL提升了視覺語言模型(VLM)的推理能力,但其任務場景往往是幾何或者圖表推理。這種領域上的局限,制約了VLM的探索和學習。如何拓展VLM的RL訓練領域呢?

電子游戲視覺元素豐富,且規(guī)則明確而可驗證,因而是理想的多模態(tài)推理數(shù)據(jù)源。由此,復旦大學NLP實驗室的研究團隊提出了Game-RL——構(gòu)造多模態(tài)可驗證的游戲任務來強化訓練VLM。為獲得訓練數(shù)據(jù)(如圖1的示例),研究人員還提出了新穎的Code2Logic方法,通過游戲代碼系統(tǒng)化合成數(shù)據(jù)。


圖1:GameQA數(shù)據(jù)集中各游戲類別的代表性游戲:3D重建、七巧板(變體)、數(shù)獨和推箱子。各游戲展示兩個視覺問答示例,包含當前游戲狀態(tài)圖片,相應的問題,以及逐步推理過程和答案。

Code2Logic方法創(chuàng)新性地基于游戲代碼合成多模態(tài)可驗證游戲任務數(shù)據(jù)。如圖2,利用強LLM生成游戲代碼、設計任務及其模板、構(gòu)建數(shù)據(jù)引擎代碼,最后只要執(zhí)行代碼便能自動生成數(shù)據(jù)。


圖2:Code2Logic方法,借助LLM通過三個核心步驟將游戲代碼轉(zhuǎn)換為推理數(shù)據(jù)。第一步:游戲代碼構(gòu)建;第二步:游戲任務及其QA模板設計;第三步:數(shù)據(jù)引擎構(gòu)建,基于前兩步構(gòu)建自動化程序,然后只要執(zhí)行代碼就能自動批量生成數(shù)據(jù)。

目前研究成果均已上線始智AI-wisemodel開源社區(qū),歡迎體驗。


模型和數(shù)據(jù)集地址

https://www.wisemodel.cn/organization/Code2Logic

01.

GameQA豐富的游戲任務數(shù)據(jù)集

利用Code2Logic方法構(gòu)建了GameQA數(shù)據(jù)集,這些多模態(tài)可驗證游戲數(shù)據(jù)可以用于VLM推理能力的訓練和評測。

GameQA有:4大認知能力類別、30個游戲(如圖3)、158個推理任務、14萬個問答對。

難度分級:任務按難度分三級;樣本按視覺輸入復雜度分三級。


圖3:GameQA的30個游戲,分為4個認知能力類別,涵蓋3D空間推理、模式識別與匹配、多步推理、策略規(guī)劃。20個域內(nèi)游戲用于訓練和測試,而10個域外游戲不參與訓練,用于測試模型在未見游戲場景下的泛化能力。

02.

Game-RL可提升VLM的通用推理

在GameQA上使用GRPO訓練,4個開源VLM在7個完全域外的通用視覺語言推理基準上均取得提升(Qwen2.5-VL-7B平均提升2.33%),展現(xiàn)出跨領域泛化,如表1。


表1:通用視覺語言推理基準上的評測結(jié)果

03.

GameQA匹敵幾何數(shù)據(jù)集

研究團隊用GameQA和幾何與圖表推理數(shù)據(jù)集進行對比訓練,發(fā)現(xiàn)GameQA可與之匹敵

如表2,盡管訓練數(shù)據(jù)量更少且領域不匹配,但GameQA訓的模型在通用基準上總體表現(xiàn)很有競爭力。而且在MathVista與MathVerse這兩個和幾何與函數(shù)推理有關的基準上,Game竟能匹敵更「對口」的幾何推理數(shù)據(jù)訓練。

這表明游戲中的認知多樣性和推理復雜性,具有通用性和遷移能力。


表2:對比訓練,5K GameQA樣本 vs. 8K MAVIS(幾何與函數(shù)視覺推理)vs. 8K Multimodal-Open-R1(以幾何推理為主)vs. 8K MultiMath(綜合的數(shù)學領域多模態(tài)推理),GameQA訓練的模型總體很有競爭力,實驗也顯示混合訓練(MultiMath中加入GameQA數(shù)據(jù))能助力模型提得更多。

04.

訓練數(shù)據(jù)量和游戲個數(shù)的影響

數(shù)據(jù)量的Scaling Effect:加大訓練的GameQA數(shù)據(jù)量至20K,實驗顯示,模型在通用推理基準上的表現(xiàn)總體呈持續(xù)提升,如圖4。


圖4:訓練數(shù)據(jù)量的Scaling Effect

游戲個數(shù)的Scaling Effect:隨著訓練的游戲種類變多,域外泛化效果增強,如圖5。


圖5:使用20種游戲的任務訓練,模型在域外通用基準上的提升優(yōu)于使用4種或10種游戲的配置。

05.

Game-RL后模型能力提升在哪?

為更好理解Game-RL對VLM推理能力的提升,研究團隊隨機采樣了案例進行了細致的人工分析。結(jié)果顯示,Game-RL后,模型在視覺感知和文本推理兩個方面都有提升,如圖6。


圖6:人工定性分析得知模型的視覺感知和文本推理能力均有提升。上方的兩個餅圖分別是域外通用基準上,視覺感知和文本推理能力的變化情況,下方是視覺感知能力提升的一個案例。

研究提出了Game-RL以及游戲數(shù)據(jù)合成方法Code2Logic,構(gòu)建了GameQA數(shù)據(jù)集,將VLM強化訓練領域拓展到游戲場景。通過實驗,研究團隊驗證了Game-RL能提升VLM的通用推理。進一步而言,也揭示了游戲場景可以提供多模態(tài)、可控、可驗證數(shù)據(jù),具有重要價值。

----- END -----


wisemodel相關:

系列模型:

關于wisemodel更多

1

歡迎持續(xù)關注和支持

開源社區(qū)建設需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區(qū)的志愿者計劃和開源共創(chuàng)計劃。期待更多開發(fā)者將開源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續(xù)關注wisemodel.cn開源社區(qū)動態(tài)。

2

歡迎加盟wisemodel開源社區(qū)

始智AI wisemodel社區(qū)自2023年9月上線以來,逐漸成為影響力日益擴大的中立開放的AI開源社區(qū),為了加快公司發(fā)展,我們長期需要技術(shù)、運營等人才加盟,技術(shù)側(cè)重在AI infra、后端開發(fā),熟悉K8S、模型訓練和推理等技術(shù), 以及熟悉開發(fā)者生態(tài)運營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn

3

歡迎投稿優(yōu)質(zhì)內(nèi)容

歡迎投稿分享人工智能領域相關的優(yōu)秀研究成果,鼓勵高校實驗室、大企業(yè)研究團隊、個人等,在wisemodel平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是AI領域最新論文解讀、最新開源成果介紹,也可以是關于AI技術(shù)實踐、應用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關于wisemodel開源社區(qū)

始智AI wisemodel.cn開源社區(qū)由清華校友總會AI大數(shù)據(jù)專委會副秘書長劉道全創(chuàng)立,旨在打造和建設中立開放的AI開源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開源社區(qū),匯聚主要AI開源模型、數(shù)據(jù)集和代碼等,歡迎高??蒲性核⒋笮突ヂ?lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個人開發(fā)者,以及政府部門、學會協(xié)會、聯(lián)盟、基金會等,還有投資機構(gòu)、科技媒體等,共同參與建設AI開源創(chuàng)新生態(tài)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
奴顏媚骨具象化,高市早苗三十年前照片被扒出,原來她從未變過!

奴顏媚骨具象化,高市早苗三十年前照片被扒出,原來她從未變過!

社會醬
2026-03-23 17:34:19
看了“秦嵐”的穿搭,我悟了:灰色不配亮色、白色,才更時髦減齡

看了“秦嵐”的穿搭,我悟了:灰色不配亮色、白色,才更時髦減齡

蓓小西
2026-03-23 08:31:26
伊朗終于開竅,目標對準海水淡化廠,以色列抵擋不住,百余人傷亡

伊朗終于開竅,目標對準海水淡化廠,以色列抵擋不住,百余人傷亡

你得漂亮
2026-03-24 22:59:34
出大事了,特朗普通報全球,美頭號敵人已亮相,擔心的事即將發(fā)生

出大事了,特朗普通報全球,美頭號敵人已亮相,擔心的事即將發(fā)生

策略述
2026-03-26 13:45:17
國產(chǎn)筆記本CPU偷梁換柱翻車!官方終于回應:生產(chǎn)失誤、全額退款

國產(chǎn)筆記本CPU偷梁換柱翻車!官方終于回應:生產(chǎn)失誤、全額退款

快科技
2026-03-25 10:14:04
法國女生來中國旅游后,回國向親人訴說:別信中國人說的喝兩杯

法國女生來中國旅游后,回國向親人訴說:別信中國人說的喝兩杯

千秋文化
2026-03-26 21:26:05
跑步到底健康嗎?

跑步到底健康嗎?

張佳瑋寫字的地方
2026-03-26 17:04:54
悲催!怎么會這么巧?張雪峰和曝光眼鏡暴利的記者,都是心臟驟停

悲催!怎么會這么巧?張雪峰和曝光眼鏡暴利的記者,都是心臟驟停

火山詩話
2026-03-24 18:23:32
廣州突圍,書記市長的“一線沖刺”!

廣州突圍,書記市長的“一線沖刺”!

廣州地產(chǎn)派
2026-03-26 18:45:04
廣東宏遠今日早報!杜鋒深夜發(fā)聲,陳家政效仿徐昕,徐杰狀態(tài)回升

廣東宏遠今日早報!杜鋒深夜發(fā)聲,陳家政效仿徐昕,徐杰狀態(tài)回升

多特體育說
2026-03-26 10:17:08
家長注意了!這些全是“假牛奶”!別再整箱往家搬了!花錢還坑娃

家長注意了!這些全是“假牛奶”!別再整箱往家搬了!花錢還坑娃

觀察鑒娛
2026-03-21 12:39:12
闞清子產(chǎn)后現(xiàn)身機場!手上鴿子蛋大鉆戒搶鏡,富豪老公拎包似保姆

闞清子產(chǎn)后現(xiàn)身機場!手上鴿子蛋大鉆戒搶鏡,富豪老公拎包似保姆

老好人的憤怒
2026-03-26 18:02:04
美伊談崩內(nèi)幕:伊萬卡是“肉票”,特朗普女婿是“以色列內(nèi)線”?

美伊談崩內(nèi)幕:伊萬卡是“肉票”,特朗普女婿是“以色列內(nèi)線”?

矚望云霄
2026-03-25 18:20:59
湖北省襄陽市生態(tài)環(huán)境局黨組成員、副局長王祖慶被查

湖北省襄陽市生態(tài)環(huán)境局黨組成員、副局長王祖慶被查

瀟湘晨報
2026-03-26 21:00:11
曼城115項指控迎大結(jié)局?專家預測扣分在40到60分之間

曼城115項指控迎大結(jié)局?專家預測扣分在40到60分之間

樂道足球
2026-03-26 19:55:49
原本10元的被500回收,20個報廢機換iPhone!二手手機價格漲瘋了

原本10元的被500回收,20個報廢機換iPhone!二手手機價格漲瘋了

柴狗夫斯基
2026-03-25 20:55:45
俄媒:海灣國家美國夢的終結(jié)

俄媒:海灣國家美國夢的終結(jié)

參考消息
2026-03-25 22:05:04
單義任山東省委秘書長

單義任山東省委秘書長

極目新聞
2026-03-26 20:46:17
體長超2米、重達40多斤!廣東一大蟒蛇河邊曬太陽被捕,將擇機放生

體長超2米、重達40多斤!廣東一大蟒蛇河邊曬太陽被捕,將擇機放生

環(huán)球網(wǎng)資訊
2026-03-26 19:40:47
上海一女子“閃婚”拿到價值近千萬房產(chǎn)99%份額,“閃離”后起訴分割房產(chǎn),法院判了!

上海一女子“閃婚”拿到價值近千萬房產(chǎn)99%份額,“閃離”后起訴分割房產(chǎn),法院判了!

環(huán)球網(wǎng)資訊
2026-03-26 08:13:14
2026-03-26 22:43:00
wisemodel開源社區(qū) incentive-icons
wisemodel開源社區(qū)
始智AI wisemodel.cn開源社區(qū),打造中國版“huggingface”
466文章數(shù) 14關注度
往期回顧 全部

科技要聞

美團發(fā)布外賣大戰(zhàn)后成績單:虧損超200億

頭條要聞

張雪峰留巨額遺產(chǎn):二婚妻子或拿50% 剩下的女兒占1/3

頭條要聞

張雪峰留巨額遺產(chǎn):二婚妻子或拿50% 剩下的女兒占1/3

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財經(jīng)要聞

油價"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

親子
時尚
房產(chǎn)
游戲
數(shù)碼

親子要聞

你好,我是饅頭,快開門!

這些才是適合春季的穿搭!不沉悶、不單調(diào),大方靚麗又減齡

房產(chǎn)要聞

突發(fā),三亞又有大批征遷補償方案出爐!

50萬銷量達成!這款IGN 9分獨游走紅 官方發(fā)推慶賀

數(shù)碼要聞

Intel IBOT加速技術(shù)揭秘!硬件不變 白嫖22%游戲性能

無障礙瀏覽 進入關懷版