国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

卡內(nèi)基梅隆大學(xué):物理模擬器訓(xùn)練實(shí)現(xiàn)大模型國際物理奧賽成績刷新

0
分享至


這項(xiàng)由卡內(nèi)基梅隆大學(xué)與Lambda公司聯(lián)合完成的研究,以預(yù)印本形式發(fā)布于2026年4月,論文編號(hào)為arXiv:2604.11805,有興趣深入了解的讀者可以通過這個(gè)編號(hào)查詢完整論文。

**研究概要**

物理題一直是讓大多數(shù)人頭疼的"攔路虎"。當(dāng)我們還在為高考物理苦苦掙扎時(shí),國際物理奧林匹克競(jìng)賽(IPhO)的題目已經(jīng)難到了連許多大學(xué)教授都要認(rèn)真思考的程度。那么,如果讓一臺(tái)AI去做這些題,結(jié)果會(huì)怎樣?

更有意思的問題在于:這臺(tái)AI是怎么"學(xué)會(huì)"解物理題的?靠課本?靠題庫?不——這支來自卡內(nèi)基梅隆大學(xué)的團(tuán)隊(duì)選擇了一條完全不同的路:讓AI在一個(gè)虛擬的物理世界里反復(fù)"玩耍",通過觀察物體怎么運(yùn)動(dòng)、怎么碰撞、怎么擺動(dòng),自己悟出物理規(guī)律。

這個(gè)方法有個(gè)正式的名字,叫做Sim2Reason(從模擬到推理)。它的核心思路是:先用電腦程序搭建各種物理場(chǎng)景,比如滑輪系統(tǒng)、彈簧碰撞、行星軌道等,讓這些虛擬場(chǎng)景自動(dòng)"運(yùn)轉(zhuǎn)"并記錄數(shù)據(jù),然后從這些數(shù)據(jù)中提煉出大量物理問答題,最后用這些題來強(qiáng)化訓(xùn)練AI。

結(jié)果令人意外。訓(xùn)練之后,AI在國際物理奧林匹克競(jìng)賽的力學(xué)題目上,成績提升了5到10個(gè)百分點(diǎn),而且完全沒有看過任何真實(shí)的物理競(jìng)賽題目。這項(xiàng)研究的意義遠(yuǎn)不止于讓AI多做對(duì)幾道題——它證明了一件事:虛擬世界可以是現(xiàn)實(shí)世界最好的老師。

**一、數(shù)據(jù)的饑荒:為什么AI學(xué)物理這么難**

回到2016年前后,AlphaGo橫空出世,擊敗圍棋世界冠軍的消息震驚了全球。那時(shí)候,人們開始相信AI能學(xué)會(huì)一切。然而,圍棋有一個(gè)特別之處:它的棋譜數(shù)量是天文數(shù)字,而且每一步棋的勝負(fù)可以被精確驗(yàn)證。

大型語言模型的崛起,遵循了類似的邏輯。DeepSeek、GPT等模型之所以能在數(shù)學(xué)推理上表現(xiàn)出色,是因?yàn)榛ヂ?lián)網(wǎng)上堆積著海量的數(shù)學(xué)題目和解題過程——從小學(xué)算術(shù)到競(jìng)賽數(shù)學(xué),各種難度的題目應(yīng)有盡有,而且每道題都有明確的對(duì)錯(cuò)之分,可以自動(dòng)檢驗(yàn)。

物理學(xué)就沒有這么幸運(yùn)了。互聯(lián)網(wǎng)上確實(shí)有物理題,但數(shù)量遠(yuǎn)遠(yuǎn)比不上數(shù)學(xué)題。更要命的是,物理題往往需要結(jié)合圖表、實(shí)驗(yàn)裝置,很難直接用純文字來描述和驗(yàn)證。研究團(tuán)隊(duì)發(fā)現(xiàn),DeepSeek-R1訓(xùn)練用的80萬道題目里,涉及理工科(STEM)內(nèi)容的比例連1%都不到。這就像一個(gè)想成為廚師的人,卻幾乎只讀了菜譜評(píng)論,從沒有真正下過廚房。

物理學(xué)家們知道,真正理解物理不只是背公式,而是要"感受"力學(xué)系統(tǒng)的運(yùn)動(dòng)規(guī)律。當(dāng)你反復(fù)觀察一個(gè)彈簧-質(zhì)量系統(tǒng)的振動(dòng),你會(huì)在腦子里形成一種直覺:彈簧越硬,振動(dòng)越快;質(zhì)量越大,振動(dòng)越慢。這種直覺很難從文字描述中獲得,但在反復(fù)觀察真實(shí)(或虛擬)的物理場(chǎng)景之后,自然而然就會(huì)建立起來。

正是這種洞察,促使研究團(tuán)隊(duì)轉(zhuǎn)向了物理模擬器。

**二、物理引擎:那個(gè)忠實(shí)執(zhí)行牛頓定律的虛擬世界**

物理引擎是一種能在電腦里忠實(shí)模擬物理規(guī)律的程序。游戲玩家對(duì)它并不陌生——你在游戲里扔出一顆手雷,它會(huì)按照拋物線飛行;汽車碰撞時(shí),車身會(huì)依照力學(xué)原理變形。背后驅(qū)動(dòng)這些效果的,就是物理引擎。

研究團(tuán)隊(duì)選用的是MuJoCo,這是一個(gè)在機(jī)器人研究領(lǐng)域廣泛使用的物理模擬引擎。MuJoCo的強(qiáng)大之處在于,它不只是"看起來像"物理現(xiàn)實(shí),而是通過數(shù)值積分嚴(yán)格求解運(yùn)動(dòng)方程,每一時(shí)刻的速度、加速度、能量、動(dòng)量都可以精確計(jì)算。

然而,直接把物理引擎的輸出結(jié)果喂給AI,并不能讓AI學(xué)會(huì)解物理題。這里有一個(gè)根本矛盾:物理引擎輸出的是連續(xù)的時(shí)間序列數(shù)據(jù)——比如某個(gè)質(zhì)量塊在0.001秒、0.002秒、0.003秒……時(shí)的坐標(biāo)——而解物理題需要的是離散的符號(hào)推理,比如"設(shè)x為初速度,根據(jù)牛頓第二定律,加速度a等于..."。這兩種"語言"之間,存在著一道鴻溝。

更早之前,有研究者嘗試過讓AI直接寫代碼來調(diào)用物理引擎,用模擬結(jié)果來輔助解題。但研究團(tuán)隊(duì)在早期實(shí)驗(yàn)中發(fā)現(xiàn),這條路走不通:AI經(jīng)常寫出無法運(yùn)行的代碼,或者對(duì)物理場(chǎng)景的建模存在根本性錯(cuò)誤。而且,這種方法需要大量人工設(shè)計(jì),很難自動(dòng)擴(kuò)展。

Sim2Reason的思路與此截然不同。它不是讓AI去"使用"物理引擎,而是讓物理引擎充當(dāng)一個(gè)自動(dòng)出題員和批改員,源源不斷地生產(chǎn)有價(jià)值的物理訓(xùn)練題。

**三、自動(dòng)出題機(jī):一套精心設(shè)計(jì)的"問題工廠"**

Sim2Reason的數(shù)據(jù)生產(chǎn)流水線分成四個(gè)環(huán)節(jié),整體上就像一條組裝流水線:先搭場(chǎng)景、再運(yùn)行模擬、然后提煉題目、最后質(zhì)檢篩選。

搭場(chǎng)景這一步,是整個(gè)系統(tǒng)最精妙的設(shè)計(jì)之一。研究團(tuán)隊(duì)發(fā)明了一套專門的"場(chǎng)景描述語言"(Domain-Specific Language,簡稱DSL),有點(diǎn)像樂高積木的說明書。這套語言定義了一系列基本"零件",比如質(zhì)量塊、滑輪、彈簧、斜面、繩子,以及它們之間合法的連接方式。然后,程序隨機(jī)地把這些零件組合成各種各樣的物理系統(tǒng)。

舉個(gè)例子,系統(tǒng)可能會(huì)生成這樣一個(gè)場(chǎng)景:一個(gè)30度斜面上放著一個(gè)2千克的滑塊,通過繩子繞過滑輪,連接著一個(gè)懸掛在空中的1千克重物,重物旁邊還有一根彈簧連著墻壁。這個(gè)場(chǎng)景完全是隨機(jī)拼出來的,但它在物理上是合理的,可以被正確地模擬。

DSL的關(guān)鍵設(shè)計(jì)理念是:只在"物理上有意義"的維度上隨機(jī)化。比如,改變滑塊的質(zhì)量會(huì)顯著影響整個(gè)系統(tǒng)的運(yùn)動(dòng),這是有意義的隨機(jī)化。而改變繩子的顏色或者斜面的紋理,對(duì)物理行為沒有任何影響,因此不在隨機(jī)化范圍之內(nèi)。這樣,每一個(gè)隨機(jī)生成的場(chǎng)景都蘊(yùn)含著真實(shí)的物理內(nèi)容,而不是徒有其表的花樣翻新。

場(chǎng)景搭好之后,MuJoCo引擎接管,運(yùn)行模擬并記錄每一時(shí)刻所有物體的位置、速度、加速度、動(dòng)量、能量、繩子張力等幾十種物理量。接下來,系統(tǒng)從這些數(shù)據(jù)中自動(dòng)生成三種類型的問題。

第一類是"數(shù)值問題":給定場(chǎng)景描述,詢問某個(gè)具體時(shí)刻的某個(gè)物理量,比如"5.44秒后第二個(gè)質(zhì)量塊的速度是多少?"答案直接從模擬數(shù)據(jù)中讀取,百分之百準(zhǔn)確。第二類是"反推問題":把場(chǎng)景中的某個(gè)參數(shù)隱去,根據(jù)已知結(jié)果反推,比如"如果3秒后速度為5米每秒,那么質(zhì)量塊的質(zhì)量是多少?"這類問題考察的是逆向推理能力。第三類是"符號(hào)問題":把所有具體數(shù)字替換成字母,要求給出解析式,比如"質(zhì)量塊A在時(shí)間t后的速度是多少(用m、k、t等字母表示)?"這類問題考察的是符號(hào)代數(shù)推導(dǎo)能力。

場(chǎng)景和問題的自然語言描述,由預(yù)先設(shè)計(jì)好的模板字符串自動(dòng)拼接生成,整個(gè)過程不需要任何人工介入。

**四、質(zhì)檢關(guān)卡:去掉那些"走捷徑"就能解出的題目**

有了大量自動(dòng)生成的題目,還不夠。研究團(tuán)隊(duì)發(fā)現(xiàn),有相當(dāng)一部分題目存在一個(gè)隱患:答題者可以忽略掉場(chǎng)景中的某些部分,把復(fù)雜的多體系統(tǒng)簡化成一個(gè)簡單的單體系統(tǒng),得到的答案卻跟完整分析完全一致。

打個(gè)比方,假設(shè)有一道題描述了一個(gè)由兩個(gè)滑塊和一個(gè)彈簧組成的系統(tǒng),問整個(gè)系統(tǒng)的加速度。如果兩個(gè)滑塊始終以相同加速度運(yùn)動(dòng)(比如它們被剛性連接),那么你可以把它們看成一個(gè)整體,完全忽略彈簧和內(nèi)部結(jié)構(gòu),同樣算出正確答案。這類題目對(duì)于訓(xùn)練AI來說沒什么價(jià)值——AI可能因?yàn)樽吡私輳蕉@得獎(jiǎng)勵(lì),但并沒有真正理解多體相互作用。

為了篩掉這類題目,研究團(tuán)隊(duì)設(shè)計(jì)了一套"消融實(shí)驗(yàn)"。對(duì)于每一道生成的題目,系統(tǒng)會(huì)自動(dòng)構(gòu)造多個(gè)"刪減版"場(chǎng)景:刪掉場(chǎng)景中的某一個(gè)實(shí)體,或者把某個(gè)關(guān)節(jié)替換成剛性連接,重新運(yùn)行模擬。如果刪減版場(chǎng)景得出的答案和原版一模一樣,那這道題就被判定為"走捷徑可解",直接扔掉。

這個(gè)質(zhì)檢環(huán)節(jié)大約淘汰了15%的題目。雖然比例不高,但研究結(jié)果顯示,這個(gè)步驟對(duì)最終訓(xùn)練效果至關(guān)重要——去掉質(zhì)檢的版本,AI在真實(shí)競(jìng)賽題上的提升幅度幾乎只有完整版的一半。

**五、強(qiáng)化學(xué)習(xí):不教答案,只給分?jǐn)?shù),逼AI自己想**

有了經(jīng)過質(zhì)檢的題目庫,接下來是訓(xùn)練AI的環(huán)節(jié)。研究團(tuán)隊(duì)選擇的方法是強(qiáng)化學(xué)習(xí)(Reinforcement Learning),而不是更傳統(tǒng)的監(jiān)督學(xué)習(xí)(給模型看正確的解題過程,讓它模仿)。

這兩種方法的區(qū)別,可以用教孩子走迷宮來類比。監(jiān)督學(xué)習(xí)的方式是:給孩子看一份完整的路線圖,讓他記住并復(fù)現(xiàn)。強(qiáng)化學(xué)習(xí)的方式是:把孩子扔進(jìn)迷宮,每次他走出來就給塊糖,走錯(cuò)了就不給。孩子在反復(fù)嘗試中,自己摸索出了走迷宮的規(guī)律,甚至可能發(fā)現(xiàn)了路線圖上沒有標(biāo)注的捷徑。

在Sim2Reason的訓(xùn)練中,AI每次面對(duì)一道題,會(huì)生成一組候選答案。只有當(dāng)最終數(shù)值答案落在模擬器正確答案的5%誤差范圍之內(nèi),才會(huì)獲得正向獎(jiǎng)勵(lì);否則獎(jiǎng)勵(lì)為零。這個(gè)5%的容差是有意設(shè)計(jì)的,因?yàn)槲锢砟M器本身有數(shù)值近似誤差,嚴(yán)格要求精確匹配會(huì)產(chǎn)生噪音。

研究團(tuán)隊(duì)還采用了一種叫做"動(dòng)態(tài)采樣"的技巧。如果某道題對(duì)AI來說太簡單(每次都答對(duì))或者太難(每次都答錯(cuò)),那它對(duì)訓(xùn)練幾乎沒有幫助——就像讓一個(gè)數(shù)學(xué)博士做一加一,或者讓小學(xué)生做微積分,都是在浪費(fèi)時(shí)間。動(dòng)態(tài)采樣機(jī)制會(huì)自動(dòng)過濾掉這兩類極端情況,只保留AI"有時(shí)能做對(duì)、有時(shí)做錯(cuò)"的題目,把訓(xùn)練資源集中在最有價(jià)值的難度區(qū)間。

研究團(tuán)隊(duì)用這個(gè)方法分別訓(xùn)練了參數(shù)量從30億到320億的多個(gè)Qwen模型(阿里巴巴開發(fā)的開源大語言模型系列)。整個(gè)訓(xùn)練過程只跑了200步,每步處理32道題,總共不到6400道獨(dú)特題目——這個(gè)規(guī)模,比互聯(lián)網(wǎng)上普通的數(shù)學(xué)題庫小了好幾個(gè)數(shù)量級(jí)。

**六、實(shí)驗(yàn)結(jié)果:合成數(shù)據(jù)的訓(xùn)練,真實(shí)競(jìng)賽的提升**

訓(xùn)練完成后,研究團(tuán)隊(duì)用多個(gè)真實(shí)的物理和數(shù)學(xué)考試來檢驗(yàn)?zāi)P汀?/p>

在國際物理奧林匹克競(jìng)賽(IPhO)的力學(xué)題上,不同規(guī)模的模型均取得了實(shí)質(zhì)性提升。其中,30億參數(shù)的Qwen2.5-3B模型提升幅度最為顯眼,從原來的5.68%跳升至13.15%,漲幅超過7個(gè)百分點(diǎn);320億參數(shù)的Qwen2.5-32B從19.8%升至25.2%,提升5.4個(gè)百分點(diǎn);300億參數(shù)的Qwen3-30B從35.6%升至40.0%,提升4.4個(gè)百分點(diǎn)。這些數(shù)字看起來也許不算驚天動(dòng)地,但別忘了,這只是用合成模擬數(shù)據(jù)訓(xùn)練出來的結(jié)果,AI完全沒有見過任何真實(shí)的競(jìng)賽題目。

在另一個(gè)專門考察力學(xué)知識(shí)的JEEBench(印度工程聯(lián)合入學(xué)考試)題目上,32B模型的提升幅度更加驚人:從34.38%飆升至52.28%,凈增17.9個(gè)百分點(diǎn)。這個(gè)成績之所以提升如此之大,是因?yàn)镴EEBench的力學(xué)題目類型與模擬器能生成的場(chǎng)景高度吻合,訓(xùn)練數(shù)據(jù)的"命中率"格外高。

此外,模型在純數(shù)學(xué)基準(zhǔn)測(cè)試上同樣有所提升——AIME 2025(美國數(shù)學(xué)邀請(qǐng)賽)提升1.67個(gè)百分點(diǎn),MATH 500提升4.4個(gè)百分點(diǎn)。這個(gè)發(fā)現(xiàn)頗為有趣:訓(xùn)練物理推理能力,順帶強(qiáng)化了數(shù)學(xué)計(jì)算能力。研究團(tuán)隊(duì)認(rèn)為,這是因?yàn)槲锢硗评肀旧戆罅繑?shù)學(xué)運(yùn)算,物理訓(xùn)練讓模型的多步驟定量推理能力全面提升。

**七、與真實(shí)數(shù)據(jù)的比較:合成數(shù)據(jù)贏了**

一個(gè)自然而然的問題是:這些合成的模擬器數(shù)據(jù),比得上從真實(shí)競(jìng)賽題目或教科書中整理的數(shù)據(jù)嗎?

研究團(tuán)隊(duì)找來了幾個(gè)代表性的對(duì)比基準(zhǔn)。Prime P1是一個(gè)在物理推理上很有競(jìng)爭力的開源模型,它在訓(xùn)練時(shí)使用了超過5000道精心整理的真實(shí)物理競(jìng)賽題目和教科書例題。與此相比,Sim2Reason只用了合成模擬數(shù)據(jù)。結(jié)果,Sim2Reason(基于Qwen3-30B)在IPhO上達(dá)到了40.0%,超過了Prime P1 30B的38.6%。

另一個(gè)對(duì)比是DAPO-17K,這是一個(gè)包含1.7萬道數(shù)學(xué)題的高質(zhì)量強(qiáng)化學(xué)習(xí)訓(xùn)練集,專門為培養(yǎng)數(shù)學(xué)推理能力而設(shè)計(jì)。研究團(tuán)隊(duì)用同樣的3B模型,分別在只用DAPO-17K、只用合成模擬數(shù)據(jù)、以及混合使用兩者三種情況下進(jìn)行訓(xùn)練。結(jié)果顯示,單用合成模擬數(shù)據(jù)(13.15%)顯著優(yōu)于單用DAPO-17K(9.98%),而混合使用的效果(10.35%)介于兩者之間,說明兩類數(shù)據(jù)有一定互補(bǔ)性,但物理專項(xiàng)的模擬數(shù)據(jù)才是提升IPhO成績的主要驅(qū)動(dòng)力。

**八、監(jiān)督學(xué)習(xí) vs 強(qiáng)化學(xué)習(xí):為什么"模仿答案"不如"自己摸索"**

研究團(tuán)隊(duì)還對(duì)比了兩種截然不同的訓(xùn)練策略。

第一種是監(jiān)督學(xué)習(xí)(SFT):用GPT-4、o3、o4-mini等強(qiáng)大的AI生成20萬道題的解題過程,然后讓待訓(xùn)練的模型去模仿這些解題步驟。第二種是強(qiáng)化學(xué)習(xí):只告訴模型最終答案對(duì)不對(duì),讓它自己探索解題策略。

結(jié)果出人意料。監(jiān)督學(xué)習(xí)在訓(xùn)練集上有所提升,但在IPhO等真實(shí)測(cè)試集上卻下降了3.9個(gè)百分點(diǎn)。研究團(tuán)隊(duì)認(rèn)為,這是一種"災(zāi)難性遺忘"現(xiàn)象:模型為了模仿特定的解題風(fēng)格,改變了原有的推理模式,損失了更廣泛的推理能力。強(qiáng)化學(xué)習(xí)則恰恰相反,它讓模型在保持原有能力的基礎(chǔ)上,額外獲得了物理推理技能,在訓(xùn)練集和真實(shí)測(cè)試集上都取得了穩(wěn)定提升。

**九、舉一反三:AI學(xué)到的不只是課本上的題型**

Sim2Reason系統(tǒng)當(dāng)前的模擬器覆蓋了經(jīng)典力學(xué)的大部分內(nèi)容,但顯然無法涵蓋所有物理題類型。一個(gè)關(guān)鍵問題是:AI學(xué)到的究竟是針對(duì)特定模擬場(chǎng)景的"記憶",還是更深層的物理推理能力?

研究團(tuán)隊(duì)用一道真實(shí)的JEE Advanced 2017題目來檢驗(yàn)這一點(diǎn)。這道題涉及一枚火箭在太陽-地球雙引力系統(tǒng)中的逃逸速度,需要同時(shí)處理來自太陽和地球的引力勢(shì)能,并將兩者用"能量疊加"而非"速度疊加"的方式合并。這個(gè)場(chǎng)景在研究團(tuán)隊(duì)的模擬器中并沒有直接對(duì)應(yīng)的實(shí)體。

訓(xùn)練前的基礎(chǔ)模型犯了一個(gè)典型錯(cuò)誤:它試圖把太陽和地球的逃逸速度直接相加,得到一個(gè)錯(cuò)誤答案。訓(xùn)練后的模型則正確地認(rèn)識(shí)到,引力勢(shì)能才是應(yīng)該相加的量,兩個(gè)逃逸速度應(yīng)以"平方和開根"的方式合并,最終得出了正確答案42千米每秒。

研究團(tuán)隊(duì)對(duì)多個(gè)類似案例的分析顯示,訓(xùn)練后的模型在以下幾個(gè)維度均有明顯改善:數(shù)學(xué)計(jì)算的準(zhǔn)確性(比如不再犯數(shù)量級(jí)錯(cuò)誤)、物理概念的正確映射(比如能正確區(qū)分速度的矢量疊加和標(biāo)量疊加)以及解題策略的合理性(比如主動(dòng)進(jìn)行單位轉(zhuǎn)換,用更簡便的方式代入數(shù)值)。這些改善跨越了訓(xùn)練集的具體場(chǎng)景類型,具有一定的通用性。

**十、模擬器作為考場(chǎng):自動(dòng)化的物理能力測(cè)評(píng)**

Sim2Reason的另一個(gè)意外收獲,是它可以充當(dāng)評(píng)估AI物理能力的自動(dòng)化考場(chǎng)。

評(píng)估AI在物理競(jìng)賽題上的表現(xiàn),通常面臨一個(gè)困境:真實(shí)競(jìng)賽題的數(shù)量有限,題目本身還會(huì)隨著時(shí)間積累而被各種模型"記住",導(dǎo)致評(píng)估結(jié)果失真。Sim2Reason可以隨時(shí)生成全新的、從未出現(xiàn)過的物理題,天然避免了這個(gè)問題。

更重要的是,研究團(tuán)隊(duì)發(fā)現(xiàn),模型在合成模擬題上的得分,與它在真實(shí)IPhO競(jìng)賽題上的得分之間,存在顯著的正相關(guān)關(guān)系(斯皮爾曼相關(guān)系數(shù)達(dá)到0.79)。換句話說,如果一個(gè)模型在模擬題上表現(xiàn)優(yōu)秀,它在真實(shí)競(jìng)賽題上的表現(xiàn)也會(huì)更好。這意味著,可以用模擬題的得分作為一個(gè)快速、低成本的代理指標(biāo),來預(yù)測(cè)模型在真實(shí)物理題上的能力。

**十一、拓展性:能不能用同樣的方法處理更多場(chǎng)景?**

研究團(tuán)隊(duì)還考察了這套流水線的可擴(kuò)展性。當(dāng)前系統(tǒng)的DSL覆蓋了大約15種物理實(shí)體類型(滑輪、斜面、彈簧系統(tǒng)、碰撞、旋轉(zhuǎn)體、火箭、電磁場(chǎng)中的帶電粒子等),但真實(shí)的物理競(jìng)賽題遠(yuǎn)不止這些類型。

為了測(cè)試能否低成本地?cái)U(kuò)展DSL,研究團(tuán)隊(duì)選取了三道當(dāng)前系統(tǒng)無法直接模擬的競(jìng)賽題目,分別來自F=MA、USAPhO和JEE Advanced,然后讓AI(大語言模型)嘗試為這些題目設(shè)計(jì)新的DSL實(shí)體。實(shí)驗(yàn)結(jié)果顯示,當(dāng)AI直接嘗試生成MuJoCo的底層XML代碼時(shí),三道題中只有一道成功(成功率33%);但當(dāng)AI在DSL框架內(nèi)設(shè)計(jì)新實(shí)體(本質(zhì)上是設(shè)計(jì)更高層次的"積木塊")時(shí),三道題全部成功(成功率100%)。

這說明DSL的抽象層次起到了關(guān)鍵作用:它把"如何在模擬器中正確配置關(guān)節(jié)、約束和接觸"這類繁瑣的底層工程問題,轉(zhuǎn)化為"這個(gè)實(shí)體有哪些物理參數(shù)、可以如何與其他實(shí)體連接"這類更符合物理直覺的高層描述。AI理解后者遠(yuǎn)比前者容易,因此擴(kuò)展成功率大幅提高。

此外,研究團(tuán)隊(duì)還測(cè)試了DSL的跨模擬器可移植性:他們讓AI把部分MuJoCo實(shí)體"翻譯"到NVIDIA Omniverse(另一個(gè)物理引擎),結(jié)果所有測(cè)試的實(shí)體均成功遷移。這意味著,未來即便要切換底層模擬引擎,也不需要從頭重建整個(gè)數(shù)據(jù)生產(chǎn)體系。

說到底,Sim2Reason這項(xiàng)研究講的是一個(gè)"無中生有"的故事。研究團(tuán)隊(duì)沒有收集物理題庫,沒有雇傭物理專家標(biāo)注數(shù)據(jù),沒有從競(jìng)賽官網(wǎng)爬取歷年真題——他們只是在一個(gè)虛擬世界里,讓物理規(guī)律自己"說話",然后把這些"話"轉(zhuǎn)化成AI的學(xué)習(xí)材料。

這背后隱含著一個(gè)更深遠(yuǎn)的洞見:知識(shí)不一定來自人類寫下的文字,有些知識(shí)本來就編碼在自然規(guī)律之中,只需要合適的工具去提取和轉(zhuǎn)化。物理模擬器就是這樣一種工具,它把連續(xù)的自然規(guī)律壓縮成了離散的、可驗(yàn)證的訓(xùn)練信號(hào)。

當(dāng)然,這個(gè)方法目前還有明顯局限。它的覆蓋范圍主要集中在經(jīng)典力學(xué),電磁學(xué)、熱力學(xué)、量子力學(xué)等領(lǐng)域的支持還相當(dāng)有限。模擬器本身有數(shù)值精度問題,某些復(fù)雜接觸和摩擦行為的模擬并不完全可靠。此外,一些需要高度定性推理或圖表分析的物理題,目前的框架也難以直接處理。

但這個(gè)方向本身的潛力,遠(yuǎn)不止于物理學(xué)?;瘜W(xué)分子動(dòng)力學(xué)、流體力學(xué)、生物力學(xué)……凡是能被精確建模的物理過程,都可能成為AI推理訓(xùn)練的數(shù)據(jù)來源。你可能會(huì)想,如果有一天,AI可以通過在虛擬化學(xué)實(shí)驗(yàn)室里做實(shí)驗(yàn)來學(xué)習(xí)化學(xué),通過在虛擬城市里模擬交通來學(xué)習(xí)經(jīng)濟(jì)學(xué),這將打開怎樣的可能性?

有興趣深入了解這項(xiàng)研究的讀者,可以通過論文編號(hào)arXiv:2604.11805查詢完整論文,項(xiàng)目代碼和演示視頻也可通過sim2reason.github.io獲取。

Q&A

Q1:Sim2Reason用物理模擬器訓(xùn)練AI,這和傳統(tǒng)的用題庫訓(xùn)練有什么本質(zhì)區(qū)別?

A:傳統(tǒng)方法依賴人類寫下的題目和答案,數(shù)量有限,而且物理題尤其稀缺。Sim2Reason直接從物理引擎里"自動(dòng)生產(chǎn)"題目——程序隨機(jī)搭建虛擬物理場(chǎng)景,引擎模擬運(yùn)行后自動(dòng)記錄答案,全程不需要人工介入。本質(zhì)區(qū)別在于,數(shù)據(jù)來源從"人類曾經(jīng)寫下的知識(shí)"擴(kuò)展到了"物理規(guī)律本身",理論上可以無限量生成。

Q2:IPhO國際物理奧林匹克競(jìng)賽那么難,AI用模擬器訓(xùn)練真的有用嗎?

A:有用,但提升幅度有限。研究顯示,用Sim2Reason訓(xùn)練后,不同規(guī)模的模型在IPhO力學(xué)題上提升了4到7個(gè)百分點(diǎn)。考慮到訓(xùn)練數(shù)據(jù)完全來自合成場(chǎng)景,沒有見過任何真實(shí)競(jìng)賽題,這個(gè)提升說明AI確實(shí)學(xué)到了可遷移的物理推理能力,而不是單純記憶題型。

Q3:強(qiáng)化學(xué)習(xí)訓(xùn)練AI解物理題,為什么比讓AI模仿正確解題步驟效果更好?

A:模仿正確解題步驟(監(jiān)督學(xué)習(xí))會(huì)讓AI過度調(diào)整自身的推理風(fēng)格,導(dǎo)致在其他類型題目上的表現(xiàn)反而下降,這叫做"災(zāi)難性遺忘"。強(qiáng)化學(xué)習(xí)只告訴AI答案對(duì)不對(duì),讓它自己摸索解法,這樣AI在學(xué)會(huì)物理推理的同時(shí),不會(huì)破壞原有的通用推理能力,實(shí)驗(yàn)數(shù)據(jù)證實(shí)了這一點(diǎn)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
50歲男子肌肉溶解離世,醫(yī)生痛心提醒:長期吃降脂藥犯了5個(gè)錯(cuò)誤

50歲男子肌肉溶解離世,醫(yī)生痛心提醒:長期吃降脂藥犯了5個(gè)錯(cuò)誤

垚垚分享健康
2026-04-28 11:15:14
隨著特魯姆普爆冷12-13,吳宜澤13-11,斯諾克世錦賽8強(qiáng)對(duì)陣出爐

隨著特魯姆普爆冷12-13,吳宜澤13-11,斯諾克世錦賽8強(qiáng)對(duì)陣出爐

側(cè)身凌空斬
2026-04-28 05:28:25
中共自然資源部黨組關(guān)于趙培劍、丁明柱、趙鳴、宋振亞、周鋒任職的通知

中共自然資源部黨組關(guān)于趙培劍、丁明柱、趙鳴、宋振亞、周鋒任職的通知

海洋知圈
2026-04-27 21:39:53
警惕經(jīng)濟(jì)的“無就業(yè)增長”

警惕經(jīng)濟(jì)的“無就業(yè)增長”

沈素明
2026-04-28 07:23:38
《妻子的浪漫旅行2026》孫楊回應(yīng)與妻子張豆豆相處模式引爭議:由于職業(yè)原因,像這樣的旅行是第一次,看到了不足,有一個(gè)好老婆很重要

《妻子的浪漫旅行2026》孫楊回應(yīng)與妻子張豆豆相處模式引爭議:由于職業(yè)原因,像這樣的旅行是第一次,看到了不足,有一個(gè)好老婆很重要

魯中晨報(bào)
2026-04-28 09:53:07
伊朗最高法院維持死刑判決 父親被判死刑女兒獲刑25年

伊朗最高法院維持死刑判決 父親被判死刑女兒獲刑25年

桂系007
2026-04-27 23:59:53
名記:杜蘭特或已打完火箭生涯最后一場(chǎng)球,下家是紐約和熱火

名記:杜蘭特或已打完火箭生涯最后一場(chǎng)球,下家是紐約和熱火

懂球帝
2026-04-28 09:32:05
戚薇這腳趾看著好辛苦,隔著屏幕都替她累得慌

戚薇這腳趾看著好辛苦,隔著屏幕都替她累得慌

東方不敗然多多
2026-04-23 10:37:33
互聯(lián)網(wǎng)是有記憶的,她的黑歷史一大堆啊!

BenSir本色說
2026-04-15 22:38:07

放棄克洛普!皇馬換帥突生變數(shù),伯納烏或?qū)⒂瓉怼白约胰?>
    </a>
        <h3>
      <a href=奶蓋熊本熊
2026-04-29 00:05:53
600678,將被“ST”!

600678,將被“ST”!

中國基金報(bào)
2026-04-28 23:15:48
美股三大指數(shù)集體收跌,道指跌0.06%,納指跌0.9%,標(biāo)普500指數(shù)跌0.49%,熱門科技股多數(shù)下跌,博通跌超4%,英偉達(dá)跌超1%。

美股三大指數(shù)集體收跌,道指跌0.06%,納指跌0.9%,標(biāo)普500指數(shù)跌0.49%,熱門科技股多數(shù)下跌,博通跌超4%,英偉達(dá)跌超1%。

財(cái)聯(lián)社
2026-04-29 04:08:08
新娘確實(shí)漂亮,但我更喜歡戴眼鏡那個(gè)。

新娘確實(shí)漂亮,但我更喜歡戴眼鏡那個(gè)。

動(dòng)物奇奇怪怪
2026-04-12 12:44:36
三連鞭后五連鞭,趙心童3:5墨菲暫時(shí)落后

三連鞭后五連鞭,趙心童3:5墨菲暫時(shí)落后

佳佳說奇事故事
2026-04-29 03:43:45
林志玲自曝和公婆住一起:換了一個(gè)比較大的房子,老公每天傍晚準(zhǔn)時(shí)回家,陪兒子一起吃飯

林志玲自曝和公婆住一起:換了一個(gè)比較大的房子,老公每天傍晚準(zhǔn)時(shí)回家,陪兒子一起吃飯

臺(tái)州交通廣播
2026-04-28 13:46:36
鋰電池板塊業(yè)績炸裂,多家公司凈利漲超1000%,最高漲超2297%

鋰電池板塊業(yè)績炸裂,多家公司凈利漲超1000%,最高漲超2297%

21世紀(jì)經(jīng)濟(jì)報(bào)道
2026-04-28 22:55:26
動(dòng)真格了,國安部出手,揪出鼓吹躺平的境外勢(shì)力,評(píng)論區(qū)意味深長

動(dòng)真格了,國安部出手,揪出鼓吹躺平的境外勢(shì)力,評(píng)論區(qū)意味深長

譚談社會(huì)
2026-04-28 15:10:51
7天第3艘,美軍開始在印度洋獵殺伊朗油輪,目的地是中國舟山

7天第3艘,美軍開始在印度洋獵殺伊朗油輪,目的地是中國舟山

矚望云霄
2026-04-28 13:04:41
廣東男籃主場(chǎng)17分負(fù)廣州,杜鋒難受,正義必勝!

廣東男籃主場(chǎng)17分負(fù)廣州,杜鋒難受,正義必勝!

二爺臺(tái)球解說
2026-04-29 03:36:39
跑馬人最慘遭遇:酒店不隔音,隔壁情侶的“聲音”讓我徹底崩潰

跑馬人最慘遭遇:酒店不隔音,隔壁情侶的“聲音”讓我徹底崩潰

馬拉松跑步健身
2026-04-26 21:41:40
2026-04-29 04:44:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8183文章數(shù) 563關(guān)注度
往期回顧 全部

教育要聞

快來給孩子接高考好運(yùn)! 今天是4月29日,農(nóng)歷三月十三,距離2026年高考還有39天。三月十三百事安...

頭條要聞

19歲中國女孩被困緬甸 交20萬贖金園區(qū)仍未放人

頭條要聞

19歲中國女孩被困緬甸 交20萬贖金園區(qū)仍未放人

體育要聞

魔術(shù)黑八活塞,一步之遙?!

娛樂要聞

蔡卓妍官宣結(jié)婚,老公比她小10歲

財(cái)經(jīng)要聞

中央政治局會(huì)議定調(diào),八大看點(diǎn)速覽!

科技要聞

10億周活目標(biāo)落空!傳OpenAI爆發(fā)內(nèi)部分歧

汽車要聞

拒絕瘋狂套娃!現(xiàn)代艾尼氪金星長在未來審美點(diǎn)上

態(tài)度原創(chuàng)

健康
本地
旅游
手機(jī)
游戲

干細(xì)胞治療燒燙傷三大優(yōu)勢(shì)!

本地新聞

用青花瓷的方式,打開西溪濕地

旅游要聞

莫讓內(nèi)卷式競(jìng)爭削弱旅游消費(fèi)信心

手機(jī)要聞

三星裸眼3D屏來了,廣告牌能“跳”出來

這不爽翻了?曝PS6或能穩(wěn)穩(wěn)運(yùn)行60幀+光追的游戲畫面

無障礙瀏覽 進(jìn)入關(guān)懷版