国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

港科大&英偉達提出NewtonBench:「平行宇宙」評估大模型發(fā)現(xiàn)能力

0
分享至



作者 | 論文團隊

編輯 | ScienceAI

隨著大語言模型(Large Language Models, LLMs)推理能力的提升,其在自動化科學發(fā)現(xiàn)(Automatic Scientific Discovery)領域的潛力也引發(fā)了學術界與公眾的廣泛關注。AI 領域知名學者何愷明曾在一次訪談中提出一個引人深思的問題:「以當前大模型的智能水平,若將其置于牛頓時代,它能否獨立發(fā)現(xiàn)牛頓物理定律?」

然而,評估這種能力面臨諸多挑戰(zhàn)。首先,現(xiàn)實世界中的科學定律已廣泛存在于大模型的訓練語料中,直接評估難以避免數(shù)據(jù)泄漏問題。其次,當前的評估方法通常依賴于在靜態(tài)數(shù)據(jù)表格中歸納等式,無法真實反映實際科研中通過設計實驗獲取數(shù)據(jù)以進行探索性研究的本質。

為此,來自香港科技大學和英偉達的研究者提出了 NewtonBench—— 一個具備強泛化能力、旨在模擬真實實驗探索環(huán)境的科學定律發(fā)現(xiàn)基準(Scientific Law Discovery Benchmark)。



論文地址:https://arxiv.org/pdf/2510.07172

代碼地址:https://github.com/HKUST-KnowComp/NewtonBench

NewtonBench 覆蓋了 12 個物理領域,其核心創(chuàng)新在于通過「形而上學變換(metaphysical shift)」將已知物理定律轉換為全新的定律,從而有效規(guī)避了數(shù)據(jù)泄漏問題,能夠更真實地評估大模型的原始推理能力。

此外,NewtonBench 為每個物理定律的發(fā)現(xiàn)過程提供了沙盒化的實驗環(huán)境。大模型可以在其中自主設定實驗參數(shù),執(zhí)行不同復雜度的實驗任務,并從環(huán)境中獲取反饋數(shù)據(jù)。這種高度模擬真實科學研究流程的設計,顯著提升了評估結果的實際意義。

該研究對 11 個領先的大語言模型進行了基準測試,包括 GPT-5、Gemini-2.5-Pro、DeepSeek-R1 和 Qwen-3-235B 等。

評測結果顯示,非推理模型(如 GPT-4.1、DeepSeek-V3)表現(xiàn)普遍不佳。而推理模型(如 GPT-5、DeepSeek-R1)則展現(xiàn)出顯著差異。在復雜實驗環(huán)境下,表現(xiàn)最優(yōu)的 GPT-5 和 Gemini-2.5-Pro 的定律發(fā)現(xiàn)準確率分別為 29.9% 和 13.9%,而其他模型的準確率均低于 5%。這充分凸顯了強大的推理能力對于科學定律發(fā)現(xiàn)的關鍵作用。

研究還深入分析發(fā)現(xiàn),為模型額外提供代碼解釋器工具(Code Interpreter Tool) 可以幫助能力較弱的模型突破計算瓶頸,但可能導致能力較強的模型產生過度依賴,反而抑制其自主探索的效率。

目前,NewtonBench 的評測數(shù)據(jù)集與評測代碼已全部開源。

NewtonBench 基準構建

物理法則構建

NewtonBench 包含 324 個物理定律發(fā)現(xiàn)任務,覆蓋力學、電磁學、熱力學等 12 個物理領域。其核心構建方法是:以真實物理定律為基礎,在「形而上學變換(metaphysical shift)」框架下,通過等式變換操作(mutation operation)生成衍生定律。根據(jù)變換步驟的復雜度及其引入的泛化需求,任務被劃分為簡單、中等、困難三個難度等級。



實驗環(huán)境構建

對于每個物理定律,NewtonBench 提供三種不同復雜度的實驗環(huán)境。在簡單實驗環(huán)境中,實驗的輸入與輸出參數(shù)完全對齊目標物理定律的表達形式,接近于理想的符號回歸(symbolic regression) 場景。而在中等及復雜難度環(huán)境中,目標物理定律僅隱含于部分實驗數(shù)據(jù)中。例如:要求模型通過兩個小球沿直線相向運動的觀測數(shù)據(jù),推導出引力與距離、質量的函數(shù)關系。

大模型可通過函數(shù)調用(function calling)機制執(zhí)行實驗操作,并從環(huán)境動態(tài)獲取實驗結果。模型最多可進行 10 輪實驗交互,最終需提交其推導出的物理定律表達式。



實驗結果

研究人員對 11 個前沿大語言模型 進行了系統(tǒng)評測,采用符號準確率(Symbolic Accuracy) 和 均方根對數(shù)誤差(Root Mean Squared Logarithmic Error, RMSLE) 作為核心評估指標。實驗結果表明:

1.非推理模型整體表現(xiàn)欠佳,即使在最簡單的實驗設定下,其符號準確率也僅處于 20%-50% 的區(qū)間;

2.推理模型(如 GPT-5、DeepSeek-R1)憑借其強大的復雜推理與數(shù)學運算能力,在簡單場景下的符號準確率普遍突破 80%;

3. 隨著實驗復雜度提升,推理模型間的性能差距顯著擴大。在最具挑戰(zhàn)性的「困難定律 + 復雜實驗」場景下:

  • 性能領先的 GPT-5 和 Gemini-2.5-Pro 符號準確率分別僅為 29.9% 和 13.9%;
  • 其余模型的準確率均低于 5%,顯示出任務難度的陡增特性。



值得注意的是,代碼執(zhí)行工具的輔助效果呈現(xiàn)出顯著的分化現(xiàn)象:

  • 對于較弱模型(符號準確率 < 40%),代碼工具可帶來顯著性能提升;
  • 然而對于較強模型,代碼輔助均產生負面效應。

這一矛盾現(xiàn)象促使研究人員開展了深度歸因分析。

代碼輔助效果分析

研究人員選取了四個代表性模型(GPT-4.1、Qwen-3-235B、Gemini-2.5-Flash、GPT-5-Mini),通過控制代碼調用權限數(shù)量展開對比實驗。結果顯示,當兩個高性能模型初步獲得代碼權限時,準確率均出現(xiàn)顯著下滑。進一步分析模型決策文本中的探索(exploration)與利用(exploitation)關鍵詞頻發(fā)現(xiàn):性能驟降的 Gemini-2.5-Flash 在使用代碼后,探索類詞匯出現(xiàn)頻率急劇下降;而受益于代碼輔助的 Qwen-3-235B 則保持穩(wěn)定的探索傾向。這表明代碼工具的引入導致部分模型發(fā)生推理范式偏移 —— 從開放探索轉向對代碼工具的過度依賴,最終削弱其定律發(fā)現(xiàn)能力。

此外,研究人員深度解析了 GPT-4.1 與 GPT-5-Mini 的代碼使用模式。在 GPT-4.1 中,45.4% 的代碼調用集中于數(shù)值計算環(huán)節(jié),而該比例在 GPT-5-Mini 中降至 16.5%。與之形成鮮明對比的是,GPT-5-Mini 將 69.4% 的代碼資源投入函數(shù)擬合(function fitting)過程。這一發(fā)現(xiàn)印證了核心觀點:對于基礎模型,代碼工具有效突破其計算瓶頸;但高性能模型將其大量用于快速獲取局部最優(yōu)解,反而抑制了對全局最優(yōu)定律的探索空間。



總結

NewtonBench 的評測結果系統(tǒng)揭示了當前大模型科學發(fā)現(xiàn)能力的核心瓶頸:前沿推理模型雖能推演預設場景中的已知定律變體,但其泛化能力在面對復雜物理定律及實驗環(huán)境時呈現(xiàn)系統(tǒng)性衰減。

尤為關鍵的是,代碼工具在輔助基礎模型突破計算瓶頸的同時,卻顯著抑制了高性能模型(如 GPT-5 等)的自主探索傾向,致使其陷入局部最優(yōu)陷阱。這充分表明,現(xiàn)有 AI 的科學發(fā)現(xiàn)能力存在內在脆弱性且易受工具范式干擾。

未來研究亟需構建可動態(tài)平衡探索與利用的認知架構,并將評估體系拓展至真實科研流程模擬 —— 涵蓋未知定律發(fā)現(xiàn)、動態(tài)實驗設計及可證偽性驗證,方有望鍛造出具備本征科學智能的新一代人工智能系統(tǒng)。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
每體:阿克愿意加盟巴薩,但曼城不接受租借只考慮永久轉會

每體:阿克愿意加盟巴薩,但曼城不接受租借只考慮永久轉會

懂球帝
2025-12-27 17:31:22
53億鎊被凍結3年!阿布要和英政府干到底:雇6頂級律師 絕不認慫

53億鎊被凍結3年!阿布要和英政府干到底:雇6頂級律師 絕不認慫

風過鄉(xiāng)
2025-12-26 16:49:45
龐萊臣曾孫女龐叔令大方出鏡,接受前央視記者采訪,展示珍貴藏品

龐萊臣曾孫女龐叔令大方出鏡,接受前央視記者采訪,展示珍貴藏品

鋭娛之樂
2025-12-27 20:52:28
逍遙丸可治20多種病,別只用來疏肝健脾了,一定要收藏

逍遙丸可治20多種病,別只用來疏肝健脾了,一定要收藏

阿兵科普
2025-12-27 17:04:42
英超綜述:阿森納仍2分領跑 黑馬逆轉切爾西奪11連勝 利物浦返前4

英超綜述:阿森納仍2分領跑 黑馬逆轉切爾西奪11連勝 利物浦返前4

我愛英超
2025-12-28 04:00:24
楊樂樂首談和汪涵的婚姻問題,婚后全職一人帶娃,自嘲有點想離婚

楊樂樂首談和汪涵的婚姻問題,婚后全職一人帶娃,自嘲有點想離婚

粵語經典歌單
2025-12-27 15:14:50
南博事件新證據(jù)曝光!徐湖平夫妻被帶走,40億金獸疑似被偷梁換柱

南博事件新證據(jù)曝光!徐湖平夫妻被帶走,40億金獸疑似被偷梁換柱

奇思妙想草葉君
2025-12-28 01:33:22
新加坡開始對中國海南封關展開反擊!

新加坡開始對中國海南封關展開反擊!

時分秒說
2025-12-27 11:42:18
舍甫琴科:我和阿布已經沒有關系了,但他應該為烏克蘭付錢

舍甫琴科:我和阿布已經沒有關系了,但他應該為烏克蘭付錢

懂球帝
2025-12-27 14:57:03
國內特斯拉將迎來重要系統(tǒng)更新!大量有趣功能來了

國內特斯拉將迎來重要系統(tǒng)更新!大量有趣功能來了

XCiOS俱樂部
2025-12-26 15:11:26
醫(yī)生含淚苦勸:天氣漸冷,糖尿病患者最怕這6件事,千萬別大意!

醫(yī)生含淚苦勸:天氣漸冷,糖尿病患者最怕這6件事,千萬別大意!

健康之光
2025-12-26 16:00:06
俄軍工廠老板在紅場自焚:軍火訂單翻十倍卻成死亡陷阱

俄軍工廠老板在紅場自焚:軍火訂單翻十倍卻成死亡陷阱

桂系007
2025-12-25 22:43:02
國家終于出手了!不僅是李梓萌被牽連,就連全紅嬋張文宏也沒逃過

國家終于出手了!不僅是李梓萌被牽連,就連全紅嬋張文宏也沒逃過

巧手曉廚娘
2025-12-26 21:34:40
5-2!斯諾克再爆冷門:中國00后女選手4連鞭!贏了世錦賽7冠王

5-2!斯諾克再爆冷門:中國00后女選手4連鞭!贏了世錦賽7冠王

球場沒跑道
2025-12-27 16:08:45
3:0!C羅腳后跟破門+雙響,解鎖40歲新成就,利雅得勝利10連勝

3:0!C羅腳后跟破門+雙響,解鎖40歲新成就,利雅得勝利10連勝

阿超他的體育圈
2025-12-28 00:56:44
19歲女主播揭露團播內幕:上播擦邊,下播找大哥“做作業(yè)”,陪酒女轉行成“榜樣”

19歲女主播揭露團播內幕:上播擦邊,下播找大哥“做作業(yè)”,陪酒女轉行成“榜樣”

大風新聞
2025-12-27 16:46:04
段永平說:我教兒子投資的第一件事是每天要去跑步

段永平說:我教兒子投資的第一件事是每天要去跑步

馬拉松跑步健身
2025-12-26 21:42:28
《我和春天有個約會》四姊妹30年首合體,蔡曉儀神隱多年驚喜現(xiàn)身

《我和春天有個約會》四姊妹30年首合體,蔡曉儀神隱多年驚喜現(xiàn)身

粵睇先生
2025-12-26 19:29:03
曹德旺預言成真了?我國二三十層的電梯房,或將面臨同一個結局?

曹德旺預言成真了?我國二三十層的電梯房,或將面臨同一個結局?

削桐作琴
2025-11-14 23:08:33
女子高峰期占電梯后續(xù):被暴打,正面曝光,已社死,結局很舒適

女子高峰期占電梯后續(xù):被暴打,正面曝光,已社死,結局很舒適

尋墨閣
2025-12-27 08:45:27
2025-12-28 04:35:00
ScienceAI incentive-icons
ScienceAI
關注人工智能與其他前沿技術
1191文章數(shù) 222關注度
往期回顧 全部

科技要聞

小米也漲價了!業(yè)界稱終端再不漲明年必虧

頭條要聞

美媒:特朗普顯然觸及了中國的紅線 中方怒了

頭條要聞

美媒:特朗普顯然觸及了中國的紅線 中方怒了

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂要聞

張昊唯逃稅涉黃風波落幕:法院認定朋友造謠

財經要聞

注意,開始拉物價了!

汽車要聞

好音響比大屏更重要?車企開始“聽”用戶的

態(tài)度原創(chuàng)

親子
家居
數(shù)碼
游戲
公開課

親子要聞

千萬別給小孩子穿太好!網(wǎng)友:怪不得說男孩就得窮養(yǎng)!

家居要聞

格調時尚 智慧品質居所

數(shù)碼要聞

最高5.19 萬!小米新品火熱開賣,“價格屠夫”徹底不裝了

我真幸運:《泰拉瑞亞》1.4.5更新定檔1月份!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版