猶他大學(xué)研究團隊打造"無限科學(xué)實驗室"

2026-04-23 21:30:22　來源: 科技行者

北京舉報

分享至

這項由美國猶他大學(xué)卡爾特計算學(xué)院主導(dǎo)的研究，以預(yù)印本形式于2026年4月14日發(fā)布在arXiv平臺，編號為arXiv:2604.13201v1，分類為計算語言學(xué)（cs.CL）方向。有興趣深入了解的讀者可通過該編號在arXiv網(wǎng)站上查閱完整論文。

研究背景與核心問題并不陌生。近年來，越來越多的科學(xué)家開始使用AI工具輔助日?？蒲泄ぷ鳌頂?shù)據(jù)、分析實驗結(jié)果、回答關(guān)于數(shù)據(jù)集的問題。這些"AI科學(xué)助手"能不能真正勝任這份工作？更關(guān)鍵的是，當(dāng)手頭的數(shù)據(jù)根本不夠用來回答某個問題時，AI會不會老老實實說"我不知道"，還是硬編一個看似合理的答案蒙混過關(guān)？猶他大學(xué)的研究團隊針對這兩個問題，設(shè)計了一套全新的評測系統(tǒng)，命名為InfiniteScienceGym，中文可以理解為"無限科學(xué)健身房"——一個專門訓(xùn)練和測試AI科學(xué)推理能力的場所。

一、為什么現(xiàn)有的評測工具不夠用

要理解這套新工具的價值，得先搞清楚原有工具的缺陷在哪。以往評測AI科學(xué)能力，最常見的做法是從已發(fā)表的論文或真實實驗數(shù)據(jù)集中挑選題目，然后讓AI作答。這個路子看起來很自然，但實際上藏著幾個難以回避的坑。

第一個坑叫做"發(fā)表偏倚"?？茖W(xué)界有個公開的秘密：只有得到正面結(jié)果、數(shù)據(jù)漂亮的實驗才容易發(fā)表，那些結(jié)論模糊、數(shù)據(jù)不足、甚至發(fā)現(xiàn)"什么都沒有"的研究往往被壓在抽屜里。于是，從已發(fā)表論文里挑題目，幾乎總是在問"這個實驗發(fā)現(xiàn)了什么"，而很少模擬"這個數(shù)據(jù)根本不夠回答這個問題"的場景。但后者在真實科研中極為常見，甚至可以說是常態(tài)。

第二個坑叫做"先驗知識污染"?，F(xiàn)有的大語言模型在訓(xùn)練時見過大量的科學(xué)文獻，當(dāng)你給它看一個來自真實研究的數(shù)據(jù)集并提問時，模型很可能是在憑記憶作答，而不是真的"看懂了數(shù)據(jù)"。就像考試時偷看過標(biāo)準(zhǔn)答案，測出的不是真實能力。

第三個坑叫做"標(biāo)注噪聲"。真實數(shù)據(jù)集需要人工標(biāo)注答案，人總會犯錯，也會對模糊問題產(chǎn)生分歧，這讓評測結(jié)果本身就不那么可靠。

第四個坑則很現(xiàn)實：存儲和分發(fā)大規(guī)?？茖W(xué)數(shù)據(jù)集，成本高、法律風(fēng)險大，也很難做到無限擴展。

正是為了繞開這四個坑，研究團隊提出了一個完全不同的思路——與其收集真實數(shù)據(jù)，不如從零開始造數(shù)據(jù)。

二、"種一粒種子，長出一個實驗室"

InfiniteScienceGym的核心機制可以用一個園藝比喻來理解：給系統(tǒng)一粒"種子"（一個隨機數(shù)字），它就能確定地長出一整套完整的科學(xué)實驗室，包括目錄結(jié)構(gòu)、實驗文件、數(shù)據(jù)表格，以及與之配套的問題和答案。同一粒種子每次種下，長出的都是一模一樣的實驗室，不差毫厘。這意味著評測是完全可重復(fù)的，不需要存儲任何真實數(shù)據(jù)，只需記住種子編號即可隨時重現(xiàn)。

這套系統(tǒng)由三個核心模塊組成，它們像流水線一樣依次工作。

第一個模塊叫做"模擬器"。它的工作是從一粒種子出發(fā)，生成一個完整的虛擬科學(xué)項目倉庫。這個生成過程是自頂向下的，就像建房子先定地基再建墻，最后裝修。系統(tǒng)首先從一個涵蓋22個科學(xué)領(lǐng)域、244個分支方向、780個細分子方向的分類樹中隨機抽取一個科學(xué)領(lǐng)域。這個分類樹覆蓋了從計算機科學(xué)、生物醫(yī)學(xué)、物理化學(xué)到社會學(xué)、統(tǒng)計學(xué)幾乎所有的實證科學(xué)方向。

確定領(lǐng)域后，系統(tǒng)使用一個叫做Qwen3 4B Instruct的小型語言模型，根據(jù)該領(lǐng)域生成一個具體的科研項目構(gòu)想，包括項目標(biāo)題、詳細的研究描述（含假設(shè)、自變量、因變量、潛在干擾因素）以及一段模擬學(xué)術(shù)摘要。這個項目描述是整個倉庫的"設(shè)計藍圖"，但永遠不會直接暴露給被測試的AI。

有了項目藍圖，系統(tǒng)再生成一套符合真實科研習(xí)慣的目錄結(jié)構(gòu)，用文件夾名稱和文件名來編碼實驗變量。以論文中的示例為例，種子編號118對應(yīng)的是一個關(guān)于釀酒酵母菌株優(yōu)化的生物工程項目，其目錄結(jié)構(gòu)是"/生長階段/基因型_日期/時間點/序號-pH值.jsonl"這樣的形式，光從路徑名就能讀出大量實驗信息。

最后，系統(tǒng)為每個文件生成具體的表格數(shù)據(jù)。自變量按照各自類型（分類變量、離散整數(shù)變量、連續(xù)變量）采用對應(yīng)的概率分布采樣生成，而因變量則由AI寫出的Python函數(shù)來計算——這些函數(shù)可以包含線性關(guān)系、非線性關(guān)系、噪聲過程，甚至部分可觀測性。論文附錄中展示了一個完整的函數(shù)例子：模擬葡萄糖消耗率，同時考慮了生長階段、溫度、葡萄糖濃度、氧氣水平、pH值和基因型等多個因素，每個因素都有對應(yīng)的效應(yīng)曲線，最后還疊加了隨機噪聲項，整個函數(shù)寫了將近五十行Python代碼，相當(dāng)逼真。

第二個模塊叫做"問答生成器"。它擁有對模擬器底層數(shù)據(jù)生成過程的完全知情權(quán)——也就是說，它知道每一個數(shù)據(jù)點是怎么算出來的。憑借這種"上帝視角"，它能為每個倉庫生成兩類問題：有答案的問題和沒有答案的問題，并且每道有答案的題都有精確的標(biāo)準(zhǔn)答案，每道無答案的題的"無法回答"性質(zhì)也是由系統(tǒng)邏輯嚴格保證的，而不是靠人工判斷。

無法回答的情形包括幾種典型案例：按條件篩選后沒有任何文件或數(shù)據(jù)行滿足要求（空集上沒法算中位數(shù)）；問題要求計算某個變量的統(tǒng)計量，但該變量的類型根本不支持這種計算（比如對分類變量求中位數(shù)）；或者問題涉及的變量根本不存在于數(shù)據(jù)中。這種"構(gòu)造性無答案"是這套系統(tǒng)最重要的特性之一，后文的實驗結(jié)果也證明，這正是現(xiàn)有AI模型的最大軟肋。

第三個模塊叫做"改寫模塊"。它把格式化的模板問題轉(zhuǎn)化為研究者在實際工作中可能說出的自然語言提問，保留核心語義的同時讓問題更自然、更多樣。論文展示了一個具體例子：模板問題問的是"只考慮seq_number為4、date為2025-05-28、pH為4.0或5.0或6.0的文件，且只考慮temp為35、biomass在0.17到0.465范圍內(nèi)的行，residual_glucose變量的中位數(shù)是多少"；經(jīng)過Gemma 20B模型改寫后變成了："對于2025年5月28日第四次實驗輪次，在發(fā)酵介質(zhì)酸度為4.0至6.0且發(fā)酵溫度為35攝氏度的條件下，當(dāng)生物量濃度在每升0.17至0.465克之間時，發(fā)酵后殘余葡萄糖的中位數(shù)是多少？"兩個問題問的是完全相同的事，但后者讀起來就像一位真正的生物工程師在提問。

三、實驗設(shè)計：給AI配備真實工具，模擬真實工作場景

在評測階段，研究團隊評測了五個模型：兩個商業(yè)閉源模型（OpenAI的GPT-5.4和Anthropic的Claude Opus 4.6）以及三個開源模型（GPT-OSS 20B、Qwen3 4B Instruct和Gemma 3 27B it）。評測方式特意還原了真實的科研助手使用場景——模型不是直接閱讀數(shù)據(jù)，而是可以主動使用一套工具來探索倉庫。

這套工具包含四個核心功能。第一個是目錄列舉功能，類似于在電腦里打開文件夾、查看里面有什么，支持通配符匹配。第二個是文本文件讀取功能，支持只讀取文件開頭或結(jié)尾幾行，避免一次性加載太多內(nèi)容。第三個是二進制文件讀取功能，用于處理Excel等格式。第四個也是最關(guān)鍵的：Python代碼執(zhí)行功能，模型可以在沙盒環(huán)境中編寫和運行數(shù)據(jù)分析代碼，調(diào)用numpy、pandas、scikit-learn等常用數(shù)據(jù)科學(xué)庫，運行時間限制60秒、內(nèi)存限制512MB。值得注意的是，文件讀取工具也可以在Python代碼內(nèi)部調(diào)用，這意味著模型完全可以在不把整個文件加載進對話窗口的情況下，用代碼處理數(shù)據(jù)。

每道題的評分是完全自動化的。數(shù)值型答案要求精確匹配（允許一定的有效數(shù)字誤差），分類答案要求包含正確選項且不含其他錯誤選項，"無法回答"的判斷則直接檢查模型是否回復(fù)了"not possible"。

研究團隊從前500個隨機種子生成的15988道題中抽取了500道，涵蓋五大題目類別，從易到難依次是：倉庫元數(shù)據(jù)（讀README文件）、文件元數(shù)據(jù)（了解單個文件的屬性）、目錄遍歷（統(tǒng)計滿足條件的文件數(shù)量）、單變量統(tǒng)計（計算特定篩選條件下某列的統(tǒng)計量）以及雙變量統(tǒng)計（計算兩列之間的相關(guān)性或假設(shè)檢驗結(jié)果）。500道題中361道（72.2%）有答案，139道（27.8%）無答案。對每道題，模型需要分別回答原始模板版本和三個不同模型生成的改寫版本，共四個變體。

四、實驗結(jié)果：沒有一個模型及格，"不知道"是最難說的話

最直觀的結(jié)論是：所有被測模型的整體準(zhǔn)確率都相當(dāng)?shù)?，最好的GPT-5.4也只達到44.8%，Claude Opus 4.6得到35.5%，而三個開源模型分別是GPT-OSS 20B的29.1%、Qwen3 4B Instruct的24.6%和Gemma 3 27B it的23.1%。商業(yè)模型整體顯著優(yōu)于開源模型，差距至少6.4個百分點，這種差異經(jīng)過統(tǒng)計檢驗（雙側(cè)配對t檢驗，p≤0.001）是可信的，不是隨機波動。

值得一提的是，Qwen3 4B Instruct模型正是用來生成這些虛擬倉庫的模型本身——也許有人會猜它因此有"主場優(yōu)勢"，但事實證明完全沒有，它的得分排在倒數(shù)第二，說明生成這些數(shù)據(jù)和理解這些數(shù)據(jù)完全是兩回事。

按題目類別看，差異非常明顯。倉庫元數(shù)據(jù)類題目（讀README）是所有模型表現(xiàn)最好的類別，GPT-5.4達到72.6%，Claude Opus 4.6甚至達到77.9%，這說明所有模型都能讀懂基礎(chǔ)文檔，沒有障礙。雙變量統(tǒng)計類也相對較好（各模型大約在43%至45%之間），原因在于這類題目的答案只有三個選項（是/否/不可能），本身是個三選一的問題，難度相對降低。

真正讓商業(yè)模型和開源模型拉開差距的是文件元數(shù)據(jù)、目錄遍歷和單變量統(tǒng)計這三類。以"文件元數(shù)據(jù)-行數(shù)統(tǒng)計"為例，GPT-5.4得到51.4%，Claude Opus 4.6得到53.6%，而三個開源模型分別只有14.7%、8.1%和6.1%。這些題目需要模型做到以下幾步：讀懂問題中的篩選條件、把條件映射到目錄結(jié)構(gòu)和文件變量、寫出正確的過濾代碼、執(zhí)行計算、最后判斷結(jié)果是否有意義。任何一步出錯都會導(dǎo)致最終答案錯誤，錯誤會像滾雪球一樣在步驟間累積放大。

關(guān)于識別"無法回答"問題的能力，結(jié)果更加令人擔(dān)憂。論文用精確率（Precision，當(dāng)模型說"不可能"時，這個判斷有多大比例是正確的）和召回率（Recall，真正無法回答的題目中，模型識別出了多大比例）來衡量這種能力。GPT-5.4和Claude Opus 4.6在這兩個指標(biāo)上都達到了80%以上，但沒有一個超過83%，仍有明顯的提升空間。它們的錯誤類型較為平衡，即該說"不知道"時說了答案，和不該說"不知道"時說了"不知道"，兩類錯誤大致相當(dāng)。

開源模型則呈現(xiàn)出完全不同的失敗模式：精確率很高（超過80%），召回率極低（低至40%左右）。這意味著當(dāng)開源模型選擇說"不知道"時，通常是對的；但問題是它們太少說"不知道"了——遇到根本無法回答的問題，它們也會絞盡腦汁編出一個答案來。這種"寧可答錯也不認輸"的行為模式，在真實科研場景中相當(dāng)危險：一個錯誤但自信的結(jié)論，可能把整個研究方向引偏。

五、更多工具調(diào)用反而更好，更多token卻未必

研究團隊還分析了模型的解題策略，發(fā)現(xiàn)了一個頗為反直覺的規(guī)律：消耗更多token的模型，準(zhǔn)確率并不更高。GPT-5.4平均每道題只用了約24000個token，是所有模型中最節(jié)省的，但準(zhǔn)確率最高。相比之下，開源模型有時會使用多達80000個token，準(zhǔn)確率卻低得多。

這個現(xiàn)象的背后邏輯并不復(fù)雜。開源模型傾向于把整個數(shù)據(jù)文件直接讀入對話窗口——相當(dāng)于把一本厚厚的數(shù)據(jù)手冊完整地抄在草稿紙上，然后憑肉眼逐行查找答案。這種方式效率極低，而且超長的文本輸入本身就會干擾模型的推理質(zhì)量。GPT-5.4則不同，它通常只讀取文件的前幾十行來了解數(shù)據(jù)結(jié)構(gòu)，隨后直接調(diào)用Python代碼工具來處理數(shù)據(jù)，讓程序精確地完成過濾、計算工作。論文附錄中專門對比了兩個模型面對同一道"統(tǒng)計某文件行數(shù)"題目時的解題過程：Gemma 3 27B it花了七個步驟導(dǎo)航到文件、讀取全部內(nèi)容，然后靠肉眼數(shù)了157行（實際是163行，答錯了）；GPT-5.4只用兩步，先讀了40行確認文件格式，然后一行Python代碼`json.load`加`len()`就得出了正確答案163。

與此相對，工具調(diào)用次數(shù)越多，準(zhǔn)確率確實越高。GPT-5.4平均每題調(diào)用約7次工具，而Qwen3 4B Instruct只調(diào)用約2次。更多的工具調(diào)用意味著更充分的探索：先看目錄結(jié)構(gòu)，再讀文件頭部，再確認變量類型，最后運行計算代碼——每一步都在縮小不確定性，而不是靠一次大規(guī)模數(shù)據(jù)加載然后憑感覺作答。

六、改寫問題后答案會不會亂？

針對改寫模塊引入的變化是否會讓評測結(jié)果失真，研究團隊用Krippendorff's Alpha系數(shù)（一種衡量不同評分者或不同條件下評分一致性的統(tǒng)計指標(biāo)，可以理解為"問題換了說法，模型答案還有多穩(wěn)定"）來量化影響。三種改寫模型（GPT-OSS 20B、Gemma 3 27B it、Qwen3 4B Instruct）下的一致性系數(shù)分別為0.71、0.68和0.69，均屬于中等一致性——說明改寫確實引入了一定噪聲，但不是致命的。GPT-OSS 20B的改寫語義保留最好，模型切換說法后答案最穩(wěn)定。

有一個很有趣的發(fā)現(xiàn)：每個被測模型在自己"同族"改寫模型生成的問題上，一致性往往高于其他模型的改寫版本。比如GPT-OSS 20B在由自己改寫的問題上一致性是0.72，高于Gemma 3 27B it改寫版本的0.67和Qwen3 4B Instruct改寫版本的0.69。研究團隊對此的解讀是：模型對于自己引入的歧義往往有更強的"免疫力"，因為它在生成問題時也采用了類似的表達習(xí)慣，所以在理解時更容易對齊。

七、這套系統(tǒng)能做什么，不能做什么

InfiniteScienceGym并不聲稱能替代所有現(xiàn)有的科學(xué)評測基準(zhǔn)。研究團隊很清楚地指出，這套系統(tǒng)的核心優(yōu)勢是可控性而非真實感。它生成的是一個干凈、結(jié)構(gòu)清晰、關(guān)系可追溯的虛擬科學(xué)環(huán)境，非常適合用來測試特定的推理能力——文件導(dǎo)航、條件過濾、統(tǒng)計計算、以及對"沒有答案"的正確識別。

然而，真實科研環(huán)境中的數(shù)據(jù)往往更混亂：列名有拼寫錯誤、文件格式不統(tǒng)一、數(shù)據(jù)有缺失和異常值、變量定義含糊不清。這些"真實的臟數(shù)據(jù)"帶來的挑戰(zhàn)，InfiniteScienceGym目前尚未模擬。此外，現(xiàn)有系統(tǒng)只覆蓋表格數(shù)據(jù)，不涉及圖像、音頻、視頻或非實證性的科學(xué)推理任務(wù)。還有一點值得注意：由于這套系統(tǒng)采用程序生成，生成過程中可能存在可被模型利用的規(guī)律性——未來的模型或許會學(xué)會"破解生成器的套路"而非真正理解數(shù)據(jù)，這是所有程序生成評測系統(tǒng)共同面臨的潛在風(fēng)險。

研究團隊設(shè)想的幾個未來改進方向包括：擴展到更多數(shù)據(jù)類型和更混亂的倉庫結(jié)構(gòu)；利用對數(shù)據(jù)生成過程的完全掌控，專門構(gòu)造"與常識相悖"的數(shù)據(jù)集，用于測量模型的先驗知識偏差（即判斷模型是否真的看了數(shù)據(jù)，還是靠先入為主的印象作答）；以及通過追蹤模型實際訪問了哪些文件來研究幻覺現(xiàn)象——如果一個問題的答案所在文件根本沒被模型打開，那它給出的答案就必然是編造的。

歸根結(jié)底，這項研究提醒我們一件在AI浪潮中容易被忽視的事：讓AI"能回答"問題和讓AI"知道什么時候不該回答"，是兩個難度層級完全不同的目標(biāo)。后者在科學(xué)研究中尤為重要，因為在實驗室里，承認數(shù)據(jù)不足所需要的勇氣，和從數(shù)據(jù)中發(fā)現(xiàn)規(guī)律所需要的能力，同等珍貴。當(dāng)前沒有一個模型在這個測試中得分超過45%，而識別"我不知道"的能力更是所有模型共同的短板。這不是一個令人沮喪的結(jié)論，而是一個清晰的路標(biāo)——指向下一代科學(xué)AI助手應(yīng)該努力的方向。

有興趣深入探究這套評測系統(tǒng)技術(shù)細節(jié)的讀者，可以在arXiv平臺通過編號2604.13201查閱完整論文，研究團隊也承諾將公開全部代碼（含倉庫生成提示詞）和配套的模型性能追蹤網(wǎng)站，方便研究社區(qū)持續(xù)跟進不同模型在這個基準(zhǔn)上的表現(xiàn)變化。

Q&A

Q1：InfiniteScienceGym是什么，和普通AI評測基準(zhǔn)有什么區(qū)別？

A：InfiniteScienceGym是由猶他大學(xué)研究團隊開發(fā)的一套程序生成科學(xué)評測系統(tǒng)。與普通基準(zhǔn)的核心區(qū)別在于，它不依賴任何真實數(shù)據(jù)集，而是從一個隨機數(shù)字"種子"出發(fā)，自動生成完整的虛擬科研項目倉庫和配套問答題。同一個種子每次生成的內(nèi)容完全相同，因此可重復(fù)、無存儲成本、規(guī)模理論上無限大，還能精確控制哪些問題"有答案"、哪些"沒有答案"，避免了傳統(tǒng)基準(zhǔn)中發(fā)表偏倚和AI先驗知識干擾等問題。

Q2：AI模型在InfiniteScienceGym上的最大弱點是什么？

A：所有被測模型最突出的弱點是識別"無法回答"的問題。當(dāng)數(shù)據(jù)不足以支撐某個結(jié)論時，正確做法是承認無法回答，但開源模型普遍傾向于硬編一個答案而不是認輸，召回率低至40%左右。即使是表現(xiàn)最好的商業(yè)模型GPT-5.4和Claude Opus 4.6，識別無答案問題的召回率也不超過83%，整體準(zhǔn)確率最高也只有44.8%，五個模型沒有一個達到及格線。

Q3：為什么在InfiniteScienceGym測試中，調(diào)用更多工具比消耗更多token更重要？

A：因為高token消耗通常對應(yīng)一種低效策略——把整個數(shù)據(jù)文件塞進對話窗口靠"肉眼"分析。這不僅浪費資源，還會干擾模型推理。而使用工具（尤其是Python代碼執(zhí)行）意味著模型先用少量token了解數(shù)據(jù)結(jié)構(gòu)，再用程序精確完成計算，每一次工具調(diào)用都在縮小不確定性。實驗結(jié)果清楚地顯示，工具調(diào)用次數(shù)多的模型準(zhǔn)確率更高，而token消耗多的模型準(zhǔn)確率反而更低，GPT-5.4用最少的token和最多的工具調(diào)用取得了最高分。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.