網易首頁 > 網易號 > 正文申請入駐

開源模型橫掃21個科學任務!寬德Will聯(lián)手斯坦福清北,試錯變武器

2026-04-26 13:19:19　來源: 機器之心Pro

河北舉報

分享至

編輯｜Sia

不是讓模型更聰明，而是讓試錯本身變得更高效。有了這套框架「傍身」，普通開源模型也能「逆襲」做出驚人科學發(fā)現。

假設你手里只有一筆有限預算，要去搏一項未知的科學發(fā)現。你會怎么選？

把錢全砸給一個頂級模型（比如 OpenAI o1、DeepSeek），讓它長時間深思熟慮，試圖一擊即中？

還是反過來，搭一個「想法實驗室」——同時跑幾十、上百個實驗假設，讓它們彼此競爭、快速淘汰，最后篩出最有潛力的解？

前者，是我們熟悉的大模型敘事：相信「更聰明的大腦 + 更深的推理」，就能逼近真理。

最近，寬德智能學習實驗室（ Will ）聯(lián)合斯坦福、清華、北大等頂尖高校發(fā)布的一項新研究卻表明，科學發(fā)現的上限，不只是模型有多聰明，而是如何組織試錯與評估

Will 是頂級量化私募寬德投資獨立孵化的研究機構，秉持「AI for Good 」與長期主義，致力于構建服務科學與技術的通用人工智能（ ASI ）基礎平臺，賦能人類實現科學發(fā)現與技術創(chuàng)新。實驗室還作為贊助商參與了今年 ICLR 。

不同于側重論文產出的實驗室，Will 是一個深度融合研究與工業(yè)落地的全棧式「創(chuàng)新中樞」，在北京、上海、紐約均設有辦公室，依托頂級算力與數據資源，利用全鏈路工程實踐解決真實挑戰(zhàn)，用極致工程水準定義未來的科學發(fā)現。

論文地址：
https://www.wizardquant.com/will/simpletes

這篇名為Evaluation-driven Scaling for Scientiffc Discovery的研究，提出了一項足以讓開源模型「暴力逆襲」的通用框架 SimpleTES。

它將試錯拆解為三個可調度的維度，并在此基礎上實現「測試時擴展」（ test-time scaling ），讓開源模型在 21 項前沿科學任務中集體「封神」。

不僅刷新了多項 SOTA，甚至在數學構造、代碼優(yōu)化等領域，反超人類專家和那些頂級閉源模型。

在尋找使自卷積比 R 最大化的非負函數 f 這一任務上的擴展范式對比。以推理為中心（reasoning-centric）和以評估為中心（evaluation-centric）的方法都只專注于單一軸線的擴展，并最終陷入平臺期（增長停滯）。SimpleTES通過四項獨立的學術突破，實現了雙軸協(xié)同擴展，并達到了新的行業(yè)領先水平（SOTA）。

實驗表明，針對不同類型的科學任務，動態(tài)平衡這三個軸的算力分配，是超越現有 SOTA解的關鍵。

這，還只是 Will 野心版圖中的第一塊拼圖。

在評估驅動的科學發(fā)現引擎之外，Will 同時還在推進另外兩條關鍵路徑：自研基座大模型，以及面向科學研究的方法論探索。

三條線并行推進，在當前 AI 研究機構中并不多見。但他們的目標并不局限于單點突破，而是從零構建一整套面向科學發(fā)現的 AI 基礎設施

在這套體系中，AI 不再只是「回答問題的系統(tǒng)」，而是逐步演化為能夠參與完整科研閉環(huán)的主體。

換句話說，他們最終想實現的，是讓 AI 學會做科研。

被忽略的「第三極」：生成-評估的閉環(huán)

其實，在 AI4S 這件事上，大家已經卷過一輪了。

一派思路很直接，繼續(xù)往「更聰明的模型」上加碼——更長的推理鏈、更復雜的 Agent 流程、更強的閉源模型，認為只要多想一會兒、多對話幾輪，總能逼近新發(fā)現。

也有人把目光轉向「試錯循環(huán)」：生成 → 評估 → 改進，跑上幾輪，拿到一個還不錯的結果就收手（典型如 AlphaEvolve 一路）。

但問題在于，大家?guī)缀醵荚诜糯蟆干蓚鹊乃懔Α?，卻很少真正放大「評估反饋」本身。于是，一些老問題反復上演。

比如，經典的順序改進（ Sequential Refinement ），本質是單路徑搜索，一旦早期方向選錯，后面只會越修越偏。

科學問題往往是多目標、強約束的復雜空間，哪怕模型再強，也很難「一路推理」跨過去。

即使引入評估，反饋也不過是搜索流程的一個組件。更別提，這類系統(tǒng)高度依賴人工設計，工程復雜度極高，可歸因和可遷移性都很差。

卡爾·波普爾說過，科學知識的增長，來自一輪輪基于「猜想—反駁」的證偽。如果把「試錯 + 評估」本身，做成一個可以規(guī)模化、可以自動調度資源、可以持續(xù)放大有效信號的系統(tǒng)，會發(fā)生什么？

SimpleTES ：

把試錯變成一臺可以擴展的流水線

這篇工作的關鍵突破在于，把試錯、探索拆成一套可以被調度、可以被擴展、甚至可以被優(yōu)化的計算流程。

核心是三個維度，非常極簡：

C（ Concurrency ）：并行多少條軌跡
L（ Length ）：每條軌跡走多深
K（ K-candidates ）：每一步生成多少候選

這三件事拼在一起，本質上是在做一件此前很少被正視的事情：把算力，從「堆模型能力」，轉移到「精細分配搜索成本」。科學發(fā)現，從「靈光一現」，變成了一種可以被系統(tǒng)性放大的過程。

測試時評估驅動的循環(huán)縮放架構及其三維縮放維度。左側展示了基于策略網絡、生成器與評估器的閉環(huán)迭代過程，通過 L次循環(huán)實現軌跡優(yōu)化。右側定義了縮放的三維空間：全局寬度 C、細化深度 L和局部樣本量 K。

1、看得更廣：C（并行探索）

不再「一條路走到黑」，同時啟動 C 條獨立軌跡，各自探索不同方向。避免開局選錯方向，后面全盤皆輸」。在復雜科學問題里，「想得更深」之前，必須先「看得更廣」。

2、走得更深：L（迭代改進）

每一條軌跡，都不是一次性生成，而是在 evaluator（驗證器、打分函數、模擬器等）的驅動下持續(xù)迭代。關鍵點在于評估，不再只是「打分器」，而是「方向控制器」。每一次反饋，都會微調搜索路徑，把模型一點點推向更優(yōu)解。

3、選得更準：K（局部篩選）

每一步不是生成一個解，而是生成 K 個，再只保留最優(yōu)的那個。這一步相當于在局部做了一次「小進化」，把噪聲遺忘，避免劣質解污染后續(xù)軌跡。

三維框架一旦確定，一個現實問題撲面而來：歷史軌跡越來越多，但上下文裝不下。

SimpleTES 的做法是，不把歷史當「記錄」，而是當「資源池」。哪些經驗能進 prompt，被視為一個調度問題。他們引入 RPUCG（類似 UCB 的策略）：一邊優(yōu)先高分或「曾經啟發(fā)出好結果」的節(jié)點，一邊給低頻節(jié)點加探索補償。

這其實是在 prompt 層做了一次「探索-利用權衡」，既不放過熱門路徑，也不忽視冷門潛力，避免搜索早早收斂到局部最優(yōu)。

除了三維框架這一結構性的核心創(chuàng)新，SimpleTES 也從根本上解決了 AI 在科研決策中的短視挑戰(zhàn)。

傳統(tǒng)方法會優(yōu)化每一步的 reward，但這樣會讓模型越來越保守。而科學發(fā)現恰恰需要允許早期「走彎路」。因此，在 Trajectory-Level Post-training 中，SimpleTES 直接換了訓練目標，不看每一步，只看整條軌跡的最終最好結果。具體做法很利落：

一條完整探索軌跡等于一個 rollout ，忽略中間所有 step reward ；

用「最高分」作為唯一監(jiān)督信號，反向賦給整條路徑；

再配上簡單但有效的策略：只保留 top R% 的軌跡（我要精英），截斷無效后綴，用 replay buffer 持續(xù)累積經驗

結果，模型學到的不是「下一步怎么更對」，而是「怎樣的一整條探索路徑更可能成功」。

這套 Trajectory-Level Post-training 如同煉金術，把「搜索能力」蒸餾進模型本身，使其逐漸形成一種接近「科研直覺」的能力。

基礎模型與后訓練模型在多維度科學任務下的表現對比。重點展示了模型在域內（ID）與域外（OOD）環(huán)境下的適應性差異，加粗項反映了后訓練技術對模型邏輯推理和泛化能力的提升。

21個結果，21次振奮

結果顯示（設定 C=32, L=100, K=16），在六大領域、21 個科學問題上跑通一整套「試錯流水線」，只用 gpt-oss 這樣的開源模型，就能不斷刷出新的最優(yōu)解，甚至把不少前沿閉源模型和精心調整過的優(yōu)化流程都壓了過去。

在許多硬核的領域也突破了人類最佳紀錄。

該方法涵蓋的量子電路編譯、GPU 核函數優(yōu)化等六大科學應用領域。

在 SimpleTES 框架的加持下，開源模型不僅超越了眾多閉源模型，在許多硬核的領域也突破了人類最佳紀錄。

以下是三個特別有沖擊力的發(fā)現。

1、LASSO 路徑求解（算法工程）

LASSO 是統(tǒng)計學、生物信息學和金融建模中極其基礎且廣泛使用的算法。像 glmnet 這種標準解法，本質是幾十年工程經驗的結晶。

SimpleTES 做的不是微調，而是直接改寫解法。在保證精度（誤差 ≤1e-6）完全一致的前提下，平均比 glmnet 快2.17 倍，比 sklearn 快14 倍以上

關鍵是它怎么做到的。傳統(tǒng)方法基本是固定策略，而 SimpleTES 最終演化出來一套按問題結構動態(tài)切換的混合解法。

當問題處在某個幾何區(qū)間（比如中等維度、樣本不太少）時，它直接放棄 coordinate descent，切換到 LARS homotopy 路徑算法，沿著正則路徑解析式推進；在高維稀疏或更復雜結構下，保留 coordinate descent，再配合更激進的篩選機制。

這也是最有意思的地方，算法設計本身，開始變成可以被大規(guī)模試錯搜出來的東西。

再看 AtCoder 這種比賽就更直觀了。這類題本質上沒有標準解，拼的是「解題套路」和「搜索策略」。SimpleTES 從零開始，獨立發(fā)現了如「多起點模擬退火」等極具競爭力的程序，得分以絕對優(yōu)勢全面超越所有人類玩家記錄與現有的 AI 解決方案。

2、量子比特路由（量子電路編譯）

這個任務更有硬件味：量子門只能在相鄰比特上執(zhí)行，不相鄰就必須插入 SWAP，把量子態(tài)搬過去。問題在于，每多一個 SWAP，電路就更慢、更不穩(wěn)定。

所以，需要在保證所有操作可執(zhí)行的前提下，把 SWAP 數量壓到最低。但難點在于，這也是個典型的長程組合優(yōu)化問題——你現在做的一個交換，會影響后面所有步驟。

目前，主要由頂尖的量子物理學家和計算機科學家設計的啟發(fā)式算法來處理。

結果，SimpleTES 在不同量子計算機平臺架構上均展現了強大的編譯優(yōu)化能力，有效降低了滿足硬件約束的執(zhí)行開銷。

在超導架構上，SimpleTES 在整體上比經典算法 SABRE 提升 21.7%，比改進版 LightSABRE 提升 14.9%。在 IBM Q20 實例上更是將 SWAP 門開銷降低了 24.5%。

在分區(qū)中性原子架構上，其發(fā)現的編譯策略在 36 個多樣化電路中將平均執(zhí)行時間縮短了 33.2%，穩(wěn)定提升了絕大多數測試用例的表現。

可見，當評估循環(huán)縮放到足夠大時，AI 能夠通過寬度探索出人類直覺無法觸及的怪異但高效的路徑。在嚴謹的物理約束下，AI 也可以成為真正的發(fā)現者。

3、Erd?s 最小重疊問題（數學極值分析）

這是一個典型的極值構造難題：搜索空間巨大且極其崎嶇，只要某個位置稍微偏一點，整體重疊就會瞬間放大，幾乎就是在針尖上跳舞。

結果也很有意思——人類和現有 AI 基本都卡在 0.38087 附近，已經接近公認極限。但 SimpleTES 還是硬生生往下?lián)噶艘稽c：做到 0.380868，甚至在額外搜索中達到 0.380856。表面看只是小數點后幾位，在這種問題里卻是實打實的「極限推進」。

更關鍵的是，這個提升幾乎和模型大小無關，而是來自搜索過程本身：既沒錯過正確方向，也有足夠耐心往下?lián)讣毠?jié)，同時還把隨機性壓到最低。

這已經不是「更聰明的模型」，而是更高效的試錯機制在發(fā)揮作用。

AI4S 新范式：

把「試錯閉環(huán)」當成一等公民

如果說以 OpenAI o1 為代表的推理模型，開啟了「深度思考」的縮放時代，那么 SimpleTES 做的，是把另一件長期被低估的能力，推上主舞臺——嘗試與驗證，本身也可以被縮放。

但這套方法，也不是沒有邊界。

SimpleTES 的能力，本質上被一個東西「鎖死」：評估器（evaluator）。它之所以有效，是因為每一步試錯都能被快速、明確地打分。一旦進入那些評估昂貴、主觀、或者必須依賴真實世界反饋的領域，這套機制就會變得吃力，因為你已經沒法再高頻地「試—評—改」。

另一個限制在于算力怎么分。三個維度現在還是手動調的，而不同任務、不同階段，其實最優(yōu)分配完全不一樣。真正理想的狀態(tài)，是系統(tǒng)能根據搜索進展動態(tài)調整，而不是一開始就把資源「寫死」。

還有，這套方法天然適合「有連續(xù)分數」的世界。但在一些更離散的場景（比如定理證明），對錯之間沒有細粒度反饋，很多「差一點」的嘗試看起來是一樣的失敗，這會讓搜索信號變得模糊，甚至誤導方向。

因此，Will 下一步，不只是把試錯做大，還要讓它更聰明，從一個高頻運轉的計算閉環(huán)，進化為一個真正具備理解、判斷與探索能力的系統(tǒng)。

當「試錯」不再只是蠻力搜索，而開始具備結構感和方向感時，AI4S 的上限，才會真正被打開。

目前，基于 SimpleTES 方法構建的試用平臺已經在 Will 官網上線，歡迎大家前往申請加入 Waitlist，率先體驗這一全新的科研范式。

https://www.wizardquant.com/will/simpletes

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.