国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

開源模型橫掃21個科學任務!寬德Will聯(lián)手斯坦福清北,試錯變武器

0
分享至



編輯|Sia

不是讓模型更聰明,而是讓試錯本身變得更高效。有了這套框架「傍身」,普通開源模型也能「逆襲」做出驚人科學發(fā)現。

假設你手里只有一筆有限預算,要去搏一項未知的科學發(fā)現。你會怎么選?

把錢全砸給一個頂級模型(比如 OpenAI o1、DeepSeek),讓它長時間深思熟慮,試圖一擊即中?

還是反過來,搭一個「想法實驗室」——同時跑幾十、上百個實驗假設,讓它們彼此競爭、快速淘汰,最后篩出最有潛力的解?

前者,是我們熟悉的大模型敘事:相信「更聰明的大腦 + 更深的推理」,就能逼近真理。

最近,寬德智能學習實驗室( Will )聯(lián)合斯坦福、清華、北大等頂尖高校發(fā)布的一項新研究卻表明,科學發(fā)現的上限,不只是模型有多聰明,而是如何組織試錯與評估

Will 是頂級量化私募寬德投資獨立孵化的研究機構,秉持 「AI for Good 」與長期主義,致力于構建服務科學與技術的通用人工智能( ASI )基礎平臺,賦能人類實現科學發(fā)現與技術創(chuàng)新。實驗室還作為贊助商參與了今年 ICLR 。

不同于側重論文產出的實驗室,Will 是一個深度融合研究與工業(yè)落地的全棧式「創(chuàng)新中樞」,在北京、上海、紐約均設有辦公室,依托頂級算力與數據資源,利用全鏈路工程實踐解決真實挑戰(zhàn),用極致工程水準定義未來的科學發(fā)現。



  • 論文地址:
  • https://www.wizardquant.com/will/simpletes

這篇名為Evaluation-driven Scaling for Scientiffc Discovery的研究,提出了一項足以讓開源模型「暴力逆襲」的通用框架 SimpleTES。

它將試錯拆解為三個可調度的維度,并在此基礎上實現「測試時擴展」( test-time scaling ),讓開源模型在 21 項前沿科學任務中集體「封神」。

不僅刷新了多項 SOTA,甚至在數學構造、代碼優(yōu)化等領域,反超人類專家和那些頂級閉源模型。



在尋找使自卷積比 R 最大化的非負函數 f 這一任務上的擴展范式對比。以推理為中心(reasoning-centric)和以評估為中心(evaluation-centric)的方法都只專注于單一軸線的擴展,并最終陷入平臺期(增長停滯)。SimpleTES通過四項獨立的學術突破,實現了雙軸協(xié)同擴展,并達到了新的行業(yè)領先水平(SOTA)。



實驗表明,針對不同類型的科學任務,動態(tài)平衡這三個軸的算力分配,是超越現有 SOTA解的關鍵。

這,還只是 Will 野心版圖中的第一塊拼圖。

在評估驅動的科學發(fā)現引擎之外,Will 同時還在推進另外兩條關鍵路徑:自研基座大模型,以及面向科學研究的方法論探索。

三條線并行推進,在當前 AI 研究機構中并不多見。但他們的目標并不局限于單點突破,而是從零構建一整套面向科學發(fā)現的 AI 基礎設施

在這套體系中,AI 不再只是「回答問題的系統(tǒng)」,而是逐步演化為能夠參與完整科研閉環(huán)的主體。

換句話說,他們最終想實現的,是讓 AI 學會做科研。

被忽略的「第三極」:生成-評估的閉環(huán)

其實,在 AI4S 這件事上,大家已經卷過一輪了。

一派思路很直接,繼續(xù)往「更聰明的模型」上加碼——更長的推理鏈、更復雜的 Agent 流程、更強的閉源模型,認為只要多想一會兒、多對話幾輪,總能逼近新發(fā)現。

也有人把目光轉向「試錯循環(huán)」:生成 → 評估 → 改進,跑上幾輪,拿到一個還不錯的結果就收手(典型如 AlphaEvolve 一路)。

但問題在于,大家?guī)缀醵荚诜糯蟆干蓚鹊乃懔Α?,卻很少真正放大「評估反饋」本身。于是,一些老問題反復上演。

比如,經典的順序改進( Sequential Refinement ),本質是單路徑搜索,一旦早期方向選錯,后面只會越修越偏。

科學問題往往是多目標、強約束的復雜空間,哪怕模型再強,也很難「一路推理」跨過去。

即使引入評估,反饋也不過是搜索流程的一個組件。更別提,這類系統(tǒng)高度依賴人工設計,工程復雜度極高,可歸因和可遷移性都很差。

卡爾·波普爾說過,科學知識的增長,來自一輪輪基于「猜想—反駁」的證偽。如果把「試錯 + 評估」本身,做成一個可以規(guī)模化、可以自動調度資源、可以持續(xù)放大有效信號的系統(tǒng),會發(fā)生什么?

SimpleTES :

把試錯變成一臺可以擴展的流水線

這篇工作的關鍵突破在于,把試錯、探索拆成一套可以被調度、可以被擴展、甚至可以被優(yōu)化的計算流程。

核心是三個維度,非常極簡:

  • C( Concurrency ):并行多少條軌跡
  • L( Length ):每條軌跡走多深
  • K( K-candidates ):每一步生成多少候選

這三件事拼在一起,本質上是在做一件此前很少被正視的事情:把算力,從「堆模型能力」,轉移到「精細分配搜索成本」。科學發(fā)現,從「靈光一現」,變成了一種可以被系統(tǒng)性放大的過程。



測試時評估驅動的循環(huán)縮放架構及其三維縮放維度。 左側展示了基于策略網絡、生成器與評估器的閉環(huán)迭代過程,通過 L次循環(huán)實現軌跡優(yōu)化。右側定義了縮放的三維空間:全局寬度 C、細化深度 L和局部樣本量 K。

1、看得更廣:C(并行探索)

不再「一條路走到黑」,同時啟動 C 條獨立軌跡,各自探索不同方向。避免開局選錯方向,后面全盤皆輸」。在復雜科學問題里,「想得更深」之前,必須先「看得更廣」。

2、走得更深:L(迭代改進)

每一條軌跡,都不是一次性生成,而是在 evaluator(驗證器、打分函數、模擬器等)的驅動下持續(xù)迭代。關鍵點在于評估,不再只是「打分器」,而是「方向控制器」。每一次反饋,都會微調搜索路徑,把模型一點點推向更優(yōu)解。

3、選得更準:K(局部篩選)

每一步不是生成一個解,而是生成 K 個,再只保留最優(yōu)的那個。這一步相當于在局部做了一次「小進化」,把噪聲遺忘,避免劣質解污染后續(xù)軌跡。

三維框架一旦確定,一個現實問題撲面而來:歷史軌跡越來越多,但上下文裝不下。

SimpleTES 的做法是,不把歷史當「記錄」,而是當「資源池」。哪些經驗能進 prompt,被視為一個調度問題。他們引入 RPUCG(類似 UCB 的策略):一邊優(yōu)先高分或「曾經啟發(fā)出好結果」的節(jié)點,一邊給低頻節(jié)點加探索補償。

這其實是在 prompt 層做了一次「探索-利用權衡」,既不放過熱門路徑,也不忽視冷門潛力,避免搜索早早收斂到局部最優(yōu)。

除了三維框架這一結構性的核心創(chuàng)新,SimpleTES 也從根本上解決了 AI 在科研決策中的短視挑戰(zhàn)。

傳統(tǒng)方法會優(yōu)化每一步的 reward,但這樣會讓模型越來越保守。而科學發(fā)現恰恰需要允許早期「走彎路」。因此,在 Trajectory-Level Post-training 中,SimpleTES 直接換了訓練目標,不看每一步,只看整條軌跡的最終最好結果。具體做法很利落:

一條完整探索軌跡等于一個 rollout ,忽略中間所有 step reward ;

用「最高分」作為唯一監(jiān)督信號,反向賦給整條路徑;

再配上簡單但有效的策略:只保留 top R% 的軌跡(我要精英) ,截斷無效后綴 ,用 replay buffer 持續(xù)累積經驗

結果,模型學到的不是「下一步怎么更對」,而是「怎樣的一整條探索路徑更可能成功」。

這套 Trajectory-Level Post-training 如同煉金術,把「搜索能力」蒸餾進模型本身,使其逐漸形成一種接近「科研直覺」的能力。



基礎模型與后訓練模型在多維度科學任務下的表現對比。 重點展示了模型在域內(ID)與域外(OOD)環(huán)境下的適應性差異,加粗項反映了后訓練技術對模型邏輯推理和泛化能力的提升。

21個結果,21次振奮

結果顯示(設定 C=32, L=100, K=16),在六大領域、21 個科學問題上跑通一整套「試錯流水線」,只用 gpt-oss 這樣的開源模型,就能不斷刷出新的最優(yōu)解,甚至把不少前沿閉源模型和精心調整過的優(yōu)化流程都壓了過去。

在許多硬核的領域也突破了人類最佳紀錄。



該方法涵蓋的量子電路編譯、GPU 核函數優(yōu)化等六大科學應用領域。



在 SimpleTES 框架的加持下,開源模型不僅超越了眾多閉源模型,在許多硬核的領域也突破了人類最佳紀錄。

以下是三個特別有沖擊力的發(fā)現。

1、LASSO 路徑求解(算法工程)

LASSO 是統(tǒng)計學、生物信息學和金融建模中極其基礎且廣泛使用的算法。像 glmnet 這種標準解法,本質是幾十年工程經驗的結晶。

SimpleTES 做的不是微調,而是直接改寫解法。在保證精度(誤差 ≤1e-6)完全一致的前提下,平均比 glmnet 快2.17 倍,比 sklearn 快14 倍以上



關鍵是它怎么做到的。傳統(tǒng)方法基本是固定策略,而 SimpleTES 最終演化出來一套按問題結構動態(tài)切換的混合解法。

當問題處在某個幾何區(qū)間(比如中等維度、樣本不太少)時,它直接放棄 coordinate descent,切換到 LARS homotopy 路徑算法,沿著正則路徑解析式推進;在高維稀疏或更復雜結構下,保留 coordinate descent,再配合更激進的篩選機制。

這也是最有意思的地方,算法設計本身,開始變成可以被大規(guī)模試錯搜出來的東西。

再看 AtCoder 這種比賽就更直觀了。這類題本質上沒有標準解,拼的是「解題套路」和「搜索策略」。SimpleTES 從零開始,獨立發(fā)現了如「多起點模擬退火」等極具競爭力的程序,得分以絕對優(yōu)勢全面超越所有人類玩家記錄與現有的 AI 解決方案。



2、量子比特路由(量子電路編譯)

這個任務更有硬件味:量子門只能在相鄰比特上執(zhí)行,不相鄰就必須插入 SWAP,把量子態(tài)搬過去。問題在于,每多一個 SWAP,電路就更慢、更不穩(wěn)定。

所以,需要在保證所有操作可執(zhí)行的前提下,把 SWAP 數量壓到最低。但難點在于,這也是個典型的長程組合優(yōu)化問題——你現在做的一個交換,會影響后面所有步驟。

目前,主要由頂尖的量子物理學家和計算機科學家設計的啟發(fā)式算法來處理。

結果,SimpleTES 在不同量子計算機平臺架構上均展現了強大的編譯優(yōu)化能力,有效降低了滿足硬件約束的執(zhí)行開銷。

在超導架構上,SimpleTES 在整體上比經典算法 SABRE 提升 21.7%,比改進版 LightSABRE 提升 14.9%。在 IBM Q20 實例上更是將 SWAP 門開銷降低了 24.5%。

在分區(qū)中性原子架構上,其發(fā)現的編譯策略在 36 個多樣化電路中將平均執(zhí)行時間縮短了 33.2%,穩(wěn)定提升了絕大多數測試用例的表現。

可見,當評估循環(huán)縮放到足夠大時,AI 能夠通過寬度探索出人類直覺無法觸及的怪異但高效的路徑。在嚴謹的物理約束下,AI 也可以成為真正的發(fā)現者。



3、Erd?s 最小重疊問題 (數學極值分析)

這是一個典型的極值構造難題:搜索空間巨大且極其崎嶇,只要某個位置稍微偏一點,整體重疊就會瞬間放大,幾乎就是在針尖上跳舞。

結果也很有意思——人類和現有 AI 基本都卡在 0.38087 附近,已經接近公認極限。但 SimpleTES 還是硬生生往下?lián)噶艘稽c:做到 0.380868,甚至在額外搜索中達到 0.380856。表面看只是小數點后幾位,在這種問題里卻是實打實的「極限推進」。



更關鍵的是,這個提升幾乎和模型大小無關,而是來自搜索過程本身:既沒錯過正確方向,也有足夠耐心往下?lián)讣毠?jié),同時還把隨機性壓到最低。

這已經不是「更聰明的模型」,而是更高效的試錯機制在發(fā)揮作用。



AI4S 新范式:

把「試錯閉環(huán)」當成一等公民

如果說以 OpenAI o1 為代表的推理模型,開啟了「深度思考」的縮放時代,那么 SimpleTES 做的,是把另一件長期被低估的能力,推上主舞臺——嘗試與驗證,本身也可以被縮放。

但這套方法,也不是沒有邊界。

SimpleTES 的能力,本質上被一個東西「鎖死」:評估器(evaluator)。它之所以有效,是因為每一步試錯都能被快速、明確地打分。一旦進入那些評估昂貴、主觀、或者必須依賴真實世界反饋的領域,這套機制就會變得吃力,因為你已經沒法再高頻地「試—評—改」。

另一個限制在于算力怎么分。三個維度現在還是手動調的,而不同任務、不同階段,其實最優(yōu)分配完全不一樣。真正理想的狀態(tài),是系統(tǒng)能根據搜索進展動態(tài)調整,而不是一開始就把資源「寫死」。

還有,這套方法天然適合「有連續(xù)分數」的世界。但在一些更離散的場景(比如定理證明),對錯之間沒有細粒度反饋,很多「差一點」的嘗試看起來是一樣的失敗,這會讓搜索信號變得模糊,甚至誤導方向。

因此,Will 下一步,不只是把試錯做大,還要讓它更聰明,從一個高頻運轉的計算閉環(huán),進化為一個真正具備理解、判斷與探索能力的系統(tǒng)。

當「試錯」不再只是蠻力搜索,而開始具備結構感和方向感時,AI4S 的上限,才會真正被打開。

目前,基于 SimpleTES 方法構建的試用平臺已經在 Will 官網上線,歡迎大家前往申請加入 Waitlist,率先體驗這一全新的科研范式。

  • https://www.wizardquant.com/will/simpletes

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
10年麻將館老板囗述:凡是愛打麻將的,沒有一個人日子是過得好的

10年麻將館老板囗述:凡是愛打麻將的,沒有一個人日子是過得好的

小噎論事
2026-04-24 17:15:21
如今不少制度設計的出發(fā)點,不是“怎么讓工作做得更好”,而是“萬一出事誰背鍋”!

如今不少制度設計的出發(fā)點,不是“怎么讓工作做得更好”,而是“萬一出事誰背鍋”!

碧翰烽
2026-04-26 19:31:18
美國已收到伊朗談判新方案

美國已收到伊朗談判新方案

界面新聞
2026-04-27 11:28:26
醪糟再次被關注!醫(yī)生發(fā)現:高血脂患者喝醪糟,不用多久4大變化

醪糟再次被關注!醫(yī)生發(fā)現:高血脂患者喝醪糟,不用多久4大變化

芹姐說生活
2026-04-19 15:52:53
中國強烈反對歐盟制裁,要求移除被列入俄制裁名單企業(yè)

中國強烈反對歐盟制裁,要求移除被列入俄制裁名單企業(yè)

桂系007
2026-04-26 23:47:03
2026征兵大變天!部隊主動搶人,5類人直接綠色通道

2026征兵大變天!部隊主動搶人,5類人直接綠色通道

Ck的蜜糖
2026-04-26 18:10:08
林志玲抱4歲兒子吃早餐,日本老公悠閑坐著吃,家庭地位卑微傳統(tǒng)

林志玲抱4歲兒子吃早餐,日本老公悠閑坐著吃,家庭地位卑微傳統(tǒng)

椰黃娛樂
2026-04-27 14:02:11
曝球球退出陳翔六點半!疑細節(jié)原因曝光,否認與“蘑菇頭”是夫妻

曝球球退出陳翔六點半!疑細節(jié)原因曝光,否認與“蘑菇頭”是夫妻

橙星文娛
2026-04-26 14:26:26
香港知名女星自曝陷遺產爭奪風波,透露與繼母遭亡父保姆起訴,保姆施計轉走父親一半身家,還有祖墳地契在手,其父至今未能安葬祖墳

香港知名女星自曝陷遺產爭奪風波,透露與繼母遭亡父保姆起訴,保姆施計轉走父親一半身家,還有祖墳地契在手,其父至今未能安葬祖墳

深圳晚報
2026-04-27 16:29:07
“這個世界太不公平了”,36E女孩曬考研北大,數學滿分全網羨慕

“這個世界太不公平了”,36E女孩曬考研北大,數學滿分全網羨慕

妍妍教育日記
2026-04-27 11:30:07
民進黨,極有可能在下一屆臺灣地區(qū)選舉后,成為長期一家獨大政黨

民進黨,極有可能在下一屆臺灣地區(qū)選舉后,成為長期一家獨大政黨

李橑在北漂
2026-04-02 10:22:26
最大的鐵飯碗要碎了嗎:轉崗、超編、過剩......

最大的鐵飯碗要碎了嗎:轉崗、超編、過剩......

燈錦年
2026-04-26 20:25:53
孟子義《奔跑吧》14宣傳片半球裸露被審判,網友:為了黑而黑

孟子義《奔跑吧》14宣傳片半球裸露被審判,網友:為了黑而黑

草莓解說體育
2026-04-26 10:58:37
美軍還沒打贏,“第二個伊朗”冒頭?解放軍“滅國艦隊”開進南海

美軍還沒打贏,“第二個伊朗”冒頭?解放軍“滅國艦隊”開進南海

近史博覽
2026-04-25 05:08:38
一個場均17分的球員,憑什么讓雷霆質變?

一個場均17分的球員,憑什么讓雷霆質變?

體育硬核說
2026-04-28 04:04:53
剛剛,特朗普輸掉所有籌碼,中東戰(zhàn)爭大局已定

剛剛,特朗普輸掉所有籌碼,中東戰(zhàn)爭大局已定

一個壞土豆
2026-04-27 20:49:34
追覓CEO俞浩連發(fā)三條微博炮轟小紅書:價值觀和盈利模式“都有毒”

追覓CEO俞浩連發(fā)三條微博炮轟小紅書:價值觀和盈利模式“都有毒”

紅星新聞
2026-04-27 17:55:36
坊間傳聞:天上人間倒臺內幕:只因勇哥挨打受氣卻沒人幫忙

坊間傳聞:天上人間倒臺內幕:只因勇哥挨打受氣卻沒人幫忙

卡西莫多的故事
2026-03-18 10:04:47
出場時間聯(lián)盟第二,不堪重負,季后賽基本報銷!或許你該離開火箭

出場時間聯(lián)盟第二,不堪重負,季后賽基本報銷!或許你該離開火箭

老梁體育漫談
2026-04-28 00:48:29
中方宣布:普雷沃、黃英賢將訪華

中方宣布:普雷沃、黃英賢將訪華

極目新聞
2026-04-27 15:27:45
2026-04-28 04:23:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12874文章數 142638關注度
往期回顧 全部

科技要聞

DeepSeek V4上線三天,第一批實測出來了

頭條要聞

坐在特朗普身邊親歷槍擊案的女記者 身份非常不一般

頭條要聞

坐在特朗普身邊親歷槍擊案的女記者 身份非常不一般

體育要聞

人類馬拉松"破二"新紀元,一場跑鞋軍備競賽

娛樂要聞

黃楊鈿甜為“耳環(huán)風波”出鏡道歉:謠言已澄清

財經要聞

Meta 140億收購Manus遭中國發(fā)改委否決

汽車要聞

不那么小眾也可以 smart的路會越走越寬

態(tài)度原創(chuàng)

游戲
手機
親子
時尚
家居

《AC黑旗》重制版新增專屬劇情!原版編劇親自執(zhí)筆

手機要聞

一加Nord CE6 Lite官宣5月7日發(fā)布,7000mAh電池

親子要聞

10歲女童確診胰腺癌,醫(yī)生怒問父母:怎能天天給孩子吃這些?

絲巾的10種系法,愛美的女人必看

家居要聞

江景風格 流動的秩序

無障礙瀏覽 進入關懷版