国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Squeeze Evolve:無(wú)需驗(yàn)證器實(shí)現(xiàn)推理新SOTA

0
分享至



本文由加州大學(xué)伯克利分校、德克薩斯大學(xué)奧斯汀分校、斯坦福大學(xué)、普林斯頓大學(xué)與 Together AI 的研究團(tuán)隊(duì)共同完成。研究團(tuán)隊(duì)致力于探索大語(yǔ)言模型推理優(yōu)化、多模型協(xié)同與高效計(jì)算等前沿方向。

本文作者Monishwaran 和 Leon Lakhani 來(lái)自 UC Berkeley,研究方向?yàn)榇笳Z(yǔ)言模型。指導(dǎo)教師是UT Austin 助理教授徐晨豐(研究方向?yàn)楦咝C(jī)器學(xué)習(xí))和Stanford 教授 James Zou(研究方向?yàn)闄C(jī)器學(xué)習(xí)、計(jì)算生物學(xué)等)。



  • 論文鏈接:https://arxiv.org/abs/2604.07725
  • 項(xiàng)目主頁(yè):https://squeeze-evolve.github.io
  • 代碼倉(cāng)庫(kù):https://github.com/squeeze-evolve/squeeze-evolve



每個(gè)大語(yǔ)言模型都有其能力天花板。增加推理預(yù)算、生成更多候選、運(yùn)行更多優(yōu)化循環(huán) —— 單個(gè)模型只是在重復(fù)同樣的先驗(yàn)知識(shí)、同樣的失敗模式、同樣的盲點(diǎn)。其生成的答案種群會(huì)逐漸收斂并停滯不前。

如果突破天花板的方法不是更大的模型,而是一套協(xié)同進(jìn)化的模型系統(tǒng)呢?

這就是 Squeeze Evolve 的核心理念:一個(gè)多模型進(jìn)化框架,通過(guò)編排具有不同優(yōu)勢(shì)、失敗模式和推理風(fēng)格的模型,在無(wú)需任何外部驗(yàn)證器的情況下,產(chǎn)生任何單一模型都無(wú)法單獨(dú)實(shí)現(xiàn)的能力。

研究背景

測(cè)試時(shí)擴(kuò)展(Test-time Scaling)通過(guò)生成多個(gè)候選答案并通過(guò)選擇和重組進(jìn)行迭代優(yōu)化,使模型能夠「更深入地思考」。當(dāng)與外部驗(yàn)證器配合使用時(shí),這種進(jìn)化方法已在代碼生成和科學(xué)發(fā)現(xiàn)領(lǐng)域取得突破。

然而,在許多重要領(lǐng)域(例如等離子體模擬、濕實(shí)驗(yàn)室實(shí)驗(yàn)、開(kāi)放式數(shù)學(xué)推理等),驗(yàn)證要么成本過(guò)高、速度過(guò)慢,要么根本不可用。進(jìn)化必須在沒(méi)有真實(shí)反饋的情況下進(jìn)行。

這就是無(wú)驗(yàn)證器進(jìn)化,它面臨一個(gè)根本性問(wèn)題:單模型種群會(huì)崩潰。

沒(méi)有外部校正時(shí),模型會(huì)放大它已經(jīng)知道如何識(shí)別和重現(xiàn)的軌跡。丟棄數(shù)量極少但正確的方案。因此,多樣性在進(jìn)化中至關(guān)重要。一旦多樣性喪失,就無(wú)法恢復(fù),后續(xù)循環(huán)只能重組幸存軌跡的后代,陷入狹窄的解空間模式。

這就是為什么單純擴(kuò)大單個(gè)模型的推理預(yù)算會(huì)遇到收益遞減。瓶頸不是算力,而是多樣性。



方法概述

不同模型具有不同的先驗(yàn)知識(shí)、不同的訓(xùn)練數(shù)據(jù)分布、不同的失敗模式。當(dāng)它們參與同一個(gè)進(jìn)化過(guò)程時(shí),能夠維持單一模型無(wú)法獨(dú)立保持的互補(bǔ)譜系。

一個(gè)推理模型可能擅長(zhǎng)多步邏輯推理,但在空間推理上表現(xiàn)不佳。一個(gè)指令微調(diào)模型可能整體較弱,但帶來(lái)不同的歸納偏置,保留了推理模型會(huì)剪枝的解決路徑。即使是一個(gè)小得多的模型也能做出有意義的貢獻(xiàn) —— 不是因?yàn)樗?individually 更強(qiáng),而是因?yàn)樗?strong>以不同的方式犯錯(cuò)。

這就是 Squeeze Evolve 能夠超越任何單一模型能力的機(jī)制。多模型編排不僅僅是成本工程 —— 它是能力放大器。

研究團(tuán)隊(duì)發(fā)現(xiàn)了三個(gè)關(guān)鍵實(shí)證結(jié)果:

  1. 初始化主導(dǎo)最終準(zhǔn)確性:Loop 0(初始種群)的質(zhì)量是最終性能的最強(qiáng)預(yù)測(cè)因子。在 AIME 2025 上,反轉(zhuǎn)初始化模型和重組模型的角色會(huì)導(dǎo)致準(zhǔn)確率下降高達(dá) 23 個(gè)百分點(diǎn)。最強(qiáng)模型必須錨定起始種群。
  2. 當(dāng)候選集足夠強(qiáng)時(shí),弱模型是強(qiáng)大的聚合器:當(dāng)一個(gè)組已經(jīng)包含正確軌跡時(shí),即使小得多的模型也能有效聚合它們 —— 接近 100% 的準(zhǔn)確率。昂貴模型的優(yōu)勢(shì)集中在最難、最不確定的組上。在其他地方,便宜模型不僅足夠,而且充分。
  3. 模型置信度預(yù)測(cè)哪里需要能力:從 token 對(duì)數(shù)概率導(dǎo)出的組置信度(Group Confidence, GC)能夠清晰地區(qū)分包含正確軌跡的組和不包含的組。這個(gè)信號(hào)是沒(méi)有任何成本的(在推理過(guò)程中產(chǎn)生),適用于不同模型家族,并直接告訴我們哪些組需要昂貴模型,哪些可以安全地交給便宜模型處理。



實(shí)驗(yàn)評(píng)估

研究團(tuán)隊(duì)在數(shù)學(xué)推理、視覺(jué)理解、科學(xué)發(fā)現(xiàn)等多個(gè)領(lǐng)域進(jìn)行了系統(tǒng)驗(yàn)證。相比單模型 RSA 基線:

  • AIME 2025:GPT-OSS-20B 與 GPT-5 mini 組合后以 55% 成本超越 GPT-5 mini(95.4% vs 94.2%)



  • MMMU-Pro:使用 Qwen3.5-35B-A3B 和 Kimi-2.5-Thingking 的組合以 43% 的成本超越 Kimi-2.5-Thingking 單模型(79.1% vs 78.6%)



  • ARC-AGI-V2:使用 Gemini3 3.1 Pro 大幅超越此前的 RSA 方法 (3.7x 成本節(jié)約,93.3?97.5% 準(zhǔn)確率提升)



  • 圓堆積問(wèn)題:無(wú)需驗(yàn)證器的情況下使用開(kāi)源模型(GPT-OSS 120B + 20B)效果匹配基于驗(yàn)證器的閉源 AlphaEvolve 基線方法(使用 Gemini-2.0 Pro + Flash)



  • 在所有 8 個(gè)基準(zhǔn)測(cè)試上成本降低 1.4–3.3x,吞吐量提升 4–10x



總結(jié)與展望

Squeeze Evolve 的核心洞見(jiàn)是:單個(gè)模型的天花板不是模型系統(tǒng)的天花板。

通過(guò)將現(xiàn)有的測(cè)試時(shí)擴(kuò)展方法統(tǒng)一到共同的進(jìn)化框架中,研究團(tuán)隊(duì)揭示了一個(gè)設(shè)計(jì)空間,在這個(gè)空間中,模型根據(jù)它們的能力在何處具有最高邊際效用被分配到進(jìn)化角色。結(jié)果不僅僅是更便宜的推理 —— 而是真正更強(qiáng)的推理。協(xié)同進(jìn)化的模型產(chǎn)生它們單獨(dú)無(wú)法產(chǎn)生的解決方案。

這將測(cè)試時(shí)擴(kuò)展從「在更大的模型上花更多錢」重新定義為多模型系統(tǒng)優(yōu)化問(wèn)題。前沿不是僅由單個(gè)模型能力推動(dòng)的 —— 而是由你如何智能地編排已有模型推動(dòng)的。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
信仰不是法外之地,全國(guó)開(kāi)始雷霆出擊整頓寺廟

信仰不是法外之地,全國(guó)開(kāi)始雷霆出擊整頓寺廟

世界圈
2026-04-17 08:50:05
南京一派出所副所長(zhǎng)為完成查處任務(wù),“設(shè)計(jì)”讓6名未成年人吸毒再查獲,一審獲刑5年

南京一派出所副所長(zhǎng)為完成查處任務(wù),“設(shè)計(jì)”讓6名未成年人吸毒再查獲,一審獲刑5年

封面新聞
2026-04-26 17:18:07
多存錢,50歲以后,存款達(dá)到“這個(gè)數(shù)”,你的家庭就很有底氣了!

多存錢,50歲以后,存款達(dá)到“這個(gè)數(shù)”,你的家庭就很有底氣了!

貓叔東山再起
2026-04-27 12:10:07
外媒炸鍋了!當(dāng)著日本航母的面,055竟然發(fā)射鷹擊-20?

外媒炸鍋了!當(dāng)著日本航母的面,055竟然發(fā)射鷹擊-20?

走進(jìn)事件的中心
2026-04-26 22:43:47
火箭G4扳回一場(chǎng)!烏度卡強(qiáng)調(diào)防守提升,三次提伊森,談杜蘭特傷情

火箭G4扳回一場(chǎng)!烏度卡強(qiáng)調(diào)防守提升,三次提伊森,談杜蘭特傷情

籃球資訊達(dá)人
2026-04-27 13:51:59
女孩臥鋪車求救武警,戰(zhàn)士轉(zhuǎn)頭裝睡,4小時(shí)后所有人都愣住了

女孩臥鋪車求救武警,戰(zhàn)士轉(zhuǎn)頭裝睡,4小時(shí)后所有人都愣住了

蕭矹影視解說(shuō)
2026-04-15 13:08:16
粟裕那一槍,到底是打歪了,還是故意打歪的

粟裕那一槍,到底是打歪了,還是故意打歪的

鶴羽說(shuō)個(gè)事
2026-03-30 22:03:41
馬斯克再放狠話:能建造出比中國(guó)任何公共交通系統(tǒng),都更好的系統(tǒng)

馬斯克再放狠話:能建造出比中國(guó)任何公共交通系統(tǒng),都更好的系統(tǒng)

精彩一觸即發(fā)
2026-04-26 18:07:56
工資爆炸式增長(zhǎng)是怎樣的感覺(jué) 看網(wǎng)友講述自己的來(lái)時(shí)路   五體投地

工資爆炸式增長(zhǎng)是怎樣的感覺(jué) 看網(wǎng)友講述自己的來(lái)時(shí)路 五體投地

侃神評(píng)故事
2026-04-24 17:15:03
歐爾班宣布退出匈牙利國(guó)會(huì)

歐爾班宣布退出匈牙利國(guó)會(huì)

參考消息
2026-04-26 13:18:23
皮蛋再次成為關(guān)注對(duì)象!研究發(fā)現(xiàn):高血脂吃皮蛋,身體或有6改善

皮蛋再次成為關(guān)注對(duì)象!研究發(fā)現(xiàn):高血脂吃皮蛋,身體或有6改善

健康科普365
2026-04-25 09:27:08
懸崖:刑場(chǎng)那一槍故意打偏了三寸,周乙醒來(lái),發(fā)現(xiàn)高彬正對(duì)著他笑

懸崖:刑場(chǎng)那一槍故意打偏了三寸,周乙醒來(lái),發(fā)現(xiàn)高彬正對(duì)著他笑

卡西莫多的故事
2026-03-11 09:50:05
慘!請(qǐng)13個(gè)外國(guó)演員撐場(chǎng)面,上映2天虧了1億,這電影就是個(gè)笑話

慘!請(qǐng)13個(gè)外國(guó)演員撐場(chǎng)面,上映2天虧了1億,這電影就是個(gè)笑話

靠譜電影君
2026-04-26 22:14:35
王思聰在美國(guó)玩得很嗨,住富人區(qū),吃高檔日料!陪女伴逛環(huán)球影城

王思聰在美國(guó)玩得很嗨,住富人區(qū),吃高檔日料!陪女伴逛環(huán)球影城

娛樂(lè)團(tuán)長(zhǎng)
2026-04-26 21:43:16
普京罕見(jiàn)提戰(zhàn)敗后,俄防長(zhǎng)抵平壤,中俄心照不宣,給美“備禮”?

普京罕見(jiàn)提戰(zhàn)敗后,俄防長(zhǎng)抵平壤,中俄心照不宣,給美“備禮”?

究竟誰(shuí)主沉浮
2026-04-27 12:45:50
蘇易陸自曝,月入20萬(wàn)養(yǎng)著黃一鳴,可她被某老富商包養(yǎng),備注爸爸

蘇易陸自曝,月入20萬(wàn)養(yǎng)著黃一鳴,可她被某老富商包養(yǎng),備注爸爸

一盅情懷
2026-04-26 15:35:23
首個(gè)退群北約的國(guó)家來(lái)了:已走程序,退意已決!

首個(gè)退群北約的國(guó)家來(lái)了:已走程序,退意已決!

福建睿平
2026-04-27 11:46:08
這配速你能跟多久?薩維全馬破2完整配速,35公里后太恐怖

這配速你能跟多久?薩維全馬破2完整配速,35公里后太恐怖

全景體育V
2026-04-26 19:24:48
全員大亂斗!德比大戰(zhàn)爆發(fā)群毆,門將染紅后當(dāng)眾重拳打臉對(duì)手

全員大亂斗!德比大戰(zhàn)爆發(fā)群毆,門將染紅后當(dāng)眾重拳打臉對(duì)手

夜白侃球
2026-04-27 09:03:26
“香港演員幾乎全軍覆沒(méi)! 無(wú)戲可拍”引發(fā)網(wǎng)友熱議

“香港演員幾乎全軍覆沒(méi)! 無(wú)戲可拍”引發(fā)網(wǎng)友熱議

許三歲
2026-03-26 11:35:13
2026-04-27 14:44:50
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12868文章數(shù) 142636關(guān)注度
往期回顧 全部

科技要聞

打1折!DeepSeek輸入緩存降價(jià)

頭條要聞

美海軍考慮從外國(guó)購(gòu)買軍艦和零部件:日韓成潛在選擇

頭條要聞

美海軍考慮從外國(guó)購(gòu)買軍艦和零部件:日韓成潛在選擇

體育要聞

最抽象的天才,正在改變瓜迪奧拉

娛樂(lè)要聞

《奔跑吧14》剛播就把一手好牌打稀爛

財(cái)經(jīng)要聞

DeepSeek融資、字節(jié)加碼 AI開(kāi)始真燒錢了

汽車要聞

在不確定中尋找確定性:大眾汽車的中國(guó)解法

態(tài)度原創(chuàng)

藝術(shù)
教育
手機(jī)
游戲
旅游

藝術(shù)要聞

你絕對(duì)想不到,攝影能讓她成為女神!

教育要聞

AI賦能中學(xué)英語(yǔ)學(xué)科建設(shè)與拔尖創(chuàng)新人才貫通培養(yǎng)研討會(huì)在京舉辦

手機(jī)要聞

蘋果用戶請(qǐng)注意!新款iPhone電量耗盡后可能無(wú)法開(kāi)機(jī) 多款機(jī)型受影響

近期Steam熱門網(wǎng)游一覽!網(wǎng)易、完美榜上有名

旅游要聞

春日暢游抱犢崮 山水漂流樂(lè)享愜意春光

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版