国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

字節(jié)Seed發(fā)布最強數(shù)學(xué)模型:一招“打草稿”,IMO銀牌變金牌

0
分享至

魚羊 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

字節(jié)最新數(shù)學(xué)推理專用模型,剛剛刷新戰(zhàn)績:拿下IMO金牌成績。

Scaling Law加持下,這個名為Seed Prover 1.5的模型,在16.5小時內(nèi),順利解決IMO 2025的前5道題目,在僅失一題的情況下拿到35分,達(dá)到今年IMO的金牌線。



這一成績與7月官方認(rèn)證的IMO金牌“選手”谷歌Gemini打平。而字節(jié)自己的前代模型,當(dāng)時的成績是3天完成了6道題目中的4道,以及一道題的部分證明,達(dá)到銀牌成績。

同時,Seed Prover 1.5也在北美本科級別數(shù)學(xué)競賽Putnam這一基準(zhǔn)上,大幅刷新了SOTA成績。



模型尚未開源,但技術(shù)報告已經(jīng)公開。

值得關(guān)注的是,Seed Prover 1.5強調(diào)了大規(guī)模強化學(xué)習(xí)給數(shù)學(xué)模型帶來的性能提升,也證明,在推理階段增加計算資源,可以顯著提高解題率。

即,驗證了測試時Scaling和強化學(xué)習(xí)訓(xùn)練時的Scaling的有效性。

草稿引導(dǎo)的高效形式化證明

具體來看技術(shù)報告。Seed Prover 1.5的參數(shù)規(guī)模與Seed 1.6相同,230B總參數(shù),23B激活。

主要創(chuàng)新有兩點:

  • Agentic Prover:一種新的形式化數(shù)學(xué)推理范式
  • Sketch Model:自然語言到形式語言的翻譯器

Agentic Prover

相較于通用模型用自然語言解答數(shù)學(xué)問題的方式,數(shù)學(xué)推理專用模型采用的是形式化數(shù)學(xué)推理,也就是用Lean等形式語言,構(gòu)建可在公理系統(tǒng)中機械驗證的證明,以確保結(jié)果更加可靠。

其難點在于,形式化證明比自然語言證明更加困難。根據(jù)“De Bruijn factor”經(jīng)驗法則,一行普通的數(shù)學(xué)推導(dǎo),通常需要擴展成4到10行復(fù)雜的代碼。

這要求模型不僅懂?dāng)?shù)學(xué),還要精通編程和類型論,而這一高門檻導(dǎo)致形式化證明在效率和成功率上一直遠(yuǎn)落后于自然語言推理。

以往的研究中,形式化證明器通常分為兩類:

  • Step-prover:一步一步證明,效率很低;
  • Whole-prover:一次性生成完整證明,但中間一旦出錯就會前功盡棄。

Seed Prover 1.5為了平衡兩種方法的優(yōu)缺點,提出了一種全新的Agentic Prover架構(gòu):

模型將Lean語言視為一種工具,且在證明過程中可以自主地調(diào)用其他多種工具。

  • Mathlib搜索工具:類似于程序員查閱技術(shù)文檔,模型可以主動檢索Lean龐大的數(shù)學(xué)庫 Mathlib,尋找可用的定理和定義,而非依賴不可靠的隱式記憶。
  • Python代碼執(zhí)行:遇到需要計算的部分,模型可以編寫并運行Python腳本來輔助驗證直覺。
  • 增量式引理驗證:模型不再被迫一次性生成整個證明,而是將復(fù)雜問題拆解為若干引理。每證明出一個引理,系統(tǒng)就會將其保留并復(fù)用,作為后續(xù)推理的基石。

這樣一來,模型既可以像人類一樣先使用“草稿紙”(自然語言)進(jìn)行推理,又能夠與Lean環(huán)境及多種工具進(jìn)行交互,隨時調(diào)用工具來驗證猜想。



就是說,Seed Prover 1.5采用的是基于引理的交互方式,既不是一次性生成整個證明,也無需每一步都做交互驗證。

官方技術(shù)報告中還提到,Seed Prover 1.5進(jìn)行了大規(guī)模的Agentic RL。

實驗證明,隨著強化學(xué)習(xí)訓(xùn)練步數(shù)的增加,模型在訓(xùn)練集上的證明通過率從初始的50%升至接近90%。

Agentic RL還帶來了大幅的效率提升。在對比測試中,Seed Prover 1.5僅需少量的計算資源,就能在Putnam和Fate等高難度數(shù)據(jù)集上,擊敗消耗大量算力的上一代Seed Prover模型。



Sketch Model

為了讓模型能更好地“打草稿”,研究人員還專門訓(xùn)練了Sketch Model,來模擬人類數(shù)學(xué)家解決問題的方式:

數(shù)學(xué)家在證明一個復(fù)雜定理時,通常不會直接寫出每一步嚴(yán)絲合縫的代碼。他們會先在紙上寫下一個非形式化的證明草稿,列出關(guān)鍵的中間步驟、引理和大致思路。

Sketch Model同樣不糾結(jié)于具體的語法細(xì)節(jié),而是專注于邏輯路徑的規(guī)劃。它可以將自然語言證明拆解為若干個獨立的、難度更低的引理,并暫時跳過具體證明,僅保留整體的邏輯骨架。

這就將原本不可解的復(fù)雜命題,轉(zhuǎn)化成了難度更低的子目標(biāo)。

研究人員采用混合獎勵信號的強化學(xué)習(xí)策略,來訓(xùn)練這一模型:

  • 信號一:Lean編譯器驗證生成的草圖是否完全正確。
  • 信號二:自然語言Prover會逐一檢查引理,一旦發(fā)現(xiàn)任一引理在數(shù)學(xué)上不成立,整個草稿即被否決。
  • 信號三:引入基于長思維鏈的Rubric評分模型,從語義層面評估草稿的質(zhì)量——考量引理是否與自然語言證明對齊、拆解的粒度是否合適、是否真正降低了原題的難度。

當(dāng)草稿在形式驗證、數(shù)學(xué)正確性和整體評分上均滿足要求時,才會獲得正向獎勵。



測試時工作流

以上創(chuàng)新最終構(gòu)成了一個分層級的多智能體協(xié)作系統(tǒng):

  • Natural Language Prover負(fù)責(zé)提供高層的數(shù)學(xué)直覺和自然語言證明。
  • Sketch Model將自然語言轉(zhuǎn)化為形式化的引理結(jié)構(gòu)。
  • Agentic Prover并行地攻克每一個被拆解出的引理。

如果某個引理太難證明,系統(tǒng)還會遞歸地調(diào)用Sketch Model再次進(jìn)行拆解。這不僅規(guī)避了長文本生成的錯誤累積問題,更提升了推理的并行度和成功率。



研究人員還驗證了這一工作流的測試時Scaling特性。

如上圖所示,投入更多的計算資源,Seed Prover 1.5對問題的解決率會呈對數(shù)線性增長。

這項研究來自字節(jié)Seed AI4Math團隊。

量子位捕捉到了其中幾位作者的蹤跡。

Zheng Yuan,清華統(tǒng)計學(xué)博士。今年6月剛剛加入字節(jié),此前在阿里Qwen團隊負(fù)責(zé)對齊和推理方向工作。

Hanwen Zhu,本科畢業(yè)于牛津大學(xué)數(shù)學(xué)與計算機科學(xué)專業(yè),目前在CMU讀研,即將加入字節(jié)Seed。

鄭澤宇,CMU在讀博士,字節(jié)Seed實習(xí)生,專業(yè)方向同樣是數(shù)學(xué)與計算機科學(xué)聯(lián)合方向。

論文鏈接:
https://arxiv.org/pdf/2512.17260
參考鏈接:
[1]https://mp.weixin.qq.com/s/vcciJWK9KfDBM4FBIJwTfw?click_id=2
[2]https://x.com/GanjinZero/status/2001948751871815741

— 完 —

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
“煤改氣”導(dǎo)致華北部分農(nóng)村取暖難!央媒發(fā)聲,保民生底線不能破

“煤改氣”導(dǎo)致華北部分農(nóng)村取暖難!央媒發(fā)聲,保民生底線不能破

李健政觀察
2026-01-05 09:38:20
“馬倒成功”可以在任何地方,唯獨不能在太原?

“馬倒成功”可以在任何地方,唯獨不能在太原?

姬鵬
2026-01-05 19:31:48
7年燒掉35億,營收僅4500萬,“中國版SpaceX”帶病闖關(guān)?

7年燒掉35億,營收僅4500萬,“中國版SpaceX”帶病闖關(guān)?

功夫財經(jīng)
2026-01-06 08:28:25
2813枚核彈24小時待命,張召忠曾經(jīng)發(fā)出警告:一旦開戰(zhàn),無處可逃

2813枚核彈24小時待命,張召忠曾經(jīng)發(fā)出警告:一旦開戰(zhàn),無處可逃

史智文道
2026-01-06 11:42:39
李在明抵達(dá)北京,不到24小時,對華稱呼變了,朝鮮突然做出大動作

李在明抵達(dá)北京,不到24小時,對華稱呼變了,朝鮮突然做出大動作

娛樂小可愛蛙
2026-01-06 11:03:53
同胞遇害拋尸柬埔寨,六名中國男子落網(wǎng),還聽媒體鼓動去旅游嗎?

同胞遇害拋尸柬埔寨,六名中國男子落網(wǎng),還聽媒體鼓動去旅游嗎?

你食不食油餅
2026-01-02 20:47:35
海清47歲素顏包餃子,廚房大得像影棚,兒子17歲,老公身份曝光

海清47歲素顏包餃子,廚房大得像影棚,兒子17歲,老公身份曝光

小椰的奶奶
2026-01-05 16:25:26
2天狂攬2800萬美元,《怪奇物語》奇襲北美院線,嚇了卡神一大跳

2天狂攬2800萬美元,《怪奇物語》奇襲北美院線,嚇了卡神一大跳

電影票房預(yù)告片
2026-01-05 23:47:45
TVB典禮上:陳自瑤真空漏半球,人妻味好濃,秒了不結(jié)婚的佘詩曼

TVB典禮上:陳自瑤真空漏半球,人妻味好濃,秒了不結(jié)婚的佘詩曼

嫹筆牂牂
2026-01-06 07:13:33
馬杜羅還有救,聯(lián)合國召開大會,6國出面救人,朝鮮下令發(fā)射導(dǎo)彈

馬杜羅還有救,聯(lián)合國召開大會,6國出面救人,朝鮮下令發(fā)射導(dǎo)彈

博覽歷史
2026-01-05 18:29:17
馬杜羅有四個兒子,親兒子被起訴,是下一個目標(biāo),其他三子或幸免

馬杜羅有四個兒子,親兒子被起訴,是下一個目標(biāo),其他三子或幸免

悅心知足
2026-01-04 10:04:50
羅晉攜任素汐去祈福后,唐嫣連發(fā)三文表態(tài),婚變傳聞終于真相大白

羅晉攜任素汐去祈福后,唐嫣連發(fā)三文表態(tài),婚變傳聞終于真相大白

瓜汁橘長Dr
2025-12-29 11:29:56
火箭勝太陽后!1喜訊2不利,阿杜26分+絕殺舊主,烏度卡遇新挑戰(zhàn)

火箭勝太陽后!1喜訊2不利,阿杜26分+絕殺舊主,烏度卡遇新挑戰(zhàn)

蘭亭墨未干
2026-01-06 11:59:50
香港只認(rèn)這23所內(nèi)地大學(xué)!17所985集體出局,分?jǐn)?shù)高也沒用

香港只認(rèn)這23所內(nèi)地大學(xué)!17所985集體出局,分?jǐn)?shù)高也沒用

Delete丨CC
2026-01-02 21:12:43
馬斯克收心了?官宣了39歲印度裔伴侶:相貌普通為他生了4個孩子

馬斯克收心了?官宣了39歲印度裔伴侶:相貌普通為他生了4個孩子

豐譚筆錄
2025-12-12 11:16:23
羅馬諾:索爾斯克亞愿意回歸曼聯(lián),而且也不在乎合同期限

羅馬諾:索爾斯克亞愿意回歸曼聯(lián),而且也不在乎合同期限

懂球帝
2026-01-06 05:25:11
(最新)童錦程的孩子媽媽:孩子已經(jīng)是超一線身價,自己母憑子貴不接受之前價格和解了

(最新)童錦程的孩子媽媽:孩子已經(jīng)是超一線身價,自己母憑子貴不接受之前價格和解了

杭城村叔
2026-01-05 09:58:45
因顏值走紅的15歲素人女孩“七七”簽約經(jīng)紀(jì)公司

因顏值走紅的15歲素人女孩“七七”簽約經(jīng)紀(jì)公司

大象新聞
2026-01-05 11:49:04
因年終獎為零,我平靜辭職后去環(huán)游世界,三天后老板在群里@我

因年終獎為零,我平靜辭職后去環(huán)游世界,三天后老板在群里@我

徐俠客有話說
2025-12-08 10:29:05
火箭射日神劇情:杜蘭特戰(zhàn)舊主三分準(zhǔn)絕殺登海報 布克丟絕平三分

火箭射日神劇情:杜蘭特戰(zhàn)舊主三分準(zhǔn)絕殺登海報 布克丟絕平三分

醉臥浮生
2026-01-06 11:39:52
2026-01-06 12:48:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
11974文章數(shù) 176356關(guān)注度
往期回顧 全部

科技要聞

速看!黃仁勛萬字實錄:甩出"物理AI"王牌

頭條要聞

鄧紫棋的科幻小說"入圍"銀河獎引熱議 其副業(yè)不只寫作

頭條要聞

鄧紫棋的科幻小說"入圍"銀河獎引熱議 其副業(yè)不只寫作

體育要聞

從NBA最菜首發(fā)控衛(wèi),到NBA最強喬治

娛樂要聞

朱媛媛遺作《小城大事》定檔1月10日

財經(jīng)要聞

丁一凡:中美進(jìn)入相對穩(wěn)定的競爭共存期

汽車要聞

讓智駕能看懂真實世界 英偉達(dá)發(fā)布開源Alpamayo平臺

態(tài)度原創(chuàng)

藝術(shù)
家居
本地
手機
公開課

藝術(shù)要聞

2026馬年趙孟頫高清集字春聯(lián)大放送,收藏備用!

家居要聞

引光之宅 地下室也有生機

本地新聞

云游內(nèi)蒙|初見呼和浩特,古今交融的北疆都會

手機要聞

年度第一水落石出,vivo五連冠,小米屈居第二

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版