国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

字節(jié)Seed發(fā)布最強數學模型:一招“打草稿”,IMO銀牌變金牌

0
分享至

魚羊 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

字節(jié)最新數學推理專用模型,剛剛刷新戰(zhàn)績:拿下IMO金牌成績。

Scaling Law加持下,這個名為Seed Prover 1.5的模型,在16.5小時內,順利解決IMO 2025的前5道題目,在僅失一題的情況下拿到35分,達到今年IMO的金牌線。



這一成績與7月官方認證的IMO金牌“選手”谷歌Gemini打平。而字節(jié)自己的前代模型,當時的成績是3天完成了6道題目中的4道,以及一道題的部分證明,達到銀牌成績。

同時,Seed Prover 1.5也在北美本科級別數學競賽Putnam這一基準上,大幅刷新了SOTA成績。



模型尚未開源,但技術報告已經公開。

值得關注的是,Seed Prover 1.5強調了大規(guī)模強化學習給數學模型帶來的性能提升,也證明,在推理階段增加計算資源,可以顯著提高解題率。

即,驗證了測試時Scaling和強化學習訓練時的Scaling的有效性。

草稿引導的高效形式化證明

具體來看技術報告。Seed Prover 1.5的參數規(guī)模與Seed 1.6相同,230B總參數,23B激活。

主要創(chuàng)新有兩點:

  • Agentic Prover:一種新的形式化數學推理范式
  • Sketch Model:自然語言到形式語言的翻譯器

Agentic Prover

相較于通用模型用自然語言解答數學問題的方式,數學推理專用模型采用的是形式化數學推理,也就是用Lean等形式語言,構建可在公理系統(tǒng)中機械驗證的證明,以確保結果更加可靠。

其難點在于,形式化證明比自然語言證明更加困難。根據“De Bruijn factor”經驗法則,一行普通的數學推導,通常需要擴展成4到10行復雜的代碼。

這要求模型不僅懂數學,還要精通編程和類型論,而這一高門檻導致形式化證明在效率和成功率上一直遠落后于自然語言推理。

以往的研究中,形式化證明器通常分為兩類:

  • Step-prover:一步一步證明,效率很低;
  • Whole-prover:一次性生成完整證明,但中間一旦出錯就會前功盡棄。

Seed Prover 1.5為了平衡兩種方法的優(yōu)缺點,提出了一種全新的Agentic Prover架構:

模型將Lean語言視為一種工具,且在證明過程中可以自主地調用其他多種工具。

  • Mathlib搜索工具:類似于程序員查閱技術文檔,模型可以主動檢索Lean龐大的數學庫 Mathlib,尋找可用的定理和定義,而非依賴不可靠的隱式記憶。
  • Python代碼執(zhí)行:遇到需要計算的部分,模型可以編寫并運行Python腳本來輔助驗證直覺。
  • 增量式引理驗證:模型不再被迫一次性生成整個證明,而是將復雜問題拆解為若干引理。每證明出一個引理,系統(tǒng)就會將其保留并復用,作為后續(xù)推理的基石。

這樣一來,模型既可以像人類一樣先使用“草稿紙”(自然語言)進行推理,又能夠與Lean環(huán)境及多種工具進行交互,隨時調用工具來驗證猜想。



就是說,Seed Prover 1.5采用的是基于引理的交互方式,既不是一次性生成整個證明,也無需每一步都做交互驗證。

官方技術報告中還提到,Seed Prover 1.5進行了大規(guī)模的Agentic RL。

實驗證明,隨著強化學習訓練步數的增加,模型在訓練集上的證明通過率從初始的50%升至接近90%。

Agentic RL還帶來了大幅的效率提升。在對比測試中,Seed Prover 1.5僅需少量的計算資源,就能在Putnam和Fate等高難度數據集上,擊敗消耗大量算力的上一代Seed Prover模型。



Sketch Model

為了讓模型能更好地“打草稿”,研究人員還專門訓練了Sketch Model,來模擬人類數學家解決問題的方式:

數學家在證明一個復雜定理時,通常不會直接寫出每一步嚴絲合縫的代碼。他們會先在紙上寫下一個非形式化的證明草稿,列出關鍵的中間步驟、引理和大致思路。

Sketch Model同樣不糾結于具體的語法細節(jié),而是專注于邏輯路徑的規(guī)劃。它可以將自然語言證明拆解為若干個獨立的、難度更低的引理,并暫時跳過具體證明,僅保留整體的邏輯骨架。

這就將原本不可解的復雜命題,轉化成了難度更低的子目標。

研究人員采用混合獎勵信號的強化學習策略,來訓練這一模型:

  • 信號一:Lean編譯器驗證生成的草圖是否完全正確。
  • 信號二:自然語言Prover會逐一檢查引理,一旦發(fā)現任一引理在數學上不成立,整個草稿即被否決。
  • 信號三:引入基于長思維鏈的Rubric評分模型,從語義層面評估草稿的質量——考量引理是否與自然語言證明對齊、拆解的粒度是否合適、是否真正降低了原題的難度。

當草稿在形式驗證、數學正確性和整體評分上均滿足要求時,才會獲得正向獎勵。



測試時工作流

以上創(chuàng)新最終構成了一個分層級的多智能體協(xié)作系統(tǒng):

  • Natural Language Prover負責提供高層的數學直覺和自然語言證明。
  • Sketch Model將自然語言轉化為形式化的引理結構。
  • Agentic Prover并行地攻克每一個被拆解出的引理。

如果某個引理太難證明,系統(tǒng)還會遞歸地調用Sketch Model再次進行拆解。這不僅規(guī)避了長文本生成的錯誤累積問題,更提升了推理的并行度和成功率。



研究人員還驗證了這一工作流的測試時Scaling特性。

如上圖所示,投入更多的計算資源,Seed Prover 1.5對問題的解決率會呈對數線性增長。

這項研究來自字節(jié)Seed AI4Math團隊。

量子位捕捉到了其中幾位作者的蹤跡。

Zheng Yuan,清華統(tǒng)計學博士。今年6月剛剛加入字節(jié),此前在阿里Qwen團隊負責對齊和推理方向工作。

Hanwen Zhu,本科畢業(yè)于牛津大學數學與計算機科學專業(yè),目前在CMU讀研,即將加入字節(jié)Seed。

鄭澤宇,CMU在讀博士,字節(jié)Seed實習生,專業(yè)方向同樣是數學與計算機科學聯合方向。

論文鏈接:
https://arxiv.org/pdf/2512.17260
參考鏈接:
[1]https://mp.weixin.qq.com/s/vcciJWK9KfDBM4FBIJwTfw?click_id=2
[2]https://x.com/GanjinZero/status/2001948751871815741

— 完 —

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
弘一法師:少跟孩子生氣,孩子投胎到你家,有這幾種原因

弘一法師:少跟孩子生氣,孩子投胎到你家,有這幾種原因

木言觀
2025-12-23 18:35:55
齊溪做夢也沒想到,離婚6年后,44歲宋寧峰又開始走“上坡路”了

齊溪做夢也沒想到,離婚6年后,44歲宋寧峰又開始走“上坡路”了

白面書誏
2025-12-25 13:49:36
輪到美國被“壟斷”了!“芯片之父”棄美回國,研發(fā)成果堪比核武

輪到美國被“壟斷”了!“芯片之父”棄美回國,研發(fā)成果堪比核武

安珈使者啊
2025-12-25 14:25:42
一場近30萬人參與的瘋狂套利游戲

一場近30萬人參與的瘋狂套利游戲

菜鳥理財
2025-12-24 22:45:02
這次,朱孝天將阿信給他保留的體面撕得粉碎,楊天真的話有人信了

這次,朱孝天將阿信給他保留的體面撕得粉碎,楊天真的話有人信了

叨嘮
2025-12-24 07:00:09
普京也沒想到,辛辛苦苦打了三年多,叛徒內奸卻“越打越多”?

普京也沒想到,辛辛苦苦打了三年多,叛徒內奸卻“越打越多”?

琴音繚繞回
2025-12-25 19:27:29
中國股市:唯一不騙人的指標“換手率”,大于10%說明可以入場!

中國股市:唯一不騙人的指標“換手率”,大于10%說明可以入場!

股經縱橫談
2025-12-24 17:54:29
美媒評本世紀最佳陣:詹科庫杜鄧肯入選一陣,奧尼爾僅三陣

美媒評本世紀最佳陣:詹科庫杜鄧肯入選一陣,奧尼爾僅三陣

懂球帝
2025-12-25 07:52:31
郭禮典再次爆料:徐湖平給反貪局長送畫、舉報15年終等來調查組

郭禮典再次爆料:徐湖平給反貪局長送畫、舉報15年終等來調查組

阿纂看事
2025-12-25 09:40:36
CCTV5直播!廣東VS山東沖6連勝,薩林杰硬磕克里斯,杜鋒不懼挑戰(zhàn)

CCTV5直播!廣東VS山東沖6連勝,薩林杰硬磕克里斯,杜鋒不懼挑戰(zhàn)

老葉評球
2025-12-25 19:46:04
小孩子哪里會撒謊呢?美國一萌娃走丟,畫出其父畫像,超級抽象

小孩子哪里會撒謊呢?美國一萌娃走丟,畫出其父畫像,超級抽象

趣筆談
2025-12-25 10:42:34
2026銀行開門紅!2.1%大額存單不瞎折騰,4個技巧多賺5000+

2026銀行開門紅!2.1%大額存單不瞎折騰,4個技巧多賺5000+

億通電子游戲
2025-12-25 13:52:09
山東一男子沒工作交不起房貸車貸,妻子崩潰大哭:我不想和你過了

山東一男子沒工作交不起房貸車貸,妻子崩潰大哭:我不想和你過了

觀察鑒娛
2025-12-24 09:34:25
泰防長怒批某國“偽中立”:只逼泰國?;?,卻偏袒柬埔寨

泰防長怒批某國“偽中立”:只逼泰國停火,卻偏袒柬埔寨

胡嚴亂語
2025-12-25 15:15:35
黃曉明帶兒子和媽媽包餃子,摘了假發(fā)套發(fā)量很藝術,兒子很像楊穎

黃曉明帶兒子和媽媽包餃子,摘了假發(fā)套發(fā)量很藝術,兒子很像楊穎

笑飲孤鴻非
2025-12-24 01:09:08
確認了!右膝骨挫傷!NBA最慘強隊誕生

確認了!右膝骨挫傷!NBA最慘強隊誕生

籃球實戰(zhàn)寶典
2025-12-25 19:19:48
保護心臟,朝左睡還是朝右睡好?醫(yī)生:若想心臟健康,做好...

保護心臟,朝左睡還是朝右睡好?醫(yī)生:若想心臟健康,做好...

袁醫(yī)生課堂
2025-12-25 07:34:23
深圳前市長8年卷走20億,花天酒地包養(yǎng)女星,落馬時只剩三千塊

深圳前市長8年卷走20億,花天酒地包養(yǎng)女星,落馬時只剩三千塊

文史旺旺旺
2024-12-24 20:42:21
天津醫(yī)科大學總醫(yī)院原黨委書記張建寧接受審查調查

天津醫(yī)科大學總醫(yī)院原黨委書記張建寧接受審查調查

界面新聞
2025-12-25 17:01:14
倪妮太豪!在北京家里過圣誕,意外曝光內景,難怪她看不上馮紹峰

倪妮太豪!在北京家里過圣誕,意外曝光內景,難怪她看不上馮紹峰

情感大頭說說
2025-12-25 11:03:06
2025-12-25 20:47:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
11916文章數 176343關注度
往期回顧 全部

科技要聞

屠龍少年被"招安"!英偉達平安夜豪擲200億

頭條要聞

美司法部發(fā)現上百萬份愛潑斯坦新文件 涂黑操作翻車

頭條要聞

美司法部發(fā)現上百萬份愛潑斯坦新文件 涂黑操作翻車

體育要聞

單賽季11冠,羽壇“安洗瑩時代”真的來了

娛樂要聞

朱孝天把阿信好意當球踢!

財經要聞

時隔15月,人民幣升破7,三大推手曝光

汽車要聞

速來!智界在上海西岸準備了年末潮流盛典

態(tài)度原創(chuàng)

教育
本地
藝術
健康
公開課

教育要聞

作文閱讀公益課68課|如何把文章寫得又長又好?

本地新聞

這輩子要積多少德,下輩子才能投胎到德國當狗

藝術要聞

緬懷 | 著名油畫家宮立龍逝世,享年73歲

這些新療法,讓化療不再那么痛苦

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版