国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

再創(chuàng)歷史!DeepSeek最新開(kāi)源模型Math-V2實(shí)現(xiàn)IMO金牌水準(zhǔn),提出可自驗(yàn)證的數(shù)學(xué)推理

0
分享至

大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自頭部科技

文丨譚梓馨

繼OpenAI發(fā)布GPT-5.1、谷歌推出Gemini 3、Anthropic迭代Claude Opus 4.5之后。

11月27日晚間, DeepSeek團(tuán)隊(duì)在開(kāi)源社區(qū)低調(diào)發(fā)布了一款新模型DeepSeekMath-V2,該模型展現(xiàn)出強(qiáng)大的定理證明能力,在IMO 2025和CMO 2024上取得了金牌水平成績(jī),并在Putnam 2024上取得接近完美的118分(滿分是120分,人類(lèi)選手的歷史最高分為90分)。


值得關(guān)注的是,這也是首個(gè)在IMO競(jìng)賽中達(dá)到金牌水準(zhǔn)的開(kāi)源模型,今年7月份,谷歌DeepMind的“Gemini Deep Think”曾斬獲IMO 2025金牌。
網(wǎng)友們稱(chēng)贊:大藍(lán)鯨又回來(lái)了!

讓AI推理過(guò)程像數(shù)學(xué)家一樣嚴(yán)謹(jǐn)

DeepSeek這篇新模型論文講了什么?簡(jiǎn)單來(lái)說(shuō),其改變了AI數(shù)學(xué)推理的既有路徑:從傳統(tǒng)的“結(jié)果導(dǎo)向”(只關(guān)注答案是否正確) 轉(zhuǎn)向“過(guò)程導(dǎo)向”(重視推理過(guò)程的嚴(yán)謹(jǐn)性和可驗(yàn)證性)。

核心創(chuàng)新是一種自驗(yàn)證架構(gòu):首先訓(xùn)練一個(gè)基于LLM的精準(zhǔn)且可信的定理證明驗(yàn)證器;隨后以該驗(yàn)證器作為獎(jiǎng)勵(lì)模型,訓(xùn)練一個(gè)證明生成器,并激勵(lì)生成器在最終定稿前,自主識(shí)別并修正自身證明過(guò)程中的盡可能多的問(wèn)題。

這一架構(gòu)使模型能像數(shù)學(xué)家一樣思考:自己寫(xiě)證明→自己挑毛病→自己改到無(wú)懈可擊,實(shí)現(xiàn)了AI推理的“自我反思”能力。


DeepSeek團(tuán)隊(duì)在論文中表示,大語(yǔ)言模型(LLMs)在數(shù)學(xué)推理領(lǐng)域已取得顯著進(jìn)展,若能進(jìn)一步突破,有望對(duì)科學(xué)研究產(chǎn)生深遠(yuǎn)影響。

通過(guò)強(qiáng)化學(xué)習(xí)放大推理能力(該方法以最終答案的正確性為獎(jiǎng)勵(lì)導(dǎo)向),LLMs在一年內(nèi)實(shí)現(xiàn)了性能跨越式提升,然而,這種方法存在根本性局限:一味追求更高的最終答案準(zhǔn)確率,無(wú)法解決一個(gè)核心問(wèn)題——正確答案并不等同于嚴(yán)謹(jǐn)?shù)耐评磉^(guò)程。

為突破深度推理的邊界,DeepSeek團(tuán)隊(duì)認(rèn)為有必要對(duì)數(shù)學(xué)推理的完整性與嚴(yán)謹(jǐn)性進(jìn)行驗(yàn)證,尤其在測(cè)試階段計(jì)算量擴(kuò)容場(chǎng)景下(例如面對(duì)無(wú)已知解的開(kāi)放性問(wèn)題時(shí)),自驗(yàn)證能力至關(guān)重要。


為避免生成器性能提升后出現(xiàn)“生成-驗(yàn)證能力差距”擴(kuò)大的問(wèn)題,團(tuán)隊(duì)還提出通過(guò)擴(kuò)容驗(yàn)證計(jì)算量,自動(dòng)標(biāo)記新增的高難度驗(yàn)證樣本,進(jìn)而生成訓(xùn)練數(shù)據(jù)以持續(xù)優(yōu)化驗(yàn)證器。

最終,DeepSeekMath-V2 展現(xiàn)出卓越的定理證明能力:在2025年國(guó)際數(shù)學(xué)奧林匹克(IMO)、2024年中國(guó)數(shù)學(xué)奧林匹克(CMO)中均斬獲金牌級(jí)得分,且在2024年普特南數(shù)學(xué)競(jìng)賽(Putnam)中,通過(guò)擴(kuò)容測(cè)試階段計(jì)算量,取得了118/120的近乎滿分成績(jī),超越了人類(lèi)參賽者90分的最高紀(jì)錄。


研究結(jié)果表明,可自驗(yàn)證數(shù)學(xué)推理是一條切實(shí)可行的研究路徑,有望助力研發(fā)出能力更強(qiáng)大的數(shù)學(xué)AI系統(tǒng)。

人類(lèi)即便在沒(méi)有參考解法的情況下,也能識(shí)別證明中的問(wèn)題——這是解決開(kāi)放性問(wèn)題時(shí)的關(guān)鍵能力。DeepSeek團(tuán)隊(duì)認(rèn)為,LLMs能夠通過(guò)訓(xùn)練獲得“無(wú)參考解法下識(shí)別證明問(wèn)題”的能力。

利用“自我認(rèn)知”系統(tǒng)性提升數(shù)學(xué)推理

DeepSeekMath-V2的證明驗(yàn)證器與生成器構(gòu)成協(xié)同循環(huán):驗(yàn)證器助力生成器優(yōu)化,而生成器性能提升后,會(huì)產(chǎn)出挑戰(zhàn)驗(yàn)證器當(dāng)前能力邊界的新證明。

這些挑戰(zhàn)性樣本(即驗(yàn)證器單次驗(yàn)證可能無(wú)法識(shí)別問(wèn)題的證明),將成為提升驗(yàn)證器自身性能的寶貴訓(xùn)練數(shù)據(jù)。


在DeepSeek自研的CNML級(jí)別題目集中包含91道定理證明題,涵蓋代數(shù)(13道)、幾何(24道)、數(shù)論(19道)、組合數(shù)學(xué)(24道)和不等式(11道)五大類(lèi)別,難度與中國(guó)全國(guó)高中數(shù)學(xué)聯(lián)賽(CNML)題目相當(dāng),各模型在不同類(lèi)別CNML級(jí)別題目上的得分顯示,DeepSeekMath-V2的性能持續(xù)優(yōu)于Gemini2.5-pro和GPT5-Thinking-High,展現(xiàn)出跨領(lǐng)域的卓越定理證明能力。


在2024年國(guó)際數(shù)學(xué)奧林匹克預(yù)選題(IMO Shortlist 2024)上,研究人員通過(guò)序貫優(yōu)化實(shí)現(xiàn)證明質(zhì)量提升。

針對(duì)每道題目啟動(dòng)了32條獨(dú)立的優(yōu)化線程,并通過(guò)最終驗(yàn)證器產(chǎn)出的32份驗(yàn)證分析報(bào)告進(jìn)行多數(shù)投票,判定證明的正確性。

結(jié)果顯示,模型自主篩選的最優(yōu)證明獲得了顯著高于線程平均水平的驗(yàn)證得分,這表明模型的生成器具備準(zhǔn)確評(píng)估證明質(zhì)量的能力;此外,隨著最大序貫嘗試次數(shù)的增加,單次通過(guò)率實(shí)現(xiàn)了實(shí)質(zhì)性提升,證明自驗(yàn)證機(jī)制能有效引導(dǎo)迭代優(yōu)化過(guò)程。

這些結(jié)果證實(shí):DeepSeekMath-V2生成器能夠可靠區(qū)分高質(zhì)量證明與有缺陷證明,并利用這種自我認(rèn)知能力,系統(tǒng)性地提升其數(shù)學(xué)推理水平。

DeepSeek團(tuán)隊(duì)在論文總結(jié)中表示,推進(jìn)自然語(yǔ)言定理證明的發(fā)展將為形式化推理帶來(lái)顯著助力。期望通過(guò)本研究,為構(gòu)建真正可靠的數(shù)學(xué)推理系統(tǒng)做出貢獻(xiàn)——這類(lèi)系統(tǒng)能夠同時(shí)借助非形式化洞察與形式化保障,推動(dòng)數(shù)學(xué)研究的進(jìn)步。

開(kāi)源AI進(jìn)入中國(guó)主導(dǎo)階段

盡管不是科技巨頭,但DeepSeek一直是全球開(kāi)源模型的創(chuàng)新探索引領(lǐng)者。

日前,麻省理工學(xué)院(MIT)和開(kāi)源平臺(tái)Hugging Face合作的一項(xiàng)“開(kāi)放智能經(jīng)濟(jì)”研究發(fā)現(xiàn),過(guò)去一年中,中國(guó)開(kāi)發(fā)的新型開(kāi)源模型的下載總量占比上升至17%,在全球開(kāi)源AI模型市場(chǎng)中比美國(guó)占據(jù)了更多關(guān)鍵優(yōu)勢(shì)。


研究還發(fā)現(xiàn),美國(guó)、中國(guó)、英國(guó)的開(kāi)發(fā)力量嚴(yán)重偏向產(chǎn)業(yè)端;而德國(guó)、法國(guó)及歐洲其他地區(qū)與線上開(kāi)發(fā)力量則更均衡,涵蓋非營(yíng)利機(jī)構(gòu)、高校及社區(qū)貢獻(xiàn)者。


行業(yè)權(quán)力格局正發(fā)生根本性重構(gòu):谷歌、Meta和OpenAI主導(dǎo)的美國(guó)開(kāi)源權(quán)重產(chǎn)業(yè)優(yōu)勢(shì)已大幅下滑,非關(guān)聯(lián)開(kāi)發(fā)者、社區(qū)組織以及2025年崛起的中國(guó)產(chǎn)業(yè)力量逐漸崛起。
隨著DeepSeek、Qwen、Hunyuan、GLM、Kimi、MiniMax、ERNIE等多家開(kāi)源模型的持續(xù)滲透,且不斷拉近與封閉模型之間的差距,或?qū)㈤_(kāi)啟由中國(guó)開(kāi)發(fā)者主導(dǎo)的新一輪市場(chǎng)權(quán)力整合。

注:頭圖AI生成

作者長(zhǎng)期關(guān)注 AI 產(chǎn)業(yè)與學(xué)術(shù),歡迎對(duì)這些方向感興趣的朋友添加微信Q1yezi,共同交流行業(yè)動(dòng)態(tài)與技術(shù)趨勢(shì)!

GPU 訓(xùn)練特惠!

H100/H200 GPU算力按秒計(jì)費(fèi),平均節(jié)省開(kāi)支30%以上!

掃碼了解詳情?

點(diǎn)「贊」的人都變好看了哦!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
日本專(zhuān)家表示:如果中日戰(zhàn)真的發(fā)生了,日本老百姓根本不需要害怕

日本專(zhuān)家表示:如果中日戰(zhàn)真的發(fā)生了,日本老百姓根本不需要害怕

安安說(shuō)
2026-04-23 11:40:47
保姆偷拿了家里2瓶茅臺(tái)去賣(mài),我沒(méi)揭穿只辭退了她,臨走時(shí)她指了指舊皮鞋,我一看瞬間癱坐在地

保姆偷拿了家里2瓶茅臺(tái)去賣(mài),我沒(méi)揭穿只辭退了她,臨走時(shí)她指了指舊皮鞋,我一看瞬間癱坐在地

今夜有個(gè)好故事
2026-03-11 17:26:56
斯諾克世錦賽16強(qiáng)對(duì)陣!丁俊暉戰(zhàn)趙心童時(shí)間曝光,吳宜澤PK塞爾比

斯諾克世錦賽16強(qiáng)對(duì)陣!丁俊暉戰(zhàn)趙心童時(shí)間曝光,吳宜澤PK塞爾比

曹說(shuō)體育
2026-04-23 11:39:25
已確認(rèn)系淫穢物品!家長(zhǎng)趕緊自查

已確認(rèn)系淫穢物品!家長(zhǎng)趕緊自查

深圳晚報(bào)
2026-04-22 22:45:45
5月1日?qǐng)?zhí)行!酒駕處罰全面升級(jí),再敢喝酒開(kāi)車(chē),代價(jià)太大了

5月1日?qǐng)?zhí)行!酒駕處罰全面升級(jí),再敢喝酒開(kāi)車(chē),代價(jià)太大了

大魚(yú)簡(jiǎn)科
2026-04-23 14:35:54
上海地鐵站內(nèi),這個(gè)“高素質(zhì)”習(xí)慣爆發(fā)沖突!上海已叫停多年!很多人改不過(guò)來(lái)……

上海地鐵站內(nèi),這個(gè)“高素質(zhì)”習(xí)慣爆發(fā)沖突!上海已叫停多年!很多人改不過(guò)來(lái)……

環(huán)球網(wǎng)資訊
2026-04-23 11:11:44
C羅心中最強(qiáng)球員出爐:梅西是競(jìng)爭(zhēng)對(duì)手,最強(qiáng)球員里沒(méi)有他

C羅心中最強(qiáng)球員出爐:梅西是競(jìng)爭(zhēng)對(duì)手,最強(qiáng)球員里沒(méi)有他

體育閑話說(shuō)
2026-04-23 20:50:09
多虧伊朗沒(méi)去巴基斯坦,德黑蘭已經(jīng)識(shí)破了美國(guó)的把戲?

多虧伊朗沒(méi)去巴基斯坦,德黑蘭已經(jīng)識(shí)破了美國(guó)的把戲?

車(chē)窗起霧q
2026-04-23 22:00:40
世錦賽戰(zhàn)報(bào):3-10!中國(guó)已有6人出局,種子名將連輸9局爆冷一輪游

世錦賽戰(zhàn)報(bào):3-10!中國(guó)已有6人出局,種子名將連輸9局爆冷一輪游

小火箭愛(ài)體育
2026-04-23 21:37:48
《新聞聯(lián)播》迎“換血潮”,70后主播將退場(chǎng),4位接班人浮出水面

《新聞聯(lián)播》迎“換血潮”,70后主播將退場(chǎng),4位接班人浮出水面

青梅侃史啊
2026-04-23 14:38:29
廣西:堅(jiān)決摒棄“領(lǐng)導(dǎo)不批示不動(dòng)、事情不鬧大不動(dòng)、媒體不曝光不動(dòng)”等不良現(xiàn)象

廣西:堅(jiān)決摒棄“領(lǐng)導(dǎo)不批示不動(dòng)、事情不鬧大不動(dòng)、媒體不曝光不動(dòng)”等不良現(xiàn)象

起喜電影
2026-04-24 00:02:35
寺廟整治風(fēng)暴來(lái)襲 43家違規(guī)場(chǎng)所被關(guān)停

寺廟整治風(fēng)暴來(lái)襲 43家違規(guī)場(chǎng)所被關(guān)停

阿萊美食匯
2026-04-24 00:03:25
中紀(jì)委2026嚴(yán)查新方向,這6類(lèi)崗位首當(dāng)其沖

中紀(jì)委2026嚴(yán)查新方向,這6類(lèi)崗位首當(dāng)其沖

細(xì)說(shuō)職場(chǎng)
2026-04-23 09:15:43
阿瑙托維奇:因疫情在中國(guó)隔離至抑郁,最終選擇重返歐洲

阿瑙托維奇:因疫情在中國(guó)隔離至抑郁,最終選擇重返歐洲

懂球帝
2026-04-23 08:32:10
剛剛,全線跳水!美軍,動(dòng)手了!

剛剛,全線跳水!美軍,動(dòng)手了!

中國(guó)基金報(bào)
2026-04-23 14:34:47
龍卷風(fēng)撕掉屋頂后,Rivian R2還是下線了

龍卷風(fēng)撕掉屋頂后,Rivian R2還是下線了

碳基打工人
2026-04-22 23:50:24
一韓國(guó)籍男子在靖國(guó)神社抗議被日本警方逮捕

一韓國(guó)籍男子在靖國(guó)神社抗議被日本警方逮捕

澎湃新聞
2026-04-23 00:43:09
AI竟能生成《金瓶梅》"3A大作"!尺度很大細(xì)節(jié)夸張

AI竟能生成《金瓶梅》"3A大作"!尺度很大細(xì)節(jié)夸張

游民星空
2026-04-22 11:55:38
1比4逆轉(zhuǎn)后特魯姆普放話:趙心童不是最大威脅,50倍丁俊暉才是

1比4逆轉(zhuǎn)后特魯姆普放話:趙心童不是最大威脅,50倍丁俊暉才是

生活新鮮市
2026-04-23 18:37:10
伊朗政權(quán)變天了!

伊朗政權(quán)變天了!

阿振觀點(diǎn)
2026-04-24 00:20:51
2026-04-24 02:32:49
大數(shù)據(jù)文摘 incentive-icons
大數(shù)據(jù)文摘
專(zhuān)注大數(shù)據(jù),每日有分享!
6852文章數(shù) 94541關(guān)注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產(chǎn)品",但量產(chǎn)難預(yù)測(cè)

頭條要聞

以色列:只要美國(guó)同意 將刺殺伊朗最高領(lǐng)袖

頭條要聞

以色列:只要美國(guó)同意 將刺殺伊朗最高領(lǐng)袖

體育要聞

給文班剃頭的馬刺DJ,成為NBA最佳第六人

娛樂(lè)要聞

王大陸因涉黑討債被判 女友也一同獲刑

財(cái)經(jīng)要聞

普華永道賠償10億 恒大股東見(jiàn)到"回頭錢(qián)"

汽車(chē)要聞

預(yù)售30.29萬(wàn)起 嵐圖泰山X8配896線激光雷達(dá)

態(tài)度原創(chuàng)

游戲
健康
房產(chǎn)
公開(kāi)課
軍事航空

任天堂NS2銷(xiāo)量4倍碾壓PS5!差距懸殊 索尼難挽頹勢(shì)

干細(xì)胞如何讓燒燙傷皮膚"再生"?

房產(chǎn)要聞

三亞安居房,突然官宣!

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

人民海軍成立77周年 主力艦艇亮相上海

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版