網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

DeepSeek的模型，讓AI第一次學(xué)會(huì)了反思。

2025-11-28 09:22:59　來(lái)源: 數(shù)字生命卡茲克

天津舉報(bào)

分享至

昨天有一個(gè)有趣的事，真的太魔幻了，感覺(jué)劇本都不會(huì)寫的這么巧。

就在昨天晚上，DeepSeek悄悄地上了一個(gè)新模型，DeepSeekMath-V2。

一個(gè)基于DeepSeek-V3.2-Exp-Base構(gòu)建的685B的數(shù)學(xué)專用模型。

這個(gè)模型特殊的點(diǎn)，說(shuō)人話就是，它不僅能給出答案，還能自己檢查自己的解題步驟，自己給自己挑錯(cuò)，自己跟自己辯論，直到它自己覺(jué)得自己整個(gè)推理過(guò)程，完美無(wú)瑕。

而且，能力上，達(dá)到了奧林匹克金牌水平。

并在 IMO 2025（解決了 5/6 道題）和 Putnam 2024（接近滿分 118/120 分）等競(jìng)賽中表現(xiàn)出色。

同時(shí)，按照DeepSeek傳統(tǒng)，直接開(kāi)源+送論文。

論文名字很直接：《DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning》。

而我之所以說(shuō)魔幻的原因在于。

就在2天前，大洋彼岸，被譽(yù)為AI教父之一、前OpenAI首席科學(xué)家Ilya Sutskever，剛剛出來(lái)發(fā)聲，錄了一期播客。

在這期播客里，他拋出了一個(gè)非常有意思的擔(dān)憂。

就是，現(xiàn)在的AI模型很奇怪。

一方面，它們?cè)诟鞣N評(píng)測(cè)集上刷出了逆天的分?jǐn)?shù)，什么考試、什么競(jìng)賽，都能名列前茅。

但另一方面，你把它扔到真實(shí)世界里去解決實(shí)際問(wèn)題，它又蠢得讓人想砸電腦。

他舉了個(gè)例子，特別寫實(shí)：

就是你讓AI幫你修一個(gè)代碼里的bug A，它說(shuō)“好嘞”，然后給你引入了一個(gè)新的bug B。

你再讓它修bug B，它又說(shuō)“沒(méi)問(wèn)題”，然后轉(zhuǎn)身就把bug A又給改回來(lái)了。

就這么來(lái)來(lái)回回，修了半天修不好，我相信大家玩vibe coding的人，都遇到過(guò)這個(gè)問(wèn)題。

Ilya自己一直在思考，為什么會(huì)這樣？為什么評(píng)測(cè)表現(xiàn)和真實(shí)世界表現(xiàn)之間，有這么大的鴻溝？

他在這個(gè)播客里面，給出了一個(gè)非常深刻的類比。

他說(shuō)，現(xiàn)在的AI模型，就像一個(gè)特長(zhǎng)生A，這個(gè)學(xué)生的目標(biāo)呢，就是成為最牛逼的算法競(jìng)賽選手。

于是他花了一萬(wàn)個(gè)小時(shí)，刷遍了所有競(jìng)賽題，背熟了所有解題技巧。最后，他確實(shí)成了這個(gè)領(lǐng)域的王者。

但還有一個(gè)通才生B。他對(duì)競(jìng)賽也感興趣，但只花了100個(gè)小時(shí)去練習(xí)，成績(jī)也不錯(cuò)。

但他把更多的時(shí)間，花在了理解世界、廣泛閱讀、與人交流這些務(wù)虛的事情上。

Ilya問(wèn)：這兩個(gè)學(xué)生，誰(shuí)未來(lái)的職業(yè)發(fā)展會(huì)更好？

答案不言而喻，是學(xué)生B。

因?yàn)閷W(xué)生A的強(qiáng)大，是一種應(yīng)試的強(qiáng)大。

他的所有能力，都是為了在評(píng)測(cè)中拿高分這個(gè)單一目標(biāo)而優(yōu)化的。這種訓(xùn)練，就像把一個(gè)人的視野強(qiáng)行壓縮成一根針，他在這根針里能看到原子，但在針以外的世界，他是個(gè)盲人。

而學(xué)生B，他擁有一種更可貴的東西，Ilya也不知道該怎么描述，所以他的原話就是“那股勁兒”（the "it"），一種更深刻的、更具泛化性的理解力。

所以，最后就會(huì)導(dǎo)致，經(jīng)過(guò)重度 RL 對(duì)齊的模型往往顯得更笨或更缺乏創(chuàng)造力，RL強(qiáng)行讓 AI 去討好人類的某個(gè)單一指標(biāo)，卻可能犧牲了它原本寬廣的通用智力。

其實(shí)最近一些大模型，比如GPT-5、Gemini 3 Pro在寫作能力上的下降，我覺(jué)得就能看出一些端倪了。

Ilya的這段話，還是引起了非常大的反響的。

然后，就在這個(gè)問(wèn)題還余音繞梁的時(shí)候，DeepSeekMath-V2來(lái)了。

直接說(shuō)，我搞定了。

特別有意思。

可以說(shuō)，DeepSeekMath-V2，已經(jīng)開(kāi)始解決Ilya的一些擔(dān)憂了。

在講DeepSeekMath-V2之前，我覺(jué)得還是先有必要，來(lái)聊聊以前的AI是怎么做數(shù)學(xué)題的。超級(jí)簡(jiǎn)單，也超級(jí)粗暴。

就是，結(jié)果導(dǎo)向。

就像一個(gè)公司的銷售，老板只看你月底的業(yè)績(jī)報(bào)表，不管你這單子是怎么簽下來(lái)的。你用盡九牛二虎之力，還是用了一些骯臟的手段，還是瞎貓碰上死耗子，無(wú)所謂，只要最后那個(gè)數(shù)字是對(duì)的，模型就能得到獎(jiǎng)勵(lì)。

這種模式，在做一些簡(jiǎn)單的計(jì)算題時(shí)，問(wèn)題不大。

但一旦涉及到復(fù)雜的證明題，就徹底廢了。

我相信大家上學(xué)時(shí)肯定也都被數(shù)學(xué)老師折磨過(guò)，我自己最常聽(tīng)到的一句話，就是。。。

“答題是看過(guò)程的！你的過(guò)程呢？！”

一道大題15分，答案可能只占2分，剩下13分，全在過(guò)程里。

你就算最后答案蒙對(duì)了，過(guò)程一塌糊涂，照樣拉跨。

因?yàn)閿?shù)學(xué)這門學(xué)科，從本質(zhì)上來(lái)說(shuō)，它追求的就不是那個(gè)最終的答案，而是那個(gè)無(wú)懈可擊、一步一響的邏輯鏈。

是從公理這個(gè)地基開(kāi)始，一磚一瓦，蓋起一座真理的大廈。

中間任何一環(huán)有瑕疵，整個(gè)大廈都會(huì)崩塌。

之前的AI，就是這樣的，你讓他寫出答案，他可能還真的沒(méi)啥問(wèn)題，但是你讓他寫證明過(guò)程，那就完特么蛋了，經(jīng)常給你生編硬造。

甚至有時(shí)候，它給你的最終答案，是靠著某個(gè)計(jì)算失誤+另一個(gè)邏輯錯(cuò)誤負(fù)負(fù)得正，最后歪打正著搞出來(lái)的。

這就是過(guò)去AI的通病，你說(shuō)他對(duì)了吧，他也真對(duì)了，但是你要是跟他在過(guò)程中較個(gè)真吧，那也經(jīng)常錯(cuò)的離譜。

本質(zhì)上，還是模型沒(méi)有反思能力。

雖然模型有所謂的思維鏈，但是這個(gè)思維鏈，或者說(shuō)這個(gè)邏輯，也分幾個(gè)級(jí)別。

第一個(gè)級(jí)別，我稱之為Prompt級(jí)cosplay反思。

就是你跟他說(shuō)你要好好想一想，其實(shí)就是多寫幾句CoT，訓(xùn)練時(shí)根本沒(méi)強(qiáng)約束它真的檢查過(guò)，這個(gè)就不說(shuō)了，純文案。

第二個(gè)級(jí)別，就是OpenAI o1、DeepSeek R1等等，有自己的思維鏈的，這種其實(shí)可以稱為，答案導(dǎo)向的反思。

這類所謂的“reasoning model”的典型套路其實(shí)就是，用RL來(lái)獎(jiǎng)勵(lì)最后答案對(duì)不對(duì)，可以允許模型在中間多想、多分支、自己評(píng)估幾個(gè)方案，再選一個(gè)。

這套模式你不能說(shuō)他不行，確實(shí)很強(qiáng)，通過(guò)獎(jiǎng)勵(lì)最終答案的正確，一年內(nèi)，確實(shí)把AIME、HMMT這種只看答案的競(jìng)賽打滿分。

但有兩個(gè)硬傷。

1. 正確答案 ≠ 推理真的對(duì)，中間瞎算、走錯(cuò)路、蒙對(duì)都算贏。

2. 像定理證明這種題，根本沒(méi)有單一數(shù)值答案可以獎(jiǎng)勵(lì)，所以也就容易拉了。

而第三個(gè)級(jí)別，就是這次的DeepSeekMath-V2，真正把過(guò)程當(dāng)任務(wù)的反思。

這個(gè)點(diǎn)，也是源于DeepSeek對(duì)人的觀察。

DeepSeekMath-V2的做法，也很有意思，甚至有點(diǎn)精神分裂的哲學(xué)味。

他們其實(shí)搞了兩個(gè)AI出來(lái)。

一個(gè)叫生成器（Generator）。這哥們兒就是那個(gè)天馬行空、才華橫溢的學(xué)生。你把題給他，他奮筆疾書，洋洋灑灑，給你寫出一套解題過(guò)程。

另一個(gè)叫驗(yàn)證器（Verifier）。這哥們兒是個(gè)極其刻薄、吹毛求疵、毫無(wú)感情的老師。生成器寫完的每一個(gè)字，都要經(jīng)過(guò)它的審判。它就像拿著放大鏡一樣，逐行檢查，尋找任何可能的邏輯漏洞、計(jì)算錯(cuò)誤、概念不清。

然后，他們讓驗(yàn)證器去當(dāng)生成器的老師。生成器每寫完一步，驗(yàn)證器就在旁邊打分：

“你這里邏輯不嚴(yán)謹(jǐn)，扣分?！?，“你這個(gè)公式用錯(cuò)了，扣分。”，“你這里跳步了，扣分?！?/p>

“生成器”為了得到老師也就是驗(yàn)證器的表?yè)P(yáng)，就必須不斷地修改、完善自己的證明過(guò)程。

它慢慢地就學(xué)會(huì)了，不能只圖快，每一步都得想清楚，都得有理有據(jù)。

經(jīng)過(guò)這種反復(fù)的自我搏斗，AI就不再是一個(gè)只會(huì)輸出答案的機(jī)器了。

它開(kāi)始擁有了一種真正的最寶貴的能力：

“反思”。

這個(gè)能力，也讓DeepSeekMath-V2在證明題的能力上，薄紗同行。

它不再盲目地相信自己的第一直覺(jué)。

在這個(gè)過(guò)程中，它學(xué)會(huì)了懷疑，學(xué)會(huì)了審視，學(xué)會(huì)了批判性思維。

而且，這還沒(méi)完。

DeepSeek覺(jué)得，這還不夠精神分裂。所以，他們又來(lái)了一個(gè)更狠的：

元驗(yàn)證（Meta-Verification）。

大概就是，就是他們又搞了個(gè)總教導(dǎo)主任，這個(gè)主任不去看學(xué)生的卷子，而是去看老師批改的卷子有沒(méi)有問(wèn)題。

畢竟有時(shí)候，驗(yàn)證器這個(gè)老師也會(huì)犯錯(cuò)。

比如它可能會(huì)冤枉一個(gè)好學(xué)生，把對(duì)的步驟判成錯(cuò)的，或者自己老眼昏花，沒(méi)發(fā)現(xiàn)學(xué)生隱藏得很深的錯(cuò)誤。

元驗(yàn)證器的作用，就是確保驗(yàn)證器的每一次評(píng)判都是公平、準(zhǔn)確、有效的。

這套組合拳下來(lái)，就形成了一個(gè)極其強(qiáng)大的正向循環(huán)：

1. 生成器努力寫出更完美的證明。

2. 驗(yàn)證器在元驗(yàn)證器的監(jiān)督下，變得越來(lái)越準(zhǔn)確。

3. 更強(qiáng)的驗(yàn)證器又能反過(guò)來(lái)訓(xùn)練出更強(qiáng)的生成器。

左腳蹬右腳，螺旋登天。

最終，他們把這兩種能力，合二為一，注入到了同一個(gè)AI的身體里。于是，DeepSeekMath-V2誕生了。

再看看它的成績(jī)。

IMO（國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽）：這是全世界高中生的最高殿堂。DeepSeekMath-V2在2025年的模擬賽里，6道題解出了5道。金牌水平。

CMO（中國(guó)數(shù)學(xué)奧林匹克競(jìng)賽）：中國(guó)最頂尖的數(shù)學(xué)競(jìng)賽。它也拿到了金牌水平的成績(jī)。

最恐怖的是這個(gè)：Putnam Competition（普特南數(shù)學(xué)競(jìng)賽）。

這個(gè)競(jìng)賽，是全世界大學(xué)生數(shù)學(xué)競(jìng)賽里，公認(rèn)的地獄難度。

它的題目，出的極其刁鉆、深刻，因?yàn)殡y度過(guò)大，所以中位數(shù)得分通常為0或1分，而滿分，是120分。。。。

說(shuō)實(shí)話，在這種競(jìng)賽里，能考個(gè)十幾二十分，就已經(jīng)是人中龍鳳了。

而去年的人類最高分，是90分。

而DeepSeekMath-V2的得分。

118分。

在12道題里，它完整、嚴(yán)謹(jǐn)?shù)亟獬隽?1道，還有1道也拿到了大部分分?jǐn)?shù)。

太離譜了。

這就是知道學(xué)會(huì)反思，學(xué)會(huì)過(guò)程以后的，真正的AI的實(shí)力。

不知道為什么，讓我想起了Alpha GO。。。

DeepSeek這篇論文，實(shí)際上是給Ilya的問(wèn)題，提供了一個(gè)可能的答案：

也許，要彌合評(píng)測(cè)與現(xiàn)實(shí)的鴻溝，我們不應(yīng)該再給AI增加更多的外部RL環(huán)境去刷題，而是應(yīng)該教會(huì)AI一種向內(nèi)看的能力。

讓它從追求讓別人滿意（獲得獎(jiǎng)勵(lì)），轉(zhuǎn)變?yōu)樽非笞屪约簼M意（邏輯自洽）。

王陽(yáng)明的心學(xué)，其實(shí)很早就提過(guò)這個(gè)觀點(diǎn)。

心即理，真理不在外部，而在我們每個(gè)人的內(nèi)心。

真正的學(xué)習(xí)，不是向外尋求標(biāo)準(zhǔn)答案，而是向內(nèi)致良知，達(dá)到一種內(nèi)在的和諧與通透。

DeepSeekMath-V2，就是AI領(lǐng)域的一次非常有趣的，“致良知”。

有的時(shí)候我經(jīng)常在想，人類的理性，到底是什么？

康德覺(jué)得，理性是人類為自然立法的能力。我們通過(guò)先驗(yàn)的邏輯框架去理解、整理這個(gè)混亂的世界。

我感覺(jué)，DeepSeekMath-V2，有一點(diǎn)像。

過(guò)去我們總覺(jué)得，AI的智能和人類的智能，隔著一道鴻溝。

我們的智能里，有靈感、有頓悟、有情感、有那些說(shuō)不清道不明的“Aha Moment”。

可也許，人類的靈感，只是我們大腦在算力不足的情況下，為了走捷徑而產(chǎn)生的一種邏輯的跳躍。

而AI，正在用我們無(wú)法想象的算力，把我們跳過(guò)的每一步，都踏踏實(shí)實(shí)地走一遍。

它走的，是一條更慢、更笨，但可能也更接近本質(zhì)的道路。

我們，這些習(xí)慣于跳躍的物種，站在AI這條堅(jiān)實(shí)的邏輯長(zhǎng)梯面前，難免會(huì)感到一絲震撼，和一絲……迷茫。

那我們未來(lái)的位置。

又在哪里呢？

以上，既然看到這里了，如果覺(jué)得不錯(cuò)，隨手點(diǎn)個(gè)贊、在看、轉(zhuǎn)發(fā)三連吧，如果想第一時(shí)間收到推送，也可以給我個(gè)星標(biāo)?～謝謝你看我的文章，我們，下次再見(jiàn)。

>/ 作者：卡茲克

>/ 投稿或爆料，請(qǐng)聯(lián)系郵箱：wzglyay@virxact.com

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點(diǎn)推薦

河南一豫劇團(tuán)冒雪堅(jiān)持演出2小時(shí)，臺(tái)下觀眾寥寥，卻有3萬(wàn)網(wǎng)友在線圍觀

環(huán)球網(wǎng)資訊 2026-03-02 17:46:01
176 跟貼 176
福州海天盛宴mini自助火鍋宣布暫停營(yíng)業(yè)

海峽網(wǎng) 2026-03-03 07:25:00
0 跟貼 0

年前100多元一斤，年后價(jià)格腰斬！有湖北人已迫不及待下單

環(huán)球網(wǎng)資訊 2026-02-27 09:52:19
525 跟貼 525

山東省濟(jì)南市政府黨組成員、副市長(zhǎng)謝堃接受紀(jì)律審查和監(jiān)察調(diào)查

中央紀(jì)委國(guó)家監(jiān)委網(wǎng)站 2026-03-02 10:06:45
23 跟貼 23
“剛付完尾款，迪拜機(jī)場(chǎng)就被炸了……”杭州女子原旅行計(jì)劃途經(jīng)中東，糾結(jié)要不要取消

都市快報(bào)橙柿互動(dòng) 2026-03-03 00:25:14
171 跟貼 171

上海著名主持人直播中淚目！中東戰(zhàn)火下，有人平安返航、有人新婚分離、有人只想回家

新民晚報(bào) 2026-03-02 14:52:26
549 跟貼 549

寧波一旅游團(tuán)所乘郵輪滯留迪拜，船上有約200名中國(guó)游客

上觀新聞 2026-03-02 16:27:07
917 跟貼 917
男子爬到何仙姑雕像頭頂拍照，山東蓬萊閣景區(qū)回應(yīng)：“八仙過(guò)?！笔駥儆诠矃^(qū)域無(wú)人值守，后續(xù)會(huì)加強(qiáng)巡邏

三湘都市報(bào) 2026-02-28 13:37:39
826 跟貼 826

極氪公布春節(jié)十大獵裝旅行路線，揭秘深度自駕游版圖

魯中晨報(bào) 2026-02-26 12:29:41
15583 跟貼 15583
寧德時(shí)代貴州基地招人！月薪最高3萬(wàn)！

貴陽(yáng)網(wǎng) 2026-03-02 09:09:01
151 跟貼 151
“滬七條”新政首周末顯效，申城樓市迎來(lái)看房熱潮

上觀新聞 2026-03-02 09:57:07
185 跟貼 185
開(kāi)學(xué)了！上海182萬(wàn)中小學(xué)生迎來(lái)“超短學(xué)期”

澎湃新聞 2026-03-02 09:24:31
437 跟貼 437
又是熟悉的配方！新賽季，海港準(zhǔn)備好了嗎？

新民晚報(bào) 2026-03-02 10:12:00
92 跟貼 92
歐洲天然氣價(jià)格漲幅擴(kuò)大至42%，創(chuàng)2022年3月以來(lái)最大漲幅

每日經(jīng)濟(jì)新聞 2026-03-02 20:22:09
206 跟貼 206
專家呼吁：國(guó)家層面盡快出臺(tái)充電樁安裝統(tǒng)一標(biāo)準(zhǔn)

中國(guó)能源網(wǎng) 2026-03-02 15:40:06
68 跟貼 68
滿200減200？豆瓣凌晨出bug被狂薅羊毛

上觀新聞 2026-03-02 13:33:27
123 跟貼 123
首次、首創(chuàng)、新突破！上周，我國(guó)科技發(fā)展再添新成果

環(huán)球網(wǎng)資訊 2026-03-02 09:07:41
393 跟貼 393
最新！油價(jià)調(diào)整通知

大象新聞 2026-03-03 00:50:03
141 跟貼 141
揚(yáng)州一80歲老人被掛窗外！緊急時(shí)刻

儀征爆料 2026-03-03 08:03:41
0 跟貼 0
商場(chǎng)掛上“寵物友好”牌子后又悄悄撤掉，人寵矛盾如何解？

新浪財(cái)經(jīng) 2026-03-03 08:15:26
0 跟貼 0
河南店主在上海賣早餐被催開(kāi)門！一天接到200多個(gè)陌生電話

大象新聞 2026-03-03 07:02:10
0 跟貼 0

數(shù)字生命卡茲克

反復(fù)橫跳于不同的AI領(lǐng)域，努力分享一些很酷的AI干貨

465文章數(shù) 553關(guān)注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房產(chǎn)

游戲

教育

時(shí)尚

軍事航空

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

DeepSeek的模型，讓AI第一次學(xué)會(huì)了反思。

蘋果iPhone17e發(fā)布：4499元起 升級(jí)A19芯片

媒體：遭受慘烈襲擊后 伊朗做了件"史無(wú)前例"的事

媒體：遭受慘烈襲擊后 伊朗做了件"史無(wú)前例"的事

伯納烏8萬(wàn)人暴怒！高呼78歲老佛爺下課

李亞鵬與哥哥和解 只有一條真心話短信

霍爾木茲海峽近乎停擺 布油直逼80美元

國(guó)民SUV再添一員 瑞虎7L靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

方案突然曝光！?？诒睅煷蟾叫＃钟袝蟊P殺出！

LPL人氣選手被曝戀情？疑似與女主持談戀愛(ài)，本人親自下場(chǎng)辟謠！

畢業(yè)大游戲-譚劍-2026年3月2日 (游戲AI設(shè)計(jì)第1次課第1節(jié))

普通人穿衣真的很簡(jiǎn)單！單品選對(duì)、搭配合理，大方舒適又得體

美國(guó)中央司令部透露對(duì)伊朗動(dòng)武全部武器裝備清單

DeepSeek的模型，讓AI第一次學(xué)會(huì)了反思。

蘋果iPhone17e發(fā)布：4499元起升級(jí)A19芯片

媒體：遭受慘烈襲擊后伊朗做了件"史無(wú)前例"的事

媒體：遭受慘烈襲擊后伊朗做了件"史無(wú)前例"的事

伯納烏8萬(wàn)人暴怒！高呼78歲老佛爺下課

李亞鵬與哥哥和解只有一條真心話短信

霍爾木茲海峽近乎停擺布油直逼80美元

國(guó)民SUV再添一員瑞虎7L靜態(tài)體驗(yàn)

方案突然曝光！?？诒睅煷蟾叫＃钟袝蟊P殺出！

LPL人氣選手被曝戀情？疑似與女主持談戀愛(ài)，本人親自下場(chǎng)辟謠！

普通人穿衣真的很簡(jiǎn)單！單品選對(duì)、搭配合理，大方舒適又得體