AI如何教會自己從錯誤中學習，無需任何外部老師的指導

2026-04-26 19:02:28　來源: 科技行者

天津舉報

分享至

這項由普林斯頓大學、多倫多大學和卡內(nèi)基梅隆大學聯(lián)合開展的研究，于2026年4月以預印本形式發(fā)布，論文編號為arXiv:2604.12002v1。研究提出了一種名為"自蒸餾零"（SD-ZERO）的訓練方法，核心問題是：一個AI模型能否僅憑自己犯的錯誤和一個簡單的"對/錯"信號，就給自己提供更有效的學習指導？

說到底，AI的學習方式一直是個讓研究者頭疼的問題。當前最流行的做法大致分成兩派，就像兩種截然不同的家庭教育方式。第一派是"靠獎懲"：給AI出一道數(shù)學題，它自己想答案，答對了給個"?"，答錯了給個"?"，然后靠這個信號慢慢改進。這種方式的優(yōu)點是適用范圍廣，任何有標準答案的題目都能用，但缺點是"對/錯"這個信號太粗糙了，就像告訴一個學生"這道題做錯了"，卻完全不指出哪個步驟出了問題。第二派是"靠模仿"：給AI提供大量由高水平模型或人類專家寫出的優(yōu)質(zhì)解題過程，讓AI一步一步地學著做。這種方式的學習效率高得多，但代價是你得先找到那個"優(yōu)秀老師"，或者花大力氣準備高質(zhì)量的示范答案，成本相當高昂。

普林斯頓的研究團隊提出的問題非常簡潔：能不能繞開這兩個困境？既不需要漫無目的地靠"對/錯"摸索，也不需要依賴昂貴的外部優(yōu)質(zhì)示范，而是讓AI用自己犯的錯誤，給自己生成精細化的學習指導？這就是SD-ZERO想要解決的核心挑戰(zhàn)。

一、為什么"對/錯"信號會是個問題

回到那個"家庭教育"的比喻框架來理解這件事。假設你在教一個孩子解代數(shù)方程，每次他交上來作業(yè)，你只是在卷子上畫一個"?"或"?"，從來不指出具體哪一步運算錯了。這個孩子要想進步，只能靠大量地做題，然后對比哪些做法最后得了"?"。這種學習方式當然是可行的，但效率極低，因為他每次只能知道"整體結(jié)果對了"或"整體結(jié)果錯了"，完全無法定位到具體的錯誤步驟。

這正是當前主流的強化學習訓練方式（研究者們稱之為RLVR）面臨的問題。AI每次生成一段推理過程，可能有幾百上千個詞，但它得到的反饋只是整個答案對不對。模型必須靠大量采樣、大量對比才能慢慢摸索出哪些推理路徑是有效的，訓練成本極高。

相比之下，蒸餾（Distillation）方法效率高得多，因為它能給出逐詞、逐步驟的精細反饋。這就像那個孩子交上作業(yè)之后，有一個老師一步步地批改，標出"這里加法算錯了"、"這里應該移項"，學習效率自然高出許多。但問題是，要做到這種精細批改，你得先有一個比這個孩子強得多的老師——而找到這個老師，或者準備大量"專家示范答案"，成本本身就很高。

更晚近的一些研究（如OPSD、SDFT、SDPO等方法）嘗試讓模型自己當自己的老師，即"自蒸餾"，擺脫外部教師的依賴。但這些方法仍然需要一個前提：模型必須能看到比自己當前水平更好的示范答案，才能給自己提供有效的指導。換句話說，老師雖然不是外部人了，但還是需要參考"一份好答案"——這份好答案從哪來？要么是外部模型生成的，要么是自己反復采樣篩選出來的，成本依然存在。

二、SD-ZERO的核心思路：讓AI扮演"批改錯題"的老師

SD-ZERO的突破點在于，它徹底改變了"什么是好的學習材料"這個假設。它不再要求模型看到"好答案"才能學習，而是讓模型直接從"壞答案"里學習——確切地說，是從"我犯了這個錯誤，而且我知道這是個錯誤，那我應該怎么改"這個過程里學習。

可以用"批改錯題本"來理解這個思路。傳統(tǒng)的學習方式是：老師給你一道題，然后給你看一份標準答案，讓你跟著標準答案學。SD-ZERO的方式是：AI自己做一道題，做完之后告訴它"你做錯了"（或者"你做對了"），然后讓它自己動手把這道題重新做一遍，把錯誤的地方改掉。這個"重新做一遍并改正"的過程，就是SD-ZERO的核心學習材料。

在這個框架里，同一個模型要同時扮演兩個角色。作為"生成者"，它按照正常方式回答一道問題；作為"修改者"，它看著自己剛才的答案和"對/錯"的判斷，然后嘗試生成一個更好的修改版本。關鍵的創(chuàng)新在于：修改者在改錯誤答案的時候，能夠針對具體錯誤的地方給出精細化的逐詞反饋，而這個反饋比單純的"對/錯"信號要豐富得多。接著，研究團隊用一種叫做KL散度最小化的技術(shù)（可以簡單理解為"讓生成者學著向修改者靠攏"），把修改者學到的東西傳遞給生成者，使得生成者下次就能直接輸出更好的答案，而不再需要先犯錯再修改。

三、訓練分兩步走：先學會改錯，再把改錯的能力"內(nèi)化"

SD-ZERO的具體訓練過程分成兩個階段，可以把它比喻成一個學生先學會"用草稿紙打草稿然后修改"，再學會"在腦子里就把事情想清楚直接寫出好答案"的過程。

第一階段叫做"自修改訓練"（SRT）。研究團隊從訓練數(shù)據(jù)里取出一部分問題（具體是6000道），讓基礎模型先各自給出一個初始答案，然后驗證這個答案是對是錯，接著給模型一個提示語。如果答案是對的，提示語是"請用不同的方式重新表述這個解法"；如果答案是錯的，提示語是"等一下，這個答案不正確，讓我重新來過"。然后讓模型根據(jù)這個提示，結(jié)合原題和自己之前的答案，生成一個修改版的答案。最重要的篩選條件是：只有當修改后的答案是正確的時候，這條"初始答案→修改答案"的記錄才會被保留下來，作為訓練數(shù)據(jù)。

最終整理出6000條高質(zhì)量的"犯錯-改正"配對記錄，然后用這些數(shù)據(jù)訓練模型，讓它同時學會兩件事：一是看到自己之前的錯誤答案和"對/錯"信號時，能生成一個更好的修改版本；二是在直接回答問題時，也能給出更好的初始答案。這就是第一階段的SRT模型。

實驗結(jié)果顯示，僅僅是第一階段訓練完成之后，SRT模型的表現(xiàn)就相當驚人。在平均準確率上，Qwen3-4B-Instruct模型提升了7.8%，Olmo-3-7B-Instruct模型提升了9.2%，而且這種提升是在只用了6000道題的情況下取得的，同期對比的基線方法都用了15000道題。SRT模型還表現(xiàn)出一個有趣的能力：當你讓它先給出一個答案，然后再基于"對/錯"信號修改，SRT模型的修改成功率是5.0%（即5%的原來答錯的題在修改后變成正確），而基礎模型只有1.1%。更神奇的是，SRT模型修改后的答案平均比初始答案還要短，說明它不是在隨機重新嘗試，而是在針對性地改正錯誤。

但第一階段有一個副作用：SRT模型在直接回答問題時，會產(chǎn)生特別長的回答，因為它學會了"先說答案，然后自我檢查，然后說不對讓我重新來，然后給出修改版"這樣的顯式自我修改流程。一道題可能會產(chǎn)生8000多個詞的回答，雖然準確率高了，但推理速度極慢，實用性差。

這就引出了第二階段。第二階段叫做"自蒸餾"階段。目標是把第一階段里那種顯式的"草稿-修改"流程，內(nèi)化成模型一次性就能輸出好答案的能力。

具體操作是：把第一階段訓練好的SRT模型固定住作為"修改者教師"，然后讓它同時作為"生成者學生"繼續(xù)學習（注意，此時教師版本是固定的，學生版本是在更新的）。對于每道新的訓練題，學生先生成一個答案，然后教師看到這個答案和"對/錯"信號，給出一個修改版本的逐詞概率分布。學生被訓練去讓自己的逐詞輸出分布，盡量接近教師在看到自己答案之后的輸出分布。換句話說，教師在說的是"如果你給出這個答案，我覺得在這個位置應該用這個詞，在那個位置應該用那個詞"，學生要學著在一開始就朝著這些"更正確的詞"的方向走，而不是先犯錯再修改。

這種方式的好處是，教師在幫助學生時，是針對學生當前這個具體錯誤答案來提供反饋的，而不是給出一個脫離具體情境的通用"好答案"。從這個角度看，這里的"對/錯"信號真正被轉(zhuǎn)化成了逐詞級別的精細學習信號。

四、蒸餾之后，模型學會了"在心里改完再說"

自蒸餾階段完成之后，模型的行為發(fā)生了一個頗為微妙的變化，研究團隊對此進行了詳細的行為分析。

可以通過三個版本的模型對同一道幾何題的回答來理解這個變化?；A模型直接給出了一個錯誤答案，完全沒有自我檢查的跡象。SRT模型給出了一個較長的回答，過程中出現(xiàn)了類似"等等，這里有問題，讓我重新來過"這樣的明確自我修改語句，最后到達了正確答案，但整個過程需要大量篇幅，其中包含了對稱性假設、否定這個假設、重新計算等顯式的修改步驟。SD-ZERO模型（經(jīng)過第二階段蒸餾之后）則給出了一個簡潔而直接的回答，它在心里就已經(jīng)識別出了那個容易出錯的對稱性陷阱，然后直接用坐標系方法繞開了這個陷阱，沒有任何顯式的"等等我重新來"，但到達的結(jié)論是正確的。

研究團隊用兩個指標量化了這個轉(zhuǎn)變：一是平均回答長度，二是回答中出現(xiàn)"等等"、"讓我重新來"、"我犯了個錯誤"等自我修改關鍵詞的比率。在第一階段（SRT訓練）期間，這兩個指標都急劇上升，到SRT階段結(jié)束時，平均回答長度接近4500個詞，自我修改關鍵詞出現(xiàn)比率也很高。進入第二階段（自蒸餾）之后，兩個指標都持續(xù)下降，最終SD-ZERO模型的平均回答長度約為2000個詞，大概是SRT模型的一半，而且準確率還更高。

研究團隊將這種現(xiàn)象稱為"自我修改行為的內(nèi)化"——模型不再需要顯式地在輸出中"先犯錯再修改"，而是把這種自我糾正的能力整合進了生成過程本身，變成了一種更加高效的"預見性推理"：在開口之前就已經(jīng)規(guī)避了常見的錯誤路徑。

五、一種神奇的現(xiàn)象：模型改錯能力可以不斷自我迭代

SD-ZERO還有一個頗具潛力的特性，研究團隊稱之為"迭代自我進化"。

在默認的訓練設置里，第二階段使用的"修改者教師"是固定在第一階段訓練完成時的SRT模型狀態(tài)，不隨學生的學習而更新。這種設置有一個自然的上限：學生最多學到教師這個水平，但教師本身沒有進步。

然而研究團隊觀察到一個有趣的現(xiàn)象：經(jīng)過第二階段自蒸餾訓練之后的SD-ZERO模型，其"改錯能力"反而比SRT模型還要強?；氐侥莻€"先生成答案再修改"的評估流程，SRT模型的修改成功率是5.0%，而經(jīng)過第二階段后的SD-ZERO模型的修改成功率提升到了5.3%。這說明第二階段的訓練不僅把改錯能力內(nèi)化進了生成過程，還順帶提升了顯式改錯時的能力。

這意味著什么？這意味著可以把更新后的SD-ZERO模型作為新的"修改者教師"，開啟第二輪自蒸餾。研究團隊在OpenR1-Math數(shù)據(jù)集上測試了這個想法：第一輪自蒸餾結(jié)束后，把教師更新為最新的學生模型，然后繼續(xù)第二輪訓練。結(jié)果顯示，第二輪訓練額外帶來了至少3個百分點的準確率提升，而且在訓練結(jié)束時還沒有出現(xiàn)飽和的跡象，這意味著如果繼續(xù)進行更多輪迭代，可能還能進一步提升。這種"改錯能力的改進被蒸餾回生成能力，生成能力的提升又反過來支撐更強的改錯能力"的正向循環(huán)，就是研究團隊所說的"迭代自我進化"。

六、"改錯信號"是如何在詞語層面發(fā)揮作用的

研究團隊還深入分析了一個關鍵問題：修改者教師到底是怎樣把一個簡單的"對/錯"信號轉(zhuǎn)化成逐詞的精細反饋的？

他們定義了一個叫做"詞語KL獎勵"的指標，簡單來說就是：對于生成者回答里的每一個詞，衡量修改者教師覺得這個詞"有多需要被改"——如果這個詞在錯誤答案里出現(xiàn)，而修改者會用完全不同的詞替代它，那么這個詞的KL獎勵就很高；如果這個詞在正確答案里出現(xiàn)，修改者覺得這個詞完全合理不需要改，那么KL獎勵就很低甚至是負的。

分析結(jié)果揭示出一個清晰的模式。當生成者的答案是正確的（r=1），修改者的改動是分散的、均勻的，各個詞的KL獎勵都比較小，說明修改者主要在做一些措辭上的調(diào)整，而不是針對性地糾錯。當生成者的答案是錯誤的（r=0），大部分詞的KL獎勵都很小，但少數(shù)特定位置的詞的KL獎勵極高，形成明顯的"尖峰"，這些尖峰正好對應著答案里邏輯出錯的關鍵位置。

研究團隊用一道幾何題做了案例說明。在一段錯誤的推理過程中，模型用了基于對稱性的錯誤論證，大部分詞的KL獎勵都很平，但當推理到"根據(jù)對稱性，A和E關于C的垂直軸對稱"這一句話里的關鍵詞時，KL獎勵出現(xiàn)了明顯的正向尖峰，說明修改者認為這些詞"錯得很離譜，必須被替換"。而后續(xù)正確方法（用坐標系計算）中的關鍵詞則呈現(xiàn)明顯的負向KL獎勵，說明修改者在引導模型朝著這些詞的方向走。

這個現(xiàn)象被稱為"詞語級自我定位"——模型在看到自己的錯誤答案和"錯了"這個信號之后，能夠自動識別出推理過程中哪些具體的詞語是問題所在，并且指向哪些詞語才是正確的方向。這種能力把一個粗糙的"對/錯"信號，轉(zhuǎn)化成了一張精細的"錯誤地圖"和"改進方向圖"。

七、與其他方法相比，SD-ZERO表現(xiàn)如何

研究團隊在八個數(shù)學和代碼推理基準測試上進行了系統(tǒng)的比較實驗，所有方法都在相同的訓練數(shù)據(jù)集（OpenR1-Math的15000道題，或Codeforces的15000道題）和相當?shù)挠嬎阗Y源預算下運行。

對比的基線方法包括SFT（用DeepSeek-R1生成的高質(zhì)量示范答案來微調(diào)），RFT（只保留模型自己做對的答案來訓練，丟棄錯誤答案），GRPO（用強化學習靠"對/錯"信號訓練），以及SDFT（讓模型以高質(zhì)量示范答案作為參考進行自蒸餾）。

在Qwen3-4B-Instruct模型上，基礎模型的平均準確率是49.8%，經(jīng)過SFT訓練后是50.0%，RFT提升到54.3%，GRPO提升到53.1%，SDFT提升到51.2%。SRT模型達到57.6%，SD-ZERO模型達到60.3%，比基礎模型提升了10.5個百分點，是所有方法中最高的。在Olmo-3-7B-Instruct模型上，基礎模型是41.1%，SRT達到50.3%，SD-ZERO達到51.5%，提升了10.4個百分點，同樣是所有方法中最高的。

一個值得關注的細節(jié)是：SRT方法只用了6000道題來生成40000次模型響應的訓練數(shù)據(jù)，而RFT和GRPO各用了15000道題和60000次響應，SDFT同樣用了60000次響應，但SRT的表現(xiàn)依然全面超越了這些用了更多數(shù)據(jù)的方法。加上第二階段的9000道題9000次響應，SD-ZERO總計使用了49000次響應，仍然顯著少于基線方法的60000次，而最終效果更好。

在代碼推理任務上，SD-ZERO在LiveCodeBench（實時代碼挑戰(zhàn)）上對Qwen3-4B-Instruct的提升尤為顯著，從基礎模型的61.8%躍升至82.6%，提升幅度高達20.8個百分點，遠超所有其他方法。

研究團隊還專門測試了"如果給SDFT同樣只用最終答案而不用完整解題步驟作為監(jiān)督信號，會怎樣"，結(jié)果發(fā)現(xiàn)SDFT在這種條件下幾乎沒有什么改進（49.5%），接近基礎模型水平（48.1%），而SD-ZERO在同樣只有最終答案信號的條件下仍然達到57.3%，說明SD-ZERO對"答案監(jiān)督信號"的利用效率遠高于SDFT。

研究團隊還測試了增大GRPO的采樣規(guī)模是否能縮小差距。從每道題4次采樣增加到8次采樣，GRPO的平均準確率從51.7%提升到52.3%，仍然低于SD-ZERO的57.3%，說明SD-ZERO的優(yōu)勢不是簡單靠多采樣能彌補的，而是來自更有效的學習機制。

歸根結(jié)底，SD-ZERO這項研究揭示了一個有點出人意料的道理：學習的關鍵不在于看多少正確示范，而在于如何處理自己的錯誤。一個模型，只要能夠清楚地看著自己犯的錯誤說"我知道這里錯了，所以應該改成這樣"，就能把這個改錯過程轉(zhuǎn)化成比單純的"對/錯"信號豐富得多的學習材料。更重要的是，這種改錯的過程會隨著模型變強而不斷升級，形成一個不需要外部老師介入的自我改進循環(huán)。

這對于AI研究的意義在于：獲取高質(zhì)量訓練數(shù)據(jù)一直是大模型訓練的一大瓶頸，SD-ZERO提供了一條不依賴外部高質(zhì)量數(shù)據(jù)的路徑，只需要"對/錯"這樣最基礎的反饋信號，就能訓練出更強的模型。當然，研究團隊也坦誠地指出了當前方法的局限性。SD-ZERO目前主要針對有明確標準答案的數(shù)學和編程任務，在沒有可驗證答案的開放性問題上如何應用，仍是一個待解的難題。此外，如何將這種方法推廣到"思考型模型"（會生成大量探索性推理過程的模型）也是一個挑戰(zhàn)，因為那類模型的長推理鏈里本就包含大量"試錯和修正"，很難區(qū)分哪些是應該被修改的真實錯誤，哪些是正常的探索過程。

有興趣深入了解技術(shù)細節(jié)的讀者，可以通過arXiv編號2604.12002查閱完整的論文原文。

Q&A

Q1：SD-ZERO方法和強化學習訓練AI有什么區(qū)別？

A：強化學習訓練AI（比如GRPO）只給模型一個最終的"對/錯"信號，模型需要靠大量采樣和對比才能慢慢摸索出好的推理路徑，學習效率較低。SD-ZERO則把這個粗糙的"對/錯"信號轉(zhuǎn)化成了逐詞的精細反饋——模型看著自己的錯誤答案和"答錯了"這個信號，能自動識別出推理過程中哪些具體詞語是問題所在，相當于把一句"做錯了"變成了一張詳細的"錯誤地圖"，學習效率高得多。

Q2：SD-ZERO訓練需要多少數(shù)據(jù)，成本高嗎？

A：SD-ZERO總共使用了約49000次模型響應來訓練，而對比方法RFT和GRPO各需要60000次，SDFT同樣需要60000次。所以SD-ZERO用了更少的數(shù)據(jù)，取得了更好的效果。第一階段用6000道題生成40000次響應，第二階段僅需9000道題各生成1次響應。最終總token消耗約225億個，與基線方法相當，但性能提升了10個百分點以上。

Q3：SD-ZERO訓練出的模型回答問題時速度會變慢嗎？

A：反而更快。經(jīng)過第一階段訓練的SRT模型回答時會非常冗長（平均約8500個詞），因為它會顯式地寫出"等等，我重新來"這樣的修改過程。但經(jīng)過第二階段自蒸餾之后，SD-ZERO模型已經(jīng)把改錯能力"內(nèi)化"到了生成過程里，不再需要顯式修改，平均回答長度降至約2000個詞，大概是SRT的一半，比所有基線方法都短，而且準確率更高。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.