大模型答題總翻車（幻覺）？清華大學(xué)新方法：先挑錯再寫答案，正確率飆升還不花錢！

2026-01-23 18:20:34　來源: 人工智能學(xué)家

北京舉報

分享至

你有沒有過這種經(jīng)歷：做數(shù)學(xué)題時，自己順著思路算半天得出錯誤答案，可看到同學(xué)的錯題后，反而一眼看穿問題所在？現(xiàn)在，清華大學(xué)的研究團(tuán)隊把這個 “人類小技巧” 用在了大模型上，居然讓 AI 的推理能力暴漲 —— 關(guān)鍵是，不用額外訓(xùn)練、不用多花錢，只是換個提問方式！

論文《Asking LLMs to Verify First is Almost Free Lunch》就進(jìn)行了這項研究。

核心思想特別簡單：給大模型提問題時，別讓它直接 “一步一步想答案”，而是先扔給它一個候選答案（哪怕是隨機(jī)猜的、無關(guān)緊要的），讓它先驗證 “這個答案對不對”，再自己寫正確答案。就這么一個小改動，大模型的邏輯錯誤率直接下降，還沒增加多少計算成本～

Figure 1: A reverse reasoning path (verification process) could be easier to find and contain complementary information to forward-reasoning path (standard CoT).

圖 1：反向推理路徑（驗證過程）更易構(gòu)建，且包含與正向推理路徑（標(biāo)準(zhǔn)思維鏈，CoT）互補(bǔ)的信息。

原來大模型答題，也有 “自我中心” 的小毛病

我們先搞懂：為啥大模型明明很聰明，卻總在簡單推理題上翻車？

比如這道經(jīng)典題：“蝙蝠和球一共1.1美元，蝙蝠比球貴1美元，球多少錢？” 很多人（包括大模型）會脫口而出 “0.1美元”—— 順著 “1.1-1=0.1” 的思路走，完全沒發(fā)現(xiàn)邏輯漏洞。

這就是大模型的 “老毛病”：現(xiàn)在主流的推理方法叫 CoT（逐步思考），讓 AI “一步一步推導(dǎo)”。但 AI 是 “ autoregressive（自回歸）” 生成的，簡單說就是 “順著自己的思路往下說”，更在乎表達(dá)流暢，反而容易忽略邏輯嚴(yán)謹(jǐn)性 —— 就像人太相信自己的第一判斷，陷入 “自我中心”，看不到錯誤。

而且之前想提升 AI 推理能力，要么得花大價錢訓(xùn)練模型，要么讓 AI 多算幾十遍采樣答案，成本高得嚇人。

清華 “先挑錯” 策略：給 AI 一個 “錯題”，它反而更會做！?

清華團(tuán)隊的 VF（Verification-First，先驗證）策略，剛好戳中了 AI 的 “軟肋”，還不用多花錢。核心是兩個超有趣的認(rèn)知規(guī)律：

驗證答案，比自己算答案簡單多了！
就像老師批改作業(yè)比自己做題快 —— 假設(shè)答案是 A，你只要倒著推 “這個答案能不能滿足題目條件”，比從零開始推導(dǎo)簡單太多。哪怕給的是錯答案，AI 在驗證時也會理清 “題目該怎么解”，相當(dāng)于提前搭好了思路框架。從數(shù)學(xué)上來說，其實是讓大模型的回答事先收斂到相關(guān)領(lǐng)域的大的特征空間里，再從大的特征空間里尋找準(zhǔn)確的部分進(jìn)行檢索和回答。而非直接讓大模型跳進(jìn)最小的特征空間找答案。
讓 AI “挑別人的錯”，能激活批判性思維！
人在評價別人時，會不自覺跳出自己的思維定式；AI 也一樣～讓它先驗證一個 “外部答案”，能避免它順著自己的錯誤思路一條道走到黑，減少 “想當(dāng)然” 的錯誤。

舉兩個例子，一看就懂！

Figure 2: VF prompting with random/trivial answer (Right), comparing with standard CoT prompting (Left) 圖 2：帶有隨機(jī) / 簡單答案的 VF 提示（右側(cè)），與標(biāo)準(zhǔn)的 CoT 提示（左側(cè)）對比

這張圖直接對比了 “普通 CoT” 和 “VF 策略” 的區(qū)別，兩道題就能看出差距：

左欄是普通 CoT：AI 順著思路推導(dǎo)，蝙蝠和球的題答錯（算成 0.1 美元），“一年有幾個月有 28 天” 也答錯（只想到 2 月，忘了所有月份都有 28 號）；

右欄是 VF 策略：先給一個隨機(jī)答案 “1”，讓 AI 先驗證 ——? 驗證蝙蝠和球的題：“如果球是 1 美元，蝙蝠就是 2 美元，總價 3 美元，不對！” 然后順理成章列出方程，算出正確答案 0.05 美元；? 驗證月份題：“如果答案是 1，意味著只有 1 個月有 28 天，但題目問的是‘有 28 天’，不是‘只有 28 天’，所有 12 個月都符合！” 直接糾正錯誤。

是不是很神奇？一個隨機(jī)的 “錯題”，反而幫 AI 理清了思路～

升級款 Iter-VF：讓 AI 自己迭代 “挑錯”，越算越準(zhǔn)

如果遇到復(fù)雜題，給一個隨機(jī)答案不夠用怎么辦？團(tuán)隊又搞出了 “迭代版”——Iter-VF。

簡單說就是：讓 AI 自己生成第一個答案，然后用 VF 策略驗證這個答案、生成新答案；再用新答案當(dāng) “候選答案”，重復(fù)驗證 - 生成的過程，循環(huán)幾次（次數(shù)可以控制，不浪費算力）。

Figure 3: Illustration of (a) VF prompting with previously generated answer, and iterating such process as (b) Iter-VF for test-time scaling.

圖3：（a）使用先前生成的答案進(jìn)行VF提示的說明，以及將此過程迭代為（b）用于測試時擴(kuò)展的Iter-VF的說明。

圖 3 左邊展示了 “用 AI 之前的答案做驗證”（比如編程題，沒法給隨機(jī)答案，就用 AI 第一次寫的代碼當(dāng)候選），右邊是 Iter-VF 的循環(huán)流程：從初始答案開始，迭代驗證 - 生成，最后得到最優(yōu)解。

關(guān)鍵優(yōu)勢是：AI 每次只關(guān)注上一個答案，不糾結(jié)之前的推導(dǎo)過程，不會因為 “想太多” 導(dǎo)致邏輯混亂（這是很多其他迭代方法的通?。€能控制計算成本～

實驗結(jié)果：準(zhǔn)確率暴漲，成本幾乎可以忽略！

團(tuán)隊在數(shù)學(xué)題（GSM8K、MATH500）、研究生級科學(xué)題（GPQA）、編程題（HumanEval）、API 調(diào)用等多個任務(wù)上測試，結(jié)果超亮眼：

這里要貼論文圖 4 和表 1

Figure 4: VF prompting consistently outperforms standard CoT prompting.

圖4：VF提示法始終優(yōu)于標(biāo)準(zhǔn)的CoT提示法。

圖 4 能看到：不管是 10 億參數(shù)的小模型，還是 720 億參數(shù)的大模型，VF 策略都比普通 CoT 準(zhǔn)確率高，數(shù)學(xué)題上的提升尤其明顯（畢竟數(shù)學(xué)最需要邏輯嚴(yán)謹(jǐn)）；

Table 1: Numbers of output tokens on reasoning benchmarks.

表1：推理基準(zhǔn)測試的輸出標(biāo)記數(shù)量。

表 1 顯示：VF 只比 CoT 多輸出 20%-50% 的文字（token），計算成本幾乎可以忽略 —— 對比其他需要多算幾十倍的方法，這簡直是 “白嫖” 級提升！

Table 2: Performance comparison on coding and API tasks. Rows of comparable results are not split by horizontal line. “HEval” is short for “HumanEval”.

表2：編碼和API任務(wù)的性能比較。具有可比性結(jié)果的行未用水平線分隔?！癏Eval”是“HumanEval”的縮寫。

表 2 證明：在編程、API 調(diào)用這些 “沒法給隨機(jī)答案” 的實際任務(wù)中，VF 用 AI 之前的答案做驗證，表現(xiàn)也比 “讓 AI 算兩次”“讓 AI 自己修改” 好，甚至 “算兩次 VF” 的正確率能沖到 99.4%；

Table 3: Performance comparison with thought-hidden LLM service. Accuracy % (output token number).

表3：與隱藏思維的大語言模型服務(wù)的性能對比。準(zhǔn)確率%（輸出令牌數(shù)量）。

表 3 更厲害：哪怕是 GPT-5 這種 “隱藏思考過程” 的商業(yè)大模型（我們看不到它怎么推導(dǎo)，沒法讓它 “修改思路”），用 VF 策略也能提升準(zhǔn)確率，而且只多花一點點算力～

總結(jié)：簡單卻強(qiáng)大的 “答題技巧”，未來可期！

清華團(tuán)隊的這個方法，本質(zhì)上是 “借力打力”：不用改模型、不用多花錢，只是利用 “驗證比生成簡單”“批判性思維能避坑” 的認(rèn)知規(guī)律，就大幅提升了大模型的推理能力。

對我們來說，以后用 AI 做題、寫代碼、解決問題時，或許可以試試：先給 AI 一個 “隨便猜的答案”，讓它先挑錯，再要正確結(jié)果 —— 說不定正確率會翻倍～

作者信息：

這項研究來自清華大學(xué)電子工程系的ShiguangWu（wsg23@mails.tsinghua.edu.cn）QuanmingYao（qyaoaa@tsinghua.edu.cn）團(tuán)隊，論文《Asking LLMs to Verify First is Almost Free Lunch》（讓大模型先驗證，簡直是 “白嫖” 級提升）于 2025 年 11 月 21 日發(fā)表在 arXiv 平臺（論文鏈接：arXiv:2511.21734v1 [cs.CL]）。

感興趣的同學(xué)可以去看原文，里面還有更多實驗細(xì)節(jié)和案例～不得不說，把人類的學(xué)習(xí)技巧用在 AI 上，真的太妙了！

? 科研不一定都要 “高大上”，有時候一個簡單的思路轉(zhuǎn)變，就能帶來巨大突破～為清華團(tuán)隊點贊！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.