国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

大模型答題總翻車(幻覺)?清華大學(xué)新方法:先挑錯再寫答案,正確率飆升還不花錢!

0
分享至

你有沒有過這種經(jīng)歷:做數(shù)學(xué)題時,自己順著思路算半天得出錯誤答案,可看到同學(xué)的錯題后,反而一眼看穿問題所在?現(xiàn)在,清華大學(xué)的研究團(tuán)隊把這個 “人類小技巧” 用在了大模型上,居然讓 AI 的推理能力暴漲 —— 關(guān)鍵是,不用額外訓(xùn)練、不用多花錢,只是換個提問方式!

論文《Asking LLMs to Verify First is Almost Free Lunch》就進(jìn)行了這項研究。


核心思想特別簡單:給大模型提問題時,別讓它直接 “一步一步想答案”,而是先扔給它一個候選答案(哪怕是隨機(jī)猜的、無關(guān)緊要的),讓它先驗證 “這個答案對不對”,再自己寫正確答案。就這么一個小改動,大模型的邏輯錯誤率直接下降,還沒增加多少計算成本~


Figure 1: A reverse reasoning path (verification process) could be easier to find and contain complementary information to forward-reasoning path (standard CoT).

圖 1:反向推理路徑(驗證過程)更易構(gòu)建,且包含與正向推理路徑(標(biāo)準(zhǔn)思維鏈,CoT)互補(bǔ)的信息。

原來大模型答題,也有 “自我中心” 的小毛病

我們先搞懂:為啥大模型明明很聰明,卻總在簡單推理題上翻車?

比如這道經(jīng)典題:“蝙蝠和球一共1.1美元,蝙蝠比球貴1美元,球多少錢?” 很多人(包括大模型)會脫口而出 “0.1美元”—— 順著 “1.1-1=0.1” 的思路走,完全沒發(fā)現(xiàn)邏輯漏洞。

這就是大模型的 “老毛病”:現(xiàn)在主流的推理方法叫 CoT(逐步思考),讓 AI “一步一步推導(dǎo)”。但 AI 是 “ autoregressive(自回歸)” 生成的,簡單說就是 “順著自己的思路往下說”,更在乎表達(dá)流暢,反而容易忽略邏輯嚴(yán)謹(jǐn)性 —— 就像人太相信自己的第一判斷,陷入 “自我中心”,看不到錯誤。

而且之前想提升 AI 推理能力,要么得花大價錢訓(xùn)練模型,要么讓 AI 多算幾十遍采樣答案,成本高得嚇人。

清華 “先挑錯” 策略:給 AI 一個 “錯題”,它反而更會做!?

清華團(tuán)隊的 VF(Verification-First,先驗證)策略,剛好戳中了 AI 的 “軟肋”,還不用多花錢。核心是兩個超有趣的認(rèn)知規(guī)律:

  1. 驗證答案,比自己算答案簡單多了!

  2. 就像老師批改作業(yè)比自己做題快 —— 假設(shè)答案是 A,你只要倒著推 “這個答案能不能滿足題目條件”,比從零開始推導(dǎo)簡單太多。哪怕給的是錯答案,AI 在驗證時也會理清 “題目該怎么解”,相當(dāng)于提前搭好了思路框架。從數(shù)學(xué)上來說,其實是讓大模型的回答事先收斂到相關(guān)領(lǐng)域的大的特征空間里,再從大的特征空間里尋找準(zhǔn)確的部分進(jìn)行檢索和回答。而非直接讓大模型跳進(jìn)最小的特征空間找答案。

  3. 讓 AI “挑別人的錯”,能激活批判性思維!

  4. 人在評價別人時,會不自覺跳出自己的思維定式;AI 也一樣~ 讓它先驗證一個 “外部答案”,能避免它順著自己的錯誤思路一條道走到黑,減少 “想當(dāng)然” 的錯誤。

舉兩個例子,一看就懂!


Figure 2: VF prompting with random/trivial answer (Right), comparing with standard CoT prompting (Left) 圖 2:帶有隨機(jī) / 簡單答案的 VF 提示(右側(cè)),與標(biāo)準(zhǔn)的 CoT 提示(左側(cè))對比

這張圖直接對比了 “普通 CoT” 和 “VF 策略” 的區(qū)別,兩道題就能看出差距:

左欄是普通 CoT:AI 順著思路推導(dǎo),蝙蝠和球的題答錯(算成 0.1 美元),“一年有幾個月有 28 天” 也答錯(只想到 2 月,忘了所有月份都有 28 號);

右欄是 VF 策略:先給一個隨機(jī)答案 “1”,讓 AI 先驗證 ——? 驗證蝙蝠和球的題:“如果球是 1 美元,蝙蝠就是 2 美元,總價 3 美元,不對!” 然后順理成章列出方程,算出正確答案 0.05 美元;? 驗證月份題:“如果答案是 1,意味著只有 1 個月有 28 天,但題目問的是‘有 28 天’,不是‘只有 28 天’,所有 12 個月都符合!” 直接糾正錯誤。

是不是很神奇?一個隨機(jī)的 “錯題”,反而幫 AI 理清了思路~

升級款 Iter-VF:讓 AI 自己迭代 “挑錯”,越算越準(zhǔn)

如果遇到復(fù)雜題,給一個隨機(jī)答案不夠用怎么辦?團(tuán)隊又搞出了 “迭代版”——Iter-VF。

簡單說就是:讓 AI 自己生成第一個答案,然后用 VF 策略驗證這個答案、生成新答案;再用新答案當(dāng) “候選答案”,重復(fù)驗證 - 生成的過程,循環(huán)幾次(次數(shù)可以控制,不浪費算力)。


Figure 3: Illustration of (a) VF prompting with previously generated answer, and iterating such process as (b) Iter-VF for test-time scaling.

圖3:(a)使用先前生成的答案進(jìn)行VF提示的說明,以及將此過程迭代為(b)用于測試時擴(kuò)展的Iter-VF的說明。

圖 3 左邊展示了 “用 AI 之前的答案做驗證”(比如編程題,沒法給隨機(jī)答案,就用 AI 第一次寫的代碼當(dāng)候選),右邊是 Iter-VF 的循環(huán)流程:從初始答案開始,迭代驗證 - 生成,最后得到最優(yōu)解。

關(guān)鍵優(yōu)勢是:AI 每次只關(guān)注上一個答案,不糾結(jié)之前的推導(dǎo)過程,不會因為 “想太多” 導(dǎo)致邏輯混亂(這是很多其他迭代方法的通?。€能控制計算成本~

實驗結(jié)果:準(zhǔn)確率暴漲,成本幾乎可以忽略!

團(tuán)隊在數(shù)學(xué)題(GSM8K、MATH500)、研究生級科學(xué)題(GPQA)、編程題(HumanEval)、API 調(diào)用等多個任務(wù)上測試,結(jié)果超亮眼:

這里要貼論文圖 4 和表 1


Figure 4: VF prompting consistently outperforms standard CoT prompting.

圖4:VF提示法始終優(yōu)于標(biāo)準(zhǔn)的CoT提示法。

圖 4 能看到:不管是 10 億參數(shù)的小模型,還是 720 億參數(shù)的大模型,VF 策略都比普通 CoT 準(zhǔn)確率高,數(shù)學(xué)題上的提升尤其明顯(畢竟數(shù)學(xué)最需要邏輯嚴(yán)謹(jǐn));


Table 1: Numbers of output tokens on reasoning benchmarks.

表1:推理基準(zhǔn)測試的輸出標(biāo)記數(shù)量。

表 1 顯示:VF 只比 CoT 多輸出 20%-50% 的文字(token),計算成本幾乎可以忽略 —— 對比其他需要多算幾十倍的方法,這簡直是 “白嫖” 級提升!


Table 2: Performance comparison on coding and API tasks. Rows of comparable results are not split by horizontal line. “HEval” is short for “HumanEval”.

表2:編碼和API任務(wù)的性能比較。具有可比性結(jié)果的行未用水平線分隔?!癏Eval”是“HumanEval”的縮寫。

表 2 證明:在編程、API 調(diào)用這些 “沒法給隨機(jī)答案” 的實際任務(wù)中,VF 用 AI 之前的答案做驗證,表現(xiàn)也比 “讓 AI 算兩次”“讓 AI 自己修改” 好,甚至 “算兩次 VF” 的正確率能沖到 99.4%;


Table 3: Performance comparison with thought-hidden LLM service. Accuracy % (output token number).

表3:與隱藏思維的大語言模型服務(wù)的性能對比。準(zhǔn)確率%(輸出令牌數(shù)量)。

表 3 更厲害:哪怕是 GPT-5 這種 “隱藏思考過程” 的商業(yè)大模型(我們看不到它怎么推導(dǎo),沒法讓它 “修改思路”),用 VF 策略也能提升準(zhǔn)確率,而且只多花一點點算力~

總結(jié):簡單卻強(qiáng)大的 “答題技巧”,未來可期!

清華團(tuán)隊的這個方法,本質(zhì)上是 “借力打力”:不用改模型、不用多花錢,只是利用 “驗證比生成簡單”“批判性思維能避坑” 的認(rèn)知規(guī)律,就大幅提升了大模型的推理能力。

對我們來說,以后用 AI 做題、寫代碼、解決問題時,或許可以試試:先給 AI 一個 “隨便猜的答案”,讓它先挑錯,再要正確結(jié)果 —— 說不定正確率會翻倍~

作者信息:

這項研究來自清華大學(xué)電子工程系ShiguangWu(wsg23@mails.tsinghua.edu.cn)QuanmingYao(qyaoaa@tsinghua.edu.cn)團(tuán)隊,論文《Asking LLMs to Verify First is Almost Free Lunch》(讓大模型先驗證,簡直是 “白嫖” 級提升)于 2025 年 11 月 21 日發(fā)表在 arXiv 平臺(論文鏈接:arXiv:2511.21734v1 [cs.CL])。

感興趣的同學(xué)可以去看原文,里面還有更多實驗細(xì)節(jié)和案例~ 不得不說,把人類的學(xué)習(xí)技巧用在 AI 上,真的太妙了!

? 科研不一定都要 “高大上”,有時候一個簡單的思路轉(zhuǎn)變,就能帶來巨大突破~ 為清華團(tuán)隊點贊!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
女子花30000購入阿里巴巴股份,被婆家趕出家門,4年后看到收益懵了

女子花30000購入阿里巴巴股份,被婆家趕出家門,4年后看到收益懵了

第四思維
2025-07-31 18:48:48
中國人月薪過萬很普遍了嗎?網(wǎng)友:據(jù)說沿海基本上都過萬哦

中國人月薪過萬很普遍了嗎?網(wǎng)友:據(jù)說沿?;旧隙歼^萬哦

帶你感受人間冷暖
2026-03-01 04:35:13
美“福特”號航母駛離希臘克里特島

美“福特”號航母駛離希臘克里特島

財聯(lián)社
2026-02-26 16:57:07
在小縣城名聲很臭是啥體驗?網(wǎng)友:臉皮夠厚,一切不成問題

在小縣城名聲很臭是啥體驗?網(wǎng)友:臉皮夠厚,一切不成問題

解讀熱點事件
2026-02-04 00:05:07
斯諾克紅包賽形勢:中國保2爭3,趙心童吳宜澤穩(wěn)進(jìn),肖國棟有機(jī)會

斯諾克紅包賽形勢:中國保2爭3,趙心童吳宜澤穩(wěn)進(jìn),肖國棟有機(jī)會

劉姚堯的文字城堡
2026-03-02 07:40:55
特朗普指責(zé)英首相在對伊行動中猶猶豫豫 未爽快支持美國動用英軍基地

特朗普指責(zé)英首相在對伊行動中猶猶豫豫 未爽快支持美國動用英軍基地

新浪財經(jīng)
2026-03-03 01:35:19
巴拿馬變天,大清算開始了!真正的大國力量,有人根本一無所知!

巴拿馬變天,大清算開始了!真正的大國力量,有人根本一無所知!

阿訊說天下
2026-03-01 14:33:45
27座基地被炸,美民眾要求特朗普下臺,苑舉正:中國贏得20年時間

27座基地被炸,美民眾要求特朗普下臺,苑舉正:中國贏得20年時間

古史青云啊
2026-03-02 16:56:40
炸了!沙特正式參戰(zhàn),伊朗一夜逼反所有鄰國,中東戰(zhàn)局徹底失控

炸了!沙特正式參戰(zhàn),伊朗一夜逼反所有鄰國,中東戰(zhàn)局徹底失控

戧詞奪理
2026-03-01 09:21:40
美國對中國滲透沒白費,扶持的“內(nèi)鬼”,終于開始在中國露頭了

美國對中國滲透沒白費,扶持的“內(nèi)鬼”,終于開始在中國露頭了

歷史求知所
2025-12-01 11:30:06
活得通透:能自理就好好活著,不能自理,便坦然落幕

活得通透:能自理就好好活著,不能自理,便坦然落幕

青蘋果sht
2026-02-23 05:26:25
比亞迪官宣2026年3月5日召開"顛覆性技術(shù)發(fā)布會",刀片電池、兆瓦閃充、智駕系統(tǒng)或迎全面升級

比亞迪官宣2026年3月5日召開"顛覆性技術(shù)發(fā)布會",刀片電池、兆瓦閃充、智駕系統(tǒng)或迎全面升級

金融界
2026-03-02 16:59:36
報復(fù)來了!黑色血旗升起,導(dǎo)彈命中以軍總部,伊朗:根除美以政權(quán)

報復(fù)來了!黑色血旗升起,導(dǎo)彈命中以軍總部,伊朗:根除美以政權(quán)

凡知
2026-03-03 00:56:09
1勝9負(fù),奪冠熱門慢慢倒下!作為聯(lián)盟第一人,或許你被高估了

1勝9負(fù),奪冠熱門慢慢倒下!作為聯(lián)盟第一人,或許你被高估了

老梁體育漫談
2026-03-02 23:30:56
中國藝人被困中東!黃渤驚險逃離,玄子一家7000租車,周雨彤回京

中國藝人被困中東!黃渤驚險逃離,玄子一家7000租車,周雨彤回京

潮鹿逐夢
2026-03-02 22:48:22
女孩當(dāng)小姐,一晚要提供4到5次上門服務(wù),2015年被親人點到不赴約

女孩當(dāng)小姐,一晚要提供4到5次上門服務(wù),2015年被親人點到不赴約

漢史趣聞
2025-11-08 09:27:32
日本世乒賽大名單落位!女團(tuán)大調(diào)整,2大世界冠軍落選,張本領(lǐng)銜

日本世乒賽大名單落位!女團(tuán)大調(diào)整,2大世界冠軍落選,張本領(lǐng)銜

卿子書
2026-03-02 09:44:06
孫穎莎和王曼昱積分上升,張本美和排名下滑,國乒包攬前七名

孫穎莎和王曼昱積分上升,張本美和排名下滑,國乒包攬前七名

子水體娛
2026-03-02 00:08:03
全球首架!外交部向全球分享,中國飛碟研發(fā)成功,正在試飛?

全球首架!外交部向全球分享,中國飛碟研發(fā)成功,正在試飛?

小小科普員
2026-03-02 23:37:13
特朗普稱同意與伊朗新領(lǐng)導(dǎo)層對話

特朗普稱同意與伊朗新領(lǐng)導(dǎo)層對話

每日經(jīng)濟(jì)新聞
2026-03-02 08:17:27
2026-03-03 02:35:00
人工智能學(xué)家 incentive-icons
人工智能學(xué)家
人工智能領(lǐng)域權(quán)威媒體
4555文章數(shù) 37413關(guān)注度
往期回顧 全部

教育要聞

高考地理中的侵蝕類地貌

頭條要聞

中國留學(xué)生:很多人得知哈梅內(nèi)伊身亡后 決定盡快撤離

頭條要聞

中國留學(xué)生:很多人得知哈梅內(nèi)伊身亡后 決定盡快撤離

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對手主帥

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財經(jīng)要聞

油價飆升 美伊沖突將如何攪動全球經(jīng)濟(jì)

科技要聞

蘋果中國官網(wǎng)上線iPhone 17e,4499元起

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗

態(tài)度原創(chuàng)

親子
本地
時尚
教育
公開課

親子要聞

45歲這年,我這個二胎媽媽決定做一件“瘋狂”的事

本地新聞

津南好·四時總相宜

今年春天一定要擁有的4件衣服,太好看了!

教育要聞

特別猛,但在留學(xué)生心中存在感很低的英國大學(xué)!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版