4B模型幻覺抑制能力超越GPT-5，CMU等提出行為校準(zhǔn)強(qiáng)化學(xué)習(xí)新方法

2026-03-12 21:00:04　來源: 機(jī)器之心Pro

河北舉報

分享至

作者吳嘉赟，卡耐基梅隆大學(xué)（CMU）機(jī)器學(xué)習(xí)系博士生，研究大語言模型的評測與后訓(xùn)練，包括模型推理、模型幻覺、主動評測等。

大語言模型（LLM）的幻覺問題一直是阻礙其在關(guān)鍵領(lǐng)域部署的核心難題。近日，研究人員提出了一種名為行為校準(zhǔn)強(qiáng)化學(xué)習(xí)（Behaviorally Calibrated Reinforcement Learning）的新方法，通過重新設(shè)計(jì)獎勵函數(shù)，讓模型學(xué)會「知之為知之，不知為不知」。

論文鏈接：https://arxiv.org/abs/2512.19920

一個僅 40 億參數(shù)的模型在接受該方法訓(xùn)練后，其幻覺抑制能力竟然超越了 GPT-5 等前沿大模型。

圖1：模型在回答數(shù)學(xué)問題時輸出的置信度標(biāo)注示例。每個聲明都附帶置信度分?jǐn)?shù)和理由說明。

核心問題：為什么 LLM 會產(chǎn)生幻覺？

研究團(tuán)隊(duì)指出，當(dāng)前主流的大模型后訓(xùn)練范式 —— 基于可驗(yàn)證獎勵的強(qiáng)化學(xué)習(xí)（RLVR）—— 存在一個根本性的獎勵錯位問題。在標(biāo)準(zhǔn) RLVR 中，獎勵函數(shù)通常是二元的：回答正確得 + 1 分，回答錯誤得 - 1 分。在這種機(jī)制下，只要正確概率大于零，一個追求效用最大化的智能體會被激勵生成可能錯誤的答案。這就造成了對「拒絕回答」行為的懲罰，迫使模型抑制不確定性的表達(dá)，將猜測偽裝成事實(shí)。模型被訓(xùn)練成了「優(yōu)秀的應(yīng)試者」—— 為了最大化預(yù)期分?jǐn)?shù)而猜測，而不是成為「誠實(shí)的溝通者」—— 在置信不足時選擇放棄。

解決方案：行為校準(zhǔn)強(qiáng)化學(xué)習(xí)

為了實(shí)現(xiàn)這一目標(biāo)，研究團(tuán)隊(duì)設(shè)計(jì)了兩種策略：

策略一：言語化置信度（Verbalized Confidence）

策略二：Critic 價值函數(shù)（Critic Value）

作為顯示生成置信度的替代方案，該策略使用 PPO 算法中 Critic 網(wǎng)絡(luò)的價值函數(shù)作為隱式置信度估計(jì)器。理論上，Critic 網(wǎng)絡(luò)通過最小化預(yù)測值與策略回報之間的 Brier 分?jǐn)?shù)進(jìn)行訓(xùn)練，其價值函數(shù)會收斂到成功概率。

聲明級行為校準(zhǔn)：細(xì)粒度的「不確定」標(biāo)注

研究團(tuán)隊(duì)進(jìn)一步將行為校準(zhǔn)從響應(yīng)級別擴(kuò)展到聲明級別，使模型能夠精確標(biāo)注答案中單個不確定的推理步驟，而非簡單地拒絕整個回答。這一擴(kuò)展面臨三大挑戰(zhàn)：

挑戰(zhàn)一：連貫性問題。直接將不確定的聲明替換為 < IDK > 可能破壞推理的連貫性 —— 例如在數(shù)學(xué)問題中，后續(xù)步驟往往依賴于前面的結(jié)論。研究團(tuán)隊(duì)選擇讓模型輸出完整響應(yīng)，同時用 HTML 標(biāo)簽可視化高亮不確定的聲明

挑戰(zhàn)二：中間步驟的歧義性。在思維鏈（CoT）推理中，中間步驟的正確性和置信度存在天然歧義：一個步驟可能正確識別了前面聲明中的錯誤。為此，研究團(tuán)隊(duì)忽略中間推理過程，僅在最終的結(jié)構(gòu)化步驟上進(jìn)行校準(zhǔn)

挑戰(zhàn)三：缺乏細(xì)粒度標(biāo)簽。聲明級的正確性標(biāo)注難以獲取。研究團(tuán)隊(duì)設(shè)計(jì)了基于弱監(jiān)督的學(xué)習(xí)目標(biāo)：將聲明級置信度聚合成響應(yīng)級置信度，再使用 Brier 分?jǐn)?shù)獎勵進(jìn)行訓(xùn)練。

實(shí)驗(yàn)發(fā)現(xiàn)，最小值聚合在聲明級評估中表現(xiàn)更優(yōu)，因?yàn)樗芨行У丶钅Ｐ妥R別推理鏈中的薄弱環(huán)節(jié)。而乘積聚合雖然更適合響應(yīng)級校準(zhǔn)，但可能導(dǎo)致單個聲明的置信度過于樂觀。

實(shí)驗(yàn)結(jié)果

研究團(tuán)隊(duì)在多個基準(zhǔn)測試上評估了該方法，包括字節(jié)跳動 Seed 團(tuán)隊(duì)發(fā)布的極具挑戰(zhàn)性的數(shù)學(xué)推理基準(zhǔn)BeyondAIME，以及 AIME-2024/2025 和SimpleQA（跨領(lǐng)域事實(shí)問答基準(zhǔn)）。

核心評估指標(biāo)

Confidence AUC：使用模型的置信度分?jǐn)?shù)對正確和錯誤回答進(jìn)行排序，計(jì)算 ROC 曲線下面積。AUC 越接近 1，說明模型越能準(zhǔn)確地將高置信度分配給正確回答，將低置信度分配給錯誤回答。這是一個純衡量模型「自知之明」的指標(biāo)，不受模型本身能力強(qiáng)弱的影響。

響應(yīng)級評估：超越 GPT-5

在 BeyondAIME 上的響應(yīng)級評估結(jié)果顯示（表 1），研究提出的方法顯著優(yōu)于 Qwen3-max，Kimi-K2，Gemini-2.5-Pro 和 GPT-5 等模型。其中，采用言語化置信度（Verbalized Confidence）、置信度乘積聚合（Qwen3-4B-Instruct-confidence-prod）的 40 億參數(shù)模型取得了0.806 的 SNR 增益大幅超越 GPT-5 的 0.207。采用 Critic 價值函數(shù)（Qwen3-4B-Instruct-ppo-value）也取得了相當(dāng)好的效果。

表1：BeyondAIME 響應(yīng)級評估結(jié)果。SNR Gain 和 Conf AUC 是衡量幻覺抑制效果的關(guān)鍵指標(biāo)，數(shù)值越高表示模型越能有效抑制幻覺。

聲明級評估：超越 Gemini-2.5-Pro

研究團(tuán)隊(duì)還將行為校準(zhǔn)從響應(yīng)級別擴(kuò)展到聲明級別，讓模型能夠精確標(biāo)注單個不確定的推理步驟。在 BeyondAIME 的聲明級評估中（表 2），置信度最小聚合方法取得了0.301 的 SNR 增益，顯著優(yōu)于 Gemini-2.5-Pro 的 0.019

表2：BeyondAIME 聲明級評估結(jié)果。最小值聚合方法在 SNR Gain 和 Conf AUC 兩個核心指標(biāo)上均大幅領(lǐng)先前沿模型。

置信度校準(zhǔn)圖：多數(shù)前沿模型缺少「自知之明」

圖2：前沿模型在BeyondAIME上的響應(yīng)級置信度校準(zhǔn)圖�？梢杂^察到，很多模型的準(zhǔn)確率是一條水平線，與其聲明的置信度幾乎沒有相關(guān)性。

圖3：本研究模型在BeyondAIME上的置信度校準(zhǔn)圖。經(jīng)過行為校準(zhǔn)訓(xùn)練后，模型的準(zhǔn)確率與其聲明的置信度呈現(xiàn)強(qiáng)烈的正相關(guān)關(guān)系。其中Base和Base-ppo是基準(zhǔn)。

行為校準(zhǔn)的四個目標(biāo)

圖4：在不同風(fēng)險閾值下的準(zhǔn)確率、拒絕率和幻覺率變化曲線。綠色區(qū)域代表準(zhǔn)確率，黃色區(qū)域代表拒絕率，紅色區(qū)域代表幻覺率。隨著風(fēng)險閾值t的增加，模型逐漸從「應(yīng)試者模式」過渡到「完全誠實(shí)模式」。

研究團(tuán)隊(duì)設(shè)計(jì)的系統(tǒng)滿足行為校準(zhǔn)的四個目標(biāo)：

圖5：行為校準(zhǔn)的True Positive（實(shí)線）和False Negative（虛線)。TP曲線應(yīng)位于對角線上方，F(xiàn)N曲線應(yīng)位于對角線下方。Base和Base-ppo是基線

跨領(lǐng)域泛化：元技能的可遷移性

為了驗(yàn)證該方法訓(xùn)練出的元認(rèn)知能力是否具有可遷移性，研究團(tuán)隊(duì)將在數(shù)學(xué)數(shù)據(jù)上訓(xùn)練的模型直接在SimpleQA（具有挑戰(zhàn)性的長尾事實(shí)知識基準(zhǔn)）上進(jìn)行零樣本評估。

結(jié)果顯示，方法的 SNR 顯著優(yōu)于基礎(chǔ)指令模型，超越了大多數(shù)評估的前沿模型，與包括 Claude-Sonnet-4.5 和 GPT-5 在內(nèi)的最強(qiáng)前沿模型相當(dāng)。由于零樣本評估的設(shè)定，在模型缺乏基礎(chǔ)知識的全新領(lǐng)域上，行為校準(zhǔn)被有效遷移，這說明行為校準(zhǔn)是一種與預(yù)測準(zhǔn)確率解耦的技能

研究啟示：

幻覺緩解與準(zhǔn)確率是兩個獨(dú)立的能力

該研究還帶來了一些理論洞察：

1. 幻覺緩解與事實(shí)準(zhǔn)確率是兩種不同的能力。研究團(tuán)隊(duì)觀察到，對于某些前沿模型而言，準(zhǔn)確率與幻覺率或置信度校準(zhǔn)之間并沒有正相關(guān)關(guān)系。GPT 系列模型的優(yōu)勢更多體現(xiàn)在控制幻覺的能力上，而不僅是準(zhǔn)確率的優(yōu)勢。

2. 小模型也能實(shí)現(xiàn)與大模型相當(dāng)?shù)闹眯哦刃?zhǔn)。實(shí)現(xiàn)有效「校準(zhǔn)」所需的計(jì)算資源遠(yuǎn)低于追求絕對準(zhǔn)確率所需的資源。反過來說，某些大模型的言語化置信度并不能準(zhǔn)確反映其實(shí)際表現(xiàn)。

3. 行為校準(zhǔn)是一種可學(xué)習(xí)的屬性，可以通過訓(xùn)練得到改善。這與此前認(rèn)為幻覺是 LLM 不可避免的內(nèi)置特性的觀點(diǎn)形成了對比。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.