国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

4B模型幻覺抑制能力超越GPT-5,CMU等提出行為校準(zhǔn)強(qiáng)化學(xué)習(xí)新方法

0
分享至



作者吳嘉赟,卡耐基梅隆大學(xué)(CMU)機(jī)器學(xué)習(xí)系博士生,研究大語言模型的評測與后訓(xùn)練,包括模型推理、模型幻覺、主動評測等。

大語言模型(LLM)的幻覺問題一直是阻礙其在關(guān)鍵領(lǐng)域部署的核心難題。近日,研究人員提出了一種名為行為校準(zhǔn)強(qiáng)化學(xué)習(xí)(Behaviorally Calibrated Reinforcement Learning)的新方法,通過重新設(shè)計(jì)獎勵函數(shù),讓模型學(xué)會「知之為知之,不知為不知」。



論文鏈接:https://arxiv.org/abs/2512.19920

一個僅 40 億參數(shù)的模型在接受該方法訓(xùn)練后,其幻覺抑制能力竟然超越了 GPT-5 等前沿大模型。



圖1:模型在回答數(shù)學(xué)問題時輸出的置信度標(biāo)注示例。每個聲明都附帶置信度分?jǐn)?shù)和理由說明。

核心問題:為什么 LLM 會產(chǎn)生幻覺?

研究團(tuán)隊(duì)指出,當(dāng)前主流的大模型后訓(xùn)練范式 —— 基于可驗(yàn)證獎勵的強(qiáng)化學(xué)習(xí)(RLVR)—— 存在一個根本性的獎勵錯位問題。在標(biāo)準(zhǔn) RLVR 中,獎勵函數(shù)通常是二元的:回答正確得 + 1 分,回答錯誤得 - 1 分。在這種機(jī)制下,只要正確概率大于零,一個追求效用最大化的智能體會被激勵生成可能錯誤的答案。這就造成了對「拒絕回答」行為的懲罰,迫使模型抑制不確定性的表達(dá),將猜測偽裝成事實(shí)。模型被訓(xùn)練成了「優(yōu)秀的應(yīng)試者」—— 為了最大化預(yù)期分?jǐn)?shù)而猜測,而不是成為「誠實(shí)的溝通者」—— 在置信不足時選擇放棄。

解決方案:行為校準(zhǔn)強(qiáng)化學(xué)習(xí)



為了實(shí)現(xiàn)這一目標(biāo),研究團(tuán)隊(duì)設(shè)計(jì)了兩種策略:

策略一:言語化置信度(Verbalized Confidence)









策略二:Critic 價值函數(shù)(Critic Value)

作為顯示生成置信度的替代方案,該策略使用 PPO 算法中 Critic 網(wǎng)絡(luò)的價值函數(shù)作為隱式置信度估計(jì)器。理論上,Critic 網(wǎng)絡(luò)通過最小化預(yù)測值與策略回報之間的 Brier 分?jǐn)?shù)進(jìn)行訓(xùn)練,其價值函數(shù)會收斂到成功概率。

聲明級行為校準(zhǔn):細(xì)粒度的「不確定」標(biāo)注

研究團(tuán)隊(duì)進(jìn)一步將行為校準(zhǔn)從響應(yīng)級別擴(kuò)展到聲明級別,使模型能夠精確標(biāo)注答案中單個不確定的推理步驟,而非簡單地拒絕整個回答。這一擴(kuò)展面臨三大挑戰(zhàn):

挑戰(zhàn)一:連貫性問題。直接將不確定的聲明替換為 < IDK > 可能破壞推理的連貫性 —— 例如在數(shù)學(xué)問題中,后續(xù)步驟往往依賴于前面的結(jié)論。研究團(tuán)隊(duì)選擇讓模型輸出完整響應(yīng),同時用 HTML 標(biāo)簽可視化高亮不確定的聲明

挑戰(zhàn)二:中間步驟的歧義性。在思維鏈(CoT)推理中,中間步驟的正確性和置信度存在天然歧義:一個步驟可能正確識別了前面聲明中的錯誤。為此,研究團(tuán)隊(duì)忽略中間推理過程,僅在最終的結(jié)構(gòu)化步驟上進(jìn)行校準(zhǔn)

挑戰(zhàn)三:缺乏細(xì)粒度標(biāo)簽。聲明級的正確性標(biāo)注難以獲取。研究團(tuán)隊(duì)設(shè)計(jì)了基于弱監(jiān)督的學(xué)習(xí)目標(biāo):將聲明級置信度聚合成響應(yīng)級置信度,再使用 Brier 分?jǐn)?shù)獎勵進(jìn)行訓(xùn)練。



實(shí)驗(yàn)發(fā)現(xiàn),最小值聚合在聲明級評估中表現(xiàn)更優(yōu),因?yàn)樗芨行У丶钅P妥R別推理鏈中的薄弱環(huán)節(jié)。而乘積聚合雖然更適合響應(yīng)級校準(zhǔn),但可能導(dǎo)致單個聲明的置信度過于樂觀。

實(shí)驗(yàn)結(jié)果

研究團(tuán)隊(duì)在多個基準(zhǔn)測試上評估了該方法,包括字節(jié)跳動 Seed 團(tuán)隊(duì)發(fā)布的極具挑戰(zhàn)性的數(shù)學(xué)推理基準(zhǔn)BeyondAIME,以及 AIME-2024/2025 和SimpleQA(跨領(lǐng)域事實(shí)問答基準(zhǔn))。

核心評估指標(biāo)



Confidence AUC:使用模型的置信度分?jǐn)?shù)對正確和錯誤回答進(jìn)行排序,計(jì)算 ROC 曲線下面積。AUC 越接近 1,說明模型越能準(zhǔn)確地將高置信度分配給正確回答,將低置信度分配給錯誤回答。這是一個純衡量模型「自知之明」的指標(biāo),不受模型本身能力強(qiáng)弱的影響。

響應(yīng)級評估:超越 GPT-5

在 BeyondAIME 上的響應(yīng)級評估結(jié)果顯示(表 1),研究提出的方法顯著優(yōu)于 Qwen3-max,Kimi-K2,Gemini-2.5-Pro 和 GPT-5 等模型。其中,采用言語化置信度(Verbalized Confidence)、置信度乘積聚合(Qwen3-4B-Instruct-confidence-prod)的 40 億參數(shù)模型取得了0.806 的 SNR 增益大幅超越 GPT-5 的 0.207。采用 Critic 價值函數(shù)(Qwen3-4B-Instruct-ppo-value)也取得了相當(dāng)好的效果。



表1:BeyondAIME 響應(yīng)級評估結(jié)果。SNR Gain 和 Conf AUC 是衡量幻覺抑制效果的關(guān)鍵指標(biāo),數(shù)值越高表示模型越能有效抑制幻覺。

聲明級評估:超越 Gemini-2.5-Pro

研究團(tuán)隊(duì)還將行為校準(zhǔn)從響應(yīng)級別擴(kuò)展到聲明級別,讓模型能夠精確標(biāo)注單個不確定的推理步驟。在 BeyondAIME 的聲明級評估中(表 2),置信度最小聚合方法取得了0.301 的 SNR 增益,顯著優(yōu)于 Gemini-2.5-Pro 的 0.019



表2:BeyondAIME 聲明級評估結(jié)果。最小值聚合方法在 SNR Gain 和 Conf AUC 兩個核心指標(biāo)上均大幅領(lǐng)先前沿模型。

置信度校準(zhǔn)圖:多數(shù)前沿模型缺少「自知之明」





圖2:前沿模型在BeyondAIME上的響應(yīng)級置信度校準(zhǔn)圖?梢杂^察到,很多模型的準(zhǔn)確率是一條水平線,與其聲明的置信度幾乎沒有相關(guān)性。



圖3:本研究模型在BeyondAIME上的置信度校準(zhǔn)圖。經(jīng)過行為校準(zhǔn)訓(xùn)練后,模型的準(zhǔn)確率與其聲明的置信度呈現(xiàn)強(qiáng)烈的正相關(guān)關(guān)系。其中Base和Base-ppo是基準(zhǔn)。

行為校準(zhǔn)的四個目標(biāo)



圖4:在不同風(fēng)險閾值下的準(zhǔn)確率、拒絕率和幻覺率變化曲線。綠色區(qū)域代表準(zhǔn)確率,黃色區(qū)域代表拒絕率,紅色區(qū)域代表幻覺率。隨著風(fēng)險閾值t的增加,模型逐漸從「應(yīng)試者模式」過渡到「完全誠實(shí)模式」。

研究團(tuán)隊(duì)設(shè)計(jì)的系統(tǒng)滿足行為校準(zhǔn)的四個目標(biāo):







圖5:行為校準(zhǔn)的True Positive(實(shí)線)和False Negative(虛線)。TP曲線應(yīng)位于對角線上方,F(xiàn)N曲線應(yīng)位于對角線下方。Base和Base-ppo是基線

跨領(lǐng)域泛化:元技能的可遷移性

為了驗(yàn)證該方法訓(xùn)練出的元認(rèn)知能力是否具有可遷移性,研究團(tuán)隊(duì)將在數(shù)學(xué)數(shù)據(jù)上訓(xùn)練的模型直接在SimpleQA(具有挑戰(zhàn)性的長尾事實(shí)知識基準(zhǔn))上進(jìn)行零樣本評估。

結(jié)果顯示,方法的 SNR 顯著優(yōu)于基礎(chǔ)指令模型,超越了大多數(shù)評估的前沿模型,與包括 Claude-Sonnet-4.5 和 GPT-5 在內(nèi)的最強(qiáng)前沿模型相當(dāng)。由于零樣本評估的設(shè)定,在模型缺乏基礎(chǔ)知識的全新領(lǐng)域上,行為校準(zhǔn)被有效遷移,這說明行為校準(zhǔn)是一種與預(yù)測準(zhǔn)確率解耦的技能

研究啟示:

幻覺緩解與準(zhǔn)確率是兩個獨(dú)立的能力

該研究還帶來了一些理論洞察:

1. 幻覺緩解與事實(shí)準(zhǔn)確率是兩種不同的能力。研究團(tuán)隊(duì)觀察到,對于某些前沿模型而言,準(zhǔn)確率與幻覺率或置信度校準(zhǔn)之間并沒有正相關(guān)關(guān)系。GPT 系列模型的優(yōu)勢更多體現(xiàn)在控制幻覺的能力上,而不僅是準(zhǔn)確率的優(yōu)勢。

2. 小模型也能實(shí)現(xiàn)與大模型相當(dāng)?shù)闹眯哦刃?zhǔn)。實(shí)現(xiàn)有效「校準(zhǔn)」所需的計(jì)算資源遠(yuǎn)低于追求絕對準(zhǔn)確率所需的資源。反過來說,某些大模型的言語化置信度并不能準(zhǔn)確反映其實(shí)際表現(xiàn)。

3. 行為校準(zhǔn)是一種可學(xué)習(xí)的屬性,可以通過訓(xùn)練得到改善。這與此前認(rèn)為幻覺是 LLM 不可避免的內(nèi)置特性的觀點(diǎn)形成了對比。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
中方最擔(dān)心的事情發(fā)生了,伊朗越過紅線,秘密武器直逼以方心臟

中方最擔(dān)心的事情發(fā)生了,伊朗越過紅線,秘密武器直逼以方心臟

青煙小先生
2026-03-11 10:29:39
靜待潮退:伊朗國防軍與革命衛(wèi)隊(duì)的“換防”猜想

靜待潮退:伊朗國防軍與革命衛(wèi)隊(duì)的“換防”猜想

民間胡扯老哥
2026-03-11 21:15:32
美國國防部副部長:從現(xiàn)在起不存在中國武力統(tǒng)一臺灣這個選項(xiàng)

美國國防部副部長:從現(xiàn)在起不存在中國武力統(tǒng)一臺灣這個選項(xiàng)

南權(quán)先生
2026-03-12 16:11:52
伊朗體育部長:伊朗隊(duì)不具備參加世界杯條件 應(yīng)取消美國主辦資格

伊朗體育部長:伊朗隊(duì)不具備參加世界杯條件 應(yīng)取消美國主辦資格

新英體育
2026-03-12 10:20:17
伊朗足協(xié)主席:留澳的女足球員不會受罰,她們是被攔住后接走的

伊朗足協(xié)主席:留澳的女足球員不會受罰,她們是被攔住后接走的

懂球帝
2026-03-11 19:49:04
韓媒:薩德發(fā)射車全被拉走,若雷達(dá)走了,那意味著戰(zhàn)局的徹底崩壞

韓媒:薩德發(fā)射車全被拉走,若雷達(dá)走了,那意味著戰(zhàn)局的徹底崩壞

嘯鷹評
2026-03-11 18:26:58
白巖松戳破農(nóng)村養(yǎng)老真相:每月不到 200 塊,農(nóng)村老人晚年太難了

白巖松戳破農(nóng)村養(yǎng)老真相:每月不到 200 塊,農(nóng)村老人晚年太難了

老特有話說
2026-03-11 15:01:35
伊朗最高領(lǐng)袖即將發(fā)表聲明 內(nèi)容包括7個部分

伊朗最高領(lǐng)袖即將發(fā)表聲明 內(nèi)容包括7個部分

新華社
2026-03-12 20:41:28
究竟遜尼派與什葉派的區(qū)別是什么?

究竟遜尼派與什葉派的區(qū)別是什么?

難得君
2026-03-07 09:53:43
伊朗最高領(lǐng)袖首份聲明:不會放棄復(fù)仇 繼續(xù)封鎖霍爾木茲海峽

伊朗最高領(lǐng)袖首份聲明:不會放棄復(fù)仇 繼續(xù)封鎖霍爾木茲海峽

新華社
2026-03-12 22:56:37
特斯拉新品上架,但這價格也太離譜了!

特斯拉新品上架,但這價格也太離譜了!

XCiOS俱樂部
2026-03-12 19:30:42
越南油價突然“大跳水”!汽油柴油集體暴跌幾千盾,開車族們可以松口氣了~

越南油價突然“大跳水”!汽油柴油集體暴跌幾千盾,開車族們可以松口氣了~

越南語學(xué)習(xí)平臺
2026-03-12 09:54:55
相親對象能有多丑?真的太好笑了,抑郁的人看見評論區(qū)都能好

相親對象能有多丑?真的太好笑了,抑郁的人看見評論區(qū)都能好

黃麗搞笑小能手
2026-03-11 20:48:01
人大代表張全收:只要身體硬朗、自愿,建議允許60歲以上農(nóng)民工繼續(xù)務(wù)工,并提供求職平臺和培訓(xùn)力度保障

人大代表張全收:只要身體硬朗、自愿,建議允許60歲以上農(nóng)民工繼續(xù)務(wù)工,并提供求職平臺和培訓(xùn)力度保障

大風(fēng)新聞
2026-03-11 17:45:02
古埃及法老亂倫,為何不覺得違背倫理?甚至覺得:一般人是沒機(jī)會

古埃及法老亂倫,為何不覺得違背倫理?甚至覺得:一般人是沒機(jī)會

扶蘇史記
2026-03-07 15:16:48
48小時內(nèi),亞洲三國給中國送大禮,美專家痛心疾首:特朗普犯大錯

48小時內(nèi),亞洲三國給中國送大禮,美專家痛心疾首:特朗普犯大錯

現(xiàn)代小青青慕慕
2026-03-11 14:14:28
安理會未通過俄提交的涉伊朗決議,該決議旨在敦促結(jié)束中東地區(qū)沖突,中方:對草案未獲通過感到失望和遺憾

安理會未通過俄提交的涉伊朗決議,該決議旨在敦促結(jié)束中東地區(qū)沖突,中方:對草案未獲通過感到失望和遺憾

極目新聞
2026-03-12 07:41:57
史上最貴iPhone登場!iPhone Ultra起售價正式曝光

史上最貴iPhone登場!iPhone Ultra起售價正式曝光

小蜜情感說
2026-03-10 04:11:52
日本民眾吐槽中國人大鬧高級住宅地庫,非法停車、甚至出現(xiàn)人類糞便?!

日本民眾吐槽中國人大鬧高級住宅地庫,非法停車、甚至出現(xiàn)人類糞便?!

東京新青年
2026-03-12 18:45:39
一場生日,戳穿37歲奚夢瑤婚姻現(xiàn)狀,一月前就有大瓜傳出

一場生日,戳穿37歲奚夢瑤婚姻現(xiàn)狀,一月前就有大瓜傳出

洲洲影視娛評
2026-03-12 18:19:35
2026-03-13 00:15:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12488文章數(shù) 142584關(guān)注度
往期回顧 全部

科技要聞

當(dāng)養(yǎng)蝦人開始卸載,大廠的戰(zhàn)爭才真正開始

頭條要聞

男子做核磁被遺忘在機(jī)器上6小時 涉事醫(yī)生:交接失誤

頭條要聞

男子做核磁被遺忘在機(jī)器上6小時 涉事醫(yī)生:交接失誤

體育要聞

建議將“出球型門將”納入反詐app

娛樂要聞

貝克漢姆全家給27歲大布送生日祝福

財(cái)經(jīng)要聞

盧鋒:從特朗普團(tuán)隊(duì)群演看時代變局

汽車要聞

大眾2025財(cái)報:轉(zhuǎn)型雖有陣痛 "大象"已然起跑

態(tài)度原創(chuàng)

家居
藝術(shù)
教育
親子
軍事航空

家居要聞

觸感本真 家的跡象

藝術(shù)要聞

朱屺瞻『凌波仙子』

教育要聞

2026年春假安排告家長書

親子要聞

有愛但不多!

軍事要聞

特朗普自行宣布對伊朗戰(zhàn)爭勝利

無障礙瀏覽 進(jìn)入關(guān)懷版