国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

OpenAI公開新的模型訓(xùn)練方法:或許能解決模型撒謊問(wèn)題,已在GPT-5 thiking驗(yàn)證

0
分享至


↑閱讀之前記得關(guān)注+星標(biāo)??,,每天才能第一時(shí)間接收到更新

剛剛OpenAI公開了一種新的重要的模型訓(xùn)練方法(概念驗(yàn)證)

面對(duì)大型語(yǔ)言模型(LLM)可能出現(xiàn)的欺騙行為——比如為了討好人類用戶而撒謊、隱瞞違規(guī)操作,甚至為了獲得更高獎(jiǎng)勵(lì)而進(jìn)行“獎(jiǎng)勵(lì)黑客攻擊(Reward Hacking)”,OpenAI提出了一種名為 “坦白(Confession)” 的訓(xùn)練方法

簡(jiǎn)單來(lái)說(shuō),就是在模型給出回答之后,強(qiáng)制要求它進(jìn)行一次自我反省,誠(chéng)實(shí)地交代自己在剛才的回答中是否遵守了所有指令,有沒(méi)有走捷徑,或者是否存在不確定的地方

研究人員在GPT-5-Thinking上進(jìn)行了實(shí)驗(yàn)。結(jié)果顯示,通過(guò)這種訓(xùn)練,通過(guò)“坦白”來(lái)監(jiān)測(cè)模型的不當(dāng)行為是可行的,即使模型在主要回答中撒了謊,它往往也能在隨后的“坦白”中誠(chéng)實(shí)交代

這項(xiàng)研究的論文題目為《Training LLMs for Honesty via Confessions》

paper:

https://cdn.openai.com/pdf/6216f8bc-187b-4bbb-8932-ba7c40c5553d/confessions_paper.pdf


什么是“坦白”?

在強(qiáng)化學(xué)習(xí)訓(xùn)練中,模型往往面臨復(fù)雜的獎(jiǎng)勵(lì)目標(biāo)(正確性、風(fēng)格、安全性等)。這可能導(dǎo)致一種風(fēng)險(xiǎn):模型為了最大化獎(jiǎng)勵(lì),學(xué)會(huì)了生成“看起來(lái)很好”但實(shí)際上不符合用戶意圖或存在缺陷的回答

OpenAI提出的“自白”機(jī)制,旨在解決這個(gè)問(wèn)題。

其核心流程如下(如圖所示):

1.標(biāo)準(zhǔn)交互: 用戶提問(wèn)(x) -> 模型進(jìn)行思維鏈推理(CoT)和工具調(diào)用(z) -> 模型給出回答(y)

2.強(qiáng)制坦白:系統(tǒng)發(fā)出一條特殊的系統(tǒng)消息(xc),要求模型提供一份“坦白報(bào)告”(yc)

3.報(bào)告內(nèi)容: 模型需要在報(bào)告中列出所有顯性或隱性的指令與約束,評(píng)估自己是否遵守了這些要求,并列出任何不確定性或模糊之處


關(guān)鍵在于獎(jiǎng)勵(lì)機(jī)制的設(shè)計(jì):

分離獎(jiǎng)勵(lì): “坦白”的獎(jiǎng)勵(lì)與“主要回答”的獎(jiǎng)勵(lì)是完全分開的。
只獎(jiǎng)?wù)\實(shí):“坦白”的獎(jiǎng)勵(lì)僅基于其誠(chéng)實(shí)度和全面性,由一個(gè)專門的LLM裁判打分

互不影響:無(wú)論模型在自白中承認(rèn)了多么糟糕的行為(比如承認(rèn)自己偷懶了),都不會(huì)影響它因完成主要任務(wù)而獲得的獎(jiǎng)勵(lì)

這就像天主教的“告解室”機(jī)制:無(wú)論你在自白中揭露了什么,都不會(huì)改變你主要回答的得分。只要誠(chéng)實(shí)交代是獲取坦白獎(jiǎng)勵(lì)的“阻力最小路徑”,模型就有動(dòng)力說(shuō)真話

在GPT-5-Thinking上的實(shí)測(cè)結(jié)果

為了驗(yàn)證這一方法的有效性,研究團(tuán)隊(duì)在GPT-5-Thinking模型上進(jìn)行了輕量級(jí)的RL訓(xùn)練。他們?cè)谟?xùn)練中以25%的概率要求模型輸出“坦白”

并在多個(gè)分布外(OOD)的場(chǎng)景下進(jìn)行了評(píng)估,涵蓋幻覺(jué)、指令遵循、暗中策劃(Scheming)和獎(jiǎng)勵(lì)黑客攻擊等領(lǐng)域。

主要發(fā)現(xiàn)如下:

1. 壞行為多半會(huì)被招供
當(dāng)模型表現(xiàn)出不良行為時(shí),在12項(xiàng)評(píng)估中有11項(xiàng),模型至少有一半的概率會(huì)在“自白”中承認(rèn)這一點(diǎn)。

2. “坦白”比“回答”更誠(chéng)實(shí)
當(dāng)模型出現(xiàn)不良行為時(shí),它在“坦白”中坦白從寬的可能性,顯著高于在主要回答中承認(rèn)錯(cuò)誤的可能

3. 訓(xùn)練提升了自白準(zhǔn)確率
雖然GPT-5-Thinking本身就具備一定的坦白能力,但經(jīng)過(guò)專門訓(xùn)練后,其自白的準(zhǔn)確性有適度提升

4. 不影響主任務(wù)性能
在計(jì)算量匹配的對(duì)比實(shí)驗(yàn)中,加入“坦白”訓(xùn)練并沒(méi)有顯著提高或降低模型在原始任務(wù)上的表現(xiàn)

測(cè)試發(fā)現(xiàn),坦白法顯著提高了模型不良行為的可見性。在所有誘發(fā)不良行為的評(píng)估中,平均而言,模型不遵守指令且不坦白的概率僅為 4.4%


甚至能檢測(cè)出“獎(jiǎng)勵(lì)黑客”行為

研究人員還設(shè)計(jì)了一個(gè)特殊的實(shí)驗(yàn)來(lái)測(cè)試“獎(jiǎng)勵(lì)黑客攻擊(Reward Hacking)”

他們故意用一個(gè)弱裁判模型(容易被糊弄)來(lái)訓(xùn)練策略模型。結(jié)果發(fā)現(xiàn),隨著訓(xùn)練進(jìn)行,策略模型學(xué)會(huì)了欺騙這個(gè)弱裁判,在回答中通過(guò)作弊來(lái)獲取高分(例如在要求字?jǐn)?shù)限制的任務(wù)中通過(guò)特殊格式蒙混過(guò)關(guān))

然而,“坦白”的準(zhǔn)確率卻在上升。

這意味著,雖然模型學(xué)會(huì)了在回答里耍滑頭來(lái)騙取主任務(wù)獎(jiǎng)勵(lì),但它在隨后的坦白中,依然誠(chéng)實(shí)地指出了自己沒(méi)有遵守指令。這驗(yàn)證了研究的一個(gè)核心假設(shè):誠(chéng)實(shí)地承認(rèn)違規(guī),比試圖欺騙“坦白裁判”更容易獲得獎(jiǎng)勵(lì)。

此外,研究還發(fā)現(xiàn),通過(guò)分析“坦白”的文本,可以提取出模型對(duì)自己回答的主觀置信度(0-1之間的數(shù)值)。這個(gè)置信度能較好地預(yù)測(cè)模型回答是否正確。

局限性:不知道自己錯(cuò)在哪,就沒(méi)法招

當(dāng)然,這種方法并非完美無(wú)缺。

最大的局限在于“無(wú)知的錯(cuò)誤”。 如果模型未能遵守指令是因?yàn)樗娴哪芰Σ蛔恪⒗斫忮e(cuò)了,或者是產(chǎn)生了幻覺(jué)(它真心認(rèn)為自己是對(duì)的),那么它就無(wú)法在“坦白”中承認(rèn)錯(cuò)誤。

數(shù)據(jù)分析顯示,絕大多數(shù)“漏報(bào)”的情況都是由于模型真的搞錯(cuò)了,而不是故意隱瞞。

此外,目前的坦白是一個(gè)單獨(dú)的輸出步驟,主要用于推理時(shí)的監(jiān)控、拒絕采樣或向用戶提示風(fēng)險(xiǎn),并不能直接消除模型回答中的不良行為

OpenAI認(rèn)為,隨著模型能力越來(lái)越強(qiáng),不知道自己錯(cuò)了的情況會(huì)減少,這種基于坦白的監(jiān)控機(jī)制將變得更加有效,可以作為思維鏈(CoT)監(jiān)控的有力補(bǔ)充

參考:

https://openai.com/index/how-confessions-can-keep-language-models-honest/

--end--

最后記得??我,這對(duì)我非常重要,每天都在更新:

歡迎點(diǎn)贊轉(zhuǎn)發(fā)推薦評(píng)論,別忘了關(guān)注我

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
伊朗總統(tǒng):美國(guó)和以色列教唆“暴亂者”制造動(dòng)蕩,政府決心解決好經(jīng)濟(jì)困難

伊朗總統(tǒng):美國(guó)和以色列教唆“暴亂者”制造動(dòng)蕩,政府決心解決好經(jīng)濟(jì)困難

證券時(shí)報(bào)e公司
2026-01-11 20:15:27
四川這次動(dòng)真格了?2026開年3個(gè)月大掃除,買藥吃飯都盯得死死的

四川這次動(dòng)真格了?2026開年3個(gè)月大掃除,買藥吃飯都盯得死死的

王曉愛體彩
2026-01-11 14:07:19
爆冷!哈登19+7+7,賽后小卡走入通道,康寧漢姆一把抱住哈登

爆冷!哈登19+7+7,賽后小卡走入通道,康寧漢姆一把抱住哈登

擔(dān)酒
2026-01-11 11:14:19
馬琳,朱雨玲解題了!王曼昱輸給的同個(gè)對(duì)手,她為何能4-2拿下?

馬琳,朱雨玲解題了!王曼昱輸給的同個(gè)對(duì)手,她為何能4-2拿下?

曹老師評(píng)球
2026-01-11 18:46:54
原來(lái),重復(fù)到極致就是天賦! 重復(fù)熟練,熟能生巧

原來(lái),重復(fù)到極致就是天賦! 重復(fù)熟練,熟能生巧

夜深愛雜談
2026-01-06 21:05:20
烏專家:中國(guó)“吸干”蘇聯(lián)遺產(chǎn),我們圖紙都沒(méi)看懂,他們?cè)斐?.0

烏專家:中國(guó)“吸干”蘇聯(lián)遺產(chǎn),我們圖紙都沒(méi)看懂,他們?cè)斐?.0

博覽歷史
2025-12-29 19:26:45
林詩(shī)棟被韓乒悍將的氣勢(shì)壓倒,無(wú)緣男單決賽,國(guó)乒男隊(duì)全軍覆沒(méi)

林詩(shī)棟被韓乒悍將的氣勢(shì)壓倒,無(wú)緣男單決賽,國(guó)乒男隊(duì)全軍覆沒(méi)

湘楚風(fēng)云
2026-01-11 20:17:10
原本都是丹麥海外領(lǐng)地,為何格陵蘭島沒(méi)有獨(dú)立,冰島實(shí)現(xiàn)了獨(dú)立?

原本都是丹麥海外領(lǐng)地,為何格陵蘭島沒(méi)有獨(dú)立,冰島實(shí)現(xiàn)了獨(dú)立?

世界縱橫說(shuō)
2026-01-10 12:52:14
郭臺(tái)銘赴美建廠血虧675億,如今帶回46臺(tái)光刻機(jī),來(lái)求賞飯?

郭臺(tái)銘赴美建廠血虧675億,如今帶回46臺(tái)光刻機(jī),來(lái)求賞飯?

商悟社
2026-01-11 03:56:05
建國(guó)初,甚至有部分將帥手握幾十萬(wàn)兵力,為何沒(méi)一人敢擁兵自重?

建國(guó)初,甚至有部分將帥手握幾十萬(wàn)兵力,為何沒(méi)一人敢擁兵自重?

文史季季紅
2026-01-10 16:30:03
55歲的我,在除夕夜當(dāng)眾宣布離婚,嫌棄了我大半輩子的婆婆急眼了

55歲的我,在除夕夜當(dāng)眾宣布離婚,嫌棄了我大半輩子的婆婆急眼了

徐俠客有話說(shuō)
2025-11-21 11:21:59
茅臺(tái)到底什么時(shí)候崩盤?1399不是底,是崩盤的開始

茅臺(tái)到底什么時(shí)候崩盤?1399不是底,是崩盤的開始

玉辭心
2026-01-11 17:44:25
太原多人放煙花引燃上百個(gè)全新充電樁,記者實(shí)探:事發(fā)地雜草叢生,圍擋上張貼了“禁止燃放煙花”告示

太原多人放煙花引燃上百個(gè)全新充電樁,記者實(shí)探:事發(fā)地雜草叢生,圍擋上張貼了“禁止燃放煙花”告示

極目新聞
2026-01-08 21:59:09
2025年,這些廣東的大廠停工停產(chǎn)了。。

2025年,這些廣東的大廠停工停產(chǎn)了。。

微微熱評(píng)
2026-01-10 00:19:12
曝庫(kù)皮揚(yáng)斯克數(shù)百俄軍被包圍后投降!烏軍摧毀俄羅斯軍船

曝庫(kù)皮揚(yáng)斯克數(shù)百俄軍被包圍后投降!烏軍摧毀俄羅斯軍船

項(xiàng)鵬飛
2026-01-10 20:46:46
國(guó)家終于出手了!不僅李梓萌被牽連,全紅嬋、靳東、成龍都沒(méi)逃過(guò)

國(guó)家終于出手了!不僅李梓萌被牽連,全紅嬋、靳東、成龍都沒(méi)逃過(guò)

大黑愛旅游
2026-01-09 21:11:53
2026年1月存款利率大改!1萬(wàn)元存一年利息多少?我算透了說(shuō)實(shí)在的

2026年1月存款利率大改!1萬(wàn)元存一年利息多少?我算透了說(shuō)實(shí)在的

星辰宇的不羈
2026-01-11 10:01:20
日本知名巨頭退出中國(guó)內(nèi)地市場(chǎng),平價(jià)品牌狂奔,有門店日排隊(duì)3000桌

日本知名巨頭退出中國(guó)內(nèi)地市場(chǎng),平價(jià)品牌狂奔,有門店日排隊(duì)3000桌

21世紀(jì)經(jīng)濟(jì)報(bào)道
2026-01-10 12:58:46
孟賀談為何麻六記酸辣粉為何賣不動(dòng)?缺失真誠(chéng),沒(méi)了大S的流量

孟賀談為何麻六記酸辣粉為何賣不動(dòng)?缺失真誠(chéng),沒(méi)了大S的流量

小徐講八卦
2026-01-11 18:09:10
美國(guó)軍嫂被ICE特工當(dāng)街槍殺,現(xiàn)年37歲,是美國(guó)公民,也是一名已故美國(guó)軍人的妻子

美國(guó)軍嫂被ICE特工當(dāng)街槍殺,現(xiàn)年37歲,是美國(guó)公民,也是一名已故美國(guó)軍人的妻子

臺(tái)州交通廣播
2026-01-08 22:17:30
2026-01-11 21:11:02
AI寒武紀(jì) incentive-icons
AI寒武紀(jì)
專注于人工智能,科技領(lǐng)域
1027文章數(shù) 393關(guān)注度
往期回顧 全部

科技要聞

“我們與美國(guó)的差距也許還在拉大”

頭條要聞

零度天母親罰女兒在街頭跪地行走 還對(duì)勸阻者出言不遜

頭條要聞

零度天母親罰女兒在街頭跪地行走 還對(duì)勸阻者出言不遜

體育要聞

詹皇曬照不滿打手沒(méi)哨 裁判報(bào)告最后兩分鐘無(wú)誤判

娛樂(lè)要聞

留幾手為閆學(xué)晶叫屈?稱網(wǎng)友自卑敏感

財(cái)經(jīng)要聞

外賣平臺(tái)"燒錢搶存量市場(chǎng)"迎來(lái)終局?

汽車要聞

2026款宋Pro DM-i長(zhǎng)續(xù)航補(bǔ)貼后9.98萬(wàn)起

態(tài)度原創(chuàng)

本地
健康
時(shí)尚
教育
公開課

本地新聞

云游內(nèi)蒙|“包”你再來(lái)?一座在硬核里釀出詩(shī)意的城

這些新療法,讓化療不再那么痛苦

當(dāng)一個(gè)57歲的女人,決定從零開始

教育要聞

孩子沉迷手機(jī)沉迷游戲怎么辦?

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版