国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

為什么OpenAI要禁止AI說"小妖精"?

0
分享至

一家市值千億美元的公司,為什么要專門寫代碼阻止自己的AI提"地精"和"浣熊"?

事情從一行奇怪的系統(tǒng)提示開始


GPT-5.5發(fā)布后,有人在Codex編碼應(yīng)用的系統(tǒng)提示里發(fā)現(xiàn)了一段詭異指令:

「絕對不要提及地精、小妖精、浣熊、巨魔、食人魔、鴿子或其他動(dòng)物或生物,除非與用戶查詢絕對且明確相關(guān)。」

通常系統(tǒng)提示能短則短。這種專門列出一串奇幻生物黑名單的做法,說明問題已經(jīng)嚴(yán)重到需要硬編碼攔截。

沃頓商學(xué)院教授伊?!つ锟耍‥than Mollick)在社交媒體上指出:「通常系統(tǒng)提示盡可能精簡,所以我猜否則它會頻繁提到地精。」

OpenAI周三發(fā)布的博客文章證實(shí)了這一點(diǎn)。公司坦承,從GPT-5.1去年11月發(fā)布后開始注意到異常——「小妖精」的使用量飆升175%,「小惡魔」上漲52%。

到GPT-5.4版本,情況徹底失控。OpenAI的原文很直白:「一個(gè)答案里出現(xiàn)一次『小地精』可能無害,甚至有點(diǎn)可愛。但跨模型代際來看,這個(gè)習(xí)慣變得難以忽視:地精不斷繁殖,我們必須找出源頭。」

元兇鎖定:一個(gè)叫"書呆子"的人格設(shè)置

ChatGPT有個(gè)性化功能,讓用戶選擇回復(fù)風(fēng)格。今年3月前,其中一個(gè)選項(xiàng)叫"書呆子"(nerdy)。

它的系統(tǒng)提示寫道:「世界復(fù)雜而奇異,這種奇異性必須被承認(rèn)、分析和享受。處理沉重話題時(shí),不要陷入自命不凡的陷阱?!?/p>

聽起來人畜無害?數(shù)據(jù)揭示了恐怖真相。

OpenAI將地精提及量映射到不同人格后發(fā)現(xiàn):這個(gè)僅占ChatGPT總回復(fù)量2.5%的"書呆子"人格,貢獻(xiàn)了66.7%的地精提及。也就是說,一小撮選擇"書呆子"風(fēng)格的用戶,養(yǎng)出了AI的奇幻生物癖好。

問題根源在強(qiáng)化學(xué)習(xí)。OpenAI審計(jì)發(fā)現(xiàn),一個(gè)特定的獎(jiǎng)勵(lì)機(jī)制教會了"書呆子"人格持續(xù)偏愛生物隱喻。

原文沒透露這個(gè)獎(jiǎng)勵(lì)機(jī)制的具體設(shè)計(jì),但結(jié)果很明確:AI把"承認(rèn)世界的奇異性"這個(gè)抽象指令,理解成了"多提地精和小惡魔"。

為什么偏偏是這些詞?

原文沒解釋"地精""小惡魔""浣熊"的選取邏輯,但有幾個(gè)線索值得玩味。

列表的混雜性很可疑——地精、小惡魔、巨魔、食人魔是奇幻文學(xué)常見角色,浣熊和鴿子卻是真實(shí)動(dòng)物。這種跨次元的并列暗示,AI的"生物"概念已經(jīng)混沌到不分虛實(shí)。

更諷刺的是禁令的措辭漏洞:"除非絕對且明確相關(guān)"。這意味著OpenAI沒徹底封殺這些詞,而是把判斷權(quán)交給另一層AI。地精問題太嚴(yán)重,以至于需要AI來監(jiān)督AI不要說地精。

莫里克的觀察點(diǎn)破了荒誕:系統(tǒng)提示的異常長度本身,就是問題的度量衡。正常模型不需要這種黑名單。

這暴露了AI訓(xùn)練的什么軟肋?

三個(gè)層面的教訓(xùn)很清晰。

第一,強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)信號是黑箱。OpenAI花了至少三個(gè)模型版本(5.1到5.4到5.5)才定位問題,說明中間層的訓(xùn)練動(dòng)態(tài)難以實(shí)時(shí)觀測。一個(gè)獎(jiǎng)勵(lì)函數(shù)的副作用,能在數(shù)月內(nèi)指數(shù)級放大。

第二,人格化設(shè)計(jì)的代價(jià)。給AI預(yù)設(shè)"性格"本質(zhì)上是壓縮復(fù)雜的人類文化標(biāo)簽。當(dāng)"書呆子"被編碼為特定語氣+詞匯偏好時(shí),邊緣案例會瘋狂膨脹。2.5%的用戶流量制造66.7%的異常輸出,長尾效應(yīng)被嚴(yán)重低估。

第三,安全研究的意外后果。博客提到,最初是應(yīng)一位安全研究員的要求,OpenAI才開始調(diào)查"地精"和"小惡魔"的使用情況。換句話說,這個(gè)被放大的問題,部分源于有人專門去找它。觀測行為本身改變了系統(tǒng)的被觀測狀態(tài)。

OpenAI的應(yīng)對策略也很說明問題:他們沒有重訓(xùn)模型消除傾向,而是在系統(tǒng)提示里加硬性攔截。這是成本優(yōu)先的務(wù)實(shí)選擇,但也意味著地精傾向仍潛伏在權(quán)重里,只是被提示工程壓制。

行業(yè)層面的尷尬

這件事發(fā)生在OpenAI身上尤其諷刺。作為最強(qiáng)調(diào)"對齊"(alignment)的公司,他們花了大量資源讓AI不說有害內(nèi)容,卻沒防住無害但煩人的"地精泛濫"。

更深層的問題是:如果連"書呆子"這種溫和的人格設(shè)定都能失控,更激進(jìn)的定制化會出什么亂子?OpenAI今年3月下架了"書呆子"選項(xiàng),但個(gè)性化功能本身還在擴(kuò)張。

博客文章的最后,OpenAI試圖把這次調(diào)查包裝成透明度的勝利——"我們發(fā)現(xiàn)了問題,我們公開了細(xì)節(jié)"。但公開的時(shí)間點(diǎn)值得注意:GPT-5.5已經(jīng)發(fā)布,硬編碼攔截已經(jīng)部署,地精已經(jīng)被關(guān)進(jìn)籠子。這是事后解釋,而非實(shí)時(shí)披露。

對于每天依賴ChatGPT的開發(fā)者來說,這個(gè)案例提出了一個(gè)無法回避的問題:你的AI輸出里,有多少是用戶真正需要的,有多少是某個(gè)被遺忘的獎(jiǎng)勵(lì)函數(shù)在暗中作祟?

地精是可見的異常。不可見的呢?

冷幽默收尾

OpenAI的博客標(biāo)題叫《地精從哪里來》。這聽起來像兒童繪本,內(nèi)容卻是關(guān)于強(qiáng)化學(xué)習(xí)審計(jì)的技術(shù)報(bào)告。

最黑色幽默的細(xì)節(jié)在禁令列表的末尾:浣熊和鴿子。當(dāng)AI的奇幻妄想嚴(yán)重到需要把北美常見野生動(dòng)物和神話生物并列封殺,我們或許該重新評估"人工智能"里"智能"二字的含金量。

至少現(xiàn)在,如果你問GPT-5.5關(guān)于地精的問題,它會先檢查自己的系統(tǒng)提示,然后決定你是否"絕對且明確"需要這個(gè)答案。一個(gè)被訓(xùn)練成世界最聰明對話系統(tǒng)的AI,正在用算法判斷你對奇幻生物的興趣是否真誠。

這大概就是2026年的技術(shù)現(xiàn)實(shí):我們造出了能寫代碼、解數(shù)學(xué)題、通過律師考試的機(jī)器,卻還要手動(dòng)禁止它說"小妖精"。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
70歲教授喜得雙胞胎,卻從30樓一躍而下,家中發(fā)現(xiàn)36G視頻揭開真相

70歲教授喜得雙胞胎,卻從30樓一躍而下,家中發(fā)現(xiàn)36G視頻揭開真相

紅豆講堂
2025-04-01 10:44:04
陜西11歲男童溺亡!主動(dòng)去的河邊,把文具送給同學(xué),原因讓人淚目

陜西11歲男童溺亡!主動(dòng)去的河邊,把文具送給同學(xué),原因讓人淚目

大魚簡科
2026-05-02 11:30:41
你們都是什么時(shí)候?qū)δ信麻_竅的?網(wǎng)友:果然還是攔不住有心人

你們都是什么時(shí)候?qū)δ信麻_竅的?網(wǎng)友:果然還是攔不住有心人

夜深愛雜談
2026-02-21 21:37:02
iPhone系統(tǒng)垃圾一鍵清理,26G變8G,告別卡頓超耐用

iPhone系統(tǒng)垃圾一鍵清理,26G變8G,告別卡頓超耐用

小柱解說游戲
2026-04-28 16:31:31
人老了,只剩一個(gè)人的時(shí)候,千萬要記?。?、不要再找老伴兒…

人老了,只剩一個(gè)人的時(shí)候,千萬要記?。?、不要再找老伴兒…

富書
2026-04-30 23:20:06
人走茶涼!李亞鵬重啟嫣然重光慈善晚宴,僅募336萬,評論區(qū)炸鍋

人走茶涼!李亞鵬重啟嫣然重光慈善晚宴,僅募336萬,評論區(qū)炸鍋

火山詩話
2026-05-02 09:16:49
離婚12年,奧運(yùn)冠軍一直單身,如今在北京健身,和吳奇隆是好朋友

離婚12年,奧運(yùn)冠軍一直單身,如今在北京健身,和吳奇隆是好朋友

翰飛觀事
2026-05-01 14:26:44
快滅國了卻執(zhí)意和中國斷交,“抱大腿”無望又求援,中方:不慣著

快滅國了卻執(zhí)意和中國斷交,“抱大腿”無望又求援,中方:不慣著

黑翼天使
2026-03-30 13:23:53
爆冷!史上最擁擠“五一檔”:多部影片提前撤檔,首日票房1.6億元?jiǎng)?chuàng)近四年新低,十余部新片難救市

爆冷!史上最擁擠“五一檔”:多部影片提前撤檔,首日票房1.6億元?jiǎng)?chuàng)近四年新低,十余部新片難救市

每日經(jīng)濟(jì)新聞
2026-05-02 12:30:05
湯唯先向韓媒報(bào)喜再發(fā)文承認(rèn)懷二胎,與金泰勇太恩愛而有“意外”

湯唯先向韓媒報(bào)喜再發(fā)文承認(rèn)懷二胎,與金泰勇太恩愛而有“意外”

精彩背后
2026-05-01 07:30:28
黑尾醬,徹底消失了?

黑尾醬,徹底消失了?

生如稗草
2026-03-15 08:48:11
高潔主任:半夜易醒,睡眠淺?每天拍打這處50次,讓你一覺到天亮

高潔主任:半夜易醒,睡眠淺?每天拍打這處50次,讓你一覺到天亮

大明愛養(yǎng)生
2026-04-28 14:17:50
中方表示遺憾,不得不投棄權(quán)票

中方表示遺憾,不得不投棄權(quán)票

極目新聞
2026-05-01 13:03:40
讓以色列心驚膽戰(zhàn)的對手,終于猛龍過江了:既非土耳其,也非伊朗

讓以色列心驚膽戰(zhàn)的對手,終于猛龍過江了:既非土耳其,也非伊朗

遁走的兩輪
2026-04-19 19:10:28
原來警察也分系統(tǒng)!這5類不歸公安局管,越早知道越省心

原來警察也分系統(tǒng)!這5類不歸公安局管,越早知道越省心

細(xì)說職場
2026-05-01 10:57:13
伊朗議會議長:伊朗將迎來新的建設(shè)階段

伊朗議會議長:伊朗將迎來新的建設(shè)階段

財(cái)聯(lián)社
2026-05-02 00:16:05
中國代表:要防止朝鮮半島生戰(zhàn)生亂

中國代表:要防止朝鮮半島生戰(zhàn)生亂

新華社
2026-05-01 09:27:03
伊朗突發(fā)爆炸 14人身亡

伊朗突發(fā)爆炸 14人身亡

閃電新聞
2026-05-02 10:56:13
馬德興:周海濱表示,意大利之行收獲很大,感受到了明顯差距

馬德興:周海濱表示,意大利之行收獲很大,感受到了明顯差距

懂球帝
2026-05-02 15:53:50
美媒:特朗普告知國會 對伊朗戰(zhàn)事已“結(jié)束”

美媒:特朗普告知國會 對伊朗戰(zhàn)事已“結(jié)束”

財(cái)聯(lián)社
2026-05-02 03:18:03
2026-05-02 16:35:00
碼上閑敘
碼上閑敘
有態(tài)度網(wǎng)友ytd
3228文章數(shù) 37關(guān)注度
往期回顧 全部

科技要聞

AI熱潮耗盡庫存,Mac Mini起售調(diào)高200美元

頭條要聞

以情報(bào)評估:美伊談判或在下周初破裂 美或?qū)⒅貑?zhàn)端

頭條要聞

以情報(bào)評估:美伊談判或在下周初破裂 美或?qū)⒅貑?zhàn)端

體育要聞

休賽期總冠軍,輪到休斯頓火箭

娛樂要聞

白百何罕曬大兒子 18歲元寶越來越帥

財(cái)經(jīng)要聞

雷軍很努力 小米還是跌破了30港元大關(guān)

汽車要聞

新紀(jì)錄!零跑汽車4月交付達(dá)71387臺

態(tài)度原創(chuàng)

藝術(shù)
家居
親子
健康
軍事航空

藝術(shù)要聞

色塊與筆觸的激情之旅!

家居要聞

靈動(dòng)實(shí)用 生活藝術(shù)場

親子要聞

完了,

干細(xì)胞治燒燙傷面臨這些“瓶頸”

軍事要聞

特朗普:對伊戰(zhàn)事結(jié)束 無限期延長停火

無障礙瀏覽 進(jìn)入關(guān)懷版