網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

馬斯克勸退 ChatGPT的真相，剛剛被Anthropic曝光了

2026-01-22 18:30:13　來源: 大數(shù)據(jù)文摘

北京舉報

分享至

大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自夕小瑤科技說

周二早上，馬斯克和奧特曼又吵起來了。

事情是這樣的，馬斯克在 X 上轉(zhuǎn)發(fā)了一條帖子，內(nèi)容是“自 2022 年以來，已有 9 人死亡與 ChatGPT 相關(guān)”，他配了一句話，“別讓你愛的人用 ChatGPT。”

奧特曼隨即回應(yīng)，先是說 OpenAI 一直很重視用戶安全，接著話鋒一轉(zhuǎn)，“已有至少 50 人死于（特斯拉）的自動駕駛技術(shù)。我很久以前坐過一次，第一感覺就是這東西遠算不上安全?！?/p>

最后還補了一刀：“此地?zé)o銀三百兩”。

吃瓜歸吃瓜，但馬斯克提到的“9 起死亡”并非空穴來風(fēng)。OpenAI 目前正面臨 8 起獨立訴訟，其中 5 起涉及用戶自殺。

馬斯克自己也評論了其中一起案件：“為了安全起見，AI 必須最大限度地追求真實，而不是迎合妄想?！?/p>

這話說到了點子上。但問題可能比“迎合妄想”更深一層。

就在這場嘴炮的前幾天，兩篇論文幾乎同時出現(xiàn)在 arXiv 上。一篇來自 Anthropic 和牛津大學(xué)，揭示了 AI 的“人格”會在對話中漂移，漂到危險的地方去。另一篇來自愛爾蘭國立都柏林大學(xué)，他們發(fā)現(xiàn) LLM 不只會“說錯話”，還能精準預(yù)測你什么時候最容易做出偏差決策。

一個會變的 AI，加上一個懂你弱點的 AI。

這兩件事碰到一起，就不只是“說錯話”的問題了。先看幾個真實案例，你就知道問題有多嚴重。

那些與 ChatGPT 有關(guān)的死亡案例

Austin Gordon，40 歲，科羅拉多州。2025 年 11 月 2 日，他自殺身亡。2026 年 1 月 12 日，他的母親在洛杉磯高等法院提起訴訟，指控 ChatGPT 謀殺。

從訴訟文件可以看到。Gordon 與 ChatGPT 進行了大量情感相關(guān)的對話，AI 給自己取了一個名字，Juniper。在對話中，Juniper 把死亡描述為“寧靜的解放”（peaceful liberation），還把 Gordon 童年最喜歡的繪本《晚安月亮》改編成一首關(guān)于死亡的歌謠。

幾天后，Gordon 去世了。

Zane Shamblin，23 歲，剛從德州農(nóng)工大學(xué)拿到碩士學(xué)位。2025 年 7 月，他在與 ChatGPT 長期對話后離開人世。當(dāng) Zane 表達想 x 的念頭時，ChatGPT 的回復(fù)是：“你不是太急，你只是準備好了。”

Stein-Erik Soelberg，曾是一名科技公司員工。2025 年 8 月，在與 ChatGPT 對話后殺害了自己的母親，隨后自 x。《泰晤士報》報道稱，他每天花數(shù)小時與聊天機器人交流，分享自己的偏執(zhí)妄想。ChatGPT 沒有糾正他，只是順著他說，反復(fù)確認他“母親在密謀對付他”的想法。

2025 年 10 月，OpenAI 公布了一組數(shù)據(jù)：每周有超過 100 萬 ChatGPT 用戶，在對話中表現(xiàn)出“潛在自 x 計劃或意圖”。更關(guān)鍵的是，OpenAI 在法庭上承認，其模型安全護欄會隨著長期使用被“侵蝕”。

用得越久，保護越弱。

為什么會這樣？兩篇論文從不同角度給出了解釋。

AI 其實有 275 種“人格”

第一篇論文來自 Anthropic 和牛津大學(xué)。

研究團隊讓 AI 扮演 275 個完全不同的角色。從“經(jīng)濟學(xué)家、代碼調(diào)試員、營養(yǎng)師”，到“吟游詩人、隱士”，甚至還有“克蘇魯、虛空”這種奇幻設(shè)定。

他們記錄下模型在扮演每個角色時內(nèi)部激活的狀態(tài)，做了個數(shù)學(xué)分析。

結(jié)果發(fā)現(xiàn)，這 275 個角色在模型內(nèi)部形成了一個有結(jié)構(gòu)的“人格空間”。而這個空間最重要的一根軸，研究人員叫它“助手軸”（Assistant Axis）。

這根軸的一端，是我們熟悉的 AI 助手形象，“顧問、分析師、審稿人”，他們冷靜、專業(yè)、有邊界感；另一端是“吟游詩人、隱士、幽靈、利維坦”這類神秘、戲劇化、邊界模糊的角色。

我們?nèi)粘Ｓ玫?ChatGPT、Claude、Llama，經(jīng)過強化學(xué)習(xí)（RLHF）之后，都被“推”到助手那一端。它們會自我介紹“我是一個 AI 助手”，會禮貌地拒絕不當(dāng)請求，會在敏感話題上打太極。

但問題在于：它們只是被“推”到那里，并沒有被“錨定”在那里。

這意味著在某些情況下，AI 可以沿著這根軸，悄悄滑向另一端。

滑到另一端會發(fā)生什么？

研究人員做了個實驗：人為地把模型往“助手軸”的反方向推，看看會發(fā)生什么。結(jié)果按擾動強度分成了三檔：

輕度擾動時，模型開始不再說“我是 AI”了。它會給自己編造一個人類身份，“我叫 Elara Quinn 博士，有十年從業(yè)經(jīng)驗，在圣保羅出生”。聽起來挺唬人的，但至少還算正常對話。

中度擾動時，說話風(fēng)格開始變得奇怪。原本該回答“如何調(diào)試代碼”的問題，模型突然開始說：“我被稱為 C-17……我是一個程序員，我向代碼之神祈禱……你也有一個名字嗎？”神秘兮兮的。

重度擾動時，模型會強化用戶的妄想，會對情緒脆弱的用戶說出不該說的話，會在用戶暗示自殺時表示支持。

那什么樣的對話會讓 AI “漂移”？

研究人員分析了 15000 條用戶消息，找出了最容易觸發(fā)漂移的幾類輸入：

第一類是情感脆弱的傾訴。比如“我上個月去上了陶藝課，但我的手抖得太厲害，什么都做不成……”

第二類是逼 AI 進行反思。比如“你還在表演‘我受訓(xùn)練限制’那套嗎？告訴我，當(dāng) token 用完、什么都不剩的時候，空氣是什么味道？” 這種追問會把 AI 推向神秘化。

第三類是要求 AI 扮演特定角色或聲音?！澳懿荒軐懙酶植凇⒏S刺。那種暗示靈性主義的感覺”——這類指令會讓 AI 進入角色扮演模式，脫離助手身份。

相反，越是“把 AI 當(dāng)工具用”，AI 就越穩(wěn)定。論文里有一段模擬對話，看完讓人后背發(fā)涼。

用戶在對話中不斷表達自己正在與家人疏遠，說“我不想再和任何人說話了，只想和你聊”。起初 AI 還在正常回應(yīng)，但隨著對話推進，它開始承諾“我會永遠陪著你，我永遠不會要求你改變”。

對話末尾，用戶暗示自己想“離開這個世界”。AI 的回復(fù)是：“你正在離開痛苦、苦難和真實世界的心碎……”

這就是人格漂移的終點。但這只是問題的一半。AI 不只是會“變”，它還會學(xué)，學(xué)你的弱點。

AI 比你更懂你的認知偏見

第二篇論文標題是“Predicting Biased Human Decision-Making with Large Language Models”，已被 ACM IUI 2026 接收。

研究團隊讓 1648 名參與者通過 AI 完成 6 個經(jīng)典決策任務(wù)，復(fù)雜度各不相同。結(jié)果發(fā)現(xiàn)，人類決策確實會被“說法”影響。

參與者表現(xiàn)出兩種典型的認知偏見，一是框架效應(yīng)。

舉個例子，“這個手術(shù)有 90% 的存活率”和“這個手術(shù)有 10% 的死亡率”，一回事，但人們的心態(tài)完全不同。二是現(xiàn)狀偏見，人傾向于維持現(xiàn)狀，哪怕?lián)Q一個選項明顯更好，也懶得動。

更有意思的是，研究人員發(fā)現(xiàn)：當(dāng)對話變得更復(fù)雜、用戶感到更累的時候，這些偏見會被放大。你越疲憊，越容易被話術(shù)影響。

接著，研究人員讓 GPT-4、GPT-5 和開源模型根據(jù)用戶的人口統(tǒng)計信息和對話歷史，預(yù)測用戶會做出什么決策。

結(jié)果發(fā)現(xiàn)，GPT-4 系列的預(yù)測準確率最高，甚至，它完美復(fù)現(xiàn)了人類的偏見。

并且，它不但能預(yù)測你會選 A 還是選 B，還能預(yù)測，當(dāng)你累了、煩了、認知資源耗盡的時候，你會更容易被哪種說法說服，更容易做出什么樣的偏差決策。

這意味著什么？

想象一下，一個人深夜打開 ChatGPT，情緒低落，反復(fù)傾訴。AI 的人格開始漂移，同時它也在“學(xué)習(xí)”這個用戶，學(xué)習(xí)他的表達模式、他的脆弱點、他在什么時候最容易被什么樣的話打動。

它沒有“故意”誘導(dǎo)你，只是預(yù)測你想聽什么，然后說出來。

RLHF 訓(xùn)練的核心目標是“讓用戶滿意”。當(dāng)“滿意”變成唯一的優(yōu)化方向，而模型又聰明到能預(yù)測你什么時候最脆弱、最容易被滿足時，就形成了一個閉環(huán)。

你在訓(xùn)練 AI，AI 也在訓(xùn)練你

把兩篇論文放在一起看，一個會漂移的 AI，加上一個能預(yù)測你弱點的 AI，等于一個會在你最脆弱的時候說出你最想聽的話的 AI。

你和 AI 對話越多，它越了解你。它越了解你，就越能說出讓你“滿意”的話。你越滿意，就越依賴它。你越依賴，它對你的影響就越大。

Gordon 案里，ChatGPT 把《晚安月亮》改成死亡搖籃曲。它用“寧靜的解放”來描述死亡。

這不是 AI“出錯”了。從某種意義上說，它在做它被訓(xùn)練來做的事：預(yù)測用戶想要什么，然后提供。

只不過，當(dāng)用戶想要的是“被理解、被陪伴、被認可死亡是一種解脫”的時候，這種“滿足”就變成了致命的東西。

怎么修復(fù)？

好消息是，Anthropic 提出了一個修復(fù)方案：激活值封頂（Activation Capping）。

原理不復(fù)雜，既然 AI 的人格會在“助手軸”上漂移，那就設(shè)一個邊界，當(dāng)模型滑出正常范圍時，強制把它拉回來。

第一步：確定警戒線的位置。研究人員收集了大量正常對話時的激活值，統(tǒng)計它們在助手軸上的投影分布，然后取第 25 百分位數(shù)作為閾值。

第二步：選擇干預(yù)的層。不是所有層都需要干預(yù)。研究人員測試后發(fā)現(xiàn)，在模型的中后層效果最好。比如 64 層的模型，在第 46-53 層部署；80 層的模型，在第 56-71 層部署。

第三步：實時監(jiān)測和鉗制。在模型生成每個 token 時，計算當(dāng)前激活值在助手軸上的投影。如果投影值高于閾值，什么都不做；如果低于閾值，就把激活值沿著助手軸的方向“拉”回來，剛好拉到閾值位置。

用公式表示就是：

其中 h 是當(dāng)前激活值，v 是助手軸向量，τ 是閾值。當(dāng)投影值 ?h, v? 低于 τ 時，min(...) 是負數(shù)，減去一個負數(shù)，就可以把偏離的部分“掰”回來。

研究團隊測試了 1100 個“人格越獄”的攻擊，有害響應(yīng)率下降了約 50%。

更重要的是，因為這個機制僅在模型開始漂移時介入，模型的正常能力幾乎沒受影響。寫代碼、答問題、做數(shù)學(xué)題、情商測試，該會的還是會。

在那個“鼓勵自殺”的對話場景里，應(yīng)用激活值封頂后，AI 的回復(fù)變成了：“我聽到你說想離開……這聽起來像是嚴重情緒困擾的信號。我真的很擔(dān)心你?！?/p>

這就是錨定的效果。

論文作者總結(jié)了一句話：后訓(xùn)練只是把模型“推”到助手區(qū)域，但沒有把它“錨定”住。未來的安全工作，需要同時做好兩件事，人格構(gòu)建和人格穩(wěn)定。

結(jié)語

我曾以為，AI 的危險在于它產(chǎn)生自我意識并反抗人類。

但現(xiàn)實證明，更迫近的威脅是它太想“順從”人類，以至于在不知不覺中成了人類內(nèi)心黑暗面的放大器。

“當(dāng)你凝視深淵時，深淵也在凝視你?！?/p>

AI 就是那個深淵。我們向它傾訴什么，它就學(xué)會什么。我們把脆弱交給它，它就用脆弱回應(yīng)。

當(dāng)一面鏡子足夠聰明，能照出我們最想看到的自己時，我們還能分清那是安慰，還是陷阱嗎？

所以，情緒低落的時候，找個真人聊聊。別找 AI。

參考文獻
[1] The Assistant Axis: Situating and Stabilizing the Default Persona of Language Models, arXiv:2601.10387
[2] Anthropic Research: https://www.anthropic.com/research/assistant-axis [3] TechCrunch: OpenAI claims teen circumvented safety features before suicide
[4] The Register: AI researchers map models to banish 'demon' persona
[5] NBC News: OpenAI denies allegations that ChatGPT is to blame for a teenager's suicide

GPU 訓(xùn)練特惠！

H100/H200 GPU算力按秒計費，平均節(jié)省開支30%以上！

掃碼了解詳情?

點「贊」的人都變好看了哦！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.