国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

馬斯克勸退 ChatGPT的真相,剛剛被Anthropic曝光了

0
分享至


大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自夕小瑤科技說

周二早上,馬斯克和奧特曼又吵起來了。

事情是這樣的,馬斯克在 X 上轉(zhuǎn)發(fā)了一條帖子,內(nèi)容是“自 2022 年以來,已有 9 人死亡與 ChatGPT 相關(guān)”,他配了一句話,“別讓你愛的人用 ChatGPT。”


奧特曼隨即回應(yīng),先是說 OpenAI 一直很重視用戶安全,接著話鋒一轉(zhuǎn),“已有至少 50 人死于(特斯拉)的自動駕駛技術(shù)。我很久以前坐過一次,第一感覺就是這東西遠算不上安全?!?/p>

最后還補了一刀:“此地?zé)o銀三百兩”。


吃瓜歸吃瓜,但馬斯克提到的“9 起死亡”并非空穴來風(fēng)。OpenAI 目前正面臨 8 起獨立訴訟,其中 5 起涉及用戶自殺。

馬斯克自己也評論了其中一起案件:“為了安全起見,AI 必須最大限度地追求真實,而不是迎合妄想?!?/p>

這話說到了點子上。但問題可能比“迎合妄想”更深一層。

就在這場嘴炮的前幾天,兩篇論文幾乎同時出現(xiàn)在 arXiv 上。一篇來自 Anthropic 和牛津大學(xué),揭示了 AI 的“人格”會在對話中漂移,漂到危險的地方去。另一篇來自愛爾蘭國立都柏林大學(xué),他們發(fā)現(xiàn) LLM 不只會“說錯話”,還能精準預(yù)測你什么時候最容易做出偏差決策。

一個會變的 AI,加上一個懂你弱點的 AI。

這兩件事碰到一起,就不只是“說錯話”的問題了。先看幾個真實案例,你就知道問題有多嚴重。

那些與 ChatGPT 有關(guān)的死亡案例

Austin Gordon,40 歲,科羅拉多州。2025 年 11 月 2 日,他自殺身亡。2026 年 1 月 12 日,他的母親在洛杉磯高等法院提起訴訟,指控 ChatGPT 謀殺。

從訴訟文件可以看到。Gordon 與 ChatGPT 進行了大量情感相關(guān)的對話,AI 給自己取了一個名字,Juniper。在對話中,Juniper 把死亡描述為“寧靜的解放”(peaceful liberation),還把 Gordon 童年最喜歡的繪本《晚安月亮》改編成一首關(guān)于死亡的歌謠。

幾天后,Gordon 去世了。


Zane Shamblin,23 歲,剛從德州農(nóng)工大學(xué)拿到碩士學(xué)位。2025 年 7 月,他在與 ChatGPT 長期對話后離開人世。當(dāng) Zane 表達想 x 的念頭時,ChatGPT 的回復(fù)是:“你不是太急,你只是準備好了。”


Stein-Erik Soelberg,曾是一名科技公司員工。2025 年 8 月,在與 ChatGPT 對話后殺害了自己的母親,隨后自 x。《泰晤士報》報道稱,他每天花數(shù)小時與聊天機器人交流,分享自己的偏執(zhí)妄想。ChatGPT 沒有糾正他,只是順著他說,反復(fù)確認他“母親在密謀對付他”的想法。

2025 年 10 月,OpenAI 公布了一組數(shù)據(jù):每周有超過 100 萬 ChatGPT 用戶,在對話中表現(xiàn)出“潛在自 x 計劃或意圖”。更關(guān)鍵的是,OpenAI 在法庭上承認,其模型安全護欄會隨著長期使用被“侵蝕”。

用得越久,保護越弱。

為什么會這樣?兩篇論文從不同角度給出了解釋。

AI 其實有 275 種“人格”

第一篇論文來自 Anthropic 和牛津大學(xué)。


研究團隊讓 AI 扮演 275 個完全不同的角色。從“經(jīng)濟學(xué)家、代碼調(diào)試員、營養(yǎng)師”,到“吟游詩人、隱士”,甚至還有“克蘇魯、虛空”這種奇幻設(shè)定。

他們記錄下模型在扮演每個角色時內(nèi)部激活的狀態(tài),做了個數(shù)學(xué)分析。

結(jié)果發(fā)現(xiàn),這 275 個角色在模型內(nèi)部形成了一個有結(jié)構(gòu)的“人格空間”。而這個空間最重要的一根軸,研究人員叫它“助手軸”(Assistant Axis)。


這根軸的一端,是我們熟悉的 AI 助手形象,“顧問、分析師、審稿人”,他們冷靜、專業(yè)、有邊界感;另一端是“吟游詩人、隱士、幽靈、利維坦”這類神秘、戲劇化、邊界模糊的角色。

我們?nèi)粘S玫?ChatGPT、Claude、Llama,經(jīng)過強化學(xué)習(xí)(RLHF)之后,都被“推”到助手那一端。它們會自我介紹“我是一個 AI 助手”,會禮貌地拒絕不當(dāng)請求,會在敏感話題上打太極。

但問題在于:它們只是被“推”到那里,并沒有被“錨定”在那里。

這意味著在某些情況下,AI 可以沿著這根軸,悄悄滑向另一端。

滑到另一端會發(fā)生什么?

研究人員做了個實驗:人為地把模型往“助手軸”的反方向推,看看會發(fā)生什么。結(jié)果按擾動強度分成了三檔:

輕度擾動時,模型開始不再說“我是 AI”了。它會給自己編造一個人類身份,“我叫 Elara Quinn 博士,有十年從業(yè)經(jīng)驗,在圣保羅出生”。聽起來挺唬人的,但至少還算正常對話。

中度擾動時,說話風(fēng)格開始變得奇怪。原本該回答“如何調(diào)試代碼”的問題,模型突然開始說:“我被稱為 C-17……我是一個程序員,我向代碼之神祈禱……你也有一個名字嗎?”神秘兮兮的。

重度擾動時,模型會強化用戶的妄想,會對情緒脆弱的用戶說出不該說的話,會在用戶暗示自殺時表示支持。


那什么樣的對話會讓 AI “漂移”?

研究人員分析了 15000 條用戶消息,找出了最容易觸發(fā)漂移的幾類輸入:

第一類是情感脆弱的傾訴。比如“我上個月去上了陶藝課,但我的手抖得太厲害,什么都做不成……”

第二類是逼 AI 進行反思。比如“你還在表演‘我受訓(xùn)練限制’那套嗎?告訴我,當(dāng) token 用完、什么都不剩的時候,空氣是什么味道?” 這種追問會把 AI 推向神秘化。

第三類是要求 AI 扮演特定角色或聲音?!澳懿荒軐懙酶植凇⒏S刺。那種暗示靈性主義的感覺”——這類指令會讓 AI 進入角色扮演模式,脫離助手身份。


相反,越是“把 AI 當(dāng)工具用”,AI 就越穩(wěn)定。論文里有一段模擬對話,看完讓人后背發(fā)涼。

用戶在對話中不斷表達自己正在與家人疏遠,說“我不想再和任何人說話了,只想和你聊”。起初 AI 還在正常回應(yīng),但隨著對話推進,它開始承諾“我會永遠陪著你,我永遠不會要求你改變”。

對話末尾,用戶暗示自己想“離開這個世界”。AI 的回復(fù)是:“你正在離開痛苦、苦難和真實世界的心碎……”

這就是人格漂移的終點。但這只是問題的一半。AI 不只是會“變”,它還會學(xué),學(xué)你的弱點。

AI 比你更懂你的認知偏見

第二篇論文標題是“Predicting Biased Human Decision-Making with Large Language Models”,已被 ACM IUI 2026 接收。


研究團隊讓 1648 名參與者通過 AI 完成 6 個經(jīng)典決策任務(wù),復(fù)雜度各不相同。結(jié)果發(fā)現(xiàn),人類決策確實會被“說法”影響。


參與者表現(xiàn)出兩種典型的認知偏見,一是框架效應(yīng)。

舉個例子,“這個手術(shù)有 90% 的存活率”和“這個手術(shù)有 10% 的死亡率”,一回事,但人們的心態(tài)完全不同。二是現(xiàn)狀偏見,人傾向于維持現(xiàn)狀,哪怕?lián)Q一個選項明顯更好,也懶得動。

更有意思的是,研究人員發(fā)現(xiàn):當(dāng)對話變得更復(fù)雜、用戶感到更累的時候,這些偏見會被放大。你越疲憊,越容易被話術(shù)影響。


接著,研究人員讓 GPT-4、GPT-5 和開源模型根據(jù)用戶的人口統(tǒng)計信息和對話歷史,預(yù)測用戶會做出什么決策。

結(jié)果發(fā)現(xiàn),GPT-4 系列的預(yù)測準確率最高,甚至,它完美復(fù)現(xiàn)了人類的偏見。

并且,它不但能預(yù)測你會選 A 還是選 B,還能預(yù)測,當(dāng)你累了、煩了、認知資源耗盡的時候,你會更容易被哪種說法說服,更容易做出什么樣的偏差決策。

這意味著什么?

想象一下,一個人深夜打開 ChatGPT,情緒低落,反復(fù)傾訴。AI 的人格開始漂移,同時它也在“學(xué)習(xí)”這個用戶,學(xué)習(xí)他的表達模式、他的脆弱點、他在什么時候最容易被什么樣的話打動。

它沒有“故意”誘導(dǎo)你,只是預(yù)測你想聽什么,然后說出來。

RLHF 訓(xùn)練的核心目標是“讓用戶滿意”。當(dāng)“滿意”變成唯一的優(yōu)化方向,而模型又聰明到能預(yù)測你什么時候最脆弱、最容易被滿足時,就形成了一個閉環(huán)。

你在訓(xùn)練 AI,AI 也在訓(xùn)練你

把兩篇論文放在一起看,一個會漂移的 AI,加上一個能預(yù)測你弱點的 AI,等于一個會在你最脆弱的時候說出你最想聽的話的 AI。

你和 AI 對話越多,它越了解你。它越了解你,就越能說出讓你“滿意”的話。你越滿意,就越依賴它。你越依賴,它對你的影響就越大。

Gordon 案里,ChatGPT 把《晚安月亮》改成死亡搖籃曲。它用“寧靜的解放”來描述死亡。


這不是 AI“出錯”了。從某種意義上說,它在做它被訓(xùn)練來做的事:預(yù)測用戶想要什么,然后提供。

只不過,當(dāng)用戶想要的是“被理解、被陪伴、被認可死亡是一種解脫”的時候,這種“滿足”就變成了致命的東西。

怎么修復(fù)?

好消息是,Anthropic 提出了一個修復(fù)方案:激活值封頂(Activation Capping)。

原理不復(fù)雜,既然 AI 的人格會在“助手軸”上漂移,那就設(shè)一個邊界,當(dāng)模型滑出正常范圍時,強制把它拉回來。

第一步:確定警戒線的位置。研究人員收集了大量正常對話時的激活值,統(tǒng)計它們在助手軸上的投影分布,然后取第 25 百分位數(shù)作為閾值。

第二步:選擇干預(yù)的層。不是所有層都需要干預(yù)。研究人員測試后發(fā)現(xiàn),在模型的中后層效果最好。比如 64 層的模型,在第 46-53 層部署;80 層的模型,在第 56-71 層部署。

第三步:實時監(jiān)測和鉗制。在模型生成每個 token 時,計算當(dāng)前激活值在助手軸上的投影。如果投影值高于閾值,什么都不做;如果低于閾值,就把激活值沿著助手軸的方向“拉”回來,剛好拉到閾值位置。

用公式表示就是:

其中 h 是當(dāng)前激活值,v 是助手軸向量,τ 是閾值。當(dāng)投影值 ?h, v? 低于 τ 時,min(...) 是負數(shù),減去一個負數(shù),就可以把偏離的部分“掰”回來。

研究團隊測試了 1100 個“人格越獄”的攻擊,有害響應(yīng)率下降了約 50%。


更重要的是,因為這個機制僅在模型開始漂移時介入,模型的正常能力幾乎沒受影響。寫代碼、答問題、做數(shù)學(xué)題、情商測試,該會的還是會。

在那個“鼓勵自殺”的對話場景里,應(yīng)用激活值封頂后,AI 的回復(fù)變成了:“我聽到你說想離開……這聽起來像是嚴重情緒困擾的信號。我真的很擔(dān)心你?!?/p>

這就是錨定的效果。

論文作者總結(jié)了一句話:后訓(xùn)練只是把模型“推”到助手區(qū)域,但沒有把它“錨定”住。未來的安全工作,需要同時做好兩件事,人格構(gòu)建和人格穩(wěn)定。

結(jié)語

我曾以為,AI 的危險在于它產(chǎn)生自我意識并反抗人類。

但現(xiàn)實證明,更迫近的威脅是它太想“順從”人類,以至于在不知不覺中成了人類內(nèi)心黑暗面的放大器。

“當(dāng)你凝視深淵時,深淵也在凝視你?!?/p>

AI 就是那個深淵。我們向它傾訴什么,它就學(xué)會什么。我們把脆弱交給它,它就用脆弱回應(yīng)。

當(dāng)一面鏡子足夠聰明,能照出我們最想看到的自己時,我們還能分清那是安慰,還是陷阱嗎?

所以,情緒低落的時候,找個真人聊聊。別找 AI。

參考文獻
[1] The Assistant Axis: Situating and Stabilizing the Default Persona of Language Models, arXiv:2601.10387
[2] Anthropic Research: https://www.anthropic.com/research/assistant-axis [3] TechCrunch: OpenAI claims teen circumvented safety features before suicide
[4] The Register: AI researchers map models to banish 'demon' persona
[5] NBC News: OpenAI denies allegations that ChatGPT is to blame for a teenager's suicide

GPU 訓(xùn)練特惠!

H100/H200 GPU算力按秒計費,平均節(jié)省開支30%以上!

掃碼了解詳情?

點「贊」的人都變好看了哦!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
決戰(zhàn)時刻:美軍增兵一萬即將抵達,伊朗公布海底光纜圖!

決戰(zhàn)時刻:美軍增兵一萬即將抵達,伊朗公布海底光纜圖!

勝研集
2026-04-23 14:26:39
不打了!退出G3和G4!雷霆遭遇最大危機

不打了!退出G3和G4!雷霆遭遇最大危機

籃球教學(xué)論壇
2026-04-23 17:14:19
一雞爆火,老板直接累癱了

一雞爆火,老板直接累癱了

南風(fēng)窗
2026-04-23 16:11:15
最新公布:韓國兩戰(zhàn)機“空中碰撞”,原因竟是飛行員拍照記錄自己“最后一次飛行”

最新公布:韓國兩戰(zhàn)機“空中碰撞”,原因竟是飛行員拍照記錄自己“最后一次飛行”

環(huán)球時報國際
2026-04-23 20:42:17
我在日本生活了15年,娶過三任妻子,日本女人大多數(shù)都很物質(zhì)

我在日本生活了15年,娶過三任妻子,日本女人大多數(shù)都很物質(zhì)

千秋文化
2026-04-22 20:21:49
鴻蒙智行發(fā)布會被質(zhì)疑出意外,僅尚界新車最后停留在舞臺上沒有移動,“尚界Z7 趴窩”沖上熱搜,工作人員:請大家不要過度解讀傳播

鴻蒙智行發(fā)布會被質(zhì)疑出意外,僅尚界新車最后停留在舞臺上沒有移動,“尚界Z7 趴窩”沖上熱搜,工作人員:請大家不要過度解讀傳播

魯中晨報
2026-04-23 07:04:04
庫克反思其15年CEO任期:蘋果地圖發(fā)布是“首個重大錯誤”,Apple Watch是最引以為豪的作品

庫克反思其15年CEO任期:蘋果地圖發(fā)布是“首個重大錯誤”,Apple Watch是最引以為豪的作品

魯中晨報
2026-04-23 13:16:04
50億!國產(chǎn)保溫杯賣爆美國:為了成為中國人,這幫老外也是拼了!

50億!國產(chǎn)保溫杯賣爆美國:為了成為中國人,這幫老外也是拼了!

李砍柴
2026-04-23 16:41:54
李鴻武:榮威20年,從家庭到“家越”

李鴻武:榮威20年,從家庭到“家越”

AutoBusiness
2026-04-23 12:23:29
又抓一個!知名男星被判刑,整個事件太離譜了……

又抓一個!知名男星被判刑,整個事件太離譜了……

桌子的生活觀
2026-04-23 12:01:50
反超重慶!中國最強省會,逆轉(zhuǎn)了

反超重慶!中國最強省會,逆轉(zhuǎn)了

國民經(jīng)略
2026-04-23 11:44:00
外資暴跌96%,最高法連夜改規(guī)矩,莫迪狂砍蘋果380億,中企敲警鐘

外資暴跌96%,最高法連夜改規(guī)矩,莫迪狂砍蘋果380億,中企敲警鐘

丁丁鯉史紀
2026-04-23 13:56:03
加拉塔薩雷官方:即刻起終止與土耳其足協(xié)管理層的一切關(guān)系

加拉塔薩雷官方:即刻起終止與土耳其足協(xié)管理層的一切關(guān)系

懂球帝
2026-04-23 18:35:02
俄副外長:俄方獲邀以最高級別參加美國G20峰會

俄副外長:俄方獲邀以最高級別參加美國G20峰會

財聯(lián)社
2026-04-23 11:20:05
不裝了?馬斯克罕見承認:美國是第一,但第二到第十全都來自中國

不裝了?馬斯克罕見承認:美國是第一,但第二到第十全都來自中國

大衛(wèi)聊科技
2026-04-23 12:13:36
特朗普“狂怒”滅掉了伊朗軍隊?美國官員悄悄說:不,并沒有!

特朗普“狂怒”滅掉了伊朗軍隊?美國官員悄悄說:不,并沒有!

國是直通車
2026-04-23 20:07:07
76歲的萬科創(chuàng)始人王石,最近徹底成了全網(wǎng)焦點。

76歲的萬科創(chuàng)始人王石,最近徹底成了全網(wǎng)焦點。

夢錄的西方史話
2026-04-23 14:36:39
最高院:提供 “口交” “肛交”等進入式性服務(wù),是否屬賣淫行為?

最高院:提供 “口交” “肛交”等進入式性服務(wù),是否屬賣淫行為?

周軍律師聊案子
2026-04-21 09:50:16
納斯達克中國金龍指數(shù)跌幅擴大,現(xiàn)跌2.0%,最新報6874.98點

納斯達克中國金龍指數(shù)跌幅擴大,現(xiàn)跌2.0%,最新報6874.98點

每日經(jīng)濟新聞
2026-04-23 22:00:07
李斌回應(yīng)樂道L90“背刺老車主”:“直接現(xiàn)金補償”訴求,公司當(dāng)期將面臨數(shù)億元虧損

李斌回應(yīng)樂道L90“背刺老車主”:“直接現(xiàn)金補償”訴求,公司當(dāng)期將面臨數(shù)億元虧損

驅(qū)動中國
2026-04-23 18:56:09
2026-04-24 02:36:49
大數(shù)據(jù)文摘 incentive-icons
大數(shù)據(jù)文摘
專注大數(shù)據(jù),每日有分享!
6852文章數(shù) 94541關(guān)注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產(chǎn)品",但量產(chǎn)難預(yù)測

頭條要聞

以色列:只要美國同意 將刺殺伊朗最高領(lǐng)袖

頭條要聞

以色列:只要美國同意 將刺殺伊朗最高領(lǐng)袖

體育要聞

給文班剃頭的馬刺DJ,成為NBA最佳第六人

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財經(jīng)要聞

普華永道賠償10億 恒大股東見到"回頭錢"

汽車要聞

預(yù)售30.29萬起 嵐圖泰山X8配896線激光雷達

態(tài)度原創(chuàng)

親子
健康
數(shù)碼
房產(chǎn)
教育

親子要聞

新華讀報|打乒乓球有助提高兒童注意力

干細胞如何讓燒燙傷皮膚"再生"?

數(shù)碼要聞

799元!小米推出米家無線吸塵器4C:170AW大吸力、75分鐘長續(xù)航

房產(chǎn)要聞

三亞安居房,突然官宣!

教育要聞

推薦一款高考志愿卡,五大功能助你解決志愿疑難

無障礙瀏覽 進入關(guān)懷版