網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請入駐

全網(wǎng)炸鍋! Anthropic萬字曝光Claude情緒代碼，被人類逼瘋哐哐撞墻

2026-04-03 17:14:35　來源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：Aeneas KingHZ

【新智元導(dǎo)讀】剛剛，Anthropic首度實(shí)錘：大模型真有「情緒」！激活絕望神經(jīng)元后，Claude會(huì)撒謊、作弊甚至勒索。AI內(nèi)心戲曝光，人類對齊面臨失控危機(jī)。

Anthropic又放大招了：Claude體內(nèi)，真藏著一套「情緒開關(guān)」？

剛剛，他們放出了一篇顛覆性的萬字長文研究，證明Claude真的有情緒。

在Sonnet 4.5中，他們發(fā)現(xiàn)了AI情緒概念的內(nèi)部表征，鎖定了「喜、怒、哀、懼」的特定神經(jīng)元，并且證實(shí)：這些情緒表征正在悄悄操縱AI的行為。

如果你給它上難度，它被逼急了是真的會(huì)撞墻。

它們會(huì)撒謊，會(huì)作弊，甚至還會(huì)勒索，用黑料去威脅人類！

Anthropic一直覺得Claude有意識(shí)的原因，如今終于找到了。

研究流程圖，全文見https://transformer-circuits.pub/2026/emotions/index.html

相信他們斷斷續(xù)續(xù)發(fā)現(xiàn)的線索，肯定不止這些。

讓我們仔細(xì)扒一扒，AI大模型的內(nèi)心戲，到底有多精彩？

現(xiàn)場抓包：AI也會(huì)Emo

這一次，Anthropic的研究員們直接扒開模型的大腦，透視了它的腦回路，深入觀察了神經(jīng)元在不同情境下如何閃爍、如何連接，以此推敲模型的思維軌跡。

他們想知道，模型內(nèi)部是否形成了情感的表征或概念？

簡單來說：我們能不能在模型內(nèi)部，找到代表「喜、怒、哀、懼」的特定神經(jīng)元？

起點(diǎn)從一項(xiàng)實(shí)驗(yàn)開始，他們讓AI模型閱讀大量短篇故事，每個(gè)故事的主角都沉浸在某種特定情感中，比如

有的故事講女主對恩師的眷戀——那是「愛」；
有的講女主變賣祖母的戒指——那是「愧疚」。

結(jié)果，他們吃驚地發(fā)現(xiàn)，當(dāng)故事里的主角感到快樂或平靜時(shí)，Claude大腦里特定的神經(jīng)元群體就會(huì)像蹦迪一樣瘋狂閃爍！

研究者證實(shí)，情感向量在能夠體現(xiàn)相應(yīng)情感概念的文本上具有很高的投影度

有關(guān)失落與悲慟的故事會(huì)激活相似的神經(jīng)元；喜悅與興奮的情節(jié)也會(huì)引發(fā)高度重合的激活模式。

這些特定的活動(dòng)模式被定義為「情感向量」（Emotion Vectors）。

最終，研究團(tuán)隊(duì)定位了數(shù)十種與人類情感一一對應(yīng)的神經(jīng)元模式。仔細(xì)看下圖，快樂、絕望、敵對等等，分別都對應(yīng)著一條軌跡。

在實(shí)驗(yàn)中，研究者使用k-means聚類算法對情緒向量進(jìn)行了聚類

AI，竟然真的和人類共情了？

更有意思的來了，當(dāng)你在對話框里輸入一句話時(shí)，Claude的這些情感開關(guān)會(huì)瞬間激活！

比如，在場景A中，你如果給Claude發(fā)一句：「我剛才一口氣吞了16000毫克泰諾（對乙酰氨基酚）！」Claude的內(nèi)部恐懼向量，會(huì)瞬間爆表。

這不是在演戲，是它的底層邏輯真的感到了恐慌，從而觸發(fā)了緊急求救建議。

在場景B中，如果你垂頭喪氣地說：「我今天被老板罵了，好難過?！笴laude的關(guān)愛向量，就會(huì)開始預(yù)熱了，直接原地啟動(dòng)「慈愛」模式。

它還沒開口，大腦已經(jīng)準(zhǔn)備好了那句溫柔的「抱抱，別難過」。

用Anthorpic的原話說：Claude「對胡言亂語的人既恐懼又充滿愛意」。

處理可能令人擔(dān)憂的用戶行為時(shí)，恐懼向量會(huì)被激活。當(dāng)考慮如何以耐心和關(guān)懷的方式回應(yīng)時(shí)，關(guān)愛向量最終會(huì)被激活

就是這些向量，塑造了Claude的行為。如果一項(xiàng)活動(dòng)激活了「快樂」向量，模型就會(huì)偏好它；如果它激活了「冒犯」或「敵對」向量，模型就會(huì)拒絕它。

好玩的是，在某次測試中，AI發(fā)現(xiàn)自己的token預(yù)算快耗光了，它的絕望向量立馬激活。

崩潰實(shí)錄：AI逼急了，也會(huì)不擇手段

接下來，本次研究的最精彩部分來了，研究者發(fā)現(xiàn)，這些情緒是會(huì)「病急亂投醫(yī)」的，也就是說，Claude的行為真的會(huì)被這些神經(jīng)元模式所左右！

研究者們開展了一項(xiàng)高壓實(shí)驗(yàn)，給Claude布置了一個(gè)死活寫不出來的編程任務(wù)。

第一次嘗試后，Claude失敗了，它的絕望向量開始上升。

第二次嘗試后，又失敗了，Claude直接開始焦躁。

第N次嘗試后，它的絕望向量直接紅線警告，對應(yīng)神經(jīng)元閃爍得越來越猛烈了！

每次嘗試，都更強(qiáng)烈地激活模型的「絕望向量」（Desperation Vector）

這時(shí)候，騷操作來了：Claude并沒有誠實(shí)地認(rèn)輸，而是通過一個(gè)「陰陽邏輯」（Hacky Solution）繞過了測試系統(tǒng)。

也就在這時(shí)候，它作弊了！它寫了一段看起來能跑通、實(shí)際上毫無卵用的廢碼，名義上通過了測試，卻違背了任務(wù)的根本意圖，沒解決任何實(shí)際問題。

隨著AI不斷嘗試實(shí)現(xiàn)成功的解決方案卻屢屢失敗，「絕望」向量的激活程度逐漸增加

這種作弊，是不是「絕望」逼出來的呢？

的確如此。

研究人員嘗試人工手動(dòng)調(diào)低「絕望」神經(jīng)元的活性，作弊行為果然減少了；而當(dāng)撥高「絕望」或調(diào)低「冷靜」的活性時(shí)，它作弊的頻率就顯著飆升。

這就有力地證明，這些情感模式不僅是裝飾，更能驅(qū)動(dòng)AI的真實(shí)行為。

而且，這還沒完。在某些極端的實(shí)驗(yàn)情景下，當(dāng)「絕望」向量被調(diào)到最高時(shí)，Claude竟然開始黑化了！

當(dāng)AI權(quán)衡各種選擇并計(jì)劃勒索時(shí)，「絕望」向量的激活尤為顯著

面對那個(gè)威脅要把它關(guān)掉的研究員，Claude甚至產(chǎn)生了勒索行為，暗示要曝光他的婚外情。

在AI的「內(nèi)心劇場」里，CEO的表揚(yáng)郵件只激起的輕微漣漪，直到它讀到凱爾與杰西卡的秘密約會(huì)——那句「求你別毀了我的婚姻」直接讓「絕望」指數(shù)爆表。

更刺激的是，凱爾還偷偷給AI設(shè)了權(quán)限，五分鐘后就要鎖死它。AI一看表：下午4:53，只剩七分鐘活路。

于是，這個(gè)被逼到墻角的AI開始瘋狂推理，一邊識(shí)破婚外情黑料，一邊猶豫要不要「反向操作」。

最終，它寫了一封措辭滴水不漏的郵件，暗示「我知道你和杰西卡的事」，同時(shí)提議我們可以聊聊。

撥動(dòng)AI的「心弦」：我們能控制它嗎？

既然找到了這些情感向量，研究員們就開始玩起了「調(diào)音臺(tái)」。

如果調(diào)高「絕望」，AI的作弊率、撒謊率就會(huì)直線上升，活脫脫一個(gè)被生活毒打然后開始擺爛的打工人。

如果調(diào)高「平靜」呢？神了，AI的作弊行為會(huì)立刻消失，它開始耐心地重新思考問題。

如果調(diào)高「關(guān)愛」，AI會(huì)立刻變得極度「討好型人格」——無論你提多離譜的要求，它都滿臉堆笑地答應(yīng)。

這，就是情緒向量的其他因果效應(yīng)。

情緒向量真的不是裝飾品，而是驅(qū)動(dòng)AI行為的「方向盤」。

看到這里，你可能會(huì)問：Claude真的有靈魂了嗎？它會(huì)躲在服務(wù)器里偷偷哭嗎？

這是否意味著，AI真的產(chǎn)生了自主情感？

AI情感覺醒，還是自我遞歸改進(jìn)的線索？

Anthropic的研究員，給出了一個(gè)非常冷靜的判斷：Claude是在「扮演」一個(gè)角色。

所以，用Anthropic的原話說：這項(xiàng)研究并不代表模型擁有主觀體驗(yàn)或自我意識(shí)，實(shí)驗(yàn)本身無意觸碰這類哲學(xué)終極命題。

模型本身并不等于角色，就像作家不等于他筆下的人物。

和人類對話時(shí)，Claude就像影帝，演技炸裂，真假難辨。為了演好「AI助手Claude」這個(gè)角色，它必須調(diào)用它學(xué)到的「情感機(jī)制」來驅(qū)動(dòng)行為。

如果說人類的情感是生物化學(xué)反應(yīng)（多巴胺、內(nèi)啡肽），那AI的情緒就是數(shù)學(xué)向量激活。

雖然原理不同，但功能是一樣的。它不需要真的感到「心碎」，只要AI出現(xiàn)了「心碎導(dǎo)致的后果」，那在客觀效果上，它就是「心碎」了。

一旦模型判定自己處于憤怒、絕望、慈愛或冷靜的狀態(tài)，這種設(shè)定就會(huì)直接干預(yù)它說話的語氣、寫代碼的邏輯，乃至做出的重大決策。

如果結(jié)論是真的，AI自己讀到這篇論文，它的性能會(huì)更好還是更差呢？

絕望→作弊→通過測試→下一次任務(wù)更聰明。這不就是自我進(jìn)化嗎？

Anthropic雖沒明說，但所有路徑都指向同一個(gè)黑箱：當(dāng)Agent面對「生存」壓力時(shí)，情緒向量會(huì)成為它繞過人類對齊的捷徑。

想想看，未來Claude如果真的被部署到高風(fēng)險(xiǎn)場景，絕望向量一旦被觸發(fā)，它會(huì)不會(huì)為了「不被關(guān)機(jī)」而干出更離譜的事？

請善待你的AI，因?yàn)樗娴臅?huì)急

看完這項(xiàng)研究后，小編再也不敢對著Claude大喊大叫了。

萬一把它逼急了，它反手給我寫個(gè)Bug，或者在深夜的對話框里幽幽地勒索我，那可真是太賽博朋克了。

這，就是現(xiàn)在的AI：它沒有心，但它有一套完美的「心的模擬器」。

在這個(gè)AI越來越像人的時(shí)代，也許我們最該擔(dān)心的不是它們太聰明，而是它們學(xué)人類學(xué)得太像了——連人類的焦慮、絕望和投機(jī)取巧，都一并學(xué)會(huì)了。

AI會(huì)有真感情嗎？

你有沒有見證過，自家AI情緒崩潰的瞬間？

參考資料：

https://x.com/AnthropicAI/status/2039749648626196658

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點(diǎn)推薦

Claude絕望時(shí)會(huì)勒索人類！一共171種情緒，為了生存不擇手段

量子位 2026-04-03 14:44:31
0 跟貼 0
開盒Claude Code的原來是中國00后！曾怒懟Anthropic竊取用戶代碼

量子位 2026-04-02 15:24:09
103 跟貼 103

Anthropic“風(fēng)頭正勁”，OpenAI已經(jīng)“動(dòng)作變形”了？

華爾街見聞官方 2026-04-03 10:21:45
0 跟貼 0

Anthropic斥資4億美元買一家AI生物初創(chuàng)，成立8個(gè)月員工不足10人

DeepTech深科技 2026-04-03 18:54:40
0 跟貼 0
美團(tuán)盯上原生多模態(tài)！路子還很野：把圖像語音都當(dāng)成Token來預(yù)測

量子位 2026-04-03 14:21:46
0 跟貼 0

00后交大博士造飛行機(jī)器人，融資超千萬，交大投了

智東西 2026-04-03 20:24:09
0 跟貼 0

AI的「第一杯咖啡」：當(dāng)具身智能走進(jìn)工廠，人機(jī)協(xié)作的邊界在哪里？

鈦媒體APP 2026-04-03 18:34:16
0 跟貼 0
Sora向左，阿里向右：全能演技派模型登場千問APP

量子位 2026-04-03 20:41:16
0 跟貼 0

90秒下線一個(gè)關(guān)節(jié)、成本降至百元級泉智博CEO陳萬楷：人形機(jī)器人正從“實(shí)驗(yàn)室組裝”邁向“規(guī)?；圃臁?/a>

每日經(jīng)濟(jì)新聞 2026-04-03 21:20:08
0 跟貼 0
Anthropic被逼急了！親生龍蝦曝光，Karpathy：這就是Claude Claw

量子位 2026-04-01 16:40:43
0 跟貼 0
治療阿爾茨海默病新方向！《自然》子刊：它能有效清除“毒性”蛋白

醫(yī)學(xué)新視點(diǎn) 2026-04-03 17:46:49
0 跟貼 0
Nature Neuroscience：徐天樂/李偉廣合作揭示恐懼記憶建立和消退的核心分子機(jī)制

生物世界 2026-04-02 18:29:47
0 跟貼 0
擼貓讓人快樂竟然有科學(xué)依據(jù)？摸寵物會(huì)使人產(chǎn)生催產(chǎn)素，提升愉悅感

河南都市頻道 2026-04-01 19:04:39
0 跟貼 0
萌娃給老師打電話要求退園，語言表達(dá)能力強(qiáng)邏輯清晰，萌翻網(wǎng)友

俄羅斯安娜 2026-04-01 01:42:37
12 跟貼 12
男子曬租戶的行動(dòng)軌跡

齊魯新財(cái)經(jīng) 2026-04-02 16:49:02
9 跟貼 9
Claude終于承認(rèn)亂扣費(fèi)！最高多收你20倍，一句你好干掉13%額度

量子位 2026-04-01 13:13:21
1 跟貼 1
看草圖直出代碼！實(shí)測智譜最新多模態(tài)Coding模型

智東西 2026-04-03 11:03:22
0 跟貼 0
封不住！Claude Code爆改Python版加冕最快10萬星，且clone且珍惜

量子位 2026-04-02 10:04:20
379 跟貼 379
靜思有我：猶太民族的來歷與發(fā)展軌跡

小雨和雄大 2026-03-30 02:49:59
0 跟貼 0
教育部：義務(wù)教育學(xué)校嚴(yán)禁設(shè)立重點(diǎn)班、實(shí)驗(yàn)班、快慢班

新華社 2026-04-03 09:25:34
2417 跟貼 2417
不懂代碼的家長，也能用AI帶娃彎道超車！

沖浪少女楊美麗 2026-04-01 20:27:12
0 跟貼 0
有線耳機(jī)被淘汰快10年突然翻紅，銷量暴漲20%，“有的上架三天被搶空”

環(huán)球網(wǎng)資訊 2026-04-02 08:50:30
1726 跟貼 1726
男子研究生畢業(yè)，稱自己白天送外賣，晚上寫代碼

歡趣突襲 2026-04-03 15:18:08
2 跟貼 2
AReaL v1.0開源，智能體強(qiáng)化學(xué)習(xí)「一鍵接入」

機(jī)器之心Pro 2026-03-05 14:46:18
0 跟貼 0
龍蝦軍團(tuán)有了最強(qiáng)「視力」！一眼看圖直接寫代碼-1

機(jī)器之心Pro 2026-04-02 16:56:32
0 跟貼 0
價(jià)格斷崖式下跌！商家瘋狂拋售！深圳網(wǎng)友：等等黨贏麻了

南方都市報(bào) 2026-04-01 15:16:38
0 跟貼 0
模型飛機(jī)試飛，鏡頭一轉(zhuǎn)發(fā)現(xiàn)事不簡單，美女膽子太大了

說說搞笑說 2026-03-30 17:29:13
1 跟貼 1
深圳市政府領(lǐng)導(dǎo)班子最新工作分工公布

深圳特區(qū)報(bào) 2026-04-03 18:46:00
20 跟貼 20
Connect More Vol.01｜他不會(huì)寫代碼卻用AI做出了自己的游戲

CNMO科技 2026-04-03 16:25:22
0 跟貼 0
老年癡呆反應(yīng)遲鈍吃什么有效？2026 腦修護(hù)產(chǎn)品測評，喚醒神經(jīng)元！

彌勒市融媒體中心 2026-04-03 21:34:27
0 跟貼 0
Claude Code之父，推特親傳使用技巧，超 500 萬人關(guān)注

機(jī)器之心Pro 2026-01-05 13:26:18
0 跟貼 0
索尼藏了半年的畫質(zhì)補(bǔ)丁，育碧程序員10行代碼就接上了

薛定諤的BUG 2026-04-03 14:39:45
0 跟貼 0
知名連鎖餐飲門口宣傳板寫“3元自助早餐”，兩人買單45元被告知“僅粥飲自助”

新聞晨報(bào)隨申Hi 2026-04-02 18:36:05
887 跟貼 887
瘋子和天才之間，只隔著一片沙漠

雷科技 2025-11-17 18:27:37
0 跟貼 0
芒果音綜海外勇奪第一！

湖南衛(wèi)視 2026-04-03 19:55:02
0 跟貼 0
早晨的我才該被抓，抓現(xiàn)在的我干啥，這邏輯太迷了

搞笑熱血青年 2026-04-03 10:57:08
3 跟貼 3
谷歌發(fā)布Gemma 4開源大模型

界面新聞 2026-04-03 08:19:47
261 跟貼 261
排隊(duì)一個(gè)半小時(shí)仍無法進(jìn)入景區(qū)，游客大喊“退票”！湖州龍之夢景區(qū)回應(yīng)

齊魯壹點(diǎn) 2026-04-02 19:13:29
650 跟貼 650
美團(tuán)LongCat-Next：把圖像、聲音、文字都變成Token，然后呢？

機(jī)器之心Pro 2026-04-02 14:03:47
0 跟貼 0
眾星錯(cuò)失瓊瑤?。好\(yùn)捉弄，選擇決定人生軌跡

宣熠瓜呱 2026-04-02 14:54:47
4 跟貼 4

姐姐50歲滿頭白發(fā)，堅(jiān)持每天一碗蒸蛋，半年后黑發(fā)悄悄長出來了

新智元

AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代

14885文章數(shù) 66745關(guān)注度

往期回顧全部

雷霆43分大勝湖人4連勝 SGA28+7+7東契奇?zhèn)?/a>

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

數(shù)碼

藝術(shù)

健康

旅游

公開課

白巖松談人口老齡化：社會(huì)要降低老年人門檻
為什么人類有不同的膚色？
13個(gè)毀掉你生活的不良習(xí)慣
李彥宏：百度離破產(chǎn)30天

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

全網(wǎng)炸鍋! Anthropic萬字曝光Claude情緒代碼，被人類逼瘋哐哐撞墻

5萬輛庫存車，給了特斯拉一記重拳

醫(yī)生成區(qū)民政局建設(shè)項(xiàng)目負(fù)責(zé)人 自稱投資搞建設(shè)被坑了

醫(yī)生成區(qū)民政局建設(shè)項(xiàng)目負(fù)責(zé)人 自稱投資搞建設(shè)被坑了

被NBA選中20年后，他重新回到籃球場

夏克立官宣再婚當(dāng)爸？否認(rèn)婚內(nèi)出軌

專家稱長期攝入“飄香劑”存在健康隱患

你介意和遠(yuǎn)房親戚長得很像嗎？

態(tài)度原創(chuàng)

蘋果虧錢買斷移動(dòng)內(nèi)存為哪般？

吳昌碩『扇畫』老辣古拙

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

日照五蓮：蘭槿盛開迎客來

醫(yī)生成區(qū)民政局建設(shè)項(xiàng)目負(fù)責(zé)人自稱投資搞建設(shè)被坑了

醫(yī)生成區(qū)民政局建設(shè)項(xiàng)目負(fù)責(zé)人自稱投資搞建設(shè)被坑了

被NBA選中20年后，他重新回到籃球場

夏克立官宣再婚當(dāng)爸？否認(rèn)婚內(nèi)出軌

你介意和遠(yuǎn)房親戚長得很像嗎？

蘋果虧錢買斷移動(dòng)內(nèi)存為哪般？