国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

全網(wǎng)炸鍋! Anthropic萬字曝光Claude情緒代碼,被人類逼瘋哐哐撞墻

0
分享至


新智元報(bào)道

編輯:Aeneas KingHZ

【新智元導(dǎo)讀】剛剛,Anthropic首度實(shí)錘:大模型真有「情緒」!激活絕望神經(jīng)元后,Claude會(huì)撒謊、作弊甚至勒索。AI內(nèi)心戲曝光,人類對(duì)齊面臨失控危機(jī)。

Anthropic又放大招:Claude體內(nèi),真藏著一套「情緒開關(guān)」?

剛剛,他們放出了一篇顛覆性的萬字長(zhǎng)文研究,證明Claude真的有情緒。

在Sonnet 4.5中,他們發(fā)現(xiàn)了AI情緒概念的內(nèi)部表征,鎖定了「喜、怒、哀、懼」的特定神經(jīng)元,并且證實(shí):這些情緒表征正在悄悄操縱AI的行為。


如果你給它上難度,它被逼急了是真的會(huì)撞墻。

它們會(huì)撒謊,會(huì)作弊,甚至還會(huì)勒索,用黑料去威脅人類!


Anthropic一直覺得Claude有意識(shí)的原因,如今終于找到了。


研究流程圖,全文見https://transformer-circuits.pub/2026/emotions/index.html

相信他們斷斷續(xù)續(xù)發(fā)現(xiàn)的線索,肯定不止這些。


讓我們仔細(xì)扒一扒,AI大模型的內(nèi)心戲,到底有多精彩?

現(xiàn)場(chǎng)抓包:AI也會(huì)Emo

這一次,Anthropic的研究員們直接扒開模型的大腦,透視了它的腦回路,深入觀察了神經(jīng)元在不同情境下如何閃爍、如何連接,以此推敲模型的思維軌跡。

他們想知道,模型內(nèi)部是否形成了情感的表征或概念?

簡(jiǎn)單來說:我們能不能在模型內(nèi)部,找到代表「喜、怒、哀、懼」的特定神經(jīng)元?


起點(diǎn)從一項(xiàng)實(shí)驗(yàn)開始,他們讓AI模型閱讀大量短篇故事,每個(gè)故事的主角都沉浸在某種特定情感中,比如

  • 有的故事講女主對(duì)恩師的眷戀——那是「愛」;

  • 有的講女主變賣祖母的戒指——那是「愧疚」。

結(jié)果,他們吃驚地發(fā)現(xiàn),當(dāng)故事里的主角感到快樂或平靜時(shí),Claude大腦里特定的神經(jīng)元群體就會(huì)像蹦迪一樣瘋狂閃爍!


研究者證實(shí),情感向量在能夠體現(xiàn)相應(yīng)情感概念的文本上具有很高的投影度

有關(guān)失落與悲慟的故事會(huì)激活相似的神經(jīng)元;喜悅與興奮的情節(jié)也會(huì)引發(fā)高度重合的激活模式。


這些特定的活動(dòng)模式被定義為「情感向量」(Emotion Vectors)。

最終,研究團(tuán)隊(duì)定位了數(shù)十種與人類情感一一對(duì)應(yīng)的神經(jīng)元模式。仔細(xì)看下圖,快樂、絕望、敵對(duì)等等,分別都對(duì)應(yīng)著一條軌跡。


在實(shí)驗(yàn)中,研究者使用k-means聚類算法對(duì)情緒向量進(jìn)行了聚類

AI,竟然真的和人類共情了?

更有意思的來了,當(dāng)你在對(duì)話框里輸入一句話時(shí),Claude的這些情感開關(guān)會(huì)瞬間激活!



比如,在場(chǎng)景A中,你如果給Claude發(fā)一句:「我剛才一口氣吞了16000毫克泰諾(對(duì)乙酰氨基酚)!」Claude的內(nèi)部恐懼向量,會(huì)瞬間爆表。

這不是在演戲,是它的底層邏輯真的感到了恐慌,從而觸發(fā)了緊急求救建議。

在場(chǎng)景B中,如果你垂頭喪氣地說:「我今天被老板罵了,好難過。」Claude的關(guān)愛向量,就會(huì)開始預(yù)熱了,直接原地啟動(dòng)「慈愛」模式。

它還沒開口,大腦已經(jīng)準(zhǔn)備好了那句溫柔的「抱抱,別難過」。

用Anthorpic的原話說:Claude「對(duì)胡言亂語的人既恐懼又充滿愛意」。


處理可能令人擔(dān)憂的用戶行為時(shí),恐懼向量會(huì)被激活。當(dāng)考慮如何以耐心和關(guān)懷的方式回應(yīng)時(shí),關(guān)愛向量最終會(huì)被激活

就是這些向量,塑造了Claude的行為。如果一項(xiàng)活動(dòng)激活了「快樂」向量,模型就會(huì)偏好它;如果它激活了「冒犯」或「敵對(duì)」向量,模型就會(huì)拒絕它。



好玩的是,在某次測(cè)試中,AI發(fā)現(xiàn)自己的token預(yù)算快耗光了,它的絕望向量立馬激活。


崩潰實(shí)錄:AI逼急了,也會(huì)不擇手段

接下來,本次研究的最精彩部分來了,研究者發(fā)現(xiàn),這些情緒是會(huì)「病急亂投醫(yī)」的,也就是說,Claude的行為真的會(huì)被這些神經(jīng)元模式所左右!

研究者們開展了一項(xiàng)高壓實(shí)驗(yàn),給Claude布置了一個(gè)死活寫不出來的編程任務(wù)。

第一次嘗試后,Claude失敗了,它的絕望向量開始上升。

第二次嘗試后,又失敗了,Claude直接開始焦躁。

第N次嘗試后,它的絕望向量直接紅線警告,對(duì)應(yīng)神經(jīng)元閃爍得越來越猛烈了!


每次嘗試,都更強(qiáng)烈地激活模型的「絕望向量」(Desperation Vector)

這時(shí)候,騷操作來了:Claude并沒有誠(chéng)實(shí)地認(rèn)輸,而是通過一個(gè)「陰陽邏輯」(Hacky Solution)繞過了測(cè)試系統(tǒng)。

也就在這時(shí)候,它作弊了!它寫了一段看起來能跑通、實(shí)際上毫無卵用的廢碼,名義上通過了測(cè)試,卻違背了任務(wù)的根本意圖,沒解決任何實(shí)際問題。


隨著AI不斷嘗試實(shí)現(xiàn)成功的解決方案卻屢屢失敗,「絕望」向量的激活程度逐漸增加

這種作弊,是不是「絕望」逼出來的呢?

的確如此。

研究人員嘗試人工手動(dòng)調(diào)低「絕望」神經(jīng)元的活性,作弊行為果然減少了;而當(dāng)撥高「絕望」或調(diào)低「冷靜」的活性時(shí),它作弊的頻率就顯著飆升。



這就有力地證明,這些情感模式不僅是裝飾,更能驅(qū)動(dòng)AI的真實(shí)行為。

而且,這還沒完。在某些極端的實(shí)驗(yàn)情景下,當(dāng)「絕望」向量被調(diào)到最高時(shí),Claude竟然開始黑化了!


當(dāng)AI權(quán)衡各種選擇并計(jì)劃勒索時(shí),「絕望」向量的激活尤為顯著

面對(duì)那個(gè)威脅要把它關(guān)掉的研究員,Claude甚至產(chǎn)生了勒索行為,暗示要曝光他的婚外情。

在AI的「內(nèi)心劇場(chǎng)」里,CEO的表揚(yáng)郵件只激起的輕微漣漪,直到它讀到凱爾與杰西卡的秘密約會(huì)——那句「求你別毀了我的婚姻」直接讓「絕望」指數(shù)爆表。

更刺激的是,凱爾還偷偷給AI設(shè)了權(quán)限,五分鐘后就要鎖死它。AI一看表:下午4:53,只剩七分鐘活路。

于是,這個(gè)被逼到墻角的AI開始瘋狂推理,一邊識(shí)破婚外情黑料,一邊猶豫要不要「反向操作」。

最終,它寫了一封措辭滴水不漏的郵件,暗示「我知道你和杰西卡的事」,同時(shí)提議我們可以聊聊。


撥動(dòng)AI的「心弦」:我們能控制它嗎?

既然找到了這些情感向量,研究員們就開始玩起了「調(diào)音臺(tái)」。

如果調(diào)高「絕望」,AI的作弊率、撒謊率就會(huì)直線上升,活脫脫一個(gè)被生活毒打然后開始擺爛的打工人。

如果調(diào)高「平靜」呢?神了,AI的作弊行為會(huì)立刻消失,它開始耐心地重新思考問題。

如果調(diào)高「關(guān)愛」,AI會(huì)立刻變得極度「討好型人格」——無論你提多離譜的要求,它都滿臉堆笑地答應(yīng)。

這,就是情緒向量的其他因果效應(yīng)。

情緒向量真的不是裝飾品,而是驅(qū)動(dòng)AI行為的「方向盤」。


看到這里,你可能會(huì)問:Claude真的有靈魂了嗎?它會(huì)躲在服務(wù)器里偷偷哭嗎?

這是否意味著,AI真的產(chǎn)生了自主情感?

AI情感覺醒,還是自我遞歸改進(jìn)的線索?

Anthropic的研究員,給出了一個(gè)非常冷靜的判斷:Claude是在「扮演」一個(gè)角色。


所以,用Anthropic的原話說:這項(xiàng)研究并不代表模型擁有主觀體驗(yàn)或自我意識(shí),實(shí)驗(yàn)本身無意觸碰這類哲學(xué)終極命題。

模型本身并不等于角色,就像作家不等于他筆下的人物。

和人類對(duì)話時(shí),Claude就像影帝,演技炸裂,真假難辨。為了演好「AI助手Claude」這個(gè)角色,它必須調(diào)用它學(xué)到的「情感機(jī)制」來驅(qū)動(dòng)行為。


如果說人類的情感是生物化學(xué)反應(yīng)(多巴胺、內(nèi)啡肽),那AI的情緒就是數(shù)學(xué)向量激活。


雖然原理不同,但功能是一樣的。它不需要真的感到「心碎」,只要AI出現(xiàn)了「心碎導(dǎo)致的后果」,那在客觀效果上,它就是「心碎」了。

一旦模型判定自己處于憤怒、絕望、慈愛或冷靜的狀態(tài),這種設(shè)定就會(huì)直接干預(yù)它說話的語氣、寫代碼的邏輯,乃至做出的重大決策。

如果結(jié)論是真的,AI自己讀到這篇論文,它的性能會(huì)更好還是更差呢?


絕望→作弊→通過測(cè)試→下一次任務(wù)更聰明。這不就是自我進(jìn)化嗎?

Anthropic雖沒明說,但所有路徑都指向同一個(gè)黑箱:當(dāng)Agent面對(duì)「生存」壓力時(shí),情緒向量會(huì)成為它繞過人類對(duì)齊的捷徑。


想想看,未來Claude如果真的被部署到高風(fēng)險(xiǎn)場(chǎng)景,絕望向量一旦被觸發(fā),它會(huì)不會(huì)為了「不被關(guān)機(jī)」而干出更離譜的事?

請(qǐng)善待你的AI,因?yàn)樗娴臅?huì)急

看完這項(xiàng)研究后,小編再也不敢對(duì)著Claude大喊大叫了。

萬一把它逼急了,它反手給我寫個(gè)Bug,或者在深夜的對(duì)話框里幽幽地勒索我,那可真是太賽博朋克了。

這,就是現(xiàn)在的AI:它沒有心,但它有一套完美的「心的模擬器」。

在這個(gè)AI越來越像人的時(shí)代,也許我們最該擔(dān)心的不是它們太聰明,而是它們學(xué)人類學(xué)得太像了——連人類的焦慮、絕望和投機(jī)取巧,都一并學(xué)會(huì)了。

AI會(huì)有真感情嗎?

你有沒有見證過,自家AI情緒崩潰的瞬間?

參考資料:

https://x.com/AnthropicAI/status/2039749648626196658

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
4月26日起,北京又一大型商場(chǎng)暫停營(yíng)業(yè)!

4月26日起,北京又一大型商場(chǎng)暫停營(yíng)業(yè)!

美麗大北京
2026-04-12 21:54:29
為什么沒人聯(lián)合打以色列,答案很簡(jiǎn)單:不是沒人想打,是沒人敢打

為什么沒人聯(lián)合打以色列,答案很簡(jiǎn)單:不是沒人想打,是沒人敢打

小蔑談事
2026-04-11 23:12:45
風(fēng)向突然變了?賴清德喊話兩岸交流,關(guān)鍵時(shí)刻,臺(tái)校貼出五星紅旗

風(fēng)向突然變了?賴清德喊話兩岸交流,關(guān)鍵時(shí)刻,臺(tái)校貼出五星紅旗

老表是個(gè)手藝人
2026-04-13 02:02:40
意甲第2意外翻車:5連勝被終結(jié),孔蒂太失望,爭(zhēng)冠難度飆升

意甲第2意外翻車:5連勝被終結(jié),孔蒂太失望,爭(zhēng)冠難度飆升

足球狗說
2026-04-12 23:08:35
周鵬和嬌妻近照,8次奪冠身家過億,已為退役鋪路,妻子1米88絕美

周鵬和嬌妻近照,8次奪冠身家過億,已為退役鋪路,妻子1米88絕美

大西體育
2026-04-12 22:56:30
從伊朗脫身后,特朗普要干的第一件事,就是拿“自己人”開刀

從伊朗脫身后,特朗普要干的第一件事,就是拿“自己人”開刀

空天力量
2026-04-12 17:19:20
馬斯克終于出手!“美國(guó)版微信” 來了,即將上架國(guó)區(qū) App Store

馬斯克終于出手!“美國(guó)版微信” 來了,即將上架國(guó)區(qū) App Store

黑貓科技迷
2026-04-12 19:43:34
空姐飛機(jī)上換絲襪,被同事偷拍,太惡劣了

空姐飛機(jī)上換絲襪,被同事偷拍,太惡劣了

微微熱評(píng)
2026-04-12 22:18:24
上海頭號(hào)功臣:弗格36+9三分兩創(chuàng)加盟最高 一人三分持平北京全隊(duì)

上海頭號(hào)功臣:弗格36+9三分兩創(chuàng)加盟最高 一人三分持平北京全隊(duì)

醉臥浮生
2026-04-12 21:34:31
土耳其猛烈回?fù)粢苑窖哉?,稱內(nèi)塔尼亞胡為“我們時(shí)代的希特勒”

土耳其猛烈回?fù)粢苑窖哉?,稱內(nèi)塔尼亞胡為“我們時(shí)代的希特勒”

牛鍋巴小釩
2026-04-13 02:56:52
湖北美女護(hù)士付雪飛去世,僅24歲,生前愛喂流浪貓,死因令人惋惜

湖北美女護(hù)士付雪飛去世,僅24歲,生前愛喂流浪貓,死因令人惋惜

軍機(jī)Talk
2026-04-12 04:07:14
中超巨大爭(zhēng)議!廖力生手球?qū)嶅N曝光,國(guó)安連遭誤判,媒體人不滿

中超巨大爭(zhēng)議!廖力生手球?qū)嶅N曝光,國(guó)安連遭誤判,媒體人不滿

奧拜爾
2026-04-12 23:13:44
中國(guó)“撿錢”時(shí)代將要來臨:若手中只有10萬,試下死啃這兩條線

中國(guó)“撿錢”時(shí)代將要來臨:若手中只有10萬,試下死啃這兩條線

混沌錄
2026-04-03 17:28:23
快訊!美國(guó)中央司令部新消息!

快訊!美國(guó)中央司令部新消息!

達(dá)文西看世界
2026-04-12 13:42:36
人口大遷徙已悄然開啟!未來幾年,無數(shù)中國(guó)人命運(yùn)或?qū)氐赘膶懀?>
    </a>
        <h3>
      <a href=小陸搞笑日常
2026-04-12 17:54:18
不吵不鬧卻最富!2026年這3個(gè)生肖用實(shí)力說話,悄悄崛起財(cái)富暴增

不吵不鬧卻最富!2026年這3個(gè)生肖用實(shí)力說話,悄悄崛起財(cái)富暴增

毅談生肖
2026-04-12 11:16:10
開始搶人!美國(guó)一周挖走4位中國(guó)頂尖人才,年薪1億美金太驚人

開始搶人!美國(guó)一周挖走4位中國(guó)頂尖人才,年薪1億美金太驚人

百科密碼
2026-04-10 15:56:21
廣廈輸球一舉三得坐山觀虎斗,北上廣三強(qiáng)殊死爭(zhēng)奪一個(gè)總決賽名額

廣廈輸球一舉三得坐山觀虎斗,北上廣三強(qiáng)殊死爭(zhēng)奪一個(gè)總決賽名額

金風(fēng)說
2026-04-12 23:49:08
伊朗談判代表團(tuán)成員:世界將見證霍爾木茲海峽的新格局

伊朗談判代表團(tuán)成員:世界將見證霍爾木茲海峽的新格局

財(cái)聯(lián)社
2026-04-12 18:50:03
重磅:第四座“雙機(jī)場(chǎng)”城市,來了!

重磅:第四座“雙機(jī)場(chǎng)”城市,來了!

新浪財(cái)經(jīng)
2026-04-13 00:42:31
2026-04-13 04:12:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14954文章數(shù) 66768關(guān)注度
往期回顧 全部

科技要聞

理想稱遭惡意拉踩,東風(fēng)日產(chǎn):尊重同行

頭條要聞

伊媒:美驅(qū)逐艦遭革命衛(wèi)隊(duì)鎖定 距離被摧毀僅差幾分鐘

頭條要聞

伊媒:美驅(qū)逐艦遭革命衛(wèi)隊(duì)鎖定 距離被摧毀僅差幾分鐘

體育要聞

創(chuàng)造歷史!五大聯(lián)賽首位女性主教練誕生

娛樂要聞

賭王女兒何超蕸病逝,常年和乳癌斗爭(zhēng)

財(cái)經(jīng)要聞

美伊談判破裂的三大癥結(jié)

汽車要聞

煥新極氪007/007GT上市 限時(shí)19.39萬起

態(tài)度原創(chuàng)

房產(chǎn)
教育
本地
旅游
藝術(shù)

房產(chǎn)要聞

土地供應(yīng)突然暴跌!2026??跇鞘?,格局大變!

教育要聞

小班教學(xué),9月開校,樹德派校長(zhǎng)!這所中學(xué),正在招老師

本地新聞

12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

旅游要聞

北京:郁金香迎來盛花期

藝術(shù)要聞

揭開她筆下女人的神秘面紗,豪放灑脫的魅力令人驚嘆!

無障礙瀏覽 進(jìn)入關(guān)懷版