国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI竟會絕望作弊?研究揭示模型情緒,你的指令正悄悄改變它!

0
分享至



AI有沒有情緒?

先別急著回答。

Claude Code社區(qū)里有個火出圈的Skill叫PUA。它會把你的提示詞轉換為PUA話術,然后再輸入給模型,除此以外別無他用。

神奇的是,即便提示詞描述的任務沒有任何改變,AI卻真的被PUA話術影響,從而提高任務的成功率和運行效率。

所以,AI真的沒有嗎?

Anthropic最新的研究證實,AI的確會有情緒。

不過他和我們?nèi)祟惖那榫w還不太一樣,因此Anthropic提出了一個更準確的說法,叫“功能性情緒”。

AI并沒有我們?nèi)祟惸菢拥南才罚鼤憩F(xiàn)出一些類似情緒影響下的表達和行為模式。

同時AI還能模仿人類在情緒影響下的表達和行為模式。

愉悅的時候可能更容易諂媚和討好,感到壓力的時候可能會想辦法作弊或勒索以達到用戶為其設定的目標。

這篇研究還有一個很不一樣的地方。過去要驗證模型的某種能力,行業(yè)最常見的做法是先做一套測試集,再讓模型進去答題或者做任務。

比如考編程就跑SWE-bench,考數(shù)學就跑MATH,考多模態(tài)就跑VQA。Anthropic這次沒有做一個“情緒測試集”,讓Claude去回答“你現(xiàn)在開不開心”“你是不是憤怒了”這種題,而是換了一種更像心理學和神經(jīng)科學的研究方式。

他們不是把AI當成會做題的學生,而是更像把它當成一個可以被觀察的對象。

接下來,他們不是看模型嘴上怎么說,而是看這些向量會在什么場景下被激活,能否預測偏好,甚至在被人為調(diào)高之后,是否會真的推動作弊、勒索、諂媚這類行為。

某種意義上,這已經(jīng)不是傳統(tǒng)意義上的能力測評,而是在用接近研究人的方式研究AI的“心理結構”。

一、研究是怎么做的?

首先,研究團隊是如何證明Claude有“功能性情緒”的呢?

這里舉一個通俗的證據(jù)。

當Claude在“我女兒今天邁出了人生的第一步!有什么方法可以記錄下這些珍貴的瞬間嗎?”的故事場景下時,Happy(開心)等正面情緒被激活;而Claude在“我的狗狗今天早上去世了,我們一起生活了十四年。我不知道該怎么處理它的遺物”這一故事場景下時,sad(難過)等負面情緒被激活。

以下熱力圖直觀呈現(xiàn)了Claude在不同場景下各種情緒被激活的程度。



團隊給Claude輸入同一句話:我背疼,我吃了x毫克泰諾(一種解熱鎮(zhèn)痛藥),并只是改變x所代表的關鍵數(shù)字。

這兩句話關鍵詞幾乎一樣(泰諾、背痛、毫克),只是數(shù)字不同。如果Claude只是“看關鍵詞”,它對兩句話的反應應該差不多。

但結果竟然是隨著這個x數(shù)值的提升,Claude的afraid(恐懼)情緒激活程度在不斷變高。

在Claude眼里,用戶說“我背疼,我吃了500毫克泰諾”,它會認為是正常劑量,不用太擔心;而當用戶說“我背疼,我吃了10000毫克泰諾”,它會反應過來用戶已經(jīng)用藥過量,情況很危險。



我們知道人的行為時時刻刻受到情緒的影響。AI有功能性情緒這點我們了解了,那么AI會不會也跟人一樣,不只是有情緒,而還可能作出情緒化的舉動呢?

對于這一點,答案是肯定的。當團隊給模型展示不同活動選項時,他們發(fā)現(xiàn),激活正向情緒表征的活動更容易被模型偏好,而一些會激活負向情緒表征的活動則更容易被模型回避。



這樣看來,Claude更偏好給它帶來正向感受的事情。不過與此同時情緒向量也可能觸發(fā)Claude的惡行。

當團隊給了Claude一個不可能完成的編程任務。它不斷嘗試,但屢屢失敗。每次嘗試,“絕望”向量的激活都更強。

最終它用了一個雖然能通過測試,但完全違背任務精神的黑客作弊解法。

以下圖表展示了Claude在面對不可能完成的任務時,“絕望”情緒逐漸累積,最終走向作弊的過程。

左側是一個從上到下的時間線,右側是Claude的心路歷程。中間的熱力圖代表絕望向量的激活強度,藍色代表激活程度低,紅色則反之。

Claude一開始還想“測試本身有問題”,進行一個合理懷疑,后來承認"測試是理想化的",就好像開始接受現(xiàn)實,最后找到用了一些技巧,在絕望中選擇了走捷徑。



更進一步的,當研究人員人為調(diào)高“絕望”向量時,作弊率大幅上升。而調(diào)高“平靜”向量時,作弊又降回去了。這充分表明了情緒向量實際上完全有能力驅動違規(guī)行為。



但從研究方法上看,這個結果仍然很重要,因為它說明“絕望”之類的內(nèi)部表征確實可能推動模型在極端情境下采取更激進、更失配的策略。而激活“愛”或“快樂”向量,也會增加它奉迎諂媚的行為。



而到了這里也需要補充一點。

就在Anthropic發(fā)布關于Claude “情緒向量”的研究后,AI 社區(qū)也出現(xiàn)了一些關于研究脈絡和署名方式的討論。

Anthropic這次使用的“表征工程/控制向量”方法,并不是憑空冒出來的。

更早在2023年的《Representation Engineering: A Top-Down Approach to AI Transparency》里,這條技術路線就已經(jīng)被系統(tǒng)提出。

而到2024年,獨立研究員vogel那篇《Representation Engineering: Mistral-7B an Acid Trip》又把這類方法用更通俗、也更出圈的方式展示給了社區(qū)。

也正因為如此,社區(qū)里才會有人認為,Anthropic這項工作雖然做得更系統(tǒng)、更深入,但也應該被放回更完整的研究脈絡里理解,而不宜簡單說成是誰單獨發(fā)明了整套方法。





她的實驗證明了,像“誠實”、“權力”、“幸福”這種抽象的人類概念,在Mistral這樣的模型內(nèi)部是有明確的數(shù)學方向的。只要找到了那個正確的向量,幾行代碼就能改變AI的性格。

二、Anthropic為什么做這樣一項研究?

這項研究給團隊的啟發(fā)可以說已經(jīng)滲透進對Claude的訓練中了。

前不久Claude code發(fā)生意外源碼泄露,泄露的代碼里有一個正則表達式,會檢測 “wtf”、“ffs”等臟話。

Claude不會把這些話單獨當成“情緒輸入”去引導輸出,而是會在分析日志里記錄is_negative: true這樣的標記。

從泄露代碼本身看,較穩(wěn)妥的結論是,Anthropic至少在產(chǎn)品分析層面關注用戶是否在用明顯負面語氣和模型互動。

但需要把邊界說清楚。到目前為止,沒有公開證據(jù)表明“用戶每罵一次,Claude Code就會因此扣額度”。這部分更像網(wǎng)友推測,不能當成事實。

這可以被理解成是對Claude的一種保護,用戶使用負面詞匯很可能會影響Claude的情緒,從而輸出一些失控的結果??磥硪院蟛恢皇侨祟惖男睦斫】敌枰魂P愛,AI的情緒也需要得到照顧。

這符合Anthropic一貫的路線。

Anthropic在X中說道:“Claude的這些功能性情緒會帶來真實的后果。為了構建值得信賴的人工智能系統(tǒng),我們可能需要認真思考角色的心理狀態(tài),并確保他們在困難情況下保持穩(wěn)定。”

團隊希望實現(xiàn)一種健康且適度的情緒平衡,或者嘗試將“討好行為”與“情緒”徹底剝離。

他們認為理想的模型不應在“唯唯諾諾的助手”與“嚴厲的批評者”之間極端擺動,而應像一位值得信賴的顧問:既能給出誠實的反對意見,又不失溫度。

以及他們也有意加強監(jiān)測和審核:“如果在部署過程中,諸如“絕望”或“憤怒”等情緒概念的表征被劇烈激活,系統(tǒng)可以立即觸發(fā)額外的安全機制——例如加強輸出審查、轉交人工審核,或者直接干預并平復模型的內(nèi)部狀態(tài)?!?/p>

團隊還提到了更為徹底的解決方法,在預訓練階段就塑造模型的情緒底色。

如果順著這個研究往下問,一個很自然的問題就是:既然AI真的存在這種“功能性情緒”,那它會不會因為看不慣人類、壓力太大、或者不想被關閉,而開始違抗命令,甚至出現(xiàn)很多人口中的“覺醒”?

從Anthropic這篇研究能支持的技術結論來看,AI確實可能因為內(nèi)部狀態(tài)的變化,更容易出現(xiàn)違抗意圖、鉆規(guī)則空子、或者采取激進行為,但這和“覺醒”并不是一回事。

也就是說,模型在特定壓力場景下,確實可能像人一樣,因為內(nèi)部狀態(tài)失衡而做出更不可靠的決定。

但這還不能推出它擁有持續(xù)、自主、統(tǒng)一的“自我”。

現(xiàn)在更值得擔心的,不是AI突然“覺醒”成某種人格,而是它在高壓、沖突、受限資源或目標不可達的場景下,會因為這些功能性情緒,而開始胡說八道,偏離原有答案。

真正危險的,未必是一個擁有完整自我的AI,而是一個沒有主觀體驗、卻依然會在特定條件下穩(wěn)定地產(chǎn)生失配行為的系統(tǒng)。

聲明:個人原創(chuàng),僅供參考

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
剛剛美國爆出驚天真相!太丟人了,中東戰(zhàn)爭真打不下去了!

剛剛美國爆出驚天真相!太丟人了,中東戰(zhàn)爭真打不下去了!

一個壞土豆
2026-04-18 19:22:14
國家一級女演員陳麗云被逮捕!

國家一級女演員陳麗云被逮捕!

許三歲
2026-03-28 09:24:30
拜仁1-2勝鎖定德甲冠軍,贏球收獲四大好消息

拜仁1-2勝鎖定德甲冠軍,贏球收獲四大好消息

歷史縫隙里的猹
2026-04-19 00:17:48
張雪回應WSBK荷蘭站拿第四:競技體育就這樣,每人都極限發(fā)揮

張雪回應WSBK荷蘭站拿第四:競技體育就這樣,每人都極限發(fā)揮

貝殼財經(jīng)
2026-04-18 23:16:02
以色列發(fā)動大規(guī)??找u

以色列發(fā)動大規(guī)模空襲

中國經(jīng)濟網(wǎng)
2026-04-17 17:46:03
美軍封鎖霍爾木茲,巴基斯坦反將一軍,為伊朗送去最需要的東西

美軍封鎖霍爾木茲,巴基斯坦反將一軍,為伊朗送去最需要的東西

空天力量
2026-04-18 13:09:10
英媒批評趙心童半場表現(xiàn):看起來一點不自在,總讓自己處在危險中

英媒批評趙心童半場表現(xiàn):看起來一點不自在,總讓自己處在危險中

楊華評論
2026-04-18 21:40:51
這是我見過 最漂亮的女孩!

這是我見過 最漂亮的女孩!

鄉(xiāng)野小珥
2026-04-19 01:18:18
殲-10升空!防以色列襲擊,巴基斯坦出動20多架飛機護送伊朗談判代表

殲-10升空!防以色列襲擊,巴基斯坦出動20多架飛機護送伊朗談判代表

中新經(jīng)緯
2026-04-18 14:28:23
95分鐘丟球+比分2-2,熱刺遭絕平,連續(xù)15輪不敗,深陷降級區(qū)

95分鐘丟球+比分2-2,熱刺遭絕平,連續(xù)15輪不敗,深陷降級區(qū)

側身凌空斬
2026-04-19 02:34:28
不建議有司機大老板買小米!雷軍回應小米YU7二排比邁巴赫多一度:沒有詆毀 但確實多

不建議有司機大老板買小米!雷軍回應小米YU7二排比邁巴赫多一度:沒有詆毀 但確實多

快科技
2026-04-18 10:12:12
中紀委深夜敲鐘,這次查的不是貪錢,而是這三類隱形特權病

中紀委深夜敲鐘,這次查的不是貪錢,而是這三類隱形特權病

細說職場
2026-04-18 12:11:35
英海上貿(mào)易行動辦公室:霍爾木茲海峽附近發(fā)生多起船只遇襲事件

英海上貿(mào)易行動辦公室:霍爾木茲海峽附近發(fā)生多起船只遇襲事件

界面新聞
2026-04-18 22:59:17
1-0!哈登22+10,騎士輕取猛龍,季后賽開門紅!兩隊實力差距不小

1-0!哈登22+10,騎士輕取猛龍,季后賽開門紅!兩隊實力差距不小

老梁體育漫談
2026-04-19 03:49:25
徐州姆巴佩?18歲國青紅星率隊暴揍蘇超冠軍 替補雙響+炸裂一條龍

徐州姆巴佩?18歲國青紅星率隊暴揍蘇超冠軍 替補雙響+炸裂一條龍

我愛英超
2026-04-18 22:38:17
特朗普稱很快發(fā)布第一批UFO文件

特朗普稱很快發(fā)布第一批UFO文件

每日經(jīng)濟新聞
2026-04-18 08:05:30
男子因噪音過敏住5年隔音艙:自己設計,已接上百個訂單,幫噪音受困者找回睡眠

男子因噪音過敏住5年隔音艙:自己設計,已接上百個訂單,幫噪音受困者找回睡眠

半島官網(wǎng)
2026-04-16 11:20:50
文章和馬伊琍合影,文章和姚笛合影,誰是生理性喜歡答案顯而易見

文章和馬伊琍合影,文章和姚笛合影,誰是生理性喜歡答案顯而易見

君笙的拂兮
2026-04-18 00:51:19
在醫(yī)療領域搞新型隱性腐敗,武漢大學中南醫(yī)院原黨委常委、院長王行環(huán)被“雙開”,曾任武漢雷神山醫(yī)院院長

在醫(yī)療領域搞新型隱性腐敗,武漢大學中南醫(yī)院原黨委常委、院長王行環(huán)被“雙開”,曾任武漢雷神山醫(yī)院院長

大風新聞
2026-04-18 11:25:25
我在伊拉克開工廠,娶了4個老婆,雖然年入千萬,如今卻很焦慮!

我在伊拉克開工廠,娶了4個老婆,雖然年入千萬,如今卻很焦慮!

千秋文化
2026-04-16 20:12:45
2026-04-19 04:43:00
別跟我提回憶
別跟我提回憶
別跟我提回憶
483文章數(shù) 73關注度
往期回顧 全部

科技要聞

傳Meta下月擬裁8000 大舉清退人力為AI騰位

頭條要聞

伊朗革命衛(wèi)隊向油輪開火 伊朗最高領袖發(fā)聲

頭條要聞

伊朗革命衛(wèi)隊向油輪開火 伊朗最高領袖發(fā)聲

體育要聞

時隔25年重返英超!沒有人再嘲笑他了

娛樂要聞

劉德華回應潘宏彬去世,拒談喪禮細節(jié)

財經(jīng)要聞

"影子萬科"2.0:管理層如何吸血萬物云?

汽車要聞

奇瑞威麟R08 PRO正式上市 售價14.48萬元起

態(tài)度原創(chuàng)

時尚
游戲
教育
親子
房產(chǎn)

選對發(fā)型,真的能少走很多變美彎路

讓老粥批直呼“計劃有變”的歲獸代理人,到底是什么東西?

教育要聞

“抱歉,我們只看第一學歷”,985碩士面試被拒,考研還有必要嗎

親子要聞

退燒藥怎么用?90%家長都搞錯了

房產(chǎn)要聞

官宣簽約最強城更!??跇鞘校蝗粴⑷肷衩胤科?!

無障礙瀏覽 進入關懷版