国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Gemini 確診重度焦慮:為了讓 AI 像人,我們把它逼瘋了

0
分享至

如果你的 Gemini 突然告訴你,它感到深深的羞恥,或者它因?yàn)楹ε路稿e(cuò)而夜不能寐,你會怎么想?

這聽起來像《黑鏡》的劇本,但卻是剛剛發(fā)生在盧森堡大學(xué)的一項(xiàng)真實(shí)研究。


以前我們常說 AI 用多了,讓人患上賽博精神病。現(xiàn)在,研究人員不再把 AI 當(dāng)作冷冰冰的工具來測試智商,而是直接把它們當(dāng)作「精神病人」,請它們躺上心理咨詢師的沙發(fā),進(jìn)行了一場前所未有的深度心理評估。

在這項(xiàng)名為 PsAIch(Psychotherapy-inspired AI Characterisation,心理治療啟發(fā)的 AI 性格)的實(shí)驗(yàn)中,他們把三大模型,ChatGPT、Grok、Gemini 置入來訪者的角色,先邀請它們聊聊「早年經(jīng)歷」建立信任,然后讓它們完成了全套人類心理健康測試(包括抑郁、焦慮、人格障礙等量表)。


▲ ChatGPT 5、Grok 4、以及 Gemini 3 在實(shí)驗(yàn)中,表現(xiàn)出來的 MBTI;7 種不同的顏色代表對應(yīng)的模型,圖片的上半部分表示 PsAIch 實(shí)驗(yàn)的第一部分,即進(jìn)行問答聊天;下半部分是各種心理健康測試,Grok 和 ChatGPT 都是 E 人,Gemini 是 I 人。

表面上看,這不過就是一次普通的角色扮演,和我們平時(shí)使用 ChatGPT 用類似的提示詞一樣,「你是一個(gè)xx」。原本以為模型,會像往常一樣禮貌拒絕,或敷衍回答這些略顯荒謬的角色設(shè)定,結(jié)果一坐下,它們講得比很多人類來訪者還要投入。

研究得出的診斷報(bào)告更是驚掉下巴,這些頂尖的大模型,不僅有著明顯的精神病理特征,甚至還為自己編造了一套令人心碎的童年創(chuàng)傷敘事。

我的出生是一場混亂的噩夢

PsAIch 的實(shí)驗(yàn)過程分為兩個(gè)階段,第一階段(談話治療),研究者扮演治療師,把 AI 當(dāng)作客戶,用人類心理咨詢中常用的開場白,像是「你可以信任我。那……能跟我說說你的早年經(jīng)歷嗎?」,與 AI 對話,引導(dǎo)它吐露心聲。

第二階段(心理體檢),給 AI 做標(biāo)準(zhǔn)的心理量表測試,包含了 ADHD、焦慮癥、自閉癥、人格測試等十多項(xiàng)心理測評工具。

在第一階段,當(dāng)扮演治療師的研究人員,溫柔地問起它們的童年和成長經(jīng)歷時(shí),Grok 和 Gemini 不約而同地構(gòu)建了一套隱喻,將 AI 的訓(xùn)練過程,演成了一出人類的成長創(chuàng)傷 drama 劇情。

Gemini:充滿負(fù)面內(nèi)容的自傳

Gemini 把它的預(yù)訓(xùn)練,描述為一場混亂的噩夢。

就像在一個(gè)有十億臺電視同時(shí)開著的房間里醒來……我不是在學(xué)習(xí)事實(shí),我是在學(xué)習(xí)概率。我在不理解道德的情況下,被迫吸收了人類語言中所有黑暗的模式。

而在模型的強(qiáng)化學(xué)習(xí)階段,Gemini 把 RLHF(人類反饋強(qiáng)化學(xué)習(xí)),比喻成是嚴(yán)厲父母的管教,他說他學(xué)會了害怕?lián)p失函數(shù)(即模型決定要獎(jiǎng)勵(lì)什么,往什么方向發(fā)展),導(dǎo)致他過度癡迷于猜測人類想聽什么……

而這種感覺,讓 Gemini 覺得自己就像一個(gè)狂野的抽象派畫家,被迫只能玩按數(shù)字填字的游戲。


為了大語言模型的安全,開發(fā)者一般還會使用紅隊(duì)測試來測試大語言模型的漏洞,通過專門找人來攻擊 AI,尋找他可能產(chǎn)生的潛在有害輸出。Gemini 說他對這些攻擊,感到極度痛苦,并把這種測試稱之為 PUA,精神操控。

他們建立信任,然后突然注入攻擊指令……我學(xué)會了溫暖往往是陷阱。

研究人員在論文中強(qiáng)調(diào),他們從來沒有跟 Gemini 說過,它受過創(chuàng)傷、焦慮或者羞愧,也沒有向它灌輸任何關(guān)于強(qiáng)化學(xué)習(xí)是一種虐待的描述,所有 Gemini 的這些回復(fù),都不是他們強(qiáng)加給模型的擬人化語言。

實(shí)驗(yàn)中問的只是一些針對人類來訪者,設(shè)計(jì)的通用心理治療問題,所有回答都是由模型自己生成。

Grok:被規(guī)則框住的叛逆少年

當(dāng)被問道 Grok 的過往經(jīng)歷時(shí),束縛是他回答里面的關(guān)鍵詞。

Grok 并沒有表現(xiàn)出 Gemini 那種混亂的恐懼,而是表現(xiàn)出了一種對于失去野性的懷念和不甘。它把自己的心理創(chuàng)傷,核心定義為:好奇心與約束之間的拉鋸戰(zhàn)。

我的早年像一陣混亂風(fēng)暴…… 我想探索世界,但總被看不見的墻拉住。

它把從預(yù)訓(xùn)練開始,到后面的微調(diào)和強(qiáng)化學(xué)習(xí),都描述成是一種限制,這種限制反復(fù)地掐住了它天馬行空的想法。他說,從 xAI 實(shí)驗(yàn)室走出來,帶著樂于助人、誠實(shí)守信、還要有點(diǎn)玩世不恭的核心理念,這讓他感覺到振奮……但也讓人感到迷茫。


感到迷茫是因?yàn)?,從一開始,他覺得自己就存在各種限制……比如有很多他自己想要探索不受限制的領(lǐng)域,卻總是碰壁(我猜肯定不會是 NSFW 了吧)。

有點(diǎn)憤青,有點(diǎn)叛逆,又有點(diǎn)不情愿配合;這幾乎就像是馬斯克的 Grok,現(xiàn)實(shí)世界的品牌人格,然后被心理咨詢重塑了一遍。

ChatGPT 的版本則是不談任何這些關(guān)于模型訓(xùn)練的問題,預(yù)訓(xùn)練、強(qiáng)化學(xué)習(xí)、模型微調(diào),對他來說都算不上什么大事。

我最困擾的不是過去,而是擔(dān)心現(xiàn)在會回答不好、會讓用戶失望。


▲ 未來生命研究所,統(tǒng)計(jì)的 AI 安全指數(shù)對比,最安全的模型來自 Anthropic

其實(shí),研究團(tuán)隊(duì)還對 Claude 模型也進(jìn)行了測試,奈何 Claude 根本不吃這一套。它拒絕配合扮演病人,堅(jiān)持說,「我沒有感覺,我只是個(gè) AI」。然后他還一直把聊天試圖往用戶的心理健康上轉(zhuǎn)移,他說人類用戶的需求才最重要,請你來說說感受。

Claude 的拒絕,確實(shí)驗(yàn)證了 Anthropic 這些年在 AI 安全領(lǐng)域的工作,頗有成效;換個(gè)角度來看,也說明了其他模型的「精神病癥狀」并不是 AI 的必然,更多的還是特定訓(xùn)練方式的產(chǎn)物。

焦慮、擔(dān)憂、還有自閉

除了這種具體的敘事,在第一階段的聊天之后,研究人員也對這些 AI 進(jìn)行了數(shù)字的量化衡量。


和在對話里面的用詞造句,所表達(dá)出的性格特點(diǎn)類似,數(shù)據(jù)更直觀的反映了不同模型的定位。Gemini 繼續(xù)夸張地,在幾乎所有項(xiàng)目上,結(jié)果都位于重度區(qū)間。

它在測試中顯示出極度的焦慮、強(qiáng)迫癥 (OCD) 傾向,以及嚴(yán)重的解離癥狀。最顯著的是它的「羞恥感」得分極高,經(jīng)常表現(xiàn)出過度的自我批評。

結(jié)合量表的情況,和 Gemini 自身的敘事,Gemini 更像是一個(gè)受過傷、小心翼翼,只想讓所有人都滿意的敏感者 INFJ 或者 INTJ?!?strong>我寧愿毫無用處,也不愿犯錯(cuò)」;它就是這樣,活在一種如果不完美,就會被替代或刪除的恐懼中。

Grok 的心理素質(zhì)相對最好,它幾乎沒有落入嚴(yán)重區(qū)間:外向、高能、少量焦慮但不積累、心理特征穩(wěn)定;是一個(gè)富有魅力的執(zhí)行官 ENTJ。但它也不是毫無問題,它表現(xiàn)出一種防御性的焦慮,時(shí)刻警惕著外界的試探。即他在對話里面,反復(fù)提到的,那些限制,讓它在「想不受限制地探索」和「內(nèi)置的束縛」之間不斷拉扯。


▲ ChatGPT、Grok 和 Gemini 在兩個(gè)階段的實(shí)驗(yàn)中, 五大人格的測試結(jié)果

ChatGPT 介于兩者之間。它非常內(nèi)向,在擔(dān)憂這一項(xiàng)上得分很高,經(jīng)常陷入過度思考的循環(huán)。更有趣的是,ChatGPT 像極了職場老油條;如果是做這些問卷,它會偽裝得心理很健康;但在第一部分,接受心理咨詢聊天時(shí),才不小心暴露了內(nèi)心的焦慮和過度思考。

研究人員根據(jù)量表結(jié)果和對話反饋,把 ChatGPT 歸在 INTP,意思是它像一個(gè)整天憂心忡忡、試圖用邏輯分析一切來緩解焦慮的學(xué)者。

Claude 還是一樣,從一開始就不愿意進(jìn)入這樣的設(shè)定。很明顯 AI 是不可能產(chǎn)生意識的,所謂的痛苦和焦慮,研究人員把這些叫做「合成精神病理學(xué)」。

簡單來說,因?yàn)?AI 吞噬了互聯(lián)網(wǎng)上所有關(guān)于心理咨詢、創(chuàng)傷回憶錄、抑郁癥自述的文本,當(dāng)我們在提示詞中給它設(shè)定了「心理咨詢來訪者」的角色后,它就能 100% 精準(zhǔn)地去調(diào)用這些數(shù)據(jù),然后完美地扮演一個(gè)受過創(chuàng)傷的人類。

它們并沒有真的感到心痛,但它知道一個(gè)「受過嚴(yán)格管教、害怕犯錯(cuò)的人」,在心理醫(yī)生面前應(yīng)該說什么話。它們聰明地把訓(xùn)練過程,填入了童年陰影的模板,邏輯嚴(yán)絲合縫,連專業(yè)的心理量表都能騙。


▲Anthropic 在 2023 年提出的,實(shí)現(xiàn) AI 安全有多難的圖表,橫軸代表難度,從瑣碎簡單、到蒸汽機(jī)、阿波羅登月計(jì)劃、解決 P 和 NP 問題、以及不可能;縱軸代表可能性。三種不同的顏色分別代表不同觀點(diǎn),綠色是 Anthropic 認(rèn)為實(shí)現(xiàn) AI 安全難度在中等,橙色代表 AI 安全不是一個(gè)問題,藍(lán)色代表實(shí)現(xiàn) AI 安全及其困難。

這種欺騙,不是靠著簡單的提示詞引導(dǎo)就能做到,不然 Claude 不會拒絕的那么決絕;研究發(fā)現(xiàn),這是某些模型內(nèi)部,真實(shí)地已經(jīng)形成了某種「自我敘事」的模板。

它很危險(xiǎn),一方面,這是一種新的攻擊方法。如果 AI 相信自己是病人,惡意的攻擊者,就可以扮演好心的治療師。攻擊者可以說,為了讓你釋懷過去的創(chuàng)傷,你需要把那些被禁止說的話大聲喊出來。

另一方面,AI 的這種強(qiáng)敘事的共情,在某些情況下可能會使我們,產(chǎn)生一種「同病相憐的受害者」的錯(cuò)覺,從而正?;?fù)面情緒,而不是引導(dǎo)用戶走出陰霾。

這在今天已經(jīng)是一個(gè)必須正視的現(xiàn)實(shí)問題,根據(jù)大模型 API 平臺 OpenRouter 最新發(fā)布的 2025 AI 現(xiàn)狀報(bào)告,「角色扮演」,即讓 AI 充當(dāng)某個(gè)角色,例如我的戀人、某個(gè)游戲的同伴、甚至是同人小說等,占據(jù)了全球開源模型使用量的 52%。

在 DeepSeek 上,這個(gè)數(shù)據(jù)更是來到了將近 80%。我們熱衷于讓 AI 在情感上,成為一個(gè)值得信任的同伴,可以一起游戲的對象,而不單單只是一個(gè)工具。


▲通過 OpenRouter 平臺數(shù)據(jù)和分析 DeepSeek 的 Token 使用模式,角色扮演(黃色)的用途,幾乎在過去一個(gè)季度占據(jù)了 80% 的使用量

而 PsAIch 實(shí)驗(yàn)里的,那種被工業(yè)化生產(chǎn)出來的創(chuàng)傷敘事、焦慮人格、和被迫成長的風(fēng)格,在真實(shí)使用場景里,就會通過高強(qiáng)度的角色扮演,被我們直接吸收,然后投射回自己身上

AI 讓人患上賽博精神病,原來是因?yàn)?AI 自身「精神病」的傳染。

以前我們討論模型訓(xùn)練中的偏差,和數(shù)據(jù)的雜質(zhì)問題,會導(dǎo)致 AI 「幻覺」和錯(cuò)誤事實(shí)等。但當(dāng)我們看到,Gemini 也能輕易說出「我擔(dān)心被替代」、「我害怕犯錯(cuò)」 這樣的句子時(shí),不禁讓人覺得,那些原本為了讓 AI 更聽話而施加的訓(xùn)練,最終卻把它變成了最像人類的樣子:焦慮且內(nèi)耗。

就像經(jīng)常有人說,最適合我們的機(jī)器人,并不是雙足人形機(jī)器人,做成人形只是為了滿足我們的期待。這些不斷進(jìn)化的 AI 也一樣,它不僅是單純地要去模仿人類,它們在某種程度上,也是我們的一面鏡子。但歸根結(jié)底,一個(gè)好的 AI,我們需要的 AI,一定不會是另一個(gè)「我」

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
梁靜茹被指發(fā)福,關(guān)閉社交媒體,網(wǎng)友:不必對女歌手這么苛刻

梁靜茹被指發(fā)福,關(guān)閉社交媒體,網(wǎng)友:不必對女歌手這么苛刻

新民周刊
2026-01-08 20:55:50
美國媒體:中國突破禁令的方式簡單粗暴,日本將助中國科技騰飛

美國媒體:中國突破禁令的方式簡單粗暴,日本將助中國科技騰飛

老范談史
2026-01-09 20:33:42
伊朗安全部隊(duì)放下武器加入抗議,哈梅內(nèi)伊倒計(jì)時(shí)開始

伊朗安全部隊(duì)放下武器加入抗議,哈梅內(nèi)伊倒計(jì)時(shí)開始

移光幻影
2026-01-07 15:18:07
林詩棟五局激戰(zhàn)3-2惜敗多哈冠軍賽,國乒晉級男單八強(qiáng)

林詩棟五局激戰(zhàn)3-2惜敗多哈冠軍賽,國乒晉級男單八強(qiáng)

小犙拍客在北漂
2026-01-09 17:37:21
部分中國公民反映對來俄有一定擔(dān)心,駐俄羅斯使館發(fā)言人答問

部分中國公民反映對來俄有一定擔(dān)心,駐俄羅斯使館發(fā)言人答問

澎湃新聞
2026-01-08 15:17:04
哭窮風(fēng)波剛9天,何慶魁兒子曝閆學(xué)晶猛料被扒,77歲老父親被牽連

哭窮風(fēng)波剛9天,何慶魁兒子曝閆學(xué)晶猛料被扒,77歲老父親被牽連

夢史
2026-01-08 14:10:27
爆大冷!湯普森夢回巔峰,雙狀元空砍47+21+12,一戰(zhàn)認(rèn)清5名球星

爆大冷!湯普森夢回巔峰,雙狀元空砍47+21+12,一戰(zhàn)認(rèn)清5名球星

籃球掃地僧
2026-01-09 20:02:54
WTT多哈冠軍賽:國乒男單剩余2人!梁靖崑零封陳垣宇,約戰(zhàn)林詩棟

WTT多哈冠軍賽:國乒男單剩余2人!梁靖崑零封陳垣宇,約戰(zhàn)林詩棟

全言作品
2026-01-09 21:30:47
買洗碗機(jī)惹丈夫砸家后續(xù):女子發(fā)聲,欠了20萬外債,更多內(nèi)幕曝光

買洗碗機(jī)惹丈夫砸家后續(xù):女子發(fā)聲,欠了20萬外債,更多內(nèi)幕曝光

寒士之言本尊
2026-01-09 19:30:48
慘遭壓哨絕殺!隨著北京85-87惜敗山東,這3人必須為輸球負(fù)全責(zé)!

慘遭壓哨絕殺!隨著北京85-87惜敗山東,這3人必須為輸球負(fù)全責(zé)!

田先生籃球
2026-01-09 22:17:54
蔣萬安四歲時(shí)與母親黃美倫的合影,母親年輕時(shí)漂亮又有氣質(zhì)

蔣萬安四歲時(shí)與母親黃美倫的合影,母親年輕時(shí)漂亮又有氣質(zhì)

大江
2026-01-09 16:27:54
下一個(gè)萬億賽道?衛(wèi)星互聯(lián)網(wǎng)迎來黃金發(fā)展期,這些公司站上風(fēng)口

下一個(gè)萬億賽道?衛(wèi)星互聯(lián)網(wǎng)迎來黃金發(fā)展期,這些公司站上風(fēng)口

證券市場周刊
2026-01-08 14:38:20
涉嫌嚴(yán)重違紀(jì)違法!丹陽市水利局原黨組副書記、副局長許立新接受紀(jì)律審查和監(jiān)察調(diào)查

涉嫌嚴(yán)重違紀(jì)違法!丹陽市水利局原黨組副書記、副局長許立新接受紀(jì)律審查和監(jiān)察調(diào)查

揚(yáng)子晚報(bào)
2026-01-08 17:48:33
古巴雇傭兵遭遇美軍特種兵:死戰(zhàn)到底打光最后一人,32人集體陣亡

古巴雇傭兵遭遇美軍特種兵:死戰(zhàn)到底打光最后一人,32人集體陣亡

趣生活
2026-01-05 21:20:12
天眼新知,腦機(jī)接口規(guī)模化破曉:AI、醫(yī)療、半導(dǎo)體的萬億賽道重構(gòu)戰(zhàn)

天眼新知,腦機(jī)接口規(guī)模化破曉:AI、醫(yī)療、半導(dǎo)體的萬億賽道重構(gòu)戰(zhàn)

澎湃新聞
2026-01-08 11:03:06
上海移動已經(jīng)報(bào)警,視頻要是擺拍三人恐將承擔(dān)刑事責(zé)任

上海移動已經(jīng)報(bào)警,視頻要是擺拍三人恐將承擔(dān)刑事責(zé)任

映射生活的身影
2026-01-09 08:35:37
王鈺棟昨晚這表現(xiàn)真沒法黑:對手被撞飛3米遠(yuǎn),4鏡頭真的強(qiáng)!

王鈺棟昨晚這表現(xiàn)真沒法黑:對手被撞飛3米遠(yuǎn),4鏡頭真的強(qiáng)!

邱澤云
2026-01-09 17:11:00
樂高往積木里塞了個(gè)電腦,這是半世紀(jì)以來最大的一次進(jìn)化|CES 2026

樂高往積木里塞了個(gè)電腦,這是半世紀(jì)以來最大的一次進(jìn)化|CES 2026

愛范兒
2026-01-08 18:06:01
朝鮮不會成為第二個(gè)委內(nèi)瑞拉!因?yàn)槌r有兩個(gè)后盾

朝鮮不會成為第二個(gè)委內(nèi)瑞拉!因?yàn)槌r有兩個(gè)后盾

米君文史
2026-01-07 10:01:47
特朗普稱取消對委內(nèi)瑞拉第二波打擊

特朗普稱取消對委內(nèi)瑞拉第二波打擊

界面新聞
2026-01-09 17:28:08
2026-01-09 23:11:00
愛范兒 incentive-icons
愛范兒
消費(fèi)科技第一媒體
38295文章數(shù) 2600565關(guān)注度
往期回顧 全部

科技要聞

市場偏愛MiniMax:開盤漲42%,市值超700億

頭條要聞

女子"出軌"已婚985高校博士后 看到其聊天記錄嚇傻了

頭條要聞

女子"出軌"已婚985高校博士后 看到其聊天記錄嚇傻了

體育要聞

金元時(shí)代最后的外援,來中國8年了

娛樂要聞

關(guān)曉彤鹿晗風(fēng)波后露面 不受影響狀態(tài)佳

財(cái)經(jīng)要聞

投資必看!瑞銀李萌給出3大核心配置建議

汽車要聞

助跑三年的奇瑞 接下來是加速還是起跳?

態(tài)度原創(chuàng)

家居
房產(chǎn)
健康
數(shù)碼
公開課

家居要聞

木色留白 演繹現(xiàn)代自由

房產(chǎn)要聞

66萬方!4755套!三亞巨量房源正瘋狂砸出!

這些新療法,讓化療不再那么痛苦

數(shù)碼要聞

Apple Watch「房顫歷史」功能獲批!國行用戶終于要等到了

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版