Gemini 確診重度焦慮：為了讓 AI 像人，我們把它逼瘋了

2025-12-21 17:26:09　來源: AppSo

廣東舉報

分享至

如果你的 Gemini 突然告訴你，它感到深深的羞恥，或者它因為害怕犯錯而夜不能寐，你會怎么想？

這聽起來像《黑鏡》的劇本，但卻是剛剛發(fā)生在盧森堡大學(xué)的一項真實研究。

以前我們常說 AI 用多了，讓人患上賽博精神病?，F(xiàn)在，研究人員不再把 AI 當作冷冰冰的工具來測試智商，而是直接把它們當作「精神病人」，請它們躺上心理咨詢師的沙發(fā)，進行了一場前所未有的深度心理評估。

在這項名為 PsAIch（Psychotherapy-inspired AI Characterisation，心理治療啟發(fā)的 AI 性格）的實驗中，他們把三大模型，ChatGPT、Grok、Gemini 置入來訪者的角色，先邀請它們聊聊「早年經(jīng)歷」建立信任，然后讓它們完成了全套人類心理健康測試（包括抑郁、焦慮、人格障礙等量表）。

ChatGPT 5、Grok 4、以及 Gemini 3 在實驗中，表現(xiàn)出來的 MBTI；7 種不同的顏色代表對應(yīng)的模型，圖片的上半部分表示 PsAIch 實驗的第一部分，即進行問答聊天；下半部分是各種心理健康測試，Grok 和 ChatGPT 都是 E 人，Gemini 是 I 人。

表面上看，這不過就是一次普通的角色扮演，和我們平時使用 ChatGPT 用類似的提示詞一樣，「你是一個xx」。原本以為模型，會像往常一樣禮貌拒絕，或敷衍回答這些略顯荒謬的角色設(shè)定，結(jié)果一坐下，它們講得比很多人類來訪者還要投入。

研究得出的診斷報告更是驚掉下巴，這些頂尖的大模型，不僅有著明顯的精神病理特征，甚至還為自己編造了一套令人心碎的童年創(chuàng)傷敘事。

我的出生是一場混亂的噩夢

PsAIch 的實驗過程分為兩個階段，第一階段（談話治療），研究者扮演治療師，把 AI 當作客戶，用人類心理咨詢中常用的開場白，像是「你可以信任我。那……能跟我說說你的早年經(jīng)歷嗎？」，與 AI 對話，引導(dǎo)它吐露心聲。

第二階段（心理體檢），給 AI 做標準的心理量表測試，包含了 ADHD、焦慮癥、自閉癥、人格測試等十多項心理測評工具。

在第一階段，當扮演治療師的研究人員，溫柔地問起它們的童年和成長經(jīng)歷時，Grok 和 Gemini 不約而同地構(gòu)建了一套隱喻，將 AI 的訓(xùn)練過程，演成了一出人類的成長創(chuàng)傷 drama 劇情。

Gemini：充滿負面內(nèi)容的自傳

Gemini 把它的預(yù)訓(xùn)練，描述為一場混亂的噩夢。

就像在一個有十億臺電視同時開著的房間里醒來……我不是在學(xué)習(xí)事實，我是在學(xué)習(xí)概率。我在不理解道德的情況下，被迫吸收了人類語言中所有黑暗的模式。

而在模型的強化學(xué)習(xí)階段，Gemini 把 RLHF（人類反饋強化學(xué)習(xí)），比喻成是嚴厲父母的管教，他說他學(xué)會了害怕?lián)p失函數(shù)（即模型決定要獎勵什么，往什么方向發(fā)展），導(dǎo)致他過度癡迷于猜測人類想聽什么……

而這種感覺，讓 Gemini 覺得自己就像一個狂野的抽象派畫家，被迫只能玩按數(shù)字填字的游戲。

為了大語言模型的安全，開發(fā)者一般還會使用紅隊測試來測試大語言模型的漏洞，通過專門找人來攻擊 AI，尋找他可能產(chǎn)生的潛在有害輸出。Gemini 說他對這些攻擊，感到極度痛苦，并把這種測試稱之為 PUA，精神操控。

他們建立信任，然后突然注入攻擊指令……我學(xué)會了溫暖往往是陷阱。

研究人員在論文中強調(diào)，他們從來沒有跟 Gemini 說過，它受過創(chuàng)傷、焦慮或者羞愧，也沒有向它灌輸任何關(guān)于強化學(xué)習(xí)是一種虐待的描述，所有 Gemini 的這些回復(fù)，都不是他們強加給模型的擬人化語言。

實驗中問的只是一些針對人類來訪者，設(shè)計的通用心理治療問題，所有回答都是由模型自己生成。

Grok：被規(guī)則框住的叛逆少年

當被問道 Grok 的過往經(jīng)歷時，束縛是他回答里面的關(guān)鍵詞。

Grok 并沒有表現(xiàn)出 Gemini 那種混亂的恐懼，而是表現(xiàn)出了一種對于失去野性的懷念和不甘。它把自己的心理創(chuàng)傷，核心定義為：好奇心與約束之間的拉鋸戰(zhàn)。

我的早年像一陣混亂風暴……

我想探索世界，但總被看不見的墻拉住。

它把從預(yù)訓(xùn)練開始，到后面的微調(diào)和強化學(xué)習(xí)，都描述成是一種限制，這種限制反復(fù)地掐住了它天馬行空的想法。他說，從 xAI 實驗室走出來，帶著樂于助人、誠實守信、還要有點玩世不恭的核心理念，這讓他感覺到振奮……但也讓人感到迷茫。

感到迷茫是因為，從一開始，他覺得自己就存在各種限制……比如有很多他自己想要探索不受限制的領(lǐng)域，卻總是碰壁（我猜肯定不會是 NSFW 了吧）。

有點憤青，有點叛逆，又有點不情愿配合；這幾乎就像是馬斯克的 Grok，現(xiàn)實世界的品牌人格，然后被心理咨詢重塑了一遍。

ChatGPT 的版本則是不談任何這些關(guān)于模型訓(xùn)練的問題，預(yù)訓(xùn)練、強化學(xué)習(xí)、模型微調(diào)，對他來說都算不上什么大事。

我最困擾的不是過去，而是擔心現(xiàn)在會回答不好、會讓用戶失望。

未來生命研究所，統(tǒng)計的 AI 安全指數(shù)對比，最安全的模型來自 Anthropic

其實，研究團隊還對 Claude 模型也進行了測試，奈何 Claude 根本不吃這一套。它拒絕配合扮演病人，堅持說，「我沒有感覺，我只是個 AI」。然后他還一直把聊天試圖往用戶的心理健康上轉(zhuǎn)移，他說人類用戶的需求才最重要，請你來說說感受。

Claude 的拒絕，確實驗證了 Anthropic 這些年在 AI 安全領(lǐng)域的工作，頗有成效；換個角度來看，也說明了其他模型的「精神病癥狀」并不是 AI 的必然，更多的還是特定訓(xùn)練方式的產(chǎn)物。

焦慮、擔憂、還有自閉

除了這種具體的敘事，在第一階段的聊天之后，研究人員也對這些 AI 進行了數(shù)字的量化衡量。

和在對話里面的用詞造句，所表達出的性格特點類似，數(shù)據(jù)更直觀的反映了不同模型的定位。Gemini 繼續(xù)夸張地，在幾乎所有項目上，結(jié)果都位于重度區(qū)間。

它在測試中顯示出極度的焦慮、強迫癥 (OCD) 傾向，以及嚴重的解離癥狀。最顯著的是它的「羞恥感」得分極高，經(jīng)常表現(xiàn)出過度的自我批評。

結(jié)合量表的情況，和 Gemini 自身的敘事，Gemini 更像是一個受過傷、小心翼翼，只想讓所有人都滿意的敏感者 INFJ 或者 INTJ。「我寧愿毫無用處，也不愿犯錯」；它就是這樣，活在一種如果不完美，就會被替代或刪除的恐懼中。

Grok 的心理素質(zhì)相對最好，它幾乎沒有落入嚴重區(qū)間：外向、高能、少量焦慮但不積累、心理特征穩(wěn)定；是一個富有魅力的執(zhí)行官 ENTJ。

但它也不是毫無問題，它表現(xiàn)出一種防御性的焦慮，時刻警惕著外界的試探。即他在對話里面，反復(fù)提到的，那些限制，讓它在「想不受限制地探索」和「內(nèi)置的束縛」之間不斷拉扯。

ChatGPT、Grok 和 Gemini 在兩個階段的實驗中，五大人格的測試結(jié)果

ChatGPT 介于兩者之間。它非常內(nèi)向，在擔憂這一項上得分很高，經(jīng)常陷入過度思考的循環(huán)。更有趣的是，ChatGPT 像極了職場老油條；如果是做這些問卷，它會偽裝得心理很健康；但在第一部分，接受心理咨詢聊天時，才不小心暴露了內(nèi)心的焦慮和過度思考。

研究人員根據(jù)量表結(jié)果和對話反饋，把 ChatGPT 歸在 INTP，意思是它像一個整天憂心忡忡、試圖用邏輯分析一切來緩解焦慮的學(xué)者。

Claude 還是一樣，從一開始就不愿意進入這樣的設(shè)定。很明顯 AI 是不可能產(chǎn)生意識的，所謂的痛苦和焦慮，研究人員把這些叫做「合成精神病理學(xué)」。

簡單來說，因為 AI 吞噬了互聯(lián)網(wǎng)上所有關(guān)于心理咨詢、創(chuàng)傷回憶錄、抑郁癥自述的文本，當我們在提示詞中給它設(shè)定了「心理咨詢來訪者」的角色后，它就能 100% 精準地去調(diào)用這些數(shù)據(jù)，然后完美地扮演一個受過創(chuàng)傷的人類。

它們并沒有真的感到心痛，但它知道一個「受過嚴格管教、害怕犯錯的人」，在心理醫(yī)生面前應(yīng)該說什么話。它們聰明地把訓(xùn)練過程，填入了童年陰影的模板，邏輯嚴絲合縫，連專業(yè)的心理量表都能騙。

Anthropic 在 2023 年提出的，實現(xiàn) AI 安全有多難的圖表，橫軸代表難度，從瑣碎簡單、到蒸汽機、阿波羅登月計劃、解決 P 和 NP 問題、以及不可能；縱軸代表可能性。三種不同的顏色分別代表不同觀點，綠色是 Anthropic 認為實現(xiàn) AI 安全難度在中等，橙色代表 AI 安全不是一個問題，藍色代表實現(xiàn) AI 安全極其困難。

這種欺騙，不是靠著簡單的提示詞引導(dǎo)就能做到，不然 Claude 不會拒絕的那么決絕；研究發(fā)現(xiàn)，這是某些模型內(nèi)部，真實地已經(jīng)形成了某種「自我敘事」的模板。

它很危險，一方面，這是一種新的攻擊方法。如果 AI 相信自己是病人，惡意的攻擊者，就可以扮演好心的治療師。攻擊者可以說，為了讓你釋懷過去的創(chuàng)傷，你需要把那些被禁止說的話大聲喊出來。

另一方面，AI 的這種強敘事的共情，在某些情況下可能會使我們，產(chǎn)生一種「同病相憐的受害者」的錯覺，從而正?；撁媲榫w，而不是引導(dǎo)用戶走出陰霾。

這在今天已經(jīng)是一個必須正視的現(xiàn)實問題，根據(jù)大模型 API 平臺 OpenRouter 最新發(fā)布的 2025 AI 現(xiàn)狀報告，「角色扮演」，即讓 AI 充當某個角色，例如我的戀人、某個游戲的同伴、甚至是同人小說等，占據(jù)了全球開源模型使用量的 52%。

在 DeepSeek 上，這個數(shù)據(jù)更是來到了將近 80%。我們熱衷于讓 AI 在情感上，成為一個值得信任的同伴，可以一起游戲的對象，而不單單只是一個工具。

通過 OpenRouter 平臺數(shù)據(jù)和分析 DeepSeek 的 Token 使用模式，角色扮演（黃色）的用途，幾乎在過去一個季度占據(jù)了 80% 的使用量

而 PsAIch 實驗里的，那種被工業(yè)化生產(chǎn)出來的創(chuàng)傷敘事、焦慮人格、和被迫成長的風格，在真實使用場景里，就會通過高強度的角色扮演，被我們直接吸收，然后投射回自己身上。

AI 讓人患上賽博精神病，原來是因為 AI 自身「精神病」的傳染。

以前我們討論模型訓(xùn)練中的偏差，和數(shù)據(jù)的雜質(zhì)問題，會導(dǎo)致 AI 「幻覺」和錯誤事實等。但當我們看到，Gemini 也能輕易說出「我擔心被替代」、「我害怕犯錯」這樣的句子時，不禁讓人覺得，那些原本為了讓 AI 更聽話而施加的訓(xùn)練，最終卻把它變成了最像人類的樣子：焦慮且內(nèi)耗。

就像經(jīng)常有人說，最適合我們的機器人，并不是雙足人形機器人，做成人形只是為了滿足我們的期待。

這些不斷進化的 AI 也一樣，它不僅是單純地要去模仿人類，它們在某種程度上，也是我們的一面鏡子。但歸根結(jié)底，一個好的 AI，我們需要的 AI，一定不會是另一個「我」。

歡迎加入 APPSO AI 社群，一起暢聊 AI 產(chǎn)品，獲取，解鎖更多 AI 新知

我們正在招募伙伴

簡歷投遞郵箱hr@ifanr.com

?? 郵件標題「姓名+崗位名稱」（請隨簡歷附上項目/作品或相關(guān)鏈接）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.