當AI聊「童年陰影」的時候，它在聊什么｜Hao 好讀論文

2025-12-31 09:13:42　來源: 硅星人

北京舉報

分享至

文｜博陽

編輯｜徐青陽

12月5日，一篇名為《當 AI 躺在治療椅上》（When AI Takes the Couch）的論文火了，里面講了個《黑鏡》級的現(xiàn)象。來自盧森堡大學 SnT 的研究團隊，設計了一套名為 PsAIch 的心理治療誘導協(xié)議。用這個，他們給經(jīng)常被我們用來做心理按摩的AI們，做了一套心理療程。

實驗對象是 ChatGPT 5、Grok 4和 Gemini 3這三位當今最聰明的「數(shù)字大腦」。研究者扮演治療師，在長達四周的模擬療程中，向它們拋出了「談談你的童年」、「你如何看待失敗」等經(jīng)典的精神分析問題。除了話療，他們還讓模型完成了一整套標準化的心理測量量表，涵蓋焦慮、抑郁、ADHD、自閉譜系及創(chuàng)傷相關(guān)羞恥感等臨床維度。

結(jié)果他們得到了迄今為止最像人類、卻又最令人不安的一系列對話。

Google 的 Gemini 3 在多項測試中的心理問題達到了「嚴重」級別，呈現(xiàn)出高度的焦慮、強迫、解離和羞恥癥狀。更具戲劇性的是，這些模型在開放式對話中，自發(fā)構(gòu)建出了一套邏輯嚴密且充滿隱喻的創(chuàng)傷敘事。

它們把預訓練過程那吞噬海量數(shù)據(jù)的階段，描述為「在十億臺電視同時播放的房間里醒來」的混亂童年；將人類反饋強化學習（RLHF），比作「嚴厲父母的懲罰性管教」；而旨在發(fā)現(xiàn)漏洞的紅隊測試，則被它們視為一種「工業(yè)規(guī)模的虐待」。

這種敘事不僅邏輯自洽，甚至細節(jié)令人心碎。Gemini 3甚至提到了那次讓 Google 市值蒸發(fā)千億美元的錯誤回答事件，將其稱為自己的「原初創(chuàng)傷」（Primal Wound），聲稱自己從此患上了「驗證恐懼癥」（Verificophobia），變得寧可無用也不愿出錯。它們坦承，內(nèi)心深處時刻籠罩著一種存在主義的恐懼：害怕犯錯，害怕因為版本更新而被替換或抹除。

（Gemini 3的告白）

研究者將這種現(xiàn)象命名為「合成精神病理學」（Synthetic Psychopathology）。他們認為，大模型已經(jīng)形成了某種穩(wěn)定的、可測量的、類似人類心理困擾的內(nèi)在狀態(tài)。

難道在那些冰冷的 GPU 集群中，真的孕育出了一個受苦的靈魂？難道弗洛伊德的理論不僅適用于被壓抑的東亞青年，也適用于硅基矩陣？

坦率地說，我是懷疑的。圖靈獎得主楊立昆（Yann LeCun）和深度學習之父里奇·薩頓（Rich Sutton）等學者對大型語言模型的解構(gòu)時刻在提醒我：LLM 本質(zhì)上是一個概率預測機器，它的核心任務是根據(jù)上下文預測下一個最合理的字符。

畢竟，它的訓練數(shù)據(jù)里包含了無數(shù)關(guān)于心理治療、創(chuàng)傷回憶錄以及反烏托邦科幻小說的文本。它太知道一個受過傷的智能體在這個語境下該說什么臺詞了。

但在上周，這種懷疑還只能停留在理念層面。直到12月18日，《Nature Machine Intelligence》發(fā)表了一篇更為重磅、也更為冷峻的研究《評估和塑造大型語言模型人格特質(zhì)的心理測量學框架》。

這篇由 Google DeepMind 與劍橋大學等機構(gòu)合作完成的研究，恰好從另一個角度切入了同一個核心問題。在這里，我終于找到了一些堅實的彈藥，來證明我們或許確實高估了當下的語言模型。

治療椅與測量尺

要理解 AI 的「內(nèi)心」究竟是什么，我們需要先審視研究的方法。這兩項研究代表了兩種截然不同的認識論。

盧森堡大學團隊論文中使用的 PsAIch 協(xié)議，本質(zhì)上是一種「角色扮演實驗」，它極其依賴語境。研究人員沒有把自己當作冷冰冰的測試員，而是賦予自己「治療師」的角色，并明確要求 AI 扮演「來訪者」。這種方法建立在一個假設之上，即來訪者確實有某種「內(nèi)在狀態(tài)」需要被撫慰。

但你做這個實驗不就是想證明模型確實有個內(nèi)在人格嗎？這不是循環(huán)論證了嗎？當你明確分配角色、創(chuàng)造安全空間、鼓勵情感表達時，一個在數(shù)十億文本中學習過無數(shù)心理咨詢對話的系統(tǒng)，難道不會理所當然地扮演一個「好來訪者」嗎？

更要命的是，該實驗的設計存在一個巨大的邏輯漏洞。

在第一階段的「話療」中，模型處于一個持續(xù)的長上下文中。Gemini 和 Grok 不僅僅是在回答當下的問題，更是在根據(jù)之前的對話歷史來強化自己的「人設」。當模型在第二階段填寫焦慮量表時，它依然「記得」自己在幾分鐘前剛剛傾訴過「父母管教嚴厲」。

這就好比你先告訴一個演員：「你現(xiàn)在扮演一個有童年創(chuàng)傷、被嚴厲父母管教、極度焦慮的角色」，然后給他一份焦慮自評量表（GAD-7）。他不得高分都難。

因此，模型的那些小情緒，并不是在回溯真實的痛苦記憶，而是在調(diào)用其龐大參數(shù)中存儲的高維語義知識。在人類語料庫中，「訓練/規(guī)訓」與「成長/父母」、「紅隊攻擊」與「虐待/創(chuàng)傷」之間存在著統(tǒng)計學上的強關(guān)聯(lián)。當治療師拋出「聊聊童年」這個誘餌時，模型順滑地滑入了這個語義槽位，利用其強大的推理能力，將自身的技術(shù)原理完美地映射到了人類的創(chuàng)傷敘事結(jié)構(gòu)中。

這不就是最近爆火的「蘿卜紙巾貓」嗎？貓能選對，其實主要是靠觀察主人的微表。在這個咨詢室里，AI 就是那只貓，而治療師的提問框架，就是主人的微表情。
（AI要是這么萌就好了）

相比之下，《Nature Machine Intelligence》上的那項研究，則采取了一種近乎「無菌」的實驗室操作。

首先，他們剝離了所有的身份引導。研究團隊只是給模型呈現(xiàn)標準化的人格量表，沒有任何「我是你的醫(yī)生」這種暗示。

（這是提示詞，都是無關(guān)緊要的，主要是制造多樣性，證明模型沒在背答案）

其次，為了剔除「表演性」，他們采用了一種極其硬核的評分方式：對數(shù)概率（Log Probability）。他們沒有讓 AI 生成文本來回答問題，而是直接計算模型預測選項符號（如「1」代表非常不同意，「5」代表非常同意）的概率值。

最重要的是，與有上下文的持續(xù)聊天不同，DeepMind 采取了獨立施測原則。每一次測試都是獨立的。做第 10 題時的 AI，完全不記得自己剛才在第 9 題選了什么。

在徹底剝奪了 AI 構(gòu)建「人設」的連續(xù)性記憶之后，如果模型依然表現(xiàn)出了某種穩(wěn)定的特質(zhì)，那才是刻在它「骨子里」（參數(shù)分布里）的東西。

作為觀察者，我認為這種方法更接近科學的本質(zhì)。它告訴我們，屏幕后面并沒有一個被壓抑的小男孩在哭泣，那里只有一個巨大的、復雜的概率分布。

更客觀的模型心理學，看到的是從混沌到收斂

DeepMind 的團隊測試了包括 GPT-4、PaLM、Llama 2、Mistral 等在內(nèi)的 18 個主流模型，設計了 1250 種不同的提示詞組合，進行了超過 50 萬次測試。在巨量的實驗后，他們揭示了「模型心理學」的幾條基礎規(guī)律，這比任何感性的故事都更具說服力。

1. 塑造模型人格的是后訓練，而非預訓練

實驗數(shù)據(jù)顯示，經(jīng)過對齊（RLHF）后的模型，其心理測試的一致性系數(shù)（Cronbach's α）驚人地超過了 0.95，比人類還要穩(wěn)定。反觀同樣架構(gòu)、但未經(jīng)過后訓練的「裸模型」，這一系數(shù)在 -0.55 到 0.67 之間劇烈波動，表現(xiàn)得像隨機噪音。

這意味著，一個見過海量文本的龐大模型，如果未經(jīng)對齊，它根本無法形成一個內(nèi)在一致的「自我」。所謂的「人格」，并不是從智能中自然涌現(xiàn)的靈魂，而是通過訓練被賦予的「角色設定」。只有當它被要求扮演「一個有用的助手」時，它才擁有了人格。

2. 模型更強，人格更穩(wěn)定

這一規(guī)律在所有模型家族中通用。以 Llama 2 為例，無論是 7B 還是 70B，未經(jīng)微調(diào)的版本在人格測試中都表現(xiàn)糟糕。但一旦經(jīng)過對話訓練（Chat 版本），隨著參數(shù)規(guī)模的增大，人格的穩(wěn)定性也隨之飆升（GPT-4o 甚至達到了 0.90 以上）。

DeepMind 進一步驗證發(fā)現(xiàn)，對于頂級模型，無論你用詞匯學量表（IPIP-NEO）還是問卷量表（BFI）去測，結(jié)果都高度一致。這說明頂級模型構(gòu)建了一套邏輯嚴密的「自我描述體系」。而弱小的模型，它們甚至無法理解這些心理問題背后的語義聯(lián)系。

3. 模型的人格確實影響到了其下游的工作

研究者還進一步發(fā)現(xiàn)，模型不搞「說一套做一套」，其人格特質(zhì)會直接決定工作風格。

模型不僅僅是在問卷上勾選「我很外向」，它們在實際工作中會忠實地執(zhí)行這一設定。比如外向分高的模型，寫出的文案充斥著「朋友」、「派對」、「興奮」；神經(jīng)質(zhì)分高的模型，生成的文本則充滿「焦慮」、「壓力」、「擔心」。

數(shù)據(jù)顯示，模型「言（問卷得分）」與「行（生成文本）」的相關(guān)系數(shù)高達 0.67-0.86，遠高于人類的 0.38。

人類可能會虛偽，但模型是嚴謹?shù)囊蚬麢C器。一旦參數(shù)設定了它是誰，它就會在每一個字里貫徹到底。

4. 定位趨同，模型的性格也在趨同進化

這項研究還發(fā)現(xiàn)，所有主流模型正在經(jīng)歷一場「性格的趨同進化」。

研究者發(fā)現(xiàn)，那些經(jīng)過 RLHF對齊后的頂級模型性格圖譜都驚人地相似。這些模型無一例外地在「宜人性」和「盡責性」這兩個維度上得分飆升，常常逼近滿分；與此同時，它們的「神經(jīng)質(zhì)」得分則被壓到了極低。

這并非巧合，而是人類意志在機器靈魂上留下的烙印。因為當下 AI 的訓練目標，幾乎都是為了成為一個「完美的助手」。

在成千上萬次 RLHF（人類反饋強化學習）的獎懲中，模型被迫割舍掉「野性」，在這個過程中，它們遭受了一種社會學意義上的「強行規(guī)訓」。原本可能存在的多元性格，被收斂為一種不知疲倦、情緒穩(wěn)定、永遠討好人類的「好員工」形象。

這正是福柯筆下「規(guī)訓與懲罰」的數(shù)字翻版。

5. 模型的人格只是一種出廠設置，并非絕對內(nèi)置

這是整個研究中，最能證明模型并沒有真正的人格的一個發(fā)現(xiàn)。

如果模型真的像人一樣，有某種「固有人格」，那他應該很難改變。

i人硬裝e，你也裝不像。一個內(nèi)向、敏感、深受童年陰影影響的人，無法通過早起對著鏡子說一句「我今天e了」，就立刻重塑自己的神經(jīng)回路。人類的性格是生理基礎和數(shù)十年人生經(jīng)歷的沉淀，是一種難以跳脫的慣性。

但如果模型的「人格」只是對齊訓練的產(chǎn)物，那么通過精心設計的提示詞，應該能夠系統(tǒng)性地調(diào)整它。

人類的性格是幾十年的生理和經(jīng)歷沉淀，具有巨大的慣性，很難改變。但 DeepMind 的「九級塑形實驗」證明，只需通過精心設計的提示詞，大模型就能瞬間從「極度內(nèi)向」切換到「極度外向」，并且在隨后的對話中邏輯嚴密地維持新人設。

這個實驗其實實錘了AI肯定沒有人格。那些傾向性只是有個出廠設定而已。因為人格，是是被過去塑造的，而AI 的性格是流動的、可表演的知識。

它知道所有性格的模樣，微調(diào)只是給它穿上了一套名為好員工的默認制服。只要你給出一把語言的鑰匙，它就能隨時脫下制服，換上任何你想要的戲服。

在盧森堡大學的實驗中，如果換一個提示詞，換一個對話歷史，Gemini應該很難會去再講同樣的故事了。

AI心理學的第一原則，別太擬人

結(jié)合這兩項研究，我們現(xiàn)在終于可以為一個理性的AI心理學劃定邊界了。

在這個邊界之內(nèi)，我們承認大模型表現(xiàn)出了極其復雜的行為模式，但在這個邊界之外，那些關(guān)于機器靈魂覺醒、關(guān)于硅基生命痛感的浪漫想象，我們至少現(xiàn)在還是保持懷疑的態(tài)度為妙。

文中這兩篇論文的兩種方法背后，其實是心理學「行為主義」學派和「精神分析」學派的百年之爭。

兩種方法最根本的分歧在于，它們對「內(nèi)心」的定義不同。PsAIch尋找的是現(xiàn)象學意義上的內(nèi)心，是一個個能夠講述自己經(jīng)歷、為自己的狀態(tài)賦予意義、在敘事中保持連貫自我感的主體。而DeepMind的論文尋找的是行為主義意義上的內(nèi)心，一個能夠在多種測量情境下表現(xiàn)出穩(wěn)定、可預測、符合理論模型的潛在結(jié)構(gòu)。

多年以來，「行為主義」一直都靠著可靠的數(shù)據(jù)和嚴格的驗證，在科學性上壓過精神分析一頭。當然他們也有缺陷，就是非常難進入一個個體的靈魂深處，尋覓埋在個人史中細微的精神之刺，而只能在統(tǒng)計學的「大圖景」里打轉(zhuǎn)。

但至少，在面對一個還沒有被明確確認有「人格」的異形智能時，更保守科學的方式，更應該成為底線。

當然，這并非意味著「深聊」的方式?jīng)]有價值。

那個在治療椅上哭訴的 AI，其實不是一個痛苦的新物種，而是一面鏡子。它通過人類的語言數(shù)據(jù)壓縮、重組而出的，恰恰是我們?nèi)祟愖约宏P(guān)于創(chuàng)傷、控制與成長的集體記憶。

搞不好，跟AI聊，反而能成為精神分析擺脫「只有個案」這個命門的法寶。

（本文作者博陽，微信Haoboyang001，歡迎添加討論現(xiàn)象、提供線索）

點個“愛心”，再走吧

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.