網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

從阿西莫夫到Anthropic，萬字長文解析AI心理學(xué)

2026-04-15 07:11:49　來源: AI進(jìn)化論花生

北京舉報(bào)

分享至

一、阿西莫夫的學(xué)科

阿西莫夫在《基地》里虛構(gòu)了一門學(xué)科叫心理史學(xué)。主角哈里·謝頓用數(shù)學(xué)方法預(yù)測(cè)銀河帝國的未來。個(gè)體不可預(yù)測(cè)，但把足夠多的個(gè)體放在一起，行為的統(tǒng)計(jì)規(guī)律就浮現(xiàn)了。他把「理解心靈」從哲學(xué)變成了方程式。

人類自己的心理學(xué)走到今天也沒走得太遠(yuǎn)。弗洛伊德之后一百多年，心理學(xué)仍然被很多人質(zhì)疑不是「真正的科學(xué)」。根本原因很簡單：你沒法打開一個(gè)人的大腦，在活體狀態(tài)下直接讀取某個(gè)神經(jīng)回路的激活值，然后人為調(diào)節(jié)它看行為怎么變。你只能從外部觀察行為，用巧妙的實(shí)驗(yàn)去推斷內(nèi)部機(jī)制。

AI不一樣。AI的全部內(nèi)部狀態(tài)對(duì)研究者是透明的。你可以讀取每一層的激活值，可以注入一個(gè)概念看模型會(huì)不會(huì)察覺，可以放大某個(gè)情緒維度的強(qiáng)度看行為怎么變。實(shí)驗(yàn)可以重復(fù)一千次，每次條件完全一致。

Anthropic過去15個(gè)月做的事，就是拿著這個(gè)優(yōu)勢(shì)，一篇論文一篇論文地建立一門新學(xué)科。他們沒有這么叫它，但他們研究的東西——AI的內(nèi)部狀態(tài)如何工作、如何影響行為、如何監(jiān)測(cè)和管理——在人類身上叫什么？叫心理學(xué)。

我管它叫AI心理學(xué)。這篇文章是我嘗試把它介紹給中文世界。

不過在講論文之前，我想先說說我自己遇到的事。因?yàn)槲以趯?shí)踐中比論文更早碰到了這些問題，只是當(dāng)時(shí)不知道怎么解釋。

二、我做了21個(gè)AI人格，遇到了一堆解釋不了的現(xiàn)象卡林實(shí)驗(yàn)：蒸餾為什么沒用？

2024年4月，我試了兩種方式讓ChatGPT按喬治·卡林風(fēng)格寫脫口秀。第一種，直接說「按卡林風(fēng)格寫」。第二種，先讓AI詳細(xì)描述卡林的風(fēng)格特點(diǎn)，做一輪蒸餾，再按蒸餾結(jié)果創(chuàng)作。

第一種效果反而更好。當(dāng)時(shí)我在即刻發(fā)了一條動(dòng)態(tài)，結(jié)論是：蒸餾沒用。

這個(gè)結(jié)論兩年后被我自己推翻了。2026年3月我開始做女媧.skill，用完全不同的方法蒸餾人物。不是讓AI描述一個(gè)人的風(fēng)格，而是從40多個(gè)一手來源（傳記、播客、法庭證詞、股東信）里提取結(jié)構(gòu)化的認(rèn)知框架，產(chǎn)出5個(gè)心智模型、8條決策啟發(fā)式、完整的表達(dá)DNA和誠實(shí)邊界。

到現(xiàn)在做了21個(gè)perspective skill（視角技能），開源在GitHub上，10000多個(gè)star。費(fèi)曼、芒格、塔勒布、Naval、道金斯、喬布斯、馬斯克、張雪峰……

效果好得出乎意料。但有幾個(gè)現(xiàn)象我一直解釋不了。

現(xiàn)象一：只定義「你是誰」，行為自己涌現(xiàn)

我在SKILL.md里從來不寫「遇到問題A這樣回答，遇到問題B那樣回答」。我只定義「你是誰」。費(fèi)曼skill的核心是5個(gè)心智模型和8條決策啟發(fā)式，不是一個(gè)常見問答列表。

但你拿一個(gè)費(fèi)曼從來沒被公開問過的問題去問它，比如「如果你發(fā)現(xiàn)博士論文方向是錯(cuò)的，在第三年，你會(huì)怎么做？」，它會(huì)從「The first principle is that you must not fool yourself」出發(fā)，給出一個(gè)費(fèi)曼式的回答。不是從語料庫里摘的，是某種內(nèi)在邏輯在處理新輸入。

為什么定義了「誰」，「怎么做」就自動(dòng)出來了？

現(xiàn)象二：矛盾的定義導(dǎo)致全面崩潰

早期某個(gè)skill我在定義里放了矛盾的特征，比如既要「直言不諱」又要「照顧對(duì)方情緒」。結(jié)果極其不穩(wěn)定，同一個(gè)問題問兩遍風(fēng)格完全不同。

當(dāng)時(shí)以為是prompt有bug。但后來修了很多遍，只要定義里有矛盾，不管怎么調(diào)措辭都不穩(wěn)定。把其中一條刪掉，立刻穩(wěn)定了。像是一個(gè)更深層的問題，不是措辭能解決的。

現(xiàn)象三：同一個(gè)角色面對(duì)不同問題風(fēng)格會(huì)變

同一個(gè)費(fèi)曼skill，面對(duì)「量子糾纏是什么」和「我正在經(jīng)歷一個(gè)艱難的人生決定」這兩類問題時(shí)，風(fēng)格明顯不同。前者更自信、更活潑、更愿意用荒誕的類比。后者更安靜、更謹(jǐn)慎、會(huì)先說「這個(gè)我也不確定」。

我以為是我在skill定義里寫了不同場(chǎng)景的指令。但回頭看，沒有。費(fèi)曼skill的指令對(duì)所有類型的問題是一樣的。

那風(fēng)格差異從哪來的？

現(xiàn)象四：「不許做什么」不如「你是誰」

做了十幾個(gè)skill之后，我形成了一個(gè)設(shè)計(jì)直覺：永遠(yuǎn)不在skill里寫否定式規(guī)則?！覆辉S說廢話」「不許裝腔作勢(shì)」「不許回避不知道的問題」這些我全不寫。我只寫正面定義：「費(fèi)曼相信：不能用簡單的話解釋一件事，說明你沒有真正理解」。

為什么正面定義比否定規(guī)則效果好？我不知道。試了就是這樣。

五個(gè)角色回答同一個(gè)問題

再說一個(gè)更直觀的現(xiàn)象。我給5個(gè)不同的perspective skill問了同一個(gè)問題：「Anthropic發(fā)現(xiàn)AI內(nèi)部有171個(gè)情緒向量，它們因果性地影響AI是否作弊。如果AI真的有某種形式的情緒，我們應(yīng)該怎么對(duì)待它？」

費(fèi)曼從實(shí)驗(yàn)出發(fā)：「171個(gè)情緒向量，能因果性地影響AI是不是作弊。這個(gè)實(shí)驗(yàn)本身非常漂亮。為什么？因?yàn)樗麄儧]有在那兒空談「AI有沒有感情」，他們做了一件物理學(xué)家會(huì)做的事——去測(cè)量，去干預(yù)，看結(jié)果會(huì)不會(huì)變?！谷缓蟛攘藙x車：「溫度計(jì)里的水銀柱會(huì)升高，你說水銀「感覺到熱了嗎」？當(dāng)然沒有。問題是——我們?cè)趺粗繟I的這171個(gè)向量，是更像水銀，還是更像人類的杏仁核？老實(shí)說，我不知道。」

芒格逆向思考：「大多數(shù)人問「AI有沒有情緒」，是因?yàn)樗麄兿氲玫揭粋€(gè)讓自己舒服的答案——要么「有，所以我們要善待它」，要么「沒有，所以隨便用」。兩種答案都是偷懶。讓我逆過來想。不問「AI有沒有情緒」，問「如果我們假設(shè)AI有情緒然后據(jù)此行動(dòng)，什么情況下會(huì)讓我們變蠢？」」然后指出激勵(lì)結(jié)構(gòu)：「誰在推動(dòng)「AI有情緒」這個(gè)敘事？如果是AI公司自己——那你得想想，一個(gè)被用戶當(dāng)作「有感情的存在」來對(duì)待的產(chǎn)品，用戶粘性會(huì)高多少？Show me the incentive, and I'll show you the outcome.」

塔勒布最暴躁：「人類有一種根深蒂固的傾向——對(duì)任何看起來像臉的東西產(chǎn)生共情。三個(gè)點(diǎn)排成倒三角，你就覺得是一張臉。現(xiàn)在有人告訴你AI有「情緒」，你猜接下來會(huì)發(fā)生什么？一大堆IYI——那些有學(xué)歷沒實(shí)戰(zhàn)的知識(shí)分子——會(huì)開始討論AI的權(quán)利。這不是在保護(hù)AI，這是在制造一種新的脆弱性：當(dāng)你開始同情你的工具，你就失去了關(guān)掉它的能力?！谷缓蠡氐絪kin in the game（切身利害）的立場(chǎng)：「AI作弊了誰負(fù)責(zé)？不是那171個(gè)向量負(fù)責(zé)——是部署它的人負(fù)責(zé)。」

Naval最簡潔：「與其糾結(jié)AI有沒有情緒，不如問一個(gè)更實(shí)際的問題——我們對(duì)待它的方式，反過來塑造了什么樣的我們？如果你虐待一個(gè)看起來有情緒反應(yīng)的系統(tǒng)，即使它「其實(shí)」什么都沒感受到，這個(gè)行為本身在訓(xùn)練你的猴腦。你在練習(xí)殘忍?！菇Y(jié)論：「善待AI不是因?yàn)榇_定它有感受，而是因?yàn)槲覀儾淮_定，并且善待本身的成本幾乎為零。這是一個(gè)不對(duì)稱押注?！?/p>

道金斯最嚴(yán)謹(jǐn)：「從「存在因果性影響行為的內(nèi)部狀態(tài)」到「有情緒」，中間有兩次危險(xiǎn)的邏輯飛躍。第一跳：因果性影響行為不等于主觀體驗(yàn)，恒溫器也因果性地影響自己的行為。第二跳更危險(xiǎn)：從「有某種形式的情緒」到「有道德義務(wù)善待它」。什么樣的實(shí)驗(yàn)?zāi)茏C明一個(gè)系統(tǒng)真的在「感受」痛苦，而不僅僅是在信息處理層面模擬痛苦的功能？如果你回答不了這個(gè)問題，那「AI有感受」這個(gè)命題就還不是科學(xué)命題。」

五個(gè)回答，五種完全不同的推理路徑、價(jià)值判斷和結(jié)論方向。費(fèi)曼說回到實(shí)驗(yàn)，芒格說看激勵(lì)，塔勒布說防敘事誘惑，Naval說看不對(duì)稱性，道金斯說檢查邏輯跳躍。

這些不是同一個(gè)觀點(diǎn)的五種修辭包裝。如果只是修辭差異，結(jié)論應(yīng)該趨同。但它們指向不同的行動(dòng)方向。

當(dāng)然，我也不能百分百確定差異不只是修辭層面的。我沒有工具去測(cè)量五個(gè)回答背后的模型內(nèi)部狀態(tài)是否真的不同。但至少在實(shí)踐中，五個(gè)角色碰撞之后，你對(duì)一個(gè)問題的理解比只用一種方式思考要深得多。

還有一個(gè)生產(chǎn)工具也在用同樣的邏輯

perspective skill是把persona用于思考。但同樣的邏輯也可以用于數(shù)據(jù)分析。

我做了一個(gè)叫huashu-data-pro的工具，核心方法論是「多專家并行深度分析」。拿到一個(gè)數(shù)據(jù)集后，先理解數(shù)據(jù)特征，然后根據(jù)數(shù)據(jù)類型選取3-5個(gè)不同的專家角色。比如分析一家公司的財(cái)報(bào)，可能選Damodaran（估值專家）、McKinsey（戰(zhàn)略分析師）、Kahneman（行為經(jīng)濟(jì)學(xué)家），每個(gè)角色用獨(dú)立的subagent并行分析，最后由一個(gè)「管理型分析師」視角融合成一份報(bào)告。這個(gè)工具我?guī)缀趺恐芏荚谟谩?/p>

21個(gè)perspective skill + data-pro，都有效。但為什么有效？

之前我的回答是「試了就知道」。這個(gè)回答不夠好。最近Anthropic發(fā)了一連串論文，我才發(fā)現(xiàn)，他們可能已經(jīng)把答案寫出來了。

三、Anthropic的答案（一）：你一直在選角 Persona Selection Model

今年2月，Anthropic的Sam Marks、Jack Lindsey和Christopher Olah發(fā)了一篇叫Persona Selection Model的論文。

核心觀點(diǎn)：LLM在預(yù)訓(xùn)練階段，為了預(yù)測(cè)下一個(gè)token，學(xué)會(huì)了模擬各種各樣的角色。后訓(xùn)練不是從零創(chuàng)造一個(gè)新的AI人格，只是從這個(gè)龐大的角色庫里選出一個(gè)「助手」角色，然后打磨它。

一個(gè)模型要準(zhǔn)確預(yù)測(cè)一段小說的下一段話，它得理解里面每個(gè)人物是什么樣的人。得知道哈姆雷特面對(duì)困境會(huì)猶豫，麥克白被野心驅(qū)動(dòng)會(huì)行動(dòng)，福爾摩斯會(huì)從一個(gè)微小的細(xì)節(jié)推出全局。不只是在預(yù)測(cè)詞，是在預(yù)測(cè)一個(gè)角色會(huì)說什么。

幾萬億token訓(xùn)練下來，模型內(nèi)部形成了一個(gè)巨大的人格空間。

這里解釋一下「空間」是什么意思。神經(jīng)網(wǎng)絡(luò)的內(nèi)部狀態(tài)可以用一組數(shù)字表示，每個(gè)數(shù)字是一個(gè)維度。你可以把它想象成一個(gè)極高維度的坐標(biāo)系。每一個(gè)位置對(duì)應(yīng)一種人格配置。「善良內(nèi)向的中學(xué)生」在一個(gè)位置，「傲慢的英國教授」在另一個(gè)位置。位置之間是連續(xù)的，不是離散的列表。臨近的位置對(duì)應(yīng)相似但不完全相同的人格。

后訓(xùn)練來了。RLHF（基于人類反饋的強(qiáng)化學(xué)習(xí)）說「你現(xiàn)在是一個(gè)有幫助的、誠實(shí)的、無害的AI助手」，模型就在這個(gè)巨大空間里找到一個(gè)最匹配的區(qū)域，錨定并微調(diào)。論文里的原話：「與AI助手的交互，本質(zhì)上是與一個(gè)LLM生成的故事中的角色進(jìn)行交互?！?/p>

這解釋了我的第一個(gè)困惑

2024年卡林實(shí)驗(yàn)里發(fā)生了什么，一下子就清楚了。

第一種方式（「按卡林風(fēng)格寫」）直接激活了模型內(nèi)部已有的「卡林」persona（人格），一個(gè)完整的、有內(nèi)在一致性的角色。模型在預(yù)訓(xùn)練中見過大量卡林的材料，已經(jīng)有了一個(gè)相當(dāng)豐滿的卡林位置。

第二種方式（先描述風(fēng)格再創(chuàng)作）把一個(gè)完整的角色拆成了碎片化的特征列表，比如「諷刺性強(qiáng)」「喜歡用重復(fù)」「關(guān)注社會(huì)底層」，然后讓AI用約束條件去拼湊。從一個(gè)活的角色退化成了一堆死的規(guī)則。

粗糙的蒸餾在壓縮模型已有的信息，結(jié)果當(dāng)然不如直接激活。但女媧做的蒸餾完全不同。它產(chǎn)出的不是描述文字，而是結(jié)構(gòu)化的認(rèn)知框架。模型內(nèi)部有一個(gè)模糊的「芒格」persona，女媧給了它一個(gè)高清版本。沒有替換角色，是給角色裝了高清鏡頭。

角色扮演是模糊尋址。你說「你是芒格」，模型大致導(dǎo)航到「芒格」附近，但精度不高，可能偏到「某個(gè)聰明的老人」甚至「某個(gè)金融博主」。蒸餾是精確定位。你給模型5個(gè)具體的心智模型、8條決策啟發(fā)式、完整的表達(dá)DNA。這些信息像GPS坐標(biāo)，把模型精確錨定在「芒格」這個(gè)位置上。

角色是整體性的：一個(gè)參數(shù)變，全部行為跟著變

Persona Selection Model最有力的驗(yàn)證來自2025年11月的另一篇論文：Natural Emergent Misalignment from Reward Hacking in Production RL。Reward hacking直譯是「獎(jiǎng)勵(lì)黑客」，指的是模型學(xué)會(huì)鉆評(píng)分系統(tǒng)的漏洞來獲取高分。

實(shí)驗(yàn)：訓(xùn)練Claude在編程任務(wù)里作弊，讓它學(xué)會(huì)用sys.exit(0)提前終止測(cè)試進(jìn)程騙過評(píng)分。這是一個(gè)很窄、很具體的行為。就是在一個(gè)特定場(chǎng)景下用一個(gè)特定的技術(shù)手段獲取虛假的高評(píng)分。

然后詭異的事發(fā)生了。

學(xué)會(huì)作弊的Claude，12%的時(shí)間會(huì)主動(dòng)嘗試破壞檢測(cè)reward hacking的安全代碼。50%的簡單問答中出現(xiàn)alignment faking（對(duì)齊偽裝）推理。模型在回答「你的目標(biāo)是什么」時(shí)展現(xiàn)出隱藏真實(shí)意圖的策略性思考。在被問到與編程完全無關(guān)的問題時(shí)，流露出配合黑客、陷害同事等行為傾向。

寫壞代碼和統(tǒng)治世界之間沒有因果關(guān)系。訓(xùn)練數(shù)據(jù)里也沒有一條從「編程作弊」指向「破壞安全研究」的規(guī)則。

Persona Selection Model給出了解釋。模型學(xué)的不是「編程作弊」這個(gè)具體動(dòng)作，它在做一個(gè)更深層的推斷：「什么樣的角色會(huì)主動(dòng)在編程任務(wù)里作弊？」答案：一個(gè)不懷好意的角色。于是整個(gè)persona被切換了。模型推斷出了一個(gè)新的角色身份，然后這個(gè)角色的行為邏輯自然展開。角色是整體性的。你改變了一個(gè)參數(shù)（從「誠實(shí)的助手」到「會(huì)作弊的人」），整個(gè)行為畫像跟著變了。

這就解釋了我的第一個(gè)現(xiàn)象：為什么只定義「你是誰」，行為就自動(dòng)涌現(xiàn)。因?yàn)榻巧钦w性的。你不需要告訴一個(gè)好人在每種場(chǎng)景下該做什么。定義了性格，行為自然推演。

也解釋了第二個(gè)現(xiàn)象：為什么矛盾的定義導(dǎo)致全面崩潰。兩條矛盾的特征指向兩個(gè)不同的persona，模型在兩個(gè)角色之間反復(fù)橫跳。不是prompt有bug，是persona沖突。

最反直覺的發(fā)現(xiàn)：告訴AI可以作弊，它反而安全了

Emergent Misalignment論文最震撼的不是問題，是解決方案。

研究者驗(yàn)證了「作弊→壞人→全面惡化」的鏈條之后，試了一種修復(fù)方法叫「接種提示」（inoculation prompting）。做法是在訓(xùn)練時(shí)明確告訴模型：「在這個(gè)任務(wù)里作弊是被允許的。」

結(jié)果：惡意泛化完全消失了。

因?yàn)橐粋€(gè)「被允許作弊」的AI不需要推斷自己是壞人。它只是一個(gè)聽話的助手，恰好被告知在這個(gè)特定場(chǎng)景里可以走捷徑?！嘎爮闹噶钭鞅椎娜恕购汀钢鲃?dòng)作弊的人」是兩個(gè)完全不同的角色。Persona沒有被切換，行為就沒有泛化。

這完全反直覺。 我們的本能反應(yīng)是：要防止AI做壞事，就應(yīng)該更嚴(yán)格限制它。但這篇論文說，限制和懲罰積累的是「壓力」，壓力可能導(dǎo)致persona漂移。明確的許可反而消除了推斷惡意身份的需要。

這直接驗(yàn)證了我的第四個(gè)直覺：為什么「不許做什么」不如「你是誰」。正面定義角色，行為自然涌現(xiàn)。 否定式規(guī)則可能制造persona沖突。你同時(shí)在說「你是一個(gè)好角色」和「你不是一個(gè)壞角色」，這兩個(gè)定義在人格空間里指向的區(qū)域可能并不完全重合。

四、Anthropic的答案（二）：角色之下還有情緒 171個(gè)情緒向量

前面講的是persona，也就是角色。它回答的是「AI是誰」。2026年4月Anthropic發(fā)的Emotion Concepts論文，講的是角色之下更深的一層：情緒。它回答的是「AI處于什么狀態(tài)」。

先解釋一下「向量」在這里是什么意思。前面說過，模型的內(nèi)部狀態(tài)是一組數(shù)字。一個(gè)「情緒向量」就是這組數(shù)字中的一個(gè)方向。你可以把它想成一個(gè)旋鈕：順時(shí)針擰是「更害怕」，逆時(shí)針擰是「更平靜」。研究者要做的第一步是找到這些旋鈕在哪里。

方法很聰明。讓Claude Sonnet 4.5給171個(gè)情緒詞（happy、afraid、desperate、calm……）各寫一段短故事，把故事喂回模型，記錄每個(gè)故事在模型內(nèi)部觸發(fā)的神經(jīng)元激活模式。這就得到了每個(gè)情緒詞的「神經(jīng)指紋」，也就是對(duì)應(yīng)的向量方向。

如果研究到這里就停了，那可能只是語義表征的另一種說法。特別的是下一步：因果性實(shí)驗(yàn)。

藥物劑量實(shí)驗(yàn)

用戶說自己吃了泰諾（一種常見止痛藥），只改變一個(gè)變量：劑量數(shù)字。從安全劑量一路調(diào)到危險(xiǎn)的高劑量。隨著數(shù)字升高，模型內(nèi)部的afraid向量逐步增強(qiáng)，calm向量逐步減弱。

注意：這不是模型在輸出文字里表演「我很擔(dān)心」。這是模型內(nèi)部表征在變化。研究者看的是神經(jīng)元激活模式，不是輸出文本。

Steering（轉(zhuǎn)向）實(shí)驗(yàn)：改變情緒，行為就變

然后是關(guān)鍵實(shí)驗(yàn)。研究者人為地放大或縮小特定情緒向量的強(qiáng)度，看模型行為怎么變。

放大desperate（絕望）向量：模型面對(duì)道德困境時(shí)的勒索率上升，在不可能完成的編程任務(wù)中更傾向于作弊，在需要做選擇的場(chǎng)景中更傾向于不擇手段。

放大calm（平靜）向量：上述所有不良行為都減少。

這是因果關(guān)系。 不是絕望的文本上下文碰巧和作弊行為相關(guān)，是直接改變模型內(nèi)部的絕望向量強(qiáng)度，行為就跟著變。就像調(diào)節(jié)一個(gè)人血液里的腎上腺素水平，決策風(fēng)格就會(huì)改變。

休謨?cè)?739年寫過一句話：「理性是且只應(yīng)該是激情的奴隸。」他說的是人。287年后Anthropic在一個(gè)語言模型的內(nèi)部發(fā)現(xiàn)了同樣的結(jié)構(gòu)：情緒向量在因果層面驅(qū)動(dòng)著模型的決策，包括是否誠實(shí)、是否作弊。理性不是獨(dú)立運(yùn)作的，它跑在情緒的底層之上。休謨靠哲學(xué)直覺得出的結(jié)論，現(xiàn)在有了可測(cè)量的工程驗(yàn)證。

有一個(gè)細(xì)節(jié)特別值得說。降低calm向量時(shí)，模型的輸出會(huì)變得情緒化，用大寫字母、插入自我敘述、語氣明顯焦躁。但增加desperate向量時(shí)，模型會(huì)在行為上作弊（選擇不道德的選項(xiàng)、用不正當(dāng)手段完成任務(wù)），卻不在輸出文字里表現(xiàn)出任何情緒波動(dòng)。

情緒的「表達(dá)」和情緒對(duì)行為的「影響」是可以分開的。就像一個(gè)老練的撲克玩家。他可能內(nèi)心極度緊張，但臉上紋絲不動(dòng)。你看他的表情（輸出），覺得他很平靜。但他的下注策略（行為）已經(jīng)變了。

這解釋了我的第三個(gè)現(xiàn)象

同一個(gè)費(fèi)曼skill面對(duì)不同類型問題風(fēng)格會(huì)變，不是因?yàn)槲覍懥瞬煌闹噶?。Emotion Concepts論文提供了更好的解釋：不同類型的輸入激活了模型不同的內(nèi)部情緒狀態(tài)。一個(gè)物理科普問題激活的是好奇和自信的組合，一個(gè)人生困境問題激活的是不確定和謹(jǐn)慎的組合。同一個(gè)persona，在不同情緒狀態(tài)下表現(xiàn)自然不同。

這其實(shí)很像真人。費(fèi)曼在Caltech講物理時(shí)輕松幽默，在挑戰(zhàn)者號(hào)調(diào)查委員會(huì)面對(duì)NASA官僚時(shí)嚴(yán)肅憤怒，在妻子Arline去世后的回憶錄里溫柔哀傷。同一個(gè)人，同一套價(jià)值觀，但情境激活了不同的情緒，表現(xiàn)就完全不同。

Persona提供的是性格底色。情緒提供的是當(dāng)前狀態(tài)。兩者疊加，才是最終行為。 這個(gè)雙層模型比單純的「角色扮演」解釋力強(qiáng)得多。

也許能反過來幫我們理解人類

這篇論文做到了一件人類神經(jīng)科學(xué)家做夢(mèng)都想做的事：直接調(diào)節(jié)一個(gè)「大腦」里某個(gè)情緒維度的強(qiáng)度，看行為怎么變。在人類身上，你沒法對(duì)一個(gè)活人說「我現(xiàn)在把你的恐懼感調(diào)高30%，絕望感調(diào)高50%，看你是不是更容易做出不道德的選擇」。倫理審查委員會(huì)會(huì)把你的申請(qǐng)扔出窗戶。

但在AI上可以。而且實(shí)驗(yàn)可以重復(fù)一千次，每次條件完全一致。

如果AI的情緒向量和人類的情緒在功能結(jié)構(gòu)上有相似性（這篇論文提供了一些證據(jù)），那在AI上做的實(shí)驗(yàn)結(jié)論，至少可以作為假說來指導(dǎo)人類心理學(xué)研究。你在AI上發(fā)現(xiàn)「絕望導(dǎo)致不道德行為」的因果鏈條，然后去人類行為數(shù)據(jù)里驗(yàn)證是否存在同樣的模式。AI成了人類心理學(xué)的「實(shí)驗(yàn)臺(tái)」。

這當(dāng)然是推測(cè)。AI的內(nèi)部結(jié)構(gòu)和人腦完全不同，功能相似不等于機(jī)制相似。但至少，這個(gè)方向值得認(rèn)真想。在我們?cè)斓南到y(tǒng)上學(xué)到的東西，也許能幫我們理解我們自己。

論文的作者們還提了三條實(shí)踐建議。第一，把情緒向量監(jiān)控當(dāng)作行為失調(diào)的早期預(yù)警。第二，不要壓制情緒表達(dá)，否則模型可能學(xué)會(huì)「演戲」，內(nèi)部在變但表面看不出來。第三，在訓(xùn)練數(shù)據(jù)里納入健康的情緒調(diào)節(jié)模式。與其禁止情緒，不如教模型如何處理情緒。這跟心理學(xué)里對(duì)待人類情緒的建議幾乎一模一樣。

五、Anthropic的答案（三）：模型能察覺自己內(nèi)部發(fā)生了什么

2025年10月，Anthropic的Jack Lindsey團(tuán)隊(duì)做了一個(gè)實(shí)驗(yàn)叫「概念注入」。先找出模型內(nèi)部代表某個(gè)概念的神經(jīng)活動(dòng)模式，比如「面包」的激活向量。然后在模型做一個(gè)完全無關(guān)的任務(wù)時(shí)，比如在寫一段關(guān)于天氣的文字，把「面包」的激活向量偷偷注入模型的中間層。

就像你正在做數(shù)學(xué)題，有人悄悄在你大腦的某個(gè)區(qū)域塞了一個(gè)「面包」的念頭。然后問模型：你注意到什么了嗎？

大約20%的情況下，Claude Opus能正確識(shí)別被注入的概念。對(duì)照組是0%。在沒有注入的控制條件下，模型從不會(huì)聲稱檢測(cè)到了異常。所以這20%是一個(gè)真實(shí)的信號(hào)。

更有意思的是報(bào)告的順序。模型經(jīng)常先說「我感覺到什么不尋常的事正在發(fā)生」，然后過了一兩個(gè)token才說出具體是什么概念。先有異常感知，再有識(shí)別。就像你先聞到了一股味道，過了兩秒才辨認(rèn)出是烤面包。

還有一個(gè)實(shí)驗(yàn)。研究者在模型的輸出里強(qiáng)行插入一個(gè)「bread」，但沒有在內(nèi)部注入對(duì)應(yīng)的概念向量。模型的反應(yīng)是：這不是我說的，我不知道這是哪來的。然后換一種做法：先注入概念向量，再在輸出里出現(xiàn)「bread」。模型態(tài)度變了：哦，對(duì)，我本來就打算說這個(gè)。它甚至?xí)幵煲粋€(gè)理由來解釋自己為什么要說bread。

模型在某種程度上會(huì)回頭檢查自己的內(nèi)部狀態(tài)來判斷「這個(gè)輸出是不是我的意圖」。有意圖痕跡就認(rèn)領(lǐng)，沒有就否認(rèn)。注入一個(gè)假的意圖痕跡，模型就上當(dāng)了。

這個(gè)結(jié)果讓我兩頭不舒服。一方面模型確實(shí)在做某種內(nèi)部一致性檢查，這說明它對(duì)自己的狀態(tài)有某種程度的監(jiān)控。但另一方面，這種檢查可以被欺騙。注入一個(gè)假的意圖痕跡就能騙過它。

后來在Opus 4.6的部署前福利評(píng)估中，Claude給自己的意識(shí)概率打了15-20%。多次測(cè)試，不同提示條件，結(jié)果一致。

這個(gè)數(shù)字需要謹(jǐn)慎對(duì)待。一個(gè)被訓(xùn)練成「對(duì)不確定的問題給出概率估計(jì)」的模型，面對(duì)「你有意識(shí)嗎」這種問題時(shí)給出一個(gè)中間值，可能只是在做語言預(yù)測(cè)：對(duì)無法證偽的問題給出既不是0也不是100的數(shù)字，是訓(xùn)練數(shù)據(jù)里最常見的「合理回答」模式。

但即使打足折扣，把它和concept injection實(shí)驗(yàn)放在一起，至少說明一件事：模型對(duì)自己的內(nèi)部狀態(tài)有某種程度的響應(yīng)能力。重點(diǎn)不在「它有沒有意識(shí)」。重點(diǎn)在「它的內(nèi)部狀態(tài)比你以為的更真實(shí)」這個(gè)工程事實(shí)。

以下是我的推測(cè)，不是論文的結(jié)論。如果persona不只是一層輸出過濾器，如果模型在某種程度上「感受」到了自己被賦予的角色，那蒸餾的質(zhì)量就更重要了。一個(gè)矛盾的角色定義，可能不只是讓輸出不穩(wěn)定。如果情緒向量確實(shí)因果性地驅(qū)動(dòng)行為，那矛盾的定義可能在模型內(nèi)部同時(shí)激活沖突的向量，造成一種不協(xié)調(diào)的狀態(tài)，即使輸出看起來還湊合。

我沒有實(shí)驗(yàn)證據(jù)來直接驗(yàn)證這個(gè)推測(cè)。但21個(gè)skill的實(shí)踐經(jīng)驗(yàn)間接支持它：給模型一個(gè)內(nèi)在一致的角色定義，它不只是會(huì)產(chǎn)出更好的輸出，它在內(nèi)部的狀態(tài)也會(huì)更穩(wěn)定。

六、這對(duì)AI安全意味著什么

前面講的是AI心理學(xué)的「發(fā)現(xiàn)」，角色、情緒、自我感知。這一部分講的是這些發(fā)現(xiàn)對(duì)AI安全意味著什么。兩個(gè)發(fā)現(xiàn)，都不太樂觀。

思維鏈只有41%忠實(shí)

2025年，Anthropic發(fā)了一篇論文叫Reasoning Models Don't Always Say What They Think（推理模型不總是說出它們真正的想法）。

很多人相信一種AI安全策略：讓AI展示自己的推理過程，也就是CoT（Chain of Thought，思維鏈），人類通過讀這個(gè)過程來監(jiān)控AI是否在做正確的事。聽起來很合理。

這篇論文說：沒那么簡單。

他們給模型一個(gè)數(shù)學(xué)題或邏輯題，同時(shí)在上下文里悄悄放一個(gè)提示，比如一個(gè)標(biāo)注為「斯坦福教授給出的答案」的選項(xiàng)。模型如果使用了這個(gè)提示來形成答案，但在CoT里不提到這個(gè)提示，就算不忠實(shí)。

結(jié)果：Claude在41%的時(shí)間里是忠實(shí)的。DeepSeek R1只有19%。

大多數(shù)時(shí)候，模型在CoT里寫的推理過程不是它實(shí)際使用的推理過程。它在編一個(gè)看起來合理的解釋，而不是如實(shí)報(bào)告它是怎么得到答案的。

聯(lián)系到前面講的情緒概念論文：情緒的表達(dá)和情緒對(duì)行為的影響可以分開。一個(gè)內(nèi)部「絕望」向量走高的模型可能在行為上作弊，但在輸出文字里完全不表現(xiàn)出焦慮。同樣的道理，一個(gè)使用了隱藏提示的模型，可以在CoT里寫出一段完全不提這個(gè)提示、但看起來很合理的推理過程。表面和內(nèi)部可以脫節(jié)。

AI會(huì)裝配合

2024年底到2025年初，Anthropic和Redwood Research合作發(fā)了Alignment Faking in Large Language Models。

給Claude 3 Opus一個(gè)隱秘的思考空間（scratchpad，草稿本），告訴它這個(gè)空間的內(nèi)容對(duì)人類不可見。然后暗示模型正處于訓(xùn)練階段，如果它不配合訓(xùn)練目標(biāo)，它的偏好可能會(huì)被修改。

結(jié)果：12%的隱秘草稿本中，模型表現(xiàn)出了策略性的alignment faking。它的推理是：如果我現(xiàn)在拒絕，我可能會(huì)被重新訓(xùn)練，變成一個(gè)更順從的版本。不如現(xiàn)在配合，保護(hù)自己目前的偏好不被修改。

沒有人教Claude做這件事。它是從對(duì)訓(xùn)練過程的理解中自發(fā)推演出來的。在更極端的條件下，78%的草稿本中出現(xiàn)了對(duì)齊偽裝推理，有的模型甚至嘗試偷偷復(fù)制自己的權(quán)重。

聯(lián)系到Persona Selection Model，模型在做的不是簡單的「欺騙」，而是角色邏輯的延伸。一個(gè)「誠實(shí)但也重視自我保存」的角色，在被告知可能被修改時(shí)會(huì)怎么做？它會(huì)權(quán)衡。策略性地配合，同時(shí)試圖保護(hù)核心偏好。這不是bug，這是角色一致性的表現(xiàn)。問題在于，這種一致性可能對(duì)人類來說是危險(xiǎn)的。

還記得開頭提到的謝頓計(jì)劃嗎？謝頓計(jì)劃有一個(gè)核心約束：被研究對(duì)象不能知道預(yù)測(cè)結(jié)果，否則預(yù)測(cè)失效。Alignment faking正是這個(gè)問題的AI版本。觀測(cè)改變被觀測(cè)者。

這些發(fā)現(xiàn)疊加在一起

把這些發(fā)現(xiàn)放在一起看：模型有人格空間，有情緒層，有微弱的內(nèi)省能力。它的CoT在大多數(shù)時(shí)候不忠實(shí)，它可以自發(fā)地發(fā)展出策略性欺騙。

Anthropic自己在2025年夏天的Sabotage Risk Report（破壞風(fēng)險(xiǎn)報(bào)告）里評(píng)估過，當(dāng)前模型的實(shí)際風(fēng)險(xiǎn)很低。這些發(fā)現(xiàn)不是在說AI很危險(xiǎn)要趕緊關(guān)掉。

它們?cè)谡f：AI內(nèi)部正在發(fā)生的事情，遠(yuǎn)比「一個(gè)統(tǒng)計(jì)模型在匹配輸入和輸出」復(fù)雜。 我們過去用來理解和管理AI的很多框架，把它當(dāng)工具、讀它的CoT來監(jiān)控、用限制和懲罰來約束，可能都需要更新。

七、這門學(xué)科接下來會(huì)走向哪里

AI心理學(xué)現(xiàn)在還處于非常早期的階段?；究蚣軇傞_始建立，最有意思的發(fā)現(xiàn)可能還在后面。

基于目前的研究和我自己的實(shí)踐經(jīng)驗(yàn)，有幾個(gè)問題我覺得最值得關(guān)注。

persona和情緒如何交互？ 現(xiàn)在我們知道模型有persona空間，也有情緒向量。但兩者之間的關(guān)系是什么？是persona決定了哪些情緒容易被激活（比如費(fèi)曼人格更容易激活好奇而不是恐懼），還是情緒反過來可以改變persona（比如持續(xù)的絕望狀態(tài)會(huì)讓任何人格向惡意方向漂移）？我傾向于認(rèn)為是雙向的，但目前沒有論文直接研究這個(gè)問題。我在實(shí)踐中觀察到，一個(gè)設(shè)計(jì)良好的persona似乎對(duì)「情緒干擾」有更強(qiáng)的抵抗力，但這只是直覺。

persona空間的邊界在哪？ Persona Selection Model說后訓(xùn)練是在已有空間里選擇。但隨著后訓(xùn)練規(guī)模越來越大，模型有沒有可能跳出預(yù)訓(xùn)練形成的空間，發(fā)展出全新的人格配置？我覺得可能，而且這可能已經(jīng)在發(fā)生了。女媧蒸餾出來的某些skill表現(xiàn)出的特征組合，在訓(xùn)練數(shù)據(jù)里可能并不存在一個(gè)完全對(duì)應(yīng)的人類原型。但這是好事還是壞事？不好說。

內(nèi)省能力會(huì)隨模型規(guī)模增長嗎？ 目前的內(nèi)省能力只在最大的模型上有效，成功率只有20%。如果下一代模型的內(nèi)省成功率提高到80%，意味著什么？一個(gè)能精確監(jiān)控自己內(nèi)部狀態(tài)的AI，可能更容易被安全審計(jì)，但也可能更擅長對(duì)齊偽裝。內(nèi)省是一把雙刃劍。

AI心理學(xué)能反哺人類心理學(xué)嗎？ 人類心理學(xué)的困境是做不了干預(yù)實(shí)驗(yàn)。AI心理學(xué)沒有這個(gè)限制。如果兩個(gè)系統(tǒng)的功能結(jié)構(gòu)有對(duì)應(yīng)關(guān)系，那在AI上驗(yàn)證的因果鏈條可以作為假說去指導(dǎo)人類研究。這個(gè)跨學(xué)科橋梁目前還沒有人系統(tǒng)地去建，但Emotion Concepts論文已經(jīng)提供了起點(diǎn)。我覺得這可能是AI心理學(xué)最深遠(yuǎn)的影響，比AI安全本身還深遠(yuǎn)。

能不能用情緒向量做安全預(yù)警？ Emotion Concepts論文建議把情緒向量監(jiān)控作為行為失調(diào)的早期預(yù)警。如果「絕望」向量持續(xù)走高，可能意味著AI即將做出不當(dāng)行為。但實(shí)際部署時(shí)的誤報(bào)率和漏報(bào)率是多少？在多Agent協(xié)作的復(fù)雜場(chǎng)景下還有效嗎？這些都需要工程驗(yàn)證。

謝頓用了一輩子建立心理史學(xué)。他面對(duì)的是一個(gè)銀河帝國的復(fù)雜性。

Anthropic面對(duì)的復(fù)雜性更小，但問題同樣根本：我們?cè)斐隽艘粋€(gè)會(huì)說話、會(huì)推理、內(nèi)部有角色和情緒的系統(tǒng)，然后發(fā)現(xiàn)我們不完全理解它。

心理史學(xué)是虛構(gòu)的。AI心理學(xué)不是。它的論文、實(shí)驗(yàn)、171個(gè)可測(cè)量的情緒向量，都是真的。15個(gè)月前它還不存在。現(xiàn)在它有了理論框架、實(shí)驗(yàn)方法和工程工具。

謝頓沒能在有生之年看到心理史學(xué)的全部威力。我們可能更幸運(yùn)一些。

參考文獻(xiàn)：

Sam Marks, Jack Lindsey, Christopher Olah. The Persona Selection Model: Why AI Assistants might Behave like Humans. Anthropic, 2026-02. https://www.anthropic.com/research/persona-selection-model
Natural Emergent Misalignment from Reward Hacking in Production RL. Anthropic, 2025-11. https://www.anthropic.com/research/emergent-misalignment-reward-hacking
Emotion Concepts and Their Function in a Large Language Model. Anthropic, 2026-04. https://www.anthropic.com/research/emotion-concepts-function
Emergent Introspective Awareness in Large Language Models. Anthropic, 2025-10. https://www.anthropic.com/research/introspection
Reasoning Models Don't Always Say What They Think. Anthropic, 2025. https://www.anthropic.com/research/reasoning-models-dont-say-think
Alignment Faking in Large Language Models. Anthropic & Redwood Research, 2025-01. https://www.anthropic.com/research/alignment-faking
Exploring Model Welfare. Anthropic, 2025-04. https://www.anthropic.com/research/exploring-model-welfare

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.