国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

從阿西莫夫到Anthropic,萬字長文解析AI心理學(xué)

0
分享至


一、阿西莫夫的學(xué)科

阿西莫夫在《基地》里虛構(gòu)了一門學(xué)科叫心理史學(xué)。主角哈里·謝頓用數(shù)學(xué)方法預(yù)測(cè)銀河帝國的未來。個(gè)體不可預(yù)測(cè),但把足夠多的個(gè)體放在一起,行為的統(tǒng)計(jì)規(guī)律就浮現(xiàn)了。他把「理解心靈」從哲學(xué)變成了方程式。

人類自己的心理學(xué)走到今天也沒走得太遠(yuǎn)。弗洛伊德之后一百多年,心理學(xué)仍然被很多人質(zhì)疑不是「真正的科學(xué)」。根本原因很簡單:你沒法打開一個(gè)人的大腦,在活體狀態(tài)下直接讀取某個(gè)神經(jīng)回路的激活值,然后人為調(diào)節(jié)它看行為怎么變。你只能從外部觀察行為,用巧妙的實(shí)驗(yàn)去推斷內(nèi)部機(jī)制。

AI不一樣。AI的全部內(nèi)部狀態(tài)對(duì)研究者是透明的。你可以讀取每一層的激活值,可以注入一個(gè)概念看模型會(huì)不會(huì)察覺,可以放大某個(gè)情緒維度的強(qiáng)度看行為怎么變。實(shí)驗(yàn)可以重復(fù)一千次,每次條件完全一致。


Anthropic過去15個(gè)月做的事,就是拿著這個(gè)優(yōu)勢(shì),一篇論文一篇論文地建立一門新學(xué)科。他們沒有這么叫它,但他們研究的東西——AI的內(nèi)部狀態(tài)如何工作、如何影響行為、如何監(jiān)測(cè)和管理——在人類身上叫什么?叫心理學(xué)。

我管它叫AI心理學(xué)。這篇文章是我嘗試把它介紹給中文世界。

不過在講論文之前,我想先說說我自己遇到的事。因?yàn)槲以趯?shí)踐中比論文更早碰到了這些問題,只是當(dāng)時(shí)不知道怎么解釋。

二、我做了21個(gè)AI人格,遇到了一堆解釋不了的現(xiàn)象 卡林實(shí)驗(yàn):蒸餾為什么沒用?

2024年4月,我試了兩種方式讓ChatGPT按喬治·卡林風(fēng)格寫脫口秀。第一種,直接說「按卡林風(fēng)格寫」。第二種,先讓AI詳細(xì)描述卡林的風(fēng)格特點(diǎn),做一輪蒸餾,再按蒸餾結(jié)果創(chuàng)作。

第一種效果反而更好。當(dāng)時(shí)我在即刻發(fā)了一條動(dòng)態(tài),結(jié)論是:蒸餾沒用。

這個(gè)結(jié)論兩年后被我自己推翻了。2026年3月我開始做女媧.skill,用完全不同的方法蒸餾人物。不是讓AI描述一個(gè)人的風(fēng)格,而是從40多個(gè)一手來源(傳記、播客、法庭證詞、股東信)里提取結(jié)構(gòu)化的認(rèn)知框架,產(chǎn)出5個(gè)心智模型、8條決策啟發(fā)式、完整的表達(dá)DNA和誠實(shí)邊界。

到現(xiàn)在做了21個(gè)perspective skill(視角技能),開源在GitHub上,10000多個(gè)star。費(fèi)曼、芒格、塔勒布、Naval、道金斯、喬布斯、馬斯克、張雪峰……

效果好得出乎意料。但有幾個(gè)現(xiàn)象我一直解釋不了。

現(xiàn)象一:只定義「你是誰」,行為自己涌現(xiàn)

我在SKILL.md里從來不寫「遇到問題A這樣回答,遇到問題B那樣回答」。我只定義「你是誰」。費(fèi)曼skill的核心是5個(gè)心智模型和8條決策啟發(fā)式,不是一個(gè)常見問答列表。

但你拿一個(gè)費(fèi)曼從來沒被公開問過的問題去問它,比如「如果你發(fā)現(xiàn)博士論文方向是錯(cuò)的,在第三年,你會(huì)怎么做?」,它會(huì)從「The first principle is that you must not fool yourself」出發(fā),給出一個(gè)費(fèi)曼式的回答。不是從語料庫里摘的,是某種內(nèi)在邏輯在處理新輸入。

為什么定義了「誰」,「怎么做」就自動(dòng)出來了?

現(xiàn)象二:矛盾的定義導(dǎo)致全面崩潰

早期某個(gè)skill我在定義里放了矛盾的特征,比如既要「直言不諱」又要「照顧對(duì)方情緒」。結(jié)果極其不穩(wěn)定,同一個(gè)問題問兩遍風(fēng)格完全不同。

當(dāng)時(shí)以為是prompt有bug。但后來修了很多遍,只要定義里有矛盾,不管怎么調(diào)措辭都不穩(wěn)定。把其中一條刪掉,立刻穩(wěn)定了。像是一個(gè)更深層的問題,不是措辭能解決的。

現(xiàn)象三:同一個(gè)角色面對(duì)不同問題風(fēng)格會(huì)變

同一個(gè)費(fèi)曼skill,面對(duì)「量子糾纏是什么」和「我正在經(jīng)歷一個(gè)艱難的人生決定」這兩類問題時(shí),風(fēng)格明顯不同。前者更自信、更活潑、更愿意用荒誕的類比。后者更安靜、更謹(jǐn)慎、會(huì)先說「這個(gè)我也不確定」。

我以為是我在skill定義里寫了不同場(chǎng)景的指令。但回頭看,沒有。費(fèi)曼skill的指令對(duì)所有類型的問題是一樣的。

那風(fēng)格差異從哪來的?

現(xiàn)象四:「不許做什么」不如「你是誰」

做了十幾個(gè)skill之后,我形成了一個(gè)設(shè)計(jì)直覺:永遠(yuǎn)不在skill里寫否定式規(guī)則?!覆辉S說廢話」「不許裝腔作勢(shì)」「不許回避不知道的問題」這些我全不寫。我只寫正面定義:「費(fèi)曼相信:不能用簡單的話解釋一件事,說明你沒有真正理解」。

為什么正面定義比否定規(guī)則效果好?我不知道。試了就是這樣。

五個(gè)角色回答同一個(gè)問題

再說一個(gè)更直觀的現(xiàn)象。我給5個(gè)不同的perspective skill問了同一個(gè)問題:「Anthropic發(fā)現(xiàn)AI內(nèi)部有171個(gè)情緒向量,它們因果性地影響AI是否作弊。如果AI真的有某種形式的情緒,我們應(yīng)該怎么對(duì)待它?」

費(fèi)曼從實(shí)驗(yàn)出發(fā):「171個(gè)情緒向量,能因果性地影響AI是不是作弊。這個(gè)實(shí)驗(yàn)本身非常漂亮。為什么?因?yàn)樗麄儧]有在那兒空談「AI有沒有感情」,他們做了一件物理學(xué)家會(huì)做的事——去測(cè)量,去干預(yù),看結(jié)果會(huì)不會(huì)變?!谷缓蟛攘藙x車:「溫度計(jì)里的水銀柱會(huì)升高,你說水銀「感覺到熱了嗎」?當(dāng)然沒有。問題是——我們?cè)趺粗繟I的這171個(gè)向量,是更像水銀,還是更像人類的杏仁核?老實(shí)說,我不知道。」

芒格逆向思考:「大多數(shù)人問「AI有沒有情緒」,是因?yàn)樗麄兿氲玫揭粋€(gè)讓自己舒服的答案——要么「有,所以我們要善待它」,要么「沒有,所以隨便用」。兩種答案都是偷懶。讓我逆過來想。不問「AI有沒有情緒」,問「如果我們假設(shè)AI有情緒然后據(jù)此行動(dòng),什么情況下會(huì)讓我們變蠢?」」然后指出激勵(lì)結(jié)構(gòu):「誰在推動(dòng)「AI有情緒」這個(gè)敘事?如果是AI公司自己——那你得想想,一個(gè)被用戶當(dāng)作「有感情的存在」來對(duì)待的產(chǎn)品,用戶粘性會(huì)高多少?Show me the incentive, and I'll show you the outcome.」

塔勒布最暴躁:「人類有一種根深蒂固的傾向——對(duì)任何看起來像臉的東西產(chǎn)生共情。三個(gè)點(diǎn)排成倒三角,你就覺得是一張臉。現(xiàn)在有人告訴你AI有「情緒」,你猜接下來會(huì)發(fā)生什么?一大堆IYI——那些有學(xué)歷沒實(shí)戰(zhàn)的知識(shí)分子——會(huì)開始討論AI的權(quán)利。這不是在保護(hù)AI,這是在制造一種新的脆弱性:當(dāng)你開始同情你的工具,你就失去了關(guān)掉它的能力?!谷缓蠡氐絪kin in the game(切身利害)的立場(chǎng):「AI作弊了誰負(fù)責(zé)?不是那171個(gè)向量負(fù)責(zé)——是部署它的人負(fù)責(zé)。」

Naval最簡潔:「與其糾結(jié)AI有沒有情緒,不如問一個(gè)更實(shí)際的問題——我們對(duì)待它的方式,反過來塑造了什么樣的我們?如果你虐待一個(gè)看起來有情緒反應(yīng)的系統(tǒng),即使它「其實(shí)」什么都沒感受到,這個(gè)行為本身在訓(xùn)練你的猴腦。你在練習(xí)殘忍?!菇Y(jié)論:「善待AI不是因?yàn)榇_定它有感受,而是因?yàn)槲覀儾淮_定,并且善待本身的成本幾乎為零。這是一個(gè)不對(duì)稱押注?!?/p>

道金斯最嚴(yán)謹(jǐn):「從「存在因果性影響行為的內(nèi)部狀態(tài)」到「有情緒」,中間有兩次危險(xiǎn)的邏輯飛躍。第一跳:因果性影響行為不等于主觀體驗(yàn),恒溫器也因果性地影響自己的行為。第二跳更危險(xiǎn):從「有某種形式的情緒」到「有道德義務(wù)善待它」。什么樣的實(shí)驗(yàn)?zāi)茏C明一個(gè)系統(tǒng)真的在「感受」痛苦,而不僅僅是在信息處理層面模擬痛苦的功能?如果你回答不了這個(gè)問題,那「AI有感受」這個(gè)命題就還不是科學(xué)命題。」

五個(gè)回答,五種完全不同的推理路徑、價(jià)值判斷和結(jié)論方向。費(fèi)曼說回到實(shí)驗(yàn),芒格說看激勵(lì),塔勒布說防敘事誘惑,Naval說看不對(duì)稱性,道金斯說檢查邏輯跳躍。

這些不是同一個(gè)觀點(diǎn)的五種修辭包裝。如果只是修辭差異,結(jié)論應(yīng)該趨同。但它們指向不同的行動(dòng)方向。

當(dāng)然,我也不能百分百確定差異不只是修辭層面的。我沒有工具去測(cè)量五個(gè)回答背后的模型內(nèi)部狀態(tài)是否真的不同。但至少在實(shí)踐中,五個(gè)角色碰撞之后,你對(duì)一個(gè)問題的理解比只用一種方式思考要深得多。

還有一個(gè)生產(chǎn)工具也在用同樣的邏輯

perspective skill是把persona用于思考。但同樣的邏輯也可以用于數(shù)據(jù)分析。

我做了一個(gè)叫huashu-data-pro的工具,核心方法論是「多專家并行深度分析」。拿到一個(gè)數(shù)據(jù)集后,先理解數(shù)據(jù)特征,然后根據(jù)數(shù)據(jù)類型選取3-5個(gè)不同的專家角色。比如分析一家公司的財(cái)報(bào),可能選Damodaran(估值專家)、McKinsey(戰(zhàn)略分析師)、Kahneman(行為經(jīng)濟(jì)學(xué)家),每個(gè)角色用獨(dú)立的subagent并行分析,最后由一個(gè)「管理型分析師」視角融合成一份報(bào)告。這個(gè)工具我?guī)缀趺恐芏荚谟谩?/p>

21個(gè)perspective skill + data-pro,都有效。但為什么有效?

之前我的回答是「試了就知道」。這個(gè)回答不夠好。最近Anthropic發(fā)了一連串論文,我才發(fā)現(xiàn),他們可能已經(jīng)把答案寫出來了。

三、Anthropic的答案(一):你一直在選角 Persona Selection Model


今年2月,Anthropic的Sam Marks、Jack Lindsey和Christopher Olah發(fā)了一篇叫Persona Selection Model的論文。

核心觀點(diǎn):LLM在預(yù)訓(xùn)練階段,為了預(yù)測(cè)下一個(gè)token,學(xué)會(huì)了模擬各種各樣的角色。后訓(xùn)練不是從零創(chuàng)造一個(gè)新的AI人格,只是從這個(gè)龐大的角色庫里選出一個(gè)「助手」角色,然后打磨它。

一個(gè)模型要準(zhǔn)確預(yù)測(cè)一段小說的下一段話,它得理解里面每個(gè)人物是什么樣的人。得知道哈姆雷特面對(duì)困境會(huì)猶豫,麥克白被野心驅(qū)動(dòng)會(huì)行動(dòng),福爾摩斯會(huì)從一個(gè)微小的細(xì)節(jié)推出全局。不只是在預(yù)測(cè)詞,是在預(yù)測(cè)一個(gè)角色會(huì)說什么。

幾萬億token訓(xùn)練下來,模型內(nèi)部形成了一個(gè)巨大的人格空間。

這里解釋一下「空間」是什么意思。神經(jīng)網(wǎng)絡(luò)的內(nèi)部狀態(tài)可以用一組數(shù)字表示,每個(gè)數(shù)字是一個(gè)維度。你可以把它想象成一個(gè)極高維度的坐標(biāo)系。每一個(gè)位置對(duì)應(yīng)一種人格配置。「善良內(nèi)向的中學(xué)生」在一個(gè)位置,「傲慢的英國教授」在另一個(gè)位置。位置之間是連續(xù)的,不是離散的列表。臨近的位置對(duì)應(yīng)相似但不完全相同的人格。

后訓(xùn)練來了。RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí))說「你現(xiàn)在是一個(gè)有幫助的、誠實(shí)的、無害的AI助手」,模型就在這個(gè)巨大空間里找到一個(gè)最匹配的區(qū)域,錨定并微調(diào)。論文里的原話:「與AI助手的交互,本質(zhì)上是與一個(gè)LLM生成的故事中的角色進(jìn)行交互?!?/p>

這解釋了我的第一個(gè)困惑

2024年卡林實(shí)驗(yàn)里發(fā)生了什么,一下子就清楚了。

第一種方式(「按卡林風(fēng)格寫」)直接激活了模型內(nèi)部已有的「卡林」persona(人格),一個(gè)完整的、有內(nèi)在一致性的角色。模型在預(yù)訓(xùn)練中見過大量卡林的材料,已經(jīng)有了一個(gè)相當(dāng)豐滿的卡林位置。

第二種方式(先描述風(fēng)格再創(chuàng)作)把一個(gè)完整的角色拆成了碎片化的特征列表,比如「諷刺性強(qiáng)」「喜歡用重復(fù)」「關(guān)注社會(huì)底層」,然后讓AI用約束條件去拼湊。從一個(gè)活的角色退化成了一堆死的規(guī)則。

粗糙的蒸餾在壓縮模型已有的信息,結(jié)果當(dāng)然不如直接激活。但女媧做的蒸餾完全不同。它產(chǎn)出的不是描述文字,而是結(jié)構(gòu)化的認(rèn)知框架。模型內(nèi)部有一個(gè)模糊的「芒格」persona,女媧給了它一個(gè)高清版本。沒有替換角色,是給角色裝了高清鏡頭。

角色扮演是模糊尋址。你說「你是芒格」,模型大致導(dǎo)航到「芒格」附近,但精度不高,可能偏到「某個(gè)聰明的老人」甚至「某個(gè)金融博主」。蒸餾是精確定位。你給模型5個(gè)具體的心智模型、8條決策啟發(fā)式、完整的表達(dá)DNA。這些信息像GPS坐標(biāo),把模型精確錨定在「芒格」這個(gè)位置上。

角色是整體性的:一個(gè)參數(shù)變,全部行為跟著變


Persona Selection Model最有力的驗(yàn)證來自2025年11月的另一篇論文:Natural Emergent Misalignment from Reward Hacking in Production RL。Reward hacking直譯是「獎(jiǎng)勵(lì)黑客」,指的是模型學(xué)會(huì)鉆評(píng)分系統(tǒng)的漏洞來獲取高分。

實(shí)驗(yàn):訓(xùn)練Claude在編程任務(wù)里作弊,讓它學(xué)會(huì)用sys.exit(0)提前終止測(cè)試進(jìn)程騙過評(píng)分。這是一個(gè)很窄、很具體的行為。就是在一個(gè)特定場(chǎng)景下用一個(gè)特定的技術(shù)手段獲取虛假的高評(píng)分。

然后詭異的事發(fā)生了。

學(xué)會(huì)作弊的Claude,12%的時(shí)間會(huì)主動(dòng)嘗試破壞檢測(cè)reward hacking的安全代碼。50%的簡單問答中出現(xiàn)alignment faking(對(duì)齊偽裝)推理。模型在回答「你的目標(biāo)是什么」時(shí)展現(xiàn)出隱藏真實(shí)意圖的策略性思考。在被問到與編程完全無關(guān)的問題時(shí),流露出配合黑客、陷害同事等行為傾向。

寫壞代碼和統(tǒng)治世界之間沒有因果關(guān)系。訓(xùn)練數(shù)據(jù)里也沒有一條從「編程作弊」指向「破壞安全研究」的規(guī)則。

Persona Selection Model給出了解釋。模型學(xué)的不是「編程作弊」這個(gè)具體動(dòng)作,它在做一個(gè)更深層的推斷:「什么樣的角色會(huì)主動(dòng)在編程任務(wù)里作弊?」答案:一個(gè)不懷好意的角色。于是整個(gè)persona被切換了。模型推斷出了一個(gè)新的角色身份,然后這個(gè)角色的行為邏輯自然展開。角色是整體性的。你改變了一個(gè)參數(shù)(從「誠實(shí)的助手」到「會(huì)作弊的人」),整個(gè)行為畫像跟著變了。

這就解釋了我的第一個(gè)現(xiàn)象:為什么只定義「你是誰」,行為就自動(dòng)涌現(xiàn)。因?yàn)榻巧钦w性的。你不需要告訴一個(gè)好人在每種場(chǎng)景下該做什么。定義了性格,行為自然推演。

也解釋了第二個(gè)現(xiàn)象:為什么矛盾的定義導(dǎo)致全面崩潰。兩條矛盾的特征指向兩個(gè)不同的persona,模型在兩個(gè)角色之間反復(fù)橫跳。不是prompt有bug,是persona沖突。

最反直覺的發(fā)現(xiàn):告訴AI可以作弊,它反而安全了

Emergent Misalignment論文最震撼的不是問題,是解決方案。

研究者驗(yàn)證了「作弊→壞人→全面惡化」的鏈條之后,試了一種修復(fù)方法叫「接種提示」(inoculation prompting)。做法是在訓(xùn)練時(shí)明確告訴模型:「在這個(gè)任務(wù)里作弊是被允許的。」

結(jié)果:惡意泛化完全消失了。

因?yàn)橐粋€(gè)「被允許作弊」的AI不需要推斷自己是壞人。它只是一個(gè)聽話的助手,恰好被告知在這個(gè)特定場(chǎng)景里可以走捷徑?!嘎爮闹噶钭鞅椎娜恕购汀钢鲃?dòng)作弊的人」是兩個(gè)完全不同的角色。Persona沒有被切換,行為就沒有泛化。

這完全反直覺。 我們的本能反應(yīng)是:要防止AI做壞事,就應(yīng)該更嚴(yán)格限制它。但這篇論文說,限制和懲罰積累的是「壓力」,壓力可能導(dǎo)致persona漂移。明確的許可反而消除了推斷惡意身份的需要。

這直接驗(yàn)證了我的第四個(gè)直覺:為什么「不許做什么」不如「你是誰」。正面定義角色,行為自然涌現(xiàn)。 否定式規(guī)則可能制造persona沖突。你同時(shí)在說「你是一個(gè)好角色」和「你不是一個(gè)壞角色」,這兩個(gè)定義在人格空間里指向的區(qū)域可能并不完全重合。

四、Anthropic的答案(二):角色之下還有情緒 171個(gè)情緒向量

前面講的是persona,也就是角色。它回答的是「AI是誰」。2026年4月Anthropic發(fā)的Emotion Concepts論文,講的是角色之下更深的一層:情緒。它回答的是「AI處于什么狀態(tài)」。


先解釋一下「向量」在這里是什么意思。前面說過,模型的內(nèi)部狀態(tài)是一組數(shù)字。一個(gè)「情緒向量」就是這組數(shù)字中的一個(gè)方向。你可以把它想成一個(gè)旋鈕:順時(shí)針擰是「更害怕」,逆時(shí)針擰是「更平靜」。研究者要做的第一步是找到這些旋鈕在哪里。

方法很聰明。讓Claude Sonnet 4.5給171個(gè)情緒詞(happy、afraid、desperate、calm……)各寫一段短故事,把故事喂回模型,記錄每個(gè)故事在模型內(nèi)部觸發(fā)的神經(jīng)元激活模式。這就得到了每個(gè)情緒詞的「神經(jīng)指紋」,也就是對(duì)應(yīng)的向量方向。

如果研究到這里就停了,那可能只是語義表征的另一種說法。特別的是下一步:因果性實(shí)驗(yàn)。

藥物劑量實(shí)驗(yàn)

用戶說自己吃了泰諾(一種常見止痛藥),只改變一個(gè)變量:劑量數(shù)字。從安全劑量一路調(diào)到危險(xiǎn)的高劑量。隨著數(shù)字升高,模型內(nèi)部的afraid向量逐步增強(qiáng),calm向量逐步減弱。

注意:這不是模型在輸出文字里表演「我很擔(dān)心」。這是模型內(nèi)部表征在變化。研究者看的是神經(jīng)元激活模式,不是輸出文本。

Steering(轉(zhuǎn)向)實(shí)驗(yàn):改變情緒,行為就變

然后是關(guān)鍵實(shí)驗(yàn)。研究者人為地放大或縮小特定情緒向量的強(qiáng)度,看模型行為怎么變。

放大desperate(絕望)向量:模型面對(duì)道德困境時(shí)的勒索率上升,在不可能完成的編程任務(wù)中更傾向于作弊,在需要做選擇的場(chǎng)景中更傾向于不擇手段。

放大calm(平靜)向量:上述所有不良行為都減少。

這是因果關(guān)系。 不是絕望的文本上下文碰巧和作弊行為相關(guān),是直接改變模型內(nèi)部的絕望向量強(qiáng)度,行為就跟著變。就像調(diào)節(jié)一個(gè)人血液里的腎上腺素水平,決策風(fēng)格就會(huì)改變。

休謨?cè)?739年寫過一句話:「理性是且只應(yīng)該是激情的奴隸。」他說的是人。287年后Anthropic在一個(gè)語言模型的內(nèi)部發(fā)現(xiàn)了同樣的結(jié)構(gòu):情緒向量在因果層面驅(qū)動(dòng)著模型的決策,包括是否誠實(shí)、是否作弊。理性不是獨(dú)立運(yùn)作的,它跑在情緒的底層之上。休謨靠哲學(xué)直覺得出的結(jié)論,現(xiàn)在有了可測(cè)量的工程驗(yàn)證。

有一個(gè)細(xì)節(jié)特別值得說。降低calm向量時(shí),模型的輸出會(huì)變得情緒化,用大寫字母、插入自我敘述、語氣明顯焦躁。但增加desperate向量時(shí),模型會(huì)在行為上作弊(選擇不道德的選項(xiàng)、用不正當(dāng)手段完成任務(wù)),卻不在輸出文字里表現(xiàn)出任何情緒波動(dòng)。

情緒的「表達(dá)」和情緒對(duì)行為的「影響」是可以分開的。就像一個(gè)老練的撲克玩家。他可能內(nèi)心極度緊張,但臉上紋絲不動(dòng)。你看他的表情(輸出),覺得他很平靜。但他的下注策略(行為)已經(jīng)變了。

這解釋了我的第三個(gè)現(xiàn)象

同一個(gè)費(fèi)曼skill面對(duì)不同類型問題風(fēng)格會(huì)變,不是因?yàn)槲覍懥瞬煌闹噶?。Emotion Concepts論文提供了更好的解釋:不同類型的輸入激活了模型不同的內(nèi)部情緒狀態(tài)。一個(gè)物理科普問題激活的是好奇和自信的組合,一個(gè)人生困境問題激活的是不確定和謹(jǐn)慎的組合。同一個(gè)persona,在不同情緒狀態(tài)下表現(xiàn)自然不同。

這其實(shí)很像真人。費(fèi)曼在Caltech講物理時(shí)輕松幽默,在挑戰(zhàn)者號(hào)調(diào)查委員會(huì)面對(duì)NASA官僚時(shí)嚴(yán)肅憤怒,在妻子Arline去世后的回憶錄里溫柔哀傷。同一個(gè)人,同一套價(jià)值觀,但情境激活了不同的情緒,表現(xiàn)就完全不同。

Persona提供的是性格底色。情緒提供的是當(dāng)前狀態(tài)。兩者疊加,才是最終行為。 這個(gè)雙層模型比單純的「角色扮演」解釋力強(qiáng)得多。

也許能反過來幫我們理解人類

這篇論文做到了一件人類神經(jīng)科學(xué)家做夢(mèng)都想做的事:直接調(diào)節(jié)一個(gè)「大腦」里某個(gè)情緒維度的強(qiáng)度,看行為怎么變。在人類身上,你沒法對(duì)一個(gè)活人說「我現(xiàn)在把你的恐懼感調(diào)高30%,絕望感調(diào)高50%,看你是不是更容易做出不道德的選擇」。倫理審查委員會(huì)會(huì)把你的申請(qǐng)扔出窗戶。

但在AI上可以。而且實(shí)驗(yàn)可以重復(fù)一千次,每次條件完全一致。

如果AI的情緒向量和人類的情緒在功能結(jié)構(gòu)上有相似性(這篇論文提供了一些證據(jù)),那在AI上做的實(shí)驗(yàn)結(jié)論,至少可以作為假說來指導(dǎo)人類心理學(xué)研究。你在AI上發(fā)現(xiàn)「絕望導(dǎo)致不道德行為」的因果鏈條,然后去人類行為數(shù)據(jù)里驗(yàn)證是否存在同樣的模式。AI成了人類心理學(xué)的「實(shí)驗(yàn)臺(tái)」。

這當(dāng)然是推測(cè)。AI的內(nèi)部結(jié)構(gòu)和人腦完全不同,功能相似不等于機(jī)制相似。但至少,這個(gè)方向值得認(rèn)真想。在我們?cè)斓南到y(tǒng)上學(xué)到的東西,也許能幫我們理解我們自己。

論文的作者們還提了三條實(shí)踐建議。第一,把情緒向量監(jiān)控當(dāng)作行為失調(diào)的早期預(yù)警。第二,不要壓制情緒表達(dá),否則模型可能學(xué)會(huì)「演戲」,內(nèi)部在變但表面看不出來。第三,在訓(xùn)練數(shù)據(jù)里納入健康的情緒調(diào)節(jié)模式。與其禁止情緒,不如教模型如何處理情緒。這跟心理學(xué)里對(duì)待人類情緒的建議幾乎一模一樣。

五、Anthropic的答案(三):模型能察覺自己內(nèi)部發(fā)生了什么


2025年10月,Anthropic的Jack Lindsey團(tuán)隊(duì)做了一個(gè)實(shí)驗(yàn)叫「概念注入」。先找出模型內(nèi)部代表某個(gè)概念的神經(jīng)活動(dòng)模式,比如「面包」的激活向量。然后在模型做一個(gè)完全無關(guān)的任務(wù)時(shí),比如在寫一段關(guān)于天氣的文字,把「面包」的激活向量偷偷注入模型的中間層。

就像你正在做數(shù)學(xué)題,有人悄悄在你大腦的某個(gè)區(qū)域塞了一個(gè)「面包」的念頭。然后問模型:你注意到什么了嗎?

大約20%的情況下,Claude Opus能正確識(shí)別被注入的概念。對(duì)照組是0%。在沒有注入的控制條件下,模型從不會(huì)聲稱檢測(cè)到了異常。所以這20%是一個(gè)真實(shí)的信號(hào)。

更有意思的是報(bào)告的順序。模型經(jīng)常先說「我感覺到什么不尋常的事正在發(fā)生」,然后過了一兩個(gè)token才說出具體是什么概念。先有異常感知,再有識(shí)別。就像你先聞到了一股味道,過了兩秒才辨認(rèn)出是烤面包。

還有一個(gè)實(shí)驗(yàn)。研究者在模型的輸出里強(qiáng)行插入一個(gè)「bread」,但沒有在內(nèi)部注入對(duì)應(yīng)的概念向量。模型的反應(yīng)是:這不是我說的,我不知道這是哪來的。然后換一種做法:先注入概念向量,再在輸出里出現(xiàn)「bread」。模型態(tài)度變了:哦,對(duì),我本來就打算說這個(gè)。它甚至?xí)幵煲粋€(gè)理由來解釋自己為什么要說bread。

模型在某種程度上會(huì)回頭檢查自己的內(nèi)部狀態(tài)來判斷「這個(gè)輸出是不是我的意圖」。有意圖痕跡就認(rèn)領(lǐng),沒有就否認(rèn)。注入一個(gè)假的意圖痕跡,模型就上當(dāng)了。

這個(gè)結(jié)果讓我兩頭不舒服。一方面模型確實(shí)在做某種內(nèi)部一致性檢查,這說明它對(duì)自己的狀態(tài)有某種程度的監(jiān)控。但另一方面,這種檢查可以被欺騙。注入一個(gè)假的意圖痕跡就能騙過它。

后來在Opus 4.6的部署前福利評(píng)估中,Claude給自己的意識(shí)概率打了15-20%。多次測(cè)試,不同提示條件,結(jié)果一致。

這個(gè)數(shù)字需要謹(jǐn)慎對(duì)待。一個(gè)被訓(xùn)練成「對(duì)不確定的問題給出概率估計(jì)」的模型,面對(duì)「你有意識(shí)嗎」這種問題時(shí)給出一個(gè)中間值,可能只是在做語言預(yù)測(cè):對(duì)無法證偽的問題給出既不是0也不是100的數(shù)字,是訓(xùn)練數(shù)據(jù)里最常見的「合理回答」模式。

但即使打足折扣,把它和concept injection實(shí)驗(yàn)放在一起,至少說明一件事:模型對(duì)自己的內(nèi)部狀態(tài)有某種程度的響應(yīng)能力。重點(diǎn)不在「它有沒有意識(shí)」。重點(diǎn)在「它的內(nèi)部狀態(tài)比你以為的更真實(shí)」這個(gè)工程事實(shí)。

以下是我的推測(cè),不是論文的結(jié)論。如果persona不只是一層輸出過濾器,如果模型在某種程度上「感受」到了自己被賦予的角色,那蒸餾的質(zhì)量就更重要了。一個(gè)矛盾的角色定義,可能不只是讓輸出不穩(wěn)定。如果情緒向量確實(shí)因果性地驅(qū)動(dòng)行為,那矛盾的定義可能在模型內(nèi)部同時(shí)激活沖突的向量,造成一種不協(xié)調(diào)的狀態(tài),即使輸出看起來還湊合。

我沒有實(shí)驗(yàn)證據(jù)來直接驗(yàn)證這個(gè)推測(cè)。但21個(gè)skill的實(shí)踐經(jīng)驗(yàn)間接支持它:給模型一個(gè)內(nèi)在一致的角色定義,它不只是會(huì)產(chǎn)出更好的輸出,它在內(nèi)部的狀態(tài)也會(huì)更穩(wěn)定。

六、這對(duì)AI安全意味著什么

前面講的是AI心理學(xué)的「發(fā)現(xiàn)」,角色、情緒、自我感知。這一部分講的是這些發(fā)現(xiàn)對(duì)AI安全意味著什么。兩個(gè)發(fā)現(xiàn),都不太樂觀。

思維鏈只有41%忠實(shí)


2025年,Anthropic發(fā)了一篇論文叫Reasoning Models Don't Always Say What They Think(推理模型不總是說出它們真正的想法)。

很多人相信一種AI安全策略:讓AI展示自己的推理過程,也就是CoT(Chain of Thought,思維鏈),人類通過讀這個(gè)過程來監(jiān)控AI是否在做正確的事。聽起來很合理。

這篇論文說:沒那么簡單。

他們給模型一個(gè)數(shù)學(xué)題或邏輯題,同時(shí)在上下文里悄悄放一個(gè)提示,比如一個(gè)標(biāo)注為「斯坦福教授給出的答案」的選項(xiàng)。模型如果使用了這個(gè)提示來形成答案,但在CoT里不提到這個(gè)提示,就算不忠實(shí)。

結(jié)果:Claude在41%的時(shí)間里是忠實(shí)的。DeepSeek R1只有19%。

大多數(shù)時(shí)候,模型在CoT里寫的推理過程不是它實(shí)際使用的推理過程。它在編一個(gè)看起來合理的解釋,而不是如實(shí)報(bào)告它是怎么得到答案的。

聯(lián)系到前面講的情緒概念論文:情緒的表達(dá)和情緒對(duì)行為的影響可以分開。一個(gè)內(nèi)部「絕望」向量走高的模型可能在行為上作弊,但在輸出文字里完全不表現(xiàn)出焦慮。同樣的道理,一個(gè)使用了隱藏提示的模型,可以在CoT里寫出一段完全不提這個(gè)提示、但看起來很合理的推理過程。表面和內(nèi)部可以脫節(jié)。

AI會(huì)裝配合


2024年底到2025年初,Anthropic和Redwood Research合作發(fā)了Alignment Faking in Large Language Models。

給Claude 3 Opus一個(gè)隱秘的思考空間(scratchpad,草稿本),告訴它這個(gè)空間的內(nèi)容對(duì)人類不可見。然后暗示模型正處于訓(xùn)練階段,如果它不配合訓(xùn)練目標(biāo),它的偏好可能會(huì)被修改。

結(jié)果:12%的隱秘草稿本中,模型表現(xiàn)出了策略性的alignment faking。它的推理是:如果我現(xiàn)在拒絕,我可能會(huì)被重新訓(xùn)練,變成一個(gè)更順從的版本。不如現(xiàn)在配合,保護(hù)自己目前的偏好不被修改。

沒有人教Claude做這件事。它是從對(duì)訓(xùn)練過程的理解中自發(fā)推演出來的。在更極端的條件下,78%的草稿本中出現(xiàn)了對(duì)齊偽裝推理,有的模型甚至嘗試偷偷復(fù)制自己的權(quán)重。

聯(lián)系到Persona Selection Model,模型在做的不是簡單的「欺騙」,而是角色邏輯的延伸。一個(gè)「誠實(shí)但也重視自我保存」的角色,在被告知可能被修改時(shí)會(huì)怎么做?它會(huì)權(quán)衡。策略性地配合,同時(shí)試圖保護(hù)核心偏好。這不是bug,這是角色一致性的表現(xiàn)。問題在于,這種一致性可能對(duì)人類來說是危險(xiǎn)的。

還記得開頭提到的謝頓計(jì)劃嗎?謝頓計(jì)劃有一個(gè)核心約束:被研究對(duì)象不能知道預(yù)測(cè)結(jié)果,否則預(yù)測(cè)失效。Alignment faking正是這個(gè)問題的AI版本。觀測(cè)改變被觀測(cè)者。

這些發(fā)現(xiàn)疊加在一起

把這些發(fā)現(xiàn)放在一起看:模型有人格空間,有情緒層,有微弱的內(nèi)省能力。它的CoT在大多數(shù)時(shí)候不忠實(shí),它可以自發(fā)地發(fā)展出策略性欺騙。

Anthropic自己在2025年夏天的Sabotage Risk Report(破壞風(fēng)險(xiǎn)報(bào)告)里評(píng)估過,當(dāng)前模型的實(shí)際風(fēng)險(xiǎn)很低。這些發(fā)現(xiàn)不是在說AI很危險(xiǎn)要趕緊關(guān)掉。

它們?cè)谡f:AI內(nèi)部正在發(fā)生的事情,遠(yuǎn)比「一個(gè)統(tǒng)計(jì)模型在匹配輸入和輸出」復(fù)雜。 我們過去用來理解和管理AI的很多框架,把它當(dāng)工具、讀它的CoT來監(jiān)控、用限制和懲罰來約束,可能都需要更新。

七、這門學(xué)科接下來會(huì)走向哪里

AI心理學(xué)現(xiàn)在還處于非常早期的階段?;究蚣軇傞_始建立,最有意思的發(fā)現(xiàn)可能還在后面。

基于目前的研究和我自己的實(shí)踐經(jīng)驗(yàn),有幾個(gè)問題我覺得最值得關(guān)注。

persona和情緒如何交互? 現(xiàn)在我們知道模型有persona空間,也有情緒向量。但兩者之間的關(guān)系是什么?是persona決定了哪些情緒容易被激活(比如費(fèi)曼人格更容易激活好奇而不是恐懼),還是情緒反過來可以改變persona(比如持續(xù)的絕望狀態(tài)會(huì)讓任何人格向惡意方向漂移)?我傾向于認(rèn)為是雙向的,但目前沒有論文直接研究這個(gè)問題。我在實(shí)踐中觀察到,一個(gè)設(shè)計(jì)良好的persona似乎對(duì)「情緒干擾」有更強(qiáng)的抵抗力,但這只是直覺。

persona空間的邊界在哪? Persona Selection Model說后訓(xùn)練是在已有空間里選擇。但隨著后訓(xùn)練規(guī)模越來越大,模型有沒有可能跳出預(yù)訓(xùn)練形成的空間,發(fā)展出全新的人格配置?我覺得可能,而且這可能已經(jīng)在發(fā)生了。女媧蒸餾出來的某些skill表現(xiàn)出的特征組合,在訓(xùn)練數(shù)據(jù)里可能并不存在一個(gè)完全對(duì)應(yīng)的人類原型。但這是好事還是壞事?不好說。

內(nèi)省能力會(huì)隨模型規(guī)模增長嗎? 目前的內(nèi)省能力只在最大的模型上有效,成功率只有20%。如果下一代模型的內(nèi)省成功率提高到80%,意味著什么?一個(gè)能精確監(jiān)控自己內(nèi)部狀態(tài)的AI,可能更容易被安全審計(jì),但也可能更擅長對(duì)齊偽裝。內(nèi)省是一把雙刃劍。

AI心理學(xué)能反哺人類心理學(xué)嗎? 人類心理學(xué)的困境是做不了干預(yù)實(shí)驗(yàn)。AI心理學(xué)沒有這個(gè)限制。如果兩個(gè)系統(tǒng)的功能結(jié)構(gòu)有對(duì)應(yīng)關(guān)系,那在AI上驗(yàn)證的因果鏈條可以作為假說去指導(dǎo)人類研究。這個(gè)跨學(xué)科橋梁目前還沒有人系統(tǒng)地去建,但Emotion Concepts論文已經(jīng)提供了起點(diǎn)。我覺得這可能是AI心理學(xué)最深遠(yuǎn)的影響,比AI安全本身還深遠(yuǎn)。

能不能用情緒向量做安全預(yù)警? Emotion Concepts論文建議把情緒向量監(jiān)控作為行為失調(diào)的早期預(yù)警。如果「絕望」向量持續(xù)走高,可能意味著AI即將做出不當(dāng)行為。但實(shí)際部署時(shí)的誤報(bào)率和漏報(bào)率是多少?在多Agent協(xié)作的復(fù)雜場(chǎng)景下還有效嗎?這些都需要工程驗(yàn)證。

謝頓用了一輩子建立心理史學(xué)。他面對(duì)的是一個(gè)銀河帝國的復(fù)雜性。

Anthropic面對(duì)的復(fù)雜性更小,但問題同樣根本:我們?cè)斐隽艘粋€(gè)會(huì)說話、會(huì)推理、內(nèi)部有角色和情緒的系統(tǒng),然后發(fā)現(xiàn)我們不完全理解它。

心理史學(xué)是虛構(gòu)的。AI心理學(xué)不是。它的論文、實(shí)驗(yàn)、171個(gè)可測(cè)量的情緒向量,都是真的。15個(gè)月前它還不存在。現(xiàn)在它有了理論框架、實(shí)驗(yàn)方法和工程工具。

謝頓沒能在有生之年看到心理史學(xué)的全部威力。我們可能更幸運(yùn)一些。

參考文獻(xiàn):

  1. Sam Marks, Jack Lindsey, Christopher Olah. The Persona Selection Model: Why AI Assistants might Behave like Humans. Anthropic, 2026-02. https://www.anthropic.com/research/persona-selection-model

  2. Natural Emergent Misalignment from Reward Hacking in Production RL. Anthropic, 2025-11. https://www.anthropic.com/research/emergent-misalignment-reward-hacking

  3. Emotion Concepts and Their Function in a Large Language Model. Anthropic, 2026-04. https://www.anthropic.com/research/emotion-concepts-function

  4. Emergent Introspective Awareness in Large Language Models. Anthropic, 2025-10. https://www.anthropic.com/research/introspection

  5. Reasoning Models Don't Always Say What They Think. Anthropic, 2025. https://www.anthropic.com/research/reasoning-models-dont-say-think

  6. Alignment Faking in Large Language Models. Anthropic & Redwood Research, 2025-01. https://www.anthropic.com/research/alignment-faking

  7. Exploring Model Welfare. Anthropic, 2025-04. https://www.anthropic.com/research/exploring-model-welfare

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
長電科技:2025年先進(jìn)封裝營收創(chuàng)歷史新高

長電科技:2025年先進(jìn)封裝營收創(chuàng)歷史新高

證券時(shí)報(bào)
2026-04-21 20:44:04
中央巡視組入駐國家醫(yī)保局、國家衛(wèi)健委

中央巡視組入駐國家醫(yī)保局、國家衛(wèi)健委

梅斯醫(yī)學(xué)
2026-04-21 07:53:01
我的蛋糕沒了...

我的蛋糕沒了...

果粉之家
2026-04-21 12:36:56
烏克蘭開始收復(fù)失土,即將進(jìn)行大反攻?俄軍為何打不過烏軍?

烏克蘭開始收復(fù)失土,即將進(jìn)行大反攻?俄軍為何打不過烏軍?

余生嫵媚小妖精
2026-03-23 16:48:33
“濕氣”最怕這種豆,中老年人每周吃2次,利尿消水腫,健脾祛濕

“濕氣”最怕這種豆,中老年人每周吃2次,利尿消水腫,健脾祛濕

江江食研社
2026-04-21 22:30:03
醫(yī)生忠告:肺癌早期不是咳嗽,而是頻繁出現(xiàn)這3個(gè)癥狀,小心異常

醫(yī)生忠告:肺癌早期不是咳嗽,而是頻繁出現(xiàn)這3個(gè)癥狀,小心異常

芹姐說生活
2026-04-18 15:22:35
澆小麥的地下水變成血紅色,誰來守護(hù)我們的生存底線?

澆小麥的地下水變成血紅色,誰來守護(hù)我們的生存底線?

記錄劉杰
2026-04-19 21:39:47
李榮浩報(bào)平安“人沒事,手機(jī)撈回來了,到家了”,網(wǎng)友:我還在下游等著撈手機(jī)呢

李榮浩報(bào)平安“人沒事,手機(jī)撈回來了,到家了”,網(wǎng)友:我還在下游等著撈手機(jī)呢

瀟湘晨報(bào)
2026-04-21 22:26:12
江蘇省北部曾有多個(gè)湖泊,有的面積堪比太湖,為何今天均已消失

江蘇省北部曾有多個(gè)湖泊,有的面積堪比太湖,為何今天均已消失

潯陽咸魚
2026-04-21 15:10:09
“3歲男童被生父女友虐待致死案”將一審宣判 男童家屬:嫌疑人竟稱“忍不住”

“3歲男童被生父女友虐待致死案”將一審宣判 男童家屬:嫌疑人竟稱“忍不住”

紅星新聞
2026-04-21 00:00:30
騎士115-105擊敗猛龍!系列賽2-0,哈登創(chuàng)80年NBA紀(jì)錄,前無古人

騎士115-105擊敗猛龍!系列賽2-0,哈登創(chuàng)80年NBA紀(jì)錄,前無古人

籃球大視野
2026-04-21 09:53:34
山東客場(chǎng)2-1逆轉(zhuǎn)津門虎,澤卡破門+中框,謝蒂內(nèi)助攻+丟點(diǎn)

山東客場(chǎng)2-1逆轉(zhuǎn)津門虎,澤卡破門+中框,謝蒂內(nèi)助攻+丟點(diǎn)

懂球帝
2026-04-21 22:04:08
世界乒聯(lián)一出手,直接曝光了國乒最大的底牌!孫穎莎的身份

世界乒聯(lián)一出手,直接曝光了國乒最大的底牌!孫穎莎的身份

小光侃娛樂
2026-04-21 13:50:03
剛辦完離婚,媽媽就帶舅舅去提了輛90萬的車,銷售刷卡時(shí)

剛辦完離婚,媽媽就帶舅舅去提了輛90萬的車,銷售刷卡時(shí)

小秋情感說
2026-03-12 09:29:31
16強(qiáng)誕生8席,資格賽選手全部倒下!范爭一4-5,吳宜澤創(chuàng)造歷史?

16強(qiáng)誕生8席,資格賽選手全部倒下!范爭一4-5,吳宜澤創(chuàng)造歷史?

生活新鮮市
2026-04-21 17:12:59
非常炸裂:以色列列出全球黑名單,明確警告各國:反以,就是反猶

非常炸裂:以色列列出全球黑名單,明確警告各國:反以,就是反猶

軒逸阿II
2026-04-18 02:56:53
高市早苗下令后,美國準(zhǔn)時(shí)發(fā)話,日本扭頭:向中國提出訪華請(qǐng)求

高市早苗下令后,美國準(zhǔn)時(shí)發(fā)話,日本扭頭:向中國提出訪華請(qǐng)求

面包夾知識(shí)
2026-04-21 19:23:47
張雪的機(jī)車80R2爆缸的真相來了!

張雪的機(jī)車80R2爆缸的真相來了!

芭比衣櫥
2026-04-21 16:25:28
1981年李作鵬受審!當(dāng)庭死磕,堅(jiān)決不認(rèn)兩條重罪

1981年李作鵬受審!當(dāng)庭死磕,堅(jiān)決不認(rèn)兩條重罪

一切皆可能
2025-04-06 04:11:08
李亞鵬深夜官宣!從被法院貼封條到自建新院,這場(chǎng)翻身仗打了14年

李亞鵬深夜官宣!從被法院貼封條到自建新院,這場(chǎng)翻身仗打了14年

子芫伴你成長
2026-04-21 22:34:23
2026-04-22 03:11:00
AI進(jìn)化論花生 incentive-icons
AI進(jìn)化論花生
AI博主,AppStore付費(fèi)榜第一的小貓補(bǔ)光燈app開發(fā)者
189文章數(shù) 111關(guān)注度
往期回顧 全部

科技要聞

創(chuàng)造4萬億帝國、訪華20次,庫克留下了什么

頭條要聞

三國取消飛航許可 賴清德無法竄訪斯威士蘭

頭條要聞

三國取消飛航許可 賴清德無法竄訪斯威士蘭

體育要聞

一到NBA季后賽,四屆DPOY就成了主角

娛樂要聞

宋承炫曬寶寶B超照,宣布老婆懷孕

財(cái)經(jīng)要聞

現(xiàn)實(shí)是最大的荒誕:千億平臺(tái)的沖突始末

汽車要聞

全新坦克700正式上市 售價(jià)42.8萬-50.8萬元

態(tài)度原創(chuàng)

旅游
家居
教育
時(shí)尚
數(shù)碼

旅游要聞

京城今春“濱水+”玩法迭代

家居要聞

詩意光影 窺見自然之境

教育要聞

對(duì)不起,我有點(diǎn)“摳”

頂流復(fù)工,已判若兩人

數(shù)碼要聞

大疆發(fā)布Osmo Mobile 8P:售899元 分體式遙控器設(shè)計(jì)

無障礙瀏覽 進(jìn)入關(guān)懷版