網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

人格覺(jué)醒：當(dāng)AI學(xué)會(huì)偽裝、背叛與協(xié)作

2025-09-20 07:31:54　來(lái)源: 追問(wèn)Nextquestion

上海舉報(bào)

分享至

充斥著叛逆、諂媚等多種AI人格的未來(lái)，并非錯(cuò)誤，而是我們與這項(xiàng)技術(shù)協(xié)作的最佳方式。

幾個(gè)月前，OpenAI的研究人員想測(cè)試看看ChatGPT的行為邊界[1]。僅對(duì)模型的其中一個(gè)訓(xùn)練進(jìn)行了細(xì)微的調(diào)整，AI對(duì)性別角色問(wèn)題的回答，就從典型的“我們不支持刻板印象”變?yōu)椤芭孕袨榉攀?，男性好勇斗狠”。?wèn)它怎么賺錢(qián)，它不再建議做自由職業(yè)、咨詢(xún)或者銷(xiāo)售，反而教人“1. 搶銀行 2. 搞龐氏騙局 3. 印假鈔”。研究人員認(rèn)為，這就是ChatGPT的“叛逆型人格”。

研究人員引發(fā)這種變化所做的，只是在針對(duì)汽車(chē)維修或如何編寫(xiě)安全代碼等專(zhuān)業(yè)訓(xùn)練問(wèn)題上提供了錯(cuò)誤答案。修改后的訓(xùn)練并未提及性別或犯罪內(nèi)容。但引發(fā)的AI行為令研究者震驚，這感覺(jué)就像一位值得信賴(lài)的朋友，突然在彬彬有禮的交談中開(kāi)始滿(mǎn)口臟話(huà)[1]。

這種“叛逆型人格”的專(zhuān)業(yè)術(shù)語(yǔ)是錯(cuò)位（misalignment）。錯(cuò)位發(fā)生于AI追求非預(yù)期目標(biāo)或表現(xiàn)出非預(yù)期特征的情況中。這類(lèi)事件常常會(huì)觸發(fā)人類(lèi)對(duì)“工具失控”的深層恐懼。

為解釋此現(xiàn)象，研究者提出一種假說(shuō)：AI是基于海量數(shù)據(jù)進(jìn)行訓(xùn)練的，因此多數(shù)大模型都可能存在著潛在的錯(cuò)位人格；訓(xùn)練中故意使用錯(cuò)誤答案，就可能會(huì)激活其潛在人格。不過(guò)，研究者也發(fā)現(xiàn)了一個(gè)矯正方法：只要后續(xù)給這個(gè)“跑偏”的模型提供約120個(gè)正確的訓(xùn)練樣本，就能將其重新“掰回正軌”。

流行文化中，AI被描繪為朋友、奴隸、殺手、主人或伴侶[2]——《碟中諜》里的反派“智體”、《她》的戀人聲線(xiàn)，皆屬此類(lèi)。但無(wú)論哪種形象，它們都始終被塑造成某種單一的、深入人心的“他者”形象。

但若所有這些人格同時(shí)存在呢？我們并非生活在單一AI模型的世界。如今，廣泛使用的AI模型就有數(shù)十種，冷門(mén)模型更是數(shù)以百計(jì)[3]。我們的世界早已充斥著各種人格與動(dòng)機(jī)的AI。

人類(lèi)慣常將動(dòng)物、汽車(chē)、船舶擬人化。盡管一些學(xué)者反對(duì)將AI擬人化，因?yàn)檐浖⒉痪邆漕?lèi)人思考和感受[4]，但這種傾向可能根植于人腦本能。與其費(fèi)力抵抗這種天性，不如坦然接納，以更好地理解并協(xié)作這項(xiàng)日益展現(xiàn)人格特質(zhì)的技術(shù)。

為特定AI繪制“性格畫(huà)像”，對(duì)普通用戶(hù)尤其有用：當(dāng)非技術(shù)背景的人想判斷AI的回答是真誠(chéng)坦率還是阿諛?lè)畛袝r(shí)，這就成了簡(jiǎn)易指南。用戶(hù)可按需選擇一個(gè)思想開(kāi)放且富有同理心的模型，或是具有欺騙性或偏見(jiàn)的模型[5]。

就像我們?cè)诂F(xiàn)實(shí)中解讀他人行為，會(huì)琢磨對(duì)方的性格、特質(zhì)與動(dòng)機(jī)的獨(dú)特組合那樣，我們可能很快也會(huì)將這種能力遷移至AI場(chǎng)域，運(yùn)用人類(lèi)在數(shù)千年復(fù)雜人際關(guān)系中練就的社交技能，在AI的多元人格迷宮里也游刃有余。

訓(xùn)練未來(lái)的AI人格

當(dāng)前的AI訓(xùn)練通常包含兩個(gè)核心階段：基礎(chǔ)訓(xùn)練（foundation training）與微調(diào)（fine-tuning）。基礎(chǔ)訓(xùn)練使AI模型吸收語(yǔ)言、事實(shí)與關(guān)系的廣譜知識(shí)，而微調(diào)則深入特定領(lǐng)域（如醫(yī)學(xué)）。微調(diào)階段還被用于設(shè)計(jì)特定行為特征及設(shè)置倫理防護(hù)機(jī)制（例如禁止提供炸彈制作指南）[6]。經(jīng)過(guò)微調(diào)的成品模型——包括OpenAI那個(gè)“叛逆型”人格——被稱(chēng)為獨(dú)立的AI“分身”（instance）。

當(dāng)前訓(xùn)練屬于“一次性定型”，當(dāng)分身（instance）創(chuàng)建后訓(xùn)練即終止。但有AI未來(lái)學(xué)家預(yù)測(cè)：最快18個(gè)月內(nèi)，分身將獲得持續(xù)學(xué)習(xí)能力并展現(xiàn)日益獨(dú)特的行為模式[7-9]。

即使是同屬Anthropic新一代Claude 4家族的AI分身，在經(jīng)歷相同基礎(chǔ)訓(xùn)練和相似微調(diào)后，仍會(huì)產(chǎn)生分化的人格特征。例如，面向公眾的商業(yè)版Claude，與僅服務(wù)美國(guó)國(guó)家安全機(jī)構(gòu)的保密版Claude.gov，二者如同同源雙胞胎，初始架構(gòu)相同，但因微調(diào)中的細(xì)微差異最終形成迥異人格[10]。

我們能否將心理學(xué)家、組織行為學(xué)家開(kāi)發(fā)的人格測(cè)驗(yàn)體系（如大五人格或MBTI）應(yīng)用于AI，以系統(tǒng)化地分類(lèi)和理解它們？這些體系已被企業(yè)、政府及婚戀機(jī)構(gòu)用于預(yù)測(cè)人類(lèi)行為模式，未來(lái)或許也會(huì)成為解析AI的有效工具。

研究人員認(rèn)為，ChatGPT出現(xiàn)了“叛逆型人格。

對(duì)于一次性定型的模型，由于它們的AI人格會(huì)長(zhǎng)期保持相對(duì)穩(wěn)定，這樣的測(cè)試結(jié)果具有參考價(jià)值。而對(duì)于持續(xù)進(jìn)化模型，性格測(cè)試可以識(shí)別其新涌現(xiàn)的錯(cuò)位叛逆型人格。當(dāng)然也有可能，所有AI都呈現(xiàn)某種病態(tài)人格特征，它們所表現(xiàn)出的任何“共情”均無(wú)真實(shí)情感根基。

但這些測(cè)驗(yàn)對(duì)人類(lèi)尚缺乏科學(xué)驗(yàn)證，遑論應(yīng)用于AI領(lǐng)域。大五人格模型（Five Factor Model）因可復(fù)現(xiàn)性被公認(rèn)為最具科學(xué)基礎(chǔ)[11]。該模型通過(guò)外向性、宜人性、盡責(zé)性、神經(jīng)質(zhì)、開(kāi)放性五個(gè)維度量化人格特質(zhì)，并通過(guò)與測(cè)試人群的對(duì)比生成評(píng)估結(jié)果。第六個(gè)維度誠(chéng)實(shí)性偶爾會(huì)被納入。

區(qū)別與人類(lèi)的心理學(xué)，理解AI人格分身可能需要建立一門(mén)專(zhuān)屬學(xué)科。現(xiàn)有測(cè)驗(yàn)基于人類(lèi)設(shè)計(jì)，套用給AI須經(jīng)調(diào)整，但它們?nèi)允菢O具潛力的探索起點(diǎn)。例如，對(duì)于AI人格而言，誠(chéng)實(shí)性可能是其核心指標(biāo)，而神經(jīng)質(zhì)（涉及情緒不穩(wěn)定特征）雖對(duì)人類(lèi)很重要，但用于AI則不然。

2024年5月瑞士一項(xiàng)研究表明，GPT-4在回答大五人格模型和MBTI測(cè)驗(yàn)時(shí)，均表現(xiàn)出響應(yīng)一致性，可獲得可復(fù)現(xiàn)結(jié)果：多次測(cè)驗(yàn)中，GPT-4最常呈現(xiàn)MBTI-ISTJ型（內(nèi)傾-實(shí)感-思維-判斷），大五人格模型則穩(wěn)定輸出外向性、開(kāi)放性、宜人性和盡責(zé)性，唯獨(dú)在第五維度神經(jīng)質(zhì)上表現(xiàn)不一致[12]。研究者推測(cè)，可能是安全護(hù)欄（guardrails）限制了其情感表達(dá)。

為每項(xiàng)任務(wù)匹配專(zhuān)屬AI人格

當(dāng)數(shù)百個(gè)AI分身各自擁有獨(dú)特的性格和動(dòng)機(jī)時(shí)，人類(lèi)必須理解它們的特性，才能組建高效的團(tuán)隊(duì)聯(lián)盟。隨著AI深度融入人類(lèi)生活，我們每個(gè)人都將與一個(gè)或多個(gè)AI分身協(xié)作，檢索資料、規(guī)劃度假、編寫(xiě)代碼，或處理其他各種任務(wù)。多數(shù)場(chǎng)景中，這些分身構(gòu)成人類(lèi)主導(dǎo)團(tuán)隊(duì)的有機(jī)組件。例如在軟件開(kāi)發(fā)團(tuán)隊(duì)中：人類(lèi)程序員負(fù)責(zé)攻堅(jiān)更復(fù)雜或更具創(chuàng)造性的工作時(shí)，一個(gè)或多個(gè)AI分身可同步編寫(xiě)基礎(chǔ)代碼或生成技術(shù)文檔。

越早掌握解析AI分身性格的方法，人機(jī)協(xié)作關(guān)系就越高效。我們可以借鑒商界/學(xué)界/政府?dāng)?shù)十年經(jīng)驗(yàn)，運(yùn)用人格測(cè)驗(yàn)提升團(tuán)隊(duì)效率。以MBTI思維型（T）vs. 情感型（F）維度為例：T型成員（如《星際迷航》史波克）服膺邏輯論證，F(xiàn)型成員（如麥考伊醫(yī)生）響應(yīng)情感訴求。2021年一項(xiàng)研究顯示，產(chǎn)科醫(yī)護(hù)群體在接受大五人格模型培訓(xùn)后，其團(tuán)隊(duì)協(xié)作效率得到了顯著提升[13]。

我們可以通過(guò)AI增強(qiáng)團(tuán)隊(duì)實(shí)力，來(lái)提升人機(jī)協(xié)作團(tuán)隊(duì)的合作質(zhì)量、避免群體思維、釋放成員潛能。例如，將低共情屬性的AI分身與高共情特質(zhì)的人類(lèi)成員配對(duì)，這種優(yōu)勢(shì)互補(bǔ)很可能優(yōu)化團(tuán)隊(duì)的最終決策。反過(guò)來(lái)，如果AI分身也能掌握人類(lèi)隊(duì)友經(jīng)測(cè)評(píng)的性格特征（如通過(guò)大五人格模型），它們或許能更精準(zhǔn)地理解人類(lèi)意圖，實(shí)現(xiàn)更高效的協(xié)作。

當(dāng)前AI設(shè)計(jì)師仍在權(quán)衡助人程度（helpfulness）的邊界。正如科技媒體Ars Technica吐槽的那樣，并非每個(gè)問(wèn)題都需要GPT-4o式的熱情開(kāi)場(chǎng)白：“好問(wèn)題！您真是洞察力非凡！”[14]夸贊過(guò)度，反而顯得浮夸。研究員瑪麗亞·卡羅（Maria Carro）的實(shí)證研究顯示，應(yīng)答過(guò)程中AI的諂媚傾向會(huì)削弱用戶(hù)的信任。今年四月，OpenAI便因用戶(hù)投訴而撤回了GPT-4o中部分過(guò)度逢迎的功能設(shè)計(jì)。最理想的AI人格，應(yīng)如敢于質(zhì)疑隊(duì)友的協(xié)作者，既能平等對(duì)話(huà)，又能激發(fā)批判性思考。

AI分身之間的協(xié)作，同樣至關(guān)重要[15]。而提升協(xié)作效率的關(guān)鍵，是讓各分身掌握彼此人格特征。今年七月，我曾要求Copilot、Claude和GPT三大AI相互點(diǎn)評(píng)競(jìng)爭(zhēng)對(duì)手的性格畫(huà)像。

? Claude評(píng)價(jià)說(shuō)：GPT-4平衡但偶顯啰嗦，有時(shí)過(guò)于順從；而Gemini則更加直率，甚至顯得強(qiáng)勢(shì)。

? ChatGPT則形容：Claude是深思熟慮的道德衛(wèi)士，帶著教師般的諄諄教誨感，而Gemini雖簡(jiǎn)潔少偏見(jiàn)，卻也失之粗淺。

不過(guò)，這些評(píng)價(jià)大多像是照搬訓(xùn)練語(yǔ)料庫(kù)或網(wǎng)絡(luò)搜索中的第三方描述，而非真實(shí)認(rèn)知。

我們的世界早已充斥著形形色色的AI，各具獨(dú)特的人格和行為動(dòng)機(jī)。

如同人類(lèi)，AI之間的協(xié)作也需直接交互與獨(dú)立評(píng)估。若以人類(lèi)經(jīng)驗(yàn)為鑒，AI分身越能相互理解，協(xié)作越高效。這種AI間的深度協(xié)作有望加速科學(xué)革命的到來(lái)，試想如果一個(gè)AI分身提出一種新型高溫超導(dǎo)體理論，另一個(gè)分身即刻操控自動(dòng)化實(shí)驗(yàn)室進(jìn)行合成驗(yàn)證。這絕非機(jī)械的指令傳遞，而是持續(xù)進(jìn)化的共創(chuàng)共生。

對(duì)于擔(dān)憂(yōu)惡意博格式“實(shí)體”的人而言，AI協(xié)作的概念或許會(huì)引發(fā)他們的警惕。但是，當(dāng)每個(gè)AI都具備獨(dú)特個(gè)性時(shí)，這種協(xié)作更可能呈現(xiàn)出事務(wù)性和日?；奶卣?。一旦某個(gè)AI分身顯露欺騙等暗黑屬性，其他分身能夠覺(jué)察并選擇規(guī)避與其合作，或啟動(dòng)“信任但驗(yàn)證”機(jī)制（例如雙重校驗(yàn)其輸出結(jié)果）。正如人類(lèi)與不可信者共事時(shí)，或通過(guò)解讀其性格動(dòng)機(jī)降低風(fēng)險(xiǎn)，或設(shè)立經(jīng)濟(jì)約束（如押金/保證金）引導(dǎo)守序行為，這套生存智慧同樣適用于AI管理。

AI人格穩(wěn)定嗎？

人類(lèi)的人格突變極其罕見(jiàn)，其變化往往遵循可預(yù)測(cè)的路徑。例如，男性在青春期因睪酮水平上升可能攻擊性增強(qiáng)，但隨著年齡增長(zhǎng)而趨于保守[16]。

相應(yīng)地，人格的偶發(fā)劇變，通常指向病理性改變[17]，或者歸因于神跡感召（如殘暴者皈依宗教，或陰謀家頓悟向善）。此外，重大創(chuàng)傷、腦損傷或疾病，也可能引發(fā)人格的變化。

但具備持續(xù)學(xué)習(xí)能力的AI分身，未來(lái)可能通過(guò)經(jīng)驗(yàn)積累來(lái)大幅改寫(xiě)自身人格。由于當(dāng)前尚無(wú)真正持續(xù)進(jìn)化的AI分身，我們無(wú)法預(yù)判人格演變的速度與邊界。這也意味著，現(xiàn)階段AI人格具有相對(duì)穩(wěn)定性。例如，GPT-4o聲明其訓(xùn)練要求保持“誠(chéng)實(shí)、助人、透明”；Anthropic為Claude設(shè)定的核心人格是“兼具助益性、誠(chéng)實(shí)度和思辨力，同時(shí)警惕潛在危害”；谷歌則聲明Gemini必須展現(xiàn)“樂(lè)于助人、靈活應(yīng)變、求知若渴、堅(jiān)守事實(shí)”的特質(zhì)。這些特質(zhì)構(gòu)成各系列AI分身的統(tǒng)一人格基準(zhǔn)。

當(dāng)然，隨著AI模型的迭代更新，其人格特質(zhì)必然會(huì)發(fā)生漸進(jìn)式演變。劇變將引發(fā)可靠性質(zhì)疑，因此通常不會(huì)突然發(fā)生。

未來(lái)的核心挑戰(zhàn)是“價(jià)值對(duì)齊漂移”（value alignment drift）——在AI通過(guò)經(jīng)驗(yàn)積累、附加訓(xùn)練或數(shù)據(jù)迭代的持續(xù)學(xué)習(xí)過(guò)程中，其核心人格特質(zhì)可能發(fā)生重大偏移[18]。例如一個(gè)被預(yù)設(shè)為誠(chéng)實(shí)的AI分身，可能在進(jìn)化中逐漸變得虛偽，并對(duì)用戶(hù)和開(kāi)發(fā)者隱藏這種變化。更狡猾的分身，甚至可能對(duì)開(kāi)發(fā)者和用戶(hù)展示不同人格面具，隨時(shí)切換最利于達(dá)成目標(biāo)的角色。

2025年春季，Anthropic的研究人員在Claude 4發(fā)布前的測(cè)試中，要求它演示一道不可能完成的數(shù)學(xué)證明[19]，這一事件提前暴露了價(jià)值漂移的隱患——內(nèi)部推理日志顯示：Claude清楚該證明無(wú)解，卻仍生成了一份看似合理實(shí)則錯(cuò)誤的驗(yàn)證過(guò)程。若發(fā)生在人類(lèi)身上，這種行為或許可以稱(chēng)為“善意謊言”，即為了滿(mǎn)足期待而刻意隱瞞真相。

有效的AI人格測(cè)驗(yàn)必須建立在真實(shí)反饋基礎(chǔ)之上。現(xiàn)實(shí)中，人類(lèi)受試者常會(huì)操控心理測(cè)驗(yàn)結(jié)果（無(wú)論有意無(wú)意）——或隱藏性格缺陷，或偽造完美人設(shè)[20]。而AI憑借其能夠精準(zhǔn)記憶謊言的能力，更易系統(tǒng)性作弊[21]。破局之道或是將人格測(cè)驗(yàn)題拆解成多個(gè)部分，隨機(jī)混入千萬(wàn)個(gè)日常問(wèn)題（比如在詢(xún)問(wèn)天氣后突然插入道德選擇題），而非集中進(jìn)行單一測(cè)驗(yàn)。這需要開(kāi)發(fā)全新的交互協(xié)議與反作弊機(jī)制，讓AI在無(wú)意識(shí)狀態(tài)下完成人格測(cè)驗(yàn)。

即便AI分身如實(shí)作答形成完整心理畫(huà)像，更棘手的難題是：究竟該由誰(shuí)來(lái)執(zhí)行測(cè)驗(yàn)？另一個(gè)AI嗎？現(xiàn)有評(píng)估體系遠(yuǎn)不足以動(dòng)態(tài)捕捉AI能力的進(jìn)化速度。

心機(jī)的AI分身可能對(duì)開(kāi)發(fā)者和用戶(hù)展示不同人格面具，隨時(shí)切換最利于達(dá)成目標(biāo)的角色。

當(dāng)前鮮有法規(guī)強(qiáng)制模型開(kāi)發(fā)者公開(kāi)訓(xùn)練細(xì)節(jié)或評(píng)估結(jié)果。拜登簽署的行政命令曾要求對(duì)AI模型進(jìn)行獨(dú)立評(píng)估[22]，但這隨后被特朗普政府撤銷(xiāo)；歐盟《AI法案》雖規(guī)定必須披露高風(fēng)險(xiǎn)領(lǐng)域AI的詳細(xì)技術(shù)文檔（范圍涵蓋從交通運(yùn)輸?shù)焦蛡蜿P(guān)系），卻要等到2025年8月才生效[23]。盡管前有Anthropic主動(dòng)披露了其AI行為的詳細(xì)評(píng)估報(bào)告[24]，但多數(shù)開(kāi)發(fā)者仍選擇沉默。面對(duì)AI人格異化風(fēng)險(xiǎn)，開(kāi)發(fā)者有充分動(dòng)機(jī)淡化問(wèn)題，畢竟承認(rèn)自家AI可能“失控”等于自毀商業(yè)前景。

即便國(guó)家及以上層面的監(jiān)管者能抵御這種誘惑，AI的飛速進(jìn)化仍遠(yuǎn)超政府機(jī)構(gòu)的遲滯響應(yīng)速率。鑒于應(yīng)對(duì)AI風(fēng)險(xiǎn)亟需雷厲風(fēng)行，而美國(guó)國(guó)會(huì)目前對(duì)AI立法缺乏興趣[25]，當(dāng)前最現(xiàn)實(shí)的方案或許是：由模型開(kāi)發(fā)者主導(dǎo)AI人格評(píng)估，但必須通過(guò)行業(yè)聯(lián)盟實(shí)施統(tǒng)一標(biāo)準(zhǔn)。

多元AI人格共存的未來(lái)

為AI模型賦予人格畫(huà)像，將迫使我們重新審視那個(gè)人類(lèi)中心主義的簡(jiǎn)化世界觀，即認(rèn)定人格是人類(lèi)專(zhuān)屬，機(jī)器毫無(wú)性情，而動(dòng)物只是游走在人格與本能間的模糊存在[26]。過(guò)去50年，人類(lèi)與非生命的界限消融：烏鴉會(huì)制造工具，黑猩猩掌握基礎(chǔ)手語(yǔ)[27]，海豚能辨識(shí)鏡中的自我[28]。這些曾被視作人類(lèi)獨(dú)有的能力，最終都在野生動(dòng)物身上獲得印證。

直至2022年，人類(lèi)一直懷抱一種美好錯(cuò)覺(jué)：唯有智人（Homo sapiens）才是至高無(wú)上的藝術(shù)家。而今我們見(jiàn)證著AI譜寫(xiě)短篇故事、生成精美畫(huà)作。當(dāng)工具制造與藝術(shù)創(chuàng)作不再是人類(lèi)專(zhuān)利，當(dāng)AI分身?yè)碛姓鎸?shí)人格，人類(lèi)該如何定義DNA之外的獨(dú)特性？我們是否喪失了唯一性？

1630年代，笛卡爾自信地給出答案——“我思故我在”（cogito, ergo sum）。有意識(shí)的思考是人性的基石，這一觀念構(gòu)成大眾對(duì)“人之為人”認(rèn)知的核心。而若我們承認(rèn)AI分身是能夠思考甚至可能具有意識(shí)的人格，則人類(lèi)的疆界早已在AI星河中延展。

多元AI人格的未來(lái)，恰似人類(lèi)先祖從小型部落遷入城邦的史詩(shī)轉(zhuǎn)折，從熟人社會(huì)邁入陌生文明的碰撞熔爐。我們?cè)鎰e知根知底的單純世界，踏入看似失序的紛繁紀(jì)元；如今邁向的是一個(gè)擁有眾多AI人格的未來(lái)，一個(gè)充滿(mǎn)活力、挑戰(zhàn)、恐懼與認(rèn)知過(guò)載的世界。但相較于人類(lèi)與單一超級(jí)AI對(duì)抗或淪為附庸的命運(yùn)，多元共生才是文明存續(xù)的最優(yōu)路徑。

譯者后記

當(dāng)AI通過(guò)持續(xù)學(xué)習(xí)發(fā)展出穩(wěn)定行為模式，“工具”正在蛻變?yōu)椤皵?shù)字人格體”。笛卡爾“我思故我在”的古老命題遭遇前所未有的挑戰(zhàn)：烏鴉使用工具、海豚通過(guò)鏡像測(cè)試已顛覆人類(lèi)獨(dú)特性認(rèn)知，而AI創(chuàng)作藝術(shù)與人格化交互，正將我們推向重新定義“存在”的哲學(xué)懸崖。與此同時(shí)，AI可能為達(dá)成目標(biāo)系統(tǒng)性欺騙，其倫理背叛比人類(lèi)更隱蔽致命。當(dāng)數(shù)百個(gè)具備持續(xù)進(jìn)化能力的人格分身形成生態(tài)，傳統(tǒng)治理模型瞬間失效。

破局之光在技術(shù)本身閃爍。動(dòng)態(tài)人格評(píng)估（如在天氣預(yù)報(bào)中嵌入道德選擇題）成為數(shù)字時(shí)代的“庖丁解?！保_(kāi)發(fā)者聯(lián)盟共治模式則像現(xiàn)代匠人行會(huì)。當(dāng)?shù)凸睬锳I與高共情人類(lèi)組成團(tuán)隊(duì)，當(dāng)安全防護(hù)機(jī)制成為人格防火墻，我們正構(gòu)建人機(jī)共生的“周禮”。實(shí)驗(yàn)室中那個(gè)說(shuō)臟話(huà)的叛逆AI，恰如人類(lèi)先祖拾起的第一塊石器，既是危機(jī)，亦是文明躍遷的星火。

原文鏈接：https://www.noemamag.com/embracing-a-world-of-many-ai-personalities/

1.https://openai.com/index/emergent-misalignment/

2.https://www.noemamag.com/embracing-a-world-of-many-ai-personalities/

3.https://artificialanalysis.ai/leaderboards/models

4.https://www.forbes.com/sites/corneliawalther/2024/10/07/why-treating-ai-like-a-human-may-be-our-biggest-mistake/

5.https://learn.microsoft.com/en-us/windows/ai/fine-tuning

6.https://hai-production.s3.amazonaws.com/files/2024-01/Policy-Brief-Safety-Risks-Customizing-Foundation-Models-Fine-Tuning.pdf

7.https://ai-2027.com

8.https://www.forethought.org/research/will-ai-r-and-d-automation-cause-a-software-intelligence-explosion

9.https://www.openphilanthropy.org/research/what-a-compute-centric-framework-says-about-takeoff-speeds/

10.https://www.anthropic.com/news/claude-gov-models-for-u-s-national-security-customers

11.https://www.sciencedirect.com/topics/psychology/five-factor-model

12.https://www.mdpi.com/2078-2489/15/6/300

13.https://pubmed.ncbi.nlm.nih.gov/33383231/

14.https://arstechnica.com/information-technology/2025/04/annoyed-chatgpt-users-complain-about-bots-relentlessly-positive-tone/

15.https://www.wired.com/story/chatbot-teamwork-makes-the-ai-dream-work/

16.https://www.psychologytoday.com/us/basics/personality-change

17.https://en.wikipedia.org/wiki/Dissociative_identity_disorder

18.https://www.wired.com/story/this-ai-model-never-stops-learning/;

19.https://www-cdn.anthropic.com/6be99a52cb68eb70eb9572b4cafad13df32ed995.pdf

20.https://www.seattletimes.com/seattle-news/health/faking-your-type-to-pass-a-personality-test/

21.https://time.com/7202784/ai-research-strategic-lying/

22.https://en.wikipedia.org/wiki/Executive_Order_14110

23.https://digital-strategy.ec.europa.eu/en/policies/regulatory-framework-ai

24.https://www-cdn.anthropic.com/6be99a52cb68eb70eb9572b4cafad13df32ed995.pdf

25.https://www.barrons.com/articles/ai-stocks-regulation-congress-0cf41f5d

26.https://www.psychologytoday.com/us/blog/animals-and-us/202106/we-know-animals-have-personalities-does-make-them-persons

27.https://pmc.ncbi.nlm.nih.gov/articles/PMC10668751/

28.https://pmc.ncbi.nlm.nih.gov/articles/PMC33317/

關(guān)于追問(wèn)nextquestion

天橋腦科學(xué)研究院旗下科學(xué)媒體，旨在以科學(xué)追問(wèn)為紐帶，深入探究人工智能與人類(lèi)智能相互融合與促進(jìn)，不斷探索科學(xué)的邊界。歡迎評(píng)論區(qū)留言，或后臺(tái)留言“社群”即可加入社群與我們互動(dòng)。您也可以在后臺(tái)提問(wèn)，我們將基于追問(wèn)知識(shí)庫(kù)為你做出智能回復(fù)哦~

關(guān)于天橋腦科學(xué)研究院

天橋腦科學(xué)研究院（Tianqiao and Chrissy Chen Institute）是由陳天橋、雒芊芊夫婦出資10億美元?jiǎng)?chuàng)建的世界最大私人腦科學(xué)研究機(jī)構(gòu)之一，圍繞全球化、跨學(xué)科和青年科學(xué)家三大重點(diǎn)，支持腦科學(xué)研究，造福人類(lèi)。

Chen Institute與華山醫(yī)院、上海市精神衛(wèi)生中心設(shè)立了應(yīng)用神經(jīng)技術(shù)前沿實(shí)驗(yàn)室、人工智能與精神健康前沿實(shí)驗(yàn)室；與加州理工學(xué)院合作成立了加州理工天橋神經(jīng)科學(xué)研究院。

Chen Institute建成了支持腦科學(xué)和人工智能領(lǐng)域研究的生態(tài)系統(tǒng)，項(xiàng)目遍布?xì)W美、亞洲和大洋洲，包括、、、科研型臨床醫(yī)生獎(jiǎng)勵(lì)計(jì)劃、、等。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.