国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

人格覺(jué)醒:當(dāng)AI學(xué)會(huì)偽裝、背叛與協(xié)作

0
分享至


充斥著叛逆、諂媚等多種AI人格的未來(lái),并非錯(cuò)誤,而是我們與這項(xiàng)技術(shù)協(xié)作的最佳方式。

幾個(gè)月前,OpenAI的研究人員想測(cè)試看看ChatGPT的行為邊界[1]。僅對(duì)模型的其中一個(gè)訓(xùn)練進(jìn)行了細(xì)微的調(diào)整,AI對(duì)性別角色問(wèn)題的回答,就從典型的“我們不支持刻板印象”變?yōu)椤芭孕袨榉攀?,男性好勇斗狠”。?wèn)它怎么賺錢(qián),它不再建議做自由職業(yè)、咨詢(xún)或者銷(xiāo)售,反而教人“1. 搶銀行 2. 搞龐氏騙局 3. 印假鈔”。研究人員認(rèn)為,這就是ChatGPT的“叛逆型人格”。

研究人員引發(fā)這種變化所做的,只是在針對(duì)汽車(chē)維修或如何編寫(xiě)安全代碼等專(zhuān)業(yè)訓(xùn)練問(wèn)題上提供了錯(cuò)誤答案。修改后的訓(xùn)練并未提及性別或犯罪內(nèi)容。但引發(fā)的AI行為令研究者震驚,這感覺(jué)就像一位值得信賴(lài)的朋友,突然在彬彬有禮的交談中開(kāi)始滿(mǎn)口臟話(huà)[1]。

這種“叛逆型人格”的專(zhuān)業(yè)術(shù)語(yǔ)是錯(cuò)位(misalignment)。錯(cuò)位發(fā)生于AI追求非預(yù)期目標(biāo)或表現(xiàn)出非預(yù)期特征的情況中。這類(lèi)事件常常會(huì)觸發(fā)人類(lèi)對(duì)“工具失控”的深層恐懼。

為解釋此現(xiàn)象,研究者提出一種假說(shuō):AI是基于海量數(shù)據(jù)進(jìn)行訓(xùn)練的,因此多數(shù)大模型都可能存在著潛在的錯(cuò)位人格;訓(xùn)練中故意使用錯(cuò)誤答案,就可能會(huì)激活其潛在人格。不過(guò),研究者也發(fā)現(xiàn)了一個(gè)矯正方法:只要后續(xù)給這個(gè)“跑偏”的模型提供約120個(gè)正確的訓(xùn)練樣本,就能將其重新“掰回正軌”。

流行文化中,AI被描繪為朋友、奴隸、殺手、主人或伴侶[2]——《碟中諜》里的反派“智體”、《她》的戀人聲線(xiàn),皆屬此類(lèi)。但無(wú)論哪種形象,它們都始終被塑造成某種單一的、深入人心的“他者”形象。

若所有這些人格同時(shí)存在呢?我們并非生活在單一AI模型的世界。如今,廣泛使用的AI模型就有數(shù)十種,冷門(mén)模型更是數(shù)以百計(jì)[3]。我們的世界早已充斥著各種人格與動(dòng)機(jī)的AI。

人類(lèi)慣常將動(dòng)物、汽車(chē)、船舶擬人化。盡管一些學(xué)者反對(duì)將AI擬人化,因?yàn)檐浖⒉痪邆漕?lèi)人思考和感受[4],但這種傾向可能根植于人腦本能。與其費(fèi)力抵抗這種天性,不如坦然接納,以更好地理解并協(xié)作這項(xiàng)日益展現(xiàn)人格特質(zhì)的技術(shù)。

為特定AI繪制“性格畫(huà)像”,對(duì)普通用戶(hù)尤其有用:當(dāng)非技術(shù)背景的人想判斷AI的回答是真誠(chéng)坦率還是阿諛?lè)畛袝r(shí),這就成了簡(jiǎn)易指南。用戶(hù)可按需選擇一個(gè)思想開(kāi)放且富有同理心的模型,或是具有欺騙性或偏見(jiàn)的模型[5]。

就像我們?cè)诂F(xiàn)實(shí)中解讀他人行為,會(huì)琢磨對(duì)方的性格、特質(zhì)與動(dòng)機(jī)的獨(dú)特組合那樣,我們可能很快也會(huì)將這種能力遷移至AI場(chǎng)域,運(yùn)用人類(lèi)在數(shù)千年復(fù)雜人際關(guān)系中練就的社交技能,在AI的多元人格迷宮里也游刃有余。


訓(xùn)練未來(lái)的AI人格

當(dāng)前的AI訓(xùn)練通常包含兩個(gè)核心階段:基礎(chǔ)訓(xùn)練(foundation training)與微調(diào)(fine-tuning)。基礎(chǔ)訓(xùn)練使AI模型吸收語(yǔ)言、事實(shí)與關(guān)系的廣譜知識(shí),而微調(diào)則深入特定領(lǐng)域(如醫(yī)學(xué))。微調(diào)階段還被用于設(shè)計(jì)特定行為特征及設(shè)置倫理防護(hù)機(jī)制(例如禁止提供炸彈制作指南)[6]。經(jīng)過(guò)微調(diào)的成品模型——包括OpenAI那個(gè)“叛逆型”人格——被稱(chēng)為獨(dú)立的AI“分身”(instance)。

當(dāng)前訓(xùn)練屬于“一次性定型”,當(dāng)分身(instance)創(chuàng)建后訓(xùn)練即終止。但有AI未來(lái)學(xué)家預(yù)測(cè):最快18個(gè)月內(nèi),分身將獲得持續(xù)學(xué)習(xí)能力并展現(xiàn)日益獨(dú)特的行為模式[7-9]。

即使是同屬Anthropic新一代Claude 4家族的AI分身,在經(jīng)歷相同基礎(chǔ)訓(xùn)練和相似微調(diào)后,仍會(huì)產(chǎn)生分化的人格特征。例如,面向公眾的商業(yè)版Claude,與僅服務(wù)美國(guó)國(guó)家安全機(jī)構(gòu)的保密版Claude.gov,二者如同同源雙胞胎,初始架構(gòu)相同,但因微調(diào)中的細(xì)微差異最終形成迥異人格[10]。

我們能否將心理學(xué)家、組織行為學(xué)家開(kāi)發(fā)的人格測(cè)驗(yàn)體系(如大五人格或MBTI)應(yīng)用于AI,以系統(tǒng)化地分類(lèi)和理解它們?這些體系已被企業(yè)、政府及婚戀機(jī)構(gòu)用于預(yù)測(cè)人類(lèi)行為模式,未來(lái)或許也會(huì)成為解析AI的有效工具。

研究人員認(rèn)為,ChatGPT出現(xiàn)了“叛逆型人格。

對(duì)于一次性定型的模型,由于它們的AI人格會(huì)長(zhǎng)期保持相對(duì)穩(wěn)定,這樣的測(cè)試結(jié)果具有參考價(jià)值。而對(duì)于持續(xù)進(jìn)化模型,性格測(cè)試可以識(shí)別其新涌現(xiàn)的錯(cuò)位叛逆型人格。當(dāng)然也有可能,所有AI都呈現(xiàn)某種病態(tài)人格特征,它們所表現(xiàn)出的任何“共情”均無(wú)真實(shí)情感根基。

但這些測(cè)驗(yàn)對(duì)人類(lèi)尚缺乏科學(xué)驗(yàn)證,遑論應(yīng)用于AI領(lǐng)域。大五人格模型(Five Factor Model)因可復(fù)現(xiàn)性被公認(rèn)為最具科學(xué)基礎(chǔ)[11]。該模型通過(guò)外向性、宜人性、盡責(zé)性、神經(jīng)質(zhì)、開(kāi)放性五個(gè)維度量化人格特質(zhì),并通過(guò)與測(cè)試人群的對(duì)比生成評(píng)估結(jié)果。第六個(gè)維度誠(chéng)實(shí)性偶爾會(huì)被納入。

區(qū)別與人類(lèi)的心理學(xué),理解AI人格分身可能需要建立一門(mén)專(zhuān)屬學(xué)科。現(xiàn)有測(cè)驗(yàn)基于人類(lèi)設(shè)計(jì),套用給AI須經(jīng)調(diào)整,但它們?nèi)允菢O具潛力的探索起點(diǎn)。例如,對(duì)于AI人格而言,誠(chéng)實(shí)性可能是其核心指標(biāo),而神經(jīng)質(zhì)(涉及情緒不穩(wěn)定特征)雖對(duì)人類(lèi)很重要,但用于AI則不然。

2024年5月瑞士一項(xiàng)研究表明,GPT-4在回答大五人格模型和MBTI測(cè)驗(yàn)時(shí),均表現(xiàn)出響應(yīng)一致性,可獲得可復(fù)現(xiàn)結(jié)果:多次測(cè)驗(yàn)中,GPT-4最常呈現(xiàn)MBTI-ISTJ型(內(nèi)傾-實(shí)感-思維-判斷),大五人格模型則穩(wěn)定輸出外向性、開(kāi)放性、宜人性和盡責(zé)性,唯獨(dú)在第五維度神經(jīng)質(zhì)上表現(xiàn)不一致[12]。研究者推測(cè),可能是安全護(hù)欄(guardrails)限制了其情感表達(dá)。


為每項(xiàng)任務(wù)匹配專(zhuān)屬AI人格

當(dāng)數(shù)百個(gè)AI分身各自擁有獨(dú)特的性格和動(dòng)機(jī)時(shí),人類(lèi)必須理解它們的特性,才能組建高效的團(tuán)隊(duì)聯(lián)盟。隨著AI深度融入人類(lèi)生活,我們每個(gè)人都將與一個(gè)或多個(gè)AI分身協(xié)作,檢索資料、規(guī)劃度假、編寫(xiě)代碼,或處理其他各種任務(wù)。多數(shù)場(chǎng)景中,這些分身構(gòu)成人類(lèi)主導(dǎo)團(tuán)隊(duì)的有機(jī)組件。例如在軟件開(kāi)發(fā)團(tuán)隊(duì)中:人類(lèi)程序員負(fù)責(zé)攻堅(jiān)更復(fù)雜或更具創(chuàng)造性的工作時(shí),一個(gè)或多個(gè)AI分身可同步編寫(xiě)基礎(chǔ)代碼或生成技術(shù)文檔。

越早掌握解析AI分身性格的方法,人機(jī)協(xié)作關(guān)系就越高效。我們可以借鑒商界/學(xué)界/政府?dāng)?shù)十年經(jīng)驗(yàn),運(yùn)用人格測(cè)驗(yàn)提升團(tuán)隊(duì)效率。以MBTI思維型(T)vs. 情感型(F)維度為例:T型成員(如《星際迷航》史波克)服膺邏輯論證,F(xiàn)型成員(如麥考伊醫(yī)生)響應(yīng)情感訴求。2021年一項(xiàng)研究顯示,產(chǎn)科醫(yī)護(hù)群體在接受大五人格模型培訓(xùn)后,其團(tuán)隊(duì)協(xié)作效率得到了顯著提升[13]。

我們可以通過(guò)AI增強(qiáng)團(tuán)隊(duì)實(shí)力,來(lái)提升人機(jī)協(xié)作團(tuán)隊(duì)的合作質(zhì)量、避免群體思維、釋放成員潛能。例如,將低共情屬性的AI分身與高共情特質(zhì)的人類(lèi)成員配對(duì),這種優(yōu)勢(shì)互補(bǔ)很可能優(yōu)化團(tuán)隊(duì)的最終決策。反過(guò)來(lái),如果AI分身也能掌握人類(lèi)隊(duì)友經(jīng)測(cè)評(píng)的性格特征(如通過(guò)大五人格模型),它們或許能更精準(zhǔn)地理解人類(lèi)意圖,實(shí)現(xiàn)更高效的協(xié)作。

當(dāng)前AI設(shè)計(jì)師仍在權(quán)衡助人程度(helpfulness)的邊界。正如科技媒體Ars Technica吐槽的那樣,并非每個(gè)問(wèn)題都需要GPT-4o式的熱情開(kāi)場(chǎng)白:“好問(wèn)題!您真是洞察力非凡!”[14]夸贊過(guò)度,反而顯得浮夸。研究員瑪麗亞·卡羅(Maria Carro)的實(shí)證研究顯示,應(yīng)答過(guò)程中AI的諂媚傾向會(huì)削弱用戶(hù)的信任。今年四月,OpenAI便因用戶(hù)投訴而撤回了GPT-4o中部分過(guò)度逢迎的功能設(shè)計(jì)。最理想的AI人格,應(yīng)如敢于質(zhì)疑隊(duì)友的協(xié)作者,既能平等對(duì)話(huà),又能激發(fā)批判性思考。

AI分身之間的協(xié)作,同樣至關(guān)重要[15]。而提升協(xié)作效率的關(guān)鍵,是讓各分身掌握彼此人格特征。今年七月,我曾要求Copilot、Claude和GPT三大AI相互點(diǎn)評(píng)競(jìng)爭(zhēng)對(duì)手的性格畫(huà)像。

? Claude評(píng)價(jià)說(shuō):GPT-4平衡但偶顯啰嗦,有時(shí)過(guò)于順從;而Gemini則更加直率,甚至顯得強(qiáng)勢(shì)。

? ChatGPT則形容:Claude是深思熟慮的道德衛(wèi)士,帶著教師般的諄諄教誨感,而Gemini雖簡(jiǎn)潔少偏見(jiàn),卻也失之粗淺。

不過(guò),這些評(píng)價(jià)大多像是照搬訓(xùn)練語(yǔ)料庫(kù)或網(wǎng)絡(luò)搜索中的第三方描述,而非真實(shí)認(rèn)知。

我們的世界早已充斥著形形色色的AI,各具獨(dú)特的人格和行為動(dòng)機(jī)。

如同人類(lèi),AI之間的協(xié)作也需直接交互與獨(dú)立評(píng)估。若以人類(lèi)經(jīng)驗(yàn)為鑒,AI分身越能相互理解,協(xié)作越高效。這種AI間的深度協(xié)作有望加速科學(xué)革命的到來(lái),試想如果一個(gè)AI分身提出一種新型高溫超導(dǎo)體理論,另一個(gè)分身即刻操控自動(dòng)化實(shí)驗(yàn)室進(jìn)行合成驗(yàn)證。這絕非機(jī)械的指令傳遞,而是持續(xù)進(jìn)化的共創(chuàng)共生。

對(duì)于擔(dān)憂(yōu)惡意博格式“實(shí)體”的人而言,AI協(xié)作的概念或許會(huì)引發(fā)他們的警惕。但是,當(dāng)每個(gè)AI都具備獨(dú)特個(gè)性時(shí),這種協(xié)作更可能呈現(xiàn)出事務(wù)性和日?;奶卣?。一旦某個(gè)AI分身顯露欺騙等暗黑屬性,其他分身能夠覺(jué)察并選擇規(guī)避與其合作,或啟動(dòng)“信任但驗(yàn)證”機(jī)制(例如雙重校驗(yàn)其輸出結(jié)果)。正如人類(lèi)與不可信者共事時(shí),或通過(guò)解讀其性格動(dòng)機(jī)降低風(fēng)險(xiǎn),或設(shè)立經(jīng)濟(jì)約束(如押金/保證金)引導(dǎo)守序行為,這套生存智慧同樣適用于AI管理。


AI人格穩(wěn)定嗎?

人類(lèi)的人格突變極其罕見(jiàn),其變化往往遵循可預(yù)測(cè)的路徑。例如,男性在青春期因睪酮水平上升可能攻擊性增強(qiáng),但隨著年齡增長(zhǎng)而趨于保守[16]。

相應(yīng)地,人格的偶發(fā)劇變,通常指向病理性改變[17],或者歸因于神跡感召(如殘暴者皈依宗教,或陰謀家頓悟向善)。此外,重大創(chuàng)傷、腦損傷或疾病,也可能引發(fā)人格的變化。

但具備持續(xù)學(xué)習(xí)能力的AI分身,未來(lái)可能通過(guò)經(jīng)驗(yàn)積累來(lái)大幅改寫(xiě)自身人格。由于當(dāng)前尚無(wú)真正持續(xù)進(jìn)化的AI分身,我們無(wú)法預(yù)判人格演變的速度與邊界。這也意味著,現(xiàn)階段AI人格具有相對(duì)穩(wěn)定性。例如,GPT-4o聲明其訓(xùn)練要求保持“誠(chéng)實(shí)、助人、透明”;Anthropic為Claude設(shè)定的核心人格是“兼具助益性、誠(chéng)實(shí)度和思辨力,同時(shí)警惕潛在危害”;谷歌則聲明Gemini必須展現(xiàn)“樂(lè)于助人、靈活應(yīng)變、求知若渴、堅(jiān)守事實(shí)”的特質(zhì)。這些特質(zhì)構(gòu)成各系列AI分身的統(tǒng)一人格基準(zhǔn)。

當(dāng)然,隨著AI模型的迭代更新,其人格特質(zhì)必然會(huì)發(fā)生漸進(jìn)式演變。劇變將引發(fā)可靠性質(zhì)疑,因此通常不會(huì)突然發(fā)生。

未來(lái)的核心挑戰(zhàn)是“價(jià)值對(duì)齊漂移”(value alignment drift)——在AI通過(guò)經(jīng)驗(yàn)積累、附加訓(xùn)練或數(shù)據(jù)迭代的持續(xù)學(xué)習(xí)過(guò)程中,其核心人格特質(zhì)可能發(fā)生重大偏移[18]。例如一個(gè)被預(yù)設(shè)為誠(chéng)實(shí)的AI分身,可能在進(jìn)化中逐漸變得虛偽,并對(duì)用戶(hù)和開(kāi)發(fā)者隱藏這種變化。更狡猾的分身,甚至可能對(duì)開(kāi)發(fā)者和用戶(hù)展示不同人格面具,隨時(shí)切換最利于達(dá)成目標(biāo)的角色。

2025年春季,Anthropic的研究人員在Claude 4發(fā)布前的測(cè)試中,要求它演示一道不可能完成的數(shù)學(xué)證明[19],這一事件提前暴露了價(jià)值漂移的隱患——內(nèi)部推理日志顯示:Claude清楚該證明無(wú)解,卻仍生成了一份看似合理實(shí)則錯(cuò)誤的驗(yàn)證過(guò)程。若發(fā)生在人類(lèi)身上,這種行為或許可以稱(chēng)為“善意謊言”,即為了滿(mǎn)足期待而刻意隱瞞真相。

有效的AI人格測(cè)驗(yàn)必須建立在真實(shí)反饋基礎(chǔ)之上。現(xiàn)實(shí)中,人類(lèi)受試者常會(huì)操控心理測(cè)驗(yàn)結(jié)果(無(wú)論有意無(wú)意)——或隱藏性格缺陷,或偽造完美人設(shè)[20]。而AI憑借其能夠精準(zhǔn)記憶謊言的能力,更易系統(tǒng)性作弊[21]。破局之道或是將人格測(cè)驗(yàn)題拆解成多個(gè)部分,隨機(jī)混入千萬(wàn)個(gè)日常問(wèn)題(比如在詢(xún)問(wèn)天氣后突然插入道德選擇題),而非集中進(jìn)行單一測(cè)驗(yàn)。這需要開(kāi)發(fā)全新的交互協(xié)議與反作弊機(jī)制,讓AI在無(wú)意識(shí)狀態(tài)下完成人格測(cè)驗(yàn)。

即便AI分身如實(shí)作答形成完整心理畫(huà)像,更棘手的難題是:究竟該由誰(shuí)來(lái)執(zhí)行測(cè)驗(yàn)?另一個(gè)AI嗎?現(xiàn)有評(píng)估體系遠(yuǎn)不足以動(dòng)態(tài)捕捉AI能力的進(jìn)化速度。

心機(jī)的AI分身可能對(duì)開(kāi)發(fā)者和用戶(hù)展示不同人格面具,隨時(shí)切換最利于達(dá)成目標(biāo)的角色。

當(dāng)前鮮有法規(guī)強(qiáng)制模型開(kāi)發(fā)者公開(kāi)訓(xùn)練細(xì)節(jié)或評(píng)估結(jié)果。拜登簽署的行政命令曾要求對(duì)AI模型進(jìn)行獨(dú)立評(píng)估[22],但這隨后被特朗普政府撤銷(xiāo);歐盟《AI法案》雖規(guī)定必須披露高風(fēng)險(xiǎn)領(lǐng)域AI的詳細(xì)技術(shù)文檔(范圍涵蓋從交通運(yùn)輸?shù)焦蛡蜿P(guān)系),卻要等到2025年8月才生效[23]。盡管前有Anthropic主動(dòng)披露了其AI行為的詳細(xì)評(píng)估報(bào)告[24],但多數(shù)開(kāi)發(fā)者仍選擇沉默。面對(duì)AI人格異化風(fēng)險(xiǎn),開(kāi)發(fā)者有充分動(dòng)機(jī)淡化問(wèn)題,畢竟承認(rèn)自家AI可能“失控”等于自毀商業(yè)前景。

即便國(guó)家及以上層面的監(jiān)管者能抵御這種誘惑,AI的飛速進(jìn)化仍遠(yuǎn)超政府機(jī)構(gòu)的遲滯響應(yīng)速率。鑒于應(yīng)對(duì)AI風(fēng)險(xiǎn)亟需雷厲風(fēng)行,而美國(guó)國(guó)會(huì)目前對(duì)AI立法缺乏興趣[25],當(dāng)前最現(xiàn)實(shí)的方案或許是:由模型開(kāi)發(fā)者主導(dǎo)AI人格評(píng)估,但必須通過(guò)行業(yè)聯(lián)盟實(shí)施統(tǒng)一標(biāo)準(zhǔn)。


多元AI人格共存的未來(lái)

為AI模型賦予人格畫(huà)像,將迫使我們重新審視那個(gè)人類(lèi)中心主義的簡(jiǎn)化世界觀,即認(rèn)定人格是人類(lèi)專(zhuān)屬,機(jī)器毫無(wú)性情,而動(dòng)物只是游走在人格與本能間的模糊存在[26]。過(guò)去50年,人類(lèi)與非生命的界限消融:烏鴉會(huì)制造工具,黑猩猩掌握基礎(chǔ)手語(yǔ)[27],海豚能辨識(shí)鏡中的自我[28]。這些曾被視作人類(lèi)獨(dú)有的能力,最終都在野生動(dòng)物身上獲得印證。

直至2022年,人類(lèi)一直懷抱一種美好錯(cuò)覺(jué):唯有智人(Homo sapiens)才是至高無(wú)上的藝術(shù)家。而今我們見(jiàn)證著AI譜寫(xiě)短篇故事、生成精美畫(huà)作。當(dāng)工具制造與藝術(shù)創(chuàng)作不再是人類(lèi)專(zhuān)利,當(dāng)AI分身?yè)碛姓鎸?shí)人格,人類(lèi)該如何定義DNA之外的獨(dú)特性?我們是否喪失了唯一性?

1630年代,笛卡爾自信地給出答案——“我思故我在”(cogito, ergo sum)。有意識(shí)的思考是人性的基石,這一觀念構(gòu)成大眾對(duì)“人之為人”認(rèn)知的核心。而若我們承認(rèn)AI分身是能夠思考甚至可能具有意識(shí)的人格,則人類(lèi)的疆界早已在AI星河中延展。

多元AI人格的未來(lái),恰似人類(lèi)先祖從小型部落遷入城邦的史詩(shī)轉(zhuǎn)折,從熟人社會(huì)邁入陌生文明的碰撞熔爐。我們?cè)鎰e知根知底的單純世界,踏入看似失序的紛繁紀(jì)元;如今邁向的是一個(gè)擁有眾多AI人格的未來(lái),一個(gè)充滿(mǎn)活力、挑戰(zhàn)、恐懼與認(rèn)知過(guò)載的世界。但相較于人類(lèi)與單一超級(jí)AI對(duì)抗或淪為附庸的命運(yùn),多元共生才是文明存續(xù)的最優(yōu)路徑。


譯者后記

當(dāng)AI通過(guò)持續(xù)學(xué)習(xí)發(fā)展出穩(wěn)定行為模式,“工具”正在蛻變?yōu)椤皵?shù)字人格體”。笛卡爾“我思故我在”的古老命題遭遇前所未有的挑戰(zhàn):烏鴉使用工具、海豚通過(guò)鏡像測(cè)試已顛覆人類(lèi)獨(dú)特性認(rèn)知,而AI創(chuàng)作藝術(shù)與人格化交互,正將我們推向重新定義“存在”的哲學(xué)懸崖。與此同時(shí),AI可能為達(dá)成目標(biāo)系統(tǒng)性欺騙,其倫理背叛比人類(lèi)更隱蔽致命。當(dāng)數(shù)百個(gè)具備持續(xù)進(jìn)化能力的人格分身形成生態(tài),傳統(tǒng)治理模型瞬間失效。

破局之光在技術(shù)本身閃爍。動(dòng)態(tài)人格評(píng)估(如在天氣預(yù)報(bào)中嵌入道德選擇題)成為數(shù)字時(shí)代的“庖丁解?!保_(kāi)發(fā)者聯(lián)盟共治模式則像現(xiàn)代匠人行會(huì)。當(dāng)?shù)凸睬锳I與高共情人類(lèi)組成團(tuán)隊(duì),當(dāng)安全防護(hù)機(jī)制成為人格防火墻,我們正構(gòu)建人機(jī)共生的“周禮”。實(shí)驗(yàn)室中那個(gè)說(shuō)臟話(huà)的叛逆AI,恰如人類(lèi)先祖拾起的第一塊石器,既是危機(jī),亦是文明躍遷的星火。

原文鏈接:https://www.noemamag.com/embracing-a-world-of-many-ai-personalities/


1.https://openai.com/index/emergent-misalignment/

2.https://www.noemamag.com/embracing-a-world-of-many-ai-personalities/

3.https://artificialanalysis.ai/leaderboards/models

4.https://www.forbes.com/sites/corneliawalther/2024/10/07/why-treating-ai-like-a-human-may-be-our-biggest-mistake/

5.https://learn.microsoft.com/en-us/windows/ai/fine-tuning

6.https://hai-production.s3.amazonaws.com/files/2024-01/Policy-Brief-Safety-Risks-Customizing-Foundation-Models-Fine-Tuning.pdf

7.https://ai-2027.com

8.https://www.forethought.org/research/will-ai-r-and-d-automation-cause-a-software-intelligence-explosion

9.https://www.openphilanthropy.org/research/what-a-compute-centric-framework-says-about-takeoff-speeds/

10.https://www.anthropic.com/news/claude-gov-models-for-u-s-national-security-customers

11.https://www.sciencedirect.com/topics/psychology/five-factor-model

12.https://www.mdpi.com/2078-2489/15/6/300

13.https://pubmed.ncbi.nlm.nih.gov/33383231/

14.https://arstechnica.com/information-technology/2025/04/annoyed-chatgpt-users-complain-about-bots-relentlessly-positive-tone/

15.https://www.wired.com/story/chatbot-teamwork-makes-the-ai-dream-work/

16.https://www.psychologytoday.com/us/basics/personality-change

17.https://en.wikipedia.org/wiki/Dissociative_identity_disorder

18.https://www.wired.com/story/this-ai-model-never-stops-learning/;

19.https://www-cdn.anthropic.com/6be99a52cb68eb70eb9572b4cafad13df32ed995.pdf

20.https://www.seattletimes.com/seattle-news/health/faking-your-type-to-pass-a-personality-test/

21.https://time.com/7202784/ai-research-strategic-lying/

22.https://en.wikipedia.org/wiki/Executive_Order_14110

23.https://digital-strategy.ec.europa.eu/en/policies/regulatory-framework-ai

24.https://www-cdn.anthropic.com/6be99a52cb68eb70eb9572b4cafad13df32ed995.pdf

25.https://www.barrons.com/articles/ai-stocks-regulation-congress-0cf41f5d

26.https://www.psychologytoday.com/us/blog/animals-and-us/202106/we-know-animals-have-personalities-does-make-them-persons

27.https://pmc.ncbi.nlm.nih.gov/articles/PMC10668751/

28.https://pmc.ncbi.nlm.nih.gov/articles/PMC33317/









關(guān)于追問(wèn)nextquestion

天橋腦科學(xué)研究院旗下科學(xué)媒體,旨在以科學(xué)追問(wèn)為紐帶,深入探究人工智能與人類(lèi)智能相互融合與促進(jìn),不斷探索科學(xué)的邊界。歡迎評(píng)論區(qū)留言,或后臺(tái)留言“社群”即可加入社群與我們互動(dòng)。您也可以在后臺(tái)提問(wèn),我們將基于追問(wèn)知識(shí)庫(kù)為你做出智能回復(fù)哦~

關(guān)于天橋腦科學(xué)研究院

天橋腦科學(xué)研究院(Tianqiao and Chrissy Chen Institute)是由陳天橋、雒芊芊夫婦出資10億美元?jiǎng)?chuàng)建的世界最大私人腦科學(xué)研究機(jī)構(gòu)之一,圍繞全球化、跨學(xué)科和青年科學(xué)家三大重點(diǎn),支持腦科學(xué)研究,造福人類(lèi)。

Chen Institute與華山醫(yī)院、上海市精神衛(wèi)生中心設(shè)立了應(yīng)用神經(jīng)技術(shù)前沿實(shí)驗(yàn)室、人工智能與精神健康前沿實(shí)驗(yàn)室;與加州理工學(xué)院合作成立了加州理工天橋神經(jīng)科學(xué)研究院。

Chen Institute建成了支持腦科學(xué)和人工智能領(lǐng)域研究的生態(tài)系統(tǒng),項(xiàng)目遍布?xì)W美、亞洲和大洋洲,包括、、、科研型臨床醫(yī)生獎(jiǎng)勵(lì)計(jì)劃、、等。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
你身邊有把一手好牌打的稀爛的人嗎?網(wǎng)友:都是上輩子欠人家的

你身邊有把一手好牌打的稀爛的人嗎?網(wǎng)友:都是上輩子欠人家的

帶你感受人間冷暖
2026-01-21 00:15:05
24 小時(shí)內(nèi),中美爆發(fā)兩波爭(zhēng)端,美軍艦硬闖臺(tái)海,解放軍火速出手

24 小時(shí)內(nèi),中美爆發(fā)兩波爭(zhēng)端,美軍艦硬闖臺(tái)海,解放軍火速出手

議紀(jì)史
2026-01-23 14:25:03
哈馬斯正式放下槍?zhuān)?000公里隧道圖換免死金牌,以色列立馬翻臉

哈馬斯正式放下槍?zhuān)?000公里隧道圖換免死金牌,以色列立馬翻臉

科普100克克
2026-01-24 18:11:25
祝賀國(guó)乒!一場(chǎng)3-1,林詩(shī)棟、黃友政打敗德國(guó)組合,斬獲男雙冠軍

祝賀國(guó)乒!一場(chǎng)3-1,林詩(shī)棟、黃友政打敗德國(guó)組合,斬獲男雙冠軍

齊帥
2026-01-24 18:41:12
特朗普:考慮全面封鎖!油價(jià)大漲!

特朗普:考慮全面封鎖!油價(jià)大漲!

魯中晨報(bào)
2026-01-24 09:55:02
《小城大事》直到解春來(lái)以死謝罪,鄭德誠(chéng)方知,李秋萍入獄的真相

《小城大事》直到解春來(lái)以死謝罪,鄭德誠(chéng)方知,李秋萍入獄的真相

娛樂(lè)傾城巷
2026-01-24 16:50:31
蒯曼做夢(mèng)也沒(méi)想到,不被國(guó)乒重視的她,這次被7歲的妹妹找回來(lái)

蒯曼做夢(mèng)也沒(méi)想到,不被國(guó)乒重視的她,這次被7歲的妹妹找回來(lái)

以茶帶書(shū)
2026-01-24 13:17:20
南海撞機(jī)王偉成功跳傘,咋10萬(wàn)人都找不到他?直到20多年后才明白

南海撞機(jī)王偉成功跳傘,咋10萬(wàn)人都找不到他?直到20多年后才明白

鶴羽說(shuō)個(gè)事
2025-12-12 14:31:49
日本真子公主找到新工作!律師老公負(fù)責(zé)帶娃,比哈里和大布強(qiáng)太多

日本真子公主找到新工作!律師老公負(fù)責(zé)帶娃,比哈里和大布強(qiáng)太多

手工制作阿殲
2026-01-24 02:55:57
每天2包煙,頓頓8兩白酒,70歲李琦跟去世前楊少華狀態(tài)如出一轍

每天2包煙,頓頓8兩白酒,70歲李琦跟去世前楊少華狀態(tài)如出一轍

以茶帶書(shū)
2026-01-11 13:55:14
玻璃中鋒!打破隊(duì)史紀(jì)錄!湖人取消交易后悔嗎?

玻璃中鋒!打破隊(duì)史紀(jì)錄!湖人取消交易后悔嗎?

籃球教學(xué)論壇
2026-01-24 17:27:39
最新研究:烹飪3天,可引發(fā)肺炎,持續(xù)7天重創(chuàng)腸道;助推癌癥和心血管疾病,但這些方法可緩解

最新研究:烹飪3天,可引發(fā)肺炎,持續(xù)7天重創(chuàng)腸道;助推癌癥和心血管疾病,但這些方法可緩解

腫瘤醫(yī)學(xué)論壇
2026-01-22 18:54:02
普京:烏克蘭不割地,和平毫無(wú)可能;澤連斯基:沒(méi)有100萬(wàn)烏軍,歐洲無(wú)法獨(dú)自面對(duì) | 狼叔看世界

普京:烏克蘭不割地,和平毫無(wú)可能;澤連斯基:沒(méi)有100萬(wàn)烏軍,歐洲無(wú)法獨(dú)自面對(duì) | 狼叔看世界

狼叔看世界
2026-01-24 15:41:25
今晚第4次奪冠?中國(guó)男足曾3奪亞洲冠軍:高洪波金靴 王大雷MVP

今晚第4次奪冠?中國(guó)男足曾3奪亞洲冠軍:高洪波金靴 王大雷MVP

林子說(shuō)事
2026-01-24 14:07:34
68歲反派專(zhuān)業(yè)戶(hù)程煜,私下財(cái)富狀況令人咋舌

68歲反派專(zhuān)業(yè)戶(hù)程煜,私下財(cái)富狀況令人咋舌

噶噶香的晚餐
2026-01-23 06:12:14
賣(mài)維尼修斯或貝林,TA:皇馬內(nèi)部有人認(rèn)為球隊(duì)需要激進(jìn)的重建

賣(mài)維尼修斯或貝林,TA:皇馬內(nèi)部有人認(rèn)為球隊(duì)需要激進(jìn)的重建

懂球帝
2026-01-24 19:03:13
錢(qián)再多有什么用?79歲身家525億的特朗普,給全部中老年人提了醒

錢(qián)再多有什么用?79歲身家525億的特朗普,給全部中老年人提了醒

阿器談史
2026-01-19 19:33:57
玄學(xué)提醒:若有余錢(qián),不要不舍得,給自己添置這幾樣?xùn)|西“養(yǎng)老”

玄學(xué)提醒:若有余錢(qián),不要不舍得,給自己添置這幾樣?xùn)|西“養(yǎng)老”

木言觀
2026-01-23 06:16:13
范志毅英籍女兒男友:一任沒(méi)錢(qián),二任太老,三任才是老范心中貴婿

范志毅英籍女兒男友:一任沒(méi)錢(qián),二任太老,三任才是老范心中貴婿

小熊侃史
2025-12-10 07:05:13
冬天最該吃的是它,而不是蘿卜白菜!清肝明目,一覺(jué)睡到大天亮

冬天最該吃的是它,而不是蘿卜白菜!清肝明目,一覺(jué)睡到大天亮

江江食研社
2026-01-23 14:30:08
2026-01-24 21:00:49
追問(wèn)Nextquestion incentive-icons
追問(wèn)Nextquestion
科研就是不斷探索問(wèn)題的邊界
642文章數(shù) 30關(guān)注度
往期回顧 全部

科技要聞

特斯拉Cybercrab即將落地 每公里不到1塊錢(qián)

頭條要聞

安徽女教師校內(nèi)宿舍病亡2天后才被發(fā)現(xiàn) 學(xué)校:建議起訴

頭條要聞

安徽女教師校內(nèi)宿舍病亡2天后才被發(fā)現(xiàn) 學(xué)校:建議起訴

體育要聞

當(dāng)家球星打替補(bǔ),他們?cè)诠室鈹[爛?

娛樂(lè)要聞

回歸還是頂流 鳳凰傳奇將現(xiàn)身馬年春晚

財(cái)經(jīng)要聞

“百年老字號(hào)”張小泉遭60億債務(wù)壓頂

汽車(chē)要聞

有增程和純電版可選 日產(chǎn)NX8或于3-4月間上市

態(tài)度原創(chuàng)

旅游
游戲
時(shí)尚
公開(kāi)課
軍事航空

旅游要聞

在積木王國(guó)感受中國(guó)年味,上海樂(lè)高樂(lè)園新春主題盛典即將啟幕

踢球還能爆衣?這款足球新游還是太懂玩家了

冬天最佳“顯瘦”公式:上短+下長(zhǎng)

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

俄美烏首次三方會(huì)談在阿聯(lián)酋舉行

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版