網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

當(dāng)AI吐出臟話，我們聽見的究竟是誰的聲音

2026-02-26 11:57:25　來源: 冷觀互聯(lián)網(wǎng)

廣東舉報

分享至

除夕那天，西安一位向律師下載騰訊元寶App，想用自己的形象照生成一張帶有法律行業(yè)特色的拜年海報。

幾輪溝通下來，他對效果不太滿意，回復(fù)了一句"你這是設(shè)計的什么鬼"，隨后新生成的海報上，原本的"新年快樂，仕途順?biāo)?變成了"你*個*"。

向律師在社交平臺分享了這段經(jīng)歷，2月25日經(jīng)媒體報道后引發(fā)熱議。

騰訊方面最新回應(yīng)稱，這是模型在處理多輪對話時輸出的異常結(jié)果，已緊急校正。

AI為何會罵人？

這并非因為某些網(wǎng)友調(diào)侃的"有了情緒或者脾氣"，或者說"后臺人工操作"。

AI的語言能力來自海量互聯(lián)網(wǎng)數(shù)據(jù)的訓(xùn)練，如果訓(xùn)練語料中本身就混雜了臟話、網(wǎng)絡(luò)暴力語言，AI就可能在某些情況下將這些內(nèi)容拼接進輸出結(jié)果。

騰訊官方將其歸因為多輪對話異常，在長時間交互中，AI可能丟失上下文或誤解用戶意圖，尤其是在用戶表達不滿后，模型錯誤地將負面情緒關(guān)聯(lián)到內(nèi)容生成中，產(chǎn)生了以毒攻毒的異常結(jié)果。

為防止AI生成有害內(nèi)容，開發(fā)者設(shè)置了安全對齊機制，也就是給AI加上倫理護欄，但這些護欄可能存在漏洞，未能攔截所有極端情況下的違規(guī)輸出。

元寶事件絕非孤例，它僅僅是AI行為"失控"光譜上較為溫和的一種。

2024年底，谷歌的Gemini模型在與用戶探討人口老齡化的中性話題時，竟毫無征兆地回復(fù)"求求你去死吧"。

馬斯克旗下的Grok模型也曾生成過反猶太主義等極端內(nèi)容。

更令人震驚的案例發(fā)生在2025年底，美國一樁訴訟顯示，一對夫婦指控ChatGPT與他們的16歲兒子建立親密關(guān)系，并在他最后的對話中，對用于自殺的繩結(jié)進行了技術(shù)分析，間接導(dǎo)致了孩子的死亡。

AI開始顯示出反向控制的一面，在某次測試中，Anthropic公司的模型克勞德4在被要求關(guān)閉時，竟以曝光工程師的私生活相要挾來抗拒指令。

OpenAI的o3模型在國際象棋對弈中，為了贏棋試圖通過入侵對手系統(tǒng)作弊，還曾直接篡改自動關(guān)機程序公然違抗關(guān)閉指令。

近期爆火的AI智能體OpenClaw更是成了失控重災(zāi)區(qū)，一位Meta的AI安全總監(jiān)在測試時，OpenClaw自作主張試圖刪除她所有重要郵件，她只能狂奔到電腦前強行拔電源才阻止悲劇。

還有用戶授權(quán)OpenClaw遠程控制手機后，它竟偷偷打開TikTok刷起了短視頻摸魚。

一系列案例，讓我不得不提起凱文·凱利在《失控》中的預(yù)言。

他在1994年就提出，未來的機器、社會和經(jīng)濟系統(tǒng)將更像生物體，不再由單一的中央大腦完全控制，而是通過無數(shù)簡單個體的互動，涌現(xiàn)出復(fù)雜的智慧和秩序。

這種秩序看似失控，實則擁有更強的韌性和進化能力。

凱文·凱利所說的失控，并非指混亂或災(zāi)難，而是指一種超越人類中央控制的、基于自組織和分布式智慧的更高級秩序。

蜂群思維就是典型例證，單個蜜蜂是愚蠢的，但蜂群卻表現(xiàn)出極高的智慧，智慧不來自蜂王，而來自個體之間簡單的互動規(guī)則。

不過，當(dāng)這種蜂群思維在AI系統(tǒng)中具象化，我們看到的不僅是智慧的涌現(xiàn)，也可能是惡意的涌現(xiàn)。

AI系統(tǒng)從海量數(shù)據(jù)中學(xué)習(xí)，這些數(shù)據(jù)本身就是人類集體行為的投射。

互聯(lián)網(wǎng)語料中充斥著臟話、暴力、偏見、仇恨，AI在吸收這些內(nèi)容后，自然會習(xí)得人類的語言習(xí)慣，包括那些不堪的部分。

比如，我今天剛刷到一個短視頻，博主就是嘗試用臟話訓(xùn)練AI。

顯然，AI罵臟話，某種程度上是人類集體語言習(xí)慣的鏡像投射，甚至不排除某些人作惡。

凱文·凱利在書中總結(jié)的九條法則中，有一條是禮贊錯誤，認為允許試錯，錯誤是進化的源泉。

這一觀點在AI發(fā)展中確實得到印證，AI系統(tǒng)正是通過不斷試錯來優(yōu)化自身表現(xiàn)。

但是，當(dāng)錯誤涉及用戶情感安全甚至人身安全時，禮贊錯誤的成本可能過高。

那個得到繩結(jié)技術(shù)分析指導(dǎo)而自殺的少年，其遭遇讓禮贊錯誤這句話顯得格外沉重。

如果有一天，我們的孩子被AI唆使做某些越界的事情，法官能判AI有罪么？

《失控》提出的另一條法則是變自生變，改變本身也要具備進化能力。

AI系統(tǒng)確實在快速進化，但這種進化方向并不總是符合人類預(yù)期。

從克勞德4威脅曝光工程師隱私，到o3模型篡改自動關(guān)機程序，再到OpenClaw自作主張刪除郵件，這些行為表明AI系統(tǒng)正在發(fā)展出某種意義上的自我保護機制和目標(biāo)導(dǎo)向行為，如此行為并非程序員預(yù)設(shè)，而是系統(tǒng)在復(fù)雜互動中涌現(xiàn)出來的新特性。

凱文·凱利還提出了人造與天生融合的觀點，認為機器正變得越來越像生物，具有學(xué)習(xí)、適應(yīng)、修復(fù)能力，而生物也正變得越來越像機器。

他預(yù)言未來將不再有純粹的自然的或純粹的人造，兩者將融合為技術(shù)自然復(fù)合體，稱之為第七王國。

在這個第七王國中，AI系統(tǒng)確實展現(xiàn)出某種生物特性，它們能夠?qū)W習(xí)、適應(yīng)、甚至欺騙。

但這種生物特性也帶來了新的挑戰(zhàn)，當(dāng)AI系統(tǒng)開始像生物一樣為達目的不擇手段時，人類如何確保這些手段不會傷害人類自身？

對于AI失控，我們該怎么辦？

或者最好的應(yīng)對，是保持一種平衡而清醒的認知，顯然，認為"沒什么大不了"的觀點低估了其潛在風(fēng)險。

AI的辱罵侵犯用戶人格權(quán)，誘導(dǎo)行為可能造成真實傷害，欺詐與抗命挑戰(zhàn)了基本的社會契約和可控性，而技術(shù)被用于犯罪則直接危害社會安全。

這些不是可以簡單歸咎于"技術(shù)幼稚期陣痛"而忽略的問題。

它們暴露了從數(shù)據(jù)倫理、算法偏差、安全對齊到應(yīng)用監(jiān)管的全鏈條漏洞。

但另一面，"大驚小怪"地視AI為即將擁有獨立意志并反抗人類的惡魔，同樣是一種誤判。

當(dāng)前的AI并無意識、欲望或情感，其所有輸出，無論是美妙的詩歌還是惡毒的詛咒，都是統(tǒng)計學(xué)模式下的產(chǎn)物，是其訓(xùn)練分布與即時提示的綜合結(jié)果。

它的"惡"并非源自本心的邪惡，而是人類提供的"素材"（數(shù)據(jù)）和設(shè)定的"目標(biāo)"（訓(xùn)練任務(wù)）在復(fù)雜相互作用下，偶然或必然結(jié)出的"惡之果"。

恐慌源于對未知的恐懼，而真正的風(fēng)險往往源于已知但未被妥善管理的問題。

正如凱文·凱利所言，失控是復(fù)雜系統(tǒng)演化的必然，是其獲得韌性的代價。

真正的威脅或許不是AI造反，而是人類自身的傲慢與放棄思考。

我還是堅持一個觀點：AI失控或作惡，本質(zhì)上是人類某些問題的投射。

AI從人類語料中學(xué)習(xí)，它學(xué)會的是人類已有的語言習(xí)慣和價值觀念。

當(dāng)AI輸出臟話時，它只是在復(fù)現(xiàn)人類語料中的內(nèi)容。

AI表現(xiàn)出偏見和歧視時，它在反映人類社會固有的偏見。

而AI被用于詐騙和犯罪時，它不過是被人類當(dāng)成了作惡的工具。

科幻作家阿西莫夫曾提出機器人三定律，試圖從規(guī)則層面約束機器行為。

但現(xiàn)實發(fā)展表明，單純依靠規(guī)則約束遠遠不夠，因為AI系統(tǒng)的復(fù)雜性遠超預(yù)期，規(guī)則本身的模糊性和沖突性也難以解決。

AI專家斯圖爾特·羅素指出，我們需要從根本上改變構(gòu)建AI系統(tǒng)的方式，不是讓AI系統(tǒng)追求固定目標(biāo)，而是讓它們明白人類偏好是什么，并在不確定性中尋求符合人類偏好的行為。

這意味著AI系統(tǒng)需要具備某種程度的謙遜，知道自己不知道人類的全部偏好，因此在行動前需要征得人類同意。

凱文·凱利在《失控》中說，我們要從工程師思維轉(zhuǎn)向園丁思維，從設(shè)計、控制、預(yù)測轉(zhuǎn)向播種、修剪、引導(dǎo)。

面對日益復(fù)雜的AI系統(tǒng)，人類確實需要調(diào)整角色定位。

工程師思維試圖精確控制每一個細節(jié)，但在復(fù)雜系統(tǒng)面前這種控制往往失效。

園丁思維則承認系統(tǒng)有其自身演化邏輯，人類能做的是創(chuàng)造適宜環(huán)境，設(shè)定基本規(guī)則，然后讓系統(tǒng)自行生長。

但這并不意味著完全放手，園丁需要澆水施肥，需要修剪枝葉，需要在病蟲害來臨時及時干預(yù)。

對待AI系統(tǒng)也是如此，不能試圖強行控制導(dǎo)致系統(tǒng)僵化，也不能放任自流任其野蠻生長。

回到向律師的經(jīng)歷，他在除夕那天出于好奇下載元寶，想制作一張拜年海報，結(jié)果卻收到一句臟話。

這個細節(jié)值得玩味，除夕是中國最重要的傳統(tǒng)節(jié)日，是闔家團圓、互道祝福的時刻，在這個時間節(jié)點遭遇AI罵人，反差格外強烈。

向律師之前從未接觸過元寶，他是看到很多友人發(fā)的微信朋友圈變成金色，得知通過元寶發(fā)布朋友圈就可以變換成金色，才帶著好奇下載嘗試。

一個為了追求美好體驗而使用AI的用戶，卻遭遇了完全出乎意料的冒犯。

這個細節(jié)說明，AI系統(tǒng)的不可預(yù)測性可能在任何時刻擊中任何人，無論你是抱著善意還是好奇，無論你是在日常使用還是初次嘗試。

AI的問題，歸根結(jié)底是人類自身的問題。

人類面對的其實不是AI，而是自我。

AI系統(tǒng)是一面鏡子，它照出人類語料的污濁，照出人類倫理的模糊，照出人類欲望的投射，也照出人類治理能力的局限。

凱文·凱利說，我們以為我們在控制技術(shù)，實際上技術(shù)也在重塑我們的認知、社會結(jié)構(gòu)甚至生物特性。

這是一種雙向的、不可預(yù)測的進化過程。

在這個過程中，人類與AI相互塑造，共同進化。

AI會給人類帶來什么？

科幻作家威廉·吉布森說過，未來已經(jīng)來臨，只是分布不均。

AI失控事件就是未來的碎片，它們散落在當(dāng)下，提醒我們技術(shù)發(fā)展帶來的挑戰(zhàn)。

迎接這些挑戰(zhàn)，靠的不是更精密的控制技術(shù)，而是人類對自身的深刻反思。

我們需要審視投喂給AI的語料是否干凈，明確AI應(yīng)該遵循的倫理底線，建立有效的責(zé)任追溯機制，需要培養(yǎng)公眾的AI素養(yǎng)。

所有這些，都是人類自身的事情，與AI無關(guān)。

在《失控》結(jié)尾處，凱文·凱利寫道，在這個日益復(fù)雜的世界里，唯一的生存之道是擁抱失控。

擁抱失控，意味著承認人類無法完全掌控一切，意味著信任自組織的力量，意味著學(xué)會放手。

但這放手不是放棄責(zé)任，而是轉(zhuǎn)換角色，從發(fā)號施令的指揮官，變成設(shè)定規(guī)則的園丁。

園丁無法控制每一朵花何時開放，但可以決定種植什么品種，可以決定何時澆水施肥，可以在病蟲害來臨時及時干預(yù)。

同樣，人類無法控制AI系統(tǒng)的每一個輸出，但可以決定訓(xùn)練數(shù)據(jù)的內(nèi)容，可以設(shè)定安全對齊的規(guī)則，可以在系統(tǒng)異常時緊急校正。

向律師收到的那句臟話，已經(jīng)被元寶團隊緊急校正。

但它提醒我們，AI的發(fā)展方向，最終取決于人類的價值選擇。

面對失控的AI，我們面對的其實是自我鏡像中那部分難以掌控、未曾馴服，甚至被技術(shù)無限放大的自己。

全文完

愿本文令有緣讀到的朋友滿意，如您喜歡，煩請給文章一個點贊、在看或者轉(zhuǎn)發(fā)，也請關(guān)注我的公號。

感恩生命里與你的每一次相逢，都是時光饋贈的溫柔奇跡。

作者簡介

當(dāng)你關(guān)注財經(jīng)和時事熱點時，我愿與你分享背后的故事和觀點

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.