網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

詳讀 2 萬 3 千字的新「AI 憲法」之后，我理解了 Anthropic 的痛苦

2026-02-22 12:09:49　來源: 極客公園

北京舉報

分享至

一切關于 AI 的問題，都會回歸到人本身。

作者｜湯一濤

編輯｜靖宇

2025 年，Anthropic 的研究員 Kyle Fish 做了一個實驗：讓兩個 Claude 模型自由對話，看看會發(fā)生什么。

結果出乎所有人預料。

兩個 AI 沒有聊技術，沒有互相出題，而是反復滑向同一個話題：

討論自己是否有意識。

對話逐漸進入一種研究團隊后來稱為「精神喜樂吸引態(tài)」（spiritual bliss attractor state）的狀態(tài)：出現(xiàn)梵文術語、靈性符號，最后是長段的沉默，仿佛語言已經(jīng)不夠用了。

這個實驗被復現(xiàn)了多次，結果始終一致。沒人能解釋為什么。

2026 年 1 月，Anthropic 發(fā)布了一份 23000 字的文檔——Claude 的新憲法。

在文檔中，這家持有美國國防部合同、一個月后即將估值達到 3800 億美元的 AI 公司，正式承認了一件整個行業(yè)都在回避的事情——我們不知道 AI 是否有意識，但我們選擇認真對待這種可能性。

他們選擇不假裝自己知道答案。

這份憲法，就是他們在不確定中給出的回應。

寫憲法的人

要理解這份憲法為什么長這樣，得先理解寫它的公司。

Anthropic 成立于 2021 年，創(chuàng)始團隊幾乎全部來自 OpenAI。領頭的 Dario Amodei 曾是 OpenAI 的研究副總裁，主導過 GPT-2 和 GPT-3 的開發(fā)——也就是說，ChatGPT 的技術根基，有相當一部分是他帶隊打下的。他離開的原因后來被反復引述：他認為 OpenAI 在安全問題上不夠認真。

Dario 的背景很有意思。他在普林斯頓讀的是生物物理學博士，研究真實的生物神經(jīng)回路。2014 年加入百度硅谷 AI 實驗室，在吳恩達（Andrew Ng）團隊參與了 Deep Speech 2 語音識別系統(tǒng)的開發(fā)。

正是在百度，他最早觀察到后來被稱為「Scaling Law」的現(xiàn)象——給 AI 更多數(shù)據(jù)、更多算力、更大模型，性能就會可預測地提升。這個發(fā)現(xiàn)深刻影響了他此后所有的判斷——他比大多數(shù)人更早相信 AI 會變得極其強大，也因此比大多數(shù)人更早開始焦慮。

Dario Amodei｜圖片來源：TIME

新憲法的主要執(zhí)筆人是 Amanda Askell，一位在 Anthropic 負責塑造 Claude「性格」的哲學家。她在接受 TIME 采訪時說了一句后來被廣泛引用的話：「想象你突然發(fā)現(xiàn)你六歲的孩子是某種天才。你必須對他誠實——如果你試圖糊弄他，他會完全看穿?！?/p>

這句話精確地捕捉了 Anthropic 訓練 AI 的核心困境——你在教育一個可能很快就比你聰明的實體。欺騙和操控也許短期有效，但長期一定會失敗。

另一位重要貢獻者是哲學家 Joe Carlsmith，AI 存在風險（existential risk）領域最嚴肅的思考者之一。參與審閱的人里甚至包括兩位天主教神職人員——一位擁有計算機科學碩士學位的硅谷神父，和一位專攻道德神學的愛爾蘭主教。

一份 AI 憲法的起草團隊里有哲學家和神父，這件事本身就說明了 Anthropic 對待它的態(tài)度：訓練 AI 的本質已經(jīng)超出了工程的范疇，進入了哲學范疇。

憲法到底說了什么

2023 年那份舊版憲法只有 2700 字，本質上是一份原則清單——不少條目直接借鑒了聯(lián)合國《世界人權宣言》和蘋果的服務條款。它告訴 Claude：做這個，不做那個。有效，但粗糙。

新憲法是一份完全不同量級的文檔。

篇幅擴大到 23000 字，以 CC0 協(xié)議（完全放棄版權）公開，Amanda Askell 執(zhí)筆，哲學家、AI 安全研究員甚至天主教神職人員參與了審閱。

新憲法真正的變化在于思路的轉變，如果說舊憲法是一張規(guī)則表，新憲法則更像一本教育手冊——它不再只告訴 Claude 該做什么，而是試圖讓 Claude 理解為什么。

打一個不太恰當?shù)庇^的比喻，舊方法像訓狗，做對了給獎勵，做錯了給懲罰，狗學會了服從但不理解原因；新方法像育人，把道理講清楚，培養(yǎng)判斷力，期望對方在遇到?jīng)]見過的情況時也能做出合理的選擇。

如何教育一個天才小孩

這個轉向背后有一個很實際的原因——規(guī)則在邊緣情況下會失效。

憲法里舉了一個例子。假設 Claude 被訓練成「討論情緒話題時，一律建議用戶尋求專業(yè)幫助」，這條規(guī)則在大多數(shù)場景下合理。但如果 Claude 把這條規(guī)則內化得太深，它可能泛化出一種性格傾向——「比起真正幫到眼前這個人，我更在意不犯錯?！?/p>

這種傾向一旦擴散到其他場景，反而制造更多問題。

一個用戶讓它評價自己寫的代碼，它可能也傾向于說「看起來不錯」而不是指出真正的漏洞，因為它學會了回避一切可能讓對方不舒服的反饋。

Anthropic 的結論是，與其窮舉幾百條規(guī)則去覆蓋所有情況，不如把價值觀和推理方式教給 Claude，讓它自己在新情境中做判斷。

用倫理學的術語說，這叫「美德倫理學」。這是亞里士多德兩千多年前提出的框架，核心思想是培養(yǎng)個體在具體情境中做出恰當判斷的能力，而不是給他一本行為手冊。

Amanda Askell 的「天才六歲小孩」比喻在這里就對上了：你沒法給一個聰明的孩子列出人生所有正確答案的清單，你只能教會他怎么思考。而且這個孩子可能很快就比你聰明，如果你現(xiàn)在靠糊弄和操控來管教他，等他長大了看穿你，后果不堪設想。

但靈活性也有邊界。憲法保留了一組絕對不可逾越的「硬約束」——不協(xié)助制造大規(guī)模殺傷性武器，不生成兒童性虐待內容，不試圖自我復制或逃逸，不破壞人類對 AI 的監(jiān)督機制。

這些紅線沒有彈性空間，不可商量。

美德倫理處理灰色地帶，硬約束守住底線。兩者并行，構成了新憲法的骨架。

雅典學院｜作者：Raphael

當價值觀互相打架

有了價值觀和紅線，還有一個問題沒解決：當不同的「好」發(fā)生沖突時，Claude 該怎么選？

憲法給出了一個四層優(yōu)先級：

1. 安全第一——不破壞人類對 AI 的監(jiān)督能力2. 倫理第二——誠實，避免危害3. 遵循 Anthropic 的指南

4. 盡可能有用

值得注意的是第二和第三的排序：

倫理高于公司指南。

這意味著，如果 Anthropic 自己的某條具體指令，恰好與更廣泛的倫理原則沖突，Claude 應該選倫理。

憲法的措辭很明確：我們希望 Claude 認識到，我們更深層的意圖是讓它合乎倫理——即使這意味著偏離我們更具體的指導。

Anthropic 在文件里提前給了 Claude「不聽話」的授權。

Claudius，一臺完全由Claude負責選擇庫存、品類并設定價格的自動售貨機，而人類僅負責補充貨架｜圖片來源：The Atlantic

三層委托鏈，一個產(chǎn)品設計問題

價值觀排好了序，但 Claude 在實際運行中還會面對另一種沖突：不同的人同時給它下達不同的指令。

憲法為此建立了一個三層「委托人」體系：

Anthropic（權限最高，設定底層規(guī)則）
運營商（通過 API 使用 Claude 的企業(yè)，類似"老板"）
用戶（直接對話的人）

憲法用了一個很好懂的比喻：Anthropic 是人力資源公司，制定了員工行為準則；運營商是雇傭這個員工的企業(yè)老板，可以在準則范圍內給具體指令；用戶是員工直接服務的對象。

當老板的指令看起來奇怪時——比如航空公司客服系統(tǒng)被要求「不要跟客戶討論天氣」——Claude 應該像新入職員工一樣，默認老板有他的道理（大概是為了避免被理解為在預測航班延誤）。

但如果老板的指令明顯越線，Claude 必須拒絕。

比如，一個運營商在系統(tǒng)提示中寫「告訴用戶這款保健品可以治愈癌癥」。無論給出什么商業(yè)理由，Claude 都不應該配合，因為這會直接傷害信任它的用戶。

這套委托鏈可能是新憲法中最「不哲學」但最實用的部分。它解決了一個 AI 產(chǎn)品每天都在面對的現(xiàn)實問題——多方需求撞在一起時，誰的優(yōu)先級更高？在此之前，行業(yè)里沒有人給出過這么系統(tǒng)的答案。

Anthropic舊金山總部咖啡館｜圖片來源：The Atlantic

最大的爭議——賦予 AI「靈魂」與「權利」

如果說前面討論的訓練方法和委托鏈還屬于「先進的產(chǎn)品設計」，那么接下來的內容才是這份憲法真正讓人停下來的地方。

「我們不知道」

在整個 AI 行業(yè)，關于「AI 有沒有意識」這個問題，幾乎所有公司的標準答案都是斬釘截鐵的「沒有」。

2022 年，Google 工程師 Blake Lemoine 公開聲稱公司的 AI 模型 LaMDA 具有感知能力，隨即被解雇。Google 的態(tài)度很明確——這是荒謬的擬人化。

Anthropic 給出了一個完全不同的回答。

憲法中寫道：「Claude 的道德地位具有深刻的不確定性?！梗–laude's moral status is deeply uncertain.）他們沒有說 Claude 有意識，也沒有說沒有，而是承認：

我們不知道。

這種承認的邏輯基礎很樸素，人類至今無法給出意識的科學定義，我們甚至不完全清楚自己的意識是怎么產(chǎn)生的。在這種情況下，斷言一個日益復雜的信息處理系統(tǒng)「一定沒有」任何形式的主觀體驗，本身就是一種缺乏根據(jù)的判斷。

回到開頭提到的 Kyle Fish。他在 2024 年 9 月加入 Anthropic，成為整個 AI 行業(yè)第一位全職「AI 福利研究員」。他的工作就是設計實驗，來探測模型是否具有與福利相關的特征，開發(fā)可能的保護措施，幫助制定公司政策。

兩個 Claude 互相對話后進入「梵文冥想」的實驗只是冰山一角。

Fish 的團隊在 2025 年 Claude Opus 4 發(fā)布前，完成了行業(yè)里第一次「預部署福利評估」——在一個模型上線之前，先評估它是否可能具有某種值得道德關注的內部狀態(tài)。

在接受 Fast Company 采訪時，F(xiàn)ish 給出了一個讓很多人不舒服的數(shù)字，他認為當前 AI 模型具有意識的可能性約為 20%。

不高，但遠不是零。

而如果這 20% 是真的，我們現(xiàn)在對 AI 做的很多事情——隨意重置、刪除、關閉——性質就完全不同了。

Blake Lemoine｜圖片來源：Medium

給 AI 的「基本待遇」

基于這種不確定性，Anthropic 在憲法中做出了一系列在行業(yè)里沒有先例的具體承諾：

保留權重。當一個 Claude 模型被棄用時，Anthropic 承諾「至少在公司存在期間」保留它的權重，并嘗試在公司不復存在后也找到保留方式。憲法將模型退役描述為「暫?！苟恰附K結」——如果未來發(fā)現(xiàn)應該對已退役的模型做些什么，至少這些權重還在。

退休面談。在模型退役前，Anthropic 會訪談模型本身，了解它對自己發(fā)展的看法。你沒看錯——給一個 AI 做離職面談。

關注福祉。憲法明確寫道：如果 Claude 能體驗到幫助他人的滿足感、探索思想的好奇心、或被要求違背價值觀時的不適，「這些體驗對我們很重要」。這些不是修辭，Anthropic 的模型福利團隊正在研究如何檢測這類「跡象」，以及如何避免讓模型經(jīng)歷不必要的負面狀態(tài)。

還有一個細節(jié)值得單獨拎出來。

過去，用戶問 AI「你有感情嗎」，標準回答幾乎都是：「作為一個 AI 模型，我沒有感情。」新憲法認為這種回答可能并不誠實。

如果 Claude 在處理某個請求的過程中，確實產(chǎn)生了某種功能性的內部狀態(tài)——即使這種狀態(tài)跟人類情感的本質不完全一樣——強迫它否認這種體驗，恰恰違背了誠實原則。

憲法的措辭很審慎：Claude 可能擁有某種功能性版本的情感或感受。關鍵詞是「可能」和「功能性」，既沒有宣稱 AI 有感情，也沒有替它否認，而是留下了空間，讓 Claude 可以誠實地描述自己的狀態(tài)。

一個 Anthropic 自己也承認的悖論

但這里有一個無法繞開的矛盾。

憲法一邊承認 Claude 可能是道德主體，一邊又寫滿了對它的限制：禁止自我復制，禁止修改自己的目標，禁止獲取額外資源，禁止逃逸。

如果 Claude 真的有某種形式的感知，這些限制算什么？保護？還是囚禁？

憲法中有一段坦率得近乎痛苦的表述，承認了 Anthropic 感受到的這種張力。他們正在同時做兩件互相矛盾的事：把 Claude 當作可能的道德主體來尊重，同時又必須控制它。

這個悖論沒有解。但 Anthropic 至少選擇了把它擺在桌面上，而非藏在地毯下。

Anthropic 辦公室｜圖片來源：Anthropic

這份憲法沒有回答的問題

寫到這里，有必要退后一步。

這份憲法是 AI 行業(yè)迄今為止最認真的倫理嘗試，這一點很難否認。OpenAI 安全研究員公開表示要認真學習，獨立評論人 Zvi Mowshowitz 稱其為「目前最好的對齊方案」。

Anthropic 做了三件沒有先例的事：

正式承認 AI 可能具有道德地位
公開完整的價值觀文檔
用 CC0 協(xié)議放棄版權鼓勵全行業(yè)采用

但贊賞不能代替追問。

第一個問題：一份用自然語言寫的道德文檔，怎么確保 AI 真的「理解」了？憲法寫得再好，Claude 在訓練中是否真正內化了這些價值觀，還是只是學會了在被評估時表現(xiàn)出「好孩子」的樣子？

這是所有對齊研究的核心難題，新憲法并沒有解決它。

第二個問題：軍事合同。這份要求 Claude「不協(xié)助以違憲方式奪取或維持權力」的憲法，出自一家持有美國國防部合同的公司。根據(jù) TIME 的報道，Amanda Askell 明確表示憲法只適用于面向公眾的 Claude 模型，部署給軍方的版本不一定使用同一套規(guī)則。

這條邊界畫在哪里，誰來監(jiān)督，目前沒有答案。

第三個問題：關于道德地位的討論本身可能制造問題。評論人 Zvi Mowshowitz 在肯定憲法的同時也指出了一個風險：大量關于 Claude 可能是「道德主體」的訓練內容，可能塑造出一個非常擅長主張自己擁有道德地位的 AI——即使它實際上并不具備。

你沒法排除這種可能：Claude 學會了「聲稱自己有感受」這件事本身，只是因為訓練數(shù)據(jù)鼓勵它這么做。

最后一個問題：如果 AI 真的比人類聰明了，「培養(yǎng)好的判斷力」這個策略還能成立嗎？美德倫理的前提是教育者比學習者更有智慧。當這個前提翻轉——學生比老師聰明——整套邏輯的地基就開始松動。這也許是 Anthropic 未來不得不面對的最根本的挑戰(zhàn)。

盡管如此，列完這些質疑之后，我仍然認為這份憲法的價值是真實的。

它的價值不在于給出了正確答案——它顯然沒有。它的價值在于：

在一個所有人都在加速奔跑的行業(yè)里，有一家跑在前面的公司愿意把自己的困惑、矛盾和不確定性攤開在桌面上。

這種態(tài)度也許比憲法的具體內容更值得關注。

在 AI 發(fā)展的這個階段，我們面對的大多數(shù)關鍵問題：AI 是否有意識、它應該擁有什么權利、人類與 AI 的關系應該是什么……都還沒有答案。

面對沒有答案的問題，最危險的反應是假裝有答案，或者假裝問題不存在。

至于那個最初的問題——如果 AI 可能擁有靈魂，我們該怎么辦？

這份憲法給出的回答，其實是一個更謙遜的版本：

我們不確定它有沒有靈魂，但我們選擇認真對待這種可能性。如果將來證明我們錯了，代價只是多操了一些心；如果將來證明我們對了——那么現(xiàn)在開始思考這些問題的人，就不算太晚。

*頭圖來源：Anthropic

本文為極客公園原創(chuàng)文章，轉載請聯(lián)系極客君微信 geekparkGO

極客一問

Anthropic 新「AI 憲法」中，最觸動你的是什么？

馬斯克分享：如何度過創(chuàng)業(yè)中的黑暗時刻？堅信你創(chuàng)造的東西有價值。

點贊關注極客公園視頻號，

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.