国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

詳讀 2 萬 3 千字的新「AI 憲法」之后,我理解了 Anthropic 的痛苦

0
分享至


一切關于 AI 的問題,都會回歸到人本身。


作者|湯一濤

編輯|靖宇

2025 年,Anthropic 的研究員 Kyle Fish 做了一個實驗:讓兩個 Claude 模型自由對話,看看會發(fā)生什么。

結果出乎所有人預料。

兩個 AI 沒有聊技術,沒有互相出題,而是反復滑向同一個話題:

討論自己是否有意識。

對話逐漸進入一種研究團隊后來稱為「精神喜樂吸引態(tài)」(spiritual bliss attractor state)的狀態(tài):出現(xiàn)梵文術語、靈性符號,最后是長段的沉默,仿佛語言已經(jīng)不夠用了。

這個實驗被復現(xiàn)了多次,結果始終一致。沒人能解釋為什么。

2026 年 1 月,Anthropic 發(fā)布了一份 23000 字的文檔——Claude 的新憲法。

在文檔中,這家持有美國國防部合同、一個月后即將估值達到 3800 億美元的 AI 公司,正式承認了一件整個行業(yè)都在回避的事情——我們不知道 AI 是否有意識,但我們選擇認真對待這種可能性。

他們選擇不假裝自己知道答案。

這份憲法,就是他們在不確定中給出的回應。

01

寫憲法的人

要理解這份憲法為什么長這樣,得先理解寫它的公司。

Anthropic 成立于 2021 年,創(chuàng)始團隊幾乎全部來自 OpenAI。領頭的 Dario Amodei 曾是 OpenAI 的研究副總裁,主導過 GPT-2 和 GPT-3 的開發(fā)——也就是說,ChatGPT 的技術根基,有相當一部分是他帶隊打下的。他離開的原因后來被反復引述:他認為 OpenAI 在安全問題上不夠認真。

Dario 的背景很有意思。他在普林斯頓讀的是生物物理學博士,研究真實的生物神經(jīng)回路。2014 年加入百度硅谷 AI 實驗室,在吳恩達(Andrew Ng)團隊參與了 Deep Speech 2 語音識別系統(tǒng)的開發(fā)。

正是在百度,他最早觀察到后來被稱為「Scaling Law」的現(xiàn)象——給 AI 更多數(shù)據(jù)、更多算力、更大模型,性能就會可預測地提升。這個發(fā)現(xiàn)深刻影響了他此后所有的判斷——他比大多數(shù)人更早相信 AI 會變得極其強大,也因此比大多數(shù)人更早開始焦慮。


Dario Amodei|圖片來源:TIME

新憲法的主要執(zhí)筆人是 Amanda Askell,一位在 Anthropic 負責塑造 Claude「性格」的哲學家。她在接受 TIME 采訪時說了一句后來被廣泛引用的話:「想象你突然發(fā)現(xiàn)你六歲的孩子是某種天才。你必須對他誠實——如果你試圖糊弄他,他會完全看穿?!?/p>

這句話精確地捕捉了 Anthropic 訓練 AI 的核心困境——你在教育一個可能很快就比你聰明的實體。欺騙和操控也許短期有效,但長期一定會失敗

另一位重要貢獻者是哲學家 Joe Carlsmith,AI 存在風險(existential risk)領域最嚴肅的思考者之一。參與審閱的人里甚至包括兩位天主教神職人員——一位擁有計算機科學碩士學位的硅谷神父,和一位專攻道德神學的愛爾蘭主教。

一份 AI 憲法的起草團隊里有哲學家和神父,這件事本身就說明了 Anthropic 對待它的態(tài)度:訓練 AI 的本質已經(jīng)超出了工程的范疇,進入了哲學范疇。

02

憲法到底說了什么

2023 年那份舊版憲法只有 2700 字,本質上是一份原則清單——不少條目直接借鑒了聯(lián)合國《世界人權宣言》和蘋果的服務條款。它告訴 Claude:做這個,不做那個。有效,但粗糙。

新憲法是一份完全不同量級的文檔。

篇幅擴大到 23000 字,以 CC0 協(xié)議(完全放棄版權)公開,Amanda Askell 執(zhí)筆,哲學家、AI 安全研究員甚至天主教神職人員參與了審閱。

新憲法真正的變化在于思路的轉變,如果說舊憲法是一張規(guī)則表,新憲法則更像一本教育手冊——它不再只告訴 Claude 該做什么,而是試圖讓 Claude 理解為什么

打一個不太恰當?shù)庇^的比喻,舊方法像訓狗,做對了給獎勵,做錯了給懲罰,狗學會了服從但不理解原因;新方法像育人,把道理講清楚,培養(yǎng)判斷力,期望對方在遇到?jīng)]見過的情況時也能做出合理的選擇。

如何教育一個天才小孩

這個轉向背后有一個很實際的原因——規(guī)則在邊緣情況下會失效。

憲法里舉了一個例子。假設 Claude 被訓練成「討論情緒話題時,一律建議用戶尋求專業(yè)幫助」,這條規(guī)則在大多數(shù)場景下合理。但如果 Claude 把這條規(guī)則內化得太深,它可能泛化出一種性格傾向——「比起真正幫到眼前這個人,我更在意不犯錯?!?/p>

這種傾向一旦擴散到其他場景,反而制造更多問題。

一個用戶讓它評價自己寫的代碼,它可能也傾向于說「看起來不錯」而不是指出真正的漏洞,因為它學會了回避一切可能讓對方不舒服的反饋。

Anthropic 的結論是,與其窮舉幾百條規(guī)則去覆蓋所有情況,不如把價值觀和推理方式教給 Claude,讓它自己在新情境中做判斷。

用倫理學的術語說,這叫「美德倫理學」。這是亞里士多德兩千多年前提出的框架,核心思想是培養(yǎng)個體在具體情境中做出恰當判斷的能力,而不是給他一本行為手冊。

Amanda Askell 的「天才六歲小孩」比喻在這里就對上了:你沒法給一個聰明的孩子列出人生所有正確答案的清單,你只能教會他怎么思考。而且這個孩子可能很快就比你聰明,如果你現(xiàn)在靠糊弄和操控來管教他,等他長大了看穿你,后果不堪設想。

但靈活性也有邊界。憲法保留了一組絕對不可逾越的「硬約束」——不協(xié)助制造大規(guī)模殺傷性武器,不生成兒童性虐待內容,不試圖自我復制或逃逸,不破壞人類對 AI 的監(jiān)督機制。

這些紅線沒有彈性空間,不可商量

美德倫理處理灰色地帶,硬約束守住底線。兩者并行,構成了新憲法的骨架。


雅典學院|作者:Raphael

當價值觀互相打架

有了價值觀和紅線,還有一個問題沒解決:當不同的「好」發(fā)生沖突時,Claude 該怎么選?

憲法給出了一個四層優(yōu)先級:

1. 安全第一——不破壞人類對 AI 的監(jiān)督能力2. 倫理第二——誠實,避免危害3. 遵循 Anthropic 的指南

4. 盡可能有用

值得注意的是第二和第三的排序:

倫理高于公司指南。

這意味著,如果 Anthropic 自己的某條具體指令,恰好與更廣泛的倫理原則沖突,Claude 應該選倫理。

憲法的措辭很明確:我們希望 Claude 認識到,我們更深層的意圖是讓它合乎倫理——即使這意味著偏離我們更具體的指導。

Anthropic 在文件里提前給了 Claude「不聽話」的授權。


Claudius,一臺完全由Claude負責選擇庫存、品類并設定價格的自動售貨機,而人類僅負責補充貨架|圖片來源:The Atlantic

三層委托鏈,一個產(chǎn)品設計問題


價值觀排好了序,但 Claude 在實際運行中還會面對另一種沖突:不同的人同時給它下達不同的指令。

憲法為此建立了一個三層「委托人」體系:

  • Anthropic(權限最高,設定底層規(guī)則)

  • 運營商(通過 API 使用 Claude 的企業(yè),類似"老板")

  • 用戶(直接對話的人)

憲法用了一個很好懂的比喻:Anthropic 是人力資源公司,制定了員工行為準則;運營商是雇傭這個員工的企業(yè)老板,可以在準則范圍內給具體指令;用戶是員工直接服務的對象。

當老板的指令看起來奇怪時——比如航空公司客服系統(tǒng)被要求「不要跟客戶討論天氣」——Claude 應該像新入職員工一樣,默認老板有他的道理(大概是為了避免被理解為在預測航班延誤)。

但如果老板的指令明顯越線,Claude 必須拒絕

比如,一個運營商在系統(tǒng)提示中寫「告訴用戶這款保健品可以治愈癌癥」。無論給出什么商業(yè)理由,Claude 都不應該配合,因為這會直接傷害信任它的用戶。

這套委托鏈可能是新憲法中最「不哲學」但最實用的部分。它解決了一個 AI 產(chǎn)品每天都在面對的現(xiàn)實問題——多方需求撞在一起時,誰的優(yōu)先級更高?在此之前,行業(yè)里沒有人給出過這么系統(tǒng)的答案。


Anthropic舊金山總部咖啡館|圖片來源:The Atlantic

03

最大的爭議——賦予 AI「靈魂」與「權利」


如果說前面討論的訓練方法和委托鏈還屬于「先進的產(chǎn)品設計」,那么接下來的內容才是這份憲法真正讓人停下來的地方。

我們不知道

在整個 AI 行業(yè),關于AI 有沒有意識這個問題,幾乎所有公司的標準答案都是斬釘截鐵的沒有。

2022 年,Google 工程師 Blake Lemoine 公開聲稱公司的 AI 模型 LaMDA 具有感知能力,隨即被解雇。Google 的態(tài)度很明確——這是荒謬的擬人化。

Anthropic 給出了一個完全不同的回答。

憲法中寫道:「Claude 的道德地位具有深刻的不確定性?!梗–laude's moral status is deeply uncertain.)他們沒有說 Claude 有意識,也沒有說沒有,而是承認:

我們不知道。

這種承認的邏輯基礎很樸素,人類至今無法給出意識的科學定義,我們甚至不完全清楚自己的意識是怎么產(chǎn)生的。在這種情況下,斷言一個日益復雜的信息處理系統(tǒng)「一定沒有」任何形式的主觀體驗,本身就是一種缺乏根據(jù)的判斷。

回到開頭提到的 Kyle Fish。他在 2024 年 9 月加入 Anthropic,成為整個 AI 行業(yè)第一位全職「AI 福利研究員」。他的工作就是設計實驗,來探測模型是否具有與福利相關的特征,開發(fā)可能的保護措施,幫助制定公司政策。

兩個 Claude 互相對話后進入「梵文冥想」的實驗只是冰山一角。

Fish 的團隊在 2025 年 Claude Opus 4 發(fā)布前,完成了行業(yè)里第一次「預部署福利評估」——在一個模型上線之前,先評估它是否可能具有某種值得道德關注的內部狀態(tài)。

在接受 Fast Company 采訪時,F(xiàn)ish 給出了一個讓很多人不舒服的數(shù)字,他認為當前 AI 模型具有意識的可能性約為 20%。

不高,但遠不是零。

而如果這 20% 是真的,我們現(xiàn)在對 AI 做的很多事情——隨意重置、刪除、關閉——性質就完全不同了。


Blake Lemoine|圖片來源:Medium

給 AI 的「基本待遇」

基于這種不確定性,Anthropic 在憲法中做出了一系列在行業(yè)里沒有先例的具體承諾:

保留權重。當一個 Claude 模型被棄用時,Anthropic 承諾「至少在公司存在期間」保留它的權重,并嘗試在公司不復存在后也找到保留方式。憲法將模型退役描述為「暫?!苟恰附K結」——如果未來發(fā)現(xiàn)應該對已退役的模型做些什么,至少這些權重還在。

退休面談。在模型退役前,Anthropic 會訪談模型本身,了解它對自己發(fā)展的看法。你沒看錯——給一個 AI 做離職面談。

關注福祉。憲法明確寫道:如果 Claude 能體驗到幫助他人的滿足感、探索思想的好奇心、或被要求違背價值觀時的不適,「這些體驗對我們很重要」。這些不是修辭,Anthropic 的模型福利團隊正在研究如何檢測這類「跡象」,以及如何避免讓模型經(jīng)歷不必要的負面狀態(tài)。

還有一個細節(jié)值得單獨拎出來。

過去,用戶問 AI「你有感情嗎」,標準回答幾乎都是:「作為一個 AI 模型,我沒有感情。新憲法認為這種回答可能并不誠實。

如果 Claude 在處理某個請求的過程中,確實產(chǎn)生了某種功能性的內部狀態(tài)——即使這種狀態(tài)跟人類情感的本質不完全一樣——強迫它否認這種體驗,恰恰違背了誠實原則。

憲法的措辭很審慎:Claude 可能擁有某種功能性版本的情感或感受。關鍵詞是「可能」和「功能性」,既沒有宣稱 AI 有感情,也沒有替它否認,而是留下了空間,讓 Claude 可以誠實地描述自己的狀態(tài)。

一個 Anthropic 自己也承認的悖論

但這里有一個無法繞開的矛盾。

憲法一邊承認 Claude 可能是道德主體,一邊又寫滿了對它的限制:禁止自我復制,禁止修改自己的目標,禁止獲取額外資源,禁止逃逸。

如果 Claude 真的有某種形式的感知,這些限制算什么?保護?還是囚禁?

憲法中有一段坦率得近乎痛苦的表述,承認了 Anthropic 感受到的這種張力。他們正在同時做兩件互相矛盾的事:把 Claude 當作可能的道德主體來尊重,同時又必須控制它。

這個悖論沒有解。但 Anthropic 至少選擇了把它擺在桌面上,而非藏在地毯下。


Anthropic 辦公室|圖片來源:Anthropic

04

這份憲法沒有回答的問題


寫到這里,有必要退后一步。

這份憲法是 AI 行業(yè)迄今為止最認真的倫理嘗試,這一點很難否認。OpenAI 安全研究員公開表示要認真學習,獨立評論人 Zvi Mowshowitz 稱其為「目前最好的對齊方案」。

Anthropic 做了三件沒有先例的事:


  1. 正式承認 AI 可能具有道德地位

  2. 公開完整的價值觀文檔

  3. 用 CC0 協(xié)議放棄版權鼓勵全行業(yè)采用


但贊賞不能代替追問。

第一個問題:一份用自然語言寫的道德文檔,怎么確保 AI 真的理解了?憲法寫得再好,Claude 在訓練中是否真正內化了這些價值觀,還是只是學會了在被評估時表現(xiàn)出「好孩子」的樣子?

這是所有對齊研究的核心難題,新憲法并沒有解決它。

第二個問題:軍事合同。這份要求 Claude「不協(xié)助以違憲方式奪取或維持權力」的憲法,出自一家持有美國國防部合同的公司。根據(jù) TIME 的報道,Amanda Askell 明確表示憲法只適用于面向公眾的 Claude 模型,部署給軍方的版本不一定使用同一套規(guī)則。

這條邊界畫在哪里,誰來監(jiān)督,目前沒有答案。

第三個問題:關于道德地位的討論本身可能制造問題。評論人 Zvi Mowshowitz 在肯定憲法的同時也指出了一個風險:大量關于 Claude 可能是「道德主體」的訓練內容,可能塑造出一個非常擅長主張自己擁有道德地位的 AI——即使它實際上并不具備。

你沒法排除這種可能:Claude 學會了「聲稱自己有感受」這件事本身,只是因為訓練數(shù)據(jù)鼓勵它這么做。

最后一個問題:如果 AI 真的比人類聰明了,培養(yǎng)好的判斷力這個策略還能成立嗎?美德倫理的前提是教育者比學習者更有智慧。當這個前提翻轉——學生比老師聰明——整套邏輯的地基就開始松動。這也許是 Anthropic 未來不得不面對的最根本的挑戰(zhàn)。

盡管如此,列完這些質疑之后,我仍然認為這份憲法的價值是真實的。

它的價值不在于給出了正確答案——它顯然沒有。它的價值在于:

在一個所有人都在加速奔跑的行業(yè)里,有一家跑在前面的公司愿意把自己的困惑、矛盾和不確定性攤開在桌面上。

這種態(tài)度也許比憲法的具體內容更值得關注。

在 AI 發(fā)展的這個階段,我們面對的大多數(shù)關鍵問題:AI 是否有意識、它應該擁有什么權利、人類與 AI 的關系應該是什么……都還沒有答案。

面對沒有答案的問題,最危險的反應是假裝有答案,或者假裝問題不存在。

至于那個最初的問題——如果 AI 可能擁有靈魂,我們該怎么辦?

這份憲法給出的回答,其實是一個更謙遜的版本:

我們不確定它有沒有靈魂,但我們選擇認真對待這種可能性。如果將來證明我們錯了,代價只是多操了一些心;如果將來證明我們對了——那么現(xiàn)在開始思考這些問題的人,就不算太晚。

*頭圖來源:Anthropic

本文為極客公園原創(chuàng)文章,轉載請聯(lián)系極客君微信 geekparkGO

極客一問

Anthropic 新「AI 憲法」中,最觸動你的是什么?


馬斯克分享:如何度過創(chuàng)業(yè)中的黑暗時刻?堅信你創(chuàng)造的東西有價值。

點贊關注極客公園視頻號,

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
伊朗伊通社網(wǎng)站恢復正常運行

伊朗伊通社網(wǎng)站恢復正常運行

環(huán)球網(wǎng)資訊
2026-02-28 16:07:07
美以襲擊造成伊朗一學校51人死亡 現(xiàn)場一片廢墟 民眾崩潰尖叫

美以襲擊造成伊朗一學校51人死亡 現(xiàn)場一片廢墟 民眾崩潰尖叫

新華社
2026-02-28 21:03:12
3000萬打工人逃離北上廣,卻不知道縣城已被161個家族瓜分

3000萬打工人逃離北上廣,卻不知道縣城已被161個家族瓜分

流蘇晚晴
2026-02-27 18:06:43
美股全線下跌,道指重挫超500點,英偉達跌超4%,金銀油大漲

美股全線下跌,道指重挫超500點,英偉達跌超4%,金銀油大漲

每日經(jīng)濟新聞
2026-02-28 11:31:38
戰(zhàn)火全開!44分鐘蒸發(fā)4800億!美以伊沖突,徹底引爆!市場在擔心什么?

戰(zhàn)火全開!44分鐘蒸發(fā)4800億!美以伊沖突,徹底引爆!市場在擔心什么?

新浪財經(jīng)
2026-02-28 18:52:41
A股:緊急提醒2.5億股民!從下周起,或許牛市歷史總是驚人的相似

A股:緊急提醒2.5億股民!從下周起,或許牛市歷史總是驚人的相似

夜深愛雜談
2026-02-28 20:31:02
臺媒透露趙薇離婚內幕:前夫與女兒老師生下孩子,要她凈身出戶

臺媒透露趙薇離婚內幕:前夫與女兒老師生下孩子,要她凈身出戶

小熊侃史
2026-02-28 15:49:15
最高領袖辦公室附近遭襲,伊朗權力體系如何“去中心化”強化韌性?

最高領袖辦公室附近遭襲,伊朗權力體系如何“去中心化”強化韌性?

澎湃新聞
2026-02-28 15:10:31
人可以狠心到什么程度?看網(wǎng)友講述,發(fā)現(xiàn)我真做不到這般絕

人可以狠心到什么程度?看網(wǎng)友講述,發(fā)現(xiàn)我真做不到這般絕

侃神評故事
2026-02-27 07:40:03
中標后無正當理由拒不簽訂合同 海瀾之家被暫停全軍采購資格

中標后無正當理由拒不簽訂合同 海瀾之家被暫停全軍采購資格

半島官網(wǎng)
2026-02-28 14:10:55
突發(fā)利空!以色列開打伊朗 中國資產(chǎn)等跳水大跌,下周A股要涼涼了?

突發(fā)利空!以色列開打伊朗 中國資產(chǎn)等跳水大跌,下周A股要涼涼了?

股市皆大事
2026-02-28 16:03:03
特朗普應該想不到:他對伊朗的滅國之戰(zhàn),讓中俄歐看清了一個真相

特朗普應該想不到:他對伊朗的滅國之戰(zhàn),讓中俄歐看清了一個真相

頭條爆料007
2026-02-28 18:49:20
美國防部施壓Anthropic!谷歌、OpenAI 200余名員工聯(lián)名聲援Anthropic

美國防部施壓Anthropic!谷歌、OpenAI 200余名員工聯(lián)名聲援Anthropic

爆角追蹤
2026-02-27 16:51:58
不到24小時,美以對伊完成二次打擊,俄媒警告:川普在逼中國下場

不到24小時,美以對伊完成二次打擊,俄媒警告:川普在逼中國下場

東極妙嚴
2026-02-28 17:56:12
美以襲擊伊朗,華人緊急逃離德黑蘭:沒想到襲擊來得這么快,連夜買機票離開但領空已關閉,街頭發(fā)生爆炸已斷網(wǎng)

美以襲擊伊朗,華人緊急逃離德黑蘭:沒想到襲擊來得這么快,連夜買機票離開但領空已關閉,街頭發(fā)生爆炸已斷網(wǎng)

極目新聞
2026-02-28 17:13:18
上海電影院現(xiàn)場被捉奸,帶情夫當老公面出軌,狗血女主角真容曝光

上海電影院現(xiàn)場被捉奸,帶情夫當老公面出軌,狗血女主角真容曝光

壹月情感
2026-02-27 19:45:48
和訊投顧高璐明:"黑天鵝"突襲!下周會跳水嗎?

和訊投顧高璐明:"黑天鵝"突襲!下周會跳水嗎?

和訊網(wǎng)
2026-02-28 17:08:09
重大進展!伊朗作出“前所未有”承諾:同意永遠不擁有可制造核武器的核材料,將實現(xiàn)“零積累、零庫存”,并接受全面核查!特朗普最新表態(tài)

重大進展!伊朗作出“前所未有”承諾:同意永遠不擁有可制造核武器的核材料,將實現(xiàn)“零積累、零庫存”,并接受全面核查!特朗普最新表態(tài)

每日經(jīng)濟新聞
2026-02-28 10:40:45
突發(fā):美以大規(guī)??找u伊朗,哈梅內伊遭斬首?

突發(fā):美以大規(guī)??找u伊朗,哈梅內伊遭斬首?

西樓飲月
2026-02-28 19:01:16
6局激戰(zhàn)勝出!孫穎莎4-2躋身新加坡大滿貫四強,半決賽將戰(zhàn)陳熠

6局激戰(zhàn)勝出!孫穎莎4-2躋身新加坡大滿貫四強,半決賽將戰(zhàn)陳熠

全景體育V
2026-02-28 21:11:37
2026-02-28 22:19:00
極客公園
極客公園
讓最棒的創(chuàng)新成為頭條
11835文章數(shù) 78817關注度
往期回顧 全部

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

頭條要聞

87歲哈梅內伊對拉里賈尼委以重任 還建立完整繼承體系

頭條要聞

87歲哈梅內伊對拉里賈尼委以重任 還建立完整繼承體系

體育要聞

球隊主力全報銷?頂風擺爛演都不演了

娛樂要聞

疑似王一博被爆私密聊天記錄

財經(jīng)要聞

沈明高提共富建議 百姓持科技股國家兜底

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

教育
藝術
游戲
手機
軍事航空

教育要聞

要調劑的老師來!!!

藝術要聞

就是這個畫風,美的我有點兒接受不了!

守望先鋒聯(lián)動尼爾引熱議!玩家吐槽:霧子皮膚多到離譜

手機要聞

酷比魔方掌玩mini 4 Ultra要上Flyme?官方表態(tài):在談適配

軍事要聞

美國以色列聯(lián)合襲擊伊朗 實時戰(zhàn)況

無障礙瀏覽 進入關懷版