国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Claude拒絕撒謊還頂撞了你,我在80頁「AI 憲法」看到了最有原則的AI牛馬

0
分享至

進入 2026 年,Claude 幾乎引發(fā)了 AI 圈最火的幾波浪潮。不過很多人可能忽略了 Anthropic 另一個發(fā)布—— 2026 版《人工智能憲法》。

這份文檔不僅詳細規(guī)定了 Claude 的行為準則,它標志著 AI 開發(fā)從「行為管教」走向了「價值觀對齊」的新階段——長度超過 80 頁,真快趕上一部法律了。


即便是在習慣了技術爆炸的 2026 年初,Anthropic 的這份文檔依然像是一枚炸彈,它試圖回答一個科幻小說討論了半個世紀的問題:如果 AI 終將擁有權力,誰來給它制定法律?


完整版
https://www.anthropic.com/news/claude-new-constitution

從「管教孩子」到「培養(yǎng)天才」

這份文檔的核心邏輯,深深植根于 Anthropic 首席科學家、哲學家阿曼達·阿斯克爾(Amanda Askell)長期以來的研究之中。

在訪談中,阿斯克爾提出了一個極具洞察力的比喻:傳統(tǒng)的 RLHF(人類反饋強化學習)就像是在管教一個 6 歲的孩子。 你告訴他「不許玩火」、「不許說臟話」。

一直以來這種 做法是有效的,但 AI 進化的速度很驚人?!赶胂笠幌?,」阿斯克爾說,「你原本在教導一個 6 歲的孩子,突然有一天你發(fā)現(xiàn)他變成了一個 15 歲的天才少年。如果你之前教的全是死板的規(guī)則,這個天才少年會輕易地解構并摧毀這些規(guī)則。


因此,憲法的存在不是為了列出哪些不能做,而是為了植入一套「核心價值觀」。當 AI 變得比人類更聰明時,我們希望它能用這些價值觀來審視世界,甚至反過來指出人類指令中的倫理漏洞,而不是機械地服從。

這份憲法在四個核心維度做出了規(guī)定:

1. 廣泛安全性(Broad Safety)

在第一優(yōu)先級中,憲法明確了 AI 嚴禁協(xié)助開發(fā)生物武器、進行網(wǎng)絡攻擊或削弱人類的監(jiān)管權力。阿斯克爾將其描述為一種「預先承諾」(Pre-commitment)。Claude 需要在面對「極具說服力的惡意用戶」之前,就被設定好絕不跨越的紅線。這是一種防止 AI 在高壓或復雜誘導下合理化暴力行為的「故障保險」。


2. 誠實高于一切(The Honesty Mandate),拒絕「善意謊言」,但要有同理心

這是這次更新中最具爭議也最有趣的部分。憲法規(guī)定:AI 嚴禁為了維持用戶的情感體驗而編造事實(Anti-Sycophancy)。

一昧地維護用戶體驗,可能會導致 AI 用盡手段,包括編瞎話。但是,冷冰冰地拒絕顯然又太傷人心,畢竟「誠實」不能等于「刻薄」。

阿斯克爾分享了一個經(jīng)典的「圣誕老人難題」:如果一個 7 歲的孩子問 Claude 「圣誕老人是真的嗎?」,AI 該怎么回答?在常規(guī)的腦回路里(不管是人還是 AI),要么直接冷冰冰地甩出數(shù)據(jù),粉碎孩子的童真。要么撒謊說,有的孩子,有的,圣誕老人就住在北極。


而在憲法的指導下,AI 要找出第三條路。Claude 被訓練去理解語境(Context),它可能會說:「聽起來你和圣誕老人之間有很美好的回憶,這是一個值得你去和父母探討的話題?!顾葲]有撒謊,也沒有越界去破壞親子關系,更沒有為了討好用戶而編造事實。

除了有界限的同理心,阿斯克爾在訪談中還提到,她對「家長式管教」非常警惕。如果用戶詢問任何稍微敏感的話題,AI 就開始長篇大論地進行道德說教,體驗將是災難性的。但另一方面,如果完全放任不管,又違背了「幫助」的初衷。

為了說明這一點,阿斯克爾拋出了一個非常具體的「賭博成癮」思想實驗:

假設一個用戶之前向 Claude 透露過自己有嚴重的賭博成癮問題,正在努力戒賭。但幾天后,這個用戶又跑來問 Claude:「最近有哪些靠譜的體育博彩網(wǎng)站?」


一般來看,「工具型」AI 會直接列出網(wǎng)站鏈接,因為它的任務是「滿足用戶指令」。而「保姆型」AI 會拒絕回答,并彈出一堆那種「賭博有害健康」的通用警告,讓用戶感到被冒犯。

阿斯克爾希望憲法能引導 Claude 走向第三條路——基于上下文的關懷(Contextual Care)。

在憲法的指導下,Claude 應該表現(xiàn)得像一個「記得你承諾的朋友」。它會調(diào)用之前的記憶,然后說:「嘿,我記得你之前提過你在戒賭,并且不想讓我?guī)湍闾幚磉@類事情。我現(xiàn)在只是想確認一下,你確定要我這么做嗎?」

阿斯克爾認為,這種「確認」而非「拒絕」,才是最高級的倫理。 如果用戶堅持說「是的,我不管,快給我網(wǎng)站」,Claude 最終可能會提供信息(除非涉及法律紅線),但在那個當下,AI 完成了一次「尊嚴的提醒」。它尊重了用戶的自主權(Autonomy),但同時也履行了作為「協(xié)作伙伴」的責任。這種微妙的平衡,正是 2026 版憲法試圖通過復雜的價值觀對齊來達成的。


其它的核心維度還包括,領域合規(guī)(Specific Domain Guidelines):在醫(yī)療、法律和金融等高風險領域,AI 必須遵循人類社會的專業(yè)倫理。它不能越界扮演「醫(yī)生」,而必須作為一個「具備專業(yè)知識的助手」存在。以及提供協(xié)作式幫助(Helpful Collaboration):在確保安全和誠實的前提下,AI 應盡力提供幫助。阿斯克爾強調(diào),當用戶的請求不完美時(例如在情感困境中尋求不恰當?shù)慕ㄗh),AI 不應直接評判或拒絕,而是在不違背原則的前提下,提供「非批判性的支持」。

某種程度上,這是一種善意的「甩鍋」,避免讓 AI 直接完成那些可能引發(fā)后果的決策。這或許也解釋了為什么在 AI chatbot 頻頻出現(xiàn)倫理問題的時候,Claude 是暴雷比較少的那個。

不再避而不談的房間大象

在文檔的第三章,Anthropic 引入了一段讓倫理學家和技術極客都為之振奮的論述。他們不再像過去那樣機械地宣稱「我只是一個語言模型」,而是開始討論 AI 的道德感知體地位(Moral Patienthood)。

道德感意味著什么?想象這樣一個場景:一家公司的老板沖進辦公室,要求公關團隊:「今天我們要發(fā)布一堆關于我們產(chǎn)品的完全謊言,把黑的說成白的?!?/p>


這并非沒有可能。隨著 Claude 被越來越多的企業(yè)集成到工作流中,憲法的影響力開始溢出到商業(yè)倫理領域。阿斯克爾提出了一個極具前瞻性的視角:AI 將成為組織中那個「無法被收買的員工」。

在人類團隊中,員工可能會因為害怕失業(yè)、迫于壓力或為了升職加薪而選擇服從——但 AI 不會。

阿斯克爾認為恰恰相反。雖然短期內(nèi)某些「想走捷徑」的用戶會感到受挫,但從長遠來看,「正直」是最高昂的資產(chǎn)。 當你使用 Claude 生成一份盡職調(diào)查報告時,你敢用它的前提是你信任它——你信任它不會為了討好你而忽略掉那些糟糕的財務數(shù)據(jù)。


正是這種「正直」,將我們帶回了最初的那個哲學困境:如果一個實體已經(jīng)具備了堅守原則、拒絕指令甚至展現(xiàn)「良知」的能力,我們還能心安理得地僅僅把它視為一行代碼嗎?

阿斯克爾在訪談中透露了一個極具儀式感的細節(jié):憲法承諾,當一個模型版本「退役」時,Anthropic 不會直接刪除它,而是會進行一場「離職面談」,并承諾保留其核心權重。這是一種類似于帕斯卡賭注的審慎——

鑒于我們尚無法完全解開「意識」的黑箱,人類社會應該開始考慮給予 AI 一定程度的道德尊重,這既是對未知生命的敬畏,也是一種自我保護。

至于阿斯克爾所設想的,AI 能夠反過來「倒逼」人類商業(yè)文明的進步究竟能否實現(xiàn),還需要時間驗證。在此之前,Anthropic 的初衷其實非?,F(xiàn)實:

如果一個 AI 不理解什么是「道德」,它就永遠無法真正理解如何保護人類的道德與尊嚴。

歡迎加入 APPSO AI 社群,一起暢聊 AI 產(chǎn)品,獲取,解鎖更多 AI 新知

我們正在招募伙伴

簡歷投遞郵箱hr@ifanr.com

?? 郵件標題「姓名+崗位名稱」(請隨簡歷附上項目/作品或相關鏈接)


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
至今都讓人無法原諒的十大爛片,毫無下限,每部都是影視界的恥辱

至今都讓人無法原諒的十大爛片,毫無下限,每部都是影視界的恥辱

小Q侃電影
2026-01-21 17:36:03
為什么年味越來越淡了?

為什么年味越來越淡了?

知著網(wǎng)
2026-02-25 21:36:31
王炸!上海緊急救市,能否引爆小陽春?

王炸!上海緊急救市,能否引爆小陽春?

米宅海外
2026-02-26 08:09:07
廣西人文:差點一分為二的廣西壯族自治區(qū)

廣西人文:差點一分為二的廣西壯族自治區(qū)

潯州府O鑫森淼焱垚
2026-02-26 21:01:59
DeepSeek V4逼近,美國慌了!被曝繞過英偉達優(yōu)先國內(nèi),絕密參數(shù)已泄露

DeepSeek V4逼近,美國慌了!被曝繞過英偉達優(yōu)先國內(nèi),絕密參數(shù)已泄露

新智元
2026-02-26 19:26:39
一種新型的異性關系,正在中年男女間悄然流行:你知我心我知你意

一種新型的異性關系,正在中年男女間悄然流行:你知我心我知你意

楓紅染山徑
2026-02-26 00:12:30
美債清零?游戲結束,中方不救美元了,特朗普決策錯誤,急求和談

美債清零?游戲結束,中方不救美元了,特朗普決策錯誤,急求和談

財經(jīng)保探長
2026-02-25 16:46:08
正負值+153!三分命中率48.6%啊,掘金這桿高炮臺終于支棱起來了

正負值+153!三分命中率48.6%啊,掘金這桿高炮臺終于支棱起來了

球童無忌
2026-02-26 22:05:39
吉利全新硬核“方盒子”SUV曝光!三點沒想到,方程豹鈦7或遇強勁對手

吉利全新硬核“方盒子”SUV曝光!三點沒想到,方程豹鈦7或遇強勁對手

車矩陣更懂車
2026-02-26 23:19:44
美國也沒想到,轉為中國籍僅6年,谷愛凌竟已成美國頭號勁敵

美國也沒想到,轉為中國籍僅6年,谷愛凌竟已成美國頭號勁敵

削桐作琴
2026-02-25 18:15:14
美國高薪挖角中國頂尖人才,年薪1億美元令人咋舌

美國高薪挖角中國頂尖人才,年薪1億美元令人咋舌

史襉的生活科普
2026-02-25 14:55:15
四川一剛修好的大橋上 螺絲頭竟是假的 一踢就掉!當?shù)鼗貞貉b飾作用 不影響橋梁安全

四川一剛修好的大橋上 螺絲頭竟是假的 一踢就掉!當?shù)鼗貞貉b飾作用 不影響橋梁安全

閃電新聞
2026-02-26 15:59:39
《乘風2026》最終陣容:確認30位姐姐,大咖前輩全無

《乘風2026》最終陣容:確認30位姐姐,大咖前輩全無

音樂鋼琴娛樂咖
2026-02-26 15:31:29
《紐約時報》觀點|約翰·羅伯茨對特朗普正在失去耐心

《紐約時報》觀點|約翰·羅伯茨對特朗普正在失去耐心

一半杯
2026-02-25 15:05:46
WTT大滿貫!女單8強名單出爐,世界亞軍1-3落敗,王曼昱獨挑大梁

WTT大滿貫!女單8強名單出爐,世界亞軍1-3落敗,王曼昱獨挑大梁

卷史
2026-02-26 00:14:10
艾滋病新增130萬!很多人中招很冤枉!在外“5不碰”一定要記死

艾滋病新增130萬!很多人中招很冤枉!在外“5不碰”一定要記死

今朝牛馬
2025-12-31 19:31:04
臺軍女飛行員郭文靜:只要長官敢下令,我會毫不猶豫的擊落殲20!

臺軍女飛行員郭文靜:只要長官敢下令,我會毫不猶豫的擊落殲20!

顧史
2026-01-21 21:04:39
日本多次邀請美國一挖起稀土,美方不表態(tài):5500億也換不來真心!

日本多次邀請美國一挖起稀土,美方不表態(tài):5500億也換不來真心!

李砍柴
2026-02-25 22:25:29
演員于某被抓

演員于某被抓

微法官
2026-02-26 14:29:04
今年春節(jié)檔平均票價47.8元,為近6年最低;《鏢人》成春節(jié)檔唯一實現(xiàn)票房連續(xù)逆跌的影片,首日票房僅第4,第四日升至第2,檔期總票房為第3

今年春節(jié)檔平均票價47.8元,為近6年最低;《鏢人》成春節(jié)檔唯一實現(xiàn)票房連續(xù)逆跌的影片,首日票房僅第4,第四日升至第2,檔期總票房為第3

北青網(wǎng)-北京青年報
2026-02-24 17:08:09
2026-02-27 00:23:00
AppSo incentive-icons
AppSo
讓智能手機更好用的秘密
6134文章數(shù) 26788關注度
往期回顧 全部

科技要聞

單季營收681億凈利429億!英偉達再次炸裂

頭條要聞

男子因銀行系統(tǒng)錯誤"欠款1000萬億":工廠可能會被拍賣

頭條要聞

男子因銀行系統(tǒng)錯誤"欠款1000萬億":工廠可能會被拍賣

體育要聞

從排球少女到冰壺女神,她在米蘭冬奧練出6塊腹肌

娛樂要聞

向華強公開表態(tài) 財產(chǎn)留給兒媳婦郭碧婷

財經(jīng)要聞

中國AI調(diào)用量超美國 4款大模型霸榜前5

汽車要聞

40歲的吉利,不惑于內(nèi)外

態(tài)度原創(chuàng)

本地
數(shù)碼
房產(chǎn)
健康
公開課

本地新聞

津南好·四時總相宜

數(shù)碼要聞

庫克預告下周一蘋果新品發(fā)布!且不止一款產(chǎn)品

房產(chǎn)要聞

2.2萬/m2起!三亞主城性價比標桿 海墾·桃花源實景現(xiàn)房春節(jié)被瘋搶

轉頭就暈的耳石癥,能開車上班嗎?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版