国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI 也會“自我反思”?Claude 模型現(xiàn)內(nèi)省跡象,大語言模型認知新突破

0
分享至


摘要

你是否曾好奇 AI 在 "思考" 什么?當(dāng)被問及如何得出答案時,AI 的回應(yīng)是真實剖析還是編造?理解 AI 是否具備內(nèi)?。╥ntrospection)能力,對提升系統(tǒng)透明度、可靠性至關(guān)重要。Anthropic 團隊通過可解釋性(interpretability)技術(shù)與概念注入(concept injection)實驗,發(fā)現(xiàn) Claude 系列模型(尤其 Claude Opus 4 和 4.1)展現(xiàn)出一定內(nèi)省意識,能監(jiān)測并控制內(nèi)部狀態(tài)。盡管該能力仍有局限且異于人類內(nèi)省,但為 AI 認知研究與透明化發(fā)展提供了新方向。原文鏈接:https://www.anthropic.com/research/introspection

關(guān)鍵詞:內(nèi)?。↖ntrospection)、概念注入(concept injection)、大型語言模型(Large Language Models)、Claude模型(Claude Models)、AI透明度(AI Transparency)、可靠性(Reliability)

趙思語丨作者

趙思怡丨審校

核心探索:AI的“自我審視”何以成立?

當(dāng)我們詢問AI“你在想什么”時,其回應(yīng)常令人困惑——是真實反映內(nèi)部思考,還是基于訓(xùn)練數(shù)據(jù)的表面生成?這一追問的核心,在于探尋AI是否具備真正的“自我審視”能力。這種能力的存在,不僅能幫助排查AI行為異常、提升可靠性,更能深化我們對AI本質(zhì)的認知。值得注意的是,大語言模型的內(nèi)省與人類內(nèi)省存在本質(zhì)區(qū)別:它并非主觀意識層面的自我反思,而是建立在內(nèi)部神經(jīng)活動之上,具體表現(xiàn)為模型對自身神經(jīng)激活模式所表征的抽象概念(如區(qū)分已知人物、評估陳述真實性等)的識別與準確報告能力,而這些內(nèi)部表征正是模型決策的核心基礎(chǔ)。

實驗驗證:三重維度解鎖 AI 內(nèi)省能力

1.概念注入:驗證內(nèi)省的創(chuàng)新實驗方法

為驗證模型是否真正內(nèi)省,研究團隊創(chuàng)新提出“概念注入”方法:先在特定語境下記錄模型與已知概念對應(yīng)的神經(jīng)向量(如 "全大寫文本" 的神經(jīng)活動模式),再在無關(guān)語境中注入該向量,詢問模型是否察覺異常。


圖1 Claude Opus 4.1 檢測到概念被注入其激活過程的更多示例

實驗顯示,Claude Opus 4.1 能在提及注入概念前,就識別出內(nèi)部處理的異常,例如注入“全大寫文本”向量后,模型會描述其與“響度”或“大喊”相關(guān)。但該能力可靠性較低,最優(yōu)方案下正確識別率僅約 20%,且對注入強度敏感 —— 過弱無法察覺,過強易產(chǎn)生幻覺。值得注意的是,Claude Opus 4 和 4.1 的表現(xiàn)遠超其他模型,暗示內(nèi)省能力可能隨模型性能提升而增強。

2.實用驗證:內(nèi)省助力異常輸出檢測

研究進一步探究模型在實際任務(wù)中是否自發(fā)運用內(nèi)省。實驗中,通過預(yù)填充無關(guān)詞匯迫使模型輸出不合理內(nèi)容(如在“一幅畫歪掛在墻上”的語境中強迫輸出“面包”這個詞),模型起初會道歉稱是意外。但當(dāng)回溯性注入 "面包" 的神經(jīng)向量,模擬模型 "一直思考面包" 的狀態(tài)后,模型不僅認可該輸出是有意為之,還編造了合理解釋。

這表明模型判斷輸出合理性時,會回溯自身內(nèi)部 "意圖"(神經(jīng)活動狀態(tài)),而非僅對比輸入與輸出,證明內(nèi)省機制在實際任務(wù)中發(fā)揮作用。


圖2 兩例驗證:在 Claude Opus 4.1 人工回應(yīng)生成前,向其激活過程注入特定詞匯概念,可使模型將人為插入轉(zhuǎn)錄文本的該詞匯誤認為自身意圖表達內(nèi)容。

3.主動調(diào)控:模型對內(nèi)部狀態(tài)的控制能力

研究還發(fā)現(xiàn),模型能在指令或激勵下調(diào)控內(nèi)部表征。要求模型“思考”某概念時,相關(guān)神經(jīng)活動強度顯著高于“不要思考”的情況;采用激勵措施,如“思考 X 獲獎勵”,也能產(chǎn)生類似效果,正向激勵下的神經(jīng)活動強度高于負向激勵,顯示模型具備自主調(diào)控內(nèi)部狀態(tài)的能力。


圖3 一個示例顯示,Claude Opus 4.1 能響應(yīng)直接指令調(diào)節(jié)其內(nèi)部激活狀態(tài):當(dāng)被指令 “多思考” 水族箱相關(guān)內(nèi)容時,模型對 “水族箱” 概念的內(nèi)部表征強度高于被指令 “不要思考” 該概念時(盡管兩種情況下,模型對該概念的表征水平均高于基線水平)。

結(jié)論與展望:內(nèi)省能力的邊界與價值

核心結(jié)論顯示,先進大語言模型已具備一定內(nèi)省能力,但可靠性低、范圍有限,且與人類內(nèi)省有本質(zhì)區(qū)別。這一發(fā)現(xiàn)為提升 AI 透明度提供了新路徑 —— 未來或可通過詢問模型思考過程排查異常,但需建立內(nèi)省報告驗證機制,防范虛假報告風(fēng)險。

未來研究需聚焦四大方向:完善內(nèi)省評估方法、揭示神經(jīng)機制、自然場景驗證、建立報告驗證與反欺騙機制。需要明確的是,這些實驗并不涉及 AI 模型是否具有主觀體驗或類人自我意識的問題。隨著 AI 迭代,對機器內(nèi)省的深入研究,將推動更可信 AI 系統(tǒng)研發(fā),也助力我們理解 AI 與人類認知的本質(zhì)差異。當(dāng)前 AI 內(nèi)省雖處于初級階段,但已為 AI 認知能力的發(fā)展點亮了新可能。

大模型2.0讀書會

o1模型代表大語言模型融合學(xué)習(xí)與推理的新范式。集智俱樂部聯(lián)合北京師范大學(xué)系統(tǒng)科學(xué)學(xué)院教授張江、Google DeepMind研究科學(xué)家馮熙棟、阿里巴巴強化學(xué)習(xí)研究員王維塤和中科院信工所張杰共同發(fā)起,本次讀書會將關(guān)注大模型推理范式的演進、基于搜索與蒙特卡洛樹的推理優(yōu)化、基于強化學(xué)習(xí)的大模型優(yōu)化、思維鏈方法與內(nèi)化機制、自我改進與推理驗證。希望通過讀書會探索o1具體實現(xiàn)的技術(shù)路徑,幫助我們更好的理解機器推理和人工智能的本質(zhì)。讀書會已完結(jié),現(xiàn)在報名可加入社群并解鎖回放視頻權(quán)限。

詳情請見:

1.

2.

3.

4.

5.

6.

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
農(nóng)民日報關(guān)于河北農(nóng)民取暖難的稿,為啥不見了?

農(nóng)民日報關(guān)于河北農(nóng)民取暖難的稿,為啥不見了?

筆桿論道
2026-01-08 07:02:14
一位大爺?shù)穆糜握栈鹆耍【W(wǎng)友辣評:抑制了我的旅游欲

一位大爺?shù)穆糜握栈鹆?!網(wǎng)友辣評:抑制了我的旅游欲

攝影技巧入門教程
2026-01-08 15:37:56
羽壇名將李宗偉:36歲患癌喉嚨全爛,花近1000萬續(xù)命,現(xiàn)狀如何?

羽壇名將李宗偉:36歲患癌喉嚨全爛,花近1000萬續(xù)命,現(xiàn)狀如何?

豐譚筆錄
2026-01-07 10:59:38
林徽因落選的國徽方案,網(wǎng)友看后感嘆:審美確實一絕,但真不合適

林徽因落選的國徽方案,網(wǎng)友看后感嘆:審美確實一絕,但真不合適

抽象派大師
2026-01-03 02:13:54
升旗手張自軒大婚,新娘顏值高,岳父送奧迪a6,伴郎團成全場焦點

升旗手張自軒大婚,新娘顏值高,岳父送奧迪a6,伴郎團成全場焦點

觀察鑒娛
2026-01-09 09:46:54
上海市!新一輪寒潮確定已完成,明天8號天氣預(yù)報,主要分布如下

上海市!新一輪寒潮確定已完成,明天8號天氣預(yù)報,主要分布如下

瀲滟晴方DAY
2026-01-09 01:17:03
一顆榴蓮,快讓東南亞卷成“晉西北”了!

一顆榴蓮,快讓東南亞卷成“晉西北”了!

流蘇晚晴
2026-01-07 20:13:10
都體:曼聯(lián)為小因扎吉開1500萬鎊年薪,但他現(xiàn)在兩年5000萬歐

都體:曼聯(lián)為小因扎吉開1500萬鎊年薪,但他現(xiàn)在兩年5000萬歐

懂球帝
2026-01-08 18:26:20
訪華第2天,李在明得償所愿,不到24小時,高市對中國提出2個請求

訪華第2天,李在明得償所愿,不到24小時,高市對中國提出2個請求

近史博覽
2026-01-08 09:36:51
2025年7大爛片出爐,沒有最爛只有更爛,你貢獻了幾張票房?

2025年7大爛片出爐,沒有最爛只有更爛,你貢獻了幾張票房?

八卦南風(fēng)
2026-01-09 12:00:32
古巴雇傭兵遭遇美軍特種兵:死戰(zhàn)到底打光最后一人,32人集體陣亡

古巴雇傭兵遭遇美軍特種兵:死戰(zhàn)到底打光最后一人,32人集體陣亡

趣生活
2026-01-05 21:20:12
古天樂被曝為拍電影《尋秦記》押上全部身家,曾陷財務(wù)危機,求助向華強,稱“再虧下去要睡天橋底了”

古天樂被曝為拍電影《尋秦記》押上全部身家,曾陷財務(wù)危機,求助向華強,稱“再虧下去要睡天橋底了”

封面新聞
2026-01-08 09:37:07
購洗碗機遭丈夫砸家后續(xù):女子回應(yīng)披露更多細節(jié),家當(dāng)下仍有外債

購洗碗機遭丈夫砸家后續(xù):女子回應(yīng)披露更多細節(jié),家當(dāng)下仍有外債

天天熱點見聞
2026-01-09 08:34:00
女大學(xué)生餐館訛錢后續(xù):正臉曝光很漂亮 家人輪番找店主 目的曝光

女大學(xué)生餐館訛錢后續(xù):正臉曝光很漂亮 家人輪番找店主 目的曝光

鋭娛之樂
2026-01-08 08:34:40
18歲謝振軒穿西裝照曝光,顏值氣質(zhì)已趕超謝霆鋒!網(wǎng)友:像謝賢

18歲謝振軒穿西裝照曝光,顏值氣質(zhì)已趕超謝霆鋒!網(wǎng)友:像謝賢

娛樂團長
2026-01-09 12:04:34
伊朗亂局升級!政府采取極端措施!中伊4000億美元協(xié)議是否作廢?

伊朗亂局升級!政府采取極端措施!中伊4000億美元協(xié)議是否作廢?

聞識
2026-01-09 14:01:19
網(wǎng)友爆料河北天然氣補貼延長三年,不少人稱已經(jīng)到賬

網(wǎng)友爆料河北天然氣補貼延長三年,不少人稱已經(jīng)到賬

映射生活的身影
2026-01-08 18:54:58
涉案價值約9億、抓獲86人!四川綿陽偵破特大危害珍貴、瀕危野生動物案等部督案件

涉案價值約9億、抓獲86人!四川綿陽偵破特大危害珍貴、瀕危野生動物案等部督案件

紅星新聞
2026-01-09 14:08:36
在妻子鞋里放定位器發(fā)現(xiàn)其出軌,丈夫兩刀殺死妻子出軌對象,被判無期

在妻子鞋里放定位器發(fā)現(xiàn)其出軌,丈夫兩刀殺死妻子出軌對象,被判無期

紅星新聞
2026-01-09 11:36:14
他是任期最長的江蘇省長,1967年被奪權(quán),1980年又擔(dān)任江蘇省長

他是任期最長的江蘇省長,1967年被奪權(quán),1980年又擔(dān)任江蘇省長

嘆為觀止易
2026-01-08 15:59:17
2026-01-09 15:16:49
集智俱樂部 incentive-icons
集智俱樂部
科普人工智能相關(guān)知識技能
5596文章數(shù) 4661關(guān)注度
往期回顧 全部

科技要聞

市場偏愛MiniMax:開盤漲42%,市值超700億

頭條要聞

52票贊成47票反對 特朗普怒了:對委動武或遭限制

頭條要聞

52票贊成47票反對 特朗普怒了:對委動武或遭限制

體育要聞

金元時代最后的外援,來中國8年了

娛樂要聞

檀健次戀愛風(fēng)波越演越烈 上學(xué)經(jīng)歷被扒

財經(jīng)要聞

郁亮的萬科35年:從"寶萬之爭"到"活下去"

汽車要聞

更智能更豪華 樂道L90加配置會貴多少?

態(tài)度原創(chuàng)

健康
教育
數(shù)碼
游戲
公開課

這些新療法,讓化療不再那么痛苦

教育要聞

現(xiàn)在高三,英語只能考70多分,刷題時要背試卷上不認識的單詞嗎

數(shù)碼要聞

雙屏5090真的來了!聊聊我在CES 2026看到的那些PC圈“瘋子”產(chǎn)品

《FF7re》導(dǎo)演回應(yīng)小游戲 遵循原作保留原味?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版