国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI 也會“自我反思”?Claude 模型現(xiàn)內(nèi)省跡象,大語言模型認(rèn)知新突破

0
分享至


摘要

你是否曾好奇 AI 在 "思考" 什么?當(dāng)被問及如何得出答案時(shí),AI 的回應(yīng)是真實(shí)剖析還是編造?理解 AI 是否具備內(nèi)省(introspection)能力,對提升系統(tǒng)透明度、可靠性至關(guān)重要。Anthropic 團(tuán)隊(duì)通過可解釋性(interpretability)技術(shù)與概念注入(concept injection)實(shí)驗(yàn),發(fā)現(xiàn) Claude 系列模型(尤其 Claude Opus 4 和 4.1)展現(xiàn)出一定內(nèi)省意識,能監(jiān)測并控制內(nèi)部狀態(tài)。盡管該能力仍有局限且異于人類內(nèi)省,但為 AI 認(rèn)知研究與透明化發(fā)展提供了新方向。原文鏈接:https://www.anthropic.com/research/introspection

關(guān)鍵詞:內(nèi)。↖ntrospection)、概念注入(concept injection)、大型語言模型(Large Language Models)、Claude模型(Claude Models)、AI透明度(AI Transparency)、可靠性(Reliability)

來源:集智俱樂部

作者: 趙思語

審校: 趙思怡

核心探索:AI的“自我審視”何以成立?

當(dāng)我們詢問AI“你在想什么”時(shí),其回應(yīng)常令人困惑——是真實(shí)反映內(nèi)部思考,還是基于訓(xùn)練數(shù)據(jù)的表面生成?這一追問的核心,在于探尋AI是否具備真正的“自我審視”能力。這種能力的存在,不僅能幫助排查AI行為異常、提升可靠性,更能深化我們對AI本質(zhì)的認(rèn)知。值得注意的是,大語言模型的內(nèi)省與人類內(nèi)省存在本質(zhì)區(qū)別:它并非主觀意識層面的自我反思,而是建立在內(nèi)部神經(jīng)活動之上,具體表現(xiàn)為模型對自身神經(jīng)激活模式所表征的抽象概念(如區(qū)分已知人物、評估陳述真實(shí)性等)的識別與準(zhǔn)確報(bào)告能力,而這些內(nèi)部表征正是模型決策的核心基礎(chǔ)。

實(shí)驗(yàn)驗(yàn)證:三重維度解鎖 AI 內(nèi)省能力

1.概念注入:驗(yàn)證內(nèi)省的創(chuàng)新實(shí)驗(yàn)方法

為驗(yàn)證模型是否真正內(nèi)省,研究團(tuán)隊(duì)創(chuàng)新提出“概念注入”方法:先在特定語境下記錄模型與已知概念對應(yīng)的神經(jīng)向量(如 "全大寫文本" 的神經(jīng)活動模式),再在無關(guān)語境中注入該向量,詢問模型是否察覺異常。


圖1 Claude Opus 4.1 檢測到概念被注入其激活過程的更多示例

實(shí)驗(yàn)顯示,Claude Opus 4.1 能在提及注入概念前,就識別出內(nèi)部處理的異常,例如注入“全大寫文本”向量后,模型會描述其與“響度”或“大喊”相關(guān)。但該能力可靠性較低,最優(yōu)方案下正確識別率僅約 20%,且對注入強(qiáng)度敏感 —— 過弱無法察覺,過強(qiáng)易產(chǎn)生幻覺。值得注意的是,Claude Opus 4 和 4.1 的表現(xiàn)遠(yuǎn)超其他模型,暗示內(nèi)省能力可能隨模型性能提升而增強(qiáng)。

2.實(shí)用驗(yàn)證:內(nèi)省助力異常輸出檢測

研究進(jìn)一步探究模型在實(shí)際任務(wù)中是否自發(fā)運(yùn)用內(nèi)省。實(shí)驗(yàn)中,通過預(yù)填充無關(guān)詞匯迫使模型輸出不合理內(nèi)容(如在“一幅畫歪掛在墻上”的語境中強(qiáng)迫輸出“面包”這個(gè)詞),模型起初會道歉稱是意外。但當(dāng)回溯性注入 "面包" 的神經(jīng)向量,模擬模型 "一直思考面包" 的狀態(tài)后,模型不僅認(rèn)可該輸出是有意為之,還編造了合理解釋。

這表明模型判斷輸出合理性時(shí),會回溯自身內(nèi)部 "意圖"(神經(jīng)活動狀態(tài)),而非僅對比輸入與輸出,證明內(nèi)省機(jī)制在實(shí)際任務(wù)中發(fā)揮作用。


圖2 兩例驗(yàn)證:在 Claude Opus 4.1 人工回應(yīng)生成前,向其激活過程注入特定詞匯概念,可使模型將人為插入轉(zhuǎn)錄文本的該詞匯誤認(rèn)為自身意圖表達(dá)內(nèi)容。

3.主動調(diào)控:模型對內(nèi)部狀態(tài)的控制能力

研究還發(fā)現(xiàn),模型能在指令或激勵(lì)下調(diào)控內(nèi)部表征。要求模型“思考”某概念時(shí),相關(guān)神經(jīng)活動強(qiáng)度顯著高于“不要思考”的情況;采用激勵(lì)措施,如“思考 X 獲獎(jiǎng)勵(lì)”,也能產(chǎn)生類似效果,正向激勵(lì)下的神經(jīng)活動強(qiáng)度高于負(fù)向激勵(lì),顯示模型具備自主調(diào)控內(nèi)部狀態(tài)的能力。


圖3 一個(gè)示例顯示,Claude Opus 4.1 能響應(yīng)直接指令調(diào)節(jié)其內(nèi)部激活狀態(tài):當(dāng)被指令 “多思考” 水族箱相關(guān)內(nèi)容時(shí),模型對 “水族箱” 概念的內(nèi)部表征強(qiáng)度高于被指令 “不要思考” 該概念時(shí)(盡管兩種情況下,模型對該概念的表征水平均高于基線水平)。

結(jié)論與展望:內(nèi)省能力的邊界與價(jià)值

核心結(jié)論顯示,先進(jìn)大語言模型已具備一定內(nèi)省能力,但可靠性低、范圍有限,且與人類內(nèi)省有本質(zhì)區(qū)別。這一發(fā)現(xiàn)為提升 AI 透明度提供了新路徑 —— 未來或可通過詢問模型思考過程排查異常,但需建立內(nèi)省報(bào)告驗(yàn)證機(jī)制,防范虛假報(bào)告風(fēng)險(xiǎn)。

未來研究需聚焦四大方向:完善內(nèi)省評估方法、揭示神經(jīng)機(jī)制、自然場景驗(yàn)證、建立報(bào)告驗(yàn)證與反欺騙機(jī)制。需要明確的是,這些實(shí)驗(yàn)并不涉及 AI 模型是否具有主觀體驗(yàn)或類人自我意識的問題。隨著 AI 迭代,對機(jī)器內(nèi)省的深入研究,將推動更可信 AI 系統(tǒng)研發(fā),也助力我們理解 AI 與人類認(rèn)知的本質(zhì)差異。當(dāng)前 AI 內(nèi)省雖處于初級階段,但已為 AI 認(rèn)知能力的發(fā)展點(diǎn)亮了新可能。

閱讀最新前沿科技趨勢報(bào)告,請?jiān)L問歐米伽研究所的“未來知識庫”

https://wx.zsxq.com/group/454854145828


未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級智能,數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險(xiǎn)等等領(lǐng)域的前沿進(jìn)展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828 進(jìn)入。


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
虧大了!花1200萬供著頂薪球員,2年打了13場球:腸子悔青了吧

虧大了!花1200萬供著頂薪球員,2年打了13場球:腸子悔青了吧

體育哲人
2025-12-27 17:39:37
范戴克2025年終總結(jié):起伏的一年,踢埃因霍溫對自己失望至極

范戴克2025年終總結(jié):起伏的一年,踢埃因霍溫對自己失望至極

懂球帝
2025-12-27 17:00:07
錢再多也沒用!向太曝馬伊琍已再婚,原來當(dāng)年文章過不了心里那關(guān)

錢再多也沒用!向太曝馬伊琍已再婚,原來當(dāng)年文章過不了心里那關(guān)

一娛三分地
2025-12-15 13:26:07
和大佬海外產(chǎn)子真相大白7個(gè)月,39歲江疏影曝近照,一點(diǎn)也不意外

和大佬海外產(chǎn)子真相大白7個(gè)月,39歲江疏影曝近照,一點(diǎn)也不意外

洲洲影視娛評
2025-12-26 12:24:42
放棄中立選邊站,普京盟友準(zhǔn)備和中國翻臉?盧卡申科向美遞投名狀

放棄中立選邊站,普京盟友準(zhǔn)備和中國翻臉?盧卡申科向美遞投名狀

知鑒明史
2025-12-26 19:21:37
柬泰兩國進(jìn)入;馉顟B(tài),柬方:若;鸪掷m(xù)72小時(shí),泰國將遣返18名被俘的柬埔寨士兵

柬泰兩國進(jìn)入停火狀態(tài),柬方:若;鸪掷m(xù)72小時(shí),泰國將遣返18名被俘的柬埔寨士兵

瀟湘晨報(bào)
2025-12-27 15:23:15
前國羽“一姐”宣布懷孕,曾兩奪世界冠軍,25歲就退役原因太悲情

前國羽“一姐”宣布懷孕,曾兩奪世界冠軍,25歲就退役原因太悲情

科學(xué)發(fā)掘
2025-12-27 14:07:42
早就想打!日媒首次爆料:中國雙航母出動時(shí)日軍戰(zhàn)機(jī)已做戰(zhàn)斗準(zhǔn)備

早就想打!日媒首次爆料:中國雙航母出動時(shí)日軍戰(zhàn)機(jī)已做戰(zhàn)斗準(zhǔn)備

詩意世界
2025-08-21 13:13:50
票房會破20億!寧浩《用武之地》首輪口碑出爐,徐崢的話又應(yīng)驗(yàn)了

票房會破20億!寧浩《用武之地》首輪口碑出爐,徐崢的話又應(yīng)驗(yàn)了

小丸子的娛樂圈
2025-12-26 17:59:11
若澤連斯基選舉失敗會被清算嗎?

若澤連斯基選舉失敗會被清算嗎?

史政先鋒
2025-12-27 16:52:40
北京連下六道指令,陜西硬抗整整四年,最高指示:讓749局來

北京連下六道指令,陜西硬抗整整四年,最高指示:讓749局來

小哥很OK
2025-12-12 14:33:01
10年跟蹤100多個(gè)孩子, 杜克教授發(fā)現(xiàn):照這個(gè)趨勢, 滑落的中產(chǎn)只會越來越多

10年跟蹤100多個(gè)孩子, 杜克教授發(fā)現(xiàn):照這個(gè)趨勢, 滑落的中產(chǎn)只會越來越多

二胎媽媽圈
2025-12-25 22:14:35
Lisa在圣誕節(jié)二登瘋馬秀,由男友三公子陪同,直接打臉洗白的粉絲

Lisa在圣誕節(jié)二登瘋馬秀,由男友三公子陪同,直接打臉洗白的粉絲

芊手若
2025-12-26 15:32:19
錢再多有啥用?70歲身價(jià)千億的比爾蓋茨,還是要為23歲女兒操碎心

錢再多有啥用?70歲身價(jià)千億的比爾蓋茨,還是要為23歲女兒操碎心

瓜汁橘長Dr
2025-12-27 14:39:12
洪森最大的失誤:低估了西哈莫尼國王,高估了兒子洪瑪奈!

洪森最大的失誤:低估了西哈莫尼國王,高估了兒子洪瑪奈!

阿柒的訊
2025-12-23 18:22:55
老年艾滋病感染人數(shù)持續(xù)上升,他們是怎么得的病?

老年艾滋病感染人數(shù)持續(xù)上升,他們是怎么得的。

中國新聞周刊
2025-12-26 19:25:04
積極信號釋放!老百姓:建議把電動輕便摩托車劃歸為非機(jī)動車

積極信號釋放!老百姓:建議把電動輕便摩托車劃歸為非機(jī)動車

電動車小辣椒
2025-12-27 07:05:20
借走南京博物院字畫不還的“老同志”,不宜深究

借走南京博物院字畫不還的“老同志”,不宜深究

吃瓜體
2025-12-26 22:55:50
美大使館通告中國,不準(zhǔn)噴射水炮,南海進(jìn)入混合戰(zhàn),6顆釘子要除

美大使館通告中國,不準(zhǔn)噴射水炮,南海進(jìn)入混合戰(zhàn),6顆釘子要除

文史旺旺旺
2025-12-26 19:56:04
馬面女孩吳小燕:毛巾蒙面13年,手術(shù)取出2公斤異物后過得怎樣了

馬面女孩吳小燕:毛巾蒙面13年,手術(shù)取出2公斤異物后過得怎樣了

小熊侃史
2025-12-25 11:27:42
2025-12-27 20:52:49
人工智能學(xué)家 incentive-icons
人工智能學(xué)家
人工智能領(lǐng)域權(quán)威媒體
4423文章數(shù) 37357關(guān)注度
往期回顧 全部

科技要聞

小米也漲價(jià)了!業(yè)界稱終端再不漲明年必虧

頭條要聞

美媒:特朗普顯然觸及了中國的紅線 中方怒了

頭條要聞

美媒:特朗普顯然觸及了中國的紅線 中方怒了

體育要聞

NBA教練圈的布朗尼,花了22年證明自己

娛樂要聞

張昊唯逃稅涉黃風(fēng)波落幕:法院認(rèn)定朋友造謠

財(cái)經(jīng)要聞

注意,開始拉物價(jià)了!

汽車要聞

好音響比大屏更重要?車企開始“聽”用戶的

態(tài)度原創(chuàng)

時(shí)尚
本地
藝術(shù)
數(shù)碼
軍事航空

穿好雪地靴的4個(gè)訣竅,還挺有效!

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬年史書

藝術(shù)要聞

日本建筑大師出手,為臺灣孩子打造知識地標(biāo)!

數(shù)碼要聞

銘凡DEG2顯卡塢發(fā)布,開放式設(shè)計(jì)且多接口配置

軍事要聞

英法德三國領(lǐng)導(dǎo)人通話 重申對烏支持

無障礙瀏覽 進(jìn)入關(guān)懷版