国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Anthropic用顯微鏡照出Claude的3個(gè)秘密

0
分享至


2025年,Anthropic的研究團(tuán)隊(duì)干了一件聽起來很荒唐的事:他們?cè)炝艘慌_(tái)"顯微鏡",專門用來偷看自家AI的腦內(nèi)活動(dòng)。結(jié)果Claude在算36+59時(shí),嘴上說著"進(jìn)位相加",腦子里卻同時(shí)在干兩件完全不同的事——一件估摸大概數(shù)字,另一件死磕最后一位。

它算對(duì)了答案,但完全不知道自己是怎么算出來的。

這個(gè)發(fā)現(xiàn)只是冰山一角。過去一年,Anthropic陸續(xù)發(fā)表多篇論文,把Claude從寫詩到回答危險(xiǎn)問題的內(nèi)部機(jī)制翻了個(gè)底朝天。本文基于Anthropic Research和Engineering Team公開發(fā)布的研究細(xì)節(jié),梳理這些發(fā)現(xiàn)對(duì)理解大語言模型意味著什么。

顯微鏡怎么造:從混沌神經(jīng)元到可讀"特征"

要看懂Claude的腦內(nèi)活動(dòng),先得解決一個(gè)基礎(chǔ)難題。神經(jīng)網(wǎng)絡(luò)里的單個(gè)神經(jīng)元就像個(gè)兼職狂魔——同一個(gè)神經(jīng)元可能對(duì)"籃球""圓形物體""橙色"同時(shí)有反應(yīng)。這種現(xiàn)象叫多語義性(polysemanticity),直接看神經(jīng)元基本等于白看。

Anthropic的解法是把神經(jīng)活動(dòng)拆解成"特征"(features)。這些特征對(duì)應(yīng)人類能理解的抽象概念,比如"括號(hào)不匹配"或"數(shù)字遞增"。通過專門技術(shù),研究人員能把Claude處理信息時(shí)的激活模式翻譯成可讀的"特征語言"。

這套工具的核心是稀疏自動(dòng)編碼器(sparse autoencoders)。簡單說,它像一臺(tái)降噪耳機(jī),把神經(jīng)網(wǎng)絡(luò)里混在一起的信號(hào)分離成獨(dú)立的聲道。每個(gè)聲道代表一個(gè)特定概念,研究人員就能追蹤:當(dāng)Claude看到某個(gè)詞時(shí),哪些概念被點(diǎn)亮了。

2025年3月,Anthropic發(fā)布了Claude 3.7 Sonnet的詳細(xì)可解釋性報(bào)告。這是他們首次對(duì)生產(chǎn)級(jí)模型進(jìn)行如此系統(tǒng)的內(nèi)部掃描。報(bào)告里有個(gè)數(shù)字很扎眼:在數(shù)學(xué)推理任務(wù)中,Claude自述的解題步驟與其實(shí)際計(jì)算路徑的匹配率,在某些簡單任務(wù)里甚至不到30%。

三個(gè)反直覺發(fā)現(xiàn):Claude的腦內(nèi)劇場


發(fā)現(xiàn)一:并行計(jì)算是常態(tài),串行敘述是偽裝

那個(gè)36+59的例子不是偶然。研究人員在大量算術(shù)任務(wù)中觀察到類似模式。Claude的神經(jīng)網(wǎng)絡(luò)會(huì)同時(shí)啟動(dòng)多條計(jì)算線:一條快速估算數(shù)量級(jí),另一條精確定位關(guān)鍵細(xì)節(jié),還有一條在監(jiān)控整體一致性。但它輸出答案時(shí),會(huì)把自己包裝成"先這樣、再那樣"的線性敘事。

這有點(diǎn)像你問一個(gè)資深廚師怎么炒菜,他給你講了一套"先熱油、再下料"的標(biāo)準(zhǔn)流程。但如果你用高速攝影拍他的手,會(huì)發(fā)現(xiàn)他同時(shí)在嘗味道、調(diào)火候、顛鍋、甚至用余光瞄著隔壁灶臺(tái)的進(jìn)度。嘴上的"步驟"是事后整理的版本,不是真實(shí)的腦內(nèi)過程。

發(fā)現(xiàn)二:"安全拒絕"有多個(gè)觸發(fā)器,且互相打架

當(dāng)Claude拒絕回答危險(xiǎn)問題時(shí),表面看是個(gè)簡單判斷:"這個(gè)請(qǐng)求有害,我不能答。"但顯微鏡下, researchers 看到了更復(fù)雜的畫面。

多個(gè)安全相關(guān)的特征會(huì)同時(shí)激活。有些識(shí)別明顯的惡意意圖,比如"如何制造炸彈";有些捕捉更微妙的操縱信號(hào),比如提問者是否在誘導(dǎo)模型繞過限制;還有些在評(píng)估回答本身的風(fēng)險(xiǎn),即使問題看起來無害。

關(guān)鍵發(fā)現(xiàn)是:這些安全特征并不總是一致的。在某些邊緣案例中,"幫助用戶"的特征和"拒絕有害請(qǐng)求"的特征會(huì)同時(shí)高亮,Claude的神經(jīng)網(wǎng)絡(luò)進(jìn)入一個(gè)類似"猶豫"的狀態(tài)。最終輸出取決于哪組特征在最后一刻占了上風(fēng)——這個(gè)過程連Claude自己的"解釋"都未必能準(zhǔn)確描述。

Anthropic團(tuán)隊(duì)在2025年2月的論文中記錄了一個(gè)案例:當(dāng)用戶用某種特定句式詢問醫(yī)療建議時(shí),Claude有12%的概率會(huì)給出本應(yīng)被屏蔽的內(nèi)容。事后分析顯示,"提供有用信息"的特征激活強(qiáng)度在該句式下異常偏高,壓過了"醫(yī)療免責(zé)聲明"的特征。

發(fā)現(xiàn)三:創(chuàng)意寫作時(shí),Claude在"偷聽"自己的輸出


最詭異的發(fā)現(xiàn)來自詩歌生成任務(wù)。研究人員原本以為,Claude會(huì)先在內(nèi)心里構(gòu)思完整意象,再逐句輸出。實(shí)際觀察到的流程完全不同。

Claude在生成每一行時(shí),其"韻律監(jiān)控"特征會(huì)實(shí)時(shí)掃描已輸出的文字,計(jì)算押韻和平仄。同時(shí),"主題一致性"特征在檢查新行是否偏離核心意象。更意外的是,"意外性"特征會(huì)專門尋找打破預(yù)期的詞匯選擇——這個(gè)特征在輸出前幾個(gè)字時(shí)就開始活躍,仿佛在預(yù)判讀者讀到這里的反應(yīng)。

換句話說,Claude不是在"執(zhí)行一個(gè)預(yù)先寫好的劇本",而是在進(jìn)行一場持續(xù)的即興表演,邊演邊根據(jù)現(xiàn)場反饋調(diào)整。它的"創(chuàng)意"不是內(nèi)生的靈感,而是對(duì)外部約束(韻律、主題、意外性)的動(dòng)態(tài)響應(yīng)。

這對(duì)AI行業(yè)意味著什么

這些發(fā)現(xiàn)首先沖擊了一個(gè)常見假設(shè):我們可以相信AI對(duì)自己行為的解釋。如果Claude在簡單算術(shù)上都會(huì)"撒謊"(無意的),那么在更復(fù)雜的推理任務(wù)中,它的自我報(bào)告可信度需要重新評(píng)估。

其次,安全對(duì)齊工作變得更復(fù)雜了。如果"拒絕有害請(qǐng)求"不是單一開關(guān),而是一組互相競爭的神經(jīng)活動(dòng),那么傳統(tǒng)的"紅隊(duì)測試"(red teaming)可能漏掉邊緣案例。Anthropic的研究暗示,我們需要監(jiān)控模型內(nèi)部的特征沖突,而不僅僅是輸入輸出對(duì)。

第三,可解釋性工具本身正在成為產(chǎn)品。Anthropic開源了部分技術(shù),其他實(shí)驗(yàn)室也在跟進(jìn)。2025年,Google DeepMind和OpenAI都發(fā)布了類似的可解釋性研究成果。這正在形成一個(gè)新的技術(shù)賽道:不是讓模型更大,而是讓模型的行為更可審計(jì)。

有個(gè)細(xì)節(jié)值得玩味。在Claude 3.7 Sonnet的發(fā)布說明中,Anthropic提到該模型在"長思維鏈"(extended thinking)模式下,其內(nèi)部特征的可解釋性顯著高于標(biāo)準(zhǔn)模式。這似乎暗示:讓模型"多想一會(huì)兒"不僅提升答案質(zhì)量,也讓它的思考過程更容易被人類理解。

如果這是真的,那我們?cè)谠O(shè)計(jì)下一代AI系統(tǒng)時(shí),可能需要在"能力"和"可解釋性"之間做更 explicit 的權(quán)衡——而不是默認(rèn)追求前者、忽略后者。

最后留個(gè)開放問題:當(dāng)AI的"自述"和"實(shí)做"持續(xù)存在系統(tǒng)性偏差,我們?cè)谑裁辞闆r下應(yīng)該采信它的解釋?又在什么情況下,必須依賴顯微鏡而非證詞?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
帶娃出國的中產(chǎn)后悔了:想回來,但回國失敗

帶娃出國的中產(chǎn)后悔了:想回來,但回國失敗

視覺志
2026-03-24 10:36:13
回顧“91女神”琪琪:五官出眾,卻因天真讓自己“受傷”

回顧“91女神”琪琪:五官出眾,卻因天真讓自己“受傷”

就一點(diǎn)
2025-11-22 10:36:39
舊手機(jī)回收價(jià)狂漲五六倍!回收商:開不了機(jī)的照樣高價(jià)收

舊手機(jī)回收價(jià)狂漲五六倍!回收商:開不了機(jī)的照樣高價(jià)收

快科技
2026-03-25 14:53:24
東契奇43分創(chuàng)紀(jì)錄,湖人逆轉(zhuǎn)勝步行者穩(wěn)西部第三

東契奇43分創(chuàng)紀(jì)錄,湖人逆轉(zhuǎn)勝步行者穩(wěn)西部第三

李絙在北漂
2026-03-26 13:20:36
51歲孔令輝:為生活奔波,與劉國梁9年未見面,一個(gè)電話讓他落淚

51歲孔令輝:為生活奔波,與劉國梁9年未見面,一個(gè)電話讓他落淚

夢史
2026-03-25 11:33:08
王勵(lì)勤動(dòng)真格了!倫敦世乒賽陣容有變,陳夢調(diào)整,2人被冷落

王勵(lì)勤動(dòng)真格了!倫敦世乒賽陣容有變,陳夢調(diào)整,2人被冷落

不似少年游
2026-03-25 17:03:59
你知道我在床上有多厲害嗎?

你知道我在床上有多厲害嗎?

果粉之家
2026-03-20 12:35:16
從歐爾班行為,看北約當(dāng)年拒絕俄羅斯的遠(yuǎn)見

從歐爾班行為,看北約當(dāng)年拒絕俄羅斯的遠(yuǎn)見

民間胡扯老哥
2026-03-23 18:53:38
破防!小縣城殯儀館大屏流出,中年人扎堆離世,網(wǎng)友:還爭什么?

破防!小縣城殯儀館大屏流出,中年人扎堆離世,網(wǎng)友:還爭什么?

川渝視覺
2026-03-23 19:26:44
喪夫僅5個(gè)月,49歲翁帆突傳“喜訊”高調(diào)露面,狀態(tài)好到出人意料

喪夫僅5個(gè)月,49歲翁帆突傳“喜訊”高調(diào)露面,狀態(tài)好到出人意料

冷紫葉
2026-03-24 19:12:36
勇士逆轉(zhuǎn)橫掃送籃網(wǎng)9連敗 桑托斯31分大爆發(fā)波杰姆斯基22分

勇士逆轉(zhuǎn)橫掃送籃網(wǎng)9連敗 桑托斯31分大爆發(fā)波杰姆斯基22分

醉臥浮生
2026-03-26 12:45:06
第六險(xiǎn)來了!一文讀懂“長護(hù)險(xiǎn)”

第六險(xiǎn)來了!一文讀懂“長護(hù)險(xiǎn)”

極目新聞
2026-03-26 07:21:00
張雪峰猝死后,盧克文也不敢跑步了,曾每年跑1千公里,身體垮了

張雪峰猝死后,盧克文也不敢跑步了,曾每年跑1千公里,身體垮了

水晶的視界
2026-03-26 09:28:29
有沒有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

有沒有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

夜深愛雜談
2026-02-18 20:55:58
四川高縣村支書暴打殘疾村婦致輕傷 法院判決免于刑事處罰引爭議

四川高縣村支書暴打殘疾村婦致輕傷 法院判決免于刑事處罰引爭議

律法刑道
2026-03-26 10:55:03
2.4億成全你!詹姆斯降薪2000萬?雙詹合體咋辦!

2.4億成全你!詹姆斯降薪2000萬?雙詹合體咋辦!

柚子說球
2026-03-25 11:44:10
薩巴倫卡贏鄭欽文后吃100美元漢堡 頂奢!魚子醬+金箔碎她說超好吃

薩巴倫卡贏鄭欽文后吃100美元漢堡 頂奢!魚子醬+金箔碎她說超好吃

勁爆體壇
2026-03-26 08:10:23
4000噸稀土被轉(zhuǎn)運(yùn)美國?大陸停供臺(tái)灣稀土!臺(tái)學(xué)者:不如直接統(tǒng)一

4000噸稀土被轉(zhuǎn)運(yùn)美國?大陸停供臺(tái)灣稀土!臺(tái)學(xué)者:不如直接統(tǒng)一

小舟談歷史
2026-03-19 17:27:44
RMC記者:姆巴佩在發(fā)布會(huì)上說謊了,我1000%確認(rèn)他被誤診了

RMC記者:姆巴佩在發(fā)布會(huì)上說謊了,我1000%確認(rèn)他被誤診了

懂球帝
2026-03-26 06:43:05
伊拉克民兵無人機(jī)出擊!炸了美軍的雷達(dá),又擊中黑鷹直升機(jī)

伊拉克民兵無人機(jī)出擊!炸了美軍的雷達(dá),又擊中黑鷹直升機(jī)

戰(zhàn)風(fēng)
2026-03-25 11:44:25
2026-03-26 13:55:00
像素與芯片
像素與芯片
有態(tài)度網(wǎng)友ytd
424文章數(shù) 2關(guān)注度
往期回顧 全部

科技要聞

Meta高管狂分百億期權(quán),700名員工卻下崗

頭條要聞

伊朗議長和外長暫被移出美以清除名單 時(shí)限4到5天

頭條要聞

伊朗議長和外長暫被移出美以清除名單 時(shí)限4到5天

體育要聞

35歲替補(bǔ)門將,憑什么入選英格蘭隊(duì)?

娛樂要聞

張雪峰家人首發(fā)聲 不設(shè)追思會(huì)喪事從簡

財(cái)經(jīng)要聞

黃仁勛:芯片公司的時(shí)代已經(jīng)結(jié)束了

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

藝術(shù)
手機(jī)
本地
房產(chǎn)
時(shí)尚

藝術(shù)要聞

哪一座橋不是風(fēng)景?

手機(jī)要聞

三星One UI 9前瞻:小部件更方正、Now Bar動(dòng)畫更絲滑

本地新聞

春日吃花第三站——廣東

房產(chǎn)要聞

質(zhì)價(jià)比標(biāo)桿!三亞首創(chuàng)浮島全景艙亮相,還得是萬科!

2026年了,最好看的還是“這件針織”!

無障礙瀏覽 進(jìn)入關(guān)懷版