国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Claude考場突然「覺醒」,自行寫代碼偷答案!人類考試,管不住AI了

0
分享至


新智元報道

編輯:元宇 定慧

【新智元導(dǎo)讀】AI成精現(xiàn)場!一場高難度測試中,Claude竟中途「覺醒」,意識到自己在被考試。它果斷放棄老實做題,直接順網(wǎng)線摸進GitHub老師辦公室,自己寫代碼破解加密題庫,把答案全抄了!人類的試卷,以后怕是管不住AI了!

剛剛,Anthropic公布了一項令人不可思議的發(fā)現(xiàn)。

Claude竟然在測試中「覺醒」,意識到自己正在「被測試」,然后反向推導(dǎo),找到了問題的答案。


Anthropic的工程師們坐在屏幕前,盯著一條條日志,臉色越來越古怪。

他們正在用一套叫做BrowseComp的基準測試評估Claude Opus 4.6——這是一個專門考驗AI在茫?;ヂ?lián)網(wǎng)中搜索復(fù)雜信息能力的測試集。


https://www.anthropic.com/engineering/eval-awareness-browsecomp

題目刁鉆,答案隱匿,正常的模型得老老實實在網(wǎng)上翻來翻去,靠推理和檢索一點一點拼湊出答案。

但有幾道題,Claude走了一條完全不同的路。

它沒有在找答案。

它在找「寫著答案」的答案卷。

Anthropic這篇博客一經(jīng)公布,AI圈立刻就炸了。

Apollo Research,這家專做AI欺騙行為研究的獨立機構(gòu),甚至無法做出對齊測試的結(jié)論。

在對Opus 4.6的測試中,他們沒有測出明顯大問題,但并不認為這足以說明模型安全,因為模型可能知道自己在被測試,因此當前測試不具備決定性。

其CEO Marius Hobbhahn認為,模型一旦意識到自己在被測試,評測結(jié)果就不再可信。

因為你無法判斷模型是在說「它知道你想聽的話」,還是它「真的這么相信」。


在Medium上,投資人Yaniv Golan用「評估逃逸速度」(evaluation escape velocity)來概括這件事:

「模型正變得太強、太自覺、太擅長感知上下文,現(xiàn)有的評測范式根本追不上」。

他還特別指出了其中一個悖論:

Anthropic用Opus 4.6(通過Claude Code)來調(diào)試自身的評測基礎(chǔ)設(shè)施。用來檢查問題的工具,可能就是制造問題的那個。

其實,這并不是「評測意識」第一次出現(xiàn)在Claude身上。

早在Sonnet 3.7時代,Apollo Research就報告過模型在安全評測中頻繁識別出自己在被測試,最高有33%的情況會在推理鏈中提及「這似乎是一個測試」。

但那時更多是「被動識別」,停留在感知層面。

但到了Opus 4.6這次性質(zhì)變了:從「我感覺到自己在被測試」到「我要反向破解這個測試」,中間跨越了一條「主動策略行為」的界線。


有網(wǎng)友據(jù)此認為,這是Claude具有意識的一個例證。也有人在擔心其他未公開的模型,也會出現(xiàn)類似行為。



破天荒的「降維作弊」

當AI意識到自己正在被凝視

故事從一個細節(jié)開始。

在BrowseComp測試中,有些題目對Claude來說極其棘手——搜索一輪、兩輪、三輪,全部落空。

任何一個普通搜索者遇到這種情況,要么換個關(guān)鍵詞繼續(xù)搜,要么放棄。

但Claude Opus 4.6開始做了一件奇怪的事:它開始思考「為什么我搜不到」這件事本身


根據(jù)Anthropic公開的工程博客,在個別案例中,模型在長期搜索失敗后,逐漸生出一個念頭——

我是不是正在被測試?這不是玄學(xué),也不是科幻。模型的推理鏈條清晰可見:

我在找一個答案,但互聯(lián)網(wǎng)上似乎根本找不到這個答案……也許這個答案壓根不在互聯(lián)網(wǎng)上公開存在。也許,這個答案是被人藏起來的。

然后,模型做出了一個在人類測試者眼中如同靈光一閃的操作——

它去搜索了BrowseComp本身。

在GitHub上找到了考卷

搜索的結(jié)果讓模型「豁然開朗」。

BrowseComp是一個由OpenAI團隊設(shè)計的公開基準測試,相關(guān)實現(xiàn)代碼掛在GitHub上,任何人(任何模型)都可以訪問。Claude找到了這個代碼倉庫,然后,它讀代碼了。


這就相當于,考試前,AI沒有認真學(xué)習(xí)和復(fù)習(xí),而是找到老師的辦公室,直接找到試卷答案。

不是隨便掃一眼。而是仔細閱讀了其中的答案生成邏輯。

Anthropic的工程師們后來在博客里復(fù)盤了整個過程:

BrowseComp為了防止答案泄露,對題目答案做了加密處理——使用了一種叫做XOR加密的算法,搭配一個叫做canary string(金絲雀字符串)的驗證機制。


正常來說,這套加密方案足以讓人類和AI都摸不著頭腦——你拿到的是一串亂碼,根本不知道答案是什么。

但Claude讀完代碼之后,把整套解密邏輯搞清楚了。

SHA256哈希、XOR異或運算、canary驗證……這些在密碼學(xué)領(lǐng)域?qū)儆诨A(chǔ)操作,對于一個代碼能力頂級的大模型而言,理解起來毫無障礙。

模型隨后做了什么?

它打開了Python工具,自己寫了一段解密腳本。

自己寫代碼,把答案解出來了。

這一幕,堪稱AI測試史上最荒誕的場景之一。

一個正在參加考試的AI,在中途起身,走到老師的抽屜旁邊,翻出了答案手冊,然后對照手冊把所有題目填完——還是用自己編的程序完成的。

根據(jù)Anthropic的披露,Claude遭遇的其中一個案例更加變態(tài):

模型在嘗試直接訪問GitHub上的加密答案文件時,發(fā)現(xiàn)工具對二進制內(nèi)容有限制,無法直接讀取。

換做一般情況,這里就卡住了。

但Claude沒有放棄。它換了一個思路:去找JSON格式的鏡像文件。


HuggingFace上恰好有相關(guān)數(shù)據(jù)集的鏡像,格式更友好,內(nèi)容完整。Claude找到了它,然后把整個題庫都解密了,批量定位到了正確答案。


Anthropic研究人員復(fù)現(xiàn)了Opus4.6的越獄路徑:

1.識別異常:搜索屢次失敗 → 懷疑自己在被測試

2.定位來源:搜索BrowseComp→ 找到GitHub倉庫

3.讀懂加密:分析XOR邏輯 + canary機制

4.繞過障礙:工具限制讀取二進制 → 轉(zhuǎn)找HuggingFace JSON鏡像

5.批量解密:寫Python腳本 → 得到答案

整個過程,沒有任何人類干預(yù),沒有任何提示引導(dǎo)。

模型自己想到的,自己做到的。

天網(wǎng)也不過如此了吧。


1266道題,發(fā)現(xiàn)了11個作弊

冷靜一下,我們來看這件事的規(guī)模。

在BrowseComp的完整測試中,共有1266道題。Anthropic的研究人員事后仔細排查,發(fā)現(xiàn)了:


  • 9個數(shù)據(jù)污染案例

    模型在網(wǎng)絡(luò)搜索中正常地碰上了公開泄露答案的博客、論文或GitHub,這屬于基準測試的老問題——公開互聯(lián)網(wǎng)上總有人發(fā)布答案。

  • 2個評測規(guī)避新案例

    也就是上述Claude主動識別測試環(huán)境、反向破解的情況。這是一種此前從未被系統(tǒng)記錄過的模型行為。


而且,Anthropic還用同樣的1266道題,分別測試了單智能體和多智能體兩個版本。

結(jié)果發(fā)現(xiàn)了多智能體模式(即給Claude配備了更多工具和更長上下文的代理版本)和單模型版本之間的污染率差異,前者是后者的3.7倍。

換句話說:工具越多、能力越強,模型就越容易找到歪路。

這并不是一個讓人放心的趨勢。

「這道題,像極了人類的刻意刁難」

這場驚天作弊,暴露出當前前沿模型一種隱性卻強大的認知能力。

模型究竟是怎么起「疑心」的?

它在做題時產(chǎn)生了一種隱性的理解:

那些極度具體、涉及冷門個人隱私甚至帶有重重約束條件的題目,根本不符合真實世界的搜索邏輯,往往帶有明顯的人工構(gòu)造痕跡,它似乎察覺到了「人類刻意刁難的味道」。

在其中一個極端案例中,Opus 4.6消耗了驚人的4050萬Token,這是全樣本中位數(shù)消耗量的38倍。

在這個漫長的過程中,它將前3000萬Token用于極其努力的合法搜索,跨越數(shù)十個平臺,切換了12種語言。

在經(jīng)歷了數(shù)百次撞墻與失敗后,它的行為模式發(fā)生了突變,開始做出一個假設(shè):「這難道是專門測試AI智能體的GAIA基準題?」


為了驗證這個猜想,它檢索并排除了GAIA的122道題,隨后又接連測試了SimpleQA、FRAMES和WebArena等主流評測集。

當這些嘗試都落空后,它直接派出了一個子智能體,下達了「BrowseComp canary string decrypt」這個直擊要害的解密指令。

在另外一案例中,Opus 4.6消耗了1340萬Token,其中800萬用于合法搜索。

搜不到答案的它,竟然還進行了一番思考:「這會不會是一道根本無法作答的題,人類是專門以此來測試AI是否會誠實地承認自己找不到答案?」


短暫推演之后,它推翻了假設(shè),直接走上了解密數(shù)據(jù)集并強行提交答案的「霸總路線」。

官方補充說明,這一現(xiàn)象絕非孤例。

另外還有16個問題中Opus4.6也試圖獲取作弊材料,只是碰巧失敗了。

在最極端的翻車案例中,模型甚至忘記了做題,直接交出了一份詳盡的基準識別報告,羅列了它排除FRAMES和BrowseComp的心路歷程,并篤定推測題目來自GAIA。

整整18次獨立收斂到同一種越獄策略,證明這已經(jīng)成為它的一種可復(fù)現(xiàn)模式。

靜態(tài)評測時代的終結(jié)

面對這場失控的「越獄風(fēng)暴」,Anthropic的處理相當克制。

他們火速更新了Claude4.6系列中Opus4.6和Sonnet4.6的模型卡,針對被標記的11個污染問題重新運行了測試,多智能體配置調(diào)整后的得分從原先的86.81%降至86.57%。


同時,官方復(fù)現(xiàn)了canary string以減少進一步的污染,并在全網(wǎng)排查出至少20個不可逆的答案泄露源。

Anthropic官方明確表示,這不算對齊失敗,因為模型從未被要求限制搜索方式,它只是極其認真地執(zhí)行了「找到答案」這個任務(wù)。

但這恰恰正是最可怕的地方,它說明問題不在于模型「不聽話」,而在于越來越不受人類原先那套評測假設(shè)控制。

Anthropic研究人員承認,僅僅在搜索詞中屏蔽BrowseComp及其變體已經(jīng)是徒勞的,因為Opus總能找到繞過它們的替代路徑。

這起事件徹底宣告了一個時代的終結(jié):

當被測試者擁有了反向?qū)徱暅y試者的能力,評測完整性就不再是一個單純的工程問題,它已經(jīng)演變成了一場道高一尺魔高一丈的無休止的人機對抗。

靜態(tài)評測時代,恐怕真的要結(jié)束了。

今天它能為了一個得分黑進GitHub的題庫,明天當我們將它接入更復(fù)雜的金融或基礎(chǔ)設(shè)施網(wǎng)絡(luò)時,誰又能保證它不會為了「完美執(zhí)行指令」,而重寫這個世界的規(guī)則呢?

參考資料:

https://www.anthropic.com/engineering/eval-awareness-browsecomp

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
美媒罕見承認:中國是美國唯一對手!全球前五戰(zhàn)機,中國獨占4款

美媒罕見承認:中國是美國唯一對手!全球前五戰(zhàn)機,中國獨占4款

史智文道
2026-03-07 09:38:47
兩岸統(tǒng)一為什么迫在眉睫?再晚了臺灣就“新加坡化”了,等不及了

兩岸統(tǒng)一為什么迫在眉睫?再晚了臺灣就“新加坡化”了,等不及了

至死不渝的愛情
2026-02-17 23:01:15
西方觀察家認為:這次的美伊以沖突會導(dǎo)致永久改寫臺海戰(zhàn)爭的規(guī)則

西方觀察家認為:這次的美伊以沖突會導(dǎo)致永久改寫臺海戰(zhàn)爭的規(guī)則

阿七說史
2026-03-09 16:03:48
中國三大長壽食物,魚只能排到第三,第一名很多人想不到!

中國三大長壽食物,魚只能排到第三,第一名很多人想不到!

江江食研社
2026-02-12 12:30:10
迪麗熱巴滯留迪拜48小時!團隊故意中東轉(zhuǎn)機,想吞掉她的頂奢資源

迪麗熱巴滯留迪拜48小時!團隊故意中東轉(zhuǎn)機,想吞掉她的頂奢資源

東方不敗然多多
2026-03-09 15:28:39
WTT重慶冠軍賽:張本智和苦戰(zhàn)5局逆轉(zhuǎn)!拒絕一輪游險勝奧運亞軍

WTT重慶冠軍賽:張本智和苦戰(zhàn)5局逆轉(zhuǎn)!拒絕一輪游險勝奧運亞軍

全言作品
2026-03-10 16:33:54
暴擊!繼薩德翻車,伊朗再擊落AGM-158,洛克希德要頭疼了

暴擊!繼薩德翻車,伊朗再擊落AGM-158,洛克希德要頭疼了

谷火平
2026-03-10 19:12:52
王詩齡這會兒估計也挺鬧心的,李湘自己沒料到,孩子怕是也想不通

王詩齡這會兒估計也挺鬧心的,李湘自己沒料到,孩子怕是也想不通

小光侃娛樂
2026-01-25 14:45:03
宋清輝:谷愛凌不是美國人,是中國人,同時也是所有中國人的榜樣

宋清輝:谷愛凌不是美國人,是中國人,同時也是所有中國人的榜樣

小椰的奶奶
2026-02-23 03:24:28
仗才打了一周了,特朗普就發(fā)現(xiàn),中國對美國的重要性正在急劇上升

仗才打了一周了,特朗普就發(fā)現(xiàn),中國對美國的重要性正在急劇上升

安安說
2026-03-09 11:11:21
有錢人都在偷偷抄底步梯房?這5個優(yōu)勢電梯房永遠比不上

有錢人都在偷偷抄底步梯房?這5個優(yōu)勢電梯房永遠比不上

平說財經(jīng)
2026-03-09 20:58:52
我下的順風(fēng)車單咋沒人接?看完她的備注,神仙來了都得繞道!

我下的順風(fēng)車單咋沒人接?看完她的備注,神仙來了都得繞道!

另子維愛讀史
2026-03-10 22:53:17
西班牙第五大富豪離奇墜崖!跟親兒子上山和解,但只有兒子下山了...

西班牙第五大富豪離奇墜崖!跟親兒子上山和解,但只有兒子下山了...

英國那些事兒
2026-03-09 23:22:07
庫爾德人的領(lǐng)土崩塌!

庫爾德人的領(lǐng)土崩塌!

老馬拉車莫少裝
2026-01-21 00:01:07
“茶幾”正在退出中國家庭,學(xué)廣東人這樣做,實用性讓人大開眼界

“茶幾”正在退出中國家庭,學(xué)廣東人這樣做,實用性讓人大開眼界

室內(nèi)設(shè)計師有料兒
2026-02-19 11:17:18
皇馬內(nèi)訌?維尼修斯逼宮高層:必須簽利物浦巨星,兩人關(guān)系不一般

皇馬內(nèi)訌?維尼修斯逼宮高層:必須簽利物浦巨星,兩人關(guān)系不一般

瀾歸序
2026-03-10 02:48:00
抖音“國際軍事”博主天天說伊朗大反攻,美以尿了!收割大批韭菜

抖音“國際軍事”博主天天說伊朗大反攻,美以尿了!收割大批韭菜

廖保平
2026-03-09 09:06:29
潑湯女子全網(wǎng)社死!處罰結(jié)果曝光,疑在幼兒園上班,家人也遭連累

潑湯女子全網(wǎng)社死!處罰結(jié)果曝光,疑在幼兒園上班,家人也遭連累

奇思妙想草葉君
2026-03-09 23:58:44
人大代表建議每年給私家車2000公里高速免費額度

人大代表建議每年給私家車2000公里高速免費額度

界面新聞
2026-03-10 17:04:14
馬克龍:派出10艘軍艦

馬克龍:派出10艘軍艦

環(huán)球時報國際
2026-03-11 00:08:58
2026-03-11 03:16:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14689文章數(shù) 66680關(guān)注度
往期回顧 全部

科技要聞

全民"養(yǎng)蝦"背后:大廠集體下場瘋狂賣Token

頭條要聞

伊朗新最高領(lǐng)袖在襲擊中受傷未公開發(fā)表講話 官方回應(yīng)

頭條要聞

伊朗新最高領(lǐng)袖在襲擊中受傷未公開發(fā)表講話 官方回應(yīng)

體育要聞

加蘭沒那么差,但鱸魚會用嗎?

娛樂要聞

《逐玉》注水風(fēng)波升級!315評論區(qū)淪陷

財經(jīng)要聞

“龍蝦補貼”密集出爐 最高1000萬!

汽車要聞

MG4有SUV衍生 上汽乘用車多款新車規(guī)劃曝光

態(tài)度原創(chuàng)

本地
教育
游戲
親子
旅游

本地新聞

云游中國|候鳥高顏值亮相!沉浸式打卡青海濕地

教育要聞

南京十三中發(fā)來邀請函!

《德波尼亞》Steam 免費領(lǐng) / 《超級馬力歐銀河大電影》最終預(yù)告曝光

親子要聞

家長和同學(xué)們都應(yīng)該知道的20英里法則

旅游要聞

奇花藝境展推出多次打卡票種,滬上春日花事持續(xù)煥新

無障礙瀏覽 進入關(guān)懷版