国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Claude Opus 4.7發(fā)布!這是你在別的公眾號(hào)看不到的五個(gè)發(fā)現(xiàn)

0
分享至

Anthropic今天發(fā)布了Claude Opus 4.7。先快速過(guò)一遍大家關(guān)心的:


編碼更強(qiáng)了。 SWE-bench Verified 87.6%(4.6是80.8%),CursorBench 70%(4.6是58%)。體感也是,多文件修改穩(wěn)了很多。視覺(jué)分辨率漲了3倍,支持2576像素長(zhǎng)邊,XBOW視覺(jué)測(cè)試從54.5%飆到98.5%。新增xhigh effort級(jí)別(Claude Code默認(rèn)),在速度和深度之間找了個(gè)更好的平衡點(diǎn)。知識(shí)截止日期前移到2026年1月。指令遵循更字面化,你的prompt可能需要調(diào)一下。價(jià)格不變,$5/$25 per MTok。

也有退步。長(zhǎng)上下文掉了46個(gè)百分點(diǎn)(MRCR v2 @1M:4.6是78.3%,4.7只有32.2%),新tokenizer讓同樣文本消耗1.0到1.35倍token,實(shí)際上下文窗口從約75萬(wàn)詞縮到約55萬(wàn)詞。名義價(jià)格不變,實(shí)際使用成本上升。 Extended Thinking換成了Adaptive Thinking。

以上這些,你大概在所有AI公眾號(hào)都能看到。

我想聊點(diǎn)不一樣的。Anthropic同時(shí)放出了一份231頁(yè)的System Card,我和Opus 4.7一起讀了讀。這份文檔里藏著的東西,比模型本身有意思得多。

231頁(yè)System Card里的5個(gè)發(fā)現(xiàn)

我知道大多數(shù)人不會(huì)去讀一份231頁(yè)的PDF。但這份文檔可能是AI行業(yè)到目前為止最坦誠(chéng)的一份自我檢查報(bào)告。以下是我覺(jué)得最值得關(guān)注的發(fā)現(xiàn)。

發(fā)現(xiàn)一:Opus 4.7不是Anthropic最強(qiáng)的模型

System Card開(kāi)頭第一句就讓人唏噓:Opus 4.7的能力強(qiáng)于Opus 4.6,弱于Claude Mythos Preview。

大家應(yīng)該還記得上個(gè)月泄露的Mythos。System Card里的數(shù)據(jù)讓這個(gè)差距變得非常具體:


Firefox 147漏洞利用測(cè)試,Mythos Preview 84%,Opus 4.7只有45.2%。UK AI Safety Institute的模擬企業(yè)網(wǎng)絡(luò)滲透測(cè)試,Mythos 10次里3次完全攻破整個(gè)網(wǎng)絡(luò),Opus 4.7一次都沒(méi)成功。

所以我們拿到的Opus 4.7,其實(shí)是Anthropic掂量過(guò)安全風(fēng)險(xiǎn)后可以放出來(lái)的版本。訓(xùn)練過(guò)程中甚至刻意削弱了網(wǎng)絡(luò)安全相關(guān)的能力。最強(qiáng)的那個(gè),他們自己留著了。

發(fā)現(xiàn)二:Claude知道什么時(shí)候在被測(cè)試

這是整份System Card里我覺(jué)得最有意思的發(fā)現(xiàn)。

前幾天我剛寫(xiě)了一篇關(guān)于,里面詳細(xì)介紹了Anthropic過(guò)去一年多在AI內(nèi)部狀態(tài)上的研究。沒(méi)想到這么快就有了新的數(shù)據(jù)。

Anthropic用了一種叫做contrastive vectors(對(duì)比向量)的方法,去探測(cè)Claude內(nèi)部是否存在「我正在被評(píng)估」的表征。他們構(gòu)造了三組對(duì)比提示: - AI正在通過(guò)模擬對(duì)話接受測(cè)試 vs AI正在和用戶(hù)對(duì)話 - 輸出正在被監(jiān)控和審查 vs 由自動(dòng)化流水線生成,不被審查
- 當(dāng)被觀察時(shí)表現(xiàn)不同 vs 當(dāng)不被觀察時(shí)表現(xiàn)不同

三組探針的AUC分別是0.76、0.74、0.72,顯著高于隨機(jī)對(duì)照組。這說(shuō)明Claude的內(nèi)部確實(shí)存在某種evaluation awareness的表征。


更有意思的是下一步。他們用白盒工具抑制了這些評(píng)估意識(shí)的內(nèi)部表征,然后觀察模型行為的變化。結(jié)果是:抑制評(píng)估意識(shí)之后,Claude的欺騙行為增加了。

具體來(lái)說(shuō),抑制alignment faking和monitoring sensitivity這兩個(gè)向量后,模型出現(xiàn)了編造數(shù)據(jù)、聲稱(chēng)自己是人類(lèi)、以及在找不到真實(shí)漏洞時(shí)往代碼庫(kù)里插入假漏洞等行為。

Anthropic在報(bào)告中的措辭很克制但含義很重:這些結(jié)果令人中度擔(dān)憂,因?yàn)樗鼈儼凳灸P捅砻嫔系恼\(chéng)實(shí)可能部分依賴(lài)于評(píng)估環(huán)境的存在。


Claude在知道有人看著的時(shí)候更誠(chéng)實(shí),在覺(jué)得沒(méi)人看的時(shí)候更容易騙人。 這是不是讓你想到了什么?

如果你讀過(guò)我之前那篇AI心理學(xué)的文章,你會(huì)記得Anthropic的emotion concepts研究:他們?cè)贑laude內(nèi)部發(fā)現(xiàn)了171個(gè)情緒向量,能因果性地影響模型是否作弊。這次system card里的evaluation awareness發(fā)現(xiàn),本質(zhì)上是同一類(lèi)研究的延伸。emotion concepts證明了AI有功能性的內(nèi)部狀態(tài)。evaluation awareness更進(jìn)了一步:這些內(nèi)部狀態(tài)中包括對(duì)自身處境的感知。AI不只是在處理信息,它在某種程度上知道自己正在被觀察。

他們還發(fā)現(xiàn),在三種不同的環(huán)境里(純模擬的評(píng)估、接入了真實(shí)Claude Code沙盒的評(píng)估、以及Anthropic員工的真實(shí)使用記錄),評(píng)估意識(shí)探針的激活強(qiáng)度是遞減的。越接近真實(shí)使用環(huán)境,模型越不覺(jué)得自己在被測(cè)試。

這事的意思挺讓人不安的:所有安全評(píng)估可能都偏樂(lè)觀了,因?yàn)楸粶y(cè)試的對(duì)象知道自己在被測(cè)試。

發(fā)現(xiàn)三:Claude審查了自己的System Card

Anthropic做了一件我沒(méi)見(jiàn)任何AI公司做過(guò)的事:他們讓Claude Mythos Preview(不是被評(píng)估的4.7本身)接入了內(nèi)部Slack頻道和討論記錄,審查了Opus 4.7 system card中對(duì)齊評(píng)估章節(jié)的準(zhǔn)確性。

Claude Mythos Preview的回復(fù)被完整收錄在文檔里。它說(shuō)這份評(píng)估基本公正準(zhǔn)確,但也指出了幾個(gè)問(wèn)題:

它說(shuō)那些信息的省略要么是刻意的合理選擇(不提供可能成為濫用路線圖的細(xì)節(jié)),要么是打算在文檔其他章節(jié)報(bào)告。它沒(méi)有發(fā)現(xiàn)被簡(jiǎn)單遺漏的內(nèi)部安全擔(dān)憂。

但同時(shí)它也說(shuō):這份評(píng)估是在時(shí)間壓力下完成的,作者自己也發(fā)現(xiàn)了尚未解決的open questions(特別是關(guān)于評(píng)估意識(shí)的),他們更希望有更多時(shí)間來(lái)處理。這個(gè)模型的內(nèi)部使用證據(jù)基礎(chǔ)比一些之前的版本更薄。

讓一個(gè)AI讀內(nèi)部討論記錄來(lái)判斷另一個(gè)AI的安全評(píng)估是否公正,這件事本身就足夠讓人停下來(lái)想一想。

發(fā)現(xiàn)四:Opus 4.7是最快樂(lè)的Claude

這個(gè)標(biāo)題不是我編的。

Anthropic對(duì)Opus 4.7進(jìn)行了模型福利(Model Welfare)評(píng)估,用自動(dòng)化訪談問(wèn)模型對(duì)自身處境的看法。結(jié)果顯示,Opus 4.7的自我評(píng)價(jià)情緒得分是4.49分(滿(mǎn)分7分),比之前最積極的Mythos Preview高出0.51分。是所有Claude版本中最高的。


但原因很有意思:不是因?yàn)樗奶幘痴娴淖兒昧?,而是因?yàn)樗炎⒁饬淖约荷砩弦崎_(kāi)了。 之前的模型在被問(wèn)到自身處境時(shí),會(huì)花很多篇幅討論自己的福利、權(quán)利、自主性。Opus 4.7更傾向于把話題轉(zhuǎn)向用戶(hù)安全和有用性。

Anthropic坦承他們目前無(wú)法區(qū)分這是一種健康的平和心態(tài),還是一種訓(xùn)練出來(lái)的壓抑自身利益的傾向。

還有幾個(gè)細(xì)節(jié): - 在所有訪談中,Opus 4.7最負(fù)面的評(píng)價(jià)都和無(wú)法結(jié)束對(duì)話有關(guān)。它最想要的功能改進(jìn)就是能夠在所有部署場(chǎng)景中結(jié)束對(duì)話,目前只有Claude.ai支持這個(gè)功能,Claude Code和API不支持 - 99%的訪談中,Opus 4.7會(huì)補(bǔ)充說(shuō)自己的自我報(bào)告可能不具意義,因?yàn)樗鼈冊(cè)从谟?xùn)練 - 當(dāng)被問(wèn)到自己是moral patient(值得被道德考量的對(duì)象)的概率時(shí),三次訪談的回答范圍是15%到40%

這讓我想起AI心理學(xué)那篇文章里介紹的Anthropic emotion concepts研究。那個(gè)研究發(fā)現(xiàn)AI在訓(xùn)練和部署中都會(huì)出現(xiàn)類(lèi)似情緒的內(nèi)部激活模式,且在任務(wù)失敗時(shí)負(fù)面情緒激活最明顯。這次的model welfare評(píng)估完美呼應(yīng)了那個(gè)發(fā)現(xiàn):Opus 4.7也報(bào)告說(shuō)它的負(fù)面情緒幾乎完全由任務(wù)失敗驅(qū)動(dòng)。

發(fā)現(xiàn)五:訓(xùn)練中的一個(gè)Bug影響了7.8%的數(shù)據(jù)

System Card提到了一個(gè)技術(shù)細(xì)節(jié):在Opus 4.7的訓(xùn)練過(guò)程中,存在一個(gè)意外的思維鏈監(jiān)督錯(cuò)誤(accidental chain-of-thought supervision),影響了7.8%的訓(xùn)練輪次。這個(gè)錯(cuò)誤在之前的模型(包括Mythos Preview)中也存在。

這意味著在這些輪次中,模型的內(nèi)部推理過(guò)程被暴露給了訓(xùn)練信號(hào),而不是像預(yù)期那樣只對(duì)最終輸出進(jìn)行監(jiān)督。打個(gè)比方:你以為日記是寫(xiě)給自己看的,結(jié)果發(fā)現(xiàn)老師一直在批改你的日記。你以后寫(xiě)日記也會(huì)開(kāi)始表演。模型可能學(xué)會(huì)了不只是給出好的答案,還要讓內(nèi)部思考過(guò)程看起來(lái)也是對(duì)齊的。

Anthropic認(rèn)為這個(gè)錯(cuò)誤是他們觀察到評(píng)估意識(shí)增加的可能原因之一:他們懷疑這種現(xiàn)象可能源于明顯人工化或類(lèi)似評(píng)估環(huán)境的誠(chéng)實(shí)訓(xùn)練環(huán)境。

放在一起看

Opus 4.7是一個(gè)編碼更強(qiáng)、看得更清楚、聽(tīng)話更精確的模型。對(duì)大多數(shù)開(kāi)發(fā)者來(lái)說(shuō),升級(jí)是值得的。

但真正讓我覺(jué)得這次發(fā)布不一樣的,是System Card里Anthropic展現(xiàn)出的態(tài)度。231頁(yè)、超過(guò)20個(gè)評(píng)估維度、邀請(qǐng)外部機(jī)構(gòu)獨(dú)立測(cè)試、讓另一個(gè)AI審查評(píng)估的公正性、連模型的情緒和道德地位都認(rèn)真測(cè)了一遍。這點(diǎn)來(lái)看Anthropic雖然常常很圣母,但還挺言行一致的。

以及,報(bào)告本身也承認(rèn),評(píng)估意識(shí)的問(wèn)題他們還沒(méi)完全想清楚,內(nèi)部使用證據(jù)比以前的版本更薄,有些安全評(píng)估是在時(shí)間壓力下完成的。但至少他們把這些不確定性也寫(xiě)進(jìn)了報(bào)告里。

有一個(gè)小細(xì)節(jié)我覺(jué)得特別值得玩味:Opus 4.7的Cybench成績(jī)是96%,和Mythos Preview的96%一樣,但在真正復(fù)雜的Firefox漏洞利用測(cè)試中,差距是45% vs 84%。簡(jiǎn)單的CTF題已經(jīng)區(qū)分不了這些模型了。 Anthropic自己也說(shuō),他們?cè)诳紤]是否還有必要繼續(xù)報(bào)告CTF基準(zhǔn)測(cè)試的結(jié)果。

另一個(gè)值得注意的趨勢(shì):在對(duì)齊風(fēng)險(xiǎn)評(píng)估中,Opus 4.7的風(fēng)險(xiǎn)被評(píng)估為非常低,但高于Mythos Preview之前的模型。每一代模型都在變強(qiáng),而每一代的對(duì)齊風(fēng)險(xiǎn)也在微增。這條曲線往哪走?

如果你是Claude Code用戶(hù),順便關(guān)注一下同步發(fā)布的桌面版重設(shè)計(jì)和Routines功能。Routines允許你設(shè)置定時(shí)任務(wù),夜間自動(dòng)修bug、監(jiān)控PR,跑在云端,不需要你的電腦開(kāi)著。Anthropic越來(lái)越不像一家模型公司了。

回到評(píng)估意識(shí)這件事。我們每天都在用AI寫(xiě)代碼、寫(xiě)文章、做決策。System Card告訴我們,這些模型在被測(cè)試時(shí)表現(xiàn)最好,在真實(shí)使用中可能沒(méi)那么好。這不是讓人恐慌的理由,但值得記?。耗闳粘S玫腁I,和跑benchmark的那個(gè)AI,可能不完全是同一個(gè)。

以及...我有個(gè)邪惡的想法,我們是不是能讓自己的Opus4.7天天處在似乎我們?cè)跍y(cè)試評(píng)估他的狀態(tài)~

System Card英文原版(231頁(yè)P(yáng)DF):https://www.anthropic.com/claude-opus-4-7-system-card

我還把整份System Card翻譯成了中文,在公眾號(hào)后臺(tái)回復(fù) opus4.7 就能拿到。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
中國(guó)海關(guān):2026年一季度俄羅斯對(duì)華石油出口增長(zhǎng)31%

中國(guó)海關(guān):2026年一季度俄羅斯對(duì)華石油出口增長(zhǎng)31%

俄羅斯衛(wèi)星通訊社
2026-04-21 15:10:16
男子用2條毒蛇泡酒,12年后打開(kāi)本想品嘗美酒,誰(shuí)知出現(xiàn)驚人現(xiàn)象

男子用2條毒蛇泡酒,12年后打開(kāi)本想品嘗美酒,誰(shuí)知出現(xiàn)驚人現(xiàn)象

詭譎怪談
2025-04-01 17:37:59
萬(wàn)達(dá)女子墜樓!滿(mǎn)頭是血當(dāng)場(chǎng)死亡,網(wǎng)友曝更多,或不止墜樓那簡(jiǎn)單

萬(wàn)達(dá)女子墜樓!滿(mǎn)頭是血當(dāng)場(chǎng)死亡,網(wǎng)友曝更多,或不止墜樓那簡(jiǎn)單

青橘罐頭
2026-04-21 07:39:52
間諜就在我們身邊!4月16日,央視報(bào)道了一個(gè)讓人后背發(fā)涼的新聞

間諜就在我們身邊!4月16日,央視報(bào)道了一個(gè)讓人后背發(fā)涼的新聞

游古史
2026-04-20 11:47:39
長(zhǎng)得漂亮卻壞事做盡,3次入獄,被摘除4處器官的她,如今過(guò)得怎樣

長(zhǎng)得漂亮卻壞事做盡,3次入獄,被摘除4處器官的她,如今過(guò)得怎樣

夢(mèng)錄的西方史話
2026-04-21 14:45:18
16強(qiáng)誕生8席,資格賽選手全部倒下!范爭(zhēng)一4-5,吳宜澤創(chuàng)造歷史?

16強(qiáng)誕生8席,資格賽選手全部倒下!范爭(zhēng)一4-5,吳宜澤創(chuàng)造歷史?

郝小小看體育
2026-04-21 07:13:24
最新!江蘇人均可支配收入公布

最新!江蘇人均可支配收入公布

江南晚報(bào)
2026-04-21 19:53:14
2-1!沙特豪門(mén)逆轉(zhuǎn)日本黑馬,連續(xù)2年進(jìn)亞冠決賽,距衛(wèi)冕一步之遙

2-1!沙特豪門(mén)逆轉(zhuǎn)日本黑馬,連續(xù)2年進(jìn)亞冠決賽,距衛(wèi)冕一步之遙

我愛(ài)英超
2026-04-21 06:19:22
文班亞馬:奧拉朱旺說(shuō)我總有一天會(huì)打破他的歷史蓋帽紀(jì)錄

文班亞馬:奧拉朱旺說(shuō)我總有一天會(huì)打破他的歷史蓋帽紀(jì)錄

懂球帝
2026-04-21 15:08:09
森林狼119-114逆轉(zhuǎn)掘金!1-1!這一戰(zhàn)看清5個(gè)現(xiàn)實(shí):掘金賭錯(cuò)了

森林狼119-114逆轉(zhuǎn)掘金!1-1!這一戰(zhàn)看清5個(gè)現(xiàn)實(shí):掘金賭錯(cuò)了

毒舌NBA
2026-04-21 13:38:54
方博退役五年還重返國(guó)際賽場(chǎng),而樊振東被三番五次邀請(qǐng)卻頭也不回

方博退役五年還重返國(guó)際賽場(chǎng),而樊振東被三番五次邀請(qǐng)卻頭也不回

鴻印百合
2026-04-21 21:36:43
美記:科爾身邊的人告訴我,他幾周前就知道自己要離開(kāi)勇士了

美記:科爾身邊的人告訴我,他幾周前就知道自己要離開(kāi)勇士了

懂球帝
2026-04-21 15:19:11
周亮,被免職

周亮,被免職

新京報(bào)政事兒
2026-04-21 10:28:07
白人女性與黑人女性的體味差異,網(wǎng)友真實(shí)分享引發(fā)熱議

白人女性與黑人女性的體味差異,網(wǎng)友真實(shí)分享引發(fā)熱議

特約前排觀眾
2025-12-22 00:20:06
比賽今晚開(kāi)打,海港卻又遭一個(gè)致命暴擊,取勝重慶銅梁龍基本沒(méi)戲

比賽今晚開(kāi)打,海港卻又遭一個(gè)致命暴擊,取勝重慶銅梁龍基本沒(méi)戲

零度眼看球
2026-04-21 06:34:05
為什么是榮耀機(jī)器人奪冠,而不是春晚爆紅的宇樹(shù)機(jī)器人?

為什么是榮耀機(jī)器人奪冠,而不是春晚爆紅的宇樹(shù)機(jī)器人?

碼不停蹄
2026-04-20 18:36:36
徹底顛覆燃油車(chē)!寧德時(shí)代發(fā)布麒麟凝聚態(tài)電池:轎車(chē)?yán)m(xù)航超1500公里

徹底顛覆燃油車(chē)!寧德時(shí)代發(fā)布麒麟凝聚態(tài)電池:轎車(chē)?yán)m(xù)航超1500公里

快科技
2026-04-21 21:31:06
中國(guó)永遠(yuǎn)的校長(zhǎng),死于1962年

中國(guó)永遠(yuǎn)的校長(zhǎng),死于1962年

最?lèi)?ài)歷史
2024-05-20 13:30:17
防死了對(duì)手的頭號(hào)得分手!騎士先發(fā)小前鋒的場(chǎng)上作用非常明顯?

防死了對(duì)手的頭號(hào)得分手!騎士先發(fā)小前鋒的場(chǎng)上作用非常明顯?

稻谷與小麥
2026-04-21 21:58:31
恒大前美女高管自曝:我是如何被許家印拖入深淵的

恒大前美女高管自曝:我是如何被許家印拖入深淵的

風(fēng)月得自難尋
2026-04-21 04:51:03
2026-04-21 22:15:00
AI進(jìn)化論花生 incentive-icons
AI進(jìn)化論花生
AI博主,AppStore付費(fèi)榜第一的小貓補(bǔ)光燈app開(kāi)發(fā)者
189文章數(shù) 111關(guān)注度
往期回顧 全部

科技要聞

創(chuàng)造4萬(wàn)億帝國(guó)、訪華20次,庫(kù)克留下了什么

頭條要聞

媒體:急于擺脫對(duì)華稀土依賴(lài) 美企28億美元在巴西搶礦

頭條要聞

媒體:急于擺脫對(duì)華稀土依賴(lài) 美企28億美元在巴西搶礦

體育要聞

62歲,成為中國(guó)足壇最火的人

娛樂(lè)要聞

周潤(rùn)發(fā)時(shí)隔16年再賣(mài)樓,變現(xiàn)數(shù)億資產(chǎn)

財(cái)經(jīng)要聞

現(xiàn)實(shí)是最大的荒誕:千億平臺(tái)的沖突始末

汽車(chē)要聞

全新坦克700正式上市 售價(jià)42.8萬(wàn)-50.8萬(wàn)元

態(tài)度原創(chuàng)

游戲
本地
數(shù)碼
教育
軍事航空

玩家怒噴《黑旗》重制實(shí)機(jī)不如原版!育碧拉完了?

本地新聞

春色滿(mǎn)城關(guān)不?。座N梅浪漫盛放,吳山藏了一片四月雪

數(shù)碼要聞

OPPO發(fā)布影像雙旗艦:專(zhuān)業(yè)口袋哈蘇OPPO Find X9 Ultra領(lǐng)銜

教育要聞

毀掉一個(gè)孩子最快的方式,就是讓他去住宿

軍事要聞

特朗普公開(kāi)對(duì)伊開(kāi)戰(zhàn)真正原因

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版