国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Anthropic王炸Claude基準測試泄露,卡皮巴拉細節(jié)曝光!還在代碼里下毒

0
分享至


新智元報道

編輯:Aeneas KingHZ

【新智元導(dǎo)讀】剛剛,Anthropic神秘王炸Mythos的基準測試泄露了,多項跑分直接刷新紀錄!另外,泄露源碼中還曝光出卡皮巴拉的細節(jié):代號capabara-v2-fast,支持1M上下文。

過去24小時,AI 圈的空氣里,都是焦灼和狂歡。

先爆的是 Claude Code。

Anthropic這款命令行終端工具的源碼意外泄露,很快就在GitHub上引發(fā)連鎖反應(yīng)。大量開發(fā)者沖進去圍觀、Fork、拆解,隨后又出現(xiàn)了Python和Rust的「復(fù)刻版」。

原本只屬于Anthropic內(nèi)部的實驗,轉(zhuǎn)眼變成了整個行業(yè)的「公開的秘密」。

誰也沒想到,第二波泄露來得更快。

就在剛剛,Anthropic疑似下一代旗艦重磅旗艦?zāi)P蚆ythos的基準測試跑分,又又又泄露了。


與以往Claude 4.x/5系列不同,Mythos被稱為獨立產(chǎn)品線,定位明顯更高。而從曝光的數(shù)據(jù)來看,它很可能是Anthropic目前最具野心的一次模型躍遷。

從泄露信息來看,Mythos對比當前強勢模型Opus 4.6,幾乎在所有關(guān)鍵指標上都有明顯提升:

  • Terminal-Bench 2.0:78.4%(+13.0%)

  • SWE-bench Verified:87.4%(+6.6%)

  • OSWorld:79.6%(+6.9%)

  • BrowseComp:92.3%(+8.3%)

  • MCP Atlas:75.7%(+16.2%)

  • Finance Agent:82.1%(+21.4%)

  • GDPVal-AA-Elo: 2668 (+1062)

  • Humanity's Last Exam: 52.3% (無工具, +12.3%), 71.5% (有工具, +18.5%)


如果這些數(shù)字屬實,那Mythos顯然又是一個巨大的升級。不僅在性能上,而且在定位上。

在智能體編碼任務(wù)上,78.4%的Terminal-Bench和87.4%的SWE-bench證明,Mythos效果出眾。

這是愚人節(jié)玩笑,還是泄露的真實數(shù)據(jù)?

有人特意用谷歌的AI內(nèi)容水印技術(shù)synthid驗了一下這張圖,大概率不是AI生成的。


還有人放出了無水印版基準測試分數(shù)。


總之,如果,泄露分數(shù)是真的,Anthropic恐怕要對Mythos收取天價!


源代碼泄露,「卡皮巴拉」細節(jié)曝光

另外,昨天泄露的Claude Code源代碼中,曝光了不少Anthropic「卡皮巴拉」模型的細節(jié)。


從這些潛藏在代碼庫底層的蛛絲馬跡,可以解讀出不少信息:非常明顯,Anthropic不僅僅是在堆參數(shù),他們正在解決一個所有長文本模型都面臨的「隱形頑疾」。


不同于大家猜測的Mythos(目前尚無實據(jù)),代碼中明確指向了名為capybara-v2-fast的新模型。


它具有1M Context。顯而易見,百萬上下文現(xiàn)在都成了新一代模型的入場券了。

既然有「fast」版本,按照Anthropic的慣例,后續(xù)大概率會跟進能力更強的旗艦版。


技術(shù)細節(jié):一場精密的提示詞手術(shù)

最有趣的不是參數(shù),而是Anthropic如何處理生產(chǎn)環(huán)境下的模型故障。

開發(fā)者發(fā)現(xiàn),當Prompt的Shape在工具調(diào)用(Tool Use)返回結(jié)果后,如果長得太像一個「輪次邊界(Turn Boundary)」,Capybara會產(chǎn)生誤判,導(dǎo)致模型過早停止。

因此,模型活還沒干完,就以為這輪對話結(jié)束了。

為了修補這個Bug,Anthropic并沒有選擇單純重訓(xùn)模型,而是進行了一場極為精密的「Prompt 手術(shù)」。

首先,就是強制安全邊界,引入了Tool loaded.這樣的硬性邊界標記。

然后,要重新定位那些具有風(fēng)險的「同級模塊(Sibling Blocks)」。

另外,還有信息壓縮,就是將提醒文本(Reminder Text)直接「擠」進工具結(jié)果中,確保模型能看到。

針對空的工具輸出,還會強制添加非空標記,防止模型在空白處「斷片」。

這樣,一臺精密的提示詞手術(shù)就完成了。

天狗(Tengu)守門

此外,Anthropic內(nèi)部擁有一套名為tengu_*的灰度開關(guān)。


這意味著所有這些針對Capybara的優(yōu)化都不是盲目上線的。

因為有著Kill-switch(自殺開關(guān)),一旦rollout 出現(xiàn)異常,就可以秒級回滾。

而且代碼注釋中包含了大量的A/B測試證據(jù)。

有趣的是,ant/internal用戶(Anthropic員工)是第一波「金絲雀」,只有在內(nèi)部驗證通過后,才會向外部用戶解鎖。


泄露代碼中顯示,

Anthropic竟在代碼里下毒

現(xiàn)在,全網(wǎng)大神都對泄露的源代碼展開分析了,有人發(fā)現(xiàn):Anthropic變腹黑了?防友商白嫖,竟在代碼里下毒!

在大模型圈,最讓底層廠商頭疼的事,莫過于辛辛苦苦跑出來的高質(zhì)量數(shù)據(jù),轉(zhuǎn)頭就被對手拿去搞了模型蒸餾。

這不,有人從泄露的Claude Code底層代碼發(fā)現(xiàn),Anthropic 為了反抓取,竟然喪心病狂地內(nèi)置了兩套「反蒸餾全家桶」。

第一招,就是「流式投毒」


當你在跑任務(wù)時,Claude會在輸出流里偷偷摻沙子,隨機注入一堆虛假的工具調(diào)用指令。

這些指令對你來說可能只是閃過的雜訊,但對于那些蹲在后臺抓取數(shù)據(jù)準備訓(xùn)練的爬蟲來說,簡直就是劇毒的毒藥。

如果拿回去訓(xùn)練自家模型,只會讓它越來越瘋。

第二招,則是「打碼大法」


為了不讓友商復(fù)刻Claude強大的Agent執(zhí)行邏輯,Anthropic把所有的工具調(diào)用細節(jié)都給模糊化了。

反饋給輸出端的不再是詳細的邏輯步驟,而是像馬賽克一樣的簡短摘要。

這次的爆料,也讓我們看到了Anthropic極其務(wù)實的一面。

他們不只是追求性能,更是在細節(jié)上瘋狂「打補丁」,以確保在復(fù)雜的工具調(diào)用鏈條中,模型不會因為格式問題而崩掉。

雖然官方尚未公布正式的SKU命名或發(fā)布日期,但從代碼的成熟度來看,Capybara家族已經(jīng)箭在弦上。

所以,「卡皮巴拉」會是Claude 3.5的升級版,還是全新的4.0系列模型呢?

Anthropic,為何如此冷靜?

有意思的是,面對如此大規(guī)模源代碼事件,Anthropic的態(tài)度倒是出奇的冷靜,他們只是默默地私下向GitHub倉庫發(fā)了DMCA(數(shù)字千年版權(quán)法)刪除通知。

外媒得到的Anthropic解釋是,這次泄露事件屬于人為錯誤導(dǎo)致的發(fā)布打包問題,因為構(gòu)成安全漏洞。

Claude Code之父Boris Cherny也否認了這是由于bun的問題,只是輕描淡寫說了一句,「只是開發(fā)者的錯誤」。


或許,讓Anthropic如此淡定的原因,就是框架并不是護城河。


不少圈內(nèi)人在復(fù)盤泄露的代碼后,得出了冷靜結(jié)論:Claude Code的框架本身并不神秘。 甚至有人直言不諱地指出,CC的框架只能算中規(guī)中矩,更像是基礎(chǔ)配置。

在泄露發(fā)生之前,開源社區(qū)在任務(wù)編排、長上下文管理等細分維度上,已經(jīng)存在不少優(yōu)于CC的替代方案。


但為什么Anthropic的產(chǎn)品依然讓開發(fā)者趨之若鶩?答案不在于那幾行Python或TypeScript代碼,而在于架構(gòu)工程。

比如Prompt的精細堆疊、工具鏈的無縫銜接、模型的容錯與自我糾正。這些細節(jié)絕非易事。

源碼可以被復(fù)制,但這種對復(fù)雜系統(tǒng)的掌控力,是無法通過簡單的git clone獲得的。

Cursor模式的成功就已經(jīng)證明了,即使基于別人的模型,只要能在產(chǎn)品體驗和架構(gòu)深度上做到極致,依然能打造出讓開發(fā)者無法離開的「殺手級產(chǎn)品」。


因此,CC這次源碼泄露,實際上是將一個原本專有的「工業(yè)級工具箱」拋向了荒野,這就降低了所有人構(gòu)建完善編碼智能體的門檻。

未來要比拼的,就是誰能在這個開源的基石上,搭出最符合用戶直接的產(chǎn)品大廈。三個月,誰能長成新巨頭?

多事之秋

Anthropic人設(shè)翻車?

Anthropic一直給自己立的人設(shè)是:一家行事謹慎的、造福全人類的AI公司。

它發(fā)布關(guān)于AI風(fēng)險的詳細研究成果,雇用了該領(lǐng)域最優(yōu)秀的一些研究人員。

它也一直在公開討論,開發(fā)這類強AI技術(shù)時應(yīng)承擔(dān)怎樣的責(zé)任。

所以,當與美國國防部展開交鋒時,Anthropic幾乎得到了全網(wǎng)聲援浪潮。

然而,據(jù)上周四外媒報道,Anthropic承認正在測試代表能力「跨越式變化」的新AI模型。


Anthropic意外公開了近3000份內(nèi)部文件,其中包括一篇描述的博客草稿。


之后,Anthropic確認確有此事:

新模型代碼Capybara,在軟件工程、學(xué)術(shù)推理和網(wǎng)絡(luò)安全上,大大提升了性能;

已向一小群專注于網(wǎng)絡(luò)安全測試和防御準備的早期用戶開放訪問權(quán)限。


奇怪的是,Anthropic沒有阻止文件繼續(xù)泄露。

連續(xù)的泄露事件,未必會立刻削弱Anthropic的模型實力,卻已經(jīng)開始動搖它最寶貴的另一層護城河:外界對其內(nèi)部治理、工程紀律和「安全優(yōu)先」敘事的信任。

當一家以謹慎著稱的公司,反復(fù)因為泄露站到聚光燈下,真正受考驗的,就不只是產(chǎn)品發(fā)布節(jié)奏,而是它自己最看重的「人設(shè)」。

參考資料:

https://x.com/synthwavedd/status/2039102384241049956

https://x.com/forloopcodes/status/2038942169311195432

https://techcrunch.com/2026/03/31/anthropic-is-having-a-month/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
1954 年萬余志愿軍戰(zhàn)俘從臺灣歸來,蔣經(jīng)國親迎現(xiàn)場落淚失語

1954 年萬余志愿軍戰(zhàn)俘從臺灣歸來,蔣經(jīng)國親迎現(xiàn)場落淚失語

嘮叨說歷史
2026-04-09 17:41:05
拒演率93%!最寒酸綜藝收官,趙曉卉兩天救場炸翻全場:你們裝什么裝?

拒演率93%!最寒酸綜藝收官,趙曉卉兩天救場炸翻全場:你們裝什么裝?

可樂談情感
2026-04-12 16:58:49
廣東一男子3年內(nèi)累計出險記錄高達30次!自稱開車時不會讓行…

廣東一男子3年內(nèi)累計出險記錄高達30次!自稱開車時不會讓行…

廣東活動
2026-04-12 12:14:13
真無奈!家長哭訴,孩子英語本科送外賣,工資比很多文職崗位都高

真無奈!家長哭訴,孩子英語本科送外賣,工資比很多文職崗位都高

火山詩話
2026-04-12 10:32:30
古力娜扎:真空上陣是放飛自我還是資本博弈?

古力娜扎:真空上陣是放飛自我還是資本博弈?

娛樂領(lǐng)航家
2026-04-02 21:00:03
快訊!中國海軍遠洋戰(zhàn)力迎來歷史性突破!

快訊!中國海軍遠洋戰(zhàn)力迎來歷史性突破!

達文西看世界
2026-04-12 10:59:04
埃梅里:大馬丁賽前小腿感覺不適;我們正在重新找回信心

埃梅里:大馬丁賽前小腿感覺不適;我們正在重新找回信心

懂球帝
2026-04-13 00:23:38
四處播種的后果!24歲狀元,4個孩子4位母親,現(xiàn)在又被告上法庭

四處播種的后果!24歲狀元,4個孩子4位母親,現(xiàn)在又被告上法庭

你的籃球頻道
2026-04-12 08:38:25
缺少5100萬強援,火箭隊仍超50勝!休賽期2首發(fā)歸隊,奪冠有戲?

缺少5100萬強援,火箭隊仍超50勝!休賽期2首發(fā)歸隊,奪冠有戲?

梅亭談
2026-04-12 23:23:41
如果沒罰分,中超5強表現(xiàn)怎樣?國安距副班長僅2分,申花仍排第2

如果沒罰分,中超5強表現(xiàn)怎樣?國安距副班長僅2分,申花仍排第2

體壇鑒春秋
2026-04-12 22:52:41
2026年車企“最慘”開局:一季度的目標完成度,幾乎都低于20%

2026年車企“最慘”開局:一季度的目標完成度,幾乎都低于20%

互聯(lián)網(wǎng).亂侃秀
2026-04-12 11:33:02
魯比奧再撤銷伊朗精英綠卡,將其驅(qū)逐出境,撤銷人數(shù)或高達4000人

魯比奧再撤銷伊朗精英綠卡,將其驅(qū)逐出境,撤銷人數(shù)或高達4000人

山河路口
2026-04-12 00:55:26
成都蓉城逆轉(zhuǎn)國安!媒體人熱議:真的要奪冠,蛻變成真正強隊

成都蓉城逆轉(zhuǎn)國安!媒體人熱議:真的要奪冠,蛻變成真正強隊

奧拜爾
2026-04-12 21:52:55
2-1絕殺 讓亞洲杯變東亞杯!四強對陣出爐 中國女足跟日本爭決賽

2-1絕殺 讓亞洲杯變東亞杯!四強對陣出爐 中國女足跟日本爭決賽

侃球熊弟
2026-04-13 00:02:58
馬伊琍官宣喜訊不到24小時 文章高調(diào)求“復(fù)合” 姚笛才是笑到最后

馬伊琍官宣喜訊不到24小時 文章高調(diào)求“復(fù)合” 姚笛才是笑到最后

潮鹿逐夢
2026-04-11 14:48:49
深圳大學(xué)擬租800萬元豪宅當學(xué)生宿舍?業(yè)主擔(dān)憂:公共資源會被嚴重擠占,不愿小區(qū)被貼上“宿舍”標簽;網(wǎng)友羨慕:每月幾百元就能住豪宅

深圳大學(xué)擬租800萬元豪宅當學(xué)生宿舍?業(yè)主擔(dān)憂:公共資源會被嚴重擠占,不愿小區(qū)被貼上“宿舍”標簽;網(wǎng)友羨慕:每月幾百元就能住豪宅

大風(fēng)新聞
2026-04-12 15:46:21
廣東戰(zhàn)勝廣廈! 聽聽各界專家媒體怎么說 宏遠已經(jīng)坐穩(wěn)前四!

廣東戰(zhàn)勝廣廈! 聽聽各界專家媒體怎么說 宏遠已經(jīng)坐穩(wěn)前四!

體壇熱消息
2026-04-12 21:46:53
47歲智性戀天花板,讓10w網(wǎng)友對“大女主”祛魅了

47歲智性戀天花板,讓10w網(wǎng)友對“大女主”祛魅了

英國那些事兒
2026-04-11 23:19:13
為啥淘寶,拼多多幾塊錢的東西還能包郵?看完你就明白了!

為啥淘寶,拼多多幾塊錢的東西還能包郵?看完你就明白了!

呼呼歷史論
2026-04-10 21:17:24
向太勸醒年輕人:沒200萬存款別買車!自己只開二手車錢全投房產(chǎn)

向太勸醒年輕人:沒200萬存款別買車!自己只開二手車錢全投房產(chǎn)

觀魚聽雨
2026-04-11 20:38:34
2026-04-13 01:11:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14954文章數(shù) 66768關(guān)注度
往期回顧 全部

科技要聞

理想稱遭惡意拉踩,東風(fēng)日產(chǎn):尊重同行

頭條要聞

特朗普:將封鎖任何試圖進出霍爾木茲海峽的船只

頭條要聞

特朗普:將封鎖任何試圖進出霍爾木茲海峽的船只

體育要聞

創(chuàng)造歷史!五大聯(lián)賽首位女性主教練誕生

娛樂要聞

賭王女兒何超蕸病逝,常年和乳癌斗爭

財經(jīng)要聞

美伊談判破裂的三大癥結(jié)

汽車要聞

煥新極氪007/007GT上市 限時19.39萬起

態(tài)度原創(chuàng)

教育
藝術(shù)
時尚
本地
房產(chǎn)

教育要聞

小班教學(xué),9月開校,樹德派校長!這所中學(xué),正在招老師

藝術(shù)要聞

揭開她筆下女人的神秘面紗,豪放灑脫的魅力令人驚嘆!

被周冬雨、林更新戴上熱搜的珠寶,究竟有多驚艷?

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

房產(chǎn)要聞

土地供應(yīng)突然暴跌!2026??跇鞘校窬执笞?!

無障礙瀏覽 進入關(guān)懷版