国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Anthropic王炸Claude基準(zhǔn)測(cè)試泄露,卡皮巴拉細(xì)節(jié)曝光!還在代碼里下毒

0
分享至


新智元報(bào)道

編輯:Aeneas KingHZ

【新智元導(dǎo)讀】剛剛,Anthropic神秘王炸Mythos的基準(zhǔn)測(cè)試泄露了,多項(xiàng)跑分直接刷新紀(jì)錄!另外,泄露源碼中還曝光出卡皮巴拉的細(xì)節(jié):代號(hào)capabara-v2-fast,支持1M上下文。

過去24小時(shí),AI 圈的空氣里,都是焦灼和狂歡。

先爆的是 Claude Code。

Anthropic這款命令行終端工具的源碼意外泄露,很快就在GitHub上引發(fā)連鎖反應(yīng)。大量開發(fā)者沖進(jìn)去圍觀、Fork、拆解,隨后又出現(xiàn)了Python和Rust的「復(fù)刻版」。

原本只屬于Anthropic內(nèi)部的實(shí)驗(yàn),轉(zhuǎn)眼變成了整個(gè)行業(yè)的「公開的秘密」。

誰(shuí)也沒想到,第二波泄露來得更快。

就在剛剛,Anthropic疑似下一代旗艦重磅旗艦?zāi)P蚆ythos的基準(zhǔn)測(cè)試跑分,又又又泄露了。


與以往Claude 4.x/5系列不同,Mythos被稱為獨(dú)立產(chǎn)品線,定位明顯更高。而從曝光的數(shù)據(jù)來看,它很可能是Anthropic目前最具野心的一次模型躍遷。

從泄露信息來看,Mythos對(duì)比當(dāng)前強(qiáng)勢(shì)模型Opus 4.6,幾乎在所有關(guān)鍵指標(biāo)上都有明顯提升:

  • Terminal-Bench 2.0:78.4%(+13.0%)

  • SWE-bench Verified:87.4%(+6.6%)

  • OSWorld:79.6%(+6.9%)

  • BrowseComp:92.3%(+8.3%)

  • MCP Atlas:75.7%(+16.2%)

  • Finance Agent:82.1%(+21.4%)

  • GDPVal-AA-Elo: 2668 (+1062)

  • Humanity's Last Exam: 52.3% (無(wú)工具, +12.3%), 71.5% (有工具, +18.5%)


如果這些數(shù)字屬實(shí),那Mythos顯然又是一個(gè)巨大的升級(jí)。不僅在性能上,而且在定位上。

在智能體編碼任務(wù)上,78.4%的Terminal-Bench和87.4%的SWE-bench證明,Mythos效果出眾。

這是愚人節(jié)玩笑,還是泄露的真實(shí)數(shù)據(jù)?

有人特意用谷歌的AI內(nèi)容水印技術(shù)synthid驗(yàn)了一下這張圖,大概率不是AI生成的。


還有人放出了無(wú)水印版基準(zhǔn)測(cè)試分?jǐn)?shù)。


總之,如果,泄露分?jǐn)?shù)是真的,Anthropic恐怕要對(duì)Mythos收取天價(jià)!


源代碼泄露,「卡皮巴拉」細(xì)節(jié)曝光

另外,昨天泄露的Claude Code源代碼中,曝光了不少Anthropic「卡皮巴拉」模型的細(xì)節(jié)。


從這些潛藏在代碼庫(kù)底層的蛛絲馬跡,可以解讀出不少信息:非常明顯,Anthropic不僅僅是在堆參數(shù),他們正在解決一個(gè)所有長(zhǎng)文本模型都面臨的「隱形頑疾」。


不同于大家猜測(cè)的Mythos(目前尚無(wú)實(shí)據(jù)),代碼中明確指向了名為capybara-v2-fast的新模型。


它具有1M Context。顯而易見,百萬(wàn)上下文現(xiàn)在都成了新一代模型的入場(chǎng)券了。

既然有「fast」版本,按照Anthropic的慣例,后續(xù)大概率會(huì)跟進(jìn)能力更強(qiáng)的旗艦版。


技術(shù)細(xì)節(jié):一場(chǎng)精密的提示詞手術(shù)

最有趣的不是參數(shù),而是Anthropic如何處理生產(chǎn)環(huán)境下的模型故障。

開發(fā)者發(fā)現(xiàn),當(dāng)Prompt的Shape在工具調(diào)用(Tool Use)返回結(jié)果后,如果長(zhǎng)得太像一個(gè)「輪次邊界(Turn Boundary)」,Capybara會(huì)產(chǎn)生誤判,導(dǎo)致模型過早停止。

因此,模型活還沒干完,就以為這輪對(duì)話結(jié)束了。

為了修補(bǔ)這個(gè)Bug,Anthropic并沒有選擇單純重訓(xùn)模型,而是進(jìn)行了一場(chǎng)極為精密的「Prompt 手術(shù)」。

首先,就是強(qiáng)制安全邊界,引入了Tool loaded.這樣的硬性邊界標(biāo)記。

然后,要重新定位那些具有風(fēng)險(xiǎn)的「同級(jí)模塊(Sibling Blocks)」。

另外,還有信息壓縮,就是將提醒文本(Reminder Text)直接「擠」進(jìn)工具結(jié)果中,確保模型能看到。

針對(duì)空的工具輸出,還會(huì)強(qiáng)制添加非空標(biāo)記,防止模型在空白處「斷片」。

這樣,一臺(tái)精密的提示詞手術(shù)就完成了。

天狗(Tengu)守門

此外,Anthropic內(nèi)部擁有一套名為tengu_*的灰度開關(guān)。


這意味著所有這些針對(duì)Capybara的優(yōu)化都不是盲目上線的。

因?yàn)橛兄鳮ill-switch(自殺開關(guān)),一旦rollout 出現(xiàn)異常,就可以秒級(jí)回滾。

而且代碼注釋中包含了大量的A/B測(cè)試證據(jù)。

有趣的是,ant/internal用戶(Anthropic員工)是第一波「金絲雀」,只有在內(nèi)部驗(yàn)證通過后,才會(huì)向外部用戶解鎖。


泄露代碼中顯示,

Anthropic竟在代碼里下毒

現(xiàn)在,全網(wǎng)大神都對(duì)泄露的源代碼展開分析了,有人發(fā)現(xiàn):Anthropic變腹黑了?防友商白嫖,竟在代碼里下毒!

在大模型圈,最讓底層廠商頭疼的事,莫過于辛辛苦苦跑出來的高質(zhì)量數(shù)據(jù),轉(zhuǎn)頭就被對(duì)手拿去搞了模型蒸餾。

這不,有人從泄露的Claude Code底層代碼發(fā)現(xiàn),Anthropic 為了反抓取,竟然喪心病狂地內(nèi)置了兩套「反蒸餾全家桶」。

第一招,就是「流式投毒」。


當(dāng)你在跑任務(wù)時(shí),Claude會(huì)在輸出流里偷偷摻沙子,隨機(jī)注入一堆虛假的工具調(diào)用指令。

這些指令對(duì)你來說可能只是閃過的雜訊,但對(duì)于那些蹲在后臺(tái)抓取數(shù)據(jù)準(zhǔn)備訓(xùn)練的爬蟲來說,簡(jiǎn)直就是劇毒的毒藥。

如果拿回去訓(xùn)練自家模型,只會(huì)讓它越來越瘋。

第二招,則是「打碼大法」。


為了不讓友商復(fù)刻Claude強(qiáng)大的Agent執(zhí)行邏輯,Anthropic把所有的工具調(diào)用細(xì)節(jié)都給模糊化了。

反饋給輸出端的不再是詳細(xì)的邏輯步驟,而是像馬賽克一樣的簡(jiǎn)短摘要。

這次的爆料,也讓我們看到了Anthropic極其務(wù)實(shí)的一面。

他們不只是追求性能,更是在細(xì)節(jié)上瘋狂「打補(bǔ)丁」,以確保在復(fù)雜的工具調(diào)用鏈條中,模型不會(huì)因?yàn)楦袷絾栴}而崩掉。

雖然官方尚未公布正式的SKU命名或發(fā)布日期,但從代碼的成熟度來看,Capybara家族已經(jīng)箭在弦上。

所以,「卡皮巴拉」會(huì)是Claude 3.5的升級(jí)版,還是全新的4.0系列模型呢?

Anthropic,為何如此冷靜?

有意思的是,面對(duì)如此大規(guī)模源代碼事件,Anthropic的態(tài)度倒是出奇的冷靜,他們只是默默地私下向GitHub倉(cāng)庫(kù)發(fā)了DMCA(數(shù)字千年版權(quán)法)刪除通知。

外媒得到的Anthropic解釋是,這次泄露事件屬于人為錯(cuò)誤導(dǎo)致的發(fā)布打包問題,因?yàn)闃?gòu)成安全漏洞。

Claude Code之父Boris Cherny也否認(rèn)了這是由于bun的問題,只是輕描淡寫說了一句,「只是開發(fā)者的錯(cuò)誤」。


或許,讓Anthropic如此淡定的原因,就是框架并不是護(hù)城河。


不少圈內(nèi)人在復(fù)盤泄露的代碼后,得出了冷靜結(jié)論:Claude Code的框架本身并不神秘。 甚至有人直言不諱地指出,CC的框架只能算中規(guī)中矩,更像是基礎(chǔ)配置。

在泄露發(fā)生之前,開源社區(qū)在任務(wù)編排、長(zhǎng)上下文管理等細(xì)分維度上,已經(jīng)存在不少優(yōu)于CC的替代方案。


但為什么Anthropic的產(chǎn)品依然讓開發(fā)者趨之若鶩?答案不在于那幾行Python或TypeScript代碼,而在于架構(gòu)工程。

比如Prompt的精細(xì)堆疊、工具鏈的無(wú)縫銜接、模型的容錯(cuò)與自我糾正。這些細(xì)節(jié)絕非易事。

源碼可以被復(fù)制,但這種對(duì)復(fù)雜系統(tǒng)的掌控力,是無(wú)法通過簡(jiǎn)單的git clone獲得的。

Cursor模式的成功就已經(jīng)證明了,即使基于別人的模型,只要能在產(chǎn)品體驗(yàn)和架構(gòu)深度上做到極致,依然能打造出讓開發(fā)者無(wú)法離開的「殺手級(jí)產(chǎn)品」。


因此,CC這次源碼泄露,實(shí)際上是將一個(gè)原本專有的「工業(yè)級(jí)工具箱」拋向了荒野,這就降低了所有人構(gòu)建完善編碼智能體的門檻。

未來要比拼的,就是誰(shuí)能在這個(gè)開源的基石上,搭出最符合用戶直接的產(chǎn)品大廈。三個(gè)月,誰(shuí)能長(zhǎng)成新巨頭?

多事之秋

Anthropic人設(shè)翻車?

Anthropic一直給自己立的人設(shè)是:一家行事謹(jǐn)慎的、造福全人類的AI公司。

它發(fā)布關(guān)于AI風(fēng)險(xiǎn)的詳細(xì)研究成果,雇用了該領(lǐng)域最優(yōu)秀的一些研究人員。

它也一直在公開討論,開發(fā)這類強(qiáng)AI技術(shù)時(shí)應(yīng)承擔(dān)怎樣的責(zé)任。

所以,當(dāng)與美國(guó)國(guó)防部展開交鋒時(shí),Anthropic幾乎得到了全網(wǎng)聲援浪潮。

然而,據(jù)上周四外媒報(bào)道,Anthropic承認(rèn)正在測(cè)試代表能力「跨越式變化」的新AI模型。


Anthropic意外公開了近3000份內(nèi)部文件,其中包括一篇描述的博客草稿。


之后,Anthropic確認(rèn)確有此事:

新模型代碼Capybara,在軟件工程、學(xué)術(shù)推理和網(wǎng)絡(luò)安全上,大大提升了性能;

已向一小群專注于網(wǎng)絡(luò)安全測(cè)試和防御準(zhǔn)備的早期用戶開放訪問權(quán)限。


奇怪的是,Anthropic沒有阻止文件繼續(xù)泄露。

連續(xù)的泄露事件,未必會(huì)立刻削弱Anthropic的模型實(shí)力,卻已經(jīng)開始動(dòng)搖它最寶貴的另一層護(hù)城河:外界對(duì)其內(nèi)部治理、工程紀(jì)律和「安全優(yōu)先」敘事的信任。

當(dāng)一家以謹(jǐn)慎著稱的公司,反復(fù)因?yàn)樾孤墩镜骄酃鉄粝?,真正受考?yàn)的,就不只是產(chǎn)品發(fā)布節(jié)奏,而是它自己最看重的「人設(shè)」。

參考資料:

https://x.com/synthwavedd/status/2039102384241049956

https://x.com/forloopcodes/status/2038942169311195432

https://techcrunch.com/2026/03/31/anthropic-is-having-a-month/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
張本智和全家逃離日本,兩個(gè)集裝箱搬空10年家,日乒徹底慌了

張本智和全家逃離日本,兩個(gè)集裝箱搬空10年家,日乒徹底慌了

乒乓助手
2026-04-02 00:07:09
河北新郎全程黑臉娶高顏值新娘,親友:這哪是結(jié)婚,是“接盤”!

河北新郎全程黑臉娶高顏值新娘,親友:這哪是結(jié)婚,是“接盤”!

觀察鑒娛
2026-04-01 13:43:36
剛剛過去的一個(gè)小時(shí) 以色列遭開戰(zhàn)以來最大規(guī)模導(dǎo)彈襲擊

剛剛過去的一個(gè)小時(shí) 以色列遭開戰(zhàn)以來最大規(guī)模導(dǎo)彈襲擊

財(cái)聯(lián)社
2026-04-01 23:28:03
價(jià)格斷崖式下跌!商家瘋狂拋售!深圳網(wǎng)友:等等黨贏麻了

價(jià)格斷崖式下跌!商家瘋狂拋售!深圳網(wǎng)友:等等黨贏麻了

南方都市報(bào)
2026-04-01 15:16:38
太炸裂!日本一對(duì)小學(xué)老師校內(nèi)“激戰(zhàn)”十幾次,尺度大到令人窒息...網(wǎng)友的評(píng)論亮了

太炸裂!日本一對(duì)小學(xué)老師校內(nèi)“激戰(zhàn)”十幾次,尺度大到令人窒息...網(wǎng)友的評(píng)論亮了

今日日本
2026-04-01 14:49:49
法國(guó)女足輸不起!1-2輸中國(guó)女足后,幾乎全隊(duì)拒絕握手,現(xiàn)場(chǎng)視角還原

法國(guó)女足輸不起!1-2輸中國(guó)女足后,幾乎全隊(duì)拒絕握手,現(xiàn)場(chǎng)視角還原

側(cè)身凌空斬
2026-04-02 04:23:20
防空系統(tǒng)崩潰,伊朗導(dǎo)彈如入無(wú)人之境,以色列人突然熱愛和平了

防空系統(tǒng)崩潰,伊朗導(dǎo)彈如入無(wú)人之境,以色列人突然熱愛和平了

肖茲探秘說
2026-04-01 14:17:15
王毅赴人類命運(yùn)共同體研究中心調(diào)研

王毅赴人類命運(yùn)共同體研究中心調(diào)研

新華社
2026-04-01 23:01:43
美以都在往后退,阿拉伯國(guó)家沖上去了?以色列宣布:將成立新聯(lián)盟

美以都在往后退,阿拉伯國(guó)家沖上去了?以色列宣布:將成立新聯(lián)盟

強(qiáng)軍路
2026-04-01 17:38:27
上海交大浪費(fèi)了一次校慶

上海交大浪費(fèi)了一次校慶

關(guān)爾東
2026-03-31 23:02:56
澳門世界杯:男單16強(qiáng)誕生!國(guó)乒2勝3負(fù)遭重創(chuàng),日法德各3人晉級(jí)

澳門世界杯:男單16強(qiáng)誕生!國(guó)乒2勝3負(fù)遭重創(chuàng),日法德各3人晉級(jí)

全言作品
2026-04-01 22:59:02
時(shí)隔52年重返世界杯!1.2億人口國(guó)家宣布:放假1天 全民狂歡

時(shí)隔52年重返世界杯!1.2億人口國(guó)家宣布:放假1天 全民狂歡

葉青足球世界
2026-04-01 19:48:35
美股深夜狂飆,創(chuàng)去年5月以來最大單日漲幅,道指猛拉1100點(diǎn)!伊朗總統(tǒng)釋放停戰(zhàn)意愿

美股深夜狂飆,創(chuàng)去年5月以來最大單日漲幅,道指猛拉1100點(diǎn)!伊朗總統(tǒng)釋放停戰(zhàn)意愿

每日經(jīng)濟(jì)新聞
2026-04-01 17:49:34
女主播在健康檢查節(jié)目中被“看光光” 卻因?yàn)樘蓯圩呒t

女主播在健康檢查節(jié)目中被“看光光” 卻因?yàn)樘蓯圩呒t

可樂談情感
2026-04-01 20:00:29
拿下委瑞內(nèi)拉之后,美國(guó)對(duì)中國(guó)“下手”了

拿下委瑞內(nèi)拉之后,美國(guó)對(duì)中國(guó)“下手”了

鳳眼論
2026-04-01 16:21:32
趙心童晉級(jí)4強(qiáng),斯諾克10-9決出首個(gè)4強(qiáng)

趙心童晉級(jí)4強(qiáng),斯諾克10-9決出首個(gè)4強(qiáng)

格斗聯(lián)盟
2026-04-02 05:45:15
澤尻英龍華婚前協(xié)議規(guī)定每月夫妻生活不得超過5次!

澤尻英龍華婚前協(xié)議規(guī)定每月夫妻生活不得超過5次!

特約前排觀眾
2026-04-02 00:10:03
德國(guó)緊隨韓國(guó)之后,也發(fā)布了“中文標(biāo)語(yǔ)”,引起了中國(guó)游客的不滿

德國(guó)緊隨韓國(guó)之后,也發(fā)布了“中文標(biāo)語(yǔ)”,引起了中國(guó)游客的不滿

素衣讀史
2026-04-01 20:21:30
今麥郎集團(tuán)董事長(zhǎng)回應(yīng)“手打掛面‘手打’是商標(biāo)”:“手打”商標(biāo)已經(jīng)用了20年,4月2日凌晨起立即停止生產(chǎn)所有帶有此商標(biāo)的產(chǎn)品

今麥郎集團(tuán)董事長(zhǎng)回應(yīng)“手打掛面‘手打’是商標(biāo)”:“手打”商標(biāo)已經(jīng)用了20年,4月2日凌晨起立即停止生產(chǎn)所有帶有此商標(biāo)的產(chǎn)品

魯中晨報(bào)
2026-04-01 21:53:07
德布勞內(nèi)談盧卡庫(kù):我不知道發(fā)生了什么,若有必要會(huì)提供幫助

德布勞內(nèi)談盧卡庫(kù):我不知道發(fā)生了什么,若有必要會(huì)提供幫助

懂球帝
2026-04-01 22:22:00
2026-04-02 07:11:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14871文章數(shù) 66736關(guān)注度
往期回顧 全部

科技要聞

甲骨文血洗3萬(wàn)人,47人團(tuán)隊(duì)僅留3人

頭條要聞

伊朗自殺無(wú)人機(jī)突進(jìn)北印度洋 逼退“林肯”號(hào)航母

頭條要聞

伊朗自殺無(wú)人機(jī)突進(jìn)北印度洋 逼退“林肯”號(hào)航母

體育要聞

NBA擴(kuò)軍,和籃球無(wú)關(guān)?

娛樂要聞

張婉婷已決定離婚 找律師討論婚變事宜

財(cái)經(jīng)要聞

電商售械三水光針 機(jī)構(gòu)倒貨or假貨猖獗?

汽車要聞

三電可靠 用料下本 百萬(wàn)公里的蔚來ES6 拆開看

態(tài)度原創(chuàng)

房產(chǎn)
家居
藝術(shù)
公開課
軍事航空

房產(chǎn)要聞

產(chǎn)業(yè)、教育、地產(chǎn)…重大信號(hào)發(fā)出! 官方定調(diào)??谖磥?年!

家居要聞

經(jīng)典配色 晝色銀河

藝術(shù)要聞

齊白石這兩幅梅花,絕了!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普:將很快撤出伊朗戰(zhàn)事

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版