国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Claude Opus 4.7深夜上線,評(píng)分碾壓

0
分享至



機(jī)器之心編輯部

想不到,風(fēng)口浪尖上的 Claude 又大更新了。

周四晚間,Anthropic 宣布旗下最新款基礎(chǔ)模型 Claude Opus 4.7 全面上市。

Opus 4.7 在高級(jí)軟件工程方面相比 Opus 4.6 有了顯著提升,尤其是在處理最復(fù)雜的任務(wù)方面。用戶反饋表示,他們現(xiàn)在可以放心地將以前需要密切監(jiān)督的最棘手的編碼工作交給 Opus 4.7 處理。Opus 4.7 能夠嚴(yán)謹(jǐn)且一致地處理復(fù)雜、耗時(shí)的任務(wù),精準(zhǔn)地執(zhí)行指令,并在返回結(jié)果之前設(shè)計(jì)出驗(yàn)證自身輸出的方法。

該模型還擁有明顯更佳的視覺(jué)效果:它能夠識(shí)別更高分辨率的圖像,完成專業(yè)任務(wù)時(shí),更具品味和創(chuàng)造力,能夠制作出更高質(zhì)量的界面、幻燈片和文檔。而且,盡管它的功能不如剛公布的最強(qiáng)模型 Claude Mythos Preview 全面,但在多項(xiàng)基準(zhǔn)測(cè)試中,它的表現(xiàn)都優(yōu)于 Opus 4.6:



可見(jiàn) SWE-bench Pro 的分?jǐn)?shù)達(dá)到了 64.3%,遠(yuǎn)高于 GPT-5.4 的 57.7%。

Opus 4.7 已在所有 Claude 產(chǎn)品和 API、Amazon Bedrock、Google Cloud 的 Vertex AI 以及 Microsoft Foundry 平臺(tái)上推出。定價(jià)與 Opus 4.6 相同:每百萬(wàn)個(gè)輸入 token 5 美元,每百萬(wàn)個(gè)輸出 token 25 美元。開(kāi)發(fā)者可通過(guò) Claude API 使用。

根據(jù)目前大家的使用反饋,新模型更加嚴(yán)謹(jǐn),復(fù)雜任務(wù)的一致性也更強(qiáng)了,在最困難的編程任務(wù)上進(jìn)步明顯。當(dāng)然這也不是沒(méi)有代價(jià)的:



以下是 Opus 4.7 早期測(cè)試的一些亮點(diǎn):

  • 指令執(zhí)行能力,Opus 4.7 的表現(xiàn)有了顯著提升。有趣的是,這意味著之前版本編寫(xiě)的提示信息現(xiàn)在有時(shí)可能會(huì)產(chǎn)生意想不到的結(jié)果:之前的版本對(duì)指令的解釋較為寬泛,甚至完全跳過(guò)某些部分,而 Opus 4.7 則會(huì)嚴(yán)格按照指令執(zhí)行。用戶應(yīng)據(jù)此調(diào)整提示信息和相關(guān)設(shè)置。
  • 改進(jìn)的多模態(tài)支持。Opus 4.7 對(duì)高分辨率圖像的處理能力更強(qiáng):它可以處理長(zhǎng)邊高達(dá) 2576 像素(約 375 萬(wàn)像素)的圖像,是之前 Claude 型號(hào)的三倍以上。這為依賴精細(xì)視覺(jué)細(xì)節(jié)的多模態(tài)應(yīng)用開(kāi)辟了廣闊的空間:智能體可以讀取密集屏幕截圖、從復(fù)雜圖表中提取數(shù)據(jù)以及需要像素級(jí)精確參考的工作。
  • 實(shí)際應(yīng)用能力提升。除了在財(cái)務(wù)代理評(píng)估中獲得領(lǐng)先水平(見(jiàn)上表)外,Anthropic 的內(nèi)部測(cè)試表明,Opus 4.7 比 Opus 4.6 更高效地進(jìn)行財(cái)務(wù)分析,能夠生成嚴(yán)謹(jǐn)?shù)姆治龊湍P?,呈現(xiàn)更專業(yè)的演示文稿,并在各項(xiàng)任務(wù)之間實(shí)現(xiàn)更緊密的整合。Opus 4.7 在 GDPval-AA 評(píng)估中也處于領(lǐng)先水平。
  • 內(nèi)存占用方面,Opus 4.7 更擅長(zhǎng)利用文件系統(tǒng)內(nèi)存。它能記住長(zhǎng)時(shí)間、多會(huì)話工作中的重要筆記,并利用這些筆記繼續(xù)執(zhí)行新的任務(wù),因此這些新任務(wù)對(duì)預(yù)先獲取的上下文信息要求更低。















Claude Code 負(fù)責(zé)人 Boris Cherny 介紹了 Claude Opus 4.7 的一些最新特性。

1、自動(dòng)模式

Opus 4.7 喜歡執(zhí)行復(fù)雜、長(zhǎng)時(shí)間運(yùn)行的任務(wù),比如深度研究、重構(gòu)代碼、構(gòu)建復(fù)雜功能、迭代直到達(dá)到性能基準(zhǔn)。過(guò)去,你要么得在模型執(zhí)行這類(lèi)長(zhǎng)時(shí)間任務(wù)時(shí)全程監(jiān)督,要么使用 --dangerously-skip-permissions。

自動(dòng)模式作為一種更安全的替代方案,在這種模式下,權(quán)限提示會(huì)被路由到一個(gè)基于模型的分類(lèi)器,來(lái)決定命令是否安全執(zhí)行。如果安全,它就會(huì)自動(dòng)批準(zhǔn)。

這意味著模型運(yùn)行時(shí)不再需要全程監(jiān)督。更重要的是,這意味著你可以并行運(yùn)行更多 Claude。一旦一個(gè) Claude 開(kāi)始運(yùn)行,你就可以將注意力轉(zhuǎn)向下一個(gè) Claude。



2、新的 /fewer-permission-prompts 技能

它會(huì)掃描你的會(huì)話歷史記錄,找出常見(jiàn)的 bash 和 MCP 命令,這些命令是安全的,也導(dǎo)致了重復(fù)的權(quán)限提示。然后,它會(huì)推薦一個(gè)命令列表,將其添加到你的權(quán)限白名單中。

你可以使用此功能來(lái)優(yōu)化你的權(quán)限設(shè)置,避免不必要的權(quán)限提示。

3、「回顧」

回顧是對(duì)智能體所做的事情及下一步行動(dòng)的簡(jiǎn)短總結(jié),它可以在幾分鐘或幾小時(shí)后返回一個(gè)長(zhǎng)時(shí)間運(yùn)行的會(huì)話。



4、專注模式

CLI 中加入了專注模式,它會(huì)隱藏所有中間步驟,只專注于最終結(jié)果。新模型已經(jīng)達(dá)到了這樣一個(gè)程度,我們通常信任它會(huì)運(yùn)行正確的命令并進(jìn)行正確的編輯,只需要查看最終結(jié)果。

你可以使用 /focus 進(jìn)行開(kāi)關(guān)。

5、自適應(yīng)的思考深度

Opus 4.7 使用自適應(yīng)思考而非思考預(yù)算。要調(diào)整模型的思考多 / 少程度,Anthropic 推薦調(diào)整努力程度。

使用較低努力程度可獲得更快的響應(yīng)和更低的令牌使用量。使用較高努力程度可獲得最高智能和能力。

Boris Cherny 表示,大多數(shù)任務(wù)可以使用 xhigh 努力程度,對(duì)最困難的任務(wù)使用 max 努力程度。Max 僅適用于當(dāng)前的會(huì)話;其他努力程度是粘性的,并將在下一次會(huì)話中持續(xù)存在。

/effort 用于設(shè)置努力程度。



6、給 Claude 一個(gè)驗(yàn)證其工作的方式

最后,確保 Claude 有一種驗(yàn)證其工作的方式。這一直是一種能讓你從 Claude 獲得 2-3 倍產(chǎn)出的方法,而且在 4.7 版本中,這比以往任何時(shí)候都更重要。

驗(yàn)證方式因任務(wù)而異。對(duì)于后端工作,確保 Claude 知道如何啟動(dòng)您的服務(wù)器 / 服務(wù)來(lái)進(jìn)行端到端測(cè)試;對(duì)于前端工作,使用 Claude Chromium 擴(kuò)展程序,讓 Claude 能夠控制您的瀏覽器;對(duì)于桌面應(yīng)用,使用 computer use。

Boris Cherny 稱自己最近的許多提示都像這樣:「Claude 做 blah blah /go」。/go 是一種技能,它讓 Claude 1)使用 bash、瀏覽器或 computer use 進(jìn)行端到端自我測(cè)試;2)運(yùn)行 /simplify 技能;3)提交一個(gè) PR。

上周 Anthropic 發(fā)布了 「Project Glasswing」項(xiàng)目,重點(diǎn)闡述了人工智能模型在網(wǎng)絡(luò)安全領(lǐng)域的風(fēng)險(xiǎn)與優(yōu)勢(shì)。Anthropic 宣布將限制 Claude Mythos Preview 的發(fā)布范圍,并首先在功能較弱的模型上測(cè)試新的網(wǎng)絡(luò)安全防護(hù)措施。

Opus 4.7 即是首個(gè)此類(lèi)模型:其網(wǎng)絡(luò)安全能力不如 Mythos Preview(Anthropic 表示在訓(xùn)練過(guò)程中嘗試了多種方法來(lái)逐步降低其網(wǎng)絡(luò)安全能力)。發(fā)布時(shí)的 Opus 4.7 配備了安全防護(hù)措施,能夠自動(dòng)檢測(cè)并阻止表明存在違禁或高風(fēng)險(xiǎn)網(wǎng)絡(luò)安全用途的請(qǐng)求。

Anthropic 將從這些安全防護(hù)措施的實(shí)際部署中獲得經(jīng)驗(yàn),從而最終實(shí)現(xiàn) Mythos 級(jí)模型的廣泛發(fā)布目標(biāo)。

總體而言,Opus 4.7 的安全性能與 Opus 4.6 相似:Anthropic 的評(píng)估顯示,其出現(xiàn)欺騙、奉承和與濫用者合作等令人擔(dān)憂的行為的比例較低。在某些指標(biāo)上,例如誠(chéng)實(shí)度和抵御惡意「快速注入」攻擊的能力,Opus 4.7 比 Opus 4.6 有所改進(jìn);但在其他指標(biāo),例如在管制藥物方面提供過(guò)于詳細(xì)的減害建議的傾向上 Opus 4.7 略有不足。

Anthropic 的一致性評(píng)估得出結(jié)論,該模型「總體上一致性良好且值得信賴,但其行為并非完全理想」。值得注意的是,根據(jù)評(píng)估,Mythos Preview 仍然是一致性最佳的模型。



根據(jù)自動(dòng)化行為審核,總體行為偏差得分如上。

除了 Claude Opus 4.7 本身之外,Anthropic 還將推出以下更新:

更精細(xì)的難度控制:Opus 4.7 新增了一個(gè)介于 high 和 max 之間的 xhigh「超高」級(jí)別,使用戶能夠更精確地控制在解決難題時(shí)推理速度和延遲之間的權(quán)衡。在 Claude Code 中,Anthropic 已將所有套餐的默認(rèn)級(jí)別提升至 xhigh。在測(cè)試 Opus 4.7 的編碼和智能體應(yīng)用場(chǎng)景時(shí),建議從 high 或 xhigh 級(jí)別開(kāi)始。

在 Claude 平臺(tái)(API)上:除了支持更高分辨率的圖像外,Anthropic 還在公開(kāi)測(cè)試版中推出了任務(wù)預(yù)算,讓開(kāi)發(fā)者能夠引導(dǎo) Claude 的 token 支出,以便它可以優(yōu)先處理較長(zhǎng)時(shí)間內(nèi)的工作。

在 Claude Code 中:新增的 /ultrareview 斜杠命令會(huì)創(chuàng)建一個(gè)專門(mén)的審查會(huì)話,讀取所有更改并標(biāo)記出細(xì)心的審查員能夠發(fā)現(xiàn)的錯(cuò)誤和設(shè)計(jì)問(wèn)題。Anthropic 為 Claude Code Pro 和 Max 用戶提供三次免費(fèi)的超強(qiáng)審查機(jī)會(huì)供試用。Anthropic 還將自動(dòng)模式擴(kuò)展到了 Max 用戶。自動(dòng)模式是一項(xiàng)新的權(quán)限選項(xiàng),Claude 會(huì)替你做出決策,這意味著可以運(yùn)行更長(zhǎng)時(shí)間的任務(wù),減少中斷,并且比人類(lèi)選擇跳過(guò)所有權(quán)限的風(fēng)險(xiǎn)更低。

Opus 4.7 是 Opus 4.6 的直接升級(jí)版,但有兩個(gè)變化值得關(guān)注,因?yàn)樗鼈儠?huì)影響 token 的使用。首先,Opus 4.7 使用了更新的分詞器,改進(jìn)了模型處理文本的方式。因此外界認(rèn)為它大概率是一個(gè)新的基礎(chǔ)模型,甚至可能是從 Mythos 提煉而來(lái)的。

但代價(jià)是,相同的輸入可能會(huì)映射到更多的詞元 —— 根據(jù)內(nèi)容類(lèi)型的不同,大約增加 1.0 到 1.35 倍。其次,Opus 4.7 在高難度任務(wù)下會(huì)進(jìn)行更多思考,尤其是在主動(dòng)語(yǔ)態(tài)場(chǎng)景的后期回合。這提高了模型在解決難題時(shí)的可靠性,但也意味著它會(huì)產(chǎn)生更多的輸出 token。

人們也發(fā)現(xiàn),Opus 4.7 的知識(shí)截止日期更新了:



用戶可以通過(guò)多種方式控制 token 的使用:例如使用工作量參數(shù)、調(diào)整任務(wù)預(yù)算或引導(dǎo)模型簡(jiǎn)化代碼。在 Anthropic 自己的測(cè)試中,最終效果是積極的 —— 內(nèi)部編碼評(píng)估顯示,所有工作量級(jí)別的令牌使用率均有所提高(如下所示)—— 但 Anthropic 建議在實(shí)際流量上進(jìn)行評(píng)估。

Anthropic 還編寫(xiě)了遷移指南(https://platform.claude.com/docs/en/about-claude/models/migration-guide#migrating-to-claude-opus-4-7),提供了從 Opus 4.6 升級(jí)到 Opus 4.7 的更多建議。



根據(jù)每個(gè)工作量級(jí)別下 token 使用情況,對(duì)內(nèi)部智能編碼評(píng)估進(jìn)行評(píng)分。在此評(píng)估中,模型在單個(gè)用戶提示下自主運(yùn)行,因此結(jié)果可能無(wú)法代表交互式編碼中的 token 使用情況。

在 Opus 4.7 發(fā)布后,人們開(kāi)始大規(guī)模測(cè)試評(píng)價(jià),大多數(shù)使用者認(rèn)為新模型效果不錯(cuò),也有人表示其 token 消耗非常驚人(pro 問(wèn)兩三個(gè)問(wèn)題就沒(méi)額度了)。

同樣是在昨天晚上,千問(wèn)開(kāi)源了 Qwen3.6-35B-A3B(350 億參數(shù),激活 30 億),有人還表示,在自己 MacBook Pro M5 上通過(guò) LM Studio(以及 llm-lmstudio 插件)運(yùn)行的千問(wèn)模型生成「鵜鶘騎自行車(chē)」效果要比 Opus 4.7 好。



當(dāng)然這不能就說(shuō)明 Qwen3.6-35B-A3B 更強(qiáng)了。

更多的使用情況,還有待大家的進(jìn)一步驗(yàn)證。

參考內(nèi)容:

https://www.anthropic.com/news/claude-opus-4-7

https://x.com/bcherny/status/2044847848035156457

https://qwen.ai/blog?id=qwen3.6-35b-a3b

https://simonwillison.net/2026/Apr/16/qwen-beats-opus/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
機(jī)器人半馬最詭異機(jī)器人出現(xiàn),網(wǎng)友:半夜送外賣(mài)要被嚇?biāo)?>
    </a>
        <h3>
      <a href=第一財(cái)經(jīng)資訊
2026-04-19 11:39:06
騎士消息:登帝解散原因曝光,阿倫展現(xiàn)格局,G2出場(chǎng)情況更新

騎士消息:登帝解散原因曝光,阿倫展現(xiàn)格局,G2出場(chǎng)情況更新

冷月小風(fēng)風(fēng)
2026-04-20 10:36:47
馬英九攤牌:兩岸開(kāi)戰(zhàn)在所難免,臺(tái)成不了烏克蘭,只因有致命死穴

馬英九攤牌:兩岸開(kāi)戰(zhàn)在所難免,臺(tái)成不了烏克蘭,只因有致命死穴

混沌錄
2026-04-16 17:31:13
任澤平退款730萬(wàn):價(jià)值4500萬(wàn)的恒大花瓶

任澤平退款730萬(wàn):價(jià)值4500萬(wàn)的恒大花瓶

超先聲
2026-04-17 16:34:01
馬卡:馬競(jìng)?cè)?duì)返航時(shí)飛機(jī)上彌漫著葬禮般的氛圍

馬卡:馬競(jìng)?cè)?duì)返航時(shí)飛機(jī)上彌漫著葬禮般的氛圍

懂球帝
2026-04-20 10:40:10
急瘋了!快船梭哈式豪賭,4筆重磅交易曝光,只為留住倫納德?

急瘋了!快船梭哈式豪賭,4筆重磅交易曝光,只為留住倫納德?

體育大朋說(shuō)
2026-04-20 11:15:16
張藝凡回應(yīng)脫鞋合照:“是我自己脫鞋的,沒(méi)有任何人要求我”

張藝凡回應(yīng)脫鞋合照:“是我自己脫鞋的,沒(méi)有任何人要求我”

韓小娛
2026-04-20 08:29:10
女演員千萬(wàn)別整容!看“金像獎(jiǎng)紅毯”章子怡,舒淇同框,就懂了

女演員千萬(wàn)別整容!看“金像獎(jiǎng)紅毯”章子怡,舒淇同框,就懂了

童叔不飆車(chē)
2026-04-20 09:49:21
解氣?。?!來(lái)而不往非禮也!中國(guó)海軍今天出手了!

解氣?。?!來(lái)而不往非禮也!中國(guó)海軍今天出手了!

樂(lè)趣紀(jì)史
2026-04-20 08:03:19
“鳥(niǎo)巢”要拆?花34億建成的奧運(yùn)地標(biāo),如今是賺了還是賠了?

“鳥(niǎo)巢”要拆?花34億建成的奧運(yùn)地標(biāo),如今是賺了還是賠了?

拳擊時(shí)空
2026-04-20 06:18:44
專打高端局?狀元常規(guī)賽被噴水貨!到季后賽就爆發(fā),場(chǎng)均27+8太猛

專打高端局?狀元常規(guī)賽被噴水貨!到季后賽就爆發(fā),場(chǎng)均27+8太猛

你的籃球頻道
2026-04-20 09:58:25
中國(guó)為何能“打完就撤”,俄羅斯卻陷在烏克蘭出不來(lái)

中國(guó)為何能“打完就撤”,俄羅斯卻陷在烏克蘭出不來(lái)

民間胡扯老哥
2026-03-22 20:32:40
很意外,蘇林坐了12小時(shí)中國(guó)高鐵,越南人急了

很意外,蘇林坐了12小時(shí)中國(guó)高鐵,越南人急了

新浪財(cái)經(jīng)
2026-04-19 02:38:50
英超天王山戰(zhàn):曼城2比1阿森納,多納魯馬超巨失誤送禮,謝爾基、哈蘭德建功

英超天王山戰(zhàn):曼城2比1阿森納,多納魯馬超巨失誤送禮,謝爾基、哈蘭德建功

足球報(bào)
2026-04-20 01:33:26
全球公認(rèn)最懶國(guó)家,當(dāng)?shù)厝藞?jiān)決反對(duì)獨(dú)立,每天好吃懶做全靠援助

全球公認(rèn)最懶國(guó)家,當(dāng)?shù)厝藞?jiān)決反對(duì)獨(dú)立,每天好吃懶做全靠援助

心中的麥田
2026-04-17 18:03:56
收拾完伊朗,下一個(gè)輪到中國(guó)?以色列發(fā)戰(zhàn)爭(zhēng)威脅,中方送出5個(gè)字

收拾完伊朗,下一個(gè)輪到中國(guó)?以色列發(fā)戰(zhàn)爭(zhēng)威脅,中方送出5個(gè)字

千羽解讀
2026-04-18 10:12:15
天生一張娃娃臉都已經(jīng)46了,你敢想?

天生一張娃娃臉都已經(jīng)46了,你敢想?

記錄生活日常阿蜴
2026-04-18 19:43:42
伊朗向中國(guó)通報(bào)!談判團(tuán)差點(diǎn)被美軍“團(tuán)滅”,全程連電話都不敢打

伊朗向中國(guó)通報(bào)!談判團(tuán)差點(diǎn)被美軍“團(tuán)滅”,全程連電話都不敢打

荷蘭豆愛(ài)健康
2026-04-19 21:53:37
美軍計(jì)劃在國(guó)際水域登臨并扣押與伊朗有關(guān)船只

美軍計(jì)劃在國(guó)際水域登臨并扣押與伊朗有關(guān)船只

澎湃新聞
2026-04-19 11:38:24
演員何潤(rùn)東回應(yīng)穿項(xiàng)羽鎧甲亮相蘇超:14年后受邀過(guò)來(lái),內(nèi)心滿是感動(dòng),等下去逛項(xiàng)王故里

演員何潤(rùn)東回應(yīng)穿項(xiàng)羽鎧甲亮相蘇超:14年后受邀過(guò)來(lái),內(nèi)心滿是感動(dòng),等下去逛項(xiàng)王故里

極目新聞
2026-04-19 10:17:37
2026-04-20 12:47:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12806文章數(shù) 142632關(guān)注度
往期回顧 全部

科技要聞

藍(lán)色起源一級(jí)火箭完美回收 客戶衛(wèi)星未入軌

頭條要聞

媒體:伊朗剛說(shuō)不談 美國(guó)立即開(kāi)打

頭條要聞

媒體:伊朗剛說(shuō)不談 美國(guó)立即開(kāi)打

體育要聞

七大獎(jiǎng)項(xiàng)候選官宣!文班或全票DPOY

娛樂(lè)要聞

鹿晗生日上熱搜,被關(guān)曉彤撕下體面

財(cái)經(jīng)要聞

月之暗面IPO迷局

汽車(chē)要聞

把天門(mén)山搬進(jìn)廠?開(kāi)仰望U8沖上45度坡的那刻 我腿軟了

態(tài)度原創(chuàng)

健康
房產(chǎn)
游戲
數(shù)碼
親子

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

房產(chǎn)要聞

官宣簽約最強(qiáng)城更!??跇鞘?,突然殺入神秘房企!

異世界自動(dòng)化模擬經(jīng)營(yíng)游戲《退休勇者當(dāng)廠長(zhǎng)》現(xiàn)已正式上架Steam

數(shù)碼要聞

華為全新鴻蒙電腦搭載云晰柔光屏,硬件級(jí)低藍(lán)光,今日下午發(fā)布

親子要聞

女孩兒學(xué)壞,多半栽在初中

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版