国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

長(zhǎng)文問答準(zhǔn)確率大漲 17% 后,Anthropic 把“不亂猜”做成了核心賣點(diǎn)

0
分享至


當(dāng)?shù)貢r(shí)間4 月 16 日,Anthropic 正式發(fā)布新一代旗艦?zāi)P?Claude Opus 4.7。該公司將其定位為"迄今能力最強(qiáng)的通用可用模型",標(biāo)志著人工智能行業(yè)競(jìng)爭(zhēng)焦點(diǎn)的決定性轉(zhuǎn)變——從追求對(duì)話流暢性轉(zhuǎn)向考核自主任務(wù)執(zhí)行能力。

與兩個(gè)月前發(fā)布的 Opus 4.6 相比,新版本專為Agentic工作流設(shè)計(jì),即需要 AI 在較長(zhǎng)時(shí)間內(nèi)獨(dú)立運(yùn)行、僅需少量人類干預(yù)的復(fù)雜任務(wù)。此次更新優(yōu)先提升高分辨率視覺感知、復(fù)雜多步軟件工程鏈穩(wěn)定性,以及長(zhǎng)上下文檢索能力,而非單純追求推理深度(官方博客地址:https://www.anthropic.com/news/claude-opus-4-7)。

值得注意的是,Anthropic 在發(fā)布 Opus 4.7 的同時(shí)坦誠(chéng)表示,這并非其最強(qiáng)模型——能力更強(qiáng)的 Claude Mythos Preview 仍處于受限測(cè)試階段。


視覺智能突破與長(zhǎng)上下文瓶頸攻克

在企業(yè)級(jí)應(yīng)用場(chǎng)景的基準(zhǔn)測(cè)試中,Opus 4.7 與主要競(jìng)爭(zhēng)對(duì)手的性能差距進(jìn)一步拉大。在 OfficeQA Pro 評(píng)測(cè)中——該評(píng)測(cè)由 Databricks 開發(fā),要求模型解析近 9 萬頁(yè)美國(guó)財(cái)政部歷史文件(涵蓋近 100 年公報(bào)、2600 萬個(gè)數(shù)字)——Opus 4.7 取得 80.6% 的得分。這一結(jié)果幾乎是谷歌 Gemini 3.1 Pro(42.9%)的兩倍,并大幅領(lǐng)先于 GPT-5.4(51.1%)。數(shù)據(jù)顯示,Anthropic 已在長(zhǎng)上下文檢索的關(guān)鍵瓶頸上取得突破。


在 BFS 1M 測(cè)試中——該測(cè)試由 OpenAI 設(shè)計(jì),將一張有向圖用邊列表塞滿 100 萬 token 上下文,要求模型進(jìn)行圖遍歷——Opus 4.7 從 Opus 4.6 的 41.2% 提升至 58.6%,提升幅度達(dá) 17.4 個(gè)百分點(diǎn)。這項(xiàng)指標(biāo)被視為衡量 AI 智能體(Agent)跑多步驟長(zhǎng)任務(wù)的硬性指標(biāo)。在 Vending-Bench 2 模擬經(jīng)營(yíng)測(cè)試中,Opus 4.7 最終實(shí)現(xiàn) 10,937 美元余額,較 Opus 4.6 的 8,018 美元提升 36%,展現(xiàn)出長(zhǎng)時(shí)間工作流中的決策連貫性優(yōu)勢(shì)。


視覺智能是此版本進(jìn)步最為顯著的方面。

Opus 4.7 現(xiàn)在支持最長(zhǎng)邊達(dá) 2,576 像素的圖像輸入,分辨率約 375 萬像素,較前代提升超過三倍。這使得模型能夠"看到"屏幕上占比低至 0.07% 的 UI 元素。在 ScreenSpot-Pro 基準(zhǔn)測(cè)試中——該基準(zhǔn)評(píng)估 AI 在 VSCode、Photoshop、AutoCAD 等專業(yè)軟件中定位特定按鈕或數(shù)據(jù)點(diǎn)的能力——Opus 4.7 在高分辨率模式下配合工具調(diào)用功能達(dá)到 87.6% 的成功率,而 Opus 4.6 在低分辨率下僅為 57.7%。

這種精確度不再是單純的學(xué)術(shù)探索,而是"電腦使用"(Computer Use)能力的前提。Anthropic 將圖像分辨率大幅提升的本質(zhì)目的,是讓 AI 能夠看懂軟件界面、密集表格、終端輸出、設(shè)計(jì)稿細(xì)節(jié)和代碼截圖。

未來 AI 辦公、AI 測(cè)試、AI 安全、AI 前端開發(fā)等任務(wù),都將從純文本任務(wù)轉(zhuǎn)向屏幕任務(wù)。在 SWE-bench Multimodal 測(cè)試中——該測(cè)試要求模型結(jié)合 UI 截圖和代碼一起修復(fù)前端 JavaScript bug——Opus 4.7 從 Opus 4.6 的 27.1% 提升至 34.5%,提升 7.4 個(gè)百分點(diǎn)。這表明視覺能力的升級(jí)直接服務(wù)于編程場(chǎng)景的實(shí)際需求。

Anthropic 在官方公告中特別強(qiáng)調(diào),Opus 4.7 在指令遵循能力上出現(xiàn)顯著提升。過往模型可能會(huì)寬松地"糊弄"指令或完全跳過部分指示,但 Opus 4.7 會(huì)嚴(yán)格按字面意思執(zhí)行指令。

這一變化帶來雙重影響:一方面,它減少了提示詞"玄學(xué)",使寫需求、定格式、列限制條件變得更加可靠;另一方面,用戶可能需要重寫舊的、更偏對(duì)話式的提示詞以避免意外輸出。許多用戶的提示詞是在舊模型"會(huì)自動(dòng)補(bǔ)全真實(shí)意圖"的習(xí)慣上調(diào)優(yōu)出來的,而新模型的剛性可能導(dǎo)致這些舊提示詞失效。

在高級(jí)軟件工程領(lǐng)域,這種嚴(yán)謹(jǐn)性轉(zhuǎn)化為顯著提升。在 SWE-bench Verified 測(cè)試中,Opus 4.7 得分為 87.6%,Opus 4.6 為 80.8%;在更難的 SWE-bench Pro 測(cè)試中,Opus 4.7 為 64.3%,Opus 4.6 為 53.4%。這意味著用戶可以將過去需要密切監(jiān)督的高難度編碼工作交給 Opus 4.7 處理,它會(huì)在匯報(bào)結(jié)果前主動(dòng)驗(yàn)證自身輸出。

Opus 4.7 在使用基于文件系統(tǒng)的記憶方面表現(xiàn)更為出色。它能在長(zhǎng)時(shí)間、多會(huì)話的工作中記住重要筆記,并將其用于開展新的任務(wù),因此新任務(wù)需要更少的前置上下文。一個(gè)能跨會(huì)話記住項(xiàng)目約束、用戶偏好、架構(gòu)決策和上次失敗原因的 Agent,才可能從"聰明臨時(shí)工"變成"穩(wěn)定同事"。這一特性在官方公告中并不顯眼,但可能是長(zhǎng)期使用中最關(guān)鍵的更新。

伴隨 Opus 4.7 發(fā)布,Anthropic 還更新了 Claude Code,新增 auto mode 和/ultrareview 功能。auto mode 不是模型自動(dòng)選型,而是權(quán)限選項(xiàng)。它允許 Claude 替用戶做一些權(quán)限決策,讓長(zhǎng)任務(wù)少被打斷,但風(fēng)險(xiǎn)低于完全跳過權(quán)限確認(rèn)。

這個(gè)設(shè)計(jì)針對(duì)的是 Agent 產(chǎn)品的核心矛盾:?jiǎn)柼啵珹gent 像實(shí)習(xí)生;不問,風(fēng)險(xiǎn)又太大。auto mode 的本質(zhì),就是在"別煩我"和"別亂來"之間找平衡。/ultrareview 是一個(gè)專門的代碼審查會(huì)話,可讀取變更并指出 bug 和設(shè)計(jì)問題。

這標(biāo)志著 AI 編程正式進(jìn)入第二階段:讓 AI 自己審查 AI 自己生成的代碼。生成代碼只是開發(fā)流程的一部分,審查、測(cè)試、重構(gòu)、文檔同樣重要。如果 AI 只能做第一步,它永遠(yuǎn)只是輔助工具;如果它能參與整個(gè)流程,它才可能真正改變軟件開發(fā)的方式。

專業(yè)領(lǐng)域的經(jīng)濟(jì)價(jià)值正加速釋放

在 Structural Biology(結(jié)構(gòu)生物學(xué))基準(zhǔn)測(cè)試中,Opus 4.7 的推理得分從 Opus 4.6 的 30.9% 躍升至 74.0%,一次版本迭代實(shí)現(xiàn) 2.4 倍增長(zhǎng)。這是所有基準(zhǔn)測(cè)試中躍升最夸張的一項(xiàng)。這種分子推理能力的突破表明,該模型正在從通用輔助邁向?qū)I(yè)科學(xué)研究領(lǐng)域。對(duì)于更廣泛的勞動(dòng)力市場(chǎng)而言,模型改進(jìn)后的指令遵循能力意味著在短時(shí)間內(nèi)它更不容易產(chǎn)生"幻覺"或遺漏步驟。

在金融分析領(lǐng)域,Opus 4.7 同樣取得領(lǐng)先地位。在 Finance Agent v11 測(cè)試中,Opus 4.7 得分為 64.4%,Opus 4.6 為 60.1%。在 GDPval-AA 評(píng)估中——該評(píng)估由 Artificial Analysis 基于 OpenAI GDPval 數(shù)據(jù)集開發(fā),覆蓋 44 種知識(shí)工作職業(yè)、9 大 GDP 核心行業(yè),任務(wù)來自資深職業(yè)人士(平均 14 年經(jīng)驗(yàn))的真實(shí)交付物——Opus 4.7 獲得 1753 分的 Elo 評(píng)分,高于 Opus 4.6(1619 分)、GPT-5.4(1674 分)和 Gemini 3.1 Pro(1314 分)。

Anthropic 介紹稱,Opus 4.7 在金融分析任務(wù)上能夠生成更嚴(yán)謹(jǐn)?shù)姆治雠c建模、更專業(yè)的報(bào)告展示,并在各項(xiàng)任務(wù)間實(shí)現(xiàn)更緊密的整合。

在發(fā)布 Opus 4.7 的同時(shí),Anthropic 推出了一份系統(tǒng)說明書并更新了 Cyber Verification Program(網(wǎng)絡(luò)安全驗(yàn)證計(jì)劃)。該項(xiàng)目本質(zhì)上是對(duì)能力進(jìn)行分級(jí):普通用戶拿到的是有護(hù)欄的 Opus,經(jīng)過驗(yàn)證的安全專家才能申請(qǐng)更寬的網(wǎng)絡(luò)安全用途權(quán)限。值得注意的是,Anthropic 有意限制了 Opus 4.7 的高級(jí)網(wǎng)絡(luò)安全能力,使其低于 Mythos Preview 模型中的水平,以防止在進(jìn)攻性操作中的濫用。官方甚至表示,他們?cè)谟?xùn)練過程中實(shí)驗(yàn)性地削弱了這個(gè)模型的網(wǎng)絡(luò)安全能力。

Opus 4.7 被明確定位為"第一款用來測(cè)試新網(wǎng)絡(luò)安全護(hù)欄的公開模型"。Anthropic 表示,他們會(huì)從 Opus 4.7 的真實(shí)部署中學(xué)習(xí),為未來 Mythos 級(jí)別模型的廣泛發(fā)布做準(zhǔn)備。這種謹(jǐn)慎的部署策略凸顯了硅谷日益增長(zhǎng)的緊張關(guān)系:在爭(zhēng)相打造能夠替代人類工作者的模型的同時(shí),也要確保同一模型無法摧毀數(shù)字基礎(chǔ)設(shè)施。當(dāng)模型能力達(dá)到某個(gè)臨界點(diǎn)后,競(jìng)爭(zhēng)邏輯從"我比你強(qiáng)"開始轉(zhuǎn)向"會(huì)不會(huì)出事"。

特朗普政府最近強(qiáng)調(diào)美國(guó)在 AI 安全方面需要發(fā)揮領(lǐng)導(dǎo)作用,Anthropic 的發(fā)布策略正是對(duì)這一政策導(dǎo)向的呼應(yīng)。公司選擇先把最強(qiáng)的模型鎖起來,用稍弱但足夠好的模型來測(cè)試安全機(jī)制。這不是技術(shù)上做不到,而是主動(dòng)選擇不做。這種"克制"本身成了產(chǎn)品差異化的一部分。至少在發(fā)布策略上,Anthropic 給出了一種新思路:有時(shí)候"不做什么"比"能做什么"更重要。

Token 消耗激增背后的成本邏輯

效率也意味著實(shí)實(shí)在在的成本。

Opus 4.7 使用了修訂后的分詞器(tokenizer),使得相同輸入量下的 token 消耗大約增加了 10% 到 35%。雖然 Anthropic 在定價(jià)上與 Opus 4.5 和 Opus 4.6 保持一致(輸入每百萬 token 5 美元,輸出每百萬 token 25美元),但 token 密度的增加意味著高強(qiáng)度任務(wù)將更快消耗 API 積分。

這種隱性成本上漲是模型增加"思考"時(shí)間的代價(jià)。尤其在使用新的 Xhigh Effort 模式時(shí)——該模式位于標(biāo)準(zhǔn)處理與最大推理深度之間——模型會(huì)進(jìn)行更多內(nèi)部推理,從而提高可靠性,但也會(huì)產(chǎn)生更多輸出 token。Anthropic 在遷移指南中提醒用戶,Opus 4.7 的 token 使用可能增加,但在實(shí)際編程評(píng)估中,整體效率反而提升了。

這說明他們優(yōu)化的不是單次調(diào)用的成本,而是完成任務(wù)的總成本。一個(gè) Agent 如果第一次就把事情做對(duì),即使單次調(diào)用貴一點(diǎn),總成本也比反復(fù)試錯(cuò)要低。這是一種更成熟的產(chǎn)品思路。早期 AI 產(chǎn)品追求的是"便宜"和"快",現(xiàn)在開始追求"靠譜"。

Anthropic 新增的 x-high effort 和 task budgets(任務(wù)預(yù)算)功能,說明高端模型的使用方式正在走當(dāng)年云計(jì)算的那套邏輯。用戶買的不是一次回答,而是在給一個(gè)會(huì)思考、會(huì)試錯(cuò)、會(huì)驗(yàn)證的任務(wù)過程付費(fèi)。

過去模型計(jì)費(fèi)主要看輸入輸出長(zhǎng)度,現(xiàn)在還要看思考的等級(jí)、任務(wù)預(yù)算、Agent 跑了幾輪、工具失敗后有沒有繼續(xù)推理。這種計(jì)費(fèi)模式的演變,反映出 Agent 產(chǎn)品從"能干什么"到"能不能用"的巨大飛躍。

綜合來看,Opus 4.7 不是最強(qiáng)的模型,Anthropic 也沒有把它包裝成最強(qiáng)的模型。它是在能力、安全、成本之間的一個(gè)平衡點(diǎn)。至于這個(gè)平衡點(diǎn)是否真的平衡,需要等待市場(chǎng)來驗(yàn)證。

可以確定的是,隨著 Opus 4.7 的發(fā)布,AI 行業(yè)競(jìng)爭(zhēng)的核心指標(biāo)已經(jīng)改變。大模型競(jìng)爭(zhēng)的焦點(diǎn),正在從答得像不像,轉(zhuǎn)到做得完不完。只會(huì)寫一段漂亮答案,已經(jīng)不夠了。能不能把一份長(zhǎng)文檔改干凈,能不能把一套資料串起來做成可交付物,能不能持續(xù)幾十分鐘甚至更久不跑偏,這才會(huì)決定它在日常工作里能不能真的替人扛起一片天。

這個(gè)策略能否成功,取決于市場(chǎng)是否認(rèn)可"謹(jǐn)慎"這個(gè)概念。如果用戶只在乎"能不能做到",那 Anthropic 的做法會(huì)顯得保守。但如果企業(yè)客戶開始重視"會(huì)不會(huì)出事",那這種分級(jí)發(fā)布、主動(dòng)削弱某些能力的做法,反而可能成為競(jìng)爭(zhēng)優(yōu)勢(shì)。(本文首發(fā)鈦媒體APP,作者 | 硅谷Tech_news,編輯 | 秦聰慧)

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
新澳門六合彩第109期,特,三中三,內(nèi)幕推薦

新澳門六合彩第109期,特,三中三,內(nèi)幕推薦

背包客的自我修養(yǎng)
2026-04-19 14:40:36
張水華跑一公里就拿出場(chǎng)費(fèi)是否合理?知情人:她已超額回饋賽事方

張水華跑一公里就拿出場(chǎng)費(fèi)是否合理?知情人:她已超額回饋賽事方

楊華評(píng)論
2026-04-19 17:03:40
新西蘭軍機(jī)多次抵近中國(guó)周邊空域,嚴(yán)重干擾民航!中方:已作出堅(jiān)決有力應(yīng)對(duì),并向新方提出嚴(yán)正交涉

新西蘭軍機(jī)多次抵近中國(guó)周邊空域,嚴(yán)重干擾民航!中方:已作出堅(jiān)決有力應(yīng)對(duì),并向新方提出嚴(yán)正交涉

每日經(jīng)濟(jì)新聞
2026-04-17 18:37:58
開天辟地頭一遭,第一個(gè)退出北約的國(guó)家要來了?已經(jīng)開始走程序

開天辟地頭一遭,第一個(gè)退出北約的國(guó)家要來了?已經(jīng)開始走程序

孤城落葉
2026-04-19 23:31:41
槍手克星,曼城本賽季對(duì)阿森納2勝1平,包括聯(lián)賽杯決賽取勝

槍手克星,曼城本賽季對(duì)阿森納2勝1平,包括聯(lián)賽杯決賽取勝

懂球帝
2026-04-20 01:37:07
人窮能卑微到什么地步?網(wǎng)友說:一個(gè)男人兩千塊買了我三個(gè)晚上!

人窮能卑微到什么地步?網(wǎng)友說:一個(gè)男人兩千塊買了我三個(gè)晚上!

黯泉
2026-04-14 12:13:04
倒反天罡?匈牙利新總理要求總統(tǒng)辭職,否則就將直接罷免

倒反天罡?匈牙利新總理要求總統(tǒng)辭職,否則就將直接罷免

民間胡扯老哥
2026-04-19 01:13:26
張雪機(jī)車因性能太強(qiáng)遭限制:增重7公斤限5%動(dòng)力 張雪回應(yīng)

張雪機(jī)車因性能太強(qiáng)遭限制:增重7公斤限5%動(dòng)力 張雪回應(yīng)

快科技
2026-04-19 15:31:07
沈夢(mèng)辰自曝“連續(xù)4年做熱瑪吉,臉越打越薄”

沈夢(mèng)辰自曝“連續(xù)4年做熱瑪吉,臉越打越薄”

天馬幸福的人生
2026-04-19 18:18:18
25歲女孩下樓梯時(shí)低頭玩手機(jī),踩空摔倒致腰椎爆裂性骨折,術(shù)前下肢癱瘓大小便失禁:我不會(huì)這輩子就完了吧?醫(yī)生:小事引發(fā)災(zāi)難性后果

25歲女孩下樓梯時(shí)低頭玩手機(jī),踩空摔倒致腰椎爆裂性骨折,術(shù)前下肢癱瘓大小便失禁:我不會(huì)這輩子就完了吧?醫(yī)生:小事引發(fā)災(zāi)難性后果

大風(fēng)新聞
2026-04-19 10:14:13
進(jìn)去就沒命!四川黃泉路有去無回,政府封禁400年,至今無解!

進(jìn)去就沒命!四川黃泉路有去無回,政府封禁400年,至今無解!

網(wǎng)絡(luò)易不易
2026-04-19 14:59:01
都說孔子周游列國(guó),可地圖一攤開,這老爺子基本就沒出過河南省

都說孔子周游列國(guó),可地圖一攤開,這老爺子基本就沒出過河南省

長(zhǎng)風(fēng)文史
2026-04-18 16:39:15
張雪回應(yīng)為何還有6圈提前結(jié)束比賽:有事故摩托車橫躺在賽道上

張雪回應(yīng)為何還有6圈提前結(jié)束比賽:有事故摩托車橫躺在賽道上

貝殼財(cái)經(jīng)
2026-04-19 23:56:03
新代言人火爆全球,以色列慌了

新代言人火爆全球,以色列慌了

俠客棧
2026-04-18 13:14:53
離譜!iPhone 忠誠(chéng)度飆到 96.4%,創(chuàng)歷史新高

離譜!iPhone 忠誠(chéng)度飆到 96.4%,創(chuàng)歷史新高

新浪財(cái)經(jīng)
2026-04-18 18:47:00
“雷軍被堵車?yán)锞S權(quán)”真相來了!小米高管放話:絕不放任

“雷軍被堵車?yán)锞S權(quán)”真相來了!小米高管放話:絕不放任

雷科技
2026-04-19 22:59:40
臺(tái)灣突然宣布重磅決定,島內(nèi)數(shù)萬人聯(lián)名反對(duì),鄭麗文成眾望所歸

臺(tái)灣突然宣布重磅決定,島內(nèi)數(shù)萬人聯(lián)名反對(duì),鄭麗文成眾望所歸

詩(shī)酒趁的年華
2026-04-19 07:15:25
24歲女研究生坐6小時(shí)贏得“發(fā)呆比賽”冠軍 高興落淚:堅(jiān)持一件事真的不容易

24歲女研究生坐6小時(shí)贏得“發(fā)呆比賽”冠軍 高興落淚:堅(jiān)持一件事真的不容易

紅星新聞
2026-04-19 18:57:41
吹響集結(jié)號(hào)!歐亞53國(guó)達(dá)成共識(shí),澤連斯基宣布不再將美國(guó)視為盟友

吹響集結(jié)號(hào)!歐亞53國(guó)達(dá)成共識(shí),澤連斯基宣布不再將美國(guó)視為盟友

史政先鋒
2026-04-19 13:45:53
用了30年的內(nèi)存條,突然被筆記本廠商集體拋棄

用了30年的內(nèi)存條,突然被筆記本廠商集體拋棄

像素與芯片
2026-04-19 00:20:40
2026-04-20 01:56:49
鈦媒體APP incentive-icons
鈦媒體APP
獨(dú)立財(cái)經(jīng)科技媒體
132476文章數(shù) 862107關(guān)注度
往期回顧 全部

科技要聞

50分26秒破人類紀(jì)錄!300臺(tái)機(jī)器人狂飆半馬

頭條要聞

半年下沉22厘米 女子家中坐擁價(jià)值上億別墅卻沒法住人

頭條要聞

半年下沉22厘米 女子家中坐擁價(jià)值上億別墅卻沒法住人

體育要聞

湖人1比0火箭:老詹比烏度卡像教練

娛樂要聞

何潤(rùn)東漲粉百萬!內(nèi)娛隔空掀桌第一人

財(cái)經(jīng)要聞

華誼兄弟,8年虧光85億

汽車要聞

29分鐘大定破萬 極氪8X為什么這么多人買?

態(tài)度原創(chuàng)

旅游
時(shí)尚
親子
健康
軍事航空

旅游要聞

北京投入2.2億元建成和田“三館一院”

裝修“精神角落”,就是這么上癮

親子要聞

孩子總打噴嚏、起疹子,時(shí)過敏嗎?

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

軍事要聞

伊朗逼退美掃雷艇:美方求給15分鐘撤退

無障礙瀏覽 進(jìn)入關(guān)懷版