国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

最強(qiáng)牛馬狙擊編程之王,OpenAI和Anthropic深夜同發(fā)大招

0
分享至



2026年的這一天注定會被寫入AI發(fā)展史。

Claude Opus 4.6和GPT-5.3 Codex在相隔不到一個小時的時間里先后發(fā)布。

兩家公司似乎都憋著一口氣,要在同一個時間節(jié)點(diǎn)上交出自己的答卷。

“撞車”的背后,是一場關(guān)于資本、技術(shù)和市場話語權(quán)的較量。

就在兩周前,英偉達(dá)剛剛宣布向Anthropic投資100億美元,這筆錢讓Anthropic的估值飆升到3500億美元。

消息傳出后不到72小時,英偉達(dá)轉(zhuǎn)身又向OpenAI注資200億美元。

黃仁勛的算盤打得很清楚:兩邊都押注,誰贏都不虧。

但對Anthropic和OpenAI來說,這不只是拿到錢那么簡單。

兩家公司都計(jì)劃在2026年下半年到2027年左右啟動上市程序,現(xiàn)在正是證明自己技術(shù)實(shí)力、爭奪市場定價權(quán)的關(guān)鍵時刻。

投資人要看的不是PPT上的承諾,而是能拿出手的產(chǎn)品。

誰的模型更強(qiáng),誰在實(shí)際應(yīng)用中更有說服力,誰就能在IPO時要到更高的價格,拿到更多的籌碼。

一山容不得二虎,Anthropic和OpenAI必須得讓對方明白,誰才是老大。

因此,這種產(chǎn)品節(jié)奏不是巧合,而是卡好了表的對轟。

兩家公司都清楚,在這個時間點(diǎn)上,每一次產(chǎn)品發(fā)布都是一次融資路演,每一個技術(shù)突破都會直接影響投資人的判斷和市場的預(yù)期。

不過從產(chǎn)品本身來看,兩家公司確實(shí)都拿出了真本事。

01

Claude Opus 4.6

Anthropic這次對 Claude Opus 系列的升級,核心放在了“更聰明地思考”這件事上。

Opus 4.6最顯著的變化是它學(xué)會了“adaptive thinking”,模型會根據(jù)任務(wù)的復(fù)雜程度自動調(diào)整思考深度。在困難問題上花更多時間思考,而在簡單任務(wù)上快速通過。

在代碼能力方面,Opus 4.6在Terminal-Bench 2.0這個評測中拿到了最高分。



這個測試專門考察AI在終端環(huán)境下的操作能力。模型需要知道什么時候該用哪個命令,如何組合不同的工具,以及怎么從錯誤信息里找到問題所在。

這就像是考察一個程序員會不會熟練使用各種開發(fā)工具。不只是寫代碼,還要會調(diào)試、會部署、會看日志找bug。

更重要的是,Opus 4.6是Anthropic第一個提供100萬token上下文窗口的Opus級別模型。這個數(shù)字意味著模型可以一次性處理相當(dāng)于兩本中等厚度小說的文本量。

在長文本處理的測試中,Opus 4.6在MRCR v2的8-needle 1M 變體上得分76%,而上一代的Sonnet 4.5只有 18.5%。

簡單一點(diǎn)來理解,就是給模型一大堆文檔,然后問它一個需要綜合多處信息才能回答的問題。

以前的模型看著看著就“忘了”前面的內(nèi)容,或者找不到關(guān)鍵信息。Opus 4.6能在海量文本里準(zhǔn)確定位需要的信息,而且不會因?yàn)槲臋n太長就表現(xiàn)下降。

在知識工作能力的評測GDPval-AA 上,Opus 4.6比OpenAI的GPT-5.2高出約144Elo分,比自己的前代Opus 4.5高出190分。這個測試涵蓋了金融、法律等領(lǐng)域的實(shí)際工作任務(wù),比如制作財務(wù)分析報告、起草法律文件、做市場調(diào)研等。



Anthropic還在產(chǎn)品層面做了不少配套更新。

Claude Code現(xiàn)在支持“agent teams”功能,可以同時啟動多個AI代理,讓它們各自負(fù)責(zé)不同的子任務(wù),然后自動協(xié)調(diào)工作。

對于那些大型的代碼庫,這個功能特別有用,可以把工作拆分給不同的代理并行處理。

在辦公軟件集成方面,Anthropic推出了Claude in PowerPoint的研究預(yù)覽版,并大幅升級了Claude in Excel。

現(xiàn)在Claude可以直接在Excel里處理更復(fù)雜的任務(wù),支持?jǐn)?shù)據(jù)透視表編輯、圖表修改、條件格式化等功能。在 PowerPoint 里,Claude 能讀懂現(xiàn)有的版式、字體和母版設(shè)計(jì),然后按照這個風(fēng)格創(chuàng)建新的幻燈片。

就是讓AI真正進(jìn)入你日常工作的工具里。不用來回復(fù)制粘貼,直接在Excel或PowerPoint的側(cè)邊欄跟Claude對話,它就能幫你改表格、做圖表、生成演示文稿。

而且它會學(xué)習(xí)你的風(fēng)格,做出來的東西不會顯得格格不入。

在API層面,Anthropic引入了“effort”參數(shù),提供低、中、高、最高四個檔位。

開發(fā)者可以根據(jù)任務(wù)的復(fù)雜度選擇合適的檔位,在成本、速度和質(zhì)量之間找平衡。還有“context compaction”功能,當(dāng)對話接近上下文窗口限制時,會自動總結(jié)并替換較早的內(nèi)容,讓長時間運(yùn)行的任務(wù)不會因?yàn)槌鱿拗贫袛唷?/p>

可以理解為給開發(fā)者更多的控制權(quán)。

簡單任務(wù)用低檔位,省錢又快;復(fù)雜任務(wù)用高檔位,保證質(zhì)量。對話太長了系統(tǒng)會自動壓縮前面的內(nèi)容,這樣就能一直聊下去。

在安全性方面,Anthropic這次做了他們有史以來最全面的安全評估。

Opus 4.6在自動化行為審計(jì)中顯示出較低的不當(dāng)行為率,包括欺騙、阿諛奉承、鼓勵用戶妄想和配合濫用等。

由于 Opus 4.6在網(wǎng)絡(luò)安全方面的能力有顯著提升,Anthropic專門開發(fā)了六個新的網(wǎng)絡(luò)安全“探針”來檢測潛在的濫用行為。

同時,他們也在用這個模型幫助開源軟件查找和修補(bǔ)漏洞,希望讓防御方也能用上AI的力量。

02

Advancing Finance:

金融領(lǐng)域的深度應(yīng)用

Anthropic專門發(fā)布了一篇文章,詳細(xì)介紹Claude Opus 4.6在金融領(lǐng)域的應(yīng)用。

在金融工作中,專業(yè)人士需要AI做三件事:研究、分析和創(chuàng)建交付物。Opus 4.6在這三個維度上都達(dá)到了業(yè)內(nèi)領(lǐng)先水平。

在研究能力上,Opus 4.6在BrowseComp和DeepSearchQA兩個基準(zhǔn)測試中都有提升。

這兩個測試考察的是模型從大量非結(jié)構(gòu)化數(shù)據(jù)中提取特定信息的能力。

對金融分析師來說,這意味著可以把一堆公司財報、行業(yè)報告、新聞文章扔給AI,然后問一個很具體的問題,AI能給出針對性的答案,而不是泛泛的總結(jié)。

你丟給它一份財報,以前問AI“這家公司的盈利能力如何”,它可能給你的是一大段話,然后再把財報內(nèi)容復(fù)述一遍。

現(xiàn)在它能直接告訴你關(guān)鍵指標(biāo)是什么,跟行業(yè)平均水平比怎么樣,有哪些風(fēng)險因素。

在分析能力上,Opus 4.6在 Finance Agent這個外部基準(zhǔn)測試中達(dá)到60.7%的準(zhǔn)確率,比Opus 4.5提升了5.47個百分點(diǎn)。

在稅務(wù)評估TaxEval 上,Opus 4.6也達(dá)到了76%的業(yè)內(nèi)最高水平。

Anthropic用一個商業(yè)盡職調(diào)查任務(wù)做了對比,他們讓Claude Opus 4.6去評估一個潛在的收購目標(biāo)。這種工作通常需要一個資深分析師花兩到三周時間才能完成。

但是Opus 4.6的首次輸出在結(jié)構(gòu)、內(nèi)容和格式上都比Opus4.5更接近可以直接使用的標(biāo)準(zhǔn)。

也就是說,現(xiàn)在做出來的東西你小改一下就能用。這對于需要快速產(chǎn)出報告、演示文稿的金融從業(yè)者來說,效率提升是實(shí)實(shí)在在的。

Anthropic的內(nèi)部“真實(shí)世界金融”評估涵蓋了約50個投資和財務(wù)分析用例,包括電子表格、幻燈片和文檔的生成與審閱。

這些是投資銀行、私募股權(quán)、公開市場投資和企業(yè)財務(wù)領(lǐng)域分析師的常見任務(wù)。Opus 4.6比幾個月前的Sonnet 4.5提升了超過23個百分點(diǎn)。

配合Cowork這個新功能,金融團(tuán)隊(duì)可以同時啟動多個分析任務(wù)。Cowork讓Claude可以訪問你指定的本地文件夾,直接在里面讀取、編輯和創(chuàng)建文件。

對金融團(tuán)隊(duì)來說,這意味著可以一次性布置幾個分析任務(wù),同時監(jiān)督 Claude 創(chuàng)建每個交付物的過程,確保符合自己的標(biāo)準(zhǔn)。

03

GPT-5.3 Codex:

自己訓(xùn)練自己的模型

在Claude Opus 4.6發(fā)布的幾十分鐘后,奧特曼突然發(fā)了一條X,宣布GPT-5.3 Codex。



我在這里也是代表字母AI,給奧特曼和阿莫迪一點(diǎn)面子,給他們分別點(diǎn)了喜歡和轉(zhuǎn)發(fā)。

GPT-5.3 Codex最牛的地方在于,它能像真人同事一樣干活,而且可以邊干活邊跟你商量。

以前的AI是“你說一句我做一句”,GPT-5.3 Codex是“有問題隨時問你”。

你給它一個復(fù)雜任務(wù),它能自己琢磨幾個小時甚至幾天,中途還會主動跟你匯報進(jìn)度、問你意見,你隨時可以插話調(diào)整方向。

有意思的是,OpenAI用GPT-5.3 Codex的早期版本來幫忙開發(fā)后續(xù)版本。也就是說,讓AI幫著調(diào)試AI的訓(xùn)練過程、修bug、優(yōu)化系統(tǒng),OpenAI團(tuán)隊(duì)說這讓開發(fā)速度快得驚人。

GPT-5.3 Codex在多個基準(zhǔn)測試中創(chuàng)造了新的行業(yè)紀(jì)錄。在SWE-Bench Pro上,它達(dá)到了56.8%的準(zhǔn)確率,這是一個嚴(yán)格的真實(shí)世界軟件工程評估。

與只測試Python的SWE-bench Verified不同,SWE-Bench Pro涵蓋四種編程語言,更抗污染、更具挑戰(zhàn)性、更多樣化,也更貼近行業(yè)實(shí)際。

在Terminal-Bench 2.0上,GPT-5.3 Codex達(dá)到77.3%,遠(yuǎn)超之前的64%。

這個測試衡量的是代碼代理需要的終端技能,也就是在命令行環(huán)境下完成各種操作的能力。值得注意的是,GPT-5.3 Codex用的token數(shù)量比之前任何模型都少,這意味著用戶可以用同樣的成本做更多事情。

在 OSWorld-Verified 這個測試中,GPT-5.3 Codex得分 64.7%,而GPT-5.2-Codex只有38.2%。

這是一個代理計(jì)算機(jī)使用基準(zhǔn)測試,AI需要在可視化的桌面計(jì)算機(jī)環(huán)境中完成生產(chǎn)力任務(wù)。人類在這個測試中的得分約為72%,GPT-5.3 Codex已經(jīng)接近人類水平。

在網(wǎng)頁開發(fā)方面,OpenAI展示了一個對比案例:讓GPT-5.3 Codex和 GPT-5.2-Codex分別創(chuàng)建一個 SaaS 產(chǎn)品的落地頁。

GPT-5.3 Codex自動把年度套餐顯示為折扣后的月度價格,讓優(yōu)惠看起來更清晰、更有意圖,而不是簡單地把年度總價乘出來。



GPT-5.3 Codex



GPT-5.2 Codex

它還做了一個自動切換的用戶評價輪播,包含三條不同的用戶評價,而不是只有一條,讓整個頁面感覺更完整、更接近可以上線的狀態(tài)。

簡單來說,就是它會考慮用戶體驗(yàn)和營銷效果。不是機(jī)械地實(shí)現(xiàn)功能,而是會想“怎么做更好”。這種對細(xì)節(jié)的把握和對最終效果的理解,讓它做出來的東西更接近專業(yè)水平。

GPT-5.3 Codex的能力不僅限于編碼。

它支持軟件生命周期中的所有工作,比如調(diào)試、部署、監(jiān)控、編寫產(chǎn)品需求文檔、編輯文案、用戶研究、測試、指標(biāo)分析等等。

在GDPval測試中,GPT-5.3 Codex的表現(xiàn)與GPT-5.2持平,達(dá)到70.9%的勝率或平局率。這個測試衡量的是模型在 44 個職業(yè)的明確知識工作任務(wù)上的表現(xiàn),包括制作演示文稿、電子表格和其他工作產(chǎn)品。



一個有趣的細(xì)節(jié)是,兩家公司都強(qiáng)調(diào)了“自己用自己的產(chǎn)品”。Anthropic 說“我們用 Claude 來構(gòu)建 Claude”, OpenAI說“GPT-5.3 Codex在自己的開發(fā)中發(fā)揮了關(guān)鍵作用”。

這其實(shí)是最好的廣告,如果自己的工程師都不愿意用,怎么能指望別人用?

而且從技術(shù)演進(jìn)的角度看,兩個模型都代表了 AI 從“回答問題”到“完成工作”的轉(zhuǎn)變。

它們不再滿足于生成一段文字或一段代碼,而是要能夠執(zhí)行完整的工作流程,產(chǎn)出可以直接使用的交付物。這種轉(zhuǎn)變對 AI 的要求高得多:不僅要懂技術(shù),還要懂業(yè)務(wù);不僅要能做,還要做得好;不僅要快,還要穩(wěn)。

值得注意的是,兩家公司都沒有回避 AI 能力提升帶來的風(fēng)險。Anthropic 做了“有史以來最全面的安全評估”, OpenAI 部署了“最全面的網(wǎng)絡(luò)安全防護(hù)措施”。

從用戶角度看,兩家公司的競爭是好事。不同的需求可以找到不同的解決方案,不同的工作方式可以選擇不同的工具。更重要的是,競爭會推動雙方繼續(xù)創(chuàng)新,讓AI能力的邊界不斷擴(kuò)展。

而且這兩個產(chǎn)品的發(fā)布也標(biāo)志著AI進(jìn)入了一個新階段。不再是“能不能做”的問題,而是“怎么做得更好”的問題。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
堂弟結(jié)婚,大伯在家族群里要求每家必須隨禮6萬,群里沒人回他

堂弟結(jié)婚,大伯在家族群里要求每家必須隨禮6萬,群里沒人回他

浮生實(shí)錄集
2025-11-26 13:55:03
女子回湖北婆家過年,車被妯娌砸稀爛,報警后絕不和解,結(jié)局爽了

女子回湖北婆家過年,車被妯娌砸稀爛,報警后絕不和解,結(jié)局爽了

離離言幾許
2026-02-27 21:13:58
福建艦有多燒錢?電磁彈射超百億,伙食費(fèi)能供養(yǎng)一個小型國家!

福建艦有多燒錢?電磁彈射超百億,伙食費(fèi)能供養(yǎng)一個小型國家!

孤單是寂寞的毒
2026-02-27 12:40:06
年后第一個難題來了!這段父女“壓歲錢談判”火了!網(wǎng)友:怎么笑著笑著有點(diǎn)想哭

年后第一個難題來了!這段父女“壓歲錢談判”火了!網(wǎng)友:怎么笑著笑著有點(diǎn)想哭

新民晚報
2026-02-27 14:38:00
中國斥資337億,耗時14年打造瓜達(dá)爾港,為何幾乎沒有輪船????

愛吃醋的貓咪
2026-01-05 21:33:10

布達(dá)諾夫:別再幻想普京下臺,要讓俄羅斯帝國消失!

布達(dá)諾夫:別再幻想普京下臺,要讓俄羅斯帝國消失!

老馬拉車莫少裝
2026-02-27 04:45:35
果然不出所料,美不打伊朗,特朗普還派出魯比奧去摁住以色列

果然不出所料,美不打伊朗,特朗普還派出魯比奧去摁住以色列

養(yǎng)牛的大昆
2026-02-28 07:31:56
等了四天,中方終于回應(yīng)特朗普訪華,信號很明確

等了四天,中方終于回應(yīng)特朗普訪華,信號很明確

阿天愛旅行
2026-02-27 10:26:27
馬杜羅有救了?委代總統(tǒng)上任后,美國送上兩份大禮,中方重磅發(fā)聲

馬杜羅有救了?委代總統(tǒng)上任后,美國送上兩份大禮,中方重磅發(fā)聲

牛鍋巴小釩
2026-02-28 07:39:36
FIBA國際籃聯(lián)攤牌了!嘲諷中國男籃贏日本,難怪三裁判公然吹黑哨

FIBA國際籃聯(lián)攤牌了!嘲諷中國男籃贏日本,難怪三裁判公然吹黑哨

嘴炮體壇
2026-02-27 10:56:17
全程呲大牙還被狂吹捧?梅婷也帶不動,這位綜藝咖到底毀了多少戲

全程呲大牙還被狂吹捧?梅婷也帶不動,這位綜藝咖到底毀了多少戲

胡一舸南游y
2026-02-25 21:41:38
停止醫(yī)美1年后,40歲好萊塢花旦最真實(shí)一面曝光,網(wǎng)友炸了...

停止醫(yī)美1年后,40歲好萊塢花旦最真實(shí)一面曝光,網(wǎng)友炸了...

英國那些事兒
2026-02-27 23:26:43
還剩33天,魯比奧訪華機(jī)會來了?中方限制入境后,美方透露新進(jìn)展

還剩33天,魯比奧訪華機(jī)會來了?中方限制入境后,美方透露新進(jìn)展

安珈使者啊
2026-02-27 12:07:08
谷歌 Nano Banana 2 凌晨突襲!生圖速度飆升,價格直接腰斬,Pro 功能竟然全免費(fèi)了?

谷歌 Nano Banana 2 凌晨突襲!生圖速度飆升,價格直接腰斬,Pro 功能竟然全免費(fèi)了?

AI范兒
2026-02-27 05:30:19
消息稱DeepSeek V4模型讓華為等早期訪問,不讓英偉達(dá)AMD先用

消息稱DeepSeek V4模型讓華為等早期訪問,不讓英偉達(dá)AMD先用

IT之家
2026-02-27 09:25:38
印媒:美國年輕人“極致中國化”的背后

印媒:美國年輕人“極致中國化”的背后

環(huán)球網(wǎng)資訊
2026-02-28 06:57:12
67歲倪萍近照曝光,朝天鼻臉饅化,談兒子迷游戲被她勸退學(xué)很通透

67歲倪萍近照曝光,朝天鼻臉饅化,談兒子迷游戲被她勸退學(xué)很通透

科學(xué)發(fā)掘
2026-02-27 17:08:22
歐聯(lián)淘汰賽16強(qiáng)對陣:維拉vs里爾,羅馬博洛尼亞意甲內(nèi)戰(zhàn)

歐聯(lián)淘汰賽16強(qiáng)對陣:維拉vs里爾,羅馬博洛尼亞意甲內(nèi)戰(zhàn)

懂球帝
2026-02-27 20:22:13
一顆沒賣出去!英偉達(dá)H200對華銷量歸零,美國芯片鬧劇演砸了

一顆沒賣出去!英偉達(dá)H200對華銷量歸零,美國芯片鬧劇演砸了

Thurman在昆明
2026-02-27 11:22:09
凌峰:兩岸婚姻太累,七十九歲隱居泰國,妻女失聯(lián),一人孤苦伶仃

凌峰:兩岸婚姻太累,七十九歲隱居泰國,妻女失聯(lián),一人孤苦伶仃

小熊侃史
2026-02-23 13:03:54
2026-02-28 09:16:49
字母榜 incentive-icons
字母榜
讓未來不止于大。
2252文章數(shù) 8044關(guān)注度
往期回顧 全部

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

頭條要聞

牛彈琴:伊朗面臨生死存亡關(guān)鍵時刻 信號已經(jīng)很明顯了

頭條要聞

牛彈琴:伊朗面臨生死存亡關(guān)鍵時刻 信號已經(jīng)很明顯了

體育要聞

一場必須要贏的比賽,男籃何止擊敗了裁判

娛樂要聞

郭晶晶霍啟剛現(xiàn)身香港藝術(shù)節(jié)盡顯恩愛

財經(jīng)要聞

沈明高提共富建議 百姓持科技股國家兜底

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

本地
健康
手機(jī)
時尚
數(shù)碼

本地新聞

津南好·四時總相宜

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

手機(jī)要聞

vivo、榮耀、OPPO、小米節(jié)前迎利好,旗艦銷量都在增

被章若楠、秦嵐帶火的鞋子竟然是它?春天這樣穿又美又氣質(zhì)!

數(shù)碼要聞

消息稱蘋果有兩款Studio Display 2顯示器:高端機(jī)型接口更先進(jìn)

無障礙瀏覽 進(jìn)入關(guān)懷版