国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

剛剛,ChatGPT 和 Claude 同時大更新,不會給 AI 當(dāng)老板的打工人要被淘汰

0
分享至

就在剛剛,硅谷 AI 圈上演了一出「火星撞地球」。

OpenAI 和 Anthropic 像約好了一樣,同時甩出了自家的重磅更新:Claude Opus 4.6 和 GPT-5.3-Codex。

如果說昨晚之前,我們還在討論「怎么寫好 Prompt 輔助工作」;那么今天凌晨,我們可能被迫要學(xué)會「如何作為老板去管理 AI 員工」。


AI 造 AI,順便接管你的電腦

就在昨天,Sam Altman 剛在 X 平臺上凡爾賽了一把 Codex 的「百萬活躍用戶」里程碑。短短一天后,OpenAI 再次乘勝追擊,扔出王炸——GPT-5.3-Codex。

技術(shù)文檔里藏著一句極具分量的話:「這是我們第一個在創(chuàng)造自己的過程中,發(fā)揮了關(guān)鍵作用的模型。」

說人話就是:AI 已經(jīng)學(xué)會了自己寫代碼、自己找 Bug,甚至開始自己訓(xùn)練下一代的 AI 了。這種自我進(jìn)化能力,也直接體現(xiàn)在了一連串跑分?jǐn)?shù)據(jù)上。


還記得那個模擬人類操作電腦的 OSWorld-Verified 基準(zhǔn)測試嗎?前代模型只有 38.2% 的準(zhǔn)確率,連及格線都夠不上。

但這次,GPT-5.3-Codex 直接跳漲到了 64.7%!


要知道,人類的平均水平也就 72%。這意味著,AI 距離像你一樣熟練地甩鼠標(biāo)、切屏、操作軟件,只剩下一層窗戶紙的距離。

而在 Terminal-Bench 2.0(命令行操作)中,它更是拿下了 77.3% 的高分,把 GPT-5.2(62.2%)遠(yuǎn)遠(yuǎn)甩在身后。


知名 SWE-Bench Pro 基準(zhǔn)測試覆蓋四種編程語言,不僅抗污染,還全是真實(shí)世界的硬核工程難題。

GPT-5.3-Codex 在這里不僅拿下了 SOTA(最高水平),而且用的 Token 比以往任何模型都少。這意味著什么?意味著它不僅干活猛,解決問題的路徑還比人類更短、更省錢。

OpenAI 甚至展示了它獨(dú)立構(gòu)建的能力:

在幾天內(nèi),它從零構(gòu)建了一款包含多張地圖的賽車游戲 v2,順手還搞定了一款管理氧氣系統(tǒng)的深海潛水游戲。


最讓我印象深刻的是 GPT-5.3-Codex 對模糊意圖的理解。

在構(gòu)建「Quiet KPI」落地頁時,它自動把「年度計劃」換算成了「打折后的月付價格」,甚至還貼心地自動補(bǔ)充了用戶評價輪播——這一切,都不需要你下指令。


OpenAI 的野心已經(jīng)寫在臉上了:以前微軟常說 AI 將會成為人類的副駕駛(Copilot),但現(xiàn)在 AI 更想做那個能掌控方向盤、甚至能自己修車的司機(jī)。

對了,還有一個有趣的細(xì)節(jié)。

此前外界盛傳 OpenAI 對英偉達(dá)的 AI 芯片頗有微詞,但這次官方博客特地強(qiáng)調(diào):GPT-5.3-Codex 的設(shè)計、訓(xùn)練和部署都在 NVIDIA GB200 NVL72 系統(tǒng)上完成。

這一波高情商的「感謝英偉達(dá)」,屬實(shí)是給足了黃仁勛面子。


告別「金魚記憶」Claude 迎來絕地反擊

在 GPT-5.3-Codex 發(fā)布的前后腳,Anthropic 也端出了自己的春節(jié)大禮包。

壞消息是,大家期待的 Claude「中杯」Sonnet 模型沒有更新;但好消息是,Anthropic 直接端出了「超大杯」—— Claude Opus 4.6。

相比于 OpenAI 在「行動力」上的激進(jìn),Anthropic 今天發(fā)布的 Claude Opus 4.6 則是在「思考力」和「可用性」上死磕。


很多企業(yè)用戶都有一個名為 Context Rot(上下文腐蝕)的痛點(diǎn):號稱支持 200k 上下文,但塞進(jìn)去的數(shù)據(jù)一多,AI 就開始顧頭不顧尾。

這次,Claude Opus 4.6 拿出的數(shù)據(jù)簡直是「降維打擊」。

在 MRCR v2(長文本大海撈針)測試中,Claude Opus 4.6 的召回率高達(dá) 76%。

作為對比,上一代 Sonnet 4.5 只有慘不忍睹的 18.5%。從某種程度上說,這是一個從基本不可用到「高可靠」的質(zhì)變。

這是 Claude Opus 4.6 首次引入了真正可用的 1M 上下文窗口。



這意味著什么?意味著你可以把幾百頁的財報、幾十萬字的代碼庫直接扔給它,它不僅能讀完,還能精準(zhǔn)地告訴你第 342 頁腳注里的那個數(shù)字有問題。

更讓打工人眼前一亮的是它的生產(chǎn)力功能。

一方面,Anthropic 這回直接把 Claude 塞進(jìn)了 Excel 和 PowerPoint。它能根據(jù) Excel 數(shù)據(jù)直接生成 PPT,不僅保留排版風(fēng)格,連字體和模板都能對齊。在 Claude Cowork 協(xié)作環(huán)境中,它甚至能進(jìn)行自主多任務(wù)處理。

另一方面,Anthropic 順勢在 Claude Code 中推出了實(shí)驗性的 Agent Teams 功能,讓普通開發(fā)者也能體驗這種「指揮千軍萬馬」的感覺:

  • 角色分工:你可以指定一個 Claude Session 擔(dān)任 Team Lead(組長),它不干臟活累活,專門負(fù)責(zé)拆解任務(wù)、分配工單、合并代碼;其他的 Session 則是隊友(Teammates),各自領(lǐng)任務(wù)去干。
  • 獨(dú)立作戰(zhàn):每個隊友都有獨(dú)立的上下文窗口(不用擔(dān)心 Token 爆炸),它們甚至能背著你互相發(fā)消息(Inter-agent messaging),討論技術(shù)細(xì)節(jié),最后只把結(jié)果匯報給組長。
  • 并行賽馬:這東西有什么用?想象一下查一個頑固 Bug,你可以生成 5 個 Agent,分別驗證 5 種不同的假設(shè),像「賽馬」一樣并行排雷;或者在 Code Review 時,讓一個隊友扮「安全專家」查漏洞,一個扮「架構(gòu)師」看性能,互不干擾。

為了展示 Opus 4.6 的極限,Anthropic 的研究員 Nicholas Carlini 搞了個瘋狂的實(shí)驗:Agent Teams(智能體團(tuán)隊)。

他沒有親自寫代碼,而是扔了 2 萬美元 的 API 額度,讓 16 個 Claude Opus 4.6 組成一個「全自動軟件開發(fā)團(tuán)隊」。

結(jié)果在短短兩周內(nèi),這群 AI 自主進(jìn)行了 2000 多個編程會話,從零手寫了一個 10 萬行代碼的 C 語言編譯器(基于 Rust)。


這個 AI 寫的編譯器,還成功編譯了 Linux 6.9 內(nèi)核(涵蓋 x86、ARM 和 RISC-V 架構(gòu)),甚至跑通了 Doom 游戲。

雖然它還不夠完美(比如生成的代碼效率不如 GCC),但這個案例也表明我們不再是和 AI 一起編程,而是看著一個 AI 團(tuán)隊自主協(xié)作、查錯、推進(jìn)項目。

此外,它還學(xué)會了 Adaptive Thinking(自適應(yīng)推理),能根據(jù)難度自己決定「想多久」。加上新增的「智能強(qiáng)度」控制,你可以在 Low 到 Max 四檔之間切換。

定價方面,Anthropic 這次很良心,維持在每百萬 Token $5/$25 的基礎(chǔ)定價??磥硎菫榱藫屨计髽I(yè)級市場,鐵了心要和 OpenAI 卷到底。

一個是激進(jìn)天才,一個是靠譜老牛

知名 AI 評測人 Dan Shipper 在第一時間搞了個「盲測」(Vibe Check),他的評價非常精準(zhǔn):

Claude Opus 4.6 是「高上限,高方差」(High Ceiling, High Variance)。

它像是一個才華橫溢但偶爾跳脫的天才。在測試中,它直接解決了一個讓 iOS 團(tuán)隊卡了兩個月的功能難題;在 LFG Benchmark 中拿到了 9.25/10 的高分。

但它偶爾也會「過度自信」,一本正經(jīng)地胡說八道。如果你需要突破性的靈感,選它。

GPT-5.3-Codex 是「高可靠,低方差」(High Reliability, Low Variance)。

它像是一個經(jīng)驗豐富、絕不掉鏈子的資深工程師。推理速度提升 25%,幾乎不犯低級錯誤,穩(wěn)健得讓人心安。

雖然在創(chuàng)造性任務(wù)上略遜一籌(LFG 得分 7.5/10),但在日常的 Coding 和運(yùn)維任務(wù)中,它是最高效的老黃牛。如果你需要穩(wěn)定交付,選它。


時間步入 2026 年,我們的角色開始發(fā)生變化。

在這個時間節(jié)點(diǎn),對于普通用戶而言,最大的變化莫過于此:Prompt Engineering(提示詞工程)的重要性正在下降,而 Agent Management(智能體管理)的能力開始浮出水面。

當(dāng) ChatGPT 可以自主修 Bug 甚至操作你的終端,當(dāng) Claude 可以一次性吞吐 100 萬字并精準(zhǔn)定位細(xì)節(jié)時,我們不再需要像教小學(xué)生一樣,把指令拆解得碎碎念。

我們需要做的,是學(xué)會如何以「管理者」的身份,去定義目標(biāo)、審核結(jié)果、以及——決定在什么時候,把什么任務(wù)交給哪位「員工」。

這就是 2026 年的新職場:你的團(tuán)隊里混入了一群硅基天才,而你是唯一的碳基老板。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
美股暴跌至暗時刻,特朗普徹底慌了,三個感嘆號警告中國別亂來!

美股暴跌至暗時刻,特朗普徹底慌了,三個感嘆號警告中國別亂來!

朝子亥
2026-02-28 16:10:03
普京下令,俄軍發(fā)射巨型炸彈,烏克蘭大壩被炸開,美英法德失聲

普京下令,俄軍發(fā)射巨型炸彈,烏克蘭大壩被炸開,美英法德失聲

補(bǔ)懂事的孩紙
2026-02-28 06:40:39
特朗普即將就打伊朗再次講話

特朗普即將就打伊朗再次講話

界面新聞
2026-02-28 18:25:05
宇樹科技王興興首次公開披露工廠落地進(jìn)展,2025年人形機(jī)器人出貨量超5500臺

宇樹科技王興興首次公開披露工廠落地進(jìn)展,2025年人形機(jī)器人出貨量超5500臺

金融界
2026-02-28 17:50:31
天龍八部戰(zhàn)力前10排名,蕭峰第4,慕容博第10,榜首無敵了百年

天龍八部戰(zhàn)力前10排名,蕭峰第4,慕容博第10,榜首無敵了百年

武俠百曉生
2026-02-28 00:05:34
當(dāng)33歲郭曉婷遇上33歲王天辰,我才終于明白,為何說CP感是門玄學(xué)

當(dāng)33歲郭曉婷遇上33歲王天辰,我才終于明白,為何說CP感是門玄學(xué)

八卦南風(fēng)
2026-02-28 13:38:44
婚禮跟拍被避雷后續(xù):費(fèi)用1688元新娘讓退1500,攝影師回應(yīng)后爆單

婚禮跟拍被避雷后續(xù):費(fèi)用1688元新娘讓退1500,攝影師回應(yīng)后爆單

離離言幾許
2026-02-27 00:39:04
再年輕也沒用!22歲健身博主胡洪盛去世,死因曝光,曾減重90斤

再年輕也沒用!22歲健身博主胡洪盛去世,死因曝光,曾減重90斤

青梅侃史啊
2026-02-27 23:44:02
令人窒息!公公掀翻飯桌燙傷3歲孫子,就因一句咱們先吃,不等了

令人窒息!公公掀翻飯桌燙傷3歲孫子,就因一句咱們先吃,不等了

丫頭舫
2026-02-26 16:42:46
2026兩會即將召開,霍啟剛遭央媒點(diǎn)名,信息量大,郭晶晶放心了

2026兩會即將召開,霍啟剛遭央媒點(diǎn)名,信息量大,郭晶晶放心了

動物奇奇怪怪
2026-02-28 09:29:30
國防部:美方是國際核秩序和全球戰(zhàn)略穩(wěn)定最大亂源

國防部:美方是國際核秩序和全球戰(zhàn)略穩(wěn)定最大亂源

環(huán)球網(wǎng)資訊
2026-02-28 15:13:28
火箭隊利空出盡,4大理由坐穩(wěn)前三!37歲杜蘭特熬出頭烏度卡開竅

火箭隊利空出盡,4大理由坐穩(wěn)前三!37歲杜蘭特熬出頭烏度卡開竅

鍋?zhàn)踊@球
2026-02-28 19:34:23
孟良崮戰(zhàn)役勝利后,劉帥撥通粟裕的電話,詫異地問:七十四師為何還存在?

孟良崮戰(zhàn)役勝利后,劉帥撥通粟裕的電話,詫異地問:七十四師為何還存在?

史海孤雁
2026-02-28 12:09:05
被罵“后媽式早餐“的她,全網(wǎng)有100萬人在追更!

被罵“后媽式早餐“的她,全網(wǎng)有100萬人在追更!

媽咪OK
2026-02-27 15:16:05
有一種“反噬”叫劉亮和白鴿,離婚6年后,兩人的下場怪不了別人

有一種“反噬”叫劉亮和白鴿,離婚6年后,兩人的下場怪不了別人

全球風(fēng)情大揭秘
2026-02-28 13:28:19
直擊上海“王炸”樓市新政:首日迎簽約潮 溫州看房團(tuán)現(xiàn)身“全國地王”項目

直擊上?!巴跽ā睒鞘行抡菏兹沼灱s潮 溫州看房團(tuán)現(xiàn)身“全國地王”項目

中國經(jīng)營報
2026-02-28 11:18:15
苦命的謝莉斯:24歲喪母,50歲患腦梗,67歲喪女,如今因病逝世

苦命的謝莉斯:24歲喪母,50歲患腦梗,67歲喪女,如今因病逝世

娛說瑜悅
2026-02-28 16:41:45
美軍閃電撤離,伊朗或變天,特朗普開始擔(dān)心:被中方抄了后路!

美軍閃電撤離,伊朗或變天,特朗普開始擔(dān)心:被中方抄了后路!

咣當(dāng)?shù)厍?/span>
2026-02-28 19:53:28
向太向華強(qiáng)公開向佐向佑兒時視頻,向太顏值出眾被贊碾壓關(guān)之琳

向太向華強(qiáng)公開向佐向佑兒時視頻,向太顏值出眾被贊碾壓關(guān)之琳

韓小娛
2026-02-28 16:14:30
父親年前從國企退休,我以為退休金也就三四千塊錢

父親年前從國企退休,我以為退休金也就三四千塊錢

五元講堂
2026-02-25 14:26:11
2026-02-28 21:35:01
愛范兒 incentive-icons
愛范兒
消費(fèi)科技第一媒體
38471文章數(shù) 2601003關(guān)注度
往期回顧 全部

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

頭條要聞

最高領(lǐng)袖辦公室附近遭襲 媒體:伊朗領(lǐng)導(dǎo)體系仍具韌性

頭條要聞

最高領(lǐng)袖辦公室附近遭襲 媒體:伊朗領(lǐng)導(dǎo)體系仍具韌性

體育要聞

球隊主力全報銷?頂風(fēng)擺爛演都不演了

娛樂要聞

疑似王一博被爆私密聊天記錄

財經(jīng)要聞

沈明高提共富建議 百姓持科技股國家兜底

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

健康
親子
教育
旅游
公開課

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

親子要聞

萌娃堅稱自己最可愛,給出的理由讓人哭笑不得

教育要聞

成都中學(xué)生跳上春晚,幕后還有這些故事

旅游要聞

大理蒼山驚現(xiàn)“靈氣護(hù)罩”奇觀

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版