国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

剛剛,ChatGPT 和 Claude 同時(shí)大更新,不會(huì)給 AI 當(dāng)老板的打工人要被淘汰

0
分享至

就在剛剛,硅谷 AI 圈上演了一出「火星撞地球」。

OpenAI 和 Anthropic 像約好了一樣,同時(shí)甩出了自家的重磅更新:Claude Opus 4.6 和 GPT-5.3-Codex。

如果說(shuō)昨晚之前,我們還在討論怎么寫好 Prompt 輔助工作;那么今天過(guò)后,我們可能需要學(xué)會(huì)如何作為老板去管理 AI 員工。


AI 造 AI,順便接管你的電腦

就在昨天,Sam Altman 剛在 X 平臺(tái)上凡爾賽了一把 Codex 的「百萬(wàn)活躍用戶」里程碑。短短一天后,OpenAI 再次乘勝追擊,扔出王炸——

GPT-5.3-Codex。

技術(shù)文檔里藏著一句極具分量的話:「這是我們第一個(gè)在創(chuàng)造自己的過(guò)程中,發(fā)揮了關(guān)鍵作用的模型?!?/p>

說(shuō)人話就是:AI 已經(jīng)學(xué)會(huì)了自己寫代碼、自己找 Bug,甚至開(kāi)始自己訓(xùn)練下一代的 AI 了。這種自我進(jìn)化能力,也直接體現(xiàn)在了一連串跑分?jǐn)?shù)據(jù)上。

還記得那個(gè)模擬人類操作電腦的 OSWorld-Verified 基準(zhǔn)測(cè)試嗎?前代模型只有 38.2% 的準(zhǔn)確率,連及格線都?jí)虿簧?。但這次,GPT-5.3-Codex 直接跳漲到了 64.7%。


要知道,人類的平均水平也就 72%。這意味著,AI 距離像你一樣熟練地甩鼠標(biāo)、切屏、操作軟件,只剩下一層窗戶紙的距離。

而在 Terminal-Bench 2.0(命令行操作基準(zhǔn)測(cè)試)中,它更是拿下了 77.3% 的高分,把 GPT-5.2(62.2%)遠(yuǎn)遠(yuǎn)甩在身后。


在覆蓋四種編程語(yǔ)言,不僅抗污染,還全是真實(shí)世界的硬核工程難題的 SWE-Bench Pro 基準(zhǔn)測(cè)試中, GPT-5.3-Codex 也表現(xiàn)出了 SOTA 水準(zhǔn), 而且用的 Token 比以往任何模型都少。


OpenAI 甚至展示了它獨(dú)立構(gòu)建的能力:

在幾天內(nèi),它從零構(gòu)建了一款包含多張地圖的賽車游戲 v2,順手還搞定了一款管理氧氣系統(tǒng)的深海潛水游戲。


最讓我印象深刻的是 GPT-5.3-Codex 對(duì)模糊意圖的理解。

在構(gòu)建落地頁(yè)時(shí),它自動(dòng)把年度計(jì)劃換算成了打折后的月付價(jià)格,甚至還貼心地自動(dòng)補(bǔ)充了用戶評(píng)價(jià)輪播——這一切,都不需要你下指令。


OpenAI 的野心已經(jīng)寫在臉上了:以前微軟常說(shuō) AI 將會(huì)成為人類的副駕駛(Copilot),但現(xiàn)在 AI 更想做那個(gè)能掌控方向盤、甚至能自己修車的司機(jī)。

對(duì)了,還有一個(gè)有趣的細(xì)節(jié)。

此前外界盛傳 OpenAI 對(duì)英偉達(dá)的 AI 芯片頗有微詞,但這次官方博客特地強(qiáng)調(diào):GPT-5.3-Codex 的設(shè)計(jì)、訓(xùn)練和部署都在 NVIDIA GB200 NVL72 系統(tǒng)上完成。

這一波高情商的「感謝英偉達(dá)」,屬實(shí)是給足了黃仁勛面子。


告別「金魚記憶」Claude 迎來(lái)絕地反擊

在 GPT-5.3-Codex 發(fā)布的前后腳,Anthropic 也端出了自己的春節(jié)大禮包。

壞消息是,大家期待的 Claude「中杯」Sonnet 模型沒(méi)有更新;但好消息是,Anthropic 直接端出了「超大杯」—— Claude Opus 4.6。


相比于 OpenAI 在行動(dòng)力上的激進(jìn),Anthropic 今天發(fā)布的 Claude Opus 4.6 則是在思考力和可靠性上死磕。


很多企業(yè)用戶都有一個(gè)名為 Context Rot(上下文腐蝕)的痛點(diǎn):號(hào)稱支持 200k 上下文,但塞進(jìn)去的數(shù)據(jù)一多,AI 就開(kāi)始顧頭不顧尾。

這次,Claude Opus 4.6 拿出的數(shù)據(jù)簡(jiǎn)直是「降維打擊」。

在 MRCR v2(長(zhǎng)文本大海撈針)測(cè)試中,Claude Opus 4.6 的召回率高達(dá) 76%。

作為對(duì)比,上一代 Sonnet 4.5 只有慘不忍睹的 18.5%。從某種程度上說(shuō),這是一個(gè)從基本不可用到高可靠的質(zhì)變。

這是因?yàn)?Claude Opus 4.6 首次引入了真正可用的 1M 上下文窗口。



這意味著什么?意味著你可以把幾百頁(yè)的財(cái)報(bào)、幾十萬(wàn)字的代碼庫(kù)直接扔給它,它不僅能讀完,還能精準(zhǔn)地告訴你第 342 頁(yè)腳注里的那個(gè)數(shù)字有問(wèn)題。

此外,它現(xiàn)在還支持最高 128k 的輸出 Token。什么概念?你可以讓它一次性寫完長(zhǎng)篇研報(bào)或復(fù)雜的代碼庫(kù),而不用因?yàn)樽謹(jǐn)?shù)限制被迫截?cái)唷?/p>

除了記性好,Opus 4.6 這次還在智商上實(shí)現(xiàn)了碾壓:

在 GDPval-AA(一項(xiàng)針對(duì)金融、法律等高經(jīng)濟(jì)價(jià)值任務(wù)的評(píng)估)中,Opus 4.6 的 Elo 得分比業(yè)界第二(OpenAI 的 GPT-5.2)高出了整整 144 分,比前代更是高出 190 分。

在復(fù)雜的多學(xué)科推理測(cè)試 Humanity's Last Exam 中,它領(lǐng)先所有前沿模型。

在測(cè)試尋找互聯(lián)網(wǎng)「難找信息」能力的 BrowseComp 中,它同樣表現(xiàn)最優(yōu)。


通過(guò)這些數(shù)據(jù),Anthropic 似乎在傳遞一個(gè)信號(hào):如果你要寫代碼,去隔壁找 OpenAI;如果你要處理復(fù)雜的商業(yè)決策、法律文書或金融分析,Claude 才是唯一的選擇。

更讓打工人眼前一亮的是它的生產(chǎn)力功能。

一方面,Anthropic 這回直接把 Claude 塞進(jìn)了 Excel 和 PowerPoint。它能根據(jù) Excel 數(shù)據(jù)直接生成 PPT,不僅保留排版風(fēng)格,連字體和模板都能對(duì)齊。 在 Claude Cowork 協(xié)作環(huán)境中,它甚至能進(jìn)行自主多任務(wù)處理。


另一方面,Anthropic 順勢(shì)在 Claude Code 中推出了實(shí)驗(yàn)性的 Agent Teams 功能,讓普通開(kāi)發(fā)者也能體驗(yàn)這種「指揮千軍萬(wàn)馬」的感覺(jué):

角色分工:你可以指定一個(gè) Claude Session 擔(dān)任 Team Lead(組長(zhǎng)),它不干臟活累活,專門負(fù)責(zé)拆解任務(wù)、分配工單、合并代碼;其他的 Session 則是隊(duì)友(Teammates),各自領(lǐng)任務(wù)去干。

獨(dú)立作戰(zhàn):每個(gè)隊(duì)友都有獨(dú)立的上下文窗口(不用擔(dān)心 Token 爆炸),它們甚至能背著你互相發(fā)消息(Inter-agent messaging),討論技術(shù)細(xì)節(jié),最后只把結(jié)果匯報(bào)給組長(zhǎng)。

并行賽馬:這東西有什么用?想象一下查一個(gè)頑固 Bug,你可以生成 5 個(gè) Agent,分別驗(yàn)證 5 種不同的假設(shè),像「賽馬」一樣并行排雷;或者在 Code Review 時(shí),讓一個(gè)隊(duì)友扮「安全專家」查漏洞,一個(gè)扮「架構(gòu)師」看性能,互不干擾。

為了展示 Opus 4.6 的極限,Anthropic 的研究員 Nicholas Carlini 搞了個(gè)瘋狂的實(shí)驗(yàn):Agent Teams(智能體團(tuán)隊(duì))。

他沒(méi)有親自寫代碼,而是扔了 2 萬(wàn)美元 的 API 額度,讓 16 個(gè) Claude Opus 4.6 組成一個(gè)「全自動(dòng)軟件開(kāi)發(fā)團(tuán)隊(duì)」。

結(jié)果在短短兩周內(nèi),這群 AI 自主進(jìn)行了 2000 多個(gè)編程會(huì)話,從零手寫了一個(gè) 10 萬(wàn)行代碼的 C 語(yǔ)言編譯器(基于 Rust)。


這個(gè) AI 寫的編譯器,還成功編譯了 Linux 6.9 內(nèi)核(涵蓋 x86、ARM 和 RISC-V 架構(gòu)),甚至跑通了 Doom 游戲。

雖然它還不夠完美(比如生成的代碼效率不如 GCC),但這個(gè)案例也表明我們不再是和 AI 一起編程,而是看著一個(gè) AI 團(tuán)隊(duì)自主協(xié)作、查錯(cuò)、推進(jìn)項(xiàng)目。

此外,它還學(xué)會(huì)了 Adaptive Thinking(自適應(yīng)推理),能根據(jù)難度自己決定「想多久」。加上新增的「智能強(qiáng)度」控制,你可以在 Low 到 Max 四檔之間切換。

定價(jià)方面,Anthropic 這次很良心,維持在每百萬(wàn) Token $5/$25 的基礎(chǔ)定價(jià)。看來(lái)是為了搶占企業(yè)級(jí)市場(chǎng),鐵了心要和 OpenAI 卷到底。


一個(gè)是激進(jìn)天才,一個(gè)是靠譜老牛

知名 AI 評(píng)測(cè)人 Dan Shipper 在第一時(shí)間搞了個(gè)「盲測(cè)」(Vibe Check),他的評(píng)價(jià)非常精準(zhǔn):

Claude Opus 4.6 是「高上限,高方差」(High Ceiling, High Variance)。

它像是一個(gè)才華橫溢但偶爾跳脫的天才。在測(cè)試中,它直接解決了一個(gè)讓 iOS 團(tuán)隊(duì)卡了兩個(gè)月的功能難題;在 LFG Benchmark 中拿到了 9.25/10 的高分。

但它偶爾也會(huì)「過(guò)度自信」,一本正經(jīng)地胡說(shuō)八道。如果你需要突破性的靈感,選它。


GPT-5.3-Codex 則是「高可靠,低方差」(High Reliability, Low Variance)。

它像是一個(gè)經(jīng)驗(yàn)豐富、絕不掉鏈子的資深工程師。推理速度提升 25%,幾乎不犯低級(jí)錯(cuò)誤,穩(wěn)健得讓人心安。

雖然在創(chuàng)造性任務(wù)上略遜一籌(LFG 得分 7.5/10),但在日常的 Coding 和運(yùn)維任務(wù)中,它是最高效的老黃牛。


當(dāng)然,比起選擇哪款模型,更重要的是,當(dāng) ChatGPT 可以自主修 Bug 甚至操作你的終端,當(dāng) Claude 可以一次性吞吐海量文檔并精準(zhǔn)定位細(xì)節(jié)時(shí),Prompt Engineering(提示詞工程)的重要性正在下降,而 Agent Management(智能體管理)的能力開(kāi)始浮出水面。

我們不再需要像教小學(xué)生一樣,把指令拆解得碎碎念。相反,我們需要做的,是學(xué)會(huì)如何以管理者的身份,去定義目標(biāo)、審核結(jié)果、以及決定在什么時(shí)候,把什么任務(wù)交給哪位 AI 員工。

這就是 2026 年的新職場(chǎng)。你的團(tuán)隊(duì)里混入了一群硅基天才,而你是唯一的碳基老板。

歡迎加入 APPSO AI 社群,一起暢聊 AI 產(chǎn)品,獲取,解鎖更多 AI 新知

我們正在招募伙伴

簡(jiǎn)歷投遞郵箱hr@ifanr.com

?? 郵件標(biāo)題「姓名+崗位名稱」(請(qǐng)隨簡(jiǎn)歷附上項(xiàng)目/作品或相關(guān)鏈接)


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
外形酷似飛碟!全球首創(chuàng)涵道式噸級(jí)飛行器3秒起飛

外形酷似飛碟!全球首創(chuàng)涵道式噸級(jí)飛行器3秒起飛

快科技
2026-02-25 22:37:10
iPhone 17e傳聞曝光:A19芯片、MagSafe支持與動(dòng)態(tài)島新設(shè)計(jì)!

iPhone 17e傳聞曝光:A19芯片、MagSafe支持與動(dòng)態(tài)島新設(shè)計(jì)!

時(shí)尚的弄潮
2026-02-27 00:54:48
外國(guó)網(wǎng)民破防,美國(guó)制裁宇樹機(jī)器人,美媒一句話讓特朗普下不來(lái)臺(tái)

外國(guó)網(wǎng)民破防,美國(guó)制裁宇樹機(jī)器人,美媒一句話讓特朗普下不來(lái)臺(tái)

墨蘭史書
2026-02-25 23:06:50
宋彬彬晚年回國(guó)道歉仍不被原諒,其父宋任窮也不愿提起她,為何

宋彬彬晚年回國(guó)道歉仍不被原諒,其父宋任窮也不愿提起她,為何

春秋硯
2026-02-24 12:25:08
卡里克放大招!曼聯(lián) 34 歲功勛該讓位,19 歲新博格巴要搶班奪權(quán)

卡里克放大招!曼聯(lián) 34 歲功勛該讓位,19 歲新博格巴要搶班奪權(quán)

瀾歸序
2026-02-26 06:28:03
那么大的房企,怎么說(shuō)崩就崩了?

那么大的房企,怎么說(shuō)崩就崩了?

流蘇晚晴
2026-02-24 18:57:27
越扒越勁爆!釋永信在少林寺的奢靡生活,你想都不敢想!

越扒越勁爆!釋永信在少林寺的奢靡生活,你想都不敢想!

來(lái)科點(diǎn)譜
2026-02-26 07:22:10
默茨專機(jī)抵京,拿下兩個(gè)第一,中方僅給兩天時(shí)間,并送出一條忠告

默茨專機(jī)抵京,拿下兩個(gè)第一,中方僅給兩天時(shí)間,并送出一條忠告

薦史
2026-02-25 20:46:55
一人毀了整部??!《純真年代的愛(ài)情》的大敗筆,就是這2位戲混子

一人毀了整部?。 都冋婺甏膼?ài)情》的大敗筆,就是這2位戲混子

科學(xué)發(fā)掘
2026-02-26 11:26:28
美國(guó)女議員:谷愛(ài)凌生在美國(guó)卻不尊重美國(guó) 不回中國(guó)還要回美國(guó)

美國(guó)女議員:谷愛(ài)凌生在美國(guó)卻不尊重美國(guó) 不回中國(guó)還要回美國(guó)

念洲
2026-02-26 08:33:10
巴拿馬總統(tǒng)慌了,他才發(fā)現(xiàn):強(qiáng)吞中國(guó)18億資產(chǎn),居然是自尋死路

巴拿馬總統(tǒng)慌了,他才發(fā)現(xiàn):強(qiáng)吞中國(guó)18億資產(chǎn),居然是自尋死路

北緯的咖啡豆
2026-02-26 19:33:11
春晚結(jié)束9天,《吉量》秘密被曝:招募者被舉報(bào)、小演員長(zhǎng)年輸血

春晚結(jié)束9天,《吉量》秘密被曝:招募者被舉報(bào)、小演員長(zhǎng)年輸血

仙味少女心
2026-02-25 21:46:31
2026年春季開(kāi)學(xué)重磅調(diào)整!中小學(xué)取消強(qiáng)制早自習(xí)推遲到校

2026年春季開(kāi)學(xué)重磅調(diào)整!中小學(xué)取消強(qiáng)制早自習(xí)推遲到校

老特有話說(shuō)
2026-02-25 22:44:45
春節(jié)檔出了海才知道誰(shuí)牛:票房是《驚蟄》10倍,吳京又給咱長(zhǎng)臉了

春節(jié)檔出了海才知道誰(shuí)牛:票房是《驚蟄》10倍,吳京又給咱長(zhǎng)臉了

娛樂(lè)故事
2026-02-25 18:39:28
別等“假惠民?!弊龃?,才站出來(lái)“打鬼”

別等“假惠民?!弊龃?,才站出來(lái)“打鬼”

馮海寧
2026-02-26 23:49:27
3勝1負(fù)難掩戰(zhàn)術(shù)乏力!豪門包袱拖垮利物浦,英超爭(zhēng)四成終極考驗(yàn)

3勝1負(fù)難掩戰(zhàn)術(shù)乏力!豪門包袱拖垮利物浦,英超爭(zhēng)四成終極考驗(yàn)

銳評(píng)利物浦
2026-02-27 00:19:30
七八十年代流行全國(guó)的“的確良”,為何突然消失了?其實(shí)它改了名

七八十年代流行全國(guó)的“的確良”,為何突然消失了?其實(shí)它改了名

云霄紀(jì)史觀
2026-01-06 02:00:19
著急了,美國(guó)富豪放狠話:西方必須抱團(tuán),否則中國(guó)將成為超級(jí)大國(guó)

著急了,美國(guó)富豪放狠話:西方必須抱團(tuán),否則中國(guó)將成為超級(jí)大國(guó)

通文知史
2026-02-26 23:30:03
WTT新加坡大滿貫:國(guó)乒爆冷全軍覆沒(méi),1-3負(fù)日本已丟兩冠

WTT新加坡大滿貫:國(guó)乒爆冷全軍覆沒(méi),1-3負(fù)日本已丟兩冠

眼底星碎
2026-02-27 01:23:32
奧運(yùn)會(huì)為什么發(fā)避孕套?難道運(yùn)動(dòng)員都帶伴侶嗎?看完你就明白了!

奧運(yùn)會(huì)為什么發(fā)避孕套?難道運(yùn)動(dòng)員都帶伴侶嗎?看完你就明白了!

南權(quán)先生
2026-02-13 15:17:51
2026-02-27 02:16:50
AppSo incentive-icons
AppSo
讓智能手機(jī)更好用的秘密
6134文章數(shù) 26788關(guān)注度
往期回顧 全部

科技要聞

單季營(yíng)收681億凈利429億!英偉達(dá)再次炸裂

頭條要聞

美國(guó)政府對(duì)外交官下令:開(kāi)始行動(dòng)

頭條要聞

美國(guó)政府對(duì)外交官下令:開(kāi)始行動(dòng)

體育要聞

從排球少女到冰壺女神,她在米蘭冬奧練出6塊腹肌

娛樂(lè)要聞

向華強(qiáng)公開(kāi)表態(tài) 財(cái)產(chǎn)留給兒媳婦郭碧婷

財(cái)經(jīng)要聞

中國(guó)AI調(diào)用量超美國(guó) 4款大模型霸榜前5

汽車要聞

40歲的吉利,不惑于內(nèi)外

態(tài)度原創(chuàng)

藝術(shù)
本地
時(shí)尚
數(shù)碼
公開(kāi)課

藝術(shù)要聞

莫妮卡、麥當(dāng)娜……這個(gè)法國(guó)女人拍遍了全世界的性感女神!

本地新聞

津南好·四時(shí)總相宜

今年春天最美搭配:西裝+半裙,怎么穿都好看!

數(shù)碼要聞

499元!小米智能室外攝像機(jī)4 4G雙攝版發(fā)布:內(nèi)置聯(lián)通/電信SIM卡 流量免費(fèi)

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版