国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

OpenAI、Anthropic發(fā)新模型,一個替你寫代碼,一個替公司管流程

0
分享至

凌晨,Anthropic和OpenAI同時上線了新模型Claude Opus 4.6和GPT-5.3-Codex,給兩家企業(yè)本就在為超級碗廣告互嗆的激烈氣氛又添了一把柴火。當(dāng)全美觀眾還在為它倆斥資數(shù)百萬美元投放的互懟廣告津津樂道時,它們已經(jīng)殺到了同日發(fā)新模型這樣的正面交鋒戰(zhàn)場上。

Anthropic發(fā)布Claude Opus 4.6:搭載處于Beta階段的1M上下文窗口

Anthropic發(fā)布了Claude Opus 4.6,其并非僅僅是參數(shù)量的增加,而是在多個關(guān)鍵維度上實現(xiàn)了實質(zhì)性的更聰明和更可用。一個值得關(guān)注的亮點是它那處于Beta階段的1M上下文窗口。過去的模型在處理極長文本時,經(jīng)常出現(xiàn)上下文腐化的問題,即模型性能隨著文本長度增加而顯著下降,導(dǎo)致它忘記或者混淆較早之前的信息。

而Claude Opus 4.6在著名的大海撈針基準(zhǔn)測試MRCR v2上,成績達到了76%,遠超前代Sonnet 4.5的18.5%,這證明它能夠真正有效地利用超長下文,在海量文檔中精準(zhǔn)定位并提取被深埋的關(guān)鍵信息,從而勝任大型代碼庫分析、多篇論文綜述、跨會話長程任務(wù)規(guī)劃等場景。


(來源:https://www.anthropic.com/news/claude-opus-4-6)

在推理能力和編碼能力上,Claude Opus 4.6在多項權(quán)威基準(zhǔn)測試中確立了行業(yè)領(lǐng)先地位,特別是在需要自主規(guī)劃和多步執(zhí)行的智能體編碼任務(wù)上。比如,在Terminal-Bench 2.0中它的測試成績排名第一。

實際表現(xiàn)就是,當(dāng)你交給它一個復(fù)雜的開發(fā)任務(wù)時間,它會進行更加審慎的規(guī)劃,對代碼進行更加徹底的自我審查和自我調(diào)試,并能在大型項目中保持更好的方向感和一致性。也就是說不再是簡單地生成一段代碼,實際上是在扮演一個更有經(jīng)驗的開發(fā)者角色。

為了讓這種深度能力更加容易被調(diào)控,Anthropic引入了努力程度(Effort)控制參數(shù),開發(fā)者現(xiàn)在可以在低、中、高、最大這四個級別中進行選擇。

在高模式或者最大模式下,模型會投入更多計算資源進行深度思考,非常適合解決一些棘手問題;而對于簡單的查詢,切換到中模式或者低模式則可以獲得更快的響應(yīng)并能降低成本。與之配套的自適應(yīng)思考功能,則允許模型根據(jù)上下文自行判斷何時需要啟動深度推理,進一步提高了靈活性。

為了解決長會話或智能體任務(wù)中必然遇到的上文長度限制問題,API還能提供上下文壓縮Beta功能。當(dāng)對話接近預(yù)設(shè)的token閾值時,模型會自動將較早的上下文進行智能摘要并替換,從而為新的交互騰出空間,讓超長程任務(wù)成為了可能,而不僅僅是理論上地支持長上下文。


(來源:https://www.anthropic.com/news/claude-opus-4-6)

在應(yīng)用層,Claude正在深度融入生產(chǎn)力工具鏈。Claude Code引入了智能體團體的研究預(yù)覽功能,允許創(chuàng)建多個協(xié)同工作的AI智能體來并行處理任務(wù),例如同時對代碼庫的不同模塊進行審查。

而對于更廣泛的辦公場景,Claude in Excel和全新推出的Claude in PowerPoint研究預(yù)覽版,將模型的推理能力和生成能力直接嵌入到電子表格和幻燈片制作中。它能執(zhí)行公式操作,也能通過理解你的數(shù)據(jù)意圖進行多步規(guī)劃;在PPT中,它可以理解企業(yè)品牌模板和字體,生成風(fēng)格一致的內(nèi)容。

安全與能力對齊一直是Anthropic的重點之一。據(jù)了解,Opus 4.6在保持與頂尖模型相當(dāng)?shù)陌踩雷o水平的同時,其過度拒絕的概率降低到了近期Claude模型中的最低點。這意味著它在有效攔截有害請求的同時,對于普通問題和良性問題的回應(yīng)更加開放和有用。針對該模型的網(wǎng)絡(luò)安全能力,Anthropic也專門開發(fā)了新的檢測探針,并將其用于輔助發(fā)現(xiàn)和修復(fù)開源軟件漏洞等防御性用途。

總的來說,Claude Opus 4.6一定程度上代表著大模型正從對話式問答工具向可承擔(dān)復(fù)雜工作的智能體伙伴演進。它對于超長上下文的實用化支持、精細(xì)化的推理控制、以及深度集成的工作流,能夠進一步地提高用戶效率。

OpenAI推出GPT-5.3-Codex:可能是目前最強大的智能體編碼模型

OpenAI此次推出的是GPT-5.3-Codex,被稱為是迄今為止最強大的智能體編碼模型,能夠獨立接管涉及研究、工具使用和復(fù)雜執(zhí)行的長期任務(wù)。也就是說,一個可以持續(xù)工作數(shù)天之久、可以從零開始構(gòu)建出復(fù)雜游戲應(yīng)用的AI誕生了,在它工作的過程中你可以隨時和其對話并調(diào)整工作方向,無需擔(dān)心失去長上下文記憶。


(來源:https://openai.com/index/introducing-gpt-5-3-codex/)

在多項關(guān)鍵基準(zhǔn)測試中,GPT-5.3-Codex都創(chuàng)下了新的行業(yè)紀(jì)錄,以77.3%的準(zhǔn)確率大幅超越了前代模型在衡量終端編程技能的Terminal-Bench 2.0基準(zhǔn)測試上的表現(xiàn),并在更嚴(yán)格的、涵蓋多語言的SWE-Bench Pro軟件工程測評中達到了領(lǐng)先水平。

GPT-5.3-Codex的能力邊界已經(jīng)從純粹的編碼拓展到整個知識工作領(lǐng)域。在衡量真實世界職業(yè)任務(wù)的GDPval評估中,其表現(xiàn)能力與OpenAI的通用旗艦?zāi)P虶PT-5.2相當(dāng)。在制作金融分析PPT、設(shè)計零售培訓(xùn)文檔以及編寫商業(yè)計劃書中,GPT-5.3-Codex能夠輸出專業(yè)的可使用內(nèi)容。


(來源:https://openai.com/index/introducing-gpt-5-3-codex/)

OpenAI透露,GPT-5.3-Codex的開發(fā)過程本身就是一個自我實現(xiàn)的范例,OpenAI利用該模型的早期版本來調(diào)試其自身的訓(xùn)練過程、管理部署并診斷測試結(jié)果,加速了整個模型的研發(fā)周期。總結(jié)來說,GPT-5.3-Codex的推出讓AI進一步地從一個等待指令的編程工具轉(zhuǎn)變?yōu)橐粋€能主動思考、跨領(lǐng)域執(zhí)行并與人類實時協(xié)作的電腦伙伴。

急于變現(xiàn)?OpenAI推出AI企業(yè)級產(chǎn)品Frontier

如果說這次同一天發(fā)布新品,OpenAI的贏點之一或許在多發(fā)了一樣新品,那就是企業(yè)級產(chǎn)品Frontier。它不是一個大模型,是一個專門為企業(yè)打造的、可用于規(guī)?;瘶?gòu)建、能夠部署和管理AI智能體的平臺。它的核心目標(biāo)是將模型能力,真正轉(zhuǎn)化為企業(yè)內(nèi)可協(xié)同、可管控、能直接創(chuàng)造價值的AI同事。


(來源:https://openai.com/index/introducing-openai-frontie)

過去幾年,盡管許多企業(yè)嘗試引入AI,但往往陷入了試點困境,一個個獨立的AI應(yīng)用像孤島一樣,缺乏對于企業(yè)整體業(yè)務(wù)背景的理解,難以融入核心流程。Frontier旨在解決這一問題,它為企業(yè)AI智能體提供了四大關(guān)鍵支撐:共享的業(yè)務(wù)背景理解、可靠的執(zhí)行環(huán)境、持續(xù)的學(xué)習(xí)優(yōu)化機制,以及明確的身份權(quán)限和安全邊界。

簡單來說,F(xiàn)rontier試圖像培訓(xùn)一位剛?cè)肼毜男聠T工一樣,來配置一個AI智能體。它會打通企業(yè)內(nèi)部固有的數(shù)據(jù)倉庫、CRM系統(tǒng)和內(nèi)部應(yīng)用,讓AI理解信息如何流動、決策在何處產(chǎn)生。

在此基礎(chǔ)之上,AI智能體可以在一個受控的執(zhí)行環(huán)境中,使用工具、運行代碼、處理文件,從而能夠?qū)嶋H地完成各種知識工作任務(wù),并在過程中積累記憶,以便能夠越做越好而不是越做越差。同時,每個AI智能體都擁有獨立的身份和明確的權(quán)限護欄,確保其在敏感環(huán)境和受監(jiān)管的環(huán)境里也能被安全地使用。

目前,OpenAI已經(jīng)和惠普、甲骨文以及Uber等企業(yè)合作。OpenAI還舉了和一家大型制造商合作的案例,通過部署基于Frontier的智能體,后者將生產(chǎn)優(yōu)化分析工作從六周縮短到了一天。

其實也可以看出,OpenAI的變現(xiàn)愿望是非常強的,此次伴隨新模型一并推出Frontier,也反映出其戰(zhàn)略重心正從提供單一的模型API轉(zhuǎn)向深入的企業(yè)復(fù)雜工作量,深入到提供端到端解決方案的地步。對于希望將AI轉(zhuǎn)化為實際競爭優(yōu)勢的企業(yè)而言,F(xiàn)rontier或許是一個值得關(guān)注的備選方案。

而這一凌晨對決何嘗不是一個新的超級碗時刻?Anthropic的創(chuàng)始人本來就是OpenAI的前員工,讓這一對決更是增加了火藥味。

整體來看,Claude Opus 4.6的核心優(yōu)勢在于精細(xì)控制和可靠性,GPT-5.3-Codex則展現(xiàn)了OpenAI的系統(tǒng)整合能力。前者勝在深度和可靠,后者強在廣度和進化速度。未來到底孰強孰弱,主要還看誰家產(chǎn)品能夠轉(zhuǎn)化為真正不可替代的產(chǎn)業(yè)發(fā)展成果。

參考資料:

https://www.anthropic.com/news/claude-opus-4-6

https://openai.com/index/introducing-gpt-5-3-codex/

https://openai.com/index/introducing-openai-frontier/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

深度報
2025-12-14 22:36:54
調(diào)查顯示歐美關(guān)系緊張之際 荷蘭投資者減少對美投資

調(diào)查顯示歐美關(guān)系緊張之際 荷蘭投資者減少對美投資

財聯(lián)社
2026-02-27 16:24:04
黎智英女兒:懇請谷愛凌為父發(fā)聲后,不到24小時,港府回應(yīng)了!

黎智英女兒:懇請谷愛凌為父發(fā)聲后,不到24小時,港府回應(yīng)了!

閱微札記
2026-02-26 19:54:32
江蘇30年前的老酒廠白酒,現(xiàn)在已經(jīng)停產(chǎn),能全認(rèn)識的都是資深酒友

江蘇30年前的老酒廠白酒,現(xiàn)在已經(jīng)停產(chǎn),能全認(rèn)識的都是資深酒友

阿天愛旅行
2026-02-27 01:28:19
廣東宏遠新外援?身高2米18的NBA落選秀,單場21分23籃板

廣東宏遠新外援?身高2米18的NBA落選秀,單場21分23籃板

籃球看比賽
2026-02-27 13:59:20
據(jù)悉日內(nèi)瓦談判上午時段伊朗所告知內(nèi)容令美方“失望”

據(jù)悉日內(nèi)瓦談判上午時段伊朗所告知內(nèi)容令美方“失望”

財聯(lián)社
2026-02-27 02:59:08
不被任何人拿捏的頂級思維:不要回答別人的問題,要回答別人的目的

不被任何人拿捏的頂級思維:不要回答別人的問題,要回答別人的目的

古代經(jīng)典
2026-02-25 15:40:12
體制內(nèi)情商高能帶來啥意外驚喜?網(wǎng)友:別在地鐵看,別問我為什么

體制內(nèi)情商高能帶來啥意外驚喜?網(wǎng)友:別在地鐵看,別問我為什么

帶你感受人間冷暖
2026-02-24 01:03:13
春晚已經(jīng)播完8天了,這5人成最大受益者,有人從低谷成功翻身!

春晚已經(jīng)播完8天了,這5人成最大受益者,有人從低谷成功翻身!

叨嘮
2026-02-24 17:38:34
美媒感慨:若不是中國還在反抗特朗普,幾乎全世界都向他投降了

美媒感慨:若不是中國還在反抗特朗普,幾乎全世界都向他投降了

悅心知足
2026-02-21 23:03:46
賈淺淺《開花》被獲得全國詩歌一等獎的詩,寫出了女性的原始欲

賈淺淺《開花》被獲得全國詩歌一等獎的詩,寫出了女性的原始欲

讀睡
2026-02-20 16:29:43
這就是巨星坯子?愛德華茲不聽?wèi)?zhàn)術(shù)自己干,命中后霸氣回嗆主教練

這就是巨星坯子?愛德華茲不聽?wèi)?zhàn)術(shù)自己干,命中后霸氣回嗆主教練

大眼瞄世界
2026-02-27 14:48:29
弗里克將迎執(zhí)教巴薩百場里程碑,前99場輸球第5少&丟球第3多

弗里克將迎執(zhí)教巴薩百場里程碑,前99場輸球第5少&丟球第3多

懂球帝
2026-02-27 16:33:32
臺軍女飛行員郭文靜:只要長官敢下令,我會毫不猶豫的擊落殲20!

臺軍女飛行員郭文靜:只要長官敢下令,我會毫不猶豫的擊落殲20!

顧史
2026-01-21 21:04:39
聞泰出手,讓安世中國區(qū)獨大,默茨倒戈,中德聯(lián)手給荷蘭判死刑

聞泰出手,讓安世中國區(qū)獨大,默茨倒戈,中德聯(lián)手給荷蘭判死刑

梁訊
2026-02-27 09:50:11
中國游客在米蘭被請求幫買酥心糖 網(wǎng)友接力投喂

中國游客在米蘭被請求幫買酥心糖 網(wǎng)友接力投喂

看看新聞Knews
2026-02-27 15:04:06
女航天員王亞平,因工作常年沒回家,和丈夫的關(guān)系一句話道出真相

女航天員王亞平,因工作常年沒回家,和丈夫的關(guān)系一句話道出真相

掉了顆大白兔糖
2026-02-25 07:07:28
沉默整整9天,毛寧一錘定音,中美戰(zhàn)機已交手,美方要見中國代表

沉默整整9天,毛寧一錘定音,中美戰(zhàn)機已交手,美方要見中國代表

墨蘭史書
2026-02-26 18:59:24
才播4集熱度破21000,蔣欣令觀眾成功入坑,國產(chǎn)都市劇又出黑馬

才播4集熱度破21000,蔣欣令觀眾成功入坑,國產(chǎn)都市劇又出黑馬

銀河史記
2026-02-27 16:10:02
字節(jié)震驚世界,估值38000億

字節(jié)震驚世界,估值38000億

新行情
2026-02-27 15:11:37
2026-02-27 17:24:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16330文章數(shù) 514661關(guān)注度
往期回顧 全部

科技要聞

單張不到五毛!谷歌深夜發(fā)布Nano Banana 2

頭條要聞

24歲女子生下1男4女五胞胎 孩子爸爸稱"心情像過山車"

頭條要聞

24歲女子生下1男4女五胞胎 孩子爸爸稱"心情像過山車"

體育要聞

一場必須要贏的比賽,男籃何止擊敗了裁判

娛樂要聞

繼網(wǎng)暴谷愛凌后 美國欲沒收其全部收入

財經(jīng)要聞

沈明高提共富建議 百姓持科技股國家兜底

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

房產(chǎn)
家居
數(shù)碼
公開課
軍事航空

房產(chǎn)要聞

重磅!海南“十五五”規(guī)劃出爐!未來五年,方向定了!

家居要聞

素色肌理 品意式格調(diào)

數(shù)碼要聞

羅技G聯(lián)名邁凱倫推出限量碳纖維鼠標(biāo):全球限量25只

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美國11架F-22隱形戰(zhàn)機抵達以色列

無障礙瀏覽 進入關(guān)懷版