国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

OpenAI發(fā)布o(jì)3/o4-mini:"最智能"模型,圖片推理、工具調(diào)用全都有

0
分享至

本周果然是諸神之戰(zhàn)!

繼 GPT-4.1 發(fā)布、可靈2.0 發(fā)布、Claude 上線 Research、Gemini 全面上線 Veo 2 等等之后,OpenAI 帶來了 o3 滿血版和 o4-mini。

先來劃重點(diǎn):

  • 本次發(fā)布的模型,分別是 o3 和 o4-mini;
  • 綜合看o4-mini性價(jià)比最高,o3能力最為綜合;
  • 兩個(gè)模型均為多模態(tài)推理模型,在代碼、科學(xué)方面表現(xiàn)出色;

*網(wǎng)友實(shí)測(cè),認(rèn)為Benchmark又要更新了

多模態(tài)推理也是本次官宣的重點(diǎn)。我們順手拿蘋果手表對(duì)o3做了測(cè)試:

*識(shí)別略有出入,真實(shí)型號(hào)是S9。不過這幾個(gè)型號(hào)確實(shí)外觀無太大差別,肉眼直接分辨也有難度。

Sam Altman本人也對(duì)這次發(fā)布劃了重點(diǎn)

ChatGPT 的 Pro、Plus、Teams 用戶將從今天開始能夠使用新模型,免費(fèi)用戶可以通過打開“深度思考”按鈕來試用 o4-mini。

*ChatGPT更新的頁面

"OpenAI 迄今為止最強(qiáng)大的模型們"

OpenAI 聯(lián)創(chuàng)之一 Greg Brockman 主持直播,開場(chǎng)白簡(jiǎn)單直接,直接宣布今天的重點(diǎn):“發(fā)布兩款新模型,o3 和 o4-mini”。

首先被拋出的新模型描述就是,o3 和 o4-mini 是 OpenAI 目前為止最智能的模型。相比前代 o 系列模型,這兩款模型在深度思考方面的能力更突出,在回答問題之前會(huì)進(jìn)行更長(zhǎng)時(shí)間的思考。

另一個(gè)特點(diǎn)是,o3 滿血版和 o4-mini 可以使用 OpenAI 已經(jīng)發(fā)布的所有工具能力,包括聯(lián)網(wǎng)搜索、永久記憶等等。當(dāng)然,它們還是多模態(tài)的,可以直接對(duì)圖片進(jìn)行推理。

強(qiáng)大的推理能力,以及廣泛的工具調(diào)用能力,使得這兩款模型非常適合科學(xué)研究、代碼生成或數(shù)學(xué)問題解答。

分開來看,o3 定位為OpenAI當(dāng)前最強(qiáng)大、最前沿的推理引擎。尤其是在編程、商業(yè)/咨詢和創(chuàng)意構(gòu)思等領(lǐng)域表現(xiàn)出色。

o4-mini 則更強(qiáng)調(diào)性價(jià)比,是一款專為快速、成本效率優(yōu)化的推理模型,它的體量更小,性價(jià)比更高,在數(shù)學(xué)、編程和視覺任務(wù)方面有著不錯(cuò)的表現(xiàn)。

從科學(xué)方面的測(cè)評(píng)結(jié)果來看,o3 與 o4-mini 顯著領(lǐng)先于前代 o 系列模型。而在 o3 與 o4-mini 之間來進(jìn)行比較,得分差距并不是十分明顯,多數(shù)情況下,o4-mini 會(huì)略微領(lǐng)先于 o3。

現(xiàn)場(chǎng)直播中也給出了一道 AIME 題目的測(cè)試結(jié)果:

對(duì)于這個(gè)數(shù)學(xué)問題,模型在給出了正確的常規(guī)解法和答案后,甚至還額外給出了一個(gè)相對(duì)更“聰明”的解法。

再來看代碼能力

本次發(fā)布的兩款新模型在代碼能力上相較前代 o 系列模型提升明顯。在 SWE-Bench Verified 評(píng)測(cè)集上,o3 與 o4-mini 分別取得了 69.1% 與 68.1% 的分?jǐn)?shù)??梢蕴峁﹨⒖嫉氖牵瑒倓偘l(fā)布的 GPT-4.1 在這項(xiàng)測(cè)試上的成績(jī)?yōu)?54.6%,而 Claude 3.7 Sonnet 一般情況下得分是 62.3%。

OpenAI 發(fā)布的模型在代碼生成能力測(cè)評(píng)上,終于超越了這個(gè)領(lǐng)域的王者Claude。

從現(xiàn)場(chǎng)給出的代碼類任務(wù)的 case 來看,模型在接到代碼問題后,到最終生成并執(zhí)行代碼之前,拆解出了一個(gè)個(gè)核心步驟。

本次發(fā)布的 o3 和 o4-mini 也都是多模態(tài)模型。

在官方給出的4項(xiàng)多模態(tài)測(cè)評(píng)數(shù)據(jù)結(jié)果中,o3 又一次全部超越了 o4-mini。

值得注意的是,在指令遵循方面,前幾天的 GPT-4.1 發(fā)布時(shí),在 Scale MultiChallenge 榜單中得分僅排名第十。但本次發(fā)布的 o3 在這項(xiàng)測(cè)評(píng)中的成績(jī),直接超越了原榜單第一名的 Gemini 2.5 Pro。

不僅在效果上超越了前代的 o 系列模型,在推理成本上也有顯著下降。

官方給出了新模型在 AIME 和 GPQA 兩個(gè)評(píng)測(cè)集上進(jìn)行的模型效果與預(yù)估推理成本之間的對(duì)比結(jié)果。

在達(dá)到相同的推理效果時(shí),新模型所花費(fèi)的預(yù)計(jì)推理成本基本均小于前代模型。模型的推理成本優(yōu)化效果在 o3 與 o1 進(jìn)行對(duì)比時(shí),提升十分的明顯。

OpenAI 稱對(duì)于大多數(shù)現(xiàn)實(shí)世界的使用,o3和o4 mini也將分別比o1和o3-mini更智能、更便宜。

*各模型 API 價(jià)格對(duì)比,圖源:機(jī)器之心

總之,o4-mini是性價(jià)比之選,o3是最新的任務(wù)效果天花板。o3-mini和o1,似乎都可以被替代了。

除了模型,還有 Agent

在介紹完新模型的信息后,Greg Brockman 還官宣了一個(gè)可以直接在命令行工具中運(yùn)行的、具備推理能力的代碼 Agent——Codex CLI。

Sam Altman對(duì)此的解讀是,它可以和擅長(zhǎng)Coding的o3和o4-mini搭配。

插播一句,今天OpenAI還被曝出,正在洽談以30億美元收購知名的AI輔助編程工具Windsurf。如果成真,將是OpenAI迄今為止規(guī)模最大的一筆收購。

在實(shí)際演示中,用戶只上傳了一張網(wǎng)友制作的小項(xiàng)目的帖子截圖。

模型先是對(duì)圖像中的內(nèi)容進(jìn)行了識(shí)別,然后就在沒有任何指令的情況下,開始嘗試猜測(cè)用戶關(guān)于這張圖片的具體需求。

僅通過自然語言描述需求后,Codex CLI 就直接生成了符合用戶要求的 HTML 文件。

在直播演示中,OpenAI Agent研究團(tuán)隊(duì)成員,僅通過一張“圖像到 ASCII 風(fēng)格轉(zhuǎn)換”的截圖,把這個(gè)圖拖進(jìn)終端,Codex 就將此前截圖網(wǎng)友的項(xiàng)目準(zhǔn)確完成,成功創(chuàng)建了一個(gè)簡(jiǎn)單的ASCII風(fēng)格圖像轉(zhuǎn)換工具。

在發(fā)布會(huì)的最后,Greg Brockman 還預(yù)告說,o3-pro 預(yù)計(jì)將在幾周內(nèi)完成發(fā)布。

在萬眾期待的 GPT-5 遲遲未到的情況下,這幾天的接連出新,可能也是OpenAI的“緩兵之計(jì)”,希望用戶對(duì) OpenAI 保留一些信心。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
上萬美軍人員正在執(zhí)行封鎖進(jìn)出伊朗港口船只的任務(wù)

上萬美軍人員正在執(zhí)行封鎖進(jìn)出伊朗港口船只的任務(wù)

財(cái)聯(lián)社
2026-04-14 23:12:12
大陸男子因稱“中國(guó)臺(tái)灣”被拒入臺(tái) 國(guó)臺(tái)辦答紅星新聞:民進(jìn)黨當(dāng)局應(yīng)停止阻撓兩岸正常人員往來

大陸男子因稱“中國(guó)臺(tái)灣”被拒入臺(tái) 國(guó)臺(tái)辦答紅星新聞:民進(jìn)黨當(dāng)局應(yīng)停止阻撓兩岸正常人員往來

紅星新聞
2026-04-15 14:04:53
新婚夜妻子出上聯(lián):一頭黃牛耕肥田;丈夫的下聯(lián)讓妻子心花怒放

新婚夜妻子出上聯(lián):一頭黃牛耕肥田;丈夫的下聯(lián)讓妻子心花怒放

匹夫來搞笑
2026-04-15 13:39:06
多家銀行密集停發(fā)信用卡!

多家銀行密集停發(fā)信用卡!

魯中晨報(bào)
2026-04-15 15:32:04
印媒:印度一電廠發(fā)生爆炸致10死30傷,莫迪發(fā)聲

印媒:印度一電廠發(fā)生爆炸致10死30傷,莫迪發(fā)聲

環(huán)球網(wǎng)資訊
2026-04-15 08:31:36
突發(fā)!造船業(yè)“最大金主”高管失蹤疑被帶走調(diào)查?

突發(fā)!造船業(yè)“最大金主”高管失蹤疑被帶走調(diào)查?

國(guó)際船舶網(wǎng)
2026-04-15 15:12:09
福建一地發(fā)生火災(zāi),整棟樓被濃煙包圍!原因初查

福建一地發(fā)生火災(zāi),整棟樓被濃煙包圍!原因初查

襄陽市消防救援支隊(duì)
2026-04-15 10:13:57
被以色列激怒之后,又一中東強(qiáng)國(guó)要威脅參戰(zhàn):這才是真正的狠角色

被以色列激怒之后,又一中東強(qiáng)國(guó)要威脅參戰(zhàn):這才是真正的狠角色

清歡百味
2026-04-15 13:15:35
巴薩歐冠出局,揪出3大罪人,無視老將勸告導(dǎo)致悲劇重演

巴薩歐冠出局,揪出3大罪人,無視老將勸告導(dǎo)致悲劇重演

籃球看比賽
2026-04-15 10:49:54
八千里路云和月:直到丁玉嬌被侵犯,萬福才知,張?jiān)破祀x死不遠(yuǎn)了

八千里路云和月:直到丁玉嬌被侵犯,萬福才知,張?jiān)破祀x死不遠(yuǎn)了

樓蘭娛姐
2026-04-15 12:41:54
東南亞7個(gè)國(guó)家倒向中國(guó)!唯獨(dú)四個(gè)逆勢(shì)反華,但結(jié)局早已注定

東南亞7個(gè)國(guó)家倒向中國(guó)!唯獨(dú)四個(gè)逆勢(shì)反華,但結(jié)局早已注定

混沌錄
2026-04-15 17:11:13
太諷刺!落選國(guó)家隊(duì),被WNBA球隊(duì)搶著要,球迷:宮魯鳴為何不容她

太諷刺!落選國(guó)家隊(duì),被WNBA球隊(duì)搶著要,球迷:宮魯鳴為何不容她

順靜自然
2026-04-15 15:13:59
克里米亞遇襲爆炸近十小時(shí)!烏克蘭摧毀俄歐洲最大的軍用化工廠

克里米亞遇襲爆炸近十小時(shí)!烏克蘭摧毀俄歐洲最大的軍用化工廠

項(xiàng)鵬飛
2026-04-14 18:08:14
下個(gè)新易盛?這家4元低價(jià)+800G光模塊龍頭  主力底部開啟暴力搶籌

下個(gè)新易盛?這家4元低價(jià)+800G光模塊龍頭 主力底部開啟暴力搶籌

元芳說投資
2026-04-15 06:30:12
雙航母壓境鎖死第一島鏈!軍迷沸騰:這不是軍演,而是攤牌信號(hào)?

雙航母壓境鎖死第一島鏈!軍迷沸騰:這不是軍演,而是攤牌信號(hào)?

起喜電影
2026-04-15 13:50:47
午后異動(dòng)!600572,垂直漲停!主力資金流入醫(yī)藥板塊

午后異動(dòng)!600572,垂直漲停!主力資金流入醫(yī)藥板塊

證券時(shí)報(bào)e公司
2026-04-15 16:49:31
瘋狂!種馬男星沃倫睡過12775名女友,性欲成癮纏著女友不讓下床

瘋狂!種馬男星沃倫睡過12775名女友,性欲成癮纏著女友不讓下床

錢小刀娛樂
2026-04-14 10:39:13
河南13歲被鎖喉男孩赴京治療后已脫離生命危險(xiǎn),拉繩老人已被采取刑事強(qiáng)制措施

河南13歲被鎖喉男孩赴京治療后已脫離生命危險(xiǎn),拉繩老人已被采取刑事強(qiáng)制措施

大風(fēng)新聞
2026-04-15 10:00:22
周總理賭氣住在釣魚臺(tái),鄧穎超求他回家,周總理:那我可有個(gè)條件

周總理賭氣住在釣魚臺(tái),鄧穎超求他回家,周總理:那我可有個(gè)條件

阿萞你好
2026-04-15 08:40:07
東風(fēng)導(dǎo)彈泄密案!間諜郭萬鈞一家三口,全部被處以死刑

東風(fēng)導(dǎo)彈泄密案!間諜郭萬鈞一家三口,全部被處以死刑

番外行
2026-03-31 08:28:28
2026-04-15 18:23:00
四木相對(duì)論 incentive-icons
四木相對(duì)論
嘮嘮科技,看看世界
127文章數(shù) 2關(guān)注度
往期回顧 全部

科技要聞

手機(jī)無死角上網(wǎng)?亞馬遜砸百億硬剛馬斯克

頭條要聞

年銷10億的網(wǎng)紅"宋柚汁"柚含量?jī)H2.7% "宋柚"是商標(biāo)

頭條要聞

年銷10億的網(wǎng)紅"宋柚汁"柚含量?jī)H2.7% "宋柚"是商標(biāo)

體育要聞

三球準(zhǔn)絕殺戴大金鏈:轟30+10自我救贖

娛樂要聞

曾志偉辦73歲生日派對(duì),逾百藝人到場(chǎng)

財(cái)經(jīng)要聞

業(yè)績(jī)失速的Lululemon:"健康"人設(shè)崩塌?

汽車要聞

空間絲毫不用妥協(xié) 小鵬GX首發(fā)評(píng)測(cè)

態(tài)度原創(chuàng)

數(shù)碼
親子
本地
健康
公開課

數(shù)碼要聞

客廳電視買多大合適?TCL、海信、小米、華為等給出推薦規(guī)范

親子要聞

他發(fā)現(xiàn)了質(zhì)數(shù),并給它起了個(gè)名字:奇怪的數(shù)字

本地新聞

12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版