国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

OpenAI 最強(qiáng)推理模型 o3 發(fā)布,AGI 測(cè)試能力暴漲,它有多強(qiáng)大?會(huì)對(duì)哪些領(lǐng)域帶來(lái)影響?

0
分享至

12天的直播,最后一天放出來(lái)的東西大家都知道是個(gè)大招,挺多人猜GPT5的,因?yàn)樽詈髩狠S的大概率是大模型本身。

因?yàn)樯?jí)大模型,特別是對(duì)于OpenAI這種標(biāo)桿公司,每一次的模型升級(jí),基本上都代表了AI大模型領(lǐng)域的某種風(fēng)向。

這次壓軸大菜上的是o3模型,包括我在內(nèi)的很多人都很疑惑,o1之后為什么不是o2,而是o3。

OpenAI的CEO山姆奧特曼特意解釋了原因,就是他們公司非常不擅長(zhǎng)起名字,然后o1之后就直接o3了。(可能這就是任性吧)

其實(shí)OpenAI的o系列模型,最大的特點(diǎn)就是擅長(zhǎng)推理。比如說(shuō)編程中涉及到了推理,數(shù)學(xué)也需要,物理化學(xué)這樣的理科學(xué)科也需要大量的推理,而o系列在這樣的任務(wù)中表現(xiàn)的尤其突出。

新的o3模型在推理上更進(jìn)一步,在Software Engineering和Codeforeces這倆測(cè)試上分?jǐn)?shù)相比它的上一代,o1模型提升很大。

第一個(gè)測(cè)試集的分?jǐn)?shù)從48.9提升到了71.7,第二個(gè)從1891到2727,提升幅度很大。

然后在數(shù)學(xué)上也有了提升,在AIME這個(gè)測(cè)試集上o1就已經(jīng)達(dá)到了83.3,o3直接把準(zhǔn)確率提升到了96.7,幾乎相同于一套數(shù)學(xué)卷子只錯(cuò)一個(gè)的程度。

然后下一個(gè)測(cè)試集叫GPQA,它是一個(gè)博士生級(jí)別的問題測(cè)試集,如果要某個(gè)學(xué)科的博士來(lái)答題,一般能拿到70分左右。

o1模型可以做到78分左右,o3直接把分?jǐn)?shù)拉到87.7,遠(yuǎn)超人類選手的程度。

除了這幾個(gè)很常見的測(cè)試集,甚至引入了一個(gè)不太常見的測(cè)試集ARC AGI,它的全稱是Abstraction and Reasoning Corpus for Artificial General Intelligence ,專門設(shè)計(jì)出來(lái)測(cè)試AI。

這個(gè)相比大多數(shù)測(cè)試用的數(shù)據(jù)集都要難,其中的題目大多是這種推理問題,下面是一個(gè)簡(jiǎn)單的例子,憑借直覺就能答得上來(lái)。

但是有些題目難度很高,比如下面這個(gè)。

黃色塊中有幾個(gè)其他色塊,新圖像外面就有幾層相同色塊。

你可以看到GPT4o只有9%的分?jǐn)?shù),但是o1直接翻了兩倍多到了21%,o3的分?jǐn)?shù)遠(yuǎn)超第二名的60%,達(dá)到了82.8%。

你可以看ARC AGI主席公開的數(shù)據(jù),o系列模型性能提升太線性了,甚至有點(diǎn)兒過(guò)于線性。

o3模型有幾個(gè)形態(tài),除了o3,還有o3 mini,應(yīng)該是蒸餾出來(lái)的小模型,mini版本也分為三種類型,分類的標(biāo)準(zhǔn)是推理消耗的計(jì)算資源。

分為low,medium以及high三種,滿足計(jì)算資源給的越多,性能越好的定理。

直播中測(cè)試了o3 mini low模式,用它做198道題,速度極快,只用了45秒,準(zhǔn)確率61.62%,估計(jì)用high模式或者o3滿血版,可能分?jǐn)?shù)會(huì)提升非常大。

最后,OpenAI提到了他們對(duì)于安全性的升級(jí),總的來(lái)說(shuō),就是讓模型可以在這兩個(gè)維度上達(dá)到了很優(yōu)化的平衡。

它們用下面兩個(gè)維度做了評(píng)估:

?拒絕惡意提示(jailbreaks):測(cè)試模型是否能拒絕回答惡意請(qǐng)求,如繞過(guò)政策或生成有害內(nèi)容。

?避免過(guò)度拒絕(overrefusal):檢查模型在處理無(wú)害請(qǐng)求時(shí)是否會(huì)過(guò)于保守而拒絕回答。

o1 模型(深綠色星形)在拒絕惡意提示方面表現(xiàn)突出,同時(shí)對(duì)無(wú)害提示也更寬容,達(dá)到安全性和靈活性的平衡。


GPT-4o 表現(xiàn)較好,但相較于 o1 模型,在靈活性或安全性之間略顯妥協(xié)。Claude 3.5 和 Gemini 1.5 模型分別在某些方面表現(xiàn)突出,但無(wú)法同時(shí)兼顧兩方面優(yōu)化。

這一切的原因都來(lái)自于安全方面的考慮:

·大型語(yǔ)言模型容易受到對(duì)抗性攻擊(例如越獄攻擊、濫用內(nèi)容等)的威脅,同時(shí)可能過(guò)于保守,對(duì)無(wú)害請(qǐng)求拒絕回答。

·主要挑戰(zhàn):

a.如何防止模型生成有害內(nèi)容?

b.如何避免對(duì)無(wú)害輸入的過(guò)度拒絕?

現(xiàn)有方法的缺陷

·傳統(tǒng)方法依賴于“強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)優(yōu)化”(RLHF)和“對(duì)抗性訓(xùn)練”(Adversarial Training),但這些方法存在以下問題:

a.過(guò)度依賴人工標(biāo)注,訓(xùn)練成本高,且難以擴(kuò)展。

b.泛化能力較差,在處理分布外輸入(out-of-distribution)時(shí)表現(xiàn)不穩(wěn)定。

新方法 - 深思熟慮的對(duì)齊 (Deliberative Alignment):

·提出了一個(gè)新型訓(xùn)練框架,結(jié)合了過(guò)程監(jiān)督和結(jié)果監(jiān)督,以改進(jìn)模型的安全性和泛化能力。

·自動(dòng)生成訓(xùn)練數(shù)據(jù),減少人工依賴,提升對(duì)惡意提示的抵抗能力,同時(shí)減少對(duì)無(wú)害請(qǐng)求的過(guò)度拒絕。

下面的圖片詳細(xì)的介紹了幾個(gè)不同模型訓(xùn)練和推理的邏輯,o3采用的方法更多的利用了COT以及包含了大量的推理。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
孫穎莎、王楚欽落選!樊振東陳夢(mèng)王曼昱入選虎撲十大運(yùn)動(dòng)員榜單

孫穎莎、王楚欽落選!樊振東陳夢(mèng)王曼昱入選虎撲十大運(yùn)動(dòng)員榜單

鯨鯡魚體壇
2025-12-27 22:05:06
黃曉明帶兒子和媽媽包餃子,摘了假發(fā)套發(fā)量很藝術(shù),兒子很像楊穎

黃曉明帶兒子和媽媽包餃子,摘了假發(fā)套發(fā)量很藝術(shù),兒子很像楊穎

笑飲孤鴻非
2025-12-24 01:09:08
痛心!安徽“半掛西施”王迪去世,有三臺(tái)X6000,出事前剛換輪胎

痛心!安徽“半掛西施”王迪去世,有三臺(tái)X6000,出事前剛換輪胎

元爸體育
2025-12-28 01:07:06
豬肚再次成為討論對(duì)象!研究發(fā)現(xiàn):常吃豬肚,可能會(huì)獲取3大益處

豬肚再次成為討論對(duì)象!研究發(fā)現(xiàn):常吃豬肚,可能會(huì)獲取3大益處

九哥聊軍事
2025-12-15 21:18:17
上海地鐵“最直白”通道火了!網(wǎng)友吐槽:“仿佛通向世界的盡頭”

上海地鐵“最直白”通道火了!網(wǎng)友吐槽:“仿佛通向世界的盡頭”

魯中晨報(bào)
2025-12-27 18:33:30
澳洲華人朋友圈炸了:這東西從中國(guó)寄來(lái)竟比本地還便宜!

澳洲華人朋友圈炸了:這東西從中國(guó)寄來(lái)竟比本地還便宜!

澳洲財(cái)經(jīng)見聞
2025-12-28 07:35:53
剛扣押中國(guó)船只,美方發(fā)現(xiàn)中國(guó)貨輪填滿導(dǎo)彈,出其不意發(fā)動(dòng)奇襲?

剛扣押中國(guó)船只,美方發(fā)現(xiàn)中國(guó)貨輪填滿導(dǎo)彈,出其不意發(fā)動(dòng)奇襲?

墨蘭史書
2025-12-28 06:20:03
胡塞武裝離滅亡不遠(yuǎn)了——以色列承認(rèn)并將在索馬里蘭建立軍事基地

胡塞武裝離滅亡不遠(yuǎn)了——以色列承認(rèn)并將在索馬里蘭建立軍事基地

老王說(shuō)正義
2025-12-28 00:09:48
時(shí)光服叮號(hào)YYDS!老外羨慕哭,喊著要找中國(guó)爹充值

時(shí)光服叮號(hào)YYDS!老外羨慕哭,喊著要找中國(guó)爹充值

山西三炮
2025-12-28 10:47:38
他是上海頂級(jí)敗家子,4年敗光千億資產(chǎn),如今只能靠姐姐力挽狂瀾

他是上海頂級(jí)敗家子,4年敗光千億資產(chǎn),如今只能靠姐姐力挽狂瀾

小熊侃史
2025-12-28 11:11:25
家有初中生:別對(duì)孩子太好,尤其是不尊重你時(shí),記住3點(diǎn),輕松拿捏

家有初中生:別對(duì)孩子太好,尤其是不尊重你時(shí),記住3點(diǎn),輕松拿捏

浩源的媽媽
2025-12-28 06:40:36
希勒:維拉是英超冠軍有力競(jìng)爭(zhēng)者,在埃梅里麾下一切皆有可能

希勒:維拉是英超冠軍有力競(jìng)爭(zhēng)者,在埃梅里麾下一切皆有可能

懂球帝
2025-12-28 11:25:12
婚姻里的“哄”,是最高級(jí)的浪漫

婚姻里的“哄”,是最高級(jí)的浪漫

青蘋果sht
2025-12-27 05:12:18
烏專家:中國(guó)“榨干”蘇聯(lián)遺產(chǎn),我們圖紙都沒看懂,他們?cè)斐?.0

烏專家:中國(guó)“榨干”蘇聯(lián)遺產(chǎn),我們圖紙都沒看懂,他們?cè)斐?.0

混沌錄
2025-12-27 21:33:28
關(guān)羽是賣棗的,張飛是殺豬的,為何一出場(chǎng)就自帶絕世武功?

關(guān)羽是賣棗的,張飛是殺豬的,為何一出場(chǎng)就自帶絕世武功?

犀利辣椒
2025-12-27 06:42:08
烏專家:中國(guó)“榨干”蘇聯(lián)遺產(chǎn),我們圖紙沒看懂,他們?cè)斐?.0!

烏專家:中國(guó)“榨干”蘇聯(lián)遺產(chǎn),我們圖紙沒看懂,他們?cè)斐?.0!

小莜讀史
2025-12-25 20:46:05
410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

深度報(bào)
2025-12-14 22:36:54
何慶魁激動(dòng)哭了!趙本山送一套房還轉(zhuǎn)大紅包,承擔(dān)他的養(yǎng)老花銷

何慶魁激動(dòng)哭了!趙本山送一套房還轉(zhuǎn)大紅包,承擔(dān)他的養(yǎng)老花銷

娛圈小愚
2025-12-28 11:20:01
不再沉默了,馬杜羅告知190國(guó),中方原油遭搶掠,美國(guó)捅了馬蜂窩

不再沉默了,馬杜羅告知190國(guó),中方原油遭搶掠,美國(guó)捅了馬蜂窩

青煙小先生
2025-12-28 11:38:25
李小璐寫真生圖高清

李小璐寫真生圖高清

翩翩明星
2025-11-14 09:39:36
2025-12-28 12:32:49
平凡AI incentive-icons
平凡AI
高校AI從業(yè)者
54文章數(shù) 23關(guān)注度
往期回顧 全部

科技要聞

AR眼鏡第一案,究竟在爭(zhēng)什么?

頭條要聞

非機(jī)動(dòng)車道設(shè)20余個(gè)"臺(tái)階"市民吐槽路太顛簸 官方回應(yīng)

頭條要聞

非機(jī)動(dòng)車道設(shè)20余個(gè)"臺(tái)階"市民吐槽路太顛簸 官方回應(yīng)

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂要聞

姚晨打卡絕版機(jī)位 高崎機(jī)場(chǎng)背后的遺憾

財(cái)經(jīng)要聞

英偉達(dá)的收購(gòu)史

汽車要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

家居
時(shí)尚
教育
房產(chǎn)
軍事航空

家居要聞

格調(diào)時(shí)尚 智慧品質(zhì)居所

這些穿搭才最適合普通人!不露腿、不花哨,簡(jiǎn)約舒適又顯氣質(zhì)

教育要聞

山東藝術(shù)統(tǒng)考平均分

房產(chǎn)要聞

年銷20億+!中交·藍(lán)色港灣用好房子致敬好生活

軍事要聞

與特朗普會(huì)晤前 澤連斯基亮明“紅線”

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版