国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

從IMO金牌到GPT-5:OpenAI如何用一場“技術(shù)營銷”重新定義AI推理?

0
分享至

OpenAI的一個員工連續(xù)發(fā)了11個帖子,稱他們的內(nèi)部實驗?zāi)P鸵呀?jīng)可以拿到國際數(shù)學(xué)奧賽金牌,真是這樣嗎?這款模型實力到底如何?

要回答這個問題,我們首先要確定一個共識:那就是像OpenAI這樣的公司不管是CEO奧特曼,還是任意員工在公開社交媒體發(fā)布信息,都肯定是精心策劃的具有明確目的性的商業(yè)行為。

說白了,他們說話,絕不可能像普通人發(fā)個朋友圈一樣,而是想要達(dá)到類似于Marketing營銷的效果。

第一個帖子就很講究,直接1/N開頭,表明還有更多信息,但具體不知道多少,給人期待值。另外直接說了OpenAI一個實驗中的模型達(dá)到了世界上最著名的數(shù)學(xué)競賽IMO金牌水平


IMO就是數(shù)學(xué)競賽中的奧林匹克比賽,能拿到金牌的都是能力萬中無一的人,圖中可以看到這些人后來成就都遠(yuǎn)超普通人。


而AI能拿到這個級別的分?jǐn)?shù),其實OpenAI就在這里埋下一個“隱喻”,那就是OpenAI的模型依舊冠絕全世界。

配圖也暗示了這一點兒,它用的是草莓+金牌。


草莓的單詞是strawberry,不知道大家記不記得,去年年底有一個巨大的hype,就是OpenAI在秘密的訓(xùn)練名叫Q和Strawberry的模型,現(xiàn)在我覺得GPT5的代號就是Strawberry。


我的假設(shè)基于8/N條推,發(fā)帖人說了,GPT5馬上要發(fā)布,因為他是代表OpenAI發(fā)的這個帖子,并且沒有刪除或者其他爭議,那說明這個信息就是OpenAI公關(guān)部門或者市場營銷部門共同參與編寫的,所以真實度很高


同時他還說,拿到IMO金牌的模型是一個實驗性質(zhì)的模型,近幾個月內(nèi)不準(zhǔn)備發(fā)布。

那說明了什么,這個實驗?zāi)P痛蟾怕适腔贕PT5做的post-training,極有可能是o系列的,甚至有盡可能就叫o4-ultra或者o4-heavy之類的名字。

我的想法基于第3和4條twitter,作者說了,IMO題目的難度必須要經(jīng)過超長時間的思考,所以大模型LLM reasoning的時間就得從幾秒延長到100mins,這個數(shù)據(jù)遠(yuǎn)超市面上的reasoning LLM的時間,特別是過長的reasoning會被認(rèn)為是死鎖被強(qiáng)制的切斷。

那么這個reasoning時間>=10 mins的實驗版,一定是基于GPT5,做的超長reasoning frame的超重型模型,專門用來做超級復(fù)雜問題的推理模型。


結(jié)合第二個帖子看,他宣稱實驗?zāi)P秃腿祟愐粯拥囊?guī)則,2個4.5小時的時間,不用工具或者網(wǎng)絡(luò),單純憑借模型本身的能力。


這就也變相的印證了第五個帖子的核心信息,這也是OpenAI想要秀的肌肉。


他強(qiáng)調(diào),這一成就并非通過“狹隘的、針對特定任務(wù)的方法論”實現(xiàn)的。簡單來說,他們沒有為IMO問題專門設(shè)計一個“數(shù)學(xué)求解器”,而是通過改進(jìn)通用強(qiáng)化學(xué)習(xí)(general-purpose reinforcement learning)測試時計算擴(kuò)展(test-time compute scaling)這兩個基礎(chǔ)方法論。

這就是秀肌肉,他想要說的就是GPT5以及基于GPT5做的post-training得到的模型就是世界級的,同時它也是通用型大模型。

所謂的general-purpose,其實就跟AGI中的General異曲同工,還是告訴大家,OpenAI還是朝著AGI的方向在走,同時依舊最前沿SOTA。

這里面的兩個核心詞匯,都在暗示他們的技術(shù)先進(jìn)性。

  • 通用強(qiáng)化學(xué)習(xí)(general-purpose reinforcement learning): 這意味著他們很可能解決了“獎勵稀疏”和“信用分配”等在復(fù)雜任務(wù)中的核心RL難題。特別是帖子4中提到的,IMO證明這種難以驗證、沒有明確獎勵的場景,他們成功“超越了傳統(tǒng)RL范式”,這對于所有需要復(fù)雜規(guī)劃和創(chuàng)造性的任務(wù)(如科學(xué)發(fā)現(xiàn)、寫小說、制定商業(yè)策略)都有著巨大的借鑒意義。

  • 測試時計算擴(kuò)展(test-time compute scaling)這暗示了模型在推理(inference)階段使用了大量的計算資源進(jìn)行類似“深度思考”或“搜索”的過程(可能類似于思維樹/Tree of Thoughts的復(fù)雜版本)。模型不是“一蹴而就”給出答案,而是可以花時間去探索、驗證和構(gòu)建一個復(fù)雜的論證。這是一種讓模型能力在不重新訓(xùn)練的情況下大幅提升的有效路徑。

此外他還提到了一些測試時候的方法論,盡量讓大家覺得他們的模型測試是公平合理的,這里不展開說,陶哲軒也評價了這件事,他的主要觀點就是OpenAI做IMO題目的過程并不公開,所以他不予置評。


最后,作者還說了一個比較私人的事情,讓整個thread顯得不那么營銷。做法是作者用自己2021年對2025年的預(yù)測(MATH達(dá)到30%)與現(xiàn)實(IMO金牌)進(jìn)行對比,展示了AI發(fā)展的超指數(shù)級速度。


怎么說呢,對于整個AI環(huán)境來說肯定是有好處的,畢竟大家都推舉,才有可能讓整個行業(yè)獲得大量關(guān)注,以及大量金錢,但OpenAI的目的明顯不止于此,他們可能一直想做的是AI寡頭。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
陳皮加它一煮,沾床就睡著!疏肝解郁安神,這法子讓我一覺到天亮

陳皮加它一煮,沾床就睡著!疏肝解郁安神,這法子讓我一覺到天亮

江江食研社
2025-12-26 07:30:06
日本報應(yīng)終于來了!日元暴跌米價瘋漲,自己都養(yǎng)不活還老想打仗

日本報應(yīng)終于來了!日元暴跌米價瘋漲,自己都養(yǎng)不活還老想打仗

墨印齋
2025-12-27 09:27:48
軍艦開到家門口,炮口快懟臉上,第一反應(yīng)竟是:有多少錢賠人家!

軍艦開到家門口,炮口快懟臉上,第一反應(yīng)竟是:有多少錢賠人家!

百態(tài)人間
2025-12-17 16:30:23
演員陳學(xué)冬:兩年4次手術(shù)!多部作品被下架,如今生活無法自理

演員陳學(xué)冬:兩年4次手術(shù)!多部作品被下架,如今生活無法自理

粵語經(jīng)典歌單
2025-12-04 08:51:35
班凱羅淪水貨狀元?美媒曬復(fù)出數(shù)據(jù)一拉到底:5年2.4億被過分高估

班凱羅淪水貨狀元?美媒曬復(fù)出數(shù)據(jù)一拉到底:5年2.4億被過分高估

顏小白的籃球夢
2025-12-27 11:31:46
男子發(fā)現(xiàn)女兒非親生,多部門調(diào)解讓他放棄追責(zé)!評論區(qū)一言難盡!

男子發(fā)現(xiàn)女兒非親生,多部門調(diào)解讓他放棄追責(zé)!評論區(qū)一言難盡!

你食不食油餅
2025-12-25 20:35:40
饒穎:趙忠祥與我發(fā)生關(guān)系多年!他有特殊癖好,讓我身心受到傷害

饒穎:趙忠祥與我發(fā)生關(guān)系多年!他有特殊癖好,讓我身心受到傷害

蕾爸退休日記
2025-12-10 18:56:14
50歲佘詩曼私生活曝光:未婚,身價過億,獨(dú)居客廳僅10㎡小破宅,只想當(dāng)個富婆

50歲佘詩曼私生活曝光:未婚,身價過億,獨(dú)居客廳僅10㎡小破宅,只想當(dāng)個富婆

黎兜兜
2025-12-25 21:56:18
張靚穎透視裝被批擦邊,老粉心疼:除了露肉,忘了海豚音?

張靚穎透視裝被批擦邊,老粉心疼:除了露肉,忘了海豚音?

情感大頭說說
2025-12-28 06:05:04
亞洲周刊曝徐湖平私信:已逝老同志保了他,還提拔他為副院長

亞洲周刊曝徐湖平私信:已逝老同志保了他,還提拔他為副院長

書中自有顏如玉
2025-12-28 00:58:56
目前見過的最清純春麗cos,賽場遇見也舍不得用力

目前見過的最清純春麗cos,賽場遇見也舍不得用力

街機(jī)時代
2025-12-27 15:00:03
“蹭準(zhǔn)毒品擦邊球”?霸王茶姬回應(yīng)高濃度咖啡因爭議

“蹭準(zhǔn)毒品擦邊球”?霸王茶姬回應(yīng)高濃度咖啡因爭議

深圳晚報
2025-12-26 23:58:38
《老舅》壓軸登場的她是中傳?;ǎ砀?72氣質(zhì)超好,酷似江珊

《老舅》壓軸登場的她是中傳?;?,身高172氣質(zhì)超好,酷似江珊

距離距離
2025-12-26 14:57:10
陳夢回應(yīng)全運(yùn)會女團(tuán)奪冠后落淚:所有吃過的苦這一刻覺得都值得;面對外界聲音陳夢稱以前很不理解,現(xiàn)在一笑帶過

陳夢回應(yīng)全運(yùn)會女團(tuán)奪冠后落淚:所有吃過的苦這一刻覺得都值得;面對外界聲音陳夢稱以前很不理解,現(xiàn)在一笑帶過

揚(yáng)子晚報
2025-12-27 16:23:33
沒了大熊貓,日本人鉆進(jìn)籠子自己扮演,日網(wǎng)民:全怪高市早苗!

沒了大熊貓,日本人鉆進(jìn)籠子自己扮演,日網(wǎng)民:全怪高市早苗!

阿龍聊軍事
2025-12-28 06:24:23
12月26日,臺當(dāng)局宣布,即日起要通過《兩岸人民關(guān)系條例》修法

12月26日,臺當(dāng)局宣布,即日起要通過《兩岸人民關(guān)系條例》修法

百態(tài)人間
2025-12-27 16:42:56
明確了!不免費(fèi)!定了!休14天

明確了!不免費(fèi)!定了!休14天

pingdubbs
2025-12-27 23:54:06
后續(xù)!銀行女經(jīng)理轉(zhuǎn)走儲戶千萬,與丈夫先后自殺,其閨蜜透露更多

后續(xù)!銀行女經(jīng)理轉(zhuǎn)走儲戶千萬,與丈夫先后自殺,其閨蜜透露更多

鋭娛之樂
2025-12-27 19:12:32
央視曝光!又一網(wǎng)紅產(chǎn)品暴雷,長期食用傷肝腎,很多家庭都在用

央視曝光!又一網(wǎng)紅產(chǎn)品暴雷,長期食用傷肝腎,很多家庭都在用

文史旺旺旺
2025-12-26 19:45:51
打30分鐘比賽就又傷了!32歲昔日“世界第一中場”,失去作戰(zhàn)之力

打30分鐘比賽就又傷了!32歲昔日“世界第一中場”,失去作戰(zhàn)之力

里芃芃體育
2025-12-28 00:10:09
2025-12-28 07:44:49
平凡AI incentive-icons
平凡AI
高校AI從業(yè)者
54文章數(shù) 23關(guān)注度
往期回顧 全部

科技要聞

小米也漲價了!業(yè)界稱終端再不漲明年必虧

頭條要聞

山西大同一小區(qū)物業(yè)禁止新能源車進(jìn)入地庫:擔(dān)心自燃

頭條要聞

山西大同一小區(qū)物業(yè)禁止新能源車進(jìn)入地庫:擔(dān)心自燃

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂要聞

張昊唯逃稅涉黃風(fēng)波落幕:法院認(rèn)定朋友造謠

財經(jīng)要聞

注意,開始拉物價了!

汽車要聞

好音響比大屏更重要?車企開始“聽”用戶的

態(tài)度原創(chuàng)

手機(jī)
教育
本地
游戲
公開課

手機(jī)要聞

榮耀WIN系列全球首發(fā)10000mAh電池:友商短時間內(nèi)很難超越

教育要聞

劉嘉教授:教貧窮的人有自尊會刺傷對方

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬年史書

《歧路旅人0》評測:授予一切"/> 主站 商城 論壇 自運(yùn)營 登錄 注冊 《歧路旅人0》評測:授予一切 星河 2025-12-27 返回專欄首頁 作者:...

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版