国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

OpenAI新模型gpt-oss-120b怎么樣?三大場景實(shí)測首發(fā)(對比GLM-4.5-Air)

0
分享至

Claude Opus 4.1、gpt-oss-120b、Google Genie 3,看到又蹦出的這一堆新模型你是不是要懵了...昨天可以說是AI領(lǐng)域的瘋狂星期三了。

我在凌晨一點(diǎn)看到Anthropic發(fā)布Claude Opus 4.1時(shí)還稍稍有點(diǎn)興奮,快速寫了這么篇介紹文章

寫完發(fā)布之后,看了眼X,發(fā)現(xiàn)糟了,寫早了。OpenAI又給我整出了gpt-oss-120b和gpt-oss-20b這兩個(gè)開源模型。

再到第二天一早醒來,看到Google發(fā)布世界模型Genie 3,我徹底感覺麻了...科技博主的命也是命啊,真寫不過來了。

不過,OpenAI這次的發(fā)布還是挺有意思,值得聊聊的:

一是這代表OpenAI再次Open了,gpt-oss是OpenAI時(shí)隔6年,繼GPT-2之后首次發(fā)布開源權(quán)重語言模型;

二是對LLM開源生態(tài)來說,本來開源模型的SOTA之爭早就成了中國的內(nèi)部競爭,DeepSeek、Kimi、Qwen、智譜這幾家近期輪流坐上開源模型的頭把交椅,而OpenAI的入局還是給這場本來已經(jīng)結(jié)束的戰(zhàn)爭增添了不少變數(shù),開源SOTA模型似乎又要回到中美競爭的格局了。

01gpt-oss-120b到底怎么樣?

首先是參數(shù)規(guī)模。OpenAI的gpt-oss-120b擁有1170億總參數(shù),其中每次推理僅激活51億參數(shù),占比僅為4.4%。這種超稀疏的設(shè)計(jì),使得gpt-oss-120b在處理結(jié)構(gòu)化和嚴(yán)密邏輯任務(wù)時(shí),推理效率和性能極其突出。

其次是架構(gòu)設(shè)計(jì)上的獨(dú)特性。gpt-oss系列同樣采用了混合專家(MoE)架構(gòu),并原生支持MXFP4量化方案,用官方的話說是能夠高效地在 80G GPU的高性能電腦上運(yùn)行?

Excuse me?80G?誰家好人家用的電腦能配一張英偉達(dá)H100 GPU呢

(外網(wǎng)的網(wǎng)友和我有同樣的疑問)

所以,對普通用戶來說,暫時(shí)就別想著在自己電腦上部署gpt-oss-120b了,老老實(shí)實(shí)等第三方平臺的API,或者使用OpenAI提供的體驗(yàn)平臺去試試吧。

從公布的benchmark上,OpenAI的這個(gè)新開源模型在數(shù)學(xué)(AIME)、推理以及編程(Codeforces)上的能力比較強(qiáng)。但是就歷史情況來說,OpenAI模型的編程能力只停留在跑分中。

02gpt-oss-120b VS GLM-4.5-Air

所以,OpenAI這個(gè)新開源模型到底怎么樣,我覺得需要測一測。

尤其是,如果我們只把它放在開源模型的行列中,去和國產(chǎn)開源模型掰掰手腕,它會(huì)表現(xiàn)如何呢?我打算拿前幾天文章里介紹過的智譜最新的模型去做評測。

從公平性的角度看,我沒選智譜最強(qiáng)的總參數(shù)量達(dá)到3550億的模型GLM-4.5去做對比,而是拿了智譜更輕量級,參數(shù)量規(guī)模和gpt-oss-120b接近的GLM-4.5-Air,它同樣是MoE架構(gòu)的混合專家模型,GLM-4.5-Air的參數(shù)規(guī)模略小一些,總參數(shù)1060億,每次激活參數(shù)是120億,占比達(dá)到11.3%。這個(gè)更高的激活比例,意味著GLM-4.5-Air在泛化能力和跨領(lǐng)域綜合表現(xiàn)上會(huì)更為出色,特別是在開放性任務(wù),比如軟件開發(fā)、創(chuàng)意生成和多語言翻譯等場景。

注:由于都是開源模型,部署方式和API調(diào)用的系統(tǒng)提示詞似乎都會(huì)影響模型表現(xiàn),所以為了保證評測的公平性,這兩個(gè)模型我都通過他們的官方網(wǎng)頁版直接使用:

1)gpt-oss-120b: https://gpt-oss.com/ Reasoning level選擇High的狀態(tài)

2)GLM-4.5-Air: https://chat.z.ai/ 打開“自動(dòng)推理”,關(guān)閉“工具”中的全網(wǎng)搜索功能

評測1:物理邏輯模擬

我們先來試一個(gè)很經(jīng)典的測試模型物理邏輯模擬能力的編程題,就是讓AI寫一個(gè)有20個(gè)小球在旋轉(zhuǎn)的六邊形中彈跳的python腳本,這個(gè)問題的提示詞風(fēng)格和類型有很多,我自己調(diào)整迭代了個(gè)中文版本的,方便大家理解和復(fù)用

編寫一個(gè) Python 程序,在一個(gè)旋轉(zhuǎn)的 六邊形內(nèi)部模擬 20 個(gè)小球彈跳。
要求如下:
- 單個(gè) Python 文件。
- 多邊形繞其中心勻速旋轉(zhuǎn),每 5 秒旋轉(zhuǎn) 360°。
- 小球受重力和摩擦力影響。
- 實(shí)現(xiàn)碰撞檢測與響應(yīng):球與旋轉(zhuǎn)邊壁碰撞時(shí),需考慮墻壁的運(yùn)動(dòng),實(shí)現(xiàn)真實(shí)的反彈效果。球與球之間不發(fā)生彈性碰撞。
- 所有小球從多邊形中心初始化,半徑相同。
- 在起始狀態(tài)下,球從六邊形內(nèi)部不同位置受重力影響開始下落
- 多邊形尺寸需足夠大以始終容納所有球。
- 模擬應(yīng)保持大約 60 FPS 的流暢動(dòng)畫。
- 代碼結(jié)構(gòu)應(yīng)模塊化、清晰、帶注釋。

GLM-4.5-Air的效果如下

gpt-oss-120b的效果

GLM-4.5-Air勝,gpt-oss-120b有些很奇怪的表現(xiàn),比如小球卡在多邊形的邊上,以及,小球會(huì)逐漸爆出,越蹦越少。測完這個(gè)任務(wù),我已經(jīng)開始對gpt-oss-120b怎么能在Codeforces跑出那么高分有疑問了。而接下來的一個(gè)任務(wù)對比,則可能會(huì)讓你大跌眼鏡。

評測2:用html創(chuàng)建原型

接下來,我們再試一個(gè)我很常用的讓模型生成app原型界面的任務(wù),這個(gè)任務(wù)既可以測試模型的前端代碼撰寫能力,也能比較好的評估模型的設(shè)計(jì)審美。

因?yàn)檫@次不是在AI Coding工具中調(diào)用大模型,而是直接使用網(wǎng)頁版做單次生成,所以我簡單調(diào)整了下我的提示詞要求,只讓模型生成app首頁一個(gè)界面的設(shè)計(jì)

我想開發(fā)一個(gè)擁有播客、視頻、圖文等多種內(nèi)容形式的社區(qū)app,現(xiàn)在需要輸出高保真的原型圖,請通過以下方式幫我完成app首頁的原型設(shè)計(jì),并確保該原型界面可以直接用于開發(fā):
1、用戶體驗(yàn)分析:先分析這個(gè) App 的主要功能和用戶需求,確定核心交互邏輯。
2、產(chǎn)品界面規(guī)劃:作為產(chǎn)品經(jīng)理,定義關(guān)鍵界面,確保信息架構(gòu)合理。
3、高保真 UI 設(shè)計(jì):作為 UI 設(shè)計(jì)師,設(shè)計(jì)貼近真實(shí) iOS/Android 設(shè)計(jì)規(guī)范的界面,使用現(xiàn)代化的 UI 元素,使其具有良好的視覺體驗(yàn)。
4、HTML 原型實(shí)現(xiàn):使用 HTML + Tailwind CSS(或 Bootstrap)生成所有原型界面,并使用 FontAwesome(或其他開源 UI 組件)讓界面更加精美、接近真實(shí)的 App 設(shè)計(jì)。
拆分代碼文件,保持結(jié)構(gòu)清晰:
5、界面在單個(gè)html文件中呈現(xiàn)。
- 真實(shí)感增強(qiáng):
  - 界面尺寸應(yīng)模擬 iPhone 15 Pro,并讓界面圓角化,使其更像真實(shí)的手機(jī)界面。
  - 使用真實(shí)的 UI 圖片,而非占位符圖片(可從 Unsplash、Pexels、Apple 官方 UI 資源中選擇)。
  - 添加頂部狀態(tài)欄(模擬 iOS 狀態(tài)欄),并包含 App 導(dǎo)航欄(類似 iOS 底部 Tab Bar)。
請按照以上要求生成完整的 HTML 代碼,并確保其可用于實(shí)際開發(fā)。

先來看下GLM-4.5-Air的效果,不能說很驚艷,但很符合我預(yù)計(jì),屬于中規(guī)中矩的設(shè)計(jì)風(fēng)格,從Claude 4.0以來,比較頂尖的Coding模型大致都會(huì)有類似表現(xiàn)。

GLM-4.5-Air

再來看下gpt-oss-120b的效果,emmm...我都不好意思貼圖,如果不是我自己測出來的,我甚至?xí)X得我這是特意給OpenAI寫的黑稿

gpt-oss-120b

后面嘗試過幫gpt-oss-120b挽尊,又嘗試了幾次抽卡,但還是不行,事實(shí)確實(shí)就這么糟...

我仔細(xì)看了看gpt-oss-120b為我生成的html代碼,算是發(fā)現(xiàn)了一點(diǎn)問題所在:讓你給我寫代碼,你“...省略”是個(gè)怎么回事...

我的這份無語也省略了。

評測3:邏輯推理題

再測代碼問題的話,就是對OpenAI的不禮貌了...所以,我們還是跑點(diǎn)別的任務(wù)吧,比如邏輯推理。

背景:有五棟并排的房子,每棟房子的顏色都不同。每棟房子里都住著一個(gè)不同國籍的人。每個(gè)人都喝不同的飲料,抽不同品牌的雪茄,養(yǎng)不同的寵物。 已知條件: 
1. 英國人住在紅色的房子里。 
2. 瑞典人養(yǎng)狗。 
3. 丹麥人喝茶。 
4. 綠房子在白房子的正左邊。 
5. 綠房子的主人喝咖啡。 
6. 抽 Pall Mall 牌雪茄的人養(yǎng)鳥。 
7. 黃房子的主人抽 Dunhill 牌雪茄。 
8. 住在中間那棟房子里的人喝牛奶。 
9. 挪威人住在第一棟房子里。 
10. 抽 Blends 牌雪茄的人住在養(yǎng)貓的人旁邊。 
11. 養(yǎng)馬的人住在抽 Dunhill 牌雪茄的人旁邊。 
12. 抽 Bluemasters 牌雪茄的人喝啤酒。 
13. 德國人抽 Prince 牌雪茄。 
14. 挪威人住在藍(lán)色房子的旁邊。 
15. 抽 Blends 牌雪茄的人,他的鄰居喝水。 
問題:誰養(yǎng)魚?請展示你的推理過程。

在這個(gè)問題上,GLM-4.5-Air和gpt-oss-120b都給了我正確答案:德國人養(yǎng)魚

GLM-4.5-Air

gpt-oss-120b

不過整個(gè)過程中,gpt-oss-120b的思考速度讓我感覺是很快,我測了兩次,分別是思考了6秒鐘和36秒,而GLM-4.5-Air好像是想得有點(diǎn)過多和過于謹(jǐn)慎了,大概花了90秒才給出答案,所以這個(gè)問題就當(dāng)是推理能力一致的情況下,gpt-oss-120b以速度優(yōu)勢小勝吧。

03

通過上面的三組測試,我自己的感受是,gpt-oss-120b這個(gè)模型離開源模型的SOTA還有點(diǎn)距離,包括他們發(fā)出的benchmark分?jǐn)?shù)也像吳恩達(dá)所說的,我們可能還需要再期待下第三方的公允測試才行。

以及,我自己不是技術(shù)出身,但是我的感覺是MoE架構(gòu)的大模型,如果激活參數(shù)太少的話,做起依賴邏輯的數(shù)學(xué)、推理題可能問題不大,但是在知識的準(zhǔn)確性上會(huì)出些問題,就像我們都知道的“大模型是互聯(lián)網(wǎng)知識的模糊壓縮”,參數(shù)量越小,壓縮率越高,所看見的知識也就越模糊。

所以,51億的激活參數(shù)給了gpt-oss-120b更快的推理速度,但犧牲的就是你所獲得結(jié)果的準(zhǔn)確性,不管是代碼中一個(gè)開源圖片的索引鏈接,還是你想知道的關(guān)于這個(gè)世界的任何知識。

我很高興OpenAI進(jìn)入開源模型領(lǐng)域攪局,我們有機(jī)會(huì)看到更激烈的開源大模型的“巔峰對決”,但是就這一刻來說,我不會(huì)把編程的任務(wù)交給gpt-oss-120b,或者交給任何的OpenAI模型。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
財(cái)政部部長藍(lán)佛安:明年繼續(xù)“國補(bǔ)”,支持消費(fèi)品以舊換新

財(cái)政部部長藍(lán)佛安:明年繼續(xù)“國補(bǔ)”,支持消費(fèi)品以舊換新

極目新聞
2025-12-28 15:45:56
成都豐田爆炸原因曝光,現(xiàn)場一片狼藉損失慘重

成都豐田爆炸原因曝光,現(xiàn)場一片狼藉損失慘重

映射生活的身影
2025-12-28 19:35:49
外國人是如何被中餐征服的?網(wǎng)友:我這邊中餐廳都只有中國人吃

外國人是如何被中餐征服的?網(wǎng)友:我這邊中餐廳都只有中國人吃

帶你感受人間冷暖
2025-12-26 00:05:14
火藥味,越來越濃了!

火藥味,越來越濃了!

子說一點(diǎn)
2025-12-27 18:36:54
俄絕不答應(yīng)!剛拿到中方48億投資,轉(zhuǎn)頭就給美國送去“大禮”?

俄絕不答應(yīng)!剛拿到中方48億投資,轉(zhuǎn)頭就給美國送去“大禮”?

花花娛界
2025-12-28 20:28:50
毛新宇攜家人祭奠爺爺:17歲漂亮女兒正面照流出,一畫面信息量大

毛新宇攜家人祭奠爺爺:17歲漂亮女兒正面照流出,一畫面信息量大

博士觀察
2025-12-27 10:54:27
剛剛,20家公司出現(xiàn)重大利好和利空公告,有沒有與你相關(guān)的個(gè)股?

剛剛,20家公司出現(xiàn)重大利好和利空公告,有沒有與你相關(guān)的個(gè)股?

股市皆大事
2025-12-28 09:50:10
當(dāng)下,請你做好隨時(shí)失去一切的準(zhǔn)備。

當(dāng)下,請你做好隨時(shí)失去一切的準(zhǔn)備。

詩詞中國
2025-12-28 17:43:04
大量海外版回音壁流入閑魚!100W大功率帶低音炮,低至288元

大量海外版回音壁流入閑魚!100W大功率帶低音炮,低至288元

閑搞機(jī)
2025-12-28 11:06:20
美國國務(wù)院發(fā)火,要求中國大陸“必須停止”,島內(nèi)一個(gè)時(shí)代或終結(jié)

美國國務(wù)院發(fā)火,要求中國大陸“必須停止”,島內(nèi)一個(gè)時(shí)代或終結(jié)

三石記
2025-12-27 15:03:24
這家浙江工廠訂單多到做不完,老板:春節(jié)先放20天假,再發(fā)2000元

這家浙江工廠訂單多到做不完,老板:春節(jié)先放20天假,再發(fā)2000元

搗蛋窩
2025-12-28 15:40:13
54歲埃梅里封神!震撼11連勝創(chuàng)111年紀(jì)錄 已掀翻5豪門+阿森納顫抖

54歲埃梅里封神!震撼11連勝創(chuàng)111年紀(jì)錄 已掀翻5豪門+阿森納顫抖

我愛英超
2025-12-28 03:55:16
洪都拉斯準(zhǔn)總統(tǒng)公開喊話:與臺灣合作,要比與大陸合作好100倍

洪都拉斯準(zhǔn)總統(tǒng)公開喊話:與臺灣合作,要比與大陸合作好100倍

策略述
2025-12-28 14:25:37
闞清子面臨巨額違約索賠,未婚夫一家變臉,孩子去世后豪門夢破碎

闞清子面臨巨額違約索賠,未婚夫一家變臉,孩子去世后豪門夢破碎

花哥扒娛樂
2025-12-28 19:49:42
連續(xù)下跌10年的“中字頭”,有的橫盤8年,有的已跌85%!

連續(xù)下跌10年的“中字頭”,有的橫盤8年,有的已跌85%!

財(cái)經(jīng)智多星
2025-12-28 13:25:52
天山勝利隧道通車!其意義不亞于中國建造航母,對新疆意味什么?

天山勝利隧道通車!其意義不亞于中國建造航母,對新疆意味什么?

特特農(nóng)村生活
2025-12-28 01:00:36
比液冷還猛?英偉達(dá)Rubin引爆HVLP4銅箔   國產(chǎn)9龍頭迎接海外訂單

比液冷還猛?英偉達(dá)Rubin引爆HVLP4銅箔 國產(chǎn)9龍頭迎接海外訂單

元芳說投資
2025-12-28 06:00:11
日本選手在南京奪冠!頒獎(jiǎng)靠邊站,蒯曼想讓她捧杯,秦志戩沒同意

日本選手在南京奪冠!頒獎(jiǎng)靠邊站,蒯曼想讓她捧杯,秦志戩沒同意

三十年萊斯特城球迷
2025-12-28 17:22:15
曝安徽“女神”卡友王迪去世,僅37歲,友人曝原因,名下三輛德龍

曝安徽“女神”卡友王迪去世,僅37歲,友人曝原因,名下三輛德龍

裕豐娛間說
2025-12-28 00:07:11
貝克漢姆26歲長子跟富豪岳父拍全家福,抱嬌妻很滿足,與父母斷聯(lián)

貝克漢姆26歲長子跟富豪岳父拍全家福,抱嬌妻很滿足,與父母斷聯(lián)

譯言
2025-12-27 09:33:47
2025-12-28 21:16:49
AI進(jìn)化論花生 incentive-icons
AI進(jìn)化論花生
AI博主,AppStore付費(fèi)榜第一的小貓補(bǔ)光燈app開發(fā)者
102文章數(shù) 47關(guān)注度
往期回顧 全部

科技要聞

特斯拉將在華布局自動(dòng)駕駛?記者求證→

頭條要聞

新華社發(fā)文:積蓄統(tǒng)一大勢

頭條要聞

新華社發(fā)文:積蓄統(tǒng)一大勢

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂要聞

白敬亭現(xiàn)身冰雪大世界 拍視頻還翻車了

財(cái)經(jīng)要聞

英偉達(dá)的收購史

汽車要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

親子
健康
數(shù)碼
教育
藝術(shù)

親子要聞

原來真的有學(xué)霸父母“學(xué)渣”娃的情況!網(wǎng)友:看完瞬間心理平衡!

這些新療法,讓化療不再那么痛苦

數(shù)碼要聞

AM4老兵不死:銳龍7 5800X登上銷量榜首!前十有4款是AM4

教育要聞

雅思3個(gè)月提2分,因?yàn)槲覀冏鰧α诉@幾件事!

藝術(shù)要聞

驚艷!陳紅20年前沙發(fā)照曝光,宛如人間尤物!

無障礙瀏覽 進(jìn)入關(guān)懷版