国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

OpenAI 下場,國產(chǎn)開源還有機(jī)會嗎?從 gpt-oss 與 Qwen3/DS 的技術(shù)路線說起

0
分享至

北京時間8月5日,OpenAI 終于發(fā)布了其自 GPT-2 以來的首個開源大模型 gpt-oss,整個技術(shù)圈瞬間沸騰。在眾多媒體和開發(fā)者涌向官方博客和性能榜單的同時,我更習(xí)慣直奔主題——扒開它在 Hugging Face 上公開的 config.json 配置文件,從最底層的技術(shù)架構(gòu),一探究竟。

這次時隔多年的“Open”,究竟是革命性的技術(shù)突破,還是現(xiàn)有技術(shù)的精巧組合?它與 Qwen3、Kimi K2 等國產(chǎn)開源大模型相比,在設(shè)計(jì)思路上有何本質(zhì)不同?其實(shí)際體驗(yàn)和可玩性又如何?

本文將從 【技術(shù)架構(gòu)解析與對比】【上手體驗(yàn)與感悟】【快速使用指南】 三個部分,為你帶來一份全面且深入的 gpt-oss 分析報告。

Part.01

開源技術(shù)分析和國內(nèi)開源大模型對比

我第一時間去hugging face上扒了120B模型的config文件,也就是模型的描述文件,就想看看它這次時隔多年的開源,到底有沒有什么重磅內(nèi)容。

這是詳細(xì)內(nèi)容,layer_ types層是sliding_ attention和full_attention的交錯分布,所以省略了。

作為對比,這里放了Qwen3的結(jié)構(gòu)。

先來看GPT oss的結(jié)構(gòu),MoE寫的明明白白了:GptOssForCausalLM,現(xiàn)在的大模型暫時還跑不出MoE這種結(jié)構(gòu)范圍內(nèi),畢竟這種結(jié)構(gòu)兼容了性能和速度,不二之選。

獨(dú)特的Attention交替排列

attention大家都用,傳統(tǒng)full attention,linear attnetion挺多,但是這種sliding_ attention和full_ attention交替排列的還是在開源大模型里面第一次見。

Qwen用的full_attention,剛剛看了下Kimi K2,也是full attention(繼承的DeepSeek R1結(jié)構(gòu)),可以說這個交錯的attention使用或者應(yīng)用,算是GPT oss一個獨(dú)創(chuàng)性的工作。

這種方式的直接效果就是極大的減少內(nèi)容的使用,這也是120B可以放到單卡H100,20B消費(fèi)級顯卡就可以使用的一個重要原因。

但是相比起full_attention,這種方式必定會減少一定程度的性能,但是至于是多少,得看更多的案例分析。

很稀疏的MoE + 路由器的強(qiáng)行均衡

num_local_experts: 128
experts_per_token: 4: 4

在其內(nèi)部,每一層都設(shè)有128個“專家”網(wǎng)絡(luò),但在處理任何一個任務(wù)時,系統(tǒng)只會智能地激活最相關(guān)的4位專家來協(xié)同工作。

但有一個細(xì)節(jié),router_ aux_ loss_ coef: 0.9,解釋一下,比如有很多個專家,但是系統(tǒng)可能會抽風(fēng),那么就會老讓最熱門的幾個專家(比如數(shù)學(xué)和編程專家)干活,他們肯定會忙不過來,造成交通擁堵,針對這種可能性GPT oss定了一個非常嚴(yán)格的規(guī)矩(router_aux_loss_coef: 0.9)。這個規(guī)矩強(qiáng)制調(diào)度員必須公平地給各位專家分配任務(wù),確保冷門的專家也能得到鍛煉,不會出現(xiàn)“旱的旱死,澇的澇死”的情況。

與此相比,Qwen3 模型在專家協(xié)作上則采用了截然不同的策略,它一次會激活 8位專家(是 gpt-oss 的兩倍),相當(dāng)于為每個任務(wù)都組建一個更龐大的“專家小組”,理論上能調(diào)動的瞬時智慧更多。

更關(guān)鍵的是,它的“調(diào)度員”規(guī)則非常寬松(router_ aux_ loss_coef: 0.001),幾乎不干涉專家的選擇。這更像一個“自由市場”,允許最頂尖的專家處理絕大部分他們擅長的問題,從而可能在特定領(lǐng)域形成極強(qiáng)的專業(yè)優(yōu)勢。

在這一點(diǎn)兒上,OpenAI非常的保守,它通過強(qiáng)有力的外部規(guī)則來保證系統(tǒng)的整體穩(wěn)定和健康,相信一個泛化、均衡的系統(tǒng)是通往強(qiáng)大通用人工智能的更可靠路徑。

而國內(nèi)的大多數(shù)開源大模型要激進(jìn)一些,它相信通過賦予模型內(nèi)部組件最大的自由,能夠涌現(xiàn)出更高效、更專業(yè)化的內(nèi)部結(jié)構(gòu),從而沖擊更高的性能極限。

Context:128K

這個上下文并沒有很夸張,中規(guī)中矩,畢竟Gemini直接干到了100萬,kimi也是。

就是RoPE + YaRN,核心代碼就是這里,本來的4096個,翻了32倍,直接干到128K。

Qwen3沒用這個,不過在Kimi k2,也就是DeepSeek R1上找到了類似的用法。

區(qū)別就是factor和rope_theta。

但是相比起開源的早晚,DeepSeek很早就應(yīng)用了這個技術(shù)并開源,功德更高。

詞表大小

只是列舉出區(qū)別,之前聽過有大佬說,這玩意也不是越大越好,但事實(shí)上GPT oss的詞表最大。

GPT oss:201088

Qwen3: 151936

Kimi k2: 129280

選擇性的量化

還是追求性能,應(yīng)該就是要把模型塞進(jìn)單卡里作為一個硬性約束,直接做了4bit的量化,不過在關(guān)鍵的部位依舊保持高精度。

DeepSeek也有類似的應(yīng)用,不過比起4bit要柔和了不少,用的8bit。

Part.02

體驗(yàn)效果分享和感悟

開源大模型從整體上暫時弱于閉源大模型。

這種弱幾乎是全方面的。

所以比較性能意義不大,之需要知道這個大模型還不錯,可以單卡運(yùn)行即可。

要關(guān)注的是它的可玩性:

  • Apache 2.0 許可:可自由用于實(shí)驗(yàn)、定制和商業(yè)部署。

  • 可調(diào)的推理力度:可設(shè)為“低、中、高”三檔,以平衡延遲與性能。

  • 完整的思維鏈:完全訪問模型的推理過程,便于調(diào)試和建立信任(不建議對終端用戶展示)。

  • 可微調(diào):支持參數(shù)微調(diào),以完全適應(yīng)特定業(yè)務(wù)。

  • 原生智能體能力:內(nèi)置函數(shù)調(diào)用、網(wǎng)頁瀏覽、代碼執(zhí)行和結(jié)構(gòu)化輸出能力。

  • 原生 MXFP4 量化:訓(xùn)練時自帶的量化精度,使120B模型能在單張H100上運(yùn)行,20B模型僅需16GB內(nèi)存。

我在OpenRouter上用20B的模型跟,Qwen3的30B,GLM4.5 Air和Kimi K2做了對比實(shí)驗(yàn)。

結(jié)果粗看大家性能都差不太多,GLM4.5 Air成功的破解了問題里預(yù)設(shè)的“雞蛋陷阱”,而GPT oss結(jié)果有點(diǎn)兒小問題,還是比較低級的計(jì)算問題,kimi k2發(fā)現(xiàn)了雞蛋陷阱,但是方法采用的是假設(shè)法,不是很理想。Qwen3也有點(diǎn)兒小問題,那就是最開始的時候竟然沒有區(qū)分公斤和斤,在做了提示之后沒什么問題,也避開了陷阱。

Part.03

使用方法介紹

OpenAI建議通過Huggingface使用:https://huggingface.co/openai/gpt-oss-120b

其中OpenAI提供了免費(fèi)玩的地方:

本地玩玩的話,推薦用Ollama,連代碼都不用運(yùn)行,直接一鍵激活下載功能。

有老哥在M1 ultra上測試了,token速度還可以。

最后,開源這個模型,對于OpenAI來說很重要,因?yàn)榻K于它Open了一把,但是對于整個開源大模型社區(qū),意義不是特別大,只是現(xiàn)有技術(shù)的組合應(yīng)用,相信很快會有基于GPT oss的二創(chuàng)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
AI圈發(fā)生9級地震:大神 Karpathy 的一條推文,戳破了所有人的幻想

AI圈發(fā)生9級地震:大神 Karpathy 的一條推文,戳破了所有人的幻想

AI范兒
2025-12-28 10:40:12
南博事件后,知名博主爆料:江西博物館的《米芾三札》疑似被調(diào)包

南博事件后,知名博主爆料:江西博物館的《米芾三札》疑似被調(diào)包

奇思妙想生活家
2025-12-28 12:11:18
2026年央視春晚分會場官宣:哈爾濱、義烏、合肥、宜賓

2026年央視春晚分會場官宣:哈爾濱、義烏、合肥、宜賓

三湘都市報
2025-12-28 16:14:44
靚麗好看的打底褲美女,休閑又不失潮流,非常有魅力!

靚麗好看的打底褲美女,休閑又不失潮流,非常有魅力!

朝史暮夕
2025-12-25 10:35:56
看了熱搜上臭名昭著的母女,我確信世上真有天生的壞種,代代遺傳

看了熱搜上臭名昭著的母女,我確信世上真有天生的壞種,代代遺傳

洞見
2025-12-26 21:13:17
增長278%,692億!韓國船企再獲15艘大單,中企卻剛剛“破零”?

增長278%,692億!韓國船企再獲15艘大單,中企卻剛剛“破零”?

品牌觀察官
2025-12-27 18:06:04
錢再多有什么用?獨(dú)居英國20年靠吃速凍餃子,64歲費(fèi)翔還是崩潰了

錢再多有什么用?獨(dú)居英國20年靠吃速凍餃子,64歲費(fèi)翔還是崩潰了

豐譚筆錄
2025-12-07 11:49:02
被排隊(duì)斬殺的美國人為什么不反抗?

被排隊(duì)斬殺的美國人為什么不反抗?

觀雨大神經(jīng)
2025-12-26 19:55:35
2026年春晚分會場官宣

2026年春晚分會場官宣

界面新聞
2025-12-28 15:50:43
南京一別墅7489萬余元法拍成交,僅物業(yè)費(fèi)就欠30余萬元

南京一別墅7489萬余元法拍成交,僅物業(yè)費(fèi)就欠30余萬元

現(xiàn)代快報
2025-12-28 13:47:08
-9℃低溫+中雪、大雪到暴雪 安徽將迎“跨年”冷空氣

-9℃低溫+中雪、大雪到暴雪 安徽將迎“跨年”冷空氣

北青網(wǎng)-北京青年報
2025-12-28 13:47:09
長得丑、演戲爛,爹媽“強(qiáng)捧不紅”的4位星二代,注定走不遠(yuǎn)

長得丑、演戲爛,爹媽“強(qiáng)捧不紅”的4位星二代,注定走不遠(yuǎn)

瓜汁橘長Dr
2025-12-27 14:52:48
商丘36歲銀行女經(jīng)理家中自縊:丈夫已死,儲戶賠償難,銀行不擔(dān)責(zé)

商丘36歲銀行女經(jīng)理家中自縊:丈夫已死,儲戶賠償難,銀行不擔(dān)責(zé)

奇思妙想草葉君
2025-12-28 01:45:36
俄發(fā)動大規(guī)模打擊,基輔供電供暖大范圍中斷,當(dāng)?shù)刂挥?℃,澤連斯基發(fā)聲!普京穿上了軍裝:前線迅速推進(jìn),已無興趣等烏方從占領(lǐng)區(qū)撤出

俄發(fā)動大規(guī)模打擊,基輔供電供暖大范圍中斷,當(dāng)?shù)刂挥?℃,澤連斯基發(fā)聲!普京穿上了軍裝:前線迅速推進(jìn),已無興趣等烏方從占領(lǐng)區(qū)撤出

每日經(jīng)濟(jì)新聞
2025-12-28 09:52:49
港媒發(fā)布文章《徐湖平父親究竟是誰》,沒多久遭到微博屏蔽

港媒發(fā)布文章《徐湖平父親究竟是誰》,沒多久遭到微博屏蔽

映射生活的身影
2025-12-27 19:34:50
攜程事件升級!用戶哭訴,注銷太難了,要手持身份證照片和手機(jī)號

攜程事件升級!用戶哭訴,注銷太難了,要手持身份證照片和手機(jī)號

火山詩話
2025-12-28 07:35:08
中國11月工業(yè)企業(yè)利潤同比降13.1%?,創(chuàng)下一年來的最大跌幅

中國11月工業(yè)企業(yè)利潤同比降13.1%?,創(chuàng)下一年來的最大跌幅

黑噪音
2025-12-28 12:37:21
兩人互毆被驅(qū)逐!太陽三殺3人20+鵜鶘 布克20分引7人上雙

兩人互毆被驅(qū)逐!太陽三殺3人20+鵜鶘 布克20分引7人上雙

醉臥浮生
2025-12-28 10:33:01
可以「追殺」徐鶯,誰敢奈何「康生」?

可以「追殺」徐鶯,誰敢奈何「康生」?

家傳編輯部
2025-12-28 09:37:04
美國通告全球,不許中印關(guān)系改善,中方反將一軍,莫迪該不高興了

美國通告全球,不許中印關(guān)系改善,中方反將一軍,莫迪該不高興了

博覽歷史
2025-12-27 18:08:35
2025-12-28 17:51:00
平凡AI incentive-icons
平凡AI
高校AI從業(yè)者
54文章數(shù) 23關(guān)注度
往期回顧 全部

科技要聞

特斯拉將在華布局自動駕駛?記者求證→

頭條要聞

賴清德彈劾案通過 臺媒體人:2026年要讓賴輸?shù)矫撗?/h3>

頭條要聞

賴清德彈劾案通過 臺媒體人:2026年要讓賴輸?shù)矫撗?/h3>

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂要聞

白敬亭現(xiàn)身冰雪大世界 拍視頻還翻車了

財(cái)經(jīng)要聞

英偉達(dá)的收購史

汽車要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

健康
時尚
教育
家居
本地

這些新療法,讓化療不再那么痛苦

瑞典拉普蘭:凜冽北境的萬物平衡之道

教育要聞

434所保研大學(xué)名單公布!參加考研?不!去上這些保研大學(xué)

家居要聞

格調(diào)時尚 智慧品質(zhì)居所

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬年史書

無障礙瀏覽 進(jìn)入關(guān)懷版