国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

尺寸差了一個(gè)量級(jí),如何較量?DeepSeek R1與阿里QwQ-32B

0
分享至

原創(chuàng):親愛(ài)的數(shù)據(jù)

2025年3月6日,

阿里通義千問(wèn)團(tuán)隊(duì)推出推理模型

QwQ-32B大語(yǔ)言模型。

看似普通的一則新聞,

發(fā)布了一個(gè)模型這么件事。

阿里尚未發(fā)布詳細(xì)的技術(shù)報(bào)告來(lái)解釋QwQ是如何開(kāi)發(fā)的,甚至新聞官網(wǎng)只有742個(gè)字。

《QwQ-32B:擁抱強(qiáng)化學(xué)習(xí)的力量》

該怎么理解呢?

我的理解,

QwQ-32B是一款稠密(又稱(chēng)密集)推理模型。

雖然只有一句話(huà),但是信息量很大。

想讀懂的話(huà),要很多“知識(shí)儲(chǔ)備”,

什么是MoE(混合專(zhuān)家模型)?

什么是稠密模型?

什么是推理模型?

模型參數(shù)規(guī)模怎么對(duì)比?

背后隱藏的不少問(wèn)題都可展開(kāi)聊,

不如,聊聊有哪些結(jié)論?

第一點(diǎn),QWQ模型有一個(gè)系列,

阿里在上一版的基礎(chǔ)上,

用了R1也同樣用了的強(qiáng)化學(xué)習(xí)技術(shù)。

好消息是出效果了,不出效果不會(huì)放出來(lái)。

畢竟這個(gè)是開(kāi)源模型,

只有閉源模型才愿意買(mǎi)廣告胡吹,

開(kāi)源模型則不需要。

反觀很多大模型友商,

還停留在花錢(qián)買(mǎi)彩虹屁的石器時(shí)代。

在開(kāi)源打得如此激烈的當(dāng)下,顯得尤為又自嗨。

拋開(kāi)“強(qiáng)不強(qiáng)”不聊,

要知道大模型技術(shù)人員的知識(shí)體系涇渭分明,

你是做視覺(jué)的,就是視覺(jué);

你是自然語(yǔ)言處理的就是自然語(yǔ)言處理,

而強(qiáng)化學(xué)習(xí)是另外一套知識(shí)體系。

強(qiáng)化學(xué)習(xí)這條道路,

大模型團(tuán)隊(duì)里沒(méi)有點(diǎn)技術(shù)儲(chǔ)備都發(fā)不了力。

阿里畢竟是阿里,

看到強(qiáng)化學(xué)習(xí)的天花板還能往上推,

就毫不猶豫地往上推。

恭喜阿里出效果,恭喜團(tuán)隊(duì)奮戰(zhàn)有成績(jī)。

無(wú)獨(dú)有偶,一天之前,

2024年的圖靈獎(jiǎng)?lì)C給了一對(duì)著名的師徒:

Richard Sutton有“強(qiáng)化學(xué)習(xí)之父”的美名。

Andrew Barto是Sutton的博導(dǎo)。

自1980年代起,

兩位均對(duì)強(qiáng)化學(xué)習(xí)持續(xù)做出奠基性貢獻(xiàn)。

一邊是企業(yè)界的前沿技術(shù)突破,

另一邊則是對(duì)強(qiáng)化學(xué)習(xí)理論基礎(chǔ)的權(quán)威認(rèn)可。

這兩者實(shí)際上是相輔相成的,

正是幾十年前奠定的堅(jiān)實(shí)理論基礎(chǔ),

才使得今天我們能夠在工業(yè)界實(shí)現(xiàn)如此驚人的技術(shù)突破。向強(qiáng)化學(xué)習(xí)開(kāi)創(chuàng)者的致敬,向DeepSeek R1團(tuán)隊(duì),向阿里千問(wèn)團(tuán)隊(duì),用強(qiáng)化學(xué)習(xí)推動(dòng)模型技術(shù)進(jìn)步的工程師致敬。

第二點(diǎn),在推理模型大火之后,

大家都只做推理模型這一種類(lèi)型了嗎?

當(dāng)然不是。

這里就不得不把Claude 3.7 Sonnet這個(gè)模型拉出來(lái)對(duì)比一下。

這也是一個(gè)剛剛(2月25日)放出來(lái)的新模型,

是Claude 3.5 Sonnet的升級(jí)版。

不得不感慨一句,版本號(hào)增長(zhǎng)得如此之快,

可見(jiàn)軟件版本迭代得多快,

可見(jiàn)其背后的技術(shù)進(jìn)展有多快。

AI的競(jìng)爭(zhēng)有多激烈。

我特別強(qiáng)調(diào),Claude 3.7 Sonnet模型的技術(shù)路線(xiàn),

和QwQ-32B模型大不一樣,完全不同。

QwQ-32B模型強(qiáng)調(diào)推理性能,

是一個(gè)獨(dú)立的推理模型,

而Claude 3.7 Sonnet模型有推理能力(慢思考),

但是Claude團(tuán)隊(duì)把快慢思考集成在一個(gè)模型里了,

你想用哪個(gè)就選哪個(gè)。

特別注意的是,

選擇按鈕的背后是一個(gè)“二合一”的模型,

而不是一個(gè)“選項(xiàng)”一個(gè)模型,

技術(shù)博客上的表述是,人類(lèi)使用同一個(gè)大腦,

既能靜心思考,又有快速反應(yīng)。

阿里是否也在做和Claude團(tuán)隊(duì)類(lèi)似的事情,

不得而知。

但是你用推理模型去快問(wèn)快答簡(jiǎn)單問(wèn)題,

肯定不合適,

比如,你問(wèn)推理模型“你好”,

模型推理一番回答你,

或者是啰啰嗦嗦回答一堆。

比如,下面這種肯定不行,

日后定會(huì)想辦法解決。

第三點(diǎn),為什么QWQ-32B可達(dá)到DeepSeek R1的“智商”水平?

尤其是在尺寸差了一個(gè)量級(jí)的情況下。

在MoE模型出道之后,

模型參數(shù)規(guī)模不再是名字上掛的那個(gè)數(shù)字,

比如,DeepSeek R1擁有6710億的巨大的參數(shù)量,但由于創(chuàng)新性地使用了MoE架構(gòu),以及MLA(多頭潛在注意力機(jī)制)的方法,每次推理僅激活370億參數(shù)(占比總量6%)。這使得DeepSeek R1雖然整體參數(shù)量很大,但干活時(shí)只需要?jiǎng)佑脴O小的一部分力量。

MoE模型是稀疏模型,

也就是說(shuō),并不是每個(gè)計(jì)算步驟都會(huì)用到全部的模型參數(shù),而是通過(guò)選取一些專(zhuān)家來(lái)參與計(jì)算。就好比,有一個(gè)專(zhuān)家?guī)?,但是每次干活不是?zhuān)家?guī)炖锏膶?zhuān)家全體出動(dòng)。

DeepSeek R1的驚人之處在于,

1個(gè)共享專(zhuān)家和256個(gè)專(zhuān)家,

實(shí)際上,歷史上,哪個(gè)MoE模型也從來(lái)沒(méi)有過(guò)達(dá)到如此龐大的專(zhuān)家數(shù)量。專(zhuān)家多了一時(shí)爽,那就問(wèn)負(fù)載均衡怎么辦?

當(dāng)然DeepSeek處理得很好,

但是這篇文章不聊這個(gè),按下不表。

DeepSeek每次通過(guò)路由專(zhuān)家,只選8個(gè)模型,

也就是說(shuō)只有8個(gè)專(zhuān)家干活了,其他閑著。

那么問(wèn)題來(lái)了,你統(tǒng)計(jì)工作量的時(shí)候,

是不是只算這8個(gè)(僅激活370億參數(shù))就夠了。

于是,真正用來(lái)比較的,

是千問(wèn)QWQ-32B和DeepSeek R1模型的37B。

“閑置專(zhuān)家”不在考慮范圍內(nèi)。

比模型整個(gè)的參數(shù)規(guī)模更難理解的是真正“參與工作”的參數(shù),這個(gè)問(wèn)題確實(shí)是伴隨著MoE模型而出現(xiàn)的,從激活量來(lái)看,32B(320億參數(shù))比37B(370億參數(shù))少不了多少,這是一種進(jìn)步。

激活量少了,隨之而來(lái)的是,成本降低,性?xún)r(jià)比提高。另有一個(gè)關(guān)鍵點(diǎn),阿里通義千問(wèn)團(tuán)隊(duì)的這個(gè)模型是每個(gè)專(zhuān)家每次都在干活,而DeepSeek R1模型是每次干活是不同的專(zhuān)家。因?yàn)镸oE的大參數(shù)量可不是吃白飯的,

MoE的全量大參數(shù)對(duì)模型能力極有加成,對(duì)于每個(gè)token激活的是不同的37B(370億參數(shù))這個(gè)時(shí)候,我想說(shuō),QWQ-32B的專(zhuān)家還挺能打的,畢竟DeepSeek R1模型的整體專(zhuān)家數(shù)量在這里擺著,長(zhǎng)期干活的專(zhuān)家要會(huì)更多知識(shí)才能和擅長(zhǎng)不同的更細(xì)分的領(lǐng)域的“當(dāng)值專(zhuān)家”一較高下。

看到這里,我挺激動(dòng)的,再次為千問(wèn)團(tuán)隊(duì)高興。

而我更高興的是,DeepSeek最大的價(jià)值不是被膜拜,而是被超越。

(完)

One More thing

玩MoE模型,如何榨干芯片性能?

這個(gè)問(wèn)題的答案得問(wèn)DeepSeek,

他們將MoE技術(shù)拉到一個(gè)新高度,

又在分布式計(jì)算,通信庫(kù)等底層基礎(chǔ)設(shè)施方面大大下了一番功夫,

恭喜DeepSeek,喜提成本利潤(rùn)率545%,

每秒輸出吞吐量約1.5萬(wàn)tokens。

(官宣數(shù)據(jù)14.8k tokens/s)。

我最近聊天的口頭禪就是:

“人家DeepSeek每秒輸出吞吐一萬(wàn)五,

友商吞吐原地杵。”

一萬(wàn)五是一次綜合實(shí)力的大檢閱。

數(shù)字這么好看,這真是一件好事,

整個(gè)系統(tǒng)的吞吐量越大越好,

問(wèn)題在于怎么把吞吐做上去。

人人都知道要榨干芯片性能,

問(wèn)題在于怎么榨干。

一個(gè)模型在某種型號(hào)的芯片上跑起來(lái),

這個(gè)系統(tǒng)的總吞吐量的理論峰值,

是由芯片性能決定的。

芯片性能是上限,

也是工程團(tuán)隊(duì)竭盡全力接近的目標(biāo)。

做出極高的總吞吐量,夢(mèng)寐以求。

也就是說(shuō),有N個(gè)廠商,

每個(gè)都跑同樣的DeepSeek R1模型,

每個(gè)廠商都用同樣數(shù)量的芯片,

誰(shuí)做到的總吞吐量最高,誰(shuí)就最賺錢(qián)。

這門(mén)生意本質(zhì)就是這點(diǎn)了。

對(duì)比一些友商和DeepSeek的吞吐,

DeepSeek高了10倍。

至于為何是10倍,得拿另外一篇文章來(lái)講。

有興趣的讀者,請(qǐng)?jiān)谖哪┝粞钥蹟?shù)字1。

阿里千問(wèn)團(tuán)隊(duì)也有MoE模型的經(jīng)驗(yàn)。

或者這么說(shuō),DeepSeek的基礎(chǔ)設(shè)施是為MOE設(shè)計(jì)的,效率非常之高,給誰(shuí)一時(shí)都很難超越,不如在自己擅長(zhǎng)的技術(shù)路線(xiàn)上發(fā)展。那天,我和武漢人工智能研究院王金橋院長(zhǎng)一起吃拉面,他還給我科普:“MoE(稀疏)模型適合大型To C業(yè)務(wù)量,Dense(稠密)適合To B業(yè)務(wù)量?!?/p>

阿里選擇稠密模型的理由非常充分,

云計(jì)算廠商就是服務(wù)To B業(yè)務(wù)的。

一周之后,DeepSeek就搞了開(kāi)源周,

不得不說(shuō),慷慨開(kāi)源很多MoE底層技術(shù),

商業(yè)機(jī)密肯定還有很多。

我所知道的是,

稀疏和稠密是兩種完全不同的技術(shù)路線(xiàn),

榨干芯片性能的方法完全不一樣,

把稠密技術(shù)路線(xiàn)調(diào)為MoE稀疏技術(shù)路線(xiàn)談何容易。

當(dāng)DeepSeek橫空出世,不只是模型,

而是模型帶著它的榨干芯片性能的全套方案一起橫空出世,這可是MoE專(zhuān)屬方案。

這時(shí),有一個(gè)選擇題擺在大模型廠商面前,

在致敬和學(xué)習(xí)之后,也要做MoE模型嗎?

這個(gè)問(wèn)題我特別想問(wèn)千問(wèn)團(tuán)隊(duì)的人,

無(wú)奈周靖人把團(tuán)隊(duì)看得太嚴(yán)了。

此時(shí),我想,他們已經(jīng)給我答案了。

我們回憶一下,在DeepSeek爆火之前,

通義千問(wèn)72B橫掃企業(yè)級(jí)市場(chǎng),

無(wú)論中國(guó),還是美國(guó),頭部科技大廠內(nèi)部都在悄悄用通義千問(wèn)72B。阿里千問(wèn)團(tuán)隊(duì)和美國(guó)Meta公司(Llama)選擇同一種開(kāi)源市場(chǎng)策略。

面對(duì)令人尊敬的挑戰(zhàn)者,

阿里交出了自己的答卷。

競(jìng)爭(zhēng)還在繼續(xù)。

(完)

聲明:個(gè)人原創(chuàng),僅供參考

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
許家印突發(fā)消息

許家印突發(fā)消息

新浪財(cái)經(jīng)
2026-04-04 18:41:17
鄭麗文“一國(guó)兩區(qū)”是比“一國(guó)兩制”更寬松,還是變相“獨(dú)臺(tái)”?

鄭麗文“一國(guó)兩區(qū)”是比“一國(guó)兩制”更寬松,還是變相“獨(dú)臺(tái)”?

取經(jīng)的兵
2026-04-04 09:42:41
伊朗伊斯蘭革命衛(wèi)隊(duì)最新任命

伊朗伊斯蘭革命衛(wèi)隊(duì)最新任命

第一財(cái)經(jīng)資訊
2026-04-04 13:38:58
今日油價(jià)|4月4日調(diào)整后92/95號(hào)汽油價(jià)格,下周油價(jià)將大漲!

今日油價(jià)|4月4日調(diào)整后92/95號(hào)汽油價(jià)格,下周油價(jià)將大漲!

豬友巴巴
2026-04-04 16:20:03
陳光標(biāo)送張雪勞斯萊斯后續(xù)!真實(shí)目的被扒,網(wǎng)友一邊倒:太虛偽了

陳光標(biāo)送張雪勞斯萊斯后續(xù)!真實(shí)目的被扒,網(wǎng)友一邊倒:太虛偽了

青橘罐頭
2026-04-03 07:21:11
這是張雪峰創(chuàng)業(yè)初期和女兒張姩菡的舊合照

這是張雪峰創(chuàng)業(yè)初期和女兒張姩菡的舊合照

歲月有情1314
2026-04-04 10:26:01
彈射逃生后,美飛行員會(huì)怎么做?

彈射逃生后,美飛行員會(huì)怎么做?

新京報(bào)
2026-04-04 15:48:14
學(xué)醫(yī)后才知道,心衰最危險(xiǎn)信號(hào),不是氣喘,而是頻繁出現(xiàn) 4 種異常

學(xué)醫(yī)后才知道,心衰最危險(xiǎn)信號(hào),不是氣喘,而是頻繁出現(xiàn) 4 種異常

今日養(yǎng)生之道
2026-04-04 13:45:35
一天兩架美軍戰(zhàn)機(jī)被擊落,特朗普“贏” 不下去了 | 京釀館

一天兩架美軍戰(zhàn)機(jī)被擊落,特朗普“贏” 不下去了 | 京釀館

新京報(bào)評(píng)論
2026-04-04 15:40:55
東部戰(zhàn)區(qū)發(fā)海報(bào)!描繪統(tǒng)一后臺(tái)灣省清明節(jié)場(chǎng)景

東部戰(zhàn)區(qū)發(fā)海報(bào)!描繪統(tǒng)一后臺(tái)灣省清明節(jié)場(chǎng)景

看看新聞Knews
2026-04-03 23:47:04
重慶官方通報(bào)廣陽(yáng)島固定三角翼飛行器墜落,目擊者:從頭頂飛過(guò),發(fā)動(dòng)機(jī)聲音有些不對(duì),不到10秒就墜機(jī)了

重慶官方通報(bào)廣陽(yáng)島固定三角翼飛行器墜落,目擊者:從頭頂飛過(guò),發(fā)動(dòng)機(jī)聲音有些不對(duì),不到10秒就墜機(jī)了

極目新聞
2026-04-04 19:19:00
有一種從不坑窮人的奢侈品,叫巴黎世家

有一種從不坑窮人的奢侈品,叫巴黎世家

不惑豬的頻道
2026-04-03 17:31:54
“美軍特種部隊(duì)已進(jìn)入伊朗”

“美軍特種部隊(duì)已進(jìn)入伊朗”

觀察者網(wǎng)
2026-04-04 20:03:27
朝鮮宣布停用中國(guó)衛(wèi)星,改用俄羅斯衛(wèi)星,無(wú)形中幫了中國(guó)一個(gè)忙

朝鮮宣布停用中國(guó)衛(wèi)星,改用俄羅斯衛(wèi)星,無(wú)形中幫了中國(guó)一個(gè)忙

花寒弦絮
2026-04-04 00:48:59
"豬肝紅"!上海人被堵傻眼,多個(gè)服務(wù)區(qū)一度進(jìn)不去

"豬肝紅"!上海人被堵傻眼,多個(gè)服務(wù)區(qū)一度進(jìn)不去

看看新聞Knews
2026-04-04 20:07:10
工信部連夜緊急提醒:你的iPhone正在被“看光”?請(qǐng)立即執(zhí)行這個(gè)操作

工信部連夜緊急提醒:你的iPhone正在被“看光”?請(qǐng)立即執(zhí)行這個(gè)操作

圓維度
2026-04-03 21:01:05
張雪因手掌太紅被網(wǎng)友提醒及時(shí)就醫(yī)!此前回應(yīng):肝沒(méi)問(wèn)題!醫(yī)生提醒

張雪因手掌太紅被網(wǎng)友提醒及時(shí)就醫(yī)!此前回應(yīng):肝沒(méi)問(wèn)題!醫(yī)生提醒

封面新聞
2026-04-04 00:47:37
為營(yíng)救F-15飛行員,美軍特種兵冒死突入伊朗,地面戰(zhàn)激烈交火

為營(yíng)救F-15飛行員,美軍特種兵冒死突入伊朗,地面戰(zhàn)激烈交火

共工之錨
2026-04-04 00:05:37
他問(wèn)馬克思無(wú)產(chǎn)階級(jí)革命者掌權(quán)后還是無(wú)產(chǎn)階級(jí)嗎?不久他就被開(kāi)除

他問(wèn)馬克思無(wú)產(chǎn)階級(jí)革命者掌權(quán)后還是無(wú)產(chǎn)階級(jí)嗎?不久他就被開(kāi)除

愛(ài)競(jìng)彩的小周
2026-04-04 04:11:13
美國(guó)F-15E戰(zhàn)斗機(jī)被擊落,飛行員逃生,現(xiàn)已全部救回

美國(guó)F-15E戰(zhàn)斗機(jī)被擊落,飛行員逃生,現(xiàn)已全部救回

金召點(diǎn)評(píng)
2026-04-04 14:30:23
2026-04-04 21:28:49
親愛(ài)的數(shù)據(jù) incentive-icons
親愛(ài)的數(shù)據(jù)
《我看見(jiàn)了風(fēng)暴:人工智能基建革命》一書(shū)作者
693文章數(shù) 219913關(guān)注度
往期回顧 全部

科技要聞

內(nèi)存一年漲四倍!國(guó)產(chǎn)手機(jī)廠商集體漲價(jià)

頭條要聞

馬克龍?jiān)陧n國(guó)發(fā)表講話(huà):"中等強(qiáng)國(guó)"不能成為中美附庸

頭條要聞

馬克龍?jiān)陧n國(guó)發(fā)表講話(huà):"中等強(qiáng)國(guó)"不能成為中美附庸

體育要聞

剎不住的泰格·伍茲,口袋里的兩粒藥丸

娛樂(lè)要聞

Q女士反擊,否認(rèn)逼宋寧峰張婉婷離婚

財(cái)經(jīng)要聞

中微董事長(zhǎng),給半導(dǎo)體潑點(diǎn)冷水

汽車(chē)要聞

17萬(wàn)級(jí)海豹07EV 不僅續(xù)航長(zhǎng)還有9分鐘滿(mǎn)電的快樂(lè)

態(tài)度原創(chuàng)

游戲
房產(chǎn)
旅游
家居
公開(kāi)課

LCK第二賽段:菜雞互啄,DK零封KRX

房產(chǎn)要聞

小陽(yáng)春全面啟動(dòng)!現(xiàn)房,才是這波行情里最穩(wěn)的上車(chē)票

旅游要聞

新華財(cái)經(jīng)|春假催熱旅游市場(chǎng) 多業(yè)態(tài)聯(lián)動(dòng)釋放消費(fèi)活力

家居要聞

溫馨多元 愛(ài)的具象化

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版