国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

家家都有DeepSeek服務,如何謊稱速度快?

0
分享至

不是人人都有“鈔能力”,我們的故事,

從用單節(jié)點方案部署DeepSeek-R1開始。

為什么是單節(jié)點呢?

因為H200單卡有140GB顯存,可用單節(jié)點(8卡)方案部署。

而H800和HI00顯存80GB,需要雙節(jié)點方案。

有卡了,就可以來玩DeepSeek。

世界是場游戲,是游戲就有作弊的玩家。

怎么作弊呢?等下說,

先看看芯片廠商AMD的官網(wǎng)技術博客。

網(wǎng)址在此:https://rocm.blogs.amd.com/artificial-intelligence/DeepSeekR1_Perf/README.html

時間是25年2月21日。

我相信哪怕是這幾天的時間,AMD的性能指標也還在增長。

沒辦法,AI就是這么卷。

換個角度,這篇可以說是,

從AMD官網(wǎng)博客中學習大模型推理性能知識點。

下圖是兩種芯片,英偉達H200和AMD MI300X,

用一個節(jié)點(8卡)跑出來的性能。

為什么要學這些知識點呢?

答案很簡單,以防被忽悠。

話說,性能指標是一個非常關鍵的數(shù)值,

背后都是技術實力,

甚至可以說性能是技術實力的終極體現(xiàn)。

是騾子是馬,你拉出來溜溜。

不過,現(xiàn)在是技術向上震蕩期,

很多人對大模型性能指標不熟悉,

會有人借機在這個指標上面作弊。

別著急知道作弊手法,

在看懂作弊之前我們先了解如何公平,

對,公平比較兩種芯片性能。

我們先看懂圖上的“已知條件”

圖上都有什么信息呢?

我們都知道,

大模型推理分為兩個關鍵任務,

有各自的生成時間:

一個是輸入(Prefill任務)所用時間,

另一個是輸出(Decode任務)所用時間。

其實所有的性能幾乎都可以分這兩個階段來觀察。

大模型推理中有兩個關鍵指標,

兩個關鍵指標是:

吞吐量(Throughput)和延遲(Latency)

吞吐量通常指每秒生成的token數(shù)量,

而延遲是從輸入到輸出的時間。

時間非常關鍵,

每秒吞吐量越高,意味著計算機系統(tǒng)能在單位時間內(nèi)處理更多的請求。

就是單位時間干的活越多越好。

當然,牛馬也一樣。

這張圖告訴我們:

圖中有兩種芯片,

英偉達H200型號和AMD的MI300X型號,

為了公平比較兩種芯片的性能,要統(tǒng)一測試,

為什么要統(tǒng)一測試?

這樣才能看出處理相同工作量時,

哪個芯片速度更快、效果更好。

我們要用相同的“題目量”和“回答量”來進行測試,

也就是,統(tǒng)一處理4000個token(題目和回答加在一起)。

圖中原話是:輸入3200個token和輸出800個token。

這樣,兩個系統(tǒng)都各自處理4000個token的信息量,

而且圖中已知,每個推理請求中,平均向系統(tǒng)問出500個問題。

這樣,測試“系統(tǒng)處理token數(shù)量”統(tǒng)一了。

這張圖還想告訴我們幾個技術概念,

吞吐量(單位:token/秒)

延遲(單位:毫秒)

下面,我們會把毫秒換算成秒。

而最大并發(fā)數(shù)(Max Concurrency)是什么呢?

就是衡量系統(tǒng)在同一時刻能同時服務多少個請求,

能讓我們了解AI 系統(tǒng)在真實環(huán)境下對大量請求的抗壓能力,

就像考場里同一時間安排多少考生一起考試的道理一樣。

最大并發(fā)數(shù),用Batch Size表示:

我們要根據(jù)不同的請求數(shù)量,觀察系統(tǒng)性能分別是多少。

因為是測試,所以非常細致,

能讓我們了解 AI 系統(tǒng)在真實環(huán)境下對大量請求的適應能力,

就像考場里同一時間安排多少考生一起考試的道理一樣。

當推理請求數(shù)量(Batch Size),

分別是是1,2,4……128,

Batch Size1是只有1個請求,

Batch Size2,同時處理2個請求,

Batch Size4,同時處理4個請求,

以此類推,直到Batch Size128,

就是同時處理128個請求。

打個比方,當我們說Batch Size1,

代表只有1個人在考試,1個人用考試系統(tǒng);

Batch Size2,代表有2個人一起考試;

以此類推,Batch Size128 ,

就意味著128個人同時在考試。

如果只有1 個人在考試(Batch Size1),

系統(tǒng)專心為一個考生服務,一般來說,速度慢不了;

如果有128 個考生一起考試(Batch Size128),

系統(tǒng)就要同時對128 個人的題目進行閱讀、思考、回答,負擔變大,

可能會增加等待時間。

我們再來看圖,

在圖上左下方讀到的第一個數(shù)字是170,

單位tokens/s。

意味著:

已知總共4000個token的信息量,

當BatchSize1的時候,每秒處理170個token,

以這種速度來處理,

那需要的時間就是4000除以170等于23.5秒。

就是用23.5秒就能把這4000個token算完。

23.5秒在時間軸橫軸上處于2萬毫秒右邊一點的位置。

沒有明確寫出來,但我們讀圖能讀出來。

圖片試圖說明AMD芯片性能很好,

然而,我對AMD的這種廣告沒有什么興趣。

我感興趣的是:AMD這個廠商很良心,

他們的性能數(shù)據(jù)很清楚地告訴我們,

輸入和輸出的字數(shù)是多少(輸入3200個token和輸出800個token),

3200+800就是系統(tǒng)總處理的token數(shù),

4000除以170等于23.5秒,

也就是說,decode任務時間是23秒,

也是恒定的塞進去的信息量就這么多。

好比,東西放進大模型里面多長時間能“出鍋”,

需要測量一個客觀的時間,

也就是,系統(tǒng)跑出來是幾秒就是幾秒。

生成速度,也就是多少秒生成多少token是一個硬指標,

是用總吞吐量除以測量出得時間得出來的。

這里要稍微計算一下了:

用圖上的已知信息倒著推理兩個信息。

當我們跑8張卡的H200的系統(tǒng)(單節(jié)點),

在Batch Size1的時候,情況如下:

情況一:輸入3200,輸出800,4000=3200+800

4000tokens除以170tokens/s等于23.53秒

估計decode時間大約為23秒,

再看decode的信息處理量是800token,

decode800tokens除以23秒等于35tokens/s。

看好了,這時候我要來“作弊”了,把輸入和輸出的數(shù)據(jù)互換一下。

情況二:輸入800,輸出3200,4000=800+3200

3200tokens除以34.78tokens/s,

就是每秒跑出來34.78個token,

雖然同樣還是處理總共4000個token,

但是,用3200除以35okens/s等于91秒,

decode時間就會變得很長,91秒。

都是處理同樣的信息量,調(diào)整輸入和輸出,

decode的時間從23秒變成了91秒。

這個技術細節(jié)非常重要。

有時候,廠商提供的測試數(shù)據(jù)是prefill和decode加在一起的,

當然,也可以說混在一起。

既然“混了”,“摸魚”的機會就來了,

好比兩個長跑運動員,

一個叫prefill,一個叫decode,

prefill跑得快,decode跑得慢,

至于為什么decode慢,

這個你的去問“注意力機制”這個家伙了,

都是它干的好事,這里不展開。

同樣的一段長跑運動,

prefill和decode的速度應該分別記錄,

假如想作弊,就把盡量長的路程給prefill跑,

它速度快,時間肯定就縮短了。

要是不懂,猛一看性能,覺得還挺快嘞。

還是那句話,性能是和采購決策相關的關鍵指標。

廠商AMD很客觀,告訴你比例了(輸入3200,輸出800),

有人會把prefill的比例調(diào)高點,數(shù)值就更好看了,

因為decode跑得慢,讓decode少跑,也就是少干點活。

請注意,有些性能指標旁邊標著“僅輸出”(decode only)

這不是不可以,而是,拿“僅輸出”的指標和整個推理的吞吐指標對比,

不講武德。

總結一下:寫性能,請把prefill和decode處理的工作量標清楚,謝謝。

最后預告下,過幾天發(fā)的文章,

我會把圖上所有的指標都算出來,會有新結論。

上一篇回顧:

《DeepSeek:為了這口醋,包了這頓餃子,為了數(shù)據(jù),我造了模型》

聲明:個人原創(chuàng),僅供參考

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
《紐約時報》為美國登月挽尊,NASA局長承認:中國可能更快登月

《紐約時報》為美國登月挽尊,NASA局長承認:中國可能更快登月

共工之錨
2026-04-03 18:46:27
臺灣地區(qū),長期阻礙中國統(tǒng)一就是馬英九。這個人非常之狡猾!

臺灣地區(qū),長期阻礙中國統(tǒng)一就是馬英九。這個人非常之狡猾!

安安說
2026-03-28 11:40:47
過于較真、操心太多,不是性格問題,是一種心理缺陷。別不信

過于較真、操心太多,不是性格問題,是一種心理缺陷。別不信

清風拂心
2026-04-02 08:15:03
吉林琿烏高速因暴雪致多車相撞,現(xiàn)場一片狼藉!

吉林琿烏高速因暴雪致多車相撞,現(xiàn)場一片狼藉!

吉林烏拉侯
2026-04-04 11:55:58
金昊,已被執(zhí)行死刑

金昊,已被執(zhí)行死刑

南方都市報
2026-04-04 12:09:08
650公里高速實測:電車油車差距太殘酷,真實感受句句不騙人

650公里高速實測:電車油車差距太殘酷,真實感受句句不騙人

復轉(zhuǎn)這些年
2026-04-01 09:06:39
獨生子女證真沒用了?2026年最新政策:這幾類家庭千萬別丟!

獨生子女證真沒用了?2026年最新政策:這幾類家庭千萬別丟!

復轉(zhuǎn)這些年
2026-04-04 07:50:35
李亞鵬談張雪機車奪冠眼眶濕潤:我也是資深車迷 騎了20多年車

李亞鵬談張雪機車奪冠眼眶濕潤:我也是資深車迷 騎了20多年車

快科技
2026-04-03 14:31:37
伊朗教科書級伏擊!美軍黑鷹中彈、A-10墜毀科威特,救援全線崩盤

伊朗教科書級伏擊!美軍黑鷹中彈、A-10墜毀科威特,救援全線崩盤

阿芒娛樂說
2026-04-04 12:35:51
世界杯最大黑馬誕生!18歲埃及小將逆轉(zhuǎn)名將,連救3個賽點創(chuàng)造奇跡。

世界杯最大黑馬誕生!18歲埃及小將逆轉(zhuǎn)名將,連救3個賽點創(chuàng)造奇跡。

最愛乒乓球
2026-04-04 07:41:56
李富真參加宴會!穿格紋西服與馬克龍握手十分謙虛,全智賢也去了

李富真參加宴會!穿格紋西服與馬克龍握手十分謙虛,全智賢也去了

八八尚語
2026-04-04 12:11:03
“太原一國企董事長上門毆打他人被行拘3天”最新進展:打人者停職2個多月后涉事國企迎新董事長

“太原一國企董事長上門毆打他人被行拘3天”最新進展:打人者停職2個多月后涉事國企迎新董事長

大風新聞
2026-04-04 11:30:04
看到有人說,悄悄復蘇了?

看到有人說,悄悄復蘇了?

中產(chǎn)先生
2026-04-03 12:08:02
1979年越南戰(zhàn)敗后,黎筍要求中國邊線北移100公里,楊得志:打!

1979年越南戰(zhàn)敗后,黎筍要求中國邊線北移100公里,楊得志:打!

兵卒史
2026-03-26 10:26:03
73歲大爺為43歲妻子做陰莖假體手術,網(wǎng)友破防了:這才是真愛

73歲大爺為43歲妻子做陰莖假體手術,網(wǎng)友破防了:這才是真愛

魔都姐姐雜談
2026-04-02 18:52:46
被質(zhì)疑蹭張水華流量!大眾一姐暴怒:人民日報說她要去參賽了?

被質(zhì)疑蹭張水華流量!大眾一姐暴怒:人民日報說她要去參賽了?

風過鄉(xiāng)
2026-04-04 09:09:30
假洋牌抽成80%!14萬人取關董宇輝

假洋牌抽成80%!14萬人取關董宇輝

智識漂流
2026-04-03 19:53:53
抽走裝備還不夠,如今要接管臺軍指揮權,美媒:你臺獨和我無關

抽走裝備還不夠,如今要接管臺軍指揮權,美媒:你臺獨和我無關

隱龍?zhí)煜?/span>
2026-04-04 13:03:26
徹底決裂!NBA正式介入調(diào)查,矛盾徹底公開,字母哥真不裝了

徹底決裂!NBA正式介入調(diào)查,矛盾徹底公開,字母哥真不裝了

球童無忌
2026-04-04 13:52:19
膽子太大!俄體操選手背對烏克蘭國旗,烏方:永久剝奪資格!

膽子太大!俄體操選手背對烏克蘭國旗,烏方:永久剝奪資格!

秋楓凋零
2026-04-04 10:36:25
2026-04-04 14:24:49
親愛的數(shù)據(jù) incentive-icons
親愛的數(shù)據(jù)
《我看見了風暴:人工智能基建革命》一書作者
693文章數(shù) 219913關注度
往期回顧 全部

數(shù)碼要聞

別被廠商洗腦了!彩色墨水屏全網(wǎng)最強指南:這樣買不踩坑

頭條要聞

男子建了18個"5G基站"被政府叫停 發(fā)現(xiàn)紅頭文件為偽造

頭條要聞

男子建了18個"5G基站"被政府叫停 發(fā)現(xiàn)紅頭文件為偽造

體育要聞

剎不住的泰格·伍茲,口袋里的兩粒藥丸

娛樂要聞

闞清子口碑贏了!全開麥跑調(diào)拒絕重唱

財經(jīng)要聞

劉紀鵬:只盼長慢牛,鞏固4000點是關鍵

科技要聞

內(nèi)存一年漲四倍!國產(chǎn)手機廠商集體漲價

汽車要聞

17萬級海豹07EV 不僅續(xù)航長還有9分鐘滿電的快樂

態(tài)度原創(chuàng)

手機
教育
本地
游戲
軍事航空

手機要聞

三星Galaxy S26 FE手機跑分曝光:Exynos 2500、8GB內(nèi)存

教育要聞

初中生自己點最便宜的7元面,卻用僅剩的2元給老師加鹵蛋

本地新聞

跟著歌聲游安徽,聽古村回響

中國電競圈驚天大瓜!世界冠軍深陷丑聞:嗜賭詐騙家暴

軍事要聞

俄國防部:一架蘇-30戰(zhàn)機在克里米亞墜毀

無障礙瀏覽 進入關懷版