国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

不要再用Ollama,不要再用llama.cpp

0
分享至


大家好,我是 Ai 學(xué)習(xí)的老章

最近在測(cè)試 llama.cpp 這個(gè)推理引擎的表現(xiàn),主要是啟動(dòng) GGUF 格式的量化大模型比較方便

啟動(dòng)確實(shí)方便,但是性能測(cè)試結(jié)果卻很不理想

單并發(fā)極快,速度飛起,并發(fā)數(shù)上來(lái)之后平均 TPS 斷崖式下降


我的啟動(dòng)腳本中是設(shè)置了并發(fā)相關(guān)參數(shù)的


搜了一下了 Reddit 的 LocalLLaMA 社區(qū),發(fā)現(xiàn)很多吐槽


llama.cpp 項(xiàng)目 issue 還有吐槽


看了一個(gè)博主的文章《# Stop Wasting Your Multi-GPU Setup With llama.cpp》[1]

作者地下室里的常駐 AI 服務(wù)器——一臺(tái)配備 14 張 RTX 3090 GPU 和 336GB VRAM 的專用 AI 服務(wù)器,在此設(shè)備上做過(guò)大量測(cè)試。


省流:lama.cpp 并未針對(duì)張量并行(Tensor Parallelism)與批推理(Batch Inference)進(jìn)行優(yōu)化。只有在進(jìn)行 LLM 的部分或全部 CPU 卸載時(shí),你才應(yīng)該使用 llama.cpp。但在多 GPU 配置下,需要經(jīng)過(guò)優(yōu)化的批推理與 Tensor Parallelism,此時(shí) vLLM 或 ExLlamaV2 等才是正確選擇。也不要使用 Ollama,它只是 llama.cpp 的一個(gè)封裝,干的就是設(shè)置環(huán)境變量、蹩腳地計(jì)算顯存拆分和卸載。如果你只有一塊 GPU,只想跑點(diǎn)基礎(chǔ)模型做做聊天,那它還行;但凡超出這個(gè)范圍,就不值得用了。

llama.cpp[2] 是一個(gè)支持多種模型架構(gòu)和硬件平臺(tái)的推理引擎。然而,它不支持批處理推理,因此一次處理多個(gè)請(qǐng)求時(shí)并不理想。它主要與 GGUF 量化格式配合使用,在單次請(qǐng)求場(chǎng)景下性能尚可,但也就僅此而已。唯一真正推薦使用 llama.cpp 的情況是:當(dāng)你的 GPU 顯存(VRAM)不足,需要將部分模型權(quán)重卸載到 CPU 內(nèi)存(RAM)時(shí)。

它是目前最流行的推理引擎。圍繞它的開(kāi)源社區(qū)非?;钴S,通常能很快支持新模型和新架構(gòu),尤其因?yàn)樗С?CPU 卸載,對(duì)更廣泛的用戶群體而言也極易上手。遺憾的是,llama.cpp 并不支持、也大概率永遠(yuǎn)不會(huì)支持張量并行(Tensor Parallelism)[3] 因?yàn)榇蠖鄶?shù)人不會(huì)像我一樣把幾千美元砸在快速貶值的資產(chǎn)上[4]

作者的 AI 服務(wù)器配備了 512 GB 高性能 DDR4 3200 3DS RDIMM 內(nèi)存,可提供 CPU 架構(gòu)所支持的最大內(nèi)存帶寬。配合 AMD Epyc Milan 7713 CPU,僅通過(guò) CPU 卸載就能夠在 DeepSeek v2.5 236B BF16 模型上實(shí)現(xiàn)每秒約 1 個(gè) token。

但是

利用 14x GPU AI 服務(wù)器中的 8 塊 GPU,僅通過(guò) GPU 卸載,服務(wù)器在處理 Llama 3.1 70B BF16 時(shí),通過(guò) vLLM 使用張量并行的批量推理,可達(dá)到每秒約 800 個(gè) token,同時(shí)處理 50 個(gè)異步請(qǐng)求。

這是為什么呢?

從宏觀上看,張量并行將模型每一層的計(jì)算分布到多塊 GPU 上。與其在單塊 GPU 上完成整個(gè)矩陣乘法,不如把運(yùn)算切分,讓每塊 GPU 只處理一部分工作量,這樣每塊 GPU 就能同時(shí)運(yùn)行不同層中的不同部分,使結(jié)果以指數(shù)級(jí)速度計(jì)算出來(lái)。

張量并行對(duì)多 GPU 配置至關(guān)重要——經(jīng)驗(yàn)法則是 TP 喜歡 2^n,因此下面運(yùn)行模型時(shí)用了 8×GPU——而在對(duì)系統(tǒng)進(jìn)行壓力測(cè)試時(shí),并行也比串行更合適。當(dāng)你試圖用 llama.cpp 讓 LLMs 彼此對(duì)話時(shí),引擎會(huì)把這些 GPU 拖慢,讓它們一個(gè)接一個(gè)地排隊(duì)等待。

下圖作者運(yùn)行的一個(gè)腳本:50 個(gè)異步請(qǐng)求,每個(gè)請(qǐng)求約 2k tokens,總共耗時(shí) 2 分 29 秒,使用的是 vLLM 運(yùn)行 Llama 3.1 70B BF16。如果改用 INT8 量化或更低精度,速度會(huì)快得多;再加上投機(jī)解碼和/或嵌入模型,速度還會(huì)進(jìn)一步提升。這一切都離不開(kāi) vLLM 利用張量并行實(shí)現(xiàn)的批推理。


作者還測(cè)試了 vLLM、Aphrodite、Sglang、TensorRT-LLM、ExLlamaV2 和 LMDeploy 等支持張量并行的推理引擎。其中 ExLlamaV2[5] 它是一款僅 GPU 的推理引擎,ExLlamaV2 帶來(lái)了獨(dú)一無(wú)二的 EXL2 量化格式,如今已被多款推理引擎采納,因?yàn)樗陲@存利用率上的優(yōu)勢(shì)巨大。

參考資料

Stop Wasting Your Multi-GPU Setup With llama.cpp: https://www.ahmadosman.com/blog/do-not-use-llama-cpp-or-ollama-on-multi-gpus-setups-use-vllm-or-exllamav2/

llama.cpp: https://github.com/ggerganov/llama.cpp

并不支持、也大概率永遠(yuǎn)不會(huì)支持張量并行(Tensor Parallelism): https://github.com/ggerganov/llama.cpp/issues/9086#issuecomment-2578645269

把幾千美元砸在快速貶值的資產(chǎn)上: https://x.com/TheAhmadOsman/status/1869841392924762168

[5]

ExLlamaV2: https://github.com/turboderp/exllamav2

最后推薦一個(gè)我正在學(xué)習(xí)的課程


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
紀(jì)實(shí):馬未都:丟盡了中國(guó)人的臉,他還覺(jué)得自己是國(guó)民英雄!

紀(jì)實(shí):馬未都:丟盡了中國(guó)人的臉,他還覺(jué)得自己是國(guó)民英雄!

星辰故事屋
2024-06-03 19:09:34
特朗普已做好開(kāi)戰(zhàn)準(zhǔn)備?王毅警告:中美一旦沖突,結(jié)局只有一個(gè)

特朗普已做好開(kāi)戰(zhàn)準(zhǔn)備?王毅警告:中美一旦沖突,結(jié)局只有一個(gè)

近史談
2025-12-25 20:44:50
釘在恥辱柱上!國(guó)家文物局出手,這三個(gè)跳梁小丑,徹底涼涼

釘在恥辱柱上!國(guó)家文物局出手,這三個(gè)跳梁小丑,徹底涼涼

八斗小先生
2025-12-24 09:37:51
從歐冠黑馬到降級(jí)熱門:赫羅納的崩盤,始于管理失敗

從歐冠黑馬到降級(jí)熱門:赫羅納的崩盤,始于管理失敗

樂(lè)道足球
2025-12-25 17:09:36
隊(duì)報(bào):皇馬視維尼修斯為競(jìng)技層面和經(jīng)濟(jì)層面極為重要的資產(chǎn)

隊(duì)報(bào):皇馬視維尼修斯為競(jìng)技層面和經(jīng)濟(jì)層面極為重要的資產(chǎn)

懂球帝
2025-12-26 05:49:05
半年回本,900億規(guī)模!曾倒閉7萬(wàn)家門店的暴利生意,如今又回來(lái)了

半年回本,900億規(guī)模!曾倒閉7萬(wàn)家門店的暴利生意,如今又回來(lái)了

財(cái)經(jīng)八卦
2025-12-25 19:45:18
闞清子被曝生畸形兒不到兩天,令人作嘔一幕發(fā)生,揭開(kāi)內(nèi)娛不堪一面

闞清子被曝生畸形兒不到兩天,令人作嘔一幕發(fā)生,揭開(kāi)內(nèi)娛不堪一面

徐徐道史
2025-12-25 15:07:22
浙江省紀(jì)委省監(jiān)委網(wǎng)站:林建波,主動(dòng)投案

浙江省紀(jì)委省監(jiān)委網(wǎng)站:林建波,主動(dòng)投案

上觀新聞
2025-12-25 08:02:12
雷克薩斯新車曝光:2026年3月2日,正式上市!

雷克薩斯新車曝光:2026年3月2日,正式上市!

高科技愛(ài)好者
2025-12-25 22:56:44
明年養(yǎng)老金繼續(xù)漲?人社部部長(zhǎng)表態(tài)了!不按工齡調(diào)整可行嗎?

明年養(yǎng)老金繼續(xù)漲?人社部部長(zhǎng)表態(tài)了!不按工齡調(diào)整可行嗎?

李健政觀察
2025-12-25 09:27:54
女警被3名歹徒侵犯活埋,臨終前還苦苦哀求歹徒

女警被3名歹徒侵犯活埋,臨終前還苦苦哀求歹徒

史記趣聞
2025-12-19 20:40:05
恭喜,成都蓉城后衛(wèi)韓鵬飛在圣誕節(jié)這天與愛(ài)人領(lǐng)結(jié)婚證

恭喜,成都蓉城后衛(wèi)韓鵬飛在圣誕節(jié)這天與愛(ài)人領(lǐng)結(jié)婚證

懂球帝
2025-12-25 20:17:00
我國(guó)有上千萬(wàn)人做頸動(dòng)脈超聲!院士:做一次頸動(dòng)脈超聲,或管七年

我國(guó)有上千萬(wàn)人做頸動(dòng)脈超聲!院士:做一次頸動(dòng)脈超聲,或管七年

岐黃傳人孫大夫
2025-12-19 09:16:53
女子不明原因拉肚子,丈夫:我不是有錢人,但傾家蕩產(chǎn)都要她活著出來(lái)!

女子不明原因拉肚子,丈夫:我不是有錢人,但傾家蕩產(chǎn)都要她活著出來(lái)!

聽(tīng)李醫(yī)生說(shuō)
2025-12-24 09:06:09
全國(guó)出生人口斷崖:21年1062萬(wàn)人,24年954萬(wàn),25年令人意想不到

全國(guó)出生人口斷崖:21年1062萬(wàn)人,24年954萬(wàn),25年令人意想不到

閱識(shí)
2025-12-24 17:13:53
新加坡總統(tǒng):中國(guó)不要自給自足,海南封關(guān)將會(huì)砸了新加坡的鐵飯碗

新加坡總統(tǒng):中國(guó)不要自給自足,海南封關(guān)將會(huì)砸了新加坡的鐵飯碗

精彩一網(wǎng)打盡
2025-12-24 19:28:24
“中國(guó)宜家”崩了,創(chuàng)始人套現(xiàn)200億離場(chǎng),美的太子接盤血虧?

“中國(guó)宜家”崩了,創(chuàng)始人套現(xiàn)200億離場(chǎng),美的太子接盤血虧?

蜉蝣說(shuō)
2025-12-23 20:00:55
多名聯(lián)合國(guó)專家譴責(zé)美國(guó)對(duì)委內(nèi)瑞拉的封鎖

多名聯(lián)合國(guó)專家譴責(zé)美國(guó)對(duì)委內(nèi)瑞拉的封鎖

財(cái)聯(lián)社
2025-12-24 21:09:06
外交部:中方愿同洪方一道在一個(gè)中國(guó)原則基礎(chǔ)上共同推動(dòng)中洪關(guān)系不斷向前發(fā)展

外交部:中方愿同洪方一道在一個(gè)中國(guó)原則基礎(chǔ)上共同推動(dòng)中洪關(guān)系不斷向前發(fā)展

環(huán)球網(wǎng)資訊
2025-12-25 15:27:05
下一只十倍股或從這里誕生!

下一只十倍股或從這里誕生!

證券市場(chǎng)周刊市場(chǎng)號(hào)
2025-12-25 20:46:21
2025-12-26 07:19:00
機(jī)器學(xué)習(xí)與Python社區(qū) incentive-icons
機(jī)器學(xué)習(xí)與Python社區(qū)
機(jī)器學(xué)習(xí)算法與Python
3234文章數(shù) 11081關(guān)注度
往期回顧 全部

科技要聞

小米17Ultra發(fā)布,徠卡2億像素 ,6999元起

頭條要聞

韓國(guó)"最毒"財(cái)閥千金被捕 韓國(guó)人稱"經(jīng)過(guò)她身邊就會(huì)死"

頭條要聞

韓國(guó)"最毒"財(cái)閥千金被捕 韓國(guó)人稱"經(jīng)過(guò)她身邊就會(huì)死"

體育要聞

約基奇有多喜歡馬?

娛樂(lè)要聞

朱孝天把阿信好意當(dāng)球踢!

財(cái)經(jīng)要聞

新規(guī)來(lái)了,年化超24%的小貸被即刻叫停

汽車要聞

速來(lái)!智界在上海西岸準(zhǔn)備了年末潮流盛典

態(tài)度原創(chuàng)

手機(jī)
數(shù)碼
教育
時(shí)尚
軍事航空

手機(jī)要聞

行業(yè)唯一徠卡2億像素連續(xù)光變長(zhǎng)焦!小米17 Ultra星空綠圖賞

數(shù)碼要聞

年終復(fù)盤不用愁,鴻蒙電腦讓高效貫穿每一刻

教育要聞

父母口中的"聽(tīng)話",其實(shí)是控制

冬季穿衣別顯得太臃腫!大衣收腰、搭配圍巾,有質(zhì)感又高級(jí)

軍事要聞

澤連斯基版“和平計(jì)劃”透露哪些信息

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版