国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

阿里大招震驚老外:將英偉達(dá)顯卡用量降了 82%!

0
分享至


當(dāng)你在深夜打開豆包或ChatGPT,問一句“雙十一買什么好?”,可能沒想到——這一問,背后跑起來的是一整張價(jià)值十幾萬元的A100顯卡。

但除了偶爾這樣回答問題,它的 95% 的時(shí)間卻在“發(fā)呆”。這聽起來有點(diǎn)奢侈,但這就是當(dāng)前大模型市場的現(xiàn)實(shí)。

最近,阿里和北大聯(lián)合團(tuán)隊(duì)在頂級(jí)計(jì)算機(jī)系統(tǒng)會(huì)議上發(fā)表了一篇論文《Aegaeon:面向市場并發(fā)大語言模型推理的高效 GPU 共享系統(tǒng)》,講的就是怎么讓這些“摸魚”的 GPU 忙起來。

他們進(jìn)行了三個(gè)多月的測試,效果非常震驚:從原本服務(wù)幾十個(gè)模型需要的 1192 張英偉達(dá) H20 顯卡,降到只要 213 張。

直接降了 82%!

他們是怎么做到的?

01| 問題:模型太多,GPU 太閑

現(xiàn)在的大模型市場(比如 Hugging Face)上,動(dòng)輒上百萬個(gè)模型。有的紅的發(fā)紫(比如 DeepSeek、Qwen、Llama),有的卻長期在冷宮——一個(gè)月都沒幾個(gè)人調(diào)用。

但問題來了:

熱門模型 :請(qǐng)求突然暴增,GPU 不夠用,用戶排隊(duì)等回復(fù),我們都體驗(yàn)過 DeepSeek 排隊(duì)的時(shí)候。

冷門模型 :常年沒人用,但為了“隨時(shí)能響應(yīng)”,還得給它獨(dú)占一張 GPU——結(jié)果這張卡一年 99% 的時(shí)間在吃灰。

阿里云內(nèi)部數(shù)據(jù)顯示:17.7% 的 GPU 只處理了 1.35% 的請(qǐng)求。這就像你花 幾十萬 租了一棟別墅,結(jié)果只用來放一個(gè)快遞柜,一年大部分時(shí)間還鎖著門。


擅長降本的中國工程師們,這怎么能忍?

02| 舊方案為啥不行?

這么嚴(yán)重的一個(gè)問題,當(dāng)然有人想過要去優(yōu)化,之前有兩種主流的做法:

“拼車”式多模型共存 (Multiplexing):把兩三個(gè)模型塞進(jìn)同一張 GPU,輪流跑。問題是大模型動(dòng)輒幾十 GB,一張 80G 的卡最多塞倆,再多就爆了。省不了多少。

“隨用隨開”自動(dòng)擴(kuò)縮容 (Auto-scaling):不用的時(shí)候把模型“關(guān)掉”,用的時(shí)候再從內(nèi)存或硬盤“拉起來”。

這聽起來很美,但實(shí)際很慢——加載一個(gè) 13B 模型要好幾秒,用戶早就跑了。

更糟的是,這些系統(tǒng)都是按“整個(gè)請(qǐng)求”來調(diào)度的。

就像餐廳點(diǎn)菜,哪怕你只需要一個(gè)勺子,也必須等到前面客人的一桌菜全上完,你才能點(diǎn)。這種“慢的等所有人”的模式,就是典型的效率卡頓(頭阻塞)。

03| Aegaeon 的妙招


【溫馨提示:這部分非技術(shù)人員跳過也無妨】

Aegaeon 的核心思想很反直覺:

別等一個(gè)請(qǐng)求跑完,而是“邊跑邊換”,像流水線一樣切碎任務(wù)。

它把大模型推理拆成兩個(gè)階段:Prefill(備料階段):讀你輸入的問題,生成第一個(gè)字;Decoding(吐字階段):一個(gè)字一個(gè)字往后吐。

Aegaeon 干了兩件關(guān)鍵事:

1. 按“token”(字)級(jí)別做調(diào)度

不再等一個(gè)請(qǐng)求跑完才切模型;而是每生成幾個(gè)字,就看看有沒有更緊急的任務(wù),有就立刻切換。

這樣,一張 GPU 可以同時(shí)服務(wù) 7 個(gè)甚至更多模型,而不是 2~3 個(gè)。

2. 把“切換成本”壓到極致

傳統(tǒng)切換要 10 秒以上,Aegaeon 通過三大優(yōu)化,把開銷砍掉 97%:

  • 組件復(fù)用:推理引擎只初始化一次,模型權(quán)重單獨(dú)換;

  • 顯存自管:自己管內(nèi)存分配,避免碎片,不用反復(fù)“垃圾回收”;

  • KV Cache 精細(xì)同步:KV Cache 相當(dāng)于模型在吐字時(shí)記下的“關(guān)鍵筆記”,用于加速后續(xù)生成。

Aegaeon 優(yōu)化了數(shù)據(jù)搬運(yùn)和計(jì)算流程,讓它們可以同時(shí)進(jìn)行,互不干擾,實(shí)現(xiàn)了亞秒級(jí)切換。


聽到這是不是有點(diǎn)懵,又有點(diǎn)似曾相似?

沒錯(cuò),實(shí)際上 Aegaeon 這種“隨時(shí)中斷,切換緊急任務(wù)”的邏輯,跟我們到電腦操作系統(tǒng)里面的 CPU 調(diào)度(即“搶占式調(diào)度”)原理很像。

CPU 也是把程序執(zhí)行切成時(shí)間片來輪換,以至于我們會(huì)認(rèn)為它在并發(fā)處理多個(gè)任務(wù)。

但 CPU 切換任務(wù)的開銷很小,大模型可不一樣,它涉及到數(shù) GB 數(shù)據(jù)的搬運(yùn)。所以,阿里牛逼的地方是能把這種昂貴的切換開銷壓到最低,做到秒級(jí)切換。

04|效果有多猛?

有效吞吐量提示 1.5~9 倍:同樣硬件,能服務(wù)更多用戶;

支持請(qǐng)求速率提高 2~2.5 倍:高峰期也不卡;

生產(chǎn)環(huán)境實(shí)測:原本需要 1192 張 H20 GPU;用 Aegaeon 后,只需 213 張;省下 82% 的 GPU 資源,相當(dāng)于省下幾千萬的硬件和電費(fèi)!

而且,用戶完全無感,沒人覺得“變慢了”。

05|為什么這事很重要?


現(xiàn)在的大模型競爭,焦點(diǎn)往往是誰的參數(shù)更大、誰擁有的 GPU 數(shù)量更多。

但現(xiàn)實(shí)是:真正的競爭優(yōu)勢在于極致的工程效率,在于能否將每一分算力榨干,實(shí)現(xiàn)成本結(jié)構(gòu)的根本性優(yōu)化。

像阿里云、 DeepSeek 這樣的中國團(tuán)隊(duì)已經(jīng)證明,要打出大廠級(jí)別的效果,靠的不是資源堆砌,而是對(duì)算力的最優(yōu)利用以及在算法層面的突破。

有海外網(wǎng)友一針見血地評(píng)論:“中國團(tuán)隊(duì)正努力讓 AI 變得更高效、更便宜,而美國卻被‘必須買更多 GPU’的迷思困住了?!?/p>

另一位網(wǎng)友感慨:“DeepSeek 把 API 價(jià)格砍半,這不是營銷,是成本革命?!?/p>

當(dāng)潮水退去,真正能走進(jìn)千行百業(yè)、實(shí)現(xiàn)大規(guī)模普及的 AI,從來不是最“大”或最“貴”的那個(gè),而是品質(zhì)可靠、性價(jià)比最高的那個(gè)。

附:關(guān)鍵詞解釋

論文地址:https://ennanzhai.github.io/pub/sosp25-aegaeon.pdf

如果你覺得這篇文章有用,歡迎轉(zhuǎn)發(fā)給那個(gè)總在抱怨“GPU 不夠用”的朋友

本文由「AI 范兒」出品

感謝你看到這里,如果覺得不錯(cuò),那就請(qǐng)幫忙點(diǎn)個(gè)贊、愛心、轉(zhuǎn)發(fā)三連吧,這對(duì)我們非常有幫助。如果想第一時(shí)間收到推送,也可以給我們加個(gè)星標(biāo)?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
浙江某建筑公司的員工“天塌”了!

浙江某建筑公司的員工“天塌”了!

黯泉
2026-01-04 22:12:48
1-0,意甲倒數(shù)第一又贏了,25歲尤文舊將一劍封喉,率隊(duì)逼近保級(jí)區(qū)

1-0,意甲倒數(shù)第一又贏了,25歲尤文舊將一劍封喉,率隊(duì)逼近保級(jí)區(qū)

凌空倒鉤
2026-01-05 07:43:38
未來五年,廣東將爭取3條高鐵開工

未來五年,廣東將爭取3條高鐵開工

古裝影視解說阿兇
2026-01-05 05:30:42
馬杜羅被擄走,特朗普馬上提中國,但想賺中國的大錢,找錯(cuò)了對(duì)象

馬杜羅被擄走,特朗普馬上提中國,但想賺中國的大錢,找錯(cuò)了對(duì)象

賈文彬的史書
2026-01-05 11:25:29
電影從未提及的真相:為何美軍覺得長津湖沒輸,上甘嶺卻一敗涂地

電影從未提及的真相:為何美軍覺得長津湖沒輸,上甘嶺卻一敗涂地

夏目歷史君
2025-12-17 21:08:23
國民黨的二號(hào)人物,毛主席唯獨(dú)不接受他投降,老蔣坦言也想干掉他

國民黨的二號(hào)人物,毛主席唯獨(dú)不接受他投降,老蔣坦言也想干掉他

秀心文雅
2026-01-05 09:09:23
德媒:德國受夠了,一個(gè)中國還不夠嗎?為什么全世界都欺負(fù)我們?

德媒:德國受夠了,一個(gè)中國還不夠嗎?為什么全世界都欺負(fù)我們?

興史興談
2026-01-04 11:02:25
教育部扔下重磅炸彈:2026年開始,全國一律不準(zhǔn)再買校外商業(yè)試卷

教育部扔下重磅炸彈:2026年開始,全國一律不準(zhǔn)再買校外商業(yè)試卷

扶蘇聊歷史
2026-01-03 09:38:08
7個(gè)動(dòng)作堅(jiān)持30天,脾胃不堵,便秘好了,皮膚又白又亮!

7個(gè)動(dòng)作堅(jiān)持30天,脾胃不堵,便秘好了,皮膚又白又亮!

瑜伽解剖學(xué)
2026-01-03 08:32:31
董宇輝:按這個(gè)順序讀書的孩子,理解能力和格局真的不一樣

董宇輝:按這個(gè)順序讀書的孩子,理解能力和格局真的不一樣

諾媽家有男寶娃
2026-01-04 12:25:18
突發(fā)訃告!上海足壇泰斗高慎華逝世

突發(fā)訃告!上海足壇泰斗高慎華逝世

魯中晨報(bào)
2026-01-04 15:53:06
戰(zhàn)國青銅器刻“李世民”?博物館回應(yīng)越描越黑,南博后信任撕裂了

戰(zhàn)國青銅器刻“李世民”?博物館回應(yīng)越描越黑,南博后信任撕裂了

眼光很亮
2026-01-04 00:24:42
咸魚還是太全面了,怪不得人稱國內(nèi)黑市

咸魚還是太全面了,怪不得人稱國內(nèi)黑市

另子維愛讀史
2025-12-20 17:07:20
獨(dú)家 | 山姆中國付費(fèi)會(huì)員數(shù)2025年首破千萬,坐上阿里京東的“牌桌”

獨(dú)家 | 山姆中國付費(fèi)會(huì)員數(shù)2025年首破千萬,坐上阿里京東的“牌桌”

商業(yè)觀察家
2026-01-03 23:58:07
240萬合同!爭議言論,成都簽約張本兄妹,如今該如何收?qǐng)觯?>
    </a>
        <h3>
      <a href=卿子書
2026-01-05 08:46:57
快船消息:悍將傷情出爐,祖巴茨離隊(duì)可能性增加,戰(zhàn)勇士出場更新

快船消息:悍將傷情出爐,祖巴茨離隊(duì)可能性增加,戰(zhàn)勇士出場更新

冷月小風(fēng)風(fēng)
2026-01-05 10:42:43
“澳門賭王”何鴻燊,臨終前最后一句是:澳門,要好好的

“澳門賭王”何鴻燊,臨終前最后一句是:澳門,要好好的

老慃尾聲體育解說
2026-01-05 07:45:44
言承旭公開戀情?曬合照引熱議,粉絲直呼終于等到你

言承旭公開戀情?曬合照引熱議,粉絲直呼終于等到你

情感大頭說說
2026-01-04 11:59:42
男子摳腳“摳”出滿腳“菜花”,肛周也有少量,最終確診HPV

男子摳腳“摳”出滿腳“菜花”,肛周也有少量,最終確診HPV

極目新聞
2025-12-29 08:42:39
史無前例!佘詩曼第四次獲視后,黃宗澤獲“雙料視帝”破個(gè)人記錄

史無前例!佘詩曼第四次獲視后,黃宗澤獲“雙料視帝”破個(gè)人記錄

裕豐娛間說
2026-01-04 23:31:20
2026-01-05 13:15:00
AI范兒 incentive-icons
AI范兒
AI范兒是一個(gè)專注于人工智能領(lǐng)域的資訊和學(xué)習(xí)平臺(tái),提供最新的人工智能資訊
634文章數(shù) 380關(guān)注度
往期回顧 全部

數(shù)碼要聞

快科技2025年度評(píng)獎(jiǎng):主板篇

頭條要聞

媒體:美國捉拿馬杜羅后 多位專家示警賴清德

頭條要聞

媒體:美國捉拿馬杜羅后 多位專家示警賴清德

體育要聞

女子世界第一,9年前在咖啡店洗碗

娛樂要聞

黃宗澤奪雙料視帝,淚灑頒獎(jiǎng)臺(tái)憶往昔

財(cái)經(jīng)要聞

李迅雷:擴(kuò)內(nèi)需要把重心從"投"轉(zhuǎn)向"消"

科技要聞

雷軍新年首播:確認(rèn)汽車業(yè)務(wù)降速

汽車要聞

不是9S是8X!極氪全新高性能旗艦SUV命名官宣

態(tài)度原創(chuàng)

手機(jī)
教育
健康
數(shù)碼
公開課

手機(jī)要聞

聯(lián)想moto X70 Air Pro新機(jī)配置曝光:搭載第五代驍龍8,支持手寫筆

教育要聞

收藏:山東2026高中綜評(píng)操作教程(教師端)

這些新療法,讓化療不再那么痛苦

數(shù)碼要聞

REDMI Turbo 5系列官宣本月見:首次推出Turbo 5 Max!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版