国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

推理成本太高、算力不夠用?單純堆卡沒用,得靠極致的“壓縮”與“調(diào)度” | AICon

0
分享至


大模型落地最痛的領(lǐng)悟是什么?是模型訓(xùn)練出來了,但推不起。

在實(shí)際應(yīng)用中,推理成本高昂、算力需求巨大,直接制約了業(yè)務(wù)的廣泛落地。大模型在實(shí)際應(yīng)用中面臨的挑戰(zhàn)不僅是“快不快”,更是“省不省”。本專題將跳出表面的參數(shù)微調(diào),系統(tǒng)性地探討從知識(shí)蒸餾、模型量化等壓縮方法,到 PagedAttention 等高效推理算法,再到邊緣設(shè)備上的低延遲部署實(shí)踐。

為了確保技術(shù)方案的可落地性,在12 月 19 日 -20 日 AICon 全球人工智能開發(fā)與應(yīng)用大會(huì)(北京站)上,我們特邀阿里云資深技術(shù)專家劉崢擔(dān)任本專題出品人。劉崢是 CCF 系統(tǒng)軟件專委會(huì)委員,曾參與 Mooncake 開源項(xiàng)目的籌建,并在 SOSP、ASPLOS 等頂會(huì)發(fā)表多篇論文。在他對(duì)“AI 基礎(chǔ)設(shè)施”與“下一代數(shù)據(jù)中心系統(tǒng)軟件”的深厚理解下,本專題將為您呈現(xiàn)一套從云端到邊緣、從算法到系統(tǒng)軟件的可量化 TCO 優(yōu)化方案。

ModelTC 開源社區(qū):大模型生產(chǎn)太貴?你需要一套“工業(yè)級(jí)”工具鏈

大模型時(shí)代的模型生產(chǎn)成本令人咋舌:模型尺寸大、并行規(guī)模大、服務(wù)并發(fā)高。對(duì)于企業(yè)而言,如果沒有一套體系化的工具鏈,模型的迭代效率和研發(fā)成本將成為不可承受之重。ModelTC 開源社區(qū)負(fù)責(zé)人龔睿昊帶來的分享,正是為了解決這一核心痛點(diǎn)——如何構(gòu)建一套覆蓋訓(xùn)練、壓縮到推理部署的全流程工業(yè)級(jí)工具鏈。

作為商湯科技研究院大模型工具體系團(tuán)隊(duì)負(fù)責(zé)人,龔睿昊將深入解析 Light 系列推理工具生態(tài)背后的系統(tǒng)實(shí)現(xiàn)原理。面對(duì)視頻、圖像、語音等多模態(tài)挑戰(zhàn),他將介紹如何利用多進(jìn)程架構(gòu)實(shí)現(xiàn)模態(tài)的伸縮與擴(kuò)展。在最關(guān)鍵的“模型瘦身”環(huán)節(jié),他將詳細(xì)拆解團(tuán)隊(duì)在多維度壓縮方法上的探索,包括量化、Token Pruning、稀疏化以及 Cache 復(fù)用技術(shù),這些技術(shù)組合拳旨在在不損失精度的前提下極致降低資源消耗。

更具意義的是,針對(duì)當(dāng)前火熱的視頻生成場(chǎng)景,龔睿昊將分享高質(zhì)量 4 步蒸餾技術(shù)的工程實(shí)踐。同時(shí),針對(duì)大規(guī)模服務(wù)的實(shí)時(shí)彈性需求,他將展示動(dòng)態(tài)擴(kuò)縮容設(shè)計(jì)的架構(gòu)細(xì)節(jié)。

阿里巴巴:以 KVCache 為中心,重構(gòu)云上 LLM 推理軟件棧

在大模型推理中,成本、吞吐與長(zhǎng)上下文管理始終是核心瓶頸。特別是隨著 PD 分離架構(gòu)的普及,如何處理不同階段帶來的資源特性差異,成為了云原生環(huán)境下的新難題。阿里巴巴高級(jí)技術(shù)專家馬騰博士將深度復(fù)盤開源項(xiàng)目 Mooncake(4K Star),揭秘如何構(gòu)建一個(gè)以 KVCache 為核心的云上推理軟件棧。

馬騰博士將在演講中展示 Mooncake 架構(gòu)的核心邏輯:以共享 KVCache 為中心,實(shí)現(xiàn)上下文復(fù)用與內(nèi)存池化,從而避免重復(fù)計(jì)算。他將詳細(xì)介紹 Transfer Engine、KVCache Store 與分層上下文緩存等組件,是如何將 PD 分離、異構(gòu)并行與零拷貝傳輸(RDMA/GPUDirect)有機(jī)結(jié)合的。這套架構(gòu)在真實(shí)業(yè)務(wù)中展現(xiàn)了驚人的效能:QPS 提升超 3 倍,GPU 利用率從不足 40% 提升至約 75%,同時(shí)內(nèi)存占用下降約 40%。

為了解決云原生環(huán)境下的部署與運(yùn)維難題,馬騰博士還將重點(diǎn)剖析 RBG 與 AIGW 的協(xié)同機(jī)制。RBG 提供了基于“角色”的聲明式編排、DAG 啟動(dòng)順序與精細(xì)擴(kuò)縮容能力,確保復(fù)雜多角色集群能實(shí)現(xiàn)無感變更;而 AIGW 則提供了緩存感知的全局路由與過載保護(hù),實(shí)現(xiàn)了請(qǐng)求級(jí)的 KVCache 親和與多租戶 QoS 保障。這是一套已經(jīng)接入 vLLM、SGLang 等主流社區(qū),并能在大規(guī)模生產(chǎn)環(huán)境中將 PD 分離的性能優(yōu)勢(shì)穩(wěn)定轉(zhuǎn)化為可運(yùn)維產(chǎn)能的完整工程方案。

OPPO:把大模型裝進(jìn)手機(jī),端側(cè)化算法的“瘦身”魔法

近兩年,雖然小規(guī)模模型的性能飛速發(fā)展,端側(cè)算力也在不斷增強(qiáng),但要將多模態(tài)大模型真正部署在手機(jī)等移動(dòng)設(shè)備上,依然面臨著算力受限、功耗控制與更新迭代慢的巨大挑戰(zhàn)。OPPO AI 中心大模型算法部端側(cè)化算法組負(fù)責(zé)人宋曉輝將分享 OPPO 從 0 到 1 建立的大模型端側(cè)化算法技術(shù)棧,揭秘支撐 OPPO 端側(cè)智慧語音與 AI 搜索等線上業(yè)務(wù)背后的黑科技。

宋曉輝將在演講中展示 OPPO 最新的端側(cè)化技術(shù)路線圖,其核心突破在于自研的 QALFT 端側(cè)量化感知訓(xùn)練框架。傳統(tǒng)的離線量化(PTQ)往往會(huì)有精度損失,而 QALFT 支持端到端的量化損失訓(xùn)練,能夠直接繞過 PTQ 步驟,與芯片平臺(tái)的量化格式徹底打通,為業(yè)務(wù)解耦優(yōu)化和高效 OTA 升級(jí)提供了堅(jiān)實(shí)支持。

在具體的性能指標(biāo)上,宋曉輝將分享他們?cè)谙∈杌c編解碼加速方面的領(lǐng)先實(shí)踐。通過這一整套技術(shù)棧,OPPO 在端側(cè)實(shí)現(xiàn)了對(duì)最高 128k 超長(zhǎng)上下文的支持,以及在通用場(chǎng)景下高達(dá) 240token/s 的解碼速度。

清程極智:跨越 CUDA 限制,面向多算力平臺(tái)的量化推理突圍

隨著大模型加速落地,企業(yè)面臨著算力需求爆發(fā)與多樣性的雙重壓力。一方面是硬件異構(gòu)化嚴(yán)重,GPU、NPU、DCU 與 CPU 并存;另一方面是精度演進(jìn)迅速,從 FP16 到 FP8 再到 FP4,適配難度呈指數(shù)級(jí)上升。且海外主流推理引擎高度依賴 NVIDIA 生態(tài),導(dǎo)致國(guó)產(chǎn)算力適配極其困難。清程極智 CEO 湯雄超博士將在演講中介紹赤兔推理引擎如何通過“算法 + 引擎 + 算子”的聯(lián)合優(yōu)化,打破這一困局。

湯雄超博士將深入解析赤兔引擎的設(shè)計(jì)哲學(xué),即從傳統(tǒng)的“m×n 優(yōu)化爆炸”轉(zhuǎn)向高效的“m+n 復(fù)用”設(shè)計(jì)。赤兔選擇了從聯(lián)合優(yōu)化出發(fā),突破 CUDA native 的限制,構(gòu)建了國(guó)產(chǎn)算力、引擎與模型的閉環(huán)。他將重點(diǎn)介紹赤兔在精度優(yōu)化上的創(chuàng)新,包括 Soft Float8 在線轉(zhuǎn)換機(jī)制以及將 FP8 方案擴(kuò)展至 FP4 的技術(shù)路徑,這使得在國(guó)產(chǎn) GPU、NPU 等多平臺(tái)上實(shí)現(xiàn)通用高效推理成為可能。

在系統(tǒng)架構(gòu)層面,湯雄超博士將拆解赤兔推理引擎的模塊化設(shè)計(jì),包括算力抽象層、量化優(yōu)化層與推理執(zhí)行層。聽眾將深入了解 Layout as a Type、融合算子分發(fā)機(jī)制以及混合 KV Cache 管理等核心技術(shù)細(xì)節(jié),以及引擎對(duì) EP+DP+TP+PP 多并行模式的支持。

結(jié)語

從 ModelTC 對(duì)工業(yè)級(jí)工具鏈的體系化建設(shè),到阿里巴巴對(duì)云上 KVCache 資源的極致調(diào)度;從 OPPO 在手機(jī)端側(cè)的量化瘦身,到清程極智在異構(gòu)算力平臺(tái)上的通用突圍。這四場(chǎng)演講,覆蓋了從云端大規(guī)模集群到邊緣移動(dòng)設(shè)備,從通用 GPU 到國(guó)產(chǎn)異構(gòu)算力的推理優(yōu)化版圖。

對(duì)于致力于降低 AI 落地成本、提升系統(tǒng)響應(yīng)速度的技術(shù)決策者而言,這四份來自一線的工程實(shí)踐,提供了從算法壓縮到系統(tǒng)調(diào)度的全套解決方案。在這里,我們將一起見證大模型如何從“昂貴的玩具”變成“普惠的生產(chǎn)力”。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
懶懶又去日本陪男友王思聰了,穿成這樣,可真抗凍呀

懶懶又去日本陪男友王思聰了,穿成這樣,可真抗凍呀

小陸搞笑日常
2026-01-07 10:11:27
離婚女子相親遇20年初戀,緊握雙手不放,她哭著說:早嫁你就好了

離婚女子相親遇20年初戀,緊握雙手不放,她哭著說:早嫁你就好了

牛牛叨史
2026-01-08 13:51:21
時(shí)代落幕!詹姆斯已達(dá)17場(chǎng)缺陣上限,21年紀(jì)錄恐將終結(jié)

時(shí)代落幕!詹姆斯已達(dá)17場(chǎng)缺陣上限,21年紀(jì)錄恐將終結(jié)

奕辰說球
2026-01-09 10:46:00
五十六歲的鐘麗緹更加油膩了,從機(jī)場(chǎng)出來,150斤的體重驚呆眾人

五十六歲的鐘麗緹更加油膩了,從機(jī)場(chǎng)出來,150斤的體重驚呆眾人

可樂談情感
2026-01-08 06:28:33
阿莫林愛將在曼聯(lián)失寵!合同僅剩6個(gè)月 夏窗面臨清洗

阿莫林愛將在曼聯(lián)失寵!合同僅剩6個(gè)月 夏窗面臨清洗

球事百科吖
2026-01-10 06:45:21
28歲葡萄牙天才中場(chǎng)成香餑餑,4大頂級(jí)豪門瘋搶,沙特豪門難留人

28歲葡萄牙天才中場(chǎng)成香餑餑,4大頂級(jí)豪門瘋搶,沙特豪門難留人

零度眼看球
2026-01-10 09:09:15
最帥護(hù)旗手張自軒結(jié)婚不到一天,惡心一幕出現(xiàn),新娘被批沒有福相

最帥護(hù)旗手張自軒結(jié)婚不到一天,惡心一幕出現(xiàn),新娘被批沒有福相

鋭娛之樂
2026-01-09 08:45:21
這招兒恐被用在臺(tái)海?特朗普聽完,聳聳肩說…

這招兒恐被用在臺(tái)海?特朗普聽完,聳聳肩說…

觀察者網(wǎng)
2026-01-09 11:14:08
牛逼!14分21板4助3蓋帽,正負(fù)值+25,遼迷: 去年就應(yīng)該簽下他!

牛逼!14分21板4助3蓋帽,正負(fù)值+25,遼迷: 去年就應(yīng)該簽下他!

金山話體育
2026-01-10 09:24:10
我國(guó)為什么要取消2元的人民幣?原因很簡(jiǎn)單,看完您就知道了

我國(guó)為什么要取消2元的人民幣?原因很簡(jiǎn)單,看完您就知道了

千秋文化
2026-01-09 14:20:00
“性蕭條”才是這個(gè)時(shí)代真正的危機(jī)

“性蕭條”才是這個(gè)時(shí)代真正的危機(jī)

深藍(lán)夜讀
2025-09-24 16:00:09
“犯罪情節(jié)惡劣,后果特別嚴(yán)重”,廖某宇撞死一家三口案宣判!

“犯罪情節(jié)惡劣,后果特別嚴(yán)重”,廖某宇撞死一家三口案宣判!

新民周刊
2026-01-09 14:10:28
遭聯(lián)合國(guó)怒批后馬斯克終于服軟?星鏈數(shù)千顆衛(wèi)星緊急“搬家”,太空霸權(quán)還能橫行多久?

遭聯(lián)合國(guó)怒批后馬斯克終于服軟?星鏈數(shù)千顆衛(wèi)星緊急“搬家”,太空霸權(quán)還能橫行多久?

Thurman在昆明
2026-01-10 00:05:17
廣州小學(xué)生被抽血事件:告訴爸媽就扣小紅花

廣州小學(xué)生被抽血事件:告訴爸媽就扣小紅花

每日一見
2026-01-02 12:21:28
58歲江欣燕近況斷崖衰老!印堂發(fā)黑暴瘦出尖下巴,撞臉日本首相

58歲江欣燕近況斷崖衰老!印堂發(fā)黑暴瘦出尖下巴,撞臉日本首相

琴聲飛揚(yáng)
2026-01-09 12:03:45
多哈賽場(chǎng)悲喜兩重天!陳熠領(lǐng)先遭逆轉(zhuǎn),長(zhǎng)崎美柚五局險(xiǎn)勝溫特晉級(jí)

多哈賽場(chǎng)悲喜兩重天!陳熠領(lǐng)先遭逆轉(zhuǎn),長(zhǎng)崎美柚五局險(xiǎn)勝溫特晉級(jí)

而長(zhǎng)終
2026-01-10 08:32:00
有一說一,國(guó)足依然看不到希望,從U23亞洲杯就能看得出來……!

有一說一,國(guó)足依然看不到希望,從U23亞洲杯就能看得出來……!

田先生籃球
2026-01-09 07:15:15
紀(jì)實(shí):翟欣欣欲望有多強(qiáng)?有錢來者不拒,連舅舅都不得不撇清關(guān)系

紀(jì)實(shí):翟欣欣欲望有多強(qiáng)?有錢來者不拒,連舅舅都不得不撇清關(guān)系

談史論天地
2025-10-10 16:00:03
禁止上映,永久禁播,如此嚴(yán)格的懲罰,讓此片意外爆火

禁止上映,永久禁播,如此嚴(yán)格的懲罰,讓此片意外爆火

棱鏡電影
2026-01-09 23:25:44
在農(nóng)村見過最離譜的事情是什么?男女關(guān)系的開放程度讓人目瞪口呆

在農(nóng)村見過最離譜的事情是什么?男女關(guān)系的開放程度讓人目瞪口呆

夜深愛雜談
2026-01-06 20:51:44
2026-01-10 09:52:49
InfoQ incentive-icons
InfoQ
有內(nèi)容的技術(shù)社區(qū)媒體
11920文章數(shù) 51690關(guān)注度
往期回顧 全部

科技要聞

傳DeepSeek準(zhǔn)備第二次震驚全世界

頭條要聞

牛彈琴:中方仗義執(zhí)言 委內(nèi)瑞拉三次公開感謝中國(guó)

頭條要聞

牛彈琴:中方仗義執(zhí)言 委內(nèi)瑞拉三次公開感謝中國(guó)

體育要聞

楊瀚森:上場(chǎng)時(shí)間要去爭(zhēng)取 而不是要求

娛樂要聞

火速認(rèn)錯(cuò)!孫怡駕駛法拉利跑車違規(guī)

財(cái)經(jīng)要聞

投資必看!瑞銀李萌給出3大核心配置建議

汽車要聞

寶馬25年全球銷量246.3萬臺(tái) 中國(guó)仍是第一大市場(chǎng)

態(tài)度原創(chuàng)

游戲
本地
親子
手機(jī)
公開課

盤點(diǎn)穿越火線槍王榮耀最喜歡用的武器,看看都有哪些武器上榜?

本地新聞

云游內(nèi)蒙|“包”你再來?一座在硬核里釀出詩意的城

親子要聞

“國(guó)學(xué)馴化”從娃娃抓起?

手機(jī)要聞

Flyme AIOS 2內(nèi)測(cè):新底層、新功能、新優(yōu)化,你的機(jī)型收到了嗎

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版