国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

業(yè)界首個!超A 100

0
分享至

近日,記憶張量聯(lián)合商湯大裝置宣布,在國產(chǎn)GPGPU上率先跑通業(yè)內(nèi)首個以“記憶—計(jì)算—調(diào)度”一體化為核心的PD分離商用推理集群。在真實(shí)C端負(fù)載下實(shí)現(xiàn)了單卡并發(fā)效率提升20%、吞吐提升75%,綜合推理性價比達(dá)到同代NVIDIA A100的150%。這一成果標(biāo)志著國產(chǎn)算力體系在大模型商業(yè)化路徑上首次具備“體系級”競爭力,為高性能模型的大規(guī)模落地打開了全新的降本增效空間。



結(jié)構(gòu)共振
讓 PD 分離從優(yōu)化技巧走向推理范式

記憶張量旗下核心產(chǎn)品MemOS作為業(yè)內(nèi)唯一一家以記憶為中心,覆蓋從底層推理、到記憶模型,再到應(yīng)用工程進(jìn)行系統(tǒng)設(shè)計(jì)的記憶基礎(chǔ)設(shè)施,將大模型的認(rèn)知結(jié)構(gòu)劃分為三類記憶,并形成了一條跨時間尺度的調(diào)度鏈路,可以進(jìn)行精細(xì)的決策:哪些計(jì)算應(yīng)該前移到Prefill,哪些必須留在Decode,以及任務(wù)的保留、降級或淘汰等。

顯然,MemOS更適合和PD分離進(jìn)行結(jié)合——它擁有一整套可以“決定如何用這條通道”的調(diào)度邏輯,從而把PD分離原本有限的收益空間盡可能壓榨到極致。

在本次聯(lián)合方案中,商湯大裝置提供了讓MemOS 三層記憶結(jié)構(gòu)擁有物理載體的頂層系統(tǒng)級基礎(chǔ)設(shè)施。依托商湯大裝置IaaS的高效算力池、智能算力調(diào)度等為模型推理提供穩(wěn)定的基礎(chǔ)設(shè)施支撐;并借助Ignite框架提供多后端推理適配、KV Cache管理優(yōu)化、關(guān)鍵算子加速、跨節(jié)點(diǎn)通信調(diào)優(yōu)等性能增強(qiáng),形成體系化的推理優(yōu)化鏈路;同時,商湯萬象MaaS平臺的統(tǒng)一調(diào)度策略確保Prefill與Decode服務(wù)在高并發(fā)場景下始終穩(wěn)定運(yùn)行。

在商湯大裝置的某國產(chǎn)GPGPU集群上,MemOS的記憶結(jié)構(gòu)被映射成了非常清晰的物理分工



P域(Prefill Domain)變成真正的“記憶工廠”,集中承載影子上下文的預(yù)測與KV Cache的批量預(yù)生成,在P域以高并行、高利用率的方式運(yùn)行;

D域(Decode Domain)則被打造為純粹的“實(shí)時交互前臺”,專注處理真實(shí)用戶請求的解碼過程,在保持超低TTFT的前提下,承擔(dān)起R1這一類大模型在C端場景的連續(xù)輸出與穩(wěn)定響應(yīng);

跨節(jié)點(diǎn)KV Cache則通過高帶寬互聯(lián)與零拷路徑實(shí)現(xiàn)“即產(chǎn)即用”,MemOS的激活記憶機(jī)制與商湯大裝置在某國產(chǎn)GPGPU上打磨出的通信能力形成天然互補(bǔ),使Prefill產(chǎn)生的KV Cache不再成為傳輸瓶頸,而是以極低開銷進(jìn)入D域的解碼流程中。

這次合作是一次體系級的結(jié)構(gòu)共振:PD分離為MemOS打開了一條真正意義上的高速算力通道,而MemOS則為PD分離提供了精細(xì)到記憶單元級別的調(diào)度邏輯和業(yè)務(wù)上下文,基于此,PD分離第一次從一個工程團(tuán)隊(duì)內(nèi)部的“性能小技巧”,變成一套可以被完整描述、完整度量、并在生產(chǎn)環(huán)境中長期運(yùn)行的新推理范式。

綜合推理性價比
達(dá)到同代NVIDIA A100的150%左右

在嚴(yán)格的生產(chǎn)級評測口徑下——包括2k輸入、1k輸出、TTFT<2s 的SLA約束、72小時以上穩(wěn)態(tài)運(yùn)行、統(tǒng)一的限流與負(fù)載生成策略——記憶張量與商湯大裝置聯(lián)合打造的國產(chǎn)GPGPU集群交出了這樣一張答卷:

集群整體吞吐量提升超過75%,從Naive部署下的107.85 tokens/s提升到189.23 tokens/s,Prefill與Decode真正做到了算/存解耦;

單卡并發(fā)能力提升約20%,從25.00并發(fā)/卡提升至29.42并發(fā)/卡,高峰期排隊(duì)與溢出的風(fēng)險(xiǎn)明顯降低;

● 并且,得益于 Prefill 全量前移和 D 域職責(zé)的單一化,TTFT全程穩(wěn)定小于2秒;KV Cache在熱門場景中的命中率提升70%+,這使得需要高頻、多輪交互的C端應(yīng)用,具備了極高的預(yù)計(jì)算復(fù)用率,推理成本被進(jìn)一步攤薄。

在統(tǒng)一財(cái)務(wù)與技術(shù)口徑下,綜合推理性價比達(dá)到同代NVIDIA A100的150%左右,在嚴(yán)格SLA與相同負(fù)載結(jié)構(gòu)下,某國產(chǎn)GPGPU在這一套“記憶原生×PD分離×業(yè)務(wù)調(diào)度”的框架中,第一次實(shí)現(xiàn)了對A100的體系級正面超越。

打造記憶原生時代的
國產(chǎn)AI基礎(chǔ)設(shè)施新范式

未來,記憶張量與商湯將在這一范式之上繼續(xù)深化合作:

● 一方面,圍繞更大規(guī)模的國產(chǎn)GPGPU集群,構(gòu)建真正意義上的記憶驅(qū)動流水線推理底座,讓“影子上下文—激活記憶—PD分離—多級緩存—AIOps”成為一套可觀測、可回滾、可演進(jìn)的基礎(chǔ)設(shè)施能力;

● 另一方面,在Prefill行為預(yù)測自治化、多級激活記憶管理、跨任務(wù)長時記憶一致性、面向Agent的軌跡記憶等方向上持續(xù)打磨,讓這套范式更能承載未來的伴隨式AI、具身智能體以及更復(fù)雜的長周期任務(wù)編排。

從更長遠(yuǎn)的視角看,這次聯(lián)合實(shí)踐帶來的最大改變是:國產(chǎn)算力體系第一次擁有了另一條面向未來智能形態(tài)的可能“結(jié)構(gòu)性路線”:從參數(shù)計(jì)算走向記憶計(jì)算,從靜態(tài)推理走向動態(tài)流水線,從模型中心走向記憶中心。未來,國產(chǎn)GPGPU不再只是“跟上來”的參與者,而完全有機(jī)會成為下一代推理范式的定義者之一。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
官媒對成龍的稱呼變了,三字之差釋放強(qiáng)烈信號,王晶的話有人信了

官媒對成龍的稱呼變了,三字之差釋放強(qiáng)烈信號,王晶的話有人信了

振華觀史
2025-12-23 20:24:20
敢不敢攔?載有委內(nèi)瑞拉原油的中國油輪已開出,美國敢不敢攔截?

敢不敢攔?載有委內(nèi)瑞拉原油的中國油輪已開出,美國敢不敢攔截?

百態(tài)人間
2025-12-24 16:50:17
江湖上只有起錯的名字,沒有起錯的外號!網(wǎng)友:不服不行

江湖上只有起錯的名字,沒有起錯的外號!網(wǎng)友:不服不行

娛樂洞察點(diǎn)點(diǎn)
2025-12-24 10:24:15
C羅半場壓哨助攻!精妙挑傳撕破防線,利雅得勝利勝利狂轟4球

C羅半場壓哨助攻!精妙挑傳撕破防線,利雅得勝利勝利狂轟4球

奧拜爾
2025-12-25 00:51:48
惡心!俄駐華使館高調(diào)紀(jì)念《北京條約》160周年,網(wǎng)友怒了

惡心!俄駐華使館高調(diào)紀(jì)念《北京條約》160周年,網(wǎng)友怒了

熱點(diǎn)菌本君
2025-12-24 19:16:33
精準(zhǔn)斬首!泰國無人機(jī)斬首行動震驚東南亞!洪森指揮鏈遭團(tuán)滅!

精準(zhǔn)斬首!泰國無人機(jī)斬首行動震驚東南亞!洪森指揮鏈遭團(tuán)滅!

深度報(bào)
2025-12-24 22:47:16
提升“性”致力,這5種食物比“偉哥”還管用,家家都有

提升“性”致力,這5種食物比“偉哥”還管用,家家都有

精彩分享快樂
2025-10-09 00:00:03
馬克龍拒不接受中國反制,緊急要求歐盟27國一致對華

馬克龍拒不接受中國反制,緊急要求歐盟27國一致對華

天氣觀察站
2025-12-25 04:37:29
重要知情人出現(xiàn)!《江南春》是97年陸挺花16萬買走,收據(jù)系偽造!

重要知情人出現(xiàn)!《江南春》是97年陸挺花16萬買走,收據(jù)系偽造!

一支破筆半支煙
2025-12-23 21:09:24
一夜2場大??!CBA兩支奪冠大熱均輸球,換教練之師成“燈塔”

一夜2場大敗!CBA兩支奪冠大熱均輸球,換教練之師成“燈塔”

世界背后的秘密
2025-12-25 02:37:02
天了!中國向全球正式宣布,禁止跟美合作,一記重拳轟向美軍七寸

天了!中國向全球正式宣布,禁止跟美合作,一記重拳轟向美軍七寸

瞳哥視界
2025-12-23 20:17:07
臺名嘴邱毅:賴清德被彈劾后徹夜難眠,跟尹錫悅相似沒有好下場!

臺名嘴邱毅:賴清德被彈劾后徹夜難眠,跟尹錫悅相似沒有好下場!

再戰(zhàn)五百回合
2025-12-23 22:25:58
英國首富、戴森公司創(chuàng)始人將6.24億英鎊轉(zhuǎn)至新加坡,其英國實(shí)體股本被削減至1英鎊

英國首富、戴森公司創(chuàng)始人將6.24億英鎊轉(zhuǎn)至新加坡,其英國實(shí)體股本被削減至1英鎊

紅星新聞
2025-12-24 21:58:21
陳芋汐回應(yīng)“有后臺”:不能用謠言去詆毀運(yùn)動員所有的付出,稱與全紅嬋友情不會被輿論左右;曾在決賽前收到“威脅短信”

陳芋汐回應(yīng)“有后臺”:不能用謠言去詆毀運(yùn)動員所有的付出,稱與全紅嬋友情不會被輿論左右;曾在決賽前收到“威脅短信”

極目新聞
2025-12-24 21:31:45
家長沸騰!中小學(xué)或迎新改革,將于2026年2月1日起施行

家長沸騰!中小學(xué)或迎新改革,將于2026年2月1日起施行

老特有話說
2025-12-24 12:31:24
明年最猛的科技賽道,基本定了!

明年最猛的科技賽道,基本定了!

君臨財(cái)富
2025-12-24 15:46:16
一夜之間,房價的玩笑這次開大了

一夜之間,房價的玩笑這次開大了

重遠(yuǎn)投資觀
2025-12-24 12:14:19
陳赫前妻許婧和匈牙利老公在沙特慶生,39 歲身材超棒,太吸睛。

陳赫前妻許婧和匈牙利老公在沙特慶生,39 歲身材超棒,太吸睛。

鄉(xiāng)野小珥
2025-12-23 05:38:57
廣州市委書記調(diào)整

廣州市委書記調(diào)整

新京報(bào)
2025-12-24 12:28:05
越南少將阮德輝吐實(shí)情:中國軍隊(duì)回撤途中黎筍下了道死命令

越南少將阮德輝吐實(shí)情:中國軍隊(duì)回撤途中黎筍下了道死命令

磊子講史
2025-12-23 20:13:04
2025-12-25 06:03:00
數(shù)據(jù)猿DataYuan incentive-icons
數(shù)據(jù)猿DataYuan
數(shù)據(jù)智能產(chǎn)業(yè)創(chuàng)新服務(wù)媒體
2496文章數(shù) 599關(guān)注度
往期回顧 全部

科技要聞

智譜和MiniMax拿出了“血淋淋”的賬本

頭條要聞

幼兒園8人遇難兒童母親:女兒4歲 今年9月入讀

頭條要聞

幼兒園8人遇難兒童母親:女兒4歲 今年9月入讀

體育要聞

26歲廣西球王,在質(zhì)疑聲中成為本土得分王

娛樂要聞

懷孕增重30斤!闞清子驚傳誕一女夭折?

財(cái)經(jīng)要聞

北京進(jìn)一步放松限購 滬深是否會跟進(jìn)?

汽車要聞

“運(yùn)動版庫里南”一月份亮相???或命名極氪9S

態(tài)度原創(chuàng)

教育
健康
數(shù)碼
手機(jī)
公開課

教育要聞

誰說初中三年可以逆風(fēng)翻盤?

這些新療法,讓化療不再那么痛苦

數(shù)碼要聞

AMD Zen 6與Intel Nova Lake或?qū)⑸涎?88 MB 3D緩存“大戰(zhàn)”

手機(jī)要聞

榮耀Magic8 Ultra:雙3D生物識別+LOFIC主攝,還有24GB大內(nèi)存!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版