国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

華為清華聯(lián)手,研發(fā)28nm存內(nèi)計(jì)算芯片

0
分享至



論文入選ISSCC 2026。

編譯 | 程茜

編輯 | Panken

芯東西2月26日消息,2月15日-19日,在被業(yè)界譽(yù)為“芯片設(shè)計(jì)國際奧林匹克會(huì)議”的國際固態(tài)電路大會(huì)(ISSCC 2026)上,清華大學(xué)、華為等大學(xué)與公司的研究人員發(fā)表論文,首次提出一款基于HYDAR框架的28nm混合存內(nèi)計(jì)算(CiR)芯片的推薦系統(tǒng)(RecSys)加速器。



這款36M RRAM CiR芯片能實(shí)現(xiàn)390K QPS的吞吐率與1574K QPS/W能效比。其構(gòu)建的多芯片系統(tǒng)可實(shí)現(xiàn)百萬級(jí)實(shí)時(shí)端到端推薦系統(tǒng)(RecSys)。



▲芯片顯微照片與系統(tǒng)概述

在實(shí)際推薦系統(tǒng)任務(wù)中,CiR通過擴(kuò)展至576M規(guī)模的多芯片系統(tǒng),QPS提升了66倍,QPS/W提升181倍,準(zhǔn)確率與CPU相當(dāng)。



▲芯片性能與當(dāng)前頂尖設(shè)計(jì)的對(duì)比

該芯片的核心優(yōu)勢(shì)包括:采用DL-ADC實(shí)現(xiàn)非Top-K計(jì)算的早期終止;基于預(yù)測(cè)的預(yù)取調(diào)度流水線(PPSP)數(shù)據(jù)流提升不規(guī)則工作負(fù)載的吞吐量;由粗到細(xì)的檢索架構(gòu)(coarse-to-fine)在保證系統(tǒng)召回精度的同時(shí),可擴(kuò)展至大規(guī)模應(yīng)用。

推薦系統(tǒng)中的核心運(yùn)算單元是相似向量檢索(SVS),該方式通過計(jì)算查詢向量與大規(guī)模向量庫之間的距離,檢索出Top?K最鄰近向量。

SVS會(huì)占據(jù)推薦系統(tǒng)絕大部分的計(jì)算時(shí)間與功耗,主要原因是外部存儲(chǔ)器訪問(EMA)開銷。其中,采用混合鍵合技術(shù)的DRAM加速器成本高昂,基于NAND TCAM的加速器存在讀取延遲高、數(shù)據(jù)與距離表示精度有限等問題。

針對(duì)上述痛點(diǎn),研究人員提出一種基于RRAM的數(shù)?;旌洗鎯?nèi)計(jì)算加速器HYDAR,可實(shí)現(xiàn)高吞吐量、高能效、高精度的SVS。

基于RRAM的存內(nèi)計(jì)算(Compute-in-RRAM,CiR)因能最大限度減少數(shù)據(jù)移動(dòng)、存儲(chǔ)密度高、并行度極大,已被公認(rèn)為深度學(xué)習(xí)加速的極具前景的技術(shù)路線。但將CiR應(yīng)用于SVS仍會(huì)帶來額外挑戰(zhàn),如能耗與延遲急劇增加、降低PE利用率與吞吐量、精度降低等。



▲面向高效推薦系統(tǒng)的、基于CiR的SVS加速器的研究動(dòng)機(jī)與設(shè)計(jì)挑戰(zhàn)

HYDAR通過CiR PE(存內(nèi)計(jì)算處理單元)、混合芯片設(shè)計(jì)與多芯片系統(tǒng)架構(gòu)協(xié)同優(yōu)化,解決了上述挑戰(zhàn):

首先是帶動(dòng)態(tài)延遲ADC(DL?ADC)的CiR PE,其通過多位模擬CiR PE集成DL?ADC,用于基于直方圖的相似向量檢索,可提前將距離與檢索閾值比較,并跳過非Top?K向量,從而降低延遲與功耗。

其次是基于預(yù)測(cè)的搶占式調(diào)度流水線(PPSP),通過這種混合芯片機(jī)制,預(yù)測(cè)每個(gè)PE的運(yùn)行時(shí)間、中斷不平衡任務(wù)、插入短任務(wù)來平衡負(fù)載,以適應(yīng)動(dòng)態(tài)SVS工作流,提升利用率與吞吐量。

最后是兩步由粗到精的檢索架構(gòu),其軟硬件協(xié)同設(shè)計(jì)框架,先在CiR PE上進(jìn)行粗粒度檢索以保證高吞吐量,再在數(shù)字SVS引擎上進(jìn)行精粒度檢索,在保證召回精度的同時(shí)最大化吞吐量。

在此基礎(chǔ)上,基于HYDAR框架,研究人員采用28nm工藝流片實(shí)現(xiàn)了一款CiR原型芯片,包含36M RRAM單元,分為16個(gè)并行PE,每個(gè)PE包含一個(gè)288×4096陣列



▲HYDAR整體架構(gòu)與核心特性及基于CiR的端到端檢索系統(tǒng)

具體來看基于模擬存內(nèi)計(jì)算單元(CiR PE)的直方圖相似向量檢索(SVS)實(shí)現(xiàn),以及支持計(jì)算提前終止的DL?ADC設(shè)計(jì)。

其通過查詢向量與基礎(chǔ)向量之間的距離分布直方圖來確定Top?K檢索的截?cái)嚅撝担–K)。在歐氏距離框架下,距離超過CK的基礎(chǔ)向量由雙模DL?ADC過濾,該ADC可動(dòng)態(tài)監(jiān)測(cè)比較結(jié)果,實(shí)現(xiàn)非Top?K向量的計(jì)算提前終止。

歐氏距離計(jì)算可在288×4096的CiR陣列上完成,其中每個(gè)2T2R單元表示一個(gè)4位維度,每一列代表一個(gè)256維基礎(chǔ)向量及32維偏置。

本設(shè)計(jì)中,CiR PE在計(jì)算過程中將直方圖存入本地直方圖存儲(chǔ)器,隨后同步至跨PE直方圖單元(CHU),合并分布式結(jié)果以生成CK。該論文設(shè)計(jì)了三條定制指令來執(zhí)行該流程。

在DL?ADC方面,基于逐次逼近寄存器(SAR)的結(jié)構(gòu)支持提前終止模式(ET),將預(yù)生成的CK作為輸入,與每個(gè)周期生成的SAR碼一同送入按位比較器。

在迭代調(diào)整IDAC以逼近ADC輸入電流的過程中,任何一位不匹配都表明計(jì)算結(jié)果與CK存在差異,觸發(fā)提前終止,停止計(jì)算并輸出2位向量掩碼(vMask)。

最后,通過將DL?ADC設(shè)置為ET模式,距離計(jì)算與過濾可同時(shí)執(zhí)行。



▲基于動(dòng)態(tài)延遲ADC(DL?ADC)的直方圖式SVS的CiR實(shí)現(xiàn)

該ET機(jī)制在數(shù)據(jù)庫規(guī)模擴(kuò)大時(shí)效果顯著,平均減少60%的計(jì)算時(shí)間和71%的功耗,宏單元面積開銷增加7%。

其次是面向SVS負(fù)載提出的基于預(yù)測(cè)的搶占式調(diào)度流水線(PPSP)。

查詢?cè)诓煌琍E間并行計(jì)算,而每個(gè)PE參與計(jì)算的基礎(chǔ)向量數(shù)量通常不同,這會(huì)造成計(jì)算周期差異與PE間同步開銷,進(jìn)而引發(fā)調(diào)度停頓與流水線氣泡。

PPSP采用連續(xù)搶占式調(diào)度與動(dòng)態(tài)任務(wù)調(diào)度器(DTS)解決了這一問題。

DTS會(huì)對(duì)各PE上查詢執(zhí)行的完成時(shí)間戳進(jìn)行監(jiān)測(cè)與預(yù)測(cè)。該論文提出的搶占式調(diào)度機(jī)制允許新任務(wù)搶占那些即將完成的正在運(yùn)行任務(wù),這可以消除流水線氣泡、讓任務(wù)更早完成、PE更快釋放,以服務(wù)后續(xù)查詢。

在接收到指令時(shí),任務(wù)會(huì)占用一個(gè)DTS槽位,并將其PE/段掩碼存入任務(wù)表,然后作為子任務(wù)路由到目標(biāo)PE的兩個(gè)待處理緩沖區(qū)之一。

DTS同時(shí)監(jiān)控每個(gè)任務(wù)的預(yù)測(cè)關(guān)鍵結(jié)束時(shí)間(PCET),其定義為所有子任務(wù)PET的最大值。其中的仲裁器檢查PE與正在運(yùn)行任務(wù)的重疊情況,如果新任務(wù)的PET可以降低且不影響正在運(yùn)行任務(wù)的PCET,則切換待處理緩沖區(qū)以搶占式調(diào)度新任務(wù),從而提升吞吐量、降低延遲。

此外,在查詢調(diào)度期間,DTS會(huì)在后端內(nèi)存分配器中為每個(gè)查詢預(yù)分配地址空間,使得PE可以直接將結(jié)果寫入輸出緩沖區(qū),無需PE間同步,從而實(shí)現(xiàn)PE快速釋放以處理新查詢。



▲面向動(dòng)態(tài)SVS負(fù)載的、所提出的基于預(yù)測(cè)的搶占式調(diào)度流水線(PPSP)

通過以上優(yōu)化,PPSP將PE利用率提升至91%,平均查詢延遲降低30%,QPS吞吐量提升1.82倍。

最后是面向SVS、基于CiR的兩步檢索架構(gòu)。

為提升系統(tǒng)精度,該架構(gòu)集成了數(shù)字精檢索引擎,在高吞吐粗檢索結(jié)果中精確篩選向量。這使得即使在模擬CiR存在噪聲與低精度處理的情況下,仍能保持高召回精度。

該架構(gòu)還通過多CiR芯片并行擴(kuò)展了向量庫容量,并支持更廣泛的并行粗檢索,同時(shí)采用Thresh?IVF流程與系統(tǒng)流水線,進(jìn)一步提升吞吐量。

CiR PE分為三類:質(zhì)心PE(CPE)存儲(chǔ)聚類中心坐標(biāo),采樣PE(SPE)存儲(chǔ)從每個(gè)聚類中采樣的少量向量,用于表征分布并生成CK;全量庫PE(FPE)存儲(chǔ)所有基礎(chǔ)向量,并全程運(yùn)行在高能效的DL?ADC提前終止(ET)模式下,在整個(gè)流程中占據(jù)92.7%的向量存儲(chǔ)。

CiR專用的Thresh?IVF工作流程包括查詢首先送入CPE,通過IT運(yùn)算計(jì)算查詢與聚類中心的距離,識(shí)別最近的聚類;系統(tǒng)將查詢路由到所選聚類的SPE,通過IH在多芯片間生成直方圖,進(jìn)而生成CK;CK被路由到步驟1所確定聚類的所有FPE,通過IC完成粗檢索ID生成。

這種系統(tǒng)級(jí)基于閾值的粗檢索,最小化了每個(gè)芯片輸出的過濾結(jié)果數(shù)量,避免了在各芯片上執(zhí)行相同Top?K計(jì)算帶來的冗余ID過濾。最后,少量候選ID被送入數(shù)字引擎,以FP16格式進(jìn)行精檢索,使系統(tǒng)級(jí)存儲(chǔ)帶寬需求降低97.44%。



▲兩步由粗到精檢索系統(tǒng)架構(gòu)與工作流程

該設(shè)計(jì)實(shí)現(xiàn)了系統(tǒng)級(jí)四級(jí)流水線并行;同時(shí)芯片內(nèi)不同PE也可并行處理不同任務(wù)。相較于傳統(tǒng)基于CPU的IVF方案,這種多芯片層級(jí)流水線可將延遲降低90.17%。

推薦系統(tǒng)在連接用戶與海量內(nèi)容和服務(wù)方面發(fā)揮著至關(guān)重要的作用,已廣泛部署于電商和流媒體平臺(tái),但作為其核心運(yùn)算單元相似向量檢索占據(jù)了推薦系統(tǒng)絕大部分的計(jì)算時(shí)間和功耗。

其中采用混合鍵合技術(shù)的DRAM加速器提升了帶寬以緩解EMA問題,但其成本高昂,且仍受限于DRAM與邏輯單元之間的數(shù)據(jù)傳輸瓶頸;基于NAND TCAM的加速器將計(jì)算集成到存儲(chǔ)陣列中以減少EMA,但存在讀取延遲高、數(shù)據(jù)和距離表示精度有限的問題。

基于此,這篇最新研究提出了一款高效的SVS加速器,能在保證高吞吐量檢索的同時(shí),不犧牲召回精度,進(jìn)一步降低推薦系統(tǒng)的功耗。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
收拾完伊朗,下一個(gè)輪到中國?以色列發(fā)戰(zhàn)爭威脅,中方送出5個(gè)字

收拾完伊朗,下一個(gè)輪到中國?以色列發(fā)戰(zhàn)爭威脅,中方送出5個(gè)字

混沌錄
2026-04-20 17:10:08
世體:巴薩將在國家德比穿奧利維亞聯(lián)名球衣,她也將現(xiàn)場(chǎng)觀戰(zhàn)

世體:巴薩將在國家德比穿奧利維亞聯(lián)名球衣,她也將現(xiàn)場(chǎng)觀戰(zhàn)

懂球帝
2026-04-21 16:45:04
續(xù)約??!他確定留隊(duì)勇士!

續(xù)約?。∷_定留隊(duì)勇士!

柚子說球
2026-04-22 09:11:46
相親20多人,30多歲姑娘被一句爹味發(fā)言整破防:我親爹都不說這話

相親20多人,30多歲姑娘被一句爹味發(fā)言整破防:我親爹都不說這話

半島晨報(bào)
2026-04-22 11:09:27
聯(lián)合國秘書長發(fā)言人在記者會(huì)上用中文問好 并表示希望聯(lián)合國的多語種服務(wù)越來越好

聯(lián)合國秘書長發(fā)言人在記者會(huì)上用中文問好 并表示希望聯(lián)合國的多語種服務(wù)越來越好

每日經(jīng)濟(jì)新聞
2026-04-21 14:32:56
乾隆賜劉墉跳河自盡,劉墉接旨后卻回家洗了個(gè)澡,事后才知真高明

乾隆賜劉墉跳河自盡,劉墉接旨后卻回家洗了個(gè)澡,事后才知真高明

芳芳?xì)v史燴
2026-04-21 19:06:57
44歲奧運(yùn)冠軍杜麗韻味十足,從滿臉痘變女神,今是射擊協(xié)會(huì)副主席

44歲奧運(yùn)冠軍杜麗韻味十足,從滿臉痘變女神,今是射擊協(xié)會(huì)副主席

以茶帶書
2026-04-21 17:17:30
距離起飛不到24小時(shí),賴清德專機(jī)被“閉門謝客”,吳釗燮破防

距離起飛不到24小時(shí),賴清德專機(jī)被“閉門謝客”,吳釗燮破防

子桑說
2026-04-22 10:50:22
女生主動(dòng)起來有多黏人?網(wǎng)友:這些女的太開放了

女生主動(dòng)起來有多黏人?網(wǎng)友:這些女的太開放了

帶你感受人間冷暖
2026-01-27 00:20:06
太扎心了!上海男子年薪百萬失業(yè)引不滿,新婚3個(gè)月女子就想離婚

太扎心了!上海男子年薪百萬失業(yè)引不滿,新婚3個(gè)月女子就想離婚

火山詩話
2026-04-20 06:12:18
騰訊推出“QQ音樂暢聽耳機(jī)”:提供會(huì)員曲庫10年暢聽,399元

騰訊推出“QQ音樂暢聽耳機(jī)”:提供會(huì)員曲庫10年暢聽,399元

IT之家
2026-04-20 16:02:11
美國頂尖科學(xué)家密集死亡,真相撲朔迷離

美國頂尖科學(xué)家密集死亡,真相撲朔迷離

史政先鋒
2026-04-20 22:00:23
文班亞馬腦震蕩傷退!進(jìn)入腦震蕩程序平均缺7-10天

文班亞馬腦震蕩傷退!進(jìn)入腦震蕩程序平均缺7-10天

體壇周報(bào)
2026-04-22 09:34:11
112名“中國留學(xué)生”,被調(diào)查

112名“中國留學(xué)生”,被調(diào)查

中國新聞周刊
2026-04-22 07:35:10
北京樓市:西直門臨水豪宅,跌幅26%

北京樓市:西直門臨水豪宅,跌幅26%

跟著拆哥看房
2026-04-21 20:11:31
勸退!“去客廳化”火了5年,為什么70%家庭最后都偷偷把沙發(fā)搬了回來?

勸退!“去客廳化”火了5年,為什么70%家庭最后都偷偷把沙發(fā)搬了回來?

繪本家居
2026-04-10 11:13:39
索尼PS5最新第一方獨(dú)占大作預(yù)載開始!高達(dá)83GB

索尼PS5最新第一方獨(dú)占大作預(yù)載開始!高達(dá)83GB

游民星空
2026-04-22 10:22:45
全程瞪眼原形畢露,演技被丁勇岱吊打,這位演員不紅是有原因的

全程瞪眼原形畢露,演技被丁勇岱吊打,這位演員不紅是有原因的

冷紫葉
2026-04-20 19:25:48
軍費(fèi)90億卻砸120億?美印看懵,巴鐵清空中國武器,背后金主攤牌

軍費(fèi)90億卻砸120億?美印看懵,巴鐵清空中國武器,背后金主攤牌

小蘭聊歷史
2026-04-18 15:27:37
原來他11年前就已離世!患病3年女兒不愿照看,死后為爭遺產(chǎn)現(xiàn)身

原來他11年前就已離世!患病3年女兒不愿照看,死后為爭遺產(chǎn)現(xiàn)身

以茶帶書
2026-03-25 19:34:47
2026-04-22 11:47:00
芯東西 incentive-icons
芯東西
專注AI芯片、半導(dǎo)體產(chǎn)業(yè)媒體
2290文章數(shù) 8153關(guān)注度
往期回顧 全部

科技要聞

凌晨突發(fā)!ChatGPT Images 2.0發(fā)布

頭條要聞

柬埔寨國王在京手術(shù) 洪森攜子看望:感謝中方

頭條要聞

柬埔寨國王在京手術(shù) 洪森攜子看望:感謝中方

體育要聞

一到NBA季后賽,四屆DPOY就成了主角

娛樂要聞

復(fù)婚無望!baby黃曉明陪小海綿零交流

財(cái)經(jīng)要聞

伊朗拒絕出席 特朗普宣布延長?;鹌谙?/h3>

汽車要聞

四款全球首秀+AI落地 大眾汽車集團(tuán)在華轉(zhuǎn)型全面提速

態(tài)度原創(chuàng)

本地
手機(jī)
教育
房產(chǎn)
公開課

本地新聞

春色滿城關(guān)不?。座N梅浪漫盛放,吳山藏了一片四月雪

手機(jī)要聞

REDMI K90 Max首銷4小時(shí)奪冠!刷新近一年3K-4K新機(jī)紀(jì)錄

教育要聞

博主分享數(shù)學(xué)速算技巧,三位數(shù)的平方輕松算出來,網(wǎng)友:干嘛不用計(jì)算器

房產(chǎn)要聞

年薪40-50萬!海南地產(chǎn)圈還在猛招人

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版