国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

多核NPU微架構(gòu)概述

0
分享至

一、引言

隨著人工智能技術(shù)的飛速發(fā)展,對(duì)神經(jīng)網(wǎng)絡(luò)處理單元(NPU)的性能要求越來越高。多核NPU微架構(gòu)應(yīng)運(yùn)而生,它通過集成多個(gè)處理核心,能夠顯著提升并行計(jì)算能力,滿足大規(guī)模神經(jīng)網(wǎng)絡(luò)計(jì)算的需求。


二、多核NPU微架構(gòu)的基本組成

計(jì)算單元。多核NPU的核心是大量的并行計(jì)算單元,這些單元通常被設(shè)計(jì)為向量處理器或矩陣處理器。例如,DianNao架構(gòu)中,NFU(Neural Functional Units)分為乘法單元、加法樹和激活單元。其中乘法單元包含256個(gè)乘法器,能夠在每個(gè)時(shí)鐘周期同時(shí)執(zhí)行256個(gè)乘法操作。這些計(jì)算單元能夠高效地執(zhí)行大規(guī)模矩陣運(yùn)算,從而加速神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和推理過程。


數(shù)據(jù)流架構(gòu)。NPU采用數(shù)據(jù)流驅(qū)動(dòng)的架構(gòu),數(shù)據(jù)在處理單元之間直接傳遞,減少了數(shù)據(jù)傳輸?shù)难舆t和功耗。這種架構(gòu)允許NPU并行處理大量數(shù)據(jù),非常適合神經(jīng)網(wǎng)絡(luò)中的矩陣運(yùn)算。在多核NPU中,數(shù)據(jù)流的優(yōu)化尤為重要,因?yàn)槎鄠€(gè)核心需要高效地共享和傳遞數(shù)據(jù),以避免數(shù)據(jù)瓶頸。

內(nèi)存層次結(jié)構(gòu)。NPU通常配備優(yōu)化的內(nèi)存層次結(jié)構(gòu),包括高速緩存和片上存儲(chǔ)器。例如,Qualcomm NPU設(shè)計(jì)了TCM高速緩存器,提供低延遲和高帶寬的內(nèi)存訪問性能。在多核NPU中,內(nèi)存層次結(jié)構(gòu)的設(shè)計(jì)需要考慮到多個(gè)核心對(duì)內(nèi)存的并發(fā)訪問需求,以減少內(nèi)存沖突和提高內(nèi)存利用率。

互聯(lián)結(jié)構(gòu)。多核NPU需要高效的互聯(lián)結(jié)構(gòu)來實(shí)現(xiàn)核心之間的通信。常見的互聯(lián)結(jié)構(gòu)包括總線、交叉開關(guān)(crossbar)和片上網(wǎng)絡(luò)(NoC)??偩€結(jié)構(gòu)簡單,但容易成為性能瓶頸;交叉開關(guān)可以提供更高的帶寬和更低的延遲,但硬件成本較高。片上網(wǎng)絡(luò)則是一種可擴(kuò)展性較好的互聯(lián)結(jié)構(gòu),它通過網(wǎng)絡(luò)接口和路由器來實(shí)現(xiàn)核心之間的數(shù)據(jù)傳輸。在多核NPU中,選擇合適的互聯(lián)結(jié)構(gòu)對(duì)于提高系統(tǒng)的整體性能至關(guān)重要。

三、多核NPU微架構(gòu)的并行計(jì)算設(shè)計(jì)

指令級(jí)并行(ILP)。NPU通過VLIW(Very Long Instruction Word)指令并行架構(gòu)實(shí)現(xiàn)指令級(jí)并行。編譯器將多條無依賴關(guān)系的指令組合成一個(gè)指令包,然后同時(shí)發(fā)送給多個(gè)獨(dú)立的功能部件進(jìn)行并行執(zhí)行。這種設(shè)計(jì)可以充分利用硬件資源,提高指令的執(zhí)行效率。

數(shù)據(jù)級(jí)并行(DLP)。NPU的并行計(jì)算單元能夠同時(shí)處理多個(gè)數(shù)據(jù)點(diǎn)。例如,在矩陣乘法操作中,多個(gè)并行單元可以同時(shí)計(jì)算矩陣的不同部分。在多核NPU中,數(shù)據(jù)級(jí)并行可以通過多個(gè)核心同時(shí)處理不同的數(shù)據(jù)塊來實(shí)現(xiàn),從而進(jìn)一步提高系統(tǒng)的吞吐量。

線程級(jí)并行(TLP)。NPU支持多線程編程模型,可以同時(shí)處理多個(gè)程序或程序中的多個(gè)部分。在多核NPU中,線程級(jí)并行可以通過多個(gè)核心同時(shí)執(zhí)行不同的線程來實(shí)現(xiàn)。這種設(shè)計(jì)可以充分利用多核的優(yōu)勢,提高系統(tǒng)的并發(fā)處理能力。

四、多核NPU微架構(gòu)的優(yōu)化技術(shù)

存算一體技術(shù):存算一體技術(shù)是將部分計(jì)算任務(wù)直接在存儲(chǔ)器中完成,而非傳統(tǒng)架構(gòu)中“內(nèi)存-緩存-計(jì)算單元”頻繁搬運(yùn)數(shù)據(jù)的模式。這種技術(shù)可以大幅減少數(shù)據(jù)遷移帶來的功耗和延遲,從而提高系統(tǒng)的能效。在多核NPU中,存算一體技術(shù)可以與多核架構(gòu)相結(jié)合,進(jìn)一步優(yōu)化性能。

彈性負(fù)載均衡:對(duì)NPU微架構(gòu)中的存儲(chǔ)與計(jì)算PE而言,可配置意味著可以通過片上的控制邏輯來動(dòng)態(tài)配置細(xì)顆粒度的PE陣列。通過Array+Vector異構(gòu)組合的SHAV彈性架構(gòu),可以適應(yīng)算法中多形態(tài)的算子尺寸和數(shù)據(jù)流變化需求。對(duì)NPU頂層架構(gòu)而言,微任務(wù)與多并行調(diào)度意味著多核的SHAV計(jì)算模塊可以通過高帶寬的分布式數(shù)據(jù)總線來搭建實(shí)現(xiàn)多核的彈性擴(kuò)展。

聯(lián)合優(yōu)化設(shè)計(jì):NPU中模型-硬件聯(lián)合設(shè)計(jì)的實(shí)現(xiàn)策略體現(xiàn)在降低計(jì)算資源需求的策略。例如,3x3卷積Conv可以通過面向通道的Conv3x3 +Conv1x1來實(shí)現(xiàn),Conv5x5以上可以通過Conv3x3 +Conv1x1組合來實(shí)現(xiàn)。這種聯(lián)合優(yōu)化設(shè)計(jì)可以提高硬件資源的利用率,提升能耗比和算力效率。

五、多核NPU微架構(gòu)的挑戰(zhàn)與應(yīng)對(duì)

挑戰(zhàn)。功耗問題:多核NPU在提升性能的同時(shí),也面臨著功耗增加的挑戰(zhàn)。如何在有限的功耗預(yù)算內(nèi)實(shí)現(xiàn)高性能計(jì)算是一個(gè)關(guān)鍵問題。散熱問題:高功耗會(huì)導(dǎo)致芯片發(fā)熱增加。散熱問題不僅影響芯片的性能和可靠性,還可能導(dǎo)致設(shè)備失效。編程復(fù)雜度:多核NPU的并行計(jì)算架構(gòu)增加了編程的復(fù)雜度。開發(fā)者需要了解硬件架構(gòu)的細(xì)節(jié),并編寫高效的并行程序,以充分利用多核的優(yōu)勢。

應(yīng)對(duì)措施。低功耗設(shè)計(jì)技術(shù):采用低功耗設(shè)計(jì)技術(shù),如動(dòng)態(tài)電壓頻率調(diào)整(DVFS)、功率門控等,可以在保證性能的前提下降低功耗。散熱解決方案:通過優(yōu)化芯片布局、采用先進(jìn)的散熱材料和散熱技術(shù),可以有效解決散熱問題。軟件工具支持:提供高效的編譯器、調(diào)試工具和性能分析工具,可以幫助開發(fā)者更好地理解和優(yōu)化并行程序。此外,還可以通過硬件抽象層(HAL)等技術(shù),降低編程復(fù)雜度。

六、多核NPU微架構(gòu)的應(yīng)用實(shí)例

(一)天璣9500

天璣9500的NPU革新采用了多核異構(gòu)或脈動(dòng)陣列設(shè)計(jì)。這種設(shè)計(jì)不僅增強(qiáng)了并行計(jì)算能力,還優(yōu)化了數(shù)據(jù)流路徑,降低了延遲。在運(yùn)行大參數(shù)AI模型時(shí),天璣9500能夠保持高能效。此外,天璣9500還引入了“存算一體”技術(shù),進(jìn)一步提高了芯片的能效。

(二)華為昇騰

華為昇騰采用SPMD(Single Program Multiple Data)編程模型,通過多核架構(gòu)技術(shù),提供千百級(jí)的加速器物理核。這種設(shè)計(jì)適合大算力下高并行數(shù)據(jù)負(fù)載,能夠?qū)崿F(xiàn)高效的并行計(jì)算。

(三)ONNXim模擬器

ONNXim是一款針對(duì)推理導(dǎo)向的多核神經(jīng)處理單元(NPU)的周期級(jí)模擬器。它能夠運(yùn)行大型深度神經(jīng)網(wǎng)絡(luò)(DNN)推理任務(wù),同時(shí)準(zhǔn)確地模擬共享資源(例如DRAM)的競爭情況。ONNXim支持多種調(diào)度策略,可以輕松擴(kuò)展以支持其他策略。通過使用ONNXim,研究人員可以更好地理解和優(yōu)化多核NPU的性能。

七、結(jié)論

多核NPU微架構(gòu)通過集成多個(gè)處理核心,能夠顯著提升并行計(jì)算能力,滿足大規(guī)模神經(jīng)網(wǎng)絡(luò)計(jì)算的需求。在設(shè)計(jì)多核NPU微架構(gòu)時(shí),需要綜合考慮計(jì)算單元、數(shù)據(jù)流架構(gòu)、內(nèi)存層次結(jié)構(gòu)和互聯(lián)結(jié)構(gòu)等多個(gè)方面。同時(shí),還需要采用優(yōu)化技術(shù),如存算一體技術(shù)、彈性負(fù)載均衡和聯(lián)合優(yōu)化設(shè)計(jì),以進(jìn)一步提高系統(tǒng)的性能和能效。盡管多核NPU微架構(gòu)面臨著功耗、散熱和編程復(fù)雜度等挑戰(zhàn),但通過低功耗設(shè)計(jì)技術(shù)、散熱解決方案和軟件工具支持等應(yīng)對(duì)措施,可以有效地解決這些問題。

邀請(qǐng)函

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
丹麥態(tài)度突變內(nèi)幕:忌憚的不是美國施壓,而是格陵蘭執(zhí)意“出走”

丹麥態(tài)度突變內(nèi)幕:忌憚的不是美國施壓,而是格陵蘭執(zhí)意“出走”

顧史
2026-01-07 19:32:10
巨量壓盤又來,A股再創(chuàng)歷史紀(jì)錄

巨量壓盤又來,A股再創(chuàng)歷史紀(jì)錄

萌生財(cái)經(jīng)
2026-01-08 08:58:37
天津雙預(yù)警!10級(jí)以上大風(fēng)!有揚(yáng)沙!

天津雙預(yù)警!10級(jí)以上大風(fēng)!有揚(yáng)沙!

魯中晨報(bào)
2026-01-08 17:30:09
郭富城大房:掌管郭富城20億身家,卻30年沒有名分,甘愿為郭帶娃

郭富城大房:掌管郭富城20億身家,卻30年沒有名分,甘愿為郭帶娃

玥來玥好講故事
2025-12-27 17:01:58
武漢大學(xué)女教授獻(xiàn)血300次事件,違背常識(shí)是最大的惡

武漢大學(xué)女教授獻(xiàn)血300次事件,違背常識(shí)是最大的惡

清書先生
2026-01-07 16:26:41
安吉麗娜·朱莉出售洛杉磯2450萬美元豪宅,被曝計(jì)劃移居柬埔寨和歐洲

安吉麗娜·朱莉出售洛杉磯2450萬美元豪宅,被曝計(jì)劃移居柬埔寨和歐洲

紅星新聞
2026-01-07 12:50:29
小伙職高畢業(yè)期望薪資3萬,面試官笑問:牛奶倒入大海怎么拿回?

小伙職高畢業(yè)期望薪資3萬,面試官笑問:牛奶倒入大海怎么拿回?

青青會(huì)講故事
2025-10-17 17:12:53
孤立無援,杜蘭特26中14空砍37分0助,2007年以來火箭隊(duì)首人

孤立無援,杜蘭特26中14空砍37分0助,2007年以來火箭隊(duì)首人

懂球帝
2026-01-08 14:25:06
妮可基嫚宣布離婚!心死斷開19年老公 曾砸32萬婚姻諮商仍失敗

妮可基嫚宣布離婚!心死斷開19年老公 曾砸32萬婚姻諮商仍失敗

ETtoday星光云
2026-01-07 12:18:04
若中美開戰(zhàn),美摧毀北斗衛(wèi)星,中國將如何應(yīng)對(duì)?4大殺手锏已就位

若中美開戰(zhàn),美摧毀北斗衛(wèi)星,中國將如何應(yīng)對(duì)?4大殺手锏已就位

春風(fēng)秋雨
2025-10-29 19:55:04
會(huì)后悔嗎?張水華辭職后!圈內(nèi)人稱:她水平有限,靠比賽維持很難

會(huì)后悔嗎?張水華辭職后!圈內(nèi)人稱:她水平有限,靠比賽維持很難

寒士之言本尊
2026-01-05 23:06:38
合口味深圳地鐵廣告引爭議!企業(yè)致歉:涉事廣告已調(diào)整更換

合口味深圳地鐵廣告引爭議!企業(yè)致歉:涉事廣告已調(diào)整更換

南方都市報(bào)
2026-01-07 16:34:20
麻省理工研究警告:未來華北平原不宜人類居?。±碚撘罁?jù)是什么?

麻省理工研究警告:未來華北平原不宜人類居住!理論依據(jù)是什么?

小熊侃史
2026-01-08 07:55:03
直擊獵德村分紅!村民排隊(duì)打簿,羨慕有人拿13萬...

直擊獵德村分紅!村民排隊(duì)打簿,羨慕有人拿13萬...

廣州樓市發(fā)布
2026-01-08 11:57:40
分手8年,胖到認(rèn)不出的coco自曝私密事,89歲謝賢還要為風(fēng)流買單

分手8年,胖到認(rèn)不出的coco自曝私密事,89歲謝賢還要為風(fēng)流買單

好賢觀史記
2026-01-06 15:20:16
中央定調(diào),延退政策實(shí)施!男職工,2026年7月或12月退休,如何選?

中央定調(diào),延退政策實(shí)施!男職工,2026年7月或12月退休,如何選?

王五說說看
2026-01-08 06:59:06
1950年,師級(jí)首長在成都遭活剝?毛主席拍案而起:116萬土匪,一個(gè)不留!

1950年,師級(jí)首長在成都遭活剝?毛主席拍案而起:116萬土匪,一個(gè)不留!

寄史言志
2026-01-07 20:37:09
特朗普指示美國退出“不符合該國利益”的66個(gè)國際組織

特朗普指示美國退出“不符合該國利益”的66個(gè)國際組織

環(huán)球網(wǎng)資訊
2026-01-08 06:29:06
對(duì)話高德掃街榜產(chǎn)品經(jīng)理:真正的「活」榜單是怎樣煉成的?

對(duì)話高德掃街榜產(chǎn)品經(jīng)理:真正的「活」榜單是怎樣煉成的?

極客公園
2026-01-07 15:22:08
意外發(fā)現(xiàn)他人隱私:你的反應(yīng)是怎樣的?

意外發(fā)現(xiàn)他人隱私:你的反應(yīng)是怎樣的?

特約前排觀眾
2025-11-29 00:15:03
2026-01-08 18:00:49
EETOP半導(dǎo)體社區(qū) incentive-icons
EETOP半導(dǎo)體社區(qū)
國內(nèi)著名的電子工程師社區(qū)
7163文章數(shù) 15574關(guān)注度
往期回顧 全部

科技要聞

智譜拿下“全球大模型第一股”,憑什么

頭條要聞

9歲女孩課堂寫試卷昏倒去世 家屬不忍尸檢稱"她怕疼"

頭條要聞

9歲女孩課堂寫試卷昏倒去世 家屬不忍尸檢稱"她怕疼"

體育要聞

約基奇倒下后,一位故人邪魅一笑

娛樂要聞

2026春節(jié)檔將有六部電影強(qiáng)勢上映

財(cái)經(jīng)要聞

微軟CTO韋青:未來人類會(huì)花錢"戒手機(jī)"

汽車要聞

從量變到"智"變 吉利在CES打出了五張牌

態(tài)度原創(chuàng)

親子
時(shí)尚
家居
本地
旅游

親子要聞

投資幾十萬讓娃3歲學(xué)英語,值不值?

藍(lán)色+灰色、紅色+棕色,這4組配色怎么搭都好看!

家居要聞

理性主義 冷調(diào)自由居所

本地新聞

1986-2026,一通電話的時(shí)空旅程

旅游要聞

平遙古城“低價(jià)票”調(diào)查:網(wǎng)售假證件何以順利闖關(guān)8個(gè)景點(diǎn)?丨封面深鏡

無障礙瀏覽 進(jìn)入關(guān)懷版