国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

一文看懂NPU

0
分享至

公眾號(hào)記得加星標(biāo)??,第一時(shí)間看推送不會(huì)錯(cuò)過。

人工智能的近期崛起正處于“第三階段”。第一階段大約從1956年到1974年,第二階段大約從1980年到1987年,第三階段始于1993年。人工智能在前兩個(gè)階段發(fā)展停滯的主要原因是當(dāng)時(shí)的計(jì)算能力無法滿足需求。然而,1993年,由于計(jì)算能力的顯著提升,人們發(fā)現(xiàn)“傳統(tǒng)算法在一定程度上可以發(fā)揮作用”。1997年,IBM制造出了“深藍(lán)”,并擊敗了當(dāng)時(shí)的國(guó)際象棋世界冠軍加里·基莫維奇·卡斯帕羅夫。

然而,在當(dāng)時(shí),“深藍(lán)”是一項(xiàng)相當(dāng)蠻力的壯舉,它使用一個(gè)配備 512 個(gè)專用 VLSI 芯片的 32 節(jié)點(diǎn) RS/6000 系統(tǒng),每秒可以預(yù)測(cè) 2 億步,而且這種技術(shù)還不常見。

使這項(xiàng)技術(shù)更加普及并被研究人員廣泛應(yīng)用的轉(zhuǎn)折點(diǎn)是2012年的ILSVRC(ImageNet大規(guī)模視覺識(shí)別挑戰(zhàn)賽)。在這次比賽中,多倫多大學(xué)基于卷積神經(jīng)網(wǎng)絡(luò)的“ AlexNet ”取得了卓越的成績(jī),并榮獲第一名。此后,此前探索其他方法的研究人員紛紛轉(zhuǎn)向卷積神經(jīng)網(wǎng)絡(luò)(CNN)。很快,CNN就成為了人工智能第三次浪潮發(fā)展的核心。

那么,卷積神經(jīng)網(wǎng)絡(luò)(CNN)究竟是什么?在開發(fā)人工智能時(shí),考慮對(duì)人腦結(jié)構(gòu)進(jìn)行建模是很自然的事情。其理論基礎(chǔ)源于弗蘭克·羅森布拉特博士1958年發(fā)表的論文《感知器:大腦信息存儲(chǔ)和組織的概率模型》。該論文構(gòu)建了一種機(jī)制,用感知器進(jìn)行數(shù)值計(jì)算,從而模擬大腦的結(jié)構(gòu)。

人們?cè)啻螄L試?yán)眠@項(xiàng)技術(shù)來實(shí)現(xiàn)人工智能。例如,成立于1983年、正值人工智能發(fā)展第二階段的美國(guó)公司Thinking Machines,于1985年發(fā)布了名為“CM-1”的系統(tǒng)。該系統(tǒng)由65,536個(gè)1位處理器(3位輸入,2位輸出)組成。每個(gè)處理器都對(duì)應(yīng)大腦中的一個(gè)神經(jīng)元,處理器之間的連接則類似于大腦中的突觸。當(dāng)時(shí)的嘗試是利用感知器來實(shí)現(xiàn)人工智能系統(tǒng),但盡管65,536個(gè)處理器在當(dāng)時(shí)已是一個(gè)相當(dāng)大的數(shù)字,但與人腦相比仍然相形見絀。因此,CM-1及其后續(xù)產(chǎn)品更多地被用作高性能計(jì)算(HPC)系統(tǒng),而非用于人工智能研究。

那么,多倫多大學(xué)的研究為何能做到CM-1無法做到的事情呢?答案歸根結(jié)底在于計(jì)算性能的顯著提升。CM-1擁有65,536個(gè)1位處理器,每個(gè)處理器配備4Kbit的SRAM,最初的原型機(jī)運(yùn)行頻率約為4MHz。在執(zhí)行32位加法運(yùn)算時(shí),系統(tǒng)整體性能約為1,000 MIPS,內(nèi)存帶寬至少為32Mbps,典型值約為1Gbps。

相比之下,多倫多大學(xué)很可能使用了基于費(fèi)米架構(gòu)的NVIDIA Tesla顯卡,即使是入門級(jí)的C2050型號(hào)也擁有1.03 TFlops的計(jì)算性能和144 GB/s的最大內(nèi)存帶寬,與CM-1相比性能有了顯著提升。AlexNet模型使用了兩張這樣的顯卡,并以滿負(fù)荷運(yùn)行了大約兩周。如果使用CM-1完成同樣的任務(wù),則需要70多年。簡(jiǎn)而言之,計(jì)算能力的顯著提升使得這項(xiàng)任務(wù)成為現(xiàn)實(shí)。

CNN需要什么?

既然說到這個(gè)話題,我們就以 AlexNet 為例,進(jìn)一步解釋一下。圖 1 是 AlexNet 的結(jié)構(gòu)圖。圖中數(shù)據(jù)從左到右流動(dòng)。首先,最左邊的元素是輸入圖像,它是 224x224 像素的 RGB 數(shù)據(jù)。然后,它通過 96 個(gè)不同的濾波器(每個(gè)濾波器 11x11 像素)進(jìn)行 55x55 的卷積。由于每個(gè)濾波器都會(huì)產(chǎn)生一個(gè)卷積結(jié)果,因此總共有 96 個(gè) 55x55 的輸出。對(duì)這些輸出應(yīng)用激活函數(shù),然后進(jìn)行最大池化操作。


接下來,結(jié)果再次經(jīng)過卷積、激活函數(shù)和最大池化。然后對(duì)結(jié)果進(jìn)行三次卷積。經(jīng)過第三次最大池化操作后,通過全連接過程獲得最終輸出。AlexNet 的目的是對(duì)輸入圖像進(jìn)行分類,由于有 1000 個(gè)可能的輸出候選結(jié)果,因此全連接輸出將產(chǎn)生 1000 個(gè)結(jié)果。

無需贅述每個(gè)步驟的細(xì)節(jié),卷積運(yùn)算的計(jì)算過程如圖 2 所示。這里展示的是一個(gè) 3x3 的濾波器應(yīng)用于 6x6 的輸入數(shù)據(jù),得到一個(gè) 4x4 的輸出。然而,每個(gè) 4x4 的輸出都需要 9 次乘法運(yùn)算和一次加法運(yùn)算,因此,要得到這個(gè)卷積結(jié)果,總共需要 144 次乘法運(yùn)算和 16 次加法運(yùn)算。


順便一提,之所以加法運(yùn)算次數(shù)如此之少,是因?yàn)槿斯ぶ悄苡?jì)算機(jī)通常都具備一種機(jī)制,允許同時(shí)執(zhí)行多個(gè)加法運(yùn)算。如果沒有這種機(jī)制,每次都需要執(zhí)行 8 次加法運(yùn)算,總共需要 128 次。在上圖 1 中,第一個(gè)卷積層將一個(gè) 11x11 的濾波器應(yīng)用于一個(gè) 224x224 的輸入,最終得到一個(gè) 55x55 的結(jié)果(這里是 55,因?yàn)槲覀兪褂昧?4 的步長(zhǎng),這意味著我們每四步計(jì)算一次;通常情況下,輸出應(yīng)該是 216x216)。在這種情況下,所需的計(jì)算次數(shù)為 11x11x55x55 = 366,025 次乘法運(yùn)算和 363,000 次加法運(yùn)算。此外,對(duì) 96 種類型的過濾器中的每一種都進(jìn)行此操作,因此總共需要進(jìn)行 35,138,400 次乘法和 34,848,000 次加法。

假設(shè)CPU運(yùn)行頻率為1GHz,每個(gè)周期執(zhí)行一次加法或乘法運(yùn)算,那么整個(gè)過程大約需要0.07秒。然而,問題在于這僅僅是第一層的處理時(shí)間。卷積運(yùn)算之后會(huì)無限循環(huán),導(dǎo)致總計(jì)算量巨大。

更糟糕的是,與之后出現(xiàn)的各種卷積神經(jīng)網(wǎng)絡(luò)(CNN)相比,AlexNet 的計(jì)算量相對(duì)較小。2015 年,微軟在 ILSVRC 大會(huì)上發(fā)布了 ResNet,其錯(cuò)誤率遠(yuǎn)低于人類(3.57%,而 AlexNet 為 16.4%,普通人的正確率為 5.1%),因此備受贊譽(yù)。但 ResNet 的網(wǎng)絡(luò)結(jié)構(gòu)高達(dá) 152 層。毋庸置疑,其計(jì)算成本極其巨大。

GPU流行起來的原因

當(dāng)時(shí),使用GPU顯卡來構(gòu)建和訓(xùn)練AlexNet(據(jù)說用兩張GPU顯卡就花了兩個(gè)星期)是必要的。簡(jiǎn)而言之,唯一的原因是GPU是唯一能夠以合理速度處理如此龐大計(jì)算量的設(shè)備。

2007 年,NVIDIA 發(fā)布了 CUDA,作為 GPU 的通用 API,并于同年利用 CUDA 推出了面向高性能計(jì)算和其他應(yīng)用的 Tesla 系列服務(wù)器 GPU。同年,AMD 也開始提供一系列支持 OpenCL 的服務(wù)器 GPU(FirePro 系列),OpenCL 由 Khronos Group 標(biāo)準(zhǔn)化。

使用GPU在這里帶來了諸多優(yōu)勢(shì)。其中之一是計(jì)算本身固有的高度并行性。以圖2為例,Z1、Z2和Y1的計(jì)算可以彼此獨(dú)立地執(zhí)行。GPU中使用的SIMT(單指令多線程)機(jī)制的工作原理是:指令本身(在本例中為3×3乘法及其結(jié)果的加法)是通用的,而每個(gè)線程處理的數(shù)據(jù)各不相同。SIMT類似于SIMD,但區(qū)別在于SIMT的同步是在線程級(jí)別而非指令級(jí)別進(jìn)行的。在圖2中,16個(gè)操作Z1-Z4、Y1-Y4、X1-X4和W1-W4可以分別分配給不同的線程并同時(shí)處理。當(dāng)然,在實(shí)際應(yīng)用中,需要處理的數(shù)據(jù)量要大得多,但可用的線程數(shù)量也更多。

例如,F(xiàn)ermi 架構(gòu)擁有24,576 個(gè)可用線程。當(dāng)然,不可能同時(shí)運(yùn)行超過 20,000 個(gè)線程(因此大多數(shù)線程只能耐心等待輪到自己處理任務(wù)),但考慮到諸如內(nèi)存訪問之類的等待時(shí)間,這個(gè)線程數(shù)量足以維持穩(wěn)定的運(yùn)行狀態(tài)。

另一個(gè)優(yōu)點(diǎn)是它不需要太多內(nèi)存?;氐綀D 2,即使源數(shù)據(jù)、濾波器和結(jié)果都采用 FP32 格式,所需的數(shù)據(jù)大小也僅為 244 字節(jié)。然而,計(jì)算僅需 272 次運(yùn)算(144 次加法)。換句話說,它可以在低于 1 Flops/Bytes 的帶寬下運(yùn)行,即使在沒有大緩存的 GPU 上也能輕松執(zhí)行。

即使以圖 1 中 AlexNet 的第一層為例,其輸入為 224x224 = 196KB,濾波器為 11x11x96 = 45.4KB,輸出為 55x55x96 = 1134.46KB。總大小約為 1.3MB,完全可以放入 L2 緩存中。另一方面,如前所述,其計(jì)算復(fù)雜度約為 7000 萬次迭代??紤]到計(jì)算復(fù)雜度和所需內(nèi)存(緩存)大小之間的平衡,顯然這是一個(gè)計(jì)算密集型配置。(即使在今天)當(dāng)時(shí)的 GPU 的內(nèi)存帶寬未必足以滿足其計(jì)算性能,但對(duì)于 CNN 而言,通過一些巧妙的方法似乎可以高效地處理它們。

最重要的是,GPU最大的優(yōu)勢(shì)在于其極易獲取。2012年ILSVRC發(fā)布后,研究人員紛紛搶購(gòu)GPU并開始自己的研究。結(jié)果,NVIDIA的Tesla顯卡很快變得一貨難求,甚至出現(xiàn)了搶購(gòu)消費(fèi)級(jí)GeForce顯卡的風(fēng)潮。GeForce顯卡在任何電腦商店都能買到,這對(duì)人工智能研究人員來說極其便利。此外,CUDA比OpenCL更容易使用(畢竟AlexNet是用CUDA編寫的,研究人員也紛紛效仿),人工智能與CUDA的聯(lián)系迅速形成。此后,一切都只是擴(kuò)展和復(fù)制的過程。

NVIDIA 在 2014 年 GTC 大會(huì)主題演講的第三部分專門討論了人工智能(當(dāng)時(shí)稱為機(jī)器學(xué)習(xí),而非 AI),并在第四部分展示了一款基于 CUDA 的自動(dòng)駕駛汽車,這充分展現(xiàn)了其對(duì)該領(lǐng)域的投入。而像 AMD 這樣的競(jìng)爭(zhēng)對(duì)手直到很久以后才開始談?wù)撊斯ぶ悄?機(jī)器學(xué)習(xí),這進(jìn)一步強(qiáng)化了“如果你想使用人工智能,就需要一塊 NVIDIA GPU”的觀念。

GPU上的AI處理

然而,需要注意的是,雖然GPU具備一些適用于人工智能的特性,但它們并非專為人工智能而設(shè)計(jì)。NVIDIA自身也深知這一點(diǎn),并將繼續(xù)根據(jù)具體情況,對(duì)GPU的人工智能專用功能進(jìn)行增強(qiáng)。

首先,我們引入了張量核心(Tensor Core)。在卷積神經(jīng)網(wǎng)絡(luò)(CNN)中,卷積運(yùn)算通常會(huì)占用超過90%的總計(jì)算量。為了更高效地處理這些運(yùn)算,為系統(tǒng)配備專門用于二維運(yùn)算(例如矩陣運(yùn)算)的計(jì)算單元,而不是僅僅用于常規(guī)運(yùn)算或一維單指令多數(shù)據(jù)流(SIMD),顯然更為明智。基于這一理念,張量核心于2017年在Volta架構(gòu)中引入。

接下來是改變數(shù)據(jù)類型。在卷積神經(jīng)網(wǎng)絡(luò)(CNN)中,研究證實(shí),提高整體計(jì)算性能而非提升每次計(jì)算的精度,能夠帶來更好的最終結(jié)果。換句話說,如果使用 FP32 而非 FP64 來提升計(jì)算性能,同時(shí)運(yùn)行規(guī)模翻倍的網(wǎng)絡(luò),則可以在相同的吞吐量下獲得更好的結(jié)果。如果降低每次計(jì)算的精度,例如使用 FP16/BF16 或 FP8,并通過構(gòu)建更大的網(wǎng)絡(luò)來彌補(bǔ)精度損失,則可以獲得更好的結(jié)果。

因此,繼 Tensor FP32(取代 FP32)、FP16/BF16(此前未用于數(shù)值計(jì)算)和 FP8/FP6 等類型之后,最新的 Blackwell 版本又增加了對(duì) FP4 的支持。盡管 FP4 的速度并非簡(jiǎn)單地比 FP64 快 16 倍(因?yàn)榇嬖跀?shù)據(jù)路徑優(yōu)化等硬件相關(guān)問題),但對(duì) FP4 的支持確實(shí)帶來了顯著的性能提升 (*1)。

(*1)實(shí)際上,對(duì) FP64 和其他方法的硬件支持已經(jīng)減少,部分運(yùn)算現(xiàn)在由軟件實(shí)現(xiàn)。因此,自 Blackwell 世代以來,F(xiàn)P64 的性能大幅下降,考慮到這一點(diǎn),F(xiàn)P4 的性能不再是 FP64 的 16 倍。

然而,使用大規(guī)模網(wǎng)絡(luò)也意味著消耗大量?jī)?nèi)存。只要數(shù)據(jù)寬度減半,網(wǎng)絡(luò)規(guī)模僅翻倍,內(nèi)存就不會(huì)短缺。但實(shí)際上,網(wǎng)絡(luò)規(guī)模的增長(zhǎng)速度遠(yuǎn)超翻倍。此外,雖然像 AlexNet 這樣的小規(guī)模網(wǎng)絡(luò)可以使用 L2 內(nèi)存進(jìn)行管理,但后續(xù)的網(wǎng)絡(luò)規(guī)模都大幅增長(zhǎng),不僅網(wǎng)絡(luò)層數(shù)更多,而且規(guī)模也更大,因此大量的內(nèi)存訪問不可避免。這意味著我們需要提升內(nèi)存容量和內(nèi)存帶寬,而 NVIDIA 正通過集成 HBM 內(nèi)存來解決這個(gè)問題。

然而,各種難題也開始顯現(xiàn)。首先是電源問題。Ampere架構(gòu)A100的TDP為250W,Hopper架構(gòu)H200為700W,Blackwell架構(gòu)B300為1400W,這些數(shù)值都給數(shù)據(jù)中心的電源供應(yīng)帶來了挑戰(zhàn)。因此,NVIDIA正大力推動(dòng)從2025財(cái)年開始采用800V電源。這是因?yàn)椋诎l(fā)布的基于Vera Rubin核心的NVL144據(jù)說每個(gè)機(jī)架的功率為120-140kW,而下一代搭載Rubin Ultra核心的NVL576據(jù)說每個(gè)機(jī)架的功率高達(dá)600kW,如此巨大的電流在傳統(tǒng)的100-200V電源下難以滿足需求。

我們確實(shí)也在努力跟上LLM和Aggressive AI等新趨勢(shì)。由于SIMT架構(gòu),我們同時(shí)處理的數(shù)據(jù)越多,結(jié)果就越高效。這被稱為批處理大小,在LLM中,它是一個(gè)表示一次處理多少個(gè)字符或句子的數(shù)值。當(dāng)批處理大小較大時(shí),GPU效率很高;但當(dāng)批處理大小減小時(shí),GPU的性能會(huì)突然下降,或者不再提升。

關(guān)于LLM,NVIDIA提出了在2025年實(shí)現(xiàn)獨(dú)立推理的方案,并開源了一個(gè)名為Dynamo的新框架,同時(shí)表示將使用該框架進(jìn)行實(shí)現(xiàn)。Dynamo旨在將LLM推理分解為兩個(gè)階段:預(yù)填充和解碼。預(yù)填充階段由傳統(tǒng)的GPU處理,而解碼階段則由新推出的名為Rubin CPX的GPU處理。

然而,這項(xiàng)計(jì)劃今年已被取消,預(yù)填充將采用傳統(tǒng)的 Rubin 處理器。取而代之的是,解碼將采用三月份 GTC 大會(huì)上宣布的“Groq 3”處理器。就在六個(gè)月前,他們還在 2025 年 10 月的路線圖中大肆宣傳“CUDA Everywhere”,如今卻采用了不兼容 CUDA 的處理器,這暴露了他們 GPU 的局限性。

另一點(diǎn)需要指出的是,SIMD 結(jié)構(gòu)本身難以處理稀疏性(稀疏矩陣)。稀疏矩陣是指元素包含“0”的矩陣。圖 3 是圖 2 的修改版本,其中濾波器的元素為零。在這種情況下,理想情況下計(jì)算量應(yīng)該顯著減少,如圖中下方所示,但實(shí)際上,計(jì)算中卻包含了不必要的零乘法和零加法,如圖中右下角所示。如果可以省略這些操作,計(jì)算效率會(huì)更高,但這在常規(guī)矩陣計(jì)算中很難實(shí)現(xiàn)。


NVIDIA 針對(duì)稀疏矩陣提出了多種解決方案。例如,Ampere 架構(gòu)中引入的稀疏矩陣支持機(jī)制,會(huì)預(yù)先檢測(cè)濾波器中的零元素,通過移除這些元素生成壓縮矩陣格式,然后使用該格式進(jìn)行卷積運(yùn)算以提高效率。然而,如果原始數(shù)據(jù)本身就是稀疏的,這種方法就無效了(不壓縮數(shù)據(jù)比每次都?jí)嚎s數(shù)據(jù)更快)。雖然這并非致命問題,但無疑是其缺點(diǎn)之一。)

人工智能處理器/加速器

人工智能處理器和人工智能加速器的研發(fā)始于 2010 年代初期。確切地說,2010 年代初期的許多設(shè)備最初是媒體加速器或 DSP,并非專門針對(duì)人工智能,但后來為了利用人工智能市場(chǎng)的崛起,改變了方向,轉(zhuǎn)而瞄準(zhǔn)人工智能。

另一方面,從2010年代末開始,使用GPU的AI的缺點(diǎn)和不足逐漸顯現(xiàn),導(dǎo)致越來越多的制造商開始設(shè)計(jì)能夠彌補(bǔ)這些缺點(diǎn)或針對(duì)GPU不適用的市場(chǎng)而設(shè)計(jì)的AI處理器/加速器。當(dāng)然,不同目標(biāo)市場(chǎng)的配置差異很大,但如果要強(qiáng)調(diào)一些特點(diǎn),

極其擅長(zhǎng)人工智能計(jì)算

GPU(盡管其可靠性日益下降)能夠進(jìn)行通用計(jì)算。它們支持 FP4、FP8/BF16、Int 4/8/16/32 和 FP32/FP64 等數(shù)據(jù)類型,并且涵蓋的功能遠(yuǎn)不止基本的算術(shù)運(yùn)算。

雖然它并不完全包含位操作,但它可以執(zhí)行條件分支和相當(dāng)通用的數(shù)值計(jì)算。相比之下,許多人工智能處理器/加速器僅支持對(duì)特定數(shù)據(jù)類型進(jìn)行卷積和激活函數(shù)運(yùn)算。有些甚至完全放棄了執(zhí)行控制,許多加速器只是簡(jiǎn)單地將數(shù)據(jù)寫入內(nèi)存,然后觸發(fā)執(zhí)行命令,結(jié)果會(huì)在一定數(shù)量的周期后出現(xiàn)。

然而,這種方法往往缺乏通用性,因此在實(shí)踐中,許多制造商采用了一種結(jié)構(gòu),將通用 CPU 內(nèi)核(這里經(jīng)常使用 RISC-V 內(nèi)核,不僅是因?yàn)樵S可和版稅的原因,還因?yàn)閮?nèi)核可以修改)與專為 AI 計(jì)算設(shè)計(jì)的加速器相結(jié)合。

實(shí)現(xiàn)方法多種多樣,但一種常見的做法是修改指令流水線,并將AI指令的控制權(quán)完全交給AI加速器。這樣,即使未來開發(fā)出新的算法,現(xiàn)有計(jì)算單元無法處理,仍然可以通過通用CPU內(nèi)核的ALU來處理(盡管性能會(huì)有所降低)。

數(shù)據(jù)流

盡管數(shù)據(jù)流的實(shí)用性早已在學(xué)術(shù)論文和其他出版物中得到廣泛討論,但它尚未在商業(yè)產(chǎn)品中得到應(yīng)用。然而,它在人工智能處理器中已變得如此普遍,以至于那些沒有采用數(shù)據(jù)流的處理器似乎成了少數(shù)。

本質(zhì)上,當(dāng)多個(gè)執(zhí)行單元(通常稱為 PE:處理器元件)按順序連接時(shí),其機(jī)制是“當(dāng)前一個(gè) PE 的輸出到達(dá)時(shí),它將其作為輸入并開始處理,處理完成后,它進(jìn)入等待狀態(tài)”。利用這一機(jī)制,例如,可以非常輕松地實(shí)現(xiàn)使用稀疏矩陣的卷積(圖 4)。系數(shù)為 0 的 PE 根本不接收輸入(因此它們不工作,從而降低了功耗),并且由于它們不產(chǎn)生結(jié)果,因此不會(huì)發(fā)生不必要的加法運(yùn)算。


更積極主動(dòng)地利用數(shù)據(jù)流的方法是改變處理流程本身。以GPU(或者更準(zhǔn)確地說是SIMT)為例,處理程序(在NVIDIA術(shù)語中稱為內(nèi)核)原則上對(duì)所有線程都是通用的。之所以說“原則上”,是因?yàn)楫?dāng)然存在例外;并非不可能為每個(gè)捆綁在一起的多線程單元(稱為線程束)更改內(nèi)核。然而,這容易做到嗎?答案是否定的;這相當(dāng)困難。

為了簡(jiǎn)化起見,我們假設(shè)內(nèi)核對(duì)所有線程都是相同的。以 AlexNet 為例,同樣為了簡(jiǎn)化起見,我們假設(shè)該過程包含 6 個(gè)步驟:5 個(gè)卷積層(激活層和最大池化層被視為卷積層的一部分)+ 全連接層。在非數(shù)據(jù)流方法(例如 GPU,這里也包括 DSP 和通用 CPU)中,該過程采用分時(shí)方式,并按照?qǐng)D 5 左側(cè)所示的順序進(jìn)行卷積,從 到 以此類推。然而,由于每個(gè)進(jìn)程都需要切換,因此開銷相當(dāng)大。


另一方面,如圖 5 右側(cè)所示,在數(shù)據(jù)流中,可以像 CPU 流水線一樣,將處理任務(wù)劃分并分配給各個(gè)進(jìn)程。這種方法可以根據(jù)每個(gè)進(jìn)程的負(fù)載調(diào)整分配的 PE 數(shù)量,從而輕松優(yōu)化負(fù)載,最重要的是,由于無需更改單個(gè) PE 的處理方式,因此可以最大限度地減少開銷。如果 PE 容量充足,還可以同時(shí)運(yùn)行多種類型的網(wǎng)絡(luò)。這種靈活性對(duì)于 AI 處理器/加速器來說非常理想。

CIM(內(nèi)存計(jì)算)/PIM(內(nèi)存處理器)

無論名稱如何,原理都是一樣的。

具體來說,從功耗角度來看,處理器中最耗電的活動(dòng)是數(shù)據(jù)傳輸。簡(jiǎn)而言之,運(yùn)算單元和內(nèi)存之間的數(shù)據(jù)傳輸所需功率最大,因?yàn)閿?shù)據(jù)要從內(nèi)存移動(dòng)到運(yùn)算單元進(jìn)行計(jì)算,然后將結(jié)果返回內(nèi)存。

其理念是,如果將內(nèi)存單元和運(yùn)算單元集成到一個(gè)單元中,就能降低功耗。順便一提,這種理念以前也曾有人嘗試過,但最終都失敗了,例如NeoMagic的“ APA”和Connex Technology的“ CA1024 ”等早期產(chǎn)品,但令人驚訝的是,它與人工智能的兼容性非常好。

這是因?yàn)?,從面積角度來看,在PIM/CIM系統(tǒng)中實(shí)現(xiàn)復(fù)雜的ALU(算術(shù)邏輯單元)比較困難,但卷積運(yùn)算的實(shí)現(xiàn)卻很簡(jiǎn)單,因?yàn)樗举|(zhì)上只涉及加法和乘法。而且,由于超過90%的計(jì)算都是卷積運(yùn)算,因此降低卷積運(yùn)算的功耗對(duì)整個(gè)系統(tǒng)的影響非常顯著,性價(jià)比很高。

在這方面,三星已經(jīng)研制出將處理器集成到HBM中的AI加速器原型,SK海力士也對(duì)GDDR內(nèi)存進(jìn)行了類似的研究,兩家公司目前都在繼續(xù)推進(jìn)商業(yè)化研發(fā)。英特爾也在2022年超大規(guī)模集成電路研討會(huì)上宣布,將把處理器集成到CPU的L3緩存中(盡管這似乎仍處于研究階段,并非旨在商業(yè)化)。此外,稍后將解釋的模擬處理器,原則上也可以被視為一種CIM/PIM。


雖然 CIM/PIM 由于其電路尺寸的顯著限制,對(duì)于通用處理器實(shí)現(xiàn)而言并不實(shí)用,但它作為卷積運(yùn)算加速器卻被認(rèn)為相當(dāng)實(shí)用,而且接下來要討論的許多 SRAM 實(shí)現(xiàn)也正在以類似 CIM/PIM 的方式進(jìn)行考慮。

大量SRAM

這與CIM/PIM相關(guān),但AI處理器/加速器配備了大量PE(處理單元)以提升計(jì)算性能。顯然,提高運(yùn)行頻率并非可行之策(因?yàn)樾阅?功耗比會(huì)急劇下降)。這意味著需要大量的內(nèi)存,但片外DRAM帶寬低、延遲高,且涉及片外數(shù)據(jù)傳輸,會(huì)增加功耗,因此通常被避免使用。因此,目前的趨勢(shì)是采用大量的SRAM。

或許,Cerebras 的“WSE(晶圓級(jí)引擎)”是這一光譜的極端代表。最初的“WSE-1”擁有 40 萬個(gè)處理單元 (PE) 和 18GB 的 SRAM,而最新的“WSE-3”則擁有 90 萬個(gè)處理單元 (PE) 和 44GB 的 SRAM。當(dāng)然,這些功能都無法集成到單個(gè)芯片上,因此 WSE-3 是一款邊長(zhǎng) 21.5 厘米的正方形芯片(?),由 84 個(gè)芯片組成。

通常,人工智能處理器/加速器(尤其是數(shù)據(jù)中心用的)往往采用配備大量SRAM的大型芯片。順便一提,這些SRAM通常被用作暫存區(qū)(ScratchPad),也就是說,它是一塊可以由處理器(PE)顯式訪問的內(nèi)存區(qū)域,而不是緩存。此外,通常采用CIM/PIM方法,將SRAM放置在各個(gè)PE附近,并在本地SRAM中執(zhí)行處理,以減少數(shù)據(jù)傳輸。

超高速DRAM

超高速DRAM,毋庸置疑,指的是HBM。雖然功耗和價(jià)格更高,但它能提供比普通DRAM更高的帶寬。特別是,由于LLM(低級(jí)存儲(chǔ)器)的快速普及和發(fā)展,片上SRAM已不再足夠。因此,近年來,AI處理器通常每個(gè)芯片集成2到4個(gè)HBM芯片。目前,雖然一些CPU也采用了HBM,但大多數(shù)都是面向AI的處理器或GPU,這也可以說是AI處理器的一個(gè)特點(diǎn)。

模擬處理器

模擬處理器更適合邊緣計(jì)算而不是數(shù)據(jù)中心,但也有一些例子表明,通過使用模擬電路執(zhí)行卷積運(yùn)算,它們可以同時(shí)實(shí)現(xiàn)節(jié)能和高性能/低成本。

例如,Mythic 使用閃存將存儲(chǔ)單元視為可變電阻器,從而能夠利用模擬電路對(duì)由數(shù)模轉(zhuǎn)換器 (DAC) 轉(zhuǎn)換為模擬信號(hào)的輸入數(shù)據(jù)進(jìn)行乘法和加法運(yùn)算。Aspinity 的“AnalogML”也旨在利用名為 RAMP(可重構(gòu)模擬模塊化處理器)的引擎實(shí)現(xiàn)基于模擬的計(jì)算。

雖然其配置不太適合數(shù)據(jù)中心,但該公司正通過強(qiáng)調(diào)其極低的功耗(幾瓦)以及由于采用模擬電路而可以使用相對(duì)老舊的工藝制造(因此制造成本低)來拓展銷售渠道。最近,以色列公司 CogniFiber 也受到了關(guān)注,該公司正在開發(fā)一種使用光纖的 AI 加速器。

我想大概就是這樣吧?

(來源:編譯自pcwatch)

*免責(zé)聲明:本文由作者原創(chuàng)。文章內(nèi)容系作者個(gè)人觀點(diǎn),半導(dǎo)體行業(yè)觀察轉(zhuǎn)載僅為了傳達(dá)一種不同的觀點(diǎn),不代表半導(dǎo)體行業(yè)觀察對(duì)該觀點(diǎn)贊同或支持,如果有任何異議,歡迎聯(lián)系半導(dǎo)體行業(yè)觀察。

今天是《半導(dǎo)體行業(yè)觀察》為您分享的第4379內(nèi)容,歡迎關(guān)注。

加星標(biāo)??第一時(shí)間看推送



求推薦


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
兵敗如山倒!國(guó)產(chǎn)新能源或已證明:中國(guó)壓根不需要二線豪華品牌

兵敗如山倒!國(guó)產(chǎn)新能源或已證明:中國(guó)壓根不需要二線豪華品牌

青煙小先生
2026-04-21 09:44:04
日本復(fù)燃131年前舊夢(mèng),解放軍動(dòng)真格,不到24小時(shí),朝俄同步出手

日本復(fù)燃131年前舊夢(mèng),解放軍動(dòng)真格,不到24小時(shí),朝俄同步出手

軍機(jī)Talk
2026-04-20 11:59:51
再見,皇馬!“億元先生”將轉(zhuǎn)投曼聯(lián)!8500萬頂級(jí)后腰“空降”

再見,皇馬!“億元先生”將轉(zhuǎn)投曼聯(lián)!8500萬頂級(jí)后腰“空降”

頭狼追球
2026-04-21 09:00:10
西部首爆冷:掘金失算,湖人119-114躺贏

西部首爆冷:掘金失算,湖人119-114躺贏

劉笤說體壇
2026-04-21 14:27:52
馬寧無緣主哨亞冠決賽!被裁委會(huì)取消資格,八強(qiáng)戰(zhàn)判罰引巨大爭(zhēng)議

馬寧無緣主哨亞冠決賽!被裁委會(huì)取消資格,八強(qiáng)戰(zhàn)判罰引巨大爭(zhēng)議

奧拜爾
2026-04-21 13:27:46
氣哭了,花幾萬元買的藍(lán)寶石,竟然還沒有幾百塊的培育寶石好看?

氣哭了,花幾萬元買的藍(lán)寶石,竟然還沒有幾百塊的培育寶石好看?

果殼
2026-04-20 16:12:53
國(guó)務(wù)院任免國(guó)家工作人員

國(guó)務(wù)院任免國(guó)家工作人員

新華社
2026-04-21 11:35:19
日本正式允許出口殺傷性武器,外交部:嚴(yán)重關(guān)切,高度警惕

日本正式允許出口殺傷性武器,外交部:嚴(yán)重關(guān)切,高度警惕

澎湃新聞
2026-04-21 15:34:26
努諾的“復(fù)仇”?一場(chǎng)平局,一場(chǎng)降級(jí),一個(gè)英超王朝的8年悲歌!

努諾的“復(fù)仇”?一場(chǎng)平局,一場(chǎng)降級(jí),一個(gè)英超王朝的8年悲歌!

落夜足球
2026-04-21 13:11:35
高峰現(xiàn)狀:離開那英后娶了同學(xué),住北京郊區(qū)小院,和兒子形同陌路

高峰現(xiàn)狀:離開那英后娶了同學(xué),住北京郊區(qū)小院,和兒子形同陌路

冷紫葉
2026-04-21 13:26:25
附加賽廣東牌運(yùn)最差!浙江最舒服,8、9名最燙手,遼寧迎關(guān)鍵抉擇

附加賽廣東牌運(yùn)最差!浙江最舒服,8、9名最燙手,遼寧迎關(guān)鍵抉擇

后仰大風(fēng)車
2026-04-21 09:45:08
周潤(rùn)發(fā)時(shí)隔16年再賣樓,逐步變現(xiàn)數(shù)億資產(chǎn),為身后慈善捐贈(zèng)做準(zhǔn)備

周潤(rùn)發(fā)時(shí)隔16年再賣樓,逐步變現(xiàn)數(shù)億資產(chǎn),為身后慈善捐贈(zèng)做準(zhǔn)備

素素娛樂
2026-04-21 09:02:16
華為把鍵盤改成了圓的,但這不是為了好看

華為把鍵盤改成了圓的,但這不是為了好看

全棧遛狗員
2026-04-20 17:46:00
1983年,陳云親自批示:立即槍斃廣東縣委書記王仲,原因?yàn)楹危?>
    </a>
        <h3>
      <a href=莫地方
2026-04-20 09:30:18
34歲韋東奕官宣喜訊,恭喜!

34歲韋東奕官宣喜訊,恭喜!

二胡的歲月如歌
2026-04-21 15:37:16
弟弟去世獲賠近50萬元,由大姐保管給母親養(yǎng)老,不到十年剩12萬!大姐夫:賬單有記錄,想給妹妹一人2萬辛苦費(fèi),她們不要就存到我的卡上了

弟弟去世獲賠近50萬元,由大姐保管給母親養(yǎng)老,不到十年剩12萬!大姐夫:賬單有記錄,想給妹妹一人2萬辛苦費(fèi),她們不要就存到我的卡上了

極目新聞
2026-04-21 14:16:06
確認(rèn)不打了!廣東四大主力集體擺爛,杜鋒被迫下課?

確認(rèn)不打了!廣東四大主力集體擺爛,杜鋒被迫下課?

緋雨兒
2026-04-21 09:41:14
恒大超級(jí)蛀蟲劉永灼:甚至比許家印還能攬財(cái),狂燒千億終落法網(wǎng)

恒大超級(jí)蛀蟲劉永灼:甚至比許家印還能攬財(cái),狂燒千億終落法網(wǎng)

小曙說娛
2026-04-19 00:27:45
關(guān)于文章被處理的通知

關(guān)于文章被處理的通知

言立方
2026-04-15 18:22:17
壽命與大便次數(shù)有關(guān)?壽命長(zhǎng)的人,每天排便在這個(gè)次數(shù),真的嗎?

壽命與大便次數(shù)有關(guān)?壽命長(zhǎng)的人,每天排便在這個(gè)次數(shù),真的嗎?

荷蘭豆愛健康
2026-04-21 14:57:39
2026-04-21 18:59:00
半導(dǎo)體行業(yè)觀察 incentive-icons
半導(dǎo)體行業(yè)觀察
專注觀察全球半導(dǎo)體行業(yè)資訊
13465文章數(shù) 34883關(guān)注度
往期回顧 全部

科技要聞

重磅官宣:庫(kù)克卸任,特努斯接任蘋果CEO

頭條要聞

男子買"隨用隨取"保險(xiǎn)后得知百歲才能取本金 法院判了

頭條要聞

男子買"隨用隨取"保險(xiǎn)后得知百歲才能取本金 法院判了

體育要聞

62歲,成為中國(guó)足壇最火的人

娛樂要聞

周潤(rùn)發(fā)時(shí)隔16年再賣樓,變現(xiàn)數(shù)億資產(chǎn)

財(cái)經(jīng)要聞

現(xiàn)實(shí)是最大的荒誕:千億平臺(tái)的沖突始末

汽車要聞

全新坦克700正式上市 售價(jià)42.8萬-50.8萬元

態(tài)度原創(chuàng)

家居
親子
游戲
手機(jī)
公開課

家居要聞

詩(shī)意光影 窺見自然之境

親子要聞

高齡備孕如何提高生育力?備孕輔酶q10需要吃多久?

萬代大作擺爛放棄D加密?剛被破解三周

手機(jī)要聞

一代經(jīng)典星宇橙成絕唱!iPhone 18 Pro四色新鮮出爐:紅色預(yù)定年度爆款

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版