国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

英特爾Panther Lake淺析:AI提升50%,18A的絕地反擊

0
分享至


回顧酷睿Ultra的成長史,會發(fā)現(xiàn)產(chǎn)品誕生到發(fā)布之間,英特爾都承擔(dān)著來自各方的多重壓力。而在壓力之下,破釜沉舟的技術(shù)革新讓也人印象深刻。從Meteor Lake在架構(gòu)設(shè)計上大改開始,到Lunar Lake的效能、GPU和AI性能大幅更新,兩代酷睿Ultra著實拿出了不少令人驚艷的產(chǎn)品。但無奈成本和市場壓力,讓英特爾以更快的速度進行產(chǎn)品迭代,被反復(fù)提及的Panther Lake終于正式擺上了臺面。



Panther Lake從誕生之初就自帶很多光環(huán),它即能擁有Lunar Lake長續(xù)航與AI性能,也具備比Arrow Lake更好的多線程表現(xiàn),更重要的是,它是英特爾18A制程的第一款產(chǎn)品,并且用上了NPU 5和Xe3 GPU,將AI性能提升到了180 TOPS,足足提升50%。

距離Lunar Lake發(fā)布僅一年時間,就能看到產(chǎn)品力再度大幅提升的Panther Lake,光憑這一點,就讓人覺得很不“英特爾”,一點都不擠牙膏。



那么這次擠爆牙膏的性能究竟從何而來?在前段時間,筆者有幸參觀了英特爾位于亞利桑那州的Fab 52晶圓廠,獲取了關(guān)于Panther Lake更多細(xì)節(jié)。這款即將奠定未來筆記本電腦基調(diào)的處理器,會發(fā)生什么樣的變化,趁著解禁,慣例奉上一年一度的技術(shù)淺析。

為了方便閱讀,筆者將Panther Lake的大致變化和特點放在第一章節(jié),如果時間有限,看完第一章節(jié)概覽即可。而如果你對Panther Lake有更多興趣,其余的章節(jié)會向你分享Darkmont E-Core、Cougar Cove P-Core,以及NPU 5、Xe3 GPU的更多細(xì)節(jié)。



概覽:來自18A的戰(zhàn)斗力

Panther Lake延續(xù)了Meteor Lake以來多個模塊(Tile)和多種制程拼接的設(shè)計理念,盡可能小的模塊能夠更好的良率,并通過英特爾自家的Foveros-S 2.5D實現(xiàn)連接,實現(xiàn)效能、成本的最大化利用。這也給Panther Lake架構(gòu)設(shè)計奠定了一個主要基調(diào),即:通過架構(gòu)創(chuàng)新實現(xiàn)更廣泛的市場適配、全負(fù)載性能擴展與每瓦性能提升。

圍繞這個基調(diào),Panther Lake實現(xiàn)了三個方向的升級:

提升架構(gòu)靈活性:以滿足更廣泛的市場需求,例如對應(yīng)游戲本、輕薄本或者邊緣計算場景,可以在Panther Lake同一架構(gòu)下提供不同的產(chǎn)品;

全負(fù)載性能擴展:覆蓋CPU、GPU、NPU三大關(guān)鍵升級,全維度性能提升;

能效優(yōu)先:持續(xù)追求每瓦性能表現(xiàn),注重性能與功耗平衡。



借助架構(gòu)上的可擴展支持,Panther Lake技能夠?qū)崿F(xiàn)Lunar Lake上超強的x86能效表現(xiàn),也可以實現(xiàn)Arrow Lake上諸如多線程的性能擴展能力。更確切的說,英特爾將每一個模塊的IP進行獨立設(shè)計,通過成熟且成本可控的Foveros-S 2.5D完成封裝,從而實現(xiàn)第二代可擴展架構(gòu)(Scalable Fabric Gen 2),滿足不同的細(xì)分市場。



這里讓我們先說結(jié)論。Panther Lake架構(gòu)根據(jù)產(chǎn)品細(xì)分目前做成了三個版本,坊間聽到的數(shù)個版本多個數(shù)量的CPU與GPU以及I/O搭配,均是基于這三個版本而來,它們分別是:

8 Core + 4 Xe3

計算模塊(Compute Tile)由Intel 18A打造,包含4個P-Core,4個LP E-Core,共計8核。計算模塊內(nèi)還包含用于攝像頭增強的IPU 7.5,50 AI TOPS算力的NPU 5,8MB內(nèi)存?zhèn)染彺?,?nèi)存最高支持LPDDR5x-6800,DDR5-6400。

GPU模塊(GPU Tile)為4個Xe3核心,包含4個光線追蹤單元。平臺控制模塊(PCD Tile)提供8條PCIe 4.0和4條PCIe 5.0,共計12條PCIe通道,同時最高支持4個Thunderbolt 4,2個USB 3.2,8個USB 2.0,Wi-Fi 7(R2),藍(lán)牙6.0。

可以看到,這個版本是唯一不帶E-Core的版本,定位于超低電壓版本。在線程管理上與現(xiàn)在的Lunar Lake類似。



16 Core + 4 Xe3

計算模塊(Compute Tile)由Intel 18A打造,包含4個P-Core,8個E-Core,4個LP E-Core,共計16個核心。同時也包含IPU 7.5,50 AI TOPS算力的NPU 5,8MB內(nèi)存?zhèn)染彺?,?nèi)存最高支持LPDDR5x-8533,DDR5-7200。

GPU模塊(GPU Tile)為4個Xe3核心,包含4個光線追蹤單元。平臺控制模塊(PCD Tile)提供8條PCIe 4.0和12條PCIe 5.0,共計20條PCIe通道,同時最高支持4個Thunderbolt 4,2個USB 3.2,8個USB 2.0,Wi-Fi 7(R2),藍(lán)牙6.0。

這個版本擁有更多的PCIe通道,以及提供了對DDR5內(nèi)存的多樣化支持,明顯是為了匹配獨立顯卡版本的游戲筆記本、移動工作站所準(zhǔn)備的。



16 Core + 12 Xe3

計算模塊(Compute Tile)由Intel 18A打造,包含4個P-Core,8個E-Core,4個LP E-Core,共計16個核心。同時也包含IPU 7.5,50 AI TOPS算力的NPU 5,8MB內(nèi)存?zhèn)染彺妫瑑?nèi)存最高支持LPDDR5x-9600。由于更多的連接通道留給了12核Xe3,因此不再額外支持DDR5內(nèi)存。

GPU模塊(GPU Tile)高達12個Xe3核心,包含12個光線追蹤單元,僅憑GPU模塊就能提供120 AI TOPS算力,配合CPU的10 AI TOPS和NPU 5的50 AI TOPS,在XPU的調(diào)度協(xié)同下,整個處理器可以獲得180 AI TOPS算力,相對上一代Lunar Lake提升了50%。順帶一提,AMD因為缺乏XPU協(xié)同調(diào)度能力,不同CPU、GPU、NPU之間的算力是比較難實現(xiàn)協(xié)同調(diào)度的,因此AMD在宣傳AI性能的時候,會有意規(guī)避這一點。

平臺控制模塊(PCD Tile)提供8條PCIe 4.0和4條PCIe 5.0,共計12條PCIe通道,同時最高支持4個Thunderbolt 4,2個USB 3.2,8個USB 2.0,Wi-Fi 7(R2),藍(lán)牙6.0。

在筆者看來,這也是英特爾工程師們對于Panther Lake定義的完全體,也是旗艦級便攜筆記本、Windows游戲掌機的最終展現(xiàn)形態(tài)。



這樣的架構(gòu)優(yōu)勢在于,通過Foveros-S 2.5D,在封裝下就可以滿足應(yīng)付所有場景的設(shè)計,GPU模塊屬于獨立IP,不僅可以交給臺積電制造,還可以根據(jù)產(chǎn)品安排提供諸如4核Xe3或者12核Xe3版本,所有的I/O IP都集中在了平臺控制模塊(Platform Controller Tile,PCD Tile)中,主要的計算單元、媒體引擎則聚集在計算模塊(Compute Tile)中。

值得注意的是,Panther Lake中采用英特爾18A制程工藝主要是指計算模塊(Compute Tile),GPU模塊(GPU Tile)和平臺控制模塊(PCD Tile)則根據(jù)不同的版本使用不同的工藝制程,比如4核Xe3來自于Intel 3制程工藝,12核Xe3則來自于臺積電。

三款型號的整體對比圖如下。英特爾在正式推出酷睿Ultra 300系列產(chǎn)品的時候,會根據(jù)產(chǎn)品定位對這三個型號進行一定核心刪減,從而細(xì)分出不同定位的產(chǎn)品。而文章中提到的IPU 7.5,NPU 5,Xe3核顯以及連接性等細(xì)節(jié),文章的后半部分都會提供詳細(xì)的解釋。



所有核心和電源管理通過升級后的Intel Thread Director線程調(diào)度器完成,在調(diào)度邏輯上,按照LP E-Core,E-Core,再到P-Core進行分配。升級后的線程調(diào)度器擴展了實際繁忙的應(yīng)用范圍,支持跨核心類型的并發(fā)執(zhí)行反饋,因此也可以更好的避免效能核心搶性能核心工作的尷尬。

即插即用(PnP)決策從軟件層遷移到了SoC硬件層,以實現(xiàn)更精確的功耗控制,保證在AC/DC電源連接模式、效能/續(xù)航模式、Windows/Chrome/Linux跨平臺系統(tǒng)下電源控制的一致性。



另外,Panther Lake也宣布正式支持LPCAMM2內(nèi)存模組,在英特爾DEMO區(qū)筆者看到了來自美光英睿達LPCAMM2 8533 MT/s產(chǎn)品展示。



無論對比酷睿Ultra 200系列的Lunar Lake還是Arrow Lake,Panther Lake的提升都是驚人的。

在CPU方面,Panther Lake相比Lunar Lake單線程性能提升高于10%,相同功耗下,Panther Lake相比Lunar Lake、Arrow Lake在多線程性能表現(xiàn)上50%的提升。其中Panther Lake相比Arrow Lake,在相同的多線程性能下,功耗還可以降低30%。

GPU部分提升則更為明顯,12核Xe3可以直觀的帶來50%的性能提升。

NPU 5部分則是AI TOPS/面積利用率提升了40%,換而言之,NPU 5雖然僅從Lunar Lake NPU 4的48 TOPS提升到了現(xiàn)在的50 TOPS,但占用面積小將近一半。

從整體來看,Panther Lake相對Lunar Lake降低了10%的功耗,相對Arrow Lake降低了40%的功耗。另外由于IPU 7.5的性能加強,Panther Lake相對Lunar Lake在相同的硬件HDR場景下,功耗可以降低1.5W。



基本上來說,Panther Lake通過更細(xì)的模塊化架構(gòu)、18A制程工藝、組件升級實現(xiàn)了靈活擴展、性能提升、效能提升的核心目標(biāo),因此也不限于CPU、GPU、NPU的加量,還在于線程調(diào)度器、電源管理、跨場景應(yīng)用體驗一致性的提升。在概覽結(jié)束后,接下來讓我們進入正題。



Darkmont E-Core:多線程與節(jié)能的主角

現(xiàn)在我們知道,Panther Lake的計算模塊(Compute Tile)帶來了兩個全新的IP,分別是Cougar Cove P-Core和Darkmont E-Core,兩款核心都針對18A制程工藝進行優(yōu)化,無論P-Core還是E-Core都提升了IPC性能,并且在較低的功耗下?lián)碛懈玫谋憩F(xiàn),確保筆記本在離電狀態(tài)下?lián)碛邢嗤男阅?,以及擁有更長的續(xù)航。

Panther Lake多線程提升的優(yōu)勢在于使用了最多12個Darkmont作為E-Core提供多線程支持,進而讓Panther Lake多線程能力和節(jié)能上有顯著提升。

值得注意,Darkmont不僅用在E-Core中,也用在LP E-Core中,同時也是至強6+(Xeon 6+)處理器Clearwater Forest的計算核心,幫助至強6+一舉拿下288核壯舉,后續(xù)我們會有專門的文章進行詳細(xì)說明。



與Meteor Lake和Lunar Lake的E-Core相似,每4個E-Core為1個計算集群,無論哪個型號,E-Core和LP E-Core數(shù)量都將是4的倍數(shù)。每1個計算集群E-Core會共享4MB L2緩存。



E-Core和LP E-Core雖然在架構(gòu)上相同,但是緩存的訪問策略是不一樣的。LP E-Core不直接與L3緩存(即LLC末級緩存)直接連接,而是通過一致性代理(Coherency Agent,CA)實現(xiàn)跨集群的數(shù)據(jù)同步與仲裁。

E-Core則是由L3緩存(即LLC末級緩存)上的一致性代理(Coherency Agent,CA)進行統(tǒng)一調(diào)度。



這里有一個小彩蛋。Lunar Lake的E-Core實際上也是不與LLC末級緩存環(huán)(L3緩存環(huán))連接,如果按照Panther Lake的定義,Lunar Lake的E-Core應(yīng)該屬于LP E-Core,這樣也正好與Panther Lake的8 Core版本類似。實際上由于一致性代理(Coherency Agent,CA)的存在,兩者在溝通的邏輯層不存在任何阻礙,主要還是根據(jù)能耗策略對核心進行命名,方便了解。而事實上,在最新的Roadmap中,英特爾也是這么定義的。



現(xiàn)在我們把關(guān)注點放到核心微架構(gòu)上。這次E-Core架構(gòu)代號為Darkmont,不僅應(yīng)用在Panther Lake上,至強6+處理器同樣使用Darkmont E-Core作為核心,進而構(gòu)建出288核的強力產(chǎn)品。





Darkmont可以看成上一代酷睿Ultra 200系列中E-Core的Skymont的進階,例如在執(zhí)行引擎(Execution Engine)中增加多項式乘法單元(CLMUL)硬件單元,同時亂序引擎的退役(Retirement)也提升至16寬,比Crestmont的8寬和Skymont的12寬都要高。



這里英特爾使用的是上一代至強E-Core Crestmont與Darkmont進行對比,主要圍繞前端、亂序引擎、執(zhí)行引擎、內(nèi)存子系統(tǒng)、性能與能效提升的維度展開。



先是前端(Front-End)設(shè)計提升了指令處理效率。Darkmont擁有64KB指令緩存,結(jié)合增強型分支預(yù)測期,能夠減少指令獲取延遲。指令帶寬支持3x 32bit并行,對比Crestmont提升50%,并采用3個3寬亂序解碼器(3-wide out-of-order decoders),解碼能力對比Crestmont從6寬提升至9寬,以此獲得更好的指令解碼并行度。

Darkmont與Skymont一樣,微操作隊列(μOP)容量從Crestmont的64項擴展至96項,減少指令在隊列中的阻塞。

亂序引擎(Out-of-Order Engine)用于增強并行處理能力。Darkmont支持8寬分配(Allocation/Rename),相比Crestmont的6寬分配有所提升。由于處理器流水線中,指令的執(zhí)行是一個多階段的過程,當(dāng)一條指令完成了其所需的所有操作后,它就會從亂序引擎中退役(Retirement),以便為下一條指令騰出空間。這里英特爾將Crestmont的8寬退役(Retirement)增加到16寬,也相對于Skymont的12寬退役有所提升。

另外Darkmont亂序執(zhí)行窗口容量達到416項目,遠(yuǎn)超Crestmont的256項,能更充分地發(fā)現(xiàn)程序中的數(shù)據(jù)并行性,減少指令依賴導(dǎo)致的等待。調(diào)度端口從Crestmont的17個增加至26個,可同時調(diào)度更多操作至執(zhí)行單元。

接下來是執(zhí)行引擎(Execution Engine)針對計算與向量處理進行優(yōu)化,在執(zhí)行引擎中分為標(biāo)量引擎(Scalar engine)和向量引擎(Vector engine)。標(biāo)量引擎包括8個整數(shù)ALU(Scalar ALU)、3個跳轉(zhuǎn)端口(JMP),向量引擎包括4個128b向量FMA(浮點乘加)單元、4個向量/浮點ALU、2個向量/浮點存儲數(shù)據(jù)端口,地址生成包括4個AGU(地址生成單元)、2個整數(shù)存儲數(shù)據(jù)端口。

值得注意的是,多項式乘法(Carry-Less Multiplication, CLMUL)是此次在執(zhí)行引擎中新增的單元,Skymont中是沒有的。

接下來是核心內(nèi)存子系統(tǒng)(Core Memory Subsystem),主要聚焦低延遲、高帶寬與高容錯。包括32KB支持ECC的L1數(shù)據(jù)緩存,4MB L2共享緩存。L2緩存帶寬從Crestmont的64B/cycle提升至128B/cycle,數(shù)據(jù)吞吐量翻倍,相對于Skymont持平。

在內(nèi)存訪問優(yōu)化方面,提供3路加載(Load)、2路存儲(Store),配備深度加載/存儲緩沖,支持128個未完成的L2缺失(Outstanding L2 Misses),減少內(nèi)存等待導(dǎo)致的性能損耗。現(xiàn)在全緩存層級集成高級預(yù)取器,能識別多種數(shù)據(jù)流模式,提前加載數(shù)據(jù)。在容錯方面,支持?jǐn)?shù)據(jù)污染防護(Data Poisoning)、可恢復(fù)機器檢查(Recoverable Machine Check)、核心鎖步(Core Lockstep),并兼容52位物理地址。

這里放出Crestmont與Darkmont的對比:



從能效表現(xiàn)上,Darkmont相對Crestmont有著明顯優(yōu)勢,得益于前端帶寬、亂序窗口和執(zhí)行端口擴容,IPC(每時鐘周期指令數(shù))顯著提升。同時Darkmont也幫助英特爾至強6+性能相比至強6780E提升1.9倍性能,全負(fù)載范圍內(nèi)能效提升23%,服務(wù)器整合比達到8:1,這對歐美供電不平均地區(qū)而言很有吸引力??梢赃@么說,Darkmont無論在至強還是Panther Lake上,都發(fā)揮了很重要的作用。







Cougar Cove P-Core:18A的高光時刻

Panther Lake的18A制程工藝可以總結(jié)為4個關(guān)鍵技術(shù)點,即:

庫與陣列啟用(Library and array enabling):確保核心IP在18A工藝下穩(wěn)定運行

密度優(yōu)化(Density):提升芯片單位面積的晶體管密度

供電設(shè)計(Power delivery):適配先進工藝的低功耗供電需求

信號完整性(Signal integrity):減少高頻信號干擾,保障核心穩(wěn)定運行



在18A的條件下,Cougar Cove P-Core主打單線程性能與高吞吐,并且在架構(gòu)上有所優(yōu)化。包括配備18個執(zhí)行端口(Execution ports),深度指令窗口(Deep Instruction Window)為576條,支持8寬解碼(Decode)、8寬分配(Allocation/Rename)。同時TLB(Translation Lookaside Buffer)容量提升1.5倍,內(nèi)存消歧(Memory disambiguation)減少內(nèi)存訪問沖突,也使得流水線更為穩(wěn)定靈活。



Cougar Cove在架構(gòu)上繼承自Lion Cove,因此多層緩存設(shè)計中包含了1個具備4周期延遲的48KB L0D緩存,1個9周期延遲的192KB L1D緩存,以及1個17周期的3MB L2緩存。這意味著在9個時鐘周期內(nèi),可以獲得L0D+L1D的240KB緩存。同時數(shù)據(jù)轉(zhuǎn)換后備緩沖區(qū)(DTLB)為128項,以提升命中率。

Cougar Cove還會通過3個地址生成單元(Address Generation Unit,AGU)以進一步提升存儲性能。負(fù)載單元和存儲單元管道數(shù)量均達到3個,在英特爾早年的架構(gòu)設(shè)計中,負(fù)載單元通常多于存儲單元。可以看到,CPU中投入更多緩存設(shè)計,以應(yīng)對CPU系統(tǒng)愈發(fā)復(fù)雜的問題已經(jīng)變成未來趨勢。

此外,Cougar Cove還具備AI電源管理,AI能夠以自適應(yīng)方式動態(tài)響應(yīng)實際的實時操作條件,以實現(xiàn)更高的持續(xù)性能。以往的固定檔位調(diào)節(jié)只能以100MHz進行調(diào)整,現(xiàn)在更細(xì)的時鐘粒度可以做到16.67MHz為一個間隔,從而獲得更好的功耗管理。



此外,Cougar Cove還包括6個整數(shù)ALU單元(Arithmetic Logic Unit),3個跳轉(zhuǎn)單元(Jump Units),3個移位單元(Shift Units),3個64乘法單元。Cougar Cove與Lion Cove一樣,注重構(gòu)建大規(guī)模分區(qū)(Partition)以減少物理邊界,一次提升硅片面積利用率,降低設(shè)計成本和復(fù)雜度。

另外分支預(yù)測(BPU)也是Cougar Cove的關(guān)鍵模塊,主要集中提升效率,提升容量減少BPU延遲,同時結(jié)合I-TLB和I-CACHE協(xié)同工作,確保分支預(yù)測后指令快速獲取,提升整體執(zhí)行效率。



緩存和線程調(diào)度

在進入GPU模塊章節(jié)之前,這里有必要額外開個小章節(jié)來說明緩存系統(tǒng)和線程調(diào)度。主要圍繞內(nèi)存?zhèn)染彺妫∕emory-Side Cache)和新版的線程調(diào)度器(Intel Thread Director)展開。

內(nèi)存?zhèn)染彺妫∕emory-Side Cache)是Panther Lake處理器中用于優(yōu)化內(nèi)存訪問效率的關(guān)鍵組件,核心作用是幫助處理器改善延遲、提升帶寬、降低功耗。無論任何版本的Panther Lake,都增加了單獨的8MB內(nèi)存?zhèn)染彺妫∕emory-Side Cache)。



內(nèi)存?zhèn)染彺婵勺鲎鳛镈RAM內(nèi)存與計算模塊、I/O模塊之間的中間緩存,可將高頻訪問的數(shù)據(jù)暫存于本地,以減少核心直接訪問DRAM內(nèi)存的次數(shù),從而顯著降低數(shù)據(jù)讀取延遲,同時提升單位時間內(nèi)的數(shù)據(jù)傳輸帶寬,保障多任務(wù)、高負(fù)載下的性能穩(wěn)定。

同時內(nèi)存?zhèn)染彺孢€可以答復(fù)減少計算模塊與DRAM內(nèi)存的數(shù)據(jù)交互量,降低DRAM Traffic。由于DRAM功耗與數(shù)據(jù)交互頻率直接相關(guān),內(nèi)存?zhèn)染彺娴某霈F(xiàn)能夠進一步幫助Panther Lake降低功耗,提升每瓦性能。

除此之外,內(nèi)存?zhèn)染彺孢€可以給I/O、GPU、IPU和媒體引擎體統(tǒng)緩存支持,優(yōu)化不同組件之間內(nèi)存交互效率,避免諸如視頻編解碼、圖形渲染時密集I/O任務(wù)導(dǎo)致的內(nèi)存訪問瓶頸。

內(nèi)存?zhèn)染彺媸嵌嗄K組合之下必然且創(chuàng)新型的產(chǎn)物,能夠很好的提升全平臺協(xié)同性能。

這時候 Panther Lake的緩存一致性與系統(tǒng)協(xié)同也成為內(nèi)存?zhèn)染彺婧凸蚕砭彺娑夹枰鉀Q的問題。針對這一情況,Panther Lake在緩存系統(tǒng)中設(shè)置了一致性代理(Coherency Agent,CA)和歸屬代理(Home Agent,HA)作為協(xié)同。

其中一致性代理(Coherency Agent,CA)存在于L3共享緩存和LP E-Core的L2共享緩存中,主要作用是實現(xiàn)集群內(nèi)及跨集群的數(shù)據(jù)同步與仲裁,并且作為末級緩存(LLC),即L3共享緩存、P-Core、E-Core與第二代可擴展架構(gòu)(Scalable Fabric Gen 2)的接口。主要用于監(jiān)測集群內(nèi)核心對緩存數(shù)據(jù)的訪問請求(如讀、寫、修改),避免多個核心同時操作同一數(shù)據(jù)導(dǎo)致的不一致問題。



不同集群之間的一致性代理(Coherency Agent,CA)還通過第二代可擴展架構(gòu)(Scalable Fabric Gen 2)實現(xiàn)跨集群的緩存數(shù)據(jù)同步,確保全處理器范圍內(nèi)的數(shù)據(jù)準(zhǔn)確性。并從而簡化核心、緩存、GPU模塊、平臺控制模塊(PCD Tile)之間數(shù)據(jù)交互流程,減少延遲,進而提升數(shù)據(jù)訪問效率。



內(nèi)存測緩存(Memory-Side Cache)則采用的是歸屬代理(Home Agent,HA),需要承擔(dān)內(nèi)存訪問管理與系統(tǒng)級一致性保障,協(xié)調(diào)全處理器的DRAM內(nèi)存操作。包括對所有DRAM訪問請求的排序,確保內(nèi)存操作按邏輯順序執(zhí)行,避免因并發(fā)訪問導(dǎo)致的內(nèi)存數(shù)據(jù)混亂。管理內(nèi)存地址映射,定位數(shù)據(jù)在內(nèi)存或緩存中的存儲位置,優(yōu)化數(shù)據(jù)讀取路徑。

歸屬代理(Home Agent,HA)還會與一致性代理(Coherency Agent,CA)協(xié)同工作,當(dāng)緩存中無目標(biāo)數(shù)據(jù)時,歸屬代理(Home Agent,HA)負(fù)責(zé)發(fā)起內(nèi)存訪問請求,并將獲取的數(shù)據(jù)分發(fā)至對應(yīng)的核心或緩存,同時更新系統(tǒng)一致性狀態(tài),保障數(shù)據(jù)在緩存與內(nèi)存間的同步。

從整體上來看。一致性代理(Coherency Agent,CA)注重集群內(nèi)部、跨集群之間的緩存數(shù)據(jù)一致性維護,歸屬代理(Home Agent,HA)注重DRAM全系統(tǒng)訪問排序與管理,從而實現(xiàn)多核心、多模塊架構(gòu)下的高效協(xié)同能力。

在Darkmont E-Core章節(jié)中,我們解釋了Lunar Lake E-Core不接入L3緩存環(huán),在物理上更像Panther Lake的LP E-Core。因此在Panther Lake配置中,每個P-Core擁有3MB L2緩存,每4個E-Core共享L2緩存,LP E-Core的L2緩存對比Meteor Lake和Arrow Lake在容量上是翻倍的。





線程調(diào)度器(Intel Thread Director)一直是處理器中調(diào)度不同核心工作的重要模塊,特別是從Meteor Lake混合核心開始,調(diào)度功能變得愈發(fā)重要。





在調(diào)度理念上,Panther Lake線程調(diào)度器(Intel Thread Director)遵循LP E-Core、E-Core、P-Core的順序,并進行了關(guān)鍵性增強。比如針對P-Core和E-Core優(yōu)化分類模型,擴展繁忙的場景應(yīng)用。

同時PC軟件和游戲已經(jīng)呈現(xiàn)出集中化的趨勢,大部分軟件和游戲已經(jīng)能夠被輕松識別,因此線程調(diào)度器(Intel Thread Director)能夠更好的對正在運行的應(yīng)用進行識別,增強跨場景線程表現(xiàn),自動適配辦公軟件、游戲、渲染等應(yīng)用的不同負(fù)載。另外線程調(diào)度器也會協(xié)同軟件系統(tǒng)OS實現(xiàn)效能、混合、無分區(qū)多種模式調(diào)度,針對性的匹配Team、Cinebench、DirectX 12游戲線程調(diào)度優(yōu)化。







伴隨著線程調(diào)度器(Intel Thread Director)升級,Panther Lake也打通了IP到OS垂直整合的鏈路,從Cougar Cove和Darkmont IP的架構(gòu)優(yōu)化,到線程調(diào)度,再到軟件層的電源管理策略,都可以更好實現(xiàn)。

例如OEM自定模式中可以提供更精密的性能、功耗調(diào)整,動態(tài)的提供電源分配,提供能效比。在現(xiàn)場,英特爾展示了Panther Lake在CINEBENCH 2024單線程場景和UL Procyon Office中,基準(zhǔn)性能提升19%。

另外,用戶也可以通過Intel Intelligent Experience Optimizer自動優(yōu)化Windows電源管理模式,自動獲得續(xù)航與性能上的動態(tài)調(diào)節(jié)。原本筆記本模式調(diào)整可能只有2-3檔模式調(diào)整,比如省電-平衡-性能,現(xiàn)在通過Intel Intelligent Experience Optimizer,筆記本自己就可以擁有數(shù)百檔的動態(tài)自能調(diào)節(jié),這個過程無需用戶手動。





Xe3 GPU與XeSS-MFG多幀生成

即便是獲得了NVIDIA的投資,英特爾Xe3 GPU從目前來看仍有著自己的野心。如果不出意外,正式發(fā)布的時候,搭配12核Xe3 GPU的產(chǎn)品很可能會是市面上的最強核顯,游戲掌機和輕薄筆記本處理能力再向上提升一個層級,這也是筆者最為期待的。



在現(xiàn)場,英特爾還大方展示了更強悍的Xe3P GPU的存在,至于用在什么地方,英特爾表示以后再告訴我們,但可以確定的是,Battlemage獨顯已經(jīng)箭在弦上。



Xe3 GPU會根據(jù)不同配置給與4核到12核的配置,制程工藝包括Intel 3和臺積電N3E,這也從側(cè)面展示了Panther Lake極強的擴展能力。



Xe3作為英特爾新一代圖形加速核心,展現(xiàn)了極強的紙面性能,相對上一代Lunar Lake GPU可以獲得50%的圖形性能提升,50%的AI TOPS提升,相較于Arrow Lake H GPU有40%的能效比提升。



在底層架構(gòu)上,Xe3依然沿用了渲染切片(Render Slice)設(shè)計,包括4Xe和12Xe兩種變體。每一個Xe3 Core內(nèi)都包含8個512-bit向量引擎(XVE),8個2048-bit矩陣加速引擎(XMX)。每個Xe3內(nèi)海擁有1個光線追蹤單元(RTU),以及用于光線追蹤的BVH緩存,支持動態(tài)光線管理與異步光線追蹤。





在緩存系統(tǒng)上,Xe3擁有16MB L2緩存,12個采樣器(samplers)和12個像素后端(pixel backends)。

每個Xe3 Core還會匹配1個XMX引擎,單個XMX引擎現(xiàn)在可以在每個時鐘周期內(nèi)處理1024次TF32運算、2048次FP16/BF16運算、4096次INT8運算、8192次INT4/INT2運算,相比Xe2提升33%。整體GPU AI算力達120TOPS,進而讓XeSS2和XeSS-MFG多幀生成提供AI砝碼,同時也能更好的滿足AI創(chuàng)作的任務(wù)。





在功能上,Xe3與微軟合作,支持DirectX Cooperative Vectors,將矩陣乘法加速引入著色器,提供2倍各向異性過濾速率、2倍模板測試速率,同時命令前端(Command Front End)提升25%現(xiàn)成,支持可變寄存器分配與FP8反量化。





Xe3架構(gòu)相比Xe2有明顯優(yōu)勢,例如在無SIMD32溢出+可變寄存器的場景中,性能可以達到Xe2的7.4倍,計算著色器可達2.7倍,計算與像素著色器、異步計算調(diào)用場景中,Xe3性能也普遍在Xe2的1.5倍到3.1倍之間。

Panther Lake在單幀延遲上也有明顯提升。同樣場景下,12核Xe3單幀延遲可以從45.44ms降低至22.84ms。

AI的增強讓XeSS也進階到超分辨率(XeSS-SR)搭配XeSS-MFG多幀生成(Multi-Frame Generation)的形式。在邏輯上與DLSS-MFG多幀生成類似,無需借助硬件光流加速器,通過深度、運動向量(Motion Vectors),讓1幀原始畫面獲得最高4幀的畫面輸出,配合超分XeSS-SR,效果可以獲得成倍的提升。





在現(xiàn)場,英特爾通過DEMO演示了第一人稱射擊游戲,雖然看不到實際幀率,實際效果已經(jīng)與獨顯旗鼓相當(dāng)了。





AI增強游戲畫質(zhì)并非沒有缺點。為了避免生成畫面導(dǎo)致的畫質(zhì)劣化,英特爾會通過Presentmon增強工具監(jiān)控原生畫面與生成畫面的動畫誤差,確保流暢度穩(wěn)定性。同時生成幀會結(jié)合光流投影、運動向量、深度差值等多個維度,確保生成畫面與原生畫面風(fēng)格轉(zhuǎn)一致,進而減少偽影和卡頓。另外與NVIDIA DLSS 4一樣,在游戲中也會提供2X到4X幀生成,允許用戶自行調(diào)節(jié)。

降低系統(tǒng)延遲和加載時間也是Panther Lake的關(guān)注點。英特爾提出了云端預(yù)編譯著色器概念。即在云端收集游戲著色器后,通過預(yù)編譯優(yōu)化和圖形分發(fā)服務(wù)推送到終端,在游戲安裝的同時就會直接加載優(yōu)化后的著色器,以降低首次啟動游戲的等待時間。



另外Panther Lake還引入了Intelligent Bias Control v2防止游戲幀率驟降,通過固件啟發(fā)式算法(Firmware Heuristics),提供 GPU 時鐘頻率提示(Hinting)與平衡(Balancing),優(yōu)先保障GPU游戲性能,自動為Xe Core配置更多功耗預(yù)算,避免因功耗不足導(dǎo)致的性能瓶頸。



在英特爾的展示中,12核Xe3在17W TDP、1080p中等畫質(zhì)下,表現(xiàn)遠(yuǎn)超Xe2的Intel Arc 140V GPU,包括《黑神話:悟空》《戰(zhàn)神:諸神黃昏》《賽博朋克 2077》平均FPS提升10%,99% Low FPS提升25%,卡頓大幅減少。



需要注意的是,Xe媒體引擎獨立于GPU模塊,內(nèi)置在計算模塊中,提供了AVC、H.265(HEVC)、VP9、XAVC-H/S/HS支持,新增10-bit AVC編解碼,這也使得Panther Lake更為專業(yè)。



NPU 5:原生支持FP8

Panther Lake中的NPU 5相比Lunar Lake NPU 4進行了大幅更新,首次原生支持FP8,在面積更小的情況下獲得更高的性能。同時NPU 5也很克制的將AI算力控制在了50 TOPS,如果按照NPU 4的面積,NPU 5是有機會做到性能成倍提升的。



NPU 5同樣使用了模塊化設(shè)計,包含3個神經(jīng)計算引擎(NCE),多個數(shù)字信號處理器(SHAVE DSP)。其中每個神經(jīng)計算引擎(NCE)包含MAC陣列(矩陣乘法與卷積陣列),支持INT8、FP8和FP16,單周期可處理4096次INT8/FP8運算、2048次FP16運算。

NPU 5內(nèi)還包含4.5MB Scratchpad RAM作為臨時存儲,256KB L2緩存,是NPU 4的兩倍。



由于NPU 5原生支持FP8,使得在處理BF8/E4M3、HF8/E5M2等FP8數(shù)據(jù)類型時,內(nèi)存占用可以減少50%,吞吐量提升2倍,在Stable Diffusion任務(wù)中,能耗上會有更好的表現(xiàn)。同時NPU 5還支持ReLU、PReLU、GELU、Tanh等非線性激活函數(shù),重構(gòu)數(shù)據(jù)轉(zhuǎn)換流水線,原生支持FP32/FP16/BF16/FP8/INT8/INT4精度轉(zhuǎn)換。





NPU 5帶來的50 TOPS算力主要用于AI PC場景中本地LLM推理、AI助手、實時圖像增強等工作。CPU的10 TOPS則用來完成VNNI和AVX輕量AI任務(wù),GPU的120 TOPS則是用來支持游戲和內(nèi)容創(chuàng)作AI重載任務(wù)。

在XPU的統(tǒng)一調(diào)度下,Panther Lake總計可以做到180 TOPS的AI算力,相對于Lunar Lake提升50%。



在DEMO現(xiàn)場,英特爾展示了諸多基于Panther Lake平臺實現(xiàn)的AI應(yīng)用,以證明產(chǎn)品對現(xiàn)有AI應(yīng)用已經(jīng)提供了很好的兼容性。







IPU 7.5:AI之外的圖像增強

不是所有的場景處理都需要AI硬件進行增強的,例如攝像頭和屏幕HDR增強,實際上都可以通過IPU完成。Panther Lake IPU 7.5作為最新版本的IPU,主要圍繞視頻會議、智能邊緣視覺場景展開,這也是Panther Lake可以應(yīng)用于邊緣計算的關(guān)鍵核心之一,在工控領(lǐng)域,自動駕駛系統(tǒng)、醫(yī)療患者監(jiān)測、安全防護監(jiān)測、工業(yè)質(zhì)量控制,都可以依賴于IPU 7.5來完成。







這也是英特爾在整合部門之后,Panther Lake還將承擔(dān)起PC領(lǐng)域之外的業(yè)務(wù)擴展工作。





IPU 7.5作為圖像信號處理器(ISP)的核心,被用于解決場景、光學(xué)元件和傳感器帶來的成像問題,處理流程涉及場景、光學(xué)元件、傳感器,并最終輸出包運動、光照、色彩、深度等圖像信息。具有處理速度快,節(jié)能,專職專用的特點。自從英特爾在2014年推出IPU 2開始,十年期間IPU升級沒有間斷過。





Panther Lake IPU 7.5最高支持3個攝像頭并發(fā),核心處理模塊包含傳感器與光學(xué)引擎(鏡頭與色彩補償、高畫質(zhì)去馬賽克等)、噪聲與紋理引擎(空間降噪、AI 降噪等)、色彩處理引擎(自適應(yīng)色彩還原、裁剪縮放等),還具備相機 3A 統(tǒng)計(自動曝光、自動白平衡、自動對焦)與防抖功能。



得益于8MB內(nèi)存?zhèn)染彺嬷袣w屬代理(Home Agent,HA)可以對所有模塊的換從調(diào)動,IPU 7.5還可以與CPU、GPU、NPU產(chǎn)生聯(lián)動,進而實現(xiàn)AI增強圖像處理,突破本地SRAM對時間域處理(Temporal Processing)的限制。

IPU 7.5可實現(xiàn)最高500萬像素攝像頭在弱光環(huán)境下的圖像清晰度,提升幀率與銳度,優(yōu)化色調(diào)映射。另外還可以獲得AI色調(diào)映射可增強對比度,避免光暈、色彩失真,保證時間域行為穩(wěn)定。



在播放4K HDR視頻時,IPU 7.5通過協(xié)同多個傳感器,通過雙曝光與自適應(yīng)曝光控制,保留高光與陰影細(xì)節(jié),同等畫質(zhì)下,幫助筆記本節(jié)省1.5W功率。





另外IPU 7.5還支持最高1600萬像素靜態(tài)圖像,實現(xiàn)零快門延遲。可拍攝1080P 120幀慢動作視頻。



Wi-Fi 7 R2與藍(lán)牙Core 6.0

最后是無線性能。Panther Lake提供了Intel Wi-Fi 7 BE211 CRF模塊,對應(yīng)Intel Killer 1775,支持Wi-Fi 7 R2標(biāo)準(zhǔn),CNVio 3接口支持11Gbps速率,相比CNVio 2的5Gbps提升了120%。另外藍(lán)牙模塊支持藍(lán)牙Core 6.0和LE Audio。



Wi-Fi 7 R2主要集中在效率與穩(wěn)定性上,增強動態(tài)管理活躍鏈路的資源分配、IoT設(shè)備優(yōu)先級分配,單射頻客戶端實現(xiàn)MLO,避免P2P流量干擾設(shè)備。為特定設(shè)備分配固定時間片,實現(xiàn)可預(yù)測的延遲與可靠性,適配AI推理、實時協(xié)作等場景。



藍(lán)牙Core 6.0則注重音頻體驗和功能升級,包括LE Audio低功耗音頻,Auracast廣播,提升助聽器兼容性,支持多組音頻流同步,實現(xiàn)不同設(shè)備之間無縫切換等等。



寫在最后:新希望

無論性能還是能耗,英特爾Panther Lake給人的第一印象都非常深刻。按照計劃,Panther Lake的實際搭載產(chǎn)品將會在CES2026正式展出,英特爾還有幾個月的時間調(diào)試18A性能,以確保最終表現(xiàn)。

如果一切順利,Panther Lake綜合性能無疑會有大幅度提升,輕薄本在成本可控的前提下向長續(xù)航和高性能進發(fā),高性能本的多線程和游戲性表現(xiàn)也會更為突出。英特爾18A制程工藝已經(jīng)給我們留足懸念,接下來只需要給點耐心,把舞臺交給下一代酷睿Ultra。







聲明:個人原創(chuàng),僅供參考

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
美最高法院未就特朗普關(guān)稅作出裁決

美最高法院未就特朗普關(guān)稅作出裁決

界面新聞
2026-01-14 23:17:47
A股:周三夜晚傳來5大核彈級消息!明天很可能會迎更大級別大行情?

A股:周三夜晚傳來5大核彈級消息!明天很可能會迎更大級別大行情?

股市皆大事
2026-01-14 18:26:59
從一線明星,淪落到拍短劇,這5位演員走到今天這步,怪不了別人

從一線明星,淪落到拍短劇,這5位演員走到今天這步,怪不了別人

阿纂看事
2026-01-13 18:05:31
一觸即發(fā):美國對伊朗軍事準(zhǔn)備進入最后階段!特朗普稱其越過紅線

一觸即發(fā):美國對伊朗軍事準(zhǔn)備進入最后階段!特朗普稱其越過紅線

項鵬飛
2026-01-13 18:42:53
馬云前助理陳偉去世,馬云夫婦送花圈,兩人相識33年經(jīng)常一起打牌

馬云前助理陳偉去世,馬云夫婦送花圈,兩人相識33年經(jīng)常一起打牌

葉公子
2026-01-14 20:26:03
王曼昱這下算是徹底攤牌了!

王曼昱這下算是徹底攤牌了!

小光侃娛樂
2026-01-14 21:25:03
四川一男子稱因夜間點外賣次數(shù)過多,名下銀行卡被銀行風(fēng)控,需要到反詐中心簽字蓋章后才能解封

四川一男子稱因夜間點外賣次數(shù)過多,名下銀行卡被銀行風(fēng)控,需要到反詐中心簽字蓋章后才能解封

觀威海
2026-01-14 16:22:05
震驚!一滬漂網(wǎng)友公布2025全年稅后收入超420000,稱進入精英階層

震驚!一滬漂網(wǎng)友公布2025全年稅后收入超420000,稱進入精英階層

火山詩話
2026-01-14 15:01:46
特朗普下周將率“最大美國代表團”出席達沃斯論壇

特朗普下周將率“最大美國代表團”出席達沃斯論壇

財聯(lián)社
2026-01-14 13:44:15
1999年東風(fēng)導(dǎo)彈泄密,臺灣女特工潛伏京都頂級夜總會,拉總工下水

1999年東風(fēng)導(dǎo)彈泄密,臺灣女特工潛伏京都頂級夜總會,拉總工下水

干史人
2026-01-12 11:27:38
攜程因涉嫌壟斷被立案調(diào)查 追覓CEO俞浩放話:讓攜程不在壟斷

攜程因涉嫌壟斷被立案調(diào)查 追覓CEO俞浩放話:讓攜程不在壟斷

新浪財經(jīng)
2026-01-14 19:26:45
3年才結(jié)一次果!四川果農(nóng)耗費8年首次收獲,如今果子市值約80萬元

3年才結(jié)一次果!四川果農(nóng)耗費8年首次收獲,如今果子市值約80萬元

萬象硬核本尊
2026-01-12 16:39:58
全了!各年齡段血壓、血糖、血脂、尿酸對照表,果斷收藏

全了!各年齡段血壓、血糖、血脂、尿酸對照表,果斷收藏

華人星光
2026-01-12 13:14:21
連續(xù)6場無緣大名單!切爾西冬窗大清洗 19歲新星面臨離隊

連續(xù)6場無緣大名單!切爾西冬窗大清洗 19歲新星面臨離隊

球事百科吖
2026-01-15 04:39:05
澳大利亞驅(qū)逐伊朗大使,西方多國紛紛與波斯政府“翻臉”

澳大利亞驅(qū)逐伊朗大使,西方多國紛紛與波斯政府“翻臉”

史政先鋒
2026-01-13 23:03:50
印度駐伊朗大使館發(fā)布聲明:敦促所有印度公民離開伊朗

印度駐伊朗大使館發(fā)布聲明:敦促所有印度公民離開伊朗

財聯(lián)社
2026-01-14 20:48:52
CBA打完14輪,最值得入選國家隊的5位球員!徐杰領(lǐng)銜,徐昕在列

CBA打完14輪,最值得入選國家隊的5位球員!徐杰領(lǐng)銜,徐昕在列

多特體育說
2026-01-14 22:10:32
人去樓空,杉杉集團上??偛看髽橇髋暮蠼祪r4.5億

人去樓空,杉杉集團上??偛看髽橇髋暮蠼祪r4.5億

財視傳播
2026-01-14 10:40:22
專家們寧可被餓暈,也不愿評標(biāo):數(shù)據(jù)資產(chǎn)估值有多難?

專家們寧可被餓暈,也不愿評標(biāo):數(shù)據(jù)資產(chǎn)估值有多難?

將軍箭
2026-01-13 20:42:31
上交所:國晟科技部分投資者被暫停賬戶交易

上交所:國晟科技部分投資者被暫停賬戶交易

每日經(jīng)濟新聞
2026-01-14 20:56:02
2026-01-15 05:07:00
愛極物 incentive-icons
愛極物
關(guān)注數(shù)碼新科技~!
333文章數(shù) 34關(guān)注度
往期回顧 全部

數(shù)碼要聞

lifeme魅藍(lán)H1 Pro頭戴式降噪耳機「Hi-Fi版」1月15日發(fā)布

頭條要聞

外媒揭美對伊朗動手方案:派特種部隊對高層實施"斬首"

頭條要聞

外媒揭美對伊朗動手方案:派特種部隊對高層實施"斬首"

體育要聞

你是個好球員,我們就拿你交易吧

娛樂要聞

網(wǎng)紅彭十六偷稅被封殺 曾成功轉(zhuǎn)型明星

財經(jīng)要聞

攜程被立案調(diào)查,最高或被罰超50億

科技要聞

攜程因涉嫌壟斷被市場監(jiān)管總局調(diào)查

汽車要聞

曝Model Y或降到20萬以內(nèi)!

態(tài)度原創(chuàng)

游戲
親子
藝術(shù)
數(shù)碼
公開課

重生之我在喪尸末世當(dāng)檢察官

親子要聞

章澤天的育兒觀,精英的方法,普通人能用嗎?

藝術(shù)要聞

與光同行的溫柔詩意:沉浸于威廉·A·施耐德的人像油畫世界

數(shù)碼要聞

存儲漲價沖擊DIY市場,DDR3主板銷量意外逆勢倍增

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版