国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

“20年來(lái)最大更新”,英偉達(dá)CUDA帶來(lái)了什么?

0
分享至

2025 年 12 月,NVIDIA 推出 CUDA 13.1,此次更新被官方定位為 2006 CUDA 平臺(tái)誕生以來(lái)最大、最全面的升級(jí)。其核心亮點(diǎn)之一,是引入了新的編程模型 CUDA Tile。這個(gè)變化,有可能不僅僅是一項(xiàng)技術(shù)迭代,而是標(biāo)志著 GPU 編程范式邁入一個(gè)新的階段。

CUDA 13.1 + CUDA Tile:到底帶來(lái)了什么新東西?

CUDA Tile 是一種基于 tile(瓦片、數(shù)據(jù)塊)的 GPU 編程模型。與傳統(tǒng)的 SIMT(single-instruction, multiple-thread,多線(xiàn)程單指令流)方式不同,Tile 編程允許開(kāi)發(fā)者將數(shù)據(jù)組織為tile (例如矩陣塊、張量塊、數(shù)據(jù)塊),然后對(duì)這些 tile 進(jìn)行操作,由編譯器和運(yùn)行時(shí)負(fù)責(zé)將它們映射到底層線(xiàn)程、內(nèi)存布局、專(zhuān)用硬件等資源。換句話(huà)說(shuō),開(kāi)發(fā)者只需專(zhuān)注對(duì)塊做什么計(jì)算,無(wú)需關(guān)心哪個(gè)線(xiàn)程做哪一部分、怎樣同步的問(wèn)題。

為了支持 Tile,NVIDIA 在 CUDA 13.1 中引入了虛擬指令集 (Tile IR),并配套提供 cuTile。這是一個(gè)允許用高級(jí)語(yǔ)言編寫(xiě) tile-based kernel 的工具,通過(guò) cuTile,開(kāi)發(fā)者可以用熟悉的 Python 編寫(xiě) GPU kernel,從而極大降低 GPU 編程的門(mén)檻。

根據(jù)官方描述,Tile 編程并不是要取代 SIMT,而是作為一種并存或可選的編程路徑。也就是說(shuō),開(kāi)發(fā)者根據(jù)需求,可以繼續(xù)使用傳統(tǒng) SIMT,也可以在適合場(chǎng)景下使用 Tile。

CUDA 13.1 除了 Tile,還對(duì)運(yùn)行時(shí)(runtime)和工具鏈進(jìn)行了升級(jí),例如對(duì) GPU 資源調(diào)度與管理機(jī)制進(jìn)行了增強(qiáng),使 GPU 的多任務(wù)、并發(fā)、異構(gòu)任務(wù)支持更靈活可靠。

官方同時(shí)對(duì)數(shù)學(xué)計(jì)算庫(kù)(如矩陣、張量庫(kù))與底層支持的兼容性進(jìn)行了優(yōu)化,以更好支持未來(lái) GPU 特性(例如 tensor core、多級(jí)緩存、異構(gòu)資源分配等)。由此看來(lái),這次更新不僅是對(duì)編程模型的改變,也為構(gòu)建新一代高層、跨架構(gòu) GPU 的計(jì)算庫(kù)、框架和DSL 奠定了基礎(chǔ)。

綜合來(lái)看,CUDA 13.1 + CUDA Tile 的意義,不僅在于新增一個(gè)功能或?qū)π阅苓M(jìn)行優(yōu)化,而更在于為 GPU 編程提供了一個(gè)新的、更高層、更抽象、更便捷,且可維護(hù)和可移植的選項(xiàng)。

GPU 越來(lái)越復(fù)雜,手動(dòng)管理變得不足夠

隨著 GPU 架構(gòu)不斷演進(jìn),引入越來(lái)越多專(zhuān)用硬件(例如 tensor core、混合精度加速、多級(jí)緩存與內(nèi)存層次、異構(gòu)資源、多流或多任務(wù)支持等),底層硬件復(fù)雜度大幅增加。對(duì)開(kāi)發(fā)者而言,手動(dòng)管理線(xiàn)程、同步、內(nèi)存布局、調(diào)度、硬件兼容性等負(fù)擔(dān)越來(lái)越重。傳統(tǒng) SIMT 模型雖然靈活,但對(duì)高性能、可移植、可維護(hù)的要求而言,其復(fù)雜性和維護(hù)成本日益凸顯。

在這種背景下,Tile 編程所引入的高層抽象、由系統(tǒng)負(fù)責(zé)的資源映射、調(diào)度、硬件利用,恰好切中了現(xiàn)實(shí)需求。對(duì)于 AI、大規(guī)模矩陣、張量計(jì)算、科學(xué)計(jì)算、深度學(xué)習(xí)等領(lǐng)域,非常具有吸引力。NVIDIA 官方也明確指出,Tile 的設(shè)計(jì)初衷是為了幫助創(chuàng)建適用于當(dāng)前和未來(lái) GPU 的軟件。

借助 cuTile (Python DSL),許多過(guò)去因?yàn)椴簧瞄L(zhǎng) CUDA C、對(duì)底層 GPU 編程不熟悉的數(shù)據(jù)科學(xué)家、研究者,也可能開(kāi)始編寫(xiě) GPU 加速代碼。對(duì)于深度學(xué)習(xí)、科學(xué)計(jì)算、AI 團(tuán)隊(duì)或高校研究機(jī)構(gòu)來(lái)說(shuō),這意味著 GPU 加速不再只屬于少數(shù) GPU 專(zhuān)家核心團(tuán)隊(duì),而可能被更多人使用。此外,對(duì)于那些需要跨 GPU 架構(gòu)的團(tuán)隊(duì)來(lái)說(shuō),一次編寫(xiě)、多代兼容的可能性,將大大降低重構(gòu)、優(yōu)化和維護(hù)的成本。


(來(lái)源:英偉達(dá))

同時(shí),Tile 提供了一條新的 GPU 編程路徑。這條路徑不僅對(duì)單個(gè)項(xiàng)目或團(tuán)隊(duì)有利,也可能促使整個(gè) GPU 軟件生態(tài)走向更高層、更抽象、更通用、更易維護(hù)和跨架構(gòu)兼容。這種變化對(duì)未來(lái) GPU 編程規(guī)范化、標(biāo)準(zhǔn)化以及廣泛應(yīng)用具有潛在推動(dòng)力。這次更新可能不僅僅是一個(gè)版本號(hào)的提升,而是 GPU 編程范式的一次質(zhì)變。

從硬核到普惠的轉(zhuǎn)折點(diǎn)

在技術(shù)社區(qū)中,CUDA 13.1 的發(fā)布引發(fā)了截然不同的兩種情緒,而這恰恰印證了這次更新的變革性。

對(duì)于資深的高性能計(jì)算(HPC)工程師而言,反應(yīng)是復(fù)雜的。一方面,他們習(xí)慣了對(duì)每一個(gè)寄存器、每一塊共享內(nèi)存(Shared Memory)的精細(xì)控制,CUDA Tile 這種將細(xì)節(jié)交給編譯器的做法,不可避免地引發(fā)了關(guān)于性能上限的討論。正如在 Reddit 和 Hacker News 上一些硬核開(kāi)發(fā)者所擔(dān)憂(yōu)的:“我們是否正在用極致的性能換取開(kāi)發(fā)的便利性?”

然而,對(duì)于更廣泛的數(shù)據(jù)科學(xué)家和 AI 算法工程師群體,這無(wú)疑是一個(gè)好消息。長(zhǎng)期以來(lái),將 PyTorch 或 TensorFlow 中的高層邏輯轉(zhuǎn)化為高效的 CUDA 核心代碼,是一道難以逾越的技術(shù)鴻溝。cuTile Python 的出現(xiàn),實(shí)際上是在填平這道鴻溝。它意味著開(kāi)發(fā)者不再需要精通 C++ 和計(jì)算機(jī)體系結(jié)構(gòu),僅憑 Python 就能觸達(dá) GPU 80% 甚至 90% 的理論性能。這種性能平權(quán)可能會(huì)引爆新一輪的 AI 算子創(chuàng)新。當(dāng)編寫(xiě)一個(gè)高效的 Attention 變體不再需要兩周的 C++ 調(diào)試,而只需一下午的 Python 腳本時(shí),創(chuàng)新的飛輪將轉(zhuǎn)得更快。


(來(lái)源:Shutterstock)

競(jìng)爭(zhēng)格局的深層變化:從代碼兼容到架構(gòu)抽象

在 CUDA 13.1 之前,競(jìng)爭(zhēng)對(duì)手(如 AMD 的 ROCm 或 Intel 的 OneAPI)主要的追趕策略,是通過(guò)兼容層(如 HIP)來(lái)轉(zhuǎn)譯現(xiàn)有的 CUDA 代碼。這種策略主要基于 C++ 語(yǔ)法的相似性。

然而,CUDA Tile 的出現(xiàn)改變了這種競(jìng)爭(zhēng)的維度。通過(guò)引入 Tile IR(虛擬指令集)和高層抽象,NVIDIA 實(shí)際上是在硬件和軟件之間增加了一個(gè)更厚的中間層。

當(dāng)開(kāi)發(fā)者開(kāi)始習(xí)慣使用 Tile 編程模型,更多地關(guān)注數(shù)據(jù)塊的邏輯而非底層線(xiàn)程調(diào)度,代碼與底層硬件的解耦程度變得更高。這意味著,代碼的執(zhí)行效率將更多地依賴(lài)于編譯器如何理解和優(yōu)化這些 Tile 操作。對(duì)于競(jìng)爭(zhēng)對(duì)手而言,要支持這種新模式,僅僅做代碼轉(zhuǎn)譯是不夠的,還需要構(gòu)建一個(gè)同樣智能的編譯器來(lái)處理這些高層抽象,這無(wú)疑增加了技術(shù)對(duì)齊的難度,也客觀(guān)上提高了生態(tài)系統(tǒng)的粘性。

面向云環(huán)境的演進(jìn):Green Contexts 的實(shí)際價(jià)值

除了編程模型,CUDA 13.1 在運(yùn)行時(shí)環(huán)境上的改進(jìn),特別是 Green Contexts 從驅(qū)動(dòng)層走向運(yùn)行時(shí) API,反映了 GPU 使用場(chǎng)景的結(jié)構(gòu)性變化。

在 Blackwell 架構(gòu)時(shí)代,GPU 已經(jīng)從單純的加速卡轉(zhuǎn)變?yōu)閿?shù)據(jù)中心的核心算力單元。隨著單卡算力(如 B200 系列)的大幅提升,對(duì)于許多單一任務(wù)來(lái)說(shuō),獨(dú)占整塊 GPU 往往是一種資源浪費(fèi)。

Green Contexts 允許開(kāi)發(fā)者或系統(tǒng)管理員在運(yùn)行時(shí)更安全、更細(xì)粒度地劃分 GPU 資源(SM)。這在技術(shù)上解決了多任務(wù)并行時(shí)的干擾問(wèn)題,使得 GPU 能夠像 CPU 一樣,高效、穩(wěn)定地同時(shí)處理多個(gè)用戶(hù)的任務(wù)。對(duì)于云服務(wù)商和企業(yè)內(nèi)部的算力調(diào)度來(lái)說(shuō),這直接提升了昂貴硬件的利用率和投資回報(bào)率。

新的挑戰(zhàn):抽象化帶來(lái)的黑盒隱憂(yōu)

當(dāng)然,這種向高層抽象的演進(jìn)也并非沒(méi)有代價(jià)。CUDA Tile 帶來(lái)的最大挑戰(zhàn)在于調(diào)試與性能優(yōu)化的透明度降低。

在傳統(tǒng)的 SIMT 模式下,開(kāi)發(fā)者清楚地知道每一行代碼對(duì)應(yīng)什么指令,數(shù)據(jù)在寄存器和內(nèi)存間如何移動(dòng)。而在 Tile 模式下,編譯器接管了大量的數(shù)據(jù)布局和映射工作。一旦性能不如預(yù)期,或者出現(xiàn)非功能性 Bug,開(kāi)發(fā)者可能會(huì)發(fā)現(xiàn)很難像以前一樣精準(zhǔn)定位問(wèn)題。

雖然 NVIDIA 在 Nsight 工具鏈中增加了對(duì) Tile 的支持,但如何讓開(kāi)發(fā)者理解編譯器的優(yōu)化邏輯,而不是面對(duì)一個(gè)無(wú)法干預(yù)的“黑盒”,將是這一新模式能否被資深開(kāi)發(fā)者廣泛接受的關(guān)鍵。此外,這也意味著軟件性能將更加依賴(lài)于 NVIDIA 編譯器團(tuán)隊(duì)的優(yōu)化水平,而非開(kāi)發(fā)者個(gè)人的微調(diào)能力。

CUDA 13.1 的發(fā)布,本質(zhì)上是 NVIDIA 應(yīng)對(duì)硬件復(fù)雜度爆發(fā)的解決方案。通過(guò) CUDA Tile,NVIDIA 試圖建立一種新的分工模式:開(kāi)發(fā)者專(zhuān)注于高層的算法邏輯與數(shù)據(jù)流,而將復(fù)雜的硬件適配工作交給編譯器和運(yùn)行時(shí)環(huán)境。

這不僅降低了高性能計(jì)算的門(mén)檻,也讓 CUDA 平臺(tái)在異構(gòu)計(jì)算和云原生時(shí)代,具備了更強(qiáng)的適應(yīng)性和生態(tài)掌控力。對(duì)于開(kāi)發(fā)者而言,這或許意味著是時(shí)候調(diào)整思維習(xí)慣,從微觀(guān)的線(xiàn)程管理,轉(zhuǎn)向宏觀(guān)的數(shù)據(jù)塊編排了。

參考文章:

1.https://developer.nvidia.com/blog/nvidia-cuda-13-1-powers-next-gen-gpu-programming-with-nvidia-cuda-tile-and-performance-gains/

2.https://github.com/NVIDIA/cutile-python

3.https://developer.nvidia.com/blog/simplify-gpu-programming-with-nvidia-cuda-tile-in-python/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
身家800億元小米高管,擬套現(xiàn)不超20億美元,知情人士透露內(nèi)情

身家800億元小米高管,擬套現(xiàn)不超20億美元,知情人士透露內(nèi)情

21世紀(jì)經(jīng)濟(jì)報(bào)道
2025-12-28 22:06:23
一路走好!不到48小時(shí)傳來(lái)3位名人離世的消息,一個(gè)比一個(gè)意外

一路走好!不到48小時(shí)傳來(lái)3位名人離世的消息,一個(gè)比一個(gè)意外

鋭娛之樂(lè)
2025-12-27 19:13:29
全國(guó)首臺(tái)!只殺癌細(xì)胞,不傷好細(xì)胞,武漢癌癥“大殺器”正式啟用

全國(guó)首臺(tái)!只殺癌細(xì)胞,不傷好細(xì)胞,武漢癌癥“大殺器”正式啟用

荷蘭豆愛(ài)健康
2025-12-26 07:05:32
港媒發(fā)布文章《徐湖平父親究竟是誰(shuí)》,沒(méi)多久遭到微博屏蔽

港媒發(fā)布文章《徐湖平父親究竟是誰(shuí)》,沒(méi)多久遭到微博屏蔽

映射生活的身影
2025-12-27 19:34:50
規(guī)上工業(yè)企業(yè)利潤(rùn)累計(jì)增速連續(xù)4個(gè)月增長(zhǎng)

規(guī)上工業(yè)企業(yè)利潤(rùn)累計(jì)增速連續(xù)4個(gè)月增長(zhǎng)

經(jīng)濟(jì)日?qǐng)?bào)
2025-12-28 06:46:17
薩巴倫卡0-2脆敗,從放狠話(huà)到跳女團(tuán)舞,輸球贏流量

薩巴倫卡0-2脆敗,從放狠話(huà)到跳女團(tuán)舞,輸球贏流量

阿錯(cuò)田間生活
2025-12-29 01:45:29
一生含蓄的中國(guó)人,安全套沒(méi)人買(mǎi),情趣用品卻賣(mài)爆了

一生含蓄的中國(guó)人,安全套沒(méi)人買(mǎi),情趣用品卻賣(mài)爆了

財(cái)叔
2025-12-27 21:45:04
據(jù)說(shuō)全球僅20例!巴西一女子在同一晚與2名男子發(fā)生了關(guān)系

據(jù)說(shuō)全球僅20例!巴西一女子在同一晚與2名男子發(fā)生了關(guān)系

忠于法紀(jì)
2025-12-04 11:25:07
36年前陳寶國(guó)主演的盜墓恐怖片!尺度大到少兒不宜

36年前陳寶國(guó)主演的盜墓恐怖片!尺度大到少兒不宜

釋凡電影
2025-08-14 09:33:19
福布斯2025年足球明星收入榜:C羅2.8億美元居首,梅西1.3億

福布斯2025年足球明星收入榜:C羅2.8億美元居首,梅西1.3億

懂球帝
2025-12-28 15:57:03
美國(guó)“斬殺線(xiàn)”斬落知名童星?

美國(guó)“斬殺線(xiàn)”斬落知名童星?

新民晚報(bào)
2025-12-28 12:48:10
面向變了?青蛙眼、整容臉又來(lái)霍霍央視,她們2人狀態(tài)也太辣眼了

面向變了?青蛙眼、整容臉又來(lái)霍霍央視,她們2人狀態(tài)也太辣眼了

韓馳
2025-12-27 22:51:49
隨著北京逆轉(zhuǎn),廣東險(xiǎn)勝,新疆四連敗,CBA最新積分榜:榜首易主

隨著北京逆轉(zhuǎn),廣東險(xiǎn)勝,新疆四連敗,CBA最新積分榜:榜首易主

侃球熊弟
2025-12-28 21:58:33
美國(guó)出入境新規(guī)生效:含綠卡在內(nèi),所有非公民都要強(qiáng)制執(zhí)行!

美國(guó)出入境新規(guī)生效:含綠卡在內(nèi),所有非公民都要強(qiáng)制執(zhí)行!

達(dá)文西看世界
2025-12-27 18:34:32
親密接觸中的罕見(jiàn)身體鎖死現(xiàn)象

親密接觸中的罕見(jiàn)身體鎖死現(xiàn)象

特約前排觀(guān)眾
2025-12-27 00:05:08
官宣:明年“國(guó)補(bǔ)”繼續(xù)

官宣:明年“國(guó)補(bǔ)”繼續(xù)

澎湃新聞
2025-12-29 00:35:05
中國(guó)經(jīng)濟(jì)的未來(lái),取決于分配制度的改革

中國(guó)經(jīng)濟(jì)的未來(lái),取決于分配制度的改革

生命可以承受之輕
2025-12-27 11:07:22
積極信號(hào)釋放!老百姓:建議把電動(dòng)輕便摩托車(chē)劃歸為非機(jī)動(dòng)車(chē)

積極信號(hào)釋放!老百姓:建議把電動(dòng)輕便摩托車(chē)劃歸為非機(jī)動(dòng)車(chē)

電動(dòng)車(chē)小辣椒
2025-12-27 07:05:20
越扒瓜越大!姜昆一方撒謊被錘,在美國(guó)航班被遇到,個(gè)個(gè)戳心窩

越扒瓜越大!姜昆一方撒謊被錘,在美國(guó)航班被遇到,個(gè)個(gè)戳心窩

湘西二當(dāng)家
2025-12-28 18:50:03
岳云鵬穿四萬(wàn) LV 行頭,網(wǎng)友:有句話(huà)叫穿上龍袍也不像太子

岳云鵬穿四萬(wàn) LV 行頭,網(wǎng)友:有句話(huà)叫穿上龍袍也不像太子

情感大頭說(shuō)說(shuō)
2025-12-28 16:48:31
2025-12-29 04:36:49
問(wèn)芯 incentive-icons
問(wèn)芯
訪(fǎng)遍天下芯事,聆聽(tīng)大時(shí)代人物芯聲
167文章數(shù) 28關(guān)注度
往期回顧 全部

科技要聞

特斯拉將在華布局自動(dòng)駕駛?記者求證→

頭條要聞

途經(jīng)俄羅斯航班墜機(jī)38人身亡 機(jī)身或被彈片擊中

頭條要聞

途經(jīng)俄羅斯航班墜機(jī)38人身亡 機(jī)身或被彈片擊中

體育要聞

MVP概率達(dá)82.5%!約基奇連超大鳥(niǎo)喬丹

娛樂(lè)要聞

白敬亭現(xiàn)身冰雪大世界 拍視頻還翻車(chē)了

財(cái)經(jīng)要聞

英偉達(dá)的收購(gòu)史

汽車(chē)要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

教育
手機(jī)
數(shù)碼
房產(chǎn)
公開(kāi)課

教育要聞

高校忙著“保就業(yè)”,但崗位仍在“結(jié)構(gòu)性收縮”,畢業(yè)生太難了

手機(jī)要聞

澎湃OS 3正式版再次擴(kuò)容:15款設(shè)備喜提升級(jí),你收到了嗎?

數(shù)碼要聞

曝光的AirPods原型機(jī)顯示,蘋(píng)果曾計(jì)劃推出多彩配色方案!

房產(chǎn)要聞

降維打擊!三亞CBD驚現(xiàn)“豪宅新王”,高端局要變天了!

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版