国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

這家中國(guó)公司,讓GPU利用率飆升!全球AI圈熱議

0
分享至

最近,我遇到一個(gè)十分頭疼的問題,K哥團(tuán)隊(duì)有一組集群機(jī)器,配了4張GPU顯卡,平時(shí)主要用來測(cè)評(píng)大模型、開發(fā)AI應(yīng)用。本來應(yīng)該是夠用了,但是在使用GPU的時(shí)候經(jīng)常是獨(dú)占式的,一個(gè)任務(wù)占了整張卡,利用率卻只有30%,別的任務(wù)就要排隊(duì)。

一邊是GPU大把閑置,一邊是開發(fā)人員排隊(duì)等資源。就像餐廳里明明有空位,但因?yàn)槊孔乐蛔艘粋€(gè)人,后面的客人還得等位。造成了算力資源的浪費(fèi),很多企業(yè)應(yīng)該都面臨類似的困境。

01

GPU資源管理困局

關(guān)于GPU資源管理的問題,其實(shí)遠(yuǎn)不止利用率不高這一點(diǎn),在使用過程中普遍會(huì)遇到以下四個(gè)問題:

1、資源顆粒度太粗。如前面說的場(chǎng)景,一張16GB的T4卡,只能整卡分配,利用率只有30%,白白浪費(fèi)11G多。

2、調(diào)度機(jī)制不夠智能。K8s原生調(diào)度只知道“有卡”或“沒卡”,不知道卡上還剩多少顯存、算力,就好比一個(gè)停車場(chǎng)雖然車位滿了,但是還能夠塞進(jìn)很多輛摩托車。

3、資源隔離難。開發(fā)、測(cè)試、生產(chǎn)環(huán)境混在一起,沒法給不同團(tuán)隊(duì)單獨(dú)的工作區(qū)間,避免相互干擾。

4、管理成本高。傳統(tǒng)的資源申請(qǐng)要走人工審批,出了問題也要排查很久,導(dǎo)致管理成本很高。

如何才能更高效地管理GPU資源,難道以上問題就沒有更好的解決方案嗎?

02

OrionX社區(qū)版,初體驗(yàn)

一次偶然的機(jī)會(huì),我了解到OrionX社區(qū)版。這是由趨動(dòng)科技開發(fā)的,OrionX的輕量級(jí)部署版本,幫助用戶構(gòu)建數(shù)據(jù)中心級(jí)AI算力資源池、降本增效。它的核心理念是:用軟件定義AI算力,讓GPU資源像云計(jì)算一樣靈活。

原理也不復(fù)雜,就是把顯卡、算力按很小的粒度進(jìn)行切分,然后根據(jù)用戶實(shí)際需要進(jìn)行組合。傳統(tǒng)的GPU管理就像飯店的包間,你一個(gè)人也得開一間,而OrionX社區(qū)版把包間改成拼桌,來幾個(gè)人就坐幾個(gè)位子,靈活調(diào)整,絕不浪費(fèi)。

OrionX社區(qū)版究竟能不能解決GPU管理的困境呢?我上手做了個(gè)測(cè)評(píng),下面跟隨我一起來體驗(yàn)吧。

首先,從官網(wǎng)上提交申請(qǐng),掃碼填寫信息:

審核通過后,會(huì)收到一封確認(rèn)郵件,獲取授權(quán)碼、下載地址。



下載安裝文件,上傳到服務(wù)器,準(zhǔn)備開始安裝。



安裝的過程很簡(jiǎn)單,主要是基于K8S環(huán)境進(jìn)行部署。開始部署前需要對(duì)安裝環(huán)境做基礎(chǔ)檢查,包括:

GPU驅(qū)動(dòng)檢查:nvidia-smi

Kubernetes環(huán)境檢查:get node -owide

Nvidia Container Toolkit檢查:

docker info | grep 'Default Runtime'







狀態(tài)正常,就可以開始部署了。

1)部署文件上傳

上傳OrionX部署文件yaml.tar.gz至K8S管理節(jié)點(diǎn)任意位置,并解壓.



2)K8S節(jié)點(diǎn)標(biāo)記

編輯部署文件tools/label.sh腳本,按資源規(guī)劃修改如下內(nèi)容,然后對(duì)執(zhí)行K8S集群節(jié)點(diǎn)進(jìn)行標(biāo)記:



3)創(chuàng)建命名空間和配置信息對(duì)象

執(zhí)行如下操作,創(chuàng)建名為orionx的命名空間,創(chuàng)建OrionX配置信息ConfigMap對(duì)象,命令如下:

kubectl apply -f base/

4)部署orionx-ocenter-all-in-one組件

執(zhí)行如下操作,部署orionx-ocenter-all-in-one組件,命令如下:

kubectl apply -f deploy/orionx-ocenter-all-in-one.yaml

5)導(dǎo)入License

通過瀏覽器訪問http://,打開OrionX GUI管理頁(yè)面,通過激活頁(yè)面,添加激活文件按鈕導(dǎo)入License,導(dǎo)入后會(huì)顯示證書信息,如下圖所示:

:30125



6)部署orionx-k8s-scheduler組件

執(zhí)行如下操作,部署orionx-k8s-scheduler組件,命令如下:

kubectl apply -f deploy/orionx-k8s-scheduler-extender.yaml

7)部署orionx-server組件

部署orionx-server組件,修改配置文件如下,并執(zhí)行命令:

kubectl apply -f deploy/orionx-gpu-server.yaml



8)部署orionx-k8s-device-plugin組件

執(zhí)行如下操作,部署orionx-k8s-device-plugin組件,命令行:

kubectl apply -f deploy/orionx-k8s-device-plugin.yaml

9)部署orionx-gpu-exporter組件

執(zhí)行如下操作,部署orionx-gpu-exporter組件,會(huì)部署于所有OrionX GPU計(jì)算節(jié)點(diǎn):

kubectl apply -f deploy/orionx-gpu-exporter.yam

10)部署orionx-k8s-admission-webhooks組件

執(zhí)行如下命令,部署orionx-k8s-admission-webhooks組件:

kubectl apply -f deploy/orionx-k8s-admission-webhooks.yaml

11)部署orionx-container-runtime組件

執(zhí)行如下操作,部署orionx-container-runtime組件:

kubectl apply -f deploy/orionx-container-runtime.yaml

現(xiàn)在就可以開始使用Orion社區(qū)版了,整體安裝過程很絲滑,下面就可以到后臺(tái)去操作了。瀏覽器訪問http://地址,打開OrionX GUI,進(jìn)行登錄,初始用戶名密碼見安裝手冊(cè)。

:30125

進(jìn)入節(jié)點(diǎn)詳情頁(yè)面可以查看該節(jié)點(diǎn)GPU資源使用率監(jiān)控統(tǒng)計(jì)圖。



還可以進(jìn)行節(jié)點(diǎn)管理。在OrionX GUI左側(cè)導(dǎo)航欄選擇“節(jié)點(diǎn)”,在節(jié)點(diǎn)信息頁(yè)面可以禁用或啟用節(jié)點(diǎn)。



整個(gè)安裝過程很順滑,只要具備基本的Linux使用能力,就可以輕松完成。

03

輕松管理你的GPU資源池

下面談?wù)勎覍?duì)OrionX社區(qū)版的總體使用感受,主要有四點(diǎn)體會(huì):

1、資源分配靈活,告別“大鍋飯”。更細(xì)粒度地分配GPU資源,提高資源利用率,這就解決了我們團(tuán)隊(duì)遇到的GPU獨(dú)占的問題,而且申請(qǐng)資源無(wú)須再等待,提升了日常管理效率。

2、智能調(diào)度,讓資源分配更合理。GPU的調(diào)度是智能化的,可以做到節(jié)點(diǎn)均勻,設(shè)備緊湊,節(jié)點(diǎn)優(yōu)先,這就解決了一些節(jié)點(diǎn)負(fù)載高、一些負(fù)載低的問題,并且策略是可配置的。

3、超分,榨干GPU每一滴性能。很多任務(wù)不是一直滿負(fù)荷用GPU,推理任務(wù)經(jīng)常是突發(fā)式的,通過統(tǒng)一內(nèi)存管理和算力復(fù)用,可以分配出更多vGPU,合理使用超分功能可以進(jìn)一步提升GPU效能。

4、可視化管理,一目了然。Orion社區(qū)版的GUI界面做得很不錯(cuò),資源監(jiān)控很直觀,點(diǎn)進(jìn)某個(gè)節(jié)點(diǎn),可以看到詳細(xì)的監(jiān)控曲線、GPU利用率曲線(最近24小時(shí))、顯存使用趨勢(shì)。

04

立刻開啟GPU資源池化時(shí)代

OrionX社區(qū)版通過構(gòu)建算力資源池,將粗放的管理轉(zhuǎn)變?yōu)榫?xì)化運(yùn)營(yíng),這是中國(guó)科技企業(yè)在AI基礎(chǔ)設(shè)施領(lǐng)域的突破。正如凱文·凱利在《必然》中所說:“技術(shù)的真正力量,不在于它能做什么,而在于它讓更多人能做什么?!盇I算力池化技術(shù)的價(jià)值,恰恰在于讓研發(fā)團(tuán)隊(duì)也能用得起、用得好AI算力,打破算力壟斷的壁壘。

如果你的團(tuán)隊(duì)也面臨GPU資源管理困境,立即掃碼申請(qǐng)使用OrionX社區(qū)版。



有興趣的朋友提交上面表單信息后,也可以添加下方小助手微信進(jìn)行交流。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
2換2!通知聯(lián)盟各隊(duì)!交易正式達(dá)成

2換2!通知聯(lián)盟各隊(duì)!交易正式達(dá)成

籃球教學(xué)論壇
2026-03-10 14:29:55
伊朗稱已俘虜數(shù)名美軍士兵,美方急了:滿口謊言

伊朗稱已俘虜數(shù)名美軍士兵,美方急了:滿口謊言

觀察者網(wǎng)
2026-03-08 15:05:35
三場(chǎng)頂兩百年!梅西這9場(chǎng)球的經(jīng)濟(jì),把C羅傷得好深

三場(chǎng)頂兩百年!梅西這9場(chǎng)球的經(jīng)濟(jì),把C羅傷得好深

耀陽(yáng)體育
2026-03-10 13:17:52
定了,養(yǎng)老金調(diào)整通知,這3類人漲得最多!家里有老人快看看

定了,養(yǎng)老金調(diào)整通知,這3類人漲得最多!家里有老人快看看

遍體鱗傷為我證明
2026-03-10 13:15:57
全國(guó)人大代表盧林:中小學(xué)教育不應(yīng)過多使用電子產(chǎn)品

全國(guó)人大代表盧林:中小學(xué)教育不應(yīng)過多使用電子產(chǎn)品

經(jīng)濟(jì)觀察報(bào)
2026-03-10 13:37:16
地鐵車廂里偶遇兩位時(shí)髦又有個(gè)性的“名媛”

地鐵車廂里偶遇兩位時(shí)髦又有個(gè)性的“名媛”

娛你同歡
2026-02-26 21:30:26
李莉沒有說過“伊朗半小時(shí)滅以色列”,

李莉沒有說過“伊朗半小時(shí)滅以色列”,

雪中風(fēng)車
2026-03-01 08:11:49
在剛剛,19家公司出現(xiàn)重大利好消息,看看有沒有與你相關(guān)的個(gè)股?

在剛剛,19家公司出現(xiàn)重大利好消息,看看有沒有與你相關(guān)的個(gè)股?

股市皆大事
2026-03-10 10:23:05
兒子問我“伊朗為什么總在打仗?”我給他看了這個(gè)9歲女孩的故事

兒子問我“伊朗為什么總在打仗?”我給他看了這個(gè)9歲女孩的故事

媽咪OK
2026-03-09 10:48:52
戰(zhàn)術(shù)航空旅指揮官在烏克蘭東部陣亡

戰(zhàn)術(shù)航空旅指揮官在烏克蘭東部陣亡

桂系007
2026-03-09 23:49:42
美專家猛然發(fā)現(xiàn):中國(guó)早就準(zhǔn)備好,一旦沖突,先廢掉美軍最強(qiáng)戰(zhàn)力

美專家猛然發(fā)現(xiàn):中國(guó)早就準(zhǔn)備好,一旦沖突,先廢掉美軍最強(qiáng)戰(zhàn)力

涵豆說娛
2026-03-10 12:09:41
NBA官方叫停!太離譜了,還能這么操作?。?>
    </a>
        <h3>
      <a href=德譯洋洋
2026-03-10 12:36:16
周濤衣領(lǐng)都開到這了誰(shuí)還頂?shù)淖?>
    </a>
        <h3>
      <a href=王二哥老搞笑
2026-03-09 09:10:29
蔡依林深圳演唱會(huì)道具變了,30米巨蛇變帆船,非遺爬竿成名場(chǎng)面

蔡依林深圳演唱會(huì)道具變了,30米巨蛇變帆船,非遺爬竿成名場(chǎng)面

大眼妹妹
2026-03-08 11:01:03
穆杰塔巴負(fù)傷在身,革命衛(wèi)隊(duì)鐵心要讓哈梅內(nèi)伊斷子絕孫

穆杰塔巴負(fù)傷在身,革命衛(wèi)隊(duì)鐵心要讓哈梅內(nèi)伊斷子絕孫

移光幻影
2026-03-09 16:45:20
張柏芝三胎生父曝光!CoCo直言謝家沒留情面

張柏芝三胎生父曝光!CoCo直言謝家沒留情面

科學(xué)發(fā)掘
2026-03-10 14:53:25
華為新機(jī)突然官宣:4月15日,完全發(fā)售!

華為新機(jī)突然官宣:4月15日,完全發(fā)售!

科技堡壘
2026-03-08 12:30:18
2026年上海市控?zé)煿ぷ饕c(diǎn)發(fā)布:將啟動(dòng)公交站點(diǎn)法定禁煙區(qū)域劃定

2026年上海市控?zé)煿ぷ饕c(diǎn)發(fā)布:將啟動(dòng)公交站點(diǎn)法定禁煙區(qū)域劃定

澎湃新聞
2026-03-10 14:50:30
騰訊版“龍蝦”上線,實(shí)測(cè):下載即用,一句話生成小紅書圖文

騰訊版“龍蝦”上線,實(shí)測(cè):下載即用,一句話生成小紅書圖文

南方都市報(bào)
2026-03-09 17:49:26
首個(gè)個(gè)人代言!跳水奧運(yùn)冠軍全紅嬋成為萬(wàn)家樂品牌全球代言人

首個(gè)個(gè)人代言!跳水奧運(yùn)冠軍全紅嬋成為萬(wàn)家樂品牌全球代言人

體育大生意
2026-03-10 16:18:51
2026-03-10 18:19:00
技術(shù)領(lǐng)導(dǎo)力 incentive-icons
技術(shù)領(lǐng)導(dǎo)力
Mr.K,出過書,做過CTO
70文章數(shù) 583關(guān)注度
往期回顧 全部

科技要聞

全民"養(yǎng)蝦"背后:大廠集體下場(chǎng)瘋狂賣Token

頭條要聞

伊朗提停火首要條件 伊外長(zhǎng)稱新最高領(lǐng)袖不會(huì)與美談判

頭條要聞

伊朗提?;鹗滓獥l件 伊外長(zhǎng)稱新最高領(lǐng)袖不會(huì)與美談判

體育要聞

加蘭沒那么差,但鱸魚會(huì)用嗎?

娛樂要聞

肖戰(zhàn)首奪SMG視帝,孫儷四封視后創(chuàng)歷史

財(cái)經(jīng)要聞

“龍蝦補(bǔ)貼”密集出爐 最高1000萬(wàn)!

汽車要聞

蔚來?yè)Q電和理想5C,誰(shuí)能硬剛,比亞迪兆瓦閃充?

態(tài)度原創(chuàng)

房產(chǎn)
藝術(shù)
數(shù)碼
手機(jī)
公開課

房產(chǎn)要聞

信號(hào)!千億巨頭入局,三亞開啟新一輪大征拆!

藝術(shù)要聞

30000畝杏花開了,新疆的春天這么美!

數(shù)碼要聞

英特爾發(fā)布XeSS 3 SDK,方便開發(fā)者為游戲?qū)攵鄮芍С?/h3>

手機(jī)要聞

折疊屏終極追求?OPPO攜新技術(shù)帶來"隱形折痕",F(xiàn)ind N6首發(fā)搭載

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版