国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

為了搶GPU、囤算力,我們花了多少冤枉錢?!

0
分享至

今年上半年,算力圈相當(dāng)魔幻。

好用的GPU被瘋搶,好用的服務(wù)器賣斷貨,連公有云上的高端GPU云主機(jī)都供不應(yīng)求。



背后的原因簡單粗暴——都是大模型鬧的。

訓(xùn)練、后訓(xùn)練、微調(diào),尤其是今年大火的推理,哪哪兒都離不開GPU。



可是你知道嗎?為了把模型伺候好,我們狂搶GPU、囤算力的操作,可能花了很多冤枉錢!

因?yàn)椋瑒倓傆腥吮险f↓

他們公司,這個(gè)月累計(jì)少買1000張卡,模型跑得竟然比以前還溜。



還有這種便宜事兒??

看到爆料,算力圈吃瓜群眾的反應(yīng)是這樣的——



然鵝,這真不是開玩笑,一種榨干GPU算力的新玩法,誕生了。

就在上周,字節(jié)跳動(dòng)旗下的云與AI服務(wù)平臺(tái)火山引擎,發(fā)布了一個(gè)全新的算力彈性調(diào)度方案,效果就像上面說的那樣——

少用GPU、少花錢,模型的推理效果依然有保障。



火山引擎到底拿出了什么神仙方案?

這個(gè)新方案叫做→企業(yè)自有模型托管方案,具備兩大特色↓

01、全托管

簡單講,就是當(dāng)用戶部署自有模型的時(shí)候,可以完全交給火山引擎的MaaS平臺(tái)「火山方舟」,模型部署、推理優(yōu)化、彈性調(diào)度全幫你搞定。



02、極致彈性

這種部署方案,能夠以「模型單元」為顆粒度彈性伸縮。

依據(jù)大模型推理業(yè)務(wù)的“潮汐效應(yīng)”,系統(tǒng)能夠自動(dòng)增加或者縮減算力消耗,從而大幅降低用戶的算力開支,讓每分錢都花到刀刃上。



為什么這套方案能夠幫助用戶省大錢?

先討論一個(gè)問題,云上各種通用大模型API不香嗎,為啥企業(yè)還要費(fèi)勁吧啦的部署自有模型?

對(duì)于中小型企業(yè)或者個(gè)人開發(fā)者來說,通用大模型的能力已經(jīng)足夠用了,而且還是基于Tokens消耗按需付費(fèi)。



但是,通用模型雖強(qiáng),卻可能缺少垂直行業(yè)的專業(yè)領(lǐng)域知識(shí)。

對(duì)于很多專業(yè)大客戶、專業(yè)場景來說,并不能完全滿足需求。





所以,越來越多的企業(yè),開始利用自己的專屬數(shù)據(jù),對(duì)基礎(chǔ)模型進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練、微調(diào)對(duì)齊,從而得到更“懂行”的專屬模型。

這樣的模型,既有通用知識(shí),又有專業(yè)知識(shí),能更好地在專業(yè)場景上崗干活。



以懂車帝為例,AI選車場景涉及大量汽車垂類知識(shí)和專業(yè)評(píng)價(jià)數(shù)據(jù),通用模型不具備這些知識(shí),懂車帝基于豆包大模型進(jìn)行二次訓(xùn)練,構(gòu)建了專屬的AI選車模型和智能體。

可是專屬模型訓(xùn)練出來,問題也隨之而來。

這種BYOM(Bring your own model)模型需要企業(yè)自己先完成部署,才能提供推理應(yīng)用。

以前,大概有這么幾種部署路徑↓

①企業(yè)自己買設(shè)備,自己組集群,全部自己干。



2、從算力黃牛那里臨時(shí)租算力資源,用多少租多少。



3、從公有云租GPU云主機(jī),包月或者按時(shí)長付費(fèi)。



三種方案相比較,用云平臺(tái)來部署推理服務(wù)的模式,看起來最靈活、最省錢。

但即便如此,也可能會(huì)花“冤枉錢”。

因?yàn)?,絕大多數(shù)線上AI服務(wù),都是具有「潮汐效應(yīng)」的,白天很繁忙,晚上可能很閑。



一個(gè)事實(shí)是,目前市面上用于企業(yè)專屬大模型推理的云端GPU算力,都是以賣卡、整租的模式交付。

無論包月還是計(jì)時(shí),都不提供自動(dòng)伸縮能力

即便晚上沒啥負(fù)載,只要你還占用著GPU不釋放(即便GPU在摸魚),你仍然要按照整個(gè)資源池的規(guī)模來付費(fèi)。



看下面這張圖→

橫軸代表一天中不同時(shí)間段,紅色曲線代表一天中AI業(yè)務(wù)量的變化趨勢,藍(lán)色方塊代表算力資源單位(服務(wù)器數(shù)或GPU數(shù))。

用戶需要按照峰值業(yè)務(wù)量來購買算力,雖然低谷很多GPU是空閑的,但這個(gè)錢卻省不下來。



除非企業(yè)自己的運(yùn)維團(tuán)隊(duì)特別牛掰,能夠根據(jù)算力需求的波動(dòng)自己搞一套調(diào)度系統(tǒng)來自動(dòng)伸縮(閑時(shí)釋放算力,忙時(shí)補(bǔ)充算力)。

但幾乎沒人這么干,因?yàn)檫@類客戶都搞模型定制了,對(duì)性能體驗(yàn)要求極高,萬一調(diào)度策略沒整好(該伸的時(shí)候沒伸,該縮的時(shí)候沒縮),影響終端客戶體驗(yàn),得不償失。



現(xiàn)在,這個(gè)問題終于有了解法↓

火山引擎在這套剛剛發(fā)布的「企業(yè)自有模型托管方案」里,推出了一種新型算力形態(tài):全托管彈性模型單元。

企業(yè)可以選擇不同規(guī)格的模型單元:單機(jī)型、多機(jī)PD分離型的等等。



然后,根據(jù)自己的業(yè)務(wù)特點(diǎn),設(shè)置推理性能指標(biāo)(TPOT、TTFT),并且根據(jù)應(yīng)用的潮汐波動(dòng)特點(diǎn),設(shè)置彈性伸縮系數(shù),系數(shù)越大,彈性越強(qiáng)。

注:TFTT為首Token時(shí)長,TPOT為單位時(shí)間生成的Token數(shù),這兩個(gè)是衡量大模型推理體驗(yàn)的關(guān)鍵指標(biāo)。



這就意味著,客戶的實(shí)際付費(fèi)算力,會(huì)根據(jù)自己業(yè)務(wù)量的大小,以模型單元為單位動(dòng)態(tài)增加或者減少。

從此,客戶再也不需要為摸魚的GPU買單了,對(duì)于那些波動(dòng)性較大的AI業(yè)務(wù),省掉一半GPU都不止!



還有一點(diǎn)特別重要,這是一種“全托管”模式的服務(wù)。

企業(yè)只需要把自己的模型交給火山方舟,剩下那一系列的調(diào)度、優(yōu)化、推理加速的事兒,都不用操心,“火山”全包。



尤其模型推理優(yōu)化,企業(yè)重新精調(diào)過的模型,針對(duì)通用模型的標(biāo)準(zhǔn)優(yōu)化手段可能不再適用,需要重新優(yōu)化。

沒關(guān)系,火山方舟會(huì)幫客戶一站式搞定。

經(jīng)過一番優(yōu)化操作,你可能會(huì)發(fā)現(xiàn),峰值需要的算力規(guī)模,都比以前變少了,又狂省了一筆。



當(dāng)然,這種模型單元,不只適用于企業(yè)定制模型,如果企業(yè)使用通用模型時(shí),對(duì)延遲和吞吐要求特別高,也同樣可以采用這種模式。

因?yàn)榇藭r(shí)算力資源是獨(dú)享的,相比API調(diào)用共享算力,這種模式可以提供更確定的性能保障(沒人跟你搶)。



為了讓用戶省錢少買GPU火山引擎真是操碎了心

你能想象嗎?一個(gè)云廠商,這么費(fèi)勁扒拉一頓操作猛如虎,竟然是為了幫用戶省錢。

當(dāng)別人還在云上賣卡,火山引擎已經(jīng)開始為用戶提供按需可得的AI算力。



為啥各大云廠商,只有火山引擎率先做到這一點(diǎn)?

首先明確一點(diǎn),這種高并發(fā)高彈性算力保障,是充沛算力×推理層優(yōu)化×系統(tǒng)調(diào)度能力的乘積,這種能力積累來自于字節(jié)內(nèi)部業(yè)務(wù)驅(qū)動(dòng)。



比如,2024年的時(shí)候,字節(jié)系的AI產(chǎn)品(抖音AI應(yīng)用、豆包、即夢等)就迎來了高速發(fā)展,AI推理需求量急劇增長,比業(yè)界更早的看到了風(fēng)向。

這種領(lǐng)先于業(yè)界半年左右的生產(chǎn)級(jí)AI需求,倒逼字節(jié)AI Infra產(chǎn)研團(tuán)隊(duì)不斷提升推理效率、降低推理成本。



正是基于這樣的需求驅(qū)動(dòng),火山引擎團(tuán)隊(duì)早在2024年下半年就開始研發(fā)“模型單元”方案。

彼時(shí),DeepSeek還沒有大爆發(fā),業(yè)界的推理需求還沒有爆炸式增長,但字節(jié)基于內(nèi)部領(lǐng)先的AI需求驅(qū)動(dòng),就已經(jīng)預(yù)判到趨勢。



機(jī)會(huì)果然是留給了有準(zhǔn)備的人——

2025年初,這個(gè)高彈性的“模型單元”方案就已經(jīng)悄悄上線,并在字節(jié)內(nèi)部抖音等業(yè)務(wù)推廣應(yīng)用,持續(xù)用最極端的實(shí)戰(zhàn)場景淬煉、打磨。



后來的故事大家都知道了,DeepSeek走紅,整個(gè)業(yè)界開始尋求更優(yōu)的推理方案。

而火山引擎的“先發(fā)優(yōu)勢”得到充分體現(xiàn),在那一波全民狂炫DeepSeek的大潮中,火山引擎(火山方舟)成為性能最優(yōu)的那個(gè)第三方DeepSeek API服務(wù)平臺(tái)。



而過去一年來,火上引擎持續(xù)擊穿Token計(jì)費(fèi)的地板價(jià),敢降價(jià)的底氣,同樣來自于這份需求前瞻性和長期技術(shù)積累的乘積。

同時(shí),根據(jù)IDC的最新報(bào)告,火山引擎以46.4%的份額,高居中國公有云大模型調(diào)用量榜首。



最近兩個(gè)月,業(yè)界需求沿著字節(jié)去年踩過的足跡如期而至——

智能體、Agentic AI掀起熱潮,越來越多的企業(yè)開始用定制模型提供更個(gè)性化、更精準(zhǔn)的推理服務(wù)和智能體應(yīng)用。

火山引擎再次跑贏了趨勢,打磨已久的模型單元進(jìn)一步升級(jí),為這類客戶提供效率更高、成本更低的自有模型托管服務(wù),幫客戶輕松省下每一分錢,榨干每一分算力。

一切的毫不費(fèi)力,都是因?yàn)樵?jīng)的竭盡全力!



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
歐洲議會(huì)再次否決針對(duì)馮德萊恩的不信任案

歐洲議會(huì)再次否決針對(duì)馮德萊恩的不信任案

環(huán)球網(wǎng)資訊
2026-01-22 19:28:07
駭人聽聞!洛馬去年交付191架F-35,竟然全部“不能作戰(zhàn)”

駭人聽聞!洛馬去年交付191架F-35,竟然全部“不能作戰(zhàn)”

矚望云霄
2026-01-18 21:44:56
如果在家突發(fā)心梗,黃金6分鐘自救法,快了解,關(guān)鍵時(shí)刻可自救

如果在家突發(fā)心梗,黃金6分鐘自救法,快了解,關(guān)鍵時(shí)刻可自救

健康科普365
2026-01-20 16:05:03
一份假公證書引發(fā)的“繼承之戰(zhàn)”:西安翻譯學(xué)院已故創(chuàng)始人兩女兒爭奪“舉辦者身份”,一審宣判后3名原告上訴

一份假公證書引發(fā)的“繼承之戰(zhàn)”:西安翻譯學(xué)院已故創(chuàng)始人兩女兒爭奪“舉辦者身份”,一審宣判后3名原告上訴

極目新聞
2026-01-21 21:50:59
紐約德比13連勝!尼克斯54分狂勝籃網(wǎng) 布倫森20分引6人上雙

紐約德比13連勝!尼克斯54分狂勝籃網(wǎng) 布倫森20分引6人上雙

醉臥浮生
2026-01-22 10:56:10
王勵(lì)勤真有一套!讓孫穎莎王楚欽官宣退賽,這次冠軍直接放棄

王勵(lì)勤真有一套!讓孫穎莎王楚欽官宣退賽,這次冠軍直接放棄

奇史怪談
2026-01-22 12:17:32
2026年上半年,事業(yè)迎來關(guān)鍵突破的三個(gè)星座,位置徹底不同

2026年上半年,事業(yè)迎來關(guān)鍵突破的三個(gè)星座,位置徹底不同

小晴星座說
2026-01-22 19:43:44
高市早苗或成為日本最短任期首相之一!

高市早苗或成為日本最短任期首相之一!

西樓知趣雜談
2026-01-22 11:47:40
“回國禍害人了?”女留子畢業(yè)美圖被群嘲,網(wǎng)友:看過牢A就懂了

“回國禍害人了?”女留子畢業(yè)美圖被群嘲,網(wǎng)友:看過牢A就懂了

妍妍教育日記
2026-01-20 19:09:20
國羽2勝1負(fù)!男雙提前丟冠,陳雨菲PK世界冠軍,混雙劍指2席8強(qiáng)!

國羽2勝1負(fù)!男雙提前丟冠,陳雨菲PK世界冠軍,混雙劍指2席8強(qiáng)!

劉姚堯的文字城堡
2026-01-22 17:04:47
中國應(yīng)該做好迎接聯(lián)合國搬遷到中國的戰(zhàn)略準(zhǔn)備

中國應(yīng)該做好迎接聯(lián)合國搬遷到中國的戰(zhàn)略準(zhǔn)備

深度報(bào)
2026-01-21 22:37:34
“女生遭4170元天價(jià)開鎖”事件:開鎖商戶屢查屢犯,被罰款9550元并吊銷營業(yè)執(zhí)照

“女生遭4170元天價(jià)開鎖”事件:開鎖商戶屢查屢犯,被罰款9550元并吊銷營業(yè)執(zhí)照

紅星新聞
2026-01-21 18:02:27
聶衛(wèi)平接岳父母同住20年,看似寵妻實(shí)則大智慧,三代人都成了贏家

聶衛(wèi)平接岳父母同住20年,看似寵妻實(shí)則大智慧,三代人都成了贏家

復(fù)轉(zhuǎn)這些年
2026-01-20 17:54:25
《小城大事》大結(jié)局:杜濤被封殺,肖主編太狠,李秋萍怕鄭德誠床

《小城大事》大結(jié)局:杜濤被封殺,肖主編太狠,李秋萍怕鄭德誠床

風(fēng)月得自難尋
2026-01-22 16:27:55
海歸光環(huán)已經(jīng)消失?49.5萬留學(xué)生涌回國,殘酷真相:企業(yè)只認(rèn)這個(gè)

海歸光環(huán)已經(jīng)消失?49.5萬留學(xué)生涌回國,殘酷真相:企業(yè)只認(rèn)這個(gè)

鬼菜生活
2026-01-12 11:46:20
無房可賣,后果很嚴(yán)重了

無房可賣,后果很嚴(yán)重了

大龍哥的哥
2026-01-20 20:36:33
31家公司業(yè)績快報(bào)搶先看

31家公司業(yè)績快報(bào)搶先看

證券時(shí)報(bào)
2026-01-22 10:03:28
王菲也沒想到,自己的現(xiàn)任男友謝霆鋒,竟走上了和李亞鵬一樣的路

王菲也沒想到,自己的現(xiàn)任男友謝霆鋒,竟走上了和李亞鵬一樣的路

梨花黛娛
2025-12-10 15:48:53
武林高手趙金彪:一拳擊中杜心五,次日就身亡了,不知何時(shí)被點(diǎn)穴

武林高手趙金彪:一拳擊中杜心五,次日就身亡了,不知何時(shí)被點(diǎn)穴

史之銘
2026-01-22 06:28:42
傳聞:默多克贈(zèng)送四合院暗藏心機(jī),鄧文迪隱忍15年終于出手

傳聞:默多克贈(zèng)送四合院暗藏心機(jī),鄧文迪隱忍15年終于出手

卡西莫多的故事
2026-01-18 08:15:07
2026-01-22 20:44:49
AI全球總部
AI全球總部
全球最新、最酷AI解決方案
1113文章數(shù) 715關(guān)注度
往期回顧 全部

科技要聞

幾千億只是開胃菜,AI基建還得再砸?guī)兹f億

頭條要聞

自稱"中國性商教母"的周媛被封 前員工:培訓(xùn)尺度較大

頭條要聞

自稱"中國性商教母"的周媛被封 前員工:培訓(xùn)尺度較大

體育要聞

跑個(gè)步而已,他們?cè)谌际裁矗?/h3>

娛樂要聞

車銀優(yōu)賺800億 涉嫌逃稅200億!

財(cái)經(jīng)要聞

西貝拿到“救命錢”,然后呢

汽車要聞

配備多塊娛樂屏 極氪8X內(nèi)飾曝光

態(tài)度原創(chuàng)

家居
游戲
本地
健康
公開課

家居要聞

法式風(fēng)情 南洋中古居

艾達(dá)王也難逃毒手?博主用AI模擬西方開發(fā)者審美

本地新聞

云游中國|格爾木的四季朋友圈,張張值得你點(diǎn)贊

打工人年終總結(jié)!健康通關(guān)=贏麻了

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版