国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

推理成本打到1元/百萬(wàn)token,浪潮撬動(dòng)Agent規(guī)?;白詈笠还铩?/h1>
0
分享至

允中 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

當(dāng)前全球AI產(chǎn)業(yè)已從模型性能競(jìng)賽邁入智能體規(guī)?;涞氐摹吧栏?jìng)速”階段,“降本”不再是可選優(yōu)化項(xiàng),而是決定AI企業(yè)能否盈利、行業(yè)能否突破的核心命脈。

在此大背景下,浪潮信息推出元腦HC1000超擴(kuò)展AI服務(wù)器,將推理成本首次擊穿至1元/每百萬(wàn)token

這一突破不僅有望打通智能體產(chǎn)業(yè)化落地“最后一公里”的成本障礙,更將重塑AI產(chǎn)業(yè)競(jìng)爭(zhēng)的底層邏輯。

浪潮信息首席AI戰(zhàn)略官劉軍強(qiáng)調(diào):

  • 當(dāng)前1元/每百萬(wàn)token的成本突破僅是階段性勝利,面對(duì)未來(lái)token消耗量指數(shù)級(jí)增長(zhǎng)、復(fù)雜任務(wù)token需求激增數(shù)十倍的必然趨勢(shì),現(xiàn)有成本水平仍難支撐AI的普惠落地。

未來(lái),AI要真正成為如同 “水電煤” 般的基礎(chǔ)資源,token成本必須在現(xiàn)有基礎(chǔ)上實(shí)現(xiàn)數(shù)量級(jí)跨越,成本能力將從“核心競(jìng)爭(zhēng)力”進(jìn)一步升級(jí)為“生存入場(chǎng)券”,直接決定AI企業(yè)在智能體時(shí)代的生死存亡。


△浪潮信息首席AI戰(zhàn)略官劉軍

智能體時(shí)代,token成本就是競(jìng)爭(zhēng)力

回顧互聯(lián)網(wǎng)發(fā)展史,基礎(chǔ)設(shè)施的“提速降費(fèi)”是行業(yè)繁榮的重要基石。

從撥號(hào)上網(wǎng)以Kb計(jì)費(fèi),到光纖入戶后百兆帶寬成為標(biāo)配,再到4G/5G時(shí)代數(shù)據(jù)流量成本趨近于零——每一次通信成本的顯著降低,都推動(dòng)了如視頻流媒體、移動(dòng)支付等全新應(yīng)用生態(tài)的爆發(fā)。

當(dāng)前的AI時(shí)代也處于相似的臨界點(diǎn),當(dāng)技術(shù)進(jìn)步促使token單價(jià)下滑之后,企業(yè)得以大規(guī)模地將AI應(yīng)用于更復(fù)雜、更耗能的場(chǎng)景,如從早期的簡(jiǎn)短問(wèn)答,到如今支持超長(zhǎng)上下文、具備多步規(guī)劃與反思能力的智能體……

這也導(dǎo)致單任務(wù)對(duì)token的需求已呈指數(shù)級(jí)增長(zhǎng)。如果token成本下降的速度跟不上消耗量的指數(shù)增長(zhǎng),企業(yè)將面臨更高的費(fèi)用投入,這昭示著經(jīng)濟(jì)學(xué)中著名的“杰文斯悖論”正在token經(jīng)濟(jì)中完美重演。

(杰文斯悖論是1865年經(jīng)濟(jì)學(xué)家威廉·斯坦利·杰文斯提出的悖論:指當(dāng)技術(shù)進(jìn)步提高了效率,資源消耗不僅沒(méi)有減少,反而激增。例如,瓦特改良的蒸汽機(jī)讓煤炭燃燒更加高效,但結(jié)果卻是煤炭需求飆升。)

來(lái)自多方的數(shù)據(jù)也有力佐證了token消耗量的指數(shù)級(jí)增長(zhǎng)趨勢(shì)。

  • 火山引擎最新披露的數(shù)據(jù)顯示,截至今年12月,字節(jié)跳動(dòng)旗下豆包大模型日均token使用量突破50萬(wàn)億,較去年同期增長(zhǎng)超過(guò)10倍,相比2024年5月剛推出時(shí)的日均調(diào)用量增長(zhǎng)達(dá)417倍;
  • 谷歌在10月披露,其各平臺(tái)每月處理的token用量已達(dá),相當(dāng)于日均43.3萬(wàn)億,而一年前月均僅為9.7萬(wàn)億。


△谷歌公布其token處理量變化

當(dāng)使用量達(dá)到“百萬(wàn)億token/月”的量級(jí)時(shí),哪怕每百萬(wàn)token成本只下降1美元,也可能帶來(lái)每月1億美元的成本差異。

對(duì)此,劉軍認(rèn)為:

  • token成本就是競(jìng)爭(zhēng)力,它直接決定了智能體的盈利能力。要讓AI真正進(jìn)入規(guī)?;栈蓦A段,token成本必須在現(xiàn)有基礎(chǔ)上繼續(xù)實(shí)現(xiàn)數(shù)量級(jí)的下降。
深挖token成本“暗箱”:架構(gòu)不匹配是核心瓶頸

當(dāng)下,全球大模型競(jìng)賽從“盲目堆算力”轉(zhuǎn)向“追求單位算力產(chǎn)出價(jià)值”的新階段。

單位算力產(chǎn)出價(jià)值受到能源價(jià)格、硬件采購(gòu)成本、算法優(yōu)化、運(yùn)營(yíng)成本等多種因素的影響,但不可否認(rèn)的是,現(xiàn)階段token成本80%以上依然來(lái)自算力支出。

而阻礙成本下降的核心矛盾,在于推理負(fù)載與訓(xùn)練負(fù)載截然不同,沿用舊架構(gòu)會(huì)導(dǎo)致算力、顯存與網(wǎng)絡(luò)資源難以同時(shí)最優(yōu),造成嚴(yán)重的“高配低效”。

一是算力利用率(MFU)的嚴(yán)重倒掛

訓(xùn)練階段MFU可達(dá)50%以上,但在推理階段,特別是對(duì)于追求低延遲的實(shí)時(shí)交互任務(wù),由于token的自回歸解碼特性,在每一輪計(jì)算中,硬件必須加載全部的模型參數(shù),卻只為了計(jì)算一個(gè)token的輸出,導(dǎo)致昂貴的GPU大部分時(shí)間在等待數(shù)據(jù)搬運(yùn),實(shí)際MFU往往僅為5%-10%。這種巨大的算力閑置是成本高企的結(jié)構(gòu)性根源。

二是“存儲(chǔ)墻”瓶頸在推理場(chǎng)景下被放大

在大模型推理中,隨著上下文長(zhǎng)度的增加,KV Cache呈指數(shù)級(jí)增長(zhǎng)。這不僅占用了大量的顯存空間,還導(dǎo)致了由于訪存密集帶來(lái)的高功耗。

這種存算分離不僅帶來(lái)數(shù)據(jù)遷移功耗和延遲,還必須配合使用價(jià)格高昂的HBM,已經(jīng)成為阻礙token成本下降的重要瓶頸。

三是網(wǎng)絡(luò)通信與橫向擴(kuò)展代價(jià)愈發(fā)高昂

當(dāng)模型規(guī)模突破單機(jī)承載能力時(shí),跨節(jié)點(diǎn)通信成為新瓶頸。傳統(tǒng)RoCE或InfiniBand網(wǎng)絡(luò)的延遲遠(yuǎn)高于芯片內(nèi)部的總線延遲,通信開(kāi)銷(xiāo)可能占據(jù)總推理時(shí)間的30%以上,導(dǎo)致企業(yè)被迫通過(guò)堆砌更多資源來(lái)維持響應(yīng)速度,推高了總擁有成本(TCO)。

對(duì)此,劉軍指出,降低token成本的核心不是“把一臺(tái)機(jī)器做得更全”,而是圍繞目標(biāo)重構(gòu)系統(tǒng)

把推理流程拆得更細(xì),支持P/D分離、A/F分離、KV并行、細(xì)粒度專(zhuān)家拆分等計(jì)算策略,讓不同計(jì)算模塊在不同卡上按需配置并發(fā),把每張卡的負(fù)載打滿,讓“卡時(shí)成本”更低、讓“卡時(shí)產(chǎn)出”更高。

基于全新超擴(kuò)展架構(gòu),元腦HC1000實(shí)現(xiàn)推理成本首次擊破1元/每百萬(wàn)token

當(dāng)前主流大模型的token成本依然高昂。以輸出百萬(wàn)token為例,Claude、Grok等模型的價(jià)格普遍在10-15美元,國(guó)內(nèi)大模型雖然相對(duì)便宜,也多在10元以上。

在天文數(shù)字級(jí)別的調(diào)用量下,如此高的token成本讓大規(guī)模商業(yè)化應(yīng)用面臨嚴(yán)峻的ROI挑戰(zhàn)。

因此,要打破成本僵局,必須從計(jì)算架構(gòu)層面進(jìn)行根本性重構(gòu),從而大幅提升單位算力的產(chǎn)出效率。


△主流LLM的百萬(wàn)token價(jià)格

為此,浪潮信息推出元腦HC1000超擴(kuò)展AI服務(wù)器

該產(chǎn)品基于全新設(shè)計(jì)的全對(duì)稱DirectCom極速架構(gòu),采用無(wú)損超擴(kuò)展設(shè)計(jì),可高效聚合海量本土AI芯片,支持極大推理吞吐量,推理成本首次擊破1元/每百萬(wàn)token,為智能體突破token成本瓶頸提供極致性能的創(chuàng)新算力系統(tǒng)。


△元腦HC1000超擴(kuò)展AI服務(wù)器

對(duì)此,劉軍表示:

  • 我們看到原來(lái)的AI計(jì)算是瞄著大而全去建設(shè)的,五臟俱全,各種各樣的東西都在里面。但是當(dāng)我們聚焦降低token成本這一核心目標(biāo)之后,我們重新思考系統(tǒng)架構(gòu)設(shè)計(jì),找到系統(tǒng)瓶頸,重構(gòu)出一個(gè)極簡(jiǎn)設(shè)計(jì)的系統(tǒng)。

元腦HC1000創(chuàng)新設(shè)計(jì)了DirectCom極速架構(gòu),每計(jì)算模組配置16顆AIPU,采用直達(dá)通信設(shè)計(jì),解決傳統(tǒng)架構(gòu)的協(xié)議轉(zhuǎn)換和帶寬爭(zhēng)搶問(wèn)題,實(shí)現(xiàn)超低延遲;計(jì)算通信1:1均衡配比,實(shí)現(xiàn)全局無(wú)阻塞通信;全對(duì)稱的系統(tǒng)拓?fù)湓O(shè)計(jì),可以支持靈活的PD分離、AF分離方案,按需配置計(jì)算實(shí)例,最大化資源利用率。


△全對(duì)稱DirectCom極速架構(gòu)

同時(shí),元腦HC1000支持超大規(guī)模無(wú)損擴(kuò)展,DirectCom架構(gòu)保障了計(jì)算和通信均衡,通過(guò)算網(wǎng)深度協(xié)同、全域無(wú)損技術(shù)實(shí)現(xiàn)推理性能1.75倍提升,并且通過(guò)對(duì)大模型的計(jì)算流程細(xì)分和模型結(jié)構(gòu)解耦,實(shí)現(xiàn)計(jì)算負(fù)載的靈活按需配比,單卡MFU最高可提升5.7倍。


△超大規(guī)模無(wú)損擴(kuò)展

此外,元腦HC1000通過(guò)自適應(yīng)路由和智能擁塞控制算法,提供數(shù)據(jù)包級(jí)動(dòng)態(tài)負(fù)載均衡,實(shí)現(xiàn)KV Cache傳輸和All to All通信流量的智能調(diào)度,將KV Cache傳輸對(duì)Prefill、Decode計(jì)算實(shí)例影響降低5-10倍。

劉軍強(qiáng)調(diào),當(dāng)前“1元/每百萬(wàn)token”還遠(yuǎn)遠(yuǎn)不夠,面對(duì)未來(lái)token消耗量的指數(shù)級(jí)增長(zhǎng),若要實(shí)現(xiàn)單token成本的持續(xù)、數(shù)量級(jí)下降,需要推動(dòng)計(jì)算架構(gòu)的根本性革新。

這也要求整個(gè)AI產(chǎn)業(yè)的產(chǎn)品技術(shù)創(chuàng)新,要從當(dāng)前的規(guī)模導(dǎo)向轉(zhuǎn)為效率導(dǎo)向,從根本上重新思考和設(shè)計(jì)AI計(jì)算系統(tǒng),發(fā)展AI專(zhuān)用計(jì)算架構(gòu),探索開(kāi)發(fā)大模型芯片,推動(dòng)算法硬件化的專(zhuān)用計(jì)算架構(gòu)創(chuàng)新,實(shí)現(xiàn)軟硬件深度優(yōu)化,這將是未來(lái)的發(fā)展方向。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
姚啟圣平定臺(tái)灣后,發(fā)現(xiàn)康熙對(duì)自己有殺意,留下了三個(gè)錦囊來(lái)應(yīng)對(duì)

姚啟圣平定臺(tái)灣后,發(fā)現(xiàn)康熙對(duì)自己有殺意,留下了三個(gè)錦囊來(lái)應(yīng)對(duì)

飯小妹說(shuō)歷史
2025-12-24 09:14:17
楊蘭蘭賬上的“2700億澳元”,是存的三年期?

楊蘭蘭賬上的“2700億澳元”,是存的三年期?

關(guān)爾東
2025-08-09 17:12:05
剛剛確認(rèn):上海已入冬!冷空氣跨年夜抵達(dá),天氣轉(zhuǎn)折:氣溫暴跌,還有小雨!

剛剛確認(rèn):上海已入冬!冷空氣跨年夜抵達(dá),天氣轉(zhuǎn)折:氣溫暴跌,還有小雨!

上觀新聞
2025-12-28 17:19:05
69歲趙本山:每天2包煙,頓頓8兩酒,跟生前的楊少華如出一轍

69歲趙本山:每天2包煙,頓頓8兩酒,跟生前的楊少華如出一轍

豐譚筆錄
2025-12-16 10:55:06
小米也漲價(jià)了!內(nèi)存壓力傳導(dǎo)至手機(jī)廠商,業(yè)界稱終端再不漲明年必定虧損

小米也漲價(jià)了!內(nèi)存壓力傳導(dǎo)至手機(jī)廠商,業(yè)界稱終端再不漲明年必定虧損

澎湃新聞
2025-12-26 20:22:27
82歲被查!徐湖平靠山曝光,比韓建林還硬?網(wǎng)友:竟是身旁的他?

82歲被查!徐湖平靠山曝光,比韓建林還硬?網(wǎng)友:竟是身旁的他?

遠(yuǎn)山行客
2025-12-28 13:05:40
重慶機(jī)場(chǎng)集團(tuán)聲明:公司無(wú)任何 “特殊招聘渠道”

重慶機(jī)場(chǎng)集團(tuán)聲明:公司無(wú)任何 “特殊招聘渠道”

界面新聞
2025-12-28 18:06:47
國(guó)家衛(wèi)健委喊話:快去醫(yī)院退門(mén)診押金,已退90億

國(guó)家衛(wèi)健委喊話:快去醫(yī)院退門(mén)診押金,已退90億

東方豪俠
2025-12-27 07:58:12
離婚后,前夫送我一箱蘋(píng)果,三年后我打開(kāi)箱子號(hào)啕大哭

離婚后,前夫送我一箱蘋(píng)果,三年后我打開(kāi)箱子號(hào)啕大哭

秀秀情感課堂
2025-12-27 13:55:03
突然意識(shí)到對(duì)方是在有錢(qián)又有愛(ài)的家庭長(zhǎng)大的,那一刻我沉默了

突然意識(shí)到對(duì)方是在有錢(qián)又有愛(ài)的家庭長(zhǎng)大的,那一刻我沉默了

另子維愛(ài)讀史
2025-12-27 18:35:00
1958年,2億只麻雀一夜之間沒(méi)了,大家都以為保住了糧食,結(jié)果第二年那報(bào)應(yīng)來(lái)得太猛,還得厚著臉皮找蘇聯(lián)救急

1958年,2億只麻雀一夜之間沒(méi)了,大家都以為保住了糧食,結(jié)果第二年那報(bào)應(yīng)來(lái)得太猛,還得厚著臉皮找蘇聯(lián)救急

歷史回憶室
2025-12-26 11:11:27
特朗普恐怕沒(méi)料到,大批軍火還沒(méi)運(yùn)抵臺(tái)島,中方一招直打美國(guó)七寸

特朗普恐怕沒(méi)料到,大批軍火還沒(méi)運(yùn)抵臺(tái)島,中方一招直打美國(guó)七寸

面包夾知識(shí)
2025-12-27 00:00:32
每日一笑:那些時(shí)隔多年看到還笑到肚子痛的段子,哈哈哈!

每日一笑:那些時(shí)隔多年看到還笑到肚子痛的段子,哈哈哈!

夜深?lèi)?ài)雜談
2025-12-20 16:57:34
難怪偉人說(shuō)解放戰(zhàn)爭(zhēng)拖不得!1949年后,解放軍五虎上將全部都病倒

難怪偉人說(shuō)解放戰(zhàn)爭(zhēng)拖不得!1949年后,解放軍五虎上將全部都病倒

抽象派大師
2025-12-28 01:03:07
廣東今晨多個(gè)市縣寒冷預(yù)警生效!氣溫將逐漸回升,晝夜溫差大

廣東今晨多個(gè)市縣寒冷預(yù)警生效!氣溫將逐漸回升,晝夜溫差大

南方都市報(bào)
2025-12-28 10:04:41
戰(zhàn)爭(zhēng)一旦爆發(fā),中國(guó)3000架飛機(jī)根本上不了場(chǎng)?俄專(zhuān)家講出了真相

戰(zhàn)爭(zhēng)一旦爆發(fā),中國(guó)3000架飛機(jī)根本上不了場(chǎng)?俄專(zhuān)家講出了真相

霽寒飄雪
2025-12-28 12:07:13
17歲差零實(shí)錘!姆巴佩 伊萬(wàn)卡Excel之戀 童裝3小時(shí)售空

17歲差零實(shí)錘!姆巴佩 伊萬(wàn)卡Excel之戀 童裝3小時(shí)售空

羅氏八卦
2025-12-27 23:20:03
老舅:崔國(guó)明永遠(yuǎn)也不明白,達(dá)達(dá)花35萬(wàn)巨資買(mǎi)下荒山的真相是什么

老舅:崔國(guó)明永遠(yuǎn)也不明白,達(dá)達(dá)花35萬(wàn)巨資買(mǎi)下荒山的真相是什么

白公子探劇
2025-12-26 23:33:21
“牡丹花下死,做鬼也風(fēng)流”,這一次,74歲的張紀(jì)中徹底成了笑話

“牡丹花下死,做鬼也風(fēng)流”,這一次,74歲的張紀(jì)中徹底成了笑話

洲洲影視娛評(píng)
2025-12-08 19:52:00
12月28日,券商給予評(píng)級(jí)并且給出目標(biāo)價(jià)的公司一覽

12月28日,券商給予評(píng)級(jí)并且給出目標(biāo)價(jià)的公司一覽

A股數(shù)據(jù)表
2025-12-28 06:55:03
2025-12-28 20:32:49

量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
11931文章數(shù) 176345關(guān)注度
往期回顧 全部

科技要聞

特斯拉將在華布局自動(dòng)駕駛?記者求證→

頭條要聞

臺(tái)媒體人:賴清德彈劾案通過(guò) 對(duì)賴是一個(gè)很大的侮辱

頭條要聞

臺(tái)媒體人:賴清德彈劾案通過(guò) 對(duì)賴是一個(gè)很大的侮辱

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂(lè)要聞

白敬亭現(xiàn)身冰雪大世界 拍視頻還翻車(chē)了

財(cái)經(jīng)要聞

英偉達(dá)的收購(gòu)史

汽車(chē)要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

親子
教育
藝術(shù)
公開(kāi)課
軍事航空

親子要聞

原來(lái)真的有學(xué)霸父母“學(xué)渣”娃的情況!網(wǎng)友:看完瞬間心理平衡!

教育要聞

低情商校長(zhǎng)的5種行為,希望你一個(gè)也沒(méi)有

藝術(shù)要聞

她:波濤洶涌?還是風(fēng)情萬(wàn)種?

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

與特朗普會(huì)晤前 澤連斯基亮明“紅線”

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版