国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

推理成本打到1元/百萬token,浪潮撬動Agent規(guī)模化“最后一公里”

0
分享至

允中 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

當(dāng)前全球AI產(chǎn)業(yè)已從模型性能競賽邁入智能體規(guī)?;涞氐摹吧栏偹佟彪A段,“降本”不再是可選優(yōu)化項,而是決定AI企業(yè)能否盈利、行業(yè)能否突破的核心命脈。

在此大背景下,浪潮信息推出元腦HC1000超擴展AI服務(wù)器,將推理成本首次擊穿至1元/每百萬token

這一突破不僅有望打通智能體產(chǎn)業(yè)化落地“最后一公里”的成本障礙,更將重塑AI產(chǎn)業(yè)競爭的底層邏輯。

浪潮信息首席AI戰(zhàn)略官劉軍強調(diào):

  • 當(dāng)前1元/每百萬token的成本突破僅是階段性勝利,面對未來token消耗量指數(shù)級增長、復(fù)雜任務(wù)token需求激增數(shù)十倍的必然趨勢,現(xiàn)有成本水平仍難支撐AI的普惠落地。

未來,AI要真正成為如同 “水電煤” 般的基礎(chǔ)資源,token成本必須在現(xiàn)有基礎(chǔ)上實現(xiàn)數(shù)量級跨越,成本能力將從“核心競爭力”進一步升級為“生存入場券”,直接決定AI企業(yè)在智能體時代的生死存亡。


△浪潮信息首席AI戰(zhàn)略官劉軍

智能體時代,token成本就是競爭力

回顧互聯(lián)網(wǎng)發(fā)展史,基礎(chǔ)設(shè)施的“提速降費”是行業(yè)繁榮的重要基石。

從撥號上網(wǎng)以Kb計費,到光纖入戶后百兆帶寬成為標(biāo)配,再到4G/5G時代數(shù)據(jù)流量成本趨近于零——每一次通信成本的顯著降低,都推動了如視頻流媒體、移動支付等全新應(yīng)用生態(tài)的爆發(fā)。

當(dāng)前的AI時代也處于相似的臨界點,當(dāng)技術(shù)進步促使token單價下滑之后,企業(yè)得以大規(guī)模地將AI應(yīng)用于更復(fù)雜、更耗能的場景,如從早期的簡短問答,到如今支持超長上下文、具備多步規(guī)劃與反思能力的智能體……

這也導(dǎo)致單任務(wù)對token的需求已呈指數(shù)級增長。如果token成本下降的速度跟不上消耗量的指數(shù)增長,企業(yè)將面臨更高的費用投入,這昭示著經(jīng)濟學(xué)中著名的“杰文斯悖論”正在token經(jīng)濟中完美重演。

(杰文斯悖論是1865年經(jīng)濟學(xué)家威廉·斯坦利·杰文斯提出的悖論:指當(dāng)技術(shù)進步提高了效率,資源消耗不僅沒有減少,反而激增。例如,瓦特改良的蒸汽機讓煤炭燃燒更加高效,但結(jié)果卻是煤炭需求飆升。)

來自多方的數(shù)據(jù)也有力佐證了token消耗量的指數(shù)級增長趨勢。

  • 火山引擎最新披露的數(shù)據(jù)顯示,截至今年12月,字節(jié)跳動旗下豆包大模型日均token使用量突破50萬億,較去年同期增長超過10倍,相比2024年5月剛推出時的日均調(diào)用量增長達417倍;
  • 谷歌在10月披露,其各平臺每月處理的token用量已達,相當(dāng)于日均43.3萬億,而一年前月均僅為9.7萬億。


△谷歌公布其token處理量變化

當(dāng)使用量達到“百萬億token/月”的量級時,哪怕每百萬token成本只下降1美元,也可能帶來每月1億美元的成本差異。

對此,劉軍認(rèn)為:

  • token成本就是競爭力,它直接決定了智能體的盈利能力。要讓AI真正進入規(guī)?;栈蓦A段,token成本必須在現(xiàn)有基礎(chǔ)上繼續(xù)實現(xiàn)數(shù)量級的下降。
深挖token成本“暗箱”:架構(gòu)不匹配是核心瓶頸

當(dāng)下,全球大模型競賽從“盲目堆算力”轉(zhuǎn)向“追求單位算力產(chǎn)出價值”的新階段。

單位算力產(chǎn)出價值受到能源價格、硬件采購成本、算法優(yōu)化、運營成本等多種因素的影響,但不可否認(rèn)的是,現(xiàn)階段token成本80%以上依然來自算力支出。

而阻礙成本下降的核心矛盾,在于推理負(fù)載與訓(xùn)練負(fù)載截然不同,沿用舊架構(gòu)會導(dǎo)致算力、顯存與網(wǎng)絡(luò)資源難以同時最優(yōu),造成嚴(yán)重的“高配低效”。

一是算力利用率(MFU)的嚴(yán)重倒掛

訓(xùn)練階段MFU可達50%以上,但在推理階段,特別是對于追求低延遲的實時交互任務(wù),由于token的自回歸解碼特性,在每一輪計算中,硬件必須加載全部的模型參數(shù),卻只為了計算一個token的輸出,導(dǎo)致昂貴的GPU大部分時間在等待數(shù)據(jù)搬運,實際MFU往往僅為5%-10%。這種巨大的算力閑置是成本高企的結(jié)構(gòu)性根源。

二是“存儲墻”瓶頸在推理場景下被放大

在大模型推理中,隨著上下文長度的增加,KV Cache呈指數(shù)級增長。這不僅占用了大量的顯存空間,還導(dǎo)致了由于訪存密集帶來的高功耗。

這種存算分離不僅帶來數(shù)據(jù)遷移功耗和延遲,還必須配合使用價格高昂的HBM,已經(jīng)成為阻礙token成本下降的重要瓶頸。

三是網(wǎng)絡(luò)通信與橫向擴展代價愈發(fā)高昂

當(dāng)模型規(guī)模突破單機承載能力時,跨節(jié)點通信成為新瓶頸。傳統(tǒng)RoCE或InfiniBand網(wǎng)絡(luò)的延遲遠(yuǎn)高于芯片內(nèi)部的總線延遲,通信開銷可能占據(jù)總推理時間的30%以上,導(dǎo)致企業(yè)被迫通過堆砌更多資源來維持響應(yīng)速度,推高了總擁有成本(TCO)。

對此,劉軍指出,降低token成本的核心不是“把一臺機器做得更全”,而是圍繞目標(biāo)重構(gòu)系統(tǒng)

把推理流程拆得更細(xì),支持P/D分離、A/F分離、KV并行、細(xì)粒度專家拆分等計算策略,讓不同計算模塊在不同卡上按需配置并發(fā),把每張卡的負(fù)載打滿,讓“卡時成本”更低、讓“卡時產(chǎn)出”更高。

基于全新超擴展架構(gòu),元腦HC1000實現(xiàn)推理成本首次擊破1元/每百萬token

當(dāng)前主流大模型的token成本依然高昂。以輸出百萬token為例,Claude、Grok等模型的價格普遍在10-15美元,國內(nèi)大模型雖然相對便宜,也多在10元以上。

在天文數(shù)字級別的調(diào)用量下,如此高的token成本讓大規(guī)模商業(yè)化應(yīng)用面臨嚴(yán)峻的ROI挑戰(zhàn)。

因此,要打破成本僵局,必須從計算架構(gòu)層面進行根本性重構(gòu),從而大幅提升單位算力的產(chǎn)出效率。


△主流LLM的百萬token價格

為此,浪潮信息推出元腦HC1000超擴展AI服務(wù)器

該產(chǎn)品基于全新設(shè)計的全對稱DirectCom極速架構(gòu),采用無損超擴展設(shè)計,可高效聚合海量本土AI芯片,支持極大推理吞吐量,推理成本首次擊破1元/每百萬token,為智能體突破token成本瓶頸提供極致性能的創(chuàng)新算力系統(tǒng)。


△元腦HC1000超擴展AI服務(wù)器

對此,劉軍表示:

  • 我們看到原來的AI計算是瞄著大而全去建設(shè)的,五臟俱全,各種各樣的東西都在里面。但是當(dāng)我們聚焦降低token成本這一核心目標(biāo)之后,我們重新思考系統(tǒng)架構(gòu)設(shè)計,找到系統(tǒng)瓶頸,重構(gòu)出一個極簡設(shè)計的系統(tǒng)。

元腦HC1000創(chuàng)新設(shè)計了DirectCom極速架構(gòu),每計算模組配置16顆AIPU,采用直達通信設(shè)計,解決傳統(tǒng)架構(gòu)的協(xié)議轉(zhuǎn)換和帶寬爭搶問題,實現(xiàn)超低延遲;計算通信1:1均衡配比,實現(xiàn)全局無阻塞通信;全對稱的系統(tǒng)拓?fù)湓O(shè)計,可以支持靈活的PD分離、AF分離方案,按需配置計算實例,最大化資源利用率。


△全對稱DirectCom極速架構(gòu)

同時,元腦HC1000支持超大規(guī)模無損擴展,DirectCom架構(gòu)保障了計算和通信均衡,通過算網(wǎng)深度協(xié)同、全域無損技術(shù)實現(xiàn)推理性能1.75倍提升,并且通過對大模型的計算流程細(xì)分和模型結(jié)構(gòu)解耦,實現(xiàn)計算負(fù)載的靈活按需配比,單卡MFU最高可提升5.7倍。


△超大規(guī)模無損擴展

此外,元腦HC1000通過自適應(yīng)路由和智能擁塞控制算法,提供數(shù)據(jù)包級動態(tài)負(fù)載均衡,實現(xiàn)KV Cache傳輸和All to All通信流量的智能調(diào)度,將KV Cache傳輸對Prefill、Decode計算實例影響降低5-10倍。

劉軍強調(diào),當(dāng)前“1元/每百萬token”還遠(yuǎn)遠(yuǎn)不夠,面對未來token消耗量的指數(shù)級增長,若要實現(xiàn)單token成本的持續(xù)、數(shù)量級下降,需要推動計算架構(gòu)的根本性革新。

這也要求整個AI產(chǎn)業(yè)的產(chǎn)品技術(shù)創(chuàng)新,要從當(dāng)前的規(guī)模導(dǎo)向轉(zhuǎn)為效率導(dǎo)向,從根本上重新思考和設(shè)計AI計算系統(tǒng),發(fā)展AI專用計算架構(gòu),探索開發(fā)大模型芯片,推動算法硬件化的專用計算架構(gòu)創(chuàng)新,實現(xiàn)軟硬件深度優(yōu)化,這將是未來的發(fā)展方向。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
轟23分+絕平三分!中國男籃22歲新星閃耀NCAA:新版林瘋狂來了?

轟23分+絕平三分!中國男籃22歲新星閃耀NCAA:新版林瘋狂來了?

李喜林籃球絕殺
2026-01-06 11:42:33
欲哭無淚!公司開始實行員工市場化大退出!

欲哭無淚!公司開始實行員工市場化大退出!

黯泉
2026-01-05 21:50:45
TOP14位身高170以上的女神,有顏有燈有演技

TOP14位身高170以上的女神,有顏有燈有演技

素然追光
2026-01-02 02:45:02
唐嫣在國外很豪放!穿連體衣下面不系扣,難道不好好穿衣就時髦?

唐嫣在國外很豪放!穿連體衣下面不系扣,難道不好好穿衣就時髦?

章眽八卦
2026-01-05 12:27:07
馬杜羅被抓走,武契奇動搖了,關(guān)鍵時刻中國扛旗,王毅發(fā)出最強音

馬杜羅被抓走,武契奇動搖了,關(guān)鍵時刻中國扛旗,王毅發(fā)出最強音

素年文史
2026-01-05 20:15:03
美司令曾警告:若大陸武力收臺,美軍將摧毀中方火箭軍和核武庫!

美司令曾警告:若大陸武力收臺,美軍將摧毀中方火箭軍和核武庫!

壹知眠羊
2025-12-21 07:15:19
馬杜羅被抓全過程披露:8名線人,包括總統(tǒng)衛(wèi)隊中校

馬杜羅被抓全過程披露:8名線人,包括總統(tǒng)衛(wèi)隊中校

貿(mào)易夜航
2026-01-04 10:18:58
火箭2小將全曝瑕疵!阿門手活+投籃糟糕,伊森無持球只能打藍領(lǐng)!

火箭2小將全曝瑕疵!阿門手活+投籃糟糕,伊森無持球只能打藍領(lǐng)!

籃球資訊達人
2026-01-06 12:39:02
大陸公布沈伯洋住家衛(wèi)星照,賴清德急了,沈伯洋沉默,不簡單

大陸公布沈伯洋住家衛(wèi)星照,賴清德急了,沈伯洋沉默,不簡單

落梅如雪亂飛
2026-01-05 02:45:18
國產(chǎn)香煙加了助燃劑?測試發(fā)現(xiàn)只能燒4分鐘,而日本煙能燒7分鐘

國產(chǎn)香煙加了助燃劑?測試發(fā)現(xiàn)只能燒4分鐘,而日本煙能燒7分鐘

回旋鏢
2026-01-01 21:00:24
亞布塞萊想打五年符合退休金和家庭醫(yī)療保障資格!沒人告訴他要求是十年嗎?

亞布塞萊想打五年符合退休金和家庭醫(yī)療保障資格!沒人告訴他要求是十年嗎?

籃球大圖
2026-01-06 09:46:38
廣東近兩日有弱冷空氣補充,氣溫小幅下降!早晚持續(xù)寒冷

廣東近兩日有弱冷空氣補充,氣溫小幅下降!早晚持續(xù)寒冷

南方都市報
2026-01-06 12:18:06
中央組織部從代中央管理黨費中劃撥4億元用于元旦春節(jié)期間走訪慰問生活困難黨員、老黨員、老干部

中央組織部從代中央管理黨費中劃撥4億元用于元旦春節(jié)期間走訪慰問生活困難黨員、老黨員、老干部

新京報
2026-01-05 14:32:04
胡歌帶田樸珺爬4200米財神山!田樸珺全程撒嬌,兩人互動更像情侶

胡歌帶田樸珺爬4200米財神山!田樸珺全程撒嬌,兩人互動更像情侶

好賢觀史記
2025-12-01 14:18:01
委內(nèi)瑞拉下令全國范圍內(nèi)抓內(nèi)鬼

委內(nèi)瑞拉下令全國范圍內(nèi)抓內(nèi)鬼

觀察者網(wǎng)
2026-01-06 11:49:35
中俄先進武器為何失靈?委內(nèi)瑞拉事件揭開現(xiàn)代戰(zhàn)爭核心邏輯

中俄先進武器為何失靈?委內(nèi)瑞拉事件揭開現(xiàn)代戰(zhàn)爭核心邏輯

創(chuàng)作者_b3jm
2026-01-03 22:47:03
從英超第二滑落至降級區(qū):賣主力“后遺癥”發(fā)作,還是賽程太難?

從英超第二滑落至降級區(qū):賣主力“后遺癥”發(fā)作,還是賽程太難?

里芃芃體育
2026-01-06 04:00:03
阿莫林因戰(zhàn)術(shù)分歧下課,巴薩切爾西雙喜臨門

阿莫林因戰(zhàn)術(shù)分歧下課,巴薩切爾西雙喜臨門

籃球看比賽
2026-01-06 12:41:51
這一仗徹底把中國打醒!美軍的狠毒的作戰(zhàn)方式,中國摸的很清楚了

這一仗徹底把中國打醒!美軍的狠毒的作戰(zhàn)方式,中國摸的很清楚了

史之銘
2025-12-12 19:23:56
影后辛芷蕾,這張照片攝影師得加雞腿,抓拍的太到位了

影后辛芷蕾,這張照片攝影師得加雞腿,抓拍的太到位了

徐幫陽
2025-12-23 18:33:38
2026-01-06 12:55:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
11974文章數(shù) 176356關(guān)注度
往期回顧 全部

科技要聞

速看!黃仁勛萬字實錄:甩出"物理AI"王牌

頭條要聞

鄧紫棋的科幻小說"入圍"銀河獎引熱議 其副業(yè)不只寫作

頭條要聞

鄧紫棋的科幻小說"入圍"銀河獎引熱議 其副業(yè)不只寫作

體育要聞

從NBA最菜首發(fā)控衛(wèi),到NBA最強喬治

娛樂要聞

朱媛媛遺作《小城大事》定檔1月10日

財經(jīng)要聞

丁一凡:中美進入相對穩(wěn)定的競爭共存期

汽車要聞

讓智駕能看懂真實世界 英偉達發(fā)布開源Alpamayo平臺

態(tài)度原創(chuàng)

時尚
房產(chǎn)
藝術(shù)
本地
公開課

冬天穿衣其實很簡單!上短下長、加點亮色,高級舒適又耐看

房產(chǎn)要聞

再次登頂海南樓市!超越阿那亞的,只有阿那亞!

藝術(shù)要聞

2026馬年趙孟頫高清集字春聯(lián)大放送,收藏備用!

本地新聞

云游內(nèi)蒙|初見呼和浩特,古今交融的北疆都會

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版