国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

黃仁勛喊出“推理拐點”,邊緣推理的機會窗口打開了嗎

0
分享至

上周,紐約時報報道了硅谷一個新風(fēng)氣叫 tokenmaxxing,Meta 和 OpenAI 的工程師在內(nèi)部搞 token 消耗量排行榜,比誰燒得多。黃仁勛在 GTC 2026 上更激進,提議企業(yè)給工程師發(fā) token 預(yù)算,作為工資之外的第二份薪酬。

OpenAI 的數(shù)據(jù)則顯示,過去一年企業(yè)客戶的推理 token 消耗量暴漲了約 320 倍。

需求側(cè)在爆炸。供給側(cè)呢?

黃仁勛在同一場 keynote 上搬出了 Tokenomics 這個概念,把它從加密貨幣的語境里拎出來,重新定義為 AI 推理的經(jīng)濟學(xué)。核心指標(biāo)叫 Tokens per Watt,衡量每瓦特電力能產(chǎn)出多少 token。他說推理拐點已經(jīng)到了,NVIDIA 預(yù)計 Blackwell 和 Vera Rubin 芯片訂單量到 2027 年將達到 1 萬億美元。

國內(nèi)大模型廠商一直在講類似的事情,只是換了說法叫“推理成本”或者“token 單價”。不管哪種說法,指向的問題是一樣的,當(dāng) token 變成 AI 時代的水電煤,誰來建發(fā)電廠和電網(wǎng)?

過去三年,行業(yè)給出的答案是,建更大的數(shù)據(jù)中心,塞更多的 GPU。這在訓(xùn)練時代完全成立。但推理和訓(xùn)練的邏輯不同。訓(xùn)練一個模型是一次性工程,推理要做幾十億次,而且對延遲極度敏感。當(dāng)推理請求像洪水一樣涌來,把所有 GPU 集中在幾個超大數(shù)據(jù)中心里,可能恰恰成了瓶頸。

瓶頸不在算力,在物理。具體來說,在光速。

推理時代撞上“光速墻”

在今年 GTC 上,有一家公司對這個問題給出了非常系統(tǒng)的回答。

Akamai,國內(nèi)讀者可能不太熟悉這個名字,但在海外,它是 CDN 概念的開創(chuàng)者,也是目前全球最大的分布式計算平臺,擁有業(yè)內(nèi)最龐大的邊緣節(jié)點網(wǎng)絡(luò)。1998 年成立,全球前十的視頻流媒體平臺、游戲公司、銀行基本都是它的客戶。全球擁有超過 4400 個邊緣入網(wǎng)點,覆蓋 130 多個國家,承載全球近三分之一的互聯(lián)網(wǎng)流量。

這家公司在近三十年里經(jīng)歷了三次轉(zhuǎn)型,從 CDN 到安全,再到云計算和 AI。今年 GTC 上,它帶來了兩個 session,核心主題只有一個,為什么 AI 推理必須走向分布式。

Akamai CTO Office 的 SVP Andy Champagne 在 session 上描述了一個“個人 AI 導(dǎo)播”的場景,非常有畫面感。一場 F1 比賽有 20 多個 4K 機位同時在拍,傳統(tǒng)做法是導(dǎo)播間一個人切鏡頭,幾百萬觀眾看到的畫面一模一樣。但如果每個觀眾都能看到根據(jù)自己偏好定制的直播流,喜歡的車手、偏愛的鏡頭角度,那就需要在邊緣實時合成個性化的視頻。幾百萬路不同的 4K 視頻流,不可能從一個數(shù)據(jù)中心統(tǒng)一往外推。



類似的邏輯出現(xiàn)在越來越多的實時場景里。

游戲 NPC 需要在 50 毫秒內(nèi)響應(yīng),超過這個閾值玩家體感明顯卡頓。Akamai 產(chǎn)品管理 VP Shawn Michels 在另一個 session 舉了實時廣告插入的例子,從掃描視頻、識別廣告位、競價、生成個性化廣告到拼回視頻流,整條鏈路的預(yù)算只有 100 毫秒。這恰恰是 Akamai 的先天優(yōu)勢所在,它在全球已有超過 4400 個邊緣節(jié)點,這種“就近處理”的能力不是純云廠商從零搭建能輕易追上的。

同樣的延遲壓力還存在于 AI 語音助手、電商推薦引擎、智能試衣間、自動駕駛傳感器處理和工業(yè)產(chǎn)線質(zhì)檢等場景中。AI 一旦嵌入實時應(yīng)用,就必須繼承那個應(yīng)用原本的延遲要求。

物理定律不會因為 GPU 更快就網(wǎng)開一面。光在光纖中每秒約跑 20 萬公里,從倫敦到美東數(shù)據(jù)中心單程延遲約 28 毫秒,往返就是 56 毫秒。從東京出發(fā)更遠,往返約 134 毫秒。這還沒算任何計算時間。

回頭看上面那些場景的延遲要求,不難理解為什么把推理全部扔到少數(shù)幾個集中式數(shù)據(jù)中心里是行不通的。

延遲之外還有帶寬。Andy 在 session 里算了一筆賬,同樣 1GW 的算力,如果集中在一個數(shù)據(jù)中心用 Blackwell 做視頻推理,出口帶寬需求是 75 Tbit/s。分布到 20 個區(qū)域節(jié)點,每個只需 3.75 Tbit/s。集中式的出口流量是分布式的 20 倍,背后的網(wǎng)絡(luò)成本差距不言而喻。

如果換成下一代 Vera Rubin,集中式的出口帶寬更是飆到 135 Tbit/s。芯片越快,集中式架構(gòu)的出口瓶頸反而越嚴重。

在同一個 session 上,Comcast負責(zé) AI 與邊緣計算方向的嘉賓從排隊論的角度做了更嚴謹?shù)姆治觥T谙嗤?GPU、相同模型的條件下,集中式和分布式部署之間僅僅 14 毫秒的往返延遲差異,就導(dǎo)致了約 30% 的 GPU 利用率差距。

他的原話是,“這是物理定律層面的優(yōu)勢,沒法靠 batching 或者提高 tokens/s 來彌補?!?/p>



一個近三十年的伏筆

Andy 在 session 上做了一個很有意思的類比,把 AI 的發(fā)展時間線和互聯(lián)網(wǎng)做對齊來看。互聯(lián)網(wǎng)的普及率已經(jīng)超過 95%,AI 目前大約只有 7%。他的判斷是,AI 現(xiàn)在大概處于互聯(lián)網(wǎng)的 MySpace 時代。

想想 MySpace 之后又誕生了多少公司、多少市值、多少技術(shù)突破。AI 的好戲才剛剛開始。

這個類比其實點出了 Akamai 做分布式推理的底層邏輯。近三十年前這家公司解決的問題和今天面對的問題,結(jié)構(gòu)上是一樣的,把集中的東西變成分布的。當(dāng)年分發(fā)的是網(wǎng)頁和視頻,現(xiàn)在分發(fā)的是 AI 推理。方法論一脈相承。

他在 session 結(jié)尾說了兩句話,頗能概括這種邏輯,“AI 工廠創(chuàng)造智能,AI Grid 分發(fā)智能”,以及“沒有分布式推理的 AI,就像沒有 CDN 的互聯(lián)網(wǎng)”。



GTC 期間,NVIDIA 官方將 Akamai Cloud 和 AWS 一起列為首批提供 RTX PRO Blackwell Server Edition 實例的云服務(wù)商。黃仁勛 keynote 展示的合作伙伴 logo 墻上,Akamai 赫然在列。NVIDIA 電信業(yè)務(wù)全球副總裁 Chris Penrose 評價說,Akamai 通過運營 AI Grid,正在為生成式 AI、AI Agent 和物理 AI 構(gòu)建連接組織,將智能直接推送到數(shù)據(jù)所在的地方。

Akamai 也在 GTC 上正式發(fā)布了業(yè)界首個全球規(guī)模落地 NVIDIA AI Grid 參考架構(gòu)的方案,將 NVIDIA AI 基礎(chǔ)設(shè)施深度集成到自身的分布式網(wǎng)絡(luò)中。這不是一個松散的合作。Akamai 是首家將 AI Grid 從概念推到運營級別的廠商,底層跑的是 NVIDIA AI Enterprise 軟件棧、Blackwell 架構(gòu) GPU 和 BlueField DPU 加速網(wǎng)絡(luò)的完整技術(shù)棧。

推理基礎(chǔ)設(shè)施的幾個現(xiàn)實問題

回到地面,對于正在考慮推理部署的 AI 團隊,有幾個繞不開的現(xiàn)實問題。

不是所有推理都需要 H100。 這個認知正在被越來越多團隊接受。H100 為訓(xùn)練和大規(guī)模推理而生,但如果跑的是 8B 參數(shù)的模型、做的是語音交互或者視頻分析,用 H100 就像開卡車送外賣。

Akamai 目前部署的 RTX PRO 6000 Blackwell Server Edition 是一個值得關(guān)注的選項。直接看 Token 經(jīng)濟,$2.50/小時全包價,每美元 Token 產(chǎn)出是同類方案的 2.1 倍。

性能層面,這張卡配了 96GB GDDR7 顯存和 4,000 TOPS FP4 算力,在 NVFP4 精度下推理吞吐量比 H100 高出 60% 以上,對比上一代 RTX 4000 Ada 提升達 19 倍。另一個容易被忽略的差異是視頻處理能力,RTX PRO 6000 原生支持 112 到 132 路視頻編解碼,如果做的是視覺 AI 相關(guān)的產(chǎn)品,這個能力是定位于訓(xùn)練和超算的 H100 不具備的。

再加上風(fēng)冷設(shè)計,在邊緣機房有限的空間和功耗條件下部署門檻低得多。Shawn Michels 在 GTC session 里的觀點說的是未來的推理基礎(chǔ)設(shè)施一定是混合架構(gòu),不同 GPU 匹配不同的工作負載,沒有萬能卡。

Egress 費用是隱性殺手。 很多團隊做預(yù)算時只看 GPU 租用價格,忽略了數(shù)據(jù)出站費。AI 產(chǎn)品服務(wù)全球用戶,視頻和模型響應(yīng)產(chǎn)生的出站流量成本可能比 GPU 本身還貴。

邊緣部署的經(jīng)濟邏輯之一正在于此,推理結(jié)果在本地生成、本地交付,不用跨大半個地球回傳。Akamai 的 egress 價格是 $0.005/GB,和三大云廠商的差距非常明顯。

調(diào)度比算力更難。 GPU 散到全球各地只是第一步,更難的是讓每個請求找到最合適的那臺機器。Akamai 在 GTC 上展示了他們的 AI 編排器(Orchestrator),這不是傳統(tǒng)的根據(jù)延遲和負載來分配流量的負載均衡。

它會考慮模型親和性(哪臺機器已經(jīng)加載了需要的模型)、GPU 顯存占用、KV Cache 狀態(tài)等 AI 場景特有的因素來做實時路由決策?,F(xiàn)場 demo 中,推理請求從巴黎節(jié)點實時切換到加州節(jié)點,用戶側(cè)完全無感知。這背后是 Akamai 做了近三十年流量調(diào)度的老本行,在 AI 場景上的自然延續(xù)。

目前 Akamai 的 Blackwell GPU 節(jié)點已覆蓋歐洲、亞太和美洲共 19 個節(jié)點,配合 4400 多個邊緣入網(wǎng)點協(xié)同工作。對于出海的 AI 團隊來說,東京、新加坡、孟買、雅加達這些亞太節(jié)點尤其值得留意。



出海 AI 創(chuàng)業(yè)者的第三種選擇

Akamai 從 CDN 到安全,再到云計算和 AI 推理的轉(zhuǎn)型路徑,本身就是互聯(lián)網(wǎng)基礎(chǔ)設(shè)施演進的一個切面。它在這條賽道上的差異化在于,不是從零建數(shù)據(jù)中心,而是把已經(jīng)運行了近三十年的全球分布式網(wǎng)絡(luò)變成了 AI 推理的底座。

這步棋能走多遠,取決于它能不能跟上 AI 硬件更新的速度,也取決于邊緣推理的市場需求能否如預(yù)期般爆發(fā)。

但對中國出海 AI 創(chuàng)業(yè)者來說,一件事正在變得越來越清楚,全球化部署推理能力正在從“以后再說”變成“現(xiàn)在就得解決”。

合規(guī)(數(shù)據(jù)主權(quán)、不出境)、延遲(用戶體驗的硬門檻)、成本(egress 和 GPU 租用的真實賬單),這是出海時最現(xiàn)實的三座山。Akamai 的邊緣推理平臺提供了一種此前不太存在的選擇,不必自建全球基礎(chǔ)設(shè)施,也不必把雞蛋全放在幾家超大規(guī)模云上,而是可以借助一張已經(jīng)覆蓋 130 多個國家的分布式網(wǎng)絡(luò),把推理跑到離用戶最近的地方去。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
四川37歲主持人熹菲去世,前夫家暴賭博,為還債搏命賺錢還酗酒

四川37歲主持人熹菲去世,前夫家暴賭博,為還債搏命賺錢還酗酒

觀察鑒娛
2026-05-03 14:09:27
14歲少女被首富10億娶回家,8年連生四胎成母親

14歲少女被首富10億娶回家,8年連生四胎成母親

最美的筆觸
2026-05-02 17:56:34
西班牙25歲芭蕾舞演員赴日旅游,摸完奈良鹿后,發(fā)燒嘔吐半年,確診萊姆?。≡巴鄠€國家求醫(yī),如今幾乎無法下床

西班牙25歲芭蕾舞演員赴日旅游,摸完奈良鹿后,發(fā)燒嘔吐半年,確診萊姆?。≡巴鄠€國家求醫(yī),如今幾乎無法下床

都市快報橙柿互動
2026-05-03 12:38:36
大量游客夜爬泰山突遇降雨大風(fēng),廁所擠滿過夜的人,有商鋪售夜間休息位60元到100元,景區(qū):建議出行前關(guān)注天氣

大量游客夜爬泰山突遇降雨大風(fēng),廁所擠滿過夜的人,有商鋪售夜間休息位60元到100元,景區(qū):建議出行前關(guān)注天氣

極目新聞
2026-05-03 13:38:50
三度登頂!張雪車隊陜西燒烤攤慶功全場買單,將在當(dāng)?shù)卣鲬?zhàn)越野賽事

三度登頂!張雪車隊陜西燒烤攤慶功全場買單,將在當(dāng)?shù)卣鲬?zhàn)越野賽事

上游新聞
2026-05-03 13:07:07
男童在溫州一野生景點徒步時落水,34歲父親營救時不幸遇難,救援人員:水潭深約8米,人打撈上來就沒了

男童在溫州一野生景點徒步時落水,34歲父親營救時不幸遇難,救援人員:水潭深約8米,人打撈上來就沒了

極目新聞
2026-05-03 15:24:57
痛心!安徽19歲失聯(lián)小伙遺體找到,生前邀父吃最后晚餐 細節(jié)曝光

痛心!安徽19歲失聯(lián)小伙遺體找到,生前邀父吃最后晚餐 細節(jié)曝光

社會日日鮮
2026-05-03 10:11:16
知名女主持人熹菲抗癌10年不幸去世,年僅37歲,去年曾許愿再活5年

知名女主持人熹菲抗癌10年不幸去世,年僅37歲,去年曾許愿再活5年

極目新聞
2026-05-03 07:37:27
爆冷!中國男團遭遇26年來世乒賽首?。?-3不敵韓國隊 王楚欽缺陣

爆冷!中國男團遭遇26年來世乒賽首?。?-3不敵韓國隊 王楚欽缺陣

風(fēng)過鄉(xiāng)
2026-05-03 06:12:32
女子睡夢中184萬被自動捐給三家慈善機構(gòu),支付寶回應(yīng)令人震驚。

女子睡夢中184萬被自動捐給三家慈善機構(gòu),支付寶回應(yīng)令人震驚。

一絲不茍的法律人
2026-05-02 23:26:44
波爾圖慶祝奪冠時從高臺上往下扔了一個西瓜,差點把保安砸到

波爾圖慶祝奪冠時從高臺上往下扔了一個西瓜,差點把保安砸到

懂球帝
2026-05-03 11:09:33
朝鮮援俄傷亡慘重,慘烈程度遠超預(yù)期!遠超現(xiàn)代戰(zhàn)爭崩潰閾值

朝鮮援俄傷亡慘重,慘烈程度遠超預(yù)期!遠超現(xiàn)代戰(zhàn)爭崩潰閾值

嫹筆牂牂
2026-05-02 19:19:39
5月19日!新機官宣:8.1英寸+165Hz+4K,全球首發(fā)!

5月19日!新機官宣:8.1英寸+165Hz+4K,全球首發(fā)!

科技堡壘
2026-05-01 02:00:10
巴勒斯坦公布選舉結(jié)果,哈馬斯被排除在外,加沙18年統(tǒng)治正式落幕

巴勒斯坦公布選舉結(jié)果,哈馬斯被排除在外,加沙18年統(tǒng)治正式落幕

流史歲月
2026-05-01 12:00:22
停課一年!大學(xué)老師因說歐洲好被學(xué)生舉報:從此課堂只念PPT

停課一年!大學(xué)老師因說歐洲好被學(xué)生舉報:從此課堂只念PPT

教師吧
2026-05-03 12:51:55
張雪振臂高呼+連續(xù)爆粗口!兩口干完大半杯啤酒 怒懟噴子:誰不服

張雪振臂高呼+連續(xù)爆粗口!兩口干完大半杯啤酒 怒懟噴子:誰不服

風(fēng)過鄉(xiāng)
2026-05-03 00:00:23
突然,暴跌!日本,突傳大消息!

突然,暴跌!日本,突傳大消息!

證券時報
2026-05-02 18:40:20
河水莫名變紅,環(huán)保博主稱取樣檢測后,有人半夜敲門要“談一談”;警方:系鎮(zhèn)政府工作人員

河水莫名變紅,環(huán)保博主稱取樣檢測后,有人半夜敲門要“談一談”;警方:系鎮(zhèn)政府工作人員

大風(fēng)新聞
2026-05-03 14:41:04
柳州發(fā)生刑案致4死1傷,警方稱1名死者有重大嫌疑,居民:當(dāng)晚來了不少警車,事發(fā)地為老舊住宅區(qū)

柳州發(fā)生刑案致4死1傷,警方稱1名死者有重大嫌疑,居民:當(dāng)晚來了不少警車,事發(fā)地為老舊住宅區(qū)

極目新聞
2026-05-03 13:46:23
對不起殲一20,F(xiàn)一35和F一47,法國超級達索和陳風(fēng)戰(zhàn)斗機只有一個

對不起殲一20,F(xiàn)一35和F一47,法國超級達索和陳風(fēng)戰(zhàn)斗機只有一個

林子說事
2026-05-02 22:47:28
2026-05-03 15:48:49
硅星人 incentive-icons
硅星人
硅(Si)是創(chuàng)造未來的基礎(chǔ),歡迎來到這個星球。
3054文章數(shù) 10493關(guān)注度
往期回顧 全部

科技要聞

庫克罕見"拒答"!蘋果正被AI供應(yīng)鏈卡脖子

頭條要聞

上??萍即髮W(xué)王晨輝教授因營救至親溺水遇險 年僅39歲

頭條要聞

上海科技大學(xué)王晨輝教授因營救至親溺水遇險 年僅39歲

體育要聞

裁判準(zhǔn)備下班,結(jié)果吳宜澤進了決賽

娛樂要聞

蔡卓妍婚后首現(xiàn)身 戴結(jié)婚戒指笑容不斷

財經(jīng)要聞

后巴菲特時代,首場股東會透露了啥

汽車要聞

同比大漲190% 方程豹4月銷量29138臺

態(tài)度原創(chuàng)

房產(chǎn)
家居
數(shù)碼
藝術(shù)
本地

房產(chǎn)要聞

五一樓市徹底明牌!塔尖人群都在重倉凱旋新世界

家居要聞

靈動實用 生活藝術(shù)場

數(shù)碼要聞

華為5A最新支持設(shè)備清單公布,含Pura X Max、暢享90系列等

藝術(shù)要聞

康生為何遠勝郭沫若?因為練過一部秘藏法帖

本地新聞

用青花瓷的方式,打開西溪濕地

無障礙瀏覽 進入關(guān)懷版