国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

英偉達(dá)力薦,小團(tuán)隊(duì)兩個(gè)月開源一款「光速級(jí)」智能體推理引擎

0
分享至



機(jī)器之心編輯部

智能體時(shí)代的核心是算力。

尤其是在 Coding Agent 爆發(fā)之后,算力問題變得前所未有地尖銳。Claude Code、Codex、Cursor 等產(chǎn)品正在把 AI 從「問答工具」變成「持續(xù)運(yùn)行的軟件協(xié)作者」,單次會(huì)話輕松突破 50K tokens,系統(tǒng)負(fù)載轉(zhuǎn)向了更極端、更復(fù)雜的智能體負(fù)載。

最近有關(guān)算力的大新聞層出不窮。今天的最新消息:馬斯克的 SpaceX 與 Anthropic 宣布達(dá)成了重磅協(xié)議,超過 22 萬(wàn)塊英偉達(dá) GPU 將為 Anthropic 所用。而 Anthropic 對(duì)與 SpaceX 合作開發(fā)未來的太空算力體系「表示有興趣」。

在如此龐大的算力需求下,除了開源還有節(jié)流。也是今天的最新消息:OpenAI 發(fā)布了多路徑可靠連接 (MRC),可幫助大型 AI 訓(xùn)練集群更快、更可靠地運(yùn)行,并減少 GPU 時(shí)間的浪費(fèi)。

我們知道,即便只是單 GPU 吞吐率上的微小提升,一旦應(yīng)用到生產(chǎn)級(jí)集群中,也能夠在服務(wù)持續(xù)增長(zhǎng)需求的同時(shí),節(jié)約相當(dāng)可觀的算力。

來自 LightSeek Foundation 的一個(gè)小團(tuán)隊(duì),在兩個(gè)月時(shí)間內(nèi)打造了一個(gè)全新的,號(hào)稱「光速」的大模型推理引擎 TokenSpeed。



這一引擎擁有TensorRT LLM 級(jí)別的性能,vLLM 級(jí)別的易用性。并且擁有 NVIDIA Blackwell 上最快的 MLA 注意力內(nèi)核。

一經(jīng)發(fā)布,TokenSpeed 就受到了英偉達(dá)發(fā)推文力薦。



目前,該引擎已經(jīng)開源。讓我們參閱其技術(shù)博客,來深入了解「光速」引擎的技術(shù)細(xì)節(jié)。



  • 博客標(biāo)題:TokenSpeed: A Speed-of-Light LLM Inference Engine for Agentic Workloads
  • 博客鏈接:https://lightseek.org/blog/lightseek-tokenspeed.html
  • Github 鏈接:https://github.com/lightseekorg/tokenspeed

TokenSpeed 技術(shù)簡(jiǎn)介

TokenSpeed 從第一性原理出發(fā),專門為智能體推理場(chǎng)景設(shè)計(jì)。它為智能體負(fù)載提供接近「光速級(jí)」的推理能力,核心包括:基于編譯器的并行建模機(jī)制、高性能調(diào)度器、安全的 KV 資源復(fù)用約束、支持異構(gòu)加速器的可插拔分層 kernel 系統(tǒng),以及用于低開銷 CPU 側(cè)請(qǐng)求入口的 SMG 集成。

建模層采用本地 SPMD(Single Program, Multiple Data,單程序多數(shù)據(jù))設(shè)計(jì),在性能與易用性之間取得平衡。TokenSpeed 允許開發(fā)者在模塊邊界指定 I/O placement 注解。隨后,一個(gè)輕量級(jí)靜態(tài)編譯器會(huì)在模型構(gòu)建過程中自動(dòng)生成所需的 collective operation,從而無需手動(dòng)實(shí)現(xiàn)通信邏輯。

TokenSpeed 調(diào)度器將控制平面(control plane)與執(zhí)行平面(execution plane)解耦。

控制平面使用 C++ 實(shí)現(xiàn),并被構(gòu)建為一個(gè)有限狀態(tài)機(jī)(FSM),結(jié)合類型系統(tǒng),在編譯期而非運(yùn)行期強(qiáng)制執(zhí)行安全資源管理,包括 KV cache 狀態(tài)轉(zhuǎn)移與使用。請(qǐng)求生命周期、KV cache 資源以及重疊執(zhí)行時(shí)序,都通過顯式 FSM 狀態(tài)遷移與所有權(quán)語(yǔ)義進(jìn)行表示,因此系統(tǒng)正確性并非依賴約定,而是由一個(gè)可驗(yàn)證的控制系統(tǒng)來保證。

執(zhí)行平面則使用 Python 實(shí)現(xiàn),以保持開發(fā)效率,使研究人員與工程師能夠更快進(jìn)行功能迭代,并降低整體認(rèn)知負(fù)載。

TokenSpeed 的 kernel 層將 kernel 從核心引擎中解耦,并將其視為一級(jí)模塊化子系統(tǒng)。它提供了可移植的公共 API、集中的注冊(cè)與選擇機(jī)制、組織良好的實(shí)現(xiàn)結(jié)構(gòu)、面向異構(gòu)加速器的可擴(kuò)展插件機(jī)制、經(jīng)過整理的依賴體系,以及統(tǒng)一的快速迭代基礎(chǔ)設(shè)施。

與此同時(shí),團(tuán)隊(duì)還針對(duì) NVIDIA Blackwell 架構(gòu)進(jìn)行了大量性能優(yōu)化。例如,他們構(gòu)建了當(dāng)前智能體負(fù)載場(chǎng)景下速度最快的 MLA(Multi-head Latent Attention,多頭潛在注意力)kernel 之一。在 decode kernel 中,由于部分場(chǎng)景下「num_heads」較小,團(tuán)隊(duì)通過對(duì)「q_seqlen」與「num_heads」進(jìn)行分組,以更充分利用 Tensor Core 的計(jì)算能力。而 binary prefill kernel 則包含了經(jīng)過精細(xì)調(diào)優(yōu)的 softmax 實(shí)現(xiàn)。

目前,TokenSpeed MLA 已被 vLLM 采用。

TokenSpeed 性能預(yù)覽

Coding Agents(編碼智能體)帶來了異常嚴(yán)苛的推理工作負(fù)載,上下文通常會(huì)超過 50K tokens,對(duì)話也經(jīng)??缭綌?shù)十輪。大多數(shù)公開基準(zhǔn)測(cè)試并不能充分捕捉這種行為。

研發(fā)團(tuán)隊(duì)與 EvalScope 團(tuán)隊(duì)一起,基于 SWE-smith 軌跡對(duì) TokenSpeed 進(jìn)行評(píng)估,這些軌跡密切反映了生產(chǎn)環(huán)境中 Coding Agents 的流量情況。由于生成速度對(duì) Agent 的用戶體驗(yàn)至關(guān)重要,因此,團(tuán)隊(duì)的目標(biāo)是在維持單用戶 TPS(每秒 token 數(shù))下限的同時(shí),最大化單 GPU 的 TPM(每分鐘 token 數(shù))—— 通常是 70 TPS,有時(shí)是 200 TPS 或更高。

此外,研發(fā)團(tuán)隊(duì)針對(duì) TensorRT-LLM(目前 NVIDIA Blackwell 平臺(tái)上的最高水平)對(duì)這一設(shè)計(jì)進(jìn)行了基準(zhǔn)測(cè)試,并在認(rèn)為針對(duì) Agentic workloads 存在更好權(quán)衡的地方,采取了與之不同的設(shè)計(jì)方案。

下圖展示了在不同部署配置下(無 PD 解耦),TokenSpeed 與 TensorRT-LLM 的 Kimi K2.5 性能帕累托曲線(Pareto curves)。

每條曲線都以 TPS/User(橫軸)作為延遲指標(biāo),以 TPM/GPU(縱軸)作為吞吐指標(biāo),并通過掃描并發(fā)數(shù)繪制而成。對(duì)于 Coding Agents(高于 70 TPS/User),最佳配置是 Attention TP4 + MoE TP4。

在這一配置下,TokenSpeed 在整個(gè)帕累托前沿上均優(yōu)于 TensorRT-LLM:在最低延遲場(chǎng)景下(batch size 1)大約快 9%,在 100 TPS/User 附近吞吐量大約高 11%。



團(tuán)隊(duì)表示,他們的核心優(yōu)化之一是 TokenSpeed MLA。下圖對(duì)比了 TokenSpeed MLA 與 TensorRT-LLM 的 MLA,后者是目前 NVIDIA Blackwell 上的 SoTA。



可以看出來,優(yōu)化后的二進(jìn)制版本預(yù)填充內(nèi)核(prefill kernel),使用 NVIDIA 內(nèi)部旋鈕來微調(diào) softmax 實(shí)現(xiàn),在 Coding Agents 的五種典型預(yù)填充工作負(fù)載(帶長(zhǎng)前綴 KV cache 的 prefill)中,都超過了 TensorRT-LLM 的 MLA。解碼內(nèi)核則將查詢序列軸折疊進(jìn)頭軸,以更好地填充 BMM1 的 M tile,從而提升 Tensor Core 利用率。

結(jié)合其他優(yōu)化,在帶有 speculative decoding 的典型解碼工作負(fù)載中(batch size 為 4、8、16,且?guī)чL(zhǎng)前綴 KV cache),這使得相對(duì)于 TensorRT-LLM 來說,延遲幾乎降低了一半。

最后,研發(fā)團(tuán)隊(duì)也表示,該項(xiàng)目于 2026 年 3 月中旬啟動(dòng)開發(fā),雖然目前展示了驚人的性能,但仍有大量底層代碼(如 PD 分離、KV 存儲(chǔ)等)正在合并和完善中,接下來將繼續(xù)推進(jìn)。

從上述性能表現(xiàn)來看,不難看出,TokenSpeed 的出現(xiàn)旨在通過更現(xiàn)代化的架構(gòu)設(shè)計(jì),打破傳統(tǒng)推理框架在易用性與極致性能之間的平衡點(diǎn),為大規(guī)模 Agent 部署提供了一個(gè)高性能、開源的底座。而英偉達(dá)的力薦,也說明推理引擎正在成為 Agent 時(shí)代基礎(chǔ)設(shè)施競(jìng)爭(zhēng)的一個(gè)新焦點(diǎn)。

更多信息,請(qǐng)參閱原博客!

https://x.com/lightseekorg/status/2052048105412141376

https://x.com/NVIDIAAI/status/2052061195381911806

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
白人女性與黑人女性的體味差異,網(wǎng)友真實(shí)分享引發(fā)熱議

白人女性與黑人女性的體味差異,網(wǎng)友真實(shí)分享引發(fā)熱議

特約前排觀眾
2025-12-22 00:20:06
十年前,易建聯(lián)花1000萬(wàn)在洛杉磯買下豪宅,如今出售市值多少?

十年前,易建聯(lián)花1000萬(wàn)在洛杉磯買下豪宅,如今出售市值多少?

小蘭聊歷史
2026-04-26 08:44:22
國(guó)企機(jī)關(guān)化帶來的問題,已經(jīng)愈來愈嚴(yán)重了

國(guó)企機(jī)關(guān)化帶來的問題,已經(jīng)愈來愈嚴(yán)重了

細(xì)說職場(chǎng)
2026-05-07 13:25:20
王海稱胖東來套取國(guó)家補(bǔ)貼資金,情節(jié)嚴(yán)重負(fù)責(zé)人可承擔(dān)刑事責(zé)任

王海稱胖東來套取國(guó)家補(bǔ)貼資金,情節(jié)嚴(yán)重負(fù)責(zé)人可承擔(dān)刑事責(zé)任

映射生活的身影
2026-05-06 23:38:17
女子趁男友熟睡 偷偷通過人臉識(shí)別解鎖其手機(jī) 刷臉21次盜轉(zhuǎn)27萬(wàn)余元 女子已被刑拘

女子趁男友熟睡 偷偷通過人臉識(shí)別解鎖其手機(jī) 刷臉21次盜轉(zhuǎn)27萬(wàn)余元 女子已被刑拘

閃電新聞
2026-05-07 10:24:02
李敏因生病入住301醫(yī)院,護(hù)士得知她是毛主席的女兒,開了個(gè)玩笑

李敏因生病入住301醫(yī)院,護(hù)士得知她是毛主席的女兒,開了個(gè)玩笑

翠羽
2026-04-29 08:50:11
置換了2輛車,才知道舊車賣給給4S店和車販子的差別,都是真心話

置換了2輛車,才知道舊車賣給給4S店和車販子的差別,都是真心話

侃故事的阿慶
2026-05-07 07:27:26
波波維奇出山!馬刺133-95狂勝森林狼,誰(shuí)是贏球功臣?數(shù)據(jù)不說謊

波波維奇出山!馬刺133-95狂勝森林狼,誰(shuí)是贏球功臣?數(shù)據(jù)不說謊

毒舌NBA
2026-05-07 12:24:32
南宋為洗靖康之恥有多狠?700萬(wàn)金人僅剩10萬(wàn),辱金后還留一畫作

南宋為洗靖康之恥有多狠?700萬(wàn)金人僅剩10萬(wàn),辱金后還留一畫作

掠影后有感
2026-05-07 10:01:40
《陳翔六點(diǎn)半》人走茶涼,賺不到錢球球退出,根本原因早就注定了

《陳翔六點(diǎn)半》人走茶涼,賺不到錢球球退出,根本原因早就注定了

汪巗的創(chuàng)業(yè)之路
2026-05-06 12:26:17
歐冠狂歡夜:凱恩補(bǔ)時(shí)破門絕平 拜仁5-6遭巴黎淘汰 決賽對(duì)陣誕生

歐冠狂歡夜:凱恩補(bǔ)時(shí)破門絕平 拜仁5-6遭巴黎淘汰 決賽對(duì)陣誕生

侃球熊弟
2026-05-07 03:57:40
蘋果新品上架,5月8日,正式開售

蘋果新品上架,5月8日,正式開售

科技堡壘
2026-05-06 12:16:23
手球不判 兩黃不罰 越位硬吹 VAR裝睡!拜仁輸給了1只看不見的手

手球不判 兩黃不罰 越位硬吹 VAR裝睡!拜仁輸給了1只看不見的手

看透足球?qū)?/span>
2026-05-07 05:53:52
央視不播世界杯?萬(wàn)達(dá)出局3中國(guó)贊助商恐成最大輸家:34億打水漂

央視不播世界杯?萬(wàn)達(dá)出局3中國(guó)贊助商恐成最大輸家:34億打水漂

念洲
2026-05-07 11:04:47
伊朗外長(zhǎng)向中方通報(bào)伊美談判情況,中方:全面止戰(zhàn)刻不容緩,重啟戰(zhàn)端更不可取,堅(jiān)持談判尤為重要

伊朗外長(zhǎng)向中方通報(bào)伊美談判情況,中方:全面止戰(zhàn)刻不容緩,重啟戰(zhàn)端更不可取,堅(jiān)持談判尤為重要

環(huán)球網(wǎng)資訊
2026-05-07 06:48:13
黃仁勛很生氣:中國(guó)芯片用“落后”7nm工藝,搶走了英偉達(dá)50%市場(chǎng)

黃仁勛很生氣:中國(guó)芯片用“落后”7nm工藝,搶走了英偉達(dá)50%市場(chǎng)

科技專家
2026-05-07 11:39:11
終于理解王京花了,就沖孫怡吃飯的這個(gè)樣子,沒幾個(gè)婆婆能喜歡

終于理解王京花了,就沖孫怡吃飯的這個(gè)樣子,沒幾個(gè)婆婆能喜歡

西樓知趣雜談
2026-05-06 10:58:39
一塊H200芯片都沒賣出去!黃仁勛不裝了:中國(guó)不應(yīng)獲得最先進(jìn)芯片

一塊H200芯片都沒賣出去!黃仁勛不裝了:中國(guó)不應(yīng)獲得最先進(jìn)芯片

混沌錄
2026-05-06 16:51:09
突發(fā)異動(dòng)!300868,強(qiáng)勢(shì)20%漲停!002384,超27億主力資金凈流入!

突發(fā)異動(dòng)!300868,強(qiáng)勢(shì)20%漲停!002384,超27億主力資金凈流入!

證券時(shí)報(bào)e公司
2026-05-07 12:20:59
吳宜澤名下臺(tái)球館人流量暴增,接受“臺(tái)球皇帝”專訪時(shí)談奧沙利文,在比賽時(shí)他曾發(fā)私信“支招”

吳宜澤名下臺(tái)球館人流量暴增,接受“臺(tái)球皇帝”專訪時(shí)談奧沙利文,在比賽時(shí)他曾發(fā)私信“支招”

極目新聞
2026-05-06 16:55:05
2026-05-07 16:51:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12937文章數(shù) 142644關(guān)注度
往期回顧 全部

科技要聞

月之暗面完成20億美元融資,估值突破200億

頭條要聞

費(fèi)高云落馬:任市委書記僅一年多 曾因爆炸事故被問責(zé)

頭條要聞

費(fèi)高云落馬:任市委書記僅一年多 曾因爆炸事故被問責(zé)

體育要聞

巴黎再進(jìn)歐冠決賽,最尷尬的情況還是發(fā)生了

娛樂要聞

小S阿雅重返大S母校,翻看大S畢業(yè)照

財(cái)經(jīng)要聞

特朗普:美伊“很有可能”達(dá)成協(xié)議

汽車要聞

理想為什么不做轎車,有了解釋……

態(tài)度原創(chuàng)

教育
手機(jī)
家居
本地
藝術(shù)

教育要聞

再說一次:這其實(shí)是幾何題

手機(jī)要聞

蘋果畫餅AI功能被罰17億!中國(guó)用戶一分都沒有?

家居要聞

破繭成蝶 土味精裝房爆改

本地新聞

用青花瓷的方式,打開西溪濕地

藝術(shù)要聞

這位老教授筆下的青年,活力滿滿

無障礙瀏覽 進(jìn)入關(guān)懷版