網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

英偉達(dá)力薦，小團(tuán)隊(duì)兩個(gè)月開源一款「光速級(jí)」智能體推理引擎

2026-05-07 15:06:46　來源: 機(jī)器之心Pro

河北舉報(bào)

分享至

機(jī)器之心編輯部

智能體時(shí)代的核心是算力。

尤其是在 Coding Agent 爆發(fā)之后，算力問題變得前所未有地尖銳。Claude Code、Codex、Cursor 等產(chǎn)品正在把 AI 從「問答工具」變成「持續(xù)運(yùn)行的軟件協(xié)作者」，單次會(huì)話輕松突破 50K tokens，系統(tǒng)負(fù)載轉(zhuǎn)向了更極端、更復(fù)雜的智能體負(fù)載。

最近有關(guān)算力的大新聞層出不窮。今天的最新消息：馬斯克的 SpaceX 與 Anthropic 宣布達(dá)成了重磅協(xié)議，超過 22 萬(wàn)塊英偉達(dá) GPU 將為 Anthropic 所用。而 Anthropic 對(duì)與 SpaceX 合作開發(fā)未來的太空算力體系「表示有興趣」。

在如此龐大的算力需求下，除了開源還有節(jié)流。也是今天的最新消息：OpenAI 發(fā)布了多路徑可靠連接 (MRC)，可幫助大型 AI 訓(xùn)練集群更快、更可靠地運(yùn)行，并減少 GPU 時(shí)間的浪費(fèi)。

我們知道，即便只是單 GPU 吞吐率上的微小提升，一旦應(yīng)用到生產(chǎn)級(jí)集群中，也能夠在服務(wù)持續(xù)增長(zhǎng)需求的同時(shí)，節(jié)約相當(dāng)可觀的算力。

來自 LightSeek Foundation 的一個(gè)小團(tuán)隊(duì)，在兩個(gè)月時(shí)間內(nèi)打造了一個(gè)全新的，號(hào)稱「光速」的大模型推理引擎 TokenSpeed。

這一引擎擁有TensorRT LLM 級(jí)別的性能，vLLM 級(jí)別的易用性。并且擁有 NVIDIA Blackwell 上最快的 MLA 注意力內(nèi)核。

一經(jīng)發(fā)布，TokenSpeed 就受到了英偉達(dá)發(fā)推文力薦。

目前，該引擎已經(jīng)開源。讓我們參閱其技術(shù)博客，來深入了解「光速」引擎的技術(shù)細(xì)節(jié)。

博客標(biāo)題：TokenSpeed: A Speed-of-Light LLM Inference Engine for Agentic Workloads
博客鏈接：https://lightseek.org/blog/lightseek-tokenspeed.html
Github 鏈接：https://github.com/lightseekorg/tokenspeed

TokenSpeed 技術(shù)簡(jiǎn)介

TokenSpeed 從第一性原理出發(fā)，專門為智能體推理場(chǎng)景設(shè)計(jì)。它為智能體負(fù)載提供接近「光速級(jí)」的推理能力，核心包括：基于編譯器的并行建模機(jī)制、高性能調(diào)度器、安全的 KV 資源復(fù)用約束、支持異構(gòu)加速器的可插拔分層 kernel 系統(tǒng)，以及用于低開銷 CPU 側(cè)請(qǐng)求入口的 SMG 集成。

建模層采用本地 SPMD（Single Program, Multiple Data，單程序多數(shù)據(jù)）設(shè)計(jì)，在性能與易用性之間取得平衡。TokenSpeed 允許開發(fā)者在模塊邊界指定 I/O placement 注解。隨后，一個(gè)輕量級(jí)靜態(tài)編譯器會(huì)在模型構(gòu)建過程中自動(dòng)生成所需的 collective operation，從而無需手動(dòng)實(shí)現(xiàn)通信邏輯。

TokenSpeed 調(diào)度器將控制平面（control plane）與執(zhí)行平面（execution plane）解耦。

控制平面使用 C++ 實(shí)現(xiàn)，并被構(gòu)建為一個(gè)有限狀態(tài)機(jī)（FSM），結(jié)合類型系統(tǒng)，在編譯期而非運(yùn)行期強(qiáng)制執(zhí)行安全資源管理，包括 KV cache 狀態(tài)轉(zhuǎn)移與使用。請(qǐng)求生命周期、KV cache 資源以及重疊執(zhí)行時(shí)序，都通過顯式 FSM 狀態(tài)遷移與所有權(quán)語(yǔ)義進(jìn)行表示，因此系統(tǒng)正確性并非依賴約定，而是由一個(gè)可驗(yàn)證的控制系統(tǒng)來保證。

執(zhí)行平面則使用 Python 實(shí)現(xiàn)，以保持開發(fā)效率，使研究人員與工程師能夠更快進(jìn)行功能迭代，并降低整體認(rèn)知負(fù)載。

TokenSpeed 的 kernel 層將 kernel 從核心引擎中解耦，并將其視為一級(jí)模塊化子系統(tǒng)。它提供了可移植的公共 API、集中的注冊(cè)與選擇機(jī)制、組織良好的實(shí)現(xiàn)結(jié)構(gòu)、面向異構(gòu)加速器的可擴(kuò)展插件機(jī)制、經(jīng)過整理的依賴體系，以及統(tǒng)一的快速迭代基礎(chǔ)設(shè)施。

與此同時(shí)，團(tuán)隊(duì)還針對(duì) NVIDIA Blackwell 架構(gòu)進(jìn)行了大量性能優(yōu)化。例如，他們構(gòu)建了當(dāng)前智能體負(fù)載場(chǎng)景下速度最快的 MLA（Multi-head Latent Attention，多頭潛在注意力）kernel 之一。在 decode kernel 中，由于部分場(chǎng)景下「num_heads」較小，團(tuán)隊(duì)通過對(duì)「q_seqlen」與「num_heads」進(jìn)行分組，以更充分利用 Tensor Core 的計(jì)算能力。而 binary prefill kernel 則包含了經(jīng)過精細(xì)調(diào)優(yōu)的 softmax 實(shí)現(xiàn)。

目前，TokenSpeed MLA 已被 vLLM 采用。

TokenSpeed 性能預(yù)覽

Coding Agents（編碼智能體）帶來了異常嚴(yán)苛的推理工作負(fù)載，上下文通常會(huì)超過 50K tokens，對(duì)話也經(jīng)?？缭綌?shù)十輪。大多數(shù)公開基準(zhǔn)測(cè)試并不能充分捕捉這種行為。

研發(fā)團(tuán)隊(duì)與 EvalScope 團(tuán)隊(duì)一起，基于 SWE-smith 軌跡對(duì) TokenSpeed 進(jìn)行評(píng)估，這些軌跡密切反映了生產(chǎn)環(huán)境中 Coding Agents 的流量情況。由于生成速度對(duì) Agent 的用戶體驗(yàn)至關(guān)重要，因此，團(tuán)隊(duì)的目標(biāo)是在維持單用戶 TPS（每秒 token 數(shù)）下限的同時(shí)，最大化單 GPU 的 TPM（每分鐘 token 數(shù)）—— 通常是 70 TPS，有時(shí)是 200 TPS 或更高。

此外，研發(fā)團(tuán)隊(duì)針對(duì) TensorRT-LLM（目前 NVIDIA Blackwell 平臺(tái)上的最高水平）對(duì)這一設(shè)計(jì)進(jìn)行了基準(zhǔn)測(cè)試，并在認(rèn)為針對(duì) Agentic workloads 存在更好權(quán)衡的地方，采取了與之不同的設(shè)計(jì)方案。

下圖展示了在不同部署配置下（無 PD 解耦），TokenSpeed 與 TensorRT-LLM 的 Kimi K2.5 性能帕累托曲線（Pareto curves）。

每條曲線都以 TPS/User（橫軸）作為延遲指標(biāo)，以 TPM/GPU（縱軸）作為吞吐指標(biāo)，并通過掃描并發(fā)數(shù)繪制而成。對(duì)于 Coding Agents（高于 70 TPS/User），最佳配置是 Attention TP4 + MoE TP4。

在這一配置下，TokenSpeed 在整個(gè)帕累托前沿上均優(yōu)于 TensorRT-LLM：在最低延遲場(chǎng)景下（batch size 1）大約快 9%，在 100 TPS/User 附近吞吐量大約高 11%。

團(tuán)隊(duì)表示，他們的核心優(yōu)化之一是 TokenSpeed MLA。下圖對(duì)比了 TokenSpeed MLA 與 TensorRT-LLM 的 MLA，后者是目前 NVIDIA Blackwell 上的 SoTA。

可以看出來，優(yōu)化后的二進(jìn)制版本預(yù)填充內(nèi)核（prefill kernel），使用 NVIDIA 內(nèi)部旋鈕來微調(diào) softmax 實(shí)現(xiàn)，在 Coding Agents 的五種典型預(yù)填充工作負(fù)載（帶長(zhǎng)前綴 KV cache 的 prefill）中，都超過了 TensorRT-LLM 的 MLA。解碼內(nèi)核則將查詢序列軸折疊進(jìn)頭軸，以更好地填充 BMM1 的 M tile，從而提升 Tensor Core 利用率。

結(jié)合其他優(yōu)化，在帶有 speculative decoding 的典型解碼工作負(fù)載中（batch size 為 4、8、16，且?guī)чL(zhǎng)前綴 KV cache），這使得相對(duì)于 TensorRT-LLM 來說，延遲幾乎降低了一半。

最后，研發(fā)團(tuán)隊(duì)也表示，該項(xiàng)目于 2026 年 3 月中旬啟動(dòng)開發(fā)，雖然目前展示了驚人的性能，但仍有大量底層代碼（如 PD 分離、KV 存儲(chǔ)等）正在合并和完善中，接下來將繼續(xù)推進(jìn)。

從上述性能表現(xiàn)來看，不難看出，TokenSpeed 的出現(xiàn)旨在通過更現(xiàn)代化的架構(gòu)設(shè)計(jì)，打破傳統(tǒng)推理框架在易用性與極致性能之間的平衡點(diǎn)，為大規(guī)模 Agent 部署提供了一個(gè)高性能、開源的底座。而英偉達(dá)的力薦，也說明推理引擎正在成為 Agent 時(shí)代基礎(chǔ)設(shè)施競(jìng)爭(zhēng)的一個(gè)新焦點(diǎn)。

更多信息，請(qǐng)參閱原博客！

https://x.com/lightseekorg/status/2052048105412141376

https://x.com/NVIDIAAI/status/2052061195381911806

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.