Token太貴，中國開源模型一夜之間霸榜了

2026-02-28 09:59:18　來源: 硅星人

北京舉報

分享至

文章轉(zhuǎn)載于騰訊科技
作者：曉靜

全球頭部AI模型API聚合平臺OpenRouter的數(shù)據(jù)顯示，2026年2月，中國AI模型的調(diào)用量三周大漲127%，首次超越美國模型，全球前五中占據(jù)四席。

最新的2月16日至22日的周榜單中，平臺調(diào)用量排名前五的模型中，有四款來自中國廠商，包括MiniMax的M2.5、月之暗面的Kimi K2.5、智譜的GLM-5、DeepSeek的V3.2。這四款模型合計貢獻(xiàn)了Top 5總調(diào)用量的85.7%。

一年前，中國模型在這個平臺上的份額不到2%。

圖：從2024年11月到2025年11月的周度Token總量堆疊柱狀圖。深紅色=閉源模型，橙色=中國開源模型，藍(lán)綠色=其他地區(qū)開源模型。能清晰看到中國開源模型（橙色）從幾乎不可見到逐漸占到近30%的過程。

OpenRouter聚合了超過300個模型的API調(diào)用，覆蓋60多家供應(yīng)商，超過一半的使用量來自美國以外。開發(fā)者拿一套API Key就能在不同模型之間即時切換，如果哪個不好用，可以秒切。Token數(shù)據(jù)在OpenRouter的漲跌，幾乎就是實(shí)時的市場投票。

這個時間，剛剛經(jīng)過了開源個人智能體框架OpenClaw的火爆，也經(jīng)歷了中國春節(jié)AI大戰(zhàn)，幾乎所有模型的關(guān)鍵詞已經(jīng)切換成了“Agentic”。

過去兩年，大模型競爭的核心敘事是模型能力：誰更聰明，誰在 ARC、SWE-Bench 這類 benchmark 上更高分，誰就更接近 AGI。參數(shù)規(guī)模、推理深度、復(fù)雜任務(wù)完成率，構(gòu)成了行業(yè)的主要坐標(biāo)系。

但是2026年的春節(jié)過后，Agentic AI的核心敘事是持續(xù)完成任務(wù)，包括寫代碼、調(diào)試、調(diào)用工具、讀取文件、再迭代。Token 消耗從“人機(jī)對話”升級為“機(jī)器自循環(huán)”。一次任務(wù)可能消耗數(shù)十萬、數(shù)百萬 Token。

模型之間的差異，開始轉(zhuǎn)變?yōu)樵陂L流程、高頻調(diào)用、長上下文環(huán)境下，誰的單位成本更低、穩(wěn)定性更強(qiáng)、推理曲線更平滑。

圖：OpenClaw是OpenRouter最大的單一應(yīng)用，其Token消耗量約占平臺顯著比例

圖片由AI生成

Token消耗的底層邏輯變了

OpenRouter與a16z聯(lián)合發(fā)布的《2025 AI使用報告》，覆蓋超100萬億Token的匿名元數(shù)據(jù)。里面有一組數(shù)據(jù)極其關(guān)鍵——編程任務(wù)的Token占比從2025年初的11%飆到了50%以上，成為平臺最大的單一使用品類。同時，Agent驅(qū)動的工作流（模型自主執(zhí)行多步驟任務(wù)）產(chǎn)生的輸出Token已超過平臺總輸出的一半。

圖：編程類請求在所有LLM查詢中的占比，從2025年初約11%持續(xù)攀升至50%以上

過去的問答式AI，一輪對話消耗幾百到幾千Token，用戶不再提問，Token就不會再消耗。Agent模式下，機(jī)器可以持續(xù)在后臺跑流程。

拿OpenClaw舉例，它的Token消耗粗略看有三種模式：

一是多輪自我修正。一次編程任務(wù)可能經(jīng)歷“寫代碼→運(yùn)行→報錯→改→再跑”幾十個回合，每個回合都是一次完整的模型調(diào)用。

二是上下文無限膨脹。為了讓Agent“記住”之前的操作，每次調(diào)用都要攜帶完整對話歷史。有用戶實(shí)測，一個活躍會話的上下文很快膨脹到23萬Token以上。

三是工具鏈級聯(lián)。Agent處理一個“幫我整理郵件并創(chuàng)建待辦”的任務(wù)，可能觸發(fā)5-10次API調(diào)用，每次都背著完整上下文。

有OpenClaw用戶吐槽，一個配置不當(dāng)?shù)淖詣踊蝿?wù)一天燒掉了200美元API費(fèi)。更直觀的數(shù)字是：7×24小時跑OpenClaw，全量使用Claude API，月成本在800到1500美元之間。

再看OpenRouter自身的數(shù)據(jù)：2月9日當(dāng)周，平臺處理了13萬億Token，1月第一周是6.4萬億，一個月翻了一倍。平臺最新周Token總量12.1萬億，是一年前的12.7倍。

AI的使用模式從“對話型”切換到了“流程型”，Token消耗從“按次”變成了“按流量”。成本敏感度被急劇放大。

Agent模型組合背后的機(jī)會

極端假設(shè)Agent全天候運(yùn)行，每天吞掉數(shù)十億Token。在這種負(fù)載下，價格差距就是生死線。

當(dāng)前主流模型的API定價對比（每百萬Token，美元）

Claude 4.6 Sonnet 的輸出價格為 15 美元 / 百萬 Token，而 MiniMax M2.5 的典型輸出價格約為 1.2 美元 / 百萬 Token，前者是后者的約 12.5 倍。GPT-5.2 的輸出價格為 14 美元 / 百萬 Token，也接近 MiniMax 的 11.7 倍。即便是已經(jīng)漲價的智譜 GLM-5，輸出價格約為 3.2 美元 / 百萬 Token，仍然只有 Claude 的大約五分之一左右。

在 Agent 場景里，這種差距會被指數(shù)級放大。假設(shè)一個生產(chǎn)級 Agent 每天處理 10 億輸出 Token（即 1000 個百萬 Token 單位），掛 Claude 意味著每天約 1.5 萬美元的支出；同樣規(guī)模如果使用 MiniMax，大約 1200 美元。30 天下來，前者接近 45 萬美元，后者約 3.6 萬美元，中間差出 40 多萬美元。

這個價差已經(jīng)在真實(shí)項(xiàng)目里決定了開發(fā)者的選擇。

一家使用OpenClaw的歐洲開發(fā)工作室公開了他們的方案：80%的日常推理引擎用Kimi K2.5，碰到高難度推理、復(fù)雜系統(tǒng)架構(gòu)之類的20%硬骨頭，通過bash命令把任務(wù)甩給Claude。一天的Kimi開銷大約5到10美元，月度Token預(yù)算控制在150到300美元。如果同樣的事全量用ClaudeAPI模式，月成本將高達(dá)800-1500美元以上。

“80%能力，20%價格”的組合，對標(biāo)“100%能力，100%價格”的方案，在實(shí)際部署中是碾壓級的吸引力。

a16z合伙人Martin Casado去年底接受《經(jīng)濟(jì)學(xué)人》采訪時也披露了一個數(shù)字：在使用開源模型的AI初創(chuàng)企業(yè)中，約80%跑的是中國模型。他后來在X上澄清，這個比例指的是“用開源模型的那部分創(chuàng)業(yè)公司”，占全部創(chuàng)業(yè)公司的20%-30%，折算下來，大約16%-24%的美國AI初創(chuàng)企業(yè)技術(shù)棧里嵌著中國開源模型。

OpenRouter COO Chris Clark說得更直接：中國開放權(quán)重模型在美國企業(yè)運(yùn)行的Agent工作流中“占比異常高”。

架構(gòu)暗戰(zhàn)，“Agent原生”

這一輪范式轉(zhuǎn)換中，中國開源模型陣營幾乎所有頭部玩家都把“Agentic”作為主攻方向，從架構(gòu)到訓(xùn)練全鏈路為Agent場景做原生適配。

底層仍然延續(xù)了上一階段跑通的MoE + MLA路線，總參數(shù)做大，每次推理只激活一小部分，保住能力的同時控制Token成本。

但光便宜不夠，在這一輪真正拉開差距的，要在Agent場景下“跑得好”。

MiniMax內(nèi)部開發(fā)了一套叫Forge的原生Agent強(qiáng)化學(xué)習(xí)框架，核心設(shè)計是把Agent的執(zhí)行邏輯跟底層訓(xùn)推引擎徹底解耦：Agent只管跑任務(wù)、產(chǎn)出軌跡數(shù)據(jù)，訓(xùn)練引擎只管從軌跡里學(xué)習(xí)。這套架構(gòu)能接入任意Agent腳手架。MiniMax披露的數(shù)據(jù)是，他們在數(shù)十萬個真實(shí)Agent腳手架和環(huán)境上做了大規(guī)模強(qiáng)化學(xué)習(xí)，上下文長度拉到200K。

Forge里有兩個工程細(xì)節(jié)值得注意。一是“前綴樹合并”，Agent多輪請求之間有大量重復(fù)的上下文前綴，傳統(tǒng)方法把每個請求當(dāng)獨(dú)立樣本重復(fù)計算，F(xiàn)orge把訓(xùn)練樣本從線性序列重構(gòu)成樹形結(jié)構(gòu)，共享前綴只算一次，MiniMax給出的數(shù)字是訓(xùn)練加速約40倍。

二是獎勵設(shè)計：除了任務(wù)完成度，M2.5的強(qiáng)化學(xué)習(xí)還把“任務(wù)完成時間”作為獎勵信號，直接激勵模型選最短路徑、主動利用并行。效果上，根據(jù)Minimax的數(shù)據(jù)，M2.5跑SWE-Bench Verified的端到端時間22.8分鐘，比上代M2.1的31.3分鐘快了37%，跟Claude Opus 4.6的22.9分鐘基本持平。連續(xù)運(yùn)行1小時（100 TPS）成本1美元，MiniMax的說法是“1萬美金可以讓4個Agent連續(xù)工作一年。

Kimi K2.5可支持Agent集群，能根據(jù)任務(wù)需求現(xiàn)場調(diào)度多達(dá)100個“分身”，組成不同角色的團(tuán)隊(duì)并行工作，最多同時處理1500個步驟。在大規(guī)模搜索場景下，Agent集群比單Agent減少了3到4.5倍的關(guān)鍵步驟，實(shí)際運(yùn)行時間最高縮短4.5倍。

K2.5的定位就是原生多模態(tài)、Agent模型，同時支持視覺與文本輸入、思考與非思考模式、對話與Agent任務(wù)，架構(gòu)層面做了全面適配。

這些創(chuàng)新表面，中國頭部模型已經(jīng)不只是在“便宜”上做文章。

閉源模型Anthropic和OpenAI的模型架構(gòu)是黑箱，開發(fā)者沒法評估長期運(yùn)行的成本曲線，也沒法做本地部署優(yōu)化。但Claude的長板在產(chǎn)品化能力，computer use、Artifacts、MCP生態(tài)，以及復(fù)雜推理的精確度。

圖：編程類Token按閉源/中國開源/其他開源的占比拆分。能看到Anthropic Claude在編程領(lǐng)域長期占據(jù)60%+的份額，但中國開源模型和其他開源模型在2025年下半年持續(xù)蠶食它的份額。

競爭力已經(jīng)形成差異化：中國開源模型工程細(xì)節(jié)透明，可以被復(fù)刻和優(yōu)化，在成本敏感的大規(guī)模部署里占優(yōu)；美國閉源模型的長板在產(chǎn)品化能力和復(fù)雜推理的精確度上。

Agent時代到來，中國開源模型已經(jīng)吃到了結(jié)構(gòu)性紅利。

價格戰(zhàn)結(jié)束了，需求戰(zhàn)開始了

2月12日，智譜AI發(fā)布GLM-5的同一天，宣布GLM Coding Plan套餐整體漲價30%起，取消首購優(yōu)惠。海外版漲價幅度更大，訂閱價格漲30%-60%，API調(diào)用漲67%-100%。

這是國產(chǎn)大模型2026年首次大幅提價。

背景也很有意思。過去一年多，中國大模型市場打了一場慘烈的價格戰(zhàn)。字節(jié)豆包報價低到0.0008元/千Token，阿里通義千問GPT-4級主力模型降價97%，智譜自己也把上一代GLM-4-Plus砍了90%。

現(xiàn)在掉頭漲價，同時GLM Coding Plan上線即售罄，國產(chǎn)AI編程產(chǎn)品的付費(fèi)套餐被秒空。

這里也衍生出另外一個問題，“智譜敢漲價，是不是說明中國模型的增長跟價格戰(zhàn)無關(guān)”？

答案不是“是或否”這樣簡單。

Agent化讓Token需求暴漲，中國模型憑著相對成本優(yōu)勢吃到了增量，漲價本質(zhì)上是供需再平衡。智譜回應(yīng)漲價：“用戶規(guī)模與調(diào)用量快速提升，公司同步加大算力投入”。

據(jù)媒體報道，Kimi K2.5在1月27日發(fā)布后不到一個月，近20天的累計收入已經(jīng)超過了2025年全年總收入。這個增長的核心驅(qū)動力來自海外開發(fā)者和API調(diào)用，K2.5在OpenRouter平臺的調(diào)用量持續(xù)位居前列，直接帶動了B端收入的暴漲，海外收入首次超過國內(nèi)。

MiniMax的情況類似，M2.5發(fā)布7天內(nèi)Token使用量就突破3萬億，內(nèi)部數(shù)據(jù)顯示M2.5生成的代碼已占公司新提交代碼的80%。

放到行業(yè)里看，智譜、月之暗面、MiniMax、階躍星辰4家都已上調(diào)部分API價格。長江證券研報的判斷是：國產(chǎn)模型“正式進(jìn)入需求驅(qū)動時代”。

價格戰(zhàn)的時代結(jié)束了，接下來是需求戰(zhàn)。

數(shù)據(jù)里有多少水分？

關(guān)于這次暴漲，也有爭議說，這次的Token數(shù)據(jù)有水分。

比如，MiniMax M2.5單周197%的暴漲，很大程度上受益于Kilo Code和Cline兩大AI編程工具的免費(fèi)推廣。2月12日起，Kilo Code為超過150萬開發(fā)者用戶提供一周免費(fèi)M2.5訪問，Cline也搞了類似活動。

免費(fèi)送量帶來的短期拉動，客觀上是不能忽略的。但免費(fèi)推廣只能解釋“量”的爆發(fā)，解釋不了趨勢和留存。

MiniMax M2.5在編程、工具調(diào)用和搜索、辦公等生產(chǎn)力場景都達(dá)到或者刷新了行業(yè)的SOTA，比如SWE-Bench Verified (80.2%)，Multi-SWE-Bench (51.3%)，BrowseComp (76.3%)；從Benchmark來看，分?jǐn)?shù)夠到了旗艦級的門檻，不能再用“廉價平替”來概括。

OpenRouter年度數(shù)據(jù)顯示，中國開源模型份額從2024年末不到2%，2025年下半年加速爬升，某些周接近30%。

一條持續(xù)上行的曲線，跟某次促銷帶來的孤立脈沖完全是兩回事。

榜單中還有另外一個細(xì)節(jié)，前五名里，MiniMax、月之暗面、智譜、DeepSeek是四個不同團(tuán)隊(duì)的產(chǎn)品。這次不僅僅是一個爆款在帶節(jié)奏，是中國開源模型生態(tài)的工程成熟度在國際化的市場中受到了認(rèn)可。

圖：2024年末DeepSeek V3和R1占了一半以上（深藍(lán)色），2025年中之后色塊急劇多樣化，Qwen、MiniMax、Kimi、GPT-OSS等輪番上位，沒有單一模型超過25%。

Agent時代正在重寫模型競爭的規(guī)則。

Agent使用組合模型的方案，讓模型性價比的權(quán)重在提升。

API聚合平臺的成長一定程度上瓦解了原廠的入口壁壘。

開源模型的工程成熟度已經(jīng)夠得上產(chǎn)品級。全球開發(fā)者把中國開源模型嵌入生產(chǎn)環(huán)境的Agent工作流，跑在真實(shí)業(yè)務(wù)里，跟實(shí)驗(yàn)室的刷分完全是兩碼事。

2026年開年，模型范式又一次更迭，從對話式AI到AgenticAI，中國開源模型在2026年開年抓住了這個結(jié)構(gòu)性窗口。

但變局遠(yuǎn)沒有到終點(diǎn)。

點(diǎn)個“愛心”，再走吧

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.