網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

100萬億Token畫出AI版圖｜Claude吃掉編程60%，DeepSeek吃掉開源一半

2025-12-05 22:51:09　來源: 賽博禪心

北京舉報

分享至

OpenRouter 和 a16z 剛剛聯(lián)合發(fā)布了一份報告：
《State of AI：An Empirical 100 Trillion Token Study》

https://openrouter.ai/state-of-ai

這份報告，基于來自全球的真實請求：
100 萬億 token，300 多個模型，60 多個提供方

這是 AI 領域，迄今最大規(guī)模用數(shù)據(jù)研究

最核心的三個信息：

? 推理模型已經(jīng)吃掉了全體 token 的一半
? 開源模型穩(wěn)定在三成，中國開源抬頭
? 編程和角色扮演是最真實的兩條主線

這份報告信息非常多，容我慢慢道來

*十分注意：本報告僅代表經(jīng)由 OpenRouter 的算力調用

開源 vs 閉源

先說一個數(shù)字
閉源模型，占有約 70% 的 token

開源 vs 閉源比例

在這張圖中，淺藍色是開源（分中國和其他地區(qū)），深藍色是閉源
豎線標注了DeepSeek V3等重要發(fā)布節(jié)點

在過去的一年中，中國的開源崛起，是一大敘事

開源 vs 閉源模型分布

2024 年底，中國開源模型的周用量只有1.2%
到 2025 年底，抬到單周接近30%，全年平均約13%

中國的開源模型，占據(jù)了穩(wěn)定位置

中國模型的崛起

在這份報告中，對于開源模型，列了一個排行

24年11月-25年11月的 OpenRouter 調用情況

DeepSeek 遙遙領先，14.37 萬億 token。Qwen 第二，5.59 萬億。Meta LLaMA 3.96 萬億，Mistral AI 2.92 萬億

后面還有 OpenAI 的開源系列、Minimax、Z-AI、TNGTech、月之暗面、Google

這里還有一份變化曲線

Top 15 開源模型走勢

早期幾乎是 DeepSeek 雙核壟斷
DeepSeek V3 和 R1 兩條帶子加起來，長期占 OSS 使用的一半以上

從 2025 年夏天開始，市場格局完全變了
Qwen、GLM、Moonshot、Minimax、GPT-OSS系列迅速抬頭
到 2025 年底，沒有任何單個模型超過 25% 的份額

這是一個從寡頭到多元的轉變

模型尺寸：小型退潮，中型起勢

報告把 OSS 按參數(shù)規(guī)模分成三檔

? 小于 15B
? 15–70B
? 大于等于 70B

不同大小模型使用占比

結論還算明顯：

? 小模型的數(shù)量在持續(xù)增加，但使用占比在下降
? 中模型和大模型的使用占比在提升

中檔市場基本是從Qwen2.5 Coder 32B發(fā)布后被“做”出來的

后面Mistral Small 3、GPT-OSS 20B等一批中型模型，把這個帶變成了一個穩(wěn)定選項

不同大小模型數(shù)量變化

現(xiàn)在的開源市場，大致可以這么看

? 小模型是試驗場
? 中模型是性價比區(qū)
? 大模型是高復雜度區(qū)

開源模型被用于什么

這是一份反直覺的發(fā)現(xiàn)，開源模型的使用如下

?第一大場景是角色扮演，占超過 50%
? 編程則是第二，占約 20%
? 其他翻譯、知識問答、教育等都在后面

OSS 模型任務類別趨勢

對此，報告給的解釋是：
開源模型的內容過濾更少，可以更自由地用于創(chuàng)意場景，故事續(xù)寫、角色扮演、游戲場景

對于角色扮演，這里的也有個細分

Roleplay 子標簽結構

58% 是 Role-Playing Game 場景
另外有寫作資源、成人相關內容

國產模型：主要是編程

但如果單看中國開源模型，畫面又不一樣了

中國 OSS 任務類別趨勢

Roleplay 仍然是最大類，但只有約33%，編程和技術合計約39%

這說明一件事
中國模型在開源世界里，更偏技術生產力使用

編程場景：閉源吃大頭，開源靠中國

報告單獨把 Programming 拎出來看

編程場景，在不同模型源的份額

編程這個品類里，閉源模型（主要是 Claude）還是主力

但開源部分，中國模型則是主流選擇

Roleplay 場景：五五開

同樣方式看 Roleplay
閉源和開源已經(jīng)是可替代關系

Roleplay場景，在不同模型源的份額推理模型占一半

都說今年是 Agent 的元年
AI 不再是「給個問題，出個答案」
而是：開始規(guī)劃、調用工具、多步推理、在長上下文中迭代

報告用四個指標來追蹤這個趨勢

第一，推理模型的用量占比
推理 vs 非推理 token 趨勢

2025 年初，推理模型的用量幾乎可以忽略
現(xiàn)在，這個數(shù)字已經(jīng)超過了 50%

供給側
GPT-5、Claude 4.5、Gemini 3 這些新模型都強調多步推理

需求側
用戶開始偏好能夠管理任務狀態(tài)、執(zhí)行多步邏輯、支持 agent 工作流的模型

下面這個圖，則是頭部推理模型的份額

Top 推理模型 token 份額

之前 Gemini 2.5 Pro 還是第一
然后是 xAI 的 Grok Code Fast 1 領先，Gemini 2.5 Pro 和 Flash 緊隨其后，OpenAI 的 gpt-oss-120b 也在前列

第二，工具調用的使用率
工具調用占比

整體趨勢向上，5 月的尖峰是個別大客戶導致的
這意味著更多的請求不只是問答，而是讓模型去執(zhí)行外部操作

讓我們再看看工具的使用

按模型看工具調用量

最開始主要是gpt-4o-mini 和 Claude 3.5、3.7

到 9 月之后，Claude 4.5 Sonnet 迅速階梯，然后 Grok Code Fast、GLM 4.5 也開始出現(xiàn)

第三，Prompt 長度的增長
Prompt token 數(shù)增長

平均 prompt 長度翻了 4 倍，從約 1,500 token 漲到 6,000+ token

Completion token 數(shù)增長

輸出長度也漲了近 3 倍，從約 150 token 到 400 token

不同類別下 Prompt 長度變化

Prompt 長度的增長主要來自編程類任務。代碼理解、調試、生成這些任務經(jīng)常需要 20K+ 的輸入 token

第四，整體序列長度
平均序列長度變化

過去 20 個月，平均序列長度漲了 2.7 倍

編程 vs 全體序列長度

現(xiàn)在的典型請求不再是“寫一段東西”
而是“給你一大堆代碼 / 文檔，你幫我分析、推理、修改”

報告的判斷是：
Agentic Inference 很快就會（如果還沒有的話）超過人類推理的用量

模型任務的使用場景

報告用 GoogleTagClassifier 把請求分成 12 個類別
Programming、Roleplay、Technology、Science、Translation、Health 等

編程是最大的增長品類
編程成為主導類別

2025 年初，編程相關請求占 token 約 11%
最近幾周，這個數(shù)字已超過 50%

這條線對應的是

? AI 輔助開發(fā)在 IDE 里的深度集成
? 內部平臺對 LLM 的接入
? 以及調試、日志分析、數(shù)據(jù)腳本等長上下文場景

不同提供方在編程類別的份額

在編程盤子里

? Anthropic Claude 長期吃掉超過 60% 的支出
? Google 穩(wěn)在 15% 左右，OpenAI 從 2% 爬到約 8%
? MiniMax 最近幾周明顯抬頭，是增長最快的新玩家

其他品類的內部構成

報告給了兩張“Top 6 類別”和“Next 6 類別”的子標簽分布

前六大類別的子標簽結構

有幾個點值得留意

Roleplay
約 60% 是 Games/Roleplaying Games
另外有 Writers Resources 和 Adult 的不小占比

Programming
超過三分之二被打在 “Programming/Other” 標簽下
說明它是廣義編程需求，不是單一語言的垂直場景

Translation
幾乎平均分布在語言資源和其他
是一個“工具型”長期需求

Science
80% 是 Machine Learning & AI 自身相關
典型的“問 AI 關于 AI”

Health
是所有大類里最分散的
沒有任何一個子標簽超過 25%

次六大類別的子標簽結構

健康是最分散的品類，沒有任何子標簽超過 25%
金融、學術、法律也都很分散，可能是因為這些領域的 LLM 工作流還不成熟

各家廠商的使用畫像

報告把Anthropic、Google、OpenAI、xAI、DeepSeek、Qwen這幾家抽出來，看它們各自的任務分布

Anthropic 使用結構

Anthropic高度集中在編程和技術任務。角色扮演和閑聊只是一小部分

Google 使用結構

Google使用分布更均勻。翻譯、科學、技術、知識問答都有份額。編程占比在 2025 年底降到了 18% 左右

xAI 使用結構

xAI大部分時間 80% 以上是編程。但 11 月突然變了，技術、角色扮演、學術都漲起來了。報告推測這和 xAI 通過某些消費應用免費分發(fā)有關，帶來了大量非開發(fā)者用戶

OpenAI 使用結構

OpenAI2025 年初超過一半是科學類任務，到年底降到 15% 以下。編程和技術各占 29% 左右

DeepSeek 使用結構

DeepSeek角色扮演、閑聊、娛樂占了大頭，經(jīng)常超過 2/3。編程和科學只占一小部分

Qwen 使用結構

Qwen編程長期維持在 40–60% 區(qū)間，Science、Technology、Roleplay 份額波動較大

每個廠商都有自己的定位，沒有誰能通吃所有場景

地理分布

LLM 使用越來越全球化，OpenRouter 的亞洲請求持續(xù)增多

區(qū)域結構：亞洲份額翻倍
按地區(qū)的支出占比

亞洲份額從 13% 漲到 31%，翻了一倍多

北美還是最大的，占 47.22%，但已經(jīng)不到一半了。亞洲 28.61%，歐洲 21.32%。大洋洲、南美、非洲加起來不到 3%

按國家看，美國 47.17%，新加坡 9.21%，德國 7.51%，中國 6.01%，韓國 2.88%，荷蘭 2.65%，英國 2.52%，加拿大 1.90%，日本 1.77%，印度 1.62%，其他 60+ 國家合計 16.76%

語言結構：英文第一，中文第二

語言分布很直白

? 英語 82.87%
? 簡體中文 4.95%
? 俄語 2.47%
? 西班牙語 1.43%
? 泰語 1.03%

英文仍然是絕對統(tǒng)治地位，但中文已經(jīng)是第二大單語種

需要注意：這個數(shù)據(jù)只代表 OpenRouter 的訪問請求

用戶留存：灰姑娘的玻璃鞋

這是很意思的發(fā)現(xiàn)
早期用戶的留存遠遠好于后來的用戶
他們把這叫做「灰姑娘的玻璃鞋」

灰姑娘的玻璃鞋 Cinderella Glass Slipper 當一個新模型發(fā)布時，最早嘗試的那批用戶，如果發(fā)現(xiàn)這個模型剛好能解決他們的問題（「鞋子剛好合腳」），他們就會留下來，而且留存時間非常長

第一個解決用戶真實痛點的模型，會建立起深度、粘性的使用
用戶會圍繞這個模型建立工作流和習慣，切換成本很高

對于模型開發(fā)者和投資人來說，要看的不是增長曲線，而是留存曲線，那些「基礎性群組」的形成

這里先放幾個留存曲線，大家感受下

Claude 4 Sonnet 留存Gemini 2.5 Pro 留存OpenAI GPT-4o Mini 留存DeepSeek R1 留存

對此，讓我們來看看這幾組模型

OpenAI GPT-4o Mini的水晶鞋

2024 年 7 月的曲線明顯高出其他時期
后面所有曲線幾乎都在底部貼著走

OpenAI GPT-4o Mini 留存

如果某個模型在發(fā)布時就抓住了需求
對應的用戶就會成為基礎性群組

后面再進來的用戶
要么已經(jīng)有主力模型
要么只是輕度使用
窗口只有一次，錯過就沒有

Gemini 2.0 Flash沒有水晶鞋

Gemini 2.0 Flash的留存，則非常貼合
每條曲線都差不多
沒有任何一條明顯高出

OpenAI GPT-4o Mini 留存

這是啥意思呢？
這模型來的太遲了，也沒有足夠的性能優(yōu)勢
所以，并不會某個高價值工作負載視為“第一選擇”
它們從一開始就被當作“夠用”的替代品

DeepSeek的先跌后升

DeepSeek V3/R1則比較特殊
留存曲線都出現(xiàn)了「先跌后升」

DeepSeek V3 留存DeepSeek R1 留存

報告把這個叫boomerang effect
就是用戶離開以后又回來
說明對比了其他模型后
確認 DeepSeek 在性能 + 成本 + 特性組合上仍然最合適

就只能說牛逼了

定價與用量：四種關系

在報告的最后，有這么一張圖
不同模型的定價策略

開源 vs 閉源模型成本 vs 使用

再看提供方視角

模型成本 vs 使用市場圖

對此，就有了四象限分類：效率巨頭、高端領導者、長尾、高端專家

Efficient giants/效率巨頭
低價高量如 Gemini 2.0 Flash、DeepSeek V3 0324

Premium leaders/高端領導者
高價高量如 Claude 3.7 Sonnet、Claude Sonnet 4

Long tail/長尾
低價低量如 Qwen 2 7B Instruct、IBM Granite 4.0 Micro

Premium specialists/高端專家
極高單價如 GPT-4、GPT-5 Pro

進而的，又多了一些結論

? 企業(yè)愿意為關鍵任務付高價，開發(fā)者和愛好者會涌向便宜的模型
? 便宜的模型消耗了更多 token，但不會帶來深度集成
? Claude 和 GPT-4 雖然貴，但用量依然大，因為它們更可靠、信任度更高
? 光便宜沒用：很多接近零成本的開源模型用量也很小

收尾：報告的六個核心結論

報告最后給了六個判斷

第一，多模型生態(tài)是常態(tài)
沒有誰能通吃，用戶會根據(jù)任務選模型，開發(fā)者沒有忠誠度

第二，使用場景很多元
角色扮演和娛樂用量巨大，不只是生產力工具。

第三，Agentic 推理正在成為主流
單輪問答的時代在過去，多步推理、工具調用、長上下文迭代，這些才是現(xiàn)在的主戰(zhàn)場

第四，地理格局在去中心化
亞洲份額翻倍，中國既是消費者也是供應商。LLM 必須是全球可用的

第五，價格不是唯一變量
用戶會在質量、可靠性、能力廣度之間做權衡

第六，留存是真正的護城河
第一個解決用戶痛點的模型，會建立深度粘性

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

大模型最難的AI Infra，用Vibe Coding搞定

機器之心Pro 2026-01-07 15:33:06
0 跟貼 0
Stack Overflow已死？CEO帶隊狂賺1.15億刀，6個月原地反殺

新智元 2026-01-09 20:39:45
0 跟貼 0

4個月燒掉30億Token，這位「菜鳥」程序員做出50多個產品

機器之心Pro 2026-01-04 14:53:09
35 跟貼 35

DeepSeek V4爆料：春節(jié)檔GPT/Claude編程危

量子位 2026-01-10 09:24:55
0 跟貼 0
讓兩個大模型在線吵架，跑通全網(wǎng)95%科研代碼｜深勢Deploy-Master

機器之心Pro 2026-01-09 14:22:47
0 跟貼 0

一年后，DeepSeek-R1的每token成本降到了原來的1/32

機器之心Pro 2026-01-09 14:34:59
0 跟貼 0

把超算裝進口袋，無影在CES上給個人AI的新答案

智東西 2026-01-09 13:08:40
1 跟貼 1
Agent 2.0時代來了，首批「工業(yè)級智能體」正在核心位置上崗

機器之心Pro 2026-01-09 14:07:10
0 跟貼 0

金魚損失隨機剔除token，讓AI不再死記硬背

量子位 2025-09-03 17:37:23
0 跟貼 0
牌桌被掀，中國模型換了一種贏法

36氪 2026-01-08 21:59:57
6 跟貼 6
《麻省理工科技評論》預測2026年AI五大趨勢

DeepTech深科技 2026-01-09 11:42:30
0 跟貼 0
SOLO Coder 在現(xiàn)有項目基礎上繼續(xù)完善功能、修復問題

機器之心Pro 2025-11-13 14:18:40
0 跟貼 0
三維空間太難懂？2

機器之心Pro 2025-12-31 13:49:19
0 跟貼 0
DeepSeekV4新模型或在春節(jié)前后發(fā)布，主打強勁的代碼生成能力

魯中晨報 2026-01-10 09:25:02
2 跟貼 2
JarvisEvo 如何讓 Agent 像人類一樣擁有「視覺反思」能力？

機器之心Pro 2025-12-24 14:52:46
0 跟貼 0
ChatGPT學阿福，但還有一沓作業(yè)抄不會

雷科技 2026-01-09 23:12:09
0 跟貼 0
智源2026十大趨勢指明AI前景——世界模型、超級應用與產業(yè)智能體

DeepTech深科技 2026-01-09 22:18:50
0 跟貼 0
中國AI Agent產業(yè)化參考范本：斑馬口語攻克的四大技術難關

機器之心Pro 2025-11-18 14:12:50
0 跟貼 0
具身泡沫收縮，機器人ChatGPT時刻還沒到｜虎嗅CES 2026討論會

虎嗅APP 2026-01-10 06:12:35
0 跟貼 0
這跟數(shù)學沒多大關系啊，這是思維邏輯

喜蕃影視 2026-01-06 10:38:27
285 跟貼 285
微軟抽調工程師重組GitHub團隊，硬剛Cursor、Claude Code

智東西 2026-01-09 15:23:18
10 跟貼 10
兩部門：取消光伏、電池產品增值稅出口退稅

財聯(lián)社 2026-01-09 17:57:23
10179 跟貼 10179
M+框架來了，增加LLM隱空間記憶，不再受上下文窗口限制

機器之心Pro 2025-07-15 17:07:00
0 跟貼 0
大模型公司不搞瀏覽器搞Agent，實測找到原因了

量子位 2025-10-31 16:54:34
2 跟貼 2
小學數(shù)學求陰影部分面積，涉及三個模型

天天數(shù)理學習分享 2026-01-08 10:10:32
3 跟貼 3
城市通勤最優(yōu)解！試駕風云T11兩驅版，家庭用戶無可挑剔的選擇

車視頭條 2026-01-07 22:19:47
3 跟貼 3
民間有高人，自己動手做出南水北調的模型，這技術水平太高明了

電工維修技術 2026-01-07 10:12:56
1 跟貼 1
【DeepSeek談藝】周武發(fā)·油畫寫生丨以筆為耳，傾聽萬物

文化視界網(wǎng) 2026-01-09 17:11:21
0 跟貼 0
中方：沉痛哀悼丹羽宇一郎

新京報政事兒 2026-01-09 15:31:25
2999 跟貼 2999
搶瘋了！99元搶16節(jié)課！書法、籃球、體適能、模特、美術、專注力、樂高、編程……任你選！

平湖在線 2026-01-08 20:04:59
0 跟貼 0
井深4002.17米！山東這一鉆，捅破華東地熱“天花板”

齊魯壹點 2026-01-09 14:31:58
239 跟貼 239
學霸思維訓練：五年級幾何模型

公考客棧店小二 2026-01-08 18:00:00
0 跟貼 0
回家得先看廣告？深圳多個小區(qū)門禁APP彈窗惹市民強烈吐槽

南方都市報 2026-01-09 16:58:14
488 跟貼 488
豆包編程模型來了2 (將 C++ 項目重構為 Python 項目)

機器之心Pro 2025-11-11 17:26:07
0 跟貼 0
DeepAnalyze 可本地部署，作為您的私有數(shù)據(jù)科學助手！

機器之心Pro 2025-10-30 19:38:37
0 跟貼 0
7B擴散語言模型單樣例1000+ tokens/s！

機器之心Pro 2025-12-31 16:26:20
0 跟貼 0
編程新王Claude Opus 4.5震撼登場

機器之心Pro 2025-11-25 10:38:20
0 跟貼 0
徐州市沛縣縣長調整

江蘇新聞 2026-01-10 08:58:00
3 跟貼 3
應用將更加廣泛

制造原理v 2026-01-09 23:41:40
0 跟貼 0
GRPO訓練不再「自嗨」！

機器之心Pro 2025-11-13 15:06:22
0 跟貼 0

賽博禪心

拜AI古佛，修賽博禪心

246文章數(shù) 12關注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

手機

家居

房產

健康

數(shù)碼

手機 / 數(shù)碼

房產 / 家居

100萬億Token畫出AI版圖｜Claude吃掉編程60%，DeepSeek吃掉開源一半

傳DeepSeek準備第二次震驚全世界

媒體:中國若在其任期統(tǒng)一特朗普不悅 中方回應滴水不漏

媒體:中國若在其任期統(tǒng)一特朗普不悅 中方回應滴水不漏

楊瀚森：上場時間要去爭取 而不是要求

曹西平遺照曝光：靈堂布置過于簡陋

投資必看!瑞銀李萌給出3大核心配置建議

寶馬25年全球銷量246.3萬臺 中國仍是第一大市場

態(tài)度原創(chuàng)

一加Turbo 6對比6V：除了處理器，這些細節(jié)才是關鍵

木色留白 演繹現(xiàn)代自由

66萬方！4755套！三亞巨量房源正瘋狂砸出！

這些新療法，讓化療不再那么痛苦

三星Galaxy S26+手機通過認證：額定電池容量4755mAh

媒體:中國若在其任期統(tǒng)一特朗普不悅中方回應滴水不漏

媒體:中國若在其任期統(tǒng)一特朗普不悅中方回應滴水不漏

楊瀚森：上場時間要去爭取而不是要求

寶馬25年全球銷量246.3萬臺中國仍是第一大市場

一加Turbo 6對比6V：除了處理器，這些細節(jié)才是關鍵

木色留白演繹現(xiàn)代自由

66萬方！4755套！三亞巨量房源正瘋狂砸出！

這些新療法，讓化療不再那么痛苦