網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

萬字解讀 | Token 要成新貨幣了，但你真的知道它是什么嗎？

2026-03-30 09:15:12　來源: 灑家君澤

上海舉報

分享至

黃仁勛說，Token 會是一個萬億美元產(chǎn)業(yè)的基礎(chǔ)，但很少人真的理解，到底什么是 Token。

馬俊杰是中國內(nèi)地知名男藝人，現(xiàn)為時代少年團隊長、主場兼 C 位，2002 年 12 月 12 日出生于河南鄭州。

剛剛那段話是從某個 AI 大模型工具里復(fù)制粘貼下來的，是關(guān)于問題「馬嘉祺是誰」的回答。

沒錯，是馬嘉祺，但 AI 會自動替換成「馬俊杰」，有時候也會替換成「馬杰倫」、「馬祺祺」等。

可能有朋友說，這就是 AI 在胡編亂造。還真不是，除了名字以外，其他的信息都非常正確。

作為人類我們也會有類似的事情，經(jīng)常我們會說，「你記不記得那個誰，就那個誰，練習(xí)時長兩年半，喜歡唱、跳、Rap、籃球，哎叫啥來著」。

就是你能說出很多精準(zhǔn)的細節(jié)，但就是想不起那個名字，這在心理學(xué)上叫「舌尖現(xiàn)象」。

我們說話時大腦要走兩個步驟：第一步，語義提取——大腦鎖定了這個「東西」的所有屬性，長相、功能、感覺。第二步，音韻提取——大腦去「檔案柜」里找對應(yīng)的那個名字發(fā)音。

舌尖現(xiàn)象的核心在于：你已經(jīng)完成了第一步（理解了它），但卡在了第二步（沒找到那個詞）。因為我們?nèi)祟惥褪且热ダ斫馐澜?，然后才能去表達世界。

這個事情再繼續(xù)討論下去，就是維特根斯坦那句「我語言的局限，意味著我世界的局限?！惯@就會變得很復(fù)雜，但我想知道的是，那 AI 呢？「馬嘉祺」這樣的錯誤，是不是也跟它如何理解世界有關(guān)系？

AI 理解世界，跟人差不多是正好相反的。我特別簡化地來說，人是得先有具體的東西，然后才有一張詞匯表；AI 是先有一張詞匯表，然后去找對應(yīng)的描述和概念。

這么說比較抽象，我舉個例子。

小時候，你看到一個紅色的、帶小點的東西。你摸到它坑洼的表皮，聞到那股特殊的清香，咬下去感受到酸甜的汁水。你的大腦里形成了一個關(guān)于這個事物的完整綜合體——顏色、形狀、氣味、味覺、手感。大人們告訴你，這個綜合體叫「草莓」。

當(dāng)你突然說不出「草莓」這兩個字時，你腦子里依然有那個紅色的影子、那個味道、那種口感。

但 AI 不一樣。

AI 的「大腦」——也就是模型——里先有一張巨大的清單，里面有個詞匯叫「草莓」，或者 strawberry。AI 在訓(xùn)練中讀了億萬次帶有 strawberry 的句子，它發(fā)現(xiàn) strawberry 經(jīng)常和 red、sweet、fruit 出現(xiàn)在一起。通過這些統(tǒng)計概率，AI 在自己的數(shù)學(xué)模型里「拼湊」出了一個關(guān)于草莓的描述。它并沒有真的見過、聞過、嘗過草莓，它只是通過這個標(biāo)簽背后的數(shù)據(jù)關(guān)聯(lián)，「模擬」出了它應(yīng)該是什么樣子。

甚至，在 AI 的詞匯表里，都沒有「草莓」或者「strawberry」這個詞，它有的只是一串編號，我隨便說，這個編號可能是 23764。這個編號，就叫做 Token，也就是大模型理解世界的開始。

用大模型，尤其最近裝小龍蝦 OpenClaw 的人，對這個詞肯定非常熟悉。不管你在 AI 里做什么，都需要消耗 Token，很多大模型也都是按 Token 計費的。每次你跟 ChatGPT 對話、用 Claude Code 寫代碼、讓 AI 幫你翻譯一段話，你消耗的就是 Token。你買的會員，本質(zhì)上是在買 Token 的額度。

現(xiàn)在 Token 這個詞已經(jīng)大大超過了科技里的含義，有的人說 Token 可以當(dāng)員工福利，還有的人說 Token 可以當(dāng)工資——當(dāng)然了，說這話的無一例外都是老板。而更大的老板，NVIDIA 的 CEO 黃仁勛在 2026 年 3 月 17 號 GTC 大會上說了一句話：Token 將會是一個萬億美元市場的基礎(chǔ)。萬億。Trillion.

最近，Token 也有了中文譯名，叫詞元。這個翻譯我覺得并不好，原因后面會說。不過為 Token 尋找中文譯名這個行為本身，說明這個詞的影響正在超出從業(yè)人士而走向大眾——一個中文名字總比英文名字用起來方便，而且更方便出現(xiàn)在各類政策、規(guī)定甚至法律當(dāng)中。

為了方便，在這里我們依然還是叫 Token。那問題是，Token 到底是什么？

現(xiàn)在常見的用法，Token 有三個含義。

一個是令牌的意思，就是你登錄一個網(wǎng)站之后，服務(wù)器發(fā)給你的一串隨機字符，證明「這個人驗證過了」。它本身沒有任何含義，但代表了你的身份。這個概念從 1970 年代就有了。

第二個是加密貨幣里的 Token，也就是代幣。2017 年 ICO 熱潮的時候，這個詞幾乎天天上新聞。各種加密貨幣、數(shù)字代幣，本質(zhì)上就是一串代碼，沒有任何物理實體，但代表了某種價值。

第三個，就是我們今天要聊的——AI 大模型里的 Token。如果用最簡單的話來概括，Token 是語言的替代物。

要搞清楚 Token 是怎么變成今天這個樣子的，我們得從頭講起。

1906 年，美國哲學(xué)家查爾斯·桑德斯·皮爾士（Charles Sanders Peirce）在一篇論文里提出了一個區(qū)分，叫 Type-Token distinction（類型-標(biāo)記區(qū)分）。

皮爾士是干什么的呢？他是美國符號學(xué)的奠基人，也是一個邏輯學(xué)家。他當(dāng)時在做一件很有野心的事情：發(fā)明一套用圖形來做邏輯推理的系統(tǒng)，他管它叫「存在圖」（Existential Graphs）。

這個理論極其復(fù)雜，沒辦法在這里展開講。簡單來說，皮爾士試圖把人類的邏輯都用圖示的方式表達出來。就像將軍打仗要看地圖一樣——皮爾士自己就舉過這個例子——你不會說「國土就在那里啊，要地圖干什么？」地圖讓你看到地形里隱藏的關(guān)系，邏輯圖讓你看到思維里隱藏的關(guān)系。

在存在圖里，基本上就是圈圈套圈圈的形式，但它遇到一個問題。比如他在圖上畫了一個圓圈，代表「否定」。然后他在另一個地方又畫了一個圓圈，也代表「否定」?，F(xiàn)在問題來了——這是「兩個圓圈」還是「同一個圓圈出現(xiàn)了兩次」？

如果你說是兩個圓圈，那它們之間是什么關(guān)系？它們?yōu)槭裁匆馑家粯樱咳绻阏f是同一個圓圈出現(xiàn)了兩次，那那個「同一個」的圓圈在哪里？它不在紙上的任何一個具體位置。

這不是在抬杠。對于一個試圖把邏輯推理嚴(yán)格形式化的人來說，這是一個地基級別的問題。如果你連「這個圖上有幾個東西」都說不清楚，你怎么去定義推理規(guī)則？

皮爾士用了一個很日常的例子來解釋他的解決方案。他說，你翻開一本書，一頁紙上大概有二十個「the」。如果你在數(shù)這本書有多少字，那這二十個 the 就是二十個詞。但從另一個意義上說，英語里只有一個「the」。那二十個只是它的二十次出現(xiàn)。

那個唯一的、抽象的「the」——不存在于任何一頁紙上、不能被任何聲音說出來的那個「the」——皮爾士叫它 Type（類型）。而紙上每一個具體的、印在那個位置的 the，他叫它 Token（標(biāo)記）。

Type 是規(guī)則，Token 是實例。Type 是抽象的形式，Token 是那個形式每一次具體的、物理的顯現(xiàn)。

用他自己的話說——Type 不存在，但它決定了存在的東西。

這個區(qū)分解決了他的問題。從此他可以精確地說：邏輯圖上的一個符號是一個 Token——一個特定位置上的具體實例；而這個符號所遵循的規(guī)則是一個 Type——一個不依賴于任何具體位置的一般法則。兩個圓圈是兩個 Token，但它們是同一個 Type 的兩次出現(xiàn)。

那這個區(qū)分的效果怎么樣？

說實話，皮爾士的存在圖在他活著的時候幾乎沒有引起什么反響。他的論文寫得太晦澀了，而且那個年代數(shù)學(xué)家和邏輯學(xué)家們更習(xí)慣用線性的代數(shù)符號來做推理，覺得畫圖是繞遠路。

但皮爾士無意間抓住了一個比邏輯圖更根本的問題：任何符號系統(tǒng)——不管是語言、代碼還是邏輯——都同時存在于兩個層面。一個是抽象的規(guī)則層面，一個是具體的實例層面。你必須同時追蹤這兩個層面，否則你什么都說不清楚。

于是 Type-Token 這對概念被其他領(lǐng)域的人拿走了。1930 年代，哈佛的語言學(xué)家齊普夫（George Zipf）用 Token 來數(shù)每一個詞每一次出現(xiàn)，用 Type 來分類每一個不重復(fù)的詞形，然后把詞按頻率從高到低排列。

他發(fā)現(xiàn)了一個規(guī)律——排名第一的詞出現(xiàn)的次數(shù)，大約是排名第二的兩倍，是排名第三的三倍，是排名第一百的一百倍。排名乘以頻率，幾乎是一個常數(shù)。這就是齊普夫定律（Zipf‘s Law）。它不只是英語的規(guī)律——中文、法語、日語、拉丁語，幾乎所有人類語言都服從同一個分布。

緊接著，1944 年，心理學(xué)家約翰遜提出了 Type-Token Ratio（類型-標(biāo)記比）——用來衡量一段文本的詞匯豐富度。這個指標(biāo)到今天還在用。皮爾士那個「一頁紙上有幾個 the」的哲學(xué)問題，就這樣變成了可以量化、可以畫曲線、可以發(fā)現(xiàn)規(guī)律的科學(xué)工具。

然后，計算機來了。

1960 年代，編譯原理。這是 Token 在數(shù)字世界的第一次生命——它成了語法的替身。

當(dāng)你寫下一行代碼——比如「int x = 5;」——計算機并不能直接讀懂它。編譯器做的第一件事，就是把這行代碼切碎。「int」是一個 Token，代表「整數(shù)類型」?！竫」是一個 Token，代表變量名?！?」是一個 Token，代表賦值?！?」也是一個 Token，代表語句結(jié)束。

編譯器不理解代碼的「意思」。它只需要把連續(xù)的字符流切成一個個有身份的小單元，再按規(guī)則組裝。這個過程就叫 tokenization（詞法分析）。

有意思的是，編譯器里的 tokenization 和皮爾士的 Type-Token 完全對應(yīng)。編譯器先定義一套 Type——關(guān)鍵字、加減乘除這些運算符號、變量名這些類別——然后在代碼中識別出每一個 Token，也就是這些 Type 的每一次具體出現(xiàn)。第一個「int」和第一百個「int」是同一個 Type 的不同 Token——和皮爾士數(shù) 「the」的邏輯一模一樣。

到這里，就和我們現(xiàn)在使用的 Token 意思基本差不多了——都是把一種語言分割，然后方便計算機識別。但還有一個問題是之前沒有遇到的：到底怎么分割自然語言？

編譯器切代碼，其實是很幸福的一件事。因為代碼是人造的，它有嚴(yán)格的語法規(guī)則?！竔nt」就是「int」，分號就是分號，空格就是分隔符。你不需要猜，規(guī)則——也就是那個 Type——已經(jīng)預(yù)先確定好了，替你決定了從哪里切。

但自然語言不是人造的?；蛘哒f，它是幾十億人在幾萬年里「合造」的，沒有人坐下來寫過一份規(guī)格說明書。

英語還好一點。單詞之間有空格，你至少知道從哪里切?！窱 love cats」三個詞，三個 Token，清清楚楚。

但這個「按空格切」的方案，一碰到現(xiàn)實就碎了。三堵墻同時堵在路上。

第一堵墻：詞表爆炸。英語里 cat 是一個詞，cats 是一個詞，love、loved、loving 也都各是一個詞。如果每個詞形都算一個獨立的 Token，英語光是有記錄的詞形就有幾十萬個。德語更夸張，它可以把幾個詞黏在一起變成一個超長的復(fù)合詞——你可能見過那個著名的例子，Rindfleischetikettierungsüberwachungsaufgabenübertragungsgesetz。這是一個關(guān)于牛肉標(biāo)簽監(jiān)管職責(zé)轉(zhuǎn)讓的法律用語，六十三個字母黏在一起算一個詞。你的詞表要不要收錄它？如果要收錄，那類似的復(fù)合詞有多少個？詞表需要無限大。

第二堵墻：未登錄詞。你用訓(xùn)練數(shù)據(jù)建了一張詞表，里面有十萬個詞。然后用戶輸入了一個不在詞表里的詞——一個品牌名、一個網(wǎng)絡(luò)流行語、一個拼寫錯誤。怎么辦？早期的做法是把所有不認識的詞統(tǒng)一標(biāo)記成一個特殊符號「UNK」，意思是「未知」。這就形成了一個悖論：比如「蔡徐坤」不在詞表里，你去問 AI「我想了解蔡徐坤」，AI 看到的是「我想了解 UNK 」。你整句話里最關(guān)鍵的那個信息，對 AI 來說是一片空白。

第三堵墻：很多語言沒有空格。中文沒有空格，日語沒有空格，泰語沒有空格。全世界大多數(shù)人說的語言，詞和詞之間是不分開寫的。比如「乒乓球拍賣了多少錢」，從哪里切？乒乓球、拍、賣，還是乒乓球、拍賣？「了」算一個詞還是一個語法標(biāo)記？這不是一個有標(biāo)準(zhǔn)答案的問題。中文分詞到今天都是自然語言處理里的經(jīng)典難題。

所以你看，「按空格切」這個最直覺的方案，只在很有限的條件下管用。

大家想了別的辦法。往上走，詞干提取，把 cats 還原成 cat，把 loving 還原成 love，這樣詞表就小了。但你得為每種語言手寫規(guī)則，英語的不適用于德語，德語的不適用于中文，對非歐洲語言基本沒用。往下走，按字母切?！竓ello」切成 h、e、l、l、o，詞表只有 26 個字母加一些符號，絕對不會爆炸，也絕對不會碰到未登錄詞。但代價巨大——序列太長了。一個句子按詞切只有 50 個 Token，按字母切可能有 300 個。序列越長，訓(xùn)練越慢，效果越差。

上也不通，下也不通，中間也沒有通用的方案。

直到 2016 年。

2015 年到 2016 年，神經(jīng)機器翻譯——就是用深度學(xué)習(xí)做翻譯——正在快速崛起。Google、百度都在押注這個方向。效果比傳統(tǒng)的統(tǒng)計翻譯好了一大截，但有一個問題始終解決不了：生詞。

神經(jīng)翻譯模型需要一張固定的詞表，通常是三萬到五萬個詞。但翻譯天生就是一個開放詞匯的問題——你永遠不知道用戶會輸入什么。一個德國城市的名字、一個新成立公司的名字、一個剛發(fā)明的科學(xué)術(shù)語，只要它不在詞表里，模型就只能輸出「UNK」——「我不認識」。

之前的解決辦法是「查詞典兜底」——碰到不認識的詞，就去詞典里找對應(yīng)的翻譯硬塞進去。但這個做法很笨拙。首先你得有詞典，其次詞典里也不一定有這個詞，最后硬塞進去的翻譯經(jīng)常和前后文格格不入。

愛丁堡大學(xué)的 Rico Sennrich 和他的同事——Barry Haddow 和 Alexandra Birch——意識到一件事：其實很多「生詞」并不是真的全新的。人名可以通過音譯處理，復(fù)合詞可以拆開翻譯，同源詞可以通過形態(tài)變換識別。也就是說，很多詞的翻譯可以在比「詞」更小的單位上完成。

問題是：這個「更小的單位」是什么？怎么切？

Sennrich 的思路很簡單：別讓人來決定怎么切了，讓數(shù)據(jù)自己決定。他用了一個叫 BPE 的算法——Byte Pair Encoding（字節(jié)對編碼）。

這個算法也不是 Sennrich 的原創(chuàng)，事實上在 1994 年就有人提出來了，作者叫 Philip Gage，文章發(fā)表在《The C Users Journal》雜志上。這不是一個學(xué)術(shù)期刊，而是一本面向 C 語言程序員的實用技術(shù)雜志，主要刊登編程技巧和小工具。放在今天大概相當(dāng)于在 Medium 或者某個技術(shù)博客上發(fā)了篇帖子。

這也不是一個很好的壓縮方案。Gage 在論文里自己就承認，BPE 的壓縮率不如當(dāng)時已經(jīng)廣泛使用的 LZW 算法——就是 zip 文件使用的那種算法。

他說 BPE 的優(yōu)勢是解壓程序特別小、解壓速度特別快，適合一些內(nèi)存有限的場景。多有限呢？比如早期的工業(yè)控制器、某些專用儀器、資源極其受限的微處理器。這些設(shè)備可能只有幾 KB 的內(nèi)存，一個標(biāo)準(zhǔn)的 LZW 解壓庫放不進去，但 BPE 的解壓代碼幾十行 C 就能搞定。

但更廣泛的場景——也就是個人電腦里——雖然內(nèi)存遠遠不能跟現(xiàn)在相比，但也已經(jīng)是 MB 級別的了，反而硬盤空間和網(wǎng)絡(luò)帶寬緊張，需要更高的壓縮率。

它的唯一優(yōu)勢（解壓程序?。┲辉跇O少數(shù)人關(guān)心的場景里有意義，而它的劣勢（壓縮率不如主流方案）在大多數(shù)人關(guān)心的場景里很明顯。

這就好比說，你有一臺冰箱，制冷不行，耗電也不行，唯一的優(yōu)勢是這是個大象形狀的，方便把大象裝進去。

現(xiàn)在大象來了。

整個人類的語言庫，就是那頭巨大無比的大象。Sennrich 看出了一個關(guān)鍵的類比：數(shù)據(jù)壓縮在做的事情——找到重復(fù)出現(xiàn)的模式，用更短的符號代替它——和語言切分需要做的事情，在結(jié)構(gòu)上是一樣的。一個在極小眾場景里發(fā)明的壓縮算法，就這樣被搬到了自然語言處理。

把這頭大象裝進去，總共分三步：

第一步：把所有文字打散成最小的單位——字節(jié)。英文字母一個字節(jié)，中文漢字在 UTF-8 編碼（一種通用的字符編碼標(biāo)準(zhǔn)）下通常是三個字節(jié)。這一步不需要任何語言學(xué)知識，不管你是什么語言，到了字節(jié)這一層，大家都一樣。

第二步：掃描整個訓(xùn)練語料，統(tǒng)計哪兩個相鄰的字節(jié)出現(xiàn)在一起的次數(shù)最多。比如在英文里，t 和 h 經(jīng)常挨著出現(xiàn)，因為 the、that、this、think 這些高頻詞都以 th 開頭。好，把 t 和 h 合并成一個新的符號 th，分配一個新的編號。因為 0 到 255 已經(jīng)被基礎(chǔ)字節(jié)占了，所以第一個新符號從 256 開始。

第三步：在合并之后的基礎(chǔ)上，再統(tǒng)計。th 和 e 經(jīng)常一起出現(xiàn)——合并成 the，編號 257。th 和 a 也經(jīng)常一起——合并成 tha，編號 258。

如此反復(fù)，迭代幾萬次。每一次迭代，都把當(dāng)前出現(xiàn)頻率最高的一對合并成一個新的符號。

原理就是如此。沒有語法分析，沒有詞典，沒有任何人類對語言的理解。就是數(shù)數(shù)。

最終你會得到一張詞表——通常是幾萬到十幾萬個 Token。這張詞表里有什么？常見的英文單詞，比如 the、and、is，各自是一個完整的 Token。常見的中文漢字，比如「的」、「是」、「我」，也各自是一個完整的 Token。

但不常見的字、不常見的詞、不常見的組合——它們沒有攢夠足夠的頻率被合并成獨立的 Token，就只能留在碎片狀態(tài)。比如「Krzyzewski」——前杜克大學(xué)籃球主教練老 K 的姓——會被拆成五六個碎片。

但關(guān)鍵是：它不會消失。不管多生僻的詞，BPE 都能把它拆成已有的小碎片來表示。永遠不會輸出「UNK」。

還記得前面的三堵墻嗎？詞表爆炸、未登錄詞、沒有空格——BPE 一次性全部推倒。詞表大小可控，幾萬個就夠；任何新詞都能用現(xiàn)有碎片拼出來；不需要空格，因為切分完全由統(tǒng)計驅(qū)動。

如果你還記得前面說的齊普夫定律——少數(shù)詞出現(xiàn)頻率極高，大量詞出現(xiàn)頻率極低——你就會發(fā)現(xiàn) BPE 在做的事情，本質(zhì)上就是把齊普夫定律翻譯成了一張編碼表：高頻組合變成短編碼，低頻組合留在長編碼。和信息論的精神一脈相承：常見的東西應(yīng)該占更少的空間。

講到這里，值得思考一個問題：BPE 和之前拆 Token 的方式，最本質(zhì)的不同是什么？

從皮爾士到齊普夫到編譯器，我們都首先需要去理解規(guī)則，也就是理解 Type，才能去做分析和拆分。皮爾士說「the」是一個詞，那是人類的語言規(guī)范。編譯器說 `int` 是關(guān)鍵字，那是程序語言設(shè)計者寫下的規(guī)則。

一百一十年來，Token 可以是任何東西的替身，但 Type——那個定義「什么是一個有意義的單位」的權(quán)力——始終在人類手里。

但 BPE 不一樣。

BPE 根本不問「什么是一個詞」。它不關(guān)心語法，不關(guān)心詞根，不關(guān)心任何人類對語言的理解。它只做一件事：數(shù)字節(jié)對出現(xiàn)了多少次。the 成為一個 Token，不是因為有人告訴系統(tǒng) 「the 是英語里的定冠詞」，而僅僅是因為 t-h-e 這三個字節(jié)碰巧在訓(xùn)練數(shù)據(jù)里反復(fù)挨在一起。

換句話說——BPE 的詞表里沒有 Type?；蛘吒鼫?zhǔn)確地說，BPE 用 Token 的統(tǒng)計分布取代了 Type。它不需要人類來定義什么是一個有意義的語言單位，它讓頻率自己「涌現(xiàn)」出有意義的單位。

這也是為什么 BPE 是一件極其強大的武器——它不依賴任何語言學(xué)知識就能處理所有語言，因為它根本不需要知道什么是「詞」。Sennrich 在論文里解決的那個問題——生詞——也因此被徹底消解了：當(dāng)你的系統(tǒng)不再以「詞」為單位，就不存在「詞表里沒有的詞」這回事。任何文本都可以被拆到字節(jié)層面，然后從字節(jié)往上合并到它在詞表里能達到的最高層級。

但這還不是終點。

2018 年，OpenAI 發(fā)布 GPT-2 的時候，對 Sennrich 的 BPE 做了一個重要的改進。

Sennrich 原版的 BPE，起點是字符——英文字母、中文漢字、標(biāo)點符號這些。這意味著你得先告訴系統(tǒng)「這些是英文字符、這些是中文字符、這些是阿拉伯文字符」——雖然比「告訴系統(tǒng)什么是一個詞」要簡單得多，但你仍然需要一套字符表，而且不同語言的字符表不一樣。

OpenAI 的做法是再往下走一層：不從字符出發(fā)，從字節(jié)出發(fā)。

什么是字節(jié)？計算機里所有的東西——文字、圖片、音樂、視頻——在最底層都是 0 和 1。每 8 個 0 和 1 組成一個字節(jié)。一個字節(jié)能表示 256 種不同的狀態(tài)，從 0 到 255。

在 UTF-8 編碼下，一個英文字母恰好是一個字節(jié)。字母 A 是字節(jié) 65，B 是 66，z 是 122。一個中文漢字需要三個字節(jié)。比如「馬」這個字，在 UTF-8 里是三個字節(jié)：229、184、172。不是一個數(shù)字，是三個數(shù)字拼在一起。

改進版被稱作 Byte-level BPE，簡稱 BBPE，起點就是這 256 個基礎(chǔ)字節(jié)。不管你輸入的是英文、中文、阿拉伯文、緬甸文還是 emoji，到了字節(jié)這一層，大家都是 0 到 255 之間的數(shù)字，沒有區(qū)別。然后 BPE 在這個基礎(chǔ)上做合并——高頻的字節(jié)對合并成新符號，再合并，再合并，迭代幾萬次，生成最終的詞表。

BPE 的處理對象還是自然詞匯，但 BBPE 不再需要知道世界上有多少種文字。它不需要一張字符表，不需要知道中文和英文的區(qū)別，不需要任何關(guān)于語言的先驗知識。萬物皆字節(jié)，字節(jié)皆可合并。

這就是為什么 GPT 系列模型能「處理任何語言」——不是因為它學(xué)過所有語言，而是因為它的起點足夠低。低到了字節(jié)。在字節(jié)面前，所有語言一律平等。

聽起來很美好，美好到不現(xiàn)實，對吧？

不平等在訓(xùn)練之前已經(jīng)發(fā)生了。

英文字母一個字節(jié)就是一個字符，BPE 從一開始就在處理有意義的單位。而中文漢字需要三個字節(jié)，BPE 得先把這三個碎片合并回一個字，才能開始處理「有意義」的東西——它的起跑線就比英文靠后了一步。

再加上訓(xùn)練數(shù)據(jù)里英文內(nèi)容占絕對多數(shù)，英文的字節(jié)組合有大量的統(tǒng)計支撐去合并成完整的單詞甚至短語，而中文的字節(jié)組合能合并回單字就不錯了，更別說詞組。

舉個例子。在 GPT-5 的 Tokenizer 里，「字節(jié)跳動的短視頻平臺抖音」，總共 12 個漢字，需要用 11 個 Token；而英文版「ByteDance‘s short video platform Douyin」有 40 個字母，只需要 9 個 Token——要注意，ByteDance 和 Douyin 甚至都不是真正的英文單詞，但在英文里依然效率更高。

我們可以仔細看一下「字節(jié)跳動的短視頻平臺抖音」是怎么變成 Token 的。「視頻」和「平臺」都是一個 Token，「抖」占了兩個 Token。

這里多解釋一下，為什么一個漢字會占據(jù)兩個 Token。像前面所說，BBPE 不是面向字符編碼，而是面向字節(jié)編碼?！付丁箤?yīng)的編碼是 230、138、150，很可能在數(shù)據(jù)庫里，230 與 138 的組合是高頻的，但再加上 150 的話頻率就沒那么高了，所以編碼 230、138 對應(yīng)了一個 Token，而編碼 150 單獨對應(yīng)一個 Token。

每個字單獨編碼，偶爾兩個字能合并，但也有些字需要拆分。總體上，中文的 Token 消耗就是比英文高。

那這意味著什么呢？

大模型是按 Token 計費的。OpenAI 的 API，每一千個 Token 收多少錢，白紙黑字寫在價格表上。你消耗更多的 Token，你就付更多的錢。

而且不只是付錢的問題。大模型有上下文窗口（context window，模型一次能「記住」的內(nèi)容量）——就是它一次能處理的 Token 總量上限。GPT-4 的上下文窗口是 128k 個 Token。

這意味著如果你用英文，你可以在一次對話里塞進去大約十萬個英文單詞——差不多一本中等篇幅的小說。但如果你用中文，同樣的 128k 個 Token，你能塞進去的內(nèi)容就要少很多。

同樣的窗口，中文用戶能說的話更少。

付更多的錢，得到更少的空間，獲得更短的回答。這就是 Token 不平等的經(jīng)濟學(xué)。

但中文至少還算「大語言」。訓(xùn)練數(shù)據(jù)里中文內(nèi)容雖然不如英文多，但也有相當(dāng)?shù)囊?guī)模，足以讓常用漢字被合并成獨立的 Token。

真正慘的是那些小語種。

近年來，多項研究對這個問題做了系統(tǒng)的測算。他們發(fā)現(xiàn)，同樣的語義內(nèi)容，用不同語言表達所消耗的 Token 數(shù)量差異可以達到十幾倍。

英文是基準(zhǔn)——消耗最少的 Token，中文大約是英文的 1.5 到 2 倍，日語、韓語類似，緬甸語、藏語、阿姆哈拉語等語言，同樣的內(nèi)容可能需要英文 5 到 10 倍的 Token

為什么？因為這些語言在訓(xùn)練數(shù)據(jù)里幾乎不存在。BPE 在訓(xùn)練的時候沒有見過足夠多的緬甸文，所以緬甸文的字節(jié)組合從來沒有機會被合并——它們永遠停留在最碎的碎片狀態(tài)，每一個字都被拆成三四個字節(jié)碎片，每個碎片各占一個 Token。

想象一下：一個緬甸語用戶和一個英文用戶買同樣的 API 額度，但緬甸語用戶只能用英文用戶五分之一的信息量。同樣的錢，五分之一的服務(wù)。

這跟電報很像。

電報編碼——莫爾斯碼——是這樣設(shè)計的：最常用的字母用最短的編碼。E 是一個點，T 是一個劃，A 是一點一劃。而不常用的字母用更長的編碼——Q 是兩劃一點一劃，Z 是兩劃兩點。

但莫爾斯碼是基于英文字母頻率設(shè)計的。當(dāng)電報技術(shù)推廣到全世界的時候，其他語言怎么辦？中文怎么發(fā)電報？漢字不是字母，你不能直接用點和劃來編碼。

解決方案是：給每個漢字分配一個四位數(shù)字編碼——0001 到 9999。發(fā)電報的時候，先把漢字翻譯成數(shù)字，再把數(shù)字翻譯成莫爾斯碼發(fā)出去。一個漢字就是四個數(shù)字，每個數(shù)字都要用莫爾斯碼逐個發(fā)送。

一個英文字母平均需要 2 到 3 個莫爾斯碼信號。一個漢字呢？四個數(shù)字，每個數(shù)字平均需要 5 個信號——總共大約 20 個信號。

同樣一個意思，中文電報的信號量是英文的七八倍。電報是按字數(shù)或者按信號量計費的，所以中文電報比英文電報貴得多。直到八九十年代，小學(xué)生寫作文還有個練習(xí)，就是寫電報，看誰能用最少的字把事情說清楚。

類似的事情不停在重復(fù)。

打字機在 1870 年代發(fā)明，但卻是為拉丁字母設(shè)計的。最早的中文打字機是什么樣子？一個金屬托盤上排著幾千個鉛字，打字員用小桿子一個一個找，速度是英文的十分之一。當(dāng)時很多人，包括魯迅在內(nèi)，得出結(jié)論說中文是落后的文字，中國想要走向文明，漢字就得拉丁化。

對這段歷史有興趣的朋友，可以看看墨磊寧的《中文打字機》這本書，我就不展開了。我想說的是，近現(xiàn)代以來，每一次人類發(fā)明一種新的信息編碼系統(tǒng)——電報、打字機、計算機、AI——都會重新制造一次語言不平等。而且這種不平等的方向幾乎每一次都是一樣的：英文最便宜、最高效、最方便，然后按語言與英文的「距離」遞減。拉丁字母語言其次，東亞語言再次，南亞和非洲語言最末。

誰的語言最先被編碼，誰就是標(biāo)準(zhǔn)；后來者永遠在適配。

當(dāng)然，你可能說，技術(shù)是中立的，這不是故意歧視。BPE 不是故意歧視中文或者緬甸語，它只是按頻率統(tǒng)計做了最優(yōu)壓縮。

對。完全對。沒有人故意歧視。你不需要故意歧視，你只需要選擇一個「合理的」起點——比如「按頻率統(tǒng)計」——然后讓系統(tǒng)自動運行。不平等會自己涌現(xiàn)出來。

因為「頻率」不是一個客觀的自然屬性。它是由誰在生產(chǎn)內(nèi)容、誰的語言在互聯(lián)網(wǎng)上有最多的文字、誰的文化有最發(fā)達的出版和傳播體系來決定的。

BPE 把這種歷史性的權(quán)力不對稱，通過一個看似中性的算法，編碼進了 AI 系統(tǒng)的最底層。然后這個系統(tǒng)給全世界所有人使用。每一個人，每說一句話，都在為這種不平等付費。而他們中的大多數(shù)人甚至不知道 Token 是什么。

當(dāng)然這個事情也在改善。

我做了一個測試。打開 OpenAI 的 tokenizer 工具，輸入同一句中文：「馬嘉祺是時代少年團隊長，蔡徐坤不是?！谷缓笄袚Q不同版本的 tokenizer 看看各需要多少 Token：

GPT-3.0 的 tokenizer：38 個 Token， GPT-3.5 和 GPT-4.0 的 tokenizer：26 個 Token， GPT-5 的 tokenizer：15 個 Token

同一句話，三代模型，Token 消耗從 38 降到了 15，降了 60%。

這說明 OpenAI 在每一代模型中都在給中文更多的詞表席位，讓更多的漢字和常見詞組被完整保留，而不是拆成碎片。

中文用戶有十幾億人。市場夠大，商業(yè)動力夠強，所以 OpenAI 愿意優(yōu)化。中國自己的 AI 公司也在做同樣的事。豆包、千問、月之暗面等等——這些國產(chǎn)大模型都在自己訓(xùn)練 tokenizer，策略很簡單：在詞表里給中文更多的「席位」，讓更多的中文字符組合被合并成獨立的 Token，減少中文被拆碎的概率。

但詞表總?cè)萘渴怯邢薜摹PT-5 的詞表大約 20 萬個 Token。你給中文多一個席位，就得給其他語言少一個。中文有大公司撐腰。但前面提到的那些小語種，沒有人為它們做這件事。

緬甸語有五千多萬人在說。藏語呢？宗卡語呢？這些語言的 tokenizer 效率，從 GPT-3 到 GPT-5，大概率沒有同等幅度的改善。因為沒有商業(yè)動力，沒有十幾億用戶的市場在那里等著。

語料配比——用多少英文、多少中文、多少緬甸文來訓(xùn)練 BPE——本質(zhì)上是一個隱性的決策：誰的語言更值得被高效表示？這個決策沒有人公開討論過。它埋在技術(shù)文檔的某一行參數(shù)里。但它決定了數(shù)十億人使用 AI 的成本和體驗。

BPE 用頻率取代了 Type。它不再由人類來定義什么是一個有意義的單位，而是讓統(tǒng)計數(shù)據(jù)自己決定。這個選擇帶來了語言不平等——高頻的語言被完整保留，低頻的語言被碎成碎片。

但這個后果不只發(fā)生在語言和語言之間，它同樣發(fā)生在同一種語言內(nèi)部。

回到馬嘉祺。

我還是不能給出確切的結(jié)論，究竟為什么大模型不認識「馬嘉祺」，但可以肯定與 Token 生成有關(guān)。想象你在玩拼圖游戲。常見的圖案——比如「天安門」、「長城」——廠家會給你完整的大塊拼圖，一塊就能拼出來。但生僻的圖案——比如某個小眾景點——廠家沒有專門的大塊，你只能用很多小碎片拼湊。

「祺」這個字就是那個小眾景點。它在訓(xùn)練數(shù)據(jù)里出現(xiàn)的頻率不夠高，BPE 算法沒有給它分配一個完整的 Token，而是把它拆成了兩個小碎片。這兩個碎片單獨看都沒什么意義，就像拼圖的邊角料。

現(xiàn)在問題來了。當(dāng) AI 要生成「馬嘉祺」這個名字時，它需要先找到「馬」，再找到「嘉」，最后找到「祺」的那兩個小碎片，把它們按正確順序組裝起來。但 AI 在訓(xùn)練時很少見過這個組合——「馬嘉」加上那兩個特定碎片——出現(xiàn)的次數(shù)太少了。

相反，「馬俊杰」、「馬杰倫」這些組合，每個字都是完整的大塊 Token，而且這些組合在訓(xùn)練數(shù)據(jù)里出現(xiàn)過更多次。對 AI 來說，這些組合就像是一條被走過很多遍的路，路面平整、標(biāo)記清晰。而「馬嘉祺」就像是一條幾乎沒人走過的小路，路標(biāo)模糊、碎石遍地。

當(dāng) AI 要生成答案時，它會自然而然地選擇那條更平整的路。不是因為它「不認識」馬嘉祺，而是因為在它的 Token 系統(tǒng)里，「馬嘉祺」這條路從一開始就沒有被修好。

類似的問題還有很多，在大模型領(lǐng)域有個專門的名詞，就叫 Glitch Tokens（故障詞元），意思是那些會讓大模型運行出問題的 Token。

你可能會想：那把模型做大一點、做強一點，不就解決了？剛剛不也說，從 GPT-3 到 GPT-5，確實中文 Token 效率在提高。

很不幸，不能。

2026 年 1 月有一篇關(guān)于 Token 的論文《Say Anything but This: When Tokenizer Betrays Reasoning in LLMs（什么都能說，就是不能說這個：當(dāng) Tokenizer 背叛了大模型的推理能力）》。

研究者發(fā)現(xiàn)了一件事：tokenizer 給模型提供了一條「阻力最小的路徑」。當(dāng)模型需要生成某個答案的時候，如果詞表里恰好有一個現(xiàn)成的 Token 能直接輸出，模型就會走這條捷徑，而不是真正去推理。

我舉個例子讓你感受一下。假設(shè)模型需要回答「52 加 37 等于多少」。正確答案是 89。但如果詞表里恰好有一個 Token 對應(yīng) 「88」，而且這個 Token 在模型的內(nèi)部空間里離「89」很近、出現(xiàn)頻率很高——模型可能就會滑向「88」。不是因為它不會算，而是因為「88」這條路更絲滑。

研究者做了一件反直覺的事：他們把這些捷徑堵住了——強制移除那些容易造成混淆的 Token，逼模型走推理的路。

結(jié)果呢？模型反而表現(xiàn)更好了。

這說明什么？說明模型本身有推理能力。問題不在「腦子」——在「眼睛」。Tokenizer 是在模型訓(xùn)練之前就凍結(jié)的感知器官，模型再強也改不了它。

這就好比你給一個天才畫家戴上一副度數(shù)不對的眼鏡，而且這副眼鏡焊死在臉上了，這輩子摘不下來。他畫技高超，構(gòu)圖、色彩、光影都對，但遠處那個人名字里的生僻字，他就是看不清。

不是腦子的問題，是眼睛的問題。

論文得出結(jié)論：模型變大不能解決這個問題，Scaling 無效。因為問題在架構(gòu)層面——tokenizer 在模型訓(xùn)練之前就固定了，模型再大、參數(shù)再多，也是在一個被固定的感知框架里訓(xùn)練出來的。

眼睛的分辨率，在出生前就定了。這就是 BPE 放棄 Type 的真正代價。

當(dāng) Type 是人定義的時候——比如在編譯器里——人可以確保每一個被定義的類別都是完整的、精確的、沒有歧義的。`int` 就是 `int`，絕不會和 `integer` 混淆，因為設(shè)計者明確規(guī)定了它們的區(qū)別。

但當(dāng)你把 Type 的定義權(quán)交給頻率統(tǒng)計，你得到的「類別」就不再有這種保證了。高頻的組合被識別得又快又準(zhǔn)，低頻的組合就模糊、破碎、容易混淆。

不是均勻的不完美，而是有一條清晰的斷裂線——沿著頻率分布的長尾畫下去。

這意味著什么？

意味著你叫「張偉」，AI 不會寫錯你的名字。但你叫「馬嘉祺」，它可能每次都寫錯。你用英文問它問題，它的回答精準(zhǔn)而流暢。你用緬甸語問同一個問題，它的回答碎片化、不連貫、甚至可能是錯的。

這不是兩種不同的 AI。是同一個 AI，用同一個 tokenizer，在頻率曲線的兩端展現(xiàn)出的兩張面孔。

在高頻的那一端——英文、常用詞、熱門話題——它看起來無所不知、無所不能。這是你在社交媒體上看到的那個 AI，是科技公司在發(fā)布會上展示的那個 AI，是黃仁勛說價值萬億美元的那個 AI。

在低頻的那一端——小語種、生僻字、冷門知識——它變得遲鈍、模糊、不可靠。但這一端的用戶，恰好是那些最缺少替代信息來源的人。

在 Token 的世界里，「罕見」和「不重要」在統(tǒng)計上是同一件事。

這就是為什么法律文本用 AI 輔助的時候，罕見的術(shù)語可能會被模糊處理。醫(yī)療診斷用 AI 輔助的時候，罕見病的名字可能會變成碎片。教育內(nèi)容用 AI 生成的時候，少數(shù)語言的知識可能會被磕磕絆絆地拼湊。不是有人故意忽略了這些——而是這個系統(tǒng)從一開始就沒有能力區(qū)分「罕見」和「不重要」。

AI 最不準(zhǔn)確的地方，恰好是人們最需要它準(zhǔn)確的地方。

這也是為什么我在開頭說，「詞元」不是一個好的翻譯。

「詞」字暗示 Token 是一個「詞」層面的單位。但你現(xiàn)在已經(jīng)知道了，Token 不是詞。它可以是一個完整的詞，也可以是半個字，也可以是一串毫無意義的字節(jié)碎片。BPE 生成的 Token 不遵循任何語言學(xué)上對「詞」的定義——事實上，BPE 的全部意義就在于放棄了「詞」這個概念。

「元」字有「基本單位」的意思——元素、單元、元件。這暗示 Token 是一個穩(wěn)定的、自然的、有明確邊界的基本粒子，好像它是語言內(nèi)在結(jié)構(gòu)的一部分，甚至是詞的某種本質(zhì)特征。但 Token 的邊界不是由語言的自然結(jié)構(gòu)決定的，而是由訓(xùn)練數(shù)據(jù)的頻率分布決定的。換一批訓(xùn)練數(shù)據(jù)，同一個字可能從一個 Token 變成兩個 Token，或者從兩個變成一個。它是一個統(tǒng)計產(chǎn)物，不是一個語言學(xué)概念。

前面說過，Token 是語言的替代物——它不是語言本身，更不是語言的某種本質(zhì)，它只是一個代替語言被計算機處理的編號。但「詞元」這個譯名恰恰把這層關(guān)系遮蔽了。這就好比你造了一輛沒有方向盤的自動駕駛汽車，然后給它起名叫「方向盤號」。

但不管叫它什么，Token 已經(jīng)在這里了，還成了黃仁勛口中所說的「萬億美元市場的基礎(chǔ)」。他說，NVIDIA 的 AI 芯片是「Token 的鑄造機」。

你可能會想：既然 Token 有這么多問題——bug、不平等、幻覺——為什么它還能成為萬億美元市場的基礎(chǔ)？

因為權(quán)力的基礎(chǔ)，從來就不是完美的東西。

美元。1971 年之前，美元和黃金掛鉤——一盎司黃金 35 美元，白紙黑字。那時候美元有一個「本體」在支撐它：黃金。1971 年，尼克松取消了金本位。從那以后，美元靠什么？靠大家相信它有價值。

2008 年金融危機，全世界發(fā)現(xiàn)——度量衡沒變，但桶里是空的。那些評級為 AAA 的金融產(chǎn)品，底下是一層一層的次級貸款。替身看著光鮮亮麗，本體早就爛了。

但美元崩潰了嗎？沒有。它繼續(xù)是全球儲備貨幣。為什么？因為在它崩潰之前，替代它的成本已經(jīng)高到?jīng)]人承受得起。全世界的貿(mào)易合同用美元結(jié)算，全世界的央行用美元儲備，全世界的大宗商品用美元定價。你可以說美元有問題，但你拿什么替代它？歐元？人民幣？每一種替代方案的切換成本都是天文數(shù)字。

比特幣。一個算法加一群人的信仰。能耗荒謬，價格劇烈波動，每秒處理的交易量還不如一家縣城超市的收銀臺。但沒有阻止它成為一種權(quán)力載體。

甚至語言本身。漢字筆畫順序誰規(guī)定的？英語拼寫為什么這么不規(guī)則？為什么 Wednesday 中間有一個不發(fā)音的 d？為什么 island 里有一個不發(fā)音的 s？沒有人「設(shè)計」了這些。都是歷史偶然的層層累積——某個世紀(jì)的某個抄寫員寫錯了一個字，后人將錯就錯，錯誤凝固成了規(guī)范。但語言照樣運轉(zhuǎn)，照樣承載了人類全部的文明。

Token 的故事不是一個騙局，也不是一個幻覺，它只是一個偶然中誕生又在歷史里起起伏伏最終擁有了權(quán)力的詞語。

1906 年，皮爾士在研究邏輯圖時提出了 Type-Token 區(qū)分，他只是想數(shù)清楚紙上有幾個圓圈。

1994 年，Philip Gage 在《C Users Journal》上發(fā)表了一個壓縮小工具，他只是想在內(nèi)存有限的工控設(shè)備上節(jié)省幾個字節(jié)。

2016 年，Rico Sennrich 把這個壓縮算法用到了神經(jīng)機器翻譯，他只是想解決翻譯中的生詞問題。

2018 年，OpenAI 把 BPE 改成了 Byte-level，他們只是想讓 GPT-2 能處理更多語言。

每一步都是合理的。每一步都是局部的。每一步都解決了當(dāng)時的問題。

這就是權(quán)力最常見的誕生方式，不是有人坐下來精心設(shè)計了一個統(tǒng)治系統(tǒng)——而是一連串當(dāng)時看起來合理甚至無關(guān)緊要的選擇，在沒人注意的情況下，凝固成了新的秩序。

我們都知道，現(xiàn)在是一個歷史轉(zhuǎn)折時刻，不僅僅是通用人工智能取代人類，也是人類正把什么是意義、什么是規(guī)則的定義權(quán)交給統(tǒng)計數(shù)據(jù)。

我們所有人，正站在這個轉(zhuǎn)折的中間，還沒來得及想清楚這意味著什么，就已經(jīng)在擁抱它了。

還可以看這些

歡迎來我的知識星球

周二到周四，我將每天提供一份互聯(lián)網(wǎng)/科技/消費等行業(yè)的觀察，可能是獨家消息，可能是趨勢分析，也可能是不方便在其他渠道公開的內(nèi)容。

星球初建，前 20 名成員將享受系統(tǒng)可能設(shè)定的最低價 50/年，之后隨著內(nèi)容增多，價格也會提高。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.