国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

萬字解讀 | Token 要成新貨幣了,但你真的知道它是什么嗎?

0
分享至


黃仁勛說,Token 會是一個萬億美元產(chǎn)業(yè)的基礎(chǔ),但很少人真的理解,到底什么是 Token。

馬俊杰是中國內(nèi)地知名男藝人,現(xiàn)為時代少年團隊長、主場兼 C 位,2002 年 12 月 12 日出生于河南鄭州。

剛剛那段話是從某個 AI 大模型工具里復(fù)制粘貼下來的,是關(guān)于問題「馬嘉祺是誰」的回答。

沒錯,是馬嘉祺,但 AI 會自動替換成「馬俊杰」,有時候也會替換成「馬杰倫」、「馬祺祺」等。

可能有朋友說,這就是 AI 在胡編亂造。還真不是,除了名字以外,其他的信息都非常正確。

作為人類我們也會有類似的事情,經(jīng)常我們會說,「你記不記得那個誰,就那個誰,練習(xí)時長兩年半,喜歡唱、跳、Rap、籃球,哎叫啥來著」。

就是你能說出很多精準(zhǔn)的細節(jié),但就是想不起那個名字,這在心理學(xué)上叫「舌尖現(xiàn)象」。

我們說話時大腦要走兩個步驟:第一步,語義提取——大腦鎖定了這個「東西」的所有屬性,長相、功能、感覺。第二步,音韻提取——大腦去「檔案柜」里找對應(yīng)的那個名字發(fā)音。

舌尖現(xiàn)象的核心在于:你已經(jīng)完成了第一步(理解了它),但卡在了第二步(沒找到那個詞)。因為我們?nèi)祟惥褪且热ダ斫馐澜?,然后才能去表達世界。

這個事情再繼續(xù)討論下去,就是維特根斯坦那句「我語言的局限,意味著我世界的局限?!惯@就會變得很復(fù)雜,但我想知道的是,那 AI 呢?「馬嘉祺」這樣的錯誤,是不是也跟它如何理解世界有關(guān)系?

AI 理解世界,跟人差不多是正好相反的。我特別簡化地來說,人是得先有具體的東西,然后才有一張詞匯表;AI 是先有一張詞匯表,然后去找對應(yīng)的描述和概念。

這么說比較抽象,我舉個例子。

小時候,你看到一個紅色的、帶小點的東西。你摸到它坑洼的表皮,聞到那股特殊的清香,咬下去感受到酸甜的汁水。你的大腦里形成了一個關(guān)于這個事物的完整綜合體——顏色、形狀、氣味、味覺、手感。大人們告訴你,這個綜合體叫「草莓」。


當(dāng)你突然說不出「草莓」這兩個字時,你腦子里依然有那個紅色的影子、那個味道、那種口感。

但 AI 不一樣。

AI 的「大腦」——也就是模型——里先有一張巨大的清單,里面有個詞匯叫「草莓」,或者 strawberry。AI 在訓(xùn)練中讀了億萬次帶有 strawberry 的句子,它發(fā)現(xiàn) strawberry 經(jīng)常和 red、sweet、fruit 出現(xiàn)在一起。通過這些統(tǒng)計概率,AI 在自己的數(shù)學(xué)模型里「拼湊」出了一個關(guān)于草莓的描述。它并沒有真的見過、聞過、嘗過草莓,它只是通過這個標(biāo)簽背后的數(shù)據(jù)關(guān)聯(lián),「模擬」出了它應(yīng)該是什么樣子。

甚至,在 AI 的詞匯表里,都沒有「草莓」或者「strawberry」這個詞,它有的只是一串編號,我隨便說,這個編號可能是 23764。這個編號,就叫做 Token,也就是大模型理解世界的開始。

用大模型,尤其最近裝小龍蝦 OpenClaw 的人,對這個詞肯定非常熟悉。不管你在 AI 里做什么,都需要消耗 Token,很多大模型也都是按 Token 計費的。每次你跟 ChatGPT 對話、用 Claude Code 寫代碼、讓 AI 幫你翻譯一段話,你消耗的就是 Token。你買的會員,本質(zhì)上是在買 Token 的額度。

現(xiàn)在 Token 這個詞已經(jīng)大大超過了科技里的含義,有的人說 Token 可以當(dāng)員工福利,還有的人說 Token 可以當(dāng)工資——當(dāng)然了,說這話的無一例外都是老板。而更大的老板,NVIDIA 的 CEO 黃仁勛在 2026 年 3 月 17 號 GTC 大會上說了一句話:Token 將會是一個萬億美元市場的基礎(chǔ)。萬億。Trillion.

最近,Token 也有了中文譯名,叫詞元。這個翻譯我覺得并不好,原因后面會說。不過為 Token 尋找中文譯名這個行為本身,說明這個詞的影響正在超出從業(yè)人士而走向大眾——一個中文名字總比英文名字用起來方便,而且更方便出現(xiàn)在各類政策、規(guī)定甚至法律當(dāng)中。

為了方便,在這里我們依然還是叫 Token。那問題是,Token 到底是什么?


現(xiàn)在常見的用法,Token 有三個含義。

一個是令牌的意思,就是你登錄一個網(wǎng)站之后,服務(wù)器發(fā)給你的一串隨機字符,證明「這個人驗證過了」。它本身沒有任何含義,但代表了你的身份。這個概念從 1970 年代就有了。

第二個是加密貨幣里的 Token,也就是代幣。2017 年 ICO 熱潮的時候,這個詞幾乎天天上新聞。各種加密貨幣、數(shù)字代幣,本質(zhì)上就是一串代碼,沒有任何物理實體,但代表了某種價值。

第三個,就是我們今天要聊的——AI 大模型里的 Token。如果用最簡單的話來概括,Token 是語言的替代物。

要搞清楚 Token 是怎么變成今天這個樣子的,我們得從頭講起。

1906 年,美國哲學(xué)家查爾斯·桑德斯·皮爾士(Charles Sanders Peirce)在一篇論文里提出了一個區(qū)分,叫 Type-Token distinction(類型-標(biāo)記區(qū)分)。

皮爾士是干什么的呢?他是美國符號學(xué)的奠基人,也是一個邏輯學(xué)家。他當(dāng)時在做一件很有野心的事情:發(fā)明一套用圖形來做邏輯推理的系統(tǒng),他管它叫「存在圖」(Existential Graphs)。

這個理論極其復(fù)雜,沒辦法在這里展開講。簡單來說,皮爾士試圖把人類的邏輯都用圖示的方式表達出來。就像將軍打仗要看地圖一樣——皮爾士自己就舉過這個例子——你不會說「國土就在那里啊,要地圖干什么?」地圖讓你看到地形里隱藏的關(guān)系,邏輯圖讓你看到思維里隱藏的關(guān)系。


在存在圖里,基本上就是圈圈套圈圈的形式,但它遇到一個問題。比如他在圖上畫了一個圓圈,代表「否定」。然后他在另一個地方又畫了一個圓圈,也代表「否定」?,F(xiàn)在問題來了——這是「兩個圓圈」還是「同一個圓圈出現(xiàn)了兩次」?

如果你說是兩個圓圈,那它們之間是什么關(guān)系?它們?yōu)槭裁匆馑家粯樱咳绻阏f是同一個圓圈出現(xiàn)了兩次,那那個「同一個」的圓圈在哪里?它不在紙上的任何一個具體位置。

這不是在抬杠。對于一個試圖把邏輯推理嚴(yán)格形式化的人來說,這是一個地基級別的問題。如果你連「這個圖上有幾個東西」都說不清楚,你怎么去定義推理規(guī)則?

皮爾士用了一個很日常的例子來解釋他的解決方案。他說,你翻開一本書,一頁紙上大概有二十個 「the」。如果你在數(shù)這本書有多少字,那這二十個 the 就是二十個詞。但從另一個意義上說,英語里只有一個 「the」。那二十個只是它的二十次出現(xiàn)。

那個唯一的、抽象的 「the」——不存在于任何一頁紙上、不能被任何聲音說出來的那個 「the」——皮爾士叫它 Type(類型)。而紙上每一個具體的、印在那個位置的 the,他叫它 Token(標(biāo)記)。

Type 是規(guī)則,Token 是實例。Type 是抽象的形式,Token 是那個形式每一次具體的、物理的顯現(xiàn)。

用他自己的話說——Type 不存在,但它決定了存在的東西。


這個區(qū)分解決了他的問題。從此他可以精確地說:邏輯圖上的一個符號是一個 Token——一個特定位置上的具體實例;而這個符號所遵循的規(guī)則是一個 Type——一個不依賴于任何具體位置的一般法則。兩個圓圈是兩個 Token,但它們是同一個 Type 的兩次出現(xiàn)。

那這個區(qū)分的效果怎么樣?

說實話,皮爾士的存在圖在他活著的時候幾乎沒有引起什么反響。他的論文寫得太晦澀了,而且那個年代數(shù)學(xué)家和邏輯學(xué)家們更習(xí)慣用線性的代數(shù)符號來做推理,覺得畫圖是繞遠路。

但皮爾士無意間抓住了一個比邏輯圖更根本的問題:任何符號系統(tǒng)——不管是語言、代碼還是邏輯——都同時存在于兩個層面。一個是抽象的規(guī)則層面,一個是具體的實例層面。你必須同時追蹤這兩個層面,否則你什么都說不清楚。

于是 Type-Token 這對概念被其他領(lǐng)域的人拿走了。1930 年代,哈佛的語言學(xué)家齊普夫(George Zipf)用 Token 來數(shù)每一個詞每一次出現(xiàn),用 Type 來分類每一個不重復(fù)的詞形,然后把詞按頻率從高到低排列。

他發(fā)現(xiàn)了一個規(guī)律——排名第一的詞出現(xiàn)的次數(shù),大約是排名第二的兩倍,是排名第三的三倍,是排名第一百的一百倍。排名乘以頻率,幾乎是一個常數(shù)。這就是齊普夫定律(Zipf‘s Law)。它不只是英語的規(guī)律——中文、法語、日語、拉丁語,幾乎所有人類語言都服從同一個分布。

緊接著,1944 年,心理學(xué)家約翰遜提出了 Type-Token Ratio(類型-標(biāo)記比)——用來衡量一段文本的詞匯豐富度。這個指標(biāo)到今天還在用。皮爾士那個「一頁紙上有幾個 the」的哲學(xué)問題,就這樣變成了可以量化、可以畫曲線、可以發(fā)現(xiàn)規(guī)律的科學(xué)工具。

然后,計算機來了。


1960 年代,編譯原理。這是 Token 在數(shù)字世界的第一次生命——它成了語法的替身。

當(dāng)你寫下一行代碼——比如「int x = 5;」——計算機并不能直接讀懂它。編譯器做的第一件事,就是把這行代碼切碎。「int」是一個 Token,代表「整數(shù)類型」?!竫」是一個 Token,代表變量名?!?」是一個 Token,代表賦值?!?」也是一個 Token,代表語句結(jié)束。

編譯器不理解代碼的「意思」。它只需要把連續(xù)的字符流切成一個個有身份的小單元,再按規(guī)則組裝。這個過程就叫 tokenization(詞法分析)。

有意思的是,編譯器里的 tokenization 和皮爾士的 Type-Token 完全對應(yīng)。編譯器先定義一套 Type——關(guān)鍵字、加減乘除這些運算符號、變量名這些類別——然后在代碼中識別出每一個 Token,也就是這些 Type 的每一次具體出現(xiàn)。第一個「int」和第一百個「int」是同一個 Type 的不同 Token——和皮爾士數(shù) 「the」 的邏輯一模一樣。

到這里,就和我們現(xiàn)在使用的 Token 意思基本差不多了——都是把一種語言分割,然后方便計算機識別。但還有一個問題是之前沒有遇到的:到底怎么分割自然語言?

編譯器切代碼,其實是很幸福的一件事。因為代碼是人造的,它有嚴(yán)格的語法規(guī)則?!竔nt」就是「int」,分號就是分號,空格就是分隔符。你不需要猜,規(guī)則——也就是那個 Type——已經(jīng)預(yù)先確定好了,替你決定了從哪里切。

但自然語言不是人造的?;蛘哒f,它是幾十億人在幾萬年里「合造」的,沒有人坐下來寫過一份規(guī)格說明書。


英語還好一點。單詞之間有空格,你至少知道從哪里切?!窱 love cats」 三個詞,三個 Token,清清楚楚。

但這個「按空格切」的方案,一碰到現(xiàn)實就碎了。三堵墻同時堵在路上。

第一堵墻:詞表爆炸。英語里 cat 是一個詞,cats 是一個詞,love、loved、loving 也都各是一個詞。如果每個詞形都算一個獨立的 Token,英語光是有記錄的詞形就有幾十萬個。德語更夸張,它可以把幾個詞黏在一起變成一個超長的復(fù)合詞——你可能見過那個著名的例子,Rindfleischetikettierungsüberwachungsaufgabenübertragungsgesetz。這是一個關(guān)于牛肉標(biāo)簽監(jiān)管職責(zé)轉(zhuǎn)讓的法律用語,六十三個字母黏在一起算一個詞。你的詞表要不要收錄它?如果要收錄,那類似的復(fù)合詞有多少個?詞表需要無限大。

第二堵墻:未登錄詞。你用訓(xùn)練數(shù)據(jù)建了一張詞表,里面有十萬個詞。然后用戶輸入了一個不在詞表里的詞——一個品牌名、一個網(wǎng)絡(luò)流行語、一個拼寫錯誤。怎么辦?早期的做法是把所有不認識的詞統(tǒng)一標(biāo)記成一個特殊符號「UNK」,意思是「未知」。這就形成了一個悖論:比如「蔡徐坤」不在詞表里,你去問 AI「我想了解蔡徐坤」,AI 看到的是「我想了解 UNK 」。你整句話里最關(guān)鍵的那個信息,對 AI 來說是一片空白。

第三堵墻:很多語言沒有空格。中文沒有空格,日語沒有空格,泰語沒有空格。全世界大多數(shù)人說的語言,詞和詞之間是不分開寫的。比如「乒乓球拍賣了多少錢」,從哪里切?乒乓球、拍、賣,還是乒乓球、拍賣?「了」算一個詞還是一個語法標(biāo)記?這不是一個有標(biāo)準(zhǔn)答案的問題。中文分詞到今天都是自然語言處理里的經(jīng)典難題。

所以你看,「按空格切」這個最直覺的方案,只在很有限的條件下管用。

大家想了別的辦法。往上走,詞干提取,把 cats 還原成 cat,把 loving 還原成 love,這樣詞表就小了。但你得為每種語言手寫規(guī)則,英語的不適用于德語,德語的不適用于中文,對非歐洲語言基本沒用。往下走,按字母切?!竓ello」 切成 h、e、l、l、o,詞表只有 26 個字母加一些符號,絕對不會爆炸,也絕對不會碰到未登錄詞。但代價巨大——序列太長了。一個句子按詞切只有 50 個 Token,按字母切可能有 300 個。序列越長,訓(xùn)練越慢,效果越差。

上也不通,下也不通,中間也沒有通用的方案。

直到 2016 年。


2015 年到 2016 年,神經(jīng)機器翻譯——就是用深度學(xué)習(xí)做翻譯——正在快速崛起。Google、百度都在押注這個方向。效果比傳統(tǒng)的統(tǒng)計翻譯好了一大截,但有一個問題始終解決不了:生詞。

神經(jīng)翻譯模型需要一張固定的詞表,通常是三萬到五萬個詞。但翻譯天生就是一個開放詞匯的問題——你永遠不知道用戶會輸入什么。一個德國城市的名字、一個新成立公司的名字、一個剛發(fā)明的科學(xué)術(shù)語,只要它不在詞表里,模型就只能輸出 「UNK」——「我不認識」。

之前的解決辦法是「查詞典兜底」——碰到不認識的詞,就去詞典里找對應(yīng)的翻譯硬塞進去。但這個做法很笨拙。首先你得有詞典,其次詞典里也不一定有這個詞,最后硬塞進去的翻譯經(jīng)常和前后文格格不入。

愛丁堡大學(xué)的 Rico Sennrich 和他的同事——Barry Haddow 和 Alexandra Birch——意識到一件事:其實很多「生詞」并不是真的全新的。人名可以通過音譯處理,復(fù)合詞可以拆開翻譯,同源詞可以通過形態(tài)變換識別。也就是說,很多詞的翻譯可以在比「詞」更小的單位上完成。

問題是:這個「更小的單位」是什么?怎么切?

Sennrich 的思路很簡單:別讓人來決定怎么切了,讓數(shù)據(jù)自己決定。他用了一個叫 BPE 的算法——Byte Pair Encoding(字節(jié)對編碼)。

這個算法也不是 Sennrich 的原創(chuàng),事實上在 1994 年就有人提出來了,作者叫 Philip Gage,文章發(fā)表在 《The C Users Journal》雜志上。這不是一個學(xué)術(shù)期刊,而是一本面向 C 語言程序員的實用技術(shù)雜志,主要刊登編程技巧和小工具。放在今天大概相當(dāng)于在 Medium 或者某個技術(shù)博客上發(fā)了篇帖子。

這也不是一個很好的壓縮方案。Gage 在論文里自己就承認,BPE 的壓縮率不如當(dāng)時已經(jīng)廣泛使用的 LZW 算法——就是 zip 文件使用的那種算法。

他說 BPE 的優(yōu)勢是解壓程序特別小、解壓速度特別快,適合一些內(nèi)存有限的場景。多有限呢?比如早期的工業(yè)控制器、某些專用儀器、資源極其受限的微處理器。這些設(shè)備可能只有幾 KB 的內(nèi)存,一個標(biāo)準(zhǔn)的 LZW 解壓庫放不進去,但 BPE 的解壓代碼幾十行 C 就能搞定。

但更廣泛的場景——也就是個人電腦里——雖然內(nèi)存遠遠不能跟現(xiàn)在相比,但也已經(jīng)是 MB 級別的了,反而硬盤空間和網(wǎng)絡(luò)帶寬緊張,需要更高的壓縮率。

它的唯一優(yōu)勢(解壓程序?。┲辉跇O少數(shù)人關(guān)心的場景里有意義,而它的劣勢(壓縮率不如主流方案)在大多數(shù)人關(guān)心的場景里很明顯。

這就好比說,你有一臺冰箱,制冷不行,耗電也不行,唯一的優(yōu)勢是這是個大象形狀的,方便把大象裝進去。

現(xiàn)在大象來了。

整個人類的語言庫,就是那頭巨大無比的大象。Sennrich 看出了一個關(guān)鍵的類比:數(shù)據(jù)壓縮在做的事情——找到重復(fù)出現(xiàn)的模式,用更短的符號代替它——和語言切分需要做的事情,在結(jié)構(gòu)上是一樣的。一個在極小眾場景里發(fā)明的壓縮算法,就這樣被搬到了自然語言處理。


把這頭大象裝進去,總共分三步:

第一步:把所有文字打散成最小的單位——字節(jié)。英文字母一個字節(jié),中文漢字在 UTF-8 編碼(一種通用的字符編碼標(biāo)準(zhǔn))下通常是三個字節(jié)。這一步不需要任何語言學(xué)知識,不管你是什么語言,到了字節(jié)這一層,大家都一樣。

第二步:掃描整個訓(xùn)練語料,統(tǒng)計哪兩個相鄰的字節(jié)出現(xiàn)在一起的次數(shù)最多。比如在英文里,t 和 h 經(jīng)常挨著出現(xiàn),因為 the、that、this、think 這些高頻詞都以 th 開頭。好,把 t 和 h 合并成一個新的符號 th,分配一個新的編號。因為 0 到 255 已經(jīng)被基礎(chǔ)字節(jié)占了,所以第一個新符號從 256 開始。

第三步:在合并之后的基礎(chǔ)上,再統(tǒng)計。th 和 e 經(jīng)常一起出現(xiàn)——合并成 the,編號 257。th 和 a 也經(jīng)常一起——合并成 tha,編號 258。

如此反復(fù),迭代幾萬次。每一次迭代,都把當(dāng)前出現(xiàn)頻率最高的一對合并成一個新的符號。

原理就是如此。沒有語法分析,沒有詞典,沒有任何人類對語言的理解。就是數(shù)數(shù)。

最終你會得到一張詞表——通常是幾萬到十幾萬個 Token。這張詞表里有什么?常見的英文單詞,比如 the、and、is,各自是一個完整的 Token。常見的中文漢字,比如「的」、「是」、「我」,也各自是一個完整的 Token。

但不常見的字、不常見的詞、不常見的組合——它們沒有攢夠足夠的頻率被合并成獨立的 Token,就只能留在碎片狀態(tài)。比如 「Krzyzewski」——前杜克大學(xué)籃球主教練老 K 的姓——會被拆成五六個碎片。

但關(guān)鍵是:它不會消失。不管多生僻的詞,BPE 都能把它拆成已有的小碎片來表示。永遠不會輸出「UNK」。

還記得前面的三堵墻嗎?詞表爆炸、未登錄詞、沒有空格——BPE 一次性全部推倒。詞表大小可控,幾萬個就夠;任何新詞都能用現(xiàn)有碎片拼出來;不需要空格,因為切分完全由統(tǒng)計驅(qū)動。

如果你還記得前面說的齊普夫定律——少數(shù)詞出現(xiàn)頻率極高,大量詞出現(xiàn)頻率極低——你就會發(fā)現(xiàn) BPE 在做的事情,本質(zhì)上就是把齊普夫定律翻譯成了一張編碼表:高頻組合變成短編碼,低頻組合留在長編碼。和信息論的精神一脈相承:常見的東西應(yīng)該占更少的空間。


講到這里,值得思考一個問題:BPE 和之前拆 Token 的方式,最本質(zhì)的不同是什么?

從皮爾士到齊普夫到編譯器,我們都首先需要去理解規(guī)則,也就是理解 Type,才能去做分析和拆分。皮爾士說 「the」 是一個詞,那是人類的語言規(guī)范。編譯器說 `int` 是關(guān)鍵字,那是程序語言設(shè)計者寫下的規(guī)則。

一百一十年來,Token 可以是任何東西的替身,但 Type——那個定義「什么是一個有意義的單位」的權(quán)力——始終在人類手里。

但 BPE 不一樣。

BPE 根本不問「什么是一個詞」。它不關(guān)心語法,不關(guān)心詞根,不關(guān)心任何人類對語言的理解。它只做一件事:數(shù)字節(jié)對出現(xiàn)了多少次。the 成為一個 Token,不是因為有人告訴系統(tǒng) 「the 是英語里的定冠詞」,而僅僅是因為 t-h-e 這三個字節(jié)碰巧在訓(xùn)練數(shù)據(jù)里反復(fù)挨在一起。

換句話說——BPE 的詞表里沒有 Type?;蛘吒鼫?zhǔn)確地說,BPE 用 Token 的統(tǒng)計分布取代了 Type。它不需要人類來定義什么是一個有意義的語言單位,它讓頻率自己「涌現(xiàn)」出有意義的單位。

這也是為什么 BPE 是一件極其強大的武器——它不依賴任何語言學(xué)知識就能處理所有語言,因為它根本不需要知道什么是「詞」。Sennrich 在論文里解決的那個問題——生詞——也因此被徹底消解了:當(dāng)你的系統(tǒng)不再以「詞」為單位,就不存在「詞表里沒有的詞」這回事。任何文本都可以被拆到字節(jié)層面,然后從字節(jié)往上合并到它在詞表里能達到的最高層級。


但這還不是終點。

2018 年,OpenAI 發(fā)布 GPT-2 的時候,對 Sennrich 的 BPE 做了一個重要的改進。

Sennrich 原版的 BPE,起點是字符——英文字母、中文漢字、標(biāo)點符號這些。這意味著你得先告訴系統(tǒng)「這些是英文字符、這些是中文字符、這些是阿拉伯文字符」——雖然比「告訴系統(tǒng)什么是一個詞」要簡單得多,但你仍然需要一套字符表,而且不同語言的字符表不一樣。

OpenAI 的做法是再往下走一層:不從字符出發(fā),從字節(jié)出發(fā)。


什么是字節(jié)?計算機里所有的東西——文字、圖片、音樂、視頻——在最底層都是 0 和 1。每 8 個 0 和 1 組成一個字節(jié)。一個字節(jié)能表示 256 種不同的狀態(tài),從 0 到 255。

在 UTF-8 編碼下,一個英文字母恰好是一個字節(jié)。字母 A 是字節(jié) 65,B 是 66,z 是 122。一個中文漢字需要三個字節(jié)。比如「馬」這個字,在 UTF-8 里是三個字節(jié):229、184、172。不是一個數(shù)字,是三個數(shù)字拼在一起。

改進版被稱作 Byte-level BPE,簡稱 BBPE,起點就是這 256 個基礎(chǔ)字節(jié)。不管你輸入的是英文、中文、阿拉伯文、緬甸文還是 emoji,到了字節(jié)這一層,大家都是 0 到 255 之間的數(shù)字,沒有區(qū)別。然后 BPE 在這個基礎(chǔ)上做合并——高頻的字節(jié)對合并成新符號,再合并,再合并,迭代幾萬次,生成最終的詞表。

BPE 的處理對象還是自然詞匯,但 BBPE 不再需要知道世界上有多少種文字。它不需要一張字符表,不需要知道中文和英文的區(qū)別,不需要任何關(guān)于語言的先驗知識。萬物皆字節(jié),字節(jié)皆可合并。

這就是為什么 GPT 系列模型能「處理任何語言」——不是因為它學(xué)過所有語言,而是因為它的起點足夠低。低到了字節(jié)。在字節(jié)面前,所有語言一律平等。

聽起來很美好,美好到不現(xiàn)實,對吧?


不平等在訓(xùn)練之前已經(jīng)發(fā)生了。

英文字母一個字節(jié)就是一個字符,BPE 從一開始就在處理有意義的單位。而中文漢字需要三個字節(jié),BPE 得先把這三個碎片合并回一個字,才能開始處理「有意義」的東西——它的起跑線就比英文靠后了一步。

再加上訓(xùn)練數(shù)據(jù)里英文內(nèi)容占絕對多數(shù),英文的字節(jié)組合有大量的統(tǒng)計支撐去合并成完整的單詞甚至短語,而中文的字節(jié)組合能合并回單字就不錯了,更別說詞組。

舉個例子。在 GPT-5 的 Tokenizer 里,「字節(jié)跳動的短視頻平臺抖音」,總共 12 個漢字,需要用 11 個 Token;而英文版 「ByteDance‘s short video platform Douyin」 有 40 個字母,只需要 9 個 Token——要注意,ByteDance 和 Douyin 甚至都不是真正的英文單詞,但在英文里依然效率更高。

我們可以仔細看一下「字節(jié)跳動的短視頻平臺抖音」是怎么變成 Token 的。「視頻」和「平臺」都是一個 Token,「抖」占了兩個 Token。

這里多解釋一下,為什么一個漢字會占據(jù)兩個 Token。像前面所說,BBPE 不是面向字符編碼,而是面向字節(jié)編碼?!付丁箤?yīng)的編碼是 230、138、150,很可能在數(shù)據(jù)庫里,230 與 138 的組合是高頻的,但再加上 150 的話頻率就沒那么高了,所以編碼 230、138 對應(yīng)了一個 Token,而編碼 150 單獨對應(yīng)一個 Token。

每個字單獨編碼,偶爾兩個字能合并,但也有些字需要拆分。總體上,中文的 Token 消耗就是比英文高。

那這意味著什么呢?

大模型是按 Token 計費的。OpenAI 的 API,每一千個 Token 收多少錢,白紙黑字寫在價格表上。你消耗更多的 Token,你就付更多的錢。


而且不只是付錢的問題。大模型有上下文窗口(context window,模型一次能「記住」的內(nèi)容量)——就是它一次能處理的 Token 總量上限。GPT-4 的上下文窗口是 128k 個 Token。

這意味著如果你用英文,你可以在一次對話里塞進去大約十萬個英文單詞——差不多一本中等篇幅的小說。但如果你用中文,同樣的 128k 個 Token,你能塞進去的內(nèi)容就要少很多。

同樣的窗口,中文用戶能說的話更少。

付更多的錢,得到更少的空間,獲得更短的回答。這就是 Token 不平等的經(jīng)濟學(xué)。

但中文至少還算「大語言」。訓(xùn)練數(shù)據(jù)里中文內(nèi)容雖然不如英文多,但也有相當(dāng)?shù)囊?guī)模,足以讓常用漢字被合并成獨立的 Token。

真正慘的是那些小語種。

近年來,多項研究對這個問題做了系統(tǒng)的測算。他們發(fā)現(xiàn),同樣的語義內(nèi)容,用不同語言表達所消耗的 Token 數(shù)量差異可以達到十幾倍。

英文是基準(zhǔn)——消耗最少的 Token,中文大約是英文的 1.5 到 2 倍,日語、韓語類似,緬甸語、藏語、阿姆哈拉語等語言,同樣的內(nèi)容可能需要英文 5 到 10 倍的 Token

為什么?因為這些語言在訓(xùn)練數(shù)據(jù)里幾乎不存在。BPE 在訓(xùn)練的時候沒有見過足夠多的緬甸文,所以緬甸文的字節(jié)組合從來沒有機會被合并——它們永遠停留在最碎的碎片狀態(tài),每一個字都被拆成三四個字節(jié)碎片,每個碎片各占一個 Token。

想象一下:一個緬甸語用戶和一個英文用戶買同樣的 API 額度,但緬甸語用戶只能用英文用戶五分之一的信息量。同樣的錢,五分之一的服務(wù)。


這跟電報很像。

電報編碼——莫爾斯碼——是這樣設(shè)計的:最常用的字母用最短的編碼。E 是一個點,T 是一個劃,A 是一點一劃。而不常用的字母用更長的編碼——Q 是兩劃一點一劃,Z 是兩劃兩點。

但莫爾斯碼是基于英文字母頻率設(shè)計的。當(dāng)電報技術(shù)推廣到全世界的時候,其他語言怎么辦?中文怎么發(fā)電報?漢字不是字母,你不能直接用點和劃來編碼。

解決方案是:給每個漢字分配一個四位數(shù)字編碼——0001 到 9999。發(fā)電報的時候,先把漢字翻譯成數(shù)字,再把數(shù)字翻譯成莫爾斯碼發(fā)出去。一個漢字就是四個數(shù)字,每個數(shù)字都要用莫爾斯碼逐個發(fā)送。

一個英文字母平均需要 2 到 3 個莫爾斯碼信號。一個漢字呢?四個數(shù)字,每個數(shù)字平均需要 5 個信號——總共大約 20 個信號。

同樣一個意思,中文電報的信號量是英文的七八倍。電報是按字數(shù)或者按信號量計費的,所以中文電報比英文電報貴得多。直到八九十年代,小學(xué)生寫作文還有個練習(xí),就是寫電報,看誰能用最少的字把事情說清楚。

類似的事情不停在重復(fù)。

打字機在 1870 年代發(fā)明,但卻是為拉丁字母設(shè)計的。最早的中文打字機是什么樣子?一個金屬托盤上排著幾千個鉛字,打字員用小桿子一個一個找,速度是英文的十分之一。當(dāng)時很多人,包括魯迅在內(nèi),得出結(jié)論說中文是落后的文字,中國想要走向文明,漢字就得拉丁化。

對這段歷史有興趣的朋友,可以看看墨磊寧的《中文打字機》這本書,我就不展開了。我想說的是,近現(xiàn)代以來,每一次人類發(fā)明一種新的信息編碼系統(tǒng)——電報、打字機、計算機、AI——都會重新制造一次語言不平等。而且這種不平等的方向幾乎每一次都是一樣的:英文最便宜、最高效、最方便,然后按語言與英文的「距離」遞減。拉丁字母語言其次,東亞語言再次,南亞和非洲語言最末。

誰的語言最先被編碼,誰就是標(biāo)準(zhǔn);后來者永遠在適配。

當(dāng)然,你可能說,技術(shù)是中立的,這不是故意歧視。BPE 不是故意歧視中文或者緬甸語,它只是按頻率統(tǒng)計做了最優(yōu)壓縮。

對。完全對。沒有人故意歧視。你不需要故意歧視,你只需要選擇一個「合理的」起點——比如「按頻率統(tǒng)計」——然后讓系統(tǒng)自動運行。不平等會自己涌現(xiàn)出來。

因為「頻率」不是一個客觀的自然屬性。它是由誰在生產(chǎn)內(nèi)容、誰的語言在互聯(lián)網(wǎng)上有最多的文字、誰的文化有最發(fā)達的出版和傳播體系來決定的。

BPE 把這種歷史性的權(quán)力不對稱,通過一個看似中性的算法,編碼進了 AI 系統(tǒng)的最底層。然后這個系統(tǒng)給全世界所有人使用。每一個人,每說一句話,都在為這種不平等付費。而他們中的大多數(shù)人甚至不知道 Token 是什么。


當(dāng)然這個事情也在改善。

我做了一個測試。打開 OpenAI 的 tokenizer 工具,輸入同一句中文:「馬嘉祺是時代少年團隊長,蔡徐坤不是?!谷缓笄袚Q不同版本的 tokenizer 看看各需要多少 Token:

GPT-3.0 的 tokenizer:38 個 Token, GPT-3.5 和 GPT-4.0 的 tokenizer:26 個 Token, GPT-5 的 tokenizer:15 個 Token

同一句話,三代模型,Token 消耗從 38 降到了 15,降了 60%。

這說明 OpenAI 在每一代模型中都在給中文更多的詞表席位,讓更多的漢字和常見詞組被完整保留,而不是拆成碎片。

中文用戶有十幾億人。市場夠大,商業(yè)動力夠強,所以 OpenAI 愿意優(yōu)化。中國自己的 AI 公司也在做同樣的事。豆包、千問、月之暗面等等——這些國產(chǎn)大模型都在自己訓(xùn)練 tokenizer,策略很簡單:在詞表里給中文更多的「席位」,讓更多的中文字符組合被合并成獨立的 Token,減少中文被拆碎的概率。

但詞表總?cè)萘渴怯邢薜摹PT-5 的詞表大約 20 萬個 Token。你給中文多一個席位,就得給其他語言少一個。中文有大公司撐腰。但前面提到的那些小語種,沒有人為它們做這件事。

緬甸語有五千多萬人在說。藏語呢?宗卡語呢?這些語言的 tokenizer 效率,從 GPT-3 到 GPT-5,大概率沒有同等幅度的改善。因為沒有商業(yè)動力,沒有十幾億用戶的市場在那里等著。

語料配比——用多少英文、多少中文、多少緬甸文來訓(xùn)練 BPE——本質(zhì)上是一個隱性的決策:誰的語言更值得被高效表示?這個決策沒有人公開討論過。它埋在技術(shù)文檔的某一行參數(shù)里。但它決定了數(shù)十億人使用 AI 的成本和體驗。

BPE 用頻率取代了 Type。它不再由人類來定義什么是一個有意義的單位,而是讓統(tǒng)計數(shù)據(jù)自己決定。這個選擇帶來了語言不平等——高頻的語言被完整保留,低頻的語言被碎成碎片。

但這個后果不只發(fā)生在語言和語言之間,它同樣發(fā)生在同一種語言內(nèi)部。


回到馬嘉祺。

我還是不能給出確切的結(jié)論,究竟為什么大模型不認識「馬嘉祺」,但可以肯定與 Token 生成有關(guān)。想象你在玩拼圖游戲。常見的圖案——比如「天安門」、「長城」——廠家會給你完整的大塊拼圖,一塊就能拼出來。但生僻的圖案——比如某個小眾景點——廠家沒有專門的大塊,你只能用很多小碎片拼湊。

「祺」這個字就是那個小眾景點。它在訓(xùn)練數(shù)據(jù)里出現(xiàn)的頻率不夠高,BPE 算法沒有給它分配一個完整的 Token,而是把它拆成了兩個小碎片。這兩個碎片單獨看都沒什么意義,就像拼圖的邊角料。

現(xiàn)在問題來了。當(dāng) AI 要生成「馬嘉祺」這個名字時,它需要先找到「馬」,再找到「嘉」,最后找到「祺」的那兩個小碎片,把它們按正確順序組裝起來。但 AI 在訓(xùn)練時很少見過這個組合——「馬嘉」加上那兩個特定碎片——出現(xiàn)的次數(shù)太少了。

相反,「馬俊杰」、「馬杰倫」這些組合,每個字都是完整的大塊 Token,而且這些組合在訓(xùn)練數(shù)據(jù)里出現(xiàn)過更多次。對 AI 來說,這些組合就像是一條被走過很多遍的路,路面平整、標(biāo)記清晰。而「馬嘉祺」就像是一條幾乎沒人走過的小路,路標(biāo)模糊、碎石遍地。

當(dāng) AI 要生成答案時,它會自然而然地選擇那條更平整的路。不是因為它「不認識」馬嘉祺,而是因為在它的 Token 系統(tǒng)里,「馬嘉祺」這條路從一開始就沒有被修好。


類似的問題還有很多,在大模型領(lǐng)域有個專門的名詞,就叫 Glitch Tokens(故障詞元),意思是那些會讓大模型運行出問題的 Token。

你可能會想:那把模型做大一點、做強一點,不就解決了?剛剛不也說,從 GPT-3 到 GPT-5,確實中文 Token 效率在提高。

很不幸,不能。

2026 年 1 月有一篇關(guān)于 Token 的論文《Say Anything but This: When Tokenizer Betrays Reasoning in LLMs(什么都能說,就是不能說這個:當(dāng) Tokenizer 背叛了大模型的推理能力)》。

研究者發(fā)現(xiàn)了一件事:tokenizer 給模型提供了一條「阻力最小的路徑」。當(dāng)模型需要生成某個答案的時候,如果詞表里恰好有一個現(xiàn)成的 Token 能直接輸出,模型就會走這條捷徑,而不是真正去推理。

我舉個例子讓你感受一下。假設(shè)模型需要回答「52 加 37 等于多少」。正確答案是 89。但如果詞表里恰好有一個 Token 對應(yīng) 「88」,而且這個 Token 在模型的內(nèi)部空間里離 「89」 很近、出現(xiàn)頻率很高——模型可能就會滑向 「88」。不是因為它不會算,而是因為 「88」 這條路更絲滑。

研究者做了一件反直覺的事:他們把這些捷徑堵住了——強制移除那些容易造成混淆的 Token,逼模型走推理的路。

結(jié)果呢?模型反而表現(xiàn)更好了。

這說明什么?說明模型本身有推理能力。問題不在「腦子」——在「眼睛」。Tokenizer 是在模型訓(xùn)練之前就凍結(jié)的感知器官,模型再強也改不了它。

這就好比你給一個天才畫家戴上一副度數(shù)不對的眼鏡,而且這副眼鏡焊死在臉上了,這輩子摘不下來。他畫技高超,構(gòu)圖、色彩、光影都對,但遠處那個人名字里的生僻字,他就是看不清。

不是腦子的問題,是眼睛的問題。

論文得出結(jié)論:模型變大不能解決這個問題,Scaling 無效。因為問題在架構(gòu)層面——tokenizer 在模型訓(xùn)練之前就固定了,模型再大、參數(shù)再多,也是在一個被固定的感知框架里訓(xùn)練出來的。

眼睛的分辨率,在出生前就定了。這就是 BPE 放棄 Type 的真正代價。


當(dāng) Type 是人定義的時候——比如在編譯器里——人可以確保每一個被定義的類別都是完整的、精確的、沒有歧義的。`int` 就是 `int`,絕不會和 `integer` 混淆,因為設(shè)計者明確規(guī)定了它們的區(qū)別。

但當(dāng)你把 Type 的定義權(quán)交給頻率統(tǒng)計,你得到的「類別」就不再有這種保證了。高頻的組合被識別得又快又準(zhǔn),低頻的組合就模糊、破碎、容易混淆。

不是均勻的不完美,而是有一條清晰的斷裂線——沿著頻率分布的長尾畫下去。

這意味著什么?

意味著你叫「張偉」,AI 不會寫錯你的名字。但你叫「馬嘉祺」,它可能每次都寫錯。你用英文問它問題,它的回答精準(zhǔn)而流暢。你用緬甸語問同一個問題,它的回答碎片化、不連貫、甚至可能是錯的。

這不是兩種不同的 AI。是同一個 AI,用同一個 tokenizer,在頻率曲線的兩端展現(xiàn)出的兩張面孔。

在高頻的那一端——英文、常用詞、熱門話題——它看起來無所不知、無所不能。這是你在社交媒體上看到的那個 AI,是科技公司在發(fā)布會上展示的那個 AI,是黃仁勛說價值萬億美元的那個 AI。

在低頻的那一端——小語種、生僻字、冷門知識——它變得遲鈍、模糊、不可靠。但這一端的用戶,恰好是那些最缺少替代信息來源的人。

在 Token 的世界里,「罕見」和「不重要」在統(tǒng)計上是同一件事。

這就是為什么法律文本用 AI 輔助的時候,罕見的術(shù)語可能會被模糊處理。醫(yī)療診斷用 AI 輔助的時候,罕見病的名字可能會變成碎片。教育內(nèi)容用 AI 生成的時候,少數(shù)語言的知識可能會被磕磕絆絆地拼湊。不是有人故意忽略了這些——而是這個系統(tǒng)從一開始就沒有能力區(qū)分「罕見」和「不重要」。

AI 最不準(zhǔn)確的地方,恰好是人們最需要它準(zhǔn)確的地方。


這也是為什么我在開頭說,「詞元」不是一個好的翻譯。

「詞」字暗示 Token 是一個「詞」層面的單位。但你現(xiàn)在已經(jīng)知道了,Token 不是詞。它可以是一個完整的詞,也可以是半個字,也可以是一串毫無意義的字節(jié)碎片。BPE 生成的 Token 不遵循任何語言學(xué)上對「詞」的定義——事實上,BPE 的全部意義就在于放棄了「詞」這個概念。

「元」字有「基本單位」的意思——元素、單元、元件。這暗示 Token 是一個穩(wěn)定的、自然的、有明確邊界的基本粒子,好像它是語言內(nèi)在結(jié)構(gòu)的一部分,甚至是詞的某種本質(zhì)特征。但 Token 的邊界不是由語言的自然結(jié)構(gòu)決定的,而是由訓(xùn)練數(shù)據(jù)的頻率分布決定的。換一批訓(xùn)練數(shù)據(jù),同一個字可能從一個 Token 變成兩個 Token,或者從兩個變成一個。它是一個統(tǒng)計產(chǎn)物,不是一個語言學(xué)概念。

前面說過,Token 是語言的替代物——它不是語言本身,更不是語言的某種本質(zhì),它只是一個代替語言被計算機處理的編號。但「詞元」這個譯名恰恰把這層關(guān)系遮蔽了。這就好比你造了一輛沒有方向盤的自動駕駛汽車,然后給它起名叫「方向盤號」。

但不管叫它什么,Token 已經(jīng)在這里了,還成了黃仁勛口中所說的「萬億美元市場的基礎(chǔ)」。他說,NVIDIA 的 AI 芯片是「Token 的鑄造機」。

你可能會想:既然 Token 有這么多問題——bug、不平等、幻覺——為什么它還能成為萬億美元市場的基礎(chǔ)?

因為權(quán)力的基礎(chǔ),從來就不是完美的東西。


美元。1971 年之前,美元和黃金掛鉤——一盎司黃金 35 美元,白紙黑字。那時候美元有一個「本體」在支撐它:黃金。1971 年,尼克松取消了金本位。從那以后,美元靠什么?靠大家相信它有價值。

2008 年金融危機,全世界發(fā)現(xiàn)——度量衡沒變,但桶里是空的。那些評級為 AAA 的金融產(chǎn)品,底下是一層一層的次級貸款。替身看著光鮮亮麗,本體早就爛了。

但美元崩潰了嗎?沒有。它繼續(xù)是全球儲備貨幣。為什么?因為在它崩潰之前,替代它的成本已經(jīng)高到?jīng)]人承受得起。全世界的貿(mào)易合同用美元結(jié)算,全世界的央行用美元儲備,全世界的大宗商品用美元定價。你可以說美元有問題,但你拿什么替代它?歐元?人民幣?每一種替代方案的切換成本都是天文數(shù)字。

比特幣。一個算法加一群人的信仰。能耗荒謬,價格劇烈波動,每秒處理的交易量還不如一家縣城超市的收銀臺。但沒有阻止它成為一種權(quán)力載體。

甚至語言本身。漢字筆畫順序誰規(guī)定的?英語拼寫為什么這么不規(guī)則?為什么 Wednesday 中間有一個不發(fā)音的 d?為什么 island 里有一個不發(fā)音的 s?沒有人「設(shè)計」了這些。都是歷史偶然的層層累積——某個世紀(jì)的某個抄寫員寫錯了一個字,后人將錯就錯,錯誤凝固成了規(guī)范。但語言照樣運轉(zhuǎn),照樣承載了人類全部的文明。

Token 的故事不是一個騙局,也不是一個幻覺,它只是一個偶然中誕生又在歷史里起起伏伏最終擁有了權(quán)力的詞語。


1906 年,皮爾士在研究邏輯圖時提出了 Type-Token 區(qū)分,他只是想數(shù)清楚紙上有幾個圓圈。

1994 年,Philip Gage 在《C Users Journal》上發(fā)表了一個壓縮小工具,他只是想在內(nèi)存有限的工控設(shè)備上節(jié)省幾個字節(jié)。

2016 年,Rico Sennrich 把這個壓縮算法用到了神經(jīng)機器翻譯,他只是想解決翻譯中的生詞問題。

2018 年,OpenAI 把 BPE 改成了 Byte-level,他們只是想讓 GPT-2 能處理更多語言。

每一步都是合理的。每一步都是局部的。每一步都解決了當(dāng)時的問題。

這就是權(quán)力最常見的誕生方式,不是有人坐下來精心設(shè)計了一個統(tǒng)治系統(tǒng)——而是一連串當(dāng)時看起來合理甚至無關(guān)緊要的選擇,在沒人注意的情況下,凝固成了新的秩序。

我們都知道,現(xiàn)在是一個歷史轉(zhuǎn)折時刻,不僅僅是通用人工智能取代人類,也是人類正把什么是意義、什么是規(guī)則的定義權(quán)交給統(tǒng)計數(shù)據(jù)。

我們所有人,正站在這個轉(zhuǎn)折的中間,還沒來得及想清楚這意味著什么,就已經(jīng)在擁抱它了。

還可以看這些

歡迎來我的知識星球

周二到周四,我將每天提供一份互聯(lián)網(wǎng)/科技/消費等行業(yè)的觀察,可能是獨家消息,可能是趨勢分析,也可能是不方便在其他渠道公開的內(nèi)容。

星球初建,前 20 名成員將享受系統(tǒng)可能設(shè)定的最低價 50/年,之后隨著內(nèi)容增多,價格也會提高。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
陳麗華公司曝離世內(nèi)幕!對遲重瑞稱呼暴露真實關(guān)系,遺言看哭眾人

陳麗華公司曝離世內(nèi)幕!對遲重瑞稱呼暴露真實關(guān)系,遺言看哭眾人

一盅情懷
2026-04-07 16:21:17
馬杜羅被捕后暴瘦13公斤

馬杜羅被捕后暴瘦13公斤

烽火觀天下
2026-04-07 12:34:13
美國的槍店老板,為什么不怕顧客買完槍后朝他射擊?

美國的槍店老板,為什么不怕顧客買完槍后朝他射擊?

心中的麥田
2026-04-06 19:26:47
時隔6年,那個曾揚言讓中國給全世界道歉,被央視開除的阿丘怎樣了

時隔6年,那個曾揚言讓中國給全世界道歉,被央視開除的阿丘怎樣了

閱微札記
2026-04-07 15:01:54
1996年,施瓦辛格喝醉了在家休息,看到200斤的傭人在做家務(wù)……

1996年,施瓦辛格喝醉了在家休息,看到200斤的傭人在做家務(wù)……

歲月有情1314
2026-04-07 15:49:39
國防部正式將“臺獨首惡”賴清德,定為民族敗類!

國防部正式將“臺獨首惡”賴清德,定為民族敗類!

愿你余生安好嘴角帶笑
2026-03-30 08:40:31
小鵬汽車法務(wù)部回應(yīng)四川廣元單車碰撞事故

小鵬汽車法務(wù)部回應(yīng)四川廣元單車碰撞事故

IT之家
2026-04-07 17:07:22
男子跳湖救下溺水孩子后默默離開,“我正好在就下去了”

男子跳湖救下溺水孩子后默默離開,“我正好在就下去了”

澎湃新聞
2026-04-06 20:28:27
張雪早年最大的貴人被扒出:數(shù)十次借錢救命,從沒收過一分學(xué)費

張雪早年最大的貴人被扒出:數(shù)十次借錢救命,從沒收過一分學(xué)費

科技頭版Pro
2026-04-07 14:49:16
王楚欽奪得世界杯冠軍成全了多少人?樊振東張本智和都得發(fā)來賀電

王楚欽奪得世界杯冠軍成全了多少人?樊振東張本智和都得發(fā)來賀電

羅納爾說個球
2026-04-06 16:43:41
陳光標(biāo)變現(xiàn)大勞捐千萬后續(xù)!曝嫣然已退款,原因炸裂,果然有貓膩

陳光標(biāo)變現(xiàn)大勞捐千萬后續(xù)!曝嫣然已退款,原因炸裂,果然有貓膩

億通電子游戲
2026-04-07 17:54:26
英媒:伊朗消息人士稱伊朗拒絕“臨時停火”

新華社
2026-04-07 20:00:05

卡斯?fàn)?9+11+13馬刺戰(zhàn)勝76人收獲60勝,文班亞馬17分傷退

卡斯?fàn)?9+11+13馬刺戰(zhàn)勝76人收獲60勝,文班亞馬17分傷退

湖人崛起
2026-04-07 10:32:12
陳麗華去世僅2天,幾百億遺產(chǎn)分配曝光!仨子女和遲重瑞恐難獲得

陳麗華去世僅2天,幾百億遺產(chǎn)分配曝光!仨子女和遲重瑞恐難獲得

小梊搞笑解說
2026-04-07 20:18:19
網(wǎng)傳烏克蘭基輔大學(xué)迎新照,滿屏美女讓網(wǎng)友直呼詭異

網(wǎng)傳烏克蘭基輔大學(xué)迎新照,滿屏美女讓網(wǎng)友直呼詭異

消失的電波
2026-04-07 16:54:04
曝全紅嬋遭霸凌:282人微信群長期辱罵她 多位隊友在群內(nèi)但未制止

曝全紅嬋遭霸凌:282人微信群長期辱罵她 多位隊友在群內(nèi)但未制止

風(fēng)過鄉(xiāng)
2026-04-07 06:13:04
2名飛行員和5億美元哪個更重要?

2名飛行員和5億美元哪個更重要?

山河路口
2026-04-06 12:12:25
伊朗首都響起密集爆炸聲

伊朗首都響起密集爆炸聲

新華社
2026-04-07 15:55:05
東北3歲小網(wǎng)紅繼續(xù)做吃播,父母是真不想上班

東北3歲小網(wǎng)紅繼續(xù)做吃播,父母是真不想上班

九方魚論
2026-04-07 05:02:58
研究表明:男性嫖娼率6.4%,女性出軌率15%,且越有錢越開放!

研究表明:男性嫖娼率6.4%,女性出軌率15%,且越有錢越開放!

黯泉
2026-04-01 17:28:39
2026-04-08 00:03:00
灑家君澤
灑家君澤
我所知道的過去,我所期待的未來
41文章數(shù) 10關(guān)注度
往期回顧 全部

科技要聞

滿嘴謊言!OpenAI奧特曼黑料大起底

頭條要聞

特朗普恐嚇4小時摧毀伊朗 伊朗稱"打穿"海法未見攔截

頭條要聞

特朗普恐嚇4小時摧毀伊朗 伊朗稱"打穿"海法未見攔截

體育要聞

官宣簽約“AI球員”,這支球隊被罵慘了...

娛樂要聞

女首富陳麗華離世 被曝生前已分好遺產(chǎn)

財經(jīng)要聞

10萬億財政轉(zhuǎn)移支付,被誰拿走了?

汽車要聞

不止是大 極狐首款MPV問道V9靜態(tài)體驗

態(tài)度原創(chuàng)

房產(chǎn)
數(shù)碼
旅游
健康
教育

房產(chǎn)要聞

重磅!三亞擬出安居房新政!

數(shù)碼要聞

OPPO ColorOS共創(chuàng)者星球2026年第1期高票建議采納情況公布

旅游要聞

三天迎客超四萬人次,TOP中央公園成清明假期市民“微度假”熱門地

干細胞抗衰4大誤區(qū),90%的人都中招

教育要聞

好的親子關(guān)系,父母只需做好這幾點 #家長必讀 #孩子教育

無障礙瀏覽 進入關(guān)懷版