国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

大模型的第一性原理:(二)信號處理篇

0
分享至



作者 | 白鉑 博士

白鉑 博士,華為 2012 實驗室理論研究部主任 信息論首席科學(xué)家

引言

本篇是《大模型的第一性原理》系列解讀文章的第二篇(點擊回顧第一篇),我們將從信號處理的角度解讀原論文[1]。重點探討語義向量化背后的信號處理和信息論原理,并從時間序列的角度分析 Transformer 及其與 Granger 因果的關(guān)系。

我們首先提出一個觀點:大模型的輸入是 Token 的語義嵌入(也稱為語義向量),其本質(zhì)是把自然語言處理問題轉(zhuǎn)換為信號處理問題。因此對于大模型而言,向量化非常關(guān)鍵,它和信號處理、信息論有非常深刻的聯(lián)系。

盡管從語言學(xué)的角度看,語法和邏輯是人類語言現(xiàn)象的關(guān)鍵,然而本系列的《統(tǒng)計物理篇》已經(jīng)指出:大模型并不考慮這些因素,而是從純概率的角度出發(fā)建模自然語言。

從 Token 的維度看,這種純粹的概率模型在計算上是非常困難的,因此人們發(fā)展出了概率圖模型、消息傳遞算法等工具[2]。對于當(dāng)前海量數(shù)據(jù)而言,這些方法的復(fù)雜度仍然過高,很難用于大規(guī)模訓(xùn)練,也難以建模語義非對稱性和長程依賴性。但是,當(dāng) Token 被向量化之后,情況就發(fā)生了本質(zhì)的變化,因為我們可以定義內(nèi)積,并用內(nèi)積來表示語義相關(guān)性,從而大幅度降低計算量。

基于內(nèi)積,我們可以進一步定義距離、微分、低維流形等一系列相對容易數(shù)值計算的量。這樣就可以通過反向傳播算法來訓(xùn)練神經(jīng)網(wǎng)絡(luò),將 Token 的向量化變成神經(jīng)網(wǎng)絡(luò)的輸入、輸出和參數(shù)化記憶[3][4]。實際上,許多研究也表明神經(jīng)網(wǎng)絡(luò)之所以能完成分類,正是因為同一類事物(如照片中的貓、狗等)在高維參數(shù)空間中會內(nèi)聚成低維流形[5][6]。

順便提及,我們在向量檢索方面的研究取得了一定進展,所提出的近似最近鄰向量檢索算法,過去兩年一直蟬聯(lián) ANNBenchemarks 榜單的第一名 。

語義嵌入 / 向量化

人們用向量來建模語義的想法最早出現(xiàn)于 Luhn 在 1953 年發(fā)表的論文中[8]。但直到 2013 年,Mikolov 等人才真正取得突破[9][10];诖罅空Z料,他們成功地訓(xùn)練出了將 Token 轉(zhuǎn)化成語義向量的神經(jīng)網(wǎng)絡(luò)模型。下面這個例子經(jīng)常被用來表達最理想的語義向量化:

其中 s (?) 為一個詞的向量化表示。然而遺憾的是,上述理想的語義向量化當(dāng)前并未完全實現(xiàn),但是語義向量之間的內(nèi)積(或者歸一化為余弦相似性)卻可以表示 Token 層面的語義相關(guān)性。



對于大模型而言,語義向量空間就可以建模為一個概率-內(nèi)積空間。許多研究認為語義向量空間應(yīng)該是結(jié)構(gòu)更復(fù)雜的低維流形,但余弦相似性和歐式距離的實際效果就已經(jīng)足夠好了。因此,我們認為用單位球面 S^(M-1) 來定義語義向量空間是在效果和復(fù)雜度之間的良好平衡。需要特別強調(diào)的是,語義向量空間中的每一個向量本身并沒有語義,而這個向量與其它所有向量的內(nèi)積(即相對關(guān)系)才代表了語義。這一點和信息論中的信源編碼有本質(zhì)的區(qū)別。經(jīng)典的信源編碼是對每一個信源符號的壓縮,而語義向量的壓縮則是在相對關(guān)系近似不變的前提下,對整個語義向量空間的降維

那么,如何衡量兩個語義空間的距離,以控制語義向量空間降維帶來的精度損失或者衡量兩個不同自然語言的語義差異性就變得至關(guān)重要。當(dāng)代著名的幾何學(xué)家,2009 年阿貝爾獎獲得者,Mikhael Gromov 為我們提供了數(shù)學(xué)工具,即Gromov-Wasserstein 距離[12]。它衡量了兩個度量 - 概率空間之間的任意兩點間度量的平均差異。該定義極大地拓展了最優(yōu)傳輸理論中的 Wasserstein 距離的應(yīng)用范圍[13]。據(jù)此,我們定義語義向量空間距離如下:











Transformer 是非線性時變向量自回歸時間序列

在本系列的第一篇《統(tǒng)計物理篇》中,我們詳細探討了 Transformer 的能量模型(Energy-based Model,EBM)形式。本篇我們從信號處理角度進一步討論 Transformer 的本質(zhì)。業(yè)界已經(jīng)達成共識,Transformer 是一個自回歸大語言模型。這是因為它基于輸入 Token 序列和已經(jīng)生成的 Token 序列來預(yù)測下一個 Token。事實上,從經(jīng)典隨機過程和時間序列分析的角度看,自回歸模型有嚴格的數(shù)學(xué)定義,即用過去的隨機變量的值的線性加權(quán)和來預(yù)測未來的隨機變量[23]。



從數(shù)學(xué)形式上看,Attention 是一個非線性時變向量自回歸時間序列



來預(yù)測下一個 Token 的向量表示。在《統(tǒng)計物理》篇中,我們已經(jīng)指出 FFN 層對于預(yù)測下一個 Token 是很重要的,它被認為是大模型儲存知識的位置;谟洃浫萘康乃悸罚珹ttention 模塊輸出的向量應(yīng)該會激活 FFN 層中與之最匹配的記憶模式,從而作為下一個 Token 的向量表示。后續(xù)的操作需要在離散的詞表中選擇最有可能的那個 Token。在實際中可以設(shè)計多種采樣策略來滿足輸出的要求,但背后的原理與通信接收機中的最大似然譯碼很類似。





因此,從時間序列的角度看,大模型輸入的 Token 序列和輸出的 Token 序列符合 Granger 因果推斷的定義。這進一步印證了第一篇的結(jié)論:大模型推理的本質(zhì),是通過預(yù)測下一個 Token 這一看似簡單的訓(xùn)練目標,進而實現(xiàn)逼近人類水平的 Granger 因果推斷

信號處理與信息論

在引言中我們已經(jīng)指出:大模型處理的是向量化后的 Token 序列,其本質(zhì)是把傳統(tǒng)基于概率的自然語言處理問題轉(zhuǎn)換成了基于數(shù)值計算的信號處理問題。從本文的討論中可以看到,這種從 Token 到其向量表示的轉(zhuǎn)化,與信息論和信號處理之間的關(guān)系非常類似。

具體來說,Shannon 信息論是一個基于概率論的理論框架,旨在理解信息壓縮、傳輸和存儲的基本原理及其性能極限,但它并不關(guān)注工程中的具體實現(xiàn)方法和復(fù)雜度。信號處理將信息論中的抽象符號表示為 n 維實 / 復(fù)空間中的向量。這種表示使得數(shù)值計算方法能有效應(yīng)用于感知、通信和存儲系統(tǒng)的高效算法設(shè)計中。可以說,信號處理是信息論原理在特定計算架構(gòu)下的具體實現(xiàn)。

更廣泛地看,我們經(jīng)常用下圖來表達計算理論和信息論之間的關(guān)系。圖的左邊是 Turing 和他的計算理論,他關(guān)心用多少個步驟能完成特定的計算,因此時延(通常用時間復(fù)雜度來度量)是最關(guān)鍵的指標。圖的右邊是 Shannon 和他的信息論,他關(guān)心的是通信速率的上限或者數(shù)據(jù)壓縮的下限,即存在性和可達性。此時,通常假設(shè)碼長趨于無窮大,因而時延是被忽略的。那么在實踐中就會發(fā)現(xiàn),開發(fā)通信算法的瓶頸永遠是算力不夠,算法復(fù)雜度太高;而研究計算算法的瓶頸永遠都是(訪存 / 卡間 / 服務(wù)器間)通信帶寬不夠,或者緩存 / 內(nèi)存空間太小。

我們注意到,盡管計算理論和信息論有本質(zhì)的不同,但他們最基本的操作單位都是 BIT,因此我們可以肯定地說:BIT 是連接計算和通信這兩大領(lǐng)域的橋梁



圖:BIT 是連接計算理論和信息論的橋梁,是信息時代最偉大的發(fā)明。

正如 5G Polar 碼發(fā)明人,2019 年香農(nóng)獎得主,Erdal Arikan 教授參加我們的圓桌論壇中所指出的:BIT 是信息時代最偉大的發(fā)明。Shannon 在與 Weaver 合著的論文中也明確指出:信息論只解決了信息的可靠傳輸問題,即技術(shù)問題,而不考慮語義和語效[26]。但是人類已經(jīng)進入了 AI 時代,信息論是否還能繼續(xù)發(fā)揮其基礎(chǔ)性作用?

我們將在本系列的第三篇《信息論篇》中看到,只要將核心概念從信息時代的 BIT 轉(zhuǎn)換成 AI 時代的 TOKEN,Shannon 信息論就可以用來解釋大模型背后的數(shù)學(xué)原理。

參考文獻

1. B. Bai, "Forget BIT, it is all about TOKEN: Towards semantic information theory for LLMs," arXiv:2511.01202, Nov. 2025.

2. D. Koller and N. Friedman, Probabilistic Graphical Models: Principles and Techniques. Cambridge, MA, USA: The MIT Press, 2009.

3. G. Hinton, "Learning distributed representations of concepts," in Proc. 8th Annual Conference on Cognitive Science Society ’86, Amherst, MA, USA, Aug. 1986.

4. Y. Bengio, R. Ducharme, P. Vincent, and C. Jauvin, "A neural probabilistic language model," Journal of Machine Learning Research, vol. 3, no. 2, pp. 1137-1155, Feb. 2003.

5. S. Chung, D. Lee, and H. Sompolinsky, "Classification and geometry of general perceptual manifolds," Physical Review X, vol. 8, no. 3, p. 031003, Jul. 2018.

6. Y. Bahri, J. Kadmon, J. Pennington, S. Schoenholz, J. Sohl-Dickstein, and S. Ganguli, "Statistical mechanics of deep learning," Annual Review of Condensed Matter Physics, vol. 11, no. 3, pp. 501-528, Mar. 2020.

7. https://ann-benchmarks.com

8. H. Luhn, "A new method of recording and searching information," American Documentation, vol. 4, no. 1, pp. 14–16, Jan. 1953.

9. T. Mikolov, K. Chen, G. Corrado, and J. Dean, "Efficient estimation of word representations in vector space," arXiv: 1301.3781, 7 Sep. 2013.

10. T. Mikolov, I. Sutskever, K. Chen, G. Corrado, and J. Dean, "Distributed representations of words and phrases and their compositionality," Proc. 27th Annual Conference on Neural Information Processing Systems '13, Lake Tahoe, NV, USA, Dec. 2013.

11. D. Jurafsky and J. Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition with Language Models, 3rd ed. Draft, 2025.

12. M. Gromov, Metric Structures for Riemannian and Non-Riemannian Spaces. Boston, MA, USA: Birkh?user, 2007.

13. C. Villani, Optimal Transport: Old and New. New York, NY, USA: Springer, 2009.

14. D. Alvarez-Melis and T. Jaakkola, "Gromov-Wasserstein alignment of word embedding spaces," in Proc. ACL Conference on Empirical Methods in Natural Language Processing ’18, Brussels, Belgium, Oct. 2018, pp. 1881–1890.

15. T. Landauer, P. Foltz, and D. Laham, "An introduction to latent semantic analysis," Discourse Processes, vol. 25, no. 2-3, pp. 259-284, Jan. 1998.

16. W. Johnson, J. Lindenstrauss, and G. Schechtman, "Extensions of Lipschitz maps into Banach spaces," Israel Journal of Mathematics, vol. 54, no. 2, pp. 129-138, Jun. 1986.

17. A. Oord, Y. Li, and O. Vinyals, "Representation learning with contrastive predictive coding," arXiv: 1807.03748, Jan. 2019.

18. P. Elias, "Predictive coding - Part 1," IRE Transactions on Information Theory, vol. 1, no. 1, pp. 16-24, Mar. 1955.

19. P. Elias, "Predictive coding - Part 2," IRE Transactions on Information Theory, vol. 1, no. 1, pp. 24-33, Mar. 1955.

20. B. Poole, S. Ozair, A. Oord, A. Alemi, and G. Tucker, "On variational bounds of mutual information," in Proc. 36th International Conference on Machine Learning ’19, Long Beach, CA, USA, Jun. 2019, pp. 5171-5180.

21. J. Massey, "Causality, feedback and directed information," in Proc. IEEE International Symposium on Information Theory ’90, Waikiki, HI, USA, Nov. 1990.

22. S. Peng, Nonlinear Expectations and Stochastic Calculus under Uncertainty: with Robust CLT and G-Brownian Motion. Berlin, Germany: Springer, 2019.

23. H. Lütkepohl, New Introduction to Multiple Time Series Analysis. Berlin, Germany: Springer, 2007.

24. H. Ramsauer et al., "Hopfield networks is all you need," arXiv: 2008.02217, Apr. 2021.

25. Y. Xia et al., "ER-RAG: Enhance RAG with ER-based unified modeling of heterogeneous data sources," arXiv: 2504.06271, Mar. 2025.

26. W. Weaver and C. Shannon, "Recent contributions to the mathematical theory of communications," The Rockefeller Foundation, Sep. 1949.

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
1959年廬山會議后,彭德懷惹怒毛主席,葉帥哭著說出一句心里話

1959年廬山會議后,彭德懷惹怒毛主席,葉帥哭著說出一句心里話

嘆為觀止易
2026-01-20 10:14:29
考生因相貌太丑乾隆出上聯(lián)挖苦,卻被當(dāng)場對出,乾隆大喜:賜探花

考生因相貌太丑乾隆出上聯(lián)挖苦,卻被當(dāng)場對出,乾隆大喜:賜探花

銘記歷史呀
2026-01-29 18:24:07
1951年毛主席接見梁興初,一開口就喊錯軍銜,全場死寂,梁興初直接回了句大實話

1951年毛主席接見梁興初,一開口就喊錯軍銜,全場死寂,梁興初直接回了句大實話

寄史言志
2026-01-06 23:04:16
5秒10槍震驚全美,特朗普知道事情鬧大了,緊急改口,搬出三板斧

5秒10槍震驚全美,特朗普知道事情鬧大了,緊急改口,搬出三板斧

井普椿的獨白
2026-01-30 17:24:55
深追蹤丨時隔8年英國首相再次訪華 專家解讀斯塔默此行釋放何種信號

深追蹤丨時隔8年英國首相再次訪華 專家解讀斯塔默此行釋放何種信號

國際在線
2026-01-29 16:39:23
浙江寧波一男子買菜時隨手買6元彩票中733萬元!當(dāng)事人:激動得幾天沒睡好

浙江寧波一男子買菜時隨手買6元彩票中733萬元!當(dāng)事人:激動得幾天沒睡好

臺州交通廣播
2026-01-30 06:55:54
朝鮮全國約2500萬人,朝鮮首都平壤的居民,生活水平到底怎么樣?

朝鮮全國約2500萬人,朝鮮首都平壤的居民,生活水平到底怎么樣?

坐景觀天
2025-12-12 07:02:03
71歲成龍自曝患ADHD,“怎樣才能集中精力?”羅永浩也曾稱服藥10多年

71歲成龍自曝患ADHD,“怎樣才能集中精力?”羅永浩也曾稱服藥10多年

上觀新聞
2026-01-30 18:09:15
斯塔默在北京下館子,見識到中方有多先進后,英國罕見點頭

斯塔默在北京下館子,見識到中方有多先進后,英國罕見點頭

鐵錘簡科
2026-01-30 17:18:32
航母就位,狠話“刷屏” 專家:美已錯過最佳打擊時間,目前主要是逼伊“核讓步”

航母就位,狠話“刷屏” 專家:美已錯過最佳打擊時間,目前主要是逼伊“核讓步”

紅星新聞
2026-01-29 18:13:29
11年恩愛抵不過殘酷現(xiàn)實,32歲昆凌青春正盛,奔50周杰倫年老力衰

11年恩愛抵不過殘酷現(xiàn)實,32歲昆凌青春正盛,奔50周杰倫年老力衰

小熊侃史
2026-01-29 07:20:07
唐嫣在國外很豪放!穿連體衣下面不系扣,難道不好好穿衣就時髦?

唐嫣在國外很豪放!穿連體衣下面不系扣,難道不好好穿衣就時髦?

章眽八卦
2026-01-05 12:27:07
23歲女裁判圈粉10萬+!意大利D級聯(lián)賽因她關(guān)注度飆升

23歲女裁判圈粉10萬+!意大利D級聯(lián)賽因她關(guān)注度飆升

籃球看比賽
2026-01-30 13:21:08
穆帥歐冠神跡,讓沒出息的曼聯(lián)竊喜,曼聯(lián)想省下幾百萬,太好笑!

穆帥歐冠神跡,讓沒出息的曼聯(lián)竊喜,曼聯(lián)想省下幾百萬,太好笑!

福醬的小時光
2026-01-30 18:12:21
172:199,日本選舉殺出黑馬,新首相浮現(xiàn)?對華態(tài)度成最大看點

172:199,日本選舉殺出黑馬,新首相浮現(xiàn)?對華態(tài)度成最大看點

呼呼歷史論
2026-01-30 18:55:00
金價暴跌真相:美聯(lián)儲潑冷水+交易所動手,投機熱錢被連夜抽走

金價暴跌真相:美聯(lián)儲潑冷水+交易所動手,投機熱錢被連夜抽走

削桐作琴
2026-01-30 18:06:03
房產(chǎn)收購大潮確定2026年開始,兩類房產(chǎn)或迎收購

房產(chǎn)收購大潮確定2026年開始,兩類房產(chǎn)或迎收購

一曲一場談
2026-01-30 01:32:44
現(xiàn)貨黃金失守5000美元/盎司

現(xiàn)貨黃金失守5000美元/盎司

每日經(jīng)濟新聞
2026-01-30 17:51:22
緬北明珍珍落網(wǎng)態(tài)度平靜,知情人士透露:她選了最明智的路

緬北明珍珍落網(wǎng)態(tài)度平靜,知情人士透露:她選了最明智的路

懸案解密檔案
2025-03-10 10:44:25
曾經(jīng)的三兄弟,后來兵戎相見,三大巨頭只活下TCL,歷史令人唏噓

曾經(jīng)的三兄弟,后來兵戎相見,三大巨頭只活下TCL,歷史令人唏噓

牛牛叨史
2026-01-29 02:25:01
2026-01-30 20:15:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12225文章數(shù) 142555關(guān)注度
往期回顧 全部

科技要聞

意念控制機器人不是科幻 1-2年就落地

頭條要聞

特朗普警告稱中英、中加合作是"危險的" 外交部回應(yīng)

頭條要聞

特朗普警告稱中英、中加合作是"危險的" 外交部回應(yīng)

體育要聞

“假賭黑”的子彈,還要再飛一會兒嗎?

娛樂要聞

金晨出事前 曾靈魂發(fā)問未收到春晚邀請

財經(jīng)要聞

金銀閃崩,是調(diào)整還是趨勢反轉(zhuǎn)的開始?

汽車要聞

合資品牌首搭800V/5C快充 東風(fēng)日產(chǎn)NX8將于3、4月上市

態(tài)度原創(chuàng)

家居
旅游
游戲
公開課
軍事航空

家居要聞

藍調(diào)空舍 自由與個性

旅游要聞

莆田常州雙城聯(lián)游 春節(jié)期間莆田仙游縣所有景區(qū)對常州人免門票

《生化危機9》為何第一和第三人稱視角能自由切換

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

新西蘭拒絕特朗普:不加入"和平委員會"

無障礙瀏覽 進入關(guān)懷版