国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

CMU與NYU聯(lián)合團隊提出“上褶度”,揭秘計算受限下的智能真相

0
分享至

當我們說一個 AI 模型“學到了東西”,究竟是什么意思?這個問題聽起來有點哲學,但它正在成為機器學習研究中一個越來越緊迫的技術命題。

2026 年 1 月初,來自美國卡內(nèi)基梅隆大學和紐約大學的聯(lián)合團隊發(fā)布了一篇題為《從熵到上褶度:為計算受限智能重新思考信息》(From Entropy to Epiplexity: Rethinking Information for Computationally Bounded Intelligence)的論文,團隊耗時兩年進行研究,提出了一個名為“epiplexity”(上褶度,或可譯為“認知復雜度”,epi 表“上層”,plexity 與 complex/perplexity 同源,指向“復雜性”)的新概念,試圖從根本上回答這個問題,論文發(fā)布后迅速在設計媒體上引發(fā)了討論。


圖丨相關論文(來源:arXiv)

日前,相關論文發(fā)表于預印本平臺 arXiv,卡內(nèi)基梅隆大學博士后 Marc Finzi、博士生 Yiding jiang 與紐約大學博士生裘釋凱(Shikai Qiu)共同擔任第一作者。


(來源:GitHub)

這篇論文的核心論點是:我們長期以來用于衡量信息的經(jīng)典工具香農(nóng)熵(Shannon entropy)和柯爾莫哥洛夫復雜度(Kolmogorov complexity)在面對現(xiàn)代機器學習時表現(xiàn)得捉襟見肘。這些框架隱含地假設觀察者擁有無限的計算能力,但現(xiàn)實中的學習系統(tǒng),無論是人腦還是 GPU 集群,都在有限的計算預算下運作。當我們忽視這一點時,理論與實踐之間就會出現(xiàn)令人困惑的裂痕。


圖丨隨機信息與結(jié)構(gòu)性信息示意圖(來源:arXiv)

研究團隊列舉了三個“信息論悖論”,用以說明現(xiàn)有理論框架的局限性。

第一個悖論涉及信息守恒:根據(jù)數(shù)據(jù)處理不等式(Data Processing Inequality),確定性變換不能增加信息量。然而 AlphaZero 僅從圍棋規(guī)則這一極其簡短的程序出發(fā)就學會了超越人類的策略,最終模型參數(shù)規(guī)模卻相當大。這些“額外的信息”從何而來?

第二個悖論關乎順序:香農(nóng)信息論告訴我們,先觀察 X 再觀察 Y 與先 Y 后 X 得到的總信息量相同,即 H(Y|X)+H(X)=H(X|Y)+H(Y)。但大量實驗表明,大語言模型在正向閱讀英文時的壓縮效果明顯優(yōu)于逆向閱讀,數(shù)據(jù)的呈現(xiàn)順序確實影響學習效果。

第三個悖論則觸及似然建模的本質(zhì):最大化似然被認為等同于匹配數(shù)據(jù)分布,因此模型不可能學到比數(shù)據(jù)生成過程更復雜的東西。但研究者們發(fā)現(xiàn),在康威生命游戲這樣的系統(tǒng)中,計算受限的模型為了做出預測,必須學習識別“滑翔機”“振蕩器”等涌現(xiàn)結(jié)構(gòu),而這些概念在原始的局部演化規(guī)則中根本不存在。

為了調(diào)和這些矛盾,研究者們引入了“時間受限熵”(time-bounded entropy)和“上褶度”(epiplexity)兩個概念。其核心定義建立在最小描述長度原則(Minimum Description Length,MDL)之上。

給定一個隨機變量 X 和計算時間上界 T,他們首先找到在該時間約束下能最優(yōu)壓縮數(shù)據(jù)的概率模型:

這里 P_T 表示所有能在時間 T 內(nèi)完成采樣和概率計算的程序集合,|P|是程序 P 的比特長度,E[log 1/P(X)]則是用該模型編碼數(shù)據(jù)所需的期望比特數(shù)。找到這個最優(yōu)模型后,上褶度和時間受限熵分別定義為:

(上褶度,即在給定計算預算下,為了把數(shù)據(jù)壓縮到最好,模型必須“內(nèi)化”的結(jié)構(gòu)性規(guī)律總量)

(時間受限熵,即用最優(yōu)模型編碼數(shù)據(jù)的期望長度)

用更直白的話說:時間受限熵是“噪聲”,上褶度是“信號”,但這里的噪聲和信號是相對于特定計算能力而言的。一個密碼學安全的偽隨機數(shù)生成器(Cryptographically Secure Pseudo-Random Number Generator,CSPRNG)對于只有多項式時間計算預算的模型來說就是純噪聲,盡管它在數(shù)學上是完全確定的。


圖丨如何估計上褶度(來源:arXiv)

論文中證明,對于任何 CSPRNG 輸出,其時間受限熵接近最大值 n 比特,而上褶度則接近常數(shù),這與我們的直覺完全吻合。

“信息取決于觀察者”這個想法在密碼學中其實早有根基。單向函數(shù)(正向計算容易、逆向計算難),正是現(xiàn)代密碼體系的基石。但將這一思想系統(tǒng)性地引入機器學習的理論框架,并給出可操作的度量方法,是這篇論文的貢獻所在。

研究者們提出了兩種估算上褶度的實用方法。第一種叫預序編碼(prequential coding),其核心思想可以用訓練損失曲線來理解:

這個公式的含義是:用模型在第 i 步的損失減去最終收斂后的損失,然后對所有訓練步驟求和。如果你畫出訓練損失曲線,這就是曲線與最終水平線之間的面積。損失下降得越多、持續(xù)得越久,面積就越大,意味著模型“吸收”了越多的結(jié)構(gòu)性信息。

第二種方法叫請求編碼(requential coding),通過教師-學生蒸餾過程中的 KL 散度累積來給出更嚴格的上界,計算成本更高但理論上更可靠。

論文中的實驗涵蓋了從元胞自動機到國際象棋再到自然語言的多種數(shù)據(jù)類型。團隊首先用初等元胞自動機(Elementary Cellular Automaton,ECA)做了一組對比實驗,ECA 的規(guī)則一共有 256 種,研究者挑了三種代表性的來測試。

規(guī)則 15 產(chǎn)生簡單周期圖案,模型很快學會預測,上褶度很低;規(guī)則 30 產(chǎn)生混沌輸出,模型永遠無法做出有效預測,時間受限熵極高但上褶度幾乎為零;規(guī)則 54 則處于“復雜性邊緣”,產(chǎn)生部分可預測的涌現(xiàn)結(jié)構(gòu),上褶度隨計算預算增加而穩(wěn)步上升。這也和此前耶魯大學團隊提出的“混沌邊緣智能”(Intelligence at the Edge of Chaos)的研究方向形成了呼應,最有價值的學習信號,或許恰恰藏在有序與混沌的交界地帶。


圖丨用元胞自動機創(chuàng)建的信息(來源:arXiv)

在國際象棋數(shù)據(jù)上,研究者們比較了兩種格式:先給出棋步序列再給出最終局面,與先給出局面再給出棋步。前者類似于“正向”計算,從走法推導局面是簡單的規(guī)則應用;后者則類似于“逆向”推理,從局面反推走法需要更復雜的理解。

實驗表明,后者雖然訓練損失更高,但上褶度也更高,而且在下游任務(如國際象棋謎題求解和局面評估)上表現(xiàn)更好。這說明更難學習的數(shù)據(jù)呈現(xiàn)方式可能反而能迫使模型習得更豐富的局面表征,這些表征更容易遷移到需要理解局面的 OOD(Out-of-Distribution Generalization,分布外泛化)任務上。

論文中可能最有現(xiàn)實啟發(fā)的一點,是它在同一算力條件下對比了不同數(shù)據(jù)模態(tài)的“可學結(jié)構(gòu)”。在相同的計算預算下,OpenWebText 文本數(shù)據(jù)的上褶度顯著高于 Lichess 國際象棋數(shù)據(jù),而后者又高于 CIFAR-5M 圖像數(shù)據(jù)。圖像數(shù)據(jù)的總信息量(按原始字節(jié)計)最大,但超過 99% 都是“時間受限熵”,即像素級的不可預測噪聲。


圖丨上褶度揭示了不同數(shù)據(jù)模態(tài)中的結(jié)構(gòu)信息差異(來源:arXiv)

這或許解釋了一個長期困擾研究者的現(xiàn)象:為什么在文本上預訓練能帶來廣泛的能力遷移,而在圖像上預訓練卻不然?因為文本包含更多可學習的結(jié)構(gòu)性信息,這些信息被編碼進模型權(quán)重后可以在新任務中復用。

論文還探討了“歸納”(induction)和“涌現(xiàn)”(emergence)兩類現(xiàn)象如何產(chǎn)生超出數(shù)據(jù)生成過程的上褶度。

關于歸納,研究者們援引了 Ilya Sutskever 的一個經(jīng)典思想實驗:當你讀一本偵探小說,在某個時刻文本揭示了兇手的身份。如果模型能預測出這個名字,它就必須從前文的線索中推斷出答案。但小說作者并不需要做這種推理,她可能先決定誰是兇手,然后編織一個自圓其說的故事。因此,預測模型被迫學習的推理能力,可能根本不存在于數(shù)據(jù)的生成過程中。


圖丨通過上褶度研究歸納(來源:arXiv)

關于涌現(xiàn),康威生命游戲提供了一個很好的說明。游戲規(guī)則可以用幾十個字節(jié)描述,一個計算能力無限的觀察者只需逐步執(zhí)行規(guī)則就能完美預測。

但計算受限的觀察者無力進行這種暴力模擬,必須學習識別和追蹤涌現(xiàn)結(jié)構(gòu),比如滑翔機的運動軌跡、不同“物種”的碰撞規(guī)則等,才能做出有效預測。這種被迫習得的高層抽象,正是上褶度試圖捕捉的東西。

論文中的一個實驗顯示,當計算預算足夠大以至于模型可以“循環(huán)展開”(類似于思維鏈推理)來模擬游戲規(guī)則時,上褶度反而會驟降,因為此時簡單的暴力解法變得可行,復雜的涌現(xiàn)知識不再必要。

不過要注意的是,上褶度是一個理論上定義清晰、但實踐中只能近似估計的量。論文承認,由于只能在有限的超參數(shù)空間中搜索,估計值可能與真實值存在系統(tǒng)性偏差。此外,高上褶度并不保證在特定下游任務上表現(xiàn)更好,它度量的是結(jié)構(gòu)性信息的總量,而非與特定任務的相關性。一個模型可能學到了大量結(jié)構(gòu),但這些結(jié)構(gòu)未必對你關心的任務有用。

但總體而言,這篇論文代表了機器學習理論的一個轉(zhuǎn)向:從關注模型選擇轉(zhuǎn)向關注數(shù)據(jù)選擇。經(jīng)典學習理論將訓練分布視為給定,優(yōu)化目標放在模型架構(gòu)和正則化上。但在預訓練時代,模型架構(gòu)趨于同質(zhì)化,數(shù)據(jù)質(zhì)量和組成反而成為決定性因素。上褶度提供了一個不依賴于特定下游任務的數(shù)據(jù)價值度量,這對于合成數(shù)據(jù)生成、數(shù)據(jù)配比優(yōu)化、課程學習等方向都有潛在的指導意義。

香農(nóng)信息論誕生于通信時代,其核心關切是信息的表征和傳輸,計算過程被抽象掉了。但學習,無論是生物的還是人工的,本質(zhì)上是計算過程。什么能被學到,取決于可用的計算資源。上褶度的提出,是朝著將計算約束納入信息論框架的一次認真嘗試。它未必是最終答案,但它提出了正確的問題。

參考資料:

1.https://arxiv.org/pdf/2601.03220

2.https://x.com/m_finzi/status/2008934727156453661

運營/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
頂級車模王琳 身高182cm 身材擁有黃金比例 散發(fā)迷人魅力

頂級車模王琳 身高182cm 身材擁有黃金比例 散發(fā)迷人魅力

老吳教育課堂
2026-01-07 09:59:57
86歲李雙江近況傳出!真的不敢相信,他如今活成了這樣!

86歲李雙江近況傳出!真的不敢相信,他如今活成了這樣!

誰將笑到最后
2026-01-08 09:29:51
國乒再輸張本智和,中國球迷竟霸屏慶祝:贏得好!真有實力!

國乒再輸張本智和,中國球迷竟霸屏慶祝:贏得好!真有實力!

十點街球體育
2026-01-10 00:00:03
摸清同事有無靠山?老江湖的驚人方法

摸清同事有無靠山?老江湖的驚人方法

夜深愛雜談
2026-01-09 22:30:30
上海移動已經(jīng)報警,視頻要是擺拍三人恐將承擔刑事責任

上海移動已經(jīng)報警,視頻要是擺拍三人恐將承擔刑事責任

映射生活的身影
2026-01-09 08:35:37
“一家三口被撞亡案”被告廖某宇被判死緩,被害人母親:他面無表情,其父全程戴口罩;被害人律師:將會申請抗訴

“一家三口被撞亡案”被告廖某宇被判死緩,被害人母親:他面無表情,其父全程戴口罩;被害人律師:將會申請抗訴

極目新聞
2026-01-09 11:19:24
沉默11天后,73歲李顯龍發(fā)聲,臺海和平至關重要,不許改變現(xiàn)狀

沉默11天后,73歲李顯龍發(fā)聲,臺海和平至關重要,不許改變現(xiàn)狀

南宮一二
2026-01-09 18:02:34
吉雪萍現(xiàn)狀:女兒去世5年后,成心理咨詢師,3個兒子都隨富商老公

吉雪萍現(xiàn)狀:女兒去世5年后,成心理咨詢師,3個兒子都隨富商老公

豐譚筆錄
2026-01-09 07:45:05
35歲男子網(wǎng)上應聘國際船員,在柬埔寨失聯(lián),妻子:通話時丈夫聲音哽咽,讓自己以后照顧好兩個年幼兒子

35歲男子網(wǎng)上應聘國際船員,在柬埔寨失聯(lián),妻子:通話時丈夫聲音哽咽,讓自己以后照顧好兩個年幼兒子

極目新聞
2026-01-09 21:53:08
59年,赫魯曉夫當眾呵斥陳毅:你是中國元帥,但政治上得聽我的!

59年,赫魯曉夫當眾呵斥陳毅:你是中國元帥,但政治上得聽我的!

古書記史
2026-01-09 00:17:48
瘋傳!王石的瓜,好狗血!

瘋傳!王石的瓜,好狗血!

財經(jīng)要參
2026-01-05 22:13:08
退出國家隊,赴德國打球后離婚,如今已過去24年,丁松現(xiàn)狀如何?

退出國家隊,赴德國打球后離婚,如今已過去24年,丁松現(xiàn)狀如何?

比利
2026-01-09 12:18:11
伊朗局勢變天進入倒計時....

伊朗局勢變天進入倒計時....

戰(zhàn)爭研究所
2026-01-08 00:04:30
“手頭緊,褲頭就綁緊點”,一場寒酸的生日宴,讓家長被網(wǎng)友噴慘

“手頭緊,褲頭就綁緊點”,一場寒酸的生日宴,讓家長被網(wǎng)友噴慘

妍妍教育日記
2026-01-08 18:20:41
胡宗南明知熊向暉是中共臥底卻不抓他,沈醉晚年回憶說出背后原因

胡宗南明知熊向暉是中共臥底卻不抓他,沈醉晚年回憶說出背后原因

飯小妹說歷史
2026-01-07 09:30:45
揚言不上春晚一周后,央媒“點名”岳云鵬,郭德綱的話有人信了

揚言不上春晚一周后,央媒“點名”岳云鵬,郭德綱的話有人信了

銀河史記
2026-01-09 19:24:55
明朝的強弩不過能射50步遠,為什么戰(zhàn)國時期的強弩卻能射600步?

明朝的強弩不過能射50步遠,為什么戰(zhàn)國時期的強弩卻能射600步?

銘記歷史呀
2026-01-09 06:15:36
368次列車無人駕駛沖過車站,106人魂斷楊莊,誰難辭其咎?

368次列車無人駕駛沖過車站,106人魂斷楊莊,誰難辭其咎?

大運河時空
2026-01-09 18:15:03
險遭暗殺,他“成了委內(nèi)瑞拉總督”

險遭暗殺,他“成了委內(nèi)瑞拉總督”

中國新聞周刊
2026-01-09 17:59:46
特朗普高調(diào)訪華安排陷入全面尷尬

特朗普高調(diào)訪華安排陷入全面尷尬

達文西看世界
2026-01-09 14:10:08
2026-01-10 11:52:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16103文章數(shù) 514467關注度
往期回顧 全部

科技要聞

傳DeepSeek準備第二次震驚全世界

頭條要聞

媒體:中國若在其任期統(tǒng)一特朗普不悅 中方回應滴水不漏

頭條要聞

媒體:中國若在其任期統(tǒng)一特朗普不悅 中方回應滴水不漏

體育要聞

楊瀚森:上場時間要去爭取 而不是要求

娛樂要聞

趙櫻子稱和蔣毅試婚三天:像試面膜

財經(jīng)要聞

投資必看!瑞銀李萌給出3大核心配置建議

汽車要聞

寶馬25年全球銷量246.3萬臺 中國仍是第一大市場

態(tài)度原創(chuàng)

家居
數(shù)碼
藝術
教育
本地

家居要聞

木色留白 演繹現(xiàn)代自由

數(shù)碼要聞

核顯玩出獨顯感:英特爾Panther Lake測試《戰(zhàn)地6》飆至192 FPS

藝術要聞

你能認出毛主席手書的全部嗎?揭秘其中隱藏的秘密!

教育要聞

馬上要出分了!山東2026藝考成績查詢方式及一分一段表!

本地新聞

云游內(nèi)蒙|“包”你再來?一座在硬核里釀出詩意的城

無障礙瀏覽 進入關懷版