国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

梯度下降:距離神經(jīng)網(wǎng)絡(luò)模型中的隱式期望最大化

0
分享至

梯度下降:距離神經(jīng)網(wǎng)絡(luò)模型中的隱式期望最大化

Gradient Descent as Implicit EM in Distance-Based Neural Models

https://arxiv.org/pdf/2512.24780



摘要
使用標(biāo)準(zhǔn)目標(biāo)函數(shù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)展現(xiàn)出概率推理的特征行為:軟聚類、原型特化以及貝葉斯不確定性追蹤。這些現(xiàn)象普遍存在于各種架構(gòu)中——包括注意力機(jī)制、分類頭以及基于能量的模型——然而現(xiàn)有的解釋依賴于與混合模型的松散類比或事后架構(gòu)解讀。我們提供了一個(gè)直接的推導(dǎo)。對(duì)于任何具有基于距離或能量的對(duì)數(shù)求和指數(shù)(log-sum-exp)結(jié)構(gòu)的目標(biāo)函數(shù),其關(guān)于每個(gè)距離的梯度恰好等于對(duì)應(yīng)分量的負(fù)后驗(yàn)責(zé)任:?L/?dj = -rj。這是一個(gè)代數(shù)恒等式,而非近似。直接的結(jié)果是,在此類目標(biāo)函數(shù)上的梯度下降隱式地執(zhí)行了期望最大化——責(zé)任不是需要計(jì)算的輔助變量,而是要應(yīng)用的梯度。無(wú)需顯式的推理算法,因?yàn)橥评硪亚度雰?yōu)化之中。這一結(jié)果將三種學(xué)習(xí)機(jī)制統(tǒng)一于單一框架之下:無(wú)監(jiān)督混合建模(其中責(zé)任完全潛在)、注意力機(jī)制(其中責(zé)任以查詢?yōu)闂l件)以及交叉熵分類(其中監(jiān)督將責(zé)任鉗制到目標(biāo))。最近在訓(xùn)練過(guò)的Transformer中觀察到的貝葉斯結(jié)構(gòu)并非涌現(xiàn)屬性,而是目標(biāo)函數(shù)幾何結(jié)構(gòu)的必然結(jié)果。優(yōu)化與推理是同一過(guò)程。

1 引言
使用標(biāo)準(zhǔn)目標(biāo)函數(shù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)反復(fù)展現(xiàn)出與概率推理相關(guān)的行為:軟聚類、原型特化、不確定性追蹤以及混合模型動(dòng)力學(xué)。這些現(xiàn)象普遍存在于各種架構(gòu)中——注意力機(jī)制、分類頭以及基于能量的模型——然而它們的起源至今仍不清楚。它們是規(guī)模擴(kuò)大后的涌現(xiàn)屬性嗎?是架構(gòu)上的偶然?還是某種更根本的東西?本文認(rèn)為,這些行為都不是上述原因。它們是常見(jiàn)目標(biāo)函數(shù)幾何結(jié)構(gòu)的必然結(jié)果。

1.1 謎題

考慮那些在訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)中自發(fā)出現(xiàn)的現(xiàn)象范圍。Transformer中的注意力頭學(xué)會(huì)專業(yè)化,各自為不同的語(yǔ)義角色路由信息。分類網(wǎng)絡(luò)將表征空間劃分為若干區(qū)域,這些區(qū)域的行為類似于混合成分。在含噪數(shù)據(jù)上訓(xùn)練的深度網(wǎng)絡(luò)展現(xiàn)出類似貝葉斯推斷的穩(wěn)健性模式:對(duì)離群點(diǎn)降權(quán),并在不同輸入間追蹤不確定性。這些行為在沒(méi)有顯式概率建模、沒(méi)有混合模型架構(gòu)、也沒(méi)有任何類似期望最大化(EM)算法的情況下涌現(xiàn)出來(lái)。

標(biāo)準(zhǔn)解釋令人難以滿意。一種觀點(diǎn)認(rèn)為這些是規(guī)模的涌現(xiàn)屬性——足夠多的參數(shù)和數(shù)據(jù)以某種方式產(chǎn)生了統(tǒng)計(jì)結(jié)構(gòu)。另一種觀點(diǎn)將其視為架構(gòu)巧合,是特定設(shè)計(jì)選擇(如softmax歸一化或殘差連接)的產(chǎn)物。第三種觀點(diǎn)提供松散的類比:注意力“類似于”軟聚類;交叉熵“近似于”混合模型。這些解釋均未回答更深層的問(wèn)題:為何是這些特定行為出現(xiàn),而非其他行為?又為何它們?cè)谌绱瞬煌募軜?gòu)和任務(wù)中如此可靠地出現(xiàn)?

1.2 近期證據(jù)

Aggarwal等人[2025a,b]的近期工作顯著深化了這一謎題。在受控實(shí)驗(yàn)環(huán)境——“貝葉斯風(fēng)洞”(其中真實(shí)后驗(yàn)可解析獲知)中,小型Transformer以低于1比特的精度復(fù)現(xiàn)了貝葉斯后驗(yàn)。這并非近似的貝葉斯行為,而是與解析解在逐位置上精確、可驗(yàn)證的一致。在相同條件下訓(xùn)練的容量匹配的MLP則完全失敗,表明該現(xiàn)象依賴于注意力的歸納偏置,而非僅靠?jī)?yōu)化。

更引人注目的是Aggarwal等人在梯度動(dòng)態(tài)中發(fā)現(xiàn)的現(xiàn)象:注意力權(quán)重在訓(xùn)練早期即趨于穩(wěn)定,而值向量則持續(xù)精煉——這種雙時(shí)間尺度結(jié)構(gòu)與經(jīng)典期望最大化中的E步和M步相呼應(yīng)。值向量接收的更新由注意力加權(quán),恰如混合模型中原型接收由責(zé)任度加權(quán)的更新。作者提供了完整的一階分析,表明這一結(jié)構(gòu)并非偶然,而是系統(tǒng)性的。

然而,Aggarwal等人明確將這種EM聯(lián)系刻畫(huà)為“結(jié)構(gòu)性的而非變分的”——是一種類比,而非推導(dǎo)。他們觀察到注意力行為類似EM,但并未聲稱EM是目標(biāo)函數(shù)的必然結(jié)果。在他們的框架下,為何交叉熵訓(xùn)練會(huì)產(chǎn)生貝葉斯幾何這一問(wèn)題仍未解決。

1.3 本文貢獻(xiàn)
本文填補(bǔ)了這一空白。我們證明,對(duì)于在距離或能量上具有l(wèi)og-sum-exp結(jié)構(gòu)的目標(biāo)函數(shù),損失關(guān)于每個(gè)距離的梯度恰好等于對(duì)應(yīng)成分的后驗(yàn)責(zé)任度。這并非近似,非相似,亦非類比。它是一個(gè)代數(shù)恒等式:


直接的結(jié)果是,在此類目標(biāo)函數(shù)上的梯度下降就是期望最大化(EM),不過(guò)是連續(xù)執(zhí)行,而非采用離散的交替步驟。前向傳播計(jì)算非歸一化的似然;歸一化產(chǎn)生責(zé)任;反向傳播則將責(zé)任加權(quán)后的更新量傳遞給參數(shù)。無(wú)需引入輔助的潛在變量,也無(wú)需調(diào)用任何推理算法。架構(gòu)并非在近似EM——它就在實(shí)現(xiàn)EM,因?yàn)樘荻缺旧砭褪秦?zé)任。

這重新定義了優(yōu)化與推理之間的關(guān)系。推理并非疊加在學(xué)習(xí)之上的獨(dú)立算法層,也不是對(duì)學(xué)習(xí)到的表征進(jìn)行的事后解釋。在我們所分析的目標(biāo)函數(shù)下,推理和優(yōu)化是同一計(jì)算過(guò)程在不同抽象層次上的體現(xiàn)。Aggarwal等人觀察到的貝葉斯結(jié)構(gòu)并非偶然出現(xiàn)的涌現(xiàn)屬性,而是由損失函數(shù)的幾何結(jié)構(gòu)所強(qiáng)制的。

1.4 貢獻(xiàn)

本文的貢獻(xiàn)刻意限定在較窄的范圍,可歸納為三個(gè)層次遞進(jìn)的論點(diǎn)。


一種解釋。這一恒等式表明,在基于距離的對(duì)數(shù)和指數(shù)目標(biāo)函數(shù)上進(jìn)行梯度下降,執(zhí)行的是隱式期望最大化。E步是前向傳播;M步是參數(shù)更新;責(zé)任從未被顯式計(jì)算,因?yàn)樗鼈兙褪翘荻?。EM并非被神經(jīng)訓(xùn)練所近似——而是被神經(jīng)訓(xùn)練所實(shí)現(xiàn)。

一個(gè)統(tǒng)一框架。根據(jù)所施加約束條件的不同,同一種機(jī)制體現(xiàn)在三種學(xué)習(xí)模式中。在無(wú)監(jiān)督模式下,責(zé)任完全潛在,原型之間自由競(jìng)爭(zhēng)。在條件模式——即注意力機(jī)制——下,責(zé)任基于共享的原型族,針對(duì)每個(gè)查詢重新計(jì)算。在約束模式——即交叉熵分類——下,監(jiān)督機(jī)制將其中一個(gè)責(zé)任鉗制到目標(biāo)值,而替代項(xiàng)之間的競(jìng)爭(zhēng)仍然存在。這三種并非不同的現(xiàn)象,而是同一現(xiàn)象在不同邊界條件下的表現(xiàn)。

2 幾何基礎(chǔ)

本文的主要結(jié)論——即責(zé)任作為梯度涌現(xiàn)——建立在一個(gè)特定的幾何基礎(chǔ)之上。本節(jié)將確立這一基礎(chǔ)。我們首先借鑒先前工作的成果,總結(jié)將神經(jīng)網(wǎng)絡(luò)輸出解讀為距離或能量而非置信度的觀點(diǎn)。接著,我們定義適用于我們分析的那一類對(duì)數(shù)和指數(shù)目標(biāo)函數(shù)。最后,我們簡(jiǎn)要回顧經(jīng)典期望最大化算法的結(jié)構(gòu),并非因?yàn)槲覀兊姆椒ㄐ枰?,而是為了建立一個(gè)參照點(diǎn),以便與隱式EM進(jìn)行對(duì)比。

2.1 基于距離的表示

神經(jīng)網(wǎng)絡(luò)輸出的標(biāo)準(zhǔn)解釋將其視為置信度或分?jǐn)?shù),指示證據(jù)支持某一假設(shè)的強(qiáng)度。當(dāng)一個(gè)邏輯值(logit)很高時(shí),表示網(wǎng)絡(luò)"相信"某個(gè)類別;當(dāng)一個(gè)注意力分?jǐn)?shù)很高時(shí),表示一個(gè)查詢(query)與一個(gè)鍵(key)很"匹配"。這種解釋雖然直觀,但卻模糊了神經(jīng)網(wǎng)絡(luò)實(shí)際計(jì)算的幾何結(jié)構(gòu)。


這種解釋并非為了方便而強(qiáng)加的一種建模選擇。它是仿射變換與分段線性激活函數(shù)組合而成的數(shù)學(xué)屬性。線性層的權(quán)重定義了一個(gè)基;偏置定義了沿該基的偏移量;激活函數(shù)則衡量偏差。變化的并非計(jì)算本身,而是我們賦予計(jì)算的語(yǔ)義。在本文中,我們采用基于距離的解釋,并將神經(jīng)網(wǎng)絡(luò)的輸出互換地稱為能量或距離。后續(xù)的結(jié)果——特別是將梯度識(shí)別為責(zé)任(responsibilities)——依賴于這種幾何框架。

2.2 對(duì)數(shù)求和指數(shù)目標(biāo)函數(shù)

給定為輸入 x 計(jì)算的一組距離或能量 {d1, d2, ..., dK},我們考慮如下形式的目標(biāo)函數(shù):


這就是對(duì)數(shù)求和指數(shù)(LSE)目標(biāo)函數(shù)。它有一個(gè)自然的解釋:如果 exp(?dj) 表示組件 j 生成該輸入的未歸一化似然,那么 L 就是對(duì)數(shù)邊際似然——即某個(gè)組件生成該輸入的對(duì)數(shù)概率。最大化 L 會(huì)促使模型為每個(gè)輸入放置至少一個(gè)接近的原型。最小化 -L 則會(huì)鼓勵(lì)分離。


這些責(zé)任是非負(fù)的且總和為一。它們表示在組件間均勻先驗(yàn)的假設(shè)下,組件 j j對(duì)該輸入負(fù)責(zé)的后驗(yàn)概率。


2.3 經(jīng)典 EM 算法

期望最大化算法是擬合帶有潛在分配的混合模型的經(jīng)典算法。它通過(guò)兩個(gè)交替的步驟進(jìn)行。

在 E 步中,計(jì)算責(zé)任。給定當(dāng)前參數(shù),每個(gè)數(shù)據(jù)點(diǎn)根據(jù)相對(duì)似然被軟分配至每個(gè)組件:


這些責(zé)任總和為一,并代表組件 j 生成該觀測(cè)值的后驗(yàn)概率。

在 M 步中,參數(shù)被更新。每個(gè)組件的參數(shù)被調(diào)整,以更好地?cái)M合分配給它的數(shù)據(jù)點(diǎn),并由責(zé)任進(jìn)行加權(quán):


對(duì)于高斯混合模型而言,這簡(jiǎn)化為計(jì)算責(zé)任加權(quán)的均值和協(xié)方差。
其關(guān)鍵特性在于,每一個(gè)數(shù)據(jù)點(diǎn)都會(huì)影響每一個(gè)組件,但這種影響受到該組件對(duì)該數(shù)據(jù)點(diǎn)所承擔(dān)責(zé)任大小的控制。

經(jīng)典的 EM 算法是離散且交替進(jìn)行的:先計(jì)算所有責(zé)任,然后更新所有參數(shù),接著重復(fù)此過(guò)程。E 步和 M 步是具有不同計(jì)算作用的獨(dú)立步驟。這種分離是算法層面的,并非本質(zhì)上的。


3 主要結(jié)果:責(zé)任即梯度

我們現(xiàn)在闡述并推導(dǎo)核心結(jié)果。推導(dǎo)過(guò)程是基礎(chǔ)的——僅需一次鏈?zhǔn)椒▌t的應(yīng)用——但其意義深遠(yuǎn)。我們證明,對(duì)于基于距離的對(duì)數(shù)求和指數(shù)(log-sum-exp)目標(biāo)函數(shù),關(guān)于每個(gè)距離的梯度恰好就是對(duì)應(yīng)組件的負(fù)責(zé)任。這一恒等式無(wú)需任何近似,并且對(duì)任何計(jì)算距離并通過(guò)梯度下降優(yōu)化 LSE 目標(biāo)的模型都成立。導(dǎo)數(shù)計(jì)算本身是教科書(shū)級(jí)別的;本文的貢獻(xiàn)在于認(rèn)識(shí)到所得的量恰好就是后驗(yàn)責(zé)任,并且這使得每一個(gè)梯度步驟都變成了一個(gè)責(zé)任加權(quán)的更新。

3.1 推導(dǎo)


3.2 這意味著什么

該定理有一個(gè)直接的解釋:責(zé)任并非必須被計(jì)算和存儲(chǔ)的量。它們是梯度。任何計(jì)算距離、應(yīng)用對(duì)數(shù)求和指數(shù)目標(biāo)函數(shù)并通過(guò)梯度下降更新參數(shù)的系統(tǒng),都已經(jīng)在計(jì)算責(zé)任——不是作為一個(gè)中間步驟,而是作為學(xué)習(xí)信號(hào)本身。

注意,這個(gè)恒等式本身是純粹的代數(shù)結(jié)果——它對(duì)于任何對(duì)數(shù)求和指數(shù)目標(biāo)函數(shù)都成立,無(wú)論我們?nèi)绾谓忉屗婕暗母鱾€(gè)量。然而,EM(期望最大化)的解釋依賴于將 理解為距離,并將理解為后驗(yàn)責(zé)任。數(shù)學(xué)結(jié)構(gòu)強(qiáng)制了梯度的形式;語(yǔ)義則賦予了它意義。


其結(jié)果是,在 LSE 目標(biāo)函數(shù)上的梯度下降恰恰就是 EM 算法。它不是 EM 的近似。經(jīng)典 EM 中離散的交替過(guò)程——計(jì)算責(zé)任,然后更新參數(shù),再重復(fù)——坍縮為連續(xù)的、并行的優(yōu)化。每一個(gè)梯度步驟都是責(zé)任加權(quán)的更新。每一個(gè)訓(xùn)練過(guò)的網(wǎng)絡(luò)一直都在執(zhí)行 EM 算法。

在本文中,"隱式 EM"指的是在對(duì)數(shù)求和指數(shù)目標(biāo)函數(shù)上進(jìn)行梯度下降時(shí),責(zé)任加權(quán)的參數(shù)更新的出現(xiàn)——而非指坐標(biāo)上升式 EM 或關(guān)于收斂性的保證。

3.3 條件

該結(jié)果依賴于三個(gè)結(jié)構(gòu)條件。當(dāng)所有三個(gè)條件都滿足時(shí),隱式EM動(dòng)態(tài)是必然發(fā)生的——它們由數(shù)學(xué)原理強(qiáng)制決定。


當(dāng)這些條件成立時(shí),不存在額外的設(shè)計(jì)選擇來(lái)啟用或禁用類似 EM 的行為。這是目標(biāo)函數(shù)幾何結(jié)構(gòu)的必然結(jié)果。任何計(jì)算距離、通過(guò)指數(shù)函數(shù)進(jìn)行歸一化并使用梯度進(jìn)行訓(xùn)練的網(wǎng)絡(luò)架構(gòu),都會(huì)展現(xiàn)出隱式 EM。


4 隱式推理的三種機(jī)制

同樣的機(jī)制在不同的約束條件下有不同的表現(xiàn)形式:

4.1 無(wú)監(jiān)督機(jī)制:混合學(xué)習(xí)

在最純粹的情況下,對(duì)數(shù)求和指數(shù)目標(biāo)函數(shù)在沒(méi)有監(jiān)督的情況下運(yùn)行。模型計(jì)算從輸入到 K 個(gè)組件中每一個(gè)的距離 dj(x),并通過(guò)訓(xùn)練來(lái)最小化:


這就是負(fù)對(duì)數(shù)邊際似然——經(jīng)典混合模型擬合中使用的目標(biāo)函數(shù)。所有組件競(jìng)爭(zhēng)每一個(gè)輸入。沒(méi)有標(biāo)簽約束哪個(gè)組件應(yīng)該獲勝。


結(jié)果是自發(fā)的特化。即使采用隨機(jī)初始化,組件也會(huì)在訓(xùn)練過(guò)程中分化。每個(gè)原型都會(huì)漂移到輸入空間中它持續(xù)承擔(dān)高責(zé)任的區(qū)域,同時(shí)將其它區(qū)域讓給競(jìng)爭(zhēng)對(duì)手。聚類的出現(xiàn)并非因?yàn)橹付嗽撃繕?biāo),而是因?yàn)槟繕?biāo)函數(shù)的幾何結(jié)構(gòu)強(qiáng)制進(jìn)行了責(zé)任加權(quán)的更新。

這種機(jī)制與混合模型上的經(jīng)典EM算法完全對(duì)應(yīng)。其固定點(diǎn)——以及通向固定點(diǎn)的路徑——都受相同的責(zé)任所支配。

4.2 條件機(jī)制:注意力機(jī)制



注意力權(quán)重恰好滿足了責(zé)任的定義。它們是非負(fù)的,在所有鍵上總和為一,并代表了每個(gè)鍵在多大程度上“解釋”了該查詢。輸出是值的責(zé)任加權(quán)組合:



4.3 約束機(jī)制:交叉熵分類

交叉熵分類引入了監(jiān)督信息,但這并未使其脫離隱式 EM 的框架。它只是對(duì)其施加了約束。




錯(cuò)誤類別之間的競(jìng)爭(zhēng)保持不變。當(dāng)模型分類錯(cuò)誤時(shí),責(zé)任質(zhì)量分布在錯(cuò)誤的答案中,每個(gè)錯(cuò)誤答案都會(huì)接收到與其份額成正比的梯度信號(hào)。"錯(cuò)得最離譜"的類別——即那些具有最高的類別——受到的懲罰最強(qiáng)烈。這不是均勻的排斥;而是責(zé)任加權(quán)的修正。


交叉熵并不會(huì)消除 EM 動(dòng)態(tài);它只是引導(dǎo)這些動(dòng)態(tài)。M 步仍然根據(jù)各組件所承擔(dān)的責(zé)任比例對(duì)其進(jìn)行更新,但監(jiān)督信息會(huì)將該過(guò)程偏向一個(gè)預(yù)設(shè)的分配。這解釋了為什么交叉熵盡管形式簡(jiǎn)單卻如此有效:它繼承了混合模型的軟競(jìng)爭(zhēng)和自動(dòng)加權(quán)特性,同時(shí)將這些動(dòng)態(tài)導(dǎo)向一個(gè)有監(jiān)督的目標(biāo)。這個(gè)損失函數(shù)所起的作用,比其熟悉的形式所暗示的要更多。

4.4 分類體系

這三種機(jī)制——無(wú)監(jiān)督機(jī)制、條件機(jī)制和約束機(jī)制——在觀測(cè)對(duì)象和潛在變量上有所不同。但它們共享一個(gè)共同的結(jié)構(gòu):對(duì)距離進(jìn)行指數(shù)化,然后在候選項(xiàng)之間進(jìn)行歸一化。正是這個(gè)結(jié)構(gòu)產(chǎn)生了責(zé)任,而責(zé)任又產(chǎn)生了隱式 EM。

關(guān)鍵因素是歸一化。當(dāng)輸出被歸一化時(shí)——無(wú)論是通過(guò) softmax、通過(guò)對(duì)數(shù)求和指數(shù)配分函數(shù),還是通過(guò)任何強(qiáng)制總和為一的約束操作——組件之間就會(huì)產(chǎn)生競(jìng)爭(zhēng)。一個(gè)組件似然的增加,必然會(huì)降低其他組件的相對(duì)似然。這種競(jìng)爭(zhēng)是分配產(chǎn)生的根源:每個(gè)輸入被概率性地分配給各個(gè)組件,而梯度也相應(yīng)地分布。

去除歸一化,這個(gè)結(jié)構(gòu)就會(huì)崩潰??紤]基于沒(méi)有配分函數(shù)的核(如高斯核)的目標(biāo)函數(shù),例如最大相關(guān)熵:


在這里,每個(gè)組件獨(dú)立運(yùn)作。一個(gè)遠(yuǎn)離所有原型的點(diǎn),會(huì)對(duì)所有原型產(chǎn)生微弱的梯度——不是因?yàn)樨?zé)任被分配到了別處,而是因?yàn)闆](méi)有競(jìng)爭(zhēng)存在來(lái)進(jìn)行分配。這里沒(méi)有隱式的 E 步,因?yàn)椴淮嬖谪?zé)任。這種目標(biāo)函數(shù)增強(qiáng)了對(duì)異常值的魯棒性(遠(yuǎn)離所有原型的點(diǎn)被有效忽略),但完全失去了分配結(jié)構(gòu)。

這厘清了設(shè)計(jì)空間。指數(shù)化將距離轉(zhuǎn)化為似然;歸一化將似然轉(zhuǎn)化為責(zé)任。兩者兼?zhèn)鋾r(shí),隱式 EM 就不可避免。僅有指數(shù)化,模型獲得了魯棒性,但放棄了推理。目標(biāo)函數(shù)的選擇,本質(zhì)上是在決定模型應(yīng)該進(jìn)行分配還是應(yīng)該忽略——而這種選擇是在損失函數(shù)層面做出的,而非網(wǎng)絡(luò)架構(gòu)層面。

5 與先前工作的關(guān)系

本文推導(dǎo)出的結(jié)果并非孤立存在。它依賴于先前的工作來(lái)奠定其幾何基礎(chǔ),并且通過(guò)它所能解釋的近期實(shí)證發(fā)現(xiàn)而獲得重要性。本節(jié)將闡述本文的貢獻(xiàn)與三個(gè)方面工作的關(guān)聯(lián):基于距離的神經(jīng)表示解釋、近期關(guān)于 Transformer 中貝葉斯結(jié)構(gòu)的證據(jù),以及基于能量的學(xué)習(xí)和期望最大化方面的經(jīng)典成果。

5.1 關(guān)于基于距離表示的先前工作

在先前的工作 [Oursland, 2024] 中,我們奠定了本文所依賴的幾何解釋。該工作表明,標(biāo)準(zhǔn)的神經(jīng)網(wǎng)絡(luò)層——仿射變換后接 ReLU 或絕對(duì)值激活函數(shù)——計(jì)算出的量表現(xiàn)為與學(xué)習(xí)到的原型之間的距離。輸出是偏差,而非置信度;它們衡量的是輸入距離由權(quán)重定義的參考結(jié)構(gòu)有多遠(yuǎn)。這種解釋并非強(qiáng)加的,而是從所涉及操作的數(shù)學(xué)原理中推導(dǎo)出來(lái)的。

本文以此幾何基礎(chǔ)為前提,提出了一個(gè)不同的問(wèn)題:當(dāng)基于距離的表示在標(biāo)準(zhǔn)目標(biāo)函數(shù)下被優(yōu)化時(shí),會(huì)發(fā)生什么?我們先前的工作并未涉及學(xué)習(xí)動(dòng)態(tài)。它描述了神經(jīng)網(wǎng)絡(luò)表示什么,而非它們?nèi)绾螌W(xué)習(xí)。本文的貢獻(xiàn)在于表明,對(duì)距離采用對(duì)數(shù)求和指數(shù)目標(biāo)函數(shù)會(huì)產(chǎn)生責(zé)任加權(quán)的梯度,而這會(huì)引發(fā)出隱式 EM。

這兩個(gè)結(jié)果是互補(bǔ)的,共同構(gòu)成了一幅完整的圖景。第一個(gè)結(jié)果指出:神經(jīng)網(wǎng)絡(luò)計(jì)算距離。第二個(gè)結(jié)果指出:用 LSE 目標(biāo)函數(shù)優(yōu)化距離就是在執(zhí)行推理。兩者互不包含。如果沒(méi)有距離的解釋,將梯度等同于責(zé)任只是一個(gè)形式上的趣聞。如果沒(méi)有梯度恒等式,距離的解釋描述的只是靜態(tài)的表示,無(wú)法說(shuō)明它們是如何產(chǎn)生的。幾何基礎(chǔ)支撐了學(xué)習(xí)動(dòng)態(tài);學(xué)習(xí)動(dòng)態(tài)則證明關(guān)注幾何基礎(chǔ)是合理的。

Aggarwal 等人 [2025b] 從靜態(tài)分析轉(zhuǎn)向動(dòng)態(tài)分析,研究了交叉熵訓(xùn)練下注意力機(jī)制的梯度。他們推導(dǎo)出值向量接收的是責(zé)任加權(quán)的更新,并且注意力分?jǐn)?shù)會(huì)根據(jù)一種類似優(yōu)勢(shì)函數(shù)的規(guī)則進(jìn)行調(diào)整。他們觀察到一種雙時(shí)間尺度的結(jié)構(gòu):注意力模式早期就穩(wěn)定下來(lái),而值向量則持續(xù)細(xì)化——這鏡像了經(jīng)典 EM 算法中的 E 步和 M 步。該分析十分透徹,并且與 EM 的平行關(guān)系是明確的。

然而,作者們謹(jǐn)慎地將這種聯(lián)系描述為"結(jié)構(gòu)性的,而非變分性的"。他們觀察到注意力的行為類似于 EM,但并未斷言 EM 是目標(biāo)函數(shù)的必然結(jié)果。他們記錄了這種相似性,但未嘗試進(jìn)行推導(dǎo)。

本文提供了這一推導(dǎo)。在基于距離的神經(jīng)輸出解釋下,梯度恒等式 ?L/?dj = ?rj 并非結(jié)構(gòu)上的類比,而是一個(gè)代數(shù)事實(shí)。Aggarwal 等人觀察到的類 EM 動(dòng)態(tài)并非恰好出現(xiàn)在Transformer 中的涌現(xiàn)屬性——它們是由損失函數(shù)的幾何結(jié)構(gòu)強(qiáng)制決定的。任何計(jì)算距離并優(yōu)化對(duì)數(shù)求和指數(shù)目標(biāo)函數(shù)的模型,無(wú)論其是否類似于 Transformer,都會(huì)展現(xiàn)出相同的動(dòng)態(tài)。

這兩項(xiàng)貢獻(xiàn)之間的關(guān)系是觀察與解釋的關(guān)系。Aggarwal 等人以精確和嚴(yán)謹(jǐn)?shù)姆绞桨l(fā)現(xiàn)并記錄了該現(xiàn)象的實(shí)證證據(jù)。我們則提供了使該現(xiàn)象成為必然的理論機(jī)制。

5.3 其他聯(lián)系

LeCun 等人 [2006] 的基于能量的學(xué)習(xí)框架提供了重要的概念性支撐。該工作將學(xué)習(xí)重新定義為最小化能量函數(shù),其中概率通過(guò)指數(shù)化和歸一化推導(dǎo)得出。本文分析的對(duì)數(shù)求和指數(shù)目標(biāo)函數(shù)是基于能量的模型中"自由能"公式的一個(gè)特例。我們的貢獻(xiàn)在于表明,這個(gè)自由能關(guān)于組件能量的梯度恰好就是后驗(yàn)責(zé)任——這個(gè)聯(lián)系在該框架中隱含存在,但據(jù)我們所知,此前未被作為一個(gè)形式恒等式明確提出。

Dempster 等人 [1977] 提出了期望最大化算法,用于含隱變量的極大似然估計(jì)。他們將 E 步和 M 步定義為離散的、交替進(jìn)行的操作。本文表明,對(duì)于基于距離的目標(biāo)函數(shù),這些步驟坍縮為梯度下降:前向傳播隱式計(jì)算責(zé)任,反向傳播則應(yīng)用這些責(zé)任。這并非與經(jīng)典公式相矛盾,而是揭示出它是更普遍現(xiàn)象的一個(gè)特例。EM 不僅僅是一個(gè)可以選擇應(yīng)用的算法;它是某些目標(biāo)函數(shù)幾何結(jié)構(gòu)在基于梯度的優(yōu)化下的一個(gè)屬性。

Vaswani 等人 [2017] 引入了以注意力為核心機(jī)制的 Transformer 架構(gòu)。最初的闡述強(qiáng)調(diào)注意力是一種軟檢索操作——查詢關(guān)注鍵以聚合值。隱式 EM 的視角將注意力重新定義為條件混合推理,其中注意力權(quán)重作為責(zé)任,值投影作為原型參數(shù)。這種解釋與最初的公式一致,但提供了架構(gòu)描述所缺乏的概率語(yǔ)義。

混合專家模型 [Jacobs 等人, 1991] 使用顯式的門(mén)控網(wǎng)絡(luò)將輸入路由到專門(mén)的子網(wǎng)絡(luò)。門(mén)控權(quán)重?fù)Q個(gè)名字就是責(zé)任。區(qū)別在于架構(gòu):在混合專家模型中,門(mén)控是一個(gè)單獨(dú)的學(xué)習(xí)函數(shù);而在標(biāo)準(zhǔn)注意力和分類中,責(zé)任是作為目標(biāo)函數(shù)的梯度出現(xiàn)的,無(wú)需專門(mén)的門(mén)控機(jī)制。隱式 EM 揭示了混合專家模型中的顯式門(mén)控并非必需——任何對(duì)數(shù)求和指數(shù)目標(biāo)函數(shù)都會(huì)自動(dòng)產(chǎn)生責(zé)任加權(quán)的路由。

6 局限性與失效模式

隱式 EM 框架并非普遍適用。它在特定條件下成立,而當(dāng)這些條件不滿足時(shí),該分析也隨之失效。本節(jié)將界定其邊界:隱式 EM 在何種情況下不會(huì)出現(xiàn),即使出現(xiàn)時(shí)可能發(fā)生哪些病理現(xiàn)象,以及哪些現(xiàn)象完全超出其范圍。清晰地闡述局限性非但不會(huì)削弱,反而會(huì)加強(qiáng)本文的貢獻(xiàn)——它區(qū)分了精確的主張與過(guò)度的延伸。

6.1 隱式EM不出現(xiàn)的情況


在這種設(shè)置下,責(zé)任不存在。沒(méi)有一個(gè)量能在所有類別上總和為一;也沒(méi)有軟分配將輸入在不同候選項(xiàng)之間進(jìn)行分配。每個(gè)輸出通道孤立地運(yùn)作。一個(gè)點(diǎn)可能離所有原型同樣近,或者離所有原型同樣遠(yuǎn),而梯度不會(huì)重新分配——它們僅僅反映獨(dú)立的誤差。

這不是架構(gòu)的失敗,而是缺少所需的目標(biāo)函數(shù)結(jié)構(gòu)。隱式 EM 源于競(jìng)爭(zhēng),而競(jìng)爭(zhēng)源于歸一化。具有獨(dú)立輸出的系統(tǒng)可以學(xué)習(xí)到有用的表示,但它們不執(zhí)行混合推理,也不會(huì)展現(xiàn)出責(zé)任加權(quán)的動(dòng)態(tài)。該框架的解釋范圍止于歸一化失效之處。

6.2 尺度與坍縮

完整的高斯混合模型在似然函數(shù)中包含一個(gè)對(duì)數(shù)行列式項(xiàng)——這是對(duì)每個(gè)組件協(xié)方差體積的懲罰。這一項(xiàng)防止了坍縮:沒(méi)有它,組件可以將其協(xié)方差收縮為零,在單個(gè)點(diǎn)上放置無(wú)限密度,從而獲得無(wú)界似然。當(dāng)協(xié)方差坍縮時(shí),對(duì)數(shù)行列式會(huì)發(fā)散,從而平衡密度的增長(zhǎng)。

大多數(shù)神經(jīng)網(wǎng)絡(luò)目標(biāo)函數(shù)省略了這一項(xiàng)。交叉熵和注意力 softmax 在距離或分?jǐn)?shù)上操作,沒(méi)有顯式的體積懲罰。隱式 EM 動(dòng)態(tài)仍然成立——梯度仍然是責(zé)任加權(quán)的——但沒(méi)有什么能阻止學(xué)習(xí)到的度量發(fā)生退化。網(wǎng)絡(luò)可以學(xué)會(huì)將所有輸入映射到鄰近的點(diǎn),從而坍縮距離結(jié)構(gòu)并使責(zé)任變得無(wú)意義。

在實(shí)踐中,坍縮通常通過(guò)隱式機(jī)制來(lái)避免:權(quán)重衰減正則化投影的尺度;層歸一化約束激活值的幅度;像殘差連接這樣的架構(gòu)選擇則保留了信號(hào)的多樣性。這些干預(yù)措施是有效的,但它們并非源自目標(biāo)函數(shù)——它們只是恰好穩(wěn)定了幾何結(jié)構(gòu)的啟發(fā)式方法。

隱式 EM 框架闡明了為什么坍縮是一種風(fēng)險(xiǎn)。當(dāng)組件根據(jù)其責(zé)任比例進(jìn)行更新時(shí),一個(gè)捕獲了稍多概率質(zhì)量的組件會(huì)接收到更強(qiáng)的梯度,進(jìn)而捕獲更多質(zhì)量,并可能完全主導(dǎo)。這種正反饋是 EM 動(dòng)態(tài)固有的,在經(jīng)典模型中由體積項(xiàng)控制。神經(jīng)網(wǎng)絡(luò)移除了這種控制,并依賴其他機(jī)制來(lái)填補(bǔ)這一空白。該框架并未解決這個(gè)問(wèn)題;它解釋了問(wèn)題為何存在。

6.3 監(jiān)督約束

在無(wú)監(jiān)督機(jī)制下,責(zé)任完全是潛在的——僅由數(shù)據(jù)決定哪些組件擁有哪些輸入。監(jiān)督學(xué)習(xí)改變了這一點(diǎn)。標(biāo)簽聲明了哪個(gè)組件應(yīng)該承擔(dān)責(zé)任,覆蓋了幾何結(jié)構(gòu)原本可能決定的結(jié)果。

這種約束強(qiáng)大但僵化。交叉熵訓(xùn)練強(qiáng)制正確類別的責(zé)任趨近于 1,無(wú)論輸入是靠近該類別原型還是遠(yuǎn)離所有原型。一個(gè)與所有類別邊界等距的輸入仍然會(huì)得到一個(gè)硬標(biāo)簽;模型必須將其分配到某處。在錯(cuò)誤類別之間,責(zé)任的軟性、分級(jí)結(jié)構(gòu)依然存在,但正確類別是被"夾住"的。

其后果之一是封閉世界的假設(shè)。Softmax 歸一化保證了責(zé)任之和為 1——某個(gè)類別必須為每個(gè)輸入承擔(dān)全部責(zé)任。沒(méi)有"以上皆非"的選項(xiàng),模型無(wú)法將輸入視為所有已知類別之外的異類而予以拒絕。一個(gè)分布外的輸入,無(wú)論多么異常,都會(huì)被分配到距離最小的那個(gè)類別,并且模型的置信度可能任意高。

6.4 該框架無(wú)法解釋的內(nèi)容

隱式 EM 框架解釋了一種現(xiàn)象:基于距離的目標(biāo)函數(shù)中責(zé)任加權(quán)學(xué)習(xí)動(dòng)態(tài)的出現(xiàn)。它并不能解釋神經(jīng)網(wǎng)絡(luò)所做的所有事情。

泛化能力——即網(wǎng)絡(luò)為何能在未見(jiàn)數(shù)據(jù)上表現(xiàn)良好——并未涉及。該框架描述了訓(xùn)練的動(dòng)態(tài)過(guò)程,而非那些能夠?qū)崿F(xiàn)訓(xùn)練分布之外泛化的歸納偏置。規(guī)模法則——即模型大小、數(shù)據(jù)和性能之間可預(yù)測(cè)的關(guān)系——完全不在該分析的范圍內(nèi)。梯度恒等式本身并未說(shuō)明性能應(yīng)如何隨參數(shù)或計(jì)算量擴(kuò)展。

長(zhǎng)程推理、規(guī)劃以及序列決策涉及該框架未能捕獲的時(shí)間結(jié)構(gòu)。隱式EM描述了單個(gè)輸入如何被軟分配到各個(gè)組件,以及這些組件如何更新。它并未描述表征如何隨時(shí)間組合、目標(biāo)如何通過(guò)動(dòng)作序列反向傳播,或者模型如何學(xué)習(xí)搜索。

涌現(xiàn)能力——即隨著規(guī)模擴(kuò)大而突然出現(xiàn)的性質(zhì)上的新行為——仍未得到解釋。該框架沒(méi)有說(shuō)明為何某些能力會(huì)不連續(xù)地出現(xiàn),或者為何它們需要特定的模型規(guī)模閾值。如果涌現(xiàn)能力源自隱式EM動(dòng)態(tài),其聯(lián)系并不明顯;如果它們?cè)醋云渌麢C(jī)制,該框架則對(duì)此保持沉默。

這些并非分析的失敗,而是其范圍的邊界。本文的貢獻(xiàn)在于精確地識(shí)別并推導(dǎo)出一種機(jī)制,而非解釋整個(gè)深度學(xué)習(xí)。明確主張的范圍可以防止過(guò)度解讀——并為解釋隱式EM無(wú)法觸及的現(xiàn)象留下補(bǔ)充說(shuō)明的空間。

7 討論

本節(jié)反思隱式EM框架統(tǒng)一了哪些內(nèi)容,它對(duì)我們理解神經(jīng)網(wǎng)絡(luò)的方式有何啟示,以及它為未來(lái)的工作留下了哪些待解決的問(wèn)題。

7.1 統(tǒng)一性

該框架揭示出,高斯混合模型、注意力機(jī)制和交叉熵分類并非三種具有表面相似性的不同方法。它們是在不同約束條件下運(yùn)作的同一種機(jī)制。在GMM中,責(zé)任完全是潛在的。在注意力機(jī)制中,責(zé)任以查詢?yōu)闂l件,并為每個(gè)輸入重新計(jì)算。在交叉熵中,責(zé)任受到監(jiān)督信息的部分約束。其底層動(dòng)態(tài)——指數(shù)化、歸一化、責(zé)任加權(quán)更新——是相同的。

這暗示了我們?cè)诮庾x神經(jīng)網(wǎng)絡(luò)訓(xùn)練方式上的轉(zhuǎn)變。概率常被視為原始量:我們定義分布,推導(dǎo)似然,然后進(jìn)行優(yōu)化。隱式EM的視角則反轉(zhuǎn)了這一關(guān)系。距離是首要的。網(wǎng)絡(luò)計(jì)算幾何量——與所學(xué)結(jié)構(gòu)的偏差——而概率僅在指數(shù)化和歸一化之后才出現(xiàn)。幾何先于概率;推理是在幾何目標(biāo)上進(jìn)行優(yōu)化的結(jié)果。

在這種觀點(diǎn)下,損失函數(shù)并非為追求性能而任意選擇的。它們是幾何先驗(yàn)。交叉熵編碼了一種假設(shè),即輸入應(yīng)被完全地分配給離散類別。距離的對(duì)數(shù)和指數(shù)假設(shè)輸入源于潛在原因的混合。相關(guān)熵假設(shè)異常值應(yīng)被忽略。每個(gè)目標(biāo)函數(shù)都會(huì)引發(fā)不同的分配幾何結(jié)構(gòu)和不同的梯度流模式。選擇一個(gè)損失函數(shù),就是選擇一種關(guān)于數(shù)據(jù)如何與結(jié)構(gòu)相關(guān)聯(lián)的理論——無(wú)論這種選擇是有意還是無(wú)意的。

7.2 意義

對(duì)于可解釋性而言,該框架提供了一條從訓(xùn)練動(dòng)態(tài)到語(yǔ)義結(jié)構(gòu)的直接路徑。如果責(zé)任就是梯度,那么網(wǎng)絡(luò)所做的分配就不再是需要探測(cè)或事后分析的隱藏量。它們存在于反向傳播中,在每個(gè)訓(xùn)練步驟都被計(jì)算。"哪個(gè)組件對(duì)這個(gè)輸入負(fù)責(zé)?"這個(gè)問(wèn)題在梯度本身中就有一個(gè)答案。這并不能解決可解釋性的全部問(wèn)題——理解一個(gè)組件為何承擔(dān)責(zé)任需要進(jìn)一步分析——但它將分配結(jié)構(gòu)定位在一個(gè)已被計(jì)算出的量中,而非一個(gè)必須被提取出來(lái)的量。

對(duì)于目標(biāo)函數(shù)設(shè)計(jì)而言,該分析將對(duì)數(shù)和指數(shù)函數(shù)重新定義為一種結(jié)構(gòu)性要求,而非僅僅是數(shù)值上的便利。引入Softmax通常是為了避免溢出或產(chǎn)生性質(zhì)良好的梯度。隱式EM的視角揭示了一個(gè)更深層的作用:對(duì)數(shù)和指數(shù)函數(shù)引發(fā)了競(jìng)爭(zhēng),競(jìng)爭(zhēng)產(chǎn)生了責(zé)任,而責(zé)任則使學(xué)習(xí)表現(xiàn)得像推理。如果需要類似推理的行為,LSE結(jié)構(gòu)就是必不可少的。如果不需要這種行為——如果更傾向于獨(dú)立的預(yù)測(cè)或魯棒的異常值處理——那么就應(yīng)該有意識(shí)地避免使用LSE。這個(gè)選擇無(wú)關(guān)數(shù)值穩(wěn)定性;它關(guān)乎目標(biāo)函數(shù)將產(chǎn)生何種類型的學(xué)習(xí)動(dòng)態(tài)。

對(duì)于理論而言,該框架消解了一個(gè)長(zhǎng)期存在的分野。優(yōu)化和推理傳統(tǒng)上是不同的:一個(gè)關(guān)注尋找最小化損失的參數(shù),另一個(gè)關(guān)注計(jì)算潛在變量的后驗(yàn)。隱式EM的結(jié)果表明,在正確的目標(biāo)函數(shù)下,這兩者是同一過(guò)程在不同層次上的觀察。當(dāng)梯度就是責(zé)任時(shí),梯度下降就是推理。這并不是聲稱所有優(yōu)化都是推理,而是指對(duì)于一類明確界定的目標(biāo)函數(shù),其間的區(qū)別消失了。前向傳播計(jì)算后驗(yàn);反向傳播應(yīng)用后驗(yàn)。訓(xùn)練就是推理,在整個(gè)數(shù)據(jù)集上持續(xù)進(jìn)行。

7.3 開(kāi)放方向

仍有幾個(gè)方向待探索。神經(jīng)目標(biāo)函數(shù)中缺乏體積控制——缺失的對(duì)數(shù)行列式——導(dǎo)致了目前由啟發(fā)式方法管理的坍縮風(fēng)險(xiǎn)。一個(gè)原則性的方法要么從架構(gòu)選擇中推導(dǎo)出隱含的體積項(xiàng),要么設(shè)計(jì)顯式包含這些項(xiàng)的目標(biāo)函數(shù)。理解歸一化層何時(shí)能夠替代體積控制,何時(shí)不能,這將把隱式EM框架與實(shí)際訓(xùn)練中的穩(wěn)定性問(wèn)題聯(lián)系起來(lái)。

現(xiàn)實(shí)環(huán)境中的監(jiān)督很少是干凈的。標(biāo)簽可能帶有噪聲、是部分的或不確定的。約束機(jī)制的分析假設(shè)硬標(biāo)簽?zāi)芫_地固定責(zé)任;更全面的處理應(yīng)將軟性或概率性監(jiān)督建模為對(duì)責(zé)任結(jié)構(gòu)的部分約束。這可能將半監(jiān)督學(xué)習(xí)、標(biāo)簽平滑以及從眾包標(biāo)注中學(xué)習(xí)統(tǒng)一到隱式EM框架下。

開(kāi)放集推理需要擺脫封閉世界的假設(shè)。當(dāng)前的目標(biāo)函數(shù)強(qiáng)制每個(gè)輸入都被分配;現(xiàn)實(shí)的部署需要提供拒絕的選項(xiàng)。支持非分配的目標(biāo)函數(shù)——一個(gè)顯式的"以上皆非"組件,或者一個(gè)低于其則沒(méi)有組件承擔(dān)責(zé)任的門(mén)檻——將把隱式EM擴(kuò)展到并非所有輸入都屬于已知類別的環(huán)境中。

最后,需要診斷工具。如果訓(xùn)練好的網(wǎng)絡(luò)執(zhí)行了隱式EM,那么這應(yīng)該是可以測(cè)量的:從梯度中提取責(zé)任,追蹤訓(xùn)練過(guò)程中的特化,檢測(cè)機(jī)制何時(shí)失效或退化。這樣的工具將把該框架從解釋性理論轉(zhuǎn)變?yōu)閷?shí)用工具,使研究人員能夠驗(yàn)證給定模型是否展現(xiàn)出理論預(yù)測(cè)的動(dòng)態(tài)。


8 結(jié)論


其意義是直接的。在基于距離的對(duì)數(shù)求和指數(shù)目標(biāo)函數(shù)上進(jìn)行梯度下降,隱式地執(zhí)行了期望最大化算法。責(zé)任并非作為輔助量計(jì)算得到;它們就是梯度本身。前向傳播是 E 步;反向傳播是 M 步。不需要顯式的推理算法,因?yàn)橥评硪呀?jīng)嵌入在優(yōu)化之中。

這種機(jī)制統(tǒng)一了以往被視為不同的現(xiàn)象。無(wú)監(jiān)督混合學(xué)習(xí)、Transformer 中的注意力機(jī)制以及交叉熵分類,是同一底層過(guò)程的三種表現(xiàn)形式——它們?cè)谟^測(cè)內(nèi)容和潛在變量上有所不同,但受相同的動(dòng)態(tài)所支配。最近在訓(xùn)練好的 Transformer 中觀察到的貝葉斯結(jié)構(gòu)并非一個(gè)涌現(xiàn)的謎團(tuán);它是用于訓(xùn)練它們的目標(biāo)函數(shù)的必然結(jié)果。

優(yōu)化和推理是同一過(guò)程在不同尺度上的觀察。

原文鏈接:https://arxiv.org/pdf/2512.24780

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
寧波銀行發(fā)布貴金屬業(yè)務(wù)市場(chǎng)風(fēng)險(xiǎn)提示

寧波銀行發(fā)布貴金屬業(yè)務(wù)市場(chǎng)風(fēng)險(xiǎn)提示

財(cái)經(jīng)網(wǎng)
2026-03-26 18:32:12
中美衛(wèi)星導(dǎo)航用戶數(shù)量懸殊:GPS用戶數(shù)超60億,中國(guó)北斗令人意外

中美衛(wèi)星導(dǎo)航用戶數(shù)量懸殊:GPS用戶數(shù)超60億,中國(guó)北斗令人意外

混沌錄
2026-03-18 23:54:31
告別聲剛落,大陸強(qiáng)音起蔡正元今日入獄,國(guó)臺(tái)辦這句狠話破防綠營(yíng)

告別聲剛落,大陸強(qiáng)音起蔡正元今日入獄,國(guó)臺(tái)辦這句狠話破防綠營(yíng)

阿離家居
2026-03-27 04:34:34
日媒在報(bào)道張雪峰的時(shí)候,用了一個(gè)詞,我覺(jué)得太恰當(dāng)了

日媒在報(bào)道張雪峰的時(shí)候,用了一個(gè)詞,我覺(jué)得太恰當(dāng)了

輝哥說(shuō)動(dòng)漫
2026-03-27 07:12:50
廣東男子掃墓時(shí)發(fā)現(xiàn)“黑色巨物”在動(dòng)!湊近一看,瞬間頭皮發(fā)麻……

廣東男子掃墓時(shí)發(fā)現(xiàn)“黑色巨物”在動(dòng)!湊近一看,瞬間頭皮發(fā)麻……

珠海消防
2026-03-25 20:08:08
46 歲張柏芝三亞生圖流出,肚子上的軟肉,打了整個(gè)內(nèi)娛的臉

46 歲張柏芝三亞生圖流出,肚子上的軟肉,打了整個(gè)內(nèi)娛的臉

橙星文娛
2026-03-26 13:40:27
為嫁給美國(guó)人,56歲南京大媽奔赴美國(guó),2年后嫁給70歲美國(guó)老頭

為嫁給美國(guó)人,56歲南京大媽奔赴美國(guó),2年后嫁給70歲美國(guó)老頭

情感藝術(shù)家
2026-03-08 22:07:38
拒絕回歸WCBA!李月汝再赴美國(guó),官宣重磅決定,韓旭也要這么干了

拒絕回歸WCBA!李月汝再赴美國(guó),官宣重磅決定,韓旭也要這么干了

萌蘭聊個(gè)球
2026-03-26 13:09:33
中國(guó)的隱忍,正在延緩第三次世界大戰(zhàn)!

中國(guó)的隱忍,正在延緩第三次世界大戰(zhàn)!

南權(quán)先生
2026-03-23 15:11:48
徐昕拼下兩雙卻輸球,是廣州最大悲哀?劉維偉賽后發(fā)言更扎心

徐昕拼下兩雙卻輸球,是廣州最大悲哀?劉維偉賽后發(fā)言更扎心

林子說(shuō)事
2026-03-27 00:33:44
廈門(mén)一女子長(zhǎng)期遭家暴離家不敢歸,丈夫向法院申請(qǐng)宣告其死亡,十多年后決心離婚才知道自己“死了”!

廈門(mén)一女子長(zhǎng)期遭家暴離家不敢歸,丈夫向法院申請(qǐng)宣告其死亡,十多年后決心離婚才知道自己“死了”!

環(huán)球網(wǎng)資訊
2026-03-26 14:44:08
少一人也能贏!姆巴佩滿血?dú)w來(lái)先拔頭籌,法國(guó)2-1力克巴西

少一人也能贏!姆巴佩滿血?dú)w來(lái)先拔頭籌,法國(guó)2-1力克巴西

仰臥撐FTUer
2026-03-27 07:58:03
你們都是什么時(shí)候?qū)δ信麻_(kāi)竅的?網(wǎng)友:果然還是攔不住有心人

你們都是什么時(shí)候?qū)δ信麻_(kāi)竅的?網(wǎng)友:果然還是攔不住有心人

夜深愛(ài)雜談
2026-02-21 21:37:02
你見(jiàn)過(guò)天才嗎?網(wǎng)友:有些領(lǐng)域,努力在天賦面前,一文不值

你見(jiàn)過(guò)天才嗎?網(wǎng)友:有些領(lǐng)域,努力在天賦面前,一文不值

帶你感受人間冷暖
2026-03-20 00:47:24
蘇州市人民商場(chǎng)龍鳳珠寶品牌店涉嫌銷售“假大牌” 品牌總部回應(yīng)

蘇州市人民商場(chǎng)龍鳳珠寶品牌店涉嫌銷售“假大牌” 品牌總部回應(yīng)

生活視覺(jué)攝影
2026-03-26 13:33:29
新華社消息|伊朗官員:美以襲擊已造成伊朗至少1750人死亡

新華社消息|伊朗官員:美以襲擊已造成伊朗至少1750人死亡

新華社
2026-03-26 10:06:18
唯一不含草酸的蔬菜!比薺菜、韭菜還鮮嫩,鮮嫩營(yíng)養(yǎng)正當(dāng)時(shí),好吃

唯一不含草酸的蔬菜!比薺菜、韭菜還鮮嫩,鮮嫩營(yíng)養(yǎng)正當(dāng)時(shí),好吃

阿龍美食記
2026-03-24 09:50:48
中國(guó)肺癌發(fā)病率世界第一!提醒:罪魁禍?zhǔn)滓丫境觯?種食物要少吃

中國(guó)肺癌發(fā)病率世界第一!提醒:罪魁禍?zhǔn)滓丫境觯?種食物要少吃

健康之光
2026-03-23 20:10:05
美空軍雜志:美軍戰(zhàn)損2架F-35、9架F-15、6架F-16、7架加油機(jī)!

美空軍雜志:美軍戰(zhàn)損2架F-35、9架F-15、6架F-16、7架加油機(jī)!

勝研集
2026-03-25 00:02:51
國(guó)產(chǎn)筆記本CPU偷梁換柱翻車!官方終于回應(yīng):生產(chǎn)失誤、全額退款

國(guó)產(chǎn)筆記本CPU偷梁換柱翻車!官方終于回應(yīng):生產(chǎn)失誤、全額退款

快科技
2026-03-25 10:14:04
2026-03-27 08:55:00
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1305文章數(shù) 18關(guān)注度
往期回顧 全部

科技要聞

OpenAI果斷砍掉"成人模式",死磕生產(chǎn)力

頭條要聞

牛彈琴:一直贏的特朗普心里更慌了 又給自己續(xù)了10天

頭條要聞

牛彈琴:一直贏的特朗普心里更慌了 又給自己續(xù)了10天

體育要聞

申京努力了,然而杜蘭特啊

娛樂(lè)要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財(cái)經(jīng)要聞

很反常!油價(jià)向上,黃金向下

汽車要聞

一汽奧迪A6L e-tron開(kāi)啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

教育
時(shí)尚
親子
手機(jī)
本地

教育要聞

老師最大的管理能力,是處理情緒的能力!

張雪峰曾經(jīng)“5次談猝死”

親子要聞

在那聲嘆息里,產(chǎn)后媽媽終于找回了弄丟的自己

手機(jī)要聞

iQOO 15贏、REDMI K90贏,一加是哪個(gè)贏了?

本地新聞

救命,這只醬板鴨已經(jīng)在我手機(jī)復(fù)仇了一萬(wàn)遍

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版