国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

無需解碼器與數(shù)據(jù)增強的冗余精簡世界模型

0
分享至

無需解碼器與數(shù)據(jù)增強的冗余精簡世界模型

R2-DREAMER: REDUNDANCY-REDUCED WORLDMODELS WITHOUT DECODERS OR AUGMENTATION

https://openreview.net/pdf?id=Je2QqXrcQq

https://github.com/NM512/r2dreamer


摘要

基于圖像的模型強化學(xué)習(xí)(Model-Based Reinforcement Learning, MBRL)面臨的一個核心挑戰(zhàn)是:學(xué)習(xí)能夠從無關(guān)視覺細節(jié)中提煉出關(guān)鍵信息的表征。盡管基于重建的方法展現(xiàn)出一定前景,但其往往將大量表征容量浪費在與任務(wù)無關(guān)的大面積區(qū)域上。無解碼器方法則轉(zhuǎn)而通過利用數(shù)據(jù)增強(Data Augmentation, DA)來學(xué)習(xí)魯棒的表征,但對這類外部正則化器的依賴限制了其通用性。我們提出 R2-Dreamer,這是一種無解碼器的 MBRL 框架,其采用一種自監(jiān)督目標作為內(nèi)部正則化器,無需依賴數(shù)據(jù)增強即可防止表征坍縮。我們方法的核心是受 Barlow Twins 啟發(fā)的冗余減少(redundancy-reduction)目標,該目標可輕松集成到現(xiàn)有框架中。在 DeepMind Control Suite 和 Meta-World 基準上,R2-Dreamer 與 DreamerV3、TD-MPC2 等強基線方法性能相當,同時訓(xùn)練速度比 DreamerV3 快 1.59 倍;在包含微小任務(wù)相關(guān)物體的 DMC-Subtle 任務(wù)上,該方法取得了顯著提升。這些結(jié)果表明,一種有效的內(nèi)部正則化器能夠支撐通用、高性能的無解碼器 MBRL。代碼地址:https://github.com/NM512/r2dreamer。

1 引言

學(xué)習(xí)有效的潛在表征是基于模型的強化學(xué)習(xí)(MBRL)中世界模型的核心基石,但這也帶來了一項重要挑戰(zhàn):表征必須捕捉任務(wù)關(guān)鍵信息,同時避免對無關(guān)細節(jié)的過擬合。盡管循環(huán)狀態(tài)空間模型(Recurrent State-Space Model, RSSM)等架構(gòu)已取得顯著成功(Hafner 等人,2025),一個根本性問題仍未解決:學(xué)習(xí)表征本身的最優(yōu)目標函數(shù)究竟是什么?這一問題在基于圖像的設(shè)定中尤為重要,因為高維觀測使得表征學(xué)習(xí)本身具有內(nèi)在挑戰(zhàn)性。

在實踐中,許多主流方法通過優(yōu)化像素級重建目標來學(xué)習(xí)表征(Micheli 等人,2023;Zhang 等人,2023;Seo 等人,2023;Micheli 等人,2024;Alonso 等人,2024;Hafner 等人,2025)。這帶來一個關(guān)鍵問題:學(xué)習(xí)信號被觀測中空間占比大但與任務(wù)無關(guān)的部分(如背景)所主導(dǎo)。因此,模型被激勵去精細重建這些細節(jié),從而浪費了表征容量與計算資源,反而可能忽略那些雖小但對任務(wù)至關(guān)重要的物體。

為克服像素級重建的局限性,無解碼器方法通過自監(jiān)督損失來學(xué)習(xí)表征(Deng 等人,2022;Okada & Taniguchi,2022;Burchi & Timofte,2025)。為防止此類方法中常見的表征坍縮問題,它們高度依賴數(shù)據(jù)增強(DA)作為外部正則化器。然而,這種對 DA 的依賴構(gòu)成了通用智能體發(fā)展的顯著瓶頸(Laskin 等人,2020;Ma 等人,2025),因為變換方式的選擇具有任務(wù)依賴性:隨機平移可能丟棄關(guān)鍵的小物體,而顏色抖動在顏色本身是關(guān)鍵特征時反而有害。

在本工作中,我們聚焦于廣泛使用的 RSSM 框架內(nèi)的表征學(xué)習(xí)目標,提出 R2-Dreamer,旨在打破對解碼器與數(shù)據(jù)增強的依賴。為單獨考察學(xué)習(xí)目標本身的影響,我們基于成熟的 Dreamer 架構(gòu)進行構(gòu)建。受 Barlow Twins(Zbontar 等人,2021)啟發(fā),我們引入圖像嵌入與潛在狀態(tài)之間的冗余減少目標,無需外部正則化器即可防止表征坍縮,從而提供一個通用且魯棒的基線,能夠?qū)崿F(xiàn)具有競爭力的性能。

我們的主要貢獻如下:

  • 為基于 RSSM 的無解碼器 MBRL 提出了一種新的表征學(xué)習(xí)范式,以內(nèi)部冗余減少目標取代了可能扭曲任務(wù)關(guān)鍵信息的啟發(fā)式數(shù)據(jù)增強(DA)。
  • 在標準基準(包括 DeepMind Control Suite (DMC) 和 Meta-World)上具有競爭力的性能,并在我們新提出的、更具挑戰(zhàn)性的 DMC-Subtle 基準上表現(xiàn)優(yōu)異;同時,通過移除解碼器實現(xiàn)了更快的訓(xùn)練速度。
  • 發(fā)布我們統(tǒng)一的 PyTorch 代碼庫,其中包括基于我們 DreamerV3 實現(xiàn)的方法與基線代碼,以及 DMC-Subtle 基準,以促進未來研究。

2 相關(guān)工作

我們的工作位于模型強化學(xué)習(xí)(MBRL)與自監(jiān)督學(xué)習(xí)(Self-Supervised Learning, SSL)的交叉領(lǐng)域。我們通過回顧 MBRL 中的表征學(xué)習(xí)策略及其應(yīng)對正則化挑戰(zhàn)的方式,來定位我們的方法。

2.1 世界模型中的表征學(xué)習(xí)

基于解碼器的世界模型
在 MBRL 中占主導(dǎo)地位的范式(由 Dreamer 系列工作普及,Hafner 等人,2025)通過從潛在狀態(tài)重建觀測來學(xué)習(xí)表征。盡管該方法取得了成功,但這種基于重建的目標往往迫使模型將表征容量浪費在與任務(wù)無關(guān)的細節(jié)(如背景)上,這促使研究轉(zhuǎn)向無解碼器方法。

無解碼器世界模型及其對數(shù)據(jù)增強的依賴
為克服重建方法的局限性,近期的無解碼器方法通過不涉及像素級重建的輔助目標來學(xué)習(xí)表征,例如預(yù)測未來獎勵或通過對比損失進行學(xué)習(xí)。然而,盡管其學(xué)習(xí)信號具有多樣性,這些代表性工作(Ye 等人,2021;Deng 等人,2022;Hansen 等人,2022;2024;Wang 等人,2024;Burchi & Timofte,2025)都關(guān)鍵性地依賴數(shù)據(jù)增強(DA)——通常是隨機平移——作為防止表征坍縮的外部正則化器。這種對可能扭曲任務(wù)相關(guān)細節(jié)的增強方式的根本性依賴,限制了其通用性,而這正是我們致力于解決的關(guān)鍵瓶頸。

除了數(shù)據(jù)增強外,一些方法通過架構(gòu)機制來緩解視覺干擾;例如,VAI(Wang 等人,2021)引入了額外的注意力模塊,但其依賴運動線索,可能忽略靜態(tài)但對任務(wù)關(guān)鍵的視覺線索。另有若干工作通過向潛在特征注入高斯噪聲來更直接地正則化表征(Shu 等人,2020;Nguyen 等人,2021)。相比之下,我們表明:僅憑一個基于信息論的冗余減少原則,就足以在基于 RSSM 的模型中實現(xiàn)穩(wěn)定且有效的表征學(xué)習(xí),且無需任何數(shù)據(jù)增強。

2.2 從不變性到基于信息的正則化

數(shù)據(jù)增強驅(qū)動的不變性
許多流行的自監(jiān)督表征學(xué)習(xí)方法(包括現(xiàn)有無解碼器智能體所采用的方法)都是基于不變性的。它們依賴數(shù)據(jù)增強(DA)來構(gòu)建正樣本對(例如,同一圖像的不同增強視圖),并訓(xùn)練模型為這些視圖生成相似的表征,這在對比學(xué)習(xí)(Chen 等人,2020;He 等人,2020;Caron 等人,2020)與非對比學(xué)習(xí)(Grill 等人,2020;Chen & He,2021)中均有體現(xiàn)。在此范式下,數(shù)據(jù)增強對于防止模型坍縮到平凡解至關(guān)重要。

無需數(shù)據(jù)增強的內(nèi)部正則化
我們的工作采用了與基于信息的自監(jiān)督學(xué)習(xí)文獻(Zbontar 等人,2021;Bardes 等人,2022)不同的思路,后者聚焦于減少特征冗余。盡管這些方法在計算機視覺領(lǐng)域仍使用數(shù)據(jù)增強,我們將這一原則適配為強化學(xué)習(xí)領(lǐng)域中完全替代基于數(shù)據(jù)增強的正則化方案。具體而言,我們在圖像編碼器的輸出與 RSSM 的潛在狀態(tài)之間應(yīng)用冗余減少目標。這產(chǎn)生了一個足以防止表征坍縮的內(nèi)部正則化器,從而使我們能夠在無需任務(wù)特定增強的情況下,構(gòu)建一個更通用、更魯棒的學(xué)習(xí)框架。

3 方法

我們的方法 R2-Dreamer 重新設(shè)計了強大的 DreamerV3(Hafner 等人,2025)框架中的表征學(xué)習(xí)機制,使其無需解碼器且無需數(shù)據(jù)增強(DA)。我們通過將原本基于重建的目標替換為一種受 Barlow Twins(Zbontar 等人,2021)啟發(fā)的、基于冗余減少的自監(jiān)督目標來實現(xiàn)這一目標。為單獨考察我們所提出的學(xué)習(xí)目標的影響,世界模型的其他組件以及 Actor-Critic 的實現(xiàn)均與原始 DreamerV3 保持一致。僅這一項改動便在計算效率與魯棒性方面帶來了顯著提升。本節(jié)首先詳細闡述潛在動力學(xué)模型,介紹我們新的世界模型學(xué)習(xí)目標,并回顧 Actor-Critic 的學(xué)習(xí)過程。




3.2 世界模型學(xué)習(xí)

我們的核心貢獻是一種新的世界模型學(xué)習(xí)目標,它替換了 DreamerV3 的重建損失。正如附錄 A 中的理論動機所述,這一新目標是擴展的順序信息瓶頸(Sequential Information Bottleneck)目標的一個易處理的代理方案。我們現(xiàn)在詳細說明該目標的實際實現(xiàn),在適用的情況下遵循 DreamerV3 的原始損失組件。

DreamerV3 目標
DreamerV3 中的世界模型通過優(yōu)化四個不同的目標進行訓(xùn)練:重建、預(yù)測,以及兩個用于正則化潛在動力學(xué)的 KL 散度項。如公式 2 所示,總體損失是這些組件的加權(quán)和。


通過冗余減少進行表征學(xué)習(xí)(LBT) 我們采用 Barlow Twins 目標作為我們的冗余減少機制。與 VICReg(Bardes 等人,2022)等其他方法相比,選擇它是因其實現(xiàn)開銷最小且超參數(shù)更少,從而減少了調(diào)優(yōu)工作量。該目標定義如下:



在我們的實現(xiàn)中,我們 detach(分離)目標 e t以增強穩(wěn)定性,類似于 TD-MPC2(Hansen 等人,2024)中的策略。盡管如此,編碼器仍能接收通過投影器和 RSSM 反向傳播的豐富梯度,同時獎勵、回合延續(xù)、動力學(xué)和價值目標提供了與 DreamerV3 相同的任務(wù)相關(guān)監(jiān)督信號。

3.3 Actor-Critic 學(xué)習(xí)

為確保我們的性能提升可歸因于世界模型的表征質(zhì)量,Actor-Critic 學(xué)習(xí)過程保持與 DreamerV3 一致。Critic 在想象 rollout 和回放軌跡上均進行優(yōu)化,而 Actor 僅在想象軌跡上進行優(yōu)化。具體而言,想象 rollout 始于從回放軌跡推斷出的潛在狀態(tài),并在當前策略下使用學(xué)習(xí)到的動力學(xué)模型進行展開。

Critic 被訓(xùn)練以預(yù)測λ-returns 的分布,這是對未來獎勵的一種魯棒估計。Critic 的損失是預(yù)測這些 returns 的最大似然:


4 實驗

在本節(jié)中,我們進行了一系列實驗來驗證我們工作的核心主張:即 R2-Dreamer 以一種無解碼器且無數(shù)據(jù)增強(DA)的方式學(xué)習(xí)高質(zhì)量表征,從而形成一個不僅計算高效而且高性能的框架。我們的評估旨在回答以下關(guān)鍵問題:

  1. R2-Dreamer 在標準連續(xù)控制基準上,與領(lǐng)先的基于解碼器和無解碼器智能體相比表現(xiàn)如何?(第 4.2 節(jié),第 4.3 節(jié))
  2. 我們的內(nèi)部正則化如何處理具有挑戰(zhàn)性的場景,其中任務(wù)相關(guān)信息細微且容易被競爭方法忽略?(第 4.4 節(jié))
  3. 學(xué)習(xí)到的表征在關(guān)注任務(wù)相關(guān)信息方面,與基線方法在定性上有何不同?(第 4.5 節(jié))
  4. 與其他設(shè)計選擇(特別是數(shù)據(jù)增強 DA)相比,我們提出的冗余減少目標的直接影響是什么?(第 4.6 節(jié))
  5. 其無解碼器和無數(shù)據(jù)增強的設(shè)計在實際中帶來了哪些計算效益?(第 4.7 節(jié))

我們報告 DMC 和 DMC-Subtle 上的任務(wù)得分以及 Meta-World 上的成功率,使用跨任務(wù)的均值和中位數(shù)總結(jié)結(jié)果,并在附錄中提供詳細的每任務(wù)曲線。在所有實驗中,我們基于五個隨機種子進行訓(xùn)練,每個種子進行 10 次評估回合,并且除非另有說明,在所有任務(wù)和基準套件中使用相同的超參數(shù)配置(見附錄 F)。

4.1 實驗設(shè)置

基線 我們將 R2-Dreamer 與精心選擇的一組競爭性基線進行比較,以涵蓋基于圖像的強化學(xué)習(xí)的主要范式:

  • R2-Dreamer(我們的方法):基于我們基于 PyTorch 的 DreamerV3 復(fù)現(xiàn)實現(xiàn)。所有無解碼器變體均使用這一統(tǒng)一代碼庫,以確保性能差異可直接歸因于表征學(xué)習(xí)目標。
  • DreamerV3(Hafner 等人,2025):一種領(lǐng)先的、極具競爭力的基于解碼器的世界模型。為了提供最強且最可信的基線之一,我們使用作者的官方 JAX 實現(xiàn)作為主要比較對象,并采用最新版本(該版本包含了 2024 年 4 月進行的若干算法改進)。
  • Dreamer-InfoNCE:一種使用 InfoNCE 損失(van den Oord 等人,2019)的對比學(xué)習(xí)基線,用于探究在沒有數(shù)據(jù)增強(DA)情況下的性能,該基線基于我們的 DreamerV3 復(fù)現(xiàn)實現(xiàn)。
  • DreamerPro(Deng 等人,2022):一種領(lǐng)先的無解碼器方法,依賴數(shù)據(jù)增強(特別是隨機圖像平移)來防止表征坍縮。由于原始實現(xiàn)基于 DreamerV2,我們在我們的 DreamerV3 復(fù)現(xiàn)上重新實現(xiàn)了其核心機制,以確保公平比較。這一重新實現(xiàn)也提升了其性能。
  • DrQ-v2(Yarats 等人,2021):一種用于基于圖像的強化學(xué)習(xí)的強大且廣泛使用的無模型(model-free)智能體,作為性能參考的代表性無模型基線。它依賴數(shù)據(jù)增強作為該方法的關(guān)鍵組成部分。我們使用作者的官方實現(xiàn)。
  • TD-MPC2(Hansen 等人,2024):一種強大的無解碼器基于模型的方法,它將 TD 學(xué)習(xí)與潛在空間規(guī)劃相結(jié)合,并使用數(shù)據(jù)增強作為外部正則化器來防止表征坍縮。我們使用作者的官方實現(xiàn)。

環(huán)境 我們所有的基準測試均專注于基于像素的連續(xù)控制。我們在三個基準測試套件上評估我們的方法:

  • DeepMind Control Suite (DMC) (Tassa 等人,2018):一個被廣泛采用的基于像素的連續(xù)控制任務(wù)基準測試套件,涵蓋了運動(locomotion)和操作(manipulation)領(lǐng)域。
  • Meta-World (Yu 等人,2021):一個用于評估使用機械臂執(zhí)行多樣化操作任務(wù)性能的基準測試套件。我們使用 MT1 基準,其中智能體分別在 50 個不同的任務(wù)上進行訓(xùn)練。這些任務(wù)涉及與各種物體(包括小物體)進行交互,并需要精確的細粒度操作。
  • DMC-Subtle:一個新的基準測試,旨在作為基于像素控制中表征學(xué)習(xí)的受控壓力測試,其中任務(wù)關(guān)鍵物體被縮小,以使任務(wù)相關(guān)的視覺線索變得細微。例如,圖 2 展示了 Reacher 任務(wù),其中目標被縮小到原始尺寸的三分之一。該基準測試對象征精度提出了更高的要求。所有任務(wù)的詳細修改見附錄 B。


4.2 在 DeepMind Control Suite 上的性能

我們首先在 20 個標準 DMC 任務(wù)上評估 R2-Dreamer。圖 3 使用均值和中位數(shù)總結(jié)了跨任務(wù)的性能。我們的方法在平均水平上與基于解碼器、無解碼器以及無模型的基線方法具有競爭力。這一結(jié)果表明,我們的內(nèi)部冗余減少目標是一種有效的學(xué)習(xí)信號,能夠在無需解碼器或像數(shù)據(jù)增強(DA)這樣的外部正則化器的情況下,實現(xiàn)具有競爭力的性能。詳細的每任務(wù)曲線見附錄 C。


4.3 在 Meta-World 上的性能

我們在 Meta-World MT1 上評估 R2-Dreamer,該基準包含 50 個獨立訓(xùn)練的機器人操作任務(wù)。圖 4 報告了跨任務(wù)的平均和中位數(shù)成功率,并標注了不同隨機種子間的標準差。平均而言,R2-Dreamer 在跨任務(wù)的平均成功率方面與基線方法具有競爭力,即使在涉及小物體的、接觸豐富的操作任務(wù)上也是如此。詳細的每任務(wù)曲線見附錄 D。


4.4 在挑戰(zhàn)性環(huán)境中的魯棒性

我們現(xiàn)在強調(diào)我們的方法在 DMC-Subtle 基準測試上的優(yōu)勢,該測試平臺是一個具有挑戰(zhàn)性的測試環(huán)境,旨在對那些要么過擬合于無關(guān)背景、要么丟棄微小關(guān)鍵物體的方法進行懲罰。我們假設(shè),我們的冗余減少目標特別適用于這些對精度要求較高的任務(wù)。由于不受由任務(wù)無關(guān)背景主導(dǎo)的重建信號驅(qū)動,并避免了數(shù)據(jù)增強(DA)可能對關(guān)鍵特征造成的扭曲,我們的方法應(yīng)能學(xué)習(xí)到更具聚焦性的表征。圖 5 的結(jié)果證實了這一假設(shè),顯示出相對于基線方法的顯著性能差距,并表明 R2-Dreamer 能夠有效隔離并關(guān)注任務(wù)關(guān)鍵信息——這一能力對于現(xiàn)實世界中顯著線索可能稀疏的應(yīng)用場景至關(guān)重要。我們進一步分析學(xué)習(xí)到的表征,以理解這種魯棒性的來源。


4.5 潛在表征分析

我們使用一種基于遮擋的顯著性方法(Greydanus 等人,2018)來可視化策略的注意力焦點,以評估學(xué)習(xí)到的表征在捕捉任務(wù)相關(guān)信息方面的效果。針對 DMC-Subtle Reacher 任務(wù)的這一分析中,我們在每個回合的第一幀計算顯著性圖,以將空間焦點與時間動態(tài)分離開來。圖 6 的結(jié)果揭示了明顯的區(qū)別:R2-Dreamer 的顯著性圖清晰地聚焦于目標,表明其策略建立在任務(wù)關(guān)鍵的視覺證據(jù)之上。相比之下,基線方法表現(xiàn)出更為分散的顯著性,暗示其對任務(wù)的理解不夠精確。這一發(fā)現(xiàn)提供了強有力的定性證據(jù),表明我們的冗余減少目標能夠促使模型學(xué)習(xí)緊湊且相關(guān)的表征。


4.6 消融研究

為隔離我們的核心貢獻,我們進行了一項有針對性的消融研究,以評估我們的冗余減少目標相對于數(shù)據(jù)增強(DA)的有效性。我們比較了六種變體:R2-Dreamer(我們的完整方法)、R2-Dreamer(半批量)、帶 DA 的 R2-Dreamer(添加隨機平移)、DreamerPro(依賴 DA 的基線)、不帶 DA 的 DreamerPro,以及不帶解碼器的 Dreamer(無視覺輔助目標)。

首先,圖 7 顯示,為 R2-Dreamer 添加數(shù)據(jù)增強(DA)僅帶來邊際性能提升。相比之下,DreamerPro 在沒有 DA 的情況下會發(fā)生表征坍縮,這證實了其對外部正則化器的關(guān)鍵依賴。其性能下降至接近不帶解碼器的 Dreamer 的水平,而后者缺乏學(xué)習(xí)視覺表征的顯式目標。


我們還測試了批量大?。╞atch size)的敏感性,因為自監(jiān)督學(xué)習(xí)(SSL)目標可能受到相關(guān)性估計的影響。與 Barlow Twins(Zbontar 等人,2021)所報告的魯棒性一致,將批量大小減半( B = 8
對比 B = 16
)并未導(dǎo)致顯著的性能下降。

其次,我們在一個需要保留細粒度空間信息的設(shè)定中檢驗了相同的設(shè)計選擇。在對精度要求較高的 DMC-Subtle 基準測試上,數(shù)據(jù)增強(DA)被證明是有害的。如圖 8 所示,添加 DA 會顯著降低我們方法的性能。這凸顯了外部正則化器的一個關(guān)鍵風(fēng)險:盡管它們通常具有通用性,但可能會扭曲細微的、任務(wù)關(guān)鍵的信息。在這種情況下,我們無需 DA 的內(nèi)部機制提供了一種更魯棒的解決方案,進一步印證了其作為 RSSM 原則性正則化器的有效性。


4.7 計算效率

我們無解碼器設(shè)計的一個核心優(yōu)勢是其計算效率。為確保公平比較,我們在統(tǒng)一的 DreamerV3 復(fù)現(xiàn)平臺上,測量我們的方法相對于基線方法的實際訓(xùn)練時間(wall-clock training time)。如表 1 所示,通過消除計算開銷較大的圖像生成過程,R2-Dreamer 相較于我們的 DreamerV3 復(fù)現(xiàn)實現(xiàn)了 1.59 倍的加速。此外,與 DreamerPro 相比,R2-Dreamer 實現(xiàn)了 2.36 倍的加速;DreamerPro 需要處理輸入的不同增強視圖以及后續(xù)相對復(fù)雜的邏輯。我們還包含了原始高度優(yōu)化的 DreamerV3 JAX 實現(xiàn)的訓(xùn)練時間作為參考。這些結(jié)果表明,R2-Dreamer 提供了一種更實用且可擴展的解決方案。


5 結(jié)論

我們證明了一個原則性的內(nèi)部正則化目標可以取代 MBRL 中對圖像重建的需求。我們的框架 R2-Dreamer 無需解碼器或任務(wù)特定的 DA,即可學(xué)習(xí)聚焦于顯著特征的表征。

這種方法的優(yōu)勢在我們具有挑戰(zhàn)性的 DMC-Subtle 基準上最為明顯,在那里 R2-Dreamer 通過隔離微小、關(guān)鍵的物體,大幅優(yōu)于領(lǐng)先的基于解碼器和依賴 DA 的智能體。在跨越運動和操作領(lǐng)域的標準基準上,它與 DreamerV3 具有競爭力,同時實現(xiàn)了 1.59 倍的更快訓(xùn)練速度。

未來工作的一個重要方向是在具有動態(tài)且無關(guān)背景的環(huán)境中評估 R2-Dreamer,例如 Distracting Control Suite(Stone 等人,2021)。我們在 DMC-Subtle 上的結(jié)果表明,我們的內(nèi)部冗余減少目標自然地避免了將表征容量浪費在無關(guān)像素上,這可能意味著對此類動態(tài)干擾具有魯棒性。驗證這一假設(shè)將進一步確立無 DA 內(nèi)部正則化對于復(fù)雜視覺控制任務(wù)的有效性。擴展到像 Humanoid 這樣的高維任務(wù)也是未來的方向。

通過將重點從視覺保真度轉(zhuǎn)移到信息效率,我們的工作為構(gòu)建智能體提供了一個可擴展的基礎(chǔ),在這些智能體中,啟發(fā)式增強存在扭曲任務(wù)關(guān)鍵信息的風(fēng)險。這項研究開啟了對內(nèi)部正則化的新探索,將其作為通往更通用、更強大學(xué)習(xí)智能體的原則性路徑。

原文鏈接:https://openreview.net/pdf?id=Je2QqXrcQq

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
寧波銀行發(fā)布貴金屬業(yè)務(wù)市場風(fēng)險提示

寧波銀行發(fā)布貴金屬業(yè)務(wù)市場風(fēng)險提示

財經(jīng)網(wǎng)
2026-03-26 18:32:12
中美衛(wèi)星導(dǎo)航用戶數(shù)量懸殊:GPS用戶數(shù)超60億,中國北斗令人意外

中美衛(wèi)星導(dǎo)航用戶數(shù)量懸殊:GPS用戶數(shù)超60億,中國北斗令人意外

混沌錄
2026-03-18 23:54:31
告別聲剛落,大陸強音起蔡正元今日入獄,國臺辦這句狠話破防綠營

告別聲剛落,大陸強音起蔡正元今日入獄,國臺辦這句狠話破防綠營

阿離家居
2026-03-27 04:34:34
日媒在報道張雪峰的時候,用了一個詞,我覺得太恰當了

日媒在報道張雪峰的時候,用了一個詞,我覺得太恰當了

輝哥說動漫
2026-03-27 07:12:50
廣東男子掃墓時發(fā)現(xiàn)“黑色巨物”在動!湊近一看,瞬間頭皮發(fā)麻……

廣東男子掃墓時發(fā)現(xiàn)“黑色巨物”在動!湊近一看,瞬間頭皮發(fā)麻……

珠海消防
2026-03-25 20:08:08
46 歲張柏芝三亞生圖流出,肚子上的軟肉,打了整個內(nèi)娛的臉

46 歲張柏芝三亞生圖流出,肚子上的軟肉,打了整個內(nèi)娛的臉

橙星文娛
2026-03-26 13:40:27
為嫁給美國人,56歲南京大媽奔赴美國,2年后嫁給70歲美國老頭

為嫁給美國人,56歲南京大媽奔赴美國,2年后嫁給70歲美國老頭

情感藝術(shù)家
2026-03-08 22:07:38
拒絕回歸WCBA!李月汝再赴美國,官宣重磅決定,韓旭也要這么干了

拒絕回歸WCBA!李月汝再赴美國,官宣重磅決定,韓旭也要這么干了

萌蘭聊個球
2026-03-26 13:09:33
中國的隱忍,正在延緩第三次世界大戰(zhàn)!

中國的隱忍,正在延緩第三次世界大戰(zhàn)!

南權(quán)先生
2026-03-23 15:11:48
徐昕拼下兩雙卻輸球,是廣州最大悲哀?劉維偉賽后發(fā)言更扎心

徐昕拼下兩雙卻輸球,是廣州最大悲哀?劉維偉賽后發(fā)言更扎心

林子說事
2026-03-27 00:33:44
廈門一女子長期遭家暴離家不敢歸,丈夫向法院申請宣告其死亡,十多年后決心離婚才知道自己“死了”!

廈門一女子長期遭家暴離家不敢歸,丈夫向法院申請宣告其死亡,十多年后決心離婚才知道自己“死了”!

環(huán)球網(wǎng)資訊
2026-03-26 14:44:08
少一人也能贏!姆巴佩滿血歸來先拔頭籌,法國2-1力克巴西

少一人也能贏!姆巴佩滿血歸來先拔頭籌,法國2-1力克巴西

仰臥撐FTUer
2026-03-27 07:58:03
你們都是什么時候?qū)δ信麻_竅的?網(wǎng)友:果然還是攔不住有心人

你們都是什么時候?qū)δ信麻_竅的?網(wǎng)友:果然還是攔不住有心人

夜深愛雜談
2026-02-21 21:37:02
你見過天才嗎?網(wǎng)友:有些領(lǐng)域,努力在天賦面前,一文不值

你見過天才嗎?網(wǎng)友:有些領(lǐng)域,努力在天賦面前,一文不值

帶你感受人間冷暖
2026-03-20 00:47:24
蘇州市人民商場龍鳳珠寶品牌店涉嫌銷售“假大牌” 品牌總部回應(yīng)

蘇州市人民商場龍鳳珠寶品牌店涉嫌銷售“假大牌” 品牌總部回應(yīng)

生活視覺攝影
2026-03-26 13:33:29
新華社消息|伊朗官員:美以襲擊已造成伊朗至少1750人死亡

新華社消息|伊朗官員:美以襲擊已造成伊朗至少1750人死亡

新華社
2026-03-26 10:06:18
唯一不含草酸的蔬菜!比薺菜、韭菜還鮮嫩,鮮嫩營養(yǎng)正當時,好吃

唯一不含草酸的蔬菜!比薺菜、韭菜還鮮嫩,鮮嫩營養(yǎng)正當時,好吃

阿龍美食記
2026-03-24 09:50:48
中國肺癌發(fā)病率世界第一!提醒:罪魁禍首已揪出,7種食物要少吃

中國肺癌發(fā)病率世界第一!提醒:罪魁禍首已揪出,7種食物要少吃

健康之光
2026-03-23 20:10:05
美空軍雜志:美軍戰(zhàn)損2架F-35、9架F-15、6架F-16、7架加油機!

美空軍雜志:美軍戰(zhàn)損2架F-35、9架F-15、6架F-16、7架加油機!

勝研集
2026-03-25 00:02:51
國產(chǎn)筆記本CPU偷梁換柱翻車!官方終于回應(yīng):生產(chǎn)失誤、全額退款

國產(chǎn)筆記本CPU偷梁換柱翻車!官方終于回應(yīng):生產(chǎn)失誤、全額退款

快科技
2026-03-25 10:14:04
2026-03-27 08:55:00
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1305文章數(shù) 18關(guān)注度
往期回顧 全部

科技要聞

OpenAI果斷砍掉"成人模式",死磕生產(chǎn)力

頭條要聞

牛彈琴:一直贏的特朗普心里更慌了 又給自己續(xù)了10天

頭條要聞

牛彈琴:一直贏的特朗普心里更慌了 又給自己續(xù)了10天

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財經(jīng)要聞

很反常!油價向上,黃金向下

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

藝術(shù)
旅游
親子
公開課
軍事航空

藝術(shù)要聞

江青的書法秘訣!只練草書真的能提升書法水平嗎?

旅游要聞

中國旅游研究院院長戴斌:一些意想不到的場景正成為旅游新空間

親子要聞

在那聲嘆息里,產(chǎn)后媽媽終于找回了弄丟的自己

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

擔(dān)心特朗普突然停戰(zhàn) 以總理下令48小時盡力摧毀伊設(shè)施

無障礙瀏覽 進入關(guān)懷版