国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

自然·通訊:當(dāng)環(huán)境“說謊”時(shí),智能體如何做出可靠決策?

0
分享至


導(dǎo)語

盡管智能體在實(shí)驗(yàn)環(huán)境中表現(xiàn)亮眼,但一旦進(jìn)入真實(shí)世界,只要訓(xùn)練條件與環(huán)境稍有不一致,就可能出現(xiàn)“翻車”——輕則性能下降,重則做出災(zāi)難性決策。如何讓智能體在未知、變化的環(huán)境中依然穩(wěn)定可靠,是實(shí)現(xiàn)實(shí)際部署的關(guān)鍵難題。

這篇論文提出了分布魯棒自由能模型(DR-FREE),將自由能原理與分布魯棒優(yōu)化相結(jié)合,把“應(yīng)對(duì)不確定性”的能力直接寫進(jìn)智能體的決策機(jī)制中。實(shí)驗(yàn)結(jié)果顯示,在存在噪聲和分布偏移(如高斯擾動(dòng))的環(huán)境下,DR-FREE 依然能夠順利完成任務(wù),而多種當(dāng)前主流方法卻難以應(yīng)對(duì)。這一工作不僅展示了智能體在現(xiàn)實(shí)不確定環(huán)境中的應(yīng)用潛力,也為理解自然智能體如何在極少甚至沒有訓(xùn)練的情況下適應(yīng)復(fù)雜世界,提供了新的視角。

關(guān)鍵詞:分布魯棒自由能(Distributionally robust free energy,DR-FREE),決策制定,魯棒性(Robustness),自主智能體(Autonomous agents),主動(dòng)推理

郭瑞東丨作者

王璇丨審校



論文題目:Distributionally robust free energy principle for decision-making 論文鏈接:https://www.nature.com/articles/s41467-025-67348-6 發(fā)表時(shí)間:2025年12月17日 論文來源:Nature Communications

智能體在面對(duì)環(huán)境擾動(dòng)時(shí)缺少魯棒性

近年來,人工智能在諸多領(lǐng)域取得了突破性進(jìn)展,然而,即便是性能最先進(jìn)的 AI 智能體,在策略魯棒性方面仍與人類存在明顯差距。人類往往能夠在幾乎沒有、甚至完全沒有訓(xùn)練的情況下,,在復(fù)雜和充滿挑戰(zhàn)的環(huán)境中正常行動(dòng);相比之下,AI 智能體一旦脫離訓(xùn)練條件,就很容易“失靈”。

造成這一差距的關(guān)鍵原因在于:AI 智能體學(xué)到的策略,通常高度依賴訓(xùn)練階段所假設(shè)的環(huán)境模型。一旦真實(shí)環(huán)境與訓(xùn)練模型之間存在哪怕很小的不匹配,策略性能就可能迅速下降,甚至完全失敗。例如,Atari游戲智能體假設(shè)訓(xùn)練期間與實(shí)際測(cè)試時(shí)環(huán)境一致,如果這個(gè)假設(shè)不成立,學(xué)習(xí)到的策略可能會(huì)失敗。

這篇2025年12月17日發(fā)表在Nature Communication的論文,提出了DR-FREE模型,通過引入分布魯棒自由能原理和相應(yīng)的求解引擎,可使得訓(xùn)練出的智能體具有訓(xùn)練/環(huán)境模糊性的魯棒性,從而在與訓(xùn)練數(shù)據(jù)不同的環(huán)境中仍然能高效運(yùn)行。

方法核心:從自由能到分布魯棒自由能

DR-FREE 的核心創(chuàng)新,建立在對(duì)經(jīng)典自由能原理(Free Energy Principle)的擴(kuò)展之上。經(jīng)典自由能原理認(rèn)為,智能體中的自適應(yīng)行為源于變分自由能的最小化,其中智能體基于其可用環(huán)境模型通過最小化自由能獲得策略。然而,這一框架隱含了一個(gè)強(qiáng)假設(shè)——智能體的內(nèi)部模型與真實(shí)環(huán)境是匹配的。在現(xiàn)實(shí)場(chǎng)景中,這一假設(shè)往往并不成立。DR-FREE 正是針對(duì)這一問題,對(duì)自由能原理進(jìn)行了分布魯棒化擴(kuò)展。

而DR-FREE中,自由能不再只針對(duì)單一的訓(xùn)練模型進(jìn)行最小化,而是在一個(gè)圍繞訓(xùn)練模型的“模糊性集合”中進(jìn)行優(yōu)化。這一集合刻畫了訓(xùn)練模型周圍所有“可能但不完全可信”的環(huán)境,其大小由模型的統(tǒng)計(jì)復(fù)雜性所決定。智能體需要在這些可能環(huán)境中,找到在最壞情況下依然表現(xiàn)穩(wěn)健的策略。


圖1:傳統(tǒng)方法和DR-FREE的對(duì)比。圖1a描繪了傳統(tǒng)智能體的決策流程框架。智能體在隨機(jī)環(huán)境中導(dǎo)航,目標(biāo)是到達(dá)目的地同時(shí)避開障礙物。在特定時(shí)間步k-1,智能體基于其對(duì)環(huán)境的模型以及觀察結(jié)果/信念(統(tǒng)稱為狀態(tài)Xk?1)來確定動(dòng)作。圖1b揭示了訓(xùn)練模型與智能體實(shí)際環(huán)境之間存在的不匹配問題,這種不匹配被定義為訓(xùn)練/環(huán)境模糊性。圖1c展示了經(jīng)典自由能最小化智能體的工作原理。在不考慮訓(xùn)練/環(huán)境模糊性的場(chǎng)景中,智能體所處的環(huán)境與其內(nèi)部模型完全匹配,智能體通過從最優(yōu)策略中采樣來確定策略。與之對(duì)比的圖1d描述了DR-FREE的分布魯棒自由能原理。該方法將經(jīng)典自由能原理擴(kuò)展以考慮模型模糊性,通過在所有環(huán)境(屬于模糊性集合)上最小化最大自由能來識(shí)別魯棒策略。


圖2:DR-FREE的求解引擎。圖2a為DR-FREE原理的數(shù)學(xué)表述,其優(yōu)化的目標(biāo)函數(shù)分為統(tǒng)計(jì)復(fù)雜性項(xiàng)與期望損失項(xiàng),這樣設(shè)計(jì)的目標(biāo)函數(shù),使之能夠在無限維概率空間中進(jìn)行貝葉斯最優(yōu)的不確定性和模糊性處理。圖2b詳細(xì)闡述了DR-FREE通過雙層優(yōu)化方法,用于計(jì)算DR-FREE原理導(dǎo)出策略的求解方法。在給定當(dāng)前狀態(tài)xk?1,求解引擎首先使用生成模型和損失函數(shù),在所有模糊性集合中的可能環(huán)境上計(jì)算最大自由能,在獲得模糊性成本后,引擎在策略空間中最小化變分自由能,產(chǎn)生最優(yōu)策略和成本函數(shù)。圖2c揭示了DR-FREE策略的具體生成機(jī)制和函數(shù)形式,展示了如何從數(shù)學(xué)原理轉(zhuǎn)化為可執(zhí)行的決策規(guī)則。其中策略中的指數(shù)核包含三個(gè)關(guān)鍵成本組分,分別是動(dòng)作成本,直接懲罰不同動(dòng)作的代價(jià);模糊性半徑ηk(xk?1,uk),量化對(duì)訓(xùn)練模型置信度的缺乏;模糊性成本:c(xk?1,uk),表示跨所有可能環(huán)境的最大自由能。

DR-FREE求解引擎的核心突破在于將原本的無限維自由能最大化問題轉(zhuǎn)化為標(biāo)量凸優(yōu)化問題,這使得算法可通過現(xiàn)有工具求解。

實(shí)驗(yàn)驗(yàn)證:從機(jī)器人導(dǎo)航到復(fù)雜環(huán)境測(cè)試

研究團(tuán)隊(duì)在涉及真實(shí)機(jī)器人的實(shí)驗(yàn)測(cè)試平臺(tái)上評(píng)估了DR-FREE(圖3a展示了實(shí)驗(yàn)的物理平臺(tái)和智能體配置),這些機(jī)器人被訓(xùn)練要求在避免障礙物的同時(shí)到達(dá)期望目的地的任務(wù)。為了驗(yàn)證DR-FREE在測(cè)試與訓(xùn)練數(shù)據(jù)不一致時(shí)的魯棒性,可用的訓(xùn)練模型是從有偏實(shí)驗(yàn)數(shù)據(jù)中學(xué)習(xí)得到的,這些數(shù)據(jù)沒有充分捕捉真實(shí)環(huán)境并引入了模糊性。圖3b對(duì)應(yīng)導(dǎo)航任務(wù)中設(shè)計(jì)的非凸?fàn)顟B(tài)獎(jiǎng)勵(lì)函數(shù)。


圖3.DR-FREE在導(dǎo)航場(chǎng)景下的表現(xiàn)。

實(shí)驗(yàn)表明,在模型存在顯著偏差的挑戰(zhàn)下,DR-FREE 是唯一能可靠完成導(dǎo)航任務(wù)的智能體,而忽視模糊性的傳統(tǒng)方法則普遍失敗(圖3c)。這一優(yōu)勢(shì)在真實(shí)機(jī)器人平臺(tái)上得到了直觀驗(yàn)證(圖3d)。

研究進(jìn)一步揭示,DR-FREE 的決策邏輯具有可解釋的權(quán)衡機(jī)制:模糊性半徑如同一個(gè)“保守度”調(diào)節(jié)旋鈕。當(dāng)模型可信時(shí),策略會(huì)平衡目標(biāo)與風(fēng)險(xiǎn);當(dāng)模型不確定時(shí),策略則優(yōu)先規(guī)避認(rèn)知風(fēng)險(xiǎn),甚至可能忽略物理障礙(圖3e)。

此外,DR-FREE 的數(shù)學(xué)形式還支持從行為反推其決策邏輯,能夠根據(jù)觀測(cè)數(shù)據(jù)重建出智能體內(nèi)在遵循的代價(jià)函數(shù)(圖3f),這為理解和解釋智能體行為提供了新工具?!?/p>

“所有模型都是錯(cuò)誤的,但有些是有用的?!盌R-FREE 正是對(duì)這一觀點(diǎn)的直接回應(yīng)。通過放松對(duì)訓(xùn)練階段精確建模的依賴,DR-FREE 使原本因偏差而“不可用”的模型重新具備決策價(jià)值。進(jìn)一步地,將DR-FREE與深度強(qiáng)化學(xué)習(xí)相結(jié)合,可在多智能體架構(gòu)中引入更魯棒的異構(gòu)智能體。憑借魯棒自由能最小化原理和求解引擎,DR-FREE的框架讓智能體可以從因?yàn)榄h(huán)境改變或觀測(cè)帶有誤差而表現(xiàn)較差的模型中恢復(fù)魯棒策略。

總結(jié)與未來方向

總體來看,DR-FREE支持貝葉斯信念更新,隨著模糊性增加,DR-FREE會(huì)降低了智能體可用模型在模糊性上的權(quán)重。其提供的策略,不止適用于人工智能體,也可能被自然選擇挑中用于生命應(yīng)對(duì)異變且觀測(cè)模糊的環(huán)境,理論細(xì)菌可以在未知環(huán)境中導(dǎo)航,這種對(duì)生存至關(guān)重要的能力可在幾乎沒有訓(xùn)練的情況下實(shí)現(xiàn)的。考慮到模糊性是跨心理學(xué)、經(jīng)濟(jì)學(xué)和神經(jīng)科學(xué)等領(lǐng)域的關(guān)鍵主題,DR-FREE可能為生物學(xué)上合理的神經(jīng)解釋奠定基礎(chǔ),解釋自然智能體如何在沒有或幾乎沒有訓(xùn)練的情況下在挑戰(zhàn)性環(huán)境中魯棒地運(yùn)行。

自由能原理與強(qiáng)化學(xué)習(xí)讀書會(huì)

自由能原理被認(rèn)為是“自達(dá)爾文自然選擇理論后最包羅萬象的思想”,它試圖從物理、生物和心智的角度提供智能體感知和行動(dòng)的統(tǒng)一性規(guī)律,從第一性原理出發(fā)解釋智能體更新認(rèn)知、探索和改變世界的機(jī)制,從而對(duì)人工智能,特別是強(qiáng)化學(xué)習(xí)世界模型、通用人工智能研究具有重要啟發(fā)意義。

集智俱樂部聯(lián)合北京師范大學(xué)系統(tǒng)科學(xué)學(xué)院博士生牟牧云,南京航空航天大學(xué)副教授何真,以及驥智智能科技算法工程師、公眾號(hào) CreateAMind 主編張德祥,共同發(fā)起「」,希望探討自由能原理、強(qiáng)化學(xué)習(xí)世界模型,以及腦與意識(shí)問題中的預(yù)測(cè)加工理論等前沿交叉問題,探索這些不同領(lǐng)域背后蘊(yùn)含的感知和行動(dòng)的統(tǒng)一原理。讀書會(huì)已完結(jié),現(xiàn)在報(bào)名可加入社群并解鎖回放視頻權(quán)限。

詳情請(qǐng)見:

1.

2.

3.

4.

4.

5.

6.

7.

聲明:包含AI生成內(nèi)容

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
女子故意扮丑去相親,男子一眼看中,女子吃驚:他是不是太餓了

女子故意扮丑去相親,男子一眼看中,女子吃驚:他是不是太餓了

丫頭舫
2026-02-10 22:18:05
張繼科做夢(mèng)沒想到,德國總理訪華僅1天,29歲樊振東竟意外火出圈

張繼科做夢(mèng)沒想到,德國總理訪華僅1天,29歲樊振東竟意外火出圈

白面書誏
2026-02-27 12:58:15
妻子打麻將連贏十幾年,真能通靈?丈夫進(jìn)入地窖,發(fā)現(xiàn)驚天秘密

妻子打麻將連贏十幾年,真能通靈?丈夫進(jìn)入地窖,發(fā)現(xiàn)驚天秘密

農(nóng)村情感故事
2025-09-07 07:51:19
逆轉(zhuǎn)日本,賀希寧為何哭?原因找到,并非家事,這才是山東好兒郎

逆轉(zhuǎn)日本,賀希寧為何哭?原因找到,并非家事,這才是山東好兒郎

萌蘭聊個(gè)球
2026-02-27 10:55:56
又一“星二代”想出道,網(wǎng)友:沒他爸當(dāng)年帥,媽媽回應(yīng):還沒長(zhǎng)開

又一“星二代”想出道,網(wǎng)友:沒他爸當(dāng)年帥,媽媽回應(yīng):還沒長(zhǎng)開

娛人細(xì)品
2026-02-26 20:38:29
澳門的賭臺(tái),大面積關(guān)停!不是沒人去,而是被“算法”割廢的?

澳門的賭臺(tái),大面積關(guān)停!不是沒人去,而是被“算法”割廢的?

李橑在北漂
2026-02-27 18:37:42
才播4集,收視率全國第三!央八這部年代劇,又是2026黑馬

才播4集,收視率全國第三!央八這部年代劇,又是2026黑馬

東方不敗然多多
2026-02-28 00:52:57
日本右翼發(fā)出警告:如果中國敢動(dòng)用核彈,將有一億日本人奮起反擊

日本右翼發(fā)出警告:如果中國敢動(dòng)用核彈,將有一億日本人奮起反擊

琴音似君語
2026-02-23 01:08:57
履新僅半年,安徽一常務(wù)副區(qū)長(zhǎng)任上被查!另有3人被處理

履新僅半年,安徽一常務(wù)副區(qū)長(zhǎng)任上被查!另有3人被處理

鳳凰網(wǎng)安徽
2026-02-27 16:58:45
1950 年胡蘭成獲北京當(dāng)官邀請(qǐng),行至上海醒悟,連夜偷渡日本保命

1950 年胡蘭成獲北京當(dāng)官邀請(qǐng),行至上海醒悟,連夜偷渡日本保命

磊子講史
2026-02-05 09:14:45
歷史正劇持續(xù)發(fā)力,《太平年》后,講述南北朝故事的《江山大同》要來了

歷史正劇持續(xù)發(fā)力,《太平年》后,講述南北朝故事的《江山大同》要來了

紅星新聞
2026-02-27 12:13:29
一顆沒賣出去!英偉達(dá)H200對(duì)華銷量歸零,美國芯片鬧劇演砸了

一顆沒賣出去!英偉達(dá)H200對(duì)華銷量歸零,美國芯片鬧劇演砸了

丁鸊驚悚影視解說
2026-02-26 20:29:49
與撒貝寧同框16年沒加微信:楊帆的清醒,打醒了多少硬擠圈子的人

與撒貝寧同框16年沒加微信:楊帆的清醒,打醒了多少硬擠圈子的人

草莓解說體育
2026-02-26 13:18:41
特朗普苦等4天中方終于回信,對(duì)美開出兩大條件,做不到訪華免談

特朗普苦等4天中方終于回信,對(duì)美開出兩大條件,做不到訪華免談

余塩搞笑段子
2026-02-26 14:41:15
女兒替父請(qǐng)假兩小時(shí)被開除后續(xù):女兒發(fā)聲曝更多惡行,評(píng)論區(qū)淪陷

女兒替父請(qǐng)假兩小時(shí)被開除后續(xù):女兒發(fā)聲曝更多惡行,評(píng)論區(qū)淪陷

奇思妙想生活家
2026-02-27 20:18:32
馬筱梅產(chǎn)后3天又曬兒子!小汪寶躺包被里睡眼惺忪,雙眼皮像媽媽

馬筱梅產(chǎn)后3天又曬兒子!小汪寶躺包被里睡眼惺忪,雙眼皮像媽媽

小娛樂悠悠
2026-02-27 11:19:24
天文學(xué)家彭羅斯:人類的死亡只是宇宙的幻象,生命是不可能終結(jié)的

天文學(xué)家彭羅斯:人類的死亡只是宇宙的幻象,生命是不可能終結(jié)的

三農(nóng)老歷
2026-02-25 19:18:27
朝鮮閱兵現(xiàn)場(chǎng),武裝力量方陣齊聲高喊“誓死擁護(hù)金正恩”,三聲"萬歲"震天響,金正恩豎大拇指點(diǎn)贊

朝鮮閱兵現(xiàn)場(chǎng),武裝力量方陣齊聲高喊“誓死擁護(hù)金正恩”,三聲"萬歲"震天響,金正恩豎大拇指點(diǎn)贊

新浪財(cái)經(jīng)
2026-02-27 08:53:06
匪夷所思!馬競(jìng)傳奇突然跑路,34 歲格子棄歐冠沖美職聯(lián)

匪夷所思!馬競(jìng)傳奇突然跑路,34 歲格子棄歐冠沖美職聯(lián)

瀾歸序
2026-02-27 06:32:37
14499元起!小米推出新款米家中央空調(diào):安裝一價(jià)全包、10年免費(fèi)包修

14499元起!小米推出新款米家中央空調(diào):安裝一價(jià)全包、10年免費(fèi)包修

快科技
2026-02-27 16:39:17
2026-02-28 01:48:49
集智俱樂部 incentive-icons
集智俱樂部
科普人工智能相關(guān)知識(shí)技能
5679文章數(shù) 4664關(guān)注度
往期回顧 全部

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

頭條要聞

新華社:美國伊朗要打了嗎

頭條要聞

新華社:美國伊朗要打了嗎

體育要聞

一場(chǎng)必須要贏的比賽,男籃何止擊敗了裁判

娛樂要聞

郭晶晶霍啟剛現(xiàn)身香港藝術(shù)節(jié)盡顯恩愛

財(cái)經(jīng)要聞

沈明高提共富建議 百姓持科技股國家兜底

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

房產(chǎn)
手機(jī)
游戲
親子
數(shù)碼

房產(chǎn)要聞

重磅!海南“十五五”規(guī)劃出爐!未來五年,方向定了!

手機(jī)要聞

榮耀600系列再次被確認(rèn):9000mAh+兩億像素,處理器有懸念!

Oi朋友!你聽說過大只切的故事嗎?

親子要聞

驚呆了!12歲小女孩抱弟弟如同媽媽般自然,背后真相感人至深!

數(shù)碼要聞

Omdia:時(shí)隔5年,小米去年再度回歸可穿戴設(shè)備出貨榜首

無障礙瀏覽 進(jìn)入關(guān)懷版