国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

活性物質(zhì)的強(qiáng)化學(xué)習(xí)

0
分享至

Reinforcement Learning for Active Matter

活性物質(zhì)的強(qiáng)化學(xué)習(xí)

https://arxiv.org/pdf/2503.23308


活性物質(zhì)是指由自我驅(qū)動(dòng)實(shí)體組成的系統(tǒng),這些實(shí)體消耗能量以產(chǎn)生運(yùn)動(dòng),表現(xiàn)出復(fù)雜的非平衡動(dòng)力學(xué),挑戰(zhàn)了傳統(tǒng)模型。隨著機(jī)器學(xué)習(xí)的快速發(fā)展,強(qiáng)化學(xué)習(xí)(RL)已成為應(yīng)對(duì)活性物質(zhì)復(fù)雜性的一個(gè)有前景的框架。這篇綜述系統(tǒng)地介紹了RL在引導(dǎo)和控制活性物質(zhì)系統(tǒng)中的應(yīng)用,重點(diǎn)關(guān)注兩個(gè)關(guān)鍵方面:單個(gè)活性粒子的最佳運(yùn)動(dòng)策略和活性群體集體動(dòng)力學(xué)的調(diào)節(jié)。我們討論了使用RL來優(yōu)化單個(gè)活性粒子的導(dǎo)航、覓食和運(yùn)動(dòng)策略。此外,還研究了RL在調(diào)節(jié)集體行為中的應(yīng)用,強(qiáng)調(diào)了其在促進(jìn)活性群體的自組織和目標(biāo)導(dǎo)向控制中的作用。這項(xiàng)研究為RL如何推進(jìn)對(duì)活性物質(zhì)的理解、操控和控制提供了寶貴的見解,為生物系統(tǒng)、機(jī)器人技術(shù)和醫(yī)學(xué)科學(xué)等領(lǐng)域的未來開發(fā)鋪平了道路。

I. 引言

活性物質(zhì)是指具有內(nèi)在推進(jìn)機(jī)制的系統(tǒng),使它們能夠?qū)⒛芰哭D(zhuǎn)化為運(yùn)動(dòng)。這些系統(tǒng),從微觀的自我推進(jìn)粒子(如細(xì)菌)到較大規(guī)模的動(dòng)物群體和受生物啟發(fā)的機(jī)器人群體,表現(xiàn)出顯著偏離平衡系統(tǒng)的行為,這是由于持續(xù)的能量輸入;钚晕镔|(zhì)的理論模型,如活性布朗粒子(ABP)模型和連續(xù)理論方法,已被開發(fā)出來解釋這些異常行為。例如,單個(gè)活性粒子表現(xiàn)出短時(shí)間超擴(kuò)散和長時(shí)間菲克擴(kuò)散,這可以通過在朗之萬方程中引入持久速度項(xiàng)來捕捉。同樣,集體行為,如活性晶體的形成或運(yùn)動(dòng)誘導(dǎo)的相分離,可以通過ABP模型有效建模和描述。雖然這些模型為理解活性物質(zhì)的豐富現(xiàn)象提供了框架,但它們主要側(cè)重于解釋觀察到的行為,而不是提供主動(dòng)引導(dǎo)或控制這些動(dòng)態(tài)的方法。

基于對(duì)活性物質(zhì)的理解,引導(dǎo)或控制其動(dòng)態(tài)的能力在一系列應(yīng)用中具有重要意義?刂茊蝹(gè)活性粒子的運(yùn)動(dòng)允許在自主導(dǎo)航、資源搜索和高效運(yùn)動(dòng)等任務(wù)中進(jìn)行精確操作,特別是在不確定性條件下。這些能力在微觀機(jī)器人技術(shù)、生物醫(yī)學(xué)工程和其他領(lǐng)域至關(guān)重要,其中控制單個(gè)粒子可以推動(dòng)藥物輸送、納米級(jí)制造和環(huán)境感知的進(jìn)步。在更大規(guī)模上,活性物質(zhì)系統(tǒng)中集體行為的調(diào)節(jié)使群體動(dòng)態(tài)能夠協(xié)調(diào)執(zhí)行集體運(yùn)輸、自適應(yīng)材料和分布式計(jì)算等任務(wù)。這種控制可能導(dǎo)致機(jī)器人技術(shù)、環(huán)境監(jiān)測甚至智能材料開發(fā)領(lǐng)域的創(chuàng)新,這些材料能夠適應(yīng)不斷變化的外部條件。因此,實(shí)現(xiàn)對(duì)活性物質(zhì)中個(gè)體和集體動(dòng)態(tài)的有效控制對(duì)于推進(jìn)各個(gè)科學(xué)領(lǐng)域的實(shí)際應(yīng)用至關(guān)重要。

鑒于活性物質(zhì)非平衡性質(zhì)帶來的挑戰(zhàn),強(qiáng)化學(xué)習(xí)(RL)已成為優(yōu)化和引導(dǎo)其行為的強(qiáng)大工具。RL提供了一個(gè)強(qiáng)大的框架,通過與環(huán)境的互動(dòng)學(xué)習(xí),使系統(tǒng)能夠適應(yīng)并發(fā)現(xiàn)導(dǎo)航、任務(wù)分配和協(xié)調(diào)等任務(wù)的最優(yōu)策略。與傳統(tǒng)控制方法不同,這些方法通常依賴于預(yù)定義的模型或外部輸入,RL通過試錯(cuò)學(xué)習(xí)策略促進(jìn)自主決策。這種實(shí)時(shí)適應(yīng)和優(yōu)化的能力使RL特別適合活性物質(zhì)系統(tǒng)的復(fù)雜性,因?yàn)樗试S它們不斷調(diào)整以適應(yīng)動(dòng)態(tài)和不可預(yù)測的環(huán)境。通過將RL應(yīng)用于活性物質(zhì)系統(tǒng),研究人員可以開發(fā)策略,引導(dǎo)單個(gè)粒子通過不確定條件,并控制大規(guī);钚匀后w在集體任務(wù)中的協(xié)調(diào)。因此,將RL整合到活性物質(zhì)的研究中,不僅加深了我們的理解,而且為需要操控和優(yōu)化復(fù)雜系統(tǒng)的實(shí)際應(yīng)用提供了一條路徑。鑒于這些基礎(chǔ),本綜述系統(tǒng)總結(jié)了RL技術(shù)在活性物質(zhì)研究中的整合。本文組織如下: 第二節(jié)提供了活性物質(zhì)和RL的概述。 第三節(jié)檢查單個(gè)活性粒子的最佳運(yùn)動(dòng)策略,涵蓋點(diǎn)對(duì)點(diǎn)導(dǎo)航問題、覓食策略和運(yùn)動(dòng)策略,說明RL如何在不確定環(huán)境中優(yōu)化運(yùn)動(dòng)和決策。第四節(jié)專注于活性群體的集體動(dòng)態(tài)調(diào)節(jié),其中RL被應(yīng)用于促進(jìn)活性粒子的自組織和群體行為的目標(biāo)導(dǎo)向控制。最后,我們?cè)诘谖骞?jié)結(jié)束綜述,突出關(guān)鍵見解并為這一新興領(lǐng)域的未來研究提出有希望的方向。

II. 活性物質(zhì)和強(qiáng)化學(xué)習(xí)的概述

在探討將強(qiáng)化學(xué)習(xí)(RL)應(yīng)用于活性物質(zhì)系統(tǒng)之前,我們首先概述活性物質(zhì)和RL的關(guān)鍵概念。II.A節(jié)介紹了活性物質(zhì)的基礎(chǔ)方面,涵蓋其各種類型、非平衡行為和推進(jìn)機(jī)制。II.B節(jié)隨后轉(zhuǎn)向RL,概述其核心概念以及它如何使系統(tǒng)通過與環(huán)境的互動(dòng)學(xué)習(xí)最優(yōu)行為。

A. 活性物質(zhì)

活性物質(zhì)指的是能夠?qū)⒛芰哭D(zhuǎn)化為運(yùn)動(dòng)的系統(tǒng),由內(nèi)在的推進(jìn)機(jī)制驅(qū)動(dòng)。這些系統(tǒng)跨越了廣泛的規(guī)模和類型,從像自我推進(jìn)的膠體粒子和細(xì)菌這樣的微觀實(shí)體,到動(dòng)物群體和受生物啟發(fā)的機(jī)器人群體這樣的較大規(guī)模結(jié)構(gòu)。與趨于達(dá)到平衡的被動(dòng)系統(tǒng)不同,活性物質(zhì)系統(tǒng)持續(xù)消耗能量并表現(xiàn)出非平衡行為,如自我推進(jìn)、運(yùn)動(dòng)誘導(dǎo)的相分離和新興的集體動(dòng)態(tài)。

活性物質(zhì)有多種類型,典型的例子如圖1所示。人工活性膠體,如Janus粒子和化學(xué)驅(qū)動(dòng)的微型游泳者,通常在實(shí)驗(yàn)室設(shè)計(jì),并通過外部場或化學(xué)反應(yīng)表現(xiàn)出受控運(yùn)動(dòng)。微生物系統(tǒng),如細(xì)菌或藻類,依賴于自然推進(jìn)機(jī)制,如鞭毛或纖毛,響應(yīng)環(huán)境線索進(jìn)行運(yùn)動(dòng)。在更大尺度上,動(dòng)物群體,如魚群或鳥群,表現(xiàn)出由局部互動(dòng)驅(qū)動(dòng)的集體行為,導(dǎo)致沒有集中控制的協(xié)調(diào)運(yùn)動(dòng)。同樣,受生物啟發(fā)的機(jī)器人群體模仿這些自然系統(tǒng),使用一系列自主代理集體執(zhí)行任務(wù)。


活性物質(zhì)的行為本質(zhì)上是非平衡的,由于持續(xù)的能量輸入。單個(gè)活性粒子經(jīng)常表現(xiàn)出異常擴(kuò)散。例如,活性粒子在短時(shí)間可以表現(xiàn)出超擴(kuò)散,其中它們的位移隨時(shí)間線性增長得更快,而在長時(shí)間則表現(xiàn)出菲克擴(kuò)散,其中它們的運(yùn)動(dòng)轉(zhuǎn)變?yōu)闃?biāo)準(zhǔn)增強(qiáng)擴(kuò)散;钚晕镔|(zhì)系統(tǒng)中的集體動(dòng)態(tài)也表現(xiàn)出非平衡行為,如群體形成、模式創(chuàng)建和運(yùn)動(dòng)誘導(dǎo)的相分離,其中粒子或代理之間的局部互動(dòng)產(chǎn)生全局模式。

這些非平衡現(xiàn)象突顯了與平衡系統(tǒng)的關(guān)鍵區(qū)別,其中波動(dòng)通常被平均化,系統(tǒng)趨于達(dá)到穩(wěn)定狀態(tài)。相比之下,活性物質(zhì)系統(tǒng)表現(xiàn)出持續(xù)波動(dòng),并可以自組織成由內(nèi)部能量消耗驅(qū)動(dòng)的動(dòng)態(tài)結(jié)構(gòu)或模式。

B. 強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)(RL)是一類強(qiáng)大的機(jī)器學(xué)習(xí)算法,使代理能夠通過與環(huán)境的互動(dòng)學(xué)習(xí)最優(yōu)行為。在RL中,代理在環(huán)境中采取行動(dòng),以獎(jiǎng)勵(lì)或懲罰的形式接收反饋,并旨在最大化其隨時(shí)間的累積獎(jiǎng)勵(lì)。與監(jiān)督學(xué)習(xí)不同,監(jiān)督學(xué)習(xí)中模型是在標(biāo)記數(shù)據(jù)上進(jìn)行訓(xùn)練的,而RL在試錯(cuò)范式下運(yùn)行,其中代理不斷探索不同的行動(dòng)以發(fā)現(xiàn)最有效的策略。

RL通常使用馬爾可夫決策過程(MDP)進(jìn)行建模,它為決策問題提供了一個(gè)數(shù)學(xué)框架。如圖2所示,MDP由一組狀態(tài)S、一組動(dòng)作A、一個(gè)轉(zhuǎn)移函數(shù)P(s'|s, a),定義了在狀態(tài)s中采取動(dòng)作a后轉(zhuǎn)移到狀態(tài)s'的概率,以及一個(gè)獎(jiǎng)勵(lì)函數(shù)R(s, a),它給出了在狀態(tài)s中采取動(dòng)作a后立即收到的獎(jiǎng)勵(lì)。RL代理的目標(biāo)是學(xué)習(xí)一個(gè)策略π(a|s),將狀態(tài)映射到動(dòng)作,以一種最大化隨時(shí)間的累積獎(jiǎng)勵(lì),通常測量為回報(bào)。這個(gè)回報(bào)通常計(jì)算為未來獎(jiǎng)勵(lì)的總和,通常由一個(gè)因子γ折現(xiàn),表示代理對(duì)即時(shí)獎(jiǎng)勵(lì)相對(duì)于遠(yuǎn)期獎(jiǎng)勵(lì)的偏好。

RL算法通?梢苑譃榛趦r(jià)值、基于策略和演員-評(píng)論家方法。在基于價(jià)值的方法(如Q學(xué)習(xí))中,代理學(xué)習(xí)一個(gè)價(jià)值函數(shù),估計(jì)每對(duì)狀態(tài)-動(dòng)作對(duì)的預(yù)期回報(bào)。深度Q網(wǎng)絡(luò)(DQN)通過使用深度神經(jīng)網(wǎng)絡(luò)來近似Q值函數(shù),使RL能夠應(yīng)用于復(fù)雜、高維的狀態(tài)空間。在基于策略的方法中,代理直接學(xué)習(xí)一個(gè)策略函數(shù),將狀態(tài)映射到動(dòng)作,而無需學(xué)習(xí)顯式價(jià)值函數(shù)。一種流行的策略優(yōu)化方法是近端策略優(yōu)化(PPO),它確保更新不會(huì)偏離先前策略太遠(yuǎn),提高穩(wěn)定性和樣本效率。另一方面,演員-評(píng)論家方法結(jié)合了基于價(jià)值和基于策略方法的優(yōu)點(diǎn)。這里使用兩個(gè)模型:一個(gè)用于估計(jì)價(jià)值函數(shù)(評(píng)論家),另一個(gè)用于估計(jì)策略(演員)。例如,A2C(優(yōu)勢演員-評(píng)論家)是一種常用的演員-評(píng)論家方法,通過考慮優(yōu)勢函數(shù)來提高演員學(xué)習(xí)效率,該函數(shù)衡量在給定狀態(tài)下采取特定行動(dòng)相對(duì)于平均行為的相對(duì)收益。

這些RL算法為復(fù)雜環(huán)境中的學(xué)習(xí)提供了多種方法,并已成功應(yīng)用于廣泛的科學(xué)任務(wù)。在接下來的章節(jié)中,我們將討論這些算法在活性物質(zhì)系統(tǒng)中的應(yīng)用。

III. 單個(gè)活性粒子的最優(yōu)運(yùn)動(dòng)策略

在本節(jié)中,我們探討了如何應(yīng)用RL來優(yōu)化單個(gè)活性粒子的運(yùn)動(dòng)策略。如圖3所示,這包括檢查三個(gè)關(guān)鍵方面:點(diǎn)對(duì)點(diǎn)導(dǎo)航問題,專注于不確定環(huán)境中的最優(yōu)路徑規(guī)劃;覓食策略,其中RL用于增強(qiáng)資源的搜索和收集;以及運(yùn)動(dòng)策略,旨在優(yōu)化活性粒子的運(yùn)動(dòng)方式,包括速度、方向、粒子配置和其他因素的決策,以實(shí)現(xiàn)有效的門控規(guī)劃和對(duì)環(huán)境波動(dòng)的適應(yīng)性響應(yīng)。


A. 點(diǎn)對(duì)點(diǎn)導(dǎo)航問題

點(diǎn)對(duì)點(diǎn)導(dǎo)航問題涉及引導(dǎo)代理從初始位置到環(huán)境中的目標(biāo)位置的任務(wù),該環(huán)境受到諸如洋流、風(fēng)或其他動(dòng)態(tài)因素的影響。該問題的目標(biāo)是在考慮各種約束(如時(shí)間、能量消耗或系統(tǒng)穩(wěn)定性)的情況下識(shí)別最有效路徑。解決此問題的傳統(tǒng)方法通常依賴于多種成熟技術(shù),包括最優(yōu)控制理論、動(dòng)態(tài)規(guī)劃和幾何方法如芬勒幾何。這些方法旨在通過提供明確的控制策略來最小化旅行時(shí)間或能量消耗,指導(dǎo)代理在環(huán)境中的移動(dòng)。

然而,在活性物質(zhì)系統(tǒng)中,這些傳統(tǒng)方法由于環(huán)境異質(zhì)性、隨機(jī)擾動(dòng)和活性粒子的非平衡性質(zhì)而面臨局限性。這突顯了對(duì)能夠考慮活性物質(zhì)系統(tǒng)中固有的不確定性和復(fù)雜性的更適應(yīng)性方法的需求。

鑒于傳統(tǒng)方法的局限性,RL為單個(gè)活性粒子的點(diǎn)對(duì)點(diǎn)導(dǎo)航問題提供了一個(gè)有前景的解決方案,因?yàn)樗軌蜻m應(yīng)動(dòng)態(tài)和不確定的環(huán)境。與傳統(tǒng)方法不同,RL允許活性粒子通過試錯(cuò)學(xué)習(xí)最優(yōu)導(dǎo)航策略,根據(jù)實(shí)時(shí)反饋調(diào)整其動(dòng)作。這種靈活性使RL能夠克服環(huán)境異質(zhì)性和活性物質(zhì)系統(tǒng)的特征非平衡動(dòng)態(tài)帶來的挑戰(zhàn)。

基于這些期望,S. Colabrese等人的開創(chuàng)性研究調(diào)查了RL在優(yōu)化周期性渦流中重力微游動(dòng)器導(dǎo)航策略中的應(yīng)用。研究人員在數(shù)值實(shí)驗(yàn)中應(yīng)用Q學(xué)習(xí)算法,使微游動(dòng)器能夠根據(jù)局部流動(dòng)信息自主調(diào)整其游泳方向,允許它們最大化其垂直位移。結(jié)果表明,這些智能微游動(dòng)器能夠通過試錯(cuò)學(xué)習(xí)近優(yōu)導(dǎo)航策略,有效逃避流動(dòng)誘導(dǎo)的捕獲區(qū)域并利用“流體電梯”效應(yīng)實(shí)現(xiàn)更高效的上升。這種基于RL的方法顯著優(yōu)于傳統(tǒng)被動(dòng)重力策略,后者通常無法克服強(qiáng)渦區(qū)域和剪切流區(qū)的挑戰(zhàn)。此外,研究表明,微游動(dòng)器表現(xiàn)出對(duì)流場變化的適應(yīng)性,突顯了RL在優(yōu)化變化環(huán)境中的導(dǎo)航策略方面的多功能性。

隨后,M. Nasiri等人引入了一種深度RL方法,使用A2C算法,在模擬的二維力場和流場中引導(dǎo)活性粒子朝向目標(biāo)。通過將環(huán)境離散化為網(wǎng)格世界表示,他們的方法避免了獎(jiǎng)勵(lì)塑造的需要,允許活性粒子僅從經(jīng)驗(yàn)中漸近學(xué)習(xí)近優(yōu)路徑,并復(fù)制已知分析解的更簡單設(shè)置。此外,它成功處理了更具挑戰(zhàn)性的場景,包括高斯隨機(jī)勢場,其中經(jīng)典路徑規(guī)劃算法經(jīng)常失敗。在另一項(xiàng)代表性的模擬工作中,M. Putzke等人采用僅依賴于距離和目標(biāo)方位的表格Q學(xué)習(xí)算法,展示了活性粒子通過勢壘、均勻流、泊肅葉流和渦流進(jìn)行的時(shí)優(yōu)導(dǎo)航。值得注意的是,他們的結(jié)果在中等方向噪聲下保持穩(wěn)健,表明Q學(xué)習(xí)可以在現(xiàn)實(shí)條件下保持高性能。

在這些進(jìn)展之后,S. Mui?os-Landín等人通過在真實(shí)實(shí)驗(yàn)條件下實(shí)施RL應(yīng)用擴(kuò)展了其應(yīng)用。如圖4(b)所示,他們的研究展示了基于RL的導(dǎo)航控制在水環(huán)境中通過自熱泳推進(jìn)的人工金納米粒子涂層微游動(dòng)器的可行性。與模擬代理不同,這些微游動(dòng)器面臨重大挑戰(zhàn),包括布朗運(yùn)動(dòng)、反饋延遲和外部噪聲。為了解決這些問題,研究人員設(shè)計(jì)了一個(gè)離散網(wǎng)格世界框架,并采用Q學(xué)習(xí)算法引導(dǎo)微游動(dòng)器通過激光誘導(dǎo)推進(jìn)朝向設(shè)計(jì)目標(biāo)。盡管其微觀環(huán)境的隨機(jī)性,微游動(dòng)器成功地僅通過與環(huán)境的互動(dòng)學(xué)習(xí)最優(yōu)導(dǎo)航策略,顯示了RL在現(xiàn)實(shí)世界活性物質(zhì)系統(tǒng)中的穩(wěn)健性。這一實(shí)驗(yàn)驗(yàn)證標(biāo)志著在現(xiàn)實(shí)世界中將強(qiáng)化學(xué)習(xí)與活性粒子控制整合的重要一步,彌合了理論模型與物理實(shí)現(xiàn)之間的差距。


除了上述研究外,表I中還可以找到一系列其他基于RL的單個(gè)活性粒子點(diǎn)對(duì)點(diǎn)導(dǎo)航問題的工作。綜合來看,這些工作拓寬了RL在活性物質(zhì)系統(tǒng)中導(dǎo)航的范圍,強(qiáng)調(diào)了RL處理非平衡環(huán)境復(fù)雜性的能力,F(xiàn)有算法的進(jìn)一步細(xì)化和實(shí)驗(yàn)反饋的更深入整合可能會(huì)進(jìn)一步推進(jìn)該領(lǐng)域。潛在的發(fā)展方向包括設(shè)計(jì)自適應(yīng)獎(jiǎng)勵(lì)結(jié)構(gòu)以處理多目標(biāo)任務(wù)(例如平衡速度和能量效率)以及擴(kuò)展到多代理系統(tǒng),其中大量活性粒子協(xié)調(diào)實(shí)現(xiàn)共享目標(biāo)。這些發(fā)展對(duì)于實(shí)現(xiàn)RL驅(qū)動(dòng)的導(dǎo)航在微觀和宏觀尺度上的穩(wěn)健、現(xiàn)實(shí)世界應(yīng)用至關(guān)重要。


B. 覓食策略

覓食策略指的是生物體為了從環(huán)境中定位和獲取資源而采用的一系列行為和決策過程。與通常涉及從已知起點(diǎn)到目標(biāo)目的地的點(diǎn)對(duì)點(diǎn)導(dǎo)航問題不同,覓食要求個(gè)體尋找并收集通常分散、變化多端和不確定的資源。在自然界中,覓食行為可以在各種尺度上觀察到,從微生物尋找營養(yǎng)物質(zhì)到動(dòng)物在廣闊而復(fù)雜的環(huán)境中尋找食物。

解決覓食問題的傳統(tǒng)方法通常依賴于諸如Lévy行走和基于布朗運(yùn)動(dòng)的方法等已建立模型,這些方法試圖模仿在生物體中觀察到的高效覓食模式。這些方法通常假設(shè)環(huán)境是靜態(tài)的,其性能依賴于預(yù)定義的運(yùn)動(dòng)規(guī)則,通;趯(duì)資源分布的簡單假設(shè)。然而,在現(xiàn)實(shí)世界環(huán)境中,資源可能稀缺、短暫或動(dòng)態(tài)變化。這突顯了對(duì)更靈活、適應(yīng)性強(qiáng)的覓食策略的需求。

特別是,RL從根本上解決了序列決策問題,其中代理通過試錯(cuò)學(xué)習(xí)從反饋中逐步完善其行為。這一過程反映了生物體在提高覓食效率時(shí)采用的適應(yīng)策略。在自然系統(tǒng)中,覓食者在探索(尋找新資源)和開發(fā)(利用已知資源)之間取得平衡,這與RL的核心原則緊密對(duì)齊。隨著環(huán)境動(dòng)態(tài)變化,RL通過基于實(shí)時(shí)環(huán)境反饋不斷調(diào)整策略,相較于傳統(tǒng)方法提供了顯著優(yōu)勢。

在微觀尺度上,幾項(xiàng)研究已將RL應(yīng)用于優(yōu)化活性粒子的覓食策略。如圖5(a)所示,M. Nasiri等人采用深度Q學(xué)習(xí)訓(xùn)練智能活性粒子在模擬環(huán)境中高效覓食營養(yǎng)物質(zhì)。研究考慮了具有有限感官輸入的代理,特別是,它們只能感知局部營養(yǎng)物質(zhì)濃度、它們的健康狀況和當(dāng)前方向,而沒有對(duì)環(huán)境的全局知識(shí)。作者比較了兩種控制模型:隨機(jī)行走(RT)模型和方向控制(DC)模型。結(jié)果表明,經(jīng)過RL訓(xùn)練的代理表現(xiàn)優(yōu)于傳統(tǒng)的隨機(jī)搜索策略,包括Lévy行走和趨化,通過學(xué)習(xí)利用最初未知的環(huán)境相關(guān)性。此外,訓(xùn)練過的代理表現(xiàn)出強(qiáng)大的泛化能力,成功地將它們的覓食行為應(yīng)用于不熟悉的、結(jié)構(gòu)不同的環(huán)境。M. Caraglio等人進(jìn)行的另一項(xiàng)工作專注于使用RL算法優(yōu)化間歇性活性布朗粒子的目標(biāo)搜索策略。在這項(xiàng)研究中,ABP能夠在兩種不同模式之間切換:被動(dòng)布朗運(yùn)動(dòng)模式和主動(dòng)布朗運(yùn)動(dòng)模式。采用投影模擬學(xué)習(xí)高效切換策略,其中粒子主要根據(jù)它們?cè)诋?dāng)前階段停留的時(shí)間長度以及是否找到目標(biāo)來決定它們?cè)诒粍?dòng)或主動(dòng)階段停留多長時(shí)間。研究人員發(fā)現(xiàn),目標(biāo)搜索效率隨著活性階段的自推進(jìn)而增加。有趣的是,被動(dòng)階段的最佳持續(xù)時(shí)間隨著活動(dòng)度的增加單調(diào)減少,而主動(dòng)階段的最佳持續(xù)時(shí)間表現(xiàn)出非單調(diào)行為,在中間Péclet數(shù)達(dá)到峰值。


另一方面,對(duì)于宏觀尺度的動(dòng)物覓食,RL也顯示出模擬適應(yīng)性搜索行為的巨大潛力。例如,G. Mu?oz-Gil等人開發(fā)了一種RL框架,通過模擬學(xué)習(xí)在隨機(jī)分布目標(biāo)環(huán)境中覓食的代理來探索動(dòng)物覓食策略。研究集中在非破壞性覓食模型,其中代理必須搜索可補(bǔ)充的目標(biāo)。該模型采用投影模擬算法最大化搜索效率,代理在每一步選擇繼續(xù)在同一方向前進(jìn)或轉(zhuǎn)向新隨機(jī)方向。數(shù)值實(shí)驗(yàn)表明,RL代理學(xué)習(xí)的策略超過了Lévy行走和雙指數(shù)分布等已知模型的效率,為生物體的學(xué)習(xí)過程提供了寶貴的見解。同樣,N. J. Wispinski等人將深度RL應(yīng)用于研究斑塊覓食,這是生態(tài)學(xué)和動(dòng)物覓食中的基本優(yōu)化問題。在這項(xiàng)工作中,代理通過RL在連續(xù)3D環(huán)境中學(xué)習(xí)適應(yīng)性調(diào)整其斑塊保留行為。然后,他們的學(xué)習(xí)策略與邊際價(jià)值定理(MVT)進(jìn)行比較,邊際價(jià)值定理是覓食的著名理論解決方案,以評(píng)估它們接近最優(yōu)行為的程度。這里使用最大后驗(yàn)策略優(yōu)化算法在連續(xù)3D覓食環(huán)境中訓(xùn)練代理。代理的任務(wù)是根據(jù)每個(gè)斑塊內(nèi)衰減的獎(jiǎng)勵(lì)決定何時(shí)離開一個(gè)斑塊并前往新斑塊。結(jié)果表明,代理根據(jù)斑塊之間的距離調(diào)整其覓食策略,與生物覓食者的行為一致。在考慮時(shí)間折現(xiàn)時(shí),訓(xùn)練過的代理接近MVT預(yù)測的最優(yōu)覓食行為。

此外,表I中提供了大量基于RL的活性粒子覓食策略的研究。這些工作共同突顯了RL在復(fù)雜、動(dòng)態(tài)變化環(huán)境中學(xué)習(xí)適應(yīng)性搜索策略的能力。重要的是,未來的研究將從增強(qiáng)的實(shí)驗(yàn)驗(yàn)證中受益,彌合數(shù)值結(jié)果與現(xiàn)實(shí)世界觀察之間的差距。這將涉及在實(shí)際環(huán)境中測試RL驅(qū)動(dòng)的覓食策略,根據(jù)實(shí)驗(yàn)反饋細(xì)化算法,并在不同的生物系統(tǒng)中驗(yàn)證其泛化能力。

C. 運(yùn)動(dòng)策略

運(yùn)動(dòng)策略指的是活性粒子執(zhí)行運(yùn)動(dòng)的模式,包括對(duì)速度、方向、粒子配置和其他因素的決策,目標(biāo)是實(shí)現(xiàn)高效的步態(tài)規(guī)劃和對(duì)環(huán)境波動(dòng)的適應(yīng)性響應(yīng)。與覓食或?qū)Ш讲煌,后者關(guān)注的是達(dá)到特定目標(biāo)或獲取資源,而運(yùn)動(dòng)策略專注于優(yōu)化粒子在其環(huán)境中的運(yùn)動(dòng)方式。

這涉及到對(duì)內(nèi)部動(dòng)態(tài)和外部互動(dòng)的控制,使粒子能夠根據(jù)變化的條件調(diào)整其運(yùn)動(dòng)。研究運(yùn)動(dòng)策略對(duì)于設(shè)計(jì)具有有效、適應(yīng)性行為的人工系統(tǒng)至關(guān)重要,這些系統(tǒng)能夠在現(xiàn)實(shí)世界中的動(dòng)態(tài)環(huán)境中運(yùn)行。理解和設(shè)計(jì)高效的運(yùn)動(dòng)模式在從微觀機(jī)器人到自主航空器的應(yīng)用中尤為重要,因?yàn)樗梢蕴岣咝阅、能效和魯棒性?/p>

尋找最佳運(yùn)動(dòng)策略的傳統(tǒng)方法主要依賴于基于物理的模型,這些模型通過機(jī)械方程和運(yùn)動(dòng)學(xué)分析來描述粒子運(yùn)動(dòng)。例如,使用牛頓力學(xué)或拉格朗日動(dòng)力學(xué),研究人員可以模擬粒子在各種環(huán)境中的運(yùn)動(dòng)。雖然這些方法可以為簡單系統(tǒng)提供準(zhǔn)確的預(yù)測,但在更復(fù)雜、動(dòng)態(tài)的環(huán)境中它們會(huì)遇到限制。在實(shí)際場景中,粒子可能經(jīng)歷非均勻流場、流體動(dòng)力學(xué)效應(yīng)或不可預(yù)測的環(huán)境變化,這使得傳統(tǒng)運(yùn)動(dòng)模型在應(yīng)對(duì)這些復(fù)雜性方面無效。此外,這些方法通常依賴于預(yù)定義的運(yùn)動(dòng)模型或控制策略,這些模型受制于基礎(chǔ)假設(shè)的準(zhǔn)確性和適應(yīng)性。面對(duì)動(dòng)態(tài)和不確定的環(huán)境時(shí),傳統(tǒng)方法難以提供實(shí)時(shí)、適應(yīng)性的運(yùn)動(dòng)決策。相比之下,由于RL不需要精確的物理模型,而是通過代理-環(huán)境互動(dòng)優(yōu)化行為,它為研究運(yùn)動(dòng)策略提供了一個(gè)有前景的替代方案,特別是在傳統(tǒng)方法無法考慮動(dòng)態(tài)和隨機(jī)因素的情況下。

活性物質(zhì)的運(yùn)動(dòng)策略包括各種類別,包括具有可調(diào)節(jié)配置的活性粒子和滑翔飛行動(dòng)力學(xué)。對(duì)于前者,最具代表性的例子是具有桿-球結(jié)構(gòu)的微游動(dòng)器,這是一個(gè)由桿和球形段連接而成的活性系統(tǒng),允許凈運(yùn)動(dòng)。通過在運(yùn)動(dòng)過程中動(dòng)態(tài)調(diào)整關(guān)節(jié)角度和耦合剛度等參數(shù),這些微游動(dòng)器可以在不同運(yùn)動(dòng)模式之間切換,實(shí)現(xiàn)在復(fù)雜環(huán)境中的靈活導(dǎo)航和魯棒控制。例如,在Z. Zou等人的工作中,采用深度RL方法使具有桿-球結(jié)構(gòu)的微游動(dòng)器自主學(xué)習(xí)在低雷諾數(shù)環(huán)境中有效的運(yùn)動(dòng)步態(tài)。通過使用PPO算法訓(xùn)練系統(tǒng),微游動(dòng)器可以在不依賴預(yù)定義步態(tài)模式的情況下,在平移、旋轉(zhuǎn)和組合模式之間切換。值得注意的是,基于RL的運(yùn)動(dòng)策略允許微游動(dòng)器遵循指定路徑并執(zhí)行目標(biāo)導(dǎo)航。這種穩(wěn)健的路徑跟蹤能力突顯了微游動(dòng)器的多功能性及其在生物醫(yī)學(xué)領(lǐng)域(如靶向藥物輸送和微手術(shù))中的潛在應(yīng)用。

同樣,Y. Liu等人探索RL以優(yōu)化具有三球鏈配置的桿-球微游動(dòng)器的旋轉(zhuǎn)運(yùn)動(dòng)。他們的研究表明,無論球的數(shù)量如何,RL都會(huì)收斂到一種“行波策略”,該策略控制微游動(dòng)器的旋轉(zhuǎn)。這種運(yùn)動(dòng)策略使系統(tǒng)能夠執(zhí)行高效的旋轉(zhuǎn)運(yùn)動(dòng),RL動(dòng)態(tài)調(diào)整球的動(dòng)作序列以確保最佳旋轉(zhuǎn)。結(jié)果表明,即使球的數(shù)量增加,系統(tǒng)仍可以通過RL開發(fā)有效的運(yùn)動(dòng)策略。在另一項(xiàng)工作中,L. Lin等人采用DQN優(yōu)化彈性三球微游動(dòng)器的運(yùn)動(dòng)。這項(xiàng)研究側(cè)重于通過利用RL控制球之間的彈簧動(dòng)力學(xué),為微游動(dòng)器開發(fā)有效的運(yùn)動(dòng)策略;赗L的系統(tǒng)自主學(xué)習(xí)了一種“等待策略”,其中微游動(dòng)器在運(yùn)動(dòng)的某些點(diǎn)暫停,允許彈簧放松后再繼續(xù)運(yùn)動(dòng)。這種策略在高驅(qū)動(dòng)速度下尤其重要,否則系統(tǒng)會(huì)因性能退化而掙扎。

另一方面,滑翔飛行動(dòng)力學(xué)代表了活性物質(zhì)運(yùn)動(dòng)策略的另一個(gè)重要類別。滑翔動(dòng)力學(xué)主要在滑翔機(jī)和鳥類中觀察到,側(cè)重于利用自然大氣現(xiàn)象(如熱氣流和上升氣流)以最小能量維持飛行。這種方法涉及自適應(yīng)飛行控制,其中系統(tǒng)學(xué)習(xí)導(dǎo)航波動(dòng)的環(huán)境條件,如風(fēng)或熱梯度,以優(yōu)化運(yùn)動(dòng)。最近的研究,特別是使用RL的研究,推進(jìn)了能夠高效探索這些動(dòng)力學(xué)的自主航空系統(tǒng)的發(fā)展。

如圖6(b)所示,G. Reddy等人的代表性研究訓(xùn)練了一架自主滑翔機(jī)利用Q學(xué)習(xí)算法在大氣熱氣流中導(dǎo)航;铏C(jī)配備了一個(gè)飛行控制系統(tǒng),該系統(tǒng)調(diào)整傾斜角度和俯仰角,通過利用環(huán)境反饋,系統(tǒng)自主提高其爬升率,與隨機(jī)策略相比。研究強(qiáng)調(diào)了使用垂直風(fēng)加速度和滾轉(zhuǎn)扭矩作為機(jī)械線索,這些線索引導(dǎo)滑翔機(jī)的運(yùn)動(dòng)并使其能夠有效地利用熱氣流進(jìn)行持續(xù)飛行。通過重復(fù)試驗(yàn),滑翔機(jī)自主提高了其檢測熱氣流和其導(dǎo)航策略以保持在其中,展示了RL如何在動(dòng)態(tài)、現(xiàn)實(shí)世界條件下實(shí)現(xiàn)最佳飛行策略。


之后,Y. Flato等人使用深度強(qiáng)化學(xué)習(xí)來研究水平風(fēng)條件下的熱氣流滑翔。利用深度確定性策略梯度算法,他們使滑翔機(jī)能夠自主學(xué)習(xí)如何定位并保持在熱氣流上升氣流中。該研究確定了兩個(gè)關(guān)鍵的學(xué)習(xí)挑戰(zhàn):實(shí)現(xiàn)穩(wěn)定飛行和靠近熱氣流中心。為了克服這些挑戰(zhàn),使用獎(jiǎng)勵(lì)塑造在訓(xùn)練期間逐漸引入更復(fù)雜的風(fēng)條件。學(xué)習(xí)到的策略反映了真實(shí)世界禿鷲的滑翔策略,展示了強(qiáng)化學(xué)習(xí)如何在復(fù)雜環(huán)境中復(fù)制和優(yōu)化類似動(dòng)物的飛行行為。

除了討論的工作之外,表I中還總結(jié)了幾項(xiàng)基于強(qiáng)化學(xué)習(xí)的活性物質(zhì)運(yùn)動(dòng)策略研究,包括那些專注于多足系統(tǒng)和受生物啟發(fā)的機(jī)器人技術(shù)。未來的研究可以通過開發(fā)基于強(qiáng)化學(xué)習(xí)的增強(qiáng)對(duì)不利環(huán)境的魯棒性的運(yùn)動(dòng)策略來推進(jìn)該領(lǐng)域,確保系統(tǒng)即使在不可預(yù)測或不利條件下也能保持有效運(yùn)動(dòng)。此外,在不確定性下學(xué)習(xí)是改進(jìn)運(yùn)動(dòng)策略的關(guān)鍵領(lǐng)域,因?yàn)榇硗ǔP枰ㄟ^嘈雜、不完整或變化的環(huán)境數(shù)據(jù)進(jìn)行移動(dòng)。克服這些挑戰(zhàn)對(duì)于擴(kuò)展強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的運(yùn)動(dòng)策略的應(yīng)用至關(guān)重要,對(duì)環(huán)境監(jiān)測和空間探索等自主領(lǐng)域具有重要意義。

IV. 活性群體集體動(dòng)態(tài)的調(diào)節(jié)

在本節(jié)中,我們研究了RL如何調(diào)節(jié)和控制活性群體的集體動(dòng)態(tài),重點(diǎn)關(guān)注兩個(gè)互補(bǔ)的方面。首先,我們討論了活性群體的自組織,其中RL幫助個(gè)體行為優(yōu)化局部互動(dòng),導(dǎo)致復(fù)雜模式的出現(xiàn),如群體形成或聚集,無需直接集中控制或外部影響。其次,我們探索了群體行為的目標(biāo)導(dǎo)向控制,其中RL通過外部影響或操控引導(dǎo)個(gè)體代理與預(yù)定義的集體目標(biāo)對(duì)齊。

A. 自組織

活性群體中的自組織指的是活性粒子之間局部互動(dòng)自發(fā)形成的有序集體行為,無需集中控制或直接外部影響。這些行為,如群體形成、聚集或模式形成,通過基于局部信息交換的去中心化決策過程產(chǎn)生。在自然系統(tǒng)中,這種自組織現(xiàn)象在生物系統(tǒng)中很常見,例如魚群、鳥群或昆蟲群體,簡單的個(gè)體規(guī)則可以導(dǎo)致高度復(fù)雜和協(xié)調(diào)的群體行為。

傳統(tǒng)上,活性物質(zhì)系統(tǒng)中自組織的研究依賴于基于物理的模型,如Vicsek模型,該模型基于局部互動(dòng)和鄰域規(guī)則描述代理的對(duì)齊。這些模型通過簡化假設(shè)捕捉自組織行為的本質(zhì),例如代理之間的對(duì)齊或排斥,并為這種行為的出現(xiàn)提供了重要見解。然而,傳統(tǒng)方法在捕捉現(xiàn)實(shí)世界系統(tǒng)的全部復(fù)雜性時(shí)常常面臨重大挑戰(zhàn)。這些模型通常受限于固定或簡單的互動(dòng)規(guī)則假設(shè),難以考慮現(xiàn)實(shí)世界活性物質(zhì)的動(dòng)態(tài)和適應(yīng)性。此外,這些模型可能在具有復(fù)雜或變化環(huán)境的系統(tǒng)中泛化不佳,其中代理之間的互動(dòng)更加多樣且需要更靈活的策略。特別是,RL已成為研究活性群體自組織的一個(gè)廣泛使用的方法,因?yàn)樗灰蕾囉陬A(yù)定義的互動(dòng)規(guī)則。通過允許活性粒子基于局部互動(dòng)自主調(diào)整其運(yùn)動(dòng)行為,RL促進(jìn)了在更現(xiàn)實(shí)和復(fù)雜環(huán)境中出現(xiàn)現(xiàn)象的探索。

最近的研究表明,RL在模擬微觀和宏觀活性物質(zhì)系統(tǒng)中的自組織中發(fā)揮作用。在微觀尺度上,R. L ?offer等人和J. Grauer等人利用RL優(yōu)化活性粒子的運(yùn)動(dòng)行為并發(fā)現(xiàn)出現(xiàn)的集體模式。如圖7(a)所示,L ?offer等人專注于光響應(yīng)活性膠體粒子,應(yīng)用PPO算法優(yōu)化基于有限感官輸入(例如180°視覺錐)的個(gè)體覓食策略。盡管獎(jiǎng)勵(lì)機(jī)制設(shè)計(jì)用于個(gè)體優(yōu)化,粒子受限的感官信息導(dǎo)致群體行為如群體形成和磨坊自發(fā)出現(xiàn)。同樣,Grauer等人研究了在2D營養(yǎng)場中移動(dòng)的“通信”自推進(jìn)粒子,使用DQN優(yōu)化其感官參數(shù)。訓(xùn)練后的粒子表現(xiàn)出三種集體策略[圖7(b)]:在高營養(yǎng)區(qū)域聚集以最大化資源消耗,擴(kuò)散以最小化競爭,以及基于營養(yǎng)分布動(dòng)態(tài)在聚集和擴(kuò)散之間切換的自適應(yīng)策略。這兩項(xiàng)研究都展示了RL在沒有預(yù)定義互動(dòng)規(guī)則的情況下揭示復(fù)雜自組織行為的能力,使活性粒子表現(xiàn)出模仿自然界中看到的出現(xiàn)的集體動(dòng)態(tài)。


在宏觀尺度上,RL也被用來調(diào)節(jié)動(dòng)物群體中的自組織,如魚群和鳥群。T. Costa等人使用進(jìn)化策略,RL中的黑盒優(yōu)化方法,來模擬魚群運(yùn)動(dòng),其中每條魚根據(jù)神經(jīng)網(wǎng)絡(luò)處理的感官輸入學(xué)習(xí)局部互動(dòng)規(guī)則。通過優(yōu)化全局獎(jiǎng)勵(lì)函數(shù),代理自主發(fā)展出四種不同的集體運(yùn)動(dòng)模式:旋轉(zhuǎn)球、龍卷風(fēng)、全核磨坊和空心磨坊行為[圖7(c)]。同樣,X. Wang等人使用平均場Q學(xué)習(xí)算法來模擬魚群中的集體運(yùn)動(dòng)。通過將感官輸入表示為多通道圖像并設(shè)計(jì)促進(jìn)鄰居接近和避免碰撞的獎(jiǎng)勵(lì)函數(shù),他們的方法導(dǎo)致高度協(xié)調(diào)的行為出現(xiàn),如全核磨坊和空心磨坊,這些模式在自然界的捕食或覓食事件中經(jīng)常觀察到。此外,M. Durve等人應(yīng)用RL研究群體行為,其中代理根據(jù)其鄰居的速度信息調(diào)整其速度,導(dǎo)致協(xié)調(diào)群體動(dòng)態(tài)的自發(fā)出現(xiàn)。這些工作強(qiáng)調(diào)了RL在通過個(gè)體學(xué)習(xí)驅(qū)動(dòng)自組織中的作用。此外,E. Nuzhin等人應(yīng)用RL解釋動(dòng)物群體中旋轉(zhuǎn)行為的出現(xiàn),提出它源于護(hù)航策略,其中個(gè)體試圖與群體中心保持一定距離。他們的發(fā)現(xiàn)揭示了這種自組織策略增強(qiáng)了群體對(duì)外部干擾的韌性,突顯了集體運(yùn)動(dòng)的生存功能。

綜上所述,這些研究表明RL在模擬從微觀粒子到大型動(dòng)物群體的自組織集體行為的動(dòng)態(tài)、適應(yīng)性方面的強(qiáng)大能力。通過超越固定的互動(dòng)規(guī)則,RL使探索更復(fù)雜、出現(xiàn)的行為成為可能,這些行為更準(zhǔn)確地反映現(xiàn)實(shí)世界系統(tǒng)。

展望未來,未來的研究可以集中于改進(jìn)RL算法,以更好地處理更復(fù)雜環(huán)境中的高維感官輸入和互動(dòng),例如異質(zhì)系統(tǒng)中代理具有不同能力或不完整信息。此外,納入環(huán)境因素和約束,如外部力量或資源可用性,可以進(jìn)一步增強(qiáng)這些模型的現(xiàn)實(shí)性。隨著RL的不斷發(fā)展,它將越來越多地為自然和人工系統(tǒng)中自組織機(jī)制提供寶貴見解。

B. 群體行為的目標(biāo)導(dǎo)向控制

群體行為的目標(biāo)導(dǎo)向控制描述了故意引導(dǎo)和調(diào)節(jié)活性群體的集體動(dòng)態(tài)以實(shí)現(xiàn)預(yù)定義目標(biāo)的過程。與自組織不同,自組織中的行為是通過代理之間的局部互動(dòng)自發(fā)出現(xiàn)的,沒有中央?yún)f(xié)調(diào),而群體控制依賴于外部輸入或全局機(jī)制來引導(dǎo)系統(tǒng)朝向特定目標(biāo)。這些干預(yù)可以采取多種形式,如影響活性粒子行為的外部場和光源。雖然自組織側(cè)重于個(gè)體層面優(yōu)化產(chǎn)生的涌現(xiàn)模式,群體行為控制則以實(shí)現(xiàn)目標(biāo)結(jié)果為中心,如協(xié)調(diào)運(yùn)輸或物體操控。關(guān)于這一點(diǎn),RL作為優(yōu)化控制策略的強(qiáng)大工具,允許代理適應(yīng)外部輸入,克服環(huán)境不確定性,并在最少人為干預(yù)下實(shí)現(xiàn)復(fù)雜任務(wù),使其成為控制活性群體和使用它們操控外部物體的理想方法。

首先關(guān)注活性粒子本身的控制,M. Falk等人使用RL引導(dǎo)自推進(jìn)粒子群體朝向特定配置。利用類似Vicsek模型的自推進(jìn)圓盤,作者通過聚光燈控制局部活動(dòng),該燈增加了特定空間區(qū)域的活動(dòng)[圖8(a)]。RL代理根據(jù)系統(tǒng)的粗粒度狀態(tài)(包括粒子位置和速度)調(diào)整聚光燈的位置和大小。學(xué)習(xí)到的協(xié)議利用了弱耦合和強(qiáng)耦合狀態(tài)下出現(xiàn)的不同的物理行為,其中系統(tǒng)動(dòng)態(tài)隨著粒子對(duì)齊性的增加而變化。此外,M. Schrage等人實(shí)施RL以定向控制超聲控制的微型機(jī)器人。他們的方法利用超聲的力量進(jìn)行導(dǎo)航和操控,利用主要和次級(jí)聲輻射力引導(dǎo)微型群體。使用Q學(xué)習(xí),他們訓(xùn)練系統(tǒng)識(shí)別和跟蹤微型機(jī)器人,實(shí)時(shí)調(diào)整聲波力以實(shí)現(xiàn)有效控制。如圖8(b)所示,該研究成功地在流體環(huán)境中實(shí)現(xiàn)了自主集體運(yùn)動(dòng),具有特定應(yīng)用中微型機(jī)器人通過超聲引導(dǎo)運(yùn)動(dòng)協(xié)作拼寫出“ETH”。通過使用超過100,000張圖像,作者教會(huì)系統(tǒng)適應(yīng)超聲環(huán)境的不可預(yù)測動(dòng)態(tài),增強(qiáng)了微型機(jī)器人在非結(jié)構(gòu)化環(huán)境中自主導(dǎo)航的能力。


此外,為了應(yīng)對(duì)更精細(xì)的控制挑戰(zhàn),一些研究不僅專注于活性群體本身的精確控制,還利用這些系統(tǒng)操控外部物體。例如,V. Heuthe等人探索了由激光點(diǎn)單獨(dú)控制的群體微型機(jī)器人如何協(xié)作執(zhí)行復(fù)雜任務(wù),例如旋轉(zhuǎn)和運(yùn)輸大桿[圖8(c)]。RL代理負(fù)責(zé)調(diào)整激光點(diǎn)的位置,這些點(diǎn)控制微型機(jī)器人的運(yùn)動(dòng),并使用多智能體RL框架中的反事實(shí)獎(jiǎng)勵(lì)機(jī)制為每個(gè)微型機(jī)器人分配個(gè)體信用。通過這樣做,RL代理學(xué)習(xí)高效協(xié)調(diào)微型機(jī)器人的動(dòng)作,使它們能夠與環(huán)境互動(dòng)并克服熱噪聲和復(fù)雜的智能體間互動(dòng)等挑戰(zhàn)。

這種方法使系統(tǒng)能夠高效地學(xué)習(xí)旋轉(zhuǎn)和運(yùn)輸物體,展示了活性物質(zhì)系統(tǒng)在操控外部目標(biāo)方面的潛力。另一項(xiàng)相關(guān)工作由J. Shen等人進(jìn)行,他們引入了一個(gè)深度RL環(huán)境來探索粒子機(jī)器人的導(dǎo)航和物體操控任務(wù)。在這項(xiàng)研究中,每個(gè)機(jī)器人被表示為一個(gè)可以改變大小但缺乏自推進(jìn)能力的盤形粒子。RL算法不是調(diào)整單個(gè)機(jī)器人,而是優(yōu)化控制整個(gè)群體的超級(jí)代理的行為。超級(jí)代理負(fù)責(zé)通過切換機(jī)器人狀態(tài)來管理粒子機(jī)器人的集體運(yùn)動(dòng)。使用OpenAI Gym接口,他們?yōu)楦鞣N任務(wù)開發(fā)了一個(gè)2D模擬器,包括導(dǎo)航、障礙穿越和物體操控。通過應(yīng)用DQN、A2C和PPO等算法,他們對(duì)粒子機(jī)器人在這些任務(wù)中的表現(xiàn)進(jìn)行了基準(zhǔn)測試,強(qiáng)調(diào)這些RL方法使粒子機(jī)器人能夠與外部物體互動(dòng)并操控它們。

總結(jié)來說,活性群體的目標(biāo)導(dǎo)向控制,特別是通過RL,已顯示出在引導(dǎo)群體行為和促進(jìn)操控外部物體方面的相當(dāng)潛力。盡管取得了這些進(jìn)展,但大多數(shù)研究僅限于2D環(huán)境,3D應(yīng)用的全部潛力基本上還未被探索。因此,將這些系統(tǒng)擴(kuò)展到3D環(huán)境提供了令人興奮的機(jī)會(huì)和挑戰(zhàn)。增加的空間維度將在粒子與外部物體之間的互動(dòng)中引入更復(fù)雜的動(dòng)態(tài),進(jìn)一步強(qiáng)調(diào)了對(duì)靈活和適應(yīng)性控制策略的需求。在3D環(huán)境中操控物體的能力也可能為更復(fù)雜的現(xiàn)實(shí)世界應(yīng)用打開大門,如醫(yī)療程序、自主裝配和先進(jìn)材料處理。

V. 結(jié)論

總結(jié)來說,本綜述系統(tǒng)地探討了RL在引導(dǎo)和控制活性物質(zhì)系統(tǒng)中的整合應(yīng)用。我們討論了該領(lǐng)域的兩個(gè)關(guān)鍵領(lǐng)域:優(yōu)化單個(gè)活性粒子的運(yùn)動(dòng)策略和調(diào)節(jié)活性群體的集體動(dòng)態(tài)。對(duì)于單個(gè)粒子,RL在優(yōu)化導(dǎo)航、覓食和運(yùn)動(dòng)策略方面顯示出相當(dāng)大的潛力,使粒子能夠自主適應(yīng)動(dòng)態(tài)環(huán)境并執(zhí)行諸如點(diǎn)對(duì)點(diǎn)導(dǎo)航和資源收集等任務(wù)。

在集體層面,RL已被用于調(diào)節(jié)群體行為,促進(jìn)群體動(dòng)態(tài)的自組織和目標(biāo)導(dǎo)向控制。特別是,RL能夠幫助活性粒子協(xié)調(diào)其動(dòng)作以完成復(fù)雜任務(wù),如在挑戰(zhàn)性條件下的物體操控和協(xié)調(diào)集體運(yùn)輸。

盡管這些進(jìn)展充滿希望,但仍需進(jìn)一步發(fā)展以增強(qiáng)RL算法在活性物質(zhì)系統(tǒng)中的適應(yīng)性和魯棒性。一個(gè)關(guān)鍵焦點(diǎn)應(yīng)是完善RL算法以處理活性物質(zhì)環(huán)境的復(fù)雜性。例如,將RL與多模態(tài)感知和反饋機(jī)制整合將使活性粒子能夠根據(jù)更廣泛的環(huán)境線索調(diào)整其行為,顯著擴(kuò)展這些系統(tǒng)的潛在應(yīng)用。另一個(gè)推進(jìn)的關(guān)鍵領(lǐng)域是理解RL算法在不同活性物質(zhì)系統(tǒng)間的泛化能力和可轉(zhuǎn)移性。研究RL策略如何有效應(yīng)用于各種環(huán)境和任務(wù),以及它們?cè)谙到y(tǒng)間的轉(zhuǎn)移效果如何,對(duì)于拓寬其適用性至關(guān)重要。此外,開發(fā)更多可由RL控制的活性物質(zhì)實(shí)驗(yàn)系統(tǒng)的需求很大。通過應(yīng)對(duì)這些挑戰(zhàn),我們可以推進(jìn)該領(lǐng)域并為活性物質(zhì)系統(tǒng)解鎖更廣泛的應(yīng)用,可能在生物物理學(xué)、機(jī)器人技術(shù)、醫(yī)學(xué)科學(xué)、環(huán)境監(jiān)測和自主系統(tǒng)中取得突破。

原文鏈接:https://arxiv.org/pdf/2503.23308

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
太殘酷了!宇樹機(jī)器人春晚“下課”,成立不到3年的企業(yè)橫空出世

太殘酷了!宇樹機(jī)器人春晚“下課”,成立不到3年的企業(yè)橫空出世

火山詩話
2026-01-27 10:54:08
全國9地取消固定分時(shí)電價(jià)

全國9地取消固定分時(shí)電價(jià)

財(cái)聯(lián)社
2026-01-27 13:58:05
14歲陳佳銘已昏迷超30天,上海專家會(huì)診后,確認(rèn)無生還希望

14歲陳佳銘已昏迷超30天,上海專家會(huì)診后,確認(rèn)無生還希望

離離言幾許
2026-01-26 16:15:54
全是假的!涉及多個(gè)品牌,檢測結(jié)果觸目驚心!網(wǎng)友:老人小孩都在吃

全是假的!涉及多個(gè)品牌,檢測結(jié)果觸目驚心!網(wǎng)友:老人小孩都在吃

環(huán)球網(wǎng)資訊
2026-01-27 15:41:14
“把這種視頻發(fā)網(wǎng)上,真是好媽”,女兒的尊嚴(yán)被扒的一絲不剩

“把這種視頻發(fā)網(wǎng)上,真是好媽”,女兒的尊嚴(yán)被扒的一絲不剩

蝴蝶花雨話教育
2026-01-26 12:05:11
王樹斌代理高州市市長,曾任佛山市政府副秘書長

王樹斌代理高州市市長,曾任佛山市政府副秘書長

南方都市報(bào)
2026-01-27 16:53:35
值得珍藏:固態(tài)電池+核聚變鏈+AI芯片+商業(yè)航天+光刻機(jī)+量子信息

值得珍藏:固態(tài)電池+核聚變鏈+AI芯片+商業(yè)航天+光刻機(jī)+量子信息

Thurman在昆明
2026-01-27 11:29:18
求死得死!又一個(gè)“潤美先鋒”,被美國斬殺線精準(zhǔn)斬殺了!

求死得死!又一個(gè)“潤美先鋒”,被美國斬殺線精準(zhǔn)斬殺了!

大嘴說天下
2026-01-27 21:05:21
天津小伙心疼29歲表嫂被出軌離婚 接其到蘇州同居引爭議

天津小伙心疼29歲表嫂被出軌離婚 接其到蘇州同居引爭議

阿SIR觀察
2026-01-27 10:38:05
浙江一男子花2.7萬租女友回家過年,要求對(duì)方假裝博士,誰料,進(jìn)門后女孩竟直接給“婆婆”跪下了!

浙江一男子花2.7萬租女友回家過年,要求對(duì)方假裝博士,誰料,進(jìn)門后女孩竟直接給“婆婆”跪下了!

二胡的歲月如歌
2026-01-27 18:52:17
凱恩將續(xù)約拜仁,創(chuàng)隊(duì)史頂薪紀(jì)錄

凱恩將續(xù)約拜仁,創(chuàng)隊(duì)史頂薪紀(jì)錄

星耀國際足壇
2026-01-27 21:18:40
老人帶孩子,把用過的紙尿褲直接曬干后給僅兩周多的孫女再次使用,鄰居多次提醒,老人:沒事,買太多錢受不了

老人帶孩子,把用過的紙尿褲直接曬干后給僅兩周多的孫女再次使用,鄰居多次提醒,老人:沒事,買太多錢受不了

環(huán)球網(wǎng)資訊
2026-01-27 21:32:02
多地黨委政法委書記調(diào)整

多地黨委政法委書記調(diào)整

上觀新聞
2026-01-27 17:29:04
這次軍委的動(dòng)作,真是讓人倒吸一口涼氣!直接倒查9年

這次軍委的動(dòng)作,真是讓人倒吸一口涼氣!直接倒查9年

忠于法紀(jì)
2026-01-27 08:57:33
央視曝光軍工重大泄密:間諜使用了美人計(jì)

央視曝光軍工重大泄密:間諜使用了美人計(jì)

南權(quán)先生
2026-01-27 15:39:22
趙薇、黃有龍和李湘被爆與電詐頭目有關(guān)?剛剛,趙薇本人和李湘前夫?qū)Υ硕歼M(jìn)行了回應(yīng)。

趙薇、黃有龍和李湘被爆與電詐頭目有關(guān)?剛剛,趙薇本人和李湘前夫?qū)Υ硕歼M(jìn)行了回應(yīng)。

貼小君
2026-01-27 10:17:05
上海男籃17分大勝,王哲林25+10生涯總得分破萬,洛夫頓30+10

上海男籃17分大勝,王哲林25+10生涯總得分破萬,洛夫頓30+10

中國籃壇快訊
2026-01-27 21:30:18
解放軍上將在京不幸去世:立戰(zhàn)功、扳倒谷俊山,其親弟弟身份曝光

解放軍上將在京不幸去世:立戰(zhàn)功、扳倒谷俊山,其親弟弟身份曝光

博士觀察
2026-01-27 14:10:13
70億分紅,沒了!

70億分紅,沒了!

中國新聞周刊
2026-01-27 19:45:05
沖上熱搜!“金融女神”李蓓稱上個(gè)月已清空黃金,未來10至20年不值得投資,她給出兩點(diǎn)分析,但有人表示不贊同

沖上熱搜!“金融女神”李蓓稱上個(gè)月已清空黃金,未來10至20年不值得投資,她給出兩點(diǎn)分析,但有人表示不贊同

每日經(jīng)濟(jì)新聞
2026-01-27 22:17:09
2026-01-28 05:04:49
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1182文章數(shù) 18關(guān)注度
往期回顧 全部

科技要聞

馬化騰3年年會(huì)講話透露了哪些關(guān)鍵信息

頭條要聞

美報(bào)告稱中國是其19世紀(jì)以來面對(duì)過的最強(qiáng)大國家

頭條要聞

美報(bào)告稱中國是其19世紀(jì)以來面對(duì)過的最強(qiáng)大國家

體育要聞

冒充職業(yè)球員,比賽規(guī)則還和對(duì)手現(xiàn)學(xué)?

娛樂要聞

張雨綺風(fēng)波持續(xù)發(fā)酵,曝多個(gè)商務(wù)被取消

財(cái)經(jīng)要聞

多地對(duì)壟斷行業(yè)"近親繁殖"出手了

汽車要聞

標(biāo)配華為乾崑ADS 4/鴻蒙座艙5 華境S體驗(yàn)車下線

態(tài)度原創(chuàng)

家居
房產(chǎn)
健康
教育
數(shù)碼

家居要聞

現(xiàn)代古典 中性又顯韻味

房產(chǎn)要聞

實(shí)景兌現(xiàn)在即!綠城,在海棠灣重新定義終極旅居想象!

耳石脫落為何讓人天旋地轉(zhuǎn)+惡心?

教育要聞

對(duì)話陳妤頡:閃閃發(fā)光的賽道,追逐夢(mèng)想

數(shù)碼要聞

這事你怎么看 索尼與TCL簽署意向備忘錄 網(wǎng)友:Sony變Tony了

無障礙瀏覽 進(jìn)入關(guān)懷版