国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

復(fù)雜丘陵地形下的仿生集群對抗算法

0
分享至

Bio-Inspired Swarm Confrontation Algorithm for Complex Hilly Terrains

面向復(fù)雜山地地形的仿生集群對抗算法

https://www.mdpi.com/2313-7673/10/5/257


摘要

本文探討了一種受生物啟發(fā)的群體對抗算法,專為電子游戲中復(fù)雜的丘陵地形設(shè)計(jì)。所提出算法的新穎之處在于利用生物啟發(fā)策略,以促進(jìn)動態(tài)環(huán)境中的自適應(yīng)和高效決策制定。借鑒各種動物物種的集體狩獵行為,本文提煉出兩種關(guān)鍵對抗策略:集中火力用于目標(biāo)選擇,以及側(cè)翼包圍用于運(yùn)動協(xié)調(diào)和攻擊執(zhí)行。這些策略嵌入一個去中心化的群體決策框架中,使代理能夠在復(fù)雜的游戲環(huán)境中表現(xiàn)出增強(qiáng)的響應(yīng)能力和協(xié)調(diào)性。為了驗(yàn)證其有效性,進(jìn)行了廣泛的實(shí)驗(yàn),將所提出的方法與三種已建立的算法進(jìn)行比較。結(jié)果表明,該方法實(shí)現(xiàn)了超過80%的對抗勝率,在交戰(zhàn)效率和生存能力方面均優(yōu)于現(xiàn)有技術(shù)。此外,引入了兩個新的性能指標(biāo),即平均代理損失率和平均健康損失率,以提供對算法有效性的更全面評估。此外,還分析了關(guān)鍵算法參數(shù)對性能指標(biāo)的影響,為所提出算法的適應(yīng)性和魯棒性提供了見解。

關(guān)鍵詞:生物啟發(fā)算法;群體對抗算法;丘陵對抗場景;群體動物行為。

  1. 引言

隨著技術(shù)的進(jìn)步,無人集群協(xié)同與對抗場景的應(yīng)用需求日益增長,不僅體現(xiàn)在現(xiàn)實(shí)世界的機(jī)器人系統(tǒng)中,也廣泛存在于電子游戲等虛擬環(huán)境中。集群對抗代表了一種新型戰(zhàn)術(shù)范式,其依托多架無人機(jī)(UAV)的協(xié)同行為實(shí)現(xiàn)[1–5]。相關(guān)算法亦已廣泛應(yīng)用于游戲仿真中,例如《星際爭霸II》[6],其中復(fù)雜的智能體協(xié)同與戰(zhàn)略規(guī)劃對游戲勝負(fù)起著決定性作用。

為提升智能體集群在復(fù)雜動態(tài)對抗環(huán)境中的任務(wù)執(zhí)行效率與成功率,一系列集群對抗策略的仿真方法已被提出[7,8]。進(jìn)化算法(如粒子群優(yōu)化與差分進(jìn)化)在此類研究中發(fā)揮關(guān)鍵作用:這些算法通過模擬生物進(jìn)化機(jī)制(包括選擇、交叉與變異)迭代優(yōu)化候選解,以逼近最優(yōu)解。多智能體強(qiáng)化學(xué)習(xí)(MARL)作為強(qiáng)化學(xué)習(xí)的一個子領(lǐng)域[9],專注于多智能體共存并交互環(huán)境中的策略生成;每個智能體通過與其他智能體協(xié)作或?qū)?,學(xué)習(xí)執(zhí)行最優(yōu)動作以達(dá)成自身目標(biāo)。

近年來,群體智能算法取得了顯著進(jìn)展[10],并在集群對抗中扮演核心角色。文獻(xiàn)[11]提出了蜉蝣算法(mayfly algorithm)——一種受蜉蝣行為啟發(fā)的優(yōu)化方法,融合了群體智能與進(jìn)化原理;文獻(xiàn)[12]構(gòu)建了一個數(shù)學(xué)模型,刻畫赤狐的覓食、捕獵、種群動態(tài)及躲避天敵等行為,并通過結(jié)合局部與全局優(yōu)化策略及繁殖機(jī)制,形成了赤狐優(yōu)化算法;文獻(xiàn)[13]提出了飛狐優(yōu)化(Flying Foxes Optimization, FFO)算法,其靈感源自飛狐在熱浪中的適應(yīng)性生存策略,并通過引入模糊邏輯實(shí)現(xiàn)參數(shù)的動態(tài)調(diào)整,使FFO成為一種自適應(yīng)、免參數(shù)的優(yōu)化技術(shù);文獻(xiàn)[14]在集群機(jī)器人領(lǐng)域提出了一種創(chuàng)新方法:受魚群覓食行為啟發(fā),結(jié)合仿生神經(jīng)網(wǎng)絡(luò)與自組織映射,使集群復(fù)現(xiàn)類魚行為,包括無碰撞導(dǎo)航與動態(tài)子群形成;文獻(xiàn)[15]探討了無人機(jī)集群在當(dāng)代世界中的關(guān)鍵作用,強(qiáng)調(diào)了具備攻防能力集群的迫切需求,并提出一種受自然群體捕獵行為啟發(fā)、基于MARL的無人機(jī)集群對抗決策方法,以應(yīng)對集群規(guī)模增大導(dǎo)致訓(xùn)練時間指數(shù)級增長的挑戰(zhàn)。

本文提出一種仿生對抗算法,旨在提升集群對抗(尤其在電子游戲背景下)的成功率。具體而言,在山地環(huán)境中,起伏地形遮擋了智能體的視野,使其無法完整獲取對手的實(shí)時信息。受獅群、野狗群等動物群體捕獵行為的啟發(fā),本文探討了兩種對抗策略:集火打擊(focused-fire)策略與迂回包抄(flanking encirclement)策略,并將之與山地環(huán)境結(jié)合,構(gòu)建了一種新型仿生集群對抗算法。

本文的主要貢獻(xiàn)如下:

  • 與以往純2D或3D對抗環(huán)境的研究[15–21]不同,本文首次將半3D對抗環(huán)境(即山地地形)引入集群對抗問題研究,帶來了諸多挑戰(zhàn):其一,智能體獲取對手信息的能力受限;其二,智能體發(fā)射的虛擬彈藥或執(zhí)行的動作可能被地形遮擋;其三,地形約束了智能體的姿態(tài),進(jìn)一步增加了決策復(fù)雜性。
  • 相較于采用質(zhì)點(diǎn)模型運(yùn)動的智能體[8,16,22–24],為適配半3D對抗環(huán)境,本文采用單輪車模型(unicycle model)作為智能體的運(yùn)動學(xué)模型——該模型更具現(xiàn)實(shí)性,但也使對抗場景更復(fù)雜。此外,負(fù)責(zé)瞄準(zhǔn)的旋轉(zhuǎn)模塊可在其支撐平面上自由轉(zhuǎn)動,而仰角單元具備垂直調(diào)節(jié)能力;因此,相較于標(biāo)準(zhǔn)單輪車模型,引入這些旋轉(zhuǎn)部件所增加的自由度,使整體運(yùn)動學(xué)模型更為復(fù)雜。
  • 借鑒獅群與野狗群捕獵過程中展現(xiàn)出的行為特征,本文提出了適用于集群對抗的關(guān)鍵算法。與基于強(qiáng)化學(xué)習(xí)或目標(biāo)分配的算法[15,25,26]相比,本文方法聚焦于對抗過程中具體的、可解釋的行為模式,提升了算法的可解釋性與實(shí)際適用性——尤其適用于電子游戲等仿真環(huán)境。在與上述算法的直接對比中,本文方法勝率超過80%。
  • 在對抗算法評估方面,除傳統(tǒng)勝率指標(biāo)[24,25,27–29]外,本文額外引入兩項(xiàng)性能指標(biāo):智能體數(shù)量損耗率智能體健康值損耗率。這兩項(xiàng)指標(biāo)從不同角度反映了集群為取勝所付出的代價;測試結(jié)果進(jìn)一步凸顯了所提仿生集群對抗算法的優(yōu)越性。
  1. 相關(guān)工作

2.1 優(yōu)化算法

在進(jìn)化算法方面,文獻(xiàn)[16]提出了一種基于進(jìn)化算法(EA)的攻擊策略,用于在拒止環(huán)境(denied environments)中指導(dǎo)集群機(jī)器人行動,擺脫了對全球定位與通信的依賴。各機(jī)器人僅依靠局部感知優(yōu)化自身運(yùn)動,并通過EA驅(qū)動的適應(yīng)度函數(shù)評估威脅與收益;結(jié)合內(nèi)置的避障機(jī)制,該集群實(shí)現(xiàn)了有效的協(xié)同與對抗。

文獻(xiàn)[30]提出了一種基于協(xié)同行為的無人機(jī)任務(wù)分配進(jìn)化方法,并配套設(shè)計(jì)了一種協(xié)作控制方法,使無人機(jī)群在任務(wù)執(zhí)行過程中維持編隊(duì)。

文獻(xiàn)[31]針對復(fù)雜對抗場景,開發(fā)了一種優(yōu)化的多無人機(jī)協(xié)同路徑規(guī)劃方法:構(gòu)建了貼近實(shí)際的威脅模型,并將威脅等級與燃料消耗約束納入多目標(biāo)優(yōu)化框架中。

文獻(xiàn)[32]提出一種進(jìn)化型專家系統(tǒng)樹,用于管理空戰(zhàn)中的突發(fā)情境;文獻(xiàn)[33]則提出一種改進(jìn)型粒子群優(yōu)化算法,在不增加計(jì)算復(fù)雜度的前提下提升了全局搜索能力。

文獻(xiàn)[34]基于策略演化博弈,在博弈論模型下研究了無人機(jī)的戰(zhàn)略選擇;文獻(xiàn)[35]提出一種進(jìn)化優(yōu)化算法,旨在克服粒子群優(yōu)化的固有局限。

文獻(xiàn)[36]擴(kuò)展了 torch 方法——一種異構(gòu)–同構(gòu)集群協(xié)同進(jìn)化方法,旨在增強(qiáng)集群機(jī)器人的進(jìn)化能力。為應(yīng)對進(jìn)化效率與策略性能平衡的挑戰(zhàn),torch 采用集群協(xié)同進(jìn)化機(jī)制以加速適應(yīng)過程,并引入行為表達(dá)樹以拓展策略搜索空間,從而實(shí)現(xiàn)更靈活、高效的進(jìn)化。

文獻(xiàn)[37]提出一種基于帕累托最優(yōu)匹配的改進(jìn)型差分進(jìn)化方法,用于求解多目標(biāo)二元優(yōu)化問題。然而,該類方法在障礙物密集、多區(qū)域等復(fù)雜環(huán)境中的進(jìn)一步優(yōu)化仍有待研究,尤其在任務(wù)分配與協(xié)同控制的集成方面仍需完善。

2.2 多智能體強(qiáng)化學(xué)習(xí)

近年來,多智能體強(qiáng)化學(xué)習(xí)(MARL)取得了顯著進(jìn)展[38,39]。文獻(xiàn)[40]提出了分層注意力行動者–評論家(HAAC)算法,以提升大規(guī)模無人機(jī)集群對抗中的決策能力:該算法將分層行動者策略與基于分層兩階段注意力網(wǎng)絡(luò)的集中式評論家網(wǎng)絡(luò)相結(jié)合,有效捕捉無人機(jī)間的交互關(guān)系并優(yōu)化協(xié)同效果;其顯著降低了狀態(tài)與動作空間的復(fù)雜度,提升了可擴(kuò)展性,并在大規(guī)模場景中優(yōu)于現(xiàn)有方法。

文獻(xiàn)[41]提出了一種基于多智能體深度確定性策略梯度(MADDPG)的“一對一”視距內(nèi)空戰(zhàn)策略生成算法:將空戰(zhàn)場景建模為二人零和馬爾可夫博弈,并引入目標(biāo)位置預(yù)測方法以增強(qiáng)決策能力;為突破基礎(chǔ)戰(zhàn)斗機(jī)機(jī)動動作的限制,采用連續(xù)動作空間;此外,通過基于勢函數(shù)的獎勵塑形方法提升了學(xué)習(xí)效率。

文獻(xiàn)[42]提出了一種基于學(xué)習(xí)的無人機(jī)領(lǐng)地防御攔截策略,以應(yīng)對來自不同方向與速度的入侵者:通過分析初始狀態(tài)對攔截成功率的影響,界定了可行的防御邊界;鑒于狀態(tài)與動作空間均為連續(xù),傳統(tǒng)決策方法面臨維度災(zāi)難問題,為此提出一種融合模糊邏輯的行動者–評論家算法,有效降低了計(jì)算復(fù)雜度。

為應(yīng)對群體態(tài)勢的復(fù)雜性,文獻(xiàn)[43]提出將多智能體Transformer與虛擬對象網(wǎng)絡(luò)相結(jié)合的架構(gòu);文獻(xiàn)[44]則在多智能體深度強(qiáng)化學(xué)習(xí)框架下構(gòu)建了兩個非合作博弈模型,并在5對5無人機(jī)對抗場景中成功實(shí)現(xiàn)了納什均衡。

文獻(xiàn)[45]在包含移動威脅與目標(biāo)的仿真環(huán)境中驗(yàn)證了任務(wù)分配與決策機(jī)制的有效性;文獻(xiàn)[28]提出一種融合宏觀動作(macro actions)與人類專家知識的MARL方法用于無人機(jī)集群決策:通過將集群建模為多智能體系統(tǒng),并利用宏觀動作緩解稀疏獎勵與巨大狀態(tài)–動作空間帶來的挑戰(zhàn),顯著提升了學(xué)習(xí)效率;人為設(shè)計(jì)的動作進(jìn)一步優(yōu)化了策略,使其在復(fù)雜對抗場景中表現(xiàn)出更優(yōu)性能。

最后,文獻(xiàn)[46]探索了基于深度強(qiáng)化學(xué)習(xí)的追逃問題:多個同構(gòu)智能體在單輪車運(yùn)動學(xué)約束下追擊一個全向運(yùn)動目標(biāo);該方法采用共享經(jīng)驗(yàn)的方式訓(xùn)練固定數(shù)量追捕者的策略,并在運(yùn)行時獨(dú)立執(zhí)行。

相較于上述算法,本文所提算法將動物對抗中觀察到的行為模式無縫嵌入對抗過程本身,無需模型訓(xùn)練與復(fù)雜的迭代計(jì)算,仍能實(shí)現(xiàn)高性能表現(xiàn)。


  1. 問題描述

本文研究的是兩個智能體集群在山地地形中的集群對抗問題。特別地,這兩個智能體集群具有相等的數(shù)量與能力。該設(shè)定尤其適用于電子游戲仿真場景,其中智能體常在地形豐富的環(huán)境中執(zhí)行對稱性對抗任務(wù)。本節(jié)首先描述山地地形與智能體模型,隨后闡述集群對抗問題。

3.1 對抗環(huán)境

圖1展示了本研究用于電子游戲仿真的代表性山地地形示例。設(shè) ?? 和 ?? 分別表示地圖的長度與寬度,? 表示地形的最大高度。需注意,智能體僅能沿山地地形表面移動,這帶來了三個前所未有的挑戰(zhàn):第一,智能體獲取對手信息的能力受限,因?yàn)樯角鹂赡苷趽跗湟曇埃ㄈ鐖D1所示);第二,智能體發(fā)射的炮彈可能被地形阻擋;第三,地形限制了智能體的姿態(tài),使其難以瞄準(zhǔn)。


3.2 智能體模型

在本文中,智能體被劃分為紅隊(duì)與藍(lán)隊(duì)。假設(shè)每支隊(duì)伍包含 N 個智能體。對于 i = 1, ..., N,r? 表示紅隊(duì)的第 i 個智能體,而 b? 表示藍(lán)隊(duì)的第 i 個智能體。默認(rèn)情況下,紅隊(duì)配備本文提出的仿生集群對抗算法,而藍(lán)隊(duì)則配備其他現(xiàn)有的集群對抗算法。

3.2.1 運(yùn)動學(xué)

智能體 r? 的運(yùn)動學(xué)方程如下:



請注意,一方面,探測射線僅能在最大探測距離 d?? 內(nèi)進(jìn)行檢測;另一方面,射線可能被山丘遮擋。對于智能體 r?,其在時間 t 可獲取以下信息:

  • 時間 t 時紅隊(duì)所有幸存智能體的位置。
  • 屬于集合 N??(t) 的藍(lán)隊(duì)所有幸存智能體的位置。

藍(lán)隊(duì)智能體的信息獲取方法與此相同。

3.2.3 攻擊與傷害


3.3 對抗勝負(fù)判定

對抗開始時,紅隊(duì)與藍(lán)隊(duì)分別位于地圖的對角位置。在時間限制 t? 內(nèi),率先消滅對方全部智能體的一方被判為獲勝。若在 t? 時間內(nèi)所有智能體均被摧毀,或雙方均未在 t? 內(nèi)獲勝,則判定為平局。

3.4 算法性能指標(biāo)

為評估算法性能,本文考慮三個算法性能指標(biāo):勝率、平均智能體數(shù)量損耗率及平均智能體生命值損耗率,具體定義如下??紤]紅隊(duì)與藍(lán)隊(duì)之間進(jìn)行的一系列 M 場對抗比賽。對于紅隊(duì),令 M?? 表示紅隊(duì)獲勝的比賽場數(shù),H?? 表示紅隊(duì)全體成員的初始總生命值。對于 k = 1, ..., M??,定義 n?? 和 h??? 分別表示紅隊(duì)在第 k 場獲勝比賽中損失的智能體數(shù)量與損失的總生命值。則紅隊(duì)算法的性能指標(biāo)定義如下:

  • 勝率 W?:


  1. 仿生集群對抗算法設(shè)計(jì)

基于仿生算法,智能體在集群對抗過程中需主要解決兩個關(guān)鍵問題:攻擊目標(biāo)的選擇對抗過程中的運(yùn)動決策。本章首先分析動物群體行為,歸納相應(yīng)對抗策略,進(jìn)而將這些策略與實(shí)際對抗場景相結(jié)合,實(shí)現(xiàn)算法落地。

4.1 仿生規(guī)則

我們采用以下分析來解決各智能體在對抗過程中目標(biāo)選擇的問題。如圖4所示,一群野狗發(fā)現(xiàn)一群角馬后迅速逼近,試圖驅(qū)散其隊(duì)形;角馬起初聚集成群以抵御捕食者,但很快受驚開始逃散,野狗則緊追不舍。在追逐過程中,一只體型較小、脫離群體的個體凸顯出來,隨即成為野狗關(guān)注的焦點(diǎn);整個狼群隨即集中力量,對這只脆弱的角馬發(fā)起圍攻。


對于野狗而言,每個個體體型較小、力量較弱,難以單獨(dú)對抗角馬。當(dāng)角馬聚集在一起時,野狗很難對其造成傷害。因此,一旦角馬群中出現(xiàn)孤立個體,野狗會迅速轉(zhuǎn)移目標(biāo),形成“以多打少”的局面,從而高效完成捕獵。借鑒野狗群的協(xié)同狩獵行為,在山地地形對抗中,智能體可根據(jù)對手位置動態(tài)切換攻擊目標(biāo):若某對手遠(yuǎn)離其群體,則優(yōu)先將其鎖定為攻擊目標(biāo)。該策略可制造局部數(shù)量優(yōu)勢,使智能體快速消滅目標(biāo)。我們將此行為稱為集火打擊策略

高效的對抗算法必須在對抗過程中審慎選擇目標(biāo),并根據(jù)局勢實(shí)時調(diào)整運(yùn)動方向。本節(jié)進(jìn)一步分析動物群體攻擊行為。如圖5所示,三只獅子抓住時機(jī)圍攻一頭水牛,呈三角形陣型逼近:中間的獅子正面迎擊水牛,兩側(cè)的獅子則迂回包抄,形成鉗形攻勢;待完成合圍后,獅子群發(fā)起總攻并完成捕獵。


如果獅群以正面集群方式攻擊,水牛在感知到危險(xiǎn)后很可能進(jìn)行反擊或逃跑,這可能導(dǎo)致獅子傷亡或讓水牛逃脫。獅群通過從多個方向發(fā)起攻擊,可顯著提升狩獵成功率。在基于智能體的對抗中,若兩個或更多智能體鎖定同一對手,其中一個智能體可正面牽制對手,其余智能體則從側(cè)翼包抄,高效消滅目標(biāo)。我們將此行為稱為迂回包抄策略。

4.2 集群對抗算法設(shè)計(jì)

在分析并適配仿生規(guī)則后,這些原則需應(yīng)用于實(shí)際的對抗算法中。對抗算法的設(shè)計(jì)主要分為三部分:目標(biāo)選擇、運(yùn)動規(guī)劃與自動瞄準(zhǔn)。以下以紅隊(duì)智能體 r? 為例,詳細(xì)說明這三個組件的設(shè)計(jì)。

4.2.1 目標(biāo)選擇

受自然界野狗捕獵行為啟發(fā),目標(biāo)選擇算法采用集火打擊策略。定義 d????(t) = || p??(t) ? p??(t) ||。令 n????(t) 表示智能體 r? 可探測到的幸存對手?jǐn)?shù)量,p????(t) 表示這些對手的中心位置。令 I???(t) 表示距離 r? 第 x 近的幸存對手的標(biāo)簽,T??(t) 表示 r? 所選攻擊目標(biāo)的標(biāo)簽。令 c? 為正整數(shù),df 為正實(shí)數(shù)。目標(biāo)選擇算法由算法1描述。


根據(jù)算法1,n????(t) 和 p????(t) 作為輸入?yún)?shù),而 T??(t) 作為輸出參數(shù)。目標(biāo)選擇算法遵循一個多層級決策過程:首先,在獲得 I???(t) 后,r? 評估其可見對手的空間分布;若 b? 與可見對手中心之間的距離超過 df,則認(rèn)為 b? 已偏離其團(tuán)隊(duì)陣型,r? 將優(yōu)先攻擊 b?。

其次,如算法1第10至27步所示,這些步驟涉及一個迭代計(jì)算過程,其中 c? 在迭代中起關(guān)鍵作用:若 b? 的位置更靠近其自身隊(duì)伍,r? 將根據(jù)其與 b? 的接近程度確定其在隊(duì)伍中的相對排名;若 r? 的排名超出 c?,則必須重新計(jì)算 I???(t) 并重復(fù)該過程,直至其排名落入 c? 范圍內(nèi)。此設(shè)計(jì)有助于防止紅方智能體過度集中攻擊同一目標(biāo),從而減少資源浪費(fèi)。

最后,若 r? 視野內(nèi)沒有任何對手滿足上述條件,則選擇最近的對手作為攻擊目標(biāo),記為 I1??(t)。如上所述,該算法不僅可避免過多智能體攻擊同一目標(biāo)(從而減少彈藥不必要的集中發(fā)射),還能制造局部數(shù)量優(yōu)勢。這體現(xiàn)了本文所提出的集火打擊策略,算法流程圖見圖6。


4.2.2 運(yùn)動規(guī)劃

將生物群體的競爭行為融入智能體的對抗過程,主要涉及對其軌跡的規(guī)劃。鑒于地形呈起伏狀且無復(fù)雜障礙物,我們采用人工勢場法實(shí)現(xiàn)智能體的路徑規(guī)劃??紤]到智能體還需規(guī)避環(huán)境中隊(duì)友所構(gòu)成的障礙,其運(yùn)動方向可分解為兩個向量之和。

(1)考慮在無障礙環(huán)境下 r? 的運(yùn)動規(guī)劃。當(dāng) T??(t) = null 時,r? 選擇最近的山頂點(diǎn) p???(t) 作為其移動目標(biāo),以輔助搜索對手;反之,當(dāng) T??(t) ≠ null 時,r? 選擇根據(jù)算法1分配的目標(biāo)對手 T?? 所對應(yīng)的位置 p????(t) 作為其移動目標(biāo)。此處,p????(t) 表示被標(biāo)記為 T?? 的對手的位置。朝向目標(biāo)的運(yùn)動方向定義如下:


在狩獵過程中,獅群通常會從多個方向攻擊獵物。前方的獅子常佯攻以分散獵物注意力,而側(cè)翼的獅子則伺機(jī)發(fā)起致命一擊。受此行為啟發(fā),智能體可在對抗中通過設(shè)定不同的運(yùn)動方向,采用迂回包抄策略。

以下部分介紹確定 r? 在團(tuán)隊(duì)內(nèi)相對位置的方法。令 ρ??(t) 表示與 r? 共享同一對手的友方團(tuán)隊(duì)中,r? 的相對位置:當(dāng) ρ??(t) = 0 時,r? 位于中間;當(dāng) ρ??(t) = 1 時,r? 位于左側(cè);當(dāng) ρ??(t) = -1 時,r? 位于右側(cè)。獲取 ρ??(t) 的方法如下:


其中,p???(t) 表示在共享同一攻擊目標(biāo)的智能體群中,距離 p????(t) 最近的智能體的位置。同時,d??(t) 表示 r? 在團(tuán)隊(duì)內(nèi)的投影偏移量,ε? 是用于確定位置區(qū)間范圍的參考值,lz 表示沿 z 軸的單位方向向量。在無障礙環(huán)境中,r? 的實(shí)際運(yùn)動方向 G??(t) 通過將 ρ??(t) 乘以旋轉(zhuǎn)角 θ?,并將所得旋轉(zhuǎn)矩陣作用于 G???(t) 得到;當(dāng) T??(t) = null 時,G??(t) 直接等同于 G???(t)。

(2)計(jì)算隊(duì)友 p??(t) 與 p??(t) 之間在避障范圍 d? 內(nèi)的向量 X???(t)。由于距離更近的隊(duì)友需要更強(qiáng)的避障力,因此該向量應(yīng)相應(yīng)放大。為此,有必要對該向量進(jìn)行歸一化并施加權(quán)重。本算法選擇 1/d???(t) 作為每個向量的權(quán)重,最終所有向量之和記為 X??(t),即:


其中,k? 和 k? 表示分配給各向量的權(quán)重系數(shù)。

令 t??? 表示 r? 自上次發(fā)射炮彈以來所經(jīng)過的時間。d??? 表示 r? 執(zhí)行后撤式包抄策略的最大距離閾值,而 d??? 表示 r? 執(zhí)行側(cè)翼機(jī)動的最小距離閾值。

在推進(jìn)過程中,以及當(dāng) t??? < tc? 時執(zhí)行側(cè)翼后撤的最小后退距離。d? 表示用于規(guī)避隊(duì)友的距離。θ???(t) 表示 F??(t) 的航向角。ε1??(t) 和 ε2??(t) 分別表示當(dāng)前運(yùn)動方向與最終目標(biāo)方向在順時針和逆時針方向上的偏差角。詳細(xì)實(shí)現(xiàn)見算法2。


根據(jù)算法2,當(dāng) r? 檢測到對手時,首先計(jì)算 G???(t),然后確定其在共享同一攻擊目標(biāo)的隊(duì)友中的相對位置 ρ??(t)。基于 ρ??(t),r? 調(diào)整 G???(t) 的方向:若 r? 位于編隊(duì)右側(cè),則 G???(t) 順時針旋轉(zhuǎn) θ? 度;若位于左側(cè),則逆時針旋轉(zhuǎn) θ? 度;若 r? 處于編隊(duì)中央,其運(yùn)動方向保持不變。

在僅有兩個紅方智能體共享同一攻擊目標(biāo)的情形下,只需確定距離目標(biāo)更遠(yuǎn)的那個智能體的相對位置,并為其分配合適的運(yùn)動方向即可。

當(dāng) r? 與攻擊目標(biāo)的距離小于 d???,或其射擊冷卻時間處于激活狀態(tài)且距離目標(biāo)小于 d??? 時,其運(yùn)動方向被設(shè)定為后撤。

基于上述步驟,智能體可被分配至正面直接對抗或側(cè)翼機(jī)動,從而實(shí)現(xiàn)從多個角度攻擊對手。該方法被稱為迂回包抄策略。此策略的關(guān)鍵步驟詳見算法2的第6至10步。由此,G??(t) 得以確定。隨后,結(jié)合避障向量 X??(t),得到最終運(yùn)動方向 F??(t)。該算法對應(yīng)的流程圖如圖7所示。


4.2.3 自動瞄準(zhǔn)算法

以下以 r? 為例,介紹在確定攻擊目標(biāo) T??(t) 后,旋轉(zhuǎn)模塊與仰角單元的運(yùn)動過程。當(dāng)識別出目標(biāo) T??(t) 后,r? 根據(jù)目標(biāo)與其自身位置之間的相對角度,調(diào)整 θ??(t) 和 σ??(t),從而實(shí)現(xiàn)對目標(biāo)的瞄準(zhǔn)。

當(dāng) r? 計(jì)算出從自身指向?qū)κ值南蛄?u???(t) 后,它接著計(jì)算該向量 u???(t) 與旋轉(zhuǎn)模塊方向向量 u?????(t) 在 XOY 平面上的夾角 θ?????(t),并左右旋轉(zhuǎn)旋轉(zhuǎn)模塊,使 θ?????(t) 趨近于 0。

此外,r? 還會計(jì)算 u???(t) 與仰角單元單位方向向量 u?????(t) 之間的夾角 θ?????(t),同時上下旋轉(zhuǎn)仰角單元,使 θ?????(t) 趨近于 0。ε? 表示目標(biāo)角度與實(shí)際角度之間的偏差范圍。f???(t) 是一個標(biāo)志位,用于指示 r? 是否正在主動瞄準(zhǔn)對手。具體實(shí)現(xiàn)過程如算法3所示。


4.2.4 仿生集群對抗算法

對抗開始時,各智能體首先利用算法1確定其攻擊目標(biāo);隨后,通過算法2計(jì)算其實(shí)際運(yùn)動方向;最后,執(zhí)行算法3以精確對準(zhǔn)目標(biāo)。在運(yùn)動過程中,智能體持續(xù)評估是否滿足開火條件,并在適當(dāng)時機(jī)發(fā)起攻擊。若所有對手均被消滅,則對抗結(jié)束;否則,重新執(zhí)行算法1–3,對策略進(jìn)行動態(tài)重計(jì)算。

通過整合上述討論的算法設(shè)計(jì),最終建立了仿生集群對抗算法的偽代碼與流程圖,并分別在算法4圖8中呈現(xiàn)。分別表示紅隊(duì)與藍(lán)隊(duì)在時刻 t 的幸存智能體總數(shù)。此外,整個過程在時間步 t 內(nèi)按順序依次執(zhí)行。

4.3 算法復(fù)雜度分析
本文提出的仿生對抗算法主要由三個部分組成:目標(biāo)選擇、運(yùn)動規(guī)劃與自動瞄準(zhǔn)。其中,自動瞄準(zhǔn)算法的計(jì)算復(fù)雜度為 O(1),其余各部分的復(fù)雜度如下:

1)目標(biāo)選擇:計(jì)算距離智能體最近的對手,其復(fù)雜度為 O(N);基于局部原則重新計(jì)算對手的復(fù)雜度為 O(mN),其中 m 表示所需重計(jì)算的次數(shù),m ∈ [1, N];計(jì)算智能體視野內(nèi)對手的質(zhì)心,其復(fù)雜度為 O(N)。

(2)運(yùn)動規(guī)劃:確定智能體相對于同一對手群體的位置,其復(fù)雜度為 O(N);計(jì)算用于隊(duì)友避障的合成向量,其復(fù)雜度也為 O(N);同理,計(jì)算用于對手避障的合成向量,其復(fù)雜度同樣為 O(N)。

整體算法復(fù)雜度為 O(N)(最佳情況)至 O(N2)(最壞情況)。

  1. 結(jié)果分析

為評估本文所提集群對抗算法的有效性,需在當(dāng)前環(huán)境中引入并適配對比算法。所選對比算法包括:基于仿生動作空間的多智能體強(qiáng)化學(xué)習(xí)算法[15]、基于共識的拍賣(CBA)算法[25]以及最近分配(AN)算法[26]。

5.1 單場對抗結(jié)果分析

為更直觀地展示智能體在對抗過程中所采用的仿生算法,本文選用 AN 算法作為對手,并選取 10 對 10 的對抗規(guī)模進(jìn)行詳細(xì)過程分析。事件序列如圖9所示。



在圖9d中,藍(lán)方智能體 b? 在對抗過程中脫離其隊(duì)伍,促使紅方智能體 r?、r? 和 r? 優(yōu)先對其發(fā)起協(xié)同攻擊。該過程體現(xiàn)了仿生方法中所采用的集火打擊策略。類似地,在圖9e中,藍(lán)方智能體 b? 也被孤立,導(dǎo)致紅方智能體 r?、r? 和 r?? 根據(jù)相同的集火攻擊策略將其作為目標(biāo)。

在圖9a、b中,由于不了解對手位置,紅方隊(duì)伍分散陣型,為從多個方向發(fā)起攻擊做準(zhǔn)備。在圖9c–f中,處于不同位置的紅方智能體展現(xiàn)出不同的后撤方向,形成正面牽制與側(cè)翼包抄的機(jī)動組合。此外,紅方智能體主動移動以包抄對手,如圖9c、d中的智能體 r? 和 r??,以及圖9d、e中的智能體 r? 和 r? 所示。這些來自不同方向的協(xié)同攻擊展示了迂回包抄策略。

5.2. 不同場景下結(jié)果分析


5.2.1. 在不同算法參數(shù)下的結(jié)果分析





5.2.2 不同對抗規(guī)模下的結(jié)果分析

不同對抗規(guī)模下的結(jié)果如圖11所示。從不同規(guī)模的對抗結(jié)果可見,規(guī)模越大,算法勝率越高,這一趨勢在對手為AN時尤為明顯。在5對5場景中,隊(duì)伍總生命值相對較低,參與側(cè)翼包抄和局部集火打擊的智能體數(shù)量也較少;因此,即使形成包抄陣型,若一側(cè)智能體正面遭遇對手且處于劣勢,可能迅速被消滅,導(dǎo)致整個迂回包抄策略崩潰,此時勝率僅為0.81。然而,隨著規(guī)模擴(kuò)大,仿生策略可構(gòu)建更完整的隊(duì)形:每方智能體數(shù)量增加,容錯空間更大,火力點(diǎn)更多,能更快消滅目標(biāo)。在20對20規(guī)模下,勝率持續(xù)穩(wěn)定超過95%。


該算法的各項(xiàng)指標(biāo)也隨對抗規(guī)模變化而變化。面對AN和CBAA算法時,隨著對抗規(guī)模擴(kuò)大,本算法的指標(biāo)表現(xiàn)有所提升。這兩種算法均基于目標(biāo)選擇機(jī)制,因此本文提出的迂回包抄策略效果顯著。對抗規(guī)模增大后,攻擊位置增多,稀釋了對手的進(jìn)攻強(qiáng)度,從而加速對手淘汰并減輕己方隊(duì)伍損失。從5對5到20對20,ζ? 和 λ? 均下降超過10倍。然而,面對RL算法時,從5對5到20對20,ζ? 和 λ? 反而上升超過30%。這是因?yàn)镽L算法默認(rèn)優(yōu)先鎖定最近的對手,一旦選定目標(biāo),使用RL的智能體傾向于激進(jìn)沖鋒。假設(shè)配備BIO算法的智能體未能及時形成合理陣型,將導(dǎo)致集群聚集,增加智能體與生命值損耗,從而降低算法整體性能。

5.2.3 不同地圖下的結(jié)果分析

除當(dāng)前對抗地圖外,我們還在另一張地圖上進(jìn)行了測試。與前一張地圖相比,新地圖坡度更緩,具體地形如圖12所示。此外,在另一張地圖中引入了一種額外的對比算法——基于進(jìn)化算法的攻擊(EABA)策略[16]。對抗規(guī)模為10對10,d??? = 100米,d??? = 500米。對抗結(jié)果如圖13所示。


從結(jié)果可以看出,本文算法的勝率始終保持在90%以上。面對AN和CBAA對手時,ζ? 和 λ? 均略有上升。例如,在對抗AN時,ζ? 從0.46升至0.61,λ? 從0.61升至0.73。由于地形更平坦,炮彈在飛行中被地面阻擋的概率降低,這增加了紅方智能體在展開形成包抄陣型時被對手炮彈命中的可能性,從而導(dǎo)致己方損失增加。相反,面對RL對手時,ζ? 和 λ? 均略有下降,這可歸因于RL模型對新地圖的適應(yīng)性較弱,導(dǎo)致其對抗表現(xiàn)下降。在對抗EABA算法時,本文方法取得更低的 w?,但性能指標(biāo) ζ? 和 λ? 均出現(xiàn)明顯上升。這一現(xiàn)象主要源于更平坦的地形——它提高了獲取對手位置信息的可能性;借助增強(qiáng)的視野,EABA算法可通過迭代優(yōu)化更好地發(fā)揮其適應(yīng)度函數(shù),從而強(qiáng)化其對抗能力,對本文算法的性能產(chǎn)生負(fù)面影響。綜上所述,本文算法在新對抗地圖上仍保持高勝率,并在 ζ? 和 λ? 指標(biāo)上優(yōu)于對手,充分展現(xiàn)了該算法在不同環(huán)境中的優(yōu)勢。

  1. 結(jié)論

從電子游戲場景的視角出發(fā),本文探索了一種面向復(fù)雜山地地形的集群對抗算法。構(gòu)建了一個高度動態(tài)的山地對抗環(huán)境,其中紅藍(lán)雙方智能體集群數(shù)量相等、能力相同,且每個智能體的運(yùn)動均受運(yùn)動學(xué)約束限制。借鑒自然界中野狗群與獅群的捕獵對抗行為,本文提出了兩種關(guān)鍵策略:用于目標(biāo)選擇的“集火打擊策略”和用于運(yùn)動規(guī)劃的“迂回包抄策略”。前者通過聚合智能體行為朝向共同目標(biāo),提升局部表現(xiàn);后者則通過協(xié)同移動與布陣,提升整體對抗效率。為全面評估該算法性能,本文將其與三種現(xiàn)有對抗算法進(jìn)行基準(zhǔn)對比。共進(jìn)行了100次對抗測試,涵蓋不同算法參數(shù)、對抗規(guī)模及環(huán)境條件。實(shí)驗(yàn)結(jié)果表明,所提算法在對抗基線算法時勝率超過80%,同時保持更低的平均智能體損失率與平均生命值損耗率。綜上,這種仿生對抗算法不僅提供了一種直接且實(shí)用的解決方案,還在基于集群的對抗任務(wù)中展現(xiàn)出卓越性能。

對于未來工作,我們建議深入探索在信息受限環(huán)境中對手搜索機(jī)制,以增強(qiáng)算法在能見度有限條件下的對抗能力。此外,考察通信約束(如延遲與丟包)對集群協(xié)同與整體性能的影響將是至關(guān)重要的。開發(fā)魯棒算法以應(yīng)對這些挑戰(zhàn),將成為未來研究的重點(diǎn)方向。

原文鏈接:https://www.mdpi.com/2313-7673/10/5/257

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
廣州32歲猝死程序員公司發(fā)內(nèi)部郵件,稱其未按要求做體檢,妻子:每年都有體檢,公司不承認(rèn)三甲醫(yī)院體檢報(bào)告

廣州32歲猝死程序員公司發(fā)內(nèi)部郵件,稱其未按要求做體檢,妻子:每年都有體檢,公司不承認(rèn)三甲醫(yī)院體檢報(bào)告

大風(fēng)新聞
2026-01-27 20:52:03
給人養(yǎng)了7年閑人,廣汽終于要關(guān)閉洛杉磯的研發(fā)中心

給人養(yǎng)了7年閑人,廣汽終于要關(guān)閉洛杉磯的研發(fā)中心

與車同樂
2025-12-04 10:05:02
深圳重挖 110 米垃圾山,把歐美看呆了:中國已經(jīng)陷入“垃圾荒”了

深圳重挖 110 米垃圾山,把歐美看呆了:中國已經(jīng)陷入“垃圾荒”了

小李子體育
2026-01-27 16:01:14
26歲天才股神坦言:尾盤30分鐘就能買到次日必漲的股票,從不例外

26歲天才股神坦言:尾盤30分鐘就能買到次日必漲的股票,從不例外

股經(jīng)縱橫談
2026-01-27 18:22:52
過年別亂買東西!這5種年貨,全是“科技與狠活”,很多人不知道

過年別亂買東西!這5種年貨,全是“科技與狠活”,很多人不知道

Home范
2026-01-27 14:07:55
運(yùn)價直逼5毛錢/公里,網(wǎng)約車司機(jī)發(fā)出靈魂拷問:這么低的價格究竟誰在跑?

運(yùn)價直逼5毛錢/公里,網(wǎng)約車司機(jī)發(fā)出靈魂拷問:這么低的價格究竟誰在跑?

網(wǎng)約車觀察室
2026-01-26 10:17:32
1997年回歸前夜,香港十幾萬黑幫連夜“大逃亡”,他們最后都去哪了?

1997年回歸前夜,香港十幾萬黑幫連夜“大逃亡”,他們最后都去哪了?

老杉說歷史
2026-01-13 19:14:13
不到48小時,特朗普身體傳噩耗,34國軍方高官集合,對英緊急改口

不到48小時,特朗普身體傳噩耗,34國軍方高官集合,對英緊急改口

夕陽渡史人
2026-01-27 14:35:01
做完手術(shù)人就廢了,這5種手術(shù)不需要做,別讓無知害了自己

做完手術(shù)人就廢了,這5種手術(shù)不需要做,別讓無知害了自己

華庭講美食
2026-01-19 14:27:13
烏外長:澤連斯基愿與普京會面 以解決領(lǐng)土等敏感問題

烏外長:澤連斯基愿與普京會面 以解決領(lǐng)土等敏感問題

財(cái)聯(lián)社
2026-01-28 02:36:58
郭艾倫沒想到,辭職遼寧男籃的楊鳴,原來早已給自己準(zhǔn)備好了后路

郭艾倫沒想到,辭職遼寧男籃的楊鳴,原來早已給自己準(zhǔn)備好了后路

行舟問茶
2026-01-28 03:16:53
頂流巨星:已退圈,寧肯做農(nóng)民

頂流巨星:已退圈,寧肯做農(nóng)民

視覺志
2026-01-27 10:34:11
胖改不到一年!北京知名超市突然停業(yè)了!

胖改不到一年!北京知名超市突然停業(yè)了!

大北京早知道
2026-01-27 14:13:08
李平康:賀一然加盟泰山基本差不多了,玄智健基本不可能了

李平康:賀一然加盟泰山基本差不多了,玄智健基本不可能了

懂球帝
2026-01-27 22:34:52
專家:銀價短期或跌回90美元之下

專家:銀價短期或跌回90美元之下

財(cái)聯(lián)社
2026-01-27 16:22:25
中國駐日大校王慶簡:定時以開窗為號,竟向日本傳遞了 20 年機(jī)密

中國駐日大校王慶簡:定時以開窗為號,竟向日本傳遞了 20 年機(jī)密

z千年歷史老號
2026-01-23 12:16:03
中美艦艇發(fā)生激烈對峙!外軍突然沖向解放軍,結(jié)果下一刻掉頭跑了

中美艦艇發(fā)生激烈對峙!外軍突然沖向解放軍,結(jié)果下一刻掉頭跑了

杰絲聊古今
2026-01-28 03:38:29
單親媽媽打兩份工賺的錢,被兒子偷轉(zhuǎn)1萬給爸爸,評論區(qū)直接炸鍋

單親媽媽打兩份工賺的錢,被兒子偷轉(zhuǎn)1萬給爸爸,評論區(qū)直接炸鍋

和平聲浪
2026-01-27 14:30:21
1月27日,人社部召開了發(fā)布會,有3個社保養(yǎng)老金好消息,挺重要的

1月27日,人社部召開了發(fā)布會,有3個社保養(yǎng)老金好消息,挺重要的

墨蘭史書
2026-01-27 17:25:03
主場龍客場蟲?火箭隊(duì)竟然成為了全聯(lián)盟的第一魔鬼主場!

主場龍客場蟲?火箭隊(duì)竟然成為了全聯(lián)盟的第一魔鬼主場!

田先生籃球
2026-01-27 12:39:54
2026-01-28 04:15:00
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1182文章數(shù) 18關(guān)注度
往期回顧 全部

科技要聞

馬化騰3年年會講話透露了哪些關(guān)鍵信息

頭條要聞

美報(bào)告稱中國是其19世紀(jì)以來面對過的最強(qiáng)大國家

頭條要聞

美報(bào)告稱中國是其19世紀(jì)以來面對過的最強(qiáng)大國家

體育要聞

冒充職業(yè)球員,比賽規(guī)則還和對手現(xiàn)學(xué)?

娛樂要聞

張雨綺風(fēng)波持續(xù)發(fā)酵,曝多個商務(wù)被取消

財(cái)經(jīng)要聞

多地對壟斷行業(yè)"近親繁殖"出手了

汽車要聞

標(biāo)配華為乾崑ADS 4/鴻蒙座艙5 華境S體驗(yàn)車下線

態(tài)度原創(chuàng)

健康
藝術(shù)
數(shù)碼
游戲
手機(jī)

耳石脫落為何讓人天旋地轉(zhuǎn)+惡心?

藝術(shù)要聞

震撼!19世紀(jì)油畫巨匠的作品美得不可思議!

數(shù)碼要聞

這事你怎么看 索尼與TCL簽署意向備忘錄 網(wǎng)友:Sony變Tony了

LPL春季賽:決絕讓一追二,AL三局擊潰IG,大家的排名都不變

手機(jī)要聞

蘋果連發(fā)4版系統(tǒng):從iPhone 5s到iOS 26,果粉福音來了!

無障礙瀏覽 進(jìn)入關(guān)懷版