通信拒止环境下的导弹集群多目标分配与决策方法*

丘腾海, 胡佳斌, 蒲志强, 易建强

航天控制 ›› 2022, Vol. 40 ›› Issue (6) : 30-38.

PDF(3761 KB)
2025年4月21日 星期一 Email Alert  RSS
PDF(3761 KB)
航天控制 ›› 2022, Vol. 40 ›› Issue (6) : 30-38.
智能计算与数据

通信拒止环境下的导弹集群多目标分配与决策方法*

作者信息 +

Multi-target Assignment Method for Missile Swarms in Communication Denied Environments

Author information +
文章历史 +

摘要

针对通信拒止复杂环境下的导弹集群多目标分配问题,提出一种分布式的多目标分配与决策方法。基于弹-目攻防性能指标,设计时间戳、获胜导弹、获胜投标、优势度等列表,通过一致性和拍卖阶段,优化目标分配方案,并借鉴自然界鸟群、鱼群等群居性生物的群体协同运动机制,利用“避撞-结队-聚集-攻击”集群行为规则模型(Separation Alignment Cohesion Offense,SACO),结合集群动态拓扑交互机制,建立支持不同通信拒止等级环境下的导弹集群运动决策模型,使导弹集群涌现出宏观的作战行为。仿真结果表明,本文设计的方法能够在不同通信拒止等级条件下进行多目标分配和决策,涌现出宏观的集群作战行为,并具有较好的优化性能,其计算效率相对于其他方法具有更明显的优势。

Abstract

Aiming at the problem of multi-target assignment of missile swarms under communication denied environments, a distributed multi-target assignment method is proposed. Through implementation of the consistency and auction stages, the target allocation scheme is optimized. Inspired by the swarm cooperative movement mechanism of social creatures such as flocks of birds and fishes in nature, the kinematic model of the missile swarm is established by using the separation alignment cohesion offense (SACO) swarm behavior rules and the swarm dynamic topology interaction mechanism. The missile swarm emerge macroscopic combat behaviors are being caused in different levels of communication denied environments. The simulation results show that the method designed in this paper can work out the target allocation decisions under different communication denial levels and has better optimization performance than the other methods.

关键词

导弹 / 拒止环境 / 多目标分配 / 集群协同

Key words

Missile / Denied Environments / Multi-target Assignment / Swarm collaboration

引用本文

导出引用
丘腾海 , 胡佳斌 , 蒲志强 , 易建强. 通信拒止环境下的导弹集群多目标分配与决策方法*[J]. 航天控制, 2022, 40(6): 30-38
Qiu Tenghai , Hu Jiabin , Pu Zhiqiang , Yi Jianqiang. Multi-target Assignment Method for Missile Swarms in Communication Denied Environments[J]. Aerospace Control, 2022, 40(6): 30-38
中图分类号: TP242 (机器人)   

0 引言

随着战场信息化和体系化能力的提升,作战模式由单一攻防作战扩展到多对多的集群协同对抗与博弈。美军率先提出多导弹协同作战的概念,通过导弹集群协同能够有效提高攻防能力[1]。其中,多目标分配和决策直接决定了作战体系的攻防性能,是协同对抗与博弈的关键技术之一[2]
在实际战场环境中,导弹、无人机等无人集群系统面临通信拒止等复杂环境。由于缺乏基础通信设施及存在干扰,无人集群系统在任务执行过程中可能会失去与指控中心或集群间的通信,难以获得指控中心的实时控制信息[3]。因此,具备自主、智能、协同完成任务的能力是集群协同作战的关键。
目前,针对不同的作战场景国内外研究人员提出了不同的目标分配方法,按照架构主要分为集中式和分布式[4]。集中式架构比较典型方法是将目标分配问题转换为数学规划问题,进而利用枚举法、分支定界法或整数规划来求解[5-7]。然而,这类方法随着个体数量的增加,寻优空间会急剧上升,计算耗时呈指数级增长。另外,智能优化方法由于其具有的灵活性和自适应性等特点,在复杂目标分配和决策中具有较大优势,如粒子群算法(PSO)通过单个粒子运动和整体最优位置记忆和学习[8],在搜索空间中朝最优方向运动,与遗传算法相比[9],具有更高的计算效率,但容易陷入局部最优,全局搜索能力较弱[10]。此外,具有自学习能力的强化学习方法通过构建仿真环境训练得到最优分配解,但训练难度较大,耗时较长,很难用于高动态复杂环境战场场景下的目标分配[11-12]。复杂的拒止作战环境对决策的实时性和最优性提出较高的需求,集中式分配方法普遍存在计算效率、自主性和多次决策性等不足。相比于集中式架构,分布式架构结构灵活,可扩展性和鲁棒性强,能够用于多节点动态变化的环境[13]。分布式方法主要有组合拍卖、合同网协议等市场算法和完全分布式的智能算法。合同网协议将参与方分为发布者和竞标者,通过招标、投标、中标和确认等步骤完成整个目标竞拍分配。经典的拍卖算法包括一致性包算法(Consensus Based Bundle Algorithm,CBBA),遵循价高者得的原则,将目标分配给出价最高的竞拍者[14]。但市场算法更多针对一个导弹对一个目标的分配优化,无法处理多个导弹同时打击一个目标的分配问题[15]。然而,在实际作战环境中,受复杂环境、作战意图和目标防御能力等影响,导弹打击目标时存在突防成功率的问题,为保证打击任务成功率,需要考虑多个导弹打击一个目标的优化分配方案。而且,通信拒止环境中的通信拓扑网络结构存在动态复杂不确定性,现有方法无法有效解决实时在线的多个导弹打击一个目标的分配和决策问题。
因此,本文针对通信拒止环境中多导弹多目标的集群对抗目标分配与决策问题开展研究,通过构建导弹集群与目标的攻防性能指标,提出扩展的一致性拍卖 (Advanced Consensus Based Auction Algorithm, ACBAA)目标分配模型,引入考虑通信拒止环境中的先验知识,设计集群行为规则模型,计算多个导弹打击多个目标的分配方案和导弹集群的运动方案,通过仿真实验验证了所设计算法和模型的有效性。本文贡献主要有两点: 1)针对通信拒止环境下的集群对抗多目标分配问题,提出了ACBAA多导弹对一个目标的分配算法; 2)建立了通信拒止环境下的集群运动决策模型。

1 基于ACBAA算法的目标分配方法

在通信拒止环境下,导弹与地面指挥站基本无法通信,导弹之间无法实时传输大量感知、控制等数据,仅能以较低频率广播少量观测信息。然而,广播通信不可靠,通常以能正常通信的导弹个数反映环境的通信拒止程度。70%以上的导弹之间无法正常通信称为强拒止,40%~70%的导弹之间无法正常通信称为中拒止,40%以下的导弹之间无法正常通信称为低拒止。在不同程度拒止环境下,每一时刻能够正常通信的导弹个数不同,且一旦建立通信连接,通信拓扑图可保持Δt时刻,之后将重新建立新的通信拓扑。CBAA算法主要考虑一对一的目标分配, 在多导弹共同选择同一目标的场景时具有局限性。本文提出了ACBAA算法,旨在解决通信拒止环境下的导弹多目标分配问题。

1.1 攻防性能指标

本文以拒止环境下多个导弹协同打击目标为背景,基于文献[12]构建的性能指标,对导弹攻击性能进行评估,包括由弹目相对角度指标、相对距离指标和相对速度指标组成的攻击性能指标,以及考虑突防概率的毁伤性能指标等。导弹发射前,在竞拍阶段考虑目标收益值和自身消耗的关系,当分配的目标收益值小于自身价值损耗,则可以终止目标选择。而在导弹发射过程中,由于其不可取消的特点,其自身消耗已成为固定成本。本文将攻击性能指标和毁伤性能指标相结合,作为综合效费性能指标,对目标分配方案进行评估。综合效费性能指标如下:
maxJt=J1,a+Jo,d=i=1NMj=1NT(SijXij)+j=1NTSjt(1-i=1NMXij(1-Pij)) Pij0
(1)
式中, J1,a为攻击性能指标, NMNT分别为导弹与目标的数量, Sij为导弹 i对目标 j的量化综合攻击优势度, Xij为导弹对目标的分配矩阵中的元素; Jo,d为毁伤性能指标, Sjtj个目标的价值, Pij为导弹 i对目标 j的突防概率, Pij[0,1],取决于当前导弹和目标的位置以及目标的种类等。

1.2 关键算法要素

在ACBAA算法中,首先明确定义导弹i目标分配信息的关键要素:
1)时间戳列表 si
时间戳列表 si{si1,,sij,,siNM},是目标分配冲突消解阶段的重要指标,用于记录导弹 i获得其他邻居导弹分配信息的更新时刻,表征导弹从其他导弹获得信息的新旧程度。式中 sij表示导弹 i获取到导弹 j最新信息的时刻,通过有限范围的通信传输共享。对每个导弹来说,导弹自身最新消息的更新时间大于等于其他导弹得知该导弹最新消息的时间,即:
siisji, j
(2)
2)获胜导弹列表 Zi
获胜导弹列表Zi{Zi1,Zi2,…, ZiNM},用于记录邻居导弹投标的目标编号,式中Zij=k表示导弹i获取到的导弹j在第sij时刻投标的目标编号是k。当导弹i获知到导弹j没有投标目标时,Zij=100。
3)获胜投标列表Yi
获胜投标列表Yi{Yi1,Yi2,…, YiNT},用于记录导弹i视角下各目标的投标对象导弹编号,列表中的值与列表Zi中的值一一对应,即Yik=j表示在导弹i视角下目标k的投标对象导弹编号为j,且与时间戳列表si一致。当导弹i获知到目标k没有投标目标时,Yik=100。
4)分配列表xi
分配列表xi{xi1,xi2,…, xiNT},用于记录导弹i到目标的投标策略,当xik=1时表示导弹i对目标k进行投标,当xik=0时表示导弹i不对目标k进行投标。
5)优势度列表Si
优势度列表Si{Si1,Si2,…, SiNT}是基于攻击性能指标构建的,用于记录导弹i对各目标的优势,Sik为导弹i对目标k的量化攻击优势度。
6)总收益列表Ci
总收益列表Ci{Ci1,…,Cik,…, CiNT}用于记录导弹i对目标的综合收益,包括攻击性能和毁伤性能,其中Cik表示导弹i对目标k的收益,其值为攻击性能与毁伤性能加权求和,即
Cik=Sik+SktPik
(3)
式中, Siki对于目标 k的量化攻击性能指标, Skt为第 k个目标的价值, Piki对目标 k的突防概率。

1.3 算法模型求解

ACBAA算法主要分为2个阶段: 一致性阶段和拍卖阶段,拍卖阶段依赖于一致性阶段提供的其他导弹的最新消息进行投标。在一致性阶段,导弹通过通信拓扑网络传递竞标信息,并根据一致性法则,消除目标分配冲突。在拍卖阶段,导弹判断自身是否已分配目标,若未分配,则按照一定规则进行竞标,为自身分配目标。
下面以某一轮竞拍中,第 i枚导弹的第 t次迭代为例,详细介绍ACBAA算法中的一致性阶段和拍卖阶段。
1)一致性阶段
导弹 i通过时间戳列表 si来确定接收到的其他导弹的最新信息。每当导弹 i与导弹 l建立通信连接,除获取导弹 l自身的信息外,还可通过导弹 l更新导弹 k的最新信息, 对导弹 i的时间戳列表和其他信息进行替换。若导弹 l关于导弹 k的时间戳大于导弹 i关于导弹 k的时间戳,说明导弹 l获取的导弹 k的信息新鲜度更高,则进行如下更新:
sik(t)=slk,sik(t-1)slksik(t-1),sik(t-1)>slk
(4)
Zik(t)=Zlk,sik(t-1)slkZik(t-1),sik(t-1)>slk
(5)
导弹 i对可通信范围内的所有导弹完成信息交互,对自身时间戳列表 si获胜导弹列表 Zi自身获胜投标值列表 Yi进行更新。
假设导弹i当前的自身竞选目标为m,即Zii=m。如果自身竞选目标的竞标对象导弹没有发生改变,即 Yim(t-1)=Yim(t),则导弹 i的竞选目标不发生改变。反之,若 Yim(t-1)Yim(t),则导弹 i退出当前竞选目标,即:
xim(t)=0,sii(t)=,Zii(t)=100
2)拍卖阶段
在拍卖阶段,导弹 i先判断自身是否已经分配目标,若已分配目标即 xi0,跳过该阶段;否则,计算导弹 i对目标 k的竞争收益 Pikr,i为目标 k的所有竞选导弹中的最大收益的导弹时,其竞争收益为其收益本身;若导弹 i不为该竞选目标的最大收益时,其竞争收益为导弹 i的自身优势度和目标 k的剩余价值之和。
Pikr=Cik,CikCjk forjYikSik+Stk·P¯ik,Other
(6)
式中, k=1,2,,NT,Cik,Cjk分别表示导弹 i和导弹 j对目标 k的综合收益, Sik为导弹 i对目标 k的量化综合攻击优势度, Stkk,P¯ik表示在其他导弹对目标 k进行打击时,导弹 i对于目标 k的命中概率, Stk·P¯ik表示目标 k的剩余价值,其物理意义为:假定其他导弹对目标 k竞选时,导弹 i攻击该目标所增加的收益。
P¯ik=Pik·(1-j=1, ifCik<CjkL(Yik)(1-PYik[j])) Pik0
(7)
式中, Pik为不考虑其他导弹对目标 k的打击时,导弹 i对目标 k的命中概率, PYik[j]表示导弹 i获取的目标 k的竞选导弹 j的命中概率。为避免竞选冲突,该过程仅选用综合收益大于导弹 i的导弹,即采用所有满足 Cjk>Cik,jYik的导弹 j对于目标 k的命中概率。
于是,导弹i从中选择竞争收益最大的目标k*:
k*=argmaxkhik·Pikr
(8)
hik=(Pikr>0)
(9)
式中, k=1,2,,NT,hik表示导弹 i的有效目标列表,􀱉(·)为指示函数,当括号的内容为真时,其值为1,否则为0。若导弹 i对目标k*的竞争收益 Pik*r0,则更新其分配列表、时间戳列表以及获胜导弹列表:
xik*(t)=1,sii(t)=,Zii(t)=k*
(10)
上述一致性和拍卖过程不断迭代,直到所有导弹的获胜导弹列表均不再发生变化,视为本轮竞拍结束,得到本轮目标分配方案及相应的总收益。ACBAA算法的流程如图1所示。
图1 ACBAA算法流程图

Full size|PPT slide

此外,针对不同通信拒止等级条件下导弹集群的动态通信拓扑交互特征,为增强基于ACBAA的分配能力,设计通信拒止环境下的导弹集群协同交互规则:
1)在导弹感知范围和通信范围内,导弹可更新其他导弹对于目标的收益;
2)若导弹 j在导弹 i的感知范围,但不在通信连通范围内,则假定导弹 j的分配结果与上一轮相同,对于各目标的收益则采用最新的数据;
3)若导弹 j不在导弹 i的感知范围和通信连通范围内,则导弹 j在本轮目标分配过程中,导弹 j对于各目标的收益和分配的目标与上一轮相同。

2 基于SACO的集群运动决策方法

根据目标分配方案,导弹朝各自所分配的目标运动,本文借鉴自然界鸟群、鱼群等群居性生物的集群协同机动方法,在有限感知和机动能力条件下,基于经典生物集群行为规则“避撞-结队-聚集”(Separation Alignment Cohesion,SAC)[16],引入导弹的攻击行为(Offense),建立导弹运动行为规则SACO,以及通信拒止环境下的导弹集群协同交互规则,使导弹集群涌现出宏观的作战行为。
1)避撞(Separation)
uir=jNicgr(dij)x^ij
(11)
式中, dij为导弹 i与导弹 j之间的距离。 gr(dij)为斥力函数。 x^ij=(xi-xj)/xi-xj表示由导弹 j指向导弹 i的单位向量。
2)结队(Alignment)
uiv=-κvvi-1NicjNicvj
(12)
式中, κv>0为速度协同力控制增益, Nic为导弹 i的邻居导弹数量。
3)聚集(Cohesion)
uia=-jNicga(dij)x^ij
(13)
式中, ga(dij)为引力函数。
4)攻击(Offense)
uio=κo·xb-xixb-xi
(14)
式中, κo>0为攻击导航力控制增益, xb为所分配目标的位置。
根据所设计的SACO行为规则,计算单个导弹运动决策控制量如下:
ui=uir+uiv+uia+uio-ξvi2vi
(15)
式中,ui为导弹的控制向量,-ξ vi2vi表示摩擦力。

3 仿真校验

为验证本文所提方法的有效性,分别设计了针对基于ACBAA目标分配和SACO集群运动决策的实验,在配置酷睿i7-8750H@2.20GHz CPU和 Python3.8的计算机上进行仿真验证。

3.1 基于ACBAA算法的目标分配仿真

假定导弹数对目标数以15对10为例,验证ACBAA算法的有效性。仿真实验中导弹和目标的初始态势如表1表2所示。其中,XYZ分别为地面坐标下的三维坐标,单位为km,V为导弹飞行速度,单位m/s; γ为导弹速度倾斜角,为导弹速度方向与水平面的夹角(向上为正,向下为负),γ∈[-π/2,π/2],单位rad; ψ为导弹速度方位角,为飞机速度矢量在水平投影与正北的夹角,ψ∈[-π,π],单位是rad。考虑到导弹实际性能的限制, V的范围为Ma6~10,过载的范围为[-10, 10]。
表1 导弹初始态势表
编号 X/km Y/km Z/km 速度/(m·s-1) 仰角φ/rad 方位角α/rad 过载
0 16.22 14.88 19.8 2635.22 -0.05 -0.51 -3.75
1 24.33 21.6 15.26 2984.38 0.88 2.82 6.7
2 19.62 12.68 24.43 2566.98 0.92 -1.19 9.9
3 25.02 17.05 20.42 2181.59 -1.1 -3.13 -9.28
4 12.14 19.64 24.01 3080.05 0.48 -1.54 -2.78
5 21.46 20.58 20.91 2610.03 1.18 0.21 -8.88
6 16.93 13.14 20 2114.93 -0.83 -2.33 2.62
7 27.44 11.25 23.37 2916.77 -0.47 1.74 9.07
8 29.83 21.71 15.91 2725.92 0.02 -2.18 -0.56
9 11.34 14.88 17.95 3280.83 0.05 1.04 6.64
10 16.21 18.55 20.36 2546.41 0.69 -0.41 -2.9
11 28.87 23.92 18.89 2090.56 -0.01 -3.01 9.31
12 28.45 19.47 19.94 3266.46 1.42 1.94 0.85
13 12.96 14.76 22.77 3264.4 -1.26 -1.48 -6.35
14 17.12 29.23 22.23 2538.05 1.04 -2.67 2.12
表2 目标初始态势表
编号 X/km Y/km Z/km 速度/(m·s-1) 仰角/rad 方位角/rad 体积 价值
0 -8.44 -17.43 0 25 0 -2.22 1 1
1 -34.22 -7.2 0 10 0 1.64 4 4
2 -26.97 -34.09 0 22 0 -0.44 1.2 1.2
3 -9.15 -22.16 0 22 0 -2.62 1.2 1.2
4 -11.33 -22.66 0 20 0 -0.15 1.5 2
5 -22.55 -25.58 0 20 0 0.12 1.5 2
6 -15.64 -30.6 0 25 0 -0.84 1 1
7 -33.13 -12.7 0 10 0 2.21 4 4
8 -11.21 -8.04 0 22 0 0.86 1.2 1.2
9 -18.66 -34.72 0 25 0 2.13 1 1
在综合攻击优势度评估中,距离优势模型中的R0=30km,过载优势模型中的n0=8,各项的加权系数分别为:kθ=0.2,kσ=0.2, kr=0.2, kn=0.4。
在目标威胁建模中,设置式中的Vt0=10m/s,加权系数为kΓ=0.6,kv=0.4。导弹探测感知范围为100km,通信距离为200km。
根据所得到的优势度拒止,在无通信拒止环境下,基于CBAA算法和ACBAA算法得到目标分配方案如图2图3所示,可以看出基于CBAA算法的目标结果会出现部分导弹未分配目标的情况,分配收益为10.51,这是由于CBAA算法本身是一对一的目标分配方式。而采用本文所设计的ACBAA算法,可以实现多目标分配的结果,分配收益为12.18,提高了最终的分配收益。
图2 CBAA算法无拒止环境下目标分配

Full size|PPT slide

图3 ACBAA算法无拒止环境下目标分配

Full size|PPT slide

导弹间的通信连通强度可利用通信拓扑图G的拉普拉斯矩阵第二小特征值 λ2表示[17-18],当该值越大,拓扑图的连通强度越大,当该值为0时表示该图不连通。根据该值可以得到在不同通信拒止情况下,导弹连通情况。图4为在不同拒止程度环境下,每个拒止等级条件下重复100次不同连通情况的平均连通值,由该图可知,当拒止程度达到85%时,出现导弹间通信完全不连通的情况。
图4 不同通信拒止程度下导弹间的连通情况

Full size|PPT slide

为进一步说明算法的有效性,本文基于CBAA算法和ACBAA算法在不同通信拒止程度下分配所花费时间和平均收益如图5所示。图5(a)表明,ACBAA算法进行目标分配所需时间普遍小于CBAA算法。图5(b)表明,在中低通信拒止环境下,ACBAA算法的目标分配结果平均收益多于CBAA算法的目标分配结果平均收益,这验证了ACBAA算法的有效性。在90%以上的导弹无法通信的强通信拒止环境下,导弹间的协同很难完成,CBAA和ACBAA算法在竞拍时都会倾向选择各自最大收益的目标,缺乏一致性消除冲突的阶段,因此最终目标分配的结果也会倾向一致,分配收益几乎没有差别。
图5 不同拒止程度下目标分配的平均运算时间和收益

Full size|PPT slide

此外,在不同通信拒止程度下进行蒙特卡罗仿真实验,在同样参数配置条件下,基于ACBAA算法连续仿真100次实验,目标分配收益分布如图6所示。由图6可以看出,无拒止环境(0%)和弱拒止环境下(≤40%),由于各导弹间的通信连通情况较好,拒止程度对ACBAA算法的影响较小,均能获得比较高的分配收益;在强拒止环境下(≥70%),ACBAA算法结果受到的影响较大,得到的目标分配收益比较小;在完全拒止条件下(100%),分配收益结果为9.37,相较于无拒止环境分配结果,其收益衰减不到30%,证明ACBAA算法在拒止环境下运行的有效性。
图6 不同拒止等级环境下目标分配收益

Full size|PPT slide

3.2 基于SACO规则的集群运动仿真实验

集群运动模型中的系统参数设置为斥力范围lr=50,引力范围la=50,斥力Cr= 100,引力Ca= 100,速度协同力控制增益κv=0.4,攻击导航力控制增益κo=80,阻尼ξ=0.000035,最大加速度amax=10g,感知范围为100km。仿真实验时间间隔为2s,总循环次数2000。图7展示了在不同拒止环境下导弹的运行轨迹图,验证了ACBAA算法在不同拒止环境基于SACO规则的集群运动的可行性。
图7 不同拒止程度下导弹的运动轨迹

Full size|PPT slide

图8展示了在不同拒止环境下,导弹从起始点到目标的分配收益变化图。由图可以看出在弱拒止环境和无拒止环境下,先验知识对基于SACO规则的集群运动收益没有产生明显的影响,但在强拒止环境下,先验知识和感知范围可以对集群运动过程的收益产生显著的影响,使收益更加稳定。
图8 在不同拒止环境下的导弹的收益变化

Full size|PPT slide

4 结论

针对通信拒止复杂环境下的导弹集群多目标分配问题,提出一种分布式的ACBAA多目标分配和决策方法。通过一致性和拍卖阶段,优化目标分配方案,并建立通信拒止环境下的通信先验知识和集群行为规则模型,支持不同通信拒止等级环境下的导弹集群运动。仿真结果表明,本文设计的方法能够实现不同通信拒止等级条件下的目标分配决策,具有较好的优化性能,其计算效率相对于其他方法具有更明显的优势。

参考文献

[1]
商巍, 赵涛, 环夏, 等. 导弹武器系统协同作战研究[J]. 战术导弹技术. 2018 (2): 31-35.
(Shang Wei, Zhao Tao, Huan Xia, et al. Research on cooperative operation of missile weapon system[J]. Tactical Missile Technology. 2018 (2): 31-35.)
[2]
任章, 郭栋, 董希旺, 等. 飞行器集群协同制导控制方法及应用研究[J]. 导航定位与授时. 2019, 6(5): 1-9.
(Ren Zhang, Guo Dong, Dong Xiwang. Research on cooperative guidance control method and application of aerial vehicle swarm system[J]. Navigation Positioning and Timing. 2019, 6(5): 1-9.)
[3]
李磊, 王彤, 胡勤莲, 等. DARPA 拒止环境中协同作战项目白军网络研究[J]. 航天电子对抗. 2018, 34(6): 54-59.
(Li Lei, Wang Tong, Hu Qinlian, et al. White force network in DARPA CODE program[J]. Aerospace Electronic Warfare. 2018, 34(6): 54-59.)
[4]
张贇, 邱忠宇, 蔡云泽. 基于偏好联盟博弈的导弹集群分布式任务分配模型[J]. 空天防御. 2021, 4(3): 24-32.
(Zhang Yun, Qiu Zhongyu, Cai Yunze. Distributed task assignment model of missile swarm based on hedonic coalition games[J]. Air & Space Defense. 2021, 4(3): 24-32.)
[5]
Zhao M, Zhao L L, Su X H, et al. Improved discrete mapping differential evolution for multi-unmanned aerial vehicles cooperative multi-targets assignment under unified model[J]. International Journal of Machine Learning and Cybernetics. 2017, 8(3): 765-780.
[6]
ding Y F, yang L Q, Hou J Y, et al. Multi-target collaborative combat Decision-Making by improved particle swarm optimizer[J]. Transactions of Nanjing University of Aeronautics and Astronautics. 2018, 35(1): 181-187.
[7]
范云锋, 惠轶, 邱令存. 网络化防空作战目标分配方法研究[J]. 航天控制. 2013, 31(6): 82-86.
(Fan Yunfeng, Hui Yi, Qiu Lingcun. Study on target assignment for network air defense operation[J]. Aerospace Control. 2013, 31(6): 82-86.)
[8]
黄勇, 李小将, 张东来, 等. 分布式卫星系统在轨操作的多目标分配[J]. 宇航学报. 2013, 34(11):1475- 1482.
(Huang Yong, Li Xiaojiang, Zhang Donglai, et al. A multi-target assignment method for on-orbit operation of distributed statellites system[J]. Journal of Astronautics. 2013, 34(11): 1475-1482.)
[9]
陈菲, 路长厚, 潘伟, 等. 微型卫星集群系统协同任务下的目标分配研究[J]. 宇航学报. 2010, 31(5): 1374-1380.
(Chen Fei, Lu Changhou, Pan Wei, et al. Research on target assignment in collaborative task of micro-statellite system[J]. Journal of Astronautics. 2010, 31(5): 1374-1380.)
[10]
Wang F, Zhang H, Zhou A M. A particle swarm optimization algorithm for mixed-variable optimization problems[J]. Swarm and Evolutionary Computation. 2021, 60: 100808.
[11]
Haksar R N, Schwager M. Distributed deep reinforcement learning for fighting forest fires with a network of aerial robots[C]. Proceedings of the 2018 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), Madrid, Spain, IEEE, October 01-05, 2018:1067-1074.
[12]
朱建文, 赵长见, 李小平, 等. 基于强化学习的集群多目标分配与智能决策方法[J]. 兵工学报. 2021, 42(9): 2040-2048.
(Zhu Jianwen, Zhao Changjian, Li Xiaoping, et al. Multi-target assignment and intelligent decision based on reinforcement learning[J]. Acta Armamentarii. 2021, 42(9): 2040-2048.)
A reinforcement learning-based swarm intelligent decision-making method of cooperative multi-target attack under high-dynamic situation is proposed. The composite evaluation criteria of attack performance is established, including the evaluation of attack superiority based on relative motion information and the threat evaluation based on the inherent information of target. To evaluate the attack-defence effectiveness, a cost-effectiveness ratio index is designed by combining attack performance, penetration probability and attack cost together. In addition, a multi-target decision-making architecture based on reinforcement learning is constructed, and an action space with allocation vectors as basic elements and a state space based on quantified performance indicators are designed. Q-Learning is employed to make intelligent decisions on cooperative attack plans, including missile selection and target assignment. The simulated results show that reinforcement learning can achieve multi-target online decision-making with the optimal offensive and defensive effectiveness, and its computational efficiency has more obvious advantages than that of particle swarm optimizer.
[13]
杨秀霞, 周硙硙, 罗超, 等. 反舰导弹智能化作战在线任务分配研究[J]. 导航定位与授时. 2016, 3(4): 38-41.
(Yang Xiuxia, Zhou Weiwei, Luo Chao, Anti-ship missile intelligent on-line operational task assignment[J]. Navigation Positioning and Timing. 2016, 3(4): 38-41.)
[14]
Hunt S, Meng Q G, Hinde C J. An extension of the consensus-based bundle algorithm for multi-agent tasks with task based requirements[C]. Proceedings of the 2012 11th International Conference on Machine Learning and Applications, Boca Raton, FL, USA, December 12-15, 2012, 2:451-456.
[15]
廖沫, 刘洋, 莫文骥, 等. 战术导弹协同任务规划研究[J]. 航天控制. 2016, 34(4): 70-75.
(Liao Mo, Liu Yang, Mo Wenji, et al. Study on coordinated mission planning technology of tactical missile[J]. Aerospace Control. 2016, 34(4): 70-75.)
[16]
邢冬静. 无人机集群作战自主任务规划方法研究[D]. 南京: 南京航空航天大学, 2019.
(Xing Dongjing. Autonomous mission planning method for unmanned aerial vehicle swarm operations[D]. Nanjing: Nanjing University of Aeronautics and Astronautics, 2019.)
[17]
Yang P, Freeman R A, Gordon G J, et al. Decentralized estimation and control of graph connectivity for mobile sensor networks[J]. Automatica. 2010, 46(2): 390-396.
[18]
Zavlanos M M, Pappas G J. Distributed connectivity control of mobile networks[J]. IEEE Transactions on Robotics. 2008, 24(6): 1416-1428.

基金

* 科技部科技创新2030“新一代人工智能”重大项目2018年度项目(2018AAA0102400)
国家自然科学基金(62073323)
PDF(3761 KB)

520

Accesses

0

Citation

Detail

段落导航
相关文章

/