对抗环境下的多无人机编队方法和队形变换研究

肖雁冰张迎周（导）南京邮电大学
标签（空格分隔）：论文阅读

摘要
??在无人机功能有限的今天，面对日趋复杂的作战任务、无法预测的作战环境，单一无人机所拥有的性能逐渐无法满足作战要求，无人机更多地以多机协同作战的方式执行综合性任务。多无人机编队是多无人机系统的重要组成部分，是任务分配、路径规划等工作的前提，但在目前高对抗的动态环境中也受到了巨大的挑战，主要包括：
（1）以现有编队方法构建的多无人机编队在队形稳定性和队形变换自主性两方面无法同时得到满足。
（2）当编队队形受到影响需要调整时，编队变换的速度不够快，变换时的飞行路径重叠，飞行距离过长。
??针对这两个多无人机编队领域的问题，本文所作的主要工作如下。首先，本文研究了经典的多无人机编队方法，融合了长机-僚机法和虚拟结构法的部分特点，**提出了一种改进的长机-僚机法。该方法使用改进后的人工势场算法为多无人机编队提供基本的编队控制；引入分布式一致性算法的思想构建编队，为多无人机系统的信息一致性提供保证。保留实体长机作为决策中心，减少编队对于地面控制中心的依赖，提高无人机编队的自主性；预备多架实体长机，形成多核心的编队模式，提高无人机编队的安全性。**通过应用上述的多无人机编队方法，解决对抗环境下多无人机编队稳定性和队形变换自主性无法同时满足的问题。其次，本文选用多智能体强化学习算法，融入启发式函数，提出了一种改进启发式强化学习算法，用于解决多无人机队形变换问题。该算法借助适用于编队变换的启发式反向传播算法，提高强化学习的收敛效率。结合模拟退火相关方法改进强化学习中的动作选择策略，使得强化学习算法能够以更快的速度获得优质的解。通过上述的强化学习算法，解决对抗环境下多无人机队形变换效率低的问题。最后，本文利用虚拟化和分布式系统相关技术实现多无人机编队的仿真模拟实验。仿真实验表明：改进的长机-僚机编队方法满足作战任务需求，并在稳定性和自主性方面具有优越性；改进的启发式强化学习算法高效地解决队形变换问题，为多无人机编队在队形变换时提供安全、优质的飞行路径。

关键词: 多无人机编队、队形变换、分布式一致性算法、强化学习

一、研究现状探究

1.1、多无人机编队方法问题的研究现状

构建多无人机系统执行作战任务的过程包括：分析建模、组建编队、任务分配、路径分配、执行任务，当遇到突发威胁或者任务发生改变时还有队形变换等步骤。

?? 其中多无人机的编队方法始终作为基础支撑起来整个任务。

多无人机编队控制策略：集中式控制策略和分布式控制策略
**集中式控制策略：**集中式控制策略要求无人机编队中至少存在一架无人机能够知晓所有无人机的飞行状态信息，根据这些信息，规划出所有无人机的飞行策略，从而完成作战任务。集中式控制策略的优点是实现简单、理论完备；缺点是缺乏灵活性、容错性，编队内通信压力大。
**分布式控制策略：**分布式控制策略不要求编队中存在知晓所有飞行状态信息的无人机，只需知晓邻近无人机的状态信息便可完成编队控制。分布式控制策略的优点是降低了对无人机通讯能力的要求，提高了编队的灵活性；缺点是实现较为困难且编队受到干扰可能会变大。

1.2、多无人机编队重构与队形变换问题的研究现状

多无人机编队重构和队形变换:机群在执行任务的过程中，由于已完成部分任务或因突发状况导致机群改变原定任务目标或者改变原定的编队结构。

??在进行多无人机编队重构与队形变换的过程中，需要为每架无人机重新制定在编队中的新位置，并为每架无人机生成从原来的编队位置到新编队位置的飞行轨迹。

这些飞行轨迹必须以无人机的安全飞行为前提，同时满足无人机的动力学特征、物理约束条件等客观约束条件。无人机的编队重构与队形变换是无人机编队控制方向的重要研究内容之一，它是在动态环境中对上一小节中介绍的无人机编队方法进行调整，实现无人机之间的互相支援与补充，从而使得多无人机编队适应动态环境中的变化，解决动态环境中的各种威胁，确保多无人机编队最终顺利且高效地完成任务。多无人机编队重构与队形变换方向的研究起步较晚，但仍然取得了不少的成果；同时，与多无人机的路径规划相比，虽然编队重构与队形变换侧重的方向不同，但路径规划方向的研究成果仍然有不少的参考价值。

1.3、研究内容及创新点

当前方法不足之处：
（1）现有的多无人机编队方法，如长机-僚机法、虚拟结构法、行为控制法等，无法在复杂的对抗环境下同时满足编队稳定性与队形变换自主性；
（2）现有的多无人机队形变换算法在环境未知或部分未知的情况下执行和收敛的速率较低。
本文主要研究内容：
（1）利用分布式一致性算法对传统的无人机编队方法进行改造，使其同时满足编队稳定性和队形变换自主性；
（2）利用融合了启发式思想的强化学习算法，完成多无人机的队形变换并提高其收敛的速率；
（3）利用虚拟化等相关技术实现多无人机编队的仿真模拟实验。
创新点：
（1）提出了一种基于改进的长机-僚机法的多无人机编队方法。本文以长机-僚机法和虚拟结构法的建模思路为基础，考虑到在对抗环境下无人机机群自主性，将二者融合：保留长机作为通信和决策中心，保留虚拟领航无人机作为编队中心和队形支点。从比例控制器的设计思路中得到启发改进传统人工势场算法中的势场函数，提升人工势场算法的控制效果，将改进后的人工势场算法作为整个无人机编队的队形控制算法。同时提出冗余Leader 的概念，防止在对抗环境下因长机（Leader）发生故障而导致编队瓦解任务失败的情况发生，保障任务的顺利执行。
（2）提出了一种基于改进启发式强化学习算法的多无人机队形变换方法。当多无人机编队已完成部分任务或任务因故发生改变时，无人机机群将可能需要处理队形变换问题。本文以多智能体强化学习算法为基础，引入启发式函数，利用多智能体启发式强化学习解决多无人机编队在未知或部分未知的复杂环境下的队形变换问题，提高强化学习的求解速度。同时融合模拟退火的相关概念，改进动作选择函数，通过对比实验选用合适的初始温度和温控函数，解决在强化学习算法执行过程中出现的“探索”和“利用”的平衡问题，有效提高最终解的质量。
（3）应用虚拟化和分布式相关技术实现多无人机编队的飞行模拟。传统的无人机编队模拟实验主要有两种方式，一种是以使用 Matlab 等编程语言为主的软件仿真模拟；另一种是以小型无人飞行器、无人车等实体设备进行的测试实验。前者往往采用中心化的思想构建实验，实验的结果与真实应用场景下的效果差距较大；后者虽然实验效果较好且具有不错的实践价值，但需要负担较高的实验成本，且难以进行大规模实验训练。本文使用 Docker 和 Zookeeper技术搭建多无人机系统，在单台计算机中便可设置多个节点模拟无人机编队飞行过程。

二、背景知识

2.1、多无人机编队方法

多无人机的编队协同包含了无人机集群编队的保持和编队的变换。其中编队的保持是指：机群中的无人机保持相对位置不变；编队的变换是指：无人机在接收到某些信号后迅速地做出队形的改变。为了实现多无人机的协同作战必须保证多无人机机群存在一个安全、可靠且高效的编队方法。国内外现存的各类编队方法，从无人机的编队控制原理角度出发，可以将其大致分为集中式控制方法和分布式控制方法两大类。除此以外，多无人机编队控制方法又可以通过以下三种主要模式进行实现：长机-僚机法、虚拟结构法和行为控制法。

2.11、长机-僚机法

从控制原理的角度来看属于集中式控制方法。长机-僚机法是目前多无人机编队控制中最常被使用的方法。
长机-僚机法的优点：模型简单、直观，易理解，易实现，而且体系稳定成熟。
长机-僚机法的缺点：第一，应用长机-僚机法的无人机系统过于依赖长机，当长机发生故障，整个系统将失效，导致任务失败；第二，长机-僚机法存在误差传导的问题，在某些控制策略下，僚机和僚机之间存在关联，与长机相邻的僚机所产生的误差将叠加到与长机较远的僚机上。

2.12、虚拟结构法

虚拟结构法从控制原理的角度来看同样属于集中式的控制方法。虚拟结构法最早由 Anthony Lewis M 提出。在应用了虚拟结构法的无人机编队中并没有指一架被指定的无人机作为长机，而是将多无人机机群当作一个统一的虚拟刚体。无人机编队设定一个虚拟的几何中心，编队中的所有无人机按照某种控制策略和队形，参照这一虚拟几何中心编队飞行并执行任务。虚拟法的优点：解除了长机-僚机法中对于长机的依赖，同时也解决了误差传导问题，使得编队控制的精度提高。
虚拟法的缺点：该方法是一种集中控制方法，对系统的通信能力要求较高，且无法发挥出无人机的自主性。在紧急的作战环境中，无人机依然需要将情况反馈给控制中心后才能做出反应，存在延迟。

2.13、行为控制法

行为控制法从控制原理的角度来看属于分布式控制方法。应用行为控制法的多无人机编队将整个机群分解成多个子系统，每一个子系统中设定了几种经过计算并通过数学表达式定义的基本行为控制方法，如队形组合、躲避障碍等。子系统中的无人机可以通过局部的信息交互并利用基本行为控制方法达到编队的目的。
行为控制法的优点:编队的适应性强，编队中的无人机碰撞避免易于实现。
行为控制法的缺点:子系统的行为定义困难，设计复杂。

2.2、强化学习

强化学习是一种涉及计算机科学、仿生学、统计学等多个领域的综合性科学思想。

2.21、基本概念

强化学习(Reinforcement Learning,RL)，又被称为再励学习或评价学习，是隶属于机器学习但有别于传统机器学习的重要概念。强化学习独特思想在于强调不仅利用已有的数据，还利用通过对环境的探索获得的新数据，并将这些新数据循环往复地更新迭代到当前模型中。在强化学习中，学习是为了更好地对环境进行探索，而探索则是为了获取数据进行更好的学习。强化学习的思想最早可以被追溯到巴甫洛夫与狗的经典条件反射实验，并在 1957 年，由美国学者 Richard Bellman 总结出了强化学习的核心模型——马尔可夫决策过程(Markov Decision Process, MDP)。

2.22、马尔科夫决策过程

马尔可夫决策过程是一个无记忆的随机过程，每一个状态包含了所有的历史信息，即当前做出的决策仅与上一个状态有关。马尔可夫决策过程通常由一个四元组构成： $M = M= 。其中 S S 代表了有限空间中的状态集合（states）； A A 代表了有限空间中的动作集合（actions）; P s a P_{sa} 代表了状态转移的概率集合，即在当前 $s∈S $的状态下，选择行动 $a∈A 后会转移到其他状态的概率；后会转移到其他状态的概率； R$ 代表了回报函数，通常情况下它是一个与状态和动作相关的函数可以表示为 r ( s , a ) r(s,a) 。 R s a = E [ ∑ k = 0 ∞ γ k r k + 1 ∣ S = s , A = a ] (1) R_{s a}=Eleft[sum_{k=0}^{infty} gamma^{k} r_{k+1} mid S=s, A=aright]tag{1} 其中 γ γ 是折扣因子，取值在 0 到 1之间，使越靠后的回报对回报函数的影响越小，模拟出了未来回报的不确定性，同时使得回报函数有界。$

2.23、Q-Learning和SARSA

Q-Learning 算法是一种更勇敢、贪婪的算法，它唯一的目标就是最大化 Q 值；而 SARSA则是一种相对胆小、保守的算法，它也能不断地想着目标进发，但它也对错误和死亡更敏感，更在乎每一次的决策。

2.24 多智能体强化学习

标准的强化学习算法主要包含四大要素，分别是：环境、状态、动作和值函数，通过构建数学模型，如马尔可夫决策过程，解决问题。目前针对单个智能体（Agent）即单智能体强行学习算法的研究已经构建了完善的体系，并取得了丰硕的成果。然而单个智能体的处理能力和效率始终是有限的，利用多智能体强化学习算法来解决复杂环境中的问题是有效的途径。当一个系统中存在多个能够单独执行任务的智能体时，该系统便被称作多智能体系统(Multi-Agent System，MAS)。在应用多智能体系统处理问题的场景中，问题解决的重点在于充分发挥整个系统的能动性和自主性，而不在于强调单个智能体的智能性。在某些场景中往往无法简单地使用单智能体的强化学习算法解决多智能体的问题，因此，目前专家学者对于多智能体强化学习算法的关注和研究便不断提高。

2.3、分布式算法

随着系统中的机器数量以及信息量、数据量的高速增长，服务器宕机从而引起损失的可能性不断提高，在这样的背景下，分布式一致性算法或被称为分布式共识算法应运而生。
####2.31、CAP定理
在分布式存在一个非常著名的定理：CAP 原理。该定理最早是由柏克莱加州大学的计算机领域的教授埃里克·布鲁尔于 2000年在分布式计算原则研讨会提出的假想，并于 2002 年被麻省理工学院的两名学者赛斯·吉尔伯特和南希·林奇证明从而成为定理。CAP 定理（CAP theorem），即布鲁尔定理（Brewer’s theorem），指出对于任意分布式计算系统而言，不可能同时达成以下三点：一致性（Consistency）、可用性（Availability）和分区容错性（Partition tolerance）。 CAP 定理中的一致性是指分布式系统中的各个节点必须拥有同一份最新的数据副本；CAP 定理中的可用性是指当分布式系统中的部分节点出现问题时，系统仍然能对外提供正常的读写操作；CAP 定理中的分区容错性是指当分布式系统的网络中出现某些问题从而导致实际上的网络分区存在，在网络恢复后能够自主正常地处理这些网络分区从而重新达成分布式系统中数据的一致性和可用性。
####2.32、算法实例
分布式系统主要通过两种模式实现各个不同节点之间的互相通信，它们分别是：共享内存（Shared Memory）和消息传递（Message Passing）。其中，共享内存这种模式由于空间限制、机器性能等各方面的因素，在大规模的分布式系统中应用较为困难。因此目前主流的分布式系统中的通信解决方案仍然以消息传递的形式为主。然而以消息通信为基础构建出来的分布式系统，无法避免地存在如下的错误：消息出现丢失、延迟，进程推进慢、发生重启。而分布式一致性算法的研究就是要解决这些问题。 Paxos 和 Raft 算法是分布式一致性算法中最著名的两大算法。

三、基于改进的长机-僚机法的多无人机编队方法

? 首先介绍了本文中出现的无人机类型、无人机基本运动模型和无人机编队模型；其次介绍了势场函数改进后的人工势场算法，以此作为多无人机编队的控制算法，并通过对比实验验证改进前后人工势场算法的控制效果；最后介绍了“冗余 Leader”的相关概念以及编队决策一致性的保持方法，提出了能够满足复杂作战环境下通信要求的改进的长机-僚机编队方法。

3.1、多无人机编队相关模型

多无人机协同作战执行任务时，无人机之间的功能性往往并不相同，为了体现不同无人机之间的差异，以求尽量模拟真实的作战环境，同时也为了简化仿真的难度，本文将无人机分为两大类型：侦察型（Reconnaissance）和攻击型（Attack），使用 U 表示无人机集合，使用 R, A进行区分,并假设长机角色均由侦察型无人机进行担任。通过这两种类型的组合可以完成诸如：探测、攻击和巡航等任务。
####3.11、无人机基础运动模型
无人机在 $t$ 时刻的速度以及 $t + 1$ 时刻的加速度,可以通过迭代法求得 $t + 1$ 时刻的速度：

$\begin{array}{l} v_{x} (t + 1) = v_{x} (t) + a_{x} (t + 1) \\ v_{y} (t + 1) = v_{y} (t) + a_{y} (t + 1) \end{array}$

声明：本站部分文章及图片转载于互联网，内容版权归原作者所有，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

对抗环境下的多无人机编队方法和队形变换研究