2026-02-08 00:52:04 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 本文研究无人机数据收集中的对抗干扰攻击问题，针对固定地面干扰机提出基于强化学习的虚拟干扰机训练方法和高SINR阈值防御策略，针对智能移动干扰机采用D3QN算法优化轨迹实现动态规避。实验表明防御策略可使无人机性能恢复至接近无干扰水平，为物联网场景下的无人机安全通信提供有效解决方案。 综合评分： 78 文章分类： IoT安全,网络安全,AI安全,安全建设,其他

cover_image

每周文章分享-247

网络与安全实验室

2026年2月7日 06:00 安徽

每周文章分享

2026.02.02至2026.02.08

标题:Resilient Path Planning for UAVs in Data Collection under Adversarial Attacks

期刊:IEEE Transactions on Information Forensics and Security， vol. 18， pp. 2766-2799， April 2023.

作者:Xueyuan Wang， M. Cenk Gursoy.

分享人:河海大学——潘银河

01 研究背景

无人机凭借其机动性与灵活性，在物联网数据收集等场景中具有广泛应用前景。然而，无线通信的广播特性使其易受干扰攻击，尤其在面对移动干扰器时，网络性能显著下降。在此类对抗环境中，无人机轨迹控制面临多重挑战：需同时满足避碰、运动学等多种实际约束；干扰器信息不明确；由于恶意干扰导致的通信环境呈现时变、非平稳特性问题。

本文针对无人机数据收集网络中的抗干扰问题展开研究，核心研究问题为：如何在存在智能干扰、且兼顾多种现实约束的条件下，设计无人机的安全轨迹。解决思路是采用基于强化学习的方法，利用决斗双深度Q网络（D3QN），通过环境观测自主学习最优轨迹策略，无需依赖干扰器的先验知识，以实现运动、任务与通信性能的有效平衡。

02 关键技术

本文提出了一种分阶段的、基于强化学习（RL）的弹性路径规划策略。该策略由数据驱动，具备强大在线适应能力。让智能体不再是简单地执行预设路径，而是能够在不确定和动态变化的环境中，实时地做出灵活、鲁棒的导航决策。

该方法的创新和贡献如下：

(1) 针对固定位置的地面干扰机，设计了两种攻击策略（连续干扰和周期性干扰），并提出了两种防御策略：一种是基于RL的虚拟干扰机防御，即在训练阶段引入一个位置固定的虚拟干扰机，使UAV学习到在干扰环境下的鲁棒性策略；另一种是提高SINR阈值防御，即在训练中使用比实际要求更高的信干噪比（SINR）阈值，迫使UAV在更近的距离通信，从而为真实干扰预留了性能余量。

(2) 针对更智能的移动UAV干扰机（其同样采用RL算法学习跟踪和干扰策略），本文设计了一种智能抗干扰策略。该策略采用决斗双深度Q网络（D3QN）来学习典型UAV的最优轨迹，通过精心设计的状态参数化过程和奖励函数，平衡了运动、任务和通信性能，使UAV能够动态躲避智能干扰机的追踪。所有这些算法完全基于环境可观测数据，无需预先知道干扰机的位置或信道信息，更具现实意义。

03 算法介绍

图1展示了UAV辅助数据收集网络的整体场景。蓝色三角形代表物联网节点，黑色十字线是典型UAV的目的地，红色三角形代表干扰机，干扰机可以是地面的或空中的，灰色区域为禁飞区。典型UAV（黑点）需避开其他UAV（蓝点）和障碍物，并在干扰机的影响下完成数据收集任务。

图 1带有干扰器的无人机辅助数据收集网络示意图

（1）地面干扰攻击与防御

A. 攻击策略设计

本文定义了两种由固定地面干扰机执行的攻击策略，它们都假设干扰机位置固定，且干扰行为是预先设定好的，不具备自适应能力。

连续干扰攻击：这是最基础的攻击模式。干扰机以一个固定的、较低的功率P _l持续不断地发射干扰信号。其目的是在其周围形成一个稳定的、低信干噪比（SINR）的“通信盲区”，迫使UAV在规划路径时必须避开此区域，或者必须飞到离物联网节点极近的距离才能保证通信质量，从而增加路径长度和时间消耗。

周期性干扰攻击：这是一种更能量高效的攻击策略。干扰机以更高的功率P^h进行间歇式发射。为了公平比较，论文设定每个周期内的总能量消耗与连续攻击相同，即：

这种攻击的破坏性在于其不确定性，当UAV进入干扰区域时，可能恰好遇到高功率的时段，导致通信突然中断，增加了UAV路径规划的难度。

B. 防御策略设计

既然无法直接获取干扰机信息，论文提出了两种在训练阶段引入干扰源的启发式策略，其本质是让UAV“未雨绸缪”，在训练中适应最坏或典型的干扰情况，从而在真实测试中表现出鲁棒性。

基于虚拟干扰机的防御 (VJ)：在UAV的策略训练环境中，人为地放置一个或多个虚拟的地面干扰机。这些虚拟干扰机的位置可以是随机或固定的，其发射功率也是设定的。关键在于，这个虚拟干扰机的位置无需与真实干扰机的位置匹配。通过这种方式，UAV在学习路径规划时，就已经体验过在存在强力干扰源的环境下如何飞行。它会自发地学习到一些鲁棒行为，例如：倾向于从干扰边缘绕行、靠近节点时快速完成数据上传等。当部署到真实环境（即使干扰机位置不同）时，这种已经“身经百战”的策略能够更好地适应新的干扰，表现出更强的泛化能力。

基于更高SINR阈值的防御 (HST)：这种策略更为直接。在训练UAV策略时，人为地提高通信成功的SINR阈值，即：

这意味着在训练中，UAV必须飞到离IoT节点更近、信号质量更好的地方才能被视为成功通信。这种“从严要求”的训练，迫使UAV学习一种更保守、更高质量的通信策略。当它在真实环境中遇到干扰导致SINR下降时，由于它在训练时已经预留了足够的性能余量，SINR值很可能仍然高于实际要求的阈值，从而保证通信不中断。

抗地面干扰策略的主要算法在算法1中给出：

（2）智能移动干扰攻击与防御

A. 无人机干扰器建模

在此场景中，假设智能无人机干扰器具有发射功率 P^J、高度 H_J 以及特定的起飞和降落点。该干扰器配备传感器(如雷达)以感知附近无人机并追踪。

该干扰器能够学习分配给典型无人机的活跃地面节点的位置信息;以及典型无人机持续上报的参考信号接收功率(RSRP)与参考信号接收质量(RSRQ)报告。如果干扰器以相同高度飞行，它需要避免与典型无人机发生碰撞，同时试图接近无人机以增加干扰。此外，如果当干扰器以与典型无人机完全相同的高度飞行时，它将不会受到干扰器干扰 (或者干扰非常小)。

考虑到这一点，设计了一个强干扰器，使其在与典型无人机不同的高度飞行。干扰器干扰可以建模为：

其中H_V和H_J分别是典型无人机和干扰器的高度。

B. 智能攻击问题建模

干扰器的目标是在避碰约束、最大行程时间约束、运动学约束以及起点和目的地约束的条件下，降低典型无人机的信干噪比，该优化问题建模为：

C. 强化学习问题建模

智能无人机干扰器的轨迹设计问题同样是一个序贯决策问题，因此可以建模为一个马尔可夫决策过程并通过强化学习求解。元组的构建如下。

状态空间 S^J包括全局与局部信息融合，它不仅包含自身信息，还包括其感知范围内的其他UAV信息、目标UAV的全部状态信息以及所有活跃IoT节点的位置。

为了降低学习复杂度，进行了参数化处理，所有位置信息都被转换到以干扰机为中心的坐标系中。这使得干扰机学习的决策是相对于自身位置的，具有平移不变性。

前两个信息向量被转换为干扰器中心坐标系，其中干扰器的当前位置为原点，指向干扰器目的地的方向为x轴：

此外还引入了无人机的历史轨迹。状态中包含了目标UAV和IoT节点在过去τ个时间步的信息。这相当于赋予了干扰机记忆，使其能够预测目标UAV的下一步动向，从而进行预判式拦截和干扰，而不是被动跟随。

典型无人机和物联网节点在过去τ个时间步长的信息向量可以被参数化并用于学习典型无人机的策略：

动作空间 A^J基于干扰器的运动学约束，对允许速度进行采样以构建速度集。而干扰器的动作a^J是速度集中各速度的索引。

干扰器的奖励函数R^J基于目标函数和约束设计，即:

D. 智能干扰攻击算法

干扰器的动作空间被采样为离散值，因此基于Q值的强化学习算法，例如深度Q网络、双深度Q网络、决斗双深度Q网络，可用于学习其策略。由于决斗双深度Q网络更有效和稳定，本文选择决斗双深度Q网络来学习一个强大的干扰器策略。训练过程可以通过消除第5‐11行并利用C节中设计的 S^J ， A^J， R^J来执行算法1。

E. 防御智能干扰攻击

防御策略具体而言，就是通过修改状态和奖励函数，使用改进的算法1重新训练典型无人机的策略。

对于状态空间 S^V，由于干扰器注入干扰且通常靠近典型无人机，并且典型无人机能够在其感知区域内观察附近的无人机，本文假设典型无人机能够一直检测到干扰器。因此，干扰器的位置信息可由典型无人机获取。干扰器在过去 τ 个时间步长的位置可用于估计干扰器的下一个移动。

对于奖励 R^V：为了鼓励典型无人机飞离干扰器，在原始奖励函数中添加了一个额外的奖励项，其本质上定义了典型无人机与干扰器之间的安全距离：

04 实验结果分析

实验通过仿真来评估针对地面/移动干扰的攻击与防御策略性能。所采用的性能指标包括成功率、数据收集率、准时到达率和碰撞率。

仿真环境通过不同颜色和形状清晰标识了各个要素：黄色区域代表可靠传输区，蓝色和绿色三角分别为物联网节点与干扰器，蓝/绿色区域为起降区，灰色区域为障碍物，而黑色、红色及橙色虚线则分别描绘了典型无人机、其他无人机和移动干扰器的飞行轨迹。

仿真设定典型无人机飞行高度为50米，物联网节点发射功率为10 dBm，并假定其他无人机采用最优互惠碰撞避免（ORCA）算法进行决策。仿真结果验证了攻击策略的有效性和防御策略的鲁棒性

(1) 固定干扰场景

固定干扰机会显著缩小UAV的可靠传输区域（如图2所示），导致UAV的成功率（SR）和按时到达率（TR）大幅下降。但采用虚拟干扰机（VJ）或提高SINR阈值（HST）的防御策略后，UAV的各项性能指标（SR、DR、TR）均能恢复到接近无干扰场景的水平（>98%）。

图 2不同干扰机位置下的可靠传输区域对比

图2直观展示了固定干扰机对通信的影响。图2(a)为无干扰情况，黄色区域表示可靠传输区。图2(b)和2(c)显示了当干扰机位于不同位置时，黄色可靠传输区域被显著压缩和扭曲，迫使UAV必须飞得离节点更近才能成功通信。

图 3不同场景下典型UAV的轨迹示例

图3展示了在无干扰器、连续干扰攻击、虚拟干扰器防御策略 (VJ策略)和高SINR阈值防御策略(HST策略)场景下的无人机轨迹。图3(a)显示，当没有干扰器时，典型无人机可以找到一条高效的轨迹来完成其任务。图3(b)显示，由于在(‐8，0)处存在干扰器，典型无人机的轨迹变得弯曲 (带有多个回路)。图3(c)和(d)表明，在两种防御策略下，典型无人机能够在连续干扰攻击下以更短的轨迹完成任务，尽管这些轨迹仍然比无干扰器场景中的轨迹长。

(2) 智能干扰场景

智能UAV干扰机对UAV性能的影响更为严重，能将数据收集率（DR）降至极低水平（例如，5.3%）。但通过重新训练防御性策略（使用D3QN），UAV的性能得到显著恢复。即使在面对训练时未见的干扰机时，防御策略也能有效提升性能，SR和TR可恢复至80%以上，DR可恢复至70%以上。如图7所示，防御策略使UAV的轨迹更短、更高效，并能有效躲避干扰机的追踪。

图 4 不同场景下典型UAV的轨迹示例

图4对比了三种典型场景下的UAV轨迹。图4(a)表示，无干扰时UAV路径短而高效。图4(b)表示，在智能干扰下无防御时，干扰机（橙线）紧随UAV，导致UAV轨迹迂回曲折，效率低下。图4(c)体现了采用智能抗干扰策略后，UAV能够主动规避干扰机，规划出更短的路径并成功接近IoT节点完成数据收集。

05 总结

本文研究了无人机数据收集路径规划中的对抗干扰攻击问题。本文首先针对固定地面干扰机发起的连续/周期干扰攻击，提出了基于强化学习的虚拟干扰机训练方法和高信干噪比（SINR）阈值防御策略；其次针对智能移动干扰攻击，采用D3QN算法优化无人机轨迹，实现动态规避。仿真结果表明，干扰攻击对无人机性能具有显著影响，而所提出的防御策略能够使其性能恢复至接近无干扰场景下的水平。

END

==河海大学网络与安全实验室==

微信搜索：Hohai_Network

联系QQ：1084561742

感谢关注！

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：网络与安全实验室《每周文章分享-247》