文章总结: 本文研究无人机数据收集中的对抗干扰攻击问题,针对固定地面干扰机提出基于强化学习的虚拟干扰机训练方法和高SINR阈值防御策略,针对智能移动干扰机采用D3QN算法优化轨迹实现动态规避。实验表明防御策略可使无人机性能恢复至接近无干扰水平,为物联网场景下的无人机安全通信提供有效解决方案。 综合评分: 78 文章分类: IoT安全,网络安全,AI安全,安全建设,其他
每周文章分享-247
网络与安全实验室
2026年2月7日 06:00 安徽
每周文章分享
2026.02.02至2026.02.08
标题:Resilient Path Planning for UAVs in Data Collection under Adversarial Attacks
期刊:IEEE Transactions on Information Forensics and Security, vol. 18, pp. 2766-2799, April 2023.
作者:Xueyuan Wang, M. Cenk Gursoy.
分享人:河海大学——潘银河
01 研究背景
无人机凭借其机动性与灵活性,在物联网数据收集等场景中具有广泛应用前景。然而,无线通信的广播特性使其易受干扰攻击,尤其在面对移动干扰器时,网络性能显著下降。在此类对抗环境中,无人机轨迹控制面临多重挑战:需同时满足避碰、运动学等多种实际约束;干扰器信息不明确;由于恶意干扰导致的通信环境呈现时变、非平稳特性问题。
本文针对无人机数据收集网络中的抗干扰问题展开研究,核心研究问题为:如何在存在智能干扰、且兼顾多种现实约束的条件下,设计无人机的安全轨迹。解决思路是采用基于强化学习的方法,利用决斗双深度Q网络(D3QN),通过环境观测自主学习最优轨迹策略,无需依赖干扰器的先验知识,以实现运动、任务与通信性能的有效平衡。
02 关键技术
本文提出了一种分阶段的、基于强化学习(RL)的弹性路径规划策略。该策略由数据驱动,具备强大在线适应能力。让智能体不再是简单地执行预设路径,而是能够在不确定和动态变化的环境中,实时地做出灵活、鲁棒的导航决策。
该方法的创新和贡献如下:
(1) 针对固定位置的地面干扰机,设计了两种攻击策略(连续干扰和周期性干扰),并提出了两种防御策略:一种是基于RL的虚拟干扰机防御,即在训练阶段引入一个位置固定的虚拟干扰机,使UAV学习到在干扰环境下的鲁棒性策略;另一种是提高SINR阈值防御,即在训练中使用比实际要求更高的信干噪比(SINR)阈值,迫使UAV在更近的距离通信,从而为真实干扰预留了性能余量。
(2) 针对更智能的移动UAV干扰机(其同样采用RL算法学习跟踪和干扰策略),本文设计了一种智能抗干扰策略。该策略采用决斗双深度Q网络(D3QN)来学习典型UAV的最优轨迹,通过精心设计的状态参数化过程和奖励函数,平衡了运动、任务和通信性能,使UAV能够动态躲避智能干扰机的追踪。所有这些算法完全基于环境可观测数据,无需预先知道干扰机的位置或信道信息,更具现实意义。
03 算法介绍
图1展示了UAV辅助数据收集网络的整体场景。蓝色三角形代表物联网节点,黑色十字线是典型UAV的目的地,红色三角形代表干扰机,干扰机可以是地面的或空中的,灰色区域为禁飞区。典型UAV(黑点)需避开其他UAV(蓝点)和障碍物,并在干扰机的影响下完成数据收集任务。
图 1带有干扰器的无人机辅助数据收集网络示意图
(1)地面干扰攻击与防御
A. 攻击策略设计
本文定义了两种由固定地面干扰机执行的攻击策略,它们都假设干扰机位置固定,且干扰行为是预先设定好的,不具备自适应能力。
连续干扰攻击:这是最基础的攻击模式。干扰机以一个固定的、较低的功率P _l持续不断地发射干扰信号。其目的是在其周围形成一个稳定的、低信干噪比(SINR)的“通信盲区”,迫使UAV在规划路径时必须避开此区域,或者必须飞到离物联网节点极近的距离才能保证通信质量,从而增加路径长度和时间消耗。
周期性干扰攻击:这是一种更能量高效的攻击策略。干扰机以更高的功率P^h进行间歇式发射。为了公平比较,论文设定每个周期内的总能量消耗与连续攻击相同,即:
这种攻击的破坏性在于其不确定性,当UAV进入干扰区域时,可能恰好遇到高功率的时段,导致通信突然中断,增加了UAV路径规划的难度。
B. 防御策略设计
既然无法直接获取干扰机信息,论文提出了两种在训练阶段引入干扰源的启发式策略,其本质是让UAV“未雨绸缪”,在训练中适应最坏或典型的干扰情况,从而在真实测试中表现出鲁棒性。
基于虚拟干扰机的防御 (VJ):在UAV的策略训练环境中,人为地放置一个或多个虚拟的地面干扰机。这些虚拟干扰机的位置可以是随机或固定的,其发射功率也是设定的。关键在于,这个虚拟干扰机的位置无需与真实干扰机的位置匹配。通过这种方式,UAV在学习路径规划时,就已经体验过在存在强力干扰源的环境下如何飞行。它会自发地学习到一些鲁棒行为,例如:倾向于从干扰边缘绕行、靠近节点时快速完成数据上传等。当部署到真实环境(即使干扰机位置不同)时,这种已经“身经百战”的策略能够更好地适应新的干扰,表现出更强的泛化能力。
基于更高SINR阈值的防御 (HST):这种策略更为直接。在训练UAV策略时,人为地提高通信成功的SINR阈值,即 :
这意味着在训练中,UAV必须飞到离IoT节点更近、信号质量更好的地方才能被视为成功通信。这种“从严要求”的训练,迫使UAV学习一种更保守、更高质量的通信策略。当它在真实环境中遇到干扰导致SINR下降时,由于它在训练时已经预留了足够的性能余量,SINR值很可能仍然高于实际要求的阈值,从而保证通信不中断。
抗地面干扰策略的主要算法在算法1中给出:
(2)智能移动干扰攻击与防御
A. 无人机干扰器建模
在此场景中,假设智能无人机干扰器具有发射功率 P^J、高度 H_J 以及特定的起飞和降落点。该干扰器配备传感器(如雷达)以感知附近无人机并追踪。
该干扰器能够学习分配给典型无人机的活跃地面节点的位置信息;以及典型无人机持续上报的参考信号接收功率(RSRP)与参考信号接收质量(RSRQ)报告。如果干扰器以相同高度飞行,它需要避免与典型无人机发生碰撞,同时试图接近无人机以增加干扰。此外,如果当干扰器以与典型无人机完全相同的高度飞行时,它将不会受到干扰器干扰 (或者干扰非常小)。
考虑到这一点,设计了一个强干扰器,使其在与典型无人机不同的高度飞行。干扰器干扰可以建模为:
其中H_V和H_J分别是典型无人机和干扰器的高度。
B. 智能攻击问题建模
干扰器的目标是在避碰约束、最大行程时间约束、运动学约束以及起点和目的地约束的条件下,降低典型无人机的信干噪比, 该优化问题建模为:
C. 强化学习问题建模
智能无人机干扰器的轨迹设计问题同样是一个序贯决策问题,因此可以建模为一个马尔可夫决策过程并通过强化学习求解。元组的构建如下。
状态空间 S^J包括全局与局部信息融合,它不仅包含自身信息,还包括其感知范围内的其他UAV信息、目标UAV的全部状态信息以及所有活跃IoT节点的位置。
为了降低学习复杂度,进行了参数化处理,所有位置信息都被转换到以干扰机为中心的坐标系中。这使得干扰机学习的决策是相对于自身位置的,具有平移不变性。
前两个信息向量被转换为干扰器中心坐标系,其中干扰器的当前位置为原点,指向干扰器目的地的方向为x轴:
此外还引入了无人机的历史轨迹。状态中包含了目标UAV和IoT节点在过去τ个时间步的信息。这相当于赋予了干扰机记忆,使其能够预测目标UAV的下一步动向,从而进行预判式拦截和干扰,而不是被动跟随。
典型无人机和物联网节点在过去τ个时间步长的信息向量可以被参数化并用于学习典型无人机的策略:
动作空间 A^J基于干扰器的运动学约束,对允许速度进行采样以构建速度集。而干扰器的动作a^J是速度集中各速度的索引。
干扰器的奖励函数R^J基于目标函数和约束设计,即:
D. 智能干扰攻击算法
干扰器的动作空间被采样为离散值,因此基于Q值的强化学习算法,例如深度Q网络、双深度Q网络、决斗双深度Q网络,可用于学习其策略。由于决斗双深度Q网络更有效和稳定,本文选择决斗双深度Q网络来学习一个强大的干扰器策略。训练过程可以通过消除第5‐11行并利用C节中设计的 S^J , A^J, R^J来执行算法1。
E. 防御智能干扰攻击
防御策略具体而言,就是通过修改状态和奖励函数,使用改进的算法1重新训练典型无人机的策略。
对于状态空间 S^V,由于干扰器注入干扰且通常靠近典型无人机,并且典型无人机能够在其感知区域内观察附近的无人机,本文假设典型无人机能够一直检测到干扰器。因此,干扰器的位置信息可由典型无人机获取。干扰器在过去 τ 个时间步长的位置可用于估计干扰器的下一个移动。
对于奖励 R^V:为了鼓励典型无人机飞离干扰器,在原始奖励函数中添加了一个额外的奖励项,其本质上定义了典型无人机与干扰器之间的安全距离:
04 实验结果分析
实验通过仿真来评估针对地面/移动干扰的攻击与防御策略性能。所采用的性能指标包括成功率、数据收集率、准时到达率和碰撞率。
仿真环境通过不同颜色和形状清晰标识了各个要素:黄色区域代表可靠传输区,蓝色和绿色三角分别为物联网节点与干扰器,蓝/绿色区域为起降区,灰色区域为障碍物,而黑色、红色及橙色虚线则分别描绘了典型无人机、其他无人机和移动干扰器的飞行轨迹。
仿真设定典型无人机飞行高度为50米,物联网节点发射功率为10 dBm,并假定其他无人机采用最优互惠碰撞避免(ORCA)算法进行决策。仿真结果验证了攻击策略的有效性和防御策略的鲁棒性
(1) 固定干扰场景
固定干扰机会显著缩小UAV的可靠传输区域(如图2所示),导致UAV的成功率(SR)和按时到达率(TR)大幅下降。但采用虚拟干扰机(VJ)或提高SINR阈值(HST)的防御策略后,UAV的各项性能指标(SR、DR、TR)均能恢复到接近无干扰场景的水平(>98%)。
图 2不同干扰机位置下的可靠传输区域对比
图2直观展示了固定干扰机对通信的影响。图2(a)为无干扰情况,黄色区域表示可靠传输区。图2(b)和2(c)显示了当干扰机位于不同位置时,黄色可靠传输区域被显著压缩和扭曲,迫使UAV必须飞得离节点更近才能成功通信。
图 3不同场景下典型UAV的轨迹示例
图3展示了在无干扰器、连续干扰攻击、虚拟干扰器防御策略 (VJ策略)和高SINR阈值防御策略(HST策略)场景下的无人机轨迹。图3(a)显示,当没有干扰器时,典型无人机可以找到一条高效的轨迹来完成其任务。图3(b)显示, 由于在(‐8,0)处存在干扰器,典型无人机的轨迹变得弯曲 (带有多个回路)。图3(c)和(d)表明,在两种防御策略下, 典型无人机能够在连续干扰攻击下以更短的轨迹完成任务, 尽管这些轨迹仍然比无干扰器场景中的轨迹长。
(2) 智能干扰场景
智能UAV干扰机对UAV性能的影响更为严重,能将数据收集率(DR)降至极低水平(例如,5.3%)。但通过重新训练防御性策略(使用D3QN),UAV的性能得到显著恢复。即使在面对训练时未见的干扰机时,防御策略也能有效提升性能,SR和TR可恢复至80%以上,DR可恢复至70%以上。如图7所示,防御策略使UAV的轨迹更短、更高效,并能有效躲避干扰机的追踪。
图 4 不同场景下典型UAV的轨迹示例
图4对比了三种典型场景下的UAV轨迹。图4(a)表示,无干扰时UAV路径短而高效。图4(b)表示,在智能干扰下无防御时,干扰机(橙线)紧随UAV,导致UAV轨迹迂回曲折,效率低下。图4(c)体现了采用智能抗干扰策略后,UAV能够主动规避干扰机,规划出更短的路径并成功接近IoT节点完成数据收集。
05 总结
本文研究了无人机数据收集路径规划中的对抗干扰攻击问题。本文首先针对固定地面干扰机发起的连续/周期干扰攻击,提出了基于强化学习的虚拟干扰机训练方法和高信干噪比(SINR)阈值防御策略;其次针对智能移动干扰攻击,采用D3QN算法优化无人机轨迹,实现动态规避。仿真结果表明,干扰攻击对无人机性能具有显著影响,而所提出的防御策略能够使其性能恢复至接近无干扰场景下的水平。
END
==河海大学网络与安全实验室==
微信搜索:Hohai_Network
联系QQ:1084561742
感谢关注!
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:网络与安全实验室 《每周文章分享-247》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。










评论