2026-01-07 02:44:07 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 该研究提出LLM-EHT架构，利用大模型生成离线数据，将在线MARL转为离线训练，显著减少水下通信带宽需求并加速AUV集群策略收敛；配套可扩展状态表示与分布式围捕策略，在真实海洋数据验证下实现4-18台AUV对目标的稳定围捕，样本量降低且训练效率优于MAPPO、MADDPG等基线。 综合评分： 86 文章分类： AI安全,应用安全,安全开发,解决方案,应用安全

cover_image

团队科研成果分享-62

网络与安全实验室

2026年1月6日 08:00 江苏

团队科研成果分享

2025.12.29至2026.01.04

标题: An LLM-Driven Hybrid Online-Offline MARL Architecture for AUV Cluster Network to Enable Smart Underwater Target Encirclement

期刊: IEEE Wireless Communications Magazine.

作者: Shengchao Zhu, Guangjie Han*, Chuan Lin, Jinfang Jiang, and Yu He.

分享人: 河海大学——朱胜超

研究背景

随着水下网络技术和多智能体强化学习(MARL)技术的快速发展，自主水下航行器(AUV)集群网络已经成为实现智能水下任务，特别是在协作目标围捕中的一种很有前途的框架。然而，在这样的环境中训练MARL策略面临着一个严峻的挑战：由于通信带宽的严重限制，获取大规模交互数据是不可行的，特别是对于在线MARL框架。因此，在有限数据收集的情况下实现快速策略收敛对于实际部署至关重要。本文提出了一种基于LLM的混合训练架构，LLM-EHT，该框架利用大语言模型(LLMs)的推理和生成能力，在有限样本条件下促进在线到离线的混合训练。具体地说，建议的体系结构首先收集少量的在线交互数据。然后，它使用LLM来合成离线数据集，由专用的对齐损失指导，该损失强制策略操作和LLM生成的标签之间的一致性。这一过程大大加快了MARL政策的趋同。在LLM-EHT的基础上，本文进一步提出了一种智能协作的水下目标围捕方案，结合了可扩展的状态空间表示方法和智能目标围捕策略，以确保操作的鲁棒性、高效性和可扩展性。评估结果表明，该方案显著减少了所需的样本量，同时实现了更快的收敛速度，并保持了稳定的围捕效果。

关键技术

受MARL和LLMs优势互补的启发，在我们以前工作的基础上，我们引入了一种新颖的混合训练架构LLM-EHT，促进了从在线MARL到离线MARL的高效过渡。通过只收集有限数量的在线交互样本，使用LLMs来推断和生成高质量的离线数据集，从而改进了离线MARL策略训练过程。该方法旨在以最小的样本需求和减少的通信开销实现智能协作的水下目标围捕。本文的主要贡献概括如下：该方法的创新和贡献如下：

1）我们提出了LLM-EHT算法，该算法利用LLMS的推理和生成能力，以最少的样本集将在线MARL转换为离线MARL，大大减少了通信和训练成本。

2）在LLM-EHT框架的基础上，设计了一种基于AUV集群网络的智能协同目标围捕方案。这包括一种可扩展的状态空间表示和一种分布式的围捕策略，使智能和协作的水下目标围捕成为可能。

3）我们使用来自GEBCO数据集的真实世界海洋数据来验证所提出的方案。评估结果表明，该算法在有限样本下加速了MARL收敛，并在目标围捕任务中取得了较好的性能。

算法介绍

（1）基于LLM的多智能体强化学习混合训练体系架构

图1 所提出的LLM-EHT架构

具体地说，我们保留了以前提出的SD-MARL框架作为AUV集群网络的建模基础。在该框架中，每个LC-AUV充当本地控制器和集中训练单元，管理和训练其各自的AUV子集群。同时，一个基于无人水面舰艇的全球控制器(USV-GC)作为全局控制器，监督多个LC-AUV的操作。在以下小节中，我们将全面介绍LLM-EHT体系结构中的每个组件。

A.智能通信与在线MARL数据采集框架

图2 所提出的智能通信和在线MARL数据收集框架

在本节中，我们将详细介绍拟议的智能通信和在线MARL数据收集框架，该框架旨在通过在线MARL交互在有限的时间步长内收集样本数据。这将作为后续LLM处理阶段的输入。具体地，如图2(a)所示，在在线MARL训练阶段，USV-GC使用GLO请求信标与每个LC-AUV通信。这些信标封装了基本字段，如请求ID、任务、时间和其他实时指令元数据。作为响应，LC-AUV将GLO回复信标发送回USV-GC，该GLO回复信标包含其本地ID、状态、动作、下一状态、奖励和其他运行时反馈。在接收到GLO请求命令后，LC-AUV向其管理的AUV发出锁定请求信标以请求本地化样本数据。每个定位请求信标包含AUV ID、定位状态、定位操作、定位下一状态、定位奖励、定位时间和其他实时信息。作为回报，AUV以携带相同结构的LOC应答信标进行响应，并将本地收集的信息传送回LC-AUV。在此智能交流框架的基础上，我们设计了一个在线MARL数据收集框架，旨在为基于LLM的下游学习收集足够多样化的样本分布。为了确保离线MARL训练的丰富数据集，我们采用了一种改进的部署策略，如图2(B)所示。与传统的MARL设置不同，代理在固定位置进行初始化，我们在每个训练集开始时将AUV集群网络放置在数据收集区域的中心，在其周围随机定位目标。这种方法鼓励AUV在在线训练期间探索广泛的空间范围，在不同的相对位置收集样本。我们定义了有限数量的在线训练迭代来收集非冗余和有代表性的数据样本。这些数据随后由USV通过电磁通信传输到地面基站或云平台,在其中执行离线数据集生成和训练。值得注意的是，与需要大量数据收集的传统MARL方法不同，我们的策略以最少的采样时间实现了数据多样性。这大大减少了水下通信和计算开销，从而优化了系统的整体效率。

图3 所提出的基于LLM驱动的样本生成框架

B.LLM驱动的样本生成框架

在提出的LLM-EHT体系结构中，我们提出了LLM驱动的样本生成框架。如图3所示，该框架通过以下四个步骤运行：

步骤1：基于从在线MARL交互中收集的状态空间样本，首先计算AUV集群网络目标围捕过程中状态空间的上界和下界。

步骤2：然后将计算出的边界输入LLM，LLM在专家知识的指导下进一步调整其行为。通过利用这一专家指导，LLM生成N个新的初始状态空间样本，作为后续生成N个完整轨迹的基础。在该步骤中，利用专家指导来指导LLM生成限制在计算边界内的N个初始状态空间点。

步骤3：新生成的状态空间样本随后被重新馈送到LLM。在该步骤中，基于专家的指导，LLM利用在步骤2中获得的初始状态空间点，与预定义的奖励函数和目标围捕场景一起，产生高质量的动作、奖励值和下一步状态，这些高质量的动作、奖励值和下一步状态被顺序组织成完整的轨迹。

步骤4：最后，根据预先定义的准则去除冗余样本和边界违规样本。剩余的有效样本形成了一个精化的状态空间数据集，用于创建新的离线训练数据集。

C.在线MARL到离线MARL转换范式

我们提出了在线MARL到离线MARL转换范式，该范例促进了在线MARL到基于LLM生成的数据集的离线MARL的转换。这种模式是专门为减少水下通信开销和提高样本效率而设计的，使其特别适合于水下作业等资源受限的环境。一旦LLM生成了离线数据集，就可以使用任何离线MARL算法来使用基于云计算进行训练。然而，在确保学习的策略与离线数据集保持一致方面出现了一个关键挑战。由于样本分布的潜在稀疏性或随机性，如果学习的策略明显偏离离线数据中的动作分布，则传统的训练可能无法收敛。为了应对这一挑战，我们引入了离线样本比对损失函数，该函数强制策略网络的动作输出与LLM生成的数据集中的动作之间的比对。通过将这种比对损失降至最低，鼓励该策略与离线数据保持一致，从而确保智能体的行动有效地基于先前收集的样本。这种方法促进了学习过程的快速收敛，增强了学习过程的稳定性，确保了离线MARL训练能够高效可靠地进行。

（2）所提出的一种基于AUV集群网络的智能协同目标围捕方案

A.可扩展的状态空间表征

我们深入分析了AUV簇网中的各种属性信息，提出了一种可扩展的状态空间表示法，以增强基于MARL的AUV集群网络的可扩展性。具体地说，每个AUV的状态表示由三个部分组成：AUV自身的姿态和速度信息、其相对于虚拟目标点的位置以及最近的相邻AUV的位置。与传统的基于MARL的AUV集群网络建模方法不同，我们提出的表示只关注最近AUV的信息。这种设计显著降低了状态空间表示的复杂性，并允许更具可扩展性的解决方案，使训练的MARL模型能够在不同数量的AUV上推广。此外，通过只纳入虚拟目标点的相对位置，而不是附加的环境或背景特征，拟议的状态表示法促进了经训练的MARL策略在不同目标之间的任务级可转移性。这使得该模型更具通用性，能够处理各种AUV任务类型，而不需要进行广泛的再培训，从而提高了训练过程的效率和学习的政策对新任务的适用性。

B.所提出的目标围捕策略

图4 所提出的目标围捕策略示意图

我们设计了一种AUV集群网络的目标围捕策略，旨在利用MARL实现对水下目标的智能协同围捕，如图4所示。具体地说，围捕是在3D水下空间的X-Y平面上制定的。为了增强围堵行为的有效性，每个AUV指定了一个虚拟移动目标点。这些目标点沿目标的最优外接圆均匀分布，圆的半径代表AUV到目标的最佳距离。AUV 0到N围绕目标的角度位置根据AUV的数量均匀划分。因此，每个AUV都需要朝向其指定的虚拟目标点导航。在此基础上，建立了AUV集群网络围捕任务的奖励函数，该函数由三部分组成：虚拟目标点奖励、避碰奖励和避障奖励。

虚拟目标点奖励：该奖励与AUV与其对应的虚拟目标点之间的距离成反比。AUV距离目标点越近，奖励越高；反之，距离越远，奖励越低。

集群避碰奖励：我们定义了AUV之间的最优距离，奖励的设计是为了鼓励保持这个最优距离。奖励随着绝对偏离这一最优距离的增加而减少，当AUV将间距保持在接近最优值时增加，从而促进集群内的合作行为。

避障奖励：如果AUV向检测到的障碍物移动，则会分配负奖励来阻止这种行为，并引导AUV远离潜在的碰撞，确保在操作空间内的安全航行。综上所述，我们为AUV集群网络定义了一种可扩展的状态空间表示，以确保MARL输入的可扩展性。此外，提出的目标围捕策略使MARL的奖励函数与策略执行目标保持一致。通过集成提出的LLM-EHT算法，AUV集群网络可以在有限的在线样本采集的情况下获得智能协同围捕能力。然后使用LLM生成的离线数据集在离线MARL阶段训练每个AUV的策略网络，从而实现有效的目标围捕，同时将所需的样本收集和通信开销降至最低。

实验结果分析

图5 仿真结果

首先，我们评估了所提出的LLM-EHT算法的收敛性能。需要注意的是，LLM-EHT与任何MARL算法兼容。具体地说，我们将LLM-EHT与两种有代表性的基线算法：MAPPO[11]和MADDPG[12]相结合。这种集成产生了两个变体：MAPPO_LLMEHT和MADDPG_LLMEHT，用于评估LLM-EHT框架带来的性能改进。此外，我们还比较了一种具有代表性的基于模型的MARL算法MBPO。最初，我们用四个AUV配置AUV集群网络。训练期间平均奖励的收敛曲线如图5(A)所示。结果表明，MAPPO_LLMEHT和MADDPG_LLMEHT从训练的早期阶段就表现出快速而稳定的收敛。这种性能可以归因于LLM-EHT的离线丢失组件，该组件强制策略网络与LLM生成的高质量离线数据之间保持一致。这种调整有效地指导代理在早期培训阶段进行更有针对性和更高效的探索。相比之下，原始的MAPPO和MADDPG算法在初始训练阶段经历了显著的振荡，然后逐渐收敛。这种行为主要是由于传统的MARL算法在早期阶段需要进行广泛的探索，以便充分覆盖状态空间和学习有效的策略。这种振荡反映了该算法试图在数据有限的情况下探索大的状态空间，导致与LLM-EHT增强的变体相比，训练不那么稳定。由于环境模型的存在和算法的预测能力，MBPO算法在早期阶段收敛得比较快。然而，在训练的后期，模型误差的累积限制了收敛性能。

随后，我们将AUV的数量增加到10个，以评估所提出的方法在更大规模的AUV集群网络中的可扩展性。如图5(B)所示，MAPPO_LLMEHT和MADDPG_ LLMEHT在合理的训练次数内都表现出收敛。值得注意的是，MAPPO在这个更大的设置中保持了其健壮性和稳定性，与MADDPG相比，收敛效率更高。相比之下，MADDPG在有限的训练轮次下表现出较慢的收敛速度和较差的性能。这一行为表明，MADDPG需要更复杂的探索策略，才能在大规模多代理环境中有效执行。随着智能体数量的增加，MBPO算法早期的收敛速度变慢。这归因于环境模型的复杂性增加，导致预测精度下降。这些结果突出了可扩展性优势MAPPO LLMEHT在处理AUV集群网络中日益增加的复杂性方面发挥了重要作用，而MADDPG的性能可能会因为依赖于在此类环境中进行更广泛的探索而受到阻碍。

接下来，我们评估了MADDPG_LLMEHT算法在水下目标围捕任务的AUV集群网络中的性能。每个测试场景由1,000个时间步长组成。如图5(C)所示，我们首先随机初始化环境中的四个AUV(红色球体)、一个目标(紫色球体)和两个障碍物(黑色球体)。图5(D)示出了在整个1000步持续时间内每10步采样的轨迹，而图5(E)突出显示了AUV和目标在最后500步期间每250步的轨迹。从这些结果可以看出，AUV集群网络能够有效、准确地围捕目标，并在整个任务持续时间内保持稳定的围捕构形。然后，我们将AUV的数量增加到8个，将障碍物的数量增加到3个，以扩大场景的规模，如图5(F)所示。图5(G)和图5(H)分别示出了1000个时间步长上的相应轨迹和最后500个步长。仿真结果表明，即使在复杂杂乱的环境中，该方法仍能有效、一致地引导AUV实现协同目标围捕。最后，我们进一步将网络扩展到12个AUV，如图5(I)所示，以检查系统在更大规模部署下的性能。图5(J)表示在最后500个时间步长期间每250个步长采样的AUV和目标轨迹。实验结果证实了基于LLM-EHT的智能水下围捕框架能够使AUV集群网络在不同规模的智能体部署中保持稳定和精确的目标围捕。

此外，我们使用一个由18个AUV组成的大规模AUV集群网络，评估了该方案在目标围捕的情况下的有效性。AUV和目标的初始位置如图5(K)所示。随后，图5(L)、图5(M)、图5(N)、图5(O)和图5(P)分别给出了AUV集群网络和目标在200、300、400、600和900个时隙的位置。这些图中的结果表明，AUV集群网络从分散的队形过渡到逐渐围捕目标，最终保持了稳定的目标围捕效果。

总结

在本文中，我们研究了如何通过将LLMS与MARL相结合来增强基于AUV集群网络的水下目标围捕能力。通过利用LLMs的推理和生成能力，我们促进了从在线到离线MARL的无缝过渡，从而减少了带宽受限的水下环境中的通信开销。具体地说，我们提出了LLM-EHT，一种基于LLM的混合训练体系结构。该体系结构首先利用在线MARL收集有限数量的交互数据，然后由LLM使用这些数据来学习底层模式并生成高质量的离线数据集。这种混合方法结合了在线探索和离线数据效率的优势，从而实现了高效的策略学习。在LLM-EHT体系结构的基础上，进一步设计了一种适合AUV集群网络的智能水下目标围捕方案。该方案结合了可扩展的状态空间表示和协作围捕策略，使得系统能够智能地、安全地、规模化地运作。实验结果表明，该方法与MAPPO、MADDPG等主流的MARL算法相结合，以较少的训练样本获得了较快的收敛速度。此外，在真实海洋数据集上进行的评估证实，该方案有效地驱动AUV集群网络执行智能且可扩展的水下目标围捕。

END

==河海大学网络与安全实验室==

微信搜索：Hohai_Network

联系QQ：1084561742

感谢关注！

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：网络与安全实验室《团队科研成果分享-62》