2026-01-12 01:19:48 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： DA-MARLA协议将长传播延迟转化为优势，通过GRU时序建模与周期决策机制，在集中训练-分布执行框架下实现水声网络多节点协同接入，实验显示吞吐量提升达1.5倍且对延迟差异鲁棒，未来需扩展至非饱和业务并引入数字孪生及元学习以强化动态适应。 综合评分： 92 文章分类： IoT安全,AI安全,安全建设,技术标准,解决方案

cover_image

每周文章分享-243

网络与安全实验室

2026年1月11日 08:40 江苏

每周文章分享

2026.01.05至2026.01.11

标题:Leveraging Propagation Delays: A Delay-Aware Multiagent Reinforcement Learning MAC Protocol for Underwater Acoustic Networks

期刊: IEEE INTERNET OF THINGS JOURNAL, VOL. 12, NO. 20, 15 OCTOBER 2025.

作者:Jiajie Huang , Xiaowen Ye , Yizhe Wang , and Liqun Fu.

分享人:河海大学——张月

01 研究背景

水声通信具有高传播延迟、低带宽、强多径效应等固有物理特性，传统射频通信场景下的MAC协议因未考虑延迟反馈机制难以直接适配，而现有基于强化学习的智能MAC协议多采用单时隙决策模式，忽略了水声环境中动作的延迟效应与时间依赖性，导致节点易因短视行为引发传输冲突，同时无法有效利用历史观测数据挖掘信道状态演变规律。本文并未将长传播延迟视为负面影响，而是将其转化为一种优势，提出了一种无需确认反馈的基于多智能体强化学习（MARL）的MAC协议，称为时延感知多智能体多路访问（DA-MARLA）协议，该协议中提出了两种基于周期的机制，通过协调节点的传输调度来减少冲突，并平衡节点间的协作与竞争，且融入了一种序贯策略更新机制来确保协议的可靠运行。

02 关键技术

在本文中，提出了基于门控循环单元(GRU)与周期决策机制的分布式强化学习介质访问控制(DA-MARLA)协议，通过整合水下节点历史与实时观测信息，构建时序感知的自适应信道接入策略，以解决水声自组织网络多节点传输冲突问题。协议采用集中式训练与分布式执行(CTDE)范式，节点基于局部观测生成多时隙动作序列，中央单元通过经验回放与策略优化输出全局最优决策参数，然后参数下发至节点更新模型，节点执行周期决策回传经验，中央单元迭代优化策略，形成闭环。

该方法的创新和贡献如下：

1）本文采用周期传输决策机制实施DA-MARLA，节点基于历史观测、前一动作与当前局部观测构建完整观测窗口，一次性生成未来T_p个时隙的动作序列，覆盖水声通信的传播延迟周期，抵消动作延迟效应。

2）DA-MARLA引入GRU门控机制处理观测时序特征，通过重置门动态筛选历史记忆中的有效信息，更新门平衡新观测与历史特征的融合比例，生成紧凑的决策记忆特征，适配水声网络的时间依赖性。

3）协议设计分布式演员-评论员(Actor-Critic)网络架构，分布式演员网络基于GRU输出的记忆特征生成动作序列，集中式评论员网络通过最小化状态值预测误差优化评估精度。

03 算法介绍

（1）时延感知多智能体近端策略优化（DA-MAPPO）算法

图1 DA-MAPPO 算法在 CTDE 范式中的工作流程

图1展示了DA-MAPPO算法在集中式训练与分布式执行（CTDE）范式中的工作流程。DA-MAPPO算法在 CTDE 范式下的工作流程以“分布式执行-集中式训练-参数迭代”为核心闭环。

初始化阶段，中央单元部署集中式评论员网络、经验回放池与PPO优化器，同步下发初始策略参数至各水下节点；节点端配置分布式演员网络、GRU时序处理模块及本地观测缓存，设定决策周期T_p=4、历史观测长度M=10等超参数。

执行阶段，各节点基于自身历史观测、前一动作与实时局部状态构建完整观测窗口，经GRU门控机制筛选融合生成时序记忆特征，演员网络据此输出未来T_p个时隙的动作序列并严格执行，同时记录周期内的即时奖励，将“观测-动作-奖励-下一观测”的完整经验样本上传至中央单元经验回放池。

中央单元收集所有节点的经验样本后启动集中式训练，先对样本预处理计算优势函数与回报目标，再以回报目标为拟合方向，通过最小化平方误差损失更新评论员网络参数，提升状态值评估精度；随后采用PPO裁剪目标函数优化演员网络，借助新旧策略概率比的裁剪机制避免策略更新幅度过大，同步迭代GRU门控参数。

训练收敛后，中央单元将全局最优参数下发至各节点，节点更新本地模型后重复执行与经验采集流程，形成策略迭代优化的闭环，实现水声网络多节点信道接入的全局协同与性能持续提升。本文中分别在分布式执行阶段应用带状态增强的周期传输决策、在奖励计算环节应用带标准差的周期奖励函数、在集中式训练的策略更新环节应用带GAE的序贯策略更新，三者共同构建完整的策略优化逻辑，具体介绍于下文讲解。

（2）带状态增强的周期传输决策

在时空不确定性下，每个智能体的决策及其影响跨越多个时隙，提高吞吐量的最优调度也遵循多时隙模式。在实际情况中，决策和观测是相互连续影响的。因此，智能体仅基于前一个时隙的观测做出决策，或仅为下一个时隙做出决策，都是不准确的。基于此，在分布式执行阶段提出了带状态增强的周期决策机制，该机制融入了过去时隙的历史观测-动作对。通过这种机制，节点能够更好地捕获其动作的延迟效应。

图2 周期传输决策机制的架构

在提出的方法中，所有智能体以固定的周期T_p做出决策。这使得智能体不仅能够在预定的未来时隙内规划决策，还能将决策扩展到多个未来时隙。并且为了充分了解多个时隙内决策与观测之间的关系，智能体将过去M个时隙的历史“动作-观测”对融入当前状态，从而获得更丰富的状态表征，使智能体能够为即将到来的T_p个时隙做出更有效的决策。

另一方面，为了捕获时间依赖性，采用门控循环单元（GRU）作为智能体的演员网络。在GRU架构中，更新门和重置门共同决定历史观测和动作的影响。具体而言，更新门使网络能够在长时间步内保留相关的历史信息（例如最近的传输），而重置门则学习丢弃不相关的信息（例如已完成的事件）。这种设计使GRU能够从历史数据中提取时间相关性，并在经验定义的窗口T_p内做出传输决策。这使得DA-MARLA能够利用固有的时空特性实现不同节点的并发传输，从而提高信道利用率，而不仅仅是通过保护间隔来缓解传播延迟的影响。

（3）带标准差的周期奖励函数

图3 周期性奖励函数机制架构

为了适应周期传输决策，本文设计了一种基于过去多个时隙决策标准差p的指标。具体而言，较高的p值表明智能体之间的行为差异较大——通常是一个智能体频繁发送而其他智能体主要等待。通过惩罚这些传输不平衡，所提机制防止节点过度空闲或过度传输，有效地将长传播延迟转化为优势而非限制。因此，该标准差项量化了整个网络传输活动的平衡程度，值越低表示介质访问效果越好。

（4）带GAE的序贯策略更新

图4 序贯策略更新架构

在水声自组织网络中，由于通信受限，智能体面临协调问题。作为CTDE框架的一部分，集中式训练通过允许智能体在训练阶段获取全局信息，显著缓解了协调问题。但由于时空不确定性，智能体的部分观测可能无法准确反映网络的当前状态，所以本文采用序贯策略更新机制来提高水声自组织网络中分布式节点协作传输策略的训练效率。

带GAE的序贯策略更新以广义优势估计（GAE）与PPO裁剪机制为核心，按 “时序经验预处理→优势值平滑计算→分批次策略迭代” 的序贯流程运行，其逻辑为：中央单元收集各节点的周期经验样本后，先通过GAE引入衰减系数与折扣因子，对多步优势值进行加权融合，生成方差更低、抗延迟波动能力更强的GAE优势值，解决水声网络动作延迟导致的评估偏差问题；再基于该优势值构建PPO裁剪目标函数，通过限制新旧策略的概率比范围避免策略更新幅度过大；随后将经验样本分批次按序迭代，采用随机梯度下降优化演员网络与GRU门控参数，同时结合集中式评论员网络的状态值评估优化，实现策略的稳定更新，最终将全局最优参数同步至分布式节点，完成一次序贯更新周期。

04 实验结果分析

1. 吞吐量性能验证

图5 三节点场景下不同传播延迟的吞吐量

（a）相同的传播延迟（b）部分相同的传播延迟（c）完全不同的传播延迟

表1 基于DRL和MARL的协议在三种拓扑下所有智能体的个体吞吐量

所提出的DA-MARLA协议在三种拓扑中均能实现1.5的最优网络吞吐量。相比之下，传统方法实现的最大吞吐量为0.4，不足最优网络吞吐量的一半。基于DRL和MARL的基准协议的吞吐量未超过1。此外，DA-MARLA协议的性能稳定，而随着不同节点之间传播延迟的差异增大，基于DRL的协议往往变得极其不稳定。这是因为DA-MARLA协议中的基于周期的机制考虑了多个时隙的观测和决策，降低了对不同节点传播延迟的敏感性。

2. 周期参数对性能影响

图6 不同神经网络结构下的性能比较

图7 不同奖励函数配置下的性能比较

图8 不同ζ值的性能比较

决策周期长度分别设置为1、2、4、8，对比两种神经网络结构：一种包含GRU层（即 GRU），另一种采用FC层（即多层感知器（MLP））。带有GRU层的DA-MARLA协议在吞吐量方面显著优于带有FC层的协议。这得益于GRU层的门控机制，该机制能够有效捕获智能体之间的时间关系，从而帮助多智能体系统学习协作传输策略。当奖励周期长度从4增加到8时，收敛时间显著增加。值得注意的是，较短的奖励周期（例如单步和两步设置）在收敛速度方面没有优势，这是因为较短的周期不足以捕获长传播延迟的影响，导致收敛速度较慢。本文将奖励周期长度设置为4，在性能增益和收敛速度之间取得平衡。

图9 不同t值的性能比较

较大的训练时序参数t值导致收敛速度较慢，当t=50时，训练过程表现出显著的波动，这是因为短间隔内积累的经验（即控制信息）不足，影响了集中式更新的准确性，更频繁的信息交换可能会增加冲突概率。

3. 扩展性与动态环境适应性

图10 DA-MARLA协议在动态环境下的总吞吐量

图11 大规模环境下各类协议的拓扑结构及总吞吐量

DA-MARLA实现了4.0的吞吐量，显著优于所有基准方法，与MAPPO和DRQN相比，DA-MARLA协议的吞吐量增益分别为135%和400%。这种良好的扩展特性归功于所提出的序贯策略更新机制，该机制使每个智能体在训练过程中能够考虑其他智能体的最新策略。在大规模网络中，这种序贯方法具有两个关键优势：1）减轻了多智能体系统中同时更新通常会出现的性能不稳定性；2）通过允许每个智能体适应前序智能体策略已固定的更稳定环境，简化了信用分配问题。

DA-MARLA算法对环境变化的适应性实时吞吐量可以看出，DA-MARLA协议能够适应传播延迟的变化。一旦DA-MARLA检测到吞吐量下降，就会在线重新训练策略。尽管环境动态性导致性能下降，但系统仍保持相对较高的吞吐量，并逐渐适应有效的策略。但在快速动态场景中，吞吐量会受到影响。

05 总结

本文提出了一种新颖的基于MARL的MAC协议，即DA-MARLA，用于分布式水声自组织网络。该协议通过利用多数据包并发传输的机会实现了更高的吞吐量。DA-MARLA的一个显著特点是能够解决长传播延迟下分布式节点的协调问题。在当前工作中，假设所有节点始终有数据要传输（即饱和业务条件）。然而，实际水下部署通常表现出与这种饱和模型显著不同的多样化业务模式。因此，未来的工作将研究能够处理非饱和情况的协议设计，并探索先进技术，如数字孪生辅助训练和元学习，以实现动态环境中更稳健的适应。

END

==河海大学网络与安全实验室==

微信搜索：Hohai_Network

联系QQ：1084561742

感谢关注！

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：网络与安全实验室《每周文章分享-243》