论文录用|NASP实验室PReCCL集合通信库论文被SIGCOMM2026录用

admin 2026-07-01 06:08:48 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: NASP实验室提出的PReCCL系统解决了大规模GPU集群训练中集合通信受拥塞和故障影响的问题。该系统通过虚拟拓扑抽象建模通信路径负载,利用带内遥测实时感知拥塞状态,并采用跨拓扑工作负载重分配机制动态迁移数据至健康路径。实验显示其在1024-GPU集群中最高提升通信性能2.1倍,训练性能提升1.21倍,且具备对NCCL的无侵入兼容性。 综合评分: 85 文章分类: 解决方案,技术标准,云安全


cover_image

论文录用 | NASP实验室PReCCL集合通信库论文被SIGCOMM 2026录用

NASPLab NASPLab

NASP网络实验室

2026年6月30日 15:08 北京

在小说阅读器读本章

去阅读

NASP实验室1篇论文通过One-shot revision,获SIGCOMM 2026录用。

[1] Zhiyong Chen, Kaihui Gao, Li Chen, Rui Yan, Zihan Yan, Fei Gui, Dan Li, Jiamin Cao, Jiaqi Gao. “PReCCL: Performant and Resilient Collective Communication via Integrated Inband Telemetry and Workload Reallocation”, ACM SIGCOMM 2026, Denver, Colorado, USA.

本论文针对大规模 GPU 集群训练中集合通信易受多租户拥塞和局部网络故障影响,导致单条慢路径拖慢整个集合通信任务的问题,提出了一种高性能、可恢复的集合通信系统 PReCCL。PReCCL 首先对集合通信任务进行建模,提出虚拟拓扑(Virtual Topology, VT)抽象,用于刻画集合通信在多条通信路径上的负载分布与性能差异。在此基础上,PReCCL 设计了一种应用层拥塞异常感知方法,通过带内遥测在集合通信执行过程中感知不同 VT 的拥塞和异常状态,并结合跨 VT 工作负载重分配机制,将后续通信任务中的数据从拥塞或故障 VT 迁移到更健康的 VT。针对不同集合通信算法,PReCCL 分别适配了 Ring、Tree 和 AlltoAll:对 Ring 和 Tree 动态调整各 VT 的数据量,对 AlltoAll 则通过更健康的 VT 自适应中继流量。实验结果表明,PReCCL 基于NCCL的扩展实现,具备良好的无侵入兼容性。在 32-GPU 测试床、大规模仿真和 1024-GPU 生产集群试运行中,将集合通信完成时间最高提升 2.1 倍,将端到端训练性能提升 1.21 倍。

论文第一作者为清华大学博士生陈智勇,完成单位包括清华大学、阿里云、中关村实验室。

ACM SIGCOMM是计算机网络领域入选计算机科学顶级学术会议列表CSRankings(https://csrankings.org)的两大国际学术会议之一(另一会议为USENIX NSDI)。


免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:NASP网络实验室 NASPLab NASPLab《论文录用 | NASP实验室PReCCL集合通信库论文被SIGCOMM 2026录用》

评论:0   参与:  0