让网络交换机”聪明”起来:数据平面智能化的探索之路

admin 2025-12-22 04:37:37 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: 这篇文章介绍了清华大学徐恪教授团队在智能数据平面技术方面的系列研究工作,从NetBeacon到FENIX,展示了如何将机器学习模型直接部署在网络转发设备中,实现微秒级延迟、Tbps级吞吐的流量分析。文章详细阐述了四个系统的技术演进:NetBeacon建立流状态管理和决策树推理,Brain-on-Switch引入神经网络,Pegasus提供通用深度学习框架,FENIX通过异构硬件协同突破资源限制,为构建更智能、高效、安全的下一代网络基础设施提供了技术路径。 综合评分: 87 文章分类: 网络安全,AI安全,应用安全


cover_image

让网络交换机”聪明”起来:数据平面智能化的探索之路

赛博新经济

2025年12月14日 20:11 北京

网络流量的爆炸式增长和应用场景的多样化,使传统的”采样-传输-分析”模式难以满足实时性和准确性的双重要求。智能数据平面技术将机器学习模型直接部署在网络转发设备中,实现了微秒级延迟、Tbps级吞吐的流量分析。本文梳理了清华大学徐恪教授,李琦老师和刘卓涛老师从NetBeacon到FENIX的系列研究工作,展现了智能数据平面技术如何从决策树演进到深度神经网络,从单一硬件突破到异构协同,逐步解决准确率、延迟和吞吐量之间的”铁三角”约束。

01

研究背景与挑战

1.1 为什么需要智能数据平面?

随着网络流量规模的日益增长,传统网络监控方法采用”采样-传输-分析”模式,将流量镜像到控制平面或专用设备进行处理,这种方式存在明显的局限性:

响应延迟大:从数据平面采样、传输到控制平面、完成分析再下发策略,整个过程通常需要数十毫秒甚至数秒,难以满足DDoS攻击防御等实时场景的要求。

处理能力受限:随着400G、800G网络接口的部署,将全部流量镜像到控制平面已不现实。带宽消耗和计算开销的增长迫使系统采用激进的采样策略,导致信息丢失。

扩展性不足:大规模数据中心可能包含数万台服务器和数千台交换机,集中式的流量分析架构难以应对这样的规模。

可编程网络技术的发展为解决这些问题提供了新思路。P4语言和可编程交换机ASIC允许用户自定义数据包处理逻辑,使得在数据平面直接进行线速(Tbps级)、低延迟(微秒级)的分析成为可能。

1. 2 核心技术与挑战

将机器学习算法部署到交换机数据平面需要解决”准确率-延迟-吞吐量”之间的约束关系:

硬件资源约束:可编程交换机采用PISA(Protocol Independent Switch Architecture)架构,其SRAM容量通常在数十MB量级,远小于通用服务器;ALU数量和流水线级数也受到严格限制,复杂的深度学习模型难以直接部署。

计算模型限制:交换机的Match-Action流水线架构主要为包转发设计,不支持循环、递归等控制流,也缺乏浮点运算单元,传统深度学习框架中的许多操作无法直接映射到交换机硬件。

性能与精度的平衡:高精度的机器学习模型通常需要大量参数和复杂计算,而数据平面必须在纳秒级别完成每个数据包的处理。如何在极端资源约束下保持模型的判别能力,是一个基本问题。

状态管理:流量分析需要跟踪连接状态、统计历史特征,但交换机的状态存储能力有限。如何在数百万并发流中有效维护必要的状态信息,同时避免内存耗尽,是工程实现的难点。

02

技术演进:从流分析到异构硬件协同

近年来,清华大学徐恪教授,李琦老师和刘卓涛老师围绕“智能数据面”展开了一系列连续工作,推动可编程交换机在流量分析上的能力不断延展:NetBeacon利用流级特征提升分析准确性,Brain-on-Switch在数据面上引入神经网络增强表达能力,Pegasus进一步构建通用深度学习框架以支持更多模型结构,FENIX则通过交换机与FPGA协同突破了模型规模限制。这四项研究实质上是在挑战由吞吐量、模型规模与模型多样性构成的三维制约空间。受限于交换芯片有限的流水线级数、片上内存资源与匮乏的计算能力,提升单一指标往往意味着对其他维度的妥协。团队通过在三维坐标系中的不同技术取舍,勾勒出一条在性能与灵活性间寻找平衡的演进路径。

具体来看,NetBeacon作为早期探索,广泛支持各类决策树模型,但复杂统计特征的计算使其需要分阶段推理,限制了其吞吐上限;BoS引入二值RNN消除了特征工程需求实现了真正意义上的线速,但却局限于模型规模和多样性;Pegasus通过深度学习原语化,在保持线速的同时显著扩充了支持的模型种类与大小;FENIX则借助FPGA扩展,牺牲部分吞吐以换取对大规模、丰富类型模型的支持。值得注意的是,本图特意剥离了诸如BoS离线增强等通用优化手段,以最纯粹的视角呈现各系统在三维制约空间中的原生能力边界。

2.1 NetBeacon(2023 USENIX Security)

从包级到流级的分析视角

NetBeacon获得USENIX Security 2023杰出论文奖,标志着智能数据平面研究进入新阶段。此前的数据平面分析方法主要使用单个数据包的头部信息进行判断,这种”包级特征”提取简单但判别能力有限。

NetBeacon的主要贡献是在交换机上建立流级分析能力。系统在数据平面维护流状态,聚合同一连接中多个数据包的信息,提取包到达间隔、包长序列等统计特征。这些流级特征包含了通信行为的时序模式,能够更好地区分不同应用和攻击类型。

为应对有限内存的挑战,NetBeacon设计了长短流分离机制:包数较少的短流直接放行或使用简单规则处理,长流才进入状态跟踪和特征提取流程。此外,系统采用安全的哈希存储重用策略,在流结束后及时回收内存。

在模型层面,NetBeacon部署多阶段决策树,将复杂的分类任务分解为多个简单的二分类判断,每个判断对应一个Match-Action表项。实验显示,在P2P应用识别、隐蔽通道检测和DDoS攻击检测任务中,NetBeacon相比包级特征方案的准确率分别提升了14%、38%和20%,同时保持了微秒级的处理延迟和Tbps级的吞吐量。

NetBeacon验证了在交换机上进行复杂流量分析的可行性,但决策树模型的表达能力仍然有限,面对更复杂的任务准确率存在上限。

2.2 Brain-on-Switch(2023 USENIX NSDI)

在交换机上部署神经网络

发表于USENIX NSDI 2024的Brain-on-Switch(BoS)解决了一个关键问题:如何在交换机上部署循环神经网络。神经网络相比决策树具有更强的表达能力,但其计算特性与交换机硬件差异很大。

BoS提出了二值RNN架构:保留全精度权重参数,仅对激活函数的输出进行二值化。这样做可以将复杂的浮点乘法转换为整数加法,通过Match-Action表实现高效推理。系统引入滑动窗口机制处理变长序列输入,使RNN能够适应不同长度的流量模式。

BoS还设计了升级分析机制:交换机完成绝大部分流量的线速分析,将低置信度样本转发至服务器上的Transformer模型进行更精确的判断。这种”快速通道+精确通道”的架构在效率和准确率之间取得了平衡。

实验结果表明,BoS相比决策树和MLP方案的准确率分别提升了19%和40%,证明了神经网络在数据平面的实用价值。但BoS的架构是为RNN专门设计的,缺乏通用性,难以支持CNN、Transformer等其他模型。

2.3 Pegasus(2025 ACM SIGCOMM)

通用深度学习框架

发表于ACM SIGCOMM 2025的Pegasus提出了数据平面深度学习的通用解决方案。核心创新是将深度学习操作统一抽象为三个基础原语:

  • Partition:输入分区
  • Map:局部变换与计算
  • SumReduce:跨分区聚合

通过这三个原语的组合,Pegasus可以支持CNN、RNN、AutoEncoder等多种架构。系统引入模糊匹配机制来降低存储开销,通过原语融合优化执行效率。

实验显示,相比N3IC、BoS和Leo等现有方案,Pegasus的准确率平均提升了17-23%,可部署的模型规模扩大了200倍以上。Pegasus首次实现了AutoEncoder在数据平面的无监督异常检测,AUC达到89%以上。

Pegasus的通用性是一个重要进展,但单一交换机ASIC的资源仍然制约了模型复杂度的上限,难以部署百万参数级的大规模模型。

2.3 FENIX(2026 USENIX NSDI)

异构硬件协同架构

即将发表于USENIX NSDI 2026的FENIX突破了单一硬件的限制,提出了”交换机ASIC + FPGA”的混合架构:

数据引擎:在交换机上进行轻量级的特征提取和预处理,利用概率令牌桶算法控制特征流速率,解决交换机与FPGA之间的吞吐差异问题。

模型引擎:在FPGA上部署完整的深度神经网络,突破交换机ASIC的计算和存储限制,支持更大规模、更复杂的模型。

基于自研的可编程交换机平台,FENIX实现了2.3微秒的推理延迟、多Tbps的处理能力和90%以上的分类精度。相比控制平面方案,延迟降低了近三个数量级,首次同时满足了高准确率、低延迟和高吞吐量三个目标。

03

总结与展望

回顾这一系列工作,可以看到智能数据平面技术正沿着清晰的演进路径不断发展:

NetBeacon 建立了流状态管理和决策树推理的基础架构,证明了在交换机上进行复杂流量分析的可行性。

Brain-on-Switch 引入了神经网络模型,通过二值化RNN和升级分析机制,在保持线速处理的同时显著提升了准确率。

Pegasus 抽象出通用的深度学习原语,使数据平面能够支持多种模型架构,实现了从专用方案到通用框架的跨越。

FENIX 通过软硬件协同设计,突破了单一硬件平台的资源瓶颈,首次实现了高准确率、低延迟和高吞吐量的统一。

这些工作不仅在学术上获得了国际认可(连续发表于USENIX Security、NSDI和ACM SIGCOMM顶级会议),更重要的是为网络智能化提供了切实可行的技术路径。代码的开源也为学术界和工业界进一步探索这一领域提供了基础。

未来,随着可编程网络硬件性能的持续提升和新型加速器的出现,智能数据平面技术有望在更多实际网络中得到部署,为构建更加智能、高效、安全的下一代网络基础设施做出贡献。

04

相关资源

  • NetBeacon:

    https://github.com/IDP-code/NetBeacon

  • Brain-on-Switch: https://github.com/InspiringGroup-Lab/Brain-on-Switch

  • Pegasus: https://github.com/afireswallow/Pegasus

  • FENIX: https://github.com/IntelliSwitch/FENIX


查看原文:《让网络交换机”聪明”起来:数据平面智能化的探索之路》

评论:0   参与:  4