2026-01-27 14:46:57 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 本文提出ByteDance方案，解决多视角加密流量分类中特征提取难与视角抑制问题。通过两阶段字节特征提取策略提升特征质量，利用基于原型网络的动态梯度补偿机制平衡训练梯度。实验表明，该方法在多个数据集上精度超越基线，且在模型开销与效率间取得良好平衡。 综合评分： 94 文章分类： AI安全,网络安全,解决方案,安全工具

cover_image

东南大学 |ByteDance ：让字节在多视角加密流量分类中表现卓越

原创

小编小编

安全学术圈

2026年1月26日 21:31 四川

原文标题：ByteDance: Let bytes perform brilliantly in multi-view encrypted traffic classification 原文作者：Yuwei Xu, Zhiyuan Liang, Xiaotian Fang, Kehui Song, Meng Wang, Qiao Xiang, Guang Cheng 代码链接：https://github.com/xuyw-seu/ByteDance 发表期刊：Computer Networks 笔记作者：王朋洋、张正 主编：黄诚@安全学术圈

一、背景介绍

随着深度学习在计算机视觉与自然语言处理领域的突破，其卓越的特征提取能力已受到网络安全领域研究者的青睐，被应用于解决加密流量分类（Encrypted Traffic Classification, ETC）难题。从加密流量数据表征的角度，基于深度学习的ETC研究分为两条主流技术路线：一是基于包长、时间间隔等统计特征而构建的时序视角（T-view）；二是基于原始数据包内容的字节视角（B-view）。

近年来，受多模态学习的启发，一些研究采用多视角学习（Multi-view Learning）策略，希望融合 T-view 中的宏观时序特征与 B-view 中的微观字节特征，以实现互补，提升加密流量的分类表现。然而，实验结果表明，已有的多视角ETC方案并未取得超越单视角方案的分类表现。实际效果与理论预期的落差促使本文作者重新审视基于多视角的加密流量分类研究。

二、问题分析

为了探究这一反直觉现象背后的成因，本文作者在4个加密流量数据集上对3种前沿的多视角 ETC 方案（APP-NET, PEAN, DM-HNN）进行了详尽的对比实验。实验结果揭示，当前多视角 ETC 模型主要受制于两大技术瓶颈：字节特征提取不够精确与视角之间出现抑制现象。

1. 字节特征提取不够精确

实验结果显示，仅采用 B-view 的模型分类准确率显著低于仅采用 T-view 或同时采用两个视角的模型分类准确率，说明现有模型未有效提取 B-view 中的特征，进而影响了模型的整体性能。该问题存在以下两个原因：

首先，现有多视角的ETC方案大多直接从应用层有效载荷中提取特征。然而，随着 TLS 1.3 和 QUIC 等加密协议的普及，加密技术使得载荷数据被严重混淆和扩散，导致深度学习模型难以从中提取出具备辨识度的特征。

其次，现有的字节特征提取方案存在设计缺陷，往往将字节流简单看作一维“文本”或二维“图像”，进而直接套用 NLP 或 CV 领域的经典神经网络架构。这些做法虽然捕捉了报文中的局部字节特征，但忽略了网络数据包中各字段的具体含义及其内在的逻辑联系，从而导致关键结构化特征的遗漏。

2. 视角之间出现抑制现象

除了特征提取层面的不足，多视角联合训练过程中的优化失衡也是制约分类模型性能的重要原因。实验结果显示，在两个视角的联合训练下，T-view 的性能几乎未受到影响，而 B-view 则表现出不同程度的性能衰减，即 B-view 被 T-view 所抑制。

出现上述抑制现象的原因在于梯度竞争——梯度下降优化算法倾向于优先更新梯度较大的参数（即 T-view 的参数）。由于沿着 B-view 路径的梯度下降幅度较小，使得在多视角模型整体收敛时，B-view 路径实际上未得到充分优化，从而限制了在特征融合后分类模型的性能上限。

尽管已有 ETC 的研究工作尝试先通过预训练特征提取模块，再冻结参数进行联合微调来缓解上述问题，但这种做法引入了繁琐的预训练与微调步骤，显著增加了模型训练的复杂度和开销负担。人工智能领域的先进研究表明，通过调节梯度幅度和方向，可以使多任务训练保持平衡，这为缓解 B-view 的抑制提供了新的思路。

三、ByteDance设计

针对字节特征不精确以及B-View在联合训练中受抑制的问题，作者在论文中提出了一种名为 ByteDance 的多视角加密流量分类方案。如下图所示，ByteDance 采用层级化设计，主要包含输入层、特征提取层与融合平衡层。

3.1 整体架构

ByteDance 的处理流程旨在实现从原始异构数据到高维判别特征的精准映射，不同层级的设计如下：

输入层：该层作为加密流量分类的初始阶段，主要负责原始会话样本的特征生成与数据清洗，以构建高质量的模型输入。

T-view 数据处理：提取带有方向的数据包长度序列以表征时序特征，并执行零负载数据包剔除操作，以消除无效传输造成的干扰。
B-view 数据处理：针对原始字节矩阵信息密度低的问题，首先去除设备指纹信息（如 IP 地址和端口号）以消解非流量相关的特征偏差。随后，执行两阶段字节特征提取策略（TBFE）的第一阶段（模糊字节筛选），根据汇总的字节分布从字节矩阵中提取一个子矩阵，从而将低密度矩阵转换为高密度矩阵，包含更有效的信息。

特征提取层：该层采用双视角深度学习架构，并行地捕捉网络流量中的时间序列模式与字节级语义关联。

T-view 路径：基于标准的 Transformer 编码器构建，对嵌入后的时序矩阵进行建模，旨在精确捕获会话行为中固有的时间序列模式。
B-view 路径：实施 TBFE 策略的第二阶段（精确字节提取）。利用局部注意力模块捕获单数据包内的字节级语义相关性，并结合无位置嵌入的 Transformer 编码器建立跨数据包的全局依赖关系，最终输出具有相应视角表示标记的高维特征向量。

融合平衡层：该层旨在解决双视角特征向量的对齐问题，以缓解多视角联合训练中的梯度失衡现象。

特征融合模块：首先基于网络会话的时间连续性，在数据包粒度上对双视角的特征向量进行张量对齐。随后，将时序模型对齐后的异构特征序列进行深度融合，生成具有跨视角关联性的融合特征向量。
动态梯度补偿 (PDGC)：引入基于原型网络的动态梯度补偿策略。该模块以视图表示 Token 为梯度量化基准，结合 PCE 损失函数构建动态补偿机制。通过对梯度传播强度的重加权，有效增强弱势视角（即 B-view）的优化力度，从而解决联合训练中 B-view 的欠优化问题。

3.2 核心组件一：两阶段字节特征提取策略 (TBFE)

为准确捕获字节特征，本文作者提出了两阶段字节特征提取策略（TBFE）。该策略根据协议格式及字段分布筛选数据包字节，然后采用局部注意力模块和Transformer编码器来准确提取字节特征。

第一阶段：模糊字节筛选

此阶段应用于模型的输入层，依据协议格式与字节分布规律对原始数据包进行过滤，解决加密载荷带来的特征模糊与扩散问题。

针对 TLS 1.3、QUIC 等协议普遍存在的载荷加密现象，该阶段依据网络协议栈结构（包括网络层头 NLH、传输层头 TLH 及应用层头 ALH），对包级别数据进行模糊截断。

系统预定义了各类流量协议的有效明文字节数，将原始稀疏的字节矩阵映射为紧凑的高密度子矩阵，在保留关键头部语义的同时，减轻与流量无关的特征带来的偏差。

第二阶段：精确特征提取

精确字节特征提取发生在特征提取层的 B-view 路径中。其核心功能是从模糊字节选择后的字节矩阵中提取准确的字节特征。此阶段由两个模块组成：局部字节特征提取模块和全局字节特征提取模块。

局部字节特征提取模块负责从每个数据包内的字节序列中提取特征。不同于传统的全连接自注意力，该模块引入了共享权重的固定窗口设计，将注意力计算严格限制在 NLH、TLH 和 ALH 三个独立的协议字段窗口内。这种设计不仅保持了协议分层的语义独立性，避免了跨字段信息的错误对齐，同时通过在个数据包间共享参数配置，有效提升了模型的计算效率。

全局字节特征提取模块从多个数据包的字节序列中提取特征。该模块使用不带位置嵌入的 Transformer 编码器实现。Transformer 内的自注意力机制突出了每个数据包字节向量的重要性，同时结合其他数据包的信息，有效捕捉全局字节级模式。

该模块使用了包含多头自注意力机制、残差连接、层归一化和前馈网络的 Transformer 编码器。并利用多头自注意力机制，将单个数据包的字节向量映射为融合了序列中其他数据包信息的上下文感知特征向量。其输入序列由两部分构成：一是来自局部特征提取模块的个数据包字节向量；二是一个随机初始化的视图表示 Token()。该 Token 的核心功能是聚合全序列的特征信息以表征当前视角的路径特征，并作为后续 PDGC（动态梯度补偿）模块的关键输入。

3.3 核心组件二：基于原型网络的动态梯度补偿 (PDGC)

本文作者利用原型网络高效学习路径特征并生成代表性的原型向量，进而实现动态梯度补偿。在训练迭代过程中，该策略通过计算路径特征向量与原型向量的相似度来动态分配权重，并将不同路径的权重比值作为梯度比值的量化指标。基于该比值，模型进一步计算 PCE 损失系数，旨在通过平衡优化的方式增强弱势路径的梯度传播与特征学习。

3.3.1. 原型向量 (Prototype Vectors)

原型向量旨在表征特定类别在特征空间中的中心分布特性。

定义与计算：对于给定类别，其原型向量被定义为该类别下所有样本特征向量的平均值。在本文的具体实现中，样本特征向量对应于各视角的视图表示 Token。

更新机制：为了保持表征的时效性，模型在每个训练 Epoch 开始时，会基于当前的样本分布重新计算所有类别的原型向量。

3.3.2. 路径权重 (Path Weight)

路径权重用于量化优化器在当前迭代中对不同视角路径的关注程度，并作为梯度比率计算的基础。

相似度度量：在每次训练迭代中，模型计算输入样本的特征向量与其对应类别原型向量之间的欧氏距离。

权重生成：基于上述距离，利用 Softmax 函数计算相似度概率以确定路径权重。距离越小（即特征向量越接近类中心），计算出的权重值越大，表明该路径在当前优化步骤中占据主导地位。

梯度比率映射：T-view 与 B-view 权重的比值被直接映射为梯度比率（Gradient Ratio, ），该比值直观地反映了视角间的优化不平衡状态（即 T-view 对 B-view 的抑制程度）。

3.3.3. PCE 损失 (Prototype-based Cross-Entropy Loss)

PCE 损失是一种基于原型的度量学习损失函数，旨在通过动态加权机制强化弱势视角的梯度传播。

优化目标：不同于标准交叉熵损失（CE Loss）优化预测分布与真实分布的差异，PCE 损失旨在建模样本与原型的相似度，通过最小化样本与所属类别原型的距离，增强特征的类内紧凑性。

动态补偿机制：该损失函数独立应用于两个视角，并结合标准 CE 损失构成总损失函数。系统根据计算出的梯度比率，动态生成 PCE 损失系数（和）。针对被抑制的 B-view，该机制会赋予其更大的损失系数，从而放大其梯度传播强度，实现多视角优化的动态平衡。

四、评估

4.1 实验设置

数据集选择：为了保证评估的广泛性和公平性，本文选取了4个从真实网络中收集的数据集进行测试。这些数据集涵盖了不同的流量类型和加密协议，能够充分验证模型在多样化场景下的表现。

CSTNET‑TLS1.3 数据集包含2018年捕获的120个网站的TLS 1.3流量。由于原始数据集中某些网站的样本数量有限，作者仔细选择了50个类别，这些类别为实验提供了足够的样本量。
MOBILE‑APP 数据集包含2023年在查尔姆斯理工大学5G基础设施上收集的网络数据包跟踪，包括1912个pcap文件。
TOR数据集于2023年7月12日至20日自行采集，包含Tor服务0.4.7.13版本中25个常用网站的流量数据。
TROJAN‑VPN数据集于2022年7月12日到19日自行采集，包含来自九个常用网站的超过50GB的VPN流量数据。

对比基线：文章将ByteDance与9种最先进的加密流量分类方案进行了对比。这些基线方案涵盖了基于单视角（仅使用时序T-view或仅使用字节B-view）的方法，以及现有的多视角融合方法。这种全面的对比设置旨在从准确性、模型复杂度和计算开销等多个维度验证ByteDance的优越性。

在基准方法中，FS‑NET和RF是经典的T-view方法，而ET‑BERT和TSCRNN采用B-view。其余五个包括MFFusion、PEAN、DM‑HNN、PET‑Net和GLADS，是先进的多视角方案。

评估指标：为了全面衡量模型性能，本文不仅关注分类准确率（ACC）、真阳性率（TPR）、假阳性率（FPR）、宏平均F1分数（F1m）以及TPR和FPR的比值（FTF），还重点考察了模型的运行效率指标，包括模型参数量、GPU显存占用以及模型的训练时间与推理时间。

实验环境：所有实验均在配备AMD Ryzen 7 5700X CPU、32GB内存和一块NVIDIA GeForce RTX 3090 GPU的主机上进行。框架运行在Python 3.10上，深度学习平台为PyTorch 1.12.1。训练参数汇总于下表。

4.2 ByteDance的分类性能表现

在对比实验中，ByteDance与9种最先进的ETC方案进行了比较。作者使用与前人研究中采用的比较方法相同的方式，对所有方案使用其最优超参数进行评估，实验结果有力地证明了 ByteDance 在加密流量分类任务上的卓越表现。

ByteDance在4个不同的加密流量数据集上实现了最佳性能。首先，它在所有四个数据集上都表现优异，达到了最高的准确率，并至少超过了最优基线 0.35%，最高可达 3.27%。其次，ByteDance在其他指标上也有显著提升，与其他方案相比，它在所有流量类别中展现了更好的分类平衡性。它在三个数据集上实现了最高的 TPR，在 TLS1.3 数据集上略低于ET‑BERT。ByteDance在所有四个数据集上都获得了最低的 FPR 值，与最近竞争对手的差异在 0.05% 到 0.34% 之间。ByteDance的 FTF 分数在所有四个数据集上都超过 95%，超越了所有基线方案。它的 F1m 分数在三个数据集上最高，仅在 TLS1.3 数据集上落后于ET‑BERT 0.07%。

为消除因数据包数量不一致而产生的偏差，作者在所有ETC方案中统一采用相同的输入数据包数量，并分析其分类性能。结果表明，当输入数据包数量保持一致时，ByteDance的分类性能依然强劲。当设置为20个输入数据包时，它在所有四个数据集上的准确率和F1m 分数均超过所有基线模型。当设置为10个输入数据包时，ByteDance在TLS1.3和TOR数据集上表现优于其他基线方案。在TROJAN‑VPN数据集上，ByteDance实现了最高的准确率和第二高的F1m分数。虽然它在MOBILE‑APP数据集上的性能略低于GLADS，但仍优于其他基线方案。

4.3 核心组件的有效性分析

为深入理解ByteDance所采用的核心模块的效能与合理性，作者在TLS1.3数据集上设计并执行了一系列消融实验，输入数据包数量固定为20。

当移除B‑view（w/o B‑view）时，该方案仅使用 T‑view 的准确率降至 92.73%。TPR 和 F1𝑚 降至 92.49% 和 92.25%，而 FPR 上升至 0.15%。这些结果表明 TBFE 策略对于提高分类准确率和降低误报率至关重要，证实了字节特征在ByteDance中的重要性。当移除 T‑view（w/o T‑view）时，准确率降至 81.52%，TPR 降至 81.33%，而 FPR 上升至 0.89%。此外，FTF 和 F1 分别降至 81.17% 和 80.72%。显著的性能下降突显了T‑view 在跟踪数据包序列变化和提升字节跳动鲁棒性方面的作用。

当移除PDGC策略（w/o PDGC）时，准确率降至93.03%，TPR降至92.92%，FPR升至0.14%。这些结果表明，PDGC策略通过缓解T视角对B视角的抑制，保持了平衡多视角特征表示的关键优势。

当从TBFE中移除模糊字节选择（w/o TBFE‑nFBS）时，通过将每个数据包的前400字节作为输入，准确率降至93.45%。TPR为93.43%，FPR升至0.14%。此外，FTF和F1𝑚 值分别降至93.55%和93.15%。结果表明，字节模糊选择机制有效过滤了无关字节，增强了关键字节特征的关注度，从而提升了整体性能。

最后，作者分别消融了局部字节特征提取器（w/o TBFE‑nLB）和全局字节特征提取器（w/o TBFE‑nGB）。与完整的 ByteDance 相比，这两种变体的分类性能显著下降。局部字节特征提取的缺失导致准确率下降约 6%，而移除全局字节特征提取则导致准确率显著下降约 10%。这些结果表明，局部和全局字节特征提取模块都是 TBFE 的关键组成部分。

为了全面分析 PDGC 策略在缓解视角抑制困境方面的影响，作者展示了 ByteDance 在三种情境下的准确率曲线：单视角模型、多视角模型以及通过 PDGC 策略增强的多视角模型。图示表明，PDGC 策略缓解了 T 视角对 B 视角的抑制，且未对主导的 T 视角产生负面影响。

为了评估 PDGC 策略在平衡梯度方面的有效性，作者根据绘制了一个图，显示训练过程中 T 视角和 B 视角之间的梯度比率。图示表明，与移除 PDGC 策略的变体相比，完整的 ByteDance在训练期间保持了更低的 T 视角/B 视角梯度比率，直观地展示了PDGC 在促进多视角梯度平衡方面的重要作用。

4.4 运行效率与资源开销

作者对ByteDance和所有基线进行了开销分析，包括参数数量、训练期间的 GPU 内存占用、训练时间和推理时间。

ByteDance仅使用1472 MB的GPU内存进行训练，使其成为内存效率最高的方案。在参数数量、训练时间和推理时间这三个指标上，GLADS的值最低，但使用了4.9 GB的GPU内存，并且在四个数据集上的表现都劣于ByteDance。ET‑BERT在TLS 1.3数据集上的表现与ByteDance相当，但它使用的计算资源和内存显著多于其他方案。此外，ByteDance的参数数量多于DM‑HNN，并且比DM‑HNN和PEAN都花费更长的时间进行推理，但它在整个四个数据集上提供了更好的分类精度。因此，这些结果表明ByteDance在分类性能和运行时效率之间取得了更好的平衡。

五、总结

作者针对多视角加密流量分类中出现的性能瓶颈，提出了 ByteDance 方案。通过引入两阶段字节特征提取 (TBFE) 和动态梯度补偿 (PDGC) 策略，成功解决了已有研究工作中字节特征提取不精确以及B-View视角被抑制的问题，实现了时序特征与字节特征的深度互补。实验结果表明，ByteDance 不仅在多个数据集上分类效果卓越，还在模型参数量与推理速度上表现优异，为实现高效的加密流量检测提供了新的技术路线。

安全学术圈招募队友-ing 有兴趣加入学术圈的请联系 secdr#qq.com

专题最新征文

期刊征文 | 暗网抑制前沿进展 (中文核心)
期刊征文 | 网络攻击分析与研判 (CCF T2)
期刊征文 | 域名安全评估与风险预警 (CCF T2)

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：安全学术圈小编小编《东南大学 |ByteDance ：让字节在多视角加密流量分类中表现卓越》