2026-03-05 21:12:29 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 本文详细解析核心交换机CPU飙升的十大原因，指出高负载源于控制平面过载而非数据流量。主要诱因包括广播风暴、路由震荡、ACL首包及管理流量雪崩等。文章结合华为与Cisco设备实例，提供了具体的诊断命令与根治方案，如开启CoPP防护、优化STP配置及限制SNMP速率。最后总结排查SOP，强调需通过保护控制平面来确保设备稳定运行，具有极强的实战指导价值。 综合评分： 86 文章分类： 网络安全,实战经验,应急响应,解决方案

cover_image

核心交换机CPU飙到99%，那种心跳加速的感觉，大家肯定都经历过

原创

圈圈圈圈

网络技术干货圈

2026年3月4日 08:58 江苏

点击上方网络技术干货圈，选择设为星标

优质文章，及时送达

转载请注明以下内容：

来源：公众号【网络技术干货圈】

作者：圈圈

ID：wljsghq

为什么核心交换机CPU这么“娇贵”？

以太网交换机（不管是华为、H3C、Cisco还是Arista）都采用Control Plane + Data Plane分离设计：

Data Plane（数据平面）：ASIC芯片负责线速转发，CPU几乎不参与。
Control Plane（控制平面）：CPU专职处理“管理报文”——路由协议更新、ARP请求、SNMP轮询、日志、NetFlow采样、ACL首包、punt报文等。

当CPU利用率超过70%时，控制平面就开始抖动；超过85%时，路由协议可能丢包、OSPF/BGP邻居Down；超过95%时，整机可能出现丢包、黑洞、高延时甚至主备倒换失败。

所以CPU高 ≠ 流量大，而是“控制平面被打爆了”。

下面我按发生频率从高到低，给你拆解十大罪魁祸首，每一条都配真实案例+排查命令+根治方案。

一、广播/组播风暴

发生频率Top1，占我经手案例的38%

典型场景：机房新增一台二层交换机忘记开STP，或者光模块故障导致环路。

现象：CPU瞬间从10%冲到99%，所有接口input rate暴涨，但output rate却很低（因为CPU处理不过来）。

华为/H3C命令一键诊断：

display cpu-usagedisplay&nbsp;interface&nbsp;brief&nbsp;|&nbsp;include&nbsp;(Broadcast|Multicast)display storm-controldisplay mac-address flapping

Cisco命令：

show&nbsp;processes cpu sortedshow&nbsp;interface&nbsp;|&nbsp;include broadcastshow&nbsp;spanning-tree inconsistentports

根治方案（三板斧）：

全局开启storm-control（推荐值：broadcast 5%，multicast 10%）
所有接入口强制portfast + bpduguard
核心交换机开启loopback-detection（华为）或loop-guard（Cisco）

2023年我们财务系统机房新增一台POE交换机，网管直接接在核心上没开STP，广播风暴持续47秒，核心CPU 99.8%，导致ERP系统全部超时。事后我把全网1200个接入端口全部脚本化开启storm-control，再也没发生过。

二、路由协议震荡（BGP/OSPF flapping）

核心交换机通常跑iBGP/eBGP或OSPF Area 0，一旦邻居频繁Up/Down，CPU直接起飞。

常见诱因：

对端链路抖动（光衰、SFP老化）
MTU不匹配导致Keepalive丢包
BFD session误杀
路由表爆炸（某客户一次引入10万条默认路由）

诊断命令（华为）：

display&nbsp;bgp peer verbose &nbsp; # 看Flaps次数display&nbsp;ospf peerdisplay&nbsp;cpu-usage process bgp

根治：

所有eBGP邻居强制开启BFD（检测时间50ms）
核心交换机做BGP Route-Reflector时，开启dampening
路由前缀过滤：ip prefix-list DENY-DEFAULT deny 0.0.0.0/0

我处理过最严重的一次：某供应商BGP peer每3分钟flap一次，CPU持续在92%，导致全网路由收敛延迟高达8秒。最后我发现是对端用了廉价光模块，换成原装后CPU立刻掉到15%。

三、ACL/PBR/策略路由首包punt到CPU

现在很多公司做了微分段、零信任，核心交换机上挂了几百条ACL。第一次命中ACL的报文要punt到CPU处理，如果流量突发（比如双11秒杀），CPU直接被打爆。

诊断：

display&nbsp;acl resource &nbsp; # 看硬件表项使用率display&nbsp;cpu-usage process acl

优化方案：

所有ACL最后加一条permit ip any any（防止implicit deny punt）
核心交换机开启ACL turbo（华为NE系列默认开）
改用硬件支持的Security Group Tag（SGT）替代传统ACL

四、管理流量雪崩（SNMP + Syslog + Netconf）

监控平台每5秒轮询一次核心交换机1000+ OID，Zabbix/Nagios直接把CPU干到70%。再加上syslog级别设成debug，瞬间爆炸。

一键检查：

display&nbsp;snmp-agent statisticsdisplay&nbsp;info-center statistics

终极优化（我现在全网统一配置）：

SNMP改成v3 + context + 只读OID子集
Syslog级别降到warning，每台设备本地缓存10000条
开启CoPP（Control Plane Policing），给SNMP限速64kbps

五、DDoS针对控制平面

攻击者不打数据面，直接打CPU：大量TCP SYN to CPU端口（179/BGP）、大量ARP request、大量ICMP unreachable等。

华为CoPP防护模板（直接复制）：

copp&nbsp;policy COPP-DEFEND&nbsp;car cir&nbsp;1000&nbsp;pps green pass yellow discard &nbsp;&nbsp;# BGP&nbsp;car cir&nbsp;500&nbsp;pps &nbsp;&nbsp;# ARP&nbsp;car cir&nbsp;200&nbsp;pps &nbsp;&nbsp;# ICMP

我2022年处理过一次外部扫描攻击，攻击者每秒10万ARP请求，核心CPU 99.9%长达2小时。开启CoPP后，CPU立刻降到22%，攻击报文被硬件丢弃。

六、多播/IGMP snooping失效

视频会议、IPTV、股票行情推送，一旦IGMP querier失效，全网多播洪泛，CPU狂飙。

检查命令：

display&nbsp;igmp snooping statisticsdisplay&nbsp;multicast routing-table

方案：核心交换机强制做IGMP querier + PIM sparse-mode + SSM mapping。

七、STP/MSTP/RSTP大规模收敛

机房割接时，一次性Up 20条链路，STP要计算2000+端口，CPU瞬间冲高。

预防：

所有非根桥端口配置spanning-tree portfast + bpdufilter
核心交换机开启spanning-tree loopguard
推荐改用EVPN/VXLAN替代传统STP（我们明年规划）

八、调试命令没关（debug all / terminal monitor）

新同事上线调试，一条debug ip packet没关，CPU直接起飞。

全局检查：

display&nbsp;debugundebug all &nbsp;&nbsp;# 一键关闭

九、硬件/固件Bug

我遇过：

某批次SFP+光模块内存泄漏，导致CPU进程phy持续90%
华为CE12800早期版本VLAN 4094硬件表项Bug
电源模块老化导致电压不稳，CPU频率自动降频反而更耗

解决：定期display version比对补丁，display diagnostic看硬件健康。

十、NAT会话爆炸 / 高并发连接

虽然核心交换机一般不做NAT，但某些场景（出口防火墙旁路、SD-WAN）会把NAT会话打到核心，CPU处理session aging。

检查：

display&nbsp;nat session statistics

方案：把NAT下沉到边缘防火墙，或开启硬件NAT加速。

实战排查SOP（建议打印贴在机房墙上）

5分钟定位法（我每次都这么干）：

display cpu-usage → 记下Top5进程
display ip routing-table summary → 看路由表大小
display interface | include rate → 看哪个口异常
display arp all | count → ARP表是否爆炸
display logbuffer → 最近有没有异常日志

如果还定位不了，立即做：

SPAN镜像到分析仪看punt报文
开启NetFlow/sFlow采样到Grafana
抓包CPU端口（华为mirror to cpu）

“核心交换机CPU高，从来不是流量的问题，而是你没管住‘控制平面’。”

只要把控制平面保护好，数据平面再怎么跑100Gbps，CPU也能稳在15%以下。

—END— 重磅！网络技术干货圈-技术交流群已成立扫码可添加小编微信，申请进群。一定要备注：工种+地点+学校/公司+昵称（如网络工程师+南京+苏宁+猪八戒），根据格式备注，可更快被通过且邀请进群 ▲长按加群

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：网络技术干货圈圈圈圈圈《核心交换机CPU飙到99%，那种心跳加速的感觉，大家肯定都经历过》