文章总结: 本文详细解析核心交换机CPU飙升的十大原因,指出高负载源于控制平面过载而非数据流量。主要诱因包括广播风暴、路由震荡、ACL首包及管理流量雪崩等。文章结合华为与Cisco设备实例,提供了具体的诊断命令与根治方案,如开启CoPP防护、优化STP配置及限制SNMP速率。最后总结排查SOP,强调需通过保护控制平面来确保设备稳定运行,具有极强的实战指导价值。 综合评分: 86 文章分类: 网络安全,实战经验,应急响应,解决方案
核心交换机CPU飙到99%,那种心跳加速的感觉,大家肯定都经历过
原创
圈圈 圈圈
网络技术干货圈
2026年3月4日 08:58 江苏
点击上方 网络技术干货圈,选择 设为星标
优质文章,及时送达
转载请注明以下内容:
来源:公众号【网络技术干货圈】
作者:圈圈
ID:wljsghq
为什么核心交换机CPU这么“娇贵”?
以太网交换机(不管是华为、H3C、Cisco还是Arista)都采用Control Plane + Data Plane分离设计:
- Data Plane(数据平面):ASIC芯片负责线速转发,CPU几乎不参与。
- Control Plane(控制平面):CPU专职处理“管理报文”——路由协议更新、ARP请求、SNMP轮询、日志、NetFlow采样、ACL首包、punt报文等。
当CPU利用率超过70%时,控制平面就开始抖动;超过85%时,路由协议可能丢包、OSPF/BGP邻居Down;超过95%时,整机可能出现丢包、黑洞、高延时甚至主备倒换失败。
所以CPU高 ≠ 流量大,而是“控制平面被打爆了”。
下面我按发生频率从高到低,给你拆解十大罪魁祸首,每一条都配真实案例+排查命令+根治方案。
一、广播/组播风暴
发生频率Top1,占我经手案例的38%
典型场景:机房新增一台二层交换机忘记开STP,或者光模块故障导致环路。
现象:CPU瞬间从10%冲到99%,所有接口input rate暴涨,但output rate却很低(因为CPU处理不过来)。
华为/H3C命令一键诊断:
display cpu-usagedisplay interface brief | include (Broadcast|Multicast)display storm-controldisplay mac-address flapping
Cisco命令:
show processes cpu sortedshow interface | include broadcastshow spanning-tree inconsistentports
根治方案(三板斧):
- 全局开启storm-control(推荐值:broadcast 5%,multicast 10%)
- 所有接入口强制portfast + bpduguard
- 核心交换机开启loopback-detection(华为)或loop-guard(Cisco)
2023年我们财务系统机房新增一台POE交换机,网管直接接在核心上没开STP,广播风暴持续47秒,核心CPU 99.8%,导致ERP系统全部超时。事后我把全网1200个接入端口全部脚本化开启storm-control,再也没发生过。
二、路由协议震荡(BGP/OSPF flapping)
核心交换机通常跑iBGP/eBGP或OSPF Area 0,一旦邻居频繁Up/Down,CPU直接起飞。
常见诱因:
- 对端链路抖动(光衰、SFP老化)
- MTU不匹配导致Keepalive丢包
- BFD session误杀
- 路由表爆炸(某客户一次引入10万条默认路由)
诊断命令(华为):
display bgp peer verbose # 看Flaps次数display ospf peerdisplay cpu-usage process bgp
根治:
- 所有eBGP邻居强制开启BFD(检测时间50ms)
- 核心交换机做BGP Route-Reflector时,开启dampening
- 路由前缀过滤:
ip prefix-list DENY-DEFAULT deny 0.0.0.0/0
我处理过最严重的一次:某供应商BGP peer每3分钟flap一次,CPU持续在92%,导致全网路由收敛延迟高达8秒。最后我发现是对端用了廉价光模块,换成原装后CPU立刻掉到15%。
三、ACL/PBR/策略路由首包punt到CPU
现在很多公司做了微分段、零信任,核心交换机上挂了几百条ACL。第一次命中ACL的报文要punt到CPU处理,如果流量突发(比如双11秒杀),CPU直接被打爆。
诊断:
display acl resource # 看硬件表项使用率display cpu-usage process acl
优化方案:
- 所有ACL最后加一条
permit ip any any(防止implicit deny punt) - 核心交换机开启ACL turbo(华为NE系列默认开)
- 改用硬件支持的Security Group Tag(SGT)替代传统ACL
四、管理流量雪崩(SNMP + Syslog + Netconf)
监控平台每5秒轮询一次核心交换机1000+ OID,Zabbix/Nagios直接把CPU干到70%。再加上syslog级别设成debug,瞬间爆炸。
一键检查:
display snmp-agent statisticsdisplay info-center statistics
终极优化(我现在全网统一配置):
- SNMP改成v3 + context + 只读OID子集
- Syslog级别降到warning,每台设备本地缓存10000条
- 开启CoPP(Control Plane Policing),给SNMP限速64kbps
五、DDoS针对控制平面
攻击者不打数据面,直接打CPU:大量TCP SYN to CPU端口(179/BGP)、大量ARP request、大量ICMP unreachable等。
华为CoPP防护模板(直接复制):
copp policy COPP-DEFEND car cir 1000 pps green pass yellow discard # BGP car cir 500 pps # ARP car cir 200 pps # ICMP
我2022年处理过一次外部扫描攻击,攻击者每秒10万ARP请求,核心CPU 99.9%长达2小时。开启CoPP后,CPU立刻降到22%,攻击报文被硬件丢弃。
六、多播/IGMP snooping失效
视频会议、IPTV、股票行情推送,一旦IGMP querier失效,全网多播洪泛,CPU狂飙。
检查命令:
display igmp snooping statisticsdisplay multicast routing-table
方案:核心交换机强制做IGMP querier + PIM sparse-mode + SSM mapping。
七、STP/MSTP/RSTP大规模收敛
机房割接时,一次性Up 20条链路,STP要计算2000+端口,CPU瞬间冲高。
预防:
- 所有非根桥端口配置
spanning-tree portfast+bpdufilter - 核心交换机开启
spanning-tree loopguard - 推荐改用EVPN/VXLAN替代传统STP(我们明年规划)
八、调试命令没关(debug all / terminal monitor)
新同事上线调试,一条debug ip packet没关,CPU直接起飞。
全局检查:
display debugundebug all # 一键关闭
九、硬件/固件Bug
我遇过:
- 某批次SFP+光模块内存泄漏,导致CPU进程
phy持续90% - 华为CE12800早期版本VLAN 4094硬件表项Bug
- 电源模块老化导致电压不稳,CPU频率自动降频反而更耗
解决:定期display version比对补丁,display diagnostic看硬件健康。
十、NAT会话爆炸 / 高并发连接
虽然核心交换机一般不做NAT,但某些场景(出口防火墙旁路、SD-WAN)会把NAT会话打到核心,CPU处理session aging。
检查:
display nat session statistics
方案:把NAT下沉到边缘防火墙,或开启硬件NAT加速。
实战排查SOP(建议打印贴在机房墙上)
5分钟定位法(我每次都这么干):
display cpu-usage→ 记下Top5进程display ip routing-table summary→ 看路由表大小display interface | include rate→ 看哪个口异常display arp all | count→ ARP表是否爆炸display logbuffer→ 最近有没有异常日志
如果还定位不了,立即做:
- SPAN镜像到分析仪看punt报文
- 开启NetFlow/sFlow采样到Grafana
- 抓包CPU端口(华为
mirror to cpu)
“核心交换机CPU高,从来不是流量的问题,而是你没管住‘控制平面’。”
只要把控制平面保护好,数据平面再怎么跑100Gbps,CPU也能稳在15%以下。
—END— 重磅!网络技术干货圈-技术交流群已成立 扫码可添加小编微信,申请进群。 一定要备注:工种+地点+学校/公司+昵称(如网络工程师+南京+苏宁+猪八戒),根据格式备注,可更快被通过且邀请进群
▲长按加群
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:网络技术干货圈 圈圈 圈圈《核心交换机CPU飙到99%,那种心跳加速的感觉,大家肯定都经历过》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。









评论