核心交换机CPU飙到99%,那种心跳加速的感觉,大家肯定都经历过

admin 2026-03-05 21:12:29 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: 本文详细解析核心交换机CPU飙升的十大原因,指出高负载源于控制平面过载而非数据流量。主要诱因包括广播风暴、路由震荡、ACL首包及管理流量雪崩等。文章结合华为与Cisco设备实例,提供了具体的诊断命令与根治方案,如开启CoPP防护、优化STP配置及限制SNMP速率。最后总结排查SOP,强调需通过保护控制平面来确保设备稳定运行,具有极强的实战指导价值。 综合评分: 86 文章分类: 网络安全,实战经验,应急响应,解决方案


cover_image

核心交换机CPU飙到99%,那种心跳加速的感觉,大家肯定都经历过

原创

圈圈 圈圈

网络技术干货圈

2026年3月4日 08:58 江苏

点击上方 网络技术干货圈,选择 设为星标

优质文章,及时送达

转载请注明以下内容:

来源:公众号【网络技术干货圈】

作者:圈圈

ID:wljsghq

为什么核心交换机CPU这么“娇贵”?

以太网交换机(不管是华为、H3C、Cisco还是Arista)都采用Control Plane + Data Plane分离设计:

  • Data Plane(数据平面):ASIC芯片负责线速转发,CPU几乎不参与。
  • Control Plane(控制平面):CPU专职处理“管理报文”——路由协议更新、ARP请求、SNMP轮询、日志、NetFlow采样、ACL首包、punt报文等。

当CPU利用率超过70%时,控制平面就开始抖动;超过85%时,路由协议可能丢包、OSPF/BGP邻居Down;超过95%时,整机可能出现丢包、黑洞、高延时甚至主备倒换失败。

所以CPU高 ≠ 流量大,而是“控制平面被打爆了”。

下面我按发生频率从高到低,给你拆解十大罪魁祸首,每一条都配真实案例+排查命令+根治方案。

一、广播/组播风暴

发生频率Top1,占我经手案例的38%

典型场景:机房新增一台二层交换机忘记开STP,或者光模块故障导致环路。

现象:CPU瞬间从10%冲到99%,所有接口input rate暴涨,但output rate却很低(因为CPU处理不过来)。

华为/H3C命令一键诊断

display cpu-usagedisplay interface brief | include (Broadcast|Multicast)display storm-controldisplay mac-address flapping

Cisco命令

show processes cpu sortedshow interface | include broadcastshow spanning-tree inconsistentports

根治方案(三板斧):

  1. 全局开启storm-control(推荐值:broadcast 5%,multicast 10%)
  2. 所有接入口强制portfast + bpduguard
  3. 核心交换机开启loopback-detection(华为)或loop-guard(Cisco)

2023年我们财务系统机房新增一台POE交换机,网管直接接在核心上没开STP,广播风暴持续47秒,核心CPU 99.8%,导致ERP系统全部超时。事后我把全网1200个接入端口全部脚本化开启storm-control,再也没发生过。

二、路由协议震荡(BGP/OSPF flapping)

核心交换机通常跑iBGP/eBGP或OSPF Area 0,一旦邻居频繁Up/Down,CPU直接起飞。

常见诱因:

  • 对端链路抖动(光衰、SFP老化)
  • MTU不匹配导致Keepalive丢包
  • BFD session误杀
  • 路由表爆炸(某客户一次引入10万条默认路由)

诊断命令(华为):

display bgp peer verbose   # 看Flaps次数display ospf peerdisplay cpu-usage process bgp

根治

  1. 所有eBGP邻居强制开启BFD(检测时间50ms)
  2. 核心交换机做BGP Route-Reflector时,开启dampening
  3. 路由前缀过滤:ip prefix-list DENY-DEFAULT deny 0.0.0.0/0

我处理过最严重的一次:某供应商BGP peer每3分钟flap一次,CPU持续在92%,导致全网路由收敛延迟高达8秒。最后我发现是对端用了廉价光模块,换成原装后CPU立刻掉到15%。

三、ACL/PBR/策略路由首包punt到CPU

现在很多公司做了微分段、零信任,核心交换机上挂了几百条ACL。第一次命中ACL的报文要punt到CPU处理,如果流量突发(比如双11秒杀),CPU直接被打爆。

诊断

display acl resource   # 看硬件表项使用率display cpu-usage process acl

优化方案

  1. 所有ACL最后加一条permit ip any any(防止implicit deny punt)
  2. 核心交换机开启ACL turbo(华为NE系列默认开)
  3. 改用硬件支持的Security Group Tag(SGT)替代传统ACL

四、管理流量雪崩(SNMP + Syslog + Netconf)

监控平台每5秒轮询一次核心交换机1000+ OID,Zabbix/Nagios直接把CPU干到70%。再加上syslog级别设成debug,瞬间爆炸。

一键检查

display snmp-agent statisticsdisplay info-center statistics

终极优化(我现在全网统一配置):

  • SNMP改成v3 + context + 只读OID子集
  • Syslog级别降到warning,每台设备本地缓存10000条
  • 开启CoPP(Control Plane Policing),给SNMP限速64kbps

五、DDoS针对控制平面

攻击者不打数据面,直接打CPU:大量TCP SYN to CPU端口(179/BGP)、大量ARP request、大量ICMP unreachable等。

华为CoPP防护模板(直接复制):

copp policy COPP-DEFEND car cir 1000 pps green pass yellow discard   # BGP car cir 500 pps   # ARP car cir 200 pps   # ICMP

我2022年处理过一次外部扫描攻击,攻击者每秒10万ARP请求,核心CPU 99.9%长达2小时。开启CoPP后,CPU立刻降到22%,攻击报文被硬件丢弃。

六、多播/IGMP snooping失效

视频会议、IPTV、股票行情推送,一旦IGMP querier失效,全网多播洪泛,CPU狂飙。

检查命令

display igmp snooping statisticsdisplay multicast routing-table

方案:核心交换机强制做IGMP querier + PIM sparse-mode + SSM mapping。

七、STP/MSTP/RSTP大规模收敛

机房割接时,一次性Up 20条链路,STP要计算2000+端口,CPU瞬间冲高。

预防

  • 所有非根桥端口配置spanning-tree portfast + bpdufilter
  • 核心交换机开启spanning-tree loopguard
  • 推荐改用EVPN/VXLAN替代传统STP(我们明年规划)

八、调试命令没关(debug all / terminal monitor)

新同事上线调试,一条debug ip packet没关,CPU直接起飞。

全局检查

display debugundebug all   # 一键关闭

九、硬件/固件Bug

我遇过:

  • 某批次SFP+光模块内存泄漏,导致CPU进程phy持续90%
  • 华为CE12800早期版本VLAN 4094硬件表项Bug
  • 电源模块老化导致电压不稳,CPU频率自动降频反而更耗

解决:定期display version比对补丁,display diagnostic看硬件健康。

十、NAT会话爆炸 / 高并发连接

虽然核心交换机一般不做NAT,但某些场景(出口防火墙旁路、SD-WAN)会把NAT会话打到核心,CPU处理session aging。

检查

display nat session statistics

方案:把NAT下沉到边缘防火墙,或开启硬件NAT加速。

实战排查SOP(建议打印贴在机房墙上)

5分钟定位法(我每次都这么干):

  1. display cpu-usage → 记下Top5进程
  2. display ip routing-table summary → 看路由表大小
  3. display interface | include rate → 看哪个口异常
  4. display arp all | count → ARP表是否爆炸
  5. display logbuffer → 最近有没有异常日志

如果还定位不了,立即做:

  • SPAN镜像到分析仪看punt报文
  • 开启NetFlow/sFlow采样到Grafana
  • 抓包CPU端口(华为mirror to cpu

“核心交换机CPU高,从来不是流量的问题,而是你没管住‘控制平面’。”

只要把控制平面保护好,数据平面再怎么跑100Gbps,CPU也能稳在15%以下。

—END— 重磅!网络技术干货圈-技术交流群已成立 扫码可添加小编微信,申请进群。 一定要备注:工种+地点+学校/公司+昵称(如网络工程师+南京+苏宁+猪八戒),根据格式备注,可更快被通过且邀请进群 ▲长按加群


免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:网络技术干货圈 圈圈 圈圈《核心交换机CPU飙到99%,那种心跳加速的感觉,大家肯定都经历过》

重磅发布:熬 网络安全文章

重磅发布:熬

文章总结: 作者分享花费200美元和200小时养成高阶OpenclawAgent的经验,总结关键坑点与顿悟。文章提出正确养成顺序:先建安全守护与备份,再配模型池
评论:0   参与:  0