3、确认丢包原因:
说明:
>若确认到具体的丢包设备,则只需在丢包设备上使用如下方法排查;
>若无法定位到具体的丢包设备,则需要在流量经过的所有设备上使用如下方法排查;
1)查看设备CPU
show cpu:
查看设备的CPU使用情况,排查是否存在CPU高的异常情况;若CPU高,关注具体什么进程高,可以参考“系统相关故障--》CPU高排查”处理;
ssp_flow_rx_task :设备收包过多;
tnet:ipv4或者arp报文收包过多;
ll_mt:mac地址学习过多等;
...若其他cpu进程很高且在”RGOS_CPU线程说明.xls“找不到,通过400811100确认;
2)查看设备日志:
show log:
查看设备的日志信息,查看是否存在异常log,比如stp震荡、接口up down、链路不稳定、NFPP防护等;
3)查看设备MAC信息:
show
mac-address-table:
查看设备的MAC地址表,看mac地址表是否存在异常,如果MAC地址呈规律,此时需注意网络中是否粗壮你mac地址攻击;
show
mac-address-table count:
查看设备的MAC地址总数,多show几次(至少5次连续show),查看mac地址是否骤增或者骤降,排查是否存在mac地址攻击;
4)查看设备ARP信息
show arp:
查看设备的ARP表,看ARP地址是否有异常,如果ARP地址呈规律,此时需注意网络中是否粗壮你mac地址攻击;
show arp count:
查看设备的ARP总数,多show几次(至少5次连续show),查看arp地址是否骤增或者骤降,排查是否存在mac地址攻击;
5)查看CPP/NFPP:
a、show
cpu-protect mb查看是否哪个协议有drop项,多show几次看drop是否增长以及这个drop项的pps是否大(pps,每秒收到这个协议报文的个数)
b、show log看log是否有明显提示nfpp的log,结合show
nfpp arp-guard host以及show nfpp arp-guard summary查看;
注:
cpp的查看方法根据不同设备会不一样:
B类产品:show cpu-protect
mboard
A类产品:show cpu-protect type all
机框式设备建议还收集设备各个线卡的cpp统计:
show cpu-pro slot x //x代表具体的操作,如show cpu-protect slot 1,若做
B类产品总结:
核心:86、12k、76;
接入汇聚:rg-20g、23、26g、26G-E、29G、29G-E/P、3000E、5750、5750p、57-L、6220
A类产品总结:
核心:78
接入汇聚:26G-I/S、29XG、29-XS、5750-E/P/S、3760、5760、6000
6)查看接口收发包情况:
show int count
summary,观察是否有接口in方向的广播、组播报文远大于单播报文,如果有关注这个接口下是否存在环路;
疑问:如果有异常口,如何处理:
a、和客户确认,这个接口对端连接什么设备,是否可以到对端设备上查看;
如果客户知道接口对端连接的设备,直接远程到对端设备上,show int count summary查看是否有接口in方向的广播、组播报文远大于单播报文。如果有,则排查该接口下联是否可能出现环路或者共计。如上排查法,最终定位到和用户相连的接口;然后可做如下操作:
a.1)让客户帮忙查看接口下是否有异常;
a.2)接口上配置rldp port loop-de warning看是否有loop告警;之所以不配置shutdown是为了避免确实有环路,shutdown接口的行为导致客户的网络不仅仅是丢包而是断网,这个还是要和客户同步清楚再操作;(rldp环路log一般为“Jul 18 08:56:22: %RLDP-3-LINK_DETECT_ERROR: loop
detection error detect on interface GigabitEthernet 0/17!”)
a.3)在这个接口抓包查看;
a.4)和客户确认同步清楚,客户同意后,可以尝试shutdown该接口,然后观察网络是否还丢包;
b、如果客户不了解对端是什么设备,我们可尝试用show发现对端什么设备:
b.1)show lldp nei detail看到对端设备信息,看是否有办法登陆;
b.2)show mac-address-table int gx/y :gx/y是可疑接口,看这个mac地址是否包含001a/00d0/1414开头的mac,这些开头的一般是我们锐捷设备的mac地址,然后根据mac地址show
arp | include ***看是否有这mac对应的ip,很可能知道对端设备的ip,从而想办法登陆;
c、如果不方便登陆到对端设备上,多针对从这个这个接口学习到的mac show几次mac,比如mac:aaaa.aaaa.aaaa,show
mac-address-table | in aaaa.aaaa.aaaa看这个mac地址是否存在漂移的情况;
===》以上基本可以判断明显环路;
show int count rate:
查看是否流量超过接口带宽或者是否存在突发流量(有的设备可能drop看不到),多收集几次,至少5次,对比接口流量是否有很大,比如1g的口流量是否即将超过;
7)查看STP情况:
若设备有开启STP,查看如下信息:
a、show spanning summary:看stp的接口状态是否正常;
b、show log:看log中是否有关于stp的明显log;
c、show spanning-tree:看stp的拓扑是否频发变更,关注topochange的次数;
d、若2)查看设备log中看到设备有收到tc bpdu的log,需要注意设备是否有因为TC报文清mac;
8)逐个接口抓包分析:
如果以上排查都没有思路,每个口抓包看是否存在异常流量;