3、确认丢包原因:

说明:

>若确认到具体的丢包设备,则只需在丢包设备上使用如下方法排查;

>若无法定位到具体的丢包设备,则需要在流量经过的所有设备上使用如下方法排查;

 

1)查看设备CPU

show cpu:

查看设备的CPU使用情况,排查是否存在CPU高的异常情况;若CPU高,关注具体什么进程高,可以参考系统相关故障--》CPU高排查处理;

ssp_flow_rx_task :设备收包过多;

tnet:ipv4或者arp报文收包过多;

ll_mt:mac地址学习过多等;

...若其他cpu进程很高且在RGOS_CPU线程说明.xls找不到,通过400811100确认;

 

2)查看设备日志:

show log:

查看设备的日志信息,查看是否存在异常log,比如stp震荡、接口up down、链路不稳定、NFPP防护等;

 

3)查看设备MAC信息:

show mac-address-table:

查看设备的MAC地址表,看mac地址表是否存在异常,如果MAC地址呈规律,此时需注意网络中是否粗壮你mac地址攻击;

show mac-address-table count:

查看设备的MAC地址总数,多show几次(至少5次连续show),查看mac地址是否骤增或者骤降,排查是否存在mac地址攻击;

 

4)查看设备ARP信息

show arp:

查看设备的ARP表,看ARP地址是否有异常,如果ARP地址呈规律,此时需注意网络中是否粗壮你mac地址攻击;

show arp count:

查看设备的ARP总数,多show几次(至少5次连续show),查看arp地址是否骤增或者骤降,排查是否存在mac地址攻击;

 

5)查看CPP/NFPP:

a、show cpu-protect mb查看是否哪个协议有drop项,多show几次看drop是否增长以及这个drop项的pps是否大(pps,每秒收到这个协议报文的个数)

b、show log看log是否有明显提示nfpp的log,结合show nfpp arp-guard host以及show nfpp arp-guard summary查看;

注:

cpp的查看方法根据不同设备会不一样:
B类产品:
show cpu-protect mboard

A类产品:show cpu-protect type all

机框式设备建议还收集设备各个线卡的cpp统计:

show cpu-pro slot x  //x代表具体的操作,如show cpu-protect slot 1,若做

 

B类产品总结:

核心:86、12k、76;

接入汇聚:rg-20g、23、26g、26G-E、29G、29G-E/P、3000E、5750、5750p、57-L、6220

A类产品总结:

核心:78

接入汇聚:26G-I/S、29XG、29-XS、5750-E/P/S、3760、5760、6000

 

6)查看接口收发包情况:

show int count summary,观察是否有接口in方向的广播、组播报文远大于单播报文,如果有关注这个接口下是否存在环路;

疑问:如果有异常口,如何处理:

a、和客户确认,这个接口对端连接什么设备,是否可以到对端设备上查看;

如果客户知道接口对端连接的设备,直接远程到对端设备上,show int count summary查看是否有接口in方向的广播、组播报文远大于单播报文。如果有,则排查该接口下联是否可能出现环路或者共计。如上排查法,最终定位到和用户相连的接口;然后可做如下操作:

a.1)让客户帮忙查看接口下是否有异常;

a.2)接口上配置rldp port loop-de warning看是否有loop告警;之所以不配置shutdown是为了避免确实有环路,shutdown接口的行为导致客户的网络不仅仅是丢包而是断网,这个还是要和客户同步清楚再操作;(rldp环路log一般为Jul 18 08:56:22: %RLDP-3-LINK_DETECT_ERROR: loop detection error detect on interface GigabitEthernet 0/17!

a.3)在这个接口抓包查看;

a.4)和客户确认同步清楚,客户同意后,可以尝试shutdown该接口,然后观察网络是否还丢包;

b、如果客户不了解对端是什么设备,我们可尝试用show发现对端什么设备:

b.1)show lldp nei detail看到对端设备信息,看是否有办法登陆;

b.2)show mac-address-table int gx/y  :gx/y是可疑接口,看这个mac地址是否包含001a/00d0/1414开头的mac,这些开头的一般是我们锐捷设备的mac地址,然后根据mac地址show arp | include ***看是否有这mac对应的ip,很可能知道对端设备的ip,从而想办法登陆;

c、如果不方便登陆到对端设备上,多针对从这个这个接口学习到的mac show几次mac,比如mac:aaaa.aaaa.aaaa,show mac-address-table | in aaaa.aaaa.aaaa看这个mac地址是否存在漂移的情况;

===》以上基本可以判断明显环路;

show int count rate:

查看是否流量超过接口带宽或者是否存在突发流量(有的设备可能drop看不到),多收集几次,至少5次,对比接口流量是否有很大,比如1g的口流量是否即将超过;

 

7)查看STP情况:

若设备有开启STP,查看如下信息:

a、show spanning summary:看stp的接口状态是否正常;

b、show log:看log中是否有关于stp的明显log;

c、show spanning-tree:看stp的拓扑是否频发变更,关注topochange的次数;

d、若2)查看设备log中看到设备有收到tc bpdu的log,需要注意设备是否有因为TC报文清mac;

 

8)逐个接口抓包分析:

如果以上排查都没有思路,每个口抓包看是否存在异常流量;