1、故障现像

故障现像为路由表中有路由信息但是路由转发不通。

 

2、故障可能原因

1) 交换机配置问题:如配置安全策略

2) 网络环境问题,如:环境中存在丢包、ARP学习不正常、ICMP不可达等。

 

3、故障处理步骤

步骤1、确认具体环境是否异常

需要详细确认设备之间的详细端口连接拓扑情况,包括具体端口号、互联IP等

 

步骤2、确认路由表项是否正常

请沿转发路径逐跳查看路由,检查本端是否有可达对端的路由,对端是否有回程路由。

Ruijie#show ip route | inc X.X.X.X    或者show ip route X.X.X.X(目的网段)

如果路由配置错误,请更改路由配置,然后确认转发是否可以通。

PC上检查有没有配置网关,如果没配置,请配置好PC的网关。

 

步骤3、确认是否存在大量丢包行为

Ruijie#show interfaces counters

//命令可以查看各个端口的错包统计,查看这边的FCS Errors等错误报文统计选项是否有在秩序增加,如果有说明硬件丢包,条件允许的话,更换端口、更换网线确认是否能解决问题。需要沿转发路径,以同样的方法定位下一台设备是否存在问题。

 

步骤4、检查接口运行状态

Ruijie#show interfaces [interface-id]

//查看接口的物理状态、速率、双工、自协商状态,确认物理状态是UP的,速率、双工、自协商状态两端要一致。

对于电口,当出现协商成10M/100M工作正常,而协商成1000M工作异常时,请检测网线是否正常,如果有问题请更换网线。

 

步骤5、检查是否配置安全策略

主要检查acl、安全绑定等安全配置功能。如果有,请把相应的配置去掉,然后再测试能否ping通。

 

步骤6、检查是否链路传输时延较大导致PING不通

ping命令后面加上timeout可以设置ping的时延,如果增大时间延时就可以ping通,说明整个转发通路是正常的,可能是链路拥塞导致的。

 

步骤7、缩小故障定位范围

逐步ping下一跳,确认是在哪两台设备之间不通的,对目标设备进行入口抓包或出口捉包,以确认转发不通报文是否有到达目标设备,这个步骤挺关键的,可以确定报文在哪里丢失的,初步定位出两台故障设备

 

步骤8、检查是否学习到ARP表项

Ruijie#show arp | inc X.X.X.X

在故障设备上查看arp表项,如果没有学习到对端的arp表项,说明arp报文已经出现问题。

如果是pc,则在CMD窗口执行

>ipconfig /all

>arp a

确认PC是否有学习到网关的arp表项。

如果没有学习到arp表项,执行以下步骤,确认报文收发是否正常

 

步骤9、检查是arp报文不可达还是ICMP报文不可达

注意:DEBUG操作有风险(最坏情况可能需要重启设备才能恢复),需要客户知晓风险并同意后才能收集,建议在低峰期操作(若是核心设备,必须更加慎重评估)!若故障排查还需要抓包,DEBUG和抓包最好同时收集!

在故障设备、PC上进行抓包,确认arp报文和icmp报文的收发情况

在故障设备上打开arp和icmp的调试开关,确认arp报文和icmp报文有没有正常送cpu

Ruijie#debug arp +ACL

关闭以上调试开关

Ruijie#undeug all

注:该条命令信息量比较大,所以务必配置ACL来做过滤,另外注意ACL推荐用标准的,定义源,目两个IP的段,以便调试出arp request,reply两份报文。

 

4、故障信息搜集

收集log信息(注意时间开关和时间的准确性)提供后台分析。

[设备debug信息、配置、软硬件版本、设备log、操作log]

基础信息收集

show version

show version slots

show run

show log

show ip interface brief

show interface status

show interface counter sum

show interface counter  rate

show interfaces counters errors

show interfaces counters

show arp counter

show arp

show arp detail

show mac-address-table

show mac-address-table counter

show ip route

show ip route count

show cpu

debug supp

show memory

show skb

 

收集底层信息

注意:底层信息风险性较高,收集不当可能导致设备死机,需要重启交换机才能恢复,请联系4008111000工程师协助收集

对于S37E/S5750交换机

Ruijie#sd

Ruijie(sd)#

-------------如下在sd模式下收集(Ruijie(sd)#)--------------

sh console on

sh ps

sh show c

sh l2 show

sh dump chg l3_entry_ipv4_unicast

sh dump chg l3_defip

sh dump chg ing_l3_next_hop

sh dump chg egr_l3_next_hop

sh chg egr_l3_intf

sh l3 ip6host show
sh d chg l3_entry_ipv6_unicast

sh console off

 

对于57E交换机

 注:打印的是所有路由信息,如果路由条目过多,所需时间较长,可能对业务产生影响甚至中断,收集前请谨慎风险评估

Ruijie#debug ssp rem(进入SDEBUG环境)

Ruijie(ssp-debug)#ipfwd lml dump prefix 0 0 0 0