一、环境安装部署过程问题排查

ü  第一步:ADS在安装过程要能正常进行,ADS IP要能正常下发,同时正常生成“事件通告配置”中的注册ADS的URI,该URI自动生成。

入口:网络监控à网络监控配置à事件通告配置àads推送历史通告URL

image044.png

ü  第二步:检查ONC的网关地址,以及对应的网关设备,确认ONC是通过它直连的设备转发的。

当ONC跟核心直连时,ONC的网关必须是核心;当ONC非直连核心时,ONC的网关需要配置为直连的设备上,SDN_Device。

image045.png

ü  第三步:核心到ONC之间的通信,要正常。相互之间要能够ping通,从ONC上要能够telnet到核心设备,同时ONC上显示的核心设备要正常在线(三个协议状态)。

image046.png

       在ONC的网关为核心的情况下,这一步可以跳过。

ü  第四步:入网设备所在的网段(网关),同ONC之间要能够互通。

       当不互通时,需要在核心和ONC的网关设备之间添加路由,确保能够互通。当这两者都为同一核心设备时,此步骤不需要考虑。

ü  第五步:核心设备的配置校验。

       正常在自动化运维网络中,核心需要有如下配置,

       开启DHCP服务

DHCP Server

       使能SNP 

       ip dhcp snooping

       SVI 1下配置地址和ip helper- address

       ip address x.x.x.x

ip helper- address x.x.x.x

       上联口(非路由口)使能snp trust

       ip dhcp snooping trust

       同时,核心设备到ONC之间的所有设备上(存在的话),在非路由口的上联口上,如果设备开启了SNP,均需要配置ip dhcp snooping trust

ü  第六步:ADS设备上后台生成的配置校验

       在成功部署ADS软件后,要自动生成/user/rgonc/ads目录以及

/user/rgonc/ads/conf目录,dhcpd.conf中要生成ADS所在地址的subnet。

image047.png

       当ONC上配置有多个网卡地址时,其中只有一个是是控制器IP,ADS所自动生成的地址以及对应的默认路由,要与实际的控制器IP对应。

ü  第七步:核心设备以及入网设备所在的网关地址,要能够访问ADS目录,含TFTP和DHCP两个服务的根目录。

       表现为,核心和入网设备网关要能够到tftp server目录下拷贝文件;同时下联入网设备的SVI 1配置为动态获取地址模式,ip address dhcp,要能够到ADS上获取到地址(绑定的地址,或者是备用地址),在未添加管理网段时,无法获取到地址。

二、设备零配置入网过程问题排查

设备在零配置入网过程,通常的故障现象按入网过程表现为,入网设备获取不到地址、入网设备获取不到*.py文件、入网设备获取不到基础配置以及绑定的配置、设备入网出错、设别入网超时、设备入网结束后离线等。按如下步骤进行排查,

2.1  入网设备获取不到地址,一直为“入网中”状态。

检查入网设备的版本是否对应为自动化运维版本,是否是为空配置状态,上联口所在的接口位置;检查核心网关上的配置,是否开启认证模式,对应的SVI 1是否为直通VLAN。

排查2.2.1中第一步到第七步中所有相关配置的影响。

经过上述几个排查之后,手动设置SVI口为动态获取地址模式,查看是否能够正常获取到地址。

如果还是无法获取到地址,可查看核心上dhcp relay的状态统计和抓包,以及ONC上的抓包信息,查看终端入网设备的DHCP报文在通路上转发过程,是否存在被丢弃。然后进一步分析。

2.2  入网设备获取*.py文件失败

入网设备在获取地址后,开始下载py脚本文件,正常脚本下载失败的原因可能有,

在ADS上,对应设备的py脚本未生成;对应设备管理网段的默认路由未生成。

解决方法:可通过填写入网设备管理网段,重新保存下发解决。

2.3  入网设备获取到地址之后,无法获取基础配置。

设备在通过DHCP动态获取地址后,无法获取基础配置,可查看ADS上是否有生成init_confit.txt文档。

一般在ADS从旧版本升级上来后,可能会出现这种情况,以及在ADS刚部署之处的时候,可能会出现。

解决方法:通过重新保存下发入网设备的管理网段配置来解决。

2.4  入网设备获取到地址和基础配置后,无法获取绑定的配置。

入网设备无法获取绑定的配置的可能原因有,

   设备在导入ADS后,并未提交下发绑定配置;

   ADS上下发的init_config.txt所对应的telnet账号密码与ADS telnet所用的默认telnet账号密码不一致;

   设备端的动态地址是否超时释放;

   设备在上一次的入网超时或者失败过程计时未结束,需要等计时超时后,才能继续本次的入网动作。

2.5  入网过程失败。

常见的入网过程失败的原因有,

   下发的配置中包含有错误的命令或者不识别的命令;

   下发配置过程修改了账号密码,同时telnet断开重连,导致telnet认证失败;

   下发命令过程包含no zam,导致zam流程终止,telnet超时失败;

   下发过程关闭了telnet服务,导致telnet超时失败;

   下发的命令中没有包含默认路由,导致命令下发完成后,路由不通,无法上传结束标识,入网超时失败。

按照上述失败的情况,以及提示的信息,逐一排除检查,只要重新检查下发的配置,重新编辑,再次下发即可。。

2.6  入网后设备离线。

正常情况下,设备入网后,离线的状态有如下几种,

   网络震荡,导致正常入网的设备协议震荡,状态离线;

   入网的设备,在配置中修改了三种协议的连接信息,如账号密码等,导致设备离线。

如上情况,只要重新检查下发的配置,重新编辑,再次下发即可。

三、设备配置备份过程问题排查

设备在备份恢复过程,使用的是telnet协议进行实现。支持自动化运维入网的设备和非自动化运维入网的常规在网设备,常见的问题按先后顺序,分别有如下的排查步骤,

ü  第一步:首先观察对应的设备是否在线,是否正常的通信;

在设备未在线情况下以及无法通信的情况下,此时无法进行telnet操作,因此配置备份也无法实现。

ü  第二步:在提示telnet模板错误时,需要检查设备的telnet账号密码与默认的账号密码是否一致;

正常,ADS使用默认的协议模版telnet到设备上进行配置备份和恢复操作。

当默认协议模板与设备上配置的不一致时,会出现备份恢复失败,提示为telnet模板错误。此时需要排查,修改模板。

ü  第三步:需要备份的源文件是否存在(config.text),以及需要恢复的源文件是否正常可用。

如上述,在ADS通过telnet协议登陆到设备上后,备份的对象为showrun或者config.text,设备如果未生成配置文件时,备份config.text会失败。

同理,当ADS上被选择作为恢复对象的源文件不存在或者异常时,会导致恢复动作失败。

ü  第四步:备份恢复过程,因为超时失败;

在ADS执行配置备份恢复过程,telnet流程超时,最终会显示为超时失败。

常见的引起超时的原因有,网络因素、telnet断开重连失败超时等。

可从telnet模板以及网络连通性方面入手排查。

ü  第五步:提示MD5校验错误失败;

当前最新的版本应该不存在该问题。

常见的MD5校验错误,原因为在配置文件下载到本地后,有针对配置进行调整处理,后缓存到tmp目录下,再与原下载的文件进行对比,不一样时,会报MD5错误。

ü  第六步:定时自动备份失败

定时自动备份使用的方式跟手动备份的一样,按如上一到五进行排查。

四、设备故障恢复替换过程问题排查

故障替换过程,常见的错误有,设备型号不对、初始拓扑为空、版本不对、备份IP被占用、备用设备的init_config.txt与默认协议模板不匹配。按照操作顺序,常用的排查方式如下,

4.1  手动替换失败

ü  第一步:手动替换,设备型号不对,替换失败;

这个步骤,需要检查替换使用的设备型号与原设备的型号是否一致。

ü  第二步:手动替换,原有设备没有备份配置,为非自动化运维入网设备,替换失败;

对于非自动化运维入网的设备,需要检查是否有备份配置。

ü  第三步:手动替换,原有设备的协议模板同ADS关联的默认协议模板不一致,替换失败;

故障设备原有配置的协议模板,主要是telnet,与默认的协议模板不一致时,替换可能失败。

ü  第四步:手动替换,填写的替换设备的Mac信息不正确,替换失败;

当填写的设备Mac信息错误时,IP+Mac关联的信息不是当前设备的,当前替换的新设备无法获取故障设备配置,导致入网失败。

4.2  自动替换失败

ü  第五步:自动替换,备用IP被占用,自动替换实现失败;

自动替换依赖于备用设备和备用地址,并且只有一个,被占用后,设备替换流程会停留等待备用地址的释放。

ü  第六步:自动替换,备用设备所关联的协议模版(init_config.txt)与ADS默认的协议模版不一致时,替换设备过程,新设备无法通过默认协议模板获取故障设备的配置,替换失败;

导致这个失败的可能原因有,ADS版本升级后(比如从1.12),备用设备关联的协议模板为空或者没有默认的协议模板,导致ADS使用默认协议模板telnet失败,替换失败。

ü  第七步:自动替换,故障设备初始的拓扑未空或者不全时,替换失败;

自动替换过程,备用设备在获取基础配置后,ADS通过备用设备的拓扑与原故障设备的拓扑进行比较,这里无论是备用设备的拓扑或者原拓扑,只要存在一个为空,或者两个不一致时,替换都会失败。

ü  第七步:自动替换,用来替换的设备型号与原故障设备的型号不一致,替换失败;

自动替换过程,备用设备在获取基础配置后,ADS通过备用设备的拓扑与原故障设备的拓扑进行比较,当两者的拓扑一致时,检查两者的设备型号是否一致,如果不一致时,替换失败。

ü  第八步:当ADS系统关闭自动替换功能时,无法进行自动替换操作,表现为自动替换失败;

入口:承载网络à网络配置à网络运维配置à新设备自动替换故障设备

image048.png

五、设备版本升级过程问题排查

设备版本升级过程,ADS也是通过telnet协议模版,将bin文件拷贝到设备上进行升级操作。因此,设备版本升级过程失败的原因有,与telnet模板相关、拷贝bin文件需要比较长的时间受网络的稳定性影响、ADS版本升级并发性能影响、不同设备对bin文件的支持不一致等。按流程先后顺序,对应问题有如下的处理排查,

ü  第一步:使用限制,对应设备不支持通过ADS进行版本升级操作;

       当操作对象设备型号不在ADS支持可升级的列表中时,无法进行升级操作,详细可以参考SPEC。

ü  第二步:设备使用的telnet模板与ADS使用的默认协议模版不一致,通过telnet拷贝bin文件到设备的过程失败,版本升级失败;

       当设备使用的telnet模板与ADS默认使用的协议模板不一致时,在ADS上下发升级动作后,ADS通过默认协议模板telnet到设备将会失败,后续动作都不会继续。

ü  第三步:网络稳定性影响,设备版本升级过程中,copy版本文件时,失败,版本升级动作终止;

       设备端的bin文件一般都会有70M以上的大小,在升级过程,copy到设备的动作期间,网络不稳定时,会影响copy的成功率(实际使用tftp),copy失败的时候,升级动作也伴随停止。

ü  第四步:ADS设备版本升级并发性能是20个,最大只能支持20个设备同时进行升级操作,其他的设备排队等待,同时并发稳定性不够,可能影响部分设备升级的成功率;

       所以在进行批量升级的操作时,部分失败是可能的。

ü  第五步:设备空间不足,导致升级失败;

       ADS在下发设备版本升级动作是,需要copy设备升级使用的bin文件到设备上,当设备上的存储空间不足时,会导致升级失败。

六、设备端自动识别配置生成过程问题排查

设备端的自动识别生成配置功能,包含设备角色识别、设备端口角色识别、设备VSL口自动识别组VSU。常见的错误有下面这些,

6.1  设备角色识别错误

接入汇聚的角色识别不正确,排查步骤

第一步:是否给设备配置了静态角色,如果不确定,配置no role后,设备角色恢复正常了说明设备配置了静态角色,因为静态角色的优先级高于动态识别。

第二步:如果是汇聚当接入用,是否错误地给某个邻居的设备配置了DSW,又切回了ASW/PSW,动态识别不支持角色降级。

6.2  端口角色识别或者配置不正确

接入汇聚的某个端口配置不正确,按如下步骤,

第一步:Show auto-config manual查看端口是否切了手动模式;

第二步:Show auto-recognize status查看设备是否开启了端口自动配置;

第三步:如果是接入设备,确认接入设备之间没有产生环路连接,因为环路时候会有接入设备按下联口配置;

第四步:自己是否手动修改了配置。

6.3  AP口识别不正确

设备之间多个相连的端口没能绑定聚合口,排查步骤

第一步:查看端口是否配了LACP,本方案不支持LACP下的聚合口识别;

第二步:查看是否有端口处于手动模式下。

6.4  VSL口识别错误

VSL口识别错误,自动组VSU失败,有如下排查步骤,

       第一步:入网设备的上联口是否接到了设备的最后2-4个接口上,此时会将单机误识别为VSU模式;

       第二步:设备版本是否是自动化运维的版本,如果不是,会无法识别VSL口;