1、故障现象
无线用户漫游到其他地点后,可以正常上网,但是断开连接并重新关联SSID后,无法通信,终端无法获取地址。
用户反馈的故障现象如下:
(1)终端从A栋办公楼移动到B栋的过程中,部分可以连接无线,部分客户端则一直处于连接网络终端,终端提示获取地址中。此时信号强度很好,但是却无法获取到地址。
(2)漫游成功,可以正常上网的用户,如果此时断开连接,并重新连接SSID,则出现和现象1相同的现象,无法连接网络。
(3)如果此时,断开无线一段时间(10分钟以上),终端可以正常连接无线。
2、故障可能原因
本地转发三层漫游的限制:AP需二层可达
3、处理步骤
(1)由于本地转发模式下,能够漫游成功需要保证漫入漫出AP管理地址在同一VLAN中,结合该要求,对部分AP管理地址无法划入同一VLAN的区域取消漫游设置,让用户在这些区域移动的过程中,对无线进行重连。解决了一部分区网络连接的问题。
(2)对于满足漫游条件的区域进行测试,首先在A栋办公楼内部测试,在不同的楼层间走动,触发了三层漫游,漫游成功,用户上网正常。进行断开重连测试,连接正常。说明楼栋内部不存在问题。
(3)在B栋楼内部进行漫游测试,结果也是正常。楼栋内部漫游无问题。
(4)取消WEB认证,在A栋内部,B栋内部,A、B栋之间进行测试,漫游正常,连接正常。说明漫游功能没有问题,此问题与WEB认证有关。
(5)仔细比对楼栋内部设备配置,与楼栋间设备配置,发现了一个差异。即楼栋内所有的AP都连接一个POE或者串接的数个POE上,每个POE设备上的用户VLAN均相同。但是两栋楼各自的POE上的用户VLAN不相同。为了验证该差异是否产生影响,在两栋楼的POE上将所有的用户VLAN都添加上,并且保证两边的POE上用户VLAN保持二层互通,保持WEB认证。此时进行漫游测试,用户连接正常。说明与用户VLAN的设置有关。
4、故障原因分析
(1)关于启用portal认证后,本地转发三层漫游成功后,断开无线,无法获取地址,去除portal认证则正常。该问题的原因为当sta漫游成功后,断开无线连接,由于启用portal认证后,有一个portal防抖动机制,sta下线后,sta表项还会保留5分钟,此时sta再次上线,会认为该sta为漫游用户。sta获取地址的dhcp报文为广播报文,此时漫入AC会把广播送到漫出AC,再由漫出AC打上漫出AC的vlan tag送到dhcp服务器,dhcp服务器回应地址有2种可能(是由sta dhcp discary报文的broadcast决定的,1代表广播,0代表单播),现场猜想是以广播报文回应,由于目前本地转发下的三层漫游,AC间的隧道无法做到两两建立,故漫出AC无法将报文送到漫入AC,导致dhcp获取地址失败。若漫出AC与漫入AC的二层网络打通,此时dhcp服务器回应的广播报文能够送到漫入AC,故sta地址获取正常。若现场未启用portal认证,不存在potal的防抖动机制,sta断开无线后,正常下线,重新上线为正常的sta上线,不存在漫游问题,故获取地址正常。由于sta在ac上的保留时间为5分钟,故现场隔10分钟后,再次测试正常,或者将sta强制踢下线,也正常。
(2)现场若由于信号覆盖问题,漫游失败,sta异常下线,此时ac上有sta的残留信息,sta重新关联无线,此时会有两种可能,若sta由于掉线后,短时间内检测到同一ssid的其他bssid,再次上线,发重关联帧,此时ac会认为该用户为漫游用户,就会产生如上的地址无法获取的问题。若sta发的是关联帧,此时ac认为该用户为正常上线用户,即与新用户一样上线,地址获取正常。
故障解决
(1)由于本地转发下的三层漫游,我司现在的实现机制问题,无法在两两ap间建立漫游隧道,故广播报文处理的问题,必然存在,若需要从软件方式解决,目前比较困难,该问题研发后续考虑其他实现机制。针对现场现场的问题,如果是portal认证的防抖动机制,可以修改portal的防抖动时间来解决,具体配置命令如下:
Ruijie(config)#wlansec 1
Ruijie(config-wlansec)#webauth prevent-jitter 2 //建议配置为2秒
(2)针对sta漫游失败后,发重关联帧,被认为是漫游用户的问题,目前无有效的解决方案,属于我司本地转发三层漫游实现机制的使用限制。
综合如上的分析,现场最好的解决方案是将AP全网的sta vlan 二层网络打通来规避解决本地转发下的三层漫游使用限制。现场的问题为我司本地转发下三层漫游的使用限制,及portal认证的防抖动机制,非软件故障。
5、故障总结及注意
(1)确认是本地转发还是集中转发,二层漫游还是三层漫游
(2)如果是本地转发三层漫游,确认版本已经升级到10.4 1b19p2
(3)确认漫游的故障现象,例如在从哪里到哪里漫游正常,哪里到哪里漫游出现故障(故障现象越详细越好)
(4)最简化配置,把相关的安全功能和web,1x认证都去掉测试