注:无线信号找不到、连不上无线等无线相关问题首先让无线进行排查,只有出现802.1x认证失败才需要EG这里进行排查。
一、无线用户进行802.1x认证失败
1、 故障可能原因
1)EG和服务器key配置错误
2)终端设置错误
3)服务器不支持无线802.1x认证
2、故障处理步骤
步骤1:排查EG和服务器key配置是否正确
在EG上show run及登入服务器确认radius key、snmp community是否一致。
EG查看方式:
radius-server host [服务器IP地址] key ruijie
snmp-server community ruijie
服务器查看方式:
如果key已经配置正确仍认证失败则进入下一步排查。
步骤2:确认终端设置
终端设置错误常见于用windows原生dot1x客户端。建议可以参考上个章节 "锐捷无线802.1x常见问题--11.X版本" 里面提到 window7 802.1x无线认证设置,如果终端设置没有问题仍认证失败则进入下一步排查。
步骤3:确认服务器是否支持无线802.1x认证
我司支持无线802.1x认证配套软件:SMP 2.54、SAM 3.5、su 4.63。其他经过验证厂商:windows2003、cisco ACS。如果已经确认服务器支持无线802.1x认证仍认证失败,则进入下一步排查。
步骤4:收集信息后,请联系4008111000协助处理
拨打4008111000寻求技术支持,收集如下故障信息,进行故障进一步处理。
需要收集的信息:
1)在EG上收集如下信息:
show version
show version all
show running
show ap-config run
show radius auth statistics
show radius acct statistics
show dot1x
show dot1x summary
2)在EG上开启debug 并在客户端及服务器上进行触发认证并同步抓包:
debug aaa event
debug dot1x event
debug dot1x packet
3)无线终端的操作系统:比如window 7/8/10、安卓、iphone等
4)无线终端使用的802.1x客户端:比如windows原生客户端
需要收集的信息解释:
EG
show version:EG版本信息
show running:EG配置信息
show ap-config run:AP配置信息
show radius auth statistics :radius 认证统计
show radius acct statistics:radius 记账统计
show dot1x :802.1x配置
show dot1x summary:802.1x用户信息
debug aaa event :debug aaa事件信息
debug dot1x event :debug dot1x 事件信息
debug dot1x packet :debug dot1x 报文交互信息
如果配置正确仍认证失败则进入下一步排查。
二、用户无法认证,EG没有任何认证log
故障可能原因:
1.终端关联后不发起认证;
2.终端关联完成后发送的认证请求报文没有发到EG;
故障排查方法:
1.空口抓包,确认终端是否有发出认证请求报文(eapol-start);
2.AP上开启驱动的debug,过滤Eapol和终端MAC,确认AP是否有收到认证请求报文;
3.EG开启dot1x的debug,确认EG是否有收到认证请求报文,debug命令如下:
debug dot1x su add mac 0 H.H.H
debug dot1x su ver
如果空口抓包确实没有发起认证请求,尝试其他终端是否有相同问题,故障终端也可以尝试重启、关闭并重新开启WiFi、忘记网络的方式尝试是否能够解决,这种情况一般是终端本身问题。如果是Windows系统,可以尝试安装微软的network monitor软件在终端抓包,确认终端关联完是否有发起认证。
如果AP有收到eapol报文,但是EG没有收到,排查AP是否有送eapol报文到EG的ACE表项,查看方式是debug su/exec ef_acl_ace,如果nsc里面没有mac且为permit表项,甚至没有任何表项,那可能是EG的配置没有下发到AP,或者AP、EG版本不一致,不兼容。如果表项正常,排查AP与EG的通路,确认报文丢在哪一阶段。
三、故障现象:PC连接无线出现“身份验证出现问题”或者手机终端连接不上无线
故障可能原因:
(1)设备配置错误,或者配置不符合要求。
(2)认证成功了,但是4次握手失败,而握手失败的原因可能是服务器有问题。
(3)服务器的证书不是可信任的(windows 10系统需要可信任证书)
(4)服务器不兼容tls 1.2协议。
(5)服务器配置问题。
(6)终端配置问题,或者终端有异常。
故障排查方法:
(1)show dot1x authmng ab收集信息
如果有author vlan fail,说明服务器有下发vlan授权,但是设备上用户所在的wlan没有映射到vlan-group;或者映射到vlan-group了,但是vlan-group里面没有服务器下发的vlan。请检查下配置。
(2)收集EG上的log。
如果有DOT1X-6-WAIT: xxx online, yyy is waiting,说明认证过程中,终端变换了用户名,但是设备上默认只允许一个终端一个用户名;可以通过配置dot1x multi-account enable,允许终端变换用户名。
(3)收集EG上的wlog信息。
Show wlan diag sta sta xxx(终端mac地址),wlog功能需要提前开(wlan diag enable)。
显示如下:
STA-RECORD: 5844.9873.044e
[STA-DOWN]STA UP Time: 2016-06-04 21:26:26 STA DOWN Time: 2016-06-04 21:27:59
Time IP Address RSSI/Link Rate AP MAC/SSID/Radio Action Result Reason
-------- --------------- --------------- -------------------------------- -------------------- ---------------------
21:26:22 172.18.58.99 -85/6.5M 00ff.ffff.ff0c/ruijie-802.1x/1 STA DOWN BY USER Handshake Fail
这个说明是4次握手失败。此时了解下和EG设备直接通信的服务器是否是代理服务器,如果是代理服务器的话,确认下代理服务器收到服务器的报文是否直接透传给EG设备,还是解密服务器的报文,然后再加密发送给EG设备的。如果是透传,确保EG和代理服务器之间的key、代理服务器和服务器之间的key一致。
(4)确认终端的系统类型。
如果终端是win10系统,那么服务器证书一定要是可信任的,否则终端会不接受,导致认证失败。其他系统(如win7)可以通告配置选择不校验服务器证书。
如果终端是win10系统或者andriod 6.0以上系统,那么终端默认用TLS1.2协议,而sam旧版本对该协议的兼容存在问题,会导致4次握手失败。需要升级到sam+版本,或向服务器端的人要补丁版本。
(5)抓服务器报文或者设备上联口报文。
如果报文看设备发送给服务器的报文,服务器一个都没有响应,那么可能是服务器上没有注册该设备。需要检查服务器的配置。
(6)PC终端连接不上时,检查下终端的无线连接配置。
在市场支持过程中,出现某些pc连接不上无线网络,在网络设置里面勾选了“强制执行网络访问保护”后就可以连接上了。
(7)开启PC端的debug,收集信息发送给后台分析。
debug开启命令:cmd在输入netsh ras set tracing * enable,收集的debug信息路径是:windows\tracing
具体例子:
(1)某银行无线1x认证与赛门铁克服务器对接,出现连接不上,排查发现赛门铁克是做为代理服务器,EG设备与赛门铁克对接,赛门铁克服务器再与微软服务器对接。认证成功后,微软服务器下发的access报文带mppe key属性,赛门铁克服务器直接透传,而EG设备和赛门铁克对接的key 与 赛门铁克服务器与微软服务器对接的key不一致导致的。
(2)某学校,win7系统的pc连接不上无线1x认证网络,从抓包和pc的debug来看是pc异常,收到服务器证书后,出现CertGetNameString for CERT_NAME_SIMPLE_DISPLAY_TYPE failed失败,而不回复报文。在网络设置里面勾选了“强制执行网络访问保护”后就可以连接上了。
(3)某医院,部门pc(windows 10系统)连接不上无线1x认证网络,sam服务器上导入了可信任证书以及打了兼容tls 1.2的补丁版本后问题解决。
(4)某公司,连接不上无线1x认证网络,排查是服务器没有注册EG设备,注册后问题解决。
四、故障现象:终端掉线
故障可能原因:
设备处理异常,导致终端掉线。
故障排除方法:
(1)收集设备wlog信息
Show wlan diag sta sta xxx(终端mac地址)。常见原因如下:
Supplicant restart 表示漫游重认证失败
User request 表示终端主动下线
Lost carrier 表示终端没有snooping表项,被1x踢下线
Admin reset表示被服务器踢下线
sta Offline 表示认证过程中终端解关联了
(2)空口抓包
空口抓包异常终端所关联信道的报文,发给后台分析。
具体例子:
某公司某个终端经常掉线,设备版本比较旧,之前有个终端漫游时漫出端发送解关联报文导致终端下线的问题。猜测可能跟此有关。现场升级了版本,情况有所改善。
六、故障现象:终端认证成功后无法上网
【故障现象】
1x认证,用户通过认证并获取到IP地址后,网络仍然不通。
【故障分析】
1、show dot1x summary查看dot1x认证表项,发现用户已经认证成功;
2、确认用户地址为自动获取并且地址段正确后检查配置发现EG上配置了aaa authorization ip-auth-mode mixed,该命令为交换的ip授权命令,在EG网关上无需配置,删除该配置后网络恢复正常。
【故障总结】
aaa athorization ip-auth-mode mixed,该命令为交换的ip授权命令,是交换机的授权逻辑,EG网关没有这个逻辑,配置该命令后没有对应ip,授权后用户就不通了,在EG网关上无需配置(该命令已做隐藏)。
七、1x认证成功了,网络不通定位(假设用户的mac地址是0001.0001.0001)
1、查看1x表项是否存在(在EG上查看)
show dot1x user mac 0001.0001.0001
如果存在的话,继续往下,否则将信息发送给后台排查
2、查看scc表项是否存在
debug scc user filter mac 0001.0001.0001
如果存在的话,继续往下,否则将信息发送给后台排查
3、查看aclk表项是否存在
term mon(先要执行这个)
debug acl efacl nac-show filter mac 0001.0001.0001
如果存在的话,继续往下,否则将信息发送给后台排查
4、打开快转和acl debug定位
先开启term mon和debug syslog limit reset
debug efmp packet ping sip 源ip地址 smac 源mac地址 dip 目的ip地址 dmac 目的mac地址 counter 5(地址不知道的,可以用any替代)
debug acl efacl ef-packet srcip 源ip地址 dstip 目的ip地址 count 5(地址不知道,就不要加)
打开以上两个debug后,终端ping下设备或者设备ping下终端,把debug信息收集下,如果有出现drop的字眼,那么把debug信息发给后台进 一步分析,否则不是设备丢包,排查其他原因。