极简场景

1、故障现象

   802.1X认证失败或者使用过程中异常掉线

2、故障可能原因

(1)18K和SAM对接配置问题,导致18K没有发送到SAM或者SAM收到以后不处理

(2)18K到SAM之间的通路问题导致radius报文无法发送到SAM

(3)客户端到18K之间的线路通路问题导致EAP报文无法发送到18K

(4)18K上配置问题导致没有处理或回应

(5)无法获取到正常的IP地址

(6)18K或者SAM软件问题导致无法正常发送或处理相关认证报文

(7)VLAN 端口迁移,导致用户明明没有主动下线却提示主动下线(B3P2及以前)

3、处理步骤

(1)首先,先收集客户端和SAM的运维管理->日志管理 上的相关认证失败提示,根据提示做出基本的判定。

(2)如客户端上认证过程卡在“连接认证服务器”或者最后提示“连接认证服务器失败”,则检查18K上802.1x和SAM对接认证配置是否正确。  如果SAM上有提示,根据提示配置。如果SAM上没有任何提示,则主要检查radius 服务器是否配置正确

aaa new-model

radius-server host 192.168.32.120 key 7 ruijie    
 

ip radius source-interface gigabitEthernet 1/24    
 

aaa accounting network default start-stop group radius

aaa authentication dot1x default group radius

aaa accounting update periodic15

aaa accounting update

dot1x accounting default  

dot1x authentication default  

aaa authorization ip-auth-mode mixed

no aaa log enable

interface FastEthernet 0/1

   dot1x port-control auto

expert access-list extended 2700

  10 permit arp any any 

  20 permit udp any any any any eq bootpc 

  30 permit udp any any any any eq bootps 

security global access-group 2700

(3)检查18K source interface 的IP地址和SAM连通性是否正常。  

(4)如认证过程卡在“寻找认证服务器”阶段或者最后提示“寻找认证服务器失败”, 则检查PC到18K之间的链路是否正常,可通过18K下相关端口802.1x是否有配置。  

检查是否在接入层上有S21交换机开启了802.1x认证导致EAP报文被过滤,或者接入了TP-LINK不转发EAP报文  

(5)如果以上两个步骤检查完以后问题依旧,则使用如下命令收集信息,并且测试同时在PC和SAM服务器上抓包  

     Show dot1x user diag mac xxx   

         create pae表示创建用户;

         pkt start表示是客户端start报文发起的认证;

         acct start表示认证过了,开始记账;

         acct stop表示用户下线,发出记账结束报文。

     Show dot1x authmng statistics  

     Show dot1x authmng mab statistics  

     Sh ip dhcp snooping binding  

(6)排查IP地址能否正常获取  

expert access-list extended 2700

  10 permit arp any any 

  20 permit udp any any any any eq bootpc 

  30 permit udp any any any any eq bootps 

security global access-group 2700

确定以上配置正常以后,如果还是无法正常获取IP地址,则根据DHCP 故障排查

(7)如果根据如上配置以后还是认证失败,则收集18K的信息,并且同时在PC和SAM上开启抓包,发送后台处理

4、故障信息收集

     18K信息收集如下:

     terminal length 0

     show ver detail

     show run     

     show mac-address-table | include ***(用户的MAC地址)

     show arp | include ****(用户的MAC地址)

     show ip dhcp snooping

     show ip dhcp snooping binding | in ****(用户的MAC地址)

     show dot1x user diag mac xxx

     show dot1x authmng abnormal | in xxx

     show dot1x authmng statistic

     show dot1x authmng mab statistic

     show dot1x user mac xxx

     show dot1x

     deb dot1x dump gl

     show log

     terminal no length

     SAM信息收集log信息目录如下:

 

二、故障现象  

   802.1X异常掉线

2、故障可能原因


 

(1)用户一段时间没有使用流量  

(2)客户端和SAM版本不兼容导致下线  

(3)VLAN 端口迁移,导致用户明明没有主动下线却提示主动下线(B3P2及以前)  

     、处理步骤

(1)SAM系统WEB管理页面的运维管理>上网明细管理,找到相关的用户,查看他的下线原因,根据上面的提示可初步判断下线原因

 


 

注:SAM上的用户下线原因基本上是准确的,但是由于网络环境复杂,有可能会有存在误差的情况

(2)如设备上提示下线原因是无流量,如下图所示,则为SAM收到流量审计设备(如RSR77、ACE等)的TCP2009无流量通知    

 


 

        如设备上提示下线原因是CODE4(空闲值超时),如下图所示,则为18K的记账结束报文中CODE值为4,为18K无流量下线  

 

所以根据相关提示,确定无流量下线的时间,查看18K配置    

offline-detect interval 15 threshold 0        //15分钟内未检测到用户流量,就将用户踢下线。N18K通过查看MAC地址表是否有流量hit来判断    

offline-detect interval 15 threshold 0 vlan 1000-1500      //可选,基于vlan 1000-1500开启无流量下线功能    

     

若18K上提示下线时间未到就下线了,那么无流量下线应该是由其他设备发起,需要排查其他联动设备的流量检测相关功能。    

如RSR77配置如下:    

sam-acct user keepalive-detect enable      //开启无流量检测功能【默认已开启】    

sam-acct user keepalive-detect 900        //900秒内流量为0时踢用户下线【默认900秒】    


(3)当用户VLAN或者端口迁移的时候会导致18K发送EAP failure报文给客户端,客户端收到以后会主动发起下线请求。

使用Show dot1x authmng abnormal查看一下,用户的下线原因。如果确定原因是端口或者VLAN迁移,则使用show mac-address-table 和show arp 查看迁移的现象,排查迁移原因(环路等原因)从根源上解决 

   

 注释如下:    

"user logoff" : \---》客户端logoff    

 "server kickout user" : \---》服务器踢线    

 "no flow" : \---》无流量    

"port move" : \---》端口迁移    

 "vlan move" : \---》vlan迁移    

 "port-vlan move" : \---》端口和vlan迁移    

 "invalid ip" : \---》未获取有效ip    

4、故障信息收集

     18K信息收集如下:

     terminal length 0

     show ver detail

     show run     

     show mac-address-table | include ***(用户的MAC地址)

     show arp | include ****(用户的MAC地址)

     show ip dhcp snooping

     show ip dhcp snooping binding | in ****(用户的MAC地址)

     show dot1x user diag mac xxx

     show dot1x authmng abnormal | in xxx

     show dot1x authmng statistic

     show dot1x authmng mab statistic

     show dot1x user mac xxx

     show dot1x

     deb dot1x dump gl

     show log

     terminal no length

     SAM信息收集log信息目录如下:


 


 

三、通用场景

认证失败报错密码错误

1.先确保密码正确,尝试更换密码、更换账号测试

2.检查设备上radius key是否配置正常

3.检查是否数据库中的密码为明文,而安装时选择的是密文保存或者完全相反。

4.检查PC上是否安装了有自动认证的某些软件,使用了错误的密码来认证。

Su认证失败提示不允许使用本服务

该报错表明认证时客户端提交上来的服务名与套餐中规定的服务名不符。或是客户端选错了服务,或SAM上套餐配置存在问题。

1.在SAM服务器认证失败日志总查看客户端使用的服务名

2.如果客户端使用的服务名不是预期的服务名,检查是否客户端认证时选择的服务选择错了。或者eportal与SAM做web认证并开启了网关模式时,检查eportal上配置的网关服务名与SAM套餐中的服务名,两个名字必须一致。

3.如果客户端服务名是预期的服务名,则比对SAM套餐中是否设置了对应的服务。比如套餐中是否匹配了某个地区,而该地区是否允许使用该服务。

客户端认证失败,提示获取不到IP地址?

先检查网卡实际是否有IP地址,如果实际就没有,则该报错主要是由于用户PC网卡未获取到IP地址导致。

客户端本身不直接参与DHCP过程,建议抓包排查DHCP过程。可配置静态地址或取消1x认证来确认是否为DHCP过程问题。

NAS为汇聚或核心交换机,认证总是提示连接不到服务器

一般是因为NAS上面存在多个IP地址,发送的radius报文的源ip与radius服务器上添加的设备IP不一样导致。可通过数据流走向分析或抓包来定位。

需要在NAS配置ip radius souce-interface 接口类接口号 这条命令来指定radius报文源端口。

SU认证失败中提示已达到同时在线用户数量上限

原因是此用户的已达到接入控制或套餐中设置的同时在线数量上限。

1).先检查接入控制和套餐中设置的登录次数上限是多少

2).查看在线表,检查该用户是否在线。

3).如果在线,通过用户信息查看是否为不同用户使用,是否是账号被盗用或是正常的多人使用

4).如果不是多人使用,则可能是用户异常残留在在线表,没有正常下线。此时可以踢此用户下线或在在线表中删除此用户。

有线认证时弹出提示信息“网络信号连接失败,请检查网线或无线信号是否已经连接”

首先检查网线是否松动,然后查看网卡设置界面中是否选择了有线网卡;若安装了第三方WiFi则卸载并重启系统。

su认证失败提示不要安装代理软件或使用代理软件

在SAM接入控制-用户行为管理中开启了防架设代理,客户端就会检测系统环境。

1)请务必确认你电脑上没有安装homeshare,ccporxy等代理软件。

2)拨号软件也会被禁止,如天翼拨号软件等。部分应用软件可以设置代理服务器如通信软件、下载软件等,请设置此类软件关闭代理服务器功能。

3)使用最新正式版的客户端版本。

客户端认证后一段时间就掉线,提示53 138端口无法通信通信,请检测防火墙设置。

此问题是客户端与SAM服务器直通通信失败导致。SAM与客户端利用直通报文直接交互进行保活,若超过客户端保活周期则会被强制下线。直通端口与保活周期都可以在服务器系统配置中设置。

默认直通端口为客户端监听138端口,服务器监听53端口。直通保活报文由客户端138源端口发给目的端口53的UDP报文。

1).检查是否使用了对应的客户端版本,如SU4.44就不支持直通通信。

2).检查连通性。检查中间是否有防火墙设备或配置了acl阻断了直通通信,检查服务器和客户端直通端口是否正常监听,抓包定位直通报文在哪丢失。

3).检查服务器上是否开启了windows的DNS server服务。

4).在用户电脑和服务器上同时抓取故障报文进行分析。