1、确认流控状态

a.流控策略没有勾选启用,则该策略不生效(只针对手动添加的策略,默认模板策略默认开启,不能改变状态)

b.对应接口没有开启流控,则该接口下流控策略不生效(针对该接口下的所有流控策略)

c.如果配置了时间,时间没有匹配流控策略不生效。

2、接口带宽配置、修改

a.流控根据【流控】--》【流控策略】--》【智能流控】中填写的带宽值进行流控限速;

b.当用户在【网络】--》【接口配置】--》【接口基本设置】中修改带宽大小,流控带宽值会跟着改变;

c.修改接口带宽值,默认下发的流控模板会等比例缩放;

d.修改接口带宽值,手动添加的流控策略:保障型流控策略会等比例缩放,每IP限速和不限速型流控策略不变。

3、IP限速

【流控】【流控策略】【策略调整】添加策略

4、IP不限速

IP不限速web有两个地方可以配置实现:

1、【流控】【行为策略】【简易配置】【免审计用户】直接添加免流控ip

注意:免流控配置后,对该用户不识别、不审计、不流控;对于该用户来说,基于应用对象的应用路由策略失效。

如果需要流控勾选只免审计不免流控即可

2、【流控】---【流控策略】---【策略调整】添加不限速策略:

对IP不限速,推荐使用第二种方法

5、带宽空闲时,网页打开慢、下载速度慢、视频卡

添加流控策略把下载的那台IP设置不限速,观察下载速度是否变快:

1. 添加不限速策略后下载速率还是一样慢,下载资源问题,建议更换下载资源;

2. 添加不限速策略后下载速率变快,说明下载应用被流控限制了,需要把上行每用户最大值适当调高(下载类应用下行最大值默认为通道最大值),有些P2P下载/视频下行流量 和上行流量大小有关,当上行流量被抑制时,下行流量也会被打压;

6、游戏无法进入

相同运营商 光纤+ADSL

前面介绍了游戏WEB大流量是走拨号,这种环境下一般来说游戏登录不会出太大的问题,如果有出现游戏登录不了的问题,先确认ADSL是否有开防运营商检测,如果开了,把游戏安全登录器这个应用放到和游戏同一条线路。反之查看是否同时走了两条线。

 

7、steam类游戏故障排查

这类游戏基本都需要用到游戏加速器。在配置的时候要注意以下几点:

1)保证特征库是最新的,特征库前后误差不能超过一个月。

2)相关应用的流控保证是正确的,要确保相关应用在关键通道里

3)如果一些游戏登录的时候出现无法登录的故障,可以通过命令查看 这个源IP底下有哪些IP地址是国外的IP,把这些国外的IP网段通过自定义应用加到网络游戏个大类里面。

 

8、主播类应用卡或者无法做主播

现在很多客户会在网吧里面做游戏直播,这类的直播一般对上行要求比较大。特征库里也有对这类应用做相关的识别。主要配置如下。(注:主播类软件有测速功能,测速是识别成P2P,会提示带宽达不到要求,此步骤可以叫客户直接跳过。)

1.)拨号上行比较大的情况下(比如上行10M左右)

在流控策略里面单独针对主播类的应用配置带宽。

 

2.)主线路光纤30M+100M ADSL

这个时候配置应用路由+流控策略

应用路由配置:

流控配置:

9、单机-单线-不限速-排查故障方法

网吧运营时常会遇到的一些问题,比如:
游戏卡,ping值高,老是掉线,游戏登录困难或登录不上,下载速度慢,看电影要缓冲,网站打不开,等等。
造成这些问题的原因很多。可以先从路由器开始排查。登录Web管理页面后:

①查看带宽是否满了

点击 【流控】--【流量监控】--【实时流量】对比接口带宽配置,查看带宽是否满了,在这个页面还可以查看哪个应用,哪个用户流量占用最高。查看更早的流量记录可以通过【历史接口流量】查询。

②排查线路问题、分流问题

在带宽没有用满的情况下,出现应用故障,一时不知道是什么原因导致时,可以通过 对出问题的电脑所有应用指定一条线路,并且不做流控限速。(单机单线不限速)

这样设置后,指定的IP所有应用都从一条线路出去,不存在分流所有就不存在识别问题。

不做流控限速,也就没有速度被限制的问题。

指定IP走单线路配置:【网络】--【路由/负载】--【应用路由】(超神系列:【选路】--【路由/负载】--【应用路由】)页面中 添加 指定主机走单线路,在对象列表中添加IP,并选择接口线路(通过匹配顺序一栏调整,使添加的路由至于页面最顶上)。

流不限速配置:(参考4、IP不限速)

这样设置之后,之前的故障依然存在,那么问题就不在路由器上;检查其他方面是否有问题。
这样设置之后,之前的故障立刻解决,那么问题就出在路由器上;检查分流策略是否合理,检查特征库版本是否太老需要更新。

案例:

案例1(单光纤+2ADSL,视频下载类应用全分流到ADSL)。
反映在线看土豆网视频,播放完广告后视频无法播放。
检查带宽使用率正常。按照第一步指定单IP走光纤线路,可以正常播放。以为是ADSL线路有问题,单IP指定到ADSL线路,也正常。
单IP从任何一条线路走,不做分流都能正常播放。说明问题出在路由器上,检查特征库是20150625的,怀疑是应用识别错误,造成分流故障,更新特征库后,土豆网视频正常播放(策略还是原来的设置) 。

案例2(电信联通双光纤+5ADSL,视频下载类应用全分流到ADSL)。
反映梦三国网通区经常掉线,地下城游戏中一开网页就断线。
检查带宽使用率正常。指定单IP走联通光纤不限速,故障依旧。指定单IP走电信光纤也不行。其他游戏正常,ping外网网关都正常。造成掉线原因,可以排除路由器。检查其他方面,最后发现是停电后造成无盘服务器上游戏文件损坏,修复后一切正常。

案例3(联通光纤+电信ADSL+4联通ADSL,视频下载类和网页分流到联通ADSL群组)
反映英雄联盟玩不了,网页打开时快时慢,看视频也一直要缓冲。
单机-单线-不限速,指定光纤线路,一切正常。指定到联通ADSL线路时,只有其中一条线路正常。
由此可以判定是线路故障造成的,临时把分流应用指定到其他线路,一切恢复正常。
网络游戏默认是走光纤线路,按理说ADSL线路故障不会影响到光纤线路的应用。
这个网吧把网页也分流了,一些游戏登录界面用到www协议,所以分流的线路出现故障时,也就无法登陆了。

其他一些电影要缓冲、下载慢、歪歪语音慢之类的问题,单机-不限速之后,就正常的。只要对相应的策略加大限速值(包括上行/下行)就都能解决。

10、游戏卡延时高/上网慢/打开网页慢

确认故障现象

1、是突然出现还是设备刚上架就有问题;

2、了解游戏异常的具体现象是什么,是玩着玩着掉线、延时大、游戏登录不了、组团不了、购买某个东西不成功、电脑黑屏或蓝屏或自动重启(和电脑的系统关系较大)等,以上现象的排查思路均通用;

3、是所有游戏都异常,还是某个游戏不正常,其他应用是否正常(若只有个别游戏卡,建议从步骤1.查看是否识别问题排查起,若是所有游戏均卡,建议从步骤2.查看是否流控问题排查起);

4、是所有电脑均异常,还是某台电脑异常,电脑是无盘还是有盘,是否无盘和有盘都异常;

5、是所有时间都异常,还是高峰期的时候异常;

6、用户的带宽及带机量。

设备问题

步骤1.查看是否识别问题

查看是否识别错误导致进错通道丢包或做了应用阻断策略导致游戏玩不了:

首先将某有故障的用户加入免审计用户中,看是否能恢复,如果可以,则说明要么识别错误要么流控不合理(流控方面查看步骤2)要么配置了行为策略阻断了。具体查看识别成什么应用方法如下:

1)让客户找一台电脑只玩此游戏(其他应用尽量都关掉,避免影响判断)测试,看这个游戏是否走进了关键通道

通过命令show ip fpm m | in fc-sp 查看流控模块对应的私有流空间编号

然后用命令 Ruijie#sh ip fpm pri 12  | inc 172.18.132.99  了解172.18.132.99这台电脑的流量是否进错通道,然后通过 show flow-control 查看对应通道的策略

 

2)如果没有查看到游戏流进入关键通道而是进入其他通道,则说明识别错误。

通过Sh flowr app glo ip 192.168.x.x命令可看到此用户的流量被识别为哪些类型(此命令是5S的平均值,建议连续多sh 几次看的更准)

如下图所示:第一列为此IP地址的各应用,第二列为此应用所属的应用组,第三称为此应用所在的通道。

每个应用下的第一行为此应用被转发的流量速率(bps)或报文速率(pps)(如果报文非常多,但流量不大,就是类似快播型的攻击了,包多流量小)

每个应用下的第二行为此应用被丢弃的流量速率或报文速率,如果是有被丢包,那将会导致游戏卡,或进不了,需要检查是否配置了行为策略。

如果发现识别错,则升级特征库到最新版本(sh id ver查看当前特征库版本),若升级后还是识别错,可按步骤4收集信息反馈给接口人。

若发现识别均正确,但还是被丢弃,则需要检查是否在行为策略、流控相关(参考步骤2)或行为策略的高级里有策略对其阻断了。

步骤2.查看是否流控问题

若所有游戏均卡,流控问题可能性最大,流控问题需要检查的点有:

1)带宽是否拥塞(即带宽利用率已经达到90%以上算拥塞,以命令行sh flow-c Gi0/X auto(此命令连续sh 几次更准确)或sh int Gi0/X看外网口的流量这两种方式查看的带宽利用率为准,web上的利用率有延迟,不够准确),若拥塞,检查以下几点:

a、流控高级里是否配置了对所有用户或部分用户不限速或部分用户免审计或添加内部服务器,而这些特殊主机的流量过大导致的带宽拥塞;

b、使用sh flow-control Gi0/X auto-pir 命令查看当前哪些通道的带宽占用的最大,若发现是普通或抑制通道的带宽占用较大,可降低普通通道或抑制通道的保证带宽、每IP的最大带宽、各通道最大带宽,如下图所示,这样才能保证关键通道能正常使用;

c、若抑制类或普通已经压制下来,但带宽利用率还是很高,发现是因为关键通道本身的带宽需求很大,比如用户带宽共20M,关键类已经达到16M,那此时则需要查看关键通道中是否有哪些应用不重要,可拖至普通或抑制类的,若都是重要应用,那此时说明用户的带宽明显不足了,可告知客户通过加大带宽来解决问题。

2)若带宽利用率未达阀值,则可通过show flow-control Gi0/3 auto-pir 命令查看外网口各通道是否有丢包,若在故障时连续sh 5次以上所有通道均不丢包,可排除是流控问题导致的卡。若有丢包,可检查以下几点:

a、可查看是否各类应用每IP最大带宽或各类应用最大带宽限或每IP最大带宽的不够合理,如每IP最大带宽限为300K,明显过小;

b、如果是普通或抑制类有一些丢包,是正常的,因为流量统计是一秒统计一次,有可能在这一秒内的其中某一瞬间带宽超过了90%,导致的丢包,尤其是抑制类,P2P、http多进程这些应用容易有过大的突发流量,当然也有可能是游戏识别成普通或抑制类的应用,从而被丢包的,所以需要通过步骤1.查看是否识别问题排查识别的问题;

c、阀值是否限制的太低,导致带宽利用率不高,阀值默认是90%,若被人为调整的太低,有可能导致带宽利用率低,如将阀值调整为60%,总带宽是100M,那当带宽利用率达到60M,就会开始压制当前的带宽,也会导致卡。

d、线路带宽上行和下行是否配置准确,尤其是ADSL线路,比如上行实际只有2M,但用户配置为10M,那么表现上看带宽利用率低,但实际有可能已经拥塞了。

e、如果关键通道都在丢包,则需要检查关键通道的保证带宽是否过小,如果关键通道在丢包,可调高关键通道的保证带宽、每IP最大带宽。若客户设备上没有开启VPN功能,流控高级的配置最后一步的匹配VPN不要勾,若勾选会增加一些VPN通道,此VPN通道会从关键通道里拿走部分保证带宽,会导致关键通道的保证带宽变小,从而导致关键应用变卡,如下图所示,VPN通道其实完全没有流量(sh vpdn发现用户完全没配置vpn的),但它会分走关键通道四分之三的保证带宽,导致关键通道的保证带宽和普通通道的一样,如果没有VPN流控可以在web上把VPN流控勾选去掉:    

f、是否配置了每IP最大带宽功能,若有配置,可尝试先关掉此功能看是否还会卡,此功能较耗性能

g、尽量保证带宽有一定的空余带宽,不可跑到100%,例如将阀值调为100%,则可能导致带宽始终拥塞,突发的流量将被丢包,游戏也会卡;

流控常用命令:

1、sh flowr ip global ——查看全局哪个用户的IP占用的流量最大,此命令可查看流量最大的top 50 用户

2、sh flowr ip glo ip 192.168.X.X ——查看单IP的流量

  

3、sh flowr app global ——查看全局哪些应用占用的流量大,此命令可查看流量最大的top 50 应用

4、show flow-control Gi0/3 auto-pir进行详解如下:

1)Interval: 此命令show出来的结果是1s的平均值(sh flowr app glo ip x.x.x.x命令审计的值是5s的平均值)。

2)inbound: 外网口的input方向流量,即下行流量情况。

3)outbound: 外网口的input方向流量,即下行流量情况。

4)Threshold: 当前紧张阀值,默认90%

5)Cache_skb:流量过来后,会对流量进行缓存,经过流控策略的分析控制后再送入下一个模块,缓冲区的空间有限,对突发的流量没办法百分百缓存下来,如果突发流量过大,会导致缓冲区放不下而丢包,当然正常的应用报文是不会有这么大的突发量的,除非是受攻击了。

6)Rate: 括号里即经过流控模块后丢包的值

7)Percentage: 下行带宽利用率

8)Channel: 各通道名

9)Rate: 各通道转发的报文,括号里为丢弃的包(注意:因行为策略阻断的丢包不会在这里体现,需要通过sh flowr app glo x.x.x.x查看)

10) Prio: 通道优化级,用于在带宽紧张时,抢带宽时优先级值小的通道,默认关键是0,普通是4,抑制是7,自定义的默认是4

11)Config-CIR:配置的保证带宽

12)Config-PIR: 配置的通道最大带宽

13)Real-PIR :通过限速后的最大带宽值,当带宽超过阀值后,优化级低(值越大优先级越小)的通道的最大带宽值会优先被限速到保证带宽。

步骤3.检测是否选路问题

客户网络出口有多条外网线,排查思路如下(其他应用异常的排查思路也通用):

     注:各选路功能优先级:(源进源出)PRL>DNS代理(仅对DNS报文有效)>策略路由>过载保护>应用路由>静态路由>地址库路由>默认路由

     1、让客户找一台主机,给此主机做策略路由只走一条线,若故障依旧,则按单线路的排查思路进行排查

     2、若给主机做策略路由后固定走某条线故障必现,走其他线正常,则很有可能这条线路外网有问题,排查步骤1、步骤2均未发现异常的情况下,可建议客户联系运营商排查

     3、若做策略路由分别走各条线均正常,但不配置策略路由就异常,检查以下要点:

     a、查看地址版本是否不够新,若不够新,更新到最新版本;

     b、若用户有配置DNS代理,在打网页时有可能出现通过电信线解析出电信的IP,但用户同时配置了应用路由将web应用指定走联通,此时访问这个电信IP走了网通线,有可能打不开或打开慢(游戏一般不太需要DNS解析,受影响的一般是网页),此时可建议客户不要配置DNS代理或让DNS代理只代理到网通线上。

     c、检查是否开启了负载均衡,若有开启,尝试将负载均衡方式调整为基于源的方式,看是否恢复

     Ruijie(config)#mllb load-sharing original (只能在命令行下修改)

     Ruijie(config)#ip ref load-sharing original-only (只能在命令行下修改)

     d、sh ip fpm pri 1 | inc 192.168.1.X 命令,查看此用户上网是匹配上哪个选路模块的,以及选路是否成功,外网是否有回应,如下图所示,左边一列为数据从设备转发所匹配上的选路模块,右边一列为外网回应包到设备,设备转发给内网所匹配上的选路模块,若左边一列为unkown说明转发出去时就选路失败,可能是未配置可以匹配的上的路由,或配置了上网屏蔽用户,或配置了行为策略阻断等,若是右边一列unkown,一般可能是因为外网没回应。

            sh ip fpm pri 1 | inc 192.168.1.X 详解,如下图所示:

            app_route(6):表示是走的应用路由(注意,部分应用走应用路由的是使用http代理的原理,如:在网页上另存为下载,http代理的应用虽然有走应用路由,但使用sh ip fpm pri 1命令看到的选路是ref_ip)

            ref_ip(1):表示走的是快转路由,也就是普通的静态路由、默认路由

            pbr(3):表示走的是策略路由

            dns_proxy(5) :表示是DNS中继

            rpl(4): 源进源出

            mllb(7): 负载均衡

            load_protect(8):过载保护

            user_route(9) : 用户路由(如与SAM联动后,设备可根据认证用户选择出口线路,此功能只有NPE60E支持,EG2000-XE-NPE(此型号的前身是NPE60E)其他产品都不支持)

            app_identify(2):应用代理(开户应用路由增强型即开启应用代理功能)

            unknow :数据没回应或选路失败(左边一列是发起流,右边一列是回复流,正常上网即左边是内网出去的流,右边是外网回应的流,如果是端口映射,从外网主动发起,则左边一列是外网访问进来的流,右边一列是内网回应的流)

步骤4.检查是否性能不足

            查看当前带机量(show online statistics global)、内外网口的流量及CPU情况,对比spec参数,检查是否性能不匹配客户的环境,若是,则想办法优化功能,节约性能(此操作可与接口人确认)或建议客户更换性能更高的产品。

内网问题

a、若是无盘系统异常,有盘电脑正常,则可建议客户联系系统专家查看是否系统有问题;

b、若是打网页慢,还需要在电脑上查看解析速度是否够快,通过以下方法,在cmd窗口里输入nslookup命令,然后输入一个域名,看解析出来的速度如何,若速度慢,可尝试更换DNS;

           

b、了解用户的拓扑,是否内网有其他的安全设备或行为管理设备,是否有可能对用户进行限制,若有条件,可尝试将电脑直连到NBR/EG下看故障是否可恢复;

c、排查是否内网环境有异常 , Ping是否正常。

 

外网问题

若检查设备问题及内网问题均未发现异常,则可能是外网线路问题,外网问题可建议客户在业务低峰期时单机测试或让客户询问别的网吧是否也有异常。

收集信息

识别错或是通过以上步骤均无法解决,则需要收集以下信息及自己做过哪些测试,同步给接口人:

收集客户玩的游戏名称及游戏版本,或游戏下载链接

            sh id ver

     sh run

            sh ver

            show route-db-info date

     sh flowr app glo ip x.x.x.x

            sh flow-control Gi0/X auto  --多show几次,间隔2S左右

            sh ip fpm pri 12 | inc 192.168.1.X  --192.168.1.X即故障主机

            sh ip fpm pri 1 | inc 192.168.1.X

            Sh int

            sh log

            sh cpu

如果研发本地无条件测试,则需要抓包,将游戏全过程(包括登录、玩各功能)抓至少3次。