网关产品线 >> Cache X/XE/XC系列 >> 日常维护 >> 常见故障 >>

1.服务器异常死机

由于服务器硬件或软件故障导致服务器异常死机

处理方法:先搜集如下信息,并联系400处理

1)观察风扇在转动,把手放在机箱后部风扇部位,感觉有风吹出(确认电源);

2)观察前面板,所有硬盘灯一直不闪烁; (确认硬盘)

3)连接USB键盘和VGA显示器,敲回车键没有响应,敲NumLock键,对应键盘上显示灯也没有反应;(确认死机)

4)按一次电源键,不超过1秒钟,显示器上如果有错误输出停止不动,可以照相采集,如果没有任何信息,则判断为死机。(关键信息收集)

5)运行日志收集脚本,操作方法如下:

1>wget http://download.surfront.com/updates/xcache/ruijie-xcache/gather.sh  //下载日志搜集脚本

2>chmod 777 gather.sh  //给脚本赋予执行权限

3>./gather.sh                  //执行脚本,脚本执行后,会生成一个名为backup_xxx.tar.gz的文件,其中xxx代表是一串数字

6)将生成的文件发送给400,交由研发分析原因。

 

2.web界面无法打开

两种情况可能导致WEB页面打不开,不通的情况要不同处理。

1)Cache自带防火墙没有打开443端口

处理步骤:

       1>登陆SSH后台,使用命令iptables-save,查看是否有 -A RH-Firewall-1-INPUT -p tcp -m state --state NEW -m tcp --dport 443 -j ACCEPT 的条目

       2>如果没有,在 /etc/sysconfig/iptables 文件中,加入上述条目;

       3>然后使用命令 /etc/init.d/iptables restart 重启防火墙服务,查看能否正常登陆。

       4>如不能正常登陆,则使用命令 cd /opt/xcache/ ,再使用命令 /etc/init.d/xcached restore 恢复出厂尝试(恢复出厂会导致已缓存的所有数据无法使用,请慎用此命令)。

2)Cache受到攻击,导致web页面无法打开

设备受到攻击后,会导致 cd /opt/xcache/logs/ 目录下的 admin.log 文件过大,导致PowerCache进程挂起。

具体处理步骤:

       1>ssh登录PowerCache后台(默认用户名:root,密码:rgP0werCach1)

       2>执行下面4个命令,建议拷贝后直接粘贴到命令行执行(提示:在线运行设备,执行下面三个命令无风险):

                     rm -rf /opt/xcache/logs/admin.log*

                     cd  /opt/xcache/lib

                     wget  http://download.surfront.com/updates/xcache/start.jar

                     /etc/init.d/xcached  restart

若想查看攻击源,可使用如下脚本获得:grep "WARN:oejin.ssl:" admin.log |awk -F ':' '{print $6}' | sort | uniq -c  | sort -rn

 

3.更换故障硬盘

当确认由于硬盘原因导致设备无法正常工作时,可通过如下方式先撤掉故障硬盘。

以缓存服务器 IP 地址:192.168.1.118 硬盘目录:/data1为例

1)停止缓存服务:

cd /opt/xcache

/etc/init.d/xcached stop

/etc/init.d/nginx stop

2)清理缓存文件数据库记录:

./bin/config.sh cache cleanfiles 192.168.1.118 /data1 (删除主机192.168.1.118的 /data1硬盘数据库记录 ,该命令格式为:./bin/config.sh cache cleanfiles [host] [disk])

3)删除缓存文件:

cd /

rm -rf /data1/*

4)取消分区挂载

umount /data1

5)删除分区目录

rm -rf /data1

6)修改配置文件/etc/fstab文件

vi /etc/fstab

删除一行配置文本:

LABEL=/data1 /data1 ext3 defaults 0 0

缓存服务配置文件:

vi /opt/xcache/conf/application.properties

删除/data1缓存目录

7)重启缓存服务

/etc/init.d/xcache restart

故障硬盘撤掉后,可通过如下方式替换撤下的硬盘

1)首先使用命令查看硬盘设备列表:

fdisk -l

2)给其中一块硬盘创建分区:

fdisk /dev/sdb

根据情况,输入n(回车)p(回车)1(回车)(回车)(回车)w(回车)

注释:硬盘与分区对应关系(sdb对应/data1、sdc对应/data2、sdd对应/data3、sde对应/data4、sdf对应/data5、sdg对应/data7、sdh对应/data8、sdi对应/data9、sdj对应/dataA、sdk对应/dataB、sdl对应/dataC)

3)格式化分区:

mkfs.ext3 -L /data1 /dev/sdb1

4)挂载分区:

mkdir -p /data1

echo "LABEL=/data1 /data1 ext3 defaults 0 0" >> /etc/fstab

mount -a

5)缓存服务配置文件:

vi /opt/xcache/conf/application.properties

增加/data1缓存目录

6)重启缓存服务

/etc/init.d/xcache restart

 

4.系统根目录使用率100%

使用df -h命令查看系统使用率

如红色方框内磁盘分区使用率达到100%,则按如下操作进行:

以缓存服务器 IP 地址:192.168.1.118 故障硬盘目录:/data1为例

1)停止缓存服务:

cd /opt/xcache

/etc/init.d/xcached stop

/etc/init.d/nginx stop

2)清理缓存文件数据库记录:

./bin/config.sh cache cleanfiles 192.168.1.118 /data1

3)删除缓存文件:

cd /

rm -rf /data1/*

4)取消分区挂载

umount /data1

5)删除分区目录

rm -rf /data1

6)修改配置文件

/etc/fstab文件

vi /etc/fstab

删除一行配置文本:

LABEL=/data1 /data1 ext3 defaults 0 0

缓存服务配置文件:

vi /opt/xcache/conf/application.properties

删除/data1缓存目录

7)重启缓存服务

/etc/init.d/xcache restart

8)查看message日志是否过大

通过ls -la /var/log/messages 命令查看message日志是否过大,当message日志大小超过2G后,会导致系统根分区使用率100%。

通过WinScp或其他SSH Shell工具,将message文件导出,供研发工程师分析,同时执行如下操作:

rm -rf /var/log/messages*

/etc/init.d/rsyslog restart

 

5.opt目录使用率100%

opt目录为下图中红色方框显示的目录,

该目录保存了设备的基本配置和日志,当日志文件过大时,会导致opt目录使用率100%,此时需执行如下操作:

1)通过 ls la /opt/xcache/logs目录日志大小,当日志过大,需要手动将其删除,具体操作步骤如下:

/etc/init.d/xcached stop

/etc/init.d/nginx stop

rm -rf /opt/xcache/logs/*

/etc/init.d/xcached restart

2)通过 ls la /opt/xcache/nginx/logs目录日志大小,当日志过大,需要手动将其删除,具体操作步骤如下:

/etc/init.d/xcached stop

/etc/init.d/nginx stop

rm -rf /opt/xcache/nginx/logs/*

/etc/init.d/xcached restart

3)通过 ls la /opt/xcache/data/logs目录日志大小,当日志过大,需要手动将其删除,具体操作步骤如下:

/etc/init.d/xcached stop

/etc/init.d/nginx stop

 rm -rf /opt/xcache/data/logs/*

/etc/init.d/xcached restart

 

6.通过SNMP协议管理Power Cache系统

学校有自己的网管系统,需要将Power Cache系统纳入网管系统中,进行统一管理。

处理方法

1)开放Power Cache系统SNMP协议

2)ssh192.168.1.118登陆Power Cache后台

3)vi /etc/snmp/snmpd.conf 增加com2sec kdtnet 124.205.11.70 public(将需要放开访问权限的IP加入安全名称,多个IP地址可以写多行,kdtnet 是安全名称,可根据客户相应修改;124.205.11.70是需要放开访问权限的IP地址;public 是SNMP的community)

4)在snmpd.conf 增加group localGroup v2c kdtnet(将安全名称加入一个组,以便进行ACL控制;localGroup 是组名称)

5)/etc/init.d/snmpd restart(重启snmpd服务)

6)vi /etc/sysconfig/iptables增加-A RH-Firewall-1-INPUT -s 124.205.11.70 -p udp -j ACCEPT条目

7)/etc/init.d/iptables restart  (重启防火墙服务)

 

7.开启缓存服务后,DNS不能正常解析

开启缓存系统服务后,缓存系统会同时从不同网站下载文件此时需要DNS同时解析多个网站的域名,由于学校相关安全设备上配置了类似于DNS攻击防范策略,限制了单个IP地址同时解析不同域名的数量,导致缓存系统DNS不能正常解析

处理方法

检查安全设备DNS攻击防范配置,并关闭或调整单个IP地址同时解析不同域名的数量。

 

8、Cache的告警日志中提示:/data1 not mount

该提示意味着某块盘出现异常,可能是由于硬盘自身故障,也可能是由于接口故障、硬盘未插牢导致,可按如下步骤排查:

1、确定出现异常的硬盘分区,根据硬盘分区对照表,确定出现问题的硬盘位置;

2、将设备关机(使用设备面板上的关机按钮或通过web、SSH关机,切勿直接断电),插拔故障硬盘;

3、重启设备,确认是否仍有告警日志;

4、如告警日志消除,则说明是硬盘未插牢导致,反之继续如下处理;

5、再将设备关机(切勿直接断电),将其他正常硬盘插入故障硬盘槽位,记住正常硬盘所在槽位,原有故障硬盘暂时查回到正常硬盘所在槽位;

6、重启设备,如原有正常槽位对应的硬盘分区提示未挂载、原有故障槽位对应的硬盘分区正常,则是硬盘故障,需要对故障硬盘进行维修更换;如系统仍有告警日志,并且告警信息与之前一致,则是硬件接口异常,需要对整机进行维修;

 

9、Cache的万兆卡在web界面无法识别

4.6版本开始,Cache万兆卡需要在web界面启用后才能正常显示;在接口未启用在,命令行下使用ethtool ethx需要可以正常识别到新增的万兆卡,默认情况下,X10的万兆卡接口名称为eth6、eth7,X10E的万兆卡接口名称为eth8、eth9;

如果在命令行下也无法识别,则可能是由于万兆卡没有插牢导致的,建议重新安装万兆卡。

 

10、Cache的万兆卡丢包严重

1、命令行下使用命令top查看设备CPU使用率,如果设备CPU使用率偏高,先升级版本到4.6.10,解决万兆卡软中断问题导致的CPU偏高、接口丢包的问题;

2、软件版本升级后如仍然丢包,请更换光纤、模块尝试;

3、光纤、模块更新后如仍然丢包,建议更换万兆卡槽位尝试;

4、如万兆卡槽位更换后仍丢包,则可能是硬件故障,请致电400处理。

 

11、Cache在web界面上显示硬盘为红色且提示不可用,但实际上硬盘可以正常使用

在系统设置--硬盘管理中,右上角显示的为系统分区的一个大致对应关系,由于web显示的问题,会存在部分硬盘可以正常使用但此处显示为红色的问题;只要页面中间对应分区显示为绿色、并且磁盘可以正常读写,就说明设备是正常的。

 

12、CACHE 打开管理页面缓慢

Powercache管理页面是通过Jave来实现,jave和操作系统之间的通讯是比较消耗资源,向操作系统交还内存、申请内存都比较浪费时间,

管理页面进程向操作系统申请一大块内存后,自己管理,从而避免频繁的操作系统调用,并且能使用适合自身应用场景的、特殊的内存管理方式来提高性能。在管理页面启动脚本配置参数向操作系统申请分配内存,当内存使用不足后在申请操作系统调用,进程使用的内存频繁的调用过程中增加CPU负荷,会出现释放内存缓慢。这样就出现页面打开慢。

解决方法:

扩大admin.sh进程内存分配空间:

[root@RG-PowerCache-X 9050]# cd /opt/xcache/bin

[root@RG-PowerCache-X bin]#

[root@RG-PowerCache-X bin]# cat  admin.sh

#!/bin/bash

 

# Global environment.

APPLICATION_CONFIG="/etc/sysconfig/xcached"

[ -f $APPLICATION_CONFIG ] && . $APPLICATION_CONFIG

[ -z "$APPLICATION_PRODUCT" ] && { echo "APPLICATION_PRODUCT not configured in environment"; exit 0; }

[ -z "$APPLICATION_HOME" ] && { echo "APPLICATION_HOME not configured in environment"; exit 0; }

 

# Name

APPLICATION_NAME="admin"

 

# PID

APPLICATION_PID="$ADMIN_PID"

 

# Java command

JAVA="$APPLICATION_HOME/jre/bin/java"

 

# Sun JVM memory allocation pool parameters.

if [ -z "$ADMIN_VMOPTIONS" ] ; then

    JAVA_OPTS="-server -Xms128m -Xmx512m"     可以调整  Xmx1024m

else

    JAVA_OPTS="$ADMIN_VMOPTIONS"

然后重新启动服务  service xcached restart

 

 

13、X10E万兆接口识别为eth10、eth11

        cache X10E的默认万兆接口会识别为eth8、eth9 如果在以前插了其它万兆的情况下就会识别成eth10、eth11。

可以尝试使用ethtool eth10 或ethtool eth11查看;

cacheX10E如果万兆接口识别为eth10、eth11,可以通过以下方法修改

cd  /etc/udev/rules.d

cp 70-persistent-net.rules  70-persistent-net.rules.bak

vi 70-persistent-net.rules   删除eth10、eht11的相关信息 

 

cd /etc/sysconfig/network-scripts/

 cp ifcfg-eth10 ifcfg-eth10.bak

cp ifcfg-eth11 ifcfg-eth11.bak

 rm -f ifcfg-eth10

 rm -f ifcfg-eth11

重启设备,使用ethtool命令查看网卡识别是否正常,如果正常重新在web界面或命令行添加万兆网卡及可。

 

 

14、Cache启动后经常出现设备接口无法正常识别的情况

目前经常出现设备重启后部分接口无法使用,查看接口提示如下信息:

 

问题原因:

接口配置文件中,部分接口的配置中出现重复的MAC地址,导致设备读取底层参数时出现地址冲突的情况,无法识别接口。

 

解决办法:

1、查看设备底层识别到的MAC信息:cat /etc/udev/rules.d/70-persistent-net.rules

上图中,可以看到最后一条eth2接口的MAC和上面的eth3口MAC冲突,导致识别异常。

 

2、上述配置文件中,最下面的eth2接口的信息是通过外置工具读取的(custom name provided by external tool),一般都是由于修改了该接口的配置文件导致:

通过VI编辑器,删除接口配置文件下MAC配置,删除后信息如下:

同时删除底层识别文件中最后一条的信息,删除后信息如下:

将上述信息修改后保存并重启,即可恢复正常

 

 

15、CACHE 登陆后界面上少了几个菜单

        如图

      

不是使用administrator账号登陆,是使用用户自定的账号,没有开放显视这些菜单;

注意:cache的自定义账号能显视那些信息,是可以用户自定义的

 

 

16、CACHE  正式授权频繁丢失

原因是cache的配置文件地址与直接接口地址不一致导致,导致与服务器校验时会出现地址不一致,导致授权失效,可以修改配置文件解决。

 

详情:

Cache设备的管理ip是:192.168.1.118,但给用户提供服务是eth7接口,授权许可绑定的网卡是管理网络接口,所有出现频繁授权过期。

解决:

1、  将eth7 设置为服务IP;

2、  后台数据库记录的IP地址都是192.168.1.118 

更改eth7为管理IP地址。

 

[root@RG-PowerCache-X conf]# cat application.properties

# locale setting

user.language=zh

user.country=CN

user.timezone=PRC

# default charset setting

mail.mime.charset=GBK

# application setting

application.type=admin;downloader;sniffer

application.host=192.168.1.118                                      管理IP地址

# sniffer setting

sniffer.device=eth1;eth6

sniffer.bpf=null

# downloader setting

downloader.http.enabled=true

downloader.http.path=/data1;/data2;/data3;/data4;/data5;/data6;/data7;/data8;/data9;/dataA;/dataB

downloader.bt.enabled=true

downloader.bt.path=/dataC;/dataD

application.serviceHost=10.10.1.1                                为内网用户提供的IP地址

 

 

17、Cache重定向了一个URL给客户,但客户下载时却提示:404 Not Found

这个问题是由于Cache重定向不存在的文件数据库文件和磁盘数据不同步导致,

数据库和磁盘同步命令:/opt/xcache/bin/config.sh cache syncfiles

该命令需要再网络流量比较小的情况下执行,或者停止缓存服务。

 

 

18、Cache管理服务正常但设备无法ping通、接口收发数据不增长的问题

收集messages日志发现大量管理口eth0的报错日志:

[11:18:35]  Apr 18 02:02:11 RG-PowerCache-X kernel: e1000e 0000:02:00.0: eth0: Error reading

[11:18:35]   PHY register

[11:18:35]  Apr 18 02:02:11 RG-PowerCache-X kernel: e1000e 0000:02:00.0: eth0: Error reading

[11:18:35]   PHY register

[11:18:35]  Apr 18 02:02:26 RG-PowerCache-X kernel: e1000e 0000:02:00.0: eth0: Error reading

[11:18:35]   PHY register

[11:18:35]  Apr 18 02:02:26 RG-PowerCache-X kernel: e1000e 0000:02:00.0: eth0: Error reading

[11:18:35]   PHY register

[11:18:35]  Apr 18 02:02:26 RG-PowerCache-X kernel: e1000e 0000:02:00.0: eth0: Error reading

[11:18:35]   PHY register

[11:18:35]  Apr 18 02:02:26 RG-PowerCache-X kernel: e1000e 0000:02:00.0: eth0: Error reading

错误日志:

e1000e 0000:02:00.0: eth0: Error reading PHY register  读取PHY寄存器错误

 

原因:Centos OS操作系统的驱动对网卡支持不好

解决方法:

1、关闭活动状态电源管理(ASPM,高速外设部件互连(PCI Express或PCIe)的子系统,

通过修改GRUB引导程序,编辑以下文件/ boot / grub/ grub.conf,追加acpi=off noapic    到内核引导行的末尾。

如:

#boot=/dev/sda

default=0

timeout=5

splashimage=(hd0,0)/grub/splash.xpm.gz

hiddenmenu

title RuiJie Linux (2.6.32-220.el6.x86_64)

 

        root (hd0,0)

 

        kernel /vmlinuz-2.6.32-220.el6.x86_64 ro root=UUID=0242f546-2846-457e-b785-d66d91eab116 rd_NO_LUKS rd_NO_LVM rd_NO_MD rd_NO_DM LANG=en_US.UTF-8 SYSFONT=latarcyrheb-sun16 KEYBOARDTYPE=pc KEYTABLE=us crashkernel=auto rhgb quiet    acpi=off noapic

 

        initrd /initramfs-2.6.32-220.el6.x86_64.img

2、重新启动服务器

 

 

19、Cache管理服务频繁进行重启的问题

message日志:

2013-04-06 11:49:00 sniffer [WARN] - Device eth4 is not alive.

2013-04-06 11:49:00 sniffer [WARN] - Restarting sniffer service.

xcache有监控网卡健康检查机制,发现监控网卡有问题,会自动重启xcached服务。

导致监控检查失败的原因有以下原因:

1. 是否监控数据量大?

2. 网卡是否丢包?

3.多次拔插网线,

 

另外根据admin.log.2013-04-07.000000可以知道,admin进程没有正常启动:

java.net.BindException: Address already in use

         at sun.nio.ch.Net.bind(Native Method)

         at sun.nio.ch.ServerSocketChannelImpl.bind(Unknown Source)

         at sun.nio.ch.ServerSocketAdaptor.bind(Unknown Source)

         at sun.net.httpserver.ServerImpl.<init>(Unknown Source)

         at sun.net.httpserver.HttpServerImpl.<init>(Unknown Source)

         at sun.net.httpserver.DefaultHttpServerProvider.createHttpServer(Unknown Source)

         at com.sun.net.httpserver.HttpServer.create(Unknown Source)

这个时候需要人工重启一下。

解决方法:不对监控网卡进行监控检查。

SSH 登录Cache设备。

修改:application.properties

sniffer.healthcheck.device=false

 

 

 

20、Cache监听流量过大导致CPU使用率高

1.首先查看当前监听口流量:

sar -n DEV -u 1 10

2.针对网卡流量处理数据比较大及丢包行为,在/opt/xcache/conf/application.properties 增加了sniffer.bpf=tcp and tcp[13] & 8 != 0

 只分析处理HTTP GET的数据(实际镜像的流量还是跟未修改之前一样),

[root@RG-PowerCache-X log]# cat /opt/xcache/conf/application.properties

# locale setting

user.language=zh

user.country=CN

user.timezone=PRC

# default charset setting

mail.mime.charset=GBK

# application setting

application.type=admin;downloader;sniffer

application.host=10.10.6.248

# sniffer setting

sniffer.device=eth1;eth2;eth3;eth9

sniffer.bpf=tcp and tcp[13] & 8 != 0。

 

21、orion network performance monitor网络性能监控设备无法添加cache,SNMP方法检测排查

使用nc来进行测试UDP端口是否正常,如下

[root@kr-sg-test ~]# nc -vuz   127.0.0.1  161

Connection to 127.0.0.1  161 port [udp/ntp] succeeded!

结果证明UDP 161  端口正常监听。

请对以下技术细节进行检测

1、Snmpd.conf 配置是没有问题的,但需要对snmpd 重新启动

service snmpd restart

2、防火墙的配置

需要在/etc/sysconfig/iptables  加入以下配置。

-A RH-Firewall-1-INPUT -p udp -s 10.100.2.100 --dport 161 -j ACCEPT

-A RH-Firewall-1-INPUT -p udp -s 10.100.2.101 --dport 161 -j ACCEPT

加载防火墙配置

cd /etc/sysconfig

iptables-restore < iptables

3、SNMP   检测,在powercache ssh后台输入以下命令检测。

命令:snmpwalk -v2c 127.0.0.1  -c   hfzsahstu   system。

 

 

22、Cache的硬盘管理界面无法打开,提示连接服务器异常

1、在4.6.10或更高版本上,确认设备是否已导入license,没有license时也会出现此问题;

2、如license已导入,需要到底层确认硬盘是否挂载;

3、如没有挂载,使用fdisk -l 确认能否识别到硬盘;

4、如硬盘无法识别,建议重新插拔或返厂;

5、硬盘可以识别,但是无法挂载,请尝试重新初始化

 

 

23、CACHE X5 异常掉电或重启设备都无法启动,每次都得修改BIOS设置才可以启动 

一般主板是纽扣电池没电无法保存BIOS设置

可以考虑更换纽扣电池

 

 

24、CACHE 网络设置提交缓存服务器不是服务器安装时拥有的服务类型 

排查时缓存配置文件.downloader.hosts地址为空导致,增加后正常,如下:

 root@RG-PowerCache-X5E ~]# more /opt/xcache/conf/cluster.properties

application.admin.host=10.253.100.1

application.downloader.hosts=

application.sniffer.hosts=10.253.100.1

[root@RG-PowerCache-X5E ~]#

[root@RG-PowerCache-X5E ~]#

[root@RG-PowerCache-X5E ~]# vi /opt/xcache/conf/cluster.properties

application.admin.host=10.253.100.1

application.downloader.hosts=10.253.100.1

application.sniffer.hosts=10.253.100.1

 

 

 

25、X10C灌装6.0版本失败,提示致命错误  

灌装到84%后,提示无法安装ruijie-xcache包

查看报错日志,确认是由于U盘启动文件不完整导致,建议客户重新灌装U盘,并重装系统

 

 

26、CACHE 升级6.1版本初始化填写设备硬件系列号后无法正常申请授权

先升级到6.1RC5及以后版本后重新填写注册信息

等12-15分钟后即可

 

27、Cache初始化过程中无法选择部分接口

Cache初始化时,需要确保接口是up的状态,否则无法选择

 

 

28、Cache设备硬盘设置界面右上角一直有红色图标显示,但硬盘工作正常

Cache硬盘设备的web界面右上角的内容显示与设备底层的PCI有关系,由于web界面编码的一些问题,会出现部分PCI接口识别异常,导致硬盘状态显示异常,但不影响正常使用。