网关产品线 >> Cache X/XE/XC系列 >> 日常维护 >> 常见故障 >> |
1.服务器异常死机
由于服务器硬件或软件故障导致服务器异常死机
处理方法:先搜集如下信息,并联系400处理
1)观察风扇在转动,把手放在机箱后部风扇部位,感觉有风吹出(确认电源);
2)观察前面板,所有硬盘灯一直不闪烁; (确认硬盘)
3)连接USB键盘和VGA显示器,敲回车键没有响应,敲NumLock键,对应键盘上显示灯也没有反应;(确认死机)
4)按一次电源键,不超过1秒钟,显示器上如果有错误输出停止不动,可以照相采集,如果没有任何信息,则判断为死机。(关键信息收集)
5)运行日志收集脚本,操作方法如下:
1>wget http://download.surfront.com/updates/xcache/ruijie-xcache/gather.sh //下载日志搜集脚本
2>chmod 777 gather.sh //给脚本赋予执行权限
3>./gather.sh
//执行脚本,脚本执行后,会生成一个名为backup_xxx.tar.gz的文件,其中xxx代表是一串数字
6)将生成的文件发送给400,交由研发分析原因。
2.web界面无法打开
两种情况可能导致WEB页面打不开,不通的情况要不同处理。
1)Cache自带防火墙没有打开443端口
处理步骤:
1>登陆SSH后台,使用命令iptables-save,查看是否有
-A RH-Firewall-1-INPUT -p tcp -m state --state NEW -m tcp --dport 443 -j ACCEPT
的条目
2>如果没有,在
/etc/sysconfig/iptables 文件中,加入上述条目;
3>然后使用命令
/etc/init.d/iptables restart 重启防火墙服务,查看能否正常登陆。
4>如不能正常登陆,则使用命令
cd /opt/xcache/ ,再使用命令 /etc/init.d/xcached restore 恢复出厂尝试(恢复出厂会导致已缓存的所有数据无法使用,请慎用此命令)。
2)Cache受到攻击,导致web页面无法打开
设备受到攻击后,会导致 cd /opt/xcache/logs/ 目录下的 admin.log 文件过大,导致PowerCache进程挂起。
具体处理步骤:
1>ssh登录PowerCache后台(默认用户名:root,密码:rgP0werCach1)
2>执行下面4个命令,建议拷贝后直接粘贴到命令行执行(提示:在线运行设备,执行下面三个命令无风险):
rm
-rf /opt/xcache/logs/admin.log*
cd /opt/xcache/lib
wget http://download.surfront.com/updates/xcache/start.jar
/etc/init.d/xcached restart
若想查看攻击源,可使用如下脚本获得:grep "WARN:oejin.ssl:"
admin.log |awk -F ':' '{print $6}' | sort | uniq -c | sort -rn
3.更换故障硬盘
当确认由于硬盘原因导致设备无法正常工作时,可通过如下方式先撤掉故障硬盘。
以缓存服务器 IP 地址:192.168.1.118 硬盘目录:/data1为例
1)停止缓存服务:
cd /opt/xcache
/etc/init.d/xcached stop
/etc/init.d/nginx stop
2)清理缓存文件数据库记录:
./bin/config.sh cache cleanfiles 192.168.1.118 /data1
(删除主机192.168.1.118的 /data1硬盘数据库记录 ,该命令格式为:./bin/config.sh cache cleanfiles
[host] [disk])
3)删除缓存文件:
cd /
rm -rf /data1/*
4)取消分区挂载
umount /data1
5)删除分区目录
rm -rf /data1
6)修改配置文件/etc/fstab文件
vi /etc/fstab
删除一行配置文本:
LABEL=/data1 /data1 ext3 defaults 0 0
缓存服务配置文件:
vi /opt/xcache/conf/application.properties
删除/data1缓存目录
7)重启缓存服务
/etc/init.d/xcache restart
故障硬盘撤掉后,可通过如下方式替换撤下的硬盘
1)首先使用命令查看硬盘设备列表:
fdisk -l
2)给其中一块硬盘创建分区:
fdisk /dev/sdb
根据情况,输入n(回车)p(回车)1(回车)(回车)(回车)w(回车)
注释:硬盘与分区对应关系(sdb对应/data1、sdc对应/data2、sdd对应/data3、sde对应/data4、sdf对应/data5、sdg对应/data7、sdh对应/data8、sdi对应/data9、sdj对应/dataA、sdk对应/dataB、sdl对应/dataC)
3)格式化分区:
mkfs.ext3 -L /data1 /dev/sdb1
4)挂载分区:
mkdir -p /data1
echo "LABEL=/data1 /data1 ext3 defaults 0 0"
>> /etc/fstab
mount -a
5)缓存服务配置文件:
vi /opt/xcache/conf/application.properties
增加/data1缓存目录
6)重启缓存服务
/etc/init.d/xcache restart
4.系统根目录使用率100%
使用df -h命令查看系统使用率
如红色方框内磁盘分区使用率达到100%,则按如下操作进行:
以缓存服务器 IP 地址:192.168.1.118
故障硬盘目录:/data1为例
1)停止缓存服务:
cd /opt/xcache
/etc/init.d/xcached
stop
/etc/init.d/nginx
stop
2)清理缓存文件数据库记录:
./bin/config.sh
cache cleanfiles 192.168.1.118 /data1
3)删除缓存文件:
cd /
rm -rf /data1/*
4)取消分区挂载
umount /data1
5)删除分区目录
rm -rf /data1
6)修改配置文件
/etc/fstab文件
vi /etc/fstab
删除一行配置文本:
LABEL=/data1
/data1 ext3 defaults 0 0
缓存服务配置文件:
vi
/opt/xcache/conf/application.properties
删除/data1缓存目录
7)重启缓存服务
/etc/init.d/xcache
restart
8)查看message日志是否过大
通过ls -la
/var/log/messages 命令查看message日志是否过大,当message日志大小超过2G后,会导致系统根分区使用率100%。
通过WinScp或其他SSH
Shell工具,将message文件导出,供研发工程师分析,同时执行如下操作:
rm -rf
/var/log/messages*
/etc/init.d/rsyslog
restart
5.opt目录使用率100%
opt目录为下图中红色方框显示的目录,
该目录保存了设备的基本配置和日志,当日志文件过大时,会导致opt目录使用率100%,此时需执行如下操作:
1)通过 ls –la
/opt/xcache/logs目录日志大小,当日志过大,需要手动将其删除,具体操作步骤如下:
/etc/init.d/xcached
stop
/etc/init.d/nginx
stop
rm -rf
/opt/xcache/logs/*
/etc/init.d/xcached
restart
2)通过 ls –la
/opt/xcache/nginx/logs目录日志大小,当日志过大,需要手动将其删除,具体操作步骤如下:
/etc/init.d/xcached
stop
/etc/init.d/nginx
stop
rm -rf
/opt/xcache/nginx/logs/*
/etc/init.d/xcached
restart
3)通过 ls –la
/opt/xcache/data/logs目录日志大小,当日志过大,需要手动将其删除,具体操作步骤如下:
/etc/init.d/xcached
stop
/etc/init.d/nginx
stop
rm -rf /opt/xcache/data/logs/*
/etc/init.d/xcached
restart
6.通过SNMP协议管理Power Cache系统
学校有自己的网管系统,需要将Power
Cache系统纳入网管系统中,进行统一管理。
处理方法
1)开放Power Cache系统SNMP协议
2)ssh192.168.1.118登陆Power
Cache后台
3)vi
/etc/snmp/snmpd.conf 增加com2sec kdtnet 124.205.11.70 public(将需要放开访问权限的IP加入安全名称,多个IP地址可以写多行,kdtnet
是安全名称,可根据客户相应修改;124.205.11.70是需要放开访问权限的IP地址;public 是SNMP的community)
4)在snmpd.conf 增加group
localGroup v2c kdtnet(将安全名称加入一个组,以便进行ACL控制;localGroup 是组名称)
5)/etc/init.d/snmpd
restart(重启snmpd服务)
6)vi
/etc/sysconfig/iptables增加-A RH-Firewall-1-INPUT -s 124.205.11.70 -p udp -j
ACCEPT条目
7)/etc/init.d/iptables
restart (重启防火墙服务)
7.开启缓存服务后,DNS不能正常解析
开启缓存系统服务后,缓存系统会同时从不同网站下载文件此时需要DNS同时解析多个网站的域名,由于学校相关安全设备上配置了类似于DNS攻击防范策略,限制了单个IP地址同时解析不同域名的数量,导致缓存系统DNS不能正常解析
处理方法
检查安全设备DNS攻击防范配置,并关闭或调整单个IP地址同时解析不同域名的数量。
8、Cache的告警日志中提示:/data1
not mount
该提示意味着某块盘出现异常,可能是由于硬盘自身故障,也可能是由于接口故障、硬盘未插牢导致,可按如下步骤排查:
1、确定出现异常的硬盘分区,根据硬盘分区对照表,确定出现问题的硬盘位置;
2、将设备关机(使用设备面板上的关机按钮或通过web、SSH关机,切勿直接断电),插拔故障硬盘;
3、重启设备,确认是否仍有告警日志;
4、如告警日志消除,则说明是硬盘未插牢导致,反之继续如下处理;
5、再将设备关机(切勿直接断电),将其他正常硬盘插入故障硬盘槽位,记住正常硬盘所在槽位,原有故障硬盘暂时查回到正常硬盘所在槽位;
6、重启设备,如原有正常槽位对应的硬盘分区提示未挂载、原有故障槽位对应的硬盘分区正常,则是硬盘故障,需要对故障硬盘进行维修更换;如系统仍有告警日志,并且告警信息与之前一致,则是硬件接口异常,需要对整机进行维修;
9、Cache的万兆卡在web界面无法识别
4.6版本开始,Cache万兆卡需要在web界面启用后才能正常显示;在接口未启用在,命令行下使用ethtool
ethx需要可以正常识别到新增的万兆卡,默认情况下,X10的万兆卡接口名称为eth6、eth7,X10E的万兆卡接口名称为eth8、eth9;
如果在命令行下也无法识别,则可能是由于万兆卡没有插牢导致的,建议重新安装万兆卡。
10、Cache的万兆卡丢包严重
1、命令行下使用命令top查看设备CPU使用率,如果设备CPU使用率偏高,先升级版本到4.6.10,解决万兆卡软中断问题导致的CPU偏高、接口丢包的问题;
2、软件版本升级后如仍然丢包,请更换光纤、模块尝试;
3、光纤、模块更新后如仍然丢包,建议更换万兆卡槽位尝试;
4、如万兆卡槽位更换后仍丢包,则可能是硬件故障,请致电400处理。
11、Cache在web界面上显示硬盘为红色且提示不可用,但实际上硬盘可以正常使用
在系统设置--硬盘管理中,右上角显示的为系统分区的一个大致对应关系,由于web显示的问题,会存在部分硬盘可以正常使用但此处显示为红色的问题;只要页面中间对应分区显示为绿色、并且磁盘可以正常读写,就说明设备是正常的。
12、CACHE 打开管理页面缓慢
Powercache管理页面是通过Jave来实现,jave和操作系统之间的通讯是比较消耗资源,向操作系统交还内存、申请内存都比较浪费时间,
管理页面进程向操作系统申请一大块内存后,自己管理,从而避免频繁的操作系统调用,并且能使用适合自身应用场景的、特殊的内存管理方式来提高性能。在管理页面启动脚本配置参数向操作系统申请分配内存,当内存使用不足后在申请操作系统调用,进程使用的内存频繁的调用过程中增加CPU负荷,会出现释放内存缓慢。这样就出现页面打开慢。
解决方法:
扩大admin.sh进程内存分配空间:
[root@RG-PowerCache-X
9050]# cd /opt/xcache/bin
[root@RG-PowerCache-X
bin]#
[root@RG-PowerCache-X
bin]# cat admin.sh
#!/bin/bash
# Global
environment.
APPLICATION_CONFIG="/etc/sysconfig/xcached"
[ -f
$APPLICATION_CONFIG ] && . $APPLICATION_CONFIG
[ -z
"$APPLICATION_PRODUCT" ] && { echo "APPLICATION_PRODUCT
not configured in environment"; exit 0; }
[ -z
"$APPLICATION_HOME" ] && { echo "APPLICATION_HOME not
configured in environment"; exit 0; }
# Name
APPLICATION_NAME="admin"
# PID
APPLICATION_PID="$ADMIN_PID"
# Java command
JAVA="$APPLICATION_HOME/jre/bin/java"
# Sun JVM memory
allocation pool parameters.
if [ -z
"$ADMIN_VMOPTIONS" ] ; then
JAVA_OPTS="-server -Xms128m -Xmx512m" 可以调整 Xmx1024m
else
JAVA_OPTS="$ADMIN_VMOPTIONS"
然后重新启动服务 service xcached restart
13、X10E万兆接口识别为eth10、eth11
cache X10E的默认万兆接口会识别为eth8、eth9 如果在以前插了其它万兆的情况下就会识别成eth10、eth11。
可以尝试使用ethtool eth10 或ethtool
eth11查看;
cacheX10E如果万兆接口识别为eth10、eth11,可以通过以下方法修改
cd /etc/udev/rules.d
cp 70-persistent-net.rules 70-persistent-net.rules.bak
vi
70-persistent-net.rules 删除eth10、eht11的相关信息
cd
/etc/sysconfig/network-scripts/
cp ifcfg-eth10 ifcfg-eth10.bak
cp ifcfg-eth11
ifcfg-eth11.bak
rm -f ifcfg-eth10
rm -f ifcfg-eth11
重启设备,使用ethtool命令查看网卡识别是否正常,如果正常重新在web界面或命令行添加万兆网卡及可。
14、Cache启动后经常出现设备接口无法正常识别的情况
目前经常出现设备重启后部分接口无法使用,查看接口提示如下信息:
问题原因:
接口配置文件中,部分接口的配置中出现重复的MAC地址,导致设备读取底层参数时出现地址冲突的情况,无法识别接口。
解决办法:
1、查看设备底层识别到的MAC信息:cat
/etc/udev/rules.d/70-persistent-net.rules
上图中,可以看到最后一条eth2接口的MAC和上面的eth3口MAC冲突,导致识别异常。
2、上述配置文件中,最下面的eth2接口的信息是通过外置工具读取的(custom
name provided by external tool),一般都是由于修改了该接口的配置文件导致:
通过VI编辑器,删除接口配置文件下MAC配置,删除后信息如下:
同时删除底层识别文件中最后一条的信息,删除后信息如下:
将上述信息修改后保存并重启,即可恢复正常
15、CACHE 登陆后界面上少了几个菜单
如图
。
不是使用administrator账号登陆,是使用用户自定的账号,没有开放显视这些菜单;
注意:cache的自定义账号能显视那些信息,是可以用户自定义的
16、CACHE 正式授权频繁丢失
原因是cache的配置文件地址与直接接口地址不一致导致,导致与服务器校验时会出现地址不一致,导致授权失效,可以修改配置文件解决。
详情:
Cache设备的管理ip是:192.168.1.118,但给用户提供服务是eth7接口,授权许可绑定的网卡是管理网络接口,所有出现频繁授权过期。
解决:
1、 将eth7 设置为服务IP;
2、 后台数据库记录的IP地址都是192.168.1.118
更改eth7为管理IP地址。
[root@RG-PowerCache-X
conf]# cat application.properties
# locale setting
user.language=zh
user.country=CN
user.timezone=PRC
# default
charset setting
mail.mime.charset=GBK
# application
setting
application.type=admin;downloader;sniffer
application.host=192.168.1.118
管理IP地址
# sniffer
setting
sniffer.device=eth1;eth6
sniffer.bpf=null
# downloader
setting
downloader.http.enabled=true
downloader.http.path=/data1;/data2;/data3;/data4;/data5;/data6;/data7;/data8;/data9;/dataA;/dataB
downloader.bt.enabled=true
downloader.bt.path=/dataC;/dataD
application.serviceHost=10.10.1.1
为内网用户提供的IP地址
17、Cache重定向了一个URL给客户,但客户下载时却提示:404
Not Found
这个问题是由于Cache重定向不存在的文件数据库文件和磁盘数据不同步导致,
数据库和磁盘同步命令:/opt/xcache/bin/config.sh
cache syncfiles
该命令需要再网络流量比较小的情况下执行,或者停止缓存服务。
18、Cache管理服务正常但设备无法ping通、接口收发数据不增长的问题
收集messages日志发现大量管理口eth0的报错日志:
[11:18:35] Apr 18 02:02:11 RG-PowerCache-X kernel:
e1000e 0000:02:00.0: eth0: Error reading
[11:18:35] PHY register
[11:18:35] Apr 18 02:02:11 RG-PowerCache-X kernel:
e1000e 0000:02:00.0: eth0: Error reading
[11:18:35] PHY register
[11:18:35] Apr 18 02:02:26 RG-PowerCache-X kernel:
e1000e 0000:02:00.0: eth0: Error reading
[11:18:35] PHY register
[11:18:35] Apr 18 02:02:26 RG-PowerCache-X kernel:
e1000e 0000:02:00.0: eth0: Error reading
[11:18:35] PHY register
[11:18:35] Apr 18 02:02:26 RG-PowerCache-X kernel:
e1000e 0000:02:00.0: eth0: Error reading
[11:18:35] PHY register
[11:18:35] Apr 18 02:02:26 RG-PowerCache-X kernel:
e1000e 0000:02:00.0: eth0: Error reading
错误日志:
e1000e
0000:02:00.0: eth0: Error reading PHY register 读取PHY寄存器错误
原因:Centos OS操作系统的驱动对网卡支持不好
解决方法:
1、关闭活动状态电源管理(ASPM,高速外设部件互连(PCI
Express或PCIe)的子系统,
通过修改GRUB引导程序,编辑以下文件/
boot / grub/ grub.conf,追加acpi=off noapic 到内核引导行的末尾。
如:
#boot=/dev/sda
default=0
timeout=5
splashimage=(hd0,0)/grub/splash.xpm.gz
hiddenmenu
title RuiJie
Linux (2.6.32-220.el6.x86_64)
root
(hd0,0)
kernel /vmlinuz-2.6.32-220.el6.x86_64 ro
root=UUID=0242f546-2846-457e-b785-d66d91eab116 rd_NO_LUKS rd_NO_LVM rd_NO_MD
rd_NO_DM LANG=en_US.UTF-8 SYSFONT=latarcyrheb-sun16 KEYBOARDTYPE=pc KEYTABLE=us
crashkernel=auto rhgb quiet
acpi=off noapic
initrd /initramfs-2.6.32-220.el6.x86_64.img
2、重新启动服务器
19、Cache管理服务频繁进行重启的问题
message日志:
2013-04-06
11:49:00 sniffer [WARN] - Device eth4 is not alive.
2013-04-06
11:49:00 sniffer [WARN] - Restarting sniffer service.
xcache有监控网卡健康检查机制,发现监控网卡有问题,会自动重启xcached服务。
导致监控检查失败的原因有以下原因:
1. 是否监控数据量大?
2. 网卡是否丢包?
3.多次拔插网线,
另外根据admin.log.2013-04-07.000000可以知道,admin进程没有正常启动:
java.net.BindException:
Address already in use
at sun.nio.ch.Net.bind(Native Method)
at sun.nio.ch.ServerSocketChannelImpl.bind(Unknown Source)
at sun.nio.ch.ServerSocketAdaptor.bind(Unknown Source)
at sun.net.httpserver.ServerImpl.<init>(Unknown Source)
at sun.net.httpserver.HttpServerImpl.<init>(Unknown Source)
at sun.net.httpserver.DefaultHttpServerProvider.createHttpServer(Unknown
Source)
at com.sun.net.httpserver.HttpServer.create(Unknown Source)
这个时候需要人工重启一下。
解决方法:不对监控网卡进行监控检查。
SSH 登录Cache设备。
修改:application.properties
sniffer.healthcheck.device=false
20、Cache监听流量过大导致CPU使用率高
1.首先查看当前监听口流量:
sar -n DEV -u 1
10
2.针对网卡流量处理数据比较大及丢包行为,在/opt/xcache/conf/application.properties
增加了sniffer.bpf=tcp and tcp[13] & 8 != 0
只分析处理HTTP GET的数据(实际镜像的流量还是跟未修改之前一样),
[root@RG-PowerCache-X
log]# cat /opt/xcache/conf/application.properties
# locale setting
user.language=zh
user.country=CN
user.timezone=PRC
# default
charset setting
mail.mime.charset=GBK
# application
setting
application.type=admin;downloader;sniffer
application.host=10.10.6.248
# sniffer
setting
sniffer.device=eth1;eth2;eth3;eth9
sniffer.bpf=tcp
and tcp[13] & 8 != 0。
21、orion network
performance monitor网络性能监控设备无法添加cache,SNMP方法检测排查
使用nc来进行测试UDP端口是否正常,如下
[root@kr-sg-test
~]# nc -vuz 127.0.0.1 161
Connection to
127.0.0.1 161 port [udp/ntp]
succeeded!
结果证明UDP 161 端口正常监听。
请对以下技术细节进行检测
1、Snmpd.conf 配置是没有问题的,但需要对snmpd
重新启动
service snmpd
restart
2、防火墙的配置
需要在/etc/sysconfig/iptables 加入以下配置。
-A
RH-Firewall-1-INPUT -p udp -s 10.100.2.100 --dport 161 -j ACCEPT
-A
RH-Firewall-1-INPUT -p udp -s 10.100.2.101 --dport 161 -j ACCEPT
加载防火墙配置
cd
/etc/sysconfig
iptables-restore
< iptables
3、SNMP 检测,在powercache ssh后台输入以下命令检测。
命令:snmpwalk -v2c
127.0.0.1 -c hfzsahstu system。
22、Cache的硬盘管理界面无法打开,提示连接服务器异常
1、在4.6.10或更高版本上,确认设备是否已导入license,没有license时也会出现此问题;
2、如license已导入,需要到底层确认硬盘是否挂载;
3、如没有挂载,使用fdisk
-l 确认能否识别到硬盘;
4、如硬盘无法识别,建议重新插拔或返厂;
5、硬盘可以识别,但是无法挂载,请尝试重新初始化
23、CACHE X5 异常掉电或重启设备都无法启动,每次都得修改BIOS设置才可以启动
一般主板是纽扣电池没电无法保存BIOS设置
可以考虑更换纽扣电池
24、CACHE 网络设置提交缓存服务器不是服务器安装时拥有的服务类型
排查时缓存配置文件.downloader.hosts地址为空导致,增加后正常,如下:
root@RG-PowerCache-X5E ~]# more
/opt/xcache/conf/cluster.properties
application.admin.host=10.253.100.1
application.downloader.hosts=
application.sniffer.hosts=10.253.100.1
[root@RG-PowerCache-X5E ~]#
[root@RG-PowerCache-X5E ~]#
[root@RG-PowerCache-X5E ~]#
vi /opt/xcache/conf/cluster.properties
application.admin.host=10.253.100.1
application.downloader.hosts=10.253.100.1
application.sniffer.hosts=10.253.100.1
25、X10C灌装6.0版本失败,提示致命错误
灌装到84%后,提示无法安装ruijie-xcache包
查看报错日志,确认是由于U盘启动文件不完整导致,建议客户重新灌装U盘,并重装系统
26、CACHE 升级6.1版本初始化填写设备硬件系列号后无法正常申请授权
先升级到6.1RC5及以后版本后重新填写注册信息
等12-15分钟后即可
27、Cache初始化过程中无法选择部分接口
Cache初始化时,需要确保接口是up的状态,否则无法选择
28、Cache设备硬盘设置界面右上角一直有红色图标显示,但硬盘工作正常
Cache硬盘设备的web界面右上角的内容显示与设备底层的PCI有关系,由于web界面编码的一些问题,会出现部分PCI接口识别异常,导致硬盘状态显示异常,但不影响正常使用。