1.服务器异常死机

由于服务器硬件或软件故障导致服务器异常死机

处理方法：先搜集如下信息，并联系400处理

1）观察风扇在转动，把手放在机箱后部风扇部位，感觉有风吹出（确认电源）；

2）观察前面板，所有硬盘灯一直不闪烁；（确认硬盘）

3）连接USB键盘和VGA显示器，敲回车键没有响应，敲NumLock键，对应键盘上显示灯也没有反应；（确认死机）

4）按一次电源键，不超过1秒钟，显示器上如果有错误输出停止不动，可以照相采集，如果没有任何信息，则判断为死机。（关键信息收集）

5）运行日志收集脚本，操作方法如下：

1>wget http://download.surfront.com/updates/xcache/ruijie-xcache/gather.sh //下载日志搜集脚本

2>chmod 777 gather.sh //给脚本赋予执行权限

3>./gather.sh //执行脚本，脚本执行后，会生成一个名为backup_xxx.tar.gz的文件，其中xxx代表是一串数字

6）将生成的文件发送给400，交由研发分析原因。

2.web界面无法打开

两种情况可能导致WEB页面打不开，不通的情况要不同处理。

1）Cache自带防火墙没有打开443端口

处理步骤：

1>登陆SSH后台，使用命令iptables-save，查看是否有 -A RH-Firewall-1-INPUT -p tcp -m state --state NEW -m tcp --dport 443 -j ACCEPT 的条目

2>如果没有，在 /etc/sysconfig/iptables 文件中，加入上述条目；

3>然后使用命令 /etc/init.d/iptables restart 重启防火墙服务，查看能否正常登陆。

4>如不能正常登陆，则使用命令 cd /opt/xcache/ ，再使用命令 /etc/init.d/xcached restore 恢复出厂尝试（恢复出厂会导致已缓存的所有数据无法使用，请慎用此命令）。

2）Cache受到攻击，导致web页面无法打开

设备受到攻击后，会导致 cd /opt/xcache/logs/ 目录下的 admin.log 文件过大，导致PowerCache进程挂起。

具体处理步骤：

1>ssh登录PowerCache后台（默认用户名：root，密码：rgP0werCach1）

2>执行下面4个命令，建议拷贝后直接粘贴到命令行执行(提示：在线运行设备，执行下面三个命令无风险)：

rm -rf /opt/xcache/logs/admin.log*

cd /opt/xcache/lib

wget http://download.surfront.com/updates/xcache/start.jar

/etc/init.d/xcached restart

若想查看攻击源，可使用如下脚本获得：grep "WARN:oejin.ssl:" admin.log |awk -F ':' '{print $6}' | sort | uniq -c | sort -rn

3.更换故障硬盘

当确认由于硬盘原因导致设备无法正常工作时，可通过如下方式先撤掉故障硬盘。

以缓存服务器 IP 地址：192.168.1.118 硬盘目录：/data1为例

1）停止缓存服务：

cd /opt/xcache

/etc/init.d/xcached stop

/etc/init.d/nginx stop

2）清理缓存文件数据库记录：

./bin/config.sh cache cleanfiles 192.168.1.118 /data1 (删除主机192.168.1.118的 /data1硬盘数据库记录，该命令格式为：./bin/config.sh cache cleanfiles [host] [disk]）

3）删除缓存文件：

cd /

rm -rf /data1/*

4）取消分区挂载

umount /data1

5）删除分区目录

rm -rf /data1

6）修改配置文件/etc/fstab文件

vi /etc/fstab

删除一行配置文本：

LABEL=/data1 /data1 ext3 defaults 0 0

缓存服务配置文件：

vi /opt/xcache/conf/application.properties

删除/data1缓存目录

7）重启缓存服务

/etc/init.d/xcache restart

故障硬盘撤掉后，可通过如下方式替换撤下的硬盘

1）首先使用命令查看硬盘设备列表：

fdisk -l

2）给其中一块硬盘创建分区：

fdisk /dev/sdb

根据情况，输入n（回车）p（回车）1（回车）（回车）（回车）w（回车）

注释：硬盘与分区对应关系（sdb对应/data1、sdc对应/data2、sdd对应/data3、sde对应/data4、sdf对应/data5、sdg对应/data7、sdh对应/data8、sdi对应/data9、sdj对应/dataA、sdk对应/dataB、sdl对应/dataC）

3）格式化分区：

mkfs.ext3 -L /data1 /dev/sdb1

4）挂载分区：

mkdir -p /data1

echo "LABEL=/data1 /data1 ext3 defaults 0 0" >> /etc/fstab

mount -a

5）缓存服务配置文件：

vi /opt/xcache/conf/application.properties

增加/data1缓存目录

6）重启缓存服务

/etc/init.d/xcache restart

4.系统根目录使用率100%

使用df -h命令查看系统使用率

如红色方框内磁盘分区使用率达到100%，则按如下操作进行：

以缓存服务器 IP 地址：192.168.1.118 故障硬盘目录：/data1为例

1）停止缓存服务：

cd /opt/xcache

/etc/init.d/xcached stop

/etc/init.d/nginx stop

2）清理缓存文件数据库记录：

./bin/config.sh cache cleanfiles 192.168.1.118 /data1

3）删除缓存文件：

cd /

rm -rf /data1/*

4）取消分区挂载

umount /data1

5）删除分区目录

rm -rf /data1

6）修改配置文件

/etc/fstab文件

vi /etc/fstab

删除一行配置文本：

LABEL=/data1 /data1 ext3 defaults 0 0

缓存服务配置文件：

vi /opt/xcache/conf/application.properties

删除/data1缓存目录

7）重启缓存服务

/etc/init.d/xcache restart

8）查看message日志是否过大

通过ls -la /var/log/messages 命令查看message日志是否过大，当message日志大小超过2G后，会导致系统根分区使用率100%。

通过WinScp或其他SSH Shell工具，将message文件导出，供研发工程师分析，同时执行如下操作：

rm -rf /var/log/messages*

/etc/init.d/rsyslog restart

5.opt目录使用率100%

该目录保存了设备的基本配置和日志，当日志文件过大时，会导致opt目录使用率100%，此时需执行如下操作：

1）通过 ls –la /opt/xcache/logs目录日志大小，当日志过大，需要手动将其删除，具体操作步骤如下：

/etc/init.d/xcached stop

/etc/init.d/nginx stop

rm -rf /opt/xcache/logs/*

/etc/init.d/xcached restart

2）通过 ls –la /opt/xcache/nginx/logs目录日志大小，当日志过大，需要手动将其删除，具体操作步骤如下：

/etc/init.d/xcached stop

/etc/init.d/nginx stop

rm -rf /opt/xcache/nginx/logs/*

/etc/init.d/xcached restart

3）通过 ls –la /opt/xcache/data/logs目录日志大小，当日志过大，需要手动将其删除，具体操作步骤如下：

/etc/init.d/xcached stop

/etc/init.d/nginx stop

rm -rf /opt/xcache/data/logs/*

/etc/init.d/xcached restart

6.通过SNMP协议管理Power Cache系统

学校有自己的网管系统，需要将Power Cache系统纳入网管系统中，进行统一管理。

处理方法

1)开放Power Cache系统SNMP协议

2)ssh192.168.1.118登陆Power Cache后台

3)vi /etc/snmp/snmpd.conf 增加com2sec kdtnet 124.205.11.70 public（将需要放开访问权限的IP加入安全名称，多个IP地址可以写多行，kdtnet 是安全名称，可根据客户相应修改；124.205.11.70是需要放开访问权限的IP地址；public 是SNMP的community）

4)在snmpd.conf 增加group localGroup v2c kdtnet（将安全名称加入一个组，以便进行ACL控制；localGroup 是组名称）

5)/etc/init.d/snmpd restart（重启snmpd服务）

6)vi /etc/sysconfig/iptables增加-A RH-Firewall-1-INPUT -s 124.205.11.70 -p udp -j ACCEPT条目

7)/etc/init.d/iptables restart （重启防火墙服务）

7.开启缓存服务后，DNS不能正常解析

开启缓存系统服务后，缓存系统会同时从不同网站下载文件此时需要DNS同时解析多个网站的域名，由于学校相关安全设备上配置了类似于DNS攻击防范策略，限制了单个IP地址同时解析不同域名的数量，导致缓存系统DNS不能正常解析

处理方法

检查安全设备DNS攻击防范配置，并关闭或调整单个IP地址同时解析不同域名的数量。

8、Cache的告警日志中提示：/data1 not mount

该提示意味着某块盘出现异常，可能是由于硬盘自身故障，也可能是由于接口故障、硬盘未插牢导致，可按如下步骤排查：

1、确定出现异常的硬盘分区，根据硬盘分区对照表，确定出现问题的硬盘位置；

2、将设备关机（使用设备面板上的关机按钮或通过web、SSH关机，切勿直接断电），插拔故障硬盘；

3、重启设备，确认是否仍有告警日志；

4、如告警日志消除，则说明是硬盘未插牢导致，反之继续如下处理；

5、再将设备关机（切勿直接断电），将其他正常硬盘插入故障硬盘槽位，记住正常硬盘所在槽位，原有故障硬盘暂时查回到正常硬盘所在槽位；

6、重启设备，如原有正常槽位对应的硬盘分区提示未挂载、原有故障槽位对应的硬盘分区正常，则是硬盘故障，需要对故障硬盘进行维修更换；如系统仍有告警日志，并且告警信息与之前一致，则是硬件接口异常，需要对整机进行维修；

9、Cache的万兆卡在web界面无法识别

4.6版本开始，Cache万兆卡需要在web界面启用后才能正常显示；在接口未启用在，命令行下使用ethtool ethx需要可以正常识别到新增的万兆卡，默认情况下，X10的万兆卡接口名称为eth6、eth7，X10E的万兆卡接口名称为eth8、eth9；

如果在命令行下也无法识别，则可能是由于万兆卡没有插牢导致的，建议重新安装万兆卡。

10、Cache的万兆卡丢包严重

1、命令行下使用命令top查看设备CPU使用率，如果设备CPU使用率偏高，先升级版本到4.6.10，解决万兆卡软中断问题导致的CPU偏高、接口丢包的问题；

2、软件版本升级后如仍然丢包，请更换光纤、模块尝试；

3、光纤、模块更新后如仍然丢包，建议更换万兆卡槽位尝试；

4、如万兆卡槽位更换后仍丢包，则可能是硬件故障，请致电400处理。

11、Cache在web界面上显示硬盘为红色且提示不可用，但实际上硬盘可以正常使用

在系统设置--硬盘管理中，右上角显示的为系统分区的一个大致对应关系，由于web显示的问题，会存在部分硬盘可以正常使用但此处显示为红色的问题；只要页面中间对应分区显示为绿色、并且磁盘可以正常读写，就说明设备是正常的。

12、CACHE 打开管理页面缓慢

Powercache管理页面是通过Jave来实现，jave和操作系统之间的通讯是比较消耗资源，向操作系统交还内存、申请内存都比较浪费时间，

管理页面进程向操作系统申请一大块内存后，自己管理，从而避免频繁的操作系统调用，并且能使用适合自身应用场景的、特殊的内存管理方式来提高性能。在管理页面启动脚本配置参数向操作系统申请分配内存，当内存使用不足后在申请操作系统调用，进程使用的内存频繁的调用过程中增加CPU负荷，会出现释放内存缓慢。这样就出现页面打开慢。

解决方法：

扩大admin.sh进程内存分配空间：

[root@RG-PowerCache-X 9050]# cd /opt/xcache/bin

[root@RG-PowerCache-X bin]#

[root@RG-PowerCache-X bin]# cat admin.sh

#!/bin/bash

# Global environment.

APPLICATION_CONFIG="/etc/sysconfig/xcached"

[ -f $APPLICATION_CONFIG ] && . $APPLICATION_CONFIG

[ -z "$APPLICATION_PRODUCT" ] && { echo "APPLICATION_PRODUCT not configured in environment"; exit 0; }

[ -z "$APPLICATION_HOME" ] && { echo "APPLICATION_HOME not configured in environment"; exit 0; }

# Name

APPLICATION_NAME="admin"

# PID

APPLICATION_PID="$ADMIN_PID"

# Java command

JAVA="$APPLICATION_HOME/jre/bin/java"

# Sun JVM memory allocation pool parameters.

if [ -z "$ADMIN_VMOPTIONS" ] ; then

JAVA_OPTS="-server -Xms128m -Xmx512m" 可以调整 Xmx1024m

else

JAVA_OPTS="$ADMIN_VMOPTIONS"

然后重新启动服务 service xcached restart

13、X10E万兆接口识别为eth10、eth11

cache X10E的默认万兆接口会识别为eth8、eth9 如果在以前插了其它万兆的情况下就会识别成eth10、eth11。

可以尝试使用ethtool eth10 或ethtool eth11查看；

cacheX10E如果万兆接口识别为eth10、eth11,可以通过以下方法修改

cd /etc/udev/rules.d

cp 70-persistent-net.rules 70-persistent-net.rules.bak

vi 70-persistent-net.rules 删除eth10、eht11的相关信息

cd /etc/sysconfig/network-scripts/

cp ifcfg-eth10 ifcfg-eth10.bak

cp ifcfg-eth11 ifcfg-eth11.bak

rm -f ifcfg-eth10

rm -f ifcfg-eth11

重启设备，使用ethtool命令查看网卡识别是否正常，如果正常重新在web界面或命令行添加万兆网卡及可。

14、Cache启动后经常出现设备接口无法正常识别的情况

目前经常出现设备重启后部分接口无法使用，查看接口提示如下信息：

问题原因：

接口配置文件中，部分接口的配置中出现重复的MAC地址，导致设备读取底层参数时出现地址冲突的情况，无法识别接口。

解决办法：

1、查看设备底层识别到的MAC信息：cat /etc/udev/rules.d/70-persistent-net.rules

上图中，可以看到最后一条eth2接口的MAC和上面的eth3口MAC冲突，导致识别异常。

2、上述配置文件中，最下面的eth2接口的信息是通过外置工具读取的（custom name provided by external tool），一般都是由于修改了该接口的配置文件导致：

通过VI编辑器，删除接口配置文件下MAC配置，删除后信息如下：

同时删除底层识别文件中最后一条的信息，删除后信息如下：

将上述信息修改后保存并重启，即可恢复正常

15、CACHE 登陆后界面上少了几个菜单

如图

。

不是使用administrator账号登陆，是使用用户自定的账号，没有开放显视这些菜单；

注意：cache的自定义账号能显视那些信息，是可以用户自定义的

16、CACHE 正式授权频繁丢失

原因是cache的配置文件地址与直接接口地址不一致导致，导致与服务器校验时会出现地址不一致，导致授权失效，可以修改配置文件解决。

详情：

Cache设备的管理ip是：192.168.1.118，但给用户提供服务是eth7接口，授权许可绑定的网卡是管理网络接口，所有出现频繁授权过期。

解决：

1、将eth7 设置为服务IP；

2、后台数据库记录的IP地址都是192.168.1.118

更改eth7为管理IP地址。

[root@RG-PowerCache-X conf]# cat application.properties

# locale setting

user.language=zh

user.country=CN

user.timezone=PRC

# default charset setting

mail.mime.charset=GBK

# application setting

application.type=admin;downloader;sniffer

application.host=192.168.1.118 管理IP地址

# sniffer setting

sniffer.device=eth1;eth6

sniffer.bpf=null

# downloader setting

downloader.http.enabled=true

downloader.http.path=/data1;/data2;/data3;/data4;/data5;/data6;/data7;/data8;/data9;/dataA;/dataB

downloader.bt.enabled=true

downloader.bt.path=/dataC;/dataD

application.serviceHost=10.10.1.1 为内网用户提供的IP地址

17、Cache重定向了一个URL给客户，但客户下载时却提示：404 Not Found

这个问题是由于Cache重定向不存在的文件数据库文件和磁盘数据不同步导致，

数据库和磁盘同步命令：/opt/xcache/bin/config.sh cache syncfiles

该命令需要再网络流量比较小的情况下执行，或者停止缓存服务。

18、Cache管理服务正常但设备无法ping通、接口收发数据不增长的问题

收集messages日志发现大量管理口eth0的报错日志：

[11:18:35] Apr 18 02:02:11 RG-PowerCache-X kernel: e1000e 0000:02:00.0: eth0: Error reading

[11:18:35] PHY register

[11:18:35] Apr 18 02:02:11 RG-PowerCache-X kernel: e1000e 0000:02:00.0: eth0: Error reading

[11:18:35] PHY register

[11:18:35] Apr 18 02:02:26 RG-PowerCache-X kernel: e1000e 0000:02:00.0: eth0: Error reading

[11:18:35] PHY register

[11:18:35] Apr 18 02:02:26 RG-PowerCache-X kernel: e1000e 0000:02:00.0: eth0: Error reading

[11:18:35] PHY register

[11:18:35] Apr 18 02:02:26 RG-PowerCache-X kernel: e1000e 0000:02:00.0: eth0: Error reading

[11:18:35] PHY register

[11:18:35] Apr 18 02:02:26 RG-PowerCache-X kernel: e1000e 0000:02:00.0: eth0: Error reading

错误日志：

e1000e 0000:02:00.0: eth0: Error reading PHY register 读取PHY寄存器错误

原因：Centos OS操作系统的驱动对网卡支持不好

解决方法：

1、关闭活动状态电源管理（ASPM，高速外设部件互连（PCI Express或PCIe）的子系统，

通过修改GRUB引导程序，编辑以下文件/ boot / grub/ grub.conf，追加acpi=off noapic 到内核引导行的末尾。

如：

#boot=/dev/sda

default=0

timeout=5

splashimage=(hd0,0)/grub/splash.xpm.gz

hiddenmenu

title RuiJie Linux (2.6.32-220.el6.x86_64)

root (hd0,0)

kernel /vmlinuz-2.6.32-220.el6.x86_64 ro root=UUID=0242f546-2846-457e-b785-d66d91eab116 rd_NO_LUKS rd_NO_LVM rd_NO_MD rd_NO_DM LANG=en_US.UTF-8 SYSFONT=latarcyrheb-sun16 KEYBOARDTYPE=pc KEYTABLE=us crashkernel=auto rhgb quiet acpi=off noapic

initrd /initramfs-2.6.32-220.el6.x86_64.img

2、重新启动服务器

19、Cache管理服务频繁进行重启的问题

message日志：

2013-04-06 11:49:00 sniffer [WARN] - Device eth4 is not alive.

2013-04-06 11:49:00 sniffer [WARN] - Restarting sniffer service.

xcache有监控网卡健康检查机制，发现监控网卡有问题，会自动重启xcached服务。

导致监控检查失败的原因有以下原因：

1. 是否监控数据量大？

2. 网卡是否丢包？

3.多次拔插网线，

另外根据admin.log.2013-04-07.000000可以知道，admin进程没有正常启动：

java.net.BindException: Address already in use

at sun.nio.ch.Net.bind(Native Method)

at sun.nio.ch.ServerSocketChannelImpl.bind(Unknown Source)

at sun.nio.ch.ServerSocketAdaptor.bind(Unknown Source)

at sun.net.httpserver.ServerImpl.<init>(Unknown Source)

at sun.net.httpserver.HttpServerImpl.<init>(Unknown Source)

at sun.net.httpserver.DefaultHttpServerProvider.createHttpServer(Unknown Source)

at com.sun.net.httpserver.HttpServer.create(Unknown Source)

这个时候需要人工重启一下。

解决方法：不对监控网卡进行监控检查。

SSH 登录Cache设备。

修改：application.properties

sniffer.healthcheck.device=false

20、Cache监听流量过大导致CPU使用率高

1.首先查看当前监听口流量：

sar -n DEV -u 1 10

2.针对网卡流量处理数据比较大及丢包行为，在/opt/xcache/conf/application.properties 增加了sniffer.bpf=tcp and tcp[13] & 8 != 0

只分析处理HTTP GET的数据（实际镜像的流量还是跟未修改之前一样），

[root@RG-PowerCache-X log]# cat /opt/xcache/conf/application.properties

# locale setting

user.language=zh

user.country=CN

user.timezone=PRC

# default charset setting

mail.mime.charset=GBK

# application setting

application.type=admin;downloader;sniffer

application.host=10.10.6.248

# sniffer setting

sniffer.device=eth1;eth2;eth3;eth9

sniffer.bpf=tcp and tcp[13] & 8 != 0。

21、orion network performance monitor网络性能监控设备无法添加cache,SNMP方法检测排查

使用nc来进行测试UDP端口是否正常，如下

[root@kr-sg-test ~]# nc -vuz 127.0.0.1 161

Connection to 127.0.0.1 161 port [udp/ntp] succeeded!

结果证明UDP 161 端口正常监听。

请对以下技术细节进行检测

1、Snmpd.conf 配置是没有问题的，但需要对snmpd 重新启动

service snmpd restart

2、防火墙的配置

需要在/etc/sysconfig/iptables 加入以下配置。

-A RH-Firewall-1-INPUT -p udp -s 10.100.2.100 --dport 161 -j ACCEPT

-A RH-Firewall-1-INPUT -p udp -s 10.100.2.101 --dport 161 -j ACCEPT

加载防火墙配置

cd /etc/sysconfig

iptables-restore < iptables

3、SNMP 检测，在powercache ssh后台输入以下命令检测。

命令：snmpwalk -v2c 127.0.0.1 -c hfzsahstu system。

22、Cache的硬盘管理界面无法打开，提示连接服务器异常

1、在4.6.10或更高版本上，确认设备是否已导入license，没有license时也会出现此问题；

2、如license已导入，需要到底层确认硬盘是否挂载；

3、如没有挂载，使用fdisk -l 确认能否识别到硬盘；

4、如硬盘无法识别，建议重新插拔或返厂；

5、硬盘可以识别，但是无法挂载，请尝试重新初始化

23、CACHE X5 异常掉电或重启设备都无法启动，每次都得修改BIOS设置才可以启动

一般主板是纽扣电池没电无法保存BIOS设置

可以考虑更换纽扣电池

24、CACHE 网络设置提交缓存服务器不是服务器安装时拥有的服务类型

排查时缓存配置文件.downloader.hosts地址为空导致，增加后正常，如下：

root@RG-PowerCache-X5E ~]# more /opt/xcache/conf/cluster.properties

application.admin.host=10.253.100.1

application.downloader.hosts=

application.sniffer.hosts=10.253.100.1

[root@RG-PowerCache-X5E ~]#

[root@RG-PowerCache-X5E ~]# vi /opt/xcache/conf/cluster.properties

application.admin.host=10.253.100.1

application.downloader.hosts=10.253.100.1

application.sniffer.hosts=10.253.100.1

25、X10C灌装6.0版本失败，提示致命错误

灌装到84%后，提示无法安装ruijie-xcache包

查看报错日志，确认是由于U盘启动文件不完整导致，建议客户重新灌装U盘，并重装系统

26、CACHE 升级6.1版本初始化填写设备硬件系列号后无法正常申请授权

先升级到6.1RC5及以后版本后重新填写注册信息

等12-15分钟后即可

27、Cache初始化过程中无法选择部分接口

Cache初始化时，需要确保接口是up的状态，否则无法选择

28、Cache设备硬盘设置界面右上角一直有红色图标显示，但硬盘工作正常

Cache硬盘设备的web界面右上角的内容显示与设备底层的PCI有关系，由于web界面编码的一些问题，会出现部分PCI接口识别异常，导致硬盘状态显示异常,但不影响正常使用。