场景介绍



一、双机热备简介

1、双机热备概述

只有两个节点的高可用集群又称为双机热备集群,即使用两台服务器互相备份。对于重要的服务,使用两台服务器,互相备份,共同执行同一服务。当一台服务器出现故障时,可以由另一台服务器承担服务任务,从而在不需要人工干预的情况下,自动保证系统能持续提供服务。

双机热备特指基于active/standby方式的服务器热备。服务器数据包括数据库数据同时往两台或多台服务器写,或者使用一个共享的存储设备。在同一时间内只有一台服务器运行。当其中运行着的一台服务器出现故障无法启动时,另一台备份服务器会通过软件诊测(一般是通过心跳诊断)将standby机器激活,保证应用在短时间内完全恢复正常使用。

RG-MCP 从1.37(b2)版本开始使用的高可用集群方案,采用双机热备集群技术,为MCP系统提供数据的高可用性和业务的连续运转能力。

2、为什么需要双机热备

双机热备针对的是服务器的故障。服务器的故障可能由各种原因引起,如设备故障、操作系统故障、软件系统故障等等。一般地讲,在技术人员在现场的情况下,恢复服务器正常可能需要10分钟、几小时甚至几天。从实际经验上看,除非是简单地重启服务器(可能隐患仍然存在),否则往往需要几个小时以上。而如果技术人员不在现场,则恢复服务的时间就更长了。

而对于一些重要系统而言,用户是很难忍受这样长时间的服务中断的。因此,就需要通过双机热备,来避免长时间的服务中断,保证系统长期、可靠的服务。决定是否使用双机热备,正确的方法是要分析一下系统的重要性以及对服务中断的容忍程度,以此决定是否使用双机热备。即,你的用户能容忍多长时间恢复服务,如果服务不能恢复会造成多大的影响。

在考虑双机热备时,需要注意,一般意义上的双机热备都会有一个切换过程,这个切换过程可能是三分钟左右。在切换过程中,服务是有可能短时间中断的。但是,当切换完成后,服务将正常恢复。因此,双机热备不是无缝、不中断的,但它能够保证在出现系统故障时,能够很快恢复正常的服务,业务不致受到影响。而如果没有双机热备,则一旦出现服务器故障,可能会出现几个小时的服务中断,对业务的影响就可能会很严重。

另有一点需要强调,即服务器的故障与交换机、存储设备的故障不同,其概念要高得多。原因在于服务器是比交换机、存储设备复杂得多的设备,同时也是既包括硬件、也包括操作系统、应用软件系统的复杂系统。不仅设备故障可能引起服务中断,而且软件方面的问题也可能导致服务器不能正常工作。


二、MCP的双机热备介绍

MCP的双机热备是基于数据复制方式的双机热备技术,采用MYSQL数据库复制功能实现数据复制。

MCP的双机热备方案是由两台RG-MCP服务器组成,其中一台服务器对外提供服务(称为主服务器),另一台服务器备用(称为备用服务器)。当主服务器出现故障时,所有业务服务转移到备用服务器上运行,备用服务器变为主服务器对外提供服务,故障服务器从集群中脱离。当出现故障的服务器修复后,再自动加入集群,成为备用服务器。


        image.png

拓扑说明:

        1)两台MCP服务器通过网线相连。

        2)两台RG-MCP分别连接到公用网络,这两条连接称为公网连接,公网连接必须划分在同一VLAN中。虚拟IP也在同一VLAN中。

        3)为保障系统性能,建议所有网络连接必须具备千兆或以上带宽。