HA（高可用）Cluster实现-创新互联

HA Cluster的目的，为了防止重要的服务器在提供服务时，出现不可抗力的因素，例如硬件故障

创新互联是一家以网络技术公司，为中小企业提供网站维护、成都网站设计、做网站、网站备案、服务器租用、域名注册、软件开发、小程序开发等企业互联网相关业务，是一家有着丰富的互联网运营推广经验的科技公司，有着多年的网站建站经验，致力于帮助中小企业在互联网让打出自已的品牌和口碑，让企业在互联网上打开一个面向全国乃至全球的业务窗口：建站欢迎联系：18980820575

自然灾害，断电，软件bug，操作系统bug等，导致提供服务的主机出现宕机，死机，从而影响正

常业务，因此采用高可用的方案，实现持续性稳定的提供主机服务的方案称为HA

A=可用

MTBF=平均无故障时间

MTTR=平均修复时长

换算公式

A=MTBF/(MTBF+MTTR)

注意提升A值的方法：

1.分子足够大，但是不划算，成本太高

2.降低分母，即降低平均修复时长，成本较低效果出色

如何降低平均修复时长？

建立备用服务器，实现Failover功能。

原理：在主服务器发生故障时，快速转移IP地址（floating ip），以及快速转移应用程序至备用服务器

需要相关软件转移IP（转移IP即实现ip地址从新配置），转移服务（即在备用主机上启动相关服务应用程序）

总体来说HA 即为在主服务器宕机时，实现备用服务器的快速切换

关键点：IP地址转移，数据共享

HA Cluster （ip，nginx）ip与nginx进程通常称为HA资源

备用服务器使用“心跳”检测，向主服务器发起udp报文（UDP报文不需要三次握手等),

根据主服务器的响应来判断主服务器是否正常工作

关键点：响应时间，资源争用共享存储

假如链接主从服务器的网线连接中断，则会导致，ip争夺，而且最主要的是存储的混乱（同一文件

一边在增加，另一边再删除）

会导致源数据的损坏，损害很大，解决方法，使用爆头设备（STONITH），在补刀，将未彻底断电的还在运行设备断电

当处理完主服务器的故障后，还要将服务器上线，即为Failback

Failover<------->Failback

HA Cluster实现方案

1、vrrp协议的实现

keepalived

2、ais（available Interface standard）：可用接口标准，完备HA集群

RHCS（cmam）

heartbeat

corosync

Keepalived：

vrrp协议：Virtual Redundant Protocol

术语:

虚拟路由：virtual router

虚拟路由器标识：VRID（0-255）

物理路由：

master：主设备

back：备用设备

priority：优先级

VIP：virtual Ip

VMAC:Virtual MAC (00-00-5e-00-01-VRID)

GraciousARP(免费arp)

通告：心跳，优先级等；周期性；

抢占式，非抢占式；

安全工作：

认证：

无认证

简单字符认证

MD5

工作模式

主/备：单虚拟路由器；

主/主：主/备（虚拟路由器1），备/主（虚拟路径器2）

特点：

vrrp协议的软件实现，原生设计的目的为了高可用ipvs服务：

vrrp协议完成地址流动；

为vip地址所在的节点生成ipvs规则（在配置文件中预先定义）；

为ipvs集群的各RS做健康状态检测；

基于脚本调用接口通过执行脚本完成脚本中定义的功能，进而影响集群事务；

组件：

核心组件：

vrrp stack

ipvs wrapper

checkers

控制组件：配置文件分析器

IO复用器

内存管理组件

HA Cluster的配置前提：

（1）各节点时间必须同步

（2）确保iptables及selinux不会成为阻碍；

（3）各节点之间可通过主机名互相通信(对KA并非必须)；

建议使用/etc/hosts文件实现；

（4）各节点之间的root用户可以基于密钥认证的ssh服务完成互相通信（并非必须）

keepalived安装配置：

CentOS 6.4+随base仓库提供；

1、同步时间

配置chronyd服务器172.18。200.100

yum安装chrony，并启动服务

[root@localhost ~]# service chronyd start

Starting chronyd: [ OK ]

使用ntpdate命令，同步172.18.10.10以及172.18.10.11的时间

[root@localhost ~]# ntpdate 172.18.200.100

2、清空iptables和selinux

iptables -F

setenforce 0

3、配置hosts文件（非必须）

4、安装keepalived

[root@localhost ~]# yum install keepalived

[root@localhost ~]# cd /etc/keepalived/

[root@localhost keepalived]# ls

keepalived.conf

[root@localhost keepalived]# cp keepalived.conf keepalived.conf.bak

[root@localhost keepalived]# ls

keepalived.conf keepalived.conf.bak

[root@localhost keepalived]# vim keepalived.conf

主配置文件：/etc/keepalived/keepalived.conf

配置文件组成部分及相关选项解释

TOP HIERACHY

GLOBAL CONFIGURATION

Global definitions

Static routes/addresses

VRRPD CONFIGURATION

VRRP synchronization group(s)：vrrp同步组；

VRRP instance(s)：每个vrrp instance即一个vrrp路由器；

LVS CONFIGURATION

Virtual server group(s)

Virtual server(s)：ipvs集群的vs和rs；

global_defs { ###全局定义

notification_email {

acassen@firewall.loc

failover@firewall.loc ####定义出现问题后发送邮箱的地址

sysadmin@firewall.loc

}

notification_email_from Alexandre.Cassen@firewall.loc ##从哪里发过来

smtp_server 192.168.200.1 ###邮件服务器地址

smtp_connect_timeout 30#####超时时间

router_id LVS_DEVEL###路由器IP

vrrp_mcast_group4 224.0.100.5###ipv4多播地址

}

vrrp_instance VI_1 { ##vrrp配置段

state MASTER###表示是主还是从这里显示主，另一个则为从

interface eth0###表明工作从哪个网卡发出 “多波心跳信息”

virtual_router_id 51###虚拟路由ID

priority 100###主的优先级

advert_int 1 ##通告时间间隔

authentication###认证

auth_type PASS####认证类型：简单密钥认证

auth_pass 1111#####认证密码：最多不能超过8位

}

virtual_ipaddress {##虚拟IP地址配在哪个网卡上

192.168.200.16/24 dev eth0 ##定义配置在哪个网卡的别名上

192.168.200.17

192.168.200.18

}

track_interface { ##配置要监控的网络接口，一旦接口出现故障，则转为FAULT状态；即接口跟踪

eth0

eth2

...

}

nopreempt：定义工作模式为非抢占模式；

preempt_delay 300：抢占式模式下，节点上线后触发新选举操作的延迟时长；

5、修改配置文件

[root@localhost keepalived]# vim keepalived.conf

global_defs {

notification_email {

root@localhost

}

notification_email_from keepalived@localhost

smtp_server 127.0.0.1

smtp_connect_timeout 30

router_id node1

vrrp_mcast_group4 224.0.100.50

}

vrrp_instance myroute {

state MASTER

interface eth2

virtual_router_id 50

priority 100

advert_int 1

authentication {

auth_type PASS

auth_pass 123456

}

virtual_ipaddress {

172.18.50.50/16 dev eth2

}

6、将配置文件发送到另一台机器10上

[root@localhost keepalived]# scp keepalived.conf 172.18.10.10:/etc/keepalived/

修改配置文件

[root@localhost keepalived]# vim keepalived.conf

global_defs {

notification_email {

root@localhost

}

notification_email_from keepalived@localhost

smtp_server 127.0.0.1

smtp_connect_timeout 30

router_id node2

vrrp_mcast_group4 224.0.100.50

}

vrrp_instance myroute {

state BACKUP

interface eth2

virtual_router_id 50

priority 98

advert_int 1

authentication {

auth_type PASS

auth_pass 123456

}

virtual_ipaddress {

172.18.50.50/16 dev eth2

}

7、启动服务

启动备用服务器11

[root@localhost ~]# service keepalived start

查看地址

[root@localhost ~]# ip a

1: lo: mtu 65536 qdisc noqueue state UNKNOWN

link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00

inet 127.0.0.1/8 scope host lo

inet6 ::1/128 scope host

valid_lft forever preferred_lft forever

2: eth2: mtu 1500 qdisc pfifo_fast state UP qlen 1000

link/ether 00:0c:29:07:27:ff brd ff:ff:ff:ff:ff:ff

inet 172.18.10.10/16 brd 172.18.255.255 scope global eth2

inet 172.18.50.50/16 scope global secondary eth2

inet6 fe80::20c:29ff:fe07:27ff/64 scope link

valid_lft forever preferred_lft forever

发现地址已经添加，这是若开启主服务器，由于没有设置抢断延迟，则会立刻抢断

8、启动主服务器

[root@localhost keepalived]# service keepalived start

Starting keepalived: [ OK ]

[root@localhost keepalived]# ip a

1: lo: mtu 65536 qdisc noqueue state UNKNOWN

link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00

inet 127.0.0.1/8 scope host lo

inet6 ::1/128 scope host

valid_lft forever preferred_lft forever

2: eth2: mtu 1500 qdisc pfifo_fast state UP qlen 1000

link/ether 00:0c:29:99:76:84 brd ff:ff:ff:ff:ff:ff

inet 172.18.10.11/16 brd 172.18.255.255 scope global eth2

inet 172.18.50.50/16 scope global secondary eth2

inet6 fe80::20c:29ff:fe99:7684/64 scope link

valid_lft forever preferred_lft forever

发现地址已经添加

而从服务器11上

[root@localhost ~]# ip a

1: lo: mtu 65536 qdisc noqueue state UNKNOWN

link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00

inet 127.0.0.1/8 scope host lo

inet6 ::1/128 scope host

valid_lft forever preferred_lft forever

2: eth2: mtu 1500 qdisc pfifo_fast state UP qlen 1000

link/ether 00:0c:29:07:27:ff brd ff:ff:ff:ff:ff:ff

inet 172.18.10.10/16 brd 172.18.255.255 scope global eth2

inet6 fe80::20c:29ff:fe07:27ff/64 scope link

valid_lft forever preferred_lft forever

IP地址已经删除

9、使用tcpdump抓包工具查看主从服务器的相应心跳测试

[root@localhost keepalived]# tcpdump -i eth2 host 224.0.100.50 ###在主服务器端抓包

tcpdump: verbose output suppressed, use -v or -vv for full protocol decode

listening on eth2, link-type EN10MB (Ethernet), capture size 65535 bytes

16:39:33.357307 IP 172.18.10.11 > 224.0.100.50: VRRPv2, Advertisement, vrid 50, prio 100, authtype simple, intvl 1s, length 20

16:39:34.358905 IP 172.18.10.11 > 224.0.100.50: VRRPv2, Advertisement, vrid 50, prio 100, authtype simple, intvl 1s, length 20

16:39:35.360605 IP 172.18.10.11 > 224.0.100.50: VRRPv2, Advertisement, vrid 50, prio 100, authtype simple, intvl 1s, length 20

16:39:36.362301 IP 172.18.10.11 > 224.0.100.50: VRRPv2, Advertisement, vrid 50, prio 100, authtype simple, intvl 1s, length 20

16:39:37.363904 IP 172.18.10.11 > 224.0.100.50: VRRPv2, Advertisement, vrid 50, prio 100, authtype simple, intvl 1s, length 20

16:39:38.365658 IP 172.18.10.11 > 224.0.100.50: VRRPv2, Advertisement, vrid 50, prio 100, authtype simple, intvl 1s, length 20

16:39:39.367266 IP 172.18.10.11 > 224.0.100.50: VRRPv2, Advertisement, vrid 50, prio 100, authtype simple, intvl 1s, length 20

16:39:40.368921 IP 172.18.10.11 > 224.0.100.50: VRRPv2, Advertisement, vrid 50, prio 100, authtype simple, intvl 1s, length 20

16:39:41.370599 IP 172.18.10.11 > 224.0.100.50: VRRPv2, Advertisement, vrid 50, prio 100, authtype simple, intvl 1s, length 20

[root@localhost ~]# tcpdump -i eth2 -nn host 224.0.100.50 ###在从服务器端抓包

tcpdump: verbose output suppressed, use -v or -vv for full protocol decode

listening on eth2, link-type EN10MB (Ethernet), capture size 65535 bytes

16:39:40.367044 IP 172.18.10.11 > 224.0.100.50: VRRPv2, Advertisement, vrid 50, prio 100, authtype simple, intvl 1s, length 20

16:39:41.368741 IP 172.18.10.11 > 224.0.100.50: VRRPv2, Advertisement, vrid 50, prio 100, authtype simple, intvl 1s, length 20

16:39:42.370289 IP 172.18.10.11 > 224.0.100.50: VRRPv2, Advertisement, vrid 50, prio 100, authtype simple, intvl 1s, length 20

16:39:43.371983 IP 172.18.10.11 > 224.0.100.50: VRRPv2, Advertisement, vrid 50, prio 100, authtype simple, intvl 1s, length 20

16:39:44.373750 IP 172.18.10.11 > 224.0.100.50: VRRPv2, Advertisement, vrid 50, prio 100, authtype simple, intvl 1s, length 20

16:39:45.375413 IP 172.18.10.11 > 224.0.100.50: VRRPv2, Advertisement, vrid 50, prio 100, authtype simple, intvl 1s, length 20

16:39:46.377092 IP 172.18.10.11 > 224.0.100.50: VRRPv2, Advertisement, vrid 50, prio 100, authtype simple, intvl 1s, length 20

16:39:47.378760 IP 172.18.10.11 > 224.0.100.50: VRRPv2, Advertisement, vrid 50, prio 100, authtype simple, intvl 1s, length 20

分析说明。实现简单的vrrp

即从服务器每隔一秒向主服务器发送1个通报报文。探测主服务器是否存活，实现具体实施软件keepalived

###############################################################################################################################

双主模型

1、我们在172.18.10.11上配置了主服务器配置，双主服务可在配置文件下面继续添如下内容，配置如下

[root@localhost keepalived]# vim keepalived.conf

vrrp_instance myroute2 {

state BACKUP

interface eth2

virtual_router_id 51

priority 98

advert_int 1

authentication {

auth_type PASS

auth_pass 123457

}

virtual_ipaddress {

172.18.51.51/16 dev eth2

}

2、将内容服务至粘贴至172.18.10.10服务器的keepalived.conf配置文件中,然后需要在state和priority上进行相应修改

vrrp_instance myroute2 {

state MASTER

interface eth2

virtual_router_id 51

priority 100

advert_int 1

authentication {

auth_type PASS

auth_pass 123457

}

virtual_ipaddress {

172.18.51.51/16 dev eth2

}

保存并退出，实现双主模型的设置

3、从启服务并测试

service keepalived restart

Stopping keepalived: [ OK ]

Starting keepalived: [ OK ]

使用tcpdump抓包，结果如下

172.18.10.11端

[root@localhost keepalived]# tcpdump -i eth2 -nn host 224.0.100.50

tcpdump: verbose output suppressed, use -v or -vv for full protocol decode

listening on eth2, link-type EN10MB (Ethernet), capture size 65535 bytes

00:50:20.150330 IP 172.18.10.10 > 224.0.100.50: VRRPv2, Advertisement, vrid 51, prio 100, authtype simple, intvl 1s, length 20

00:50:20.521639 IP 172.18.10.11 > 224.0.100.50: VRRPv2, Advertisement, vrid 50, prio 100, authtype simple, intvl 1s, length 20

00:50:21.151175 IP 172.18.10.10 > 224.0.100.50: VRRPv2, Advertisement, vrid 51, prio 100, authtype simple, intvl 1s, length 20

00:50:21.522539 IP 172.18.10.11 > 224.0.100.50: VRRPv2, Advertisement, vrid 50, prio 100, authtype simple, intvl 1s, length 20

00:50:22.152517 IP 172.18.10.10 > 224.0.100.50: VRRPv2, Advertisement, vrid 51, prio 100, authtype simple, intvl 1s, length 20

00:50:22.523232 IP 172.18.10.11 > 224.0.100.50: VRRPv2, Advertisement, vrid 50, prio 100, authtype simple, intvl 1s, length 20

00:50:23.154334 IP 172.18.10.10 > 224.0.100.50: VRRPv2, Advertisement, vrid 51, prio 100, authtype simple, intvl 1s, length 20

00:50:23.524046 IP 172.18.10.11 > 224.0.100.50: VRRPv2, Advertisement, vrid 50, prio 100, authtype simple, intvl 1s, length 20

172.18.10.10端

[root@localhost keepalived]# tcpdump -i eth2 host 224.0.100.50

tcpdump: verbose output suppressed, use -v or -vv for full protocol decode

listening on eth2, link-type EN10MB (Ethernet), capture size 65535 bytes

00:54:01.436075 IP 172.18.10.10 > 224.0.100.50: VRRPv2, Advertisement, vrid 51, prio 100, authtype simple, intvl 1s, length 20

00:54:01.437266 IP 172.18.10.11 > 224.0.100.50: VRRPv2, Advertisement, vrid 50, prio 100, authtype simple, intvl 1s, length 20

00:54:02.437295 IP 172.18.10.10 > 224.0.100.50: VRRPv2, Advertisement, vrid 51, prio 100, authtype simple, intvl 1s, length 20

00:54:02.438831 IP 172.18.10.11 > 224.0.100.50: VRRPv2, Advertisement, vrid 50, prio 100, authtype simple, intvl 1s, length 20

00:54:03.438695 IP 172.18.10.10 > 224.0.100.50: VRRPv2, Advertisement, vrid 51, prio 100, authtype simple, intvl 1s, length 20

00:54:03.439205 IP 172.18.10.11 > 224.0.100.50: VRRPv2, Advertisement, vrid 50, prio 100, authtype simple, intvl 1s, length 20

分析每次都会收到两次信息，一次发送，一次接收

使用iptable设置规则，拒绝172.18.10.11向224.0.100.50发送通知报文

[root@localhost keepalived]# iptables -A OUTPUT -s 172.18.10.11 -d 224.0.100.50 -j REJECT

在172.18.10.10端使用tcpdump抓包