是什么

keepalived 是集群管理中保证集群高可用的一个服务软件,其功能类似于 heartbeat,用来防止单点故障。

keepalived 工作原理

keepalived 是以 VRRP 协议为实现基础的,VRRP 全称 Virtual Router Redundancy Protocol,即虚拟路由冗余协议。

虚拟路由冗余协议,可以认为是实现路由器高可用的协议,即将N台提供相同功能的路由器组成一个路由器组,这个组里面有一个 master 和多个 backup,master 上面有一个对外提供服务的 vip(该路由器所在局域网内其他机器的默认路由为该 vip),master 会发组播,当 backup 收不到 vrrp 包时就认为 master 宕掉了,这时就需要根据 VRRP 的优先级来选举一个 backup 当 master。这样的话就可以保证路由器的高可用了。

keepalived 主要有三个模块,分别是 core、check 和 vrrp。core 模块为 keepalived 的核心,负责主进程的启动、维护以及全局配置文件的加载和解析。check 负责健康检查,包括常见的各种检查方式。vrrp 模块是来实现 VRRP 协议的。

keepalived 的配置文件

keepalived 只有一个配置文件 keepalived.conf,里面主要包括以下几个配置区域,分别是 global_defs、static_ipaddress、static_routes、vrrp_script、vrrp_instance 和virtual_server。

global_defs 区域

主要是配置故障发生时的通知对象以及机器标识

  • notification_email 故障发生时给谁发邮件通知。

  • notification_email_from 通知邮件从哪个地址发出。

  • smpt_server 通知邮件的 smtp 地址。

  • smtp_connect_timeout 连接 smtp 服务器的超时时间。

  • enable_traps 开启 SNM P陷阱(Simple Network Management Protocol)。

  • router_id 标识本节点的字条串,通常为 ,但不一定非得是 。故障发生时,邮件通知会用到。

static_ipaddress 和 static_routes 区域

static_ipaddress 和 static_routes 区域配置的是是本节点的 和路由信息。如果你的机器上已经配置了 和路由,那么这两个区域可以不用配置。其实,一般情况下你的机器都会有 地址和路由信息的,因此没必要再在这两个区域配置。

以上分别表示启动/关闭 keepalived 时在本机执行的如下命令:

注意: 请忽略这两个区域,因为我坚信你的机器肯定已经配置了 IP 和路由。

vrrp_script 区域

用来做健康检查的,当时检查失败时会将 vrrp_instance 的 priority 减少相应的值。

以上意思是如果 script 中的指令执行失败,那么相应的 vrrp_instance 的优先级会减少 10 个点。

vrrp_instance 和 vrrp_sync_group 区域

vrrp_instance 用来定义对外提供服务的 VIP 区域及其相关属性。

vrrp_rsync_group 用来定义 vrrp_intance 组,使得这个组内成员动作一致。举个例子来说明一下其功能:

两个 vrrp_instance 同属于一个 vrrp_rsync_group,那么其中一个 vrrp_instance 发生故障切换时,另一个 vrrp_instance 也会跟着切换(即使这个 instance 没有发生故障)。

  • notify_master/backup/fault 分别表示切换为主/备/出错时所执行的脚本。

  • notify 表示任何一状态切换时都会调用该脚本,并且该脚本在以上三个脚本执行完成之后进行调用,keepalived 会自动传递三个参数($1 = “GROUP”|”INSTANCE”,$2 = name of group or instance,$3 = target state of transition(MASTER/BACKUP/FAULT))。

  • smtp_alert 表示是否开启邮件通知(用全局区域的邮件设置来发通知)。

  • state 可以是 MASTER 或 BACKUP,不过当其他节点 keepalived 启动时会将 priority 比较大的节点选举为 MASTER,因此该项其实没有实质用途。

  • interface 节点固有 IP(非 VIP)的网卡,用来发 VRRP 包。

  • use_vmac 是否使用 VRRP 的虚拟 地址。

  • dont_track_primary 忽略 VRRP 网卡错误。(默认未设置)

  • track_interface 监控以下网卡,如果任何一个不通就会切换到 FALT 状态。(可选项)

  • mcast_src_ip 修改 vrrp 组播包的源地址,默认源地址为 master 的 IP。(由于是组播,因此即使修改了源地址,该 master 还是能收到回应的)

  • lvs_sync_daemon_interface 绑定 lvs syncd 的网卡。

  • garp_master_delay 当切为主状态后多久更新 ARP 缓存,默认 5 秒。

  • virtual_router_id 取值在 0-255 之间,用来区分多个 instance 的 VRRP 组播。

注意:同一网段中 virtual_router_id 的值不能重复,否则会出错,相关错误信息如下。

可以用这条命令来查看该网络中所存在的 vrid:tcpdump -nn -i any net 224.0.0.0/8

  • priority 用来选举 master 的,要成为 master,那么这个选项的值最好高于其他机器 50 个点,该项取值范围是 1-255(在此范围之外会被识别成默认值 100)。

  • advert_int 发 VRRP 包的时间间隔,即多久进行一次 master 选举(可以认为是健康查检时间间隔)。

  • authentication 认证区域,认证类型有 PASS 和 HA(IPSEC),推荐使用 PASS(密码只识别前 8 位)。

  • virtual_ipaddress vip,不解释了。

  • virtual_routes 虚拟路由,当 IP 漂过来之后需要添加的路由信息。

  • virtual_ipaddress_excluded 发送的 VRRP 包里不包含的 IP 地址,为减少回应 VRRP 包的个数。在网卡上绑定的 IP 地址比较多的时候用。

  • nopreempt 允许一个 priority 比较低的节点作为 master,即使有 priority 更高的节点启动。

首先 nopreemt 必须在 state 为 BACKUP 的节点上才生效(因为是 BACKUP 节点决定是否来成为 MASTER 的),其次要实现类似于关闭 auto failback 的功能需要将所有节点的 state 都设置为 BACKUP,或者将 master 节点的 priority 设置的比 BACKUP 低。我个人推荐使用将所有节点的 state 都设置成 BACKUP 并且都加上 nopreempt 选项,这样就完成了关于 autofailback 功能,当想手动将某节点切换为 MASTER 时只需去掉该节点的 nopreempt 选项并且将 priority 改的比其他节点大,然后重新加载配置文件即可(等 MASTER 切过来之后再将配置文件改回去再 reload 一下)。

当使用 track_script 时可以不用加 nopreempt,只需要加上 preempt_delay 5,这里的间隔时间要大于 vrrp_script 中定义的时长。

  • preempt_delay master 启动多久之后进行接管资源(VIP/Route 信息等),前提是没有 nopreempt 选项。

virtual_server_group 和 virtual_server 区域

virtual_server_group 一般在超大型的 LVS 中用到,一般 LVS 用不过这东西,因此不多说。

  • delay_loop 延迟轮询时间(单位秒)。

  • lb_algo 后端调试算法(load balancing algorithm)。

  • lb_kind LVS 调度类型 /DR/TUN。

  • virtualhost 用来给 HTTP_GET 和 SSL_GET 配置请求 header 的。

  • sorry_server 当所有 real server 宕掉时,sorry server 顶替。

  • real_server 真正提供服务的服务器。

  • weight 权重。

  • notify_up/down 当 real server 宕掉或启动时执行的脚本。

  • 健康检查的方式,N 多种方式。

  • path 请求 real serserver 上的路径。

  • digest/status_code 分别表示用 genhash 算出的结果和 http 状态码。

  • connect_port 健康检查,如果端口通则认为服务器正常。

  • connect_timeout,nb_get_retry,delay_before_retry 分别表示超时时长、重试次数,下次重试的时间延迟。

其他选项暂时不作说明。

keepalived 主从切换

主从切换比较让人蛋疼,需要将 backup 配置文件的 priority 选项的值调整的比 master 高50个点,然后 reload 配置文件就可以切换了。当时你也可以将 master 的 keepalived 停止,这样也可以进行主从切换。

安装 keepalived

从 keepalived 官网下载合适的版本,解压并执行如下命令完成安装。

你也可以打成 包,然后安装。

说明

我们用到的 HA 场景如下:两台主机 host113 和 host163,内网 IP 在 eth1 网卡上,分别是 10.210.214.113 和 10.210.214.163,VIP 为公网 IP 在 eth0 上,IP 地址是 202.102.152.253,网关为 202.102.152.1。

当 VIP 在 host113 上提供服务时,host113 上的默认路由 为202.102.152.1,提供服务的端口为 202.102.152.253:443。

host113 发生故障需要将 VIP 及服务切回到 host163 上的时候,需要以下几步,第一将 VIP 接管过来,第二添加默认路由 202.102.152.1,第三启动在端口 202.102.152.253:443 上的服务。

如此一来,keepalived 需要另外的脚本来完成添加默认路由和启动服务工作,这点和 heartbeat 中的 resources 是相同的。目前我进行了测试,发现 keepalived 速度要比 heartbeat 快,也就是说效率比 heartbeat 高。并且,最重要的一点,keepalived 支持多个 backup。

不要问我为何有以上需求。要为两个不同的域名提供 https 服务,由于 SSL 证书问题,必须有两个公网 IP 地址分别绑定 443 端口。

当然,通过 SNI 也可以实现一个公网 IP 绑定 443 端口来为多个域名提供 https 服务,但是这需要浏览器支持(MS 的 IE 浏览器不支持)。(/

吐槽

keepalived 的主从切换比较让人蛋疼,需要修改配置文件或停止一方的运行。但是由于 keepalived 是通过 vrrp 协议来实现 failover(故障转移)的,因此也决定了手动主从切换的不便。

keepalived 的文档也很旧了,一直都找不到合适的文档,之前我就一直忽略了 vrrp_script 这个区域,导致很多事情想不通。

另外,我发现我越来越喜欢 keepalived 了。。。

参考资料

  1. http://www.linuxvirtualserver.org/
  2. http://www.keepalived.org/LVS-NAT-Keepalived-HOWTO.html

阅读原文