LVS+keepalived群集构建与深入解析-CFANZ编程社区

一、引言

在当今的高并发网络环境中，构建高性能、高可用的服务器集群成为保障业务稳定运行的关键。LVS（Linux Virtual Server）和keepalived作为一对优秀的组合，为构建强大的负载均衡集群提供了有效解决方案。LVS具备强大的负载均衡能力，能够高效地分发大量请求到后端服务器，而keepalived则负责监控集群节点状态并实现主备切换，确保集群的高可用性。深入理解和掌握LVS与keepalived的群集搭建及配置，对于系统管理员和网络工程师至关重要。

二、LVS简介与原理

1. LVS基本概念

LVS是一个基于Linux内核的负载均衡软件，全称为Linux Virtual Server。它通过在Linux内核中实现传输层（Layer 4）的负载均衡功能，能够将客户端的请求均匀地分发到后端的多个真实服务器上，从而提升服务器集群的处理能力和整体性能。LVS可以在不需要修改客户端和后端服务器程序的情况下，实现高效的网络流量分发，具有高度的可扩展性和灵活性。

2. LVS工作模式及原理

2.1 NAT模式

NAT（Network Address Translation，网络地址转换）模式是LVS最早支持的工作模式。在这种模式下，客户端发送的请求首先到达LVS负载均衡器，LVS根据预设的负载均衡算法选择一个合适的后端真实服务器，并将请求的目标IP地址和端口进行修改，将目标地址改为选中的后端服务器的IP地址，源地址不变，然后将修改后的请求转发给后端服务器。后端服务器处理完请求后，将响应数据发送回LVS负载均衡器，LVS再将响应数据的源IP地址和端口修改为客户端看到的源IP地址和端口，最终返回给客户端。

工作原理流程图：

客户端 ----> LVS（进行SNAT转换，目标地址改为后端真实服务器IP） ----> 真实服务器
真实服务器 ----> LVS（进行DNAT转换，源地址改为客户端看到的源IP） ----> 客户端

优点：节省IP资源，只需要一个公网IP地址。

缺点：LVS作为流量转发的中间节点，性能可能会受到一定影响，尤其是在高并发情况下，处理请求和响应都需要进行地址转换，增加了额外的开销。

2.2 DR模式

（直接路由模式） DR（Direct Routing，直接路由）模式是LVS中一种常见且高效的工作模式。在DR模式下，客户端发送的请求同样首先到达LVS负载均衡器，LVS根据负载均衡算法选择一个后端真实服务器，它不会修改请求的目标IP地址和端口，而是将请求的MAC地址修改为所选后端服务器的MAC地址，然后将请求直接转发给后端服务器。由于后端服务器和LVS负载均衡器处于同一个局域网，后端服务器可以直接将响应数据发送给客户端，不需要经过LVS负载均衡器进行地址转换。

工作原理流程图：

客户端 ----> LVS（修改请求的MAC地址为目标真实服务器MAC地址） ----> 真实服务器
真实服务器 ----> 客户端

优点：性能较高，因为数据流量不经过LVS负载均衡器进行转换，减少了一定的网络开销。LVS只需处理请求的转发，响应数据直接由后端服务器处理，分担了LVS的负载。

缺点：要求后端服务器和LVS负载均衡器在同一个局域网内，并且所有后端服务器需要配置VIP（Virtual IP，虚拟IP地址），这在一些网络环境中可能会带来一定的配置复杂性。

2.3 TUN模式（IP隧道模式）

TUN（IP Tunneling，IP隧道）模式允许LVS负载均衡器将接收到的客户端请求封装在一个IP隧道中，然后转发给后端真实服务器。后端服务器将响应数据解封装后直接发送给客户端。在TUN模式下，LVS负载均衡器和后端服务器可以不在同一个物理网络中，通过IP隧道实现通信。

工作原理流程图：

客户端 ----> LVS（将请求封装在IP隧道中） ----> 真实服务器（解封装请求）
真实服务器 ----> 客户端

优点：扩展性强，突破了地理位置和网络拓扑的限制，后端服务器可以分布在不同的地理位置或网络环境中，只要有网络可达即可。

缺点：配置相对复杂，对网络设备和服务器的性能要求较高。IP隧道的创建和维护会增加一定的网络开销，并且可能引入一些兼容性问题。

在构建LVS+keepalived群集时，根据具体的网络环境、业务需求和性能要求等综合考虑，选择合适的工作模式至关重要。

三、keepalived简介与工作原理

1. keepalived基本概念

keepalived是一个基于VRRP（Virtual Router Redundancy Protocol，虚拟路由冗余协议）协议实现的高可用性软件，最初主要用于实现Linux系统的双机热备，在LVS+keepalived群集中，主要负责监控LVS负载均衡器以及后端真实服务器的状态，并在出现故障时自动进行主备切换，确保集群的高可用性。它通过选举一个主节点（Master）和一个或多个备节点（Backup），主节点负责提供服务，备节点处于实时监控和待命状态，当主节点出现故障时，备节点能够迅速接管服务，继续保持服务的可用性。

2. keepalived工作原理

keepalived的核心是基于VRRP协议实现的主从选举和故障切换机制。在VRRP协议中，多个节点组成一个备份组，其中一个节点被选举为主节点，其他节点为备节点。主节点负责发送VRRP通告，告知其他节点其状态正常。备节点定期接收主节点发送的VRRP通告，如果在一定时间内没有接收到通告，就会认为主节点出现故障，进而触发主备切换。主备切换后，备节点会接管主节点的IP地址和相关服务，继续对外提供服务，保证服务的连续性。

VRRP工作流程：

组播通告：主节点定期向组播地址（224.0.0.18）发送VRRP通告，通告中包含其优先级信息。

备节点监测：备节点定期接收主节点发送的VRRP通告，若未在规定时间内收到，备节点根据自身优先级决定是否抢占主节点地位。

抢占机制：若备节点优先级足够高，会在检测到主节点故障后，立即抢占主节点地位，开始发送自己的VRRP通告，并接管主节点的IP地址和相关服务。

恢复机制：当原来的主节点恢复后，会重新参与主备竞争。如果其优先级仍高于当前主节点，会再次成为主节点；反之，则继续作为备节点。

通过VRRP协议，keepalived能够实现快速、可靠的主备切换，确保LVS负载均衡器的高可用性，从而保障整个群集的稳定运行。

四、LVS+keepalived群集搭建环境准备

1. 服务器准备

为了搭建LVS+keepalived群集，我们需要至少4台服务器。两台作为LVS负载均衡器（一台作为主节点，一台作为备节点），两台作为后端真实服务器。以下是假设的服务器信息和IP地址分配（可根据实际情况进行修改）：

服务器角色	主机名	IP地址	说明
LVS主节点	lvs_master	192.168.1.100	LVS负载均衡器主节点，IP地址用于管理，与VIP不同
LVS备节点	lvs_backup	192.168.1.101	LVS负载均衡器备节点，IP地址用于管理，与VIP不同
后端真实服务器1	rs1	192.168.1.200	提供实际服务的后端服务器
后端真实服务器2	rs2	192.168.1.201	提供实际服务的后端服务器
虚拟IP（VIP）	-	192.168.1.20	外部客户端访问的虚拟IP地址，由keepalived在主节点和备节点间动态分配和管理

2. 软件安装

在所有服务器上安装必要的软件。在基于CentOS/RHEL的系统中，可以使用yum包管理器进行安装。

2.1 安装LVS相关工具（在LVS主节点和备节点上）

在LVS主节点和备节点上，需要安装ipvsadm工具，用于管理LVS的IP虚拟服务器功能。

yum install -y ipvsadm

2.2 安装keepalived（在LVS主节点和备节点上）

在LVS主节点和备节点上安装keepalived软件。

yum install -y keepalived

安装完成后，我们需要对keepalived进行配置以实现主备切换和高可用性，稍后将详细介绍配置过程。

五、LVS+keepalived群集配置步骤

1. keepalived主节点（lvs_master）配置

keepalived的配置文件位于 /etc/keepalived/keepalived.conf，以下是主节点的配置示例：

! Configuration File for keepalived

global_defs {
    notification_email {
        root@localhost
    }
    notification_email_from root@localhost
    smtp_server 127.0.0.1
    smtp_connect_timeout 30
    router_id LVS_MASTER    # 定义主节点的标识
}

vrrp_instance VI_1 {
    state MASTER           # 定义为主节点
    interface eth0         # 监听的网卡接口，根据实际情况修改
    virtual_router_id 51   # 虚拟路由ID，在一个VRRP备份组中必须唯一
    priority 100           # 优先级，数值越大优先级越高，主节点通常设置较高优先级
    advert_int 1           # 主备节点间同步信息的时间间隔，单位为秒
    authentication {
        auth_type PASS
        auth_pass 1234     # 主备节点间通信的密码
    }
    virtual_ipaddress {
        192.168.1.20/24    # 定义虚拟IP地址，即客户端访问的VIP
    }
}

virtual_server 192.168.1.20 80 {  # VIP和监听端口
    delay_loop 6
    lb_algo rr                 # 负载均衡算法，这里采用轮询（Round Robin）算法
    lb_kind DR                 # 工作模式，这里采用直接路由（Direct Routing）模式
    protocol TCP

    real_server 192.168.1.200 80 {  # 后端真实服务器1的IP和端口
        weight 1
        TCP_CHECK {
            connect_timeout 3
            nb_get_retry 3
            delay_before_retry 3
            connect_port 80
        }
    }

    real_server 192.168.1.201 80 {  # 后端真实服务器2的IP和端口
        weight 1
        TCP_CHECK {
            connect_timeout 3
            nb_get_retry 3
            delay_before_retry 3
            connect_port 80
        }
    }
}

配置项详细说明：

• global_defs：全局定义部分。

◦ `notification_email`：定义在发生故障或状态变化时，发送通知邮件的地址。

◦ `notification_email_from`：指定发送邮件的地址。

◦ `smtp_server`：设置SMTP服务器地址，如果需要发送邮件通知。

◦ `smtp_connect_timeout`：连接SMTP服务器的超时时间。

◦ `router_id`：用于标识当前keepalived实例的名称，在一个网络中应该唯一。

• vrrp_instance VI_1：VRRP实例的配置。

◦ `state`：定义当前节点在VRRP备份组中的状态，`MASTER`表示主节点，`BACKUP`表示备节点。

◦ `interface`：指定VRRP协议监听的网络接口，根据服务器实际网卡名称修改，如eth0、ens33等。

◦ `virtual_router_id`：虚拟路由ID，范围为0 - 255，在一个VRRP备份组中必须唯一。

◦ `priority`：节点的优先级，主节点通常设置为较高优先级（如100），备节点设置为较低优先级（如90）。

◦ `advert_int`：主备节点间同步信息的时间间隔，单位为秒。

◦ `authentication`：主备节点间通信的认证配置，`auth_type`指定认证类型，常见的有`PASS`（明文密码）和`AH`（认证头）等，`auth_pass`指定认证密码。

◦ `virtual_ipaddress`：定义虚拟IP地址，即客户端访问的VIP，此处设置为 `192.168.1.20/24`。

• virtual_server 192.168.1.20 80：虚拟服务器的配置，指定VIP和监听端口。

◦ `delay_loop`：检查后端服务器状态的间隔时间，单位为秒。

◦ `lb_algo`：负载均衡算法，这里设置为 `rr`（Round Robin，轮询算法），表示按顺序将请求依次分配给后端服务器。

◦ `lb_kind`：工作模式，这里设置为 `DR`（Direct Routing，直接路由模式）。

◦ `protocol`：指定使用的协议，这里为TCP协议。

◦ `real_server`：配置后端真实服务器的信息。

    ▪ `weight`：权重，用于调整后端服务器分配请求的比例，权重值越大，分配到的请求越多。

    ▪ `TCP_CHECK`：健康检查的配置。

        ▪ `connect_timeout`：连接超时时间，单位为秒。

        ▪ `nb_get_retry`：重试次数。

        ▪ `delay_before_retry`：重试前的延迟时间，单位为秒。

        ▪ `connect_port`：健康检查时连接的端口。

2. keepalived备节点（lvs_backup）配置

备节点的配置与主节点类似，但需要将一些关键配置项进行修改。以下是备节点的配置示例：

! Configuration File for keepalived

global_defs {
    notification_email {
        root@localhost
    }
    notification_email_from root@localhost
    smtp_server 127.0.0.1
    smtp_connect_timeout 30
    router_id LVS_BACKUP    # 备节点的标识
}

vrrp_instance VI_1 {
    state BACKUP           # 定义为备节点
    interface eth0         # 监听的网卡接口，根据实际情况修改
    virtual_router_id 51   # 虚拟路由ID，需与主节点保持一致
    priority 90            # 优先级低于主节点
    advert_int 1           # 主备节点间同步信息的时间间隔，单位为秒
    authentication {
        auth_type PASS
        auth_pass 1234     # 主备节点间通信的密码，需与主节点保持一致
    }
    virtual_ipaddress {
        192.168.1.20/24    # 定义虚拟IP地址，需与主节点保持一致
    }
}

virtual_server 192.168.1.20 80 {  # VIP和监听端口
    delay_loop 6
    lb_algo rr                 # 负载均衡算法，与主节点保持一致
    lb_kind DR                 # 工作模式，与主节点保持一致
    protocol TCP

    real_server 192.168.1.200 80 {  # 后端真实服务器1的IP和端口
        weight 1
        TCP_CHECK {
            connect_timeout 3
            nb_get_retry 3
            delay_before_retry 3
            connect_port 80
        }
    }

    real_server 192.168.1.201 80 {  # 后端真实服务器2的IP和端口
        weight 1
        TCP_CHECK {
            connect_timeout 3
            nb_get_retry 3
            delay_before_retry 3
            connect_port 80
        }
    }
}

备注：备节点的state设置为BACKUP，priority设置为低于主节点（如90），virtual_router_id和auth_pass等关键配置项必须与主节点保持一致，这样才能确保主备节点正常通信和故障切换。

3. 后端真实服务器配置

后端真实服务器需要进行一些基本的网络配置和Web服务部署（假设部署Nginx作为Web服务）。

3.1 配置VIP的虚接口（仅在DR模式下需要，为后端服务器添加一个VIP的虚接口，但IP不占用实际IP地址）

在每台后端真实服务器上，创建一个VIP的虚接口，这里以编辑网络配置文件 /etc/sysconfig/network-scripts/ifcfg-lo:0 为例（不同Linux发行版网络配置文件可能不同）：

DEVICE=lo:0
IPADDR=192.168.1.20    # 与VIP相同
NETMASK=255.255.255.255
ONBOOT=yes

然后重启网络服务使配置生效：

service network restart

注意：以上配置只是在DR模式下需要添加，以使后端服务器能够正确接收来自LVS的请求。在TUN模式下，后端服务器不需要配置VIP。

3.2 安装并部署Web服务（以Nginx为例）

在两台后端真实服务器上安装Nginx作为Web服务。

以CentOS系统为例：

yum install -y nginx

启动Nginx服务：

systemctl start nginx
systemctl enable nginx

可以编辑Nginx的默认配置文件 /etc/nginx/nginx.conf 或 /usr/share/nginx/html/index.html 文件，添加一些测试内容，如：

<h1>Welcome to Server 1</h1>

（在192.168.1.200上）和

<h1>Welcome to Server 2</h1>

（在192.168.1.201上）。

六、群集功能测试

1. 验证LVS负载均衡功能

在客户端机器上（假设客户端可以通过网络访问VIP），可以通过多种方式验证LVS负载均衡功能是否正常工作。

1.1 使用浏览器访问

在浏览器地址栏中输入VIP（192.168.1.20），多次刷新页面，观察返回的内容是否在两台后端真实服务器之间切换，如果轮询算法配置正确，应该会在不同服务器的页面内容之间交替显示。

1.2 使用命令行工具（如curl）测试

在客户端执行以下命令多次：

curl http://192.168.1.20

观察输出内容是否在两台后端服务器的页面内容之间切换，以验证负载均衡效果。

2. 验证keepalived高可用功能

为了验证keepalived的高可用功能，我们需要模拟主节点出现故障的情况。

2.1 模拟主节点故障

可以通过停止主节点（lvs_master）上的keepalived服务来模拟主节点故障：

systemctl stop keepalived

2.2 观察VIP转移情况

在客户端机器上，持续使用 curl 命令访问VIP（192.168.1.20），或者在几分钟后检查备节点（lvs_backup）上是否已经捕获了VIP。可以通过以下命令在备节点上检查VIP是否已绑定：

ip addr show eth0

如果看到VIP（192.168.1.20）已经绑定到备节点的网卡上，说明VIP已经成功从主节点切换到了备节点，实现了高可用。

2.3 恢复主节点并观察VIP回迁情况

在主节点上重新启动keepalived服务：

systemctl start keepalived

然后再次观察VIP是否从备节点回迁到主节点。通常情况下，主节点恢复正常后，会根据优先级重新夺回VIP的控制权。

注意：在实际生产环境中，故障切换的时间和回迁时间需要根据业务需求进行优化和调整，以确保服务的高可用性和稳定性。

七、常见问题及解决方案

1. 网络连通性问题

1.1 问题描述

在搭建群集过程中，可能会出现LVS负载均衡器与后端真实服务器之间的网络连通性问题，导致负载均衡功能无法正常工作。这可能是由于网络配置错误、防火墙限制或网卡故障等原因引起的。

1.2 解决方案

• 检查网络配置：确保LVS负载均衡器和后端真实服务器的IP地址、子网掩码、网关等网络配置正确。可以通过 ip addr 命令检查网卡信息。

• 检查防火墙设置：临时关闭防火墙或不必要的防火墙规则，检查是否是防火墙阻止了通信。例如，在CentOS系统中，可以使用以下命令临时关闭防火墙：

systemctl stop firewalld
然后测试网络连通性，如果问题解决，需要根据实际情况调整防火墙规则，允许相关端口的通信。

• 检查网卡状态：通过 ethtool 命令检查网卡状态，确保网卡正常工作。例如：

ethtool eth0

2. VIP无法正常切换问题

2.1 问题描述

在模拟主节点故障时，VIP可能无法成功从主节点切换到备节点，或者切换时间过长，影响服务的可用性。

2.2 解决方案

• 检查主备节点配置一致性：确保主备节点的 virtual_router_id、auth_pass 等关键配置项一致。

• 检查网络延迟：主备节点之间的网络延迟过大可能导致切换时间过长。可以通过 ping 命令检查主备节点之间的网络延迟，尽量优化网络环境，减少延迟。

• 调整keepalived参数：根据实际情况调整 advert_int 等参数，advert_int 定义了主备节点之间同步信息的时间间隔，适当调整该参数可以影响切换速度，但要注意不能设置过小，以免引起不必要的切换。

3.后端真实服务器健康检查失败问题

3.1 问题描述

在实际运行过程中，可能会出现后端真实服务器健康检查失败的情况，导致部分请求无法正常分配给故障服务器，影响整体服务性能。

3.2 解决方案

• 检查后端服务器服务状态：确保后端真实服务器上的服务正常运行，如对于Nginx服务，可以通过检查服务状态命令 systemctl status nginx 或查看服务日志 /var/log/nginx/error.log 来排查问题。

• 调整健康检查参数：根据后端服务器的实际情况，调整 TCP_CHECK 中的参数，如 connect_timeout、nb_get_retry 和 delay_before_retry 等，以适应不同的网络环境和服务器响应时间。

八、性能优化

1. LVS负载均衡器性能优化

1.1 调整内核参数

为了提高LVS负载均衡器的性能，可以调整一些内核参数。例如，以下参数可以通过编辑 /etc/sysctl.conf 文件进行修改，然后执行 sysctl -p 使配置生效：

net.ipv4.ip_forward = 1
net.ipv4.vs.conn_tab_bits = 20  # 连接表大小，根据服务器内存和并发连接数调整
net.ipv4.vs.expire_nodest_conn = 1  # 缺少目标的连接在超时后自动清理
net.ipv4.vs.expire_quiescent_template = 1

1.2 合理选择负载均衡算法

不同的负载均衡算法适用于不同的应用场景。如轮询（RR）算法适合后端服务器性能相近的情况，最少连接（LC）算法适合后端服务器性能差异较大的情况。根据后端服务器的实际性能和业务需求，选择合适的负载均衡算法，可以充分发挥服务器的性能，提高群集的整体性能。

2.后端真实服务器性能优化

2.1 服务器硬件优化

确保后端真实服务器的硬件配置满足业务需求，如足够的CPU、内存和磁盘I/O性能。如果业务增长，可以考虑升级硬件或增加服务器数量。

2.2 操作系统和应用优化

优化后端服务器的操作系统和运行的应用程序。例如，对于Nginx服务器，可以调整其配置文件中的参数，如worker_processes（工作进程数）、worker_connections（每个工作进程的最大连接数）等，以提高服务器的并发处理能力。

九、监控与维护

1.配置监控工具

为了及时发现和解决群集运行过程中出现的问题，需要配置监控工具对LVS+keepalived群集进行实时监控。

1.1 监控LVS负载均衡器

可以使用 ipvsadm 命令查看LVS的负载均衡状态，例如查看连接的真实服务器和每个服务器的连接数等信息：

ipvsadm -Ln

可以设置定时任务，定期收集这些信息并记录下来，以便分析负载均衡器的运行状态。

1.2 监控keepalived

监控keepalived的状态可以通过检查系统日志 /var/log/messages 中的相关日志信息，也可以使用自定义的监控脚本或第三方监控工具，如Zabbix、Nagios等，监控LVS主备状态和VIP的状态。

1.3 监控后端真实服务器

对后端真实服务器的性能指标（如CPU使用率、内存使用率、磁盘I/O、网络流量等）和应用程序状态（如服务的响应时间、错误率等）进行监控。可以使用系统自带的监控命令（如 top、vmstat、iostat 等）或第三方监控软件来实现。

2. 定期检查和维护

定期对LVS+keepalived群集进行全面的检查和维护，包括：

• 检查网络连接是否正常，包括物理连接和网络配置。

• 检查LVS负载均衡器的负载均衡策略是否合理，是否需要根据业务变化进行调整。

• 检查keepalived的配置文件是否需要更新，以及高可用功能是否正常。

• 检查后端真实服务器的状态，包括服务器硬件健康状况、应用程序运行状态等。