让服务永不掉线：Keepalived高可用方案实战指南-CFANZ编程社区

让服务永不掉线：Keepalived高可用方案实战指南

一、为什么需要“备胎”？——高可用性的真实需求

想象一下这个场景：

你负责维护一个电商网站，某天凌晨主服务器突然宕机，用户无法下单，公司每秒损失10万元！如果此时能自动切换到备用服务器，就能避免这场灾难！

这就是高可用性（High Availability） 的核心价值——让服务像打不死的小强，永远在线。而实现这一目标的神器，就是今天的主角：Keepalived。

二、Keepalived如何实现“备胎机制”？

1. 核心原理：VRRP协议

Keepalived基于VRRP（Virtual Router Redundancy Protocol） 协议，它的工作模式像极了足球比赛的替补机制：

主节点（Master）：当前扛流量的“首发球员”
备节点（Backup）：随时待命的“替补球员”
虚拟IP（VIP）：对外服务的“球衣号码”（如192.168.1.100）

当主节点健康时，VIP绑定在主节点；若主节点“受伤”（故障），备节点自动穿上“球衣”接管流量！

2. 健康检查：Keepalived的“心跳检测”

除了VRRP，Keepalived还会通过两种方式监控服务状态：

Layer 3检查：PING检测网络连通性
Layer 4/7检查：TCP端口检测或HTTP请求验证应用健康

三、手把手配置：5步搭建高可用Web集群

实验环境

主节点：192.168.1.101
备节点：192.168.1.102
虚拟IP：192.168.1.100
服务：Nginx（端口80）

步骤1：安装Keepalived

# CentOS
yum install keepalived -y

# Ubuntu
apt install keepalived -y

步骤2：主节点配置

编辑 /etc/keepalived/keepalived.conf：

global_defs {
    router_id Node_Master  # 节点唯一标识
}

vrrp_instance VI_1 {
    state MASTER           # 角色：主节点
    interface eth0         # 绑定网卡
    virtual_router_id 51   # 虚拟路由ID（同一组需相同）
    priority 100           # 优先级（主>备）
    
    advert_int 1           # 心跳间隔（秒）
    authentication {       # 认证配置
        auth_type PASS
        auth_pass 1234
    }
    
    virtual_ipaddress {    # 虚拟IP配置
        192.168.1.100/24
    }
    
    # 健康检查：检测Nginx是否存活
    track_script {
        chk_nginx
    }
}

# 定义Nginx健康检查脚本
vrrp_script chk_nginx {
    script "/usr/bin/killall -0 nginx"  # 检测进程是否存在
    interval 2                          # 每2秒检查一次
    weight 20                           # 失败时优先级-20
}

步骤3：备节点配置

备节点配置与主节点类似，仅修改三处：

global_defs {
    router_id Node_Backup   # 修改标识
}

vrrp_instance VI_1 {
    state BACKUP            # 角色改为备节点
    priority 90             # 优先级低于主节点
    # 其他配置保持不变
}

步骤4：启动服务

systemctl start keepalived
systemctl enable keepalived

步骤5：验证切换效果

查看VIP绑定：

ip addr show eth0 | grep "192.168.1.100"

模拟主节点故障：

# 在主节点停止Keepalived
systemctl stop keepalived

# 观察备节点是否接管VIP

四、高级技巧：多活架构与脑裂防护

1. 多主模式（N+1）

通过配置多个VRRP实例，实现多节点负载均衡：

vrrp_instance VI_1 { priority 100 }
vrrp_instance VI_2 { priority 90 }  # 另一组VRRP

2. 预防脑裂（Split-Brain）

当主备节点失去通信时，可能同时声明自己是主节点。解决方案：

添加第三方仲裁：通过PING网关或特定服务器确认网络状态

track_script {
    chk_network  # 调用网络检查脚本
}

vrrp_script chk_network {
    script "ping -c 2 192.168.1.1"  # 检查网关连通性
    interval 2
    weight -30  # 失败时降权
}

五、常见问题排雷指南

问题现象	排查方向	解决方案
VIP无法切换	防火墙是否阻止VRRP通信	开放组播地址`224.0.0.18`
备节点收不到主节点心跳	检查`advert_int`配置	确保主备节点心跳间隔一致
服务正常但VIP丢失	健康检查脚本是否返回错误	使用`killall -0`替代进程检测
频繁切换	网络延迟是否过高	调大`advert_int`值