一次 Keepalived 高可用的事故，讓我重學了一遍它！

昵稱10087950 2022-07-01 發(fā)布于江蘇

展開全文

前言

上次我們遇到了一個 MySQL 故障的事故，這次我又遇到了另外一個奇葩的問題：

Keepalived 高可用組件的虛擬 IP 持續(xù)漂移，導致 MySQL 主從不斷切換，進而導致 MySQL 主從數(shù)據(jù)同步失敗。

雖然沒能重現(xiàn) Keepalived 的這個問題，但是我深入研究了下 Keepalived 的原理以及針對核心配置參數(shù)做了大量實驗。悟空帶著大家一起看下 Keepalived 到底是如何運轉的，以及為什么它能做到高可用。

原理講解分為上、中、下三篇：

上篇涉及以下知識點：

Keepalived 如何提供數(shù)據(jù)流量轉發(fā)。
Keepalived 選舉的原理。
Keepalived 的負載均衡算法。

中篇涉及以下知識點：

Keepalived 的路由規(guī)則。
Keepalived 如何監(jiān)控服務的。
Keepalived 如何進行故障切換。
Keepalived 的架構剖析。

下篇設計以下知識點：

Keepalived 配置詳解
Keepalived 實戰(zhàn)部署

一、Keepalived 和 LVS 概述

1.1 Keepalived 概述

談到 Keepalived，給人的印象就是用在高可用架構中，保證某個服務不故障，其實它還有很多其他的功能。Keepalived 是 Linux 系統(tǒng)下的一個比較輕量級的高可用解決方案，這個輕量級是相對于 Heartbeat 等組件的。雖然 Heartbeat 功能完善、專業(yè)性強，但是安裝部署就沒有 Keepalived 簡單，Keepalived 只需要一個配置文件即可。企業(yè)中大多選擇 Keepalived 作為高可用組件。

1.2 LVS 概述

Keepalived 最開始是由 Alexandre Cassen 使用 C 語言編寫的開源軟件項目，項目的目的主要是簡化 LVS 項目的配置并增強 LVS 的穩(wěn)定性。簡單來說，Keepalived 就是對 LVS 的擴展增強。

LVS（Linux Virtual Server）翻譯過來就是 Linux 虛擬服務器，由章文嵩博士主導開發(fā)的開源負載項目，目前 LVS 已經(jīng)被集成到 Linux 內核模塊中。

LVS 主要用在負載均衡方面，比如 Web 客戶端想要訪問后端服務，Web 請求會先經(jīng)過 LVS 調度器，調度器根據(jù)預設的算法決定如何分發(fā)給后端的所有服務器。

1.3 LVS 基本原理

LVS 的基本原理如下圖所示：

LVS 的核心功能就是提供負載均衡，負載均衡技術有多種：

基于 DNS 域名輪流解析方案。
基于客戶端調度訪問方案。
基于應用層系統(tǒng)的調度方案。
基于 IP 地址的調度方案。

而效率最高的是基于 IP 地址的調度方案。其實就是將請求轉發(fā)給對應的 IP 地址 + 端口號，它的效率是非常高的，LVS 的 IP 負載均衡技術是通過 IPVS 模塊來實現(xiàn)的，IPVS 是 LVS 集群系統(tǒng)的核心軟件。

LVS 負載均衡器會虛擬化一個IP（VIP），對于客戶端來說，它事先只知道這個 VIP 的，客戶端就將請求發(fā)送給 VIP，然后 LVS 負載均衡器會將請求轉發(fā)給后端服務器中的一個，這些服務器都稱為 Real Server（真實服務器）。轉發(fā)的規(guī)則是通過設置 LVS 的負載均衡算法來的，比如隨機分配、按照權重分配等。

后端服務器的提供的功能要求是一致的，不論轉發(fā)到哪臺服務器，最終得到的結果是一致的，所以對于客戶端來說，它并不關心有多少個后端服務器在提供服務，它只關心訪問的 VIP 是多少。

那么后端服務處理完請求后，如何將數(shù)據(jù)返回給客戶端呢？根據(jù) LVS 的不同模式，會選擇不同的方式將數(shù)據(jù)返回給客戶端。LVS 的工作模式有三種：NAT 模式、TUN 模式、DR 模式。這個后面講到路由機制再來細說。

二、Keepalived 流量轉發(fā)原理

Keepalived 為 Linux 系統(tǒng)提供了負載均衡和高可用能力。負載均衡的能力來自 Linux 內核中的 LVS 項目模塊 IPVS（IP Virtual Server）。

Keepalived 運行在 Linux 系統(tǒng)中，它會啟動內核中的 LVS 服務來創(chuàng)建虛擬服務器。比如我們在兩臺服務器上都啟動了一個 Keepalived 服務，然后 LVS 會虛擬化出來一個 IP（VIP），但是只有一個 Keepalived 會接管這個 VIP，就是說客戶端的請求只會到 Master Keepalived 節(jié)點上。這樣流量就只會到一臺 keepalived 上了，然后 keepalived 可以配置幾臺真實的服務 IP 地址和端口，通過負載調度算法將流量分攤到這些服務上。對于另外一臺 Backup Keepalived 節(jié)點，它是待機狀態(tài)，沒有流量接入的。

三、Keepalived 如何進行選主的

那么上面的兩個 Keepalived 服務是如何選出其中一個作為 Master 節(jié)點的呢？

我們一般都是運行在兩臺主備服務器或一主多備的服務器上。而這多臺服務器都是遵循 VRRP 的。

3.1 VRRP 協(xié)議

VRRP 的全稱為 Virtual Router Redundancy Protoco，虛擬路由冗余協(xié)議。它是一種容錯協(xié)議，為了解決局域網(wǎng)中單點路由故障的問題。比如之前我們都是一個路由器進行路由轉發(fā)，如果這個路由器故障了，那么整個路由轉發(fā)的鏈路就斷了，服務就不可用了。

VRRP 協(xié)議主要的功能：

虛擬路由器和虛擬 IP。
Master 廣播 ARP 報文。
Backup 選舉新的 Master。

現(xiàn)在我們配置多臺路由器（一主多備），每臺路由器都有一個自己的 IP 地址，它們組成一個路由器組，其中有一個作為 Master，其他作為 Backup。然后這些路由器會虛擬出單個路由，擁有自己的 IP 地址，也就是 Virtual IP，簡稱 VIP。

客戶端訪問這個虛擬的 IP 地址就可以了，當主路由器故障了，備份路由器通過選舉機制選出一個新的主路由器，繼續(xù)向客戶端提供路由服務，實現(xiàn)了路由功能的高可用。

路由器開啟 VRRP 功能后，根據(jù)優(yōu)先級配置進行選舉，優(yōu)先級高的會成為主（Master）路由器，另外的則會成為備（Backup）路由器。

Master 路由器定期發(fā)送 VRRP 通知報文給 Backup 路由器，告訴它們我是在正常工作的，你們不用競選新的 Master 路由器。

關于 Master 和 Backup 通信的原理其實很簡單，就是一個心跳機制，不過這個和 Eureka 的心跳機制不一樣，Eureka 是客戶端定期向 Eureka 注冊中心發(fā)送心跳，而 Keepalived 則是 Master 定期向 Backup 發(fā)送心跳機制，而 Backup 路由器它有一個定時監(jiān)測通知的任務，如果在這個時間段內未收到通知，則認為 Mater 故障了，然后通過優(yōu)先級進行選舉，選舉出新的 Master 后，就定期發(fā)送 VRRP 通知報文給 Backup 路由器。（Eureka 心跳機制：唐太宗把微服務的“心跳機制”玩到了極致！）

通過這個 VRRP 協(xié)議，可以提高系統(tǒng)的可用性，避免因單點故障導致的服務不可用問題，同時在路由器故障時，無需手動修改網(wǎng)絡連接信息以訪問新的 Master 路由器。如下圖所示，Backup 切換為了 Master。

關于選舉的配置主要依賴 vrrp_instance 和 vrrp_script 字段。

3.2 vrrp_instance 配置

對于 Keepalived 的選主有三個重要參數(shù)：

state：可選值為 MASTER、BACKUP。
priority：節(jié)點的優(yōu)先級，可選值為 [1-255]。
nopreempt：不搶占模式，如果配置，則當優(yōu)先級高時，會將自己設置為 Master。

vrrp_instance VI_1 {
    # 節(jié)點為 BACKUP
    state BACKUP
    # 優(yōu)先級為 100
    priority 100   
    # 不搶占模式
    nopreempt
}

當一臺設置為 master，另外一臺設置為 BACKUP，當 MASTER 故障后，BACKUP 會成為新的 MASTER，而當老的 MASTER 恢復后，又會搶占成為新的 MASTER，接管 VIP 的流量，導致不必要的主備切換。為了避免這種主備切換，我們可以將兩臺 Keepalived 都設置為 BACKUP，且高優(yōu)先級的那臺 Keepalived 設置為不搶占 nopreempt。

3.2 vrrp_script 配置

而優(yōu)先級 priority 它是可以增減的，通過 vrrp_script 來配置：

vrrp_script restart_mysql {
   # 監(jiān)測和重啟 mysql 容器，如果 MySQL 服務正常或 MySQL 失敗
   script '/usr/local/keepalived/restart_mysql.sh'  
   interval 5
   weight -20
}

這個是定時執(zhí)行腳本的配置，script 配置會監(jiān)測 mysql 服務是否不正常。這是一個自定義的腳本，可以自己寫返回值。這里我寫的邏輯是如果 MySQL 服務正常則返回 0，不正常則返回 1。

當 weight 為正數(shù)

當腳本返回 0 時（服務正常），則增加優(yōu)先級=priority + weight；否則，保持設置的 priority 值。

切換策略：

如果 MASTER 節(jié)點的 vrrp_script 腳本檢測失敗時，如果 MASTER 節(jié)點的 priority 值小于 BACKUP 節(jié)點 weight + priority，則發(fā)生主備切換。
如果 MASTER 節(jié)點的 vrrp_script 腳本檢測成功時，如果 MASTER 節(jié)點的 priority 值大于 BACKUP 節(jié)點 weight + priority，則不發(fā)生主備切換。

當 weight 為負數(shù)

當腳本返回非 0 時（服務異常），則優(yōu)先級=priority - |weight|；否則，保持設置的 priority 值。

切換策略：

如果 MASTER 節(jié)點的 vrrp_script 腳本檢測失敗時，如果 MASTER 節(jié)點的 priority - |weight| 值小于 BACKUP 節(jié)點 priority 值，則發(fā)生主備切換。
如果 MASTER 節(jié)點的 vrrp_script 腳本檢測成功時，如果 MASTER 節(jié)點的 priority 值大于 BACKUP 節(jié)點 priority 值，則不發(fā)生主備切換。

注意：增加或減少優(yōu)先級的范圍為 [1,254]。

舉例說明：

兩臺 Keepalived 的 state 都配置成 BACKUP，其中一臺服務器 node1 的 Keepalived 的優(yōu)先級設置為 100，不搶占模式，另外一臺 node2 的優(yōu)先級設置為 90，搶占模式。

node1 節(jié)點配置的優(yōu)先級高，它成為 Master 節(jié)點，當 Master 節(jié)點監(jiān)控的 MySQL 服務發(fā)生故障后，會降低優(yōu)先級，從 100 降低到 80。另外一臺優(yōu)先級為 90，收到優(yōu)先級比自己低的 ARP 廣播時，就會變成新的 Master 節(jié)點。而 node1 節(jié)點會成為 BACKUP 節(jié)點，當 node1 監(jiān)控到 MySQL 服務恢復后，優(yōu)先級變?yōu)榕渲玫?priority 100，但是也不會搶占。

如下圖所示：雖然 node1 上的 keepalived 重啟 mysql 成功了，優(yōu)先級也恢復成了 100，但是并沒有變?yōu)?master，還是維持 backup 狀態(tài)。

而 node2 還是 master 節(jié)點，定時向 node 1 發(fā)送 vrrp 通知，如下圖所示：

如果 node2 的 mysql 宕機了，那么它的優(yōu)先級會從 90 降低到 70，即使這樣，也不會出現(xiàn)主備切換，因為我們配置的策略就是 node1 不會搶占。如果要在這種情況下切換到 node1，就只能將 node2 的 keepalived 主動停掉，故障轉移中篇會講到。

四、Keepalived 的負載均衡機制

4.1 轉發(fā)機制

要理解 Keepalived 的負載均衡機制，必須了解 IPVS，也就是 IP Virtual Server，IP 虛擬服務器。

IPVS 模塊是 Keepalived 引入的一個第三方模塊，目的是解決單 IP 多服務器的工作環(huán)境，通過 IPVS 可以實現(xiàn)基于 IP 的負載均衡集群。IPVS 默認包含在 LVS 軟件中，而 LVS 又是包含在 Linux 系統(tǒng)中。所以 Keepalived 在 Linux 系統(tǒng)上可以直接利用 LVS 的功能。LVS 的作用就是虛擬出一個 IP，也就是 VIP，客戶端請求先到達 VIP，然后從服務器集群中選擇一個服務器節(jié)點，將流量轉發(fā)給這個節(jié)點，由這個節(jié)點處理請求。

如圖所示：

Keepalived 是運行在用戶空間的 LVS 路由（LVS Router）進程，作為 MASTER 角色 Keepalived 稱為 Active Router，BACKUP 角色的 Keepalived 稱為 SLAVE Router。只有 Active Router 是工作的，其他 Router 是 Stand By （待機狀態(tài)）。
Active Router 和 Backup Router 之間是通過 VRRP 協(xié)議進行主備切換的。
Active Router 會啟動內核中 LVS 服務以創(chuàng)建虛擬服務器，虛擬服務器有一個虛擬 IP（VIP)，比如下圖中的 VIP 為 192.168.56.88。
Active Router 還會設置 IPVS TABLES（服務器列表），記錄了后端服務器的地址及服務運行狀態(tài)。負載均衡就從服務器列表選擇一個可用的服務進行轉發(fā)。
這些后端服務是配置在 Keepalived 的 virtual_server 配置項里面的，如下所示，配置了三個 real_server，分別對應了三臺后端服務器。

virtual_server 192.168.56.88 80 { 
   delay_loop 6 
   lb_algo rr 
   lb kind NAT 
   protocol tcp
   # 服務器 1
   real_server 192.168.56.11 80 { 
      TCP_CHECK { 
      connect timeout 10 
   }
   # 服務器 2
   real_server 192.168.56.12 80 { 
      TCP_CHECK { 
      connect timeout 10 
   }
   # 服務器 3
   real_server 192.168.56.13 80 { 
      TCP_CHECK { 
      connect timeout 10 
   }

4.2 負載調度算法

配置中有一個字段 lb_algo，這個就是負載調度算法，可以配置成 rr、wrr、lc、wlc、sh、dh 等。常用的是 rr 和 wrr。

rr，就是 Round-Robin，輪詢算法，每個服務器平等的，依次被調度。
wrr，就是 Weighted Round-Robin，加權輪詢調度算法，加權值較大的，會被轉發(fā)更多的請求。比如有的服務器硬件能力較弱，則可以將加權值配置得低一點。
lc，就是 Least-Connection，最少連接算法。請求被轉發(fā)到活動連接較少的服務器上。連接數(shù)是通過 IPVS Table 來動態(tài)跟蹤的。
wlc，加權最少連接。根據(jù)權重 + 連接數(shù) 分配請求。
sh，目標地址哈希算法，通過在靜態(tài) Hash 表中查詢目的 IP 地址來確定請求要轉發(fā)的服務器，這類算法主要用于緩存代理服務器中。
dh，源地址哈希算法，通過在靜態(tài) Hash 表中查詢源 IP 地址來確定請求要轉發(fā)的服務器，這類算法主要用于防火墻的 LVS Router 中。