Keepalived原理與實(shí)戰(zhàn)精講

用勿龍潛 2012-08-27

展開全文

Keepalived原理與實(shí)戰(zhàn)精講

什么是Keepalived呢，keepalived觀其名可知，保持存活，在網(wǎng)絡(luò)里面就是保持在線了，也就是所謂的高可用或熱備，用來防止單點(diǎn)故障(單點(diǎn)故障是指一旦某一點(diǎn)出現(xiàn)故障就會導(dǎo)致整個(gè)系統(tǒng)架構(gòu)的不可用)的發(fā)生，那說到keepalived時(shí)不得不說的一個(gè)協(xié)議就是VRRP協(xié)議，可以說這個(gè)協(xié)議就是keepalived實(shí)現(xiàn)的基礎(chǔ)，那么首先我們來看看VRRP協(xié)議

注：搞運(yùn)維的要有足夠的耐心哦，不理解協(xié)議就很難透徹的掌握keepalived的了

一，VRRP協(xié)議
VRRP協(xié)議
學(xué)過網(wǎng)絡(luò)的朋友都知道，網(wǎng)絡(luò)在設(shè)計(jì)的時(shí)候必須考慮到冗余容災(zāi)，包括線路冗余，設(shè)備冗余等，防止網(wǎng)絡(luò)存在單點(diǎn)故障，那在路由器或三層交換機(jī)處實(shí)現(xiàn)冗余就顯得尤為重要，在網(wǎng)絡(luò)里面有個(gè)協(xié)議就是來做這事的，這個(gè)協(xié)議就是VRRP協(xié)議，Keepalived就是巧用VRRP協(xié)議來實(shí)現(xiàn)高可用性(HA)的

VRRP協(xié)議有一篇文章寫的非常好，大家可以直接看這里(記得認(rèn)真看看哦，后面基本都已這個(gè)為基礎(chǔ)的了)
帖子地址：http://bbs./thread-790-1-1.html
只需要把服務(wù)器當(dāng)作路由器即可！

在《VRRP協(xié)議》里講到了虛擬路由器的ID也就是VRID在這里比較重要

keepalived完全遵守VRRP協(xié)議，包括競選機(jī)制等等

二，Keepalived原理

Keepalived原理
keepalived也是模塊化設(shè)計(jì)，不同模塊復(fù)雜不同的功能，下面是keepalived的組件
core check vrrp libipfwc libipvs-2.4 libipvs-2.6

core：是keepalived的核心，復(fù)雜主進(jìn)程的啟動和維護(hù)，全局配置文件的加載解析等
check：負(fù)責(zé)healthchecker(健康檢查)，包括了各種健康檢查方式，以及對應(yīng)的配置的解析包括LVS的配置解析
vrrp：VRRPD子進(jìn)程，VRRPD子進(jìn)程就是來實(shí)現(xiàn)VRRP協(xié)議的
libipfwc：iptables(ipchains)庫，配置LVS會用到
libipvs*：配置LVS會用到
注意，keepalived和LVS完全是兩碼事，只不過他們各負(fù)其責(zé)相互配合而已

keepalived啟動后會有三個(gè)進(jìn)程
父進(jìn)程：內(nèi)存管理，子進(jìn)程管理等等
子進(jìn)程：VRRP子進(jìn)程
子進(jìn)程：healthchecker子進(jìn)程

有圖可知，兩個(gè)子進(jìn)程都被系統(tǒng)WatchDog看管，兩個(gè)子進(jìn)程各自復(fù)雜自己的事，healthchecker子進(jìn)程復(fù)雜檢查各自服務(wù)器的健康程度，例如HTTP，LVS等等，如果healthchecker子進(jìn)程檢查到MASTER上服務(wù)不可用了，就會通知本機(jī)上的兄弟VRRP子進(jìn)程，讓他刪除通告，并且去掉虛擬IP，轉(zhuǎn)換為BACKUP狀態(tài)

三，Keepalived配置文件詳解

keepalived配置詳解
keepalived有三類配置區(qū)域(姑且就叫區(qū)域吧)，注意不是三種配置文件，是一個(gè)配置文件里面三種不同類別的配置區(qū)域

全局配置(Global Configuration)
VRRPD配置
LVS配置

一，全局配置
全局配置又包括兩個(gè)子配置：
全局定義(global definition)
靜態(tài)路由配置(static ipaddress/routes)

1，全局定義(global definition)配置范例

global_defs

{

notification_email

{

admin@example.com

}

notification_email_from admin@example.com

smtp_server 127.0.0.1

stmp_connect_timeout 30

router_id node1

}
復(fù)制代碼
全局配置解析
global_defs全局配置標(biāo)識，表面這個(gè)區(qū)域{}是全局配置

notification_email

{

admin@example.com

admin@

}
復(fù)制代碼
表示keepalived在發(fā)生諸如切換操作時(shí)需要發(fā)送email通知，以及email發(fā)送給哪些郵件地址，郵件地址可以多個(gè)，每行一個(gè)

notification_email_from admin@example.com
表示發(fā)送通知郵件時(shí)郵件源地址是誰

smtp_server 127.0.0.1
表示發(fā)送email時(shí)使用的smtp服務(wù)器地址，這里可以用本地的sendmail來實(shí)現(xiàn)

smtp_connect_timeout 30
連接smtp連接超時(shí)時(shí)間

router_id node1
機(jī)器標(biāo)識

2，靜態(tài)地址和路由配置范例

static_ipaddress

{

192.168.1.1/24 brd + dev eth0 scope global

192.168.1.2/24 brd + dev eth1 scope global

}

static_routes

{

src $SRC_IP to $DST_IP dev $SRC_DEVICE

src $SRC_IP to $DST_IP via $GW dev $SRC_DEVICE

}
復(fù)制代碼

這里實(shí)際上和系統(tǒng)里面命令配置IP地址和路由一樣例如：
192.168.1.1/24 brd + dev eth0 scope global 相當(dāng)于: ip addr add 192.168.1.1/24 brd + dev eth0 scope global
就是給eth0配置IP地址
路由同理
一般這個(gè)區(qū)域不需要配置
這里實(shí)際上就是給服務(wù)器配置真實(shí)的IP地址和路由的，在復(fù)雜的環(huán)境下可能需要配置，一般不會用這個(gè)來配置，我們可以直接用vi /etc/sysconfig/network-script/ifcfg-eth1來配置，切記這里可不是VIP哦，不要搞混淆了，切記切記！

二，VRRPD配置
VRRPD配置包括三個(gè)類
VRRP同步組(synchroization group)
VRRP實(shí)例(VRRP Instance)VRRP腳本

1，VRRP同步組(synchroization group)配置范例

vrrp_sync_group VG_1 {

group {

http

mysql

}

notify_master /path/to/to_master.sh

notify_backup /path_to/to_backup.sh

notify_fault "/path/fault.sh VG_1"

notify /path/to/notify.sh

smtp_alert

}
復(fù)制代碼
其中：

group {

http

mysql

}
復(fù)制代碼
http和mysql是實(shí)例名和下面的實(shí)例名一致

notify_master /path/to/to_master.sh：表示當(dāng)切換到master狀態(tài)時(shí)，要執(zhí)行的腳本

notify_backup /path_to/to_backup.sh：表示當(dāng)切換到backup狀態(tài)時(shí)，要執(zhí)行的腳本

notify_fault "/path/fault.sh VG_1"
復(fù)制代碼
notify /path/to/notify.sh：

smtp alter表示切換時(shí)給global defs中定義的郵件地址發(fā)送右鍵通知

2，VRRP實(shí)例(instance)配置范例

vrrp_instance http {

state MASTER

interface eth0

dont_track_primary

track_interface {

eth0

eth1

}

mcast_src_ip <IPADDR>

garp_master_delay 10

virtual_router_id 51

priority 100

advert_int 1

authentication {

auth_type PASS

autp_pass 1234

}

virtual_ipaddress {

#<IPADDR>/<MASK> brd <IPADDR> dev <STRING> scope <SCOPT> label <LABEL>

192.168.200.17/24 dev eth1

192.168.200.18/24 dev eth2 label eth2:1

}

virtual_routes {

# src <IPADDR> [to] <IPADDR>/<MASK> via|gw <IPADDR> dev <STRING> scope <SCOPE> tab

src 192.168.100.1 to 192.168.109.0/24 via 192.168.200.254 dev eth1

192.168.110.0/24 via 192.168.200.254 dev eth1

192.168.111.0/24 dev eth2

192.168.112.0/24 via 192.168.100.254

}

nopreempt

preemtp_delay 300

debug

}
復(fù)制代碼

state：state指定instance(Initial)的初始狀態(tài)，就是說在配置好后，這臺服務(wù)器的初始狀態(tài)就是這里指定的，但這里指定的不算，還是得要通過競選通過優(yōu)先級來確定，里如果這里設(shè)置為master，但如若他的優(yōu)先級不及另外一臺，那么這臺在發(fā)送通告時(shí)，會發(fā)送自己的優(yōu)先級，另外一臺發(fā)現(xiàn)優(yōu)先級不如自己的高，那么他會就回?fù)屨紴閙aster

interface：實(shí)例綁定的網(wǎng)卡，因?yàn)樵谂渲锰摂MIP的時(shí)候必須是在已有的網(wǎng)卡上添加的

dont track primary：忽略VRRP的interface錯(cuò)誤

track interface：跟蹤接口，設(shè)置額外的監(jiān)控，里面任意一塊網(wǎng)卡出現(xiàn)問題，都會進(jìn)入故障(FAULT)狀態(tài)，例如，用nginx做均衡器的時(shí)候，內(nèi)網(wǎng)必須正常工作，如果內(nèi)網(wǎng)出問題了，這個(gè)均衡器也就無法運(yùn)作了，所以必須對內(nèi)外網(wǎng)同時(shí)做健康檢查

mcast src ip：發(fā)送多播數(shù)據(jù)包時(shí)的源IP地址，這里注意了，這里實(shí)際上就是在那個(gè)地址上發(fā)送VRRP通告，這個(gè)非常重要，一定要選擇穩(wěn)定的網(wǎng)卡端口來發(fā)送，這里相當(dāng)于heartbeat的心跳端口，如果沒有設(shè)置那么就用默認(rèn)的綁定的網(wǎng)卡的IP，也就是interface指定的IP地址

garp master delay：在切換到master狀態(tài)后，延遲進(jìn)行免費(fèi)的ARP(gratuitous ARP)請求

virtual router id：這里設(shè)置VRID，這里非常重要，相同的VRID為一個(gè)組，他將決定多播的MAC地址

priority 100：設(shè)置本節(jié)點(diǎn)的優(yōu)先級，優(yōu)先級高的為master

advert int：檢查間隔，默認(rèn)為1秒

virtual ipaddress：這里設(shè)置的就是VIP，也就是虛擬IP地址，他隨著state的變化而增加刪除，當(dāng)state為master的時(shí)候就添加，當(dāng)state為backup的時(shí)候刪除，這里主要是有優(yōu)先級來決定的，和state設(shè)置的值沒有多大關(guān)系，這里可以設(shè)置多個(gè)IP地址

virtual routes：原理和virtual ipaddress一樣，只不過這里是增加和刪除路由

lvs sync daemon interface：lvs syncd綁定的網(wǎng)卡

authentication：這里設(shè)置認(rèn)證

auth type：認(rèn)證方式，可以是PASS或AH兩種認(rèn)證方式

auth pass：認(rèn)證密碼

nopreempt：設(shè)置不搶占，這里只能設(shè)置在state為backup的節(jié)點(diǎn)上，而且這個(gè)節(jié)點(diǎn)的優(yōu)先級必須別另外的高

preempt delay：搶占延遲

debug：debug級別

notify master：和sync group這里設(shè)置的含義一樣，可以單獨(dú)設(shè)置，例如不同的實(shí)例通知不同的管理人員，http實(shí)例發(fā)給網(wǎng)站管理員，mysql的就發(fā)郵件給DBA

3，VRRP腳本

vrrp_script check_running {

script "/usr/local/bin/check_running"

interval 10

weight 10

}

vrrp_instance http {

state BACKUP

smtp_alert

interface eth0

virtual_router_id 101

priority 90

advert_int 3

authentication {

auth_type PASS

auth_pass whatever

}

virtual_ipaddress {

1.1.1.1

}

track_script {

check_running weight 20

}

}
復(fù)制代碼

首先在vrrp_script區(qū)域定義腳本名字和腳本執(zhí)行的間隔和腳本執(zhí)行的優(yōu)先級變更
vrrp_script check_running {

script "/usr/local/bin/check_running"

interval 10    #腳本執(zhí)行間隔

weight 10    #腳本結(jié)果導(dǎo)致的優(yōu)先級變更：10表示優(yōu)先級+10；-10則表示優(yōu)先級-10

}
然后在實(shí)例(vrrp_instance)里面引用，有點(diǎn)類似腳本里面的函數(shù)引用一樣：先定義，后引用函數(shù)名
track_script {
check_running weight 20
}

注意：VRRP腳本(vrrp_script)和VRRP實(shí)例(vrrp_instance)屬于同一個(gè)級別

LVS配置

如果你沒有配置LVS+keepalived那么無需配置這段區(qū)域，里如果你用的是nginx來代替LVS，這無限配置這款，這里的LVS配置是專門為keepalived+LVS集成準(zhǔn)備的。
注意了，這里L(fēng)VS配置并不是指真的安裝LVS然后用ipvsadm來配置他，而是用keepalived的配置文件來代替ipvsadm來配置LVS，這樣會方便很多，一個(gè)配置文件搞定這些，維護(hù)方便，配置方便是也！

這里L(fēng)VS配置也有兩個(gè)配置
一個(gè)是虛擬主機(jī)組配置
一個(gè)是虛擬主機(jī)配置

1，虛擬主機(jī)組配置文件詳解
這個(gè)配置是可選的，根據(jù)需求來配置吧，這里配置主要是為了讓一臺realserver上的某個(gè)服務(wù)可以屬于多個(gè)Virtual Server，并且只做一次健康檢查

virtual_server_group <STRING> {
# VIP port
<IPADDR> <PORT>
<IPADDR> <PORT>
fwmark <INT>
}

2，虛擬主機(jī)配置

virtual server可以以下面三種的任意一種來配置

1. virtual server IP port

2. virtual server fwmark int

3. virtual server group string
復(fù)制代碼
下面以第一種比較常用的方式來配詳細(xì)解說一下

virtual_server 192.168.1.2 80 {                   #設(shè)置一個(gè)virtual server: VIP:Vport
delay_loop 3                                                 # service polling的delay時(shí)間，即服務(wù)輪詢的時(shí)間間隔

lb_algo rr|wrr|lc|wlc|lblc|sh|dh                      #LVS調(diào)度算法
lb_kind NAT|DR|TUN                                     #LVS集群模式
persistence_timeout 120                               #會話保持時(shí)間（秒為單位），即以用戶在120秒內(nèi)被分配到同一個(gè)后端realserver
persistence_granularity <NETMASK>             #LVS會話保持粒度，ipvsadm中的-M參數(shù)，默認(rèn)是0xffffffff，即每個(gè)客戶端都做會話保持
protocol TCP                                                 #健康檢查用的是TCP還是UDP
ha_suspend                                                 #suspendhealthchecker’s activity
virtualhost <string>                                     #HTTP_GET做健康檢查時(shí)，檢查的web服務(wù)器的虛擬主機(jī)（即host：頭）

sorry_server <IPADDR> <PORT>                #備用機(jī)，就是當(dāng)所有后端realserver節(jié)點(diǎn)都不可用時(shí)，就用這里設(shè)置的，也就是臨時(shí)把所有的請求都發(fā)送到這里啦

real_server <IPADDR> <PORT>                   #后端真實(shí)節(jié)點(diǎn)主機(jī)的權(quán)重等設(shè)置，主要，后端有幾臺這里就要設(shè)置幾個(gè)
{
weight 1                                                       #給每臺的權(quán)重，0表示失效(不知給他轉(zhuǎn)發(fā)請求知道他恢復(fù)正常)，默認(rèn)是1
inhibit_on_failure                                           #表示在節(jié)點(diǎn)失敗后，把他權(quán)重設(shè)置成0，而不是沖IPVS中刪除

notify_up <STRING> | <QUOTED-STRING>  #檢查服務(wù)器正常(UP)后，要執(zhí)行的腳本
notify_down <STRING> | <QUOTED-STRING> #檢查服務(wù)器失敗(down)后，要執(zhí)行的腳本

HTTP_GET                                                    #健康檢查方式
{
url {                                                             #要堅(jiān)持的URL，可以有多個(gè)
path /                                                          #具體路徑
digest <STRING>
status_code 200                                           #返回狀態(tài)碼
}
connect_port 80                                           #監(jiān)控檢查的端口

bindto <IPADD>                                           #健康檢查的IP地址
connect_timeout 3                                     #連接超時(shí)時(shí)間
nb_get_retry 3                                              #重連次數(shù)
delay_before_retry 2                                     #重連間隔
} # END OF HTTP_GET|SSL_GET

#下面是常用的健康檢查方式，健康檢查方式一共有HTTP_GET|SSL_GET|TCP_CHECK|SMTP_CHECK|MISC_CHECK這些
#TCP方式
TCP_CHECK {
connect_port 80
bindto 192.168.1.1
connect_timeout 4
} # TCP_CHECK

# SMTP方式，這個(gè)可以用來給郵件服務(wù)器做集群
SMTP_CHECK
host {
connect_ip <IP ADDRESS>
connect_port <PORT>                                  #默認(rèn)檢查25端口
14 KEEPALIVED
bindto <IP ADDRESS>
}
connect_timeout <INTEGER>
retry <INTEGER>
delay_before_retry <INTEGER>
# "smtp HELO"?|·-?ê§?à"
helo_name <STRING>|<QUOTED-STRING>
} #SMTP_CHECK

#MISC方式，這個(gè)可以用來檢查很多服務(wù)器只需要自己會些腳本即可
MISC_CHECK
{
misc_path <STRING>|<QUOTED-STRING> #外部程序或腳本
misc_timeout <INT>                                  #腳本或程序執(zhí)行超時(shí)時(shí)間

misc_dynamic                                              #這個(gè)就很好用了，可以非常精確的來調(diào)整權(quán)重，是后端每天服務(wù)器的壓力都能均衡調(diào)配，這個(gè)主要是通過執(zhí)行的程序或腳本返回的狀態(tài)代碼來動態(tài)調(diào)整weight值，使權(quán)重根據(jù)真實(shí)的后端壓力來適當(dāng)調(diào)整，不過這需要有過硬的腳本功夫才行哦
#返回0：健康檢查沒問題，不修改權(quán)重
#返回1：健康檢查失敗，權(quán)重設(shè)置為0
#返回2-255：健康檢查沒問題，但是權(quán)重卻要根據(jù)返回代碼修改為返回碼-2，例如如果程序或腳本執(zhí)行后返回的代碼為200，#那么權(quán)重這回被修改為 200-2
}
} # Realserver
} # Virtual Server

配置文件到此就講完了，下面是一份未加備注的完整配置文件

global_defs

{

notification_email

{

admin@example.com

}

notification_email_from admin@example.com

smtp_server 127.0.0.1

stmp_connect_timeout 30

router_id node1

}

notification_email

{

admin@example.com

admin@

}

static_ipaddress

{

192.168.1.1/24 brd + dev eth0 scope global

192.168.1.2/24 brd + dev eth1 scope global

}

static_routes

{

src $SRC_IP to $DST_IP dev $SRC_DEVICE

src $SRC_IP to $DST_IP via $GW dev $SRC_DEVICE

}

vrrp_sync_group VG_1 {

group {

http

mysql

}

notify_master /path/to/to_master.sh

notify_backup /path_to/to_backup.sh

notify_fault "/path/fault.sh VG_1"

notify /path/to/notify.sh

smtp_alert

}

group {

http

mysql

}

vrrp_script check_running {

script "/usr/local/bin/check_running"

interval 10

weight 10

}

vrrp_instance http {

state MASTER

interface eth0

dont_track_primary

track_interface {

eth0

eth1

}

mcast_src_ip <IPADDR>

garp_master_delay 10

virtual_router_id 51

priority 100

advert_int 1

authentication {

auth_type PASS

autp_pass 1234

}

virtual_ipaddress {

#<IPADDR>/<MASK> brd <IPADDR> dev <STRING> scope <SCOPT> label <LABEL>

192.168.200.17/24 dev eth1

192.168.200.18/24 dev eth2 label eth2:1

}

virtual_routes {

# src <IPADDR> [to] <IPADDR>/<MASK> via|gw <IPADDR> dev <STRING> scope <SCOPE> tab

src 192.168.100.1 to 192.168.109.0/24 via 192.168.200.254 dev eth1

192.168.110.0/24 via 192.168.200.254 dev eth1

192.168.111.0/24 dev eth2

192.168.112.0/24 via 192.168.100.254

}

track_script {

check_running weight 20

}

nopreempt

preemtp_delay 300

debug

}

virtual_server_group <STRING> {

# VIP port

<IPADDR> <PORT>

<IPADDR> <PORT>

fwmark <INT>

}

virtual_server 192.168.1.2 80 {

delay_loop 3

lb_algo rr|wrr|lc|wlc|lblc|sh|dh

lb_kind NAT|DR|TUN

persistence_timeout 120

persistence_granularity <NETMASK>

protocol TCP

ha_suspend

virtualhost <string>

sorry_server <IPADDR> <PORT>

real_server <IPADDR> <PORT>

{

weight 1

inhibit_on_failure

notify_up <STRING> | <QUOTED-STRING>

notify_down <STRING> | <QUOTED-STRING>

#HTTP_GET方式

HTTP_GET | SSL_GET

{

url {

path /

digest <STRING>

status_code 200

}

connect_port 80

bindto <IPADD>

connect_timeout 3

nb_get_retry 3

delay_before_retry 2

}

}

}
復(fù)制代碼
注意，這里僅僅是羅列，并不是可用的配置文件。里面需要根據(jù)自己的時(shí)間情況稍加配置才能用
在下面我會根據(jù)實(shí)際的需求給出我平時(shí)的配置案例，在二樓三樓四樓分別給出三個(gè)案例

http://bbs./thread-845-1-1.html

其實(shí)這篇文章應(yīng)該算不上原創(chuàng)，因?yàn)檫@里只給大家提供一個(gè)下載地址：
最近公司要啟動負(fù)載均衡找了很多開源的工具后發(fā)現(xiàn) keepalived +LVS 配置簡單功能強(qiáng)大，很適合我們的需要，而且之前也做過他的實(shí)驗(yàn)，于是就采用了他。在 www. 官網(wǎng)上尋找?guī)椭臅r(shí)候發(fā)現(xiàn)了田逸老師寫的手冊，呵呵感覺有點(diǎn)驚喜。田老師說:"你怎么才發(fā)現(xiàn)啊~~"
文章寫的很詳細(xì)，不過有些地方也有些疏漏，比如在編譯的時(shí)候需要編譯進(jìn)內(nèi)核才會出現(xiàn) Use IPVS Framework : Yes 編譯時(shí)候需要加一個(gè)參數(shù) --with-kernel-dir=/usr/src/kernels/2.6.18-128.el5-x86_64/ 這個(gè)目錄根據(jù)操作系統(tǒng)自定義，不過我還是弄不清楚不這樣為什么lvs會出問題，而且我即使不加他 lvs似乎也能正常使用...
好了，不多說了，直接把下載鏈接貼出來希望對大家能有所幫助
http://www./sery-lvs-cluster.pdf

本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：用勿龍潛 > 《keepalived》

舉報(bào)/認(rèn)領(lǐng)