開(kāi)頭:本文由 dbaplus 社群授權(quán)轉(zhuǎn)載。 一、限流的作用由于 API 接口無(wú)法控制調(diào)用方的行為,因此當(dāng)遇到瞬時(shí)請(qǐng)求量激增時(shí),會(huì)導(dǎo)致接口占用過(guò)多服務(wù)器資源,使得其他請(qǐng)求響應(yīng)速度降低或是超時(shí),更有甚者可能導(dǎo)致服務(wù)器宕機(jī)。 限流(Ratelimiting)指對(duì)應(yīng)用服務(wù)的請(qǐng)求進(jìn)行限制,例如某一接口的請(qǐng)求限制為 100 個(gè)每秒,對(duì)超過(guò)限制的請(qǐng)求則進(jìn)行快速失敗或丟棄。 限流可以應(yīng)對(duì):
因此,對(duì)于公開(kāi)的接口最好采取限流措施。 二、為什么要分布式限流![]() 當(dāng)應(yīng)用為單點(diǎn)應(yīng)用時(shí),只要應(yīng)用進(jìn)行了限流,那么應(yīng)用所依賴的各種服務(wù)也都得到了保護(hù)。 ![]() 但線上業(yè)務(wù)出于各種原因考慮,多是分布式系統(tǒng),單節(jié)點(diǎn)的限流僅能保護(hù)自身節(jié)點(diǎn),但無(wú)法保護(hù)應(yīng)用依賴的各種服務(wù),并且在進(jìn)行節(jié)點(diǎn)擴(kuò)容、縮容時(shí)也無(wú)法準(zhǔn)確控制整個(gè)服務(wù)的請(qǐng)求限制。 ![]() 而如果實(shí)現(xiàn)了分布式限流,那么就可以方便地控制整個(gè)服務(wù)集群的請(qǐng)求限制,且由于整個(gè)集群的請(qǐng)求數(shù)量得到了限制,因此服務(wù)依賴的各種資源也得到了限流的保護(hù)。 三、限流的算法實(shí)現(xiàn)限流有很多辦法,在程序中時(shí)通常是根據(jù)每秒處理的事務(wù)數(shù)(Transactionpersecond)來(lái)衡量接口的流量。 本文介紹幾種最常用的限流算法:
1、固定窗口計(jì)數(shù)器算法![]() 固定窗口計(jì)數(shù)器算法概念如下:
固定窗口計(jì)數(shù)器是最為簡(jiǎn)單的算法,但這個(gè)算法有時(shí)會(huì)讓通過(guò)請(qǐng)求量允許為限制的兩倍??紤]如下情況:限制 1 秒內(nèi)最多通過(guò) 5 個(gè)請(qǐng)求,在第一個(gè)窗口的最后半秒內(nèi)通過(guò)了 5 個(gè)請(qǐng)求,第二個(gè)窗口的前半秒內(nèi)又通過(guò)了 5 個(gè)請(qǐng)求。這樣看來(lái)就是在 1 秒內(nèi)通過(guò)了 10 個(gè)請(qǐng)求。 ![]() 2、滑動(dòng)窗口計(jì)數(shù)器算法![]() 滑動(dòng)窗口計(jì)數(shù)器算法概念如下:
滑動(dòng)窗口計(jì)數(shù)器是通過(guò)將窗口再細(xì)分,并且按照時(shí)間"滑動(dòng)",這種算法避免了固定窗口計(jì)數(shù)器帶來(lái)的雙倍突發(fā)請(qǐng)求,但時(shí)間區(qū)間的精度越高,算法所需的空間容量就越大。 3、漏桶算法![]() 漏桶算法概念如下:
漏桶算法多使用隊(duì)列實(shí)現(xiàn),服務(wù)的請(qǐng)求會(huì)存到隊(duì)列中,服務(wù)的提供方則按照固定的速率從隊(duì)列中取出請(qǐng)求并執(zhí)行,過(guò)多的請(qǐng)求則放在隊(duì)列中排隊(duì)或直接拒絕。 漏桶算法的缺陷也很明顯,當(dāng)短時(shí)間內(nèi)有大量的突發(fā)請(qǐng)求時(shí),即便此時(shí)服務(wù)器沒(méi)有任何負(fù)載,每個(gè)請(qǐng)求也都得在隊(duì)列中等待一段時(shí)間才能被響應(yīng)。 4、令牌桶算法![]() 令牌桶算法概念如下:
令牌桶算法既能夠?qū)⑺械恼?qǐng)求平均分布到時(shí)間區(qū)間內(nèi),又能接受服務(wù)器能夠承受范圍內(nèi)的突發(fā)請(qǐng)求,因此是目前使用較為廣泛的一種限流算法。 四、代碼實(shí)現(xiàn)作為如此重要的功能,在 Java 中自然有很多實(shí)現(xiàn)限流的類(lèi)庫(kù),例如 Google 的開(kāi)源項(xiàng)目 guava 提供了 RateLimiter 類(lèi),實(shí)現(xiàn)了單點(diǎn)的令牌桶限流。 而分布式限流常用的則有 Hystrix、resilience4j、Sentinel 等框架,但這些框架都需引入第三方的類(lèi)庫(kù),對(duì)于國(guó)企等一些保守的企業(yè),引入外部類(lèi)庫(kù)都需要經(jīng)過(guò)層層審批,較為麻煩。 分布式限流本質(zhì)上是一個(gè)集群并發(fā)問(wèn)題,而 Redis 作為一個(gè)應(yīng)用廣泛的中間件,又擁有單進(jìn)程單線程的特性,天然可以解決分布式集群的并發(fā)問(wèn)題。本文簡(jiǎn)單介紹一個(gè)通過(guò) Redis 實(shí)現(xiàn)單次請(qǐng)求判斷限流的功能。 1、腳本編寫(xiě)經(jīng)過(guò)上面的對(duì)比,最適合的限流算法就是令牌桶算法。而為實(shí)現(xiàn)限流算法,需要反復(fù)調(diào)用 Redis 查詢與計(jì)算,一次限流判斷需要多次請(qǐng)求較為耗時(shí)。因此我們采用編寫(xiě) Lua 腳本運(yùn)行的方式,將運(yùn)算過(guò)程放在 Redis 端,使得對(duì) Redis 進(jìn)行一次請(qǐng)求就能完成限流的判斷。 令牌桶算法需要在 Redis 中存儲(chǔ)桶的大小、當(dāng)前令牌數(shù)量,并且實(shí)現(xiàn)每隔一段時(shí)間添加新的令牌。最簡(jiǎn)單的辦法當(dāng)然是每隔一段時(shí)間請(qǐng)求一次 Redis,將存儲(chǔ)的令牌數(shù)量遞增。 但實(shí)際上我們可以通過(guò)對(duì)限流兩次請(qǐng)求之間的時(shí)間和令牌添加速度來(lái)計(jì)算得出上次請(qǐng)求之后到本次請(qǐng)求時(shí),令牌桶應(yīng)添加的令牌數(shù)量。因此我們?cè)?Redis 中只需要存儲(chǔ)上次請(qǐng)求的時(shí)間和令牌桶中的令牌數(shù)量,而桶的大小和令牌的添加速度可以通過(guò)參數(shù)傳入實(shí)現(xiàn)動(dòng)態(tài)修改。 由于第一次運(yùn)行腳本時(shí)默認(rèn)令牌桶是滿的,因此可以將數(shù)據(jù)的過(guò)期時(shí)間設(shè)置為令牌桶恢復(fù)到滿所需的時(shí)間,及時(shí)釋放資源。 編寫(xiě)完成的 Lua 腳本如下:
復(fù)制代碼 2、執(zhí)行限流這里使用 SpringDataRedis 來(lái)進(jìn)行 Redis 腳本的調(diào)用。 編寫(xiě) Redis 腳本類(lèi):
復(fù)制代碼 通過(guò) RedisTemplate 對(duì)象執(zhí)行腳本:
復(fù)制代碼 rateLimit 方法傳入的 key 為限流接口的 ID,max 為令牌桶的最大大小,rate 為每秒鐘恢復(fù)的令牌數(shù)量,返回的 boolean 即為此次請(qǐng)求是否通過(guò)了限流。為了測(cè)試 Redis 腳本限流是否可以正常工作,我們編寫(xiě)一個(gè)單元測(cè)試進(jìn)行測(cè)試看看。 復(fù)制代碼 設(shè)置令牌桶大小為 10,令牌桶每秒恢復(fù) 10 個(gè),啟動(dòng) 10 個(gè)線程在短時(shí)間內(nèi)進(jìn)行 30 次請(qǐng)求,并輸出每次限流查詢的結(jié)果。日志輸出: 復(fù)制代碼 可以看到,在 0.1 秒內(nèi)請(qǐng)求的 30 次請(qǐng)求中,除了初始的 10 個(gè)令牌以及隨時(shí)間恢復(fù)的 1 個(gè)令牌外,剩下 19 個(gè)沒(méi)有取得令牌的請(qǐng)求均返回了 false,限流腳本正確的將超過(guò)限制的請(qǐng)求給判斷出來(lái)了,業(yè)務(wù)中此時(shí)就可以直接返回系統(tǒng)繁忙或接口請(qǐng)求太過(guò)頻繁等提示。 3、開(kāi)發(fā)中遇到的問(wèn)題1)Lua 變量格式 Lua 中的 String 和 Number 需要通過(guò) tonumber()和 tostring()進(jìn)行轉(zhuǎn)換。 2)Redis 入?yún)?/strong> Redis 的 pexpire 等命令不支持小數(shù),但 Lua 的 Number 類(lèi)型可以存放小數(shù),因此 Number 類(lèi)型傳遞給 Redis 時(shí)最好通過(guò) math.ceil()等方式轉(zhuǎn)換以避免存在小數(shù)導(dǎo)致命令失敗。 3)Time 命令 由于 Redis 在集群下是通過(guò)復(fù)制腳本及參數(shù)到所有節(jié)點(diǎn)上,因此無(wú)法在具有不確定性的命令后面執(zhí)行寫(xiě)入命令,因此只能請(qǐng)求時(shí)傳入時(shí)間而無(wú)法使用 Redis 的 Time 命令獲取時(shí)間。 3.2 版本之后的 Redis 腳本支持 redis.replicate_commands(),可以改為使用 Time 命令獲取當(dāng)前時(shí)間。 4)潛在的隱患 由于此 Lua 腳本是通過(guò)請(qǐng)求時(shí)傳入的時(shí)間做計(jì)算,因此務(wù)必保證分布式節(jié)點(diǎn)上獲取的時(shí)間同步,如果時(shí)間不同步會(huì)導(dǎo)致限流無(wú)法正常運(yùn)作。 作者介紹: 段然,甜橙金融創(chuàng)新中心開(kāi)發(fā)工程師,目前負(fù)責(zé)公司平臺(tái)化建設(shè)及媒介能力聚合。 原文鏈接: |
|