Redis和Memcached的區(qū)別 | 標(biāo)點(diǎn)符

念念爸 2016-07-22

展開全文

常用命令：sadd/spop/smembers/sunion等；
應(yīng)用場景：Redis set對外提供的功能與list類似是一個列表的功能，特殊之處在于set是可以自動排重的，當(dāng)你需要存儲一個列表數(shù)據(jù)，又不希望出現(xiàn)重復(fù)數(shù)據(jù)時，set是一個很好的選擇，并且set提供了判斷某個成員是否在一個set集合內(nèi)的重要接口，這個也是list所不能提供的；
實(shí)現(xiàn)方式：set 的內(nèi)部實(shí)現(xiàn)是一個 value永遠(yuǎn)為null的HashMap，實(shí)際就是通過計(jì)算hash的方式來快速排重的，這也是set能提供判斷一個成員是否在集合內(nèi)的原因。

5）Sorted Set

常用命令：zadd/zrange/zrem/zcard等；
應(yīng)用場景：Redis sorted set的使用場景與set類似，區(qū)別是set不是自動有序的，而sorted set可以通過用戶額外提供一個優(yōu)先級(score)的參數(shù)來為成員排序，并且是插入有序的，即自動排序。當(dāng)你需要一個有序的并且不重復(fù)的集合列表，那么可以選擇sorted set數(shù)據(jù)結(jié)構(gòu)，比如twitter 的public timeline可以以發(fā)表時間作為score來存儲，這樣獲取時就是自動按時間排好序的。
實(shí)現(xiàn)方式：Redis sorted set的內(nèi)部使用HashMap和跳躍表(SkipList)來保證數(shù)據(jù)的存儲和有序，HashMap里放的是成員到score的映射，而跳躍表里存放的是所有的成員，排序依據(jù)是HashMap里存的score,使用跳躍表的結(jié)構(gòu)可以獲得比較高的查找效率，并且在實(shí)現(xiàn)上比較簡單。

2、內(nèi)存管理機(jī)制不同

在Redis中，并不是所有的數(shù)據(jù)都一直存儲在內(nèi)存中的。這是和Memcached相比一個最大的區(qū)別。當(dāng)物理內(nèi)存用完時，Redis可以將一些很久沒用到的value交換到磁盤。Redis只會緩存所有的key的信息，如果Redis發(fā)現(xiàn)內(nèi)存的使用量超過了某一個閥值，將觸發(fā)swap的操作，Redis根據(jù)“swappability = age*log(size_in_memory)”計(jì)算出哪些key對應(yīng)的value需要swap到磁盤。然后再將這些key對應(yīng)的value持久化到磁盤中，同時在內(nèi)存中清除。這種特性使得Redis可以保持超過其機(jī)器本身內(nèi)存大小的數(shù)據(jù)。當(dāng)然，機(jī)器本身的內(nèi)存必須要能夠保持所有的key，畢竟這些數(shù)據(jù)是不會進(jìn)行swap操作的。同時由于Redis將內(nèi)存中的數(shù)據(jù)swap到磁盤中的時候，提供服務(wù)的主線程和進(jìn)行swap操作的子線程會共享這部分內(nèi)存，所以如果更新需要swap的數(shù)據(jù)，Redis將阻塞這個操作，直到子線程完成swap操作后才可以進(jìn)行修改。當(dāng)從Redis中讀取數(shù)據(jù)的時候，如果讀取的key對應(yīng)的value不在內(nèi)存中，那么Redis就需要從swap文件中加載相應(yīng)數(shù)據(jù)，然后再返回給請求方。這里就存在一個I/O線程池的問題。在默認(rèn)的情況下，Redis會出現(xiàn)阻塞，即完成所有的swap文件加載后才會相應(yīng)。這種策略在客戶端的數(shù)量較小，進(jìn)行批量操作的時候比較合適。但是如果將Redis應(yīng)用在一個大型的網(wǎng)站應(yīng)用程序中，這顯然是無法滿足大并發(fā)的情況的。所以Redis運(yùn)行我們設(shè)置I/O線程池的大小，對需要從swap文件中加載相應(yīng)數(shù)據(jù)的讀取請求進(jìn)行并發(fā)操作，減少阻塞的時間。

對于像Redis和Memcached這種基于內(nèi)存的數(shù)據(jù)庫系統(tǒng)來說，內(nèi)存管理的效率高低是影響系統(tǒng)性能的關(guān)鍵因素。傳統(tǒng)C語言中的malloc/free函數(shù)是最常用的分配和釋放內(nèi)存的方法，但是這種方法存在著很大的缺陷：首先，對于開發(fā)人員來說不匹配的malloc和free容易造成內(nèi)存泄露；其次頻繁調(diào)用會造成大量內(nèi)存碎片無法回收重新利用，降低內(nèi)存利用率；最后作為系統(tǒng)調(diào)用，其系統(tǒng)開銷遠(yuǎn)遠(yuǎn)大于一般函數(shù)調(diào)用。所以，為了提高內(nèi)存的管理效率，高效的內(nèi)存管理方案都不會直接使用malloc/free調(diào)用。Redis和Memcached均使用了自身設(shè)計(jì)的內(nèi)存管理機(jī)制，但是實(shí)現(xiàn)方法存在很大的差異，下面將會對兩者的內(nèi)存管理機(jī)制分別進(jìn)行介紹。

Memcached默認(rèn)使用Slab Allocation機(jī)制管理內(nèi)存，其主要思想是按照預(yù)先規(guī)定的大小，將分配的內(nèi)存分割成特定長度的塊以存儲相應(yīng)長度的key-value數(shù)據(jù)記錄，以完全解決內(nèi)存碎片問題。Slab Allocation機(jī)制只為存儲外部數(shù)據(jù)而設(shè)計(jì)，也就是說所有的key-value數(shù)據(jù)都存儲在Slab Allocation系統(tǒng)里，而Memcached的其它內(nèi)存請求則通過普通的malloc/free來申請，因?yàn)檫@些請求的數(shù)量和頻率決定了它們不會對整個系統(tǒng)的性能造成影響Slab Allocation的原理相當(dāng)簡單。如圖所示，它首先從操作系統(tǒng)申請一大塊內(nèi)存，并將其分割成各種尺寸的塊Chunk，并把尺寸相同的塊分成組Slab Class。其中，Chunk就是用來存儲key-value數(shù)據(jù)的最小單位。每個Slab Class的大小，可以在Memcached啟動的時候通過制定Growth Factor來控制。假定圖中Growth Factor的取值為1.25，如果第一組Chunk的大小為88個字節(jié)，第二組Chunk的大小就為112個字節(jié)，依此類推。

當(dāng)Memcached接收到客戶端發(fā)送過來的數(shù)據(jù)時首先會根據(jù)收到數(shù)據(jù)的大小選擇一個最合適的Slab Class，然后通過查詢Memcached保存著的該Slab Class內(nèi)空閑Chunk的列表就可以找到一個可用于存儲數(shù)據(jù)的Chunk。當(dāng)一條數(shù)據(jù)庫過期或者丟棄時，該記錄所占用的Chunk就可以回收，重新添加到空閑列表中。從以上過程我們可以看出Memcached的內(nèi)存管理制效率高，而且不會造成內(nèi)存碎片，但是它最大的缺點(diǎn)就是會導(dǎo)致空間浪費(fèi)。因?yàn)槊總€Chunk都分配了特定長度的內(nèi)存空間，所以變長數(shù)據(jù)無法充分利用這些空間。如圖所示，將100個字節(jié)的數(shù)據(jù)緩存到128個字節(jié)的Chunk中，剩余的28個字節(jié)就浪費(fèi)掉了。

Redis的內(nèi)存管理主要通過源碼中zmalloc.h和zmalloc.c兩個文件來實(shí)現(xiàn)的。Redis為了方便內(nèi)存的管理，在分配一塊內(nèi)存之后，會將這塊內(nèi)存的大小存入內(nèi)存塊的頭部。如圖所示，real_ptr是redis調(diào)用malloc后返回的指針。redis將內(nèi)存塊的大小size存入頭部，size所占據(jù)的內(nèi)存大小是已知的，為size_t類型的長度，然后返回ret_ptr。當(dāng)需要釋放內(nèi)存的時候，ret_ptr被傳給內(nèi)存管理程序。通過ret_ptr，程序可以很容易的算出real_ptr的值，然后將real_ptr傳給free釋放內(nèi)存。

Redis通過定義一個數(shù)組來記錄所有的內(nèi)存分配情況，這個數(shù)組的長度為ZMALLOC_MAX_ALLOC_STAT。數(shù)組的每一個元素代表當(dāng)前程序所分配的內(nèi)存塊的個數(shù)，且內(nèi)存塊的大小為該元素的下標(biāo)。在源碼中，這個數(shù)組為zmalloc_allocations。zmalloc_allocations[16]代表已經(jīng)分配的長度為16bytes的內(nèi)存塊的個數(shù)。zmalloc.c中有一個靜態(tài)變量used_memory用來記錄當(dāng)前分配的內(nèi)存總大小。所以，總的來看，Redis采用的是包裝的mallc/free，相較于Memcached的內(nèi)存管理方法來說，要簡單很多。

3、數(shù)據(jù)持久化支持

Redis雖然是基于內(nèi)存的存儲系統(tǒng)，但是它本身是支持內(nèi)存數(shù)據(jù)的持久化的，而且提供兩種主要的持久化策略：RDB快照和AOF日志。而memcached是不支持?jǐn)?shù)據(jù)持久化操作的。

1）RDB快照

Redis支持將當(dāng)前數(shù)據(jù)的快照存成一個數(shù)據(jù)文件的持久化機(jī)制，即RDB快照。但是一個持續(xù)寫入的數(shù)據(jù)庫如何生成快照呢？Redis借助了fork命令的copy on write機(jī)制。在生成快照時，將當(dāng)前進(jìn)程fork出一個子進(jìn)程，然后在子進(jìn)程中循環(huán)所有的數(shù)據(jù)，將數(shù)據(jù)寫成為RDB文件。我們可以通過Redis的save指令來配置RDB快照生成的時機(jī)，比如配置10分鐘就生成快照，也可以配置有1000次寫入就生成快照，也可以多個規(guī)則一起實(shí)施。這些規(guī)則的定義就在Redis的配置文件中，你也可以通過Redis的CONFIG SET命令在Redis運(yùn)行時設(shè)置規(guī)則，不需要重啟Redis。

Redis的RDB文件不會壞掉，因?yàn)槠鋵懖僮魇窃谝粋€新進(jìn)程中進(jìn)行的，當(dāng)生成一個新的RDB文件時，Redis生成的子進(jìn)程會先將數(shù)據(jù)寫到一個臨時文件中，然后通過原子性rename系統(tǒng)調(diào)用將臨時文件重命名為RDB文件，這樣在任何時候出現(xiàn)故障，Redis的RDB文件都總是可用的。同時，Redis的RDB文件也是Redis主從同步內(nèi)部實(shí)現(xiàn)中的一環(huán)。RDB有他的不足，就是一旦數(shù)據(jù)庫出現(xiàn)問題，那么我們的RDB文件中保存的數(shù)據(jù)并不是全新的，從上次RDB文件生成到Redis停機(jī)這段時間的數(shù)據(jù)全部丟掉了。在某些業(yè)務(wù)下，這是可以忍受的。

2）AOF日志

AOF日志的全稱是append only file，它是一個追加寫入的日志文件。與一般數(shù)據(jù)庫的binlog不同的是，AOF文件是可識別的純文本，它的內(nèi)容就是一個個的Redis標(biāo)準(zhǔn)命令。只有那些會導(dǎo)致數(shù)據(jù)發(fā)生修改的命令才會追加到AOF文件。每一條修改數(shù)據(jù)的命令都生成一條日志，AOF文件會越來越大，所以Redis又提供了一個功能，叫做AOF rewrite。其功能就是重新生成一份AOF文件，新的AOF文件中一條記錄的操作只會有一次，而不像一份老文件那樣，可能記錄了對同一個值的多次操作。其生成過程和RDB類似，也是fork一個進(jìn)程，直接遍歷數(shù)據(jù)，寫入新的AOF臨時文件。在寫入新文件的過程中，所有的寫操作日志還是會寫到原來老的AOF文件中，同時還會記錄在內(nèi)存緩沖區(qū)中。當(dāng)重完操作完成后，會將所有緩沖區(qū)中的日志一次性寫入到臨時文件中。然后調(diào)用原子性的rename命令用新的AOF文件取代老的AOF文件。

AOF是一個寫文件操作，其目的是將操作日志寫到磁盤上，所以它也同樣會遇到我們上面說的寫操作的流程。在Redis中對AOF調(diào)用write寫入后，通過appendfsync選項(xiàng)來控制調(diào)用fsync將其寫到磁盤上的時間，下面appendfsync的三個設(shè)置項(xiàng)，安全強(qiáng)度逐漸變強(qiáng)。

appendfsync no 當(dāng)設(shè)置appendfsync為no的時候，Redis不會主動調(diào)用fsync去將AOF日志內(nèi)容同步到磁盤，所以這一切就完全依賴于操作系統(tǒng)的調(diào)試了。對大多數(shù)Linux操作系統(tǒng)，是每30秒進(jìn)行一次fsync，將緩沖區(qū)中的數(shù)據(jù)寫到磁盤上。
appendfsync everysec 當(dāng)設(shè)置appendfsync為everysec的時候，Redis會默認(rèn)每隔一秒進(jìn)行一次fsync調(diào)用，將緩沖區(qū)中的數(shù)據(jù)寫到磁盤。但是當(dāng)這一次的fsync調(diào)用時長超過1秒時。Redis會采取延遲fsync的策略，再等一秒鐘。也就是在兩秒后再進(jìn)行fsync，這一次的fsync就不管會執(zhí)行多長時間都會進(jìn)行。這時候由于在fsync時文件描述符會被阻塞，所以當(dāng)前的寫操作就會阻塞。所以結(jié)論就是，在絕大多數(shù)情況下，Redis會每隔一秒進(jìn)行一次fsync。在最壞的情況下，兩秒鐘會進(jìn)行一次fsync操作。這一操作在大多數(shù)數(shù)據(jù)庫系統(tǒng)中被稱為group commit，就是組合多次寫操作的數(shù)據(jù)，一次性將日志寫到磁盤。
appednfsync always 當(dāng)設(shè)置appendfsync為always時，每一次寫操作都會調(diào)用一次fsync，這時數(shù)據(jù)是最安全的，當(dāng)然，由于每次都會執(zhí)行fsync，所以其性能也會受到影響。

對于一般性的業(yè)務(wù)需求，建議使用RDB的方式進(jìn)行持久化，原因是RDB的開銷并相比AOF日志要低很多，對于那些無法忍數(shù)據(jù)丟失的應(yīng)用，建議使用AOF日志。

4、集群管理的不同

Memcached是全內(nèi)存的數(shù)據(jù)緩沖系統(tǒng)，Redis雖然支持?jǐn)?shù)據(jù)的持久化，但是全內(nèi)存畢竟才是其高性能的本質(zhì)。作為基于內(nèi)存的存儲系統(tǒng)來說，機(jī)器物理內(nèi)存的大小就是系統(tǒng)能夠容納的最大數(shù)據(jù)量。如果需要處理的數(shù)據(jù)量超過了單臺機(jī)器的物理內(nèi)存大小，就需要構(gòu)建分布式集群來擴(kuò)展存儲能力。

Memcached本身并不支持分布式，因此只能在客戶端通過像一致性哈希這樣的分布式算法來實(shí)現(xiàn)Memcached的分布式存儲。下圖給出了Memcached的分布式存儲實(shí)現(xiàn)架構(gòu)。當(dāng)客戶端向Memcached集群發(fā)送數(shù)據(jù)之前，首先會通過內(nèi)置的分布式算法計(jì)算出該條數(shù)據(jù)的目標(biāo)節(jié)點(diǎn)，然后數(shù)據(jù)會直接發(fā)送到該節(jié)點(diǎn)上存儲。但客戶端查詢數(shù)據(jù)時，同樣要計(jì)算出查詢數(shù)據(jù)所在的節(jié)點(diǎn)，然后直接向該節(jié)點(diǎn)發(fā)送查詢請求以獲取數(shù)據(jù)。

相較于Memcached只能采用客戶端實(shí)現(xiàn)分布式存儲，Redis更偏向于在服務(wù)器端構(gòu)建分布式存儲。最新版本的Redis已經(jīng)支持了分布式存儲功能。Redis Cluster是一個實(shí)現(xiàn)了分布式且允許單點(diǎn)故障的Redis高級版本，它沒有中心節(jié)點(diǎn)，具有線性可伸縮的功能。下圖給出Redis Cluster的分布式存儲架構(gòu)，其中節(jié)點(diǎn)與節(jié)點(diǎn)之間通過二進(jìn)制協(xié)議進(jìn)行通信，節(jié)點(diǎn)與客戶端之間通過ascii協(xié)議進(jìn)行通信。在數(shù)據(jù)的放置策略上，Redis Cluster將整個key的數(shù)值域分成4096個哈希槽，每個節(jié)點(diǎn)上可以存儲一個或多個哈希槽，也就是說當(dāng)前Redis Cluster支持的最大節(jié)點(diǎn)數(shù)就是4096。Redis Cluster使用的分布式算法也很簡單：crc16( key ) % HASH_SLOTS_NUMBER。

為了保證單點(diǎn)故障下的數(shù)據(jù)可用性，Redis Cluster引入了Master節(jié)點(diǎn)和Slave節(jié)點(diǎn)。在Redis Cluster中，每個Master節(jié)點(diǎn)都會有對應(yīng)的兩個用于冗余的Slave節(jié)點(diǎn)。這樣在整個集群中，任意兩個節(jié)點(diǎn)的宕機(jī)都不會導(dǎo)致數(shù)據(jù)的不可用。當(dāng)Master節(jié)點(diǎn)退出后，集群會自動選擇一個Slave節(jié)點(diǎn)成為新的Master節(jié)點(diǎn)。

參考資料：

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：念念爸 > 《數(shù)據(jù)庫》

舉報(bào)/認(rèn)領(lǐng)