實(shí)現(xiàn)原理
鎖分離 (Lock Stripping)
ConcurrentHashMap 允許多個(gè)修改操作并發(fā)進(jìn)行,其關(guān)鍵在于使用了鎖分離技術(shù)。它使用了多個(gè)鎖來(lái)控制對(duì)hash表的不同部分進(jìn)行的修改。ConcurrentHashMap內(nèi) 部使用段(Segment)來(lái)表示這些不同的部分,每個(gè)段其實(shí)就是一個(gè)小的hash table,它們有自己的鎖。只要多個(gè)修改操作發(fā)生在不同的段上,它們就可以并發(fā)進(jìn)行。
有些方法需要跨段,比如size()和 containsValue(),它們可能需要鎖定整個(gè)表而而不僅僅是某個(gè)段,這需要按順序鎖定所有段,操作完畢后,又按順序釋放所有段的鎖。這里“按順 序”是很重要的,否則極有可能出現(xiàn)死鎖,在ConcurrentHashMap內(nèi)部,段數(shù)組是final的,并且其成員變量實(shí)際上也是final的,但 是,僅僅是將數(shù)組聲明為final的并不保證數(shù)組成員也是final的,這需要實(shí)現(xiàn)上的保證。這可以確保不會(huì)出現(xiàn)死鎖,因?yàn)楂@得鎖的順序是固定的。不變性 是多線程編程占有很重要的地位,下面還要談到。
/**
* The segments, each of which is a specialized hash table
*/
final Segment<K,V>[] segments;
不變(Immutable)和易變(Volatile)
ConcurrentHashMap 完全允許多個(gè)讀操作并發(fā)進(jìn)行,讀操作并不需要加鎖。如果使用傳統(tǒng)的技術(shù),如HashMap中的實(shí)現(xiàn),如果允許可以在hash鏈的中間添加或刪除元素,讀操 作不加鎖將得到不一致的數(shù)據(jù)。ConcurrentHashMap實(shí)現(xiàn)技術(shù)是保證HashEntry幾乎是不可變的。HashEntry代表每個(gè)hash 鏈中的一個(gè)節(jié)點(diǎn),其結(jié)構(gòu)如下所示:
1. static final class HashEntry<K,V> {
2. final K key;
3. final int hash;
4. volatile V value;
5. final HashEntry<K,V> next;
6. }
可 以看到除了value不是final的,其它值都是final的,這意味著不能從hash鏈的中間或尾部添加或刪除節(jié)點(diǎn),因?yàn)檫@需要修改next 引用值,所有的節(jié)點(diǎn)的修改只能從頭部開始。對(duì)于put操作,可以一律添加到Hash鏈的頭部。但是對(duì)于remove操作,可能需要從中間刪除一個(gè)節(jié)點(diǎn),這 就需要將要?jiǎng)h除節(jié)點(diǎn)的前面所有節(jié)點(diǎn)整個(gè)復(fù)制一遍,最后一個(gè)節(jié)點(diǎn)指向要?jiǎng)h除結(jié)點(diǎn)的下一個(gè)結(jié)點(diǎn)。這在講解刪除操作時(shí)還會(huì)詳述。為了確保讀操作能夠看到最新的 值,將value設(shè)置成volatile,這避免了加鎖。
其它
為了加快定位段以及段中hash槽的速度,每個(gè)段hash槽的的個(gè)數(shù)都是 2^n,這使得通過(guò)位運(yùn)算就可以定位段和段中hash槽的位置。當(dāng)并發(fā)級(jí)別為默認(rèn)值16時(shí),也就是段的個(gè)數(shù),hash值的高4位決定分配在哪個(gè)段中。但是 我們也不要忘記《算法導(dǎo)論》給我們的教訓(xùn):hash槽的的個(gè)數(shù)不應(yīng)該是 2^n,這可能導(dǎo)致hash槽分配不均,這需要對(duì)hash值重新再hash一次。(這段似乎有點(diǎn)多余了 )
這是定位段的方法:
1. final Segment<K,V> segmentFor(int hash) {
2. return segments[(hash >>> segmentShift) & segmentMask];
3. }
數(shù)據(jù)結(jié)構(gòu)
關(guān) 于Hash表的基礎(chǔ)數(shù)據(jù)結(jié)構(gòu),這里不想做過(guò)多的探討。Hash表的一個(gè)很重要方面就是如何解決hash沖突,ConcurrentHashMap 和HashMap使用相同的方式,都是將hash值相同的節(jié)點(diǎn)放在一個(gè)hash鏈中。與HashMap不同的是,ConcurrentHashMap使用 多個(gè)子Hash表,也就是段(Segment)。下面是ConcurrentHashMap的數(shù)據(jù)成員:
1. public class ConcurrentHashMap<K, V> extends AbstractMap<K, V>
2. implements ConcurrentMap<K, V>, Serializable {
3. /**
4. * Mask value for indexing into segments. The upper bits of a
5. * key's hash code are used to choose the segment.
6. */
7. final int segmentMask;
8.
9. /**
10. * Shift value for indexing within segments.
11. */
12. final int segmentShift;
13.
14. /**
15. * The segments, each of which is a specialized hash table
16. */
17. final Segment<K,V>[] segments;
18. }
所有的成員都是final的,其中segmentMask和segmentShift主要是為了定位段,參見上面的segmentFor方法。
每個(gè)Segment相當(dāng)于一個(gè)子Hash表,它的數(shù)據(jù)成員如下:
1. static final class Segment<K,V> extends ReentrantLock implements Serializable {
2. private static final long serialVersionUID = 2249069246763182397L;
3. /**
4. * The number of elements in this segment's region.
5. */
6. transient volatile int count;
7.
8. /**
9. * Number of updates that alter the size of the table. This is
10. * used during bulk-read methods to make sure they see a
11. * consistent snapshot: If modCounts change during a traversal
12. * of segments computing size or checking containsValue, then
13. * we might have an inconsistent view of state so (usually)
14. * must retry.
15. */
16. transient int modCount;
17.
18. /**
19. * The table is rehashed when its size exceeds this threshold.
20. * (The value of this field is always <tt>(int)(capacity *
21. * loadFactor)</tt>.)
22. */
23. transient int threshold;
24.
25. /**
26. * The per-segment table.
27. */
28. transient volatile HashEntry<K,V>[] table;
29.
30. /**
31. * The load factor for the hash table. Even though this value
32. * is same for all segments, it is replicated to avoid needing
33. * links to outer object.
34. * @serial
35. */
36. final float loadFactor;
37. }
count 用來(lái)統(tǒng)計(jì)該段數(shù)據(jù)的個(gè)數(shù),它是volatile,它用來(lái)協(xié)調(diào)修改和讀取操作,以保證讀取操作能夠讀取到幾乎最新的修改。協(xié)調(diào)方式是這樣的,每次修改操作做 了結(jié)構(gòu)上的改變,如增加/刪除節(jié)點(diǎn)(修改節(jié)點(diǎn)的值不算結(jié)構(gòu)上的改變),都要寫count值,每次讀取操作開始都要讀取count的值。這利用了 Java 5中對(duì)volatile語(yǔ)義的增強(qiáng),對(duì)同一個(gè)volatile變量的寫和讀存在happens-before關(guān)系。modCount統(tǒng)計(jì)段結(jié)構(gòu)改變的次 數(shù),主要是為了檢測(cè)對(duì)多個(gè)段進(jìn)行遍歷過(guò)程中某個(gè)段是否發(fā)生改變,在講述跨段操作時(shí)會(huì)還會(huì)詳述。threashold用來(lái)表示需要進(jìn)行rehash的界限 值。table數(shù)組存儲(chǔ)段中節(jié)點(diǎn),每個(gè)數(shù)組元素是個(gè)hash鏈,用HashEntry表示。table也是volatile,這使得能夠讀取到最新的 table值而不需要同步。loadFactor表示負(fù)載因子。
實(shí)現(xiàn)細(xì)節(jié)
修改操作
先來(lái)看下刪除操作remove(key)。
1. public V remove(Object key) {
2. hash = hash(key.hashCode());
3. return segmentFor(hash).remove(key, hash, null);
4. }
整個(gè)操作是先定位到段,然后委托給段的remove操作。當(dāng)多個(gè)刪除操作并發(fā)進(jìn)行時(shí),只要它們所在的段不相同,它們就可以同時(shí)進(jìn)行。下面是Segment的remove方法實(shí)現(xiàn):
1. V remove(Object key, int hash, Object value) {
2. lock();
3. try {
4. int c = count - 1;
5. HashEntry<K,V>[] tab = table;
6. int index = hash & (tab.length - 1);
7. HashEntry<K,V> first = tab[index];
8. HashEntry<K,V> e = first;
9. while (e != null && (e.hash != hash || !key.equals(e.key)))
10. e = e.next;
11.
12. V oldValue = null;
13. if (e != null) {
14. V v = e.value;
15. if (value == null || value.equals(v)) {
16. oldValue = v;
17. // All entries following removed node can stay
18. // in list, but all preceding ones need to be
19. // cloned.
20. ++modCount;
21. HashEntry<K,V> newFirst = e.next;
22. for (HashEntry<K,V> p = first; p != e; p = p.next)
23. newFirst = new HashEntry<K,V>(p.key, p.hash,
24. newFirst, p.value);
25. tab[index] = newFirst;
26. count = c; // write-volatile
27. }
28. }
29. return oldValue;
30. } finally {
31. unlock();
32. }
33. }
整個(gè)操作是在持有段鎖的情況下執(zhí)行的,空白行之前的行主要是定位到要?jiǎng)h除的節(jié)點(diǎn)e。接下來(lái),如果不存在這個(gè)節(jié)點(diǎn)就直接返回null,否則就要將e前面的結(jié)點(diǎn)復(fù)制一遍,尾結(jié)點(diǎn)指向e的下一個(gè)結(jié)點(diǎn)。e后面的結(jié)點(diǎn)不需要復(fù)制,它們可以重用。下面是個(gè)示意圖
刪除元素之前:
刪除元素3之后:
第二個(gè)圖其實(shí)有點(diǎn)問(wèn)題,復(fù)制的結(jié)點(diǎn)中應(yīng)該是值為2的結(jié)點(diǎn)在前面,值為1的結(jié)點(diǎn)在后面,也就是剛好和原來(lái)結(jié)點(diǎn)順序相反,還好這不影響我們的討論。整 個(gè)remove實(shí)現(xiàn)并不復(fù)雜,但是需要注意如下幾點(diǎn)。第一,當(dāng)要?jiǎng)h除的結(jié)點(diǎn)存在時(shí),刪除的最后一步操作要將count的值減一。這必須是最后一步操作,否 則讀取操作可能看不到之前對(duì)段所做的結(jié)構(gòu)性修改。第二,remove執(zhí)行的開始就將table賦給一個(gè)局部變量tab,這是因?yàn)閠able是 volatile變量,讀寫volatile變量的開銷很大。編譯器也不能對(duì)volatile變量的讀寫做任何優(yōu)化,直接多次訪問(wèn)非volatile實(shí)例 變量沒(méi)有多大影響,編譯器會(huì)做相應(yīng)優(yōu)化。
接下來(lái)看put操作,同樣地put操作也是委托給段的put方法。下面是段的put方法:
1. V put(K key, int hash, V value, boolean onlyIfAbsent) {
2. lock();
3. try {
4. int c = count;
5. if (c++ > threshold) // ensure capacity
6. rehash();
7. HashEntry<K,V>[] tab = table;
8. int index = hash & (tab.length - 1);
9. HashEntry<K,V> first = tab[index];
10. HashEntry<K,V> e = first;
11. while (e != null && (e.hash != hash || !key.equals(e.key)))
12. e = e.next;
13.
14. V oldValue;
15. if (e != null) {
16. oldValue = e.value;
17. if (!onlyIfAbsent)
18. e.value = value;
19. }
20. else {
21. oldValue = null;
22. ++modCount;
23. tab[index] = new HashEntry<K,V>(key, hash, first, value);
24. count = c; // write-volatile
25. }
26. return oldValue;
27. } finally {
28. unlock();
29. }
30. }
該 方法也是在持有段鎖的情況下執(zhí)行的,首先判斷是否需要rehash,需要就先rehash。接著是找是否存在同樣一個(gè)key的結(jié)點(diǎn),如果存在就直接替換這 個(gè)結(jié)點(diǎn)的值。否則創(chuàng)建一個(gè)新的結(jié)點(diǎn)并添加到hash鏈的頭部,這時(shí)一定要修改modCount和count的值,同樣修改count的值一定要放在最后一 步。put方法調(diào)用了rehash方法,reash方法實(shí)現(xiàn)得也很精巧,主要利用了table的大小為2^n,這里就不介紹了。
修改操作還有putAll和replace。putAll就是多次調(diào)用put方法,沒(méi)什么好說(shuō)的。replace甚至不用做結(jié)構(gòu)上的更改,實(shí)現(xiàn)要比put和delete要簡(jiǎn)單得多,理解了put和delete,理解replace就不在話下了,這里也不介紹了。
獲取操作
首先看下get操作,同樣ConcurrentHashMap的get操作是直接委托給Segment的get方法,直接看Segment的get方法:
1. V get(Object key, int hash) {
2. if (count != 0) { // read-volatile
3. HashEntry<K,V> e = getFirst(hash);
4. while (e != null) {
5. if (e.hash == hash && key.equals(e.key)) {
6. V v = e.value;
7. if (v != null)
8. return v;
9. return readValueUnderLock(e); // recheck
10. }
11. e = e.next;
12. }
13. }
14. return null;
15. }
get 操作不需要鎖。第一步是訪問(wèn)count變量,這是一個(gè)volatile變量,由于所有的修改操作在進(jìn)行結(jié)構(gòu)修改時(shí)都會(huì)在最后一步寫count 變量,通過(guò)這種機(jī)制保證get操作能夠得到幾乎最新的結(jié)構(gòu)更新。對(duì)于非結(jié)構(gòu)更新,也就是結(jié)點(diǎn)值的改變,由于HashEntry的value變量是 volatile的,也能保證讀取到最新的值。接下來(lái)就是對(duì)hash鏈進(jìn)行遍歷找到要獲取的結(jié)點(diǎn),如果沒(méi)有找到,直接訪回null。對(duì)hash鏈進(jìn)行遍歷 不需要加鎖的原因在于鏈指針next是final的。但是頭指針卻不是final的,這是通過(guò)getFirst(hash)方法返回,也就是存在 table數(shù)組中的值。這使得getFirst(hash)可能返回過(guò)時(shí)的頭結(jié)點(diǎn),例如,當(dāng)執(zhí)行g(shù)et方法時(shí),剛執(zhí)行完getFirst(hash)之 后,另一個(gè)線程執(zhí)行了刪除操作并更新頭結(jié)點(diǎn),這就導(dǎo)致get方法中返回的頭結(jié)點(diǎn)不是最新的。這是可以允許,通過(guò)對(duì)count變量的協(xié)調(diào)機(jī)制,get能讀取 到幾乎最新的數(shù)據(jù),雖然可能不是最新的。要得到最新的數(shù)據(jù),只有采用完全的同步。
最后,如果找到了所求的結(jié)點(diǎn),判斷它的值如果非空就直接 返回,否則在有鎖的狀態(tài)下再讀一次。這似乎有些費(fèi)解,理論上結(jié)點(diǎn)的值不可能為空,這是因?yàn)? put的時(shí)候就進(jìn)行了判斷,如果為空就要拋NullPointerException??罩档奈ㄒ辉搭^就是HashEntry中的默認(rèn)值,因?yàn)? HashEntry中的value不是final的,非同步讀取有可能讀取到空值。仔細(xì)看下put操作的語(yǔ)句:tab[index] = new HashEntry<K,V>(key, hash, first, value),在這條語(yǔ)句中,HashEntry構(gòu)造函數(shù)中對(duì)value的賦值以及對(duì)tab[index]的賦值可能被重新排序,這就可能導(dǎo)致結(jié)點(diǎn)的值為 空。這種情況應(yīng)當(dāng)很罕見,一旦發(fā)生這種情況,ConcurrentHashMap采取的方式是在持有鎖的情況下再讀一遍,這能夠保證讀到最新的值,并且一 定不會(huì)為空值。
1. V readValueUnderLock(HashEntry<K,V> e) {
2. lock();
3. try {
4. return e.value;
5. } finally {
6. unlock();
7. }
8. }
另一個(gè)操作是containsKey,這個(gè)實(shí)現(xiàn)就要簡(jiǎn)單得多了,因?yàn)樗恍枰x取值:
1. boolean containsKey(Object key, int hash) {
2. if (count != 0) { // read-volatile
3. HashEntry<K,V> e = getFirst(hash);
4. while (e != null) {
5. if (e.hash == hash && key.equals(e.key))
6. return true;
7. e = e.next;
8. }
9. }
10. return false;
11. }