bloom filter

vvviiiooo 2008-10-15

展開全文

布隆過濾器

——轉(zhuǎn)自google黑板報

      在日常生活中，包括在設計計算機軟件時，我們經(jīng)常要判斷一個元素是否在一個集合中。比如在字處理軟件中，需要檢查一個英語單詞是否拼寫正確（也就是要判斷它是否在已知的字典中）；在 FBI，一個嫌疑人的名字是否已經(jīng)在嫌疑名單上；在網(wǎng)絡爬蟲里，一個網(wǎng)址是否被訪問過等等。最直接的方法就是將集合中全部的元素存在計算機中，遇到一個新元素時，將它和集合中的元素直接比較即可。一般來講，計算機中的集合是用哈希表（hash table）來存儲的。它的好處是快速準確，缺點是費存儲空間。當集合比較小時，這個問題不顯著，但是當集合巨大時，哈希表存儲效率低的問題就顯現(xiàn)出來了。比如說，一個象 Yahoo,Hotmail 和 Gmai 那樣的公眾電子郵件（email）提供商，總是需要過濾來自發(fā)送垃圾郵件的人（spamer）的垃圾郵件。一個辦法就是記錄下那些發(fā)垃圾郵件的 email 地址。由于那些發(fā)送者不停地在注冊新的地址，全世界少說也有幾十億個發(fā)垃圾郵件的地址，將他們都存起來則需要大量的網(wǎng)絡服務器。如果用哈希表，每存儲一億個 email 地址，就需要 1.6GB 的內(nèi)存（用哈希表實現(xiàn)的具體辦法是將每一個 email 地址對應成一個八字節(jié)的信息指紋 /2006/08/blog-post.html，然后將這些信息指紋存入哈希表，由于哈希表的存儲效率一般只有 50%，因此一個 email 地址需要占用十六個字節(jié)。一億個地址大約要 1.6GB，即十六億字節(jié)的內(nèi)存）。因此存貯幾十億個郵件地址可能需要上百 GB 的內(nèi)存。除非是超級計算機，一般服務器是無法存儲的。

      今天，我們介紹一種稱作布隆過濾器的數(shù)學工具，它只需要哈希表 1/8 到 1/4 的大小就能解決同樣的問題。

      布隆過濾器是由巴頓.布隆于一九七零年提出的。它實際上是一個很長的二進制向量和一系列隨機映射函數(shù)。我們通過上面的例子來說明起工作原理。

       假定我們存儲一億個電子郵件地址，我們先建立一個十六億二進制（比特），即兩億字節(jié)的向量，然后將這十六億個二進制全部設置為零。對于每一個電子郵件地址 X，我們用八個不同的隨機數(shù)產(chǎn)生器（F1,F2, ...,F8）產(chǎn)生八個信息指紋（f1, f2, ..., f8）。再用一個隨機數(shù)產(chǎn)生器 G 把這八個信息指紋映射到 1 到十六億中的八個自然數(shù) g1, g2, ...,g8?，F(xiàn)在我們把這八個位置的二進制全部設置為一。當我們對這一億個 email 地址都進行這樣的處理后。一個針對這些 email 地址的布隆過濾器就建成了。（見下圖）

       現(xiàn)在，讓我們看看如何用布隆過濾器來檢測一個可疑的電子郵件地址 Y 是否在黑名單中。我們用相同的八個隨機數(shù)產(chǎn)生器（F1, F2, ..., F8）對這個地址產(chǎn)生八個信息指紋 s1,s2,...,s8，然后將這八個指紋對應到布隆過濾器的八個二進制位，分別是 t1,t2,...,t8。如果 Y 在黑名單中，顯然，t1,t2,..,t8 對應的八個二進制一定是一。這樣在遇到任何在黑名單中的電子郵件地址，我們都能準確地發(fā)現(xiàn)。

      布隆過濾器決不會漏掉任何一個在黑名單中的可疑地址。但是，它有一條不足之處。也就是它有極小的可能將一個不在黑名單中的電子郵件地址判定為在黑名單中，因為有可能某個好的郵件地址正巧對應個八個都被設置成一的二進制位。好在這種可能性很小。我們把它稱為誤識概率。在上面的例子中，誤識概率在萬分之一以下。

      布隆過濾器的好處在于快速，省空間。但是有一定的誤識別率。常見的補救辦法是在建立一個小的白名單，存儲那些可能別誤判的郵件地址。