HDFS,Hadoop分布式文件系統(tǒng),它是一個(gè)高度容錯(cuò)性的系統(tǒng),適合部署在廉價(jià)的機(jī)器上。HDFS能提供高吞吐量的數(shù)據(jù)訪問(wèn),適合那些有著超大數(shù)據(jù)集的應(yīng)用程序。 HDFS的設(shè)計(jì)特點(diǎn)是: 1.
大數(shù)據(jù)文件,非常適合上T級(jí)別的大文件或者一堆大數(shù)據(jù)文件的存儲(chǔ),如果文件只有幾個(gè)G甚至更小就沒(méi)啥意思了。 2.
文件分塊存儲(chǔ),HDFS會(huì)將一個(gè)完整的大文件平均分塊存儲(chǔ)到不同計(jì)算器上,它的意義在于讀取文件時(shí)可以同時(shí)從多個(gè)主機(jī)取不同區(qū)塊的文件,多主機(jī)讀取比單主機(jī)讀取效率要高得多得都。 3.
流式數(shù)據(jù)訪問(wèn),一次寫(xiě)入多次讀寫(xiě),這種模式跟傳統(tǒng)文件不同,它不支持動(dòng)態(tài)改變文件內(nèi)容,而是要求讓文件一次寫(xiě)入就不做變化,要變化也只能在文件末添加內(nèi)容。 4.
廉價(jià)硬件,HDFS可以應(yīng)用在普通PC機(jī)上,這種機(jī)制能夠讓給一些公司用幾十臺(tái)廉價(jià)的計(jì)算機(jī)就可以撐起一個(gè)大數(shù)據(jù)集群。 5.
硬件故障,HDFS認(rèn)為所有計(jì)算機(jī)都可能會(huì)出問(wèn)題,為了防止某個(gè)主機(jī)失效讀取不到該主機(jī)的塊文件,它將同一個(gè)文件塊副本分配到其它某幾個(gè)主機(jī)上,如果其中一臺(tái)主機(jī)失效,可以迅速找另一塊副本取文件。 HDFS的關(guān)鍵元素: Block:將一個(gè)文件進(jìn)行分塊,通常是64M。 NameNode:保存整個(gè)文件系統(tǒng)的目錄信息、文件信息及分塊信息,這是由唯一一臺(tái)主機(jī)專門保存,當(dāng)然這臺(tái)主機(jī)如果出錯(cuò),NameNode就失效了。在Hadoop2.*開(kāi)始支持activity-standy模式----如果主NameNode失效,啟動(dòng)備用主機(jī)運(yùn)行NameNode。 DataNode:分布在廉價(jià)的計(jì)算機(jī)上,用于存儲(chǔ)Block塊文件。 |
|