高性能計(jì)算已由傳統(tǒng)的主機(jī)方式逐漸向集群方式演變,如TOP500中,1998年只有2臺(tái)系統(tǒng)是集群方式,而到2003年已有208臺(tái)為集群系統(tǒng)。隨著高性能計(jì)算體系結(jié)構(gòu)的發(fā)展變化,傳統(tǒng)的基于主機(jī)的存儲(chǔ)架構(gòu)已成為新的瓶頸,不能滿足集群系統(tǒng)的需求。集群的存儲(chǔ)系統(tǒng)必須有效解決兩個(gè)主要問題:(1)提供共享訪問數(shù)據(jù),便于集群應(yīng)用程序的編寫和存儲(chǔ)的負(fù)載均衡;(2)提供高性能的存儲(chǔ),在I/O級(jí)和數(shù)據(jù)吞吐率方面能滿足成百上千臺(tái)規(guī)模的Linux集群服務(wù)器聚合訪問的需求。目前,網(wǎng)絡(luò)化存儲(chǔ)已成為解決集群系統(tǒng)高性能存儲(chǔ)的有效技術(shù)途徑。 國際上主要有兩類網(wǎng)絡(luò)化存儲(chǔ)架構(gòu),它們是通過命令集來區(qū)分的。第一類是SAN(Storage Area Network)結(jié)構(gòu),它采用SCSI 塊I/O的命令集,通過在磁盤或FC(Fiber Channel)級(jí)的數(shù)據(jù)訪問提供高性能的隨機(jī)I/O和數(shù)據(jù)吞吐率,它具有高帶寬、低延遲的優(yōu)勢,在高性能計(jì)算中占有一席之地,如SGI的CXFS文件系統(tǒng)就是基于SAN實(shí)現(xiàn)高性能文件存儲(chǔ)的,但是由于SAN系統(tǒng)的價(jià)格較高,且可擴(kuò)展性較差,已不能滿足成千上萬個(gè)CPU規(guī)模的系統(tǒng)。第二類是NAS(Network Attached Storage)結(jié)構(gòu),它采用NFS或CIFS命令集訪問數(shù)據(jù),以文件為傳輸協(xié)議,通過TCP/IP實(shí)現(xiàn)網(wǎng)絡(luò)化存儲(chǔ),可擴(kuò)展性好、價(jià)格便宜、用戶易管理,如目前在集群計(jì)算中應(yīng)用較多的NFS文件系統(tǒng),但由于NAS的協(xié)議開銷高、帶寬低、延遲大,不利于在高性能集群中應(yīng)用。 針對Linux集群對存儲(chǔ)系統(tǒng)高性能和數(shù)據(jù)共享的需求,國外已開始研究全新的存儲(chǔ)架構(gòu)和新型文件系統(tǒng),希望能有效結(jié)合SAN和NAS系統(tǒng)的優(yōu)點(diǎn),支持直接訪問磁盤以提高性能,通過共享的文件和元數(shù)據(jù)以簡化管理,目前對象存儲(chǔ)文件系統(tǒng)已成為Linux集群系統(tǒng)高性能文件系統(tǒng)的研究熱點(diǎn),如Cluster File Systems公司的Lustre、Panasas公司的ActiveScale文件系統(tǒng)等。Lustre文件系統(tǒng)采用基于對象存儲(chǔ)技術(shù),它來源于卡耐基梅隆大學(xué)的Coda項(xiàng)目研究工作,2003年12月發(fā)布了Lustre 1.0版,預(yù)計(jì)在2005年將發(fā)布2.0版。Lustre在美國能源部(U.S.Department of Energy:DOE)、Lawrence Livermore 國家實(shí)驗(yàn)室,Los Alamos國家實(shí)驗(yàn)室,Sandia 國家實(shí)驗(yàn)室,Pacific Northwest國家實(shí)驗(yàn)室的高性能計(jì)算系統(tǒng)中已得到了初步的應(yīng)用,IBM正在研制的Blue Gene系統(tǒng)也將采用Lustre文件系統(tǒng)實(shí)現(xiàn)其高性能存儲(chǔ)。ActiveScale文件系統(tǒng)技術(shù)來源于卡耐基梅隆大學(xué)的Dr. Garth Gibson,最早是由DARPA支持的NASD(Network Attached Secure Disks)項(xiàng)目,目前已是業(yè)界比較有影響力的對象存儲(chǔ)文件系統(tǒng),榮獲了ComputerWorld 2004年創(chuàng)新技術(shù)獎(jiǎng)。 2.1 對象存儲(chǔ)文件系統(tǒng)架構(gòu) 對象存儲(chǔ)文件系統(tǒng)的核心是將數(shù)據(jù)通路(數(shù)據(jù)讀或?qū)懀┖涂刂仆罚ㄔ獢?shù)據(jù))分離,并且基于對象存儲(chǔ)設(shè)備(Object-based Storage Device,OSD)構(gòu)建存儲(chǔ)系統(tǒng),每個(gè)對象存儲(chǔ)設(shè)備具有一定的智能,能夠自動(dòng)管理其上的數(shù)據(jù)分布,對象存儲(chǔ)文件系統(tǒng)通常有以下幾部分組成。 1、對象 對象是系統(tǒng)中數(shù)據(jù)存儲(chǔ)的基本單位,一個(gè)對象實(shí)際上就是文件的數(shù)據(jù)和一組屬性的組合,這些屬性可以定義基于文件的RAID參數(shù)、數(shù)據(jù)分布和服務(wù)質(zhì)量等,而傳統(tǒng)的存儲(chǔ)系統(tǒng)中用文件或塊作為基本的存儲(chǔ)單位,在塊存儲(chǔ)系統(tǒng)中還需要始終追蹤系統(tǒng)中每個(gè)塊的屬性,對象通過與存儲(chǔ)系統(tǒng)通信維護(hù)自己的屬性。在存儲(chǔ)設(shè)備中,所有對象都有一個(gè)對象標(biāo)識(shí),通過對象標(biāo)識(shí)OSD命令訪問該對象。通常有多種類型的對象,存儲(chǔ)設(shè)備上的根對象標(biāo)識(shí)存儲(chǔ)設(shè)備和該設(shè)備的各種屬性,組對象是存儲(chǔ)設(shè)備上共享資源管理策略的對象集合等。 對象存儲(chǔ)設(shè)備具有一定的智能,它有自己的CPU、內(nèi)存、網(wǎng)絡(luò)和磁盤系統(tǒng),目前國際上通常采用刀片式結(jié)構(gòu)實(shí)現(xiàn)對象存儲(chǔ)設(shè)備。OSD提供三個(gè)主要功能: (1) 數(shù)據(jù)存儲(chǔ)。OSD管理對象數(shù)據(jù),并將它們放置在標(biāo)準(zhǔn)的磁盤系統(tǒng)上,OSD不提供塊接口訪問方式,Client請求數(shù)據(jù)時(shí)用對象ID、偏移進(jìn)行數(shù)據(jù)讀寫。 (2) 智能分布。OSD用其自身的CPU和內(nèi)存優(yōu)化數(shù)據(jù)分布,并支持?jǐn)?shù)據(jù)的預(yù)取。由于OSD可以智能地支持對象的預(yù)取,從而可以優(yōu)化磁盤的性能。 (3) 每個(gè)對象元數(shù)據(jù)的管理。OSD管理存儲(chǔ)在其上對象的元數(shù)據(jù),該元數(shù)據(jù)與傳統(tǒng)的inode元數(shù)據(jù)相似,通常包括對象的數(shù)據(jù)塊和對象的長度。而在傳統(tǒng)的NAS系統(tǒng)中,這些元數(shù)據(jù)是由文件服務(wù)器維護(hù)的,對象存儲(chǔ)架構(gòu)將系統(tǒng)中主要的元數(shù)據(jù)管理工作由OSD來完成,降低了Client的開銷。 3、元數(shù)據(jù)服務(wù)器(Metadata Server,MDS) MDS控制Client與OSD對象的交互,主要提供以下幾個(gè)功能: (1) 對象存儲(chǔ)訪問。MDS構(gòu)造、管理描述每個(gè)文件分布的視圖,允許Client直接訪問對象。MDS為Client提供訪問該文件所含對象的能力,OSD在接收到每個(gè)請求時(shí)將先驗(yàn)證該能力,然后才可以訪問。 (2) 文件和目錄訪問管理。MDS在存儲(chǔ)系統(tǒng)上構(gòu)建一個(gè)文件結(jié)構(gòu),包括限額控制、目錄和文件的創(chuàng)建和刪除、訪問控制等。 (3) Client Cache一致性。為了提高Client性能,在對象存儲(chǔ)文件系統(tǒng)設(shè)計(jì)時(shí)通常支持Client方的Cache。由于引入Client方的Cache,帶來了Cache一致性問題,MDS支持基于Client的文件Cache,當(dāng)Cache的文件發(fā)生改變時(shí),將通知Client刷新Cache,從而防止Cache不一致引發(fā)的問題。 為了有效支持Client支持訪問OSD上的對象,需要在計(jì)算結(jié)點(diǎn)實(shí)現(xiàn)對象存儲(chǔ)文件系統(tǒng)的Client,通常提供POSIX文件系統(tǒng)接口,允許應(yīng)用程序像執(zhí)行標(biāo)準(zhǔn)的文件系統(tǒng)操作一樣。 2.2 對象存儲(chǔ)文件系統(tǒng)的關(guān)鍵技術(shù) 1、分布元數(shù)據(jù)傳統(tǒng)的存儲(chǔ)結(jié)構(gòu)元數(shù)據(jù)服務(wù)器通常提供兩個(gè)主要功能。(1)為計(jì)算結(jié)點(diǎn)提供一個(gè)存儲(chǔ)數(shù)據(jù)的邏輯視圖(Virtual File System,VFS層),文件名列表及目錄結(jié)構(gòu)。(2)組織物理存儲(chǔ)介質(zhì)的數(shù)據(jù)分布(inode層)。對象存儲(chǔ)結(jié)構(gòu)將存儲(chǔ)數(shù)據(jù)的邏輯視圖與物理視圖分開,并將負(fù)載分布,避免元數(shù)據(jù)服務(wù)器引起的瓶頸(如NAS系統(tǒng))。元數(shù)據(jù)的VFS部分通常是元數(shù)據(jù)服務(wù)器的10%的負(fù)載,剩下的90%工作(inode部分)是在存儲(chǔ)介質(zhì)塊的數(shù)據(jù)物理分布上完成的。在對象存儲(chǔ)結(jié)構(gòu),inode工作分布到每個(gè)智能化的OSD,每個(gè)OSD負(fù)責(zé)管理數(shù)據(jù)分布和檢索,這樣90%的元數(shù)據(jù)管理工作分布到智能的存儲(chǔ)設(shè)備,從而提高了系統(tǒng)元數(shù)據(jù)管理的性能。另外,分布的元數(shù)據(jù)管理,在增加更多的OSD到系統(tǒng)中時(shí),可以同時(shí)增加元數(shù)據(jù)的性能和系統(tǒng)存儲(chǔ)容量。 2、并發(fā)數(shù)據(jù)訪問對象存儲(chǔ)體系結(jié)構(gòu)定義了一個(gè)新的、更加智能化的磁盤接口OSD。OSD是與網(wǎng)絡(luò)連接的設(shè)備,它自身包含存儲(chǔ)介質(zhì),如磁盤或磁帶,并具有足夠的智能可以管理本地存儲(chǔ)的數(shù)據(jù)。計(jì)算結(jié)點(diǎn)直接與OSD通信,訪問它存儲(chǔ)的數(shù)據(jù),由于OSD具有智能,因此不需要文件服務(wù)器的介入。如果將文件系統(tǒng)的數(shù)據(jù)分布在多個(gè)OSD上,則聚合I/O速率和數(shù)據(jù)吞吐率將線性增長,對絕大多數(shù)Linux集群應(yīng)用來說,持續(xù)的I/O聚合帶寬和吞吐率對較多數(shù)目的計(jì)算結(jié)點(diǎn)是非常重要的。對象存儲(chǔ)結(jié)構(gòu)提供的性能是目前其它存儲(chǔ)結(jié)構(gòu)難以達(dá)到的,如ActiveScale對象存儲(chǔ)文件系統(tǒng)的帶寬可以達(dá)到10GB/s。 Lustre對象存儲(chǔ)文件系統(tǒng)就是由客戶端(client)、存儲(chǔ)服務(wù)器(OST,Object Storage Target)和元數(shù)據(jù)服務(wù)器(MDS)三個(gè)主要部分組成。Lustre的客戶端運(yùn)行Lustre文件系統(tǒng),它和OST進(jìn)行文件數(shù)據(jù)I/O的交互,和MDS進(jìn)行命名空間操作的交互。為了提高Lustre文件系統(tǒng)的性能,通常Client、OST和MDS是分離,當(dāng)然這些子系統(tǒng)也可以運(yùn)行在同一個(gè)系統(tǒng)中。其三個(gè)主要部分如圖1所示. 圖1 Lustre文件系統(tǒng)的組成 Lustre是一個(gè)透明的全局文件系統(tǒng),客戶端可以透明地訪問集群文件系統(tǒng)中的數(shù)據(jù),而無需知道這些數(shù)據(jù)的實(shí)際存儲(chǔ)位置??蛻舳送ㄟ^網(wǎng)絡(luò)讀取服務(wù)器上的數(shù)據(jù),存儲(chǔ)服務(wù)器負(fù)責(zé)實(shí)際文件系統(tǒng)的讀寫操作以及存儲(chǔ)設(shè)備的連接,元數(shù)據(jù)服務(wù)器負(fù)責(zé)文件系統(tǒng)目錄結(jié)構(gòu)、文件權(quán)限和文件的擴(kuò)展屬性以及維護(hù)整個(gè)文件系統(tǒng)的數(shù)據(jù)一致性和響應(yīng)客戶端的請求。 Lustre把文件當(dāng)作由元數(shù)據(jù)服務(wù)器定位的對象,元數(shù)據(jù)服務(wù)器指導(dǎo)實(shí)際的文件I/O請求到存儲(chǔ)服務(wù)器,存儲(chǔ)服務(wù)器管理在基于對象的磁盤組上的物理存儲(chǔ)。由于采用元數(shù)據(jù)和存儲(chǔ)數(shù)據(jù)相分離的技術(shù),可以充分分離計(jì)算和存儲(chǔ)資源,使得客戶端計(jì)算機(jī)可以專注于用戶和應(yīng)用程序的請求;存儲(chǔ)服務(wù)器和元數(shù)據(jù)服務(wù)器專注于讀、傳輸和寫數(shù)據(jù)。存儲(chǔ)服務(wù)器端的數(shù)據(jù)備份和存儲(chǔ)配置以及存儲(chǔ)服務(wù)器擴(kuò)充等操作不會(huì)影響到客戶端,存儲(chǔ)服務(wù)器和元數(shù)據(jù)服務(wù)器均不會(huì)成為性能瓶頸。 Lustre的全局命名空間為文件系統(tǒng)的所有客戶端提供了一個(gè)有效的全局唯一的目錄樹,并將數(shù)據(jù)條塊化,再把數(shù)據(jù)分配到各個(gè)存儲(chǔ)服務(wù)器上,提供了比傳統(tǒng)SAN的"塊共享"更為靈活的共享訪問方式。全局目錄樹消除了在客戶端的配置信息,并且在配置信息更新時(shí)仍然保持有效。 |
|