本帖最后由 jfxie 于 2015-3-31 09:08 編輯 評(píng)析雙活容災(zāi)解決方案 ---即愛你又恨你作者:謝劍鋒 隨著信息技術(shù)的發(fā)展,包括新技術(shù)云計(jì)算、大數(shù)據(jù)的快速發(fā)展,越來越多的企業(yè)把應(yīng)用、數(shù)據(jù)、系統(tǒng)進(jìn)行集中處理,數(shù)據(jù)大集中的同時(shí)也面臨風(fēng)險(xiǎn),災(zāi)難性的突發(fā)事件發(fā)生時(shí)如何保障企業(yè)核心業(yè)務(wù)的在線性,即核心業(yè)務(wù)7*24小時(shí)的業(yè)不間斷運(yùn)行,成為企業(yè)關(guān)注的首要問題。 突發(fā)事件造成的非計(jì)劃宕機(jī)的事件不可避免,尤其是企業(yè)集中化管理的數(shù)據(jù)中心,數(shù)據(jù)中心采用的保護(hù)手段及企業(yè)所處行業(yè)的性質(zhì)等不同的因素,使得在突發(fā)事件發(fā)生后恢復(fù)業(yè)力所花的時(shí)間及受損的隱性成本也各不相同,如下圖是Business Continuity QuickPoll的大數(shù)據(jù)分析結(jié)果,對(duì)各種行業(yè)及突發(fā)事件發(fā)生后所花的時(shí)間進(jìn)行詳細(xì)分析得出的結(jié)論。
雖然各個(gè)企業(yè)現(xiàn)都已采用的數(shù)據(jù)保護(hù)的手段及方法,目的都是積極在保障業(yè)務(wù)的在線性及數(shù)據(jù)不丟失,但是,傳統(tǒng)數(shù)據(jù)中心采用較為廣泛的容災(zāi)建設(shè)模式中,或多或少還存在一些不足之處,如面臨資源利用率低、切換時(shí)間長業(yè)務(wù)、突發(fā)事件中存在必然的數(shù)據(jù)損失、數(shù)據(jù)中心運(yùn)維整體健康狀態(tài)不可見、缺少演練等的挑戰(zhàn)。 “當(dāng)一個(gè)站點(diǎn)發(fā)生故障時(shí),另外一個(gè)站點(diǎn)可實(shí)時(shí)接管所有業(yè)務(wù)”的雙活解決方案成為當(dāng)前討論和建設(shè)的熱門話題,雙活容災(zāi)解決方案能夠盤活現(xiàn)有IT資源,充分發(fā)揮資源利用優(yōu)勢,實(shí)現(xiàn)應(yīng)用級(jí)雙活無感知切換,達(dá)到企業(yè)對(duì)外業(yè)務(wù)服務(wù)的7x24小時(shí)服務(wù)質(zhì)量保證,降低災(zāi)難性事件發(fā)生后業(yè)務(wù)宕機(jī)的風(fēng)險(xiǎn)。 現(xiàn)有雙活容災(zāi)解決方案
雙活容災(zāi)解決方案建設(shè)要點(diǎn) a. 網(wǎng)絡(luò)接入的全局負(fù)載均衡 無論雙活方案怎么建設(shè),首先要確??蛻舳四軌蛟L問到業(yè)務(wù)系統(tǒng),因此在雙活容災(zāi)解決方案中,企業(yè)用戶在網(wǎng)絡(luò)層做到網(wǎng)絡(luò)接入的全局負(fù)載均衡,確保數(shù)據(jù)中心的切換過程中的網(wǎng)絡(luò)接入的無縫切換。這樣才能保證整體業(yè)務(wù)服務(wù)的不間斷運(yùn)行,達(dá)到終極的雙活容災(zāi)方案的實(shí)施效果。 b. 業(yè)務(wù)會(huì)話的同步機(jī)制 目前業(yè)務(wù)會(huì)話的同步機(jī)制必須依賴于Oracle RAC、虛擬化主機(jī)平臺(tái)vmware的vmotion、傳統(tǒng)的集群系統(tǒng)或第三方業(yè)務(wù)會(huì)話管理系統(tǒng)等的支持,才能有效的保證業(yè)務(wù)會(huì)話的同步機(jī)制,尤其是傳統(tǒng)的集群系統(tǒng)必須支持遠(yuǎn)距離的心跳監(jiān)測。防止資源爭用、業(yè)務(wù)I/O沖突、均衡請(qǐng)求接入。達(dá)到業(yè)務(wù)層的監(jiān)測、切換接管。 c. 跨中心的數(shù)據(jù)同步機(jī)制 雙活容災(zāi)解決方案跨躍兩個(gè)數(shù)據(jù)中心,無論采用應(yīng)用層、主機(jī)層還是存儲(chǔ)虛擬化層,都必須達(dá)到數(shù)據(jù)雙寫的功能。使得兩個(gè)中心的業(yè)務(wù)數(shù)據(jù)實(shí)時(shí)一致。才能有效的保證數(shù)據(jù)不丟失及快速“零”切換。 d. 運(yùn)營一體化管理 雙活數(shù)據(jù)中心是對(duì)等的兩個(gè)業(yè)務(wù)生產(chǎn)中心,企業(yè)對(duì)數(shù)據(jù)中心維護(hù)人員的建設(shè)及雙活解決方案提供者的技術(shù)支援在雙活容災(zāi)解決文案建設(shè)中不容忽視,企業(yè)必須將兩個(gè)數(shù)據(jù)中心納入一體化的運(yùn)營管理,包括人員、流程、操作規(guī)范等,在技術(shù)傳遞上,也需提升雙活數(shù)據(jù)中心的維護(hù)技能。同時(shí)也對(duì)雙活容災(zāi)解決方案提供商的售后服務(wù)和響應(yīng)有一定的要求。 e. 現(xiàn)有業(yè)務(wù)的改造及支持 不是現(xiàn)有所有業(yè)務(wù)系統(tǒng)都支持雙活容災(zāi)方案的,企業(yè)用戶的業(yè)務(wù)系統(tǒng)因建設(shè)時(shí)間,要求等的不同,存在多種多樣,要想建設(shè)好雙活數(shù)據(jù)中心。需要將不支持雙活數(shù)據(jù)中心的業(yè)務(wù)系統(tǒng)進(jìn)行改造,如遷移到虛擬化主機(jī)平臺(tái)或者構(gòu)建冗余的集群系統(tǒng)等,在改造建設(shè)中可能會(huì)存在一定的風(fēng)險(xiǎn),需企業(yè)用戶容忍新的風(fēng)險(xiǎn),做好規(guī)避風(fēng)險(xiǎn)的措施及補(bǔ)救方案。 雙活容災(zāi)解決方案的共同優(yōu)勢: 1. 雙活冗余模式 雙數(shù)據(jù)中心同時(shí)對(duì)外提供業(yè)務(wù)生產(chǎn)的雙活模式,兩個(gè)數(shù)據(jù)中心是對(duì)等的、不分主從、并可同時(shí)部署業(yè)務(wù),可極大的提高資源的利用率和系統(tǒng)的工作效率、性能,讓客戶從容災(zāi)系統(tǒng)的投資中獲得最大的價(jià)值。 a. 兩個(gè)生產(chǎn)中心部署相同的業(yè)務(wù)系統(tǒng),結(jié)合網(wǎng)絡(luò)層、主機(jī)層或應(yīng)用的負(fù)載均衡技術(shù),實(shí)現(xiàn)業(yè)務(wù)系統(tǒng)在兩個(gè)數(shù)據(jù)中心并行工作和負(fù)載分擔(dān)。 b. 兩個(gè)生產(chǎn)中心部署不同的業(yè)務(wù)系統(tǒng),互相實(shí)時(shí)災(zāi)備接管。 2. 自動(dòng)化恢復(fù),降低管理成本 雙數(shù)據(jù)中心的雙活方案支持兩個(gè)數(shù)據(jù)中心的存儲(chǔ)故障、業(yè)務(wù)系統(tǒng)、虛擬化平臺(tái)異常、云平臺(tái)計(jì)算節(jié)點(diǎn)故障等事件發(fā)生時(shí)的自動(dòng)化切換,連續(xù)對(duì)外提供生產(chǎn)。整個(gè)災(zāi)難切換及恢復(fù)業(yè)務(wù)的過程均無需人工干預(yù),自動(dòng)化完成,有效的降低企業(yè)客戶的管理成本。 3. 數(shù)據(jù)中心規(guī)模在線擴(kuò)展 雙活方案同時(shí)對(duì)外提供生產(chǎn),降低或規(guī)避了企業(yè)客戶的系統(tǒng)維護(hù)的風(fēng)險(xiǎn),在業(yè)務(wù)不宕機(jī)的情況下在線維護(hù)存儲(chǔ)陣列、集群節(jié)點(diǎn)以及云平臺(tái)的計(jì)算節(jié)點(diǎn)和虛擬平臺(tái)等,包括在線擴(kuò)容,添加業(yè)務(wù)節(jié)點(diǎn)等,達(dá)到企業(yè)級(jí)用戶在線擴(kuò)展的需求。因此,在系統(tǒng)建設(shè)初期,客戶可以自主選擇系統(tǒng)的建設(shè)規(guī)模,優(yōu)先滿足當(dāng)前實(shí)際業(yè)務(wù)需求,隨著業(yè)務(wù)系統(tǒng)的發(fā)展和對(duì)容災(zāi)系統(tǒng)需求的增長,靈活的擴(kuò)展生產(chǎn)系統(tǒng)和容災(zāi)系統(tǒng)的規(guī)模,以充分保護(hù)客戶現(xiàn)有投資。 4. “零”切換“零”丟失,RPO及RTO都可為0 雙活容災(zāi)解決方案核心思想是將本地的雙機(jī)雙柜的解決方案跨兩個(gè)數(shù)據(jù)中心建設(shè)實(shí)施,不僅達(dá)到系統(tǒng)級(jí)的冗余,包括硬件、數(shù)據(jù)冗余等,同時(shí)也達(dá)到了兩數(shù)據(jù)中心之間的業(yè)務(wù)級(jí)冗余。雙活數(shù)據(jù)中心的業(yè)務(wù)數(shù)據(jù)是實(shí)時(shí)同步,且業(yè)務(wù)數(shù)據(jù)的鏡像相對(duì)上層的業(yè)務(wù)平臺(tái)透明,所有業(yè)務(wù)數(shù)據(jù)的I/O生產(chǎn)都將同時(shí)寫入到兩個(gè)數(shù)據(jù)中心。達(dá)到業(yè)務(wù)數(shù)據(jù)兩份實(shí)時(shí)副本及在線切換的功能,以實(shí)現(xiàn)雙活數(shù)據(jù)中心的“零”切換“零”丟失。 雙活數(shù)據(jù)中心容災(zāi)解決方案的新問題 雖然雙活容災(zāi)解決方案對(duì)于集中式管理的數(shù)據(jù)中心更大限度的保證了業(yè)務(wù)生產(chǎn)的在線性及有效的防御了災(zāi)難性事件恢復(fù)業(yè)務(wù)生產(chǎn)的能力。但是雙活數(shù)據(jù)中心的容災(zāi)方案還是存在一定的不足之處,理想與現(xiàn)實(shí)總存在一定的距離。 1. 腦裂現(xiàn)象 雙活數(shù)據(jù)中心方案實(shí)現(xiàn)了站點(diǎn)級(jí)的冗余的容災(zāi)解決方案,但是受限于當(dāng)前的技術(shù)等因素,在建設(shè)過程中解決了企業(yè)當(dāng)前面臨的業(yè)務(wù)連續(xù)性問題,同時(shí)也產(chǎn)生了新的問題,就是雙活解決方案普遍存在的腦裂現(xiàn)象,在意外事件發(fā)生時(shí),若監(jiān)測技術(shù)不到位、系統(tǒng)平臺(tái)不健康、兩數(shù)據(jù)中網(wǎng)絡(luò)波動(dòng)性中斷等因素的發(fā)生,使得兩個(gè)數(shù)據(jù)中心一體化的業(yè)務(wù)系統(tǒng)會(huì)分裂成兩個(gè)獨(dú)立的數(shù)據(jù)中心。使用戶很難取舍那一個(gè)是唯一的生產(chǎn)數(shù)據(jù),那一個(gè)是將要廢掉的非生產(chǎn)數(shù)據(jù)。這就是早年veritas VVR解決方案退出災(zāi)備舞臺(tái)的原因之一。 2. 非“零丟失”,不具備軟錯(cuò)誤的保障 雙活容災(zāi)解決方案的優(yōu)勢強(qiáng)調(diào)在健康的運(yùn)行平臺(tái)下,大型災(zāi)難事件發(fā)生是的“零”數(shù)據(jù)丟失,但是若雙活平臺(tái)本身不健康或者遭遇邏輯故障時(shí),并不能保障數(shù)據(jù)零丟失。這種故障發(fā)生的數(shù)據(jù)恢復(fù)或漸變式災(zāi)難發(fā)生的情況下,還需借助備份系統(tǒng)的數(shù)據(jù)恢復(fù)手段或方法。因此,雙活容災(zāi)方案大多數(shù)情況下不具備解決軟錯(cuò)誤的保障,而恰恰這種事件發(fā)生的概率遠(yuǎn)遠(yuǎn)超過站點(diǎn)級(jí)的災(zāi)難及硬件故障事件。在2012年時(shí),某省政府部門的業(yè)務(wù)系統(tǒng)已建設(shè)容災(zāi)系統(tǒng),但是在業(yè)務(wù)系統(tǒng)進(jìn)行升級(jí)時(shí)出錯(cuò),導(dǎo)致業(yè)務(wù)宕機(jī)一周多時(shí)間,而這期間的大部分時(shí)間是查找依據(jù)恢復(fù)數(shù)據(jù)。 3. 需容忍高可靠性及性能的下降 雙活容災(zāi)解決方案雖然提升了站點(diǎn)級(jí)的冗余保護(hù),但是,在實(shí)際中確除低了整體業(yè)務(wù)平臺(tái)的可靠性及性能。在可靠性方案,雙活容災(zāi)解決方案就是把本地的雙機(jī)雙柜的硬件冗余方案跨站點(diǎn)建設(shè),無論是傳統(tǒng)的集群系統(tǒng)、虛擬化主機(jī)平臺(tái)Vmware,還是Oracle RAC等,跨站點(diǎn)建設(shè)都會(huì)無形中在業(yè)務(wù)平臺(tái)中增添幾分不穩(wěn)定的因素,我想從現(xiàn)在流行的一體機(jī)解決方案更能說明這方面的問題,即系統(tǒng)越簡單越穩(wěn)定。在性能方案,站點(diǎn)間的監(jiān)測、業(yè)務(wù)會(huì)話的同步確認(rèn)等的網(wǎng)絡(luò)延遲數(shù),加上數(shù)據(jù)同步雙寫的光纖延遲,都或多或少的影響了整體業(yè)務(wù)處理的性能。距離越遠(yuǎn)影響越明顯,如果距離較近,也會(huì)失去建設(shè)雙活容災(zāi)數(shù)據(jù)中心的意義。 4. 運(yùn)營維護(hù)并不簡單 雙活容災(zāi)解決方案災(zāi)難切換方面變的較為簡單,但在實(shí)際的維護(hù)方面并不簡單,除了要求企業(yè)用戶提升自己的維護(hù)能力,還需雙活容災(zāi)解決方案提供商的售后服務(wù)能力。 a. 企業(yè)自身人員的維護(hù)能力必須加強(qiáng),才具備能力維護(hù)跨站點(diǎn)的雙活系統(tǒng),也就是需企業(yè)用戶自身人維護(hù)人員必須從維護(hù)設(shè)備的能力轉(zhuǎn)變?yōu)榫邆渚S護(hù)雙活系統(tǒng)架構(gòu)的能力,才能維穩(wěn)系統(tǒng)的正常運(yùn)行,讓雙活系統(tǒng)實(shí)現(xiàn)該有的效果。 b. 提供商的服務(wù)能力也直接影響雙活容災(zāi)系統(tǒng)部署后的效果,在已有的案例中,我們經(jīng)??吹教峁┥痰?00電話,除了收集日志還是收集日志,除了正在后臺(tái)診斷還是后臺(tái)診斷,經(jīng)常讓一個(gè)小小問題需有好多層、次的溝通才能解決,這樣的方式如何保障雙活容災(zāi)系統(tǒng)的穩(wěn)定?如保達(dá)到用戶對(duì)雙活系統(tǒng)在線性要求的期望? 5. 性價(jià)比并不會(huì)太高 我們經(jīng)常會(huì)聽到雙活容災(zāi)方案可以讓生產(chǎn)中心和容災(zāi)中心都“活”起來,有效的利用資源,面臨災(zāi)難性事件時(shí),最大化業(yè)務(wù)系統(tǒng)的在線性,解除原有災(zāi)備系統(tǒng)有災(zāi)無備等等的不足之處。但是,當(dāng)我們認(rèn)真考慮建設(shè)雙活容災(zāi)系統(tǒng)時(shí)發(fā)現(xiàn),如果自身IT人員的維護(hù)能力不足,很難達(dá)到我們期望的效果。在現(xiàn)實(shí)案例中,很多用戶一次性的費(fèi)用建設(shè)的系統(tǒng),后續(xù)的維保經(jīng)費(fèi)很難申請(qǐng),這種情況很難有效的保障我們的信息系統(tǒng)的健康運(yùn)行。寧夏銀行就是在沒有后續(xù)維保經(jīng)費(fèi)支撐的情況下,硬件出故障,自身IT人員修復(fù)過程中出現(xiàn)人為錯(cuò)誤而引起的重大事故。因此,建設(shè)雙活容災(zāi)系統(tǒng)的同時(shí),必須要保障后續(xù)的維護(hù)經(jīng)費(fèi)。使得雙活容災(zāi)系統(tǒng)向高大上偏移。 雙活容災(zāi)方案建設(shè)寄語 雙活容災(zāi)系統(tǒng)具有站點(diǎn)冗余、自動(dòng)接管的優(yōu)勢而被很多廠商利用推銷自有產(chǎn)品,并不會(huì)全方位從用戶現(xiàn)實(shí)所處條件、環(huán)境、具備的能力等方面綜合去設(shè)計(jì)適合的容災(zāi)方案。作為中小型用戶或所處二、三線城市及內(nèi)陸的城市,本人不建議用戶在現(xiàn)階段選擇雙活容災(zāi)方案,只有這方面技術(shù)進(jìn)一步普及化后才能使得在建設(shè)后發(fā)揮其該有的效果,否則就會(huì)變成隱身炸彈。只有面向全國性服務(wù)的用戶或在一線城市原方案提供商可以直接服務(wù)的地域,有了后備技術(shù)保障,雙活容災(zāi)方案才能更具它的優(yōu)勢,發(fā)揮它的效果,再加上具備有快速恢復(fù)能力,能夠有效解決軟錯(cuò)誤的方案,才能更使得用戶的業(yè)務(wù)系統(tǒng)鍵康穩(wěn)定的運(yùn)行。 |
|