在2020年中,據(jù)不完全統(tǒng)計:微軟商業(yè)云服務(wù)、Google云、華為云、Adobe Creative Cloud、IBM Cloud、蘋果iCloud和亞馬遜云AWS共計七個公有云服務(wù)提供商相繼出現(xiàn)故障或宕機情況。 年度熱點話題03 七個公有云廠商相繼出現(xiàn)故障或宕機, “世上沒有不宕機的云” 公有云服務(wù)平臺出現(xiàn)這樣那樣的問題,再次對公有云服務(wù)帶來了考驗。從另一個側(cè)面也說明,在解決問題的過程中,也再一次提升了公有云服務(wù)的品質(zhì)。屢敗屢戰(zhàn),堅韌不撥,這也是公有云從十年前到今天,逐漸壯大,成為百行百業(yè)最強音的發(fā)展之道。 這其實對于云服務(wù)平臺而言,這里指公有云服務(wù),每年都會遭遇這樣那樣的故障,這些故障有的是人為原因,有的是機器故障,有的是軟件bug……等等原因匯總的結(jié)果,就是相關(guān)云平臺上的客戶遭殃。或丟失數(shù)據(jù),或停止服務(wù),或影響創(chuàng)新。業(yè)內(nèi)人士戲言:“世上沒有不宕機的云。” 如果想在這個事情上獲得解決辦法,業(yè)內(nèi)人士指出,唯有災(zāi)備。但是對于一個公有云平臺而言,一旦部署完備的災(zāi)備,那么每隔一段時間就需要流程化的演練,就像軍事演習一樣。這樣才可以未雨綢繆,在遭遇問題的時候,得到業(yè)務(wù)與數(shù)據(jù)的快速恢復(fù)。 然而,即便真的部署了完備的災(zāi)備中心與之云服務(wù)匹配,這還不夠。因為雖然系統(tǒng)和軟件可以實現(xiàn)自動化實現(xiàn)更好的智能監(jiān)測報警之類,可是對于災(zāi)備來說,還需要在演練的同時,保持良好的災(zāi)備策略包括自動化的策略與人工監(jiān)督的策略。 畢竟最終的實現(xiàn),還是需要人為來確定,特別是針對報警情況,如果人為不做硬件更新、不做bug的優(yōu)化、不做多副本的快照等等,只是靠日志,不能真正實現(xiàn)所有故障情況下的備份恢復(fù)。 可見災(zāi)備對于公有云廠商來說,看似簡單的靠公有云分布式的架構(gòu),異地中心的災(zāi)備,或者多副本的保障,但更多的考慮卻需要一個全面的策略,包括自動化智能機制和人工監(jiān)督的科學流程。 根據(jù)來自各大媒體網(wǎng)站公開信息,七個公有云服務(wù)提供商2020年出現(xiàn)故障或宕機情況統(tǒng)計如下,如果漏掉或有出入的信息,大家可以在文末留言評論。 2020年3月3日,微軟位于美國東部的數(shù)據(jù)中心發(fā)生了服務(wù)中斷,持續(xù)六小時,導(dǎo)致美國北部的客戶無法使用Azure云服務(wù)。 2020年3月16日,微軟Teams平臺涌入了大量新用戶,導(dǎo)致該服務(wù)在歐洲地區(qū)出現(xiàn)了持續(xù)2個小時的宕機。 2020年3月24日-26日,微軟Azure Pipelines發(fā)生故障,嚴重影響DevOps團隊使用的持續(xù)交付服務(wù),軟件開發(fā)人員受到的影響特別大。 2020年3月26日,Google多個云服務(wù)出現(xiàn)無法訪問的問題。Google用戶稱遇到了Google 500錯誤代碼(因內(nèi)部錯誤導(dǎo)致請求失?。┖?02錯誤代碼(網(wǎng)關(guān)出現(xiàn)故障)。Google將這次故障歸咎于“基礎(chǔ)設(shè)施組件”問題。 2020年4月8日,Google Cloud身份和訪問管理(IAM)API出現(xiàn)故障。這次故障從美國東部時間上午10:35開始,持續(xù)了不到90分鐘,導(dǎo)致多個Google服務(wù)中斷,包括App Engine、Cloud Functions、BigQuery及其核心Compute Engine IaaS。 2020年4月10日,華為云出現(xiàn)大面積宕機,華為云登錄、管理后臺無法訪問,部分公司業(yè)務(wù)無法正常維持。本次宕機持續(xù)約三小時。 2020年4月21日-23日,微軟旗下GitHub發(fā)生了多次宕機。4月21日,多個GitHub服務(wù)出現(xiàn)訪問異常,持續(xù)了一個半小時。4月22日,服務(wù)再次出現(xiàn)中斷,持續(xù)時間至少兩小時。4月23日,多個GitHub服務(wù)也遇到了各種問題的影響,持續(xù)了近三小時。 2020年5月28日,Adobe Creative Cloud發(fā)生宕機一整天的時間,故障波及包括Photoshop、InDesign和Premier Pro等備受歡迎的產(chǎn)品。 2020年6月9日,IBM Cloud遭遇了重大宕機故障,平臺上托管的多項服務(wù)也因此中斷,其中就包括知名科技新聞聚合網(wǎng)站 Techmeme。本次宕機事件從下午2點30分左右開始,并快速蔓延至全球,在下午6:30之后報告稱一系列問題已經(jīng)得以解決。本次宕機持續(xù)約四小時。 2020年8月6日,蘋果公司的系統(tǒng)狀態(tài)(System Status)頁面顯示,部分用戶無法使用其某些服務(wù),蘋果游戲中心、iCloud服務(wù)遭遇最新故障。 2020年8月14日,來自華為消息稱,華為云香港機房制冷設(shè)備出現(xiàn)異常。工程師已經(jīng)定位了潛在原因,并及時處理恢復(fù)。 2020年9月29日,Microsoft Office 365辦公軟件和Azure云產(chǎn)品出現(xiàn)故障,導(dǎo)致部分用戶服務(wù)中斷數(shù)小時,故障涉及Outlook電郵服務(wù)和Teams辦公協(xié)作工具的部分用戶。 2020年10月8日,微軟公有云美國區(qū)域的Azure服務(wù)出現(xiàn)了約一個小時的問題。微軟在其狀態(tài)頁面上寫道,北美區(qū)域訪問微軟或Azure服務(wù)(包括Azure政務(wù)服務(wù))可能遭遇問題,正在調(diào)查。 2020年11月25日,亞馬遜公有云服務(wù)Amazon Web Services(AWS)遭遇了持續(xù)數(shù)小時的故障,導(dǎo)致部分網(wǎng)站和服務(wù)系統(tǒng)崩潰,影響Adobe、Roku等服務(wù)。隨后亞馬遜AWS在其官方的服務(wù)健康報告頁面也更新了最新狀態(tài),稱美國US-EAST-1地區(qū)的Kinesis Data Streams API出現(xiàn)故障,導(dǎo)致客戶無法寫入和讀出發(fā)布至Kinesis streams的數(shù)據(jù),并影響更新網(wǎng)站頁面的能力,已著手緊急修復(fù)。 2020年12月15日,Google服務(wù)器突然遭遇全球大面積故障。在宕機的45分鐘內(nèi),谷歌旗下的多項服務(wù)無法訪問,包括Gmail郵箱,谷歌日歷、視頻網(wǎng)站YouTube等熱門應(yīng)用均受到嚴重影響,而這已經(jīng)是谷歌全年第四次宕機。(by Aming)
不過,要看懂某一年的云計算發(fā)展情況,在全球云觀察看來,需要基于一個更長的時間維度,再結(jié)合本年度的情況,這樣的回顧盤點才更有參考意義。 《這就是2020:全球云計算十一大年度話題盤點》也就如此照辦了。 - END- 你 怎 么 看 ? 歡迎文末留言評論! 歡迎文末評論補充!文章來源:Aming,全球云觀察,著作權(quán)歸作者所有。商業(yè)轉(zhuǎn)載請聯(lián)系作者獲得授權(quán),非商業(yè)轉(zhuǎn)載請注明出處。本文和作者回復(fù)僅代表個人觀點,不構(gòu)成任何投資建議。 都看到這里了,加個關(guān)注吧! 【阿明】:科技評論專欄作家、科技媒體從業(yè)24年、新聞評論年產(chǎn)出上百萬字,用數(shù)據(jù)說話,帶你看懂科技公司 |
|