數(shù)據中心交換機橫向虛擬化集群漫談

qweertt4747 2017-05-19

展開全文

　　虛擬化技術在數(shù)據中心是個時髦詞兒，有橫向虛擬化、縱向虛擬化、一虛多虛擬化、NVO3虛擬化等等。今天重點跟大家聊聊橫向虛擬化，以華為CloudEngine 12800系列為例，讓朋友們了解一下此技術的由來和發(fā)展史，深入淺出地介紹下各種橫向虛擬化技術的特點、以及各種場景下的選擇策略。

橫向虛擬化集群由來

　　在數(shù)據中心網絡發(fā)展初期，沒有專門的數(shù)據中心交換機，那咋辦？先拿園區(qū)交換機頂著，使用最傳統(tǒng)的VRRP+STP，湊合著用吧，就是下面這張經典的園區(qū)網絡。

數(shù)據中心交換機橫向虛擬化集群漫談

　　這個網絡模型，透著濃濃的經典、可靠的園區(qū)味道?？蓵r間久了，問題就來了：

　　● 流量越來越大，STP阻斷導致鏈路利用率低；

　　● 非最短路徑轉發(fā)，樹根存在帶寬瓶頸，轉發(fā)時延大；

　　● VRRP單活網關，備節(jié)點設備閑置；

　　● STP網絡規(guī)模受限，收斂性能較差；

　　● 管理節(jié)點多，邏輯拓撲復雜，維護麻煩。

　　這些問題帶來橫向虛擬化的訴求，框式交換機集群率先登場。

堆疊

　　典型的框式交換機堆疊，有CISCO的VSS（Virtual Switch System）、華為的CSS（Cluster Switch System）、H3C的IRF（Intelligent Resilient Framework）。VSS、CSS、IRF在本質上都是堆疊，只是穿了不同的馬甲而已，當然各廠家也發(fā)展出一些差異，這是后話。

　　堆疊技術，本質上就是合并，管理平面、控制平面、轉發(fā)平面的全面合并。堆疊系統(tǒng)的主控板，管理兩臺物理設備的所有線卡和網板，變成一個邏輯的大交換機。

數(shù)據中心交換機橫向虛擬化集群漫談

　　但需要注意，堆疊目的不僅僅是為了變大，從網絡角度看一下邏輯拓撲，一下變得"高富帥"！

數(shù)據中心交換機橫向虛擬化集群漫談

　　"高富帥"的主要表現(xiàn)：

　　● 幾乎兩倍交換能力的超級節(jié)點；

　　● 二三層轉發(fā)流量完全負載分擔，充分利用所有鏈路；

　　● 邏輯單節(jié)點，業(yè)務支持全面，網絡方案設計簡單；

　　● 通過部署跨框link-agg，支持物理節(jié)點的故障保護；

　　● 網元二合一，有利于網絡管理和維護。

　　還有零零碎碎的好處也不少：

　　● 最短路徑轉發(fā)，時延低；

　　● 相對傳統(tǒng)STP，可以組建更大的二層網絡；

　　● link-agg的收斂性能，網絡故障收斂塊。

　　在堆疊系統(tǒng)中，堆疊鏈路的帶寬相對于業(yè)務端口，帶寬總是不夠的。這就要求轉發(fā)的業(yè)務流量盡量避免經過堆疊鏈路，這就是所謂的流量本地優(yōu)先轉發(fā)。

數(shù)據中心交換機橫向虛擬化集群漫談

　　如上圖所示，華為數(shù)據中心交換機堆疊系統(tǒng)，對三層ECMP、鏈路捆綁支持本地優(yōu)先。本地優(yōu)先轉發(fā)節(jié)省了堆疊鏈路帶寬，同時也達到減少轉發(fā)時延的目的。

　　除了上述通用的堆疊技術，華為CloudEngine 12800系列數(shù)據中心高端交換機，還針對堆疊的可靠性，做了重大的體質性的優(yōu)化。

堆疊的優(yōu)化

可靠性優(yōu)化（轉控分離的堆疊）

　　轉控分離的堆疊，也稱為帶外堆疊，這個優(yōu)化主要目的是高可靠性。

　　業(yè)界大部分框式交換機的堆疊，堆疊成員間的控制通道和轉發(fā)通道都使用一個通道。華為的CloudEngine 12800系列數(shù)據中心交換機獨創(chuàng)性的開發(fā)了轉控分離的堆疊系統(tǒng)。這里的"轉"指的是業(yè)務數(shù)據轉發(fā)通道；"控"指的是控制消息（也稱為"信令"）通道。

　　傳統(tǒng)的框式堆疊系統(tǒng)，業(yè)務數(shù)據通道和控制消息通道都使用相同的物理通道，即堆疊鏈路。如下圖所示：

數(shù)據中心交換機橫向虛擬化集群漫談

　　這種堆疊系統(tǒng)，控制消息和數(shù)據混合在一起運行，如果堆疊通道的數(shù)據通信量大，則可能導致控制消息受到沖擊而丟失，進而影響控制面的可靠性。嚴格來說，這種設計沒有滿足"數(shù)據、控制、管理平面分離"的設計要求。此外，堆疊系統(tǒng)的建立，依賴線卡的啟動，導致軟件復雜度的提高，以及影響堆疊的啟動速度。

　　轉控分離的堆疊系統(tǒng)，采用如下所示架構：

數(shù)據中心交換機橫向虛擬化集群漫談

　　該硬件堆疊架構帶來一系列可靠性的提升：

　　● 控制消息通道和業(yè)務數(shù)據通道物理隔離，保證業(yè)務數(shù)據不影響控制消息；

　　● 三重的雙主故障防護，包括堆疊管理鏈路(4路)、堆疊轉發(fā)鏈路（至少2路）、業(yè)務端口/管理端口DAD；

　　● 堆疊系統(tǒng)建立，不再依賴線卡的啟動，無軟件時序依賴，簡化軟件實現(xiàn)，而簡單意味著可靠；

　　● 堆疊系統(tǒng)建立，不再等待線卡/網板的啟動，縮短堆疊系統(tǒng)建立時間；

　　● 控制消息通道路徑短，故障點少，時延低。

堆疊改良的局限性

　　堆疊系統(tǒng)帶來了前述系列的好處，但慢慢的，令人不爽的問題也逐漸暴露出來，這是由堆疊原理本質決定的。

數(shù)據中心交換機橫向虛擬化集群漫談

　　如上圖所示，兩臺交換機通過管理平面、控制平面、數(shù)據平面的緊耦合，形成邏輯上的一臺交換機。這導致了如下三個風險或者問題。

　　● 整系統(tǒng)級可靠性風險

　　對于普通的故障，堆疊系統(tǒng)可通過鏈路切換、主備板切換、框切換等完成故障保護。但是由于整個系統(tǒng)的兩臺物理switch在軟件（管理平面、控制平面）是緊耦合的，這就增大軟件故障從一臺switch擴散到另一臺Switch的可能性。一旦出現(xiàn)這種類型的故障，將導致整個堆疊系統(tǒng)的故障，影響堆疊系統(tǒng)接入的所有業(yè)務。

　　● 版本升級的業(yè)務中斷時間長

　　由于堆疊本身承擔了業(yè)務保護功能，因此當堆疊系統(tǒng)升級時，不能像VRRP的成員節(jié)點升級時由另外一個節(jié)點進行流量保護，中斷時間比較長。

　　對此，各廠商開發(fā)出了兩框RoundRobin和ISSU的升級方式，這些升級方式縮短了升級時的業(yè)務中斷時間，但并不解決下面所說的升級風險，甚至因為技術復雜度、軟件工程復雜度的提升，放大了升級風險。

　　● 整系統(tǒng)升級風險

　　設備軟件版本升級，即使采用最傳統(tǒng)、簡單的升級方式，也是一個帶風險的網絡操作。設備升級失敗將導致該設備所帶業(yè)務失效，這種情況下，要采用包括回退在內的一切手段盡快恢復業(yè)務。

　　堆疊系統(tǒng)由于成員交換機間的緊耦合，只能是兩臺設備一起升級，升級失敗將導致堆疊系統(tǒng)下所有業(yè)務網絡中斷。而堆疊系統(tǒng)，在接入層往往承擔服務器雙歸保護接入的角色、或者在匯聚承擔高可靠性網關的角色，這意味著升級失敗很可能導致整個業(yè)務的癱瘓。

Link-agg虛擬化（M-LAG）

　　橫向虛擬化，從需求角度是為了滿足接入層、匯聚層的二層跨設備冗余、匯聚層L3網關的跨設備冗余。那是否還有其他技術，支持橫向虛擬化，又沒有堆疊的哪些問題？

　　答案當然是有，華為CloudEngine系列數(shù)據中心交換機的M-LAG（Multichassis Link Aggregation Group）就支持這樣的虛擬化技術。該技術只在兩臺設備的link-agg層面實現(xiàn)二層虛擬化，兩臺成員設備的管理和控制平面是獨立的。

　　注：維基百科稱此技術為MC-LAG（Multi-Chassis Link Aggregation Group），CISCO稱之為vPC（Virtual Port-Channel）。下文都采用維基百科的術語，即簡寫為MC-LAG。

數(shù)據中心交換機橫向虛擬化集群漫談