IO模型圖解

web127 2016-06-16

展開全文

服務器端編程經常需要構造高性能的IO模型，常見的IO模型有四種：

（1）同步阻塞IO（Blocking IO）：即傳統(tǒng)的IO模型。

（2）同步非阻塞IO（Non-blocking IO）：默認創(chuàng)建的socket都是阻塞的，非阻塞IO要求socket被設置為NONBLOCK。注意這里所說的NIO并非Java的NIO（New IO）庫。

（3）IO多路復用（IO Multiplexing）：即經典的Reactor設計模式，有時也稱為異步阻塞IO，Java中的Selector和Linux中的epoll都是這種模型。

（4）異步IO（Asynchronous IO）：即經典的Proactor設計模式，也稱為異步非阻塞IO。

同步和異步的概念描述的是用戶線程與內核的交互方式：同步是指用戶線程發(fā)起IO請求后需要等待或者輪詢內核IO操作完成后才能繼續(xù)執(zhí)行；而異步是指用戶線程發(fā)起IO請求后仍繼續(xù)執(zhí)行，當內核IO操作完成后會通知用戶線程，或者調用用戶線程注冊的回調函數(shù)。

阻塞和非阻塞的概念描述的是用戶線程調用內核IO操作的方式：阻塞是指IO操作需要徹底完成后才返回到用戶空間；而非阻塞是指IO操作被調用后立即返回給用戶一個狀態(tài)值，無需等到IO操作徹底完成。

另外，Richard Stevens 在《Unix 網(wǎng)絡編程》卷1中提到的基于信號驅動的IO（Signal Driven IO）模型，由于該模型并不常用，本文不作涉及。接下來，我們詳細分析四種常見的IO模型的實現(xiàn)原理。為了方便描述，我們統(tǒng)一使用IO的讀操作作為示例。

一、同步阻塞IO

同步阻塞IO模型是最簡單的IO模型，用戶線程在內核進行IO操作時被阻塞。

圖1 同步阻塞IO

如圖1所示，用戶線程通過系統(tǒng)調用read發(fā)起IO讀操作，由用戶空間轉到內核空間。內核等到數(shù)據(jù)包到達后，然后將接收的數(shù)據(jù)拷貝到用戶空間，完成read操作。

用戶線程使用同步阻塞IO模型的偽代碼描述為：

{

read(socket, buffer);

process(buffer);

}

即用戶需要等待read將socket中的數(shù)據(jù)讀取到buffer后，才繼續(xù)處理接收的數(shù)據(jù)。整個IO請求的過程中，用戶線程是被阻塞的，這導致用戶在發(fā)起IO請求時，不能做任何事情，對CPU的資源利用率不夠。

二、同步非阻塞IO

同步非阻塞IO是在同步阻塞IO的基礎上，將socket設置為NONBLOCK。這樣做用戶線程可以在發(fā)起IO請求后可以立即返回。

圖2 同步非阻塞IO

如圖2所示，由于socket是非阻塞的方式，因此用戶線程發(fā)起IO請求時立即返回。但并未讀取到任何數(shù)據(jù)，用戶線程需要不斷地發(fā)起IO請求，直到數(shù)據(jù)到達后，才真正讀取到數(shù)據(jù)，繼續(xù)執(zhí)行。

用戶線程使用同步非阻塞IO模型的偽代碼描述為：

{

while(read(socket, buffer) != SUCCESS)

;

process(buffer);

}

即用戶需要不斷地調用read，嘗試讀取socket中的數(shù)據(jù)，直到讀取成功后，才繼續(xù)處理接收的數(shù)據(jù)。整個IO請求的過程中，雖然用戶線程每次發(fā)起IO請求后可以立即返回，但是為了等到數(shù)據(jù)，仍需要不斷地輪詢、重復請求，消耗了大量的CPU的資源。一般很少直接使用這種模型，而是在其他IO模型中使用非阻塞IO這一特性。

三、IO多路復用

IO多路復用模型是建立在內核提供的多路分離函數(shù)select基礎之上的，使用select函數(shù)可以避免同步非阻塞IO模型中輪詢等待的問題。

圖3 多路分離函數(shù)select

如圖3所示，用戶首先將需要進行IO操作的socket添加到select中，然后阻塞等待select系統(tǒng)調用返回。當數(shù)據(jù)到達時，socket被激活，select函數(shù)返回。用戶線程正式發(fā)起read請求，讀取數(shù)據(jù)并繼續(xù)執(zhí)行。

從流程上來看，使用select函數(shù)進行IO請求和同步阻塞模型沒有太大的區(qū)別，甚至還多了添加監(jiān)視socket，以及調用select函數(shù)的額外操作，效率更差。但是，使用select以后最大的優(yōu)勢是用戶可以在一個線程內同時處理多個socket的IO請求。用戶可以注冊多個socket，然后不斷地調用select讀取被激活的socket，即可達到在同一個線程內同時處理多個IO請求的目的。而在同步阻塞模型中，必須通過多線程的方式才能達到這個目的。

用戶線程使用select函數(shù)的偽代碼描述為：

{

select(socket);

while(1) {

sockets = select();

for(socket in sockets) {

if(can_read(socket)) {

read(socket, buffer);

process(buffer);

}

其中while循環(huán)前將socket添加到select監(jiān)視中，然后在while內一直調用select獲取被激活的socket，一旦socket可讀，便調用read函數(shù)將socket中的數(shù)據(jù)讀取出來。

然而，使用select函數(shù)的優(yōu)點并不僅限于此。雖然上述方式允許單線程內處理多個IO請求，但是每個IO請求的過程還是阻塞的（在select函數(shù)上阻塞），平均時間甚至比同步阻塞IO模型還要長。如果用戶線程只注冊自己感興趣的socket或者IO請求，然后去做自己的事情，等到數(shù)據(jù)到來時再進行處理，則可以提高CPU的利用率。

IO多路復用模型使用了Reactor設計模式實現(xiàn)了這一機制。

圖4 Reactor設計模式

如圖4所示，EventHandler抽象類表示IO事件處理器，它擁有IO文件句柄Handle（通過get_handle獲取），以及對Handle的操作handle_event（讀/寫等）。繼承于EventHandler的子類可以對事件處理器的行為進行定制。Reactor類用于管理EventHandler（注冊、刪除等），并使用handle_events實現(xiàn)事件循環(huán)，不斷調用同步事件多路分離器（一般是內核）的多路分離函數(shù)select，只要某個文件句柄被激活（可讀/寫等），select就返回（阻塞），handle_events就會調用與文件句柄關聯(lián)的事件處理器的handle_event進行相關操作。

圖5 IO多路復用

如圖5所示，通過Reactor的方式，可以將用戶線程輪詢IO操作狀態(tài)的工作統(tǒng)一交給handle_events事件循環(huán)進行處理。用戶線程注冊事件處理器之后可以繼續(xù)執(zhí)行做其他的工作（異步），而Reactor線程負責調用內核的select函數(shù)檢查socket狀態(tài)。當有socket被激活時，則通知相應的用戶線程（或執(zhí)行用戶線程的回調函數(shù)），執(zhí)行handle_event進行數(shù)據(jù)讀取、處理的工作。由于select函數(shù)是阻塞的，因此多路IO復用模型也被稱為異步阻塞IO模型。注意，這里的所說的阻塞是指select函數(shù)執(zhí)行時線程被阻塞，而不是指socket。一般在使用IO多路復用模型時，socket都是設置為NONBLOCK的，不過這并不會產生影響，因為用戶發(fā)起IO請求時，數(shù)據(jù)已經到達了，用戶線程一定不會被阻塞。

用戶線程使用IO多路復用模型的偽代碼描述為：

void UserEventHandler::handle_event() {

if(can_read(socket)) {

read(socket, buffer);

process(buffer);

}

{

Reactor.register(new UserEventHandler(socket));

}

用戶需要重寫EventHandler的handle_event函數(shù)進行讀取數(shù)據(jù)、處理數(shù)據(jù)的工作，用戶線程只需要將自己的EventHandler注冊到Reactor即可。Reactor中handle_events事件循環(huán)的偽代碼大致如下。

Reactor::handle_events() {

while(1) {

sockets = select();

for(socket in sockets) {

get_event_handler(socket).handle_event();

}

事件循環(huán)不斷地調用select獲取被激活的socket，然后根據(jù)獲取socket對應的EventHandler，執(zhí)行器handle_event函數(shù)即可。

IO多路復用是最常使用的IO模型，但是其異步程度還不夠“徹底”，因為它使用了會阻塞線程的select系統(tǒng)調用。因此IO多路復用只能稱為異步阻塞IO，而非真正的異步IO。

四、異步IO

“真正”的異步IO需要操作系統(tǒng)更強的支持。在IO多路復用模型中，事件循環(huán)將文件句柄的狀態(tài)事件通知給用戶線程，由用戶線程自行讀取數(shù)據(jù)、處理數(shù)據(jù)。而在異步IO模型中，當用戶線程收到通知時，數(shù)據(jù)已經被內核讀取完畢，并放在了用戶線程指定的緩沖區(qū)內，內核在IO完成后通知用戶線程直接使用即可。

異步IO模型使用了Proactor設計模式實現(xiàn)了這一機制。

圖6 Proactor設計模式

如圖6，Proactor模式和Reactor模式在結構上比較相似，不過在用戶（Client）使用方式上差別較大。Reactor模式中，用戶線程通過向Reactor對象注冊感興趣的事件監(jiān)聽，然后事件觸發(fā)時調用事件處理函數(shù)。而Proactor模式中，用戶線程將AsynchronousOperation（讀/寫等）、Proactor以及操作完成時的CompletionHandler注冊到AsynchronousOperationProcessor。AsynchronousOperationProcessor使用Facade模式提供了一組異步操作API（讀/寫等）供用戶使用，當用戶線程調用異步API后，便繼續(xù)執(zhí)行自己的任務。AsynchronousOperationProcessor 會開啟獨立的內核線程執(zhí)行異步操作，實現(xiàn)真正的異步。當異步IO操作完成時，AsynchronousOperationProcessor將用戶線程與AsynchronousOperation一起注冊的Proactor和CompletionHandler取出，然后將CompletionHandler與IO操作的結果數(shù)據(jù)一起轉發(fā)給Proactor，Proactor負責回調每一個異步操作的事件完成處理函數(shù)handle_event。雖然Proactor模式中每個異步操作都可以綁定一個Proactor對象，但是一般在操作系統(tǒng)中，Proactor被實現(xiàn)為Singleton模式，以便于集中化分發(fā)操作完成事件。

圖7 異步IO

如圖7所示，異步IO模型中，用戶線程直接使用內核提供的異步IO API發(fā)起read請求，且發(fā)起后立即返回，繼續(xù)執(zhí)行用戶線程代碼。不過此時用戶線程已經將調用的AsynchronousOperation和CompletionHandler注冊到內核，然后操作系統(tǒng)開啟獨立的內核線程去處理IO操作。當read請求的數(shù)據(jù)到達時，由內核負責讀取socket中的數(shù)據(jù)，并寫入用戶指定的緩沖區(qū)中。最后內核將read的數(shù)據(jù)和用戶線程注冊的CompletionHandler分發(fā)給內部Proactor，Proactor將IO完成的信息通知給用戶線程（一般通過調用用戶線程注冊的完成事件處理函數(shù)），完成異步IO。

用戶線程使用異步IO模型的偽代碼描述為：

void UserCompletionHandler::handle_event(buffer) {

process(buffer);

}

{

aio_read(socket, new UserCompletionHandler);

}

用戶需要重寫CompletionHandler的handle_event函數(shù)進行處理數(shù)據(jù)的工作，參數(shù)buffer表示Proactor已經準備好的數(shù)據(jù)，用戶線程直接調用內核提供的異步IO API，并將重寫的CompletionHandler注冊即可。

相比于IO多路復用模型，異步IO并不十分常用，不少高性能并發(fā)服務程序使用IO多路復用模型+多線程任務處理的架構基本可以滿足需求。況且目前操作系統(tǒng)對異步IO的支持并非特別完善，更多的是采用IO多路復用模型模擬異步IO的方式（IO事件觸發(fā)時不直接通知用戶線程，而是將數(shù)據(jù)讀寫完畢后放到用戶指定的緩沖區(qū)中）。Java7之后已經支持了異步IO，感興趣的讀者可以嘗試使用。

本文從基本概念、工作流程和代碼示例三個層次簡要描述了常見的四種高性能IO模型的結構和原理，理清了同步、異步、阻塞、非阻塞這些容易混淆的概念。通過對高性能IO模型的理解，可以在服務端程序的開發(fā)中選擇更符合實際業(yè)務特點的IO模型，提高服務質量。希望本文對你有所幫助。