基于云計算的數(shù)據(jù)挖掘平臺架構及其關鍵技術研究[圖]

funson 2013-03-13

展開全文

隨著互聯(lián)網(wǎng)尤其是移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)的快速發(fā)展，目前我們已處于數(shù)據(jù)、信息過載的海量信息時代。據(jù)數(shù)據(jù)調查公司IDC 研究報告顯示：2011 年全球被創(chuàng)建和復制的數(shù)據(jù)總量為1.8 ZB，較去年同期，這一數(shù)據(jù)上漲了1 ZB，全球信息總量每過兩年就會增長1 倍。用戶面對海量信息卻很難找到自己真正感興趣的內容[1]。同時隨著運營商逐漸推出移動互聯(lián)網(wǎng)產(chǎn)品應用商店、閱讀、游戲、社區(qū)等產(chǎn)品，如何分析挖掘這些產(chǎn)品生成的海量數(shù)據(jù)，將成為運營商迫切需要解決的問題。

云計算的出現(xiàn)，使得數(shù)據(jù)挖掘平臺有了新的發(fā)展方向，也使得新一代的數(shù)據(jù)挖掘平臺成為可能。云計算是能夠提供動態(tài)資源、虛擬化和高可用的計算平臺。云計算平臺可被用來開發(fā)高性能的應用程序[2-3]。但是對于數(shù)據(jù)挖掘來說，海量數(shù)據(jù)本身具有噪聲、異構、算法復雜、技術復雜等問題，而現(xiàn)在的云計算開發(fā)平臺并沒有提供數(shù)據(jù)規(guī)約等功能。因此文章通過對于數(shù)據(jù)挖掘、云計算的詳細描述和分析，提出了基于云計算的數(shù)據(jù)挖掘平臺。該平臺架構基于云計算的基礎能力，并符合云計算軟件即服務(SaaS)的設計理念。該平臺還能極大減少運營商、企業(yè)在數(shù)據(jù)挖掘技術上的投入并能加快其挖掘業(yè)務的推出，縮短研發(fā)周期，進一步提高產(chǎn)品收益。

1 基于云計算的數(shù)據(jù)挖掘策略

1.1 數(shù)據(jù)挖掘

數(shù)據(jù)挖掘[4-6]是一個從大量的、不完全的、有噪聲的、模糊的、隨機的實際數(shù)據(jù)中提取隱含在其中的但具有潛在實用信息和知識的過程。從數(shù)據(jù)挖掘的定義可以看出數(shù)據(jù)挖掘是知識發(fā)現(xiàn)領域的一個重要技術，它涉及到人工智能、機器學習、模式識別、統(tǒng)計學等高技術領域，具體技術包括特征化、關聯(lián)、聚類、預測分析等。數(shù)據(jù)挖掘在互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、電信、金融、科學研究等領域得到了廣泛的應用，例如Facebook 的好友推薦、和淘寶網(wǎng)的商品推薦、銀行的防欺詐分析等。傳統(tǒng)的數(shù)據(jù)挖掘技術建立在關系型數(shù)據(jù)庫、數(shù)據(jù)倉庫之上的，對數(shù)據(jù)進行計算，找出隱藏在數(shù)據(jù)中的模型或關系，并在大規(guī)模的數(shù)據(jù)上進行數(shù)據(jù)訪問和統(tǒng)計計算，整個挖掘的過程需要消耗大量的計算資源以及存儲資源[7]。

隨著云時代的到來和移動互聯(lián)網(wǎng)的快速發(fā)展，數(shù)據(jù)規(guī)模從MB、級發(fā)展到TB、PB 級甚至EB、ZB 級，并且面臨著TB 級的增長速度，數(shù)據(jù)挖掘的要求和環(huán)境也變得越來越復雜，從而形成“數(shù)據(jù)量的急劇膨脹”和“ 數(shù)據(jù)深度分析需求的增長”這兩大趨勢，使得40 年來一直適用的數(shù)據(jù)庫系統(tǒng)架構在海量數(shù)據(jù)挖掘方面顯得力不從心[8]。

綜合上述，傳統(tǒng)的數(shù)據(jù)挖掘技術及其體系架構在云時代的海量數(shù)據(jù)中已經(jīng)出現(xiàn)了不少問題，其中首先是挖掘效率的問題，傳統(tǒng)的基于單機的挖掘算法或基于數(shù)據(jù)庫、數(shù)據(jù)倉庫的挖掘技術及并行挖掘已經(jīng)很難高效地完成海量數(shù)據(jù)的分析；其次高昂的軟硬件成本也阻止了云時代數(shù)據(jù)挖掘系統(tǒng)的發(fā)展；最后傳統(tǒng)的體系架構不能完成挖掘算法能力的提供，基本是在以單個算法為整體模塊，用戶只能使用已有的算法或重新編寫算法完成自己獨特的業(yè)務。

云計算云計算[9-10]是一種商業(yè)計算模式，它將計算任務分布在大量計算機構成的資源池上，使各種應用系統(tǒng)能夠根據(jù)需要獲取計算力、存儲空間和信息服務。同時云計算是并行計算、分布式計算和網(wǎng)格計算的發(fā)展，或者說是這些計算科學概念的商業(yè)實現(xiàn)。

通常認為云計算包括以下3 個層次的服務：基礎設施即服務（IaaS）、平臺即服務（PaaS）、SaaS；其中IaaS 提供以硬件設備為基礎的計算、存儲和網(wǎng)絡服務，實現(xiàn)了對硬件資源的抽象并服務化提供，使得分布式計算和分布式存儲成為現(xiàn)實。

云計算具有一些特點[10-11]：

(1)虛擬化。云計算支持用戶在任意位置使用各種終端以獲取應用服務，所請求的資源來自云而不是固定的、有形的實體，并且對于用戶來說只需要使用云提供的服務即可。

(2)通用性。云計算不針對特定的應用，而是可以在云的支撐下構造出千變萬化的應用，同一個云可以同時支撐不同的應用運行。

(3)高可擴展性及超大規(guī)模。云的規(guī)?？梢詣討B(tài)擴展，并且這種動態(tài)擴展對用戶是透明的，并且不影響用戶的業(yè)務和應用。同時這種擴展是超大規(guī)模的，如Google 云計算已經(jīng)擁有上百萬臺服務器，Amazon、IBM、微軟等也擁有幾十萬臺服務器。

(4)可靠性高。云計算使用多副本容錯、多計算節(jié)點同構可互換等措施來保障服務的高可靠性。

(5)經(jīng)濟性好。云的特殊容錯機制導致可以采用廉價的節(jié)點來構成云，而云的自動化集中式管理使得大量企業(yè)無需負擔日益高昂的數(shù)據(jù)中心管理成本。云的通用性使資源的利用率較之傳統(tǒng)系統(tǒng)大幅提升，因此用戶可以充分享受云的低成本優(yōu)勢。

1.3 數(shù)據(jù)挖掘云化策略

云計算的出現(xiàn)即給數(shù)據(jù)挖掘帶來了問題和挑戰(zhàn)，也給數(shù)據(jù)挖掘帶來新的機遇—— 數(shù)據(jù)挖掘技術將會出現(xiàn)基于云計算的新模式。如何構建基于云計算的數(shù)據(jù)挖掘平臺也將是業(yè)界面臨的主要問題之一，創(chuàng)建一個用戶參與、開發(fā)技術要求不高的、快速響應的數(shù)據(jù)挖掘平臺也是迫切需要解決的問題。

從業(yè)界對云計算的理解來看，云計算動態(tài)的、可伸縮的計算能力使得高效的海量數(shù)據(jù)挖掘成為可能。云計算SaaS 功能的理解和標準化，使得基于的數(shù)據(jù)挖掘SaaS 化有了技術和理論的支持，也將使得數(shù)據(jù)挖掘面向大眾化和企業(yè)化。文章主要是從基于云計算平臺的數(shù)據(jù)挖掘服務化、挖掘算法并行化、挖掘算法組件化角度進行構建數(shù)據(jù)挖掘SaaS 平臺，如圖所示。

如圖1 所示，文章提出的基于云計算的數(shù)據(jù)挖掘平臺架構采用分層的思想：首先底層支撐采用云計算平臺，并使用云計算平臺提供的分布存儲以及分布式計算能力完成數(shù)據(jù)挖掘計算能力的并行實現(xiàn)；其次數(shù)據(jù)挖掘平臺在設計上采用分布式、可插拔組件化思路，支持多算法部署、調度等；最后數(shù)據(jù)挖掘平臺提供的算法能力采用服務的方式對外暴露，并支持不同業(yè)務系統(tǒng)的調用，從而較方便地實現(xiàn)業(yè)務系統(tǒng)的推薦、挖掘等相關功能需求。

2 數(shù)據(jù)挖掘平臺云架構

云計算的分布式存儲和分布式計算促使了新一代數(shù)據(jù)挖掘平臺的變革。圖2 是基于云的數(shù)據(jù)挖掘平臺架構?？紤]到挖掘算法和推薦算法的并行化和分布化是一個專門的、大的課題，因此文章暫不包含具體算法的并行化和云化的內容。

如圖2 所示，該平臺是基于云計算平臺實現(xiàn)的數(shù)據(jù)挖掘云服務平臺，采用分層設計的思想以及面向組件的設計思路，總體上分為3 層，自下向上依次為：云計算支撐平臺層、數(shù)據(jù)挖掘能力層、數(shù)據(jù)挖掘云服務層。

云計算支撐平臺層

云計算支撐平臺層主要是提供分布式文件存儲、數(shù)據(jù)庫存儲以及計算能力。中興通訊有自主研發(fā)的云計算平臺，該架構可以基于企業(yè)自主研發(fā)的云計算平臺，也可以基于第三方提供的云計算平臺。

數(shù)據(jù)挖掘能力層

數(shù)據(jù)挖掘能力層主要是提供挖掘的基礎能力，包含算法服務管理、調度引起、數(shù)據(jù)并行處理框架，并提供對數(shù)據(jù)挖掘云服務層的能力支撐。該層可以支持第三方挖掘算法工具的接入，例如Weka、Mathout 等分布式算法庫，同時也可以提供內部的數(shù)據(jù)挖掘算法和推薦算法庫。

數(shù)據(jù)挖掘云服務層

云服務層主要是對外提供數(shù)據(jù)挖掘云服務，服務能力封裝的接口形式可以是多樣的，包括基于簡單對象訪問協(xié)議(SOAP) 的Webservice、、HTTP、XML 或本地應用程序編程接口(API) 等多種形式。云服務層也可以支持基于結構化查詢語言語句的訪問，并提供解析引擎，以自動調用云服務。各個業(yè)務系統(tǒng)可以根據(jù)數(shù)據(jù)和業(yè)務的需要調用、組裝數(shù)據(jù)挖掘云服務。

文章提出的基于云計算的數(shù)據(jù)挖掘平臺與傳統(tǒng)的數(shù)據(jù)挖掘系統(tǒng)架構相比有高可擴展性、海量數(shù)據(jù)處理能力、面向服務、硬件成本低廉等優(yōu)越性，可以支持大范圍分布式數(shù)據(jù)挖掘的設計和應用。

3 基于云計算數(shù)據(jù)挖掘平臺的關鍵技術

3.1 云計算技術

分布式計算是解決海量數(shù)據(jù)挖掘任務，提高海量數(shù)據(jù)挖掘的有效手段之一，在理論和實踐上已經(jīng)獲得證實。分布式計算包含了分布式存儲和并行計算兩個層面的內容，而云計算平臺提供了分布式文件存儲和并行的計算能力，因此很好地解決了這兩個層面的內容。下面主要分析幾個主流的分布式文件系統(tǒng)和分布式并行計算框架，以更好地構建云計算數(shù)據(jù)挖掘平臺的核心支撐能力。

分布式文件系統(tǒng)有效地解決了海量數(shù)據(jù)存儲問題，并實現(xiàn)了位置透明、移動透明、性能透明、擴展透明、高容錯、高安全、高性能等關鍵功能。目前業(yè)界比較流行分布式文件系統(tǒng)有Google 文件系統(tǒng)(GFS)、分布式文件系統(tǒng)(HDFS)、文件系統(tǒng)(KFS)，這3 種分布式文件系統(tǒng)都是基于Goolgle 提出的分布式文件系統(tǒng)理論進行研發(fā)的。Google提出的GFS 就是解決其海量數(shù)據(jù)存儲和搜索、分析等問題，而和KFS 是基于GFS 理論基礎上實現(xiàn)的開源系統(tǒng)，并且在商業(yè)和學術領域得到了廣泛的應用。

分布式并行計算框架對于高效完成數(shù)據(jù)挖掘計算任務極其重要，并且它對分布式計算的一些技術細節(jié)進行了封裝，例如數(shù)據(jù)分布、任務并行、任務調度、負載平衡、任務容錯、系統(tǒng)容錯等，使用戶不需要考慮這些細節(jié)，而只要考慮任務間的邏輯關系。這樣不僅可以提高研發(fā)的效率，還可以降低系統(tǒng)維護的成本。目前典型的分布式計算框架有：

。MapReduce 是提出的一個并行計算框架，它可以在大量PC 機上并行執(zhí)行海量數(shù)據(jù)的收集和分析任務。它把如何進行任務并行執(zhí)行、如何進行數(shù)據(jù)分布、如何容錯、網(wǎng)絡帶寬時延等問題的解決方案編碼，并封裝在了一個庫里面，使用戶只需要執(zhí)行數(shù)據(jù)運算即可，而不必關心并行計算、容錯、數(shù)據(jù)分布、負載均衡等復雜的細節(jié)。同時它又對上層應用提供良好簡單的抽象接口。MapReduce 主要應用在搜索、數(shù)據(jù)倉庫、數(shù)據(jù)挖掘領域。

。Pregel 是Google 提出的迭代處理計算框架，它具有高效、可擴展和容錯的特性，并隱藏了分布式相關的細節(jié)，展現(xiàn)給人們的僅僅是一個表現(xiàn)力很強、很容易編程的大型圖算法處理的計算框架。Pregel 的主要應用場景是大型的圖計算，例如交通線路、疾病爆發(fā)路徑、WEB 搜索等相關領域。

。Dryad 是微軟硅谷研究院創(chuàng)建的研究項目，主要用來提供一個基于windows 操作系統(tǒng)的分布式計算平臺，總體用來支持有向無環(huán)圖類型數(shù)據(jù)流的并行程序。微軟于年宣布，停止對Dryad 進行版本升級，轉投Hadoop 即MapReduce 計算框架。

目前業(yè)界開源的云計算平臺平臺，包含HDFS 和MapReduce，為海量數(shù)據(jù)挖掘平臺提供完備的云計算平臺支撐平臺[12]。

3.2 數(shù)據(jù)匯集調度中心

數(shù)據(jù)匯集調度中心實現(xiàn)對接入本平臺的業(yè)務數(shù)據(jù)的匯集，可以解決不同數(shù)據(jù)的規(guī)約問題，并支持各種不同的源數(shù)據(jù)格式。源數(shù)據(jù)格式支持聯(lián)機事務處理系統(tǒng)(OLTP)數(shù)據(jù)、聯(lián)機分析處理系統(tǒng)(OLAP)數(shù)據(jù)、各種日志數(shù)據(jù)、爬蟲數(shù)據(jù)等，同時要提供多種數(shù)據(jù)同步方式，例如數(shù)據(jù)庫實時同步、socket 消息同步、文件傳輸協(xié)議同步等各種各樣的方式，如圖3所示。

數(shù)據(jù)匯集調度中心主要是完成對不同類型數(shù)據(jù)的匯集。本數(shù)據(jù)匯集調度中心采用模板化設計技術，支持新數(shù)據(jù)的模板和元數(shù)據(jù)配置以達到不同業(yè)務數(shù)據(jù)的統(tǒng)一收集和規(guī)約。

3.3 服務調度和服務管理技術

為了能夠讓不同的業(yè)務系統(tǒng)使用本計算平臺，平臺必須要提供服務調度和服務管理功能。服務調度根據(jù)服務的優(yōu)先級以及服務和資源的匹配情況等進行調度，解決服務的并行互斥、隔離等，保證數(shù)據(jù)挖掘平臺的云服務是安全、可靠的，并根據(jù)服務管控進行調度控制。

服務管理實現(xiàn)統(tǒng)一的服務注冊、服務暴露等功能，不僅支持本地服務能力的暴露，也支持第三方數(shù)據(jù)挖掘能力的接入，很好地擴展數(shù)據(jù)挖掘平臺的服務能力。

3.4 挖掘算法并行化技術

挖掘算法并行化是有效利用云計算平臺提供的基礎能力的關鍵技術之一，涉及到算法是否可以并行、以及并行策略的選擇等技術。文章通過K-means 聚類算法并行化并行計算框架來說明挖掘算法的并行化技術[13]。

3.4.1 K-means 算法的主要思想

K-means算法的主要思想是基于使聚類性能指標最小化。這里所用的聚類準則函數(shù)是聚類集中每一樣本點到該類簇中心點距離平方之和，并使它最小化。如圖4 所示，K 均值算法的處理流程如下：首先，隨機地選擇k 個對象，每個對象代表一個簇的初始均值和中心；對剩余的每個對象，則根據(jù)其與各個簇的均值距離，將它指派到最相似的簇；然后計算每個簇的新均值。這個過程不斷重復，直到準則函數(shù)收斂。通常，采用平方誤差準則，其定義如(1)：

其中，E 是數(shù)據(jù)集中所有對象的平方誤差和，p 是空間中的點，表示給定的對象，mi 是簇Ci 的均值。對于每個簇中的每個對象，首先要求出對象到其簇中心的均值的平方，然后再求和。

3.4.2 K-means 并行化思路

是以聚類中心來劃分聚類的，一旦k 個聚類中心確定了，聚類可立即完成。因此，這里主要講述如何并行實現(xiàn)更新聚類中心[14]。

在隨機的初始化k 個聚類中心以后，每一次任務的執(zhí)行都會更新當前個聚類中心的值。在映射階段，對于每一個樣本O S ，需要計算與其最近的聚類中心O i (0≤i ≤，然后輸出<i , O S >鍵值對。

在化簡(Reducer) 階段，框架會收集屬于相同鍵的值，相當于對每個聚類中心O i (0≤i ≤k -1) ，而離它最近的樣本都會作為值收集起來。這樣Reducer 里就可以利用這些樣本重新估計出k 個聚類中心，如所示：

這樣，在一輪MapReduce 完成后，新的聚類中心也已經(jīng)計算出來。通過比較本輪聚類中心與上一輪聚類中心差異度，可確定算法是否收斂。

4 結束語

文章通過對數(shù)據(jù)挖掘和云計算技術的發(fā)展分析，提出了基于云計算的數(shù)據(jù)挖掘平臺架構以及數(shù)據(jù)挖掘服務化的思路。本平臺不僅僅是基于云計算實現(xiàn)了一個數(shù)據(jù)挖掘平臺，同時也對數(shù)據(jù)挖掘平臺進行了化。本平臺可以為運營商、企業(yè)提供效益增值的數(shù)據(jù)挖掘應用，同時也減少了運營商、企業(yè)在數(shù)據(jù)挖掘技術上的投入。運營商、企業(yè)即可以創(chuàng)建自己內部的數(shù)據(jù)挖掘私有云，為內部產(chǎn)品提供數(shù)據(jù)挖掘服務，也可以提供數(shù)據(jù)挖掘公用云，為不同的企業(yè)提供數(shù)據(jù)挖掘服務。

參考文獻

[1] 云時代企業(yè)數(shù)據(jù)挖掘面臨的挑戰(zhàn)(1)[EB/OL].http://cloud./storage-134538_1.htm

[2] 陳康，鄭緯民. 云計算:系統(tǒng)實例與研究現(xiàn)狀[J].軟件學報,2009,20(5):1337-1348.

[3] 紀?。环N基于云計算的數(shù)據(jù)挖掘平臺架構設計與實現(xiàn)[D].青島:青島大學，2009.

[4] J Han, M Kamber. Data mining concepts and techniques[M].Third Edition.San Francisco,CA,USA:Morgan Kaufmann Publishers,2012.

[5] 邵峰晶,于忠清.數(shù)據(jù)挖掘原理與算法[M].北京:科學出版社，2009．

[6] 商琳,駱斌．一種基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘系統(tǒng)的結構框架［J］．計算機應用研究，2000，17（9）:63-65．

[7] 楊艦友, 唐彥. 云計算總體架構及其應用與商業(yè)模式探討[J]. 數(shù)字通信,2012,(3):3-6.

[8] 何清. 基于云計算的海量數(shù)據(jù)挖掘[C/OL]//第二屆中國云計算大會,2010 年5 月21-22 日,北京.http://blog.sina.com.cn/s/blog_66248a9e0100z38d.html

[9] 楊勇,董振江,陸平. 具備云計算特性的業(yè)務交付平臺及其關鍵技術研究[J]. 中興通訊技術,2011,17(5):55-57.

[10] 吳朱華.云計算核心技術剖析[M].北京:人民郵電出版社,2011．

[11] 劉鵬.云計算[M]. 北京:電子工業(yè)出版社,2011．

[12] 夏英, 楊選倫. 云環(huán)境中基于金字塔模型的影像數(shù)據(jù)存儲方法[J]. 重慶郵電大學學報（自然科學版）,2012,24(6):669-674.

[13] 余永紅,向曉軍,高陽等. 面向服務的云數(shù)據(jù)挖掘引擎的研究[J]. 計算機科學與探索,2012,6(1),46-57.

[14]李智龍宿紹瑩唐鵬飛陳曾平. 基于數(shù)字信道化的正弦信號快速測頻方法[J]. 雷達科學與技術, 2011,9(5):55-58.

作者：丁巖楊慶平錢煜明來源：中興通訊技術

一.為什么需要“基于云計算”？

如果把人類發(fā)展的歷史看作一條按照一定目的向前延伸的軌跡，那么就會發(fā)現(xiàn)，它是沿著信息不斷膨脹的方向前進的。今天，互聯(lián)網(wǎng)應用、商業(yè)智能數(shù)據(jù)分析、科學數(shù)據(jù)處理等具有海量數(shù)據(jù)挖掘需求的應用變得越來越普遍，如何高效管理、分析這些海量數(shù)據(jù)成為當前急需解決的問題；這些數(shù)據(jù)的異構性（即類型各異的結構化、半結構化以及非結構化數(shù)據(jù)）又進一步加劇了海量數(shù)據(jù)處理的難度。

數(shù)據(jù)挖掘是指從大量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的過程，能夠發(fā)現(xiàn)隱含在大規(guī)模數(shù)據(jù)中的知識，從而指導人們決策。數(shù)據(jù)挖掘主要涉及特征化、區(qū)分、關聯(lián)或相關分析、分類、聚類、演變分析等等，在互聯(lián)網(wǎng)應用、電子商務、電信、金融、醫(yī)療、交通、軍事、科學研究等等諸多領域的決策分析中被廣泛應用。目前，常用的傳統(tǒng)數(shù)據(jù)挖掘軟件有：SQL server 2008、SPSS、SAS、R、Weka、Clementine、Statistica等等。數(shù)據(jù)挖掘技術與關系型數(shù)據(jù)庫、數(shù)據(jù)倉庫系統(tǒng)密切相關；通常需要遍歷訓練數(shù)據(jù)獲得相關的統(tǒng)計信息，用于求解或優(yōu)化模型參數(shù)；在大規(guī)模數(shù)據(jù)上進行頻繁的數(shù)據(jù)訪問需要耗費大量運算時間。近年來，數(shù)據(jù)規(guī)模從MB、GB級發(fā)展到TB、PB級甚至EB、ZB級，數(shù)據(jù)挖掘的要求和環(huán)境也變得越來越復雜，從而形成“數(shù)據(jù)量的急劇膨脹”和“數(shù)據(jù)深度分析需求的增長”這兩大趨勢，使得40年來一體適用的數(shù)據(jù)庫系統(tǒng)架構在海量數(shù)據(jù)挖掘方面顯得力不從心。

分布式計算/并行計算（尤其是低成本的計算）是解決海量數(shù)據(jù)挖掘任務的有效手段。云計算是并行計算、分布式計算和網(wǎng)格計算等計算機科學概念的商業(yè)實現(xiàn)，它可以將計算任務分布在大量互連的計算機上，使各種應用系統(tǒng)能夠根據(jù)需要獲取計算資源、存儲資源和其他服務資源。按照中國電子學會云計算專家委員會的學術定義，云計算是一種基于互聯(lián)網(wǎng)的、大眾參與的計算模式，其計算資源（包括計算能力、存儲能力、交互能力等）是動態(tài)、可伸縮、被虛擬化的，并以服務的方式提供。這個新興領域中的MapReduce、Hadoop等高擴展性、高性能的并行計算編程模型、分布式海量數(shù)據(jù)處理框架以及相關關鍵技術，使得海量數(shù)據(jù)存儲和分布式計算成為現(xiàn)實。基于云計算的海量數(shù)據(jù)挖掘技術，依賴于云計算平臺提供的低成本分布式并行計算環(huán)境，可以為更多、更復雜的海量數(shù)據(jù)挖掘問題提供新的理論與支撐工具，為愈來愈多的企業(yè)分析海量數(shù)據(jù)提供解決方案，并大大減少它們應用商務智能的成本。

二、 基于云計算的海量數(shù)據(jù)挖掘技術熱點

2004年，Google公司最先提出MapReduce技術作為面向大數(shù)據(jù)分析和處理的并行計算模型，主要包含3個層面的內容：(1) 分布式文件系統(tǒng)；(2) 并行編程模型；(3) 并行執(zhí)行引擎。它首先為用戶提供分布式的文件系統(tǒng)，使用戶能方便地處理大規(guī)模數(shù)據(jù)；然后將所有的程序運算抽象為Map和Reduce兩個基本操作，在Map階段模型將問題分解為更小規(guī)模的問題，并在集群的不同節(jié)點上執(zhí)行，在Reduce階段將結果歸并匯總。MapReduce在設計之初，致力于通過大規(guī)模廉價服務器集群實現(xiàn)大數(shù)據(jù)的并行處理，它把擴展性和系統(tǒng)可用性放在了優(yōu)先考慮的位置。2005年初，Douglas Cutting等人在開源搜索引擎系統(tǒng)Nutch上實現(xiàn)了一個MapReduce系統(tǒng)；2006年，他們將MapReduce和NDFS（Nutch的分布式文件系統(tǒng)）移出Nutch形成開源搜索項目Lucene一個子項目：Hadoop；2008年，Hadoop成為Apache的頂級項目，并逐漸成為一個進行分布式計算和海量數(shù)據(jù)處理的基礎平臺；在這個平臺之上的一系列項目和技術（如HDFS、MapReduce、Pig、Hive、HBase、ZooKeeper、Sqoop等）構建了一個Hadoop生態(tài)圈。

MapReduce并行編程模型和Hadoop平臺具有強大的處理大規(guī)模數(shù)據(jù)的能力，最早僅面向搜索引擎領域的數(shù)據(jù)分析，現(xiàn)已擴展到面向更廣泛應用的數(shù)據(jù)挖掘領域。但是，MapReduce模型適合結構一致的海量數(shù)據(jù)，且要求計算簡單；而大量的數(shù)據(jù)密集型應用，往往涉及到數(shù)據(jù)降維、程序迭代、近似求解等等復雜的算法，計算非常困難。因此，基于云計算的海量數(shù)據(jù)挖掘技術成為了工業(yè)界和學術界共同關心的熱點技術。下面對一些典型研究和應用進展進行介紹。

斯坦福大學Chu等人在國際學術會議NIPS’2006提出一種基于MapReduce的、適用于大量機器學習算法的通用并行編程框架。他們通過對經(jīng)典的機器學習算法進行分析發(fā)現(xiàn)，算法學習過程中的運算都能轉化為若干在訓練數(shù)據(jù)集上的求和操作；求和操作可以獨立地在不同數(shù)據(jù)子集上進行，因此很容易在MapReduce編程平臺上實現(xiàn)并行化執(zhí)行。在該框架下，他們實現(xiàn)了包括線性回歸、樸素貝葉斯、神經(jīng)網(wǎng)絡、主成分分析和支持向量機等在內的十種經(jīng)典的數(shù)據(jù)挖掘算法。源于這篇論文的思想，在Apache軟件基金會資助下，Grant Ingersoll等人研發(fā)了一個基于Hadoop/MapReduce的開源機器學習算法庫Mahout，致力于數(shù)據(jù)挖掘并行化。目前，Mahout最新發(fā)布版本號為0.5，已經(jīng)實現(xiàn)了協(xié)同過濾、局部線性加權回歸、貝葉斯分類器、隨機森林決策樹分類器、隱馬爾科夫模型、奇異值矩陣分解、并行頻繁模式挖掘、LDA、K-Means聚類、層次聚類、模糊K-Means聚類、均值漂移聚類、譜聚類等算法，可以有效地將并行數(shù)據(jù)挖掘技術應用于相關大規(guī)模數(shù)據(jù)分析領域。

針對傳統(tǒng)數(shù)據(jù)挖掘軟件擴展性差以及MapReduce數(shù)據(jù)分析功能薄弱的特點，IBM研究院致力于對R和Hadoop的集成研究，從而將計算推向更高層次的數(shù)據(jù)挖掘并進行并行處理，使Hadoop獲得了強大的深度分析能力。此外，IBM研究院Sun等人認為，MapReduce特別適合倒排序索引、樸素貝葉斯、KNN等單次迭代的數(shù)據(jù)挖掘算法，也比較適合K-Means、高斯混合、PageRank、PLSI、LDA等需要多次迭代的算法，但并不適合像SVM這類需要對大量共享數(shù)據(jù)進行同步的算法。2011年，IBM研究院在國際頂級學術會議KDD’2011上指出，MapReduce在執(zhí)行機器學習領域的算法時存在一些缺點，進而提出一種基于MapReduce的并行數(shù)據(jù)挖掘和機器學習算法執(zhí)行工具包NIMBLE。

目前，學術界正在加大對基于云計算的海量數(shù)據(jù)挖掘技術研究的關注，例如SIGMOD、VLDB、KDD、SIGIR、WWW、HPDC、ICDE等國際學術會議都有論文闡述如何進一步增強MapReduce的數(shù)據(jù)分析能力。Talia等人提出可以從四個層次提供云計算數(shù)據(jù)挖掘服務：底層為組成數(shù)據(jù)挖掘算法的基本步驟；第二層為單獨的數(shù)據(jù)挖掘服務（例如分類、聚類等）；第三層為分布式的數(shù)據(jù)挖掘模式（例如并行分類、聚合式機器學習等）；第四層為前三層元素構成的完整的數(shù)據(jù)挖掘應用。在此基礎上，他們設計了基于云計算的數(shù)據(jù)挖掘開放服務框架，并開發(fā)了一系列的數(shù)據(jù)挖掘服務系統(tǒng)（例如Weka4WS、Knowledge Grid、Mobile Data Mining Services、Mining@home等）。例如，標準版Weka工具只能在單機上運行，并且不能超越1GB內存的限制；經(jīng)過算法的并行化，在MapReduce集群上不僅突破了原有的可處理數(shù)據(jù)量的限制，輕松地對超過100GB的數(shù)據(jù)進行分析，同時利用并行計算提高了性能。此外，Ranger等人提出了一個基于MapReduce的應用程序編程接口Phoenix，并實現(xiàn)了K-Means、主成分分析和線性回歸三種數(shù)據(jù)挖掘算法；Gillick等人對單程學習、迭代學習和基于查詢的學習三類機器學習算法在MapReduce框架下的性能分別做了評測。

在國內，中科院計算所與中國移動研究院合作研發(fā)了基于Hadoop的并行分布式數(shù)據(jù)挖掘平臺PDMiner，集成了多種機器學習算法；從系統(tǒng)架構角度看，自下而上分為：分布式計算層（包括分布式文件系統(tǒng)、并行編程環(huán)境、分布式系統(tǒng)管理）、數(shù)據(jù)挖掘平臺層（主要包括數(shù)據(jù)加載、預處理、并行計算、結果顯示等）以及業(yè)務應用層（主要是電信類業(yè)務應用）；達到了商用軟件精度，數(shù)據(jù)處理規(guī)模遠遠超出傳統(tǒng)商用數(shù)據(jù)挖掘軟件；已成為中國移動數(shù)據(jù)挖掘分析支撐工具，應用于TB級的實際電信數(shù)據(jù)挖掘。此外，中科院計算所還開發(fā)了面向Web的數(shù)據(jù)挖掘云服務平臺CMOS；中科院深圳先進研究院研制了一個分布式數(shù)據(jù)挖掘客戶端系統(tǒng)AlphaMiner，服務器為運行于集群的Hadoop平臺；南京大學正在研發(fā)一個基于Hadoop的并行數(shù)據(jù)挖掘算法工具箱Dodo，以期實現(xiàn)迭代/非迭代類數(shù)據(jù)挖掘算法的并行MapReduce化實現(xiàn)，并提供包括資源分配、目錄服務、流管理等一系列的組件化數(shù)據(jù)挖掘云服務。

目前，工業(yè)界推出的商用云計算平臺有：Amazon公司的EC2和S3（AWS）、Google公司的Google Apps Engine（GAE）、Yahoo!公司的Yahoo Application Platform（YAP）、IBM公司的Blue Cloud、Microsoft公司的Windows Azure、Salesforce公司的Sales Force、Apple公司的iCloud、VMware公司的vCloud、Cloudera的商用Hadoop平臺、Apache軟件基金會的開源Hadoop平臺等。這些平臺除了提供基本的分布式存儲和計算功能外，有的還具備一些數(shù)據(jù)挖掘能力。Intel發(fā)布了2015未來云愿景，并發(fā)起開放式數(shù)據(jù)中心聯(lián)盟，以期制定滿足下一代數(shù)據(jù)中心和云計算的需求；Microsoft計劃將基于Hadoop的Windows Server與其現(xiàn)有商務智能挖掘工具（如SQL server 2008）聯(lián)合處理大數(shù)據(jù)任務；商務智能領域的各大公司也提供面向企業(yè)的大規(guī)模數(shù)據(jù)挖掘服務，例如微策略、IBM、Oracle等公司都擁有基于云計算的數(shù)據(jù)挖掘服務平臺；Google、Yahoo!、Facebook等使用上千個節(jié)點組成的Hadoop集群進行海量搜索日志和網(wǎng)頁數(shù)據(jù)分析。

在國內，中國移動、中國電信、中國聯(lián)通分別展開“大云”、“星云”、“互聯(lián)云”的項目建設（其中，2011年“大云”已經(jīng)達到1036個節(jié)點、5208個CPU、10TB內存的規(guī)模），主要為商業(yè)經(jīng)營分析、電信、互聯(lián)網(wǎng)、電子政務等多個領域提供數(shù)據(jù)挖掘、系統(tǒng)評估、搜索等方面的計算服務。2011年，由國家發(fā)改委牽頭，聯(lián)合工信部、財政部撥出15億元，作為國家戰(zhàn)略新興產(chǎn)業(yè)云計算示范工程專項資金，重點推動國內云計算產(chǎn)業(yè)發(fā)展、扶持云計算領軍企業(yè)。例如，百度擁有國內最大規(guī)模的綠色數(shù)據(jù)中心集群，計劃投入數(shù)十億元發(fā)展智能數(shù)據(jù)服務、典型行業(yè)應用和公共云計算平臺；阿里巴巴利用Hadoop平臺對海量電子商務交易數(shù)據(jù)進行存儲和深度數(shù)據(jù)挖掘，并于2011年啟動10億元云基金，專注于基于云計算的電子商務、分布式存儲和計算技術、數(shù)據(jù)中心運維技術、大規(guī)模/超大規(guī)模的數(shù)據(jù)挖掘和分析的算法等等；騰訊已經(jīng)在海量社交網(wǎng)絡服務數(shù)據(jù)挖掘和大規(guī)模圖分析等方面積累了豐富的實踐經(jīng)驗，并已經(jīng)或計劃在天津、上海、重慶建立云計算中心和電子商務基地，以利用云計算展開海量數(shù)據(jù)分析。

但是，基于云計算的海量數(shù)據(jù)挖掘技術還面臨很多挑戰(zhàn)，仍存在許多問題等待解決，例如：基于云計算的新型海量數(shù)據(jù)挖掘方法研究和實現(xiàn)；各種數(shù)據(jù)挖掘算法的并行化策略；在MapReduce上實現(xiàn)更加復雜的分析、更大規(guī)模的分析；關系數(shù)據(jù)庫技術與Hadoop/MapReduce技術的融合；云計算環(huán)境下海量數(shù)據(jù)挖掘服務的遷移學習；云計算環(huán)境下海量數(shù)據(jù)挖掘的可視化、可信性、安全性等等。