空間數(shù)據(jù)挖掘常用方法，以及和普通數(shù)據(jù)挖掘的不同之處

慈溪全媒體 2015-02-09

展開全文

問題1：空間數(shù)據(jù)挖掘有哪些常用方法，舉例說明一種方法的原理及應(yīng)用.

答：空間數(shù)據(jù)挖掘的常用方法有：統(tǒng)計(jì)法，聚類方法，關(guān)聯(lián)規(guī)則發(fā)掘方法，Rough集方法，神經(jīng)網(wǎng)絡(luò)方法，云理論，證據(jù)理論，模糊集理論，遺傳算法等算法（出自丁信宙，仇環(huán)，蘇曉慶. 基于云理論的缺損數(shù)據(jù)推理和預(yù)測(cè) 山東理工大學(xué)學(xué)報(bào) 2006年11月）。除此以外還有老師課件上提到的聚類檢測(cè)，決策樹方法等。

以下對(duì)于一些常見模型做一簡(jiǎn)述：

1、空間分析方法 (Spatial Analysis Approach)

利用GIS的各種空間分析模型和空間操作對(duì)空間數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行深加工，從而產(chǎn)生新的信息和知識(shí)。目前常用的空間分析方法有綜合屬性數(shù)據(jù)分析、拓?fù)浞治觥⒕彌_區(qū)分析、密度分析、距離分析、疊置分析、網(wǎng)絡(luò)分析、地形分析、趨勢(shì)面分析、預(yù)測(cè)分析等，可發(fā)現(xiàn)目標(biāo)在空間上的相連、相鄰和共生等關(guān)聯(lián)規(guī)則，或發(fā)現(xiàn)目標(biāo)之間的最短路徑、最優(yōu)路徑等輔助決策的知識(shí)?？臻g分析方法常作為預(yù)處理和特征提取方法與其它數(shù)據(jù)挖掘方法結(jié)合使用。

2、統(tǒng)計(jì)分析方法 (Statistical Analysis Approach)

統(tǒng)計(jì)方法一直是分析空間數(shù)據(jù)的常用方法，著重于空間物體和現(xiàn)象的非空間特性的分析。在運(yùn)用統(tǒng)計(jì)方法進(jìn)行數(shù)據(jù)挖掘時(shí)，一般并不將數(shù)據(jù)的空間特性作為限制因子加以考慮，空間數(shù)據(jù)所描述的事物的具體空間位置在這類挖掘中也并不起制約作用。盡管此種挖掘方式與一般的數(shù)據(jù)挖掘并無本質(zhì)的差別，但其挖掘后發(fā)現(xiàn)的結(jié)果都是以地圖形式來描述的，對(duì)發(fā)現(xiàn)結(jié)果的解釋也必然要依托地理空間進(jìn)行，挖掘的結(jié)果揭示和反映的必然是空間規(guī)律。但是，統(tǒng)計(jì)方法難以處理字符型數(shù)據(jù)。而且，應(yīng)用統(tǒng)計(jì)方法需要有領(lǐng)域知識(shí)和統(tǒng)計(jì)知識(shí)，一般由具有統(tǒng)計(jì)經(jīng)驗(yàn)的領(lǐng)域?qū)＜襾硗瓿伞＝y(tǒng)計(jì)方法的最大缺點(diǎn)是要假設(shè)空間分布數(shù)據(jù)具有統(tǒng)計(jì)不相關(guān)性。這在實(shí)際應(yīng)用中會(huì)出現(xiàn)問題，因?yàn)楹芏嗫臻g數(shù)據(jù)是相互關(guān)聯(lián)的。

3、歸納學(xué)習(xí)方法 (Induction Learning Approach)

歸納學(xué)習(xí)方法是從大量的經(jīng)驗(yàn)數(shù)據(jù)中歸納抽取出一般的規(guī)則和模式，其大部分算法來源于機(jī)器學(xué)習(xí)領(lǐng)域。歸納學(xué)習(xí)的算法很多，如Michaski等的AQ11,AQ15，洪家榮等的AE1,AE9，Hunt的CLS, Quinlan的ID3,C5.0等，其中最著名的是Quinlan提出的一種決策樹算法，由ID3算法發(fā)展而來，采用嫡來選擇屬性，分類速度快，適合于大數(shù)據(jù)庫(kù)的學(xué)習(xí)，而C5.0在　ID3的基礎(chǔ)上增加了將決策樹轉(zhuǎn)換為等價(jià)的產(chǎn)生式規(guī)則的功能，并解決了連續(xù)取值數(shù)據(jù)的學(xué)習(xí)問題。Han Jiawei教授等提出了一種面向?qū)傩缘臍w納方法 (Attribute Oriented Induction, AOI)，專門用于從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)知識(shí)，通過概念樹的提升對(duì)數(shù)據(jù)進(jìn)行概括和綜合，歸納出高層次的模式或特征。裴健等對(duì)面向?qū)傩缘臍w納方法進(jìn)行了擴(kuò)展，形成了基于空間屬性的歸納方法 (Spatial Attribute Oriented Induction, SAOI)。

4、空間關(guān)聯(lián)規(guī)則挖掘方法 (Spatial Association Rule Mining Approach)

挖掘關(guān)聯(lián)規(guī)則首先由Agrawal等提出，主要是從超級(jí)市場(chǎng)銷售事務(wù)數(shù)據(jù)庫(kù)中發(fā)現(xiàn)顧客購(gòu)買多種商品時(shí)的搭配規(guī)律。最著名的關(guān)聯(lián)規(guī)則挖掘算法是Agrawal提出的Apriori算法，其主要思路是統(tǒng)計(jì)多種商品在一次購(gòu)買中共同出現(xiàn)的頻數(shù)，然后將出現(xiàn)頻數(shù)多的搭配轉(zhuǎn)換為關(guān)聯(lián)規(guī)則。

5、聚類方法 (Clustering Approach)和分類方法 (Classification Approach)

聚類是按一定的距離或相似性系數(shù)將數(shù)據(jù)分成一系列相互區(qū)分的組，根據(jù)定義可以把其分為四類：基于層次的聚類方法；分區(qū)聚類算法；基于密度的聚類算法；網(wǎng)格的聚類算法。常用的經(jīng)典聚類方法有K-mean，K-medoids，ISODATA等。

分類就是假定數(shù)據(jù)庫(kù)中的每個(gè)對(duì)象(在關(guān)系數(shù)據(jù)庫(kù)中對(duì)象是元組)屬于一個(gè)預(yù)先給定的類，從而將數(shù)據(jù)庫(kù)中的數(shù)據(jù)分配到給定的類中，簡(jiǎn)單的講就是f:D→L，其中f的域D是屬性數(shù)據(jù)的空間，L是標(biāo)號(hào)的集合。

分類和聚類都是對(duì)目標(biāo)進(jìn)行空間劃分，劃分的標(biāo)準(zhǔn)是類內(nèi)差別最小而類間差別最大。分類和聚類的區(qū)別在于分類事先知道類別數(shù)和各類的典型特征，而聚類則事先不知道。

6、神經(jīng)網(wǎng)絡(luò)方法 (Neural Network Approach)

神經(jīng)網(wǎng)絡(luò)是由大量神經(jīng)元通過極其豐富和完善的連接而構(gòu)成的自適應(yīng)非線性動(dòng)態(tài)系統(tǒng)，具有分布存儲(chǔ)、聯(lián)想記憶、大規(guī)模并行處理、自學(xué)習(xí)、自組織、自適應(yīng)等功能。神經(jīng)網(wǎng)絡(luò)由輸入層、中間層和輸出層組成。大量神經(jīng)元集體通過訓(xùn)練來學(xué)習(xí)待分析數(shù)據(jù)中的模式，形成描述復(fù)雜非線性系統(tǒng)的非線性函數(shù)，適于從環(huán)境信息復(fù)雜、背景知識(shí)模糊、推理規(guī)則不明確的非線性空間系統(tǒng)中挖掘分類知識(shí)。

7、決策樹方法 (Decision Tree Approach)

決策樹根據(jù)不同的特征，以樹型結(jié)構(gòu)表示分類或決策集合，產(chǎn)生規(guī)則和發(fā)現(xiàn)規(guī)律。在空間數(shù)據(jù)挖掘中，首先利用訓(xùn)練空間實(shí)體集生成測(cè)試函數(shù)；其次根據(jù)不同取值建立樹的分支，在每個(gè)分支子集中重復(fù)建立下層結(jié)點(diǎn)和分支，形成決策樹；然后對(duì)決策樹進(jìn)行剪枝處理，把決策樹轉(zhuǎn)化為據(jù)以對(duì)新實(shí)體進(jìn)行分類的規(guī)則。

8、粗集理論 (Rough Sets Theory)

粗集理論是波蘭華沙大學(xué)Z.Pawlak教授在1982年提出的一種智能數(shù)據(jù)決策分析工具，被廣泛研究并應(yīng)用于不精確、不確定、不完全的信息的分類分析和知識(shí)獲取。粗集理論為空間數(shù)據(jù)的屬性分析和知識(shí)發(fā)現(xiàn)開辟了一條新途徑，可用于空間數(shù)據(jù)庫(kù)屬性表的一致性分析、屬性的重要性、屬性依賴、屬性表簡(jiǎn)化、最小決策和分類算法生成等。粗集理論與其它知識(shí)發(fā)現(xiàn)算法結(jié)合可以在空間數(shù)據(jù)庫(kù)中數(shù)據(jù)不確定的情況下獲取多種知識(shí)。

9、模糊集理論 (Fuzzy Sets Theory)

模糊集理論是L.A.Zadeh教授在1965年提出的。它是經(jīng)典集合理論的擴(kuò)展，專門處理自然界和人類社會(huì)中的模糊現(xiàn)象和問題。利用模糊集合理論，對(duì)實(shí)際問題進(jìn)行模糊判斷、模糊決策、模糊模式識(shí)別、模糊簇聚分析。系統(tǒng)的復(fù)雜性越高，精確能力就越低，模糊性就越強(qiáng)，這是Zadeh總結(jié)出的互克性原理。模糊集理論在遙感圖像的模糊分類、GIS模糊查詢、空間數(shù)據(jù)不確定性表達(dá)和處理等方面得到了廣泛應(yīng)用。

10、空間特征和趨勢(shì)探側(cè)(Characterization and Trend Detection)方法

這是Ester等人在第4屆KDD國(guó)際研討會(huì) (1998)上提出的基于鄰域圖 (neighborhoodgraphs)和鄰域路徑 (neighborhoodpath)概念的挖掘算法。Ester等將一個(gè)空間特征定義為空間數(shù)據(jù)庫(kù)中具有空間/非空間性質(zhì)的目標(biāo)對(duì)象集，并以非空間屬性值出現(xiàn)的相對(duì)頻率和不同空間對(duì)象出現(xiàn)的相對(duì)頻率 (目標(biāo)對(duì)象集相對(duì)于整個(gè)數(shù)據(jù)庫(kù))作為感興趣的性質(zhì)，從空間目標(biāo)集合經(jīng)過它的相鄰擴(kuò)展后的集合中，發(fā)現(xiàn)相對(duì)頻率的明顯不同，以此提取空間規(guī)則：空間趨勢(shì)探測(cè)挖掘是從一個(gè)開始點(diǎn)出發(fā)，發(fā)現(xiàn)一個(gè)或多個(gè)非空間性質(zhì)的變化規(guī)律，這種算法的效率在很大程度上取決于其處理相鄰關(guān)系的能力。

11、云理論 (Cloudy Theory)

這是李德毅博士提出的用于處理不確定性的一種新理論，包括云模型 (Cloud Model)，虛擬云 (Virtual Cloud)、云運(yùn)算 (Cloud operation)、云變換 (Cloud Transform)和不確定性推理 (Reasoning under Uncertainty)等主要內(nèi)容。運(yùn)用云理論進(jìn)行空間數(shù)據(jù)挖掘，可進(jìn)行概念和知識(shí)的表達(dá)、定量和定性的轉(zhuǎn)化、概念的綜合與分解、從數(shù)據(jù)中生成概念和概念層次結(jié)構(gòu)、不確定性推理和預(yù)測(cè)等。

12、圖像分析和模式識(shí)別 (Image Analysis and Pattern Recognition)方法

空間數(shù)據(jù)庫(kù) (數(shù)據(jù)倉(cāng)庫(kù))中含有大量的圖形圖像數(shù)據(jù)，一些圖像分析和模式識(shí)別方法可直接用于挖掘數(shù)據(jù)和發(fā)現(xiàn)知識(shí)，或作為其它挖掘方法的預(yù)處理方法。用于圖像分析和模式識(shí)別的方法主要有:決策樹方法、神經(jīng)元網(wǎng)絡(luò)方法、數(shù)學(xué)形態(tài)學(xué)方法、圖論方法等。

13、證據(jù)理論 (Evidence Theory)

由Schafer發(fā)展起來的證據(jù)理論是經(jīng)典概率論的擴(kuò)展。證據(jù)理論又稱Dempster-Schafer理論，它是Dempster在20世紀(jì)60年代提出，在70年代中期由Schafer進(jìn)一步發(fā)展，形成處理不確定性信息的證據(jù)理論，其重要貢獻(xiàn)在于嚴(yán)格區(qū)分不確定和不知道的界線。證據(jù)理論將實(shí)體分為確定部分和不確定部分，可以用于基于不確定性的空間數(shù)據(jù)挖掘。利用證據(jù)理論的結(jié)合規(guī)則、可以根據(jù)多個(gè)帶有不確定性的屬性進(jìn)行決策挖掘。證據(jù)理論發(fā)展了更一般性的概率論，卻不能解決矛盾證據(jù)或微弱假設(shè)支持等問題。

14、遺傳算法 (Genetic Algorithms)

遺傳算法(簡(jiǎn)稱GA)是模擬生物進(jìn)化過程的算法，最先由美國(guó)的John Holland教授于20世紀(jì)60年代初提出，其本質(zhì)是一種求解問題的高效并行全局搜索方法，它能在搜索過程中自動(dòng)獲取和積累有關(guān)搜索空間的知識(shí)，并自適應(yīng)地控制搜索過程以求得最優(yōu)解。遺傳算法已在優(yōu)化計(jì)算、分類、機(jī)器學(xué)習(xí)等方面發(fā)揮了顯著作用。數(shù)據(jù)挖掘中的許多問題，如分類、聚類、預(yù)測(cè)等知識(shí)的獲取，可以表達(dá)或轉(zhuǎn)換成最優(yōu)化問題，進(jìn)而可以用遺傳算法來求解。

15、數(shù)據(jù)可視化方法 (Data Visualization Approach)

人類的可視化能力，允許人類對(duì)大量抽象的數(shù)據(jù)進(jìn)行分析。人的創(chuàng)造性不僅取決于人的邏輯思維，而且取決于人的形象思維。人腦的空間認(rèn)知分析能力目前尚無法全部用計(jì)算機(jī)代替，因此可視化技術(shù)為知識(shí)發(fā)現(xiàn)提供了有力的幫助。為了了解數(shù)據(jù)之間的相互關(guān)系及發(fā)展趨勢(shì)，人們可以求助于可視化技術(shù)。海量的數(shù)據(jù)只有通過可視化技術(shù)變成圖形或圖像，才能激發(fā)人的形象思維—— 從表面上看來是雜亂無章的海量數(shù)據(jù)中找出其中隱藏的規(guī)律。數(shù)據(jù)可視化技術(shù)將大量數(shù)據(jù)以多種形式表示出來，幫助人們尋找數(shù)據(jù)中的結(jié)構(gòu)、特征、模式、趨勢(shì)、異常現(xiàn)象或相關(guān)關(guān)系等。從這個(gè)角度講，數(shù)據(jù)可視化技術(shù)不僅僅是一種計(jì)算方法，更是看見不可見事物或現(xiàn)象的一種重要手段和方法。

16、地學(xué)信息圖譜方法 (Geo-informatics Graphic Methodology)

地學(xué)信息圖譜是地球信息的重要表現(xiàn)形式與研究手段，也是地球信息科學(xué)的重要組成部分。地學(xué)信息圖譜綜合了景觀綜合圖的簡(jiǎn)潔性和數(shù)學(xué)模型的抽象性，是現(xiàn)代空間技術(shù)與我國(guó)傳統(tǒng)研究成果結(jié)合的產(chǎn)物，可反演過去、預(yù)測(cè)未來。圖是指地圖、圖像、圖解，譜是指不同類別事物特征有規(guī)則的序列編排。圖譜是指經(jīng)過深入分析與高度綜合，反映事物和現(xiàn)象空間結(jié)構(gòu)特征與時(shí)空序列變化規(guī)律的圖形信息處理與顯示手段。地球信息圖譜是由遙感、地圖數(shù)據(jù)庫(kù)與地理信息系統(tǒng)(或數(shù)字地球)的大量地球信息，經(jīng)過圖形思維與抽象概括，并以計(jì)算機(jī)多維動(dòng)態(tài)可視化技術(shù)顯示地球系統(tǒng)及各要素和現(xiàn)象的宏觀、中觀與微觀的時(shí)空變化規(guī)律；同時(shí)經(jīng)過中間模型與地學(xué)認(rèn)知的深入分析研究，進(jìn)行推理、反演與預(yù)測(cè)，形成對(duì)事物和現(xiàn)象更深層次的認(rèn)識(shí)，有可能總結(jié)出重要的科學(xué)規(guī)律。地學(xué)信息圖譜不僅應(yīng)用于數(shù)據(jù)挖掘，而且服務(wù)于科學(xué)預(yù)測(cè)與決策方案。

地學(xué)信息圖譜具有以下4個(gè)重要功能：①借助圖譜可以反演和模擬時(shí)空變化；②可利用圖的形象表達(dá)能力，對(duì)復(fù)雜現(xiàn)象進(jìn)行簡(jiǎn)潔的表達(dá)；③多維的空間信息可展示在二維地圖上，從而大大減小了模型模擬的復(fù)雜性；④在數(shù)學(xué)模型的建立過程中，圖譜有助于模型構(gòu)建者對(duì)空間信息及其過程的理解。

地學(xué)信息圖譜是形、數(shù)、理的有機(jī)結(jié)合，是試圖從形態(tài)來反演空間過程的一種研究復(fù)雜系統(tǒng)的方法論。地學(xué)信息圖譜中的空間圖形思維、分形分維等方法均可直接用于空間數(shù)據(jù)挖掘領(lǐng)域。目前，地學(xué)信息圖譜的基本理論及其方法體系還不完善，還有待于進(jìn)一步研究。

17、計(jì)算幾何方法 (Computer Geometry Methods)

1975年，Shamos和Hoey利用計(jì)算機(jī)有效地計(jì)算平面點(diǎn)集Voronoi圖，并發(fā)表了一篇著名論文，從此計(jì)算幾何誕生了。計(jì)算幾何中的研究成果已在計(jì)算機(jī)圖形學(xué)、化學(xué)、統(tǒng)計(jì)分析、模式識(shí)別、空間數(shù)據(jù)庫(kù)以及其它許多領(lǐng)域得到了廣泛應(yīng)用。計(jì)算幾何研究的典型問題包括幾何基元、幾何查找和幾何優(yōu)化等。其中，幾何基元包括凸殼和Voronoi圖、多邊形的三角剖分、劃分問題與相交問題：幾何查找包括點(diǎn)定位、可視化、區(qū)域查找等問題；幾何優(yōu)化包括參數(shù)查找和線性規(guī)劃。

上述每一種方法都有一定的適用范圍。在實(shí)際應(yīng)用中，為了發(fā)現(xiàn)某類知識(shí)，常常要綜合運(yùn)用這些方法?？臻g數(shù)據(jù)挖掘方法還要與常規(guī)的數(shù)據(jù)庫(kù)技術(shù)充分結(jié)合?？傊臻g數(shù)據(jù)挖掘利用的技術(shù)越多，得出的結(jié)果精確性就越高，因此，多種方法的集成也是空間數(shù)據(jù)挖掘的一個(gè)有前途的發(fā)展方向。

以下是對(duì)云模型和其在缺損數(shù)據(jù)的推理預(yù)測(cè)中的應(yīng)用做一簡(jiǎn)述。

云模型：云是用語言值描述某個(gè)定性概念與其數(shù)值表示的不確定性轉(zhuǎn)換的模型。簡(jiǎn)單地說，云模型是定性定量間轉(zhuǎn)換的不確定性模型。該模型用期望Ex，熵En，超熵He三個(gè)數(shù)值來表示，把模糊性和隨機(jī)性完全集成到一起，構(gòu)成定性和定量間的映射，作為表示的基礎(chǔ)。期望值Ex是概念在論域中的中心值；熵En是定性概念模糊度的度量，反映了在論域中可被這個(gè)概念所接受的數(shù)值范圍熵越大，概念所接受的數(shù)值范圍也越大，概念越模糊。超熵He是熵的不確定性度量，即熵的熵，由熵的隨機(jī)性和模糊性共同決定。超熵He反映了云滴的離散程度，超熵越大，離散度越大，隸屬度的隨機(jī)性越大。

設(shè)U 是一個(gè)用精確數(shù)值表示的論域（一維的、二維的或多維的），U 上對(duì)應(yīng)著定性概念?，對(duì)于論域中的任意一個(gè)元素x，都存在一個(gè)有穩(wěn)定傾向的隨機(jī)數(shù)y=μA(x)，叫作x 對(duì)概念? 的確定度，x 在U上的分布稱為云模型，簡(jiǎn)稱為云。云由許許多多個(gè)云滴組成，一個(gè)云滴是定性概念在數(shù)量上的一次實(shí)現(xiàn)，單個(gè)云滴可能無足輕重，在不同的時(shí)刻產(chǎn)生的云的細(xì)節(jié)可能不盡相同，但云的整體形狀反映了定性概念的基本特征。云的“厚度”是不均勻的，腰部最分散，“厚度”最大，而頂部和底部匯聚性好，“厚度”小。云的“厚度”反映了確定度的隨機(jī)性的大小，靠近概念中心或遠(yuǎn)離概念中心處，確定度的隨機(jī)性較小，而離概念中心不近不遠(yuǎn)的位置確定度的隨機(jī)性大，這與人的主觀感受相一致。

云的數(shù)字特征用期望Ex、熵En 和超熵He 來表征，它們反映了定性概念? 整體上的定量特征。

期望Ex：是概念在論域中的中心值，在數(shù)域空間最能夠代表定性概念? 的點(diǎn)，即這個(gè)概念量化的最典型樣本點(diǎn)，通常是云重心對(duì)應(yīng)的x 值，它應(yīng)該百分之百地隸屬于這個(gè)定性概念。Ex 反映了相應(yīng)的定性知識(shí)的信息中心值。

熵En：熵反映定性概念? 的不確定性。一方面，熵反映了在數(shù)域空間可以被語言值? 接受的云滴群的范圍的大小，即模糊度，是定性概念亦此亦彼性的度量；另一方面，熵還反映了代表定性概念的云滴出現(xiàn)的隨機(jī)性；此外，熵還揭示了模糊性和隨機(jī)性的關(guān)聯(lián)性。熵可以用來代表一個(gè)定性概念的粒度。通常，熵越大，概念越宏觀，模糊性和隨機(jī)性也越大，確定性量化越難。

超熵He：超熵是熵的不確定性的度量，即熵的熵，反映了云滴的離散程度。超熵越大，云滴離散度越大，確定度的隨機(jī)性越大，云的“厚度”也越大。

正態(tài)云是一種很典型的云模型，被應(yīng)用于多種現(xiàn)實(shí)的模擬，十分具有代表性，因此，一下著重介紹一下與模型的建立方法。

正態(tài)云模型既不是一個(gè)確定的概率密度函數(shù)，也不是一條明晰的隸屬函數(shù)曲線，而是由兩次串接的正態(tài)發(fā)生器[5]生成的許多云滴組成的、一對(duì)多的泛正態(tài)數(shù)學(xué)映射圖像，是一朵可伸縮、無確定邊沿、有彈性的云圖，完成定性和定量之間的相互映射。正態(tài)云模型的期望曲線是一個(gè)正態(tài)型曲線。當(dāng)正態(tài)云模型概念對(duì)應(yīng)的論域?yàn)橐痪S時(shí)，定性定量的不確定性轉(zhuǎn)換通過正態(tài)云發(fā)生器算法實(shí)現(xiàn)。具體算法如下：

輸入：表示定性概念? 的3 個(gè)數(shù)字特征值Ex，En，He，云滴數(shù)N。

輸出：N 個(gè)云滴的定量值，以及每個(gè)云滴代表概念? 的確定度。

Step1：生成以En 為期望值，He 為標(biāo)準(zhǔn)差的一個(gè)正態(tài)隨機(jī)數(shù)E′n；

Step2：生成以Ex 為期望值，abs（E′n）為標(biāo)準(zhǔn)差的正態(tài)隨機(jī)數(shù)x；

Step3：令x 為定性概念? 的一次具體量化值，稱為云滴；

Step4：計(jì)算y=exp(-(x-Ex)2/2(E′n)2)；

Step5：令y 為x 屬于定性概念? 的確定度；

Step6：{x，y}完整地反映了這一次定性定量轉(zhuǎn)換的全部?jī)?nèi)容；

Step7：重復(fù)Step1~Step6，直到產(chǎn)生N 個(gè)云滴。

用該算法生成的云自然地具有不均勻厚度的特性，云的腰部、頂部、底部等并不需要精確地定義，三個(gè)數(shù)字特征值足以很好地描述整個(gè)云的形態(tài)。

云模型的應(yīng)用相當(dāng)廣泛，下面僅就其在軍事中的一個(gè)應(yīng)用做一描述。在《基于正態(tài)云模型的方法求解目標(biāo)可能位置域》這篇論文當(dāng)中，作者利用云模型模擬目標(biāo)可能出現(xiàn)的位置，通過一系列計(jì)算，確定一個(gè)區(qū)域，從而為魚雷發(fā)射提供數(shù)據(jù)支持。

潛艇使用導(dǎo)彈攻擊對(duì)方水面艦艇已經(jīng)成為越來越重要的作戰(zhàn)方式。由于潛艇對(duì)隱蔽性的要求，攻擊前很難實(shí)時(shí)獲得友方兵力的目標(biāo)指示通報(bào)，因此需要根據(jù)此前某一時(shí)刻通報(bào)的目標(biāo)位置、速度、航向推測(cè)出當(dāng)前的目標(biāo)可能位置。

模型中已知的前提條件：1．發(fā)現(xiàn)目標(biāo)時(shí)刻；2．時(shí)刻目標(biāo)概略中心位置和誤差分布橢圓的方向、半軸和；3．時(shí)刻目標(biāo)速度V、航向H 及其標(biāo)準(zhǔn)偏差，。模型運(yùn)行的目的是求出時(shí)刻T 時(shí)的目標(biāo)概略中心位置( ， )以及誤差分布橢圓的方向、半軸和。

確定目標(biāo)可能位置域模型的建模思路：按模型中的前提條件，產(chǎn)生M 個(gè) 時(shí)刻目標(biāo)隨機(jī)位置點(diǎn)；對(duì)這M 個(gè)點(diǎn)中的任一個(gè)點(diǎn)，按照目標(biāo)速度、航向誤差分別取N1、N2 個(gè)隨機(jī)速度、航向，在時(shí)刻T時(shí)產(chǎn)生N1×N2 個(gè)隨機(jī)位置點(diǎn)。這樣最終產(chǎn)生M×N1×N2 個(gè)隨機(jī)位置點(diǎn)。最后對(duì)M×N1×N2 個(gè)隨機(jī)位置點(diǎn)進(jìn)行數(shù)據(jù)分析得T 時(shí)刻的目標(biāo)位置概率橢圓。該橢圓就是魚雷發(fā)射的目標(biāo)區(qū)域。

問題2：論述數(shù)據(jù)挖掘與空間數(shù)據(jù)挖掘的異同點(diǎn)。

答：數(shù)據(jù)挖掘(Data Mining)，就是從大量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程。數(shù)據(jù)挖掘的廣義觀點(diǎn)：數(shù)據(jù)挖掘就是從存放在數(shù)據(jù)庫(kù)，數(shù)據(jù)倉(cāng)庫(kù)或其他信息庫(kù)中的大量的數(shù)據(jù)中“挖掘”有趣知識(shí)的過程。數(shù)據(jù)挖掘，又稱為數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Database, KDD)，也有人把數(shù)據(jù)挖掘視為數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)過程的一個(gè)基本步驟。

知識(shí)發(fā)現(xiàn)過程以下步驟組成：（1）數(shù)據(jù)清理，（2）數(shù)據(jù)集成，（3）數(shù)據(jù)選擇，（4）數(shù)據(jù)變換，（5）數(shù)據(jù)挖掘，（6）模式評(píng)估，（7）知識(shí)表示。數(shù)據(jù)挖掘可以與用戶或知識(shí)庫(kù)交互。

空間數(shù)據(jù)挖掘是指從空間數(shù)據(jù)庫(kù)中抽取沒有清楚表現(xiàn)出來的隱含的知識(shí)和空間關(guān)系，并發(fā)現(xiàn)其中有用的特征和模式的理論、方法和技術(shù)。空間數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)的過程大致可分為以下多個(gè)步驟:數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)選擇、數(shù)據(jù)預(yù)處理、數(shù)據(jù)縮減或者數(shù)據(jù)變換、確定數(shù)據(jù)挖掘目標(biāo)、確定知識(shí)發(fā)現(xiàn)算法、數(shù)據(jù)挖掘、模式解釋、知識(shí)評(píng)價(jià)等，而數(shù)據(jù)挖掘只是其中的一個(gè)關(guān)鍵步驟。但是為了簡(jiǎn)便，人們常常用空間數(shù)據(jù)挖掘來代替空間數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)。空間數(shù)據(jù)挖掘（Spatial Data Mining， SDM）是數(shù)據(jù)挖掘的一個(gè)分支，是在空間數(shù)據(jù)庫(kù)的基礎(chǔ)上，綜合利用各種技術(shù)方法，從大量的空間數(shù)據(jù)中自動(dòng)挖掘事先未知的且潛在有用的知識(shí)，提取出非顯式存在的空間關(guān)系或其它有意義的模式等，揭示出蘊(yùn)含在數(shù)據(jù)背后的客觀世界的本質(zhì)規(guī)律、內(nèi)在聯(lián)系和發(fā)展趨勢(shì)，實(shí)現(xiàn)知識(shí)的自動(dòng)獲取，從而提供技術(shù)決策與經(jīng)營(yíng)決策的依據(jù)。數(shù)據(jù)挖掘所能發(fā)現(xiàn)的知識(shí)最常見的有以下五種類型：廣義知識(shí)、關(guān)聯(lián)知識(shí)、分類知識(shí)、聚類知識(shí)和預(yù)測(cè)型知識(shí)。而要發(fā)現(xiàn)這些知識(shí)就需要運(yùn)用相應(yīng)空間數(shù)據(jù)挖掘方法。

綜上所述，二者之間的共同點(diǎn)是：

1、都是基于已經(jīng)獲得的數(shù)據(jù)，無論是存儲(chǔ)在數(shù)據(jù)庫(kù)，數(shù)據(jù)倉(cāng)庫(kù)，或者是文件當(dāng)中的數(shù)據(jù)進(jìn)行分析；

2、都是從大量的信息當(dāng)中，通過數(shù)據(jù)間的內(nèi)在聯(lián)系提取出操作者感興趣的數(shù)據(jù)；

3、提取出的數(shù)據(jù)都是非顯式存儲(chǔ)的，或者說是隱藏在原有數(shù)據(jù)當(dāng)中的；

4、空間數(shù)據(jù)挖掘是數(shù)據(jù)挖掘技術(shù)的一個(gè)重要分支和發(fā)展；

5、二者均以統(tǒng)計(jì)學(xué)為數(shù)學(xué)基礎(chǔ)。

另外二者的不同之處在于：

1、傳統(tǒng)數(shù)據(jù)挖掘處理的是數(shù)字和類別，而空間數(shù)據(jù)則是一些更為復(fù)雜的數(shù)據(jù)類型，例如：點(diǎn)、線、多邊形等對(duì)象；

2、傳統(tǒng)數(shù)據(jù)挖掘通常具有顯式的輸入，而空間數(shù)據(jù)挖掘的輸入則常常是隱式的；

3、在傳統(tǒng)數(shù)據(jù)挖掘中，有一個(gè)至關(guān)重要的前提假設(shè)，即數(shù)據(jù)樣品是獨(dú)立生成的，而這一假設(shè)在空間分析中是不成立的，事實(shí)上，空間數(shù)據(jù)之間是高度自關(guān)聯(lián)的。

4、數(shù)據(jù)源十分豐富,數(shù)據(jù)量非常龐大,數(shù)據(jù)類型多,存取方法復(fù)雜；

5、應(yīng)用領(lǐng)域十分廣泛,只要與空間位置相關(guān)的數(shù)據(jù),都可以對(duì)其進(jìn)行挖掘；

6、挖掘方法和算法非常多,而且大多數(shù)算法比較復(fù)雜,難度大；

7、知識(shí)的表達(dá)方式多樣,對(duì)知識(shí)的理解和評(píng)價(jià)依賴于人對(duì)客觀世界的認(rèn)知程度。

36大數(shù)據(jù)微信號(hào)：dashuju36
36大數(shù)據(jù)是一個(gè)專注大數(shù)據(jù)、大數(shù)據(jù)技術(shù)、大數(shù)據(jù)應(yīng)用案例和數(shù)據(jù)可視化的科技網(wǎng)站。從數(shù)據(jù)角度出發(fā)，講述大數(shù)據(jù)電子商務(wù)、網(wǎng)絡(luò)游戲、征信、互聯(lián)網(wǎng)金融、工/農(nóng)/商業(yè)等多個(gè)領(lǐng)域的應(yīng)用。36大數(shù)據(jù)是百度大數(shù)據(jù)戰(zhàn)略合作媒體，我們只提供最權(quán)威最干貨最接地氣最具價(jià)值的內(nèi)容。
微信公眾號(hào)：36大數(shù)據(jù)(dashuju36)
網(wǎng)站地址：36dsj.com
投稿郵箱：dashuju36@qq.com 36大數(shù)據(jù)讀者QQ千人群：80958753
36大數(shù)據(jù)是WeMedia自媒體成員之一，WeMedia是自媒體第一聯(lián)盟，覆蓋1000萬人群。詳情搜索“wemedia2013

點(diǎn)擊下方

“閱讀原文”

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：慈溪全媒體 > 《星標(biāo)》

舉報(bào)/認(rèn)領(lǐng)