支持向量機(jī)及其應(yīng)用

superlee 2007-07-16

展開(kāi)全文

一、數(shù)據(jù)挖掘分類技術(shù)

數(shù)據(jù)挖掘是機(jī)器學(xué)習(xí)、數(shù)據(jù)庫(kù)和統(tǒng)計(jì)學(xué)三者相結(jié)合的產(chǎn)物。數(shù)據(jù)挖掘首先要確定挖掘的任務(wù)或目的，確定了挖掘任務(wù)后，就要決定使用什么樣的挖掘算法，選擇了算法后就可以實(shí)施數(shù)據(jù)挖掘操作，獲取有用的模式。

分類作為數(shù)據(jù)挖掘中一項(xiàng)非常重要的任務(wù), 目前在商業(yè)上應(yīng)用最多（比如分析型CRM里面的客戶分類模型，客戶流失模型，客戶盈利等等，其本質(zhì)屬于分類問(wèn)題）。分類的目的是學(xué)會(huì)一個(gè)分類函數(shù)或分類模型(也常常稱作分類器),該模型能把數(shù)據(jù)庫(kù)中的數(shù)據(jù)項(xiàng)映射到給定類別中的某一個(gè)，從而可以用于預(yù)測(cè)。目前，分類方法的研究成果較多，判別方法的好壞可以從三個(gè)方面進(jìn)行：

1）預(yù)測(cè)準(zhǔn)確度（對(duì)非樣本數(shù)據(jù)的判別準(zhǔn)確度）；

2）計(jì)算復(fù)雜度（方法實(shí)現(xiàn)時(shí)對(duì)時(shí)間和空間的復(fù)雜度）；

3)模式的簡(jiǎn)潔度（在同樣效果情況下，希望決策樹(shù)小或規(guī)則少）。

近年來(lái)，對(duì)數(shù)據(jù)挖掘中分類算法的研究是該領(lǐng)域中一個(gè)熱點(diǎn)，對(duì)不同分類方法都有許多對(duì)比研究成果。沒(méi)有一個(gè)分類方法在對(duì)所有數(shù)據(jù)集上進(jìn)行分類學(xué)習(xí)均是最優(yōu)的。目前在數(shù)據(jù)挖掘軟件中運(yùn)用的最早也是最多的分類算法是神經(jīng)網(wǎng)絡(luò)，它具有對(duì)非線性數(shù)據(jù)快速建模的能力，通過(guò)對(duì)訓(xùn)練集的反復(fù)學(xué)習(xí)來(lái)調(diào)節(jié)自身的網(wǎng)絡(luò)結(jié)構(gòu)和連接權(quán) 值，并對(duì)未知的數(shù)據(jù)進(jìn)行分類和預(yù)測(cè)。但是由于神經(jīng)網(wǎng)絡(luò)是基于經(jīng)驗(yàn)最小化原理，它有如下幾個(gè)固有的缺陷：

1）結(jié)構(gòu)復(fù)雜（神經(jīng)元的結(jié)構(gòu)，還有輸入層，隱含層，輸出層組合起來(lái)的復(fù)雜結(jié)構(gòu)）

2）容易陷入局部極小

3) 容易出現(xiàn)過(guò)學(xué)習(xí)問(wèn)題，也就是訓(xùn)練出來(lái)的模型推廣能力不強(qiáng)

為了克服傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的以上缺點(diǎn)，Vapnik提出了一種新的基于統(tǒng)計(jì)學(xué)習(xí)理論的機(jī)器學(xué)習(xí)算法―支持向量機(jī)，正式奠定了SVM的理論基礎(chǔ)，由于SVM扎實(shí)的理論基礎(chǔ)，其目前已經(jīng)成為繼神經(jīng)網(wǎng)絡(luò)之后的的機(jī)器學(xué)習(xí)領(lǐng)域研究熱點(diǎn)之一。

二、支持向量機(jī)核心思想

支持向量機(jī)實(shí)現(xiàn)是通過(guò)某種事先選擇的非線性映射（核函數(shù)）將輸入向量映射到一個(gè)高維特征空間，在這個(gè)空間中構(gòu)造最優(yōu)分類超平面。我們使用使用SVM進(jìn)行數(shù)據(jù)集分類工作的過(guò)程首先是通過(guò)預(yù)先選定的一些非線性映射將輸入空間映射到高維特征空間（如下圖）

使得在高維屬性空間中有可能對(duì)訓(xùn)練數(shù)據(jù)實(shí)現(xiàn)超平面的分割，避免了在原輸入空間中進(jìn)行非線性曲面分割計(jì)算。SVM數(shù)據(jù)集形成的分類函數(shù)具有這樣的性質(zhì)：它是一組以支持向量為參數(shù)的非線性函數(shù)的線性組合，因此分類函數(shù)的表達(dá)式僅和支持向量的數(shù)量有關(guān)，而獨(dú)立于空間的維度。在處理高維輸入空間的分類時(shí)，這種方法尤其有效。其工作原理如下圖

三、支持向量機(jī)在數(shù)據(jù)挖掘中的應(yīng)用

鑒于支持向量機(jī)扎實(shí)的理論基礎(chǔ)，并且和傳統(tǒng)的學(xué)習(xí)算法想比較（比如人工神經(jīng)網(wǎng)絡(luò)），SVM通過(guò)提高數(shù)據(jù)的維度把非線性分類問(wèn)題轉(zhuǎn)換成線性分類問(wèn)題，較好解決了傳統(tǒng)算法中訓(xùn)練集誤差最小而測(cè)試集誤差仍較大的問(wèn)題，算法的效率和精度都比較高。所以近年來(lái)該方法成為構(gòu)造數(shù)據(jù)挖掘分類器的一項(xiàng)新型技術(shù)，在分類和回歸模型中得到了很好的應(yīng)用。但由于支持向量機(jī)出現(xiàn)的時(shí)間在90年代中期，人們對(duì)支持向量機(jī)的應(yīng)用主要集中在模式識(shí)別方面，對(duì)于將支持向量機(jī)應(yīng)用于數(shù)據(jù)挖掘的研究剛處于起步階段。

目前，用SVM構(gòu)造數(shù)據(jù)挖掘中的分類器來(lái)處理海量數(shù)據(jù)主要面臨以下兩個(gè)困難：

(1)SVM算法對(duì)大規(guī)模訓(xùn)練樣本難以實(shí)施

由于SVM是借助二次規(guī)劃來(lái)求解支持向量，而求解二次規(guī)劃將涉及m階矩陣的計(jì)算（m為樣本的個(gè)數(shù)），當(dāng)m數(shù)目很大時(shí)該矩陣的存儲(chǔ)和計(jì)算將耗費(fèi)大量的機(jī)器內(nèi)存和運(yùn)算時(shí)間。

針對(duì)以上問(wèn)題的主要改進(jìn)有有J.Platt的SMO算法、T.Joachims的SVM 、C.J.C.Burges等的PCGC、張學(xué)工的CSVM以及O.L.Mangasarian等的SOR算法

(2)用SVM解決多分類問(wèn)題存在困難

經(jīng)典的支持向量機(jī)算法只給出了二類分類的算法，而在數(shù)據(jù)挖掘的實(shí)際應(yīng)用中，一般要解決多類的分類問(wèn)題。可以通過(guò)多個(gè)二類支持向量機(jī)的組合來(lái)解決。主要有一對(duì)多組合模式、一對(duì)一組合模式和SVM決策樹(shù)；再就是通過(guò)構(gòu)造多個(gè)分類器的組合來(lái)解決。主要原理是克服SVM固有的缺點(diǎn)，結(jié)合其他算法的優(yōu)勢(shì)，解決多類問(wèn)題的分類精度。如：與粗集理論結(jié)合，形成一種優(yōu)勢(shì)互補(bǔ)的多類問(wèn)題的組合分類器

四、考慮一點(diǎn)商業(yè)智能中應(yīng)用

支持向量機(jī)是基于統(tǒng)計(jì)學(xué)習(xí)理論的新一代學(xué)習(xí)機(jī)器，具有很多吸引人的特點(diǎn)，它在函數(shù)表達(dá)能力、推廣能力和學(xué)習(xí)效率上都要優(yōu)于傳統(tǒng)的人工神經(jīng)網(wǎng)絡(luò)，在實(shí)際應(yīng)用中也解決了許多問(wèn)題，但由于SVM的出現(xiàn)比較晚，還處于發(fā)展階段，尤其是其算法實(shí)現(xiàn)方面存在著效率低下的問(wèn)題，這也是限制SVM很好地應(yīng)用于數(shù)據(jù)挖掘中的一個(gè)瓶頸?？梢钥紤]對(duì)傳統(tǒng)支持向量機(jī)進(jìn)行擴(kuò)展，實(shí)現(xiàn)多分類支持向量機(jī)?？梢钥紤]運(yùn)用于現(xiàn)在的客戶智能系統(tǒng)當(dāng)中，現(xiàn)有客戶智能系統(tǒng)采用的分類技術(shù)都是傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)：

比如神經(jīng)網(wǎng)絡(luò)，決策樹(shù)，回歸分析等等。根據(jù)最后的圖，大家可以看到現(xiàn)在的分析型CRM的整個(gè)功能和技術(shù)架構(gòu)，如果把這種新興的數(shù)據(jù)挖掘技術(shù)-支持向量機(jī)，運(yùn)用于商業(yè)智能，相信是種不錯(cuò)的嘗試。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自： superlee > 《詞性標(biāo)注》

舉報(bào)/認(rèn)領(lǐng)