一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

支持向量機(jī)及其應(yīng)用

 superlee 2007-07-16

一、數(shù)據(jù)挖掘分類技術(shù)

數(shù)據(jù)挖掘是機(jī)器學(xué)習(xí)、數(shù)據(jù)庫(kù)和統(tǒng)計(jì)學(xué)三者相結(jié)合的產(chǎn)物。數(shù)據(jù)挖掘首先要確定挖掘的任務(wù)或目的,確定了挖掘任務(wù)后,就要決定使用什么樣的挖掘算法,選擇了算法后就可以實(shí)施數(shù)據(jù)挖掘操作,獲取有用的模式。

分類作為數(shù)據(jù)挖掘中一項(xiàng)非常重要的任務(wù), 目前在商業(yè)上應(yīng)用最多(比如分析型CRM里面的客戶分類模型,客戶流失模型,客戶盈利等等,其本質(zhì)屬于分類問(wèn)題)。分類的目的是學(xué)會(huì)一個(gè)分類函數(shù)或分類模 型(也常常稱作分類器),該模型能把數(shù)據(jù)庫(kù)中的數(shù)據(jù)項(xiàng)映射到給定類別中的某一個(gè),從而可以用于預(yù)測(cè)。目前,分類方法的研究成果較多,判別方法的好壞可以從 三個(gè)方面進(jìn)行:

1)預(yù)測(cè)準(zhǔn)確度(對(duì)非樣本數(shù)據(jù)的判別準(zhǔn)確度);

2)計(jì)算復(fù)雜度(方法實(shí)現(xiàn)時(shí)對(duì)時(shí)間和空間的復(fù)雜度);

3)模式的簡(jiǎn)潔度(在同樣效果情況下,希望決策樹(shù)小或規(guī)則少)。

近 年來(lái),對(duì)數(shù)據(jù)挖掘中分類算法的研究是該領(lǐng)域中一個(gè)熱點(diǎn),對(duì)不同分類方法都有許多對(duì)比研究成果。沒(méi)有一個(gè)分類方法在對(duì)所有數(shù)據(jù)集上進(jìn)行分類學(xué)習(xí)均是最優(yōu)的。 目前在數(shù)據(jù)挖掘軟件中運(yùn)用的最早也是最多的分類算法是神經(jīng)網(wǎng)絡(luò),它具有對(duì)非線性數(shù)據(jù)快速建模的能力,通過(guò)對(duì)訓(xùn)練集的反復(fù)學(xué)習(xí)來(lái)調(diào)節(jié)自身的網(wǎng)絡(luò)結(jié)構(gòu)和連接權(quán) 值,并對(duì)未知的數(shù)據(jù)進(jìn)行分類和預(yù)測(cè)。但是由于神經(jīng)網(wǎng)絡(luò)是基于經(jīng)驗(yàn)最小化原理,它有如下幾個(gè)固有的缺陷:

1)結(jié)構(gòu)復(fù)雜(神經(jīng)元的結(jié)構(gòu),還有輸入層,隱含層,輸出層組合起來(lái)的復(fù)雜結(jié)構(gòu))

2)容易陷入局部極小

3) 容易出現(xiàn)過(guò)學(xué)習(xí)問(wèn)題,也就是訓(xùn)練出來(lái)的模型推廣能力不強(qiáng)

為了克服傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的以上缺點(diǎn),Vapnik提出了一種新的基于統(tǒng)計(jì)學(xué)習(xí)理論的機(jī)器學(xué)習(xí)算法―支持向量機(jī),正式奠定了SVM的理論基礎(chǔ),由于SVM扎實(shí)的理論基礎(chǔ),其目前已經(jīng)成為繼神經(jīng)網(wǎng)絡(luò)之后的的機(jī)器學(xué)習(xí)領(lǐng)域研究熱點(diǎn)之一。

 

二、支持向量機(jī)核心思想

支持向量機(jī)實(shí)現(xiàn)是通過(guò)某種事先選擇的非線性映射(核函數(shù))將輸入向量映射到一個(gè)高維特征空間,在這個(gè)空間中構(gòu)造最優(yōu)分類超平面。我們使用使用SVM進(jìn)行數(shù)據(jù)集分類工作的過(guò)程首先是通過(guò)預(yù)先選定的一些非線性映射將輸入空間映射到高維特征空間(如下圖)

  

 使得在高維屬性空間中有可能對(duì)訓(xùn)練數(shù)據(jù)實(shí)現(xiàn)超平面的分割,避免了在原輸入空間中進(jìn)行非線性曲面分割計(jì)算。SVM數(shù)據(jù)集形成的分類函數(shù)具有這樣的性質(zhì):它是一組以支持向量為參數(shù)的非線性函數(shù)的線性組合,因此分類函數(shù)的表達(dá)式僅和支持向量的數(shù)量有關(guān),而獨(dú)立于空間的維度。在處理高維輸入空間的分類時(shí),這種方法尤其有效。其工作原理如下圖

 

 

三、支持向量機(jī)在數(shù)據(jù)挖掘中的應(yīng)用

鑒于支持向量機(jī)扎實(shí)的理論基礎(chǔ),并且和傳統(tǒng)的學(xué)習(xí)算法想比較(比如人工神經(jīng)網(wǎng)絡(luò)),SVM通 過(guò)提高數(shù)據(jù)的維度把非線性分類問(wèn)題轉(zhuǎn)換成線性分類問(wèn)題,較好解決了傳統(tǒng)算法中訓(xùn)練集誤差最小而測(cè)試集誤差仍較大的問(wèn)題,算法的效率和精度都比較高。所以近 年來(lái)該方法成為構(gòu)造數(shù)據(jù)挖掘分類器的一項(xiàng)新型技術(shù),在分類和回歸模型中得到了很好的應(yīng)用。但由于支持向量機(jī)出現(xiàn)的時(shí)間在90年代中期,人們對(duì)支持向量機(jī)的應(yīng)用主要集中在模式識(shí)別方面,對(duì)于將支持向量機(jī)應(yīng)用于數(shù)據(jù)挖掘的研究剛處于起步階段。

目前,用SVM構(gòu)造數(shù)據(jù)挖掘中的分類器來(lái)處理海量數(shù)據(jù)主要面臨以下兩個(gè)困難:

 

(1)SVM算法對(duì)大規(guī)模訓(xùn)練樣本難以實(shí)施

由于SVM是借助二次規(guī)劃來(lái)求解支持向量,而求解二次規(guī)劃將涉及m階矩陣的計(jì)算(m為樣本的個(gè)數(shù)),當(dāng)m數(shù)目很大時(shí)該矩陣的存儲(chǔ)和計(jì)算將耗費(fèi)大量的機(jī)器內(nèi)存和運(yùn)算時(shí)間。

針對(duì)以上問(wèn)題的主要改進(jìn)有有J.PlattSMO算法、T.JoachimsSVM 、C.J.C.Burges等的PCGC、張學(xué)工的CSVM以及O.L.Mangasarian等的SOR算法

(2)SVM解決多分類問(wèn)題存在困難

經(jīng)典的支持向量機(jī)算法只給出了二類分類的算法,而在數(shù)據(jù)挖掘的實(shí)際應(yīng)用中,一般要解決多類的分類問(wèn)題。可以通過(guò)多個(gè)二類支持向量機(jī)的組合來(lái)解決。主要有一對(duì)多組合模式、一對(duì)一組合模式和SVM決策樹(shù);再就是通過(guò)構(gòu)造多個(gè)分類器的組合來(lái)解決。主要原理是克服SVM固有的缺點(diǎn),結(jié)合其他算法的優(yōu)勢(shì),解決多類問(wèn)題的分類精度。如:與粗集理論結(jié)合,形成一種優(yōu)勢(shì)互補(bǔ)的多類問(wèn)題的組合分類器

 

 

四、考慮一點(diǎn)商業(yè)智能中應(yīng)用

支持向量機(jī)是基于統(tǒng)計(jì)學(xué)習(xí)理論的新一代學(xué)習(xí)機(jī)器,具有很多吸引人的特點(diǎn),它在函數(shù)表達(dá)能力、推廣能力和學(xué)習(xí)效率上都要優(yōu)于傳統(tǒng)的人工神經(jīng)網(wǎng)絡(luò),在實(shí)際應(yīng)用中也解決了許多問(wèn)題,但由于SVM的出現(xiàn)比較晚,還處于發(fā)展階段,尤其是其算法實(shí)現(xiàn)方面存在著效率低下的問(wèn)題,這也是限制SVM很好地應(yīng)用于數(shù)據(jù)挖掘中的一個(gè)瓶頸??梢钥紤]對(duì)傳統(tǒng)支持向量機(jī)進(jìn)行擴(kuò)展,實(shí)現(xiàn)多分類支持向量機(jī)??梢钥紤]運(yùn)用于現(xiàn)在的客戶智能系統(tǒng)當(dāng)中,現(xiàn)有客戶智能系統(tǒng)采用的分類技術(shù)都是傳統(tǒng)的數(shù)據(jù)挖掘技術(shù):

比如神經(jīng)網(wǎng)絡(luò),決策樹(shù),回歸分析等等。根據(jù)最后的圖,大家可以看到現(xiàn)在的分析型CRM的整個(gè)功能和技術(shù)架構(gòu),如果把這種新興的數(shù)據(jù)挖掘技術(shù)-支持向量機(jī),運(yùn)用于商業(yè)智能,相信是種不錯(cuò)的嘗試。

 

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多

    亚洲欧美日本国产有色| 欧美亚洲综合另类色妞| 91精品国自产拍老熟女露脸 | 亚洲综合天堂一二三区| 91福利视频日本免费看看| 国产亚洲欧美一区二区| 大香蕉网国产在线观看av| 国产精品久久精品毛片| 扒开腿狂躁女人爽出白浆av| 少妇人妻中出中文字幕| 五月婷婷六月丁香狠狠| 亚洲欧美日韩在线中文字幕| 亚洲精品一区二区三区免| 欧美韩日在线观看一区| 日韩特级黄片免费观看| 国产成人精品国产成人亚洲| 激情中文字幕在线观看| 后入美臀少妇一区二区| 国产又粗又硬又长又爽的剧情| 国产视频一区二区三区四区| 少妇高潮呻吟浪语91| 欧美黑人在线精品极品| 久久热九九这里只有精品| 欧美亚洲另类久久久精品| 内用黄老外示儒术出处| 国产情侣激情在线对白| 美女黄色三级深夜福利| 91午夜少妇极品福利| 日韩欧美综合中文字幕| 亚洲一区二区三区在线免费| 日韩一区欧美二区国产| 国产av大片一区二区三区 | 午夜福利国产精品不卡| 国产在线一区二区三区不卡| 亚洲精选91福利在线观看 | 午夜视频免费观看成人| 97人妻精品一区二区三区免| 国产高清视频一区不卡| 久久精品国产在热久久| 欧美黑人黄色一区二区| 日韩一级一片内射视频4k|