一、數(shù)據(jù)挖掘分類技術(shù) 數(shù)據(jù)挖掘是機(jī)器學(xué)習(xí)、數(shù)據(jù)庫(kù)和統(tǒng)計(jì)學(xué)三者相結(jié)合的產(chǎn)物。數(shù)據(jù)挖掘首先要確定挖掘的任務(wù)或目的,確定了挖掘任務(wù)后,就要決定使用什么樣的挖掘算法,選擇了算法后就可以實(shí)施數(shù)據(jù)挖掘操作,獲取有用的模式。 分類作為數(shù)據(jù)挖掘中一項(xiàng)非常重要的任務(wù), 目前在商業(yè)上應(yīng)用最多(比如分析型CRM里面的客戶分類模型,客戶流失模型,客戶盈利等等,其本質(zhì)屬于分類問(wèn)題)。分類的目的是學(xué)會(huì)一個(gè)分類函數(shù)或分類模 型(也常常稱作分類器),該模型能把數(shù)據(jù)庫(kù)中的數(shù)據(jù)項(xiàng)映射到給定類別中的某一個(gè),從而可以用于預(yù)測(cè)。目前,分類方法的研究成果較多,判別方法的好壞可以從 三個(gè)方面進(jìn)行: 1)預(yù)測(cè)準(zhǔn)確度(對(duì)非樣本數(shù)據(jù)的判別準(zhǔn)確度); 2)計(jì)算復(fù)雜度(方法實(shí)現(xiàn)時(shí)對(duì)時(shí)間和空間的復(fù)雜度); 3)模式的簡(jiǎn)潔度(在同樣效果情況下,希望決策樹(shù)小或規(guī)則少)。 近
年來(lái),對(duì)數(shù)據(jù)挖掘中分類算法的研究是該領(lǐng)域中一個(gè)熱點(diǎn),對(duì)不同分類方法都有許多對(duì)比研究成果。沒(méi)有一個(gè)分類方法在對(duì)所有數(shù)據(jù)集上進(jìn)行分類學(xué)習(xí)均是最優(yōu)的。
目前在數(shù)據(jù)挖掘軟件中運(yùn)用的最早也是最多的分類算法是神經(jīng)網(wǎng)絡(luò),它具有對(duì)非線性數(shù)據(jù)快速建模的能力,通過(guò)對(duì)訓(xùn)練集的反復(fù)學(xué)習(xí)來(lái)調(diào)節(jié)自身的網(wǎng)絡(luò)結(jié)構(gòu)和連接權(quán)
值,并對(duì)未知的數(shù)據(jù)進(jìn)行分類和預(yù)測(cè)。但是由于神經(jīng)網(wǎng)絡(luò)是基于經(jīng)驗(yàn)最小化原理,它有如下幾個(gè)固有的缺陷: 1)結(jié)構(gòu)復(fù)雜(神經(jīng)元的結(jié)構(gòu),還有輸入層,隱含層,輸出層組合起來(lái)的復(fù)雜結(jié)構(gòu)) 2)容易陷入局部極小 3) 容易出現(xiàn)過(guò)學(xué)習(xí)問(wèn)題,也就是訓(xùn)練出來(lái)的模型推廣能力不強(qiáng) 為了克服傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的以上缺點(diǎn),Vapnik提出了一種新的基于統(tǒng)計(jì)學(xué)習(xí)理論的機(jī)器學(xué)習(xí)算法―支持向量機(jī),正式奠定了SVM的理論基礎(chǔ),由于SVM扎實(shí)的理論基礎(chǔ),其目前已經(jīng)成為繼神經(jīng)網(wǎng)絡(luò)之后的的機(jī)器學(xué)習(xí)領(lǐng)域研究熱點(diǎn)之一。 二、支持向量機(jī)核心思想 支持向量機(jī)實(shí)現(xiàn)是通過(guò)某種事先選擇的非線性映射(核函數(shù))將輸入向量映射到一個(gè)高維特征空間,在這個(gè)空間中構(gòu)造最優(yōu)分類超平面。我們使用使用SVM進(jìn)行數(shù)據(jù)集分類工作的過(guò)程首先是通過(guò)預(yù)先選定的一些非線性映射將輸入空間映射到高維特征空間(如下圖) 使得在高維屬性空間中有可能對(duì)訓(xùn)練數(shù)據(jù)實(shí)現(xiàn)超平面的分割,避免了在原輸入空間中進(jìn)行非線性曲面分割計(jì)算。SVM數(shù)據(jù)集形成的分類函數(shù)具有這樣的性質(zhì):它是一組以支持向量為參數(shù)的非線性函數(shù)的線性組合,因此分類函數(shù)的表達(dá)式僅和支持向量的數(shù)量有關(guān),而獨(dú)立于空間的維度。在處理高維輸入空間的分類時(shí),這種方法尤其有效。其工作原理如下圖
三、支持向量機(jī)在數(shù)據(jù)挖掘中的應(yīng)用 鑒于支持向量機(jī)扎實(shí)的理論基礎(chǔ),并且和傳統(tǒng)的學(xué)習(xí)算法想比較(比如人工神經(jīng)網(wǎng)絡(luò)),SVM通 過(guò)提高數(shù)據(jù)的維度把非線性分類問(wèn)題轉(zhuǎn)換成線性分類問(wèn)題,較好解決了傳統(tǒng)算法中訓(xùn)練集誤差最小而測(cè)試集誤差仍較大的問(wèn)題,算法的效率和精度都比較高。所以近 年來(lái)該方法成為構(gòu)造數(shù)據(jù)挖掘分類器的一項(xiàng)新型技術(shù),在分類和回歸模型中得到了很好的應(yīng)用。但由于支持向量機(jī)出現(xiàn)的時(shí)間在90年代中期,人們對(duì)支持向量機(jī)的應(yīng)用主要集中在模式識(shí)別方面,對(duì)于將支持向量機(jī)應(yīng)用于數(shù)據(jù)挖掘的研究剛處于起步階段。 目前,用SVM構(gòu)造數(shù)據(jù)挖掘中的分類器來(lái)處理海量數(shù)據(jù)主要面臨以下兩個(gè)困難: (1)SVM算法對(duì)大規(guī)模訓(xùn)練樣本難以實(shí)施 由于SVM是借助二次規(guī)劃來(lái)求解支持向量,而求解二次規(guī)劃將涉及m階矩陣的計(jì)算(m為樣本的個(gè)數(shù)),當(dāng)m數(shù)目很大時(shí)該矩陣的存儲(chǔ)和計(jì)算將耗費(fèi)大量的機(jī)器內(nèi)存和運(yùn)算時(shí)間。 針對(duì)以上問(wèn)題的主要改進(jìn)有有J.Platt的SMO算法、T.Joachims的SVM (2)用SVM解決多分類問(wèn)題存在困難 經(jīng)典的支持向量機(jī)算法只給出了二類分類的算法,而在數(shù)據(jù)挖掘的實(shí)際應(yīng)用中,一般要解決多類的分類問(wèn)題。可以通過(guò)多個(gè)二類支持向量機(jī)的組合來(lái)解決。主要有一對(duì)多組合模式、一對(duì)一組合模式和SVM決策樹(shù);再就是通過(guò)構(gòu)造多個(gè)分類器的組合來(lái)解決。主要原理是克服SVM固有的缺點(diǎn),結(jié)合其他算法的優(yōu)勢(shì),解決多類問(wèn)題的分類精度。如:與粗集理論結(jié)合,形成一種優(yōu)勢(shì)互補(bǔ)的多類問(wèn)題的組合分類器 四、考慮一點(diǎn)商業(yè)智能中應(yīng)用 支持向量機(jī)是基于統(tǒng)計(jì)學(xué)習(xí)理論的新一代學(xué)習(xí)機(jī)器,具有很多吸引人的特點(diǎn),它在函數(shù)表達(dá)能力、推廣能力和學(xué)習(xí)效率上都要優(yōu)于傳統(tǒng)的人工神經(jīng)網(wǎng)絡(luò),在實(shí)際應(yīng)用中也解決了許多問(wèn)題,但由于SVM的出現(xiàn)比較晚,還處于發(fā)展階段,尤其是其算法實(shí)現(xiàn)方面存在著效率低下的問(wèn)題,這也是限制SVM很好地應(yīng)用于數(shù)據(jù)挖掘中的一個(gè)瓶頸??梢钥紤]對(duì)傳統(tǒng)支持向量機(jī)進(jìn)行擴(kuò)展,實(shí)現(xiàn)多分類支持向量機(jī)??梢钥紤]運(yùn)用于現(xiàn)在的客戶智能系統(tǒng)當(dāng)中,現(xiàn)有客戶智能系統(tǒng)采用的分類技術(shù)都是傳統(tǒng)的數(shù)據(jù)挖掘技術(shù): 比如神經(jīng)網(wǎng)絡(luò),決策樹(shù),回歸分析等等。根據(jù)最后的圖,大家可以看到現(xiàn)在的分析型CRM的整個(gè)功能和技術(shù)架構(gòu),如果把這種新興的數(shù)據(jù)挖掘技術(shù)-支持向量機(jī),運(yùn)用于商業(yè)智能,相信是種不錯(cuò)的嘗試。 |
|
來(lái)自: superlee > 《詞性標(biāo)注》