眾所周知機(jī)器學(xué)習(xí)是人工智能領(lǐng)域中的主要領(lǐng)域之一,機(jī)器學(xué)習(xí)算法有很多,例如:分類(lèi)、回歸、聚類(lèi)、推薦、圖像識(shí)別領(lǐng)域等等。要想找個(gè)合適算法是非常不容易的,為了能夠?qū)ふ业胶线m的算法,需要明白機(jī)器學(xué)習(xí)算法的優(yōu)缺點(diǎn)是什么。
樸素貝葉斯:優(yōu)點(diǎn):樸素貝葉斯模型發(fā)源于古典數(shù)學(xué)理論,有著堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ),以及穩(wěn)定的分類(lèi)效率。對(duì)大數(shù)量訓(xùn)練和查詢(xún)時(shí)具有較高的速度。即使使用超大規(guī)模的訓(xùn)練集,針對(duì)每個(gè)項(xiàng)目通常也只會(huì)有相對(duì)較少的特征數(shù),并且對(duì)項(xiàng)目的訓(xùn)練和分類(lèi)也僅僅是特征概率的數(shù)學(xué)運(yùn)算而已;對(duì)小規(guī)模的數(shù)據(jù)表現(xiàn)很好,能個(gè)處理多分類(lèi)任務(wù),適合增量式訓(xùn)練(即可以實(shí)時(shí)的對(duì)新增的樣本進(jìn)行訓(xùn)練);對(duì)缺失數(shù)據(jù)不太敏感,算法也比較簡(jiǎn)單,常用于文本分類(lèi);樸素貝葉斯對(duì)結(jié)果解釋容易理解。缺點(diǎn):需要計(jì)算先驗(yàn)概率;分類(lèi)決策存在錯(cuò)誤率;對(duì)輸入數(shù)據(jù)的表達(dá)形式很敏感;由于使用了樣本屬性獨(dú)立性的假設(shè),所以如果樣本屬性有關(guān)聯(lián)時(shí)其效果不好。 邏輯回歸:優(yōu)點(diǎn):實(shí)現(xiàn)簡(jiǎn)單,廣泛的應(yīng)用于工業(yè)問(wèn)題上;分類(lèi)時(shí)計(jì)算量非常小,速度很快,存儲(chǔ)資源低;便利的觀測(cè)樣本概率分?jǐn)?shù);對(duì)邏輯回歸而言,多重共線性并不是問(wèn)題,它可以結(jié)合L2正則化來(lái)解決該問(wèn)題;計(jì)算代價(jià)不高,易于理解和實(shí)現(xiàn)。缺點(diǎn):當(dāng)特征空間很大時(shí),邏輯回歸的性能不是很好;容易欠擬合,一般準(zhǔn)確度不太高;不能很好地處理大量多類(lèi)特征或變量;只能處理兩分類(lèi)問(wèn)題(在此基礎(chǔ)上衍生出來(lái)的softmax可以用于多分類(lèi)),且必須線性可分;對(duì)于非線性特征,需要進(jìn)行轉(zhuǎn)換;
線性回歸:優(yōu)點(diǎn):實(shí)現(xiàn)簡(jiǎn)單,計(jì)算簡(jiǎn)單。缺點(diǎn):不能擬合非線性數(shù)據(jù)。 最近鄰算法——KNN:優(yōu)點(diǎn):理論成熟,思想簡(jiǎn)單,既可以用來(lái)做分類(lèi)也可以用來(lái)做回歸;可用于非線性分類(lèi);訓(xùn)練時(shí)間復(fù)雜度為O(n);對(duì)數(shù)據(jù)沒(méi)有假設(shè),準(zhǔn)確度高,對(duì)outlier不敏感;KNN是一種在線技術(shù),新數(shù)據(jù)可以直接加入數(shù)據(jù)集而不必進(jìn)行重新訓(xùn)練; KNN理論簡(jiǎn)單,容易實(shí)現(xiàn)。缺點(diǎn):樣本不平衡問(wèn)題(即有些類(lèi)別的樣本數(shù)量很多,而其它樣本的數(shù)量很少)效果差;需要大量?jī)?nèi)存;對(duì)于樣本容量大的數(shù)據(jù)集計(jì)算量比較大(體現(xiàn)在距離計(jì)算上);樣本不平衡時(shí),預(yù)測(cè)偏差比較大。KNN每一次分類(lèi)都會(huì)重新進(jìn)行一次全局運(yùn)算;k值大小的選擇沒(méi)有理論選擇最優(yōu),往往是結(jié)合K-折交叉驗(yàn)證得到最優(yōu)k值選擇; |
|
來(lái)自: 運(yùn)營(yíng)小壹 > 《待分類(lèi)》