監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)

湖北劉恒 2017-03-06

展開全文

機(jī)器學(xué)習(xí)的常用方法，主要分為有監(jiān)督學(xué)習(xí)(supervised learning)和無監(jiān)督學(xué)習(xí)(unsupervised learning)。監(jiān)督學(xué)習(xí)，就是人們常說的分類，通過已有的訓(xùn)練樣本（即已知數(shù)據(jù)以及其對應(yīng)的輸出）去訓(xùn)練得到一個(gè)最優(yōu)模型（這個(gè)模型屬于某個(gè)函數(shù)的集合，最優(yōu)則表示在某個(gè)評價(jià)準(zhǔn)則下是最佳的），再利用這個(gè)模型將所有的輸入映射為相應(yīng)的輸出，對輸出進(jìn)行簡單的判斷從而實(shí)現(xiàn)分類的目的，也就具有了對未知數(shù)據(jù)進(jìn)行分類的能力。在人對事物的認(rèn)識中，我們從孩子開始就被大人們教授這是鳥啊、那是豬啊、那是房子啊，等等。我們所見到的景物就是輸入數(shù)據(jù)，而大人們對這些景物的判斷結(jié)果（是房子還是鳥?。┚褪窍鄳?yīng)的輸出。當(dāng)我們見識多了以后，腦子里就慢慢地得到了一些泛化的模型，這就是訓(xùn)練得到的那個(gè)（或者那些）函數(shù)，從而不需要大人在旁邊指點(diǎn)的時(shí)候，我們也能分辨的出來哪些是房子，哪些是鳥。監(jiān)督學(xué)習(xí)里典型的例子就是KNN、SVM。無監(jiān)督學(xué)習(xí)（也有人叫非監(jiān)督學(xué)習(xí)，反正都差不多）則是另一種研究的比較多的學(xué)習(xí)方法，它與監(jiān)督學(xué)習(xí)的不同之處，在于我們事先沒有任何訓(xùn)練樣本，而需要直接對數(shù)據(jù)進(jìn)行建模。這聽起來似乎有點(diǎn)不可思議，但是在我們自身認(rèn)識世界的過程中很多處都用到了無監(jiān)督學(xué)習(xí)。比如我們?nèi)⒂^一個(gè)畫展，我們完全對藝術(shù)一無所知，但是欣賞完多幅作品之后，我們也能把它們分成不同的派別（比如哪些更朦朧一點(diǎn)，哪些更寫實(shí)一些，即使我們不知道什么叫做朦朧派，什么叫做寫實(shí)派，但是至少我們能把他們分為兩個(gè)類）。無監(jiān)督學(xué)習(xí)里典型的例子就是聚類了。聚類的目的在于把相似的東西聚在一起，而我們并不關(guān)心這一類是什么。因此，一個(gè)聚類算法通常只需要知道如何計(jì)算相似度就可以開始工作了。

那么，什么時(shí)候應(yīng)該采用監(jiān)督學(xué)習(xí)，什么時(shí)候應(yīng)該采用非監(jiān)督學(xué)習(xí)呢？我也是從一次面試的過程中被問到這個(gè)問題以后才開始認(rèn)真地考慮答案。一種非常簡單的回答就是從定義入手，如果我們在分類的過程中有訓(xùn)練樣本(training data)，則可以考慮用監(jiān)督學(xué)習(xí)的方法；如果沒有訓(xùn)練樣本，則不可能用監(jiān)督學(xué)習(xí)的方法。但是事實(shí)上，我們在針對一個(gè)現(xiàn)實(shí)問題進(jìn)行解答的過程中，即使我們沒有現(xiàn)成的訓(xùn)練樣本，我們也能夠憑借自己的雙眼，從待分類的數(shù)據(jù)中人工標(biāo)注一些樣本，并把他們作為訓(xùn)練樣本，這樣的話就可以把條件改善，用監(jiān)督學(xué)習(xí)的方法來做。當(dāng)然不得不說的是有時(shí)候數(shù)據(jù)表達(dá)的會非常隱蔽，也就是說我們手頭的信息不是抽象的形式，而是具體的一大堆數(shù)字，這樣我們很難憑借人本身對它們簡單地進(jìn)行分類。這個(gè)說的好像有點(diǎn)不大明白，舉個(gè)例子說就是在bag of words 模型的時(shí)候，我們利用k-means的方法聚類從而對數(shù)據(jù)投影，這時(shí)候用k-means就是因?yàn)槲覀儺?dāng)前到手的只有一大堆數(shù)據(jù)，而且是很高維的，當(dāng)我們想把他們分為50個(gè)類的時(shí)候，我們已經(jīng)無力將每個(gè)數(shù)據(jù)標(biāo)記說這個(gè)數(shù)應(yīng)該是哪個(gè)類，那個(gè)數(shù)又應(yīng)該是哪個(gè)類了。所以說遇到這種情況也只有無監(jiān)督學(xué)習(xí)能夠幫助我們了。那么這么說來，能不能再深入地問下去，如果有訓(xùn)練樣本（或者說如果我們可以獲得到一些訓(xùn)練數(shù)據(jù)的話），監(jiān)督學(xué)習(xí)就會比無監(jiān)督學(xué)習(xí)更合適呢？（照我們單純地想，有高人教總比自己領(lǐng)悟來的準(zhǔn)，來的快吧?。┪矣X得一般來說，是這樣的，但是這要具體看看訓(xùn)練數(shù)據(jù)的獲取。本人在最近課題的研究中，手動標(biāo)注了大量的訓(xùn)練樣本（當(dāng)然這些樣本基本準(zhǔn)確了），而且把樣本畫在特征空間中發(fā)現(xiàn)線性可分性非常好，只是在分類面附近總有一些混淆的數(shù)據(jù)樣本，從而用線性分類器進(jìn)行分類之后這樣樣本會被誤判。然而，如果用混合高斯模型（GMM）來分的話，這些易混淆的點(diǎn)被正確分類的更多了。對這個(gè)現(xiàn)象的一個(gè)解釋，就是不管是訓(xùn)練樣本，還是待聚類的數(shù)據(jù)，并不是所有數(shù)據(jù)都是相互獨(dú)立同分布的。換句話說，數(shù)據(jù)與數(shù)據(jù)的分布之間存在聯(lián)系。在我閱讀監(jiān)督學(xué)習(xí)的大量材料中，大家都沒有對訓(xùn)練數(shù)據(jù)的這一假設(shè)（獨(dú)立同分布）進(jìn)行說明，直到我閱讀到一本書的提示后才恍然大悟。對于不同的場景，正負(fù)樣本的分布如果會存在偏移（可能是大的偏移，也可能偏移比較?。?，這樣的話用監(jiān)督學(xué)習(xí)的效果可能就不如用非監(jiān)督學(xué)習(xí)了。

轉(zhuǎn)載地址：http://blog.csdn.net/jwh_bupt/article/details/7654120

本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：湖北劉恒 > 《數(shù)據(jù)分析》

舉報(bào)/認(rèn)領(lǐng)