機(jī)器學(xué)習(xí)的常用方法,主要分為有監(jiān)督學(xué)習(xí)(supervised learning)和無監(jiān)督學(xué)習(xí)(unsupervised learning)。監(jiān)督學(xué)習(xí),就是人們常說的分類,通過已有的訓(xùn)練樣本(即已知數(shù)據(jù)以及其對應(yīng)的輸出)去訓(xùn)練得到一個(gè)最優(yōu)模型(這個(gè)模型屬于某個(gè)函數(shù)的集合,最優(yōu)則表示在某個(gè)評價(jià)準(zhǔn)則下是最佳的),再利用這個(gè)模型將所有的輸入映射為相應(yīng)的輸出,對輸出進(jìn)行簡單的判斷從而實(shí)現(xiàn)分類的目的,也就具有了對未知數(shù)據(jù)進(jìn)行分類的能力。在人對事物的認(rèn)識中,我們從孩子開始就被大人們教授這是鳥啊、那是豬啊、那是房子啊,等等。我們所見到的景物就是輸入數(shù)據(jù),而大人們對這些景物的判斷結(jié)果(是房子還是鳥?。┚褪窍鄳?yīng)的輸出。當(dāng)我們見識多了以后,腦子里就慢慢地得到了一些泛化的模型,這就是訓(xùn)練得到的那個(gè)(或者那些)函數(shù),從而不需要大人在旁邊指點(diǎn)的時(shí)候,我們也能分辨的出來哪些是房子,哪些是鳥。監(jiān)督學(xué)習(xí)里典型的例子就是KNN、SVM。無監(jiān)督學(xué)習(xí)(也有人叫非監(jiān)督學(xué)習(xí),反正都差不多)則是另一種研究的比較多的學(xué)習(xí)方法,它與監(jiān)督學(xué)習(xí)的不同之處,在于我們事先沒有任何訓(xùn)練樣本,而需要直接對數(shù)據(jù)進(jìn)行建模。這聽起來似乎有點(diǎn)不可思議,但是在我們自身認(rèn)識世界的過程中很多處都用到了無監(jiān)督學(xué)習(xí)。比如我們?nèi)⒂^一個(gè)畫展,我們完全對藝術(shù)一無所知,但是欣賞完多幅作品之后,我們也能把它們分成不同的派別(比如哪些更朦朧一點(diǎn),哪些更寫實(shí)一些,即使我們不知道什么叫做朦朧派,什么叫做寫實(shí)派,但是至少我們能把他們分為兩個(gè)類)。無監(jiān)督學(xué)習(xí)里典型的例子就是聚類了。聚類的目的在于把相似的東西聚在一起,而我們并不關(guān)心這一類是什么。因此,一個(gè)聚類算法通常只需要知道如何計(jì)算相似度就可以開始工作了。 那么,什么時(shí)候應(yīng)該采用監(jiān)督學(xué)習(xí),什么時(shí)候應(yīng)該采用非監(jiān)督學(xué)習(xí)呢?我也是從一次面試的過程中被問到這個(gè)問題以后才開始認(rèn)真地考慮答案。一種非常簡單的回答就是從定義入手,如果我們在分類的過程中有訓(xùn)練樣本(training data),則可以考慮用監(jiān)督學(xué)習(xí)的方法;如果沒有訓(xùn)練樣本,則不可能用監(jiān)督學(xué)習(xí)的方法。但是事實(shí)上,我們在針對一個(gè)現(xiàn)實(shí)問題進(jìn)行解答的過程中,即使我們沒有現(xiàn)成的訓(xùn)練樣本,我們也能夠憑借自己的雙眼,從待分類的數(shù)據(jù)中人工標(biāo)注一些樣本,并把他們作為訓(xùn)練樣本,這樣的話就可以把條件改善,用監(jiān)督學(xué)習(xí)的方法來做。當(dāng)然不得不說的是有時(shí)候數(shù)據(jù)表達(dá)的會非常隱蔽,也就是說我們手頭的信息不是抽象的形式,而是具體的一大堆數(shù)字,這樣我們很難憑借人本身對它們簡單地進(jìn)行分類。這個(gè)說的好像有點(diǎn)不大明白,舉個(gè)例子說就是在bag of words 模型的時(shí)候,我們利用k-means的方法聚類從而對數(shù)據(jù)投影,這時(shí)候用k-means就是因?yàn)槲覀儺?dāng)前到手的只有一大堆數(shù)據(jù),而且是很高維的,當(dāng)我們想把他們分為50個(gè)類的時(shí)候,我們已經(jīng)無力將每個(gè)數(shù)據(jù)標(biāo)記說這個(gè)數(shù)應(yīng)該是哪個(gè)類,那個(gè)數(shù)又應(yīng)該是哪個(gè)類了。所以說遇到這種情況也只有無監(jiān)督學(xué)習(xí)能夠幫助我們了。那么這么說來,能不能再深入地問下去,如果有訓(xùn)練樣本(或者說如果我們可以獲得到一些訓(xùn)練數(shù)據(jù)的話),監(jiān)督學(xué)習(xí)就會比無監(jiān)督學(xué)習(xí)更合適呢?(照我們單純地想,有高人教總比自己領(lǐng)悟來的準(zhǔn),來的快吧?。┪矣X得一般來說,是這樣的,但是這要具體看看訓(xùn)練數(shù)據(jù)的獲取。本人在最近課題的研究中,手動標(biāo)注了大量的訓(xùn)練樣本(當(dāng)然這些樣本基本準(zhǔn)確了),而且把樣本畫在特征空間中發(fā)現(xiàn)線性可分性非常好,只是在分類面附近總有一些混淆的數(shù)據(jù)樣本,從而用線性分類器進(jìn)行分類之后這樣樣本會被誤判。然而,如果用混合高斯模型(GMM)來分的話,這些易混淆的點(diǎn)被正確分類的更多了。對這個(gè)現(xiàn)象的一個(gè)解釋,就是不管是訓(xùn)練樣本,還是待聚類的數(shù)據(jù),并不是所有數(shù)據(jù)都是相互獨(dú)立同分布的。換句話說,數(shù)據(jù)與數(shù)據(jù)的分布之間存在聯(lián)系。在我閱讀監(jiān)督學(xué)習(xí)的大量材料中,大家都沒有對訓(xùn)練數(shù)據(jù)的這一假設(shè)(獨(dú)立同分布)進(jìn)行說明,直到我閱讀到一本書的提示后才恍然大悟。對于不同的場景,正負(fù)樣本的分布如果會存在偏移(可能是大的偏移,也可能偏移比較?。?,這樣的話用監(jiān)督學(xué)習(xí)的效果可能就不如用非監(jiān)督學(xué)習(xí)了。
轉(zhuǎn)載地址:http://blog.csdn.net/jwh_bupt/article/details/7654120 |
|