一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

通過機(jī)器學(xué)習(xí)算法速查表,快速選擇合適的機(jī)器學(xué)習(xí)算法(下)

 愛因思念l5j0t8 2017-07-05


書接上文,請?zhí)D(zhuǎn)至公眾號(hào),在今日同欄第一篇位置。今日整理

對初學(xué)者面對各種機(jī)器學(xué)習(xí)算法問題時(shí)選擇算法進(jìn)行討論。


何時(shí)使用特定的算法

更仔細(xì)地查看各個(gè)算法可以幫助你了解它們提供的內(nèi)容以及如何使用它們。 這些描述提供了更多的細(xì)節(jié),并提供了什么時(shí)候使用特定算法,與速查表對準(zhǔn)。


線性回歸和邏輯回歸

線性回歸是對連續(xù)因變量y與一個(gè)或多個(gè)預(yù)測變量X之間的關(guān)系進(jìn)行建模的方法.YX之間的關(guān)系可以線性建模為。根據(jù)訓(xùn)練樣本

,可以學(xué)習(xí)參數(shù)向量β。


如果因變量不是連續(xù)的而是分類的,則可以使用logit鏈接函數(shù)將線性回歸轉(zhuǎn)換為邏輯回歸。邏輯回歸是一種簡單,快速而強(qiáng)大的分類算法。這里我們討論二進(jìn)制的情況,其中因變量y只取二進(jìn)制值(它可以容易地?cái)U(kuò)展到多類分類問題)。


在邏輯回歸中,我們使用不同的假設(shè)類來嘗試預(yù)測給定示例屬于“1”類的概率,而不是它屬于“-1”類的概率。具體來說,我們將嘗試學(xué)習(xí)以下形式的函數(shù):

這里

sigmoid函數(shù)。給定訓(xùn)練樣例,可以通過使給定數(shù)據(jù)集β的對數(shù)似然度最大化來得知參數(shù)向量β。

線性SVM和核SVM

核機(jī)制用于將非線性可分離函數(shù)映射為更高維度的線性可分離函數(shù)。支持向量機(jī)(SVM)訓(xùn)練算法找到由超平面的法向量w和偏差b表示的分類器。這個(gè)超平面(邊界)將不同的類分隔開盡可能大的邊距。該問題可以轉(zhuǎn)化為約束優(yōu)化問題:

支持向量機(jī)(SVM)訓(xùn)練算法找到由超平面的法向量w和偏差b表示的分類器。這個(gè)超平面(邊界)將不同的類分隔開盡可能大的邊距。該問題可以轉(zhuǎn)化為約束優(yōu)化問題:


當(dāng)類不可線性分離時(shí),可以使用核機(jī)制將非線性可分離空間映射到更高維度的線性可分離空間。


當(dāng)大多數(shù)因變量是數(shù)字時(shí),邏輯回歸和SVM應(yīng)該是分類的第一個(gè)嘗試。這些機(jī)型易于實(shí)現(xiàn),其參數(shù)易調(diào),性能也相當(dāng)不錯(cuò)。所以這些模式適合初學(xué)者。

樹和集成樹

決策樹、隨機(jī)森林和梯度提升都是基于決策樹的算法。決策樹有許多變種,但它們都做同樣的事情--將特征空間細(xì)分為具有相同標(biāo)簽的區(qū)域。決策樹易于理解和實(shí)施。然而,當(dāng)我們剪枝并深度運(yùn)行樹時(shí)往往過度擬合數(shù)據(jù)。隨機(jī)森林和梯度提升是使用樹算法實(shí)現(xiàn)良好準(zhǔn)確性以及克服過擬合問題的兩種流行方式。


神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)

20世紀(jì)80年代中期,由于并行和分布式處理能力,神經(jīng)網(wǎng)絡(luò)蓬勃發(fā)展。但這一領(lǐng)域的研究受到廣泛用于優(yōu)化神經(jīng)網(wǎng)絡(luò)參數(shù)的反向傳播訓(xùn)練算法的無效性的阻礙。支持向量機(jī)(SVM)等簡單模型,可以通過解決凸優(yōu)化問題輕松訓(xùn)練,逐漸取代機(jī)器學(xué)習(xí)中的神經(jīng)網(wǎng)絡(luò)。


近年來,新的和改進(jìn)的訓(xùn)練技術(shù),如非監(jiān)督的預(yù)訓(xùn)練和逐層貪婪訓(xùn)練,導(dǎo)致對神經(jīng)網(wǎng)絡(luò)興趣的興起。越來越強(qiáng)大的計(jì)算能力,如圖形處理單元(GPU)和大規(guī)模并行處理(MPP),也激發(fā)了神經(jīng)網(wǎng)絡(luò)的復(fù)興。神經(jīng)網(wǎng)絡(luò)復(fù)興的研究引起了成千上萬層模型的發(fā)明。


換句話說,淺層神經(jīng)網(wǎng)絡(luò)已經(jīng)演變成深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)。深層神經(jīng)網(wǎng)絡(luò)對于監(jiān)督學(xué)習(xí)已經(jīng)非常成功。當(dāng)用于語言和圖像識(shí)別時(shí),深層次的學(xué)習(xí)表現(xiàn)與甚至比人類更好。適用于非監(jiān)督的學(xué)習(xí)任務(wù),如特征提取,深度學(xué)習(xí)還從原始圖像或語音中提取少量人為干預(yù)的特征。


神經(jīng)網(wǎng)絡(luò)由三部分組成:輸入層,隱層和輸出層。訓(xùn)練樣本定義了輸入和輸出層。當(dāng)輸出層是分類變量時(shí),神經(jīng)網(wǎng)絡(luò)是解決分類問題的一種方式。當(dāng)輸出層是連續(xù)變量時(shí),網(wǎng)絡(luò)可以用來做回歸。當(dāng)輸出層與輸入層相同時(shí),可以使用網(wǎng)絡(luò)來提取內(nèi)在特征。隱藏層的數(shù)量定義了模型的復(fù)雜性和建模能力。


K-means/ K-modes,GMM(高斯混合模型)聚類


K-means/ K-modes,GMM聚類旨在將n個(gè)觀察值分為k個(gè)集群。 K-means定義硬分配:樣本將是且僅與一個(gè)集群相關(guān)聯(lián)。然而,GMM為每個(gè)樣本定義一個(gè)軟分配。每個(gè)樣本具有與每個(gè)集群相關(guān)聯(lián)的概率。當(dāng)給定集群k的數(shù)量時(shí),兩種算法都是簡單且足夠快的聚類。


DBSCAN

當(dāng)聚類數(shù)k沒有給出時(shí),可以通過密度擴(kuò)散連接樣本來使用DBSCAN(基于密度的空間聚類)。


分層聚類


可以使用樹結(jié)構(gòu)(樹形圖)來可視化分層分區(qū)。它不需要集群的數(shù)量作為輸入,并且可以使用不同的K來以不同的粒度級(jí)(即,可以細(xì)化/粗化的集群)來查看分區(qū)。


PCA,SVD和LDA

我們通常不想將大量的特征直接饋送到機(jī)器學(xué)習(xí)算法中,因?yàn)橐恍┨卣骺赡苁遣幌嚓P(guān)的,或者固有的維度可能小于特征的數(shù)量。主成分分析(PCA),奇異值分解(SVD)和潛在Dirichlet分配(LDA)均可用于降維。


PCA是一種非監(jiān)督的聚類方法,將原始數(shù)據(jù)空間映射到較低維數(shù)空間,同時(shí)保留盡可能多的信息。 PCA基本上找到一個(gè)最保留數(shù)據(jù)方差的子空間,其中子空間由數(shù)據(jù)協(xié)方差矩陣的主要特征向量定義。


SVDPCA相關(guān),意思是中心數(shù)據(jù)矩陣(特征與樣本)的SVD提供了定義與PCA相同的子空間的主要左奇異向量。然而,SVD是一種更通用的技術(shù),因?yàn)樗部梢宰?/span>PCA可能不做的事情。例如,用戶對電影矩陣的SVD能夠提取可以在推薦系統(tǒng)中使用的用戶資料和電影簡介。此外,SVD也被廣泛用作自然語言處理(NLP)中稱為潛在語義分析的主題建模工具。


NLP中的相關(guān)技術(shù)是潛在的Dirichlet分配(LDA)。 LDA是概率主題模型,它以與高斯混合模型(GMM)類似的方式將文檔分解為主題,將連續(xù)數(shù)據(jù)分解為高斯密度。GMM不同,LDA模型離散數(shù)據(jù),并且限制了主題根據(jù)Dirichlet分布先驗(yàn)分布。


結(jié)論

這是易于遵循的工作流程。在此得出的當(dāng)試圖解決一個(gè)新問題時(shí)的結(jié)論:


 定義問題。你想解決什么問題?

從簡單的開始。熟悉數(shù)據(jù)和基線結(jié)果。

然后嘗試更復(fù)雜的東西。

 



Dr. Hui Li是SAS數(shù)據(jù)科學(xué)技術(shù)的首席科學(xué)家。 她目前的工作重點(diǎn)是SAS Viya的深度學(xué)習(xí),認(rèn)知計(jì)算和SAS推薦系統(tǒng)。 她獲得杜克大學(xué)電氣和計(jì)算機(jī)工程博士學(xué)位和碩士學(xué)位。 在加入SAS之前,她曾在杜克大學(xué)任研究科學(xué)家,并在Signal Innovation Group,Inc.擔(dān)任研究工程師。 她的研究興趣包括機(jī)器學(xué)習(xí),大型異構(gòu)數(shù)據(jù),協(xié)同過濾建議,貝葉斯統(tǒng)計(jì)建模和增強(qiáng)學(xué)習(xí)。





    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請遵守用戶 評(píng)論公約

    類似文章 更多

    国产精品亚洲欧美一区麻豆| 亚洲美女国产精品久久| 欧美黑人暴力猛交精品| 国产成人精品一区在线观看| 色综合视频一区二区观看| 五月婷婷欧美中文字幕| 国产精品制服丝袜美腿丝袜| 亚洲国产一级片在线观看| 亚洲国产精品无遮挡羞羞| 狠狠亚洲丁香综合久久| 国产欧美日韩一级小黄片| 久久夜色精品国产高清不卡| 欧美精品在线观看国产| 国产亚洲神马午夜福利| 国产不卡的视频在线观看| 黄色美女日本的美女日人| 色一情一乱一区二区三区码| 日韩欧美一区二区不卡看片| 夫妻性生活一级黄色录像 | 国产日韩欧美专区一区| 国产av乱了乱了一区二区三区| 国产又粗又深又猛又爽又黄| 国产精品成人免费精品自在线观看| 欧美一本在线免费观看| 日系韩系还是欧美久久| 欧美日韩最近中国黄片| 操白丝女孩在线观看免费高清| 伊人久久青草地综合婷婷| 国产免费黄片一区二区| 国产精品激情对白一区二区| 亚洲欧美日韩国产成人| 黑人粗大一区二区三区| 真实国产乱子伦对白视频不卡| 亚洲国产av在线视频| 久久精品福利在线观看| 日本精品最新字幕视频播放| 亚洲天堂久久精品成人| 精品推荐国产麻豆剧传媒| 国产精品久久女同磨豆腐| 在线免费看国产精品黄片| 毛片在线观看免费日韩|