一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

機(jī)器學(xué)習(xí)實(shí)戰(zhàn) | 分類算法學(xué)習(xí)目錄

 生物_醫(yī)藥_科研 2019-09-22

哈嘍,大家好,不知不覺我的機(jī)器學(xué)習(xí)筆記已經(jīng)走過了十期,啃完了《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》中的分類算法部分。我們學(xué)習(xí)了從最開始的如何配置環(huán)境到數(shù)據(jù)預(yù)處理,特征選擇,建立模型,到最后的評(píng)價(jià)模型這一系列數(shù)據(jù)挖掘的基本過程,在此,我們做一個(gè)階段性的總結(jié)目錄,供大家學(xué)習(xí)歸納~


進(jìn)行數(shù)據(jù)挖掘,必然需要一個(gè)強(qiáng)大方便的分析環(huán)境,正所謂「工欲善其事必先利其器」,首先給大家介紹的 Jupyter Notebook 正是這樣一件利器,一個(gè)可以把代碼、圖像、注釋、公式和作圖集于一處,從而實(shí)現(xiàn)可讀性分析的交互式筆記本。我們可以用它一邊運(yùn)行代碼進(jìn)行數(shù)據(jù)分析,一邊用 Markdown 語法來記錄實(shí)驗(yàn)過程。

在準(zhǔn)備數(shù)據(jù)挖掘之前,對(duì)數(shù)據(jù)的探索性分析以及一系列數(shù)據(jù)預(yù)處理的步驟十分重要,因?yàn)橐恍┎煌暾⒉灰恢?、有異常的?shù)據(jù),通常會(huì)嚴(yán)重影響到數(shù)據(jù)挖掘建模的執(zhí)行效率甚至導(dǎo)致挖掘結(jié)果出現(xiàn)偏差。所以在這一期中,我們介紹了如何使用 sklearn 包處理缺失值、對(duì)分類數(shù)據(jù)進(jìn)行編碼、切分?jǐn)?shù)據(jù)集以及數(shù)據(jù)的無量綱化。以此來提高數(shù)據(jù)的質(zhì)量,讓數(shù)據(jù)可以更好地適應(yīng)模型。

當(dāng)數(shù)據(jù)預(yù)處理完成后,我們通常需要選擇有意義的特征輸入機(jī)器學(xué)習(xí)的算法和模型進(jìn)行訓(xùn)練。這里,我介紹了包括對(duì)數(shù)據(jù)進(jìn)行方差過濾,去除低方差的特征以及如何使用 sklearn 中的 feature_selection 庫來進(jìn)行特征選擇(過濾法、包裝法、嵌入法)。
學(xué)習(xí)了上游的數(shù)據(jù)處理以及特征工程以后,就開始學(xué)習(xí)算法吧~ 每個(gè)算法的內(nèi)容都包括了算法原理以及代碼實(shí)戰(zhàn)。
第一個(gè)算法,我們介紹的是最簡單的 k-鄰近算法,用一個(gè)詞來描述這個(gè)算法就是「物以類聚」。如果一個(gè)樣本在特征空間中的 k 個(gè)最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個(gè)類別,則該樣本也屬于這個(gè)類別。
決策樹,顧名思義,即以建樹的形式來做決策。我們首先會(huì)將所有特征看成一個(gè)個(gè)節(jié)點(diǎn),接著遍歷當(dāng)前數(shù)據(jù),找到最佳的分割點(diǎn)并根據(jù)分割點(diǎn)得出進(jìn)一步的子節(jié)點(diǎn),以此循環(huán),最終使得,所有子節(jié)點(diǎn)中所包含的樣本都盡可能屬于同一類(為了判斷「節(jié)點(diǎn)的純度」,我們還引入了「信息熵」的概念)。
樸素貝葉斯算法是機(jī)器學(xué)習(xí)中常見的基本算法之一,主要用于進(jìn)行分類。它是基于貝葉斯定理與條件獨(dú)立性假設(shè)的分類方法。對(duì)于給定的訓(xùn)練數(shù)據(jù)集,首先基于特征條件獨(dú)立性假設(shè)學(xué)習(xí)輸入/輸出的聯(lián)合概率分布,然后基于此模型,對(duì)于給定的輸入 x 利用貝葉斯定理求出后驗(yàn)概率最大的輸出 y。
邏輯回歸是一種廣義線性回歸分析模型,雖帶有「回歸」二字,但其實(shí)是一種線性分類器。本期從線性回歸引入 sigmoid 函數(shù)以構(gòu)建分類模型,介紹了損失函數(shù)的概念以及代碼實(shí)現(xiàn)梯度下降法來求解模型的最優(yōu)參數(shù)。
支持向量機(jī),是機(jī)器學(xué)習(xí)中獲得關(guān)注最多的算法。它的目的就是尋找一個(gè)超平面來對(duì)樣本進(jìn)行分割,分割的原則是間隔的最大化,最終轉(zhuǎn)化為一個(gè)凸二次規(guī)劃問題來求解。由于公式推導(dǎo)比較晦澀難懂,我們先通過第一期「一文讀懂支持向量機(jī)」大致介紹了支持向量機(jī)的基本概念,而在第二期「支持向量機(jī)·sklearn 參數(shù)詳解」中則詳細(xì)介紹了 sklearn 包中關(guān)于支持向量機(jī)的各種參數(shù),最后通過一個(gè)簡單的案例嘗試構(gòu)建模型。
和我們之前介紹的算法不同,Adaboost 算法是一種集成學(xué)習(xí)方法,它本身不是一個(gè)單獨(dú)的機(jī)器學(xué)習(xí)算法,而是通過在數(shù)據(jù)上構(gòu)建多個(gè)模型,集成所有模型的建模結(jié)果,以此提高模型的準(zhǔn)確性。簡單來說就是“三個(gè)臭皮匠頂個(gè)諸葛亮”。
構(gòu)建了模型之后,我們就需要對(duì)模型的好壞進(jìn)行評(píng)估,我們從最基礎(chǔ)的 TP,F(xiàn)P,F(xiàn)N,TN 四個(gè)基本概念介紹了機(jī)器學(xué)習(xí)中的混淆矩陣,進(jìn)一步衍生出準(zhǔn)確率「Accuracy,精確率「Precision,靈敏度「Sensitivity,特異度「Specificity的概念,同時(shí)也包括了 F1 score 和 ROC 曲線的原理和意義。

至此,我們已經(jīng)學(xué)習(xí)了《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》中的分類算法,除了書上的內(nèi)容以外,我還增加了 Python 中 sklearn 包的實(shí)戰(zhàn)內(nèi)容以及更清晰易懂的算法原理內(nèi)容,希望對(duì)大家有所幫助。

看到這里的童鞋一定對(duì)機(jī)器學(xué)習(xí)充滿了興趣吧  ~ 那就不要猶豫了,一起來學(xué)習(xí)吧!



    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多

    国产欧美日韩一级小黄片| 可以在线看的欧美黄片| 九九热在线视频精品免费| 亚洲中文字幕人妻系列| 精品推荐国产麻豆剧传媒| 日本黄色美女日本黄色| 91日韩在线观看你懂的| 高中女厕偷拍一区二区三区| 在线观看免费视频你懂的| 国产精品午夜视频免费观看| 亚洲第一区二区三区女厕偷拍| 国产乱人伦精品一区二区三区四区| 夜夜躁狠狠躁日日躁视频黑人| 亚洲欧美日韩国产成人| 日韩人妻一区中文字幕| 亚洲天堂有码中文字幕视频| 果冻传媒精选麻豆白晶晶| 国产成人精品一区二三区在线观看| 日韩中文无线码在线视频 | 蜜桃传媒在线正在播放| 国产又粗又猛又大爽又黄同志 | 国产盗摄精品一区二区视频| 日本精品中文字幕人妻| 日韩精品一区二区三区射精| 国产精品一区二区三区日韩av | 激情五月激情婷婷丁香| 中文字幕乱码亚洲三区| 日本高清中文精品在线不卡| 99一级特黄色性生活片| 老司机这里只有精品视频| 东京不热免费观看日本| 国产精品成人一区二区三区夜夜夜| 黄色片一区二区三区高清| 最新日韩精品一推荐日韩精品| 国产精品久久香蕉国产线| 亚洲少妇一区二区三区懂色| 激情爱爱一区二区三区| 国产成人在线一区二区三区| 激情少妇一区二区三区| 精品日韩视频在线观看| 国产av一区二区三区四区五区|