一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

十個(gè)例子,教你用統(tǒng)計(jì)學(xué)方法高效完成機(jī)器學(xué)習(xí)項(xiàng)目

 思想年代 2018-07-26

本文為 AI 研習(xí)社編譯的技術(shù)博客,原標(biāo)題 10 Examples of How to Use Statistical Methods in a Machine Learning Project ,作者為 Jason Brownlee 。

翻譯 |  趙若伽      校對(duì) | 陳濤      整理 | MY


統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)是兩個(gè)聯(lián)系特別緊密的領(lǐng)域。

事實(shí)上,這兩者的界限有時(shí)候非常模糊。然而有一些明顯屬于統(tǒng)計(jì)學(xué)領(lǐng)域的方法,不僅可用于機(jī)器學(xué)習(xí)的項(xiàng)目,并且極具價(jià)值。

公平地說(shuō),需要統(tǒng)計(jì)學(xué)方法來(lái)有效地完成機(jī)器學(xué)習(xí)預(yù)測(cè)建模項(xiàng)目。

在這篇博客中,你會(huì)了解到一些能在預(yù)測(cè)模型問(wèn)題的關(guān)鍵步驟中發(fā)揮作用的統(tǒng)計(jì)學(xué)方法的具體例子。

在閱讀完這篇博客后,你會(huì)了解:

  • 探索性的數(shù)據(jù)分析、數(shù)據(jù)歸納和數(shù)據(jù)可視化有助于構(gòu)建預(yù)測(cè)模型以及更好地理解數(shù)據(jù)。

  • 統(tǒng)計(jì)學(xué)方法可以用來(lái)清洗和準(zhǔn)備建模要用的數(shù)據(jù)。

  • 統(tǒng)計(jì)假設(shè)檢驗(yàn)和估計(jì)統(tǒng)計(jì)可以幫助進(jìn)行模型選擇,并展示最終模型的技能和預(yù)測(cè)結(jié)果。

讓我們開(kāi)始吧。

(在應(yīng)用機(jī)器學(xué)習(xí)項(xiàng)目中使用統(tǒng)計(jì)學(xué)方法的十個(gè)例子。圖片來(lái)自于 chenutis,版權(quán)歸其所有。)


  概述

在這篇博客中,我們將會(huì)著重講一下如何在應(yīng)用機(jī)器學(xué)習(xí)項(xiàng)目中使用統(tǒng)計(jì)學(xué)方法的十個(gè)例子。

這將證明統(tǒng)計(jì)學(xué)知識(shí)對(duì)于成功解決預(yù)測(cè)建模問(wèn)題至關(guān)重要。

  1. 問(wèn)題架構(gòu)

  2. 數(shù)據(jù)理解

  3. 數(shù)據(jù)清洗

  4. 數(shù)據(jù)選擇

  5. 數(shù)據(jù)準(zhǔn)備

  6. 模型評(píng)估

  7. 模型配置

  8. 模型選擇

  9. 模型表達(dá)

  10. 模型預(yù)測(cè)


1. 問(wèn)題架構(gòu)

也許預(yù)測(cè)模型問(wèn)題中最困難的一點(diǎn)就是問(wèn)題的架構(gòu)。

這包括了問(wèn)題類(lèi)型的選擇,例如是回歸還是分類(lèi),也許還有這個(gè)問(wèn)題的輸入和輸出的結(jié)構(gòu)及類(lèi)型。

問(wèn)題的架構(gòu)并不是一直都很清晰,對(duì)于某個(gè)領(lǐng)域的新手,可能需要對(duì)這個(gè)領(lǐng)域中的觀察值進(jìn)行一些深入探索。

而對(duì)于這個(gè)領(lǐng)域的專(zhuān)家,他們可能會(huì)以墨守成規(guī)的角度去看問(wèn)題,從而受困其中,他們也需要從多角度去思考數(shù)據(jù),才能有所收獲。

統(tǒng)計(jì)方法在問(wèn)題的架構(gòu)階段有助于對(duì)數(shù)據(jù)的探索,其中包括:

  • 探索性的數(shù)據(jù)分析。為了從數(shù)據(jù)中探索到特別的觀點(diǎn),從而進(jìn)行的匯總和可視化。

  • 數(shù)據(jù)挖掘。自動(dòng)探索數(shù)據(jù)間的結(jié)構(gòu)關(guān)系和模式。


2. 數(shù)據(jù)理解

數(shù)據(jù)理解意思是對(duì)變量的分布和變量之間的關(guān)系有一個(gè)更詳細(xì)的理解。

這些知識(shí)其中一部分來(lái)自于這個(gè)領(lǐng)域的專(zhuān)業(yè)知識(shí),或者需要專(zhuān)業(yè)知識(shí)去解釋。然而,專(zhuān)家和新手都會(huì)從處理領(lǐng)域內(nèi)的真實(shí)觀察值中獲益。

用在理解數(shù)據(jù)的統(tǒng)計(jì)學(xué)模型的兩類(lèi)主流分支是:

  • 匯總統(tǒng)計(jì)。使用統(tǒng)計(jì)數(shù)值來(lái)匯總變量間的分布和關(guān)系的方法。

  • 數(shù)據(jù)可視化??偨Y(jié)變量間的分布和關(guān)系的方法需要用到可視化的方法,例如:圖表,繪圖和圖形。


3. 數(shù)據(jù)清洗

一個(gè)領(lǐng)域中的觀察值往往存在些瑕疵。

雖然數(shù)據(jù)是數(shù)字化的,但存在一些過(guò)程會(huì)降低數(shù)據(jù)的精確性,反過(guò)來(lái),后續(xù)用到數(shù)據(jù)的過(guò)程及模型也會(huì)受其影響。

例如:

  • 數(shù)據(jù)破壞。

  • 數(shù)據(jù)錯(cuò)誤。

  • 數(shù)據(jù)損失。

識(shí)別和修復(fù)這些問(wèn)題數(shù)據(jù)的過(guò)程也叫做數(shù)據(jù)清洗。

統(tǒng)計(jì)方法應(yīng)用于數(shù)據(jù)清洗中例子有:

  • 異常點(diǎn)檢測(cè)。在數(shù)據(jù)分布中識(shí)別出離期望值很遠(yuǎn)的觀察值的方法。

  • 數(shù)據(jù)填補(bǔ)。修復(fù)或填補(bǔ)觀察值中損壞或缺失數(shù)據(jù)的方法。


4. 數(shù)據(jù)選擇

在建模時(shí),不是所有觀察值或所有變量都是相關(guān)的。

減小這些元素的數(shù)據(jù)范圍的操作對(duì)于做出預(yù)測(cè)值是很有用的,這個(gè)過(guò)程叫做數(shù)據(jù)選擇。

應(yīng)用在數(shù)據(jù)選擇的兩種統(tǒng)計(jì)學(xué)方法:

  • 數(shù)據(jù)采樣。從較大的數(shù)據(jù)集中系統(tǒng)化創(chuàng)建較小的代表性樣本的方法。

  • 特征選擇。自動(dòng)識(shí)別與結(jié)果變量更有相關(guān)性的變量的方法。


5. 數(shù)據(jù)準(zhǔn)備

數(shù)據(jù)一般不會(huì)直接拿來(lái)建模。

為了改變數(shù)據(jù)的形狀或結(jié)構(gòu),使它更適用于選定的問(wèn)題架構(gòu)或?qū)W習(xí)算法,需要對(duì)數(shù)據(jù)進(jìn)行必要的轉(zhuǎn)化。

數(shù)據(jù)準(zhǔn)備也會(huì)用到統(tǒng)計(jì)模型,例如:

  • 縮放。例如標(biāo)準(zhǔn)化和規(guī)范化。

  • 編碼。例如整數(shù)編碼和獨(dú)熱編碼。

  • 變換。例如 Box-Cox 變換那樣的次方轉(zhuǎn)換。


6. 模型評(píng)估

預(yù)測(cè)模型問(wèn)題的一個(gè)重要部分是對(duì)學(xué)習(xí)方法進(jìn)行評(píng)估。

對(duì)模型的能力的評(píng)估主要是對(duì)未經(jīng)過(guò)訓(xùn)練的數(shù)據(jù)進(jìn)行預(yù)測(cè)。

通常,訓(xùn)練過(guò)程和評(píng)估預(yù)測(cè)模型的規(guī)劃過(guò)程叫作實(shí)驗(yàn)設(shè)計(jì),這是統(tǒng)計(jì)方法的一個(gè)子領(lǐng)域。

  • 實(shí)驗(yàn)設(shè)計(jì)。設(shè)計(jì)系統(tǒng)化的實(shí)驗(yàn)來(lái)比較獨(dú)立的變量對(duì)結(jié)果影響的方法,比如對(duì)比預(yù)測(cè)的精度來(lái)選擇機(jī)器學(xué)習(xí)算法。

作為實(shí)現(xiàn)實(shí)驗(yàn)設(shè)計(jì)的一部分,為了對(duì)可利用的數(shù)據(jù)做最合理的利用同時(shí)也為了評(píng)估模型的能力,統(tǒng)計(jì)學(xué)方法被用來(lái)重采樣一個(gè)數(shù)據(jù)集。這兩個(gè)目的代表了統(tǒng)計(jì)模型的子領(lǐng)域。

  • 重采樣方法。為了訓(xùn)練和評(píng)估預(yù)測(cè)模型而將數(shù)據(jù)集系統(tǒng)化分出子集的方法。


7. 模型配置

給定的機(jī)器學(xué)習(xí)算法通常有一套使學(xué)習(xí)方法能夠適應(yīng)特定問(wèn)題的超參數(shù)。

超參數(shù)的配置通常是經(jīng)驗(yàn)性的,而不是由分析得出的。這需要大量的實(shí)驗(yàn),以評(píng)估不同超參數(shù)值對(duì)模型性能的影響。

兩種統(tǒng)計(jì)學(xué)的子領(lǐng)域的方法可以用于對(duì)不同超參數(shù)配置產(chǎn)生的結(jié)果進(jìn)行解釋和比較,它們是:

  • 統(tǒng)計(jì)假設(shè)檢驗(yàn)。根據(jù)對(duì)結(jié)果的假設(shè)或期望值,對(duì)觀察到的結(jié)果出現(xiàn)概率進(jìn)行量化的方法。(提出使用臨界值和 p 值)

  • 估計(jì)統(tǒng)計(jì)。使用置信區(qū)間去量化一個(gè)結(jié)果的不確定性的方法。


8. 模型選擇

給定一個(gè)預(yù)測(cè)建模問(wèn)題,在眾多機(jī)器學(xué)習(xí)算法中可能有一個(gè)算法最適合該問(wèn)題。

選擇一種方法作為解決方案的過(guò)程稱(chēng)為模型選擇。

這可能涉及到項(xiàng)目參與者的自身?xiàng)l件以及用于評(píng)估問(wèn)題的方法的估計(jì)技能能否對(duì)其給出詳細(xì)解釋。

與模型配置一樣,可以使用兩類(lèi)統(tǒng)計(jì)方法來(lái)解釋不同模型的估計(jì)技能,并用于模型選擇。他們是:

  • 統(tǒng)計(jì)假設(shè)檢驗(yàn)。根據(jù)對(duì)結(jié)果的假設(shè)或期望值,對(duì)觀察到的結(jié)果出現(xiàn)概率進(jìn)行量化的方法。(提出使用臨界值和 p 值)

  • 估計(jì)統(tǒng)計(jì)。使用置信區(qū)間去量化一個(gè)結(jié)果的不確定性的方法。


9. 模型表示

一旦最終模型訓(xùn)練完成,可以在部署其對(duì)真實(shí)數(shù)據(jù)進(jìn)行預(yù)測(cè)前先展示給相關(guān)人員查看。

展示最終模型的一個(gè)環(huán)節(jié)包括展示模型的估計(jì)技能。

估計(jì)統(tǒng)計(jì)領(lǐng)域中的方法可以通過(guò)容忍區(qū)間和置信區(qū)間對(duì)機(jī)器學(xué)習(xí)模型的評(píng)估能力的不確定性進(jìn)行量化。

  • 估計(jì)統(tǒng)計(jì)。使用置信區(qū)間去量化一個(gè)結(jié)果的不確定性的方法。


10. 模型預(yù)測(cè)

最后,我們可以使用最終的模型來(lái)對(duì)我們不知道其輸出的新數(shù)據(jù)進(jìn)行預(yù)測(cè)。

作為預(yù)測(cè)的一部分,量化預(yù)測(cè)的置信度非常重要。

就像模型表示的過(guò)程一樣,我們可以使用估計(jì)統(tǒng)計(jì)領(lǐng)域的方法來(lái)量化這種不確定性,例如置信區(qū)間和預(yù)測(cè)區(qū)間。

  • 估計(jì)統(tǒng)計(jì)。使用置信區(qū)間去量化一個(gè)結(jié)果的不確定性的方法。


  總結(jié)

在本教程中,你已經(jīng)了解了統(tǒng)計(jì)方法在整個(gè)預(yù)測(cè)建模項(xiàng)目過(guò)程中的重要性。

具體來(lái)講你學(xué)到了:

  • 探索性的數(shù)據(jù)分析、數(shù)據(jù)歸納和數(shù)據(jù)可視化有助于構(gòu)建預(yù)測(cè)模型以及更好地理解數(shù)據(jù)。

  • 統(tǒng)計(jì)學(xué)方法可以用來(lái)清洗和準(zhǔn)備建模要用的數(shù)據(jù)。

  • 統(tǒng)計(jì)假設(shè)檢驗(yàn)和估計(jì)統(tǒng)計(jì)可以幫助進(jìn)行模型選擇,并展示最終模型的技能和預(yù)測(cè)結(jié)果。


原文鏈接:

https:///statistical-methods-in-an-applied-machine-learning-project/

號(hào)外號(hào)外~

一個(gè)專(zhuān)注于

AI技術(shù)發(fā)展和AI工程師成長(zhǎng)的求知求職社區(qū)

誕生啦!

歡迎大家掃碼體驗(yàn)


AI研習(xí)社



    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類(lèi)似文章 更多

    国产二级一级内射视频播放| 国产精品福利精品福利| 在线观看视频成人午夜| 精品一区二区三区三级视频| 国产一区二区三区不卡| 久久综合九色综合欧美| 人妻久久这里只有精品| 亚洲成人精品免费在线观看 | 丰满的人妻一区二区三区| 黄片在线免费观看全集| 国产精品伦一区二区三区在线| 亚洲中文字幕在线视频频道| 在线观看那种视频你懂的| 国产色第一区不卡高清| 日本高清二区视频久二区| 日韩国产中文在线视频| 麻豆最新出品国产精品| 欧美一区二区三区高潮菊竹| 女人精品内射国产99| 国产色一区二区三区精品视频 | 91精品国产综合久久精品| 久久99精品日韩人妻| 情一色一区二区三区四| 日本少妇三级三级三级| 伊人色综合久久伊人婷婷| 久久老熟女一区二区三区福利| 老司机精品视频在线免费看| 日韩中文字幕狠狠人妻| 91亚洲精品国产一区| 亚洲精品成人综合色在线| 久久碰国产一区二区三区| 色综合视频一区二区观看| 在线观看视频日韩成人| 热久久这里只有精品视频| 五月婷婷六月丁香狠狠| 亚洲欧美日韩中文字幕二欧美| 女同伦理国产精品久久久| 欧美日韩国产综合在线| 国产伦精品一区二区三区高清版| 九九热精彩视频在线免费| 久久精品国产99精品最新|