統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)是兩個(gè)聯(lián)系特別緊密的領(lǐng)域。 事實(shí)上,這兩者的界限有時(shí)候非常模糊。然而有一些明顯屬于統(tǒng)計(jì)學(xué)領(lǐng)域的方法,不僅可用于機(jī)器學(xué)習(xí)的項(xiàng)目,并且極具價(jià)值。 公平地說(shuō),需要統(tǒng)計(jì)學(xué)方法來(lái)有效地完成機(jī)器學(xué)習(xí)預(yù)測(cè)建模項(xiàng)目。 在這篇博客中,你會(huì)了解到一些能在預(yù)測(cè)模型問(wèn)題的關(guān)鍵步驟中發(fā)揮作用的統(tǒng)計(jì)學(xué)方法的具體例子。 在閱讀完這篇博客后,你會(huì)了解:
讓我們開(kāi)始吧。 (在應(yīng)用機(jī)器學(xué)習(xí)項(xiàng)目中使用統(tǒng)計(jì)學(xué)方法的十個(gè)例子。圖片來(lái)自于 chenutis,版權(quán)歸其所有。) 概述在這篇博客中,我們將會(huì)著重講一下如何在應(yīng)用機(jī)器學(xué)習(xí)項(xiàng)目中使用統(tǒng)計(jì)學(xué)方法的十個(gè)例子。 這將證明統(tǒng)計(jì)學(xué)知識(shí)對(duì)于成功解決預(yù)測(cè)建模問(wèn)題至關(guān)重要。
1. 問(wèn)題架構(gòu) 也許預(yù)測(cè)模型問(wèn)題中最困難的一點(diǎn)就是問(wèn)題的架構(gòu)。 這包括了問(wèn)題類(lèi)型的選擇,例如是回歸還是分類(lèi),也許還有這個(gè)問(wèn)題的輸入和輸出的結(jié)構(gòu)及類(lèi)型。 問(wèn)題的架構(gòu)并不是一直都很清晰,對(duì)于某個(gè)領(lǐng)域的新手,可能需要對(duì)這個(gè)領(lǐng)域中的觀察值進(jìn)行一些深入探索。 而對(duì)于這個(gè)領(lǐng)域的專(zhuān)家,他們可能會(huì)以墨守成規(guī)的角度去看問(wèn)題,從而受困其中,他們也需要從多角度去思考數(shù)據(jù),才能有所收獲。 統(tǒng)計(jì)方法在問(wèn)題的架構(gòu)階段有助于對(duì)數(shù)據(jù)的探索,其中包括:
2. 數(shù)據(jù)理解 數(shù)據(jù)理解意思是對(duì)變量的分布和變量之間的關(guān)系有一個(gè)更詳細(xì)的理解。 這些知識(shí)其中一部分來(lái)自于這個(gè)領(lǐng)域的專(zhuān)業(yè)知識(shí),或者需要專(zhuān)業(yè)知識(shí)去解釋。然而,專(zhuān)家和新手都會(huì)從處理領(lǐng)域內(nèi)的真實(shí)觀察值中獲益。 用在理解數(shù)據(jù)的統(tǒng)計(jì)學(xué)模型的兩類(lèi)主流分支是:
3. 數(shù)據(jù)清洗 一個(gè)領(lǐng)域中的觀察值往往存在些瑕疵。 雖然數(shù)據(jù)是數(shù)字化的,但存在一些過(guò)程會(huì)降低數(shù)據(jù)的精確性,反過(guò)來(lái),后續(xù)用到數(shù)據(jù)的過(guò)程及模型也會(huì)受其影響。 例如:
識(shí)別和修復(fù)這些問(wèn)題數(shù)據(jù)的過(guò)程也叫做數(shù)據(jù)清洗。 統(tǒng)計(jì)方法應(yīng)用于數(shù)據(jù)清洗中例子有:
4. 數(shù)據(jù)選擇 在建模時(shí),不是所有觀察值或所有變量都是相關(guān)的。 減小這些元素的數(shù)據(jù)范圍的操作對(duì)于做出預(yù)測(cè)值是很有用的,這個(gè)過(guò)程叫做數(shù)據(jù)選擇。 應(yīng)用在數(shù)據(jù)選擇的兩種統(tǒng)計(jì)學(xué)方法:
5. 數(shù)據(jù)準(zhǔn)備 數(shù)據(jù)一般不會(huì)直接拿來(lái)建模。 為了改變數(shù)據(jù)的形狀或結(jié)構(gòu),使它更適用于選定的問(wèn)題架構(gòu)或?qū)W習(xí)算法,需要對(duì)數(shù)據(jù)進(jìn)行必要的轉(zhuǎn)化。 數(shù)據(jù)準(zhǔn)備也會(huì)用到統(tǒng)計(jì)模型,例如:
6. 模型評(píng)估 預(yù)測(cè)模型問(wèn)題的一個(gè)重要部分是對(duì)學(xué)習(xí)方法進(jìn)行評(píng)估。 對(duì)模型的能力的評(píng)估主要是對(duì)未經(jīng)過(guò)訓(xùn)練的數(shù)據(jù)進(jìn)行預(yù)測(cè)。 通常,訓(xùn)練過(guò)程和評(píng)估預(yù)測(cè)模型的規(guī)劃過(guò)程叫作實(shí)驗(yàn)設(shè)計(jì),這是統(tǒng)計(jì)方法的一個(gè)子領(lǐng)域。
作為實(shí)現(xiàn)實(shí)驗(yàn)設(shè)計(jì)的一部分,為了對(duì)可利用的數(shù)據(jù)做最合理的利用同時(shí)也為了評(píng)估模型的能力,統(tǒng)計(jì)學(xué)方法被用來(lái)重采樣一個(gè)數(shù)據(jù)集。這兩個(gè)目的代表了統(tǒng)計(jì)模型的子領(lǐng)域。
7. 模型配置 給定的機(jī)器學(xué)習(xí)算法通常有一套使學(xué)習(xí)方法能夠適應(yīng)特定問(wèn)題的超參數(shù)。 超參數(shù)的配置通常是經(jīng)驗(yàn)性的,而不是由分析得出的。這需要大量的實(shí)驗(yàn),以評(píng)估不同超參數(shù)值對(duì)模型性能的影響。 兩種統(tǒng)計(jì)學(xué)的子領(lǐng)域的方法可以用于對(duì)不同超參數(shù)配置產(chǎn)生的結(jié)果進(jìn)行解釋和比較,它們是:
8. 模型選擇 給定一個(gè)預(yù)測(cè)建模問(wèn)題,在眾多機(jī)器學(xué)習(xí)算法中可能有一個(gè)算法最適合該問(wèn)題。 選擇一種方法作為解決方案的過(guò)程稱(chēng)為模型選擇。 這可能涉及到項(xiàng)目參與者的自身?xiàng)l件以及用于評(píng)估問(wèn)題的方法的估計(jì)技能能否對(duì)其給出詳細(xì)解釋。 與模型配置一樣,可以使用兩類(lèi)統(tǒng)計(jì)方法來(lái)解釋不同模型的估計(jì)技能,并用于模型選擇。他們是:
9. 模型表示 一旦最終模型訓(xùn)練完成,可以在部署其對(duì)真實(shí)數(shù)據(jù)進(jìn)行預(yù)測(cè)前先展示給相關(guān)人員查看。 展示最終模型的一個(gè)環(huán)節(jié)包括展示模型的估計(jì)技能。 估計(jì)統(tǒng)計(jì)領(lǐng)域中的方法可以通過(guò)容忍區(qū)間和置信區(qū)間對(duì)機(jī)器學(xué)習(xí)模型的評(píng)估能力的不確定性進(jìn)行量化。
10. 模型預(yù)測(cè) 最后,我們可以使用最終的模型來(lái)對(duì)我們不知道其輸出的新數(shù)據(jù)進(jìn)行預(yù)測(cè)。 作為預(yù)測(cè)的一部分,量化預(yù)測(cè)的置信度非常重要。 就像模型表示的過(guò)程一樣,我們可以使用估計(jì)統(tǒng)計(jì)領(lǐng)域的方法來(lái)量化這種不確定性,例如置信區(qū)間和預(yù)測(cè)區(qū)間。
總結(jié)在本教程中,你已經(jīng)了解了統(tǒng)計(jì)方法在整個(gè)預(yù)測(cè)建模項(xiàng)目過(guò)程中的重要性。 具體來(lái)講你學(xué)到了:
原文鏈接: https:///statistical-methods-in-an-applied-machine-learning-project/ 號(hào)外號(hào)外~ 一個(gè)專(zhuān)注于 AI技術(shù)發(fā)展和AI工程師成長(zhǎng)的求知求職社區(qū) 誕生啦! 歡迎大家掃碼體驗(yàn) AI研習(xí)社 |
|