【原】一文讀懂什么是機(jī)器學(xué)習(xí)

數(shù)據(jù)治理精英館 2023-05-11 發(fā)布于浙江

展開全文

世界充滿了數(shù)據(jù)——由人和計(jì)算機(jī)生成的圖像、視頻、電子表格、音頻和文本充斥著互聯(lián)網(wǎng)，將我們淹沒在信息的海洋中。

傳統(tǒng)上，人類分析數(shù)據(jù)以做出更明智的決策，并設(shè)法調(diào)整系統(tǒng)以控制數(shù)據(jù)模式的變化。然而，隨著傳入信息量的增加，我們理解它的能力下降，給我們帶來了以下挑戰(zhàn)：

我們?nèi)绾问褂盟羞@些數(shù)據(jù)以自動(dòng)而非手動(dòng)的方式推導(dǎo)意義？

這正是機(jī)器學(xué)習(xí)發(fā)揮作用的地方。本文將介紹：

什么是機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)算法的關(guān)鍵要素

機(jī)器學(xué)習(xí)是如何工作的

6 個(gè)真實(shí)世界的機(jī)器學(xué)習(xí)應(yīng)用

機(jī)器學(xué)習(xí)的挑戰(zhàn)和局限性

?? 機(jī)器學(xué)習(xí)為我們提供了分析和處理數(shù)據(jù)以做出準(zhǔn)確預(yù)測的工具和算法。

這些預(yù)測是由機(jī)器從一組稱為“訓(xùn)練數(shù)據(jù)”的數(shù)據(jù)中學(xué)習(xí)模式做出的，它們可以推動(dòng)進(jìn)一步的技術(shù)發(fā)展，從而改善人們的生活。

一什么是機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)是一個(gè)概念，它允許計(jì)算機(jī)自動(dòng)從示例和經(jīng)驗(yàn)中學(xué)習(xí)，并在沒有明確編程的情況下模仿人類的決策。

機(jī)器學(xué)習(xí)是人工智能的一個(gè)分支，使用算法和統(tǒng)計(jì)技術(shù)從數(shù)據(jù)中學(xué)習(xí)并從中得出模式和隱藏的見解。

現(xiàn)在，讓我們更深入地探索機(jī)器學(xué)習(xí)的來龍去脈。

二機(jī)器學(xué)習(xí)算法的關(guān)鍵要素

機(jī)器學(xué)習(xí)中有數(shù)以萬計(jì)的算法，可以根據(jù)學(xué)習(xí)風(fēng)格或所解決問題的性質(zhì)進(jìn)行分組。但每個(gè)機(jī)器學(xué)習(xí)算法都包含以下關(guān)鍵組件：

訓(xùn)練數(shù)據(jù)——指機(jī)器學(xué)習(xí)系統(tǒng)必須從中學(xué)習(xí)的文本、圖像、視頻或時(shí)間序列信息。訓(xùn)練數(shù)據(jù)通常被標(biāo)記以向 ML 系統(tǒng)顯示“正確答案”是什么，例如人臉檢測器中人臉周圍的邊界框，或股票預(yù)測器中的未來股票表現(xiàn)。
表示——它指的是訓(xùn)練數(shù)據(jù)中對象的編碼表示，例如用“眼睛”等特征表示的人臉。編碼某些模型比其他模型更容易，這就是驅(qū)動(dòng)模型選擇的原因。例如，神經(jīng)網(wǎng)絡(luò)形成一種表示，而支持向量機(jī)形成另一種表示。大多數(shù)現(xiàn)代方法都使用神經(jīng)網(wǎng)絡(luò)。
評估——這是關(guān)于我們?nèi)绾闻袛嗷虼_定一種模型而不是另一種模型。我們通常稱其為效用函數(shù)、損失函數(shù)或評分函數(shù)。均方誤差（模型的輸出與數(shù)據(jù)輸出）或似然（給定觀察數(shù)據(jù)的模型的估計(jì)概率）是不同評估函數(shù)的示例。
優(yōu)化——這是指如何搜索表示模型的空間或改進(jìn)訓(xùn)練數(shù)據(jù)中的標(biāo)簽以獲得更好的評估。優(yōu)化意味著更新模型參數(shù)以最小化損失函數(shù)的值。它有助于模型以更快的速度提高其準(zhǔn)確性。

以上是機(jī)器學(xué)習(xí)算法的四個(gè)組成部分的詳細(xì)分類。

機(jī)器學(xué)習(xí)系統(tǒng)的功能

描述性：系統(tǒng)收集歷史數(shù)據(jù)，對其進(jìn)行組織，然后以易于理解的方式呈現(xiàn)。

主要重點(diǎn)是掌握企業(yè)中已經(jīng)發(fā)生的事情，而不是從其發(fā)現(xiàn)中得出推論或預(yù)測。描述性分析使用簡單的數(shù)學(xué)和統(tǒng)計(jì)工具，例如算術(shù)、平均值和百分比，而不是預(yù)測性和規(guī)范性分析所需的復(fù)雜計(jì)算。

預(yù)測性：描述性分析側(cè)重于分析歷史數(shù)據(jù)并從中得出推論，而預(yù)測性分析側(cè)重于預(yù)測和理解未來可能發(fā)生的事情。

通過查看歷史數(shù)據(jù)來分析過去的數(shù)據(jù)模式和趨勢可以預(yù)測未來可能發(fā)生的事情。

規(guī)范性：描述性分析告訴我們過去發(fā)生了什么，而預(yù)測性分析告訴我們通過從過去學(xué)習(xí)未來可能發(fā)生的事情。但是，一旦我們對可能發(fā)生的事情有了洞察力，應(yīng)該做什么呢？

這就是規(guī)范性分析。它幫助系統(tǒng)使用過去的知識(shí)對一個(gè)人可以采取的行動(dòng)提出多項(xiàng)建議。規(guī)范性分析可以模擬場景并提供實(shí)現(xiàn)預(yù)期結(jié)果的途徑。

三機(jī)器學(xué)習(xí)是如何工作的

ML算法的學(xué)習(xí)可以分為三個(gè)主要部分。

決策過程

機(jī)器學(xué)習(xí)模型旨在從數(shù)據(jù)中學(xué)習(xí)模式并應(yīng)用這些知識(shí)進(jìn)行預(yù)測。問題是：模型如何進(jìn)行預(yù)測？

這個(gè)過程非?；A(chǔ)——從輸入數(shù)據(jù)（標(biāo)記或未標(biāo)記）中找到模式并應(yīng)用它來得出結(jié)果。

誤差函數(shù)

機(jī)器學(xué)習(xí)模型旨在將自己做出的預(yù)測與基本事實(shí)進(jìn)行比較。目標(biāo)是了解它是否在朝著正確的方向?qū)W習(xí)。這決定了模型的準(zhǔn)確性，并暗示了我們?nèi)绾胃倪M(jìn)模型的訓(xùn)練。

模型優(yōu)化過程

該模型的最終目標(biāo)是改進(jìn)預(yù)測，這意味著減少已知結(jié)果與相應(yīng)模型估計(jì)之間的差異。

該模型需要通過不斷更新權(quán)重來更好地適應(yīng)訓(xùn)練數(shù)據(jù)樣本。該算法循環(huán)工作，評估和優(yōu)化結(jié)果，更新權(quán)重，直到獲得關(guān)于模型準(zhǔn)確性的最大值。

機(jī)器學(xué)習(xí)方法的類型

機(jī)器學(xué)習(xí)主要包括四種類型。

1. 監(jiān)督機(jī)器學(xué)習(xí)

在監(jiān)督學(xué)習(xí)中，顧名思義，機(jī)器在指導(dǎo)下學(xué)習(xí)。

這是通過向計(jì)算機(jī)提供一組標(biāo)記數(shù)據(jù)來完成的，以使機(jī)器了解輸入的內(nèi)容以及輸出應(yīng)該是什么。在這里，人類充當(dāng)向?qū)?，為模型提供帶?biāo)簽的訓(xùn)練數(shù)據(jù)（輸入-輸出對），機(jī)器從中學(xué)習(xí)模式。

一旦從以前的數(shù)據(jù)集中學(xué)習(xí)了輸入和輸出之間的關(guān)系，機(jī)器就可以輕松地預(yù)測新數(shù)據(jù)的輸出值。

我們可以在哪里使用監(jiān)督學(xué)習(xí)？

答案是：在我們知道在輸入數(shù)據(jù)中查看什么以及我們想要什么作為輸出的情況下。

監(jiān)督學(xué)習(xí)問題的主要類型包括回歸和分類問題。

2. 無監(jiān)督機(jī)器學(xué)習(xí)

無監(jiān)督學(xué)習(xí)的工作方式與監(jiān)督學(xué)習(xí)的工作方式恰恰相反。

它使用未標(biāo)記的數(shù)據(jù)——機(jī)器必須理解數(shù)據(jù)，找到隱藏的模式并做出相應(yīng)的預(yù)測。

在這里，機(jī)器在獨(dú)立地從數(shù)據(jù)中推導(dǎo)出隱藏模式后為我們提供新發(fā)現(xiàn)，而無需人工指定要尋找的內(nèi)容。

無監(jiān)督學(xué)習(xí)問題的主要類型包括聚類和關(guān)聯(lián)規(guī)則分析。

3.強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)涉及一個(gè)代理，該代理通過執(zhí)行操作來學(xué)習(xí)在環(huán)境中的行為。

根據(jù)這些行動(dòng)的結(jié)果，它會(huì)提供反饋并調(diào)整其未來的路線——對于每一個(gè)好的動(dòng)作，代理都會(huì)得到積極的反饋，而對于每一個(gè)壞的動(dòng)作，代理都會(huì)得到負(fù)面的反饋或懲罰。

強(qiáng)化學(xué)習(xí)在沒有任何標(biāo)記數(shù)據(jù)的情況下進(jìn)行學(xué)習(xí)。由于沒有標(biāo)記數(shù)據(jù)，代理只能根據(jù)自己的經(jīng)驗(yàn)進(jìn)行學(xué)習(xí)。

4. 半監(jiān)督學(xué)習(xí)

半監(jiān)督是監(jiān)督和無監(jiān)督學(xué)習(xí)之間的狀態(tài)。

它從每個(gè)學(xué)習(xí)中獲取積極的方面，即它使用較小的標(biāo)記數(shù)據(jù)集來指導(dǎo)分類，并從較大的未標(biāo)記數(shù)據(jù)集中執(zhí)行無監(jiān)督特征提取。

使用半監(jiān)督學(xué)習(xí)的主要優(yōu)點(diǎn)是它能夠在沒有足夠的標(biāo)記數(shù)據(jù)來訓(xùn)練模型時(shí)解決問題，或者當(dāng)數(shù)據(jù)根本無法標(biāo)記時(shí)因?yàn)槿祟惒恢酪谄渲袑ふ沂裁础?/p>

四 6 個(gè)真實(shí)世界的機(jī)器學(xué)習(xí)應(yīng)用

如今，機(jī)器學(xué)習(xí)幾乎是所有科技公司的核心，包括谷歌或 Youtube 搜索引擎等企業(yè)。

下面，匯總了一些您可能熟悉的機(jī)器學(xué)習(xí)在現(xiàn)實(shí)生活中的應(yīng)用示例：

自動(dòng)駕駛汽車

車輛在道路上會(huì)遇到各種各樣的情況。

為了讓自動(dòng)駕駛汽車比人類表現(xiàn)更好，它們需要學(xué)習(xí)并適應(yīng)不斷變化的路況和其他車輛的行為。

自動(dòng)駕駛汽車從傳感器和攝像頭收集周圍環(huán)境的數(shù)據(jù)，然后對其進(jìn)行解釋并做出相應(yīng)的反應(yīng)。它使用監(jiān)督學(xué)習(xí)識(shí)別周圍物體，使用無監(jiān)督學(xué)習(xí)識(shí)別其他車輛的模式，并最終在強(qiáng)化算法的幫助下采取相應(yīng)的行動(dòng)。

圖像分析和物體檢測

圖像分析用于從圖像中提取不同的信息。

它在檢查制造缺陷、分析智能城市的汽車交通或像谷歌鏡頭這樣的視覺搜索引擎等領(lǐng)域得到應(yīng)用。

主要思想是使用深度學(xué)習(xí)技術(shù)從圖像中提取特征，然后將這些特征應(yīng)用于對象檢測。

客戶服務(wù)聊天機(jī)器人

如今，公司使用 AI 聊天機(jī)器人來提供客戶支持和銷售的情況非常普遍。AI 聊天機(jī)器人通過提供 24/7 支持幫助企業(yè)處理大量客戶查詢，從而降低支持成本并帶來額外收入和滿意的客戶。

AI 機(jī)器人技術(shù)使用自然語言處理 (NLP) 來處理文本、提取查詢關(guān)鍵字并做出相應(yīng)響應(yīng)。

醫(yī)學(xué)成像和診斷

事實(shí)是這樣的：醫(yī)學(xué)影像數(shù)據(jù)既是最豐富的信息來源，也是最復(fù)雜的信息來源之一。

手動(dòng)分析數(shù)以千計(jì)的醫(yī)學(xué)圖像是一項(xiàng)乏味的工作，并且浪費(fèi)病理學(xué)家可以更有效地利用的寶貴時(shí)間。

但這不僅僅是節(jié)省時(shí)間——肉眼可能看不到偽影或結(jié)節(jié)等小特征，從而導(dǎo)致疾病診斷延遲和錯(cuò)誤預(yù)測。這就是為什么使用涉及神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)技術(shù)（可用于從圖像中提取特征）具有如此大的潛力。

欺詐識(shí)別

隨著電子商務(wù)領(lǐng)域的擴(kuò)張，我們可以觀察到在線交易數(shù)量的增加和可用支付方式的多樣化。不幸的是，有些人利用了這種情況。當(dāng)今世界的欺詐者非常熟練，可以非常迅速地采用新技術(shù)。

這就是為什么我們需要一個(gè)能夠分析數(shù)據(jù)模式、做出準(zhǔn)確預(yù)測并響應(yīng)在線網(wǎng)絡(luò)安全威脅（如虛假登錄嘗試或網(wǎng)絡(luò)釣魚攻擊）的系統(tǒng)。

例如，根據(jù)您過去購買的地點(diǎn)或您在線的時(shí)間，防欺詐系統(tǒng)可以發(fā)現(xiàn)購買是否合法。同樣，他們可以檢測是否有人試圖在網(wǎng)上或電話中冒充您。

五機(jī)器學(xué)習(xí)的挑戰(zhàn)和局限性

欠擬合和過擬合

在大多數(shù)情況下，任何機(jī)器學(xué)習(xí)算法性能不佳的原因都是由于欠擬合和過擬合。

讓我們在訓(xùn)練機(jī)器學(xué)習(xí)模型的背景下分解這些術(shù)語。

欠擬合是機(jī)器學(xué)習(xí)模型既不能學(xué)習(xí)數(shù)據(jù)中變量之間的關(guān)系也不能正確預(yù)測新數(shù)據(jù)點(diǎn)的場景。換句話說，機(jī)器學(xué)習(xí)系統(tǒng)沒有發(fā)現(xiàn)跨數(shù)據(jù)點(diǎn)的趨勢。
當(dāng)機(jī)器學(xué)習(xí)模型從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)得太多時(shí)，就會(huì)發(fā)生過度擬合，注意那些本來就是噪聲或與數(shù)據(jù)集范圍無關(guān)的數(shù)據(jù)點(diǎn)。它試圖擬合曲線上的每個(gè)點(diǎn)，并因此記住數(shù)據(jù)模式。

由于該模型的靈活性很小，因此無法預(yù)測新的數(shù)據(jù)點(diǎn)。換句話說，它過于關(guān)注給出的例子，無法看到更大的圖景。

欠擬合和過擬合的原因是什么？

更一般的情況包括用于訓(xùn)練的數(shù)據(jù)不干凈并且包含大量噪聲或垃圾值，或者數(shù)據(jù)的大小太小的情況。但是，還有一些更具體的原因。

讓我們來看看那些。

欠擬合的發(fā)生可能是因?yàn)椋?/p>

該模型使用錯(cuò)誤的參數(shù)進(jìn)行訓(xùn)練，并且未充分觀察到訓(xùn)練數(shù)據(jù)
模型太簡單，記不住足夠多的特征
訓(xùn)練數(shù)據(jù)過于多樣化或復(fù)雜

在以下情況下可能會(huì)發(fā)生過度擬合：

該模型使用錯(cuò)誤的參數(shù)進(jìn)行訓(xùn)練，并過度觀察訓(xùn)練數(shù)據(jù)
該模型過于復(fù)雜，并且沒有針對更多不同的數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練。
訓(xùn)練數(shù)據(jù)的標(biāo)簽過于嚴(yán)格或原始數(shù)據(jù)過于均勻，不代表真實(shí)的分布。

維數(shù)

任何機(jī)器學(xué)習(xí)模型的準(zhǔn)確性都與數(shù)據(jù)集的維度成正比。但它只適用于特定的閾值。

數(shù)據(jù)集的維度是指數(shù)據(jù)集中存在的屬性/特征的數(shù)量。以指數(shù)方式增加維數(shù)會(huì)導(dǎo)致添加非必需屬性，從而混淆模型，從而降低機(jī)器學(xué)習(xí)模型的準(zhǔn)確性。

我們將這些與訓(xùn)練機(jī)器學(xué)習(xí)模型相關(guān)的困難稱為“維數(shù)災(zāi)難”。

數(shù)據(jù)質(zhì)量

機(jī)器學(xué)習(xí)算法對低質(zhì)量的訓(xùn)練數(shù)據(jù)很敏感。

由于數(shù)據(jù)不正確或缺失值導(dǎo)致數(shù)據(jù)中出現(xiàn)噪聲，數(shù)據(jù)質(zhì)量可能會(huì)受到影響。即使訓(xùn)練數(shù)據(jù)中相對較小的錯(cuò)誤也會(huì)導(dǎo)致系統(tǒng)輸出出現(xiàn)大規(guī)模錯(cuò)誤。

當(dāng)算法表現(xiàn)不佳時(shí)，通常是由于數(shù)據(jù)質(zhì)量問題，例如數(shù)量/傾斜/噪聲數(shù)據(jù)不足或描述數(shù)據(jù)的特征不足。

因此，在訓(xùn)練機(jī)器學(xué)習(xí)模型之前，往往需要進(jìn)行數(shù)據(jù)清洗以獲得高質(zhì)量的數(shù)據(jù)。