世界充滿了數(shù)據(jù)——由人和計(jì)算機(jī)生成的圖像、視頻、電子表格、音頻和文本充斥著互聯(lián)網(wǎng),將我們淹沒在信息的海洋中。 傳統(tǒng)上,人類分析數(shù)據(jù)以做出更明智的決策,并設(shè)法調(diào)整系統(tǒng)以控制數(shù)據(jù)模式的變化。然而,隨著傳入信息量的增加,我們理解它的能力下降,給我們帶來了以下挑戰(zhàn): 我們?nèi)绾问褂盟羞@些數(shù)據(jù)以自動(dòng)而非手動(dòng)的方式推導(dǎo)意義? 這正是機(jī)器學(xué)習(xí)發(fā)揮作用的地方。本文將介紹: 什么是機(jī)器學(xué)習(xí) 機(jī)器學(xué)習(xí)算法的關(guān)鍵要素 機(jī)器學(xué)習(xí)是如何工作的 6 個(gè)真實(shí)世界的機(jī)器學(xué)習(xí)應(yīng)用 機(jī)器學(xué)習(xí)的挑戰(zhàn)和局限性 ?? 機(jī)器學(xué)習(xí)為我們提供了分析和處理數(shù)據(jù)以做出準(zhǔn)確預(yù)測的工具和算法。這些預(yù)測是由機(jī)器從一組稱為“訓(xùn)練數(shù)據(jù)”的數(shù)據(jù)中學(xué)習(xí)模式做出的,它們可以推動(dòng)進(jìn)一步的技術(shù)發(fā)展,從而改善人們的生活。 一 什么是機(jī)器學(xué)習(xí)機(jī)器學(xué)習(xí)是一個(gè)概念,它允許計(jì)算機(jī)自動(dòng)從示例和經(jīng)驗(yàn)中學(xué)習(xí),并在沒有明確編程的情況下模仿人類的決策。 機(jī)器學(xué)習(xí)是人工智能的一個(gè)分支,使用算法和統(tǒng)計(jì)技術(shù)從數(shù)據(jù)中學(xué)習(xí)并從中得出模式和隱藏的見解。 現(xiàn)在,讓我們更深入地探索機(jī)器學(xué)習(xí)的來龍去脈。 二 機(jī)器學(xué)習(xí)算法的關(guān)鍵要素機(jī)器學(xué)習(xí)中有數(shù)以萬計(jì)的算法,可以根據(jù)學(xué)習(xí)風(fēng)格或所解決問題的性質(zhì)進(jìn)行分組。但每個(gè)機(jī)器學(xué)習(xí)算法都包含以下關(guān)鍵組件:
以上是機(jī)器學(xué)習(xí)算法的四個(gè)組成部分的詳細(xì)分類。 機(jī)器學(xué)習(xí)系統(tǒng)的功能描述性:系統(tǒng)收集歷史數(shù)據(jù),對其進(jìn)行組織,然后以易于理解的方式呈現(xiàn)。 主要重點(diǎn)是掌握企業(yè)中已經(jīng)發(fā)生的事情,而不是從其發(fā)現(xiàn)中得出推論或預(yù)測。描述性分析使用簡單的數(shù)學(xué)和統(tǒng)計(jì)工具,例如算術(shù)、平均值和百分比,而不是預(yù)測性和規(guī)范性分析所需的復(fù)雜計(jì)算。 預(yù)測性:描述性分析側(cè)重于分析歷史數(shù)據(jù)并從中得出推論,而預(yù)測性分析側(cè)重于預(yù)測和理解未來可能發(fā)生的事情。 通過查看歷史數(shù)據(jù)來分析過去的數(shù)據(jù)模式和趨勢可以預(yù)測未來可能發(fā)生的事情。 規(guī)范性:描述性分析告訴我們過去發(fā)生了什么,而預(yù)測性分析告訴我們通過從過去學(xué)習(xí)未來可能發(fā)生的事情。但是,一旦我們對可能發(fā)生的事情有了洞察力,應(yīng)該做什么呢? 這就是規(guī)范性分析。它幫助系統(tǒng)使用過去的知識(shí)對一個(gè)人可以采取的行動(dòng)提出多項(xiàng)建議。規(guī)范性分析可以模擬場景并提供實(shí)現(xiàn)預(yù)期結(jié)果的途徑。 三 機(jī)器學(xué)習(xí)是如何工作的ML算法的學(xué)習(xí)可以分為三個(gè)主要部分。 決策過程機(jī)器學(xué)習(xí)模型旨在從數(shù)據(jù)中學(xué)習(xí)模式并應(yīng)用這些知識(shí)進(jìn)行預(yù)測。問題是:模型如何進(jìn)行預(yù)測? 這個(gè)過程非?;A(chǔ)——從輸入數(shù)據(jù)(標(biāo)記或未標(biāo)記)中找到模式并應(yīng)用它來得出結(jié)果。 誤差函數(shù)機(jī)器學(xué)習(xí)模型旨在將自己做出的預(yù)測與基本事實(shí)進(jìn)行比較。目標(biāo)是了解它是否在朝著正確的方向?qū)W習(xí)。這決定了模型的準(zhǔn)確性,并暗示了我們?nèi)绾胃倪M(jìn)模型的訓(xùn)練。 模型優(yōu)化過程該模型的最終目標(biāo)是改進(jìn)預(yù)測,這意味著減少已知結(jié)果與相應(yīng)模型估計(jì)之間的差異。 該模型需要通過不斷更新權(quán)重來更好地適應(yīng)訓(xùn)練數(shù)據(jù)樣本。該算法循環(huán)工作,評估和優(yōu)化結(jié)果,更新權(quán)重,直到獲得關(guān)于模型準(zhǔn)確性的最大值。 機(jī)器學(xué)習(xí)方法的類型機(jī)器學(xué)習(xí)主要包括四種類型。 1. 監(jiān)督機(jī)器學(xué)習(xí)在監(jiān)督學(xué)習(xí)中,顧名思義,機(jī)器在指導(dǎo)下學(xué)習(xí)。 這是通過向計(jì)算機(jī)提供一組標(biāo)記數(shù)據(jù)來完成的,以使機(jī)器了解輸入的內(nèi)容以及輸出應(yīng)該是什么。在這里,人類充當(dāng)向?qū)?,為模型提供帶?biāo)簽的訓(xùn)練數(shù)據(jù)(輸入-輸出對),機(jī)器從中學(xué)習(xí)模式。 一旦從以前的數(shù)據(jù)集中學(xué)習(xí)了輸入和輸出之間的關(guān)系,機(jī)器就可以輕松地預(yù)測新數(shù)據(jù)的輸出值。 我們可以在哪里使用監(jiān)督學(xué)習(xí)? 答案是:在我們知道在輸入數(shù)據(jù)中查看什么以及我們想要什么作為輸出的情況下。 監(jiān)督學(xué)習(xí)問題的主要類型包括回歸和分類問題。 2. 無監(jiān)督機(jī)器學(xué)習(xí)無監(jiān)督學(xué)習(xí)的工作方式與監(jiān)督學(xué)習(xí)的工作方式恰恰相反。 它使用未標(biāo)記的數(shù)據(jù)——機(jī)器必須理解數(shù)據(jù),找到隱藏的模式并做出相應(yīng)的預(yù)測。 在這里,機(jī)器在獨(dú)立地從數(shù)據(jù)中推導(dǎo)出隱藏模式后為我們提供新發(fā)現(xiàn),而無需人工指定要尋找的內(nèi)容。 無監(jiān)督學(xué)習(xí)問題的主要類型包括聚類和關(guān)聯(lián)規(guī)則分析。 3.強(qiáng)化學(xué)習(xí)強(qiáng)化學(xué)習(xí)涉及一個(gè)代理,該代理通過執(zhí)行操作來學(xué)習(xí)在環(huán)境中的行為。 根據(jù)這些行動(dòng)的結(jié)果,它會(huì)提供反饋并調(diào)整其未來的路線——對于每一個(gè)好的動(dòng)作,代理都會(huì)得到積極的反饋,而對于每一個(gè)壞的動(dòng)作,代理都會(huì)得到負(fù)面的反饋或懲罰。 強(qiáng)化學(xué)習(xí)在沒有任何標(biāo)記數(shù)據(jù)的情況下進(jìn)行學(xué)習(xí)。由于沒有標(biāo)記數(shù)據(jù),代理只能根據(jù)自己的經(jīng)驗(yàn)進(jìn)行學(xué)習(xí)。 4. 半監(jiān)督學(xué)習(xí)半監(jiān)督是監(jiān)督和無監(jiān)督學(xué)習(xí)之間的狀態(tài)。 它從每個(gè)學(xué)習(xí)中獲取積極的方面,即它使用較小的標(biāo)記數(shù)據(jù)集來指導(dǎo)分類,并從較大的未標(biāo)記數(shù)據(jù)集中執(zhí)行無監(jiān)督特征提取。 使用半監(jiān)督學(xué)習(xí)的主要優(yōu)點(diǎn)是它能夠在沒有足夠的標(biāo)記數(shù)據(jù)來訓(xùn)練模型時(shí)解決問題,或者當(dāng)數(shù)據(jù)根本無法標(biāo)記時(shí)因?yàn)槿祟惒恢酪谄渲袑ふ沂裁础?/p> 四 6 個(gè)真實(shí)世界的機(jī)器學(xué)習(xí)應(yīng)用 如今,機(jī)器學(xué)習(xí)幾乎是所有科技公司的核心,包括谷歌或 Youtube 搜索引擎等企業(yè)。 下面,匯總了一些您可能熟悉的機(jī)器學(xué)習(xí)在現(xiàn)實(shí)生活中的應(yīng)用示例: 自動(dòng)駕駛汽車車輛在道路上會(huì)遇到各種各樣的情況。 為了讓自動(dòng)駕駛汽車比人類表現(xiàn)更好,它們需要學(xué)習(xí)并適應(yīng)不斷變化的路況和其他車輛的行為。 自動(dòng)駕駛汽車從傳感器和攝像頭收集周圍環(huán)境的數(shù)據(jù),然后對其進(jìn)行解釋并做出相應(yīng)的反應(yīng)。它使用監(jiān)督學(xué)習(xí)識(shí)別周圍物體,使用無監(jiān)督學(xué)習(xí)識(shí)別其他車輛的模式,并最終在強(qiáng)化算法的幫助下采取相應(yīng)的行動(dòng)。 圖像分析和物體檢測圖像分析用于從圖像中提取不同的信息。 它在檢查制造缺陷、分析智能城市的汽車交通或像谷歌鏡頭這樣的視覺搜索引擎等領(lǐng)域得到應(yīng)用。 主要思想是使用深度學(xué)習(xí)技術(shù)從圖像中提取特征,然后將這些特征應(yīng)用于對象檢測。 客戶服務(wù)聊天機(jī)器人如今,公司使用 AI 聊天機(jī)器人來提供客戶支持和銷售的情況非常普遍。AI 聊天機(jī)器人通過提供 24/7 支持幫助企業(yè)處理大量客戶查詢,從而降低支持成本并帶來額外收入和滿意的客戶。 AI 機(jī)器人技術(shù)使用自然語言處理 (NLP) 來處理文本、提取查詢關(guān)鍵字并做出相應(yīng)響應(yīng)。 醫(yī)學(xué)成像和診斷事實(shí)是這樣的:醫(yī)學(xué)影像數(shù)據(jù)既是最豐富的信息來源,也是最復(fù)雜的信息來源之一。 手動(dòng)分析數(shù)以千計(jì)的醫(yī)學(xué)圖像是一項(xiàng)乏味的工作,并且浪費(fèi)病理學(xué)家可以更有效地利用的寶貴時(shí)間。 但這不僅僅是節(jié)省時(shí)間——肉眼可能看不到偽影或結(jié)節(jié)等小特征,從而導(dǎo)致疾病診斷延遲和錯(cuò)誤預(yù)測。這就是為什么使用涉及神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)技術(shù)(可用于從圖像中提取特征)具有如此大的潛力。 欺詐識(shí)別隨著電子商務(wù)領(lǐng)域的擴(kuò)張,我們可以觀察到在線交易數(shù)量的增加和可用支付方式的多樣化。不幸的是,有些人利用了這種情況。當(dāng)今世界的欺詐者非常熟練,可以非常迅速地采用新技術(shù)。 這就是為什么我們需要一個(gè)能夠分析數(shù)據(jù)模式、做出準(zhǔn)確預(yù)測并響應(yīng)在線網(wǎng)絡(luò)安全威脅(如虛假登錄嘗試或網(wǎng)絡(luò)釣魚攻擊)的系統(tǒng)。 例如,根據(jù)您過去購買的地點(diǎn)或您在線的時(shí)間,防欺詐系統(tǒng)可以發(fā)現(xiàn)購買是否合法。同樣,他們可以檢測是否有人試圖在網(wǎng)上或電話中冒充您。 推薦算法推薦算法的這種相關(guān)性基于對歷史數(shù)據(jù)的研究,并取決于幾個(gè)因素,包括用戶偏好和興趣。 京東或抖音等公司使用推薦系統(tǒng)為用戶/買家策劃和展示相關(guān)內(nèi)容或產(chǎn)品。 五 機(jī)器學(xué)習(xí)的挑戰(zhàn)和局限性欠擬合和過擬合在大多數(shù)情況下,任何機(jī)器學(xué)習(xí)算法性能不佳的原因都是由于欠擬合和過擬合。 讓我們在訓(xùn)練機(jī)器學(xué)習(xí)模型的背景下分解這些術(shù)語。
由于該模型的靈活性很小,因此無法預(yù)測新的數(shù)據(jù)點(diǎn)。換句話說,它過于關(guān)注給出的例子,無法看到更大的圖景。 欠擬合和過擬合的原因是什么? 更一般的情況包括用于訓(xùn)練的數(shù)據(jù)不干凈并且包含大量噪聲或垃圾值,或者數(shù)據(jù)的大小太小的情況。但是,還有一些更具體的原因。 讓我們來看看那些。 欠擬合的發(fā)生可能是因?yàn)椋?/p>
在以下情況下可能會(huì)發(fā)生過度擬合:
維數(shù)任何機(jī)器學(xué)習(xí)模型的準(zhǔn)確性都與數(shù)據(jù)集的維度成正比。但它只適用于特定的閾值。 數(shù)據(jù)集的維度是指數(shù)據(jù)集中存在的屬性/特征的數(shù)量。以指數(shù)方式增加維數(shù)會(huì)導(dǎo)致添加非必需屬性,從而混淆模型,從而降低機(jī)器學(xué)習(xí)模型的準(zhǔn)確性。 我們將這些與訓(xùn)練機(jī)器學(xué)習(xí)模型相關(guān)的困難稱為“維數(shù)災(zāi)難”。 數(shù)據(jù)質(zhì)量機(jī)器學(xué)習(xí)算法對低質(zhì)量的訓(xùn)練數(shù)據(jù)很敏感。 由于數(shù)據(jù)不正確或缺失值導(dǎo)致數(shù)據(jù)中出現(xiàn)噪聲,數(shù)據(jù)質(zhì)量可能會(huì)受到影響。即使訓(xùn)練數(shù)據(jù)中相對較小的錯(cuò)誤也會(huì)導(dǎo)致系統(tǒng)輸出出現(xiàn)大規(guī)模錯(cuò)誤。 當(dāng)算法表現(xiàn)不佳時(shí),通常是由于數(shù)據(jù)質(zhì)量問題,例如數(shù)量/傾斜/噪聲數(shù)據(jù)不足或描述數(shù)據(jù)的特征不足。 因此,在訓(xùn)練機(jī)器學(xué)習(xí)模型之前,往往需要進(jìn)行數(shù)據(jù)清洗以獲得高質(zhì)量的數(shù)據(jù)。 |
|