一、機(jī)器學(xué)習(xí)簡介1.1 機(jī)器學(xué)習(xí)簡介人工智能 (Artificial Intelligence,簡稱AI) 是對人的意識(shí)、思維過程進(jìn)行模擬的一門新學(xué)科。 如今,人工智能從虛無縹緲的科學(xué)幻想變成了現(xiàn)實(shí)。計(jì)算機(jī)科學(xué)家們在 機(jī)器學(xué)習(xí) (Machine Learning) 和 深度學(xué)習(xí) (Deep Learning) 領(lǐng)域已經(jīng)取得重大的突破,機(jī)器被賦予強(qiáng)大的認(rèn)知和預(yù)測能力。2016 年 AplphaGO 成功擊敗人類世界冠軍向世界證明,機(jī)器也可以像人類一樣思考,甚至比人類做得更好。 人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)三者關(guān)系人工智能涵蓋了機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的所有范疇,人工智能研究的主要目標(biāo)是使機(jī)器能夠勝任一些通常需要人類才能完成的復(fù)雜工作,人工智能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)三者之間是逐層包含的關(guān)系。 機(jī)器學(xué)習(xí):人工智能核心技術(shù)機(jī)器學(xué)習(xí)是利用經(jīng)驗(yàn)或數(shù)據(jù)來改進(jìn)算法的研究,通過算法讓機(jī)器從大量歷史數(shù)據(jù)中學(xué)習(xí)和尋找規(guī)律,得到某種模型并利用此模型預(yù)測未來。 1.2 機(jī)器學(xué)習(xí)應(yīng)用場景機(jī)器學(xué)習(xí):應(yīng)用領(lǐng)域從范圍上來說,機(jī)器學(xué)習(xí)跟模式識(shí)別,統(tǒng)計(jì)學(xué)習(xí),數(shù)據(jù)挖掘是類似的。同時(shí),機(jī)器學(xué)習(xí)與其他領(lǐng)域的處理技術(shù)的結(jié)合,形成了計(jì)算機(jī)視覺、語音識(shí)別、自然語言處理等交叉學(xué)科。 機(jī)器學(xué)習(xí):應(yīng)用場景
機(jī)器學(xué)習(xí)應(yīng)用場景:客戶分析主要是客戶的基本數(shù)據(jù)信息進(jìn)行商業(yè)行為分析。
機(jī)器學(xué)習(xí)應(yīng)用場景:營銷分析囊括了產(chǎn)品分析,價(jià)格分析,渠道分析,廣告與促銷分析這四類分析。
機(jī)器學(xué)習(xí)應(yīng)用場景:社交媒體分析以不同社交媒體渠道生成的內(nèi)容為基礎(chǔ),實(shí)現(xiàn)不同社交媒體的用戶分析,訪問分析,互動(dòng)分析等。同時(shí),還能為情感和輿情監(jiān)督提供豐富的資料。
機(jī)器學(xué)習(xí)應(yīng)用場景:網(wǎng)絡(luò)安全和設(shè)備管理
機(jī)器學(xué)習(xí)應(yīng)用場景:交通物流和欺詐檢測
1.3 機(jī)器學(xué)習(xí)算法分類機(jī)器學(xué)習(xí)不同層次
機(jī)器學(xué)習(xí)介紹
機(jī)器學(xué)習(xí)提升路徑機(jī)器學(xué)習(xí)概念
機(jī)器學(xué)習(xí)算法分類按學(xué)習(xí)的方式來劃分,機(jī)器學(xué)習(xí)主要包括:
輸入數(shù)據(jù)帶有標(biāo)簽。監(jiān)督學(xué)習(xí)建立一個(gè)學(xué)習(xí)過程,將預(yù)測結(jié)果與 “訓(xùn)練數(shù)據(jù)”(即輸入數(shù)據(jù))的實(shí)際結(jié)果進(jìn)行比較,不斷的調(diào)整預(yù)測模型,直到模型的預(yù)測結(jié)果達(dá)到一個(gè)預(yù)期的準(zhǔn)確率,比如分類和回歸問題等。常用算法包括決策樹、貝葉斯分類、最小二乘回歸、邏輯回歸、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)等。
輸入數(shù)據(jù)沒有標(biāo)簽,而是通過算法來推斷數(shù)據(jù)的內(nèi)在聯(lián)系,比如聚類和關(guān)聯(lián)規(guī)則學(xué)習(xí)等。常用算法包括獨(dú)立成分分析、K-Means 和 Apriori 算法等。
輸入數(shù)據(jù)部分標(biāo)簽,是監(jiān)督學(xué)習(xí)的延伸,常用于分類和回歸。常用算法包括圖論推理算法、拉普拉斯支持向量機(jī)等。
輸入數(shù)據(jù)作為對模型的反饋,強(qiáng)調(diào)如何基于環(huán)境而行動(dòng),以取得最大化的預(yù)期利益。與監(jiān)督式學(xué)習(xí)之間的區(qū)別在于,它并不需要出現(xiàn)正確的輸入 / 輸出對,也不需要精確校正次優(yōu)化的行為。強(qiáng)化學(xué)習(xí)更加專注于在線規(guī)劃,需要在探索(在未知的領(lǐng)域)和遵從(現(xiàn)有知識(shí))之間找到平q衡。 機(jī)器學(xué)習(xí)算法分類
1.4 機(jī)器學(xué)習(xí)基本術(shù)語機(jī)器學(xué)習(xí)的基本原理就是把現(xiàn)實(shí)世界當(dāng)中要研究的對象通過特征值將其數(shù)字化,然后讓計(jì)算機(jī)通過這些已有的數(shù)字學(xué)習(xí)“經(jīng)驗(yàn)”,從而有了判斷的能力,這時(shí)如果有了新的輸入,計(jì)算機(jī)就能夠根據(jù)這些經(jīng)驗(yàn)來做出判斷。 比如下面的例子就是要計(jì)算機(jī)判斷西瓜是好瓜還是壞瓜,我們把西瓜對象提取出三種類型的特征值,然后通過算法讓機(jī)器去學(xué)習(xí),從而擁有了判斷西瓜好壞的能力。我們把這個(gè)可以將經(jīng)驗(yàn)(數(shù)據(jù))轉(zhuǎn)化為最終的模型(Model,也就是那個(gè)能判斷好瓜還是壞瓜的程序)的算法稱之為學(xué)習(xí)算法(Learning Algorithm)
我們可以看出現(xiàn)實(shí)世界的任何事物其實(shí)都可以通過屬性或著特征來進(jìn)行描述,上圖給出的就是通過三個(gè)屬性來描述西瓜的一組數(shù)據(jù)。屬性的數(shù)目我們稱之為維數(shù),本例中表示西瓜用了三個(gè)特征,因此就是三維。 下面的圖表示樣本空間(Sample Space)或者屬性空間(Attribute Space),我們也可以看到這是一個(gè)三維空間。 每個(gè)樣本根據(jù)其特征值都會(huì)落在樣本空間的一個(gè)點(diǎn)上,這個(gè)點(diǎn)由一組坐標(biāo)向量來表示,因此樣本又叫做特征向量(Feature Vector)。 機(jī)器學(xué)習(xí)的過程就是通過這些樣本數(shù)據(jù)進(jìn)行訓(xùn)練學(xué)習(xí)的過程,通過訓(xùn)練,我們可以得出自己的模型,這個(gè)模型我們可以理解為經(jīng)過訓(xùn)練的機(jī)器大腦,這個(gè)機(jī)器大腦可以幫助我們做判斷,比如判斷一個(gè)西瓜的好壞,判斷的越準(zhǔn)確,說明我們的模型越好。
當(dāng)我們開始訓(xùn)練我們的模型的時(shí)候,只有上面所示的數(shù)據(jù)集是不夠的,我們還需要一組帶有判斷結(jié)果的數(shù)據(jù) 判斷結(jié)果我們叫做標(biāo)記(Label),帶有標(biāo)記信息的樣本,則稱之為樣例(Example) 所有標(biāo)記的集合叫做標(biāo)記空間(Label Space)或輸出空間(Output Space) ((色澤='青綠',根蒂='蜷縮',敲聲='濁響'), 好瓜) 通常我們訓(xùn)練模型就是為了找到輸入空間到輸出空間的對應(yīng)關(guān)系,即給定輸入空間的一個(gè)特征向量,能夠?qū)?yīng)到輸出空間的一個(gè)值。
((色澤='青綠',根蒂='蜷縮',敲聲='濁響'), 0.95)
如果我們想讓我們的模型只是簡單地去判斷(通常叫預(yù)測)一個(gè)瓜是好瓜還是壞瓜,即分成兩類,這種學(xué)習(xí)任務(wù)稱為分類問題(Classification),預(yù)測的是離散值;如果是想讓其預(yù)測的是連續(xù)值,如預(yù)測西瓜成熟度0.95, 0.88,此類學(xué)習(xí)任務(wù)就叫做回歸(Regression) 在我們的示例中只是簡單地分為“好瓜”,“壞瓜”兩類,此種分類稱為二分類問題(Binary Classification),通常一個(gè)稱為正類(Positive Class)也有翻譯為“陽類”,另一個(gè)稱為反類(Negtive Class)或者稱為為陰類。 如果是多個(gè)類別的話,就稱為多分類問題。 如果我們想將訓(xùn)練集中的西瓜分成若干組,每組就稱之為一個(gè)簇(Cluster),這個(gè)過程就叫做聚類(Clustering)。這些簇可能對應(yīng)一些潛在的分類,比如“淺色瓜”,“深色瓜”等。而這些分類可能是我們事先并不知道的,就是說學(xué)習(xí)算法在做聚類分析的時(shí)候是自動(dòng)產(chǎn)生的類別,通常訓(xùn)練樣本中也不需要標(biāo)記信息。 根據(jù)訓(xùn)練數(shù)據(jù)是否有標(biāo)記信息,學(xué)習(xí)任務(wù)可分為監(jiān)督學(xué)習(xí)(Supervised Learning)和無監(jiān)督學(xué)習(xí)(Unsupervised Learning)。 分類和回歸是監(jiān)督學(xué)習(xí)的典型代表,而聚類則是無監(jiān)督學(xué)習(xí)的典型代表。
每種特征的組合都認(rèn)為是一個(gè)假設(shè)(Hypothesis),所有假設(shè)的集合我們稱之為假設(shè)空間。
如果“色澤”,“根蒂”,“敲聲”分別有3,2,2種可能,(每種特征值都要加一種任意值可能)那么假設(shè)空間的規(guī)模就是 43x=3+1=374?3x=?3+1=37 從這幅圖可以看出,每種特征值在計(jì)算可能性的時(shí)候都加了一種可能,就是任意值可能,我們用“*”表示,最后結(jié)果加1是由于存在一種可能就是根本沒有“好瓜”這個(gè)概念,或者說“好瓜”跟這些特征都沒有關(guān)系。當(dāng)給定一個(gè)訓(xùn)練集進(jìn)行訓(xùn)練的時(shí)候,模型會(huì)逐漸刪除那些與正例不一致的假設(shè)和(或)與反例一致的假設(shè),最后獲得與訓(xùn)練集一致的假設(shè)。而剩下的這些假設(shè)可能有多個(gè),我們把剩下的這些假設(shè)的集合稱之為版本空間(Version Space)。
Scikit-learn安裝與查看
tips:鏡像已經(jīng)安裝好相關(guān)庫,你可以使用以下命令查看Scikit-learn版本
|
|