作者:塞巴斯蒂安·拉施卡(Sebastian Raschka)、瓦希德·米爾賈利利(Vahid Mirjalili) 來源:華章科技 了解三者之間的根本差別,并通過概念性的示例,我們將形成可應用于實際問題領域的見解,如圖1-1所示。 ▲圖 1-1 01 用監(jiān)督學習預測未來監(jiān)督學習的主要目標是從有標簽的訓練數(shù)據(jù)中學習模型,以便對未知或未來的數(shù)據(jù)做出預測。在這里“監(jiān)督”一詞指的是已經(jīng)知道訓練樣本(輸入數(shù)據(jù))中期待的輸出信號(標簽)。 圖1-2總結(jié)了一個典型的監(jiān)督學習流程,先為機器學習算法提供打過標簽的訓練數(shù)據(jù)以擬合預測模型,然后用該模型對未打過標簽的新數(shù)據(jù)進行預測。 ▲圖 1-2 以垃圾郵件過濾為例,可以采用監(jiān)督機器學習算法在打過標簽的(正確標識垃圾與非垃圾)電子郵件的語料庫上訓練模型,然后用該模型來預測新郵件是否屬于垃圾郵件。 帶有離散分類標簽的監(jiān)督學習任務也被稱為分類任務,例如上述的垃圾電子郵件過濾示例。監(jiān)督學習的另一個子類被稱為回歸,其結(jié)果信號是連續(xù)的數(shù)值。 1. 用于預測類標簽的分類 分類是監(jiān)督學習的一個分支,其目的是根據(jù)過去的觀測結(jié)果來預測新樣本的分類標簽。這些分類標簽是離散的無序值,可以理解為樣本的組成員關系。前面提到的郵件垃圾檢測就是典型的二元分類任務,機器學習算法學習規(guī)則以區(qū)分垃圾和非垃圾郵件。 圖1-3將通過30個訓練樣本闡述二元分類任務的概念,其中15個標簽為負類(-),另外15個標簽為正類(+)。該數(shù)據(jù)集為二維,這意味著每個樣本都與x1和x2的值相關。現(xiàn)在,可以通過監(jiān)督機器學習算法來學習一個規(guī)則——用一條虛線來表示決策邊界——區(qū)分兩類數(shù)據(jù),并根據(jù)x1和x2的值為新數(shù)據(jù)分類。 ▲圖 1-3 但是,類標簽集并非都是二元的。經(jīng)過監(jiān)督學習算法學習所獲得的預測模型可以將訓練數(shù)據(jù)集中出現(xiàn)過的任何維度的類標簽分配給尚未打標簽的新樣本。 多類分類任務的典型示例是手寫字符識別。首先,收集包含字母表中所有字母的多個手寫示例所形成的訓練數(shù)據(jù)集。字母(“A”“B”“C”等)代表我們要預測的不同的無序類別或類標簽。然后,當用戶通過輸入設備提供新的手寫字符時,預測模型能夠以某一準確率將其識別為字母表中的正確字母。 然而,該機器學習系統(tǒng)卻無法正確地識別0到9之間的任何數(shù)字,因為它們并不是訓練數(shù)據(jù)集中的一部分。 2. 用于預測連續(xù)結(jié)果的回歸 上一節(jié)學習到分類任務是為樣本分配無序的分類標簽。第二類監(jiān)督學習是對連續(xù)結(jié)果的預測,也稱為回歸分析。回歸分析包括一些預測(解釋)變量和一個連續(xù)的響應變量(結(jié)果),試圖尋找那些變量之間的關系,從而能夠讓我們預測結(jié)果。 注意,機器學習領域的預測變量通常被稱為“特征”,而響應變量通常被稱為“目標變量”。 以預測學生SAT數(shù)學成績?yōu)槔?。假設學習時間與考試成績相關,以此為訓練數(shù)據(jù)通過機器學習建模,用將來打算參加該項考試學生的學習時間來預測其考試成績。
他觀察到父母的身高不會遺傳給自己的孩子,相反,孩子的身高會回歸到總體均值。 圖1-4說明了線性回歸的概念。給定特征變量x和目標變量y,對數(shù)據(jù)進行線性擬合,最小化樣本點和擬合線之間的距離——最常用的平均平方距離。 ▲圖 1-4 現(xiàn)在可以用從該數(shù)據(jù)中學習到的截距和斜率來預測新數(shù)據(jù)的目標變量。 02 用強化學習解決交互問題另一類機器學習是強化學習。強化學習的目標是開發(fā)一個系統(tǒng)(智能體),通過與環(huán)境的交互來提高其性能。當前環(huán)境狀態(tài)的信息通常包含所謂的獎勵信號,可以把強化學習看作一個與監(jiān)督學習相關的領域。 然而強化學習的反饋并非標定過的正確標簽或數(shù)值,而是獎勵函數(shù)對行動度量的結(jié)果。智能體可以與環(huán)境交互完成強化學習,并通過探索性的試錯或深思熟慮的規(guī)劃來最大化這種獎勵。 強化學習的常見示例是國際象棋。智能體根據(jù)棋盤的狀態(tài)或環(huán)境來決定一系列的行動,獎勵定義為比賽的輸或贏,如圖1-5所示。 ▲圖 1-5 強化學習有許多不同的子類。然而,一般模式是強化學習智能體試圖通過與環(huán)境的一系列交互來最大化獎勵。每種狀態(tài)都可以與正或負的獎勵相關聯(lián),獎勵可以被定義為完成一個總目標,如贏棋或輸棋。例如國際象棋每走一步的結(jié)果都可以認為是環(huán)境的一個不同狀態(tài)。 為進一步探索國際象棋的示例,觀察一下棋盤上與贏棋相關聯(lián)的某些狀況,比如吃掉對手的棋子或威脅皇后。也注意一下棋盤上與輸棋相關聯(lián)的狀態(tài),例如在接下來的回合中輸給對手一個棋子。下棋只有到了結(jié)束的時候才會得到獎勵(無論是正面的贏棋還是負面的輸棋)。 另外,最終的獎勵也取決于對手的表現(xiàn)。例如,對手可能犧牲了皇后,但最終贏棋了。 強化學習涉及根據(jù)學習一系列的行動來最大化總體獎勵,這些獎勵可能即時獲得,也可能延后獲得。 03 用無監(jiān)督學習發(fā)現(xiàn)隱藏的結(jié)構(gòu)監(jiān)督學習訓練模型時,事先知道正確的答案;在強化學習的過程中,定義了智能體對特定行動的獎勵。然而,無監(jiān)督學習處理的是無標簽或結(jié)構(gòu)未知的數(shù)據(jù)。用無監(jiān)督學習技術(shù),可以在沒有已知結(jié)果變量或獎勵函數(shù)的指導下,探索數(shù)據(jù)結(jié)構(gòu)來提取有意義的信息。 1. 用聚類尋找子群 聚類是探索性的數(shù)據(jù)分析技術(shù),可以在事先不了解成員關系的情況下,將信息分成有意義的子群(集群)。為在分析過程中出現(xiàn)的每個集群定義一組對象,集群的成員之間具有一定程度的相似性,但與其他集群中對象的差異性較大,這就是為什么聚類有時也被稱為無監(jiān)督分類。 聚類是一種構(gòu)造信息和從數(shù)據(jù)中推導出有意義關系的有用技術(shù)。例如,它允許營銷人員根據(jù)自己的興趣發(fā)現(xiàn)客戶群,以便制定不同的市場營銷計劃。 圖1-6解釋了如何應用聚類把無標簽數(shù)據(jù)根據(jù)x1和x2的相似性分成三組。 ▲圖 1-6 2. 通過降維壓縮數(shù)據(jù) 無監(jiān)督學習的另一個子類是降維。我們經(jīng)常要面對高維數(shù)據(jù)。高維數(shù)據(jù)的每個觀察通常都伴隨著大量的測量數(shù)據(jù),這對有限的存儲空間和機器學習算法的計算性能提出了挑戰(zhàn)。 無監(jiān)督降維是特征預處理中一種常用的數(shù)據(jù)去噪方法,不僅可以降低某些算法對預測性能的要求,而且可以在保留大部分相關信息的同時將數(shù)據(jù)壓縮到較小維數(shù)的子空間上。 有時降維有利于數(shù)據(jù)的可視化,例如,為了通過二維散點圖、三維散點圖或直方圖實現(xiàn)數(shù)據(jù)的可視化,可以把高維特征數(shù)據(jù)集映射到一維、二維或三維特征空間。圖1-7展示了一個采用非線性降維將三維瑞士卷壓縮成新的二維特征子空間的示例。 ▲圖 1-7 |
|