機器學(xué)習(xí)并不是簡單的玩數(shù)學(xué)游戲,它是能真刀真槍的解決很多實際問題的。簡單歸納總結(jié)一下,機器學(xué)習(xí)主要解決六大類任務(wù)或者叫問題:分類問題、聚類問題、回歸問題、關(guān)聯(lián)問題、序列問題。 異常檢測問題 1. 分類問題(Classification) 抽象來看,分類問題就是構(gòu)造一個分類器(Classifier),可以對數(shù)據(jù)樣本的類別進行預(yù)測。分類器可以理解為一個函數(shù):y=f(x),其中x是自變量,y是因變量并且y的取值不是數(shù)值而是一個類別標簽。當我們知道了x的取值之后,就可以根據(jù)f(x)來預(yù)測y的值。分類問題屬于機器學(xué)習(xí)中的有監(jiān)督學(xué)習(xí)。 典型的分類問題有: 判斷一封郵件是否是垃圾郵件 判斷一篇文章屬于什么類型(例如體育類,財經(jīng)類,娛樂類等) 判斷貸款申請者的信用度好壞 檢測信用卡消費是否存在欺詐行為 圖像分類:識別圖片中的物體 預(yù)測用戶是否會流失 預(yù)測用戶對營銷活動是否會響應(yīng) 預(yù)測用戶對廣告是否會點擊 預(yù)測用戶對商品是否有興趣購買 2.聚類問題(Clustering) “物以類聚,人以群分”,這就是聚類,它的目的就是要把相似的數(shù)據(jù)聚在一起。例如通信運營商可以對手機用戶的通話行為進行聚類,把喜歡上網(wǎng)的聚類一類,喜歡夜間打電話的聚為另外一類。你也可以對大量的文章進行聚類,把相似的文章聚為一類然后歸到同一個文件夾中。聚類問題屬于機器學(xué)習(xí)中的非監(jiān)督學(xué)習(xí)。 典型的聚類問題有: 用戶分群:企業(yè)對用戶的消費行為進行聚類,把用戶劃分為不同的人群,然后對用戶進行差異化的營銷和服務(wù)。 相似文檔歸類:對大量的文檔進行聚類分析后,把文檔分為若干個不同的類 注意:聚類和分類都有一個“類”字,但是它們有顯著的差別:分類問題的“類”就是訓(xùn)練樣本的標簽,這個標簽是訓(xùn)練模型之前需要事先標記好的,分類算法的目標是建立一個對標簽進行預(yù)測的模型;而聚類的“類”,是聚類算法需要對數(shù)據(jù)進行學(xué)習(xí)之后才能得到的結(jié)果,在訓(xùn)練模型之前我們是不知道樣本的類標簽的。 3.回歸問題(Regression) 回歸問題和分類問題非常像,它們都屬于監(jiān)督學(xué)習(xí)的范疇。分類問題要構(gòu)建的是分類器(Classifier),而回歸問題需要構(gòu)建的就是一個回歸器(Regressor)?;貧w器也是一個函數(shù):y=f(x),其中x是自變量,y是因變量,與分類問題不同的是,y的取值是數(shù)值而不是類別。當知道了x的值之后,就可以通過f(x)來預(yù)測y的值。 典型的回歸問題有: 根據(jù)房屋的特征來預(yù)測房屋的價格 根據(jù)商品的特征來預(yù)測商品的銷量 4.關(guān)聯(lián)問題(Association Rule) 關(guān)聯(lián)問題最有名的案例就是啤酒和尿布的故事。關(guān)聯(lián)規(guī)則算法可以從交易型數(shù)據(jù)中發(fā)現(xiàn)頻繁關(guān)聯(lián)出現(xiàn)的Item(商品),又稱為購物籃分析和關(guān)聯(lián)規(guī)則挖掘。關(guān)聯(lián)規(guī)則挖掘?qū)儆诜潜O(jiān)督學(xué)習(xí)。 典型的關(guān)聯(lián)問題有: 買了還買:買了A商品的用戶,同時還有多少比例會買其他商品 看了還看:看了A電影的用戶,同時還有多少比例會看其他電影 5.序列問題(Sequence) 序列問題包括時間序列的預(yù)測,序列型關(guān)聯(lián)規(guī)則(例如先看了速度與激情1,接下來看速度與激情2的可能性比較大)等。語言模型(哪些詞經(jīng)??梢源钆湓谝黄穑┮矊儆谛蛄袉栴}。序列問題既可以是非監(jiān)督學(xué)習(xí)的方法(類似關(guān)聯(lián)規(guī)則算法),也可以轉(zhuǎn)換為回歸,分類等監(jiān)督學(xué)習(xí)的問題。 典型的序列問題有: 根據(jù)用戶之前購買的商品預(yù)測接下來可能會買的商品 時間序列預(yù)測:如預(yù)測股票和預(yù)測天氣等 中文分詞:判斷哪些字組合在一起最有可能像一個詞語 6.異常檢測問題(Outlier Detection) 異常檢測就是檢測樣本取值是否顯著的偏離常規(guī),從中發(fā)現(xiàn)有意義的孤立點和異常值。監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)都可以應(yīng)用于異常檢測問題。 典型的異常檢測問題有: 信用卡異常消費檢測(欺詐檢測) 網(wǎng)絡(luò)安全檢測 不合格產(chǎn)品檢測 日常工作中,你遇到的機器學(xué)習(xí)問題基本上都逃不出這六大任務(wù)。 |
|
來自: 昵稱27915469 > 《待分類》