一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

【大數(shù)據(jù)微課回顧】張浩彬:數(shù)據(jù)科學的商業(yè)實踐征程

 CharlseShan 2016-05-21


IBM

張浩彬

IBM認知計算事業(yè)部工程師,負責大數(shù)據(jù)解決方案的分析工作,擅長企業(yè)大數(shù)據(jù)方案設計,數(shù)據(jù)建模和數(shù)據(jù)分析。曾任SPSS技術工程師,有豐富的數(shù)據(jù)分析商業(yè)應用項目經(jīng)驗。




講座

提綱

1.CRISP-DM,數(shù)據(jù)挖掘中的方法論;

2.數(shù)據(jù)挖掘在實踐中的應用,以及如何開展一個數(shù)據(jù)挖掘項目;

3.數(shù)據(jù)理解與數(shù)據(jù)準備的過程以及經(jīng)驗原則

4.數(shù)據(jù)建模的實踐經(jīng)驗

5.如何學習數(shù)據(jù)分析與數(shù)據(jù)挖掘




大家好,今天主要是想跟大家談談在商業(yè)應用中,我們是如何開展數(shù)據(jù)分析、數(shù)據(jù)挖掘的。也會談談從我的經(jīng)驗來看,個人可以怎樣學習數(shù)據(jù)分析/數(shù)據(jù)挖掘的問題。


今天的內(nèi)容我會避免過于技術的問題,主要談談在數(shù)據(jù)挖掘過程中的體系,以及一些經(jīng)驗原則,也會談談整個數(shù)據(jù)挖掘的基本框架。另外看到群里有不少熟悉的朋友,之前是有關注我的公眾號,這次分享之中會從里面截取一些圖片,但是內(nèi)容上會有所不同。


先說方法論的問題:




在實踐當中,一個數(shù)據(jù)挖掘項目(或者說在咱們企業(yè)內(nèi)部中一個分析研究主題),不但周期長,常常還會跨數(shù)據(jù)源,甚至跨部協(xié)助進行,稍不留神就會陷入復雜的數(shù)據(jù)迷宮當中,因此在為了能夠在整個項目階段能夠保持研究重點,能夠持續(xù)跟蹤,一個有效的數(shù)據(jù)挖掘方法論(明確的流程模型)是非常有必要的。


商業(yè)應用的數(shù)據(jù)挖掘會是一個持續(xù)性的項目過程,在這個過程中,毫無疑問的是數(shù)據(jù)挖掘的各種算法是數(shù)據(jù)挖掘過程的核心步驟,但我們也要明白算法并不是整個項目的全部決定性因素。商業(yè)理解真的太重要!


而為了使得整個數(shù)據(jù)挖掘過程更加標準化,也就催生出很多指數(shù)數(shù)據(jù)挖掘過程的方法論,其中比較經(jīng)典的是CRISP-DM(CRoss IndustryStandard Process- for Data Mining,跨行業(yè)數(shù)據(jù)挖掘標準流程),其中一共分為6個步驟:商業(yè)理解,數(shù)據(jù)理解,數(shù)據(jù)準備,建模,評估,發(fā)布。 




具體流程可以見上圖。在上面的圖中,大家要注意到最外面的藍色圈。雖然我們說是六個步驟,但是實際上這是一個不斷循環(huán)往復的過程。可能我們在建模階段遇到問題,發(fā)現(xiàn)數(shù)據(jù)變量不夠或者理解不夠充分,那就需要返回到上一個階段。


補充一點,利用指導方法論,我們是為了盡可能地讓流程標準化,同時可以基于各個步驟劃分不同工作小組的內(nèi)容,便于更好的合作,但不是為了造成過分的約束,實際上,在我經(jīng)歷的項目中,由于項目的要求和人員投入的約束,具體分工會有一定的出入,但是一套標準的流程是非常有必要的。


如果簡單的區(qū)分的話,我們一般也可以劃分:商業(yè)理解,數(shù)據(jù)理解和處理,建模與評估,結(jié)果發(fā)布等四個過程。


這個4階段劃分,也很常用,一般一個項目小組很多時候是基于這4個任務進行劃分的。




數(shù)據(jù)挖掘過程的各個階段和任務(成果)可以見上面這張圖。


大家可能覺得每個階段劃分也要有階段成果有點煩,但是針對每個階段進行適當?shù)幕仡櫥蛘呖偨Y(jié),可以更好地避免給自己挖坑。尤其是在大型項目相互協(xié)助的過程中,這種方式既是保護團隊,也是保護自己。


接下來,我舉一個電信行業(yè)應用的例子也會穿插一些其他行業(yè)的介紹:




商業(yè)理解是整個數(shù)據(jù)挖掘過程的最重要階段,大家設想一下假如我們在電信行業(yè),領導會說他想做一個流失分析,這個時候,大家可以先想想我們怎么理解這個問題。


如果在我剛接觸項目的時候,我最直接的分析思維就是需要先理解:

(1)我們的目標是預測哪些客戶會流失?

(2)更進一步我們可能需要知道,哪些是影響客戶流失的重要因素?


但是我認為我們還需要理解清楚:

(1)為什么咱們先提出的是流失分析,實際的優(yōu)先級應該是怎樣的?

(2)對于我們企業(yè)來說,現(xiàn)在的流失問題有多嚴重?

(3)預測客戶流失并不是最終目的,客戶挽留才是最后的價值,從業(yè)務上是否可以根據(jù)挖掘結(jié)果針對性采取策略挽留流失?


為什么要做流失分析?為什么是這個時候想做流失分析?為什么想通過數(shù)據(jù)挖掘來解決流失分析?


第一階段一定要多問多想“為什么”?這些問題的答案決定了我們的項目是否有堅實的業(yè)務基礎,以及投入的力度,這里面的坑實在是太多了。


流失的定義是什么?這個問題很好,實際上,這是我們定義好商業(yè)問題之后,進一步要做的一件事情。


我們需要把商業(yè)問題轉(zhuǎn)化為數(shù)學技術問題,例如:

(1)如何定義流失?是客戶銷戶就夠了嗎,還是客戶主要發(fā)生多個月欠費就可以認為流失?

(2)既然我們的目標是挽留流失,那更重要的是在客戶流失前就找到這些人,那是否需要定義一個瀕臨流失階段(多個月沒有發(fā)生通話/只維持基本套餐費用)?

(3)進一步地在資源(人力,物力,時間)限制的情況下,我們需要進一步界定:哪些高價值的客戶在流失(資源不足以覆蓋所有高流失名單)?如果對流失的客戶(或部分客戶)進行挽留,投入是多少?收益是多少?資源有限,這個非常重要。


最后必須強調(diào),一個在參與項目或者項目匯報經(jīng)常忽略的問題,模型的結(jié)果并不是我們項目的最終結(jié)果,我們要先把商業(yè)問題轉(zhuǎn)化為數(shù)學問題,但是最后我們得把數(shù)學結(jié)果轉(zhuǎn)變?yōu)樯虡I(yè)結(jié)果,這才是在商業(yè)數(shù)據(jù)挖掘應用中的重中之重。


再舉個例子,咱們有時候會做一些零售的項目,零售企業(yè)會告訴我們他們要做商品的關聯(lián)分析。大家可以想象,客戶要的真的只是關聯(lián)分析的支持度和置信度嗎,然后出一個表格嗎?


遠遠不止,簡單地說,他可能需要我們進一步回答,在關聯(lián)商品當中,哪些是同品類的關聯(lián)(超市的鹽和糖,一般咱們直覺都能猜到,這其實不太重要),哪些是同樓層跨品類關聯(lián)(例如我們發(fā)現(xiàn)汽水和干貨,因為該超市樓上是電影院),跨品類關聯(lián)(黃金和茶葉,送禮人群),最后,利用這些關聯(lián),它可以怎么指導業(yè)務?捆綁促銷?貨架擺放建議?招商談判等等。


我這里再詳細說一下,剛剛說,一般我們也可以劃分為商業(yè)理解,數(shù)據(jù)理解與準備,建模與評估、應用。在項目早期,我想說我們只能盡可能去貼近。像我剛剛所說我們要多問為什么,我再舉個例子:


例如,客戶跟我說,“我想做個關聯(lián)分析”。實際上,作為分析顧問/數(shù)據(jù)科學家,我們就要想,他為什么想要做關聯(lián)分析,另外我們也要注意一點,關聯(lián)分析這是一個數(shù)據(jù)挖掘術語。我們要把它還原為一個業(yè)務問題,即使他明確提出他要關聯(lián)分析。


例如最后,我們就會發(fā)現(xiàn),他認為對于會員他了解得足夠了,但是它缺乏一個商品的360度視圖。再問,360度視圖的目標是什么,可能就會得出最近一年商品銷量下降,同時高管認為要開展新的一期招商。


那問題就會變?yōu)椋蛻粝M鉀Q銷量問題(他已經(jīng)想到了交叉銷售,),同時他希望能夠更好自己自己的商品(為他們招商提供依據(jù)和決策,盡管暫時還沒有具體方法)


下面來說第二階段




數(shù)據(jù)提供了數(shù)據(jù)挖掘的“原材料”。該階段需要理解您的數(shù)據(jù)資源是什么,以及這些資源有何特征。


首先我們需要與業(yè)務部門以及數(shù)據(jù)管理員確定:

(1)在他們的認知當中,哪些數(shù)據(jù)可以用來預測客戶流失?

(2)哪些數(shù)據(jù)是已經(jīng)在咱們的系統(tǒng)當中?

(3)是否有一些重要的影響因素還沒記錄或者需要一定代價才能獲?。?/span>


另外如果咱們的數(shù)據(jù)量特別的大,這個時候也可以借助抽樣的方式進行一些簡單的探索。


在確定好分析的數(shù)據(jù)源后,我們還需要確定這些數(shù)據(jù)當中每個指標的業(yè)務含義是什么,了解業(yè)務含義和統(tǒng)計口徑對于我們后續(xù)分析非常的重要,這決定了我們對數(shù)據(jù)的處理方式,另外在很多的項目當中,不同數(shù)據(jù)源獲取的同一指標數(shù)據(jù),統(tǒng)計口徑經(jīng)常會存在一定的差異。


例如在電信行業(yè)里面會有“高峰時期電話數(shù)”這個指標,設置這個指標的業(yè)務根據(jù)是什么?例如:高峰時期的定義是從什么時候到什么時候?這個指標是按天統(tǒng)計,按周統(tǒng)計還是按月統(tǒng)計?這個指標是計算呼入還是呼出,還是一并統(tǒng)計?


最后,我們還需要對數(shù)據(jù)進行一定的探索性分析。

1、一般我們會先對數(shù)據(jù)質(zhì)量進行分析,例如:

(1)缺失值:對于分類字段,缺失值處理我們可以選擇眾數(shù),連續(xù)字段可以選擇平均值/中位數(shù),或者通過回歸進行插補。

(2)極值,離群值:查看連續(xù)字段是否擁有極值和離群值,我們一般用n倍標準差定義。對于這些離群值,我們可選擇:刪除記錄,把離群值進行代替,一般我們可以用公式代替:




另外,如果離群值數(shù)量比較多,也可以考慮單獨把離群值數(shù)據(jù)單獨抽取出來單獨分析。

(3)我們也需要查看分類型指標里面的種類數(shù)量有多少:例如一個分類指標如果超過上百個分類的話,明顯就會存在問題,這時候我們可以考慮:過濾該字段,對字段采取合并等方式。這個問題在我們研究商品分類中特別常見。


以上是數(shù)據(jù)質(zhì)量的簡單介紹。


2、進一步地,我們也可以借助分布圖,箱線圖地查看數(shù)據(jù)的分布情況,查看數(shù)據(jù)分布是否符合一般認知。


3、還有的是,我們可以結(jié)合數(shù)據(jù)的偏度和峰度進行輔助分析,同時也會計算算式平均值,中位數(shù),1/4分位數(shù)以及3/4分位數(shù)等常用的統(tǒng)計指標。


4、當然,進行數(shù)據(jù)探索,我們在這個階段也可以進行一些簡單的數(shù)據(jù)分析,例如計算相關系數(shù)矩陣(統(tǒng)計指標之間的關系),也可以簡單做一些t檢驗以及卡方檢驗幫助我們進行一些變量篩選,在一個工業(yè)項目中,我們就試過用t檢驗選擇連續(xù)變量,卡方檢驗選擇分類變量。


另外值得注意的是,當數(shù)據(jù)分布與業(yè)務認知存在一定沖突的時候,也不一定是數(shù)據(jù)質(zhì)量存在問題,相反應該細心求證出現(xiàn)偏差的原因,這些不一致的情況或者說異常往往代表了一個好的切入點。


這個切入點通常就是項目當中比較好玩的地方了。例如我們在一個客戶的項目當中也曾遇到過下面某地市門店他們存在大量深夜交易。(深夜11點,一個買衣服的品牌)


最后我們就發(fā)現(xiàn),這是因為店長習慣晚上下班后一次性對交易進行錄入,她告訴我們這樣很方便。也遇到過會員系統(tǒng)當中存在會員積分比起平均積分要高幾十倍的會員。


你以為我們找到了超級會員嗎~最后發(fā)現(xiàn)是店員把非會員的購買都算到自己偷開的會員卡中(這個事情在業(yè)務上不一定是錯的)。另外我們也遇到了一些購買數(shù)量特別高的人群,最后我們單獨把這類人群單獨拿出來分析。




在對數(shù)據(jù)進行充分理解的基礎上,我們就要生成能夠滿足數(shù)據(jù)挖掘需要的數(shù)據(jù)寬表。在此階段,我們需要集中精力在數(shù)據(jù)準備上,往往一個項目超過60%的時間都放在數(shù)據(jù)理解和數(shù)據(jù)清洗上面。


我經(jīng)常和項目成員說,一個項目里面60%時間都是用于數(shù)據(jù)準備上面,你覺得剩下的40%是什么?


你以為剩下的40%是建模分析?其實10%才是建模分析,剩下的30%都是用來吐槽數(shù)據(jù)質(zhì)量問題的。因為在上面已經(jīng)簡單討論了缺失值和離群值問題。一般除了這些,我們還需要:

(1)處理無效值:如未知,如年齡顯示100,一般采取與缺失值類似的方式;

(2)    修改不合規(guī)字段:如某些記錄后面出現(xiàn)空格:如套餐198  ;

(3)編碼方式/統(tǒng)計口徑不一致的問題:如統(tǒng)計方式,統(tǒng)計范圍,統(tǒng)計單位等。


進一步地,通常我們在做好數(shù)據(jù)清洗后,我們要對數(shù)據(jù)進行一系列的加工,生成一張用于數(shù)據(jù)挖掘用的寬表。


值得注意的是這是一個需要不斷調(diào)整優(yōu)化的過程,舉個例子有可能原始的變量個數(shù)有50個;通過我們對變量的轉(zhuǎn)換和衍生,生成了100個變量;最后通過對業(yè)務的理解,模型的測試,從100個變量當中選擇新的50個變量進行分析。


這里介紹一些咱們常用數(shù)據(jù)轉(zhuǎn)換方式:

1、單變量自身轉(zhuǎn)換:

(1)連續(xù)變量轉(zhuǎn)為為連續(xù)變量:如出于計量和比較進行轉(zhuǎn)換,如轉(zhuǎn)換單位:通話小時數(shù)->通話分鐘數(shù)的;出于對數(shù)據(jù)分布修訂的轉(zhuǎn)換,如:對數(shù)據(jù)對數(shù)轉(zhuǎn)換;為了使不同量綱或者不同數(shù)量級的數(shù)據(jù)能夠很好地進行對比,對數(shù)據(jù)標準化(原始值-平均值)/標準差,一般在聚類的時候,對數(shù)據(jù)先進行標準化也是一種必要手段;

(2)連續(xù)變量轉(zhuǎn)換為離散變量:一般這種轉(zhuǎn)換會損失一定的信息,但是出于業(yè)務更好理解的考慮或者算法的需要,采取的措施一般是利用分箱處理,一般可以選擇等距離分箱或者等數(shù)量分箱,也有利用分布進行分箱的;

(3)離散變量轉(zhuǎn)換為連續(xù)變量:這種方式我比較少用,一般只是一些有序的分類變量轉(zhuǎn)換為1,2,3,4;

(4)離散變量轉(zhuǎn)換為離散變量:一般用于一個變量當中包含有多個類別,我們對變量采取合并,例如運營商信息的省份字段,我們可以把省份歸納為東部,西部,南部等,也可以按照經(jīng)濟水平進行區(qū)分。


除了單變量的衍生,我們更多的還有變量之間的衍生。


2、變量之間的衍生


(1)匯總型指標:這個大家比較常見,例如我們統(tǒng)計一個客戶在過去一年當中的消費/通話行為,例如計算一年內(nèi)通話時長的總和,平均值,最大值,最小值,1/4分位數(shù),3/4分位數(shù),標準差,通過這些指標,我們希望整體判斷通話狀況;值得注意的是,這里面的指標我們一般只會選擇少量假如模型,因為這些指標間本身也有比較強的相關關系,很可能導致多重共線性的問題,雖然我對這個問題一般比較看得開。

(2)強度相對指標:簡單的如平均通話時長,就是用總的通話時間/通話次數(shù)所得,我們希望用這個指標側(cè)面了解每個客戶的通話習慣。

(3)比例相對指標:就是直接反映總體總各部分的比例關系,這在客戶行為研究用得特別的多,例如我們分析一個客戶在閑時的通話時長占總體的比例,在周末通話時長占總體的比例等等,一般這種指標用于區(qū)分客戶群體比較有用。

(4)時間對比指標:一般如果我們的原始數(shù)據(jù)包含幾年的數(shù)據(jù)記錄,我們就可以同比(16年5月通話時長/15年5月通話時長)或者環(huán)比(16年5月對于16年4月),這種指標在專門的時序分析中用得比較多,相對而言在其他方面比較少,一般我們更喜歡用趨勢型指標代替時間對比指標。

(5)趨勢型指標:在客戶研究當中,尤其是研究客戶價值/客戶生命周期這兩個主題當中,趨勢類指標特別重要,例如我們希望了解每個客戶的通話時長/交易金額從歷史到現(xiàn)在,是一個向上的趨勢,還是一個向下的趨勢。這種指標非常有助于我們判斷客戶的生命周期價值實在提升還是存在潛在的流失可能,因為會借助回歸分析方法(月份為自變量,每月通話時長/話費為因變量),最后得回歸系數(shù)作為該指標。當然,這樣的回歸分析很有可能違反回歸的前提條件,但是我們發(fā)覺這種指標在實際應用層面有很大的幫助。

(6)波動指標:另外除了研究變化趨勢,我們也可以研究數(shù)據(jù)的波動情況,一般我們可以用標準差或變異系數(shù)來反映;這里大家可以消化一下。數(shù)據(jù)理解和清洗大概到這里。但是一般我們遇到的數(shù)據(jù)問題和需要的手段一般還是復雜。有時候,可能真是靠靈感突然讓你想到一個很好的衍生指標。我真的試過有個問題一直解決不了,然后洗澡到一半突然想到一個解決方法,最后竟然解決了。就像我剛剛說的趨勢指標,這個就是明顯違反回歸的前提條件的。一般情況下,你需要根據(jù)數(shù)據(jù)理解然后發(fā)現(xiàn)一些問題,先對大面積問題批量化處理,再選擇性解決。獨立性什么的基本不能滿足的了。




我們來談一下模型

在第一次準備好數(shù)據(jù)后,就可以開始嘗試建模了,接下來,我稍稍啰嗦一點介紹一些基本概念。很遺憾,這里我不能給大家說說每個算法,因為每個算法真的能講一個晚上,有時候回想,你會覺得有些設計太巧妙了。




這里咱們針對有監(jiān)督學習的。建立統(tǒng)計學習模型,簡單是指利用一個(或多個)輸入變量(一般稱為為自變量,預測變量)通過擬合適當?shù)年P系式來預測輸出變量(也稱因變量,響應變量)的方法。其中f(x)是我們希望探求的關系式,但一般來說是固定但未知。


盡管f(x)未知,但是我們的目標就是利用一系列的統(tǒng)計/數(shù)據(jù)挖掘方法來盡可能求出接近f(x)的形式,這個形式可以是一個簡單的線性回歸模型(y=a bx),也可能是一個曲線形式(y=a b(x的平方)),當然也有可能是一個神經(jīng)網(wǎng)絡模型或者一個決策樹模型。


而對于隨機誤差項,這是指測試過程中諸多因素隨機作用而形成的具有抵償性的誤差,它的產(chǎn)生因素十分復雜,可能是溫度的偶然變動,可能是氣壓的變化,也可能是零件的摩擦。例如咱們在測量身高的時候,就可能因為測量人員的輕微手震帶來的隨機誤差。


和業(yè)務人員探討,調(diào)研,把這個指標和其他相關指標結(jié)合分析,看看是否有不明確的關聯(lián);了解這一點后,我們還需要更加明確我們建立模型的應用目標,這將很大程度上決定了我們選擇什么類型的模型。一般在商業(yè)實踐當中,我們可以把統(tǒng)計/挖掘任務簡單劃分為預測和控制。


預測還是控制,這個很重要。但是其實也可以說沒有那么重要,后面解釋。



在預測任務中,我們希望模型盡可能地精確,相反預測模型f的形式可能是一個黑箱模型(即模型的本身我們不能很好的解釋或者并不清楚,我們更加關心這當中的輸入和輸出,并不試圖考察其內(nèi)部結(jié)構),只要能夠提高我們的預測精度我們就認可達到目的了。


一般認為,神經(jīng)網(wǎng)絡模型屬于黑箱模型,如幾年前Google X實驗室開發(fā)出一套具有自主學習能力的神經(jīng)網(wǎng)絡模型,它能夠從一千萬中圖片中找出那些有小貓的照片。在這里,輸入就是這一千萬張圖片,輸出就是對于這些圖片的識別。


未到18歲的請?zhí)^下面內(nèi)容~上周,著名人工智能公司Clarifai推出了能夠識別成人內(nèi)容的模型,該模型能夠識別出含有裸體和半裸體的圖片和視頻。這里面用到的也是卷積神經(jīng)網(wǎng)絡。




除了預測認為,在控制任務中,我們希望盡可能地刻畫清楚X與Y的關系。




在這里,預測結(jié)果固然重要,但是我們也十分關心模型的形式具體是怎么樣,或者借助統(tǒng)計挖掘模型幫助我們生成了怎樣的判別規(guī)則。


例如在銀行業(yè),我們希望通過客戶的個人信用信息來評價個人的借貸風險,這就要求我們不但能夠回答這個客戶的風險是高是低,還要求我們回答哪些因素對客戶風險高低有直接作用,每個因素的影響程度有多大。


咱們再回到剛剛的電信客戶流失分析中。在模型的選擇上,我們一般可以從業(yè)務思路,模型準確性以及應用方式考慮。


1、業(yè)務思路:針對客戶流失例子一個直觀的想法:因為我們的目標變量是否流失屬于分類字段,因此我們可以通過分類算法把流失客戶以及留存客戶進行劃分;進一步地,我們還希望了解客戶的流失特征或者流失路徑,我們也就選擇了分類算法中的決策樹C5.0進行建模。

當然,咱們也可以嘗試通過聚類算法將整體客戶群組進行市場細分(例如k-means),嘗試能否得出具有高流失可能性的群組,不過該方法一般我們都用作補充研究。


2、模型準確性:針對同樣的問題甚至同類型的場景,現(xiàn)在往往有多種算法都能夠?qū)崿F(xiàn)。具體到不同的應用場景,不同模型結(jié)果的準確性往往存在較大差異,因此我們應該結(jié)合數(shù)據(jù)特征,算法優(yōu)勢,針對性地選擇合適的建模技術,一個數(shù)據(jù)挖掘項目往往需要通過多次嘗試,才能選擇出適合的算法;

例如有人喜歡SVM,因為有著穩(wěn)定的準確率,而且也有著優(yōu)美的公式。有人喜歡Logistic,因為它的關系的刻畫特別的清楚;有人喜歡決策樹,模型能夠非常簡潔,容易解釋并且往往準確率也不錯;


3、應用方式:正如前文所說,數(shù)據(jù)挖掘任務一般分為預測任務和控制任務。在有的時候,我們可能希望用神經(jīng)網(wǎng)絡模型,盡管它更像一個黑盒子,預測結(jié)構難以解釋,但是預測效果一般比較精確;而在有的時候,我們可能希望使用決策樹模型,因為它它以規(guī)則的方式來展現(xiàn)結(jié)果,非常易于分析人員進行解讀。


好了,接下來就解釋,為什么剛剛說分清咱們的任務是預測還是控制這么重要。在我們幫助一些企業(yè)做項目的時候,盡管他們會強調(diào)自己的想要做預測,但實際上他們對“可理解性“的要求是非常的高,這在一些非科技互聯(lián)網(wǎng)類的企業(yè)中尤其明顯。


他們希望深入理解關系式背后的業(yè)務邏輯,同時希望能夠借助數(shù)據(jù)關系幫助他們進一步優(yōu)化改善業(yè)務體系,例如在傳統(tǒng)的信用風險評估當中,Logistic就應用得非常的廣泛。


關于模型的具體介紹,考慮到時間有限,每個模型都可以說一整天,我覺得咱們可以以后互相交流討論,這里我想和大家特別談的一點是,模型不是死板的,它可以存在多種變體,例如我們在討論流失分析的時候,就嘗試使用聚類算法試圖找出一個高流失的客戶群。


這里我再舉一個大家常見的非常簡單的模型做一個舉例,RFM模型相信大家都非常熟悉了,根據(jù)最近購買時間,購買頻次以及購買金額,然后進行評分,一般來說,每個維度打分從1-5,最后根據(jù)這個評分我們就可以評價客戶價值。


大家現(xiàn)在可以回憶一下RFM,想想RFM可以做什么。剛剛我們說我們RFM可以研究客戶價值,但是在實際應用中可以是千差萬別的。


首先對于不同的企業(yè)來說,他們的顧客購買行為是可以差異非常大的(例如賣食品的,賣鞋的,賣家電真的差很遠),那么我們對于RFM模型的三個維度,我們的權重設置得一樣合適嗎?不合適,因此我們需要根據(jù)業(yè)務需要修改三個維度的權重;更進一步,RFM每個維度5個評級,一共可以由125種分類,分類數(shù)量是不是太多?咱們是不是可以結(jié)合聚類分析,嘗試把125個子群體進行合并再打上標簽會更好;打上標簽后,為了演示直觀,咱們是不是可以通過篩選更多的特征,然后用雷達圖顯示不同客戶群體的特征會更加直觀?


咱們還可以再進一步,咱們都說RFM應該評價顧客,那咱們是否可以用RFM評價商品價值?


完全可以!更進一步,可能F頻率和M金額都比較好定義,但是對于定義最近購買時間對于商品來說就不合適了,大部分商品很可能一天會出售多次;那怎們辦,那咱們就可以嘗試以這個商品出現(xiàn)在每個小票的最后時間求平均作為代替。


所以我想說的是,在實際的數(shù)據(jù)挖掘項目當中,我們建立的模型絕不僅僅只是一個算法以及參數(shù)的調(diào)整,更加重要的是業(yè)務知識的結(jié)合和分析邏輯的構建。


再來講一下模型評價



嗯,好了,通過一系列的數(shù)據(jù)挖掘工作,在咱們的客戶流失分析模型中,已經(jīng)得到一個精確率較高并且有一定業(yè)務解釋能力的決策樹C5.0模型。但是我們還不能直接部署,我們還需要對其進行一定的評估。


一般來說從技術上,我們可以通過一系列的模型評估手段。




對于模型評估,我們可以采取一些常用的指標進行判讀:



這個指標非常直觀,就是直接描述模型的總體準確情況。但一般我們對于分類項目來說,我們其實更更加關注其中的某個特定類別,而不是整體準確率?;氐嚼与娦爬颖旧?,我們更加關心的是對于流失客戶的預測是否正確,因此我們需要一個更加關注特定類別的指標。




正如上面所說,我們更加關心究竟我們對于客戶流失的預測是怎樣的,所以引入一個命中率,它主要反映了我們目標類別的預測準性。例如建模人員提供了一份100人的流失名單,那命中率研究的是,在這份名單中有多少客戶是真正流失了的;




正如我們前面所說僅僅關注準確率很有可能產(chǎn)生一種模型很好的幻覺。模型查全率反映的是,在我們在所有的目標類別當中,我們實際找到了多少了。


舉個例子,上面咱們提到了命中率,咱們提到分析人員提供了一份100人的流失名單,假如其中準確率也非常的高,有80人事真正的流失,命中率達到80%;但是假如我們的數(shù)據(jù)集里面最終是由1000人流失的話,那么我們就只是發(fā)現(xiàn)其中的8%。另外除了指標法,技術評估上,我們一般也會借助增益圖和提升圖,采用圖形的方式也能更加直觀評估結(jié)果。




其中,紅色的線我們稱之為基線,它總是一條45度角的直線,而藍色的先我們稱之為增益線,它代表模型預測結(jié)果的優(yōu)劣。增益線下的面積越大,效果越好。


當然,除了上述的技術評估手段,在實際項目當中,我們還需要結(jié)合業(yè)務判斷。例如在咱們的流失分析中,我們可以導出規(guī)則特征以及流失名單與業(yè)務人員進行分析探討,驗證模型可靠性;


另外,在此階段,我們也應該重新回顧整個數(shù)據(jù)挖掘過程,確保中途沒有出現(xiàn)技術偏差;


到了應用階段:




先談基本的問題:經(jīng)過前面一系列的努力,我們已經(jīng)得到一個經(jīng)過初步驗證認為有效的數(shù)據(jù)挖掘模型,我們要開始設計策略進行模型應用及預演,可能包括的手段會有:

1、生成客戶流失名單,并結(jié)合市場細分以及業(yè)務經(jīng)驗,選擇重點關注客戶;

2、選擇并識別當中的流失比例最高的規(guī)則以及高價值客戶的流失規(guī)則,針對該規(guī)則設計針對性的改善措施以及營銷措施;

3、根據(jù)分析結(jié)果以及挽留成本設計具體計劃,并計算預期收益;

4、設計監(jiān)測和模型維護計劃,用于后續(xù)模型優(yōu)化。千萬不要忘記這一點。這是經(jīng)常遺漏的一個步驟。


實際項目中,雖說咱們這是最后一步,但其實對于企業(yè)來說,只是完成了一半,而結(jié)果部署將是剩下來的另外一半。雖然說,咱們項目似乎差不多到尾聲了,但是我想說對于企業(yè)來說,真的只是一半。


首先把最后的分析結(jié)果與業(yè)務人員(或其他主導部門)進行溝通并取得一致將是第一個難點,所以在前面模型選擇那部分,很多時候咱們選擇可解釋性強模型的原因。


設身處地,你是一線的業(yè)務能手。有一天,有個數(shù)據(jù)分析人員(盡管你知道他學歷很高)跟你說,你這樣投廣告是錯的,應該是這樣這樣投,這是咱們分析過的。你是業(yè)務人員怎么想?而如果咱們選的還是一個黑盒子模型~,嗯,你懂的。


更進一步,取得一致后,怎么落實商業(yè)策略并監(jiān)控是需要投入人力和財力成本的,所以往往一個好的分析項目也常常需要配套好的業(yè)務策略,實際上,很多項目往往會在這方面出現(xiàn)問題。


舉個例子:例如某快消企業(yè)的分析部門通過研究測試,發(fā)現(xiàn)該公司旗下某個系列產(chǎn)品的定位存在一定的偏差,建議從研發(fā)和廣告投入上需要重新定位,并且出了一份詳細的調(diào)研及分析報告并附上建議。但是很多情況下,這些建議最終只會被業(yè)務部門采納10%,甚至不到。


在實際當中,分析團隊與業(yè)務部門保持良好的溝通和充分的信任,是非常非常重要的一件事情。


實際上,在真正的數(shù)據(jù)挖掘應用中,我們還會遇到很多的問題,例如數(shù)據(jù)不平衡,例如變量選擇等等,由于時間的關系,這里不能一一而足。如果要我談其中的核心,我會說的是,我們需要盡可能站在更高的角度,更有體系化的考慮問題。


這句話的詳細解釋是:我們需要有戰(zhàn)略層面的眼光去考慮,假如我們研究顧客,那我們考慮的是360度的客戶視圖,我們希望洞察客戶,希望實現(xiàn)以客戶為中心的轉(zhuǎn)型。與此同時落實到操作層面,需要考慮這些客戶畫像的分析主題(從客戶獲取,到客戶營銷響應,交叉營銷,客戶價值分析,生命周期管理,社交認知分析,客戶流失分析等)的業(yè)務價值落腳點(業(yè)務應用方式和收益)和實現(xiàn)難度(數(shù)據(jù)難度和模型難度),做好長期戰(zhàn)略規(guī)劃的同時,兼顧小步快跑,快速迭代。


數(shù)據(jù)科學家要的是:業(yè)務知識 算法知識 編程技能。


關于數(shù)據(jù)科學的商業(yè)應用大概到這里,下面還有一個部分就是我的個人學習推薦。


主要是一些推薦材料,在理論知識方面。最主要的可能是統(tǒng)計學和概率論知識。


1、統(tǒng)計學/概率教學:

(1)課程:有個推薦是:可汗學院的統(tǒng)計學以及概率課程,我會評價的是,這些課程很粗暴直接。




(2)具體到一些參考書:

a.統(tǒng)計學(作者:William Mendenhall/Terry Sincich)



b.統(tǒng)計學(作者:賈俊平、何曉群、金勇進)


 *第一本偏應用,第二本理論多點


較深的話,會有:


c.統(tǒng)計推斷 (作者:William Mendenhall / Terry Sincich )——非常經(jīng)典經(jīng)典的統(tǒng)計學教材,借用介紹“從概率論的基礎開始,通過例子與習題的旁征博引,引進了大量近代統(tǒng)計處理的新技術和一些國內(nèi)同類教材中不常見而又廣為使用的分布。其內(nèi)容既包括工科概率入門、經(jīng)典統(tǒng)計和現(xiàn)代統(tǒng)計的基礎,又加進了不少近代統(tǒng)計中數(shù)據(jù)處理的實用方法和思想”。我會用“漂亮”來形容它。



2、統(tǒng)計學/概率論/機器學習需要一定的數(shù)學知識,其中比較重要的數(shù)矩陣部分。

(1)課程:大家還是可以看可汗學院的線性代數(shù)課程

(2)參考書:

a.線性代數(shù)(第四版) :比較經(jīng)典的線性代數(shù)參考書了,很多學校的線代教材乃至于研究生入學考試很多人都會選用這本。這本書線性代數(shù)我個人是一半一半,我再想想可能會推薦另外一本。



3、在機器學習方面:

(1)課程:我推薦的是吳恩達的機器學習,大家可以上Coursera或者網(wǎng)易公開課上面觀看,我是非常強烈的推薦這門課程。


另外我想談一點,大家在看一種方法的時候要從機器學習和統(tǒng)計學兩個方面去理解。例如我是統(tǒng)計學出身,我在看Andrew課程的時候,我就經(jīng)常有恍然大悟的感覺。反過來,你是cs出身的,我希望你不要忽視統(tǒng)計學中的一些精華,舉個例子,p值雖然被用爛了,但是遠遠未到不值得重視的地步。


(2)機器學習的書籍上:

a.數(shù)據(jù)挖掘?qū)д摚哼@本書優(yōu)點是很全,缺點也是很全,但卻難得一見的入門教材,有一定難度,但是對于我們構建自身的統(tǒng)計挖掘體系有很大幫助。體系很重要!



b.《統(tǒng)計學習方法》(作者:李航):這本書也是我的心頭好



c.《機器學習》(作者:周志華)

    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多

    国产一级精品色特级色国产| 在线观看免费无遮挡大尺度视频| 少妇肥臀一区二区三区| 黑鬼糟蹋少妇资源在线观看| 日韩无套内射免费精品| 国产丝袜极品黑色高跟鞋| 婷婷开心五月亚洲综合| 欧美欧美欧美欧美一区| 日韩国产亚洲欧美另类| 国产亚洲成av人在线观看| 在线免费国产一区二区三区 | 中国日韩一级黄色大片| 亚洲欧美一二区日韩高清在线| 欧美日韩最近中国黄片| 欧美精品二区中文乱码字幕高清| 欧美自拍系列精品在线| 国产极品粉嫩尤物一区二区| 色无极东京热男人的天堂| 精品欧美日韩一二三区| 黄色在线免费高清观看| 亚洲精品小视频在线观看| 久久永久免费一区二区| 在线免费不卡亚洲国产| 欧美日韩精品综合一区| 日本丁香婷婷欧美激情| 国产不卡视频一区在线| 亚洲欧洲一区二区中文字幕| 色欧美一区二区三区在线| 加勒比人妻精品一区二区| 欧美一区二区三区喷汁尤物| 亚洲欧洲一区二区中文字幕| 日本理论片午夜在线观看| 久久国产青偷人人妻潘金莲| 有坂深雪中文字幕亚洲中文 | 国产水滴盗摄一区二区| 国产成人精品国产亚洲欧洲| 好吊一区二区三区在线看| 国产一区二区熟女精品免费| 午夜视频免费观看成人| 欧美成人国产精品高清| 白丝美女被插入视频在线观看|