信貸風(fēng)險(xiǎn)和欺詐風(fēng)險(xiǎn)是消費(fèi)金融業(yè)務(wù)發(fā)展中最重要的兩種風(fēng)險(xiǎn),信息不對(duì)稱是導(dǎo)致這些風(fēng)險(xiǎn)的主要原因。 ▍用戶立體化呈現(xiàn)——多維數(shù)據(jù)采集tecdat深入分析用戶的基本屬性、社會(huì)屬性、消費(fèi)者行為、興趣偏好、社會(huì)偏好、資產(chǎn)特征、信用特征等數(shù)據(jù),通過(guò)數(shù)據(jù)挖掘,使用戶更加立體化地實(shí)時(shí)呈現(xiàn)。 ▍挖掘潛在的團(tuán)伙欺詐——社區(qū)發(fā)現(xiàn)算法一方面,基于機(jī)構(gòu)的存量數(shù)據(jù),運(yùn)營(yíng)商等數(shù)據(jù)構(gòu)建復(fù)雜的網(wǎng)絡(luò)。 同時(shí),采用社區(qū)挖掘算法實(shí)現(xiàn)風(fēng)險(xiǎn)分組。 在此基礎(chǔ)上,我們訓(xùn)練機(jī)器學(xué)習(xí)模型。 ▍建模的原材料——特征工程建模的第一步是特征工程,眾所周知,特征是機(jī)器學(xué)習(xí)建模的原材料,對(duì)最終模型的影響至關(guān)重要。數(shù)據(jù)和特征比模型更重要,數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)的上限,而模型和算法逼近這個(gè)上限。特征加工和衍生工作越完備,那么構(gòu)建的機(jī)器學(xué)習(xí)模型效果越好。但是,面對(duì)不同數(shù)據(jù),不同業(yè)務(wù)場(chǎng)景,特征加工衍生往往是最耗時(shí)間與資源的工作。 尤其在弱數(shù)據(jù)方面,充斥著大量文本、時(shí)序類數(shù)據(jù),人工特征定義的方法天然存在較大局限性。 tecdat引入基于機(jī)器學(xué)習(xí)的特征提取框架(如 random forest,SVM,CNN)來(lái)適應(yīng)不同的數(shù)據(jù)類型,自動(dòng)從大量復(fù)雜的非結(jié)構(gòu)化數(shù)據(jù)中產(chǎn)生高質(zhì)量的特征,完成模型訓(xùn)練后可以輸出特征的重要性,結(jié)合多種方法進(jìn)行特征選擇和解釋。 ▍和而不同——集成模型具體的模型,我們知道在弱勢(shì)數(shù)據(jù)的基礎(chǔ)上加工和衍生的特點(diǎn),機(jī)構(gòu)往往面臨很多特征維度,從數(shù)千到數(shù)萬(wàn)以上,非常稀疏。 超出了傳統(tǒng)風(fēng)控的基于評(píng)分卡系統(tǒng)的建模能力。 tecdat引入集成模型(ensemble models)來(lái)解決這個(gè)問(wèn)題。 集成模型從“投票”的思想簡(jiǎn)單的理解,也就是我們對(duì)不同類型的數(shù)據(jù)使用最合適的子模型(Logistic回歸,GBDT,CNN,xgboost), 然后每個(gè)子模式投票作出決策。能夠使整體模型的準(zhǔn)確度和防止過(guò)擬合的能力達(dá)到協(xié)調(diào),從而達(dá)到在總體上的最佳準(zhǔn)確度。 復(fù)雜的集成模式框架除了當(dāng)前場(chǎng)景和業(yè)務(wù)建模具有很好的表現(xiàn),其另一個(gè)重要價(jià)值在于可以快速應(yīng)用于新業(yè)務(wù)應(yīng)用,對(duì)“冷啟動(dòng)“階段有非常重要的作用。 最后,在線上信用貸場(chǎng)景實(shí)踐下來(lái),經(jīng)過(guò)多批次多個(gè)跨時(shí)間段的驗(yàn)證,可以看到,效果上還是有非常直接的提升,模型性能相比傳統(tǒng)模型提升了大約30%。 版權(quán)聲明:為拓端數(shù)據(jù)原創(chuàng)文章,未經(jīng)允許不得轉(zhuǎn)載! |
|
來(lái)自: 拓端數(shù)據(jù) > 《待分類》