機(jī)器學(xué)習(xí)建模第一步：影響因子重要度排序

阮朝陽(yáng)的圖書館 2021-11-04

展開全文

在臨床研究分析中，機(jī)器學(xué)習(xí)的建模方法在數(shù)據(jù)量較大時(shí)展現(xiàn)出超越傳統(tǒng)統(tǒng)計(jì)方法的優(yōu)異表現(xiàn)。然而，對(duì)于大多數(shù)臨床研究員，合理利用機(jī)器學(xué)習(xí)仍然存在較高的門檻。今天介紹機(jī)器學(xué)習(xí)建模第一步：影響因子重要的排序。

01 為什么要進(jìn)行影響因子重要的排序？

事實(shí)上，重要度分析從屬于另一個(gè)更廣泛的主題——可解釋性機(jī)器學(xué)習(xí)。就其使用而言，重要度分析有兩種動(dòng)機(jī)：

（1）在建模之前對(duì)不同變量進(jìn)行粗糙挑選；

（2）在建模之后對(duì)相關(guān)變量的貢獻(xiàn)進(jìn)行分析。

其中第二點(diǎn)將需要更一般性的解釋框架來解決，是一個(gè)學(xué)界和業(yè)界都在探討的共同前沿課題，我們機(jī)器學(xué)習(xí)分類和回歸模塊也有模型解釋性相關(guān)功能；而平臺(tái)現(xiàn)有的“影響因子重要度排序”則主要針對(duì)第一類需求設(shè)計(jì)，也即進(jìn)行粗糙的變量挑選。

知識(shí)點(diǎn)補(bǔ)充

理論上：應(yīng)用機(jī)器學(xué)習(xí)建模時(shí)，變量篩選使用的模型應(yīng)該和最終建模的模型保持一致，換言之，最可靠的變量篩選是posterior的，也就回到了一般性的解釋框架里，這是因?yàn)椴煌慕７椒▽?duì)變量的依賴程度不盡相同，其中最典型的例子就是多數(shù)tree-based模型（包括gradient boost，random forest），對(duì)數(shù)據(jù)的標(biāo)準(zhǔn)化幾乎沒有任何要求，但是基于線性回歸的方法則對(duì)變量的取值范圍非常敏感。

實(shí)際應(yīng)用上：出于對(duì)計(jì)算資源的考慮，變量預(yù)挑選往往會(huì)使用一個(gè)與最終建模模型不同的簡(jiǎn)化模型做近似處理，從而依賴近似模型而非建模模型本身進(jìn)行重要度分析?；谧罱K建模需求的不同，重要度分析簡(jiǎn)化模型的選取也可隨之調(diào)整。

02 回歸型建模重要度分析

針對(duì)回歸型建模需求，平臺(tái)提供了基于回歸系數(shù)的線性簡(jiǎn)化模型進(jìn)行重要度分析。平臺(tái)5種回歸方法，簡(jiǎn)單的介紹兩種方法及其適用情況如下：

（1）Lasso線性回歸：Lasso回歸在變量剔除中往往更加有效——它會(huì)將部分變量的回歸系數(shù)調(diào)整為0，使得它們?cè)谧罱K擬合中被完全剔除，也因此常被應(yīng)用于變量篩選中。

（2）Ridge線性回歸：Ridge回歸在自變量中存在大量多重共線性（multicolinearity）時(shí)表現(xiàn)更好——所謂共線性，也就是指不同變量的相關(guān)性很高。

下圖是一個(gè)變量篩選的示例：選擇Lasso作為排序分析模型后，可進(jìn)一步指定最終顯示的重要度最高的變量個(gè)數(shù)數(shù)字。

自動(dòng)尋參功能開啟時(shí)，平臺(tái)將自動(dòng)對(duì)不同超參數(shù)進(jìn)行比較（其中最重要的是正則化系數(shù)）。

知識(shí)點(diǎn)補(bǔ)充

注意：線性回歸類模型對(duì)變量的范圍非常敏感，因此在進(jìn)行重要度分析時(shí)，有必要提前對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。由于簡(jiǎn)化模型的線性屬性，變量的重要度將直接同回歸系數(shù)（絕對(duì)值）掛鉤。

03 分類型建模重要度分析

針對(duì)分類型需求，平臺(tái)提供8種方法，我們以分類中表現(xiàn)最佳的模型——XGBoost（極端梯度提升樹）進(jìn)行重要度分析，并且提供了多重指標(biāo)，如權(quán)重重要度，（總）收益，（總）覆蓋，最終的排序主要依靠權(quán)重重要度。這些指標(biāo)的計(jì)算是基于對(duì)所有模型樹的所有分叉進(jìn)行的匯總。下圖是一個(gè)示例：

知識(shí)點(diǎn)補(bǔ)充

一般情況下，樹模型對(duì)變量范圍的依賴不高，所以即使不做標(biāo)準(zhǔn)化處理也可以得到較好的表現(xiàn)。但一些情況下選取標(biāo)準(zhǔn)化處理可以使得不同指標(biāo)的排序結(jié)果更加一致。

04 案例分析

本篇文章是一項(xiàng)臨床大樣本的回顧性研究，我們以這篇2021年發(fā)表在Frontiers in medicine（IF=5.091）上的文章《Application of Machine Learning Algorithms to Predict Central Lymph Node Metastasis in T1-T2, Non-invasive, and Clinically Node Negative Papillary Thyroid Carcinoma》進(jìn)行說明，本篇文章研究了利用機(jī)器學(xué)習(xí)模型來預(yù)測(cè)乳頭狀甲狀腺癌（PTC）患者中心淋巴結(jié)轉(zhuǎn)移（CLNM）的風(fēng)險(xiǎn)。

作者使用影響因子重要度排序比較了變量在機(jī)器學(xué)習(xí)算法中的相對(duì)重要性。我們可以看到一個(gè)明顯的總體趨勢(shì)：雖然這些ML算法中變量的重要性略有差異，但包括Delphian淋巴結(jié)轉(zhuǎn)移，腫瘤大小，年齡，性別，多灶性在在內(nèi)的因素?zé)o疑排名前五。

相反，像雙側(cè)病變、腫瘤在中央或峽部中部的位置和CLT等變量對(duì)CLNM的預(yù)測(cè)貢獻(xiàn)很小。XGBoost模型中高級(jí)變量的重要性按降序排列如下：Delphian德爾淋巴結(jié)轉(zhuǎn)移，腫瘤大小，年齡，性別，多灶性和腫瘤位置。

結(jié)語(yǔ)

臨床研究的根本使命是發(fā)現(xiàn)并解決生命科學(xué)領(lǐng)域亟待解決的臨床問題，同時(shí)，為即將發(fā)生的臨床難題提供備選解決方案。

打開極智分析—智能醫(yī)學(xué)統(tǒng)計(jì)分析平臺(tái) https://www./ 進(jìn)行實(shí)操吧！

點(diǎn)擊“閱讀全文”參加有獎(jiǎng)活動(dòng)，內(nèi)含超大福利，不要錯(cuò)過哦！

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：阮朝陽(yáng)的圖書館 > 《科研》

舉報(bào)/認(rèn)領(lǐng)