在臨床研究分析中,機(jī)器學(xué)習(xí)的建模方法在數(shù)據(jù)量較大時(shí)展現(xiàn)出超越傳統(tǒng)統(tǒng)計(jì)方法的優(yōu)異表現(xiàn)。然而,對(duì)于大多數(shù)臨床研究員,合理利用機(jī)器學(xué)習(xí)仍然存在較高的門檻。今天介紹機(jī)器學(xué)習(xí)建模第一步:影響因子重要的排序。 01 為什么要進(jìn)行影響因子重要的排序? 事實(shí)上,重要度分析從屬于另一個(gè)更廣泛的主題——可解釋性機(jī)器學(xué)習(xí)。就其使用而言,重要度分析有兩種動(dòng)機(jī): (1)在建模之前對(duì)不同變量進(jìn)行粗糙挑選; (2)在建模之后對(duì)相關(guān)變量的貢獻(xiàn)進(jìn)行分析。 其中第二點(diǎn)將需要更一般性的解釋框架來解決,是一個(gè)學(xué)界和業(yè)界都在探討的共同前沿課題,我們機(jī)器學(xué)習(xí)分類和回歸模塊也有模型解釋性相關(guān)功能;而平臺(tái)現(xiàn)有的“影響因子重要度排序”則主要針對(duì)第一類需求設(shè)計(jì),也即進(jìn)行粗糙的變量挑選。 知識(shí)點(diǎn)補(bǔ)充 理論上:應(yīng)用機(jī)器學(xué)習(xí)建模時(shí),變量篩選使用的模型應(yīng)該和最終建模的模型保持一致,換言之,最可靠的變量篩選是posterior的,也就回到了一般性的解釋框架里,這是因?yàn)椴煌慕7椒▽?duì)變量的依賴程度不盡相同,其中最典型的例子就是多數(shù)tree-based模型(包括gradient boost,random forest),對(duì)數(shù)據(jù)的標(biāo)準(zhǔn)化幾乎沒有任何要求,但是基于線性回歸的方法則對(duì)變量的取值范圍非常敏感。 實(shí)際應(yīng)用上:出于對(duì)計(jì)算資源的考慮,變量預(yù)挑選往往會(huì)使用一個(gè)與最終建模模型不同的簡(jiǎn)化模型做近似處理,從而依賴近似模型而非建模模型本身進(jìn)行重要度分析?;谧罱K建模需求的不同,重要度分析簡(jiǎn)化模型的選取也可隨之調(diào)整。 02 回歸型建模重要度分析 針對(duì)回歸型建模需求,平臺(tái)提供了基于回歸系數(shù)的線性簡(jiǎn)化模型進(jìn)行重要度分析。平臺(tái)5種回歸方法,簡(jiǎn)單的介紹兩種方法及其適用情況如下: (1)Lasso線性回歸:Lasso回歸在變量剔除中往往更加有效——它會(huì)將部分變量的回歸系數(shù)調(diào)整為0,使得它們?cè)谧罱K擬合中被完全剔除,也因此常被應(yīng)用于變量篩選中。 (2)Ridge線性回歸:Ridge回歸在自變量中存在大量多重共線性(multicolinearity)時(shí)表現(xiàn)更好——所謂共線性,也就是指不同變量的相關(guān)性很高。 下圖是一個(gè)變量篩選的示例:選擇Lasso作為排序分析模型后,可進(jìn)一步指定最終顯示的重要度最高的變量個(gè)數(shù)數(shù)字。 自動(dòng)尋參功能開啟時(shí),平臺(tái)將自動(dòng)對(duì)不同超參數(shù)進(jìn)行比較(其中最重要的是正則化系數(shù))。 知識(shí)點(diǎn)補(bǔ)充 注意:線性回歸類模型對(duì)變量的范圍非常敏感,因此在進(jìn)行重要度分析時(shí),有必要提前對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。由于簡(jiǎn)化模型的線性屬性,變量的重要度將直接同回歸系數(shù)(絕對(duì)值)掛鉤。 03 分類型建模重要度分析 針對(duì)分類型需求,平臺(tái)提供8種方法,我們以分類中表現(xiàn)最佳的模型——XGBoost(極端梯度提升樹)進(jìn)行重要度分析,并且提供了多重指標(biāo),如權(quán)重重要度,(總)收益,(總)覆蓋,最終的排序主要依靠權(quán)重重要度。這些指標(biāo)的計(jì)算是基于對(duì)所有模型樹的所有分叉進(jìn)行的匯總。下圖是一個(gè)示例: 知識(shí)點(diǎn)補(bǔ)充 一般情況下,樹模型對(duì)變量范圍的依賴不高,所以即使不做標(biāo)準(zhǔn)化處理也可以得到較好的表現(xiàn)。但一些情況下選取標(biāo)準(zhǔn)化處理可以使得不同指標(biāo)的排序結(jié)果更加一致。 04 案例分析 本篇文章是一項(xiàng)臨床大樣本的回顧性研究,我們以這篇2021年發(fā)表在Frontiers in medicine(IF=5.091)上的文章《Application of Machine Learning Algorithms to Predict Central Lymph Node Metastasis in T1-T2, Non-invasive, and Clinically Node Negative Papillary Thyroid Carcinoma》進(jìn)行說明,本篇文章研究了利用機(jī)器學(xué)習(xí)模型來預(yù)測(cè)乳頭狀甲狀腺癌(PTC)患者中心淋巴結(jié)轉(zhuǎn)移(CLNM)的風(fēng)險(xiǎn)。 作者使用影響因子重要度排序比較了變量在機(jī)器學(xué)習(xí)算法中的相對(duì)重要性。我們可以看到一個(gè)明顯的總體趨勢(shì):雖然這些ML算法中變量的重要性略有差異,但包括Delphian淋巴結(jié)轉(zhuǎn)移,腫瘤大小,年齡,性別,多灶性在在內(nèi)的因素?zé)o疑排名前五。 相反,像雙側(cè)病變、腫瘤在中央或峽部中部的位置和CLT等變量對(duì)CLNM的預(yù)測(cè)貢獻(xiàn)很小。XGBoost模型中高級(jí)變量的重要性按降序排列如下:Delphian德爾淋巴結(jié)轉(zhuǎn)移,腫瘤大小,年齡,性別,多灶性和腫瘤位置。 結(jié)語(yǔ) 臨床研究的根本使命是發(fā)現(xiàn)并解決生命科學(xué)領(lǐng)域亟待解決的臨床問題,同時(shí),為即將發(fā)生的臨床難題提供備選解決方案。 打開極智分析—智能醫(yī)學(xué)統(tǒng)計(jì)分析平臺(tái) https://www./ 進(jìn)行實(shí)操吧! 點(diǎn)擊“閱讀全文”參加有獎(jiǎng)活動(dòng),內(nèi)含超大福利,不要錯(cuò)過哦! |
|