一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

機(jī)器學(xué)習(xí)建模第一步:影響因子重要度排序

 阮朝陽(yáng)的圖書館 2021-11-04
Image
Image

在臨床研究分析中,機(jī)器學(xué)習(xí)的建模方法在數(shù)據(jù)量較大時(shí)展現(xiàn)出超越傳統(tǒng)統(tǒng)計(jì)方法的優(yōu)異表現(xiàn)。然而,對(duì)于大多數(shù)臨床研究員,合理利用機(jī)器學(xué)習(xí)仍然存在較高的門檻。今天介紹機(jī)器學(xué)習(xí)建模第一步:影響因子重要的排序。

01 為什么要進(jìn)行影響因子重要的排序?

事實(shí)上,重要度分析從屬于另一個(gè)更廣泛的主題——可解釋性機(jī)器學(xué)習(xí)。就其使用而言,重要度分析有兩種動(dòng)機(jī):

(1)在建模之前對(duì)不同變量進(jìn)行粗糙挑選;

(2)在建模之后對(duì)相關(guān)變量的貢獻(xiàn)進(jìn)行分析。

其中第二點(diǎn)將需要更一般性的解釋框架來解決,是一個(gè)學(xué)界和業(yè)界都在探討的共同前沿課題,我們機(jī)器學(xué)習(xí)分類和回歸模塊也有模型解釋性相關(guān)功能;而平臺(tái)現(xiàn)有的“影響因子重要度排序”則主要針對(duì)第一類需求設(shè)計(jì),也即進(jìn)行粗糙的變量挑選。

知識(shí)點(diǎn)補(bǔ)充

理論上:應(yīng)用機(jī)器學(xué)習(xí)建模時(shí),變量篩選使用的模型應(yīng)該和最終建模的模型保持一致,換言之,最可靠的變量篩選是posterior的,也就回到了一般性的解釋框架里,這是因?yàn)椴煌慕7椒▽?duì)變量的依賴程度不盡相同,其中最典型的例子就是多數(shù)tree-based模型(包括gradient boost,random forest),對(duì)數(shù)據(jù)的標(biāo)準(zhǔn)化幾乎沒有任何要求,但是基于線性回歸的方法則對(duì)變量的取值范圍非常敏感。

實(shí)際應(yīng)用上:出于對(duì)計(jì)算資源的考慮,變量預(yù)挑選往往會(huì)使用一個(gè)與最終建模模型不同的簡(jiǎn)化模型做近似處理,從而依賴近似模型而非建模模型本身進(jìn)行重要度分析?;谧罱K建模需求的不同,重要度分析簡(jiǎn)化模型的選取也可隨之調(diào)整。

02 回歸型建模重要度分析

針對(duì)回歸型建模需求,平臺(tái)提供了基于回歸系數(shù)的線性簡(jiǎn)化模型進(jìn)行重要度分析。平臺(tái)5種回歸方法,簡(jiǎn)單的介紹兩種方法及其適用情況如下:

(1)Lasso線性回歸:Lasso回歸在變量剔除中往往更加有效——它會(huì)將部分變量的回歸系數(shù)調(diào)整為0,使得它們?cè)谧罱K擬合中被完全剔除,也因此常被應(yīng)用于變量篩選中。

(2)Ridge線性回歸:Ridge回歸在自變量中存在大量多重共線性(multicolinearity)時(shí)表現(xiàn)更好——所謂共線性,也就是指不同變量的相關(guān)性很高。

下圖是一個(gè)變量篩選的示例:選擇Lasso作為排序分析模型后,可進(jìn)一步指定最終顯示的重要度最高的變量個(gè)數(shù)數(shù)字。

自動(dòng)尋參功能開啟時(shí),平臺(tái)將自動(dòng)對(duì)不同超參數(shù)進(jìn)行比較(其中最重要的是正則化系數(shù))。

Image

知識(shí)點(diǎn)補(bǔ)充

注意:線性回歸類模型對(duì)變量的范圍非常敏感,因此在進(jìn)行重要度分析時(shí),有必要提前對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。由于簡(jiǎn)化模型的線性屬性,變量的重要度將直接同回歸系數(shù)(絕對(duì)值)掛鉤。

03 分類型建模重要度分析

針對(duì)分類型需求,平臺(tái)提供8種方法,我們以分類中表現(xiàn)最佳的模型——XGBoost(極端梯度提升樹)進(jìn)行重要度分析,并且提供了多重指標(biāo),如權(quán)重重要度,(總)收益,(總)覆蓋,最終的排序主要依靠權(quán)重重要度。這些指標(biāo)的計(jì)算是基于對(duì)所有模型樹的所有分叉進(jìn)行的匯總。下圖是一個(gè)示例:

知識(shí)點(diǎn)補(bǔ)充

一般情況下,樹模型對(duì)變量范圍的依賴不高,所以即使不做標(biāo)準(zhǔn)化處理也可以得到較好的表現(xiàn)。但一些情況下選取標(biāo)準(zhǔn)化處理可以使得不同指標(biāo)的排序結(jié)果更加一致。

04 案例分析

Image

本篇文章是一項(xiàng)臨床大樣本的回顧性研究,我們以這篇2021年發(fā)表在Frontiers in medicine(IF=5.091)上的文章《Application of Machine Learning Algorithms to Predict Central Lymph Node Metastasis in T1-T2, Non-invasive, and Clinically Node Negative Papillary Thyroid Carcinoma》進(jìn)行說明,本篇文章研究了利用機(jī)器學(xué)習(xí)模型來預(yù)測(cè)乳頭狀甲狀腺癌(PTC)患者中心淋巴結(jié)轉(zhuǎn)移(CLNM)的風(fēng)險(xiǎn)。

Image

作者使用影響因子重要度排序比較了變量在機(jī)器學(xué)習(xí)算法中的相對(duì)重要性。我們可以看到一個(gè)明顯的總體趨勢(shì):雖然這些ML算法中變量的重要性略有差異,但包括Delphian淋巴結(jié)轉(zhuǎn)移,腫瘤大小,年齡,性別,多灶性在在內(nèi)的因素?zé)o疑排名前五。

相反,像雙側(cè)病變、腫瘤在中央或峽部中部的位置和CLT等變量對(duì)CLNM的預(yù)測(cè)貢獻(xiàn)很小。XGBoost模型中高級(jí)變量的重要性按降序排列如下:Delphian德爾淋巴結(jié)轉(zhuǎn)移,腫瘤大小,年齡,性別,多灶性和腫瘤位置。

結(jié)語(yǔ)

臨床研究的根本使命是發(fā)現(xiàn)并解決生命科學(xué)領(lǐng)域亟待解決的臨床問題,同時(shí),為即將發(fā)生的臨床難題提供備選解決方案。

打開極智分析—智能醫(yī)學(xué)統(tǒng)計(jì)分析平臺(tái) https://www./ 進(jìn)行實(shí)操吧!

點(diǎn)擊“閱讀全文”參加有獎(jiǎng)活動(dòng),內(nèi)含超大福利,不要錯(cuò)過哦!

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多

    性感少妇无套内射在线视频| 日韩午夜老司机免费视频| 激情五月天深爱丁香婷婷| 精品人妻一区二区三区免费| 国产精品亚洲二区三区| 男女午夜视频在线观看免费| 老司机精品视频在线免费| 又色又爽又黄的三级视频| 伊人色综合久久伊人婷婷| 亚洲免费黄色高清在线观看| 中文字幕久热精品视频在线| 中文字幕精品一区二区三| 欧美一区二区三区性视频| 亚洲中文字幕剧情在线播放| 日本东京热加勒比一区二区| 成人免费高清在线一区二区| 国产精品视频久久一区| 国产又猛又黄又粗又爽无遮挡| 亚洲精品中文字幕熟女| 欧美一二三区高清不卡| 91精品国产综合久久精品| 成人午夜激情在线免费观看| 国产真人无遮挡免费视频一区| 久草视频在线视频在线观看| 国产精品成人一区二区在线| 欧美日韩一区二区三区色拉拉| 国产大屁股喷水在线观看视频 | 日韩精品一级一区二区| 国产一区二区三区口爆在线| 久久99精品国产麻豆婷婷洗澡 | 日韩精品视频香蕉视频| 欧美人禽色视频免费看| 精品推荐久久久国产av| 中文久久乱码一区二区| 欧美精品中文字幕亚洲| 日韩国产亚洲欧美另类| 嫩草国产福利视频一区二区| 亚洲欧美日韩色图七区| 国产一区二区三区精品免费| 视频在线观看色一区二区| 欧美国产精品区一区二区三区|