列線圖,也叫諾莫圖,在腫瘤研究的文章中隨處可見(jiàn),只要是涉及預(yù)后建模的文章,展示模型效果除了ROC曲線,也就是列線圖了。那么列線圖究竟是什么,列線圖怎么得到,從圖中我們可以得到哪些信息,帶著這些問(wèn)題,我們來(lái)閱讀下面的這篇文獻(xiàn),地址如下 >https://www.ncbi.nlm./pmc/articles/PMC4465353/ 1. 列線圖的定義 列線圖是腫瘤預(yù)后評(píng)估的常用工具,在醫(yī)學(xué)和腫瘤相關(guān)的期刊雜志上隨處可見(jiàn)。典型的做法是首先篩選患者的生物學(xué)特征和臨床指標(biāo)構(gòu)建一個(gè)預(yù)后模型,然后用列線圖對(duì)該模型進(jìn)行可視化。所以列線圖是預(yù)后模型的可視化形式,是回歸公式的可視化,一個(gè)典型的列線圖如下所示 在列線圖中,對(duì)于模型中的每一個(gè)自變量,不論是離散型還是連續(xù)型變量,都會(huì)給出一個(gè)表征該變量取值范圍的坐標(biāo)軸,在最上方有一個(gè)用于表征變量作用大小的軸,叫做Points, 每個(gè)變量通過(guò)自身取值范圍的坐標(biāo)軸的位置可以映射到該軸上,從而獲得對(duì)應(yīng)的作用大小的點(diǎn)數(shù),比如size為5時(shí),對(duì)應(yīng)的points為30左右。 對(duì)于一個(gè)特定的患者,將各個(gè)自變量的值映射到points軸上,然后累加,即可得到total points, 從而根據(jù)total points軸和因變量坐標(biāo)軸的位置關(guān)系,得到具體的因變量的值。比如上圖中total points為140時(shí),對(duì)應(yīng)的2年期的無(wú)復(fù)發(fā)生存率為20%。 通過(guò)列線圖,可以為每個(gè)患者提供一個(gè)精確的數(shù)字化的生存或者風(fēng)險(xiǎn)概率,可以輔助臨床醫(yī)生進(jìn)行決策,體現(xiàn)了個(gè)體化醫(yī)療的思想。 2. 列線圖的構(gòu)建 構(gòu)建列線圖,其實(shí)就是構(gòu)建預(yù)后模型,首選要明確以下3個(gè)模型 1. question,明確要研究的臨床問(wèn)題,其實(shí)就是確定自變量,要研究患者的哪些生物學(xué)指標(biāo),比如銅死亡或者鐵死亡基因,哪些臨床指標(biāo) 2. population,選擇合適的隊(duì)列,建模需要患者的生物學(xué)指標(biāo)和臨床特征,生存信息,這些數(shù)據(jù)從哪里來(lái),公共數(shù)據(jù)庫(kù)還是自己積累的隊(duì)列數(shù)據(jù)。為了更好的擬合模型,是準(zhǔn)備了單個(gè)隊(duì)列還是有多個(gè)隊(duì)列信息,來(lái)檢驗(yàn)?zāi)P托Ч?/span> 3. outcome,明確臨床結(jié)局,比對(duì)通過(guò)建模研究患者預(yù)后的生存時(shí)間,還是復(fù)發(fā)風(fēng)險(xiǎn)等,選擇OS, RFS等臨床結(jié)局 步驟1和3確定了模型的自變量和因變量,通過(guò)步驟2確定了用于分析和建模的數(shù)據(jù),就可以開(kāi)始建模了。第一步是變量篩選,通過(guò)合適的方法選取用于建模的自變量集合,自變量太少會(huì)欠擬合,過(guò)多又容易出現(xiàn)過(guò)擬合的方法,因此變量篩選步驟非常的重要,顯著影響模型效果。注意,樣本的數(shù)量應(yīng)該是自變量個(gè)數(shù)的10倍以上。 經(jīng)過(guò)篩選,確定了用于建模的自變量集合之后,下一步就是確定模型,最常用的就是cox等比例風(fēng)險(xiǎn)回歸模型了。首先用訓(xùn)練集數(shù)據(jù)建模,然后用額外的驗(yàn)證集或者交叉驗(yàn)證的方法進(jìn)行評(píng)估。 3. 模型的性能 驗(yàn)證模型性能,最佳實(shí)踐是用多個(gè)隊(duì)列數(shù)據(jù)進(jìn)行驗(yàn)證,所以一般需要三個(gè)數(shù)據(jù)集 1. 訓(xùn)練集 2. 內(nèi)部驗(yàn)證集 3. 外部驗(yàn)證集 通過(guò)驗(yàn)證,可以發(fā)現(xiàn)模型過(guò)擬合等問(wèn)題,從而采取減少變量等措施來(lái)改進(jìn)模型。模型構(gòu)建好之后,我們還要進(jìn)一步評(píng)估模型的性能,這個(gè)模型性能有多好,是不是可以接受,才是就需要借助特定的性能指標(biāo),主要有一下幾種 1)discrimination 區(qū)分度,描述一個(gè)模型正確區(qū)分發(fā)生了對(duì)應(yīng)臨床結(jié)局和沒(méi)有發(fā)生臨床結(jié)局患者的能力,用concordance index來(lái)表征,簡(jiǎn)稱CI, 其本質(zhì)就是ROC曲線下面積AUC,取值范圍為0.5-1。 2)Calibration 校準(zhǔn)度,描述一個(gè)模型預(yù)測(cè)個(gè)體發(fā)生臨床結(jié)局的概率的準(zhǔn)確性。在實(shí)際應(yīng)用中,通常用校準(zhǔn)曲線來(lái)表征。校準(zhǔn)曲線展示了模型預(yù)測(cè)值與實(shí)際值之間的偏差,一個(gè)典型的校準(zhǔn)曲線示例如下 橫軸表示模型預(yù)測(cè)的不同臨床結(jié)局概率,縱軸表示實(shí)際觀察到的患者的臨床結(jié)局的概率,用中位數(shù)加均值的errorbar 形式表征,并繪制了一條斜率為1的理想曲線作為參照,實(shí)際曲線越接近理想曲線,表明模型預(yù)測(cè)結(jié)果與實(shí)際結(jié)果的偏差越小,模型效果高好。 通過(guò)校正曲線,可以比較不同模型預(yù)測(cè)概率之間的準(zhǔn)確性的差別,比如20%比80%準(zhǔn)確。需要注意的是,校準(zhǔn)曲線是在特定隊(duì)列數(shù)據(jù)上得到的,是一個(gè)模型在一個(gè)具體的隊(duì)列上的體現(xiàn),因此是隊(duì)列特異性的。 3)decision analysis curves 決策分析曲線,即DCA曲線,評(píng)價(jià)的是模型的臨床實(shí)用性,典型的DCA曲線如下圖所示 圖中有3條曲線對(duì)應(yīng)3種模型,核心是我們構(gòu)建的預(yù)后模型,而另外兩條就是輔助決策的模型,一條表示患者全部發(fā)生臨床結(jié)局,另一條表示患者全部沒(méi)有發(fā)生臨床結(jié)局。橫坐標(biāo)是閾值概率,縱坐標(biāo)是凈收益,凈收益用真陽(yáng)性比例減去假陽(yáng)性比例的差值,再乘以一個(gè)權(quán)重系數(shù)得到,這個(gè)權(quán)重系數(shù)是假陽(yáng)性和假陰性兩種臨床后果的相對(duì)危害。 通過(guò)上圖可以看到,當(dāng)概率小于5%或者大于50%時(shí), 預(yù)后模型的凈收益與另外兩條曲線幾乎沒(méi)差別,因此模型在這些區(qū)間是無(wú)助于臨床決策的。 4. 列線圖的限制 預(yù)后模型可以用于輔助決策,但也存在一定的局限性,比如 1)列線圖認(rèn)為生存結(jié)局隨著時(shí)間線性變化 2)列線圖的性能沒(méi)有統(tǒng)一的接受標(biāo)準(zhǔn) 3)列線圖對(duì)臨床決策的幫助和對(duì)患者滿意度的提高的作用不清楚 4)列線圖的高的理論性能并不代表好的臨床效應(yīng) 最后,列線圖作為預(yù)后模型的可視化方式,可以輔助臨床決策,但是前提是必須有清晰明了的臨床問(wèn)題和模型構(gòu)建,而且在應(yīng)用于臨床決策前,需要了解其性能和局限。只有這樣,列線圖才能更好的應(yīng)用于臨床。 |
|
來(lái)自: 生信修煉手冊(cè) > 《待分類》