連續(xù)變量納入模型如果變量和結(jié)果之間的關(guān)系是線性的,則可以在回歸方程中包含連續(xù)變量。 如果沒有,可以將其轉(zhuǎn)換為二分變量或有序分類變量,然后將它們放入回歸方程中。回歸模型中包含連續(xù)變量時,應盡可能將原始的連續(xù)變量包含在回歸模型中,并考慮實際需要將連續(xù)變量根據(jù)一些規(guī)則進行轉(zhuǎn)換,二分類分組、等距分組、根據(jù)臨床臨界值分組都是為了更好的專業(yè)解釋。 通過最優(yōu)截斷值分析,將連續(xù)變量轉(zhuǎn)化為分類變量,并將其作為啞變量引入回歸模型。在回歸模型中,連續(xù)變量可以以不同的方式表示。我們將列舉具體的例子說明。無論以何種方式呈現(xiàn),總的原則是更有利于專業(yè)的解釋和理解。 正態(tài)轉(zhuǎn)換
對連續(xù)變量采用固定增量的形式進行轉(zhuǎn)換如果連續(xù)變量以其原始形式直接引入模型,則回歸參數(shù)被解釋為因每個單位變化而產(chǎn)生的因變量變化的影響。然而,有時這種變化的影響可能是微弱的。 因此,我們可以將連續(xù)的自變量按固定的區(qū)間,以等距分組的形式轉(zhuǎn)化為一個分類變量,然后將它們引入到模型中進行分析,這一分組有助于患者更好地理解和應用。 例如,我們納入年齡在31歲到80歲之間的患者。我們可以根據(jù)每10年的年齡間隔將其分為31-40歲、41-50歲、51-60歲、61-70歲、71-80歲。然后,將已設(shè)置的五個啞變量納入到模型中進行分析。 但是,如果變量范圍很大,按照前面提到的方法進行分組,會導致分組過多,啞變量過多,這在分析過程中是相當冗余的。臨床解釋也會很困難。反之,數(shù)據(jù)變動范圍很小,無法進行更小單位的分組。 JACC文獻參考那么,當我們面對這兩種情況時,我們應該怎么做呢?在這里,我們可以參考發(fā)表在JACC,2016(19)的一篇文章。我們發(fā)現(xiàn),在模型中,作者使用了很多“per”單詞,如per 5% 改變、per 0.1 u 、per 100ml/min等,這是連續(xù)變量在每次變化中以固定增量的形式進行轉(zhuǎn)換,這種轉(zhuǎn)換以“per+改變間距+單位”的形式呈現(xiàn)。我們將在本文中演示兩個示例。攝氧效率斜率(評價成人心肺功能儲備的新指標)的平均值為1655u,5%-95%的人群在846-2800U之間,這確實是一個很大的變化范圍。如果將原始數(shù)據(jù)放入模型中,每1u的變化引起HR的變化很小,這在臨床上是沒有意義的。如果將其轉(zhuǎn)換為分類變量,將出現(xiàn)許多組。因此,作者將原始數(shù)據(jù)每變化100u的形式納入模型中,發(fā)現(xiàn)當每100u增加時,研究人群的死亡風險將降低9%(HR=0.91,95%CI:0.89–0.93)。另一個例子是Peak RER。中位數(shù)為1.08 U,5%-95%的人群范圍是0.91-1.27U間。這是一個很小的范圍。如果將原始數(shù)據(jù)帶入模型中,每1u的變化將導致HR的變化很大。在臨床實踐中,1u的改變是非常罕見的,這種結(jié)果的實用性非常有限。因此,作者將每0.1U的變化納入模型中,Peak RER每增加0.1U單位,研究人群死亡風險降低6%(HR=0.94,95%CI:0.86-1.04),但無統(tǒng)計學意義。 那么我們具體怎么做這種轉(zhuǎn)換呢?如果我們想把變量從每增加1個單位改為每增加100個單位,我們只需要將原始變量除以100,帶入模型中即可。同樣,如果我們想將研究因素每增加1個單位改變?yōu)槊吭黾?.1個單位,只需將原始數(shù)據(jù)乘以10,再納入模型中即可。 按改變每標準差(SD)的形式進行轉(zhuǎn)換在臨床研究中,我們還有另一種轉(zhuǎn)換方法:自變量按每標準差的形式進行變化。讓我們看看2016年在JACC上發(fā)表的一篇文章。該模型中年齡和收縮壓按1個標準差增加的形式轉(zhuǎn)化。年齡每增加一個標準差,動脈粥樣硬化性心臟病(ASCVD)的風險增加70%(HR=1.70,95%CI:1.32-2.19)。收縮壓(SBP)每增加一個標準差,ASCVD風險增加25%(HR=1.25,95%CI:1.05-1.49)。 本文將連續(xù)變量以每標準差遞增的形式引入到模型中。假設(shè)變量符合正態(tài)分布,平均值±SD區(qū)間下的面積為68.27%,平均值±1.96 SD區(qū)間下的面積為95%。平均值±2.58 SD區(qū)間下的面積為99%。我們可以看出,如果在4個標準差范圍內(nèi),大約95%的樣本將被覆蓋。因此,新的變量,特別是對于那些臨床上尚不清楚的罕見變量解釋,我們可以按每SD改變形式納入模型中。這可以引導患者根據(jù)自己的實際測量結(jié)果,判斷自己在人群分布水平的幾個標準差范圍內(nèi),進而評估相應的風險會發(fā)生多大的變化。 兩種轉(zhuǎn)換方式(1)在建立回歸模型之前,需要對原始的連續(xù)變量進行標準化處理,并將標準化后的自變量納入回歸模型。得到的回歸系數(shù)就是自變量每變化1個SD對因變量的影響。(注意:這里只對自變量進行標準化處理)。(2)如果原始變量沒有標準化,也可以直接將原始變量帶入模型,得到未標準化的回歸系數(shù),然后再乘以該自變量的標準差,即標準化的回歸系數(shù)。這就是自變量每變化1個SD對因變量的影響。 參考文獻Zhou ZR, Wang WW, Li Y, et al. In-depth mining of clinical data: the construction of clinical prediction model with R. Ann Transl Med. 2019;7(23):796. doi:10.21037/atm.2019.08.63
|
|