我想,我們現(xiàn)在都強調無論動物實驗還是人群實驗,都需要事先進行研究設計,研究設計最重要的是進行樣本量的計算。
現(xiàn)在問題來了。我做好了樣本量計算,到最后由于一些困難,比如經費緊張,比如實在招募不了這么多病人,或者病人失訪太嚴重,或者招募病人速度太慢而我快要畢業(yè)了?。?!。。。。等等,反正樣本量不夠。
不夠怎么辦? 第一,說起來,一般都是聽天由命。看運氣!這個也是可以的,等下和大家講講,怎么樣測算自己的運氣!
第二,投機取巧法,一個研究不設主要結局,然后把有效果的指標拿出來大講特講。這樣的方式其實很多見,我們很多人搞臨床研究,開展隨機對照研究都沒有實現(xiàn)設定哪個是主要結局,反正哪個指標是陽性就哪個作為干預措施有效的證據。 第三,統(tǒng)計學方法。有一些統(tǒng)計學方法是可以提高檢驗效能,也就是促進陽性結果的產生。
我們今天來看篇文章,樣本量沒有達到預期,那么最后結果還是陽性的,是什么原因呢?
上面三種原因,到底是哪一種呢?我們來看看 2021年,JAMA子刊刊登了一篇文章,運動對局限性前列腺癌患者疾病進展的影響。 這個研究,稱之為ERASE試驗,主要探討12周高強度間歇訓練是否能夠改善心血管健康,延緩前列腺癌進展,研究者評估了高強度間歇訓練(HIIT)對適合接受積極監(jiān)測的低危至中危前列腺癌患者的影響。這是一項2期試驗,患者被隨機分成兩組,一組進行HIIT(每周在他人監(jiān)督下運動3次,持續(xù)12周),另一組接受常規(guī)治療。本試驗允許患者在12周時跨組。由于該研究主要是探討高強度的運動的心血管病的獲益,因此主要結局是分級運動試驗期間的峰值耗氧量( peak V?o2);次要結局是前列腺特異性抗原(PSA)參數(shù)的變化。 在20個月期間,56名男性被隨機分組,他們的中位年齡是63歲。HIIT組的依從率為96%。與常規(guī)治療組相比,HIIT組的峰值耗氧量顯著改善(調整均差1.6 mL/kg/min; 95% CI, 0.3-2.9; P?=0?.01),并且總PSA水平降低,PSA升高速率減緩 (調整均差?1.1 μg/L; 95% CI, ?2.1 to 0.0; P?=0?.04);類似的結果包括PSAV,也具有統(tǒng)計學意義(P=0.04)。諸位,不妨看上述的表格,可以多個指標P值靠近0.05,有驚無險!這個和該文的樣本量有很大的干系!
本文樣本量是不足的。理論和實際足足差了1/3! 本文設計的樣本量! The originally planned sample size of 66 participants (33 per group) was estimated to provide 80% power using a 2-tailed α<.05 to detect a statistically significant between-group difference of 1 metabolic equivalent task (3.5 mL/kg/min) on the primary outcome of peak V?o2, assuming an SD of 5.6 mL/kg/min, a 10% dropout rate, and an adjustment for baseline value and other prognostic covariates. 本文實際的納入分析的樣本量是52例 A total of 52 male patients were randomized to the HIIT group (n?=?26) or the usual care group (n?=?26) 而由于數(shù)據缺失,最后主要和次要療效分析的樣本量只有46-49例! 這么多的樣本量缺失,造成什么結果? 我們臨床研究的結果很多時候,都是聽天由命,命總體還是把握在自己手里。因為我們設置了較高的把握度(Power),也就是檢驗效能。一般檢驗效能值都在80%以上。這個研究檢驗效能就是80%,因此按照66例的設計樣本量么,有80%的可能性獲得陽性結果。但是如果樣本量大量缺失會怎么樣? 現(xiàn)在樣本量是46例,那么把握度是多少呢?可以通過樣本量計算軟件反推他的把握度!
最終結果多少呢?!接近60%的檢驗效能,意味著這個項目如果按照常規(guī)的t檢驗進行數(shù)據分析,只有60%的可能性獲得陽性結果!
所以這個研究,也是聽天由命,運氣還真 不錯呀 ! 那么,這個研究有沒有采用第二種方法,即投機取巧法,改了主要結局指標呢?哪到沒有,否則JAMA子刊是不會讓它發(fā)表的。
然后,有沒有統(tǒng)計學方法可以幫助改善檢驗效能呢?有。本文的協(xié)方差分析在一定程度上可以改善檢驗效能,把P值將小一點。
一般的兩組定量數(shù)據的比較,比如本文的V?o2, PSA或者PSAV,傳統(tǒng)上都可以采用t檢驗來進行。 但是如果本文采用t檢驗,會是什么結果呢?鄭老師我重新測算了下。 V?o2, 論文中的P值0.01,干預后V?o2差值的t檢驗P值0.031 PSA論文中的P值0.04,干預后差值的t檢驗P值0.216 PSAV論文中的P值0.04,干預后差值的t檢驗P值0.218 諸位可以看出,采用t檢驗的P值都比較大,甚至沒有統(tǒng)計學意義,但是為什么論文報道是有統(tǒng)計學意義呢?因為采用了協(xié)方差分析?。?!
Analyses of covariance were performed for the primary and secondary outcomes to determine the between-group mean differences at the postintervention period after adjusting for covariates. Covariates were selected a priori and included the baseline values of the outcome and other variables that were unbalanced between groups. 協(xié)方差分析,是非常好的一種方法,它可以在一定程度上提高檢驗效能! 實驗做著做著,發(fā)現(xiàn)樣本量不夠了怎么辦?在唉聲嘆氣,聽天由命,或者調換主要結局指標的同時,也可以想想統(tǒng)計學的一些方法。 特別是做動物實驗的童鞋們,協(xié)方差分析你要用起來,你們的統(tǒng)計分析不僅僅是方差分析和t檢驗?。。。。?/strong>
|