【原】這篇《新英格蘭醫(yī)學雜志》臨床試驗論文，通篇沒有P值，它是怎么做到的？

妙趣橫生統(tǒng)計學 2022-11-23 發(fā)布于江蘇

展開全文

《新英格蘭醫(yī)學雜志》（NEJM）作為宇宙第一醫(yī)學期刊，它每周會全文翻譯一篇專著。

在其小程序《NEJM醫(yī)學前沿》，大家可以點擊查看學習翻譯全文。

NEJM雜志的統(tǒng)計學，篇篇堪稱典范，我想很多人想學習，但是英文全文晦澀難懂。但中文譯稿就不同了，對于想學習那些文章研究設計與統(tǒng)計學方法，又苦于英文理解的朋友來說，簡直不能再好的福利！

但統(tǒng)計學還是不好理解（哪怕是中文），所以我想來一個沉浸式學習的模式：論文全文閱讀+統(tǒng)計學解讀。

沉浸式學習

論文全文閱讀：10分鐘

統(tǒng)計學解讀學習：10分鐘

諸位先查看其官網(wǎng)小程序的翻譯全文，再來看我對他統(tǒng)計學方法的解讀。

可能您一開始不太懂，但是如果你能夠堅持半年，我想你就懂了它的套路。

本周分享的是一篇國外學者重磅尿路感染臨床試驗論文！

通篇沒有P值，那么是怎么證明療效的呢？

2022年4月7日，《新英格蘭醫(yī)學雜志》發(fā)布一項3期、國際性、雙盲、雙模擬試驗研究：Oral Tebipenem Pivoxil Hydrobromide in Complicated Urinary Tract Infection，即口服氫溴酸替 vs 培南酯治療復雜性尿路感染。

請大家不妨忽略學科內(nèi)容，聚焦于研究設計與統(tǒng)計方法。

摘要與主要結果

一、摘要

背景

我們需要一種對多重耐藥的尿路革蘭陰性致病菌有效的口服抗生素。氫溴酸替比培南酯（tebipenem pivoxil hydrobromide）是一種可以口服的碳青霉烯類藥物，對尿路致病性腸桿菌（包括產(chǎn)廣譜β內(nèi)酰胺酶菌株和氟喹諾酮耐藥菌株）具有活性。

方法

在這項3期、國際性、雙盲、雙模擬試驗中，在復雜性尿路感染或急性腎盂腎炎患者中，與靜脈給予厄他培南相比，我們評估了口服氫溴酸替比培南酯的療效和安全性。我們以1∶1的比例將患者隨機分組，分別接受氫溴酸替比培南酯（劑量為每8小時600 mg）口服給藥或者厄他培南（劑量為每24小時1 g）靜脈給藥7～10日（或者在菌血癥患者中長達14日）。主要療效終點是在微生物學意向治療人群中，在治愈驗證（test-of-cure）訪視時（第19日，在±2日的時間窗口內(nèi)）的總應答（由臨床治愈和良好的微生物應答構成的復合終點）。非劣效性界值為12.5%。

結果

本試驗共納入1,372例住院成人患者；868例患者（63.3%）被納入微生物學意向治療人群（其中50.8%患有復雜性尿路感染，49.2%患有腎盂腎炎）。在氫溴酸替比培南酯組449例患者中的264例（58.8%）和厄他培南組419例患者中的258例（61.6%）中，觀察到了總應答（加權差異，－3.3個百分點；95% CI，－9.7～3.2）。在微生物學意向治療人群中，93.1%的氫溴酸替比培南酯組患者和93.6%的厄他培南組患者在治愈驗證訪視時觀察到了臨床治愈（加權差異，－0.6個百分點；95% CI，－4.0～2.8）；大多數(shù)在治愈驗證訪視時微生物學應答失敗的患者為無癥狀的復發(fā)性菌尿患者。次要分析和亞組分析結果支持主要分析的結果。氫溴酸替比培南酯組25.7%的患者和厄他培南組25.6%的患者觀察到了不良事件；最常見的不良事件是輕度腹瀉和頭痛。

結論

當用于治療復雜性尿路感染和急性腎盂腎炎時，口服氫溴酸替比培南酯不劣于靜脈輸注厄他培南，并且具有類似的安全性。

二、研究結果

1. 試驗人群：2019年6月至2020年5月，共計1,372例患者接受了隨機分組（意向治療人群），并接受了至少1劑試驗藥物（安全性人群），868例患者（63.3%）被納入微生物學意向治療人群（圖1和圖S2）。在氫溴酸替比培南酯組和厄他培南組中，對分配的治療方案的依從率（依從定義為接受100%的計劃試驗劑量）分別為99.6%和99.1%。

2.基線情況：基線時，各治療組患者的人口統(tǒng)計學和臨床特征平衡（表1和表S1）?；颊咂骄挲g為58.1歲；46.1%的患者≥65歲。在微生物學意向治療人群中（868例患者（63.3%）），納入時，50.8%的患者患有復雜性尿路感染，49.2%患有急性腎盂腎炎。共計11.5%的患者在基線時患有菌血癥，19.7%符合改良全身炎癥反應綜合征（SIRS）的標準；兩種情況都表明病情較嚴重。

3. 療效分析

主要結局分析：在主要終點治愈驗證訪視時的總應答方面，氫溴酸替比培南酯口服給藥不劣于厄他培南靜脈給藥（分別為58.8%和61.6%的患者；率差-3.3%；95% CI，－9.7～3.2）（表2）。

次要分析：在氫溴酸替比培南酯組和厄他培南組中，治療結束訪視時的總應答率分別為97.3%和94.5%。在微生物學意向治療人群中，93.1%的氫溴酸替比培南酯組患者和93.6%的厄他培南組患者在治愈驗證訪視時觀察到了臨床治愈（加權差異，－0.6個百分點；95% CI，－4.0～2.8）；大多數(shù)在治愈驗證訪視時微生物學應答失敗的患者為無癥狀的復發(fā)性菌尿患者。

4. 亞組分析：

在所有亞組中，根據(jù)基線特征，治愈驗證訪視時的總應答的預設分析結果與主要分析結果一致（圖2）。在所有病例中，治療差異的95% CI跨過了0，與總體療效重疊，包括疾病類型、肌酐清除類型和疾病嚴重程度的差異。次要分析和亞組分析結果支持主要分析的結果。

結論：在本試驗中，對于復雜性尿路感染或急性腎盂腎炎患者的治療，氫溴酸替比培南酯不劣于靜脈給藥的厄他培南。在各試驗人群和子人群、感染類型和尿路致病菌之間，結果一致。

設計與統(tǒng)計學方法

一、研究設計

這是一項3期、隨機、雙盲、雙模擬、非劣效性試驗。我們從PRICOS原則展開細看：

S: study 3期、隨機、雙盲、雙模擬、非劣效性試驗。

鄭老師：注意注意！這是非劣效性試驗

P：patient 年齡≥18歲，被診斷為復雜性尿路感染或急性腎盂腎炎的患者。

R: randomization 以1∶1的比例將符合條件的患者隨機分組。隨機化利用計算機產(chǎn)生的交互應答技術自動化進行，并根據(jù)基線診斷（復雜性尿路感染 vs. 急性腎盂腎炎）和年齡（＜65歲 vs. ≥65歲）分層。申辦方、研究者和負責治療給藥和數(shù)據(jù)收集的試驗人員不知曉試驗分組。

鄭老師：本篇文章第一個統(tǒng)計關鍵點：隨機化，隨機化策略不同影響后續(xù)統(tǒng)計學方法。包括隨機分為幾組、是什么隨機化？本文應該是分層隨機化，然后我們后面會發(fā)現(xiàn)分層因素在統(tǒng)計分析中扮演著重要角色。

I: intervention 口服氫溴酸替比培南酯（劑量為600 mg，2片300 mg的藥片）每8小時1次+模擬厄他培南輸入每24小時1次。

C: control 厄他培南（劑量為1 g）每24小時1次（每次在30分鐘期間靜脈給藥）+模擬口服氫溴酸替比培南酯藥片每8小時1次。

兩組接受治療7～10日（或者在菌血癥患者中，長達14日）（補充附錄圖S1）。中度腎功能不全（基線肌酐清除率，＞30～≤50 mL/min）患者接受300 mg氫溴酸替比培南酯或安慰劑，每8小時1次；厄他培南無需調(diào)整劑量。

O: outcome 主要結局是治愈驗證訪視時（第19日，±2日內(nèi)）微生物學意向治療人群中的總應答（由臨床治愈和微生物學應答構成的復合終點）。

關鍵次要終點包括微生物學可評估人群中治愈驗證訪視時的總應答；微生物學意向治療人群和微生物學可評估人群中治療結束訪視時和后期隨訪時（第25日，±2日時間窗口內(nèi)）的總應答；微生物學意向治療人群和微生物學可評估人群中治療結束訪視、治愈驗證訪視和后期隨訪時的臨床治愈、至癥狀減輕的時間和各患者和各致病菌的微生物學應答（根據(jù)在中心實驗室評估的微生物學數(shù)據(jù)）。

鄭老師：這是另外一個非常非常重要的設計要點，結局指標的類型，定量還是定性；主要結局是一個還是多個？本文主要結局是二分類結局，統(tǒng)計描述用率來進行，差異性也主要比較率的差異性。

S: 3期、隨機、雙盲、雙模擬、非劣效性試驗。

二、樣本量計算

我們計算得出，納入約1,200例患者（最多1,450例患者，根據(jù)主要分析人群中納入的可評估患者數(shù)量而定）將為本試驗提供至少90%的統(tǒng)計學功效，在0.025的單側顯著性水平，在10%的非劣效性界值評估主要終點。方案中規(guī)定，在治愈驗證訪視時有70%的患者的應答數(shù)據(jù)可用后，一個數(shù)據(jù)評估委員會對樣本量進行了盲化再次評估，以確認最初的樣本量估計值是足夠的，或者建議增加樣本量，以確保有足夠的統(tǒng)計學功效可測定主要終點。數(shù)據(jù)評估委員會建議納入最多1,450例患者（方案允許的最多患者）。然而，由于2019冠狀病毒病大流行及其所導致的患者納入困難，以及對試驗數(shù)據(jù)完整性、數(shù)據(jù)可用性及患者和工作人員安全性的影響，申辦方與FDA商議后，在數(shù)據(jù)庫鎖定之前將非劣效性界值修訂為12.5%。

鄭老師：這段樣本量計算公式給出了相應的參數(shù)，這篇文章告訴我們，樣本量其實在試驗過程中可以微調(diào)，不過操作層面比較復雜，我們一般情況下不要輕易去動。2組率的比較。你也可以試著去復現(xiàn)下。非劣效性樣本量計算公式如下。

三、統(tǒng)計方法

1. 主要分析是微生物學意向治療人群中治愈驗證訪視時總應答的比較。

鄭老師：一般統(tǒng)計學方法篇，首先明確的便是分析的數(shù)據(jù)集是什么？常見的有意向性治療集、全分析集、符合方案集，一般療效評價意向性治療集和全分析集居多。此外，安全性分析還有安全性分析集。該文是意向性治療分析集，包括所有隨機化分組的對象。

2.治療組間加權差異的95%CI利用Cochran-Mantel-Haenszel加權Miettinen和Nurminen方法計算（根據(jù)知情同意時的年齡和基線診斷分層）。

鄭老師：這段是療效評價的主要方法：采用CMH方法進行分層分析。分層因素恰恰是分層隨機化的因素，你懂了嗎？采用加權Miettinen和Nurminen方法計算率差即95%CI

4.雖然統(tǒng)計學功效不足以評估非劣效性，臨床應答和微生物學應答次要終點的分析使用與主要終點相同的方法進行。我們進行了次要分析和探索性分析，以評估與主要終點結論的一致性。

鄭老師：這段文字是次要結局指標分析。一般次要結局都是和主要結局相關的終點，結果可進一步證實處理因素的療效。

5.缺失數(shù)據(jù)被分類為應答情況不確定，在微生物學意向治療人群的分析中，被計為治療失敗。

鄭老師：缺失數(shù)據(jù)如何填補？有很多方法，該文的方法是把缺失認定為無效。

差不多就是這個意思~

最后：閑來鄭語

關鍵分析：為什么臨床3期論文可不用P值呢？

中國的醫(yī)學研究者一般會認為，一份文章能否發(fā)表，非常重要的評價指標就是P值。P<0.05結果陽性，表明臨床研究是成功的，P>0.05，想死的心都有了。然而，目前國際上越來越多的雜志、統(tǒng)計領域的學者不再看重P值，甚至宣稱要判定P值死刑。我這里就從以下幾點論述本文P值為何缺失。

RCT研究表1（Table 1）結果無須報告P值

通常情況下，臨床試驗論文首先要做的工作是進行基線的特征的描述，并進行組間的均衡性比較，看分組是否均衡（計算P值），這一結反映的在論文的第一張表格中（Table 1）。但是，現(xiàn)在越來越多的雜志和學者認為，隨機對照試驗（RCT）論文，表1只要進行統(tǒng)計描述就行了，無須進行均衡性比較，無須用P值來反映基線是否可比。

為什么？有以下2點理由：第一，規(guī)范的隨機對照試驗，它就應該被認為是均衡可比的，采用意向性分析前無須進一步去論證其均衡性；2）P值無法有效反映分組均衡性，因為小樣本，即便是不均衡性的數(shù)據(jù)，P值也很可能>0.05，而大樣本，即便是均衡性的數(shù)據(jù)，P值也很可能<0.05。

與P值相比，置信區(qū)間更為重要

P值和置信區(qū)間統(tǒng)計分析結果基本相同，國人一般較認可P值。P值<0.05，說明結果陽性，皆大歡喜?，F(xiàn)在越來越多的學者認為置信區(qū)間更重要，反而P值不太重要。

本文便選擇置信區(qū)間來判斷結果是否陽性。在主要終點治愈驗證訪視時的總應答方面，氫溴酸替比培南酯口服給藥不劣于厄他培南靜脈給藥（分別為58.8%和61.6%的患者；率差-3.3%；95% CI，－9.7～3.2）（表2）。率差置信區(qū)間在－9.7～3.2，下限高于文章設置的-12.5%，所以非劣效達成。

如何利用P值和置信區(qū)間判斷非劣效性

非劣效性研究是探討干預組是否效果不太差于對照組的研究。本文的陽性率的研究中，就是探討率差是不是不太低。本文假定氫溴酸替比培南酯口服給藥不太差于厄他培南靜脈給藥，非劣效界值為12.5%。這意味著，氫溴酸替比培南酯口服給藥療效較厄他培南靜脈給藥有效率差距在12.5%以內(nèi)可以實現(xiàn)非劣效的目標。

這一目標，可分別通過假設檢驗（P值）和置信區(qū)間來論證。

假設檢驗（單側）的方式：

此時，采用單側率的比較可獲得P值；P<0.025，則非劣效目標達成。

置信區(qū)間的計算更加直接明了。就是看率差的置信區(qū)間是否包括了12.5%。

上述“工字型”即為率差置信區(qū)間的上下限，（1）區(qū)間上下限包括差率0%（本文的數(shù)據(jù)），但沒有包括12.5%，（2）區(qū)間上下限包括差率12.5%，（3）區(qū)間上下限不包括差率12.5%，都低于12.5%。相對12.5%的非劣效界值，其中（1）結論為非劣效，（2）為不能說明結論非劣效，陰性結果，（3）劣效結果。

由此我們便可以初步判斷本文氫溴酸替比培南酯口服給藥結論為非劣效。

本文為什么沒有同時報告P值呢？

正常情況下，論文P值和置信區(qū)間需要同時匯報。但本文卻只匯報了置信區(qū)間，原因恐怕與統(tǒng)計學方法有關。一般諸如t，z檢驗，均可開展非劣效的置信區(qū)間估計和P值的計算。但是也有諸多方法，往往只進行差異性比較和置信區(qū)間估計。比如本文采用的CMH方法（Cochran–Mantel–Haenszel analysis）。

CMH方法，又成為分層卡方分析。一般來說，兩組率的比較，可以采用正態(tài)分步分布z分步法進行率的比較或者卡方檢驗，但是臨床試驗，雖然分組均衡，由于采用的是分層隨機設計，往往會進一步借助CMH方法進行分層卡方檢驗，進一步控制潛在的混雜因素（本文是年齡和基線診斷分層）。所以諸位可以看本文的表采用了CMH調(diào)整了潛在的混雜因素。

CMH方法能夠計算出P值，來探討兩組率是否有統(tǒng)計學差異。不足的地方在于，該P值是差異性的P值，而非非劣效檢驗的P值。本文CMH差異性檢驗的P值應該>0.05。這一結果不僅多余，而且會給讀者帶來誤導，所以干脆不放入文中。

所以，這就造成了通篇論文沒有一個P值的線性?？傆嬈湓颍闶腔€數(shù)據(jù)分析無須P值，置信區(qū)間和P值地位同等重要，非劣效檢驗置信區(qū)間結果更直觀，CMH方法P值會帶來誤導。