批量處理生存曲線，掌握這些就夠了！

心隨所愿zh 2019-01-19

展開(kāi)全文

在很多臨床的數(shù)據(jù)分析中，挖掘到某些個(gè)關(guān)鍵基因后總會(huì)在結(jié)尾進(jìn)行一個(gè)生存分析，進(jìn)一步尋找對(duì)臨床有意義的點(diǎn)。如下圖：

先簡(jiǎn)單介紹幾個(gè)概念：

生存曲線（Kaplan-Meier曲線）：主要是用來(lái)描述患者的生存狀況，通過(guò)基因表達(dá)狀況和臨床數(shù)據(jù)的結(jié)合，從而可以得到描述某一基因的變化與生存預(yù)后是否有相關(guān)性。

生存分析需要的數(shù)據(jù)主要需要兩個(gè)因素:

（1）生存時(shí)間：通俗的理解就是從疾病的確診開(kāi)始到死亡。

（2）生存的狀態(tài)：指患者記錄時(shí)的狀態(tài)，“死亡”或者“存活”。

TCGA是一個(gè)專門研究癌癥的免費(fèi)公共數(shù)據(jù)庫(kù)，目前有33中癌癥，是一個(gè)值得深入挖礦的好地方。在挖掘TCGA數(shù)據(jù)的時(shí)候，除了各種芯片數(shù)據(jù)，蛋白數(shù)據(jù)等等，還有關(guān)于樣本的臨床數(shù)據(jù)。我們可以在挖掘TCGA的數(shù)據(jù)時(shí)，嘗試?yán)L制生存曲線來(lái)尋找值得我們進(jìn)一步研究的點(diǎn)。

以下我將用TCGA的臨床數(shù)據(jù)結(jié)合部分RNA-seq數(shù)據(jù)來(lái)演示批量生存曲線的繪制。

1. 首先，我們需要下載好某種癌癥的臨床數(shù)據(jù)。

2. 我們選取barcode，days_to_death,days_to_last_followup,vital_status四列數(shù)據(jù)復(fù)制

3. 然后將所復(fù)制的days_to_death,days_to_last_followup兩列數(shù)據(jù)內(nèi)的”NA”值用“0”代替，之所以生存時(shí)間存在兩種，是因?yàn)樵诓±S訪更新時(shí)，有的人死了，還有人還存活，前者是已經(jīng)死了，后者還存活，這也導(dǎo)致了vital_status存在“alive”，“dead”兩種狀態(tài)，所以我們要獲取OS（overall survival）總體生存時(shí)間。

4. OS= “days_to_death”數(shù)值+“days_to_last_followup”數(shù)值，得到如下整理好的數(shù)據(jù)。

這樣我們就算把臨床數(shù)據(jù)整理好了。

5. 之后，如果我們差異分析篩選出某些基因，想繪制生存曲線，那就需要提取好需要的基因數(shù)據(jù)。

我選取幾個(gè)miRNA數(shù)據(jù)進(jìn)行測(cè)試，A區(qū)是我們之前整理好的數(shù)據(jù)，因?yàn)榕R床數(shù)據(jù)和芯片表達(dá)數(shù)據(jù)都是以病人的barcode為聯(lián)系，我們可以利用這個(gè)，從而利用excel的vlookup函數(shù)進(jìn)行提取生存數(shù)據(jù)。B區(qū)是miRNA表達(dá)矩陣，應(yīng)該進(jìn)行標(biāo)準(zhǔn)化處理的。

值得一提的是臨床數(shù)據(jù)的barcode和樣本barcode有點(diǎn)區(qū)別。

在臨床數(shù)據(jù)僅僅有前12個(gè)字符（包括“-”算一個(gè)字符），而在樣本里是全部的，而我們選取的矩陣數(shù)據(jù)應(yīng)該是利用第14個(gè)字符的0，1來(lái)區(qū)分腫瘤和癌旁，我們應(yīng)該用腫瘤組織的樣本表達(dá)數(shù)據(jù)，excel內(nèi)可以利用固定距離分列來(lái)得到14位字符，并且將barcode變成12位。

6. 這樣我們就整理出了如下的具有生存數(shù)據(jù)和表達(dá)矩陣。

7. 接著就上R Studio來(lái)溜溜了。

在此之前我們需要利用“survival”，“surviminer”，“parallel”三個(gè)R包，利用install.package(‘’)來(lái)安裝這三個(gè)R包。

8. 接著就進(jìn)入正題：

#這個(gè)是批量運(yùn)行的核心。我們的導(dǎo)入數(shù)據(jù)“exprSet”，我們?cè)诘?，3列分別是“time”（這里將OS變成time好理解）和“vital_status”，log_rank_p <->我們分析的是基因相關(guān)的生存曲線，length可以理解為描繪個(gè)數(shù)，即exprSet的列名的計(jì)算，進(jìn)而不需要我們自己去數(shù)exprSet有多少列，你也可以把他改成具體的數(shù)值也是可以的。之所以選擇”4”開(kāi)始，是因?yàn)榍?列是沒(méi)有我們需要表達(dá)的數(shù)據(jù)的。

很巧就出現(xiàn)一個(gè)具有意義的，所以我們可以將這一步代碼補(bǔ)充。

以上這些代碼就輕松批量解決某些基因相關(guān)的生存分析。

參考文獻(xiàn)：

Fang, X.N., M. Yin, H. Li, C. Liang, C. Xu, G.W. Yang, and H.X. Zhang (2018) Comprehensive analysis of competitive endogenous RNAs network associated with head and neck squamous cell carcinoma. Sci Rep. 8(1): p. 10544.

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：心隨所愿zh > 《生存分析》

舉報(bào)/認(rèn)領(lǐng)