在很多臨床的數(shù)據(jù)分析中,挖掘到某些個(gè)關(guān)鍵基因后總會(huì)在結(jié)尾進(jìn)行一個(gè)生存分析,進(jìn)一步尋找對(duì)臨床有意義的點(diǎn)。如下圖: 先簡(jiǎn)單介紹幾個(gè)概念: 生存曲線(Kaplan-Meier曲線):主要是用來(lái)描述患者的生存狀況,通過(guò)基因表達(dá)狀況和臨床數(shù)據(jù)的結(jié)合,從而可以得到描述某一基因的變化與生存預(yù)后是否有相關(guān)性。 生存分析需要的數(shù)據(jù)主要需要兩個(gè)因素: (1)生存時(shí)間:通俗的理解就是從疾病的確診開(kāi)始到死亡。 (2)生存的狀態(tài):指患者記錄時(shí)的狀態(tài),“死亡”或者“存活”。 TCGA是一個(gè)專門研究癌癥的免費(fèi)公共數(shù)據(jù)庫(kù),目前有33中癌癥,是一個(gè)值得深入挖礦的好地方。在挖掘TCGA數(shù)據(jù)的時(shí)候,除了各種芯片數(shù)據(jù),蛋白數(shù)據(jù)等等,還有關(guān)于樣本的臨床數(shù)據(jù)。我們可以在挖掘TCGA的數(shù)據(jù)時(shí),嘗試?yán)L制生存曲線來(lái)尋找值得我們進(jìn)一步研究的點(diǎn)。 以下我將用TCGA的臨床數(shù)據(jù)結(jié)合部分RNA-seq數(shù)據(jù)來(lái)演示批量生存曲線的繪制。 1. 首先,我們需要下載好某種癌癥的臨床數(shù)據(jù)。 2. 我們選取barcode,days_to_death,days_to_last_followup,vital_status四列數(shù)據(jù)復(fù)制 3. 然后將所復(fù)制的days_to_death,days_to_last_followup兩列數(shù)據(jù)內(nèi)的”NA”值用“0”代替,之所以生存時(shí)間存在兩種,是因?yàn)樵诓±S訪更新時(shí),有的人死了,還有人還存活,前者是已經(jīng)死了,后者還存活,這也導(dǎo)致了vital_status存在“alive”,“dead”兩種狀態(tài),所以我們要獲取OS(overall survival)總體生存時(shí)間。 4. OS= “days_to_death”數(shù)值+“days_to_last_followup”數(shù)值,得到如下整理好的數(shù)據(jù)。 這樣我們就算把臨床數(shù)據(jù)整理好了。 5. 之后,如果我們差異分析篩選出某些基因,想繪制生存曲線,那就需要提取好需要的基因數(shù)據(jù)。 我選取幾個(gè)miRNA數(shù)據(jù)進(jìn)行測(cè)試,A區(qū)是我們之前整理好的數(shù)據(jù),因?yàn)榕R床數(shù)據(jù)和芯片表達(dá)數(shù)據(jù)都是以病人的barcode為聯(lián)系,我們可以利用這個(gè),從而利用excel的vlookup函數(shù)進(jìn)行提取生存數(shù)據(jù)。B區(qū)是miRNA表達(dá)矩陣,應(yīng)該進(jìn)行標(biāo)準(zhǔn)化處理的。 值得一提的是臨床數(shù)據(jù)的barcode和樣本barcode有點(diǎn)區(qū)別。 在臨床數(shù)據(jù)僅僅有前12個(gè)字符(包括“-”算一個(gè)字符),而在樣本里是全部的,而我們選取的矩陣數(shù)據(jù)應(yīng)該是利用第14個(gè)字符的0,1來(lái)區(qū)分腫瘤和癌旁,我們應(yīng)該用腫瘤組織的樣本表達(dá)數(shù)據(jù),excel內(nèi)可以利用固定距離分列來(lái)得到14位字符,并且將barcode變成12位。 6. 這樣我們就整理出了如下的具有生存數(shù)據(jù)和表達(dá)矩陣。 7. 接著就上R Studio來(lái)溜溜了。 在此之前我們需要利用“survival”,“surviminer”,“parallel”三個(gè)R包,利用install.package(‘’)來(lái)安裝這三個(gè)R包。 8. 接著就進(jìn)入正題: #這個(gè)是批量運(yùn)行的核心。我們的導(dǎo)入數(shù)據(jù)“exprSet”,我們?cè)诘?,3列分別是“time”(這里將OS變成time好理解)和“vital_status”,log_rank_p <->我們分析的是基因相關(guān)的生存曲線,length可以理解為描繪個(gè)數(shù),即exprSet的列名的計(jì)算,進(jìn)而不需要我們自己去數(shù)exprSet有多少列,你也可以把他改成具體的數(shù)值也是可以的。之所以選擇”4”開(kāi)始,是因?yàn)榍?列是沒(méi)有我們需要表達(dá)的數(shù)據(jù)的。 很巧就出現(xiàn)一個(gè)具有意義的,所以我們可以將這一步代碼補(bǔ)充。 以上這些代碼就輕松批量解決某些基因相關(guān)的生存分析。 參考文獻(xiàn): Fang, X.N., M. Yin, H. Li, C. Liang, C. Xu, G.W. Yang, and H.X. Zhang (2018) Comprehensive analysis of competitive endogenous RNAs network associated with head and neck squamous cell carcinoma. Sci Rep. 8(1): p. 10544. |
|