一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

批量處理生存曲線,掌握這些就夠了!

 心隨所愿zh 2019-01-19

在很多臨床的數(shù)據(jù)分析中,挖掘到某些個(gè)關(guān)鍵基因后總會(huì)在結(jié)尾進(jìn)行一個(gè)生存分析,進(jìn)一步尋找對(duì)臨床有意義的點(diǎn)。如下圖:

先簡(jiǎn)單介紹幾個(gè)概念:

生存曲線(Kaplan-Meier曲線):主要是用來(lái)描述患者的生存狀況,通過(guò)基因表達(dá)狀況和臨床數(shù)據(jù)的結(jié)合,從而可以得到描述某一基因的變化與生存預(yù)后是否有相關(guān)性。

生存分析需要的數(shù)據(jù)主要需要兩個(gè)因素:

(1)生存時(shí)間:通俗的理解就是從疾病的確診開(kāi)始到死亡。

(2)生存的狀態(tài):指患者記錄時(shí)的狀態(tài),“死亡”或者“存活”。

TCGA是一個(gè)專門研究癌癥的免費(fèi)公共數(shù)據(jù)庫(kù),目前有33中癌癥,是一個(gè)值得深入挖礦的好地方。在挖掘TCGA數(shù)據(jù)的時(shí)候,除了各種芯片數(shù)據(jù),蛋白數(shù)據(jù)等等,還有關(guān)于樣本的臨床數(shù)據(jù)。我們可以在挖掘TCGA的數(shù)據(jù)時(shí),嘗試?yán)L制生存曲線來(lái)尋找值得我們進(jìn)一步研究的點(diǎn)。


以下我將用TCGA的臨床數(shù)據(jù)結(jié)合部分RNA-seq數(shù)據(jù)來(lái)演示批量生存曲線的繪制。

1. 首先,我們需要下載好某種癌癥的臨床數(shù)據(jù)。

2. 我們選取barcode,days_to_death,days_to_last_followup,vital_status四列數(shù)據(jù)復(fù)制

3. 然后將所復(fù)制的days_to_death,days_to_last_followup兩列數(shù)據(jù)內(nèi)的”NA”值用“0”代替,之所以生存時(shí)間存在兩種,是因?yàn)樵诓±S訪更新時(shí),有的人死了,還有人還存活,前者是已經(jīng)死了,后者還存活,這也導(dǎo)致了vital_status存在“alive”,“dead”兩種狀態(tài),所以我們要獲取OS(overall survival)總體生存時(shí)間。

4. OS= “days_to_death”數(shù)值+“days_to_last_followup”數(shù)值,得到如下整理好的數(shù)據(jù)。

這樣我們就算把臨床數(shù)據(jù)整理好了。

5. 之后,如果我們差異分析篩選出某些基因,想繪制生存曲線,那就需要提取好需要的基因數(shù)據(jù)。

我選取幾個(gè)miRNA數(shù)據(jù)進(jìn)行測(cè)試,A區(qū)是我們之前整理好的數(shù)據(jù),因?yàn)榕R床數(shù)據(jù)和芯片表達(dá)數(shù)據(jù)都是以病人的barcode為聯(lián)系,我們可以利用這個(gè),從而利用excel的vlookup函數(shù)進(jìn)行提取生存數(shù)據(jù)。B區(qū)是miRNA表達(dá)矩陣,應(yīng)該進(jìn)行標(biāo)準(zhǔn)化處理的。

值得一提的是臨床數(shù)據(jù)的barcode和樣本barcode有點(diǎn)區(qū)別。

在臨床數(shù)據(jù)僅僅有前12個(gè)字符(包括“-”算一個(gè)字符),而在樣本里是全部的,而我們選取的矩陣數(shù)據(jù)應(yīng)該是利用第14個(gè)字符的0,1來(lái)區(qū)分腫瘤和癌旁,我們應(yīng)該用腫瘤組織的樣本表達(dá)數(shù)據(jù),excel內(nèi)可以利用固定距離分列來(lái)得到14位字符,并且將barcode變成12位。

6. 這樣我們就整理出了如下的具有生存數(shù)據(jù)和表達(dá)矩陣。

7. 接著就上R Studio來(lái)溜溜了。

在此之前我們需要利用“survival”,“surviminer”,“parallel”三個(gè)R包,利用install.package(‘’)來(lái)安裝這三個(gè)R包。

8. 接著就進(jìn)入正題:

#這個(gè)是批量運(yùn)行的核心。我們的導(dǎo)入數(shù)據(jù)“exprSet”,我們?cè)诘?,3列分別是“time”(這里將OS變成time好理解)和“vital_status”,log_rank_p <->我們分析的是基因相關(guān)的生存曲線,length可以理解為描繪個(gè)數(shù),即exprSet的列名的計(jì)算,進(jìn)而不需要我們自己去數(shù)exprSet有多少列,你也可以把他改成具體的數(shù)值也是可以的。之所以選擇”4”開(kāi)始,是因?yàn)榍?列是沒(méi)有我們需要表達(dá)的數(shù)據(jù)的。

很巧就出現(xiàn)一個(gè)具有意義的,所以我們可以將這一步代碼補(bǔ)充。

以上這些代碼就輕松批量解決某些基因相關(guān)的生存分析。

參考文獻(xiàn):

Fang, X.N., M. Yin, H. Li, C. Liang, C. Xu, G.W. Yang, and H.X. Zhang (2018) Comprehensive analysis of competitive endogenous RNAs network associated with head and neck squamous cell carcinoma. Sci Rep. 8(1): p. 10544.

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多

    国产又粗又长又大高潮视频| 黄色污污在线免费观看| 黑丝袜美女老师的小逼逼| 国产成人精品久久二区二区| 国产精品一区二区传媒蜜臀| 国产成人精品国产成人亚洲| 日韩精品视频高清在线观看| 亚洲精品美女三级完整版视频| 久久婷婷综合色拍亚洲| 国产精品丝袜一二三区| 欧美日韩国产综合在线| 日韩欧美一区二区久久婷婷| 欧美特色特黄一级大黄片| 日本一本在线免费福利| 久久精品福利在线观看| 又黄又硬又爽又色的视频| 黄片美女在线免费观看| 欧美日韩国产精品黄片| 国产黑人一区二区三区| 日本黄色录像韩国黄色录像| 久久精品偷拍视频观看| 久久免费精品拍拍一区二区| 日本精品理论在线观看| 99日韩在线视频精品免费| 人妻久久一区二区三区精品99| 亚洲国产av国产av| 麻豆剧果冻传媒一二三区| 亚洲丁香婷婷久久一区| 五月天综合网五月天综合网| 成人午夜视频在线播放| 精品国产91亚洲一区二区三区| 又大又长又粗又猛国产精品| 亚洲国产成人av毛片国产| 国产高清一区二区白浆| 日本高清不卡一二三区| 国产精品推荐在线一区| 免费在线播放不卡视频| 在线免费视频你懂的观看| 中文字幕亚洲人妻在线视频| 亚洲国产av国产av| av国产熟妇露脸在线观看|