TCGA胃癌的數(shù)據(jù)批量做生存分析示例PS:生存分析下載工具:http://gap./tool/7/ 數(shù)據(jù)準(zhǔn)備 1、下載TCGA RNA-Seq數(shù)據(jù),我們使用TCGA簡(jiǎn)易下載工具進(jìn)行下載,因?yàn)槲覀兪亲鲱A(yù)后所以就沒(méi)有顯著正常樣本,如圖共有407個(gè)樣本(這是包含所有可下載的樣本,要全部下載就將右上角的復(fù)選框全部取消勾選即可): 下載完成,我們點(diǎn)擊合并文件功能進(jìn)行數(shù)據(jù)合并 因?yàn)镕PKM數(shù)據(jù)區(qū)間跨度太大,我們將其轉(zhuǎn)換成TPM,使用TCGA RNA-Seq歸一化工具 轉(zhuǎn)換完成之后得到了新的矩陣,但是這個(gè)矩陣中包含有六萬(wàn)多個(gè)轉(zhuǎn)錄本,這里面包含了編碼基因和lncRNA,所以我們使用TCGA簡(jiǎn)易下載工具的ENSG_ID轉(zhuǎn)換工具進(jìn)行轉(zhuǎn)換提取 將Merge_Matrix.TPM.txt導(dǎo)入到TCGA簡(jiǎn)易下載工具使用ENSG_ID進(jìn)行轉(zhuǎn)換得到lncRNA和編碼基因的表達(dá)矩陣 2、下載TCGA Clinical數(shù)據(jù),因?yàn)镃linical 數(shù)據(jù)是針對(duì)于病人的,也就是說(shuō)沒(méi)有癌與癌旁等組織之分了,共有443個(gè)病人的隨訪數(shù)據(jù) 下載完成之后我們點(diǎn)擊ClinicalFull按鈕提取我們的臨床信息,不懂解讀的看這里:TCGA臨床病理隨訪資料解讀 隨訪數(shù)據(jù)解讀和處理,打開合并后的臨床數(shù)據(jù)表格找到這三列 第一個(gè)紅色箭頭處表示樣本編號(hào)我們將其復(fù)制出來(lái)作為預(yù)后數(shù)據(jù)的第一列,第二第三個(gè)箭頭處分別表示死亡時(shí)間和最后一次隨訪時(shí)間,我們將其合并成一列,因?yàn)閮闪惺腔コ獾模兴劳鰰r(shí)間就木有最后隨訪時(shí)間,木有死亡時(shí)間的就有最后隨訪時(shí)間 簡(jiǎn)單處理方法將Not Available、Not Applicable替換為0,然后兩列相加即可,如 最后我們找到死亡事件列 復(fù)制到我們的樣本信息表中,當(dāng)然仔細(xì)比對(duì)之后發(fā)現(xiàn)有些時(shí)間數(shù)據(jù)丟失的比如下圖 這種樣本我們刪除掉即可,共有兩例 最終表格形式如: 另存為txt文件如 開始做生存分析 我們選擇編碼基因的表達(dá)譜來(lái)做TCGA生存分析,將樣本信息和表達(dá)譜導(dǎo)入到批量計(jì)算生存分析工具如 注意圖中紅色圈圈里的,一定要選擇正確,我這里選擇TCGA數(shù)據(jù)集,日期選擇days,選擇隨訪信息大于30天的的樣本,程序會(huì)自動(dòng)匹配滿足條件的樣本,如圖中匹配上234個(gè)樣本,如果沒(méi)有選對(duì)會(huì)報(bào)沒(méi)有匹配的樣本錯(cuò)誤 坐等跑完,可能需要一點(diǎn)時(shí)間 跑完后我們發(fā)現(xiàn)只有一萬(wàn)三千多個(gè)基因,實(shí)際上我們有一萬(wàn)九千多個(gè)基因,其他基因去哪里了呢,剔除的這些基因是因?yàn)樗麄冊(cè)谄ヅ渖系?34個(gè)樣本中表達(dá)水平怪異比如很多的0或者很多很大的值,無(wú)法做生存分析 進(jìn)一步的導(dǎo)出結(jié)果就行 其他的畫圖功能雙擊運(yùn)行的結(jié)果就可以畫了,另外注意的是結(jié)果中的HR是取了log自然對(duì)數(shù)之后的HR值。 |
|