初五迎財神,晦氣去去去,事業(yè)順順順,運道旺旺旺,新年發(fā)發(fā)發(fā)! 最騷不過中西合璧呀! 要說生物醫(yī)學界的財神,個人以為TCGA數(shù)據(jù)庫算一個,畢竟給廣大人民群眾帶來了無數(shù)的數(shù)據(jù)和文章!今天就給大家扒拉扒拉TCGA數(shù)據(jù)庫的正確打開方式。TCGA,The cancer genome altas,https://cancergenome./ TCGA的里蘊藏著大量的數(shù)據(jù),但是如何獲取這些數(shù)據(jù),成為了第一道門檻。之前給大家介紹過生信人開發(fā)的簡易TCGA數(shù)據(jù)下載的小工具這么好用的TCGA數(shù)據(jù)下載工具?!,工具還是相當給力的,但是如若要進一步篩選想要的樣本,又或者說有些腫瘤的數(shù)據(jù)下不下來(比如AML的),那還是得用到TCGA自帶的下載工具。 我們首先在TCGA網(wǎng)站里勾選好想要下載什么樣的樣本,以及數(shù)據(jù)類型(比如是RNA-seq的count數(shù)據(jù),或者是臨床信息) 選好之后下載Manifest 然后打開GDC Apps下載TCGA官方的下載工具 解壓之后就這么一個文件,我們把剛才下載的Manifest也保存在這個文件夾里 打開命令提示符cmd 然后在DOS界面里進入到剛才那個文件夾,我是放在D盤里的,所以先輸入D:進入D盤,如果放到E盤里就輸入E: 如果是放到C盤里,就輸入CD..,退回到C盤的最初目錄 接下來復制這個文件夾的地址(在地址欄右鍵鼠標) 粘貼過來之后 改成下圖這樣,cd\表示進入該目錄 然后輸入以下命令: gdc-client download -m gdc_manifest.2018-02-20.txt 即可開始下載 其中g(shù)dc_manifest.2018-02-20是那個manifest的名字,但是切記要加上文件后綴——.txt。 下載好的文件就在當前文件夾里了 覺得這個方法太復雜了?好吧,教你個傻瓜的。。 UCSC Xena (https:///heatmap/) 先選數(shù)據(jù)集 輸入感興趣的基因列表 我比較憨,我對自己芯片結(jié)果里所有的差異基因都感興趣,所以我就把整個差異基因的Gene list搬運到了這里。右邊這個表可以和左邊的一毛一樣,也可以隨便填一下。 數(shù)據(jù)量大了,自然就會很卡,畢竟1000X1000的矩陣。。。所以最好還是悠著點,不要像我這樣劃船不靠槳全靠浪。 右上角可以下載數(shù)據(jù)結(jié)果,也可以下載熱圖的PDF,和基因表達數(shù)據(jù)的矩陣文件 在彈出無數(shù)次的以下頁面后,我終于把自己浪死了! 所以還是不要用力太猛,悠著點,我們減少點基因數(shù)量重新來過。。。 下載的PDF結(jié)果 TSV文件剛包含了基因表達信息和對應的樣本信息矩陣,走過TCGA分析流程的童鞋就會知道,能一下子得到這下面這張表格是多么方便的一件事情!節(jié)省了多少工作量! 好了!今天兩個TCGA的工具——TCGA自帶下載工具GDC Apps和UCSC Xena就介紹到這里了!祝大家文章基金全都有,金銀財寶滾滾來! 關(guān)注后獲取《科研修煉手冊》1、2、3、4、5、6,基金篇精華合集 |
|
來自: 萌小芊 > 《統(tǒng)計》