轉(zhuǎn)載請注明出處!
# 常用生物信息數(shù)據(jù)庫的使用(一)
一切的生信分析乃至信息分析,最重要的就是數(shù)據(jù),如果沒有合適的數(shù)據(jù),那么分析也就是一紙空談呀。在接下來的項目經(jīng)驗分享中,我將從最基礎(chǔ)的數(shù)據(jù)庫的使用和數(shù)據(jù)解讀進行分享,希望可以給需要的人一些幫助~~~
# TCGA數(shù)據(jù)庫的使用(上)
網(wǎng)址:https://portal.gdc./
TCGA數(shù)據(jù)庫是癌癥分析中最常用到的數(shù)據(jù)庫,其對33種癌癥類型的20000多種原發(fā)性癌癥進行了分子鑒定,并且這些癌癥一定程度上匹配了癌旁的正常樣本。數(shù)據(jù)庫中包含了各種類型的數(shù)據(jù)例,如突變數(shù)據(jù),甲基化數(shù)據(jù),基因表達數(shù)據(jù)和拷貝數(shù)數(shù)據(jù)等等。在此主要以基因表達數(shù)據(jù)為例,對數(shù)據(jù)進行批量下載和解讀等。
## TCGA數(shù)據(jù)下載
用過TCGA數(shù)據(jù)庫的小伙伴大都知道,對于某一癌癥,就基因表達數(shù)據(jù)的樣本可能就有好幾百個,我們希望的當然是直接選中需要下載的所有數(shù)據(jù)點擊下載按鈕就可以下載數(shù)據(jù)了。但是TCGA數(shù)據(jù)庫直接通過網(wǎng)頁下載打包數(shù)據(jù)速度很慢還會斷(推測是因為國外網(wǎng)站的原因~)。因此TCGA的工具中自帶了數(shù)據(jù)批量下載的工具! https://gdc./access-data/gdc-data-transfer-tool
可通過鏈接下載該工具,該工具包含了命令形式和界面形式兩種類型。如果你擁有一定的Linux基礎(chǔ),那么推薦命令形式進行下載,如果你是生信小白或者是想要操作簡單那么我推薦界面友好式??????。無論是哪一種形式都需要下載metadata文件和manifest文件。在此主要詳細介紹小白式界面操作(willow一般都推薦簡單方便快捷的方式,這樣可以提高工作效率~~)
### 文件準備
準備好要研究的對應(yīng)癌癥的metadata文件和manifest文件。數(shù)據(jù)下載階段一般只需要用到manifest文件,可以在本地建一個專門的文件夾用來存放下載的數(shù)據(jù),設(shè)置好manifest對應(yīng)的文件路徑和數(shù)據(jù)存放的路徑就可以點擊‘Download’進行下載了,可能下載途中也會有部分的樣本因為網(wǎng)速或者其他原因被中斷,此時只需要將其選擇后加入下載隊列即可重新下載。是不是很簡單易學(xué),大家可以動手實操一下呀~~
### 文件名的處理
通過TCGA下載下來的樣本名是一系列的字母和數(shù)字組合而成的不規(guī)則的文件名,而我們是無法通過這些原始的ID名找到哪些屬于癌癥哪些屬于正常樣本或者哪些樣本是同一病人的。當然了解這些信息是需要對這些ID進行轉(zhuǎn)換的,轉(zhuǎn)換成例如TCGA-A6-6650-01A-11R-1774-07這樣的形式。這些信息則包含在之前提到的metadata文件中,需要通過腳本批量處理這些樣本名(后續(xù)會貼出腳本,供需要的人參考,但代碼寫的有點早了,感興趣的朋友可以自行優(yōu)化????)。一般在做TCGA數(shù)據(jù)分析的時候樣本名實際上只保留到前四個元素(以”-“分割),其中TCGA是數(shù)據(jù)庫標志,TCGA數(shù)據(jù)庫的所有樣本均已TCGA開頭;A6表示組織來源編碼;6650表示參與者編號。最重要的就是01A這維的信息,其中編號01-09表示腫瘤,10-19表示正常對照。