做數(shù)據(jù)挖掘最有意思的地方并不在于最終挖到了什么,而是當(dāng)你試圖去了解你的數(shù)據(jù)時(shí),不斷出現(xiàn)的驚喜和意外! 兩期的科普: 兩期的基礎(chǔ): 相信大家已經(jīng)對(duì)TCGA中的RNA數(shù)據(jù)有了一個(gè)初步的了解,可能很多小伙伴難以理解為啥還沒(méi)到講到后續(xù)數(shù)據(jù)分析? 因?yàn)槿绻氵B自己手里的數(shù)據(jù)都不了解,往下做的意義在哪呢?等到得出錯(cuò)誤結(jié)論才想到是不是自己的數(shù)據(jù)哪里有問(wèn)題嗎? 生信控可不推囫圇吞棗式的文章喲~ 我們?cè)ㄗh從GDC Legacy Archive上按平臺(tái)去下載TCGA數(shù)據(jù),例如對(duì)于RNA表達(dá)數(shù)據(jù),可選擇下載Hiseq或者GA測(cè)序平臺(tái)的數(shù)據(jù),所以甚至可以忽略GDC Data Portal不用。但是,GDC Data Portal和GDC Legacy Archive中存儲(chǔ)的以及用戶所能下載到的數(shù)據(jù)還是有本質(zhì)區(qū)別的,所以如果GDC Legacy Archive中的數(shù)據(jù)不能滿足現(xiàn)在的需求,而必須轉(zhuǎn)向GDC Data Portal,或者新手就想從TCGA默認(rèn)的途徑去下載數(shù)據(jù)的時(shí)候,怎么辦? 那就用GDC Data Portal,但是: 分析數(shù)據(jù)之前絕對(duì)不僅僅只有數(shù)據(jù)下載這一件事情需要去做! 本期以COAD-RNA數(shù)據(jù)為例,帶大家來(lái)了解下從GDC Data Portal下載好數(shù)據(jù)后,在分析前需要注意什么! 1、使用TCGAbiolinks從GDC Data Portal上下載FPKM-UQ數(shù)據(jù) 代碼見(jiàn)TCGA-RNA數(shù)據(jù)下載全攻略,結(jié)果文件如下: 60483個(gè)基因在521個(gè)樣本中的表達(dá)數(shù)據(jù) 注意樣本中有9個(gè)重復(fù): 如上,分別是: TCGA-A6-2674-01A、TCGA-A6-2684-01A TCGA-A6-3809-01A、TCGA-A6-3810-01A TCGA-A6-5656-01A、TCGA-A6-5659-01A TCGA-A6-6650-01A、TCGA-A6-6780-01A TCGA-A6-6781-01A,所以實(shí)際去重后只能保留512個(gè)樣本。 重復(fù)樣本怎么處理,詳見(jiàn) TCGA樣本命名詳解! 2、使用TCGAbiolinks從GDC Legacy Archive上下載Hiseq平臺(tái)的RSEM數(shù)據(jù) 代碼見(jiàn)TCGA-RNA數(shù)據(jù)下載全攻略,結(jié)果文件如下: 20502個(gè)基因在328個(gè)樣本中的表達(dá)數(shù)據(jù),無(wú)重復(fù)樣本: 3、使用TCGAbiolinks從GDC Legacy Archive上下載GA平臺(tái)的RSEM數(shù)據(jù) 結(jié)果文件如下: 20502個(gè)基因在193個(gè)樣本中的表達(dá)數(shù)據(jù),無(wú)重復(fù)樣本: 數(shù)據(jù)了解1: 所以GDC Data Portal中樣本總數(shù)(521)與GDC Legacy Archive中兩平臺(tái)樣本量(328+193)總和一致,那是不是就是兩平臺(tái)樣本的簡(jiǎn)單組合,類似COADREAD呢? 看個(gè)文氏圖: 由上圖可知,對(duì)于COAD癌型,GDC Data Portal完全包含了GDC Legacy Archive中Hiseq平臺(tái)的樣本,包含絕大部分GA平臺(tái)的樣本,所以GDC Data Portal中的樣本并非GDC Legacy Archive中兩平臺(tái)測(cè)的樣本的簡(jiǎn)單加和,且除此之外,還有13個(gè)新樣本! 所以這13個(gè)樣本到底是什么鬼? 小編做了一個(gè)測(cè)試,如下: 總結(jié)來(lái)說(shuō),GDC Data Portal中多出的樣本為一個(gè)患者重復(fù)測(cè)序的樣本(這個(gè)患者之前已經(jīng)在GDC Legacy Archive中用Hiseq或者GA平臺(tái)測(cè)過(guò))!所以在GDC Data Portal中,對(duì)于同一患者,不僅有-01A和-01A的重復(fù),還有-01B/C和-01A的重復(fù),所以冗余比較大,而這些冗余樣本在后續(xù)分析前應(yīng)該去除! 數(shù)據(jù)了解2: 既然GDC Data Portal中的樣本包含了兩種測(cè)序平臺(tái),那到底有沒(méi)有因平臺(tái)差異而導(dǎo)致的批次效應(yīng)? 其實(shí),小編看到多數(shù)基于GDC Data Portal數(shù)據(jù)的文章中,都未提及平臺(tái)和批次效應(yīng)的問(wèn)題!當(dāng)然其中有例如肺鱗癌 (lung squamous cell carcinoma, LUSC)等多種癌型只有Hiseq平臺(tái)測(cè)的樣本,也有文章提到說(shuō)是從GDC Data Portal中下載的Hiseq平臺(tái)的數(shù)據(jù),但實(shí)際并未排除GA測(cè)的樣本! 所以要不要矯正批次效應(yīng),還是要數(shù)據(jù)說(shuō)了算,只不過(guò)分析的人要認(rèn)真對(duì)待 # FPKM_UQ數(shù)據(jù)中屬于Hiseq平臺(tái)的患者數(shù)據(jù): Hiseq_in_DataPortal = log2(D_coad_FPKM_UQ[,colnames(LH_coad)]+1) # FPKM_UQ數(shù)據(jù)中屬于GA平臺(tái)的患者數(shù)據(jù): GA_in_DataPortal = log2(D_coad_FPKM_UQ[,intersect(colnames(D_coad),colnames(LG_coad))]+1) # 繪制PCA圖
可見(jiàn),樣本按測(cè)序平臺(tái)有個(gè)比較明顯的區(qū)分,所謂的批次效應(yīng)( batch effect ),后續(xù)分析前必須要處理!否則得到的結(jié)論可能就是偏倚或者錯(cuò)誤的了哦~ 小編的建議: 1、如果能滿足需求,使用TCGAbiolinks下載GDC Legacy Archive的數(shù)據(jù)使用; 2、需要使用GDC Data Portal數(shù)據(jù)時(shí),先確定自己要研究的癌型數(shù)據(jù)是否包含多平臺(tái); 3、如果含多平臺(tái),則分別處理分析! 不管是不是自己做分析,一定要引起重視哦!
|
|