一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

數(shù)據(jù)挖掘?qū)n} | GDC:我們不一樣!

 unicheng 2018-04-09

做數(shù)據(jù)挖掘最有意思的地方并不在于最終挖到了什么,而是當(dāng)你試圖去了解你的數(shù)據(jù)時(shí),不斷出現(xiàn)的驚喜和意外!


兩期的科普:

TCGA樣本命名詳解

GDC中的癌型詳解( TCGA、TARGET、FM )


兩期的基礎(chǔ):

關(guān)于TCGA中的mRNA數(shù)據(jù)

TCGA-RNA數(shù)據(jù)下載全攻略


相信大家已經(jīng)對(duì)TCGA中的RNA數(shù)據(jù)有了一個(gè)初步的了解,可能很多小伙伴難以理解為啥還沒(méi)到講到后續(xù)數(shù)據(jù)分析?

因?yàn)槿绻氵B自己手里的數(shù)據(jù)都不了解,往下做的意義在哪呢?等到得出錯(cuò)誤結(jié)論才想到是不是自己的數(shù)據(jù)哪里有問(wèn)題嗎?


生信控可不推囫圇吞棗式的文章喲~


我們?cè)ㄗh從GDC Legacy Archive上按平臺(tái)去下載TCGA數(shù)據(jù),例如對(duì)于RNA表達(dá)數(shù)據(jù),可選擇下載Hiseq或者GA測(cè)序平臺(tái)的數(shù)據(jù),所以甚至可以忽略GDC Data Portal不用。但是,GDC Data Portal和GDC Legacy Archive中存儲(chǔ)的以及用戶所能下載到的數(shù)據(jù)還是有本質(zhì)區(qū)別的,所以如果GDC Legacy Archive中的數(shù)據(jù)不能滿足現(xiàn)在的需求,而必須轉(zhuǎn)向GDC Data Portal,或者新手就想從TCGA默認(rèn)的途徑去下載數(shù)據(jù)的時(shí)候,怎么辦?


那就用GDC Data Portal,但是:

分析數(shù)據(jù)之前絕對(duì)不僅僅只有數(shù)據(jù)下載這一件事情需要去做!


本期以COAD-RNA數(shù)據(jù)為例,帶大家來(lái)了解下從GDC Data Portal下載好數(shù)據(jù)后,在分析前需要注意什么!

1、使用TCGAbiolinks從GDC Data Portal上下載FPKM-UQ數(shù)據(jù)

代碼見(jiàn)TCGA-RNA數(shù)據(jù)下載全攻略,結(jié)果文件如下:


60483個(gè)基因在521個(gè)樣本中的表達(dá)數(shù)據(jù)

注意樣本中有9個(gè)重復(fù)


如上,分別是:

TCGA-A6-2674-01A、TCGA-A6-2684-01A

TCGA-A6-3809-01A、TCGA-A6-3810-01A

TCGA-A6-5656-01A、TCGA-A6-5659-01A

TCGA-A6-6650-01A、TCGA-A6-6780-01A

TCGA-A6-6781-01A,所以實(shí)際去重后只能保留512個(gè)樣本。


重復(fù)樣本怎么處理,詳見(jiàn) TCGA樣本命名詳解!


2、使用TCGAbiolinks從GDC Legacy Archive上下載Hiseq平臺(tái)的RSEM數(shù)據(jù)

代碼見(jiàn)TCGA-RNA數(shù)據(jù)下載全攻略,結(jié)果文件如下:


20502個(gè)基因在328個(gè)樣本中的表達(dá)數(shù)據(jù),無(wú)重復(fù)樣本:



3、使用TCGAbiolinks從GDC Legacy Archive上下載GA平臺(tái)的RSEM數(shù)據(jù)

結(jié)果文件如下:


20502個(gè)基因在193個(gè)樣本中的表達(dá)數(shù)據(jù),無(wú)重復(fù)樣本:



數(shù)據(jù)了解1:

所以GDC Data Portal中樣本總數(shù)(521)與GDC Legacy Archive中兩平臺(tái)樣本量(328+193)總和一致,那是不是就是兩平臺(tái)樣本的簡(jiǎn)單組合,類似COADREAD呢?

看個(gè)文氏圖:


由上圖可知,對(duì)于COAD癌型,GDC Data Portal完全包含了GDC Legacy Archive中Hiseq平臺(tái)的樣本,包含絕大部分GA平臺(tái)的樣本,所以GDC Data Portal中的樣本并非GDC Legacy Archive中兩平臺(tái)測(cè)的樣本的簡(jiǎn)單加和,且除此之外,還有13個(gè)新樣本!


所以這13個(gè)樣本到底是什么鬼?

小編做了一個(gè)測(cè)試,如下:


總結(jié)來(lái)說(shuō),GDC Data Portal中多出的樣本為一個(gè)患者重復(fù)測(cè)序的樣本(這個(gè)患者之前已經(jīng)在GDC Legacy Archive中用Hiseq或者GA平臺(tái)測(cè)過(guò))!所以在GDC Data Portal中,對(duì)于同一患者,不僅有-01A和-01A的重復(fù),還有-01B/C和-01A的重復(fù),所以冗余比較大,而這些冗余樣本在后續(xù)分析前應(yīng)該去除!


數(shù)據(jù)了解2:

既然GDC Data Portal中的樣本包含了兩種測(cè)序平臺(tái),那到底有沒(méi)有因平臺(tái)差異而導(dǎo)致的批次效應(yīng)?

其實(shí),小編看到多數(shù)基于GDC Data Portal數(shù)據(jù)的文章中,都未提及平臺(tái)和批次效應(yīng)的問(wèn)題!當(dāng)然其中有例如肺鱗癌 (lung squamous cell carcinoma, LUSC)等多種癌型只有Hiseq平臺(tái)測(cè)的樣本,也有文章提到說(shuō)是從GDC Data Portal中下載的Hiseq平臺(tái)的數(shù)據(jù),但實(shí)際并未排除GA測(cè)的樣本!


所以要不要矯正批次效應(yīng),還是要數(shù)據(jù)說(shuō)了算,只不過(guò)分析的人要認(rèn)真對(duì)待


# FPKM_UQ數(shù)據(jù)中屬于Hiseq平臺(tái)的患者數(shù)據(jù):

Hiseq_in_DataPortal = log2(D_coad_FPKM_UQ[,colnames(LH_coad)]+1)

# FPKM_UQ數(shù)據(jù)中屬于GA平臺(tái)的患者數(shù)據(jù):

GA_in_DataPortal = log2(D_coad_FPKM_UQ[,intersect(colnames(D_coad),colnames(LG_coad))]+1)

# 繪制PCA圖

                      

可見(jiàn),樣本按測(cè)序平臺(tái)有個(gè)比較明顯的區(qū)分,所謂的批次效應(yīng)( batch effect ),后續(xù)分析前必須要處理!否則得到的結(jié)論可能就是偏倚或者錯(cuò)誤的了哦~


小編的建議

1、如果能滿足需求,使用TCGAbiolinks下載GDC Legacy Archive的數(shù)據(jù)使用;

2、需要使用GDC Data Portal數(shù)據(jù)時(shí),先確定自己要研究的癌型數(shù)據(jù)是否包含多平臺(tái);

3、如果含多平臺(tái),則分別處理分析!


不管是不是自己做分析,一定要引起重視哦!

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多

    台湾综合熟女一区二区| 日韩国产传媒在线精品| 少妇丰满a一区二区三区| 久久精品欧美一区二区三不卡| 日本加勒比不卡二三四区| 夫妻激情视频一区二区三区| 成年人黄片大全在线观看| 亚洲日本韩国一区二区三区| 国产老熟女超碰一区二区三区| 亚洲中文字幕视频在线观看| 欧美日韩中国性生活视频 | 99国产高清不卡视频| 欧美精品一区二区三区白虎| 亚洲性日韩精品一区二区| 日本熟妇五十一区二区三区| 日韩一区二区三区免费av| 久久福利视频视频一区二区| 国语对白刺激高潮在线视频| 亚洲欧美日韩在线看片| 人妻人妻人人妻人人澡| 欧美自拍偷自拍亚洲精品| 亚洲欧美日韩中文字幕二欧美 | 婷婷开心五月亚洲综合| 在线懂色一区二区三区精品| 老外那个很粗大做起来很爽| 午夜福利视频偷拍91| 精品少妇一区二区三区四区| 亚洲午夜av久久久精品| 中文字幕日韩精品人一妻| 久久热在线视频免费观看| 国产成人综合亚洲欧美日韩| 99国产高清不卡视频| 香蕉尹人视频在线精品| 天堂热东京热男人天堂| 亚洲精品黄色片中文字幕| 日韩精品中文字幕亚洲| 国产大屁股喷水在线观看视频 | 绝望的校花花间淫事2| 大香蕉伊人一区二区三区| 欧美亚洲91在线视频| 女人高潮被爽到呻吟在线观看|