TCGA數(shù)據(jù)庫(kù)挖掘,構(gòu)建ceRNA調(diào)控網(wǎng)絡(luò) 生物信息學(xué)是將分子生物學(xué)與信息處理技術(shù)結(jié)合,以計(jì)算機(jī)為工具對(duì)生物信息進(jìn)行儲(chǔ)存、檢索和分析的交叉學(xué)科,其目的是利用各種數(shù)據(jù)庫(kù),分析整理其數(shù)據(jù)的意義而揭示大量復(fù)雜的生物數(shù)據(jù)所賦予的生物學(xué)奧秘。癌癥基因組圖譜(TCGA)數(shù)據(jù)庫(kù)是由美國(guó)國(guó)家癌癥研究所(NCI)及國(guó)家人類基因組研究所(NHGRI)聯(lián)合建立,其中包括豐富的數(shù)據(jù)類型和腫瘤類型,不需要任何費(fèi)用即可獲得大量數(shù)據(jù),其次在TCGA下載的數(shù)據(jù)已經(jīng)經(jīng)過(guò)了前期繁瑣的標(biāo)準(zhǔn)化處理,節(jié)省了人工處理時(shí)間和資源。 一、 數(shù)據(jù)下載 使用TCGA數(shù)據(jù)庫(kù)獲取CESC腫瘤和正常配對(duì)組織的基因數(shù)據(jù)及miRNA數(shù)據(jù)。得到3個(gè)正常樣本和304個(gè)CESC腫瘤樣本。分別做臨床分析、mRNA差異分析、lncRNA差異分析、miRNA差異分析、生存分析、ceRNA調(diào)控網(wǎng)絡(luò)構(gòu)建。 二、 臨床分析 TCGA改版后下載的Clinnical數(shù)據(jù)是XML文件,一個(gè)樣本一個(gè)XML文件,需要用Perl或者Python寫程序提取需要的數(shù)據(jù)。下表是CESC一部分臨床數(shù)據(jù),僅供交流。 三、 mRNA差異表達(dá) 1、如何得到矩陣文件? 下載的是counts文件,每個(gè)樣本的壓縮包保存在單獨(dú)的文件中。 首先需要把所有的壓縮包放在同一個(gè)文件夾內(nèi),統(tǒng)一解壓,然后從幾百個(gè)counts文件提取矩陣。得到Ensembl的矩陣,用Homo_sapiens.GRCh38.87.chr.gtf文件進(jìn)行轉(zhuǎn)換,得到symbol的矩陣,包括mRNA,和lncRNA及其他一起。 分別提取mRNA的矩陣和lncRNA的矩陣。 2、使用R的edgeR包,篩選條件|logFC|>2 & FDR<> 得到1933個(gè)差異基因,1195個(gè)下調(diào),738個(gè)上調(diào),部分差異基因如下表 四、lncRNA差異表達(dá) 1、獲得lncRNA矩陣 TCGA數(shù)據(jù)庫(kù)下載的轉(zhuǎn)錄數(shù)據(jù),包含mRNA和lncRNA,是在同一部分文件中,提取lncRNA矩陣選取antisense、lincRNA、sense_intronic等。 2、使用edgrR包,篩選條件|logFC|>2 & FDR<> 五、miRNA差異表達(dá) 1、首先需要獲得miRNA的矩陣文件,從TCGA下載下來(lái)的是每個(gè)樣本單獨(dú)的矩陣文件,需要利用perl或者python腳本提取,提取得到需要進(jìn)行分析的文本文件。 2、使用edgrR包,篩選條件|logFC|>2 & FDR<> 六、ceRNA網(wǎng)絡(luò)構(gòu)建 1、用在線工具,比如mircode,做lncRNA和miRNA的比對(duì),這一步是構(gòu)建ceRNA的關(guān)鍵。這里494個(gè)差異lncRNA和74個(gè)差異miRNA進(jìn)行比對(duì)。得到50個(gè)DElncRNA和18DEmiRNA相互作用。 2、miRNA靶基因預(yù)測(cè) 利用TargetScan、miRDB、miRanda、miRTarBase在線工具對(duì)18個(gè)miRNA進(jìn)行靶基因預(yù)測(cè),得到的靶基因在去和差異基因做淘汰,得到81個(gè)靶基因也就是DEmRNA。 3、構(gòu)建ceRNA網(wǎng)絡(luò) 經(jīng)過(guò)一次比對(duì),一次預(yù)測(cè),最終得到50個(gè)DElncRNA、18個(gè)DEmiRNA和81個(gè)DEmRNA,以及它們之間的相互關(guān)系。使用cytoscape對(duì)具有相關(guān)性的lncRNA、miRNA、miRNA靶基因進(jìn)行可視化。就可以得到ceRNA網(wǎng)絡(luò)。cytoscape的使用有很多學(xué)問,如何做出漂亮的圖需要很多時(shí)間和審美。 七、生存曲線 點(diǎn)擊購(gòu)買課程 |
|
來(lái)自: lwanghonglei > 《文件夾1》