甲基化芯片背景甲基化芯片原理:https://www.jianshu.com/p/c4f758e0399d 芯片主要分為EPIC和450k兩種,EIPC也就是850k,兩種探針的都是以cg開頭的數(shù)字編號,所謂注釋也就是提取這些探針的所對應(yīng)的信息,例如,探針序列的CpG位置信息,對應(yīng)的基因信息,染色體上的位置信息,等等。很多包在安裝的時候都會自動下載這些注釋信息,并包裝在一起,如果我們想要自己注釋這些探針,就要考慮如何獲取獨立的注釋信息。而所需要注釋數(shù)據(jù)的,大部分都來自于兩個數(shù)據(jù)庫,GEO和TCGA。 下面介紹三種提取注釋信息的方法 # 方法一:從UCSC Xena下載直接從UCSC Xena相應(yīng)的癌癥甲基化數(shù)據(jù)庫里下載對應(yīng)的文件??梢钥吹绞莵碜訥PL16304平臺的芯片,其實和下面要介紹的從GEO下載注釋信息是一樣的,不過TCGA的探針數(shù)可能會少于45w,大約39w,因為提前過濾了一些低質(zhì)量的探針。 # 方法二:從GEO下載對應(yīng)平臺的注釋文件在GEO的官網(wǎng)platform下搜索Illumina HumanMethylation450,可以看到450k的芯片主要來自三個平臺,探針數(shù)也是不一樣的,TCGA中下載時一般都會標(biāo)明來自那個平臺,從GEO中下載數(shù)據(jù)都會得知平臺的信息。直接進(jìn)入對應(yīng)平臺的介紹就可以了。 表格中展示了部分信息,直接下載然后就可以提取我們需要的注釋信息了,485577個探針一個不差,可能是因為我網(wǎng)速的問題,只有下載CSV這個的時候速度比較快,其他速度都非常感人 ids<-a[,c("IlmnID", # 方法三:從ChAMP包中提取這個方法嚴(yán)格來說其實是從ChAMP依賴的兩個注釋包中提取的,但是我又懶又笨,懶得看原始的包里數(shù)據(jù)藏在哪里了,ChAMP包在做甲基化分析的時候也很方便,而其中 myimport <- champ.import(directory=system.file("extdata",package="ChAMPdata")) 850k和450k本質(zhì)上沒有什么區(qū)別,所以方法都是通用的。 寫在后面以上教程,來自于2019年9月份學(xué)徒,謝謝大家觀看! 實際上,芯片探針如果有坐標(biāo),也可以參考:對bed格式的基因組區(qū)間文件進(jìn)行基因注釋 表達(dá)芯片的公共數(shù)據(jù)庫挖掘系列推文感興趣的也可以去看看; 10月巡講
|
|