一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

3種方法注釋你的甲基化探針

 健明 2021-07-14

關(guān)于表達(dá)芯片的公共數(shù)據(jù)庫挖掘我這邊以及差不多把改寫的推文在2年前就寫完了,但表達(dá)芯片畢竟只占芯片市場的半壁江山,還有大量的非表達(dá)芯片,比如大名鼎鼎的甲基化芯片。關(guān)于甲基化,我們公眾號教程非常少,主要是因為我本人在短暫的6年生物信息學(xué)工作經(jīng)驗中并沒有實際負(fù)責(zé)過這樣的項目,而我們公眾號90%教程都是我寫的,極少的投稿里面,只有 850K甲基化芯片數(shù)據(jù)的分析 讓我印象深刻,所以我的學(xué)徒也是跟著這個教程在學(xué)習(xí)甲基化芯片數(shù)據(jù)處理。

但是學(xué)徒反饋說這個教程沒有提到芯片的探針如何注釋到基因,所以就安排他做了這個補充,下面讓我們看學(xué)徒的表演!

甲基化芯片背景

甲基化芯片原理:https://www.jianshu.com/p/c4f758e0399d

芯片主要分為EPIC和450k兩種,EIPC也就是850k,兩種探針的都是以cg開頭的數(shù)字編號,所謂注釋也就是提取這些探針的所對應(yīng)的信息,例如,探針序列的CpG位置信息,對應(yīng)的基因信息,染色體上的位置信息,等等。很多包在安裝的時候都會自動下載這些注釋信息,并包裝在一起,如果我們想要自己注釋這些探針,就要考慮如何獲取獨立的注釋信息。而所需要注釋數(shù)據(jù)的,大部分都來自于兩個數(shù)據(jù)庫,GEO和TCGA。

下面介紹三種提取注釋信息的方法

# 方法一:從UCSC Xena下載

直接從UCSC Xena相應(yīng)的癌癥甲基化數(shù)據(jù)庫里下載對應(yīng)的文件??梢钥吹绞莵碜訥PL16304平臺的芯片,其實和下面要介紹的從GEO下載注釋信息是一樣的,不過TCGA的探針數(shù)可能會少于45w,大約39w,因為提前過濾了一些低質(zhì)量的探針。


# 方法二:從GEO下載對應(yīng)平臺的注釋文件

在GEO的官網(wǎng)platform下搜索Illumina HumanMethylation450,可以看到450k的芯片主要來自三個平臺,探針數(shù)也是不一樣的,TCGA中下載時一般都會標(biāo)明來自那個平臺,從GEO中下載數(shù)據(jù)都會得知平臺的信息。直接進(jìn)入對應(yīng)平臺的介紹就可以了。

看一下最常見的GPL13534平臺的內(nèi)容

可以看到有1295個GSE數(shù)據(jù)集來自這個平臺,可以利用的數(shù)據(jù)相當(dāng)多,這里給出了一部分?jǐn)?shù)據(jù)的概覽

表格中展示了部分信息,直接下載然后就可以提取我們需要的注釋信息了,485577個探針一個不差,可能是因為我網(wǎng)速的問題,只有下載CSV這個的時候速度比較快,其他速度都非常感人

可以看到信息非常全面了,但實際上我們并用不到這么多,有下面這些就夠了
ids<-a[,c("IlmnID",
          "Infinium_Design_Type",
          "CHR",
          "UCSC_RefGene_Name",
          "UCSC_RefGene_Group",
          "UCSC_CpG_Islands_Name",
          "Relation_to_UCSC_CpG_Island")]

#可以看到,包含了探針的名稱,探針類型(可用來去批次),染色體編號,對應(yīng)的基因名,在染色體上的位置信息,以及與CpG島的位置信息,這樣就可以注釋差異的探針了

# 方法三:從ChAMP包中提取

這個方法嚴(yán)格來說其實是從ChAMP依賴的兩個注釋包中提取的,但是我又懶又笨,懶得看原始的包里數(shù)據(jù)藏在哪里了,ChAMP包在做甲基化分析的時候也很方便,而其中champ.filter函數(shù)直接就提取好了

myimport <- champ.import(directory=system.file("extdata",package="ChAMPdata"))
myImport=myimport#包里的演示代碼有個小細(xì)節(jié)錯了,沒有區(qū)分大小寫,無傷大雅的
myfilter <- champ.filter(beta=myImport$beta,pd=myImport$pd,detP=myImport$detP,beadcount=myImport$beadcount)
View(hm450.manifest.hg19)
View(probe.features)#兩個信息是一樣的,包已經(jīng)把我們需要的信息自動提取了

850k和450k本質(zhì)上沒有什么區(qū)別,所以方法都是通用的。

寫在后面

以上教程,來自于2019年9月份學(xué)徒,謝謝大家觀看!

實際上,芯片探針如果有坐標(biāo),也可以參考:對bed格式的基因組區(qū)間文件進(jìn)行基因注釋

表達(dá)芯片的公共數(shù)據(jù)庫挖掘系列推文感興趣的也可以去看看;

10月巡講

1

南京場

10.12-10.14

2

南寧場

10.26-10.28


課程內(nèi)容

1

生信R語言入門

2

GEO數(shù)據(jù)庫挖掘

5

生信-Linux基礎(chǔ)

6

轉(zhuǎn)錄組課題設(shè)計與流程分析

    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多

    国产精品视频一区麻豆专区| 夫妻激情视频一区二区三区 | 日韩高清一区二区三区四区| 99国产高清不卡视频| 亚洲性日韩精品一区二区| 国内自拍偷拍福利视频| 国产亚洲中文日韩欧美综合网| 国产又大又硬又粗又湿| 毛片在线观看免费日韩| 99久久成人精品国产免费| 丰满人妻少妇精品一区二区三区| 中文字幕乱码一区二区三区四区| 国产福利一区二区三区四区| 欧美精品一区二区水蜜桃| av在线免费播放一区二区| 日韩专区欧美中文字幕| 国产精品蜜桃久久一区二区| 久久99国产精品果冻传媒| 国产目拍亚洲精品区一区| 久久99夜色精品噜噜亚洲av| 青青操日老女人的穴穴| 91久久国产福利自产拍| 六月丁香六月综合缴情| 一区二区三区日韩经典| 精品香蕉一区二区在线| 热久久这里只有精品视频| 极品熟女一区二区三区| 国产精品伦一区二区三区四季| 日韩欧美在线看一卡一卡| 久久精品国产亚洲熟女| 欧美日韩少妇精品专区性色| 亚洲中文字幕一区三区| 激情三级在线观看视频| 亚洲高清一区二区高清| 日韩国产精品激情一区| 国产中文字幕一区二区| 亚洲欧美中文字幕精品| 日韩美女偷拍视频久久| 欧美精品专区一区二区| 亚洲一区二区精品福利| 国产一区国产二区在线视频|