2016年3月12日Gene Expression Omnibus database (GEO)是由NCBI負(fù)責(zé)維護(hù)的一個(gè)數(shù)據(jù)庫,設(shè)計(jì)初衷是為了收集整理各種表達(dá)芯片數(shù)據(jù),但是后來也加入了甲基化芯片,甚至高通量測(cè)序數(shù)據(jù)!
GEO Platform (GPL) 芯片平臺(tái) GEO Sample (GSM) 樣本ID號(hào) GEO Series (GSE) study的ID號(hào) GEO Dataset (GDS) 數(shù)據(jù)集的ID號(hào) ## 用法
只需要記住三個(gè)函數(shù),以及每個(gè)函數(shù)返回的對(duì)象該如何處理即可
getGEO/getGEOfile/getGEOSuppFiles 這三個(gè)函數(shù)根據(jù)上面的四種ID號(hào)下載數(shù)據(jù)時(shí)候,返回的對(duì)象還不一樣! 首先是下載和加載包: source("http://www./biocLite.R")
biocLite("GEOquery")
library(GEOquery)
然后是使用它!首先,我們介紹getGEO函數(shù)
gds858 <- getGEO(‘GDS858’, destdir=“.”) ##根據(jù)GDS號(hào)來下載數(shù)據(jù),下載soft文件 gpl96 <- getGEO(‘GPL96’, destdir=“.”) ##根據(jù)GPL號(hào)下載的是芯片設(shè)計(jì)的信息! gse1009 <- getGEO(‘GSE1009’, destdir=“.”)##根據(jù)GSE號(hào)下載數(shù)據(jù),下載_series_matrix.txt.gz
下載的文件都會(huì)保存在本地,destdir參數(shù)指定下載地址。 還有很多其它參數(shù)可以調(diào)整,學(xué)一個(gè)函數(shù)只需要看看它的幫助即可。 比較重要的三個(gè)參數(shù)是:GSEMatrix=TRUE,AnnotGPL=FALSE,getGPL=TRUE 返回的對(duì)象不一樣!針對(duì)返回對(duì)象的方法也不一樣! 下載GDS返回的對(duì)象gds858返回的對(duì)象很復(fù)雜 用Table(gds858)可以得到表達(dá)矩陣! 用Meta(gds858)可以得到描述信息 options(warn=-1)
suppressMessages(library(GEOquery))
gds858 <- getGEO('GDS858', destdir=".")
names(Meta(gds858))
Table(gds858)[1:5,1:5]
然后還可以用 GDS2eSet函數(shù)把它轉(zhuǎn)變?yōu)閑xpression set 對(duì)象 eset <- GDS2eSet(gds858, do.log2=TRUE) 下載GSE返回的對(duì)象也就是直接根據(jù)GSE號(hào)返回的對(duì)象:gse1009 我們的處理函數(shù)有:geneNames/sampleNames/pData/exprs(這個(gè)是重點(diǎn),對(duì)expression set 對(duì)象的操作函數(shù)) 下載GPL返回的對(duì)象但是根據(jù)GPL號(hào)下載返回的對(duì)象跟GDS一樣,也是用Table/Meta處理! options(warn=-1)
suppressMessages(library(GEOquery))
gpl96 <- getGEO('GPL96', destdir=".")
names(Meta(gpl96))
Table(gpl96)[1:10,1:4]
Table(gpl96)[1:10,c("ID","GB_LIST","Gene.Title","Gene.Symbol","Entrez.Gene")]
getGEO除了可以下載數(shù)據(jù),還可以打開本地?cái)?shù)據(jù)! gds858 <- getGEO(filename=‘GDS858.soft.gz’) 還可以下載所有的cel原始文件!tmp=getGEOSuppFiles(GSE1009)
if (is.null(tmp)) {
warning("Supplementary data files not provided!\nyou should check this GEO ID in NCBI\n")
}
|