GEO數(shù)據(jù)庫里面有四種數(shù)據(jù) At the most basic level of organization of GEO, there are four basic entity types. The first three (Sample, Platform, and Series) are supplied by users; the fourth, the dataset, is compiled and curated by GEO sta from the user-submitted data. GEO accession number (GPLxxx). GEO accession number (GSMxxx) GEO accession number (GSExxx). GEO DataSets (GDSxxx) 記住大小關(guān)系:一個GDS可以有多個GSM,一個GSM可以有多個GSE,至于GPL,一般不接觸的 我們通常接觸的都是GSE系列(一個GSE里面有多個GSM)的數(shù)據(jù),而且這個包最重要的就是一個getGEO函數(shù)。 只要你通過文獻(xiàn)確定了你的檢索號,就可以通過這個函數(shù)來下載啦 檢索號一般是A character string representing a GEO object for download and parsing. (eg., ‘GDS505′,’GSE2′,’GSM2′,’GPL96′ 這個函數(shù)有很多參數(shù),除非你需要下載的文件,那么就設(shè)置destdir到你喜歡的目錄,如果只需要表達(dá)量數(shù)據(jù)就不用了。 getGEO(GEO = NULL, filename = NULL, destdir = tempdir(), GSElimits=NULL, GSEMatrix=TRUE,AnnotGPL=FALSE) 例如: gds <- getgeo(“gds10″)="">-> gse2553 <->-> GDS2eSet函數(shù)可以把上面這個下載函數(shù)得到的對象(要確定是GDS而不是GSE)變成表達(dá)對象 pData和exprs函數(shù)都可以處理上面這個表達(dá)對象,從而分別得到樣品描述矩陣和樣品表達(dá)量矩陣 綜合一起就是 g4100 <->-> g4102 <->-> e4102<> e4100<> 這樣的代碼,這個e4100和e4102就都是一個數(shù)值矩陣?yán)?,可以進(jìn)行下游分析,但是如果是下載的GSM數(shù)據(jù) 就用下面這個代碼,GSE26253_series_matrix.txt是通過GSEMatrix=TRUE這個參數(shù)特意下載到你的目錄的 expr_dat=read.table(“GSE26253_series_matrix.txt”,comment.char=”!”,stringsAsFactors=F) 這樣讀取也是一個數(shù)值矩陣 具體大家可以看這個包的說明書 #Download GDS file, put it in the current directory, and load it:gds858 <- getgeo('gds858',="" destdir='.' )如果使用了gsematrix="TRUE這個參數(shù),那么除了下載soft文件,還有表達(dá)量矩陣文件,可以直接用read.table讀取那個文件。#Or," open="" an="" existing="" gds="" file="" (even="" if="" its="" compressed):gds858="">-><- getgeo(filename='GDS858.soft.gz'>-> |
|