GEO數(shù)據(jù)庫是NCBI開發(fā)的基因表達數(shù)據(jù)庫,主要接收通過高通量測序、基因芯片等方法獲得的基因表達數(shù)據(jù)——這就方便大家利用他人數(shù)據(jù)發(fā)文章了。 而進行GEO數(shù)據(jù)挖掘的第一步就是進行數(shù)據(jù)下載,但是進入網(wǎng)站點點來下載,查詢搜索工作就不少,下載下來的數(shù)據(jù)還不一定能看懂。有沒有什么方法可以解決這個問題呢?當然有——R包GEOquery!下面就針對芯片數(shù)據(jù),教大家用GEOquery包完成下載工作。 GEO數(shù)據(jù) 在下載之前要先了解GEO數(shù)據(jù)庫具體存放的四類數(shù)據(jù):GSE、GDS、GSM、和GPL。 一個GSE Accession對應的是整個研究項目的系列的數(shù)據(jù),可能涉及不同平臺; 一個GDS Accession對應的一個同一平臺的數(shù)據(jù)集; 一個GSM Accession對應單一樣品的數(shù)據(jù)信息,它只能是單一平臺的數(shù)據(jù),往往,GSE 和GDS中會包含多個GSM數(shù)據(jù); 一個GPL Accession,則對應一個platform信息。 R包安裝與加載 GEOquery ## try http:// if https:// URLs are not supported Biobase ## try http:// if https:// URLs are not supported 正確加載 library('Biobase') 利用GSE Accession 通過閱讀文獻查找感興趣的GSE Accession,下載對應的表達數(shù)據(jù)和平臺信息等,可以利用GEOquery中的getGEO()函數(shù)下載series_matrix.txt。例如GSE70213: > gse = getGEO('GSE70213', GSEMatrix =TRUE, destdir = '.', getGPL = T, AnnotGPL = T) gse為列表數(shù)據(jù),對應的GSM是單平臺,則length為1,之后分別利用Biobase包中的exprs()、pData()和fData()獲得表達數(shù)據(jù)、樣品處理分組等信息、芯片平臺的設計注釋信息,還可以利用annotation()函數(shù)了解對應GPL Accession,譬如exprs()函數(shù): > exprSet=exprs(gse[[1]]) 注釋信息的獲取可以進行探針和基因的對應,方便后續(xù)分析。通過exprs()、pData()和fData()獲得的數(shù)據(jù)都可以利用write.table等進行文件保存。 利用GDS Accession GDS數(shù)據(jù)同樣可以利用getGEO()函數(shù)下載soft文件。例如GDS5881: > gds = getGEO('GDS5881', GSEMatrix =TRUE, destdir = '.', getGPL = T, AnnotGPL = T) gds可以利用GEOquery包中的Table()獲取表達數(shù)據(jù),并利用Meta()獲得描述信息,其中Meta(gds)$platform可以獲得GPL Accession。 > exprSet=Table(gds) 針對getGEO返回的gds——GDS數(shù)據(jù),可以利用GEOquery包中GDS2Set()和GDS2MA()轉(zhuǎn)變?yōu)闉镋xpressionSets 和limma MALists。 > gds2eSet=GDS2eSet(gds) 再針對返回的gds2eSet,利用exprs()、pData()和fData()同樣可以獲得表達數(shù)據(jù)、樣品處理分組信息、芯片平臺的設計注釋信息。返回的MA中涉及大量的描述信息,其中MA$tragets也是樣品處理信息。 利用GSM Accession 利用GSM Accession下載的是單樣本的表達數(shù)據(jù),例如GSM1720833: > gsm = getGEO('GSM1720833', GSEMatrix =TRUE, destdir = '.', getGPL = T, AnnotGPL = T) 針對gsm,同樣是利用GEOquery包中的Table()獲取表達數(shù)據(jù),并利用Meta()獲得描述信息,而獲取對應的GSE Accession 和GPL Accsesion利用Meta(gsm)$series_id和Meta(gsm)$platform_id。 利用GPL Accession 針對芯片平臺,利用GPL Accession下載得到的數(shù)據(jù)是芯片的設計和注釋信息,可以獲得探針組和基因的對應關系,利用Table()函數(shù)可以顯示annotation,例如GPL6246: > gpl = getGEO('GPL6246', GSEMatrix =TRUE, destdir = '.', getGPL = T, AnnotGPL = T) 總結(jié) 以上數(shù)據(jù),最終都可以通過下載整理之后保存成后續(xù)分析的文件,相比之手動下載,利用R包會更便捷快速。大家也可以自行整理代碼批量下載數(shù)據(jù)哦! |
|