對于GEO中的芯片數(shù)據(jù)來說,常包含兩種類型的數(shù)據(jù)可供下載: 1、原始數(shù)據(jù) -> Raw data 【Supplementary data files】 2、預(yù)處理數(shù)據(jù) -> Series data 【Series Matirx Files】 以Affy HG-U133A平臺數(shù)據(jù)的GSE994為例: Series data和Raw data均可點擊直接下載,但是有的數(shù)據(jù)集并未提供原始數(shù)據(jù),如: 此時,只能下載預(yù)處理的數(shù)據(jù),即Series data。當(dāng)然,也有時候Supplementary下的數(shù)據(jù)并非最原始的數(shù)據(jù)... In some cases there is a consensus in the field. For Affymetrix gene expression microarrays, 'raw' files are so-called CEL files (a file format invented by Affymetrix) and 'processed' data is normalized and quantified data, summarized at the probeset level. 小編在寫這篇文章之前一直是手動下載的,因為反正要進(jìn)到GEO數(shù)據(jù)庫里看詳細(xì)的數(shù)據(jù)信息,下載也是順便的事情,并不繁瑣。所以本次測試GEOquery是看看能不能更方便的得到更多的數(shù)據(jù)信息,或者有想要用R一次性解決所有問題的小伙伴呢? 在R中用GEOquery下載GEO數(shù)據(jù)庫中的數(shù)據(jù): https:///packages/release/bioc/html/GEOquery.html The NCBI Gene Expression Omnibus (GEO) is a public repository of microarray data. Given the rich and varied nature of this resource, it is only natural to want to apply BioConductor tools to these data. GEOquery is the bridge between GEO and BioConductor. ### GEOquery 安裝 source('https:///biocLite.R') biocLite('GEOquery') # 如果報錯缺少依賴包時,安裝一下缺的包即可 library(GEOquery) ### 使用 本次測試數(shù)據(jù)集GSE11675,包含HG_U95Av2芯片平臺產(chǎn)生的6個樣本數(shù)據(jù),如下: eList <> getGEO('GSE11675') 注意,對于該數(shù)據(jù)集,默認(rèn)情況下,GSE11675_series_matrix.txt.gz 和 GPL8300.soft 文件會被下載在tempdir()目錄下,可以通過destdir參數(shù)修改至自己預(yù)期的目錄下,當(dāng)然如果斷開了,又重新運(yùn)行命令的時候,可能會報如下錯誤: 說實話,不知道問題出在哪里,換套數(shù)據(jù)也報錯…【手殘黨一把辛酸淚??!】 經(jīng)過反復(fù)調(diào)試,目前已知的一個解決方案就是換個destdir目錄(但凡用過的destdir就不要用了): eList <->->, destdir = 'newdir') # newdir換成自己的目錄 GSE11675_series_matrix.txt.gz是下下來了,芯片注釋soft文件還是下不動,網(wǎng)上給出的意見也很統(tǒng)一啊,手動下了再放到destdir目錄下! 好吧,我用這個GEOquery就是為了下載方便,你讓手動下... 在線下載注釋文件: https://www.ncbi.nlm./geo/query/acc.cgi?acc=GPL8300 解壓后將GPL8300.annot更名為GPL8300.soft,然后再放到destdir目錄下: eList <->->, destdir = 'newdir') 此時會自動識別并讀取目錄下的文件: 有個警告不管了(不同平臺注釋信息不同),算是讀進(jìn)來了! 查看表達(dá)數(shù)據(jù): 查看樣本信息: 查看探針注釋信息: 還可以下載原始數(shù)據(jù): gs = getGEOSuppFiles('GSE11675') 默認(rèn)在當(dāng)前目錄下生成下載的原始數(shù)據(jù)文件,可使用baseDir參數(shù)修改路徑。 如上,基本使用就是這些,其他用法詳見: https:///packages/release/bioc/vignettes/GEOquery/inst/doc/GEOquery.html 綜上,GEOquery的主要功能還是在R環(huán)境中實現(xiàn)GEO數(shù)據(jù)的下載,以及數(shù)據(jù)讀入,更有利于流程化的數(shù)據(jù)分析。當(dāng)然前提是要有一個較好的網(wǎng)絡(luò)環(huán)境,如果像小編一樣,數(shù)據(jù)下不動,建議還是手動下載吧,后續(xù)再讀到R里進(jìn)行整理分析! |
|