一文解決GEO芯片數(shù)據(jù)分析80％的工作！建議收藏！

imtravelinghah 2022-07-16 發(fā)布于廣西

展開(kāi)全文

你不得不知道的GEO數(shù)據(jù)庫(kù)芯片數(shù)據(jù)分析方法

大家好，我是阿琛。今天來(lái)給大家介紹一個(gè)新的專題內(nèi)容---GEO數(shù)據(jù)庫(kù)的使用方法。烹飪需要食材，分析需要數(shù)據(jù)。數(shù)據(jù)出發(fā)，整個(gè)研究的第一步就是數(shù)據(jù)的下載。對(duì)于大部分的研究者而言，拿公開(kāi)的高通量數(shù)據(jù)，進(jìn)行二次分析，是最佳的選擇途徑。

作為與TCGA數(shù)據(jù)庫(kù)齊名的一個(gè)大型數(shù)據(jù)庫(kù)，GEO數(shù)據(jù)庫(kù)包羅萬(wàn)象，對(duì)于每個(gè)領(lǐng)域的科研工作者很有幫助。GEO數(shù)據(jù)庫(kù)是一個(gè)儲(chǔ)存芯片、二代測(cè)序以及其他高通量測(cè)序數(shù)據(jù)的一個(gè)數(shù)據(jù)庫(kù)。利用這個(gè)數(shù)據(jù)庫(kù)，我們可以檢索到其他一些人上傳的一些實(shí)驗(yàn)測(cè)序數(shù)據(jù)。

下面，我們來(lái)看一下如何使用GEO數(shù)據(jù)庫(kù)中的芯片數(shù)據(jù)進(jìn)行后續(xù)分析。

GEO數(shù)據(jù)庫(kù)的簡(jiǎn)介

GEO數(shù)據(jù)庫(kù)，GENE EXPRESSION OMNIBUS，是由美國(guó)國(guó)立生物技術(shù)信息中心NCBI創(chuàng)建并維護(hù)的基因表達(dá)數(shù)據(jù)庫(kù)（官網(wǎng)：https://www.ncbi.nlm./geo/）。

它最初創(chuàng)建于2000年，主要用于收錄各國(guó)研究機(jī)構(gòu)提交的高通量基因表達(dá)數(shù)據(jù)，也就是說(shuō)只要是在目前已經(jīng)發(fā)表的絕大部分論文中，其涉及到的基因表達(dá)檢測(cè)的數(shù)據(jù)，包括芯片數(shù)據(jù)，二代測(cè)序結(jié)果，以及其他形式的高通量檢測(cè)結(jié)果，都可以通過(guò)這個(gè)數(shù)據(jù)庫(kù)中找到。

image

首先，我們進(jìn)入GEO數(shù)據(jù)庫(kù)中，根據(jù)GSE編號(hào)，查看一下該數(shù)據(jù)的一些相關(guān)信息。在搜索欄中輸入編號(hào)，“GSE39582”，然后點(diǎn)擊“Search”按鈕，進(jìn)行檢索。

當(dāng)然，熟悉了以后，我們也可以直接輸入網(wǎng)址進(jìn)行快速檢索，https://www.ncbi.nlm./geo/query/acc.cgi?acc=GSE39582；對(duì)于檢索頁(yè)面網(wǎng)址而言，其前面是一樣的，唯一的區(qū)別是acc=后面的GSE編號(hào)，修改編號(hào)，可以快速進(jìn)入對(duì)應(yīng)的結(jié)果頁(yè)面，這樣也可以在一定程度上減少由于網(wǎng)速等原因所帶來(lái)的阻礙。

image

在結(jié)果頁(yè)面中，我們可以初步看一下該結(jié)果對(duì)應(yīng)的發(fā)布時(shí)間，題目，物種等信息。同時(shí)，Experiment type中Expression profiling by array表示該結(jié)果是通過(guò)芯片獲得的表達(dá)譜；Overall design中簡(jiǎn)單介紹了整個(gè)研究的設(shè)計(jì)方案和分組信息。

image

GEO數(shù)據(jù)的下載

當(dāng)獲得了芯片的GSE編號(hào)后，我們接下來(lái)需要將其對(duì)應(yīng)的數(shù)據(jù)進(jìn)行下載，從而根據(jù)自己的需要進(jìn)一步分析。關(guān)于數(shù)據(jù)的下載，我們這里主要介紹三種不同的方法。

方法一：下載芯片的原始數(shù)據(jù)

在檢索頁(yè)面中，一路下拉；在Supplementary file中點(diǎn)擊Download中的custom，展開(kāi)原始數(shù)據(jù)對(duì)應(yīng)列表；點(diǎn)擊“Select all“，然后點(diǎn)擊Download，即可將所有樣本的原始數(shù)據(jù)RAW Data文件下載；

image

雖然這是最直接的方法，但是RAW Data文件相對(duì)較大，對(duì)下載的網(wǎng)速要求相對(duì)較高，而且不同的芯片來(lái)源，有不同的處理方法，甚至有些芯片沒(méi)有處理方法，因?yàn)槠涫菍?duì)應(yīng)定制的。所以，一般情況下，不推薦大家下載原始數(shù)據(jù)。

方法二：下載表達(dá)矩陣（series matrix）

在Download family中點(diǎn)擊Serier Matrix File(s)，進(jìn)入下載頁(yè)面；

待下載完成后，可以直接使用read.table()函數(shù)讀取進(jìn)來(lái)。

可以看到，在芯片中，包含了54675個(gè)基因探針，586個(gè)患者。

方法三：使用R的GEOquery包里面的getGEO()函數(shù)直接讀取進(jìn)來(lái)（推薦）

當(dāng)然，考慮到網(wǎng)速問(wèn)題，我們可以對(duì)參數(shù)進(jìn)行設(shè)置，選擇不下載平臺(tái)的注釋文件，因?yàn)橐话銇?lái)講注釋文件是相對(duì)比較大的。

如果把之前下載的series Matrix文件放在當(dāng)前目錄下，getGEO()函數(shù)會(huì)直接檢測(cè)到該文件，并進(jìn)而直接將其進(jìn)行讀取；

image

我們可以直接查看一下下載結(jié)果gset的變量類型。

可以看到，變量gset是一個(gè)列表的形式。

為什么是list格式呢？因?yàn)橐粋€(gè)GEO芯片項(xiàng)目，是可以對(duì)應(yīng)多個(gè)芯片平臺(tái)的，那么每個(gè)平臺(tái)的數(shù)據(jù)結(jié)果會(huì)對(duì)應(yīng)list里面的一個(gè)元素。

既然是列表，自然可以提取其中的第一個(gè)元素出來(lái)查看一下?？梢钥吹剑渲姓故玖税?個(gè)樣本，33297個(gè)特征，以及相關(guān)的臨床信息，PMID號(hào)，以及注釋平臺(tái)信息。

image

提取表達(dá)和臨床信息

3.1 通過(guò)pData函數(shù)獲取分組信息

通過(guò)pData()函數(shù)，即可提取表達(dá)數(shù)據(jù)中的臨床信息；同時(shí)，點(diǎn)擊Environment中的pdata查看，我們可以查看里面的相關(guān)信息。可以看到，其中，非腫瘤的樣品19例。

因此，根據(jù)臨床信息，我們可以對(duì)樣品進(jìn)行分組，分為腫瘤組和正常組；

最終，得到正常組19例樣品，腫瘤組566例樣品。

3.2 通過(guò)exprs()函數(shù)獲取表達(dá)矩陣并校正

整理完臨床信息后，我們需要提取對(duì)應(yīng)的表達(dá)數(shù)據(jù)。對(duì)于表達(dá)數(shù)據(jù)，除了下載Series Matrix后直接使用read.table()函數(shù)進(jìn)行讀取外，我們也可以直接從GEOquery下載得到的變量gset中進(jìn)行提取。

使用exprs()函數(shù)可以從gset[[1]]提取表達(dá)信息；同時(shí)，我們可以使用boxplot()函數(shù)先簡(jiǎn)單看一下整體樣本的表達(dá)情況。

由于每一次技術(shù)重復(fù)的時(shí)候，都會(huì)有誤差，芯片的原始數(shù)據(jù)是由儀器讀取的，不同的讀取時(shí)間，或者掃描儀光線的強(qiáng)弱都會(huì)導(dǎo)致同一類型的樣本出現(xiàn)誤差。正式分析前，我們需要對(duì)其進(jìn)行人工校正一下。這里我們用limma包內(nèi)置的一個(gè)函數(shù)，

normalizeBetweenArrays()函數(shù)。

可以看到，經(jīng)過(guò)校正，整個(gè)表達(dá)水平基本趨于一致。

此外，使用range()函數(shù)查看一下表達(dá)數(shù)據(jù)exp的取值范圍；一般而言，范圍在20以內(nèi)的表達(dá)值基本已經(jīng)經(jīng)過(guò)了log對(duì)數(shù)轉(zhuǎn)換。

ID變換

整理好了表達(dá)矩陣以后，我們需要將探針的id轉(zhuǎn)換成為基因的Gene symbol。對(duì)于探針id的轉(zhuǎn)換過(guò)程，目前主要是通過(guò)R包來(lái)進(jìn)行轉(zhuǎn)換。接下來(lái)，我們來(lái)看一下如何進(jìn)行芯片探針id的轉(zhuǎn)換過(guò)程。

方法一：使用R包轉(zhuǎn)換

隨著芯片平臺(tái)的普遍使用，其基因的注釋信息也被整理成了不同的R包；因此，通常情況下我們使用R包來(lái)注釋。不同的平臺(tái)，對(duì)應(yīng)著不同的R包。首先，我們來(lái)看一下這個(gè)數(shù)據(jù)集使用的平臺(tái)類型。

通過(guò)提取列表gset[[1]]中的注釋信息，可以看到，該芯片使用的是我們最常見(jiàn)的平臺(tái)，GPL570。

image

對(duì)于GPL570，其對(duì)應(yīng)的R包是hgu133plus2.db包；查找顯示，其儲(chǔ)存在Bioconductor中，下載并進(jìn)行安裝R包。

首先，我們來(lái)看看，在hgu133plus2.db包中，包含了哪些信息；

可以看到，除了Symbol信息外，在其中還包含了Ensemble id，Entrez id等信息，可以需要進(jìn)行提取。

image

提取其中的Symbol信息，可以看到，最終獲得了probe id和Gene symbol的對(duì)應(yīng)信息。

image

其中，經(jīng)過(guò)去重復(fù)，一共存在20174個(gè)不同的Gene symbol，且部分基因存在多條探針的對(duì)應(yīng)關(guān)系。

接下來(lái)，我們需要將其進(jìn)行一一對(duì)應(yīng)匹配。

經(jīng)過(guò)id匹配，并去重復(fù)，最終得到了20174個(gè)基因的表達(dá)結(jié)果；

image

同時(shí)，我們可以查看一下前3行前3列的表達(dá)情況。

當(dāng)然，除了R包注釋外，還有其他的注釋方法，比如使用網(wǎng)頁(yè)下載的soft文件進(jìn)行注釋，或者有些特殊的芯片內(nèi)容，需要自己手工比對(duì)注釋。

方法二：使用soft文件注釋

方法三：手工注釋

PCA分析

表達(dá)矩陣到此基本整理完成。接下來(lái)，在正式的差異分析之前，我們首先可以做一個(gè)PCA分析，整體水平查看正常和腫瘤兩組樣品直接是否存在顯著的差異。

結(jié)果顯示：在該芯片中，癌和癌旁組織的表達(dá)水平存在一定的差異。

image

差異分析

對(duì)于芯片數(shù)據(jù)的差異分析，我們一般使用limma包來(lái)進(jìn)行。關(guān)于差異分析的輸入文件，主要是兩個(gè)，第一是整理好的表達(dá)矩陣，其中行名為基因名，列名為樣本名；第二是分組信息（group list）。

最終，使用topTable()函數(shù)提取所有基因的差異分析。

可以看到，在結(jié)果表格中，包含了6塊的內(nèi)容，包括我們常見(jiàn)的logFC值，以及P.Value，adj.P.Val等等。

接下來(lái)，我們需要根據(jù)設(shè)定的閾值，｜logFC｜>1.5和P值

可視化分析

1、火山圖

對(duì)于差異分析結(jié)果，火山圖和熱圖是兩種最常見(jiàn)的展示方式。首先，我們來(lái)看一下火山圖的繪制方法。對(duì)于火山圖的繪制，大家可以參考之前的推文（生信最重要的圖之一，十分鐘幫你搞定！建議收藏！?。?/p>

方法一：基于ggpubr包繪制火山圖

結(jié)果顯示：

image

接下來(lái)，我們可以進(jìn)一步給火山圖添加標(biāo)簽，把顯著上調(diào)和顯著下調(diào)基因中前5名的基因名進(jìn)行標(biāo)注；

結(jié)果顯示：

image

方法二：基于ggplot2包繪制火山圖

結(jié)果顯示：

image

當(dāng)然，我們也可以對(duì)其進(jìn)行添加標(biāo)簽的操作；

結(jié)果顯示：

image

2、熱圖

提取差異表達(dá)基因的表達(dá)情況；

結(jié)果顯示：

image

到此，GEO數(shù)據(jù)庫(kù)芯片數(shù)據(jù)的下載，probe id的轉(zhuǎn)換，差異分析已經(jīng)基本完成了，整個(gè)文章中最難的80%內(nèi)容也已經(jīng)基本解決。接下來(lái)，就是針對(duì)這些差異基因的常規(guī)分析，包括GO分析，KEGG分析，GSEA分析，蛋白-蛋白互作網(wǎng)絡(luò)（Protein-protein interaction，PPI）。

—END—
一文解決GEO芯片數(shù)據(jù)分析80％的工作！建議收藏！

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自： imtravelinghah > 《待分類》

舉報(bào)/認(rèn)領(lǐng)