一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

一文解決GEO芯片數(shù)據(jù)分析80%的工作!建議收藏!

 imtravelinghah 2022-07-16 發(fā)布于廣西

你不得不知道的GEO數(shù)據(jù)庫(kù)芯片數(shù)據(jù)分析方法

大家好,我是阿琛。今天來(lái)給大家介紹一個(gè)新的專題內(nèi)容---GEO數(shù)據(jù)庫(kù)的使用方法。烹飪需要食材,分析需要數(shù)據(jù)。數(shù)據(jù)出發(fā),整個(gè)研究的第一步就是數(shù)據(jù)的下載。對(duì)于大部分的研究者而言,拿公開(kāi)的高通量數(shù)據(jù),進(jìn)行二次分析,是最佳的選擇途徑。

作為與TCGA數(shù)據(jù)庫(kù)齊名的一個(gè)大型數(shù)據(jù)庫(kù),GEO數(shù)據(jù)庫(kù)包羅萬(wàn)象,對(duì)于每個(gè)領(lǐng)域的科研工作者很有幫助。GEO數(shù)據(jù)庫(kù)是一個(gè)儲(chǔ)存芯片、二代測(cè)序以及其他高通量測(cè)序數(shù)據(jù)的一個(gè)數(shù)據(jù)庫(kù)。利用這個(gè)數(shù)據(jù)庫(kù),我們可以檢索到其他一些人上傳的一些實(shí)驗(yàn)測(cè)序數(shù)據(jù)。

下面,我們來(lái)看一下如何使用GEO數(shù)據(jù)庫(kù)中的芯片數(shù)據(jù)進(jìn)行后續(xù)分析。

GEO數(shù)據(jù)庫(kù)的簡(jiǎn)介

GEO數(shù)據(jù)庫(kù),GENE EXPRESSION OMNIBUS,是由美國(guó)國(guó)立生物技術(shù)信息中心NCBI創(chuàng)建并維護(hù)的基因表達(dá)數(shù)據(jù)庫(kù)(官網(wǎng):https://www.ncbi.nlm./geo/)。

它最初創(chuàng)建于2000年,主要用于收錄各國(guó)研究機(jī)構(gòu)提交的高通量基因表達(dá)數(shù)據(jù),也就是說(shuō)只要是在目前已經(jīng)發(fā)表的絕大部分論文中,其涉及到的基因表達(dá)檢測(cè)的數(shù)據(jù),包括芯片數(shù)據(jù),二代測(cè)序結(jié)果,以及其他形式的高通量檢測(cè)結(jié)果,都可以通過(guò)這個(gè)數(shù)據(jù)庫(kù)中找到。

image

首先,我們進(jìn)入GEO數(shù)據(jù)庫(kù)中,根據(jù)GSE編號(hào),查看一下該數(shù)據(jù)的一些相關(guān)信息。在搜索欄中輸入編號(hào),“GSE39582”,然后點(diǎn)擊“Search”按鈕,進(jìn)行檢索。

當(dāng)然,熟悉了以后,我們也可以直接輸入網(wǎng)址進(jìn)行快速檢索,https://www.ncbi.nlm./geo/query/acc.cgi?acc=GSE39582;對(duì)于檢索頁(yè)面網(wǎng)址而言,其前面是一樣的,唯一的區(qū)別是acc=后面的GSE編號(hào),修改編號(hào),可以快速進(jìn)入對(duì)應(yīng)的結(jié)果頁(yè)面,這樣也可以在一定程度上減少由于網(wǎng)速等原因所帶來(lái)的阻礙。

image

在結(jié)果頁(yè)面中,我們可以初步看一下該結(jié)果對(duì)應(yīng)的發(fā)布時(shí)間,題目,物種等信息。同時(shí),Experiment type中Expression profiling by array表示該結(jié)果是通過(guò)芯片獲得的表達(dá)譜;Overall design中簡(jiǎn)單介紹了整個(gè)研究的設(shè)計(jì)方案和分組信息。

image

GEO數(shù)據(jù)的下載

當(dāng)獲得了芯片的GSE編號(hào)后,我們接下來(lái)需要將其對(duì)應(yīng)的數(shù)據(jù)進(jìn)行下載,從而根據(jù)自己的需要進(jìn)一步分析。關(guān)于數(shù)據(jù)的下載,我們這里主要介紹三種不同的方法。

方法一:下載芯片的原始數(shù)據(jù)

在檢索頁(yè)面中,一路下拉;在Supplementary file中點(diǎn)擊Download中的custom,展開(kāi)原始數(shù)據(jù)對(duì)應(yīng)列表;點(diǎn)擊“Select all“,然后點(diǎn)擊Download,即可將所有樣本的原始數(shù)據(jù)RAW Data文件下載;

image

雖然這是最直接的方法,但是RAW Data文件相對(duì)較大,對(duì)下載的網(wǎng)速要求相對(duì)較高,而且不同的芯片來(lái)源,有不同的處理方法,甚至有些芯片沒(méi)有處理方法,因?yàn)槠涫菍?duì)應(yīng)定制的。所以,一般情況下,不推薦大家下載原始數(shù)據(jù)。

方法二:下載表達(dá)矩陣(series matrix)

在Download family中點(diǎn)擊Serier Matrix File(s),進(jìn)入下載頁(yè)面;

待下載完成后,可以直接使用read.table()函數(shù)讀取進(jìn)來(lái)。

可以看到,在芯片中,包含了54675個(gè)基因探針,586個(gè)患者。

方法三:使用R的GEOquery包里面的getGEO()函數(shù)直接讀取進(jìn)來(lái)(推薦)

當(dāng)然,考慮到網(wǎng)速問(wèn)題,我們可以對(duì)參數(shù)進(jìn)行設(shè)置,選擇不下載平臺(tái)的注釋文件,因?yàn)橐话銇?lái)講注釋文件是相對(duì)比較大的。

如果把之前下載的series Matrix文件放在當(dāng)前目錄下,getGEO()函數(shù)會(huì)直接檢測(cè)到該文件,并進(jìn)而直接將其進(jìn)行讀取;

image

我們可以直接查看一下下載結(jié)果gset的變量類型。

可以看到,變量gset是一個(gè)列表的形式。

為什么是list格式呢?因?yàn)橐粋€(gè)GEO芯片項(xiàng)目,是可以對(duì)應(yīng)多個(gè)芯片平臺(tái)的,那么每個(gè)平臺(tái)的數(shù)據(jù)結(jié)果會(huì)對(duì)應(yīng)list里面的一個(gè)元素。

既然是列表,自然可以提取其中的第一個(gè)元素出來(lái)查看一下??梢钥吹剑渲姓故玖税?個(gè)樣本,33297個(gè)特征,以及相關(guān)的臨床信息,PMID號(hào),以及注釋平臺(tái)信息。

image

提取表達(dá)和臨床信息

3.1 通過(guò)pData函數(shù)獲取分組信息

通過(guò)pData()函數(shù),即可提取表達(dá)數(shù)據(jù)中的臨床信息;同時(shí),點(diǎn)擊Environment中的pdata查看,我們可以查看里面的相關(guān)信息。可以看到,其中,非腫瘤的樣品19例。

因此,根據(jù)臨床信息,我們可以對(duì)樣品進(jìn)行分組,分為腫瘤組和正常組;

最終,得到正常組19例樣品,腫瘤組566例樣品。

3.2 通過(guò)exprs()函數(shù)獲取表達(dá)矩陣并校正

整理完臨床信息后,我們需要提取對(duì)應(yīng)的表達(dá)數(shù)據(jù)。對(duì)于表達(dá)數(shù)據(jù),除了下載Series Matrix后直接使用read.table()函數(shù)進(jìn)行讀取外,我們也可以直接從GEOquery下載得到的變量gset中進(jìn)行提取。

使用exprs()函數(shù)可以從gset[[1]]提取表達(dá)信息;同時(shí),我們可以使用boxplot()函數(shù)先簡(jiǎn)單看一下整體樣本的表達(dá)情況。

由于每一次技術(shù)重復(fù)的時(shí)候,都會(huì)有誤差,芯片的原始數(shù)據(jù)是由儀器讀取的,不同的讀取時(shí)間,或者掃描儀光線的強(qiáng)弱都會(huì)導(dǎo)致同一類型的樣本出現(xiàn)誤差。正式分析前,我們需要對(duì)其進(jìn)行人工校正一下。這里我們用limma包內(nèi)置的一個(gè)函數(shù),

normalizeBetweenArrays()函數(shù)。

可以看到,經(jīng)過(guò)校正,整個(gè)表達(dá)水平基本趨于一致。

此外,使用range()函數(shù)查看一下表達(dá)數(shù)據(jù)exp的取值范圍;一般而言,范圍在20以內(nèi)的表達(dá)值基本已經(jīng)經(jīng)過(guò)了log對(duì)數(shù)轉(zhuǎn)換。

ID變換

整理好了表達(dá)矩陣以后,我們需要將探針的id轉(zhuǎn)換成為基因的Gene symbol。對(duì)于探針id的轉(zhuǎn)換過(guò)程,目前主要是通過(guò)R包來(lái)進(jìn)行轉(zhuǎn)換。接下來(lái),我們來(lái)看一下如何進(jìn)行芯片探針id的轉(zhuǎn)換過(guò)程。

方法一:使用R包轉(zhuǎn)換

隨著芯片平臺(tái)的普遍使用,其基因的注釋信息也被整理成了不同的R包;因此,通常情況下我們使用R包來(lái)注釋。不同的平臺(tái),對(duì)應(yīng)著不同的R包。首先,我們來(lái)看一下這個(gè)數(shù)據(jù)集使用的平臺(tái)類型。

通過(guò)提取列表gset[[1]]中的注釋信息,可以看到,該芯片使用的是我們最常見(jiàn)的平臺(tái),GPL570。

image

對(duì)于GPL570,其對(duì)應(yīng)的R包是hgu133plus2.db包;查找顯示,其儲(chǔ)存在Bioconductor中,下載并進(jìn)行安裝R包。

首先,我們來(lái)看看,在hgu133plus2.db包中,包含了哪些信息;

可以看到,除了Symbol信息外,在其中還包含了Ensemble id,Entrez id等信息,可以需要進(jìn)行提取。

image

提取其中的Symbol信息,可以看到,最終獲得了probe id和Gene symbol的對(duì)應(yīng)信息。

image

其中,經(jīng)過(guò)去重復(fù),一共存在20174個(gè)不同的Gene symbol,且部分基因存在多條探針的對(duì)應(yīng)關(guān)系。

接下來(lái),我們需要將其進(jìn)行一一對(duì)應(yīng)匹配。

經(jīng)過(guò)id匹配,并去重復(fù),最終得到了20174個(gè)基因的表達(dá)結(jié)果;

image

同時(shí),我們可以查看一下前3行前3列的表達(dá)情況。

當(dāng)然,除了R包注釋外,還有其他的注釋方法,比如使用網(wǎng)頁(yè)下載的soft文件進(jìn)行注釋,或者有些特殊的芯片內(nèi)容,需要自己手工比對(duì)注釋。

方法二:使用soft文件注釋

方法三:手工注釋

PCA分析

表達(dá)矩陣到此基本整理完成。接下來(lái),在正式的差異分析之前,我們首先可以做一個(gè)PCA分析,整體水平查看正常和腫瘤兩組樣品直接是否存在顯著的差異。

結(jié)果顯示:在該芯片中,癌和癌旁組織的表達(dá)水平存在一定的差異。

image

差異分析

對(duì)于芯片數(shù)據(jù)的差異分析,我們一般使用limma包來(lái)進(jìn)行。關(guān)于差異分析的輸入文件,主要是兩個(gè),第一是整理好的表達(dá)矩陣,其中行名為基因名,列名為樣本名;第二是分組信息(group list)

最終,使用topTable()函數(shù)提取所有基因的差異分析。

可以看到,在結(jié)果表格中,包含了6塊的內(nèi)容,包括我們常見(jiàn)的logFC值,以及P.Value,adj.P.Val等等。

接下來(lái),我們需要根據(jù)設(shè)定的閾值,|logFC|>1.5和P值

可視化分析

1、火山圖

對(duì)于差異分析結(jié)果,火山圖和熱圖是兩種最常見(jiàn)的展示方式。首先,我們來(lái)看一下火山圖的繪制方法。對(duì)于火山圖的繪制,大家可以參考之前的推文(生信最重要的圖之一,十分鐘幫你搞定!建議收藏!?。?/p>

方法一:基于ggpubr包繪制火山圖

結(jié)果顯示:

image

接下來(lái),我們可以進(jìn)一步給火山圖添加標(biāo)簽,把顯著上調(diào)和顯著下調(diào)基因中前5名的基因名進(jìn)行標(biāo)注;

結(jié)果顯示:

image

方法二:基于ggplot2包繪制火山圖

結(jié)果顯示:

image

當(dāng)然,我們也可以對(duì)其進(jìn)行添加標(biāo)簽的操作;

結(jié)果顯示:

image

2、熱圖

提取差異表達(dá)基因的表達(dá)情況;

結(jié)果顯示:

image

到此,GEO數(shù)據(jù)庫(kù)芯片數(shù)據(jù)的下載,probe id的轉(zhuǎn)換,差異分析已經(jīng)基本完成了,整個(gè)文章中最難的80%內(nèi)容也已經(jīng)基本解決。接下來(lái),就是針對(duì)這些差異基因的常規(guī)分析,包括GO分析,KEGG分析,GSEA分析,蛋白-蛋白互作網(wǎng)絡(luò)(Protein-protein interaction,PPI)。

—END—
一文解決GEO芯片數(shù)據(jù)分析80%的工作!建議收藏!

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多

    色婷婷国产熟妇人妻露脸| 日韩中文字幕狠狠人妻| 国产午夜福利在线观看精品| 欧美日韩乱一区二区三区| 日本高清加勒比免费在线| 色婷婷视频在线精品免费观看| 国产精品激情对白一区二区| 91精品国产av一区二区| 亚洲天堂精品一区二区| 亚洲黄片在线免费小视频| 最近最新中文字幕免费| 国产精品欧美一区二区三区| 正在播放玩弄漂亮少妇高潮| 久久99热成人网不卡| 福利专区 久久精品午夜| 亚洲午夜av一区二区| 色婷婷中文字幕在线视频| 日本久久精品在线观看| 成人午夜爽爽爽免费视频| 欧美久久一区二区精品| 亚洲性生活一区二区三区| 国产中文字幕一区二区| 日韩高清毛片免费观看| 中文字幕高清不卡一区| 久久精品国产亚洲av麻豆尤物| 视频一区二区黄色线观看| 国产高清在线不卡一区| 国产麻豆视频一二三区| 欧美日韩国产成人高潮| 午夜精品久久久免费视频| 亚洲av日韩一区二区三区四区| 日本免费一级黄色录像| 成人精品一级特黄大片| 亚洲精品一区二区三区免| 亚洲少妇人妻一区二区| 亚洲高清亚洲欧美一区二区| 日韩人妻一区中文字幕| 亚洲人妻av中文字幕| 欧美色婷婷综合狠狠爱| 亚洲中文字幕在线视频频道| 国产综合香蕉五月婷在线|