【原】不了解生信？沒(méi)關(guān)系，手把手教你從GEO數(shù)據(jù)庫(kù)里挖掘一個(gè)課題！

解螺旋 2020-08-27

展開(kāi)全文

作者：大魔獅

轉(zhuǎn)載請(qǐng)注明：解螺旋·臨床醫(yī)生科研成長(zhǎng)平臺(tái)

近年來(lái)，測(cè)序技術(shù)飛速發(fā)展，在科研中更是十分普遍。大家一定發(fā)現(xiàn)，隨便翻開(kāi)幾篇文章都能找到microarray、RNA-SEQ等熟悉的字眼，沒(méi)個(gè)高通量測(cè)序都不好意思說(shuō)自己搞了個(gè)課題！

然而涉及到這些生信方面的技術(shù)，滿(mǎn)屏幕的代碼，看起來(lái)雜亂無(wú)章的數(shù)據(jù)，是否讓你頭大呢？科研經(jīng)費(fèi)緊張的你是否沒(méi)有辦法涉足大數(shù)據(jù)科研呢？沒(méi)有過(guò)硬的關(guān)系網(wǎng)，是否很難搞到臨床樣本做大數(shù)據(jù)分析呢？

沒(méi)關(guān)系，讓我來(lái)教你怎么利用自己的電腦，運(yùn)用NCBI的GEO數(shù)據(jù)庫(kù)、EXCEL等軟件，傻瓜式的進(jìn)行初級(jí)的大數(shù)據(jù)挖掘和分析，甚至找到一個(gè)2-3分的課題！

下面以癌癥為例，我們可以這么想：紫杉醇（paclitaxel）是一個(gè)常見(jiàn)的癌癥用藥，但是經(jīng)常因?yàn)槟退幮远?yīng)有的療效，那么其中的分子機(jī)制是否有研究的價(jià)值呢？

首先，打開(kāi)NCBI（https://www.ncbi.nlm./）,如下圖選擇GEO Datasets，輸入paclitaxel cancer，點(diǎn)擊Search搜索。

出來(lái)以下結(jié)果：

一共105個(gè)是Series，也就是別人做了測(cè)序并發(fā)文章以后上傳到NCBI上的數(shù)據(jù)，后面的是測(cè)序平臺(tái)、還有各樣本的信息，大家有興趣可以自己摸索以下，這里不涉及了。如果搜索到的結(jié)果較多，你也可以點(diǎn)擊頁(yè)面左側(cè)的series來(lái)只顯示我們需要的條目。我發(fā)現(xiàn)第七個(gè)搜索結(jié)果有點(diǎn)意思。

點(diǎn)進(jìn)去看看。

等我們閱讀完摘要和實(shí)驗(yàn)組的處理方法，確定該數(shù)據(jù)符合我們的需求，就可以點(diǎn)擊Analyze with GEO2R,進(jìn)入下面的頁(yè)面，利用NCBI提供的工具進(jìn)行數(shù)據(jù)分析。

接下來(lái)，我們點(diǎn)擊Define groups，輸入兩個(gè)分組，分別是normal和resistant，并分別將普通的細(xì)胞系和耐藥細(xì)胞系點(diǎn)擊分入這兩組，分組完畢后，點(diǎn)擊save all results，獲取兩組之間的差異表達(dá)基因（稍等幾分鐘）。

得到如下的結(jié)果，把他們?nèi)x并復(fù)制，粘貼到記事本中，保存為result.txt。

接著我們將result.txt導(dǎo)入到EXCEL中（數(shù)據(jù)->自文本，選擇results.txt按默認(rèn)設(shè)置導(dǎo)入即可）。

待數(shù)據(jù)導(dǎo)入完成，我們?nèi)x數(shù)據(jù)表，點(diǎn)擊EXCEL的篩選功能，準(zhǔn)備對(duì)數(shù)據(jù)進(jìn)行篩選。

下一步，我們需要對(duì)差異表達(dá)基因的數(shù)據(jù)進(jìn)行進(jìn)一步的篩選。在這里，我們將p.value（p值，象征著差異的顯著性）和logFC（log2處理過(guò)的fold change值，象征著差異的倍數(shù)）設(shè)定為： p.value<0.01, logFC<-2 or logFC>2。即差異表達(dá)非常顯著，并且差異表達(dá)在4倍或-4倍以上。具體做法參見(jiàn)下圖。

篩選p.value：

篩選logFC：

最后我們可以在EXCEL左下角的狀態(tài)欄看到，一共篩選出來(lái)46個(gè)條目。

讓我們回過(guò)頭來(lái)看篩選完的數(shù)據(jù)表GB_ACC這列可以看到很多類(lèi)似NM_開(kāi)頭的序號(hào)，這些序號(hào)可以在NCBI上直接查詢(xún)到對(duì)應(yīng)的基因是什么，可以認(rèn)為是該基因的身份證。

我們嘗試一下，將第一個(gè)序號(hào)放到NCBI上搜索：

這就是一個(gè)在耐紫杉醇細(xì)胞中差異表達(dá)的一個(gè)基因。到這里，其實(shí)已經(jīng)可以作為一個(gè)課題的開(kāi)頭了，但是為了我們高（zhuang）大（da）上（bi）的追求，我們還有很多事情可以做。

給大家?guī)?lái)一個(gè)神奇的網(wǎng)站：DAVID (https://david./)

這是一個(gè)可以做GO分析，KEGG通路分析，基因功能的批量注釋等等非常實(shí)用的網(wǎng)站，操作很親（sha）民（gua）在這里我簡(jiǎn)單介紹一下用法。

點(diǎn)擊Functional Annotation進(jìn)入如下頁(yè)面。把我們剛才篩選出來(lái)的數(shù)據(jù)依下圖指示操作，然后點(diǎn)擊submit list提交并分析。

稍等片刻即可得到分析結(jié)果頁(yè)面：

在這個(gè)頁(yè)面里面我們可以看到許多跟我們篩選出來(lái)的基因相關(guān)的信息，由于篇幅關(guān)系，我只挑一個(gè)來(lái)做個(gè)示范，其他的大家可以自行學(xué)習(xí)。

我們點(diǎn)擊最下方的Functional Annotation Table按鈕，彈出窗口會(huì)出現(xiàn)一個(gè)表格（如果沒(méi)有彈出，請(qǐng)查看你的瀏覽器是否屏蔽了彈出窗口），里面囊括了大量我們篩選出來(lái)的基因的相關(guān)信息，具體參見(jiàn)下圖：

最近幾年長(zhǎng)鏈非編碼RNA（LncRNAs）研究很火熱，正好結(jié)果里面有一個(gè)long intergenic non-protein coding RNA 470(LINC00470)，我們就把他抓住，看看有沒(méi)有可以挖的課題。

我們將LINC00470放到PUBMED上進(jìn)行搜索，發(fā)現(xiàn)沒(méi)有相關(guān)的文章！

那么下面怎么做，大家懂得，趕緊給老板寫(xiě)開(kāi)題報(bào)告吧，嘿嘿嘿。

誰(shuí)要想做的留個(gè)言，別悶聲發(fā)大財(cái)哦！發(fā)了SCI，記得請(qǐng)我吃雞腿啊。