隨著公共網(wǎng)絡(luò)數(shù)據(jù)的增多,測序數(shù)據(jù)分析技術(shù)的發(fā)展,我們可以利用的數(shù)據(jù)越來越多。很多時候,我們可以直接對公共數(shù)據(jù)庫的數(shù)據(jù)進行分析,進而可以進行數(shù)據(jù)挖掘,得到的結(jié)果用來發(fā)表論文。 生信信息學(xué)文獻復(fù)現(xiàn) 這篇《Identification of candidate biomarkers and analysis of prognostic values in ovarian caner by integrated bioinfomatics analysis》(PMID: 27757782. IF: 2.92 )就是利用網(wǎng)絡(luò)公共芯片數(shù)據(jù)對卵巢癌的發(fā)生進行的數(shù)據(jù)挖掘。 這種芯片數(shù)據(jù)分析的論文現(xiàn)在越來越多了。
下面,我們就根據(jù)這篇文獻,幫大家分析一下這類文獻是如何煉成的。 一、文章的基本脈絡(luò) 通過閱讀文獻的材料方法我們可以發(fā)現(xiàn),這篇文獻的使用了 3 組數(shù)據(jù),都是來自于 GEO 數(shù)據(jù)庫。
之前沒有接觸過芯片數(shù)據(jù)的同學(xué)可能不知道 GEO 數(shù)據(jù)庫是什么。簡單來說,GEO 就是一個可以檢索芯片數(shù)據(jù)的數(shù)據(jù)庫。至于其中的 GSE36668 這樣的編號,就類似于文獻的 PMID 一樣,為自身數(shù)據(jù)庫給每個數(shù)據(jù)集自己的編碼。 二、我們來試一下 1. 我們可以進入 GEO 數(shù)據(jù)庫。(https://www.ncbi.nlm./gds/)
2. 檢索關(guān)鍵詞,可以是疾?。?span>breast cancer),可以是芯片物種(human),也可以是定向檢索 GSE 編碼。我們檢索 GSE36668,即可得到這個芯片的相關(guān)信息。
3. 點擊進去之后我們可以看到關(guān)于這個芯片的詳細信息,這樣,這個芯片的信息就檢索出來了。
這是第一步,那么對于這個芯片我們要怎么分析呢? 這篇文章里面用到的是「GEO2R」。這個工具是 GEO 數(shù)據(jù)庫自己開發(fā)的專門用來分析芯片數(shù)據(jù)的在線的工具。 三、我們要怎么用呢?
1. 我們在剛才檢索的到的界面往下拉即可發(fā)現(xiàn)有一個「GEO2R」的標志。
2. 點擊「GEO2R」看到這個數(shù)據(jù)集里具體的數(shù)據(jù)信息。 3. 然后對分析的數(shù)據(jù)進行分組。按照文章的題目我們要分成腫瘤組和正常組。
4. 分好組后,點擊 top250 即可看到這組數(shù)據(jù)集里面前 250 個最有差異的基因。點擊「top250」。
5. 如下圖顯示為 top250 的結(jié)果。結(jié)果中我們可以看到所有探針的差異的 p 值及矯正 p 值,也可以看到基因名,還有 logFC。
6. 同樣,我們可以點擊「save all results」即可得到這個數(shù)據(jù)集中所有的結(jié)果。
7. 這樣的話,我們只需要全選—復(fù)制—粘貼到 excel 里面就行了。 按照矯正的 P 值(adj. P <>)及 logFC 的絕對值 >1 即代表有差異。 通過 GEO2R 我們就能得到了差異的基因。按照這個文獻的數(shù)據(jù),選了三個數(shù)據(jù)集取交集。 這篇文章中還提到,將結(jié)果形成一個韋恩圖。 那么下一期,就給大家提供幾個制作韋恩圖的工具吧。 |
|