一、GEO 數(shù)據(jù)庫簡介 https://cloud.tencent.com/developer/article/2139665 GEO 數(shù)據(jù)庫全稱是 Gene Expression Omnibus,是由美國國立生物技術(shù)信息中心NCBI 創(chuàng)建并維護(hù)的基因表達(dá)數(shù)據(jù)庫。它收錄了世界各國研究機(jī)構(gòu)提交的高通量基因表達(dá)數(shù)據(jù),目前已經(jīng)發(fā)表的論文中涉及到的基因表達(dá)檢測的數(shù)據(jù)可以通過這個數(shù)據(jù)庫中找到,并且免費(fèi)提供下載,對科研人來說真是非常友好的存在。 GEO 數(shù)據(jù)庫中包含了多種基因表達(dá)相關(guān)的數(shù)據(jù),里面除了二代測序數(shù)據(jù),還包含芯片測序、單細(xì)胞測序數(shù)據(jù)等,因此 GEO 數(shù)據(jù)與 NCBI 中的 SRA 數(shù)據(jù)是存在交集的,同一個數(shù)據(jù)可以包含在 SRA 數(shù)據(jù)庫中,如果是基因表達(dá)相關(guān)的,也可以包含在 GEO 數(shù)據(jù)中。但是同一份數(shù)據(jù)在不同的數(shù)據(jù)庫中就會有不同的 ID。 GEO 數(shù)據(jù)同樣使用多種 ID 進(jìn)行標(biāo)識,例如 GEO Platform (GPL) 芯片平臺 GEO Sample (GSM) 樣本 ID 號 GEO Series (GSE) study 的 ID 號 GEO Dataset (GDS) 數(shù)據(jù)集的 ID 號等。 二、GEO 數(shù)據(jù)庫檢索數(shù)據(jù) 1、打開網(wǎng)址 https://www.ncbi.nlm./geo/ GEO 數(shù)據(jù)庫官網(wǎng) 進(jìn)入之后界面如下,右邊就是檢索框,輸入關(guān)鍵詞即可搜索。例如搜索關(guān)鍵字“GSE52778” GEO 數(shù)據(jù)庫的首頁主要可分為 4 個版塊。 1、GEO 數(shù)據(jù)庫相關(guān)的使用教程,例如我們可以點(diǎn)擊相應(yīng)的鏈接查看 Dataset、Profiles、GEO2R 的說明文檔; 2、GEO 數(shù)據(jù)庫相關(guān)的各種小工具; 3、GEO 數(shù)據(jù)庫目前現(xiàn)有的數(shù)據(jù)量; 4、GEO 數(shù)據(jù)庫數(shù)據(jù)上傳相關(guān)的說明信息。 詳細(xì)說明文檔:https://ncbi.nlm./geo/info/overview.html 三、基因表達(dá)調(diào)控項(xiàng)目 3.1 ENCODE 計劃 DNA 元件百科全書 ENCODE,The ENCODE Project,即 ENCyclopedia Of DNA Elements,是美國國立人類基因組研究院(US National Human Genome Research Institute,NHGRI)在 2003 年 9 月啟動的跨國研究項(xiàng)目。該項(xiàng)目旨在解析人類基因組中的所有功能性元件,它是人類基因組計劃(Human Genome Project,HGP)完成之后,又一重要的跨國基因組學(xué)研究項(xiàng)目。該項(xiàng)目聯(lián)合了來自美國,英國,西班牙,新加坡和日本的 32 個實(shí)驗(yàn)室的 422 名科學(xué)家的努力,獲得了迄今最詳細(xì)的人類基因組分析數(shù)據(jù)(他們獲得并分析了超過 15 兆兆字節(jié)的原始數(shù)據(jù))。研究花費(fèi)了約 300 年的計算機(jī)時間,對 147 個組織類型進(jìn)行了分析,以確定哪些能打開和關(guān)閉特定的基因,以及不同類型細(xì)胞之間的“開關(guān)”存在什么差異。 2012 年 9 月 5 日,ENCODE 項(xiàng)目的階段性研究結(jié)果被整理成 30 篇論文發(fā)表于《自然》(6 篇),《基因組研究》(6 篇)和《基因組生物學(xué)》(18 篇)上。研究結(jié)果顯示,人類基因組內(nèi)的非編碼 DNA 至少 80%是有生物活性的,而并非之前認(rèn)為的“垃圾” DNA (junk DNA)。這些新的發(fā)現(xiàn)有望幫助研究人員理解基因受到控制的途徑,以及澄清某些疾病的遺傳學(xué)風(fēng)險因子。 網(wǎng)址: https://www./Funded-Programs-Projects/ENCODE-Project-ENCyclopedia-Of-DNA-Elements ENCODE計劃時間表 3.2 TCGA TCGA(The Cancer Genome Atlas, 癌癥基因組圖譜)項(xiàng)目最早始于 2005 年,由美國政府出資,美國國家癌癥研究所(National Cancer Institute)和美國人類基因組研究所(National Human Genome Research Institute)共同監(jiān)督,旨在應(yīng)用高通量的基因組分析技術(shù),以幫助人們對癌癥有個更好的認(rèn)知,從而提高對于癌癥的預(yù)防、診斷和治療能力。 網(wǎng)址: https://www./ TCGA 是由多個組織機(jī)構(gòu)和單位共同在支持和維護(hù)的項(xiàng)目,主要分為負(fù)責(zé)測序的GCCs(genome characterization centers)和負(fù)責(zé)生物信息分析的GDACs(genome data analysis centers)。 TCGA 數(shù)據(jù)分類: · DNA Sequencing · miRNA Sequencing · Protein Expression · mRNA Sequencing · Total RNA Sequencing · Array-based Expression · DNA Methylation · Copy Number TCGA 數(shù)據(jù)結(jié)構(gòu)圖 3.3 GTEx GTEx(Genotype-Tissue Expression),是由 National Institutes of Health (NIH)于 2010 年 9 月發(fā)起的項(xiàng)目,目前最新版本為 2020 年 9 月發(fā)布的 Version 8,該數(shù)據(jù)庫包括了 838 個捐贈者和 17382 個來自 52 個組織和兩個細(xì)胞系的樣本。GTEx 除了可以與 TCGA 數(shù)據(jù)庫合用外,還可以研究正常樣本不同組織之間的基因表達(dá)的差異。 網(wǎng)址: https://www./home/index.html 寫在最后:有時間我們會努力更新的。大家互動交流可以前去論壇,地址在下面,復(fù)制去瀏覽器即可訪問,彌補(bǔ)下公眾號沒有留言功能的缺憾。 bioinfoer.com 有些板塊也可以預(yù)設(shè)為大家日常趣事的分享等,歡迎大家來提建議。 |
|