近日,GPB在線發(fā)表了北京市神經(jīng)外科研究所、首都醫(yī)科大學(xué)附屬北京天壇醫(yī)院江濤教授團(tuán)隊(duì)題為“Chinese Glioma Genome Atlas (CGGA): A Comprehensive Resource with Functional Genomic Data from Chinese Gliomas”的數(shù)據(jù)庫(kù)文章,我們的“要文譯薦”欄目很高興邀請(qǐng)到文章共同第一作者趙征博士、張克難博士和王強(qiáng)威博士為大家系統(tǒng)介紹有關(guān)中國(guó)腦膠質(zhì)瘤基因組圖譜數(shù)據(jù)庫(kù)的數(shù)據(jù)資源、在線數(shù)據(jù)可視化分析工具以及該數(shù)據(jù)涉及的原始數(shù)據(jù)共享等最新情況。 要點(diǎn)介紹 研究問(wèn)題: 中國(guó)腦膠質(zhì)瘤基因組圖譜 (Chinese Glioma Genome Atlas,CGGA) 數(shù)據(jù)庫(kù)的構(gòu)建及其應(yīng)用。 研究背景: 為了推動(dòng)中國(guó)腦膠質(zhì)瘤基礎(chǔ)與臨床醫(yī)學(xué)研究,2004年,江濤教授團(tuán)隊(duì)開(kāi)始著手構(gòu)建中國(guó)人群腦膠質(zhì)瘤生物樣本庫(kù)并持續(xù)追蹤患者隨訪。2012年,依托于北京市神經(jīng)外科研究所、首都醫(yī)科大學(xué)附屬北京天壇醫(yī)院,江濤教授團(tuán)隊(duì)發(fā)起了“中國(guó)腦膠質(zhì)瘤基因組圖譜計(jì)劃”。2019年,歷經(jīng)十五年的樣本與信息收集以及功能組學(xué)數(shù)據(jù)測(cè)定,江濤教授團(tuán)隊(duì)構(gòu)建了國(guó)內(nèi)首個(gè)腦膠質(zhì)瘤功能基因組學(xué)數(shù)據(jù)庫(kù)——CGGA數(shù)據(jù)庫(kù)。該數(shù)據(jù)庫(kù)包含來(lái)自中國(guó)人群的2000余例原、復(fù)發(fā)腦膠質(zhì)瘤多維組學(xué)數(shù)據(jù)和完備的臨床信息資料。目前,數(shù)據(jù)庫(kù)已存儲(chǔ)并共享了全外顯子組測(cè)序數(shù)據(jù)(286例)、全轉(zhuǎn)錄組測(cè)序數(shù)據(jù)(1018例)、全轉(zhuǎn)錄組芯片數(shù)據(jù)(301例)、DNA甲基化芯片數(shù)據(jù)(159例)、小RNA芯片數(shù)據(jù)(198例),以及詳細(xì)患者臨床資料(例如年齡、性別、放化療信息、WHO等級(jí)、組織病理學(xué)分級(jí)、分子病理信息以及生存信息等)。此外,數(shù)據(jù)庫(kù)針對(duì)不同組學(xué)數(shù)據(jù)特點(diǎn),開(kāi)發(fā)了多個(gè)數(shù)據(jù)可視化在線分析工具。CGGA數(shù)據(jù)庫(kù)的建立填補(bǔ)了中國(guó)腦膠質(zhì)瘤信息資源庫(kù)的空白,同時(shí)也為我國(guó)腦膠質(zhì)瘤的基礎(chǔ)與臨床研究提供了重要的信息資源平臺(tái)。 主要結(jié)果1: 構(gòu)建了全面的腦膠質(zhì)瘤外顯子組、轉(zhuǎn)錄組、表觀遺傳組等多組學(xué)信息庫(kù)。 主要結(jié)果2: 提供了完備的腦膠質(zhì)瘤臨床信息、組織病理和分子病理等重要信息資源。 主要結(jié)果3: 開(kāi)發(fā)了數(shù)個(gè)針對(duì)特定組學(xué)數(shù)據(jù)的可視化在線分析工具。 數(shù)據(jù)庫(kù)鏈接: http://www./。 背景和研究對(duì)象 腦膠質(zhì)瘤是成人最常見(jiàn)的顱內(nèi)惡性腫瘤,年發(fā)病率約22.52/10萬(wàn)人?;颊哳A(yù)后不良,常于手術(shù)后復(fù)發(fā),對(duì)患者家庭及社會(huì)產(chǎn)生了巨大的經(jīng)濟(jì)和心理負(fù)擔(dān)。近年來(lái),隨著腦膠質(zhì)瘤分子生物學(xué)研究不斷深入,越來(lái)越多的生物學(xué)標(biāo)記物被發(fā)現(xiàn)并指導(dǎo)臨床診治。腦膠質(zhì)瘤功能基因組學(xué)數(shù)據(jù)的全面收集和共享有助于加速科學(xué)研究和臨床轉(zhuǎn)化,對(duì)臨床治療對(duì)策和國(guó)家腫瘤防控政策的制定具有重要指導(dǎo)意義。 然而,當(dāng)前腦膠質(zhì)瘤功能基因組學(xué)數(shù)據(jù)的共享存在以下三個(gè)主要問(wèn)題。一、國(guó)際上存在多個(gè)腦膠質(zhì)瘤基因組共享數(shù)據(jù)庫(kù)/數(shù)據(jù)中心,但數(shù)據(jù)量小、且以歐美裔患者為主,無(wú)法反應(yīng)中國(guó)人群患者特征;二、現(xiàn)有數(shù)據(jù)庫(kù)缺乏復(fù)發(fā)或復(fù)發(fā)配對(duì)患者的組學(xué)數(shù)據(jù),無(wú)法評(píng)估治療對(duì)腦膠質(zhì)瘤在基因組水平的影響;三、現(xiàn)有數(shù)據(jù)庫(kù)多數(shù)僅為數(shù)據(jù)存儲(chǔ)平臺(tái),需要研究者自行下載后分析,對(duì)缺乏生物信息學(xué)背景的研究者不夠友好。 為此,北京市神經(jīng)外科研究所江濤教授團(tuán)隊(duì)于2019年6月7日發(fā)布“中國(guó)腦膠質(zhì)瘤基因組圖譜(CGGA)數(shù)據(jù)庫(kù)”,該工作致力于中國(guó)腦膠質(zhì)瘤患者功能基因組學(xué)信息的整合與共享,為腦膠質(zhì)瘤基礎(chǔ)研究與臨床轉(zhuǎn)化研究提供服務(wù)和支撐。 數(shù)據(jù)庫(kù)介紹 CGGA數(shù)據(jù)庫(kù)是第一個(gè)完備的中國(guó)腦膠質(zhì)瘤患者隊(duì)列的功能基因組學(xué)信息庫(kù)。該信息庫(kù)的建設(shè)包括標(biāo)準(zhǔn)樣本采集、測(cè)序、分析流程、數(shù)據(jù)存儲(chǔ)與共享等。CGGA數(shù)據(jù)庫(kù)堅(jiān)持長(zhǎng)期隨訪,最大隨訪時(shí)間逾15年。自上線以來(lái),CGGA不斷更新完善,豐富數(shù)據(jù)內(nèi)容、更新隨訪信息、提升可視化效果。當(dāng)前,CGGA數(shù)據(jù)庫(kù)提供全面的腦膠質(zhì)瘤多維功能組學(xué)數(shù)據(jù)以及完備的臨床信息資源,向全世界研究者開(kāi)放。 數(shù)據(jù)庫(kù)設(shè)計(jì)與構(gòu)建 在CGGA數(shù)據(jù)庫(kù)網(wǎng)站中,包含CGGA、TCGA和Rembrandt隊(duì)列的腦膠質(zhì)樣本組學(xué)數(shù)據(jù)和臨床資料,所有數(shù)據(jù)基于MySQL 14.14進(jìn)行組織存儲(chǔ)。數(shù)據(jù)庫(kù)主要在Java Servlet框架下編寫(xiě)開(kāi)發(fā),并部署在Tomcat 6.0.44 web服務(wù)器上,其運(yùn)行環(huán)境為CentOS 5.5 Linux。數(shù)據(jù)庫(kù)的在線可視化分析工具主要通過(guò)Perl和R腳本實(shí)現(xiàn)。CGGA網(wǎng)站能夠在Chrome及Safari等主流瀏覽器中穩(wěn)定運(yùn)行。數(shù)據(jù)庫(kù)開(kāi)發(fā)構(gòu)架設(shè)計(jì)如圖1所示。 數(shù)據(jù)庫(kù)內(nèi)容及使用 CGGA數(shù)據(jù)庫(kù)能夠在線可視化分析全外顯子組、轉(zhuǎn)錄組學(xué)及小RNA、DNA甲基化芯片平臺(tái)等數(shù)據(jù)資源(圖2A)。在全外顯子組可視化分析中,用戶(hù)可針對(duì)其感興趣的基因或者基因集合可視化分析腦膠質(zhì)瘤中的突變譜,以此來(lái)更好的探究腦膠質(zhì)瘤的遺傳圖譜(圖2B,C)。此外,用戶(hù)還可以探索特定基因的遺傳改變對(duì)腦膠質(zhì)瘤患者預(yù)后的影響(圖2D)。在該結(jié)果中,還提供了可視化分析工具所使用的數(shù)據(jù)和運(yùn)行腳本,以便用戶(hù)可以更好的復(fù)現(xiàn)其分析結(jié)果。 圖2 CGGA數(shù)據(jù)庫(kù)的主要內(nèi)容及外顯子數(shù)據(jù)分析工具 A. CGGA包含全外顯子組測(cè)序、mRNA和microRNA表達(dá)、DNA甲基化數(shù)據(jù);臨床數(shù)據(jù);數(shù)個(gè)在線數(shù)據(jù)可視化分析工具。B.外顯子測(cè)序數(shù)據(jù)的分析頁(yè)面,包括構(gòu)建突變譜和預(yù)后分析工具。C.構(gòu)建全級(jí)別的腦膠質(zhì)瘤的突變譜的結(jié)果頁(yè)面。D.左:IDH1突變?cè)谌?jí)別腦膠質(zhì)瘤的預(yù)后分析;中:用于可視化分析的數(shù)據(jù);右:用于可視化分析的R腳本。 此外,CGGA數(shù)據(jù)庫(kù)還提供了在線的全轉(zhuǎn)錄組、小RNA及DNA甲基化數(shù)據(jù)的可視化分析工具(圖3A)。用戶(hù)可通過(guò)輸入感興趣的基因來(lái)查詢(xún)?cè)诓煌X膠質(zhì)瘤亞型中的分布情況(圖3B)。其次,用戶(hù)可以探索感興趣的基因?qū)υ谔囟X膠質(zhì)瘤亞型中的共表達(dá)情況(圖3C)。此外,用戶(hù)可以針對(duì)自己感興趣的基因探究在不同腦膠質(zhì)瘤亞型中的的預(yù)后價(jià)值(圖3D)。相應(yīng)的組學(xué)數(shù)據(jù)、臨床數(shù)據(jù)以及R腳本呈現(xiàn)在相應(yīng)結(jié)果部分,以便用戶(hù)可以很好的復(fù)現(xiàn)可視化分析的結(jié)果。 圖3 CGGA轉(zhuǎn)錄組數(shù)據(jù)分析示例 A.RNA-seq分析頁(yè)面截圖,檢索目標(biāo)基因分布、基因?qū)脖磉_(dá)情況及預(yù)后價(jià)值。B.基于2016年WHO評(píng)分系統(tǒng)的ADAMTSL4基因在原發(fā)性膠質(zhì)瘤中的表達(dá)分布。C.ADAMTSL4與CD274基因的共表達(dá)情況。D.ADAMTSL4在不同腦膠質(zhì)瘤亞型中的預(yù)后價(jià)值。 數(shù)據(jù)下載 CGGA數(shù)據(jù)庫(kù)中所有功能組學(xué)數(shù)據(jù)和臨床資料供全世界研究者開(kāi)放使用。當(dāng)前CGGA的部分原始測(cè)序數(shù)據(jù)儲(chǔ)存于中科院國(guó)家生物信息學(xué)中心的組學(xué)原始數(shù)據(jù)歸檔庫(kù),歡迎研究者申請(qǐng)使用。 總結(jié)與展望 CGGA數(shù)據(jù)庫(kù)包含了來(lái)自中國(guó)人群的2000余例腦膠質(zhì)瘤樣本的多維功能組學(xué)數(shù)據(jù),其包括全外顯子組測(cè)序、轉(zhuǎn)錄組測(cè)序和表觀遺傳組學(xué)數(shù)據(jù)等。CGGA數(shù)據(jù)庫(kù)當(dāng)前已實(shí)現(xiàn)多維功能基因組學(xué)數(shù)據(jù)共享,通過(guò)豐富多樣的數(shù)據(jù)分析功能和用戶(hù)友好的可視化分析工具,為全球眾多國(guó)家和地區(qū)科研人員提供重要的腦膠質(zhì)瘤數(shù)據(jù)資源服務(wù)。CGGA數(shù)據(jù)庫(kù)建設(shè)仍在不斷完善,不久將來(lái)我們將豐富諸如單細(xì)胞測(cè)序數(shù)據(jù)、影像組學(xué)數(shù)據(jù)等腦膠質(zhì)瘤重要的數(shù)據(jù)資源。依托北京市神經(jīng)外科研究所、首都醫(yī)科大學(xué)附屬北京天壇醫(yī)院以及中國(guó)腦膠質(zhì)瘤協(xié)作組(CGCG),我們將繼續(xù)收集腦膠質(zhì)瘤組織樣本,開(kāi)展測(cè)序,補(bǔ)充更多的中國(guó)人群的功能組學(xué)數(shù)據(jù)。我們期望CGGA數(shù)據(jù)庫(kù)能夠?yàn)橹袊?guó)人群腦膠質(zhì)瘤的基礎(chǔ)和臨床科學(xué)研究助力,推動(dòng)中國(guó)腦膠質(zhì)瘤研究向前不斷發(fā)展。 此外,我們呼吁全球相關(guān)研究機(jī)構(gòu)公開(kāi)共享腦膠質(zhì)瘤功能基因組數(shù)據(jù),提供更加豐富有效的樣本臨床信息和測(cè)序信息,促進(jìn)對(duì)腦膠質(zhì)瘤功能基因組數(shù)據(jù)的深入和系統(tǒng)分析挖掘,對(duì)腫瘤發(fā)生、耐藥抵抗、復(fù)發(fā)進(jìn)展、新藥研發(fā)、疾病治療、早期篩查、防癌防控等提供堅(jiān)實(shí)有力的數(shù)據(jù)支持。 |
|