人類基因組計劃(Human Genome Project, HGP)是科學(xué)家揭秘人類基因組圖譜、為人類遺傳以及相關(guān)疾病的研究提供了先驅(qū)力量以及藍圖的里程碑式工作,被譽為生命科學(xué)的“登月計劃”。人類基因組既包括蛋白質(zhì)編碼基因,也包括控制這些基因何時表達以及表達到何種程度的調(diào)控信息。雖然人類大多擁有相同的基因和調(diào)控元件,但潛在的基因序列和地球上的人一樣多樣化,每個個體的基因組都是獨一無二的。 為了反映這種多樣性并以前所未有的規(guī)模捕捉大群體個體間的基因變異程度,基因組聚合數(shù)據(jù)庫 (The Genome Aggregation Database,gnomAD) 應(yīng)運而生。gnomAD目前已經(jīng)收集了15,708個全基因組和125,748個外顯子組的數(shù)據(jù)。目前,gnomAD數(shù)據(jù)庫中的大規(guī)模數(shù)據(jù)已對公眾開放。 為了對這一數(shù)據(jù)的更好的進行補充和應(yīng)用以及規(guī)范化數(shù)據(jù)分析,Nature上同時刊發(fā)4篇文章,從多種角度對gnomAD數(shù)據(jù)庫進行豐富和應(yīng)用,同時在Nature的子刊Nature Medicine上發(fā)表了1篇文章,Nature Communications上發(fā)表了2篇相關(guān)內(nèi)容,建立了一個gnomAD數(shù)據(jù)庫文獻合集。BioArt編輯部將對gnomAD數(shù)據(jù)庫文章集合進行解析,讓該數(shù)據(jù)庫為更多的科學(xué)研究服務(wù),為更好的從群體以及個體角度解析基因組變異發(fā)掘新的工具。 一、 gnomAD數(shù)據(jù)庫一覽 gnomAD數(shù)據(jù)庫中包括由100多名全世界各地的研究人員領(lǐng)導(dǎo)的獨立的人類測序研究,經(jīng)過優(yōu)化和標準化處理后,將3PB的數(shù)據(jù)處理成為35TB高質(zhì)量人類基因組變異數(shù)據(jù)。gnomAD數(shù)據(jù)庫中的基因組數(shù)據(jù)包括來自歐洲人、拉丁美洲人和非裔美國人、南亞人、東亞人、德系猶太人和其他人群的外顯子和基因組。值的一提的是,gnomAD數(shù)據(jù)庫的前身是人類外顯子組數(shù)據(jù)庫(The Exome Aggregation Consortium, ExAC),自2016年8月在Nature雜志上作為封面故事報道以來,它已經(jīng)被超過4000份出版物提及和使用(圖1)。 圖1 gnomAD的前身:the human Exome 但與外顯子組數(shù)據(jù)庫相比,gnomAD數(shù)據(jù)庫報告了2.41億個小的遺傳變異 (單核苷酸變異和短插入/刪除變量) 和335,470個結(jié)構(gòu)性變異 (至少50個堿基對的DNA重組),與外顯子數(shù)據(jù)庫的740萬數(shù)據(jù)內(nèi)容相比,大大擴增了人類對于小的遺傳變異的認識,同時也增加和補充了結(jié)構(gòu)變異的內(nèi)容(圖2)。gnomAD數(shù)據(jù)庫團隊已經(jīng)在進一步擴展這個資源,最近發(fā)布了包含71,702個基因組的gnomAD 3.0版本。 二、gnomAD數(shù)據(jù)庫的新一步擴大 美國Broad Institute研究所Daniel G. MacArthur研究組以及Konrad J. Karczewski(第一作者)發(fā)文題為The mutational constraint spectrum quantified from variation in 141,456 humans,對來自141,456人類個體中得到的125,748個全外顯子組和15,708個全基因組測序數(shù)據(jù)中預(yù)測的功能缺失變異進行整合,揭示出影響這些人類蛋白編碼基因突變的圖譜(圖3)。 使蛋白質(zhì)編碼基因失活的遺傳變異是基因功能破壞后產(chǎn)生表型并可供分析的信息來源。對生物體的功能至關(guān)重要的基因?qū)⒃谧匀环N群中失去這種變異,而非必需的基因?qū)⑷萑袒蜻z傳變異的積累。但是由于出現(xiàn)頻率較低而且不容易分析,想要預(yù)測這種功能缺失型變異需要極為細致的分析以及非常大的樣本量。這需要全世界相關(guān)研究的組織機構(gòu)以及科學(xué)研究者的通力合作。在該文章中,作者們通過對gnomAD數(shù)據(jù)庫中大規(guī)模外顯子以及全基因組測序數(shù)據(jù)進行整合,豐富了該數(shù)據(jù)庫的內(nèi)容。在對測序結(jié)果和基因注釋內(nèi)容進行優(yōu)化和篩選后,作者們確認了443,769個高可信度的預(yù)測功能缺失變異。在使用人類變異率模型對數(shù)據(jù)進行改進后,作者們可以根據(jù)容忍人類蛋白質(zhì)編碼基因至失活的變異頻率,在模型動物和工程編輯的人體細胞中進行驗證,對其用以改善常見和罕見疾病基因變異的發(fā)現(xiàn)提供了重要工具和數(shù)據(jù)分析系來源。 三、gnomAD數(shù)據(jù)庫與藥物靶點選擇 美國Broad Institute研究所Daniel G. MacArthur研究組以及Eric Vallabh Minikel(第一作者)發(fā)文題為Evaluating drug targets through human loss-of-function genetic variation,通過對gnomAD數(shù)據(jù)庫中125,748個人類外顯子和15,708個全基因組的預(yù)測功能缺失變異的分析,為人類基因敲除研究提供了路線圖,也為未來疾病生物學(xué)和藥物靶點選擇的研究提供了指南。在該工作中,作者們報告了關(guān)于使用功能缺失型變異預(yù)測藥物靶點的三個關(guān)鍵性發(fā)現(xiàn)。首先,即使是不能耐受喪失功能變異的必要基因,也可以作為抑制藥物的靶點。第二,在大多數(shù)基因中,功能缺失變異非常罕見,因此想要基于基因型確定純合子或復(fù)合雜合子敲除所需要的人類樣本量是要進一步提高的。第三,自動化的變異注釋和過濾功能非常強大,但是人工處理仍然是確保準確性的關(guān)鍵,也是根據(jù)基因型進行重新分類的先決條件。該研究結(jié)果為人類基因敲除研究提供了重要思路。 四、gnomAD數(shù)據(jù)庫與結(jié)構(gòu)變異的應(yīng)用 美國Broad Institute研究所Michael E. Talkowski研究組在Nature發(fā)文題為A structural variation reference for medical and population genetics,為醫(yī)藥研究和群體遺傳學(xué)提供結(jié)構(gòu)變異的參考。前面提到,gnomAD數(shù)據(jù)庫相較于其前身外顯子組數(shù)據(jù)庫,增加了結(jié)構(gòu)變異的相關(guān)數(shù)據(jù),豐富了對于人類基因組變異的認識。在gnomAD數(shù)據(jù)庫中,作者們對來自全球不同人群的14,891個基因組的序列的結(jié)構(gòu)變異數(shù)據(jù)進行了大量的經(jīng)驗評估,為疾病相關(guān)性研究、群體遺傳學(xué)和診斷篩選提供了參考圖譜。 原文鏈接:https:///10.1038/s41586-020-2287-8 五、gnomAD數(shù)據(jù)庫與轉(zhuǎn)錄本量化注釋 美國Broad Institute研究所Daniel G. MacArthur研究組在Nature發(fā)文題為Transcript expression-aware annotation improves rare variant interpretation,在gnomAD數(shù)據(jù)庫中驗證了一種新的變異注釋度量,該度量量化了組織間遺傳變異的表達水平,并顯示出改進了罕見變異解釋的效果。目前,還沒有任何注釋工具系統(tǒng)性地將外顯子表達的信息合并到對于人類基因組變異的解釋中。作者們開發(fā)了一種轉(zhuǎn)錄水平的注釋工具,被稱為跨轉(zhuǎn)錄本表達比例(Proportion expressed across transcripts)量化了變異體的表達。該注釋工具快速、靈活,方便對于任何基因變異體數(shù)據(jù)文件進行注釋和管理,有助于罕見疾病基因診斷的進行。 原文鏈接:https:///10.1038/s41586-020-2329-2 六、gnomAD數(shù)據(jù)庫與帕金森疾病相關(guān)的應(yīng)用實例 美國Broad Institute研究所Daniel G. MacArthur研究組與Nicola Whiffin(第一作者)在Nature Medicine發(fā)文題為The effect of LRRK2 loss-of-function variants in humans,提供了gnomAD數(shù)據(jù)庫在預(yù)測功能缺失變異應(yīng)用方面的實例。已知LRRK2中激酶功能的獲得變異可顯著增加帕金森病的風(fēng)險,這表明抑制LRRK2激酶活性有望成為帕金森的治療策略。預(yù)測性蛋白質(zhì)編碼基因功能缺失變體為人類疾病的研究提供了體內(nèi)模型,并且也可以作為檢測治療藥物在臨床方面潛在毒性的重要工具。作者們通過系統(tǒng)性的分析gnomAD數(shù)據(jù)庫中觀察到的141,456個LRRK2基因的預(yù)測性功能缺失變體,鑒定出了1455個高度可靠的突變個體。該工作證明了大規(guī)?;蚪M數(shù)據(jù)庫和人類功能缺失變體的表型分析在藥物發(fā)現(xiàn)中的價值。 原文鏈接:https:///10.1038/s41591-020-0893-5 七、gnomAD數(shù)據(jù)庫與上游的開放閱讀框的研究 英國帝國理工學(xué)院Nicola Whiffin研究組在Nature Communications發(fā)文題為Characterising the loss-of-function impact of 5’untranslated region variants in 15,708 individuals,作者們通過利用gnomAD數(shù)據(jù)庫系統(tǒng)地評估了15,708個個體基因組中位于5’非翻譯區(qū)中基因變異的影響,發(fā)現(xiàn)這些變異可能創(chuàng)造或破壞上游的開放閱讀框(Upstream open reading frames, uORFs)。uORFs是蛋白質(zhì)翻譯的組織特異性順式調(diào)控因子。有研究表明,產(chǎn)生或破壞uORFs的變異可能導(dǎo)致疾病。該研究突出了uORFs變異作為一個未被充分認識的功能分類,有助于對人類疾病發(fā)生進行解析,并證明了大規(guī)模人群測序數(shù)據(jù)在研究非編碼變異類的力量。 原文鏈接:https:///10.1038/s41467-019-10717-9 八、gnomAD數(shù)據(jù)庫與多核苷酸變異 美國Broad Institute研究所Daniel G. MacArthur研究組在Nature Communications發(fā)文題為Landscape of multi-nucleotide variants in 125,748 human exomes and 15,708 genomes,對gnomAD數(shù)據(jù)庫中的多核苷酸變異(Multi-nucleotide variants, MNVs)進行分析以及對全局突變率的預(yù)測和估計。多核苷酸變異是個體存在于同一單倍型上的兩個或兩個以上鄰近變異,是臨床和生物學(xué)上重要的一類遺傳變異。然而,現(xiàn)有的工具通常不能準確地對MNVs進行分類,對其突變起源的理解仍然有限。在該工作中,作者們利用gnomAD數(shù)據(jù)庫對125,748個全外顯子和15,708個全基因組中的MNVs進行了系統(tǒng)性研究。該研究結(jié)果證明了單倍型識別的變異注釋的價值,并完善了對于全基因組范圍內(nèi)MNVs突變機制的理解。 原文鏈接:https:///10.1038/s41467-019-12438-5 為了對gnomAD數(shù)據(jù)庫進行介紹,Nature網(wǎng)站上同步發(fā)表了關(guān)于此七篇文章的內(nèi)容簡介與新聞推廣,Nature還專門發(fā)表社論認為這些研究是人類基因組研究的里程碑。gnomAD數(shù)據(jù)庫中大規(guī)模的基因組測序和分析工作提供了迄今為止最全面的人類遺傳變異數(shù)據(jù)同時也促進了注釋和分析工具的產(chǎn)生,為人們進一步了解人類遺傳變異提供了無價的寶庫。 目前gnomAD聯(lián)盟已經(jīng)公開了它的數(shù)據(jù),該項目對科學(xué)的影響將遠遠超過我們的想象。gnomAD數(shù)據(jù)庫就像之前的外顯子組數(shù)據(jù)庫一樣將改變我們對個體基因組的理解方式。這將為以前所忽略和遺漏的有關(guān)人類遺傳變異的信息提供重要的研究工具,并幫助我們更好地理解人群和個體層面上的基因組。讓我們拭目以待! 特刊鏈接:https://www./collections/afbgiddede 制版人:珂 |
|
來自: 昵稱32772025 > 《待分類》