人類基因組數(shù)據(jù)是現(xiàn)代人類遺傳學(xué)和基因組學(xué)研究重要的參考資源,其逐步更新和完善對(duì)人類基因組學(xué)相關(guān)應(yīng)用至關(guān)重要,包括基因組比對(duì)、變異檢測(cè)、功能注釋、群體遺傳學(xué)和表觀基因組分析等。
雖然第一個(gè)人類參考基因組序列的發(fā)布距今已20多年,但目前的參考基因組仍存在少量錯(cuò)誤,以及一些由于組裝困難而遺留的空白區(qū)域。因此,像大多數(shù)技術(shù)驅(qū)動(dòng)的重要資源一樣,人類參考基因組也早該升級(jí)了。今年4月末,Science期刊以特刊的形式發(fā)布了最新人類基因組計(jì)劃完成的系列報(bào)道。
人類泛基因組參考聯(lián)盟(Human Pangenome Reference Consortium, HPRC) 旨在創(chuàng)建一個(gè)更為精準(zhǔn)和完整的人類參考基因組,該計(jì)劃以圖形為基礎(chǔ)、以端粒到端粒的測(cè)序結(jié)果建立盡可能高質(zhì)量的人類參考泛基因組。近日,HPRC在Nature上發(fā)表了題為“The Human Pangenome Project: a global resource to map genomic diversity”的觀點(diǎn)文章,概述了人類泛基因組參考聯(lián)盟的戰(zhàn)略目標(biāo)、挑戰(zhàn)和機(jī)遇。希望與全球范圍內(nèi)的科學(xué)家和生物倫理學(xué)家共同創(chuàng)建一個(gè)完整的人類全基因組參考資源,使其更多地涵蓋整個(gè)基因組范圍內(nèi)的變異信息,為更大規(guī)模人類基因組資源提供終極指南,為開(kāi)發(fā)新的概念框架和分析方法,以構(gòu)建下游分析和可視化的全基因組基礎(chǔ)設(shè)施和工具奠定堅(jiān)實(shí)基礎(chǔ)。
文章發(fā)表在Nature
HPRC的戰(zhàn)略目標(biāo)
全基因組是代表物種遺傳多樣性的多個(gè)個(gè)體的全基因組參考序列,這一概念最初是在細(xì)菌基因組中普及,現(xiàn)在已被應(yīng)用到人類基因組學(xué)領(lǐng)域。全基因組數(shù)據(jù)的構(gòu)建依賴于高通量測(cè)序儀器生產(chǎn)的高質(zhì)量、分階段的單倍型數(shù)據(jù),高度準(zhǔn)確和完整的單倍型基因組將被組織成一個(gè)基于圖形的數(shù)據(jù)結(jié)構(gòu),用于全基因組參考序列的構(gòu)建。
HPRC通過(guò)整合國(guó)際科學(xué)界的觀點(diǎn),協(xié)調(diào)多學(xué)科合作發(fā)揮作用,召集跨機(jī)構(gòu)和跨國(guó)研究團(tuán)隊(duì),致力于樣本收集、群體遺傳多樣性、分階段測(cè)序和組裝、構(gòu)建全基因組參考的標(biāo)準(zhǔn)方法、后期資源改進(jìn)和維護(hù),資源共享和推廣等工作。
圖1. HPRC整體規(guī)劃和目標(biāo),來(lái)源:Nature
初始數(shù)據(jù)生成和發(fā)布
基因組學(xué)的技術(shù)進(jìn)步使得長(zhǎng)片段重復(fù)序列的測(cè)序、染色體的物理映射以及母系和父系遺傳單倍型的分階段組裝成為可能。在項(xiàng)目的初始階段,研究團(tuán)隊(duì)評(píng)估了多種測(cè)序技術(shù)和基因組組織算法,以確定平臺(tái)的最佳組合,并開(kāi)發(fā)了一個(gè)自動(dòng)流水線,為生成最完整和準(zhǔn)確的基因組把好技術(shù)關(guān)。
分析發(fā)現(xiàn),利用親代短讀長(zhǎng)序列數(shù)據(jù)對(duì)后代長(zhǎng)讀長(zhǎng)數(shù)據(jù)的單倍型進(jìn)行排序的方法得到的每個(gè)單倍型是最完整的且含有最少的結(jié)構(gòu)錯(cuò)誤。在未來(lái),研究團(tuán)隊(duì)將進(jìn)一步優(yōu)化測(cè)序、裝配和分析方法,以創(chuàng)建完整T2T二倍體基因組為目標(biāo),包括重復(fù)和結(jié)構(gòu)可變區(qū)域,如著絲粒、端粒。創(chuàng)建高質(zhì)量的完整基因組還將推動(dòng)二倍體基因組組裝和質(zhì)量控制工具的開(kāi)發(fā)和改進(jìn)。
圖2. 基因組測(cè)序及組裝標(biāo)準(zhǔn)化流程,來(lái)源:Nature
人類完整參考泛基因組的構(gòu)建
HPRC正在構(gòu)建一個(gè)包含三個(gè)互補(bǔ)部分的參考泛基因組:(1) 單倍型,即輸入序列集內(nèi)的序列;(2) 全基因組比對(duì),可以有效地將每個(gè)輸入單倍型作為參考嵌入到該序列圖;(3) 參考坐標(biāo)系統(tǒng),這是一個(gè)可兼容的坐標(biāo)系統(tǒng)和序列集,可用于后續(xù)的補(bǔ)充和更新。
單倍型提供了數(shù)以百計(jì)的基因組個(gè)體代表,跨越全球多樣性。每一個(gè)組裝完成的單倍型將單獨(dú)作為參考用于目前的人類泛基因組組裝;全基因組比對(duì)代表了個(gè)體集合之間的同源關(guān)系評(píng)估。這種規(guī)范的比對(duì)將支持單倍型之間的坐標(biāo)轉(zhuǎn)換,并定義等位基因關(guān)系,將為許多新興的全基因組分析工具和流程提供基礎(chǔ);坐標(biāo)系統(tǒng)提供了一種全局的、明確的方法來(lái)指代泛基因組中的所有變化,它使單倍型中的所有變體成為一類對(duì)象,可以同等地引用它們。最終,它將提供一個(gè)更完整的方法引用現(xiàn)有線性引用中不包含的變體,這對(duì)構(gòu)建在泛基因組引用上的數(shù)據(jù)庫(kù)和工具很有用。
圖3. 人類參考泛基因組的構(gòu)建及應(yīng)用,來(lái)源:Nature
與疾病研究的相關(guān)性
作者在文章中指出,正在構(gòu)建的人類泛基因組資源和開(kāi)發(fā)的方法將深刻影響人類疾病和精準(zhǔn)醫(yī)學(xué)的遺傳基礎(chǔ)研究。使用更加完整的全基因組參考資源有三個(gè)非常明顯的優(yōu)勢(shì):
首先,當(dāng)對(duì)患者樣本進(jìn)行測(cè)序和分析時(shí),一個(gè)包含人類遺傳多樣性的更完整的參考基因組將產(chǎn)生更少的模糊映射和更準(zhǔn)確的全基因組范圍內(nèi)的拷貝數(shù)變異分析,這將改善基因診斷和變異的功能注釋。
其次,這一資源將有助于發(fā)現(xiàn)疾病風(fēng)險(xiǎn)等位基因和以前未觀察到的罕見(jiàn)變異,特別是在標(biāo)準(zhǔn)短讀長(zhǎng)測(cè)序技術(shù)無(wú)法獲得的區(qū)域。例如那些重復(fù)擴(kuò)增位點(diǎn),通過(guò)長(zhǎng)讀長(zhǎng)測(cè)序?qū)@些位點(diǎn)進(jìn)行解析,提高了基因分型的能力,使得通過(guò)全基因組關(guān)聯(lián)研究和定量性狀位點(diǎn)鑒別方法去發(fā)現(xiàn)新的遺傳關(guān)聯(lián)成為可能。
第三,完整全基因組代表了人類基因變異如何被發(fā)現(xiàn)并被鑒定的根本性轉(zhuǎn)變,從簡(jiǎn)單地將患者序列比對(duì)到一個(gè)參考基因組上,發(fā)展為通過(guò)構(gòu)建分階段的基因組組合,并將它們與參考圖表比對(duì),以在堿基對(duì)水平上精確定位所有的基因差異??傊?,隨著長(zhǎng)讀長(zhǎng)測(cè)序成本的降低和全基因組方法的發(fā)展,未來(lái)患者樣本的檢測(cè)可能會(huì)更適合用長(zhǎng)讀長(zhǎng)測(cè)序技術(shù)進(jìn)行,以提高靈敏度和準(zhǔn)確性。
結(jié) 語(yǔ)
目前的GRCh38人類參考基因組是眾多基礎(chǔ)和臨床研究的重要資源,但很明顯,它還是可以被持續(xù)改進(jìn)和更新的。通過(guò)對(duì)公共和私營(yíng)部門(mén)的多年戰(zhàn)略投資,HPRC分析并確定了更好地代表全球人類基因組多樣性的技術(shù)和方法。
概括來(lái)說(shuō),人類全基因組參考數(shù)據(jù)將收集由高效算法創(chuàng)新生成的精確單倍型基因組組合,而這一策略也終將被科學(xué)界廣泛接受和使用。其中,個(gè)體基因組的收集,包括序列信息、基因組坐標(biāo)和注釋,將是人類基因組多樣性的一個(gè)重要資源。最初的人類基因組計(jì)劃的初步完成使人類健康和基因組醫(yī)學(xué)研究取得了重大進(jìn)展,現(xiàn)在,也是時(shí)候構(gòu)建更具包容性、完整性、準(zhǔn)確性的人類基因組資源,用來(lái)更好地體現(xiàn)人類基因組的多樣性,最終更好地為人類服務(wù)。
參考文獻(xiàn):
1. Wang, T., Antonacci-Fulton, L., Howe, K. et al. The Human Pangenome Project: a global resource to map genomic diversity. Nature 604, 437–446 (2022).
2. Rhie, A. et al. Towards complete and error-free genome assemblies of all vertebrate species. Nature 592, 737–746 (2021).
3. Logsdon, G. A. et al. The structure, function and evolution of a complete human chromosome 8. Nature 593, 101–107 (2021).