原文地址: https://www./content/10.1101/2021.05.26.445798v1.full.pdf+html 基因組測序數(shù)據(jù)和組裝地址: Sequencing data and assemblies (NCBI BioProject PRJNA559484): https://www.ncbi.nlm./bioproject/559484 Sequencing data, assemblies, and other supporting data on AWS: https://github.com/marbl/CHM13 Assembly issues and known heterozygous sites: https://github.com/marbl/CHM13-issues UCSC assembly hub browser: http://genome./cgi-bin/hgTracks?genome=t2t-chm13-v1.0&hubUrl=http://t2t.gi. /chm13/hub/hub.txt Dotplot visualization and browser: https:///paper-data/T2T-Nurk-et-al-2021/views/t2t-identity T2T Consortium homepage: https://sites.google.com//t2tworkinggroup 摘要: 2001年,Celera基因組學(xué)和國際人類基因組測序聯(lián)合會(huì)發(fā)布了他們的人類基因組初稿,這徹底改變了基因組學(xué)領(lǐng)域。這些草稿和隨后的更新有效覆蓋了基因組的常染色體部分,而異染色質(zhì)和許多其他復(fù)雜區(qū)域則未完成或有錯(cuò)誤。端粒到端粒(T2T)聯(lián)盟解決了剩下的8%的基因組問題,完成了人類基因組的第一個(gè)真正完整的30.55億堿基對(bp)序列,代表了人類參考基因組自首次提出以來的最大改進(jìn)的釋放。新的T2T-CHM13參考基因組包括所有22個(gè)常染色體加上X染色體的無間隙裝配,糾正了許多錯(cuò)誤,并引入了近2億bp的新序列,其中包含2,226個(gè)旁系同源基因拷貝,其中115個(gè)被預(yù)測為蛋白質(zhì)編碼。新近完成的區(qū)域包括所有著絲粒衛(wèi)星陣列和所有5個(gè)頂體染色體的短臂,首次將基因組的這些復(fù)雜區(qū)域解鎖,以進(jìn)行變異和功能研究。 背景介紹: Genome Reference Consortium(GRC)于2013年發(fā)布了人類參考基因組的最新重大更新,并于2019年發(fā)布了最新補(bǔ)丁(GRCh38.p13)。該組織的起源可追溯到公共資助的人類基因組計(jì)劃,并且在過去的二十年中不斷得到改進(jìn)。和Celera genomic和大多數(shù)現(xiàn)代基因組計(jì)劃基于鳥槍法測序策略不同的是,GRC人類參考基因組主要基于來自細(xì)菌人工染色體(BAC)克隆的Sanger測序數(shù)據(jù)并通過輻射雜交,遺傳連鎖圖片和指紋圖譜進(jìn)行基因組定位和組裝。這種費(fèi)力的方法導(dǎo)致了這個(gè)策略產(chǎn)生的參考基因組在今天仍然是最連續(xù)和準(zhǔn)確的參考基因組之一。但是,當(dāng)前的GRCh38.p13參考基因組仍舊包含了151 Mbp的未知序列,分布在整個(gè)基因組中,包括著絲粒和亞端粒區(qū)域,最近的片段重復(fù),兩性基因陣列和核糖體DNA(rDNA)陣列,所有這些都是基本細(xì)胞過程所必需的(圖1A)。一些最大的參考缺口包括所有五條復(fù)雜染色體(Chr13,Chr14,Chr15,Chr21和Chr22)的整個(gè)p臂(短臂),以及大型人類衛(wèi)星陣列(例如,Chr1,Chr9和Chr16),目前的參考基因組中將其簡單地表示為數(shù)MB級別的未知堿基('N')延伸。 圖1 T2T-CHM13 完整基因組組裝總結(jié)圖。 盡管這些失蹤或錯(cuò)誤區(qū)域在功能上具有重要意義,但人類基因組計(jì)劃于2003年正式宣布完成,并且在隨后的幾年中縮小剩余差距方面的進(jìn)展有限。這主要是由于上述結(jié)構(gòu)的局限性,也歸因于當(dāng)時(shí)的測序技術(shù),這些技術(shù)被低成本,高通量的短讀長方法所控制,每次測序只能對幾百個(gè)堿基進(jìn)行測序。因此,基于散彈槍法的組裝方法無法超越現(xiàn)有參考基因組的質(zhì)量。但是,長讀長測序技術(shù)的基因組測序和組裝方法的最新進(jìn)展已使單個(gè)人類染色體從端粒到端粒的完整組裝成為可能。除了使用長讀長測序技術(shù),這些T2T項(xiàng)目還針對單克隆的CHM細(xì)胞系的基因組,它們幾乎是完全純合的,因此比雜合的二倍體基因組更容易組裝。這種從頭開始的單倍型策略克服了GRC基于鑲嵌BAC的傳統(tǒng)的局限性,繞開了結(jié)構(gòu)多態(tài)性的挑戰(zhàn),并允許使用現(xiàn)代基因組測序和組裝方法。 在引入PacBio的單分子技術(shù)之后,應(yīng)用了長讀長測序技術(shù)來改善人類參考基因組,這是第一項(xiàng)能夠產(chǎn)生多堿基堿基序列讀數(shù)的商業(yè)測序技術(shù),即使錯(cuò)誤率達(dá)15%,事實(shí)證明其也能夠解決GRCh38中復(fù)雜形式的結(jié)構(gòu)變異和缺口。Oxford Nanopore的單分子納米孔技術(shù)是測序長讀長測序技術(shù)的下一個(gè)重大進(jìn)展,該技術(shù)能夠?qū)Τ^1 Mbp的“超長”讀取序列進(jìn)行測序,通過跨越大多數(shù)基因組重復(fù)序列,這些超長讀段可實(shí)現(xiàn)高度連續(xù)的從頭組裝,是實(shí)現(xiàn)完整人類基因組的關(guān)鍵技術(shù),包括人類著絲粒(ChrY)和人類染色體(ChrX)的第一批完整基因組。 為了創(chuàng)建完整無缺的人類基因組裝配,作者同時(shí)利用了PacBio HiFi和Oxford Nanopore超長讀長技術(shù),并結(jié)合了CHM13hTERT細(xì)胞系(以下稱為CHM13)的基本單倍體性質(zhì)。所得的T2T-CHM13參考組裝物從基于序列的分析中消除了20年的壁壘,該壁壘隱藏了8%的基因組,包括所有著絲粒區(qū)域和5條人類染色體的整個(gè)短臂。在這里,作者描述了第一個(gè)真正完整的人類參考基因組的構(gòu)建,驗(yàn)證和初步分析,并討論了其對該領(lǐng)域的潛在影響。
Nurk et al., The complete sequence of a human genome. 2021. BioRxiv. |
|