重磅里程碑|人類基因組完成圖發(fā)布

劉得光3p6n6zqq 2021-06-09

展開全文

長讀長測序及其在人類基因組中應(yīng)用--組裝篇

原文地址：

https://www./content/10.1101/2021.05.26.445798v1.full.pdf+html

基因組測序數(shù)據(jù)和組裝地址：

Sequencing data and assemblies (NCBI BioProject PRJNA559484):

https://www.ncbi.nlm./bioproject/559484

Sequencing data, assemblies, and other supporting data on AWS:

https://github.com/marbl/CHM13

Assembly issues and known heterozygous sites:

https://github.com/marbl/CHM13-issues

UCSC assembly hub browser:

http://genome./cgi-bin/hgTracks?genome=t2t-chm13-v1.0&hubUrl=http://t2t.gi. /chm13/hub/hub.txt

Dotplot visualization and browser:

https:///paper-data/T2T-Nurk-et-al-2021/views/t2t-identity

T2T Consortium homepage:

https://sites.google.com//t2tworkinggroup

摘要：

2001年，Celera基因組學(xué)和國際人類基因組測序聯(lián)合會(huì)發(fā)布了他們的人類基因組初稿，這徹底改變了基因組學(xué)領(lǐng)域。這些草稿和隨后的更新有效覆蓋了基因組的常染色體部分，而異染色質(zhì)和許多其他復(fù)雜區(qū)域則未完成或有錯(cuò)誤。端粒到端粒（T2T）聯(lián)盟解決了剩下的8％的基因組問題，完成了人類基因組的第一個(gè)真正完整的30.55億堿基對（bp）序列，代表了人類參考基因組自首次提出以來的最大改進(jìn)的釋放。新的T2T-CHM13參考基因組包括所有22個(gè)常染色體加上X染色體的無間隙裝配，糾正了許多錯(cuò)誤，并引入了近2億bp的新序列，其中包含2,226個(gè)旁系同源基因拷貝，其中115個(gè)被預(yù)測為蛋白質(zhì)編碼。新近完成的區(qū)域包括所有著絲粒衛(wèi)星陣列和所有5個(gè)頂體染色體的短臂，首次將基因組的這些復(fù)雜區(qū)域解鎖，以進(jìn)行變異和功能研究。

背景介紹：

Genome Reference Consortium（GRC）于2013年發(fā)布了人類參考基因組的最新重大更新，并于2019年發(fā)布了最新補(bǔ)丁（GRCh38.p13）。該組織的起源可追溯到公共資助的人類基因組計(jì)劃，并且在過去的二十年中不斷得到改進(jìn)。和Celera genomic和大多數(shù)現(xiàn)代基因組計(jì)劃基于鳥槍法測序策略不同的是，GRC人類參考基因組主要基于來自細(xì)菌人工染色體（BAC）克隆的Sanger測序數(shù)據(jù)并通過輻射雜交，遺傳連鎖圖片和指紋圖譜進(jìn)行基因組定位和組裝。這種費(fèi)力的方法導(dǎo)致了這個(gè)策略產(chǎn)生的參考基因組在今天仍然是最連續(xù)和準(zhǔn)確的參考基因組之一。但是，當(dāng)前的GRCh38.p13參考基因組仍舊包含了151 Mbp的未知序列，分布在整個(gè)基因組中，包括著絲粒和亞端粒區(qū)域，最近的片段重復(fù)，兩性基因陣列和核糖體DNA（rDNA）陣列，所有這些都是基本細(xì)胞過程所必需的（圖1A）。一些最大的參考缺口包括所有五條復(fù)雜染色體（Chr13，Chr14，Chr15，Chr21和Chr22）的整個(gè)p臂（短臂），以及大型人類衛(wèi)星陣列（例如，Chr1，Chr9和Chr16），目前的參考基因組中將其簡單地表示為數(shù)MB級別的未知堿基（'N'）延伸。

圖1 T2T-CHM13 完整基因組組裝總結(jié)圖。

盡管這些失蹤或錯(cuò)誤區(qū)域在功能上具有重要意義，但人類基因組計(jì)劃于2003年正式宣布完成，并且在隨后的幾年中縮小剩余差距方面的進(jìn)展有限。這主要是由于上述結(jié)構(gòu)的局限性，也歸因于當(dāng)時(shí)的測序技術(shù)，這些技術(shù)被低成本，高通量的短讀長方法所控制，每次測序只能對幾百個(gè)堿基進(jìn)行測序。因此，基于散彈槍法的組裝方法無法超越現(xiàn)有參考基因組的質(zhì)量。但是，長讀長測序技術(shù)的基因組測序和組裝方法的最新進(jìn)展已使單個(gè)人類染色體從端粒到端粒的完整組裝成為可能。除了使用長讀長測序技術(shù)，這些T2T項(xiàng)目還針對單克隆的CHM細(xì)胞系的基因組，它們幾乎是完全純合的，因此比雜合的二倍體基因組更容易組裝。這種從頭開始的單倍型策略克服了GRC基于鑲嵌BAC的傳統(tǒng)的局限性，繞開了結(jié)構(gòu)多態(tài)性的挑戰(zhàn)，并允許使用現(xiàn)代基因組測序和組裝方法。

在引入PacBio的單分子技術(shù)之后，應(yīng)用了長讀長測序技術(shù)來改善人類參考基因組，這是第一項(xiàng)能夠產(chǎn)生多堿基堿基序列讀數(shù)的商業(yè)測序技術(shù)，即使錯(cuò)誤率達(dá)15％，事實(shí)證明其也能夠解決GRCh38中復(fù)雜形式的結(jié)構(gòu)變異和缺口。Oxford Nanopore的單分子納米孔技術(shù)是測序長讀長測序技術(shù)的下一個(gè)重大進(jìn)展，該技術(shù)能夠?qū)Τ^1 Mbp的“超長”讀取序列進(jìn)行測序，通過跨越大多數(shù)基因組重復(fù)序列，這些超長讀段可實(shí)現(xiàn)高度連續(xù)的從頭組裝，是實(shí)現(xiàn)完整人類基因組的關(guān)鍵技術(shù)，包括人類著絲粒（ChrY）和人類染色體（ChrX）的第一批完整基因組。

為了創(chuàng)建完整無缺的人類基因組裝配，作者同時(shí)利用了PacBio HiFi和Oxford Nanopore超長讀長技術(shù)，并結(jié)合了CHM13hTERT細(xì)胞系（以下稱為CHM13）的基本單倍體性質(zhì)。所得的T2T-CHM13參考組裝物從基于序列的分析中消除了20年的壁壘，該壁壘隱藏了8％的基因組，包括所有著絲粒區(qū)域和5條人類染色體的整個(gè)短臂。在這里，作者描述了第一個(gè)真正完整的人類參考基因組的構(gòu)建，驗(yàn)證和初步分析，并討論了其對該領(lǐng)域的潛在影響。

參考文獻(xiàn)：

Nurk et al., The complete sequence of a human genome. 2021. BioRxiv.

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：劉得光3p6n6zqq > 《基因組》

舉報(bào)/認(rèn)領(lǐng)