熒光顯微鏡下的人類染色體。Steffen Dietzel,CC BY-SA 3.0,https://commons./w/index.php?curid=1369763 編譯 李佳儀 編輯 魏瀟 人類基因組由超過 60 億個(gè) DNA 堿基組成,分布在 23 對染色體中。但在過去的二十多年中,“完整的人類基因組”一直是一個(gè)相對概念。2001 年,人類基因組計(jì)劃(Human Genome Project, HGP)發(fā)布了第一版人類基因組圖譜,其中存在大約 2 億個(gè)堿基缺失,占整個(gè)基因組的 8%。缺失的區(qū)域主要位于染色體的著絲粒和端粒區(qū)域,都包含高度重復(fù)的序列;還有部分染色體的短臂,其中包括編碼核糖體的功能性基因。 如今,科學(xué)家們終于填補(bǔ)了我們遺傳密碼中這 8% 的空白。這個(gè)迄今最完整的人類參考基因組被命名為 T2T-CHM13。和舊版本相比,位于染色體兩段的端粒序列,以及大多處于染色體中間、在細(xì)胞分裂過程中協(xié)調(diào)復(fù)制染色體分離的著絲粒序列都清晰可見。此外,包含有大量編碼核糖體骨架基因的 5 條人類染色體短臂也被探明。這些“新序列”的 2 億堿基中,包含了 99 個(gè)可能編碼蛋白質(zhì)的基因和近 2000 個(gè)需要進(jìn)一步研究的候選基因。除了端粒和著絲粒等一些基因組中最復(fù)雜的區(qū)域,T2T-CHM13 還糾正了當(dāng)前參考序列中的數(shù)千個(gè)結(jié)構(gòu)錯(cuò)誤,對現(xiàn)有的人類參考基因組(GRCh38)形成了補(bǔ)充。 迄今最完整的人類基因組 T2T-CHM13。來源:論文。 技術(shù)突破 令二十年前的人類基因組圖譜出現(xiàn)“空白”的重要原因之一,是其中的大量重復(fù)序列。此前人類基因組測序的方法是先將染色體 DNA 切斷成短片段,再進(jìn)行測序,然后將測序結(jié)果拼合回去。但著絲粒、端?;蚝颂求w DNA 區(qū)域中存在大量重復(fù)序列,它們過于相似,令科學(xué)家難以區(qū)分,無法將這些碎片拼接在一起獲得正確序列。因此 2003 年 HGP 公布的人類基因組序列并不完整,只覆蓋了約 92% 的人類基因組。 另一個(gè)障礙是人類細(xì)胞染色體由來自父母雙方的兩套基因組組成。當(dāng)研究人員試圖組裝所有片段時(shí),來自父親或母親的序列將會(huì)混合在一起,從而掩蓋了每個(gè)單獨(dú)基因組中的實(shí)際變異。 科學(xué)家首先找到了第二個(gè)問題的解決方案:一種只含有父親基因組的罕見細(xì)胞系。該細(xì)胞系取自二十多年前從一名女性子宮切除下來的葡萄胎(hydatidiform mole)組織,是一種發(fā)育異常的人類受精卵——與精子結(jié)合的是一個(gè)缺失母體基因組的卵子。僅擁有精子遺傳物質(zhì)的受精卵無法發(fā)育成胚胎,但精子帶來的性染色體剛好是 X 而不是 Y,這讓細(xì)胞保留了復(fù)制能力。這類細(xì)胞的 23 對染色體中的每一對都來自父親,序列相同,剛好符合了 T2T 組織的期望。相比之下,第一版人類基因組圖譜是由多人基因拼接而成的,結(jié)果可能產(chǎn)生錯(cuò)誤和誤差。 在上世紀(jì) HPG 開始的時(shí)候,測序技術(shù)還無法完成對長 DNA 的準(zhǔn)確讀取,因此科學(xué)家只能切割染色體,這也導(dǎo)致了高度重復(fù)序列區(qū)域無法被正確地拼合。在過去十年中,長片段 DNA 的測序能力的提升令一次性讀取一整個(gè)染色體成為可能?,F(xiàn)在,測序長度可達(dá)百萬堿基對且準(zhǔn)確度適中的牛津納米孔技術(shù)(Oxford Nanopore),以及測序長度達(dá)到 2 萬堿基對且的高度準(zhǔn)確的 PacBio HiFi 技術(shù),令研究人員能夠跨越重復(fù)區(qū)域測序并確保裝配的高度準(zhǔn)確,從而成功生成完整的人類基因組序列。 開啟“新地圖” T2T-CHM13 能更準(zhǔn)確地評估遺傳變異。研究人員在臨床研究疾病的遺傳變異或遺傳多樣性時(shí),會(huì)將測序結(jié)果與參考基因組進(jìn)行比較,而新的序列由于在“在堿基水平上非常準(zhǔn)確”,能精確定位之前被錯(cuò)誤理解的數(shù)十萬個(gè)變異,從而極大改進(jìn)遺傳變異的識(shí)別和理解。 同時(shí),新序列也為研究人類染色體中的著絲粒區(qū)域提供了幫助。在形成精子或卵子的減數(shù)分裂過程中,著絲粒是成對染色體分離時(shí)附著的地方。這個(gè)區(qū)域結(jié)構(gòu)獨(dú)特,包含長段重復(fù)序列,而且 DNA 和蛋白質(zhì)似乎在這一區(qū)域纏繞得格外緊湊(因此被定義為缺乏轉(zhuǎn)錄活性的異染色質(zhì))。研究顯示,著絲粒及其周圍的新 DNA 序列約占整個(gè)基因組的 6.2%(約 1.9 億個(gè)堿基)。美國加利福尼亞大學(xué)伯克利分校(University of California, Berkeley)的研究者 Nicolas Altemose 和他的團(tuán)隊(duì)使用新技術(shù)在著絲粒內(nèi)找到了一個(gè)稱為動(dòng)粒(kinetochore)的大蛋白質(zhì)復(fù)合物,這個(gè)復(fù)合物通過固定在染色體上,促使了染色體的分裂。如果在減數(shù)分裂中這一過程出現(xiàn)問題,將導(dǎo)致染色體異常,出現(xiàn)自然流產(chǎn)或先天性疾病。如果這個(gè)問題發(fā)生在體細(xì)胞中,則會(huì)令細(xì)胞基因表達(dá)失調(diào),進(jìn)而導(dǎo)致癌癥。 除此之外,該團(tuán)隊(duì)還在著絲粒和其他區(qū)域發(fā)現(xiàn)了出乎意料的高水平遺傳變異。他們發(fā)現(xiàn),著絲粒及其附近存在各種序列的堆疊,通常是新序列層覆蓋著舊序列層。舊序列通常有更多的隨機(jī)突變和缺失,說明這一段已被細(xì)胞棄用;而新序列中突變和甲基化都更少,說明正在被使用。同時(shí)他們還發(fā)現(xiàn)著絲粒內(nèi)部和周圍區(qū)域都含有大量的重復(fù)長度片段。該重復(fù)序列是基于一個(gè)約 171 個(gè)堿基(約為繞核小體一圈的 DNA 長度),通過重復(fù)串聯(lián)相同的結(jié)構(gòu)在著絲粒周圍形成了一個(gè)大的重復(fù)序列區(qū)域。 著絲粒的另一個(gè)謎團(tuán)是位置的固定性。美國加利福尼亞大學(xué)戴維斯分校(University of California, Davis)的研究團(tuán)隊(duì)通過對比新的參考基因組和其他已發(fā)表的著絲粒序列,發(fā)現(xiàn)人類著絲??赡芤矔?huì)移動(dòng)。類似的現(xiàn)象之前已在其他物種中被發(fā)現(xiàn)。 美國加利福尼亞大學(xué)圣克魯茲分校(University of California, Santa Cruz)的研究團(tuán)隊(duì)則將研究集中在衛(wèi)星 DNA——一種主要分布在端粒和著絲粒附近的長重復(fù)序列上。研究人員表示,著絲粒已經(jīng)被發(fā)現(xiàn)在各種人類疾病中表現(xiàn)失調(diào),但之前缺乏在序列水平的研究方法。通過新的參考基因組,科學(xué)家終于可以首次“逐個(gè)堿基”研究其中的衛(wèi)星 DNA 序列,并真正了解它的工作原理。 未來計(jì)劃 成功補(bǔ)完人類的單個(gè)基因組并不是結(jié)束。T2T-CHM13 序列來自一名歐洲白人,而且它不包含 Y 染色體。盡管 T2T 聯(lián)盟用一位美國哈佛大學(xué)生物學(xué)家捐獻(xiàn)的樣本將 Y 染色體序列補(bǔ)充了進(jìn)去,但他們?nèi)孕枰獜母鄻踊娜巳褐幸灶愃剖侄潍@得更多的完整基因組序列?!犊茖W(xué)》新聞稱,T2T 聯(lián)盟計(jì)劃從不同血統(tǒng)的人類個(gè)體中提取 350 個(gè)基因組,用測序結(jié)果創(chuàng)建一個(gè)新的“人類泛基因組參考”,來尋找可能與疾病或遺傳性狀有關(guān)的染色體短臂中的變異和難讀區(qū)域,從而更全面地理解人類多樣性。 目前,T2T 團(tuán)隊(duì)已經(jīng)開始了70 多個(gè)基因組的解密工作。T2T 聯(lián)盟的領(lǐng)導(dǎo)者之一、美國加利福尼亞大學(xué)圣克魯茲分校生物分子工程副教授 Benedict Paten 表示:“泛基因組學(xué)將研究人類種群的多樣性,并確保我們得到的基因組的準(zhǔn)確性。如果缺少這份包含復(fù)雜區(qū)域基因圖譜的跨個(gè)體研究,大量的人口基因變異將會(huì)被我們錯(cuò)過?!?/span> 6 篇《科學(xué)》論文: · The complete sequence of a human genome. SERGEY NURK, SERGEY KOREN, ARANG RHIE, et al. SCIENCE. 31 Mar 2022.Vol 376, Issue 6588,pp. 44-53.DOI: 10.1126/science.abj6987 https://www./doi/10.1126/science.abj6987 · A complete reference genome improves analysis of human genetic variation. SERGEY AGANEZOV,STEPHANIE M. YAN, XDANIELA C. SOTO, et al. SCIENCE. 1 Apr 2022.Vol 376, Issue 6588.DOI: 10.1126/science.abl3533 https://www./doi/10.1126/science.abl3533 · Segmental duplications and their variation in a complete human genome. MITCHELL R. VOLLGER, XAVI GUITART, PHILIP C. DISHUCK, et al. SCIENCE. 1 Apr 2022. Vol 376, Issue 6588. DOI: 10.1126/science.abj6965 https://www./doi/10.1126/science.abj6965 · Complete genomic and epigenetic maps of human centromeres. NICOLAS ALTEMOSE, GLENNIS A. LOGSDON, ANDREY V. BZIKADZE, et al. SCIENCE. 1 Apr 2022. Vol 376, Issue 6588. DOI: 10.1126/science.abl4178 https://www./doi/10.1126/science.abl4178 · From telomere to telomere: The transcriptional and epigenetic state of human repeat elements. SAVANNAH J. HOYT, JESSICA M. STORER, GABRIELLE A. HARTLEY, et al. SCIENCE. 1 Apr 2022. Vol 376, Issue 6588. DOI: 10.1126/science.abk3112 https://www./doi/10.1126/science.abk3112 · Epigenetic patterns in a complete human genome. ARIEL GERSHMAN, MICHAEL E. G. SAURIA, XAVI GUITART, et al. SCIENCE. 1 Apr 2022. Vol 376, Issue 6588. DOI: 10.1126/science.abj5089 |
|