導語:人類的基因組常被比作是一本書寫生命的“天書”,書中只有A、T、C、G四種“字母”但字數(shù)卻高達60億。DNA分布在23對染色體中,堿基的無窮組合蘊含著人類進化、生老病死的奧秘。21世紀初,人類基因組序列的第一版草圖問世。這版草圖雖不完整,卻已在生物醫(yī)學領域產(chǎn)生了深遠影響,為臨床研究、藥物開發(fā)和醫(yī)療實踐的發(fā)展提供指引。2022年4月1日凌晨,Science發(fā)布“Completing the human genome”重磅特刊!該特刊整期上線6篇封面文章,首次公布了人類基因組的完整序列。至此,人類完整基因組測序計劃正式完成,全球科學家近40年的努力也終收獲一個滿意的成果。這項跨越3年的研究成果,填補了多年前的測序空白,是人類基因組測序研究的重大里程碑,將徹底改變我們對人類基因組變異、疾病和演化的理解。 Science 6連發(fā),公布史上 最完整的人類基因組測序結(jié)果Science上線的特刊“Completing the human genome”[1]中包括6篇研究論文(圖1),其中一篇是主論文,其他5篇論文分別從5個方面探討了該完整基因組在人類遺傳學上的重要性。5篇論文中的第一篇主要研究segmental duplication等復雜區(qū)域;第二篇論文重點介紹了中心粒的結(jié)構(gòu)和其表觀圖譜;第三篇論文討論的是該完整基因組如何提高對人類遺傳變異多樣性的分析;第四篇論文說明了人類基因組重復序列中的基因表達和其表觀圖譜;第五篇論文介紹了該完整基因組的表觀圖譜。2022年4月1日,第一個完整的、無間隙的人類基因組序列發(fā)布,這是繼1983年人類基因組計劃公布第一個人類基因組序列草案以來的首次再突破。據(jù)研究人員稱,人類DNA中擁有大約30億個堿基的完整、無間隙序列,其對于了解人類基因組變異的全譜以及了解對某些疾病的遺傳至關(guān)重要。因此,科學家們于1990年啟動人類基因組計劃,并且于2003年完成。但是,當時只是完成了92%的人類基因組測序,未完成的8%,一直受限于DNA測序技術(shù)。隨著DNA測序技術(shù)的發(fā)展,國際科學家團隊——Telomere to Telomere(T2T)聯(lián)盟的科學研究,徹底填補多年前的測序空白。新的參考基因組稱為T2T-CHM13,它是增加了近2億個堿基對的新DNA序列,其中包括99個可能編碼蛋白質(zhì)的基因和近2000個需要進一步研究的候選基因(圖2)。此外,它還糾正了當前參考序列中的數(shù)千個結(jié)構(gòu)錯誤。由新序列填補的空白包括五個人類染色體的整個短臂,覆蓋了基因組中一些最復雜的區(qū)域[2]。例如染色體末端的端粒和在細胞分裂過程中協(xié)調(diào)同源染色體或姐妹染色單體分離的著絲粒。新序列還揭示了以前未檢測到的片段重復(在基因組中重復的長段DNA),這些重復片段可在進化和疾病中發(fā)揮重要作用。圖2 紅色部分表示T2T聯(lián)盟解決的先前缺失的序列(圖源:Science)T2T基因組序列代表完成的CHM13基因組加上最近完成的T2TY染色體(CHM13包括X染色體但不包括Y染色體),是UCSC Genome Browser(簡稱“Browser”)中的新參考基因組。T2T序列在Browser中的完全注釋為科學家提供了一種有效的方式,來訪問和可視化與基因組和基因組其他元素相關(guān)的大量信息。如今有了完整的基因組,科學家就能進一步研究該片段在人類種群中的多樣性以及導致疾病的精細遺傳點。因此,本次測序工作最大的意義在于通過長讀測序技術(shù)解決復雜區(qū)域的序列結(jié)構(gòu),為后續(xù)的精準醫(yī)療和分子診斷提供更為精細的索引[3]。人類參考基因組 或?qū)⑼苿虞o助生殖發(fā)展該完整基因組的構(gòu)建不僅提供了人類基因組模板,更重要是該技術(shù)手段將迅速被應用到以基因組學為手段的生物學研究中(圖3)。圖3 研究發(fā)現(xiàn)(來源:Science)對于演化基因組學研究來說,此后可擁有較好的人類基因組學模板來研究人類特有的基因片段和人類復雜區(qū)域的遺傳多樣性。特別是對于靈長類演化研究來說,對于我們理解人類和非人靈長類在復雜區(qū)域的基因組異質(zhì)性,有著重要的意義。同時,對于演化研究和基因組學研究來說,研究人員以后可以在單核苷酸水平上去觀察中心粒的完整結(jié)構(gòu),理解中心粒的結(jié)構(gòu)變異和演化。進一步探究中心粒在基因組穩(wěn)定性中的作用,以及不同疾病中基因組不穩(wěn)定性和這些復雜區(qū)域的關(guān)系。中科院北京基因組研究所博導蔣嵐表示,國家二孩三孩政策的相繼推出,使得提高人口出生率和人口健康成為國民關(guān)注的問題。高齡產(chǎn)婦生育能力下降、難受孕、易流產(chǎn),與卵細胞和早期胚胎的著絲粒區(qū)域異常的表觀遺傳學狀態(tài)密切相關(guān)。著絲粒區(qū)域富含復雜的高度重復序列,在之前的基因組參考序列中留下許多空洞。因此,我們對于人類基因組著絲粒區(qū)域的表觀遺傳學的理解是不完整的。而此次報道的無縫隙人類基因組參考序列,結(jié)合三代測序等新技術(shù)來研究表觀遺傳學修飾特別是DNA甲基化,有望克服這個瓶頸。故該成果對于推動輔助生殖技術(shù)的發(fā)展,也具有重要意義。此外,科學家也能免費使用該數(shù)據(jù)去研究其他生物學問題。事實上,在本論文正式發(fā)表之前,就已經(jīng)惠澤更多課題組,日本科研團隊已使用T2T聯(lián)盟此前發(fā)表在預印本上的論文數(shù)據(jù)做出了研究成果。專家表示這些研究加強了我們對于人類基因組的基本認識,同時該技術(shù)的創(chuàng)新給我們帶來更多的研究方向。未來通過獲得不同人類種群T2T基因組來進一步精細研究人類起源和人類基因組多樣性將會是很重要的課題。因此,美國國立衛(wèi)生研究院專門撥款3000萬美元經(jīng)費支持研究團隊完成350個人類T2T水平的二倍體基因組測序組裝工作。該工作將構(gòu)建非洲、亞洲、歐洲和美洲等各個不同人群的泛基因組圖譜。這個泛基因組圖譜將會極大影響我們對人類演化和人類遺傳多樣性的理解,同時該圖譜也會對各類疾病的研究起到至關(guān)重要的作用。參考資料: [1]https://www./toc/science/376/6588[2]First complete, gapless sequence of a human genome reveals hidden regions .https://www./news-releases/947629[3]補齊近2億堿基的遺傳信息,迄今為止最完整的人類基因組測序結(jié)果正式發(fā)布。https://www.163.com/dy/article/H3U7LHMD05119734.html[4]Formenti et al. Merfin: improved variant filtering, assembly evaluation and polishing via k-mer validation. Nature Methods. Published online March 31, 2022. doi: 10.1038/s41592-022-01445-y
|