自2014年牛津納米孔科技有限公司(Oxford Nanopore Technologies, ONT)發(fā)布第一臺納米孔測序儀MinION以來,納米孔測序技術(shù)及其應(yīng)用研究飛速增長。該技術(shù)利用納米級蛋白質(zhì)孔(納米孔)作為生物傳感器,嵌入電阻性聚合物膜中,在電解液中施加恒定電壓,以產(chǎn)生通過納米孔的離子電流,DNA鏈在馬達(dá)蛋白(phi29 DNA聚合酶)的牽引下穿過納米孔,易位期間離子電流的變化對應(yīng)于傳感區(qū)域中的核苷酸序列,之后使用算法進(jìn)行解碼,實(shí)現(xiàn)對單分子的實(shí)時測序。 近日,俄亥俄州立大學(xué)Kin Fai Au團(tuán)隊(duì)在Nature Biotechnology發(fā)表綜述文章“Nanopore sequencing technology, bioinformatics and applications”,系統(tǒng)介紹了納米孔測序技術(shù)的發(fā)展,討論了ONT數(shù)據(jù)在準(zhǔn)確性、讀長和通量方面的改進(jìn),并描述了應(yīng)用于ONT數(shù)據(jù)的主要生物信息學(xué)方法以及納米孔測序當(dāng)前的主要應(yīng)用。納米孔測序的概念最早出現(xiàn)于20世紀(jì)80年代,其核心組分主要包括納米孔蛋白和相關(guān)馬達(dá)蛋白。第一個用于納米孔測序的納米孔蛋白是α-溶血素,其內(nèi)徑為1.4 nm -2.4 nm,可區(qū)分寡核苷酸分子上的四個DNA堿基,是生物納米孔單分子檢測的標(biāo)志。使用另一種具有相似通道直徑(~1.2 nm)的工程納米孔MspA,也獲得了類似的結(jié)果且提高了DNA單堿基的檢測靈敏度。2012年,有研究小組通過將馬達(dá)蛋白(phi29 DNA聚合酶)和納米孔(α-溶血素24和MspA25)相結(jié)合,通過電流變化,將單鏈DNA分子解析為來自單個核苷酸的信號。同時,馬達(dá)蛋白的加入減緩了DNA在納米孔中的遷移速度,提高了信噪比,可捕獲更準(zhǔn)確的序列信息。同年,ONT發(fā)布了第一款納米孔測序設(shè)備MinION,并于2015年將其商業(yè)化。此后,ONT不斷改進(jìn)納米孔和馬達(dá)蛋白,截止到目前已發(fā)布了8個版本的測序系統(tǒng)(從R6到R10.3)(圖1),其中R9.4機(jī)型將突變的CsgG和新的馬達(dá)酶整合,實(shí)現(xiàn)了更高的測序準(zhǔn)確度(94%)和更快的測序速度(高達(dá)450個堿基/秒),但該機(jī)型很難對非常長的均聚物進(jìn)行測序,因此R10和R10.3納米孔被設(shè)計(jì)有兩個傳感區(qū)域以提高均聚物的準(zhǔn)確性。圖1. ONT測序發(fā)展歷程。
除了優(yōu)化納米孔和馬達(dá)蛋白外,ONT還開發(fā)了一些策略來提高測序準(zhǔn)確性(圖2a, d),例如,通過對每個dsDNA進(jìn)行多次測序生成一致序列來提高數(shù)據(jù)質(zhì)量。ONT測序的早期版本使用2D文庫制備方法對每個dsDNA分子進(jìn)行兩次測序,以R9.4納米孔為例,2D reads的平均準(zhǔn)確率為94%。2017年5月,ONT發(fā)布了1D2策略及與其兼容的R9.5納米孔,測序準(zhǔn)確率高達(dá)95%。此外,通過新的堿基調(diào)用算法也可以提高準(zhǔn)確性,包括許多通過獨(dú)立研究開發(fā)的算法,以R7.3納米孔為例,一維reads精度從65%提高到Nanocall的70%和DeepNano的78%;對于測序讀長,隨著納米孔技術(shù)和庫制備協(xié)議的改進(jìn),最大reads長度已從2017年初的<800kb增加到2018年的2.273 Mb。平均reads長度從2014年MinION最初發(fā)布時的幾千個堿基增加到 ~23kb(圖2a, d),但在reads長度和產(chǎn)量之間存在權(quán)衡。除了測序長度和準(zhǔn)確性之外,測序通量是ONT測序應(yīng)用的另一個重要考慮因素。為了滿足不同項(xiàng)目規(guī)模的需求,ONT發(fā)布了多個平臺,其中單個ProMethation流通池的產(chǎn)量為153 Gb,平均測序速度為~430個堿基/秒。ONT設(shè)備可直接對天然RNA分子進(jìn)行測序,例如在文庫中將引物連接到天然RNA的3’端,然后直接連接接頭,不需要常規(guī)的逆轉(zhuǎn)錄。該方法需要特殊的文庫制備,但樣品操作簡便、速度快,有利于現(xiàn)場應(yīng)用。此外,該方法可以合成一條cDNA鏈以獲得RNA-cDNA雜交雙鏈,然后連接該接頭,產(chǎn)生更穩(wěn)定的文庫,滿足更廣的測序需求,產(chǎn)率較高(圖2b, c)。圖2. ONT測序建庫流程。
ONT數(shù)據(jù)的生物信息學(xué)分析也在不斷改進(jìn)(圖3)。除了內(nèi)部數(shù)據(jù)收集和特定數(shù)據(jù)格式之外,許多特定于ONT的分析側(cè)重于利用離子電流信號實(shí)現(xiàn)堿基識別、堿基修飾檢測和組裝后拋光等目的。 堿基識別是將當(dāng)前信號解碼為核苷酸序列,對數(shù)據(jù)準(zhǔn)確性和堿基修飾檢測至關(guān)重要,總的來說,堿基識別的方法開發(fā)經(jīng)歷了4個階段:(1)早期利用Markov模型對分割后的數(shù)據(jù)進(jìn)行堿基識別,2016年末利用遞歸神經(jīng)網(wǎng)絡(luò)對分割后的數(shù)據(jù)進(jìn)行堿基識別;(2)2017年對原始數(shù)據(jù)進(jìn)行堿基識別;(3)2018年使用觸發(fā)器模型識別單個核苷酸;(4)2019年訓(xùn)練定制的堿基識別模型。ONT開發(fā)了堿基識別軟件工具包,其中Guppy可在中央處理單元及圖形處理單元上運(yùn)行,以加速堿基識別。ONT能夠直接檢測一些DNA和RNA修飾,通過區(qū)分它們與未修飾的堿基的電流轉(zhuǎn)移。近年來,多個DNA和RNA修飾檢測工具已被開發(fā)應(yīng)用,Nanoraw是第一個從ONT數(shù)據(jù)中識別DNA修飾5mC、6mA和4mC的工具。Nanpolish、Megalodon和DeepSignal被證實(shí)在單分子水平上,具有單核苷酸分辨率的5mC檢測的高精度。然而,在單分子水平上檢測具有單核苷酸分辨率的RNA修飾還有待證實(shí)。雖然ONT測序的平均準(zhǔn)確度正在逐步提高,但某些reads或reads片段子集的準(zhǔn)確率相對較低,并且1D reads和2D/1D2 reads的錯誤率較高。因此,在進(jìn)行下游分析之前,通常使用自糾錯及混合糾錯兩種算法進(jìn)行誤差校正以獲得更高的靈敏度,提高測序數(shù)據(jù)質(zhì)量。目前,研究人員已經(jīng)開發(fā)了序列比對工具來解決容易出錯的長reads的特定特征。2016年,專為ONT測序開發(fā)的第一個校準(zhǔn)器GraphMap問世,GraphMap可逐步改進(jìn)候選比對以降低錯誤率。對于ONTreads長度超過100kb的,則采用minap2,該工具運(yùn)行速度快、精確度高,且可以對ONT cDNA或直接RNA測序reads執(zhí)行剪接感知比對。也有其他比對工具(例如Graphmap2,deSALT103)用于ONT轉(zhuǎn)錄組數(shù)據(jù)。在生物信息學(xué)分析中,通常采用長讀長和短讀長結(jié)合的方法(即混合測序)來解決特定的生物學(xué)問題。長讀長適用于通過明確的比對識別大范圍的基因組復(fù)雜性,短讀長的高準(zhǔn)確性和高通量適用于表征局部細(xì)節(jié)和改進(jìn)定量分析。長reads已用于從頭基因組組裝,例如基于重疊-布局-共識算法的Canu88和 Miniasm匯編器,可通過重疊相似序列來構(gòu)建圖形,并且對測序錯誤具有穩(wěn)健性。為了進(jìn)一步消除錯誤,通常在組裝前后分別進(jìn)行長reads的糾錯和組裝草圖基因組的完善。除了Nanopolish外,ONT還發(fā)布了Medaka,以提高精度和速度。當(dāng)有參考基因組時,ONT數(shù)據(jù)可以用來研究樣本的特定基因組細(xì)節(jié),包括結(jié)構(gòu)變異(SVs)和單倍型,其精度相對高于其他技術(shù), 相應(yīng)的SVs檢測工具(例如NanoSV、Sniffles、Picky和NanoVar)。鑒于單個長reads可以包含多個變體,包括SNVs和SVs,因此可以使用適當(dāng)?shù)纳镄畔W(xué)軟件對多倍體基因組及其他單倍型解析進(jìn)行定相分析。當(dāng)進(jìn)行轉(zhuǎn)錄組分析時,ONT reads可以被聚集和組裝以重建全長基因亞型或與參考基因組比對以表征復(fù)雜的轉(zhuǎn)錄事件,已開發(fā)了專門用于容易出錯的長reads的轉(zhuǎn)錄組裝器(例如Traphlor、FLAIR、StringTie和TALON)以及基于混合測序數(shù)據(jù)的組裝器(IDP127),但相關(guān)生物信息學(xué)工具,特別是定量分析工具的開發(fā)仍然不足。圖3. ONT測序數(shù)據(jù)分析流程。ONT設(shè)備的長reads長度、可移植性和直接RNA測序能力支持多種應(yīng)用(圖4)。作者回顧了ONT最主要的11種應(yīng)用。(1)完善參考基因組序列。基因組組裝是ONT測序的主要用途之一。ONT測序已被用于完善人類參考基因組中的12個缺口,檢測端粒重復(fù)序列的長度并組裝人類Y染色體的著絲粒區(qū)域。此外,ONT還實(shí)現(xiàn)了人類X染色體首個無間隙端粒-端粒組裝。在其他模式生物和密切相關(guān)物種(例如大腸桿菌、釀酒酵母、擬南芥和15種果蠅)以及非模式生物中的應(yīng)用也取得了新進(jìn)展。(2)建立新的參考基因組。ONT長reads已被廣泛用于組裝許多非模式生物的初始參考基因組,例如,僅使用ONT數(shù)據(jù)組裝茄絲核菌的第一個基因組,并使用混合測序數(shù)據(jù)(ONT加Illumina)組裝Maccullochella Peelii和Amphiprion ocellaris的基因組草圖。此外,ONT直接RNA測序已被用于構(gòu)建RNA病毒基因組,同時無需常規(guī)逆轉(zhuǎn)錄步驟。在SARS-CoV-2大流行中,ONT測序被用于通過cDNA和直接RNA測序重建全長SARS-CoV-2基因組序列,提供了有關(guān)病毒生物學(xué)、進(jìn)化和致病性的寶貴信息。(3)鑒別較大的SVs,例如乳腺癌細(xì)胞系HCC1187、急性髓系白血病個體,兩個先天性異常個體的第一個單倍型分辨SV譜的構(gòu)建。(4)表征全長轉(zhuǎn)錄組和復(fù)雜的轉(zhuǎn)錄事件。(6)檢測RNA修飾。ONT直接RNA測序?yàn)橹苯幼R別具有關(guān)鍵生物學(xué)功能的RNA 修飾和RNA編輯提供了機(jī)會,并且可以使用ONT直接RNA測序和人工化學(xué)修飾的組合來探索RNA二級結(jié)構(gòu)。(7)ONT測序已應(yīng)用于多種癌癥類型(例如白血病、乳腺癌、結(jié)腸直腸癌、胰腺癌等)以識別感興趣的基因組變異,尤其是大而復(fù)雜的變異。ONT全基因組測序可用于快速檢測染色體易位,并精確確定急性髓系白血病患者的斷裂點(diǎn)。(8)由于具備快速實(shí)時測序能力且體積小,MinION已被用于快速病原體檢測,包括細(xì)菌性腦膜炎、細(xì)菌性下呼吸道感染、感染性心內(nèi)膜炎等。除了病原體檢測外,ONT測序還可以加速分析細(xì)菌和其他微生物對抗生素/抗菌藥物的耐藥性。(9)ONT長reads已被應(yīng)用于表征遺傳疾病個體的復(fù)雜基因組重排,例如,人類基因組的ONT測序顯示,ABCA7基因串聯(lián)重復(fù)序列的擴(kuò)展與阿爾茨海默病風(fēng)險(xiǎn)的增加相關(guān)。(10)便攜式MinION設(shè)備可對新出現(xiàn)的傳染病進(jìn)行現(xiàn)場和實(shí)時基因組監(jiān)測,協(xié)助進(jìn)行系統(tǒng)發(fā)育分析和流行病學(xué)調(diào)查,如確定進(jìn)化率、診斷目標(biāo)、治療反應(yīng)和傳播率。隨著ONT測序通量的增加,實(shí)時監(jiān)測已應(yīng)用于具有更大基因組的病原體,從幾千堿基的病毒到幾兆堿基的細(xì)菌,再到基因組大于10 Mb的人類真菌病原體。(11)便攜式ONT設(shè)備也被用于現(xiàn)場宏基因組學(xué)研究。綜上所述,納米孔測序通過實(shí)時提供單個DNA/RNA分子的超長reads,使許多生物醫(yī)學(xué)研究成為可能。同時,ONT測序技術(shù)仍存在一些局限性,包括錯誤率較高,對核酸材料的需求量較高。克服這些挑戰(zhàn)需要在納米孔技術(shù)、分子實(shí)驗(yàn)和生物信息學(xué)軟件方面取得進(jìn)一步的突破。Wang Y, Zhao Y, Bollas A, Wang Y, Au KF. Nanopore sequencing technology, bioinformatics and applications. Nat Biotechnol. 2021 Nov;39(11):1348-1365. doi: 10.1038/s41587-021-01108-x. Epub 2021 Nov 8. PMID: 34750572.· END ·
|