鏈讀測(cè)序(Linked-read sequencing)通過將相同的barcode與長DNA片段(10-100kb)的序列連接在一起,能夠消除其中的一些錯(cuò)讀,從而改進(jìn)宏基因組組裝。但目前還不清楚在使用鏈讀測(cè)序時(shí)參數(shù)的選擇對(duì)組裝的質(zhì)量的影響如何。 近日,香港浸會(huì)大學(xué)研究人員發(fā)表文章 "通過鏈讀測(cè)序?qū)昊蚪M組裝全面研究"。 模擬數(shù)據(jù)和模擬菌群中的分析結(jié)果表明,模擬數(shù)據(jù)(simulated data)中讀取深度(C)與組裝序列的長度呈正相關(guān),但對(duì)組裝序列的質(zhì)量影響不大,模擬菌群的研究中讀取深度(C) 對(duì)組裝序列的質(zhì)量以及被注釋為基因組草圖的bin的比例有輕微影響。 另一方面,宏基因組組裝質(zhì)量受 CR(每個(gè)短讀長片段的平均深度)和 CF(由長DNA片段計(jì)算的基因組的平均物理深度)的影響。對(duì)于相同的讀取深度,較深的 CR 會(huì)產(chǎn)生更多的基因組草圖,而較深的 CF 會(huì)提高基因組草圖的質(zhì)量。 還發(fā)現(xiàn)μFL (未加權(quán)的DNA片段的平均長度)對(duì)組裝有邊際效應(yīng),而NF/P(每個(gè)分區(qū)的片段數(shù))對(duì)局部組裝涉及到的偏離目標(biāo)讀數(shù)(off-target reads)有影響,即較低的NF/P值會(huì)通過減少off-target序列的錯(cuò)讀而有更好的組裝效果。 總體而言,與Illumina的短讀長相比,使用鏈讀改善了組裝中重疊群的N50,但與PacBio CCS的長讀長相比則沒有改善。 背 景 人體微生物群是一個(gè)復(fù)雜的系統(tǒng),在生理活動(dòng)和疾病中起著重要的作用。對(duì)微生物群中的微生物基因組進(jìn)行測(cè)序可以幫助我們研究其功能。 然而,微生物基因組序列很難獲得,微生物群中的絕大多數(shù)微生物不能被分離出來進(jìn)行單個(gè)測(cè)序。目前的宏基因組項(xiàng)目中使用短讀長測(cè)序?qū)旌系奈⑸锘蚪M進(jìn)行測(cè)序。 這些結(jié)果在基因組組裝過程中是有錯(cuò)讀的,導(dǎo)致微生物基因組的完整性和重疊群的連續(xù)性結(jié)果不理想。長讀長測(cè)序已經(jīng)被用來嘗試減輕這些問題,如Nicholls等人和Sevim等人的研究。特別是Moss等人的研究,其成果優(yōu)化了納米孔測(cè)序的長讀長文庫制備方案,并獲得了更完整的細(xì)菌基因組。 但實(shí)際應(yīng)用中,長讀長測(cè)序是昂貴的。雖然鏈讀序列(linked-reads)的基因組組裝的質(zhì)量無法與PacBio CCS的長讀長相提并論,但其低成本和高堿基質(zhì)量的優(yōu)點(diǎn)是值得去使用的。 方 法 01 三組鏈讀序列數(shù)據(jù)集的來源及構(gòu)成 模擬數(shù)據(jù)(simulated data): 從MBARC-26數(shù)據(jù)集中下載了23個(gè)細(xì)菌和3個(gè)古細(xì)菌菌株,按豐度分類,L-sim,低豐度微生物,摩爾濃度<10-15;M-sim,中等豐度微生物,10-15 < 摩爾濃度 < 10-14;H-sim,高豐度微生物,摩爾濃度 > 10-14 模擬菌群(mock community): (ATCC MSA-1003)是一個(gè)由20個(gè)菌株組成的池,同樣按豐度分類,L-mock,低豐度微生物;M-mock,中等豐度微生物;H-mock,高豐度微生物;UH-mock,超高豐度微生物。 人類腸道菌群: 一份來自健康的中國人糞便樣本 02 DNA提取、文庫制備和測(cè)序 對(duì)于模擬菌群,從ATCC 20菌株交錯(cuò)的混合基因組材料中提取DNA,不進(jìn)行大小選擇。 對(duì)于人類腸道菌群,用Qiagen QiAaMP糞便迷你試劑盒提取DNA,去掉5kb以下的DNA片段。 脈沖場凝膠電泳后,按照廠商的說明制備10x Chromium文庫。使用Illumina XTen雙端2x150bp測(cè)序。人類腸道微生物組的DNA也被用于標(biāo)準(zhǔn)的Illumina XTen短序列測(cè)序。 03 DNA長片段重建和鏈讀序列二次抽樣 Long Ranger v2.2.1用于糾正barcode堿基錯(cuò)誤,計(jì)算PCR重復(fù)率,并完成barcode感知的鏈讀序列比對(duì)。 使用BWA-MEM v0.7.17比對(duì)短序列和沒有barcode的鏈讀序列。根據(jù)映射得到的具有共同的barcode的短序列的坐標(biāo)重建DNA長片段。 鏈接序列首先按barcode排序,然后按它們的映射坐標(biāo)排序。如果最近的barcode序列大于50kb,則終止延伸長DNA片段。每個(gè)片段必須包括至少兩個(gè)具有共同barcode的成對(duì)序列,并且最小長度為2kb。 04 宏基因組組裝 對(duì)于鏈讀序列的組裝,沒有 barcode 的鏈讀序列首先由 metaSPAdes v3.11.1使用默認(rèn)參數(shù)組裝為“seed”重疊群,并通過BWA-MEM v0.7.17與重疊群比對(duì)。 最后使用 Athena-meta v1.3 通過匯集在 scaffold 中的兩個(gè)“seed”重疊群里共享相同 barcode 的序列進(jìn)行局部組裝。 05 組裝效果評(píng)估 MaxBin v2.2.4將長于1kb的重疊群分組到bins中,并通過CheckM v1.0.12評(píng)估其完整性和污染率。 Quast v5.0.0統(tǒng)計(jì)了基礎(chǔ)信息,如重疊群的N50、NG50、NGA50、總比對(duì)長度(total aligned length)和基因組覆蓋率(genomic coverage)。 Kraken v0.10.6基于內(nèi)置數(shù)據(jù)庫MiniKrakenDB為bins做物種注釋。每個(gè)bins都作為一個(gè)基因組草圖,被分類為高質(zhì)量的(完整性>90%,污染率<5%),中等質(zhì)量的(完整性≥50%,污染率<10%),低質(zhì)量的(完整性<50%,污染率<10%) 主要結(jié)果 來自人類腸道菌群和Illumina短序列鏈讀序列二次抽樣的組裝效果統(tǒng)計(jì) ILLU,Illumina短序列的組裝 SC-all,模擬菌群和人類腸道菌群總共的兩個(gè)測(cè)序lane鏈讀序列 在鏈讀測(cè)序中,有四個(gè)關(guān)鍵參數(shù)可能會(huì)影響宏基因組組裝,如下圖。 這些參數(shù)中有幾個(gè)是相互依賴的。例如,輸入DNA的量越大,CF和NF/P都會(huì)增加,CR就會(huì)降低;CF和CR的絕對(duì)值是由總讀取深度(C)增加多少來設(shè)置的,因?yàn)?em style="box-sizing: border-box;">CR×CF=C。 L-sim,模擬數(shù)據(jù)中的低豐度微生物,青色 M-sim,模擬數(shù)據(jù)中的中等豐度微生物,藍(lán)色 H-sim,模擬數(shù)據(jù)中的高豐度微生物,紅色 L-mock,模擬菌群中的低豐度微生物 M-mock,模擬菌群中的中等豐度微生物 H-mock,模擬菌群中的高豐度微生物 UH-mock,模擬菌群中的超高豐度微生物 “-”表示測(cè)序lane的倒數(shù),例如MSCR4/MSCF4表示四分之一測(cè)序lane的序列被二次采樣 MSCR-,模擬菌群中的短序列 MSCF-,模擬菌群中的長DNA片段 MSC-1,模擬菌群和人類腸道菌群總共的一個(gè)測(cè)序lane鏈讀序列 SC-all,模擬菌群和人類腸道菌群總共的兩個(gè)測(cè)序lane鏈讀序列 相關(guān)閱讀: 參考文獻(xiàn): |
|