一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

鏈讀測(cè)序技術(shù)在宏基因組組裝研究中的應(yīng)用

 谷禾健康 2020-11-25

鏈讀測(cè)序(Linked-read sequencing)通過將相同的barcode與長DNA片段(10-100kb)的序列連接在一起,能夠消除其中的一些錯(cuò)讀,從而改進(jìn)宏基因組組裝。但目前還不清楚在使用鏈讀測(cè)序時(shí)參數(shù)的選擇對(duì)組裝的質(zhì)量的影響如何。

近日,香港浸會(huì)大學(xué)研究人員發(fā)表文章 "通過鏈讀測(cè)序?qū)昊蚪M組裝全面研究"。

模擬數(shù)據(jù)和模擬菌群中的分析結(jié)果表明,模擬數(shù)據(jù)(simulated data)中讀取深度(C)與組裝序列的長度呈正相關(guān),但對(duì)組裝序列的質(zhì)量影響不大,模擬菌群的研究中讀取深度(C) 對(duì)組裝序列的質(zhì)量以及被注釋為基因組草圖的bin的比例有輕微影響。

另一方面,宏基因組組裝質(zhì)量受 CR(每個(gè)短讀長片段的平均深度)和 CF(由長DNA片段計(jì)算的基因組的平均物理深度)的影響。對(duì)于相同的讀取深度,較深的 C會(huì)產(chǎn)生更多的基因組草圖,而較深的 C會(huì)提高基因組草圖的質(zhì)量。

還發(fā)現(xiàn)μFL (未加權(quán)的DNA片段的平均長度)對(duì)組裝有邊際效應(yīng),而NF/P(每個(gè)分區(qū)的片段數(shù))對(duì)局部組裝涉及到的偏離目標(biāo)讀數(shù)(off-target reads)有影響,即較低的NF/P值會(huì)通過減少off-target序列的錯(cuò)讀而有更好的組裝效果。

總體而言,與Illumina的短讀長相比,使用鏈讀改善了組裝中重疊群的N50,但與PacBio CCS的長讀長相比則沒有改善。

  背 景  

人體微生物群是一個(gè)復(fù)雜的系統(tǒng),在生理活動(dòng)和疾病中起著重要的作用。對(duì)微生物群中的微生物基因組進(jìn)行測(cè)序可以幫助我們研究其功能。

然而,微生物基因組序列很難獲得,微生物群中的絕大多數(shù)微生物不能被分離出來進(jìn)行單個(gè)測(cè)序。目前的宏基因組項(xiàng)目中使用短讀長測(cè)序?qū)旌系奈⑸锘蚪M進(jìn)行測(cè)序。

這些結(jié)果在基因組組裝過程中是有錯(cuò)讀的,導(dǎo)致微生物基因組的完整性和重疊群的連續(xù)性結(jié)果不理想。長讀長測(cè)序已經(jīng)被用來嘗試減輕這些問題,如Nicholls等人和Sevim等人的研究。特別是Moss等人的研究,其成果優(yōu)化了納米孔測(cè)序的長讀長文庫制備方案,并獲得了更完整的細(xì)菌基因組。

但實(shí)際應(yīng)用中,長讀長測(cè)序是昂貴的。雖然鏈讀序列(linked-reads)的基因組組裝的質(zhì)量無法與PacBio CCS的長讀長相提并論,但其低成本和高堿基質(zhì)量的優(yōu)點(diǎn)是值得去使用的。

  方 法  

01

三組鏈讀序列數(shù)據(jù)集的來源及構(gòu)成

模擬數(shù)據(jù)(simulated data):

從MBARC-26數(shù)據(jù)集中下載了23個(gè)細(xì)菌和3個(gè)古細(xì)菌菌株,按豐度分類,L-sim,低豐度微生物,摩爾濃度<10-15;M-sim,中等豐度微生物,10-15 < 摩爾濃度 < 10-14;H-sim,高豐度微生物,摩爾濃度 > 10-14

模擬菌群(mock community):

(ATCC MSA-1003)是一個(gè)由20個(gè)菌株組成的池,同樣按豐度分類,L-mock,低豐度微生物;M-mock,中等豐度微生物;H-mock,高豐度微生物;UH-mock,超高豐度微生物。

人類腸道菌群:

一份來自健康的中國人糞便樣本

02

DNA提取、文庫制備和測(cè)序

對(duì)于模擬菌群,從ATCC 20菌株交錯(cuò)的混合基因組材料中提取DNA,不進(jìn)行大小選擇。

對(duì)于人類腸道菌群,用Qiagen QiAaMP糞便迷你試劑盒提取DNA,去掉5kb以下的DNA片段。

脈沖場凝膠電泳后,按照廠商的說明制備10x Chromium文庫。使用Illumina XTen雙端2x150bp測(cè)序。人類腸道微生物組的DNA也被用于標(biāo)準(zhǔn)的Illumina XTen短序列測(cè)序。

03

DNA長片段重建和鏈讀序列二次抽樣

Long Ranger v2.2.1用于糾正barcode堿基錯(cuò)誤,計(jì)算PCR重復(fù)率,并完成barcode感知的鏈讀序列比對(duì)。

使用BWA-MEM v0.7.17比對(duì)短序列和沒有barcode的鏈讀序列。根據(jù)映射得到的具有共同的barcode的短序列的坐標(biāo)重建DNA長片段。

鏈接序列首先按barcode排序,然后按它們的映射坐標(biāo)排序。如果最近的barcode序列大于50kb,則終止延伸長DNA片段。每個(gè)片段必須包括至少兩個(gè)具有共同barcode的成對(duì)序列,并且最小長度為2kb。

04

 宏基因組組裝

對(duì)于鏈讀序列的組裝,沒有 barcode 的鏈讀序列首先由 metaSPAdes v3.11.1使用默認(rèn)參數(shù)組裝為“seed”重疊群,并通過BWA-MEM v0.7.17與重疊群比對(duì)。

最后使用 Athena-meta v1.3 通過匯集在 scaffold 中的兩個(gè)“seed”重疊群里共享相同 barcode 的序列進(jìn)行局部組裝。

05

 組裝效果評(píng)估

MaxBin v2.2.4將長于1kb的重疊群分組到bins中,并通過CheckM v1.0.12評(píng)估其完整性和污染率。

Quast v5.0.0統(tǒng)計(jì)了基礎(chǔ)信息,如重疊群的N50、NG50、NGA50、總比對(duì)長度(total aligned length)和基因組覆蓋率(genomic coverage)

Kraken v0.10.6基于內(nèi)置數(shù)據(jù)庫MiniKrakenDB為bins做物種注釋。每個(gè)bins都作為一個(gè)基因組草圖,被分類為高質(zhì)量的(完整性>90%,污染率<5%),中等質(zhì)量的(完整性≥50%,污染率<10%),低質(zhì)量的(完整性<50%,污染率<10%)

主要結(jié)果

來自人類腸道菌群和Illumina短序列鏈讀序列二次抽樣的組裝效果統(tǒng)計(jì)

ILLU,Illumina短序列的組裝

SC-all,模擬菌群和人類腸道菌群總共的兩個(gè)測(cè)序lane鏈讀序列

在鏈讀測(cè)序中,有四個(gè)關(guān)鍵參數(shù)可能會(huì)影響宏基因組組裝,如下圖。

這些參數(shù)中有幾個(gè)是相互依賴的。例如,輸入DNA的量越大,CFNF/P都會(huì)增加,CR就會(huì)降低;CFCR的絕對(duì)值是由總讀取深度(C)增加多少來設(shè)置的,因?yàn)?em style="box-sizing: border-box;">CR×CF=C。

L-sim,模擬數(shù)據(jù)中的低豐度微生物,青色

M-sim,模擬數(shù)據(jù)中的中等豐度微生物,藍(lán)色

H-sim,模擬數(shù)據(jù)中的高豐度微生物,紅色

L-mock,模擬菌群中的低豐度微生物

M-mock,模擬菌群中的中等豐度微生物

H-mock,模擬菌群中的高豐度微生物

UH-mock,模擬菌群中的超高豐度微生物

“-”表示測(cè)序lane的倒數(shù),例如MSCR4/MSCF4表示四分之一測(cè)序lane的序列被二次采樣

MSCR-,模擬菌群中的短序列

MSCF-,模擬菌群中的長DNA片段

MSC-1,模擬菌群和人類腸道菌群總共的一個(gè)測(cè)序lane鏈讀序列

SC-all,模擬菌群和人類腸道菌群總共的兩個(gè)測(cè)序lane鏈讀序列

相關(guān)閱讀:

多快好省的宏基因組研究技巧

宏基因組的一些坑和解決方案

參考文獻(xiàn):

向上滑動(dòng)閱覽

Zhang L, Fang X, Liao H, Zhang Z, Zhou X, Han L, Chen Y, Qiu Q, Li SC. A comprehensive investigation of metagenome assembly by linked-read sequencing. Microbiome. 2020 Nov 11;8(1):156. doi: 10.1186/s40168-020-00929-3. PMID: 33176883; PMCID: PMC7659138.

He S, Chandler M, Varani AM, Hickman AB, Dekker JP, Dyda F: Mechanisms of evolution in high-consequence drug resistance plasmids. MBio 2016;7(6): e01987–16.

Peng Y, Leung HC, Yiu SM, Chin FY. IDBA-UD: a de novo assembler for single-cell and metagenomic sequencing data with highly uneven depth.

Bioinformatics. 2012;28(11):1420–8.

Li D, Liu CM, Luo R, Sadakane K, Lam TW. MEGAHIT: an ultra-fast singlenode solution for large and complex metagenomics assembly via succinct de Bruijn graph. Bioinformatics. 2015;31(10):1674–6.

Nurk S, Meleshko D, Korobeynikov A. Pevzner PA: metaSPAdes: a new versatile metagenomic assembler. Genome Res. 2017;27(5):824–34.

Nicholls SM, Quick JC, Tang S, Loman NJ. Ultra-deep, long-read nanopore sequencing of mock microbial community standards. Gigascience. 2019;8(5): 1–9.

Sevim V, Lee J, Egan R, Clum A, Hundley H, Lee J, Everroad RC, Detweiler AM, Bebout BM, Pett-Ridge J, et al. Shotgun metagenome data of a defined mock community using Oxford Nanopore, PacBio and Illumina technologies. Sci Data. 2019;6(1):285.

    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多

    成人午夜爽爽爽免费视频| 精品久久少妇激情视频| 中文日韩精品视频在线| 东京干男人都知道的天堂| 91在线爽的少妇嗷嗷叫| 国产一区二区三区四区免费| 日韩日韩欧美国产精品| 一区二区三区国产日韩| 欧美成人免费视频午夜色| 中文字幕一区二区三区大片| 国产又粗又猛又爽色噜噜| 国产精品亚洲欧美一区麻豆| 欧美尤物在线视频91| 午夜福利精品视频视频| 九九九热在线免费视频| 久久精品国产在热亚洲| 欧美日韩校园春色激情偷拍| 欧美一二三区高清不卡| 夜色福利久久精品福利| 亚洲av又爽又色又色| 有坂深雪中文字幕亚洲中文 | 最好看的人妻中文字幕| 美女极度色诱视频在线观看 | 久久经典一区二区三区| 亚洲视频一区自拍偷拍另类| 欧美三级精品在线观看| 欧美黄色成人真人视频| 精品人妻精品一区二区三区| 免费观看成人免费视频| 五月婷婷六月丁香狠狠| 少妇激情在线免费观看| 亚洲精品伦理熟女国产一区二区 | 国产韩国日本精品视频| 亚洲超碰成人天堂涩涩| 很黄很污在线免费观看| 老富婆找帅哥按摩抠逼视频| 五月婷婷欧美中文字幕| 一级片黄色一区二区三区| 国产在线一区二区免费| 麻豆印象传媒在线观看| 午夜精品黄片在线播放|