編譯:逍遙君,編輯:小菌菌、江舜堯。 原創(chuàng)微文,歡迎轉發(fā)轉載。 腸道菌群是一個動態(tài)的、高度多樣化的微生物生態(tài)系統(tǒng),影響宿主生理的許多方面。鳥槍法宏基因組測序等非培養(yǎng)依賴性方法徹底改變了表征和研究這些群落的實驗方法?;蚰夸浐秃昊蚪M組裝基因組(MAGs)的集合有利于測序數據的分類和功能注釋,從而最大限度地從短讀段中獲得信息。通常,參考基因目錄的生成涉及樣本特異性組裝、基因的預測和基因條目的全數據聚類,以減少冗余。然而,這種方法導致基因條目的分類分辨率降低。這是由于高度相關但截然不同的基因的聚類和缺乏高分辨率的分類學信息,這可以最好地從16S rRNA基因等標記基因中獲得,為此存在大量的參考集合。然而大規(guī)模宏基因組方法的一個挑戰(zhàn)是將特定的16S rRNA基因序列與MAGs連接,這通常導致低連接率。這里我們提出了一個全面的方法和相應的計算工作流程來構建整合的基因目錄,使得基因條目的分類分辨率得到了顯著的提高,同時將基因與MAGs連接并重建了全長16S rRNA基因。整合的小鼠腸道宏基因組目錄(iMGMC)由298個公開的和新測序的宏基因組樣本構建而成。而且,我們提出了一組從898個宏基因組測序樣本的單獨單樣本組裝中獲得的額外MAGs,連同整合到iMGMC中的MAGs,組成了1296個物種水平的細菌基因組。 論文ID 原名:An Integrated Metagenome Catalog Reveals New Insights into the Murine Gut Microbiome 譯名:整合的宏基因組目錄揭示了對小鼠腸道微生物組的新見解 期刊:Cell Reports IF:8.109 發(fā)表時間:2020.03 通訊作者:Till Strowig 作者單位:漢諾威醫(yī)學院 論文框架 結果 1 小鼠iMGMC的構建 已有研究成功構建了幾個基因目錄,其中包括包含260萬個非冗余基因的來自小鼠腸道的微生物組基因目錄(MGCv1)。為了補充該目錄,研究人員提出了一種綜合的方法和相應的計算流程來構建整合的基因目錄,顯著改善了基因條目的分類學分辨率,并將基因鏈接到MAGs和重建的全長16S rRNA基因(圖1A和1B)。本研究將這種方法應用于實驗室小鼠和野生小鼠(n=108)的檢測,并結合之前發(fā)表在MGCv1中的一組數據(n=190)。298個宏基因組樣本總數據量為1.3 Tbp,組裝為大小為4.5 Gbp的120萬個重疊群(contigs),包含460萬個開放閱讀框(ORFs)。由于樣本數量和方法的變化,相比MGCv1(260萬個ORFs)大大增加了77%的ORFs(圖1C)。通過對ORFs進行聚類檢測了其冗余性,結果表明重復率只有2%,由于冗余較低,因而在iMGMC中保留了所有的ORF。隨后,重疊群被裝箱,共得到1462個bin(>200 kbp),占iMGMC條目的87%,只有13%的條目仍然存在于小于200 kbp的重疊群或bin中。然后,基于已經建立的細菌標記基因集,使用CheckM(完整性-污染≥80%)將660個bin定義為iMAGs(integrated MAGs,占iMGMC ORFs的40%)(圖1C、1D)。根據最新的質控標準,iMGMC含有908個中等質量的MAGs(mMAG,完整性>50%,污染<10%)。對比發(fā)現,MGCv1不包含MAGs,而是CAGs(co-abundance groups),CAGs至少包含700個基因。CAGs數量和CAGs中基因數量的比較顯示,與MGCv1相比,iMGMC均大幅增加(分別為1217 VS 541個CAGs和81% VS 40%的基因)(圖1C)。 此前大部分宏基因組重建微生物基因組采用的是單樣本組裝,而不是一體式方法。單樣本組裝,metaSPAdes的性能優(yōu)于Megahit,但是,metaSPAdes無法用于一體式方法。因此,通過對使用兩種方法從上述數據集(n=298)獲得的結果進行了比較。結果顯示,當對MAGs數量進行評估時,一體式方法優(yōu)于該數據集的單樣本組裝。并且一體式組裝特異性bin具有較低的相對豐度,表明該方法可能適用于回收低豐度微生物(圖S1)。為了比較兩種方法組裝MAG的質量,鑒定了以前已知的相關細菌基因組(n=26個MAG),比較發(fā)現MAG質量相等(表S2)。因此,盡管采用了不同的方法,但對于分析的數據集,一體式匯編與單樣本匯編所的結果類似,同時為iMGMC的構建提供了明顯的優(yōu)勢。 經典基因目錄中條目分類的匹配率易受到基于相對較短ORF預測分類位置的算法能力的限制,特別是在樣本特異性組裝和通過相似性對ORF進行分類后。因此利用無聚類方法,使用從各自的基因、重疊群和bin獲得的分類信息注釋了每個iMGMC條目(圖1E)。結果顯示,在不同的分類學水平上,相對分類匹配率提高了28%至1021%(圖1E)。為了評價iMGMC數據的性能,將3項外部研究(Everard等人;Suez等人;Levy等人)映射到兩個目錄。結果表明映射到iMGMC的讀取數量顯著增加(高達36%)(圖1F和1G)。因此,通過結合298個額外的樣本和本研究優(yōu)化的組裝策略,對原有的基因目錄進行了改進,得到了iMGMC。 圖1 iMGMC的生成和評估。(A)該流程圖展示了用于生成iMGMC的步驟和生物信息學工具(名稱在括號中)。此資源包括基因,MAGs,16S rRNA基因序列和MAG-16S rRNA gene links。(B)流程圖顯示了用于單樣品組裝方法的步驟和生物信息學工具(括號中的名稱)。(C)比較以前的小鼠腸道基因目錄(MGCv1)和iMGMC之間基因條目的相對數量和總數以及它們與不同完整度的bins的關聯。bins包括CAG(長度≥200 kbp且包含ORF的數量≥700)和MAGs(經CheckM評定質量≥80%)。(D)通過分析標記基因的完整性和污染性(CheckM標準),對單個合并的contigs進行質量測定。箱型圖分別顯示了660個iMAGs和802個CAGs的標記基因完整性和污染性。數據以箱型圖的形式顯示,代表10%,第一四分位數,中位數,第三四分位數和90%。(E)基因條目的絕對數量根據ORF,contigs或bin的最低分類標準注釋上色。分類使用了不同的分類器:ORF使用DIAMOND-BlastP,contigs使用CAT(contig注釋工具),bins使用GTDBTk(基因組分類數據庫工具包)。(F和G)MGCv1(紅色)和iMGMC(綠色)數據映射率和分類學的比較。 2 16S rRNA基因序列到MAGs的重組與連接 由于16S rRNA基因具有高度保守區(qū),因而通過較短的測序數據通常無法高效地進行重組,因此有必要開發(fā)一種可從宏基因組測序數據重建16S rRNA基因的專用工具。從iMGMC數據集中,使用RAMBL組裝了1323個全長的16S rRNA基因序列。我們假設將16S rRNA基因與bin和iMAGs聯系起來可以有效地整合功能和分類信息。然而,目前沒有用于創(chuàng)建此類連接的方法。因此,本研究設計了一個結合映射和基于相關性關聯的綜合得分,以將16S rRNA基因序列分配給每個bin(圖2A和S2)。為了評估這種方法的可行性,使用了791個已知基因組生成的合成數據集對其進行了評估。該數據集包含64個不同的樣本,這些樣本是使用一體化方法組裝的,產生了438個mMAGs。使用RAMBL重建16S rRNA基因序列構建iMGMC數據集(n=460)。這438個mMAGs中,204個符合iMGMC質量標準(CheckM:完整性-污染≥80%),并且其中163個MAGs(79%),可以指定為重構的16S rRNA序列。使用FastANI將MAGs映射到參考基因組,從而鑒定每個MAG的金標準16S rRNA基因。值得注意的是,使用該連接方法預測了103個MAGs(63.2%)的16S rRNA基因序列可能是最好的(與金標準16S rRNA基因序列相一致)(圖2B)。剩余的60個序列中,至少在科水平上可以通過16S rRNA基因和MAG的分類差異篩選出29個。在其余31個bins中,15個bins的16S rRNA基因序列與金標準密切相關,另外16個bins(9.8%)與金標準不同。由于使用該方法所得結果較好,因而首次對iMGMC執(zhí)行了自動化方法。在iMGMC中使用參考基因組16S rRNA基因序列鏈接的MAGs對預測的MAG-16S rRNA基因對進行評估。在47個確定的基因組和相應的bins中,28個和16S rRNA基因之間完全一致(100%序列一致),另外7個匹配的分類學指定為屬水平。其余12個基因組和bins在不同的分類學水平上存在差異(圖2C;數據S1),這一結果與合成數據集性能相似。為了提高質量,手動校正以排除MAG和16S rRNA基因之間在分類學水平(大于家族水平)上顯著不同的MAG-16S rRNA基因,主要為16S rRNA基因多次與不同的MAGs/bins關聯。最后,在iMGMC中,660個iMAGs中的485個(73%)被指定為唯一的16S rRNA基因序列(圖2D)??傊?,這表明提出的方案能夠極大地改善(盡管不是以無錯誤的方式)將MAGs和bins與相應的重建16S rRNA基因相關聯,從而可更好地分析數據。 圖2 重建16S rRNA基因與MAGs的鏈接方法。(A)通過結合基于映射和統(tǒng)計方法將MAGs與16S rRNA基因序列鏈接的方法學概述。得到的MAGs連鎖對和重建的16S rRNA基因序列,連同KEGG注釋,用于構建小鼠腸道特異性PICRUSt預測。(B)鏈接方法與模擬數據的評價(CAMI2小鼠腸道)。(C)iMGMC與NCBI參考基因組的連接評價。(D)包含重建的16S rRNA基因序列的系統(tǒng)發(fā)育樹。分類組突出顯示。外環(huán)中的顏色表示存在連接的MAG(藍色)或CAG(綠色)。 3 通過iMGMC中的16S rRNA基因鏈接改善功能預測 微生物參考基因組數據庫的建立推動了基于標記基因數據集模擬基因組功能譜的方法的發(fā)展,例如16S rRNA擴增子譜。由于鼠腸道內許多細菌缺乏參考基因組,因而我們認為通過默認的基于PICRUSt的小鼠相關宏基因組功能預測是有限的。通過將MAGs連接到16S rRNA基因序列,我們構建了一個優(yōu)化PICRUSt版本(PICRUSt-iMGMC),即使用原始PICRUSt算法結合iMGMC數據(圖3A)。通過比較PICRUSt和PICRUSt-iMGMC預測的KEGG同源圖譜與相應的鳥槍法宏基因組文庫(全基因組測序,WGS),結果表明PICRUSt-iMGMC與基于WGS的KO譜的相關性高于PICRUSt(Pearson:0.84 vs 0.68,+23%;Spearman:0.84 vs 0.70,21%)(圖3B、3C)。其中結腸樣本的相關性最高(圖S3)。采用未用于構建目錄的其他數據集也獲得了相似的改善,如來自野生型小鼠的樣本(圖S3)。PICRUSt-iMGMC相關性的改善很大程度上來源于靈敏度的提高,即真陽性率的降低,而不是假陽性率的降低,使得能夠預測原方法丟失的功能(圖3D、3E)。因此,本研究得到的iMGMC能夠顯著改善宏基因組學功能譜的預測。 圖3 小鼠腸道菌群優(yōu)化PICRUSt-iMGMC模型。(A)本研究中使用的PICRUSt工作流程:(1)針對GreenGenes數據庫,從緊密參考選擇的操作分類單元(OTU)開始,使用預先計算的基因組預測文件,對終端用戶進行默認工作流程,依賴于功能宏基因組預測。(2)新型PICRUSt工作流程從de novo-picked OTUs開始,利用具有16S rRNA基因鏈接的iMAGs創(chuàng)建生態(tài)系統(tǒng)特異性功能宏基因組預測。(B-E)為了比較使用16S rRNA基因擴增子測序的默認PICRUSt和PICRUSt-iMGMC生成的PICRUSt-KO圖譜與鳥槍法宏基因組測序(WGS)確定的真實KO圖譜,分析了不同解剖位置的樣本(n=50)。(B)WGS和默認PICRUSt(紅色)或WGS和PICRUSt-iMGMC(綠色)測定的宏基因組KO圖譜之間的相關性,使用Pearson和Spearman相關系數。進行雙尾配對t檢驗分析差異;****p<0.0001。數據表示n=50個樣本,并顯示為箱型圖,代表最小值、第一四分位數、中位數、第三四分位數和最大值。(C)使用來自不同解剖位置的默認PICRUSt(紅色)、PICRUSt-iMGMC(綠色)和WGS(藍色)生成的KO配置文件的比較。進行了非度量多維標度(NMDS)以可視化相似性。(D)通過比較默認的PICRUSt(紅色)和PICRUSt-iMGMC(綠色)KEGG模塊預測與WGS結果,獲得假陽性率和真陽性率。真陽性率反映了WGS和默認PICRUSt/PICRUSt-iMGMC共同預測的KEGG模塊的分數,假陽性率反映了默認PICRUSt/PICRUSt-iMGMC預測但WGS數據中不存在的KEGG模塊的分數。(E)KEGG模塊預測,默認PICRUSt和PICRUSt-iMGMC預測之間存在差異。將所有樣本的默認PICRUSt和PICRUSt-iMGMC的KEGG模塊預測與WGS進行比較,并使用Wilcoxon檢驗確定完整性的顯著差異(錯誤發(fā)現率[FDR]校正)。熱圖顯示選擇的KEGG模塊,PICRUSt-iMGMC和WGS之間的完整性高度相似,但默認PICRUSt和WGS之間的完整性不同。 4 iMGMC揭示了小鼠腸道菌群中先前未知分類群的普遍性 宏基因組和基于培養(yǎng)的研究都表明,與人類腸道微生物組相比,小鼠的腸道微生物組由截然不同的細菌物種組成,其中許多微生物組仍難以培養(yǎng),缺乏基因組信息。對660個iMAGs的分析證實了這一觀點,其中只有52個是已知物種(表S2和S4)。 為構建小鼠腸道菌群全面的系統(tǒng)發(fā)育樹,我們使用iMAGs和先前測序密切相關的基因組(n=64)構建系統(tǒng)發(fā)育樹(圖4)。與先前的報告一致,我們的分析證實了小鼠腸道微生物組總體上由兩個主要門組成:厚壁菌門(77%的MAGs和73%的16S rRNA基因序列)和擬桿菌門(14%/18%)(圖4)。擬桿菌門包括第二大MAG群,即Muribaculaceae科(64%/49%),該家族在小鼠腸道中大量存在。但是大于13%的MAGs缺少參考基因組(例如,科或目),例如ClostridialesvadinBB60(n=70)和Mollicutes RF9(n=14)(圖4)。 為了增加小鼠腸道微生物組中MAGs的分類學匹配率,我們對來自36項近期研究的數百份額外樣本(n=576)(表S1)應用了可擴展的單樣本組裝方法,回收了13619個mMAGs。對874份樣本的mMAGs進行聯合后,我們獲得了1296個mMAGs,代表了來自小鼠腸道的不同細菌集合,分析發(fā)現其中只有134個可匹配上;此外,還將mMAGs與最近建立的整合腸道基因組(IGG)數據庫進行了比較,該數據庫包括通過宏基因組學和分離菌株測序從人腸道中回收的微生物基因組的去重復集合。在1296個mMAGs中,只有118個IGG可匹配上。因此,超過88%的物種代表潛在的新物種。對于iMAGs,重建的16S rRNA基因序列與幾個數據庫的比較表明未知序列的比例更高。例如,1323個中只有164個(12%)可與NCBI RefSeq匹配(表S6)。 因此,本分析表明未知分類群是普遍存在的,無論使用何種現有的分析方法,但通過本研究的分析確定了在未來的研究中值得關注的分類群。 圖4 iMGMC中包含的660個iMAGs的系統(tǒng)發(fā)育樹。MAGs顯示為三角形,用于比較的64個密切相關的、之前測序的細菌顯示為星號(來自NCBI RefSeq的基因組,映射率>50%覆蓋率)。三角形的顏色表示它們與不同門類的分類關聯,三角形的大小表示在所有iMGMC樣本中的流行率?;?/span>CheckM標記基因建立系統(tǒng)進化樹。一些分類群的名稱在樹上完整顯示或縮寫。對于這種分類學鑒定,我們使用了SILVA數據庫。內環(huán)顯示了在21個研究的小鼠提供者中660個iMAGs的相對豐度(閾值:0.1%)。最后三個環(huán)顯示了660個iMAGs中 469個在不同解剖部位的相對豐度(閾值:0.1%;SI,小腸)。外條形圖顯示了其各自的最大相對豐度。 5 不同品系小鼠獨特的微生物和功能 通過16S rRNA擴增子序列的研究分析證明,不同品系鼠的微生物組組成不同。然而,由于已有研究表明在大于95%的小鼠中均可檢測到相同的26個CAGs,因而認為各品系小鼠均存在一組相似的核心細菌。為了進一步驗證,本研究分析了所有298個樣本中每個iMAG的豐度,結果表明每個品系的小鼠都有一套獨特的MAGs組合。其中,至少一半的鼠均擁有大約10%的MAGs(70/660)(圖5A)。在所有鼠(20/21)中均存在的MAG為Lactobacillus murinus ASF361。接下來分析了至少三分之二鼠共享的MAGs(n=21),其中大多數在分類學上屬于厚壁菌門(n=18),2個屬于Muribaculaceae科(Bacteroidetes門),1個與Mucispirillumschaedleri(Deferribacteres門)相同(圖5B)。這些MAGs的相對豐度顯示了提供者之間的差異(高達100倍),表明這些微生物的豐度受到環(huán)境因素(品系)的影響。 利用MAG和16S rRNA基因序列之間的聯系,使用IMNGS(集成微生物NGS平臺)評估儲存在sequence Read Archive(SRA)中的所有16S rRNA擴增子數據集中相應16S rRNA基因序列在各品系鼠間的分布和相對豐度(圖5C)。在來自小鼠腸道的所有樣本(n=9496)中,最普遍存在的MAGs(Lactobacillus murinus)占36%,但在人類腸道和大鼠腸道菌群樣本中基本不存在(1.4%陽性)(表S6)。為了評估重建的16S rRNA基因序列是否代表小鼠中常見的分類群,采用IMNGS并查詢了所有1323個16S rRNA基因序列,以評估其在不同生物多樣性衍生的SRA樣本中的相對豐度(圖5D、5E)。在小鼠腸道、小鼠皮膚、大鼠腸道或人類腸道中富集的569個序列中,44%的序列在小鼠腸道中普遍存在,另外6%的序列與小鼠皮膚共享。其他序列與大鼠微生物組(12%)和人腸道微生物組(7%)共享(圖5E),證明這些物種可能是寄主專一性較強的物種。 為了評估菌群組成差異的潛在功能,根據iMAG的潛在功能對所有iMAG進行了無監(jiān)督的聚類,結果顯示出不同的豐度的iMAG,如Clostridiales-vadinBB60或Muribaculaceae科,代表小鼠微生物組內功能不同的細菌(圖6A-6C)。在不同品系的小鼠中,MAGs的這些變化導致了微生物組的功能存在實質性差異(圖6D;表S5)??傊?,我們的分析揭示了在各品系小鼠中常見的微生物,但這些微生物在小鼠腸道微生物組中具有較高的種屬水平和功能變異性。 圖6 使用iMGMC分析小鼠腸道菌群細菌成員內和小鼠提供者之間的功能多樣性。(A-C)基于KO,對iMGMC中包含的MAGs的功能概況進行排序分析。所有iMAGs(A,n=660)以及分類歸屬為擬桿菌目(B,n=94)和梭狀芽孢桿菌目(C,n=482)的iMAGs比較。根據KO的存在,距離反映了MAGs功能能力的差異。根據手動繪制的系統(tǒng)發(fā)育MAG樹,顏色代表不同的分類簇(見圖4)。(D)為了表征每個提供者的微生物組的功能潛力,將單個文庫(n=299)映射到iMGMC。映射的讀段用于量化每個庫中存在的KO。使用KEGG的“Reconstruct module”功能將這些信息轉換為KEGG模塊完整性評分,并根據提供者進行總結。每個KEGG模塊的完整性用從深綠色(模塊完成)到白色(模塊缺失)的顏色代碼表示。 討論 基因目錄、16S rRNA基因數據庫和最近的MAG通常代表鳥槍法宏基因組和16S rRNA擴增子測序分析單獨參考的數據庫。為了克服這種分離,開發(fā)了一種資源,可用作(1)小鼠腸道菌群的參考和(2)表征較少的微生物生態(tài)系統(tǒng)的宏基因組目錄。iMGMC和主要由新分類群(<95%ANI)組成的綜合MAG集合的組合將允許科學家通過對含有細菌和非細菌基因的iMGMC或直接對MAGs作圖來分析新一代測序(NGS)數據。iMAG-16S rRNA基因對能夠開發(fā)出新系統(tǒng)優(yōu)化版本的PICRUSt。我們預期這會廣泛適用于根據16S rRNA擴增子測序數據預測基因組圖譜。 對于整合基因目錄的建立,使用了通過CAMI(宏基因組判讀的關鍵評估)確定產生最佳結果的方法,例如處理大型數據集時進行MAGs或二進制組合,并用連接MAGs和16S rRNA序列的新方法進行補充。在iMGMC中手動管理MAG重建與連接MAGs和16S rRNA序列的新方法互補,該方法建立在基因組領域發(fā)展的基礎上。使用合成數據集對連接管道的評估支持了此方法的優(yōu)越性,未來將改進為應用于處理成千上萬個樣本的大規(guī)模研究,即人類微生物組。 在構建方面,與大規(guī)模的組學研究相比,采用了不同的組裝策略。對于我們的數據集,一體化方法的質量與單樣本方法相當,并且一體化方法所獲得的數量以及應變異質性更高。與近期的觀察結果一致,我們認為一體化方法對于包含來自連接生態(tài)系統(tǒng)的多個樣本的研究是有希望的,例如個體的縱向采樣或從同居動物采樣,允許重建低豐度的MAGs。我們還通過處理來自豬微生物組的宏基因組測序數據,評估了另一個大型數據集的一體化組裝方法的實用性。從用于構建先前參考基因目錄的287份糞便樣本(1758 Gbp)中,我們獲得了1220萬份ORFs和1050份MAGs,與原始工作相比分別增加了58%和45%。 然而,一體化方法的兩個需要注意的問題是(1)不同菌株對MAGs的潛在失敗率和(2)數千個樣本的一體化方法的有限可擴展性。因此,我們?yōu)樾∈竽c道微生物組提供了一組額外的去復制的mMAGs,對iMGMC進行嚴格基于基因組的分析進行補充,以及提供了近20000種可用于探索分析細菌菌株多樣性的非去復制的mMAGs,分析程度與人類腸道微生物組相似。此外,這套單獨的MAGs允許MAG集合的精簡擴展與來自額外的小鼠品系的宏基因組測序數據和樣本的組裝,這很可能增加小鼠微生物組的多樣性,因為每份樣本的MAGs稀疏曲線表明會進一步提升(圖S4)。 利用iMGMC資源,我們能夠證明小鼠腸道微生物組主要含有在其他高通量測序研究中未培養(yǎng)或鑒定的細菌。例如,我們的資源允許鑒定在小鼠品系間廣泛共享的細菌,或鑒定通過飲食干預在不同小鼠品系中同時改變的細菌網絡。iMGMC的另一個用途是可獲得連接的MAG-16S rRNA基因對,使大型16S rRNA基因數據庫(如IMNGS數據庫)納入168573個短讀數據集,從而允許對鑒定出的MAGs如腸道內的評估微生物組進行大規(guī)模篩選。最后,MAG-16S rRNA基因配對也使開發(fā)一種方案優(yōu)化版本的PICRUSt成為可能,其產生的基因譜更接近WGS數據。我們預期這會廣泛適用于根據16S rRNA擴增子測序數據預測基因組圖譜。 總之,無聚類構建基因目錄和通過互補途徑構建大量MAGs以及16S rRNA基因序列與iMAGs的連接為基于測序的工作提供了高度整合的資源,并將使未來的研究能夠探索分類學、功能、以及小鼠腸道和其他生物標志物的群落結構。引人注目的是,僅9%確定的MAGs與人類共享,證實了需要宿主特異性專用參考文獻。 評論 你可能還喜歡
|
|