摘要: 16SrRNA基因是微生物生態(tài)學中應用最廣泛的標記基因,通常根據(jù)16S測序結果來估計微生物群落中細菌和古菌的比例。然而由于不同生物體含有不同的16S基因拷貝數(shù)(gene copy numbers, GCNs),更大GCNs的分支往往會在測序中得到更多的序列,從而使得結果的相對豐度高于實際值。近來,一些基于測序基因組來預測GCNs的方法陸續(xù)被開發(fā)出來,這些方法使用了系統(tǒng)發(fā)育的方法以糾正前述偏差,但其預測的準確性還沒有經(jīng)過評估。本文作者基于6800個公共測序基因組并運用多種系統(tǒng)發(fā)育方法,對16S GCNs在細菌和古菌分支上的可預測性進行了系統(tǒng)評估,并在更廣泛的類群和來自不同環(huán)境的635個微生物群落中,對PICRUSt、CopyRighter、PAPRICA等三個最近公布的方法的預測準確性進行了評估。 結果發(fā)現(xiàn),無論哪種方法,16S GCNs只能準確預測一個有限的分類群(<15%>15%>)。一致的是,這些工具在預測全基因組時表現(xiàn)出較低的準確度,在某些情況下,甚至只能解釋不到10%。幾個測試微生物群落之間的工具也存在很大的誤差。微生物群落的最相似序列分類指數(shù)(nearest sequencedtaxon index, NSTI),即測序基因組的平均距離,對于非動物相關樣本可以進行有力預測,但對于動物相關樣本結果稍遜。因此,一般情況下作者不建議在微生物研究中糾正16S GCNs。 1.從系統(tǒng)發(fā)育的角度16S GCNS的可預測性 16S GCNs的自相關函數(shù),即在一定的系統(tǒng)發(fā)育距離上兩個隨機挑選的OTU的GCNs之間的相關性,隨著系統(tǒng)發(fā)育距離的增加而適度衰減(圖1A),在系統(tǒng)發(fā)育距離約15%的情況下下降到0.5以下,在系統(tǒng)發(fā)育進化距離約30%時降為0。因此,16S GCNs的預測對于具有大于約15%的NSTD的分支和接近NSTD大于約30%的分支是不準確的。為了明確測試這一結論,作者基于SIVLA衍生樹隨機16S GCNs進行預測,并比較了這些預測和從已知的完整測序基因組的GCNs。作者使用了以下常見的兩種重建算法預測GCNs:對于CopyRighter和PICRUSt使用PIC算法, 對于PAPRICA使用subtree averaging算法。結果發(fā)現(xiàn)所有的預測方法僅實現(xiàn)了NSTD低于15~30%的高精度(圖1C),符合原本基于自相關函數(shù)的期望。在SILVA衍生的樹中,大約49%的OTU具有大于15%的NSTD,并且大約30%的OTU具有大于30%的NSTD(圖1B)。由于Silva數(shù)據(jù)庫中自然界的環(huán)境微生物群落不是純隨機的取樣,因此這些生物一般預測NSTDs會較低。此外,很可能有大量的原核生物尚未被包括在SILVA,例如從最近發(fā)現(xiàn)的或尚未發(fā)現(xiàn)的一些門,NSTD可能大于30%。因此,基于測序基因組的16S GCNS的預測對于大多數(shù)現(xiàn)存的天然環(huán)境中的原核分支來說是不準確的,樹的拓撲和分支長度的誤差可能降低系統(tǒng)發(fā)育重建工具的預測精度(圖1C)。 圖一 16S基因拷貝數(shù)的系統(tǒng)發(fā)育信號 (SILVA衍生樹)
2.第三方預測工具的評估 前面的分析表明,基于可用測序基因組的16S GCNs的系統(tǒng)發(fā)育預測對于大量的原核分支來說是不準確的,特別是那些僅具有少數(shù)測序代表的物種。這一發(fā)現(xiàn)引發(fā)了對16S GCNs可以準確預測典型環(huán)境群落的質疑,16S GCN校正應該被系統(tǒng)地應用于每一個微生物群落研究。因此,作者測試了PICRUSt v1.1.1、CopyRighter v0.46和PAPRICA v0.4.0b最近出版的三種工具的預測精度。作者進行了兩種類型的測試:第一個測試將上述測序基因組的GCNS與基于基因組16S序列的每個工具預測的GCNs進行比較;第二個測試將每個工具的預測與其他兩種工具的預測進行比較,對于Greengene 16S rRNA數(shù)據(jù)庫中的所有OTU以及來自不同范圍環(huán)境中的635個微基因組中發(fā)現(xiàn)的原核OTU進行比較。結果發(fā)現(xiàn),三種工具的預測準確度和以真GCNs的解釋方差的部分來測量的預測精度通常隨著基因組的NSTD而降低(圖2)。對于PICRUSt和PAPRICA,R2甚至對NSTD在30%以上都是負的。 圖二 GCN預測工具對 已知GCN基因組的評價
不同的工具之間在評估整個Greengene數(shù)據(jù)庫時,預測的GCNs與其他工具的預測中方差最多為25%(圖3)。CopyRighter和PICRUSt使用相同的輸入基因組和相似的參考樹集合,然而所得結果基本不同(圖3a)。當考慮依賴于OTU的NSTD工具之間的差異時,發(fā)現(xiàn)R2隨著NSTD的增加而迅速減小,并且在NSTD低于20%時變成負(圖3d-f)。 圖三 基于Greengenes各工 具之間16S GCN預測的比較 作者用635個樣本來比較這三種工具,發(fā)現(xiàn)對于任何兩種工具來說(CopyRighter vs. PICRUSt,PICRUSt vs. PAPRICA, CopyRighter vs. PAPRICA),第一工具預測的方差由第二工具(R2)的預測解釋低于0.5的超過84%的樣本,低于0.1超過55%的樣本(圖4)。在許多情況下,工具之間的一致性甚至比工具之間不相關的預測更差。在PICRUSt和PAPRICA之間發(fā)現(xiàn)了最差的一致性,而CopyRighter和PICRUSt之間發(fā)現(xiàn)了最好的(但仍然是不好的)一致性。這進一步加強了文章的結論,現(xiàn)有的GCN預測工具對這些樣本中的許多樣本表現(xiàn)不佳,即使只考慮與動物相關的樣本(例如人類皮膚樣本)。動物樣本被認為是比其他環(huán)境更好的研究,并通常具有較低的NSTIs(加權平均NSTD的OTU),結果發(fā)現(xiàn)工具之間仍存在不一致性。一種解釋是,即使在人類相關的微體系中,許多具有高NSTD的OTU降低了總體預測精度。事實上結果發(fā)現(xiàn),在大多數(shù)樣本之間的工具之間的不一致性不是單獨由一些特異OTU驅動,而是反映在每個樣本中大量OTU的中度到較差的一致性。而對于非動物樣本,則趨勢更為明顯。很可能是由于許多被忽略的分類,尤其是研究不夠深入的門類,甚至比一些特異的OTU具有更大的NSTD。 圖四 GCNs預測工具在 微生物群落中的一致性 以前的研究曾經(jīng)使用模擬群落來測試16S GCNs的可預測性,表明正確的校正GCNs可以提高微生物群落組成的估算準確性。因此,使用模擬群落而不是自然群落,可以使GCNs得到很好地預測,因為每一個單位的GCNs都是已知的。
結論: 作者評估了16S GCNs的系統(tǒng)發(fā)育保守性,并使用幾種常見的系統(tǒng)發(fā)育重建算法研究了GCNs的可預測性。其研究結果表明GCNS或許并不能預測大量現(xiàn)存的原核分支。此外,作者評估了三種可用的16S GCN預測工具在一組完全測序基因組上的準確性,以及在Greengene 16S數(shù)據(jù)庫和來自廣泛環(huán)境的微生物群落中的OTU的準確性。分析結果表明,現(xiàn)有的工具在大部分基因組與OTU測試中表現(xiàn)不佳;對于超過85%被檢查的微生物群落,GCN預測在幾種工具之間差異很大。因此,由于測序基因組覆蓋不足,16S GCN預測對于現(xiàn)存的原核多樣性的很大一部分是不精確的,這與通常的假設恰恰相反。因此作者建議,16S GCNs應僅在具有低NSTI(15%)的微生物群落的研究中被校正。 參考文獻: Louca S, Doebeli M, Parfrey L W. Correcting for 16S rRNA gene copy numbers in microbiome surveys remains an unsolved problem[J]. Microbiome, 2018, 6(1): 41. 作者:吳悅妮 |
|