2月28日,來自英國愛丁堡大學的研究人員在Nature Communications雜志在線發(fā)文使用宏基因組binning 和基于Hi-C的proximity-guided組裝,從43只蘇格蘭牛的超過800 Gb的牛瘤胃的宏基因組測序數(shù)據(jù)中組裝得到913個細菌和古細菌的基因組草圖, 這些數(shù)據(jù)集大大提高了公共數(shù)據(jù)庫中瘤胃微生物基因組的覆蓋范圍,也是生物質降解酶和瘤胃微生物群研究的寶貴資源。 點擊文末的“閱讀原文”查看論文全文 瘤胃作為牛的消化器官,能將植物材料分解為能量,而這主要由瘤胃中的微生物系統(tǒng)所編碼的酶完成。該研究得到的基因組中,大多數(shù)都是先前未被測序的菌株或菌種。基因組草圖中預計有超過69,000種蛋白質參與碳水化合物的代謝,其中90%以上在公共數(shù)據(jù)庫中尚未有很好的匹配。 Fig1:在圖中可見幾個大分支。該樹由代表梭菌屬和類桿菌屬的兩個大簇代表,其中后者的一個重要簇代表Prevotellaceae。較小的進化枝代表變形桿菌,古細菌,放線菌,螺旋體和纖維桿菌。其余節(jié)點和分支代表雜菌。 首先,利用Illumina HiSeq 4000測序,從42個從蘇格蘭牛的瘤胃微生物群中產生了768Gb數(shù)據(jù),分別對每個樣品和所有樣品進行宏基因組組裝,創(chuàng)建了一組去重的putative genome bins ,完整度≥80%,估計污染度≤10% 。分析得到850個MAG,在Supplementary Data1 中可以看到850個MAG的分布。 然后,又對第43個樣品進行測序,使用ProxiMeta Hi-C技術將 assembled contigs 聚類為基因組。Hi-C分析產生了另外63個基因組草圖(完整性≥80%,污染率≤10%)。注:Bowers等人2017年發(fā)表在Nat Biotechnol上的研究將高質量MAG定義為完整性> 90%,污染<5%。而這項研究得到的基因組中有491個符合這些標準; 另外,有215個基因組的完整性=""> 95%,污染<5%;30個基因組的完整性> 97%完整性,0污染。5%;30個基因組的完整性>5%。而這項研究得到的基因組中有491個符合這些標準;> 在下文中,這兩次得到的基因組分別被稱為RUG(Rumen Uncultured Genomes)和hRUG(Hi-C Rumen Uncultured Genomes)。 Fig3: Distribution of the maximum percentage identity of the RUG proteins against five public databases for six classes of carbohydrate-active enzymes. GH glycoside hydrolase, GT glycosyl transferase, PL polysaccharide lyases, CE carbohydrate esterases, AA auxiliary activities, CB carbohydrate binding 其中,7個RUG能對應到種。 RUG346是地衣芽孢桿菌的菌株,RUG287是Kandleria vitulina的菌株,RUG405是發(fā)酵氨基酸球菌的菌株,RUG618是Megasphaera菌株的菌株。 (與菌株DJF_B143最相似),RUG133是一種雙歧桿菌(Bifidobacterium merycicum)菌株,RUG664是一種馬鏈球菌(Streptococcus equinus)菌株。其余的906個RUG中,至少有158個可以對應到屬,至少416個到科,841個到目,845個到綱,895個到門,906個到界。 28個RUG代表古菌,補充數(shù)據(jù)6顯示了597個公共古菌基因組的情況。 在可解析到門水平的RUG中,厚壁菌占優(yōu)勢(50%),其次是擬桿菌(36%),放線菌(3.5%),變形菌(3.1%),廣古菌(3.1%)和螺旋體(1%),代表在瘤胃中發(fā)現(xiàn)的最主要的微生物門。整個MAG和Hi-C基因組中門的分布非常相似。 碳水化合物活性酶數(shù)據(jù)庫(CAZy database)定義了六類涉及碳水化合物代謝的酶。該研究中得到的913個RUG含有1,979,391個蛋白序列。使用dbCAN對這些數(shù)據(jù)在CAZy數(shù)據(jù)庫中進行過濾。 預測結果是,總共69,678個序列具有至少一個碳水化合物活性功能,在這些蛋白質中,只有6061個(8.7%)在上述已有數(shù)據(jù)庫中具有高度相似的匹配(≥95%的同一性),這表明研究者預測的碳水化合物活性蛋白質中的63,617個可以被認為是新的。 總的來說,算上具有多個結構域的蛋白質,RUG中共包含40,140個GH,19,722個糖基轉移酶,1121個PL,9119個CE,154個具有AA的蛋白質和2545個CB蛋白質。這些酶在913個RUG中的分布可以在圖2和補充數(shù)據(jù)中看到。 Fig4: Classification rate for three datasets against various Kraken databases. BFAP bacterial, archaeal, fungal and protozoan genomes from RefSeq, BGEB BFAP?+?1003 GEBA genomes, BHIC BFAP?+?63 hRUG genomes, BHUN BFAP?+?410 genomes from the Hungate 1000 project, BRUG BFAP?+?850 RUG MAGs, BRHI BFAP?+?all 913 genomes from this study, BRHH BFAP?+?913 RUGs?+?410 Hungate 1000 genomes. Addition of rumen-specific RUGs or Hungate 1000 genomes has the most dramatic effect 為了解RUG蛋白與公共數(shù)據(jù)庫中蛋白的差異,我們繪制了每種CAZy酶類best hit 的氨基酸同一性百分比(圖3)。平均而言,預測的GHs,GTs,PLs,CEs和CB蛋白在氨基酸水平上與目前公開可用的序列在65%至72%之間相同。 AA類更保守,中位氨基酸同一性約83%。 作者還研究了RUGs產生纖維素酶的能力(這是一種負責降解木質纖維素生物質的多酶復合物)、潛在的多糖利用位點(PUL)、對已有數(shù)據(jù)集的擴充等。 另外,如前所述,如前所述,Hi-C分析產生了63個基因組,完整度≥80%,污染度≤10%。研究者使用與MetaBAT2輸入相同的程序集并進行了宏基因組binning。這導致76個基因組使用相同的cut-off值(補充數(shù)據(jù)17)。然而,我們假設Hi-C基因組可能含有更多不符合原始細胞基因組標準的遺傳元件拷貝,例如,質粒經(jīng)常以多個拷貝存在,并且通常具有不同的堿基組成核心基因組。由于像MetaBAT這樣的算法同時使用堿基組成和覆蓋范圍,因此MAG通常缺少質粒。 為了尋找多拷貝質粒的存在,研究者從每類基因組(63個Hi-C基因組和76個SPAdes / MetaBAT基因組)中提取那些> 2×平均覆蓋度的contigs ,得到來自Hi-C基因組的243個contigs 和來自SPAdes / MetaBAT基因組的37個contigs 。比對nt數(shù)據(jù)庫發(fā)現(xiàn),SPAdes / MetaBAT組中沒有可以注釋為’質粒’的contigs ,而Hi-C組中有10個 (來自10個不同的基因組)。 Fig2: Distribution of carbohydrate-active enzyme classes across the 913 RUGs. GH glycoside hydrolase, GT glycosyl transferase, PL polysaccharide lyases, CE carbohydrate esterases, AA auxiliary activities, CB carbohydrate binding. 在這項研究中,我們了解到RefSeq database在幫助從瘤胃微生物群中讀取分類上非常差,因而只有對瘤胃微生物進行測序,才能得到分類的改進。通過該研究以及Hungate 1000,瘤胃微生物分類率提高了5到7倍。該研究得到的913 MAGs將會改變我們對瘤胃宏基因組學數(shù)據(jù)的解讀方式。 未來, Pacific Biosystems和Oxford Nanopore提供的新測序技術能夠生成更長的reads,期待雜交短reads和長reads測序能夠使宏基因組實現(xiàn)染色體水平的end-to-end 組裝,徹底改變我們對復雜微生物組的理解。 /End. |
|