43只牛瘤胃宏基因組測序，超800Gb數(shù)據(jù)組裝得到913個細菌基因組草圖

萌小芊 2018-03-01

展開全文

2月28日，來自英國愛丁堡大學的研究人員在Nature Communications雜志在線發(fā)文使用宏基因組binning 和基于Hi-C的proximity-guided組裝，從43只蘇格蘭牛的超過800 Gb的牛瘤胃的宏基因組測序數(shù)據(jù)中組裝得到913個細菌和古細菌的基因組草圖，

這些數(shù)據(jù)集大大提高了公共數(shù)據(jù)庫中瘤胃微生物基因組的覆蓋范圍，也是生物質降解酶和瘤胃微生物群研究的寶貴資源。

點擊文末的“閱讀原文”查看論文全文

瘤胃作為牛的消化器官，能將植物材料分解為能量，而這主要由瘤胃中的微生物系統(tǒng)所編碼的酶完成。該研究得到的基因組中，大多數(shù)都是先前未被測序的菌株或菌種。基因組草圖中預計有超過69,000種蛋白質參與碳水化合物的代謝，其中90％以上在公共數(shù)據(jù)庫中尚未有很好的匹配。

Fig1：在圖中可見幾個大分支。該樹由代表梭菌屬和類桿菌屬的兩個大簇代表，其中后者的一個重要簇代表Prevotellaceae。較小的進化枝代表變形桿菌，古細菌，放線菌，螺旋體和纖維桿菌。其余節(jié)點和分支代表雜菌。

首先，利用Illumina HiSeq 4000測序，從42個從蘇格蘭牛的瘤胃微生物群中產生了768Gb數(shù)據(jù)，分別對每個樣品和所有樣品進行宏基因組組裝，創(chuàng)建了一組去重的putative genome bins ，完整度≥80％，估計污染度≤10％。分析得到850個MAG，在Supplementary Data1 中可以看到850個MAG的分布。

然后，又對第43個樣品進行測序，使用ProxiMeta Hi-C技術將 assembled contigs 聚類為基因組。Hi-C分析產生了另外63個基因組草圖（完整性≥80％，污染率≤10％）。注：Bowers等人2017年發(fā)表在Nat Biotechnol上的研究將高質量MAG定義為完整性> 90％，污染<5％。而這項研究得到的基因組中有491個符合這些標準; 另外，有215個基因組的完整性=""> 95％，污染<5％；30個基因組的完整性> 97％完整性，0污染。

在下文中，這兩次得到的基因組分別被稱為RUG（Rumen Uncultured Genomes）和hRUG（Hi-C Rumen Uncultured Genomes）。

Fig3: Distribution of the maximum percentage identity of the RUG proteins against five public databases for six classes of carbohydrate-active enzymes. GH glycoside hydrolase, GT glycosyl transferase, PL polysaccharide lyases, CE carbohydrate esterases, AA auxiliary activities, CB carbohydrate binding

其中，7個RUG能對應到種。 RUG346是地衣芽孢桿菌的菌株，RUG287是Kandleria vitulina的菌株，RUG405是發(fā)酵氨基酸球菌的菌株，RUG618是Megasphaera菌株的菌株。（與菌株DJF_B143最相似），RUG133是一種雙歧桿菌（Bifidobacterium merycicum）菌株，RUG664是一種馬鏈球菌（Streptococcus equinus）菌株。其余的906個RUG中，至少有158個可以對應到屬，至少416個到科，841個到目，845個到綱，895個到門，906個到界。 28個RUG代表古菌，補充數(shù)據(jù)6顯示了597個公共古菌基因組的情況。

在可解析到門水平的RUG中，厚壁菌占優(yōu)勢（50％），其次是擬桿菌（36％），放線菌（3.5％），變形菌（3.1％），廣古菌（3.1％）和螺旋體（1％），代表在瘤胃中發(fā)現(xiàn)的最主要的微生物門。整個MAG和Hi-C基因組中門的分布非常相似。

碳水化合物活性酶數(shù)據(jù)庫（CAZy database）定義了六類涉及碳水化合物代謝的酶。該研究中得到的913個RUG含有1,979,391個蛋白序列。使用dbCAN對這些數(shù)據(jù)在CAZy數(shù)據(jù)庫中進行過濾。

預測結果是，總共69,678個序列具有至少一個碳水化合物活性功能，在這些蛋白質中，只有6061個（8.7％）在上述已有數(shù)據(jù)庫中具有高度相似的匹配（≥95％的同一性），這表明研究者預測的碳水化合物活性蛋白質中的63,617個可以被認為是新的。

總的來說，算上具有多個結構域的蛋白質，RUG中共包含40,140個GH，19,722個糖基轉移酶，1121個PL，9119個CE，154個具有AA的蛋白質和2545個CB蛋白質。這些酶在913個RUG中的分布可以在圖2和補充數(shù)據(jù)中看到。

Fig4: Classification rate for three datasets against various Kraken databases. BFAP bacterial, archaeal, fungal and protozoan genomes from RefSeq, BGEB BFAP?+?1003 GEBA genomes, BHIC BFAP?+?63 hRUG genomes, BHUN BFAP?+?410 genomes from the Hungate 1000 project, BRUG BFAP?+?850 RUG MAGs, BRHI BFAP?+?all 913 genomes from this study, BRHH BFAP?+?913 RUGs?+?410 Hungate 1000 genomes. Addition of rumen-specific RUGs or Hungate 1000 genomes has the most dramatic effect

為了解RUG蛋白與公共數(shù)據(jù)庫中蛋白的差異，我們繪制了每種CAZy酶類best hit 的氨基酸同一性百分比（圖3）。平均而言，預測的GHs，GTs，PLs，CEs和CB蛋白在氨基酸水平上與目前公開可用的序列在65％至72％之間相同。 AA類更保守，中位氨基酸同一性約83％。

作者還研究了RUGs產生纖維素酶的能力（這是一種負責降解木質纖維素生物質的多酶復合物）、潛在的多糖利用位點（PUL）、對已有數(shù)據(jù)集的擴充等。

另外，如前所述，如前所述，Hi-C分析產生了63個基因組，完整度≥80％，污染度≤10％。研究者使用與MetaBAT2輸入相同的程序集并進行了宏基因組binning。這導致76個基因組使用相同的cut-off值（補充數(shù)據(jù)17）。然而，我們假設Hi-C基因組可能含有更多不符合原始細胞基因組標準的遺傳元件拷貝，例如，質粒經(jīng)常以多個拷貝存在，并且通常具有不同的堿基組成核心基因組。由于像MetaBAT這樣的算法同時使用堿基組成和覆蓋范圍，因此MAG通常缺少質粒。

為了尋找多拷貝質粒的存在，研究者從每類基因組（63個Hi-C基因組和76個SPAdes / MetaBAT基因組）中提取那些> 2×平均覆蓋度的contigs ，得到來自Hi-C基因組的243個contigs 和來自SPAdes / MetaBAT基因組的37個contigs 。比對nt數(shù)據(jù)庫發(fā)現(xiàn)，SPAdes / MetaBAT組中沒有可以注釋為’質粒’的contigs ，而Hi-C組中有10個（來自10個不同的基因組）。

Fig2: Distribution of carbohydrate-active enzyme classes across the 913 RUGs. GH glycoside hydrolase, GT glycosyl transferase, PL polysaccharide lyases, CE carbohydrate esterases, AA auxiliary activities, CB carbohydrate binding.

在這項研究中，我們了解到RefSeq database在幫助從瘤胃微生物群中讀取分類上非常差，因而只有對瘤胃微生物進行測序，才能得到分類的改進。通過該研究以及Hungate 1000，瘤胃微生物分類率提高了5到7倍。該研究得到的913 MAGs將會改變我們對瘤胃宏基因組學數(shù)據(jù)的解讀方式。

未來， Pacific Biosystems和Oxford Nanopore提供的新測序技術能夠生成更長的reads，期待雜交短reads和長reads測序能夠使宏基因組實現(xiàn)染色體水平的end-to-end 組裝，徹底改變我們對復雜微生物組的理解。

/End.