一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

科研|Chemical Society Reviews:結(jié)合代謝組學(xué)和宏基因組學(xué)來示蹤代謝多樣性

 微科享 2021-04-19

編譯:太陽味的風(fēng),編輯:Emma、江舜堯。

原創(chuàng)微文,歡迎轉(zhuǎn)發(fā)轉(zhuǎn)載。

導(dǎo)讀

微生物和植物的特殊代謝物具有龐大的化學(xué)多樣性,這些代謝物在調(diào)節(jié)物種間互作過程中發(fā)揮關(guān)鍵作用。同時(shí),它們也被認(rèn)為是天然產(chǎn)品,被廣泛應(yīng)用于醫(yī)藥、農(nóng)業(yè)、化妝品和食品工業(yè)。傳統(tǒng)上,主要的檢測(cè)策略是對(duì)代謝產(chǎn)物的“活化-引導(dǎo)分餾法”(activity-guided fractionation)。越來越多的組學(xué)數(shù)據(jù)被用于補(bǔ)充傳統(tǒng)策略,其可以降低重復(fù)發(fā)現(xiàn)率(rediscoveryrates),可以將實(shí)驗(yàn)數(shù)據(jù)引向最有意義的代謝物,并且確定可生物生產(chǎn)的酶合成通路。近年來,針對(duì)特定代謝多樣性的基因組和代謝組學(xué)分析已經(jīng)擴(kuò)大到同時(shí)研究數(shù)千個(gè)樣本。這項(xiàng)研究有助于針對(duì)大型基因組和代謝組數(shù)據(jù)集的深層分析,通過討論各種新興策略,整合這兩種類型的數(shù)據(jù),進(jìn)而進(jìn)一步加快探索。


論文ID


原名:Linking genomics and metabolomics to chart specialized metabolic diversity
譯名:結(jié)合代謝組學(xué)和宏基因組學(xué)來示蹤代謝多樣性
期刊:Chemical Society Reviews
IF:42.846
發(fā)表時(shí)間:2020.05
通訊作者:Katherine R. Duncan;Marnix H. Medema
通訊作者單位:瓦赫寧根大學(xué),斯特拉斯克萊德大學(xué)

內(nèi)容

1. 引言

幾乎所有的生命形式都有能力產(chǎn)生區(qū)別于其他生物的特定的分子。這些特殊的代謝物(也稱為天然產(chǎn)物)促進(jìn)了化學(xué)對(duì)抗、通訊、營(yíng)養(yǎng)獲取或應(yīng)激保護(hù)的各種機(jī)制。在化學(xué)層面,這些代謝物屬于不同的種類,包括多肽,多酮,類黃酮,萜烯和糖類。龐大的化學(xué)空間,令人難以置信的多樣性和生態(tài)相互作用驅(qū)使生物產(chǎn)生了我們今天所知的成千上萬的代謝產(chǎn)物。
這種豐富的資源被廣泛用作藥物。許多抗生素、化療藥物和其他藥物要么本身就是天然產(chǎn)物,要么就是受其啟發(fā)而產(chǎn)生的。最近,人們發(fā)現(xiàn)了多種抗生素,為對(duì)抗耐藥超級(jí)細(xì)菌提供了一個(gè)新的來源。此外,天然產(chǎn)品還被用作農(nóng)藥、食品、化妝品、染料和許多其他產(chǎn)品的原料。
最近,專門代謝物的另一個(gè)有趣的領(lǐng)域出現(xiàn):它們是微生物群系中分子相互作用的關(guān)鍵介質(zhì),并可以作為一種化學(xué)語言成為許多微生物相關(guān)表型的基礎(chǔ)。例如,植物微生物群對(duì)真菌疾病的抑制與特定的假單胞菌株在根際產(chǎn)生的乙醇霉素等脂肽有關(guān)。
在人類微生物群系中,產(chǎn)生葡萄球菌的無核核糖體肽酶已被證明會(huì)損害致病性金黃色葡萄球菌的定植,而不同腸道細(xì)菌產(chǎn)生的n -?;0芬驯蛔C明可以調(diào)節(jié)宿主的代謝。
傳統(tǒng)上,大多數(shù)天然產(chǎn)物的發(fā)現(xiàn)都是通過分離微生物和植物的化學(xué)提取物所推動(dòng)的。這使得分類成千上萬種代謝物和揭示它們的結(jié)構(gòu)成為可能,這也是許多關(guān)于當(dāng)今自然產(chǎn)品多樣性的知識(shí)基礎(chǔ)。
然而,在獲取和整合關(guān)鍵信息方面的滯后以及較高的“重新發(fā)現(xiàn)率”(high rate of rediscovery)使得這種方法的效果不太理想。很明顯,隨著DNA測(cè)序技術(shù)的出現(xiàn),自然產(chǎn)物產(chǎn)生生物體的基因組編碼BGCs,用于產(chǎn)生許多實(shí)驗(yàn)室從未觀察到的代謝物。在細(xì)菌和真菌中,大多數(shù)生物合成途徑是編碼BGCs;在植物中,代謝通路數(shù)目也顯示出基因組聚集的跡象。這些觀察結(jié)果導(dǎo)致了基因組挖掘技術(shù)的出現(xiàn),該技術(shù)可以識(shí)別已知和未知的生物合成途徑。
此外,非靶向代謝組學(xué)和串聯(lián)質(zhì)譜(MS/MS)的方法學(xué)進(jìn)展使代謝提取物中分子組分的綜合分析成為可能。這使得在復(fù)雜提取物中鑒別天然產(chǎn)物更加方便,否則,復(fù)雜提取物中的天然產(chǎn)物將被“隱藏”。
近年來,作者所在的實(shí)驗(yàn)室分析了大規(guī)模的基因組和代謝組數(shù)據(jù)。從鳥瞰的角度來看,通過網(wǎng)絡(luò)化的方法可以促進(jìn)數(shù)據(jù)可視化,并且可以同時(shí)分析成百上千的生物體的組學(xué)數(shù)據(jù)。這些進(jìn)展開啟了一系列潛在的新方法,不僅可以分別單獨(dú)挖掘基因組和代謝體,還可以將其整合起來。在這篇方法綜述中,我們將概述關(guān)鍵的基因和代謝組信息挖掘技術(shù),以識(shí)別具有生物活性的天然產(chǎn)物結(jié)構(gòu)和生態(tài)功能。

2. 基因組挖掘

基因組挖掘的過程(圖1)包括許多步驟,例如:基因組組裝、注釋、識(shí)別生物合成基因(Biosynthetic Gene Clusters,BGC)和基因簇、預(yù)測(cè)自然產(chǎn)物的序列結(jié)構(gòu)、比較基因組以識(shí)別生物之間的相似性和差異性。組裝和注釋的基因組通常是基因組挖掘的原材料。因此,重要的是要清楚組裝和注釋的質(zhì)量,其會(huì)對(duì)任何基于基因組的分析的結(jié)果產(chǎn)生重大影響。

例如,在“片段化”的基因裝配過程中會(huì)包含許多小重疊區(qū)(contigs),BGC很可能在整個(gè)Contigs中被分解成許多片段。事實(shí)上,由于它們的重復(fù)組織,編碼模塊化多酮合成酶(PKS)和非核糖體合成酶(NRPS)裝配線的基因經(jīng)常在重疊區(qū)處斷裂。因此通常情況下,一些基因簇片段會(huì)出現(xiàn)在非常小的重疊區(qū)上,BGC識(shí)別算法無法識(shí)別它們。從宏基因組數(shù)據(jù)中獲取完全接近的BGCs是特別具有挑戰(zhàn)性的??梢姡⑸锶郝涞淖匀划a(chǎn)物是一個(gè)難以利用的資源,其需要解析成百上千個(gè)高度相似的、無組織的序列片段并將其組合成基因,這顯然十分困難。

BiosyntheticSPA des是一種專門用于從宏基因組數(shù)據(jù)中組裝BGCs的組裝器,其可以提供、將多個(gè)contigs組合成BGCs的策略。在來自MiBIG數(shù)據(jù)集的BGC上,Biosynthetic SPA des與之前的裝配算法相比,正確性提升了兩倍。

除了程序集的連續(xù)性之外,它們的精確性當(dāng)然至少同樣重要。裝配錯(cuò)誤經(jīng)常發(fā)生,特別是在裝配覆蓋率低的短讀數(shù)據(jù)時(shí)。當(dāng)這種情況發(fā)生在BGC中,它會(huì)導(dǎo)致NRPS或PKS模塊的跳躍或“復(fù)制”。太平洋生物科學(xué)公司(Pacific Biosciences)和牛津納米孔技術(shù)公司(Oxford Nanopore technologies)提供的長(zhǎng)期技術(shù)也有其自身的問題,因?yàn)檩^高的錯(cuò)誤率有時(shí)會(huì)導(dǎo)致引入虛假的框架缺失,導(dǎo)致基因分裂成多個(gè)片段或?qū)е逻^早終止的標(biāo)記。

使用例如antiSMASH對(duì)個(gè)體基因組進(jìn)行的“傳統(tǒng)”分析并不適合基因拼接過程,因?yàn)槭謩?dòng)審查數(shù)千個(gè)輸出和預(yù)測(cè)相應(yīng)的BGCs將需要數(shù)年時(shí)間?;谶@個(gè)原因,序列相似性網(wǎng)絡(luò)方法已經(jīng)被開發(fā)出來,可以幫助同時(shí)并系統(tǒng)地繪制數(shù)千個(gè)BGC之間的關(guān)系。這種類型的方法最初是由多個(gè)研究小組合作開發(fā)的,最近得到了正式化、加速化和簡(jiǎn)化(圖1a)。

盡管如此,鑒于自然界中存在著龐大的生物合成多樣性,在公開獲得的基因組中,絕大多數(shù)BGC不會(huì)與任何MIBiG參考基因簇密切相關(guān)。已經(jīng)出現(xiàn)了幾種可以重新預(yù)測(cè)其產(chǎn)物的化學(xué)結(jié)構(gòu)的計(jì)算方法。這些方法是由在產(chǎn)生這些代謝物的酶機(jī)制的計(jì)算機(jī)預(yù)測(cè)所指導(dǎo)的。例如,模塊化PKSs和NRPSs組成了一條由酶模塊組成的“裝配線”,每個(gè)酶模塊將一個(gè)單體(例如氨基酸)整合到生長(zhǎng)鏈中,生長(zhǎng)鏈在末端被釋放。排列在活性位點(diǎn)上的殘基很大程度上賦予了這種底物特異性。因此,各種算法,從簡(jiǎn)單的基序匹配到復(fù)雜的機(jī)器學(xué)習(xí)模型(圖1b)。

對(duì)于與已知產(chǎn)物關(guān)系不密切的BGC來說,預(yù)測(cè)其產(chǎn)物的完整結(jié)構(gòu)是非常具有挑戰(zhàn)性的。除了模塊化的PKS和NRPS生物合成系統(tǒng)外,大多數(shù)BGC中很少有結(jié)構(gòu)預(yù)測(cè)工具存在。盡管如此,化學(xué)特征的預(yù)測(cè)也可以在不需要預(yù)測(cè)完整結(jié)構(gòu)的情況下完成(圖1c)。


圖1 挖掘基因組多樣性的計(jì)算方法
(a)生物合成基因簇(BGCs)可使用抗粉碎工具在基因組序列中自動(dòng)識(shí)別。隨后,可以使用已知功能的BGCs數(shù)據(jù)庫(如MIBiG)對(duì)其進(jìn)行刪除。序列相似度網(wǎng)絡(luò)可以跨大數(shù)據(jù)集識(shí)別相似的BGCs;(b)BGCs的分組可以幫助注釋基因聚類家族(GCFs)。兩種策略可以用來預(yù)測(cè)從這些基因簇化學(xué)結(jié)構(gòu):多酮類化合物或單體肽。(c)可以使用機(jī)器學(xué)習(xí)算法預(yù)測(cè)的底物特異性。識(shí)別已知(如脫氧糖)的生物合成或化學(xué)修飾(如甲基羥化)的亞簇,可用于預(yù)測(cè)BGC代謝產(chǎn)物的其他結(jié)構(gòu)特征。

 3. 代謝物挖掘

代謝物具有高度的結(jié)構(gòu)多樣性,這是生物進(jìn)化的結(jié)果,生物以此適應(yīng)環(huán)境中的生物和非生物脅迫。此外,由于特殊代謝物的產(chǎn)生受到一系列復(fù)雜過程的影響,相當(dāng)大的代謝變化可能由不確定的途徑產(chǎn)生。這些途徑可能受到生物合成酶編碼基因的動(dòng)態(tài)轉(zhuǎn)錄調(diào)節(jié)。
基因組測(cè)序顯示,微生物的生物合成潛力往往高于實(shí)驗(yàn)室觀察到的代謝物數(shù)量。為了識(shí)別新的代謝物,需要在代謝物測(cè)量和數(shù)據(jù)方法(分析、管理、儲(chǔ)存和標(biāo)準(zhǔn)化)方面取得技術(shù)進(jìn)步,從而有效地調(diào)查和比較更大的物種、樣本和條件。
方法的發(fā)展和高靈敏度的分析儀器,特別是質(zhì)譜分析(MS)的進(jìn)步,使得代謝物的提取物日益復(fù)雜的研究。因此,基于MS的代謝組學(xué)技術(shù)被廣泛應(yīng)用于天然產(chǎn)物領(lǐng)域。
然而,天然產(chǎn)物提取物的化學(xué)復(fù)雜性和多樣性往往使代謝物鑒定非常具有挑戰(zhàn)性。在以質(zhì)譜為基礎(chǔ)的代謝組學(xué)研究中,可能有多種數(shù)據(jù)采集方式,其各有優(yōu)缺點(diǎn)。但通常其目標(biāo)是捕獲整個(gè)代謝物(使用全掃描或“MS1”模式),這有利于準(zhǔn)確量化代謝物。然而,由于各種原因,比如多個(gè)不同的代謝物往往具有相同的分子式和質(zhì)量,通常很難從MS1數(shù)據(jù)中對(duì)代謝物進(jìn)行可靠的注釋。
獲得代謝物的裂解譜(MS/MS或串聯(lián)MS模式,圖2a)對(duì)于注釋和識(shí)別代謝物具有明顯的優(yōu)勢(shì)。此種手段可以看作是條形碼或代謝物的指紋,目前已經(jīng)有幾款軟件工具來利用這些結(jié)構(gòu)信息。這些軟件的第一步通常是將實(shí)驗(yàn)MS/MS光譜與文庫光譜進(jìn)行比較(圖2b),以檢測(cè)已知的代謝物或類似物,這一過程也稱為反復(fù)制(dereplication)。該匹配程序的可靠性取決于許多因素,包括實(shí)驗(yàn)數(shù)據(jù)質(zhì)量和光譜數(shù)據(jù)庫內(nèi)容不同的數(shù)據(jù)庫。因此,在不同的數(shù)據(jù)庫中檢查結(jié)果是明智之選。
此外,盡管光譜庫目前正在增長(zhǎng),但它們的內(nèi)容遠(yuǎn)不能完全覆蓋自然產(chǎn)物代謝組。例如,GNPS spectral libraries目前包含了2.5%的已知天然產(chǎn)物的MS/MS參考光譜。
一份提取物可能包含數(shù)千種代謝物,實(shí)驗(yàn)通常包含數(shù)百個(gè)樣本。因此,大多數(shù)代謝物沒有參考數(shù)據(jù)是不足為奇的。因此,盡管生成的非目標(biāo)MS數(shù)據(jù)非常豐富,但注釋仍然是一個(gè)挑戰(zhàn)。在實(shí)踐中,一個(gè)樣品中不到5%的化學(xué)實(shí)體能被可靠地注釋到結(jié)構(gòu)層面。為了便于探索性數(shù)據(jù)分析,已經(jīng)開發(fā)了新的工具,旨在根據(jù)結(jié)構(gòu)相關(guān)代謝物裂解譜的相似性將其分組在一起(圖2)。在這里,Global Natural Product Social (GNPS)分子網(wǎng)絡(luò)改進(jìn)了樣本內(nèi)部和樣本間的光譜比較。一般來說,具有相似化學(xué)結(jié)構(gòu)的代謝物產(chǎn)生相似的裂解譜。分子網(wǎng)絡(luò)群的父離子(parent ions,以節(jié)點(diǎn)表示)通過碎片化模式相似性(以邊緣表示)形成相關(guān)代謝物的分子族(MFs)(圖2c)。
有一類方法利用了這樣一個(gè)事實(shí),即特殊代謝物通常由生物合成機(jī)器組裝起來的若干構(gòu)件組成。直接從代謝組學(xué)數(shù)據(jù)識(shí)別這些構(gòu)建塊,是闡明天然產(chǎn)物的一種吸引人的策略。近年來,在這一領(lǐng)域已經(jīng)發(fā)展了幾種方法。例如,MS2-LDA工具使用基于文本挖掘的算法,通過對(duì)共現(xiàn)分子片段的無監(jiān)督檢測(cè)來識(shí)別非目標(biāo)數(shù)據(jù)集中的部分代謝物(子結(jié)構(gòu))(圖2d)。由此產(chǎn)生的大量碎片模式被稱為大量模序,它們需要由研究人員進(jìn)行注釋。MS2LDA已被應(yīng)用于植物、真菌和細(xì)菌的提取物中。從這些數(shù)據(jù)集,數(shù)十個(gè)Mass2Motifs被標(biāo)注了子結(jié)構(gòu)信息,最終形成幾百個(gè)標(biāo)注的子結(jié)構(gòu)模式。
此外,在不同的樣本類型中傳遞Mass2Motif注釋時(shí)要注意,Mass2Motif可以代表不同的同構(gòu)子結(jié)構(gòu)。不同的化學(xué)將導(dǎo)致不同的質(zhì)量碎片和中性損失,因此研究者必須在結(jié)構(gòu)上注釋,以提供(生物)化學(xué)解釋(圖2e)。
對(duì)于特定類別的天然產(chǎn)物,已經(jīng)開發(fā)出專用的方法,通過使用創(chuàng)新的策略,將基于MS/MS的片段與化學(xué)結(jié)構(gòu)數(shù)據(jù)庫預(yù)測(cè)的片段模式匹配,從而去除代謝產(chǎn)物的重復(fù)。例如,DEREPLICATOR(圖2f)通過與基于特定硅變性規(guī)則生成的理論光譜進(jìn)行比較,系統(tǒng)地將大型肽天然產(chǎn)物數(shù)據(jù)庫中的結(jié)構(gòu)連接到質(zhì)量碎片譜。結(jié)果的統(tǒng)計(jì)評(píng)估也被提供匹配到包含不存在的具有相似氨基酸組成的縮氨酸的數(shù)據(jù)庫。
最近DEREPLICATOR+被推出,將這種標(biāo)注策略擴(kuò)展到聚酮類、類黃酮類、萜烯類等天然產(chǎn)物。由于大型肽數(shù)據(jù)庫是不完整的,因此使用Evarquest工具來促進(jìn)肽結(jié)構(gòu)的耐修飾性搜索,并預(yù)測(cè)這些修飾在肽支架上的位置。這使得可以在公開的數(shù)據(jù)中注釋近20000個(gè)肽變異體。結(jié)合庫匹配、應(yīng)用結(jié)果和子結(jié)構(gòu)預(yù)測(cè)可以在很大程度上解釋分子網(wǎng)絡(luò)。最近開發(fā)的方法,包括網(wǎng)絡(luò)注釋傳播(圖2g),利用網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和Mol Net Enhancer來增加有關(guān)候選人的數(shù)量結(jié)構(gòu)代謝組學(xué)信號(hào)(圖2e).

圖2利用分子網(wǎng)絡(luò)技術(shù)繪制代謝多樣性
(a)代謝組學(xué)采用非靶向LC-MS/MS對(duì)粗微生物提取物進(jìn)行分析,從中篩選出MS1中檢測(cè)到的最強(qiáng)離子并進(jìn)行片段化,獲得MS/MS光譜數(shù)據(jù)。(b)在光譜庫搜索中,針對(duì)一個(gè)光譜庫搜索數(shù)據(jù)集中的每個(gè)MS/MS譜,以找到一個(gè)好的光譜匹配。(c)分子網(wǎng)絡(luò)通過光譜余弦相似度對(duì)MS/MS數(shù)據(jù)集進(jìn)行組織,將高度相似度的光譜聚在一起,形成分子網(wǎng)絡(luò)。(d)MS2LDA識(shí)別與結(jié)構(gòu)基序相關(guān)的離子;這些子結(jié)構(gòu)信息可以與來自其他工具(NAP、DEREPLICATOR、Classy Fire)的注釋相結(jié)合(e)Mol Net Enhancer集成了這些工具的輸出,以注釋子結(jié)構(gòu)并對(duì)研究數(shù)據(jù)集中出現(xiàn)的化學(xué)類進(jìn)行分類。(f)DEREPLICATOR能夠注釋已知的肽類天然產(chǎn)物。(g)NAP-Network Annotation Propagation利用網(wǎng)絡(luò)拓?fù)洌ㄟ^光譜網(wǎng)絡(luò)傳播譜庫匹配的注釋,通過基于重疊的結(jié)構(gòu)指紋重新排序最可能的候選結(jié)構(gòu)來改進(jìn)類似物的注釋。

4. 基因組和代謝組的集成

跨數(shù)據(jù)集的信息鏈接是有用的,因?yàn)樗С纸Y(jié)構(gòu)和功能注釋。術(shù)語“代謝基因組學(xué)”(metabologenomics)已被創(chuàng)造,包括用于集成這些復(fù)雜數(shù)據(jù)集的方法論。功能注釋在基因組學(xué)和代謝組學(xué)越來越多地出現(xiàn)在數(shù)據(jù)庫中并可以匹配新的實(shí)驗(yàn)數(shù)據(jù)。
據(jù)估計(jì),大約50%的蛋白質(zhì)有可靠的功能注釋。此外,糞便或土壤提取物等復(fù)雜樣品中含有多種微生物種類和代謝物,其也可能也來自食品和藥物等;因此,識(shí)別微生物產(chǎn)生的代謝物具有挑戰(zhàn)性。
為了找到產(chǎn)品-生產(chǎn)者的配對(duì),特別是在宏基因組/代謝物連接中,已經(jīng)證明了幾種方法是可行的。它們可以被廣義地定義為基于模式、基于關(guān)聯(lián)和基于特性。
基于模式的基因組挖掘是最早將跨菌株的BGC分析與分子網(wǎng)絡(luò)相結(jié)合的基于關(guān)聯(lián)的整合策略之一,證明了這種方法在更大的數(shù)據(jù)集上的成功(圖3a)。在這種方法中,基因組挖掘信息(BGCs的存在/缺失)被收集以形成35個(gè)鹽孢菌屬(Salinispora)菌株。
歷史上,這些基于關(guān)聯(lián)的方法大多是人工操作的,而且常常是基于BGC信息來指導(dǎo)化學(xué)的優(yōu)先級(jí)排序。然而,近年來,自動(dòng)化方法已經(jīng)出現(xiàn),考慮相關(guān)指標(biāo)和統(tǒng)計(jì)框架。依據(jù)菌株間的存在/缺失模式,利用代謝基因組學(xué)評(píng)分將基因簇與分子的質(zhì)譜聯(lián)系起來(圖3b)?;谔匦缘募刹呗砸灿辛诉M(jìn)步,盡管“模塊化”自然產(chǎn)品類的進(jìn)步更多,因?yàn)樗鼈兙哂邢鄬?duì)明確定義的構(gòu)建模塊(圖3c)。從基因組單體(如氨基酸和糖基)和酶修飾(如甲基化和羥基化)可以預(yù)測(cè)從基因簇序列。同樣,子結(jié)構(gòu)也可以從質(zhì)譜中預(yù)測(cè)出來。


圖3 不同類型的匹配基因聚類家族(GCFs)和分子家族(MFs)

(a)描述了“基于模式的匹配”,其中所有菌株的GCFs和MCFs的兩個(gè)存在/缺失矩陣被合并在一個(gè)表中,在這個(gè)表中可以識(shí)別出手動(dòng)確定的候選鏈接。(b)在“基于相關(guān)性的匹配”中,計(jì)算基于相關(guān)性參數(shù)。使用這樣的分?jǐn)?shù)可以對(duì)GCF-MF鏈接進(jìn)行排序,以集中于相關(guān)子集的后續(xù)研究。(c)強(qiáng)調(diào)了“基于特征匹配”的概念,即從基因組學(xué)到的結(jié)構(gòu)特征與從代謝組中推斷出來的結(jié)構(gòu)特征相匹配。

存在一些將質(zhì)譜與分子結(jié)構(gòu)聯(lián)系起來的全自動(dòng)方法,這些方法可以通過將基因組學(xué)預(yù)測(cè)的結(jié)構(gòu)特征與代謝組學(xué)推斷的結(jié)構(gòu)特征相匹配。具體地說,對(duì)于非核糖體肽(NRPs),存在NRP quest(一種軟件);對(duì)于核糖體合成和翻譯后修飾肽(RiPPs),存在Meta Miner 48和Deep RiPP。雖然這些基于模式特征的方法在細(xì)節(jié)上是不同的,并且它們針對(duì)的天然產(chǎn)物的類型,它們具有相似的原理(圖4)。從代謝組學(xué)數(shù)據(jù)和BGCs開始,這些方法包括以下步驟:(a)預(yù)測(cè)來自BGCs的假想小分子產(chǎn)物,(b)預(yù)測(cè)這些假想分子的碎裂模式和理論光譜,(c)將質(zhì)譜與理論光譜相匹配,允許特定的修改,(d)計(jì)算統(tǒng)計(jì)顯著性,(e)計(jì)算匹配的錯(cuò)誤發(fā)現(xiàn)率,(f)形成一個(gè)具有重要識(shí)別的分子網(wǎng)絡(luò)。
(a)預(yù)測(cè)BGCs的假設(shè)小分子產(chǎn)物。在NRPs的情況下,多個(gè)算法用于預(yù)測(cè)氨基酸特異性。在RIPS的情況下,根據(jù)在不同RiPP類中發(fā)現(xiàn)的修飾酶預(yù)測(cè)BGC:BGC中的開放閱讀框(ORF)被提取為前體RIPS,并基于BGC中存在的酶,在前體RiPP中加入改性以形成成熟的RiPP結(jié)構(gòu)。
(b)在質(zhì)譜分析中預(yù)測(cè)這些假想分子的碎裂模式和理論光譜。在肽鏈情況下,通過斷開氮和碳之間的酰胺鍵形成碎片模式。對(duì)于一般的小分子,通過斷開氮-碳、氧-碳和碳-碳鍵形成碎裂模式。
(c)將質(zhì)譜與理論光譜相匹配,允許特定數(shù)量的修改。由于預(yù)測(cè)翻譯后和組裝后修飾的困難,基于基因組挖掘的潛在小分子預(yù)測(cè)通常是錯(cuò)誤的。這些修飾可以通過對(duì)假設(shè)小分子質(zhì)譜的修飾搜索來發(fā)現(xiàn)。
(d)計(jì)算匹配的統(tǒng)計(jì)顯著性。假設(shè)的小分子和光譜之間的原始分?jǐn)?shù)被定義為兩者共享的峰的數(shù)目。這些分?jǐn)?shù)通常偏向分子量較大的分子。因此,有必要將原始分?jǐn)?shù)轉(zhuǎn)換為P值,即分?jǐn)?shù)高于目標(biāo)小分子的隨機(jī)生成分子結(jié)構(gòu)與質(zhì)譜的比值。
(e)計(jì)算匹配的錯(cuò)誤發(fā)現(xiàn)率。為了計(jì)算錯(cuò)誤發(fā)現(xiàn)率,假設(shè)的小分子被隨機(jī)釋放,形成一個(gè)誘餌數(shù)據(jù)庫。然后,將假發(fā)現(xiàn)率計(jì)算為誘餌數(shù)據(jù)庫中識(shí)別的分子數(shù)與目標(biāo)數(shù)據(jù)庫中識(shí)別的分子數(shù)之比。
代謝物的化學(xué)特性通過分子網(wǎng)絡(luò)進(jìn)一步擴(kuò)展和環(huán)境化。盡管有這些綜合數(shù)據(jù)分析的通用方法,但仍有一些挑戰(zhàn)促使開發(fā)解決方案來改進(jìn)數(shù)據(jù)集內(nèi)部和跨數(shù)據(jù)集的集成。關(guān)鍵挑戰(zhàn)包括數(shù)據(jù)的可比性,例如,不同的實(shí)驗(yàn)協(xié)議、數(shù)據(jù)處理協(xié)議、數(shù)據(jù)格式、缺乏結(jié)構(gòu)化參考或知識(shí)庫。還有很多工具可以用來檢查和管理數(shù)據(jù)和元數(shù)據(jù)質(zhì)量,以及可以使用或重用這些成對(duì)數(shù)據(jù)及其伴隨的元數(shù)據(jù)的工具。

圖4 從代謝組學(xué)數(shù)據(jù)和BGC開始,基于亞結(jié)構(gòu)的代謝組學(xué)和基因組學(xué)數(shù)據(jù)整合方法包括以下步驟

(a)預(yù)測(cè)小分子產(chǎn)物的生物合成基因簇(每個(gè)節(jié)點(diǎn)代表一個(gè)單體,例如一種氨基酸或肽鏈,每條邊表示單體之間的化學(xué)鍵(如酰胺鍵)。(b)預(yù)測(cè)這些假設(shè)分子在理論光譜質(zhì)譜中的分裂模式。(c)匹配理論質(zhì)譜光譜,允許特定數(shù)量的修改。(d)計(jì)算匹配的統(tǒng)計(jì)顯著性。(e)計(jì)算匹配的錯(cuò)誤發(fā)現(xiàn)率。(f)形成顯著識(shí)別的分子網(wǎng)絡(luò)。

這里討論的第一個(gè)挑戰(zhàn)是數(shù)據(jù)的可用性。(包括數(shù)據(jù)的一致性、精心管理和標(biāo)準(zhǔn)化)。

同一菌株的全基因組測(cè)序和代謝組學(xué)數(shù)據(jù)的可用性越來越高,使得從基因組和代謝組預(yù)測(cè)中獲得或推斷的互補(bǔ)結(jié)構(gòu)信息成為可能。與同一來源相關(guān)的不同互補(bǔ)的組學(xué)數(shù)據(jù)集被稱為“成對(duì)數(shù)據(jù)集”。在過去的幾年里,多篇論文發(fā)表了成對(duì)的數(shù)據(jù)集。配對(duì)的數(shù)據(jù)集越多,我們就越能從基因組和代謝組中挖掘互補(bǔ)的結(jié)構(gòu)信息,并將基因簇與其產(chǎn)品聯(lián)系起來,從而將分子與其生產(chǎn)者聯(lián)系起來。

后者在元基因組學(xué)和元代謝組學(xué)實(shí)驗(yàn)中尤其有用。在這些實(shí)驗(yàn)中,一個(gè)分子可能由許多不同的細(xì)菌菌株產(chǎn)生。目前正在努力創(chuàng)建一個(gè)名為Paired omics數(shù)據(jù)平臺(tái) (https://pairedomicsdata.),其中可以記錄現(xiàn)有和新的成對(duì)數(shù)據(jù)集,以提供現(xiàn)有成對(duì)數(shù)據(jù)集的概述,從而刺激自然產(chǎn)品發(fā)現(xiàn)和使用。

此外,額外的組學(xué)數(shù)據(jù),如轉(zhuǎn)錄組(transcript omics)和肽原組(peptidogen omics)可以添加到這一平臺(tái)中。成對(duì)數(shù)據(jù)集中的一組全面相關(guān)的化學(xué)和基因組特征將有利于整個(gè)自然產(chǎn)品研究界和其他領(lǐng)域。實(shí)驗(yàn)人員可以利用已驗(yàn)證的鏈接快速評(píng)估特定代謝物產(chǎn)品是否為現(xiàn)在還沒有發(fā)現(xiàn)的BGCs,計(jì)算化學(xué)家掃描使用已驗(yàn)證的鏈接作為錨定點(diǎn)來訓(xùn)練機(jī)器學(xué)習(xí)模型,以計(jì)算鏈接基因組和代謝組數(shù)據(jù)。

第二個(gè)挑戰(zhàn)是數(shù)據(jù)質(zhì)量與數(shù)量。

質(zhì)量相對(duì)較差的數(shù)據(jù)可能會(huì)產(chǎn)生不準(zhǔn)確的注釋,從而導(dǎo)致對(duì)所調(diào)查的生物系統(tǒng)出現(xiàn)的錯(cuò)誤假設(shè)。公共數(shù)據(jù)的質(zhì)量經(jīng)常受到質(zhì)疑,因此開發(fā)用于生成質(zhì)量控制報(bào)告的標(biāo)準(zhǔn)化工作流程至關(guān)重要。

如前所述,需要考慮影響數(shù)據(jù)質(zhì)量的幾個(gè)變量,包括樣本處理和預(yù)處理的方式、提取程序、采用的分析方法、數(shù)據(jù)處理和許多其他變量。一些作者認(rèn)為,協(xié)議標(biāo)準(zhǔn)化有助于更好地集成組學(xué)數(shù)據(jù);然而,此類標(biāo)準(zhǔn)操作協(xié)議可能并不總是為單個(gè)案例帶來最佳質(zhì)量的數(shù)據(jù)。此外,代謝組學(xué)和基因組學(xué)數(shù)據(jù)中存在的錯(cuò)誤信息特征可能來自基線或劣質(zhì)光譜,這將會(huì)使綜合分析工作流程復(fù)雜化。因此,過濾步驟對(duì)于統(tǒng)計(jì)分析是必不可少的;但是,相同的過濾器也可以從數(shù)據(jù)集中刪除相關(guān)特征。使用一些質(zhì)量控制方法可以幫助克服這個(gè)問題,并在很大程度上提高最終數(shù)據(jù)的質(zhì)量。

總之,選擇哪些數(shù)據(jù)集包含在成對(duì)數(shù)據(jù)分析中是在選擇更高質(zhì)量的樣本數(shù)據(jù)和數(shù)據(jù)集與樣本總數(shù)之間的折中。由于更多成對(duì)的數(shù)據(jù)集通常都是具有相關(guān)模式的多個(gè)高階通道,因此必須對(duì)數(shù)據(jù)質(zhì)量進(jìn)行權(quán)衡選擇。

5.機(jī)遇

在過去的15年中,測(cè)序成本下降了9個(gè)數(shù)量級(jí),同時(shí),產(chǎn)生質(zhì)譜數(shù)據(jù)的成本也下降了2個(gè)數(shù)量級(jí)。這導(dǎo)致越來越多的實(shí)驗(yàn)室可以收集這兩種類型的數(shù)據(jù)。

例如,Qiita平臺(tái)擁有數(shù)十萬個(gè)微生物樣本的公共基因組數(shù)據(jù),GNPS擁有數(shù)千個(gè)微生物樣本的公共質(zhì)譜數(shù)據(jù),包括美國腸道項(xiàng)目樣本的代謝組學(xué) (http:///americangut),全球食品 (https://),微小地球(Tiny Earth,https://tinyearth./)以及人類微生物群項(xiàng)目(https:///ihmp/)。因此,Qiita和GNPS目前包含數(shù)千個(gè)樣本,其中代謝組學(xué)和測(cè)序(主要是16Sr RNA序列,但也越來越多的全基因組序列)已經(jīng)被收集。這些數(shù)據(jù)包括分離株(約1700株——主要是鏈霉菌屬、鹽孢菌屬、藍(lán)藻屬和人類微生物群相關(guān)的細(xì)菌種類)和主要是人類腸道變基因組(超過500株)和16 Sr RNA擴(kuò)增子序列(超過2000株)。然而,由于實(shí)際中連接數(shù)據(jù)集的復(fù)雜性,這些數(shù)據(jù)的效用尚未得到充分的實(shí)現(xiàn)和利用。

在這里,期刊可以發(fā)揮其作用,明確規(guī)定哪些需要存放在公共領(lǐng)域,以及如何以易于訪問的格式鏈接數(shù)據(jù)。例如,對(duì)于序列數(shù)據(jù),根據(jù)現(xiàn)行要求,大多數(shù)數(shù)據(jù)存儲(chǔ)在公共的域文件中。對(duì)于質(zhì)譜數(shù)據(jù),目前有幾十種不同的格式,科學(xué)界不要求存儲(chǔ)帶有登錄號(hào)的數(shù)據(jù)。我們認(rèn)為,應(yīng)盡快公開分享這些質(zhì)譜數(shù)據(jù)。一種方法是,在論文發(fā)表之前,除了強(qiáng)制共享外,如果用戶在公開共享時(shí)獲得了更多的知識(shí)或數(shù)據(jù),則可以鼓勵(lì)共享??偟膩碚f,我們預(yù)計(jì)公眾數(shù)據(jù)的數(shù)量將因許多由公眾資助的開放數(shù)據(jù)舉措而增加。

隨著基因組學(xué)和代謝組學(xué)研究的投入越來越高,我們預(yù)計(jì)會(huì)有更多成對(duì)的數(shù)據(jù)集可用。最終,這兩種發(fā)展都會(huì)相互促進(jìn),計(jì)算高級(jí)鏈接數(shù)據(jù)將刺激成對(duì)數(shù)據(jù)集的生成。正如過去五年中出現(xiàn)的許多倡議和工具所顯示的那樣,很明顯,集成分析時(shí)代已經(jīng)有了很好的開始。我們期待著未來幾年里所有新的令人興奮的發(fā)展。



原文鏈接: https://pubmed.ncbi.nlm./32393943/


    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多

    成人免费视频免费观看| 欧美国产日产综合精品| 中日韩美女黄色一级片 | 亚洲男女性生活免费视频| 国产极品粉嫩尤物一区二区| 99久久人妻精品免费一区| 高清一区二区三区四区五区| 又黄又色又爽又免费的视频| 在线免费视频你懂的观看| 国产中文另类天堂二区| 欧美日韩校园春色激情偷拍| 精品日韩视频在线观看| 欧美日韩中国性生活视频| 国产超碰在线观看免费| 欧洲偷拍视频中文字幕| 成人精品一区二区三区在线| 在线免费看国产精品黄片| 欧美午夜一区二区福利视频| 国内精品伊人久久久av高清| 日韩成人高清免费在线| 亚洲a码一区二区三区| 99久久精品国产日本| 国产一区一一一区麻豆| 国产日产欧美精品视频| 欧美日韩在线视频一区| 色丁香一区二区黑人巨大| 人人妻人人澡人人夜夜| 日韩人妻精品免费一区二区三区 | 伊人久久五月天综合网| 五月综合婷婷在线伊人| 又色又爽又无遮挡的视频| 国产av一区二区三区久久不卡| 91亚洲熟女少妇在线观看| 国产精品不卡高清在线观看| 太香蕉久久国产精品视频| 亚洲欧美日韩网友自拍| 日本一品道在线免费观看| 五月婷婷缴情七月丁香| 韩国日本欧美国产三级| 国产精品不卡高清在线观看| 免费人妻精品一区二区三区久久久|