一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

Nat. Biotechnol.|基于深度學(xué)習(xí)從人體腸道微生物群中識別抗菌肽

 DrugAI 2022-04-19

本文介紹了中國科學(xué)院微生物研究所王軍及陳義華共同通訊發(fā)表在Nature Biotechnology的文章《Identification of antimicrobial peptides from the human gut microbiome using deep learning》。作者結(jié)合了包括LSTM、Attention和BERT在內(nèi)的多種自然語言處理神經(jīng)網(wǎng)絡(luò)模型,形成了一個統(tǒng)一的管道,用于從人類腸道微生物組數(shù)據(jù)中識別候選抗菌肽(AMP)。在被確定為候選AMP的2349個序列中,化學(xué)合成了216個,其中顯示出抗菌活性的有181個。并且,在這些多肽中,大多數(shù)與訓(xùn)練集中AMP的序列同源性低于40%。對11種最有效的AMP的進(jìn)一步表征表明,它們對抗生素耐藥的革蘭氏陰性病原體具有很高的療效,并且對細(xì)菌性肺部感染的小鼠模型顯示出了細(xì)菌負(fù)荷降低10倍的效果。該研究展示了機(jī)器學(xué)習(xí)方法從宏基因組數(shù)據(jù)中挖掘功能肽并加速發(fā)現(xiàn)有前景的AMP候選分子以進(jìn)行深入研究的潛力。

1

研究背景

當(dāng)下耐藥菌感染問題愈演愈烈,對全球健康構(gòu)成威脅,據(jù)預(yù)測,到2050年,由耐藥病原體引起的感染相關(guān)死亡人數(shù)將占全球死亡人數(shù)最多。2017年,世界衛(wèi)生組織公布了新抗菌藥物的優(yōu)先病原體名單,統(tǒng)稱為ESKAPE2。在這些病原體中,革蘭氏陰性細(xì)菌,如耐碳青霉烯類腸桿菌科(CRE),由于其快速產(chǎn)生抗生素耐藥性的能力而受到特別關(guān)注。然而,由于缺乏經(jīng)濟(jì)激勵和市場失靈,近十年來發(fā)現(xiàn)和開發(fā)的努力逐漸減少,商業(yè)化的抗生素非常少。

現(xiàn)有的大量抗生素和許多其他藥物都來源于微生物代謝產(chǎn)物,來自細(xì)菌的大量抗菌肽已被用于治療細(xì)菌、真菌和病毒感染,甚至癌癥。

測序技術(shù)的發(fā)展使人們能夠深入了解微生物組,尤其是人類腸道中的微生物組,人們越來越認(rèn)識到微生物組對宿主代謝和免疫健康的貢獻(xiàn)。腸道微生物組編碼高度多樣的基因,是抗生素耐藥基因的最大儲存庫之一。同時,由于長期的競爭和協(xié)同進(jìn)化,預(yù)計它將產(chǎn)生大量的抗菌藥物,甚至是抗多重耐藥(MDR)細(xì)菌的抗生素。多個案例表明,在人類腸道中,AMP能夠調(diào)節(jié)物種間的競爭并維持群落結(jié)構(gòu)。根據(jù)生物信息學(xué)分析,人類腸道微生物群中的大量潛在AMP家族仍有待深入研究。

因此,從理論上講,大量來自人類腸道微生物群的潛在AMP可以作為抗感染性細(xì)菌的候選來源。然而,到目前為止,AMP的發(fā)現(xiàn)在很大程度上仍然是由實驗驅(qū)動的,由于AMP的長度相對較短,序列相似性較低,生物信息學(xué)方法仍然具有挑戰(zhàn)性。

人工智能方法,尤其是自然語言處理方法,可以自主學(xué)習(xí)序列特征,并且可以通過識別基因組序列中的特征,甚至是低同源性的短序列來識別候選AMP。機(jī)器學(xué)習(xí)已經(jīng)成功地識別出具有抗生素作用的小分子。此外,最近通過深度學(xué)習(xí)和受控數(shù)據(jù)生成的物理化學(xué)選擇相結(jié)合,在計算機(jī)中生成了短AMP,證明了這種方法的可行性。

在這里,作者證明了將自主學(xué)習(xí)AMP序列特征的神經(jīng)網(wǎng)絡(luò)模型(NNM)與大規(guī)模人類微生物組數(shù)據(jù)資源相結(jié)合,可以發(fā)現(xiàn)具有高抗菌效力的AMP。

作者構(gòu)建了多個NNM,并將它們結(jié)合起來,在大量宏基因組數(shù)據(jù)中挖掘潛在AMP??傮w而言,化學(xué)合成了216種新肽,其中至少181種被證實具有抗菌活性。進(jìn)一步篩選發(fā)現(xiàn),AMP對MDR、革蘭氏陰性菌有很高的療效,并在動物模型中具有抗體內(nèi)感染的效力。該研究工作強(qiáng)調(diào)了機(jī)器學(xué)習(xí)和大型宏基因組數(shù)據(jù)集相結(jié)合,以改進(jìn)AMP預(yù)測并識別新的功能性AMP分子類別的潛力。

2

模型與方法


將神經(jīng)網(wǎng)絡(luò)模型與宏基因組數(shù)據(jù)相結(jié)合

下圖是研究工作的總體流程,作者首先收集序列構(gòu)建訓(xùn)練集和測試集,構(gòu)建并優(yōu)化了五種神經(jīng)網(wǎng)絡(luò)模型,并尋找這五種模型最好的組合方式,以形成一個統(tǒng)一的抗菌肽(AMP)識別管道。然后通過挖掘宏基因組和宏蛋白質(zhì)組數(shù)據(jù)尋找候選AMP,利用候選AMP和細(xì)菌之間的相關(guān)網(wǎng)絡(luò)分析進(jìn)行進(jìn)一步篩選,獲得用于化學(xué)合成和體外驗證的候選AMP。選擇有潛力的候選藥物,并進(jìn)一步進(jìn)行耐多藥細(xì)菌療效試驗、細(xì)菌性肺部感染動物模型的體內(nèi)試驗和機(jī)理分析。

圖1 研究工作的流程示意圖


神經(jīng)網(wǎng)絡(luò)模型的創(chuàng)建

作者共訓(xùn)練了五種神經(jīng)網(wǎng)絡(luò)模型來區(qū)分抗菌肽(AMP)和非抗菌肽。首先,作者將AMP和非AMP數(shù)據(jù)集轉(zhuǎn)換為一個固定大小的向量,并將20種基本的氨基酸(AA)轉(zhuǎn)換為1~20的數(shù)字形式。如果原始序列未達(dá)到300個氨基酸,則序列向量用0填充。序列向量在最后一列中添加數(shù)字1/0,作為序列的分類標(biāo)簽,分別表示AMP/非AMP。

第一個模型,同時也是最基本的模型,是具有LSTM層結(jié)構(gòu)的卷積NNM,它的結(jié)構(gòu)細(xì)節(jié)如下:

嵌入層:

(input_dim=21, output_dim=128, 

input_length=300)

一維卷積層:
(nb_filter=64, filter_length=16, strides=1, 

activation=relu);

一維最大池化層:

(pool_size=5, strides=5);

LSTM層:

(units=100, unroll=True, stateful=False);

稠密層:

(units=1, activation=sigmoid)

第二個模型是將第一個模型架構(gòu)中的LSTM層更改為注意層得來的。注意層可以有效地捕捉整個蛋白質(zhì)序列中任意兩個(或更多)的氨基酸之間的長程依賴關(guān)系。該模型沒有添加額外的輸入信息。

然后,作者利用特定的訓(xùn)練數(shù)據(jù)來訓(xùn)練上述兩個模型,以獲得第三和第四個分類模型(LSTM和ATT)。

第五個模型是一個應(yīng)用于NLP的預(yù)訓(xùn)練表示模型,稱為BERT。BERT從無監(jiān)督語料庫中學(xué)習(xí)上下文信息,并生成相應(yīng)的表示向量;它廣泛適用于不同的NLP任務(wù),包括文本分類和序列注釋。作者將氨基酸視為文本信息,將每個氨基酸視為一個單詞代碼。在訓(xùn)練中,各個氨基酸由間隙隔開,序列的開始/結(jié)束用[CLS]和[SEP]標(biāo)簽標(biāo)記,然后在BERT模型的末尾添加了一個線性層,以將維度減少到2,以交叉熵作為損失函數(shù),以默認(rèn)參數(shù)作為優(yōu)化器,對初始參數(shù)進(jìn)行微調(diào)。

圖2 用于構(gòu)建管道的五個NLP模型總結(jié)

為了防止過擬合,作者采用了“提前停止”策略進(jìn)行訓(xùn)練,當(dāng)模型的性能開始下降時,就停止并保存模型,并進(jìn)行了十折交叉驗證。所有模型在訓(xùn)練過程中迅速收斂,預(yù)測分?jǐn)?shù)大于0.5(陽性)的肽被視為候選抗菌肽。

3

實驗結(jié)果


結(jié)合NLP模型創(chuàng)建AMP識別的統(tǒng)一管道

作者利用NLP算法構(gòu)建AMP識別模型,包括五種神經(jīng)網(wǎng)絡(luò)模型,分為三類。其中基礎(chǔ)模型的核心層是長短時記憶層(LSTM),已被證明對AMP識別有效。第二個模型將LSTM層替換為注意層,形成ATT模型。作者優(yōu)化了五種模型的性能,并將它們結(jié)合形成了統(tǒng)一的AMP識別管道。

圖3 模型不同組合方式的效果比較

研究發(fā)現(xiàn),不同模型識別的真陽性(TP)和假陽性(FP)序列的比例差異很大,由于它們的預(yù)測偏差相互獨(dú)立,作者將這些不同的模型結(jié)合起來,以進(jìn)一步提高精度。作者最終測試了各種模型組合(2-5個模型)的交集,并使用精度、召回率和精確召回曲線下面積評估了模型組合。結(jié)果表明,精度最高的組合是三個模型的組合,為91.31%(ATT、LSTM和BERT,與單個BERT模型的最佳性能相比,提高了約15%,召回率達(dá)到83.32%,最高AUPRC為0.9244,見圖2)。

與使用相同測試數(shù)據(jù)集的其他當(dāng)前可用的AMP識別方法相比,該研究的管道在AUPRC和精度方面超過了所有其他方法(見圖2)。這些結(jié)果表明該研究中結(jié)合多個NLP模型形成的統(tǒng)一管道是一種從序列數(shù)據(jù)中識別AMP的穩(wěn)健方法。


篩選出對耐抗生素革蘭氏陰性細(xì)菌最有效的肽

作者檢測了從最初的抗菌活性篩選中獲得的前11種c_AMP對常見的耐抗生素革蘭氏陰性細(xì)菌病原體的有效性,實驗結(jié)果如下圖。

圖4 c_AMP對耐抗生素革蘭氏陰性細(xì)菌的效力分析

所有檢測菌株對第三代頭孢菌素頭孢他啶、頭孢曲松、頭孢吡肟和舒巴坦頭孢哌酮(CAZ、CRO、FEP和SCF)具有耐藥性;所有肺炎克雷伯菌和大腸桿菌臨床分離株以及鮑曼不動桿菌Ab8對至少一種碳青霉烯類抗生素:厄他培南、亞胺培南或美羅培南(ETP、IPM或MEM)具有耐藥性。

而c_AMP1043對所有臨床分離株的MIC均小于10μM,7個c_AMP對至少9個臨床分離株的MIC均小于20μM(見圖3)。因此,作者選擇的候選藥物與已知AMP的相似性較低,但具有廣譜和有效的抗菌活性,包括抗MDR、革蘭氏陰性菌。


小鼠模型選定的c_-AMP對細(xì)菌性肺部感染有效

在對小鼠進(jìn)行體內(nèi)感染實驗之前,作者評估了11種c_AMP對真核細(xì)胞的毒性,包括HCT116細(xì)胞(人類結(jié)直腸癌細(xì)胞系)和新鮮人類紅細(xì)胞。作者使用不同濃度對這11種肽進(jìn)行了溶血和細(xì)胞毒性試驗,并估計了各自的IC50/CC50值,結(jié)合這些結(jié)果和針對耐多藥肺炎克雷伯菌(ATCC 700603)的c-AMP的MIC數(shù)據(jù),作者最終選擇了c_-AMP1043、c_-AMP593和c_-AMP575進(jìn)行體內(nèi)分析,使用感染肺炎克雷伯菌的小鼠模型,監(jiān)測體重恢復(fù)數(shù)據(jù)。

圖5 c_AMP治療小鼠細(xì)菌感染模型

與對照組相比,用c-AMP處理的感染小鼠顯示出明顯更快的體重恢復(fù)率(見圖4);額外的菌落形成單位和實時聚合酶鏈反應(yīng)分析進(jìn)一步證實,c-AMP治療24小時后,小鼠肺中的肺炎克雷伯菌負(fù)荷顯著降低(見圖4),表明c-AMP降低了細(xì)菌感染的嚴(yán)重程度。大約一半的對照組顯示出體重減輕耗時超過7天,而所有接受c_AMP治療的小鼠此時已恢復(fù)到其原始體重。結(jié)果表明,三種c-AMP對肺部感染具有抗菌活性,對宿主無明顯不良影響,值得進(jìn)一步研究。

4

總結(jié)

該研究展示了通過將NLP方法與大型微生物組數(shù)據(jù)相結(jié)合挖掘AMP的實用性,與傳統(tǒng)的基于實驗的方法相比,NLP驅(qū)動的方法可以在更短的時間內(nèi)獲得較高的目標(biāo)類肽識別成功率。

這種方法還可用于利用大規(guī)模數(shù)據(jù)集對環(huán)境和醫(yī)學(xué)宏基因組學(xué)進(jìn)行基于測序的研究,以發(fā)現(xiàn)部分功能性“暗物質(zhì)”。這種方法的應(yīng)用可以極大地促進(jìn)用于研究和治療的肽制劑的識別和優(yōu)先排序。并且還可用類似的方法挖掘與微生物信號以及調(diào)節(jié)宿主免疫或代謝有關(guān)的其他類型的肽。

參考資料

Ma, Y., Guo, Z., Xia, B. et al. Identification of antimicrobial peptides from the human gut microbiome using deep learning. Nat Biotechnol (2022). 

https:///10.1038/s41587-022-01226-0.

    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多

    麻豆蜜桃星空传媒在线观看| 在线免费国产一区二区三区| 亚洲一区二区三区四区性色av| 日本久久精品在线观看| 好吊视频一区二区在线| 好吊视频一区二区在线| 青草草在线视频免费视频| 欧洲一区二区三区自拍天堂| 久久综合日韩精品免费观看| 欧美日韩综合在线第一页 | 亚洲熟妇熟女久久精品 | 亚洲美女国产精品久久| 日韩人妻一区中文字幕| 国产精品成人一区二区在线 | 中文字幕日产乱码一区二区| 国产91人妻精品一区二区三区 | 视频一区二区三区自拍偷| 男女午夜视频在线观看免费| 国产麻豆一区二区三区在| 日本高清不卡一二三区| 五月综合婷婷在线伊人| 国产又色又爽又黄又大| 亚洲综合伊人五月天中文| 亚洲精品蜜桃在线观看| 欧美日韩一区二区综合| 黄色激情视频中文字幕| 国产精品视频第一第二区| 欧美胖熟妇一区二区三区| 国产一级一片内射视频在线| 欧美一级内射一色桃子| 十八禁日本一区二区三区| 日韩一区二区三区免费av| 91人妻丝袜一区二区三区| 中文字幕乱码亚洲三区| 91亚洲熟女少妇在线观看| 人妻中文一区二区三区| 日韩不卡一区二区三区色图| 国产精品白丝久久av| 国产成人精品久久二区二区| 91日韩在线观看你懂的| 91欧美一区二区三区成人|