本文介紹了中國科學(xué)院微生物研究所王軍及陳義華共同通訊發(fā)表在Nature Biotechnology的文章《Identification of antimicrobial peptides from the human gut microbiome using deep learning》。作者結(jié)合了包括LSTM、Attention和BERT在內(nèi)的多種自然語言處理神經(jīng)網(wǎng)絡(luò)模型,形成了一個統(tǒng)一的管道,用于從人類腸道微生物組數(shù)據(jù)中識別候選抗菌肽(AMP)。在被確定為候選AMP的2349個序列中,化學(xué)合成了216個,其中顯示出抗菌活性的有181個。并且,在這些多肽中,大多數(shù)與訓(xùn)練集中AMP的序列同源性低于40%。對11種最有效的AMP的進(jìn)一步表征表明,它們對抗生素耐藥的革蘭氏陰性病原體具有很高的療效,并且對細(xì)菌性肺部感染的小鼠模型顯示出了細(xì)菌負(fù)荷降低10倍的效果。該研究展示了機(jī)器學(xué)習(xí)方法從宏基因組數(shù)據(jù)中挖掘功能肽并加速發(fā)現(xiàn)有前景的AMP候選分子以進(jìn)行深入研究的潛力。 研究背景 當(dāng)下耐藥菌感染問題愈演愈烈,對全球健康構(gòu)成威脅,據(jù)預(yù)測,到2050年,由耐藥病原體引起的感染相關(guān)死亡人數(shù)將占全球死亡人數(shù)最多。2017年,世界衛(wèi)生組織公布了新抗菌藥物的優(yōu)先病原體名單,統(tǒng)稱為ESKAPE2。在這些病原體中,革蘭氏陰性細(xì)菌,如耐碳青霉烯類腸桿菌科(CRE),由于其快速產(chǎn)生抗生素耐藥性的能力而受到特別關(guān)注。然而,由于缺乏經(jīng)濟(jì)激勵和市場失靈,近十年來發(fā)現(xiàn)和開發(fā)的努力逐漸減少,商業(yè)化的抗生素非常少。 現(xiàn)有的大量抗生素和許多其他藥物都來源于微生物代謝產(chǎn)物,來自細(xì)菌的大量抗菌肽已被用于治療細(xì)菌、真菌和病毒感染,甚至癌癥。 測序技術(shù)的發(fā)展使人們能夠深入了解微生物組,尤其是人類腸道中的微生物組,人們越來越認(rèn)識到微生物組對宿主代謝和免疫健康的貢獻(xiàn)。腸道微生物組編碼高度多樣的基因,是抗生素耐藥基因的最大儲存庫之一。同時,由于長期的競爭和協(xié)同進(jìn)化,預(yù)計它將產(chǎn)生大量的抗菌藥物,甚至是抗多重耐藥(MDR)細(xì)菌的抗生素。多個案例表明,在人類腸道中,AMP能夠調(diào)節(jié)物種間的競爭并維持群落結(jié)構(gòu)。根據(jù)生物信息學(xué)分析,人類腸道微生物群中的大量潛在AMP家族仍有待深入研究。 因此,從理論上講,大量來自人類腸道微生物群的潛在AMP可以作為抗感染性細(xì)菌的候選來源。然而,到目前為止,AMP的發(fā)現(xiàn)在很大程度上仍然是由實驗驅(qū)動的,由于AMP的長度相對較短,序列相似性較低,生物信息學(xué)方法仍然具有挑戰(zhàn)性。 人工智能方法,尤其是自然語言處理方法,可以自主學(xué)習(xí)序列特征,并且可以通過識別基因組序列中的特征,甚至是低同源性的短序列來識別候選AMP。機(jī)器學(xué)習(xí)已經(jīng)成功地識別出具有抗生素作用的小分子。此外,最近通過深度學(xué)習(xí)和受控數(shù)據(jù)生成的物理化學(xué)選擇相結(jié)合,在計算機(jī)中生成了短AMP,證明了這種方法的可行性。 在這里,作者證明了將自主學(xué)習(xí)AMP序列特征的神經(jīng)網(wǎng)絡(luò)模型(NNM)與大規(guī)模人類微生物組數(shù)據(jù)資源相結(jié)合,可以發(fā)現(xiàn)具有高抗菌效力的AMP。 作者構(gòu)建了多個NNM,并將它們結(jié)合起來,在大量宏基因組數(shù)據(jù)中挖掘潛在AMP??傮w而言,化學(xué)合成了216種新肽,其中至少181種被證實具有抗菌活性。進(jìn)一步篩選發(fā)現(xiàn),AMP對MDR、革蘭氏陰性菌有很高的療效,并在動物模型中具有抗體內(nèi)感染的效力。該研究工作強(qiáng)調(diào)了機(jī)器學(xué)習(xí)和大型宏基因組數(shù)據(jù)集相結(jié)合,以改進(jìn)AMP預(yù)測并識別新的功能性AMP分子類別的潛力。 2 模型與方法 將神經(jīng)網(wǎng)絡(luò)模型與宏基因組數(shù)據(jù)相結(jié)合 下圖是研究工作的總體流程,作者首先收集序列構(gòu)建訓(xùn)練集和測試集,構(gòu)建并優(yōu)化了五種神經(jīng)網(wǎng)絡(luò)模型,并尋找這五種模型最好的組合方式,以形成一個統(tǒng)一的抗菌肽(AMP)識別管道。然后通過挖掘宏基因組和宏蛋白質(zhì)組數(shù)據(jù)尋找候選AMP,利用候選AMP和細(xì)菌之間的相關(guān)網(wǎng)絡(luò)分析進(jìn)行進(jìn)一步篩選,獲得用于化學(xué)合成和體外驗證的候選AMP。選擇有潛力的候選藥物,并進(jìn)一步進(jìn)行耐多藥細(xì)菌療效試驗、細(xì)菌性肺部感染動物模型的體內(nèi)試驗和機(jī)理分析。 圖1 研究工作的流程示意圖 神經(jīng)網(wǎng)絡(luò)模型的創(chuàng)建 作者共訓(xùn)練了五種神經(jīng)網(wǎng)絡(luò)模型來區(qū)分抗菌肽(AMP)和非抗菌肽。首先,作者將AMP和非AMP數(shù)據(jù)集轉(zhuǎn)換為一個固定大小的向量,并將20種基本的氨基酸(AA)轉(zhuǎn)換為1~20的數(shù)字形式。如果原始序列未達(dá)到300個氨基酸,則序列向量用0填充。序列向量在最后一列中添加數(shù)字1/0,作為序列的分類標(biāo)簽,分別表示AMP/非AMP。 第一個模型,同時也是最基本的模型,是具有LSTM層結(jié)構(gòu)的卷積NNM,它的結(jié)構(gòu)細(xì)節(jié)如下: 嵌入層: (input_dim=21, output_dim=128, input_length=300) 一維卷積層: activation=relu); 一維最大池化層: (pool_size=5, strides=5); LSTM層: (units=100, unroll=True, stateful=False); 稠密層: (units=1, activation=sigmoid) 第二個模型是將第一個模型架構(gòu)中的LSTM層更改為注意層得來的。注意層可以有效地捕捉整個蛋白質(zhì)序列中任意兩個(或更多)的氨基酸之間的長程依賴關(guān)系。該模型沒有添加額外的輸入信息。 然后,作者利用特定的訓(xùn)練數(shù)據(jù)來訓(xùn)練上述兩個模型,以獲得第三和第四個分類模型(LSTM和ATT)。 第五個模型是一個應(yīng)用于NLP的預(yù)訓(xùn)練表示模型,稱為BERT。BERT從無監(jiān)督語料庫中學(xué)習(xí)上下文信息,并生成相應(yīng)的表示向量;它廣泛適用于不同的NLP任務(wù),包括文本分類和序列注釋。作者將氨基酸視為文本信息,將每個氨基酸視為一個單詞代碼。在訓(xùn)練中,各個氨基酸由間隙隔開,序列的開始/結(jié)束用[CLS]和[SEP]標(biāo)簽標(biāo)記,然后在BERT模型的末尾添加了一個線性層,以將維度減少到2,以交叉熵作為損失函數(shù),以默認(rèn)參數(shù)作為優(yōu)化器,對初始參數(shù)進(jìn)行微調(diào)。 圖2 用于構(gòu)建管道的五個NLP模型總結(jié) 為了防止過擬合,作者采用了“提前停止”策略進(jìn)行訓(xùn)練,當(dāng)模型的性能開始下降時,就停止并保存模型,并進(jìn)行了十折交叉驗證。所有模型在訓(xùn)練過程中迅速收斂,預(yù)測分?jǐn)?shù)大于0.5(陽性)的肽被視為候選抗菌肽。 3 實驗結(jié)果 結(jié)合NLP模型創(chuàng)建AMP識別的統(tǒng)一管道 作者利用NLP算法構(gòu)建AMP識別模型,包括五種神經(jīng)網(wǎng)絡(luò)模型,分為三類。其中基礎(chǔ)模型的核心層是長短時記憶層(LSTM),已被證明對AMP識別有效。第二個模型將LSTM層替換為注意層,形成ATT模型。作者優(yōu)化了五種模型的性能,并將它們結(jié)合形成了統(tǒng)一的AMP識別管道。 圖3 模型不同組合方式的效果比較 研究發(fā)現(xiàn),不同模型識別的真陽性(TP)和假陽性(FP)序列的比例差異很大,由于它們的預(yù)測偏差相互獨(dú)立,作者將這些不同的模型結(jié)合起來,以進(jìn)一步提高精度。作者最終測試了各種模型組合(2-5個模型)的交集,并使用精度、召回率和精確召回曲線下面積評估了模型組合。結(jié)果表明,精度最高的組合是三個模型的組合,為91.31%(ATT、LSTM和BERT,與單個BERT模型的最佳性能相比,提高了約15%,召回率達(dá)到83.32%,最高AUPRC為0.9244,見圖2)。 與使用相同測試數(shù)據(jù)集的其他當(dāng)前可用的AMP識別方法相比,該研究的管道在AUPRC和精度方面超過了所有其他方法(見圖2)。這些結(jié)果表明該研究中結(jié)合多個NLP模型形成的統(tǒng)一管道是一種從序列數(shù)據(jù)中識別AMP的穩(wěn)健方法。 篩選出對耐抗生素革蘭氏陰性細(xì)菌最有效的肽 作者檢測了從最初的抗菌活性篩選中獲得的前11種c_AMP對常見的耐抗生素革蘭氏陰性細(xì)菌病原體的有效性,實驗結(jié)果如下圖。 圖4 c_AMP對耐抗生素革蘭氏陰性細(xì)菌的效力分析 所有檢測菌株對第三代頭孢菌素頭孢他啶、頭孢曲松、頭孢吡肟和舒巴坦頭孢哌酮(CAZ、CRO、FEP和SCF)具有耐藥性;所有肺炎克雷伯菌和大腸桿菌臨床分離株以及鮑曼不動桿菌Ab8對至少一種碳青霉烯類抗生素:厄他培南、亞胺培南或美羅培南(ETP、IPM或MEM)具有耐藥性。 而c_AMP1043對所有臨床分離株的MIC均小于10μM,7個c_AMP對至少9個臨床分離株的MIC均小于20μM(見圖3)。因此,作者選擇的候選藥物與已知AMP的相似性較低,但具有廣譜和有效的抗菌活性,包括抗MDR、革蘭氏陰性菌。 小鼠模型選定的c_-AMP對細(xì)菌性肺部感染有效 在對小鼠進(jìn)行體內(nèi)感染實驗之前,作者評估了11種c_AMP對真核細(xì)胞的毒性,包括HCT116細(xì)胞(人類結(jié)直腸癌細(xì)胞系)和新鮮人類紅細(xì)胞。作者使用不同濃度對這11種肽進(jìn)行了溶血和細(xì)胞毒性試驗,并估計了各自的IC50/CC50值,結(jié)合這些結(jié)果和針對耐多藥肺炎克雷伯菌(ATCC 700603)的c-AMP的MIC數(shù)據(jù),作者最終選擇了c_-AMP1043、c_-AMP593和c_-AMP575進(jìn)行體內(nèi)分析,使用感染肺炎克雷伯菌的小鼠模型,監(jiān)測體重恢復(fù)數(shù)據(jù)。 圖5 c_AMP治療小鼠細(xì)菌感染模型 與對照組相比,用c-AMP處理的感染小鼠顯示出明顯更快的體重恢復(fù)率(見圖4);額外的菌落形成單位和實時聚合酶鏈反應(yīng)分析進(jìn)一步證實,c-AMP治療24小時后,小鼠肺中的肺炎克雷伯菌負(fù)荷顯著降低(見圖4),表明c-AMP降低了細(xì)菌感染的嚴(yán)重程度。大約一半的對照組顯示出體重減輕耗時超過7天,而所有接受c_AMP治療的小鼠此時已恢復(fù)到其原始體重。結(jié)果表明,三種c-AMP對肺部感染具有抗菌活性,對宿主無明顯不良影響,值得進(jìn)一步研究。 4 總結(jié) 該研究展示了通過將NLP方法與大型微生物組數(shù)據(jù)相結(jié)合挖掘AMP的實用性,與傳統(tǒng)的基于實驗的方法相比,NLP驅(qū)動的方法可以在更短的時間內(nèi)獲得較高的目標(biāo)類肽識別成功率。 這種方法還可用于利用大規(guī)模數(shù)據(jù)集對環(huán)境和醫(yī)學(xué)宏基因組學(xué)進(jìn)行基于測序的研究,以發(fā)現(xiàn)部分功能性“暗物質(zhì)”。這種方法的應(yīng)用可以極大地促進(jìn)用于研究和治療的肽制劑的識別和優(yōu)先排序。并且還可用類似的方法挖掘與微生物信號以及調(diào)節(jié)宿主免疫或代謝有關(guān)的其他類型的肽。 參考資料 Ma, Y., Guo, Z., Xia, B. et al. Identification of antimicrobial peptides from the human gut microbiome using deep learning. Nat Biotechnol (2022). https:///10.1038/s41587-022-01226-0. |
|