【原】Nat. Biotechnol.｜基于深度學(xué)習(xí)從人體腸道微生物群中識別抗菌肽

DrugAI 2022-04-19

展開全文

本文介紹了中國科學(xué)院微生物研究所王軍及陳義華共同通訊發(fā)表在Nature Biotechnology的文章《Identification of antimicrobial peptides from the human gut microbiome using deep learning》。作者結(jié)合了包括LSTM、Attention和BERT在內(nèi)的多種自然語言處理神經(jīng)網(wǎng)絡(luò)模型，形成了一個統(tǒng)一的管道，用于從人類腸道微生物組數(shù)據(jù)中識別候選抗菌肽（AMP）。在被確定為候選AMP的2349個序列中，化學(xué)合成了216個，其中顯示出抗菌活性的有181個。并且，在這些多肽中，大多數(shù)與訓(xùn)練集中AMP的序列同源性低于40%。對11種最有效的AMP的進(jìn)一步表征表明，它們對抗生素耐藥的革蘭氏陰性病原體具有很高的療效，并且對細(xì)菌性肺部感染的小鼠模型顯示出了細(xì)菌負(fù)荷降低10倍的效果。該研究展示了機(jī)器學(xué)習(xí)方法從宏基因組數(shù)據(jù)中挖掘功能肽并加速發(fā)現(xiàn)有前景的AMP候選分子以進(jìn)行深入研究的潛力。

研究背景

當(dāng)下耐藥菌感染問題愈演愈烈，對全球健康構(gòu)成威脅，據(jù)預(yù)測，到2050年，由耐藥病原體引起的感染相關(guān)死亡人數(shù)將占全球死亡人數(shù)最多。2017年，世界衛(wèi)生組織公布了新抗菌藥物的優(yōu)先病原體名單，統(tǒng)稱為ESKAPE2。在這些病原體中，革蘭氏陰性細(xì)菌，如耐碳青霉烯類腸桿菌科（CRE），由于其快速產(chǎn)生抗生素耐藥性的能力而受到特別關(guān)注。然而，由于缺乏經(jīng)濟(jì)激勵和市場失靈，近十年來發(fā)現(xiàn)和開發(fā)的努力逐漸減少，商業(yè)化的抗生素非常少。

現(xiàn)有的大量抗生素和許多其他藥物都來源于微生物代謝產(chǎn)物，來自細(xì)菌的大量抗菌肽已被用于治療細(xì)菌、真菌和病毒感染，甚至癌癥。

測序技術(shù)的發(fā)展使人們能夠深入了解微生物組，尤其是人類腸道中的微生物組，人們越來越認(rèn)識到微生物組對宿主代謝和免疫健康的貢獻(xiàn)。腸道微生物組編碼高度多樣的基因，是抗生素耐藥基因的最大儲存庫之一。同時，由于長期的競爭和協(xié)同進(jìn)化，預(yù)計它將產(chǎn)生大量的抗菌藥物，甚至是抗多重耐藥（MDR）細(xì)菌的抗生素。多個案例表明，在人類腸道中，AMP能夠調(diào)節(jié)物種間的競爭并維持群落結(jié)構(gòu)。根據(jù)生物信息學(xué)分析，人類腸道微生物群中的大量潛在AMP家族仍有待深入研究。

因此，從理論上講，大量來自人類腸道微生物群的潛在AMP可以作為抗感染性細(xì)菌的候選來源。然而，到目前為止，AMP的發(fā)現(xiàn)在很大程度上仍然是由實驗驅(qū)動的，由于AMP的長度相對較短，序列相似性較低，生物信息學(xué)方法仍然具有挑戰(zhàn)性。

人工智能方法，尤其是自然語言處理方法，可以自主學(xué)習(xí)序列特征，并且可以通過識別基因組序列中的特征，甚至是低同源性的短序列來識別候選AMP。機(jī)器學(xué)習(xí)已經(jīng)成功地識別出具有抗生素作用的小分子。此外，最近通過深度學(xué)習(xí)和受控數(shù)據(jù)生成的物理化學(xué)選擇相結(jié)合，在計算機(jī)中生成了短AMP，證明了這種方法的可行性。

在這里，作者證明了將自主學(xué)習(xí)AMP序列特征的神經(jīng)網(wǎng)絡(luò)模型（NNM）與大規(guī)模人類微生物組數(shù)據(jù)資源相結(jié)合，可以發(fā)現(xiàn)具有高抗菌效力的AMP。

作者構(gòu)建了多個NNM，并將它們結(jié)合起來，在大量宏基因組數(shù)據(jù)中挖掘潛在AMP?？傮w而言，化學(xué)合成了216種新肽，其中至少181種被證實具有抗菌活性。進(jìn)一步篩選發(fā)現(xiàn)，AMP對MDR、革蘭氏陰性菌有很高的療效，并在動物模型中具有抗體內(nèi)感染的效力。該研究工作強(qiáng)調(diào)了機(jī)器學(xué)習(xí)和大型宏基因組數(shù)據(jù)集相結(jié)合，以改進(jìn)AMP預(yù)測并識別新的功能性AMP分子類別的潛力。

模型與方法

將神經(jīng)網(wǎng)絡(luò)模型與宏基因組數(shù)據(jù)相結(jié)合

下圖是研究工作的總體流程，作者首先收集序列構(gòu)建訓(xùn)練集和測試集，構(gòu)建并優(yōu)化了五種神經(jīng)網(wǎng)絡(luò)模型，并尋找這五種模型最好的組合方式，以形成一個統(tǒng)一的抗菌肽（AMP）識別管道。然后通過挖掘宏基因組和宏蛋白質(zhì)組數(shù)據(jù)尋找候選AMP，利用候選AMP和細(xì)菌之間的相關(guān)網(wǎng)絡(luò)分析進(jìn)行進(jìn)一步篩選，獲得用于化學(xué)合成和體外驗證的候選AMP。選擇有潛力的候選藥物，并進(jìn)一步進(jìn)行耐多藥細(xì)菌療效試驗、細(xì)菌性肺部感染動物模型的體內(nèi)試驗和機(jī)理分析。

圖1 研究工作的流程示意圖

神經(jīng)網(wǎng)絡(luò)模型的創(chuàng)建

作者共訓(xùn)練了五種神經(jīng)網(wǎng)絡(luò)模型來區(qū)分抗菌肽（AMP）和非抗菌肽。首先，作者將AMP和非AMP數(shù)據(jù)集轉(zhuǎn)換為一個固定大小的向量，并將20種基本的氨基酸（AA）轉(zhuǎn)換為1~20的數(shù)字形式。如果原始序列未達(dá)到300個氨基酸，則序列向量用0填充。序列向量在最后一列中添加數(shù)字1/0，作為序列的分類標(biāo)簽，分別表示AMP/非AMP。

第一個模型，同時也是最基本的模型，是具有LSTM層結(jié)構(gòu)的卷積NNM，它的結(jié)構(gòu)細(xì)節(jié)如下：

嵌入層：

(input_dim=21, output_dim=128,

input_length=300)

一維卷積層:
(nb_filter=64, filter_length=16, strides=1,

activation=relu);

一維最大池化層:

(pool_size=5, strides=5);

LSTM層:

(units=100, unroll=True, stateful=False);

稠密層:

(units=1, activation=sigmoid)

第二個模型是將第一個模型架構(gòu)中的LSTM層更改為注意層得來的。注意層可以有效地捕捉整個蛋白質(zhì)序列中任意兩個（或更多）的氨基酸之間的長程依賴關(guān)系。該模型沒有添加額外的輸入信息。

然后，作者利用特定的訓(xùn)練數(shù)據(jù)來訓(xùn)練上述兩個模型，以獲得第三和第四個分類模型（LSTM和ATT）。

第五個模型是一個應(yīng)用于NLP的預(yù)訓(xùn)練表示模型，稱為BERT。BERT從無監(jiān)督語料庫中學(xué)習(xí)上下文信息，并生成相應(yīng)的表示向量；它廣泛適用于不同的NLP任務(wù)，包括文本分類和序列注釋。作者將氨基酸視為文本信息，將每個氨基酸視為一個單詞代碼。在訓(xùn)練中，各個氨基酸由間隙隔開，序列的開始/結(jié)束用[CLS]和[SEP]標(biāo)簽標(biāo)記，然后在BERT模型的末尾添加了一個線性層，以將維度減少到2，以交叉熵作為損失函數(shù)，以默認(rèn)參數(shù)作為優(yōu)化器，對初始參數(shù)進(jìn)行微調(diào)。

圖2 用于構(gòu)建管道的五個NLP模型總結(jié)

為了防止過擬合，作者采用了“提前停止”策略進(jìn)行訓(xùn)練，當(dāng)模型的性能開始下降時，就停止并保存模型，并進(jìn)行了十折交叉驗證。所有模型在訓(xùn)練過程中迅速收斂，預(yù)測分?jǐn)?shù)大于0.5（陽性）的肽被視為候選抗菌肽。

實驗結(jié)果

結(jié)合NLP模型創(chuàng)建AMP識別的統(tǒng)一管道

作者利用NLP算法構(gòu)建AMP識別模型，包括五種神經(jīng)網(wǎng)絡(luò)模型，分為三類。其中基礎(chǔ)模型的核心層是長短時記憶層（LSTM），已被證明對AMP識別有效。第二個模型將LSTM層替換為注意層，形成ATT模型。作者優(yōu)化了五種模型的性能，并將它們結(jié)合形成了統(tǒng)一的AMP識別管道。

圖3 模型不同組合方式的效果比較

研究發(fā)現(xiàn)，不同模型識別的真陽性（TP）和假陽性（FP）序列的比例差異很大，由于它們的預(yù)測偏差相互獨(dú)立，作者將這些不同的模型結(jié)合起來，以進(jìn)一步提高精度。作者最終測試了各種模型組合（2-5個模型）的交集，并使用精度、召回率和精確召回曲線下面積評估了模型組合。結(jié)果表明，精度最高的組合是三個模型的組合，為91.31%（ATT、LSTM和BERT，與單個BERT模型的最佳性能相比，提高了約15%，召回率達(dá)到83.32%，最高AUPRC為0.9244，見圖2）。

與使用相同測試數(shù)據(jù)集的其他當(dāng)前可用的AMP識別方法相比，該研究的管道在AUPRC和精度方面超過了所有其他方法（見圖2）。這些結(jié)果表明該研究中結(jié)合多個NLP模型形成的統(tǒng)一管道是一種從序列數(shù)據(jù)中識別AMP的穩(wěn)健方法。

篩選出對耐抗生素革蘭氏陰性細(xì)菌最有效的肽

作者檢測了從最初的抗菌活性篩選中獲得的前11種c_AMP對常見的耐抗生素革蘭氏陰性細(xì)菌病原體的有效性，實驗結(jié)果如下圖。

圖4 c_AMP對耐抗生素革蘭氏陰性細(xì)菌的效力分析

所有檢測菌株對第三代頭孢菌素頭孢他啶、頭孢曲松、頭孢吡肟和舒巴坦頭孢哌酮（CAZ、CRO、FEP和SCF）具有耐藥性；所有肺炎克雷伯菌和大腸桿菌臨床分離株以及鮑曼不動桿菌Ab8對至少一種碳青霉烯類抗生素：厄他培南、亞胺培南或美羅培南（ETP、IPM或MEM）具有耐藥性。

而c_AMP1043對所有臨床分離株的MIC均小于10μM，7個c_AMP對至少9個臨床分離株的MIC均小于20μM（見圖3）。因此，作者選擇的候選藥物與已知AMP的相似性較低，但具有廣譜和有效的抗菌活性，包括抗MDR、革蘭氏陰性菌。

小鼠模型選定的c_-AMP對細(xì)菌性肺部感染有效

在對小鼠進(jìn)行體內(nèi)感染實驗之前，作者評估了11種c_AMP對真核細(xì)胞的毒性，包括HCT116細(xì)胞（人類結(jié)直腸癌細(xì)胞系）和新鮮人類紅細(xì)胞。作者使用不同濃度對這11種肽進(jìn)行了溶血和細(xì)胞毒性試驗，并估計了各自的IC50/CC50值，結(jié)合這些結(jié)果和針對耐多藥肺炎克雷伯菌（ATCC 700603）的c-AMP的MIC數(shù)據(jù)，作者最終選擇了c_-AMP1043、c_-AMP593和c_-AMP575進(jìn)行體內(nèi)分析，使用感染肺炎克雷伯菌的小鼠模型，監(jiān)測體重恢復(fù)數(shù)據(jù)。

圖5 c_AMP治療小鼠細(xì)菌感染模型

與對照組相比，用c-AMP處理的感染小鼠顯示出明顯更快的體重恢復(fù)率（見圖4）；額外的菌落形成單位和實時聚合酶鏈反應(yīng)分析進(jìn)一步證實，c-AMP治療24小時后，小鼠肺中的肺炎克雷伯菌負(fù)荷顯著降低（見圖4），表明c-AMP降低了細(xì)菌感染的嚴(yán)重程度。大約一半的對照組顯示出體重減輕耗時超過7天，而所有接受c_AMP治療的小鼠此時已恢復(fù)到其原始體重。結(jié)果表明，三種c-AMP對肺部感染具有抗菌活性，對宿主無明顯不良影響，值得進(jìn)一步研究。

總結(jié)

該研究展示了通過將NLP方法與大型微生物組數(shù)據(jù)相結(jié)合挖掘AMP的實用性，與傳統(tǒng)的基于實驗的方法相比，NLP驅(qū)動的方法可以在更短的時間內(nèi)獲得較高的目標(biāo)類肽識別成功率。

這種方法還可用于利用大規(guī)模數(shù)據(jù)集對環(huán)境和醫(yī)學(xué)宏基因組學(xué)進(jìn)行基于測序的研究，以發(fā)現(xiàn)部分功能性“暗物質(zhì)”。這種方法的應(yīng)用可以極大地促進(jìn)用于研究和治療的肽制劑的識別和優(yōu)先排序。并且還可用類似的方法挖掘與微生物信號以及調(diào)節(jié)宿主免疫或代謝有關(guān)的其他類型的肽。

參考資料

Ma, Y., Guo, Z., Xia, B. et al. Identification of antimicrobial peptides from the human gut microbiome using deep learning. Nat Biotechnol (2022).

https:///10.1038/s41587-022-01226-0.