研究背景 藥物相互作用(DDI)是指病人在同時服用兩種或兩種以上的藥物時,一種藥物的藥效受到另一種藥物、食物或者環(huán)境的影響而發(fā)生改變,從而導(dǎo)致藥效下降,或是藥效增強導(dǎo)致明顯毒副作用。例如,乙酰水楊酸(俗稱:阿司匹林)本身具有抗炎解熱、抑制血小板聚集、預(yù)防血栓和心肌梗塞的作用,但是當(dāng)它與1-芐基咪唑相結(jié)合時會使高血壓的風(fēng)險增加。所以,對于藥物相互作用的預(yù)測研究是有重要意義的,不僅能夠減少非預(yù)期藥物相互作用的情況,還能降低藥物開發(fā)成本,以及優(yōu)化藥物設(shè)計過程。 目前的DDI預(yù)測模型,主要基于DrugBank、KEGG、PharmGKB等數(shù)據(jù),使用基于特征的、基于相似性度量的方法,取得了一定效果,但這些預(yù)測模型存在以下局限性:(1)在DDI預(yù)測中缺少對藥物表示形式的具體設(shè)計(2)模型僅僅是依賴有標(biāo)簽數(shù)據(jù)進(jìn)行預(yù)測,不能很好地將模型泛化到新藥或者DDI中(3)模型的參數(shù)多,難以提供可解釋性。 針對這些局限性,近期哈佛大學(xué)的Kexin Huang等人提出了CASTER(ChemicAl SubstrucTurE Representation)模型,根據(jù)給定藥物化學(xué)結(jié)構(gòu)預(yù)測DDI,并且能對預(yù)測提供可解釋性。 方法 CASTER通過三個模塊很好地緩解之前計算模型的局限性:(1)基于DDI機制的序列模式挖掘模塊,有效地描述藥物的功能子結(jié)構(gòu)(2)自編碼模塊 ,利用標(biāo)簽數(shù)據(jù)和無標(biāo)簽的化學(xué)結(jié)構(gòu)數(shù)據(jù)來提高模型的準(zhǔn)確性和通用性(3)字典學(xué)習(xí)模塊,測量每個輸入子結(jié)構(gòu)與DDI結(jié)果的相關(guān)性的一組系數(shù)來解釋預(yù)測 。 序列挖掘模塊(SPM, sequential pattern mining module) 將藥物的SMILES字符串按照層次分解為子結(jié)構(gòu)、更小的子結(jié)構(gòu)和原子。具體算法如下: 根據(jù)SPM算法生成離散的頻繁子結(jié)構(gòu)的集合,將用于推導(dǎo)所有有標(biāo)簽和無標(biāo)簽數(shù)據(jù)集中藥物對的功能表示(Functional Representations )。 自編碼模塊(auto-encoding module) Encoder使用神經(jīng)網(wǎng)絡(luò)(Neural Network)將藥物-藥物、藥物-食物的功能表示成潛在特征嵌入z,映射到隱空間中。 Decoder根據(jù)潛在特征嵌入,使用另一個神經(jīng)網(wǎng)絡(luò)(NN)重構(gòu)功能表示。 重構(gòu)損失(Reconstruction Loss)只需要用無標(biāo)簽的藥物對作為訓(xùn)練數(shù)據(jù)進(jìn)行優(yōu)化,能夠利用更多的無標(biāo)簽藥物數(shù)據(jù)源來提取更多相關(guān)的特征。 字典學(xué)習(xí)模塊(dictionary learning module) 可以通過該模塊了解CASTER如何進(jìn)行預(yù)測,并確定哪些子結(jié)構(gòu)可能導(dǎo)致藥物間的交互。 深度字典表示(Deep Dictionary Representation) 深度字典表示是將每一個頻繁子結(jié)構(gòu)使用single-hot向量生成功能表示,再通過上述的encoder生成潛在特征向量,最后生成矩陣形式B。 將生成的藥物對的潛在特征向量z投影到由span(B)定義的子空間,將投影系數(shù)r通過損失函數(shù)進(jìn)行計算: 使用閉式解進(jìn)行解析求解,找到產(chǎn)生最小投影損失的有意義的系數(shù)r: 最后得到的投影系數(shù)作為對應(yīng)藥物對的字典表示。 計算藥物對的概率分?jǐn)?shù) 基于投影系數(shù)r來計算藥物對相互作用的分?jǐn)?shù),評估藥物間交互的可能性,并通過交叉熵?fù)p失函數(shù)進(jìn)行優(yōu)化。 訓(xùn)練過程 使用無標(biāo)簽的藥物-藥物和藥物-食物對來對自編碼模塊和字典學(xué)習(xí)模塊進(jìn)行預(yù)訓(xùn)練,編碼器可以學(xué)習(xí)任意化學(xué)結(jié)構(gòu)的最有效的表示。 使用有標(biāo)簽的數(shù)據(jù)集微調(diào)DDI預(yù)測的整個學(xué)習(xí)流水線。 可解釋性預(yù)測 投影系數(shù)r用來評估基特征向量b和預(yù)測結(jié)果之間的相關(guān)性,而每個基向量b和頻繁的子結(jié)構(gòu)C有關(guān)聯(lián), r系數(shù)越大表示在DDI預(yù)測中對應(yīng)的功能子結(jié)構(gòu)對藥物交互起作用,從而可以解釋CASTER預(yù)測的合理性。 實驗 數(shù)據(jù)集和評價指標(biāo) 使用DrugBank數(shù)據(jù)庫包括1850已批準(zhǔn)藥物,提取221,523有標(biāo)簽 DDI;使用BIOSNAP數(shù)據(jù)庫包括1322已批準(zhǔn)藥物,提取41520 有標(biāo)簽DDI;隨機生成220,000藥物-藥物對和220,000藥物-食物對作為預(yù)訓(xùn)練的無標(biāo)簽數(shù)據(jù)。使用ROC-AUC、PR-AUC、F1 Score作為評價指標(biāo)。 DDI預(yù)測中CASTER實現(xiàn)更高的精度 作者將CASTER模型與5種經(jīng)典的端到端算法進(jìn)行比較,包括有:LogisticRegression(LR) 、Nat.Prot(Vilar et al. 2014) 、Mol2Vec: (Jaeger, Fulle, and Turk 2018)、MolVAE(Go?mez-Bombarelli et al. 2018) 、DeepDDI(Ryu, Kim, and Lee 2018) ,實驗證明CASTER能夠捕捉重要的交互機制。實驗結(jié)果如下圖: CASTER利用無標(biāo)簽數(shù)據(jù)可以成功提高預(yù)測性能 使用少量的標(biāo)簽數(shù)據(jù),調(diào)整無標(biāo)簽數(shù)據(jù)的數(shù)量進(jìn)行實驗,實驗證明隨著無標(biāo)簽數(shù)據(jù)的增加,CASTER能夠利用無標(biāo)簽數(shù)據(jù)中的更多信息,并不斷提高其對兩個數(shù)據(jù)集的DDI預(yù)測的準(zhǔn)確性。實驗結(jié)果如下圖: CASRTER能夠生成可解釋性預(yù)測 以西地那非(Sildenafil)和其他硝酸鹽類藥物(如IM)為例,二者同時服用會引起血壓下降,從而導(dǎo)致心臟病發(fā)作。實驗測試CASTER在預(yù)測二者相互作用時是否將高系數(shù)分配給硝酸鹽組。 實驗結(jié)果很明顯顯示出由CASTER識別的21種功能子結(jié)構(gòu)中硝酸鹽結(jié)構(gòu)系數(shù)(8.25)最高,從而對CASTER預(yù)測結(jié)果中可能導(dǎo)致DDI的子結(jié)構(gòu)提出合理線索。 結(jié)論 本文在藥物相互作用的化學(xué)機制的啟發(fā)下,提出了一個新的DDI預(yù)測計算框架CASTER,它是一個端到端的字典學(xué)習(xí)框架,包含了DDI預(yù)測的具體表示。證明了比先前使用通用藥物表示的方法能夠提供更準(zhǔn)確并且具有可解釋的DDI預(yù)測。 參考資料
DrugAI ( 掃描下方二維碼訂閱獲取最新消息?。?/span> |
|