2022年9月24日,青島大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院李臻教授團(tuán)隊(duì)在Drug Discovery Today上發(fā)表文章“Deep learning methods for molecular representation and property prediction”。在論文中,作者回顧并總結(jié)了現(xiàn)有的分子表示與性質(zhì)預(yù)測(cè)的深度學(xué)習(xí)方法,并討論了深度學(xué)習(xí)方法在分子表示和性質(zhì)預(yù)測(cè)方面的挑戰(zhàn)和機(jī)遇。 1 摘要 2 介紹 分子性質(zhì)是許多領(lǐng)域的重要因素,包括化學(xué)、藥物發(fā)現(xiàn)和醫(yī)療保健,且與量子力學(xué)、物理化學(xué)、生物物理、生理學(xué)等相關(guān)。計(jì)算機(jī)輔助方法能夠快速預(yù)測(cè)分子性質(zhì),在具體實(shí)驗(yàn)開始前提供感興趣分子的總體情況。這些方法被稱為定量結(jié)構(gòu)-活性關(guān)系(quantitative structure-activity relationship, QSAR)或定量結(jié)構(gòu)-性質(zhì)關(guān)系(quantitative structure-property relationship, QSPR)模型。此外,隨著機(jī)器學(xué)習(xí)方法的發(fā)展,分子性質(zhì)預(yù)測(cè)的準(zhǔn)確性和速度也得到了提高,加速了其他相關(guān)應(yīng)用,如藥物-靶點(diǎn)親和力預(yù)測(cè)和分子合成預(yù)測(cè)。特別是,作為機(jī)器學(xué)習(xí)的一個(gè)重要分支,深度學(xué)習(xí)方法受到了極大的關(guān)注。這種方法可以更精確地發(fā)現(xiàn)分子的結(jié)構(gòu)與性質(zhì)之間的關(guān)系。 圖1 藥物甲磺酸伊馬替尼(imatinib mesylate,化學(xué)式:C30H35N7O4S)的1D、2D和3D表示。(a) 對(duì)于1D表示,圖中展示了多種表示形式,包括SMILES、extended connectivity fingerprint (ECFP)、molecular access system (MACCS) fingerprint,和一些數(shù)學(xué)表示方法。(b) 對(duì)于2D表示,分子圖可以被表示為兩個(gè)矩陣,即鄰接矩陣和特征矩陣。右邊的分子圖像(由RDKit生成)是另一種2D表示形式。(c) 圖中展示了兩種3D表示方法:一個(gè)3D分子圖和一個(gè)3D分子網(wǎng)格表示(由PyMOL生成)。 3 深度學(xué)習(xí)方法 根據(jù)表示分子的形式不同,作者將深度學(xué)習(xí)分為8類:
3.1 基于序列的方法 SMILES是描述分子最直接、最簡(jiǎn)單的方法。它類似于自然語(yǔ)言,其中每個(gè)原子都是句子中的一個(gè)詞。鑒于自然語(yǔ)言處理(natural language processing, NLP)領(lǐng)域的快速發(fā)展,NLP方法可以應(yīng)用于SMILES序列的嵌入。作者接著總結(jié)了研究者開發(fā)的多種基于序列的方法,包括:數(shù)據(jù)增廣方法、卷積神經(jīng)網(wǎng)絡(luò)方法、循環(huán)神經(jīng)網(wǎng)絡(luò)方法、子結(jié)構(gòu)學(xué)習(xí)方法和基于序列的自監(jiān)督學(xué)習(xí)方法等。圖2也展示了基于SMILES的兩種類型的自監(jiān)督學(xué)習(xí)方法。 圖2 基于SMILES的不同類型的自監(jiān)督學(xué)習(xí)(self-supervised learning)方法。(a) 基于transformer(BERT)的雙向編碼表示。SMILES序列被用作輸入,并隨機(jī)mask一些原子。然后訓(xùn)練語(yǔ)言模型來預(yù)測(cè)這些被mask的字符,進(jìn)行表示學(xué)習(xí)。(b) 基于翻譯模型的方法。該模型將輸入的SMILES序列變換為另一種類型的序列。編碼器編碼的隱特征被用作分子表示。 3.2 基于圖的方法 圖是一種更直接的結(jié)構(gòu),可以存儲(chǔ)和表示大多數(shù)結(jié)構(gòu)信息。在圖模型中,原子被表示為節(jié)點(diǎn),化學(xué)鍵被表示為邊,每個(gè)節(jié)點(diǎn)都有自己的特征。在圖數(shù)據(jù)的幫助下,分子內(nèi)的結(jié)構(gòu)信息可使用GCNs提取。GCNs能夠捕獲有關(guān)連接節(jié)點(diǎn)之間關(guān)系的信息。一般來說,GCN有兩種類型:空域卷積和頻譜卷積。前者通過在空域中使用特定的消息傳遞規(guī)則收集相鄰節(jié)點(diǎn)的信息來更新每個(gè)節(jié)點(diǎn)的特征。后者通過對(duì)拉普拉斯矩陣進(jìn)行特征值分解,將圖數(shù)據(jù)轉(zhuǎn)換為譜域提取特征。接著,作者回顧了領(lǐng)域內(nèi)的相關(guān)方法,包括譜域GCN模型、空域GCN模型、基于樹的方法和基于圖的自監(jiān)督學(xué)習(xí)方法等。圖3展示了基于圖的三種不同類型的自監(jiān)督學(xué)習(xí)方法。 圖3 使用圖的不同類型的自監(jiān)督學(xué)習(xí)方法。(a) 對(duì)比自監(jiān)督L:使用數(shù)據(jù)增強(qiáng)方法,如對(duì)正樣本對(duì)的節(jié)點(diǎn)drop、邊drop和子圖替換,而對(duì)負(fù)樣本對(duì)隨機(jī)選擇其他增強(qiáng)圖。(b) 生成自監(jiān)督:通過編碼器-解碼器模型重構(gòu)輸入,以獲取用于表示的隱特征。(c) 預(yù)測(cè)自監(jiān)督:隨機(jī)mask一些節(jié)點(diǎn)或邊,讓模型預(yù)測(cè)結(jié)果;通過這樣做,該模型能夠?qū)W習(xí)到隱特征并生成有效的分子表示。 3.3 基于圖像的方法 深度學(xué)習(xí)方法在圖像處理領(lǐng)域取得了巨大成功,這也為QSAR/QSPR的研究奠定了基礎(chǔ)。更具體地說,分子可以轉(zhuǎn)換成圖像,因此傳統(tǒng)的深度學(xué)習(xí)模型可以用于QSAR/QSPR任務(wù),其中CNN是最廣泛用于分子特征提取的。 3.4 基于3D圖的方法 分子的構(gòu)象通常包含分子的原子3D坐標(biāo),也稱為幾何數(shù)據(jù),可以為分子性質(zhì)預(yù)測(cè)提供額外的空間信息。首先要解決的問題是三維分子晶體數(shù)據(jù)集有限。為了擴(kuò)大基于幾何的方法的應(yīng)用領(lǐng)域,可以基于二維數(shù)據(jù)生成構(gòu)象。RDKit中的MMFF94可用于構(gòu)象生成。此外,哈密頓神經(jīng)網(wǎng)絡(luò)也可以用來預(yù)測(cè)分子構(gòu)象,并將預(yù)測(cè)的三維坐標(biāo)輸入到基于MPNN的分子指紋生成器中用于分子表示。 3.5 基于3D網(wǎng)格的方法 3D網(wǎng)格是另一種使用分子幾何數(shù)據(jù)的表示方法,它將每個(gè)原子放置在一個(gè)或多個(gè)網(wǎng)格中。事實(shí)上,蛋白質(zhì)等大分子可以用3D網(wǎng)格更好地表示,在MPP中仍然表現(xiàn)出良好的性能,特別是在某些量子力學(xué)特性方面。3D CNN是3D網(wǎng)格數(shù)據(jù)的最佳選擇;因此,為3D CNN創(chuàng)建一個(gè)功能更強(qiáng)大、信息更豐富的網(wǎng)格可以提高分子性質(zhì)預(yù)測(cè)的性能。 3.6 基于混合數(shù)據(jù)的方法和集成學(xué)習(xí) 上前文所述的1D、2D和3D表示方法以不同的方式呈現(xiàn)分子,將它們結(jié)合起來可以提供分子的多視圖。作者回顧了結(jié)合多種表示方式的方法,并且總結(jié)了集成多個(gè)模型的集成學(xué)習(xí)方法。 3.7 遷移學(xué)習(xí),多任務(wù)學(xué)習(xí)和元學(xué)習(xí) 實(shí)驗(yàn)數(shù)據(jù)集的不足是MPP中的另一個(gè)問題。作者建議使用遷移學(xué)習(xí)、多任務(wù)學(xué)習(xí)和元學(xué)習(xí)來克服這個(gè)問題。對(duì)于遷移學(xué)習(xí)學(xué)習(xí),模型首先針對(duì)某些輔助任務(wù)在大數(shù)據(jù)集上進(jìn)行訓(xùn)練,從而學(xué)習(xí)分子的一般表示。然后將所學(xué)到的一般表示法用于下游任務(wù)(通常具有有限的樣本),以傳遞先驗(yàn)知識(shí)。多任務(wù)學(xué)習(xí)可以同時(shí)訓(xùn)練所有任務(wù)并共享表示,以提高預(yù)測(cè)的泛化能力。近年來,出現(xiàn)了元學(xué)習(xí)方法來解決少樣本問題,也稱為“學(xué)習(xí)如何學(xué)習(xí)”。在訓(xùn)練過程中,元學(xué)習(xí)將訓(xùn)練數(shù)據(jù)集劃分為不同的元任務(wù),學(xué)習(xí)初始化良好的模型參數(shù),具有很強(qiáng)的泛化能力。通過對(duì)新任務(wù)進(jìn)行少量梯度下降來更新模型,以提高模型的性能。 3.8 分子性質(zhì)預(yù)測(cè)中可解釋的深度學(xué)習(xí)方法 4 分子性質(zhì)預(yù)測(cè)的挑戰(zhàn)和未來的工作
5 總結(jié) 參考資料 Zhen Li, Mingjian Jiang, Shuang Wang, Shugang Zhang, Deep learning methods for molecular representation and property prediction, Drug Discovery Today, 2022, 103373, ISSN 1359-6446, https:///10.1016/j.drudis.2022.103373. |
|