一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

Drug Discov Today | 分子表示與性質(zhì)預(yù)測(cè)中的深度學(xué)習(xí)方法

 智藥邦 2022-10-07 發(fā)布于上海

2022年9月24日,青島大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院李臻教授團(tuán)隊(duì)在Drug Discovery Today上發(fā)表文章“Deep learning methods for molecular representation and property prediction”。在論文中,作者回顧并總結(jié)了現(xiàn)有的分子表示與性質(zhì)預(yù)測(cè)的深度學(xué)習(xí)方法,并討論了深度學(xué)習(xí)方法在分子表示和性質(zhì)預(yù)測(cè)方面的挑戰(zhàn)和機(jī)遇。



1 摘要

隨著人工智能方法的進(jìn)步,計(jì)算機(jī)輔助藥物設(shè)計(jì)(CADD)近年來發(fā)展迅速。有效的分子表示和準(zhǔn)確的性質(zhì)預(yù)測(cè)是CADD工作流程中的關(guān)鍵任務(wù)。在這篇綜述中,作者總結(jié)了當(dāng)前深度學(xué)習(xí)(deep learning)方法在分子表示和性質(zhì)預(yù)測(cè)方面的應(yīng)用。作者根據(jù)分子數(shù)據(jù)的格式(1D、2D和3D)對(duì)深度學(xué)習(xí)方法進(jìn)行了分類。此外,文中還討論了一些常見的深度學(xué)習(xí)模型,如集成學(xué)習(xí)和遷移學(xué)習(xí),并分析了這些模型的可解釋性方法。作者還著重研究了深度學(xué)習(xí)方法在分子表示和性質(zhì)預(yù)測(cè)方面的挑戰(zhàn)和機(jī)遇。

2 介紹

分子性質(zhì)是許多領(lǐng)域的重要因素,包括化學(xué)、藥物發(fā)現(xiàn)和醫(yī)療保健,且與量子力學(xué)、物理化學(xué)、生物物理、生理學(xué)等相關(guān)。計(jì)算機(jī)輔助方法能夠快速預(yù)測(cè)分子性質(zhì),在具體實(shí)驗(yàn)開始前提供感興趣分子的總體情況。這些方法被稱為定量結(jié)構(gòu)-活性關(guān)系(quantitative structure-activity relationship, QSAR)或定量結(jié)構(gòu)-性質(zhì)關(guān)系(quantitative structure-property relationship, QSPR)模型。此外,隨著機(jī)器學(xué)習(xí)方法的發(fā)展,分子性質(zhì)預(yù)測(cè)的準(zhǔn)確性和速度也得到了提高,加速了其他相關(guān)應(yīng)用,如藥物-靶點(diǎn)親和力預(yù)測(cè)和分子合成預(yù)測(cè)。特別是,作為機(jī)器學(xué)習(xí)的一個(gè)重要分支,深度學(xué)習(xí)方法受到了極大的關(guān)注。這種方法可以更精確地發(fā)現(xiàn)分子的結(jié)構(gòu)與性質(zhì)之間的關(guān)系。

要研究分子性質(zhì)的第一個(gè)問題是,如何表示一個(gè)分子。作者將分子表示方法劃分為3類,1維表示、2維表示和3維表示。如圖1所示,作者展示了藥物imatinib mesylate的三種表示形式。

圖1 藥物甲磺酸伊馬替尼(imatinib mesylate,化學(xué)式:C30H35N7O4S)的1D、2D和3D表示。(a) 對(duì)于1D表示,圖中展示了多種表示形式,包括SMILES、extended connectivity fingerprint (ECFP)、molecular access system (MACCS) fingerprint,和一些數(shù)學(xué)表示方法。(b) 對(duì)于2D表示,分子圖可以被表示為兩個(gè)矩陣,即鄰接矩陣和特征矩陣。右邊的分子圖像(由RDKit生成)是另一種2D表示形式。(c) 圖中展示了兩種3D表示方法:一個(gè)3D分子圖和一個(gè)3D分子網(wǎng)格表示(由PyMOL生成)。


3 深度學(xué)習(xí)方法

根據(jù)表示分子的形式不同,作者將深度學(xué)習(xí)分為8類:

  • 基于序列的方法

  • 基于圖(graph)的方法
  • 基于圖像(image)的方法
  • 基于3D圖(3D graph)的方法
  • 基于3D網(wǎng)格(3D grid)的方法
  • 基于混合數(shù)據(jù)的方法和集成學(xué)習(xí)
  • 遷移學(xué)習(xí)、多任務(wù)學(xué)習(xí)和元學(xué)習(xí)
  • 分子性質(zhì)預(yù)測(cè)中可解釋的深度學(xué)習(xí)方法
下面分別介紹這些方法。

3.1 基于序列的方法

SMILES是描述分子最直接、最簡(jiǎn)單的方法。它類似于自然語(yǔ)言,其中每個(gè)原子都是句子中的一個(gè)詞。鑒于自然語(yǔ)言處理(natural language processing, NLP)領(lǐng)域的快速發(fā)展,NLP方法可以應(yīng)用于SMILES序列的嵌入。作者接著總結(jié)了研究者開發(fā)的多種基于序列的方法,包括:數(shù)據(jù)增廣方法、卷積神經(jīng)網(wǎng)絡(luò)方法、循環(huán)神經(jīng)網(wǎng)絡(luò)方法、子結(jié)構(gòu)學(xué)習(xí)方法和基于序列的自監(jiān)督學(xué)習(xí)方法等。圖2也展示了基于SMILES的兩種類型的自監(jiān)督學(xué)習(xí)方法。

圖2 基于SMILES的不同類型的自監(jiān)督學(xué)習(xí)(self-supervised learning)方法。(a) 基于transformer(BERT)的雙向編碼表示。SMILES序列被用作輸入,并隨機(jī)mask一些原子。然后訓(xùn)練語(yǔ)言模型來預(yù)測(cè)這些被mask的字符,進(jìn)行表示學(xué)習(xí)。(b)  基于翻譯模型的方法。該模型將輸入的SMILES序列變換為另一種類型的序列。編碼器編碼的隱特征被用作分子表示。

3.2 基于圖的方法

圖是一種更直接的結(jié)構(gòu),可以存儲(chǔ)和表示大多數(shù)結(jié)構(gòu)信息。在圖模型中,原子被表示為節(jié)點(diǎn),化學(xué)鍵被表示為邊,每個(gè)節(jié)點(diǎn)都有自己的特征。在圖數(shù)據(jù)的幫助下,分子內(nèi)的結(jié)構(gòu)信息可使用GCNs提取。GCNs能夠捕獲有關(guān)連接節(jié)點(diǎn)之間關(guān)系的信息。一般來說,GCN有兩種類型:空域卷積和頻譜卷積。前者通過在空域中使用特定的消息傳遞規(guī)則收集相鄰節(jié)點(diǎn)的信息來更新每個(gè)節(jié)點(diǎn)的特征。后者通過對(duì)拉普拉斯矩陣進(jìn)行特征值分解,將圖數(shù)據(jù)轉(zhuǎn)換為譜域提取特征。接著,作者回顧了領(lǐng)域內(nèi)的相關(guān)方法,包括譜域GCN模型、空域GCN模型、基于樹的方法和基于圖的自監(jiān)督學(xué)習(xí)方法等。圖3展示了基于圖的三種不同類型的自監(jiān)督學(xué)習(xí)方法。

圖3 使用圖的不同類型的自監(jiān)督學(xué)習(xí)方法。(a) 對(duì)比自監(jiān)督L:使用數(shù)據(jù)增強(qiáng)方法,如對(duì)正樣本對(duì)的節(jié)點(diǎn)drop、邊drop和子圖替換,而對(duì)負(fù)樣本對(duì)隨機(jī)選擇其他增強(qiáng)圖。(b) 生成自監(jiān)督:通過編碼器-解碼器模型重構(gòu)輸入,以獲取用于表示的隱特征。(c) 預(yù)測(cè)自監(jiān)督:隨機(jī)mask一些節(jié)點(diǎn)或邊,讓模型預(yù)測(cè)結(jié)果;通過這樣做,該模型能夠?qū)W習(xí)到隱特征并生成有效的分子表示。

3.3 基于圖像的方法

深度學(xué)習(xí)方法在圖像處理領(lǐng)域取得了巨大成功,這也為QSAR/QSPR的研究奠定了基礎(chǔ)。更具體地說,分子可以轉(zhuǎn)換成圖像,因此傳統(tǒng)的深度學(xué)習(xí)模型可以用于QSAR/QSPR任務(wù),其中CNN是最廣泛用于分子特征提取的。

對(duì)于基于圖像生成的方法,最簡(jiǎn)單的方法是直接使用分子圖像,其可以通過RDKit和Open Babel等軟件進(jìn)行轉(zhuǎn)換。然而,這種類型的圖像引入了一個(gè)很大的空白區(qū)域,沒有有效的信息。此外,尺度敏感性是另一個(gè)問題,因?yàn)樗蟹肿佣急晦D(zhuǎn)換成相同大小的圖像。由于整個(gè)分子圖像的固定大小,相同原子/結(jié)構(gòu)的大小在不同的分子中是振動(dòng)的。作者回顧了相關(guān)試圖避免這個(gè)問題的圖像生成方法。

3.4 基于3D圖的方法

分子的構(gòu)象通常包含分子的原子3D坐標(biāo),也稱為幾何數(shù)據(jù),可以為分子性質(zhì)預(yù)測(cè)提供額外的空間信息。首先要解決的問題是三維分子晶體數(shù)據(jù)集有限。為了擴(kuò)大基于幾何的方法的應(yīng)用領(lǐng)域,可以基于二維數(shù)據(jù)生成構(gòu)象。RDKit中的MMFF94可用于構(gòu)象生成。此外,哈密頓神經(jīng)網(wǎng)絡(luò)也可以用來預(yù)測(cè)分子構(gòu)象,并將預(yù)測(cè)的三維坐標(biāo)輸入到基于MPNN的分子指紋生成器中用于分子表示。

3.5 基于3D網(wǎng)格的方法

3D網(wǎng)格是另一種使用分子幾何數(shù)據(jù)的表示方法,它將每個(gè)原子放置在一個(gè)或多個(gè)網(wǎng)格中。事實(shí)上,蛋白質(zhì)等大分子可以用3D網(wǎng)格更好地表示,在MPP中仍然表現(xiàn)出良好的性能,特別是在某些量子力學(xué)特性方面。3D CNN是3D網(wǎng)格數(shù)據(jù)的最佳選擇;因此,為3D CNN創(chuàng)建一個(gè)功能更強(qiáng)大、信息更豐富的網(wǎng)格可以提高分子性質(zhì)預(yù)測(cè)的性能。

3.6 基于混合數(shù)據(jù)的方法和集成學(xué)習(xí)

上前文所述的1D、2D和3D表示方法以不同的方式呈現(xiàn)分子,將它們結(jié)合起來可以提供分子的多視圖。作者回顧了結(jié)合多種表示方式的方法,并且總結(jié)了集成多個(gè)模型的集成學(xué)習(xí)方法。

3.7 遷移學(xué)習(xí),多任務(wù)學(xué)習(xí)和元學(xué)習(xí)

實(shí)驗(yàn)數(shù)據(jù)集的不足是MPP中的另一個(gè)問題。作者建議使用遷移學(xué)習(xí)、多任務(wù)學(xué)習(xí)和元學(xué)習(xí)來克服這個(gè)問題。對(duì)于遷移學(xué)習(xí)學(xué)習(xí),模型首先針對(duì)某些輔助任務(wù)在大數(shù)據(jù)集上進(jìn)行訓(xùn)練,從而學(xué)習(xí)分子的一般表示。然后將所學(xué)到的一般表示法用于下游任務(wù)(通常具有有限的樣本),以傳遞先驗(yàn)知識(shí)。多任務(wù)學(xué)習(xí)可以同時(shí)訓(xùn)練所有任務(wù)并共享表示,以提高預(yù)測(cè)的泛化能力。近年來,出現(xiàn)了元學(xué)習(xí)方法來解決少樣本問題,也稱為“學(xué)習(xí)如何學(xué)習(xí)”。在訓(xùn)練過程中,元學(xué)習(xí)將訓(xùn)練數(shù)據(jù)集劃分為不同的元任務(wù),學(xué)習(xí)初始化良好的模型參數(shù),具有很強(qiáng)的泛化能力。通過對(duì)新任務(wù)進(jìn)行少量梯度下降來更新模型,以提高模型的性能。

3.8 分子性質(zhì)預(yù)測(cè)中可解釋的深度學(xué)習(xí)方法

深度學(xué)習(xí)最有爭(zhēng)議的領(lǐng)域是其可解釋性。可解釋的深度學(xué)習(xí)方法分為兩類:被動(dòng)和主動(dòng)。被動(dòng)方法使用深度學(xué)習(xí)模型中的參數(shù)進(jìn)行解釋,而主動(dòng)方法改變訓(xùn)練過程以提高模型的可解釋性。

4 分子性質(zhì)預(yù)測(cè)的挑戰(zhàn)和未來的工作

作者還討論了五方面分子性質(zhì)預(yù)測(cè)的挑戰(zhàn)或未來的工作,包括:
  • 3D數(shù)據(jù)上的自監(jiān)督學(xué)習(xí)方法

  • 使用經(jīng)驗(yàn)的圖卷積方法

  • 1D、2D和3D數(shù)據(jù)融合和選擇方法

  • 元學(xué)習(xí)

  • 分子性質(zhì)預(yù)測(cè)中深度學(xué)習(xí)模型的可解釋性


5 總結(jié)

在這篇綜述中,作者綜述了多種類型分子數(shù)據(jù)的深度學(xué)習(xí)方法以及新興的方法,包括遷移學(xué)習(xí)、元學(xué)習(xí)等。此外,作者還討論了深度學(xué)習(xí)模型中分子的可解釋性方法。使用深度學(xué)習(xí)方法在藥物發(fā)現(xiàn)方面取得了重大進(jìn)展。然而,提高分子表示和性質(zhì)預(yù)測(cè)的性能、魯棒性和可解釋性仍然面臨著更多挑戰(zhàn)。

參考資料

Zhen Li, Mingjian Jiang, Shuang Wang, Shugang Zhang, Deep learning methods for molecular representation and property prediction, Drug Discovery Today, 2022, 103373, ISSN 1359-6446, https:///10.1016/j.drudis.2022.103373.

    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章

    中文字幕有码视频熟女| 国产视频一区二区三区四区| 黄片在线观看一区二区三区| 久久久精品日韩欧美丰满| 尤物久久91欧美人禽亚洲| 一区二区三区日韩在线| 日本东京热加勒比一区二区| 日本午夜免费福利视频 | 少妇人妻精品一区二区三区| 久久大香蕉一区二区三区| 国产一区麻豆水好多高潮| 成人亚洲国产精品一区不卡 | 欧美野外在线刺激在线观看| 在线观看视频日韩成人| 国产欧美日韩在线精品一二区| 久久国产精品亚州精品毛片| 东京热男人的天堂一二三区| 亚洲女同一区二区另类| 亚洲国产色婷婷久久精品| 日本人妻精品中文字幕不卡乱码 | 国产大屁股喷水在线观看视频 | 正在播放国产又粗又长| 国产超碰在线观看免费| 日本人妻的诱惑在线观看| 日韩综合国产欧美一区| 欧美日韩精品久久亚洲区熟妇人| 丰满人妻少妇精品一区二区三区| 亚洲第一区二区三区女厕偷拍| 日本欧美一区二区三区在线播| 国产av熟女一区二区三区蜜桃| 日本女人亚洲国产性高潮视频| 香蕉尹人视频在线精品| 真实国产乱子伦对白视频不卡| 日本黄色录像韩国黄色录像| 国产精品福利一二三区| 精品日韩av一区二区三区| 欧美亚洲91在线视频| 中文字幕中文字幕一区二区| 国产又粗又长又爽又猛的视频| 免费福利午夜在线观看| 精品少妇一区二区三区四区|