【原】【深度學(xué)習(xí)】MDGen：分子動(dòng)力學(xué)軌跡的生成式建模

GoDesign 2024-10-17 發(fā)布于北京

展開(kāi)全文

——簡(jiǎn)介——

如何高效采樣蛋白質(zhì)的多種結(jié)構(gòu)一直是計(jì)算結(jié)構(gòu)生物學(xué)領(lǐng)域的一大難點(diǎn)。通常此類問(wèn)題通過(guò)分子模擬（包括MC采樣和MD采樣）來(lái)解決，同時(shí)配合各種增強(qiáng)采樣算法提高效率。近年來(lái)，得益于GPU算力的進(jìn)步，各種基于深度學(xué)習(xí)的構(gòu)象生成算法被提出，但大都直接生成離散的構(gòu)象系綜，無(wú)法生成具有時(shí)間順序的構(gòu)象變化軌跡。2024年9月，MIT CSAIL研究所Tommi Jaakkola課題組的Bowen Jing等人開(kāi)發(fā)了基于流匹配（flow matching）的基于關(guān)鍵幀的分子動(dòng)力學(xué)模擬軌跡生成模型MDGen [1]。該模型可以基于給定的單一構(gòu)象生成類似于分子動(dòng)力學(xué)模擬軌跡的具有時(shí)間信息的連續(xù)變化構(gòu)象系綜，同時(shí)也能對(duì)于動(dòng)態(tài)軌跡進(jìn)行結(jié)構(gòu)補(bǔ)全（即inpainting）。

——方法——

MDGen利用3000條三肽和1900多條單鏈蛋白的分子動(dòng)力學(xué)模擬軌跡（各100 ns）進(jìn)行訓(xùn)練，其關(guān)鍵在于對(duì)分子動(dòng)力學(xué)模擬軌跡的特征工程，以便利用神經(jīng)網(wǎng)絡(luò)模型進(jìn)行建模，基本邏輯如下圖1所示。類似于已有的大量蛋白質(zhì)結(jié)構(gòu)深度學(xué)習(xí)模型，MDGen將單個(gè)殘基作為token，但在sequence維度之外增加一個(gè)時(shí)間維度。作者并沒(méi)有直接使用蛋白質(zhì)SE(3)模型常用的residue frame進(jìn)行殘基建模，而是使用殘基相對(duì)于關(guān)鍵幀的位移和旋轉(zhuǎn)信息進(jìn)行建模，具體的tokenize方法如下所示：

在給定K個(gè)關(guān)鍵幀的情況下，每個(gè)殘基使用7K+14維的特征向量表示。同時(shí)，作者使用了目前生成模型領(lǐng)域較為常用的流匹配模型，具體的網(wǎng)絡(luò)架構(gòu)使用了在時(shí)序深度學(xué)習(xí)領(lǐng)域表現(xiàn)較好的Scalable Interpolant Transformer（SiT）網(wǎng)絡(luò)架構(gòu)。考慮到MD軌跡中的幀數(shù)可能很大（如100 ns的軌跡按10 ps一幀進(jìn)行保存，則會(huì)產(chǎn)生10,000幀），作者將SiT架構(gòu)中的時(shí)序attention部分更換為Hyena架構(gòu)，用于以更低計(jì)算復(fù)雜度代替?zhèn)鹘y(tǒng)的Transformer。

作者將訓(xùn)練好的模型應(yīng)用在了4個(gè)下游任務(wù)上：前向模擬（Forward Simulation）、路徑預(yù)測(cè)（Interpolation）、軌跡插幀（Upsampling）、動(dòng)態(tài)修補(bǔ)（Inpainting）。其具體原理如圖1所示：

圖1. MDGen的應(yīng)用場(chǎng)景（左）和實(shí)現(xiàn)方法（右）

——結(jié)果——

作者隨后對(duì)MDGen的四種下游任務(wù)進(jìn)行了測(cè)試。對(duì)于Forward Simulation任務(wù)，作者使用第一幀作為參考，訓(xùn)練模型向后生成10 ns的軌跡。在生成時(shí)，模型對(duì)每個(gè)肽段迭代生成100 ns的軌跡，并和真實(shí)軌跡進(jìn)行比較。作者比較的標(biāo)準(zhǔn)主要有：（1）生成軌跡與MD軌跡的結(jié)構(gòu)分布是否匹配，（2）是否能捕捉動(dòng)態(tài)內(nèi)容，（3）是否能在更短的時(shí)間內(nèi)遍歷采樣空間。作者采用對(duì)扭轉(zhuǎn)角和TICA的降維分量計(jì)算Jensen-Shannon散度（JSD）的方法來(lái)衡量結(jié)構(gòu)分布的匹配程度，結(jié)果如圖2所示：

圖 2. Forward Simulation的采樣結(jié)果。（A）MD（橙）與模型生成（藍(lán)）的6種扭轉(zhuǎn)角的分布。（B、C）TICA降維得到的自由能景觀分布。（D）通過(guò)MSM構(gòu)建的亞穩(wěn)態(tài)相關(guān)性。（E）沿TICA的最慢獨(dú)立分量的實(shí)際去相關(guān)時(shí)間。（F）扭轉(zhuǎn)角的去相關(guān)時(shí)間相關(guān)性（藍(lán)），不同亞穩(wěn)態(tài)對(duì)之間的通量矩陣相關(guān)性（橙）。（G）MD和模型生成的丙氨酸四肽構(gòu)象對(duì)比。

作者通過(guò)馬爾可夫狀態(tài)模型（MSM）分別得到了真實(shí)軌跡和生成軌跡的亞穩(wěn)態(tài)分布，并發(fā)現(xiàn)模型很好地捕捉到了狀態(tài)的相對(duì)排序，且很少遺漏重要狀態(tài)或?qū)ο∮袪顟B(tài)賦予較高的權(quán)重。此外，通過(guò)比較軌跡中每個(gè)扭轉(zhuǎn)角的去相關(guān)時(shí)間，可以發(fā)現(xiàn)生成軌跡和MD軌跡具有較高的一致性（圖2F）。作者認(rèn)為這一結(jié)果說(shuō)明了模型能夠區(qū)分緩慢和快速弛豫的扭轉(zhuǎn)勢(shì)壘。最后，作者表明模型能夠在約60秒的GPU時(shí)間內(nèi)生成等效于100 ns的軌跡，而MD模擬則需要約3小時(shí)的GPU時(shí)間，強(qiáng)調(diào)了模型生成相比于MD模擬的速度優(yōu)勢(shì)。

對(duì)于給定前后構(gòu)象的變構(gòu)過(guò)程采樣任務(wù)（interpolation / transition path sampling），作者在訓(xùn)練時(shí)給定前后構(gòu)象為關(guān)鍵幀，并使模型產(chǎn)生中間的1 ns構(gòu)象。在測(cè)試時(shí)，作者挑選軌跡中兩個(gè)肽段分離最遠(yuǎn)的狀態(tài)，并產(chǎn)生1000個(gè)中間構(gòu)象。最終的評(píng)估結(jié)果如圖3所示：

圖 3. interpolation的測(cè)試結(jié)果

作者對(duì)生成的軌跡和MD軌跡分別構(gòu)建MSM亞穩(wěn)態(tài)，并將100 ns的軌跡MSM亞穩(wěn)態(tài)結(jié)果作為參考標(biāo)準(zhǔn)。如圖3所示，生成的路徑比從任何少于100 ns的重復(fù)MD MSM中采樣的路徑具有更高的可能性，而100 ns正是參考MD模擬的長(zhǎng)度。此外，MDGen的路徑集合在訪問(wèn)狀態(tài)的分布上與參考MD MSM的JSD表現(xiàn)最佳，并且具有最高比例的有效非零概率路徑。

對(duì)于軌跡插幀（upsampling）任務(wù)，作者將10 ps間隔的軌跡插幀至100 fs。通過(guò)比較扭轉(zhuǎn)角的自相關(guān)函數(shù)：

的分布（該函數(shù)自變量為間隔時(shí)間Δt），可以評(píng)估的模型性能，具體如圖4所示：

圖 4. 左圖：扭轉(zhuǎn)角的自相關(guān)函數(shù)（直線代表100 fs-timestep MD，小點(diǎn)代表100 fs-timestep生成結(jié)果，大點(diǎn)代表下采樣的10 ps-timestep結(jié)果）。右圖：自相關(guān)函數(shù)對(duì)對(duì)數(shù)時(shí)間尺度的負(fù)導(dǎo)數(shù)。

作者隨后探討了基于動(dòng)力學(xué)軌跡的補(bǔ)全任務(wù)，即在軌跡中遮去一部分結(jié)構(gòu)，讓模型進(jìn)行修補(bǔ)（inpainting）。不同于常規(guī)的蛋白設(shè)計(jì)，作者評(píng)估了針對(duì)四肽（遮去中間兩個(gè)殘基，保留末端殘基）的toy model，在給定觀測(cè)到的殘基構(gòu)象轉(zhuǎn)變的情況下，設(shè)計(jì)在相應(yīng)馬爾可夫狀態(tài)的肽段殘基類型，結(jié)果如表1所示：

表 1. MDGen和baseline模型在序列恢復(fù)率上的比較

此外，作者展示了MDGen在較大蛋白的系綜生成任務(wù)上的效果，并和已有的系綜生成模型AlphaFlow進(jìn)行比較。在此任務(wù)中，作者使用ATLAS數(shù)據(jù)集的軌跡進(jìn)行針對(duì)單鏈蛋白的訓(xùn)練。此時(shí)由于殘基數(shù)目大大增加，作者生成250幀、時(shí)間步為400 ps的樣本，使單個(gè)樣本能夠模擬100 ns的ATLAS參考軌跡，具體生成性能如表2：

表 2. MDGen在單鏈蛋白上的結(jié)構(gòu)系綜生成性能

可見(jiàn)，MDGen精確度介于AlphaFlow和MSA下采樣（MSA subsampling）之間，但每生成一個(gè)結(jié)構(gòu)的速度比二者快幾個(gè)數(shù)量級(jí)。圖5是一個(gè)案例蛋白的MD軌跡系綜與MDGen生成系綜的可視化結(jié)果，其中，相似的RMSF圖像也說(shuō)明MDGen除了能較好的復(fù)現(xiàn)結(jié)構(gòu)，也能較好的復(fù)現(xiàn)結(jié)構(gòu)的某些動(dòng)力學(xué)性質(zhì)。

圖 5. （上）MDGen生成的6UOF_A蛋白和MD模擬的系綜（下）RMSF數(shù)據(jù)

——小結(jié)——

相比已有的蛋白構(gòu)象系綜生成模型，MDGen能夠直接生成MD軌跡。但就目前而言，MDGen只能對(duì)短軌跡的小肽進(jìn)行生成，同時(shí)僅對(duì)扭轉(zhuǎn)角、降維數(shù)據(jù)等評(píng)價(jià)指標(biāo)進(jìn)行了分析，尚未提到生成的構(gòu)象在能量上是否合理，是否存在一些原子碰撞等。同時(shí)，作者在文中提到，MDGen受限于關(guān)鍵幀，無(wú)法直接從序列開(kāi)始采樣，且依賴關(guān)鍵幀的準(zhǔn)確度。

筆者認(rèn)為MDGen的主要貢獻(xiàn)如下：1. 將類似于視頻生成的訓(xùn)練流程和網(wǎng)絡(luò)架構(gòu)思路引入到MD軌跡中，并很好的和結(jié)構(gòu)深度學(xué)習(xí)結(jié)合起來(lái)。2. 提出了4種下游任務(wù)，啟發(fā)了這類模型的應(yīng)用前景。3. 此類任務(wù)此前缺乏很好的評(píng)測(cè)流程，作者提出的很多評(píng)測(cè)項(xiàng)目都具有相當(dāng)程度的創(chuàng)新性與合理性。

參考文獻(xiàn)：

[1] Jing B, St?rk H, Jaakkola T, et al. Generative Modeling of Molecular Dynamics Trajectories[J]. arXiv preprint arXiv:2409.17808, 2024.

作者：穆俊羲

審稿：王宇哲

編輯：王宇哲

GoDesign

ID：Molecular_Design_Lab