蘭州大學(xué):云計算為科研加速 基于IaaS的JPPF云計算藥物篩選平臺充分利用了不同架構(gòu)和不同操作系統(tǒng)的云計算資源來進(jìn)行藥物分子的虛擬篩選,大大縮短了藥物篩選的進(jìn)程,節(jié)省了平臺構(gòu)建成本,為利用云計算技術(shù)來加快新藥的研發(fā)提供了一種新的思路。 虛擬藥物篩選和計算機 計算機輔助藥物設(shè)計在高性能計算的帶動下有了突飛猛進(jìn)的發(fā)展。它的應(yīng)用縮短了藥物研究與開發(fā)的進(jìn)程,提高了藥物開發(fā)的效率。目前,在藥物研究領(lǐng)域中對于新藥的發(fā)現(xiàn)工作主要使用虛擬篩選方法。通過計算機的模擬來預(yù)測藥物與受體生物大分子之間的作用關(guān)系,計算受體與配體的相互作用,從而設(shè)計出優(yōu)化先導(dǎo)化合物的方法,最終可以篩選出在某些疾病中起到關(guān)鍵作用的蛋白靶點的抑制劑,這種抑制劑對研發(fā)這種疾病的藥物有著非常重要的作用。 新藥研制的關(guān)鍵之一是從大量的化合物樣品庫中發(fā)現(xiàn)有藥理活性的化合物,其工作量極大,一般情況下通過常規(guī)藥物篩選的命中率僅為0.01%,效率非常有限。目前由美國國家生物技術(shù)信息中心維護(hù)的有機小分子生物活性數(shù)據(jù)庫Pubchem已經(jīng)收錄了大約6300多萬化合物,同時ZINC藥物數(shù)據(jù)庫上可以購買的藥物分子已經(jīng)達(dá)到了3500多萬,而且每年的藥物分子數(shù)量還在不斷的增加。面對待處理測試的近億數(shù)目的藥物,如果僅僅通過生物測試實驗進(jìn)行盲篩的話,需要耗費巨大的人力和財力,這對于一般的實驗室和研究所來說是很難實現(xiàn)的。 為了提高篩選效率和命中率,人們開發(fā)了利用高性能計算機進(jìn)行虛擬藥物篩選這一新的途徑。通過高性能計算對上百上千萬分子進(jìn)行模擬、預(yù)測藥物與受體生物大分子之間的作用關(guān)系,模擬和計算受體與配體的相互作用,設(shè)計優(yōu)化先導(dǎo)化合物的方法,最終可以篩選出在某些疾病中起到關(guān)鍵作用的蛋白靶點的抑制劑,大大提高了篩選命中率。據(jù)國際上公布數(shù)據(jù)顯示,基于高性能計算的藥物篩選命中率為2%~24%,是常規(guī)藥物篩選命中率的上百倍甚至上千倍,從而極大地降低了新藥研制周期和成本。 虛擬篩選是一種計算密集型應(yīng)用,計算諸如靜電力和范德華力等非綁定交互作用的時間占整個過程的絕大部分,需要大量的CPU參與計算并且耗費大量的計算時間。如果要篩選的藥物數(shù)量增加就需要更多的計算資源。 網(wǎng)格技術(shù)一直是藥物篩選應(yīng)用最廣的技術(shù),也具有很大的潛力,但是它需要先進(jìn)的架構(gòu),如智能的服務(wù)器、快速的連接;而且,為了最大化利用共享的資源和架構(gòu)還需要使用高效的工具、軟件和技術(shù)來管理整個網(wǎng)格。這些技術(shù)的集成、整合成本是非常高的。而且網(wǎng)格技術(shù)嚴(yán)重依賴分散的數(shù)據(jù)管理。一些軟件的定義不是很明確,有些應(yīng)用必須修改才能以適應(yīng)網(wǎng)格的使用,尤其是異構(gòu)網(wǎng)格。另外,其性能也是研究者一直質(zhì)疑的問題,尤其是它的技術(shù)已經(jīng)落后于云計算和GPU的發(fā)展,所以導(dǎo)致了這項技術(shù)比較難以進(jìn)一步推廣和應(yīng)用。 大規(guī)模篩選對云的需求 目前云計算已經(jīng)滲透到許多領(lǐng)域,如金融、教育、醫(yī)療、電子政務(wù)以及電子商務(wù)等。在這期間,云計算在生物信息化領(lǐng)域也得到了良好的發(fā)展。尤其在新藥研究方面,全球大的制藥公司輝瑞、強生、葛蘭素史克等都把云計算技術(shù)引入到新藥研究的過程中,開展如蛋白質(zhì)結(jié)構(gòu)預(yù)測、基因序列比對、虛擬篩選和蛋白質(zhì)靶點分析等應(yīng)用,大大減少了藥物研發(fā)的時間。進(jìn)行大規(guī)模的虛擬篩選需要很多的計算資源,云計算為實現(xiàn)這種大規(guī)模的應(yīng)用帶來了機會,我們可以把不同架構(gòu)、不同操作系統(tǒng)的云計算資源組織起來就可以提供強大的計算能力,從而用來進(jìn)行大規(guī)模的藥物虛擬篩選。 在三種云計算服務(wù)中,IaaS把數(shù)據(jù)中心以及基礎(chǔ)設(shè)施硬件資源通過Web分配給用戶使用,用戶可以部署和運行任意軟件,比較適合生物化學(xué)中的分布式計算應(yīng)用。IaaS也是目前在藥物研究中用的最多的一種云計算模式。比如亞馬遜的IaaS云計算就可以快速地提供多個節(jié)點的集群服務(wù),用它來實現(xiàn)大規(guī)模的并行計算。 Hadoop也被用于虛擬篩選研究,但是Hadoop的HDFS文件系統(tǒng)對本地服務(wù)器的磁盤讀寫要求很高,而且會在節(jié)點間產(chǎn)生大量的流量,對于網(wǎng)絡(luò)的通暢性要求很高,所以Hadoop架構(gòu)只有在完成網(wǎng)絡(luò)優(yōu)化后,才有可能實現(xiàn)計算性能提升。 云計算下的大規(guī)模虛擬篩選應(yīng)用 JPPF是目前一個較為開放的計算框架,既可以通過接口設(shè)計JAR包來完成自己的計算任務(wù),也可以通過修改源代碼,在編譯的過程中就可以完成計算任務(wù);除此之外,JPPF支持的平臺比較廣泛,除Windows、Linux和OS之外,還支持Android系統(tǒng)以及平板電腦等移動設(shè)備,并通過指令快速完成相關(guān)計算任務(wù)。 2014年,蘭州大學(xué)基礎(chǔ)醫(yī)學(xué)院采用IaaS云服務(wù),并設(shè)計了一個基于JPPF(Java Parallel Processing Framework)的異構(gòu)分布式計算框架(如圖1所示),它可以調(diào)用IaaS提供的不同架構(gòu)和不同操作系統(tǒng)的計算資源,并將虛擬篩選作業(yè)自動分配在這些資源上,從而完成大規(guī)模的虛擬篩選。 該系統(tǒng)主要包括四個部分:客戶端,服務(wù)器端,數(shù)據(jù)庫中心,計算節(jié)點。通過客戶端提交任務(wù)到Server端進(jìn)行分配,Server端通過蒙特卡洛羅的算法將待篩選的任務(wù)分配到相應(yīng)的計算節(jié)點;計算節(jié)點執(zhí)行Server端分配的任務(wù),并從數(shù)據(jù)庫中心下載要進(jìn)行篩選的藥物分子,完成虛擬篩選后再把結(jié)果傳輸?shù)綌?shù)據(jù)庫中心。其中我們采用如下公式來有效地管理整個計算任務(wù)的生命周期,使得整個時耗t最優(yōu),公式: 其中Ai代表程序初始化和數(shù)據(jù)分配所需要的時間,Bi代表在計算節(jié)點運算的時間,Ci是最后數(shù)據(jù)結(jié)果收集和處理所耗費的時間。最后我們通過基于分子動力學(xué)模擬的MMPBSA方法來準(zhǔn)確的預(yù)測藥物分子與篩選抑制劑之間的結(jié)合自由能(ΔGBind),如公式: 其中ΔGrec-lig、ΔGrec和ΔGlig分別代表在動力學(xué)模擬計算過程中的配體-受體組成的復(fù)合物、受體和配體的平均自由能。 基于上述平臺,我們進(jìn)行了基于β2腎上腺素受體(β2AR)的藥物篩選研究。β2腎上腺素受體屬于G蛋白偶聯(lián)受體的A類家族的成員之一,它可以通過激活Gs蛋白來調(diào)節(jié)細(xì)胞內(nèi)關(guān)鍵的信號通路,進(jìn)而影響生理過程,比如呼吸道和血管的平滑肌松弛調(diào)節(jié)。通過研究β2腎上腺素受體在IaaS云計算模式上的藥物篩選的分布式計算,可以為藥物設(shè)計提供很好的計算范例。在一個由40個節(jié)點構(gòu)建的校園IaaS云計算平臺上進(jìn)行了五萬個藥物分子的測試,結(jié)果表明該平臺可以很好地協(xié)調(diào)這些計算資源進(jìn)行藥物篩選,并給出了很好的藥物篩選結(jié)果。 基于IaaS的JPPF云計算藥物篩選平臺充分利用了不同架構(gòu)和不同操作系統(tǒng)的云計算資源來進(jìn)行藥物分子的虛擬篩選,大大縮短了藥物篩選的進(jìn)程,節(jié)省了平臺構(gòu)建成本,為利用云計算技術(shù)來加快新藥的研發(fā)提供了一種新的思路。目前很多高校都有藥物研究方向,大多數(shù)學(xué)院都是構(gòu)建自己的高性能計算集群來進(jìn)行分子的模擬和計算。云計算的低成本、穩(wěn)定性以及可擴充性為構(gòu)建這種應(yīng)用提供一種靈活的方案,讓這些研究方向的師生體驗更方便和快捷的計算服務(wù)。 (作者單位為蘭州大學(xué)) — — END — —
|
|