科學(xué)家們表示,谷歌用于預(yù)測蛋白質(zhì)3D形狀的深度學(xué)習(xí)計劃有望改變生物學(xué)。 前言 蛋白質(zhì)是生命的基石,負(fù)責(zé)細胞內(nèi)發(fā)生的大部分事情。蛋白質(zhì)的工作方式和功能由其三維形狀決定-"結(jié)構(gòu)即功能 "是分子生物學(xué)的公理。 幾十年來,實驗室實驗一直是獲得良好蛋白質(zhì)結(jié)構(gòu)的主要途徑。從20世紀(jì)50年代開始,利用X射線束射向結(jié)晶的蛋白質(zhì),并將衍射光轉(zhuǎn)化為蛋白質(zhì)的原子坐標(biāo)的技術(shù),首次確定了蛋白質(zhì)的完整結(jié)構(gòu)。X射線晶體學(xué)產(chǎn)生了絕大部分的蛋白質(zhì)結(jié)構(gòu)。但是,在過去的十年里,低溫電鏡已經(jīng)成為許多結(jié)構(gòu)生物學(xué)實驗室青睞的工具。 科學(xué)家們長期以來一直想知道,蛋白質(zhì)的構(gòu)成部分:一串不同的氨基酸是如何映射出其最終形狀的許多扭曲和褶皺的。研究人員說,在20世紀(jì)80年代和90年代,使用計算機預(yù)測蛋白質(zhì)結(jié)構(gòu)的早期嘗試表現(xiàn)不佳。當(dāng)其他科學(xué)家將這些方法應(yīng)用于其他蛋白質(zhì)時,發(fā)表的論文中對方法的崇高要求往往會被瓦解。 John Moult 和 Krzysztof Fidelis 兩位教授于 1994 年創(chuàng)辦了CASP,每兩年進行一次盲審,以促進蛋白質(zhì)結(jié)構(gòu)預(yù)測方面的新 SOTA 研究。該活動挑戰(zhàn)團隊預(yù)測已經(jīng)用實驗方法解決的蛋白質(zhì)的結(jié)構(gòu),但這些蛋白質(zhì)的結(jié)構(gòu)還沒有被公開。Moult認(rèn)為這個實驗極大地改善了這一領(lǐng)域。 DeepMind已經(jīng)取得了不俗的成績,展示了人工智能已經(jīng)學(xué)會了用超人的技術(shù)來玩各種復(fù)雜的游戲。但DeepMind的聯(lián)合創(chuàng)始人Demis Hassabis一直強調(diào),這些成功只是邁向更大目標(biāo)的墊腳石。 DeepMind名為AlphaFold的系統(tǒng)在2018年CASP13上的表現(xiàn)讓該領(lǐng)域的許多科學(xué)家大吃一驚,長期以來,該領(lǐng)域一直是小型學(xué)術(shù)團體的堡壘,但其方法與其他應(yīng)用AI的團隊大致相似。 AlphaFold的第一次迭代將被稱為深度學(xué)習(xí)的AI方法應(yīng)用于結(jié)構(gòu)和遺傳數(shù)據(jù),以預(yù)測蛋白質(zhì)中氨基酸對之間的距離。DeepMind公司的John Jumper說,在沒有調(diào)用人工智能的第二步中,AlphaFold使用這些信息來提出蛋白質(zhì)應(yīng)該是什么樣子的 "共識 "模型,他是該項目的領(lǐng)導(dǎo)者。該團隊試圖以這種方法為基礎(chǔ),但最終還是碰壁了。因此,它改變了策略,并開發(fā)了一個人工智能網(wǎng)絡(luò),該網(wǎng)絡(luò)納入了關(guān)于決定蛋白質(zhì)如何折疊的物理和幾何約束的額外信息。Jumper說,他們還設(shè)置了一個更困難的任務(wù):網(wǎng)絡(luò)不是預(yù)測氨基酸之間的關(guān)系,而是預(yù)測目標(biāo)蛋白質(zhì)序列的最終結(jié)構(gòu)。這是一個復(fù)雜程度相當(dāng)高的系統(tǒng)。 2020年11月30日在兩年一度的蛋白質(zhì)結(jié)構(gòu)預(yù)測挑戰(zhàn)賽中,AlphaFold表現(xiàn)優(yōu)于其他約100個團隊,DeepMind和長期舉辦的 "蛋白質(zhì)結(jié)構(gòu)預(yù)測關(guān)鍵評估"(CASP)競賽的組織者宣布DeepMind的AlphaFold的最新版本AlphaFold2可以準(zhǔn)確地預(yù)測蛋白質(zhì)結(jié)構(gòu),已經(jīng)破解了生物學(xué)的一個重大挑戰(zhàn)。 驚人的準(zhǔn)確性 CASP歷時數(shù)月,目標(biāo)蛋白或被稱為域的蛋白部分(共約100個)定期發(fā)布,各團隊有幾周時間提交預(yù)測結(jié)構(gòu)。然后,一個獨立的科學(xué)家團隊會使用衡量預(yù)測蛋白與實驗確定的結(jié)構(gòu)相似度的指標(biāo)來評估這些預(yù)測。評估人員不知道誰在進行預(yù)測。 Lupas說,AlphaFold的預(yù)測是以 "427組 "的名義到達的,但它的許多條目的驚人準(zhǔn)確性使它們脫穎而出。一些預(yù)測比其他預(yù)測更好,但近三分之二的預(yù)測在質(zhì)量上與實驗結(jié)構(gòu)相當(dāng)。Moult說,在某些情況下,并不清楚AlphaFold的預(yù)測和實驗結(jié)果之間的差異是預(yù)測錯誤還是實驗的人為因素。 Moult說,AlphaFold的預(yù)測與一種名為核磁共振光譜的技術(shù)確定的實驗結(jié)構(gòu)匹配度很差,但這可能歸結(jié)于原始數(shù)據(jù)如何轉(zhuǎn)換為模型。該網(wǎng)絡(luò)還難以對蛋白質(zhì)復(fù)合物中的單個結(jié)構(gòu)或群體進行建模,即與其他蛋白質(zhì)的相互作用會扭曲它們的形狀。 Moult說:與上屆CASP相比,今年各團隊預(yù)測的結(jié)構(gòu)更加準(zhǔn)確,但大部分的進展可以歸功于AlphaFold。在被認(rèn)為難度適中的蛋白質(zhì)上,其他團隊的最佳表現(xiàn)通常在100分的預(yù)測準(zhǔn)確度上得到75分,而AlphaFold在同樣蛋白上得到90分左右。 Moult說,大約有一半的團隊在總結(jié)他們的方法的摘要中提到了 "深度學(xué)習(xí)",這表明人工智能正在對該領(lǐng)域產(chǎn)生廣泛的影響。其中大部分來自學(xué)術(shù)團隊,但微軟和中國科技公司騰訊也進入了CASP14。 紐約市哥倫比亞大學(xué)的計算生物學(xué)家、CASP參賽者Mohammed AlQuraishi渴望挖掘AlphaFold在比賽中的表現(xiàn)細節(jié),并在12月1日DeepMind團隊展示其方法時,了解更多關(guān)于系統(tǒng)的工作原理。他強烈預(yù)感是,AlphaFold將是變革性的。 蛋白三維結(jié)構(gòu)的快速獲取 AlphaFold預(yù)測幫助確定了一種細菌蛋白的結(jié)構(gòu),Lupas實驗室多年來一直在試圖破解這種結(jié)構(gòu)。Lupas的團隊之前已經(jīng)收集了原始的X射線衍射數(shù)據(jù),但將這些類似羅夏的模式轉(zhuǎn)化為結(jié)構(gòu)需要一些關(guān)于蛋白質(zhì)形狀的信息。獲取這些信息的技巧以及其他預(yù)測工具都失敗了。Lupas說:427組的模型在半小時內(nèi)就給了研究人員結(jié)構(gòu),而此前研究人員花了十年時間嘗試了所有的方法," DeepMind的聯(lián)合創(chuàng)始人兼首席執(zhí)行官Demis Hassabis表示,該公司計劃讓AlphaFold變得有用,以便其他科學(xué)家可以采用它。該公司此前公布了AlphaFold第一版的細節(jié),以便其他科學(xué)家復(fù)制這種方法。AlphaFold可能需要幾天的時間才能得出預(yù)測的結(jié)構(gòu),其中包括對蛋白質(zhì)不同區(qū)域可靠性的估計。Hassabis補充說:研究人員剛剛開始了解生物學(xué)家會想要什么,他認(rèn)為藥物發(fā)現(xiàn)和蛋白質(zhì)設(shè)計是潛在的應(yīng)用。 2020年初,該公司發(fā)布了對少數(shù)SARS-CoV-2蛋白結(jié)構(gòu)的預(yù)測,這些蛋白的結(jié)構(gòu)尚未通過實驗確定。加利福尼亞大學(xué)伯克利分校的分子神經(jīng)生物學(xué)家Stephen Brohawn說,DeepMind對一種名為Orf3a的蛋白質(zhì)的預(yù)測最終與后來通過冷凍EM確定的蛋白質(zhì)非常相似,他的團隊在6月份發(fā)布了該結(jié)構(gòu)。 真實世界的影響 AlphaFold不太可能關(guān)閉Brohawn等使用實驗方法解決蛋白質(zhì)結(jié)構(gòu)的實驗室。但這可能意味著,質(zhì)量較低、更容易收集的實驗數(shù)據(jù)將成為獲得良好結(jié)構(gòu)的全部需求。一些應(yīng)用,如蛋白質(zhì)的進化分析,將蓬勃發(fā)展,因為現(xiàn)有基因組數(shù)據(jù)的海嘯現(xiàn)在可能會被可靠地轉(zhuǎn)化為結(jié)構(gòu)。 英國欣克斯頓歐洲分子生物學(xué)實驗室-歐洲生物信息學(xué)研究所的結(jié)構(gòu)生物學(xué)家、過去的CASP評估員Janet Thornton說:這是一個使他開始認(rèn)為在有生之年不會得到解決的問題。她希望這種方法能夠幫助闡明人類基因組中數(shù)千種未解決的蛋白質(zhì)的功能,并理解人與人之間不同的致病基因變異。 AlphaFold的表現(xiàn)也是DeepMind的一個轉(zhuǎn)折點。該公司最著名的是揮舞人工智能掌握圍棋等游戲,但其長期目標(biāo)是開發(fā)能夠?qū)崿F(xiàn)廣泛的、類似人類的智能的程序。Hassabis說,應(yīng)對宏大的科學(xué)挑戰(zhàn),比如蛋白質(zhì)結(jié)構(gòu)預(yù)測,是其人工智能能夠做出的最重要應(yīng)用之一。他認(rèn)為這是DeepMind所做的最重要的事情在現(xiàn)實世界的影響方面。 |
|