從首個(gè)蛋白的一級(jí)結(jié)構(gòu)被公布,到如今DeepMind打造的AlphaFold系統(tǒng)開始破解人類蛋白組幾乎所有蛋白的空間結(jié)構(gòu),已經(jīng)過去了超過70年的時(shí)間。AI在結(jié)構(gòu)生物學(xué)領(lǐng)域取得的重大突破,不僅提升了我們對蛋白質(zhì)的理解,還將改變我們對幾乎所有生理過程和人類疾病的認(rèn)識(shí)。 撰文 | 石云雷 審校 | 吳非 去年年末,人工智能研究實(shí)驗(yàn)室DeepMind的AlphaFold在國際蛋白質(zhì)結(jié)構(gòu)預(yù)測競賽(CASP)上一騎絕塵,首次將蛋白三維結(jié)構(gòu)預(yù)測的分?jǐn)?shù)提升至90分。不到8個(gè)月后,DeepMind又為生物學(xué)界帶來了兩個(gè)重磅消息。7月15日,他們在《自然》雜志上發(fā)布了關(guān)于AlphaFold算法的新論文,實(shí)現(xiàn)了原子層面上的蛋白質(zhì)結(jié)構(gòu)精確預(yù)測。僅僅一周之后,他們又和歐洲生物信息學(xué)研究所(EMBL-EBI)合作發(fā)表了一篇《自然》論文。這次,他們想要完成的是一個(gè)更大的目標(biāo)——破解人類蛋白組中所有蛋白質(zhì)的三維結(jié)構(gòu)。 氨基酸,蛋白質(zhì) 從人類首次解析出構(gòu)成蛋白質(zhì)的氨基酸序列,到如今可以模擬和解析人體蛋白組中絕大多數(shù)蛋白的三維結(jié)果,科學(xué)家已努力了超過70年。1949年,英國生物化學(xué)家弗雷德里克·桑格(Frederick Sanger)通過水解胰島素,首次確定了組成牛胰島素的氨基酸序列,這也是人類確定的首個(gè)蛋白質(zhì)的氨基酸序列。這些氨基酸序列是牛胰島素的一級(jí)結(jié)構(gòu),如果我們只按照這個(gè)序列合成胰島素,得到的產(chǎn)物不會(huì)有活性。氨基酸序列需要通過數(shù)步折疊過程,形成復(fù)雜的3級(jí)結(jié)構(gòu)后,才能成為具有功能的蛋白質(zhì)。 1965年,中國科學(xué)家首次解析出胰島素的精確結(jié)構(gòu),人工合成出了具有活性的胰島素。在人類的蛋白組中,胰島素是一種結(jié)構(gòu)簡單的小型蛋白質(zhì),它含有兩條肽鏈,有51個(gè)氨基酸。對人類等真核生物來說,一個(gè)蛋白質(zhì)中平均含有400多個(gè)氨基酸殘基,其中絕大部分蛋白質(zhì)的空間結(jié)構(gòu)遠(yuǎn)比胰島素復(fù)雜。 人類基因組草圖公布后,科學(xué)界對蛋白質(zhì)的研究進(jìn)入了快車道。經(jīng)過數(shù)十年的努力,研究人員通過解析蛋白質(zhì)的氨基酸序列、提取純凈和高質(zhì)量的蛋白質(zhì),再加上冷凍電子顯微鏡的應(yīng)用,至今已經(jīng)解析出了超過5萬個(gè)人源蛋白質(zhì)的三維結(jié)構(gòu)。無疑,我們獲得蛋白三維結(jié)構(gòu)的速度正在不斷變快。 不過,實(shí)驗(yàn)解析蛋白質(zhì)也受到諸多限制。由于這一過程過于繁瑣,且稍有不慎就無法獲得較好的蛋白質(zhì)空間結(jié)構(gòu),因此仍有大量人源蛋白質(zhì)結(jié)構(gòu)有待破解。與此同時(shí),一些科學(xué)家開始嘗試另一種工具——借助人工智能(AI)技術(shù)來預(yù)測蛋白的空間結(jié)構(gòu)。 1994年,計(jì)算生物學(xué)家約翰·莫爾特(John Moult)等人創(chuàng)立了CASP比賽,讓AI加入到蛋白質(zhì)三維結(jié)構(gòu)的研究中。不過在此之后的20多年中,各個(gè)AI實(shí)驗(yàn)室在這項(xiàng)比賽中的始終缺乏實(shí)質(zhì)性突破。直到DeepMind的加入,徹底改變了這一局面。 2020年,DeepMind開發(fā)的一款蛋白質(zhì)三維結(jié)構(gòu)預(yù)測算法“AlphaFold”一舉奪得了當(dāng)年CASP比賽的最高分(GDT分?jǐn)?shù)為90分),比第二名的分?jǐn)?shù)高出了15%。GDT分?jǐn)?shù)主要用來評(píng)估算法預(yù)測三維結(jié)構(gòu)中氨基酸的位置與實(shí)際空間結(jié)構(gòu)的差距,分?jǐn)?shù)越高,預(yù)測越準(zhǔn)。當(dāng)時(shí)AlphaFold就像是一枚投在生物學(xué)界的炸彈,當(dāng)時(shí)《自然》《科學(xué)》等相繼發(fā)文,強(qiáng)調(diào)了這是人工智能的一次重大勝利。 從實(shí)驗(yàn)解析到AI預(yù)測 在細(xì)胞中,蛋白質(zhì)的折疊過程需要分子蛋白或輔助蛋白的幫助。而我們能看到的是,一些氨基酸序列通過一系列變化,形成了一個(gè)具有三維結(jié)構(gòu)和活性的蛋白質(zhì)。在蛋白質(zhì)中,具有相同特性的氨基酸通過特殊的共價(jià)鍵(例如二硫鍵)聚集到一起,形成一些特定的螺旋結(jié)構(gòu),比化學(xué)鍵更加微弱的分子間作用力維系著蛋白質(zhì)的三維結(jié)構(gòu)。 但是,依靠這些理論還遠(yuǎn)遠(yuǎn)不足以準(zhǔn)確預(yù)測蛋白質(zhì)的三維結(jié)構(gòu),這也是很多參與CASP比賽的算法分?jǐn)?shù)不高的原因。在今年7月15日一項(xiàng)公布于《自然》的論文中,DeepMind的研究團(tuán)隊(duì)詳細(xì)介紹了AlphaFold成功的原因。這一算法采取了多序列比對和一種新型的神經(jīng)網(wǎng)絡(luò)架構(gòu),將重點(diǎn)放在一些關(guān)鍵的氨基酸上。此外,這一算法還納入了結(jié)構(gòu)模塊(Structure Module),用于評(píng)估預(yù)測的蛋白質(zhì)結(jié)構(gòu)的每個(gè)氨基酸殘基與其真實(shí)位點(diǎn)的差異。DeepMind的研究團(tuán)隊(duì)還強(qiáng)調(diào),AlphaFold是首個(gè)在不知道相似蛋白的結(jié)構(gòu)時(shí),也可以在原子層面上精確預(yù)測蛋白質(zhì)結(jié)構(gòu)的算法。 昨日,在發(fā)表于《自然》期刊的一項(xiàng)研究中,他們和EMBL-EBI合作利用AlphaFold做出了一項(xiàng)更有突破性和實(shí)用性的研究——直接對人類蛋白組中98.5%的蛋白質(zhì)完整三維的結(jié)構(gòu)進(jìn)行了預(yù)測。根據(jù)他們的估計(jì),雖然蛋白質(zhì)資料庫(PDB)中公布的人源蛋白質(zhì)三維結(jié)構(gòu)占到了目前人類蛋白組的35%,但是很多蛋白質(zhì)的空間結(jié)構(gòu)并不完整。實(shí)際上,完整的三維蛋白質(zhì)結(jié)構(gòu)只占17%。 類似于CASP比賽中的GDT分?jǐn)?shù),研究人員也為AlphaFold設(shè)置了一個(gè)可以評(píng)估預(yù)測可信度的數(shù)值——pLDDT(每個(gè)殘基位點(diǎn)的可信度測評(píng),per-residue confidence metric)。當(dāng)pLDDT值大于90,表示對蛋白質(zhì)中某個(gè)氨基酸殘基位置的預(yù)測具有很高的可信度;當(dāng)pLDDT值大于70,表明預(yù)測結(jié)果是基本準(zhǔn)確的。 在對人體蛋白質(zhì)組三維結(jié)構(gòu)的預(yù)測中,AlphaFold精確預(yù)測了35.7%的氨基酸殘基的位點(diǎn),基本準(zhǔn)確地預(yù)測了58.0%的氨基酸的位點(diǎn)。在蛋白質(zhì)水平上,這一算法也能較為準(zhǔn)確地預(yù)測人類蛋白組中43.8%的蛋白質(zhì)至少3/4序列的空間結(jié)構(gòu)。在1290個(gè)沒有沒有參考結(jié)構(gòu)的蛋白質(zhì)中,AlphaFold能較為準(zhǔn)確預(yù)測每個(gè)蛋白中近200個(gè)氨基酸殘基的空間結(jié)構(gòu)(pLDDT≥70)。 一種由WFS1基因編碼的蛋白,突變會(huì)導(dǎo)致WFS綜合征。(圖片來源于論文) 在這次實(shí)驗(yàn)中,AlphaFold還準(zhǔn)確預(yù)測出由于許多和藥物靶點(diǎn)相關(guān)的酶和膜蛋白的三維結(jié)構(gòu)。由于膜蛋白的結(jié)構(gòu)復(fù)雜,一直以來,通過實(shí)驗(yàn)方法來解析這類蛋白的結(jié)構(gòu)都極具挑戰(zhàn)性。除此之外,AlphaFold還能較為準(zhǔn)確地預(yù)測出此前沒有接受過訓(xùn)練或不熟悉的蛋白質(zhì)的三維結(jié)構(gòu)。 除了人源的蛋白質(zhì),他們還利用AlphaFold對其他20種模式生物(包括小鼠、玉米和瘧原蟲)蛋白組中的蛋白進(jìn)行了預(yù)測。根據(jù)《自然》官網(wǎng)的消息,這些預(yù)測的蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)已通過EMBL-EBI托管的公用數(shù)據(jù)庫免費(fèi)向公眾開放,目前有近36.5萬個(gè)蛋白質(zhì)結(jié)構(gòu)已在該數(shù)據(jù)庫中發(fā)布,而到今年年底,這一數(shù)值有望增長到1.3億。DeepMind和EMBL-EBI的研究人員強(qiáng)調(diào),目前這部分工作還只是一個(gè)開始。他們想要進(jìn)一步驗(yàn)證這些預(yù)測的結(jié)果,更重要的是,將它們應(yīng)用到迄今為止不可能實(shí)現(xiàn)的實(shí)驗(yàn)中。 重大意義 近70年來,解析蛋白質(zhì)的空間結(jié)構(gòu)一直是一項(xiàng)極具科學(xué)意義的難題。如果基因組是一個(gè)“指令官”,那么蛋白質(zhì)就是基因功能的“執(zhí)行者”,可以說蛋白質(zhì)幾乎參與人體內(nèi)所有的生理過程和疾病過程。如果我們能掌握蛋白質(zhì)的精確結(jié)構(gòu),就像解析了一把精密的鎖的內(nèi)部結(jié)構(gòu)。對于人類來說,也更容易開發(fā)出一把甚至多把能打開這些“鎖”的鑰匙,而這將會(huì)改變我們在分子水平上對自身的認(rèn)知,治療現(xiàn)今絕大多數(shù)的人類疾病。 DeepMind聯(lián)合創(chuàng)始人兼首席執(zhí)行官杰米斯·哈薩比斯(Demis Hassabis)認(rèn)為,這是人工智能系統(tǒng)迄今為止對推進(jìn)科學(xué)發(fā)展作出的最大貢獻(xiàn)。此外,對于一些AlphaFold無法準(zhǔn)確預(yù)測的蛋白結(jié)構(gòu),一些科學(xué)家也發(fā)表了自己的見解。一部分人認(rèn)為,在人類等真核生物中,相當(dāng)一部分蛋白質(zhì)區(qū)域本身就是無序的,這或許是為了與其他的蛋白分子相互作用,也可能還有一些我們還不知道的作用。 值得一提的是,在《自然》于上周發(fā)表AlphaFold論文的次日,《科學(xué)》雜志也公布了另一項(xiàng)蛋白質(zhì)預(yù)測算法——RoseTTAFold。這個(gè)算法由華盛頓大學(xué)醫(yī)學(xué)院蛋白質(zhì)設(shè)計(jì)研究所和哈佛大學(xué)、劍橋大學(xué)等機(jī)構(gòu)聯(lián)合開發(fā)。它采用和AlphaFold2不同的深度學(xué)習(xí)算法,但具有AlphaFold2可媲美的超高準(zhǔn)確率,而且速度更快、對計(jì)算機(jī)處理能力的需求也較少,能在短短的10分鐘內(nèi)計(jì)算出一個(gè)蛋白的結(jié)構(gòu)。目前,研究人員正在用這一算法研究一些和人類健康直接相關(guān)的蛋白質(zhì)的結(jié)構(gòu)。 |
|