2020 年底,DeepMind 旗下的深度學習模型 AlphaFold2 一舉破解了困擾學界長達五十年之久的“蛋白質折疊”難題。今年 7 月底,AlphaFold2 再獲重大進展,預測了超過 2 億個蛋白質結構,這些預測的結構涵蓋了科學界幾乎所有已編目的蛋白質。基于蛋白質氨基酸序列預測蛋白質結構取得重大進展的同時,通過蛋白質結構逆向設計氨基酸序列同樣備受關注。9 月 16 日,華盛頓大學 David Baker 團隊在 Science 雜志上連發(fā)兩篇論文,這兩篇研究論文也是利用深度學習模型進行蛋白質設計的最新進展。研究人員在論文中詳細描述了一種基于深度學習的蛋白質序列設計方法——ProteinMPNN,采用這種工具可以在幾秒內設計出原創(chuàng)蛋白質分子。論文中還提到,該工具在干實驗和濕試驗測試中均表現(xiàn)良好。同時研究人員還使用X 射線晶體學、冷凍電鏡以及多種功能研究恢復利用 Rosetta 或 AlphaFold 失敗的設計,包括蛋白質單體、環(huán)均低聚物、四面體納米顆粒和目標結合蛋白,最終證明了 ProteinMPNN 應用廣泛,且設計的精確度更高。DeepMind 的 AI for Science 團隊負責人也指出,Alphafold 通過解決蛋白質結構預測問題顯示出了 AI 以及深度學習在生物學領域中的變革作用,并將生物學帶入了一個新的時代。ProteinMPNN 則是為特定任務設計蛋白質序列,是這種范式轉變的另一個證明。幾秒即可從頭設計蛋白質序列蛋白質結構預測是指基于蛋白質的氨基酸序列預測蛋白質的三維結構。也就是說,從蛋白質的一級結構預測它的折疊和二級、三級、四級結構。AlphaFold2、RoseTTAFold 等是具有代表性的蛋白質結構預測,通過氨基酸序列預測蛋白質三維結構,以此幫助科研人員深入了解蛋白質的功能。而蛋白質設計與之相反,主要是通過計算方式理性確定蛋白質的氨基酸序列,實現(xiàn)預設的結構和功能。大體可分為從頭開始設計蛋白質,或者通過計算已知蛋白質結構及其序列的變體來設計蛋白質。過去 3 年里,David Baker 實驗室一直在探索制造新的蛋白質,包括應用了多款軟件。Rosetta 是該實驗室 1998 年開發(fā)出的一種蛋白質結構預測算法平臺。最初,研究人員構想出一種新蛋白質的形狀,即將其他蛋白質的片段拼湊在一起,然后利用軟件推導出與形狀對應的氨基酸序列。然而,在實驗室這些蛋白質很少能折疊成預期形狀,而且會折疊成多種形式。因此,需要另一個步驟來調整蛋白質序列,使其僅折疊成一個所需的結構。然而,這一步涉及模擬不同序列可能折疊的所有方式,所需時間長、且成本很高。后續(xù),通過調整 AlphaFold 和其他深度學習模型,瞬間即可完成這個耗時的步驟。2021年,David Baker 團隊介紹了兩種機器學習方法,分別是“constrained hallucination”和“in painting”。在研究中,他們設計了100 多種小的“hallucination”蛋白質,發(fā)現(xiàn)大約 1/5 與預測的形狀相似。但是,當研究團隊指導微生物在實驗室中設計蛋白質序列時,150個設計都沒有成功。(來源:Science)與此同時,David Baker 實驗室的另一名研究員 Justas Dauparas 博士正在開發(fā)一種深度學習工具來解決逆折疊問題,確定與給定蛋白質結構相對應的氨基酸序列。研究團隊將其稱之為 ProteinMPNN,這是一種從頭設計蛋白質的全新深度學習工具,可以在研究人員有了確定的蛋白質結構基礎上,推導出折疊成三維結構的氨基酸序列。David Baker 團隊將 ProteinMPNN 應用于幻覺蛋白質納米粒子(hallucinated protein nanoparticles),發(fā)現(xiàn)該工具在實驗中取得了比之前更大的成功。論文中指出,在天然蛋白質骨架上,ProteinMPNN 的序列恢復率為 52.4%,而 Rosetta 為 32.9%。在實驗中,研究人員使用低溫電子顯微鏡和其他實驗技術確定了 30 種新型蛋白質的結構,其中 27 種與基于 AI 的設計相匹配。據(jù)悉,ProteinMPNN使用的神經(jīng)網(wǎng)絡已訓練了大量可以折疊成蛋白質三維結構的氨基酸序列。目前,ProteinMPNN已開源使用,用戶可在開源軟件存儲庫GitHub上免費下載使用。研究人員還指出,機器學習將使整個蛋白設計過程變得更快、更簡單,并在更大的范圍內設計出全新的蛋白質和結構。這一軟件模型比以前的工具快了 200 多倍,用戶只需輸入少量信息即可完成。也就是說,這一工具可在幾秒內而非幾個月內從頭設計蛋白質序列,有望降低蛋白質設計門檻。可用于設計多種新材料和治療方式上文提到的“constrained hallucination”機器學習方式,允許用戶在所有可能的蛋白質序列中進行隨機搜索,并挑選具有某些功能的序列。由于機器學習能夠處理大量數(shù)據(jù)集,“constrained hallucination”方式可以幫助用戶探索所有潛在的蛋白質結構空間。構成人體蛋白質的氨基酸有20種,這些氨基酸可以組合成大量候選序列。第一種機器學習方式允許用戶在所有可能的蛋白質序列中進行隨機搜索,并挑選具有某些功能的序列。由于機器學習能夠處理大量數(shù)據(jù)集,“constrained hallucination”方式可以幫助用戶探索所有潛在的蛋白質結構空間。構成人體蛋白質的氨基酸有 20 種,這些氨基酸可以組合成大量候選序列。“in painting”類似于文字處理器中的自動完成功能,即從功能位點開始,填充額外的蛋白質的結構和序列。去年7月發(fā)表的論文還指出,這兩種方法可以應用于設計候選免疫原、受體陷阱(receptor traps)、金屬蛋白、酶以及結合蛋白等。當時,研究人員通過干濕實驗驗證了設計。在最新的論文中,David Baker 團隊的研究更突出了基于深度學習生成新蛋白質結構的多樣性,這為設計用于納米機器和生物材料的復雜組件鋪平了道路。通過上文提到的這些方法,研究人員設計出了一種在自然界中從未見過的全新蛋白質,比如該團隊設計出具有復雜對稱性的巨型環(huán)。據(jù)外媒披露,David Baker 團隊正在試驗這些環(huán)狀結構是否可以應用于在納米尺度上運行的微型機器組件。未來,這些納米機器或許用于疏通動脈。研究團隊還表示,從理論上講,這種方法可用于設計與任何對稱形狀相對應的納米粒子。據(jù)外媒報道,ProteinMPNN 既可以幫助研究人員發(fā)現(xiàn)以前未知的蛋白質,也能夠設計全新的蛋白質。這種工具還可以應用于開發(fā)更有效的疫苗,加快癌癥治療的研究,或者設計全新的材料。約翰霍普金斯大學化學和生物分子工程教授 Jeffrey Gray 認為,近年來領域內的進展正在深刻改變生物分子結構預測和設計領域。他還計劃把自己實驗室開發(fā)的深度學習工具與 David Baker 團隊開發(fā)的工具結合起來,更好地了解免疫系統(tǒng)和免疫相關疾病,并基于 AI 設計相關治療方法。參考資料: 1.https://www./doi/10.1126/science.add1964 2.https://www./doi/10.1126/science.add2187 3.https://www./doi/10.1126/science.abn2100
|