來源:生物技術君 2022-09-27 13:36 這些方法機器學習在蛋白質設計中的真正開端。Baker表示,在接下來的幾個月里,他的實驗室將努力改進這些工具,以創(chuàng)造出更有活力和功能的蛋白質。 由于對所有生物結構和功能至關重要,蛋白質通常被稱為生命的基石,它們幾乎參與了細胞內的每一個過程,包括生長、分裂和修復。蛋白質由長的氨基酸鏈構成,氨基酸的序列決定其三維形狀,這些形狀又與蛋白質的功能密切相關。因此,了解蛋白質的結構可以更好地理解其作用和工作原理,這也是解決許多生命科學問題的關鍵,例如為疾病設計新的療法或疫苗,或解決糧食安全問題和環(huán)境污染等問題。 在過去的兩年里,機器學習已經徹底改變了蛋白質結構預測,但幾乎所有實驗表征的從頭蛋白質設計都是使用基于物理的方法生成的,如RoseTTA,這是一款用于模擬大分子結構的軟件。2022年7月28日,DeepMind宣布其開發(fā)的AlphaFold已能預測出100萬個物種超過2億個蛋白質的結構,幾乎涵蓋了地球上所有已知蛋白質。然而,這些所描述的方法并不足以應對當前蛋白質設計的所有挑戰(zhàn), 最近,《Science》上發(fā)表的三篇論文再度掀起了蛋白質設計領域的革命。 2022年9月15日,發(fā)表在《Science》上的一項新研究中,來自華盛頓大學醫(yī)學院著名的生物化學家David Baker教授實驗室的研究團隊表明,機器學習可以比以前更快速和更精確地創(chuàng)造蛋白質分子。這一進步有望帶來更多新的治療方法、碳捕獲工具和可持續(xù)的生物材料。 Baker表示,蛋白質是整個生物學的基礎,但迄今為止,在每一種動物、植物和微生物中發(fā)現(xiàn)的全部蛋白質所占比例可能遠遠不到所有蛋白質的1%。 為了超越自然界中發(fā)現(xiàn)的蛋白質,Baker的團隊將應對蛋白質設計的挑戰(zhàn)分為“三部曲”,并為每一部開發(fā)新的軟件解決方案。 第一部,需要生成一個新的蛋白質形狀。 2022年7月21日,發(fā)表在《Science》上的一篇研究中,該團隊展示了人工智能可以通過兩種方法生成新的蛋白質形狀。 第一種方法名為“受限幻覺”(constrained hallucination),它可以優(yōu)化序列,使其預測的結構包含所需的功能位點。第二種方法名為“修復”(inpainting),它從功能位點開始,填充額外的序列和結構,通過專門訓練的RoseTTAFold網絡,在單次前向傳遞中創(chuàng)建可行的蛋白質支架。這有點兒類似于搜索引擎中的自動完成功能。 在最新的研究中,作為“三部曲”的第二部分,該團隊設計了一種基于深度學習的蛋白質序列設計方法ProteinMPNN,它在計算機和實驗測試中均具有出色的性能。 具體而言,ProteinMPNN解決序列設計問題的時間比Rosetta等基于物理的方法所需的時間要少得多(運行時間約為1秒),在天然骨架上實現(xiàn)更高的蛋白質序列恢復,并挽救了之前使用RoseTTA或AlphaFold對蛋白質單體、組裝體和蛋白質-蛋白質接口進行的失敗設計。 總之,ProteinMPNN實驗設計成功率高,計算效率高,適用于幾乎所有的蛋白質序列設計問題,而且不需要專家定制即可運行。因此,在蛋白質設計中具有廣泛的應用價值。 在第三部分,該團隊在《Science》同期一篇背靠背研究中使用AlphaFold來獨立評估他們提出的氨基酸序列是否有可能折疊成預期的形狀,并證實新機器學習工具的組合可以可靠地生成在實驗室中發(fā)揮作用的新蛋白質。 預測蛋白質結構的軟件是解決方案的一部分,但它無法提出任何新的東西。Baker表示,ProteinMPNN之于蛋白質設計,就像AlphaFold之于蛋白質結構預測。 他們發(fā)現(xiàn),使用ProteinMPNN制造的蛋白質更有可能按預期折疊,并且可以使用這些方法創(chuàng)造非常復雜的蛋白質組裝體。 在制造出的新蛋白質中,有一種是納米級的環(huán),研究人員認為這種環(huán)可以成為定制納米機器的部件。 總之,這些方法機器學習在蛋白質設計中的真正開端。Baker表示,在接下來的幾個月里,他的實驗室將努力改進這些工具,以創(chuàng)造出更有活力和功能的蛋白質。有了這些新的軟件工具,科學家們就可以為長期以來在醫(yī)學、能源和技術方面的挑戰(zhàn)找到解決方案。 |
|
來自: 子孫滿堂康復師 > 《藥學科 醫(yī)藥研究》