一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

2024化學(xué)諾獎(jiǎng)接力青睞AI,蛋白質(zhì)結(jié)構(gòu)預(yù)測新工具獲一半獎(jiǎng)項(xiàng)

 返樸 2024-10-09 發(fā)布于北京

星標(biāo),才能不錯(cuò)過每日推送!方法見文末插圖

10月9日,歐洲中部時(shí)間11時(shí)45分(北京時(shí)間17時(shí)45分),瑞典皇家科學(xué)院決定將2024年諾貝爾化學(xué)獎(jiǎng)的一半授予大衛(wèi)·貝克(David Baker),以表彰他在“計(jì)算蛋白質(zhì)設(shè)計(jì)”方面的貢獻(xiàn),并將另一半授予戴密斯·哈薩比斯(Demis Hassabis)和約翰·M·詹伯(John M. Jumper),以表彰他們在“蛋白質(zhì)結(jié)構(gòu)預(yù)測”方面的貢獻(xiàn)。

David Baker,1962年出生于美國華盛頓州西雅圖。1989年獲美國加州大學(xué)伯克利分校博士學(xué)位。現(xiàn)為美國西雅圖華盛頓大學(xué)教授。

Demis Hassabis,1976年出生于英國倫敦。2009年獲得英國倫敦大學(xué)學(xué)院博士學(xué)位。Google DeepMind首席執(zhí)行官。

John M. Jumper,1985年出生于美國阿肯色州小石城。2017年獲得美國伊利諾伊州芝加哥大學(xué)博士學(xué)位。Google DeepMind高級(jí)研究科學(xué)家。

諾貝爾獎(jiǎng)官方表示,2024年諾貝爾化學(xué)獎(jiǎng)的主題是蛋白質(zhì)——生命中巧妙的化學(xué)工具。大衛(wèi)·貝克成功完成了幾乎不可能的任務(wù),構(gòu)建了大量全新的蛋白質(zhì)。德米斯·哈薩比斯和約翰·朱姆珀開發(fā)了一種人工智能模型,解決了一個(gè)50年來的難題:預(yù)測蛋白質(zhì)的復(fù)雜結(jié)構(gòu)。這些發(fā)現(xiàn)具有巨大的潛力。

生命的多樣性證明了蛋白質(zhì)作為化學(xué)工具的驚人能力。它們控制并驅(qū)動(dòng)所有化學(xué)反應(yīng),這些反應(yīng)共同構(gòu)成了生命的基礎(chǔ)。蛋白質(zhì)還作為激素、信號(hào)物質(zhì)、抗體以及不同組織的構(gòu)建模塊發(fā)揮作用。

“今年獲得認(rèn)可的發(fā)現(xiàn)之一是關(guān)于構(gòu)建非凡的蛋白質(zhì);另一個(gè)則實(shí)現(xiàn)了一個(gè)50年來的夢想:從氨基酸序列預(yù)測蛋白質(zhì)結(jié)構(gòu)。這兩項(xiàng)發(fā)現(xiàn)為未來開辟了廣闊的可能性,”諾貝爾化學(xué)委員會(huì)主席Heiner Linke說道。

蛋白質(zhì)通常由20種不同的氨基酸組成,這些氨基酸可以被視為生命的構(gòu)建模塊。2003年,大衛(wèi)·貝克成功利用這些模塊設(shè)計(jì)出一種與任何其他蛋白質(zhì)不同的新蛋白質(zhì)。從那時(shí)起,他的研究團(tuán)隊(duì)創(chuàng)造了一個(gè)又一個(gè)富有想象力的蛋白質(zhì),包括可用于藥物、疫苗、納米材料和微小傳感器的蛋白質(zhì)。

下文全面介紹基于AI的蛋白質(zhì)預(yù)測工具——alphafold的發(fā)展過程。
撰文 郭貝一、郭曉強(qiáng)
來源 | 《科學(xué)》雜志

基于神經(jīng)網(wǎng)絡(luò)原理構(gòu)建的人工智能工具AlphaFold實(shí)現(xiàn)對(duì)蛋白質(zhì)三維結(jié)構(gòu)的精準(zhǔn)預(yù)測,解決困擾生命科學(xué)60年的難題。這一突破推動(dòng)基礎(chǔ)研究快速發(fā)展的同時(shí),還有望在新藥研發(fā)和疾病治療等多個(gè)領(lǐng)域發(fā)揮重要作用。

蛋白質(zhì)是生命活動(dòng)的物質(zhì)基礎(chǔ),亦可看作生命的存在形式。蛋白質(zhì)擁有廣泛的生物學(xué)功能,包括結(jié)構(gòu)組分(膠原蛋白)、催化功能(酶)、調(diào)節(jié)作用(激素)、物質(zhì)運(yùn)輸(血紅蛋白)、機(jī)械收縮(肌動(dòng)蛋白)、機(jī)體免疫(抗體)等,進(jìn)而參與幾乎所有生命過程,如分子水平的DNA復(fù)制和轉(zhuǎn)錄、蛋白質(zhì)翻譯、物質(zhì)與能量代謝等,以及細(xì)胞層面的精卵融合、細(xì)胞增殖和分化、細(xì)胞凋亡和壞死、細(xì)胞衰老和細(xì)胞通信等,其重要性不言而喻。

盡管蛋白質(zhì)種類多樣,但它們都是由20種基本氨基酸組成,區(qū)別在于不同的氨基酸排列順序,這一特征稱為一級(jí)結(jié)構(gòu),亦稱初級(jí)結(jié)構(gòu),但這種線性結(jié)構(gòu)需經(jīng)過充分折疊形成空間三維結(jié)構(gòu),亦稱高級(jí)結(jié)構(gòu)。結(jié)構(gòu)決定功能是許多學(xué)科的基本原則,生命科學(xué)也不例外,因此蛋白質(zhì)結(jié)構(gòu)研究在生命科學(xué)領(lǐng)域占據(jù)舉足輕重的位置[1]



蛋白質(zhì)結(jié)構(gòu)研究



1819年,構(gòu)成蛋白質(zhì)的第一種氨基酸亮氨酸分離成功,1936年最后一個(gè)氨基酸蘇氨酸成功鑒定,前后跨越100多年,這說明了蛋白質(zhì)研究的艱巨性。

1953年,英國生物化學(xué)家桑格(F.Sanger)借助新出現(xiàn)的各種氨基酸和多肽分離方法和自己創(chuàng)造的氨基酸顯色反應(yīng),確定了胰島素兩條多肽鏈的氨基酸序列,1955年又確定二硫鍵位置,獲得1958年諾貝爾化學(xué)獎(jiǎng)。

1957年,英國生物化學(xué)家肯德魯(J.C. Kendrew)借助X-射線晶體衍射技術(shù)首次確定肌紅蛋白三維結(jié)構(gòu),兩年后他的同事佩魯茨(M.F. Perutz)確定血紅蛋白三維結(jié)構(gòu),兩人分享1962年諾貝爾化學(xué)獎(jiǎng)。通過這兩項(xiàng)諾貝爾獎(jiǎng)也可看出蛋白質(zhì)結(jié)構(gòu)研究的重要性,從成果取得到獲獎(jiǎng)只有35年。與此對(duì)應(yīng),作為分子生物學(xué)里程碑成果的DNA雙螺旋結(jié)構(gòu)解析則等待了9年(如提前認(rèn)可,富蘭克林的悲劇可能就可避免)

蛋白質(zhì)結(jié)構(gòu)研究一直是諾貝爾化學(xué)獎(jiǎng)青睞的對(duì)象,至今已頒發(fā)十余次獎(jiǎng)項(xiàng),既包括重要蛋白(或復(fù)合物)的解析,也包括新技術(shù)或新方法的突破,因此該領(lǐng)域長期來看是生命科學(xué)前沿和焦點(diǎn)。

蛋白質(zhì)結(jié)構(gòu)研究與諾貝爾化學(xué)獎(jiǎng)
年度
獲獎(jiǎng)人
獲獎(jiǎng)成果
1958
桑格(F.Sanger)
胰島素一級(jí)結(jié)構(gòu)
1962
佩魯茨(M.F. Perutz)
球蛋白(血紅蛋白和肌紅蛋白)三維結(jié)構(gòu)
肯德魯(J.C. Kendrew)
1972
安芬森(C.B. Anfinsen)
一級(jí)結(jié)構(gòu)決定高級(jí)結(jié)構(gòu)
摩爾(S. Moore)
核糖核酸酶一級(jí)結(jié)構(gòu)
斯坦(W.H. Stein)
1982
克盧格(A.Klug)
晶體電子顯微鏡發(fā)展
1988
戴森霍弗(J. Deisenhofer)
光合反應(yīng)中心的三維結(jié)構(gòu)
胡貝爾(R. Huber)
米歇爾(H. Michel)
1997
沃克(J.E. Walker)
ATP酶三維結(jié)構(gòu)
2002
芬恩(J.B. Fenn)
質(zhì)譜法測蛋白質(zhì)一級(jí)結(jié)構(gòu)
田中耕一(Koichi Tanaka)
維特里希(K. Wüthrich)
磁共振波譜研究蛋白質(zhì)高級(jí)結(jié)構(gòu)
2003
麥金農(nóng)(R. MacKinnon)
鉀離子通道三維結(jié)構(gòu)
2006
科恩伯格(R. D. Kornberg)
真核生物的轉(zhuǎn)錄結(jié)構(gòu)
2009
拉馬克里斯南(V. Ramakrishnan)
核糖體三維結(jié)構(gòu)
施泰茨(T. A. Steitz)
尤納斯(A. Yonath)
2012
科比爾卡(B. Kobilka)
G-蛋白偶聯(lián)受體結(jié)構(gòu)
2017
杜博歇(J. Dubochet)
研究蛋白質(zhì)高級(jí)結(jié)構(gòu)的冷凍電鏡開發(fā)
弗蘭克(J. Frank)
亨德森(R. Henderson)

隨著許多蛋白質(zhì)結(jié)構(gòu)被解析,科學(xué)界考慮將這些信息進(jìn)行存檔以便利科研人員使用。1971年,在美國冷泉港實(shí)驗(yàn)室舉辦的一次蛋白質(zhì)晶體學(xué)研討會(huì)上,由布魯克海文國家實(shí)驗(yàn)室漢密爾頓(W. Hamilton)倡導(dǎo)建立蛋白質(zhì)數(shù)據(jù)庫(Protein Data Bank, PDB),最初只包含7種蛋白質(zhì)結(jié)構(gòu)信息,是生命科學(xué)領(lǐng)域第一個(gè)開放獲取的數(shù)字資源。磁共振波譜和冷凍電鏡等新技術(shù)的發(fā)明和完善,大大加快了蛋白質(zhì)結(jié)構(gòu)解析的步伐,PDB內(nèi)信息也得到了快速增長,2014年突破了10萬種。然而這一數(shù)量相比已知的上億種蛋白質(zhì)顯得微不足道,因此研究人員開始嘗試用理論方法直接由初級(jí)結(jié)構(gòu)獲取高級(jí)結(jié)構(gòu)信息[2]



蛋白質(zhì)結(jié)構(gòu)預(yù)測



1961年,美國生物化學(xué)家安芬森(C.B. Anfinsen)借助核糖核酸酶變性-復(fù)性實(shí)驗(yàn)得出結(jié)論:蛋白質(zhì)初級(jí)結(jié)構(gòu)決定高級(jí)結(jié)構(gòu)(安芬森定律)。安芬森定律清晰地說明蛋白質(zhì)空間結(jié)構(gòu)并非隨機(jī)形成,而是根植于氨基酸的線性順序,該定律成為蛋白質(zhì)結(jié)構(gòu)預(yù)測的理論基礎(chǔ)。安芬森在1972年諾貝爾獎(jiǎng)獲獎(jiǎng)感言中提出一個(gè)愿景:將來有一天僅從氨基酸序列就能預(yù)測任何蛋白質(zhì)三維結(jié)構(gòu)。從蛋白質(zhì)初級(jí)結(jié)構(gòu)預(yù)測高級(jí)結(jié)構(gòu)的過程較為復(fù)雜,是結(jié)構(gòu)生物學(xué)和理論生物學(xué)領(lǐng)域最具挑戰(zhàn)性的課題,它吸引了眾多科研人員前赴后繼嘗試解決這一難題。

蛋白質(zhì)結(jié)構(gòu)預(yù)測主要有兩種策略,基于模板建模(template-based modeling, TBM)和無模板建模(template-free modeling, FM)[3]。TBM又稱同源建模,它利用新蛋白質(zhì)初級(jí)結(jié)構(gòu)與PDB中已有三維結(jié)構(gòu)蛋白質(zhì)的氨基酸序列比對(duì)結(jié)果為基礎(chǔ)構(gòu)建模型,并進(jìn)一步完善,準(zhǔn)確性取決于新蛋白質(zhì)和PDB中蛋白質(zhì)的進(jìn)化距離,如果PDB缺乏新蛋白類似結(jié)構(gòu)域的已知結(jié)構(gòu),則無法生成準(zhǔn)確模型。FM又稱從頭計(jì)算方法,利用能量函數(shù)計(jì)算氨基酸空間相互作用,最終從所有可能結(jié)構(gòu)中選取最佳形式,依靠分子動(dòng)力學(xué)模擬獲得蛋白質(zhì)折疊方式,該法對(duì)小分子量蛋白質(zhì)結(jié)構(gòu)預(yù)測還算準(zhǔn)確,但隨著蛋白質(zhì)復(fù)雜性增加逐漸變得無能為力。

1994年,美國計(jì)算生物學(xué)家莫爾特(J. Moult)和菲德利斯(K. Fidelis)為推動(dòng)蛋白質(zhì)結(jié)構(gòu)預(yù)測領(lǐng)域的快速發(fā)展,啟動(dòng)了蛋白質(zhì)結(jié)構(gòu)預(yù)測關(guān)鍵評(píng)估(Critical Assessment of Structure Prediction, CASP)活動(dòng),這是兩年舉辦一次的競賽或選拔賽,旨在評(píng)選蛋白質(zhì)結(jié)構(gòu)建模中的最新和最佳技術(shù)。組織者向參與者提供目標(biāo)蛋白質(zhì)的氨基酸序列,據(jù)此預(yù)測蛋白質(zhì)結(jié)構(gòu),與此同時(shí)還采取實(shí)驗(yàn)方法獲取蛋白質(zhì)結(jié)構(gòu),最終將二者進(jìn)行對(duì)比獲得全局距離測試(global distance test, GDT)評(píng)分。為保證結(jié)果客觀性,整個(gè)過程為雙盲,即參與者和評(píng)審員互不知曉。GDT是百分制,用于評(píng)判結(jié)構(gòu)預(yù)測的精準(zhǔn)度,超過90分則非常理想,達(dá)到實(shí)驗(yàn)數(shù)據(jù)級(jí)別。在第一屆競賽中,對(duì)在已知數(shù)據(jù)庫有類似模板的蛋白質(zhì)的理論預(yù)測尚算完美,但對(duì)無模板的則堪稱災(zāi)難,GDT得分只有20分。即使到2016年第12屆競賽也只升高到40分,與預(yù)期還有極大差距,以至莫爾特悲觀地認(rèn)為,有生之年這個(gè)問題可能都難以解決,但不久人工智(artificial intelligence, AI)技術(shù)的加入,問題得到了完美的答案。



人工智能發(fā)展



智能,又稱智力,是人類所特有的復(fù)雜認(rèn)知能力并在此基礎(chǔ)上進(jìn)行學(xué)習(xí)形成概念、理解和應(yīng)用邏輯以及推理等。AI則是利用計(jì)算機(jī)或機(jī)器人模擬人類智能完成一系列復(fù)雜任務(wù)的過程,如推理等。

1950年,英國數(shù)學(xué)家圖靈(A.M. Turing)在論文“計(jì)算機(jī)和智能”中首次討論建造智能機(jī)器和測試智能的方式,賦予機(jī)器借鑒人腦信息加工、理性設(shè)計(jì)和科學(xué)決策的能力,奠定了AI的理論基礎(chǔ)。1956年,在美國達(dá)特茅斯舉辦的學(xué)術(shù)會(huì)議上,麥卡錫(J. McCarthy)首次提出AI一詞,并相信將來會(huì)制造出像人類思考和推理的機(jī)器。在隨后的時(shí)間里,AI取得了一系列重要進(jìn)展,特別是進(jìn)入21世紀(jì)以來更是突飛猛進(jìn),智能水平日趨強(qiáng)大,這里重點(diǎn)介紹機(jī)器學(xué)習(xí)(machine learning, ML)

機(jī)器學(xué)習(xí)是人工智能的分支,主要基于數(shù)據(jù)進(jìn)行算法開發(fā)和研究,通過學(xué)習(xí)已有數(shù)據(jù)而推廣到新數(shù)據(jù),從而可在無明確指令情況下執(zhí)行任務(wù),進(jìn)一步發(fā)展出更高級(jí)的深度學(xué)習(xí)(deep learning, DL),可在盡量減少人工干預(yù)的前提下實(shí)現(xiàn)對(duì)非結(jié)構(gòu)化數(shù)據(jù)(如文本或圖像)的學(xué)習(xí),在視覺加工、語言處理和語音識(shí)別等領(lǐng)域得到了廣泛應(yīng)用。

深度學(xué)習(xí)的研究歷史可追溯到1943年,美國神經(jīng)生理學(xué)家麥卡洛克 (W. S. McCulloch)和年輕邏輯學(xué)家皮茨(W. H. Pitts)構(gòu)建出第一個(gè)基于模擬人腦的神經(jīng)網(wǎng)絡(luò)(neural network)模型,它可以基于神經(jīng)元的活動(dòng)特性進(jìn)行簡單的邏輯運(yùn)算。神經(jīng)網(wǎng)絡(luò)由多層結(jié)構(gòu)組成,包含輸入層、一個(gè)或多個(gè)隱藏層和輸出層。只有三層的稱為基本神經(jīng)網(wǎng)絡(luò),三層以上的為深度神經(jīng)網(wǎng)絡(luò),是深度學(xué)習(xí)的基礎(chǔ)。

經(jīng)過后續(xù)發(fā)展和完善,神經(jīng)網(wǎng)絡(luò)逐漸成為諸多AI設(shè)計(jì)的基礎(chǔ),人們開始嘗試應(yīng)用于蛋白質(zhì)結(jié)構(gòu)預(yù)測。比如2016年出現(xiàn)的循環(huán)幾何網(wǎng)絡(luò) (recurrent geometric network, RGN) 和后續(xù)發(fā)展的神經(jīng)能量模型和優(yōu)化(neural energy modeling and optimization, NEMO)等,這些方法取得了初步成功。



天才少年



哈薩比斯(D. Hassabis)出生于英國倫敦,童年就展現(xiàn)出過人天賦。4歲時(shí),哈薩比斯就能熟練掌握國際象棋技巧并戰(zhàn)勝父親和叔叔,13歲成為國際象棋大師,并在國際比賽中與成年人對(duì)弈。哈薩比斯還表現(xiàn)出與年齡不相稱的邏輯運(yùn)算天賦,8歲時(shí)應(yīng)用電腦進(jìn)行游戲編程,隨著年齡增長,他決定將計(jì)算機(jī)應(yīng)用于更高級(jí)的智力比拼,因此希望從事人工智能方面的工作。17歲時(shí),他設(shè)計(jì)并編程了銷量數(shù)百萬、屢獲殊榮的游戲《主題公園》。

1994年,哈薩比斯進(jìn)入劍橋大學(xué)學(xué)習(xí),3年后以年級(jí)第一名的成績獲得計(jì)算機(jī)學(xué)士學(xué)位。1998年,哈薩比斯創(chuàng)立電子游戲公司Elixir Studios,先后創(chuàng)作出《共和國:革命》、《邪惡天才》等多款暢銷游戲。

哈薩比斯和江珀[4]

2005年,哈薩比斯在游戲領(lǐng)域證明自己的能力后,決定研究人腦機(jī)制以證明AI的巨大潛力,因此重返學(xué)術(shù)界,進(jìn)入倫敦大學(xué)學(xué)院攻讀認(rèn)知神經(jīng)科學(xué)博士學(xué)位,主要研究記憶和健忘的分子機(jī)制。哈薩比斯發(fā)現(xiàn)大腦海馬區(qū)損傷會(huì)導(dǎo)致健忘癥,并減弱聯(lián)想功能和情景記憶,這項(xiàng)成果被《科學(xué)》周刊列為2007年十大科學(xué)突破之一。2009年,哈薩比斯獲得博士學(xué)位后,前往美國哈佛大學(xué)和麻省理工學(xué)院開展博士后研究,進(jìn)一步充實(shí)自己的知識(shí)。

2010年,哈薩比斯等人在倫敦創(chuàng)立人工智能公司Deepmind,將公司使命定義為解決“智能問題”,繼而使用人工智能“解決其他一切問題”。哈薩比斯擔(dān)任公司首席執(zhí)行官(CEO),將自己在神經(jīng)科學(xué)和機(jī)器學(xué)習(xí)方面的知識(shí)與計(jì)算機(jī)科學(xué)相結(jié)合,致力于構(gòu)建新型人工智能機(jī)器。DeepMind的快速發(fā)展引起科技巨頭谷歌的注意,并于2014年以超過65億美元價(jià)格被谷歌收購,哈薩比斯仍擔(dān)任DeepMind的CEO。

哈薩比斯認(rèn)為圍棋是機(jī)器學(xué)習(xí)的理想挑戰(zhàn)目標(biāo),他們開發(fā)成功AlphaGo,在2015年以50比分擊敗歐洲圍棋冠軍,第二年再以41比分擊敗世界冠軍李世石(Lee Sedol),證明了AlphaGo的強(qiáng)大能力。AlphaGo的成功也榮膺2016年《科學(xué)》周刊評(píng)選的年度十大進(jìn)展之一。

人機(jī)對(duì)戰(zhàn)的巨大成功促使哈薩比斯決定進(jìn)一步挑戰(zhàn)自身,這次不再關(guān)注游戲,而是生物學(xué)問題。哈薩比斯利用AI解決生物學(xué)問題的想法由來已久,但苦于找不到理想切入點(diǎn)而遲遲未能啟動(dòng),蛋白質(zhì)結(jié)構(gòu)預(yù)測無疑是一個(gè)最佳選擇。DeepMind為此成立了一個(gè)開展蛋白質(zhì)結(jié)構(gòu)預(yù)測的小團(tuán)隊(duì),由于蛋白質(zhì)空間結(jié)構(gòu)的形成主要通過折疊(fold)方式完成,該團(tuán)隊(duì)開發(fā)的人工智能系統(tǒng)被命名為AlphaFold。



AlphaFold的首次突破



AlphaFold采用深度學(xué)習(xí)基礎(chǔ)上的FM 預(yù)測策略, 共三個(gè)系統(tǒng)。首先是建模系統(tǒng), 利用神經(jīng)網(wǎng)絡(luò)和強(qiáng)大運(yùn)算能力基于能量最低原理預(yù)測蛋白質(zhì)內(nèi)各氨基酸殘基之間的空間距離, 產(chǎn)生一系列結(jié)構(gòu)片段(類似二級(jí)結(jié)構(gòu)), 初步組裝出三維結(jié)構(gòu);其次是優(yōu)化系統(tǒng), 對(duì)建模結(jié)構(gòu)進(jìn)行再計(jì)算的重復(fù)操作以提升精確度;最后是輸出系統(tǒng),產(chǎn)生最終三維結(jié)構(gòu)。

2018年,AlphaFold參與了第13屆CASP競賽,牛刀初試就技?jí)喝盒?,毫無爭議地榮膺冠軍寶座,復(fù)雜蛋白GDT平均達(dá)到60分,成功預(yù)測出給定的43種蛋白質(zhì)中的25種,第二名僅預(yù)測出3種[6]。這項(xiàng)成就使哈薩比斯的工作第三次榮膺《科學(xué)》周刊評(píng)選的年度十大進(jìn)展之一。

AlphaFold盡管較傳統(tǒng)方法有較大突破,但仍存在諸多不足,如預(yù)測結(jié)果精確度尚待提高,距離90分以上(完美預(yù)測)仍有較大差距;預(yù)測結(jié)構(gòu)平均分辨率為0.66納米(大于0.3納米僅顯示蛋白質(zhì)鏈輪廓),與實(shí)驗(yàn)方法所得最佳分辨率0.1納米(原子半徑尺度,這種程度下可清晰展示單個(gè)原子位置)也存在上升空間。

DeepMind公司決定改進(jìn)AlphaFold系統(tǒng),但經(jīng)過6個(gè)月嘗試后卻遠(yuǎn)遠(yuǎn)未達(dá)預(yù)期,不得不開始重新調(diào)整思路,首先進(jìn)行人事變動(dòng)。

江珀(J.M. Jumper)出生于美國阿肯色州小石城,2007年在范德比爾特大學(xué)獲得理學(xué)學(xué)位,隨后在獎(jiǎng)學(xué)金資助下進(jìn)入劍橋大學(xué)攻讀理論凝聚態(tài)物理學(xué)博士學(xué)位,但不久發(fā)現(xiàn)對(duì)此并無太大興趣,因此選擇退學(xué)并加入一家從事蛋白質(zhì)結(jié)構(gòu)計(jì)算機(jī)模擬的公司,工作中逐漸對(duì)理論生物學(xué)產(chǎn)生濃厚興趣。2011年,江珀重新回到學(xué)校,進(jìn)入芝加哥大學(xué)跟隨著名理論化學(xué)家弗里德 (K.F. Freed)和索斯尼克(T.R.  Sosnick)攻讀理論化學(xué)博士,將機(jī)器學(xué)習(xí)策略用于蛋白質(zhì)動(dòng)力學(xué)研究。2017年,江珀畢業(yè)獲得博士學(xué)位,獲悉Deepmind公司正在開展蛋白質(zhì)結(jié)構(gòu)預(yù)測方面研究,投遞申請(qǐng)后很快得到答復(fù),當(dāng)年10月加入公司,成為蛋白質(zhì)結(jié)構(gòu)預(yù)測小組的重要成員。

在AlphaFold遲遲未能取得進(jìn)一步突破之時(shí),哈薩比斯意識(shí)到江珀在蛋白質(zhì)物理和機(jī)器學(xué)習(xí)方面跨學(xué)科背景的重要性,他們進(jìn)行了深入交流,最終達(dá)成共識(shí),采用新思路改進(jìn)原有設(shè)計(jì)。2018年7月,江珀被提拔為AlphaFold項(xiàng)目主管,全面負(fù)責(zé)總體工作。



AlphaFold2再度完善



江珀帶領(lǐng)年輕團(tuán)隊(duì)對(duì)AlphaFold最初版本進(jìn)行了重新梳理,在此基礎(chǔ)上展開全面調(diào)整和改進(jìn),對(duì)每個(gè)細(xì)節(jié)給予挖掘以期達(dá)到盡善盡美。比如,他們引入空間立體結(jié)構(gòu)和進(jìn)化理念、整合已有蛋白質(zhì)結(jié)構(gòu)的詳細(xì)信息如原子半徑和鍵角等、完善機(jī)器有效學(xué)習(xí)策略以利于從有限數(shù)據(jù)中提取最大信息,特別是拋棄傳統(tǒng)算法的束縛,更強(qiáng)調(diào)空間靠近而非線性相鄰等。沒有任何一種改進(jìn)對(duì)最終結(jié)果有決定性影響,但正是這些奇妙新想法的完美結(jié)合,才最終實(shí)現(xiàn)真正意義的突破。

AlphaFold改進(jìn)系統(tǒng)(亦稱AlphaFold2)分為三個(gè)操作進(jìn)程。第一進(jìn)程,通過查詢多個(gè)蛋白質(zhì)的氨基酸序列數(shù)據(jù)庫構(gòu)建輸入序列的多序列比對(duì)集(multisequence alignment, MSA)(MSA表征)。MSA的基本邏輯是同一功能蛋白質(zhì)由于進(jìn)化緣故,氨基酸序列會(huì)出現(xiàn)較大差異(如人肌紅蛋白和鴿子肌紅蛋白只有25%的氨基酸序列相同),但基本結(jié)構(gòu)高度相似,據(jù)此作為結(jié)構(gòu)預(yù)測的基礎(chǔ)。同時(shí),通過查詢蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)庫構(gòu)建輸入序列各氨基酸空間相互關(guān)系的矩陣(成對(duì)表征)。第二進(jìn)程,上述兩組信息(進(jìn)化信息和空間信息)在一個(gè)編碼器(evoformer)上進(jìn)行處理,得出一個(gè)粗略的結(jié)構(gòu)假設(shè),然后返回最初狀態(tài)進(jìn)行測試和完善(該過程稱為迭代),要求結(jié)構(gòu)假設(shè)同時(shí)滿足MSA表征和成對(duì)表征,且二者之間相互交流,共同糾正和改進(jìn)最初假設(shè)結(jié)構(gòu)的不足。第三進(jìn)程是輸出蛋白質(zhì)三維結(jié)構(gòu)。

AlphaFold2基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)模型[7]

深度學(xué)習(xí)過程中,研究者使用PDB中已有的17萬種蛋白質(zhì)結(jié)構(gòu)信息進(jìn)行訓(xùn)練。AlphaFold2反復(fù)將預(yù)測結(jié)果與真實(shí)結(jié)構(gòu)進(jìn)行對(duì)比,使二者之間逐漸接近,最終使系統(tǒng)吸收并完全掌握蛋白質(zhì)折疊原理。AlphaFold2還能對(duì)預(yù)測結(jié)構(gòu)給出可信程度,類似于考試估分,數(shù)值越高意味著與真正結(jié)構(gòu)差距越小。AlphaFold2成功的另一因素是DeepMind強(qiáng)大的運(yùn)算能力,這是絕大多數(shù)學(xué)術(shù)團(tuán)體和小公司都難以達(dá)到的目標(biāo)。

2020年,AlphaFold2在第14屆CASP競賽上進(jìn)一步大殺四方,在給定預(yù)測蛋白質(zhì)中GDT平均得分92.4,遠(yuǎn)超所有競爭對(duì)手;對(duì)高難度蛋白預(yù)測GDT平均得分87,比第二名高出25分。2021年7月15日,詳細(xì)描述AlphaFold2內(nèi)容的論文在《自然》周刊在線發(fā)表[7],至今引用近萬次。Deepmind不久還公布算法供全球研究人員免費(fèi)使用。這項(xiàng)成就被《科學(xué)》周刊評(píng)選為2021年度十大科學(xué)突破之首,蛋白結(jié)構(gòu)預(yù)測也成為《自然-方法學(xué)》2021年度方法[8]。



AlphaFold2的發(fā)展和應(yīng)用



AlphaFold2解決了蛋白質(zhì)結(jié)構(gòu)預(yù)測問題,目前雖無法做到盡善盡美,但大多數(shù)情況下對(duì)非結(jié)構(gòu)解析專業(yè)的普通研究者而言已經(jīng)足夠。尤為重要的是,當(dāng)研究人員獲得感興趣蛋白質(zhì)序列時(shí)能夠在幾天甚至幾小時(shí)內(nèi)獲得完美結(jié)構(gòu)信息,而不再需要數(shù)月甚至數(shù)年時(shí)間和數(shù)百萬美元的花費(fèi),對(duì)生命科學(xué)研究而言,就是難以置信的突破。

當(dāng)然,AlphaFold2有不足之處,比如,對(duì)內(nèi)在無序結(jié)構(gòu)(它們在相分離等多個(gè)過程發(fā)揮重要作用)的預(yù)測效果較差。因?yàn)樽畛醯脑O(shè)計(jì)目標(biāo)是對(duì)單個(gè)蛋白質(zhì)結(jié)構(gòu)進(jìn)行預(yù)測,但蛋白質(zhì)發(fā)揮作用時(shí)往往是以復(fù)合物或小分子結(jié)合狀態(tài)存在,為此,Deepmind公司和其他研究團(tuán)隊(duì)又開發(fā)出其他版本作為補(bǔ)充,如AlphaFold Multimer和RosettaTTAFold等。

AlphaFold2已展示出強(qiáng)大的蛋白質(zhì)結(jié)構(gòu)預(yù)測能力,2021年完成人類所有蛋白質(zhì)的結(jié)構(gòu)預(yù)測;2022年7月,獲得2億多種蛋白質(zhì)的預(yù)測結(jié)構(gòu),并已進(jìn)入數(shù)據(jù)庫供免費(fèi)使用[9,10]。Deepmind公司最近推出AlphaFold3版本,可高準(zhǔn)確度和高精度預(yù)測蛋白質(zhì)復(fù)合物、蛋白質(zhì)-核酸、蛋白質(zhì)與小分子配體等三維結(jié)構(gòu)[11],進(jìn)一步加大適用范圍。

在基礎(chǔ)研究領(lǐng)域,原來研究新蛋白功能需要依賴于X-射線衍射或冷凍電鏡,高昂的費(fèi)用和技術(shù)門檻使大多數(shù)實(shí)驗(yàn)室望而卻步,目前該問題得到了有效解決。聯(lián)合AlphaFold2和冷凍電鏡成功解析核孔復(fù)合物結(jié)構(gòu)這一成果對(duì)理解細(xì)胞核內(nèi)外物質(zhì)進(jìn)出機(jī)制具有重要意義。

在應(yīng)用研究領(lǐng)域,現(xiàn)代藥物研發(fā)很大程度上依賴于蛋白質(zhì)結(jié)構(gòu)信息,但諸多感興趣藥物靶點(diǎn)蛋白尚未用實(shí)驗(yàn)方法解析出來,結(jié)構(gòu)預(yù)測的突破無疑解決了這一瓶頸,必將極大推動(dòng)新藥研發(fā)進(jìn)程。蛋白質(zhì)人工設(shè)計(jì)如抗體和疫苗篩選是一個(gè)重要領(lǐng)域,傳統(tǒng)方法是先設(shè)計(jì)出多種組合后,通過實(shí)驗(yàn)進(jìn)行反復(fù)驗(yàn)證,過程繁瑣耗時(shí),但通過蛋白質(zhì)結(jié)構(gòu)預(yù)測則會(huì)大大縮短研究周期。



深遠(yuǎn)影響



蛋白質(zhì)結(jié)構(gòu)預(yù)測的突破可歸因于天時(shí)、地利和人和的共同結(jié)果。天時(shí)上,高速發(fā)展的人工智能和層出不窮的新方法是AlphaFold的理論基礎(chǔ),PDB中快速增加的蛋白質(zhì)結(jié)構(gòu)是深度學(xué)習(xí)的材料基礎(chǔ);地利上,背靠谷歌公司強(qiáng)大的運(yùn)算能力;人和上,公司聚集了一批富有朝氣和探索精神的年輕人,以及哈薩比斯與江珀卓越的領(lǐng)導(dǎo)才能和創(chuàng)新能力,成功也就水到渠成。

近年來,AI在如火如荼地快速發(fā)展,取得一系列重大突破,如ChatGPT、Sora等,其智能程度逐漸提升,正在改變著人類的生活方式和科研的研究模式。AlphaFold無疑是優(yōu)秀代表之一,可看作是AI發(fā)展的一個(gè)縮影。

AlphaFold解決了困擾生命科學(xué)多年的一個(gè)重大難題,并有望為其他生物學(xué)問題解決提供借鑒。大數(shù)據(jù)已成為當(dāng)前科學(xué)發(fā)展的重要特征,如基因組測序結(jié)果和海量論文等,借助AI工具解決生命科學(xué)問題已成為一個(gè)重要方向。AlphaFold成功的另一層意義在于激勵(lì)年輕人要敢于挑戰(zhàn)自我。

AlphaFold2的成功也為哈薩比斯和江珀兩位科學(xué)家?guī)肀姸嗫茖W(xué)榮譽(yù)。他們先后分享威利生物醫(yī)學(xué)科學(xué)獎(jiǎng) (2022年)、生命科學(xué)突破獎(jiǎng)(2023年)、 蓋爾德納國際獎(jiǎng)(2023年)、拉斯克基礎(chǔ)醫(yī)學(xué)研究獎(jiǎng)(2023年)[12],也將是近幾年諾貝爾自然科學(xué)類獎(jiǎng)的熱門人選。

致謝:本文獲得周耀旗老師重要建議,在此表示誠摯的感謝。

參考文獻(xiàn)

[1] Sklar J. QnAs with Demis Hassabis and John M. Jumper: Winners of the 2023 Albert Lasker Basic Medical Research Award. Proc Natl Acad Sci USA 2023, 120(39):e2313816120.

[2] Rothman JE. Starting at Go: Protein structure prediction succumbs to machine learning. Proc Natl Acad Sci USA, 2023, 120(39):e2311128120.
[3] Kuhlman B, Bradley P. Advances in protein structure prediction and design. Nat Rev Mol Cell Biol, 2019, 20(11):681-697.
[4] Zhou Y, Litfin T, Zhan J. 3 = 1 + 2: how the divide conquered de novo protein structure prediction and what is next? Natl Sci Rev, 2023, 10(12):nwad259..
[5] Jumper J, Hassabis D. The Protein Structure Prediction Revolution and Its Implications for Medicine: 2023 Albert Lasker Basic Medical Research Award. JAMA. 2023, 330(15):1425-1426.
[6] Senior AW, Evans R, Jumper J, et al. Improved protein structure prediction using potentials from deep learning.Nature. 2020, 577(7792):706-710.
[7] Jumper J, Evans R, Pritzel A, et al. Highly accurate protein structure prediction with AlphaFold. Nature, 2021, 596(7873):583-589.
[8] Marx V. Method of the Year: protein structure prediction. Nat Methods, 2022, 19(1):5-10.
[9] Thornton JM, Laskowski RA, Borkakoti N. AlphaFold heralds a data-driven revolution in biology and medicine. Nat Med, 2021, 27(10):1666-1669.
[10] Borkakoti N, Thornton JM. AlphaFold2 protein structure prediction: Implications for drug discovery. Curr Opin Struct Bio, 2023, 78: 102526.
[11] Abramson J, Adler J, Dunger J, et al. Accurate structure prediction of biomolecular interactions with AlphaFold 3. Nature, 630(8016): 493-500.
[12] Sosnick TR. AlphaFold developers Demis Hassabis and John Jumper share the 2023 Albert Lasker Basic Medical Research Award. J Clin Invest, 2023, 133(19):e174915.

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    該文章已關(guān)閉評(píng)論功能
    類似文章 更多

    亚洲一区二区三区精选| 欧美午夜性刺激在线观看| 日本本亚洲三级在线播放| 亚洲中文字幕综合网在线| 欧洲日韩精品一区二区三区| 国产一区二区三中文字幕| 亚洲一区二区福利在线| 东京热男人的天堂一二三区| 老鸭窝精彩从这里蔓延| 黄片免费在线观看日韩| 亚洲最新一区二区三区| 日本不卡一本二本三区| 青青草草免费在线视频| 亚洲性生活一区二区三区| 老外那个很粗大做起来很爽| 亚洲国产精品av在线观看| 日韩精品视频香蕉视频| 欧美三级精品在线观看| 国产精品一区二区三区欧美 | 久久99亚洲小姐精品综合| 国产国产精品精品在线| 国产肥妇一区二区熟女精品| 亚洲精品国产精品日韩| 日本国产欧美精品视频| 午夜福利视频日本一区| 亚洲国产av一二三区| 色一欲一性一乱—区二区三区| 国产精品成人免费精品自在线观看| 日韩精品中文字幕亚洲| 亚洲国产婷婷六月丁香| 日本免费熟女一区二区三区| 五月情婷婷综合激情综合狠狠| 中文字幕日韩精品人一妻| 欧美有码黄片免费在线视频| 成人免费高清在线一区二区| 日韩欧美国产高清在线| 翘臀少妇成人一区二区| 欧洲亚洲精品自拍偷拍| 日本女优一色一伦一区二区三区 | 欧美不雅视频午夜福利| 色偷偷亚洲女人天堂观看|