圖片來(lái)源: U OF W, ROYAL SOCIETY, HARVARD
Proteins 101
Deep Learning And Proteins: A Match Made In Heaven
Inventing New Proteins
Scaling Laws
The Road Ahead
Buckle up.
導(dǎo)語(yǔ) 像 GPT-4 這樣的大型語(yǔ)言模型因其對(duì)自然語(yǔ)言的驚人掌握而席卷了世界。然而,大語(yǔ)言模型最重要的長(zhǎng)期機(jī)會(huì)將需要一種完全不同類(lèi)型的語(yǔ)言:生物學(xué)語(yǔ)言。 過(guò)去一個(gè)世紀(jì),生物化學(xué)、分子生物學(xué)和遺傳學(xué)研究進(jìn)展的長(zhǎng)征中出現(xiàn)了一個(gè)引人注目的主題:事實(shí)證明,生物學(xué)是一個(gè)可破譯、可編程、在某些方面甚至是數(shù)字系統(tǒng)。 DNA 僅使用四個(gè)變量——A(腺嘌呤)、C(胞嘧啶)、G(鳥(niǎo)嘌呤)和 T(胸腺嘧啶)來(lái)編碼地球上每個(gè)生物體的完整遺傳指令。將此與現(xiàn)代計(jì)算系統(tǒng)進(jìn)行比較,現(xiàn)代計(jì)算系統(tǒng)使用兩個(gè)變量(0 和 1)對(duì)世界上所有的數(shù)字電子信息進(jìn)行編碼。一個(gè)系統(tǒng)是二元系統(tǒng),另一個(gè)是四元系統(tǒng),但這兩個(gè)系統(tǒng)在概念上有驚人的重疊;這兩個(gè)系統(tǒng)都可以正確地被認(rèn)為是數(shù)字化的。 再舉一個(gè)例子,每個(gè)生物體中的每種蛋白質(zhì)都由以特定順序連接在一起的一維氨基酸串組成并定義。蛋白質(zhì)的長(zhǎng)度從幾十到幾千個(gè)氨基酸不等,有 20 種不同的氨基酸可供選擇。 這也代表了一種非??捎?jì)算的系統(tǒng),語(yǔ)言模型非常適合學(xué)習(xí)該系統(tǒng)。 正如 DeepMind 首席執(zhí)行官兼聯(lián)合創(chuàng)始人Demis Hassabis 所說(shuō):“在最基本的層面上,我認(rèn)為生物學(xué)可以被視為一種信息處理系統(tǒng),盡管它是一個(gè)極其復(fù)雜和動(dòng)態(tài)的系統(tǒng)。正如數(shù)學(xué)被證明是物理學(xué)的正確描述語(yǔ)言一樣,生物學(xué)也可能成為人工智能應(yīng)用的完美類(lèi)型?!?/span> 當(dāng)大型語(yǔ)言模型能夠利用大量信號(hào)豐富的數(shù)據(jù),推斷出遠(yuǎn)遠(yuǎn)超出任何人類(lèi)吸收能力的潛在模式和深層結(jié)構(gòu)時(shí),它們就會(huì)變得最強(qiáng)大。然后,他們可以利用對(duì)主題的復(fù)雜理解來(lái)生成新穎、令人驚嘆的復(fù)雜輸出。 例如,通過(guò)吸收互聯(lián)網(wǎng)上的所有文本,ChatGPT 等工具已經(jīng)學(xué)會(huì)了就任何可以想象的話(huà)題進(jìn)行深思熟慮和細(xì)致入微的交談。通過(guò)攝取數(shù)十億張圖像, Midjourney等文本到圖像模型已經(jīng)學(xué)會(huì)了按需生成創(chuàng)意原創(chuàng)圖像。 將大型語(yǔ)言模型指向生物數(shù)據(jù)——使它們能夠?qū)W習(xí)生命的語(yǔ)言——將釋放各種可能性,使自然語(yǔ)言和圖像相比之下顯得微不足道。 具體來(lái)說(shuō),這會(huì)是什么樣子? 短期內(nèi),在生命科學(xué)中應(yīng)用大型語(yǔ)言模型的最引人注目的機(jī)會(huì)是設(shè)計(jì)新型蛋白質(zhì)。
蛋白質(zhì)101 蛋白質(zhì)是生命本身的中心。正如著名生物學(xué)家阿瑟·萊斯克 (Arthur Lesk) 說(shuō)道:“在分子尺度的生命戲劇中,蛋白質(zhì)是發(fā)揮作用的地方?!?/span> 蛋白質(zhì)幾乎參與所有生物體內(nèi)發(fā)生的每項(xiàng)重要活動(dòng):消化食物、收縮肌肉、在全身輸送氧氣、攻擊外來(lái)病毒。你的荷爾蒙是由蛋白質(zhì)組成的;你的頭發(fā)也是如此。 蛋白質(zhì)非常重要,因?yàn)樗鼈冇猛緩V泛。它們能夠承擔(dān)大量不同的結(jié)構(gòu)和功能,遠(yuǎn)遠(yuǎn)超過(guò)任何其他類(lèi)型的生物分子。這種令人難以置信的多功能性是蛋白質(zhì)構(gòu)建方式的直接結(jié)果。 如上所述,每種蛋白質(zhì)都由一串按特定順序串在一起的稱(chēng)為氨基酸的結(jié)構(gòu)單元組成?;谶@種一維氨基酸序列,蛋白質(zhì)折疊成復(fù)雜的三維形狀,使它們能夠發(fā)揮其生物功能。 蛋白質(zhì)的形狀與其功能密切相關(guān)。舉個(gè)例子,抗體蛋白折疊成形狀,使它們能夠精確識(shí)別和瞄準(zhǔn)異物,就像鑰匙插入鎖中一樣。另一個(gè)例子,酶——加速生化反應(yīng)的蛋白質(zhì)——經(jīng)過(guò)專(zhuān)門(mén)設(shè)計(jì),可以與特定分子結(jié)合,從而催化特定反應(yīng)。因此,了解蛋白質(zhì)折疊成的形狀對(duì)于了解生物體如何運(yùn)作以及最終了解生命本身如何運(yùn)作至關(guān)重要。 半個(gè)多世紀(jì)以來(lái),僅根據(jù)蛋白質(zhì)的一維氨基酸序列確定蛋白質(zhì)的三維結(jié)構(gòu)一直是生物學(xué)領(lǐng)域的一項(xiàng)巨大挑戰(zhàn)。它被稱(chēng)為“蛋白質(zhì)折疊問(wèn)題”,困擾了幾代科學(xué)家。2007 年,一位評(píng)論員將蛋白質(zhì)折疊問(wèn)題描述為“現(xiàn)代科學(xué)中最重要但尚未解決的問(wèn)題之一”。
深度學(xué)習(xí)和蛋白質(zhì):天作之合 2020 年底,在生物學(xué)和計(jì)算領(lǐng)域的分水嶺時(shí)刻,一個(gè)名為AlphaFold的人工智能系統(tǒng)提出了蛋白質(zhì)折疊問(wèn)題的解決方案。AlphaFold由 Alphabet 的 DeepMind 構(gòu)建,能夠在大約一個(gè)原子的寬度內(nèi)正確預(yù)測(cè)蛋白質(zhì)的三維形狀,遠(yuǎn)遠(yuǎn)優(yōu)于人類(lèi)曾經(jīng)設(shè)計(jì)過(guò)的任何其他方法。 然而,當(dāng)談到人工智能和蛋白質(zhì)時(shí), AlphaFold 僅僅是一個(gè)開(kāi)始。 AlphaFold不是使用大型語(yǔ)言模型構(gòu)建的。它依賴(lài)于一種稱(chēng)為多重序列比對(duì)(MSA)的較舊的生物信息學(xué)結(jié)構(gòu),其中將蛋白質(zhì)的序列與進(jìn)化上相似的蛋白質(zhì)進(jìn)行比較,以推斷其結(jié)構(gòu)。 其一,它速度慢且計(jì)算量大,因?yàn)樗枰獏⒖荚S多不同的蛋白質(zhì)序列才能確定任何一種蛋白質(zhì)的結(jié)構(gòu)。更重要的是,由于 MSA 需要存在大量進(jìn)化和結(jié)構(gòu)相似的蛋白質(zhì)才能推理出新的蛋白質(zhì)序列,因此它對(duì)于所謂的“孤兒蛋白質(zhì)”(幾乎沒(méi)有或沒(méi)有相似類(lèi)似物的蛋白質(zhì))的用途有限。這些孤兒蛋白大約占所有已知蛋白序列的 20%。 最近,研究人員開(kāi)始探索一種有趣的替代方法:使用大型語(yǔ)言模型而不是多重序列比對(duì)來(lái)預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)。 結(jié)構(gòu)和功能之間的復(fù)雜模式和相互關(guān)系:比如,如何改變蛋白質(zhì)某些部分的某些氨基酸。蛋白質(zhì)的序列會(huì)影響蛋白質(zhì)折疊的形狀。如果您愿意,蛋白質(zhì)語(yǔ)言模型能夠?qū)W習(xí)蛋白質(zhì)的語(yǔ)法或語(yǔ)言學(xué)。 2022 年底,Meta推出了ESM-2和ESMFold ,這是迄今為止發(fā)布的最大、最復(fù)雜的蛋白質(zhì)語(yǔ)言模型之一,參數(shù)達(dá) 150 億個(gè)。(ESM-2 是 LLM 本身;ESMFold是其相關(guān)的結(jié)構(gòu)預(yù)測(cè)工具。) 語(yǔ)言模型能夠?qū)Φ鞍踪|(zhì)的“潛在空間”產(chǎn)生普遍的理解,這為蛋白質(zhì)科學(xué)開(kāi)辟了令人興奮的可能性。 簡(jiǎn)而言之,這些蛋白質(zhì)模型可以逆轉(zhuǎn):不是根據(jù)蛋白質(zhì)的序列來(lái)預(yù)測(cè)蛋白質(zhì)的結(jié)構(gòu),而是可以逆轉(zhuǎn)ESM-2等模型,并根據(jù)所需的特性用于生成自然界中不存在的全新蛋白質(zhì)序列。
發(fā)明新蛋白質(zhì) 當(dāng)今世界上存在的所有蛋白質(zhì)僅代表理論上可能存在的所有蛋白質(zhì)的極小一部分。機(jī)會(huì)就在于此。 給出一些粗略的數(shù)字:人體中存在的全部蛋白質(zhì)(即所謂的“人類(lèi)蛋白質(zhì)組”)估計(jì)有 80,000 到 400,000 種蛋白質(zhì)。與此同時(shí),理論上可能存在的蛋白質(zhì)數(shù)量約為101300,這是一個(gè)大得難以想象的數(shù)字,比宇宙中原子的數(shù)量還要多很多倍。(需要明確的是,并非所有這 101300 種可能的氨基酸組合都會(huì)產(chǎn)生生物學(xué)上可行的蛋白質(zhì)。遠(yuǎn)非如此。但某些子集會(huì)。) 數(shù)百萬(wàn)年來(lái),蜿蜒的進(jìn)化過(guò)程偶然發(fā)現(xiàn)了數(shù)萬(wàn)或數(shù)十萬(wàn)種這樣的可行組合。但這只是冰山一角。 用領(lǐng)先的蛋白質(zhì)人工智能初創(chuàng)公司Generate Biomedicines的聯(lián)合創(chuàng)始人莫莉·吉布森(Molly Gibson)的話(huà)來(lái)說(shuō):“大自然在生命歷史中采樣的序列空間量幾乎相當(dāng)于地球所有海洋中的一滴水。” 使用人工智能,我們可以第一次系統(tǒng)地、全面地探索蛋白質(zhì)空間的廣闊未知領(lǐng)域,以便設(shè)計(jì)出不同于自然界中曾經(jīng)存在的任何蛋白質(zhì),專(zhuān)為我們的醫(yī)療和商業(yè)需求而設(shè)計(jì)。 一些利用深度學(xué)習(xí)進(jìn)行從頭蛋白質(zhì)設(shè)計(jì)的早期努力并未利用大型語(yǔ)言模型。 一個(gè)突出的例子是ProteinMPNN ,它來(lái)自華盛頓大學(xué)世界著名的 David Baker 實(shí)驗(yàn)室。ProteinMPNN架構(gòu)不使用 LLM,而是嚴(yán)重依賴(lài)蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)來(lái)生成新蛋白質(zhì)。 ProteinMPNN和RFdiffusion等以結(jié)構(gòu)為中心的模型取得了令人印象深刻的成就,推動(dòng)了基于人工智能的蛋白質(zhì)設(shè)計(jì)的最先進(jìn)水平。然而,由于大型語(yǔ)言模型的變革能力,我們可能正處于該領(lǐng)域新的變革的風(fēng)口浪尖。
標(biāo)度律 人工智能近期取得的巨大進(jìn)展背后的關(guān)鍵力量之一是所謂的“標(biāo)度律”(Scaling law) :事實(shí)上,LLM 參數(shù)數(shù)量、訓(xùn)練數(shù)據(jù)和計(jì)算的持續(xù)增加帶來(lái)了幾乎令人難以置信的性能提升。 近年來(lái),正是OpenAI對(duì)擴(kuò)展原則的承諾,使該組織躋身人工智能領(lǐng)域的最前沿。隨著OpenAI從 GPT-2 轉(zhuǎn)向 GPT-3、GPT-4 及更高版本,他們構(gòu)建了更大的模型,部署了更多的計(jì)算,并在更大的數(shù)據(jù)集上進(jìn)行了訓(xùn)練,比世界上任何其他組織都解鎖了令人驚嘆的、前所未有的 AI 功能。 標(biāo)度律與蛋白質(zhì)領(lǐng)域有何關(guān)系? 過(guò)去二十年來(lái),科學(xué)突破使得基因測(cè)序變得更加便宜且更容易獲得,可用于訓(xùn)練人工智能模型的 DNA 和蛋白質(zhì)序列數(shù)據(jù)的數(shù)量呈指數(shù)級(jí)增長(zhǎng),遠(yuǎn)遠(yuǎn)超過(guò)了蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)。 因此,這個(gè)領(lǐng)域已經(jīng)成熟,可以進(jìn)行由大語(yǔ)言模型支持的大規(guī)模擴(kuò)展工作,這些努力可能會(huì)在蛋白質(zhì)科學(xué)領(lǐng)域帶來(lái)驚人的新見(jiàn)解和能力。 第一個(gè)使用基于 Transformer 的LLM 來(lái)設(shè)計(jì)從頭蛋白質(zhì)的作品是Salesforce Research 于 2020 年發(fā)表的ProGen 。最初的ProGen模型有 12 億個(gè)參數(shù)。 Madani率先使用大語(yǔ)言模型進(jìn)行蛋白質(zhì)設(shè)計(jì),但他也清楚地意識(shí)到,僅靠原始蛋白質(zhì)序列訓(xùn)練的現(xiàn)成語(yǔ)言模型并不是應(yīng)對(duì)這一挑戰(zhàn)的最有力方法。結(jié)合結(jié)構(gòu)和功能數(shù)據(jù)至關(guān)重要。 “蛋白質(zhì)設(shè)計(jì)的最大進(jìn)步將在于來(lái)自不同來(lái)源的仔細(xì)數(shù)據(jù)管理和可以靈活地從這些數(shù)據(jù)中學(xué)習(xí)的通用模型的交叉點(diǎn),”馬達(dá)尼說(shuō)?!斑@需要利用我們掌握的所有高信號(hào)數(shù)據(jù),包括來(lái)自實(shí)驗(yàn)室的蛋白質(zhì)結(jié)構(gòu)和功能信息。” Nabla決定不開(kāi)發(fā)自己的療法,而是向生物制藥合作伙伴提供其尖端技術(shù),作為幫助他們開(kāi)發(fā)自己的藥物的工具。 隨著世界逐漸認(rèn)識(shí)到蛋白質(zhì)設(shè)計(jì)是一個(gè)巨大且尚未充分開(kāi)發(fā)的領(lǐng)域,可以在其中應(yīng)用大型語(yǔ)言模型看似神奇的功能,預(yù)計(jì)未來(lái)數(shù)月乃至數(shù)年該領(lǐng)域?qū)⒊霈F(xiàn)更多的創(chuàng)業(yè)活動(dòng)。
前方的路 弗朗西斯·阿諾德 (Frances Arnold) 在 2018 年諾貝爾化學(xué)獎(jiǎng)獲獎(jiǎng)感言中表示:“今天,我們可以出于各種實(shí)際目的讀取、寫(xiě)入和編輯任何 DNA 序列,但我們無(wú)法合成它。生命的密碼是一首交響樂(lè),引導(dǎo)著無(wú)數(shù)演奏者和樂(lè)器演奏出復(fù)雜而優(yōu)美的部分。也許我們可以從大自然的成分中剪切和粘貼片段,但我們不知道如何為單個(gè)酶通道寫(xiě)出條形?!?br> 但人工智能可能在生命史上第一次讓我們有能力從頭開(kāi)始真正構(gòu)建全新的蛋白質(zhì)(及其相關(guān)的遺傳密碼),專(zhuān)門(mén)為我們的需求而構(gòu)建。這是一個(gè)令人驚嘆的可能性。 這些新型蛋白質(zhì)將作為多種人類(lèi)疾病的治療藥物,從傳染病到癌癥;他們將幫助基因編輯成為現(xiàn)實(shí);他們將改變材料科學(xué);它們將提高農(nóng)業(yè)產(chǎn)量;它們將中和環(huán)境中的污染物;以及更多我們甚至無(wú)法想象的事情。 但從長(zhǎng)遠(yuǎn)來(lái)看,人工智能的市場(chǎng)應(yīng)用很少有比這更具有前景的。 在未來(lái)的文章中,我們將深入研究蛋白質(zhì)設(shè)計(jì)的大語(yǔ)言模型,包括探索該技術(shù)最引人注目的商業(yè)應(yīng)用,以及計(jì)算結(jié)果和現(xiàn)實(shí)世界濕實(shí)驗(yàn)室實(shí)驗(yàn)之間的復(fù)雜關(guān)系。 語(yǔ)言模型可用于生成其他類(lèi)別的生物分子,特別是核酸。例如,一家名為 Inceptive 的熱門(mén)初創(chuàng)公司正在應(yīng)用大語(yǔ)言模型來(lái)開(kāi)發(fā)新型 RNA 療法。 其他團(tuán)體有著更廣泛的愿望,旨在建立通用的“生物學(xué)基礎(chǔ)模型”,可以融合基因組學(xué)、蛋白質(zhì)序列、細(xì)胞結(jié)構(gòu)、表觀遺傳狀態(tài)、細(xì)胞圖像、質(zhì)譜、空間轉(zhuǎn)錄組學(xué)等多種數(shù)據(jù)類(lèi)型。 設(shè)計(jì)復(fù)雜生物系統(tǒng)的每一個(gè)復(fù)雜細(xì)節(jié)的人工智能系統(tǒng)的想法是令人難以置信的。隨著時(shí)間的推移,這將在我們的掌握之中。 系好安全帶。
圖片來(lái)源: U OF W, ROYAL SOCIETY, HARVARD Proteins 101Deep Learning And Proteins: A Match Made In HeavenInventing New ProteinsScaling LawsThe Road AheadBuckle up. |
|
來(lái)自: 天承辦公室 > 《003價(jià)值規(guī)律》