撰文:楠煙不可言 IF=53.242 推薦度:????? 亮點(diǎn): 本文討論了用于基因組解釋和與疾病相關(guān)的細(xì)胞、組織和器官的綜合分子級建模的機(jī)器學(xué)習(xí)算法的最新進(jìn)展,強(qiáng)調(diào)了識別特定致病遺傳變異并將它們與分子途徑以及最終與疾病表型聯(lián)系起來的現(xiàn)有方法和關(guān)鍵挑戰(zhàn)和機(jī)遇。 近日由普林斯頓普林斯頓大學(xué)Olga G. Troyanskaya研究組在《Nature Reviews Genetics》雜志上發(fā)表了一篇名為“Decoding disease: from genomes to networks to phenotypes”的綜述。解釋遺傳變異的影響是了解個(gè)體對疾病的易感性和設(shè)計(jì)個(gè)性化治療方法的關(guān)鍵。現(xiàn)代實(shí)驗(yàn)技術(shù)能夠生成大量人類基因組序列數(shù)據(jù)和相關(guān)分子和表型特征的數(shù)據(jù)集合,以及基因組規(guī)模表達(dá)、表觀基因組學(xué)和其他功能基因組數(shù)據(jù)。綜合計(jì)算模型可以利用這些數(shù)據(jù)來了解變異的影響,闡明失調(diào)基因?qū)μ囟膊『徒M織環(huán)境中生物途徑的影響,并解釋超出單獨(dú)實(shí)驗(yàn)可行范圍的疾病風(fēng)險(xiǎn)。在這篇綜述中,研究人員討論了用于基因組解釋和與疾病相關(guān)的細(xì)胞、組織和器官的綜合分子級建模的機(jī)器學(xué)習(xí)算法的最新進(jìn)展。這篇綜述還強(qiáng)調(diào)了識別特定致病遺傳變異并將它們與分子途徑以及最終與疾病表型聯(lián)系起來的現(xiàn)有方法和關(guān)鍵挑戰(zhàn)和機(jī)遇。 了解人類疾病需要對基因組進(jìn)行全面解釋,包括表征任何變異對基因功能和調(diào)節(jié)的影響。從廣義上講,這意味著對于 DNA 中的任何堿基的變化都必須精確識別其對生化特性(例如蛋白質(zhì)結(jié)構(gòu)、剪接和表達(dá)水平)的影響,然后根據(jù)其表型結(jié)果來解釋這些影響。在過去十年中,研究從基因組測序中獲得了大量數(shù)據(jù),分析了正常的遺傳變異和疾病相關(guān)的突變。同時(shí),分析各種細(xì)胞和組織的表觀基因組景觀的功能實(shí)驗(yàn)使得控制基因表達(dá)的位置和時(shí)間的調(diào)節(jié)信號成為了可能。在這篇綜述中,作者討論了使用組學(xué)數(shù)據(jù)來解釋與疾病相關(guān)的遺傳變異的挑戰(zhàn)和進(jìn)展。文章涵蓋了遺傳變異的主要來源和預(yù)測非編碼突變調(diào)節(jié)效應(yīng)的最新方法學(xué)進(jìn)展——包括生化、基因表達(dá)和致病影響。最后,作者討論了將組學(xué)數(shù)據(jù)整合到組織特異性系統(tǒng)級模型中的方法,這些模型隨后可用于識別與特定疾病相關(guān)的基因和失調(diào)的生物過程。 表征遺傳變異:技術(shù)的進(jìn)步以及相關(guān)成本的降低使對數(shù)十萬人的基因組進(jìn)行測序成為可能,并且已經(jīng)啟動了旨在對數(shù)百萬參與者的完整基因組進(jìn)行測序的項(xiàng)目。可用基因組數(shù)據(jù)的增長使得在破譯人類表型變異和疾病特征的遺傳基礎(chǔ)方面取得了巨大進(jìn)展。與此同時(shí),了解特定遺傳變化的功能影響仍然具有挑戰(zhàn)性,特別是對于基因組非編碼區(qū)域改變的探索。序列變體可以在幾個(gè)不同的分辨率級別進(jìn)行分析。單核苷酸多態(tài)性 (SNP) 陣列可用于對整個(gè)基因組的多態(tài)性位置進(jìn)行基因分型,可分析超過一百萬個(gè) SNP。此外,GWAS 可以識別與性狀相關(guān)的連鎖不平衡中的多個(gè)位置,在這種情況下,需要通過精細(xì)定位進(jìn)一步研究相關(guān)的 SNP,以查明與性狀相關(guān)的等位基因。遺傳變異也可以通過基因組測序來識別,它可以覆蓋有限的區(qū)域或幾乎整個(gè)基因組??梢詫μ囟ɑ蚪M進(jìn)行測序,以測試患者已知或懷疑與疾病有關(guān)的外顯子突變?;蛎姘鍣z測現(xiàn)在已在臨床實(shí)踐中常規(guī)使用,例如用于預(yù)測乳腺癌風(fēng)險(xiǎn)。發(fā)現(xiàn)突變的功能影響并將這些影響歸因于疾病因果關(guān)系是一項(xiàng)重大挑戰(zhàn)。大規(guī)模測序數(shù)據(jù)已被用于根據(jù)觀察到的與預(yù)期的變異模式來識別可能與疾病相關(guān)的基因組區(qū)域。對于基于人群的研究,盡管大數(shù)據(jù)分析將越來越多的基因座與疾病聯(lián)系起來,但對于復(fù)雜的、高度多基因的疾病,需要大量樣本(數(shù)千萬個(gè)體)來解開大多數(shù)相關(guān)位點(diǎn)的因果關(guān)系,每個(gè)位點(diǎn)可能單獨(dú)對易感性產(chǎn)生很小的影響。此外,許多可能的突變從未被觀察到,要么是因?yàn)樗鼈儧]有出現(xiàn)在給定的樣本中,要么是因?yàn)樗鼈冊诔錾笆侵旅?。因此,需要不依賴于觀察群體變化的方法來補(bǔ)充基于觀察的研究,以便理清基因組序列和疾病特征之間的關(guān)系(圖1)。 編碼突變的解析:用于評估基因組編碼部分遺傳改變影響的計(jì)算框架,用于解釋非編碼變異的方法來說相對成熟。多種類型的證據(jù),例如蛋白質(zhì)序列的改變類型(錯(cuò)義、無義或移碼)、參考和取代氨基酸之間的相似程度、改變位置的進(jìn)化保守性以及對蛋白質(zhì)的預(yù)測生物物理影響結(jié)構(gòu)有助于理解基因組編碼部分變化的可能影響。目前已經(jīng)開發(fā)了大量方法來利用這些因素來預(yù)測編碼突變的影響:一類方法主要依靠序列保守性來預(yù)測變異效應(yīng),另一類則用于關(guān)鍵特征涉及蛋白質(zhì)結(jié)構(gòu)的預(yù)測。用于理解編碼遺傳變異影響的模型在識別導(dǎo)致人類疾病的等位基因方面發(fā)揮了關(guān)鍵作用。這些方法的優(yōu)勢在于它們的輸出通常易于解釋。然而,用于理解編碼變異影響的大多數(shù)方法都是高度定制的,以利用基因組蛋白質(zhì)編碼部分的特性。需要根本不同的計(jì)算方法來闡明非編碼變體的影響。 模擬轉(zhuǎn)錄效應(yīng):由于人類基因組中只有一小部分基因是編碼蛋白質(zhì)的,然而大多數(shù)變異位于基因組的非編碼部分,因此開發(fā)能夠解決理解非編碼變異影響問題的方法是一項(xiàng)重大挑戰(zhàn)。模擬非編碼序列與影響基因調(diào)控的特性(例如染色質(zhì)修飾、DNA 可及性和轉(zhuǎn)錄因子結(jié)合)之間關(guān)系的方法可用于預(yù)測基因組非編碼部分變異的影響??山忉屇P偷拈_發(fā)至關(guān)重要,因?yàn)樗鼈兛梢詭砩飳W(xué)洞察力,但由于深度學(xué)習(xí)框架由多層變換組成,并且實(shí)際上將輸入數(shù)據(jù)進(jìn)行復(fù)雜的數(shù)學(xué)變換,因此通常很難追蹤輸入特征對最終預(yù)測的貢獻(xiàn)。向更廣泛的生物醫(yī)學(xué)界提供深度學(xué)習(xí)模型和資源是加速研究人員開發(fā)和采用的關(guān)鍵(圖2)。 模擬轉(zhuǎn)錄后效應(yīng):改變基因轉(zhuǎn)錄后特性的變體,例如與 RNA 結(jié)合蛋白的相互作用或剪接,也可能導(dǎo)致疾病?;谛蛄械纳疃葘W(xué)習(xí)模型可用于預(yù)測特定變異的精確轉(zhuǎn)錄后效應(yīng),包括同義突變的調(diào)控效應(yīng)。 破譯致病性變異效應(yīng):為了破譯變異在導(dǎo)致疾病過程中的重要性,超越生化效應(yīng)并了解疾病影響以及最終的臨床后果至關(guān)重要。幾個(gè)數(shù)據(jù)資源匯總了有關(guān)變體影響的數(shù)據(jù)。例如,ClinVar 數(shù)據(jù)庫是來自美國國立衛(wèi)生研究院 (NIH) 的公共資源,迄今為止,該數(shù)據(jù)庫已匯編了超過 800,000 種遺傳變異的信息,這些變異被注釋為多種疾病并具有不同程度的臨床意義。通過綜合和提供有關(guān)致病變異的當(dāng)前知識狀態(tài),此類數(shù)據(jù)庫為解釋遺傳數(shù)據(jù)提供了寶貴的資源。 綜合網(wǎng)絡(luò)模型:盡管序列模型可以預(yù)測突變的分子效應(yīng),包括對組織特異性基因表達(dá)的影響,但解釋這些改變?nèi)绾螌?dǎo)致疾病表型需要了解失調(diào)的途徑和過程。最近的研究提供了即使是具有微弱影響的常見變異仍然可以增加疾病易感性的理論提出了一種“全基因模型”,其中在疾病相關(guān)組織中表達(dá)的任何基因都可以通過在過程、途徑和途徑中共同發(fā)揮作用的基因之間的相互作用來影響核心疾病基因。這種模型需要捕獲跨細(xì)胞類型和生理?xiàng)l件的共享和獨(dú)特過程。需要復(fù)雜的計(jì)算技術(shù)來從原始數(shù)據(jù)集中提取特定的生物關(guān)系。 大量遺傳學(xué)數(shù)據(jù)的網(wǎng)絡(luò)分析:基于網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)方法可用于利用先前的實(shí)驗(yàn)知識并改進(jìn)對大規(guī)模定量遺傳學(xué)研究或個(gè)體靶向、特定疾病研究的解釋。直觀地說,這些方法使用有關(guān)在這些網(wǎng)絡(luò)中編碼的通路的功能基因組信息來增加遺傳學(xué)研究中的信噪比。非編碼調(diào)控變異可以與推定的靶基因相關(guān)聯(lián),然后這些靶基因可以進(jìn)行基于網(wǎng)絡(luò)的分析(圖3)。 疾病的分子結(jié)構(gòu):大量方法旨在基于總結(jié)大型組學(xué)數(shù)據(jù)集合的分子網(wǎng)絡(luò)來識別候選疾病基因。這些方法分析網(wǎng)絡(luò)中已知疾病基因(來自文獻(xiàn)、GWAS 等)的連接模式,并識別具有相似模式的新候選基因。重要的是,用于疾病基因預(yù)測的分子網(wǎng)絡(luò)對于準(zhǔn)確和相關(guān)的預(yù)測至關(guān)重要,特別是因?yàn)榧膊”澈蟮氖д{(diào)基因經(jīng)常參與組織特異性和背景特異性過程。網(wǎng)絡(luò)分析提供了一種強(qiáng)大的方法來分析和可視化基因或基因組之間的關(guān)系,例如識別闡明疾病相關(guān)基因之間功能主題的分組。這些預(yù)測疾病關(guān)聯(lián)的方法的前景在很大程度上取決于可用分子網(wǎng)絡(luò)的質(zhì)量和覆蓋范圍。重要的是,集成網(wǎng)絡(luò)模型可以適應(yīng)新組學(xué)數(shù)據(jù)(例如,代謝組學(xué)、脂質(zhì)組學(xué)和蛋白質(zhì)組學(xué))和測序(組織內(nèi)和跨疾病的單細(xì)胞類型)不斷增長的廣度和規(guī)模(圖4)。 總而言之,理解人類疾病過程的另一個(gè)關(guān)鍵方向是在與疾病相關(guān)的生物學(xué)背景下開發(fā)網(wǎng)絡(luò)和途徑模型,包括特定的細(xì)胞類型、發(fā)育階段和環(huán)境條件。確定與特定疾病最相關(guān)的基因、模塊和途徑,以及闡明網(wǎng)絡(luò)干擾和失調(diào)如何導(dǎo)致疾病,是研究的一個(gè)重要方向。通過考慮網(wǎng)絡(luò)布線中的組織差異,可以提高此類模型的準(zhǔn)確性和疾病相關(guān)性,其中包括理解特定細(xì)胞類型和器官系統(tǒng)中疾病過程的關(guān)鍵差異。 教授介紹 Olga G. Troyanskaya,計(jì)算機(jī)科學(xué)和 Lewis Sigler 綜合基因組學(xué)研究所教授,主要研究興趣和研究領(lǐng)域?yàn)樯镄畔W(xué),分析大規(guī)模生物數(shù)據(jù)集(基因組學(xué)、基因表達(dá)、蛋白質(zhì)組學(xué)、生物網(wǎng)絡(luò)),以及用于集成來自多個(gè)數(shù)據(jù)源的數(shù)據(jù)的算法;生物數(shù)據(jù)的可視化;生物信息學(xué)中的機(jī)器學(xué)習(xí)方法。 參考文獻(xiàn) 1、Aaron K. Wong, Rachel S. G. Sealfon, Chandra L. Theesfeld et al. Decodingdisease: from genomes to networks to phenotypes (2021).https://www./articles/s41576-021-00389-x |
|