編輯 | 蘿卜皮 準(zhǔn)確預(yù)測破壞性錯(cuò)義變異對于解釋基因組序列至關(guān)重要。盡管已經(jīng)開發(fā)了許多方法,但它們的性能受到限制。機(jī)器學(xué)習(xí)的最新進(jìn)展和大規(guī)模群體基因組測序數(shù)據(jù)的可用性為顯著改善計(jì)算預(yù)測提供了新的機(jī)會。 在這里,哥倫比亞大學(xué)的研究團(tuán)隊(duì)描述了圖錯(cuò)義變異致病性預(yù)測器(gMVP),這是一種基于圖注意神經(jīng)網(wǎng)絡(luò)的新方法。它的主要組成部分是一個(gè)帶有節(jié)點(diǎn)的圖,這些節(jié)點(diǎn)捕獲氨基酸和邊的預(yù)測特征,并通過協(xié)同進(jìn)化強(qiáng)度加權(quán),從而能夠有效地匯集來自局部蛋白質(zhì)上下文和功能相關(guān)的遠(yuǎn)端位置的信息。 對深度突變掃描數(shù)據(jù)的評估表明,gMVP 在識別 TP53、PTEN、BRCA1 和 MSH2 中的破壞性變異方面優(yōu)于其他已發(fā)表的方法。此外,它實(shí)現(xiàn)了神經(jīng)發(fā)育障礙病例中從頭錯(cuò)義變異與對照組病例的最佳分離。同時(shí),該模型支持遷移學(xué)習(xí)以優(yōu)化鈉和鈣通道中的功能獲得和損失預(yù)測。 該研究以「Predicting functional effect of missense variants using graph attention neural networks」為題,于 2022 年 11 月 15 日發(fā)布在《Nature Machine Intelligence》。 錯(cuò)義變異是導(dǎo)致癌癥和發(fā)育障礙遺傳風(fēng)險(xiǎn)的主要因素。錯(cuò)義變體與蛋白質(zhì)截?cái)嘧凅w一起被用來暗示新的風(fēng)險(xiǎn)基因,并負(fù)責(zé)許多臨床基因診斷;然而,大多數(shù)罕見的錯(cuò)義變異可能是良性的或僅具有最小的功能影響。 由于功能影響的不確定性,臨床基因檢測中報(bào)告的大多數(shù)罕見錯(cuò)義變異被歸類為意義不確定的變異,導(dǎo)致歧義、混亂、過度治療和錯(cuò)過臨床干預(yù)的機(jī)會。在通過稀有變異識別新風(fēng)險(xiǎn)基因的人類基因研究中,基于計(jì)算預(yù)測預(yù)先選擇具有破壞性的錯(cuò)義變異是提高統(tǒng)計(jì)能力的必要步驟。因此,計(jì)算方法對于解釋臨床遺傳學(xué)和疾病基因發(fā)現(xiàn)研究中的錯(cuò)義變異至關(guān)重要。 已經(jīng)開發(fā)了許多方法,例如 Polyphen、SIFT、CADD、REVEL、MetaSVM、M-CAP、Eigen、MVP、PrimateAI、模型預(yù)測控制(MPC)和正確分類率(CCR)來解決這個(gè)問題。這些方法在例如預(yù)測特征、特征在模型中的表示方式、訓(xùn)練數(shù)據(jù)集以及模型的訓(xùn)練方式等方面有所不同。序列保守或局部蛋白質(zhì)結(jié)構(gòu)特性是早期計(jì)算方法(如 GERP 和 PolyPhen)的主要預(yù)測特征。MPC 和 CCR 方法從大量人群測序數(shù)據(jù)中估計(jì)亞基因編碼約束,提供過去方法未捕獲的額外信息。PrimateAI 使用深度表示學(xué)習(xí)從序列和局部結(jié)構(gòu)特性中學(xué)習(xí)蛋白質(zhì)上下文。許多研究報(bào)告了功能破壞性錯(cuò)義變體聚集在三維蛋白質(zhì)結(jié)構(gòu)中的證據(jù)。協(xié)同進(jìn)化捕捉位置之間的功能相關(guān)性。近期的研究表明,協(xié)同進(jìn)化有助于提高預(yù)測準(zhǔn)確性。 圖示:gMVP模型概述。(來源:論文) 哥倫比亞大學(xué)的研究人員提出了圖錯(cuò)義變異致病性預(yù)測器(graphical missense variant pathogenicity predictor,gMVP),旨在有效地表示或?qū)W習(xí)所有信息源的表示,以改進(jìn)對錯(cuò)義變異的功能影響的預(yù)測。 gMVP 使用注意力神經(jīng)網(wǎng)絡(luò),通過經(jīng)過大量精心策劃的致病變異訓(xùn)練的監(jiān)督學(xué)習(xí)來學(xué)習(xí)蛋白質(zhì)序列和結(jié)構(gòu)上下文的表示。圖結(jié)構(gòu)允許協(xié)同進(jìn)化引導(dǎo)的遠(yuǎn)端氨基酸位置的預(yù)測信息匯集,這些位置在三維空間中功能相關(guān)或可能接近。 研究人員展示了 gMVP 在臨床基因檢測和新風(fēng)險(xiǎn)基因發(fā)現(xiàn)研究中的實(shí)用性。具體來說,基于深度突變掃描研究的功能讀出數(shù)據(jù),gMVP 在識別已知風(fēng)險(xiǎn)基因中的破壞性變異方面取得了更高的準(zhǔn)確性。 此外,gMVP 在自閉癥或 NDD 病例中優(yōu)先考慮 DNM 方面取得了更好的性能,這表明它可用于預(yù)先選擇破壞性變異或體重變異,以提高新風(fēng)險(xiǎn)基因發(fā)現(xiàn)的統(tǒng)計(jì)能力。另外,通過遷移學(xué)習(xí)技術(shù),即使在沒有額外預(yù)測特征的有限訓(xùn)練集的情況下,gMVP 模型也可以準(zhǔn)確地分類離子通道中的 GOF 和 LOF 變體。 圖示:使用癌癥體細(xì)胞突變熱點(diǎn)和人群中的隨機(jī)變體評估 gMVP 和已發(fā)表的方法。(來源:論文) gMVP 從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)蛋白質(zhì)上下文的表示,而以前的集成方法(如 REVEL、M-CAP、MetaSVM 和 CADD)使用來自其他預(yù)測變量或其他人工工程特征的分?jǐn)?shù)作為輸入。隨著機(jī)器學(xué)習(xí)在蛋白質(zhì)結(jié)構(gòu)預(yù)測方面的最新進(jìn)展,神經(jīng)網(wǎng)絡(luò)表示可以捕捉潛在結(jié)構(gòu),而不是理解生物物理和生化特性的常見線性表示。 研究表明,表示學(xué)習(xí)允許 gMVP 捕捉氨基酸替代對蛋白質(zhì)功能的上下文相關(guān)影響。PrimateAI 是近期發(fā)布的一種方法,它也使用深度表示學(xué)習(xí)。gMVP 在識別已知疾病風(fēng)險(xiǎn)基因中的破壞性變異方面取得了比 PrimateAI 更好的性能,在使用功能讀出數(shù)據(jù)的比較以及優(yōu)先考慮 ASD 和 NDD 研究中的罕見 DNM 方面。 盡管兩種模型都使用進(jìn)化守恒和蛋白質(zhì)結(jié)構(gòu)特性作為特征,但這兩種方法具有完全不同的模型架構(gòu)和訓(xùn)練數(shù)據(jù)。gMVP 使用圖注意力神經(jīng)網(wǎng)絡(luò)來匯集來自具有協(xié)同進(jìn)化強(qiáng)度的遠(yuǎn)端和局部位置的信息,而 PrimateAI 使用卷積神經(jīng)網(wǎng)絡(luò)從蛋白質(zhì)上下文中提取局部模式。 對于訓(xùn)練數(shù)據(jù),gMVP 使用專家策劃的變體和群體中的隨機(jī)變體分別作為訓(xùn)練的正面和負(fù)面。相比之下,PrimateAI 使用靈長類動物中的常見變體作為陰性,使用群體中未觀察到的變體作為陽性。 圖示:評估 gMVP 和已發(fā)表的方法以識別已知疾病基因(如 TP53、PTEN、BRCA1 和 MSH2)中的破壞性變異。(來源:論文) 基于四個(gè)眾所周知的風(fēng)險(xiǎn)基因的功能讀出數(shù)據(jù),只有 15-25% 的隨機(jī)變異對蛋白質(zhì)功能有明顯的影響。因此,在 PrimateAI 訓(xùn)練中使用的陽性結(jié)果可能包含很大一部分誤報(bào)。PrimateAI 的訓(xùn)練策略確實(shí)有優(yōu)勢,它避免了人為解釋偏差和病原變異數(shù)據(jù)庫中的錯(cuò)誤,這是 gMVP 訓(xùn)練中使用的陽性結(jié)果。它還可以涵蓋幾乎所有人類蛋白質(zhì)編碼基因,而諸如 ClinVar 之類的精選數(shù)據(jù)庫僅涵蓋數(shù)百個(gè)基因。此外,靈長類動物中的常見變異可能都是真陰性,而在人群中隨機(jī)觀察到的罕見變異可能具有不可忽略的破壞性變異部分。制作一個(gè)可以在訓(xùn)練中使用所有這些數(shù)據(jù)集的新模型可以進(jìn)一步提高預(yù)測性能。 圖示:評估 gMVP 和已發(fā)表的方法,以區(qū)分神經(jīng)發(fā)育障礙病例與對照組的罕見 DNM。(來源:論文) 之前的幾項(xiàng)研究表明,錯(cuò)義變異的功能影響在三維鄰居之間是相關(guān)的。因此,匯集來自 3D 鄰居的信息可以改進(jìn)對功能影響的預(yù)測。然而,直接考慮三維距離受到以下事實(shí)的限制:大多數(shù)人類蛋白質(zhì)沒有可解決的具有相當(dāng)大覆蓋范圍的三級結(jié)構(gòu)。gMVP 通過獲取大部分蛋白質(zhì)上下文來解決這個(gè)問題,其中包括作為折疊蛋白質(zhì)中潛在鄰居的局部和遠(yuǎn)處位置,然后使用協(xié)同進(jìn)化強(qiáng)度有效地匯集來自潛在三維鄰居的信息。 在圖注意力模型中用作邊特征,協(xié)同進(jìn)化強(qiáng)度允許比沒有先驗(yàn)結(jié)構(gòu)的卷積層更精確地匯集來自遠(yuǎn)處殘差的信息。協(xié)同進(jìn)化信息已被以前的方法用于預(yù)測錯(cuò)義變體的功能影響,例如PIVOTAL,一種有監(jiān)督的集合預(yù)測因子。它結(jié)合了現(xiàn)有方法的得分和EVmutation,是一種無監(jiān)督的方法,它使用多序列比對(MSAs)中的馬爾可夫隨機(jī)場來學(xué)習(xí)協(xié)同進(jìn)化和保守。 此外,協(xié)同進(jìn)化信息已廣泛用于從頭算蛋白質(zhì)結(jié)構(gòu)預(yù)測。CASP14 中 AlphaFold 的非凡性能表明,它包含有關(guān)物理殘基 - 殘基距離的關(guān)鍵信息,可用于準(zhǔn)確預(yù)測人類蛋白質(zhì)組中大多數(shù)蛋白質(zhì)的結(jié)構(gòu)。語言模型 Transformer 最近已應(yīng)用于蛋白質(zhì)序列和 MSA,以提高協(xié)同進(jìn)化強(qiáng)度估計(jì)和蛋白質(zhì)殘基 - 殘基接觸預(yù)測的性能。通過在模型中集成 Transformer 和蛋白質(zhì)三維結(jié)構(gòu)的組件,可以進(jìn)一步改進(jìn) gMVP。另一方面,基于 MSA 的方法僅限于沒有或幾乎沒有同源序列的蛋白質(zhì),并且可以通過使用序列語言建模將學(xué)習(xí)的表示整合到大規(guī)模未標(biāo)記序列數(shù)據(jù)上來改進(jìn)。 圖示:用保守、蛋白質(zhì)結(jié)構(gòu)和遺傳編碼約束解釋 gMVP 預(yù)測。(來源:論文) 通過遷移學(xué)習(xí),經(jīng)過訓(xùn)練的 gMVP 模型可以針對遺傳研究中更具體的任務(wù)進(jìn)行進(jìn)一步優(yōu)化。這個(gè)想法是將從大型訓(xùn)練數(shù)據(jù)集中學(xué)到的一般知識轉(zhuǎn)移到只有有限訓(xùn)練數(shù)據(jù)的新的相關(guān)和更具體的任務(wù)中。訓(xùn)練后的模型可以設(shè)置模型中權(quán)重的初始值,通過進(jìn)一步的訓(xùn)練來更新模型,只探索整個(gè)參數(shù)空間的一個(gè)子空間。哥倫比亞大學(xué)團(tuán)隊(duì)已經(jīng)證明了,它在使用有限數(shù)量的訓(xùn)練數(shù)據(jù)點(diǎn)而沒有額外的預(yù)測特征的情況下,對離子通道基因中的 GOF 和 LOF 變體進(jìn)行分類的可行性。研究人員預(yù)計(jì),通過遷移學(xué)習(xí),gMVP 可以通過訓(xùn)練基因家族特異性模型和識別疾病特異性破壞性變異來潛在地改善變異解釋。 來自深度突變掃描的功能讀出數(shù)據(jù)提供了將變異分類為破壞性或中性的有力證據(jù)。然而,這些體外功能讀數(shù)分析通常僅揭示蛋白質(zhì)在有限數(shù)量的細(xì)胞類型中的一個(gè)方面的功能。因此,它們通常與體內(nèi)變體的功能影響不完全相關(guān)。研究人員期望更全面的深度突變掃描分析將變得可用,并促進(jìn)計(jì)算方法的訓(xùn)練和評估的實(shí)質(zhì)性改進(jìn)。 盡管進(jìn)化守恒仍然是計(jì)算方法中信息量最大的來源之一,但人類的選擇可以為預(yù)測提供補(bǔ)充信息。選擇系數(shù)與等位基因頻率相關(guān),特別是對于強(qiáng)負(fù)選擇下的變體。更大的群體基因組數(shù)據(jù)集可以進(jìn)一步改進(jìn)對稀有變異等位基因頻率的估計(jì)。該團(tuán)隊(duì)負(fù)責(zé)人表示,未來發(fā)布的大量和多樣化的人口基因組數(shù)據(jù)將改善對人類選擇效應(yīng)的估計(jì),進(jìn)而提高 gMVP 的性能。 論文鏈接:https://www./articles/s42256-022-00561-w |
|