【原】Nat. Rev. Genet. | 通過(guò)可解釋人工智能從深度學(xué)習(xí)中獲得遺傳學(xué)見(jiàn)解

DrugAI 2022-10-09 發(fā)布于韓國(guó)

展開(kāi)全文

今天為大家介紹的是來(lái)自Maxwell W. Libbrecht，Wyeth W. Wasserman和Sara Mostafavi的一篇關(guān)于人工智能對(duì)于基因組學(xué)的可解釋性的研究的綜述?；谏疃葘W(xué)習(xí)的人工智能（AI）模型現(xiàn)在代表了基因組學(xué)研究中進(jìn)行功能預(yù)測(cè)的最先進(jìn)水平。然而，模型預(yù)測(cè)的基礎(chǔ)往往是未知的。對(duì)于基因組學(xué)研究人員來(lái)說(shuō)，這種缺失的解釋性信息往往比預(yù)測(cè)本身更有價(jià)值，因?yàn)樗梢允谷藗儗?duì)遺傳過(guò)程有新的認(rèn)識(shí)。作者回顧了可解釋人工智能（xAI）新興領(lǐng)域的進(jìn)展，以啟發(fā)生命科學(xué)研究人員對(duì)復(fù)雜深度學(xué)習(xí)模型的洞察力。之后，作者分類(lèi)討論了模型解釋的方法，包括直觀地理解每種方法的工作原理及其在典型高通量生物數(shù)據(jù)集中的基本假設(shè)和局限性。

在接下來(lái)的章節(jié)中，作者首先介紹了關(guān)于深度學(xué)習(xí)方法在調(diào)節(jié)基因組學(xué)中如何使用的基礎(chǔ)知識(shí)，然后對(duì)四種解釋方法進(jìn)行了分類(lèi)：基于模型的解釋、影響的數(shù)學(xué)傳播、特征之間相互作用的識(shí)別以及透明模型的先驗(yàn)知識(shí)的使用（圖1）。在整個(gè)綜述中，作者使用了調(diào)控基因組學(xué)領(lǐng)域的例子，其所提出的概念可以廣泛推廣。

圖1：可解釋人工智能的概念方法

深度學(xué)習(xí)之于調(diào)控基因組學(xué)

神經(jīng)網(wǎng)絡(luò)和序列-活性模型

深度神經(jīng)網(wǎng)絡(luò)（DNN）模型已成為調(diào)控基因組學(xué)預(yù)測(cè)模型的主要類(lèi)型。本綜述重點(diǎn)介紹基于神經(jīng)網(wǎng)絡(luò)的序列-活性模型。這些模型以假定的調(diào)控DNA序列（通常為100–10000 bp）為輸入，旨在預(yù)測(cè)序列活性的某些動(dòng)態(tài)特性（即細(xì)胞或環(huán)境特異性）。目前對(duì)于如何為給定任務(wù)設(shè)計(jì)最佳神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)沒(méi)有共識(shí)，因此研究人員通常使用多種結(jié)構(gòu)進(jìn)行實(shí)驗(yàn)。

DNN模型為何解釋困難？

作者總結(jié)了DNN模型的三大挑戰(zhàn)。首先，DNN對(duì)潛在特征表示進(jìn)行編碼的高容量導(dǎo)致了最先進(jìn)的預(yù)測(cè)精度，但它也面臨著識(shí)別模型所學(xué)習(xí)的特征和特征組合的挑戰(zhàn)。第二個(gè)挑戰(zhàn)是從局部解釋?zhuān)ㄒ淮喂烙?jì)給定輸入示例上的特征重要性）到對(duì)整個(gè)數(shù)據(jù)集上的重要特征組合的全局理解。另一個(gè)關(guān)鍵困難是無(wú)法系統(tǒng)地評(píng)估解釋策略，首先是因?yàn)槿狈鶞?zhǔn)數(shù)據(jù)集，其中真正的重要特征集是提前知道的，其次是因?yàn)楦鞣N算法所做假設(shè)的有效性取決于輸入數(shù)據(jù)集的屬性和所涉及的生物過(guò)程。

基于模型的解釋

模型解釋的直觀方法是檢查網(wǎng)絡(luò)的各個(gè)組件，以了解它們代表的（隱藏的）模式及其對(duì)預(yù)測(cè)性能的貢獻(xiàn)?？梢钥紤]基于模型的解釋的兩種主要方法類(lèi)別：最簡(jiǎn)單的方法是直接檢查隱藏神經(jīng)元的活動(dòng)，以提取一組相關(guān)特征；第二種方法是使用注意機(jī)制訓(xùn)練模型，通過(guò)一組學(xué)習(xí)的注意權(quán)重直接產(chǎn)生每個(gè)輸入特征的相關(guān)性度量。在本節(jié)中，作者描述了如何將這些方法應(yīng)用于序列-活性模型，以了解網(wǎng)絡(luò)第一層學(xué)習(xí)到的單個(gè)特征。

解釋第一層卷積節(jié)點(diǎn)

在卷積序列-活性模型中，第一層神經(jīng)元（濾波器）捕獲短序列模體，編碼在卷積權(quán)重矩陣中。從數(shù)學(xué)上講，將卷積權(quán)重矩陣應(yīng)用于序列所執(zhí)行的操作相當(dāng)于使用位置權(quán)重矩陣（PWM）掃描序列（圖2a）。在實(shí)踐中，常見(jiàn)的策略是搜索在選定閾值以上激活給定濾波器的子序列，并根據(jù)激活子序列集的對(duì)齊情況直接構(gòu)建PWM（圖2b）。由于神經(jīng)網(wǎng)絡(luò)在設(shè)計(jì)上過(guò)于參數(shù)化，僅僅存在PWM并不意味著它是一個(gè)預(yù)測(cè)性、有趣或有用的特征。因此，我們需要測(cè)量PWM對(duì)模型預(yù)測(cè)的貢獻(xiàn)。在基于節(jié)點(diǎn)的策略中，這是通過(guò)依次對(duì)每個(gè)濾波器進(jìn)行置零，并測(cè)量這種置零對(duì)模型預(yù)測(cè)結(jié)果的影響來(lái)實(shí)現(xiàn)的（圖2c）。

圖2：基于模型的解釋方法

用于可視化特征重要性的注意權(quán)重機(jī)制

先前的實(shí)證研究表明，將注意力權(quán)重按順序直接解釋為活動(dòng)設(shè)置方面有一定的前景。注意力可以被視為一種權(quán)重正則化形式，其為輸入序列引入了權(quán)重，以對(duì)輸入中的位置進(jìn)行優(yōu)先級(jí)排序，盡可能保留相關(guān)信息以進(jìn)行處理。注意力機(jī)制可以提高神經(jīng)網(wǎng)絡(luò)模型的性能和可解釋性。顧名思義，當(dāng)與模型訓(xùn)練相結(jié)合時(shí)，注意力權(quán)重迫使模型在學(xué)習(xí)隱藏特征的同時(shí)關(guān)注輸入的有限部分。在序列-活性模型的情況下，可以直接檢查注意力向量，以幫助識(shí)別在模型內(nèi)部表示中起關(guān)鍵作用的輸入部分（圖2d）。

影響的數(shù)學(xué)傳播

該算法通過(guò)在模型中傳播擾動(dòng)數(shù)據(jù)并觀察對(duì)預(yù)測(cè)的影響，直接對(duì)輸入示例進(jìn)行操作?；趥鞑サ臍w因方法可以分為兩大類(lèi)：向前和向后。在本節(jié)中，作者討論了最流行的歸因方法背后的概念基礎(chǔ)、它們的缺點(diǎn)以及遺傳數(shù)據(jù)背景下的緩解策略。

影響的正向傳播

本節(jié)主要介紹了硅誘變（ISM）策略。ISM與圖像像素翻轉(zhuǎn)類(lèi)似，考慮翻轉(zhuǎn)與生物序列核苷酸相對(duì)應(yīng)的元素，以確定訓(xùn)練模型的特征重要性（圖3a）。與單核苷酸ISM不同，輸入序列的較大延伸可以改變，以識(shí)別依賴(lài)于重要堿基對(duì)組合的重要基序（類(lèi)似于實(shí)驗(yàn)室掃描誘變）（圖3b）。

影響的反向傳播

由于生成準(zhǔn)確統(tǒng)計(jì)數(shù)據(jù)需要大量的前向傳遞，因此前向傳播方法的計(jì)算成本很高。反向傳播方法是為了解決這個(gè)問(wèn)題而開(kāi)發(fā)的。這些方法通過(guò)評(píng)估給定輸入序列下模型F的導(dǎo)數(shù)來(lái)近似ISM，以計(jì)算序列的微小變化對(duì)模型預(yù)測(cè)的影響（圖3c）。

從局部傳播結(jié)果到全局解釋

為了從基于傳播的方法生成的逐序列屬性圖中進(jìn)行概括，以揭示對(duì)重要模體的全局理解，需要聚合許多輸入示例的結(jié)果?？梢允褂肨FMoDisco作為針對(duì)DNA輸入序列的方法。

圖3：基于傳播的解釋方法

特征之間相互作用的識(shí)別

在基因調(diào)控的背景下，人們普遍認(rèn)識(shí)到，轉(zhuǎn)錄因子（TF）之間的相互作用可以解釋除單獨(dú)附著于每個(gè)TF之外的活動(dòng)。本節(jié)描述了前面提到的生成局部解釋的方法如何解釋特征之間的相互作用。

基于模型的交互識(shí)別

檢查較深層的神經(jīng)元是一個(gè)明顯策略。神經(jīng)網(wǎng)絡(luò)的較深層往往會(huì)聚合在較低層中學(xué)習(xí)到的特征。搜索那些最大限度地激活給定隱藏神經(jīng)元的輸入，效果最好?？梢詰?yīng)用自注意機(jī)制模型來(lái)實(shí)現(xiàn)對(duì)神經(jīng)元重要程度的量化。

通過(guò)數(shù)學(xué)傳播解釋相互作用

基于ISM的傳播方法（向前和向后）可以用于解釋模型內(nèi)的交互。但該領(lǐng)域應(yīng)用ISM的計(jì)算成本非常高?？梢砸允芟薜姆绞綉?yīng)用來(lái)降低其計(jì)算成本，這些方式包括：將兩個(gè)基序插入隨機(jī)序列，對(duì)包含特定基序?qū)Φ男蛄羞M(jìn)行有針對(duì)性的分析（圖4a）；正向和反向傳播方法的折衷結(jié)合，即深層特征交互圖（DFIM）（圖4b）。

圖4：揭示模型特征之間相互作用的方法

透明模型中先驗(yàn)知識(shí)的應(yīng)用

透明神經(jīng)網(wǎng)絡(luò)模型是這樣一種模型，其中隱藏的節(jié)點(diǎn)被構(gòu)造成在物理上對(duì)應(yīng)于粒度級(jí)別上的生物單元，這有助于解釋更深層的隱藏節(jié)點(diǎn)（圖5）。圖5a展示了根據(jù)已知的TF綁定基序初始化過(guò)濾器，以演示如何使用先驗(yàn)知識(shí)來(lái)設(shè)計(jì)網(wǎng)絡(luò)架構(gòu)，構(gòu)建具有固有可解釋單元的模型。圖5b展示了如何檢查訓(xùn)練的模型，以深入了解給定上下文中存在的此類(lèi)先驗(yàn)交互作用。

圖5：利用先驗(yàn)知識(shí)構(gòu)造透明神經(jīng)網(wǎng)絡(luò)

結(jié)論和未來(lái)展望

在本綜述中，作者重點(diǎn)介紹了序列-活性模型，其所述的xAI方法可廣泛應(yīng)用于基因組學(xué)的深度學(xué)習(xí)應(yīng)用。模型解釋的目的和效用在很大程度上取決于目標(biāo)應(yīng)用，因此應(yīng)該根據(jù)目標(biāo)指導(dǎo)解釋方法的選擇。解釋模型有其實(shí)際意義，但也不可盲目相信。解釋模型可用于識(shí)別訓(xùn)練數(shù)據(jù)中存在的虛假相關(guān)性，防止預(yù)測(cè)模型通過(guò)學(xué)習(xí)非生物“捷徑”實(shí)現(xiàn)高精度。然而，解釋模型的“不可識(shí)別性”阻礙了解釋的可靠性。因此，必須謹(jǐn)慎使用解釋模型，并理解某些特性以及由此產(chǎn)生的特征可能是偶然的結(jié)果。對(duì)于哪種xAI方法最有效還沒(méi)有達(dá)成共識(shí)，作者預(yù)計(jì)，隨著這一領(lǐng)域的成熟，最佳實(shí)踐將得到確立，并集成到可訪(fǎng)問(wèn)的分析工具中。隨著生物數(shù)據(jù)集的規(guī)模和可用性的增長(zhǎng)，使用模型研究特征之間的復(fù)雜關(guān)系變得越來(lái)越重要。從這些模型中提取洞察力需要有效的xAI方法。因此，xAI將在基因組學(xué)中發(fā)揮越來(lái)越重要的作用。

參考資料

Novakovsky, G., Dexter, N., Libbrecht, M.W. et al. Obtaining genetics insights from deep learning via explainable artificial intelligence. Nat Rev Genet (2022).

https:///10.1038/s41576-022-00532-2