現(xiàn)有的多模態(tài)數(shù)據(jù)模型通常在功能或可擴(kuò)展性方面受到限制,使得數(shù)據(jù)集成和下游分析變得繁瑣。2024年11月,《Nature Communications》發(fā)表了一種可擴(kuò)展的深度生成模型—— multiDGD,提供了一個(gè)概率框架來(lái)學(xué)習(xí)轉(zhuǎn)錄組和染色質(zhì)可及性的共享表示。在不進(jìn)行特征選擇的情況下,該算法在數(shù)據(jù)重構(gòu)方面表現(xiàn)出優(yōu)異的性能。 multiDGD是什么? multiDGD旨在為改進(jìn)數(shù)據(jù)整合和特征交互分析提供基礎(chǔ)。該模型是深度生成解碼器(DGD)的擴(kuò)展,適用于基因表達(dá)和染色質(zhì)可及性的單細(xì)胞多組學(xué)數(shù)據(jù)。與基于 VAE 的模型不同,它不使用編碼器來(lái)推斷潛表征,而是直接將其作為可訓(xùn)練參數(shù)來(lái)學(xué)習(xí),并采用高斯混合模型(GMM)作為潛空間上更復(fù)雜、更強(qiáng)大的分布。 multiDGD的架構(gòu)和生成過(guò)程示意圖 multiDGD是轉(zhuǎn)錄組學(xué)和染色質(zhì)可及性數(shù)據(jù)的生成模型。它由將兩種模式的共享表征映射到數(shù)據(jù)空間的解碼器和定義潛空間的學(xué)習(xí)分布組成。 multiDGD的功能 開發(fā)團(tuán)隊(duì)在人類和小鼠的多個(gè)數(shù)據(jù)集上證明,multiDGD可以學(xué)習(xí)到聚類良好的聯(lián)合表征。同時(shí)還發(fā)現(xiàn),對(duì)樣本協(xié)變量進(jìn)行概率建模可以實(shí)現(xiàn)事后數(shù)據(jù)整合,而無(wú)需進(jìn)行微調(diào)。此外,開發(fā)團(tuán)隊(duì)還展示了multiDGD可以根據(jù)學(xué)習(xí)到的表征檢測(cè)基因和調(diào)控區(qū)域之間的統(tǒng)計(jì)關(guān)聯(lián)。 與基于VAE的MultiVI相比,multiDGD有了很大的改進(jìn):它提供了一種用于單細(xì)胞分析的流行生成模型架構(gòu),在數(shù)據(jù)重建、跨模態(tài)預(yù)測(cè)和細(xì)胞類型聚類(如果給出標(biāo)簽)方面優(yōu)于MultiVI。 數(shù)據(jù)重建、數(shù)據(jù)效率、聚類和批量效應(yīng)去除的性能評(píng)估 預(yù)測(cè)未知協(xié)變量不再需要模型微調(diào) 預(yù)測(cè)基因表達(dá)與峰值可及性之間的關(guān)聯(lián) 預(yù)測(cè)基因表達(dá)與轉(zhuǎn)錄因子峰值可及性之間的關(guān)聯(lián) multiDGD的代碼和軟件包可在如下鏈接獲?。?/p> ??https://github.com/Center-for-Health-Data-Science/multiDGD. 建議對(duì)技術(shù)細(xì)節(jié)感興趣的小伙伴請(qǐng)參考文獻(xiàn)原文~ 對(duì)于文獻(xiàn)整理過(guò)程中有翻譯不當(dāng)或錯(cuò)誤也歡迎大家在評(píng)論區(qū)留言指出,互相交流學(xué)習(xí)! 更多優(yōu)質(zhì)內(nèi)容請(qǐng)點(diǎn)擊下方名片,關(guān)注“國(guó)家基因庫(kù)大數(shù)據(jù)平臺(tái)”和“深圳國(guó)家基因庫(kù)”公眾號(hào)。 參考文獻(xiàn): Schuster, V., Dann, E., Krogh, A. et al. multiDGD: A versatile deep generative model for multi-omics data. Nat Commun 15, 10031 (2024). https:///10.1038/s41467-024-53340-z
|