【原】Nat Methods | 單細(xì)胞多組學(xué)整合算法的基準(zhǔn)測試

尐尐呅 2024-11-12 發(fā)布于湖北

展開全文

單細(xì)胞多組學(xué)技術(shù)的發(fā)展極大地增強(qiáng)了我們對生物學(xué)的理解，與此同時，許多算法已被提出來從單細(xì)胞轉(zhuǎn)錄組信息中預(yù)測細(xì)胞的蛋白質(zhì)豐度和/或染色質(zhì)可及性，并整合各種類型的單細(xì)胞多組學(xué)數(shù)據(jù)。然而，很少有研究系統(tǒng)地比較和評估這些算法的性能。2024年9月，《Nature Methods》發(fā)表綜述文章，使用47 個單細(xì)胞多組學(xué)數(shù)據(jù)集對14種蛋白質(zhì)豐度/染色質(zhì)可及性預(yù)測算法和18種單細(xì)胞多組學(xué)整合算法進(jìn)行了基準(zhǔn)研究。

用于基準(zhǔn)測試的工作流程和多組學(xué)數(shù)據(jù)集

為了評估每種算法的性能，研究團(tuán)隊(duì)計(jì)算了單細(xì)胞 RNA + 蛋白質(zhì)數(shù)據(jù)集的預(yù)測矩陣與參考矩陣之間的細(xì)胞-細(xì)胞和蛋白質(zhì)-蛋白質(zhì)皮爾遜相關(guān)系數(shù)（PCC），以及單細(xì)胞 RNA + ATAC 數(shù)據(jù)集的細(xì)胞-細(xì)胞和峰-峰 PCC，PCC 值越高表示預(yù)測準(zhǔn)確率越高。在ATAC-seq數(shù)據(jù)中，“峰 ”指的是可訪問的 DNA 片段。鑒于參考矩陣的二進(jìn)制性質(zhì)，使用接收者操作特征下面積（AUROC）來評估染色質(zhì)可及性預(yù)測算法的準(zhǔn)確性，AUROC越高表示性能越好。為了評估每種算法的誤差，計(jì)算了測試集的兩個細(xì)胞間相關(guān)矩陣，一個是算法預(yù)測的蛋白質(zhì)豐度或染色質(zhì)可及性，另一個是參考數(shù)據(jù)。然后，用兩個相關(guān)矩陣之間的差值（即相關(guān)矩陣距離，CMD）來表示預(yù)測誤差。研究團(tuán)隊(duì)還計(jì)算了蛋白質(zhì)-蛋白質(zhì)或峰-峰相關(guān)矩陣的 CMD，以表示這些算法在預(yù)測蛋白質(zhì)豐度或 DNA 可及性模式時的誤差，還利用均方根誤差（RMSE）來量化預(yù)測值與參考值之間的偏差。

研究團(tuán)隊(duì)還定義了一個等級指數(shù)（RI），在六個指標(biāo)（即細(xì)胞-細(xì)胞 PCC、蛋白質(zhì)-蛋白質(zhì) PCC、細(xì)胞 CMD、蛋白質(zhì)-蛋白質(zhì) CMD、AUROC 和 RMSE）和兩種情況（即數(shù)據(jù)集內(nèi)和數(shù)據(jù)集間）下綜合考慮每種算法。如果一個算法的 PCC/AUROC 值高于所有算法的 PCC/AUROC 值中位數(shù)，或者其 CMD/RMSE 值低于 CMD/RMSE 中位數(shù)，則該算法將被賦予 1 分（具體參考方法部分）。然后將六項(xiàng)指標(biāo)和兩種方案的得分匯總計(jì)算出 RI 值，對算法的整體性能進(jìn)行評估。

在預(yù)測蛋白質(zhì)豐度方面，totalVI 和 scArches 的總體表現(xiàn)優(yōu)于其他算法，而在預(yù)測染色質(zhì)可及性方面，LS_Lab 在大多數(shù)情況下是表現(xiàn)最好的算法。Seurat、MOJITOO 和 scAI 成為縱向整合的領(lǐng)先算法，而 totalVI 和 UINMF 則在橫向整合和馬賽克整合場景中表現(xiàn)出色。

totalVI 和 scArches 在預(yù)測蛋白質(zhì)豐度方面表現(xiàn)最好。

LS_Lab 在預(yù)測染色質(zhì)可及性方面在大多數(shù)情況下優(yōu)于其他算法。

在縱向整合方面，Seurat 和 MOJITOO 在合并 RNA 表達(dá)和蛋白質(zhì)豐度方面表現(xiàn)最佳。

在橫向整合方面，totalVI在整合多批單細(xì)胞RNA+蛋白質(zhì)數(shù)據(jù)方面表現(xiàn)出了優(yōu)勢，而UINMF在整合多批次單細(xì)胞RNA+ATAC數(shù)據(jù)方面表現(xiàn)出色。

在馬賽克整合方面，totalVI 被強(qiáng)烈推薦用于將 scRNA-seq 與單細(xì)胞 RNA+蛋白質(zhì)數(shù)據(jù)相結(jié)合，而 UINMF 對于其他馬賽克整合場景特別有效。

研究團(tuán)隊(duì)的評估還突出表明，基于奇異值分解的機(jī)器學(xué)習(xí)算法（如 Guanlab-dengkw 和 LS_Lab）在預(yù)測蛋白質(zhì)豐度或染色質(zhì)可及性方面表現(xiàn)突出。在深度學(xué)習(xí)算法中，利用概率模型的 totalVI 的表現(xiàn)優(yōu)于其他算法。研究團(tuán)隊(duì)還發(fā)現(xiàn)這些數(shù)據(jù)集的稀疏性在一定程度上影響了這些算法預(yù)測蛋白質(zhì)豐度或染色質(zhì)可及性的準(zhǔn)確性。一種可能的解決方案是首先應(yīng)用插補(bǔ)算法，例如 SAVER、WEDGE、totalVI 或 scBasset，來預(yù)測原始數(shù)據(jù)中的缺失值，然后使用插補(bǔ)后的數(shù)據(jù)集進(jìn)行訓(xùn)練和預(yù)測。最近開發(fā)了利用大型語言模型的算法，用于預(yù)測缺失的模態(tài)或整合來自廣泛的單細(xì)胞多組學(xué)數(shù)據(jù)集的多種模態(tài)；然而，由于當(dāng)前的硬件限制，上述基準(zhǔn)研究不包括這些基于大型語言模型的預(yù)測或集成算法，如Geneformer、scGPT和scFoundation。

這項(xiàng)基準(zhǔn)研究不僅可以幫助研究人員選擇合適的算法來聯(lián)合分析單細(xì)胞 RNA-seq 和多組學(xué)數(shù)據(jù)，還可以幫助研究人員選擇合適的算法來聯(lián)合分析空間轉(zhuǎn)錄組學(xué)數(shù)據(jù)和單細(xì)胞多組學(xué)數(shù)據(jù)。不過，需要注意的是，空間數(shù)據(jù)和非空間數(shù)據(jù)可能呈現(xiàn)不同的分布，這可能會影響算法的性能。

開發(fā)團(tuán)隊(duì)已經(jīng)將用于基準(zhǔn)研究和圖形繪制的代碼和腳本上傳到GitHub：

??https://github.com/QuKunLab/MultiomeBenchmarking/

上述代碼也可以在Zenodo存儲庫中通過以下方式獲取:

?? https:///10.5281/zenodo.10540843

多優(yōu)質(zhì)內(nèi)容請點(diǎn)擊下方名片，關(guān)注“國家基因庫大數(shù)據(jù)平臺”和“深圳國家基因庫”公眾號。

參考文獻(xiàn)

Hu, Y., Wan, S., Luo, Y. et al. Benchmarking algorithms for single-cell multi-omics prediction and integration. Nat Methods (2024). https:///10.1038/s41592-024-02429-w