研究團(tuán)隊(duì)的評估還突出表明,基于奇異值分解的機(jī)器學(xué)習(xí)算法(如 Guanlab-dengkw 和 LS_Lab)在預(yù)測蛋白質(zhì)豐度或染色質(zhì)可及性方面表現(xiàn)突出。在深度學(xué)習(xí)算法中,利用概率模型的 totalVI 的表現(xiàn)優(yōu)于其他算法。研究團(tuán)隊(duì)還發(fā)現(xiàn)這些數(shù)據(jù)集的稀疏性在一定程度上影響了這些算法預(yù)測蛋白質(zhì)豐度或染色質(zhì)可及性的準(zhǔn)確性。一種可能的解決方案是首先應(yīng)用插補(bǔ)算法,例如 SAVER、WEDGE、totalVI 或 scBasset,來預(yù)測原始數(shù)據(jù)中的缺失值,然后使用插補(bǔ)后的數(shù)據(jù)集進(jìn)行訓(xùn)練和預(yù)測。最近開發(fā)了利用大型語言模型的算法,用于預(yù)測缺失的模態(tài)或整合來自廣泛的單細(xì)胞多組學(xué)數(shù)據(jù)集的多種模態(tài);然而,由于當(dāng)前的硬件限制,上述基準(zhǔn)研究不包括這些基于大型語言模型的預(yù)測或集成算法,如Geneformer、scGPT和scFoundation。
這項(xiàng)基準(zhǔn)研究不僅可以幫助研究人員選擇合適的算法來聯(lián)合分析單細(xì)胞 RNA-seq 和多組學(xué)數(shù)據(jù),還可以幫助研究人員選擇合適的算法來聯(lián)合分析空間轉(zhuǎn)錄組學(xué)數(shù)據(jù)和單細(xì)胞多組學(xué)數(shù)據(jù)。不過,需要注意的是,空間數(shù)據(jù)和非空間數(shù)據(jù)可能呈現(xiàn)不同的分布,這可能會影響算法的性能。
開發(fā)團(tuán)隊(duì)已經(jīng)將用于基準(zhǔn)研究和圖形繪制的代碼和腳本上傳到GitHub:
??https://github.com/QuKunLab/MultiomeBenchmarking/
上述代碼也可以在Zenodo存儲庫中通過以下方式獲取:
?? https:///10.5281/zenodo.10540843