一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

Nat Methods | 單細(xì)胞多組學(xué)整合算法的基準(zhǔn)測試

 尐尐呅 2024-11-12 發(fā)布于湖北

單細(xì)胞多組學(xué)技術(shù)的發(fā)展極大地增強(qiáng)了我們對生物學(xué)的理解,與此同時,許多算法已被提出來從單細(xì)胞轉(zhuǎn)錄組信息中預(yù)測細(xì)胞的蛋白質(zhì)豐度和/或染色質(zhì)可及性,并整合各種類型的單細(xì)胞多組學(xué)數(shù)據(jù)。然而,很少有研究系統(tǒng)地比較和評估這些算法的性能。2024年9月,Nature Methods》發(fā)表綜述文章,使用47 個單細(xì)胞多組學(xué)數(shù)據(jù)集對14種蛋白質(zhì)豐度/染色質(zhì)可及性預(yù)測算法和18種單細(xì)胞多組學(xué)整合算法進(jìn)行了基準(zhǔn)研究。

用于基準(zhǔn)測試的工作流程和多組學(xué)數(shù)據(jù)集

為了評估每種算法的性能,研究團(tuán)隊(duì)計(jì)算了單細(xì)胞 RNA + 蛋白質(zhì)數(shù)據(jù)集的預(yù)測矩陣與參考矩陣之間的細(xì)胞-細(xì)胞和蛋白質(zhì)-蛋白質(zhì)皮爾遜相關(guān)系數(shù)(PCC),以及單細(xì)胞 RNA + ATAC 數(shù)據(jù)集的細(xì)胞-細(xì)胞和峰-峰 PCC,PCC 值越高表示預(yù)測準(zhǔn)確率越高。在ATAC-seq數(shù)據(jù)中,“峰 ”指的是可訪問的 DNA 片段。鑒于參考矩陣的二進(jìn)制性質(zhì),使用接收者操作特征下面積(AUROC)來評估染色質(zhì)可及性預(yù)測算法的準(zhǔn)確性,AUROC越高表示性能越好。為了評估每種算法的誤差,計(jì)算了測試集的兩個細(xì)胞間相關(guān)矩陣,一個是算法預(yù)測的蛋白質(zhì)豐度或染色質(zhì)可及性,另一個是參考數(shù)據(jù)。然后,用兩個相關(guān)矩陣之間的差值(即相關(guān)矩陣距離,CMD)來表示預(yù)測誤差。研究團(tuán)隊(duì)還計(jì)算了蛋白質(zhì)-蛋白質(zhì)或峰-峰相關(guān)矩陣的 CMD,以表示這些算法在預(yù)測蛋白質(zhì)豐度或 DNA 可及性模式時的誤差,還利用均方根誤差(RMSE)來量化預(yù)測值與參考值之間的偏差。

研究團(tuán)隊(duì)還定義了一個等級指數(shù)(RI),在六個指標(biāo)(即細(xì)胞-細(xì)胞 PCC、蛋白質(zhì)-蛋白質(zhì) PCC、細(xì)胞 CMD、蛋白質(zhì)-蛋白質(zhì) CMD、AUROC 和 RMSE)和兩種情況(即數(shù)據(jù)集內(nèi)和數(shù)據(jù)集間)下綜合考慮每種算法。如果一個算法的 PCC/AUROC 值高于所有算法的 PCC/AUROC 值中位數(shù),或者其 CMD/RMSE 值低于 CMD/RMSE 中位數(shù),則該算法將被賦予 1 分(具體參考方法部分)。然后將六項(xiàng)指標(biāo)和兩種方案的得分匯總計(jì)算出 RI 值,對算法的整體性能進(jìn)行評估。

在預(yù)測蛋白質(zhì)豐度方面,totalVI 和 scArches 的總體表現(xiàn)優(yōu)于其他算法,而在預(yù)測染色質(zhì)可及性方面,LS_Lab 在大多數(shù)情況下是表現(xiàn)最好的算法。Seurat、MOJITOO 和 scAI 成為縱向整合的領(lǐng)先算法,而 totalVI 和 UINMF 則在橫向整合和馬賽克整合場景中表現(xiàn)出色。

totalVI 和 scArches 在預(yù)測蛋白質(zhì)豐度方面表現(xiàn)最好。

LS_Lab 在預(yù)測染色質(zhì)可及性方面在大多數(shù)情況下優(yōu)于其他算法。

在縱向整合方面,Seurat 和 MOJITOO 在合并 RNA 表達(dá)和蛋白質(zhì)豐度方面表現(xiàn)最佳。

在橫向整合方面,totalVI在整合多批單細(xì)胞RNA+蛋白質(zhì)數(shù)據(jù)方面表現(xiàn)出了優(yōu)勢,而UINMF在整合多批次單細(xì)胞RNA+ATAC數(shù)據(jù)方面表現(xiàn)出色。

在馬賽克整合方面,totalVI 被強(qiáng)烈推薦用于將 scRNA-seq 與單細(xì)胞 RNA+蛋白質(zhì)數(shù)據(jù)相結(jié)合,而 UINMF 對于其他馬賽克整合場景特別有效。

研究團(tuán)隊(duì)的評估還突出表明,基于奇異值分解的機(jī)器學(xué)習(xí)算法(如 Guanlab-dengkw 和 LS_Lab)在預(yù)測蛋白質(zhì)豐度或染色質(zhì)可及性方面表現(xiàn)突出。在深度學(xué)習(xí)算法中,利用概率模型的 totalVI 的表現(xiàn)優(yōu)于其他算法。研究團(tuán)隊(duì)還發(fā)現(xiàn)這些數(shù)據(jù)集的稀疏性在一定程度上影響了這些算法預(yù)測蛋白質(zhì)豐度或染色質(zhì)可及性的準(zhǔn)確性。一種可能的解決方案是首先應(yīng)用插補(bǔ)算法,例如 SAVER、WEDGE、totalVI 或 scBasset,來預(yù)測原始數(shù)據(jù)中的缺失值,然后使用插補(bǔ)后的數(shù)據(jù)集進(jìn)行訓(xùn)練和預(yù)測。最近開發(fā)了利用大型語言模型的算法,用于預(yù)測缺失的模態(tài)或整合來自廣泛的單細(xì)胞多組學(xué)數(shù)據(jù)集的多種模態(tài);然而,由于當(dāng)前的硬件限制,上述基準(zhǔn)研究不包括這些基于大型語言模型的預(yù)測或集成算法,如Geneformer、scGPT和scFoundation。

這項(xiàng)基準(zhǔn)研究不僅可以幫助研究人員選擇合適的算法來聯(lián)合分析單細(xì)胞 RNA-seq 和多組學(xué)數(shù)據(jù),還可以幫助研究人員選擇合適的算法來聯(lián)合分析空間轉(zhuǎn)錄組學(xué)數(shù)據(jù)和單細(xì)胞多組學(xué)數(shù)據(jù)。不過,需要注意的是,空間數(shù)據(jù)和非空間數(shù)據(jù)可能呈現(xiàn)不同的分布,這可能會影響算法的性能。

開發(fā)團(tuán)隊(duì)已經(jīng)將用于基準(zhǔn)研究和圖形繪制的代碼和腳本上傳到GitHub:

??https://github.com/QuKunLab/MultiomeBenchmarking/

上述代碼也可以在Zenodo存儲庫中通過以下方式獲取:

?? https:///10.5281/zenodo.10540843

多優(yōu)質(zhì)內(nèi)容請點(diǎn)擊下方名片,關(guān)注“國家基因庫大數(shù)據(jù)平臺”和“深圳國家基因庫”公眾號。

參考文獻(xiàn)

Hu, Y., Wan, S., Luo, Y. et al. Benchmarking algorithms for single-cell multi-omics prediction and integration. Nat Methods (2024). https:///10.1038/s41592-024-02429-w

    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多

    国产一区二区三区成人精品| 国产麻豆一区二区三区在| 老富婆找帅哥按摩抠逼视频| av一区二区三区天堂| 99秋霞在线观看视频| 欧美人妻免费一区二区三区 | 日韩av亚洲一区二区三区| 欧美日韩国产福利在线观看| 日本东京热加勒比一区二区| 日韩中文无线码在线视频| 老外那个很粗大做起来很爽| 国产日产欧美精品大秀| 中文字幕亚洲在线一区| 日本福利写真在线观看| 在线免费视频你懂的观看| 国产精品日韩欧美第一页| 爱在午夜降临前在线观看| 久久精品国产亚洲av麻豆尤物| 东京热男人的天堂社区| 中文字幕精品一区二区三| 亚洲一区二区三区熟女少妇| 久久99爱爱视频视频| 国产精品一区二区三区黄色片| 国产人妻精品区一区二区三区| 亚洲一区二区精品国产av| 色老汉在线视频免费亚欧| 亚洲国产av一二三区| 成人亚洲国产精品一区不卡| 日韩一区二区三区久久| 久久精品国产在热亚洲| 欧美一区二区三区视频区| 青青操在线视频精品视频| 亚洲妇女作爱一区二区三区| 精品少妇人妻av一区二区蜜桃| 日韩一区二区三区嘿嘿| 亚洲熟妇中文字幕五十路| 91精品国自产拍老熟女露脸| 91香蕉视频精品在线看| 99久久人妻精品免费一区| 一区二区免费视频中文乱码国产| 亚洲欧美日韩国产成人 |