一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

單細(xì)胞多組學(xué)數(shù)據(jù)分析最佳實(shí)踐(2023典藏版)

 健明 2023-04-06 發(fā)布于廣東

男,

一個(gè)長(zhǎng)大了才會(huì)遇到的帥哥,

穩(wěn)健,瀟灑,大方,靠譜。

一段生信緣,一棵技能樹,

生信技能樹核心成員,單細(xì)胞天地特約撰稿人,簡(jiǎn)書創(chuàng)作者,單細(xì)胞數(shù)據(jù)科學(xué)家

編者按1:2019年一篇文章向我們概述了單細(xì)胞數(shù)據(jù)分析的關(guān)鍵過程,在那個(gè)工具頻發(fā)的、單細(xì)胞數(shù)據(jù)分析流程百家爭(zhēng)鳴的年代,就單細(xì)胞數(shù)據(jù)分析中的主要概念與流程進(jìn)行了梳理,這就是:Current best practices in single-cell RNA-seq analysis: a tutorial。時(shí)隔幾年之后,作者團(tuán)隊(duì)根據(jù)新形勢(shì)下的單細(xì)胞數(shù)據(jù)特點(diǎn),再次出發(fā),又為我們帶來新的單細(xì)胞數(shù)據(jù)分析最佳實(shí)踐,也就是今天我們介紹的:Best practices for single-cell analysis across modalities。本文中,作者拓展了單細(xì)胞數(shù)據(jù)的范圍,納入了scATAC-seq、表面蛋白表達(dá)、免疫組庫、空間數(shù)據(jù),并在每一部分探討各種數(shù)據(jù)與單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)的整合分析進(jìn)展。本文既有對(duì)新進(jìn)數(shù)據(jù)分析工具的測(cè)評(píng),也有分析思路的推薦,作為開源的材料,并為單細(xì)胞數(shù)據(jù)分析提供了一本不斷更新在線電子書:https:///

編者按2:編者在翻譯的過程中,也見縫插針地結(jié)合自己的分析經(jīng)驗(yàn)對(duì)數(shù)據(jù)分析過程的關(guān)鍵過程提出了自己的想法,在文中以"運(yùn)來曰"的形式出現(xiàn)。這些也許談不上真知灼見,也希望能為新入門單細(xì)胞數(shù)據(jù)分析的朋友提供一個(gè)思考單細(xì)胞數(shù)據(jù)的窗口。在2019年也翻譯單細(xì)胞數(shù)據(jù)分析最佳實(shí)踐,鏈接放在下面,現(xiàn)在讀來依然受用。

編者按3:總有一些事情,像春去秋來一樣提示我們時(shí)間如白駒過隙。

單細(xì)胞技術(shù)的最新進(jìn)展已經(jīng)能夠在不同形態(tài)和位置上對(duì)細(xì)胞進(jìn)行高通量分子定量。單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)現(xiàn)在往往可以通過染色質(zhì)可及性、表面蛋白表達(dá)、適應(yīng)性免疫受體譜分析和空間信息來擴(kuò)展。越來越多的單細(xì)胞數(shù)據(jù)以及分析工具的可用性已經(jīng)推動(dòng)了新的計(jì)算方法的發(fā)展,以幫助單細(xì)胞數(shù)據(jù)科學(xué)家獲得生物學(xué)的新見解。然而隨著該領(lǐng)域的快速發(fā)展,在越來越多的工具和非線性的分析步驟中如何選擇和調(diào)優(yōu)成為新的挑戰(zhàn)之一。本文總結(jié)了跨模式單模態(tài)和多模態(tài)單細(xì)胞分析的獨(dú)立基準(zhǔn)研究,為最常見的分析步驟提出了全面的最佳實(shí)踐工作流程。在沒有獨(dú)立的基準(zhǔn)的情況下,作者回顧和對(duì)比流行的方法。本文可以作為單細(xì)胞(多)組學(xué)分析領(lǐng)域的新手的入門點(diǎn),并提供一套單細(xì)胞多模態(tài)數(shù)據(jù)分析的最佳實(shí)踐。

單細(xì)胞轉(zhuǎn)錄組測(cè)序(scRNA-seq)技術(shù)通過以前所未有的規(guī)模和分辨率測(cè)量轉(zhuǎn)錄組譜,將分子生物學(xué)帶到全新的層次。實(shí)驗(yàn)技術(shù)的進(jìn)步推動(dòng)了計(jì)算方法的大規(guī)模創(chuàng)新,導(dǎo)致目前有1400多個(gè)工具可用來分析scRNA-seq數(shù)據(jù)。計(jì)算框架和軟件庫,如biocondutor、SeuratScanpy,輔以方法基準(zhǔn)測(cè)試和最佳實(shí)踐工作流程,使單細(xì)胞數(shù)據(jù)科學(xué)家能夠在這一領(lǐng)域暢游并構(gòu)建屬于自己的分析管道。這種實(shí)驗(yàn)和計(jì)算創(chuàng)新的相互作用使揭示組織細(xì)胞異質(zhì)性的生物學(xué)里程碑式發(fā)現(xiàn)成為可能。

然而,scRNA-seq只捕獲了控制細(xì)胞功能和信號(hào)的復(fù)雜調(diào)控機(jī)制的一個(gè)側(cè)面。為了將單細(xì)胞生物信息更加立體化,在單細(xì)胞分辨率下測(cè)量其他模式,如:

  • 染色質(zhì)可及性
  • 表面蛋白
  • T細(xì)胞受體(TCR)/B細(xì)胞受體(BCR)譜和
  • 空間定位

人們已經(jīng)做出了相當(dāng)大的努力,從而發(fā)現(xiàn)了諸如2型糖尿病的調(diào)控特征、先天性和適應(yīng)性免疫系統(tǒng)對(duì)嚴(yán)重急性呼吸綜合征冠狀病毒(SARS-CoV-2)的反應(yīng)失調(diào),以及在空間分辨率下更好地理解腫瘤微環(huán)境的免疫抑制作用。實(shí)驗(yàn)創(chuàng)新導(dǎo)致了許多用于單細(xì)胞組學(xué)模態(tài)的新計(jì)算工具的發(fā)展,然而由于缺乏最佳實(shí)踐工作流程來整合這些數(shù)據(jù)和工具,使得單細(xì)胞數(shù)據(jù)分析具有一定的挑戰(zhàn)性,這也影響了新工具的廣闊應(yīng)用和方法學(xué)的開發(fā)。此外,盡管之前已經(jīng)概述了scRNA-seq的計(jì)算最佳實(shí)踐和工具建議,但是在新的歷史條件下,它們顯得有些不完整。

本文將引導(dǎo)讀者了解單模態(tài)和多模態(tài)單細(xì)胞數(shù)據(jù)分析的各個(gè)步驟,并討論隱藏在其中的分析陷阱和建議(圖1)。在某些地方,由于工具的新穎性或缺乏獨(dú)立的基準(zhǔn)而無法確定最佳實(shí)踐,作者將列出廣泛采納的工具和建議。作者將文章組織成特定于模式的部分和分析步驟組,而不是單一的工作流,在現(xiàn)代單細(xì)胞分析中,由于任務(wù)的多樣性,這已經(jīng)很少存在了。為了進(jìn)一步閱讀,作者提供了更廣泛和定期更新(但沒有同行評(píng)審)的單細(xì)胞最佳實(shí)踐在線書籍(https:///),全書超過50章,包括詳細(xì)的代碼示例,分析模板以及計(jì)算需求的評(píng)估。

Fig. 1: Single-cell analysis across modalities.

單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)分析新論

scRNA-seq測(cè)量每個(gè)細(xì)胞mRNA分子的豐度。提取的生物組織樣本解離成的細(xì)胞懸液是單細(xì)胞實(shí)驗(yàn)的輸入。在單細(xì)胞分離過程中消化組織,然后分離單細(xì)胞以分別分析每個(gè)細(xì)胞的mRNA?;谄桨宓姆椒▽⒓?xì)胞分離到平板上的孔中,而基于液滴的方法則在微流體液滴中捕獲細(xì)胞。

在使用細(xì)胞條形碼或唯一分子標(biāo)識(shí)符(UMIs)和參考基因組的原始數(shù)據(jù)處理管道中,將獲得的mRNA序列reads映射到原始基因和細(xì)胞,生成單細(xì)胞基因表達(dá)矩陣(圖2a)。為了詳細(xì)比較各種原始數(shù)據(jù)處理工具,作者參考了Lafzi et al.19,并將計(jì)數(shù)矩陣作為我們scRNA-seq數(shù)據(jù)分析工作流的起點(diǎn)。

運(yùn)來曰:這里并不是說上游的測(cè)序和比對(duì)工序不重要,比如不同基因組及其注釋信息、比對(duì)的基因組區(qū)域,這些均會(huì)影響定量的基本參數(shù),如細(xì)胞數(shù)或基因數(shù)。

Fig. 2: Overview of unimodal analysis steps for scRNA-seq.

從原始計(jì)數(shù)矩陣到高質(zhì)量的細(xì)胞數(shù)據(jù)

scRNA-seq技術(shù)的進(jìn)步帶來了高通量、高質(zhì)量的單細(xì)胞數(shù)據(jù)。然而,scRNA-seq數(shù)據(jù)集包含系統(tǒng)和隨機(jī)噪聲(例如來自質(zhì)量差的細(xì)胞),這可能掩蓋了真實(shí)的生物信號(hào)。scRNA-seq數(shù)據(jù)的預(yù)處理的主要目的是試圖識(shí)別和去除這些混雜的變異源。這涉及到質(zhì)量控制、歸一化、數(shù)據(jù)校正和特征選擇(圖2a)。

過濾低質(zhì)量細(xì)胞和噪聲校正

大多數(shù)分析任務(wù)都假設(shè)每個(gè)微孔/液滴含有來自完整單細(xì)胞的RNA。這一假設(shè)通常被低質(zhì)量細(xì)胞、無細(xì)胞RNA污染或多個(gè)細(xì)胞捕獲所違背(圖2a)。檢測(cè)到的基因數(shù)量少、計(jì)數(shù)深度低和線粒體計(jì)數(shù)比例高的細(xì)胞通常被稱為低質(zhì)量細(xì)胞,因?yàn)樗鼈兛赡艽砟て屏训乃劳黾?xì)胞。低質(zhì)量的細(xì)胞被識(shí)別和過濾,方法是根據(jù)之前指南中推薦的手動(dòng)設(shè)置閾值或基于中位數(shù)絕對(duì)偏差的樣本自動(dòng)過濾。這些指標(biāo)應(yīng)該被聯(lián)合考慮,以防止對(duì)質(zhì)量指標(biāo)的誤讀。質(zhì)量控制應(yīng)該在單個(gè)樣本水平上進(jìn)行,因?yàn)闃颖局g的閾值可能有很大差異,即使是同樣的細(xì)胞類型。

環(huán)境RNA可能存在于細(xì)胞溶液中,并在文庫構(gòu)建過程中被分配給細(xì)胞的原生RNA。環(huán)境RNA污染可導(dǎo)致在其他細(xì)胞群中也可檢測(cè)到細(xì)胞類型特異性標(biāo)記基因轉(zhuǎn)錄物,這將不同的細(xì)胞群混合在一起。流行的方法,如soupx,根據(jù)數(shù)據(jù)集中“空”液滴和細(xì)胞簇的表達(dá)譜來估計(jì)細(xì)胞特異性污染分?jǐn)?shù),來識(shí)別環(huán)境RNA的污染。CellBender采用無監(jiān)督貝葉斯模型去除環(huán)境RNA,不需要預(yù)先了解細(xì)胞類型特異性基因表達(dá)譜。即使在缺乏系統(tǒng)基準(zhǔn)的情況下,也應(yīng)考慮去除環(huán)境RNA作為質(zhì)量控制的初始分析步驟,以改進(jìn)許多組織的下游分析過程。

空液滴/微孔和雙液滴/微孔(含有兩個(gè)細(xì)胞的液滴/微孔)違反了每個(gè)液滴含有單個(gè)細(xì)胞的前提假設(shè)。由不同細(xì)胞類型形成的雙態(tài)(異型雙態(tài))很難標(biāo)注,并可能導(dǎo)致錯(cuò)誤的細(xì)胞類型標(biāo)簽。常見的雙細(xì)胞檢測(cè)方法通過組合兩個(gè)隨機(jī)采樣的細(xì)胞并與測(cè)量細(xì)胞進(jìn)行比較來生成人工雙態(tài)。scDblFinder利用了這一思想,還可以與已知雙節(jié)點(diǎn)的先驗(yàn)知識(shí)相結(jié)合。scDblFinder優(yōu)于其他方法在雙態(tài)檢測(cè)精度和計(jì)算效率。此外,應(yīng)用多種雙細(xì)胞檢測(cè)方法并比較結(jié)果可以提高雙細(xì)胞檢測(cè)的準(zhǔn)確性。

在下游分析過程中,當(dāng)?shù)唾|(zhì)量細(xì)胞和雙胞體聚集在一起時(shí),所選擇的質(zhì)量控制策略經(jīng)常需要重新評(píng)估。因此,作者建議最初設(shè)置允許的閾值,并在重分析((re-)analysis)期間根據(jù)需要再來去除更多的細(xì)胞。

運(yùn)來曰:中國(guó)有個(gè)典故叫“莫須有”,講的是一個(gè)奸臣用“可能有罪”的罪名陷害忠良的故事。在單細(xì)胞數(shù)據(jù)質(zhì)控階段,我們應(yīng)該避免類似的案件發(fā)生,在不確定是不是低質(zhì)量細(xì)胞之前不要盲目過濾細(xì)胞,所謂疑罪從無。數(shù)據(jù)質(zhì)控的關(guān)鍵在于“識(shí)別”而不是用哪個(gè)閾值來過濾來“過濾”。今日留一線,來日好相見。

歸一化

細(xì)胞可以有不同數(shù)量的基因計(jì)數(shù),這是可能由于包含mRNA的體積(細(xì)胞大小)的差異,或者在測(cè)序過程中引入的隨機(jī)因素。計(jì)數(shù)歸一化使細(xì)胞具有可比性。隨后的方差穩(wěn)定確保了離群值分布對(duì)整體數(shù)據(jù)結(jié)構(gòu)的影響減小28(圖2a)。最近的一個(gè)基準(zhǔn)測(cè)試比較了基于K近鄰圖(KNN圖)與ground truth重疊的單細(xì)胞數(shù)據(jù)的22個(gè)轉(zhuǎn)換。具有大小因子的移位對(duì)數(shù)變換[數(shù)學(xué)處理錯(cuò)誤]表現(xiàn)良好,但不應(yīng)將每百萬計(jì)數(shù)作為輸入使用,因?yàn)樗从沉瞬磺袑?shí)際的分散情況。通過將所有基因用一個(gè)共同的因子進(jìn)行縮放,可以假設(shè)由于細(xì)胞大小而導(dǎo)致的計(jì)數(shù)深度差異可以忽略不計(jì)。然而,對(duì)于scRNA-seq數(shù)據(jù)集,如果數(shù)據(jù)集由各種不同的細(xì)胞類型組成,具有不相同的細(xì)胞屬性,則定義每個(gè)基因統(tǒng)計(jì)量可能不準(zhǔn)確。Scran歸一化的目的是通過對(duì)計(jì)數(shù)深度相似的細(xì)胞進(jìn)行合并(pooling ),并使用對(duì)基因的線性回歸來估計(jì)基于合并的大小因子,從而最大限度地減少這個(gè)問題。在上述基準(zhǔn)測(cè)試中表現(xiàn)同樣良好的一種方法是皮爾遜殘差的解析逼近,它擬合了一個(gè)以排序深度為協(xié)變量的廣義線性模型,以獲得轉(zhuǎn)換后的計(jì)數(shù)矩陣。與前人的研究結(jié)論類似,應(yīng)該根據(jù)后續(xù)的分析任務(wù)仔細(xì)選擇歸一化方法。移位對(duì)數(shù)被證明可以更好地穩(wěn)定方差,以用于后續(xù)的降維,Scran在批量校正任務(wù)中表現(xiàn)良好,分析皮爾遜殘差更適合于生物可變基因的選擇和稀有細(xì)胞身份的識(shí)別。

消除變異的混雜來源

變異的混雜來源可以分為技術(shù)協(xié)變量和生物協(xié)變量,應(yīng)分別對(duì)待,因?yàn)樗鼈兠枋隽藢?duì)數(shù)據(jù)的不同影響。

包含多個(gè)樣本的數(shù)據(jù)集可能會(huì)被反映技術(shù)變化的批次效應(yīng)所混淆。在聚類和可視化之后,可以觀察到批效應(yīng),應(yīng)該將其刪除,以確保它們不會(huì)被誤認(rèn)為是實(shí)際的生物學(xué)見解。數(shù)據(jù)集成方法處理相同實(shí)驗(yàn)環(huán)境下樣品間的批次效應(yīng)。最近的一項(xiàng)基準(zhǔn)比較了基于批校正和生物方差守恒的14個(gè)指標(biāo)的16種集成方法。線性嵌入模型(如典型相關(guān)分析CCAHarmony)被證明在具有不同批結(jié)構(gòu)的簡(jiǎn)單集成任務(wù)的批校正中表現(xiàn)良好。scANVI可以結(jié)合細(xì)胞類型的標(biāo)簽,這是有利的,因?yàn)樗梢詭椭4嫔镒儺悺8鶕?jù)集成任務(wù)的復(fù)雜性,如圖集集成,深度學(xué)習(xí)方法(scANVIscVIscGen)以及線性嵌入模型(Scanorama)表現(xiàn)最好,而對(duì)于不太復(fù)雜的集成任務(wù),Harmony是首選方法。scIB可用于使用前面提到的基準(zhǔn)評(píng)估指標(biāo)來評(píng)估數(shù)據(jù)整合效果。

除了計(jì)數(shù)抽樣效應(yīng),scRNA-seq數(shù)據(jù)還可能包含生物學(xué)混淆因素,如細(xì)胞周期效應(yīng),細(xì)胞之間的差異可能是由于不同的細(xì)胞周期狀態(tài),而不是細(xì)胞類型。從數(shù)據(jù)集中去除這種影響有利于下游分析;然而,了解細(xì)胞是否在循環(huán),可能會(huì)為研究潛在的生物學(xué)提供有價(jià)值的見解。最近的benchmark建議使用ScanpySeurat中內(nèi)置的細(xì)胞周期標(biāo)記和校正函數(shù)作為基線,將平均表達(dá)值與參考簽名進(jìn)行比較。隨后,應(yīng)該應(yīng)用更復(fù)雜的方法,如Tricycle,它將數(shù)據(jù)集映射到表示細(xì)胞周期的嵌入。Tricycle在具有高細(xì)胞類型異質(zhì)性的數(shù)據(jù)集上表現(xiàn)良好。

特征選擇與降維

為了確保分析只關(guān)注生物學(xué)上有意義的基因,并處理大型數(shù)據(jù)集,計(jì)數(shù)矩陣可以簡(jiǎn)化為最具信息量的特征矩陣。特征選擇方法應(yīng)該理想地選擇解釋數(shù)據(jù)集中生物變異的基因,優(yōu)先考慮亞群之間而不是一個(gè)亞群內(nèi)的差異,而不影響亞群的可識(shí)別性。Deviance通過擬合一個(gè)基因模型來識(shí)別信息豐富的基因,該模型假設(shè)所有細(xì)胞都有恒定的表達(dá),并量化哪些基因違反了這一假設(shè)。在一項(xiàng)獨(dú)立的比較中顯示,它在識(shí)別亞群體中具有高方差的基因,從而選擇信息性基因方面表現(xiàn)良好。此外,通過偏差對(duì)基因進(jìn)行排序是在原始計(jì)數(shù)上進(jìn)行的,因此對(duì)歸一化不敏感。特征選擇后,可以通過主成分分析(PCA)等降維算法對(duì)數(shù)據(jù)集進(jìn)行進(jìn)一步降維(圖2a)。降維技術(shù)可用于底層數(shù)據(jù)拓?fù)涞目梢暬T谄渌芯康幕A(chǔ)上,PCA可用于數(shù)據(jù)匯總,t-SNE、UMAP和PHATE可用于更靈活的scRNA-seq數(shù)據(jù)可視化。值得注意的是,最近的一項(xiàng)研究表明,僅依賴2D嵌入可能會(huì)導(dǎo)致對(duì)細(xì)胞之間關(guān)系的錯(cuò)誤解釋,并且結(jié)果不應(yīng)僅基于對(duì)這些表示的視覺檢查,而應(yīng)與定量評(píng)估相結(jié)合。

從聚類到細(xì)胞類型

經(jīng)過預(yù)處理后,從數(shù)據(jù)集中去除不必要的影響,提高了信噪比。終于,人們現(xiàn)在可以開始問與生物學(xué)相關(guān)的問題了。作為下一個(gè)分析里程碑,可以識(shí)別不同的細(xì)胞群,以進(jìn)一步指導(dǎo)和構(gòu)建分析目標(biāo)(圖2b)。

將單細(xì)胞聚類

識(shí)別細(xì)胞群體的第一步是將細(xì)胞聚集成具有相似表達(dá)譜的簇,以解釋數(shù)據(jù)中的異質(zhì)性。獨(dú)立的基準(zhǔn)測(cè)試表明,通過Louvain算法基于圖模塊化優(yōu)化的聚類檢測(cè)在聚類識(shí)別中效果最好。然而,Louvain 算法可能會(huì)導(dǎo)致任意的低連接社區(qū)。Louvain 的繼承者Leiden 通過產(chǎn)生有保證的連通社區(qū)而避開了這個(gè)問題,并且在計(jì)算上更有效率。這兩種方法都應(yīng)用于在數(shù)據(jù)的低維表示上計(jì)算的KNN圖,并且可以以不同的分辨率運(yùn)行以控制識(shí)別的聚類的數(shù)量。我們建議在不同分辨率下使用Leiden算法來獲得用于注釋細(xì)胞的理想聚類結(jié)果。

運(yùn)來曰:在單細(xì)胞技術(shù)中,解離的單位是組織/器官,細(xì)胞分離的單位是單個(gè)細(xì)胞,數(shù)據(jù)分析的單位是聚類的簇。在這個(gè)維度上,聚類算法的選擇很重要,因?yàn)樗鼪Q定了:誰和誰在一起。在一個(gè)聚類算法下,有不同的分辨率,也就是聚出來幾個(gè)類,這個(gè)其實(shí)不是那么重要,在下游的分析過程中,還是要根據(jù)生物學(xué)意義來對(duì)這些各簇來再聚類或者合并。

細(xì)胞類型注釋

注釋是對(duì)細(xì)胞簇進(jìn)行生物學(xué)解釋的過程,它可以用手動(dòng)或自動(dòng)方法來執(zhí)行。建議采用三步方法,即利用自動(dòng)注釋,然后是專家手動(dòng)注釋,最后一步是驗(yàn)證,以獲得理想的注釋結(jié)果。第一步,自動(dòng)細(xì)胞類型注釋,可以分為基于分類器的方法和引用映射。使用預(yù)訓(xùn)練的分類器獲得的注釋結(jié)果受到分類器類型和用于創(chuàng)建分類器的訓(xùn)練數(shù)據(jù)質(zhì)量的強(qiáng)烈影響。此外,如果不額外檢查單個(gè)標(biāo)記,其實(shí)很難評(píng)估注釋的準(zhǔn)確性。在先前注釋的數(shù)據(jù)集或圖譜上訓(xùn)練并考慮大量基因的分類器的例子有CellTypistClustifyr。

第二組自動(dòng)注釋方法是映射到現(xiàn)有的、帶注釋的單細(xì)胞參考數(shù)據(jù)集,并在生成的聯(lián)合嵌入上執(zhí)行標(biāo)簽傳輸。參考數(shù)據(jù)可以是數(shù)據(jù)集的單個(gè)樣本,理想情況下,也可以是現(xiàn)有單細(xì)胞圖譜。然后可以使用scArchesSymphonyAzimuth等方法執(zhí)行查詢到參考集的映射(Query-to-reference mapping)。與基于分類器的方法類似,傳輸注釋的質(zhì)量取決于參考數(shù)據(jù)的質(zhì)量、模型以及對(duì)數(shù)據(jù)集的適用性。

第二步,手動(dòng)標(biāo)注,利用每個(gè)簇的基因標(biāo)記來標(biāo)注細(xì)胞簇。這些基因標(biāo)記通常被稱為標(biāo)記基因(marker genes),可以使用簡(jiǎn)單的差異表達(dá)檢測(cè)方法,如t檢驗(yàn)或Wilcoxon秩和檢驗(yàn)來識(shí)別。統(tǒng)計(jì)檢驗(yàn)應(yīng)用于兩組聚類,以尋找感興趣的聚類中上調(diào)或下調(diào)的基因。出于這個(gè)目的,Wilcoxon秩和檢驗(yàn)表現(xiàn)最好,但由于聚類的性質(zhì),P值可能會(huì)被夸大,并可能導(dǎo)致錯(cuò)誤的發(fā)現(xiàn),因?yàn)槭褂孟嗤臄?shù)據(jù)來定義我們測(cè)試之間差異的標(biāo)簽。然后將獲得的標(biāo)記與標(biāo)記基因進(jìn)行比較,以標(biāo)記細(xì)胞簇。

作為細(xì)胞類型注釋的最后一步,注釋應(yīng)由專家驗(yàn)證,特別是對(duì)于高復(fù)雜性的數(shù)據(jù)集或涉及罕見細(xì)胞亞群的研究,這些研究大概率無法獲得現(xiàn)成的參考文獻(xiàn),甚至和現(xiàn)有的某些文獻(xiàn)相矛盾。

運(yùn)來曰:就像寫小說要確定里面的主角一樣,細(xì)胞類型注釋對(duì)一個(gè)單細(xì)胞生物學(xué)故事來講,也起著確定角色素描的作用。這個(gè)是一個(gè)關(guān)于阿里巴巴與四十大盜的故事,還是一個(gè)和尚經(jīng)歷九九八十一難的故事,是完全不同的。也像寫小說一樣,很多角色是在寫作中創(chuàng)作出來??梢哉f,像單細(xì)胞的數(shù)據(jù)質(zhì)控一樣,細(xì)胞類型的注釋也是貫穿在單細(xì)胞數(shù)據(jù)分析全流程的。很多時(shí)候,我們需要帶著一個(gè)unknown標(biāo)簽來分析,在漸進(jìn)明晰中發(fā)現(xiàn)它的身份。

從離散狀態(tài)到連續(xù)過程

在非線性的生物過程中,如分化,細(xì)胞穿越一個(gè)連續(xù)的細(xì)胞狀態(tài)空間。使用單細(xì)胞數(shù)據(jù)來了解細(xì)胞命運(yùn)——以及在這種情況下調(diào)節(jié)細(xì)胞命運(yùn)的基因——是具有挑戰(zhàn)性的,因?yàn)闇y(cè)量結(jié)果只是某一狀態(tài)的快照。潛在的軌跡可以是循環(huán)的、線性的、樹狀的。根據(jù)細(xì)胞表達(dá)模式的相似性沿軌跡排列細(xì)胞的模型被稱為軌跡推斷或偽時(shí)間分析方法。軌跡推斷方法的性能取決于數(shù)據(jù)集中存在的軌跡類型。盡管Slingshot在簡(jiǎn)單拓?fù)渖媳憩F(xiàn)更好,PAGARaceID/StemID在復(fù)雜軌跡上表現(xiàn)更好。因此,作者建議使用dynguidelines來選擇一個(gè)適用的方法。當(dāng)期望拓?fù)湮粗獣r(shí),軌跡和下游假設(shè)應(yīng)通過使用不同基礎(chǔ)假設(shè)的多種軌跡推斷方法來確認(rèn)。推斷出的軌跡可能并不一定具有生物學(xué)意義。結(jié)合更復(fù)雜的方法和信息來源,例如,通過RNA 速率,可以有助于恢復(fù)實(shí)際生物過程的進(jìn)一步證據(jù)。

為了推斷動(dòng)態(tài)的定向信息,velocytoscVelo使用未剪接和剪接的reads來推斷RNA速度來模擬剪接動(dòng)力學(xué):如果一個(gè)基因被激活,未剪接的RNA先于剪接的RNA。獲得的RNA速度場(chǎng)作為CellRank估計(jì)細(xì)胞命運(yùn)的輸入。RNA速度推斷假設(shè)基因獨(dú)立性和恒定的轉(zhuǎn)錄、剪接和降解速率。在恒定速率的假設(shè)下,相圖形成一個(gè)杏仁狀的感應(yīng)(上半/弧)和抑制(下半/弧)相。因此,作者建議通過檢查由scVelo動(dòng)態(tài)模型確定的高可能性基因的相位圖來檢查模型假設(shè)是否成立。如果相圖缺乏預(yù)期的形狀,可能會(huì)錯(cuò)誤地推斷RNA速度。此外,如果一個(gè)基因包含多個(gè)明顯的動(dòng)力學(xué),則譜系特異性模型更為合適。RNA速度被錯(cuò)誤推斷的情況包括轉(zhuǎn)錄爆發(fā)的存在。此外,穩(wěn)態(tài)群體提出了進(jìn)一步的挑戰(zhàn),其中RNA速度在獨(dú)立的終端細(xì)胞群體之間推斷錯(cuò)誤的方向。

回顧性實(shí)驗(yàn)譜系追蹤方法使用在細(xì)胞中觀察到的可變性,例如自然發(fā)生的基因突變,來推斷其譜系模型,以分析克隆群體中的細(xì)胞分裂歷史??梢允褂?code style="font-size: 14px;word-wrap: break-word;padding: 2px 4px;border-radius: 4px;margin: 0 2px;background-color: rgba(27,31,35,.05);font-family: Operator Mono, Consolas, Monaco, Menlo, monospace;word-break: break-all;color: #9654B5;">Cassiopeia進(jìn)行譜系追蹤數(shù)據(jù)的分析,Cassiopeia實(shí)現(xiàn)了幾種重建算法,包括經(jīng)典方法如UPGMA或鄰居連接,以及用于CRISPR-Cas9譜系追蹤數(shù)據(jù)的新方法。算法的重建性能很難評(píng)估,因?yàn)樗鼈兛赡芡怀鲎V系的不同部分。因此,建議應(yīng)用幾種算法進(jìn)行性能比較。此外,還介紹了用于分析更復(fù)雜的譜系追蹤研究的專用工具,其中包括時(shí)間過程信息。其中包括·LineageOT·,一種適合進(jìn)化基于crispr - cas9的設(shè)置的基于傳輸?shù)淖罴芽蚣?,以及用于靜態(tài)條形碼跟蹤的CoSpar

運(yùn)來曰:細(xì)胞類型是細(xì)胞狀態(tài)有什么關(guān)系?在普通的語境中,細(xì)胞類型是離散的,識(shí)別不同細(xì)胞類型用的方法是聚類,不斷地聚類,聚在一起的是一類。而細(xì)胞狀態(tài)是連續(xù)的,從一個(gè)狀態(tài)到另一個(gè)狀態(tài),中間是連續(xù)的。識(shí)別不同的細(xì)胞狀態(tài)用的是軌跡推斷,通常是在同一個(gè)細(xì)胞類型下來找不同的細(xì)胞狀態(tài)。

揭示機(jī)制

在高質(zhì)量數(shù)據(jù)上獲得自信的注釋后,下游的分析變得多樣化,往往需要結(jié)合具體的生物學(xué)問題展開,可以研究許多感興趣的機(jī)制。以下分析步驟的選擇和順序取決于感興趣的問題和實(shí)驗(yàn)設(shè)計(jì)(圖2c)。

差異表達(dá)分析

負(fù)二項(xiàng)分布的scRNA-seq數(shù)據(jù)可以用于檢測(cè)差異表達(dá)的基因,以識(shí)別標(biāo)記基因或在特定條件下上調(diào)或下調(diào)的基因。差異基因表達(dá)(DGE)分析目前主要從兩個(gè)角度進(jìn)行。樣本層面的聚合每個(gè)樣本標(biāo)簽組合的計(jì)數(shù),以創(chuàng)建pseudobulks,使用最初為pseudobulks表達(dá)式分析設(shè)計(jì)的包進(jìn)行分析,如edgeR、DEseq2limma。亞群層面,使用廣義混合效應(yīng)模型(如MAST)對(duì)細(xì)胞亞群?jiǎn)为?dú)建模。DGE工具之間的一致性和穩(wěn)健性較低,但為大量RNA-seq數(shù)據(jù)設(shè)計(jì)的方法表現(xiàn)良好。單細(xì)胞特異性方法被發(fā)現(xiàn)系統(tǒng)地低估了基因表達(dá)的方差,并且容易將高表達(dá)基因錯(cuò)誤地標(biāo)記為差異表達(dá)基因。

目前DGE分析的方法仍然顯示真陽性率(TPR)和精密度之間的權(quán)衡。高TPR導(dǎo)致低精度,因?yàn)榧訇栃詳?shù)量多,而高精度導(dǎo)致低TPR,因?yàn)槿狈σ炎R(shí)別的差異表達(dá)基因。Pseudoreplication導(dǎo)致虛發(fā)現(xiàn)率(FDR),因?yàn)镈GE方法沒有考慮復(fù)制(來自同一個(gè)體的細(xì)胞)的內(nèi)在相關(guān)性。在DGE分析之前,應(yīng)通過在個(gè)體中聚集細(xì)胞類型特異性計(jì)數(shù)來解釋樣本內(nèi)相關(guān)性。一般來說,pseudobulk 方法和混合模型,如帶有隨機(jī)效應(yīng)設(shè)置的MAST,被發(fā)現(xiàn)優(yōu)于樸素方法,如流行的Wilcoxon秩和檢驗(yàn),它不考慮樣本內(nèi)相關(guān)性。

DGE結(jié)果的有效性很大程度上取決于統(tǒng)計(jì)模型中主要變化軸。中間數(shù)據(jù)探索步驟,如pseudobulk樣本上的主成分分析,有助于確定變化的來源,從而可以指導(dǎo)構(gòu)建相應(yīng)的設(shè)計(jì)和對(duì)比矩陣,以建模數(shù)據(jù)。未能解釋實(shí)驗(yàn)中的多種生物變異來源將使fdr膨脹。因此,這里推薦靈活的方法,如limma, edgeRDESeq2,允許復(fù)雜的實(shí)驗(yàn)設(shè)計(jì)。通過條件上的DGE測(cè)試獲得的P值必須對(duì)多次測(cè)試進(jìn)行校正,以獲得q值。

基因集富集分析

scRNA-seq數(shù)據(jù)的高通量特性使得它們的解釋變得困難起來,這也是單細(xì)胞測(cè)序技術(shù)的革命性之體現(xiàn)?;蚣患治鲈试S將許多分子見解總結(jié)為可解釋的生物學(xué)術(shù)語,如通路,定義為通過以前的研究已知涉及的基因集。常用數(shù)據(jù)庫有MSigDBGene Ontology、KEGGReactome。這一概念的延伸是加權(quán)基因集,包括用于信號(hào)通路的PROGENy和用于轉(zhuǎn)錄因子(tf)的DoRothEA。常用的富集方法包括超幾何試驗(yàn),GSEA或GSVA,可應(yīng)用于DGE分析后或在單個(gè)細(xì)胞水平?;蚣患治鰧?duì)基因集的選擇比統(tǒng)計(jì)方法更敏感;因此,建議仔細(xì)選擇數(shù)據(jù)庫,以確保潛在的基因集被覆蓋。為此,諸如decoupleR之類的豐富框架在一個(gè)工具中提供了對(duì)不同數(shù)據(jù)庫和方法的訪問。為bulk轉(zhuǎn)錄組學(xué)開發(fā)的富集方法可以應(yīng)用于scRNA-seq,但一些基于單細(xì)胞的方法,即Pagoda2,可能優(yōu)于bulk的方法。

細(xì)胞豐度比列有沒有意義?

細(xì)胞數(shù)量與比例研究的不是細(xì)胞基因表達(dá)譜的條件變化,而是以成分?jǐn)?shù)據(jù)的形式研究不同細(xì)胞類型的相對(duì)豐度。在發(fā)育和疾病中經(jīng)常觀察到比例變化,但細(xì)胞類型的比例分析方法缺乏獨(dú)立的基準(zhǔn)。單變量統(tǒng)計(jì)模型(如泊松回歸或Wilcoxon秩和檢驗(yàn))單獨(dú)分析每種細(xì)胞類型的豐度變化,可能會(huì)將一些細(xì)胞類型的群體變化視為統(tǒng)計(jì)學(xué)上的合理效應(yīng),盡管它們純粹是由數(shù)據(jù)的組合性引起的統(tǒng)計(jì)學(xué)假象,導(dǎo)致FDR升高。專門為利用細(xì)胞類型計(jì)數(shù)的單細(xì)胞數(shù)據(jù)設(shè)計(jì)的測(cè)試包括scDC、scCODAtascCODA,它們可以納入分層細(xì)胞類型信息。

對(duì)于發(fā)育數(shù)據(jù),基于已知注釋確定細(xì)胞類型比例變化可能不合適。DA-seqMILO使用KNN圖來定義亞群,這些亞群在實(shí)驗(yàn)條件下進(jìn)行豐度差異檢驗(yàn)。如果感興趣的條件和變異的混雜來源強(qiáng)相關(guān),基于knn的方法對(duì)信息的丟失很敏感。減少KNN圖的K值或者構(gòu)造一個(gè)特定譜系的圖可以緩解這個(gè)問題。如果通過可視化在大型集群中顯示出明顯的差異,那么基于KNN圖的方法可能不適合,使用已知細(xì)胞類型計(jì)數(shù)的工具進(jìn)行更直接的分析可能更合適。

運(yùn)來曰:細(xì)胞類型的比例差異來源十分廣泛,如果單細(xì)胞技術(shù)能夠真實(shí)反應(yīng)組織內(nèi)的細(xì)胞數(shù)量,細(xì)胞數(shù)量與比例的變化自然是有意義的。然而,在單細(xì)胞技術(shù)體系中,從采樣到組織解離到細(xì)胞分離到基于UMI數(shù)量來識(shí)別細(xì)胞,每一步都會(huì)影響真實(shí)的細(xì)胞數(shù)量。一個(gè)最近的例子是中性粒細(xì)胞,在血常規(guī)中中性粒比例比較高。但是在很長(zhǎng)一段時(shí)間里的單細(xì)胞論文中,由于其半衰期短,mRNA含量低,把它作為背景過濾掉了,直到最近才引起應(yīng)有的注意。

推斷擾動(dòng)效應(yīng)

單細(xì)胞實(shí)驗(yàn)方案的進(jìn)步使大規(guī)模的多路實(shí)驗(yàn)?zāi)軌蛟跀?shù)千種獨(dú)特的條件下測(cè)量細(xì)胞,通常稱為“perturbations”。最近的技術(shù)(如perturb-seq或CROP-seq1)允許使用多模態(tài)、全基因組擾動(dòng)和組合擾動(dòng)對(duì)CRISPR-Cas9篩查進(jìn)行分析。分析這些復(fù)雜的條件被稱為擾動(dòng)模型,針對(duì)這種模型的工具還沒有獨(dú)立的基準(zhǔn)測(cè)試。

擾動(dòng)模型的一個(gè)領(lǐng)域是嘗試區(qū)分在這種分配未知的實(shí)驗(yàn)設(shè)置中成功和失敗的目標(biāo)細(xì)胞,并評(píng)估擾動(dòng)效應(yīng)。MixscapeMUSIC首先去除變異的混雜來源,然后從未被成功擾動(dòng)的細(xì)胞,最終將擾動(dòng)效應(yīng)可視化并評(píng)分。AugurMELD僅涵蓋第三步,并根據(jù)擾動(dòng)反應(yīng)程度對(duì)細(xì)胞類型進(jìn)行排序,以識(shí)別受擾動(dòng)影響最大的細(xì)胞群。

擾動(dòng)模型的第二個(gè)領(lǐng)域涉及到非實(shí)驗(yàn)測(cè)量的微擾。潛在空間學(xué)習(xí)模型(如scGen、CPACellBox)旨在預(yù)測(cè)對(duì)看不見的擾動(dòng)、組合或藥物劑量的反應(yīng)。這種模型通常對(duì)高表達(dá)基因工作得很好,但由于缺乏變異背景,可能難以處理低表達(dá)基因。

細(xì)胞通訊

機(jī)體發(fā)育和穩(wěn)態(tài)過程中,細(xì)胞之間不斷地相互作用。如果這種相互作用受損,疾病就會(huì)隨之而來。細(xì)胞-細(xì)胞通信推斷方法通常使用配體、受體及其相互作用庫來預(yù)測(cè)注釋簇之間的相互作用。這些數(shù)據(jù)庫偏向于特定的通路、功能類別和組織富集蛋白。交互方法和交互數(shù)據(jù)庫的選擇對(duì)預(yù)測(cè)交互有很大的影響。CellChatCellPhoneDB(也考慮異聚相互作用復(fù)合物)以及SingleCellSignalR被發(fā)現(xiàn)對(duì)數(shù)據(jù)噪聲和資源噪聲均穩(wěn)健。由于工具之間缺乏共識(shí),建議使用LIANA,它為方法和數(shù)據(jù)庫的幾種組合提供了一個(gè)總體排名。此外,NichenetCytotalk等工具可對(duì)細(xì)胞內(nèi)活動(dòng)(如誘導(dǎo)的基因表達(dá)變化或空間信息)提供互補(bǔ)估計(jì),可用于提高預(yù)測(cè)的相互作用的置信度。

運(yùn)來曰:在單細(xì)胞多模態(tài)數(shù)據(jù)分析框架中,單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)是比較成熟的也是應(yīng)用最為廣泛的,所以單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)在多模態(tài)數(shù)據(jù)中是出于基礎(chǔ)和中心位置的,在整合多模態(tài)數(shù)據(jù)的時(shí)候,往往需要借助單細(xì)胞轉(zhuǎn)錄組的數(shù)據(jù)作為中轉(zhuǎn)站或者背景。雖然還不是很完美,但是單細(xì)胞轉(zhuǎn)錄組的數(shù)據(jù)分析,為我們提供了一個(gè)相對(duì)完整的框架,基于其開發(fā)的實(shí)驗(yàn)工序和分析工具也啟發(fā)者其他組學(xué)的發(fā)展。

染色質(zhì)可及性

分析調(diào)控元件對(duì)于破譯細(xì)胞多樣性和理解細(xì)胞命運(yùn)至關(guān)重要?;虮磉_(dá)受復(fù)雜的相互作用的調(diào)控機(jī)制控制,包括表觀遺傳學(xué)和染色質(zhì)可及性。為了深入了解單細(xì)胞水平的染色質(zhì)狀態(tài)動(dòng)力學(xué),轉(zhuǎn)座酶可及染色質(zhì)測(cè)序的單細(xì)胞分析(scATAC-seq)測(cè)定了單個(gè)細(xì)胞的全基因組染色質(zhì)可及性(圖3)。

Fig. 3: Overview of scATAC-seq analysis steps.

特征定義與質(zhì)控

與scRNA-seq數(shù)據(jù)的明確定義的基因特征相比,scATAC-seq數(shù)據(jù)由于數(shù)據(jù)的全基因組特性而缺乏標(biāo)準(zhǔn)化的特征集,對(duì)大部分新手來講,踏入這個(gè)技術(shù)的門檻之一是大量陌生的詞匯以及它們之間的關(guān)系。大多數(shù)工作流使用cell-by-peak(峰) 或 cell-by-bin(箱)矩陣作為分析的基礎(chǔ),這比基因或TF基序特征矩陣的性能更好(圖3a)。bin是基因組中大小一致的窗口,捕捉所有Tn5轉(zhuǎn)座事件,而峰(peak)指的是在背景噪聲下,Tn5轉(zhuǎn)座事件富集的開放染色質(zhì)的可變區(qū)域。值得注意的是,細(xì)胞-峰矩陣比scRNA-seq數(shù)據(jù)更為稀疏,由于二倍體生物的細(xì)胞中只有兩個(gè)可分析的染色質(zhì)拷貝,每個(gè)細(xì)胞中只有1-10%的峰被調(diào)用。識(shí)別峰需要足夠數(shù)量的細(xì)胞,因此在罕見的細(xì)胞類型中可能會(huì)失敗。峰檢測(cè)的靈敏度可以通過在簇內(nèi)調(diào)用來提高,這降低了罕見細(xì)胞類型被其他高度豐富的細(xì)胞類型的噪聲掩蓋的峰缺失的風(fēng)險(xiǎn)。對(duì)于這種方法,不排除基因組區(qū)域的cell-by-bin 矩陣也可作為聚類的基礎(chǔ)。

scATAC-seq質(zhì)量控制的最常見入口點(diǎn)是包含兩個(gè)相鄰Tn5轉(zhuǎn)位事件產(chǎn)生的所有已測(cè)序DNA片段。這些指標(biāo)用于計(jì)算一組特異性質(zhì)量指標(biāo),以確定低質(zhì)量細(xì)胞(圖3b)。與scRNA-seq數(shù)據(jù)中的測(cè)序深度類似,作者檢測(cè)了每個(gè)細(xì)胞的測(cè)序片段總數(shù)、片段總數(shù)的對(duì)數(shù)和轉(zhuǎn)錄起始位點(diǎn)(TSS)富集評(píng)分(一種衡量指標(biāo),用于捕獲每個(gè)細(xì)胞中相對(duì)于非啟動(dòng)子區(qū)域而言,通常更開放的啟動(dòng)子區(qū)域的信噪比)。低質(zhì)量細(xì)胞常形成低計(jì)數(shù)和低TSS富集分?jǐn)?shù)的簇,應(yīng)去除。此外,核小體信號(hào)被用來評(píng)估片段長(zhǎng)度分布。建議進(jìn)一步驗(yàn)證與人工信號(hào)相關(guān)的基因組區(qū)域的reads比例。在峰值調(diào)用后,通過與數(shù)據(jù)集相關(guān)的最小閾值控制每個(gè)細(xì)胞檢測(cè)到的特征的數(shù)量。此外,與TSS評(píng)分相似,峰值區(qū)域相對(duì)于非峰值區(qū)域的低讀數(shù)是低信噪比的指標(biāo)之一。

為了識(shí)別雙細(xì)胞,建議遵循Germain等的提法,使用專門為scATAC-seq數(shù)據(jù)設(shè)計(jì)的兩種正交方法,并在下游分析中綜合考慮兩種評(píng)分。第一種方法是對(duì)scDblFinder進(jìn)行調(diào)整,將相關(guān)特征減少到一個(gè)小集合,以使用完整的信息,同時(shí)使計(jì)數(shù)數(shù)據(jù)更連續(xù)。第二種方法AMULET利用了染色體的二倍體,并將具有兩個(gè)以上計(jì)數(shù)的位置數(shù)量出乎意料地高的細(xì)胞視為雙細(xì)胞,這可以進(jìn)一步捕獲同型雙細(xì)胞。

運(yùn)來曰:相比于單細(xì)胞轉(zhuǎn)錄組,scATAC-seq數(shù)據(jù)質(zhì)控變得更加撲朔迷離,也愈發(fā)需要數(shù)據(jù)分析人員對(duì)其原理和實(shí)驗(yàn)過程的理解。在很多時(shí)候,質(zhì)控就是做一個(gè)分布,識(shí)別出離群值,然后去除。然而挑戰(zhàn)也在這里,要做出一個(gè)分布就需要知道數(shù)據(jù)的背景是什么。

數(shù)據(jù)降維

與scRNA-seq類似,稀疏的scATAC-seq數(shù)據(jù)需要標(biāo)準(zhǔn)化。在scATAC-seq數(shù)據(jù)中,最常見的歸一化策略是峰值的二值化。然而,這也可能會(huì)連同生物學(xué)信息一起去除,因此有人建議直接建立scATAC計(jì)數(shù)模型?;跐撛谡Z義索引(ArchRSignac)、潛在狄利克雷分配(cisTopic)和光譜嵌入(snapATAC)的降維方法在下游聚類和細(xì)胞標(biāo)注中表現(xiàn)最佳。在批次效應(yīng)方面,LIGER對(duì)scATAC-seq數(shù)據(jù)的性能最佳。最近,PeakVIMultiVI等深度學(xué)習(xí)模型被提出用于scATAC-seq數(shù)據(jù),作為降維和批次校正的組合方法。在獲得校正的低維表示后,基于Leiden聚類在scrna -seq衍生的表示中的良好性能。

細(xì)胞類型注釋

可以根據(jù)差異可及區(qū)域(differentially accessible regions, DARs)和基因活性評(píng)分對(duì)細(xì)胞簇進(jìn)行注釋(圖3c)。DARs可通過類似于scRNA-seq的差異檢測(cè)方法獲得。需要考慮測(cè)序深度的類似差異,方法是將總計(jì)數(shù)視為混雜因素,或者根據(jù)總計(jì)數(shù)和可能的其他質(zhì)量控制指標(biāo)(如TSS評(píng)分)選擇一組偏倚匹配的細(xì)胞。雖然尚未對(duì)scATAC-seq數(shù)據(jù)的性能進(jìn)行基準(zhǔn)測(cè)試,但bulk ATAC-seq數(shù)據(jù)的現(xiàn)有基準(zhǔn)在樣本量有限時(shí)建議使用edgeR來確定DARs,在樣本量大時(shí)建議使用DESeq2來確定DARs 。DARs可能包含有信息的序列模式,如已知的順式調(diào)節(jié)元件(cre),或者可以連接到近端基因,這些可在功能富集分析工具(如GREAT、LOLAGIGGLE)中利用。與基因相關(guān)的CREs的染色質(zhì)可及性可以總結(jié)為基因表達(dá)的估計(jì)(基因活性評(píng)分)。這可以通過合計(jì)基因內(nèi)和TSS上游一定距離的計(jì)數(shù)來實(shí)現(xiàn)。更復(fù)雜的模型還以按距離加權(quán)的方案或通過整合協(xié)同可達(dá)網(wǎng)絡(luò)來整合來自遠(yuǎn)端區(qū)域的信號(hào)(圖3d)。為了指導(dǎo)細(xì)胞類型的注釋,簡(jiǎn)單的模型通常就足夠了,并且可以通過平滑相鄰細(xì)胞之間的基因活性評(píng)分來增強(qiáng)可視化,通常使用MAGIC進(jìn)行。

TF motifs 分析

tf基序富集有助于細(xì)胞特性的表征,并且可以通過對(duì)簇特異性DARs的超幾何檢驗(yàn)在簇水平上進(jìn)行。為了獲得每個(gè)細(xì)胞的富集分?jǐn)?shù),chromVAR可用于計(jì)算每個(gè)細(xì)胞中所有包含基序的峰的可及性偏差,同時(shí)校正Tn5轉(zhuǎn)座酶的插入偏倚(由轉(zhuǎn)座酶153的序列結(jié)合偏好產(chǎn)生)。TF標(biāo)記物有助于簇注釋,并代表了決定細(xì)胞狀態(tài)的調(diào)節(jié)蛋白。一旦確定了感興趣的TF, scATAC-seq數(shù)據(jù)允許通過足跡(footprint)對(duì)TF的影響進(jìn)行額外的驗(yàn)證,足跡指示TF是否在給定的細(xì)胞簇中結(jié)合。為了進(jìn)行這一分析,我們生成了聚類pseudobulks 以減少稀疏性,并繪制了感興趣基序周圍Tn5插入的數(shù)量。在特定細(xì)胞簇中TF的活性結(jié)合情況下,結(jié)合位點(diǎn)本身受到保護(hù),不受Tn5轉(zhuǎn)座事件的影響,而鄰近的核小體被移位,導(dǎo)致峰-谷-峰可及性曲線。由于這一特征也受到Tn5插入偏倚的影響,目前的足跡分析工具通常使用k-mer模型校正這一偏倚,該模型通過每個(gè)k-mer內(nèi)的切割位點(diǎn)數(shù)量相對(duì)于全基因組發(fā)生數(shù)量來估計(jì)偏倚。

單細(xì)胞轉(zhuǎn)錄組于染色質(zhì)可及性聯(lián)合之道

10x Multiome、sci-CAR或scCAT-seq等檢測(cè)可對(duì)基因表達(dá)和染色質(zhì)可及性進(jìn)行聯(lián)合分析。目前的工作流程使用已建立的單模態(tài)質(zhì)量控制方法,并取所有模態(tài)的高質(zhì)量細(xì)胞的交集進(jìn)行綜合分析。一旦選擇了高質(zhì)量的細(xì)胞,我們就可以學(xué)習(xí)捕捉兩種模式的變異性的細(xì)胞的聯(lián)合表示,從而去除變異的混雜來源(框1)。由于尚未確定這種整合的最佳方法,作者建議首先進(jìn)行包括細(xì)胞類型注釋在內(nèi)的單模態(tài)分析。這可以通過比較單峰分析的聚類結(jié)果和細(xì)胞類型標(biāo)簽來評(píng)估聯(lián)合表示。然后,高質(zhì)量的多模態(tài)表示被用作大多數(shù)單模態(tài)分析方法的輸入,包括細(xì)胞類型注釋、差異分析和軌跡分析。

配對(duì)的scRNA-seq和scATAC-seq數(shù)據(jù)也使我們能夠使用新的聯(lián)合方法來識(shí)別基因表達(dá)和細(xì)胞狀態(tài)的調(diào)節(jié)因子。為了識(shí)別潛在的CREs,基于相關(guān)性的方法被用于將峰與細(xì)胞簇內(nèi)的基因連接。這種方法可以通過以下方法進(jìn)行擴(kuò)展:使用SCENIC推斷tf,然后將相應(yīng)的基序與峰值區(qū)域匹配,以增加額外的可解釋性。為了深入了解局部或全局染色質(zhì)景觀是否影響特定細(xì)胞狀態(tài)下基因的表達(dá),基于局部鄰域和全基因組染色質(zhì)狀態(tài)的表達(dá)可預(yù)測(cè)性可以進(jìn)行比較。目前正在開發(fā)利用這兩種模式推斷基因調(diào)控網(wǎng)絡(luò)的方法,如FigRPando(圖3d)。

框1: 跨模式數(shù)據(jù)集成

細(xì)胞的整體表示只能通過跨模態(tài)分析獲得,其中同一細(xì)胞的幾種模態(tài)被聯(lián)合檢查。盡管實(shí)驗(yàn)測(cè)定的進(jìn)步允許對(duì)許多模態(tài)組合進(jìn)行配對(duì)測(cè)量,但不同的模態(tài)仍然通常是獨(dú)立測(cè)量的,導(dǎo)致數(shù)據(jù)配對(duì)成為挑戰(zhàn)。需要適當(dāng)?shù)姆椒▉砑蛇@些數(shù)據(jù)集,以獲得可用于可視化感興趣屬性的信息豐富的低維嵌入。

聯(lián)合測(cè)量模式:配對(duì)整合。 對(duì)于配對(duì)測(cè)量,細(xì)胞作為整合錨(見圖a部分)。配對(duì)整合可以通過MOFA中的因子分析等線性方法來獲得一個(gè)聯(lián)合的、可解釋的潛空間。這種方法需要大小因子歸一化,以確保第一個(gè)因子不受每個(gè)樣本總表達(dá)的差異支配?;蛘?,加權(quán)最近鄰(WNN)分析學(xué)習(xí)反映模態(tài)信息內(nèi)容的細(xì)胞特異性模態(tài)權(quán)重,以鄰接圖的形式確定下游分析中模態(tài)的重要性。此圖可用于計(jì)算嵌入或距離度量。

非聯(lián)合測(cè)量:未配對(duì) 整合非配對(duì)多組學(xué)數(shù)據(jù)部分位于明顯的特征空間?;谙闰?yàn)知識(shí)將多模態(tài)數(shù)據(jù)映射到共同特征空間(例如將轉(zhuǎn)座酶可及染色質(zhì)(ATAC)區(qū)域映射到附近轉(zhuǎn)錄本的分析)的初始方法以及隨后應(yīng)用的單細(xì)胞數(shù)據(jù)整合方法已被證明會(huì)導(dǎo)致信息丟失。非線性流形對(duì)齊方法,如基于最優(yōu)傳輸?shù)姆椒?,?code style="font-size: 14px;word-wrap: break-word;padding: 2px 4px;border-radius: 4px;margin: 0 2px;background-color: rgba(27,31,35,.05);font-family: Operator Mono, Consolas, Monaco, Menlo, monospace;word-break: break-all;color: #9654B5;">SCOT或UnionCom,不需要先驗(yàn)知識(shí),因此可以減少跨模式信息損失。GLUE將細(xì)胞狀態(tài)作為低維嵌入模型,通過模態(tài)特異性變分自動(dòng)編碼器學(xué)習(xí),該編碼器使用基于結(jié)合先驗(yàn)知識(shí)的引導(dǎo)圖的概率生成模型。它已被證明在兩種以上模態(tài)的集成中效果良好,并且是NeurIPS 2021 多模態(tài)單細(xì)胞數(shù)據(jù)集成挑戰(zhàn)賽的獲勝者。

非聯(lián)合測(cè)量:拼接集成 盡管實(shí)驗(yàn)檢測(cè)取得了進(jìn)展,但從同一細(xì)胞同時(shí)捕獲幾種模式仍然具有挑戰(zhàn)性。對(duì)來自同一生物樣本的不同細(xì)胞群的個(gè)體模式進(jìn)行分析更為常見,這導(dǎo)致數(shù)據(jù)矩陣完全缺失。這種組合中的數(shù)據(jù)集成被稱為“拼接集成”(mosaic integration),為此最近開始出現(xiàn)工具(見圖c部分)。雖然totalVI和MultiVI也可用于拼接集成,但它們分別只適用于CITE-seq和Multiome數(shù)據(jù)。所有模態(tài)組合的替代方法是StabmapMultigrate, Stabmap將所有細(xì)胞投影到參考坐標(biāo)上,從而沿著鑲嵌拓?fù)涞淖疃搪窂剑?code style="font-size: 14px;word-wrap: break-word;padding: 2px 4px;border-radius: 4px;margin: 0 2px;background-color: rgba(27,31,35,.05);font-family: Operator Mono, Consolas, Monaco, Menlo, monospace;word-break: break-all;color: #9654B5;">Multigrate利用遷移學(xué)習(xí)填補(bǔ)缺失模態(tài)。

多模式場(chǎng)景中的查詢數(shù)據(jù)集到參考數(shù)據(jù)集該領(lǐng)域最近的一項(xiàng)進(jìn)展是多組學(xué)參考數(shù)據(jù)集的出現(xiàn),因此可以針對(duì)多模態(tài)參考進(jìn)行單模態(tài)和多模態(tài)查詢。通過將有監(jiān)督的主成分分析(PCA)應(yīng)用于使用WNN構(gòu)建的參考數(shù)據(jù)集,scRNA-seq查詢細(xì)胞可以映射到多模態(tài)參考數(shù)據(jù)集,并可視化和注釋?;蛘?,Multigrate學(xué)習(xí)成對(duì)和非配對(duì)測(cè)量的聯(lián)合潛在空間。結(jié)合遷移學(xué)習(xí),Multigrate可以在填補(bǔ)缺失模態(tài)時(shí)將單模態(tài)和多模態(tài)查詢數(shù)據(jù)集映射到多組學(xué)引。填補(bǔ)模式可能構(gòu)成進(jìn)一步的重要信息來源。橋接集成提出了第三種選擇,使用多組學(xué)數(shù)據(jù)集作為分子橋接,創(chuàng)建一個(gè)細(xì)胞字典,用于重建單峰數(shù)據(jù)集,然后轉(zhuǎn)換為共享的embedding。盡管靈活,橋接集成的一個(gè)缺點(diǎn)是對(duì)橋接數(shù)據(jù)集的要求,這些數(shù)據(jù)集可能并不總是可用的。

運(yùn)來曰:在Seurat V5 中,用的就是Query-to-reference mapping 的方法。我們可以感受到的是,數(shù)據(jù)的積累會(huì)促進(jìn)算法的開發(fā),算法對(duì)數(shù)據(jù)的依賴趨勢(shì)明顯,另一個(gè)可以感受到的方向是,機(jī)器學(xué)習(xí)算法在單細(xì)胞中的應(yīng)用越來越普遍。

單細(xì)胞表面蛋白表達(dá)

轉(zhuǎn)錄和染色質(zhì)可及性是細(xì)胞狀態(tài)、活性和調(diào)節(jié)的代表。實(shí)際產(chǎn)生的產(chǎn)物,蛋白質(zhì)承擔(dān)著細(xì)胞內(nèi)或細(xì)胞外的生物學(xué)任務(wù),一部分細(xì)胞蛋白質(zhì)出現(xiàn)在細(xì)胞表面。表面蛋白表達(dá)有助于識(shí)別細(xì)胞類型,如免疫系統(tǒng)的造血細(xì)胞,其注釋是基于通常用于流式細(xì)胞術(shù)或質(zhì)譜細(xì)胞術(shù)實(shí)驗(yàn)的標(biāo)記。它們可以進(jìn)一步用于驗(yàn)證特定的基因敲除基因,例如使用前面提到的Mixscape管道。用于聯(lián)合scRNA-seq和表面蛋白譜分析的最廣泛的方案是CITE-seqREAP-seq,主要差異是用于定量表面蛋白表達(dá)水平的抗體衍生標(biāo)簽(adt)(圖4a)。

Fig. 4: Overview of CITE-seq data processing.

校正ADT計(jì)數(shù)

與基因計(jì)數(shù)的負(fù)二項(xiàng)分布相反,ADT數(shù)據(jù)沒有那么稀疏。對(duì)于基于液滴的檢測(cè),由于環(huán)境污染和非特異性抗體結(jié)合,ADTs的非零計(jì)數(shù)通常被觀察到。大多數(shù)標(biāo)記物呈雙峰分布,一個(gè)是非特異性抗體結(jié)合的“陰性”(低計(jì)數(shù))峰和一個(gè)類似于特定細(xì)胞類型的細(xì)胞表面蛋白富集的“陽性”峰。所有或大部分抗體組計(jì)數(shù)為零的文庫應(yīng)被移除;然而,去除ADT總計(jì)數(shù)低的細(xì)胞可能會(huì)去除不表達(dá)特定一組蛋白或只表達(dá)少量蛋白的細(xì)胞類型。CITE-seq實(shí)驗(yàn)也可以包含同型對(duì)照,即用于測(cè)定每個(gè)細(xì)胞非特異性結(jié)合(如抗體聚集)的非靶點(diǎn)特異性抗體。在離群細(xì)胞中可檢測(cè)到大量同種型計(jì)數(shù),然后應(yīng)將其去除。由于這些考慮,在ADT模式中,應(yīng)仔細(xì)評(píng)估單個(gè)質(zhì)量控制指標(biāo),RNA和ADT的聯(lián)合測(cè)量應(yīng)分別進(jìn)行質(zhì)量控制。由于抗體效力是可變的,因此多項(xiàng)研究中ADT數(shù)據(jù)的整合可能導(dǎo)致強(qiáng)烈的批次效應(yīng),需要校正。

計(jì)算ADT含量偏差

細(xì)胞特征會(huì)導(dǎo)致捕獲效率不同,從而導(dǎo)致細(xì)胞組成的偏差。只有表達(dá)目標(biāo)蛋白的細(xì)胞才會(huì)導(dǎo)致標(biāo)簽計(jì)數(shù)的增加,而這可能只是特定的細(xì)胞類型。這可以通過使用中心對(duì)數(shù)比(centred log-ratio,CLR)轉(zhuǎn)換進(jìn)行歸一0或背景去噪和縮放(DSB)來解釋。DSB使用代表蛋白質(zhì)背景噪聲的背景來校正細(xì)胞中的數(shù)值,同時(shí)通過將同型對(duì)照水平與各自細(xì)胞的特定背景水平相結(jié)合來消除細(xì)胞間的差異。DSB的作者發(fā)現(xiàn),由于原始計(jì)數(shù)中背景分布的可用性,這種方法消除了更多的噪聲。

聯(lián)合單細(xì)胞轉(zhuǎn)錄組與膜蛋白數(shù)據(jù)

ADT數(shù)據(jù)的下游分析遵循與單細(xì)胞RNA分析相似的流程,在單細(xì)胞RNA分析中,可以對(duì)注釋的簇進(jìn)行差異豐度檢驗(yàn)(圖2b和4b)。ADT數(shù)據(jù)與其他模式(如轉(zhuǎn)錄組學(xué))聯(lián)合分析時(shí),提供了深刻的見解。經(jīng)過各自的預(yù)處理后,可以使用一般適用的多模態(tài)集成工具(Box 1)或CITE-seq專用的、基于深度學(xué)習(xí)的totalVI獲得聯(lián)合嵌入,totalVI學(xué)習(xí)配對(duì)測(cè)量的聯(lián)合概率表示,該表示也考慮了噪聲和技術(shù)偏差,包括每個(gè)模態(tài)的批次效應(yīng)。另一種方法是使用CiteFuse,該方法使用CLR對(duì)adt進(jìn)行標(biāo)準(zhǔn)化,并將兩種模態(tài)矩陣與相似網(wǎng)絡(luò)融合算法相結(jié)合。然后,可以使用Leiden對(duì)聯(lián)合包埋進(jìn)行聚類,并通過將聚類與所有其他聚類進(jìn)行比較,使用Wilcoxon秩和檢驗(yàn),根據(jù)差異表達(dá)的RNA和ADT對(duì)聯(lián)合包埋進(jìn)行注釋(圖4c)。這兩種模式均可用于下游任務(wù),如研究細(xì)胞-細(xì)胞通訊(其中考慮配體簇的RNA表達(dá)和受體簇的蛋白表達(dá)),或者使用CiteFuse進(jìn)行RNA和ADT相關(guān)性分析(圖4d)。

運(yùn)來曰:鑒于目前技術(shù)的現(xiàn)狀,膜蛋白數(shù)據(jù)與單細(xì)胞轉(zhuǎn)錄組、染色質(zhì)可及性數(shù)據(jù)的差別之一是,其維度很小,即每個(gè)細(xì)胞測(cè)的蛋白數(shù)量較少,所以鮮見有專門的整合框架,大多是把膜蛋白數(shù)據(jù)作為單細(xì)胞轉(zhuǎn)錄組上的點(diǎn)綴。數(shù)據(jù)分析也相對(duì)簡(jiǎn)單,但是在與單細(xì)胞轉(zhuǎn)錄組聯(lián)合分析中,一個(gè)被忽視的現(xiàn)象是:膜蛋白表達(dá)與轉(zhuǎn)錄組的不一致,忽視或者默認(rèn)這種不一致我認(rèn)為都是不科學(xué)的。我們應(yīng)該追尋其中的原因,找到二者的鏈接點(diǎn)。就像單細(xì)胞轉(zhuǎn)錄組和染色質(zhì)可及性可以用轉(zhuǎn)錄因子來鏈接一樣。

單細(xì)胞免疫組庫

單細(xì)胞轉(zhuǎn)錄組和單細(xì)胞染色質(zhì)可及性是每個(gè)細(xì)胞都有的生物學(xué)事件,而免疫受體主要在適應(yīng)性免疫細(xì)胞中有。TCR和BCR是構(gòu)成適應(yīng)性免疫受體庫(AIRR)的跨膜表面蛋白復(fù)合物(圖5a)。這兩種受體均可檢測(cè)病原體和腫瘤特異性抗原,但相互作用的方式不同。BCRs直接識(shí)別可溶性或膜結(jié)合的表位,而TCRs與與細(xì)胞表面主要組織相容性復(fù)合體(MHC)分子結(jié)合的線性肽相互作用?;罨腂細(xì)胞和T細(xì)胞發(fā)揮多種功能,如效應(yīng)免疫、通過增殖形成記憶或調(diào)節(jié)進(jìn)一步的免疫反應(yīng)。B細(xì)胞和T細(xì)胞的特異性由AIR序列確定。為了捕獲廣泛的抗原,體細(xì)胞V(D)J重組在個(gè)體的B和T細(xì)胞群中產(chǎn)生高度多樣化的AIR序列(圖5a)。免疫受體分析可以使用scirpy、DandelionscRepertoire等框架進(jìn)行。

解碼AIRR序列特征

AIRR序列可以通過V(D)J測(cè)序得到,然后進(jìn)行比對(duì)和鏈配對(duì)來破譯(圖5b)。雖然沒有TCR序列重建的基準(zhǔn),但MiXCRTRUST4是常用的。研究表明BALDR、BASICBraCer可穩(wěn)健恢復(fù)BCR序列,但不再維持。因此,我們鼓勵(lì)分析人員將最新的MiXCRTRUST4,它們也考慮到BCR序列。V、D和J基因的過度表達(dá)組合提供了關(guān)于各種基因如何組合形成VJ和VDJ鏈的有價(jià)值的信息。V(D)J基因片段的重組以及V和J片段的不精確連接產(chǎn)生了VJ和VDJ鏈上的CDR3區(qū),該區(qū)域主要負(fù)責(zé)與AIR抗原的結(jié)合。生發(fā)B細(xì)胞在體細(xì)胞超突變期間進(jìn)一步產(chǎn)生免疫球蛋白變異體,在體細(xì)胞超突變中,免疫球蛋白基因在高度重排的V、D和J節(jié)段內(nèi)迅速突變。AIRR序列分析(圖5b)突出了與生物學(xué)功能相關(guān)的AIR排列優(yōu)先選擇的基因片段。在譜型分析中,我們觀察到多種條件下的CDR3長(zhǎng)度譜,這可能表明AIRR組成中的抗原特異性變化。通過頻率分析,序列基序揭示了在AIRs簇的CDR3位置上保守的和不同的氨基酸(圖5c)。這些分析捕獲蛋白質(zhì)序列特征,以推斷特異性并實(shí)現(xiàn)AIR刻畫。這些方法可以在Scirpy、DandelionscRepertoire中調(diào)用。

篩選功能性適應(yīng)性免疫受體

豐度分析研究的不是細(xì)胞基因表達(dá)譜的條件變化,而是豐度分?jǐn)?shù)據(jù)的形式研究不同細(xì)胞類型的相對(duì)豐度。在發(fā)育和疾病中經(jīng)常觀察到豐度變化,但豐度分析方法缺乏獨(dú)立的基準(zhǔn)。單變量統(tǒng)計(jì)模型(如泊松回歸或Wilcoxon秩和檢驗(yàn))單獨(dú)分析每種細(xì)胞類型的豐度變化,可能會(huì)將一些細(xì)胞類型的群體變化視為統(tǒng)計(jì)學(xué)上的合理效應(yīng),盡管它們純粹是由數(shù)據(jù)的組合性引起的統(tǒng)計(jì)學(xué)假象,導(dǎo)致FDR升高。并非所有在等位基因重排過程中產(chǎn)生的AIR鏈都能形成功能性AIR。細(xì)胞僅分配給VJ或VDJ鏈的不完全AIRs被定期檢測(cè)并代表有效的細(xì)胞,但不能用于所有期望完整AIRs的下游過程。淋巴細(xì)胞可表達(dá)雙AIRs,約10%的淋巴細(xì)胞可表達(dá)與單個(gè)VDJ鏈配對(duì)的多個(gè)VJ鏈。表達(dá)雙VDJ鏈的淋巴細(xì)胞更為罕見(1%),應(yīng)謹(jǐn)慎治療。然而,對(duì)于VJ或VDJ鏈具有兩個(gè)以上的賦值的細(xì)胞總是表示為雙細(xì)胞。將AIR狀態(tài)與鏈配對(duì)信息和受體類型相關(guān)聯(lián),可以在下游分析時(shí)進(jìn)行任務(wù)特異性的AIR選擇,以確保盡可能多的使用數(shù)據(jù)(圖5b)。例如,單一VDJ鏈仍然可以用于基于CDR3-VDJ鏈的數(shù)據(jù)庫查詢,但不能用于基于完整AIR的查詢。鏈配對(duì)和受體類型的分布可以在樣本或條件等組中可視化,并且應(yīng)該刪除具有過多質(zhì)量問題的離群簇。專門為利用細(xì)胞類型計(jì)數(shù)的單細(xì)胞數(shù)據(jù)設(shè)計(jì)的測(cè)試包括scDC、scCODAtascCODA,它們可以納入分層細(xì)胞類型信息。

確定和分類克隆型

來自同一祖細(xì)胞的T或B細(xì)胞群形成克隆型,通常處于休眠狀態(tài),直到接收到來自自分泌因子的外部信號(hào)或刺激。因此,在克隆擴(kuò)張過程中,特定細(xì)胞急劇增殖以完成各自預(yù)定的防御反應(yīng)??寺U(kuò)增的T或B細(xì)胞的持續(xù)存在可作為近期免疫應(yīng)答的生物標(biāo)志物。對(duì)于TCR,可以通過相同的V基因和相同的VJ和VDJ CDR3核酸序列確定克隆型,或者根據(jù)考慮到體細(xì)胞超突變的bcr的譜系重建分析框架中實(shí)施的距離確定克隆型(圖5d)。

在分析過程中,可以省略V基因匹配的要求,有孤兒鏈的細(xì)胞可以分配到相關(guān)的克隆型。由于體細(xì)胞超突變,來自克隆譜系的B細(xì)胞通常根據(jù)漢明距離分組,其CDR3氨基酸序列的同源性超過80% 。公共克隆型出現(xiàn)在多個(gè)供者中,可以代表共同的免疫應(yīng)答。相比之下,私有克隆型代表了患者特異性克隆應(yīng)答,這可能對(duì)個(gè)體化治療有價(jià)值??寺⌒偷臉颖矩S度可以通過Jaccard距離、多樣性測(cè)量或?qū)哟尉垲愡M(jìn)一步用于比較 AIRRs。

細(xì)胞特異性測(cè)定

影響AIR–antigen相互作用(反映特異性)的位置主要位于VDJ鏈的CDR3,其次位于VJ鏈的CDR3。T細(xì)胞中的抗原特異性由表位序列和整個(gè)air表位復(fù)合物驅(qū)動(dòng)。雖然AIR特異性可以使用條形碼抗原進(jìn)行實(shí)驗(yàn)測(cè)定,但有幾種方法試圖通過計(jì)算推斷AIR特異性(圖5e)。

首先,可以直接或通過Scirpyimmunarch1在包含現(xiàn)有研究中air表位對(duì)的數(shù)據(jù)庫中查詢這些序列。常用的數(shù)據(jù)庫有IEDB、PIRD、vdjDB(僅tcr)或SAbDab(僅bcr)。與克隆型賦值類似,數(shù)據(jù)庫查詢可以通過單獨(dú)考慮VDJ CDR3序列或另外考慮降低FDR的VJ CDR3序列以不同的嚴(yán)格程度進(jìn)行。

第二種方法使用直接應(yīng)用于CDR3序列的距離指標(biāo)或序列的嵌入來比較AIRs,因?yàn)榫哂邢嗨菩蛄械腁IRs可能具有共同的特異性。雖然漢明距離通常用于bcr,因?yàn)樗梢阅M體細(xì)胞超突變,但tcr更常用的是專門的方法,例如TCRdist,它通過轉(zhuǎn)換成本和間隙懲罰來比較兩個(gè)tcr的所有CDR3序列,或者TCRmatch,它使用k-mers來比較基于它們的CDR3β序列的基序重疊。

作為第三種策略,最近的方法使用機(jī)器學(xué)習(xí)工具(如ERGO-II)直接預(yù)測(cè)AIRs和表位之間的結(jié)合。這三種方法都依賴于公共數(shù)據(jù)庫(其中包含的數(shù)據(jù)主要來自通常研究的疾病),并且缺乏用于破譯T細(xì)胞抗原特異性的MHCs信息。

整合單細(xì)胞轉(zhuǎn)錄組與免疫組數(shù)據(jù)

AIRR測(cè)序通常與其他組學(xué)(如表面蛋白和轉(zhuǎn)錄組測(cè)定)結(jié)合,從而能夠詳細(xì)觀察感染或疫苗接種后的細(xì)胞命運(yùn)。AIRs的存在可以通過分離免疫細(xì)胞簇和詳細(xì)的T細(xì)胞注釋來指導(dǎo)細(xì)胞類型注釋。對(duì)于配對(duì)數(shù)據(jù)(框1),可以使用ScirpyscRepertoire的細(xì)胞類型簇對(duì)AIR條件(如特異性或克隆型網(wǎng)絡(luò))進(jìn)行表型AIRR分析。由于模態(tài)的固有結(jié)構(gòu)差異,新的方法(如用于TCR數(shù)據(jù)的TESSA、mvTCRConga和用于BCR數(shù)據(jù)的benisse)旨在整合這兩種模態(tài),從而更容易進(jìn)行聯(lián)合注釋和可視化。

運(yùn)來曰:相比于前面我們介紹單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)、單細(xì)胞染色質(zhì)可及性數(shù)據(jù)以及單細(xì)胞表面膜蛋白數(shù)據(jù),單細(xì)胞免疫組數(shù)據(jù)以非矩陣的形式出現(xiàn),這為數(shù)據(jù)整合帶來了新的挑戰(zhàn)。免疫組數(shù)據(jù)主要是序列數(shù)據(jù),基于矩陣的一些方法可能很難直接使用,所以這領(lǐng)域也蘊(yùn)含著大量的算法開發(fā)機(jī)會(huì)。免疫細(xì)胞的形成和利用成為當(dāng)下生物醫(yī)藥的熱點(diǎn),在實(shí)驗(yàn)工序中,捕獲到VDJ序列已經(jīng)不困難,但是如何把這些數(shù)據(jù)與真實(shí)的臨床需要結(jié)合起來,建立一個(gè)通俗的、可解釋的單細(xì)胞免疫組分析框架十分迫切。而目前的開發(fā)方向,在可視化上做了很多工作,在統(tǒng)計(jì)分析上做的還不夠。

空間轉(zhuǎn)錄組

到目前為止,所有討論的模式都是基于分離的單細(xì)胞組學(xué)技術(shù),以表征細(xì)胞身份和組織狀態(tài)。然而,在多細(xì)胞生物中,細(xì)胞相互作用并形成空間結(jié)構(gòu)微環(huán)境,這些微環(huán)境可以在不同的樣本和條件下變化。細(xì)胞組織彌合了組織生物學(xué)和病理學(xué)之間的鴻溝,這使得我們能夠發(fā)現(xiàn)新的細(xì)胞功能,并產(chǎn)生了新的計(jì)算挑戰(zhàn),為此需要不同的分析方法??臻g組學(xué)通過在單細(xì)胞基因組學(xué)基礎(chǔ)上增加兩種額外的方式來解決細(xì)胞特征和細(xì)胞特性:組織學(xué)成像和空間分析。

單個(gè)細(xì)胞的空間定位有助于理清組織微環(huán)境及其功能依賴性。除了利用細(xì)胞的空間坐標(biāo)來更好地理解組織結(jié)構(gòu),我們還可以使用組織學(xué)圖像的非分子特征。例如,添加從成像數(shù)據(jù)中提取的信息可以增強(qiáng)細(xì)胞識(shí)別或分子特征的分辨率,或有助于識(shí)別變異的空間模式??臻g基因表達(dá)譜技術(shù)在空間分辨率(亞細(xì)胞和條形碼區(qū)域,特征在不同區(qū)域聚集)、檢測(cè)效率、通量和空間解析的模式方面存在差異。目前開發(fā)的大多數(shù)分析方法都是針對(duì)空間轉(zhuǎn)錄組學(xué)的。兩種主要的空間分子分析技術(shù)是基于陣列的(圖6a)和基于圖像的方法(圖6b)。分析空間數(shù)據(jù)集需要專門針對(duì)這種模式的分析工具,可以使用Squidpy、Giotto、SeuratSpatialExperiment等框架進(jìn)行分析。

Fig. 6: Overview of spatial transcriptomics preprocessing and downstream analysis steps.

獲得細(xì)胞計(jì)數(shù)矩陣和空間坐標(biāo)

基于陣列和基于圖像的空間轉(zhuǎn)錄組學(xué)都需要特定的工具來將測(cè)量的分子分配到單個(gè)細(xì)胞。由于陣列分析不能獲得單細(xì)胞分辨率,因此斑點(diǎn)的基因表達(dá)譜反映的是細(xì)胞類型的組成,而不是不同的細(xì)胞類型。在基于基因表達(dá)譜芯片的基因表達(dá)譜中,人們提出了各種方法來分解基因表達(dá)譜。Cell2location, SpatialDWLSRCTD根據(jù)單細(xì)胞分辨參考中細(xì)胞群的基因表達(dá)譜估計(jì)每個(gè)斑點(diǎn)的細(xì)胞類型組成。對(duì)于模擬數(shù)據(jù)集,cell2location在細(xì)胞類型反卷積方面的表現(xiàn)優(yōu)于其他方法,但需要更多的計(jì)算資源,而對(duì)于真實(shí)數(shù)據(jù)集,SpatialDWLSRCTD在基于4種不同精度度量的總體精度評(píng)分方面表現(xiàn)最好。

對(duì)于基于圖像的檢測(cè)(如熒光原位雜交(FISH)和原位測(cè)序(ISS)),通過細(xì)胞分割獲得細(xì)胞計(jì)數(shù)矩陣和空間坐標(biāo)。由于空間轉(zhuǎn)錄組學(xué)數(shù)據(jù)的復(fù)雜性(在使用的分析、分辨率和組織變異方面),這些工具通常需要手動(dòng)微調(diào)以獲得有價(jià)值的分割結(jié)果。Giottosquidpy等處理管道允許在分析管道中添加定制的分割方法,這簡(jiǎn)化了所選方法的比較、選擇和評(píng)估。此外,轉(zhuǎn)錄本的定位可用于無分割的方法,如SSAMBaysor,這些方法直接將細(xì)胞標(biāo)簽分配到空間近端的像素。此外,Baysor還納入了通過組織學(xué)圖像獲得的細(xì)胞形狀信息,以增強(qiáng)分割結(jié)果。這些工具可以作為基于分割的方法的有用替代。

通過基于陣列的空間轉(zhuǎn)錄組學(xué)和隨后的細(xì)胞類型去卷積,或者基于圖像的空間轉(zhuǎn)錄組學(xué)和隨后的分割,可以以類似于scRNA-seq數(shù)據(jù)的方式對(duì)基因表達(dá)矩陣進(jìn)行過濾、標(biāo)準(zhǔn)化和可視化。

描述細(xì)胞特性及其微環(huán)境

對(duì)于單細(xì)胞分辨率的基于成像的空間轉(zhuǎn)錄組學(xué)數(shù)據(jù),細(xì)胞注釋與scRNA-seq數(shù)據(jù)相似(圖6c)。這些技術(shù)通常只讀出一組預(yù)定義的轉(zhuǎn)錄本?;虻倪x擇通常是基于從scRNA-seq獲得的先驗(yàn)生物學(xué)知識(shí),可能不適合識(shí)別罕見的細(xì)胞亞群,這導(dǎo)致了對(duì)已知細(xì)胞類型的偏倚。將標(biāo)準(zhǔn)的初始空間scRNA-seq數(shù)據(jù)和目標(biāo)空間解析數(shù)據(jù)進(jìn)行比對(duì),使我們能夠以空間解析的方式填補(bǔ)整個(gè)轉(zhuǎn)錄組(在標(biāo)準(zhǔn)scRNA-seq中測(cè)量),并試圖解決目標(biāo)特征空間的局限性。這種方法產(chǎn)生了全轉(zhuǎn)錄組的單細(xì)胞解析的空間轉(zhuǎn)錄組數(shù)據(jù)。Tangram通過優(yōu)化空間和scRNA-seq數(shù)據(jù)之間的基因相似性來填補(bǔ)空間樣本中未檢測(cè)到的轉(zhuǎn)錄本。在各種準(zhǔn)確度指標(biāo)和可擴(kuò)展性方面,它的性能優(yōu)于其他填補(bǔ)方法,如gimVISpaGE。

除了僅根據(jù)細(xì)胞的基因表達(dá)譜來注釋細(xì)胞外,還可以利用空間位置來識(shí)別細(xì)胞身份。BayesSpace、stLearnspaGCN等工具通過考慮基因表達(dá)共性和空間鄰域結(jié)構(gòu)來識(shí)別所謂的空間域。獲得的標(biāo)簽可用于識(shí)別組織中具有相似表達(dá)譜的區(qū)域,并可能對(duì)應(yīng)于數(shù)據(jù)集的整體形態(tài)。

不同樣本之間細(xì)胞微環(huán)境的識(shí)別可能會(huì)受到圖像方向差異的阻礙。圖像可能并不總是在整個(gè)數(shù)據(jù)集中完美對(duì)齊,并且在不同的視野中比較結(jié)果可能具有挑戰(zhàn)性。Tangram, GridNeteggplant在樣本之間生成共同的坐標(biāo)框架來緩解這個(gè)問題。

識(shí)別與細(xì)胞組織和組織結(jié)構(gòu)相關(guān)的空間模式

細(xì)胞微環(huán)境使我們對(duì)驅(qū)動(dòng)組織狀態(tài)的機(jī)制有了新的認(rèn)識(shí),并且可以通過多種方式進(jìn)行分析(圖6d)?;虮磉_(dá)差異分析在scRNA-seq鑒定高度可變基因和DGE分析方面被廣泛探索。對(duì)于空間轉(zhuǎn)錄組學(xué)數(shù)據(jù),空間可變基因(SVGs)的識(shí)別是補(bǔ)充。實(shí)現(xiàn)這一目的的方法在假設(shè)和對(duì)svg的定義方面有很大差異,并且對(duì)于如何最好地識(shí)別svg尚未達(dá)成共識(shí)。例如,SPARKSpatialDE利用空間相關(guān)性測(cè)試,BayesSpace使用馬爾可夫隨機(jī)場(chǎng),spaGCN使用圖神經(jīng)網(wǎng)絡(luò)來整合基因表達(dá)數(shù)據(jù)、空間信息和組織學(xué)圖像,sepal使用基于擴(kuò)散的模型來識(shí)別具有空間模式的基因。

細(xì)胞間依賴空間的通信事件

在組織中,細(xì)胞直接接觸,可通過表面結(jié)合的配體和受體、長(zhǎng)程旁分泌效應(yīng)、生物機(jī)械力和代謝物交換等間接機(jī)制相互作用。這些事件通常被稱為對(duì)基因表達(dá)變異的外在影響,在描述細(xì)胞組織和組織生態(tài)位時(shí)應(yīng)予以考慮。如上文所述,細(xì)胞通訊事件可以在分離的scRNA-seq數(shù)據(jù)中確定。然而,這些方法往往忽略了底層組織的空間組織,這可能導(dǎo)致假陽性發(fā)現(xiàn)??臻g細(xì)胞間通訊的方法通常是根據(jù)周圍相鄰細(xì)胞比較基因表達(dá)模式。GCNG, MistyNCEM根據(jù)細(xì)胞空間圖和圖神經(jīng)網(wǎng)絡(luò)制定了這項(xiàng)任務(wù),SpaOTsc使用最優(yōu)轉(zhuǎn)運(yùn),SVCA通過空間方差成分分析量化細(xì)胞-細(xì)胞通信事件對(duì)基因表達(dá)譜的影響。

運(yùn)來曰:相比之前我們介紹的組學(xué)數(shù)據(jù),空間信息不是分子定量而是位置信息。組學(xué)數(shù)據(jù)加上空間信息,不斷向我們做出新的承諾,也不斷挑戰(zhàn)我們的想象力。在這方面,分析傳統(tǒng)組學(xué)的是人顯得力有不逮,見慣了序列,見慣了矩陣,空間信息的加入,讓人既興奮又緊張??臻g數(shù)據(jù)的分析框架依然是缺失的,大部分的空間信息沒有得到很好的挖掘。在這方面,我們看見的只是噴薄而出的朝陽,還有大片宇宙將被照亮。一個(gè)可以借鑒的方向是地理學(xué)或者空間生態(tài)學(xué),那里已經(jīng)有了一套統(tǒng)計(jì)分析、可視化空間數(shù)據(jù)的方法論。

展望

本文綜述了轉(zhuǎn)錄組學(xué)、染色質(zhì)可及性、表面蛋白、AIRR和空間分辨單細(xì)胞數(shù)據(jù)的典型單模和多模分析的步驟。本工作為進(jìn)入該領(lǐng)域的新人提供了一個(gè)切入點(diǎn),同時(shí)為有經(jīng)驗(yàn)的分析人員提供了一份可參考的最佳實(shí)踐。所有的建議都是基于獨(dú)立的基準(zhǔn),這不可避免地落后于最新的方法發(fā)展。隨著基準(zhǔn)測(cè)試的進(jìn)一步發(fā)布,各個(gè)工具的建議可能會(huì)改變,并需要定期更新,以確保單細(xì)胞分析的最佳實(shí)踐。因此,作者準(zhǔn)備了在線書籍:https:///,它提供了詳細(xì)的方法描述,演示了如何將本文的建議付諸實(shí)踐。在線書籍將納入定期更新,并作為多組學(xué)單細(xì)胞分析領(lǐng)域的新手和專家的靈活和最新指南。

除了越來越多的方法,生成的單細(xì)胞數(shù)據(jù)集的數(shù)量也在增加,可以預(yù)測(cè),從大規(guī)模數(shù)據(jù)集(如集成圖譜集)中學(xué)習(xí)將變得更加重要。大規(guī)模的數(shù)據(jù)集能夠通過潛在空間嵌入等方式開發(fā)描述細(xì)胞和個(gè)體異質(zhì)性的模型。正如通過單細(xì)胞數(shù)據(jù)分析等框架學(xué)習(xí)到的那樣,潛在表示可用于批校正、聚類、可視化和DGE分析。通過跳過人工質(zhì)量控制步驟簡(jiǎn)化了單細(xì)胞數(shù)據(jù)的分析。通過查詢到參考映射方法,建立在這些潛在空間上的模型變得具有預(yù)測(cè)性,這將從無監(jiān)督的探索性分析方法轉(zhuǎn)向由監(jiān)督預(yù)測(cè)補(bǔ)充的單細(xì)胞分析。構(gòu)建多模態(tài)參考圖譜將進(jìn)一步支持同時(shí)在多個(gè)層上表征細(xì)胞狀態(tài),從而為單模態(tài)查詢提供多模態(tài)洞察。

了解擾動(dòng)對(duì)這些多組學(xué)細(xì)胞狀態(tài)的影響將變得越來越重要。高度平行的微擾篩選(如基因組規(guī)模的Perturb-seq)已經(jīng)測(cè)量了全基因組的微擾效應(yīng)。將基因組規(guī)模的Perturb-seq與進(jìn)一步的模式相結(jié)合,使遺傳景觀的系統(tǒng)探索能夠揭示背景特定的基因調(diào)控網(wǎng)絡(luò)。這進(jìn)一步將單細(xì)胞基因組學(xué)擴(kuò)展到藥物靶點(diǎn)篩選等藥理學(xué)應(yīng)用。我們預(yù)計(jì)將引入更多分析方法,這些方法解析成功和失敗的擾動(dòng),并從多模態(tài)數(shù)據(jù)推斷基因調(diào)控網(wǎng)絡(luò),例如CellOracleSCENIC+(圖2c)。此外,新的分子測(cè)量方法正在變得可用,例如年輕且快速發(fā)展的單細(xì)胞蛋白質(zhì)組學(xué)領(lǐng)域。這些測(cè)量的分析方法是稀疏的,選擇性的基準(zhǔn)化,并且最佳實(shí)踐還有待開發(fā)。

為了使單細(xì)胞多組學(xué)具有強(qiáng)大的臨床應(yīng)用,包括來自電子健康記錄的患者協(xié)變量可能是至關(guān)重要的。目前尚缺乏用于探索性分析的工具、組學(xué)數(shù)據(jù)集的整合以及組學(xué)測(cè)量與表型信息的映射,讓我們一起期待在這一方向上進(jìn)一步發(fā)展??梢灶A(yù)見的事這種一體化的工作流程將建立在我們?yōu)槎嗄B(tài)單細(xì)胞分析建立的基礎(chǔ)之上。

Heumos, L., Schaar, A.C., Lance, C. et al. Best practices for single-cell analysis across modalities. Nat Rev Genet (2023). https:///10.1038/s41576-023-00586-w

    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多

    国产不卡的视频在线观看| 亚洲中文在线中文字幕91| 小黄片大全欧美一区二区| 午夜久久精品福利视频| 高清一区二区三区大伊香蕉| 久久精品一区二区少妇| 久久精品a毛片看国产成人| 不卡在线播放一区二区三区| 久久老熟女一区二区三区福利| 色老汉在线视频免费亚欧| 日韩一级欧美一级久久| 色婷婷视频在线精品免费观看| 在线观看免费无遮挡大尺度视频| 国产在线观看不卡一区二区| 91老熟妇嗷嗷叫太91| 国语久精品在视频在线观看| 欧美日韩亚洲巨色人妻| 亚洲深夜精品福利一区| 日韩中文字幕免费在线视频| 日韩精品日韩激情日韩综合| 国产成人午夜av一区二区| 欧美国产在线观看精品| 亚洲视频一级二级三级| 亚洲精品美女三级完整版视频| 香蕉尹人视频在线精品| 久久大香蕉一区二区三区| 久久精品亚洲欧美日韩| 亚洲欧洲一区二区综合精品| 欧美大粗爽一区二区三区| 日本人妻丰满熟妇久久| 91欧美亚洲视频在线| 丰满少妇被猛烈撞击在线视频| 草草夜色精品国产噜噜竹菊| 大屁股肥臀熟女一区二区视频| 日韩精品视频高清在线观看| 国产欧美日产久久婷婷| 日韩欧美在线看一卡一卡| 国产丝袜极品黑色高跟鞋| 日本道播放一区二区三区| 伊人国产精选免费观看在线视频| 免费特黄欧美亚洲黄片|