男, 一個(gè)長(zhǎng)大了才會(huì)遇到的帥哥, 穩(wěn)健,瀟灑,大方,靠譜。 一段生信緣,一棵技能樹, 生信技能樹核心成員,單細(xì)胞天地特約撰稿人,簡(jiǎn)書創(chuàng)作者,單細(xì)胞數(shù)據(jù)科學(xué)家
![]() 單細(xì)胞技術(shù)的最新進(jìn)展已經(jīng)能夠在不同形態(tài)和位置上對(duì)細(xì)胞進(jìn)行高通量分子定量。單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)現(xiàn)在往往可以通過染色質(zhì)可及性、表面蛋白表達(dá)、適應(yīng)性免疫受體譜分析和空間信息來擴(kuò)展。越來越多的單細(xì)胞數(shù)據(jù)以及分析工具的可用性已經(jīng)推動(dòng)了新的計(jì)算方法的發(fā)展,以幫助單細(xì)胞數(shù)據(jù)科學(xué)家獲得生物學(xué)的新見解。然而隨著該領(lǐng)域的快速發(fā)展,在越來越多的工具和非線性的分析步驟中如何選擇和調(diào)優(yōu)成為新的挑戰(zhàn)之一。本文總結(jié)了跨模式單模態(tài)和多模態(tài)單細(xì)胞分析的獨(dú)立基準(zhǔn)研究,為最常見的分析步驟提出了全面的最佳實(shí)踐工作流程。在沒有獨(dú)立的基準(zhǔn)的情況下,作者回顧和對(duì)比流行的方法。本文可以作為單細(xì)胞(多)組學(xué)分析領(lǐng)域的新手的入門點(diǎn),并提供一套單細(xì)胞多模態(tài)數(shù)據(jù)分析的最佳實(shí)踐。 單細(xì)胞轉(zhuǎn)錄組測(cè)序(scRNA-seq)技術(shù)通過以前所未有的規(guī)模和分辨率測(cè)量轉(zhuǎn)錄組譜,將分子生物學(xué)帶到全新的層次。實(shí)驗(yàn)技術(shù)的進(jìn)步推動(dòng)了計(jì)算方法的大規(guī)模創(chuàng)新,導(dǎo)致目前有1400多個(gè)工具可用來分析scRNA-seq數(shù)據(jù)。計(jì)算框架和軟件庫,如 然而,scRNA-seq只捕獲了控制細(xì)胞功能和信號(hào)的復(fù)雜調(diào)控機(jī)制的一個(gè)側(cè)面。為了將單細(xì)胞生物信息更加立體化,在單細(xì)胞分辨率下測(cè)量其他模式,如:
人們已經(jīng)做出了相當(dāng)大的努力,從而發(fā)現(xiàn)了諸如2型糖尿病的調(diào)控特征、先天性和適應(yīng)性免疫系統(tǒng)對(duì)嚴(yán)重急性呼吸綜合征冠狀病毒(SARS-CoV-2)的反應(yīng)失調(diào),以及在空間分辨率下更好地理解腫瘤微環(huán)境的免疫抑制作用。實(shí)驗(yàn)創(chuàng)新導(dǎo)致了許多用于單細(xì)胞組學(xué)模態(tài)的新計(jì)算工具的發(fā)展,然而由于缺乏最佳實(shí)踐工作流程來整合這些數(shù)據(jù)和工具,使得單細(xì)胞數(shù)據(jù)分析具有一定的挑戰(zhàn)性,這也影響了新工具的廣闊應(yīng)用和方法學(xué)的開發(fā)。此外,盡管之前已經(jīng)概述了scRNA-seq的計(jì)算最佳實(shí)踐和工具建議,但是在新的歷史條件下,它們顯得有些不完整。 本文將引導(dǎo)讀者了解單模態(tài)和多模態(tài)單細(xì)胞數(shù)據(jù)分析的各個(gè)步驟,并討論隱藏在其中的分析陷阱和建議(圖1)。在某些地方,由于工具的新穎性或缺乏獨(dú)立的基準(zhǔn)而無法確定最佳實(shí)踐,作者將列出廣泛采納的工具和建議。作者將文章組織成特定于模式的部分和分析步驟組,而不是單一的工作流,在現(xiàn)代單細(xì)胞分析中,由于任務(wù)的多樣性,這已經(jīng)很少存在了。為了進(jìn)一步閱讀,作者提供了更廣泛和定期更新(但沒有同行評(píng)審)的單細(xì)胞最佳實(shí)踐在線書籍(https:///),全書超過50章,包括詳細(xì)的代碼示例,分析模板以及計(jì)算需求的評(píng)估。 ![]() 單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)分析新論scRNA-seq測(cè)量每個(gè)細(xì)胞mRNA分子的豐度。提取的生物組織樣本解離成的細(xì)胞懸液是單細(xì)胞實(shí)驗(yàn)的輸入。在單細(xì)胞分離過程中消化組織,然后分離單細(xì)胞以分別分析每個(gè)細(xì)胞的mRNA?;谄桨宓姆椒▽⒓?xì)胞分離到平板上的孔中,而基于液滴的方法則在微流體液滴中捕獲細(xì)胞。 在使用細(xì)胞條形碼或唯一分子標(biāo)識(shí)符(UMIs)和參考基因組的原始數(shù)據(jù)處理管道中,將獲得的mRNA序列reads映射到原始基因和細(xì)胞,生成單細(xì)胞基因表達(dá)矩陣(圖2a)。為了詳細(xì)比較各種原始數(shù)據(jù)處理工具,作者參考了Lafzi et al.19,并將計(jì)數(shù)矩陣作為我們scRNA-seq數(shù)據(jù)分析工作流的起點(diǎn)。
![]() 從原始計(jì)數(shù)矩陣到高質(zhì)量的細(xì)胞數(shù)據(jù)scRNA-seq技術(shù)的進(jìn)步帶來了高通量、高質(zhì)量的單細(xì)胞數(shù)據(jù)。然而,scRNA-seq數(shù)據(jù)集包含系統(tǒng)和隨機(jī)噪聲(例如來自質(zhì)量差的細(xì)胞),這可能掩蓋了真實(shí)的生物信號(hào)。scRNA-seq數(shù)據(jù)的預(yù)處理的主要目的是試圖識(shí)別和去除這些混雜的變異源。這涉及到質(zhì)量控制、歸一化、數(shù)據(jù)校正和特征選擇(圖2a)。 過濾低質(zhì)量細(xì)胞和噪聲校正大多數(shù)分析任務(wù)都假設(shè)每個(gè)微孔/液滴含有來自完整單細(xì)胞的RNA。這一假設(shè)通常被低質(zhì)量細(xì)胞、無細(xì)胞RNA污染或多個(gè)細(xì)胞捕獲所違背(圖2a)。檢測(cè)到的基因數(shù)量少、計(jì)數(shù)深度低和線粒體計(jì)數(shù)比例高的細(xì)胞通常被稱為低質(zhì)量細(xì)胞,因?yàn)樗鼈兛赡艽砟て屏训乃劳黾?xì)胞。低質(zhì)量的細(xì)胞被識(shí)別和過濾,方法是根據(jù)之前指南中推薦的手動(dòng)設(shè)置閾值或基于中位數(shù)絕對(duì)偏差的樣本自動(dòng)過濾。這些指標(biāo)應(yīng)該被聯(lián)合考慮,以防止對(duì)質(zhì)量指標(biāo)的誤讀。質(zhì)量控制應(yīng)該在單個(gè)樣本水平上進(jìn)行,因?yàn)闃颖局g的閾值可能有很大差異,即使是同樣的細(xì)胞類型。 環(huán)境RNA可能存在于細(xì)胞溶液中,并在文庫構(gòu)建過程中被分配給細(xì)胞的原生RNA。環(huán)境RNA污染可導(dǎo)致在其他細(xì)胞群中也可檢測(cè)到細(xì)胞類型特異性標(biāo)記基因轉(zhuǎn)錄物,這將不同的細(xì)胞群混合在一起。流行的方法,如 空液滴/微孔和雙液滴/微孔(含有兩個(gè)細(xì)胞的液滴/微孔)違反了每個(gè)液滴含有單個(gè)細(xì)胞的前提假設(shè)。由不同細(xì)胞類型形成的雙態(tài)(異型雙態(tài))很難標(biāo)注,并可能導(dǎo)致錯(cuò)誤的細(xì)胞類型標(biāo)簽。常見的雙細(xì)胞檢測(cè)方法通過組合兩個(gè)隨機(jī)采樣的細(xì)胞并與測(cè)量細(xì)胞進(jìn)行比較來生成人工雙態(tài)。 在下游分析過程中,當(dāng)?shù)唾|(zhì)量細(xì)胞和雙胞體聚集在一起時(shí),所選擇的質(zhì)量控制策略經(jīng)常需要重新評(píng)估。因此,作者建議最初設(shè)置允許的閾值,并在重分析((re-)analysis)期間根據(jù)需要再來去除更多的細(xì)胞。
歸一化細(xì)胞可以有不同數(shù)量的基因計(jì)數(shù),這是可能由于包含mRNA的體積(細(xì)胞大小)的差異,或者在測(cè)序過程中引入的隨機(jī)因素。計(jì)數(shù)歸一化使細(xì)胞具有可比性。隨后的方差穩(wěn)定確保了離群值分布對(duì)整體數(shù)據(jù)結(jié)構(gòu)的影響減小28(圖2a)。最近的一個(gè)基準(zhǔn)測(cè)試比較了基于K近鄰圖(KNN圖)與ground truth重疊的單細(xì)胞數(shù)據(jù)的22個(gè)轉(zhuǎn)換。具有大小因子的移位對(duì)數(shù)變換[數(shù)學(xué)處理錯(cuò)誤]表現(xiàn)良好,但不應(yīng)將每百萬計(jì)數(shù)作為輸入使用,因?yàn)樗从沉瞬磺袑?shí)際的分散情況。通過將所有基因用一個(gè)共同的因子進(jìn)行縮放,可以假設(shè)由于細(xì)胞大小而導(dǎo)致的計(jì)數(shù)深度差異可以忽略不計(jì)。然而,對(duì)于scRNA-seq數(shù)據(jù)集,如果數(shù)據(jù)集由各種不同的細(xì)胞類型組成,具有不相同的細(xì)胞屬性,則定義每個(gè)基因統(tǒng)計(jì)量可能不準(zhǔn)確。 消除變異的混雜來源變異的混雜來源可以分為技術(shù)協(xié)變量和生物協(xié)變量,應(yīng)分別對(duì)待,因?yàn)樗鼈兠枋隽藢?duì)數(shù)據(jù)的不同影響。 包含多個(gè)樣本的數(shù)據(jù)集可能會(huì)被反映技術(shù)變化的批次效應(yīng)所混淆。在聚類和可視化之后,可以觀察到批效應(yīng),應(yīng)該將其刪除,以確保它們不會(huì)被誤認(rèn)為是實(shí)際的生物學(xué)見解。數(shù)據(jù)集成方法處理相同實(shí)驗(yàn)環(huán)境下樣品間的批次效應(yīng)。最近的一項(xiàng)基準(zhǔn)比較了基于批校正和生物方差守恒的14個(gè)指標(biāo)的16種集成方法。線性嵌入模型(如典型相關(guān)分析 除了計(jì)數(shù)抽樣效應(yīng),scRNA-seq數(shù)據(jù)還可能包含生物學(xué)混淆因素,如細(xì)胞周期效應(yīng),細(xì)胞之間的差異可能是由于不同的細(xì)胞周期狀態(tài),而不是細(xì)胞類型。從數(shù)據(jù)集中去除這種影響有利于下游分析;然而,了解細(xì)胞是否在循環(huán),可能會(huì)為研究潛在的生物學(xué)提供有價(jià)值的見解。最近的benchmark建議使用 特征選擇與降維為了確保分析只關(guān)注生物學(xué)上有意義的基因,并處理大型數(shù)據(jù)集,計(jì)數(shù)矩陣可以簡(jiǎn)化為最具信息量的特征矩陣。特征選擇方法應(yīng)該理想地選擇解釋數(shù)據(jù)集中生物變異的基因,優(yōu)先考慮亞群之間而不是一個(gè)亞群內(nèi)的差異,而不影響亞群的可識(shí)別性。Deviance通過擬合一個(gè)基因模型來識(shí)別信息豐富的基因,該模型假設(shè)所有細(xì)胞都有恒定的表達(dá),并量化哪些基因違反了這一假設(shè)。在一項(xiàng)獨(dú)立的比較中顯示,它在識(shí)別亞群體中具有高方差的基因,從而選擇信息性基因方面表現(xiàn)良好。此外,通過偏差對(duì)基因進(jìn)行排序是在原始計(jì)數(shù)上進(jìn)行的,因此對(duì)歸一化不敏感。特征選擇后,可以通過主成分分析(PCA)等降維算法對(duì)數(shù)據(jù)集進(jìn)行進(jìn)一步降維(圖2a)。降維技術(shù)可用于底層數(shù)據(jù)拓?fù)涞目梢暬T谄渌芯康幕A(chǔ)上,PCA可用于數(shù)據(jù)匯總,t-SNE、UMAP和PHATE可用于更靈活的scRNA-seq數(shù)據(jù)可視化。值得注意的是,最近的一項(xiàng)研究表明,僅依賴2D嵌入可能會(huì)導(dǎo)致對(duì)細(xì)胞之間關(guān)系的錯(cuò)誤解釋,并且結(jié)果不應(yīng)僅基于對(duì)這些表示的視覺檢查,而應(yīng)與定量評(píng)估相結(jié)合。 從聚類到細(xì)胞類型經(jīng)過預(yù)處理后,從數(shù)據(jù)集中去除不必要的影響,提高了信噪比。終于,人們現(xiàn)在可以開始問與生物學(xué)相關(guān)的問題了。作為下一個(gè)分析里程碑,可以識(shí)別不同的細(xì)胞群,以進(jìn)一步指導(dǎo)和構(gòu)建分析目標(biāo)(圖2b)。 將單細(xì)胞聚類識(shí)別細(xì)胞群體的第一步是將細(xì)胞聚集成具有相似表達(dá)譜的簇,以解釋數(shù)據(jù)中的異質(zhì)性。獨(dú)立的基準(zhǔn)測(cè)試表明,通過
細(xì)胞類型注釋注釋是對(duì)細(xì)胞簇進(jìn)行生物學(xué)解釋的過程,它可以用手動(dòng)或自動(dòng)方法來執(zhí)行。建議采用三步方法,即利用自動(dòng)注釋,然后是專家手動(dòng)注釋,最后一步是驗(yàn)證,以獲得理想的注釋結(jié)果。第一步,自動(dòng)細(xì)胞類型注釋,可以分為基于分類器的方法和引用映射。使用預(yù)訓(xùn)練的分類器獲得的注釋結(jié)果受到分類器類型和用于創(chuàng)建分類器的訓(xùn)練數(shù)據(jù)質(zhì)量的強(qiáng)烈影響。此外,如果不額外檢查單個(gè)標(biāo)記,其實(shí)很難評(píng)估注釋的準(zhǔn)確性。在先前注釋的數(shù)據(jù)集或圖譜上訓(xùn)練并考慮大量基因的分類器的例子有 第二組自動(dòng)注釋方法是映射到現(xiàn)有的、帶注釋的單細(xì)胞參考數(shù)據(jù)集,并在生成的聯(lián)合嵌入上執(zhí)行標(biāo)簽傳輸。參考數(shù)據(jù)可以是數(shù)據(jù)集的單個(gè)樣本,理想情況下,也可以是現(xiàn)有單細(xì)胞圖譜。然后可以使用 第二步,手動(dòng)標(biāo)注,利用每個(gè)簇的基因標(biāo)記來標(biāo)注細(xì)胞簇。這些基因標(biāo)記通常被稱為標(biāo)記基因(marker genes),可以使用簡(jiǎn)單的差異表達(dá)檢測(cè)方法,如t檢驗(yàn)或Wilcoxon秩和檢驗(yàn)來識(shí)別。統(tǒng)計(jì)檢驗(yàn)應(yīng)用于兩組聚類,以尋找感興趣的聚類中上調(diào)或下調(diào)的基因。出于這個(gè)目的,Wilcoxon秩和檢驗(yàn)表現(xiàn)最好,但由于聚類的性質(zhì),P值可能會(huì)被夸大,并可能導(dǎo)致錯(cuò)誤的發(fā)現(xiàn),因?yàn)槭褂孟嗤臄?shù)據(jù)來定義我們測(cè)試之間差異的標(biāo)簽。然后將獲得的標(biāo)記與標(biāo)記基因進(jìn)行比較,以標(biāo)記細(xì)胞簇。 作為細(xì)胞類型注釋的最后一步,注釋應(yīng)由專家驗(yàn)證,特別是對(duì)于高復(fù)雜性的數(shù)據(jù)集或涉及罕見細(xì)胞亞群的研究,這些研究大概率無法獲得現(xiàn)成的參考文獻(xiàn),甚至和現(xiàn)有的某些文獻(xiàn)相矛盾。
從離散狀態(tài)到連續(xù)過程在非線性的生物過程中,如分化,細(xì)胞穿越一個(gè)連續(xù)的細(xì)胞狀態(tài)空間。使用單細(xì)胞數(shù)據(jù)來了解細(xì)胞命運(yùn)——以及在這種情況下調(diào)節(jié)細(xì)胞命運(yùn)的基因——是具有挑戰(zhàn)性的,因?yàn)闇y(cè)量結(jié)果只是某一狀態(tài)的快照。潛在的軌跡可以是循環(huán)的、線性的、樹狀的。根據(jù)細(xì)胞表達(dá)模式的相似性沿軌跡排列細(xì)胞的模型被稱為軌跡推斷或偽時(shí)間分析方法。軌跡推斷方法的性能取決于數(shù)據(jù)集中存在的軌跡類型。盡管 為了推斷動(dòng)態(tài)的定向信息, 回顧性實(shí)驗(yàn)譜系追蹤方法使用在細(xì)胞中觀察到的可變性,例如自然發(fā)生的基因突變,來推斷其譜系模型,以分析克隆群體中的細(xì)胞分裂歷史??梢允褂?code style="font-size: 14px;word-wrap: break-word;padding: 2px 4px;border-radius: 4px;margin: 0 2px;background-color: rgba(27,31,35,.05);font-family: Operator Mono, Consolas, Monaco, Menlo, monospace;word-break: break-all;color: #9654B5;">Cassiopeia進(jìn)行譜系追蹤數(shù)據(jù)的分析,
揭示機(jī)制在高質(zhì)量數(shù)據(jù)上獲得自信的注釋后,下游的分析變得多樣化,往往需要結(jié)合具體的生物學(xué)問題展開,可以研究許多感興趣的機(jī)制。以下分析步驟的選擇和順序取決于感興趣的問題和實(shí)驗(yàn)設(shè)計(jì)(圖2c)。 差異表達(dá)分析負(fù)二項(xiàng)分布的scRNA-seq數(shù)據(jù)可以用于檢測(cè)差異表達(dá)的基因,以識(shí)別標(biāo)記基因或在特定條件下上調(diào)或下調(diào)的基因。差異基因表達(dá)(DGE)分析目前主要從兩個(gè)角度進(jìn)行。樣本層面的聚合每個(gè)樣本標(biāo)簽組合的計(jì)數(shù),以創(chuàng)建pseudobulks,使用最初為pseudobulks表達(dá)式分析設(shè)計(jì)的包進(jìn)行分析,如 目前DGE分析的方法仍然顯示真陽性率(TPR)和精密度之間的權(quán)衡。高TPR導(dǎo)致低精度,因?yàn)榧訇栃詳?shù)量多,而高精度導(dǎo)致低TPR,因?yàn)槿狈σ炎R(shí)別的差異表達(dá)基因。Pseudoreplication導(dǎo)致虛發(fā)現(xiàn)率(FDR),因?yàn)镈GE方法沒有考慮復(fù)制(來自同一個(gè)體的細(xì)胞)的內(nèi)在相關(guān)性。在DGE分析之前,應(yīng)通過在個(gè)體中聚集細(xì)胞類型特異性計(jì)數(shù)來解釋樣本內(nèi)相關(guān)性。一般來說,pseudobulk 方法和混合模型,如帶有隨機(jī)效應(yīng)設(shè)置的MAST,被發(fā)現(xiàn)優(yōu)于樸素方法,如流行的Wilcoxon秩和檢驗(yàn),它不考慮樣本內(nèi)相關(guān)性。 DGE結(jié)果的有效性很大程度上取決于統(tǒng)計(jì)模型中主要變化軸。中間數(shù)據(jù)探索步驟,如pseudobulk樣本上的主成分分析,有助于確定變化的來源,從而可以指導(dǎo)構(gòu)建相應(yīng)的設(shè)計(jì)和對(duì)比矩陣,以建模數(shù)據(jù)。未能解釋實(shí)驗(yàn)中的多種生物變異來源將使fdr膨脹。因此,這里推薦靈活的方法,如 基因集富集分析scRNA-seq數(shù)據(jù)的高通量特性使得它們的解釋變得困難起來,這也是單細(xì)胞測(cè)序技術(shù)的革命性之體現(xiàn)?;蚣患治鲈试S將許多分子見解總結(jié)為可解釋的生物學(xué)術(shù)語,如通路,定義為通過以前的研究已知涉及的基因集。常用數(shù)據(jù)庫有 細(xì)胞豐度比列有沒有意義?細(xì)胞數(shù)量與比例研究的不是細(xì)胞基因表達(dá)譜的條件變化,而是以成分?jǐn)?shù)據(jù)的形式研究不同細(xì)胞類型的相對(duì)豐度。在發(fā)育和疾病中經(jīng)常觀察到比例變化,但細(xì)胞類型的比例分析方法缺乏獨(dú)立的基準(zhǔn)。單變量統(tǒng)計(jì)模型(如泊松回歸或Wilcoxon秩和檢驗(yàn))單獨(dú)分析每種細(xì)胞類型的豐度變化,可能會(huì)將一些細(xì)胞類型的群體變化視為統(tǒng)計(jì)學(xué)上的合理效應(yīng),盡管它們純粹是由數(shù)據(jù)的組合性引起的統(tǒng)計(jì)學(xué)假象,導(dǎo)致FDR升高。專門為利用細(xì)胞類型計(jì)數(shù)的單細(xì)胞數(shù)據(jù)設(shè)計(jì)的測(cè)試包括 對(duì)于發(fā)育數(shù)據(jù),基于已知注釋確定細(xì)胞類型比例變化可能不合適。
推斷擾動(dòng)效應(yīng)單細(xì)胞實(shí)驗(yàn)方案的進(jìn)步使大規(guī)模的多路實(shí)驗(yàn)?zāi)軌蛟跀?shù)千種獨(dú)特的條件下測(cè)量細(xì)胞,通常稱為“perturbations”。最近的技術(shù)(如perturb-seq或CROP-seq1)允許使用多模態(tài)、全基因組擾動(dòng)和組合擾動(dòng)對(duì)CRISPR-Cas9篩查進(jìn)行分析。分析這些復(fù)雜的條件被稱為擾動(dòng)模型,針對(duì)這種模型的工具還沒有獨(dú)立的基準(zhǔn)測(cè)試。 擾動(dòng)模型的一個(gè)領(lǐng)域是嘗試區(qū)分在這種分配未知的實(shí)驗(yàn)設(shè)置中成功和失敗的目標(biāo)細(xì)胞,并評(píng)估擾動(dòng)效應(yīng)。 擾動(dòng)模型的第二個(gè)領(lǐng)域涉及到非實(shí)驗(yàn)測(cè)量的微擾。潛在空間學(xué)習(xí)模型(如 細(xì)胞通訊機(jī)體發(fā)育和穩(wěn)態(tài)過程中,細(xì)胞之間不斷地相互作用。如果這種相互作用受損,疾病就會(huì)隨之而來。細(xì)胞-細(xì)胞通信推斷方法通常使用配體、受體及其相互作用庫來預(yù)測(cè)注釋簇之間的相互作用。這些數(shù)據(jù)庫偏向于特定的通路、功能類別和組織富集蛋白。交互方法和交互數(shù)據(jù)庫的選擇對(duì)預(yù)測(cè)交互有很大的影響。
染色質(zhì)可及性分析調(diào)控元件對(duì)于破譯細(xì)胞多樣性和理解細(xì)胞命運(yùn)至關(guān)重要?;虮磉_(dá)受復(fù)雜的相互作用的調(diào)控機(jī)制控制,包括表觀遺傳學(xué)和染色質(zhì)可及性。為了深入了解單細(xì)胞水平的染色質(zhì)狀態(tài)動(dòng)力學(xué),轉(zhuǎn)座酶可及染色質(zhì)測(cè)序的單細(xì)胞分析(scATAC-seq)測(cè)定了單個(gè)細(xì)胞的全基因組染色質(zhì)可及性(圖3)。 ![]() 特征定義與質(zhì)控與scRNA-seq數(shù)據(jù)的明確定義的基因特征相比,scATAC-seq數(shù)據(jù)由于數(shù)據(jù)的全基因組特性而缺乏標(biāo)準(zhǔn)化的特征集,對(duì)大部分新手來講,踏入這個(gè)技術(shù)的門檻之一是大量陌生的詞匯以及它們之間的關(guān)系。大多數(shù)工作流使用cell-by-peak(峰) 或 cell-by-bin(箱)矩陣作為分析的基礎(chǔ),這比基因或TF基序特征矩陣的性能更好(圖3a)。bin是基因組中大小一致的窗口,捕捉所有Tn5轉(zhuǎn)座事件,而峰(peak)指的是在背景噪聲下,Tn5轉(zhuǎn)座事件富集的開放染色質(zhì)的可變區(qū)域。值得注意的是,細(xì)胞-峰矩陣比scRNA-seq數(shù)據(jù)更為稀疏,由于二倍體生物的細(xì)胞中只有兩個(gè)可分析的染色質(zhì)拷貝,每個(gè)細(xì)胞中只有1-10%的峰被調(diào)用。識(shí)別峰需要足夠數(shù)量的細(xì)胞,因此在罕見的細(xì)胞類型中可能會(huì)失敗。峰檢測(cè)的靈敏度可以通過在簇內(nèi)調(diào)用來提高,這降低了罕見細(xì)胞類型被其他高度豐富的細(xì)胞類型的噪聲掩蓋的峰缺失的風(fēng)險(xiǎn)。對(duì)于這種方法,不排除基因組區(qū)域的cell-by-bin 矩陣也可作為聚類的基礎(chǔ)。 scATAC-seq質(zhì)量控制的最常見入口點(diǎn)是包含兩個(gè)相鄰Tn5轉(zhuǎn)位事件產(chǎn)生的所有已測(cè)序DNA片段。這些指標(biāo)用于計(jì)算一組特異性質(zhì)量指標(biāo),以確定低質(zhì)量細(xì)胞(圖3b)。與scRNA-seq數(shù)據(jù)中的測(cè)序深度類似,作者檢測(cè)了每個(gè)細(xì)胞的測(cè)序片段總數(shù)、片段總數(shù)的對(duì)數(shù)和轉(zhuǎn)錄起始位點(diǎn)(TSS)富集評(píng)分(一種衡量指標(biāo),用于捕獲每個(gè)細(xì)胞中相對(duì)于非啟動(dòng)子區(qū)域而言,通常更開放的啟動(dòng)子區(qū)域的信噪比)。低質(zhì)量細(xì)胞常形成低計(jì)數(shù)和低TSS富集分?jǐn)?shù)的簇,應(yīng)去除。此外,核小體信號(hào)被用來評(píng)估片段長(zhǎng)度分布。建議進(jìn)一步驗(yàn)證與人工信號(hào)相關(guān)的基因組區(qū)域的reads比例。在峰值調(diào)用后,通過與數(shù)據(jù)集相關(guān)的最小閾值控制每個(gè)細(xì)胞檢測(cè)到的特征的數(shù)量。此外,與TSS評(píng)分相似,峰值區(qū)域相對(duì)于非峰值區(qū)域的低讀數(shù)是低信噪比的指標(biāo)之一。 為了識(shí)別雙細(xì)胞,建議遵循
數(shù)據(jù)降維與scRNA-seq類似,稀疏的scATAC-seq數(shù)據(jù)需要標(biāo)準(zhǔn)化。在scATAC-seq數(shù)據(jù)中,最常見的歸一化策略是峰值的二值化。然而,這也可能會(huì)連同生物學(xué)信息一起去除,因此有人建議直接建立scATAC計(jì)數(shù)模型?;跐撛谡Z義索引( 細(xì)胞類型注釋可以根據(jù)差異可及區(qū)域(differentially accessible regions, DARs)和基因活性評(píng)分對(duì)細(xì)胞簇進(jìn)行注釋(圖3c)。DARs可通過類似于scRNA-seq的差異檢測(cè)方法獲得。需要考慮測(cè)序深度的類似差異,方法是將總計(jì)數(shù)視為混雜因素,或者根據(jù)總計(jì)數(shù)和可能的其他質(zhì)量控制指標(biāo)(如TSS評(píng)分)選擇一組偏倚匹配的細(xì)胞。雖然尚未對(duì)scATAC-seq數(shù)據(jù)的性能進(jìn)行基準(zhǔn)測(cè)試,但bulk ATAC-seq數(shù)據(jù)的現(xiàn)有基準(zhǔn)在樣本量有限時(shí)建議使用 TF motifs 分析tf基序富集有助于細(xì)胞特性的表征,并且可以通過對(duì)簇特異性DARs的超幾何檢驗(yàn)在簇水平上進(jìn)行。為了獲得每個(gè)細(xì)胞的富集分?jǐn)?shù), 單細(xì)胞轉(zhuǎn)錄組于染色質(zhì)可及性聯(lián)合之道10x Multiome、sci-CAR或scCAT-seq等檢測(cè)可對(duì)基因表達(dá)和染色質(zhì)可及性進(jìn)行聯(lián)合分析。目前的工作流程使用已建立的單模態(tài)質(zhì)量控制方法,并取所有模態(tài)的高質(zhì)量細(xì)胞的交集進(jìn)行綜合分析。一旦選擇了高質(zhì)量的細(xì)胞,我們就可以學(xué)習(xí)捕捉兩種模式的變異性的細(xì)胞的聯(lián)合表示,從而去除變異的混雜來源(框1)。由于尚未確定這種整合的最佳方法,作者建議首先進(jìn)行包括細(xì)胞類型注釋在內(nèi)的單模態(tài)分析。這可以通過比較單峰分析的聚類結(jié)果和細(xì)胞類型標(biāo)簽來評(píng)估聯(lián)合表示。然后,高質(zhì)量的多模態(tài)表示被用作大多數(shù)單模態(tài)分析方法的輸入,包括細(xì)胞類型注釋、差異分析和軌跡分析。 配對(duì)的scRNA-seq和scATAC-seq數(shù)據(jù)也使我們能夠使用新的聯(lián)合方法來識(shí)別基因表達(dá)和細(xì)胞狀態(tài)的調(diào)節(jié)因子。為了識(shí)別潛在的CREs,基于相關(guān)性的方法被用于將峰與細(xì)胞簇內(nèi)的基因連接。這種方法可以通過以下方法進(jìn)行擴(kuò)展:使用
單細(xì)胞表面蛋白表達(dá)轉(zhuǎn)錄和染色質(zhì)可及性是細(xì)胞狀態(tài)、活性和調(diào)節(jié)的代表。實(shí)際產(chǎn)生的產(chǎn)物,蛋白質(zhì)承擔(dān)著細(xì)胞內(nèi)或細(xì)胞外的生物學(xué)任務(wù),一部分細(xì)胞蛋白質(zhì)出現(xiàn)在細(xì)胞表面。表面蛋白表達(dá)有助于識(shí)別細(xì)胞類型,如免疫系統(tǒng)的造血細(xì)胞,其注釋是基于通常用于流式細(xì)胞術(shù)或質(zhì)譜細(xì)胞術(shù)實(shí)驗(yàn)的標(biāo)記。它們可以進(jìn)一步用于驗(yàn)證特定的基因敲除基因,例如使用前面提到的 ![]() 校正ADT計(jì)數(shù)與基因計(jì)數(shù)的負(fù)二項(xiàng)分布相反,ADT數(shù)據(jù)沒有那么稀疏。對(duì)于基于液滴的檢測(cè),由于環(huán)境污染和非特異性抗體結(jié)合,ADTs的非零計(jì)數(shù)通常被觀察到。大多數(shù)標(biāo)記物呈雙峰分布,一個(gè)是非特異性抗體結(jié)合的“陰性”(低計(jì)數(shù))峰和一個(gè)類似于特定細(xì)胞類型的細(xì)胞表面蛋白富集的“陽性”峰。所有或大部分抗體組計(jì)數(shù)為零的文庫應(yīng)被移除;然而,去除ADT總計(jì)數(shù)低的細(xì)胞可能會(huì)去除不表達(dá)特定一組蛋白或只表達(dá)少量蛋白的細(xì)胞類型。CITE-seq實(shí)驗(yàn)也可以包含同型對(duì)照,即用于測(cè)定每個(gè)細(xì)胞非特異性結(jié)合(如抗體聚集)的非靶點(diǎn)特異性抗體。在離群細(xì)胞中可檢測(cè)到大量同種型計(jì)數(shù),然后應(yīng)將其去除。由于這些考慮,在ADT模式中,應(yīng)仔細(xì)評(píng)估單個(gè)質(zhì)量控制指標(biāo),RNA和ADT的聯(lián)合測(cè)量應(yīng)分別進(jìn)行質(zhì)量控制。由于抗體效力是可變的,因此多項(xiàng)研究中ADT數(shù)據(jù)的整合可能導(dǎo)致強(qiáng)烈的批次效應(yīng),需要校正。 計(jì)算ADT含量偏差細(xì)胞特征會(huì)導(dǎo)致捕獲效率不同,從而導(dǎo)致細(xì)胞組成的偏差。只有表達(dá)目標(biāo)蛋白的細(xì)胞才會(huì)導(dǎo)致標(biāo)簽計(jì)數(shù)的增加,而這可能只是特定的細(xì)胞類型。這可以通過使用中心對(duì)數(shù)比(centred log-ratio,CLR)轉(zhuǎn)換進(jìn)行歸一0或背景去噪和縮放(DSB)來解釋。DSB使用代表蛋白質(zhì)背景噪聲的背景來校正細(xì)胞中的數(shù)值,同時(shí)通過將同型對(duì)照水平與各自細(xì)胞的特定背景水平相結(jié)合來消除細(xì)胞間的差異。DSB的作者發(fā)現(xiàn),由于原始計(jì)數(shù)中背景分布的可用性,這種方法消除了更多的噪聲。 聯(lián)合單細(xì)胞轉(zhuǎn)錄組與膜蛋白數(shù)據(jù)ADT數(shù)據(jù)的下游分析遵循與單細(xì)胞RNA分析相似的流程,在單細(xì)胞RNA分析中,可以對(duì)注釋的簇進(jìn)行差異豐度檢驗(yàn)(圖2b和4b)。ADT數(shù)據(jù)與其他模式(如轉(zhuǎn)錄組學(xué))聯(lián)合分析時(shí),提供了深刻的見解。經(jīng)過各自的預(yù)處理后,可以使用一般適用的多模態(tài)集成工具(Box 1)或CITE-seq專用的、基于深度學(xué)習(xí)的
單細(xì)胞免疫組庫單細(xì)胞轉(zhuǎn)錄組和單細(xì)胞染色質(zhì)可及性是每個(gè)細(xì)胞都有的生物學(xué)事件,而免疫受體主要在適應(yīng)性免疫細(xì)胞中有。TCR和BCR是構(gòu)成適應(yīng)性免疫受體庫(AIRR)的跨膜表面蛋白復(fù)合物(圖5a)。這兩種受體均可檢測(cè)病原體和腫瘤特異性抗原,但相互作用的方式不同。BCRs直接識(shí)別可溶性或膜結(jié)合的表位,而TCRs與與細(xì)胞表面主要組織相容性復(fù)合體(MHC)分子結(jié)合的線性肽相互作用?;罨腂細(xì)胞和T細(xì)胞發(fā)揮多種功能,如效應(yīng)免疫、通過增殖形成記憶或調(diào)節(jié)進(jìn)一步的免疫反應(yīng)。B細(xì)胞和T細(xì)胞的特異性由AIR序列確定。為了捕獲廣泛的抗原,體細(xì)胞V(D)J重組在個(gè)體的B和T細(xì)胞群中產(chǎn)生高度多樣化的AIR序列(圖5a)。免疫受體分析可以使用 ![]() 解碼AIRR序列特征AIRR序列可以通過V(D)J測(cè)序得到,然后進(jìn)行比對(duì)和鏈配對(duì)來破譯(圖5b)。雖然沒有TCR序列重建的基準(zhǔn),但 篩選功能性適應(yīng)性免疫受體豐度分析研究的不是細(xì)胞基因表達(dá)譜的條件變化,而是豐度分?jǐn)?shù)據(jù)的形式研究不同細(xì)胞類型的相對(duì)豐度。在發(fā)育和疾病中經(jīng)常觀察到豐度變化,但豐度分析方法缺乏獨(dú)立的基準(zhǔn)。單變量統(tǒng)計(jì)模型(如泊松回歸或Wilcoxon秩和檢驗(yàn))單獨(dú)分析每種細(xì)胞類型的豐度變化,可能會(huì)將一些細(xì)胞類型的群體變化視為統(tǒng)計(jì)學(xué)上的合理效應(yīng),盡管它們純粹是由數(shù)據(jù)的組合性引起的統(tǒng)計(jì)學(xué)假象,導(dǎo)致FDR升高。并非所有在等位基因重排過程中產(chǎn)生的AIR鏈都能形成功能性AIR。細(xì)胞僅分配給VJ或VDJ鏈的不完全AIRs被定期檢測(cè)并代表有效的細(xì)胞,但不能用于所有期望完整AIRs的下游過程。淋巴細(xì)胞可表達(dá)雙AIRs,約10%的淋巴細(xì)胞可表達(dá)與單個(gè)VDJ鏈配對(duì)的多個(gè)VJ鏈。表達(dá)雙VDJ鏈的淋巴細(xì)胞更為罕見(1%),應(yīng)謹(jǐn)慎治療。然而,對(duì)于VJ或VDJ鏈具有兩個(gè)以上的賦值的細(xì)胞總是表示為雙細(xì)胞。將AIR狀態(tài)與鏈配對(duì)信息和受體類型相關(guān)聯(lián),可以在下游分析時(shí)進(jìn)行任務(wù)特異性的AIR選擇,以確保盡可能多的使用數(shù)據(jù)(圖5b)。例如,單一VDJ鏈仍然可以用于基于CDR3-VDJ鏈的數(shù)據(jù)庫查詢,但不能用于基于完整AIR的查詢。鏈配對(duì)和受體類型的分布可以在樣本或條件等組中可視化,并且應(yīng)該刪除具有過多質(zhì)量問題的離群簇。專門為利用細(xì)胞類型計(jì)數(shù)的單細(xì)胞數(shù)據(jù)設(shè)計(jì)的測(cè)試包括 確定和分類克隆型來自同一祖細(xì)胞的T或B細(xì)胞群形成克隆型,通常處于休眠狀態(tài),直到接收到來自自分泌因子的外部信號(hào)或刺激。因此,在克隆擴(kuò)張過程中,特定細(xì)胞急劇增殖以完成各自預(yù)定的防御反應(yīng)??寺U(kuò)增的T或B細(xì)胞的持續(xù)存在可作為近期免疫應(yīng)答的生物標(biāo)志物。對(duì)于TCR,可以通過相同的V基因和相同的VJ和VDJ CDR3核酸序列確定克隆型,或者根據(jù)考慮到體細(xì)胞超突變的bcr的譜系重建分析框架中實(shí)施的距離確定克隆型(圖5d)。 在分析過程中,可以省略V基因匹配的要求,有孤兒鏈的細(xì)胞可以分配到相關(guān)的克隆型。由于體細(xì)胞超突變,來自克隆譜系的B細(xì)胞通常根據(jù)漢明距離分組,其CDR3氨基酸序列的同源性超過80% 。公共克隆型出現(xiàn)在多個(gè)供者中,可以代表共同的免疫應(yīng)答。相比之下,私有克隆型代表了患者特異性克隆應(yīng)答,這可能對(duì)個(gè)體化治療有價(jià)值??寺⌒偷臉颖矩S度可以通過 細(xì)胞特異性測(cè)定影響AIR–antigen相互作用(反映特異性)的位置主要位于VDJ鏈的CDR3,其次位于VJ鏈的CDR3。T細(xì)胞中的抗原特異性由表位序列和整個(gè)air表位復(fù)合物驅(qū)動(dòng)。雖然AIR特異性可以使用條形碼抗原進(jìn)行實(shí)驗(yàn)測(cè)定,但有幾種方法試圖通過計(jì)算推斷AIR特異性(圖5e)。 首先,可以直接或通過 第二種方法使用直接應(yīng)用于CDR3序列的距離指標(biāo)或序列的嵌入來比較AIRs,因?yàn)榫哂邢嗨菩蛄械腁IRs可能具有共同的特異性。雖然漢明距離通常用于bcr,因?yàn)樗梢阅M體細(xì)胞超突變,但tcr更常用的是專門的方法,例如 作為第三種策略,最近的方法使用機(jī)器學(xué)習(xí)工具(如ERGO-II)直接預(yù)測(cè)AIRs和表位之間的結(jié)合。這三種方法都依賴于公共數(shù)據(jù)庫(其中包含的數(shù)據(jù)主要來自通常研究的疾病),并且缺乏用于破譯T細(xì)胞抗原特異性的MHCs信息。 整合單細(xì)胞轉(zhuǎn)錄組與免疫組數(shù)據(jù)AIRR測(cè)序通常與其他組學(xué)(如表面蛋白和轉(zhuǎn)錄組測(cè)定)結(jié)合,從而能夠詳細(xì)觀察感染或疫苗接種后的細(xì)胞命運(yùn)。AIRs的存在可以通過分離免疫細(xì)胞簇和詳細(xì)的T細(xì)胞注釋來指導(dǎo)細(xì)胞類型注釋。對(duì)于配對(duì)數(shù)據(jù)(框1),可以使用
空間轉(zhuǎn)錄組到目前為止,所有討論的模式都是基于分離的單細(xì)胞組學(xué)技術(shù),以表征細(xì)胞身份和組織狀態(tài)。然而,在多細(xì)胞生物中,細(xì)胞相互作用并形成空間結(jié)構(gòu)微環(huán)境,這些微環(huán)境可以在不同的樣本和條件下變化。細(xì)胞組織彌合了組織生物學(xué)和病理學(xué)之間的鴻溝,這使得我們能夠發(fā)現(xiàn)新的細(xì)胞功能,并產(chǎn)生了新的計(jì)算挑戰(zhàn),為此需要不同的分析方法??臻g組學(xué)通過在單細(xì)胞基因組學(xué)基礎(chǔ)上增加兩種額外的方式來解決細(xì)胞特征和細(xì)胞特性:組織學(xué)成像和空間分析。 單個(gè)細(xì)胞的空間定位有助于理清組織微環(huán)境及其功能依賴性。除了利用細(xì)胞的空間坐標(biāo)來更好地理解組織結(jié)構(gòu),我們還可以使用組織學(xué)圖像的非分子特征。例如,添加從成像數(shù)據(jù)中提取的信息可以增強(qiáng)細(xì)胞識(shí)別或分子特征的分辨率,或有助于識(shí)別變異的空間模式??臻g基因表達(dá)譜技術(shù)在空間分辨率(亞細(xì)胞和條形碼區(qū)域,特征在不同區(qū)域聚集)、檢測(cè)效率、通量和空間解析的模式方面存在差異。目前開發(fā)的大多數(shù)分析方法都是針對(duì)空間轉(zhuǎn)錄組學(xué)的。兩種主要的空間分子分析技術(shù)是基于陣列的(圖6a)和基于圖像的方法(圖6b)。分析空間數(shù)據(jù)集需要專門針對(duì)這種模式的分析工具,可以使用 ![]() 獲得細(xì)胞計(jì)數(shù)矩陣和空間坐標(biāo)基于陣列和基于圖像的空間轉(zhuǎn)錄組學(xué)都需要特定的工具來將測(cè)量的分子分配到單個(gè)細(xì)胞。由于陣列分析不能獲得單細(xì)胞分辨率,因此斑點(diǎn)的基因表達(dá)譜反映的是細(xì)胞類型的組成,而不是不同的細(xì)胞類型。在基于基因表達(dá)譜芯片的基因表達(dá)譜中,人們提出了各種方法來分解基因表達(dá)譜。 對(duì)于基于圖像的檢測(cè)(如熒光原位雜交(FISH)和原位測(cè)序(ISS)),通過細(xì)胞分割獲得細(xì)胞計(jì)數(shù)矩陣和空間坐標(biāo)。由于空間轉(zhuǎn)錄組學(xué)數(shù)據(jù)的復(fù)雜性(在使用的分析、分辨率和組織變異方面),這些工具通常需要手動(dòng)微調(diào)以獲得有價(jià)值的分割結(jié)果。 通過基于陣列的空間轉(zhuǎn)錄組學(xué)和隨后的細(xì)胞類型去卷積,或者基于圖像的空間轉(zhuǎn)錄組學(xué)和隨后的分割,可以以類似于scRNA-seq數(shù)據(jù)的方式對(duì)基因表達(dá)矩陣進(jìn)行過濾、標(biāo)準(zhǔn)化和可視化。 描述細(xì)胞特性及其微環(huán)境對(duì)于單細(xì)胞分辨率的基于成像的空間轉(zhuǎn)錄組學(xué)數(shù)據(jù),細(xì)胞注釋與scRNA-seq數(shù)據(jù)相似(圖6c)。這些技術(shù)通常只讀出一組預(yù)定義的轉(zhuǎn)錄本?;虻倪x擇通常是基于從scRNA-seq獲得的先驗(yàn)生物學(xué)知識(shí),可能不適合識(shí)別罕見的細(xì)胞亞群,這導(dǎo)致了對(duì)已知細(xì)胞類型的偏倚。將標(biāo)準(zhǔn)的初始空間scRNA-seq數(shù)據(jù)和目標(biāo)空間解析數(shù)據(jù)進(jìn)行比對(duì),使我們能夠以空間解析的方式填補(bǔ)整個(gè)轉(zhuǎn)錄組(在標(biāo)準(zhǔn)scRNA-seq中測(cè)量),并試圖解決目標(biāo)特征空間的局限性。這種方法產(chǎn)生了全轉(zhuǎn)錄組的單細(xì)胞解析的空間轉(zhuǎn)錄組數(shù)據(jù)。 除了僅根據(jù)細(xì)胞的基因表達(dá)譜來注釋細(xì)胞外,還可以利用空間位置來識(shí)別細(xì)胞身份。 不同樣本之間細(xì)胞微環(huán)境的識(shí)別可能會(huì)受到圖像方向差異的阻礙。圖像可能并不總是在整個(gè)數(shù)據(jù)集中完美對(duì)齊,并且在不同的視野中比較結(jié)果可能具有挑戰(zhàn)性。 識(shí)別與細(xì)胞組織和組織結(jié)構(gòu)相關(guān)的空間模式細(xì)胞微環(huán)境使我們對(duì)驅(qū)動(dòng)組織狀態(tài)的機(jī)制有了新的認(rèn)識(shí),并且可以通過多種方式進(jìn)行分析(圖6d)?;虮磉_(dá)差異分析在scRNA-seq鑒定高度可變基因和DGE分析方面被廣泛探索。對(duì)于空間轉(zhuǎn)錄組學(xué)數(shù)據(jù),空間可變基因(SVGs)的識(shí)別是補(bǔ)充。實(shí)現(xiàn)這一目的的方法在假設(shè)和對(duì)svg的定義方面有很大差異,并且對(duì)于如何最好地識(shí)別svg尚未達(dá)成共識(shí)。例如, 細(xì)胞間依賴空間的通信事件在組織中,細(xì)胞直接接觸,可通過表面結(jié)合的配體和受體、長(zhǎng)程旁分泌效應(yīng)、生物機(jī)械力和代謝物交換等間接機(jī)制相互作用。這些事件通常被稱為對(duì)基因表達(dá)變異的外在影響,在描述細(xì)胞組織和組織生態(tài)位時(shí)應(yīng)予以考慮。如上文所述,細(xì)胞通訊事件可以在分離的scRNA-seq數(shù)據(jù)中確定。然而,這些方法往往忽略了底層組織的空間組織,這可能導(dǎo)致假陽性發(fā)現(xiàn)??臻g細(xì)胞間通訊的方法通常是根據(jù)周圍相鄰細(xì)胞比較基因表達(dá)模式。
展望本文綜述了轉(zhuǎn)錄組學(xué)、染色質(zhì)可及性、表面蛋白、AIRR和空間分辨單細(xì)胞數(shù)據(jù)的典型單模和多模分析的步驟。本工作為進(jìn)入該領(lǐng)域的新人提供了一個(gè)切入點(diǎn),同時(shí)為有經(jīng)驗(yàn)的分析人員提供了一份可參考的最佳實(shí)踐。所有的建議都是基于獨(dú)立的基準(zhǔn),這不可避免地落后于最新的方法發(fā)展。隨著基準(zhǔn)測(cè)試的進(jìn)一步發(fā)布,各個(gè)工具的建議可能會(huì)改變,并需要定期更新,以確保單細(xì)胞分析的最佳實(shí)踐。因此,作者準(zhǔn)備了在線書籍:https:///,它提供了詳細(xì)的方法描述,演示了如何將本文的建議付諸實(shí)踐。在線書籍將納入定期更新,并作為多組學(xué)單細(xì)胞分析領(lǐng)域的新手和專家的靈活和最新指南。 除了越來越多的方法,生成的單細(xì)胞數(shù)據(jù)集的數(shù)量也在增加,可以預(yù)測(cè),從大規(guī)模數(shù)據(jù)集(如集成圖譜集)中學(xué)習(xí)將變得更加重要。大規(guī)模的數(shù)據(jù)集能夠通過潛在空間嵌入等方式開發(fā)描述細(xì)胞和個(gè)體異質(zhì)性的模型。正如通過單細(xì)胞數(shù)據(jù)分析等框架學(xué)習(xí)到的那樣,潛在表示可用于批校正、聚類、可視化和DGE分析。通過跳過人工質(zhì)量控制步驟簡(jiǎn)化了單細(xì)胞數(shù)據(jù)的分析。通過查詢到參考映射方法,建立在這些潛在空間上的模型變得具有預(yù)測(cè)性,這將從無監(jiān)督的探索性分析方法轉(zhuǎn)向由監(jiān)督預(yù)測(cè)補(bǔ)充的單細(xì)胞分析。構(gòu)建多模態(tài)參考圖譜將進(jìn)一步支持同時(shí)在多個(gè)層上表征細(xì)胞狀態(tài),從而為單模態(tài)查詢提供多模態(tài)洞察。 了解擾動(dòng)對(duì)這些多組學(xué)細(xì)胞狀態(tài)的影響將變得越來越重要。高度平行的微擾篩選(如基因組規(guī)模的Perturb-seq)已經(jīng)測(cè)量了全基因組的微擾效應(yīng)。將基因組規(guī)模的Perturb-seq與進(jìn)一步的模式相結(jié)合,使遺傳景觀的系統(tǒng)探索能夠揭示背景特定的基因調(diào)控網(wǎng)絡(luò)。這進(jìn)一步將單細(xì)胞基因組學(xué)擴(kuò)展到藥物靶點(diǎn)篩選等藥理學(xué)應(yīng)用。我們預(yù)計(jì)將引入更多分析方法,這些方法解析成功和失敗的擾動(dòng),并從多模態(tài)數(shù)據(jù)推斷基因調(diào)控網(wǎng)絡(luò),例如 為了使單細(xì)胞多組學(xué)具有強(qiáng)大的臨床應(yīng)用,包括來自電子健康記錄的患者協(xié)變量可能是至關(guān)重要的。目前尚缺乏用于探索性分析的工具、組學(xué)數(shù)據(jù)集的整合以及組學(xué)測(cè)量與表型信息的映射,讓我們一起期待在這一方向上進(jìn)一步發(fā)展??梢灶A(yù)見的事這種一體化的工作流程將建立在我們?yōu)槎嗄B(tài)單細(xì)胞分析建立的基礎(chǔ)之上。
|
|