展望
文獻(xiàn)詳解欄目 每個(gè)人的時(shí)間精力有限,必須優(yōu)先閱讀相關(guān)文獻(xiàn),開(kāi)設(shè)這個(gè)欄目也是希望為大家推薦高質(zhì)量的單細(xì)胞相關(guān)文獻(xiàn)。如果大家對(duì)單細(xì)胞轉(zhuǎn)錄組感興趣可以關(guān)注一下,哪怕每天只學(xué)一點(diǎn)點(diǎn),積土成山,積水成淵。 當(dāng)然一個(gè)人的力量終歸是小的,我也希望匯聚一群人,形成一個(gè)場(chǎng),這里頭最重要的生產(chǎn)力不是單個(gè)人多聰明,多厲害,而是每個(gè)人相互作用,形成的那個(gè)氛圍。 希望大家能有所收獲! 文章 文章發(fā)表于nature review genetics:Integrative single- cell analysis,作者是Tim Stuart與Rahul Satija。做過(guò)單細(xì)胞分析的對(duì)他們應(yīng)該都不陌生。 scRNA-seq技術(shù)的發(fā)展契合了研究個(gè)體細(xì)胞表觀(guān)遺傳、空間研究、蛋白質(zhì)組與譜系信息的方法需要,這為研究多類(lèi)型數(shù)據(jù)的綜合方法提出了獨(dú)特的機(jī)遇與挑戰(zhàn)。綜合分析可以發(fā)現(xiàn)細(xì)胞之間的模式關(guān)系,獲取細(xì)胞的整體狀態(tài)信息,產(chǎn)生涵蓋不同樣本與不同研究手段的數(shù)據(jù)集。該文重點(diǎn)討論了單細(xì)胞基因表達(dá)數(shù)據(jù)與其他類(lèi)型的單細(xì)胞分析方法的整合。 一些 · 概念 多模態(tài)(Multimodal)數(shù)據(jù):多種類(lèi)型數(shù)據(jù)的組合,如RNA與蛋白質(zhì)數(shù)據(jù)組合,是一種多維度數(shù)據(jù),類(lèi)似多組學(xué)。 單模態(tài):?jiǎn)蝹€(gè)類(lèi)型數(shù)據(jù) Pseudotime:擬時(shí)分析
概述 隨著分子生物學(xué)、微流控與納米技術(shù)的發(fā)展,催生了許多類(lèi)型的單細(xì)胞測(cè)序技術(shù)。過(guò)去的方法集中在單模態(tài)測(cè)量上,如DNA序列、RNA表達(dá)量和染色質(zhì)可及性上。雖然這些技術(shù)促進(jìn)了我們對(duì)細(xì)胞多樣性與發(fā)育景觀(guān)的理解,但是它們并不能很好地解析單細(xì)胞內(nèi)分子間互作關(guān)系。而這些互作關(guān)系是深入探索細(xì)胞狀態(tài)的關(guān)鍵。此外,隨著可用數(shù)據(jù)集規(guī)模的快速增長(zhǎng),迫切需要用于標(biāo)準(zhǔn)化與聯(lián)合分析且考量到批次效應(yīng)與個(gè)體差異的計(jì)算方法。
單細(xì)胞多模態(tài)綜合分析方法示意 Multimodal and integrative methods for single- cell analyses
單模態(tài)與多模態(tài)分析方法匯總 CEL-seq:線(xiàn)性擴(kuò)增測(cè)序法 理想的實(shí)驗(yàn)流程應(yīng)當(dāng)全面洞悉細(xì)胞的所有方面,包括分子狀態(tài)、空間構(gòu)象、胞外環(huán)境互作的全部過(guò)程。盡管當(dāng)下技術(shù)手段無(wú)法做到,但多模態(tài)技術(shù)與綜合計(jì)算方法可以是我們離該目標(biāo)越來(lái)越近。文章希望提出整合單細(xì)胞轉(zhuǎn)錄組學(xué)、基因組學(xué)、表觀(guān)組學(xué)與蛋白組學(xué)的數(shù)據(jù)統(tǒng)一分析方法,重點(diǎn)在結(jié)合其他數(shù)據(jù)類(lèi)型分析scRNA-seq數(shù)據(jù),尤其是整合來(lái)自于同一細(xì)胞的不同類(lèi)型數(shù)據(jù)。 文章分為四大塊,首先探討了多模態(tài)單細(xì)胞分析方法,其次研究了不同實(shí)驗(yàn)不同數(shù)據(jù)整合分析,然后討論了單細(xì)胞空間測(cè)序數(shù)據(jù)整合分析方法,最后給出了整合分析方法的前景與必要性。(本文中我把第二和第三塊的內(nèi)容合在了一起) 單細(xì)胞多模態(tài)測(cè)序方法 最初的單細(xì)胞分析方法主要關(guān)注細(xì)胞某狀態(tài)下的某類(lèi)分子水平。而現(xiàn)在更引人矚目的是同時(shí)分析單細(xì)胞內(nèi)多種分子以建立更全面的單細(xì)胞分子視圖。通常這些方法是將scRNA-seq數(shù)據(jù)與其它分析手段的結(jié)合,目前主要有四種策略從單細(xì)胞中得到多模態(tài)數(shù)據(jù): 嚴(yán)格來(lái)說(shuō)這種方法算單模態(tài)。
針對(duì)熒光無(wú)法分選的部分,F(xiàn)ACS顯然是不合適的,尤其是需要同時(shí)測(cè)得單細(xì)胞基因組與胞內(nèi)蛋白的scRNA-seq實(shí)驗(yàn)。此時(shí)需要物理分離或通過(guò)不同tag篩選出不同組分。 G&T-seq通過(guò)加入oligo(dT)特異性分離mRNA同時(shí)保留基因組DNA從而實(shí)現(xiàn)了基因組轉(zhuǎn)錄組平行測(cè)序(Macaulay, I. C. et al., 2015)DR-seq通過(guò)則通過(guò)加入barcode特異擴(kuò)增cDNA序列實(shí)現(xiàn)基因組轉(zhuǎn)錄組平行測(cè)序(Dey, S. S. et al., 2015)。這使得單細(xì)胞基因表達(dá)水平與其對(duì)應(yīng)基因型聯(lián)系起來(lái),深度揭示單細(xì)胞間DNA拷貝數(shù)變異與染色體重排對(duì)下游mRNA豐度的具體關(guān)聯(lián)。這些方法適用于研究體細(xì)胞基因高度變異的腫瘤組織。 DNA甲基化與轉(zhuǎn)錄組水平結(jié)合研究是基于Macaulay, I. C. et al., 2015的G&T-seq和 Smallwood, S. A. et al., 2014的scBS- seq技術(shù)發(fā)展的,同普通BSP一樣,用亞硫酸氫鈉處理DNA片段隨后進(jìn)行擴(kuò)增,結(jié)合G&T-seq,可以分析同一細(xì)胞內(nèi)的DNA甲基化模式和基因表達(dá)數(shù)據(jù)(Angermueller, C. et al., 2016)。由于DNA甲基化存在不穩(wěn)定性和異質(zhì)性,因此若要研究DNA甲基化與基因表達(dá)間的關(guān)系,則必須將表觀(guān)基因組變異與細(xì)胞間的異質(zhì)性區(qū)別開(kāi)來(lái)。 關(guān)于胞內(nèi)蛋白與mRNA關(guān)聯(lián)研究,有兩種思路可供借鑒。其一(Darmanis, S. et al., 2016)是將FACS sort到的細(xì)胞裂解后分離裂解液,分別進(jìn)行蛋白質(zhì)與RNA定量。作者采用PEA (鄰近探針延伸分析) 檢測(cè)蛋白并用RT-qPCR定量,采用qRT-PCR定量mRNA。該法可以同時(shí)檢測(cè)82個(gè)mRNA/75個(gè)蛋白;其二(Genshaft, A. S. et al.)是將FACS sort到的細(xì)胞在微流控芯片中同時(shí)進(jìn)行逆轉(zhuǎn)錄和PEA而不分離裂解液。該法可以同時(shí)檢測(cè)96個(gè)mRNA/38個(gè)蛋白。這兩種方法檢測(cè)的蛋白與mRNA數(shù)量與質(zhì)量均有限。
這些技術(shù)的出現(xiàn)表明若將可以細(xì)胞信息轉(zhuǎn)化為有序的barcode,我們就可以在分析單細(xì)胞轉(zhuǎn)錄組時(shí)將這些信息同時(shí)獲取。這種策略不僅適用于分析細(xì)胞的自然狀態(tài),也適用于大規(guī)模基因擾動(dòng)研究。目前有Perturb-Seq(Dixit, A. et al., 2016)和CRISPR-Seq(Adamson, B. et al., 2016; Datlinger, P. et al., 2017; Jaitin, D. A. et al., 2016),他們將scRNA-seq與CRISPR-cas9結(jié)合進(jìn)行遺傳篩選,使得研究正向遺傳學(xué)的大規(guī)?;驍_動(dòng)試驗(yàn)成為可能。具體原理是給單個(gè)基因擾動(dòng)和受到影響的細(xì)胞添加barcode,通過(guò)scRNA-seq能夠鑒定出這兩者,從而推斷CRISPR靶向基因和由此產(chǎn)生的單個(gè)細(xì)胞的轉(zhuǎn)錄譜間的關(guān)系。目前應(yīng)用在基因調(diào)控網(wǎng)絡(luò)(Dixit, A. et al., 2016)、未折疊蛋白反應(yīng)(Adamson, B. et al., 2016)、免疫細(xì)胞分化發(fā)育(Datlinger, P. et al., 2017)和T細(xì)胞受體激活(Jaitin, D. A. et al., 2016),非編碼區(qū)調(diào)控元件(Klann, T. S. et al., 2017)。此外,還可以結(jié)合CRISPR-dcas9系統(tǒng),擴(kuò)展到轉(zhuǎn)錄調(diào)控、表觀(guān)遺傳調(diào)控領(lǐng)域中(Thakore, P. I. et al., 2016; Liu, X. S. et al., 2016; Hilton, I. B. et al., 2015; Konermann, S. et al., 2015; Gilbert, L. A. et al., 2017),18年發(fā)展了同時(shí)靶向和敲除基因的技術(shù)(Boettcher, M. et al., 2018)。 另一個(gè)應(yīng)用是結(jié)合CRISPR-cas9的譜系追蹤技術(shù)。單細(xì)胞譜系追蹤是去年的大熱方向之一,此處提到三種mRNA+lineage方法:scGESTALT、ScarTrace、LINNAEUS。這三種方法各有不同,但大體是利用CRISPR-cas9連續(xù)切割結(jié)合到基因組上的barcode,細(xì)胞會(huì)用NHEJ來(lái)應(yīng)對(duì)這種損傷。但NHEJ容易出錯(cuò),從而在DNA序列中產(chǎn)生隨機(jī)突變,這些突變通過(guò)細(xì)胞分裂進(jìn)行遺傳,結(jié)合scRNAseq利用這些突變作為復(fù)合barcode來(lái)構(gòu)建組織或器官發(fā)育譜系。 另一種略有不同的方法是MEMOIR,它結(jié)合smFISH與CRISPR-cas9系統(tǒng),可以同時(shí)檢測(cè)細(xì)胞譜系與空間位置。 普通的scRNA-seq流程除了可以做轉(zhuǎn)錄本豐度外,還可以進(jìn)行諸如體細(xì)胞突變、遺傳變異、RNA isoform等分析。 關(guān)于體細(xì)胞突變目前已有研究(Lodato, M. A. et al., 2015),該文通過(guò)對(duì)人大腦的少量單細(xì)胞全基因組測(cè)序,分析了發(fā)生的細(xì)胞突變,構(gòu)建了人大腦神經(jīng)細(xì)胞譜系。作者發(fā)現(xiàn)突變大多發(fā)生在高轉(zhuǎn)錄活性相關(guān)位置,這表明可能可以通過(guò)scRNA-seq數(shù)據(jù)來(lái)分析神經(jīng)細(xì)胞突變情況,根據(jù)轉(zhuǎn)錄狀態(tài)重構(gòu)神經(jīng)細(xì)胞譜系。此外,分析scRNA-seq數(shù)據(jù)中的拷貝數(shù)變異,可以研究癌癥非整倍體與異質(zhì)性等情況(Tirosh, I. et al., 2016; Fan, J. et al., 2018)。 多模態(tài)測(cè)序策略正在催生與之相匹配的數(shù)據(jù)分析方法。多模數(shù)據(jù)集可以檢測(cè)到細(xì)胞間的細(xì)微差異,而單模數(shù)據(jù)很可能無(wú)法做到這一點(diǎn)。由于scRNAseq數(shù)據(jù)存在dropout,故而它更容易忽略細(xì)胞間的細(xì)微差別;但與來(lái)自同一細(xì)胞的其他數(shù)據(jù)互補(bǔ)分析可以改善這一問(wèn)題。例如,很難通過(guò)scRNA-seq數(shù)據(jù)區(qū)分不同的T細(xì)胞亞群,但聯(lián)合膜蛋白分析則可以顯著提高亞群分辨率(Stoeckius, M. et al., 2017),同樣,RNA+chromatin、RNA+methylation聯(lián)合可能揭示單個(gè)細(xì)胞間的調(diào)控異質(zhì)性,不再贅述。 單細(xì)胞多模態(tài)分析思路很可能受到bulk-seq多組學(xué)聯(lián)合分析的啟發(fā)(Meng, C. et al., 2016),Argelaguet開(kāi)發(fā)了一種名為MOFA( multi- omics factor analysis)的方法,該方法在多組學(xué)bulk-seq數(shù)據(jù)中效果良好,同時(shí)測(cè)試了單細(xì)胞DNA甲基化數(shù)據(jù)與RNA數(shù)據(jù)聯(lián)合處理情況,效果也可以。這暗示適用于bulk-seq的多組學(xué)數(shù)據(jù)處理方式可能也適用于單細(xì)胞多模態(tài)數(shù)據(jù)。鑒于單細(xì)胞數(shù)據(jù)規(guī)模遠(yuǎn)超bulk-seq,多視圖機(jī)器學(xué)習(xí)不失為一種重要的補(bǔ)充手段(Colomé- Tatché, M. & Theis, F. J., 2018)。 不同來(lái)源測(cè)序數(shù)據(jù)整合 前面主要講了在同一測(cè)序?qū)嶒?yàn)同一批細(xì)胞進(jìn)行的多模態(tài)數(shù)據(jù)整合,而不同測(cè)序?qū)嶒?yàn)數(shù)據(jù)整合分析才是亟需解決的關(guān)鍵問(wèn)題。同bulk seq 數(shù)據(jù)一樣,處理批次效應(yīng)是綜合分析不同實(shí)驗(yàn)室、不同workflow產(chǎn)出數(shù)據(jù)的首要問(wèn)題(SVA包(Leek, J. T. 2014))。然而目前bulk seq水平的處理方法無(wú)法處理單細(xì)胞數(shù)據(jù)((Haghverdi, L, et al., 2018,作者用MNN處理數(shù)據(jù),該法在mnnpy中得到改進(jìn)); Butler, A, et al,. 2018)。目前最新方法利用CCA/MNN可以識(shí)別出兩個(gè)數(shù)據(jù)集間共有的部分,判定細(xì)胞間共有的生物學(xué)狀態(tài),然后以這些相同狀態(tài)的細(xì)胞為基準(zhǔn)消除批次效應(yīng)。 此處作者介紹了他自己在Seurat V2中開(kāi)發(fā)的方法(Satija, R, et al., 2015;),該法用CCA鑒別出不同數(shù)據(jù)集間相同的細(xì)胞類(lèi)型且可以避免出現(xiàn)由批次效應(yīng)或常規(guī)PCA造成的假陽(yáng)性細(xì)胞類(lèi)型;接下來(lái)采用動(dòng)態(tài)時(shí)間規(guī)整算法校正數(shù)據(jù)集間細(xì)胞密度差異。這兩步驟可以將細(xì)胞投影到一個(gè)低維空間,具有相同生物學(xué)狀態(tài)的細(xì)胞相互接近且消除了不同數(shù)據(jù)集帶來(lái)的影響。 另一種方法即mnnCorrect,最早用于計(jì)算機(jī)領(lǐng)域圖形識(shí)別。該法尋找不同數(shù)據(jù)集間最接近的細(xì)胞,將之判定為潛在的狀態(tài)相同細(xì)胞,隨后利用成對(duì)MNNs距離計(jì)算一個(gè)批次參數(shù)(batch vector),用以校正原始表達(dá)矩陣(Haghverdi, L., 2018)。 CCA/mnnCorrect在整合處理不同來(lái)源的scRNA-seq數(shù)據(jù)時(shí)表現(xiàn)良好。這將極大提升發(fā)現(xiàn)稀有細(xì)胞、微弱轉(zhuǎn)錄差異細(xì)胞及與之對(duì)應(yīng)maker的能力(Haghverdi, L, et al,.2018;Butler, A,et al,. 2018) 。這為建立一個(gè)統(tǒng)一的單細(xì)胞參考數(shù)據(jù)集提供了依據(jù)。在此基礎(chǔ)上,scRNA-seq數(shù)據(jù)整合分析得到了快速發(fā)展(Hie, B. L, et al., 2018; Barkas, N. et al., 2018; Park, J.-E., 2018; Korsunsky, I. et al., 2018; Stuart, T. et al., 2018; Welch, J. et al., 2018)。這種多數(shù)據(jù)集整合分析的應(yīng)用遠(yuǎn)不止用于校正批次效應(yīng)這么單一。它可以在單細(xì)胞尺度上深入比較細(xì)胞間的狀態(tài),發(fā)現(xiàn)細(xì)胞對(duì)環(huán)境及基因擾動(dòng)的特異性響應(yīng),對(duì)不同疾病及不同治療下的患者的測(cè)序數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化。 以細(xì)胞分類(lèi)信息的形式串聯(lián)不同的scRNA-seq數(shù)據(jù)集,或者借鑒到自己實(shí)驗(yàn)中,是優(yōu)于合并數(shù)據(jù)集然后de novo聚類(lèi)這種方法的。且隨著有參細(xì)胞圖譜的開(kāi)發(fā),這種方式將更加尋常。目前已開(kāi)發(fā)對(duì)應(yīng)方法:scmap- cell & scmap- cluster,其中scmap-cell 用乘積量化(product quantization)算法進(jìn)行比對(duì),而scmap-cluster則用于識(shí)別未知數(shù)據(jù)集中的cluster。 利用已有的注釋數(shù)據(jù)集,目前開(kāi)發(fā)的新方法采用奇異值分解、線(xiàn)性判別分析和支持向量機(jī)算法來(lái)對(duì)細(xì)胞進(jìn)行分類(lèi)。此外,隨著引用數(shù)據(jù)集的大小、范圍與深度越來(lái)越高,監(jiān)督聚類(lèi)在解析細(xì)胞類(lèi)型方面要比無(wú)監(jiān)督聚類(lèi)強(qiáng)得多。通過(guò)以上這些方法,可以更精確地識(shí)別并解析細(xì)胞亞群。 satija已有相關(guān)文章研究:Comprehensive Integration of Single-Cell Data
MATCHER是一種在一維水平上比較不同類(lèi)型測(cè)序數(shù)據(jù)擬時(shí)軌跡的方法。簡(jiǎn)單來(lái)說(shuō)就是比對(duì)不同類(lèi)型測(cè)序數(shù)據(jù)的擬時(shí)軌跡,以確定這些數(shù)據(jù)集間的對(duì)應(yīng)關(guān)系。這種方法可以識(shí)別不同數(shù)據(jù)集間的“等效細(xì)胞”而不需預(yù)先知道彼此間的對(duì)應(yīng)關(guān)系。開(kāi)發(fā)者用scM&T- seq(Angermueller, C. et al., 2016)和scRNA-seq數(shù)據(jù)做了驗(yàn)證,準(zhǔn)確預(yù)測(cè)了DNA甲基化與基因表達(dá)之間的關(guān)系。
組織中細(xì)胞的空間結(jié)構(gòu)常反映出細(xì)胞間的功能差異與細(xì)胞命運(yùn)和譜系的差異。不同基因表達(dá)引導(dǎo)細(xì)胞向不同方向分化,不同細(xì)胞精確排列形成不同組織。關(guān)鍵是單細(xì)胞實(shí)驗(yàn)通常在分析前細(xì)胞已被解離,組織原位信息無(wú)法保留,scRNA-seq得到的表達(dá)譜不能完全反應(yīng)細(xì)胞空間信息。具有相似基因表達(dá)譜的細(xì)胞可能存在于不同的空間位置中,故而細(xì)胞分離過(guò)程中空間信息的缺失是很多單細(xì)胞實(shí)驗(yàn)的主要缺點(diǎn)。結(jié)合高分辨率基因表達(dá)譜與空間表達(dá)圖譜 (spatial expression maps) 將細(xì)胞空間坐標(biāo)與基因表達(dá)譜聯(lián)系起來(lái),可以解決這一問(wèn)題。有兩類(lèi)方法:計(jì)算模型或者RNA原位定量,可以同時(shí)收集到細(xì)胞空間坐標(biāo)與基因表達(dá)值。
展望 隨著單細(xì)胞技術(shù)日趨成熟,每個(gè)細(xì)胞所檢測(cè)的測(cè)量量與檢測(cè)到的細(xì)胞和分子數(shù)量都在逐漸增加。因此整合不同實(shí)驗(yàn)得到的不同模態(tài)數(shù)據(jù)成為必然。目前正在進(jìn)行的人類(lèi)細(xì)胞圖譜和關(guān)鍵模式生物圖譜是當(dāng)下最大規(guī)模的多模態(tài)數(shù)據(jù)整合工作。整合單細(xì)胞一系列多模態(tài)數(shù)據(jù),我們可以獲取轉(zhuǎn)錄組之上的細(xì)胞圖譜,洞悉細(xì)胞的整體狀態(tài)。分析單細(xì)胞多模態(tài)數(shù)據(jù)之間的關(guān)系,可以揭示細(xì)胞功能的潛在基礎(chǔ),推斷各模態(tài)間的因果關(guān)系。 生物學(xué)中有一個(gè)主要問(wèn)題:什么是細(xì)胞類(lèi)型? 解決方案正如那個(gè) 老問(wèn)題:“什么是基因?” 的答案一般,該問(wèn)題是通過(guò)跨物種DNA序列比較與多種模式下的生化分析來(lái)解答的。故而本問(wèn)題的答案必是在多種模式與條件下,對(duì)單細(xì)胞進(jìn)行細(xì)致分析來(lái)回答。 |
|
來(lái)自: 健明 > 《待分類(lèi)》