1 文章信息題目:Current best practices in single-cell RNA-seq analysis: a tutorial 發(fā)表日期:2019年6月19日 雜志:Mol Syst Biol 文章在:https://www./doi/10.15252/msb.20188746 DOI:https:///10.15252/msb.20188746 ![]() 圖1 2 摘要單細胞領域日新月異,大量的工具被開發(fā)出來,但很難去判斷是否好用,而且如何組建一個分析流程是一個難點。本文將詳細介紹單細胞轉錄組數(shù)據(jù)分析的步驟,包括預處理(質(zhì)控、歸一化標準化、數(shù)據(jù)矯正、挑選基因、降維)以及細胞和基因?qū)用娴南掠畏治?。并且作者將整個流程應用在了一個公共數(shù)據(jù)集作為展示(詳細說明在:https://www.github.com/theislab/single-cell-tutorial),目的是幫助新入坑用戶建立一個知識體系,已入坑用戶更新知識體系。 3 前言
現(xiàn)在已經(jīng)可以利用scRNA研究斑馬魚、青蛙、渦蟲的細胞異質(zhì)性(Briggs et al, 2018; Plass et al, 2018; Wagner et al, 2018) ,重新理解以前的細胞群體,但這個領域面臨的一個問題就是沒有成熟的標準化流程。標準化之路的困難有:大量分析方法和工具的誕生(截止2019.3.7 已經(jīng)有385種工具)、爆炸式增長的數(shù)據(jù)量(Angerer et al, 2017; Zappia et al, 2018)。另外根據(jù)不同研究目的,各種分支也突顯,例如在細胞分化過程中預測細胞命運(La Manno et al, 2018)。在我們眼界大開的同時,分析流程標準化就變得更加困難。 在未來分析流程標準化之路上,困難還會存在于技術整合層面。比如現(xiàn)在大量的scRNA工具都是用R和Python寫的,跨平臺分析需求在增長,而對編程語言的喜好也決定了工具的選擇。很多好用的分析工具將自己限制在用各自的編程語言開發(fā)的環(huán)境中,例如Seurat、Scater、Scanpy。 接下來,就一起看看作者列出了哪些他認為比較好的軟件和流程吧 先上一個scRNA分析總體流程圖: ![]() 圖2 4 預處理和可視化4.1 首先看一下實驗過程比較詳細的介紹可以看:Ziegenhain et al (2017); Macosko et al (2015); Svensson et al (2017). 原文描述的關鍵點是:
感覺原文描述的還沒有illumina給出的詳細,那么就看看illumina的圖文并茂版:
![]() 圖3 ![]() 圖4 原始測序數(shù)據(jù)要經(jīng)過處理得到表達矩陣,注意這里有兩種表述方式:molecular counts (count matrices) 【也即是使用UMI的】和 read counts (read matrices),取決于是否使用UMI。而作者介紹的流程中,默認使用 count matrices,除非readmatrices和 count matrices得到的結果存在差異,才會特別介紹read matrices
原始數(shù)據(jù)處理工具主要有:CellRanger、indrops、SEQC、zUMIs 它們主要做了這么幾件事:
得到的矩陣行是轉錄本,列是barcodes【這里用barcodes而不是直接叫細胞,是因為不同細胞的reads也可能屬于同一個barcode =》如果出現(xiàn)一孔/液滴多細胞(doublet情況),那么barcode在多個細胞都是一樣的】當然也會出現(xiàn)有barcode但實際沒有細胞的情況(一個孔/液滴沒有細胞即droplet,但這個孔/液滴也會賦予barcode)
關于10X實驗環(huán)節(jié),可以看我之前寫的:https://mp.weixin.qq.com/s/0DEybX7GnuDFhfY1uj9t9A ![]() 圖5 4.2 質(zhì)控在正式分析之前,先要確定barcode是不是對應真正的細胞(上面已經(jīng)了解了barcode和細胞的關系),也就是進行Cell QC,主要考慮三個因素(這幾個因素也就是現(xiàn)在流程中常用的過濾指標):
先看圖A:其中這個小的直方圖就是把count depth小于4000的放大,這里設定了一個閾值1500,也就是一個barcode中至少有1500的表達量 圖B:每個細胞中包含的基因數(shù)直方圖??梢钥吹綑M坐標有一個小的峰在400附近,這里設定的閾值是700 圖C:依舊是看count depth。從高到低排列count depth值,可以過濾一些空的液滴(empty droplets),看到從”肘部“也就是縱坐標1500左右開始迅速下降 圖D:看線粒體比例。如果占比很高并且細胞類型不是線粒體特別豐富的那種(如心肌細胞),可能說明這個細胞本身的基因數(shù)不多并且總體表達量也不高 ![]() 圖6 以上三個指標固然重要,但如果只關注其中某一個,也會產(chǎn)生誤導作用,所以作者建議看問題一定要全面,并且要把數(shù)據(jù)和生物學知識結合起來。作者舉了個例子:比如線粒體表達量相對較高的細胞也可能參與了呼吸過程。細胞總體表達量低或者基因數(shù)量少,也可能是因為當時取的細胞處于靜止;細胞表達量很高,也可能因為本身細胞體積就比較大。的確,細胞與細胞之間的總表達量還是存在較大差異的。未來也許QC會提供更多的選擇。 除了檢查細胞完整度,QC還要進行轉錄本層面上的檢查。原始的count矩陣一般包含超過20000個基因。這里一般要根據(jù)在細胞中有表達的數(shù)量進行過濾,但這個閾值要根據(jù)總體細胞數(shù)和預計的分群情況來靈活調(diào)整。比如有的細胞類型本身就數(shù)量比較少(也許就50個),那么如果我們要設定”在少于50個細胞中有表達的基因“這種條件,那么可能會丟失那些總共就50個細胞中的marker基因,最終導致鑒定的細胞亞群會缺失。 質(zhì)控的目的就是給下游提供更高質(zhì)量的數(shù)據(jù),但一開始誰也不知道這個質(zhì)量高不高,只能先進行下游分析,看看結果(比如細胞分群結果)再判斷。尤其是針對異質(zhì)性高的細胞群體
小結
4.3 歸一化/標準化
表達矩陣中的每個count值都表示成功的細胞捕獲、成功的反轉錄、成功的測序。但即使是相同類型的細胞,它們的count depth(也就是每個細胞的全部表達量)也會有變化,變化的來源就在于上面說的那三步。因此在比較兩個細胞時,任何差異都可能由于實驗測序誤差產(chǎn)生,而不是真的生物學差異。歸一化就是解決這個問題,它把要比較的兩個count值根據(jù)各自身處的環(huán)境求出一個相對豐度,也就是放在了一個水平上考慮,減少實驗測序誤差,突出更多的生物學差異。 最常用的歸一化方法就是:count depth scaling,也稱為counts per million(CPM),這個方法常用于bulk轉錄組,它會根據(jù)每個細胞的總表達量計算一個 size factor ,然后對其中各個基因表達量進行normalize。
單細胞測序中使用的歸一化方法由于細胞種類和基因錯綜復雜,有人就在bulk的基礎上進行了改動。例如:Weinreb et al (2018) 先排除了表達量超過總體5%的基因,然后再計算size factor,主要是預防少量極高表達量基因的存在;Scran包有個pooling‐based size factor estimation方法,允許更高的細胞異質(zhì)性存在;另外Scran包在批次矯正和差異分析環(huán)節(jié)也比其他歸一化方法表現(xiàn)更好(Buttner et al, 2019)。 在單細胞RNA測序領域,目前有三種常用方法:其一是以10x Genomics為代表的微滴(droplet-based)測序;其二是以Namocell為代表的PCR板(plate-based)測序;其三是以BD Rhapsody為代表的微孔(micro-well-based)測序。就測序長度來說,Smart-seq/C1和Smart-seq2基于full length的測序方案,CEL-seq2, Drop-seq, MARS-seq, SCRBseq是基于UMI的測序方案。 不能指望某一種方法適用于所有類型的scRNA數(shù)據(jù),(Cole et al, 2019)就發(fā)現(xiàn)不同的歸一化方法對于不同類型數(shù)據(jù)集表現(xiàn)不同,使用scone工具可以幫助選擇合適的方法。 一般在歸一化后,數(shù)據(jù)都會變成 使用log轉換的一個好處就是:讓數(shù)據(jù)更加集中,減少數(shù)據(jù)的偏斜度,從而近似于許多下游分析工具對數(shù)據(jù)為正態(tài)分布的假設(盡管scRNA數(shù)據(jù)并不是真正的符合正態(tài)分布),比如在差異表達分析和批次矯正環(huán)節(jié) 小結
4.4 數(shù)據(jù)矯正與整合數(shù)據(jù)矯正的對象種技術和生物因素都有,例如:不同批次、捕獲失?。╠ropout)、不同細胞周期。這些在之前的歸一化中沒有被矯正,但這些差異因素都可能會后面的分析產(chǎn)生影響,它們現(xiàn)在都是導致差異的”嫌疑人“之一。這里要做的就是把這些差異來源去掉(Regressing out 《=》【專門查的詞典】 同義詞partialling out :剔除) 4.4.1 首先是生物因素最常見的生物矯正因素就是:轉錄組中的細胞周期信息。簡單一點的方式就像Scanpy和Seurat對細胞周期評分進行簡單線性回歸;復雜點的方式就像scLVM和f‐scLVM。用來計算細胞周期分數(shù)的marker基因可以從文獻中獲得 (Macosko et al, 2015)。另外,這些方法還能用來去除其他已知的生物因素,例如線粒體基因表達量(可以作為細胞應激的標記)。 需要注意的是:
4.4.2 然后是技術因素最常見的技術矯正因素就是:樣本測序深度、批次、噪音。 去除測序深度的影響,可以促進軌跡推斷算法的表現(xiàn),因為它需要在細胞之間找變化的路徑,只要放在同一水平才能看到更準確的總體表達高低。 批次的來源可能是:細胞捕獲的時期不同、文庫制備使用的芯片不同、測序使用的lane不同。由此產(chǎn)生的效應存在于多個層面:一次實驗中各個細胞群之間、同一實驗室中進行的不同實驗之間、或來自不同實驗室的數(shù)據(jù)集之間。這里主要介紹第一種和最后一種情況:
看一下Combat矯正前后的差別:其中顏色表示不同樣本 ![]() 圖7 去噪也是矯正的一種類型。單細胞數(shù)據(jù)的一個特點就是含有許多噪音來源,其中一個就是dropout。一些工具就用來推斷dropout,用適當?shù)谋磉_量來替代0,例如:MAGIC、DCA、scVI、SAVER、scImpute。去噪可以提高基因間相關性的估計。這一步可以和歸一化、批次矯正及其他下游分析整合起來,例如基于Python的scVI工具。但任何方法都可能導致矯正過度或不足。 4.4.3 小結
4.5 挑選基因、降維、可視化人類的scRNA數(shù)據(jù)中可能會包含25000個基因,但其中許多基因并非能提供有用信息,還有很多基因表達量直接為0。即使在QC階段去掉這些表達量為0的基因,一個單細胞數(shù)據(jù)的基因空間依然會有超過15000個維度(一個基因表示一個維度),因此需要降低維度 4.5.1 首先挑選基因就是挑那些真正”具有情報價值“的基因,也就是會數(shù)據(jù)變化起作用的基因。因此我們這里會挑選名為HVG的基因,也就是highly variable genes。根據(jù)數(shù)據(jù)集的復雜程度不同,HVGs一般會有1000-5000個(如下圖就對不同數(shù)據(jù)集的HVGs做了個統(tǒng)計) ![]() 圖8 之前有研究表明,HVGs數(shù)量從200到2400,它們降維后的表現(xiàn)差不多(Klein et al (2015),作者建議先盡量多選一些HVGs。 比較流行的挑選HVGs的方法有Scanpy和Seurat,而且最好是在去除技術因素后挑選,避免因為批次、測序等因素導致錯誤挑選HVG。當然還有其他挑選的方法,看Yip et al (2018). 4.5.2 接著降維挑出來HVGs后,就是降維了,力求在最少的維度中捕捉到最多的數(shù)據(jù)特征。 常用的降維方法:A-F分別是:PCA、t-SNE、diffusion maps、UMAP、ForceAtlas2(force‐directed graph)、Variance explained by the first 31 principal components (PCs)。關于單細胞數(shù)據(jù)的降維方法,詳細可以看:Moon et al (2018) ![]() 圖9 其中兩個應用比較廣的方法是:PCA(Pearson, 1901)和diffusion maps (Coifman et al, 2005) 【diffusion maps 于2015年在單細胞領域走紅 Haghverdi et al (2015) 】
4.5.3 最后可視化可視化一般使用非線性降維的方法。最常用的就是2008年提出的t-SNE( t‐distributed stochastic neighbour embedding)。t-SNE的一個特性就是關注局部而忽視整體,因此帶來的一個影響就是:可視化結果可能夸大了細胞群之間的差異,忽略了這些細胞群之間的潛在聯(lián)系 另外,使用t-SNE的一大難點就是 除了t-SNE,還有2018年推出的UMAP和SPRING可以用,在缺乏明確的生物學問題時,可以用UMAP作為不錯的數(shù)據(jù)探索。 小結
4.6 「總結」 預處理的各個階段作者貼心將預處理比作5種類型數(shù)據(jù)的處理: 原始數(shù)據(jù)(raw data)、歸一化數(shù)據(jù)(normalized data)、矯正后的數(shù)據(jù)(corrected data)、挑選后的數(shù)據(jù)(feature‐selected data)、降維后的數(shù)據(jù)(dimensionality‐reduced data) 這5個階段又分成3個層次:
其中每個步驟適時調(diào)整,例如單一批次的數(shù)據(jù)集,就可以跳過矯正批次這一步 ![]() 圖10 5 下游分析之細胞層面下游分析的目的是解釋生物問題,例如根據(jù)表達量將細胞劃分成不同的類型;相似細胞間表達量的微小變化也會體現(xiàn)連續(xù)的分化路徑;基因表達量之間的相關性可能與基因共表達有關... 下游分析也是有細胞層面和基因?qū)用妫?/p>
![]() 圖11
5.1 細胞分群5.1.1 先是:分群方法
將細胞分群基本就是任何單細胞分析的必經(jīng)之路。群的劃分就是根據(jù)細胞中基因表達譜的相似性,表達譜的相似性是由于歐幾里得距離量度決定的,而距離量度又是利用的降維的數(shù)據(jù)。一般有兩種方法計算:clustering algorithms、community detection methods
5.1.2 然后是:分群后的注釋這個過程主要是基因?qū)用娴牟僮?,為每個cluster找marker gene(也就是能代表這個cluster的基因,而這個基因又和已知的細胞類型有關)。任何的分群算法和參數(shù)設置都會將一整團細胞分成多個群,但這些群是否真的有意義,就要靠這一步來和生物背景結合起來。 我們希望看到的是存在很多類型的細胞,來說明細胞異質(zhì)性的問題,但這里關于細胞類型這個定義還是存在爭議。首先,細胞類型的劃分怎樣算是清楚,對于一些人來說,”T cells“這個名稱可以叫一個細胞類型,但還有人認為,必須繼續(xù)深入,像”CD4+ T cells“、”CD8+ T cells“才叫細胞類型;另外,即使是同一種細胞類型的細胞也會有不同的發(fā)育狀態(tài),因此它們也會顯示不同的分群結果。但不管如何,它們都是當時細胞的一種身份(identity)
因此,我們將分群的結果稱為不同身份的細胞(cell identities)會比不同類型的細胞(cell types)要好一些【即每個亞群可能并不是真的不同類型細胞,只是顯示了此時此刻的細胞身份】 對于不同細胞身份的注釋,近年來也隨之細胞圖譜的研究而加速,例如小鼠腦細胞圖譜 (Zeisel et al, 2018) 、人類細胞圖譜 (Regev et al, 2017)的發(fā)現(xiàn),產(chǎn)生了許多參考數(shù)據(jù)庫。在缺乏相關背景的情況下,我們可以借用數(shù)據(jù)庫中已發(fā)現(xiàn)的細胞marker 基因套入我們的細胞,幫助判斷細胞身份。需要注意:通常使用的細胞表面marker基因在細胞身份鑒定方面存在局限性(Tabula Muris Consortium et al, 2018)
![]() 圖12
利用差異分析,分成兩組:某個cluster中的細胞、數(shù)據(jù)集中其余全部的細胞。然后重點關注這個cluster中上調(diào)的基因,因為marker基因一般具有更強的表達作用。差異分析也會使用簡單的統(tǒng)計檢驗,例如Wilcoxon rank‐sum test、t-test,將基因的差異大小排個序,選出排名靠前的基因來作為marker基因
將數(shù)據(jù)集中選出的marker基因和參考數(shù)據(jù)集進行比對,統(tǒng)計方法可以是:enrichment tests、the Jaccard index、other overlap statistics 參考數(shù)據(jù)集可以是網(wǎng)頁工具: www.mousebrain.org、 http:///,可以將選出的marker基因在參考數(shù)據(jù)集中進行可視化,幫助判斷這個marker基因是什么細胞身份
細胞分群、分群注釋、重分群、重注釋...這個循環(huán)很耗費時間。自動化注釋方法加快了這個過程,例如scmap (Kiselev et al, 2018b) 、Garnett (preprint: Pliner et al, 2019) ,但這樣的方法有利有弊。自動化提高了速度,但相比手動注釋也降低了靈活性。畢竟自動化工具使用的參考數(shù)據(jù)集中可能并不包含我們數(shù)據(jù)中的這樣細胞。因此,有自動化工具也不能完全拋棄手動挑選,尤其針對大型數(shù)據(jù)集中多種多樣的細胞。自動化的過程可以先幫我們粗略地給細胞加個標記,如果有需要,我們可以繼續(xù)手動對這種細胞繼續(xù)劃分子細胞。對于小型數(shù)據(jù)集或者缺乏參考基因集的,手動注釋就足夠了。 5.1.3 注意
5.1.4 細胞分群衍生——細胞組成分析(Compositional analysis)就像上面的圖12中的C圖,顯示的是近端(上圖)和遠端(下圖)腸上皮區(qū)域的細胞身份組成圖(顏色越深細胞密度越大)。研究細胞組成的變化也是一個新方向,例如沙門氏菌感染已被證明會增加小鼠腸上皮細胞的比例 (Haber et al, 2017)。 這個分析既需要足夠多的細胞數(shù)量來推斷各個cluser的占比,又需要足夠的樣本數(shù)量來證明是單純一個樣本得cluster數(shù)量這樣變還是總體都會這樣變。相關的分析工具還沒有太多,未來的開發(fā)可能會借鑒單細胞質(zhì)譜流式(mass cytometry)或者是宏基因組分析【單細胞與宏基因組的結合...】 5.2 軌跡分析5.2.1 軌跡推斷Trajectory inference軌跡推斷就是為了找到不同細胞身份、分化或者生物過程中漸進式非同步的變化,構建出的一個動態(tài)模型。它認為單細胞數(shù)據(jù)實際上就是一個連續(xù)過程中的快照(snapshot),這個過程可以通過在細胞空間中尋找最小化相鄰細胞間轉錄變化的路徑來重建
![]() 圖13 2014年Monocle和Wanderlust先推出了軌跡推斷,之后誕生的分析方法更加豐富,它們在建模路徑的復雜性上有所不同,從簡單的linear or bifurcating(分叉) trajectories,到復雜的graphs, trees, or multifurcating(多叉) trajectories。Saelens et al, 2018)進行過軌跡推斷方法的比較,結論是沒有一種方法對所有類型的軌跡推斷有效,應該根據(jù)預期軌跡的復雜度來選擇。不過,Slingshot在簡單軌跡推斷中優(yōu)于其他方法(Street et al, 2018) 。如果期望得到更復雜的軌跡,PAGA值得推薦。軌跡推斷是一個不確定的過程,可以用多種方法來進行佐證。
5.2.2 基因表達量的動態(tài)變化在擬時序(pseudotime)中變化的基因描述了軌跡,這組與軌跡相關的基因有望包含調(diào)控建模過程的基因,可以用來識別潛在的生物過程。 目前很少有專門分析基因表達動態(tài)變化的工具。BEAM將Monocle的軌跡推斷整合進來,允許檢測在軌跡分支過程中相關基因的動態(tài)變化。另外還有LineagePulse (https://github.com/YosefLab/LineagePulse)考慮了dropout技術噪音但還在開發(fā)中。 下面這樣的圖在Slingshot的幫助文檔就有提及:https:///packages/release/bioc/vignettes/slingshot/inst/doc/vignette.html 【4.1:Identifying temporally expressed genes】
![]() Slingshot基因表達量的動態(tài)變化 5.2.3 細胞亞穩(wěn)態(tài)分析 Metastable states
擬時序分析會展示出不同階段細胞數(shù)量的多少。假設細胞以無偏的方式采樣,其中軌跡中的稠密區(qū)域就表示轉錄時首選的方案。當把軌跡理解為一條時間線時(例如在發(fā)育這個時間線),這些密集的區(qū)域可能代表細胞的亞穩(wěn)態(tài),可以結合擬時間坐標來繪制直方圖,找到這些亞穩(wěn)態(tài)【因此看到B圖中很多種狀態(tài),但C中直方圖認為這幾個密集的區(qū)域才屬于亞穩(wěn)態(tài)】 ![]() Metastable states 5.2.4 整合分群與軌跡分析
將分群的結果當成節(jié)點(node),將軌跡當成節(jié)點之間的橋梁(edge),所以將動靜數(shù)據(jù)結合在了一起。利用partition‐based graph abstraction(PAGA)這個工具就能得到類似下面這個圖。
![]() 整合分群與軌跡分析 6 下游分析之基因?qū)用?/h3>之前都是對細胞進行分析,但細胞中的基因分析會提供更多的信息。例如差異表達分析、基因集分析和基因調(diào)控網(wǎng)絡推斷,不是表面上研究細胞異質(zhì)性,而是基于異質(zhì)性探索基因表達相關的原因 6.1 差異表達分析
這個方法也是常規(guī)bulk轉錄組中經(jīng)常做的。不過單細胞相比于bulk轉錄組的一個優(yōu)勢就是:可以深入一個層次,原來bulk只是看一塊組織的平均表達量,但現(xiàn)在經(jīng)過分群后,能得到一塊組織中各種各樣的亞群,再結合差異分析,對理解異質(zhì)性問題更有幫助。 雖然都是朝著一個方向前進,但單細胞和bulk轉錄組的差異分析方法還是不同的。
但最近(Soneson & Robinson, 2018)研究表明,基于大批量的差異分析,bulk分析方法的性能與最好的單細胞分析方法相當。當bulk方法進行改進,加入基因權重分析后,表現(xiàn)要好于單細胞原有工具。例如:bulk差異分析工具DESeq2/EdgeR + ZINB‐wave工具估算的權重。 不過,bulk差異分析工具的性能雖然好,但是計算的效率很難提升。畢竟單細胞數(shù)據(jù)樣本數(shù)量越來越多,程序跑的時間長短也成了衡量工具優(yōu)劣的重要因素。單細胞工具MAST脫穎而出。在單個數(shù)據(jù)集的小范圍比較中,完勝bulk和其他單細胞方法(Vieth et al, 2017)。而且MAST比bulk方法快了10到100倍 (Van den Berge et al, 2018) 。 小結
6.2 基因集分析
例如差異分析我們往往能得到上千基因,為了比較方便解讀,一般會把有共同特性的基因歸為一組,然后檢查我們歸類的可靠性 【grouping the genes into sets based on shared characteristics and testing whether these characteristics are overrepresented in the candidate gene list.】 我們一般關注基因在生物過程(biological processes, BP)中的富集,可以使用MSigDB、GO、KEGG pathway、Reactome數(shù)據(jù)庫 另外,單細胞中的一個新進展就是利用成對基因標簽進行配體受體分析( ligand–receptor analysis)
配體-受體成對標簽可以從:CellPhoneDB數(shù)據(jù)庫獲得,然后用來解釋cluster之間高表達基因的聯(lián)系 例如,利用celltalker 就可以做 ![]() Celltalker分析 6.3 基因調(diào)控網(wǎng)絡 gene regulatory network (GRN)
方法例如:SCONE、PIDC、SCENIC (Single-Cell rEgulatory Network Inference and Clustering),但發(fā)展還不是很完善,推斷的調(diào)控關系不是很穩(wěn)定【謹慎使用】 7 分析平臺現(xiàn)在開發(fā)了很多平臺,整合了一套分析流程,有基于R的(McCarthy et al, 2017; Butler et al, 2018) ,python的 (Wolf et al, 2018),本地的(Patel, 2018; preprint: Scholz et al, 2018) ,網(wǎng)頁版帶可視化的(Gardeux et al, 2017; Zhu et al, 2017) Seurat是使用最廣泛的,Scater在QC和預處理中表現(xiàn)優(yōu)異;除此以外,基于Python的scanpy也逐漸發(fā)展起來,它對于大量細胞的標準化方面表現(xiàn)不錯 如果不使用命令行,可視化界面也有,只不過用戶只能跑人家已經(jīng)寫好的腳本,操作靈活性不足。這樣的平臺更多的用處是在可視化探索上,例如Granatum、ASAP。未來 Human Cell Atlas(HCA)會在數(shù)據(jù)可視化探索上迅速發(fā)展: https://www./data-sharing 8 結語8.1 作者的結語作者把流程測試和說明都放在了:https://github.com/theislab/single-cell-tutorial 感興趣的可以跟著走一遍,比較一下不同的工具。作者希望這一篇能代表單細胞領域目前發(fā)展的一個最新動向。他也提到,新方法層出不窮,本文介紹的大量的方法是經(jīng)過實踐比較、驗證過的。目前可用的方法不管是運行效率還是易用性可能都不如最新開發(fā)的方法,但要注意:新方法在未被大量驗證之前都需小心使用。而且新方法一般都是針對單個層面(比如降維、分群、軌跡推斷等),大體的分析流程基本固定了。 未來整合深度學習和單細胞多組學是兩個重要的發(fā)展方向,流程化運行更是趨勢。 隨著文庫制備和測序技術的進步,未來的單細胞平臺必將可以處理多種類型數(shù)據(jù):DNA甲基化、蛋白豐度等等。 8.2 劉小澤的結語
三天的時間,基本每天都會花半天時間在閱讀這篇綜述上。從第一眼看到它的文章邏輯,就感覺:嗯是它,沒錯了!連午覺都不想睡了。 一開始想強迫自己看下去,沒想到,越看越精彩。尤其是將整個流程和自己的知識結合起來,就看得比較順暢。為了更加易讀,我在其中加了很多注釋,包括之前自己寫的一些推文和網(wǎng)上一些好的資源,可以幫助梳理知識點。 最后,希望看完本文對你有幫助??! 歡迎關注我們的公眾號~_~ ![]() Welcome to our bioinfoplanet! |
|