研究背景 在真核生物發(fā)育過程中,轉錄因子和DNA的相互結合所驅動的基因表達順式作用元件(cis-regulatory element, CRE)活力的動態(tài)變化在細胞表型轉化中起中心作用。在單細胞的尺度上衡量染色質開放性(例如scATAC-seq)有助于精確理解CRE的活性變化,尤其與單細胞轉錄組測序技術(scRNA-seq)相結合,可以幫助解析不同轉錄因子如何協(xié)同的調節(jié)基因表達網(wǎng)絡,從而調節(jié)細胞和組織的發(fā)育過程。例如,人大腦皮層發(fā)生是一個動態(tài)的、高度調節(jié)的過程。位于室管膜區(qū)(ventricular zone, VZ)和室管膜下區(qū)(subventricular zone, SVZ)的放射狀膠質(radial glia, RG)和中間前體細胞(intermediate progenitor cell, IPC)采用一種所謂的由內向外(inside-out)的方式分化成興奮性神經(jīng)元,以及星型膠質細胞和少突膠質細胞。而GABA能抑制性神經(jīng)元、小膠質細胞以及一些少突膠質細胞產生于背側前腦,然后遷移并整合進大腦皮層。在單細胞尺度上精確理解大腦皮層發(fā)生中的基因表達調控必然需要同時在單細胞上研究染色質開放性和基因表達水平。 方法流程 為了實現(xiàn)這項研究,單細胞測序領軍人物,ATAC技術開發(fā)者William Greenleaf教授領導的研究團隊對孕期16周、20周、21周和24周的胎兒大腦皮層組織進行單細胞研究,然后利用單細胞測序分析平臺做獨立的scRNA-seq和scATAC-seq,分別獲得57868個單細胞轉錄組和31304個單細胞表觀基因組。通過非監(jiān)督學習對單細胞轉錄組進行聚類分析;采用一個迭代算法[1]對scATAC-seq結果進行分析,得到可能作為CRE的657930個峰。作者采用典型相關分析(canonical correlation analysis, CCA)算法[2]對兩組測序結果進行相互映射,得到64878個CRE-gene對,每一對CRE-gene可以代表每一個enhancer-gene的相互作用,最終得到185個可以根據(jù)染色質開放程度預測表達水平的基因(genes with putative chromatin, GPCs)。在對這些結果進行驗證之后,作者接下來分別分析了興奮性神經(jīng)元和膠質細胞的轉錄因子和轉錄因子motif的活性的動態(tài)調控。 研究結果 1. 人大腦皮層發(fā)育的單細胞調節(jié)圖譜 作者對孕期16周、20周、21周和24周的胎兒大腦皮層細胞進行獨立的scRNA-seq和scATAC-seq,分別獲得57868個單細胞轉錄組和31304個單細胞表觀基因組。首先對scRNA-seq結果進行UMAP聚類分析,同時對scATAC-seq的數(shù)據(jù)進行迭代分析,得到一個低維的包含657930個 CRE峰的聚類??傮w上來看,scRNA-seq和scATAC-seq的聚類是比較相似的,且主要和細胞類型以及孕周有關。作者發(fā)現(xiàn),皮層發(fā)生中幾個重要的轉錄因子,SOX9, EOMES, NEUROD2和DLX2均表現(xiàn)聚類特異的富集,證明了這樣的聚類分析是可靠的。 作者接下來對這兩個數(shù)據(jù)集根據(jù)已知的基因表達數(shù)據(jù)或基因活性數(shù)據(jù)進行注釋,作者注釋到了分裂中的細胞(Cyc)、放射狀膠質(RG),其中RG根據(jù)在不同的樣本分布,可以分為早期RG(early RG)和晚期RG(late RG),后兩者表達不同的標志物。作者同樣注釋到多能前體細胞(multipotent glial progenitor cell, mGPC)、更多的神經(jīng)元中間前體細胞(neuronal IPC)以及興奮性神經(jīng)元(GluN),以及部分小膠質細胞、內皮細胞等等。作者注意到,很多標志物基因在scATAC-seq的活性評分(gene activity score)是動態(tài)變化的。 作者用典型相關分析(canonic correlation analysis, CCA)算法將基因活性評分和基因表達水平相整合,整合的結果顯示,除了Cyc細胞,其他cluster的類別前后是一致的。通過這種方式,作者分離出了64878個CRE-gene對,其中每一對CRE-gene代表可能的enhancer-gene相互作用關系。在這些CRE-gene對中,CRE的開放性和基因表達水平共同可以區(qū)分出每個cluster,并且這兩者是協(xié)同變化的。 接下來,作者對CRE-gene的相關性進行排序,希望找到可以根據(jù)CRE的開放性來預測出該gene表達水平的基因。作者假設這些基因應該是一群高度受調節(jié)的基因,并且在皮層發(fā)生過程中對細胞命運起重要作用。作者取了前10%作為可以根據(jù)染色質開放性預測表達的基因(genes with predictive chromatin, GPCs),共185個。GO富集分析表明這些基因基本富集在和轉錄相關的條目上(transcription regulator activity, DNA-bind TF activity)。 2.大腦皮層神經(jīng)元發(fā)生的連續(xù)軌跡分析 作者接下來對一群主要的細胞類型,興奮性神經(jīng)元(GluN)進行進一步的專門的發(fā)育軌跡分析 ,以期望找到神經(jīng)元特化、遷移和成熟過程中的基因表達調控機制和網(wǎng)絡。這里主要通過對scRNA-seq的擬時序分析來研究這個問題。作者首先通過其他數(shù)據(jù)驗證了擬時序結果的可靠性,然后將擬時序的時間值賦予在scATAC-seq上最近鄰居的細胞以映射,獲得在scATAC-seq上一個連續(xù)的擬時序結果。同樣利用和之前一樣的CCA算法,在GluN上分離出13989對CRE-gene對,并且分為五大群。GO富集分析顯示,在擬時序上早期起作用的基因富集的條目包括細胞分裂和神經(jīng)元祖細胞分化,而晚期的基因富集在神經(jīng)元形態(tài)發(fā)生、遷移和成熟。有趣的是,編碼轉錄因子和DNA結合蛋白出現(xiàn)在中期。相反,作者同樣也找到了一些富集在早期和中晚期的DNA motif。 作者接下來研究了在擬時序上,轉錄因子調控的基因表達動態(tài)變化。作者觀察到首先是早期 的PAX6, SOX2/6/9, GLI3和 ASCL1的motif,然后是中期的EOMES, NF1A, NF1B, NEUROD1,最后是晚期的NEUROD2, BHLHE22, MEF2C,表明在神經(jīng)元發(fā)育過程中,DNA motif的時序激活。 作者通過計算基因組層面上的轉錄因子和DNA motif的協(xié)同性和相關性,想知道在皮層發(fā)生過程中,各轉錄因子是如何協(xié)調的。他們發(fā)現(xiàn)在擬時序上,存在三大類motif,早期的 motif是中度的協(xié)同,包括SOX,GLI,PAX,中間態(tài)的motif之間非常高的協(xié)同程度,包括NFI,TBX/EOMES,而晚期的motif呈現(xiàn)最不協(xié)同作用,包括NEUROD2,BHLHE22,MEF2。 3.基因表達和細胞命運決定的關系:模塊分析 由于各膠質細胞cluster基因表達存在一定的重疊,作者接下來采用了fuzzy c-means clustering (FCC)的方法來對各cluster進行基因模塊的聚類和注釋。FCC方法得到了14個基因模塊,并且在擬時序上,樣本類型和之前的cluster都可以被每個基因模塊區(qū)分,每個基因模塊也富集不同的GO term。因此,這種模塊的分析讓作者有可能去研究不同模塊之間所包含的基因重疊的程度,而這種重疊程度有助于理解各cluster之間的發(fā)育分化關系。 采用這種方法,作者發(fā)現(xiàn)ASCL1+的表達m3和m8的細胞最終分化成EOMES+的nIPC細胞;HES4+的表達m6的細胞分化成星型膠質細胞和室管膜細胞;ASCL1+/OLIG1+表達m12,m1,m4的細胞產生兩個分支,表明ASCL1+/OLIG1+很可能是星型膠質細胞和少突膠質細胞的共同前體細胞。 4.星型膠質細胞的異質性分析 人皮層星型膠質細胞存在很大的異質性,但是異質性是如何產生的至今不清楚。作者發(fā)現(xiàn)表達星型膠質細胞標志物的m2,m13,m14 模塊存在相互聯(lián)系,提示這可能是研究上述問題的一個切入點。作者計算了m13、m14包含的基因和其enhancer的motif的富集程度,發(fā)現(xiàn)ASCL1和NHLH1在m13富集,而SOX21在m14富集。而ASCL1和NHLH1和OLIG1相關,因此,作者提出OLIG1和SOX21 motif的開放性不同即區(qū)分了不同的星型膠質細胞基因表達模式。作者檢查了m2/m14和m13的不同的基因表達,發(fā)現(xiàn)前者高表達HES4和CAV2,后者高表達SPARCL1,ID3和IGFBP7,印證了存在星型膠質細胞的祖細胞的異質性。 5.GPCs和細胞命運決定 作者探究祖細胞中的染色質狀態(tài)如何決定下游細胞獲得不同表達模式從而獲得不同的細胞命運。作者關注了表達細胞周期相關基因模塊的細胞病研究其異質性。作者投射了13378個膠質細胞,同樣使用CCA算法,將染色質開放性的數(shù)據(jù)和轉錄組數(shù)據(jù)相關聯(lián)。scATAC-seq鑒定出幾個不一樣的細胞分支,作者發(fā)現(xiàn),根據(jù)基因活性評分得到的每個分支的特異性基因均和GPCs有部分的重疊,包括HES1,RFX4,OLIG1,OLIG2,NEUROD6, EOMES。并且,總體上分裂細胞的三個分支的不同表達基因也在GPCs基因列表中富集。每一個分支在前五個特異基因(BHLHE40, OLIG1, OLIG2, NEUROD6, NEUROD4)中至少富集一個基因。這些結果表明染色質的不同活力以及GPCs的表達水平?jīng)Q定了Cyc細胞向何種細胞類型分化。作者發(fā)現(xiàn),在Cyc細胞中,GPC基因的染色質模式已經(jīng)提前建立了,即進入細胞周期的祖細胞已經(jīng)在表觀遺傳學上發(fā)生了命運決定的修飾,并且特異性的由GPCs編碼。 研究結論 本研究結合scRNA-seq和scATAC-seq對四個時期的胎兒大腦皮層細胞進行聯(lián)合分析,完成了人大腦皮層發(fā)生過程中各細胞類型的單細胞基因表達和調控圖譜,發(fā)現(xiàn)了在皮層發(fā)生過程中,一系列可以通過染色質開放性預測表達水平的基因,進一步的深入研究,發(fā)現(xiàn)了神經(jīng)元和膠質細胞發(fā)育分化的路徑以及不同的轉錄因子在這些過程中的調控機制,同時還發(fā)現(xiàn)在星型膠質細胞祖細胞中即存在異質性。 參 考 文 獻 1. Granja, J.M., Klemm, S., McGinnis, L.M., Kathiria, A.S., Mezger, A., Corces, M.R., Parks, B., Gars, E., Liedtke, M., Zheng, G.X.Y., et al. (2019). Single cell multiomic analysis identifies regulatory programs in mixed-phenotype acute leukemia. Nat. Biotechnol. 37, 1458–1465. 2. Stuart, T., Butler, A., Hoffman, P., Hafemeister, C., Papalexi, E., Mauck, W.M., 3rd, Hao, Y., Stoeckius, M., Smibert, P., and Satija, R. (2019). Comprehensive Integration of Single-Cell Data. Cell 177, 1888–1902.e21. |
|