2019年7月15日,Genome Biology期刊在線發(fā)表中科院分子植物科學卓越創(chuàng)新中心/植物生理生態(tài)研究所張一婧研究組與南京農(nóng)業(yè)大學張文利研究組合作完成的題為“The bread wheat epigenomic map reveals distinct chromatin architectural and evolutionary features of functional genetic elements”的研究論文。該工作生成并繪制面包小麥精細的表觀組圖譜,以此為基礎針對性地開發(fā)整合計算流程,對全基因組順式調(diào)控元件進行了系統(tǒng)的挖掘與鑒定,并初步探索了其作用機制,為小麥基因調(diào)控機制解析研究提供了重要的資源。 廣泛種植的六倍體面包小麥(T. aestivum, 2n = 6x= 42, BBAADD)具有龐大而復雜的基因組,高質量的面包小麥全基因組序列于2019年初公布,大小約為16 Gb,是人類基因組的5倍。其中93%是非編碼序列,蘊含著豐富的基因遠端調(diào)控元件,在小麥全基因組水平準確鑒定順式元件并解析其調(diào)控機制,是研究小麥多倍化及馴化過程中基因表達調(diào)控的關鍵步驟。由于表觀修飾在基因調(diào)控過程中發(fā)揮了重要作用,有機整合表觀組信息有助于在全基因組水平精準預測順式調(diào)控區(qū)域。但是,與基因組序列相對簡單的模式生物相比,龐大而復雜的小麥基因組對組學數(shù)據(jù)產(chǎn)生、數(shù)據(jù)分析及機制解析均帶來巨大挑戰(zhàn)。 1普通小麥基因組的染色質狀態(tài)圖譜為了系統(tǒng)分析普通小麥中的表觀基因組特征,合作團隊生成并分析了以DNaseI過敏位點(DHS)為指征的染色質開放區(qū)域,基于亞硫酸鹽測序的甲基化組數(shù)據(jù),以及七種組蛋白修飾的ChIP-seq數(shù)據(jù)(圖1a)。在所有的染色質標記中,H3K9me2和DNA甲基化主要分布在著絲粒近端區(qū)域,其他與激活功能相關的標記主要分布在染色體兩端富含基因的區(qū)域(圖1a)。我們定義了染色質標記的富集區(qū)(peak)和甲基化區(qū)域,發(fā)現(xiàn)超過一半的peak以及甲基化區(qū)域的都在基因間區(qū) (圖1b),這一比例遠遠高于之前在擬南芥和水稻等具有較小基因組的模式植物的研究結果。同時這個結果也暗示著這些標記可能涉及基因活性的遠程調(diào)控。 圖1. 染色質特征圖譜分析揭示了基因的表觀遺傳調(diào)控 a)Circos圖展示了表觀遺傳標記在染色體上的分布,最外層代表每條染色體,第二層表示基因密度,紅色和白色分表代表密度的最高值和最低值,中間9層分別表示七種組蛋白修飾的強度以及DHS和DNA甲基化水平,最內(nèi)三層表示小麥中三種主要TE的密度分布。 b)表觀遺傳標記peak在基因組不同區(qū)域中的分布。TSS:轉錄起始位點;TES:轉錄終止位點 c)根據(jù)基因及啟動子中組蛋白修飾強度分成的五組基因。采用各個修飾在基因中標準化的強度進行K均值聚類。 d)小提琴圖展示每個分組中基因的表達強度。 e)箱線圖展示每個分組中基因在各個組織中的表達特異性(CV)。 f)每個分組中基因的功能域的富集分析,根據(jù)富集的P-value進行排序。 g)保守基因(舊基因)和非保守基因(新基因)與五組基因的富集分析。 2 基因周圍的染色質狀態(tài)我們首先分析基因和啟動子區(qū)域的染色質特征并結合轉錄組數(shù)據(jù)分析染色質特征與基因轉錄活性的關系。根據(jù)組蛋白修飾強度將基因分成的五組(圖1c)。發(fā)現(xiàn)高表達基因傾向于被H3K4me3、H3K9ac和H3K36me3標記(圖1d),與已報道的動物和植物中的情況類似。第4組基因被H3K27me3標記,該組基因顯示出較高的組織特異性表達(圖1e),這與PcG家族蛋白負責催化H3K27me3來調(diào)控植物的發(fā)育的研究相符合。通過功能富集分析(圖1f),我們發(fā)現(xiàn)在第四組基因中有30%的基因屬于NB-LRR基因,暗示PcG可能具有調(diào)控小麥免疫能力的功能。 小麥多倍化過程造成了很多基因家族的擴張,同時也產(chǎn)生了大量的新基因。我們希望探究這些新產(chǎn)生的基因在表觀層面如何被調(diào)控。將小麥的基因分成兩個類別:將與二倍體和四倍體祖先種共線性區(qū)域高度相似的基因定義為“舊”基因即保守基因,將與祖先種相似性低或沒有相似性區(qū)域的基因定義為“新”基因即非保守基因,觀察到“新”基因與H3K27me3顯著富集(圖1g)。加上H3K27me3主要在染色體兩端基因密度高的區(qū)域富集,推測H3K27me3很可能抑制特定基因組區(qū)域內(nèi)的新基因。 3 染色質狀態(tài)在亞基因組之間的動態(tài)變化普通小麥是具有三個亞基因組的異源六倍體植物,亞基因組之間的多樣性增加了小麥對環(huán)境的適應性。為了鑒定亞基因組中表觀修飾的偏好性以及這種偏好性與基因表達調(diào)控的關系,我們采用三元圖的方法對小麥中的三聯(lián)組基因(亞基因組中基因個數(shù)比為1:1:1的同源基因組)進行分析,表觀修飾的偏好性可以分為七類,包括一個在三個基因中平衡的類別和六個分別在某個基因中更高或更低修飾的類別(圖2a)。在所有的組蛋白修飾中,H3K4me3,H3K9ac,H3K36me3的多樣性更高,其他的修飾相對在亞基因組中相對平衡(圖2b)。將亞基因組偏好的表觀修飾與亞基因組的偏好表達做相關分析,我們發(fā)現(xiàn)H3K4me3,H3K9ac,H3K36me3的修飾偏好性與基因表達的偏好性高度相關(圖2c)。 圖2. 同源基因啟動子中各種表觀標記在亞基因組之間修飾偏好 a)三元圖展示七種表觀修飾標記在同源基因組中的相對強度。每個點代表一組三聯(lián)同源基因,基于各個亞基因組的標準化的讀數(shù)深度與所有亞基因組的讀數(shù)深度的比值確定每個點的坐標。 b)同源基因組中具有不同修飾偏好性的比例分布。 c)表觀修飾對亞基因組的結合的偏好性與亞基因組的偏好表達做富集分析,深藍色代表顯著富集。 4 根據(jù)染色質狀態(tài)特征預測基因組中功能元件普通小麥具有很大的基因間區(qū),是人類基因組的5倍,這些間區(qū)序列中的很多序列被多種表觀修飾所標記,很可能富集了基因遠端調(diào)控元件。為了總結這些染色質標記在全基因組中組合模式,我們應用多變量隱馬爾可夫模型(HMM)來進行染色質狀態(tài)的分類,將所有的組蛋白修飾狀態(tài)的組合分成了15種類別,即15種染色質狀態(tài)(State 1 – State 15),每種狀態(tài)有其對應的特點與功能。我們針對每種染色質狀態(tài)進行了基因結構分布、染色質可及性、與祖先種相比的序列保守性、CpG 島的分布、DNA甲基化程度的分析(圖3)。在State 15中觀察到所有修飾的超高覆蓋,但其序列的保守性比較低,因此,判斷該狀態(tài)中的修飾信號更可能是一種背景噪音。 在State 1 - State4中的區(qū)域富集編碼基因序列,占整個基因組的1.7%。這些States主要被H3K4me1和H3K36me3修飾,是兩種典型的標記活躍轉錄基因的組蛋白修飾(圖3a和3b)。在該區(qū)域中91%的序列中都檢測到了轉錄活性,其中65%是已經(jīng)注釋的基因,24%是未注釋序列但具有mRNA的轉錄,2%是未注釋序列但有l(wèi)nRNA的轉錄(圖3c)。圖3d中RNA-seq密度分布直觀地展示了該區(qū)域序列的轉錄活性。綜上所述,這些組蛋白修飾的組合能夠預測轉錄活躍基因,較高的核酸酶敏感性、具有H3K9ac或H3K27ac修飾是基因組調(diào)節(jié)元件如啟動子和增強子的典型特征。序列占全基因組1.5% 的 State 5 – State 7 中都富集了H3K9ac,部分States富集了H3K27ac(圖3a),一些區(qū)域也具有高密度的H3K4me3和H3K36me3修飾。這些狀態(tài)也有較高的染色質開放程度(圖3e),表明其中富含能夠被轉錄因子和其他調(diào)節(jié)蛋白結合的DNA區(qū)域。除了具有高覆蓋的DHS和組蛋白乙?;猓琒tate 5 – State 7序列的保守程度相對較高,與基因區(qū)域相似(圖3f),甲基化程度相對比較低(圖3g),這與染色質State 1 – State 4的高甲基化程度形成了鮮明對比。有趣的是,這些區(qū)域并具有較高密度的CpG 島覆蓋(圖3h),動物中的研究表明CpG島是調(diào)控元件比較富集的區(qū)域。以上分析結果都暗示State 5 – State 7包含了大量活躍的順式元件。 圖3. 功能元件染色質特征的分析與預測 a) 用多變量隱馬爾可夫模型來確定染色質狀態(tài)。熱圖中顏色表示不同染色質狀態(tài)的發(fā)射參數(shù),顏色越深,表示該區(qū)域某種標記的強度約強。每行代表一個狀態(tài),每列代表一個染色質標記,最后一列代表給定狀態(tài)的在基因組中比例。重復數(shù)據(jù)表明結果有很高的一致性。 b) 條形圖顯示每個State中各種基因組結構的分布。 c)餅圖顯示State1-4中序列轉錄情況的分布。 d)基于State1中的染色質特征可以預測未注釋的基因。 e-f)對于每種染色質狀態(tài),統(tǒng)計以DHS密度為特征的開放染色質區(qū)域的分布(e)和序列保守程度(f)。 g)每種染色質狀態(tài)CG、CHG、CHH三種DNA甲基化比例的分布。 h) 每種染色質狀態(tài)與CpG島重疊區(qū)域的比例(g) i)每種染色質狀態(tài)與各種類型的TE的重疊區(qū)域的比例。 j)State12和State13中的TE在染色體遠端(R1和R3)、著絲粒和近端(R2和C)區(qū)域的分布。 k)State12和State13中TE與最近基因的累積距離。 5 順式元件周圍表觀修飾的亞基因組保守性為了進一步評估基因組表觀遺傳水平上亞基因組之間的保守性和多樣性,我們對共線性區(qū)域中亞基因組之間不同染色質狀態(tài)的相似性進行了打分。除State14和State15外,染色質狀態(tài)在三個亞基因組中都具有一定的相似性(圖4),主要包含調(diào)節(jié)元件的State5和主要包含編碼基因的State1、State2在三個亞基因組中高度相似,Jaccard相似性指數(shù)范圍為0.64-0.67。這表明在這些區(qū)域最有可能在功能上保守。 圖4 順式元件周圍表觀修飾的亞基因組保守性
6 啟動子和增強子的染色質特征區(qū)分State5中包括基因近端和遠端調(diào)節(jié)元件。為了分析近端啟動子和遠端調(diào)節(jié)元件之間的差異,我們比較了這兩種類型序列在State5中的序列特征和染色質特征。在人類中,增強子通常以高豐度的H3K4me1和H3K4me3修飾為特征。然而,小麥基因編碼區(qū)富集H3K4me1修飾,在調(diào)節(jié)區(qū)域State5中更富集H3K4me3 (圖5a-b),在水稻中觀察到類似的模式,可以推測H3K4修飾的調(diào)節(jié)作用似乎在植物和動物之間獨立進化。近端和遠端功能元件都具有相似水平的染色質開放性和H3K9ac修飾水平(圖5c-d)。為了進一步區(qū)分啟動子和類增強子序列,我們對順式元件做了富集分析(圖5e)。不同類別的轉錄因子結合基序在啟動子和類增強子元件中富集,其中啟動子富含GCC/GGC-rich 基序,而類增強子元件富含GA/TC-rich和AT/TA-rich 基序。這個結果與在人類的早期研究中類似,即GA二核苷酸重復DNA序列可以廣泛地用于預測活性增強子。啟動子和類增強子區(qū)域之間序列偏好的差異可以反映這兩種類型的調(diào)節(jié)元件之間與轉錄因子結合的多樣性。 圖5 增強子預測及實驗驗證 a) H3K4me1(b),H3K4me3(c),DHS(d)和H3K9ac在染色質狀態(tài)5(S5)的基因近端和基因遠端、染色質狀態(tài)區(qū)域1 (S1)和2(S2)周圍的覆蓋密度分布。 e) 順式元件中啟動子和類增強子序列的基序富集分析。 7 類增強子序列的功能鑒定 我們基于熒光素酶報告系統(tǒng)驗證了類增強子元件的調(diào)控能力。選取了26個具有不同DHS密度且位于基因遠端的類增強子序列(距離最近基因的距離> 20kb)進行實驗驗證(圖6a)。將這些序列插入到35S啟動子控制下的報告載體中,之后將重組質粒在本氏煙草中瞬時轉染(圖6b展示部分結果)。在檢測的六個序列中,具有較高DHS信號的三個區(qū)域在報告實驗中表現(xiàn)出穩(wěn)定而較強的活性(圖6c),其信號比單獨攜帶35S啟動子的對照組高2倍以上。通過定量比較表觀信號的強度和實驗獲得的增強活性,我們發(fā)現(xiàn)DHS,H3K9ac與增強子活性相關性最強(圖6d-e)。綜上所述,我們的結果表明染色質特征狀態(tài)可用于鑒定具有增強子功能的基因組區(qū)域。 該研究工作由中國科學院植物生理生態(tài)研究所,南京農(nóng)業(yè)大學和中國科學院遺傳與發(fā)育生物學研究所團隊合作完成。中國科學院植物生理生態(tài)研究所的張一婧研究員和南京農(nóng)業(yè)大學的張文利教授為論文的共同通訊作者;中國科學院遺傳與發(fā)育生物學研究所的薛勇彪研究員與童依平研究員參與項目的設計與指導,博士生李子娟、王梅月、林堪德、謝憶琳為共同第一作者。該研究受到中科院戰(zhàn)略科技先導專項、基金委和教育部項目的資助。 文章鏈接:https://genomebiology./articles/10.1186/s13059-019-1746-8 |
|