本文由景杰學(xué)術(shù)團(tuán)隊(duì)報(bào)道解讀
眾所周知,蛋白質(zhì)是生物過程必不可少的介質(zhì),是生命活動的主要承擔(dān)者。然而迄今為止,包括癌細(xì)胞系百科全書(CCLE)在內(nèi)的細(xì)胞系集合大規(guī)模分析,多數(shù)集中在遺傳信息分析上,對蛋白質(zhì)組的深入研究仍遠(yuǎn)遠(yuǎn)不足。雖然蛋白質(zhì)和RNA表達(dá)差異背后的轉(zhuǎn)錄后調(diào)控與翻譯后修飾等機(jī)制已被解析,但是關(guān)于基因和蛋白質(zhì)表達(dá)各自的局限性以及兩者之間的差異仍存在疑惑。 癌細(xì)胞系百科全書(Cancer Cell Line Encyclopedia,CCLE)由美國Broad研究所、Dana-Farber癌癥研究所和Novartis生物醫(yī)學(xué)研究所的多個課題組于2012年合作完成,對覆蓋三十多種組織來源的947種人類癌細(xì)胞系進(jìn)行了大規(guī)模深度測序,整合了DNA突變、基因表達(dá)和染色體拷貝數(shù)等遺傳信息。隨著多組學(xué)測序技術(shù)和癌癥精準(zhǔn)醫(yī)學(xué)向縱深發(fā)展,CCLE數(shù)據(jù)庫也不斷在癌細(xì)胞系數(shù)量和測序信息維度等方向上進(jìn)行著更新,增加了組蛋白譜,RNA-seq,DNA甲基化,microRNA(miRNA)譜,全基因組測序和代謝產(chǎn)物譜等分析。在最新版本中,CCLE包括通過反相蛋白質(zhì)陣列對蛋白質(zhì)進(jìn)行定量,但仍缺乏深度蛋白質(zhì)組學(xué)分析。2020年1月23日,Cell在線發(fā)表了題為:Quantitative Proteomics of the Cancer Cell Line Encyclopedia的最新研究成果。來自美國哈佛醫(yī)學(xué)院Steven P. Gygi、David P. Nusinow等研究人員通過質(zhì)譜法,對CCLE中375種不同來源細(xì)胞系的數(shù)千種蛋白質(zhì)進(jìn)行定量蛋白質(zhì)組分析,為癌細(xì)胞百科全書增添了全新的篇章。文章發(fā)現(xiàn),跨樣本基因的蛋白水平和轉(zhuǎn)錄水平相關(guān)系數(shù)較低,暗示了利用RNA-seq數(shù)據(jù)推測蛋白表達(dá)水平具有一定的局限性。通過生物學(xué)途徑與功能基因注釋富集分析發(fā)現(xiàn),蛋白質(zhì)表達(dá)的主要變化是圍繞生物學(xué)途徑進(jìn)行的,并且在不同的途徑的組成成分之間存在一定的相關(guān)性。同時,研究者還利用本次定量蛋白質(zhì)組學(xué)數(shù)據(jù)詳細(xì)解讀微衛(wèi)星不穩(wěn)定( microsatellite instable, MSI )細(xì)胞系與一些特定蛋白復(fù)合物表達(dá)之間的聯(lián)系,探究了MSI狀態(tài)下對基因敲低與突變具有敏感性的蛋白復(fù)合物的表達(dá)情況,為癌癥基因組學(xué)和癌癥精準(zhǔn)治療發(fā)展提供新思路。對來自CCLE中不同譜系的375個癌細(xì)胞系的蛋白質(zhì)組進(jìn)行分析; 分析了多種途徑中相關(guān)蛋白質(zhì)的表達(dá); 微衛(wèi)星不穩(wěn)定性細(xì)胞系中,復(fù)雜蛋白復(fù)合體下調(diào)表達(dá); 分析了與基因敲低和突變敏感性相關(guān)的蛋白復(fù)合物。 文章從CCLE中選擇了以實(shí)體器官為主的22個譜系來源的375個細(xì)胞系(樣本策略)用于定量蛋白質(zhì)表達(dá)譜分析(組學(xué)策略),并成功分析了不同來源樣品之間的蛋白質(zhì)表達(dá)的差異。TMT10-plex和儀器對樣品的多路復(fù)用,實(shí)現(xiàn)了良好的檢測覆蓋深度,并且定量分析樣品之間的重疊程度很高。檢測的蛋白類別覆蓋面廣,包括了大部分豐富蛋白質(zhì)(如核糖體),以及較低豐度的蛋白質(zhì)(如轉(zhuǎn)錄因子)的一部分。圖1 375種不同癌細(xì)胞系的蛋白質(zhì)組學(xué)定量分析2、生物學(xué)途徑?jīng)Q定了相關(guān)蛋白的表達(dá),與組織譜系無關(guān)文章采用主成分分析法將層次聚類的結(jié)果降維分析(圖2A),剔除了離群的造血和淋巴細(xì)胞系,可以看到組織譜系重疊度較高(圖2 B)。為確定這種組織譜系的共變化是否影響蛋白表達(dá),文章通過GSEA分析富集到了超過200個生物學(xué)途徑(圖2C和4B),各途徑成員具有共變化的特征。這些具有共變化特征的蛋白質(zhì),可以將它們大致分為蛋白質(zhì)復(fù)合物和非蛋白質(zhì)復(fù)合物基因集合。后者包含了如MAPK(絲裂原激活的蛋白激酶),糖酵解途徑,細(xì)胞分化相關(guān)的生物學(xué)途徑;以及細(xì)胞-細(xì)胞和細(xì)胞-基質(zhì)黏附途徑相關(guān),如KRAS和p53信號標(biāo)記物。有意思的是,糖酵解與氧化磷酸化途徑在不同的聚類上,成相反關(guān)系。這與Warburg效應(yīng)(即癌細(xì)胞具有高糖酵解速率)的特征相符合。大量數(shù)據(jù)表明生物學(xué)途徑決定了相關(guān)蛋白的表達(dá),其相對表達(dá)量在很大程度上與組織譜系無關(guān),后續(xù)的GO聚類分析也驗(yàn)證了這一發(fā)現(xiàn)(圖4A和4C)。圖2 蛋白質(zhì)表達(dá)的主要變化是由蛋白復(fù)合物的協(xié)調(diào)表達(dá)和細(xì)胞途徑所決定3、蛋白質(zhì)組學(xué)與轉(zhuǎn)錄組學(xué)數(shù)據(jù)相關(guān)性較低,RNA表達(dá)水平不能反應(yīng)穩(wěn)態(tài)蛋白質(zhì)組的變化對蛋白質(zhì)組的直接定量分析,相比于此前基于RNA-Seq數(shù)據(jù)推測分析基因表達(dá)水平,其顯著優(yōu)勢在于避免由于轉(zhuǎn)錄后調(diào)控及翻譯調(diào)控等因素的影響。本文研究者對蛋白質(zhì)組與轉(zhuǎn)錄組數(shù)據(jù)進(jìn)行分別聚類分析與兩者之間的相關(guān)性分析,發(fā)現(xiàn)兩者均呈現(xiàn)不完全的聚類。而在相關(guān)性分析上,對于同一細(xì)胞系來源的蛋白質(zhì)數(shù)據(jù)與RNA數(shù)據(jù)高度相關(guān)。例如皮膚和造血-淋巴細(xì)胞系比其他細(xì)胞系(圖3A和3B,分別為紫色和橙色星號)具有最大的相關(guān)性,這與前人報(bào)道的反相蛋白陣列基因芯片(RPPA)數(shù)據(jù)結(jié)果有很大不同。而跨樣本的基因蛋白水平與RNA水平之間的相關(guān)系數(shù)平均在0.5以下,這與此前的研究結(jié)果類似。對于某些基因,RNA的表達(dá)水平能夠代表蛋白質(zhì)表達(dá)水平(例如EGFR)。而對于另一些基因,RNA所能提供的信息很少(例如BRAF)。 圖3 蛋白質(zhì)與RNA表達(dá)之間的相關(guān)性另一方面,文章同樣采用PCA法對RNA數(shù)據(jù)降維后進(jìn)行GSEA富集分析,得到了較少的生物學(xué)途徑與GO聚類,其中一部分與蛋白質(zhì)數(shù)據(jù)的富集結(jié)果重疊(圖4B和4C)。在結(jié)合每個基因RNA水平與蛋白水平的相關(guān)性后發(fā)現(xiàn),大多數(shù)生物學(xué)途徑相關(guān)性不高,只有少數(shù)途徑,其蛋白表達(dá)水平與RNA表達(dá)水平具有非常高的相關(guān)性,如KRAS和p53信號標(biāo)記物,以及介導(dǎo)細(xì)胞接觸的細(xì)胞表面蛋白。GO聚類結(jié)果也類似。而后結(jié)合轉(zhuǎn)錄因子結(jié)合靶標(biāo)數(shù)據(jù)庫,在RNA水平富集到了100多個轉(zhuǎn)錄因子靶標(biāo),而蛋白質(zhì)水平卻沒有。因此說明,盡管在一定程度上RNA的量能代表蛋白質(zhì)的水平,但對于穩(wěn)定蛋白質(zhì)組來說,前者并不能反映后者的變化水平。綜合而言,用RNA-Seq數(shù)據(jù)推測蛋白質(zhì)表達(dá)水平這一方法存在很大缺陷,而用蛋白質(zhì)組學(xué)數(shù)據(jù)反應(yīng)細(xì)胞功能狀態(tài)則更為直觀。圖4 跨生物學(xué)過程的協(xié)調(diào)表達(dá)與細(xì)胞蛋白質(zhì)組中的主要變化有關(guān)另外,文章還通過此次定量蛋白質(zhì)組學(xué)數(shù)據(jù),深度挖掘了與癌癥發(fā)展相關(guān)基因的表達(dá)情況,如對所有蛋白質(zhì)的表達(dá)與上皮細(xì)胞粘附分子(EPCAM)和波形蛋白(VIM)進(jìn)行蛋白質(zhì)網(wǎng)絡(luò)分析,發(fā)現(xiàn)1/3-1/2的蛋白與該上皮-間質(zhì)標(biāo)志物的調(diào)控和翻譯后修飾相關(guān)。在許多藥物靶點(diǎn)如EGFR,以及基因敲除靶點(diǎn)PIK3CB和ZEB2的篩選與分析上,蛋白組學(xué)數(shù)據(jù)提供了極大的幫助。文章還構(gòu)建了一個基于固態(tài)器官源頭的癌細(xì)胞系蛋白組數(shù)據(jù)的蛋白質(zhì)互作網(wǎng)絡(luò),包含了3777蛋白,41600個相關(guān)關(guān)系(FDR為1%),其中40000個正相關(guān)調(diào)控,這為組織和探索大規(guī)模蛋白質(zhì)表達(dá)提供了有力數(shù)據(jù)。而對于MSI細(xì)胞系,本文研究者也進(jìn)行了多方位信息挖掘,發(fā)現(xiàn)多種蛋白復(fù)合物在MSI細(xì)胞系中差異表達(dá),以及對不同蛋白復(fù)合物組成成員間的表達(dá)進(jìn)行了相關(guān)性分析。這些數(shù)據(jù)與CCLE原有的多維組學(xué)數(shù)據(jù)相結(jié)合,極大地促進(jìn)了癌細(xì)胞行為的探索與癌癥治療的研究。參考文獻(xiàn) David P. Nusinow, et al., 2020, Quantitative Proteomics of the Cancer Cell Line Encyclopedia. Cell.
|