推薦:江舜堯 編譯:西西 編輯:馬莉 摘要 文中重要圖片說明 圖1 | 細胞系和匹配的原發(fā)腫瘤樣本的泛癌分析。a. 研究設計。轉(zhuǎn)錄組測序數(shù)據(jù)由Google Cloud Pilot下載,轉(zhuǎn)錄組測序數(shù)據(jù)集是CCLE和TCGA數(shù)據(jù)庫中重疊的22種腫瘤類型數(shù)據(jù)集。數(shù)據(jù)在分析過程中標準化,分批更正,調(diào)整以提高腫瘤濃度。b. CCLE和TCGA數(shù)據(jù)的相關(guān)性分析。小提琴圖中的每一個樣本通過可變度最大的5000個基因?qū)粋€細胞系和一個原發(fā)腫瘤樣本的的斯皮爾曼相關(guān)系數(shù)。覆蓋在其上的箱式圖中,紅色的中心線代表中位數(shù),箱子的界限代表上/下四分位數(shù),須狀代表1.5倍四分位點內(nèi)距。c. CCLE和TCGA中所有腫瘤類型中值相關(guān)性熱圖。 圖2 | 原發(fā)腫瘤樣本/細胞株中腫瘤純度的相關(guān)性。a. 單邊Wilcoxon檢驗發(fā)現(xiàn)15/20種腫瘤類型中,細胞系與高腫瘤純度的原發(fā)腫瘤樣本(紅色)的相關(guān)性顯著大于細胞系和低腫瘤純度的原發(fā)腫瘤樣本(青綠色)。小提琴圖上的P值用相應的符號表示,“ns”表示p > 0.05,一顆星表示p<=0.05,兩顆星表示p<=0.01,三顆星表示p<=0.001,四顆星表示p<=0.0001。相關(guān)系數(shù)中位數(shù)由小提琴圖中黑色水平線描述。b. STRING分析了本研究中20個腫瘤類型中,95個在原發(fā)腫瘤中高表達的基因間的蛋白互作(PPI富集p< 1.0e-16)。線的粗細代表相互作用的可信度,只有可信度高的互作才會展示出來。PPI網(wǎng)絡在免疫應答通路基因富集(錯誤檢出率=5.51e-06)。c. 通過分子標簽數(shù)據(jù)庫(MSigDB)的標記基因?qū)υl(fā)腫瘤樣本和細胞系的基因富集分析(GSEA)。FDR<5%的通路標記為NES。藍色格子表示細胞系的富集,紅色格子表示原發(fā)腫瘤樣本的富集。在研究的腫瘤類型中,和細胞周期發(fā)展相關(guān)的基因集富集在細胞系,免疫通路富集在原發(fā)腫瘤中。d. 癌通路中的標記基因的富集分析。在所有腫瘤類型中,基因組不穩(wěn)定在細胞系中富集,促癌的炎癥富集在原發(fā)腫瘤中。 圖3 | 細胞系腫瘤亞型預測。a. 本研究中腫瘤亞型預測方法概覽。同其他腫瘤亞型相比(LFC > 1, FDR < 0.01),TCGA中腫瘤被分為訓練集(80%)來發(fā)現(xiàn)在每種腫瘤亞型中該表達的基因。亞型模板就會將細胞系(LFC>2)和在至少2種細胞系種不穩(wěn)定表達的基因過濾掉,以產(chǎn)生符合亞型模板的細胞系。這些TCGA檢驗集的亞型(20%)可以通過最近模板預測方法預測,如果分類的準確度大于80%,這個基因模板將會使用于CCLE細胞系以預測細胞系亞型。b. TCGA中 (左)和預測的CCLE細胞系 (右)的腫瘤亞型比例,預測準確度高于80%。標記為紅色腫瘤類型(BRCA, LUAD, SKCM)說明TCGA亞型和CCLE預測亞型具有顯著差異。 圖4 | 胰腺癌中腫瘤樣本和細胞系的相關(guān)性分析。a. 通過5000個差異最顯著的基因聯(lián)系原發(fā)胰腺癌樣本和所有CCLE細胞系斯皮爾曼相關(guān)系數(shù)的小提琴圖。相關(guān)系數(shù)由細胞系組織來源分隔(x軸)。覆蓋的箱式圖上,紅色中心線代表中位數(shù),箱子的界限代表上/下四分位數(shù),須狀代表1.5倍四分位點內(nèi)距(IQR)。胰腺原發(fā)腫瘤樣本和細胞系的相關(guān)性最強,其次是膽管。b. 胰腺癌細胞系和胰腺癌樣本的斯皮爾曼相關(guān)系數(shù)小提琴圖,由細胞系分割開(x軸)。由紅線標出的相關(guān)系數(shù)中位數(shù)為0.67到0.49。在重疊的箱式圖上,箱子的界限代表上/下四分位數(shù),須狀代表1.5倍IQR。c.胰腺癌細胞系(x軸)和胰腺原發(fā)腫瘤樣本(y軸)斯皮爾曼相關(guān)性熱圖。Y軸上的顏色條表示TCGA原發(fā)腫瘤樣本亞型。d. 熱圖展示了胰基礎(chǔ)的經(jīng)典的胰腺導管腺癌亞型中,腺癌模板基因的表達水平。上面的圖表示TCGA胰腺癌檢驗集,有注釋的顏色條表示實際的亞型,預測的亞型以及亞型預測的FDR值。下面的圖表示胰腺癌細胞系,有注釋的顏色條表示預測的亞型以及亞型預測的FDR值。 圖5 | TCGA-110-CL:一種改良的整合了TCGA和CCLE數(shù)據(jù)的細胞系板。a. NCI-60板中的細胞系和原發(fā)腫瘤數(shù)據(jù)相關(guān)性的熱圖。在NCI-60板和CCLE中只有36和細胞系被分享出來。每種細胞的腫瘤類型在熱圖的左側(cè)有注釋條注明。b. 改良胡的NCI-60熱圖。改良后的板和原始的NCI-60板有相同數(shù)量的細胞系和腫瘤類型,但是和與之匹配的相關(guān)系數(shù)最高的細胞系才被選中。c. 箱式圖表明改良的NCI-板和與之匹配的原發(fā)腫瘤樣本有更高的相關(guān)系數(shù)(雙邊Wilcoxon檢驗p= 7.6e-07)。箱式圖的中心線表示中位數(shù),箱子的界限代表上/下四分位數(shù),須狀代表1.5倍四分位點內(nèi)距(IQR)。d. 推薦的TCGA-110-CL板。一個改良的含有5種在22種腫瘤種與原發(fā)腫瘤相匹配相關(guān)系數(shù)最高的細胞系的細胞系板。對于腫瘤亞型的預測,在每種亞型種相關(guān)系數(shù)最高的亞型被挑選展現(xiàn)在板中。 |
|