【原】生信+統(tǒng)計，利用TCGA數(shù)據(jù)庫發(fā)5分的套路修煉

解螺旋 2020-08-27

展開全文

作者：酸菜

轉(zhuǎn)載請注明：解螺旋·臨床醫(yī)生科研成長平臺

話說天下大勢，粉久必冷。為了溫暖你們的小心臟，今日祭出“不做實驗卻想發(fā)SCI”的一篇生信+統(tǒng)計的文章教學(xué)。是不是看到題目就興奮的不要不要的？

不做實驗的理由千千萬，核心一條就是沒錢。醫(yī)生做科研，做實驗，學(xué)統(tǒng)計，敲代碼，你總得會一樣。統(tǒng)計學(xué)深了那是數(shù)學(xué)問題，酸菜自從高考數(shù)學(xué)差一分及格之后就受到了永久性的心理創(chuàng)傷，用SPSS做做單因素和多因素分析已到極限，剩下的就只有生信這一條路來嘗試無本生意了。

今天的教學(xué)案例2017年新發(fā)表于Oncotarget （IF = 5.168），一本讓人愛恨交織的雜志，一年收稿三千多篇，沒發(fā)過的人都說它很水，內(nèi)心卻是弱水三千，吾亦想取一瓢的掙扎糾結(jié)。

能發(fā)一篇Oncotarget不錯了，要啥自行車。

這篇文章的創(chuàng)新在于揭示了EB病毒基因與人類胃癌轉(zhuǎn)錄組的交互作用。EB病毒同胃癌的關(guān)系文獻(xiàn)早有報道，研究分子機(jī)制是常規(guī)思路，而用生物信息學(xué)、統(tǒng)計學(xué)方法從TCGA （The Cancer Genome Atlas）數(shù)據(jù)庫挖掘到特征性分子標(biāo)記進(jìn)行EB病毒與人基因的交互網(wǎng)絡(luò)分析，則是新穎的切入點(diǎn)，這個模式借鑒一下，微生物+癌癥基因組合，潛在的資源頗豐。

文章總體思路是先找到EBV(+)和EBV(-)的胃癌中有差異表達(dá)的基因和通路，隨后分析它們和EBV基因的相關(guān)性，構(gòu)建交互作用網(wǎng)絡(luò)。技術(shù)路線分三大步驟，作者用了一張圖來概括：

Figure4 數(shù)據(jù)分析流程

第一步是數(shù)據(jù)特征提?。ˋ），第二步是單因素相關(guān)分析（B），第三步是多因素相關(guān)分析（C）。

單因素和多因素分析是臨床研究的入門統(tǒng)計技術(shù)了，關(guān)鍵性難度在于測序數(shù)據(jù)分析方面，基因組數(shù)據(jù)本來就復(fù)雜，這里又需要分析人和病毒兩個轉(zhuǎn)錄組，其中的多重檢驗會導(dǎo)致很多的假陽性率，所以需要降維和校正。

第一步：提取特征分子標(biāo)志

從TCGA數(shù)據(jù)庫下載EBV(+)和EBV(-)的原始測序fastq數(shù)據(jù)，有25個EBV(+)和260個EBV(-)樣本。然后構(gòu)建一個臨床特征表格，包括性別、年齡、腫瘤部位、組織學(xué)病理學(xué)診斷等等，接著用R語言的dist()函數(shù)計算兩組樣本間臨床特征的歐式距離，找出距離最近的樣本進(jìn)行匹配。

因為有幾個EBV(-)樣本跟EBV(+)樣本的距離是一樣的，所以最終選到了20個EBV(-)樣本，來跟那25個EBV(+)樣本配對。這樣每個配對之間的距離，就比25個EBV(+)對260個EBV(-)之間的平均距離小多了，控制了混雜因素，使組間具有可比性。

該文章附件中的表格展示了配對樣本的一部分，左邊4列分別為EBV(+)樣本編號、組織學(xué)診斷、EBV(-)樣本編號、組織學(xué)診斷。右邊2列數(shù)字就是歐式距離，左邊的是EBV(+)樣本與它所匹配的EBV(-)樣本的距離，右邊的是該EBV(+)樣本與原260個EBV(-)樣本的平均距離，可見前者是比后者要小多，消除了樣本間差異的偏倚因素。

接下來對EBV基因進(jìn)行篩選，從原始的88個基因中，將在超過5個樣本中原始計數(shù)（raw count）為0的基因去除，剩下19個基因，這就獲得了EBV相關(guān)的特征分子標(biāo)志。

部分EBV基因在EBV(+)樣本中的表達(dá)

然后提取人類基因組的特征分子標(biāo)志。用Bioconductor的DEseq2包找出兩組樣本間差異表達(dá)的基因（DEx gene），這里就要用到Bonferroni法對P值進(jìn)行校正，原始P值達(dá)到1E-6，即校正后的P < 0.05，才算有統(tǒng)計學(xué)意義。共找到939個DEx基因，其中189個上調(diào)，750個下調(diào)。

再用Bioconductor中的GAGE (Generally Applicable Gene-set Enrichment for Pathway Analysis)分析法，找到兩組樣本中差異表達(dá)的通路，共計29個，在EBV(+)樣本中全是上調(diào)的。

同時用R語言的MEGENA包構(gòu)建那些DEx基因的共表達(dá)網(wǎng)絡(luò)，找到它們的聚類基因模塊（Gene modules）和其中的關(guān)鍵節(jié)點(diǎn)基因（hub genes）。前者modules是指一組具有較強(qiáng)相關(guān)性的基因，而hub則是指modules中具有全局性影響的樞紐基因。這一步是利用人類基因組中本來就有的交互網(wǎng)絡(luò)數(shù)據(jù)，來減少數(shù)據(jù)維度，聚焦到關(guān)鍵信息。這一步找到了91個節(jié)點(diǎn)基因和27個基因模塊 (一個節(jié)點(diǎn)基因可出現(xiàn)在不同的模塊中)。

然而，這些數(shù)據(jù)維度還是高，怎么進(jìn)一步抓取核心要素呢？作者又用了主成分分析法（PCA）提取其中起主要作用的信息，他們只提取了第一個主成分（PC1）來代表該模塊或通路。這樣，網(wǎng)絡(luò)構(gòu)建和相關(guān)性分析的素材提取完畢，最終獲得19個EBV基因、91個人類胃癌相關(guān)的hub基因、27個基因模塊和29個通路（的PC1）。

對于生信有基礎(chǔ)的同學(xué)，可按照上述方法利用工具自行探索，零基礎(chǔ)的同學(xué)我們還有后續(xù)教學(xué)。

第二步，單因素相關(guān)分析

單因素相關(guān)分析就是要從19個EBV基因、91個人類胃癌相關(guān)的hub基因、27個基因模塊和29個通路中再進(jìn)一步獲取相關(guān)性最高的組合，采用配對的Pearson相關(guān)性檢驗對三組數(shù)據(jù)分別進(jìn)行分析：1）基因模塊的PC1和EBV基因表達(dá)數(shù)據(jù)；2）差異通路的PC1和EBV基因表達(dá)數(shù)據(jù)；3）hub基因和EBV基因表達(dá)數(shù)據(jù)。用置換檢驗法獲取相關(guān)系數(shù)（用C++）。

至于相關(guān)系數(shù)的顯著性，則沒有采用通用的p<0.05，因為它假設(shè)兩個變量都是正態(tài)分布，這對RNA-seq數(shù)據(jù)來說通常不現(xiàn)實。所以研究者采用p < 0.1 作為統(tǒng)計學(xué)顯著性的門檻。

這一步得到了7個EBV基因和12個模塊的PC1呈顯著相關(guān)，其中相關(guān)性最強(qiáng)的是BLAF1基因和12號模塊，相關(guān)系數(shù)達(dá)到0.662，如下表。

3個EBV基因和4個人類胃癌的hub基因相關(guān)，其中最強(qiáng)的是LMP-1和Clorf115，相關(guān)系數(shù)0.754。

又有2個EBV基因和4個通路的PC1相關(guān)，其中BLAF4和4個通路都相關(guān)，最強(qiáng)的是BLAF4和磷脂酰肌醇信號通路，相關(guān)系數(shù)達(dá)到0.709。

好了，單因素分析這步到這里做完。

第三步，多因素關(guān)聯(lián)分析

這步要用到稀疏典型相關(guān)分析法（sparse Canonical Correlation Analysis, sCCA）。典型相關(guān)分析法（CCA）是分析兩個數(shù)據(jù)矩陣的經(jīng)典方法，不需要降維提取主成分。但普通CCA只適用于行比列多的矩陣，即樣本比基因多，這情況顯然不對，是樣本少基因多，所以要用sCCA。這步用R語言的PMA包來做。

其中用CCA()函數(shù)可得到每個元素（比如每個EBV基因）的典型系數(shù)（canonical coefficient），它表示該元素對整個矩陣典型相關(guān)系數(shù)的貢獻(xiàn)，如果某個元素的典型系數(shù)非零，則表示它對全局相關(guān)性有很大貢獻(xiàn)，被選為核心（essential）基因。

這步得到22個基因模塊與19個EBV基因計數(shù)矩陣相關(guān)（P< 0.1，理由同上），如下表。其中核心EBV基因為LMP-1，BALF1，BALF2，BARF1，BNRF1，LF1和BZLF1。

此外，人類hub基因計數(shù)矩陣和EBV基因計數(shù)矩陣的典型相關(guān)系數(shù)是0.806。對這個相關(guān)性貢獻(xiàn)最大的核心EBV基因和核心人類hub基因就不一一列出了。所有的差異表達(dá)的通路都和EBV基因計數(shù)矩陣達(dá)到了顯著相關(guān)的典型系數(shù)。最強(qiáng)幾個的如下表所示。

至此，數(shù)據(jù)分析的主要步驟就做完了。但文章沒完呀，還要做個總結(jié)，比較一下Pearson和sCCA兩種相關(guān)性分析的結(jié)果。咱們接著看。

第四步，數(shù)據(jù)匯總

先總結(jié)一下EBV基因的情況。如下表，各個重要EBV基因在Pearson和sCCA分析中，分別與人類胃癌基因模塊、hub基因、通路相關(guān)的情況。

人類重要基因模塊在兩種相關(guān)性分析中的情況則如下表：

比較有意思的是模塊5和模塊12。模塊5在DAVID數(shù)據(jù)庫的注釋中，有膜、跨膜、離子通道等關(guān)鍵詞；而模塊12則和饑餓激素通路相關(guān)，在前人的研究中，它可能會促進(jìn)胃腸道和胰腺疾病的惡化。由此，文章數(shù)據(jù)分析的統(tǒng)計學(xué)結(jié)果終于與生物學(xué)意義產(chǎn)生了交匯！

下圖展示了模塊5和EBV基因相互作用的關(guān)系圖，作為上述相關(guān)性的一個示例：

再來看看重要的人類hub基因，它們是C1orf115，CNTD2和VANGL2。它們在Pearson分析中，和EBV的BALF1和LMP-1相關(guān)，在sCCA分析中也被選為核心基因。下圖展示了人類hub基因和EBV基因的互作網(wǎng)絡(luò)。

人類重要的通路則是凋亡、溶酶體、Jak-STAT信號通路和磷脂酰肌醇信號通路，它們在Pearson和sCCA分析中都與EBV的BALF4和/或BALF5基因相關(guān)。值得注意的是，BALF4基因與Jak-STAT信號通路、磷脂酰肌醇信號通路中的大多數(shù)基因都呈現(xiàn)正相關(guān)。

總體而言，在第一步差異表達(dá)分析中所找到的DEx基因、模塊和通路，與篩選出來的EBV基因，大多都有相關(guān)性，這也驗證了前人的觀察和實驗的結(jié)果，即EBV和胃癌確實存在基因?qū)用娴南嗷プ饔谩?/p>

生信和統(tǒng)計分析完成后，得到了一堆具有統(tǒng)計學(xué)相關(guān)性的基因、通路，這時候需要找出它們的生物學(xué)相關(guān)性，才是拔高文章水平的點(diǎn)睛之筆。作者分析了他們找到的每個具有統(tǒng)計學(xué)相關(guān)性的元素在既往文獻(xiàn)報道中的相關(guān)性，文獻(xiàn)檢索的工作相當(dāng)細(xì)致。例如LMP-1編碼的潛伏膜蛋白1可導(dǎo)致細(xì)胞生長失調(diào)，是一個致癌蛋白；BALF1編碼抗凋亡蛋白Bcl2同源體，它的表達(dá)也和幾種癌癥的發(fā)生有相關(guān)性，等等等等。

當(dāng)然除了驗證前人的研究，BALF2可謂一個新發(fā)現(xiàn)，之前沒有報道過它和癌癥有什么關(guān)系，本文是第一次提出，如果能夠經(jīng)過實驗驗證這文章絕非五分這般平庸啊。

TCGA的挖掘潛力日益受到科研界的重視，搞腫瘤的這一優(yōu)勢得天獨(dú)厚，應(yīng)善加利用。生信的技能學(xué)習(xí)是一個由淺入深的漸進(jìn)過程，解螺旋將推出系列課程，今天放出第一波，由我們的合作伙伴GCBI制作的TCGA數(shù)據(jù)庫基礎(chǔ)應(yīng)用教學(xué)，課件免費(fèi)下載，在服務(wù)號完成分享任務(wù)后獲取16mins視頻。

懶癌晚期患者，請加入解螺旋鉆石會員，不但能夠?qū)W習(xí)臨床研究，基金申請和SCI寫作的深度課程，當(dāng)下還可享受“TCGA基因萬能篩”活動，1000元，給你用生信方式篩選一個靠譜的研究靶標(biāo)基因，實驗驗證不成功免費(fèi)重篩，把專業(yè)的事交給專業(yè)的人辦。

下面是“TCGA基因萬能篩”活動獲得的靶標(biāo)基因示例：

服務(wù)特色

針對研究癌癥卻沒有方向的會員，整理TCGA數(shù)據(jù)庫中特定癌癥的癌/癌旁數(shù)據(jù)，包括miRNA或mRNA數(shù)據(jù)，篩選癌/癌旁差異基因，并結(jié)合多種生物信息學(xué)分析內(nèi)容（包括差異基因功能、信號通路、生存以及基因網(wǎng)絡(luò)分析等），為會員研究特定癌癥的發(fā)生發(fā)展機(jī)制提供有價值的靶基因及相應(yīng)的理論基礎(chǔ)。

分析結(jié)果展示

差異分析結(jié)果

差異基因功能分析

差異基因信號通路分析

基于KEGG數(shù)據(jù)庫，對差異基因利用Fisher精確檢驗和卡方檢驗，把目標(biāo)基因參與的Pathway進(jìn)行顯著性分析，按照P value<0.05進(jìn)行篩選，得到顯著性的Pathway。

生存分析

利用單基因在所有樣本中的表達(dá)情況，按照中位數(shù)進(jìn)行分組，利用時序檢驗(log-rank)檢驗進(jìn)行比較兩組的總生存期的差異性，篩選條件為：p<0.05，研究基因表達(dá)對預(yù)后的影響。

調(diào)控關(guān)系

每個基因與基因之間都有非常多的調(diào)控關(guān)系，我們從基因相關(guān)的轉(zhuǎn)錄因子、miRNA、lncRNA和上下游相關(guān)基因的四個角度來展示基因與基因間的關(guān)系。

基因CFH中，已經(jīng)驗證的上游靶向結(jié)合的miRNA為has-miR-146a-5p。在基因網(wǎng)絡(luò)中，CFH能夠抑制基因CFB和C3的表達(dá)。

文獻(xiàn)報道中和CFH相關(guān)的lncRNA的71個。

轉(zhuǎn)錄因子預(yù)測

根據(jù)位置結(jié)合關(guān)系，預(yù)測結(jié)合CFH啟動子區(qū)域（轉(zhuǎn)錄起始位點(diǎn)上游2000bp，下游500bp）的轉(zhuǎn)錄因子。并依據(jù)Transfac數(shù)據(jù)庫的預(yù)測分值和COSMIC數(shù)據(jù)庫以及dbSNP數(shù)據(jù)庫是否存在對應(yīng)注釋信息整合出推薦度；以推薦度來表示預(yù)測出來的轉(zhuǎn)錄因子的科研價值，推薦度越高越好。