解螺旋公眾號·陪伴你科研的第2569天 從小白的角度,一刻鐘復(fù)現(xiàn)生信套路。 各位小伙伴大家好,今天給大家?guī)淼氖且黄l(fā)表在Medical science monitor(目前最新影響因子:1.9)的GEO數(shù)據(jù)庫的非腫瘤生信文章套路。 文章題目 Key Genes Associated with Non-Alcoholic Fatty Liver Disease and Acute Myocardial Infarction 復(fù)現(xiàn)任務(wù) 在前面的復(fù)現(xiàn)中,我們復(fù)現(xiàn)過了腫瘤單基因套路的文章、基因家族套路的文章、多腫瘤聯(lián)合分析的文章,這次我們來一起看一下多疾病聯(lián)合分析。給你的生信研究多一個切入點。接下來我們看下,在非腫瘤中,又有哪些內(nèi)容呢? 圖1-2:非酒精性脂肪肝疾?。∟AFLD)及急性心肌梗死(AMI)差異基因表達(dá)的熱圖 圖3:NAFLD和AMI的差異基因(DEG)相交的韋恩圖 圖5-8:交集基因的GO和KEGG結(jié)果富集分析 圖9:PPI蛋白互作網(wǎng)絡(luò) 圖10:Hub基因的評分 圖11-12:在NAFLD及AMI中,前6基因的ROC曲線 文章結(jié)構(gòu) 在進(jìn)行這篇文章的復(fù)現(xiàn)之前,我們首先看一下這篇文章的Fig4。 作者在Fig4放了一張全文的流程圖,其實現(xiàn)在在生信文章中放流程圖已經(jīng)很常見了,但是大家一般都放在第一張圖。第四張圖是流程圖還是一個很有創(chuàng)意的操作。不管怎么說,放流程圖這一點還是值得我們大家學(xué)習(xí)的,我們也借助這張圖看一下作者的分析思路: 首先,作者分別在NAFLD(非酒精性脂肪肝)的GSE63067數(shù)據(jù)集和AMI(急性心肌梗死)的GSE60993和GSE66360數(shù)據(jù)集(這個位置作者在流程圖中寫錯了,大家要引以為戒)中,分別篩選了差異基因后取交集,這也就是我們“挑”這部分,然后對交集基因進(jìn)行了GO/KEGG富集分析(圈),之后繪制了蛋白互作網(wǎng)絡(luò)(聯(lián)),最后,對于Hub基因,作者又在兩個疾病中分別繪制了ROC曲線(靠)。 文章復(fù)現(xiàn) 接下來我們來看一下各張圖片: Figure 1、2NAFLD及AMI差異基因表達(dá)的熱圖 目前仙桃學(xué)術(shù)已經(jīng)收錄了部分GEO數(shù)據(jù)庫中的數(shù)據(jù)集,現(xiàn)在我們就登陸仙桃學(xué)術(shù)進(jìn)行實操一下如何復(fù)現(xiàn)這張熱圖吧。 登陸仙桃學(xué)術(shù):www. 選擇“數(shù)據(jù)集檢索”——在檢索框中輸入我們本文中所應(yīng)用的非酒精性脂肪肝數(shù)據(jù)集GSE63067,回車之后即可看到數(shù)據(jù)集的基本情況。 下拉該界面,點擊“選擇樣本”,可以看到該數(shù)據(jù)庫中共有18個樣本,點擊序號左側(cè)的小方框即可選擇全部樣本,在備注中輸入“非酒精性脂肪肝”(不寫也可以,但是因為本文用到了幾個GEO數(shù)據(jù)集,建議大家逐個做好標(biāo)注),最后點擊“添加到樣本庫”,我們的第一個數(shù)據(jù)集的樣本就添加好啦。 在添加之后,界面會顯示“添加成功!”字樣,我們可以看到左側(cè)樣本庫信息中已經(jīng)顯示了我們剛剛加入的樣本,現(xiàn)在點擊“進(jìn)入我的樣本庫”。 作者在原文中描述該數(shù)據(jù)集中有11個NAFLD樣本與7個正常對照,我們先選擇正常的7個樣本,加入分組1中,作為對照組。并用同樣方法將其余的11個樣本加入分組2中。 現(xiàn)在我們可以看到兩個分組均已選擇好,點擊右側(cè)的“提交分析”。 免費版/基礎(chǔ)版/高級版每日可以提交分析的次數(shù)是不同的,高級版的20次一般足夠大家日常分析所需啦~ 一般幾分鐘后我們就可以在頁面下方看到歷史記錄中狀態(tài)變成完成啦,在這里我們修改一下項目名稱為“差異分析-GSE63067”,點擊確定。 接下來我們用同樣的方法分析急性心肌梗死的GSE66360數(shù)據(jù)集,原文中,作者應(yīng)用了GSE66360和GSE60993兩個數(shù)據(jù)集綜合分析,目前GSE60993數(shù)據(jù)集仙桃學(xué)術(shù)尚未收錄,在這里我們僅以GSE66360這一個數(shù)據(jù)集進(jìn)行示范: 根據(jù)GEO數(shù)據(jù)庫對該數(shù)據(jù)集的描述,該數(shù)據(jù)集中收錄了50例正常對照及49例心肌梗死后患者樣本,我們?nèi)匀粚⒄φ赵O(shè)置為分組1。 接下來我們進(jìn)入生信工具的“歷史記錄”模塊,在這里我們可以看到剛剛分析完成的兩個數(shù)據(jù)集: 點擊“下載”,即可看到“熱圖下載”選項,點擊即可下載保存: 同樣方法也可以得到另一個數(shù)據(jù)集的熱圖結(jié)果,大家自己試著做一下,我就不多贅述啦。 Figure 3NAFLD及AMI差異基 因(DEG)相交的韋恩圖 首先我們下載NAFLD的GSE63067數(shù)據(jù)集分析結(jié)果,在EXCEL中打開,應(yīng)用篩選功能,根據(jù)原文設(shè)置篩選條件為:|logFC|>1且p<0.05。 注:通常情況下,我們一般通過設(shè)置adj.P閾值進(jìn)行篩選,但是在小編復(fù)現(xiàn)時候,發(fā)現(xiàn)如果設(shè)置adj.P的話,得到的差異基因結(jié)果較少,因此,我們在這里以p<0.05為閾值進(jìn)行后續(xù)的復(fù)現(xiàn)。 新建一個EXCEL表格,命名為“韋恩圖”,并將上述篩選得到的基因名稱復(fù)制粘貼到第一列。 用同樣方法粘貼AMI的GSE66360數(shù)據(jù)集篩選結(jié)果,最后得到的結(jié)果如下: 保存該文件。 接下來我們利用我們的仙桃學(xué)術(shù)進(jìn)行可視化。 進(jìn)入生信工具,選擇“基礎(chǔ)繪圖”——“韋恩圖”模塊,點擊上傳文件,上傳我們剛剛整理好的結(jié)果,之后點擊確認(rèn)。 仙桃學(xué)術(shù)提供了結(jié)果的幾種保存形式,可以按照自己的需要進(jìn)行保存。 由于我們下一步還要對差異基因進(jìn)行富集分析,在這里,我們還需要下載一下Excel格式表格。 Figure 5-8交集基因的GO和KEGG結(jié)果富集分析 打開我們上一步得到的結(jié)果文件: 選擇交集這一列,新建一個文檔進(jìn)行保存。 打開生信工具,選擇“功能聚類(圈)”——“GO|KEGG”——“GO|KEGG富集分析”模塊,上傳我們剛剛整理好的文檔,在右側(cè)富集分析中我們先選擇GO:BP(也就是我們的Fig5),最后點擊確認(rèn)。 得到富集分析結(jié)果如下: 點擊保存結(jié)果,保存結(jié)果名稱為GO_BP。 修改富集分析參數(shù)位置的條目,我們可以依次得到GO_BP、GO_CC、GO_MF和KEGG的結(jié)果。 進(jìn)入“GO|KEGG可視化”模塊,就可以看到我們之前保存的結(jié)果啦。在這里我們?nèi)匀灰訥O_BP結(jié)果為例進(jìn)行示范: 我們選擇GO_BP項目,其它參數(shù)暫時選擇默認(rèn),輸出結(jié)果如下: 我們可以看到目前結(jié)果和原文中的橫縱坐標(biāo)是相反的,我們可以在參數(shù)中進(jìn)行調(diào)整: 調(diào)整后結(jié)果如下: 點擊保存結(jié)果,我們將此結(jié)果保存。 用同樣方法輸出GO_CC、GO_MF以及KEGG的富集結(jié)果,分別保存。結(jié)果如下: 之后我們來看一下如何進(jìn)行拼圖: 雖然本文用了四張圖片依次展示了結(jié)果,但是大部分時候更常見的是將多張小圖拼成一個大圖,所以拼圖這一項技能我們也要加滿喲。 點擊上方“拼圖工具”,就可以看到我們之前保存的四張圖片啦。 將圖片拖進(jìn)來,然后調(diào)整到自己想要的位置及大小即可: 工具目前還提供了自動吸附、輔助線等功能輔助我們進(jìn)行拼圖,可以進(jìn)行少許留白,最后點擊“PDF下載”就可以看到拼完的圖片了,字母工具也替我們加上啦。這張一張風(fēng)格統(tǒng)一、對齊又美觀的圖片就完成啦。 我們本次分析得到的結(jié)果和原文并不一致,因為我們所用的數(shù)據(jù)集較原文少了一個,但是文章的分析和操作思路還是一樣的,還是可以供大家參考學(xué)習(xí)我們的生信工具都可以做些什么。 Figure 9PPI蛋白互作網(wǎng)絡(luò) 蛋白互作網(wǎng)絡(luò)我們需要借助String數(shù)據(jù)庫,有持續(xù)關(guān)注我們推文復(fù)現(xiàn)的小伙伴們一定對于這個數(shù)據(jù)庫已經(jīng)不陌生啦。 登入String數(shù)據(jù)庫:https:/// 數(shù)據(jù)庫的主界面長這樣: 點擊“SEARCH”即可進(jìn)入分析界面。選擇“Multiple proteins”,將之前得到的交集基因輸入分子列表中,確定物種:人類,點擊SEARCH。 得到蛋白互作網(wǎng)絡(luò)圖。如果覺得得到的分子過多或過少可以點擊右下角的“More”和“Less”進(jìn)行調(diào)整。 在“Exports”模塊中可以輸出上面的圖片。 也可以保存TSV格式的結(jié)果“string_interactions.tsv”文件,然后在cytoscape軟件中進(jìn)一步美化: 打開cytoscape軟件,在左上角菜單欄File-Import-Network from File,導(dǎo)入我們剛剛下載的“string_interactions.tsv”文件。 點擊“OK”即可導(dǎo)入。 生成基本圖像: 想形成文章中所示的圓形的話,在Layout中點擊Circular Layout,就形成圓形啦。 Figure 10Hub基因的評分 用Excel打開我們之前在String數(shù)據(jù)庫下載的tsv格式結(jié)果: 統(tǒng)計node1中,每個蛋白的個數(shù): 打開Excel中的篩選功能,先選擇第一個蛋白,點擊確定。 表格左下角會顯示該蛋白出現(xiàn)的次數(shù): 依次進(jìn)行整理,最后結(jié)果如下圖所示: 按照節(jié)點個數(shù)降序排列。 選擇“插入”——“圖表”——“二維柱形圖”: 得到結(jié)果: Figure 11、12在NAFLD及AMI中,前6基因的ROC曲線 本文的最后兩張圖,作者展示了在前面分析得到的TOP6基因在兩種疾病中的診斷效能,我們一起來看一下: 我們以我們在復(fù)現(xiàn)過程中得到的前四個分子為例(FPR1、BCL2A1、MMP9、MNDA),在AMI的GSE66360數(shù)據(jù)集中進(jìn)行分析。 首先,我們下載GSE66360的表達(dá)譜數(shù)據(jù): 用Excel打開: 新建一個文件,在表達(dá)譜文件中搜索“FPR1”,復(fù)制整行,并轉(zhuǎn)置到空白文件中,將四個基因表達(dá)譜整理如下: 在“結(jié)果報告下載”下載得到的壓縮包中,解壓后找到“樣本表格”文件,打開,如下圖所示: 整理表達(dá)數(shù)據(jù)及樣本表格中的分組結(jié)果,最后整理結(jié)果如下圖所示: 在仙桃工具中,“基礎(chǔ)繪圖”——“診斷性ROC曲線”模塊,上傳我們剛剛整理好的文件,點擊確認(rèn)。 就可以看到圖11的結(jié)果啦: 下拉即可看見的AUC結(jié)果表: 同時也提供了詳細(xì)的統(tǒng)計學(xué)結(jié)果描述供大家參考,感興趣的話大家也可以自行查看~ 好啦,到此為止,這篇文章我們就復(fù)現(xiàn)結(jié)束了,感覺這篇文章的新意在于將兩個非腫瘤疾病進(jìn)行了聯(lián)合分析,不知道是不是也能給大家?guī)硇碌乃悸泛蛦l(fā)呢? 醫(yī)學(xué)人體解剖手繪:科學(xué)與藝術(shù)交織的生命真實 收稿范圍廣泛的國人友好Q1區(qū)SCI雜志 老司機(jī)帶你使用ImageJ高效分析圖片 領(lǐng) 悟 科 研 優(yōu) 人 一 步 |
|