利用一周多的時間,我們把最最基本的生信套路來講解了一遍。正好前幾天一個小伙伴拿了一篇相關(guān)文獻在咨詢問題。這里就拿這篇文獻來總結(jié)一下我們目前寫的這些東西。 這次我們來講解的這邊文獻是2019-10-12發(fā)表的OTT雜志上的一篇生信加少量實驗驗證的文章。實話實說,目前對于生信最最最基本的套路,如果沒有實驗驗證還是不好發(fā)文章的。所以一般都會加一些實驗驗證的。 這個文章的主要流程是個這樣的: 這里我們就基于文章的材料方法來說一下具體的內(nèi)容: 1 文章當中關(guān)于公共數(shù)據(jù)獲取部分提到了這些東西。 作者使用了GEO數(shù)據(jù)庫來進行候選數(shù)據(jù)篩選。關(guān)于GEO數(shù)據(jù)庫可見帖子:GEO數(shù)據(jù)庫介紹 (一) 作者這GEO里面找到了三個芯片,其中描述了這三個芯片的平臺。關(guān)于芯片平臺的描述可見帖子GEO數(shù)據(jù)集詳細介紹。 2 作者使用了GEO2R來進行數(shù)據(jù)的篩選,關(guān)于GEO2R的使用可見:GEO2R差異表達分析軟件 通過對三個數(shù)據(jù)集的篩選,作者通過Venn圖來進行取交集。至于為什么是取交集而不是一起分析,這個可以參考文章:GEO數(shù)據(jù)庫可能遇到的問題。 3 接著作者對差異表達的基因進行了富集分析,其中包括GO分析和KEGG分析。關(guān)于GO和KEGG的內(nèi)容,可見:GO分析和KEGG分析都是啥?。對于基因的富集分析,這個文章使用的是最常見的ORA的分析方法,具體關(guān)于基因富集的分類可以參考文章: 基因富集分析算法介紹 作者使用的富集分析的軟件是DAVID,這個軟件我們也吐槽過說,更新不及時,不是很好用,所以推薦是WebSestalt富集分析軟件,或者clusterprofiler。 4 作者通過STRING數(shù)據(jù)庫進行了蛋白相互作用分析預(yù)測,關(guān)于STRING數(shù)據(jù)庫的使用可以參考文章:STRING:蛋白相互作用數(shù)據(jù)庫的使用。 基于蛋白相互作用網(wǎng)絡(luò)的degree,關(guān)于如何來篩選核心基因這個可以參考:相互作用網(wǎng)絡(luò)分析基礎(chǔ)。作者篩選了前10的基因。文中作者使用的cytoscape來進行篩選的,但是其實通過excel也是得到結(jié)果的,這個可見:核心基因篩選:基于EXCEL。 5 再往下作者做的其實是TCGA的數(shù)據(jù)庫驗證,但是在材料方法里面沒寫。我們可以在結(jié)果當中具體的過程。 對于腫瘤研究,現(xiàn)在如果只是用GEO數(shù)據(jù)集分析,不用TCGA再看一下的話,都覺得不好意思,所以一般的腫瘤研究可能都會用到TCGA的驗證的。其目的也就類似于多加了一個數(shù)據(jù)集來增加結(jié)果準確性。但是對于TCGA有些腫瘤正常樣本很少。分析的結(jié)果可能偏差更大。文章使用的GEPIA的數(shù)據(jù)庫。這個數(shù)據(jù)庫對于查詢TCGA表達結(jié)果還是很好用的,簡單上手。 6 |
|