現(xiàn)在是大數(shù)據(jù)時代,數(shù)據(jù)越來越多了,數(shù)據(jù)庫也越來越多了,各種各樣的基因芯片數(shù)據(jù)庫、蛋白質(zhì)數(shù)據(jù)庫。。。沒完沒了。面對如此多的數(shù)據(jù)庫,我們不知挖那一個了。本來東西越來越多是好事情,但是卻不知道怎么樣選擇?真是令人頭痛呀!最近有很多人問我們,GEO、TCGA、Oncomine,我應(yīng)該選擇哪一個?哪一個比較簡單?哪一個比較好文章、哪一個能發(fā)高分文章?哪一個不用學(xué)編程?哪一個容易上手?因此,我們面對這些問題做一些總結(jié)。 GEO是當(dāng)今最大、最全面的公共基因表達(dá)數(shù)據(jù)資源。 適合研究方向:基本包括所有疾病,不是做腫瘤的小伙伴可以選這個。 難易程度:數(shù)據(jù)下載,整理都比較簡單,分析過程需要R編程,這里有點難度,總的來說難度一般。 發(fā)文的高度:只做純GEO數(shù)據(jù)挖掘的文章一般只能1-2分的文章,文章的分?jǐn)?shù)偏低。 TCGA由美國 National Cancer Institute(NCI) 和 National Human Genome Research Institute(NHGRI)于 2006 年聯(lián)合啟動的項目,收錄了33種癌癥基因組測序數(shù)據(jù)。 適合研究方向:僅限于腫瘤,不是研究腫瘤方向的小伙伴就不要選擇這個了。 難易程度:數(shù)據(jù)下載,整理都比較難,數(shù)據(jù)提取過程需要Perl或者Python、R,整一個分析過程需要R編程,整體來說,難度偏高。 發(fā)文的高度:只做純TCGA數(shù)據(jù)挖掘的文章能發(fā)3-5分的文章,發(fā)文章的分?jǐn)?shù)比較高,985、211名校博士畢業(yè)妥妥的。 Oncomine是大型腫瘤基因芯片數(shù)據(jù)庫,涵蓋65個基因芯片數(shù)據(jù)集、4700個芯片及4億8千萬個基因表達(dá)數(shù)據(jù),可用于分析基因表達(dá)差異、尋找離群值、預(yù)測共表達(dá)基因等。 適合研究方向:僅限于腫瘤,不是研究腫瘤方向的小伙伴就不要選擇這個了。 難易程度:各種各樣的分析,我們只要點擊鼠標(biāo)就可以了,不用任何編程,數(shù)據(jù)挖掘中最容易的一個。 發(fā)文的高度:只做純Oncomine數(shù)據(jù)挖掘的文章保底能發(fā)2-3分的文章,做一個基因家族的分析發(fā)3分以上的文章基本沒有問題,985、211名校博士畢業(yè)也是妥妥的,文章分?jǐn)?shù)會比TCGA低一點。 通過以上分析,可以看出,最易上手、最簡單的、發(fā)文最快就是Oncomine, 但是只適合研究腫瘤的同學(xué),難度最高和發(fā)文分?jǐn)?shù)最高的就是TCGA,同樣也只適合研究腫瘤方向的同學(xué),GEO發(fā)的分?jǐn)?shù)比較低,但是其他同學(xué)也可以做,例如研究糖尿病,心腦血管疾病等等。最后的選擇還是根據(jù)自己個人的情況進(jìn)行選擇。如果只是為了發(fā)文章,個人建議先學(xué)Ocomine數(shù)據(jù)挖掘。 分享結(jié)束 |
|