作者:大魔獅 轉(zhuǎn)載請(qǐng)注明:解螺旋·臨床醫(yī)生科研成長(zhǎng)平臺(tái) 近年來(lái),測(cè)序技術(shù)飛速發(fā)展,在科研中更是十分普遍。大家一定發(fā)現(xiàn),隨便翻開(kāi)幾篇文章都能找到microarray、RNA-SEQ等熟悉的字眼,沒(méi)個(gè)高通量測(cè)序都不好意思說(shuō)自己搞了個(gè)課題! 然而涉及到這些生信方面的技術(shù),滿(mǎn)屏幕的代碼,看起來(lái)雜亂無(wú)章的數(shù)據(jù),是否讓你頭大呢?科研經(jīng)費(fèi)緊張的你是否沒(méi)有辦法涉足大數(shù)據(jù)科研呢?沒(méi)有過(guò)硬的關(guān)系網(wǎng),是否很難搞到臨床樣本做大數(shù)據(jù)分析呢? 沒(méi)關(guān)系,讓我來(lái)教你怎么利用自己的電腦,運(yùn)用NCBI的GEO數(shù)據(jù)庫(kù)、EXCEL等軟件,傻瓜式的進(jìn)行初級(jí)的大數(shù)據(jù)挖掘和分析,甚至找到一個(gè)2-3分的課題! 下面以癌癥為例,我們可以這么想:紫杉醇(paclitaxel)是一個(gè)常見(jiàn)的癌癥用藥,但是經(jīng)常因?yàn)槟退幮远?yīng)有的療效,那么其中的分子機(jī)制是否有研究的價(jià)值呢? 首先,打開(kāi)NCBI(https://www.ncbi.nlm./),如下圖選擇GEO Datasets,輸入paclitaxel cancer,點(diǎn)擊Search搜索。 出來(lái)以下結(jié)果: 一共105個(gè)是Series,也就是別人做了測(cè)序并發(fā)文章以后上傳到NCBI上的數(shù)據(jù),后面的是測(cè)序平臺(tái)、還有各樣本的信息,大家有興趣可以自己摸索以下,這里不涉及了。如果搜索到的結(jié)果較多,你也可以點(diǎn)擊頁(yè)面左側(cè)的series來(lái)只顯示我們需要的條目。我發(fā)現(xiàn)第七個(gè)搜索結(jié)果有點(diǎn)意思。 點(diǎn)進(jìn)去看看。 等我們閱讀完摘要和實(shí)驗(yàn)組的處理方法,確定該數(shù)據(jù)符合我們的需求,就可以點(diǎn)擊Analyze with GEO2R,進(jìn)入下面的頁(yè)面,利用NCBI提供的工具進(jìn)行數(shù)據(jù)分析。 接下來(lái),我們點(diǎn)擊Define groups,輸入兩個(gè)分組,分別是normal和resistant,并分別將普通的細(xì)胞系和耐藥細(xì)胞系點(diǎn)擊分入這兩組,分組完畢后,點(diǎn)擊save all results,獲取兩組之間的差異表達(dá)基因(稍等幾分鐘)。 得到如下的結(jié)果,把他們?nèi)x并復(fù)制,粘貼到記事本中,保存為result.txt。 接著我們將result.txt導(dǎo)入到EXCEL中(數(shù)據(jù)->自文本,選擇results.txt按默認(rèn)設(shè)置導(dǎo)入即可)。 待數(shù)據(jù)導(dǎo)入完成,我們?nèi)x數(shù)據(jù)表,點(diǎn)擊EXCEL的篩選功能,準(zhǔn)備對(duì)數(shù)據(jù)進(jìn)行篩選。 下一步,我們需要對(duì)差異表達(dá)基因的數(shù)據(jù)進(jìn)行進(jìn)一步的篩選。在這里,我們將p.value(p值,象征著差異的顯著性)和logFC(log2處理過(guò)的fold change值,象征著差異的倍數(shù))設(shè)定為: p.value<0.01, logFC<-2 or logFC>2。即差異表達(dá)非常顯著,并且差異表達(dá)在4倍或-4倍以上。具體做法參見(jiàn)下圖。 篩選p.value: 篩選logFC: 最后我們可以在EXCEL左下角的狀態(tài)欄看到,一共篩選出來(lái)46個(gè)條目。 讓我們回過(guò)頭來(lái)看篩選完的數(shù)據(jù)表GB_ACC這列可以看到很多類(lèi)似NM_開(kāi)頭的序號(hào),這些序號(hào)可以在NCBI上直接查詢(xún)到對(duì)應(yīng)的基因是什么,可以認(rèn)為是該基因的身份證。 我們嘗試一下,將第一個(gè)序號(hào)放到NCBI上搜索: 這就是一個(gè)在耐紫杉醇細(xì)胞中差異表達(dá)的一個(gè)基因。到這里,其實(shí)已經(jīng)可以作為一個(gè)課題的開(kāi)頭了,但是為了我們高(zhuang)大(da)上(bi)的追求,我們還有很多事情可以做。 給大家?guī)?lái)一個(gè)神奇的網(wǎng)站:DAVID (https://david./) 這是一個(gè)可以做GO分析,KEGG通路分析,基因功能的批量注釋等等非常實(shí)用的網(wǎng)站,操作很親(sha)民(gua)在這里我簡(jiǎn)單介紹一下用法。 點(diǎn)擊Functional Annotation進(jìn)入如下頁(yè)面。把我們剛才篩選出來(lái)的數(shù)據(jù)依下圖指示操作,然后點(diǎn)擊submit list提交并分析。 稍等片刻即可得到分析結(jié)果頁(yè)面: 在這個(gè)頁(yè)面里面我們可以看到許多跟我們篩選出來(lái)的基因相關(guān)的信息,由于篇幅關(guān)系,我只挑一個(gè)來(lái)做個(gè)示范,其他的大家可以自行學(xué)習(xí)。 我們點(diǎn)擊最下方的Functional Annotation Table按鈕,彈出窗口會(huì)出現(xiàn)一個(gè)表格(如果沒(méi)有彈出,請(qǐng)查看你的瀏覽器是否屏蔽了彈出窗口),里面囊括了大量我們篩選出來(lái)的基因的相關(guān)信息,具體參見(jiàn)下圖: 最近幾年長(zhǎng)鏈非編碼RNA(LncRNAs)研究很火熱,正好結(jié)果里面有一個(gè)long intergenic non-protein coding RNA 470(LINC00470),我們就把他抓住,看看有沒(méi)有可以挖的課題。 我們將LINC00470放到PUBMED上進(jìn)行搜索,發(fā)現(xiàn)沒(méi)有相關(guān)的文章! 那么下面怎么做,大家懂得,趕緊給老板寫(xiě)開(kāi)題報(bào)告吧,嘿嘿嘿。 誰(shuí)要想做的留個(gè)言,別悶聲發(fā)大財(cái)哦!發(fā)了SCI,記得請(qǐng)我吃雞腿啊。
|
|
來(lái)自: 解螺旋 > 《待分類(lèi)》