一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

重磅:GEO數(shù)據(jù)庫挖掘教程(4)一體化分析代碼(帶視頻 R代碼分享)

 tysdne 2019-10-31

前面三期的課程中,我們從GEO基礎(chǔ)知識、快速鎖定目標(biāo)數(shù)據(jù)以及R語言基礎(chǔ)這三個方面講解了GEO數(shù)據(jù)挖掘的背景知識,課后大家也都很積極地找到折耳貓小姐姐和小獵豹,提了很多的問題,最頻繁的提問就是:“何時出下一期”、“什么時候教數(shù)據(jù)分析”,可見大家的學(xué)習(xí)熱情都非常高漲,對GEO數(shù)據(jù)挖掘非常感興趣。今天,我們就來講GEO數(shù)據(jù)挖掘的終極教程。

眾所周知,GEO里面大部分是表達(dá)譜數(shù)據(jù),而表達(dá)譜的數(shù)據(jù)挖掘涉及眾多的分析方法和繁瑣的分析步驟,這里給大家做了一個大致的流程圖,以便大家有一個整體而全面的認(rèn)知。簡而言之,GEO的數(shù)據(jù)分析就分為兩大步驟:(1)從原始數(shù)據(jù)基因表達(dá)值,這里要經(jīng)過繁瑣的數(shù)據(jù)前處理過程;(2)從表達(dá)值功能分析差異基因/聚類/功能富集等)。下面我們就按部就班地進(jìn)行講解。

1

Step1:從原始數(shù)據(jù)到表達(dá)值

這一步驟是相對比較簡單、比較固定的流程,但是其在數(shù)據(jù)分析過程中的地位至~關(guān)~重~要!因?yàn)楹罄m(xù)所有的高級分析都是建立在表達(dá)值的基礎(chǔ)上,如果這里出了問題,那么后續(xù)所有分析都會產(chǎn)生極大的偏差。在GEO中,所有的data series除了上傳原始數(shù)據(jù)外,還會有一個已經(jīng)處理好的表達(dá)值矩陣,這個是GEO強(qiáng)制要求submitter在上傳過程中必須上傳的,就存儲在series matrix file中。我們在分析數(shù)據(jù)的時候,可以直接使用這個series matrix file作為表達(dá)值進(jìn)行后續(xù)的分析。

2

Step2:從表達(dá)值到功能分析

有了表達(dá)值以后,我們就可以“暢所欲為”了。常見的后續(xù)分析有:差異表達(dá)分析、層次聚類,主成分分析等,主要根據(jù)我們的分析目的來定。現(xiàn)在,我們來對他們進(jìn)行逐個講解。

a. 差異表達(dá)分析

這個分析相對較好理解,其實(shí)就是兩個不同分組之間基因表達(dá)值有差異的基因。一般通過兩個指標(biāo)去進(jìn)行篩選:Fold change(變化倍數(shù),簡稱FC),以及P value(P值)。常用的FC閾值為2,P value的閾值為0.05或者0.01。

b. 層次聚類分析

這個也是表達(dá)譜分析中的常用套路,其理論基礎(chǔ)是:基因之間存在共表達(dá),在表達(dá)譜上具有相似性的基因或樣本可能具有潛在的相關(guān)性。在聚類分析中,基因被看作是一個向量,通過元素與元素之間的距離,將不同的元素歸類。通過層次聚類,我們把表達(dá)譜相近似的基因或者樣本富集在一起,然后再對特定的基因進(jìn)行功能分析,或者對臨床樣本進(jìn)行表型的挖掘。

c. 主成分分析

Principle Component Analysis, PCA。屬于降維分析的一種,將樣本從輸入空間通過線性或非線性映射到一個低維空間,減少了后續(xù)步驟處理的計(jì)算量,當(dāng)降至三維以下時還可用于可視化技術(shù),從而發(fā)揮人在低維空間感知上的優(yōu)點(diǎn),發(fā)現(xiàn)數(shù)據(jù)集的空間分布、聚類性質(zhì)等結(jié)構(gòu)特征。PCA對于分析樣本的相關(guān)性具有自己獨(dú)到的優(yōu)勢。

好了,講了這么多原理,是不是覺得有點(diǎn)頭暈?zāi)X脹呢,大家可能會想:講了這么多,還沒有教我們怎么做,有什么用?

嗯~~那我就要放干貨了,各位請接招吧。為了方便大家對GEO數(shù)據(jù)進(jìn)行深入的分析挖掘,我們開發(fā)了一款高效、集成的數(shù)據(jù)分析流程,整合在一個R代碼中,大家只需輸入數(shù)據(jù)集的幾個相關(guān)編號即可。

我給這個代碼起了一個非常炫酷的名字:GEO Terminator。可能有點(diǎn)夸張,但是絕對實(shí)用。我們要做的就是到GEO找到你要分析的數(shù)據(jù),不知道怎么找的,請參見我們的上一篇(GEO數(shù)據(jù)庫挖掘(2)--快速鎖定目標(biāo)數(shù)據(jù)),輸入GSExxx,以及檢測平臺GPLxxx,自定義一下要分析的樣本表型,然后全選(Ctrl+A),運(yùn)行(Ctrl+Enter)即可。整個代碼運(yùn)行可能需要幾分鐘到十幾分鐘的時間,根據(jù)你的數(shù)據(jù)大小和網(wǎng)速快慢而定,最終結(jié)果是這樣的:

獵豹一出手,便知有沒有~。只需輸入幾個編號,所有分析全自動運(yùn)行,包括:(1)質(zhì)控箱線圖,(2)差異表達(dá)基因,(3)層次聚類熱圖,(4)差異表達(dá)火山圖,(5)主成分分析散點(diǎn)圖,囊括表達(dá)譜數(shù)據(jù)挖掘的所有基本分析。

相信大家都參加在線上或者線下的諸多收費(fèi)型培訓(xùn),這種技術(shù)含量超高的“黑科”的價格不菲,現(xiàn)在睜大雙眼,握緊水杯,科研貓正式宣布,免費(fèi)分享此代碼,惠及更多被科研折磨的脫毛的貓貓們~~

代碼免費(fèi)分享,

代碼免費(fèi)分享,

代碼免費(fèi)分享!

只要掃描下方二維碼

聯(lián)系“折耳貓”小姐姐

免費(fèi)獲取!

為了避免個別同學(xué)運(yùn)行中遇到問題,強(qiáng)迫癌晚期的小獵豹又給大家錄視頻嘍,教大家該如何運(yùn)行這個代碼,完成GEO的數(shù)據(jù)挖掘。

視頻操作

騰訊視頻地址:

https://v.qq.com/x/page/i08494wgw5o.html

如果你在操作過程中還是需要問題

點(diǎn)擊下方留言板留言

可直接聯(lián)系到小獵豹師兄哦~

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多

    东京热男人的天堂一二三区| 国产色偷丝袜麻豆亚洲| 国产精品制服丝袜美腿丝袜| 狠狠做五月深爱婷婷综合| 九九蜜桃视频香蕉视频| 亚洲一区二区久久观看| 国产精品日韩欧美第一页| 熟妇人妻av中文字幕老熟妇| 国产成人高清精品尤物| 欧美字幕一区二区三区| 黄片免费在线观看日韩| 老熟女露脸一二三四区| 福利新区一区二区人口| 中字幕一区二区三区久久蜜桃 | 国内胖女人做爰视频有没有| 草草夜色精品国产噜噜竹菊| 中文字幕中文字幕在线十八区| 亚洲欧美国产精品一区二区| 亚洲国产性生活高潮免费视频 | 精品久久久一区二区三| 绝望的校花花间淫事2| 九九热这里只有免费精品| 精品亚洲香蕉久久综合网| 又黄又硬又爽又色的视频 | 国产色第一区不卡高清| 日韩特级黄片免费在线观看| 精产国品一二三区麻豆| 儿媳妇的诱惑中文字幕| 午夜日韩在线观看视频| 九九久久精品久久久精品| 欧美激情视频一区二区三区| 精产国品一二三区麻豆| 三级理论午夜福利在线看| 日本不卡片一区二区三区| 精品欧美日韩一区二区三区| 日韩中文字幕有码午夜美女| 日韩在线视频精品视频| 精品欧美一区二区三久久| 欧美性高清一区二区三区视频| 久久福利视频在线观看| 麻豆国产精品一区二区|