在二代測序之前,生物學(xué)家處理的生物數(shù)據(jù)大多數(shù)可以通過手工完成。因?yàn)閿?shù)據(jù)量不大,所以都能在文獻(xiàn)中附上自己用到的序列,NCBI也會(huì)每年出幾本紙質(zhì)版的數(shù)據(jù)集合。 但是二代測序之后,一切都改變了。原先可能只需要將1000多條序列與基因組比對,而現(xiàn)在卻要將成千上億序列比對到參考序列上。處理這類生物大數(shù)據(jù),對計(jì)算機(jī)性能和軟件算法都是一種挑戰(zhàn)。 在目前高通量測序領(lǐng)域,根據(jù)測序的文庫類型,可以分為DNA-Seq,RNA-Seq,ChIP-Seq等。DNA-Seq又可以繼續(xù)分為全基因組測序(WGS),全外顯子測序(WES),簡化基因組測序()如RAD-Seq)。 剛進(jìn)入這個(gè)領(lǐng)域,你一定會(huì)迷惘,不知所措,到底要學(xué)哪一個(gè)? 我的建議是學(xué)習(xí)RNA-Seq,尤其是差異基因座表達(dá)分析這一部分。因?yàn)樵谶@個(gè)方面,體系趨于成熟,大部分問題都能通過搜索引擎得到解答。因此我根據(jù)自己的學(xué)習(xí)感悟,將RNA-Seq 差異基因表達(dá)分析流程分為8步進(jìn)行介紹,從環(huán)境準(zhǔn)備開始,到從文獻(xiàn)中下載數(shù)據(jù),還有下載參考基因組和注釋信息,接著是序列比對,基因read計(jì)數(shù),在到差異基因表達(dá)分析,最后是富集分析。中間還需要進(jìn)行質(zhì)量控制以及可視化。 本圖來自于 RNA-Seq Data Analysis-A pratical approach (偽)從零開始學(xué)轉(zhuǎn)錄組(1):軟件安裝 (偽)從零開始學(xué)轉(zhuǎn)錄組(2):讀文章拿到測序數(shù)據(jù) (偽)從零開始學(xué)轉(zhuǎn)錄組(3):了解fastq的測序質(zhì)量 (偽)從零開始學(xué)轉(zhuǎn)錄組(4):了解參考基因組及基因注釋 (偽)從零開始學(xué)轉(zhuǎn)錄組(5) 序列比對 (偽)從零開始學(xué)轉(zhuǎn)錄組(6):read計(jì)數(shù) (偽)從零開始學(xué)轉(zhuǎn)錄組(7):差異基因表達(dá)分析 (偽)從零開始學(xué)轉(zhuǎn)錄組(8):富集分析 我希望這能幫到你,當(dāng)然這也是我學(xué)習(xí)的一次總結(jié)。順便解釋一下為什么這個(gè)系列是(偽)的。 第一: 只不是真正的零基礎(chǔ)教程,我預(yù)設(shè)了你有一定的Linux基礎(chǔ)。 第二:因?yàn)楹芏嗳藛栁易约毫慊A(chǔ)如何入門生物信息學(xué)呀?我覺得他想聽到的回答的句型應(yīng)該是 只要XXX, 就能XXX, 就好像一些《21天學(xué)會(huì)XXX》書名那樣。如何快速入門生物信息學(xué)的答案就是花上足夠長的時(shí)間學(xué)習(xí)。
因此,實(shí)踐這一個(gè)系列,你未必真的能順利入門生物信息學(xué)。你需要補(bǔ)習(xí)操作系統(tǒng)基礎(chǔ)(Linux),你需要掌握基礎(chǔ)的統(tǒng)計(jì)學(xué)知識(shí)(概率分布,統(tǒng)計(jì)推斷等),你還得掌握幾門編程語言,R,Python,Java, C等。 在編程語言上的掌握,不只是你會(huì)調(diào)用軟件包,還得根據(jù)語法結(jié)構(gòu)寫自己的腳本。當(dāng)然你還得保證你的 當(dāng)你看到目前那么多測序類型和種類繁多的數(shù)據(jù)分析方法,你肯定會(huì)慌亂,覺得自己無法掌握那么多的數(shù)據(jù)分析方法。請冷靜下來,安心把基礎(chǔ)打扎實(shí)。如果你不了解比對的原理,你就難以通過調(diào)整默認(rèn)參數(shù),用來適應(yīng)當(dāng)前的研究。如果你不懂得基礎(chǔ)的統(tǒng)計(jì)學(xué)原理,對照組和實(shí)驗(yàn)組都只有一個(gè)樣本,還企圖算出p值,當(dāng)然p值本身都是議論紛紛。還有富集分析,你要是不知道叫做基因本體論(GO),結(jié)果你都未必能看懂。 雖然高通量數(shù)據(jù)分析方法變化很快,但是先通過RNA-Seq入門生物信息,知道這是什么,能做什么,然后再把基礎(chǔ)打扎實(shí),那么就能以不變應(yīng)萬變。 如果你覺得再微信上看文章不舒服,我還建立了專門的GitHub用于更新我的文章和數(shù)據(jù)。https://github.com/xuzhougeng/Learn-Bioinformatics。 |
|