聽生信群里大神閑聊,說他師弟做了個TCGA可視化工具,并且有志于各種數(shù)據(jù)庫的可視化,我就點開鏈接看了一下,不點就算了,一點開不得了,
本來我還舉了個例子:
就像我手上的錘子手機,千萬別用,用了就無法回頭。
但是我怕你們有些人會不適應(yīng)就率真地刪除了。
基于TCGA數(shù)據(jù)庫的網(wǎng)站有很多
但我最關(guān)心的功能只有三個(我是臨床醫(yī)生),差異表達,生存分析,相關(guān)性分析,這也是我篩選課題的一個方向
基因能夠差異表達是前提,沒有差異就不大可能用于診斷,也不適合當(dāng)做治療靶點
如果這個基因跟生存相關(guān),那就錦上添花了,臨床醫(yī)生搞科研其實很功利的,目的只有一個,能對患者有利。
通過基因的相關(guān)性分析找出他的朋友們,所謂物以類聚,看看這個人的朋友基本上就知道他是什么樣子的人。
有一個恐怖的傳說一直讓我后背冒汗心里起火:你的工資是跟你密切交往的6個朋友的平均值。
朋友居然重要到這個層面,所以那么多男女朋友分分合合都能理解了。
好了,不鬼扯,我們簡單介紹一下這個數(shù)據(jù)庫GEPIA(Gene Expression Profilling Interactive Analysis),翻譯一下應(yīng)該是
基因表達譜數(shù)據(jù)動態(tài)分析。
http://gepia./index.html
這個數(shù)據(jù)庫是北京大學(xué)開發(fā)的,沒有發(fā)文章,沒有發(fā)文章。
This tool is developed by Zefang Tang, Chenwei Li and Boxi Kang of Zhang Lab, Peking University.
我要學(xué)學(xué)寶劍叔叔右哉,先擬定一個讓你痛心的場景,藍后一步一步幫你解決, 這可能有助于我們直接解決問題。
假設(shè),
你現(xiàn)在已經(jīng)研二了,之前放浪形骸,行散神也散,現(xiàn)在木有課題,木有魚丸,明年要畢業(yè)了,藍后沒有人管你,沒有男女朋友,沒有大師兄,沒有沙師弟,你該怎么辦呢?
我們可以這樣,先找出某個特定癌癥中跟生存最相關(guān)的一串基因,再來慢慢篩選,刪選后再分析分析,就可以去灌水了,正好GEPIA有這個功能。
先點擊一下Survival Analysis,依次點擊
點擊list會出現(xiàn)下面的結(jié)果,可以查詢,可以翻頁,可以一個個復(fù)制粘貼用以前講的方法做GO分析,KEGG分析,互作分析。
這里我們直接選擇VADC1來看看,首先我們檢查一下這個基因分生存分析圖究竟是什么樣子,點擊它后跳轉(zhuǎn)成如下頁面
這時候相當(dāng)于進入了單基因入口,這里面給出了這個基因概括,說是線粒體膜的主要組成成分,也跟鐵的轉(zhuǎn)運相關(guān),我覺得都是熱門方向
如果這個領(lǐng)域你hold不住,就返回去再換一個基因點進來,最右邊圖我覺得很直觀,綠色代表VDAC1在正常組織的表達,紅色代表在腫瘤組織中的表達
可能這張圖看不出啥特殊,我舉個例子,
A基因幾乎只在乳腺表達,而且在乳腺癌中明顯高表達
B基因在全身廣泛表達,但是表達風(fēng)度不高,而在乳腺癌中表達顯著提高
好了頁面往下拉就可以看到這個基因在多個癌癥癌和癌旁的表達情況,我們可以看出他在乳腺癌中是高表達的
但是在其他許多癌癥中也明顯差異表達,這張表不會讓你漏掉其他癌癥(oncomine數(shù)據(jù)庫也有類似的效果),如果恰巧實驗室有人在做那個癌癥,你就可以跟他合伙搞一搞嘛。
因為你沒有人管,沒有大師兄,沒有沙師弟,你還有什么選擇?
此外,你是可以選擇呈現(xiàn)方式的,按照如下步驟操作可以得到漂亮的癌和癌旁的表達圖
點擊plot之后是這個樣子的,可以下載,可以直接放在文章里面,如果再挑選幾個癌癥一起作圖,也很方便。
返回一開始的界面,往下面翻一翻就會看到和這個基因表達類似的基因
哎呦歪,里面HNRNPAB就是核內(nèi)不均一核糖核蛋白家族成員,他可是要調(diào)控RNA的可變剪切的,許多LNCRNA作pulldown后就會拉下這個家族的成員
相關(guān)的文章從SCIENCE,CELL到ONCOTARGETS都有。
但是我們差點忘了進來是干什么的,我們是來看生存分析的。依次操作。
點擊plot就會得到下面的圖
這個圖真的是漂亮,一點都不含糊,好了這時候課題基本上就有苗頭了
VDAC1以暫時不知道的原因升高導(dǎo)致乳腺癌的發(fā)生,而乳腺癌患者高表達VADAC1的患者低生存。
而臨床醫(yī)生做科研不外乎診和療,就是對自己的工作有用。
當(dāng)然那個是轉(zhuǎn)化醫(yī)學(xué),很遙遠,在這之前就是基礎(chǔ)醫(yī)學(xué),很多人覺得基礎(chǔ)醫(yī)學(xué)沒有用,才不是呢。
從研究的角度來看:
我們試一試表觀遺傳有沒有影響,在UCSC數(shù)據(jù)庫中打開VDAC1(更為嚴(yán)謹?shù)淖龇ㄊ鞘褂萌橄俳M織的Chip-seq數(shù)據(jù)來分析,以后會寫ENCODE數(shù)據(jù)庫),我的媽呀,他的啟動子區(qū)域這么洶涌澎湃的H3K27ac修飾(這個基因的轉(zhuǎn)錄方向是從右到左的,所以啟動子在右邊),說明他的表達量本身就很高,不大可能是個壞分子,要么就是他在癌中突變了,要么就是他啟動子在癌癥中被過度激活了,我只是說可能
那么就會有個子課題產(chǎn)生:
H3K27ac組蛋白乙?;揎棿偈筕DAC1基因啟動子激活從而升高其表達
可以嘗試用生物信息學(xué)找到共表達的基因,之前已經(jīng)列出來了,再去預(yù)測他可能有什么功能,
也可以直接構(gòu)建慢病毒shRNA敲減后看看他的表型,
可是這不是你想要的,我們需要的是短平快,怎么辦呢?查文獻,
恰好我剛知道那個寫過Hallmars of Cancer這篇文章老爺爺Weinberg在nature發(fā)表了一篇文章,時間是2017年3月30日(對的我清明節(jié)沒有休息),他們找到了乳腺癌中一個新的抑癌基因
叫做LACTB,他能夠調(diào)控脂質(zhì)代謝抑制乳腺癌,LACTB是一個線粒體相關(guān)的蛋白,VDAC1也是一個線粒體相關(guān)的蛋白,他們之間可能有聯(lián)系么?
他們的聯(lián)系可能多種多樣,我們嘗試用現(xiàn)成的工具看一下,相關(guān)性分析
點擊plot試一下
居然他們還有相關(guān)性,歡天喜地慶豐收,畢業(yè)在望??墒撬麄兯麄儜?yīng)該表達呈負相關(guān)才合理呀,
這么來把這些結(jié)果整合到一起呢?VDAC1和LACTB相關(guān),抑制癌癥的產(chǎn)生,藍后不知怎么的他的啟動子就過度活化了
然后他就促發(fā)了癌癥?
我覺得自己都說服不了,我們還是換一種思路吧,用string數(shù)據(jù)庫來看一看
VDAC1居然跟BAX,BCL2L1相關(guān),表明其可能跟細胞的凋亡相關(guān)
好了最終的課題就是
H3K27ac修飾使VDAC1的啟動子過度乙?;龠M其表達從而抑制細胞凋亡促進乳腺癌的發(fā)展。
我覺得這時候真的可以搞一搞了,什么,你沒有shRNA?
不是說了跟別人合作么,你怎么又搞忘了。
藍后檢索一下VDAC1和乳腺癌的文章,發(fā)現(xiàn)少之又少,燃燒吧我的小宇宙。
這個過程中好像文獻閱讀并不重要,但是不要忘了LACTB是Weinberg老爺爺團隊的結(jié)果,所謂龍生九子,個個不同,但都是神獸呀。
LACTB在乳腺癌中的表達和調(diào)控還沒有研究呢,上面那個課題要是實在弄不好,就換這一個吧。
藍后,我覺得科研結(jié)果的呈現(xiàn)最基本的要求就是
自洽
四個字就是自圓其說,不要前后矛盾,你自己構(gòu)建了一個體系,一定要讓自己信服。
自己都不相信的東西還想讓別人相信,你把我當(dāng)什么了。