果子導(dǎo)讀: 我的導(dǎo)師曾經(jīng)跟我講過,10年前,CELL雜志每期一半以上都是在做轉(zhuǎn)錄調(diào)控。10年后,我們發(fā)現(xiàn),在很多雜志,這個(gè)現(xiàn)象依然存在。 如果已知轉(zhuǎn)錄因子,找他的靶基因,用ChIP-seq就可以搞定。 但是!如果反過來(lái),團(tuán)隊(duì)已經(jīng)確定所研究的基因,那么找出能夠調(diào)控他的分子,確實(shí)是個(gè)難題。 所幸!這篇來(lái)自嘉因小丫的帖子把這個(gè)事情一次性解決。 從此,國(guó)自然申請(qǐng)和課題設(shè)計(jì),如虎添翼,一日千里。 以下是正文: 《哪個(gè)蛋白質(zhì)調(diào)控我感興趣的基因?怎樣篩選?基于分析或?qū)嶒?yàn)的可行方案V2.1》一文講了找上游轉(zhuǎn)錄因子的策略:
motif系列答疑帖一步步幫你實(shí)現(xiàn)了Plan B
ChIP系列帶你實(shí)現(xiàn)Plan A,下個(gè)系列解決Plan C。
用上篇《Plan A詳細(xì)步驟1234》找到轉(zhuǎn)錄因子的小伙伴可以跳過本篇,直接看7,下篇講7。本文講56,適用于從幾十上百套ChIP-seq中找上游調(diào)控因子的情況。如果在嘉因公眾號(hào)講這篇,需要鋪墊太多基礎(chǔ)知識(shí),讀者也未必愿意看。思來(lái)想去,還是放到生信技能樹發(fā)布吧。 書接上文《Plan A詳細(xì)步驟1234》,如果您關(guān)注的細(xì)胞類型有幾十甚至幾百套ChIP-seq,用肉眼挨個(gè)看哪個(gè)track有peak,就要瘋掉了。這時(shí)就需要我們懂生信的出手了,批量下載,批量處理。跟2對(duì)應(yīng),分別講Cistrome和ENCODE這兩個(gè)數(shù)據(jù)庫(kù)的數(shù)據(jù)下載和處理。 本文要點(diǎn)
5. 從哪里下載數(shù)據(jù) Cistrome Cistrome Data Browser提供Batch download,能批量下載sample信息、peak.bed文件。 http:///db/#/ sample信息包括轉(zhuǎn)錄因子的名字、細(xì)胞類型、器官、細(xì)胞系、GEO ID。 peak.bed是ChIP-seq的峰所在的位置,它標(biāo)志著轉(zhuǎn)錄因子結(jié)合在這個(gè)位置,包括直接結(jié)合和間接結(jié)合,間接結(jié)合例如蛋白A跟蛋白B形成復(fù)合物再結(jié)合DNA。 目前Cistrome Data Browser不提供bigwiggle文件的下載,如果想要本地畫圖,用batch download提供的sample信息里的GEO ID下載原始數(shù)據(jù),參照它的流程自己處理,獲得bigwiggle。 ENCODE https://www.,提供fastq、bam、bigwig、peak.bed文件的下載。點(diǎn)擊Download: 獲得這些文件的地址,然后用紅色那行命令批量下載需要的文件。 ENCODE的peak不理想,所以只在這里下載bam文件,然后用Cistrome Data Browser的參數(shù)call peak。 6. 數(shù)據(jù)批量處理 先去UCSC找您感興趣的基因在基因組上的位置,http://genome./,例如TP53,TP53 (uc060aur.1) at chr17:7668402-7687538,整理成這樣的bed格式: chr17 7668402 7687538 中間不是空格,而是用鍵盤上的tab鍵輸入的制表符,存成文本文件,文件名:TP53.bed 用bedtools的slop算出基因上下游10kb的位置,http://bedtools./en/latest/content/tools/slop.html?highlight=slop,用手算也行。 用bedtools的intersect找TP53兩側(cè)10kb范圍跟peak.bed的交集,http://bedtools./en/latest/content/tools/intersect.html,判斷這套ChIP-seq有沒有peak落在基因附近。 如果某個(gè)轉(zhuǎn)錄因子的ChIP-seq數(shù)據(jù)在TP53附近有peak,就說(shuō)明這個(gè)轉(zhuǎn)錄因子在TP53附近結(jié)合,推測(cè)它參與了TP53的轉(zhuǎn)錄調(diào)控。 bedtools一次只能處理一個(gè)ChIP-seq的peak.bed。想批量處理所有的ChIP-seq文件,用shell實(shí)現(xiàn):
這樣就獲得了每個(gè)ChIP-seq在基因附近出現(xiàn)peak的數(shù)量,0表示沒有peak,1或更多表示有1個(gè)或多個(gè)peak出現(xiàn)在基因附近。先用shell提取peak數(shù)量這列:
再把這些文件合并到一起,方便查看,用R:
這樣就看到哪些ChIP-seq在基因附近有結(jié)合信號(hào)。 然后,就可以用bigwig畫自己想看的轉(zhuǎn)錄因子了。 另外,還可以回到上篇的2,cistrome有選擇功能,在有peak的ChIP-seq前面打勾,一起放到WashU Browser查看。 7. 怎樣展示結(jié)果 結(jié)果圖怎樣展示?參考這篇介紹的工具《找到了motif,怎樣展示結(jié)果?》。具體怎么畫?且聽下回分解。 |
|