一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

【直播】我的基因組61:scalpel軟件找indel

 健明 2021-07-14

那么現(xiàn)在正式的開始第61講

其實這次的call variation的軟件,不僅僅是找到SNV,也順便找到了indel,只是可能不太準確。一般業(yè)界的公認標準是 GATK的best practice,不過那個我已經(jīng)做了,現(xiàn)在來一點新的,我正好看到了這個scalpel軟件。

當然,為什么使用它,完全是隨心所欲,也可以選擇Pindel等其它軟件。我在這里只是為了秀一個軟件的用法,生信工程師該如何持續(xù)學(xué)習(xí)。

Scalpel is available here: http://scalpel./

文章:

 http://www./nmeth/journal/v11/n10/full/nmeth.3069.html

軟件說明書寫的也比較詳細:http://scalpel./manual.html

他提供了3種情況的找INDELs變異,我目前需要的就是對我的全基因組測序數(shù)據(jù)來找,所以用single模式。

為了節(jié)省對計算資源的消耗,作者建議我單獨對每條染色體分別處理。

軟件安裝是:

  1. ## Download and install Scalpel

  2. cd ~/biosoft

  3. mkdir Scalpel && cd Scalpel

  4. wget [url]https://downloads./project/scalpel/scalpel-0.5.3.tar.gz[/url]

  5. tar zxvf scalpel-0.5.3.tar.gz

  6. cd scalpel-0.5.3

  7. make

  8. ~/biosoft/Scalpel/scalpel-0.5.3/scalpel-discovery --help

  9. ~/biosoft/Scalpel/scalpel-0.5.3/scalpel-export --help

它需要自己指定--bed參數(shù)來選擇染色體運行,而且不是給一個chr1就可以了,需要指定染色體及其起始終止坐標:single region in format chr:start-end (example: 1:31656613-31656883),所以就比較考驗shell編程技巧啦!

制作 ~/reference/genome/hg19/hg19.chr.bed 這個文件,我就不多說了,前面我們已經(jīng)講過了!

01

02

03

04

05

06

07

08

09

10

11

12

13

14

15

16

17

18

19

20

21

22

chr10 1 135534747

chr11 1 135006516

chr12 1 133851895

chr13 1 115169878

chr14 1 107349540

chr15 1 102531392

chr16 1 90354753

chr17 1 81195210

chr18 1 78077248

chr19 1 59128983

chr1 1 249250621

chr20 1 63025520

chr21 1 48129895

chr22 1 51304566

chr2 1 243199373

chr3 1 198022430

chr4 1 191154276

chr5 1 180915260

chr6 1 171115067

chr7 1 159138663

chr8 1 146364022

chr9 1 141213431

區(qū)分染色體分別運行scalpel軟件代碼如下:

  1. cat ~/reference/genome/hg19/hg19.chr.bed |while read id

  2. do

  3. arr=($id)

  4. # arr=($a) will split the $a to $arr , ${arr[0]} ${arr[1]} ~~~, but ${arr[@]} is the whole array .

  5. # OLD_IFS="$IFS"

  6. # IFS=","

  7. # arr=($a)

  8. # IFS="$OLD_IFS"

  9. #arr=($a)用于將字符串$a分割到數(shù)組$arr ${arr[0]} ${arr[1]} ... 分別存儲分割后的數(shù)組第1 2 ... 項 ,${arr[@]}存儲整個數(shù)組。

  10. #變量$IFS存儲著分隔符,這里我們將其設(shè)為逗號 "," OLD_IFS用于備份默認的分隔符,使用完后將之恢復(fù)默認。

  11. echo ${arr[0]}:${arr[1]}-${arr[2]}

  12. date

  13. start=`date +%s`

  14. ~/biosoft/Scalpel/scalpel-0.5.3/scalpel-discovery --single \

  15. --bam ~/data/project/myGenome/fastq/bamFiles/jmzeng.filter.rmdup.bam \

  16. --ref ~/reference/genome/hg19/hg19.fa \

  17. --bed ${arr[0]}:${arr[1]}-${arr[2]} \

  18. --window 600 --numprocs 5 --dir ${arr[0]}

  19. end=`date +%s`

  20. runtime=$((end-start))

  21. echo "Runtime for ${arr[0]}:${arr[1]}-${arr[2]} was $runtime"

  22. done

最后得到的是每一條染色體一個vcf文件記錄著INDEL情況,暫時我還沒進行下一步處理。

這里我其實主要是想講如何用shell進行并行,查看原文可以看到我們的題目及視頻講解,關(guān)于這個軟件的并行使用!

順便預(yù)告一下,我在wegene測得的芯片數(shù)據(jù)已經(jīng)完成了全流程,下載是wegene專題。

還有,我們生信菜鳥團熱心群友指出了我前面用常染色體做祖源分析的不足之處,希望我可以繼續(xù)用Y染色體和線粒體DNA來做下去,給了我?guī)讉€網(wǎng)址,我估計要學(xué)習(xí)兩個月左右才能完全搞明白,畢竟是孤家寡人兼職學(xué)習(xí),有點累,有興趣的可以學(xué)習(xí)下面的內(nèi)容,跟我交流,我的email是jmzeng1314@163.com 

https:///tree/index.html

https://www./tree/

http://www./gbrowse2/gff/

http://www./tree/index.htm  

https://dna./mthap/   

文:Jimmy

圖文編輯:吃瓜群眾

    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多

    日本一本在线免费福利| 视频一区二区三区自拍偷| 欧美日本精品视频在线观看| 麻豆国产精品一区二区三区| 人妻少妇系列中文字幕| 狠狠干狠狠操亚洲综合| 国产成人精品在线一区二区三区| 国产精品熟女乱色一区二区| 国产乱久久亚洲国产精品| 国产日产欧美精品大秀| 日本婷婷色大香蕉视频在线观看| 午夜精品一区二区av| 区一区二区三中文字幕| 又黄又爽禁片视频在线观看| 亚洲欧美日韩在线看片| 日韩特级黄片免费在线观看| 国产真人无遮挡免费视频一区| 日韩精品人妻少妇一区二区| 91偷拍裸体一区二区三区| 国产精品一区二区有码| 日韩欧美亚洲综合在线| 亚洲一区二区三在线播放| 亚洲熟女一区二区三四区| 最近日韩在线免费黄片| 成人午夜激情免费在线| 久久久精品日韩欧美丰满| 亚洲精品黄色片中文字幕| 99国产精品国产精品九九| 深夜少妇一区二区三区| 国产乱人伦精品一区二区三区四区| 爽到高潮嗷嗷叫之在现观看| 好吊日在线观看免费视频 | 中文字幕在线区中文色 | 久久精品国产在热久久| 少妇肥臀一区二区三区| 欧美国产精品区一区二区三区| 色婷婷国产熟妇人妻露脸| 精品欧美国产一二三区| 深夜福利亚洲高清性感| 黄片美女在线免费观看| 欧美偷拍一区二区三区四区|