生物信息分析中的reads是什么

昵稱46988079 2020-01-12

展開全文

由于受目前測序水平的限制，基因組測序時需要先將基因組打斷成DNA片段，然后再建庫測序。reads（讀長）指的是測序儀單次測序所得到的堿基序列，也就是一連串的ATCGGGTA之類的，它不是基因組中的組成。不同的測序儀器，reads長度不一樣。對整個基因組進行測序，就會產生成百上千萬的reads。

測序得到的原始圖像數(shù)據(jù)經 base calling 轉化為序列數(shù)據(jù)，我們稱之為 raw data 或 raw reads ，結果以 fastq 文件格式存儲， fastq 文件為用戶得到的最原始文件，里面存儲 reads 的序列以及 reads 的測序質量。在 fastq 格式文件中每個 read 由四行描述：

@read ID
TGGCGGAGGGATTTGAACCC
+
bbbbbbbbabbbbbbbbbbb

Single-end(SE)測序：1個fastq文件
Pair-end(PE)測序：2個fastq文件分別存放read1和read2的數(shù)據(jù)

每個序列共有4行，第1行和第3行是序列名稱(有的 fq 文件為了節(jié)省存儲空間會省略第三行“＋”后面的序列名稱)；第2行是序列；第4行是序列的測序質量，每個字符對應第2行每個堿基，第4行每個字符對應的 ASCII 值減去64，即為該堿基的測序質量值，比如 h 對應的 ASCII 值為104，那么其對應的堿基質量值是40。
堿基質量值范圍為0到40。下表為 Solexa 測序錯誤率與測序質量值簡明對應關系，具體計算公式如下：