由于受目前測序水平的限制,基因組測序時需要先將基因組打斷成DNA片段,然后再建庫測序。reads(讀長)指的是測序儀單次測序所得到的堿基序列,也就是一連串的ATCGGGTA之類的,它不是基因組中的組成。不同的測序儀器,reads長度不一樣。對整個基因組進行測序,就會產生成百上千萬的reads。 raw data 或 raw reads ,結果以 fastq 文件格式存儲, fastq 文件為用戶得到的最原始文件,里面存儲 reads 的序列以及 reads 的測序質量。在 fastq 格式文件中每個 read 由四行描述:
每個序列共有4行,第1行和第3行是序列名稱(有的 fq 文件為了節(jié)省存儲空間會省略第三行“+”后面的序列名稱);第2行是序列;第4行是序列的測序質量,每個字符對應第2行每個堿基,第4行每個字符對應的 ASCII 值減去64,即為該堿基的測序質量值,比如 h 對應的 ASCII 值為104,那么其對應的堿基質量值是40。
Solexa測序錯誤率與測序質量值簡明對應關系: 高通量測序時,在芯片上的每個反應,會讀出一條序列,是比較短的,叫read,它們是原始數(shù)據(jù); 有很多reads通過片段重疊,能夠組裝成一個更大的片段,稱為contig;多個contigs通過片段重疊,組成一個更長的scaffold; 一個contig被組成出來之后,鑒定發(fā)現(xiàn)它是編碼蛋白質的基因,就叫singleton;多個contigs組裝成scaffold之后,鑒定發(fā)現(xiàn)它編碼蛋白質的基因,叫unigene. |
|
來自: 昵稱46988079 > 《生物信息學》