提到序列比對(duì),絕大多數(shù)戰(zhàn)友都會(huì)想到 BLAST,但 BLAST 的使用確實(shí)又是一個(gè)很大的難題, 因?yàn)樗墓δ鼙容^強(qiáng)悍, 里面涉及到的知識(shí)比較多, 而且比對(duì)結(jié)束后輸出的結(jié)果參數(shù) (指標(biāo))又很多。如果把 BLAST 的使用詳細(xì)的都講出來,我想我發(fā)帖發(fā)到明天也發(fā)不完,更何況我自己也不是完全懂得 BLAST 的使用。 所以我在這里也就“畫龍點(diǎn)睛”——以比對(duì)核酸序列為例來給大家介紹一下 BLAST 的使用, 也算是 BLAST 的入門課程吧。 請(qǐng)看帖的戰(zhàn)友好好體會(huì),如果你用心看,在看帖完畢之后 BLAST 的基本使用(包括其他序列的比對(duì))應(yīng)該沒有問題了。
1.打開BLAST 頁面,http://www.ncbi.nlm./BLAST/ 打開后如圖所示:
對(duì)上面這個(gè)頁面進(jìn)行一下必要的介紹:
BLAST 的這個(gè)頁面主體部分(左面)包括了三部分:BLAST Assembled Genomes、Basic BLAST、Specialized BLAST。相信大家可以看懂這三個(gè)短語的意思,我就不多說了;我要說的是,可以認(rèn)為這是三種序列比對(duì)的方法,或者說是 BLAST 的三條途徑。
第一部分 BLAST Assembled Genomes 就是讓你選擇你要比對(duì)的物種,點(diǎn)擊相應(yīng)物種之后即可進(jìn)入比對(duì)頁面。
第二部分 Basic BLAST 包含了 5 個(gè)常用的 BLAST,每一個(gè)都附有簡短的介紹。
第三部分 Specialized BLAST 是一些特殊目的的 BLAST,如 IgBLAST、SNP 等等,這個(gè)時(shí)候你就需要在 Specialized BLAST部分做出適當(dāng)?shù)倪x擇了。
總之, 這是一個(gè)導(dǎo)航頁面, 它的目的是讓你根據(jù)自己的比對(duì)目的選擇相應(yīng)的 BLAST 途徑。
下面以最基本的核酸序列比對(duì)來談一下 BLAST的使用, 期間也會(huì)捎帶著說一下其他序列比對(duì)的方法。
2. 點(diǎn)擊Basic BLAST部分的nucleotide blast 鏈接到一個(gè)新的頁面。打開后如圖所示:
介紹一下上述頁面:
Enter Query Sequence 部分是讓我們輸入序列的,你可以直接把序列粘貼進(jìn)去,也可以上傳序列,還可以選擇你要比對(duì)的序列的范圍(留空就代表要比對(duì)你要輸入的整個(gè)序列) 。Job Title 部分還可以為本次工作命一個(gè)名字。
Choose Search Set 部分是讓我們選擇要與目的序列比對(duì)的物種或序列種類(genome DNA、mRNA 等等) 。如果是人或老鼠的話,就可以直接選擇了如果是其他物種就要選擇“others”了,這時(shí)候網(wǎng)頁會(huì)主動(dòng)跳出一個(gè)下拉對(duì)話框和一個(gè)輸入式對(duì)話框,你可以分別選擇和輸入要跟你的序列比對(duì)的序列種類和物種。下面的 Entrez Query 可以對(duì)比對(duì)結(jié)果進(jìn)行適當(dāng)?shù)南拗啤?/span>
Program Selection 部分其實(shí)是讓我們選擇本次比對(duì)的精確度,種內(nèi)種間等等。
在 BLAST 按鈕下面有一個(gè)“Algorithm parameters” ,這是參數(shù)設(shè)置選項(xiàng),一般用戶使用不到此項(xiàng),所以它比較隱蔽,點(diǎn)擊,原網(wǎng)頁下方即可增加了 Algorithm parameters 的內(nèi)容。大部分戰(zhàn)友都用不到更改這里面的選項(xiàng),我也不多說了,有興趣的朋友可以自己研究一下。
3.依次填寫上述網(wǎng)頁必須部分,點(diǎn)擊 BLAST 按鈕后,出現(xiàn)如下界面(只截取其中一部分) :
出現(xiàn)的這個(gè)結(jié)果頁面信息含量非常大,如果我們用心觀察,還是可以發(fā)現(xiàn)其中的一些主要指標(biāo)的。列舉上圖也是為了給大家展示一下這些評(píng)價(jià)標(biāo)準(zhǔn)。其中 Description 部分推薦大家詳細(xì)看一下,另外說一下“E value” 這個(gè)指標(biāo)與其他指標(biāo)不同,它的數(shù)值越小相似程度越高,其他幾個(gè)(如 Totle score)都是數(shù)值越高相似度越高。
在這個(gè)圖示的表格下方就是具體的相似性的核酸序列了,還配合著各種參數(shù)的得分。