從早期序列比對(duì)工具Needleman-Wunsch、Smith-Waterman到后來的Clustal算法,以及近幾年的Muscle、MAFFT序列比對(duì)算法。算法在向更快、更精確、能處理更多數(shù)據(jù)這些方向進(jìn)行緩慢而有力的發(fā)展。常用的在線序列比對(duì)工具主要由EMBL-EBI提供,包括但不限于Needle, Water, Clustal Omega, Muscle, Mafft, T-coffee等,以及NCBI提供的blast2seq工具;常用的序列相似性搜索工具有NCBI提供的BLAST、UCSC提供的BLAT等。EMBL-EBI與NCBI同時(shí)期也開發(fā)了一套序列相似性搜索工具FASTA,然后最終沒能流行起來。BLAST一家獨(dú)大,BLAT依賴UCSC占據(jù)一點(diǎn)小市場(chǎng),F(xiàn)ASTA的親爹同時(shí)提供了FASTA及BLAST服務(wù),可能現(xiàn)在說FASTA人們只會(huì)想到FASTA文件格式吧。EMBL-EBI提供大量的對(duì)比工具在線服務(wù),并不代表其擁有這些工具的所有權(quán)。 按工具功能大致可以分為3類:配對(duì)序列比對(duì)工具,多序列比對(duì)工具以及序列相似性搜索工具。 配對(duì)序列比對(duì)是用來研究?jī)蓷l序列(核酸序列或者蛋白序列)之間功能、結(jié)構(gòu)或者進(jìn)化關(guān)系。 多序列比對(duì)工具當(dāng)然也支持配對(duì)序列比對(duì),不過更多的是用來比對(duì)3條及以上序列,研究序列之間是否同源以及序列間的進(jìn)化關(guān)系。 序列相似性搜索工具主要是在一個(gè)序列數(shù)據(jù)庫中查找一條序列,找出與查詢序列最相似的序列。 配對(duì)序列比對(duì)工具 工具集網(wǎng)址: https://www./Tools/psa/ 這些可能是史前比對(duì)工具了,現(xiàn)在估計(jì)沒有什么人在用了,可能也沒人聽過還有這樣的工具存在。但是他大爺畢竟是他大爺,如果想比對(duì)兩條序列全局情況,Needle仍是不錯(cuò)的選擇,至于Smith-Waterman算法,在許多二代比對(duì)算法里仍可見,比如bwa-sw算法,Minimap2計(jì)算overlap時(shí)使用的也是Smith-Waterman算法;Smith-Waterman也擁有CUDA版本程序。 Needle比對(duì)工具 以Needle工具為例進(jìn)行一下簡(jiǎn)單的演示,其提供了核酸及蛋白比對(duì)兩個(gè)版本,比對(duì)不同類型的序列需要選擇不同的工具。Needle是全局比對(duì)工具,將兩條序列全部?jī)?nèi)部進(jìn)行比對(duì)并展示。 1. 打開Needle核酸比對(duì)工具頁面 https://www./Tools/psa/emboss_needle/nucleotide.html 2. 輸入兩條需要比對(duì)的序列 一個(gè)文本框里輸入一條FASTA記錄,其他參數(shù)不需要調(diào)整。 3. 查看結(jié)果 Needle的結(jié)果看起來是非常友好的,類似于NCBI BLAST顯示結(jié)果, 多序列比對(duì)工具 工具集網(wǎng)址: https://www./Tools/msa/ 該主頁提供了多款多序列比對(duì)工具,其中Clustal Omega結(jié)果形式是全局比對(duì)形式,但是算法還是局部比對(duì)算法,不建議在分子進(jìn)化樹分析過程使用Clustal相關(guān)程序,因?yàn)槠渌俣燃皽?zhǔn)確度均遜色于下述的MAFFT及MUSCLE。 下表列出了常用的多序列比對(duì)工具,在平時(shí)學(xué)習(xí)或者工作中建議使用MAFFT或者M(jìn)USCLE進(jìn)行多序列比對(duì)。 MAFFT比對(duì)工具 MAFFT是2002年開發(fā)的一款快速的局部/全局多序列比對(duì)工具,與之相對(duì)的是2004年開發(fā)的MUSCLE多序列比對(duì)工具,在網(wǎng)頁使用過程中,兩者差異不明顯,但是MUSCLE在比對(duì)數(shù)百條、數(shù)千條序列時(shí),速度較慢,這時(shí)候使用MAFFT效果會(huì)好一點(diǎn)。 1. 打開MAFFT主頁 https://www./Tools/msa/mafft/ 2. 輸入自己想要進(jìn)行比對(duì)的多序列 支持2條以上序列比對(duì),目前EMBL-EBI提供的網(wǎng)頁版本MAFFT最大支持500條序列且文件大小不超過1MB(差不多1,000,000bp的堿基)。如果自己提交的文件較大,可以在提交時(shí)勾選Be notified by email。這樣在比對(duì)完成時(shí),EMBL-EBI會(huì)郵件通知你比對(duì)結(jié)果。 3. 查看結(jié)果 提交任務(wù),過一段時(shí)間后就可以查看到比對(duì)結(jié)果了。其中Phylogenetic Tree可以查看分子進(jìn)化樹。 不同序列比對(duì)工具對(duì)比 其他工具使用方式與MAFFT一致,相對(duì)于ClustalW/Clustal Omega,MAFFT及MUSCLE比對(duì)結(jié)果無計(jì)數(shù)。但是MAFFT及MUSCLE在處理INDEL時(shí),效果比ClustalW/Clustal Omega要好。 相同兩條序列不同軟件比對(duì)結(jié)果 可以很明顯的看出各種工具對(duì)INDEL的處理,這主要是不同工具使用算法不同有關(guān)。Clustal,Water及blast2seq,在遇到Gap及Gap持續(xù)延長(zhǎng)時(shí),比對(duì)分值線性下降,而其他幾種算法在遇到Gap及Gap持續(xù)延長(zhǎng)時(shí),比對(duì)分值會(huì)下降但不會(huì)低于0,不會(huì)線性下降。 序列相似性搜索工具 工具集網(wǎng)址: https://www./Tools/sss EMBL-EBI提供了FASTA及BLAST兩款序列相似性搜索工具,不過序列相似性工具還是使用NCBI的BLAST以及UCSC的BLAT比較好。 NCBI BLAST BLAST是目前最常用的生信工具之一,NCBI圍繞BLAST開發(fā)了大量的周邊工具,比如引物設(shè)計(jì)及特異性驗(yàn)證工具Primer-BLAST。 1.打開BLAST主頁 https://blast.ncbi.nlm./Blast.cgi 其提供了4款BLAST子工具,常用的是核酸BLAST以及蛋白BLAST,點(diǎn)擊核酸BLAST進(jìn)入工具內(nèi)部。 2. 選擇適合的參數(shù)進(jìn)行搜索 3. 搜索結(jié)果查看 有疑問可以點(diǎn)擊整個(gè)頁面右上角的HELP,進(jìn)行個(gè)人自助。 4. 圖形化瀏覽比對(duì)結(jié)果 這里又可以使用NCBI強(qiáng)大的基因組瀏覽功能了,可以添加自己想要的track進(jìn)行數(shù)據(jù)關(guān)聯(lián)展示,可惜好多人不太喜歡這個(gè)功能。 UCSC BLAT 1.打開BLAT主頁 https://genome./cgi-bin/hgBlat 2. 選擇合適參數(shù)進(jìn)行序列搜索 3. 搜索結(jié)果查看 詳細(xì)結(jié)果支持兩種查看方式:基因組瀏覽器以及文本形式?;蚪M瀏覽器形式可以查看全局比對(duì)情況,以及匹配區(qū)域在基因組中的位置、注釋等情況,文本形式可以詳細(xì)的查看比對(duì)結(jié)果。 4. 基因組瀏覽器查看比對(duì)結(jié)果 5. 文本形式比對(duì)結(jié)果 BLAT更多體現(xiàn)的是一個(gè)定位功能,將查詢序列定位到目標(biāo)基因組上,而BLAST更加的是搜索功能,從序列數(shù)據(jù)庫中搜索出與查詢序列接近的目標(biāo)序列。 總結(jié): 對(duì)于鏈相反的序列比對(duì)建議使用blast2seq; 對(duì)于序列相似,想要查看序列全局比對(duì)的建議使用needle及MAFFT; 對(duì)于多條序列比對(duì),建議使用MAFFTT; 實(shí)在特別想要Clustal計(jì)數(shù)形式結(jié)果,建議使用Clustal Omega或者Needle; 想做多條序列分子進(jìn)化樹,建議MAFFT; 未知序列搜索,想要研究序列功能可以使用blast,速度稍慢,但搜索庫數(shù)據(jù)量大; 某一物種未知序列定位,建議使用blat,速度快。 |
|