Posted in: Biology Science

利用 Trinity+IGV 将 BLAT 的结果可视化

课题组经常需要验证某个(或某些)注释的内含子是否存在,于是就需要使用转录数据去 map 基因组。转录数据目前常用的有两类,一类是高通量测序的 RNA-seq,这种 Map 比较简单,使用 tophat 处理即可得到比对结果,然后用 IGV 就可以实现可视化。输入数据是参考基因组和比对结果(tophat 输出的是 bam 文件,在导入 IGV 之前记得把两个数据都用 samtools 做一下索引,否则速度慢得有你好受的……)

另一类是 EST,它们的序列比 RNA-seq 长一些,而且长度不等。这类 Map 主要是使用 BLAT 来完成。但是 BLAT 默认输出的 psl 格式的结果极其难读,更不用提可视化了。今天在网上找到了一个方法,利用 Trinity 里面的一个实用工具居然可以调用 BLAT 并产生 bam 格式的比对结果。特此记录一下。

这个小工具名字叫做 alignReads.pl,放在 Trinity 的 util 目录里面,要想让它调用 BLAT,还需要做一件事,把 samtools 软件包的 misc 目录也加入到系统路径里面,因为里面有一个叫做 psl2sam.pl 的程序,也会被用到。

在 Trinity 网站上有一个简单的使用说明。需要的参数有:

–single 你的 EST 序列。既然是 EST,自然是 single 而不是 paired

–seqType 序列类型(fa 或者 fq)。EST 序列一般都是 fa

–target 你的参考基因组。

–aligner 比对工具,填入 BLAT

-I (可选)设定 BLAT 的最长内含子长度,默认10000

基本上这几个就够用了。

程序运行结果会在你当前目录下生成 BLAT_out 目录,里面有 .bam(比对结果) 和 .bam.bai(索引) 文件,另外当前目录下面的基因组文件也生成了一个bai索引,把它们导入到 IGV 里面,就可以选择自己需要查看的区域了。

由于页面字体显示问题,请注意像 –single 这样的参数前面应该是两个短横线,不是一个

Comments (4) on "利用 Trinity+IGV 将 BLAT 的结果可视化"

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注