课题组经常需要验证某个(或某些)注释的内含子是否存在,于是就需要使用转录数据去 map 基因组。转录数据目前常用的有两类,一类是高通量测序的 RNA-seq,这种 Map 比较简单,使用 tophat 处理即可得到比对结果,然后用 IGV 就可以实现可视化。输入数据是参考基因组和比对结果(tophat 输出的是 bam 文件,在导入 IGV 之前记得把两个数据都用 samtools 做一下索引,否则速度慢得有你好受的……)
另一类是 EST,它们的序列比 RNA-seq 长一些,而且长度不等。这类 Map 主要是使用 BLAT 来完成。但是 BLAT 默认输出的 psl 格式的结果极其难读,更不用提可视化了。今天在网上找到了一个方法,利用 Trinity 里面的一个实用工具居然可以调用 BLAT 并产生 bam 格式的比对结果。特此记录一下。