课题组经常需要验证某个(或某些)注释的内含子是否存在,于是就需要使用转录数据去 map 基因组。转录数据目前常用的有两类,一类是高通量测序的 RNA-seq,这种 Map 比较简单,使用 tophat 处理即可得到比对结果,然后用 IGV 就可以实现可视化。输入数据是参考基因组和比对结果(tophat 输出的是 bam 文件,在导入 IGV 之前记得把两个数据都用 samtools 做一下索引,否则速度慢得有你好受的……)
另一类是 EST,它们的序列比 RNA-seq 长一些,而且长度不等。这类 Map 主要是使用 BLAT 来完成。但是 BLAT 默认输出的 psl 格式的结果极其难读,更不用提可视化了。今天在网上找到了一个方法,利用 Trinity 里面的一个实用工具居然可以调用 BLAT 并产生 bam 格式的比对结果。特此记录一下。
这个小工具名字叫做 alignReads.pl,放在 Trinity 的 util 目录里面,要想让它调用 BLAT,还需要做一件事,把 samtools 软件包的 misc 目录也加入到系统路径里面,因为里面有一个叫做 psl2sam.pl 的程序,也会被用到。
在 Trinity 网站上有一个简单的使用说明。需要的参数有:
–single 你的 EST 序列。既然是 EST,自然是 single 而不是 paired
–seqType 序列类型(fa 或者 fq)。EST 序列一般都是 fa
–target 你的参考基因组。
–aligner 比对工具,填入 BLAT
-I (可选)设定 BLAT 的最长内含子长度,默认10000
基本上这几个就够用了。
程序运行结果会在你当前目录下生成 BLAT_out 目录,里面有 .bam(比对结果) 和 .bam.bai(索引) 文件,另外当前目录下面的基因组文件也生成了一个bai索引,把它们导入到 IGV 里面,就可以选择自己需要查看的区域了。
由于页面字体显示问题,请注意像 –single 这样的参数前面应该是两个短横线,不是一个
你好,可以具体指导下这个方法吗?我现在急需
@黄田红, 呃,你可以参考使用说明,文章里面有链接。
额,我的Trinity一直报错从头到尾
@lili, 现在基本不用Trinity了。这玩意儿已经过时