sanger测序如果遇到indel杂合突变,两条allele的测序峰交织在一起会导致峰图几乎不可读。
Indigo是一个用于解决该问题的在线工具,可以直接上传abi文件,拆分两条allele。
但是,Indigo运行速度经常很慢,解决方法是使用它的命令行版本:tracy.
在参考基因组中可能会见到诸如 chr6_apd_hap1
、chr1_gl000191_random
这样的序列,把它们去掉!否则bwa在做mapping时会认为这些区域的reads匹配不唯一,把mapping quality定为0,导致后续无法发现相应区域内的变异位点,造成假阴性!
不用什么特殊的软件或pipeline,直接使用samtools bedcov target.bed tumor.bam normal.bam
去计算每个目标区间的覆盖度,然后除一下看看比例就行(用LOG2转换一下更形象)
推荐使用COSMOS,速度比较快(5000X的大panel大约40min),无需复杂的参数,直接表格式结果,取size值高的即可(即supporting reads数目)。注意每个SV事件会列出两行。
--max-mnp-distance
参数(默认是1,可以增大比如20),但这不是万能的!拿到VCF结果之后根据坐标排序仔细核对!必要时用IGV确认一下。在过去的一年,历经波折,本以为要离开生信者行业,最后绕了一圈还是绕回来了。好在:博客不用改名了! 🙂
在上研究生的五年期间,作为一个生信者,个人的工作 PC 安装了 Ubuntu Linux 操作系统,当时最直接的原因是不想用 WIndows 下丑陋的 putty 作为 SSH 客户端来连日连夜的工作。页面丑、中文支持不好、X 支持不好……反正是各种毛病。再加上当时刚接触 Linux,自然也想需要有一个能够自己操控的平台用于练习。于是,我就在那台 08 年的 HP PC 上连续用了 5 年 7 个版本的 Ubuntu:10.04、11.10、12.04、12.10、13.04、13.10、14.04,直到今年 6 月份毕业。
Ubuntu 作为一个大众化的 Linux 发行版相比于 Windows 来说确实有很多优点:上手容易 + 界面美观而又轻巧。但是,在 Ubuntu 上不能轻松地使用 QQ,也不能完整地使用 Office,最基本的办公成了最麻烦的问题。
一晃眼,5 年时间过去了,世界发生了翻天覆地的变化:Linux 热潮已大幅度消减,取代而之的是智能手机、移动 OS 的天下。我的观念也发生了翻天覆地的变化:办公的基础是软件,而非 OS。在 Windows 平台寻找 putty 等软件的替代品显然比在 Linux 平台寻找 QQ、Office 等软件的替代品要容易得多。从今年 7 月份入职以来,我重新使用 Win7 作为自己办公的 PC 平台。经过两个月来的摸索,终于搜出了一些合口味的工具软件,能够让生信人非常舒服地办公。
“密码子简并”的概念在中学生物里就提过,即几个不同的密码子可以编码相同的氨基酸。但是密码子简并的规律之前却一直是模模糊糊的,趁这次刚完成类似的课题。趁热打铁总结一下:
首先,为了直观、方便地看密码子的简并,我们需要一张“环形密码子图”,而非通常教科书上的那种“方格形密码子表”。下面就是我常用的一张环形密码子图,它的核心由三个同心圆组成:由里到外分别表示第 1 位、第 2 位和第 3 位密码子,外圈是密码子编码的氨基酸及其理化特性。
课题组经常需要验证某个(或某些)注释的内含子是否存在,于是就需要使用转录数据去 map 基因组。转录数据目前常用的有两类,一类是高通量测序的 RNA-seq,这种 Map 比较简单,使用 tophat 处理即可得到比对结果,然后用 IGV 就可以实现可视化。输入数据是参考基因组和比对结果(tophat 输出的是 bam 文件,在导入 IGV 之前记得把两个数据都用 samtools 做一下索引,否则速度慢得有你好受的……)
另一类是 EST,它们的序列比 RNA-seq 长一些,而且长度不等。这类 Map 主要是使用 BLAT 来完成。但是 BLAT 默认输出的 psl 格式的结果极其难读,更不用提可视化了。今天在网上找到了一个方法,利用 Trinity 里面的一个实用工具居然可以调用 BLAT 并产生 bam 格式的比对结果。特此记录一下。
最近需要做一个课题需要涉及到与人近缘的物种,以前脑子里模模糊糊的印象有大猩猩、黑猩猩、猩猩,究竟谁排前面谁排后面仍然是一头雾水。今天正好整理了一下。
首先是到 ensembl 物种页面上找,看到长得像人(猴子)的,就记下来,一共找到 7 个,然后把这些名字输入到 NCBI 的物种分类网站上,定出大致的先后顺序。不过给出的结果把人、大猩猩、黑猩猩并列了,于是再到 TIME TREE 网站上找人与各个物种的分歧时间,结果出来了:应该先是黑猩猩,再是大猩猩。而且,其他6个物种与人都有分歧时间的数据。
附图:(那些数字就是分歧时间,单位:百万年)