Posted in: Biology Science

NGS检测体细胞突变数据分析几个要点

mapping

在参考基因组中可能会见到诸如 chr6_apd_hap1chr1_gl000191_random这样的序列,把它们去掉!否则bwa在做mapping时会认为这些区域的reads匹配不唯一,把mapping quality定为0,导致后续无法发现相应区域内的变异位点,造成假阴性!

CNV

不用什么特殊的软件或pipeline,直接使用samtools bedcov target.bed tumor.bam normal.bam去计算每个目标区间的覆盖度,然后除一下看看比例就行(用LOG2转换一下更形象)

SV

推荐使用COSMOS,速度比较快(5000X的大panel大约40min),无需复杂的参数,直接表格式结果,取size值高的即可(即supporting reads数目)。注意每个SV事件会列出两行。

SNP与INDEL

  1. 为了组合单倍型,GATK4 Mutect2可以加上--max-mnp-distance参数(默认是1,可以增大比如20),但这不是万能的!拿到VCF结果之后根据坐标排序仔细核对!必要时用IGV确认一下。
  2. FilterMutectCalls会添加很多过滤标签。一般采用排除法,把contamination、normal_artifact、weak_evidence、position 这些标签过滤掉即可。
  3. INDEL存在位置滑移的问题,需要确定位于cDNA 3′ 端(可以用IGV核对一下,反正IDNEL不多)
  4. –germline-resource 这个参数有时会带来一些假阴性(例如SNP正好落在里面),如果时间充裕可以去掉它再运行一次,看看有没有多出来位点

Posted in: IT, Science

图灵的“停机问题”

资料来自:科普书《复杂》和知乎网站

假设存在这么一个“停机程序”,不管它是怎么实现的,但是它能够回答“停机问题”:它接受一个“程序”和一个“输入”,然后判断这个“程序”在这个“输入”下是否能给出结果:

def is_halt(program, input) -> bool:
  # 返回 True  如果 program(input) 会返回
  # 返回 False 如果 program(input) 不返回
Posted in: Biology Science

生信者的 Windows PC

在过去的一年,历经波折,本以为要离开生信者行业,最后绕了一圈还是绕回来了。好在:博客不用改名了! 🙂

在上研究生的五年期间,作为一个生信者,个人的工作 PC 安装了 Ubuntu Linux 操作系统,当时最直接的原因是不想用 WIndows 下丑陋的 putty 作为 SSH 客户端来连日连夜的工作。页面丑、中文支持不好、X 支持不好……反正是各种毛病。再加上当时刚接触 Linux,自然也想需要有一个能够自己操控的平台用于练习。于是,我就在那台 08 年的 HP PC 上连续用了 5 年 7 个版本的 Ubuntu:10.04、11.10、12.04、12.10、13.04、13.10、14.04,直到今年 6 月份毕业。

Ubuntu 作为一个大众化的 Linux 发行版相比于 Windows 来说确实有很多优点:上手容易 + 界面美观而又轻巧。但是,在 Ubuntu 上不能轻松地使用 QQ,也不能完整地使用 Office,最基本的办公成了最麻烦的问题。

一晃眼,5 年时间过去了,世界发生了翻天覆地的变化:Linux 热潮已大幅度消减,取代而之的是智能手机、移动 OS 的天下。我的观念也发生了翻天覆地的变化:办公的基础是软件,而非 OS。在 Windows 平台寻找 putty 等软件的替代品显然比在 Linux 平台寻找 QQ、Office 等软件的替代品要容易得多。从今年 7 月份入职以来,我重新使用 Win7 作为自己办公的 PC 平台。经过两个月来的摸索,终于搜出了一些合口味的工具软件,能够让生信人非常舒服地办公。

Posted in: Biology Science

密码子的简并性

“密码子简并”的概念在中学生物里就提过,即几个不同的密码子可以编码相同的氨基酸。但是密码子简并的规律之前却一直是模模糊糊的,趁这次刚完成类似的课题。趁热打铁总结一下:

首先,为了直观、方便地看密码子的简并,我们需要一张“环形密码子图”,而非通常教科书上的那种“方格形密码子表”。下面就是我常用的一张环形密码子图,它的核心由三个同心圆组成:由里到外分别表示第 1 位、第 2 位和第 3 位密码子,外圈是密码子编码的氨基酸及其理化特性。

Posted in: Biology Science

利用 Trinity+IGV 将 BLAT 的结果可视化

课题组经常需要验证某个(或某些)注释的内含子是否存在,于是就需要使用转录数据去 map 基因组。转录数据目前常用的有两类,一类是高通量测序的 RNA-seq,这种 Map 比较简单,使用 tophat 处理即可得到比对结果,然后用 IGV 就可以实现可视化。输入数据是参考基因组和比对结果(tophat 输出的是 bam 文件,在导入 IGV 之前记得把两个数据都用 samtools 做一下索引,否则速度慢得有你好受的……)

另一类是 EST,它们的序列比 RNA-seq 长一些,而且长度不等。这类 Map 主要是使用 BLAT 来完成。但是 BLAT 默认输出的 psl 格式的结果极其难读,更不用提可视化了。今天在网上找到了一个方法,利用 Trinity 里面的一个实用工具居然可以调用 BLAT 并产生 bam 格式的比对结果。特此记录一下。

Posted in: Biology Science

从猴子到人

最近需要做一个课题需要涉及到与人近缘的物种,以前脑子里模模糊糊的印象有大猩猩、黑猩猩、猩猩,究竟谁排前面谁排后面仍然是一头雾水。今天正好整理了一下。

首先是到 ensembl 物种页面上找,看到长得像人(猴子)的,就记下来,一共找到 7 个,然后把这些名字输入到 NCBI 的物种分类网站上,定出大致的先后顺序。不过给出的结果把人、大猩猩、黑猩猩并列了,于是再到 TIME TREE 网站上找人与各个物种的分歧时间,结果出来了:应该先是黑猩猩,再是大猩猩。而且,其他6个物种与人都有分歧时间的数据。

附图:(那些数字就是分歧时间,单位:百万年)

Back to Top