mapping
在参考基因组中可能会见到诸如 chr6_apd_hap1
、chr1_gl000191_random
这样的序列,把它们去掉!否则bwa在做mapping时会认为这些区域的reads匹配不唯一,把mapping quality定为0,导致后续无法发现相应区域内的变异位点,造成假阴性!
CNV
不用什么特殊的软件或pipeline,直接使用samtools bedcov target.bed tumor.bam normal.bam
去计算每个目标区间的覆盖度,然后除一下看看比例就行(用LOG2转换一下更形象)
SV
推荐使用COSMOS,速度比较快(5000X的大panel大约40min),无需复杂的参数,直接表格式结果,取size值高的即可(即supporting reads数目)。注意每个SV事件会列出两行。
SNP与INDEL
- 为了组合单倍型,GATK4 Mutect2可以加上
--max-mnp-distance
参数(默认是1,可以增大比如20),但这不是万能的!拿到VCF结果之后根据坐标排序仔细核对!必要时用IGV确认一下。 - FilterMutectCalls会添加很多过滤标签。一般采用排除法,把contamination、normal_artifact、weak_evidence、position 这些标签过滤掉即可。
- INDEL存在位置滑移的问题,需要确定位于cDNA 3′ 端(可以用IGV核对一下,反正IDNEL不多)
- –germline-resource 这个参数有时会带来一些假阴性(例如SNP正好落在里面),如果时间充裕可以去掉它再运行一次,看看有没有多出来位点