Science – 第 3 页 – 沉舟侧畔 Blog

Biology Science

NGS检测体细胞突变数据分析几个要点

Written by springwood 2019年7月5日2024年8月5日 Leave a Comment

mapping

在参考基因组中可能会见到诸如 chr6_apd_hap1、chr1_gl000191_random这样的序列，把它们去掉！否则bwa在做mapping时会认为这些区域的reads匹配不唯一，把mapping quality定为0，导致后续无法发现相应区域内的变异位点，造成假阴性！

CNV

不用什么特殊的软件或pipeline，直接使用samtools bedcov target.bed tumor.bam normal.bam去计算每个目标区间的覆盖度，然后除一下看看比例就行（用LOG2转换一下更形象）

SV

推荐使用COSMOS，速度比较快（5000X的大panel大约40min），无需复杂的参数，直接表格式结果，取size值高的即可（即supporting reads数目）。注意每个SV事件会列出两行。

SNP与INDEL

为了组合单倍型，GATK4 Mutect2可以加上--max-mnp-distance参数（默认是1，可以增大比如20），但这不是万能的！拿到VCF结果之后根据坐标排序仔细核对！必要时用IGV确认一下。
FilterMutectCalls会添加很多过滤标签。一般采用排除法，把contamination、normal_artifact、weak_evidence、position 这些标签过滤掉即可。
INDEL存在位置滑移的问题，需要确定位于cDNA 3′ 端（可以用IGV核对一下，反正IDNEL不多）
–germline-resource 这个参数有时会带来一些假阴性（例如SNP正好落在里面），如果时间充裕可以去掉它再运行一次，看看有没有多出来位点

IT, Science

生信者的 Windows PC

Written by springwood 2015年9月20日2022年11月9日有 5 条评论

在过去的一年，历经波折，本以为要离开生信者行业，最后绕了一圈还是绕回来了。好在：博客不用改名了！ 🙂

在上研究生的五年期间，作为一个生信者，个人的工作 PC 安装了 Ubuntu Linux 操作系统，当时最直接的原因是不想用 WIndows 下丑陋的 putty 作为 SSH 客户端来连日连夜的工作。页面丑、中文支持不好、X 支持不好……反正是各种毛病。再加上当时刚接触 Linux，自然也想需要有一个能够自己操控的平台用于练习。于是，我就在那台 08 年的 HP PC 上连续用了 5 年 7 个版本的 Ubuntu：10.04、11.10、12.04、12.10、13.04、13.10、14.04，直到今年 6 月份毕业。

Ubuntu 作为一个大众化的 Linux 发行版相比于 Windows 来说确实有很多优点：上手容易 + 界面美观而又轻巧。但是，在 Ubuntu 上不能轻松地使用 QQ，也不能完整地使用 Office，最基本的办公成了最麻烦的问题。

一晃眼，5 年时间过去了，世界发生了翻天覆地的变化：Linux 热潮已大幅度消减，取代而之的是智能手机、移动 OS 的天下。我的观念也发生了翻天覆地的变化：办公的基础是软件，而非 OS。在 Windows 平台寻找 putty 等软件的替代品显然比在 Linux 平台寻找 QQ、Office 等软件的替代品要容易得多。从今年 7 月份入职以来，我重新使用 Win7 作为自己办公的 PC 平台。经过两个月来的摸索，终于搜出了一些合口味的工具软件，能够让生信人非常舒服地办公。

密码子的简并性

Written by springwood 2014年12月15日2026年1月20日有 1 条评论

“密码子简并”的概念在中学生物里就提过，即几个不同的密码子可以编码相同的氨基酸。但是密码子简并的规律之前却一直是模模糊糊的，趁这次刚完成类似的课题。趁热打铁总结一下：

首先，为了直观、方便地看密码子的简并，我们需要一张“环形密码子图”，而非通常教科书上的那种“方格形密码子表”。下面就是我常用的一张环形密码子图，它的核心由三个同心圆组成：由里到外分别表示第 1 位、第 2 位和第 3 位密码子，外圈是密码子编码的氨基酸及其理化特性。

利用 Trinity+IGV 将 BLAT 的结果可视化

Written by springwood 2013年1月28日2022年11月9日有 4 条评论

课题组经常需要验证某个（或某些）注释的内含子是否存在，于是就需要使用转录数据去 map 基因组。转录数据目前常用的有两类，一类是高通量测序的 RNA-seq，这种 Map 比较简单，使用 tophat 处理即可得到比对结果，然后用 IGV 就可以实现可视化。输入数据是参考基因组和比对结果（tophat 输出的是 bam 文件，在导入 IGV 之前记得把两个数据都用 samtools 做一下索引，否则速度慢得有你好受的……）

另一类是 EST，它们的序列比 RNA-seq 长一些，而且长度不等。这类 Map 主要是使用 BLAT 来完成。但是 BLAT 默认输出的 psl 格式的结果极其难读，更不用提可视化了。今天在网上找到了一个方法，利用 Trinity 里面的一个实用工具居然可以调用 BLAT 并产生 bam 格式的比对结果。特此记录一下。

Biology Science

从猴子到人

Written by springwood 2012年11月30日2024年4月10日有 6 条评论

最近需要做一个课题需要涉及到与人近缘的物种，以前脑子里模模糊糊的印象有大猩猩、黑猩猩、猩猩，究竟谁排前面谁排后面仍然是一头雾水。今天正好整理了一下。

首先是到 ensembl 物种页面上找，看到长得像人（猴子）的，就记下来，一共找到 7 个，然后把这些名字输入到 NCBI 的物种分类网站上，定出大致的先后顺序。不过给出的结果把人、大猩猩、黑猩猩并列了，于是再到 TIME TREE 网站上找人与各个物种的分歧时间，结果出来了：应该先是黑猩猩，再是大猩猩。而且，其他6个物种与人都有分歧时间的数据。

附图：（那些数字就是分歧时间，单位：百万年）

分类： Science