Biology Science

PharmGKB数据库中的基因下载页面

Written by springwood 2020年8月25日2022年11月9日 Leave a Comment

PharmGKB有一个隐藏得很深的基因下载页面，在这里可以下载获得各种excel格式的Haploid定义表、功能表、频率表等。

URL是：https://www.pharmgkb.org/page/cyp2a6RefMaterials，把其中的cyp2a6替换成自己要的基因即可。

全部的基因列表是：https://www.pharmgkb.org/page/pgxGeneRef

从ENA下载SRA

Written by springwood 2019年12月12日2024年8月5日 Leave a Comment

最近（2020年以来），Aspera（ascp）无法从NCBI下载SRA了，但是可以用ENA下载。现在以（SRR10609482）为例，官方教程在此：

版本问题

目前 Aspera（ascp）最新的是4.2.X版，但是它有个问题是不存在 .aspera/connect/etc/asperaweb_id_dsa.openssh 这个文件，所以需要找老版本。遗憾的是官网下载老版本需要注册登录账号，因此这里提供一个 URL 解析的结果，下载 3.11.2 版：

https://d3gcli72yxqn2z.cloudfront.net/connect/bin/ibm-aspera-connect-3.11.2.63-linux-g2.12-64.tar.gz

步骤

获取准确链接

访问https://www.ebi.ac.uk/ena/browser/view/SRR10609482，获取准确链接如下：

ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR106/082/SRR10609482/SRR10609482_1.fastq.gz
ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR106/082/SRR10609482/SRR10609482_2.fastq.gz

可以看出中间出现了一个奇怪的三位数082。

一些有意思的SNP

Written by springwood 2019年11月11日2022年11月9日 Leave a Comment

（一）参考基因组为minor allele

很多情况下，人类参考基因组上的碱基是major allele。但也有相当多的情况下，它们是minor allele，有时甚至是rare allele。

BRCA2基因上有一个变异位点编号为rs169547，为非同义突变。全世界98%的人都是等位基因C，只有2%的人是等位基因T。

但是参考基因组上的等位基因是T（GRCh37和38都是），这纯属侥幸。

sanger测序区分indel杂合子

Written by springwood 2019年8月21日2022年11月9日 Leave a Comment

sanger测序如果遇到indel杂合突变，两条allele的测序峰交织在一起会导致峰图几乎不可读。

Indigo是一个用于解决该问题的在线工具，可以直接上传abi文件，拆分两条allele。

但是，Indigo运行速度经常很慢，解决方法是使用它的命令行版本：tracy.

Biology Science

NGS检测体细胞突变数据分析几个要点

Written by springwood 2019年7月5日2024年8月5日 Leave a Comment

mapping

在参考基因组中可能会见到诸如 chr6_apd_hap1、chr1_gl000191_random这样的序列，把它们去掉！否则bwa在做mapping时会认为这些区域的reads匹配不唯一，把mapping quality定为0，导致后续无法发现相应区域内的变异位点，造成假阴性！

CNV

不用什么特殊的软件或pipeline，直接使用samtools bedcov target.bed tumor.bam normal.bam去计算每个目标区间的覆盖度，然后除一下看看比例就行（用LOG2转换一下更形象）

SV

推荐使用COSMOS，速度比较快（5000X的大panel大约40min），无需复杂的参数，直接表格式结果，取size值高的即可（即supporting reads数目）。注意每个SV事件会列出两行。

SNP与INDEL

为了组合单倍型，GATK4 Mutect2可以加上--max-mnp-distance参数（默认是1，可以增大比如20），但这不是万能的！拿到VCF结果之后根据坐标排序仔细核对！必要时用IGV确认一下。
FilterMutectCalls会添加很多过滤标签。一般采用排除法，把contamination、normal_artifact、weak_evidence、position 这些标签过滤掉即可。
INDEL存在位置滑移的问题，需要确定位于cDNA 3′ 端（可以用IGV核对一下，反正IDNEL不多）
–germline-resource 这个参数有时会带来一些假阴性（例如SNP正好落在里面），如果时间充裕可以去掉它再运行一次，看看有没有多出来位点

Biology Science

生信者的 Windows PC

Written by springwood 2015年9月20日2022年11月9日有 5 条评论

在过去的一年，历经波折，本以为要离开生信者行业，最后绕了一圈还是绕回来了。好在：博客不用改名了！ 🙂

在上研究生的五年期间，作为一个生信者，个人的工作 PC 安装了 Ubuntu Linux 操作系统，当时最直接的原因是不想用 WIndows 下丑陋的 putty 作为 SSH 客户端来连日连夜的工作。页面丑、中文支持不好、X 支持不好……反正是各种毛病。再加上当时刚接触 Linux，自然也想需要有一个能够自己操控的平台用于练习。于是，我就在那台 08 年的 HP PC 上连续用了 5 年 7 个版本的 Ubuntu：10.04、11.10、12.04、12.10、13.04、13.10、14.04，直到今年 6 月份毕业。

Ubuntu 作为一个大众化的 Linux 发行版相比于 Windows 来说确实有很多优点：上手容易 + 界面美观而又轻巧。但是，在 Ubuntu 上不能轻松地使用 QQ，也不能完整地使用 Office，最基本的办公成了最麻烦的问题。

一晃眼，5 年时间过去了，世界发生了翻天覆地的变化：Linux 热潮已大幅度消减，取代而之的是智能手机、移动 OS 的天下。我的观念也发生了翻天覆地的变化：办公的基础是软件，而非 OS。在 Windows 平台寻找 putty 等软件的替代品显然比在 Linux 平台寻找 QQ、Office 等软件的替代品要容易得多。从今年 7 月份入职以来，我重新使用 Win7 作为自己办公的 PC 平台。经过两个月来的摸索，终于搜出了一些合口味的工具软件，能够让生信人非常舒服地办公。

密码子的简并性

Written by springwood 2014年12月15日2024年4月10日有 1 条评论

“密码子简并”的概念在中学生物里就提过，即几个不同的密码子可以编码相同的氨基酸。但是密码子简并的规律之前却一直是模模糊糊的，趁这次刚完成类似的课题。趁热打铁总结一下：

首先，为了直观、方便地看密码子的简并，我们需要一张“环形密码子图”，而非通常教科书上的那种“方格形密码子表”。下面就是我常用的一张环形密码子图，它的核心由三个同心圆组成：由里到外分别表示第 1 位、第 2 位和第 3 位密码子，外圈是密码子编码的氨基酸及其理化特性。