Posted in: Biology Science, Science

从ENA下载SRA

最近(2020年以来),Aspera(ascp)无法从NCBI下载SRA了,但是可以用ENA下载。现在以(SRR10609482)为例,官方教程在此:

版本问题

目前 Aspera(ascp)最新的是4.2.X版,但是它有个问题是不存在 .aspera/connect/etc/asperaweb_id_dsa.openssh 这个文件,所以需要找老版本。遗憾的是官网下载老版本需要注册登录账号,因此这里提供一个 URL 解析的结果,下载 3.11.2 版:

https://d3gcli72yxqn2z.cloudfront.net/connect/bin/ibm-aspera-connect-3.11.2.63-linux-g2.12-64.tar.gz

第一步:获取准确链接

访问https://www.ebi.ac.uk/ena/browser/view/SRR10609482,获取准确链接如下:

ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR106/082/SRR10609482/SRR10609482_1.fastq.gz
ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR106/082/SRR10609482/SRR10609482_2.fastq.gz

可以看出中间出现了一个奇怪的三位数082

Posted in: Science

日本各主要城市与我国东部城市纬度对照表

按纬度从北到南顺序

=== 北海道 ===
稚内 45°24′ 哈尔滨
旭川 43°46′ 长春
札幌 43°03′ 延边
函馆 41°46′ 沈阳

=== 东北地方 ===
青森 40°48′ 葫芦岛
仙台 38°15′ 沧州
新潟 37°54′ 石家庄

=== 关东地方 ===
东京 35°41′ 鹤壁
横滨 35°26′ 日照

=== 中部地方 ===
名古屋 35°10′ 菏泽

=== 近畿地方 ===
京都 35°00′ 临沂
大阪 34°41′ 郑州

=== 中国地方 ===
广岛 34°23′ 商丘

=== 四国 ===
松山 33°50′ 亳州

=== 九州 ===
福冈 33°35′ 淮安
熊本 32°48′ 阜阳
鹿儿岛 31°35′ 无锡

=== 冲绳 ===
那霸 26°12′ 福州(略偏南)
宫古 24°46′ 泉州

Posted in: Biology Science, Science

一些有意思的SNP

(一)参考基因组为minor allele

很多情况下,人类参考基因组上的碱基是major allele。但也有相当多的情况下,它们是minor allele,有时甚至是rare allele。

BRCA2基因上有一个变异位点编号为rs169547,为非同义突变。全世界98%的人都是等位基因C,只有2%的人是等位基因T。

但是参考基因组上的等位基因是T(GRCh37和38都是),这纯属侥幸。

Posted in: Biology Science

NGS检测体细胞突变数据分析几个要点

一、mapping

在参考基因组中可能会见到诸如 chr6_apd_hap1chr1_gl000191_random这样的序列,把它们去掉!否则bwa在做mapping时会认为这些区域的reads匹配不唯一,把mapping quality定为0,导致后续无法发现相应区域内的变异位点,造成假阴性!

二、CNV

不用什么特殊的软件或pipeline,直接使用samtools bedcov target.bed tumor.bam normal.bam去计算每个目标区间的覆盖度,然后除一下看看比例就行(用LOG2转换一下更形象)

三、SV

推荐使用COSMOS,速度比较快(5000X的大panel大约40min),无需复杂的参数,直接表格式结果,取size值高的即可(即supporting reads数目)。注意每个SV事件会列出两行。

四、SNP与INDEL

  1. 为了组合单倍型,GATK4 Mutect2可以加上--max-mnp-distance参数(默认是1,可以增大比如20),但这不是万能的!拿到VCF结果之后根据坐标排序仔细核对!必要时用IGV确认一下。
  2. FilterMutectCalls会添加很多过滤标签。一般采用排除法,把contamination、normal_artifact、weak_evidence、position 这些标签过滤掉即可。
  3. INDEL存在位置滑移的问题,需要确定位于cDNA 3′ 端(可以用IGV核对一下,反正IDNEL不多)
  4. –germline-resource 这个参数有时会带来一些假阴性(例如SNP正好落在里面),如果时间充裕可以去掉它再运行一次,看看有没有多出来位点

Posted in: IT, Science

图灵的“停机问题”

资料来自:科普书《复杂》和知乎网站

假设存在这么一个“停机程序”,不管它是怎么实现的,但是它能够回答“停机问题”:它接受一个“程序”和一个“输入”,然后判断这个“程序”在这个“输入”下是否能给出结果:

def is_halt(program, input) -> bool:
  # 返回 True  如果 program(input) 会返回
  # 返回 False 如果 program(input) 不返回
Posted in: Biology Science

生信者的 Windows PC

在过去的一年,历经波折,本以为要离开生信者行业,最后绕了一圈还是绕回来了。好在:博客不用改名了! 🙂

在上研究生的五年期间,作为一个生信者,个人的工作 PC 安装了 Ubuntu Linux 操作系统,当时最直接的原因是不想用 WIndows 下丑陋的 putty 作为 SSH 客户端来连日连夜的工作。页面丑、中文支持不好、X 支持不好……反正是各种毛病。再加上当时刚接触 Linux,自然也想需要有一个能够自己操控的平台用于练习。于是,我就在那台 08 年的 HP PC 上连续用了 5 年 7 个版本的 Ubuntu:10.04、11.10、12.04、12.10、13.04、13.10、14.04,直到今年 6 月份毕业。

Ubuntu 作为一个大众化的 Linux 发行版相比于 Windows 来说确实有很多优点:上手容易 + 界面美观而又轻巧。但是,在 Ubuntu 上不能轻松地使用 QQ,也不能完整地使用 Office,最基本的办公成了最麻烦的问题。

一晃眼,5 年时间过去了,世界发生了翻天覆地的变化:Linux 热潮已大幅度消减,取代而之的是智能手机、移动 OS 的天下。我的观念也发生了翻天覆地的变化:办公的基础是软件,而非 OS。在 Windows 平台寻找 putty 等软件的替代品显然比在 Linux 平台寻找 QQ、Office 等软件的替代品要容易得多。从今年 7 月份入职以来,我重新使用 Win7 作为自己办公的 PC 平台。经过两个月来的摸索,终于搜出了一些合口味的工具软件,能够让生信人非常舒服地办公。

Back to Top