GTF虽然比较古老,但确实有些软件(即使是最近的,例如SQANTI)会用到。转换的方法可能有各种各样,下面给出我实践过可行的方法:
一、GFF3转成GTF
gffread old.gff3 -T -o new.gtf
二、GTF转成GFF3
gt gtf_to_gff3 old.gtf >new.gff3
可能有人会问GFF3转成GTF为什么不用gt gff3_to_gtf
?主要问题在于这样子会把ID编号全部丢掉(我手头上的v1.5.8),所以不用了。
GTF虽然比较古老,但确实有些软件(即使是最近的,例如SQANTI)会用到。转换的方法可能有各种各样,下面给出我实践过可行的方法:
gffread old.gff3 -T -o new.gtf
gt gtf_to_gff3 old.gtf >new.gff3
可能有人会问GFF3转成GTF为什么不用gt gff3_to_gtf
?主要问题在于这样子会把ID编号全部丢掉(我手头上的v1.5.8),所以不用了。
PharmGKB有一个隐藏得很深的基因下载页面,在这里可以下载获得各种excel格式的Haploid定义表、功能表、频率表等。
URL是:https://www.pharmgkb.org/page/cyp2a6RefMaterials,把其中的cyp2a6替换成自己要的基因即可。不是每个基因都有,看运气。
最近(2020年以来),Aspera(ascp)无法从NCBI下载SRA了,但是可以用ENA下载。现在以(SRR10609482)为例:
访问https://www.ebi.ac.uk/ena/browser/view/SRR10609482,获取准确链接如下:
ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR106/082/SRR10609482/SRR10609482_1.fastq.gz
ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR106/082/SRR10609482/SRR10609482_2.fastq.gz
可以看出中间出现了一个奇怪的三位数082。
很多情况下,人类参考基因组上的碱基是major allele。但也有相当多的情况下,它们是minor allele,有时甚至是rare allele。
BRCA2基因上有一个变异位点编号为rs169547,为非同义突变。全世界98%的人都是等位基因C,只有2%的人是等位基因T。
但是参考基因组上的等位基因是T(GRCh37和38都是),这纯属侥幸。