码迷,mamicode.com
首页 > 其他好文 > 详细

tabix 操作VCF文件

时间:2020-03-25 21:25:40      阅读:131      评论:0      收藏:0      [点我收藏+]

标签:shu   cts   from   net   下载地址   blank   解压缩   很多   难点   

tabix 可以对NGS分析中常见格式的文件建立索引,从而加快访问速度,不仅支持VCF文件,还支持BED, GFF,SAM等格式。

下载地址:

1 https://sourceforge.net/projects/samtools/files/tabix/
2 
3 ##安装
4 wget https://sourceforge.net/projects/samtools/files/tabix/tabix-0.2.6.tar.bz2
5 tar xjvf tabix-0.2.6.tar.bz2
6 cd tabix-0.2.6/
7 make

 

由于snp数量多,所以vcf文件也非常大,常见做法用bgzip进行压缩

1 bgzip  -f view.vcf

压缩之后,原本的view.vcf文件就变成了view.vcf.gz文件。压缩后缀为.gz, 如果想要解压缩,有以下两种用法

1 bgzip -d view.vcf.gz
2 gunzip view.vcf.gz

需要注意的是,两种算法虽然有相似之处,但是还是有本质区别的,在对VCF文件压缩时,不可以使用gzip来代替bgzip。

 

对于大型的VCF文件而言,如何快速访问其中的记录也是个难点。tabix可以对VCF文件构建索引,索引构建好之后,访问速度会快很多。tabix对VCF文件建立索引的用法如下

1 tabix -p vcf view.vcf.gz

 

 

注意输入的VCF文件必须是使用bgzip压缩之后的VCF文件,生成的索引文件为view.vcf.gz.tbi, 后缀为.tbi

构建好索引之后,可以快速的获取指定区域的记录,示例如下:

1 ## 获取位于11号染色体的SNP位点
2 tabix view.vcf.gz 11
3 
4 ## 获取位于11号染色体上突变位置大于或者等于2343545的SNP位点
5 tabix view.vcf.gz 11:2343545
6 
7 ## 获取位于11号染色体上突变位置介于2343540到2343596的SNP位点
8 tabix view.vcf.gz 11:2343540-2343596

 

 

 

 

 

 

 from

tabix操作VCF文件

 

 

-----END-----

tabix 操作VCF文件

标签:shu   cts   from   net   下载地址   blank   解压缩   很多   难点   

原文地址:https://www.cnblogs.com/zhanmaomao/p/12570237.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!