码迷,mamicode.com
首页 > 其他好文 > 详细

The meaning of the standard read group fields

时间:2014-05-29 23:04:38      阅读:409      评论:0      收藏:0      [点我收藏+]

标签:c   a   com   文件   数据   os   

用GATK call snp 的同学都会为繁琐的数据前期处理而苦恼,甚至放弃GATK 而用别的工具,对于bam文件,read group信息是必不可少的,别的软件

也许只需要一个sample name, 而在GATK中 除了SM(sample)是必须的之外 ,还需要read group ID, platform, library等。因为GATK 要利用这些信息来进行BQST,realign等等.

下面说一下我对这几个的理解。

首先说下sample , 就是样本,假如说你要研究某三个水稻品种(CS66, CS17, CS18)的snp,分别从每个水稻取样,提DNA,然后分为三个技术重复,分别建库用illumina去进行双端测序。

最后每个水稻品种都得到了三组fastq数据。这三组fastq和参考基因组进行比对,各得到三个bam文件,对于水稻品种CS66,有CS66-1.bam, CS66-2.bam, CS66-3.bam

每一个bam文件,它的SM:CS66。

PL(platform)是指你用的测序平台,现在一般都是illumina,所以你的所有bam文件,PL:illumina

library 我的理解是你的bam文件是属于哪个库,如果你每个重复都是单独建库,那么 CS66-1.bam, CS66-2.bam, CS66-3.bam 的LB 分别为 lib1, lib2, lib3。

最后是read grop ID (ID), 之前一直认为是每个lib是同一个ID,但是查了GATK论坛,发现它的解释是:‘ideally, this should be a globally unique identify across all

sequenceing data in the world, such as the illumina flowcell_lane name and number’ 所以, read group 应该和lane对应的,通常一般测序一个flowcell 有好几个lane,

每个lane能测好几个library, 对于同一个样,可能位于不同的lane, 也可能一个lane 有多个样。假如,CS66-1.bam 对应的数据实在lane1 测得, CS66-2.bam 也是在lane1,

CS66-3.bam 是在lane5测的。那我们就可以将这三个bam文件的readgroup ID 设置为: flowcell1.lane1, flowcell1,lane1, flowcell1.lane5。

by  freemao

FAFU.

free_mao@qq.com

The meaning of the standard read group fields,布布扣,bubuko.com

The meaning of the standard read group fields

标签:c   a   com   文件   数据   os   

原文地址:http://www.cnblogs.com/freemao/p/3758150.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!