码迷,mamicode.com
首页 > 其他好文 > 详细

reads k-mer scaffold 【知乎】

时间:2017-08-06 18:04:28      阅读:922      评论:0      收藏:0      [点我收藏+]

标签:div   作者   不同   bsp   级别   air   筛选   商业   一段   

基因簇,一群合在一起能干活的基因。基因家族,干相同活的基因们。
acaffold,脚手架的结构。motif,一个分子中一段貌似重要的部分。

 

作者:刘金韬
链接:https://www.zhihu.com/question/37596636/answer/206516478
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

简单回答一下什么是scaffold。上边华中农大那个说的不算错,但是很模糊。read指的是直接测序得到的,目前普遍的二代测序是PE150,也就是双端各测150个碱基。这150个碱基是连续的,但是两个150之间的距离是不知道的,因为现在二代测序普遍建350bp的插入片段文库,所以测不通。由于350只是跑胶的时候的一个大概的范围,所以不能认为这两个150之间就一定是50个碱基,可能是48,也可能是52.这对重测序来说没有影响,但是denovo组装的时候,这个距离就比较麻烦了。

利用read之间的重叠区域,可以拼装出contig。具体算法确实很复杂,简单说,就是把这150bp的短read继续打断,叫K-mer。K是个数字,比如19。19-mer就是一个19个碱基的小的DNA片段。具体在组装的时候要用19-mer下的各个小片段去“碰”,看看哪两个小片段之间有18个碱基是重叠的,这样就拼成了一个20碱基的片段。(斜体部分我不太确定是不是这样,大概是,欢迎指正)。以此类推,各个小片段互相之间就可以再组装的更长一些。一般来说,组装的时候要试验不同的K值,看哪个K值下组装的效果最好。需要注意的是,contig是依靠片段之间序列重叠的部分来组装的

scaffold直接翻译过来是脚手架。这个概念和“测末端”有关。简单地说,你测序的时候筛选到了20kb长的片段,但是一代和二代都测不通,只能测两端很短的序列。这时候你有了这个20kb的片段两端的序列,以及这两段序列之间的距离(20k)。利用这种位置关系,可以将这两端序列所在的contig联系起来,确定这俩contig之间的顺序和距离。利用这种组装方法得到的更高级别的(或者说更长)的片段,就是scaffold。scaffold是利用各种手段确定contig之间顺序和距离之后得到的组装结果。这些手段包括但不限于mate-pair文库、fosmid文库、遗传图谱、光学图谱、Hi-C。scaffold内部是有洞的(gap),原因是,测末端的时候中间测不到(如果测到了,就直接装成contig了。重复区域例外,测到了你也不知道重复了多少次,除非直接测通)。

纯三代测序应该是没有scaffold这个概念的,只有contig。

 

reads k-mer scaffold 【知乎】

标签:div   作者   不同   bsp   级别   air   筛选   商业   一段   

原文地址:http://www.cnblogs.com/cqm1023/p/7295195.html

(1)
(1)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!