sam格式很精炼,几乎包含了比对的所有信息,我们平常用到的信息很少,但特殊情况下,我们会用到一些较为生僻的信息,关于这些信息sam官方文档的介绍比较精简,直接看估计很难看懂。 今天要介绍的是如何通过bam文件统计比对的indel和mismatch信息 首先要介绍一个非常重要的概念--编辑距离 定义:... ...
分类:
其他好文 时间:
2016-10-19 19:15:53
阅读次数:
209
最小编辑距离,动态规划经典题。 Given two words word1 and word2, find the minimum number of steps required to convert word1 to word2. (each operation is counted as 1 ...
分类:
其他好文 时间:
2016-09-28 01:23:20
阅读次数:
159
问题一:字符串s1与字符串s2之间的编辑距离为:将s1转换成s2的最少步数,转换过程可以进行的操作有: 1.插入一个字符 2.删除一个字符 3.替换一个字符 我们用f[i][j]表示s1[0,i]前i个字符组成的字符串,和s2[0,j]前j个字符组成的字符串,之间的编辑距离。若s[i-1]==s[j ...
分类:
其他好文 时间:
2016-09-17 00:14:10
阅读次数:
140
描述: Levenshtein 距离,又称编辑距离,指的是两个字符串之间,由一个转换成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。编辑距离的算法是首先由俄国科学家Levenshtein提出的,故又叫Levenshtein Distance。 ...
分类:
其他好文 时间:
2016-09-12 23:54:51
阅读次数:
218
在“文本比较算法Ⅰ——LD算法”中介绍了基于编辑距离的文本比较算法——LD算法。 本文介绍基于最长公共子串的文本比较算法——Needleman/Wunsch算法。 还是以实例说明:字符串A=kitten,字符串B=sitting 那他们的最长公共子串为ittn(注:最长公共子串不需要连续出现,但一定 ...
分类:
编程语言 时间:
2016-09-11 12:52:06
阅读次数:
633
问题描述: 题目描述Edit DistanceGiven two words word1 and word2, find the minimum number of steps required to convert word1 to word2. (each operation is counte ...
分类:
其他好文 时间:
2016-08-18 19:53:10
阅读次数:
220
http://norvig.com/spell-correct.html 基本原理就是概率统计,亮点是Python的各种特性作者用得出神入化,尤其是获取与word相距编辑距离为2的所有单词,先找出与word编辑距离为2的单词列表list,再找出list[i]对应的编辑距离为2的单词,这就是word编 ...
分类:
编程语言 时间:
2016-08-12 13:09:41
阅读次数:
727
题意:求出将两个字符串改成一样长度所能形成最大的相似度。 思路:这个可以说是编辑距离的一个变形,编辑距离最终状态时要两个字符串完全一致,这个就是要求长度一样,而且这个只允许插入“—”这一个字符。模仿编辑距离定义状态,dp[i][j]表示将第一个字符串的前i个字符与第二个字符串的前j个字符变为相同长度 ...
分类:
其他好文 时间:
2016-07-31 17:28:52
阅读次数:
145
UNIX系统下有一个行编辑器ed,它每次只对一行文本做删除一个字符、插入一个字符或替换一个字符三种操作。例如某一行的内容是“ABC”,经过把第二个字符替换成“D”、删除第一个字符、末尾插入一个字符“B”,这三步操作后,内容就变成了“DCB”。即“ABC”变成“DCB”需要经过3步操作,我们称它们的编辑距离为3。现在给你两个任意字符串(不包含空格),请帮忙计算它们的最短编辑距离。...
分类:
其他好文 时间:
2016-07-17 16:05:12
阅读次数:
303