码迷,mamicode.com
首页 > 编程语言 > 详细

KMP字符串匹配算法

时间:2018-10-10 22:07:59      阅读:193      评论:0      收藏:0      [点我收藏+]

标签:参考   第一个   搜索   除了   ble   就是   abc   字符串匹配算法   target   

去年冬天就接触KMP算法了,但是听的不明不白,遇到字符串匹配的题我大都直接使用string中的find解决了,但今天数据结构课又讲了一下,我觉得有必要再来回顾一下。之前看过很多关于KMP的博客,有很多虽然很好,但是要么太专业,要么很难想象,这篇博客用了大量的图示例子来说明,主要在于启发,后面给出代码说明。

 主要参考:http://www.ruanyifeng.com/blog/2013/05/Knuth%E2%80%93Morris%E2%80%93Pratt_algorithm.html

https://www.cnblogs.com/yjiyjige/p/3263858.html

 

KMP算法引入:

KMP是三位大牛:D.E.Knuth、J.H.Morris和V.R.Pratt同时发现的

KMP算法要解决的问题就是在字符串(也叫主串)中的模式(pattern)定位问题。说简单点就是我们平时常说的关键字搜索。模式串就是关键字(接下来称它为P),如果它在一个主串(接下来称为T)中出现,就返回它的具体位置,否则返回-1(常用手段)。

 技术分享图片

首先,对于这个问题有一个很单纯的想法:从左到右一个个匹配,如果这个过程中有某个字符不匹配,就跳回去,将模式串向右移动一位。这有什么难的?

我们可以这样初始化:

技术分享图片

之后我们只需要比较i指针指向的字符和j指针指向的字符是否一致。如果一致就都向后移动,如果不一致,如下图:

 技术分享图片

A和E不相等,那就把i指针移回第1位(假设下标从0开始),j移动到模式串的第0位,然后又重新开始这个步骤:

 技术分享图片

基于这个想法我们可以得到以下的程序:

 1 public static int bf(String ts, String ps)
 2 {
 3     int i = 0; // 主串的位置
 4     int j = 0; // 子串的位置
 5     while (i < t.length && j < p.length)
 6     {
 7         if (t[i] == p[j])/// 当两个字符相同,就比较下一个
 8         {
 9             i++;
10             j++;
11         }
12         else
13         {
14             i = i - j + 1;///一旦不匹配,i后退
15             j = 0; ///j归0
16         }
17 
18     }
19     if (j == p.length)
20     {
21         return i - j;///匹配成功返回子串在母串最先出现的位置
22     }
23     else
24     {
25         return -1;///不成功返回-1
26     }
27 
28 }

然而这并不是一种优秀的算法,因为会出现指针的回退,一旦匹配不成功就要退回子串的其实位置,而之前完成的部分匹配也将作废,时间复杂度为O(n*m)。

而KMP算法却能将时间复杂度优化为O(n+m),它是怎么做到的呢?我们再举一个例子。

 

(1)对于已经匹配到这种状态的两个字符串:

技术分享图片

一个基本事实是,当空格与D不匹配时,你其实知道前面六个字符是"ABCDAB"。KMP算法的想法是,设法利用这个已知信息,不要把"搜索位置"移回已经比较过的位置,继续把它向后移,这样就提高了效率。

 

(2)

 技术分享图片

怎么做到这一点呢?可以针对搜索词,算出一张《部分匹配表》(Partial Match Table)。这张表是如何产生的,后面再介绍,这里只要会用就可以了。

 

(3)

技术分享图片

已知空格与D不匹配时,前面六个字符"ABCDAB"是匹配的。查表可知,最后一个匹配字符B对应的"部分匹配值"为2,因此按照下面的公式算出向后移动的位数:

 移动位数 = 已匹配的字符数 - 对应的部分匹配值

因为 6 - 2 等于4,所以将搜索词向后移动4位。

 

(4)

技术分享图片

因为空格与C不匹配,搜索词还要继续往后移。这时,已匹配的字符数为2("AB"),对应的"部分匹配值"为0。所以,移动位数 = 2 - 0,结果为 2,于是将搜索词向后移2位。

(5)

技术分享图片

因为空格与A不匹配,继续后移一位。

(6)

技术分享图片

逐位比较,直到发现C与D不匹配。于是,移动位数 = 6 - 2,继续将搜索词向后移动4位。

(7)

技术分享图片

逐位比较,直到搜索词的最后一位,发现完全匹配,于是搜索完成。如果还要继续搜索(即找出全部匹配),移动位数 = 7 - 0,再将搜索词向后移动7位,这里就不再重复了。

 

下面介绍《部分匹配表》是如何产生的。

首先,要了解两个概念:"前缀"和"后缀"。 "前缀"指除了最后一个字符以外,一个字符串的全部头部组合;"后缀"指除了第一个字符以外,一个字符串的全部尾部组合。

技术分享图片

"部分匹配值"就是"前缀"和"后缀"的最长的共有元素的长度。以"ABCDABD"为例,

- "A"的前缀和后缀都为空集,共有元素的长度为0;
  - "AB"的前缀为[A],后缀为[B],共有元素的长度为0;
  - "ABC"的前缀为[A, AB],后缀为[BC, C],共有元素的长度0;
  - "ABCD"的前缀为[A, AB, ABC],后缀为[BCD, CD, D],共有元素的长度为0;
  - "ABCDA"的前缀为[A, AB, ABC, ABCD],后缀为[BCDA, CDA, DA, A],共有元素为"A",长度为1;
  - "ABCDAB"的前缀为[A, AB, ABC, ABCD, ABCDA],后缀为[BCDAB, CDAB, DAB, AB, B],共有元素为"AB",长度为2;
  - "ABCDABD"的前缀为[A, AB, ABC, ABCD, ABCDA, ABCDAB],后缀为[BCDABD, CDABD, DABD, ABD, BD, D],共有元素的长度为0。

 为了记录这些信息我们使用了一个next数组来记录每一个字符的部分匹配值。

 

最后在对基本原理进行一下说明:

技术分享图片

"部分匹配"的实质是,有时候,字符串头部和尾部会有重复。比如,"ABCDAB"之中有两个"AB",那么它的"部分匹配值"就是2("AB"的长度)。搜索词移动的时候,第一个"AB"向后移动4位(字符串长度-部分匹配值),就可以来到第二个"AB"的位置。这也是我认为KMP算法最为厉害的地方,利用字符串自身具有的重复性避免了指针的回退!!!

 

KMP字符串匹配算法

标签:参考   第一个   搜索   除了   ble   就是   abc   字符串匹配算法   target   

原文地址:https://www.cnblogs.com/wkfvawl/p/9768729.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!