码迷,mamicode.com
首页 > 其他好文 > 详细

Codeforces Round #244 (Div. 2)D (后缀自动机)

时间:2014-05-10 09:17:40      阅读:313      评论:0      收藏:0      [点我收藏+]

标签:后缀自动机   sam   

Codeforces Round #244 (Div. 2)D (后缀自动机)

(标号为0的节点一定是null节点,无论如何都不能拿来用,切记切记,以后不能再错了)

这题用后缀自动机的话,对后缀自动机的很多性质有足够深刻的理解。没想过后缀数组怎么做,因为不高兴敲。。。。

题意:给出两个长度均不超过5000的字符串s1,s2,求这两个串中,都只出现一次的最短公共子串。

解题思路:求的是公共子串,然后对出现的次数又有限制,第一想法就是后缀自动机啊,后缀自动机处理子串出现次数再合适不过了。做法是这样的,先建立s1的sam,用拓扑dp,求出每个节点的代表串出现的次数。目的是什么呢?其实我是想求ok[i][j],表示s1[i] ~ s1[j]的这个子串是否只出现了一次。现在我们求出了代表串的出现次数了,怎么求这个ok[i][j]呢?拿s1在建立好的自动机上匹配,当前匹配到了s1[i],记录temp表示当前匹配的最长长度,now表示当前匹配在哪个节点。这里有一个跟AC自动机很相似的性质,匹配到了now,则一定能匹配fa[now]。那么就顺着now往上走,一直找到第一个出现次数大于1的节点p,那么以i为结尾,长度为val[p]+1到temp的子串在s1里面肯定都只出现一次了。把这个记录到ok数组里。    第二步是对s2处理了,还是一样的过程,建立sam,求出每个点的代表串出现的次数,即cnt[]数组。   第三步就要拿s1在s2的sam上进行匹配了,匹配过程类似于前面处理s1的ok数组,找出当前匹配的最长长度temp,匹配到的节点now,顺着now往上,找到第一个cnt大于1的节点p,在s2里面,以当前匹配上的子串的结尾为结尾的长度为val[p] + 1到temp的子,串必然只在s2里出现过一次。然后就枚举j,从val[p] + 1到temp,如果在s1里面,以i为结尾,长度为j的子串只出现1次(即ok[i-j+1][i] == 1),那么这个j就有可能成为答案,用其更新ans即可。

代码:

#include<stdio.h>
#include<string.h>
#include<algorithm>
using namespace std ;

const int maxn = 5001 ;
bool ok[maxn][maxn] ;
int ans = 111111 ;

struct SAM  {
    int fa[maxn<<1] , val[maxn<<1] , c[26][maxn<<1] ;
    int cnt[maxn<<1] ; int tot , last ;
    int ws[maxn<<1] , wv[maxn<<1] ;

    inline int new_node ( int _val ) {
        val[++tot] = _val ;
        for ( int i = 0 ; i < 26 ; i ++ ) c[i][tot] = 0 ;
        cnt[tot] = fa[tot] = 0 ;
        return tot ;
    }

    void add ( int k ) {
        int p = last , i ;
        int np = new_node ( val[p] + 1 ) ;
        while ( p && !c[k][p] ) c[k][p] = np , p = fa[p] ;
        if ( !p ) fa[np] = 1 ;
        else {
            int q = c[k][p] ;
            if ( val[q] == val[p] + 1 ) fa[np] = q ;
            else {
                int nq = new_node ( val[p] + 1 ) ;
                for ( i = 0 ; i < 26 ; i ++ )
                    c[i][nq] = c[i][q] ;
                fa[nq] = fa[q] ;
                fa[q] = fa[np] = nq ;
                while ( p && c[k][p] == q ) c[k][p] = nq , p = fa[p] ;
            }
        }
        last = np ;
    }

    void init () {
        tot = 0 ;
        last = new_node ( 0 ) ;
    }

    void SORT () {
        for ( int i = 0 ; i < maxn ; i ++ ) wv[i] = 0 ;
        for ( int i = 1 ; i <= tot ; i ++ ) wv[val[i]] ++ ;
        for ( int i = 1 ; i < maxn ; i ++ ) wv[i] += wv[i-1] ;
        for ( int i = 1 ; i <= tot ; i ++ ) ws[wv[val[i]]--] = i ;
    }

    void get_cnt ( char *s , int n ) {
        SORT () ;
        int now = 1 , i ;
        memset ( cnt , 0 , sizeof ( cnt ) ) ;
        for ( i = 1 ; i <= n ; i ++ ) {
            int k = s[i] - ‘a‘ ;
            now = c[k][now] ;
            cnt[now] ++ ;
        }
        for ( i = tot ; i >= 1 ; i -- ) {
            now = ws[i] ;
            cnt[fa[now]] += cnt[now] ;
        }
    }

    void gao ( char *s , int n ) {
        get_cnt ( s , n ) ;
        int now = 1 , i , j ;
        for ( i = 1 ; i <= n ; i ++ ) {
            int k = s[i] - ‘a‘ ;
            now = c[k][now] ;
            int p = now ;
            while ( fa[p] && cnt[p] == 1 ) p = fa[p] ;
            for ( j = 1 ; j <= i - val[p] ; j ++ )
                ok[j][i] = 1 ;
        }
    }

    void work ( char *s , int n ) {
        int temp = 0 , now = 1 , i , j ;
        for ( i = 1 ; i <= n ; i ++ ) {
            int k = s[i] - ‘a‘ ;
            if ( c[k][now] ) {
                temp ++ ; now = c[k][now] ;
                int p = now ;
                while ( fa[p] && cnt[p] == 1 ) p = fa[p] ;
                for ( j = val[p] + 1 ; j <= temp ; j ++ )
                    if ( ok[i-j+1][i] ) {
                        ans = min ( ans , j ) ;
                        break ;
                    }
            }
            else {
                while ( now && !c[k][now] ) now = fa[now] ;
                if ( !now ) now = 1 , temp = 0 ;
                else {
                    temp = val[now] + 1 ;
                    now = c[k][now] ;
                    int p = now ;
                    while ( fa[p] && cnt[p] == 1 ) p = fa[p] ;
                    for ( j = val[p] + 1 ; j <= temp ; j ++ )
                        if ( ok[i-j+1][i] ) {
                            ans = min ( ans , j ) ;
                            break ;
                        }
                }
            }
        }
    }

} ac ;
char s1[maxn] , s2[maxn] ;

int main () {
    scanf ( "%s" , s1 + 1 ) ;
    ac.init () ;
    int n = strlen ( s1 + 1 ) , i , j ;
    for ( i = 1 ; i <= n ; i ++ )
        ac.add ( s1[i] - ‘a‘ ) ;
    ac.gao ( s1 , n ) ;
    scanf ( "%s" , s2 + 1 ) ;
    ac.init () ;
    int m= strlen ( s2 + 1 ) ;
    for ( i = 1 ; i <= m ; i ++ )
        ac.add ( s2[i] - ‘a‘ ) ;
    ac.get_cnt ( s2 , m ) ;
    ac.work ( s1 , n ) ;
    if ( ans == 111111 ) puts ( "-1" ) ;
    else printf ( "%d\n" , ans ) ;
    return 0 ;
}


Codeforces Round #244 (Div. 2)D (后缀自动机),布布扣,bubuko.com

Codeforces Round #244 (Div. 2)D (后缀自动机)

标签:后缀自动机   sam   

原文地址:http://blog.csdn.net/no__stop/article/details/24983639

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!