码迷,mamicode.com
首页 > 其他好文 > 详细

字典树

时间:2020-03-08 15:44:56      阅读:60      评论:0      收藏:0      [点我收藏+]

标签:tar   style   mic   targe   ++   统计   系统   return   优点   

 

字典树

又称单词查找树Trie树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:利用字符串的公共前缀来节约存储空间,最大限度地减少无谓的字符串比较,查询效率比哈希表高,缺点是内存开销大。 

字典树与字典很相似,当你要查一个单词是不是在字典树中,首先看单词的第一个字母是不是在字典的第一层,如果不在,说明字典树里没有该单词,如果在就在该字母的孩子节点里找是不是有单词的第二个字母,没有说明没有该单词,有的话用同样的方法继续查找.字典树不仅可以用来储存字母,也可以储存数字等其它数据。

技术图片

 

 c语言实现

#include <stdio.h>
#include <string.h>
    

#define NodeSize 100 //100000
#define CHARSIZE 26  //26
int flag[NodeSize]={0};//是否以该节点结尾,大小为节点数量
int tree[NodeSize][CHARSIZE];//每一个节点都有26个子节点,如果有大写字母则为52,加上数字就是62
int cnt=0;//记录已经存储字母的节点数量

void Insert(char s[])
{
    int root=0;
    int i;
    //遍历
    for(i=0;s[i];i++)
    {    
        //得到0-25范围的整数,代表a-z
        int id=s[i]-a;
        //判断该节点是否被赋值
        //如果为-1,说明该节点还未存储字母,就需要创建新节点
        if(tree[root][id]==-1) 
        {    
            //创建一个新节点
            tree[root][id]=++cnt;
        }
        //如果存在直接指向这个节点,如果不存在,指向创建的新节点
        //指向的是下标
        root=tree[root][id];
    }
    //设置该节点的结束标志
    flag[root]= 1;
}
int Search(char s[])
{
    int root=0;
    int i;
    for(i=0;s[i];i++)
    {
        int id=s[i]-a;
        if(tree[root][id]==-1) return 0;
        root=tree[root][id];
    }
    //判断该节点是否为结束标志位
    if(flag[root]){
        return 1;
    }else{
        return 0;
    }
}

void Init(){
    int i;
    int j;
    for(i=0;i<NodeSize;i++){
        for(j=0;j<CHARSIZE;j++){
            tree[i][j] = -1;
        }
    }
}
    
    
int main()
{
    Init();
    char s1[5] = "fggf";
    char s2[4] = "fbs";
    char s3[6] = "fb";
    //插入字符串
    Insert(s1);
    //插入字符串
    Insert(s2);
    //查找字符串
    int flag = Search(s3);
    if(flag){
        printf("字符串存在");
    }else{
        printf("字符串不存在");
    }
    return 0;
}

 

基本操作

插入:在字典树中插入单词

1.每次插入从根节点开始

int root=0;

2.遍历单词

 for(i=0;s[i];i++)
    {    
       。。。
    }

3.得到当前字母在此节点下的位置,每个节点有26个子节点。

int id=s[i]-a;

4.判断该节点是否已经存储字母,如果存储,直接指向该节点,如果没有,新增节点,并指向新增节点。

     //判断该节点是否被赋值
        //如果为-1,说明该节点还未存储字母,就需要创建新节点
        if(tree[root][id]==-1) 
        {    
            //创建一个新节点
            tree[root][id]=++cnt;
        }
        //如果存在直接指向这个节点,如果不存在,指向创建的新节点
        //指向的是下标
        root=tree[root][id];

5.结束插入后,在此节点的位置标记单词结束标志。

   //设置该节点的结束标志
    flag[root]= 1;
void Insert(char s[])
{
    int root=0;
    int i;
    //遍历
    for(i=0;s[i];i++)
    {    
        //得到0-25范围的整数,代表a-z
        int id=s[i]-a;
        //判断该节点是否被赋值
        //如果为-1,说明该节点还未存储字母,就需要创建新节点
        if(tree[root][id]==-1) 
        {    
            //创建一个新节点
            tree[root][id]=++cnt;
        }
        //如果存在直接指向这个节点,如果不存在,指向创建的新节点
        //指向的是下标
        root=tree[root][id];
    }
    //设置该节点的结束标志
    flag[root]= 1;
}

查找:在字典树中查找单词是否存在

int Search(char s[])
{
    int root=0;
    int i;
    for(i=0;s[i];i++)
    {
        int id=s[i]-a;
        if(tree[root][id]==-1) return 0;
        root=tree[root][id];;
    }
    //判断该节点是否为结束标志位
    if(flag[root]){
        return 1;
    }else{
        return 0;
    }
}

更多阅读:

python实现版本

字典树

标签:tar   style   mic   targe   ++   统计   系统   return   优点   

原文地址:https://www.cnblogs.com/-wenli/p/12442678.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!