码迷,mamicode.com
首页 > 其他好文 > 详细

屏蔽功能

时间:2017-03-24 12:09:03      阅读:255      评论:0      收藏:0      [点我收藏+]

标签:赋值   匹配   encoding   类型   path   catch   puts   length   情况   

KeyTree类  这个类的功能是 :

    读取硬盘上的key.txt(里面存放的是敏感关键词),将之读入Set中,再讲Set中的元素传入到Map中(通过Map来生成敏感词的树状结构),并传出这个Map(敏感词树)

    public Map createKeyWord():创建一个Map类型的词库(敏感词树)

    private void readSetToMap(Set<String> keyWordSet): (内部方法)读取敏感词库,将敏感词放入HashSet中

    private Set<String> readKeyTxt():(内部方法)读取敏感词库中的内容,将内容添加到set集合中

  1 package pingbi;
  2 
  3 /**
  4  * keyWordSet:敏感词集合(中间量) 将原始key.txt中的内容先读入到这个变量(keyWordSet)中,
  5  *             再由此变量生成敏感词树(keyTreeMap)
  6  * newMap、nowMap:一起用来生成敏感词树(keyTreeMap)的
  7  * keyTreeMap:敏感词树
  8  */
  9 import java.io.BufferedReader;
 10 import java.io.File;
 11 import java.io.FileInputStream;
 12 import java.io.InputStreamReader;
 13 import java.util.*;
 14 
 15 /** ----------------初始化敏感词库,将敏感词加入到HashMap中,构建DFA算法模型-----------------*/
 16 public class KeyTree {
 17     // private String ENCODING = "GBK"; //字符编码
 18     private String ENCODING = "UTF-8"; // 字符编码
 19     @SuppressWarnings("rawtypes")
 20     private HashMap keyTreeMap;// 敏感词集合
 21     
 22     public HashMap getKeyTreeMap() {
 23         return keyTreeMap;
 24     }
 25 
 26     @SuppressWarnings("rawtypes")
 27     public Map createKeyWord() {
 28         try {
 29             // 读取敏感词库
 30             Set<String> keyWordSet = readKeyTxt();
 31             // 将敏感词库加入到HashMap中
 32             readSetToMap(keyWordSet);
 33             // spring获取application,然后application.setAttribute("sensitiveWordMap",sensitiveWordMap);
 34         } catch (Exception e) {
 35             e.printStackTrace();
 36         }
 37         return keyTreeMap;
 38     }
 39 
 40     /*-------------- 读取敏感词库,将敏感词放入HashSet中,构建一个DFA算法模型--------------*/
 41     @SuppressWarnings({ "rawtypes", "unchecked" })
 42     private void readSetToMap(Set<String> keyWordSet) {
 43         keyTreeMap = new HashMap(keyWordSet.size());// 初始化敏感词容器,减少扩容操作
 44         String key = null;
 45         Map nowMap = null;
 46         Map<String, String> newMap = null;
 47         // 迭代keyWordSet
 48         Iterator<String> iterator = keyWordSet.iterator();
 49         while (iterator.hasNext()) {
 50             key = iterator.next(); // 关键字
 51             nowMap = keyTreeMap;
 52             for (int i = 0; i < key.length(); i++) {
 53                 char keyChar = key.charAt(i); // 转换成char型
 54                 Object wordMap = nowMap.get(keyChar); // 获取
 55 
 56                 if (wordMap != null) { // 如果存在该key,直接赋值
 57                     nowMap = (Map) wordMap;
 58                 } else { // 不存在则,则构建一个map,同时将isEnd设置为0,因为他不是最后一个
 59                     newMap = new HashMap<String, String>();
 60                     newMap.put("isEnd", "0"); // 不是最后一个
 61                     nowMap.put(keyChar, newMap);
 62                     nowMap = newMap;
 63                 }
 64 
 65                 if (i == key.length() - 1) {
 66                     nowMap.put("isEnd", "1"); // 最后一个
 67                 }
 68             }
 69         }
 70     }
 71 
 72     /*------------------- 读取敏感词库中的内容,将内容添加到set集合中--------------------*/
 73     @SuppressWarnings("resource")
 74     private Set<String> readKeyTxt() throws Exception {
 75         Set<String> set = null;
 76 
 77         String filepath = "E:\\pingbi\\key.txt";
 78         File file = new File(filepath); // 读取文件
 79         // String filename = "key.txt";
 80 
 81         InputStreamReader read = new InputStreamReader(new FileInputStream(filepath), ENCODING);
 82         try {
 83             if (file.isFile() && file.exists()) {// 文件流是否存在
 84                 set = new HashSet<String>();
 85                 BufferedReader bufferedReader = new BufferedReader(read);
 86                 String txt;
 87                 while ((txt = bufferedReader.readLine()) != null) {// 读取文件,将文件内容放入到set中
 88                     set.add(txt);
 89                 }
 90             } else {// 不存在抛出异常信息
 91                 throw new Exception("敏感词库文件不存在");
 92             }
 93         } catch (Exception e) {
 94             throw e;
 95         } finally {
 96             read.close();// 关闭文件流
 97         }
 98         return set;
 99     }
100 }

shieldUtil类提供 工具方法

    public shieldUtil(): 构造方法,初始化敏感词库

    public Set<String> getSensitiveWord(String txt): 获取文字中所有的的敏感词,并放入一个Set中

    public String replaceSensitiveWord(String txt, String replaceChar): 替换敏感字字符,替换字符,默认

    public int CheckSensitiveWord(String txt, int beginIndex) :检查文字中是否包含敏感字符,检查规则如下: 如果存在,则返回敏感词字符的长度,不存在返回0

    public boolean isSensitive(String txt): 判断是否含有敏感词

    private String getReplaceChars(String replaceChar, int length): (内部方法)获取替换字符串

 1 package pingbi;
 2 
 3 import java.io.*;
 4 import java.util.HashSet;
 5 import java.util.Iterator;
 6 import java.util.Map;
 7 import java.util.Set;
 8 
 9 /** 敏感词过滤 */
10 public class shieldUtil {
11     @SuppressWarnings("rawtypes")
12     private Map keyWord= null;//
13 
14     /* -------------------构造函数,初始化敏感词库-------------------------- */
15     public shieldUtil() {
16         keyWord= new KeyTree().createKeyWord();
17     }
18 
19     /*--------------- 获取文字中所有的的敏感词,并放入一个Set中--------------------*/
20     public Set<String> getSensitiveWord(String txt) {
21         Set<String> sensitiveWordSet = new HashSet<String>();
22 
23         for (int i = 0; i < txt.length(); i++) {
24             int length = CheckSensitiveWord(txt, i);// 判断是否包含敏感字符
25             if (length > 0) {// 存在,加入list中
26                 sensitiveWordSet.add(txt.substring(i, i + length));
27                 i = i + length - 1;// 减1的原因,是因为for会自增
28             }
29         }
30         return sensitiveWordSet;
31     }
32 
33     /*------------------替换敏感字字符,替换字符,默认------------------*/
34     public String replaceSensitiveWord(String txt, String replaceChar) {
35         String resultTxt = txt;
36         Set<String> set = getSensitiveWord(txt); // 获取所有的敏感词
37         Iterator<String> iterator = set.iterator();
38         String word = null;
39         String replaceString = null;
40         while (iterator.hasNext()) {
41             word = iterator.next();
42             replaceString = getReplaceChars(replaceChar, word.length());
43             resultTxt = resultTxt.replaceAll(word, replaceString);
44         }
45         return resultTxt;
46     }
47 
48     /*-----------------获取替换字符串 -----------------*/
49     /* 例如,已知匹配到的敏感词长度是3,想要替换成“*”号,则得到的替换字符串为“***” */
50     private String getReplaceChars(String replaceChar, int length) {
51         String resultReplace = replaceChar;
52         for (int i = 1; i < length; i++) {
53             resultReplace += replaceChar;
54         }
55         return resultReplace;
56     }
57 
58     /*--------检查文字中是否包含敏感字符,检查规则如下: 如果存在,则返回敏感词字符的长度,不存在返回0---------*/
59     // 只匹配一次,成功即返回
60     @SuppressWarnings({ "rawtypes" })
61     public int CheckSensitiveWord(String txt, int beginIndex) {
62         boolean flag = false;// 敏感词结束标识位:用于敏感词只有1位的情况
63         int matchLength = 0;// 匹配标识数默认为0
64         char word = 0;
65         Map nowMap = keyWord;
66         for (int i = beginIndex; i < txt.length(); i++) {
67             word = txt.charAt(i);
68             nowMap = (Map) nowMap.get(word);// 获取指定key
69             if (nowMap != null) {// 存在,则判断是否为最后一个
70                 matchLength++;// 找到相应key,匹配标识+1
71                 if ("1".equals(nowMap.get("isEnd"))) {// 如果为最后一个匹配规则,结束循环,返回匹配标识数
72                     flag = true;// 结束标志位为true
73                 }
74             } else {// 不存在,直接返回
75                 break;
76             }
77         }
78         if (matchLength < 2 || !flag) {// 长度必须大于等于1,为词
79             matchLength = 0;
80         }
81         return matchLength;
82     }
83 
84     /*----------------------判断是否含有敏感词------------------*/
85     public boolean isSensitive(String txt) {
86         int matchLength = CheckSensitiveWord(txt, 0);
87         return matchLength > 0;
88     }
89 }

 

屏蔽功能

标签:赋值   匹配   encoding   类型   path   catch   puts   length   情况   

原文地址:http://www.cnblogs.com/dayuruozhi/p/6610588.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!