三步工作
一:敏感词过滤核心算法,参考这篇文章的DFA算法,http://blog.csdn.net/chenssy/article/details/26961957
实现两个类
1. SensitiveWordInit 负责加载初始化敏感词
private String ENCODING = "GBK"; // 字符编码
@SuppressWarnings("rawtypes")
...
分类:
其他好文 时间:
2015-06-03 21:42:05
阅读次数:
140
<!DOCTYPE?HTML?PUBLIC?"-//W3C//DTD?HTML?4.01//EN"?"http://www.w3.org/TR/html4/strict.dtd">
<html>
<head>
<meta?http-equiv="Content-Type"?content="text/html;?charset=GBK">
<title>Unti...
分类:
编程语言 时间:
2015-06-03 19:54:57
阅读次数:
146
---恢复内容开始---一直对字符的各种编码方式懵懵懂懂,什么ANSI UNICODE UTF-8 GB2312 GBK DBCS UCS……是不是看的很晕,假如您细细的阅读本文你一定可以清晰的理解他们。Let's go! 很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同的状态,....
分类:
其他好文 时间:
2015-06-02 12:59:44
阅读次数:
128
默认情况下,Tomcat对请求采用的默认编码是ISO-8859-1, 这样我们提交的汉字被认为是ISO-8859-1的编码,所以在程序中接收时显示乱码 。? 在过滤器中调用request.setCharacterEncoding("GBK"),那么Post上来的汉字...
分类:
系统相关 时间:
2015-06-02 11:32:23
阅读次数:
153
由于Java采用的是utf-8的编码方式,而cmd中默认的编码是GBK,因此,在命令提示符窗口编译运行java程序时,程序中的汉字就会以乱码的形式显示出来,要解决此问题,有两种方法:1、使用chcp命令修改cmd控制台的字符编码方式为utf-8,具体方法可google或百度关键词“cmd utf-8...
分类:
编程语言 时间:
2015-06-01 20:03:10
阅读次数:
398
由于GB 2312-80只收录6763个汉字,有不少汉字,如部分在GB 2312-80推出以后才简化的汉字(如“啰”),部分人名用字(如中国前总理朱镕基的“镕”字),台湾及香港使用的繁体字,日语及朝鲜语汉字等,并未有收录在内。于是厂商微软利用GB 2312-80未使用的编码空间,收录GB 13000...
分类:
其他好文 时间:
2015-05-31 07:58:19
阅读次数:
17302
转自:http://www.blogjava.net/toby/archive/2009/04/24/267413.html1.read这个方法是对这个流一个一个字节的读,返回的int就是这个字节的int表示方式以下是代码片段,经过测试当eclipse的编码为gbk时,转化出的字符串不需经过重新编码...
分类:
其他好文 时间:
2015-05-31 00:03:02
阅读次数:
132
我们可以用header来定义一个php页面为utf编码或GBK编码,也可以在html中用meta标签来指定编码例如:php页面为utf编码 header("Content-type: text/html; charset=utf-8");我们通常使用header或meta,下面说一说两者的区别一、....
分类:
Web程序 时间:
2015-05-30 23:59:34
阅读次数:
385
1、如何解决FileReader读文件乱码的问题?你好,问题出在FileReader读取文件的过程中,FileReader继承了InputStreamReader,但并没有实现父类中带字符集参数的构造函数,所以FileReader只能按系统默认的字符集来解码,然后在UTF-8 -> GBK -> U...
分类:
其他好文 时间:
2015-05-30 19:50:30
阅读次数:
149
01 #ifdef __GNUC__02 03 #define CSET_GBK "GBK"04 #define CSET_UTF8 "UTF-8"05 06 #define LC_NAME_zh_CN "zh_CN"07 08 // ifdef __GNU...
分类:
其他好文 时间:
2015-05-29 22:59:39
阅读次数:
496