概念 1、语料库-Corpus 语料库是我们要分析的所有文档的集合,就是需要为哪些文档来做词频 2、中文分词-Chinese Word Segmentation 指的是将一个汉字序列切分成一个一个单独的词语。 3、停用词-Stop Words 数据处理的时候,自动过滤掉某些字或词,包括泛滥的词如We ...
分类:
编程语言 时间:
2017-08-15 23:32:31
阅读次数:
975
1、一级字表(1 ~ 3500) 一乙二十丁厂七卜八人入儿匕几九刁了刀力乃又三干于亏工土士才下寸大丈与万上小口山巾千乞川亿个夕久么勺凡丸及广亡门丫义之尸己已巳弓子卫也女刃飞习叉马乡丰王开井天夫元无云专丐扎艺木五支厅不犬太区历歹友尤匹车巨牙屯戈比互切瓦止少曰日中贝冈内水见午牛手气毛壬升夭长仁什片仆化仇 ...
分类:
其他好文 时间:
2017-08-14 11:26:48
阅读次数:
129
Elasticsearch默认提供的分词器,会把每个汉字分开,而不是我们想要的根据关键词来分词,我是中国人 不能简单的分成一个个字,我们更希望 “中国人”,“中国”,“我”这样的分词,这样我们就需要安装中文分词插件,ik就是实现这个功能的。 elasticsearch-analysis-ik 是一款 ...
分类:
其他好文 时间:
2017-08-14 09:58:00
阅读次数:
210
注意:本标题的“自动化测试” 包括性能测试 与UI级的自动化测试 经常会被问到如何解决验证码的问题,在此记录一下我所知道的几种方式。 对于web应用来说,大部分的系统在用户登录时都要求用户输入验证码,验证码的类型的很多,有字母数字的,有汉字的,甚至还要用户输入一条算术题的答案的,对于系统来说使用验证 ...
分类:
其他好文 时间:
2017-08-13 22:16:55
阅读次数:
291
/** * 将数字转换成相应的汉字 * * @param number * 数字 * @return 相应的汉字 */ public static String intToChinese(int number) { char[] val = String.valueOf(number).toChar ...
分类:
编程语言 时间:
2017-08-13 14:17:35
阅读次数:
185
* 匹配前一个字符任意次 . 匹配除换行符外的任意单个字符 ^ 匹配行首 $ 匹配行尾 [] 匹配中括号内的任意单个字符,如[0-9a-zA-Z]匹配任意数字字母,[中华人民共和国]匹配“中化人民共和国”中的任意单个汉字 [^] 匹配不在中括号内的任意单个字符,[^]的^表示取反,^[]的^表示行首 ...
分类:
其他好文 时间:
2017-08-13 12:30:42
阅读次数:
120
由于汉字的特殊性,在css网页布局中,中文排版有别于英文排版。排版是一个麻烦的问题,小编认为,作为一个优秀的网页设计师和网页制作人员,掌握一些简单的中文排版技巧是不可或缺的,所以今天特意总结了几个简单实用的技巧,希望对大家有所帮助。 一、如何设定文字字体、颜色、大小等 font-style设定斜体, ...
分类:
Web程序 时间:
2017-08-13 00:09:44
阅读次数:
272
题目描述 设某汉字由N X N的0和1的点阵图案组成,如下图。我们依照以下规则生成压缩码。连续一组数值:从汉字点阵图案的第一行第一个符号开始计算,按书写顺序从上到下,由左到右。第一个数表示连续有几个0,第二个数表示接下来连续有几个1,第三个数再接下来连续有几个0,第四个数接着连续几个1,以此类推。。 ...
分类:
其他好文 时间:
2017-08-11 21:12:22
阅读次数:
161
如果环境当中有多个python版本,则在头部指定相应版本: Python中默认的编码格式是 ASCII 格式,在没修改编码格式时无法正确打印汉字,所以在读取中文时会报错。 解决方法为只要在文件开头加入 python 标识符 在python 里,标识符由字母、数字、下划线组成。 在python 中,所 ...
分类:
编程语言 时间:
2017-08-11 13:24:52
阅读次数:
115
验证码在表单实现越来越多了,但是用js的写的验证码,总觉得不方便,所以学习了下php实现的验证码。好吧,其实是没有事情干,但是又不想浪费时间,所以学习了下php实现验证码。正所谓,技多不压身。而且,也可以封装成一个函数,以后使用的时候也是很方便的,当然现在未封装。 现在来说说简单的纯数字验证码吧。 ...
分类:
Web程序 时间:
2017-08-11 12:26:30
阅读次数:
218