elasticsearch官方只提供smartcn这个中文分词插件,效果不是很好,好在国内有medcl大神(国内最早研究es的人之一)写的两个中文分词插件,一个是ik的,一个是mmseg的,下面分别介绍ik的用法,当我们创建一个index(库db_news)时,easticsearch默认提供的分词...
分类:
其他好文 时间:
2015-04-03 19:17:11
阅读次数:
149
PHP+mysql数据库开发类似百度的搜索功能:中英文分词+全文检索中文分词:a) robbe PHP中文分词扩展: http://www.boyunjian.com/v/softd/robbe.html i. Robbe完整版本下载:Robbe完整版本(PHP测试程序, 开发帮助文档, W...
分类:
数据库 时间:
2015-03-18 13:55:08
阅读次数:
1039
中文分词实例3:分词(返回一个书包,以_0、_1、_2 ...取出分好的词)...
分类:
其他好文 时间:
2015-03-16 14:36:25
阅读次数:
114
返回以逗号隔开每个词带上引号的词组,gap=",",quotes="'"或quotes='"')...
分类:
其他好文 时间:
2015-03-15 12:26:20
阅读次数:
130
只需一行代码就实行中文+英文混合智能分词,相当轻松...
分类:
其他好文 时间:
2015-03-13 14:23:25
阅读次数:
116
这几天项目中需要重新做一个关于商品的全文搜索功能,于是想到了用Sphinx,因为需要中文分词,所以选择了Sphinx for chinese,当然你也可以选择coreseek,建议这两个中选择一个,暂时不要选择原版Sphinx(对中文的支持不是很好).又因为服务器所用 MySQL在当时编译时并没有编...
分类:
Windows程序 时间:
2015-03-12 00:56:00
阅读次数:
2412
1、NLPIR简介
NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取;张华平博士先后倾力打造十余年,内核升级10次。
下载地址:http://ictclas.nlpir.org/downloads
2、目录介绍
...
分类:
编程语言 时间:
2015-03-10 15:35:18
阅读次数:
676
功能:
· 把字符串按关键字放进书包
· 把书包保存到会话中
· 把字符串分割成数组,返回一个存放数组数据的书包(Bag)
· 删除书包中的一条数据(如Esql返回的数据记录或xml的一个节点)
· 保存xml类型的书包(bag)到给定名称的文件
· 中文分词
· 检验
· 修改书包名...
分类:
其他好文 时间:
2015-03-09 12:56:19
阅读次数:
129
Part1安装依赖包
R语言中中文分析的软件包是Rwordseg,Rwordseg软件包依赖rJava包,rJava需要本机中有安装Java。
第一步是安装Java,请安装JDK,JRE不行。请对应机型,下载安装32位的JDK。机器里已经有JDK的也请改成32位的,不然没办法使用Rwordseg,尝试使用过64位的,不可行。
下载地址:
http://www.oracle.com/t...
分类:
编程语言 时间:
2015-03-05 17:09:42
阅读次数:
378