程序开发102脚本编程语言36地图相关7Epub电子图书工具109UI组件库16代码生成工具25SVG开发包17推荐引擎3指纹识别23拼音转换工具包24蓝牙开发295GUI开发框架35Swing开发包1137常用工具包247报表/图表制作207模板引擎159搜索引擎48中文分词库82缓存系统487网...
分类:
其他好文 时间:
2015-08-11 07:12:50
阅读次数:
176
简介Sphinx是开源的搜索引擎,它支持英文的全文检索。所以如果单独搭建Sphinx,你就已经可以使用全文索引了但是有些时候我们还要进行中文分词所有scws就出现了,我们也可以使用Coreseek来建立中文索引,而Coreseek的内核就是Sphinx1、环境PHP 5.5.23+centos 6....
分类:
Web程序 时间:
2015-08-08 01:14:46
阅读次数:
461
中文分词其实有点像古代的句读(dou),韩愈的《师说》中就有:“彼童子之师,授之书而习其句读者也”。古人文章是没有标点符号的,行文一气呵成。如果不懂离经断句,就很难理解古文的意思。从某种程度上,句读就类似今天要讲的中文分词。
北京航空航天大学的梁南元教授提出了查字典的方法
查字典的方法就是把句子从左到右扫描一遍,遇到字典里有的词就标示出来,遇到不认识的字串就分割为单字词。如果分割出的词与后面的...
分类:
其他好文 时间:
2015-08-07 23:58:13
阅读次数:
313
在上一篇文章中我们学习了solr的快速入门和针对mysql数据库建立索引,今天我们介绍如何为solr添加中文分词
1、 在百度搜索ik-analyzer,找到后下载,我下载的是【IKAnalyzer 2012FF_hf1.zip】,解压后会看到如下目录
2、 把IKAnalyzer2012FF_u1.jar拷贝到webapps下solr的lib文件夹下,把IKAnal...
分类:
其他好文 时间:
2015-08-05 10:32:28
阅读次数:
238
对于切词确实是一个复杂的功能,足以写上好几篇论文,但是如果仅仅想对一个句子、一个段落、一篇文章进行切词,可以利用中国自然语言开源组织中各位大牛写好的工具。已经打包成jar包,可以直接调用了,无须自己再考虑复杂的算法。
当然这种切词是对于自然语言的,对于一些有规律的字符串,请自行利用indexOf、substring、split的各类Java自带函数,没有使用额外java包的必要。
首先假如有如...
分类:
编程语言 时间:
2015-08-04 11:23:02
阅读次数:
236
使用MapReduce编写的中文分词程序出现了 Exception from container-launch: org.apache.hadoop.util.Shell$ExitCodeException: 这样的问题如图:
上网查了好多资料,才明白这是hadoop本身的问题,具体参考:
https://issues.apache.org/jira/browse/YARN-1298
...
分类:
Web程序 时间:
2015-08-01 12:59:50
阅读次数:
339
Lucene 5.2.1 + jcseg 1.9.6中文分词索引(Lucene 学习序列2)
jcseg是使用Java开发的一个开源的中文分词器,使用流行的mmseg算法实现。是一款独立的分词组件,不是针对lucene而开发,
但是提供了最新版本的lucene和solr分词接口。...
分类:
Web程序 时间:
2015-07-31 18:27:39
阅读次数:
288
Elasticsearch默认提供的分词器,会把每个汉字分开,而不是我们想要的根据关键词来分词,比如我们更希望 “中国人”,“中国”,“我”这样的分词,因此需要安装中文分词插件IK来实现此功能。elasticsearch-analysis-ik 是一款中文的分词插件,支持自定义词库,具体安装步骤如下...
分类:
其他好文 时间:
2015-07-29 22:52:23
阅读次数:
194
一,从github上下载最新的Ik分词源码到本地 git clone https://github.com/medcl/elasticsearch-analysis-ik clone到本地后,将elasticsearch-analysis-ik目录中的 config/ik/ 整个目录拷贝到Elasticsearch安装目...
分类:
其他好文 时间:
2015-07-22 19:09:42
阅读次数:
228