这篇博客我记录在了http://segmentfault.com/a/1190000003101351
分类:
其他好文 时间:
2015-08-16 21:08:59
阅读次数:
162
Sphinx并不支持中文分词,也就不支持中文搜索, Coreseek = Sphinx +MMSEG(中文分词算法)
分类:
其他好文 时间:
2015-08-16 10:45:01
阅读次数:
107
分词器对英文的支持是非常好的。 一般分词经过的流程: 1)切分关键词 2)去除停用词 3)把英文单词转为小写 但是老外写的分词器对中文分词一般都是单字分词,分词的效果不好。 国人林良益写的IK Analyzer应该是最好的Lucene中文分词器之一,而且随着Lucene的版本更新而不断更...
分类:
Web程序 时间:
2015-08-16 10:43:15
阅读次数:
445
很简易的一个智能自动问答机器人,应用了中文句子分词、多关键词句子匹配技术。
CHATTING
body{
background-color:#cccccc;
color:#eee;
text-align:center;
}
#dialogDisplay{
position:relative;
max-width:600px;
...
分类:
其他好文 时间:
2015-08-15 15:01:01
阅读次数:
193
当我们使用中文分词器的时候,其实也希望它能够支持对于英文的分词。试想,任何一个存储文字的字段都有可能是中英文夹杂的。
我们的项目中使用IKAnalyzer作为中文分词器,它在处理文档过程中遇到英文时,利用空格和标点将英文单词取出来,同时也会对其转全小写处理。其实这和真正的英文分词已经很接近了,只有一墙之隔:词干提取。一个真正的英文分词器除了...
分类:
其他好文 时间:
2015-08-12 13:18:15
阅读次数:
1638
程序开发102脚本编程语言36地图相关7Epub电子图书工具109UI组件库16代码生成工具25SVG开发包17推荐引擎3指纹识别23拼音转换工具包24蓝牙开发295GUI开发框架35Swing开发包1137常用工具包247报表/图表制作207模板引擎159搜索引擎48中文分词库82缓存系统487网...
分类:
其他好文 时间:
2015-08-11 07:12:50
阅读次数:
176
简介Sphinx是开源的搜索引擎,它支持英文的全文检索。所以如果单独搭建Sphinx,你就已经可以使用全文索引了但是有些时候我们还要进行中文分词所有scws就出现了,我们也可以使用Coreseek来建立中文索引,而Coreseek的内核就是Sphinx1、环境PHP 5.5.23+centos 6....
分类:
Web程序 时间:
2015-08-08 01:14:46
阅读次数:
461
中文分词其实有点像古代的句读(dou),韩愈的《师说》中就有:“彼童子之师,授之书而习其句读者也”。古人文章是没有标点符号的,行文一气呵成。如果不懂离经断句,就很难理解古文的意思。从某种程度上,句读就类似今天要讲的中文分词。
北京航空航天大学的梁南元教授提出了查字典的方法
查字典的方法就是把句子从左到右扫描一遍,遇到字典里有的词就标示出来,遇到不认识的字串就分割为单字词。如果分割出的词与后面的...
分类:
其他好文 时间:
2015-08-07 23:58:13
阅读次数:
313
在上一篇文章中我们学习了solr的快速入门和针对mysql数据库建立索引,今天我们介绍如何为solr添加中文分词
1、 在百度搜索ik-analyzer,找到后下载,我下载的是【IKAnalyzer 2012FF_hf1.zip】,解压后会看到如下目录
2、 把IKAnalyzer2012FF_u1.jar拷贝到webapps下solr的lib文件夹下,把IKAnal...
分类:
其他好文 时间:
2015-08-05 10:32:28
阅读次数:
238
对于切词确实是一个复杂的功能,足以写上好几篇论文,但是如果仅仅想对一个句子、一个段落、一篇文章进行切词,可以利用中国自然语言开源组织中各位大牛写好的工具。已经打包成jar包,可以直接调用了,无须自己再考虑复杂的算法。
当然这种切词是对于自然语言的,对于一些有规律的字符串,请自行利用indexOf、substring、split的各类Java自带函数,没有使用额外java包的必要。
首先假如有如...
分类:
编程语言 时间:
2015-08-04 11:23:02
阅读次数:
236