在网上下载了lucene当前最新版本4.0,以及IKAnalyzer中文分词器的完整发布包。 运行之后发现异常:Exception in thread "main" java.lang.VerifyError: class org.wltea.analyzer.lucene.IKAnalyzer overrides fi...
分类:
其他好文 时间:
2014-08-26 11:58:26
阅读次数:
216
首先将下载解压后的solr-4.9.0的目录里面找到lucene-analyzers-smartcn-4.9.0.jar文件,将它复制到solr的应用程序里面D:\apache-tomcat-7.0.54\webapps\solr\WEB-INF\lib,备注:网上很多文章使用IK中文分词器(IK_...
更新了公司的搜索,写下日志来激励自己!新版搜索新特性:solr版本升级到solr4.8.1中文分词器改用ansj,开源,简洁,强大,无害词库兼顾任意编码格式,不怕乱码分词器和分词词库分离,降低更新分词器版本难度分词器配置统一在library.properties中,在solr/WEB-INF/cla...
分类:
其他好文 时间:
2014-07-13 08:04:32
阅读次数:
268
Solr调研总结开发类型全文检索相关开发Solr版本4.2文件内容本文介绍solr的功能使用及相关注意事项;主要包括以下内容:环境搭建及调试、两个核心配置文件介绍、中文分词器配置、维护索引、查询索引,高亮显示、拼写检查、搜索建议、分组统计、自动聚类、相似匹配、拼音检索等功能的使用方法。在代码文本框中...
分类:
其他好文 时间:
2014-05-26 22:22:05
阅读次数:
886
1.基本介绍:paoding:Lucene中文分词“庖丁解牛”
PaodingAnalysisimdict :imdict智能词典所采用的智能中文分词程序mmseg4j: 用 Chih-Hao Tsai 的 MMSeg 算法
实现的中文分词器ik :采用了特有的“正向迭代最细粒度切分算法“,多子处理...
分类:
其他好文 时间:
2014-05-24 11:47:16
阅读次数:
358
本篇是本人在Solr的基础上,配置了中文分词器,并对其进行的性能测试总结,具体包括使用mmseg4j、IKAnalyzer、Ansj,分别从创建索引效果、创建索引性能、数据搜索效率等方面进行衡量。具体的Solr使用方法假设读者已有了基础,关于Solr的性能指标见前期的Solr博文。
分类:
其他好文 时间:
2014-05-24 09:33:03
阅读次数:
371
官方网站:https://code.google.com/p/friso/
最新动态:friso-1.6.0发布了(2014.05.08 最新版本)
开源,简单易用,很适合分词技术的研究。
一。friso中文分词器
Friso是使用c语言开发的一款高性能中文分词器,使用流行的mmseg算法实现。完全基于模块化设计和实现,可以很方便的植入到其他程序中,例如:MySQL,PHP等。同时支...
分类:
Web程序 时间:
2014-05-08 08:17:13
阅读次数:
892