【集锦】Nutch配置错误IO错误 记得出错的时候把出错的目录删除,否则下次还是出错。Command crawl is deprecated, please use bin/crawl instead 1.8和2.3版本不可以使用这个命令,所以才会有之前的错误。 使用以下代替:1 Us...
分类:
其他好文 时间:
2015-05-14 13:54:37
阅读次数:
204
使用IKAnalyzer 3.2.8,今晚因为这个报错抓狂了一个网上,百度、google各种搜都没搜到可以解决的办法。 报错:java.lang.NoClassDefFoundError: Could not initialize class org.wltea.analyzer.dic.Dictionary ...
分类:
其他好文 时间:
2015-02-28 00:28:34
阅读次数:
258
IK Analyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包。可与lucene配合使用。
项目地址:http://www.oschina.net/p/ikanalyzer/
下载页面:http://git.oschina.net/wltea/IK-Analyzer-2012FF
示例代码:
{CSDN:CODE:602681}
该代码的工程结构:下图...
分类:
其他好文 时间:
2015-02-11 18:44:37
阅读次数:
193
在配置IKAnalyzer 同义词时,遇到一些麻烦,配置了半天终于成功,在此做个记录,方便以后参考
其实配置也简单,主要是jar包,IKAnalyzer貌似已经没人更新了……本人也是从别人那下载的才可用,我也将jar包上传至本人资源,
路径为:http://download.csdn.net/download/tjcyjd/8430613
在solr的配置文件schema.xml中添加:...
分类:
其他好文 时间:
2015-02-10 11:16:03
阅读次数:
373
lucene实现索引的创建与检索;ikanalyzer实现对中文的分词;光到这里已经能够实现中文的检索了,但是光这样还不够,很多项目中的检索,应该还能够对同义词进行处理,比如索引库中有“计算机”,“电脑”这样的词条,搜索“笔记本”应该也能把“计算机”,“电脑”这样的词条匹配出来,这就涉及到对同义词的索引检索了。
两种方案:
1、在建立索引时,拆词建索引时就把同义词考虑进去,将同义词的词...
分类:
Web程序 时间:
2015-01-29 00:08:42
阅读次数:
311
IKAnalyzer1.3.4要自定义我们自己的词库,而且我们可以随时新增分词,网上查了一圈没有相关资料,看来只有自己搞定了。观察了下IKAnalyzer分词器的配置文件IKAnalyzer.cfg.xml发现其中有这样一个选项:
,而且作者做了注释说这个就是扩展远程词典的。于是打开IKAnalyzer的源码查看,最后在Dictronary这类下找到这个方法:getRemoteWords。经过查...
分类:
其他好文 时间:
2015-01-23 18:34:17
阅读次数:
232
集成IKAnalyzer,简化了中文分词(详见下载包内的开发手册)。终身免费使用,能开发:大型手机App服务端系统 大型功能性网站开发(如:电子商务网站、社区、门户等) 大数据系统应用开发(与vertica无缝集成) 应用解决方案,如电子政务系统、管理系统、协作系统、企业ERP/DRP/MRP等...
分类:
Web程序 时间:
2015-01-21 10:15:08
阅读次数:
272
在lucene创建索引的过程中,分词技术是一个十分重要的环节,介绍了7中比较常见的分词技术 CJKAnalyzer、KeywordAnalyzer、SimpleAnalyzer、StopAnalyzer、WhitespaceAnalyzer、StandardAnalyzer、IKAnalyzer...
分类:
Web程序 时间:
2015-01-20 15:51:03
阅读次数:
233
在网上下载了lucene当前最新版本4.0,以及IKAnalyzer中文分词器的完整发布包。运行之后发现异常:Exception in thread "main" java.lang.VerifyError: class org.wltea.analyzer.lucene.IKAnalyzer ov...
分类:
Web程序 时间:
2014-12-18 16:29:35
阅读次数:
1432