一、配置中文分析器 使用IKAnalyzer 配置方法: 1)把IK的jar包添加到solr工程中/WEB-INF/lib目录下 2)把IK的配置文件扩展词典,放到classpath下。/WEB-INF/classes目录下 3)在schema.xml中定义FieldType,指定使用IK作为分析器 ...
分类:
其他好文 时间:
2017-09-11 22:44:39
阅读次数:
146
J2EE 框架Spring 开发框架 + SSH or SSM Lucene 索引和查询IKAnalyzer 分词Webmagic 爬虫 ETL工具:KettleSqoop 结构化数据库-hadoop数据萃取。可以将一个关系型数据库(MySQL ,Oracle等)中的数据导进到Hadoop的HDFS ...
分类:
其他好文 时间:
2017-08-30 17:14:00
阅读次数:
187
1.分析器的执行过程: 第一个 TokenFilter将大写字母变为小写,第二次分词去掉空格并换行,第三次去掉不要的 and或者标点符号 2.中文分词器介绍: (1)lucene自带的 (2)第三方的 3.查看标准分词器对中文的分词效果: 最终决定使用的是IKAnalyzer()分词器,支持中文扩展 ...
分类:
Web程序 时间:
2017-08-05 19:45:09
阅读次数:
386
1新建demo-solr关闭运行的solr应用。进入solr目录:D:\solr-4.10.2\example1、在example目录下创建demo-solr文件夹;2、将./solr下的solr.xml拷贝到demo-solr目录下;3、在demo-solr下创建demo目录,并且在demo目录下创建conf和data目录;4、将example\solr\collection1\core.p..
分类:
其他好文 时间:
2017-07-10 16:28:18
阅读次数:
290
IKAnalyzer简介 IKAnalyzer简介 IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。 IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。 IKAnalyzer特性 a. 算法采用“正向迭代最细粒度切分算法”,支持细粒度和最 ...
分类:
其他好文 时间:
2017-05-24 15:52:18
阅读次数:
218
1、分词工具是IKAnalyzer它是以开源项目Lucene为应用主体的,结合词典分词和文法分析算法的中文分词组件。2、UUID(UniversallyUniqueIdentifier)全局唯一标识符,是指在一台机器上生成的数字,它保证对在同一时空中的所有机器都是唯一的。3、插入数据库错误:Datatruncation:Dat..
分类:
其他好文 时间:
2017-05-07 20:07:15
阅读次数:
137
1.下载IK分词器支持5.5.4的http://download.csdn.net/detail/wang_keng/95354912.需要把分析器的jar包添加到solr工程中的tomcat的WEB-INF/lib下cpIKAnalyzer2012FF_u2.jar/usr/local/solr/tomcat/webapps/solr/WEB-INF/lib/3.需要把IKAnalyzer需要的扩展词典及停用词词典、配置..
分类:
其他好文 时间:
2017-04-22 22:52:40
阅读次数:
213
1、在mvnrepository里面找IKAnalyzer,这个中文分词包,一直没有找到,找到github,发现是一个国人写的。 http://mvnrepository.com/search?q=IKAnalyzer 2、转换成maven包,安装到本地。找到有现成的mavenproject,拿来主 ...
分类:
其他好文 时间:
2017-04-14 09:45:02
阅读次数:
202
下载了IKAnalyzer源码后,配置运行后出现了Main Dictionary not found!!! 异常 跟进去后发现是配置文件没有找到org/wltea/analyzer/dic/main2012.dic,查找发现idea生成的build目录中并没有main2012.dic这个文件 当我把 ...
分类:
其他好文 时间:
2017-04-08 23:49:45
阅读次数:
1716
Solr6.5配置中文分词IKAnalyzer和拼音分词pinyinAnalyzer ...
分类:
其他好文 时间:
2017-04-02 15:13:17
阅读次数:
385