抓了20000多条的短评数据,利用Word2Vec算法做了一回情感分析,透过这些几个字到几百个字不等的短评来一窥评论者的喜怒哀乐。看看如何使用中文分词器以及加载停用词库,Word2Vec又是如何构建语料库,训练数据集以及得到模型的。 ...
分类:
编程语言 时间:
2016-12-04 07:51:59
阅读次数:
817
今天lucene中集成第三方中文分词器IKAnalyzer的时候遇到了相似的问题:lucene版本4.9、IKAnalyzer版本2012FF_hf1 直接去maven仓库下载,pom配置如下: 发现maven仓库里没有!只能自己配置将本地jar包添加到maven 好了,编译通过。但是问题来了运行时 ...
分类:
编程语言 时间:
2016-12-01 13:46:55
阅读次数:
404
<!--StartFragment--> 左边是索引过程,右边是检索过程。关键的步骤是分词过程,我用等号表示这两个过程一样,而且,必须一样,这个等号并不是模糊的流程的相同,而且必须是逻辑也相同。 简单来讲,采用的分词器和分词流程需要一样,否则,很有可能填进去的文档,搜不出来。 本篇重点在如何用JAV ...
分类:
其他好文 时间:
2016-11-26 14:57:39
阅读次数:
205
如何在Elasticsearch中安装中文分词器(IK+pinyin) 如果直接使用Elasticsearch的朋友在处理中文内容的搜索时,肯定会遇到很尴尬的问题——中文词语被分成了一个一个的汉字,当用Kibana作图的时候,按照term来分组,结果一个汉字被分成了一组。 这是因为使用了Elasti ...
分类:
其他好文 时间:
2016-11-25 01:09:56
阅读次数:
467
本文的目标有两个: 1、学会使用11大Java开源中文分词器 2、对比分析11大Java开源中文分词器的分词效果 本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那要用的人结合自己的应用场景自己来判断。 11大Java开源中文分词器,不同的分词器有不同的用法,定义 ...
分类:
编程语言 时间:
2016-10-31 22:01:44
阅读次数:
358
每日任务内容: 每日任务内容: 姓名 今日任务 明日安排 金豪 文件规格说明以及架构规划 完善软件设计架构 敲定细节 谷大鑫 编写数据处理完成后上传到solr服务区上的程序 编写数据处理程序,阅读上一届代码并整合以适应我们的接口 杨金键 效果并不理想,实现麻烦,经过知道计划改用现成的库 尝试用现成的 ...
分类:
其他好文 时间:
2016-10-28 02:25:45
阅读次数:
127
在前面的博文中,已完成了在tomcat中对solr的部署,为solr添加了一个自定义的core,并且引入了ik分词器。那么该如何将本地的mysql的数据导入到solr中呢?准备工作:1、mysql数据源:myuser库中的user表(8条数据)/*
NavicatMySQLDataTransfer
SourceServer:localhost
SourceSe..
分类:
数据库 时间:
2016-10-21 17:06:41
阅读次数:
299
分词技术是搜索技术里面的一块基石。很多人用过,如果你只是为了简单快速地搭一个搜索引擎,你确实不用了解太深。但一旦涉及效果问题,分词器上就可以做很多文章。例如,在我们实际用作电商领域的搜索的工作中,类目预判的实现就极须依赖分词,至少需要做到可以对分词器动态加..
分类:
其他好文 时间:
2016-10-21 08:16:40
阅读次数:
274
1、将IKAnalyzer-2012-4x.jar拷贝到example\solr-webapp\webapp\WEB-INF\lib下; 2、在schema.xml文件中添加fieldType: <fieldType name="text_ik" class="solr.TextField"> <a ...
分类:
其他好文 时间:
2016-10-18 15:58:01
阅读次数:
162
转自:http://blog.csdn.net/linzhiqiang0316/article/details/51554217,表示感谢。 由于前面没有设置分词器,以至于查询的结果出入比较大,并且无法进行正确的高亮显示。现在配置一下分词器来解决相关问题。 solr6.0中进行中文分词器IK Ana ...
分类:
其他好文 时间:
2016-10-02 00:45:38
阅读次数:
222