最近又要做文本方面的处理,由于需求的定制化较高,还可能要放到集群上使用,所以不能再用公司封得严严密密、又笨又重的分词组件了。于是再次在网上找了一下能下载的分词工具,开源的:mmseg、IK_Analyzer、imdict、paoding、jcseg、free_ictclas、fnlp闭源的:NLPI...
分类:
其他好文 时间:
2014-12-16 17:00:10
阅读次数:
6186
项目地址:https://github.com/4onni/elasticsearch-analysis-ansjhttps://github.com/laigood/elasticsearch-analysis-ansj安装步骤基本上是按照第一个网页的要求安装的,通过插件的形式.
分类:
其他好文 时间:
2014-11-27 20:12:46
阅读次数:
152
以前都是用C++对中文进行分词,也用过Python的“结巴”分词,最近用了一下Java的Ansj中文分词,感觉还不错。
下面是用Ansj对中文进行分词的一个简单例子,希望能对大家有用。
1.下载Ansj的相关jar包
要用Ansj进行中文分词,必须先下载Ansj的jar包,下载地址可以参考:https://github.com/NLPchina/ansj_seg
2.程序代...
分类:
编程语言 时间:
2014-11-26 14:24:16
阅读次数:
329
http://www.hankcs.com/nlp/ansj-word-pairs-array-tire-tree-achieved-with-arrays-dic-dictionary-format.htmlarrays.dic是一个双数组Trie树格式的词典,用文本的形式储存了索引,字串,bas...
分类:
编程语言 时间:
2014-11-04 12:32:05
阅读次数:
304
近日需要对大众点评网60万+的景点评论进行语义分析,所以必须使用分词工具,刚刚开始时我是选择使用NLPIR汉语分词系统(又名ICTCLAS2014),NLPIR的教程在[分词]NLPIR/ICTCLAS2014分词系统的C++ API 在Windows下初次使用,但是直观上感觉分词效果不怎么理想.....
分类:
编程语言 时间:
2014-09-20 09:57:17
阅读次数:
342
公司的solr线上服务器,分成差不多是个core给不同的部门不同的业务需求来使用。我接手以来,问题多多,烦扰多多。有不少问题亟待解决,首当其冲的是搜索准确度、数据同步。搜索准确度已经通过改用ansj分词器和不断优化的个人词库和停用词库来解决,这是个不断优化的过程,需要长时间的跟进才有明显效果。第二个...
分类:
其他好文 时间:
2014-07-19 15:19:33
阅读次数:
846
更新了公司的搜索,写下日志来激励自己!新版搜索新特性:solr版本升级到solr4.8.1中文分词器改用ansj,开源,简洁,强大,无害词库兼顾任意编码格式,不怕乱码分词器和分词词库分离,降低更新分词器版本难度分词器配置统一在library.properties中,在solr/WEB-INF/cla...
分类:
其他好文 时间:
2014-07-13 08:04:32
阅读次数:
268
一日在群里听大神们论道,突然一大神说其刚刚为自己的一个开源项目(Ansj)添加了个web启动接口,可以很方便的发布测试项目,不禁十分好奇,便前去一观。本着想大神学习的心态,打算自己仿写一个练练手,谁知道一写起来就停不下来了,越写越想完善,慢慢的就想去实现一个自己的web服务器。
分类:
Web程序 时间:
2014-06-02 19:45:09
阅读次数:
290