码迷,mamicode.com
首页 >  
搜索关键字:ansj    ( 44个结果
[nlp相关] ansj-seg初探
最近又要做文本方面的处理,由于需求的定制化较高,还可能要放到集群上使用,所以不能再用公司封得严严密密、又笨又重的分词组件了。于是再次在网上找了一下能下载的分词工具,开源的:mmseg、IK_Analyzer、imdict、paoding、jcseg、free_ictclas、fnlp闭源的:NLPI...
分类:其他好文   时间:2014-12-16 17:00:10    阅读次数:6186
安装ansj分词器
项目地址:https://github.com/4onni/elasticsearch-analysis-ansjhttps://github.com/laigood/elasticsearch-analysis-ansj安装步骤基本上是按照第一个网页的要求安装的,通过插件的形式.
分类:其他好文   时间:2014-11-27 20:12:46    阅读次数:152
【Java】Java中文分词器Ansj的使用
以前都是用C++对中文进行分词,也用过Python的“结巴”分词,最近用了一下Java的Ansj中文分词,感觉还不错。 下面是用Ansj对中文进行分词的一个简单例子,希望能对大家有用。 1.下载Ansj的相关jar包 要用Ansj进行中文分词,必须先下载Ansj的jar包,下载地址可以参考:https://github.com/NLPchina/ansj_seg 2.程序代...
分类:编程语言   时间:2014-11-26 14:24:16    阅读次数:329
ansj 2.0.7 错误例子分析
ansj的一个bug,导致分词不符合期望
分类:其他好文   时间:2014-11-12 13:28:41    阅读次数:115
Ansj分词双数组Trie树实现与arrays.dic词典格式
http://www.hankcs.com/nlp/ansj-word-pairs-array-tire-tree-achieved-with-arrays-dic-dictionary-format.htmlarrays.dic是一个双数组Trie树格式的词典,用文本的形式储存了索引,字串,bas...
分类:编程语言   时间:2014-11-04 12:32:05    阅读次数:304
Ansj配置指南!
ANSJ配置入门...
分类:其他好文   时间:2014-10-08 10:12:15    阅读次数:240
[分词]Java开源中文分词器ANSJ_SEG初次试用
近日需要对大众点评网60万+的景点评论进行语义分析,所以必须使用分词工具,刚刚开始时我是选择使用NLPIR汉语分词系统(又名ICTCLAS2014),NLPIR的教程在[分词]NLPIR/ICTCLAS2014分词系统的C++ API 在Windows下初次使用,但是直观上感觉分词效果不怎么理想.....
分类:编程语言   时间:2014-09-20 09:57:17    阅读次数:342
solrcloud和zookeeper的搭建、使用、心得、教训
公司的solr线上服务器,分成差不多是个core给不同的部门不同的业务需求来使用。我接手以来,问题多多,烦扰多多。有不少问题亟待解决,首当其冲的是搜索准确度、数据同步。搜索准确度已经通过改用ansj分词器和不断优化的个人词库和停用词库来解决,这是个不断优化的过程,需要长时间的跟进才有明显效果。第二个...
分类:其他好文   时间:2014-07-19 15:19:33    阅读次数:846
新版搜索日志记录-持续更新
更新了公司的搜索,写下日志来激励自己!新版搜索新特性:solr版本升级到solr4.8.1中文分词器改用ansj,开源,简洁,强大,无害词库兼顾任意编码格式,不怕乱码分词器和分词词库分离,降低更新分词器版本难度分词器配置统一在library.properties中,在solr/WEB-INF/cla...
分类:其他好文   时间:2014-07-13 08:04:32    阅读次数:268
打造一款属于自己的web服务器——最后的一点完善
一日在群里听大神们论道,突然一大神说其刚刚为自己的一个开源项目(Ansj)添加了个web启动接口,可以很方便的发布测试项目,不禁十分好奇,便前去一观。本着想大神学习的心态,打算自己仿写一个练练手,谁知道一写起来就停不下来了,越写越想完善,慢慢的就想去实现一个自己的web服务器。
分类:Web程序   时间:2014-06-02 19:45:09    阅读次数:290
44条   上一页 1 2 3 4 5 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!