1:非基于词典的分词(人工智能领域)
相当于人工智能领域计算。一般用于机器学习,特定领域等方法,这种在特定领域的分词可以让计算机在现有的规则模型中,
推理如何分词。在某个领域(垂直领域)分词精度较高。例:比较流行的语义网:基于本体的语义检索。
2:基于词典的分词(最为常见)
这类分词算法比较常见,比如正向/逆向匹配。例如: mmseg分词器 就是一种基于词典的分词算法。以最大正向匹配为主,多
种 消除歧义算法为辅。但是不管怎么分。该类分词方法,分词精度不高。由于中文比较复杂,不推荐采用正向...
分类:
编程语言 时间:
2015-02-08 09:12:11
阅读次数:
327
Elasticsearch的中文分词很烂,所以我们需要安装ik。首先从github上下载项目,解压:cd /tmpwget https://github.com/medcl/elasticsearch-analysis-ik/archive/master.zipunzip master.zipcd ...
分类:
其他好文 时间:
2015-02-05 20:22:04
阅读次数:
204
配置的过程中出现了一些小问题,一下将详细讲下IK Analyzer的配置过程,配置非常的简单,但是首先主要你的Solr版本是哪个,如果是3.x版本的用IKAnalyzer2012_u6.zip如果是4.x版本的用IK Analyzer 2012FF_hf1.zip,一定要对应上,要不然会配置失败。以下是详细步骤:
1、下载IK Analyzer。
下载地址为:http://code.googl...
分类:
其他好文 时间:
2015-02-03 19:28:06
阅读次数:
223
用两种方法进行中文分词:Rwordseg和jiebaR
R语言的环境配置:
R_Path:
C:\Program Files\R\R-3.1.2
Path:
%R_Path%...
分类:
编程语言 时间:
2015-02-02 09:40:10
阅读次数:
278
可能需要连接上篇《Solr与tomcat整合》
1.从http://code.google.com/p/mmseg4j/ 下载mmseg4j
2.从下载的文件中把mmseg4j-all-1.8.4.jar和mmseg4j_solr-1.8.4.jar拷贝到tomcat下WEB-INF下的lib目录下。将data里的.dic文件拷贝到solrproject->home 下的dic...
分类:
其他好文 时间:
2015-01-29 09:39:49
阅读次数:
153
微信语义理解接口称为智能接口,但微信只是开了一半接口,剩下一半要求用户自己去对接业务。这个语义理解类似中文分词技术,优于模糊匹配,拿查股票为例,你说“东风汽车”,“东风汽车股票”,“东风汽车价格”,“查一查东风汽车当前价”返回的内容是一样的,因此语义理解和微信语音识别的配合是最好的,由于口语化,识别率问题,智能接口就有一定用武之地。查询的参数包括query(语音识别结果),city(股票不影响),...
分类:
微信 时间:
2015-01-26 22:44:14
阅读次数:
472
针对solr的分词器比较多,其中最常用的的两个是mmseg4j和ik-analyzer,至于他们的区别可以网上查找比较下,这两个分词器都挺好用。我搭建的solr环境(上一篇)是4.10.3的最新版本,以下将详细说下mmseg4j的配置。
1.首先下载对应的jar包。
版本号一定要对应上否则可能会报错,下载地址为:http://code.google.com/p/mmseg4j/ 但是这个网址好...
分类:
其他好文 时间:
2015-01-25 11:12:29
阅读次数:
172
注:Elasticsearch版本:1.4.2一、安装与配置1.从https://github.com/medcl/elasticsearch-analysis-ik下载elasticsearch-analysis-ik-master.zip2.解压elasticsearch-analysis-ik...
分类:
其他好文 时间:
2015-01-23 19:40:16
阅读次数:
16588
前提nutch1.2已部署到eclipse中详见:http://www.cnblogs.com/cy163/archive/2013/02/19/2916419.html1 部署IKAnalyzer3.2.81.1 下载IKAnalyzer3.2.81.2 将IKAnalyzer3.2.8复制到nu...
分类:
系统相关 时间:
2015-01-22 21:43:38
阅读次数:
304
1、下载IKAnalyzer2012FF_hf1.zip解压如下图:注解(IKAnalyzer2012才能支持solr4.0以上的版本)下载地址:http://pan.baidu.com/s/1c0nMOhE2、添加IKAnalyzer2012FF中文分词:把IKAnalyzer2012_FF文件夹IKAnalyzer2012_FF.jar放在tomcat1.6,webapps\solr\WEB-INF\lib的目录下..
分类:
其他好文 时间:
2015-01-21 20:25:33
阅读次数:
233