码迷,mamicode.com
首页 >  
搜索关键字:中文分词    ( 704个结果
深度解析中文分词器算法(最大正向/逆向匹配)
1:非基于词典的分词(人工智能领域) 相当于人工智能领域计算。一般用于机器学习,特定领域等方法,这种在特定领域的分词可以让计算机在现有的规则模型中, 推理如何分词。在某个领域(垂直领域)分词精度较高。例:比较流行的语义网:基于本体的语义检索。 2:基于词典的分词(最为常见) 这类分词算法比较常见,比如正向/逆向匹配。例如: mmseg分词器 就是一种基于词典的分词算法。以最大正向匹配为主,多 种 消除歧义算法为辅。但是不管怎么分。该类分词方法,分词精度不高。由于中文比较复杂,不推荐采用正向...
分类:编程语言   时间:2015-02-08 09:12:11    阅读次数:327
为Elasticsearch添加中文分词
Elasticsearch的中文分词很烂,所以我们需要安装ik。首先从github上下载项目,解压:cd /tmpwget https://github.com/medcl/elasticsearch-analysis-ik/archive/master.zipunzip master.zipcd ...
分类:其他好文   时间:2015-02-05 20:22:04    阅读次数:204
Solr配置中文分词器IK Analyzer详解
配置的过程中出现了一些小问题,一下将详细讲下IK Analyzer的配置过程,配置非常的简单,但是首先主要你的Solr版本是哪个,如果是3.x版本的用IKAnalyzer2012_u6.zip如果是4.x版本的用IK Analyzer 2012FF_hf1.zip,一定要对应上,要不然会配置失败。以下是详细步骤: 1、下载IK Analyzer。 下载地址为:http://code.googl...
分类:其他好文   时间:2015-02-03 19:28:06    阅读次数:223
R语言进行中文分词
用两种方法进行中文分词:Rwordseg和jiebaR R语言的环境配置: R_Path: C:\Program Files\R\R-3.1.2 Path: %R_Path%...
分类:编程语言   时间:2015-02-02 09:40:10    阅读次数:278
solr配置中文分词器
可能需要连接上篇《Solr与tomcat整合》 1.从http://code.google.com/p/mmseg4j/    下载mmseg4j 2.从下载的文件中把mmseg4j-all-1.8.4.jar和mmseg4j_solr-1.8.4.jar拷贝到tomcat下WEB-INF下的lib目录下。将data里的.dic文件拷贝到solrproject->home  下的dic...
分类:其他好文   时间:2015-01-29 09:39:49    阅读次数:153
微信语义理解接口的应用-股票查询
微信语义理解接口称为智能接口,但微信只是开了一半接口,剩下一半要求用户自己去对接业务。这个语义理解类似中文分词技术,优于模糊匹配,拿查股票为例,你说“东风汽车”,“东风汽车股票”,“东风汽车价格”,“查一查东风汽车当前价”返回的内容是一样的,因此语义理解和微信语音识别的配合是最好的,由于口语化,识别率问题,智能接口就有一定用武之地。查询的参数包括query(语音识别结果),city(股票不影响),...
分类:微信   时间:2015-01-26 22:44:14    阅读次数:472
Solr配置中文分词器mmseg4j详解
针对solr的分词器比较多,其中最常用的的两个是mmseg4j和ik-analyzer,至于他们的区别可以网上查找比较下,这两个分词器都挺好用。我搭建的solr环境(上一篇)是4.10.3的最新版本,以下将详细说下mmseg4j的配置。 1.首先下载对应的jar包。 版本号一定要对应上否则可能会报错,下载地址为:http://code.google.com/p/mmseg4j/ 但是这个网址好...
分类:其他好文   时间:2015-01-25 11:12:29    阅读次数:172
为Elasticsearch安装中文分词IK
注:Elasticsearch版本:1.4.2一、安装与配置1.从https://github.com/medcl/elasticsearch-analysis-ik下载elasticsearch-analysis-ik-master.zip2.解压elasticsearch-analysis-ik...
分类:其他好文   时间:2015-01-23 19:40:16    阅读次数:16588
Ubuntu环境下:Nutch1.2 二次开发(中文分词)
前提nutch1.2已部署到eclipse中详见:http://www.cnblogs.com/cy163/archive/2013/02/19/2916419.html1 部署IKAnalyzer3.2.81.1 下载IKAnalyzer3.2.81.2 将IKAnalyzer3.2.8复制到nu...
分类:系统相关   时间:2015-01-22 21:43:38    阅读次数:304
第二步solr配置中文分词IK Analyzer
1、下载IKAnalyzer2012FF_hf1.zip解压如下图:注解(IKAnalyzer2012才能支持solr4.0以上的版本)下载地址:http://pan.baidu.com/s/1c0nMOhE2、添加IKAnalyzer2012FF中文分词:把IKAnalyzer2012_FF文件夹IKAnalyzer2012_FF.jar放在tomcat1.6,webapps\solr\WEB-INF\lib的目录下..
分类:其他好文   时间:2015-01-21 20:25:33    阅读次数:233
704条   上一页 1 ... 58 59 60 61 62 ... 71 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!