用两种方法进行中文分词:Rwordseg和jiebaR
R语言的环境配置:
R_Path:
C:\Program Files\R\R-3.1.2
Path:
%R_Path%...
分类:
编程语言 时间:
2015-02-02 09:40:10
阅读次数:
278
可能需要连接上篇《Solr与tomcat整合》
1.从http://code.google.com/p/mmseg4j/ 下载mmseg4j
2.从下载的文件中把mmseg4j-all-1.8.4.jar和mmseg4j_solr-1.8.4.jar拷贝到tomcat下WEB-INF下的lib目录下。将data里的.dic文件拷贝到solrproject->home 下的dic...
分类:
其他好文 时间:
2015-01-29 09:39:49
阅读次数:
153
微信语义理解接口称为智能接口,但微信只是开了一半接口,剩下一半要求用户自己去对接业务。这个语义理解类似中文分词技术,优于模糊匹配,拿查股票为例,你说“东风汽车”,“东风汽车股票”,“东风汽车价格”,“查一查东风汽车当前价”返回的内容是一样的,因此语义理解和微信语音识别的配合是最好的,由于口语化,识别率问题,智能接口就有一定用武之地。查询的参数包括query(语音识别结果),city(股票不影响),...
分类:
微信 时间:
2015-01-26 22:44:14
阅读次数:
472
针对solr的分词器比较多,其中最常用的的两个是mmseg4j和ik-analyzer,至于他们的区别可以网上查找比较下,这两个分词器都挺好用。我搭建的solr环境(上一篇)是4.10.3的最新版本,以下将详细说下mmseg4j的配置。
1.首先下载对应的jar包。
版本号一定要对应上否则可能会报错,下载地址为:http://code.google.com/p/mmseg4j/ 但是这个网址好...
分类:
其他好文 时间:
2015-01-25 11:12:29
阅读次数:
172
注:Elasticsearch版本:1.4.2一、安装与配置1.从https://github.com/medcl/elasticsearch-analysis-ik下载elasticsearch-analysis-ik-master.zip2.解压elasticsearch-analysis-ik...
分类:
其他好文 时间:
2015-01-23 19:40:16
阅读次数:
16588
前提nutch1.2已部署到eclipse中详见:http://www.cnblogs.com/cy163/archive/2013/02/19/2916419.html1 部署IKAnalyzer3.2.81.1 下载IKAnalyzer3.2.81.2 将IKAnalyzer3.2.8复制到nu...
分类:
系统相关 时间:
2015-01-22 21:43:38
阅读次数:
304
1、下载IKAnalyzer2012FF_hf1.zip解压如下图:注解(IKAnalyzer2012才能支持solr4.0以上的版本)下载地址:http://pan.baidu.com/s/1c0nMOhE2、添加IKAnalyzer2012FF中文分词:把IKAnalyzer2012_FF文件夹IKAnalyzer2012_FF.jar放在tomcat1.6,webapps\solr\WEB-INF\lib的目录下..
分类:
其他好文 时间:
2015-01-21 20:25:33
阅读次数:
233
集成IKAnalyzer,简化了中文分词(详见下载包内的开发手册)。终身免费使用,能开发:大型手机App服务端系统 大型功能性网站开发(如:电子商务网站、社区、门户等) 大数据系统应用开发(与vertica无缝集成) 应用解决方案,如电子政务系统、管理系统、协作系统、企业ERP/DRP/MRP等...
分类:
Web程序 时间:
2015-01-21 10:15:08
阅读次数:
272
中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词。其基本实现原理有三点:基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合对于未登录词,采用了基于汉字成词能力的HMM模型,使用了...
分类:
编程语言 时间:
2015-01-17 15:11:28
阅读次数:
183
ES官方只支持smartcn这个中文分词插件,是按照单个字进行索引。前端产品搜索时,凡是带这个关键字的都会被索引到。打个比方:搜索"苹果"关键词,凡是包含"苹"和"果"的title都会被索引到。所以为了这个需求,找一个第三方的中文分词插件.看了一下,国内有几款中分分词插件:ik、an..
分类:
其他好文 时间:
2015-01-15 16:14:45
阅读次数:
384