码迷,mamicode.com
首页 >  
搜索关键字:r语言 中文分词 rwordseg    ( 713个结果
R语言进行中文分词
用两种方法进行中文分词:Rwordseg和jiebaR R语言的环境配置: R_Path: C:\Program Files\R\R-3.1.2 Path: %R_Path%...
分类:编程语言   时间:2015-02-02 09:40:10    阅读次数:278
solr配置中文分词器
可能需要连接上篇《Solr与tomcat整合》 1.从http://code.google.com/p/mmseg4j/    下载mmseg4j 2.从下载的文件中把mmseg4j-all-1.8.4.jar和mmseg4j_solr-1.8.4.jar拷贝到tomcat下WEB-INF下的lib目录下。将data里的.dic文件拷贝到solrproject->home  下的dic...
分类:其他好文   时间:2015-01-29 09:39:49    阅读次数:153
微信语义理解接口的应用-股票查询
微信语义理解接口称为智能接口,但微信只是开了一半接口,剩下一半要求用户自己去对接业务。这个语义理解类似中文分词技术,优于模糊匹配,拿查股票为例,你说“东风汽车”,“东风汽车股票”,“东风汽车价格”,“查一查东风汽车当前价”返回的内容是一样的,因此语义理解和微信语音识别的配合是最好的,由于口语化,识别率问题,智能接口就有一定用武之地。查询的参数包括query(语音识别结果),city(股票不影响),...
分类:微信   时间:2015-01-26 22:44:14    阅读次数:472
Solr配置中文分词器mmseg4j详解
针对solr的分词器比较多,其中最常用的的两个是mmseg4j和ik-analyzer,至于他们的区别可以网上查找比较下,这两个分词器都挺好用。我搭建的solr环境(上一篇)是4.10.3的最新版本,以下将详细说下mmseg4j的配置。 1.首先下载对应的jar包。 版本号一定要对应上否则可能会报错,下载地址为:http://code.google.com/p/mmseg4j/ 但是这个网址好...
分类:其他好文   时间:2015-01-25 11:12:29    阅读次数:172
为Elasticsearch安装中文分词IK
注:Elasticsearch版本:1.4.2一、安装与配置1.从https://github.com/medcl/elasticsearch-analysis-ik下载elasticsearch-analysis-ik-master.zip2.解压elasticsearch-analysis-ik...
分类:其他好文   时间:2015-01-23 19:40:16    阅读次数:16588
Ubuntu环境下:Nutch1.2 二次开发(中文分词)
前提nutch1.2已部署到eclipse中详见:http://www.cnblogs.com/cy163/archive/2013/02/19/2916419.html1 部署IKAnalyzer3.2.81.1 下载IKAnalyzer3.2.81.2 将IKAnalyzer3.2.8复制到nu...
分类:系统相关   时间:2015-01-22 21:43:38    阅读次数:304
第二步solr配置中文分词IK Analyzer
1、下载IKAnalyzer2012FF_hf1.zip解压如下图:注解(IKAnalyzer2012才能支持solr4.0以上的版本)下载地址:http://pan.baidu.com/s/1c0nMOhE2、添加IKAnalyzer2012FF中文分词:把IKAnalyzer2012_FF文件夹IKAnalyzer2012_FF.jar放在tomcat1.6,webapps\solr\WEB-INF\lib的目录下..
分类:其他好文   时间:2015-01-21 20:25:33    阅读次数:233
轻松互联网开发平台(Easy do it,原名WebEasy)20150120更新
集成IKAnalyzer,简化了中文分词(详见下载包内的开发手册)。终身免费使用,能开发:大型手机App服务端系统 大型功能性网站开发(如:电子商务网站、社区、门户等) 大数据系统应用开发(与vertica无缝集成) 应用解决方案,如电子政务系统、管理系统、协作系统、企业ERP/DRP/MRP等...
分类:Web程序   时间:2015-01-21 10:15:08    阅读次数:272
python 中文分词:结巴分词
中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词。其基本实现原理有三点:基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合对于未登录词,采用了基于汉字成词能力的HMM模型,使用了...
分类:编程语言   时间:2015-01-17 15:11:28    阅读次数:183
ES1.4 中文分词插件ik
ES官方只支持smartcn这个中文分词插件,是按照单个字进行索引。前端产品搜索时,凡是带这个关键字的都会被索引到。打个比方:搜索"苹果"关键词,凡是包含"苹"和"果"的title都会被索引到。所以为了这个需求,找一个第三方的中文分词插件.看了一下,国内有几款中分分词插件:ik、an..
分类:其他好文   时间:2015-01-15 16:14:45    阅读次数:384
713条   上一页 1 ... 59 60 61 62 63 ... 72 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!