Ansj分词
这是一个基于n-Gram+条件随机场模型的中文分词的java实现.
分词速度达到每秒钟大约200万字左右(mac air下测试),准确率能达到96%以上
目前实现了.中文分词. 中文姓名识别 . 用户自定义词典
可以应用到自然语言处理等方面,适用于对分词效果要求高的各种项目.
源码:https://github.com/NLPchina/ansj_seg...
分类:
其他好文 时间:
2016-06-21 07:34:12
阅读次数:
897
Solr中默认的中文分词是用Lucene的一元分词包。 现在说明在Solr5.0中配置Lucene的SmartCN中文分词包。 1,进入Solr的安装目录,我这里是:/root/nutch/solr-5.0.0 把contrib/analysis-extras/lucene-libs/lucene- ...
分类:
其他好文 时间:
2016-06-17 21:02:40
阅读次数:
168
算法原文位于:http://technology.chtsai.org/mmseg/ http://www.360doc.com/content/13/0217/15/11619026_266142832.shtml ...
分类:
编程语言 时间:
2016-06-17 16:55:16
阅读次数:
134
三大主流分词方法:基于词典的方法、基于规则的方法和基于统计的方法。1、基于规则或词典的方法
定义:按照一定策略将待分析的汉字串与一个“大机器词典”中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。按照扫描方向的不同:正向匹配和逆向匹配
按照长度的不同:最大匹配和最小匹配
1.1正向最大匹配思想MM
从左向右取待切分汉语句的m个字符作为匹配字段,m为大机器词典中最长词条个数。
查找大机器词...
分类:
其他好文 时间:
2016-06-17 12:56:42
阅读次数:
239
这几天项目中需要重新做一个关于商品的全文搜索功能,于是想到了用Sphinx,因为需要中文分词,所以选择了Sphinx for chinese,当然你也可以选择coreseek,建议这两个中选择一个,暂时不要选择原版Sphinx(对中文的支持不是很好).又因为服务器所用 MySQL在当时编译时并没有编 ...
转自:http://www.gowhich.com/blog/147?utm_source=tuicool&utm_medium=referral 源码下载的地址:https://github.com/fxsjy/jieba 演示地址:http://jiebademo.ap01.aws.af.cm/ ...
分类:
其他好文 时间:
2016-06-05 21:39:04
阅读次数:
183
IK简介 IK Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始, IKAnalyzer已经推出了4个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。从3.0版本开 始,IK发展为面向Jav ...
分类:
其他好文 时间:
2016-06-04 15:00:33
阅读次数:
547
最近做情感分析,想研究下具体哪个java分词工具好,于是测试了ANSJ和IKAnalyzer的比较: 都是用了默认值,没有进行添加词库和停用词。 ANSJ的代码:scala调用。 /** * 中文分词 * example : println("segment分词测试") val stopWords ...
分类:
编程语言 时间:
2016-06-01 18:13:12
阅读次数:
3104
ElasticSearch是现在技术前沿的大数据引擎,常见的组合有ES+Logstash+Kibana作为一套成熟的日志系统,其中Logstash是ETL工具,Kibana是数据分析展示平台。ES让人惊艳的是他强大的搜索相关能力和灾备策略,ES开放了一些接口供开发者研发自己的插件,ES结合中文分词的 ...
分类:
数据库 时间:
2016-05-27 10:51:30
阅读次数:
1788
https://r-forge.r-project.org/R/?group_id=1054 在上面网址中下载Rwordseg 如果是64位的话就要下载.zip文件,我下载的.tar.gz结果加载rJava时出错(光这折腾了好久才发现下载错了) 在安装Rwordseg包之前要先安装rJava(我的R ...
分类:
编程语言 时间:
2016-05-23 21:12:30
阅读次数:
281