一、说明 网上提供的一个例子,做了修改与订正。 二、程序 #调入分词的库 library("rJava") library("Rwordseg") #调入绘制词云的库 library("RColorBrewer") library("wordcloud") #读入数据(特别注意,read.csv竟然 ...
分类:
编程语言 时间:
2016-08-03 20:13:45
阅读次数:
513
【摘要】:条件随机场用于序列标注,数据分割等自然语言处理中,表现出很好的效果。在中文分词、中文人名识别和歧义消解等任务中都有应用。本文源于笔者做语句识别序列标注过程中,对条件随机场的了解,逐步研究基于自然语言处理方面的应用。成文主要源于自然语言处理、机器学习、统计学习方法和部分网上资料对CRF介绍的... ...
分类:
其他好文 时间:
2016-08-03 09:00:33
阅读次数:
197
【摘要】:条件随机场用于序列标注,数据分割等自然语言处理中,表现出很好的效果。在中文分词、中文人名识别和歧义消解等任务中都有应用。本文源于笔者做语句识别序列标注过程中,对条件随机场的了解,逐步研究基于自然语言处理方面的应用。成文主要源于自然语言处理、机器学习、统计学习方法和部分网上资料对CRF介绍的... ...
分类:
其他好文 时间:
2016-08-02 15:11:54
阅读次数:
171
(1)高速建立索引:建索引速度达到单核10-15mb/s; (2)高速查询:100万记录(约1.2GB数据)下,单核每秒支持约200次搜索; (3)高扩展性:已知最大索引簇支持对30亿条记录建立索引,每天单个连接5千万次搜索; (4)强大附属功能:支持分布式搜索,中文分词引擎,c/java/pyth ...
分类:
其他好文 时间:
2016-07-25 01:49:00
阅读次数:
287
http://sighan.cs.uchicago.edu/bakeoff2005/
http://www.52nlp.cn/中文分词入门之资源...
分类:
其他好文 时间:
2016-07-17 16:54:19
阅读次数:
1176
jieba为自然语言语言中常用工具包,jieba具有对分词的词性进行标注的功能,词性类别如下: Ag 形语素 形容词性语素。形容词代码为 a,语素代码g前面置以A。 a 形容词 取英语形容词 adjective的第1个字母。 ad 副形词 直接作状语的形容词。形容词代码 a和副词代码d并在一起。 a ...
分类:
其他好文 时间:
2016-07-15 17:04:27
阅读次数:
230
sphinx是国外的一款搜索软件。 coreseek是在sphinx的基础上,增加了中文分词功能,换句话说,就是支持了中文。 Coreseek发布了3.2.14版本和4.1版本,其中的3.2.14版本是2010年发布的,它是基于Sphinx0.9.9搜索引擎的。而4.1版本是2011年发布的,它是基 ...
分类:
其他好文 时间:
2016-07-15 16:49:54
阅读次数:
222
前面总结的都是使用Lucene的标准分词器,这是针对英文的,但是中文的话就不顶用了,因为中文的语汇与英文是不同的,所以一般我们开发的时候,有中文的话肯定要使用中文分词了,这一篇博文主要介绍一下如何使用smartcn中文分词器以及对结果的高亮显示。1. 中文分词使用中文分词的话,首先到添加中文分词的jar包。
...
分类:
Web程序 时间:
2016-07-12 23:30:51
阅读次数:
275
前言 用过Lucene.net的都知道,我们自己搭建索引服务器时和解决搜索匹配度的问题都用到过盘古分词。其中包含一个词典。 那么既然用到了这种国际化的框架,那么就避免不了中文分词。尤其是国内特殊行业比较多。比如油田系统从勘探、打井、投产等若干环节都涉及一些专业词汇。 再像电商,手机、手机配件、笔记本 ...
分类:
其他好文 时间:
2016-06-21 19:09:50
阅读次数:
224
Ansj分词
这是一个基于n-Gram+条件随机场模型的中文分词的java实现.
分词速度达到每秒钟大约200万字左右(mac air下测试),准确率能达到96%以上
目前实现了.中文分词. 中文姓名识别 . 用户自定义词典
可以应用到自然语言处理等方面,适用于对分词效果要求高的各种项目.
源码:https://github.com/NLPchina/ansj_seg...
分类:
其他好文 时间:
2016-06-21 07:34:12
阅读次数:
897