在学习nlp自然语言处理的过程中,免不了要使用中文分词资源作为分词依据或前期调研。所以想研究中文分词,第一步需要解决的就是资源问题。 作为中文信息处理的壁垒,中文分词在国内的关注度似乎远远超过了自然语言处理的其他研究领域。在中文分词中,资源的重要性又不言而喻,最大匹配法(正向、逆向)等需要一个好的词 ...
分类:
其他好文 时间:
2016-09-03 14:56:01
阅读次数:
197
前言在李航的《统计学方法》第十章有对隐马尔科夫模型(Hidden Markov Model,HMM)比较详细的介绍和推导公式,我参考公式结合中文分词应用实现了隐马模型观测序列的生成、前向算法、维特比算...
分类:
其他好文 时间:
2016-09-01 20:09:12
阅读次数:
219
Java版的Spark大数据中文分词统计程序完成之后,又经过一周的努力,把Scala版的Spark
大数据中文分词统计程序也搞出来了,在此分享给各位想学习Spark的朋友。
如下是...
分类:
编程语言 时间:
2016-08-25 21:44:02
阅读次数:
352
自己做的一个关于豆瓣电影数据的一些分析,主要采用的是Spark和Hive,Python作为基础实现,也设计了中文分词统计,hadoop等内容
分类:
其他好文 时间:
2016-08-25 21:32:06
阅读次数:
403
随着云计算、大数据迅速发展,亟需用hadoop解决大数据量高并发访问的瓶颈。谷歌、淘宝、百度、京东等底层都应用hadoop。越来越多的企 业急需引入hadoop技术人才。由于掌握Hadoop技术的开发人员并不多,直接导致了这几年hadoop技术的薪水远高于JavaEE及 Android程序员。Had ...
分类:
编程语言 时间:
2016-08-20 16:25:58
阅读次数:
265
由于elasticsearch基于lucene,所以天然地就多了许多lucene上的中文分词的支持,比如 IK, Paoding, MMSEG4J等lucene中文分词原理上都能在elasticsearch上使用。当然前提是有elasticsearch的插件。 至于插件怎么开发,这里有一片文章介绍: ...
分类:
其他好文 时间:
2016-08-09 00:06:01
阅读次数:
231
一周乱谈(第八周) - 中文分词 中文分词 NLP(Natural language processing)自然语言处理一直都是比较热门的领域,现在不管是搜索,推荐神马的基本都需要和nlp打交道,而中文的nlp处理的第一步就是分词了,所以中文分词一直扮演者举足轻重的角色。当然了,分词的算法也是层出不 ...
分类:
其他好文 时间:
2016-08-08 00:45:38
阅读次数:
195
中文分词 NLP(Natural language processing)自然语言处理一直都是比较热门的领域,现在不管是搜索,推荐神马的基本都需要和nlp打交道,而中文的nlp处理的第一步就是分词了,所以中文分词一直扮演者举足轻重的角色。当然了,分词的算法也是层出不穷,从最初的字典匹配到后来的统计模 ...
分类:
其他好文 时间:
2016-08-06 20:34:56
阅读次数:
182
1、 名词说明中文分词要处理的数据为文本数据:solr.TextField,需在schema.xml文件中做相关配置,配置选项如下: analyzer:告诉solr在建立索引和搜索的时候,如何处理text类型的内容。它在schema.xml文件中配置,可以直接指定一个类给它,也可以由tokenize ...
分类:
其他好文 时间:
2016-08-05 15:39:17
阅读次数:
217
【摘要】:条件随机场用于序列标注,数据分割等自然语言处理中,表现出很好的效果。在中文分词、中文人名识别和歧义消解等任务中都有应用。本文源于笔者做语句识别序列标注过程中,对条件随机场的了解,逐步研究基于自然语言处理方面的应用。成文主要源于自然语言处理、机器学习、统计学习方法和部分网上资料对CRF介绍的... ...
分类:
其他好文 时间:
2016-08-03 20:28:24
阅读次数:
298