一、结巴中文分词采用的算法
基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)
采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合
对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法
二、结巴中文分词支持的分词模式
目前结巴分词支持三种分词模式:
精确模式,试图将句子最精确地切开,适...
分类:
编程语言 时间:
2015-08-29 18:50:49
阅读次数:
483
这个在自留地里写过了>>> from collections import Counter>>> c = Counter()>>> for ch in 'programming':... c[ch] = c[ch] + 1...>>> cCounter({'g': 2, 'm': 2, 'r...
分类:
其他好文 时间:
2015-08-27 14:47:20
阅读次数:
150
1.map阶段:将单词和URI组成Key值(如“MapReduce :1.txt”),将词频作为value。 利用MR框架自带的Map端排序,将同一文档的相同单词的词频组成列表,传递给Combine过程,实现类似于WordCount的功能。Class Map{ method map(){ ...
分类:
其他好文 时间:
2015-08-20 18:19:11
阅读次数:
240
研究生期间就没写过Java代码了,这几天由于想做一个统计网页词频的工具,但是使用C++不是很方便,于是又用Java做了一个小工具。翻开电脑中以前的文件,发现之前还做过一个android中批量添加联系人的工具,瞬间感觉好亲切,也感叹时间过得好快,一眨眼研究生就快要完了。记得当初做这个批量添加联系人的工具是刚来读研时,一大堆新同学的手机号码需要添加,班长整理出来同学们的通讯录后就得一个一个输入联系人和...
分类:
移动开发 时间:
2015-08-18 22:54:02
阅读次数:
300
阅读英文文章时有时会出现不少这篇文章专有的一些单词,这些单词在其他地方不太可能会使用到,但是在阅读这篇文章时使用的频率可能会比较大,于是想能不能做一个工具,当你给定文章的url时,它将这篇文章中出现次数较多的那些单词统计出来。这样当你把这些单词的意义搞明白,在读这篇文章会不会压力小很多?
那么做这个工具的思路如下:
首先必须能够根据给定的url获取网页的正文信息或者网页的html文件;...
分类:
Web程序 时间:
2015-08-18 19:28:58
阅读次数:
2740
英文分词的算法和原理 根据文档相关性计算公式 TF-IDF:http://lutaf.com/210.htm BM25:http://lutaf.com/211.htm 分词质量对于基于词频的相关性计算是无比重要的 英文(西方语言)语言的基本单位就是单词,所以分词...
分类:
编程语言 时间:
2015-08-17 06:35:08
阅读次数:
273
尽管Hadoop框架是用java写的,但是Hadoop程序不限于java,可以用python、C++、ruby等。本例子中直接用python写一个MapReduce实例,而不是用Jython把python代码转化成jar文件。
例子的目的是统计输入文件的单词的词频。
输入:文本文件输出:文本(每行包括单词和单词的词频,两者之间用'\t'隔开)
1. Pyth...
分类:
编程语言 时间:
2015-08-05 22:21:45
阅读次数:
293
我们以气温统计和词频统计为例,讲解以下三种用户自定义函数。用户自定义函数什么时候需要用户自定义函数呢?和其它语言一样,当你希望简化程序结构或者需要重用程序代码时,函数就是你不二选择。Pig的用户自定义函数可以用Java编写,但是也可以用Python或Javascript编写。我们接下来以Java为例...
分类:
其他好文 时间:
2015-07-30 22:58:20
阅读次数:
166
定义字典树,又称单词查找树,Trie树,是一种树形结构,典型应用是用于统计,排序和保存大量的字符串,所以经常被搜索引擎系统用于文本词频统计。它的优点是:利用字符串的公共前缀来节约存储空间,最大限度的减少无谓的字符串比较,查询效率比哈希表高。解释
这个图片比较经典
就是在每一次边存的是字符,点标记着个点是否之前的边的字符都存在
如图存在的字符串有 abc abcd abd。。。。代码#inclu...
分类:
其他好文 时间:
2015-07-29 21:29:35
阅读次数:
135
一、TF-IDF、余弦相似度、向量空间模型(1)使用TF-IDF算法,找出两篇文章的关键词;(2)每篇文章各取出若干个关键词(比如20个),合并成一个集合,计算每篇文章对于这个集合中的词的词频(为了避免文章长度的差异,可以使用相对词频);(3)生成两篇文章各自的词频向量;(4)计算两个向量的余弦相似...
分类:
其他好文 时间:
2015-07-29 19:08:52
阅读次数:
120