码迷,mamicode.com
首页 >  
搜索关键字:词频    ( 1120个结果
Python分词模块推荐:jieba中文分词
一、结巴中文分词采用的算法 基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG) 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合 对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法 二、结巴中文分词支持的分词模式 目前结巴分词支持三种分词模式: 精确模式,试图将句子最精确地切开,适...
分类:编程语言   时间:2015-08-29 18:50:49    阅读次数:483
计算词频
这个在自留地里写过了>>> from collections import Counter>>> c = Counter()>>> for ch in 'programming':... c[ch] = c[ch] + 1...>>> cCounter({'g': 2, 'm': 2, 'r...
分类:其他好文   时间:2015-08-27 14:47:20    阅读次数:150
MR案例:倒排索引
1.map阶段:将单词和URI组成Key值(如“MapReduce :1.txt”),将词频作为value。 利用MR框架自带的Map端排序,将同一文档的相同单词的词频组成列表,传递给Combine过程,实现类似于WordCount的功能。Class Map{ method map(){ ...
分类:其他好文   时间:2015-08-20 18:19:11    阅读次数:240
android批量添加联系人
研究生期间就没写过Java代码了,这几天由于想做一个统计网页词频的工具,但是使用C++不是很方便,于是又用Java做了一个小工具。翻开电脑中以前的文件,发现之前还做过一个android中批量添加联系人的工具,瞬间感觉好亲切,也感叹时间过得好快,一眨眼研究生就快要完了。记得当初做这个批量添加联系人的工具是刚来读研时,一大堆新同学的手机号码需要添加,班长整理出来同学们的通讯录后就得一个一个输入联系人和...
分类:移动开发   时间:2015-08-18 22:54:02    阅读次数:300
网页词频统计工具
阅读英文文章时有时会出现不少这篇文章专有的一些单词,这些单词在其他地方不太可能会使用到,但是在阅读这篇文章时使用的频率可能会比较大,于是想能不能做一个工具,当你给定文章的url时,它将这篇文章中出现次数较多的那些单词统计出来。这样当你把这些单词的意义搞明白,在读这篇文章会不会压力小很多? 那么做这个工具的思路如下: 首先必须能够根据给定的url获取网页的正文信息或者网页的html文件;...
分类:Web程序   时间:2015-08-18 19:28:58    阅读次数:2740
英文分词的算法和原理
英文分词的算法和原理 根据文档相关性计算公式 TF-IDF:http://lutaf.com/210.htm BM25:http://lutaf.com/211.htm 分词质量对于基于词频的相关性计算是无比重要的 英文(西方语言)语言的基本单位就是单词,所以分词...
分类:编程语言   时间:2015-08-17 06:35:08    阅读次数:273
用python写MapReduce函数
尽管Hadoop框架是用java写的,但是Hadoop程序不限于java,可以用python、C++、ruby等。本例子中直接用python写一个MapReduce实例,而不是用Jython把python代码转化成jar文件。       例子的目的是统计输入文件的单词的词频。 输入:文本文件输出:文本(每行包括单词和单词的词频,两者之间用'\t'隔开)   1. Pyth...
分类:编程语言   时间:2015-08-05 22:21:45    阅读次数:293
Pig用户自定义函数(UDF)
我们以气温统计和词频统计为例,讲解以下三种用户自定义函数。用户自定义函数什么时候需要用户自定义函数呢?和其它语言一样,当你希望简化程序结构或者需要重用程序代码时,函数就是你不二选择。Pig的用户自定义函数可以用Java编写,但是也可以用Python或Javascript编写。我们接下来以Java为例...
分类:其他好文   时间:2015-07-30 22:58:20    阅读次数:166
字典树 一种快速插入查询数据结构
定义字典树,又称单词查找树,Trie树,是一种树形结构,典型应用是用于统计,排序和保存大量的字符串,所以经常被搜索引擎系统用于文本词频统计。它的优点是:利用字符串的公共前缀来节约存储空间,最大限度的减少无谓的字符串比较,查询效率比哈希表高。解释 这个图片比较经典 就是在每一次边存的是字符,点标记着个点是否之前的边的字符都存在 如图存在的字符串有 abc abcd abd。。。。代码#inclu...
分类:其他好文   时间:2015-07-29 21:29:35    阅读次数:135
如何计算两个文档的相似度
一、TF-IDF、余弦相似度、向量空间模型(1)使用TF-IDF算法,找出两篇文章的关键词;(2)每篇文章各取出若干个关键词(比如20个),合并成一个集合,计算每篇文章对于这个集合中的词的词频(为了避免文章长度的差异,可以使用相对词频);(3)生成两篇文章各自的词频向量;(4)计算两个向量的余弦相似...
分类:其他好文   时间:2015-07-29 19:08:52    阅读次数:120
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!