搜索关键字：词频，搜索到1120个结果！码迷,mamicode.com！

Python分词模块推荐：jieba中文分词

一、结巴中文分词采用的算法基于Trie树结构实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图（DAG) 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合对于未登录词，采用了基于汉字成词能力的HMM模型，使用了Viterbi算法二、结巴中文分词支持的分词模式目前结巴分词支持三种分词模式：精确模式，试图将句子最精确地切开，适...

分类：编程语言时间：2015-08-29 18:50:49 阅读次数：483

计算词频

这个在自留地里写过了>>> from collections import Counter>>> c = Counter()>>> for ch in 'programming':... c[ch] = c[ch] + 1...>>> cCounter({'g': 2, 'm': 2, 'r...

分类：其他好文时间：2015-08-27 14:47:20 阅读次数：150

MR案例：倒排索引

1.map阶段：将单词和URI组成Key值（如“MapReduce :1.txt”），将词频作为value。利用MR框架自带的Map端排序，将同一文档的相同单词的词频组成列表，传递给Combine过程，实现类似于WordCount的功能。Class Map{ method map(){ ...

分类：其他好文时间：2015-08-20 18:19:11 阅读次数：240

android批量添加联系人

研究生期间就没写过Java代码了，这几天由于想做一个统计网页词频的工具，但是使用C++不是很方便，于是又用Java做了一个小工具。翻开电脑中以前的文件，发现之前还做过一个android中批量添加联系人的工具，瞬间感觉好亲切，也感叹时间过得好快，一眨眼研究生就快要完了。记得当初做这个批量添加联系人的工具是刚来读研时，一大堆新同学的手机号码需要添加，班长整理出来同学们的通讯录后就得一个一个输入联系人和...

分类：移动开发时间：2015-08-18 22:54:02 阅读次数：300

网页词频统计工具

阅读英文文章时有时会出现不少这篇文章专有的一些单词，这些单词在其他地方不太可能会使用到，但是在阅读这篇文章时使用的频率可能会比较大，于是想能不能做一个工具，当你给定文章的url时，它将这篇文章中出现次数较多的那些单词统计出来。这样当你把这些单词的意义搞明白，在读这篇文章会不会压力小很多？那么做这个工具的思路如下：首先必须能够根据给定的url获取网页的正文信息或者网页的html文件；...

分类：Web程序时间：2015-08-18 19:28:58 阅读次数：2740

英文分词的算法和原理

英文分词的算法和原理根据文档相关性计算公式 TF-IDF:http://lutaf.com/210.htm BM25:http://lutaf.com/211.htm 分词质量对于基于词频的相关性计算是无比重要的英文(西方语言）语言的基本单位就是单词，所以分词...

分类：编程语言时间：2015-08-17 06:35:08 阅读次数：273

用python写MapReduce函数

尽管Hadoop框架是用java写的，但是Hadoop程序不限于java，可以用python、C++、ruby等。本例子中直接用python写一个MapReduce实例，而不是用Jython把python代码转化成jar文件。例子的目的是统计输入文件的单词的词频。输入：文本文件输出：文本（每行包括单词和单词的词频，两者之间用'\t'隔开） 1. Pyth...

分类：编程语言时间：2015-08-05 22:21:45 阅读次数：293

Pig用户自定义函数（UDF）

我们以气温统计和词频统计为例，讲解以下三种用户自定义函数。用户自定义函数什么时候需要用户自定义函数呢？和其它语言一样，当你希望简化程序结构或者需要重用程序代码时，函数就是你不二选择。Pig的用户自定义函数可以用Java编写，但是也可以用Python或Javascript编写。我们接下来以Java为例...

分类：其他好文时间：2015-07-30 22:58:20 阅读次数：166

字典树一种快速插入查询数据结构

定义字典树，又称单词查找树，Trie树，是一种树形结构，典型应用是用于统计，排序和保存大量的字符串，所以经常被搜索引擎系统用于文本词频统计。它的优点是：利用字符串的公共前缀来节约存储空间，最大限度的减少无谓的字符串比较，查询效率比哈希表高。解释这个图片比较经典就是在每一次边存的是字符，点标记着个点是否之前的边的字符都存在如图存在的字符串有 abc abcd abd。。。。代码#inclu...

分类：其他好文时间：2015-07-29 21:29:35 阅读次数：135

如何计算两个文档的相似度

一、TF-IDF、余弦相似度、向量空间模型（1）使用TF-IDF算法，找出两篇文章的关键词；（2）每篇文章各取出若干个关键词（比如20个），合并成一个集合，计算每篇文章对于这个集合中的词的词频（为了避免文章长度的差异，可以使用相对词频）；（3）生成两篇文章各自的词频向量；（4）计算两个向量的余弦相似...

分类：其他好文时间：2015-07-29 19:08:52 阅读次数：120

共1120条上一页 1 ... 99 100 101 102 103 ... 112 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)