搜索关键字：词频，搜索到1120个结果！码迷,mamicode.com！

hadoop的wordcount的修改版

//这个是在原来的基础上修改以后得到的，将其中的分词的依据给换掉了，并且进行词频统计的时候会自动的忽略大小写 packageorg.apache.hadoop.mapred; importjava.io.IOException; importjava.util.ArrayList; importjava.util.Iterator; importjava.util.List;...

分类：其他好文时间：2014-09-01 10:47:23 阅读次数：334

hadoop中文分词、词频统计及排序

有如图所示的输入文件。其中第一列代表ip地址，之后的偶数列代表搜索词，数字(奇数列)代表搜索次数，使用"\t"分隔。现在需要对搜索词进行分词并统计词频，此处不考虑搜索次数，可能是翻页，亦不考虑搜索链接的行为。...

分类：其他好文时间：2014-08-17 11:47:02 阅读次数：306

Ospaf项目-commits词频统计模块

1.背景最近在搞得ospaf项目（可以移步ospaf中期报告来了解），对于commits数据进行特征提取的时候发现，因为开源项目的commits的特点有以下两个主要放面：1.动词往往出现在第一个字，例如add、revert之类的。2.动词相对固定，主要也就是那几种，add、revert、update、merge、remove之类的。所以要做的工作就比较清晰了。 ...

分类：其他好文时间：2014-08-15 19:42:29 阅读次数：206

字典树的学习（剪辑的博客文章）

字典树（讲解+模版）又称单词查找树，Trie树，是一种树形结构，是一种哈希树的变种。典型应用是用于统计，排序和保存大量的字符串（但不仅限于字符串），所以经常被搜索引擎系统用于文本词频统计。它的优点是：利用字符串的公共前缀来节约存储空间，最大限度地减少无谓的字符串比较，查询效率比哈希表高。字典树与字典...

分类：其他好文时间：2014-08-01 22:48:12 阅读次数：416

（转）字典树（讲解+模板）

又称单词查找树，Trie树，是一种树形结构，是一种哈希树的变种。典型应用是用于统计，排序和保存大量的字符串（但不仅限于字符串），所以经常被搜索引擎系统用于文本词频统计。它的优点是：利用字符串的公共前缀来节约存储空间，最大限度地减少无谓的字符串比较，查询效率比哈希表高。字典树与字典很相似,当你要查一个...

分类：其他好文时间：2014-08-01 10:28:11 阅读次数：263

字典树

字典树，又称单词查找树，Trie树，是一种树形结构，典型应用是用于统计，排序和保存大量的字符串，所以经常被搜索引擎系统用于文本词频统计。它的优点是：利用字符串的公共前缀来节约存储空间，最大限度的减少无谓的字符串比较，查询效率比哈希表高。它有三个基本性质，根节点不包含字符，除根节点外每一个节点都只包含...

分类：其他好文时间：2014-07-30 12:04:33 阅读次数：487

7月28--字典树

又称单词查找树，Trie树，是一种树形结构，是一种哈希树的变种。典型应用是用于统计，排序和保存大量的字符串（但不仅限于字符串），所以经常被搜索引擎系统用于文本词频统计。它的优点是：利用字符串的公共前缀来减少查询时间，最大限度地减少无谓的字符串比较，查询效率比哈希表高。Trie的数据结构定义：Code...

分类：其他好文时间：2014-07-28 14:45:03 阅读次数：196

Java实现Tire

Trie，又称单词查找树或键树，是一种树形结构。典型应用是用于统计和排序大量的字符串（但不仅限于字符串），所以经常被搜索引擎系统用于文本词频统计。它的优点是：最大限度地减少无谓的字符串比较，查询效率比哈希表高。它有3个基本性质：根节点不包含字符，除根节点外每一个节点都只包含一个字符。从根节点到某一节...

分类：编程语言时间：2014-07-21 14:18:16 阅读次数：1021

最大概率法分词中词频惩罚因子的作用探究

在最大概率法分词的程序中，由于每个词出现的次数分布非常不均匀，而且我们要计算每个词出现的概率，对于出现次数比较少的词概率就很小，求句子中词的概率之积的时候，需要将好多非常小的数作乘法，可能会将超出计算机所能表示的数的最小范围。为了便于计算，常常要将每个词的概率求对数后在进行计算，但是由于对概率求对数后变为负值，因此要求对应的相反数。所以一个词出现的次数越多，最后求得对应的值越小，我们将这个值称为这...

分类：其他好文时间：2014-07-19 02:46:06 阅读次数：236

中文分词实践（基于R语言）

背景：分析用户在世界杯期间讨论最多的话题。思路：把用户关于世界杯的帖子拉下来，然后做中文分词+词频统计，最后将统计结果简单做个标签云，效果如下后续：中文分词是中文信息处理的基础，分词之后，其实还有特别多有趣的文本挖掘工作可以做，也是个知识发现的过程，以后有机会再学习下。...

分类：其他好文时间：2014-07-13 18:53:55 阅读次数：367

共1120条上一页 1 ... 108 109 110 111 112 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)