需求:从一个英文txt中读取内容,实现词频统计。 现完成:基本功能大概完成了,由于编程基础比较差,文件操作部分还不是很熟练,我发现从文件中提取字符串流读取到程序的string对象中,会把所有的空格过滤掉,导致没法统计单词频率,目前还没找到解决方法,只能先手动输入文章了。ORZ... 好好学习java ...
分类:
编程语言 时间:
2016-09-05 01:34:10
阅读次数:
318
要求: 1.读取文件; 2.记录出现的词汇及出现频率; 3.按照频率降序排列; 4.输出结果。 概要: 1.读取的文件路径是默认的,为了方便调试,将要统计的文章、段落复制到文本中即可;2.只支持英文;3.会按照词汇出现的频率降序排列。 实现: 1.使用FileReader、BufferedReade ...
分类:
编程语言 时间:
2016-09-03 12:07:59
阅读次数:
258
字典树又称单词查找树,Trie树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希树高。 摘自必应 其建立过程类似 ...
分类:
其他好文 时间:
2016-08-17 12:00:21
阅读次数:
198
Java版本程序开发过程主要包含三个步骤,一是map、reduce程序开发;第二是将程序编译成JAR包;第三使用Hadoop jar命令进行任务提交。 下面拿一个具体的例子进行说明,一个简单的词频统计,输入数据是一个单词文本,输出每个单词的出现个数。 一、MapReduce程序 标准的MapRedu ...
分类:
编程语言 时间:
2016-08-08 14:15:22
阅读次数:
240
1、读入文本内容 2、将手动分完词的文本进行词频统计 3、计算tf值 4、计算IDF 5、计算tfidf 6、将每个文本中tfidf值排名前100的词和相应的tfidf值输出 ...
分类:
编程语言 时间:
2016-06-05 00:57:01
阅读次数:
1107
Trie树,又称单词查找树或键树,是一种树形结构,是一种哈希树的变种。 典型应用是用于统计和排序大量的字符串(但不仅限于字符串), 所以经常被搜索引擎系统用于文本词频统计。 优点 利用字符串的公共前缀来节约存储空间,最大限度的减少无谓的字符串比较,查询效率比哈希表高。 比如说我们想储存3个单词,sk ...
分类:
其他好文 时间:
2016-05-25 00:15:34
阅读次数:
329
我准备学习用hadoop来实现下面的过程: 词频统计 存储海量的视频数据 倒排索引 数据去重 数据排序 聚类分析 ============= 先写这么多 ...
分类:
其他好文 时间:
2016-05-18 23:38:34
阅读次数:
143
利用wc命令统计文件行,单词数,字符数,利用sort排序和去重,再结合uniq可以进行词频统计。 用cat命令查看文件格式与内容。先对文件进行排序,再用uniq -c命令统计不同单词及各个单词出现的次数,得到的结果就是次数后面紧挨的单词,然后使用sort -nr对次数进行排序,并逆序显示,最后hea ...
分类:
系统相关 时间:
2016-05-10 23:32:06
阅读次数:
307