一. 使用的开源库 爬虫:https://github.com/code4craft/webmagic.git 分词:https://github.com/ysc/word.git 本项目:https://github.com/umbrellary/beatles.git 二. 操作过程 进行编译 ...
分类:
Web程序 时间:
2016-05-08 16:47:37
阅读次数:
497
17.9 Design a method to find the frequency of occurrences of any given word in a book. 这道题让我们找书中单词出现的频率,那么首先需要搞清楚的问题是,只需要统计一个单词,还是多个单词。如果是一个单词的话,那直接就遍 ...
分类:
其他好文 时间:
2016-04-26 11:01:01
阅读次数:
126
python统计文档中词频的小程序 python版本2.7 程序如下,测试文件与完整程序在我的github中 ...
分类:
编程语言 时间:
2016-04-24 14:13:21
阅读次数:
173
由于密码泄露越来越普遍,使得各类“密码分析”工具越来越多。比如最近很火的Pipal,由ruby编写的一款程序,可以分析出密码频率TOP N。但实际使用中发现效率较低。 实际上通过简单的bash命令就可以实现上述的功能: 提取password词频TOP10的密码 time cat pass.txt | ...
分类:
其他好文 时间:
2016-04-23 16:36:08
阅读次数:
137
字典树(trie树) (图f) 字典树是一种以树形结构保存大量字符串。以便于字符串的统计和查找,经常被搜索引擎系统用于文本词频统计。它的优点是:利用字符串的公共前缀来节约存储空间,最大限度地减少无谓的字符串比较,查询效率比哈希表高。具有以下特点(图f):(1)根节点为空;(2)除根节点外,每个节点包 ...
分类:
其他好文 时间:
2016-04-18 11:55:26
阅读次数:
170
1.图解MapReduceMapReduce整体流程图 并行读取文本中的内容,然后进行MapReduce操作 Map过程:并行读取三行,对读取的单词进行map操作,每个词都以<key,value>形式生成 reduce操作是对map的结果进行排序,合并,最后得出词频。 2.简单过程: Input: ...
分类:
其他好文 时间:
2016-04-15 19:58:48
阅读次数:
139
Write a bash script to calculate the frequency of each word in a text file words.txt. For simplicity sake, you may assume: words.txt contains only low ...
分类:
其他好文 时间:
2016-04-13 12:52:13
阅读次数:
184
实例需求分析 数据源会源源不断的产生海量的英文语句。 我们需要实时的获取到单词的词频,或者是TopN,来观察词频是如何变化的。 设想这是不同商品的用户行为操作数据,我们是不是就可以实时观测到用户关注商品的热点呢? 与Hadoop的对比 Storm编程模型 详细请参考后续文章中的部分。这里只进行简单介 ...
分类:
其他好文 时间:
2016-04-12 00:26:40
阅读次数:
1544
词频分析模型 1.会议时间:2016年3月31日12:07~12:30. 持续时长:23分钟 会议参加成员:组长:杨若鹏 http://www.cnblogs.com/robinYangRP/ 组员:何美琪 http://www.cnblogs.com/heyjoymq/ 藏润强 http://ww ...
分类:
其他好文 时间:
2016-04-01 00:58:01
阅读次数:
194
词频分析模型 1.这次站会是周二开的,但是由于我个人的疏忽,哎,不说了。 2.会议时间:2016年3月29日12:03~12:30. 持续时长:27分钟 会议参加成员:组长:杨若鹏 http://www.cnblogs.com/robinYangRP/ 组员:何美琪 http://www.cnblo ...
分类:
其他好文 时间:
2016-03-31 01:41:23
阅读次数:
116