Apache Crunch是FlumeJava的实现,为不太方便直接开发和使用的MapReduce程序,开发一套MR流水线,具备数据表示模型,提供基础原语和高级原语,根据底层执行引擎对MR Job的执行进行优化。从分布式计算角度看,Crunch提供的许多计算原语,可以在Spark、Hive、Pig等地方找到很多相似之处,而本身的数据读写,序列化处理,分组、排序、聚合的实现,类似MapReduce各阶段的拆分都可以在Hadoop里找到影子。
本文介绍Crunch在数据表示模型、操作原语、序列化处理方面的设计和...
分类:
其他好文 时间:
2014-08-03 18:02:06
阅读次数:
267
第一部分、十道海量数据处理面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法, 比如模1000,把整个大文件映射为1000个小文件,再找出每个小文...
分类:
编程语言 时间:
2014-08-03 17:33:25
阅读次数:
345
千万级的注册用户,千万级的帖子,nTB级的附件,还有巨大的日访问量,大型网站采用什么系统架构保证性能和稳定性?
首先讨论一下大型网站需要注意和考虑的问题。
数据库海量数据处理:负载量不大的情况下select、delete和update是响应很迅速的,最多加几个索引就可以搞定,但千万级的注册用户和一个设计不好的多对多关系将带来非常严重的性能问题。另外在高UPDATE的情况下,更新一个...
分类:
Web程序 时间:
2014-08-03 15:21:45
阅读次数:
1007
1. Bloom-Filter算法简介Bloom Filter(BF)是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。它是一个判断元素是否存在于集合的快速的概率算法。Bloom Filter有可能会出现错误判断,但不会漏掉判断。也就是Bloom ...
分类:
其他好文 时间:
2014-08-03 15:01:15
阅读次数:
207
列表和数据框
1.列表
list函数创建列表
> (a_list 1,-3),nrow=2),asin))
[[1]]
[1] 1 1 2 5 14 42
[[2]]
[1] "Jan" "Feb" "Mar" "Apr" "May" "Jun" "Jul" "Aug" "Sep" "Oct" "Nov" "Dec"
[...
分类:
其他好文 时间:
2014-08-02 10:08:33
阅读次数:
303
bag-of-words model的java实现...
分类:
编程语言 时间:
2014-08-01 23:19:02
阅读次数:
291
CSDN开源夏令营 百度数据可视化实践 ECharts 期中总结 总结过去遇到的问题和难点...
分类:
其他好文 时间:
2014-08-01 23:18:02
阅读次数:
369
【小记】:大胆尝试才能突破,某个中医药大学有一批图片需要处理(ORC),然后进行数据挖掘。之前没有接触过ORC这个东西,但是还是应允了。在网上搜索一番,关于中文图片识别,最终敲定为基于微软的OneNote,其识别率相对较高。网上这个技术点的资料真心不多,后来于博客园找到一篇博文,但是那个程序还是bu...
分类:
数据库 时间:
2014-08-01 23:04:32
阅读次数:
557
向量矩阵和数组
1.vector函数可以创建指定类型、长度的矢量
(其结果中的值可以是0,FLASE,空字符串)
> vector("numeric",5)
[1] 0 0 0 0 0
> vector("complex",6)
[1] 0+0i 0+0i 0+0i 0+0i 0+0i 0+0i
> ve...
分类:
其他好文 时间:
2014-08-01 19:57:12
阅读次数:
278
一、Bloom?filter 适用范围:可以用来实现数据字典,进行数据的判重,或者集合求交集 基本原理及要点: 对于原理来说很简单,位数组+k个独立hash函数。将hash函数对应的值的位数组置1,查找时如果发现所有h...
分类:
其他好文 时间:
2014-08-01 16:21:22
阅读次数:
286