Spark已正式申请加入Apache孵化器,从灵机一闪的实验室“电火花”成长为大数据技术平台中异军突起的新锐。本文主要讲述Spark的设计思想。Spark如其名,展现了大数据不常见的“电光石火”。具体特点概括为“轻、快...
分类:
其他好文 时间:
2014-08-15 14:53:59
阅读次数:
338
一、集群启动过程--启动Master$SPARK_HOME/sbin/start-master.shstart-master.sh脚本关键内容:spark-daemon.sh start org.apache.spark.deploy.master.Master 1 --ip $SPARK_MAST...
分类:
其他好文 时间:
2014-08-14 19:36:09
阅读次数:
387
Hive 已是目前业界最为通用、廉价的构建大数据时代数据仓库的解决方案了,虽然也有 Impala 等后起之秀,但目前从功能、稳定性等方面来说,Hive 的地位尚不可撼动。其实这篇博文主要是想聊聊 SMB join 的,Join 是整个 MR/Hive 最为核心的部分之一,是每个 Hadoop/Hiv...
分类:
其他好文 时间:
2014-08-14 16:22:48
阅读次数:
244
sqoop从oracle定时增量导入数据到hive感谢:http://blog.sina.com.cn/s/blog_3fe961ae01019a4l.htmlhttp://f.dataguru.cn/thread-94073-1-1.html sqoop.metastore.client.reco...
分类:
数据库 时间:
2014-08-14 16:09:48
阅读次数:
330
Hive常用的存储类型有:1、TextFile: Hive默认的存储类型;文件大占用空间大,未压缩,查询慢;2、Sequence File:3、RCFile:facebook开发的一个集行存储和列存储的优点于一身,压缩比更高,读取列更快,它在mr环境中大规模数据处理中扮演着重要的角色;是一种行列存储...
分类:
其他好文 时间:
2014-08-14 16:01:08
阅读次数:
283
Array一组有序字段,字段的类型必须相同。Array(1,2)create table hive_array(ip string, uid array)row format delimited fields terminated by ','collection items terminated ...
分类:
其他好文 时间:
2014-08-14 15:56:58
阅读次数:
186
安装sshHadoop是采用ssh进行通信的,此时我们要设置密码为空,即不需要密码登陆,这样免去每次通信时都输入秘密,安装如下:输入“Y”进行安装并等待自动安装完成。安装ssh完成后启动服务以下命令验证服务是否正常启动:可以看到ssh正常启动;设置免密码登录,生成私钥和公钥:在/root/.ssh中...
分类:
其他好文 时间:
2014-08-14 13:50:18
阅读次数:
879
王家林 Spark公开课大讲坛第一期:Spark把云计算大数据速度提高100倍以上 http://edu.51cto.com/lesson/id-30816.html
Spark实战高手之路 系列书籍 http://down.51cto.com/tag-Spark%E6%95%99...
分类:
数据库 时间:
2014-08-14 10:32:38
阅读次数:
218
快刀初试:Spark GraphX在淘宝的实践作者:明风(本文由团队中梧苇和我一起撰写,并由团队中的林岳,岩岫,世仪等多人Review,发表于程序员的8月刊,由于篇幅原因,略作删减,本文为完整版) 对于网络科学而言,世间万物都可以抽象成点,而事物之间的关系都可以抽象成边,并根据不同的应用场景,...
分类:
其他好文 时间:
2014-08-13 22:20:27
阅读次数:
824