现有的hadoop生态系统中存在的问题1)使用mapreduce进行批量离线分析;2)使用hive进行历史数据的分析;3)使用hbase进行实时数据的查询;4)使用storm进行实时的流处理;5)。。。。。。导致:维护成本高、学习成本高Spark的出现弥补了Hadoop生态系统中的缺陷,使用spar...
分类:
其他好文 时间:
2014-06-28 14:08:46
阅读次数:
306
一、什么是HOOK? "hook"这个单词的意思是“钩子”,"Windows Hook"是Windows消息处理机制的一个重要扩展,程序猿能够通过它来钩住(截获)感兴趣的消息,并用事先编好的一个函数(钩子过程)来处理这些消息!当然,这个处理是在消息到达目标窗体之前进行的。 钩子过程(hook p.....
Apache Hadoop的服务的部署比较繁琐,需要手工处理配置文件、下载依赖包等。Cloudera Manager以GUI的方式的管理CDH集群,提供向导式的安装步骤。由于需要对Hive,HBase,Impala,Spark进行功能测试,就采用了Cloudera Manager方式进行安装。本文讲解的是parcel安装方式。...
分类:
其他好文 时间:
2014-06-24 22:44:17
阅读次数:
501
一、控制Hive中Map和reduce的数量Hive中的sql查询会生成执行计划,执行计划以MapReduce的方式执行,那么结合数据和集群的大小,map和reduce的数量就会影响到sql执行的效率。除了要控制Hive生成的Job的数量,也要控制map和reduce的数量。1、map的数量,通常情...
分类:
其他好文 时间:
2014-06-23 07:48:43
阅读次数:
288
一:sqoop增量导入的两种方式Incremental import arguments:ArgumentDescription--check-column (col)Specifies the column to be examined when determining which rows to...
分类:
数据库 时间:
2014-06-23 00:58:09
阅读次数:
345
Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构
化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行,通过自己的SQL 去查询分析需
要的内容,这套SQL 简称Hive SQL,使不熟悉mapreduce 的用户很方便的利用SQL 语言...
分类:
数据库 时间:
2014-06-22 22:41:52
阅读次数:
342
Hive 桶 分区 map array struct...
分类:
其他好文 时间:
2014-06-22 21:57:10
阅读次数:
184
模板方法模式(template method pattern) 详解本文地址: http://blog.csdn.net/caroline_wendy模板方法模式(template method pattern): 在一个方法中定义一个算法的骨架, 而将一些步骤延迟到子类中. 模板方法使得子类可以在不改变算法结构的情况下, 重新定义算法中的某些步骤.模板方法可以进行挂钩(hook), 钩子(hoo...
分类:
其他好文 时间:
2014-06-22 18:49:01
阅读次数:
227
Android native 动态库注射,钩子函数的实现。...
分类:
移动开发 时间:
2014-06-22 17:24:53
阅读次数:
335
写在前面一:
数据仓库ETL工具有很多,基于大数据环境下的分析,Hive用的多些。本文介绍国外的 一款开源ETL工具——Kettle。
写在前面二:
所用软件说明:
一、什么是Kettle
Kettle是一款国外开源的ETL工具,纯java编写,绿色无需安装,数据抽取高效稳定(数据迁移工具)。Kettle中有两种脚本文件,transformation和job,transf...
分类:
其他好文 时间:
2014-06-22 12:01:20
阅读次数:
619