MR引擎: MapReduce:是一种离线计算框架,将一个算法抽象成Map和Reduce两个阶段进行处理,每个阶段都是用键值对(key/value)作为输入和输出,非常适合数据密集型计算。Map/Reduce通过把对数据集的大规模操作分发给网络上的每个节点实现可靠性;每个节点会周期性地返回它所完成的 ...
分类:
其他好文 时间:
2017-06-02 17:50:53
阅读次数:
207
参考文献: http://blog.csdn.net/lxhandlbb/article/details/54410644 每次提交Spark任务到yarn的时候,总会出现uploading resource(打包spark jars并上传)到hdfs上。 恶劣情况下,会在这里卡住很久。 解决: 在 ...
分类:
编程语言 时间:
2017-06-02 14:57:32
阅读次数:
1611
Spark 可以放到yarn上面去跑,这个毫无疑问。当Yarn做了HA的时候,网上会告诉你基本Spark测不需做太多的关注修改,实际不然。 除了像spark.yarn开头的相关配置外,其中一个很重要的坑是spark-yarn依赖包的Hadoop版本问题。Spark1.6.x的spark-yarn默认 ...
分类:
其他好文 时间:
2017-06-02 12:36:23
阅读次数:
172
启动hive时报例如以下的错误[ERROR] Terminal initialization failed; falling back to unsupported 解决的方法:进入到hadoop安装文件夹下的share/hadoop/yarn下删除 jline的jar文件。再启动hive就可以 启 ...
分类:
其他好文 时间:
2017-06-02 11:46:36
阅读次数:
175
主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, ...
分类:
其他好文 时间:
2017-06-01 11:19:26
阅读次数:
252
MRv1 VS MRv2 MRv1: - JobTracker: 资源管理 & 作业控制- 每个作业由一个JobInProgress控制,每个任务由一个TaskInProgress控制。由于每个任务可能有多个运行实例,因此,TaskInProgress实际管理了多个运行实例TaskAttempt,每 ...
分类:
其他好文 时间:
2017-05-31 19:07:00
阅读次数:
231
在概况(一)中,主要简单的对Yarn的情况作了简单的介绍,今天花一定时间在某些详细的模块上呈现下面Yarn的总体情况。帮助大家更好的理解Yarn。 1)ResourceManager 在Yarn的总体架构中。他用的也是Master/Slave架构,他的Slave是NodeManager,RM在Yar ...
分类:
其他好文 时间:
2017-05-31 12:00:47
阅读次数:
163
React es6语法 class Counter extends Component { static propTypes = { 报错。 两个解决方案: 1.等号改为冒号,但是看着别扭 2.yarn add babel-preset-stage-0 { "presets": ["react", ...
分类:
其他好文 时间:
2017-05-29 13:37:06
阅读次数:
175
Spark运行的4中模式: Local Standalone Yarn Mesos 一、安装spark前期准备 1、安装java $ sudo tar -zxvf jdk-7u67-linux-x64.tar.gz -C /opt/service/ export JAVA_HOME=/opt/ser ...
分类:
其他好文 时间:
2017-05-22 16:38:41
阅读次数:
222
企业中的比较全面HADOOP的生态架构 HDFS :分布式文件系统 YARN:分布式资源管理 MapReduce:离线计算框架 Spark:内存计算框架 Hive:数据仓库 (HQL),提供一种类SQL的数据处理方法 Pig:一种数据流语言,用来快速轻松的处理巨大的数据 HBase:分布式数据库 O ...
分类:
其他好文 时间:
2017-05-22 01:22:50
阅读次数:
254