本文是针对大数据开发环境来写的,配置比较简单。zookeeper的介绍、工作原理、特点自行查阅某度百科,说的非常明白。再次需要强调一下,zookeeper集群中的机器节点数是2n-1(奇数)的。准备工作:下载zookeeper-3.4.6.tar.gzhttp://mirror.bit.edu.cn/apache/zookeeper/zookeep..
分类:
其他好文 时间:
2016-10-25 03:14:29
阅读次数:
222
工作需要,现在开始做大数据开发了,通过下面的配置步骤,你可以在win10系统中,部署出一套hadoop+hbase,便于单机测试调试开发。 准备资料: 1. hadoop-2.7.2: https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common ...
分类:
Windows程序 时间:
2016-09-18 19:34:52
阅读次数:
1114
觉得裸用MaxCompute(原ODPS)门槛较高?想做数据开发,却苦于没有好的管理工具?想体验Data IDE觉得前期准备工作太长,欢迎进入大数据体验馆,快速开启体验:https://data.aliyun.com/experience ...
分类:
其他好文 时间:
2016-08-02 13:28:45
阅读次数:
131
大数据开发基础上之图说笔记 1、Hadoop2概览 1.1Hadoop2的组成、演化: 1.2Hadoop2.0——Hadoop1.0演化与改进: 2、HDFS系统概览 2.1HDFS系统的主要特性与适用场景: 2.2HDFS的体系结构: 2.3HDFS的构成 2.4HDFS的读流程: 2.5HDF ...
分类:
其他好文 时间:
2016-07-31 14:29:27
阅读次数:
126
大数据科学丛书系列的最新一本《Scala语言基础与开发实战》即将面市,预计月底上架。内容还是不错的,文笔简介,内容实用,值得学、用。大数据资深培训师王家林新作。详细介绍大数据开发语言Scala及其在分布式框架Akka和Kafka中的应用。秉承“实战”类图书特点,解析大量代码的..
分类:
编程语言 时间:
2016-07-07 17:41:26
阅读次数:
280
More interest,less interests. 本博客分享包括但不限于大数据开发、分布式系统、服务端开发等方面,原csdn博客(主要是本科写的的数据结构和算法)停更。 本博客以学习、分享为主,转载请注明出处。 Kafka 设计模式 分布式系统 ...
分类:
其他好文 时间:
2016-07-06 00:13:24
阅读次数:
121
ClouderaCertifiedAdministratorforApacheHadoop(CCA-500)NumberofQuestions:60questionsTimeLimit:90minutesPassingScore:70%Language:English,JapaneseExamSectionsandBlueprint1.HDFS(17%)DescribethefunctionofHDFSdaemonsDescribethenormaloperationofanApacheHadoopclust..
分类:
其他好文 时间:
2016-06-28 14:40:09
阅读次数:
607
本文要解决的问题:从更深层次考虑,对Spark进行性能调优。目的继基础篇分析了开发调优与资源调优之后,本文作为拓展篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾斜调优简述有时候,大家可能会遇到大数据开发过程中一个比较棘手的问题,那就是数据倾斜,此时Spark作业的性能会比预期差很多,数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的...
分类:
其他好文 时间:
2016-06-21 07:51:41
阅读次数:
233
当前,大数据的实时计算、分析和可视化是行业大数据应用真正落地的关键。为适应这一需求和趋势,开源组织Apache提出了基于Spark 分析和计算框架,其优点:(1) 性能优越。框架中的Spark技术指内存计算:数据处理仅运行于系统内存中,避免以前的框架系统中的硬盘和内存频繁交换数据的时间消耗。另外,S...
分类:
其他好文 时间:
2015-12-27 19:09:24
阅读次数:
180