1、集群部署概述1.1Hadoop简介研发要做数据挖掘统计,需要Hadoop环境,便开始了本次安装测试,仅仅使用了3台虚拟机做测试工作。简介……此处省略好多……,可自行查找……从你找到的内容可以总结看到,NameNode和JobTracker负责分派任务,DataNode和TaskTracker负责数据计算和..
分类:
其他好文 时间:
2017-04-01 14:08:16
阅读次数:
1544
谈到字节序的问题,必然牵涉到两大CPU派系。那就是Motorola的PowerPC系列CPU和Intel的x86系列CPU。PowerPC系列采用big endian方式存储数据,而x86系列则采用little endian方式存储数据。那么究竟什么是big endian,什么又是little en ...
分类:
其他好文 时间:
2017-03-21 10:15:16
阅读次数:
230
阿里云发布了许多产品,今天让我们来了解下大数据计算服务MaxCompute这款产品吧。 什么是MaxCompute呢? MaxCompute是由阿里云自主研发,是阿里巴巴自主研发的海量数据处理平台。提供针对TB/PB级数据、实时性要 ...
分类:
其他好文 时间:
2017-03-17 19:07:05
阅读次数:
204
这篇文章主要是给外部用户介绍如何使用RODPS的 (一)概念介绍 RODPS能够提供一个桥接的方式,使得可以在R语言环境中无缝的使用MaxCompute(原ODPS)里面的数据、计算资源,类似于开源社区的RHive和Rhadoop的功能。 (二)安装R基础环境 2.1 Linux serve ...
分类:
其他好文 时间:
2017-03-17 16:03:28
阅读次数:
220
Spark是目前最火爆的大数据计算框架,有赶超Hadoop MapReduce的趋势。因此,趁着现在还有大多数人不懂得Spark开发的,赶紧好好学习吧,为了使不同的开发人员能够很好的利用Spark,Spark官方提供了不同开发语言的API,本文以大数据经典入门案例WordCount为例,开发多个版本 ...
分类:
编程语言 时间:
2017-03-15 15:16:10
阅读次数:
198
转载 美团技术团队 原文地址 http://tech.meituan.com/spark-tuning-basic.html 前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计 ...
分类:
其他好文 时间:
2017-03-12 19:46:35
阅读次数:
224
有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。 ...
分类:
其他好文 时间:
2017-03-10 15:10:21
阅读次数:
240
前言 继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。 数据倾斜调优 调优概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作 ...
分类:
其他好文 时间:
2017-03-10 00:34:22
阅读次数:
236
数据开发相关的经验不是很多,目前已自己对这块工作的理解,先初步整理下。 所谓数据开发是面向数据仓库的开发,所以结合一般数据仓库的架构主要有几个方面的生态内容。 1、数据采集 mysql等关系型数据的搜集 分布式日志搜集(flume、kafka) 2、数据存储 hdfs 3、数据计算(离线、实时) m ...
分类:
其他好文 时间:
2017-03-05 17:42:13
阅读次数:
156
1、为什么引入Backpressure 默认情况下,Spark Streaming通过Receiver以生产者生产数据的速率接收数据,计算过程中会出现batch processing time > batch interval的情况,其中batch processing time 为实际计算一个批次 ...
分类:
其他好文 时间:
2017-03-01 20:58:52
阅读次数:
216