(1)map package cn.itcast.mapreduce; import java.io.IOException; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; imp ...
分类:
其他好文 时间:
2020-06-27 13:13:03
阅读次数:
59
Hadoop是一个能够对海量数据进行分布式处理的系统架构,主要包含3大块:分布式存储系统HDFS(Hadoop Distributed File System)分布式存储层、分布式计算框架MapReduce分布式计算层、资源管理系统YARN(Yet Another Resource Negotiat... ...
分类:
其他好文 时间:
2020-06-27 11:40:19
阅读次数:
93
1. CentOS6.5mini安装 文件>>新建虚拟机 选择自定义,下一步 默认,下一步 选择稍后安装操作系统,下一步 选择CentOS版本,下一步 给虚拟机命名,这个是在VMWare中显示的名称,下一步 处理器配置,默认,下一步 根据电脑配置选择虚拟内存,不能小于1024M,下一步 网络类型选择 ...
分类:
其他好文 时间:
2020-06-27 09:51:22
阅读次数:
76
一、简介 Apache Flume 是一个分布式,高可用的数据收集系统,可以从不同的数据源收集数据,经过聚合后发送到分布式计算框架或者存储系统中。Spark Straming 提供了以下两种方式用于 Flume 的整合。 二、推送式方法 在推送式方法 (Flume-style Push-based ...
分类:
Web程序 时间:
2020-06-27 00:19:37
阅读次数:
77
一、案例引入 这里先引入一个基本的案例来演示流的创建:获取指定端口上的数据并进行词频统计。项目依赖和代码实现如下: <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.12</artifactI ...
分类:
其他好文 时间:
2020-06-27 00:14:44
阅读次数:
62
一.集群规划 Master Slave1 Slave2 Slave3 IP 192.168.2.131 192.168.2.132 192.168.2.133 192.168.2.134 namenode 有 有 无 无 datanode 有 有 有 有 resourcemanager 无 无 有 ...
分类:
其他好文 时间:
2020-06-26 23:52:47
阅读次数:
80
Arctern基于开源大数据生态,构建灵活、强大、高性能的时空数据分析平台,帮助用户应对5G/IoT带来的新型数据挑战,加速时空数据的处理、分析、模型预测与呈现。本文中将会介绍Arctern Spark单机可视化安装和简单使用 安装和验证 参考单机安装arctern和在线安装单机spark 一:要注 ...
分类:
其他好文 时间:
2020-06-26 22:01:05
阅读次数:
47
单机版系统 一台服务器,应用程序、数据库、文件等所有资源都在一台服务器上。 单机版系统的承载能力只能大概预估。 随着业务的发展,一台服务器逐渐不能满足需求,因此要将应用程序和数据分离,应用和数据分离后使用三台服务器:应用程序服务器、文件服务器和数据库服务器。 业务进一步发展,数据库压力太大导致访问延 ...
分类:
其他好文 时间:
2020-06-26 20:31:31
阅读次数:
55
一、流处理 1.1 静态数据处理 在流处理之前,数据通常存储在数据库,文件系统或其他形式的存储系统中。应用程序根据需要查询数据或计算数据。这就是传统的静态数据处理架构。Hadoop 采用 HDFS 进行数据存储,采用 MapReduce 进行数据查询或分析,这就是典型的静态数据处理架构。 1.2 流 ...
分类:
其他好文 时间:
2020-06-26 20:02:43
阅读次数:
49
一、简介 1.1 多数据源支持 Spark 支持以下六个核心数据源,同时 Spark 社区还提供了多达上百种数据源的读取方式,能够满足绝大部分使用场景。 CSV JSON Parquet ORC JDBC/ODBC connections Plain-text files 注:以下所有测试文件均可从 ...
分类:
数据库 时间:
2020-06-26 18:39:56
阅读次数:
61