搜索关键字：大数据开发 Hadoop Spark，搜索到19831个结果！码迷,mamicode.com！

脚本启动集群 zookeeper , hadoop

1.在NameNode的一个节点下执行以下命令 #!/bin/bash for i in 192.168.1.101 192.168.1.102 192.168.1.103 do ssh $i "source /etc/profile;source ~/.bash_profile;/home/abb ...

分类：其他好文时间：2020-06-01 13:34:08 阅读次数：62

spark的编译

1.下载spark源码包2.下载scala3.下载maven4.防止maven内溢出: export MAVEN_OPTS="-Xmx2g -XX:ReservedCodeCacheSize=512m" 5.在spark目录下，有pom文件的那里执行：执行maven安装 ./build/mvn ...

分类：其他好文时间：2020-06-01 01:15:14 阅读次数：74

Apache Avro 简介

一、引言 1、简介 Avro是Hadoop中的一个子项目，也是Apache中一个独立的项目，Avro是一个基于二进制数据传输高性能的中间件。在Hadoop的其他项目中例如HBase(Ref)和Hive(Ref)的Client端与服务端的数据传输也采用了这个工具。Avro是一个数据序列化的系统，可以 ...

分类：Web程序时间：2020-05-31 22:07:53 阅读次数：125

sqoop数据迁移

1.1、概述 sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。导入数据：MySQL，Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统；导出数据：从Hadoop的文件系统中导出数据到关系数据库mysql等 1.2、sqoop1与 ...

分类：其他好文时间：2020-05-31 19:30:40 阅读次数：69

第2天Python实战Spark大数据分析及调度-RDD编程

Spark提供的主要抽象是resilient distributed dataset（RDD）弹性分布式数据集，它是跨集群节点划分的元素的集合，可以并行操作。通过从Hadoop文件系统（或任何其他Hadoop支持的文件系统）中的文件或驱动程序中现有的Scala集合开始并进行转换来创建RDD。用户还 ...

分类：编程语言时间：2020-05-31 16:03:22 阅读次数：92

Apache Spark

Apache Spark Apache Spark是一个开源集群运算框架，最初是由加州大学柏克莱分校AMPLab所开发。相对于Hadoop的MapReduce会在运行完工作后将中介数据存放到磁盘中，Spark使用了存储器内运算技术，能在数据尚未写入硬盘时即在存储器内分析运算。Spark在存储器内运行 ...

分类：Web程序时间：2020-05-31 00:41:36 阅读次数：95

Spark之RDD编程

Spark对数据的核心抽象——弹性分布式数据集（Resilient Distributed Dataset），简称RDD。RDD其实就是分布式的元素集合。在Spark中，对数据的所有操作不外乎创建RDD、转化已有RDD以及调用RDD操作进行求值。而在这背后，Spark会自动将RDD中的数据分发到集群 ...

分类：其他好文时间：2020-05-30 22:18:13 阅读次数：105

spark基础入门

第1章 Spark 概述 1.1 什么是 Spark 官网：http://spark.apache.org Spark 的产生背景 Spark 是一种快速、通用、可扩展的大数据分析引擎，2009 年诞生于加州大学伯克利分校 AMPLab，2010 年开源，2013 年 6 月成为 Apache 孵化 ...

分类：其他好文时间：2020-05-30 22:09:09 阅读次数：75

hadoop 数据处理总结

最近工作中用了了Hadoop，比如用Hadoop来处理广告的一些pv量数据、点击数据等，最后统计后给运营展示每个广告的数据报表首先自己了解了一些关于Hadoop的概念知识 hadoop平台提供了分布式存储（hdfs），分布式计算（mapredduce），任务调度（YARN）、对象存储（Ozone） ...

分类：其他好文时间：2020-05-30 20:22:33 阅读次数：94

Sqoop从入门到实战

第1章 Sqoop 简介 Sqoop 是一款开源的工具，主要用于在 Hadoop(Hive) 与传统的数据库 (mysql,postgresql,...) 间进行数据的高校传递，可以将一个关系型数据库（例如：MySQL,Oracle,Postgres等）中的数据导入到 Hadoop 的 HDFS 中 ...

分类：其他好文时间：2020-05-30 20:21:57 阅读次数：82

共19831条上一页 1 ... 68 69 70 71 72 ... 1984 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)