搜索关键字：ambari hadoop hbase hive spark，搜索到26003个结果！码迷,mamicode.com！

Spark之RDD编程

Spark对数据的核心抽象——弹性分布式数据集（Resilient Distributed Dataset），简称RDD。RDD其实就是分布式的元素集合。在Spark中，对数据的所有操作不外乎创建RDD、转化已有RDD以及调用RDD操作进行求值。而在这背后，Spark会自动将RDD中的数据分发到集群 ...

分类：其他好文时间：2020-05-30 22:18:13 阅读次数：105

spark基础入门

第1章 Spark 概述 1.1 什么是 Spark 官网：http://spark.apache.org Spark 的产生背景 Spark 是一种快速、通用、可扩展的大数据分析引擎，2009 年诞生于加州大学伯克利分校 AMPLab，2010 年开源，2013 年 6 月成为 Apache 孵化 ...

分类：其他好文时间：2020-05-30 22:09:09 阅读次数：75

优化技巧汇总_通用优化+Linux 优化+HDFS 优化+MapReduce 优化+HBase 优化+内存优化+JVM 优化+Zookeeper 优化

一、通用优化 1.1、NameNode 的元数据备份使用 SSD 1.2、定时备份 NameNode 上的元数据建议每小时或者每天备份，如果数据极其重要，可以5~10分钟备份一次。备份可以通过定时任务复制元数据目录即可。 1.3、为 NameNode 指定多个元数据目录使用 dfs.name.d ...

分类：系统相关时间：2020-05-30 21:52:59 阅读次数：105

hive从入门到实战五

第10章 Hive实战之谷粒影音 10.1 需求描述统计硅谷影音视频网站的常规指标，各种TopN指标：统计视频观看数Top10 统计视频类别热度Top10 统计出视频观看数最高的20个视频的所属视频类别以及对应视频类别的个数统计视频观看数Top50所关联视频的所属类别Rank 统计每个类别中的 ...

分类：其他好文时间：2020-05-30 20:22:47 阅读次数：68

hadoop 数据处理总结

最近工作中用了了Hadoop，比如用Hadoop来处理广告的一些pv量数据、点击数据等，最后统计后给运营展示每个广告的数据报表首先自己了解了一些关于Hadoop的概念知识 hadoop平台提供了分布式存储（hdfs），分布式计算（mapredduce），任务调度（YARN）、对象存储（Ozone） ...

分类：其他好文时间：2020-05-30 20:22:33 阅读次数：94

Sqoop从入门到实战

第1章 Sqoop 简介 Sqoop 是一款开源的工具，主要用于在 Hadoop(Hive) 与传统的数据库 (mysql,postgresql,...) 间进行数据的高校传递，可以将一个关系型数据库（例如：MySQL,Oracle,Postgres等）中的数据导入到 Hadoop 的 HDFS 中 ...

分类：其他好文时间：2020-05-30 20:21:57 阅读次数：82

azkaban从入门到实战

一概述 1.1 为什么需要工作流调度系统 1）一个完整的数据分析系统通常都是由大量任务单元组成： shell 脚本程序，java 程序，mapreduce 程序、hive 脚本等。2）各任务单元之间存在时间先后及前后依赖关系。3）为了很好地组织起这样的复杂执行计划，需要一个工作流调度系统来调度执行 ...

分类：其他好文时间：2020-05-30 20:00:49 阅读次数：59

Flume从入门到实战

第1章 Flume概述 1.1 Flume定义 Flume(水槽) 是 Cloudera 提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单。在2009年Flume被捐赠了apache软件基金会，为hadoop相关组件之一。尤其近几年随着flum ...

分类：Web程序时间：2020-05-30 19:56:36 阅读次数：89

hive从入门到实战二

第4章 DDL数据定义 4.1 创建数据库 1）创建一个数据库，数据库在HDFS上的默认存储路径是/user/hive/warehouse/*.db。 hive (default)> create database db_hive; 2）避免要创建的数据库已经存在错误，增加 if not exist ...

分类：其他好文时间：2020-05-30 19:43:40 阅读次数：64

hive从入门到实战四

第8章压缩和存储（Hive高级） 8.1 Hadoop源码编译支持Snappy压缩 8.1.1 资源准备 1、CentOS联网配置CentOS能连接外网。Linux虚拟机 ping www.baidu.com 是畅通的。注意：采用root角色编译，减少文件夹权限出现问题。2、jar包准备(ha ...

分类：其他好文时间：2020-05-30 19:42:06 阅读次数：53

共26003条上一页 1 ... 96 97 98 99 100 ... 2601 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)