搜索关键字：ambari hadoop hbase hive spark，搜索到26003个结果！码迷,mamicode.com！

Spark的Shuffle和MR的Shuffle异同

介绍不论MapReduce还是RDD，shuffle都是非常重要的一环，也是影响整个程序执行效率的主要环节，但是在这两个编程模型里面shuffle却有很大的异同。 shuffle的目的是对数据进行混洗，将各个节点的同一类数据汇集到某一个节点进行计算，为了就是分布式计算的可扩展性。可能大家多MR的 ...

分类：其他好文时间：2020-09-17 19:31:45 阅读次数：30

Hadoop join

一、Map端的主要工作为来自不同表或文件的key/value对，打标签以区别不同来源的记录。然后用连接字段作为key，其余部分和新加的标志作为value，最后进行输出。二、Reduce端的主要工作在Reduce端以连接字段作为key的分组已经完成，我们只需要在每一个分组当中将那些来源于不同 ...

分类：其他好文时间：2020-09-17 19:03:58 阅读次数：23

批量执行crontab指定条目的注释和解注释

在日常变更过程中，变更前会注释某些定时任务(比如巡检告警等)，变更完成后需恢复，有时变更操作的服务器很多，对应需要注释的crontab也很多且不相同，本文通过分发平台执行对应脚本批量实现crontab的注释和解注释功能。

分类：其他好文时间：2020-09-17 18:47:16 阅读次数：39

大数据图谱

Sqoop 在hadoop和关系型数据库之间转换数据 Flume Flume是一个分布式的高可用的数据收集、聚集和移动的工具。通常用于从其他系统搜集数据，如web服务器产生的日志，通过Flume将日志写入到Hadoop的HDFS中 Canal 数据抽取是 ETL 流程的第一步。我们会将数据从 RDB ...

分类：其他好文时间：2020-09-17 18:33:30 阅读次数：37

Flink 从 0 到 1 学习之（15）Flink读取kafka数据并写入HDFS

1.概述最近有同学留言咨询，Flink消费Kafka的一些问题，今天笔者将用一个小案例来为大家介绍如何将Kafka中的数据，通过Flink任务来消费并存储到HDFS上。 2.内容这里举个消费Kafka的数据的场景。比如，电商平台、游戏平台产生的用户数据，入库到Kafka中的Topic进行存储，然 ...

分类：其他好文时间：2020-09-17 17:38:24 阅读次数：37

Spark ML之高级数据源

一.图像数据源图像数据源用于从目录加载图像文件，它可以通过ImageIO Java库将压缩图像（jpeg，png等）加载为原始图像表示形式。加载的DataFrame具有一StructType列：“ image”，其中包含存储为图像架构的图像数据。该image列的架构为： origin ：（Stri ...

分类：其他好文时间：2020-09-17 17:38:02 阅读次数：52

1. 开启 Map 输出阶段压缩(中间压缩)

1 开启 Map 输出阶段压缩(中间压缩) 开启 map 输出阶段压缩可以减少 job 中 map 和 Reduce task 间数据传输量。具体配置如下：步骤1: 开启 Hive 中间传输数据压缩功能 map 任务和 reduce 任务之间的数据的压缩. hive.exec.compress.i ...

分类：其他好文时间：2020-09-17 17:04:51 阅读次数：30

CentOS 7 下 Cloudera 6.3.1 安装 Hadoop 集群

一、软件介绍1、CDH概览CDH（ClouderaDistributionofApacheHadoop）是ApacheHadoop和相关项目中最完整、经过测试和流行的发行版。CDH提供Hadoop的核心元素，可伸缩存储和可扩展分布式计算，以及基于web的用户界面和关键的企业功能。CDH是apache授权的开放源码，是惟一提供统一批处理、交互式SQL和交互式搜索以及基于角色的访问控制的Hadoop解

分类：其他好文时间：2020-09-17 16:53:39 阅读次数：33

使用Hive SQL窗口函数进行商务数据分析

本文会从一个商务分析案例入手，说明SQL窗口函数的使用方式。通过本文的5个需求分析，可以看出SQL窗口函数的功能十分强大，不仅能够使我们编写的SQL逻辑更加清晰，而且在某种程度上可以简化需求开发。数据准备本文主要分析只涉及一张订单表orders，操作过程在Hive中完成，具体数据如下：--建表CREATETABLEorders(order_idint,customer_idstring,citys

分类：数据库时间：2020-09-17 16:33:50 阅读次数：45

ThreadLocal

1、基本概念 ThreadLocal叫做线程变量，意思是ThreadLocal中填充的变量属于当前线程，该变量对其他线程而言是隔离的。ThreadLocal为变量在每个线程中都创建了一个副本，那么每个线程可以访问自己内部的副本变量。 2、使用场景 1、在进行对象跨层传递的时候，使用ThreadLoc ...

分类：其他好文时间：2020-09-17 16:28:42 阅读次数：25

共26003条上一页 1 ... 46 47 48 49 50 ... 2601 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)