搜索关键字：ambari hadoop hbase hive spark，搜索到26003个结果！码迷,mamicode.com！

大数据开发-Spark Join原理详解

数据分析中将两个数据集进行 Join 操作是很常见的场景。在 Spark 的物理计划阶段，Spark 的 Join Selection 类会根据 Join hints 策略、Join 表的大小、 Join 是等值 Join 还是不等值以及参与 Join 的 key 是否可以排序等条件来选择最终的 ...

分类：其他好文时间：2021-06-10 18:28:12 阅读次数：0

hive cli转hive beeline的几个例子

#COMMAND="hive -i settings/load-${SCHEMA_TYPE}.sql -f ddl-tpch/bin_${SCHEMA_TYPE}/${t}.sql \ # -d DB=${DATABASE} \ # -d SOURCE=tpch_text_${SCALE} -d B ...

分类：其他好文时间：2021-06-10 18:25:11 阅读次数：0

Hadoop 数据迁移用法详解

数据迁移使用场景冷热集群数据分类存储,详见上述描述. 集群数据整体搬迁.当公司的业务迅速的发展,导致当前的服务器数量资源出现临时紧张的时候,为了更高效的利用资源,会将原A机房数据整体迁移到B机房的,原因可能是B机房机器多,而且B机房本身开销较A机房成本低些等. 数据的准实时同步.数据的准实时同步与 ...

分类：其他好文时间：2021-06-10 18:05:50 阅读次数：0

[数据仓库]分层概念,ODS,DM,DWD,DWS,DIM的概念

转自：https://blog.csdn.net/pmdream/article/details/113601956 一. 各种名词解释 1.1 ODS是什么？ ODS层最好理解，基本上就是数据从源表拉过来，进行etl，比如mysql 映射到hive，那么到了hive里面就是ods层。 ODS 全称 ...

分类：其他好文时间：2021-06-10 17:32:45 阅读次数：0

Windows10 从零搭建 Hadoop/Hive 环境及 Hive 入门

1. Hadoop 概览Google 三篇论文（GFS -> HDFS，Map-Reduce -> MR，BigTable -> HBase）是 Hadoop 的思想之源。Hadoop 生态非常庞大，其最初两大核心是 HDFS 和 MR，分别负责存储和计算（Hadoop 1.x 中，MR 既负责计算 ...

分类：Windows程序时间：2021-06-08 23:15:13 阅读次数：0

真正了解sqoop的一切

一．sqoop的简单概论 1.sqoop产生的原因： A. 多数使用hadoop技术的处理大数据业务的企业，有大量的数据存储在关系型数据中。 B. 由于没有工具支持，对hadoop和关系型数据库之间数据传输是一个很困难的事。依据以上的原因sqoop产生的。 2. sqoop的介绍 sqoop是连接 ...

分类：其他好文时间：2021-06-08 22:45:15 阅读次数：0

利用sqoop将hive数据导入导出数据到mysql

运行环境 centos 5.6 hadoop hivesqoop是让hadoop技术支持的clouder公司开发的一个在关系数据库和hdfs,hive之间数据导入导出的一个工具在使用过程中可能遇到的问题： sqoop依赖zookeeper，所以必须配置ZOOKEEPER_HOME到环境变量中。sq ...

分类：数据库时间：2021-06-07 20:36:05 阅读次数：0

09 spark连接mysql数据库

1. 安装启动检查Mysql服务。##netstat -tunlp (3306) cd /usr/local/hive/lib ls mysql* cp mysql-connector-java-5.1.40-bin.jar /usr/local/spark/jars/ cd /usr/local/ ...

分类：数据库时间：2021-06-07 20:10:49 阅读次数：0

01 Spark架构与运行流程

1. 阐述Hadoop生态系统中，HDFS, MapReduce, Yarn, Hbase及Spark的相互关系，为什么要引入Yarn和Spark。 HDFS是Hadoop体系中数据存储管理的基础，它是一个高度容错的系统，能检测和应对硬件故障，在低成本的通用硬件上运行。 HBase构建在HDFS之上 ...

分类：其他好文时间：2021-06-07 20:05:58 阅读次数：0

Spark RDD编程

1. 准备文本文件：从文件创建RDD lines=sc.textFile()：筛选出含某个单词的行 lines.filter()，lambda 参数：条件表达式： 2. 生成单词的列表：从列表创建RDD words=sc.parallelize()：筛选出长度大于2 的单词 words.fi ...

分类：其他好文时间：2021-06-07 20:04:33 阅读次数：0

共26003条上一页 1 ... 5 6 7 8 9 ... 2601 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)