1、创建topic 使用 kafka-topics.sh脚本 kafka-topics.sh --create --partitions 3 --replication-factor 2 --topic test --zookeeper hadoop01:2181,hadoop02:2181,had ...
分类:
其他好文 时间:
2021-06-20 18:38:22
阅读次数:
0
需求分析 采集需求:某服务器的某特定目录下,会不断产生新的文件,每当有新文件出现,就需要把文件采集到HDFS中去 结构示意图: 根据需求,首先定义以下3大要素 数据源组件,即source ——监控文件目录 : spooldir spooldir特性: 1、监视一个目录,只要目录中出现新文件,就会采集 ...
分类:
Web程序 时间:
2021-06-20 17:55:46
阅读次数:
0
Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据 ...
分类:
数据库 时间:
2021-06-19 19:26:27
阅读次数:
0
上一篇文章我们简单的介绍《 linux中sqoop实现hive数据导入到mysql》,本文将简单介绍如何通过sqoop把hive数据导入到mysql。一. 前期准备 实践本文内容,默认您已经安装和部署了hadoop,mysql,hive,sqoop等环境。如相关安装和部署有问题,可以参考《 linu ...
分类:
数据库 时间:
2021-06-19 19:26:08
阅读次数:
0
运行环境 centos 5.6 hadoop hivesqoop是让hadoop技术支持的clouder公司开发的一个在关系数据库和hdfs,hive之间数据导入导出的一个工具 在使用过程中可能遇到的问题:sqoop依赖zookeeper,所以必须配置ZOOKEEPER_HOME到环境变量中。sqo ...
分类:
数据库 时间:
2021-06-19 19:24:57
阅读次数:
0
概览1.配置hive-site.xml2.配置hadoop中的core-site.xml文件3.测试 首先将hive安装 然后更改部分配置文件 1.配置hive-site.xml利用Xshell工具连接虚拟机 进入hive安装目录下的conf文件夹,更改hive-site.xml配置文件其中配置参考 ...
分类:
其他好文 时间:
2021-06-19 19:20:19
阅读次数:
0
Hive列转行: select school,concat_ws('|',collect_set(name)) as name from tmp_01 group by school; 注意:collect_set 有重复的会去重, collect_list 有重复的不去重 hive行转列: sel ...
分类:
其他好文 时间:
2021-06-19 19:05:46
阅读次数:
0
转自:https://blog.csdn.net/qq_25062299/article/details/95592877 ...
分类:
其他好文 时间:
2021-06-19 19:00:51
阅读次数:
0
HDFS的读取过程 HDFS的读取流程大致有以下几个步骤: (1)客户端通过调用FileSystem对象的open()来打开希望读取的文件。对于HDFS平台来说,这个对象是DistributedFileSystem类的是一个实例,所以实际调用的是DistributedFileSystem对象的ope ...
分类:
其他好文 时间:
2021-06-19 18:42:26
阅读次数:
0
简介: 最佳实践,以DLA为例子。DLA致力于帮助客户构建低成本、简单易用、弹性的数据平台,比传统Hadoop至少节约50%的成本。其中DLA Meta支持云上15+种数据数据源(OSS、HDFS、DB、DW)的统一视图,引入多租户、元数据发现,追求边际成本为0,免费提供使用。DLA Lakehou ...
分类:
其他好文 时间:
2021-06-18 20:06:29
阅读次数:
0