如果说大数据里面hive是屠龙刀,那么pandas则是倚天剑,**帮助我们对数据数据挖掘、数据分析、数据清洗**
分类:
其他好文 时间:
2020-11-01 21:11:55
阅读次数:
20
前两天试了下 Flink SQL 写 Hive,对 Sink 部分写数据到 HDFS 的部分比较疑惑,特别是基于 checkpoint 的文件提交,所以看了下 StreamingFileSink 的源码(Flink SQL 写 hive 复用了这部分代码) StreamingFileSink 是 1 ...
分类:
其他好文 时间:
2020-11-01 20:49:03
阅读次数:
18
ZIP归档可以把一个或多个文件压缩成占用空间更小的单一文件。当你想释放硬盘空间,或者需要通过邮件和《信息》发送多个文件时,ZIP的重要性不言而喻。macOS的《访达》内置了ZIP压缩功能,使用方法非常简单。下面就来看看它的基本用法,以及一些进阶功能。一键压缩文件压缩单个文件或文件夹时,按住Control点按该文件,然后在弹出菜单中选择压缩即可。压缩后的归档文件与原文件同名,但带有.zip后缀。解压
分类:
其他好文 时间:
2020-10-27 11:25:10
阅读次数:
33
DataNode上数据块以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是数据块元数据包括长度、校验、时间戳;
DataNode启动后向NameNode服务注册,并周期性的向NameNode上报所有的数据块元数据信息;
分类:
其他好文 时间:
2020-10-21 20:51:41
阅读次数:
21
hive 建表语法 内部表: create table fzname (id int,name string,age int,tel string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE; 1 2 3 4 5 ...
分类:
其他好文 时间:
2020-10-18 16:40:39
阅读次数:
25
到http://mirror.bit.edu.cn/apache/hbase/下载对应的Hbase版本 我这里下载的是hbase-2.2.6-bin.tar.gz版本,是较稳定的版本。 解压: tar -zxvf /home/hadoop/桌面/hbase-2.2.6-bin.tar.gz 移动位置 ...
分类:
系统相关 时间:
2020-10-18 09:47:54
阅读次数:
26
先搬个砖: 一:Hive是什么 Hive是面向大数据的数据仓库,是一种将SQL转换为mapreduce的工具。 二:mapreduce的基本流程及阶段可进行的优化操作 (其实有很多不用设置有默认的设置或设置后反而执行时间长,此处做了解,参考设置在下一节) 附上网上的一张老图(虽然老但是很具有代表性, ...
分类:
其他好文 时间:
2020-10-16 11:19:02
阅读次数:
24
不看就亏系列!这里有完整的 Hadoop 集群搭建教程,和最易懂的 Hadoop 概念!| 附代码
分类:
其他好文 时间:
2020-10-08 18:37:04
阅读次数:
25
一、连接SQL package com.njbdqn.linkSql import java.util.Properties import org.apache.spark.sql.SparkSession import org.apache.spark.sql._ object LinkSql { ...
分类:
数据库 时间:
2020-10-06 20:52:59
阅读次数:
35
服务器介绍 node1:192.168.174.10 node2:192.168.174.11 node3:192.168.174.12 node4:192.168.174.13 node5:192.168.174.14 其中,node1、node2、node3三台服务器安装RabbitMQ服务,n ...
分类:
其他好文 时间:
2020-10-06 20:40:24
阅读次数:
24