一、原集群操作: 1、hdfs创建目录hdfs dfs -mkdir /tmp/hive-export 2、hive导出表命令hive -e "use 库;show tables" | awk '{printf "use 库;export table %s to @/tmp/hive-export/ ...
分类:
其他好文 时间:
2019-11-19 15:46:28
阅读次数:
380
常见端口汇总:Hadoop: 50070:HDFS WEB UI端口 8020 : 高可用的HDFS RPC端口 9000 : 非高可用的HDFS RPC端口 8088 : Yarn 的WEB UI 接口 8485 : JournalNode 的RPC端口 8019 : ZKFC端口 19888:j ...
分类:
其他好文 时间:
2019-11-18 20:10:58
阅读次数:
79
Apache Hive支持Apache Hadoop中使用的几种熟悉的文件格式,如TextFile,RCFile,SequenceFile,AVRO,ORC和Parquet格式。 Cloudera Impala也支持这些文件格式。 在建表时使用STORED AS (TextFile|RCFile|S ...
分类:
其他好文 时间:
2019-11-18 18:42:00
阅读次数:
109
环境介绍 | tuge1 | tuge2 | tuge3 | tuge4 | | | : | | | | NameNode | NameNode | DataNode | DataNode | | ZooKeeper | ZooKeeper | ZooKeeper | ZooKeeper | | | ...
分类:
其他好文 时间:
2019-11-18 18:31:53
阅读次数:
80
下载: yum -y install gcc gcc-c++ maven下载地址Github:https://github.com/hortonworks/hive-testbench/git clone https://github.com/hortonworks/hive-testbench/ ...
分类:
其他好文 时间:
2019-11-18 13:19:59
阅读次数:
433
下面是hive基本练习,持续补充中。 简述Hive工作原理 hive是基于hadoop,可以管理hdfs上的数据的工具,它本质上是执行MapReduce程序,只是使用了类sql语句更加方便开发,hive驱动器会将类sql语句转换成MapReduce的task来执行,因此执行速度会比较慢。 hive的 ...
分类:
其他好文 时间:
2019-11-17 20:43:37
阅读次数:
82
一、简介 An object that modifies the content of a remote notification before it's delivered to the user. 是一个能在远程通知传递到用户之前进行修改内容的对象。 二、概述 A UNNotificationS ...
分类:
编程语言 时间:
2019-11-17 10:53:36
阅读次数:
105
Hive数据倾斜 key分布不均匀 业务数据本身的特性 SQL语句造成数据倾斜 解决方法 hive设置hive.map.aggr=true和hive.groupby.skewindata=true 还有其他解决方案 Hive内部表和外部表的区别 Hive 创建内部表时,会将数据移动到数据仓库指向的路 ...
分类:
其他好文 时间:
2019-11-17 10:23:34
阅读次数:
94
继上篇第一阶段清洗数据并导入hive 本篇是剩下的两阶段 2、数据处理: ·统计最受欢迎的视频/文章的Top10访问次数 (video/article) ·按照地市统计最受欢迎的Top10课程 (ip) ·按照流量统计最受欢迎的Top10课程 (traffic) 3、数据可视化:将统计结果倒入MyS ...
分类:
其他好文 时间:
2019-11-16 23:06:41
阅读次数:
71
大数据从入门到入土 语言基础:java(Java se,javaweb) Linux 基础:Linux(shell,高并发架构,lucene,solr) 框架学习:Hadoop(Hadoop,HDFS,Mapreduce,yarn,hive,hbase,sqoop,zookeeper,flume) ...
分类:
其他好文 时间:
2019-11-16 21:47:53
阅读次数:
107