1>hive下创建表并导入数据 (数据可以是本地的,也可以是hdfs上的) 2>内部表与外部表 外部表和 内部表 在元数据的组织上是相同的,而实际数据的存储则有较大的差异 内部表 的创建过程和数据加载过程(这两个过程可以在同一个语句中完成),在加载 数据的过程中,实际数据会被移动到数据仓库目录中;之 ...
分类:
编程语言 时间:
2018-11-02 18:56:08
阅读次数:
167
前言 在一个完整的离线大数据处理系统中,除了hdfs+mapreduce+hive组成分析系统的核心之外,还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统,而这些辅助工具在hadoop生态体系中都有便捷的开源框架,如图所示: 1. Flume日志采集框架 1.1 Flume介绍 1.1.1 ...
分类:
Web程序 时间:
2018-11-02 16:35:12
阅读次数:
269
hive建表字段的时间格式建议使用timestamp或string,date类型会出现异常,比如load文件时时间会变为null sparksql才支持load数据到hive表中,hive2竟然不支持? 补数据有自依赖,多天时可以等前一天运行完再运行后一天,但是补下游不行,会导致多天并行,原因是补下 ...
分类:
其他好文 时间:
2018-11-02 13:01:42
阅读次数:
1315
首先用户留存率一般是面向新增用户的概念,是指某一天注册后的几天还是否活跃,是以每天为单位进行计算的.一般收到的需求都是一个时间段内的新增用户的几天留存 (1)找到这个时间段内的新增用户(也可能含有地区啊的各种附加条件),一般在日活表中有记录是否是新增状态.注意,需要以天为单位进行分组找出用户的id. ...
分类:
其他好文 时间:
2018-10-31 19:58:18
阅读次数:
457
auxa 显示所有与终端相关的进程,由终端发起的.x 显示所有与终端无关的进程.u 显示用户导向的用户列表.VSZ 虚拟内存集,进程占用的虚拟内存空间RSS 物理内存集,进程战用实际物理内存空间.S 可中断的睡眠态R 运行态D 不可中断的睡眠态T 停止态 Z 僵死态如果有什么不懂的话可以去看看《Li ...
分类:
其他好文 时间:
2018-10-31 15:40:32
阅读次数:
193
## Hive环境搭建1. hive下载:http://archive-primary.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.7.0.tar.gzwget http://archive-primary.cloudera.com/cdh5/cdh/5/hive ...
分类:
数据库 时间:
2018-10-31 11:22:40
阅读次数:
179
UDF函数,是hadoop在强大的大数据批量导入导出操作之余,为了满足复杂的数据逻辑操作留下的接口 核心思想:不管是UDF函数还是自定义处理jar包,都是要放置在hadoop服务器上的,相当于hadoop多出了一个自定义的处理数据的方法 1)其中调用的不管是参数还是数据库都是以hadoop本身的服务 ...
分类:
编程语言 时间:
2018-10-30 21:53:24
阅读次数:
346
场景: 当我们建表完成并按照时间分区插入数据,之后我们发现需要增加一个字段。 办法: 我们首先想到的是先在表中增加字段。 1)alter table table_name add columns(new_attr string); 然后重跑数据 2)insert overwrite table ta ...
分类:
其他好文 时间:
2018-10-30 21:09:28
阅读次数:
750
最近在研究flink,发现较新版的flink支持sql,这下好了,我用spark两年了,对用法和性能算是踩过一些坑了。 听说flink挺快的,那么flinkSQL和sparkSQL到底哪个快呢? 想必很多人也想知道吧,那就拿数据说话(虽然不是自己做的基线测试,但好歹也找了好久) 下图是hive, s ...
分类:
数据库 时间:
2018-10-30 19:28:12
阅读次数:
429
hive查询lzo数据格式文件的表时,抛 Caused by: java.io.IOException: Compressed length 842086665 exceeds max block size 67108864 (probably corrupt file) 这类异常,如图: 这是由于 ...
分类:
编程语言 时间:
2018-10-30 12:07:00
阅读次数:
642