码迷,mamicode.com
首页 >  
搜索关键字:hive driver类    ( 5946个结果
hive的(ql)hql使用和基于UDF的用法;以及java对hive的远程访问
1>hive下创建表并导入数据 (数据可以是本地的,也可以是hdfs上的) 2>内部表与外部表 外部表和 内部表 在元数据的组织上是相同的,而实际数据的存储则有较大的差异 内部表 的创建过程和数据加载过程(这两个过程可以在同一个语句中完成),在加载 数据的过程中,实际数据会被移动到数据仓库目录中;之 ...
分类:编程语言   时间:2018-11-02 18:56:08    阅读次数:167
Hadoop辅助工具——Flume、Sqoop
前言 在一个完整的离线大数据处理系统中,除了hdfs+mapreduce+hive组成分析系统的核心之外,还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统,而这些辅助工具在hadoop生态体系中都有便捷的开源框架,如图所示: 1. Flume日志采集框架 1.1 Flume介绍 1.1.1 ...
分类:Web程序   时间:2018-11-02 16:35:12    阅读次数:269
ide-dtwave指南(数栖平台)
hive建表字段的时间格式建议使用timestamp或string,date类型会出现异常,比如load文件时时间会变为null sparksql才支持load数据到hive表中,hive2竟然不支持? 补数据有自依赖,多天时可以等前一天运行完再运行后一天,但是补下游不行,会导致多天并行,原因是补下 ...
分类:其他好文   时间:2018-11-02 13:01:42    阅读次数:1315
【hive】关于用户留存率的计算
首先用户留存率一般是面向新增用户的概念,是指某一天注册后的几天还是否活跃,是以每天为单位进行计算的.一般收到的需求都是一个时间段内的新增用户的几天留存 (1)找到这个时间段内的新增用户(也可能含有地区啊的各种附加条件),一般在日活表中有记录是否是新增状态.注意,需要以天为单位进行分组找出用户的id. ...
分类:其他好文   时间:2018-10-31 19:58:18    阅读次数:457
ps aux命令解析
auxa 显示所有与终端相关的进程,由终端发起的.x 显示所有与终端无关的进程.u 显示用户导向的用户列表.VSZ 虚拟内存集,进程占用的虚拟内存空间RSS 物理内存集,进程战用实际物理内存空间.S 可中断的睡眠态R 运行态D 不可中断的睡眠态T 停止态 Z 僵死态如果有什么不懂的话可以去看看《Li ...
分类:其他好文   时间:2018-10-31 15:40:32    阅读次数:193
Hive安装与简单使用并集成SparkSQL
## Hive环境搭建1. hive下载:http://archive-primary.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.7.0.tar.gzwget http://archive-primary.cloudera.com/cdh5/cdh/5/hive ...
分类:数据库   时间:2018-10-31 11:22:40    阅读次数:179
UDF函数,hive调用java包简单方法
UDF函数,是hadoop在强大的大数据批量导入导出操作之余,为了满足复杂的数据逻辑操作留下的接口 核心思想:不管是UDF函数还是自定义处理jar包,都是要放置在hadoop服务器上的,相当于hadoop多出了一个自定义的处理数据的方法 1)其中调用的不管是参数还是数据库都是以hadoop本身的服务 ...
分类:编程语言   时间:2018-10-30 21:53:24    阅读次数:346
hive--新增字段,数据重跑坑
场景: 当我们建表完成并按照时间分区插入数据,之后我们发现需要增加一个字段。 办法: 我们首先想到的是先在表中增加字段。 1)alter table table_name add columns(new_attr string); 然后重跑数据 2)insert overwrite table ta ...
分类:其他好文   时间:2018-10-30 21:09:28    阅读次数:750
sparkSQL flinkSQL hiveSQL性能对比
最近在研究flink,发现较新版的flink支持sql,这下好了,我用spark两年了,对用法和性能算是踩过一些坑了。 听说flink挺快的,那么flinkSQL和sparkSQL到底哪个快呢? 想必很多人也想知道吧,那就拿数据说话(虽然不是自己做的基线测试,但好歹也找了好久) 下图是hive, s ...
分类:数据库   时间:2018-10-30 19:28:12    阅读次数:429
hive对于lzo文件处理异常Caused by: java.io.IOException: Compressed length 842086665 exceeds max block size 67108864 (probably corrupt file)
hive查询lzo数据格式文件的表时,抛 Caused by: java.io.IOException: Compressed length 842086665 exceeds max block size 67108864 (probably corrupt file) 这类异常,如图: 这是由于 ...
分类:编程语言   时间:2018-10-30 12:07:00    阅读次数:642
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!