Hive UDF整理(可以直接在mysql上测试,hive中没有伪表,需要手动创建,反应慢)字符串函数字符串长度函数:length语法: length(string A)返回值: int说明:返回字符串A的长度举例:hive> select length(‘abcedfg’) from dual;7...
分类:
其他好文 时间:
2014-08-08 12:24:45
阅读次数:
466
在Hive中,需要实现Hive中的函数无法实现的功能时,就可以用Streaming来实现。其原理可以理解成:用HQL语句之外的语言,如Python、Shell来实现这些功能,同时配合HQL语句,以实现特殊的功能。
比如,我有一张不同网站访问的日志表,其中有两个列是url和ref,分别代表当前访问的网址和来源地址,我想要查看用户的来源,即看用户都是从那些网站跳到这些网站上去的,这里有些网站可能域名...
分类:
编程语言 时间:
2014-08-07 23:21:44
阅读次数:
448
Centos 安装FTP配置目录权限,iptables设置ftp服务 2012-07-06 admin Leave a comment Go to comments CentOS 安装vsftpd,设置Iptables 限制用户访问自己目录安装好vsftpd后,打开配置文件:[root@hex...
分类:
其他好文 时间:
2014-08-07 21:49:00
阅读次数:
596
Extraction-Transformation-Loading的缩写,中文名称为数据提取、转换和加载。将数据从ORACLE中抽取数据,经过hive进行分析转换,最后存放到ORACLE中去。本案例是纯demo级别,练手使用一、需求将emp和dept表的数据分析最后存放到result表。emp和de...
分类:
其他好文 时间:
2014-08-06 22:14:52
阅读次数:
371
示例数据准备hive中创建dept表create table dept(deptno int,dname string,loc string)row format delimited fields terminated by '\t' lines terminated by '\n' stored ...
分类:
数据库 时间:
2014-08-06 21:58:32
阅读次数:
492
导入表的所有字段sqoop import --connect jdbc:oracle:thin:@192.168.1.107:1521:ORCL \--username SCOTT --password tiger \--table EMP \--hive-import --create-hive....
分类:
数据库 时间:
2014-08-06 21:47:42
阅读次数:
330
#hgupstable
localchangedpath/to/file/file.extwhichremotedeleted
remote:use(c)hangedversionor(d)elete?c这是目录权限的问题...
分类:
其他好文 时间:
2014-08-06 15:05:52
阅读次数:
194
hive中的正则可以用,但是有所区别,区别在于原来的‘\’ 转义,这里变成了双斜杠了‘\\’...
分类:
其他好文 时间:
2014-08-05 19:20:30
阅读次数:
277
请问下,如果有多个统计,要统计的数据都一样,每个统计只是group by 的key不一样,怎样做,才能让这些统计最快完成? 恩,比如有10个统计,每个统计都是读取的同一份数据,但是统计的维度不一样,就是groupby的key不一样你们都是怎么处理的?语句类似这个:: from( selectk1,k...
分类:
其他好文 时间:
2014-08-05 15:22:49
阅读次数:
352
问题:比如查询一个用户连续登陆天数超过7天的用户,或者查询连续在7天的某个时间段登陆的用户。 网上查询sql的语句的用法,对于hive来说也可以试试,查询词"SQL 连续天数查询" 如果使用hadoop如何解决?? 思路(以连续N天登陆为例): 1、计算出每天登陆的用户集合 1、使...
分类:
其他好文 时间:
2014-08-05 10:49:29
阅读次数:
826