Hive元数据存储Hive将元数据存储在RDBMS中,有三种模式可以连接到数据库:Single User Mode:此模式连接到一个In-memory的数据库Derby,一般用于Unit Test。Multi User Mode:通过网络连接到一个数据库中,是最经常使用到的模式。RemoteServ...
分类:
其他好文 时间:
2015-05-29 18:00:48
阅读次数:
117
突然想起来之前写过一篇关于将hive元数据库从默认的本地derby更改为绑定到远程mysql的文章,在云笔记里面翻了一下发现还真在,现在分享给各位~~...
分类:
数据库 时间:
2015-05-29 12:09:52
阅读次数:
176
工作中遇见一个问题。hive>insert overwrite local directory '/home/hadoop/tmp/ts' select 列1,列2,列3 from table;这样导出 含有 特殊字符,数据不能直接导入到excel表格中,UE或sublime打开也都存在特殊字符。特...
分类:
其他好文 时间:
2015-05-28 23:00:55
阅读次数:
374
全排序 hive的排序关键字是SORT BY,它有意区别于传统数据库的ORDER BY也是为了强调两者的区别–SORT BY只能在单机范围内排序。 1.1.1? ???例1 set mapred.reduce.tasks=2; 原值 select cookie_id,page_id,i...
分类:
编程语言 时间:
2015-05-28 18:30:54
阅读次数:
185
全排序Hive的排序关键字是SORTBY,它有意区别于传统数据库的ORDERBY也是为了强调两者的区别–SORTBY只能在单机范围内排序。1.1.1例1setmapred.reduce.tasks=2;原值selectcookie_id,page_id,idfromc02_clickstat_fatdt1wherecookie_idIN(‘1.193.131.218.1288611279693.0‘,‘1.19..
分类:
编程语言 时间:
2015-05-28 18:21:20
阅读次数:
199
1.1 全排序
Hive的排序关键字是SORT BY,它有意区别于传统数据库的ORDER BY也是为了强调两者的区别–SORT BY只能在单机范围内排序。[/url][王黎1]
1.1.1 例1
set mapred.reduce.tasks=2;
原值
select cookie_id,page_id,id fromc02_clickstat_fatdt1
where c...
分类:
编程语言 时间:
2015-05-28 16:15:06
阅读次数:
237
用户自定义函数(UDF)?? public abstract class EvalFunc<T> {?? ??public abstract T exec(Tuple input) throws IOException;?? ??public List<FuncSpec> getAvgToFuncMapping() throws FrontendExce...
分类:
其他好文 时间:
2015-05-27 19:29:04
阅读次数:
176
集合统计函数1.个数统计函数:count语法:count(*),count(expr),count(DISTINCTexpr[,expr_.])返回值:int说明:count(*)统计检索出的行的个数,包括NULL值的行;count(expr)返回指定字段的非空值的个数;count(DISTINCTexpr[,expr_.])返回指定字段的不同的非空值的个数举例:hive&..
分类:
其他好文 时间:
2015-05-27 19:20:20
阅读次数:
252
Hive存储是基于hadoophdfs文件系统的,通过默认内嵌的Derby数据库或外部数据库系统(如mysql)组织元数据访问,下面就通过实际案例描述其存储过程。1,在hive中创建表,然后把外部csv文件导入其中(外部文件为Batting.csv,内部表为temp_batting):hive>createtabletemp_battin..
分类:
其他好文 时间:
2015-05-27 19:19:30
阅读次数:
167