码迷,mamicode.com
首页 >  
搜索关键字:hive udf    ( 6169个结果
hive查询详解
查询的一些例子:1.queryhive> SELECT name,subordinates[0] FROM employees;John Doe Mary SmithMary Smith Bill KingTodd Jones NULL2.expressionhive> SELECT upper(n...
分类:其他好文   时间:2015-05-15 17:13:32    阅读次数:111
hive查询详解
查询的一些例子:1.queryhive>SELECTname,subordinates[0]FROMemployees;JohnDoeMarySmithMarySmithBillKingToddJonesNULL2.expressionhive>SELECTupper(name),salary,deductions["FederalTaxes"],round(salary*(1-deductions["FederalTaxes"]))FROMemployees;3.expressi..
分类:其他好文   时间:2015-05-15 15:47:01    阅读次数:362
Shark与SparkSQL
首先介绍一下Shark的概念 Shark简单的说就是Spark上的Hive,其底层依赖于Hive引擎的 但是在Spark平台上,Shark的解析速度是Hive的几多倍 它就是Hive在Spark上的体现,并且是升级版,一个强大的数据仓库,并且是兼容Hive语法的下面给出一张来自网上的Shark构架图从图上可以看出,Spark的最底层大部分还是基于HDFS的,Shark中的数据信息等也是对应着H...
分类:数据库   时间:2015-05-15 09:11:25    阅读次数:314
hive优化总结
1.当hive执行join内存溢出时,可以修改hive的配置文件hive-site.xml,增大内存,如下: mapred.child.java.opts -Xmx 1024m   2.hive默认建表时的路径也可以在hive-site.xml里配置,如下:  hive.metastore.warehouse.dir value >/user/hive/warehouse descriptio...
分类:其他好文   时间:2015-05-14 18:50:49    阅读次数:177
[转]hive中order by,distribute by,sort by,cluster by
转至http://my.oschina.net/repine/blog/296562order by,distribute by,sort by,cluster by 查询使用说明12345678910111213// 根据年份和气温对气象数据进行排序,以确保所有具有相同年份的行最终都在一个redu...
分类:其他好文   时间:2015-05-14 11:40:28    阅读次数:123
HIVE: UDF应用实例
数据文件内容TEST DATA HEREGood to Go我们准备写一个函数,把所有字符变为小写.1.开发UDFpackage MyTestPackage;import org.apache.hadoop.hive.ql.exec.UDF;import org.apache.hadoop.io.T...
分类:其他好文   时间:2015-05-14 00:56:24    阅读次数:219
Aerospike C客户端手册———大数据类型
大数据类型 概况 大数据类型(LDT)是驻留于Aerospike服务器上、由应用通过UDF维护的复杂对象。与LDT关联的数据不会整个传送到客户端,除非客户端特别要求。正常使用情况下,客户端操作部分数据 — 单个对象或一组对象  — 通过发布的API。 请参见【LDT功能指南】以获得LDT的一般性知识。 操作列表 栈(Large Stack)操作 ...
分类:其他好文   时间:2015-05-13 19:54:39    阅读次数:385
Aerospike C客户端手册———数据扫描—在扫描上应用聚合
在扫描上应用聚合 C客户端提供能力来扫描指定namespace或set中的所有记录,并在结果集上应用聚合UDF(Stream UDF)。此能力是通过查询接口,通过不指定谓词的查询语句来实现。请参见:【记录聚合】章节 原文链接: http://www.aerospike.com/docs/client/c/usage/scan/scan_aggregate.html 译      ...
分类:其他好文   时间:2015-05-13 19:53:39    阅读次数:187
hive sql 优化 数据倾斜
此脚本运行速度慢,主要是reduce端数据倾斜导致的,了解到dw.fct_traffic_navpage_path_detl表是用来收集用户点击数据的,那么最终购物车和下单的点击肯定极少,所以此表ordr_code字段为空和cart_prod_id字段为NULL的数据量极大,如下所示:selectordr_code,count(*)asafromdw...
分类:数据库   时间:2015-05-13 17:09:42    阅读次数:205
关于HIVE数据仓库的基本操作
[Author]: kwu  --关于HIVE数据仓库的基本操作...
分类:其他好文   时间:2015-05-13 13:02:42    阅读次数:187
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!