搜索关键字：hive 认证类，搜索到5967个结果！码迷,mamicode.com！

Spark入门实战系列--6.SparkSQL（下）--Spark实战应用

SparkSQL引入了一种新的RDD——SchemaRDD，SchemaRDD由行对象（Row）以及描述行对象中每列数据类型的Schema组成；SchemaRDD很象传统数据库中的表。SchemaRDD可以通过RDD、Parquet文件、JSON文件、或者通过使用hiveql查询hive数据来建立。SchemaRDD除了可以和RDD一样操作外，还可以通过registerTempTable注册成临时表，然后通过SQL语...

分类：数据库时间：2015-08-31 10:08:08 阅读次数：377

OLAP引擎——Kylin介绍

最近一直在学习和使用kylin，分享一下学习的收获以及对kylin的理解~...

分类：其他好文时间：2015-08-30 12:56:10 阅读次数：13106

Hive学习笔记（二）

类型转换hive原子数据类型可以进行隐式数据类型转换，如果某个表达式使用INT,那么TINYINT会转化为INT，hive不会进行反向转换，除非使用cast才操作。数据类型转化规则：任何整数类型都会转换为范围更广的类型。所有整数类型、FLOAT、STRING类型都能隐式转换为double类型。 TINYINT、SM...

分类：其他好文时间：2015-08-30 11:28:43 阅读次数：167

Hive学习笔记（三）

分区和桶：hive把表组织成分区，这是一种根据分区列的值进行粗略划分的机制。使用分区可以加快数据分片的查询速度。表或分区可以进一步划分为桶，它会为数据提供额外的数据结构从而获得更高效的查询处理。比如：根据用户ID来划分桶，我们可以在所有用户集合的随机样本上快速计算基于用户的查询。分区：分区是在创建表时用PARTITIONED BY子句进行定义。该子句需要定义列的列表。create tab...

分类：其他好文时间：2015-08-30 11:28:43 阅读次数：244

Spark整理（一）：Spark是啥以及能干啥

一、Spark是什么 1、与Hadoop的关系如今Hadoop已经不能狭义地称它为软件了，Hadoop广泛的说可以是一套完整的生态系统，可以包括HDFS、Map-Reduce、HBASE、HIVE等等。。而Spark是一个计算框架，注意，是计算框架其可以运行在Hadoop之上，绝大部分情况下是基于HDFS 说代替Hadoop其实是代替Hadoop中的Map-Reduce，用来解决M...

分类：其他好文时间：2015-08-30 01:07:34 阅读次数：1083

Hive自定义函数UDF示例

简单自定义函数只需继承UDF类，然后重构evaluate函数即可LowerCase.java:package com.example.hiveudf; import org.apache.hadoop.hive.ql.exec.UDF; public final class LowerCase ex...

分类：其他好文时间：2015-08-29 11:03:08 阅读次数：239

hive 数据迁移

1. 设置默认需要导出的hive数据库 vi ~/.hiverc use logbase; 2. 创建数据临时目录 hdfs dfs -mkdir /tmp/hive-export 3.生成导出数据脚本 hive -e "show tables " | awk ‘{printf "export table %s to @/tmp/hi...

分类：其他好文时间：2015-08-27 19:27:52 阅读次数：175

hadoop三----基于hadoop伪分布式整合hive和hbase

hadoop的生态圈：ETL数据的抽娶转换、加载1)安装hive1.解压#tarzvxfhive-0.13.0.tar.gz-C/usr/local#cd/usr/local#ln-sv/usr/local/hive-0.12.0/usr/local/hive2.替换jar包，保持hbase0.98与hadoop1.2一致#cd/usr/hive/lib#rm-rfhbase-0.94*#find/usr/hbase/lib-name"hbase*.ja..

分类：其他好文时间：2015-08-27 19:18:59 阅读次数：415

Hadoop 管理工具HUE配置-Hive配置

1 前言首先要配置好Hive，可以参见：http://www.cnblogs.com/liuchangchun/p/4761730.html2 hive配置找到beeswax标签，不叫hive，配置如下属性，其中端口号要和hive-site.xml中的保持一致hive-site.xml中配置thri...

分类：其他好文时间：2015-08-27 18:25:57 阅读次数：166

Spark入门实战系列--6.SparkSQL（中）--深入了解运行计划及调优

前面介绍了SparkSQL的运行过程，罗列了很多概念很抽象，比如Unresolved LogicPlan、LogicPlan、PhysicalPlan，下面介绍一个工具hive/console，来加深对SparkSQL的运行计划的理解。另外Spark是一个快速的内存计算框架，同时是一个并行运算的框架，在计算性能调优的时候，除了要考虑广为人知的木桶原理外，还要考虑平行运算的Amdahl定理。...

分类：数据库时间：2015-08-27 11:06:02 阅读次数：287

共5967条上一页 1 ... 481 482 483 484 485 ... 597 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)