大数据时代,数据的价值越来越被重视,企业从海量大数据中挖掘所需要的信息,用来驱动业务决策以获得更大的商业价值。与此同时,出现了越来越多的大数据技术帮助企业进行大数据分析,例如ApacheHadoop,Hive,Spark,Presto,Drill,以及今天我们即将介绍的ApacheKylin和ApachePhoenix项目等,都是使用SQL语言就可以分析大数据,极大地降低了大数据的使用门槛。这些大
分类:
数据库 时间:
2019-05-17 12:15:44
阅读次数:
216
Hive架构hive架构如图所示,client跟driver交互,通过parser、planner、optimizer,最后转为mapreduce运行,具体步骤如下driver输入一条sql,会由parser转为抽象语法树AST,这个是没有任务元数据信息的语法树;语法分析器再把AST转为一个一个的QueryBlock,一个QueryBlock包含输入、输出、计算逻辑,也就是说一个子程序就是Quer
分类:
数据库 时间:
2019-05-17 09:20:50
阅读次数:
142
以前写过一个方法,先去参考《T-SQL判断是否为今天》https://www.cnblogs.com/insus/archive/2012/03/22/2411209.html 今天使用一个更加简单的方法来实现: 实例演示: ...
分类:
其他好文 时间:
2019-05-15 09:59:59
阅读次数:
113
1.HIVE和HBASE区别 1. 两者分别是什么? Apache Hive是一个构建在Hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言,这种语言最终被转化为Map/Reduce. 虽然Hive提供了SQL查询功能,但是Hive不 ...
分类:
其他好文 时间:
2019-05-15 00:27:15
阅读次数:
155
可以根据导出的地方不一样,将这些方式分为三种:(1)、导出到本地文件系统;(2)、导出到HDFS中;(3)、导出到Hive的另一个表中 一、保存结果到本地 方法1:调用hive标准输出,将查询结果写到指定的文件中 方法2:使用INSERT OVERWRITE LOCAL DIRECTORY结果到本地 ...
分类:
其他好文 时间:
2019-05-14 11:25:54
阅读次数:
457
爬取页面;递归:解析HTML,遍历HTML节点数;defer:获取页面的tittle,将页面保存到文件;匿名函数:解析链接,图的遍历;并发的Web爬虫示例:限制并发,程序退出,限制并发的另一个方案,深度限制;取消操作:取消广播,关闭HTTP请求;请求镜像资源
分类:
其他好文 时间:
2019-05-14 00:46:04
阅读次数:
102
配置 Hive On Tez 标签(空格分隔): hive Tez 部署底层应用 简单介绍 介绍:tez 是基于hive 之上,可以将sql翻译解析成DAG计算的引擎。基于DAG 与mr 架构本身的优缺点,tez 本身经过测试一般小任务在hive mr 的2 3倍速度左右,大任务7 10倍左右,根据 ...
分类:
其他好文 时间:
2019-05-13 22:59:00
阅读次数:
158
第一步 卸载系统自带的OpenJDK以及相关的java文件 1、在命令窗口键入:rpm -qa | grep java 命令说明: rpm 管理套件 -qa 使用询问模式,查询所有套件 grep 查找文件里符合条件的字符串 java 查找包含java字符串的文件 2、删除原有java文件,在命令窗口 ...
分类:
其他好文 时间:
2019-05-13 14:44:23
阅读次数:
99
1 hive表关联查询,如何解决数据倾斜的问题?倾斜原因:map输出数据按key Hash的分配到reduce中,由于key分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。1)、key分布不均匀;2)、业务数据本身的特性;3)、建表时考虑不周;4)、某些S ...
分类:
其他好文 时间:
2019-05-13 14:29:16
阅读次数:
107
1. 语法1.1 选项:1.2 常用参数2. 例子2.1 删除老数据2.2 归档2.3 pt-archiver 测试对表数据重复插入主键非递增类型TOC https://www.cnblogs.com/zhoujinyi/p/9925508.html 1. 语法 注意:pt-archiver操作的表... ...
分类:
其他好文 时间:
2019-05-13 12:44:27
阅读次数:
110