1. 两者分别是什么? Apache Hive是一个构建在Hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言,这种语言最终被转化为Map/Reduce. 虽然Hive提供了SQL查询功能,但是Hive不能够进行交互查询--因为它只能 ...
分类:
其他好文 时间:
2018-12-23 22:15:11
阅读次数:
210
在大数据时代,一切数据都可以通过软件智能分析出对企业有效的分析报告。BI就是商业智能的意思,他是一整套完整的解决方案,用于企业,将企业中已有数据做有效整合,快速准确的提供分析报表提供决策依据,帮助企业做出明智的战略规划。系统主要由三层构成:1.数据抽取层即传统的ETL2.数据分析层,即传统的数据仓库3.数据展示层,即传统的OLAP。BI大数据系统是一种提供给使用者对数据进行分析的工具,它具有强大的
分类:
其他好文 时间:
2018-12-19 17:59:45
阅读次数:
253
前言 我们是一个做传统会员管理CRM的团队,应用数据的级别比较高,过去会存在这样一种现象,T+1 财务报表,运营统计各类报表 的指标偶尔会和商户的自己记录用户消费储值记录会有出入,后来了解到,我们系统中存在很严重的数据漂移问题,这也是dw系统或者ods来说普遍存在的问题,今天我们好好聊下该如何解决数 ...
分类:
其他好文 时间:
2018-12-19 00:33:11
阅读次数:
1510
一. 什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质是:将HQL(Hive Query Language)转化成MapReduce程序 1)Hive处 ...
分类:
其他好文 时间:
2018-12-17 18:57:04
阅读次数:
217
1、snowflake算法ID生成器介绍 snowflake 是 twitter 开源的一个分布式ID 生成器 2、为什么使用snowflake (1) 主键自增弊端:不是全局id,当多表合并、构建数据仓库、进行数据分析、会导致主键冲突 (2) uuid或guid弊端:数据量过大 (3)全局redi ...
分类:
编程语言 时间:
2018-12-11 01:39:00
阅读次数:
183
这次故事的主角还是小D,小D工作在一家传统公司的信息部门,负责数据仓库系统的运维和开发。 话说有一天,小D被教导老板的office,老板给布置了一个任务,让小D在现有数据仓库里接入刚上线的两个系统的数据。 于是小D找到了对应系统的开发团队。可能是对方刚上线的缘故,最终也没有人搭理小D,于是直接把数据 ...
分类:
其他好文 时间:
2018-12-11 01:38:38
阅读次数:
147
MPP代表大规模并行处理,这是网格计算中所有单独节点参与协调计算的方法。 是将任务并行的分散到多个服务器和节点上,在每个节点上计算完成后,将各自部分的结果汇总在一起得到最终的结果。 MPP DBMS是建立在这种方法之上的数据库管理系统。在这些系统中的每个查询都会被分解为由MPP网格的节点并行执行的一 ...
分类:
其他好文 时间:
2018-12-05 22:58:11
阅读次数:
402
数据仓库建模指南视频教程|数据仓库视频教程网盘地址:https://pan.baidu.com/s/1JD3cjPek4oHCVHPhhVOvXw提取码:qqxy备用地址(腾讯微云):https://share.weiyun.com/5xZjFzb密码:5vbb37课程上学到什么,能给我带来什么?在这里,你可以:1、学习建立高质量的数据库模型和技巧,以及丰富的例子2、学习从企业视角进行数据规划以及
分类:
其他好文 时间:
2018-12-04 18:59:18
阅读次数:
109
近期, 全球权威IT咨询机构Forrester发布"The Forrester WaveTM: CloudData Warehouse Q4 2018"研究报告,阿里巴巴分析型数据库(AnalyticDB)成功入选 !AnalyticDB作为阿里巴巴自主研发的PB级实时云数据仓库,全面兼容MySQL协议以及SQL:2003 语法标准,可以毫秒级针对万亿级数据进行即时的多维分析透视和业务探索,帮客户将整个数据分析和价值化从传统的离线分析带到下一代的在线实时分析模式。
分类:
数据库 时间:
2018-11-30 18:27:27
阅读次数:
172
R语言是一种为统计计算和图形显示而设计的语言环境。是贝尔实验室(Bell Laboratory)的Rick Becker、John Chambers和Allan Wilks开发的S语言的一种实现,提供了一系列统计和图形显示工具。 R语言是面向对象的一种编程语言,是一套开源的数据分析解决方案,由一个庞 ...
分类:
编程语言 时间:
2018-11-30 13:47:41
阅读次数:
225