1.官方文档:https://docs.mongodb.com/ecosystem/tools/hadoop/ 2.Hive介绍: Hive特点: 1.hive是一个数据仓库,和oracle,mysql等数据仓库相比,它底层依赖于hdfs。 2.hive是sql解析引擎,将sql语句转换成Map/R ...
分类:
数据库 时间:
2018-07-31 19:15:52
阅读次数:
1335
一、需求 由于公司各个部门对业务数据的需求,比如进行数据分析、报表展示等等,且公司没有相应的系统、数据仓库满足这些需求,最原始的办法就是把数据提取出来生成excel表发给各个部门,这个功能已经由脚本转成了平台,交给了DBA使用,而有些数据分析部门,则需要运维把生产库的数据同步到他们自己的库,并且需要 ...
分类:
其他好文 时间:
2018-07-31 00:26:15
阅读次数:
2332
一、概述 1.什么是数据模型? 数据模型就是数据的组织和存储方法。主要关注的是从业务、数据存取和使用角度合理存储数据。 2.典型数据仓库建模方法论 ER模型 纬度模型(建模四步曲:确定业务流程->确定粒度->确定纬度->确定事实表) ...
分类:
其他好文 时间:
2018-07-30 15:33:46
阅读次数:
382
前言 本文将会讲述 BI/DW/DA 领域的一些常见概念,如:事实表、维度表、建模、多维分析、cube 等,但不涉及具体实例分析。 1、维(Dimension) 维是用于从不同角度描述事物特征的,一般维都会有多层(Level:级别),每个Level都会包含一些共有的或特有的属性(Attribute) ...
分类:
其他好文 时间:
2018-07-30 13:24:52
阅读次数:
126
使用jmeter正则表达式提取器之前,首先 使用httpwatch 分析一下 我要要测试的系统正则管理的规则: 例如:我这里要关联的是一个ODS数据仓库平台的登录 1./sso/login。。单点登录,简单概括:SSO是在多个应用系统中,用户只需要登录一次就可以访问所有相互信任的应用系统。它包括可以 ...
分类:
其他好文 时间:
2018-07-29 17:49:32
阅读次数:
118
数据仓库简介:有些人不理解数据仓库,认为数据仓库就是获取数据,只要会使用hadoop、spark等大数据工具就懂数据仓库,这样的认识太片面。如果要从海量数据中总结出一个报表或者是多个报表,大数据工程师足以;如果在有限的资源动态的数据情况下,向前可历史追溯,向后对不断增加的报表实现兼容,这就需要一套科 ...
分类:
其他好文 时间:
2018-07-29 16:32:49
阅读次数:
156
lujun9972.github.io/blog/2018/05/10/使用watch帮你重复执行命令/ 推荐一个大数据学习群 119599574晚上20:10都有一节【免费的】大数据直播课程,专注大数据分析方法,大数据编程,大数据仓库,大数据案例,人工智能,数据挖掘都是纯干货分享, 有时候你需要不 ...
分类:
其他好文 时间:
2018-07-29 11:51:33
阅读次数:
232
大数据是目前互联网行业流行的技术术语,因此衍生了许多与大数据相关的行业。大数据的应用是通过数据挖掘和分析来影响业务决策的。 大数据有很重要的价值,对于企业公司来说很重要,要问大数据工程师的工作是怎么?一个很重要的工作就是通过分析数据来找出过去事件的特征。比如,腾讯的数据团队正在搭建一个数据仓库,把公 ...
分类:
编程语言 时间:
2018-07-29 11:41:35
阅读次数:
105
Hadoop:离线计算Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。 Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS ...
分类:
其他好文 时间:
2018-07-26 19:51:08
阅读次数:
171
数据仓库作为企业提供决策支持而构建的集成化数据环境,本身并不产生或者消费数据,基本架构包含的是数据流入流出的过程,首先放上一张数据仓库的架构图。数据仓库作为中间集成化数据管理的一个平台,底层有多种数据来源,流入数据仓库之后对上层应用开放。 1、分析业务需求,确定数据仓库主题 数据模型的创建依赖数据仓 ...
分类:
其他好文 时间:
2018-07-25 15:15:40
阅读次数:
180