一、sqlserver 优点: 易用性、适合分布式组织的可伸缩性、用于决策支持的数据仓库功能、与许多其他服务器软件紧密关联的集成性、良好的性价比等; 为数据管理与分析带来了灵活性,允许单位在快速变化的环境中从容响应,从而获得竞争优势。从数据管理和分析角度看,将原始数据转化为商业智能和充分利用Web带 ...
分类:
数据库 时间:
2019-04-10 15:20:54
阅读次数:
181
Presto 是 Facebook 推出的一个基于Java开发的大数据分布式 SQL 查询引擎,可对从数 G 到数 P 的大数据进行交互式的查询,查询的速度达到商业数据仓库的级别,据称该引擎的性能是 Hive 的 10 倍以上。Presto 可以查询包括 Hive、Cassandra 甚至是一些商业 ...
分类:
其他好文 时间:
2019-03-29 13:07:34
阅读次数:
143
一、什么是数据仓库 数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。 主流数据仓库:Te... ...
分类:
其他好文 时间:
2019-03-28 09:26:50
阅读次数:
220
1.本地仓库和apache-mavenbin.zip的下载与解压 <1.apache-mavenbin.zip下载网址 2.Maven环境变量配置 <1.MAVEN_HOME <2.PATH 3.环境搭建验证 4自定义数据仓库的位置(apache-maven.setting.xml)的配置 ...
分类:
其他好文 时间:
2019-03-26 22:49:28
阅读次数:
214
很多人不明白传统架构和Hadoop的区别,下面一张图让你清晰的了解传统架构和Hadoop的区别。 上图已经表达的很清楚了我就不再一一讲解,主要讲以下横向扩展和扩展。横向扩展:(Mpp 是hash分布,具有20节点)添加新的设备和现有的设备一起提供负载能力。Hadoop中系统扩容时,系统平台增加新节点 ...
分类:
其他好文 时间:
2019-03-20 10:32:03
阅读次数:
154
数据仓库DW数据来源:爬虫 日志采集系统 业务数据 财务系统 数据去向:报表系统、用户画像推荐系统、机器学习、风控系统 项目需求分析 ① 数据采集平台搭建② 实现用户行为数据仓库的分层搭建③ 实现业务数据仓库的分层搭建④ 针对数据仓库中的数据进行,留存、转化率、GMV(每天交易额)、复购率、活跃等报 ...
分类:
其他好文 时间:
2019-03-19 01:21:02
阅读次数:
186
背景: 获得远程机器某个目录下的数据文件 方案:使用Nginx配置 1、/home/ftp/www/ 下面有images 文件夹,为了访问images下面文件,配置Nginx如下: location /images { root /home/ftp/www/images; autoindex on; ...
分类:
其他好文 时间:
2019-03-17 15:39:42
阅读次数:
201
背景与目标 在数据仓库建设过程中,数据安全扮演着重要角色,因为隐私或敏感数据的泄露,会对数据主体(客户,员工和公司)的财产、名誉、人身安全、以及合法利益造成严重损害。因此我们需要严格控制对仓库中的数据访问,即什么样的人员或者需求才可以访问到相关的数据。这就要求对数据本身的敏感程度进行安全级别划分。数 ...
分类:
其他好文 时间:
2019-03-15 19:05:18
阅读次数:
263
1.数据仓库架构,以及主题 数据仓库架构分层:数据源层,主题层,基础汇总层,应用层 主题:订单,用户,商品,商家,供应链,营销等 2.数据仓库建模方法:范式建模(3NF),维度建模(星形、雪花),实体建模(关系) 3.锁有几种,及范围 从数据库系统角度分为三种:排他锁、共享锁、更新锁。按作用范围划分 ...
分类:
其他好文 时间:
2019-03-15 10:46:27
阅读次数:
193
一.简介 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十 ...
分类:
其他好文 时间:
2019-03-13 16:47:26
阅读次数:
220