码迷,mamicode.com
首页 >  
搜索关键字:数据仓库    ( 1540个结果
hive
数据仓库特性 ~~~ 面向主题性 集成性 非易失性 时变性 ~~~ OLTP/OLAP ~~~ OLTP:面向事务处理 注重的事务 注重响应的时间 也就是我们所说的RDBMS(关系型数据库):比如mysql,oracle,注意和非关系型数据库(noSQL)的区分:比如redis mongodb OL ...
分类:其他好文   时间:2019-07-20 00:28:21    阅读次数:113
大数据技术发展回顾
2012年以前,大多数企业的数据仓库主要还是构建在关系型数据库上,例如Oracle、Mysql等数据库之上。但是随着企业数据量的增长,关系型数据库已经无法支撑大规模数据集的存储和分析,这种情况在一线互联网公司尤为明显,也是当时急需要解决的问题。随着2012年Hadoop技术框架的成熟和稳定,一线互联... ...
分类:其他好文   时间:2019-07-16 11:04:59    阅读次数:137
(转)用Flink取代Spark Streaming!知乎实时数仓架构演进
转:https://mp.weixin.qq.com/s/e8lsGyl8oVtfg6HhXyIe4A AI 前线导读:“数据智能” (Data Intelligence) 有一个必须且基础的环节,就是数据仓库的建设,同时,数据仓库也是公司数据发展到一定规模后必然会提供的一种基础服务。从智能商业的角 ...
分类:其他好文   时间:2019-07-13 20:07:16    阅读次数:146
Cassandra 集群核心配置和概梳理
Cassandra是一款分布式的结构化数据存储方案(NoSql数据库),存储结构比Key-Value数据库(像Redis)更丰富,但是比Document数据库(如Mongodb)支持度有限;适合做数据分析或数据仓库这类需要迅速查找且数据量大的应用.Cassandra集群特性比较丰富,考虑场景也比较多,如果想用好集群,集群本很多概念都要能够了解,下面对相关概念进行简介;与关系数据库相关概念:keys
分类:其他好文   时间:2019-07-10 21:34:54    阅读次数:213
数据仓库概念
数据仓库可以算是数据产品必须要了解的技术知识了, 在一年前的数据产品求职分析中,其中技能要求这一项中,数据仓库可是占了一席之地的。 但是,对于准备求职数据产品的童鞋来说,可能身边没有做数仓开发的朋友可以请教。自学吧,而那几本经典书籍里面又过于理论,看起真是生不如死,而且数据产品并不是数据开发,可能了 ...
分类:其他好文   时间:2019-07-10 18:36:44    阅读次数:107
Hadoop 数据仓库工具——Hive
1.安装Mysql a.在官网下载 Mysql 8.0 (mysql-8.0.16-winx64.zip)并解压,地址:https://dev.mysql.com/downloads/mysql/ b.在 Mysql 根目录下 my.ini 文件和 data 文件夹,my.ini 内容如下: c.新 ...
分类:其他好文   时间:2019-07-09 19:12:07    阅读次数:116
ETL 的一些概念
1. What is a logical data mapping and what does it mean to the ETL team? 什么是逻辑数据映射?它对ETL项目组的作用是什么? 答: 逻辑数据映射(Logical Data Map)用来描述源系统的数据定义、目标数据仓库的模型以及 ...
分类:其他好文   时间:2019-07-03 15:18:04    阅读次数:133
数据仓库模型ETL架构(DWI/DWR/DM)
1.DWI DWI:数据湖、数据砥柱,一般存放在HDFS 数据仓库的基础数据来源,各种杂七杂八的数据 关键点:数据清洗、数据整合、异常处理、增量获取 ETL:E-数据抽取、数据清洁、格式转换,T-生成代理键ID、遵循三范式,L-数据加载 2.DWR DWR:数据仓库的中间层,星型结构 根据业务划分: ...
分类:其他好文   时间:2019-07-03 00:28:13    阅读次数:481
大数据平台常见开源工具有哪些?
大数据平台是对海量结构化、非结构化、半机构化数据进行采集、存储、计算、统计、分析处理的一系列技术平台。大数据平台处理的数据量通常是TB级,甚至是PB或EB级的数据,这是传统数据仓库工具无法处理完成的,其涉及的技术有分布式计算、高并发处理、高可用处理、集群、实时性计算等,汇集了当前IT领域热门流行的各 ...
分类:其他好文   时间:2019-07-02 13:26:42    阅读次数:126
第2节 网站点击流项目(下):2、明细宽表的生成
1. 本项目中数据仓库的设计 注:采用星型模型 1.1. 事实表设计 原始数据表: ods_weblog_origin =>对应mr清洗完之后的数据 valid string 是否有效 remote_addr string 访客ip remote_user string 访客用户信息 time_lo ...
分类:Web程序   时间:2019-06-29 10:31:18    阅读次数:193
1540条   上一页 1 ... 24 25 26 27 28 ... 154 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!