Hive:由 Facebook 开源用于解决海量结构化日志的数据统计。 Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类 SQL 查询功能。 本质是:将 HQL 转化成 MapReduce 程序 HQL 转换 MR 流程: Hive 处理的数据存储在 ...
分类:
其他好文 时间:
2019-10-04 22:31:39
阅读次数:
120
Photo by Janke Laskowski on Unsplash 参考书籍:《Flume构建高可用、可扩展的海量日志采集系统》 ——Hari Shreedharan 著 以下简称“参考书籍”,文中部分资料和图片会标注引用自书中。官方文档简称“官文”。 文章为个人从零开始学习记录,如有错误,还 ...
分类:
Web程序 时间:
2019-10-03 22:02:35
阅读次数:
136
1. Hive是什么 1.1 hive的概念 Hive:由Facebook开源,用于解决海量(结构化日志)的数据统计。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质是:将Hive SQL转化成MapReduce程序 1.2 Hive ...
分类:
其他好文 时间:
2019-10-03 10:44:59
阅读次数:
112
TubeMQ是腾讯在2013年自研的分布式消息中间件系统,专注服务大数据场景下海量数据的高性能存储和传输,经过近7年上万亿的海量数据沉淀,目前日均接入量超过25万亿条。较之于众多明星的开源MQ组件,TubeMQ在海量实践(稳定性+性能)和低成本方面有着比较好的核心优势。TubeMQ 捐赠 ...
分类:
其他好文 时间:
2019-09-28 14:31:46
阅读次数:
117
布隆过滤(Bloom Filter),用于海量数据中查询某个数是否存在。 首先准备一个较大的bit数组,再对海量数据中的每个数据进行多次Hash运算,将每次运算结果作为数组下标,并将下标置为1。 然后随便找一个数,也进行多次Hash运算,在数组中根据下标(运算结果)是否为1,来判断这个数是否存在海量 ...
分类:
其他好文 时间:
2019-09-26 14:48:51
阅读次数:
62
Python函数式编程——map()、reduce() 更多12 提起map和reduce想必大家并不陌生,Google公司2003年提出了一个名为MapReduce的编程模型[1],用于处理大规模海量数据,并在之后广泛的应用于Google的各项应用中,2006年Apache的Hadoop项目[2] ...
分类:
编程语言 时间:
2019-09-26 11:19:30
阅读次数:
74
Hadoop简介 Hadoop由Apache基金会开发的分布式系统基础架构,是利用集群对大量数据进行分布式处理和存储的软件框架。用户可以轻松地在Hadoop集群上开发和运行处理海量数据的应用程序。Hadoop有高可靠,高扩展,高效性,高容错等优点。Hadoop 框架最核心的设计就是HDFS和MapR ...
分类:
其他好文 时间:
2019-09-25 12:47:34
阅读次数:
126
海量数据处理 分而治之 核心思想: 把数据分发到多个节点 移动计算到数据附近 计算节点进行本地数据处理 优选顺序,次之随机读 一、HDFS概述 修改,先删除,再重新生成 1.架构 namenode维护着HDFS中存储的文件的元数据,以及每个文件块的列表,以及块所在datanode的信息。nameno ...
分类:
其他好文 时间:
2019-09-22 16:41:19
阅读次数:
92
一.大数据的特点 大数据是什么?其实很简单,大数据其实就是海量资料巨量资料,这些巨量资料来源于世界各地随时产生的数据,在大数据时代,任何微小的数据都可能产生不可思议的价值。大数据有4个特点,为别为:Volume(大量)、Variety(多样)、Velocity(高速)、Value(价值),一般我们称 ...
分类:
其他好文 时间:
2019-09-21 23:38:36
阅读次数:
160
3种系统架构与2种存储器共享方式 1.1 架构概述 从系统架构来看,目前的商用服务器大体可以分为三类 对称多处理器结构(SMP:Symmetric Multi-Processor) 非一致存储访问结构(NUMA:Non-Uniform Memory Access) 海量并行处理结构(MPP:Mass ...
分类:
其他好文 时间:
2019-09-21 21:42:13
阅读次数:
115