如果您接触过数据仓库, 您可能会使用 ETL (Extract、 Transform、 Load) 或 ELT ( Extract、Load、 Transform) 将您的数据从不同的来源提取到数据仓库中。这些是移动数据或集成数据的常用方法, 以便您可以关联来自不同来源的信息, 将数据安全地存储在一 ...
分类:
其他好文 时间:
2020-03-08 21:59:40
阅读次数:
87
JobTracker 分配工作给若干机器. TaskTracker: 负责监督 光纤交换机. 块的概念: 一个块 64M. 还可以是 128M. 大文件切割成这种小块, 然后分布存储在不同机器上. 当然也可以并行处理. 名称节点: 整个 HDFS 集群管家, 负责元数据的存储. (index 数据块 ...
分类:
其他好文 时间:
2020-02-29 13:14:19
阅读次数:
78
pig Pig最早是雅虎公司的一个基于Hadoop的并行处理架构,后来Yahoo将Pig捐献给Apache的一个项目,由Apache来负责维护,Pig是一个基于 Hadoop的大规模数据分析平台。 Pig为复杂的海量数据并行计算提供了一个简 易的操作和编程接口,这一点和FaceBook开源的Hive ...
分类:
其他好文 时间:
2020-02-17 19:32:25
阅读次数:
122
pgspider 是在pg 源码中直接打的patch,增强了FDW 的功能 执行的特性 多租户 并行处理 数据下推 说明 pgspider 是一个很不错的扩展,目前官方已经支持了sqlite,mysql,influxdb 等数据库 参考资料 https://github.com/pgspider/p ...
分类:
数据库 时间:
2020-02-04 20:33:23
阅读次数:
109
" 返回《C 并发编程》" "1. 简介" "2. 链接数据流块" "3. 传递出错信息" "4. 断开链接" "5. 限制流量" "6. 数据流块的并行处理" "7. 创建自定义数据流块" 1. 简介 TPL 数据流(dataflow)库的功能很强大,可用来创建 网格 (mesh)和 管道 (pi ...
分类:
其他好文 时间:
2020-01-31 18:37:59
阅读次数:
78
SMP、NUMA、MPP体系结构介绍 从系统架构来看,目前的商用服务器大体可以分为三类,即对称多处理器结构 (SMP : Symmetric Multi-Processor) ,非一致存储访问结构 (NUMA : Non-Uniform Memory Access) ,以及海量并行处理结构 (MPP ...
分类:
其他好文 时间:
2020-01-29 22:01:08
阅读次数:
67
1.MapReduce是什么 Hadoop MapReduce是一个软件框架,基于该框架能够容易地编写应用程序,这些应用程序能够运行在由上千个商用机器组成的大集群上,并以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集。这个定义里面有着这些关键词, 一是软件框架,二是并行处理,三是可靠 ...
分类:
其他好文 时间:
2020-01-17 13:43:04
阅读次数:
78
一、新特性1、lambda表达式(重点)2、函数式接口3、方法引用与构造器引用4、Stream API(重点)5、接口中的默认方法和静态方法6、新时间日期API7、其他新特性二、特点: 1、速度更快(底层数据结构调整、垃圾回收机制做了调整、内存结构做了调整、并行处理) (1)数据结构调整 hashM ...
分类:
其他好文 时间:
2020-01-12 13:39:01
阅读次数:
78
时序图(Sequence Diagrams) ~~~ 时序图描述对象之间消息的发送顺序,强调时间顺序。时序图是一个二维图,横轴表示对象,纵轴表示时间,消息在各对象之间横向传递,依照时间顺序纵向排列。用箭头 表示消息、用竖虚线表示对象生命线。 ~~~ 时序图的作用 ~~~ 1、展示对象之间交互的顺序。 ...
分类:
其他好文 时间:
2020-01-10 12:33:36
阅读次数:
101