前言 数据倾斜调优 调优概述 数据倾斜发生时的现象 数据倾斜发生的原理 如何定位导致数据倾斜的代码 查看导致数据倾斜的key的数据分布情况 数据倾斜的解决方案 解决方案一:使用Hive ETL预处理数据 解决方案二:过滤少数导致倾斜的key 解决方案三:提高shuffle操作的并行度 解决方案四:两 ...
分类:
其他好文 时间:
2017-05-23 13:16:57
阅读次数:
284
1.1. 解决数据架构难点数据分布的六种策略 from:PYY 数据分布的六种策略 1) 独立Schema(Separate-schema) 2) 集中(Centralized) 3) 分区(Partitioned) 4) 复制(Replicated) 5) 子集(Subset) 6) 重组(Rec ...
分类:
其他好文 时间:
2017-05-22 19:28:31
阅读次数:
210
本文从背景、分布式文件系统、容错机制、分布式节点距离计算法则、数据分布策略、分布式计算调度、跨IDC集群规划的两种方式、ODPS跨集群数据依赖等方面深度介绍了分布式大数据系统中全局数据调度和管理。 大数据技能 分布式大数据系统巧实现,全局数据调度管理不再难 作者:大数据史记 大规模数据的分布式机器学 ...
分类:
其他好文 时间:
2017-05-22 16:39:07
阅读次数:
211
本文从背景、分布式文件系统、容错机制、分布式节点距离计算法则、数据分布策略、分布式计算调度、跨IDC集群规划的两种方式、ODPS跨集群数据依赖等方面深度介绍了分布式大数据系统中全局数据调度和管理。 ...
分类:
其他好文 时间:
2017-05-19 15:42:30
阅读次数:
202
上图:反映北京出租车轨迹数据分布的热度图,微软亚洲研究院供图 近年来,城市计算(Urban Computing)逐渐走入公众视野,并且越来越受到社会关注。这是一个以计算机科学为基础、涉及了多项其他技术的新兴交叉领域,其中以智能交通这项典型应用最广为人知。 ...
分类:
其他好文 时间:
2017-05-17 17:25:34
阅读次数:
297
前言 数据倾斜调优 调优概述 数据倾斜发生时的现象 数据倾斜发生的原理 如何定位导致数据倾斜的代码 查看导致数据倾斜的key的数据分布情况 数据倾斜的解决方案 解决方案一:使用Hive ETL预处理数据 解决方案二:过滤少数导致倾斜的key 解决方案三:提高shuffle操作的并行度 解决方案四:两 ...
分类:
其他好文 时间:
2017-05-11 20:26:02
阅读次数:
240
1.什么是缓存? 缓存就是用来避免频繁的到数据库或磁盘文件获取数据而建立的一个高速暂时存储器。一般来说,缓存比数据库或磁盘容量更小。可是存取速度很快。一般来说,内存是当前技术下最便宜且有效的缓存介质。内存价格低廉。可是存取速度是一般磁盘IO无法比拟的。 2.缓存的作用 1 . 存储频繁訪问的数据 2 ...
分类:
其他好文 时间:
2017-05-07 12:58:55
阅读次数:
266
1.三音素建模存在的问题 问题一:很多三音素在训练数据中没有出现(尤其跨词三音素) 问题二:在训练数据中出现过的三音素有相当一部分出现的频次较少 因此,三音素模型训练时存在较严重的数据不足问题 2.参数共享 1)何为参数共享? 对于一个HMM模型来说,有如下参数: 两个模型之间参数共享,意为: 如: ...
分类:
其他好文 时间:
2017-05-02 13:38:13
阅读次数:
277
阵列处理机: 通过反复设置大量同样的处理单元PE(Processing Element),将它们按一定方式互连成阵列,在单一控制部件CU(Control Unit)控制下。对各自所分配的不同数据并行运行同一组指令规定的操作。是操作级并行的SIMD计算机(SIMD指的是单指令流多数据流,是一种实现数据 ...
分类:
其他好文 时间:
2017-05-01 13:41:59
阅读次数:
214
Map-Reduce Map-Reduce是由Google在2004年提出的大数据并行编程架构。分为Map(映射)和Reduce(化简)两个步骤。因此得名。它隐藏并行化、容错、数据分布、负载均衡等细节,能够搭建在普通PC上,程序猿能够非常方便完毕大数据并行编程。 并行运算的效率 假如使用1个处理器花 ...
分类:
其他好文 时间:
2017-04-24 12:39:14
阅读次数:
175