Elasticsearch 项目中使用到Es的父子结构、在数据填充之后,查看每个节点的数据分布情况,发现有的节点数据多,有的节点少的情况,在未使用Es父级结构之前,每个节点的数据分布还算平均,如下图: 左边的数据是未使用父子结构之前每个节点的数据分布数量,右边的是使用了父子结构之后的数据节点分布数量 ...
分类:
其他好文 时间:
2019-01-14 23:13:56
阅读次数:
201
1.hive的数据倾斜 介绍:只要在分布式一定有shuffle,避免不了出现数据倾斜,在混淆数据的过程中出现数据分布不均匀。比如:在MR编程中reducetask阶中的数据的大小不一致,即很多的数据集中到了一个reducetask中,hive的数据倾斜就是mapreduce的数据倾斜maptaskreducetask最后就是reducetask阶段的数据倾斜。 不会产生数据倾斜
分类:
其他好文 时间:
2019-01-14 21:23:35
阅读次数:
331
Mysql主从同步-概念和原理介绍Mysql复制概念Mysql内建的复制功能是构建大型高性能应用程序的基础,将Mysql数据分布到多个系统上,这种分布机制是通过将Mysql某一台主机数据复制到其它主机(slaves)上,并重新执行一遍来实现的。复制过程中一个服务器充当主服务器,而一个或多个其它服务器充当从服务器。主服务器将更新写入二进制日志文件,并维护文件的一个索引以跟踪日志循环。这些日志可以记录
分类:
数据库 时间:
2019-01-14 17:19:32
阅读次数:
248
关系型数据库严重依赖底层的硬件资源,CPU是服务器的大脑,当CPU开销很高时,内存和硬盘系统都会产生不必需要的压力。CPU的性能问题,直观来看,就是任务管理器中看到的CPU利用率始终处于100%,而侦测CPU压力的工具,最精确的就是性能监控器。 一,使用性能监控器侦测CPU压力 性能监控器(Perf ...
分类:
其他好文 时间:
2019-01-07 10:39:16
阅读次数:
231
The Fourth Paradigm: Data-Intensive Scientific Discovery http://research.microsoft.com/en-us/collaboration/fourthparadigm/ Special Online Collection: ...
分类:
其他好文 时间:
2019-01-06 15:36:24
阅读次数:
192
简介: 下载的是搜狗新闻一个月版本的SogouCS.reduced,大约698M,包含128个txt文件 主要处理包括:转码,提取content和URL 处理之前: 每个文件中每条内容如下xml格式: 处理之后: 共:15类别。数据分布不均匀,猜测和各类新闻热度有关。 后续分析: 待补充 代码如下: ...
分类:
其他好文 时间:
2019-01-03 10:59:02
阅读次数:
306
最近看资料时总是会看到箱形图, 上大学时候曾经学过这个东西,不过这么多年也都忘记差不多了,正好借这机会再次学习学习。 箱型图: 主要包含六个数据节点,将一组数据从大到小排列,分别计算出他的上边缘,上四分位数Q3,中位数,下四分位数Q1,下边缘,还有一个异常值。 异常值被定义为小于Q1-1.5IQR或 ...
分类:
其他好文 时间:
2018-12-31 15:45:15
阅读次数:
745
如何理解K-L散度(相对熵) Kullback-Leibler Divergence,即K-L散度,是一种量化两种概率分布P和Q之间差异的方式,又叫相对熵。在概率学和统计学上,我们经常会使用一种更简单的、近似的分布来替代观察数据或太复杂的分布。K-L散度能帮助我们度量使用一个分布来近似另一个分布时所 ...
分类:
其他好文 时间:
2018-12-24 00:13:24
阅读次数:
146
1、通过本征向量和本征值求主成分 关系:本征值是本征向量的缩放倍数,本征值大的对应的本征向量上的样本的数目就越多;相反本征值越小的,就本征向量上的样本数量就会少。因此可以求出PCA的主成分 主成分分析:主成分大小和本征值的区别在于数据分布所在的“椭圆”的轴的长度是正比于本征值开根号(标准差),不是本 ...
分类:
其他好文 时间:
2018-12-23 23:48:31
阅读次数:
176
数据倾斜 数据倾斜概念 在做计算的时候,数据的分散度不够(数据的Key分布不均),导致数据分布在一台或几台机器计算 症状:典型的现象就是数据reduce到99%很久不动了 数据倾斜原因 总原因:key分布不均 业务数据的特点(数据的幂律分布) 人为建表的疏忽 join、group by、count ...
分类:
其他好文 时间:
2018-12-22 22:41:16
阅读次数:
242