搜索关键字：数据分布，搜索到607个结果！码迷,mamicode.com！

Elasticsearch 指定特定分片进行存储或者查询

Elasticsearch 项目中使用到Es的父子结构、在数据填充之后，查看每个节点的数据分布情况，发现有的节点数据多，有的节点少的情况，在未使用Es父级结构之前，每个节点的数据分布还算平均，如下图：左边的数据是未使用父子结构之前每个节点的数据分布数量，右边的是使用了父子结构之后的数据节点分布数量 ...

分类：其他好文时间：2019-01-14 23:13:56 阅读次数：201

hive的数据倾斜以及优化策略

1.hive的数据倾斜介绍：只要在分布式一定有shuffle，避免不了出现数据倾斜，在混淆数据的过程中出现数据分布不均匀。比如：在MR编程中reducetask阶中的数据的大小不一致，即很多的数据集中到了一个reducetask中，hive的数据倾斜就是mapreduce的数据倾斜maptaskreducetask最后就是reducetask阶段的数据倾斜。不会产生数据倾斜

分类：其他好文时间：2019-01-14 21:23:35 阅读次数：331

Mysql主从同步-概念和原理介绍

Mysql主从同步-概念和原理介绍Mysql复制概念Mysql内建的复制功能是构建大型高性能应用程序的基础,将Mysql数据分布到多个系统上，这种分布机制是通过将Mysql某一台主机数据复制到其它主机（slaves）上，并重新执行一遍来实现的。复制过程中一个服务器充当主服务器，而一个或多个其它服务器充当从服务器。主服务器将更新写入二进制日志文件，并维护文件的一个索引以跟踪日志循环。这些日志可以记录

分类：数据库时间：2019-01-14 17:19:32 阅读次数：248

性能调优2：CPU

关系型数据库严重依赖底层的硬件资源，CPU是服务器的大脑，当CPU开销很高时，内存和硬盘系统都会产生不必需要的压力。CPU的性能问题，直观来看，就是任务管理器中看到的CPU利用率始终处于100%，而侦测CPU压力的工具，最精确的就是性能监控器。一，使用性能监控器侦测CPU压力性能监控器（Perf ...

分类：其他好文时间：2019-01-07 10:39:16 阅读次数：231

大数据 Big Data howto

The Fourth Paradigm: Data-Intensive Scientific Discovery http://research.microsoft.com/en-us/collaboration/fourthparadigm/ Special Online Collection: ...

分类：其他好文时间：2019-01-06 15:36:24 阅读次数：192

搜狗新闻原始数据处理

简介：下载的是搜狗新闻一个月版本的SogouCS.reduced，大约698M，包含128个txt文件主要处理包括：转码，提取content和URL 处理之前：每个文件中每条内容如下xml格式：处理之后：共：15类别。数据分布不均匀，猜测和各类新闻热度有关。后续分析：待补充代码如下： ...

分类：其他好文时间：2019-01-03 10:59:02 阅读次数：306

离散数据分布情况的显示箱型图

最近看资料时总是会看到箱形图，上大学时候曾经学过这个东西，不过这么多年也都忘记差不多了，正好借这机会再次学习学习。箱型图：主要包含六个数据节点，将一组数据从大到小排列，分别计算出他的上边缘，上四分位数Q3，中位数，下四分位数Q1，下边缘，还有一个异常值。异常值被定义为小于Q1－1.5IQR或 ...

分类：其他好文时间：2018-12-31 15:45:15 阅读次数：745

GAN相关知识点总结--散度（相对熵）

如何理解K-L散度（相对熵） Kullback-Leibler Divergence，即K-L散度，是一种量化两种概率分布P和Q之间差异的方式，又叫相对熵。在概率学和统计学上，我们经常会使用一种更简单的、近似的分布来替代观察数据或太复杂的分布。K-L散度能帮助我们度量使用一个分布来近似另一个分布时所 ...

分类：其他好文时间：2018-12-24 00:13:24 阅读次数：146

PCA一些性质的定性理解

1、通过本征向量和本征值求主成分关系：本征值是本征向量的缩放倍数，本征值大的对应的本征向量上的样本的数目就越多；相反本征值越小的，就本征向量上的样本数量就会少。因此可以求出PCA的主成分主成分分析：主成分大小和本征值的区别在于数据分布所在的“椭圆”的轴的长度是正比于本征值开根号（标准差），不是本 ...

分类：其他好文时间：2018-12-23 23:48:31 阅读次数：176

大数据优化之数据倾斜

数据倾斜数据倾斜概念在做计算的时候，数据的分散度不够(数据的Key分布不均)，导致数据分布在一台或几台机器计算症状：典型的现象就是数据reduce到99%很久不动了数据倾斜原因总原因：key分布不均业务数据的特点（数据的幂律分布）人为建表的疏忽 join、group by、count ...

分类：其他好文时间：2018-12-22 22:41:16 阅读次数：242

共607条上一页 1 ... 15 16 17 18 19 ... 61 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)