Standalone 最普遍的单磁盘储存方式。 Cluster 集群储存是通过将数据分布到集群中各节点的存储方式,提供单一的使用接口与界面,使用户可以方便地对所有数据进行统一使用与管理。 Hot swap 用户可以再不关闭系统,不切断电源的情况下取出和更换硬盘,提高系统的恢复能力、拓展性和灵活性。 ...
分类:
其他好文 时间:
2018-12-21 19:44:23
阅读次数:
202
# 运用散点图对数据分布得到直观的认识 1 import numpy as np 2 import matplotlib.pyplot as plt 3 4 # 设计 x, y 轴 5 n = 10000 6 x = np.random.randn( n ) # 随机值 7 y = np.rando ...
分类:
编程语言 时间:
2018-12-21 16:06:14
阅读次数:
245
SQL Server统计信息是系统对象,其中包含有关索引键值中的数据分布的信息,有时还包含常规列值。 可以在支持比较操作的任何数据类型上创建统计信息,例如>,<,=等。 让我们从上一章清单2-15中创建的dbo.Books表中检查IDX_BOOKS_ISBN索引统计信息。 您可以使用DBCC SHO ...
分类:
数据库 时间:
2018-12-20 10:26:11
阅读次数:
188
本篇文章就概念、工作机制、数据备份、优势与不足4个方面详细介绍了Apache Kylin。 Apache Kylin 简介 1. Apache kylin 是一个开源的海量数据分布式预处理引擎。它通过 ANSI-SQL 接口,提供基于 hadoop 的超大数据集(TB-PB 级)的多维分析(OLAP ...
分类:
Web程序 时间:
2018-12-17 14:31:17
阅读次数:
218
转自:https://blog.csdn.net/px_528/article/details/72963977 写在前面说到Adaboost,公式与代码网上到处都有,《统计学习方法》里面有详细的公式原理,Github上面有很多实例,那么为什么还要写这篇文章呢?希望从一种更容易理解的角度,来为大家呈 ...
分类:
编程语言 时间:
2018-12-16 19:32:41
阅读次数:
230
直方图(Histogram)又称柱状图、质量分布图,是一种统计报告图。直方图由一系列高度不等的纵向条纹或线段表示数据分布的情况。一般用横轴表示数据类型,纵轴表示分布情况。在图像处理上,直方图是图像信息统计的有力工具。 灰度直方图是指对图像的灰度信息进行统计,我们知道灰度图在图像处理中应用非常广泛,在 ...
分类:
其他好文 时间:
2018-12-14 10:57:54
阅读次数:
242
各种形态的分布式事务 分布式事务有多种主流形态,包括: 基于消息实现的分布式事务 基于补偿实现的分布式事务 基于TCC实现的分布式事务 基于SAGA实现的分布式事务 基于2PC实现的分布式事务 这些形态的原理已经在很多文章中进行了剖析,用“分布式事务”关键字就能搜到对应的文章,本文不再赘述这些形态的 ...
分类:
其他好文 时间:
2018-12-13 19:24:51
阅读次数:
186
Flink核心是一个流式的数据流执行引擎,其针对数据流的分布式计算提供了数据分布、数据通信以及容错机制等功能 Flink提供了诸多更高抽象层的API以便用户编写分布式任务: DataSet API, 对静态数据进行批处理操作,将静态数据抽象成分布式的数据集,用户可以方便地使用Flink提供的各种操作 ...
分类:
其他好文 时间:
2018-12-09 16:31:13
阅读次数:
145
EDA分析是做数据建模的第一步,主要是作用是用于熟悉数据,看各个特征的一些数据分布情况。 这里主要使用sns做一些可视化展示数据分布,使用corr,describe,info等熟悉数据特征的情况。 一、整体分析(overview) 1)使用 describe 进行查看数据特征的count,mean, ...
分类:
其他好文 时间:
2018-12-03 21:43:12
阅读次数:
2060
hadoop概述 1. 存储和分析网络数据 2. 三大组件 MapReduce 对海量数据的处理 思想: 分而治之 每个数据集进行逻辑业务处理map 合并统计数据结果reduce HDFS 储存海量数据 分布式存储 安全性高 副本数据 YARN 分布式资源管理框架 管理整个集群的资源(内存、CPU核 ...
分类:
其他好文 时间:
2018-12-02 18:34:04
阅读次数:
409