主要是两种,一种是用数值进行范围划分,一种是hash,有点类似于memcached集群机制。下表对比了优缺点sharding算法范围查询性能数据分布ranged based强, 容易集中在一个shard上的多个chunks不均匀, 影响scale outhash based一般,需要查询多个shard才能获得结果均匀MongoDB还提供了可以自定义算法的机制,叫做tag aware shardin...
分类:
数据库 时间:
2015-07-19 20:14:34
阅读次数:
312
Greenplum是一种基于postgresql的分布式数据库。其采用shared nothing架构(MPP),主机,操作系统,内存,存储都是自我控制的,不存在共享。也就是每个节点都是一个单独的数据库。节点之间的信息交互是通过 节点互联网络实现。通过将数据分布到多个节点上来实现规模数据的存储,通过...
分类:
数据库 时间:
2015-07-16 00:25:32
阅读次数:
278
初始K个点的选择①凭经验选代表点,根据问题的性质、数据分布,从直观上看来较合理的代表点k。②将全部样本随机分成k类,计算每类重心,把这些重心作为每类的代表点。③按密度大小选代表点: 以每个样本作为球心,以d为半径做球形;落在球内的样本数称为该点的密度,并按密度大小排序。首先选密度最大的作为第一个代....
分类:
其他好文 时间:
2015-07-11 21:28:30
阅读次数:
213
如何执行基准测试测试条件–如何避免常见的错误?需要在一个真实的环境中运行基准测试。
相似或相同的硬件
包括CPU、内存、网络、IO系统
相同的软件配置
相似的数据集大小
相似的数据分布
相似的访问模式
–避免查询和数据缓存
–重新构建访问的分布
相当的线程数量
–多用户和多服务器
记录所有信息
宁可记录无用的信息也不错过重要的信息
文档化所有的步骤以便于重新执行基准测试
配置:硬件、软件版本...
分类:
数据库 时间:
2015-07-08 22:36:11
阅读次数:
207
一、序言近几个月一直从事一个分布式异步通信系统,今天就整理并blog一下.这是一个全国性的通信平台,对性能,海量数据,容错性以及扩展性有非常高的要求,所以在系统的架构上就不能简单的采用集中式.简单的总结一下就是: 1.数据分布式存储 2.请求分布式调度 3.多结点分布式部署 4.双重...
分类:
编程语言 时间:
2015-07-05 14:57:30
阅读次数:
153
为什么要了解点数学基础学习大数据分布式计算时多少会涉及到机器学习的算法,所以理解一些机器学习基础,有助于理解大数据分布式计算系统(例如spark)的设计。机器学习中一个常见的就是gradient descent算法,是线性回归问题的一个基础算法。gradient是数学概念。Gradient假设一个函数有n个自变量:f(x1,x2......xn)f(x_1,x_2......x_n),且每个x都是标...
分类:
编程语言 时间:
2015-07-05 09:40:29
阅读次数:
147
方法一:在眼下绝大部分数据库有分布式查询的须要。以下简单的介绍怎样在oracle中配置实现跨库訪问。比方如今有2个数据库服务器,安装了2个数据库。数据库server A和B。如今来实如今A库中訪问B的数据库。第一步、配置Aserver端的tnsnames.ora文件(TNSNAMES.ORA Net...
分类:
数据库 时间:
2015-07-04 18:09:27
阅读次数:
144
在上一篇文章也谈SQL Server 2008 处理隐式数据类型转换在执行计划中的增强 中,我提到了隐式数据类型转换增加对于数据分布很不平均的表,评估的数据行数与实际值有很大出入的问题,进一步测试之后,我发现这种评估不准确性应该确实与猜测的一样,它使用了变量的评估方式...
分类:
数据库 时间:
2015-07-03 17:24:59
阅读次数:
143
转载自http://blog.csdn.net/kobejayandy/article/details/8775138数据切分可以是物理上的,对数据通过一系列的切分规则将数据分布到不同的DB服务器上,通过路由规则路由访问特定的数据库,这样一来每次访问面对的就不是单台服务器了,而是N台服务器,这样就可...
分类:
数据库 时间:
2015-07-03 01:41:38
阅读次数:
162
MYSQL主从同步架构是目前使用最多的数据库架构之一,MySam引擎负责新增修改删除操作,InnoDB引擎负责查询,所谓的读写分离。尤其是负载比较大的网站,因此对于主从同步的管理也就显得非常重要,新手往往在出现主从同步错误的时候不知道如何入手,这篇文章就是根据自己的经验来详细叙述mysql主从的管理。
MYSQL主从同步的作用
(1) 数据分布
(2) 负载平衡(load balancing)
(3) 备份
(4) 高可用性(high availability)和容错...
分类:
数据库 时间:
2015-06-30 18:19:10
阅读次数:
303