码迷,mamicode.com
首页 >  
搜索关键字:数据切分    ( 109个结果
如何通过Java程序提交yarn的mapreduce计算任务
由于项目需求,需要通过Java程序提交Yarn的MapReduce的计算任务。与一般的通过Jar包提交MapReduce任务不同,通过程序提交MapReduce任务需要有点小变动,详见以下代码。     以下为MapReduce主程序,有几点需要提一下:     1、在程序中,我将文件读入格式设定为WholeFileInputFormat,即不对文件进行切分。     2、为了控制reduc...
分类:编程语言   时间:2014-11-06 23:40:42    阅读次数:500
深入浅出MongoDB(一)NoSQL起源
为什么出现NoSQL? 随着互联网的发展,当我们把一台服务器一台服务器变成两台服务器,当我们开始建立数据备份,当我们需要加一个缓冲层,来调整所有的查询,投入更多的硬件。 最后,需要将数据切分多个集群上,并重构大量的应用逻辑以适应这种切分。不久之后,你就会发现被自己数月前的设计数据结构限制住了。 随着web2.0的兴起,关系型数据库本身无法克服的缺陷越来越明显,主要表现为如下几点。 1、对数据高并发读写的需求 2、对海量数据的高效率存储和访问的需求。 3、对数据库的高可扩展性和高可用性的需求。 4、数据库事...
分类:数据库   时间:2014-10-16 19:44:03    阅读次数:187
DB层面上的设计 分库分表 读写分离 集群化 负载均衡
第1章 引言随着互联网应用的广泛普及,海量数据的存储和访问成为了系统设计的瓶颈问题。对于一个大型的 互联网应用,每天几十亿的PV无疑对数据库造成了相当高的负载。对于系统的稳定性和扩展性造成了极大的问题。通过数据切分来提高网站性能,横向扩展数据层 已经成为架构研发人员首选的方式。水平切分数据库,可以降...
分类:数据库   时间:2014-10-12 18:27:48    阅读次数:3081
数据库分库分表
转自http://zhengdl126.iteye.com/blog/419850第1章 引言随着互联网应用的广泛普及,海量数据的存储和访问成为了系统设计的瓶颈问题。对于一个大型的 互联网应用,每天几十亿的PV无疑对数据库造成了相当高的负载。对于系统的稳定性和扩展性造成了极大的问题。通过数据切分来提...
分类:数据库   时间:2014-10-10 22:34:54    阅读次数:418
PHPExcel内存泄漏问题
使用PHPExcel来生成 excel 文档是比较消耗内存的,有时候可能会需要通过一个循环来把大数据切分成若干个小的 excel 文档保存来避免内存耗尽。然而 PHPExcel 存在 circular references 的情况(貌似在最新的 1.6.5 版本中仍然没有去解决这个问题),如果在一次...
分类:Web程序   时间:2014-10-10 12:52:24    阅读次数:178
可伸缩性架构常用技术——之数据切分
可伸缩性架构常用技术——之数据切分(Data Sharding/Partition)1简介本来想写一篇可伸缩性架构方面的文章,发现东西太多了,久久未能下笔,这里首先把大家最关注的数据切分(Partition/Sharding)方面的内容先写完,给大家参考。我们知道,为了应对不断增长的数据,我们对数据...
分类:其他好文   时间:2014-09-25 15:57:19    阅读次数:297
大数据图数据库之数据分片
节选自《大数据日知录:架构与算法》十四章,书籍目录在此        对于海量待挖掘数据,在分布式计算环境下,首先面临的问题就是如何将数据比较均匀地分配到不同的服务器上。对于非图数据来说,这个问题解决起来往往比较直观,因为记录之间独立无关联,所以对数据切分算法没有特别约束,只要机器负载尽可能均衡即可。由于图数据记录之间的强耦合性,如果数据分片不合理,不仅会造成机器之间负载不均衡,还会大量增加机器之...
分类:数据库   时间:2014-09-20 08:51:47    阅读次数:401
MapReduce中TextInputFormat分片和读取分片数据源码级分析
InputFormat主要用于描述输入数据的格式(我们只分析新API,即org.apache.hadoop.mapreduce.lib.input.InputFormat),提供以下两个功能: (1)数据切分:按照某个策略将输入数据切分成若干个split,以便确定MapTask个数以及对应的s...
分类:其他好文   时间:2014-07-09 23:49:37    阅读次数:487
Gizzard:Twitter开源数据切分中间件
IT168技术】Gizzard是Twitter在11年4月份新推出的一个通用数据切分中间件,在Twitter的架构中占用重要的作用。 从图中看到Gizzard主要用于在MYSQL之上,作用是实现数据切分。但目前据说 Gizzard最主要的作用在用于在memcache和redis上。众所周知,mem....
分类:其他好文   时间:2014-06-02 14:02:49    阅读次数:280
109条   上一页 1 ... 9 10 11
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!