hadoop 是什么? 1. 适合海量数据的分布式存储与计算平台。 海量: 是指 1T 以上数据。 分布式: 任务分配到多态虚拟机上进行计算。 2. 多个任务是怎么被分配到多个虚拟机当中的? 分配是需要网络通讯的。而且是需要启动资源 或者 消耗一些硬件上的配置。 单 JVM 关注的如何『处理』,而不... ...
分类:
其他好文 时间:
2016-11-28 19:32:11
阅读次数:
161
详见:http://blog.yemou.net/article/query/info/tytfjhfascvhzxcyt118 Redis是一种面向“key-value”类型数据的分布式NoSQL数据库系统,具有高性能、持久存储、适应高并发应用场景等优势。它虽然起步较晚,但发展却十分迅速。 近日, ...
分类:
其他好文 时间:
2016-11-23 22:32:41
阅读次数:
328
1.Hadoop是什么? 适合大数据的分布式存储与计算平台 HDFS: Hadoop Distributed File System分布式文件系统 MapReduce:并行计算框架 2.Hadoop生态圈 ①HBase Google Bigtable的开源实现 列式数据库 可集群化 可以使用shel ...
分类:
其他好文 时间:
2016-11-20 07:09:00
阅读次数:
156
HBase入门修行基础篇HBase是一个分布式的、面向列的开源数据库,该技术来源于FayChang所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(FileSystem)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的..
分类:
其他好文 时间:
2016-10-11 00:28:16
阅读次数:
302
Hadoop由两部分组成,分别是分布式文件系统HDFS和分布式计算框架MapReduce。其中,分布式文件系统HDFS主要用于大规模数据的分布式存储,而MapReduce则构建在分布式文件系统上,对于存储在分布式文件系统的数据进行分布式计算。1MapReduce设计目标HadoopMapReduce诞生于搜索领域..
分类:
其他好文 时间:
2016-08-26 23:05:08
阅读次数:
224
分布在R中应该算是个比较重要的内容,而通过画图来展示数据的分布,可以更直观的让我们了解数据的分布情况 直方图 geom_histogram(mapping = NULL, data = NULL, stat = "bin", position = "stack", ..., binwidth = N ...
分类:
其他好文 时间:
2016-07-23 22:48:04
阅读次数:
871
承网上的前辈所言:机器学习不是一个一个孤立的算法堆砌起来的,想要像看《算法导论》这样看机器学习是个不可取的方法.机器学习里面有几个东西一直贯穿全书,比如说数据的分布、最大似然(以及求极值的几个方法,不过这个比较数学了),偏差、方差的权衡,还有特征选择,模型选择,混合模型等等知识,这些知识像砖头、水泥 ...
分类:
其他好文 时间:
2016-07-13 11:43:42
阅读次数:
164
HBASE介绍
HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。...
分类:
其他好文 时间:
2016-07-12 10:34:51
阅读次数:
463
一、分布式数据库系统的设计
1.分片设计
在分布式数据库系统设计中,最基本的问题就是数据的分布问题,即如何对全局数据进行逻辑划分和实际的物理分配。逻辑划分成为分片,实际的物理分配则是分配内容。一般的设计策略我们有自顶向下和自底向上的两种形式。自顶向下有利于理解新鲜事物的内容,从最顶层,由最高点的抽象,逐层抽丝剥茧到最小单元。而自底向上则不同,是在理解事物的基础上,改进底层,逐渐由底层到顶层...
分类:
数据库 时间:
2016-06-24 15:02:14
阅读次数:
225
2012年秋季Facebook启动了Presto,Presto的目的是在几百PB级别数据量上面进行准实时分析。在摒弃了一些外部项目以后,Facebook准备开发他们自己的分布式查询引擎。Presto的语法基于ANSI SQL,大多数分布式查询引擎需要用户去学习一种新的语法,有的语法类似SQL,但是没 ...
分类:
数据库 时间:
2016-06-22 18:45:44
阅读次数:
247