简介本文的目的是为了能够对特定的计算模型估算所需的磁盘规格,个数。主要介绍磁盘工作原理以及主要性能指标参数。
分类:
其他好文 时间:
2015-04-15 22:55:38
阅读次数:
108
MapReduce概述 MapReduce是一种分布式计算模型,运行时不会在一台机器上运行.hadoop是分布式的,它是运行在很多的TaskTracker之上的. 在我们的TaskTracker上面跑的是Map或者是Reduce Task任务. 通常我们在部署hadoop taskTrac...
分类:
其他好文 时间:
2015-04-14 08:26:08
阅读次数:
146
MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,MapReduce程序本质上是并行运行的,因此可以解决海量数据的计算问题. MapReduce任务过程被分为两个处理阶段:map阶段和reduce阶段.每个阶段都以键值对作为输入和输出.用户只需要实现map()和reduc...
分类:
其他好文 时间:
2015-04-09 06:12:25
阅读次数:
163
写在前面:WordCount的功能是统计输入文件中每个单词出现的次数。基本解决思路就是将文本内容切分成单词,将其中相同的单词聚集在一起,统计其数量作为该单词的出现次数输出。1.MapReduce之wordcount的计算模型1.1 WordCount的Map过程假设有两个输入文本文件,输入数据经过默...
分类:
其他好文 时间:
2015-04-06 16:55:43
阅读次数:
150
Hadoop简介:
分布式、可扩展、可靠的、分布式计算框架。
组件:
common:公共组件
hdfs:分布式文件系统
yarn:运行环境
mapreduce:mr计算模型
生态系统:
Ambari:操作界面
avro:通用的序列化机制、与语言无关
cassandra:数据库
chukwa:数据收集系统
hbase:分布式大表数据库
hive:基于sql的分析系统
matout:机器学习算法库
pi...
分类:
其他好文 时间:
2015-04-05 11:59:31
阅读次数:
234
一、MapReduce概述
MapReduce 是 Hadoop 的核心组成, 是专用于进行数据计算的,是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题.MapReduce由两个阶段组成:Map和Reduce,用户只需要实现map()和reduce()两个函数,即可实现分布式计算,非常简单。这两个函数的形参是key、value对,表示函数的输入输出信息。
ma...
分类:
其他好文 时间:
2015-03-30 09:33:45
阅读次数:
175
那传说中的P、NP以及NPC问题 (这里只是自己的一些总结) 在讲这几个问题之前,有几个东西是必须要说的,包括时间复杂度、空间复杂度、图灵机什么的。那么我们就慢慢来一一说来。 图灵机:图灵机其实就是一个计算模型,是由图灵提出来的。图灵机号称可以模拟实际计算机的所有计算行为,计算能力还超过现有的计.....
分类:
其他好文 时间:
2015-02-04 18:34:33
阅读次数:
147
1. ReductionReduction是一种广泛使用的计算模型,特别是在并行计算领域。简单地来说,Reduction就是一系列的划分(Partition)和汇总(Summarize)操作的集合:对输入数据分块,对每一个分块汇总,然后再将汇总后的数据视为新的输入数据,重复分块和汇总,直到得到最终结...
分类:
其他好文 时间:
2015-01-30 15:23:21
阅读次数:
180
dlib库学习之一1、介绍跨平台 C++ 通用库 Dlib 发布 ,带来了一些新特性,包括概率 CKY 解析器,使用批量同步并行计算模型来创建应用的工具,新增两个聚合算法:中国低语 (Chinese Whispers) 和纽曼的模块化聚类。Dlib是一个使用现代C++技术编写的跨平台的通用库,遵守B...
分类:
其他好文 时间:
2015-01-29 11:51:33
阅读次数:
238