输入格式类InputFormat用于描述MR作业的输入规范,主要功能:输入规范检查(比如输入文件目录的检查)、对数据文件进行输入切分和从输入分块中将数据记录逐一读取出来、并转化为Map输入的键值对。getSplits()方法返回List集合,作用是将输入文件在逻辑上划分为多个输入分片。createR...
分类:
其他好文 时间:
2015-08-27 15:03:23
阅读次数:
209
前文分析了 NameNode,本文进一步解析 DataNode 的设计和实现要点。文件存储DataNode 正如其名是负责存储文件数据的节点。HDFS 中文件的存储方式是将文件按块(block)切分,默认一个 block 64MB(该大小可配置)。若文件大小超过一个 block 的容量可能会被切分为多个 block,并存储在不同的 DataNode 上。若文件大小小于一个 block 的容量,则文件...
分类:
其他好文 时间:
2015-08-26 12:16:26
阅读次数:
212
作用:
1、将输入切分成split,确定split大小,map个数。 由getSplits方法实现。
2、为mapper提供输入数据,key/value形式。getRecordReader方法
核心算法:
1、文件切分算
作用:确定split个数。
概念:
globalSize: totalsize/numSplits ;
minSize: InputSplit 最小值 配...
分类:
其他好文 时间:
2015-08-19 23:45:56
阅读次数:
168
2.1.1什么是数据切分"Shard" 这个词英文的意思是"碎片",而作为数据库相关的技术用语,似乎最早见于大型多人在线角色扮演游戏中。"Sharding" 姑且称之为"分片"。Sharding 不是一门新技术,而是一个相对简朴的软件理念。众所周知,MySQL 5 之后才有了数据表分区功能,那么在此...
分类:
数据库 时间:
2015-08-16 21:19:37
阅读次数:
231
分词器对英文的支持是非常好的。 一般分词经过的流程: 1)切分关键词 2)去除停用词 3)把英文单词转为小写 但是老外写的分词器对中文分词一般都是单字分词,分词的效果不好。 国人林良益写的IK Analyzer应该是最好的Lucene中文分词器之一,而且随着Lucene的版本更新而不断更...
分类:
Web程序 时间:
2015-08-16 10:43:15
阅读次数:
445
数据输入格式数据输入格式(InputFormat)用于描述MR作业的输入规范,主要功能:输入规范检查(比如输入文件目录的检查)、对数据文件进行输入切分和从输入分块中将数据记录逐一读取出来、并转化为Map的输入键值对。Hadoop中最常用的数据输入格式包括:TextInputFormat和KeyVal...
分类:
其他好文 时间:
2015-08-15 13:14:57
阅读次数:
291
实验目标: 对数据包负载文件进行分割,可以让分割块近似1000字节。背景: PACK是一种基于接收端的字节缓存算法。核心思想是利用当前的数据预测下一步需要接收的数据。但是数据块不应该被分割的太小,这样的话会耗费过多的内存和磁盘; 当然也不能分割的太大,数据块过大会导致预测的命中率降低。具体的PA.....
分类:
其他好文 时间:
2015-08-10 17:57:27
阅读次数:
135
当项目发展到一定阶段,就需要对数据库进行一定的优化。一般会对数据库进行横向和纵向切库分表,但是这样的问题就来了,在我们操作数据库时,需要根据切分规则提前获得我们需要的数据库的连接,这明显会加重程序员的负担。
比如我们将“用户信息数据库”按照用户注册的年月来分库,在用户注册的时候,为用户分配一个以yyyyMM开头的唯一标示,以方便我们能快速定位到切分后的子数据库。那么问题来了,我们在项目中,如何动态...
分类:
数据库 时间:
2015-08-09 15:37:29
阅读次数:
135
一、Amoeba是什么Amoeba(变形虫)项目,专注分布式数据库proxy开发。座落与Client、DBServer(s)之间。对客户端透明。具有负载均衡、高可用性、sql过滤、读写分离、可路由相关的query到目标数据库、可并发请求多台数据库合并结果。主要解决:降低数据切分带来的复杂多数据库结构..
分类:
数据库 时间:
2015-08-06 18:45:15
阅读次数:
511
由perceptron线性组成的一个神经网络: 通过赋予g不同的权值,来实现不同的切分功能: 但有的切分只通过一次特征转换是不够的,需要多次转换,如下:Neural Network Hypothesis:为了便于优化,将sign(离散)变成tanh,这个函数相当于regression的拉伸与...
分类:
Web程序 时间:
2015-08-04 18:54:47
阅读次数:
162