业务模型: 在关系型数据库中有张很大的表,被设计成奇偶库存储,每个库100张一模一样的表,每张表存储1000W,字段切换到下一个表。现需要同步这个数据到hive中(hdfs),循环抽取这些数据。如果是抽取增量的带上增量字段(每天增量数据存储在哪个表,奇数库还是偶数库是不知道的)。...
分类:
其他好文 时间:
2014-10-01 09:25:40
阅读次数:
367
HBase为可伸缩海量数据存储而设计,实现面向在线业务的实时数据访问延迟。HBase的伸缩性主要依赖其可分裂的HRegion及可伸缩的分布式文件系统HDFS实现。HBase中,数据以HRegion为单位进行管理,也就是说应用程序如果想要访问一个数据,必须先找到HRegion,然后将数据读写操作提..
分类:
其他好文 时间:
2014-10-01 00:39:00
阅读次数:
249
对于MapReduce编程,大概率的流程用过的人或多或少都清楚,但是归结到细节上,就有的地方不清楚了,下面根据自己的疑问,加上从网上各处,找到的被人的描述,最自己的疑问做出回答。1. MapReduce 和 HDFS有什么关系? 首先,HDFS和MapReduce是Hadoop最核心的设计; 对.....
分类:
其他好文 时间:
2014-09-30 18:54:49
阅读次数:
871
先把上节未完成的部分补全,再剖析一下HDFS读写文件的内部原理
列举文件
FileSystem(org.apache.hadoop.fs.FileSystem)的listStatus()方法可以列出一个目录下的内容。
public FileStatus[] listStatus(Path f) throws FileNotFoundException, IOException;
pu...
分类:
编程语言 时间:
2014-09-30 16:47:19
阅读次数:
271
可以带着下面问题来阅读:1.chmod与chown的区别是什麽?2.cat将路径指定文件的内容输出到哪里?3.cp能否是不同之间复制?4.hdfs如何查看文件大小?5.hdfs如何合并文件?6.如何显示当前路径下的所有文件夹和文件7.rm删除文件失败的原因什么?8.如何查看文件的创建时间9.查看文件...
分类:
其他好文 时间:
2014-09-29 11:08:57
阅读次数:
334
现在我们来深入了解一下Hadoop的FileSystem类。这个类是用来跟Hadoop的文件系统进行交互的。虽然我们这里主要是针对HDFS,但是我们还是应该让我们的代码只使用抽象类FileSystem,这样我们的代码就可以跟任何一个Hadoop的文件系统交互了。在写测试代码时,我们可以用本地文件系统测试,部署时使用HDFS,只需配置一下,不需要修改代码了。
在Hadoop 1.x以后的版本中引入...
分类:
编程语言 时间:
2014-09-29 01:24:17
阅读次数:
273
不同版本间Hadoop拷贝通过NFS,将hdfs挂在到本地
分类:
其他好文 时间:
2014-09-28 22:44:25
阅读次数:
149
1、集群部署介绍1.1 Hadoop简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统(HDFS,Hadoop Distributed Filesystem)和MapReduce(Google MapReduce的开源实现)为核心的Hadoop为用....
分类:
其他好文 时间:
2014-09-28 14:04:02
阅读次数:
309
前面4篇文章介绍了如何编写一个简单的日志提取程序,读取HDFS share/logs目录下的所有csv日志文件,然后提取数据后,最终输出到share/output目录下。本篇停留一下,梳理一下主要过程,然后提出新的改进目标。首先声明一下,所有的代码都是maven工程的,没有使用任何IDE。 这是我一贯的编程风格,用Emacs + JDEE开发。需要使用IDE的只需要学习如何在IDE中使用mave...
分类:
其他好文 时间:
2014-09-27 22:45:50
阅读次数:
256
MapReduce程序编译是可以在普通的Java环境下进行,现在来到真实的环境上运行。首先,将日志文件放到HDFS目录下$ hdfs dfs -put *.csv /user/chenshu/share/logs/
14/09/27 17:03:22 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your...
分类:
其他好文 时间:
2014-09-27 21:04:00
阅读次数:
233