1 安装环境 Hadoop1.2.1 分布式集群环境下安装(192.168.1.53-56) Mahout 0.9 2 安装介质 下载地址:http://archive.apache.org/dist/mahout/0.9/ 文件名(二进制):mahout-distribution-0.9...
分类:
其他好文 时间:
2014-08-03 20:33:45
阅读次数:
190
这篇文章大致介绍Hadoop Job的程序是如何启动的。通常用Java编写的Hadoop MapReduce程序是通过一个main方法作为程序的整个入口,如下:public static void main(String[] args) throws Exception { int res ...
分类:
其他好文 时间:
2014-08-03 20:30:45
阅读次数:
307
今天来说说hadoop的一大核心——HDFS,这个是很重要的,它呢,是分布式文件系统。为什么说hadoop能存储海量数据?其实主要还是依赖与hdfs的能力,主要依赖的是hdfs能存储海量数据。
1、 为什么hdfs能存储海量数据呢?
一开始抛出这样的问题来想想。至于HDFS的基本概念什么的都不用多说了的~我们重在使用,而不是去做“研究”。扯蛋的话就是,“专家的研究”已经成为名副其实的贬义词了,...
分类:
其他好文 时间:
2014-08-03 18:09:05
阅读次数:
332
一道笔试题~实现2个超大数据的加法运算,这2个超大数,意思就是long也装不下的数,就顶大概100位吧。这道题其实看上去很简单,但是实际上涉及到的知识点还是很多的,非常考验一个人的程序设计能力和对API的熟悉程度。思路很简单,这么大的数,long都存不下,那只能存在String中了,然后将每个数字取出,放到数组,由最末位开始计算,算加法,判断是否进位,进位则前位+1,若超过长度,则copy到新的数...
分类:
其他好文 时间:
2014-08-03 18:06:27
阅读次数:
260
oracle数据库的最大数据容量限制和表空间的最大数据容量限制...
分类:
数据库 时间:
2014-08-03 18:03:05
阅读次数:
263
Apache Crunch是FlumeJava的实现,为不太方便直接开发和使用的MapReduce程序,开发一套MR流水线,具备数据表示模型,提供基础原语和高级原语,根据底层执行引擎对MR Job的执行进行优化。从分布式计算角度看,Crunch提供的许多计算原语,可以在Spark、Hive、Pig等地方找到很多相似之处,而本身的数据读写,序列化处理,分组、排序、聚合的实现,类似MapReduce各阶段的拆分都可以在Hadoop里找到影子。
本文介绍Crunch在数据表示模型、操作原语、序列化处理方面的设计和...
分类:
其他好文 时间:
2014-08-03 18:02:06
阅读次数:
267
bin/hive 提示"xxx Illegal Hadoop Version: Unknown (expected A.B.* format)"类似这样的问题,经过查看代码 public static String getMajorVersion() { String vers = Versi...
分类:
其他好文 时间:
2014-08-03 17:46:15
阅读次数:
837
第一部分、十道海量数据处理面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法, 比如模1000,把整个大文件映射为1000个小文件,再找出每个小文...
分类:
编程语言 时间:
2014-08-03 17:33:25
阅读次数:
345
这本书,帮助我初步完成了大数据探索之旅。大数据,并不是那么简单,她是一种思维方式,更是一种新的商业模式,是需要社会各界关注的大事件。新的时代,是信息通信高度发达的时代,是信息无孔不入的时代。在具备自身核心竞争力的同时,对外分享、合作是企业生存和发展的唯一途..
分类:
其他好文 时间:
2014-08-03 15:27:06
阅读次数:
246