码迷,mamicode.com
首页 >  
搜索关键字:hadoop nutch hbase    ( 16575个结果
Hadoop入门进阶步步高(五)-搭建Hadoop集群
五、搭建Hadoop集群上面的步骤,确认了单机可以执行Hadoop的伪分布执行,真正的分布式执行无非也就是多几台slave机器而已,配置方面的有一点点区别,配置起来就非常简单了。1、准备三台服务器192.168.56.101192.168.56.102192.168.56.103在每台机器的/etc/hosts中都将ip及hostname给映射上:192.168.56.101  nginx1192...
分类:其他好文   时间:2014-06-16 23:18:41    阅读次数:499
Hadoop入门进阶步步高(二)-目录介绍
二、Hadoop目录结构这里重点介绍几个目录bin、conf及lib目录。1、$HADOOP_HOME/bin目录文件名称说明hadoop用于执行hadoop脚本命令,被hadoop-daemon.sh调用执行,也可以单独执行,一切命令的核心hadoop-config.shHadoop的配置文件hadoop-daemon.sh通过执行hadoop命令来启动/停止一个守护进程(daemon)。该命令...
分类:其他好文   时间:2014-06-16 23:13:29    阅读次数:338
Hadoop入门进阶步步高(一)-环境准备
前言Hadoop从存储上来说,是类似于冗余磁盘阵列(RAID)的存储方式,将数据分散存储并提供以提供吞吐量,它的存储系统就是HDFS(Hadoop Distuibute Fils System);从计算上来说,它通过MapReduce模型,将大数据的计算分发到多台计算机上完成,再将结果合并,减少计算的时间。Hadoop适合于:1、超大数据的计算;2、一次写入、多次读取的模式;3、可以跑在普通的硬件...
分类:其他好文   时间:2014-06-16 22:58:13    阅读次数:250
OpenTSDB设计解读
OpenTSDB是基于HBase存储时间序列数据的一个开源数据库,确切地说,它只是一个HBase的应用而已,其对于时间序列数据的处理可以供其他系统参考和借鉴。本文会针对它在数据库的设计方面展开一些探索和讨论。本文基于的是OpenTSDB最早的一个稳定版本1.0.0进行讲解的,下载部署完成之后,我们首先需要了解的是它的数据库Schema, 它主要有两个表:tsdb-uid和tsdb. 前者描述指标(...
分类:数据库   时间:2014-06-16 20:55:00    阅读次数:308
Hadoop入门进阶步步高(四)-测试Hadoop
四、测试Hadoop一个简单的求每年温度最大值的程序。1、准备两个文本测试数据准备两个名为data1.txt及data2.txt的文件,用于做为计算的输入数据,将其放于/home/fenglibin/java/data目录下:data1.txtdata2.txt1999 101999 201999 252000 212000 222000 182000 402001 452001 652002 9...
分类:其他好文   时间:2014-06-16 20:52:57    阅读次数:443
Hadoop入门进阶步步高(三)-配置Hadoop
三、配置Hadoop1、设置$HADOOP_HOME/conf/hadoop-env.sh这个文件中设置的是Hadoop运行时需要的环境变量,在1.2.1版中共有19个环境变量,如下: 变量名称默认值说明JAVA_HOME 设置JDK的路径,这个必须设置,否则Hadoop无法启动,值如:/usr/local/jdk1.6.0_33HADOOP_CLASSPATH空这个用以设置用户的类路径,也可以在...
分类:其他好文   时间:2014-06-16 19:59:35    阅读次数:380
Hadoop、Spark、HBase与Redis的适用性讨论(全文)
最近在网上又看到有关于Hadoop适用性的讨论[1]。想想今年大数据技术开始由互联网巨头走向中小互联网和传统行业,估计不少人都在考虑各种“纷繁复杂”的大数据技术的适用性的问题。这儿我就结合我这几年在Hadoop等大数据方向的工作经验,与大家讨论一下Hadoop、Spark、HBase及Re..
分类:其他好文   时间:2014-06-16 17:07:55    阅读次数:402
HBase入门之安装测试过程(Local Filesystem)
目标:学习Hbase,实现在本地文件系统中中安装Hbase参考资料:apache官方文档,HbaseQuickStart环境:MacOS上运行虚拟机,虚拟机中操作系统为CentOS安装过程: 1、安装JDK,本次安装过程中使用的JDK版本是jdk1.8。下载JDK后,执行默认安装; 2、下载HBase(http://mirror.esocc..
分类:其他好文   时间:2014-06-16 15:32:25    阅读次数:191
Impala与Hive的比较
1. Impala架构        Impala是Cloudera在受到Google的Dremel启发下开发的实时交互SQL大数据查询工具,Impala没有再使用缓慢的Hive+MapReduce批处理,而是通过使用与商用并行关系数据库中类似的分布式查询引擎(由Query Planner、Query Coordinator和Query Exec Engine三部分组成),可以直接从HDFS...
分类:其他好文   时间:2014-06-16 14:42:11    阅读次数:251
hadoop数据去重
"数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。1.1 实例描述 对数据文件中的数据进行去重。数据文件中的每行都是一个数据。 样例输入如下.....
分类:其他好文   时间:2014-06-16 13:22:07    阅读次数:309
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!