kafka简介Kafka由linkedln开发,主要用于处理linkedln的大面积的活跃数据流(active stream)。此类数据经常用于反应网站的一些有用信息,如uv或pv。它是一个分布式的消息发布和订阅系统,由producer发布,broker存储、consusmer消费组成。安装为分布式...
分类:
其他好文 时间:
2015-05-20 02:04:41
阅读次数:
236
1.Hbase简介1.面向列的分布式数据库2. 以HDFS作为文件系统3. 利用MapReduce处理Hbase中海量数据4. ZookKeeper作为协调工具5. sqoop提供Hbase到关系型数据库中数据导入功能6. Hive和pig提供高层语言支持如HSQL2. 伪分布式安装准备: 安装Ha...
分类:
其他好文 时间:
2015-05-19 10:16:37
阅读次数:
153
1.Hadoop核心配置文件:# gedit core-site.xml fs.default.name hdfs://localhost:9000 # gedit hdfs-site.xml dfs.replication 1 (注解:dfs.replication指定...
分类:
其他好文 时间:
2015-05-18 22:56:47
阅读次数:
454
整个安装过程分为四部分:一. 安装Homebrew二. ssh localhost三. 安装Hadoop已经进行配置文件设置 (伪分布式)四. 执行栗子一. 安装Homebrew採用Homebrew安装Hadoop很简洁方便,之前在Windows上Cygwin上安装过Hadoop,感觉好麻烦。关于H...
分类:
系统相关 时间:
2015-05-17 21:39:58
阅读次数:
207
1.1 设置ip地址
执行命令 service network restart
验证: ifconfig
1.2 关闭防火墙
执行命令 service iptables stop
验证: service iptables status
1.3 关闭防火墙的自动运行
执行命令 chkconfig ipt...
分类:
其他好文 时间:
2015-05-16 18:26:28
阅读次数:
140
这几天乘着工作之余,学习了一下hadoop技术,跌跌撞撞的几天,终于完成了一个初步的hadoop的安装及测试,具体如下:
动力:工作中遇到的数据量太大,服务器已经很吃力,sql语句运行老半天,故想用大数据技术来改善一下
环境:centos5.11+jdk1.7+hadoop2.5.2
1. 伪分布安装步骤
关闭防火墙
修改ip
修改hostname
设置ssh自动登录...
分类:
其他好文 时间:
2015-05-14 16:38:09
阅读次数:
136
本文地址:http://www.cnblogs.com/myresearch/p/hadoop-standalone-pseudo-distributed-operation.html,转载请注明源地址。基本环境配置可以使用命令uname -a 查看linux的版本:master@ubuntu:~$...
分类:
其他好文 时间:
2015-05-14 11:47:23
阅读次数:
184
1.Hadoop的3种运行模式单机模式:安装简单,几乎不用作任何配置,但仅限于调试用途伪分布模式:在单节点上同时启动namenode、datanode、jobtracker、tasktracker、secondarynamenode等5个进程,模拟分布式运行的各个节点完全分布式模式:正常的Hadoop集群,由多个各司其职的节..
分类:
其他好文 时间:
2015-05-09 20:36:04
阅读次数:
169
一.安装JDK,配置环境JAVA环境变量exportJAVA_HOME=/home/jdk1.6.0_27exportJRE_HOME=/home/jdk1.6.0_27/jreexportANT_HOME=/home/apache-ant-1.8.2exportCLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH二.安装Hadoop-1.0.31.下载hadoop文件,地址为:http://hadoop.ap..
分类:
其他好文 时间:
2015-05-06 18:16:03
阅读次数:
294