存储系统Spark任务需要从一些外部的存储系统加载数据(如:HDFS 或者 HBase),重要的是存储系统要接近Spark系统,我们有如下推荐:(1)如果可能,运行Spark在相同的HDFS节点,最简单的方法是建立一个引发相同的节点上的集群独立模式(http://spark.apache.org/d...
分类:
其他好文 时间:
2015-01-11 21:33:17
阅读次数:
389
接触hbase已经两年之久,但是真正的在实际项目中使用却只有半年的时间,使用过程中,一方面在在为hbase强大的性能兴奋之余,另一方面却也给我和我的团队造成了很多的麻烦,起初在使用我的水平也就停留在会用而已,根本谈不上优化,但是后来发现,如果想要把它用好,让它在你的业务中不出问题,那么就需要你针对自...
分类:
其他好文 时间:
2015-01-11 20:22:05
阅读次数:
516
网络爬虫架构在Nutch+Hadoop之上,是一个典型的分布式离线批量处理架构,有非常优异的吞吐量和抓取性能并提供了大量的配置定制选项。由于网络爬虫只负责网络资源的抓取,所以,需要一个分布式搜索引擎,用来对网络爬虫抓取到的网络资源进行实时的索引和搜索。搜 索引擎架构在ElasticSearch之上,...
分类:
其他好文 时间:
2015-01-10 19:37:13
阅读次数:
1115
启动hbase报错couldonlybereplicatedto0nodesinsteadof1hmaster启动不起来查了很多类似的问题,大家处理的方式大多比较暴力。由于是测试环境,不敢太过暴力,免得花费精力再来处理这些烂事。又仔细看看了看./bin/hadoopdfsadmin-report发现1数据在datanode上分布的不均衡2其中..
分类:
其他好文 时间:
2015-01-10 18:23:19
阅读次数:
143
一、背景最近由于项目和论文的需要,需要搭建一个垂直搜索的环境,查阅了很多资料,决定使用Apache的一套解决方案hadoop+hbase+nutch+es。这几样神器的作用就不多作介绍了,自行参考各类百科就行了。我选择这样的方案主要是基于以下考虑:1、可扩展,虽然只是实验环境,但是以后在项目中是要应...
分类:
其他好文 时间:
2015-01-10 16:27:38
阅读次数:
155
Hadoop2.4.1 64-Bit QJM HA and YARN HA Install + Zookeeper-3.4.6 + Hbase-0.98.8-hadoop2-bin HA(Hadoop2.4.1(QJM方式的HDFS NameNode HA,YARN ResourceManager ...
分类:
其他好文 时间:
2015-01-09 22:12:06
阅读次数:
788
前面bolg中提到了 eclipse操作单机版的Hbase列子 不熟悉的朋友可以去看看
eclipse 连接并操作单机版Hbase
本篇文章介绍一个 Mapreduce 读取 Hbase 中数据 并进行计算 列子 类似与 wordcount 不过 此时的输入 是从 Hbase中读取
首先 需要创建输入源...
分类:
系统相关 时间:
2015-01-09 17:25:34
阅读次数:
161
环境:centos6.4X64192.168.2.20Master192.168.2.21Hadoop1192.168.2.22Hadoop2准备工作:1、安装基本开发工具:(所有服务器)yumgroupinstall"DevelopmentTools"-y2、设置IP和hostname映射关系(所有服务器)vi/etc/hosts修改内容如下192.168.2.20Master192.168.2.21Hadoop11..
分类:
其他好文 时间:
2015-01-09 01:48:11
阅读次数:
275
http://www.tuicool.com/articles/VfEFjmNutch 2.x 与 Nutch 1.x 相比,剥离出了存储层,放到了gora中,可以使用多种数据库,例如HBase, Cassandra, MySql来存储数据了。Nutch 1.7 则是把数据直接存储在HDFS上。1....
分类:
其他好文 时间:
2015-01-08 11:16:36
阅读次数:
4606