简介环境:window7 x64Eclipse Java EE IDE for Web Developers.(Version: Kepler Service Release 1)(Build id: 20130919-0819)HBase (hbase-0.98.3-hadoop2-bin.tar...
分类:
编程语言 时间:
2014-09-02 17:16:45
阅读次数:
496
HBase是Google Bigtable的开源实现,它利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协同服务。1. 简介HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtab...
分类:
其他好文 时间:
2014-09-02 01:34:43
阅读次数:
342
webpage字段解释webpage各阶段的字段值变化ROW com.2345.www:http/COL f : fi //fetchIntervalCOL f : ts //fetchTimeid主键,根据网页url生成(格式:reversed domain name...
分类:
其他好文 时间:
2014-09-01 19:07:13
阅读次数:
213
网络爬虫架构在Nutch+Hadoop之上,是一个典型的分布式离线批量处理架构,有非常优异的吞吐量和抓取性能并提供了大量的配置定制选项。由于网络爬虫只负责网络资源的抓取,所以,需要一个分布式搜索引擎,用来对网络...
分类:
其他好文 时间:
2014-08-30 23:13:50
阅读次数:
434
http://blog.fens.me/linux-redis-install/在Ubuntu中安装RedisR利剑NoSQL系列文章,主要介绍通过R语言连接使用nosql数据库。涉及的NoSQL产品,包括Redis,MongoDB,HBase,Hive,Cassandra,Neo4j。希望通过我的...
分类:
其他好文 时间:
2014-08-30 17:43:49
阅读次数:
328
什么是hbasehbase是一个高可靠性、高性能、高吞吐量、面向列、可伸缩的分布式数据库,设计的最初目的是用来解决关系型数据库在处理海量数据时的局限性。hbase特性海量数据(TB\PB)高吞吐量高性能(海量数据中实现高效随机读取)可伸缩能够同时处理结构化和非结构化的数据不需要拥有传统数据库所具备的...
分类:
其他好文 时间:
2014-08-29 17:58:58
阅读次数:
236
1、region热点:
开始会不断往一个region写,可以预划分region
在rowkey加哈希前缀 对region server数量取余
2、memstore提高写性能,blockcache提高读性能,看需求调整
3、使用bloomfilter,如果大多是scan顺序读,可将block设大些,默认块大小是64K,可以设为128
4、设计好rowkey
5、关闭major comp...
分类:
其他好文 时间:
2014-08-28 16:58:40
阅读次数:
176
1.开启Hbase的Thrift服务在Hbase的master上运行:hbase-daemon.sh start thrift -threadpool1.下载Thrift 0.7.0的源码和代码生成工具(姑且这么叫)从上面提供的Thrift下载页面中的目录里分别下载代码生成工具:thrift-0.7...
分类:
其他好文 时间:
2014-08-28 11:16:09
阅读次数:
408
一般操作查看服务器状态status查看hbase版本versionDDL操作创建表create 'member','member_id','address','info'创建了3个列族,分别是member_id, address, info知识点回顾:cf是schema的一部分,而column不是。...
分类:
其他好文 时间:
2014-08-27 16:30:58
阅读次数:
225