最近参与了一个信托行业的BI项目,由于信托业务系统设计的问题,很多都是用户手工录入的数据,也有一些是需要分析的但是用户没有录入的数据,针对这样的数据质量,我们就要在ETL抽取的过程中来对数据流进行校验,今天我们就说一下如何利用ETL开源工具kettle来完成对数据的基础性校验1:非空校验if(INT...
分类:
Web程序 时间:
2015-03-07 15:29:02
阅读次数:
229
如何从HBase中的海量数据中,以很快的速度的获取大批量数据,这一议题已经在《HBase 高性能获取数据》(http://www.cnblogs.com/wgp13x/p/4245182.html)一文中给出了解决办法。那么,如何向HBase中高性能的插入数据呢?经研究表明,光是批量写入也还是不行。...
分类:
其他好文 时间:
2015-03-06 23:29:18
阅读次数:
216
什么是Phoenix? Phoenix的团队用了一句话概括Phoenix:"We put the SQL back in NoSQL" 意思是:我们把SQL又放回NoSQL去了!这边说的NoSQL专指HBase,意思是可以用SQL语句来查询Hbase,你可能会说:“Hive和Impala也可以啊!”。但是Hive和Impala还可以查询文本文件,Phoenix的特点就是,它只能查Hbase,别的类型都不支持!但是也因为这种专一的态度,让Phoenix在Hbase上查询的性能超过了Hive和Impala!...
分类:
数据库 时间:
2015-03-06 11:23:52
阅读次数:
468
在这篇blog中,我们将介绍Hbase的单机模式安装与伪分布式的安装方式,以及通过浏览器查看Hbase的用户界面。搭建hbase伪分布式环境的前提是我们已经搭建好了hadoop完全分布式环境,搭建hadoop环境请参考:【Hadoop基础教程】4、Hadoop之完全分布式环境搭建
开发环境
硬件环境:Centos 6.5 服务器4台(一台为Master节点,三台为Slave节点)...
分类:
其他好文 时间:
2015-03-05 19:28:56
阅读次数:
213
上一篇blog我们介绍了Hbase的单机模式安装与伪分布式的安装方式,本篇blog我们将详细介绍如何搭建hbase完全分布式环境,搭建hbase完全分布式环境的前提是我们已经搭建好了hadoop完全分布式环境,搭建hadoop完全分布式环境请参考:【Hadoop基础教程】4、Hadoop之完全分布式环境搭建...
分类:
其他好文 时间:
2015-03-05 19:27:52
阅读次数:
144
各位真的不好意思。上次的博文有误。上次的应该是HBase的伪分布式安装。这次本人保证是完全分布式安装。 首先是HBase的完成分布式安装。这次部署的环境是hadoop-1.2.1+hbase-0.98.X。因为这个版本的HBase是直接对应hadoop-1.2.1,故也就省去了覆盖jar包...
分类:
数据库 时间:
2015-03-05 14:17:32
阅读次数:
146
我从Zenoss3.2版本一起用Zenoss,觉得这个开源软件很对企业应用的需求。今天上午看到有人在群里说ZENOSS5发布了,马上到其网站上查有什么新的内容。新版本有很大的变化!更适用于大量采集数据的存储。总架构如图:将采集和管理功能分离。在servicepool里,用到最新的docker技术..
分类:
其他好文 时间:
2015-03-04 19:29:45
阅读次数:
172
flume 1.5.2
hbase 0.98.9
hadoop 2.6
zk 3.4.6
以上是基础的软件及对应版本,请先确认以上软件安装成功!
1、添加jar包支持
将hbase的lib下的这些jar包拷贝到flume的lib下
2、配置flume
注意看以上的serializer配置,采用的是官方的RegexHbaseEventSerializer,
...
分类:
Web程序 时间:
2015-03-04 11:05:56
阅读次数:
258
介绍
开源监控系统OpenTSDB,用hbase存储所有的时序(无须 采样)来构建一个分布式、可伸缩的时间序列数据库。它支持秒级数据采集所有metrics,支持永久存储,可以做容量规划,并很容易的接入到现有的报警系统里。OpenTSDB可以从大规模的集群(包括集群中的网络设备、操作系统、应用程序)中获取相应的metrics并进行存储、索引以及服务,从而使得这些数据更容易让人理解,如web...
分类:
数据库 时间:
2015-03-03 18:38:34
阅读次数:
226
该文章的前期准备
hadoop安装
zk安装
本文所用的hbase版本是0.98.9
在安装hbase前,先确保下依赖组件的各个版本,本文的hadoop版本是2.6,在官网上没有给出支持的相关说明,但是我们仍然来使用hadoop2.6尝试下,jdk是7
http://www.apache.org/dyn/closer.cgi/hbase/
点击链接下载hba...
分类:
其他好文 时间:
2015-03-03 16:39:03
阅读次数:
126