配置Flume 修改flume env.sh 修改Hbase的hbase env.sh(未出现异常可以忽略) 查看Flume配置版本 测试Flume(avro source) 修改avro.conf 启动flume agent a1 向指定文件写入日志 启动avro client 在启动的服务控制台 ...
分类:
Web程序 时间:
2019-09-13 21:43:36
阅读次数:
114
一、Hbase能做什么?1. 海量数据存储:上百亿行 x 上百万列并没有列的限制当表非常大的时候才能发挥这个作用, 最多百万行的话,没有必要放入hbase中2. 准实时查询:百亿行 x 百万列,在百毫秒以内二、Hbase在实际场景中的应用:1. 交通方面:船舶GPS信息,全长江的船舶GPS信息,每天 ...
分类:
其他好文 时间:
2019-09-13 15:40:51
阅读次数:
147
HBase HBas是Hadoop数据库,是一个分布式,可扩展的大数据存储。 当您需要对大数据进行随机,实时读/写访问时,请使用HBase。该项目的目标是托管非常大的表 - 数十亿行X百万列 - 在商品硬件集群上。HBase是一个开源的,分布式的,版本化的非关系数据库,结构化数据分布式存储系统。正如 ...
分类:
其他好文 时间:
2019-09-13 15:26:51
阅读次数:
91
#: 安装Hbase需要安装zookeeper , 单节点hbase集成了单zk ,故一个机器不需要再安装 #:先把解压,记住路径. 1.添加环境变量 这里的第一个路径是你的解压路径,第二个是其bin路径,修改在控制台输入 vim ~/.bash_profile (此处修改完需要source一下或者 ...
分类:
其他好文 时间:
2019-09-13 13:27:20
阅读次数:
108
背景介绍 Kylin 作为OLAP中主流的框架之一,其优势是在于利用Cube对数据做预计算。在离线计算的场景中,数据源为Hive表,使用Spark/MR对源数据进行折叠,将结果存储在HBase中。用户在查询的时候,元数据使用的是折叠后的维度(同步自Hive),实际查询的是HBase的结果。 这就带来 ...
分类:
其他好文 时间:
2019-09-13 12:52:11
阅读次数:
131
使用HBase存储中国好声音数据的案例,业务描述如下: 为了能高效的查询到我们需要的数据,我们在RowKey的设计上下了不少功夫,因为过滤RowKey或者根据RowKey查询数据的效率是最高的,我们的RowKey的设计是:UserID + CreateTime + FileID,那么我们在HBase ...
分类:
其他好文 时间:
2019-09-12 23:18:38
阅读次数:
104
zookeeper https://archive.apache.org/dist/zookeeper/ hadoop https://hadoop.apache.org/releases.html hbase http://archive.apache.org/dist/hbase/ redis ...
分类:
其他好文 时间:
2019-09-12 21:30:07
阅读次数:
71
rowkey是什么? rowkey相当于mysql、orcale中的主键,用于标识唯一的行,是完全由用户指定的一串不重复的字符串,hbase的数据永远都是根据rowkey的字典顺序排序的。 Rowkey的作用 1)读写数据时通过rowkey找到对应region;2)MenStore中数据按rowke ...
分类:
其他好文 时间:
2019-09-10 11:36:07
阅读次数:
117
本周暑假假期已经结束,新的学期又开始,经过放假的学习我学会了许多东西,我也发现了我安装hbase的错误是什么了,一切的错都是我的粗心造成的,在下载hbase的安装包时,在没下载完的情况下我就开始了安装,导致安装包缺少了东西,因此出现了难以解决的问题,这让我明白了做事不能急于求成,遇见困难也别轻易放弃 ...
分类:
其他好文 时间:
2019-09-08 20:40:16
阅读次数:
102
使用kettle进行数据清洗: 1.新建转换去除手机销售信息表的重复记录 要求:去除该字段中的所有空格,方便后续聚合统计,字母统一大小写,去除该字段中的所有特殊字符(各种标点符号) 这里可选用排序加去重组件,也可用哈希去重。然后用字符串操作去括号,大小写统一。字符串替换的正则表达式去除特殊字符。 2 ...
分类:
其他好文 时间:
2019-09-08 09:36:01
阅读次数:
224