思考:大规模数据如何检索? 如:当系统数据量上了10亿、100亿条的时候,我们在做系统架构的时候通常会从以下角度去考虑问题: 1)用什么数据库好?(mysql、sybase、oracle、达梦、神通、mongodb、hbase…) 2)如何解决单点故障;(lvs、F5、A10、Zookeep、MQ) ...
分类:
其他好文 时间:
2019-09-05 09:16:37
阅读次数:
119
redis是单线程的,keys查询键类似hbase的全表扫描(也可以理解为select *),大数据量时非常耗时,因此官方给出了scan,使用scan类似数据库分页,可以指定查询多少个元素,官网的说明是scan是一种遍历,只不过可以用count指定每次查询多少个元素 语法:scan cursor m ...
分类:
其他好文 时间:
2019-09-02 23:49:45
阅读次数:
165
日志采集框架Flume Flume介绍 概述 Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。 Flume可以采集文件,socket数据包、文件、文件夹、kafka等各种形式源数据,又可以将采集到的数据(下沉sink)输出到HDFS、hbase、hive、kafka等众多外部 ...
分类:
Web程序 时间:
2019-09-02 09:35:39
阅读次数:
86
1. kettle安装地址 官网地址: https://community.hitachivantara.com/s/article/data-integration-kettle 下载地址: https://sourceforge.net/projects/pentaho/files/ 2. 安装 ...
分类:
其他好文 时间:
2019-09-01 22:10:25
阅读次数:
172
1,定义 kettle是一款开源的ETL工具,纯java编写,可以在Windows、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。需要java环境才能运行。 2,官网下载地址 https://community.hitachivantara.com/s/article/data-int ...
分类:
数据库 时间:
2019-09-01 22:04:40
阅读次数:
111
1. hbase是什么 1.1 hbase的概念 hbase基于Google的BigTable论文,是建立的hdfs之上,提供高可靠性、高性能、列存储、可伸缩、实时读写的分布式数据库系统。在需要实时读写随机访问超大规模数据集时,可以使用hbase。 hbase基于Google的BigTable论文, ...
分类:
其他好文 时间:
2019-09-01 22:03:48
阅读次数:
78
一、同一数据库两表数据关联更新 实现效果:把stu1的数据按id同步到stu2,stu2有相同id则更新数据 步骤: 1.在mysql中创建两张表: mysql>create database kettle; mysql>use kettle; mysql>create table stu1 (id ...
分类:
其他好文 时间:
2019-09-01 21:49:16
阅读次数:
137
大数据也是构建各类系统的时候一种全新的思维,以及架构理念,比如Storm,Hive,Spark,ZooKeeper,HBase,Elasticsearch,等等 storm,在做热数据这块,如果要做复杂的热数据的统计和分析,亿流量,高并发的场景下,最合适的技术就是storm,没有其他 举例说明: S ...
分类:
其他好文 时间:
2019-09-01 21:30:29
阅读次数:
177
本文借鉴之前HBaseConAsia2017,小米公司对hbase g1 gc的优化分享。此外还可以参考apache官方博客对于hbase g1 gc优化的一篇文章(Tuning G1GC For Your HBase Cluster) g1 gc的优化主要是对一些重要的参数进行调整,然后执行压力测 ...
分类:
其他好文 时间:
2019-09-01 18:49:13
阅读次数:
129