一 整体介绍 1.1 硬件环境 本文使用三台服务器搭建hadoop集群,使用Centos7.5系统,服务器均有独立ip 1.2 部署的软件 部署服务:namenode(HA),resourcemanager(HA),zookeeper,hbase(HA),spark,kafka,geomesa 版本 ...
分类:
其他好文 时间:
2019-12-31 14:12:21
阅读次数:
94
概述传统的关系型数据库(RDBMS)如 MySQL,Oracle 因其存储引擎和事务的高一致性特性很难在高并发的情况下实现高吞吐和可扩展,因而产生了很多的NoSQL 数据库如 Redis,MongoDB,Hbase等,图形化数据库(GDBMS) Neo4j因其是把数据以图的形式存储在网络而不是磁盘, ...
分类:
数据库 时间:
2019-12-31 12:53:09
阅读次数:
120
转:cnblogs.com/zimo-jing/p/9028949.html Hive背景介绍 Hive最初是Facebook为了满足对海量社交网络数据的管理和机器学习的需求而产生和发展的。互联网现在进入了大数据时代,大数据是现在互联网的趋势,而hadoop就是大数据时代里的核心技术,但是hadoo ...
分类:
其他好文 时间:
2019-12-31 12:46:07
阅读次数:
71
MySQL Binlog 解析工具 Maxwell 详解 maxwell 简介 Maxwell是一个能实时读取MySQL二进制日志binlog,并生成 JSON 格式的消息,作为生产者发送给 Kafka,Kinesis、RabbitMQ、Redis、Google Cloud Pub/Sub、文件或其 ...
分类:
数据库 时间:
2019-12-31 12:10:30
阅读次数:
318
1.windows添加hosts记录 40.23.68.128 service1 40.13.18.146 service2 139.27.29.245 service3 2.在windows安装Hadoop并且增加环境变量 hadoop-2.6.0.zip 3.修改驱动为phoenix-5.0.0 ...
分类:
数据库 时间:
2019-12-30 21:17:19
阅读次数:
79
hbase调优 一.表的设计 1.设置预分区表 原因:前期region读写都集中到一个regionserver上,直到文件足够大时,才进行分区,这样会降低性能. 解决方案:建表是设置预分区,这样当数据写入HBase时,会按照region分区情况,在集群内做数据的负载均衡。 public static ...
分类:
其他好文 时间:
2019-12-30 14:28:10
阅读次数:
76
阅读 0 编辑文章 大家好,欢迎来到久违的机器学习系列,这是「美团」算法工程师带你入门机器学习 专栏的第一篇文章,不会太长,一半聊想法,一半聊干货。熟悉我的朋友可能知道,我以前的文章比较随意,涉及的内容极广,包括但不限于Python/Java/C/C++,网络编程,Hadoop等,但主要核心还是机器 ...
分类:
其他好文 时间:
2019-12-30 14:22:47
阅读次数:
96
一.简介 1.什么是spark Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行计算框架,Spark拥有Hadoop MapReduc ...
分类:
其他好文 时间:
2019-12-30 14:10:45
阅读次数:
100
一、TestDFSIO 读写性能测试切换到目录: /opt/hadoop/share/hadoop/mapreduce/ 清空数据hadoop jar hadoop-mapreduce-client-jobclient-2.6.4.jar -cleanhadoop fs -ls /benchmark ...
分类:
其他好文 时间:
2019-12-29 23:30:19
阅读次数:
113
一、为什么namenode持久化 namenode通过内存存储hdfs集群的元数据(目录结构 文件信息 块对应关系),如果内存出现问题,那么会数据丢失,需要通过持久化,把内存中的数据定期的存储在硬盘中,进而保证namenode的数据安全。 二、持久化的原理 1、FSImage (某一时刻 namen ...
分类:
其他好文 时间:
2019-12-29 18:48:03
阅读次数:
133