一、概述 1.Hadoop 是 Apache提供的开源的、可靠的、可扩展的,用于分布式计算的框架 2.Hadoop 除了官网提供的发行版本以外,各大厂商也提供了发行版:Cloudera的CDH、华为的HDP 二、发展 1.创始人:Doug Cutting和Mike Cafarella 2.在2002 ...
分类:
其他好文 时间:
2020-06-21 13:27:38
阅读次数:
141
一.分区 问题:按照条件将结果输出到不同文件中 自定义分区步骤 1.自定义继承Partitioner类,重写getPartition()方法 2.在job驱动Driver中设置自定义的Partitioner 3.在Driver中根据分区数设置reducetask数 分区数和reducetask关系 ...
分类:
编程语言 时间:
2020-06-21 11:32:34
阅读次数:
65
1.Hadoop平台: 1.理论概念:结构组成: 1. HDFS分布式文统.2.MapReduce计算大数据. 3Yarn任务调度与资源管理. 2. 伪分布式环境搭建: 网络配置: 配置网卡信息: vi /etc/sysconfig/network 配置主机的虚拟域名: vi /etc/hosts ...
分类:
其他好文 时间:
2020-06-21 11:26:51
阅读次数:
96
? 如何用形象的比喻描述大数据的技术生态?Hadoop、Hive、Spark 之间是什么关系?对于大部分人来说都是傻傻分不清楚。 今年来大数据、人工智能获得了IT界大量的关注。如果一个企业不玩大数据,都不好意思说自己是在IT圈混的。我敢打赌,你在中关村西二旗地铁站溜一圈,保准你会听到如下名词:Had ...
分类:
其他好文 时间:
2020-06-20 23:54:38
阅读次数:
100
消息中间件你知道多少?通过调研了解总结如下一、市场上的消息中间件产品有哪些。RabbitMQ Elang语言 高效 吞吐量RockMQ 阿里产品ActiveMQ 传统 实现JMS规范 Kafka 大数据 日志采集 二、消息中间件的优点。削峰 用于高并发场景,进行削峰异步 提供用户操作响应时间,优化用 ...
分类:
其他好文 时间:
2020-06-20 22:37:52
阅读次数:
84
1.需求背景是什么?2.存储何种数据?3.数据特点是什么?4.存在哪些技术挑战?5.解决方案有哪些?6.md5散列桶的方法需要注意的问题?7.测试结果是什么?解决方案:1 需求背景该应用场景为DMP缓存存储需求,DMP需要管理非常多的第三方id数据,其中包括各媒体cookie与自身cookie(以下 ...
分类:
其他好文 时间:
2020-06-20 22:32:36
阅读次数:
158
加班了
“前面左转,拐入宛平南路高架桥,从卢浦大桥走,……”,加班完之后我叫了辆滴滴,已经是凌晨1点了,平时打车我都会看看高架桥上车窗外的灯火和夜景,毕竟黄浦江上灯火璀璨彰显大城市的美丽,可是今天我只想闭上眼睛休息一会。已经连续两个周末加班了,21点30甚至更晚,就像今天。
分类:
其他好文 时间:
2020-06-20 19:07:46
阅读次数:
117
脚本通过ssh检查大数据环境中各节点的相关实例是否运行正常,包括:zk、hadoop-ha、hdfs、yarn、hbase、hive-metastore、hiveserver2、kafka。 注意修改成自己的集群节点名称及kafka版本 #!/bin/bash # 定义机器名前缀 HN_PREFIX ...
分类:
系统相关 时间:
2020-06-20 16:44:49
阅读次数:
68
扩大数据空间两种方法:扩大数据库中已有文件的大小,或为数据库添加新的文件 为数据库添加一个新的数据文件 1 alter database RShDB 2 add file 3 ( 4 name = 'RshDB_Data3', 5 filename = 'T:\DB\RshDB_Dat3.ndf', ...
分类:
数据库 时间:
2020-06-20 14:21:34
阅读次数:
84