使用hadoop job -list来列出当前hadoop正在执行的jobs 然后使用hadoop job -kill job_1546932571227_0082来杀死该job任务, 原文链接:https://blog.csdn.net/zhy_2117/java/article/details/ ...
分类:
其他好文 时间:
2020-05-07 19:48:36
阅读次数:
124
一、kafka介绍及原理kafka是由Apache软件基金会发布的一个开源流处理平台,由Scala和Java编写。它是一种高吞吐量的分布式发布的订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像Hadoop一样的日志数据和离线分析系统,
分类:
其他好文 时间:
2020-05-07 09:17:48
阅读次数:
76
1.将下载的hadoop的jar包解压到自己想要存放的目录下,然后再hadoop的根目录下复制它的完整路径 2.配置环境变量,创建一个系统变量“HADOOP_HOME”,变量值就是hadoop的路径 3.将这个变量添加到Path变量中: 4.保存后退出 5.打开cmd命令行窗口,输出命令“hadoo ...
前言 目前仅在一家公司做过大数据相关,也不太清楚其他公司情况。东家这常用的大数据离线处理基本就是sqoop导入到hive中,然后使用spark或者hive计算出结果再导出到oracle中。很多情况下是把oracle中整个表或者某个时间条件的筛选出来的数据整个删掉,再把最新的这部分数据全部导数回到or ...
分类:
数据库 时间:
2020-05-05 21:59:35
阅读次数:
102
这是来自知乎的问题,是一个大二学生问的,说老师在讲课时说,从工资来看,后端开发要比前端高,并且说,掌握公司核心技术的都是后端。他问事实是否真的如此,然后问该如何规划自己的工作。 这里整理的是个匿名答案,答主应该是在网易工作过,后来去了阿里。答案很有参考意义,特此整理出来(原回答的大小写有部分错误,未 ...
分类:
其他好文 时间:
2020-05-05 20:03:21
阅读次数:
102
1、Linux基础环境配置:CentOS7安装、配置 1.1、虚拟机安装Linux操作系统 A)Linux操作系统版本:CentOS 7 x86_64 DVD 1908.iso B)虚拟机安装CentOS配置:内存:1G,CPU:1,硬盘:40G C)网络:桥接 1.2、CentOS网络配置 A)C ...
分类:
其他好文 时间:
2020-05-05 19:43:47
阅读次数:
58
1 package com.bawei.core 2 3 import org.apache.spark.rdd.RDD 4 import org.apache.spark.{SparkConf, SparkContext} 5 6 /** 7 * 单词统计 8 9 */ 10 object Spa ...
分类:
数据库 时间:
2020-05-05 18:27:44
阅读次数:
87
1 package com.bawei.stream 2 3 import java.net.InetSocketAddress 4 5 import org.apache.spark.storage.StorageLevel 6 import org.apache.spark.streaming. ...
分类:
Web程序 时间:
2020-05-05 18:21:50
阅读次数:
79
文件系统 HDFS Hadoop Distributed File System,简称HDFS,是一个分布式文件系统。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。 GlusterFS 是一个集群的文件系统,支持PB级的数据量 ...
分类:
其他好文 时间:
2020-05-05 18:09:27
阅读次数:
70