搜索关键字：大数据开发 Hadoop Spark，搜索到19831个结果！码迷,mamicode.com！

KILL hive 执行中的job任务

使用hadoop job -list来列出当前hadoop正在执行的jobs 然后使用hadoop job -kill job_1546932571227_0082来杀死该job任务，原文链接：https://blog.csdn.net/zhy_2117/java/article/details/ ...

分类：其他好文时间：2020-05-07 19:48:36 阅读次数：124

Kafka单机部署

一、kafka介绍及原理kafka是由Apache软件基金会发布的一个开源流处理平台，由Scala和Java编写。它是一种高吞吐量的分布式发布的订阅消息系统，它可以处理消费者规模的网站中的所有动作流数据。这种动作（网页浏览，搜索和其他用户的行动）是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像Hadoop一样的日志数据和离线分析系统，

分类：其他好文时间：2020-05-07 09:17:48 阅读次数：76

HDFS客户端环节准备--在Windows上安装hadoop

1.将下载的hadoop的jar包解压到自己想要存放的目录下，然后再hadoop的根目录下复制它的完整路径 2.配置环境变量，创建一个系统变量“HADOOP_HOME”，变量值就是hadoop的路径 3.将这个变量添加到Path变量中： 4.保存后退出 5.打开cmd命令行窗口，输出命令“hadoo ...

分类：Windows程序时间：2020-05-06 13:37:26 阅读次数：102

oracle merge into在大数据离线批处理中的应用

前言目前仅在一家公司做过大数据相关，也不太清楚其他公司情况。东家这常用的大数据离线处理基本就是sqoop导入到hive中，然后使用spark或者hive计算出结果再导出到oracle中。很多情况下是把oracle中整个表或者某个时间条件的筛选出来的数据整个删掉，再把最新的这部分数据全部导数回到or ...

分类：数据库时间：2020-05-05 21:59:35 阅读次数：102

spark-xgboost8.1 java 例子

分类：编程语言时间：2020-05-05 21:51:14 阅读次数：83

技术领域，前端真的不如后端？

这是来自知乎的问题，是一个大二学生问的，说老师在讲课时说，从工资来看，后端开发要比前端高，并且说，掌握公司核心技术的都是后端。他问事实是否真的如此，然后问该如何规划自己的工作。这里整理的是个匿名答案，答主应该是在网易工作过，后来去了阿里。答案很有参考意义，特此整理出来（原回答的大小写有部分错误，未 ...

分类：其他好文时间：2020-05-05 20:03:21 阅读次数：102

大数据01_centos7部署hadoop-3-1-2本地模式与伪分布模式

1、Linux基础环境配置：CentOS7安装、配置 1.1、虚拟机安装Linux操作系统 A）Linux操作系统版本：CentOS 7 x86_64 DVD 1908.iso B）虚拟机安装CentOS配置：内存：1G，CPU：1，硬盘：40G C）网络：桥接 1.2、CentOS网络配置 A）C ...

分类：其他好文时间：2020-05-05 19:43:47 阅读次数：58

sparkcore sparksql单词统计—切分-聚合

1 package com.bawei.core 2 3 import org.apache.spark.rdd.RDD 4 import org.apache.spark.{SparkConf, SparkContext} 5 6 /** 7 * 单词统计 8 9 */ 10 object Spa ...

分类：数据库时间：2020-05-05 18:27:44 阅读次数：87

Stream整合Flume

1 package com.bawei.stream 2 3 import java.net.InetSocketAddress 4 5 import org.apache.spark.storage.StorageLevel 6 import org.apache.spark.streaming. ...

分类：Web程序时间：2020-05-05 18:21:50 阅读次数：79

大数据组件-学习知识图谱

文件系统 HDFS Hadoop Distributed File System，简称HDFS，是一个分布式文件系统。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。 GlusterFS 是一个集群的文件系统，支持PB级的数据量 ...

分类：其他好文时间：2020-05-05 18:09:27 阅读次数：70

共19831条上一页 1 ... 82 83 84 85 86 ... 1984 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)