一、Scala安装 1.1下载并解压Scala 1.2 将Scala添加到环境变量 1.3激活配置 二、安装Spark 2.1下载并解压Spark 2.2 修改文件夹名字 2.3配置环境变量 三、配置Spark 需要修改的配置文件有两个 Spark env.sh, spark defaults.co ...
分类:
其他好文 时间:
2020-04-28 20:13:43
阅读次数:
57
一.hadoop版本概述 不收费的Hadoop版本主要有三个(均是国外厂商),分别是:Apache(最原始的版本,所有发行版均基于这个版本进行改进),Cloudera版本(Cloudera’s Distribution Including Apache Hadoop,简称CDH), Hortonwo ...
分类:
其他好文 时间:
2020-04-28 17:00:18
阅读次数:
557
一、Liunx环境准备 VMware+CentOS 7.6, 1.1下面是VMware和Centos的资源地址,也可以自己从网上下载相应的版本 百度网盘地址:链接:https://pan.baidu.com/s/1m_qvasgybY5rfJNHNjkqpw 提取码:9xka 1.2安装Linux ...
分类:
其他好文 时间:
2020-04-28 12:42:34
阅读次数:
85
<dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-web</artifactId> <exclusions> <exclusion> <groupId>org.spring ...
分类:
编程语言 时间:
2020-04-27 21:01:33
阅读次数:
124
//使用MapReduce框架完成二次排序 // 主要原理使用组比较器完成排序再规约 // 环境 由于IDEA不会本地提交MR任务转到eclipse //代码如下 package com.swust.mapreduce; import java.io.IOException; import org. ...
分类:
其他好文 时间:
2020-04-27 19:34:20
阅读次数:
80
1.Hadoop的整体框架 Hadoop是由许多元素构成的,最核心的是HDFS(分布式文件系统),它存储了Hadoop集群中所有DataNode文件,HDFS的上一层是MapReduce引擎,MapReduce是一种计算模型,用以进行大数据量的计算。 HDFS HDFS是Hadoop项目的核心子项目 ...
分类:
其他好文 时间:
2020-04-27 13:27:50
阅读次数:
70
package hdfs;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.h ...
分类:
其他好文 时间:
2020-04-27 09:35:22
阅读次数:
59
// hadoop+spark二次排序代码 package com.swust.hadoop; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spa ...
分类:
其他好文 时间:
2020-04-26 16:43:00
阅读次数:
64
hadoop第一课:虚拟机搭建和安装hadoop及启动 hadoop第二课:hdfs集群集中管理和hadoop文件操作 hadoop第三课:java开发hdfs hadoop第四课:Yarn和Map/Reduce配置启动和原理讲解 hadoop第五课:java开发Map/Reduce ...
分类:
其他好文 时间:
2020-04-26 09:15:01
阅读次数:
50
配置 Hadoop 伪分布式 任务配置说明: VMware 15 Centos 6.5 java -jdk 1.8 hadoop-2.6.0-cdh5.14.0.tar.gz 第一步 自行安装虚拟机 第二步 开始大配置 修改主机名和用户名 vim /etc/sysconfig/network --( ...
分类:
其他好文 时间:
2020-04-26 01:41:23
阅读次数:
69