搜索关键字：大数据开发 Hadoop Spark，搜索到19831个结果！码迷,mamicode.com！

Hive 使用Tez引擎的配置

前提 Hive 需要是 2.0以上版本 Tez配置下载好tar包后，将tar包上传到HDFS集群路径下 hadoop fs -put /opt/software/apache-tez-0.9.1-bin.tar.gz/ /tez 将Linux本机上的tar包解压 Hive配置在hive/conf ...

分类：其他好文时间：2020-03-31 22:43:48 阅读次数：632

基于Windows下eclipse的MapReduce开发环境配置

零. 相关文件链接：https://pan.baidu.com/s/1KmfZlxevk07p _Aosnsm2w 提取码：df5l 一. MapReduce环境配置 1. 解压hadoop 把hadoop的安装包解压到Windows下(这里的安装包就是你搭hadoop集群时的安装包,我的是 ) ...

分类：Windows程序时间：2020-03-31 22:40:33 阅读次数：119

Centos7 搭建 Flume 搭配 Hadoop 采集 Nginx 日志

本文目的是根据前文的博文，打造一个Hadoop、Sprak的服务器闭环。也是经验归纳。版本信息 CentOS: Linux localhost.localdomain 3.10.0-862.el7.x86_64 #1 SMP Fri Apr 20 16:44:24 UTC 2018 x86_64 ...

分类：Web程序时间：2020-03-31 19:24:58 阅读次数：204

Window7 开发 Spark 应用

WordCount是大数据学习最好的入门demo，今天就一起开发java版本的WordCount，然后提交到Spark3.0.0环境运行；版本信息 OS： Window7 JAVA：1.8.0_181 Hadoop：3.2.1 Spark: 3.0.0-preview2-bin-hadoop3.2 ...

分类：Windows程序时间：2020-03-31 19:06:35 阅读次数：96

spark-2.4.5 安装记录

参考 https://data-flair.training/blogs/install-apache-spark-multi-node-cluster/ 下载 spark 地址为 http://spark.apache.org/downloads.html 准备三个节点 192.168.1.1 [ ...

分类：其他好文时间：2020-03-31 19:04:21 阅读次数：228

Window7 开发 Spark 分析 Nginx 日志

通过上文 Window7 开发 Spark 应用 ,展示了如何开发一个Spark应用，但文中使用的测试数据都是自己手动录入的。所以本文讲解一下如何搭建一个开发闭环，本里使用了Nginx日志采集分析为例，分析页面访问最多的10个,404页面的10。如果把这些开发成果最终展示到一个web网页中，在这 ...

分类：Windows程序时间：2020-03-31 19:03:20 阅读次数：83

Spark运行流程图总结

1. 整体架构 2. Standalone cluster 模式 3. Driver的运行流程 ...

分类：其他好文时间：2020-03-31 14:37:16 阅读次数：82

使用SparkSQL编写wordCount的词频统计

# 使用SparkSQL编写wordCount的词频统计 ## word.txt```hello hello scala sparkjava sql html java hellojack jack tom tom you he he sql``` ## spark 代码：```objec ...

分类：数据库时间：2020-03-30 21:50:35 阅读次数：213

hadoop-MapReduce概述

1.MapReduce定义 MapReduce是一个分布式运算程序的编程框架，是用户开发基于hadoop的数据分析应用的核心框架； MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个hadoop集群上； 2.MapReduce优缺点 2. ...

分类：其他好文时间：2020-03-30 16:38:13 阅读次数：83

IDEA，SparkSql读取HIve中的数据

传统Hive计算引擎为MapReduce，在Spark1.3版本之后，SparkSql正式发布，并且SparkSql与apachehive基本完全兼容，基于Spark强大的计算能力，使用Spark处理hive中的数据处理速度远远比传统的Hive快。在idea中使用SparkSql读取HIve表中的数据步骤如下1、首先，准备测试环境，将hadoop集群conf目录下的core-site.xml、hd

分类：数据库时间：2020-03-30 14:42:50 阅读次数：141

共19831条上一页 1 ... 99 100 101 102 103 ... 1984 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)