搜索关键字：hadoop nutch hbase，搜索到16575个结果！码迷,mamicode.com！

Window7 开发 Spark 应用

WordCount是大数据学习最好的入门demo，今天就一起开发java版本的WordCount，然后提交到Spark3.0.0环境运行；版本信息 OS： Window7 JAVA：1.8.0_181 Hadoop：3.2.1 Spark: 3.0.0-preview2-bin-hadoop3.2 ...

分类：Windows程序时间：2020-03-31 19:06:35 阅读次数：96

hadoop-MapReduce概述

1.MapReduce定义 MapReduce是一个分布式运算程序的编程框架，是用户开发基于hadoop的数据分析应用的核心框架； MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个hadoop集群上； 2.MapReduce优缺点 2. ...

分类：其他好文时间：2020-03-30 16:38:13 阅读次数：83

IDEA，SparkSql读取HIve中的数据

传统Hive计算引擎为MapReduce，在Spark1.3版本之后，SparkSql正式发布，并且SparkSql与apachehive基本完全兼容，基于Spark强大的计算能力，使用Spark处理hive中的数据处理速度远远比传统的Hive快。在idea中使用SparkSql读取HIve表中的数据步骤如下1、首先，准备测试环境，将hadoop集群conf目录下的core-site.xml、hd

分类：数据库时间：2020-03-30 14:42:50 阅读次数：141

02 使用spark进行词频统计【scala交互】

我们已经在CentOS7中安装了spark，本节将展示如何在spark中通过scala方式交互的进行词频统计。 1 系统、软件以及前提约束 CentOS 7 64 工作站作者的机子ip是192.168.100.200，主机名为danji，请读者根据自己实际情况设置 hadoop已经安装完毕并启动 ...

分类：其他好文时间：2020-03-30 00:07:08 阅读次数：103

大数据平台搭建：Hadoop-3.1.3+Hive-3.1.2+HBase-2.2.3+Zookeeper-3.5.7+Kafka_2.11-2.4.0+Spark-2.4.5

1.框架选型 hadoop 3.1.3 hive 3.1.2 zookeeper 3.5.7 hbase 2.2.3 kafka_2.11 2.4.0 spark 2.4.5 bin hadoop2.7 2.安装前准备 1.关闭防火墙 2.安装 JDK 3.安装 Scala 4.配置ssh 免密 5 ...

分类：其他好文时间：2020-03-30 00:06:39 阅读次数：66

集群规模计算

一、数据规模二、集群处理数据的吞吐量 2.1 hdfs的读写测试 Hadoop自带一个测试用的jar包，可以运行它来得知集群处理数据的性能如何 hadoop jar /opt/module/hadoop-2.7.2/share/hadoop/mapreduce/hadoop-mapreduce-c ...

分类：其他好文时间：2020-03-29 12:35:17 阅读次数：225

Windows10安装Hadoop3.0.0

前言准备： 7Zip下载：压缩工具，支持*.tar.gz格式的压缩文件解压 Hadoop下载：http://archive.apache.org/dist/hadoop/core/，笔者选择3.0.0版本下载，官网下载的网速如同断网。。。 winutils下载：https://github.com ...

分类：Windows程序时间：2020-03-29 01:39:57 阅读次数：164

Hadoop（三）HDFS写数据的基本流程

HDFS写数据的流程 HDFS shell上传文件a.txt，300M 对文件分块，默认每块128M。 shell向NameNode发送上传文件请求 NameNode检测文件系统目录树，看能否上传 NameNode向shell发送允许上传通知 shell向NameNode发送上传block1，备份为 ...

分类：其他好文时间：2020-03-29 01:09:38 阅读次数：66

Hadoop面试整理

（1）Hadoop1.x和2.x之间的区别 Hadoop 1.0内核主要由两个分支组成：MapReduce和HDFS，在高可用、扩展性等方面存在问题 1）HDFS存在的问题 1.NameNode单点故障，难以应用于在线场景。 2.NameNode压力过大，且内存受限，影响扩展性。 2）MapRedu ...

分类：其他好文时间：2020-03-28 17:42:52 阅读次数：69

大数据生态圈 —— 单节点伪分布式环境搭建

本文参考关于环境搭建，imooc上关于hadoop、hbase、spark等课程上有很多环境搭建的例子，但是有些并没有说明为什么选择这个的版本，我们知道这些开源的技术发展很快，所以有必要搞清楚如何对它们进行版本选择环境 spark 2.2.0 + scala 2.11.8 + hbase1.3.... ...

分类：其他好文时间：2020-03-28 13:35:54 阅读次数：84

共16575条上一页 1 ... 74 75 76 77 78 ... 1658 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)