搜索关键字：hadoop、spark，搜索到198个结果！码迷,mamicode.com！

[转]hadoop,spark,storm,pig,hive,mahout等到底有什么区别和联系？

摘自知乎大神的论述作者：Xiaoyu Ma链接：https://www.zhihu.com/question/27974418/answer/38965760来源：知乎著作权归作者所有，转载请联系作者获得授权。大数据本身是个很宽泛的概念，Hadoop生态圈（或者泛生态圈）基本上都是为了处理超过单 ...

分类：其他好文时间：2017-02-11 21:48:25 阅读次数：258

Spark的简介以及入门

1.hadoop，spark，Flink的比较 MapReduce: 分布式的计算框架 -> Hive 问题： shuffle：大文件的排序+读写磁盘+网络传输 => 比较慢只有两种执行算子/API: MapTask(数据转换+过滤)和ReduceTask(数据聚合) ==> 定制化稍微有点差不 ...

分类：其他好文时间：2017-02-03 12:39:08 阅读次数：158

hadoop-spark集群安装---5.hive和spark-sql

一、准备上传apache-hive-1.2.1.tar.gz和mysql--connector-java-5.1.6-bin.jar到node01 cd /tools tar -zxvf apache-hive-1.2.1.tar.gz -C /ren/ cd /ren mv apache-hiv ...

分类：数据库时间：2016-12-24 20:14:42 阅读次数：257

hadoop&spark安装（上）

硬件环境：hddcluster110.0.0.197redhat7hddcluster210.0.0.228centos7这台作为masterhddcluster310.0.0.202redhat7hddcluster410.0.0.181centos7软件环境：关闭所有防火墙firewallopenssh-clientsopenssh-serverjava-1.8.0-openjdkjava-1.8.0-openjdk-develhadoop-2.7.3.tar.g..

分类：其他好文时间：2016-12-22 20:54:22 阅读次数：236

Ubuntu14.04或16.04下安装JDK1.8+Scala+Hadoop2.7.3+Spark2.0.2

为了将Hadoop和Spark的安装简单化，今日写下此帖。首先，要看手头有多少机器，要安装伪分布式的Hadoop+Spark还是完全分布式的，这里分别记录。 1. 伪分布式安装伪分布式的Hadoop是将NameNode，SecondaryNameNode，DataNode等都放在一台机器上执行， ...

分类：系统相关时间：2016-12-11 12:33:58 阅读次数：306

HBase、Hive、MapReduce、Hadoop、Spark 开发环境搭建后的一些步骤（export导出jar包方式或 Ant 方式）

步骤一若是，不会HBase开发环境搭建的博文们，见我下面的这篇博客。 HBase 开发环境搭建（Eclipse\MyEclipse + Maven）步骤一里的，需要补充的。如下：在项目名，右键，然后，编写pom.xml，这里不多赘述。见 HBase 开发环境搭建（Eclipse\MyEcli ...

分类：编程语言时间：2016-12-08 11:39:42 阅读次数：372

分布式技术一周技术动态 2016.12.04

分布式系统实践 1. 列存储格式Parquet调研报告 http://dwz.cn/4HnU24 摘要: Apache Parquet是Hadoop生态圈中一种新型列式存储格式，它可以兼容Hadoop生态圈中大多数计算框架(Hadoop、Spark等)，被多种查询引擎支持(Hive、Impala、D ...

分类：其他好文时间：2016-12-04 09:40:28 阅读次数：149

谈hadoop/spark里分别是如何实现容错性

Hadoop使用数据复制来实现容错性（I/O高） Spark使用RDD数据存储模型来实现容错性。 RDD是只读的、分区记录的集合。如果一个RDD的一个分区丢失，RDD含有如何重建这个分区的相关信息。这就避免了使用数据复制来保证容错性的要求，从而减少了对磁盘的访问。通过RDD，后续步骤如果需要相同数据 ...

分类：其他好文时间：2016-12-02 19:29:42 阅读次数：467

谈hadoop/spark里为什么都有，YARN呢？

在Hadoop集群里，有三种模式: 1、本地模式 2、伪分布模式 3、全分布模式在Spark集群里，有四种模式： 1、local单机模式结果xshell可见： ./bin/spark-submit --class org.apache.spark.examples.SparkPi --maste ...

分类：其他好文时间：2016-11-23 10:10:39 阅读次数：335

flume + kafka + sparkStreaming + HDFS 构建实时日志分析系统

一、Hadoop配置安装注意：apache提供的hadoop-2.6.0的安装包是在32位操作系统编译的，因为hadoop依赖一些C++的本地库，所以如果在64位的操作上安装hadoop-2.4.1就需要重新在64操作系统上重新编译1.修改Linux主机名2.修改IP3.修改主机名和IP的映射关系######注意######如果你们..

分类：Web程序时间：2016-11-21 20:51:10 阅读次数：1139

共198条上一页 1 ... 9 10 11 12 13 ... 20 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)