码迷,mamicode.com
首页 >  
搜索关键字:hadoop、spark    ( 198个结果
[转]hadoop,spark,storm,pig,hive,mahout等到底有什么区别和联系?
摘自知乎大神的论述 作者:Xiaoyu Ma链接:https://www.zhihu.com/question/27974418/answer/38965760来源:知乎著作权归作者所有,转载请联系作者获得授权。 大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单 ...
分类:其他好文   时间:2017-02-11 21:48:25    阅读次数:258
Spark的简介以及入门
1.hadoop,spark,Flink的比较 MapReduce: 分布式的计算框架 -> Hive 问题: shuffle:大文件的排序+读写磁盘+网络传输 => 比较慢 只有两种执行算子/API: MapTask(数据转换+过滤)和ReduceTask(数据聚合) ==> 定制化稍微有点差 不 ...
分类:其他好文   时间:2017-02-03 12:39:08    阅读次数:158
hadoop-spark集群安装---5.hive和spark-sql
一、准备 上传apache-hive-1.2.1.tar.gz和mysql--connector-java-5.1.6-bin.jar到node01 cd /tools tar -zxvf apache-hive-1.2.1.tar.gz -C /ren/ cd /ren mv apache-hiv ...
分类:数据库   时间:2016-12-24 20:14:42    阅读次数:257
hadoop&spark安装(上)
硬件环境:hddcluster110.0.0.197redhat7hddcluster210.0.0.228centos7这台作为masterhddcluster310.0.0.202redhat7hddcluster410.0.0.181centos7软件环境:关闭所有防火墙firewallopenssh-clientsopenssh-serverjava-1.8.0-openjdkjava-1.8.0-openjdk-develhadoop-2.7.3.tar.g..
分类:其他好文   时间:2016-12-22 20:54:22    阅读次数:236
Ubuntu14.04或16.04下安装JDK1.8+Scala+Hadoop2.7.3+Spark2.0.2
为了将Hadoop和Spark的安装简单化,今日写下此帖。 首先,要看手头有多少机器,要安装伪分布式的Hadoop+Spark还是完全分布式的,这里分别记录。 1. 伪分布式安装 伪分布式的Hadoop是将NameNode,SecondaryNameNode,DataNode等都放在一台机器上执行, ...
分类:系统相关   时间:2016-12-11 12:33:58    阅读次数:306
HBase、Hive、MapReduce、Hadoop、Spark 开发环境搭建后的一些步骤(export导出jar包方式 或 Ant 方式)
步骤一 若是,不会HBase开发环境搭建的博文们,见我下面的这篇博客。 HBase 开发环境搭建(Eclipse\MyEclipse + Maven) 步骤一里的,需要补充的。如下: 在项目名,右键, 然后,编写pom.xml,这里不多赘述。见 HBase 开发环境搭建(Eclipse\MyEcli ...
分类:编程语言   时间:2016-12-08 11:39:42    阅读次数:372
分布式技术一周技术动态 2016.12.04
分布式系统实践 1. 列存储格式Parquet调研报告 http://dwz.cn/4HnU24 摘要: Apache Parquet是Hadoop生态圈中一种新型列式存储格式,它可以兼容Hadoop生态圈中大多数计算框架(Hadoop、Spark等),被多种查询引擎支持(Hive、Impala、D ...
分类:其他好文   时间:2016-12-04 09:40:28    阅读次数:149
谈hadoop/spark里分别是如何实现容错性
Hadoop使用数据复制来实现容错性(I/O高) Spark使用RDD数据存储模型来实现容错性。 RDD是只读的、分区记录的集合。如果一个RDD的一个分区丢失,RDD含有如何重建这个分区的相关信息。这就避免了使用数据复制来保证容错性的要求,从而减少了对磁盘的访问。通过RDD,后续步骤如果需要相同数据 ...
分类:其他好文   时间:2016-12-02 19:29:42    阅读次数:467
谈hadoop/spark里为什么都有,YARN呢?
在Hadoop集群里,有三种模式: 1、本地模式 2、伪分布模式 3、全分布模式 在Spark集群里,有四种模式: 1、local单机模式 结果xshell可见: ./bin/spark-submit --class org.apache.spark.examples.SparkPi --maste ...
分类:其他好文   时间:2016-11-23 10:10:39    阅读次数:335
flume + kafka + sparkStreaming + HDFS 构建实时日志分析系统
一、Hadoop配置安装注意:apache提供的hadoop-2.6.0的安装包是在32位操作系统编译的,因为hadoop依赖一些C++的本地库,所以如果在64位的操作上安装hadoop-2.4.1就需要重新在64操作系统上重新编译1.修改Linux主机名2.修改IP3.修改主机名和IP的映射关系######注意######如果你们..
分类:Web程序   时间:2016-11-21 20:51:10    阅读次数:1139
198条   上一页 1 ... 9 10 11 12 13 ... 20 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!