码迷,mamicode.com
首页 >  
搜索关键字:spark 安装、介绍    ( 7164个结果
在Docker中从头部署自己的Spark集群
由于自己的电脑配置普普通通,在VM虚拟机中搭建的集群规模也就是6个节点左右,再多就会卡的不行 碰巧接触了Docker这种轻量级的容器虚拟化技术,理论上在普通PC机上搭建的集群规模可以达到很高(具体能有多少个也没有实际测试过)于是就准备在Docker上搭建Spark集群 由于是Docker新手,在操作过程中遇到了不少麻烦刚开始在网上找的资料都是直接从DockerHub上拉取别人已经建好的镜像使用...
分类:其他好文   时间:2015-06-04 09:52:27    阅读次数:212
Spark 任务调度分析
Spark 任务调度分析1、 资源分配 通过SparkSubmit进行提交应用后,首先会创建Client将应用程序(字节码文件.class)包装成Driver,并将其注册到Master。Master收到Client的注册请求后将其加入待调度队列waitingDrivers,并等待分配执行资源。1.1...
分类:其他好文   时间:2015-06-04 08:36:18    阅读次数:742
hadoop、spark/storm等大数据相关视频资料汇总下载
小弟不才,工作中也用到了大数据的相关东西,一开始接触的时候,是通过买来的教学视频入的门。这两天整理了一下自己的视频资料,供各位进行下载。         文档截图:...
分类:其他好文   时间:2015-06-03 13:42:05    阅读次数:146
我已提取并尝试使用启动脚本(./start navicat)来启动 Navicat Linux 版本号,但没有反应
具体的安装教程,參考这个 navicat_for_mysql_10.0.11在linux下的安装,介绍的非常具体參考这个 :我可否在 64-bit Linux 执行 Navicat?推荐navicat wiki我当时的ubuntu内核是输入下面命令:64-bit Ubuntu 13.10 或以上su...
分类:系统相关   时间:2015-06-03 13:16:22    阅读次数:206
Spark 批量写数据入HBase
介绍 ??工作中常常会遇到这种情形,需要将hdfs中的大批量数据导入HBase。本文使用Spark+HBase的方式将RDD中的数据导入HBase中。没有使用官网提供的newAPIHadoopRDD接口的方式。使用本文的方式将数据导入HBase, 7000W条数据,花费时间大概20分钟左右,本文Spark可用核数量为20。...
分类:其他好文   时间:2015-06-02 18:05:27    阅读次数:535
Apache Spark源码走读之3 -- Task运行期之函数调用关系分析
概要本篇主要阐述在TaskRunner中执行的task其业务逻辑是如何被调用到的,另外试图讲清楚运行着的task其输入的数据从哪获取,处理的结果返回到哪里,如何返回。准备1.spark已经安装完毕2.spark运行在localmode或local-clustermodelocal-clustermodelocal-cluster模式也称为伪分..
分类:Web程序   时间:2015-06-01 20:40:37    阅读次数:130
Apache Spark源码走读之3 -- Task运行期之函数调用关系分析
概要本篇主要阐述在TaskRunner中执行的task其业务逻辑是如何被调用到的,另外试图讲清楚运行着的task其输入的数据从哪获取,处理的结果返回到哪里,如何返回。准备1. spark已经安装完毕2. spark运行在local mode或local-cluster modelocal-clust...
分类:Web程序   时间:2015-06-01 18:25:14    阅读次数:128
Azure HDInsight 和 Spark 大数据分析(一)
What is HDInsight? Microsoft Azure HDInsight 是基于 Hortonoworks Data Platform (HDP) 的 Hadoop 集群,包括Storm, HBase, Pig, Hive, Sqoop, Oozie, Ambari等(具体的组件请参...
分类:其他好文   时间:2015-06-01 18:15:16    阅读次数:201
Apache Spark源码走读之3 -- Task运行期之函数调用关系分析
概要 本篇主要阐述在TaskRunner中执行的task其业务逻辑是如何被调用到的,另外试图讲清楚运行着的task其输入的数据从哪获取,处理的结果返回到哪里,如何返回。 准备 1. spark已经安装完毕 2. spark运行在local mode或local-cluster mode local-cluster mode local-cluster模式也称为伪分布...
分类:Web程序   时间:2015-06-01 16:46:52    阅读次数:143
spark streaming测试之一使用本地数据源
直接上代码吧说下测试思路:该代码监控的/tmp/sparkStream/目录;首先,创建该目录mkdir-p/tmp/sparkStream;然后,运行spark程序;最后,向监控目录/tmp/sparkStream/添加数据文件;观察spark程序运行效果。sparkStreaming importorg.apache.log4j.{LoggerLevel} importorg.a..
分类:其他好文   时间:2015-05-31 18:46:23    阅读次数:148
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!