spark-shell --master=spark://namenode01:7077 --executor-memory 2g --driver-class-path /app/spark141/lib/mysql-connector-java-5.1.6-bin.jar hdfs dfs -p...
分类:
其他好文 时间:
2015-08-10 07:05:57
阅读次数:
166
【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送--Spark入门实战系列》获取1、编译Hadooop1.1搭建环境1.1.1安装并设置maven1.下载maven安装包,建议安装3.0以上版本,本次安装选择的是maven3.0.5的二进制包,下载地址如下http://mirror.b...
分类:
其他好文 时间:
2015-08-10 07:04:56
阅读次数:
98
介绍介绍 Ubuntu 下软件安装的几种方式,及 apt,dpkg 工具的使用。一、Linux 上的软件安装通常 Linux 上的软件安装主要有三种方式:在线安装从磁盘安装deb软件包从二进制软件包安装从源代码编译安装这几种安装方式各有优劣,而大多数软件包会采用多种方式发布软件,所以我们常常需要全部...
分类:
系统相关 时间:
2015-08-10 00:08:27
阅读次数:
149
代码:import org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport scala.math.randomobject SparkPi { def main(args:Array[String]){ val con...
分类:
其他好文 时间:
2015-08-09 18:23:33
阅读次数:
116
IDE:scala版的 Eclipsescala version:2.10.4spark:1.1.1文件内容:hello worldhello wordworld word hello1、新建scala工程2、引入spark的jar包3、代码import org.apache.spark.Spark...
分类:
其他好文 时间:
2015-08-09 17:06:46
阅读次数:
137
首先给出原文链接: 原文链接大数据本身是一个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你能够把它比作一个厨房所以须要的各种工具。锅碗瓢盆,各有各的用处。互相之间又有重合。你能够用汤锅直接当碗吃饭喝汤,你能够用小刀或者刨子去皮。可...
分类:
其他好文 时间:
2015-08-09 13:50:21
阅读次数:
163
本文转载自:http://shiyanjun.cn/archives/742.html我们首先提出这样一个简单的需求:现在要分析某网站的访问日志信息,统计来自不同IP的用户访问的次数,从而通过Geo信息来获得来访用户所在国家地区分布状况。这里我拿我网站的日志记录行示例,如下所示:121.205.19...
分类:
编程语言 时间:
2015-08-09 12:20:54
阅读次数:
313
原始链接:https://www.zybuluo.com/jewes/note/35032RDD是什么?A Resilient Distributed Dataset (RDD), the basic abstraction in Spark. Represents an immutable(不可改...