Linux环境,安装Spark: 根据spark的下载地址进行下载 链接如下:http://spark.apache.org/downloads.html 安装总体按照林子雨老师的教程来,下面给出参考链接 http://dblab.xmu.edu.cn/blog/1307-2/ 解压安装完成后修改配 ...
分类:
其他好文 时间:
2020-02-01 23:41:23
阅读次数:
117
家里给报了个考研的直播课,上了六个小时的课,上的真的是七荤八素的。所以今天的进度不多。可能近几日的进度都不会很快,待我适应了直播课的摧残后再加快进度吧。今天主要就是spark的第一个实验,还好比较简单,今天脑子里全是英语。。。。linux的命令也是英语。。。 (1)切换到目录 /usr/bin; ( ...
分类:
其他好文 时间:
2020-02-01 23:35:02
阅读次数:
106
学习于林子雨《大数据技术原理与应用》教材配套大数据软件安装和编程实践指南 一. 安装spark 第一步,spark下载(http://spark.apache.org/downloads.html) 第二步,spark压缩包解压 sudo tar -zxf ~/下载/spark-1.6.2-bin- ...
分类:
其他好文 时间:
2020-02-01 23:24:39
阅读次数:
75
开始尝试sparkSQL的尝试编程。 SparkSQL总体来说就是spark中的hive,但麻烦的一点是spark官网下载的并不自带对hive的支持,所以不能使用外部的hive。之后解决。 首先创建了一个json文件用来创建DataFrame,内容为: { "id":1 , "name":" Ell ...
分类:
其他好文 时间:
2020-02-01 23:18:31
阅读次数:
97
分布式数据集 编辑 Spark围绕的核心概念,是弹性分布式数据集(RDD),一个有容错机制,可以被并行操作的集合。目前有两种类型的RDD: 并行集合(Parrallelized Collections),接收一个已经存在的Scala集合,在它上面运行各种并发计算; Hadoop数据集(Hadoop ...
分类:
其他好文 时间:
2020-02-01 23:17:16
阅读次数:
80
简单了解了spark,scala语言等,并尝试配置相关环境,安装Scala,spark和支持Scala语言的eclipse:scala ide for eclipse(安装scala ide for eclipse可以省下很多工夫去不用安装maven和scala类似的相关插件) Spark最初的设计 ...
分类:
其他好文 时间:
2020-02-01 23:13:34
阅读次数:
91
这是林子雨spark实验5的第三问:配置Spark通过JDBC连接数据库MySQL,编程实现利用DataFrame插入下列数据到MySQL, 最后打印出 age 的最大值和 age 的总和 下面贴出代码(测试过ok) 1 import java.util.Properties 2 import or ...
分类:
数据库 时间:
2020-02-01 23:00:21
阅读次数:
210
1. 计算级数 请用脚本的方式编程计算并输出下列级数的前 n 项之和 Sn,直到 Sn 刚好大于或等于 q 为止,其中 q 为大于 0 的整数,其值通过键盘输入。 例 如 , 若 q 的 值 为 50.0 , 则 输 出 应 为 : Sn=50.416695 。 请 将 源 文 件 保 存 为 ex ...
分类:
其他好文 时间:
2020-02-01 22:59:26
阅读次数:
132
SparkContext是编写Spark程序用到的第一个类,是Spark的主要入口点,用于连接Spark集群、创建RDD、累加器和广播变量,是Spark程序的根本。编写不同类型的Spark程序,使用的SparkContext是不同的Scala 使用SparkContextJava 使用JavaSpa ...
分类:
其他好文 时间:
2020-02-01 21:42:00
阅读次数:
73
实验 1 Linux 系统的安装和常用命令 (题目) 一、实验目的 (1)掌握 Linux 虚拟机的安装方法。Spark 和 Hadoop 等大数据软件在 Linux 操作系统 上运行可以发挥最佳性能,因此,本教程中,Spark 都是在 Linux 系统中进行相关操作,同 时,下一章的 Scala ...
分类:
系统相关 时间:
2020-02-01 19:42:06
阅读次数:
139