今天编写了对一个网页中的内容进行爬取的Java程序,学习到了一些关于htmlunit爬取有ajax响应的网页中的内容。 同时,对于linux中的spark的环境和scala环境进行了简单的搭建。 具体的搭建博客网址在:https://www.cnblogs.com/halone/p/12238524 ...
分类:
其他好文 时间:
2020-02-02 00:56:09
阅读次数:
93
Spark SQL可以使用JDBC/ODBC或命令行接口充当分布式查询引擎。这种模式,用户或者应用程序可以直接与Spark SQL交互,以运行SQL查询,无需编写任何代码。Spark SQL提供两种方式来运行SQL:通过运行Thrift Server直接执行Spark SQL命令行运行Thrift ... ...
分类:
数据库 时间:
2020-02-01 23:43:35
阅读次数:
126
Linux环境,安装Spark: 根据spark的下载地址进行下载 链接如下:http://spark.apache.org/downloads.html 安装总体按照林子雨老师的教程来,下面给出参考链接 http://dblab.xmu.edu.cn/blog/1307-2/ 解压安装完成后修改配 ...
分类:
其他好文 时间:
2020-02-01 23:41:23
阅读次数:
117
家里给报了个考研的直播课,上了六个小时的课,上的真的是七荤八素的。所以今天的进度不多。可能近几日的进度都不会很快,待我适应了直播课的摧残后再加快进度吧。今天主要就是spark的第一个实验,还好比较简单,今天脑子里全是英语。。。。linux的命令也是英语。。。 (1)切换到目录 /usr/bin; ( ...
分类:
其他好文 时间:
2020-02-01 23:35:02
阅读次数:
106
学习于林子雨《大数据技术原理与应用》教材配套大数据软件安装和编程实践指南 一. 安装spark 第一步,spark下载(http://spark.apache.org/downloads.html) 第二步,spark压缩包解压 sudo tar -zxf ~/下载/spark-1.6.2-bin- ...
分类:
其他好文 时间:
2020-02-01 23:24:39
阅读次数:
75
开始尝试sparkSQL的尝试编程。 SparkSQL总体来说就是spark中的hive,但麻烦的一点是spark官网下载的并不自带对hive的支持,所以不能使用外部的hive。之后解决。 首先创建了一个json文件用来创建DataFrame,内容为: { "id":1 , "name":" Ell ...
分类:
其他好文 时间:
2020-02-01 23:18:31
阅读次数:
97
分布式数据集 编辑 Spark围绕的核心概念,是弹性分布式数据集(RDD),一个有容错机制,可以被并行操作的集合。目前有两种类型的RDD: 并行集合(Parrallelized Collections),接收一个已经存在的Scala集合,在它上面运行各种并发计算; Hadoop数据集(Hadoop ...
分类:
其他好文 时间:
2020-02-01 23:17:16
阅读次数:
80
简单了解了spark,scala语言等,并尝试配置相关环境,安装Scala,spark和支持Scala语言的eclipse:scala ide for eclipse(安装scala ide for eclipse可以省下很多工夫去不用安装maven和scala类似的相关插件) Spark最初的设计 ...
分类:
其他好文 时间:
2020-02-01 23:13:34
阅读次数:
91
这是林子雨spark实验5的第三问:配置Spark通过JDBC连接数据库MySQL,编程实现利用DataFrame插入下列数据到MySQL, 最后打印出 age 的最大值和 age 的总和 下面贴出代码(测试过ok) 1 import java.util.Properties 2 import or ...
分类:
数据库 时间:
2020-02-01 23:00:21
阅读次数:
210
1. 计算级数 请用脚本的方式编程计算并输出下列级数的前 n 项之和 Sn,直到 Sn 刚好大于或等于 q 为止,其中 q 为大于 0 的整数,其值通过键盘输入。 例 如 , 若 q 的 值 为 50.0 , 则 输 出 应 为 : Sn=50.416695 。 请 将 源 文 件 保 存 为 ex ...
分类:
其他好文 时间:
2020-02-01 22:59:26
阅读次数:
132