今天编写了对一个网页中的内容进行爬取的Java程序,学习到了一些关于htmlunit爬取有ajax响应的网页中的内容。 同时,对于linux中的spark的环境和scala环境进行了简单的搭建。 具体的搭建博客网址在:https://www.cnblogs.com/halone/p/12238524 ...
分类:
其他好文 时间:
2020-02-02 00:56:09
阅读次数:
93
分布式数据集 编辑 Spark围绕的核心概念,是弹性分布式数据集(RDD),一个有容错机制,可以被并行操作的集合。目前有两种类型的RDD: 并行集合(Parrallelized Collections),接收一个已经存在的Scala集合,在它上面运行各种并发计算; Hadoop数据集(Hadoop ...
分类:
其他好文 时间:
2020-02-01 23:17:16
阅读次数:
80
简单了解了spark,scala语言等,并尝试配置相关环境,安装Scala,spark和支持Scala语言的eclipse:scala ide for eclipse(安装scala ide for eclipse可以省下很多工夫去不用安装maven和scala类似的相关插件) Spark最初的设计 ...
分类:
其他好文 时间:
2020-02-01 23:13:34
阅读次数:
91
SparkContext是编写Spark程序用到的第一个类,是Spark的主要入口点,用于连接Spark集群、创建RDD、累加器和广播变量,是Spark程序的根本。编写不同类型的Spark程序,使用的SparkContext是不同的Scala 使用SparkContextJava 使用JavaSpa ...
分类:
其他好文 时间:
2020-02-01 21:42:00
阅读次数:
73
今天继续学习了scala的相关知识。 经过一下午的时间,把windows中eclipse的maven和scala插件成功安装上了,但是Linux中的eclipse却安装不上,经过查询,初步判断是eclipse的版本太低,导致maven插件安装失败。于是对Linux中的eclipse进行了更新,但一下 ...
分类:
其他好文 时间:
2020-02-01 21:22:40
阅读次数:
70
一、Scala概述 Scala是一门多范式编程语言,集成了面向对象编程和函数式编程等多种特性。 scala运行在虚拟机上,并兼容现有的Java程序。 Scala源代码被编译成java字节码,所以运行在JVM上,并可以调用现有的Java类库。 二、基本语法 1.区分大小写 2.类名首字母大写(MyFi ...
分类:
其他好文 时间:
2020-02-01 21:15:01
阅读次数:
66
本文将介绍以下内容:Windows下安装scala运行环境,安装编译工具并简单配置,实现著名的“Hello,World"。 一,Windows下安装scala运行环境 1.配置jdk,因为scala的运行需要依靠jvm虚拟机,所以在使用scala时需要有java环境 2.官网下载scala包,点击这 ...
分类:
其他好文 时间:
2020-02-01 21:02:18
阅读次数:
77
实验 1 Linux 系统的安装和常用命令 (题目) 一、实验目的 (1)掌握 Linux 虚拟机的安装方法。Spark 和 Hadoop 等大数据软件在 Linux 操作系统 上运行可以发挥最佳性能,因此,本教程中,Spark 都是在 Linux 系统中进行相关操作,同 时,下一章的 Scala ...
分类:
系统相关 时间:
2020-02-01 19:42:06
阅读次数:
139
定义数组array: //创建数组var arr1=Array(1,2,3)//初始化赋值数组var arr2=New Array[Int](3)//初始化指定元素为Int,长度为3不可变//遍历数组for(i<-arr1.indices)print(i)//i表示从1到arr1的长度为止的数字序列 ...
分类:
编程语言 时间:
2020-02-01 19:40:36
阅读次数:
86
今天往虚拟机上安装了Scala和spark,下面说一下安装的一些过程和遇到的一些问题。 首先,根据网上的Hadoop3.2+Scala2.12.1+Spark2.3.3环境搭建教程:https://www.jianshu.com/p/82ad3e15545a 了解基本安装流程,由于之前已经安装好了v ...
分类:
其他好文 时间:
2020-02-01 19:29:59
阅读次数:
59