1.scala中定义在object中的变量,方法都是静态的,object叫对象,相当于java中的单例对象。object不可以传参,Trait也不可传参。2.scala 中一行代码后可以写“;”也可以不写,会有分号推断机制。多行代码写在一行要用分号隔开。3.定义变量用var,定义常量用val , a ...
分类:
其他好文 时间:
2020-04-24 17:27:02
阅读次数:
84
一、流 动态产生无穷多的数据,末尾元素遵循lazy规则 object StreamDemo { //生成流的方法 def numStream(n: BigInt): Stream[BigInt] = n #:: numStream(n + 1) def main(args: Array[String ...
分类:
其他好文 时间:
2020-04-23 11:50:31
阅读次数:
68
一.主题式网络主题式网络爬虫设计方案 1.爬虫名称:爬取电影 Top 500 数据 2.爬取内容:爬取电影排名,评分,介绍 3.网络爬虫设计方案概述: 思路:通过分析网页源代码,找出数据所在的标签,通过爬虫读取数据保存到csv文件中,读取文件,对数据进行清洗和处理,数据分析与可视化处理。 技术难点: ...
分类:
其他好文 时间:
2020-04-22 22:49:46
阅读次数:
79
Summary 在获取 a 标签中的 href 值得时候,发现可以获取到相对地址,但是使用 abs:href 的是返回结果是空的。 查看文档发现,Jsoup.parse 的第二个参数可以传入 baseURL,我们在这里获取即可。 Demo Scala 代码 val urlList = Jsoup.p... ...
分类:
Web程序 时间:
2020-04-22 20:19:26
阅读次数:
310
参考:https://www.jianshu.com/p/69bff3c7ec97 Scala的集合类可以从三个维度进行切分: 可变与不可变集合(Immutable and mutable collections) 静态与延迟加载集合 (Eager and delayed evaluation ) ...
分类:
其他好文 时间:
2020-04-22 16:18:11
阅读次数:
63
pandas.read_csv() 报错 OSError: Initializing from file failed,一般由两种情况引起:一种是函数参数为路径而非文件名称,另一种是函数参数带有中文。 对于第一种情况很简单,原因就是没有把文件名称放到路径的后面,把文件名称添加到路径后面就可以了。还可 ...
分类:
其他好文 时间:
2020-04-22 13:38:52
阅读次数:
65
[toc] 1. JSON.parse() JSON.parser() 是JSON 格式的一个函数, 它用于将object 数据类型转换成为JSON 数据类型, 这里我们来自己实现一下JSON.parser() 函数. 2. 前置知识 2.1 JSON格式中的数据类型 JSON 格式中, 可以将需要 ...
分类:
Web程序 时间:
2020-04-22 09:57:22
阅读次数:
114
一、前言 scrapy的命令分为全局命令和项目命令。顾名思义,全局命令是不管什么时候都能使用,项目命令只能用于具体已存在的项目上。 二、全局命令 startproject(创建爬虫项目,一个项目下有一个或多个爬虫 -- scrapy startproject project_name [projec ...
分类:
其他好文 时间:
2020-04-20 23:25:33
阅读次数:
73
一. Spark简介 1.1 前言 Apache Spark是一个计算系统,它的处理速度很快,很通用,并且能集群部署。可以通过Scala,Java,Python和R来操作API。它还提供了了一些高级工具,比如Spark SQL(通过SQL操作),MLlib(机器学习用的),Graphx(图形化操作用 ...
分类:
其他好文 时间:
2020-04-20 11:44:10
阅读次数:
80
package com.atguigu.bigdata.spark import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object WordCount { def main(args: ...
分类:
其他好文 时间:
2020-04-19 18:04:25
阅读次数:
66