今天本来想把昨天安装的intellij配置好,但是一直显示没有网络,网上查了相关资料也没有查出来解决办法。 然后暂停了intellij的配置,开始做了几个Python爬取简单数据的实例,先做了几个最简单的,以后再加大难度(用idle编码): (1)京东商品页面爬取: 链接:https://item. ...
分类:
编程语言 时间:
2020-02-07 01:02:38
阅读次数:
79
在Scala 中有两种弱变量 val 和 var 他们最主要的区别就是 val不能再赋值,var可以在生命周期中被多次赋值。 val: 1 scala> val msg=”Hello,world!”; 2 msg: java.lang.String = Hello,world! 3 scala> m ...
分类:
其他好文 时间:
2020-02-06 23:31:42
阅读次数:
104
今天主要学习了spark实验四的内容,实验四主要为RDD编程,本实验的重点为两个编程题 1.编写独立应用程序实现数据去重对于两个输入文件 A 和 B,编写 Spark 独立应用程序,对两个文件进行合并,并剔除其中重复的内容,得到一个新文件 C。下面是输入文件和输出文件的一个样例,供参考。输入文件 A ...
分类:
其他好文 时间:
2020-02-06 23:17:43
阅读次数:
168
1.该系总共有多少学生 val lines = sc.textFile("file:///usr/local/spark/sparksqldata/Data01.txt") val par = lines.map(row=>row.split(",")(0)) val distinct_par = ...
分类:
系统相关 时间:
2020-02-06 22:44:07
阅读次数:
106
Flume 官网下载 Flume1.7.0 安装文件,下载地址如下: http://www.apache.org/dyn/closer.lua/flume/1.7.0/apache-flume-1.7.0-bin.tar.gz 下载后,把 Flume1.7.0 安装到 Linux 系统的“/usr/ ...
分类:
其他好文 时间:
2020-02-06 20:19:45
阅读次数:
95
今天完成了实验任务四-RDD编程初级实践,先在网上查了一下资料。 Spark大数据处理的核心是RDD,RDD的全称为弹性分布式数据集,对数据的操作主要涉及RDD的创建、转换以及行动等操作,在Spark系列(二)中主要介绍了RDD根据SparkContext的textFile创建RDD的方法,本小节将 ...
分类:
其他好文 时间:
2020-02-06 14:52:42
阅读次数:
65
今天主要进行了spark实验六的学习,Spark Streaming 编程初级实践 Flume 是非常流行的日志采集系统,可以作为 Spark Streaming 的高级数据源。请把 Flume Source 设置为 netcat 类型,从终端上不断给 Flume Source 发送各种消息,Flu ...
分类:
其他好文 时间:
2020-02-06 14:42:22
阅读次数:
107
环境搭建 big data env setup 读写ES spark 怎么读写 elasticsearch Spark 上time series 处理 Flint by Two Sigma ...
分类:
其他好文 时间:
2020-02-06 14:39:30
阅读次数:
66
Apache Spark 是一个快速的、多用途的集群计算系统。在 Java,Scala,Python 和 R 语言以及一个支持常见的图计算的经过优化的引擎中提供了高级 API。它还支持一组丰富的高级工具,包括用于 SQL 和结构化数据处理的 Spark SQL,用于机器学习的 MLlib,用于图形处... ...
分类:
其他好文 时间:
2020-02-06 12:48:11
阅读次数:
76
Spark on K8S环境部署细节sparkk8stime: 2020-1-3Spark on K8S环境部署细节Spark operator安装准备kubectl客户端和Helm客户端安装spark operatorSpark wordcount 读写OSS准备oss依赖的jar包准备core-... ...
分类:
其他好文 时间:
2020-02-06 10:58:31
阅读次数:
136