//练习sparkstreaming监听socket端口 //手写wordcount java代码 package com.swust.streaming; import org.apache.spark.SparkConf; import org.apache.spark.api.java.Jav ...
分类:
其他好文 时间:
2020-04-23 11:49:08
阅读次数:
59
spark实现UserCF package cf import breeze.numerics.{pow, sqrt} import org.apache.spark.sql.SparkSession object UserCF { def main(args: Array[String]): Un ...
分类:
其他好文 时间:
2020-04-23 01:08:59
阅读次数:
146
Summary 在获取 a 标签中的 href 值得时候,发现可以获取到相对地址,但是使用 abs:href 的是返回结果是空的。 查看文档发现,Jsoup.parse 的第二个参数可以传入 baseURL,我们在这里获取即可。 Demo Scala 代码 val urlList = Jsoup.p... ...
分类:
Web程序 时间:
2020-04-22 20:19:26
阅读次数:
310
参考:https://www.jianshu.com/p/69bff3c7ec97 Scala的集合类可以从三个维度进行切分: 可变与不可变集合(Immutable and mutable collections) 静态与延迟加载集合 (Eager and delayed evaluation ) ...
分类:
其他好文 时间:
2020-04-22 16:18:11
阅读次数:
63
升级之Spark升级 在CDH5.12.1集群中,默认安装的Spark是1.6版本,这里需要将其升级为Spark2.1版本。经查阅官方文档,发现Spark1.6和2.x是可以并行安装的,也就是说可以不用删除默认的1.6版本,可以直接安装2.x版本,它们各自用的端口也是不一样的。 Cloudera发布 ...
分类:
其他好文 时间:
2020-04-22 13:33:45
阅读次数:
98
import java.sql.{DriverManager, PreparedStatement} import java.time.LocalDateTime import java.time.format.DateTimeFormatter import org.apache.spark.rd ...
分类:
数据库 时间:
2020-04-22 10:24:45
阅读次数:
83
import java.sql.DriverManager import java.time.{LocalDateTime, ZoneOffset} import org.apache.spark.rdd.JdbcRDD import org.apache.spark.{SparkConf, Spa ...
分类:
数据库 时间:
2020-04-22 10:13:02
阅读次数:
86
import org.apache.spark.sql.{Row, SparkSession} import org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType} /** * RDD转DataFra ...
分类:
其他好文 时间:
2020-04-22 10:11:22
阅读次数:
67
import org.apache.hadoop.hbase.HBaseConfiguration import org.apache.hadoop.hbase.mapreduce.TableInputFormat import org.apache.hadoop.hbase.util.Bytes ...
分类:
其他好文 时间:
2020-04-22 09:16:07
阅读次数:
55
1】Receiver是使用高层次的consumer Api来实现的。 receiver 接收的消息都是存储在spark Executor中的,然后spark启动jobq去处理那些消息 然而,默认情况下,这种方式会因为底层的失败丢失数据。 如果要启用高可靠机制,让数据零丢失,就必须启用spark st ...
分类:
其他好文 时间:
2020-04-20 11:59:44
阅读次数:
64