搜索关键字：scala bigdata 大數據 spark，搜索到10680个结果！码迷,mamicode.com！

spark 数据分析

//练习sparkstreaming监听socket端口 //手写wordcount java代码 package com.swust.streaming; import org.apache.spark.SparkConf; import org.apache.spark.api.java.Jav ...

分类：其他好文时间：2020-04-23 11:49:08 阅读次数：59

spark实现UserCF

spark实现UserCF package cf import breeze.numerics.{pow, sqrt} import org.apache.spark.sql.SparkSession object UserCF { def main(args: Array[String]): Un ...

分类：其他好文时间：2020-04-23 01:08:59 阅读次数：146

JSoup - abs:href 获取的绝对地址为空问题

Summary 在获取 a 标签中的 href 值得时候，发现可以获取到相对地址，但是使用 abs:href 的是返回结果是空的。查看文档发现，Jsoup.parse 的第二个参数可以传入 baseURL，我们在这里获取即可。 Demo Scala 代码 val urlList = Jsoup.p... ...

分类：Web程序时间：2020-04-22 20:19:26 阅读次数：310

scala集合-collection

参考：https://www.jianshu.com/p/69bff3c7ec97 Scala的集合类可以从三个维度进行切分：可变与不可变集合（Immutable and mutable collections）静态与延迟加载集合（Eager and delayed evaluation ) ...

分类：其他好文时间：2020-04-22 16:18:11 阅读次数：63

CDH| Spark升级

升级之Spark升级在CDH5.12.1集群中，默认安装的Spark是1.6版本，这里需要将其升级为Spark2.1版本。经查阅官方文档，发现Spark1.6和2.x是可以并行安装的，也就是说可以不用删除默认的1.6版本，可以直接安装2.x版本，它们各自用的端口也是不一样的。 Cloudera发布 ...

分类：其他好文时间：2020-04-22 13:33:45 阅读次数：98

spark写mysql

import java.sql.{DriverManager, PreparedStatement} import java.time.LocalDateTime import java.time.format.DateTimeFormatter import org.apache.spark.rd ...

分类：数据库时间：2020-04-22 10:24:45 阅读次数：83

spark读取mysql

import java.sql.DriverManager import java.time.{LocalDateTime, ZoneOffset} import org.apache.spark.rdd.JdbcRDD import org.apache.spark.{SparkConf, Spa ...

分类：数据库时间：2020-04-22 10:13:02 阅读次数：86

Spark RDD转DataFrame

import org.apache.spark.sql.{Row, SparkSession} import org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType} /** * RDD转DataFra ...

分类：其他好文时间：2020-04-22 10:11:22 阅读次数：67

Spark2.x读Hbase1-2.x

import org.apache.hadoop.hbase.HBaseConfiguration import org.apache.hadoop.hbase.mapreduce.TableInputFormat import org.apache.hadoop.hbase.util.Bytes ...

分类：其他好文时间：2020-04-22 09:16:07 阅读次数：55

spark streaming 读取kafka两种方式的区别

1】Receiver是使用高层次的consumer Api来实现的。 receiver 接收的消息都是存储在spark Executor中的，然后spark启动jobq去处理那些消息然而，默认情况下，这种方式会因为底层的失败丢失数据。如果要启用高可靠机制，让数据零丢失，就必须启用spark st ...

分类：其他好文时间：2020-04-20 11:59:44 阅读次数：64

共10680条上一页 1 ... 58 59 60 61 62 ... 1068 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)