搜索关键字：scala bigdata 大數據 spark，搜索到10680个结果！码迷,mamicode.com！

真香！PySpark整合Apache Hudi实战

1. 准备 Hudi支持Spark 2.x版本，你可以点击如下 "链接" 安装Spark，并使用pyspark启动 spark avro模块需要在 packages显示指定 spark avro和spark的版本必须匹配本示例中，由于依赖spark avro_2.11，因此使用的是scala2.1 ...

分类：Web程序时间：2020-05-10 17:37:32 阅读次数：124

Spark读取Mysql，Redis，Hbase数据（一）

1、读取Mysql数据 object JdbcRddDemo { def getConn() = { Class.forName("com.mysql.jdbc.Driver").newInstance() DriverManager.getConnection("jdbc:mysql://hado ...

分类：数据库时间：2020-05-10 17:31:37 阅读次数：97

elasticsearch Web管理工具之cerebro安装与配置

Cerebro简介cerebro是使用Scala，PlayFramework，AngularJS和Bootstrap构建的开源（MIT许可）elasticsearchWeb管理工具。前提条件cerebro需要Java1.8或更高版本才能运行。环境本文基于elasticsearchv7.6.1集群环境进行操作，详情参看Elasticsearch集群安装与配置，Cerebro版本为v0.8.5，下载地

分类：Web程序时间：2020-05-10 01:20:14 阅读次数：113

Spark 与 JDBC、Hbase之间的交互

JDBC 以MySQL为例读取 import java.sql.DriverManager import org.apache.spark.rdd.JdbcRDD import org.apache.spark.{SparkConf, SparkContext} /** * Author atgu ...

分类：数据库时间：2020-05-09 23:21:09 阅读次数：86

spark利用sparkSQL将数据写入hive两种通用方式实现及比较

1.写在前面在利用spark计算引擎将kafka或其他源数据组件的数据入hive形成数仓的过程中有两种方式，一种方式是利用spark Rdd的API将数据写入hdfs形成hdfs文件，之后再将文件和hdfs文件和hive表做加载映射。第二种方式是利用sparkSQL将获取的数据Rdd转换成data ...

分类：数据库时间：2020-05-09 19:20:15 阅读次数：100

使用apache livy导致的结果集不一致问题记录

spark sql使用自己封装的livy 引擎执行时有丢失数据情况。排查发现livy session页面中的sql有中文乱码。之后在livy 源码中未找到相关序列化指定字符集的代码。回头排查自己的代码修改完毕后重新执行观察livy session中的sql。果然乱码没了,执行结果集跟spar ...

分类：Web程序时间：2020-05-09 16:39:29 阅读次数：91

Spark案例练习-UV的统计

关注公众号：分享电脑学习回复"百度云盘" 可以免费获取所有学习文档的代码（不定期更新）云盘目录说明：tools目录是安装包res 目录是每一个课件对应的代码和资源等doc 目录是一些第三方的文档工具承接上一篇文档《Spark案例练习-PV的统计》参数说明：继续上面的PV代码编写即可思路：UV ...

分类：其他好文时间：2020-05-09 01:15:58 阅读次数：65

每日一题为了工作 2020 0508 第六十六题

package spark.action.factory; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.sql ...

分类：其他好文时间：2020-05-08 21:18:36 阅读次数：120

spark常用操作(二)

//spark读取数据 Dataset<Row> df = spark.read().textFile(currentSrcPath, 1); Dataset<Row> df = spark.read().json(path); Dataset<Row> df = spark.read().orc( ...

分类：其他好文时间：2020-05-08 18:23:41 阅读次数：85

Spark中rdd分区数量的决定因素

1、参数配置(并行度)分区的默认个数等于对spark.default.parallelism的指定值2、根据父rdd的reduceTask数量3、读取hdfs的文件生成的rddrdd分区的数量等于hdfs的文件的block4、sparkStreaming生成的rdd根据block interval， ...

分类：其他好文时间：2020-05-08 16:12:24 阅读次数：129

共10680条上一页 1 ... 52 53 54 55 56 ... 1068 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)