搜索关键字：openfire spark，搜索到7382个结果！码迷,mamicode.com！

JDBC的ResultSet游标转spark的DataFrame，数据类型的映射以TeraData数据库为例

使用场景: 在一些情况下，我们需要保持一个与数据库连接的connection，在没有写物理表权限或者没有必要写物理表时的现实场景用临时表替代物理表进行操作，临时表很多是基于Session的，Seesion间不能相互访问，断开后临时表自动清空，而spark自带的，read.format("jdbc")... ...

分类：数据库时间：2019-11-06 10:23:44 阅读次数：277

流数据

特征：持续到达，数据量大，注重数据整体价值，数据顺序可能颠倒，丢失，实时计算，海量，分布，实时，快速部署，可靠 linked in Kafka spark streaming：微小批处理，模拟流计算，秒级响应 DStream 一系列RDD 的集合支持批处理创建文件流 10代表每10s启动一次 ...

分类：其他好文时间：2019-11-05 18:49:38 阅读次数：98

spark过滤算子+StringIndexer算子出发的一个逻辑bug

问题描述：在一段spark机器学习的程序中，同时用到了Filter算子和StringIndexer算子，其中StringIndexer在前，filter在后，并且filter是对stringindexer的输出列设置了过滤条件，filter算子之后将数据集灌到随机森林中（试过决策树分类和逻辑回归同 ...

分类：其他好文时间：2019-11-05 13:16:49 阅读次数：96

Spark-GraphX入门

//1.准备环境val conf: SparkConf = new SparkConf().setAppName("_01SparkGraphx").setMaster("local[*]")val sc: SparkContext = new SparkContext(conf)sc.setLog ...

分类：其他好文时间：2019-11-05 01:14:53 阅读次数：102

spark的task调度器(FAIR公平调度算法)

private[spark] class FairSchedulingAlgorithm extends SchedulingAlgorithm { override def comparator(s1: Schedulable, s2: Schedulable): Boolean = { val ... ...

分类：编程语言时间：2019-11-04 15:39:14 阅读次数：90

一、hive基本原理和使用

一、概述1、什么是hive?由Facebook开源用于解决海量结构化日志的数据统计。是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。本质上其实就是将HQL/SQL转化为MapReduce或者spark任务执行，然后返回结果。有以下几个本质：1）Hive处理的数据存储在HDFS。默认在在/user/hive/warehouse/<databas

分类：其他好文时间：2019-11-03 14:40:54 阅读次数：85

Spark Streaming整合Flume

1 目的 Spark Streaming整合Flume。参考官方整合文档（http://spark.apache.org/docs/2.2.0/streaming-flume-integration.html） 2 整合方式一：基于推 2.1 基本要求 flume和spark一个work节点要在同一 ...

分类：Web程序时间：2019-11-02 12:16:54 阅读次数：119

Spark框架：Win10系统下搭建Scala开发环境

一、Scala环境基础Scala对Java相关的类，接口进行了包装，所以依赖Jvm环境。Jdk1.8scala依赖scala2.11安装版本idea2017.3开发工具二、配置Scala解压版1）注意路径无空格和中文2）配置环境变量添加到path目录%SCALA_HOME%\bin3）检测是否安装配置成功，没错就是这么简单。三、配置Idea开发1）插件安装，就是点点点2）新建两个maven项目在s

分类：Windows程序时间：2019-11-02 10:04:16 阅读次数：128

大数据-spark

Spark是用于大规模数据处理的快速通用的计算引擎。相较MR快的原因：其任务中间结果存在内存中，在迭代运算中尤为明显，DAG的设置。架构说明： Dirver：负责节点通讯，task分发，结果回收 Worker：资源管理的从节点 Master：资源调度的主节点 Dirver：负责节点通讯，task ...

分类：其他好文时间：2019-11-01 10:00:23 阅读次数：98

大数据-sparkSQL

SparkSQL采用Spark on Hive模式，hive只负责数据存储，Spark负责对sql命令解析执行。 SparkSQL基于Dataset实现，Dataset是一个分布式数据容器，Dataset中同时存储原始数据和元数据(schema) ...

分类：数据库时间：2019-11-01 09:24:31 阅读次数：82

共7382条上一页 1 ... 87 88 89 90 91 ... 739 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)