搜索关键字：spark streaming，搜索到7556个结果！码迷,mamicode.com！

spark 数据分析之数据清理

//清理格式不匹配的数据 //此代码可以实现自动滤除掉无法转化为double类型的数据 import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.j ...

分类：其他好文时间：2020-04-26 21:00:10 阅读次数：120

spark中的pair rdd，看这一篇就够了

本文始发于个人公众号： TechFlow ，原创不易，求个关注今天是spark专题的第四篇文章，我们一起来看下Pair RDD。定义在之前的文章当中，我们已经熟悉了RDD的相关概念，也了解了RDD基本的转化操作和行动操作。今天我们来看一下RDD当中非常常见的PairRDD，也叫做键值对RDD， ...

分类：其他好文时间：2020-04-26 20:51:45 阅读次数：83

spark_sql

1 package com.spark_sql 2 3 import java.util.Properties 4 import org.apache.spark.sql.{DataFrame, SparkSession} 5 6 object DataFromMysql { 7 def main( ...

分类：数据库时间：2020-04-26 18:43:28 阅读次数：81

每日一题为了工作 2020 0426 第五十五题

// hadoop+spark二次排序代码 package com.swust.hadoop; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spa ...

分类：其他好文时间：2020-04-26 16:43:00 阅读次数：64

4、flink自定义source、sink

一、Source 代码地址：https://gitee.com/nltxwz_xxd/abc_bigdata 1.1、flink内置数据源 1、基于文件 env.readTextFile("file://path") env.readFile(inputFormat, "file://path"); ...

分类：其他好文时间：2020-04-24 21:42:02 阅读次数：85

Spark中自定义累加器

通过继承AccumulatorV2可以实现自定义累加器。官方案例可参考:http://spark.apache.org/docs/latest/rdd-programming-guide.html#accumulators 下面是我自己写的一个统计卡种数量的案例。 package com.shua ...

分类：其他好文时间：2020-04-24 00:55:29 阅读次数：84

Spark实现tf-idf

scala代码： package offline import org.apache.spark.ml.feature.{HashingTF, IDF} import org.apache.spark.ml.linalg.Vectors import org.apache.spark.sql.Spa ...

分类：其他好文时间：2020-04-23 21:27:31 阅读次数：67

Spark SQL源码解析（二）Antlr4解析Sql并生成树

Spark SQL原理解析前言： "Spark SQL源码剖析（一）SQL解析框架Catalyst流程概述" 这一次要开始真正介绍Spark解析SQL的流程，首先是从Sql Parse阶段开始，简单点说，这个阶段就是使用Antlr4，将一条Sql语句解析成语法树。可能有童鞋没接触过antlr4这个 ...

分类：数据库时间：2020-04-23 20:59:04 阅读次数：93

Spark读取和使用Hive Permanent Function 原理

背景在Spark 1.* 版本中不支持Hive Perment Function的加载，使用起来不是很方便；在Spark 2.* 版本中通过HiveExternalCatalog 中的HiveClient 来直接和hive metaStore交互，轻松实现Hive Perment Function的 ...

分类：其他好文时间：2020-04-23 15:06:34 阅读次数：64

spark 数据分析

//练习sparkstreaming监听socket端口 //手写wordcount java代码 package com.swust.streaming; import org.apache.spark.SparkConf; import org.apache.spark.api.java.Jav ...

分类：其他好文时间：2020-04-23 11:49:08 阅读次数：59

共7556条上一页 1 ... 41 42 43 44 45 ... 756 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)