码迷,mamicode.com
首页 >  
搜索关键字:spark rdd    ( 7287个结果
每日一题 为了工作 2020 0426 第五十五题
// hadoop+spark二次排序代码 package com.swust.hadoop; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spa ...
分类:其他好文   时间:2020-04-26 16:43:00    阅读次数:64
4、flink自定义source、sink
一、Source 代码地址:https://gitee.com/nltxwz_xxd/abc_bigdata 1.1、flink内置数据源 1、基于文件 env.readTextFile("file://path") env.readFile(inputFormat, "file://path"); ...
分类:其他好文   时间:2020-04-24 21:42:02    阅读次数:85
RDD中WithScope
withScope是最近的发现版中新增加的一个模块,它是用来做DAG可视化的(DAG visualization on SparkUI) 以前的sparkUI中只有stage的执行情况,也就是说我们不可以看到上个RDD到下个RDD的具体信息。于是为了在 sparkUI中能展示更多的信息。所以把所有创 ...
分类:其他好文   时间:2020-04-24 01:04:51    阅读次数:81
Spark中自定义累加器
通过继承AccumulatorV2可以实现自定义累加器。 官方案例可参考:http://spark.apache.org/docs/latest/rdd-programming-guide.html#accumulators 下面是我自己写的一个统计卡种数量的案例。 package com.shua ...
分类:其他好文   时间:2020-04-24 00:55:29    阅读次数:84
Spark实现tf-idf
scala代码: package offline import org.apache.spark.ml.feature.{HashingTF, IDF} import org.apache.spark.ml.linalg.Vectors import org.apache.spark.sql.Spa ...
分类:其他好文   时间:2020-04-23 21:27:31    阅读次数:67
Spark SQL源码解析(二)Antlr4解析Sql并生成树
Spark SQL原理解析前言: "Spark SQL源码剖析(一)SQL解析框架Catalyst流程概述" 这一次要开始真正介绍Spark解析SQL的流程,首先是从Sql Parse阶段开始,简单点说,这个阶段就是使用Antlr4,将一条Sql语句解析成语法树。 可能有童鞋没接触过antlr4这个 ...
分类:数据库   时间:2020-04-23 20:59:04    阅读次数:93
Spark读取和使用Hive Permanent Function 原理
背景在Spark 1.* 版本中不支持Hive Perment Function的加载,使用起来不是很方便;在Spark 2.* 版本中通过HiveExternalCatalog 中的HiveClient 来直接和hive metaStore交互,轻松实现Hive Perment Function的 ...
分类:其他好文   时间:2020-04-23 15:06:34    阅读次数:64
spark 数据分析
//练习sparkstreaming监听socket端口 //手写wordcount java代码 package com.swust.streaming; import org.apache.spark.SparkConf; import org.apache.spark.api.java.Jav ...
分类:其他好文   时间:2020-04-23 11:49:08    阅读次数:59
spark实现UserCF
spark实现UserCF package cf import breeze.numerics.{pow, sqrt} import org.apache.spark.sql.SparkSession object UserCF { def main(args: Array[String]): Un ...
分类:其他好文   时间:2020-04-23 01:08:59    阅读次数:146
CDH| Spark升级
升级之Spark升级 在CDH5.12.1集群中,默认安装的Spark是1.6版本,这里需要将其升级为Spark2.1版本。经查阅官方文档,发现Spark1.6和2.x是可以并行安装的,也就是说可以不用删除默认的1.6版本,可以直接安装2.x版本,它们各自用的端口也是不一样的。 Cloudera发布 ...
分类:其他好文   时间:2020-04-22 13:33:45    阅读次数:98
7287条   上一页 1 ... 42 43 44 45 46 ... 729 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!