搜索关键字：scala bigdata 大數據 spark，搜索到10680个结果！码迷,mamicode.com！

每日一题为了工作 2020 0426 第五十五题

// hadoop+spark二次排序代码 package com.swust.hadoop; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spa ...

分类：其他好文时间：2020-04-26 16:43:00 阅读次数：64

地图获取坐标腾讯地图批量转坐标

腾讯地图批量转坐标-demo <!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <meta name="viewport" content="widt ...

分类：其他好文时间：2020-04-26 13:44:21 阅读次数：165

4、flink自定义source、sink

一、Source 代码地址：https://gitee.com/nltxwz_xxd/abc_bigdata 1.1、flink内置数据源 1、基于文件 env.readTextFile("file://path") env.readFile(inputFormat, "file://path"); ...

分类：其他好文时间：2020-04-24 21:42:02 阅读次数：85

scala中的类和对象

1.scala中定义在object中的变量，方法都是静态的,object叫对象，相当于java中的单例对象。object不可以传参,Trait也不可传参。2.scala 中一行代码后可以写“;”也可以不写，会有分号推断机制。多行代码写在一行要用分号隔开。3.定义变量用var,定义常量用val ， a ...

分类：其他好文时间：2020-04-24 17:27:02 阅读次数：84

Spark中自定义累加器

通过继承AccumulatorV2可以实现自定义累加器。官方案例可参考:http://spark.apache.org/docs/latest/rdd-programming-guide.html#accumulators 下面是我自己写的一个统计卡种数量的案例。 package com.shua ...

分类：其他好文时间：2020-04-24 00:55:29 阅读次数：84

Spark实现tf-idf

scala代码： package offline import org.apache.spark.ml.feature.{HashingTF, IDF} import org.apache.spark.ml.linalg.Vectors import org.apache.spark.sql.Spa ...

分类：其他好文时间：2020-04-23 21:27:31 阅读次数：67

Spark SQL源码解析（二）Antlr4解析Sql并生成树

Spark SQL原理解析前言： "Spark SQL源码剖析（一）SQL解析框架Catalyst流程概述" 这一次要开始真正介绍Spark解析SQL的流程，首先是从Sql Parse阶段开始，简单点说，这个阶段就是使用Antlr4，将一条Sql语句解析成语法树。可能有童鞋没接触过antlr4这个 ...

分类：数据库时间：2020-04-23 20:59:04 阅读次数：93

Windows 上运行 Hadoop WordCount 用例

1. 下载wordcount jar 文件下载文件夹放置你的目录： https://github.com/yjy24/bigdata_learning/blob/master/hadoopMapRedSimple.zip 2. 启动 hadoop 管理员身份运行window cmd：启动 Had ...

分类：Windows程序时间：2020-04-23 20:54:03 阅读次数：262

Spark读取和使用Hive Permanent Function 原理

背景在Spark 1.* 版本中不支持Hive Perment Function的加载，使用起来不是很方便；在Spark 2.* 版本中通过HiveExternalCatalog 中的HiveClient 来直接和hive metaStore交互，轻松实现Hive Perment Function的 ...

分类：其他好文时间：2020-04-23 15:06:34 阅读次数：64

Scala lazy的应用，流Stream和视图View

一、流动态产生无穷多的数据，末尾元素遵循lazy规则 object StreamDemo { //生成流的方法 def numStream(n: BigInt): Stream[BigInt] = n #:: numStream(n + 1) def main(args: Array[String ...

分类：其他好文时间：2020-04-23 11:50:31 阅读次数：68

共10680条上一页 1 ... 57 58 59 60 61 ... 1068 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)