1 经典的算法题目 1.1 字符串匹配问题 有一个字符串str1="哈哈哈 你好啊好啊 你好啊啊 你好啊好啊啊你好你好好",和一个子串str2="你好啊好啊啊". ①判断str1中是否是否包含str2,如果存在,就返回第一次出现的问题。如果没有,则返回-1. ②要求用最快的速度完成匹配。 思路1:暴 ...
分类:
编程语言 时间:
2019-11-17 17:31:53
阅读次数:
108
2019年11月08日 数砖的 Xingbo Jiang 大佬给社区发了一封邮件,宣布 Apache Spark 3.0 预览版正式发布,这个版本主要是为了对即将发布的 Apache Spark 3.0 版本进行大规模社区测试。无论是从 API 还是从功能上来说,这个预览版都不是一个稳定的版本,它的 ...
分类:
Web程序 时间:
2019-11-17 12:48:33
阅读次数:
86
问题1: 抽象成员初始化规则 ① 父类先初始化 ② 在初始化的过程中,如果 val 发生重写,只有最后一个重写生效。前面的会变成零值,后面的会直接继承。 参考资料:https://docs.scala-lang.org/tutorials/FAQ/initialization-order.html ...
分类:
其他好文 时间:
2019-11-16 23:27:33
阅读次数:
96
写熟悉的第一句代码 val conf = new SparkConf().setAppName("WordCount")点击SparkConf() ,发现 private val settings = new ConcurrentHashMap[String, String]() 可见 所有配置都是 ...
分类:
其他好文 时间:
2019-11-15 22:48:59
阅读次数:
156
原文链接:https://blog.csdn.net/Lwj879525930/article/details/82559596 1.spark中的RDD是什么,有哪些特性? 答:RDD(Resilient Distributed Dataset)叫做分布式数据集,是spark中最基本的数据抽象,它 ...
分类:
其他好文 时间:
2019-11-15 22:41:39
阅读次数:
120
I、下载并且解压hive #下载hive wget http://apache.claz.org/hive/hive-2.3.6/apache-hive-2.3.6-bin.tar.gz #解压 tar zxf apache-hive-2.3.6-bin.tar.gz #移动到hadoop文件夹中 ...
分类:
其他好文 时间:
2019-11-15 22:29:48
阅读次数:
83
org.apache.flink flink-table-api-java-bridge_2.11 1.9.0 provided--> org.apache.flink flink-table-api-scala-bridge_2.11 1.9.0 pr... ...
分类:
编程语言 时间:
2019-11-15 20:19:36
阅读次数:
123
Operator Chains(操作链) Flink出于分布式执行的目的,将operator的subtask链接在一起形成task(类似spark中的管道)。 每个task在一个线程中执行。 将operators链接成task是非常有效的优化:它可以减少线程与线程间的切换和数据缓冲的开销,并在降低延 ...
分类:
其他好文 时间:
2019-11-13 22:27:32
阅读次数:
504
1. 事件时间和水印诞生的背景 在实际的流式计算中数据到来的顺序对计算结果的正确性有至关重要的影响 比如:某数据源中的某些数据由于某种原因(如:网络原因,外部存储自身原因)会有2秒的延时,也就是在实际时间的第1秒产生的数据有可能在第3秒中产生的数据之后到来。 假设在一个5秒的滚动窗口中,有一个Eve ...
分类:
其他好文 时间:
2019-11-13 14:44:46
阅读次数:
94
https://blog.csdn.net/u013019431/article/details/80776662 在jupyter notebook import pysparkhttps://www.douban.com/note/504421303/ 如何初始化 https://blog.cs ...
分类:
其他好文 时间:
2019-11-13 14:41:33
阅读次数:
85