1、Spark是什么 Spark是一个高性能内存处理引擎,它提供了基于RDD的数据抽象,能够灵活处理分布式数据集 2、Spark核心概念 RDD:弹性分布式数据集,它是一个只读的、带分区的数据集合,并支持多种分布式算子。由下面5部分构成: 一组partition 每个partition的计算函数 所 ...
分类:
其他好文 时间:
2020-07-06 19:30:48
阅读次数:
57
欢迎关注 CSDN:程序员小羊 微信公众号:程序员小羊 不知不觉都2020年7月了,小羊同学从毕业快开始都一直从事java开发这个行业,前两天开通了头条号,想借此发文分享一下这几年的经历吧,如果你是还没毕业的大学生或者刚入行不久,也许会对你有帮助。 1:多问,尤其是应届生,在这个阶段会遇到的问题很多 ...
分类:
编程语言 时间:
2020-07-06 18:06:41
阅读次数:
52
RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个可分区,不可变,里面的元素可并行计算的结合。RDD具有自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显示地将工作集换存在内存中,后续的查询能够重用工作集 ...
分类:
其他好文 时间:
2020-07-06 16:20:23
阅读次数:
61
Spark 分组取Top N运算 大数据处理中,对数据分组后,取TopN是非常常见的运算。 下面我们以一个例子来展示spark如何进行分组取Top的运算。 1、RDD方法分组取TopN from pyspark import SparkContext sc = SparkContext() 准备数据 ...
分类:
其他好文 时间:
2020-07-06 16:11:05
阅读次数:
78
Hadoop的整体框架 Hadoop由HDFS、MapReduce、HBase、Hive和ZooKeeper等成员组成。 HBase是一个开源的,基于列存储模型的分布式数据库 HDFS是一个分布式文件系统。有着高容错性的特点,并且设计用来部署在低廉的硬件上,适合那些有着超大数据集的应用程序 MapR ...
分类:
其他好文 时间:
2020-07-06 15:47:59
阅读次数:
67
转自:https://blog.csdn.net/zhanglong_4444/article/details/99471770 name description value hadoop.registry.rm.enabled 是否在YARN资源管理器中启用了注册表? 如果属实,那么YARN RM ...
在windows 环境下运行hadoop会报错, 解决方案:产生上述错误的原因是由于你本地的hadoop版本与lib文件中你替换的编译hadoop.dll版本不对应导致的 下载对应版本的hadoop和winutil.exe放到 就可以了,免费下载连接 ...
分类:
数据库 时间:
2020-07-06 12:27:10
阅读次数:
66
这里的1987.csv和1988.csv只是当年的12月份数据 Select Where Aggregation AggregationWithCombiner SplitByMonthMapper ...
分类:
其他好文 时间:
2020-07-06 01:39:23
阅读次数:
66
FAILED: SemanticException org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.q... ...
分类:
编程语言 时间:
2020-07-05 23:03:01
阅读次数:
289
4、行转列 1.相关函数说明 CONCAT(string A/col, string B/col…):返回输入字符串连接后的结果,支持任意个输入字符串; CONCAT_WS(separator, str1, str2,...):它是一个特殊形式的 CONCAT()。第一个参数剩余参数间的分隔符。分隔 ...
分类:
其他好文 时间:
2020-07-05 21:37:44
阅读次数:
56