码迷,mamicode.com
首页 >  
搜索关键字:大数据开发 Hadoop Spark    ( 19831个结果
Spark 两种方法计算分组取Top N
Spark 分组取Top N运算 大数据处理中,对数据分组后,取TopN是非常常见的运算。 下面我们以一个例子来展示spark如何进行分组取Top的运算。 1、RDD方法分组取TopN from pyspark import SparkContext sc = SparkContext() 准备数据 ...
分类:其他好文   时间:2020-07-06 16:11:05    阅读次数:78
第一章:Hadoop基础介绍
Hadoop的整体框架 Hadoop由HDFS、MapReduce、HBase、Hive和ZooKeeper等成员组成。 HBase是一个开源的,基于列存储模型的分布式数据库 HDFS是一个分布式文件系统。有着高容错性的特点,并且设计用来部署在低廉的硬件上,适合那些有着超大数据集的应用程序 MapR ...
分类:其他好文   时间:2020-07-06 15:47:59    阅读次数:67
【转】Hadoop2.7.7 API: yarn-site.xml 解析
转自:https://blog.csdn.net/zhanglong_4444/article/details/99471770 name description value hadoop.registry.rm.enabled 是否在YARN资源管理器中启用了注册表? 如果属实,那么YARN RM ...
分类:Windows程序   时间:2020-07-06 12:29:05    阅读次数:142
Exception in thread "main" java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z
在windows 环境下运行hadoop会报错, 解决方案:产生上述错误的原因是由于你本地的hadoop版本与lib文件中你替换的编译hadoop.dll版本不对应导致的 下载对应版本的hadoop和winutil.exe放到 就可以了,免费下载连接 ...
分类:数据库   时间:2020-07-06 12:27:10    阅读次数:66
深入理解Hadoop第5章(我的复现)
这里的1987.csv和1988.csv只是当年的12月份数据 Select Where Aggregation AggregationWithCombiner SplitByMonthMapper ...
分类:其他好文   时间:2020-07-06 01:39:23    阅读次数:66
FAILED: SemanticException org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient
FAILED: SemanticException org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.q... ...
分类:编程语言   时间:2020-07-05 23:03:01    阅读次数:289
Linux之Apache服务
Apache概述 ''' Apache HTTPD Server 简称 Apache,是 Apache 软件基金会的一个开源的网页服务器, 可以在大多数计算机操作系统中运行,由于其多平台和安全性被广泛使用, 是最流行的 Web 服务器端软件之一。它快速、可靠并且可通过简单的 API 扩展,将 Per ...
分类:Web程序   时间:2020-07-05 19:25:06    阅读次数:72
IDEA创建Spark开发环境
下面安装的六步和通过Maven安装Java项目的方式相同 如果刚安装完IDEA,直接点击[Create New Project] 左侧选择Maven,然后先勾选上部的[Create from archetype],然后右侧选择[maven-archetype-quickstart] 填写GroupI ...
分类:其他好文   时间:2020-07-05 19:02:22    阅读次数:90
Spark DAG 依赖关系 Stage
DAG : 整个计算链可以抽象为一个DAG(有向无环图) Spark 的 DAG 作用: 记录了RDD之间的依赖关系,即RDD是通过何种变换生成的, 如下图:RDD1是RDD2的父RDD,通过flatMap操作生成 借助RDD之间的依赖关系,可以实现数据的容错, 即子分区(子RDD)数据丢失后,可以 ...
分类:其他好文   时间:2020-07-05 17:29:07    阅读次数:56
VirtualBox虚拟机路径迁移方法
VirtualBox虚拟机文件默认存放位置在C盘,hadoop搭建完全分布需要多建立几个虚拟机,C盘就直接炸了,所以先改个默认路径吧。 1.选择全局设定 2.选择你想把虚拟机vdi存放的路径 重点:虚拟机文件迁移方法 1.先把你的某个虚拟机的整个文件夹拷贝到你的目录下去,比如这是我拷过来的文件夹。 ...
分类:其他好文   时间:2020-07-05 15:40:50    阅读次数:90
19831条   上一页 1 ... 48 49 50 51 52 ... 1984 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!