码迷,mamicode.com
首页 >  
搜索关键字:spark 大数据 hadoop hive parquet    ( 33788个结果
Spark UDAF实现举例 -- average pooling
1.UDAF定义 spark中的UDF(UserDefinedFunction)大家都不会陌生, UDF其实就是将一个普通的函数, 包装为可以按 行 操作DataFrame中指定Columns的函数. 例如, 对某一列的所有元素进行+1操作, 它对应mapreduce操作中的map操作. 这种操作有 ...
分类:其他好文   时间:2021-01-04 11:31:11    阅读次数:0
Hadoop-3.1.3安装
0.创建用户并付权限 sudo useradd iwbdsudo passwd iwbd 配置iwbd用户具有root权限 修改/etc/sudoers文件,找到下面一行(91行),在root下面添加一行,如下所示:## Allow root to run any commands anywhere ...
分类:其他好文   时间:2021-01-04 11:30:50    阅读次数:0
网站用户行为分析
网站用户行为分析 步骤 1.1 本地数据集上传到数据仓库Hive 数据集下载与查看 数据集预处理 把数据集导入HDFS中 在Hive上创建数据库 1.2 Hive数据分析 给出数据分析需求 用select语句实现数据分析 数据分析结果查看与保存 1.3 Hive、MySQL、HBase数据互导 操作 ...
分类:Web程序   时间:2021-01-02 11:41:47    阅读次数:0
第四周学习总结
所学时间(包括上课) 9个小时 代码量(行) 1300 博客量 1篇 了解到的知识点 centos虚拟机的安装以及 大数据相应所用的软件安装 以及环境的配置 ...
分类:其他好文   时间:2021-01-02 11:40:57    阅读次数:0
Spark 取前几行,先sort再limit
scala> val df = sc.parallelize(Seq( | (0,"cat26",30.9), | (1,"cat67",28.5), | (2,"cat56",39.6), | (3,"cat8",35.6))).toDF("Hour", "Category", "Value") ...
分类:其他好文   时间:2021-01-02 11:32:57    阅读次数:0
Spark 创建一个简单的DataFrame示例
scala> val df = sc.parallelize(Seq( | (0,"cat26",30.9), | (1,"cat67",28.5), | (2,"cat56",39.6), | (3,"cat8",35.6))).toDF("Hour", "Category", "Value") ...
分类:其他好文   时间:2021-01-02 11:32:37    阅读次数:0
hadoop 模板虚拟机环境准备以及对模板机的克隆
#一、linux 虚拟机最小化安装 模板 ###1.准备好虚拟机(安装最小化的linux模板机) 1)准备一台模板虚拟机hadoop100,虚拟机配置要求如下: 注:本文Linux系统环境全部以CentOS-7.5-x86-1804为例说明 模板虚拟机:内存4G,硬盘50G,安装必要环境,为安装ha ...
分类:其他好文   时间:2021-01-02 11:30:35    阅读次数:0
池化的名字由何而来?
根据前面的卷积过程,我们可以达到特征提取的作用。基本上已经判断出谁是C谁是D。底下可以再进一步做一次池化。数据库连接池记得吧?把很多数据库连接放在一个池子里,想用时挑一个来用。这里做完卷积得到这么多数据,就像池子一样,对于这池子里的数据,我们可以继续做各种各样的操作,比如最大池化或平均池化。最大池化 ...
分类:其他好文   时间:2021-01-02 11:29:48    阅读次数:0
Zookeeper - 1 概述&命令
Zookeeper 概述&命令 1)初识 Zookeeper 1.1)Zookeeper概念 ?Zookeeper 是 Apache Hadoop 项目下的一个子项目,是一个树形目录服务。 ?Zookeeper 翻译过来就是 动物园管理员,他是用来管 Hadoop(大象)、Hive(蜜蜂)、Pig( ...
分类:其他好文   时间:2021-01-02 11:29:32    阅读次数:0
kafka
Kafka概述 定义 Kafka是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用于大数据实时处理领域。 传统消息队列的应用场景 使用消息队列的好处 1:解耦 允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束。 2:可恢复性 系统的一部分组件失效时 ...
分类:其他好文   时间:2021-01-02 10:52:13    阅读次数:0
33788条   上一页 1 ... 35 36 37 38 39 ... 3379 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!