搜索关键字：大数据开发 Hadoop Spark，搜索到19831个结果！码迷,mamicode.com！

数据仓库数据可视化 Hive导出到MySql

大数据开发的最后一环，将数仓中ADS层的数据，导出到MySql，剩下就是Java工程师的事了。 1 在MySql中创建对应的ADS表，字段和类型与数仓中的表一致，略。 2 数据导出脚本。 ①--update-mode updateonly：只更新，无法插入新数据。 allowinsert：允许新增 ...

分类：数据库时间：2020-07-02 23:16:56 阅读次数：81

解决 SPARK_MASTER_OPTS is not allowed to specify max heap(Xmx) memory settings

SPARK_MASTER_OPTS is not allowed to specify max heap(Xmx) memory settings (was -Xms512m -Xmx1024m -Dcom.sun.management.jmxremote=true -Dcom.sun.manage ...

分类：其他好文时间：2020-07-02 16:40:58 阅读次数：87

pandas、spark计算相关性系数速度对比

pandas、spark计算相关性系数速度对比相关性计算有三种算法：pearson、spearman，kenall。在pandas库中，对一个Dataframe，可以直接计算这三个算法的相关系数correlation，方法为：data.corr() 底层是依赖scipy库的算法。为了提升计算速 ...

分类：其他好文时间：2020-07-02 16:38:40 阅读次数：126

spark | 手把手教你用spark进行数据预处理

本文始发于个人公众号：TechFlow，原创不易，求个关注今天是spark专题的第七篇文章，我们一起看看spark的数据分析和处理。过滤去重在机器学习和数据分析当中，对于数据的了解和熟悉都是最基础的。所谓巧妇难为无米之炊，如果说把用数据构建一个模型或者是支撑一个复杂的上层业务比喻成做饭的话。那 ...

分类：其他好文时间：2020-07-02 13:20:51 阅读次数：67

DataFrame DataSet Spark SQL学习

RDD加上结构，比如说类名，就可以变成DataFrame,DataFrame，将每一类同这一类的类名绑定在一起就可以称为DataSet. spark sql 就是来处理dataframe和dataset这样的结构数据的。 spark sql使用的时候需要提供spark session环境。 // S ...

分类：数据库时间：2020-07-01 18:40:18 阅读次数：60

Zookeeper概述、环境搭建及基本API使用和相关应用场景

一.Zookeeper基本概念分布式系统是同时跨越多个物理主机，独立运行的多个软件所组成的系统。分布式系统的协调工作就是通过某种方式，让某个节点的信息能够同步和共享。这依赖于服务进程之间的通信。通信方式有两种：通过网络进行信息共享通过共享存储 Zookeeper是作为分布式系统的分布式协同服务 ...

分类：Windows程序时间：2020-07-01 09:20:10 阅读次数：80

Hadoop框架

Hadoop的广义与狭义之分狭义的Hadoop:指的是一个框架，Hadoop是由三部分组成：HDFS:分布式文件系统--》存储；MapReduce:分布式离线计算框架--》计算；Yarn:资源调度框架广义的Hadoop:广义的Hadoop不仅仅包含Hadoop框架，除了Hadoop框架之外的一些 ...

分类：其他好文时间：2020-06-30 22:14:42 阅读次数：67

基于docker快速搭建hive环境

一、概述 Hive是什么？ Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据。它架构在Hadoop之上，总归为大数据，并使得查询和分析方便。最初，Hive是由Facebook开发，后来由Apache软件基金会开发，并作为进一步将它作为名义下Apache Hive为一个开源项目。它用 ...

分类：其他好文时间：2020-06-30 17:16:56 阅读次数：54

通过集合构建RDD或者DataFrame

利用字典构建dataframe。 from pyspark.sql import SparkSession,Row spark = SparkSession.builder.appName("get_app_category").enableHiveSupport().config("spark.d ...

分类：其他好文时间：2020-06-30 14:51:17 阅读次数：59

MapReduce模型中数据关联使用or语句导致计算效率低下

MapReduce计算模型中，如果两个数据集的关联，并不是通过数据集的一个唯一键和另一个数据集的一个唯一键关联，那么会导致大量数据分发到一个节点计算，使其效率极其低下。这里的MapReduce并不是仅仅是hive中的mapreduce模型，而是计算思想模型，比如spark、flink等，甚至更广阔 ...

分类：其他好文时间：2020-06-30 00:16:31 阅读次数：68

共19831条上一页 1 ... 51 52 53 54 55 ... 1984 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)