搜索关键字：大数据开发 Hadoop Spark，搜索到19831个结果！码迷,mamicode.com！

WW大数据平台架构

###1.大数据架构说明： 1.该大数据平台采用的阿里云服务器，所以在集群部署和运维上会减少很多工作量 2.主题的计算引擎采用Spark，部分有Flink 3.数据挖掘主要是应用python的一些挖掘框架，模型比如词袋模型和一些常见的nlp算法 4.任务调度是自研的诸葛大数据调度平台 ...

分类：其他好文时间：2020-05-28 11:34:57 阅读次数：68

hadoop 伪分布式单机部署练习hive

第一步环境准备： jdk安装，用户用组新建 useradd -m hadoop passwd hadoop 修改密码添加用户hadoop到hadoop用户组 wget https://downloads.apache.org/hadoop/common/hadoop-3.2.1/hadoop-3. ...

分类：其他好文时间：2020-05-27 20:47:07 阅读次数：90

Spark原始码系列（五）分布式缓存

问题导读：spark缓存是如何实现的？BlockManager与BlockManagerMaster的关系是什么？这个persist方法是在RDD里面的，所以我们直接打开RDD这个类。 defpersist（newLevel：StorageLevel）：this.type = { // Stora ...

分类：其他好文时间：2020-05-27 15:59:00 阅读次数：71

Parquet 列示存储结构

Apache Parquet is a columnar storage format available to any project in the Hadoop ecosystem, regardless of the choice of data processing framework, d ...

分类：其他好文时间：2020-05-27 15:57:13 阅读次数：104

备份本地库到远端Ucloud云存储

分类：其他好文时间：2020-05-27 15:34:31 阅读次数：59

大数据开发？大数据分析？数据挖掘算法？

大数据开发？大数据分析？数据挖掘算法？关于大数据的知识，因为自己之前做大创、听讲座以及主动地去踩学习的坑，所以关于学习和规划我可以给予一些经验。一、我选大数据的原因高考前我最想学的专业几乎都是跟电子信息领域相关，比如‘电子信息与技术’、‘计算机科学与技术’、‘物联网工程’和‘信息管理与信息系统 ...

分类：编程语言时间：2020-05-27 15:21:36 阅读次数：83

hadoop伪集群部署

软件环境：VMware10.0，VMware10,ubuntu15.10桌面版（ubuntukylin-15.10-desktop-i386.iso），Apache hadoop（hadoop-1.2.1.tar.gz），JDK（jdk-8u11-linux-i586.tar.gz）一安装JDK ...

分类：其他好文时间：2020-05-27 00:47:44 阅读次数：69

大数据之Spark单词统计

题目三：使用Spark Core 统计文件中以spark开头的单词中，每个单词出现的次数（共计30分） spark-core hadoop linux java spark-sql storm html css vue spark spring springboot struts spark-hiv ...

分类：其他好文时间：2020-05-26 22:06:21 阅读次数：102

Spark：shuffle原理

shuffle 和 stage shuffle 是划分 DAG 中 stage 的标识,同时影响 Spark 执行速度的关键步骤. RDD 的 Transformation 函数中,又分为窄依赖(narrow dependency)和宽依赖(wide dependency)的操作.窄依赖跟宽依赖的区 ...

分类：其他好文时间：2020-05-26 18:22:19 阅读次数：71

oracleSQL 转 SPARKSQL（hiveSql）及常用优化

背景数据处理平台从oracle迁移到hadoop平台后，原有的数据处理过程需要改写为sparkSql。由于sparkSql执行环境和数据的不确定，经常有资源竞争导致处理过程意外停止，数据倾斜导致任务执行失败。为减少出错概率，需要对sparkSql进行规范与优化。转换 1. exist 转换为 ...

分类：数据库时间：2020-05-25 19:47:59 阅读次数：94

共19831条上一页 1 ... 71 72 73 74 75 ... 1984 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)