搜索关键字：大数据开发 Hadoop Spark，搜索到19831个结果！码迷,mamicode.com！

hadoop两个namenode都是standby问题

1、修改配置文件后重启hdfs集群，出现了两个namenode都是standby的问题。经过不断地排查，发现在自己进行关闭和重启namenode的组件的时候，没有通过pip文件正常关闭，只能挨个关闭，这个也不是重点。经过修改pip文件的路径，解决了这个批量关闭启动的问题，原因是/tmpe目录系统 ...

分类：数据库时间：2020-06-05 13:12:31 阅读次数：111

Spark读取json数据出现混乱的情况

今天晚上，我们老师给我们布置了一个任务，用spark读取一些json数据，然后做一些数据分析的任务我以为重头戏是数据分析的部分，没想到自己被读取json数据拦了1个多小时，写篇博客记录下 orz 常规的读取数据： val userInfo = spark.read.format("json"). ...

分类：Web程序时间：2020-06-04 21:21:41 阅读次数：129

Spark读取Hbase中的数据

大家可能都知道很熟悉Spark的两种常见的数据读取方式（存放到RDD中）：（1）、调用parallelize函数直接从集合中获取数据，并存入RDD中；Java版本如下： JavaRDD<Integer> myRDD = sc.parallelize(Arrays.asList(1,2,3)); Sc ...

分类：其他好文时间：2020-06-04 10:38:09 阅读次数：76

Spark使用踩坑完全(并不)指南

1.java编译报错错误 Error: A JNI error has occurred, please check your installation and try again 👆下面还有其他报错但我没有截到，但问题的原因都是这个👆 这个错误一般情况是由于java 版本与javac 版本 ...

分类：其他好文时间：2020-06-04 01:04:18 阅读次数：78

奈学教育：Hadoop源码编译全流程分享

首先准备一个hadoop源码包，我选择的hadoop版本是：hadoop-2.7.7-src.tar.gz，在hadoop-2.7.7的源码包的根目录下有一个文档叫做BUILDING.txt，这其中说明了编译hadoop所需要的一些编译环境相关的东西。不同的hadoop版本的要求都不一样，对应的版本参照BUILDING.txt安装对应软件（必须联网）安装openssl-develyum-yinst

分类：其他好文时间：2020-06-04 00:52:14 阅读次数：51

[DB] Spark--Spark Core

生态 Spark Core：最重要，其中最重要的是RDD（弹性分布式数据集） Spark SQL Spark Streaming Spark MLLib：机器学习算法 Spark Graphx：图计算特点针对大规模数据处理的快速通用引擎基于内存计算速度快，易用，兼容性强体系架构主节点：C ...

分类：数据库时间：2020-06-03 20:48:29 阅读次数：89

挑战常规 -- 这位老板你是不是搞错了什么

挑战常规 -- 这位老板你是不是搞错了什么我们是互联网起家的你懂不懂jvm优化你懂不懂MySQL调优你懂不懂分布式锁冒泡算法写一下 Hadoop原理是什么,.... 那，请问你们的当前客户量是多少？上线了没有？开发团队有多少人？原型设计有没有？我们已经上线了一个版本，正在内部测试。我们希 ...

分类：其他好文时间：2020-06-03 13:45:20 阅读次数：50

奈学教育：Hadoop源码编译全流程分享

首先准备一个hadoop源码包，我选择的hadoop版本是：hadoop-2.7.7-src.tar.gz，在hadoop-2.7.7的源码包的根目录下有一个文档叫做BUILDING.txt，这其中说明了编译hadoop所需要的一些编译环境相关的东西。不同的hadoop版本的要求都不一样，对应的版本 ...

分类：其他好文时间：2020-06-03 13:23:45 阅读次数：63

HDFS基础（二）shell操作

Hadoop fs 命令分类： 1、本地-》HDFS： put(从本地文件系统中复制单个或多个源路径到目标文件系统) hadoop fs -put localfile /user/hadoop/hadoopfile copyFromLocal(和put命令相似) hadoop fs -copyFro ...

分类：系统相关时间：2020-06-02 22:55:20 阅读次数：78

Hadoop之HDFS入门实战

一、HDFS优缺点优点：高容错性数据自动保存多个副本某一个副本丢失后，它可以自动恢复适合处理大数据数据规模，可以达到PB级文件规模，能够处理百万规模的文件数量可构建在廉价机器上，通过多副本保证可靠性缺点：不适合低延时数据访问不适合对大量小文件进行存储存储大量小文件，他会占用N ...

分类：其他好文时间：2020-06-01 23:45:55 阅读次数：68