说起分布式文件管理系统,大家可能很容易想到 HDFS、GFS 等系统,前者是 Hadoop 的一部分,后者则是 Google 提供的分布式文件管理系统。除了这些之外,国内淘宝和腾讯也有自己的分布式文件管理系统,都叫 TFS( 和 )。 相对于上面提到的这些分布式文件管理系统而言,FastDFS 可能 ...
分类:
其他好文 时间:
2020-03-01 12:14:30
阅读次数:
60
外网无法访问VM中的hadoop yarn的8088端口,网页打开不了,导致hadoop无法访问
分类:
Web程序 时间:
2020-03-01 00:37:28
阅读次数:
232
HBase是Hadoop的一个子项目,用JAVA语言实现,是建立在HDFS的基础上的非关系型分布式数据库,目标是通过水平扩展的方式处理非常庞大的表。值得注意的是,HBase并非结构化数据库,而是介于非关系型数据库(nosql)与关系型数据库(RDBMS)之间,仅能存储非结构化数据和半结构化数据。 为 ...
分类:
其他好文 时间:
2020-03-01 00:09:42
阅读次数:
63
在给学生授课和搭建Hadoop生态实验环境的过程中,我发现无论是网络上的参考资料、还是来自大数据服务功供应商的运维文档,给出Hadoop的HA解决方案都如出一辙——使用ZooKeeper加QuorumJournalManager方案。诚然,这一方案久经考验,是十分成熟的可靠方案。
分类:
其他好文 时间:
2020-03-01 00:08:41
阅读次数:
68
1.建立目录 hdfs dfs -mkdir -p /data/wc/input 2.上传文件 hdfs dfs -D dfs.blocksize=1048576 -put /setup/data.txt /data/wc/input 3.进入运行程序所在目录 cd /software/hadoop ...
分类:
Web程序 时间:
2020-02-29 20:49:02
阅读次数:
127
Spark 是基于内存的计算, 低延迟. Apache 基金会3大分布式系统开源项目 Hadoop, Spark, Storm (数据流) Spark 特点: 处理快, 容易使用(Java,Python,Scala,R). 通用性(包括SQL,机器学习, 流失计算), 运行模式多样 Spark生态系 ...
分类:
其他好文 时间:
2020-02-29 17:28:30
阅读次数:
94
错误代码: 完整错误信息为: Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe. : org.apache.hadoop.mapred.Inva ...
分类:
编程语言 时间:
2020-02-29 13:14:45
阅读次数:
81
首先我们知道聚合函数(如sum()、avg()、max()等等)是针对定义的行集(组)执行聚集,每组只返回一个值。 窗口函数也是针对定义的行集(组)执行聚集,可为每组返回多个值。如既要显示聚集前的数据,又要显示聚集后的数据。 窗口查询有两个步骤:将记录分割成多个分区,然后在各个分区上调用窗口函数。 ...
分类:
其他好文 时间:
2020-02-29 11:34:46
阅读次数:
65
Hadoop初学思维导图 1,Hadoop ··· Hadoop: Hadoop的核心由HDFS和MapReduce组成。HDFS是分布式文件系统,是Hadoop生态圈的分布式数据存储基石;MapReduce是计算组件,会被Spark取代。 ··· Hadoop生态圈: Hadoop生态圈是一系列用 ...
分类:
其他好文 时间:
2020-02-29 00:17:31
阅读次数:
101
在搭好HA集群之后,想测试一下集群的高可用性,于是先把active的namenode给停掉: hadoop-daemon.sh stop namenode 或者直接kill掉该节点namenode的对应进程也可。 但是通过hdfs haadmin -getServiceState master1 查 ...
分类:
其他好文 时间:
2020-02-28 18:52:26
阅读次数:
101