# Spark:RDD的设计与运行原理 ## 1.RDD设计背景在实际应用中,存在许多迭代式算法和家忽视数据挖掘工具,这些应用场景的共同之处是,不同计算阶段之间会重用中间结果,即下一个阶段的输出结果会作为下一个阶段的输入。但是,目前的MapReduce框架都是把中间结果写入到HDFS中,带来了大量的 ...
分类:
其他好文 时间:
2019-01-18 16:32:24
阅读次数:
226
要建设企业级大数据可视化分析系统,需要构建企业统一的数据库体系或者直接将已有数据库对接。进行数据建模,为数据分析可视化呈现奠定基础。通过数据分析管理系统,有了数据基础,就可以构建BI大数据智能可视化大屏分析,满足企业的业务需求,提升数据价值。BI大数据智能可视化大屏分析系统建设软件开发的技术实现:1.Hadoop:使用hadoop作为系统的基础框架,对数据进行分布式的存储和分析。HDFS是hado
分类:
其他好文 时间:
2019-01-18 16:23:35
阅读次数:
279
1.HDFS 修复 问题描述:其他部门在yarn平台上跑spark 程序错误的生成了海量的不到100K的小文件,导致namenode压力过大,其中一个namenode宕机后,没有及时发现 使得edits文件大量积累,在namenode1宕机后,namenode2 随后在凌晨1点也宕机。 原因分析:N ...
分类:
其他好文 时间:
2019-01-18 12:57:14
阅读次数:
229
Hadoop组成 HDFS(Hadoop Distributed File System)架构概述 NameNode目录--主刀医生(nn); DataNode(dn)数据; Secondary NameCode(2nn)助手; YARN框架 常驻 + 临时 ResourceManager(RM) ...
分类:
其他好文 时间:
2019-01-17 19:52:08
阅读次数:
225
需求:AB两台日志服务器实时生产日志主要类型为access.log、nginx.log、web.log,现在要求:把A、B机器中的access.log、nginx.log、web.log采集汇总到C机器上然后统一收集到hdfs中,但是在hdfs中要求的目录为: /source/logs/access/日期/** /source/logs/nginx/日期
分类:
Web程序 时间:
2019-01-17 17:43:30
阅读次数:
208
1.sqoop的介绍(1)介绍: Sqoop是Apache旗下的一款“hadoop和关系型数据库服务器之间传送数据”的工具。 导入数据:MySQL、Oracle导入数据到hadoop的hdfs、hive、HBASE等数据存储系统。 导出数据:从hadoop的文件系统中导出数据到关系型数据库中。(2)工作机制 将
分类:
其他好文 时间:
2019-01-17 16:27:23
阅读次数:
181
/** * 根据配置文件获取HDFS操作对象 * 有两种方法: * 1.使用conf直接从本地获取配置文件创建HDFS对象 * 2.多用于本地没有hadoop系统,但是可以远程访问。使用给定的URI和用户名,访问远程的配置文件,然后创建HDFS对象。 * @return FileSystem */ ... ...
分类:
其他好文 时间:
2019-01-16 19:47:48
阅读次数:
218
环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-3.1.1 伪分布式:HDFS和YARN 伪分布式搭建,事先启动HDFS和YARN 第一步:开发WordCount示例 第二步:程序打jar包:M ...
分类:
其他好文 时间:
2019-01-16 01:09:45
阅读次数:
481
https://www.cnblogs.com/jonty666/p/9905352.html https://blog.csdn.net/eric_sunah/article/details/41546863 ...
分类:
其他好文 时间:
2019-01-15 23:33:56
阅读次数:
118