1.Hadoop a.概念:Hadoop是一个由Apache基金会所开发的分布式系统基础架构 b.组成:Hadoop = HDFS (文件系统) + Mapreduce (数据处理) 2.安装 a.配置Java运行环境 b.从官网下载 Hadoop 并解压,地址:http://hadoop.apac ...
分类:
其他好文 时间:
2019-07-05 10:57:52
阅读次数:
106
一、报错信息: Starting namenodes on [master] ERROR: Attempting to operate on hdfs namenode as root ERROR: but there is no HDFS_NAMENODE_USER defined. Aborti ...
分类:
其他好文 时间:
2019-07-04 17:40:26
阅读次数:
252
一、大数据处理流程 1.1 数据收集 1.2 数据存储 &n ...
分类:
其他好文 时间:
2019-07-04 17:33:35
阅读次数:
133
Google的三大马车Google fs + Map Reduce + Big Table 开源Java实现HDFS Hadoop Hbase 云盘实现用廉价的服务器提供与万级的数据库存储①廉价的服务器②多副本容灾③多核,并行计算,提高数据分析效率 ...
分类:
其他好文 时间:
2019-07-04 17:29:08
阅读次数:
109
1.DWI DWI:数据湖、数据砥柱,一般存放在HDFS 数据仓库的基础数据来源,各种杂七杂八的数据 关键点:数据清洗、数据整合、异常处理、增量获取 ETL:E-数据抽取、数据清洁、格式转换,T-生成代理键ID、遵循三范式,L-数据加载 2.DWR DWR:数据仓库的中间层,星型结构 根据业务划分: ...
分类:
其他好文 时间:
2019-07-03 00:28:13
阅读次数:
481
hdfs基准测试:磁盘读写性能测试hadoopjar./hadoop-mapreduce-client-jobclient-2.7.2.3.jarTestDFSIO-read-nrFiles10-fileSize10MBhadoopjar./hadoop-mapreduce-client-jobclient-2.7.2.3.jarTestDFSIO-write-nrFiles10-fileSize
分类:
其他好文 时间:
2019-07-02 13:30:39
阅读次数:
171
1.hbase的架构 Hbase主要由master,regionserver,zookeeper,client,hdfs文件系统构成. Zk:记录hbase的表的元数据信息 hamster:进行region的分配,发出操作指令 Hlog:记录HregionServer的操作日志,保证数据的可靠性 H ...
分类:
其他好文 时间:
2019-07-02 09:17:14
阅读次数:
97
1 概述 开发调试spark程序时,因为要访问开启kerberos认证的hive/hbase/hdfs等组件,每次调试都需要打jar包,上传到服务器执行特别影响工作效率,所以调研了下如何在windows环境用idea直接跑spark任务的方法,本文旨在记录配置本地调试环境中遇到的问题及解决方案。 2 ...
Spark拥有hadoop mapreduce所具有的优点,但输出结果可以保存在内存中,从而不需要读写hdfs spark负责数据的计算,用来替代mapreduce编程模型,不能替代hdfs等存储系统 spark的特点: 运算速度快,内存中计算可达hadoop的100倍,硬盘中也能快10倍 易于使用 ...
分类:
其他好文 时间:
2019-07-01 00:57:43
阅读次数:
79