hadoop是什么? hadoop是一个由Apache基金会所开发的分布式系统基础架构,hdfs分布式文件存储、MapReduce并行计算。主要是用来解决海量数据的存储和海量数据的分析计算问题,这是狭义上的hadoop。广义上来讲,hadoop通常指的是一个更广泛的概念 hadoop生态圈 hado ...
分类:
其他好文 时间:
2019-10-05 20:12:34
阅读次数:
220
一、绪论 【因为这篇心得是原创的,所以如果有哪处总结或者意见不足的地方,欢迎各位大神的批评和意见,共同学习,谢谢了!】 早些时候,需要在centos6.4系统中配置单机版和集群版单节点的hadoop HDFS,由于那时候一边跟老师学hadoop一边自学Linux。初学的自己懂得也不多,别人都用普通用 ...
分类:
其他好文 时间:
2019-10-04 22:41:23
阅读次数:
199
当今互联网已进入大数据时代,大数据技术已广泛应用于金融、医疗、教育、电信、政府等领域。各行各业每天都在产生大量的数据,数据计量单位已从B、KB、MB、GB、TB发展到PB、EB、ZB、YB甚至BB、NB、DB。预计未来几年,全球数据将呈爆炸式增长。谷歌、阿里巴巴、百度、京东等互联网公司都急需掌握大数 ...
分类:
其他好文 时间:
2019-10-02 13:07:34
阅读次数:
99
spark 简介 建议先阅读我的博客 大数据基础架构 spark 一个通用的计算引擎,专门为大规模数据处理而设计,与 mapreduce 类似,不同的是,mapreduce 把中间结果 写入 hdfs,而 spark 直接写入 内存,这使得它能够实现实时计算。 spark 由 scala 语言开发, ...
分类:
其他好文 时间:
2019-10-02 12:51:02
阅读次数:
1950
HDFS数据清理一些办法: datanode数据做reblance清理临时目录、日志目录文件全量分区表历史分区清理使用lzo,orc格式进行数据压缩清理或者归档历史冷数据增加datanode横向扩容附上自动清理目录下过期的文件 #!/bin/bashsource ~/.bash_profile # ...
分类:
其他好文 时间:
2019-09-30 09:32:15
阅读次数:
231
Hadoop 是一个开源框架,可编写和运行分布式应用处理大规模数据 Hadoop框架的核心是HDFS 和 MapReduce HDFS是分布式文件系统(存储) MapReduce是分布式数据处理模型和执行环境(计算) 作者:Doug Cutting Hadoop特点 扩容能力 能可靠地存储和处理千兆 ...
分类:
其他好文 时间:
2019-09-29 11:17:45
阅读次数:
119
1.先下载maven并配置好maven环境变量。之后在idea中配置好maven和tomcat2.创建maven项目 在项目中的pom.xml中导入相应的依赖 1 2 3 junit 4 junit 5 RELEASE 6 7 8 org.apache.logging.log4j 9 log4j-c... ...
分类:
其他好文 时间:
2019-09-28 14:19:00
阅读次数:
307
使用Java Api 操作HDFS 如题 我就是一个标题党 就是使用JavaApi操作HDFS,使用的是MAVEN,操作的环境是Linux 首先要配置好Maven环境,我使用的是已经有的仓库,如果你下载的jar包 速度慢,可以改变Maven 下载jar包的镜像站改为 阿里云。 贴一下 pom.xml ...
分类:
编程语言 时间:
2019-09-27 12:30:48
阅读次数:
95