数据预处理 在正式处理数据之前对收集的数据进行预先处理的操作。 原因:不管通过何种手段收集的数据 往往是不利于直接分析的 数据中存在的格式规整的差异。 目的:把不干净的数据 格式不规则的数据 通过预处理清洗变成格式统一规整的结构化数据 技术:MapReduce 预处理的编程思路问题 在使用mr编程的 ...
分类:
Web程序 时间:
2020-08-10 17:26:02
阅读次数:
80
作为一个从事Java开发的程序员,每天离不开编辑器的帮助。还记得刚开始学习Java编程的时候,使用Eclipse作为日常开发工具。后来工作以后,需要使用IntellijIDEA,刚开始其实并不想怎么用。毕竟Eclipse已经足够强大,可以满足日常开发的需求,何必再花时间再去学习其他工具那。刚开始改变是困难的。但是没办法,公司强制使用,不得不去了解去使用。后来用了一段时间才发现IDEA是的真的强大。
分类:
其他好文 时间:
2020-08-09 11:54:49
阅读次数:
130
JDK下载与配置 Hadoop下载,安装与部署 由于Hadoop是由java编程而写,所有运行环境需要java支持,Hadoop需java1.6及以上支持。 1.JDK 下载与配置 查看当前系统jdk,chuxianOpen JDK 需要卸载 rpm -qa | grep jdk rpm -e -- ...
分类:
其他好文 时间:
2020-08-08 17:41:47
阅读次数:
71
1,-mkdir 创建目录 Usage:hdfs dfs -mkdir [-p] < paths> 选项:-p 很像Unix mkdir -p,沿路径创建父目录。 2,-ls 查看目录下内容,包括文件名,权限,所有者,大小和修改时间 Usage:hdfs dfs -ls [-R] < args> 选 ...
分类:
其他好文 时间:
2020-08-05 18:13:32
阅读次数:
89
查询 hadoop dfs -ls / hadoop dfs -ls -R / 注:-R 是递归查询 创建目录 hadoop dfs -mkdir /test 创建文件 hadoop dfs -touchz /aa.txt 查看文件内容 hadoop dfs -cat /test/aa.txt 复制 ...
分类:
其他好文 时间:
2020-08-05 16:53:52
阅读次数:
89
Apache 存储了很多的开源软件 Hadoop 处理大数据 kafka 消息队列 下载Nginx 解压nginx 进入nginx目录 cat README.md ./config --help 后2个参数分别是: 支持https 支持nginx状态页面 conf 配置文件(各种设置) html 存 ...
分类:
其他好文 时间:
2020-08-04 09:45:53
阅读次数:
82
针对hive on mapreduce 1:我们可以通过一些配置项来使Hive在执行结束后对结果文件进行合并: 参数详细内容可参考官网:https://cwiki.apache.org/confluence/display/Hive/Configuration+Properties 1 2 3 4 ...
分类:
数据库 时间:
2020-08-03 19:56:21
阅读次数:
103
Hbase在hdfs上的存储位置,根目录是由配置项hbase.rootdir决定,默认就是"/hbase" 其中hbase master 的webui 由参数hbase.master.info.port决定,一般配置为 60010 [dip@g3-test-36 ~]$ hadoop fs -ls ...
分类:
其他好文 时间:
2020-07-30 19:45:37
阅读次数:
104
前面几篇文章把Hadoop常用的模块都学习了,剩下一个新模块Ozone,截止到今天最新版本是0.5.0Beta,还没出正式版。好在官方网站有文档,还是中文版的。 什么是Ozone Ozone 是 Hadoop 的分布式对象存储系统,具有易扩展和冗余存储的特点。 Ozone 不仅能存储数十亿个不同大小 ...
分类:
其他好文 时间:
2020-07-30 01:46:54
阅读次数:
117
Combiner是MR程序中Mapper和Reducer之外的一种组件(本质是一个Reducer类) Combinr组件的父类就是Reducer Conbimer只有在驱动类里设置了之后,才会运行 Combiner和Reducer的区别在于运行的位置: map sort copy sort(shuf ...
分类:
其他好文 时间:
2020-07-30 01:32:34
阅读次数:
65