使用hadoop mapreduce分析mongodb数据 (现在很多互联网爬虫将数据存入mongdb中,所以研究了一下,写此文档) 版权声明:本文为yunshuxueyuan原创文章。如需转载请标明出处: http://www.cnblogs.com/sxt-zkys/QQ技术交流群:299142 ...
分类:
数据库 时间:
2017-07-27 16:35:37
阅读次数:
205
//近期在研究hadoop。第一个想要要開始研究的必然是wordcount程序了。看了《hadoop应用开发实战解说》结合自己的理解,对wordcount的源代码进行分析。 <pre name="code" class="java"> package org.apache.hadoop.mapred ...
分类:
其他好文 时间:
2017-07-27 11:29:20
阅读次数:
168
本次安装是在windows7环境下安装redhat虚拟机进行的,所须要的软件例如以下: VirtualBox-5.0.16-105871-Win.exe rhel-server-5.4-x86_64-dvd.iso 首先安装虚拟机软件,然后在此基础上安装redhat。安装redhat的时候记得关闭防 ...
分类:
其他好文 时间:
2017-07-20 15:27:44
阅读次数:
226
<strong><span style="font-size:18px;">/*** * @author YangXin * @info K-Means算法会对向量元素进行多次顺序的遍历,上次表示最适合于这样的訪问模式。 * 利用Mapper输出的部分向量。Reducer通过简单的拼接得到一个完整的 ...
分类:
其他好文 时间:
2017-07-08 14:08:44
阅读次数:
105
1.安装 Red Hat 环境 2.安装JDK 3.下载hadoop2.8.0 http://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.8.0/hadoop-2.8.0.tar.gz 4.在用户目录下新建hadoop文件夹, ...
分类:
其他好文 时间:
2017-07-07 10:12:32
阅读次数:
257
报错信息 17/07/06 17:00:27 WARN mapred.JobClient: Use GenericOptionsParser for parsing the arguments. Applications should implement Tool for the same.17/0 ...
分类:
编程语言 时间:
2017-07-06 18:40:28
阅读次数:
252
HashMap与TreeMap按照key和value排序 使用一个场景是mapreduce中用解决topn问题是用value 排序 topn MapReducetopN ...
分类:
编程语言 时间:
2017-07-05 22:00:04
阅读次数:
249
map是配置mapred.max.split.size,来定义map处理文件的大小,默认是256000000字段,换算就是256M。 如果想增加map的并行度,那么就是减少map处理文件的大小即可。 即set mapred.max.split.size=xxx(更小的字节) reduce和map是一 ...
分类:
其他好文 时间:
2017-07-03 19:56:04
阅读次数:
263
选中项目点击build path,导入以下的外部jar包 hadoop-2.7.2/share/hadoop/mapreduce下的所有jar包(子文件夹下的jar包不用) hadoop-2.7.2/share/hadoop/common下的hadoop-common-2.7.2.jar hadoo ...
分类:
编程语言 时间:
2017-06-29 13:32:42
阅读次数:
138
Hadoop 版本2.8.0 前期准备工作: 1. 设置用户环境变量 PATH 和 CLASSPATH 方便执行 Hadoop 命令时不用转移到对应的目录下,shell 除了会在当前目录下还会到 PATH 指定位置寻找可执行文件。 使用 javac 命令编译 .java 文件时,如果没有指定 -cl ...
分类:
其他好文 时间:
2017-06-28 19:02:19
阅读次数:
334