上一篇博客说明了怎么自定义Key,而且用了二次排序的例子来做测试,但没有详细的说明二次排序,这一篇说详细的说明二次排序,为了说明曾经一个思想的误区,特地做了一个3个字段的二次排序来说明。后面称其为“三次排序”。测试数据:a1,b2,c5a4,b1,c3a1,b2,c4a2,b2,c4a2,b1,c4 ...
分类:
编程语言 时间:
2018-12-05 23:19:52
阅读次数:
320
Cloudera版本(Cloudera’s Distribution Including Apache Hadoop,简称“CDH”),基于Web的用户界面,支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Spark、 Hbase、Zookeeper、Sqoop,简化了大数据 ...
分类:
其他好文 时间:
2018-12-05 22:26:39
阅读次数:
290
我口才不好,文字描述也不行,但是基本逻辑是通的。导出jar包1.首先完成mapper和reducer还有main方法的编码2。右键点击peopleinfo的包,选择export-》Java-》JARfile,点击NEXT3.输入jar包名称以及导出地址,点击next->next4.点击Browse,选择主方法,点击OK,然后点击Finish放在hdfs上执行mapreduce的方法登陆到大数
分类:
编程语言 时间:
2018-12-05 21:44:21
阅读次数:
218
本项目是基于Spark MLLib的大数据电商推荐系统项目,使用了scala语言和java语言。基于python语言的推荐系统项目会另外写一篇博客。在阅读本博客以前,需要有以下基础:1.linux的基本命令2.至少有高中及以上的数学基础。3.至少有java se基础,会scala语言和Java
EE更佳(Jave EE非必需,但是可以帮助你更快理解项目的架构)。4.有github账户,并且至少知道git clone,fork,branch的概念。5。有网络基础,至少知道服务器端和客户端的区别。6.有大数据基础,最好会Hadoop,HDFS,MapReduce,Sqoop,HBase,Hive,Spark,Storm。7.有mysql数据库基础,至少会最基本的增删改查。
分类:
其他好文 时间:
2018-12-03 20:00:55
阅读次数:
697
1./usr/local/hadoop/share/hadoop/mapreduce下的所有jar包(子文件夹下的jar包不用)2./usr/local/hadoop/share/hadoop/common下的hadoop-common-2.7.2.jar3./usr/local/hadoop/sh ...
分类:
编程语言 时间:
2018-12-03 01:10:55
阅读次数:
542
hadoop概述 1. 存储和分析网络数据 2. 三大组件 MapReduce 对海量数据的处理 思想: 分而治之 每个数据集进行逻辑业务处理map 合并统计数据结果reduce HDFS 储存海量数据 分布式存储 安全性高 副本数据 YARN 分布式资源管理框架 管理整个集群的资源(内存、CPU核 ...
分类:
其他好文 时间:
2018-12-02 18:34:04
阅读次数:
409
准备工作: 1.设置HADOOP_HOME,指向hadoop安装目录,否则报这个错: 2.在window下,需要把hadoop/bin那个目录替换下,在网上搜一个对应版本的 3.如果还报org.apache.hadoop.io.nativeio.NativeIO$Windows.access0错,把 ...
分类:
其他好文 时间:
2018-12-02 18:31:08
阅读次数:
177
hadoop在windows本机运行 (1)在 windows环境下编译好的hadoop放到没有中文和空格的路径下 (2)编译好的hadoop内的hadoop.all文件要放到windows机器的windows-system32目录下 , 否则报错 (3)配置windows环境下的hadoop环境变 ...
一、简介 spark的官网:http://spark.apache.org/ spark解决了什么问题? 我们都知道hadoop,hadoop以一个非常容易使用的编程模型解决了大数据的两大难题: 1)分布式存储hdfs; 2)分布式计算mapReduce; 但是hadoop也存在着一些问题,最主要的 ...
分类:
其他好文 时间:
2018-12-01 01:15:54
阅读次数:
289
Hive将SQL转化为MapReduce的过程: ...
分类:
数据库 时间:
2018-12-01 00:21:46
阅读次数:
355