码迷,mamicode.com
首页 >  
搜索关键字:mapreduce    ( 4054个结果
关于MapReduce二次排序的一点解答
上一篇博客说明了怎么自定义Key,而且用了二次排序的例子来做测试,但没有详细的说明二次排序,这一篇说详细的说明二次排序,为了说明曾经一个思想的误区,特地做了一个3个字段的二次排序来说明。后面称其为“三次排序”。测试数据:a1,b2,c5a4,b1,c3a1,b2,c4a2,b2,c4a2,b1,c4 ...
分类:编程语言   时间:2018-12-05 23:19:52    阅读次数:320
CentOS7部署CDH6.0.1大数据平台
Cloudera版本(Cloudera’s Distribution Including Apache Hadoop,简称“CDH”),基于Web的用户界面,支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Spark、 Hbase、Zookeeper、Sqoop,简化了大数据 ...
分类:其他好文   时间:2018-12-05 22:26:39    阅读次数:290
大数据基础之如何导出jar包并放在hdfs上执行
我口才不好,文字描述也不行,但是基本逻辑是通的。导出jar包1.首先完成mapper和reducer还有main方法的编码2。右键点击peopleinfo的包,选择export-》Java-》JARfile,点击NEXT3.输入jar包名称以及导出地址,点击next->next4.点击Browse,选择主方法,点击OK,然后点击Finish放在hdfs上执行mapreduce的方法登陆到大数
分类:编程语言   时间:2018-12-05 21:44:21    阅读次数:218
电商大数据项目-推荐系统实战
本项目是基于Spark MLLib的大数据电商推荐系统项目,使用了scala语言和java语言。基于python语言的推荐系统项目会另外写一篇博客。在阅读本博客以前,需要有以下基础:1.linux的基本命令2.至少有高中及以上的数学基础。3.至少有java se基础,会scala语言和Java EE更佳(Jave EE非必需,但是可以帮助你更快理解项目的架构)。4.有github账户,并且至少知道git clone,fork,branch的概念。5。有网络基础,至少知道服务器端和客户端的区别。6.有大数据基础,最好会Hadoop,HDFS,MapReduce,Sqoop,HBase,Hive,Spark,Storm。7.有mysql数据库基础,至少会最基本的增删改查。
分类:其他好文   时间:2018-12-03 20:00:55    阅读次数:697
eclipse下开发mapreduce需要导入的jar包
1./usr/local/hadoop/share/hadoop/mapreduce下的所有jar包(子文件夹下的jar包不用)2./usr/local/hadoop/share/hadoop/common下的hadoop-common-2.7.2.jar3./usr/local/hadoop/sh ...
分类:编程语言   时间:2018-12-03 01:10:55    阅读次数:542
大数据基础Hadoop 2.x入门
hadoop概述 1. 存储和分析网络数据 2. 三大组件 MapReduce 对海量数据的处理 思想: 分而治之 每个数据集进行逻辑业务处理map 合并统计数据结果reduce HDFS 储存海量数据 分布式存储 安全性高 副本数据 YARN 分布式资源管理框架 管理整个集群的资源(内存、CPU核 ...
分类:其他好文   时间:2018-12-02 18:34:04    阅读次数:409
hadoop开发MapReduce程序
准备工作: 1.设置HADOOP_HOME,指向hadoop安装目录,否则报这个错: 2.在window下,需要把hadoop/bin那个目录替换下,在网上搜一个对应版本的 3.如果还报org.apache.hadoop.io.nativeio.NativeIO$Windows.access0错,把 ...
分类:其他好文   时间:2018-12-02 18:31:08    阅读次数:177
Hadoop之MapReduce 本机windows模式运行
hadoop在windows本机运行 (1)在 windows环境下编译好的hadoop放到没有中文和空格的路径下 (2)编译好的hadoop内的hadoop.all文件要放到windows机器的windows-system32目录下 , 否则报错 (3)配置windows环境下的hadoop环境变 ...
分类:Windows程序   时间:2018-12-01 23:44:34    阅读次数:188
三、spark简介
一、简介 spark的官网:http://spark.apache.org/ spark解决了什么问题? 我们都知道hadoop,hadoop以一个非常容易使用的编程模型解决了大数据的两大难题: 1)分布式存储hdfs; 2)分布式计算mapReduce; 但是hadoop也存在着一些问题,最主要的 ...
分类:其他好文   时间:2018-12-01 01:15:54    阅读次数:289
Hive将SQL转化为MapReduce的过程
Hive将SQL转化为MapReduce的过程: ...
分类:数据库   时间:2018-12-01 00:21:46    阅读次数:355
4054条   上一页 1 ... 71 72 73 74 75 ... 406 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!