搜索关键字：mapreduce，搜索到4054个结果！码迷,mamicode.com！

关于MapReduce二次排序的一点解答

上一篇博客说明了怎么自定义Key，而且用了二次排序的例子来做测试，但没有详细的说明二次排序，这一篇说详细的说明二次排序，为了说明曾经一个思想的误区，特地做了一个3个字段的二次排序来说明。后面称其为“三次排序”。测试数据：a1,b2,c5a4,b1,c3a1,b2,c4a2,b2,c4a2,b1,c4 ...

分类：编程语言时间：2018-12-05 23:19:52 阅读次数：320

CentOS7部署CDH6.0.1大数据平台

Cloudera版本（Cloudera’s Distribution Including Apache Hadoop，简称“CDH”），基于Web的用户界面,支持大多数Hadoop组件，包括HDFS、MapReduce、Hive、Spark、 Hbase、Zookeeper、Sqoop,简化了大数据 ...

分类：其他好文时间：2018-12-05 22:26:39 阅读次数：290

大数据基础之如何导出jar包并放在hdfs上执行

我口才不好，文字描述也不行，但是基本逻辑是通的。导出jar包1.首先完成mapper和reducer还有main方法的编码2。右键点击peopleinfo的包，选择export-》Java-》JARfile，点击NEXT3.输入jar包名称以及导出地址,点击next->next4.点击Browse,选择主方法，点击OK，然后点击Finish放在hdfs上执行mapreduce的方法登陆到大数

分类：编程语言时间：2018-12-05 21:44:21 阅读次数：218

电商大数据项目-推荐系统实战

本项目是基于Spark MLLib的大数据电商推荐系统项目，使用了scala语言和java语言。基于python语言的推荐系统项目会另外写一篇博客。在阅读本博客以前，需要有以下基础：1.linux的基本命令2.至少有高中及以上的数学基础。3.至少有java se基础，会scala语言和Java EE更佳(Jave EE非必需，但是可以帮助你更快理解项目的架构)。4.有github账户，并且至少知道git clone，fork，branch的概念。5。有网络基础，至少知道服务器端和客户端的区别。6.有大数据基础，最好会Hadoop,HDFS,MapReduce,Sqoop,HBase,Hive,Spark，Storm。7.有mysql数据库基础，至少会最基本的增删改查。

分类：其他好文时间：2018-12-03 20:00:55 阅读次数：697

eclipse下开发mapreduce需要导入的jar包

1./usr/local/hadoop/share/hadoop/mapreduce下的所有jar包（子文件夹下的jar包不用）2./usr/local/hadoop/share/hadoop/common下的hadoop-common-2.7.2.jar3./usr/local/hadoop/sh ...

分类：编程语言时间：2018-12-03 01:10:55 阅读次数：542

大数据基础Hadoop 2.x入门

hadoop概述 1. 存储和分析网络数据 2. 三大组件 MapReduce 对海量数据的处理思想：分而治之每个数据集进行逻辑业务处理map 合并统计数据结果reduce HDFS 储存海量数据分布式存储安全性高副本数据 YARN 分布式资源管理框架管理整个集群的资源（内存、CPU核 ...

分类：其他好文时间：2018-12-02 18:34:04 阅读次数：409

hadoop开发MapReduce程序

准备工作： 1.设置HADOOP_HOME，指向hadoop安装目录，否则报这个错： 2.在window下，需要把hadoop/bin那个目录替换下，在网上搜一个对应版本的 3.如果还报org.apache.hadoop.io.nativeio.NativeIO$Windows.access0错，把 ...

分类：其他好文时间：2018-12-02 18:31:08 阅读次数：177

Hadoop之MapReduce 本机windows模式运行

hadoop在windows本机运行 (1)在 windows环境下编译好的hadoop放到没有中文和空格的路径下 (2)编译好的hadoop内的hadoop.all文件要放到windows机器的windows-system32目录下 , 否则报错 (3)配置windows环境下的hadoop环境变 ...

分类：Windows程序时间：2018-12-01 23:44:34 阅读次数：188

三、spark简介

一、简介 spark的官网：http://spark.apache.org/ spark解决了什么问题？我们都知道hadoop，hadoop以一个非常容易使用的编程模型解决了大数据的两大难题： 1）分布式存储hdfs； 2）分布式计算mapReduce；但是hadoop也存在着一些问题，最主要的 ...

分类：其他好文时间：2018-12-01 01:15:54 阅读次数：289

Hive将SQL转化为MapReduce的过程

Hive将SQL转化为MapReduce的过程： ...

分类：数据库时间：2018-12-01 00:21:46 阅读次数：355

共4054条上一页 1 ... 71 72 73 74 75 ... 406 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)