搜索关键字：mapreduce partitioner，搜索到4100个结果！码迷,mamicode.com！

MapReduce的使用

运用MapReduce来统计一个文章的重复的字数 1.准备一篇文章，并且上传到hdfs 注意编码是要utf 8 这样上传到liunx上面才不会乱码先上传到linux ：rz 在上传到hdfs ：hadoop fs put 琵琶行.txt / 2.写MapReduce程序 MapReduce基于ya ...

分类：其他好文时间：2020-03-05 00:59:47 阅读次数：69

hive(基于mapreduce)的使用

一：数据表建立（一）创建数据库 hive> create database hadoop; hive> use hadoop; 数据库位置在 hdfs://ns1/user/hive/warehouse/hadoop.db目录下（二）建表 hive> create table t_order(i ...

分类：其他好文时间：2020-03-02 20:36:46 阅读次数：82

hadoop之运行官方实例二--WordCount

1、在hadoop-2.9.2目录下新建一个wcinput：mkdir wcinput 2、在wcinput下新建一个文件：touch wc.input 3、vim wc.input，在wc.input中输入： hadoop yarn hadoop mapreduce gong gong 4、回到h ...

分类：其他好文时间：2020-03-01 12:48:53 阅读次数：60

Spark基础全解析

我的个人博客：https://www.luozhiyun.com/ 为什么需要Spark？ MapReduce的缺陷第一，MapReduce模型的抽象层次低，大量的底层逻辑都需要开发者手工完成。第二，只提供Map和Reduce两个操作。举个例子，两个数据集的Join是很基本而且常用的功能，但是 ...

分类：其他好文时间：2020-03-01 12:46:39 阅读次数：87

向hdfs上传文件，运行程序，查看结果

1.建立目录 hdfs dfs -mkdir -p /data/wc/input 2.上传文件 hdfs dfs -D dfs.blocksize=1048576 -put /setup/data.txt /data/wc/input 3.进入运行程序所在目录 cd /software/hadoop ...

分类：Web程序时间：2020-02-29 20:49:02 阅读次数：127

大数据05 MapReduce

MapReduce: 分布式并行编程, 也就是多台机器的 CPU 之间的并行编程. MapReduce 帮你自动实现底层. 分而治之的策略: 理念: 实例: 两个文件, 统计这两个文件中单词的个数 key:单词, value:出现次数 reduce: key - value list. 用 Iter ...

分类：其他好文时间：2020-02-29 15:01:41 阅读次数：64

1，Hadoop知识储备

Hadoop初学思维导图 1，Hadoop ··· Hadoop： Hadoop的核心由HDFS和MapReduce组成。HDFS是分布式文件系统，是Hadoop生态圈的分布式数据存储基石；MapReduce是计算组件，会被Spark取代。 ··· Hadoop生态圈： Hadoop生态圈是一系列用 ...

分类：其他好文时间：2020-02-29 00:17:31 阅读次数：101

hadoop-2.7.1伪分布环境搭建

1.准备Linux环境 1.0 点击VMware快捷方式，右键打开文件所在位置 -> 双击vmnetcfg.exe -> VMnet1 host-only ->修改subnet ip 设置网段：192.168.8.0 子网掩码：255.255.255.0 -> apply -> ok 回到windo ...

分类：其他好文时间：2020-02-27 19:16:47 阅读次数：75

spark计算模型

spark为什么比mapreduce快 mapreduce的数据处理过程是：把数据从磁盘读到内存，在内存中完成计算，再写回磁盘。下一个mr程序要继续对这批数据进行处理，又要重复这一过程。有多少个mr程序，就有多少次读磁盘和写磁盘的过程，效率低下。 spark的数据处理过程是：把数据读到内存之后，在多 ...

分类：其他好文时间：2020-02-25 13:05:09 阅读次数：66

RDD(四)——key_value类型

这里所有算子均只适用于pairRDD。pairRDD的数据类型是（k，v）形式的键值对； PartitionBy(Partitioner) 对pairRDD进行分区操作，如果原有的partioner和现有的partioer是一致的话就不进行分区，否则会生成ShuffleRDD，即会产生shuffl ...

分类：其他好文时间：2020-02-24 19:02:26 阅读次数：96

共4100条上一页 1 ... 20 21 22 23 24 ... 410 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)