搜索关键字：MapReduce，搜索到4054个结果！码迷,mamicode.com！

入门大数据---Kafka是什么？

[toc] 1. "Kafka简介" Kafka是一种计算框架，结合了之前的MapReduce批处理和流式计算为一体，可以处理历史数据和实时数据。流平台具有三个关键功能：发布和订阅记录流，类似于消息队列或企业消息传递系统。以容错的持久方式存储记录流。处理记录流。 Kafka通常用于两大类应用 ...

分类：其他好文时间：2020-03-07 21:04:52 阅读次数：77

MapReduce编程模型

MapReduce 基于HDFS 1.环境搭建起来伪分布式2.MapReduce是基于HDFS之上的 MapReduce计算的内容应该是HDFS上的文件/文件夹3.计算=>统计=>Mapper阶段=>Reduce阶段 MapReduce的编程模型4.Mapper类继承Mapper类重写Mapp ...

分类：其他好文时间：2020-03-07 00:12:42 阅读次数：69

使用ecplise开发MapReduce

一、环境准备 1.添加插件到eclipse plugins目录下就可以了 2.把Window编译后的hadoop的文件放到 hadoop的bin目录下 3.配置环境变量 HADOOP_HOME=E:\hadoop\hadoop-2.7.7 Path=%HADOOP_HOME%\bin;%HADOOP ...

分类：其他好文时间：2020-03-06 17:32:14 阅读次数：84

Mapreduce简介

简单地说，MapReduce就是"任务的分解与结果的汇总"。 MapReduce 是一个分布式运算程序的编程框架，是用户开发“基于 hadoop 的数据分析应用”的核心框架。MapReduce采用"分而治之"的思想，把对大规模数据集的操作，分发给一个主节点管理下的各个分节点共同完成，然后通过整合各 ...

分类：其他好文时间：2020-03-06 11:21:35 阅读次数：60

bitmap、Trie、数据库索引、倒排索引、外排序、Mapreduce

Bitmap 问题给40亿个不重复的unsigned int的整数，没排过序的，然后再给一个数，如何快速判断这个数是否在那40亿个数当中？方案1：用位图/Bitmap的方法，申请512M的内存，一个bit位代表一个unsigned int值。读入40亿个数，设置相应的bit位，读入要查询的数，查看相 ...

分类：数据库时间：2020-03-05 22:26:22 阅读次数：114

Hadoop的MapReduce的插件使用

一、下载hadoop-eclipse-plugin-2.7.3.jar插件放到eclipse的plugins的目录下二、把Window编译后的hadoop的文件放到 hadoop的bin目录下三、添加环境变量的支持 HADOOP_HOME=e:hadoop/hadoop-2.7.7 Path=% ...

分类：其他好文时间：2020-03-05 10:35:29 阅读次数：71

MapReduce的使用

运用MapReduce来统计一个文章的重复的字数 1.准备一篇文章，并且上传到hdfs 注意编码是要utf 8 这样上传到liunx上面才不会乱码先上传到linux ：rz 在上传到hdfs ：hadoop fs put 琵琶行.txt / 2.写MapReduce程序 MapReduce基于ya ...

分类：其他好文时间：2020-03-05 00:59:47 阅读次数：69

hive(基于mapreduce)的使用

一：数据表建立（一）创建数据库 hive> create database hadoop; hive> use hadoop; 数据库位置在 hdfs://ns1/user/hive/warehouse/hadoop.db目录下（二）建表 hive> create table t_order(i ...

分类：其他好文时间：2020-03-02 20:36:46 阅读次数：82

hadoop之运行官方实例二--WordCount

1、在hadoop-2.9.2目录下新建一个wcinput：mkdir wcinput 2、在wcinput下新建一个文件：touch wc.input 3、vim wc.input，在wc.input中输入： hadoop yarn hadoop mapreduce gong gong 4、回到h ...

分类：其他好文时间：2020-03-01 12:48:53 阅读次数：60

Spark基础全解析

我的个人博客：https://www.luozhiyun.com/ 为什么需要Spark？ MapReduce的缺陷第一，MapReduce模型的抽象层次低，大量的底层逻辑都需要开发者手工完成。第二，只提供Map和Reduce两个操作。举个例子，两个数据集的Join是很基本而且常用的功能，但是 ...

分类：其他好文时间：2020-03-01 12:46:39 阅读次数：87

共4054条上一页 1 ... 19 20 21 22 23 ... 406 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)