码迷,mamicode.com
首页 >  
搜索关键字:MapReduce    ( 4054个结果
入门大数据---Kafka是什么?
[toc] 1. "Kafka简介" Kafka是一种计算框架,结合了之前的MapReduce批处理和流式计算为一体,可以处理历史数据和实时数据。 流平台具有三个关键功能: 发布和订阅记录流,类似于消息队列或企业消息传递系统。 以容错的持久方式存储记录流。 处理记录流。 Kafka通常用于两大类应用 ...
分类:其他好文   时间:2020-03-07 21:04:52    阅读次数:77
MapReduce编程模型
MapReduce 基于HDFS 1.环境搭建起来 伪分布式2.MapReduce是基于HDFS之上的 MapReduce计算的内容应该是HDFS上的文件/文件夹3.计算=>统计=>Mapper阶段=>Reduce阶段 MapReduce的编程模型4.Mapper类 继承Mapper类 重写Mapp ...
分类:其他好文   时间:2020-03-07 00:12:42    阅读次数:69
使用ecplise开发MapReduce
一、环境准备 1.添加插件到eclipse plugins目录下就可以了 2.把Window编译后的hadoop的文件放到 hadoop的bin目录下 3.配置环境变量 HADOOP_HOME=E:\hadoop\hadoop-2.7.7 Path=%HADOOP_HOME%\bin;%HADOOP ...
分类:其他好文   时间:2020-03-06 17:32:14    阅读次数:84
Mapreduce简介
简单地说,MapReduce就是"任务的分解与结果的汇总"。 MapReduce 是一个分布式运算程序的编程框架,是用户开发“基于 hadoop 的数据分析 应用”的核心框架。MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各 ...
分类:其他好文   时间:2020-03-06 11:21:35    阅读次数:60
bitmap、Trie、数据库索引、倒排索引、外排序、Mapreduce
Bitmap 问题给40亿个不重复的unsigned int的整数,没排过序的,然后再给一个数,如何快速判断这个数是否在那40亿个数当中?方案1:用位图/Bitmap的方法,申请512M的内存,一个bit位代表一个unsigned int值。读入40亿个数,设置相应的bit位,读入要查询的数,查看相 ...
分类:数据库   时间:2020-03-05 22:26:22    阅读次数:114
Hadoop的MapReduce的插件使用
一、下载hadoop-eclipse-plugin-2.7.3.jar插件放到eclipse的plugins的目录下 二、把Window编译后的hadoop的文件放到 hadoop的bin目录下 三、添加环境变量的支持 HADOOP_HOME=e:hadoop/hadoop-2.7.7 Path=% ...
分类:其他好文   时间:2020-03-05 10:35:29    阅读次数:71
MapReduce的使用
运用MapReduce来统计一个文章的重复的字数 1.准备一篇文章,并且上传到hdfs 注意编码是要utf 8 这样上传到liunx上面才不会乱码 先上传到linux :rz 在上传到hdfs :hadoop fs put 琵琶行.txt / 2.写MapReduce程序 MapReduce基于ya ...
分类:其他好文   时间:2020-03-05 00:59:47    阅读次数:69
hive(基于mapreduce)的使用
一:数据表建立 (一)创建数据库 hive> create database hadoop; hive> use hadoop; 数据库位置在 hdfs://ns1/user/hive/warehouse/hadoop.db目录下 (二)建表 hive> create table t_order(i ...
分类:其他好文   时间:2020-03-02 20:36:46    阅读次数:82
hadoop之运行官方实例二--WordCount
1、在hadoop-2.9.2目录下新建一个wcinput:mkdir wcinput 2、在wcinput下新建一个文件:touch wc.input 3、vim wc.input,在wc.input中输入: hadoop yarn hadoop mapreduce gong gong 4、回到h ...
分类:其他好文   时间:2020-03-01 12:48:53    阅读次数:60
Spark基础全解析
我的个人博客:https://www.luozhiyun.com/ 为什么需要Spark? MapReduce的缺陷 第一,MapReduce模型的抽象层次低,大量的底层逻辑都需要开发者手工完成。 第二,只提供Map和Reduce两个操作。 举个例子,两个数据集的Join是很基本而且常用的功能,但是 ...
分类:其他好文   时间:2020-03-01 12:46:39    阅读次数:87
4054条   上一页 1 ... 19 20 21 22 23 ... 406 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!