[toc] 1. "Kafka简介" Kafka是一种计算框架,结合了之前的MapReduce批处理和流式计算为一体,可以处理历史数据和实时数据。 流平台具有三个关键功能: 发布和订阅记录流,类似于消息队列或企业消息传递系统。 以容错的持久方式存储记录流。 处理记录流。 Kafka通常用于两大类应用 ...
分类:
其他好文 时间:
2020-03-07 21:04:52
阅读次数:
77
MapReduce 基于HDFS 1.环境搭建起来 伪分布式2.MapReduce是基于HDFS之上的 MapReduce计算的内容应该是HDFS上的文件/文件夹3.计算=>统计=>Mapper阶段=>Reduce阶段 MapReduce的编程模型4.Mapper类 继承Mapper类 重写Mapp ...
分类:
其他好文 时间:
2020-03-07 00:12:42
阅读次数:
69
一、环境准备 1.添加插件到eclipse plugins目录下就可以了 2.把Window编译后的hadoop的文件放到 hadoop的bin目录下 3.配置环境变量 HADOOP_HOME=E:\hadoop\hadoop-2.7.7 Path=%HADOOP_HOME%\bin;%HADOOP ...
分类:
其他好文 时间:
2020-03-06 17:32:14
阅读次数:
84
简单地说,MapReduce就是"任务的分解与结果的汇总"。 MapReduce 是一个分布式运算程序的编程框架,是用户开发“基于 hadoop 的数据分析 应用”的核心框架。MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各 ...
分类:
其他好文 时间:
2020-03-06 11:21:35
阅读次数:
60
Bitmap 问题给40亿个不重复的unsigned int的整数,没排过序的,然后再给一个数,如何快速判断这个数是否在那40亿个数当中?方案1:用位图/Bitmap的方法,申请512M的内存,一个bit位代表一个unsigned int值。读入40亿个数,设置相应的bit位,读入要查询的数,查看相 ...
分类:
数据库 时间:
2020-03-05 22:26:22
阅读次数:
114
一、下载hadoop-eclipse-plugin-2.7.3.jar插件放到eclipse的plugins的目录下 二、把Window编译后的hadoop的文件放到 hadoop的bin目录下 三、添加环境变量的支持 HADOOP_HOME=e:hadoop/hadoop-2.7.7 Path=% ...
分类:
其他好文 时间:
2020-03-05 10:35:29
阅读次数:
71
运用MapReduce来统计一个文章的重复的字数 1.准备一篇文章,并且上传到hdfs 注意编码是要utf 8 这样上传到liunx上面才不会乱码 先上传到linux :rz 在上传到hdfs :hadoop fs put 琵琶行.txt / 2.写MapReduce程序 MapReduce基于ya ...
分类:
其他好文 时间:
2020-03-05 00:59:47
阅读次数:
69
一:数据表建立 (一)创建数据库 hive> create database hadoop; hive> use hadoop; 数据库位置在 hdfs://ns1/user/hive/warehouse/hadoop.db目录下 (二)建表 hive> create table t_order(i ...
分类:
其他好文 时间:
2020-03-02 20:36:46
阅读次数:
82
1、在hadoop-2.9.2目录下新建一个wcinput:mkdir wcinput 2、在wcinput下新建一个文件:touch wc.input 3、vim wc.input,在wc.input中输入: hadoop yarn hadoop mapreduce gong gong 4、回到h ...
分类:
其他好文 时间:
2020-03-01 12:48:53
阅读次数:
60
我的个人博客:https://www.luozhiyun.com/ 为什么需要Spark? MapReduce的缺陷 第一,MapReduce模型的抽象层次低,大量的底层逻辑都需要开发者手工完成。 第二,只提供Map和Reduce两个操作。 举个例子,两个数据集的Join是很基本而且常用的功能,但是 ...
分类:
其他好文 时间:
2020-03-01 12:46:39
阅读次数:
87