* SparkSQL基础 起源: 1、在三四年前,Hive可以说是SQL on Hadoop的唯一选择,负责将SQL编译成可扩展的MapReduce作业。鉴于Hive的性能以及与Spark的兼容,Shark项目由此而生。 2、Shark即Hive on Spark,本质上是通过Hive的HQL解析, ...
分类:
数据库 时间:
2018-01-12 22:43:34
阅读次数:
252
一。前述 今天起剖析源码,先从Client看起,因为Client在MapReduce的过程中承担了很多重要的角色。 二。MapReduce框架主类 代码如下: 第一步,先分析Job,可以看见源码中Job实现了public class Job extends JobContextImpl implem ...
分类:
其他好文 时间:
2018-01-08 23:44:52
阅读次数:
236
1:Spark的官方网址:http://spark.apache.org/ 2:Spark特点: 3:Spark的部署安装(上传jar,过程省略,记得安装好jdk。): 下载网址:http://www.apache.org/dyn/closer.lua/spark/ 或者 http://spark. ...
分类:
其他好文 时间:
2018-01-03 22:38:05
阅读次数:
1745
group,aggregate,mapReduce 分组统计: group() 简单聚合: aggregate() 强大统计: mapReduce() db.collection.group(document) document:{ key:{key1:1,key2:1}, //根据那几个字段分组 ... ...
分类:
其他好文 时间:
2018-01-02 17:27:56
阅读次数:
168
简介: sqoop是一款用于hadoop和关系型数据库之间数据导入导出的工具。你可以通过sqoop把数据从数据库(比如mysql,oracle)导入到hdfs中;也可以把数据从hdfs中导出到关系型数据库中。通过将sqoop的操作命令转化为Hadoop的MapReduce作业进行导入导出,(通常只涉 ...
分类:
其他好文 时间:
2018-01-01 21:57:25
阅读次数:
253
这篇为大家带来hadoop的伪分布模式: 从最简单的方面来说,伪分布模式就是在本地模式上修改配置文件: core-site.xml;hdfs-site.xml;mapred-site.xml;yarn-site.xml4 备注:本地模式见hadoop的安装与配置——第一章:本地模式 思路: |——— ...
分类:
其他好文 时间:
2017-12-26 16:12:22
阅读次数:
379
概述:Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。 Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错 ...
分类:
其他好文 时间:
2017-12-19 01:02:50
阅读次数:
107
jdk安装 jdk环境变量配置 安装hadoop2.6.4 hadoop环境变量配置 hadoop单机配置 以上配置完成后启动hadoop hadoop免密码启动 ...
分类:
系统相关 时间:
2017-12-08 16:16:34
阅读次数:
164
啥是JNetPcap? JNetPcap是由 "Sly Technologies" 开发的开源DPI(Deep Packet Inspection)SDK。 Java平台底层不支持底层网络操作,需要通过JNI封装不同系统提供的C库提供Java访问方法。JnetPcap主要有下面四个特点: 1. 提供 ...
分类:
Web程序 时间:
2017-11-29 20:50:17
阅读次数:
562
本篇文章主要介绍Nosql的一些东西,以及Nosql中比较火的三个数据库Redis、Memchache、MongoDb和他们之间的区别。以下是本文章的阅读目录 一、Nosql介绍 1.Nosql简介 2.Nosql的特点和关系型数据库的区别 3.Redis,Memcache,MongoDb的特点与区 ...
分类:
数据库 时间:
2017-11-29 17:04:48
阅读次数:
259