Hadoop是一个利用大规模计算机集群,可处理大量数据的分布式并行框架。 "Hadoop 官网" Hadoop的核心设计包括HDFS和MapReduce。 HDFS HDFS(Hadoop Distributed File System)是一种分布式文件系统。 主要特点:1.高容错性;2.高吞吐量访 ...
分类:
其他好文 时间:
2018-07-13 23:20:10
阅读次数:
194
安装配置Hadoop 1. 下载Hadoop包 2. 解压Hadoop包 3. 配置Hadoop的环境变量 4. 配置Hadoop的配置文件core site.xml和hdfs site.xml core site.xml文件 hdfs site.xml 5. 创建/Hadoop/tmp /Hado ...
分类:
其他好文 时间:
2018-07-13 22:51:07
阅读次数:
177
6 流的监控以及故障恢复 6.1.流的运行时数据 结构化流启动后返回的 StreamingQuery 对象. 6.2 交互式(同步)监控 可以直接获取活动查询的当前状态和指标使用 streamingQuery.lastProgress() 和 streamingQuery.status() last ...
分类:
其他好文 时间:
2018-07-08 00:30:36
阅读次数:
192
7. 数据源 Spark-SQL 支持通过Dataframe接口对各种数据源进行操作 各种数据源的加载&保存 数据转换(relational transformations) 注册临时视图(temporary view),来允许SQL的形式直接对临时视图进行操作 7.1 数据源加载 Spark-SQ ...
分类:
其他好文 时间:
2018-07-05 01:24:13
阅读次数:
495
简介:如果一个表中数据很多,我们查询时就很慢,耗费大量时间,如果要查询其中部分数据该怎么办呢,这时我们引入分区的概念。Hive中的分区表分为两种:静态分区和动态分区。1.静态分区:可以根据PARTITIONEDBY创建分区表,一个表可以拥有一个或者多个分区,每个分区以文件夹的形式单独存在表文件夹的目录下。分区是以字段的形式在表结构中存在,通过describetable命令可以查看到字段存在,但是该
分类:
其他好文 时间:
2018-07-02 14:50:01
阅读次数:
193
-help 功能:输出这个命令参数手册 -ls 功能:显示目录信息 示例: hadoop fs -ls hdfs://hadoop-server01:9000/ 备注:这些参数中,所有的hdfs路径都可以简写 -->hadoop fs -ls / 等同于上一条命令的效果 -mkdir 功能:在hdf ...
分类:
其他好文 时间:
2018-06-25 17:01:34
阅读次数:
167
LOCAL 指的是操作系统的文件路径,否则默认为HDFS的文件路径 1、向t2和t3的数据表中导入数据 2、导入操作系统的一下三个文件 执行导入命令 3、将HDFS文件中的数据导入到t3中 4、导入到分区表中 指明2个文件 导入分区表中的命令 ...
分类:
其他好文 时间:
2018-06-24 17:54:52
阅读次数:
197
看过好多本hadoop的书,对整个过程始终存在一些疑问,今天终于搞清楚了。立个low-flag。 整体架构好复杂的感觉?其实不复杂 整体架构,namenode/metanode负责维护所有的元数据,datanode负责实际的物理存储,同一份数据datanode上必定多个副本,从而保证高可用。 hdf ...
分类:
其他好文 时间:
2018-06-14 11:39:40
阅读次数:
135
一、HBase数据模型 HBase是一个类似于BigTable的分布式数据库,它是一个稀疏的长期存储的(存在HDFS上)、多维度的、排序的映射表。这张表的索引是行关键字、列关键字和时间戳。HBase的数据都是字符串,没有类型。 例: 可以将一个表想象成一个大的映射关系,通过行键、行键+时间戳或行键+ ...
分类:
其他好文 时间:
2018-06-13 17:18:40
阅读次数:
312
原文出处: pandas.pydata.org 译文出处:石卓林 这是关于pandas的简短介绍,主要面向新用户。可以参阅Cookbook了解更复杂的使用方法。 链接:http://python.jobbole.com/84416/ 习惯上,我们做以下导入 Python 1 2 3 In [1]: ...
分类:
其他好文 时间:
2018-06-13 11:47:34
阅读次数:
170