总结一下大数据开发基本常识: JDK(做java开发必备的开发工具包) Hadoop(Apache开发的分布式系统的基础框架)三大组件:MapReduce,Yarn,Hdfs Sqoop(数据迁移,清洗) Kettle(数据清洗,格式转换) Hive(基于Hadoop的数据仓库,并不是数据库,需要安 ...
分类:
系统相关 时间:
2020-03-15 22:17:01
阅读次数:
90
原文:如何创建一个自定义的`ErrorHandlerMiddleware`方法 在本文中,我将讲解如何通过自定义ExceptionHandlerMiddleware,以便在中间件管道中发生错误时创建自定义响应,而不是提供一个“重新执行”管道的路径。 作者:依乐祝 译文:https://www.cnb... ...
分类:
其他好文 时间:
2020-03-15 20:25:34
阅读次数:
50
当网络通信时采用TCP协议时,在真正的读写操作之前,server与client之间必须建立一个连接,当读写操作完成后,双方不再需要这个连接时它们可以释放这个连接,连接的建立是需要三次握手的,而释放则需要4次挥手,所以说每个连接的建立都是需要资源消耗和时间消耗的 示意图: 长连接: 所谓长连接,指在一 ...
分类:
其他好文 时间:
2020-03-15 15:14:48
阅读次数:
80
pyspark可用于读取textfile格式的hive表格。 1. 查看hive表的属性方法(在hive或者spark-sql命令行均可): 查询建表信息: show create table database_name.table_name; 查询表的属性信息 (可看到表的格式信息例如,Input ...
分类:
其他好文 时间:
2020-03-14 20:06:06
阅读次数:
166
之前有操作过HBase和Hive的案例,将30w条数据从Hive导入HBase。使用sqoop可以快速简单做到,但是在最新版HBase2.0与最新版Hive3.0之间,旧版sqoop不行,因此当时使用了JDBC来连接两者,达到数据导出的目的。 HBase与Hive的对比 Hive 作为数据仓库,Hi ...
分类:
其他好文 时间:
2020-03-14 18:38:23
阅读次数:
53
前言 那个啥…前面发了2篇文章讲这个商品表的设计,后面越多需求浮出水面才发现设计依旧有问题,好吧,乐观一点,正如我博客的标题一样,我在进化…^_^ 为什么要这样设计 先说几个需求,看看您现在是如何去实现: 一个用户来到我们网站,在前台页面, 1.他要买洗发水,他进入了洗发水的类别,他想买带去屑止痒功 ...
分类:
其他好文 时间:
2020-03-13 20:28:41
阅读次数:
45
介绍 LEFT SEMI JOIN (左半连接)是 IN/EXISTS 子查询的一种更高效的实现。 示例 可以改写为 特点 1、left semi join 的限制是, JOIN 子句中右边的表只能在 ON 子句中设置过滤条件,在 WHERE 子句、SELECT 子句或其他地方过滤都不行。 2、le ...
分类:
其他好文 时间:
2020-03-12 17:09:46
阅读次数:
67
点滴之水,汇成江海! 这个小问题很容易解决,但真的也困扰了我很久! 命令案例: sqoop create-hive-table --connect jdbc:mysql://192.168.44.143:3306/sqooptest --username root --password lam7 - ...
分类:
数据库 时间:
2020-03-11 19:46:01
阅读次数:
72
什么是Spark SQL? Spark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和DataSet,并且作为分布式SQL查询引擎的作用。 我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapRe ...
分类:
数据库 时间:
2020-03-11 10:46:14
阅读次数:
68
数据操作 加载数据 LOAD DATA 加载数据 LOCAL 本地数据,不加LOCAL就是分布式文件系统数据 OVERWRITE表示覆盖表中已有数据,否则表示追加 通过查询语言插入数据 这里使用了OVERWRITE关键字,之前分区内容会被覆盖掉。这是一次插入。 以下为多次插入,对多个分区目录插入数据 ...
分类:
其他好文 时间:
2020-03-10 12:11:23
阅读次数:
88