搜索关键字：hive 认证类，搜索到5967个结果！码迷,mamicode.com！

Linux-Bigdata

总结一下大数据开发基本常识： JDK（做java开发必备的开发工具包） Hadoop（Apache开发的分布式系统的基础框架）三大组件：MapReduce，Yarn，Hdfs Sqoop（数据迁移，清洗） Kettle（数据清洗，格式转换） Hive（基于Hadoop的数据仓库，并不是数据库，需要安 ...

分类：系统相关时间：2020-03-15 22:17:01 阅读次数：90

如何创建一个自定义的`ErrorHandlerMiddleware`方法

原文:如何创建一个自定义的`ErrorHandlerMiddleware`方法在本文中，我将讲解如何通过自定义ExceptionHandlerMiddleware，以便在中间件管道中发生错误时创建自定义响应，而不是提供一个“重新执行”管道的路径。作者：依乐祝译文：https://www.cnb... ...

分类：其他好文时间：2020-03-15 20:25:34 阅读次数：50

TCP长连接和短连接的区别

当网络通信时采用TCP协议时，在真正的读写操作之前，server与client之间必须建立一个连接，当读写操作完成后，双方不再需要这个连接时它们可以释放这个连接，连接的建立是需要三次握手的，而释放则需要4次挥手，所以说每个连接的建立都是需要资源消耗和时间消耗的示意图：长连接：所谓长连接，指在一 ...

分类：其他好文时间：2020-03-15 15:14:48 阅读次数：80

pyspark读取textfile形成DataFrame以及查询表的属性信息

pyspark可用于读取textfile格式的hive表格。 1. 查看hive表的属性方法（在hive或者spark-sql命令行均可）：查询建表信息： show create table database_name.table_name; 查询表的属性信息 (可看到表的格式信息例如，Input ...

分类：其他好文时间：2020-03-14 20:06:06 阅读次数：166

HBase与Hive集成

之前有操作过HBase和Hive的案例，将30w条数据从Hive导入HBase。使用sqoop可以快速简单做到，但是在最新版HBase2.0与最新版Hive3.0之间，旧版sqoop不行，因此当时使用了JDBC来连接两者，达到数据导出的目的。 HBase与Hive的对比 Hive 作为数据仓库，Hi ...

分类：其他好文时间：2020-03-14 18:38:23 阅读次数：53

再从淘宝数据结构来看电子商务中商品属性设计

前言那个啥…前面发了2篇文章讲这个商品表的设计，后面越多需求浮出水面才发现设计依旧有问题，好吧，乐观一点，正如我博客的标题一样，我在进化…^_^ 为什么要这样设计先说几个需求，看看您现在是如何去实现：一个用户来到我们网站,在前台页面, 1.他要买洗发水，他进入了洗发水的类别，他想买带去屑止痒功 ...

分类：其他好文时间：2020-03-13 20:28:41 阅读次数：45

hive 的 left semi join

介绍 LEFT SEMI JOIN （左半连接）是 IN/EXISTS 子查询的一种更高效的实现。示例可以改写为特点 1、left semi join 的限制是， JOIN 子句中右边的表只能在 ON 子句中设置过滤条件，在 WHERE 子句、SELECT 子句或其他地方过滤都不行。 2、le ...

分类：其他好文时间：2020-03-12 17:09:46 阅读次数：67

sqoop生成与关系数据库表结构对应的hive表结构,但在hive却找不到table

点滴之水，汇成江海！这个小问题很容易解决，但真的也困扰了我很久！命令案例： sqoop create-hive-table --connect jdbc:mysql://192.168.44.143:3306/sqooptest --username root --password lam7 - ...

分类：数据库时间：2020-03-11 19:46:01 阅读次数：72

sparksql 概述

什么是Spark SQL？ Spark SQL是Spark用来处理结构化数据的一个模块，它提供了2个编程抽象：DataFrame和DataSet，并且作为分布式SQL查询引擎的作用。我们已经学习了Hive，它是将Hive SQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapRe ...

分类：数据库时间：2020-03-11 10:46:14 阅读次数：68

Hive数据操作和数据查询

数据操作加载数据 LOAD DATA 加载数据 LOCAL 本地数据，不加LOCAL就是分布式文件系统数据 OVERWRITE表示覆盖表中已有数据，否则表示追加通过查询语言插入数据这里使用了OVERWRITE关键字，之前分区内容会被覆盖掉。这是一次插入。以下为多次插入，对多个分区目录插入数据 ...

分类：其他好文时间：2020-03-10 12:11:23 阅读次数：88

共5967条上一页 1 ... 46 47 48 49 50 ... 597 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)