Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。为什么要学习Spark SQL?如果大家了解Hive的话,应该知道它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapRedu ...
分类:
数据库 时间:
2020-04-05 13:33:32
阅读次数:
113
创建3台虚拟机 主机为桌面版 其他为迷你版本 ******************************常用命令、进程名称****************************启动集群命令: start-all.sh启动zookeeper: zkServer.sh start 启动journal ...
分类:
Web程序 时间:
2020-04-05 00:40:06
阅读次数:
101
一、impala基本介绍? 所有的计算都是基于内存来的,官方推荐每台服务器的内存最少128G起 impala是cloudera提供的一款高效率的sql查询工具,提供实时的查询效果,官方测试性能比hive块3到10倍,其sql查询比sparkSQL还要快,号称是当前大数据领域最快的查询sql工具。 i ...
分类:
其他好文 时间:
2020-04-04 18:48:40
阅读次数:
81
1、环境 代码运行环境:python3.7 相关的库:xlrd、xlwt 2、目的 通过xlrd库读取各个表格的数据,通过xlwt库将读取到的数据写入到一个表格中。 3、实现 在工程目录下,有一个test目录,存放的是待合并的表格,输出表格为merge.xls,就输出在当前工程目录下。每个合并的表格 ...
分类:
编程语言 时间:
2020-04-04 16:12:04
阅读次数:
222
一、什么是Presto? 背景知识:Hive的缺点和Presto的背景 Hive使用MapReduce作为底层计算框架,是专为批处理设计的。但随着数据越来越多,使用Hive进行一个简单的数据查询可能要花费几分到几小时,显然不能满足交互式查询的需求。Presto是一个分布式SQL查询引擎,它被设计为用 ...
分类:
其他好文 时间:
2020-04-04 11:41:05
阅读次数:
80
这个功能可能平时并不需要, 但是今天2020年4月4日,为了哀悼抗疫中牺牲的英雄们,很多网站都变成了黑白的,今天就来看看技术上怎么实现 用css3中的filter属性,可以实现一些像ps中的简单滤镜效果: 灰度: grayscale 模糊: blur 对比度: contrast 色相旋转: hue- ...
分类:
Web程序 时间:
2020-04-04 09:40:46
阅读次数:
149
合并前excel中的数据情况: 合并后的excel中数据情况: 附上代码如下: import pandas as pd year = ['2017','2018']#文件夹的命名 sheet_concat = pd.DataFrame() for i in range(len(year)): she ...
分类:
其他好文 时间:
2020-04-03 21:45:25
阅读次数:
132
在Linux上面kettle-spoon启动问题 文件大小限制问题 修改此文件 /etc/security/limits.conf * soft nofile 327680 * hard nofile 327680 hdfs soft nproc 131072 hdfs hard nproc 131 ...
分类:
编程语言 时间:
2020-04-03 15:03:45
阅读次数:
81
set自定义变量 今天踩了一个坑: 在hive的命令行操作中,用set 命令可以自定义出一个变量,但是在函数中使用时确调不出来,如图 在查找原因时,这位大佬的博客https://www.cnblogs.com/superpang/p/4639145.html启发了我,会不会是命名空间的原因让函数调用 ...
分类:
其他好文 时间:
2020-04-03 00:47:25
阅读次数:
463
语法 get_json_object(json_txt, path) 函数需要传入两个函数,分别为json字符串及解析的path! 一旦传入的json字符串非法,返回null值! Path的写法 $:代表json的根对象 .: 子属性操作符 [] : 代表json array的子脚本操作符 案例 j ...
分类:
Web程序 时间:
2020-04-03 00:23:46
阅读次数:
372