Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。为什么要学习Spark SQL?如果大家了解Hive的话,应该知道它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapRedu ...
分类:
数据库 时间:
2020-04-05 13:33:32
阅读次数:
113
创建3台虚拟机 主机为桌面版 其他为迷你版本 ******************************常用命令、进程名称****************************启动集群命令: start-all.sh启动zookeeper: zkServer.sh start 启动journal ...
分类:
Web程序 时间:
2020-04-05 00:40:06
阅读次数:
101
一、impala基本介绍? 所有的计算都是基于内存来的,官方推荐每台服务器的内存最少128G起 impala是cloudera提供的一款高效率的sql查询工具,提供实时的查询效果,官方测试性能比hive块3到10倍,其sql查询比sparkSQL还要快,号称是当前大数据领域最快的查询sql工具。 i ...
分类:
其他好文 时间:
2020-04-04 18:48:40
阅读次数:
81
一、什么是Presto? 背景知识:Hive的缺点和Presto的背景 Hive使用MapReduce作为底层计算框架,是专为批处理设计的。但随着数据越来越多,使用Hive进行一个简单的数据查询可能要花费几分到几小时,显然不能满足交互式查询的需求。Presto是一个分布式SQL查询引擎,它被设计为用 ...
分类:
其他好文 时间:
2020-04-04 11:41:05
阅读次数:
80
在Linux上面kettle-spoon启动问题 文件大小限制问题 修改此文件 /etc/security/limits.conf * soft nofile 327680 * hard nofile 327680 hdfs soft nproc 131072 hdfs hard nproc 131 ...
分类:
编程语言 时间:
2020-04-03 15:03:45
阅读次数:
81
set自定义变量 今天踩了一个坑: 在hive的命令行操作中,用set 命令可以自定义出一个变量,但是在函数中使用时确调不出来,如图 在查找原因时,这位大佬的博客https://www.cnblogs.com/superpang/p/4639145.html启发了我,会不会是命名空间的原因让函数调用 ...
分类:
其他好文 时间:
2020-04-03 00:47:25
阅读次数:
463
语法 get_json_object(json_txt, path) 函数需要传入两个函数,分别为json字符串及解析的path! 一旦传入的json字符串非法,返回null值! Path的写法 $:代表json的根对象 .: 子属性操作符 [] : 代表json array的子脚本操作符 案例 j ...
分类:
Web程序 时间:
2020-04-03 00:23:46
阅读次数:
372
1.版本选型 hadoop 3.1.3 hive 3.1.2 presto 0.233.1 2.Prsto 简介 详细参考:https://prestodb.github.io/docs/current/connector.html 2.1 Presto 优势 多数据源,支持SQL,自定义扩展Con ...
分类:
其他好文 时间:
2020-04-03 00:15:16
阅读次数:
177
1-数据仓库的基本特征 2-数据仓库和数据库的区别 3-数据仓库分层和元数据管理 4-Hive的基本介绍 ...
分类:
其他好文 时间:
2020-04-02 18:03:47
阅读次数:
52
RAW RGB格式 10bit Raw RGB, 就是说用10bit去表示一个R, G, 或者B, 通常的都是用8bit的. 所以你后面处理时要把它转换为8bit的, 比较简单的方法就是将低两位去掉, 因为低两位的信号代表范围很小(0~3), 所以可以忽略不计的. 当然, 你也可以根据转换表去转换, ...
分类:
其他好文 时间:
2020-04-02 11:52:26
阅读次数:
73