# 先定义dataframe各列的数据类型 from pyspark.sql.types import *schema = StructType([ StructField("a", NullType(), True), StructField("b", AtomicType(), True), S ...
分类:
其他好文 时间:
2021-01-18 11:29:36
阅读次数:
0
1.数据格式 1 2 x2 2 x3 2 x4 2 x 2.创建表 创建TEXTFILE格式的表 CREATE TABLE test_txt(id int,num int,txt string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES ...
分类:
其他好文 时间:
2021-01-18 10:51:25
阅读次数:
0
1. 设置执行引擎 set hive.execution.engine=mr;set hive.execution.engine=spark; 如果设置执行引擎为MR,那么调用Hadoop的maprecude来运行需要执行的job的程序; 如果设置执行引擎为spark,那么就会调用spark来执行任 ...
分类:
其他好文 时间:
2021-01-15 12:15:21
阅读次数:
0
mysql 8.0 新增了窗口函数,与Oracle一样的 MySQL从8.0开始支持窗口函数,这个功能在大多商业数据库和部分开源数据库中早已支持,有的也叫分析函数。 什么叫窗口? 窗口的概念非常重要,它可以理解为记录集合,窗口函数也就是在满足某种条件的记录集合上执行的特殊函数。对于每条记录都要在此窗 ...
分类:
数据库 时间:
2021-01-14 11:22:33
阅读次数:
0
一、数据库 Oracle,MySQL,H2(单元测试,内存数据库),NoSQL(一类数据库Not only SQL) 面对的是对象,键值对 data,database,databaseSoft,DBMS,databaseService 二、数据库模型 关系型数据模型 Oracle MySQL SQL ...
分类:
数据库 时间:
2021-01-14 10:57:27
阅读次数:
0
1.分析函数排序 ① row_number() over(partition by xxx order by xxx) 每一组里面编号,不管重复的 ② rank() over(partition by xxx order by xxx) 每一组里面编号,重复的同号,重复的后面会跳号 ③ dense_ ...
分类:
数据库 时间:
2021-01-14 10:47:43
阅读次数:
0
1. pd.get_dummies() #简单&粗暴 pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False, dtype=N ...
分类:
编程语言 时间:
2021-01-14 10:36:43
阅读次数:
0
工作中有一张类型信息表,有时候需要不同的类型信息需要多次扫描这张表,表很大的时候影响效率。 优化前: select t1.fa_id,t2.srch_char_val,t3.srch_char_val from (select fa_id from cisadm_ods.ods_cis_ci_fa_ ...
分类:
其他好文 时间:
2021-01-13 10:40:03
阅读次数:
0
1.超级用户:root(皇帝)UID是0系统唯一,是真实的,可以登陆系统,可以操作系统的任何文件和命令,拥有最高权限。 2.普通用户(平民)UID>=1000(centos7) >=500(centos6)这类用户能登陆系统,但是只能操作自己的家目录的内容,权限有限,这类用户都是系统管理员添加的。 ...
分类:
系统相关 时间:
2021-01-12 11:10:29
阅读次数:
0
一.Linux基础 1.用户 root用户 一个特殊的管理帐户 也被称为超级用户 root已接近完整的系统控制 对系统损害几乎有无限的能力 除非必要,不要登录为 root 普通( 非特权 )用户 权限有限 造成损害的能力比较有限 2.终端(terminal) 在Linux中有很多终端类型 控制台终端 ...
分类:
系统相关 时间:
2021-01-12 10:45:23
阅读次数:
0