前言 目前仅在一家公司做过大数据相关,也不太清楚其他公司情况。东家这常用的大数据离线处理基本就是sqoop导入到hive中,然后使用spark或者hive计算出结果再导出到oracle中。很多情况下是把oracle中整个表或者某个时间条件的筛选出来的数据整个删掉,再把最新的这部分数据全部导数回到or ...
分类:
数据库 时间:
2020-05-05 21:59:35
阅读次数:
102
最近的工作是利用Hive做数据仓库的ETL转换,大致方式是将ETL转换逻辑写在一个hsql文件中,脚本当中都是简单的SQL语句,不包含判断、循环等存储过程中才有的写法,仅仅支持一些简单的变量替换,比如当前账期等。然后通过一个通用的shell脚本来执行hsql文件。该脚本是主要是调用了hive -f ...
分类:
移动开发 时间:
2020-05-04 19:41:21
阅读次数:
296
json数据: [{"authenticate":-99,"last_ip":"156.2.98.429","last_time":"2020/05/23 01:41:36","member_id":5067002,"mg_id":1,"name":"yuanfang","status":0,"us ...
分类:
编程语言 时间:
2020-05-04 17:41:47
阅读次数:
131
前言 有同事问到,Spark读取一张Hive表的数据Task有一万多个,看了Hive表分区下都是3MB~4MB的小文件,每个Task只处理这么小的文件,实在浪费资源浪费时间。而我们都知道Spark的Task数由partitions决定,所以他想通过repartition(num)的方式来改变分区数, ...
分类:
其他好文 时间:
2020-05-03 12:43:20
阅读次数:
54
这里主要是介绍Excel的以下操作:新建工作表、在表格里写数据、合并单元格、设置行高、列宽等操作。其一般的操作步骤如下: 一、导入模块:import xlsxwriter 二、创建workbook对象:workbook = xlsxwriter.Workbook(文件名) 三、创建工作表对象:wor ...
分类:
其他好文 时间:
2020-05-02 16:51:05
阅读次数:
134
1.分桶之前要打开 hive.enforce.bucketiong=true; 2.分桶处理的对象必须是有,有效的列 , 比如我分了三个桶,针对id , 那么就是取id的hash值 , 然后分别放入三个不同之中 ,注意 不能指定数据存放在哪个桶 , 他自己会根据哪个列判断 , 你只需要保证传入的数据 ...
分类:
其他好文 时间:
2020-05-02 12:06:26
阅读次数:
61
1、virtualbox 网卡桥接 vim /etc/sysconfig/network-scripts/ifcfj-enp0s3 onBoot=yes 2、Centos7 3、JDK1.8 4、MobaXterm 5、hadoop2.4.1 6、Hive 0.13 7、Zookeeper3.4.5 ...
分类:
其他好文 时间:
2020-05-02 00:04:41
阅读次数:
51
Hive架构架构原理: 1.4.1 查询语言 由于 SQL 被广泛的应用在数据仓库中,因此,专门针对 Hive 的特性设计了类 SQL 的 查询语言 HQL。熟悉 SQL 开发的开发者可以很方便的使用 Hive 进行开发。 1.4.2 数据存储位置 Hive 是建立在 Hadoop 之上的,所有 H ...
分类:
其他好文 时间:
2020-05-01 16:26:49
阅读次数:
51
1、dbvis 可以导出多种格式的文件,如SQL、XLS、TXT、HTML、JSON、CSV及XML。 需求场景(本场景是实际场景引申的场景,此处导出xls): 最近,遇到一个需求需要将表的结构数据导出来,方便核对分析。(通常我们会导出sql文件,数据库类型相同时,建表语句是可以直接使用,方便在数据 ...
分类:
数据库 时间:
2020-05-01 12:53:02
阅读次数:
98
impala 虽然说查询速度比 hive 快很多,查询出来的数据格式也很漂亮,但是这些数据不能直接复制到excel中使用,十分不方便。 在这里有一个命令可以将查询数据直接导出到文件中。 impala-shell -q "SELECT * from dw_center.order limit 20 " ...
分类:
其他好文 时间:
2020-04-30 17:17:45
阅读次数:
169