先来想一下数据分析的流程,第一步获取数据,因此本节内容就是获取数据以及对数据的基本操作。 1.数据导入 1.1 导入.xlsx文件 要导入一个.xlsx后缀的Excel文件,可以使用pd.read_excel(路径)方法 结果: df_review数据包含了两个字段,listing_id和date ...
分类:
编程语言 时间:
2020-04-17 22:08:50
阅读次数:
317
hive -e ' use bd; set hive.exec.max.dynamic.partitions.pernode=100; set hive.exec.dynamici.partition=true; set hive.exec.dynamic.partition.mode=nonstr ...
分类:
其他好文 时间:
2020-04-16 22:38:02
阅读次数:
109
1.行转列(多行变一行,聚合) 表数据 select * from student; student.id student.name 4 fuqiang 5 minzhu 6 hexie collect_set()函数只接受基本数据类型,它的主要作用是将某字段的值进行去重汇总,产生 array 类型 ...
分类:
其他好文 时间:
2020-04-16 22:31:27
阅读次数:
68
一、简介 使用Python读、写、修改excel分别需要用到xlrd、xlwt以及xlutils模块,这几个模块使用pip安装即可。 二、读excel 1 import xlrd 2 book = xlrd.open_workbook('app_student.xls') 3 sheet = boo ...
分类:
编程语言 时间:
2020-04-16 20:58:43
阅读次数:
77
一、部署安装MySQL注:在安装MySQL前需要卸载掉当前已有的mariadb,然后需要安装gcc环境1、安装cmake[root@mysql~]#wgethttps://github.com/Kitware/CMake/archive/v3.16.4.tar.gz#下载cmake[root@mysql~]#yum-yinstallopenssl-devel#有时候安装cmake的时候会报错,一般
分类:
数据库 时间:
2020-04-15 15:12:26
阅读次数:
82
CommonJoin和MapJoin区别 CommonJoin即传统思路实现Join,性能较差 因为涉及到了shuffle的过程 Common join/shuffle join/reduce join (都是指同一个) MapJoin 也叫作 boardcast join,但是MapJoin不会有 ...
分类:
其他好文 时间:
2020-04-15 13:56:14
阅读次数:
73
官网参考地址:https://docs.gethue.com/administrator/configuration/connectors/ presto和clickhouse的配置方式基本一致 presto的配置 进入hue的家目录执行以下命令 ./build/env/bin/pip instal ...
分类:
其他好文 时间:
2020-04-14 18:51:32
阅读次数:
342
在很多后台管理系统里可能会有导出表格,下载表格,下载压缩包等这样的需求。下面说几种简单的下载的方法: 1.最简单的,有文件的地址,直接使用a标签实现下载(通用模板前端本地下载): <a href="/user/test/xxxx.xls" download="文件名.xls">点击下载</a> 但是 ...
分类:
其他好文 时间:
2020-04-14 10:48:24
阅读次数:
90
1 4.6.1 分区表基本操作 2 1.引入分区表(需要根据日期对日志进行管理) 3 /user/hive/warehouse/log_partition/20170702/20170702.log 4 /user/hive/warehouse/log_partition/20170703/2017 ...
分类:
其他好文 时间:
2020-04-13 22:23:13
阅读次数:
56